JP2004318505A - Method for partially designating and extracting structured document, device for partially designating structured document, device for extracting structured document, program for partially designating structured document and program for extracting structured document - Google Patents

Method for partially designating and extracting structured document, device for partially designating structured document, device for extracting structured document, program for partially designating structured document and program for extracting structured document Download PDF

Info

Publication number
JP2004318505A
JP2004318505A JP2003111701A JP2003111701A JP2004318505A JP 2004318505 A JP2004318505 A JP 2004318505A JP 2003111701 A JP2003111701 A JP 2003111701A JP 2003111701 A JP2003111701 A JP 2003111701A JP 2004318505 A JP2004318505 A JP 2004318505A
Authority
JP
Japan
Prior art keywords
structured document
display area
node
document
coordinate information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003111701A
Other languages
Japanese (ja)
Other versions
JP4046000B2 (en
Inventor
Tadashi Uchiyama
匡 内山
Masaru Miyamoto
勝 宮本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003111701A priority Critical patent/JP4046000B2/en
Publication of JP2004318505A publication Critical patent/JP2004318505A/en
Application granted granted Critical
Publication of JP4046000B2 publication Critical patent/JP4046000B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To reliably extract a designated part even when there are changes in a syntax tree without relying on the start part or end part of the designated part of a structured document such as HTML. <P>SOLUTION: In the syntax tree of a structured document, a user designated part is designated according to an array which has the coordinate information of nodes corresponding to the user designated part and the coordinate information of a series of nodes in the upper rank as elements. In the syntax tree of the updated structured document, with respect to a plurality of paths constituted of a node being a route and a series of nodes in the lower rank, the coordinate information of the display area of each node constituting each path is compared with the coordinate information of the display area of a series of designated nodes so that the node in the lowest rank of the most matching path can be extracted. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、構造化文書の部分指定及び抽出方法及び構造化文書の部分指定装置及び構造化文書の抽出装置及び構造化文書の部分指定プログラム及び構造化文書の抽出プログラムに係り、特に、HTML等の構造化文書から、所望の部分を指定・抽出し、別の構造化文書上で再利用する、あるいは、含まれるテキスト等が変更された後の、当該文書から対応部分を抽出するための構造化文書の部分指定及び抽出方法及び構造化文書の部分指定装置及び構造化文書の抽出装置及び構造化文書の部分指定プログラム及び構造化文書の抽出プログラムに関する。
【0002】
【従来の技術】
日々更新されるHTML等の構造化文書から、ある特定の指定部分を抽出したいというニーズがある。例えば、ユーザが日常訪れるウェブサイトから注目している部分だけを集めて抽出することができれば、ページスクロール等を行うことなく、必要な情報だけを容易に一覧することができる。抽出にあたっては、この指定部分に含まれるテキスト等の変更があったとしても、変更された文書から当初の指定部分を特定した上で最新の情報を抽出することが求められる。
【0003】
これを実現する従来技術として二つを取り上げ、以下に説明する。
【0004】
一つは、WWW情報抽出システムである。HTML等の構造化文書の指定部分の手掛かりとするために、その開始箇所と終了箇所にあるテキストを保存しておく。文書からの指定部分の抽出は、保存されているテキストから開始箇所と終了箇所をHTML中に特定して両者に囲まれた部分を抽出するものである(例えば、特許文献1参照)。
【0005】
もう一つは、WebMethods社が提案する方法や、Iocchiが提案する方法のベースとなっている方法である(例えば、非特許文献1、非特許文献2参照)。
【0006】
HTML等の構造化文書の部分を指定するために、まず文書を図8に示すような構文木に変換し、指定部分を構文木内の位置として保存しておく。文書からの指定部分の抽出は、まず、文書を構文木に変換し、保存されている位置を構文木内に特定してこれに対応する部分を抽出するものである。
【0007】
【特許文献1】
特許第2867986号
【0008】
【非特許文献1】
http://www.w3.org/TR/NOTE−widl.html
【0009】
【非特許文献2】
Luca Iocchi, “The Web−OEM approach to Web information extraction,”Journal of Network and Computer Applications, Vol.22, pp259−269, 1999
【0010】
【発明が解決しようとする課題】
しかしながら、WWW情報抽出システムでは、開始、終了箇所にあるテキストを手掛かりとして、HTML等の構造化文書の部分を指定しているため、このテキスト自身に変更があり得る文書については、図9に示すように、適用できないという問題がある。
【0011】
また、この方法では、図10に示すように、指定される部分を構文木としてみたとき、一般には部分木を構成しないため、この部分を別の構造化文書中で再利用することは困難である。
【0012】
また、WebMethods社や、Iocchiが提案する構造化文書の構文木中の位置に基づく方法では、画面表示には影響がない程度であっても、この構文木自身にある種の変更(兄弟ノードの追加や削除等)がある場合には所期の指定部分を抽出することができないという問題がある。
【0013】
本発明は、上記の点に鑑みなされたもので、指定部分の開始、終了箇所に依存せず、上記のような構文木の変更がある場合でも確実に指定部分を抽出することが可能な構造化文書の部分指定及び抽出方法及び構造化文書抽出装置及び構造化文書抽出プログラムを提供することを目的とする。
【0014】
【課題を解決するための手段】
図1は、本発明の原理を説明するための図である。
【0015】
本発明は、HTML文書を含む構造化文書の部分を指定する構造化文書の部分指定方法において、
構造化文書が格納されている記憶手段から処理対象の構造化文書を読み込んで、表示し(ステップ1)、
表示された構造化文書からユーザによって指定された部分に対応するノードの表示領域の座標情報と、該ノードより上位の一連のノードの表示領域の座標情報を要素とする配列によって、該部分を指定し(ステップ2)、
指定された座標情報を記憶手段に蓄積する(ステップ3)。
【0016】
また、本発明は、構文化文書の構文木において、該構文木の隣接するノードにおいて、子ノードの表示領域を親ノードの表示領域の幅と高さで正規化した相対座標を該表示領域の座標情報とする。
【0017】
本発明は、HTML文書を含む、構文木が変更された構造化文書の部分を抽出する構造化文書の抽出方法において、
構造化文書を記憶手段から読み込み、表示手段に前記構造化文書を表示し(ステップ11)、
部分指定処理により指定され、記憶手段に蓄積されている一連のノードの表示領域の座標情報を読み込み(ステップ12)、
構造化文書の構文木において、ルートとなるノード及び該ノードより下位の一連のノードからなる複数のパスについて、各パスを構成する各ノードの表示領域の座標と、読み出された前記一連のノードの表示領域の座標情報とを比較し(ステップ13)、最もよく一致するパスの最下位のノードを抽出し、出力する(ステップ14)。
【0018】
また、本発明は、構造化文書の構文木において、該構文木の隣接するノードにおいて、子ノードの表示領域を親ノードの表示領域の幅と高さで正規化した相対座標を該表示領域の座標情報とする。
【0019】
図2は、本発明の原理構成図である。
【0020】
本発明は、HTML文書を含む構造化文書の部分を指定する構造化文書の部分指定装置であって、
構造化文書が格納されている記憶手段から処理対象の構造化文書を読み込む文書読込手段110と、
読み込まれた文書を表示する表示手段120と、
表示手段120に表示された構造化文書からユーザによって指定された部分に対応するノードの表示領域の座標情報と、該ノードより上位の一連のノードの表示領域の座標情報を要素とする配列によって、該部分を指定する部分指定手段130と、
指定された座標情報を記憶手段300に保存する位置情報保存手段140と、を有する。
【0021】
また、本発明の部分指定手段130は、
構文化文書の構文木において、該構文木の隣接するノードにおいて、子ノードの表示領域を親ノードの表示領域の幅と高さで正規化した相対座標を該表示領域の座標情報とする手段を有する。
【0022】
本発明は、HTML文書を含む、構文木が変更された構造化文書の部分を抽出する構造化文書の抽出装置であって、
構造化文書を記憶手段から読み込む文書読込手段210と、
読み込まれた前記構造化文書を表示する文書表示手段220と、
部分指定処理により指定され、記憶手段に蓄積されている一連のノードの表示領域の座標情報を読み込む位置情報読込手段240と、
表示された構造化文書の構文木において、ルートとなるノード及び該ノードより下位の一連のノードからなる複数のパスについて、各パスを構成する各ノードの表示領域の座標と、位置情報読込手段240で読み込まれた前記座標情報とを比較し、最もよく一致するパスの最下位のノードを抽出する部分抽出手段230と、
部分抽出手段230で抽出されたノードを出力する部分情報出力手段250と、を有する。
【0023】
また、本発明の部分抽出手段230は、
構造化文書の構文木において、該構文木の隣接するノードにおいて、子ノードの表示領域を親ノードの表示領域の幅と高さで正規化した相対座標を該表示領域の座標情報とする手段を含む。
【0024】
本発明は、HTML文書を含む構造化文書の部分を指定する構造化文書の部分指定プログラムであって、
構造化文書が格納されている記憶手段から処理対象の構造化文書を読み出して、表示する文書読込・表示ステップと、
表示された構造化文書からユーザによって指定された部分に対応するノードの表示領域の座標情報と、該ノードより上位の一連のノードの表示領域の座標情報を要素とする配列によって、該部分を指定する部分指定ステップと、
指定された座標情報を記憶手段に蓄積する位置情報保存ステップと、からなり、コンピュータに実行させる。
【0025】
また、本発明の部分指定ステップは、
構文化文書の構文木において、該構文木の隣接するノードにおいて、子ノードの表示領域を親ノードの表示領域の幅と高さで正規化した相対座標を該表示領域の座標情報とするステップを含む。
【0026】
本発明は、HTML文書を含む、構文木が変更された構造化文書の部分を抽出する構造化文書の抽出プログラムであって、
構造化文書を記憶手段から読み込む読込ステップと、
表示手段に構造化文書を表示する表示ステップと、
部分指定プログラムにより指定され、記憶手段に蓄積されている一連のノードの表示領域の座標情報を読み出す位置情報読込ステップと、
構造化文書の構文木において、ルートとなるノード及び該ノードより下位の一連のノードからなる複数のパスについて、各パスを構成する各ノードの表示領域の座標と、読み出された一連のノードの表示領域の座標情報とを比較し、最もよく一致するパスの最下位のノードを抽出する部分抽出ステップと、
抽出されたノードを出力する部分情報出力ステップと、からなり、コンピュータに実行させる。
【0027】
また、本発明は、部分抽出ステップは、
構造化文書の構文木において、該構文木の隣接するノードにおいて、子ノードの表示領域を親ノードの表示領域の幅と高さで正規化した相対座標を該表示領域の座標情報とする。
【0028】
上記のように、本発明は、HTML等の構造化文書の部分を指定し、抽出スルシステムにおいて、当該文書の構文木において、ユーザが指示する部分に対応するノードの表示領域の座標情報と、これより上位の一連のノードの表示領域の座標情報とを要素とする配列によって当該部分を指定し、また更新された構造化文書の構文木において、ルートとなるノード及びこれより下位の一連のノードからなる複数のパスについて、各パスを構成する各ノードの表示領域の座標情報と、前述の指定された一連のノードの表示領域の座標情報とを比較した時に最も一致するパスの最下位のノードを抽出するものであり、これにより、実際の表示領域の座標を手掛かりにして抽出部分を特定することを特徴としている。
【0029】
【発明の実施の形態】
以下、図面と共に本発明の実施の形態を説明する。
【0030】
図3は、本発明の一実施の形態における構造化文書の部分指定・抽出装置の構成を示す。同図に示す装置は、指定部100と抽出部200及び、位置情報蓄積部300から構成される。なお、本実施の形態では、部分指定・抽出装置として説明するが、部分指定装置及び抽出装置の2つの装置から構成されてもよい。
指定部100は、文書読込部110、文書表示部120、部分指定部130、及び位置情報保存部140から構成される。
【0031】
以下に、上記の構成における動作を説明する。
【0032】
図4は、本発明の一実施の形態における構造化文書の部分指定の動作のフローチャートであり、図5は、本発明の一実施の形態における部分指定の例を示す。
【0033】
ステップ101) 文書読込部110は、データーベース等の記憶手段に格納されている構造化文書を読み込み、文書表示部120に表示する。
【0034】
ステップ102) ユーザは、文書表示部120に表示されたブラウザ上で構造化文書から選択したい部分を指定する。
【0035】
ステップ103) 部分指定部130において、ユーザから指定された部分に対応するノードの表示領域を検出する。検出する方法としては、例えば、Java(登録商標)Script(『Java(登録商標) Script The Definitive Guide, Fourth Edition』David Flanagan O’reilly & Associates, Inc. USA, Dec. 15,2001)を用いるものとする。
【0036】
ステップ104) 次に、部分指定部130は、検出されたノードの表示位置を計算する。
【0037】
ステップ105) さらに、部分指定部130は、構文木に従って、検出されたノードの親ノードの表示領域(座標情報)を検出する。
【0038】
ステップ104,105の処理を最上位ノードまで繰り返す。なお、「Java(登録商標)Script」には、構文木に従ってノードを検索するための方法が用意されている。
【0039】
ステップ106) 次に、位置情報保存部140は、計算された全てのノードの表示位置を位置情報蓄積部300に蓄積する。
【0040】
なお、保存すべきノードの表示領域の座標を、ノードに対応するタグ名等によって予め指定しておくことにより、位置情報蓄積部300に保存される情報量と全体の計算量を削減することができる。
【0041】
また、位置情報蓄積部300に保存する座標情報は、親ノードの表示領域の座標で正規化された相対座標としてもよいし、例えば、構文木中、親ノードの表示領域をその左上、右下の座標を用いて(left0, top0, right0, bottom0)、子ノードの表示領域を同様に(left1, top1, right1, bottom1)とするとき、相対座標は
(left1/(right0−left0), top1/(bottom0−top0), right1/(right0−left0), bottom1/
(bottom0−top0))
などとすることができる。
【0042】
次に、構造化文書の部分指定・抽出装置の抽出部200について説明する。
【0043】
抽出部200は、文書読込部210、文書表示部220、部分抽出部230、位置情報読込部240、及び、部分情報出力部250から構成される。
【0044】
以下に、上記の構成における動作を説明する。
【0045】
図6は、本発明の一実施の形態における指定部分の抽出動作のフローチャートであり、図7は、本発明の一実施の形態における抽出の例を示す。
【0046】
ステップ201) 更新された処理対象とする構造化文書がデーターベース等の記憶手段から、文書読込部210によって読み込まれ、文書表示部220のブラウザ画面上に表示される。
【0047】
ステップ202) 部分抽出部230において、表示されている最上位ノードの表示領域を検出する。具体的には、図7に示す「htmlノード」が選択される。
【0048】
ステップ203) 部分抽出部230は、構文木に従って、当該ノードの子ノードの表示領域を検出する。
【0049】
ステップ204) 位置情報読込部240が、位置情報蓄積部300から位置情報を読み込み、部分抽出部230に渡す。これにより、部分抽出部230は、保存されていた位置情報の表示位置に最もよく一致する子ノードを選択する。
【0050】
なお、上記の子ノードや、直近にある指定されたタグ名を持つノードは、通常複数存在するが、これらの複数のノードから以下の手順によって位置情報蓄積部300に保存されている座標情報に最もよく一致するノードを選択する。
【0051】
ここで、保存されている座標情報を(left2, top2, right2, bottom2)、複数ノードのうち、i番目のものの表示領域の座標情報を、(left(i), top(i), right(i), bottom(i))とする。選択すべきノードを、この両者の距離
|left2−left(i)|+|top2−top(i)|+|right2−right(i)|+|bottom2−bottom(i)|を最小にするiに対応するノードとする。ここで用いる座標情報は、上記で定義される相対座標を用いることができる。さらに、領域に対応する矩形の重心の座標、及び、幅、高さの差

Figure 2004318505
として、両者の距離を比較すれば、文書の更新によって位置のズレが生じたとしても確実に所期の指定部分を抽出できる。
【0052】
ステップ205) 上記のようにして選択されたノードの子ノード(もしくは、直近にある指定されたタグ名を持つノード)について同じ操作を行う。以上の操作を位置情報蓄積部300に保存されている座標情報の数だけ繰り返す。最終的に選択されたノードを抽出し、部分情報出力部250より出力する。
【0053】
また、上記の構造化文書の部分指定部100、抽出部200の構成による処理をプログラムとして構築し、部分指定装置、抽出装置として利用されるコンピュータにインストールし、CPU等の制御手段により実行させることも可能である。また、構築されたプログラムをネットワークを介して流通させることも可能である。
【0054】
また、構築されたプログラムを部分指定装置、抽出装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納しておき、実行時にコンピュータにインストールして実行させることも可能である。
【0055】
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
【0056】
【発明の効果】
上述のように、本発明によれば、構造化文書について、実際の表示領域の座標情報を手掛かりにして抽出部分が特定されるため、指定部分の開始、終了箇所に依存せず、構文木の変更がある場合でも確実に指定部分を抽出できる。
【0057】
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の一実施の形態における構造化文書の部分指定・抽出装置の構成図である。
【図4】本発明の一実施の形態における部分指定の動作のフローチャートである。
【図5】本発明の一実施の形態におけるにおける部分指定の例である。
【図6】本発明の一実施の形態における指定部分の抽出動作のフローチャートである。
【図7】本発明の一実施の形態における抽出の例である。
【図8】HTMLのソースと対応する構文木の例である。
【図9】開始・終了箇所のテキストを手掛かりに部分指定、抽出した例である。
【図10】開始、終了を指示するテキストを手掛かりにしてHTMLの対応部分を抽出した例である。
【符号の説明】
100 指定装置、指定部
110 文書読込手段、文書読込部
120 文書表示手段、文書表示部
130 部分指定手段、部分指定部
140 位置情報保持手段、位置情報保持部
200 抽出装置、抽出部
210 文書読込手段、文書読込部
220 文書表示手段、文書表示部
230 部分抽出手段、部分抽出部
240 位置情報読込手段、位置情報読込部
250 部分情報出力手段、部分情報出力部
300 位置情報蓄積手段、位置情報蓄積部[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a structured document partial designation and extraction method, a structured document partial designation device, a structured document extraction device, a structured document partial designation program, and a structured document extraction program. A structure for specifying and extracting a desired part from a structured document of the same and reusing it on another structured document, or for extracting a corresponding part from the document after a contained text or the like is changed. The present invention relates to a method for partially specifying and extracting structured documents, a device for partially specifying structured documents, a device for extracting structured documents, a program for partially specifying structured documents, and a program for extracting structured documents.
[0002]
[Prior art]
There is a need to extract a specific designated part from a structured document such as HTML that is updated daily. For example, if it is possible to collect and extract only the part of interest from websites that the user visits daily, it is possible to easily list only necessary information without performing page scrolling or the like. In the extraction, even if there is a change in the text or the like included in the designated portion, it is necessary to specify the original designated portion from the changed document and extract the latest information.
[0003]
Two conventional techniques for realizing this are described below.
[0004]
One is a WWW information extraction system. In order to provide a clue to a designated portion of a structured document such as HTML, the texts at the start and end portions are stored. The extraction of a designated portion from a document is to specify a start portion and an end portion in a stored text in HTML, and to extract a portion surrounded by both portions (for example, see Patent Document 1).
[0005]
The other is a method proposed by WebMethods and a method based on a method proposed by Iocchi (for example, see Non-Patent Documents 1 and 2).
[0006]
In order to specify a portion of a structured document such as HTML, the document is first converted into a syntax tree as shown in FIG. 8, and the specified portion is stored as a position in the syntax tree. The extraction of a designated portion from a document is performed by first converting the document into a syntax tree, specifying a stored position in the syntax tree, and extracting a portion corresponding to the position.
[0007]
[Patent Document 1]
Patent No. 2867986 [0008]
[Non-patent document 1]
http: // www. w3. org / TR / NOTE-widl. html
[0009]
[Non-patent document 2]
Luca Iocchi, "The Web-OEM Approach to Web Information Extraction," Journal of Network and Computer Applications, Vol. 22, pp259-269, 1999
[0010]
[Problems to be solved by the invention]
However, in the WWW information extraction system, the text at the start and end points is used as a clue to designate a part of a structured document such as HTML. Therefore, a document whose text itself may be changed is shown in FIG. Thus, there is a problem that it cannot be applied.
[0011]
In addition, in this method, as shown in FIG. 10, when a specified part is viewed as a syntax tree, a subtree is not generally formed, so that it is difficult to reuse this part in another structured document. is there.
[0012]
Also, in the method based on the position in the syntax tree of a structured document proposed by WebMethods and Iocchi, even if the syntax display is not affected, the syntax tree itself undergoes some kind of change (sibling node (Addition, deletion, etc.), there is a problem that the intended designated portion cannot be extracted.
[0013]
The present invention has been made in view of the above points, and has a structure capable of reliably extracting a specified part even when there is a change in the syntax tree as described above, without depending on the start and end of the specified part. It is an object of the present invention to provide a method of specifying and extracting a structured document, a structured document extracting device, and a structured document extracting program.
[0014]
[Means for Solving the Problems]
FIG. 1 is a diagram for explaining the principle of the present invention.
[0015]
The present invention provides a method for specifying a part of a structured document that specifies a part of a structured document including an HTML document,
The structured document to be processed is read from the storage unit in which the structured document is stored and displayed (step 1).
Designation of the part from the displayed structured document by the coordinate information of the display area of the node corresponding to the part specified by the user and the array having the coordinate information of the display area of a series of nodes higher than the node as elements (Step 2),
The designated coordinate information is stored in the storage means (step 3).
[0016]
Further, in the syntax tree of the syntax document, in a node adjacent to the syntax tree, relative coordinates obtained by normalizing the display area of the child node by the width and height of the display area of the parent node are used as the relative coordinates of the display area. Coordinate information.
[0017]
The present invention relates to a structured document extraction method for extracting a part of a structured document in which a syntax tree is changed, including an HTML document,
Reading the structured document from the storage means, displaying the structured document on the display means (step 11),
The coordinate information of the display area of the series of nodes designated by the partial designation process and stored in the storage means is read (step 12).
In the syntax tree of the structured document, for a plurality of paths including a root node and a series of nodes lower than the node, the coordinates of the display area of each node constituting each path, and the series of read nodes Is compared with the coordinate information of the display area (step 13), and the lowest node of the best matching path is extracted and output (step 14).
[0018]
Further, in the syntax tree of the structured document, in a node adjacent to the syntax tree, relative coordinates obtained by normalizing the display area of the child node by the width and height of the display area of the parent node are used as the relative coordinates of the display area. Coordinate information.
[0019]
FIG. 2 is a diagram illustrating the principle of the present invention.
[0020]
The present invention relates to a structured document part specifying device for specifying a part of a structured document including an HTML document,
A document reading unit 110 for reading a structured document to be processed from a storage unit in which the structured document is stored;
Display means 120 for displaying the read document;
By using the coordinate information of the display area of the node corresponding to the part specified by the user from the structured document displayed on the display means 120 and the array having the coordinate information of the display area of a series of nodes higher than the node as elements, A part designating means 130 for designating the part;
And position information storage means 140 for storing the designated coordinate information in the storage means 300.
[0021]
Further, the partial designation means 130 of the present invention
In the syntax tree of the syntax document, means for setting relative coordinates obtained by normalizing the display area of the child node by the width and height of the display area of the parent node at the nodes adjacent to the syntax tree as coordinate information of the display area Have.
[0022]
The present invention is a structured document extraction apparatus for extracting a part of a structured document in which a syntax tree is changed, including an HTML document,
A document reading unit 210 for reading the structured document from the storage unit;
Document display means 220 for displaying the read structured document;
Position information reading means 240 for reading coordinate information of a display area of a series of nodes designated by the partial designation processing and stored in the storage means;
In the syntax tree of the displayed structured document, for a plurality of paths including a root node and a series of nodes lower than the node, the coordinates of the display area of each node constituting each path and the position information reading means 240 A partial extraction unit 230 for comparing the coordinate information read in the step (a) with the first node and extracting a lowest node of a path that best matches the path information;
And a partial information output unit 250 that outputs the node extracted by the partial extraction unit 230.
[0023]
Further, the partial extraction means 230 of the present invention
In the syntax tree of the structured document, means for setting relative coordinates obtained by normalizing the display area of the child node by the width and height of the display area of the parent node at the nodes adjacent to the syntax tree as coordinate information of the display area Including.
[0024]
The present invention provides a structured document part designation program for designating a part of a structured document including an HTML document,
Reading and displaying a structured document to be processed from a storage unit in which the structured document is stored, and reading and displaying the structured document;
Designation of the part from the displayed structured document by the coordinate information of the display area of the node corresponding to the part specified by the user and the array having the coordinate information of the display area of a series of nodes higher than the node as elements Part specifying step to be performed,
And storing the designated coordinate information in the storage means.
[0025]
Further, the partial designation step of the present invention includes:
In the syntax tree of the syntax document, in a node adjacent to the syntax tree, a step of setting relative coordinates obtained by normalizing the display area of the child node by the width and height of the display area of the parent node as coordinate information of the display area Including.
[0026]
The present invention is a structured document extraction program for extracting a part of a structured document in which a syntax tree is changed, including an HTML document,
A reading step for reading the structured document from the storage means;
A display step of displaying the structured document on a display means;
A position information reading step of reading coordinate information of a display area of a series of nodes specified by the partial specifying program and stored in the storage unit;
In the syntax tree of the structured document, for a plurality of paths including a root node and a series of nodes lower than the node, the coordinates of the display area of each node constituting each path, and the A partial extraction step of comparing the coordinate information of the display area and extracting the lowest node of the best matching path;
And outputting the extracted node to the computer.
[0027]
Further, according to the present invention, the partial extraction step includes:
In the syntax tree of the structured document, relative coordinates obtained by normalizing the display area of the child node by the width and height of the display area of the parent node in the nodes adjacent to the syntax tree are set as the coordinate information of the display area.
[0028]
As described above, the present invention specifies a part of a structured document such as HTML, and in an extraction system, in a syntax tree of the document, coordinate information of a display area of a node corresponding to a part designated by a user, The part is designated by an array having the coordinate information of the display area of a series of nodes higher than this as an element, and a root node and a series of nodes lower than this in the syntax tree of the updated structured document When the coordinate information of the display area of each node constituting each path is compared with the coordinate information of the display area of the specified series of nodes for the plurality of paths, This is characterized in that the extracted portion is specified by using the coordinates of the actual display area as a clue.
[0029]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[0030]
FIG. 3 shows the configuration of a structured document partial designation / extraction device according to an embodiment of the present invention. The device shown in FIG. 1 includes a designation unit 100, an extraction unit 200, and a position information storage unit 300. In this embodiment, the description will be made as a partial designation / extraction device, but it may be constituted by two devices, a partial designation device and an extraction device.
The designation unit 100 includes a document reading unit 110, a document display unit 120, a part designation unit 130, and a position information storage unit 140.
[0031]
The operation of the above configuration will be described below.
[0032]
FIG. 4 is a flowchart of an operation of part specification of a structured document according to one embodiment of the present invention, and FIG. 5 shows an example of partial specification according to one embodiment of the present invention.
[0033]
Step 101) The document reading unit 110 reads a structured document stored in a storage unit such as a database and displays the structured document on the document display unit 120.
[0034]
Step 102) The user specifies a portion to be selected from the structured document on the browser displayed on the document display unit 120.
[0035]
Step 103) The part specifying unit 130 detects a display area of a node corresponding to the part specified by the user. As a detection method, for example, Java (registered trademark) Script (“Java (registered trademark) Script The Definitive Guide, Fourth Edition” by David Flaganan O'Reilly & Associates, Inc., US Associates, Inc., 1988) is used. And
[0036]
Step 104) Next, the part designation unit 130 calculates the display position of the detected node.
[0037]
Step 105) Further, the partial designation unit 130 detects the display area (coordinate information) of the parent node of the detected node according to the syntax tree.
[0038]
Steps 104 and 105 are repeated up to the highest node. Note that "Java (registered trademark) Script" provides a method for searching for a node according to a syntax tree.
[0039]
Step 106) Next, the position information storage unit 140 stores the calculated display positions of all nodes in the position information storage unit 300.
[0040]
The coordinates of the display area of the node to be stored are specified in advance by a tag name or the like corresponding to the node, so that the amount of information stored in the position information storage unit 300 and the total calculation amount can be reduced. it can.
[0041]
The coordinate information stored in the position information storage unit 300 may be relative coordinates normalized by the coordinates of the display area of the parent node. For example, in the syntax tree, the display area of the parent node may be displayed at the upper left and lower right. (Left0, top0, right0, bottom0) and the display area of the child node is similarly set to (left1, top1, right1, bottom1), the relative coordinates are (left1 / (right0-left0), top1 / (Bottom0-top0), right1 / (right0-left0), bottom1 /
(Bottom0-top0))
And so on.
[0042]
Next, the extraction unit 200 of the structured document partial designation / extraction device will be described.
[0043]
The extraction unit 200 includes a document reading unit 210, a document display unit 220, a partial extraction unit 230, a position information reading unit 240, and a partial information output unit 250.
[0044]
The operation of the above configuration will be described below.
[0045]
FIG. 6 is a flowchart of an operation of extracting a designated portion in one embodiment of the present invention, and FIG. 7 shows an example of extraction in one embodiment of the present invention.
[0046]
Step 201) The updated structured document to be processed is read from the storage unit such as a database by the document reading unit 210 and displayed on the browser screen of the document display unit 220.
[0047]
Step 202) The partial extraction unit 230 detects the display area of the displayed highest node. Specifically, “html node” shown in FIG. 7 is selected.
[0048]
Step 203) The partial extraction unit 230 detects a display area of a child node of the node according to the syntax tree.
[0049]
Step 204) The position information reading unit 240 reads the position information from the position information storage unit 300 and passes it to the partial extraction unit 230. Thereby, the partial extraction unit 230 selects the child node that best matches the display position of the stored position information.
[0050]
In general, there are a plurality of the above-mentioned child nodes and the nearest node having the specified tag name. However, from these plural nodes, the coordinate information stored in the position information storage unit 300 is stored in the following procedure. Select the best matching node.
[0051]
Here, the stored coordinate information is (left2, top2, right2, bottom2), and the coordinate information of the i-th display area of the plurality of nodes is (left (i), top (i), right (i). ), Bottom (i)). The node to be selected is i that minimizes the distance | left2-left (i) | + | top2-top (i) | + | right2-right (i) | + | bottom2-bottom (i) | Is a node corresponding to. As the coordinate information used here, the relative coordinates defined above can be used. Furthermore, the coordinates of the center of gravity of the rectangle corresponding to the area, and the difference between the width and height
Figure 2004318505
By comparing the distances between the two, it is possible to reliably extract the intended designated portion even if the position is shifted due to the update of the document.
[0052]
Step 205) The same operation is performed on a child node of the node selected as described above (or a node having the nearest specified tag name). The above operation is repeated by the number of pieces of coordinate information stored in the position information storage unit 300. The finally selected node is extracted and output from the partial information output unit 250.
[0053]
In addition, the processing according to the configuration of the above-described structured document partial designation unit 100 and extraction unit 200 is constructed as a program, installed in a computer used as the partial designation device and the extraction device, and executed by control means such as a CPU. Is also possible. It is also possible to distribute the constructed program via a network.
[0054]
In addition, the constructed program is stored in a hard disk device connected to a computer used as a partial designation device and an extraction device, or in a portable storage medium such as a flexible disk or a CD-ROM, and is installed in the computer at the time of execution. It is also possible to execute it.
[0055]
It should be noted that the present invention is not limited to the above embodiment, and various changes and applications are possible within the scope of the claims.
[0056]
【The invention's effect】
As described above, according to the present invention, since the extracted portion is specified by using the coordinate information of the actual display area as a clue in the structured document, the syntax tree is not dependent on the start and end of the specified portion. Even if there is a change, the specified part can be reliably extracted.
[0057]
[Brief description of the drawings]
FIG. 1 is a diagram for explaining the principle of the present invention.
FIG. 2 is a principle configuration diagram of the present invention.
FIG. 3 is a configuration diagram of a structured document partial designation / extraction device according to an embodiment of the present invention.
FIG. 4 is a flowchart of a partial designation operation according to the embodiment of the present invention.
FIG. 5 is an example of partial designation according to an embodiment of the present invention.
FIG. 6 is a flowchart of an operation of extracting a designated portion according to an embodiment of the present invention.
FIG. 7 is an example of extraction according to an embodiment of the present invention.
FIG. 8 is an example of a syntax tree corresponding to an HTML source.
FIG. 9 is an example in which part designation and extraction are performed based on texts at start and end points as clues.
FIG. 10 is an example in which a corresponding part of HTML is extracted using texts instructing start and end as clues.
[Explanation of symbols]
REFERENCE SIGNS LIST 100 designation device, designation unit 110 document reading unit, document reading unit 120 document display unit, document display unit 130 partial designation unit, partial designation unit 140 position information holding unit, position information holding unit 200 extraction device, extraction unit 210 document reading unit Document reading unit 220 Document display unit, Document display unit 230 Partial extraction unit, Partial extraction unit 240 Positional information reading unit, Positional information reading unit 250 Partial information output unit, Partial information output unit 300 Positional information storage unit, Positional information storage unit

Claims (12)

HTML文書を含む構造化文書の部分を指定する構造化文書の部分指定方法において、
構造化文書が格納されている記憶手段から処理対象の構造化文書を読み込んで、表示し、
表示された前記構造化文書からユーザによって指定された部分に対応するノードの表示領域の座標情報と、該ノードより上位の一連のノードの表示領域の座標情報を要素とする配列によって、該部分を指定し、
指定された座標情報を記憶手段に蓄積する、ことを特徴とする構造化文書の部分指定方法。
In a method for designating a part of a structured document that designates a part of a structured document including an HTML document,
The structured document to be processed is read from the storage unit in which the structured document is stored, displayed, and displayed.
The coordinate information of the display area of the node corresponding to the part specified by the user from the displayed structured document, and the array having the coordinate information of the display area of the series of nodes higher than the node as an element, Specify,
A method for partially specifying a structured document, comprising storing specified coordinate information in a storage unit.
前記構文化文書の構文木において、該構文木の隣接するノードにおいて、子ノードの表示領域を親ノードの表示領域の幅と高さで正規化した相対座標を該表示領域の座標情報とする請求項1記載の構造化文書の部分指定方法。In a syntax tree of the syntax document, relative coordinates obtained by normalizing a display area of a child node with a width and a height of a display area of a parent node in a node adjacent to the syntax tree are set as coordinate information of the display area. A method for designating a part of a structured document according to item 1. HTML文書を含む、構文木が変更された構造化文書の部分を抽出する構造化文書の抽出方法において、
前記構造化文書を記憶手段から読み込み、表示手段に前記構造化文書を表示し、
部分指定処理により指定され、記憶手段に蓄積されている一連のノードの表示領域の座標情報を読み出し、
前記構造化文書の構文木において、ルートとなるノード及び該ノードより下位の一連のノードからなる複数のパスについて、各パスを構成する各ノードの表示領域の座標と、読み出された前記一連のノードの表示領域の座標情報とを比較し、最もよく一致するパスの最下位のノードを抽出し、出力することを特徴とする構造化文書の抽出方法。
In a structured document extraction method for extracting a part of a structured document in which a syntax tree is changed, including an HTML document,
Reading the structured document from storage means, displaying the structured document on display means,
Read the coordinate information of the display area of the series of nodes specified by the partial specification process and stored in the storage unit,
In the syntax tree of the structured document, for a plurality of paths including a root node and a series of nodes lower than the node, the coordinates of the display area of each node constituting each path and the read sequence of the series A method for extracting a structured document, comprising: comparing the coordinate information of a display area of a node with the coordinate information of the display area;
前記構造化文書の構文木において、該構文木の隣接するノードにおいて、子ノードの表示領域を親ノードの表示領域の幅と高さで正規化した相対座標を該表示領域の座標情報とする請求項3記載の構造化文書の抽出方法。In the syntax tree of the structured document, relative information obtained by normalizing a display area of a child node by a width and a height of a display area of a parent node in a node adjacent to the syntax tree is set as coordinate information of the display area. Item 3. The method for extracting a structured document according to Item 3. HTML文書を含む構造化文書の部分を指定する構造化文書の部分指定装置であって、
構造化文書が格納されている記憶手段から処理対象の構造化文書を読み込む文書読込手段と、
読み込まれた文書を表示する表示手段と、
表示手段に表示された前記構造化文書からユーザによって指定された部分に対応するノードの表示領域の座標情報と、該ノードより上位の一連のノードの表示領域の座標情報を要素とする配列によって、該部分を指定する部分指定手段と、
指定された座標情報を記憶手段に保存する位置情報保存手段と、を有することを特徴とする構造化文書の部分指定装置。
An apparatus for designating a part of a structured document that specifies a part of a structured document including an HTML document,
A document reading unit that reads a structured document to be processed from a storage unit that stores the structured document;
Display means for displaying the read document;
By the array having the coordinate information of the display area of the node corresponding to the portion designated by the user from the structured document displayed on the display means and the coordinate information of the display area of a series of nodes higher than the node, Part designating means for designating the part;
And a position information storage unit for storing the designated coordinate information in the storage unit.
前記部分指定手段は、
前記構文化文書の構文木において、該構文木の隣接するノードにおいて、子ノードの表示領域を親ノードの表示領域の幅と高さで正規化した相対座標を該表示領域の座標情報とする手段を有する請求項4記載の構造化文書の部分指定装置。
The partial designation means,
In the syntax tree of the syntax document, a relative coordinate obtained by normalizing a display area of a child node with a width and a height of a display area of a parent node in a node adjacent to the syntax tree is used as coordinate information of the display area. 5. The apparatus according to claim 4, further comprising the step of:
HTML文書を含む、構文木が変更された構造化文書の部分を抽出する構造化文書の抽出装置であって、
前記構造化文書を記憶手段から読み込む文書読込手段と、
読み込まれた前記構造化文書を表示する文書表示手段と、
部分指定処理により指定され、記憶手段に蓄積されている一連のノードの表示領域の座標情報を読み込む位置情報読込手段と、
表示された前記構造化文書の構文木において、ルートとなるノード及び該ノードより下位の一連のノードからなる複数のパスについて、各パスを構成する各ノードの表示領域の座標と、前記位置情報読込手段で読み込まれた前記座標情報とを比較し、最もよく一致するパスの最下位のノードを抽出する部分抽出手段と、
前記部分抽出手段で抽出されたノードを出力する部分情報出力手段と、を有することを特徴とする構造化文書の抽出装置。
A structured document extraction apparatus for extracting a part of a structured document in which a syntax tree is changed, including an HTML document,
Document reading means for reading the structured document from storage means,
Document display means for displaying the read structured document;
Position information reading means for reading coordinate information of a display area of a series of nodes designated by the partial designation processing and stored in the storage means;
In the displayed syntax tree of the structured document, for a plurality of paths including a root node and a series of nodes below the node, the coordinates of the display area of each node constituting each path and the reading of the position information Means for comparing the coordinate information read by the means, and extracting the lowest node of the best matching path,
And a partial information output means for outputting the node extracted by the partial extraction means.
前記部分抽出手段は、
前記構造化文書の構文木において、該構文木の隣接するノードにおいて、子ノードの表示領域を親ノードの表示領域の幅と高さで正規化した相対座標を該表示領域の座標情報とする手段を含む請求項7記載の構造化文書の抽出装置。
The partial extraction means,
In the syntax tree of the structured document, relative coordinates obtained by normalizing the display area of the child node by the width and height of the display area of the parent node at the adjacent nodes of the syntax tree are used as coordinate information of the display area. The structured document extraction device according to claim 7, comprising:
HTML文書を含む構造化文書の部分を指定する構造化文書の部分指定プログラムであって、
構造化文書が格納されている記憶手段から処理対象の構造化文書を読み出して、表示する文書読込・表示ステップと、
表示された前記構造化文書からユーザによって指定された部分に対応するノードの表示領域の座標情報と、該ノードより上位の一連のノードの表示領域の座標情報を要素とする配列によって、該部分を指定する部分指定ステップと、
指定された座標情報を記憶手段に蓄積する位置情報保存ステップと、からなり、コンピュータに実行させることを特徴とする構造化文書の部分指定プログラム。
A part specification program for a structured document that specifies a part of a structured document including an HTML document,
Reading and displaying a structured document to be processed from a storage unit in which the structured document is stored, and reading and displaying the structured document;
The coordinate information of the display area of the node corresponding to the part specified by the user from the displayed structured document, and the array having the coordinate information of the display area of the series of nodes higher than the node as an element, A part specifying step to specify;
A position information storing step of storing specified coordinate information in a storage means, the program being executed by a computer.
前記部分指定ステップは、
前記構文化文書の構文木において、該構文木の隣接するノードにおいて、子ノードの表示領域を親ノードの表示領域の幅と高さで正規化した相対座標を該表示領域の座標情報とするステップを含む請求項9記載の構造化文書の部分指定プログラム。
The part designation step includes:
In the syntax tree of the syntax document, in a node adjacent to the syntax tree, relative information obtained by normalizing the display area of the child node by the width and height of the display area of the parent node is used as coordinate information of the display area. 10. The program according to claim 9, further comprising:
HTML文書を含む、構文木が変更された構造化文書の部分を抽出する構造化文書の抽出プログラムであって、
前記構造化文書を記憶手段から読み込む読込ステップと、
表示手段に前記構造化文書を表示する表示ステップと、
部分指定プログラムにより指定され、記憶手段に蓄積されている一連のノードの表示領域の座標情報を読み出す位置情報読込ステップと、
前記構造化文書の構文木において、ルートとなるノード及び該ノードより下位の一連のノードからなる複数のパスについて、各パスを構成する各ノードの表示領域の座標と、読み出された前記一連のノードの表示領域の座標情報とを比較し、最もよく一致するパスの最下位のノードを抽出する部分抽出ステップと、
抽出された前記ノードを出力する部分情報出力ステップと、からなり、コンピュータに実行させることを特徴とする構造化文書の抽出プログラム。
A structured document extraction program for extracting a part of a structured document in which a syntax tree is changed, including an HTML document,
A reading step of reading the structured document from storage means,
A display step of displaying the structured document on display means;
A position information reading step of reading coordinate information of a display area of a series of nodes specified by the partial specifying program and stored in the storage unit;
In the syntax tree of the structured document, for a plurality of paths including a root node and a series of nodes lower than the node, the coordinates of the display area of each node constituting each path and the read sequence of the series A partial extraction step of comparing the coordinate information of the display area of the node and extracting the lowest node of the best matching path;
A partial information output step of outputting the extracted nodes, the program being executed by a computer.
前記部分抽出ステップは、
前記構造化文書の構文木において、該構文木の隣接するノードにおいて、子ノードの表示領域を親ノードの表示領域の幅と高さで正規化した相対座標を該表示領域の座標情報とする請求項11記載の構造化文書の抽出プログラム。
The partial extraction step includes:
In the syntax tree of the structured document, relative information obtained by normalizing a display area of a child node with a width and a height of a display area of a parent node in a node adjacent to the syntax tree is set as coordinate information of the display area. Item 13. The structured document extraction program according to Item 11.
JP2003111701A 2003-04-16 2003-04-16 Structured document extraction method, apparatus and program Expired - Lifetime JP4046000B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003111701A JP4046000B2 (en) 2003-04-16 2003-04-16 Structured document extraction method, apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003111701A JP4046000B2 (en) 2003-04-16 2003-04-16 Structured document extraction method, apparatus and program

Publications (2)

Publication Number Publication Date
JP2004318505A true JP2004318505A (en) 2004-11-11
JP4046000B2 JP4046000B2 (en) 2008-02-13

Family

ID=33472180

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003111701A Expired - Lifetime JP4046000B2 (en) 2003-04-16 2003-04-16 Structured document extraction method, apparatus and program

Country Status (1)

Country Link
JP (1) JP4046000B2 (en)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010503124A (en) * 2006-09-06 2010-01-28 アップル インコーポレイテッド Portable electronic device, method and graphic user interface for displaying structured electronic documents
JP2012059212A (en) * 2010-09-13 2012-03-22 Nippon Telegr & Teleph Corp <Ntt> Extraction apparatus, extraction method and extraction program
US8214768B2 (en) 2007-01-05 2012-07-03 Apple Inc. Method, system, and graphical user interface for viewing multiple application windows
US8438504B2 (en) 2010-01-06 2013-05-07 Apple Inc. Device, method, and graphical user interface for navigating through multiple viewing areas
US8531423B2 (en) 2006-09-06 2013-09-10 Apple Inc. Video manager for portable multifunction device
JP2013218627A (en) * 2012-04-12 2013-10-24 Nippon Telegr & Teleph Corp <Ntt> Method and device for extracting information from structured document and program
JP2014049088A (en) * 2012-09-04 2014-03-17 Nippon Telegr & Teleph Corp <Ntt> Document structure analysis device and program
US8842074B2 (en) 2006-09-06 2014-09-23 Apple Inc. Portable electronic device performing similar operations for different gestures
US9367232B2 (en) 2007-01-07 2016-06-14 Apple Inc. Portable multifunction device, method, and graphical user interface supporting user navigations of graphical objects on a touch screen display
US9619143B2 (en) 2008-01-06 2017-04-11 Apple Inc. Device, method, and graphical user interface for viewing application launch icons
US9772751B2 (en) 2007-06-29 2017-09-26 Apple Inc. Using gestures to slide between user interfaces
US9933913B2 (en) 2005-12-30 2018-04-03 Apple Inc. Portable electronic device with interface reconfiguration mode
US10313505B2 (en) 2006-09-06 2019-06-04 Apple Inc. Portable multifunction device, method, and graphical user interface for configuring and displaying widgets
US10620780B2 (en) 2007-09-04 2020-04-14 Apple Inc. Editing interface
US11126321B2 (en) 2007-09-04 2021-09-21 Apple Inc. Application menu user interface

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916255B (en) * 2010-07-02 2012-02-15 互动在线(北京)科技有限公司 HTML (Hypertext Markup Language) content contrast device and method

Cited By (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9933913B2 (en) 2005-12-30 2018-04-03 Apple Inc. Portable electronic device with interface reconfiguration mode
US12026352B2 (en) 2005-12-30 2024-07-02 Apple Inc. Portable electronic device with interface reconfiguration mode
US11650713B2 (en) 2005-12-30 2023-05-16 Apple Inc. Portable electronic device with interface reconfiguration mode
US11449194B2 (en) 2005-12-30 2022-09-20 Apple Inc. Portable electronic device with interface reconfiguration mode
US10915224B2 (en) 2005-12-30 2021-02-09 Apple Inc. Portable electronic device with interface reconfiguration mode
US10884579B2 (en) 2005-12-30 2021-01-05 Apple Inc. Portable electronic device with interface reconfiguration mode
US10359907B2 (en) 2005-12-30 2019-07-23 Apple Inc. Portable electronic device with interface reconfiguration mode
US11240362B2 (en) 2006-09-06 2022-02-01 Apple Inc. Portable multifunction device, method, and graphical user interface for configuring and displaying widgets
US10838617B2 (en) 2006-09-06 2020-11-17 Apple Inc. Portable electronic device performing similar operations for different gestures
US8842074B2 (en) 2006-09-06 2014-09-23 Apple Inc. Portable electronic device performing similar operations for different gestures
US12028473B2 (en) 2006-09-06 2024-07-02 Apple Inc. Portable multifunction device, method, and graphical user interface for configuring and displaying widgets
JP2017016686A (en) * 2006-09-06 2017-01-19 アップル インコーポレイテッド Portable electronic device, method, and graphical user interface for displaying structured electronic document
US11921969B2 (en) 2006-09-06 2024-03-05 Apple Inc. Portable electronic device, method, and graphical user interface for displaying structured electronic documents
US9690446B2 (en) 2006-09-06 2017-06-27 Apple Inc. Portable electronic device, method, and graphical user interface for displaying structured electronic documents
US11736602B2 (en) 2006-09-06 2023-08-22 Apple Inc. Portable multifunction device, method, and graphical user interface for configuring and displaying widgets
US9927970B2 (en) 2006-09-06 2018-03-27 Apple Inc. Portable electronic device performing similar operations for different gestures
US8669950B2 (en) 2006-09-06 2014-03-11 Apple Inc. Portable electronic device, method, and graphical user interface for displaying structured electronic documents
US10222977B2 (en) 2006-09-06 2019-03-05 Apple Inc. Portable electronic device performing similar operations for different gestures
US10228815B2 (en) 2006-09-06 2019-03-12 Apple Inc. Portable electronic device, method, and graphical user interface for displaying structured electronic documents
US11592952B2 (en) 2006-09-06 2023-02-28 Apple Inc. Portable electronic device, method, and graphical user interface for displaying structured electronic documents
US10313505B2 (en) 2006-09-06 2019-06-04 Apple Inc. Portable multifunction device, method, and graphical user interface for configuring and displaying widgets
US11481112B2 (en) 2006-09-06 2022-10-25 Apple Inc. Portable electronic device performing similar operations for different gestures
US11481106B2 (en) 2006-09-06 2022-10-25 Apple Inc. Video manager for portable multifunction device
JP2010503124A (en) * 2006-09-06 2010-01-28 アップル インコーポレイテッド Portable electronic device, method and graphic user interface for displaying structured electronic documents
US10656778B2 (en) 2006-09-06 2020-05-19 Apple Inc. Portable electronic device, method, and graphical user interface for displaying structured electronic documents
US11106326B2 (en) 2006-09-06 2021-08-31 Apple Inc. Portable electronic device, method, and graphical user interface for displaying structured electronic documents
US11023122B2 (en) 2006-09-06 2021-06-01 Apple Inc. Video manager for portable multifunction device
US10778828B2 (en) 2006-09-06 2020-09-15 Apple Inc. Portable multifunction device, method, and graphical user interface for configuring and displaying widgets
US8531423B2 (en) 2006-09-06 2013-09-10 Apple Inc. Video manager for portable multifunction device
US8547355B2 (en) 2006-09-06 2013-10-01 Apple Inc. Video manager for portable multifunction device
US8214768B2 (en) 2007-01-05 2012-07-03 Apple Inc. Method, system, and graphical user interface for viewing multiple application windows
US11586348B2 (en) 2007-01-07 2023-02-21 Apple Inc. Portable multifunction device, method, and graphical user interface supporting user navigations of graphical objects on a touch screen display
US9367232B2 (en) 2007-01-07 2016-06-14 Apple Inc. Portable multifunction device, method, and graphical user interface supporting user navigations of graphical objects on a touch screen display
US10732821B2 (en) 2007-01-07 2020-08-04 Apple Inc. Portable multifunction device, method, and graphical user interface supporting user navigations of graphical objects on a touch screen display
US10254949B2 (en) 2007-01-07 2019-04-09 Apple Inc. Portable multifunction device, method, and graphical user interface supporting user navigations of graphical objects on a touch screen display
US11169691B2 (en) 2007-01-07 2021-11-09 Apple Inc. Portable multifunction device, method, and graphical user interface supporting user navigations of graphical objects on a touch screen display
US11507255B2 (en) 2007-06-29 2022-11-22 Apple Inc. Portable multifunction device with animated sliding user interface transitions
US10761691B2 (en) 2007-06-29 2020-09-01 Apple Inc. Portable multifunction device with animated user interface transitions
US9772751B2 (en) 2007-06-29 2017-09-26 Apple Inc. Using gestures to slide between user interfaces
US11861138B2 (en) 2007-09-04 2024-01-02 Apple Inc. Application menu user interface
US11126321B2 (en) 2007-09-04 2021-09-21 Apple Inc. Application menu user interface
US11604559B2 (en) 2007-09-04 2023-03-14 Apple Inc. Editing interface
US10620780B2 (en) 2007-09-04 2020-04-14 Apple Inc. Editing interface
US11010017B2 (en) 2007-09-04 2021-05-18 Apple Inc. Editing interface
US10628028B2 (en) 2008-01-06 2020-04-21 Apple Inc. Replacing display of icons in response to a gesture
US9619143B2 (en) 2008-01-06 2017-04-11 Apple Inc. Device, method, and graphical user interface for viewing application launch icons
US8438504B2 (en) 2010-01-06 2013-05-07 Apple Inc. Device, method, and graphical user interface for navigating through multiple viewing areas
JP2012059212A (en) * 2010-09-13 2012-03-22 Nippon Telegr & Teleph Corp <Ntt> Extraction apparatus, extraction method and extraction program
JP2013218627A (en) * 2012-04-12 2013-10-24 Nippon Telegr & Teleph Corp <Ntt> Method and device for extracting information from structured document and program
JP2014049088A (en) * 2012-09-04 2014-03-17 Nippon Telegr & Teleph Corp <Ntt> Document structure analysis device and program

Also Published As

Publication number Publication date
JP4046000B2 (en) 2008-02-13

Similar Documents

Publication Publication Date Title
JP2004318505A (en) Method for partially designating and extracting structured document, device for partially designating structured document, device for extracting structured document, program for partially designating structured document and program for extracting structured document
US7913163B1 (en) Determining semantically distinct regions of a document
US7730104B2 (en) Extraction of information from structured documents
JP5015935B2 (en) Mobile site map
US20160188744A1 (en) Data detection method, data detection device, and program
JP2012529688A (en) Update notification method and system
JP2004145794A (en) Structured/layered content processor, structured/layered content processing method, and program
KR20130143725A (en) Cross-compiling swf to html using an intermediate format
US10769216B2 (en) Data acquisition method, data acquisition apparatus, and recording medium
JP2020098596A (en) Method, device and storage medium for extracting information from web page
US20180181550A1 (en) Screen information generation device and screen information generation method
JP2010198058A (en) Document processing system and method
JP2008052378A (en) Task retrieval device, method, and program
JP2010015292A (en) Emphasis display addition method, display control program and server
JP4801555B2 (en) Document processing apparatus, document processing method, and document processing program
JP7260150B2 (en) WEBSITE DESIGN SUPPORT DEVICE, WEBSITE DESIGN SUPPORT METHOD, AND PROGRAM
JP2011076264A (en) Retrieval control device, retrieval control method, and program
US10726076B2 (en) Information acquisition method, and information acquisition device
JP5068356B2 (en) Blog body identification device and blog body identification method
JP2009230483A (en) Information retrieving method, program and device
JP6200392B2 (en) Information presenting apparatus and information presenting program
JP4951407B2 (en) Content parts retrieval method and apparatus
JP5670944B2 (en) Document summarization apparatus, method and program
JP5202598B2 (en) Workflow management device and workflow management program
JP2013061702A (en) Structured document processing device, method for determining similar area in structured document, and program for determining similar area in structured document

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070724

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070921

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071112

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101130

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4046000

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101130

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111130

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111130

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121130

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121130

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131130

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term