JP2004318505A - Method for partially designating and extracting structured document, device for partially designating structured document, device for extracting structured document, program for partially designating structured document and program for extracting structured document - Google Patents

Method for partially designating and extracting structured document, device for partially designating structured document, device for extracting structured document, program for partially designating structured document and program for extracting structured document

Info

Publication number
JP2004318505A
JP2004318505A JP2003111701A JP2003111701A JP2004318505A JP 2004318505 A JP2004318505 A JP 2004318505A JP 2003111701 A JP2003111701 A JP 2003111701A JP 2003111701 A JP2003111701 A JP 2003111701A JP 2004318505 A JP2004318505 A JP 2004318505A
Authority
JP
Grant status
Application
Patent type
Prior art keywords
structured
document
designated
part
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003111701A
Other languages
Japanese (ja)
Other versions
JP4046000B2 (en )
Inventor
Masaru Miyamoto
Tadashi Uchiyama
匡 内山
勝 宮本
Original Assignee
Nippon Telegr & Teleph Corp <Ntt>
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To reliably extract a designated part even when there are changes in a syntax tree without relying on the start part or end part of the designated part of a structured document such as HTML. <P>SOLUTION: In the syntax tree of a structured document, a user designated part is designated according to an array which has the coordinate information of nodes corresponding to the user designated part and the coordinate information of a series of nodes in the upper rank as elements. In the syntax tree of the updated structured document, with respect to a plurality of paths constituted of a node being a route and a series of nodes in the lower rank, the coordinate information of the display area of each node constituting each path is compared with the coordinate information of the display area of a series of designated nodes so that the node in the lowest rank of the most matching path can be extracted. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】 [0001]
【発明の属する技術分野】 BACKGROUND OF THE INVENTION
本発明は、構造化文書の部分指定及び抽出方法及び構造化文書の部分指定装置及び構造化文書の抽出装置及び構造化文書の部分指定プログラム及び構造化文書の抽出プログラムに係り、特に、HTML等の構造化文書から、所望の部分を指定・抽出し、別の構造化文書上で再利用する、あるいは、含まれるテキスト等が変更された後の、当該文書から対応部分を抽出するための構造化文書の部分指定及び抽出方法及び構造化文書の部分指定装置及び構造化文書の抽出装置及び構造化文書の部分指定プログラム及び構造化文書の抽出プログラムに関する。 The present invention relates to a structured document portion designation and extraction method, and the structured document portion specifying device and a structured document extraction device and extraction program parts specified program and a structured document of the structured document of, in particular, HTML, etc. structure from a structured document, specifying and extracting a desired portion, for reuse on another structured document, or after the text or the like is changed to include, for extracting the corresponding part from the document of about part specification and extraction method, and the structured document portion specified apparatus and structured document extraction program portion designated program and the structured document of the extractor and the structured document of the document.
【0002】 [0002]
【従来の技術】 BACKGROUND OF THE INVENTION
日々更新されるHTML等の構造化文書から、ある特定の指定部分を抽出したいというニーズがある。 From the structured document such as HTML, which is updated daily, there is a need that you want to extract a certain specified portion. 例えば、ユーザが日常訪れるウェブサイトから注目している部分だけを集めて抽出することができれば、ページスクロール等を行うことなく、必要な情報だけを容易に一覧することができる。 For example, if it is possible for the user to extract collect only the portion of interest from the day-to-day visit the web site, without performing the page scroll or the like, it is possible to list only the necessary information easily. 抽出にあたっては、この指定部分に含まれるテキスト等の変更があったとしても、変更された文書から当初の指定部分を特定した上で最新の情報を抽出することが求められる。 Extraction When, even there is a change in the text or the like contained in the specified portion, to extract the latest information obtained on identifying the original specified portion from the modified document.
【0003】 [0003]
これを実現する従来技術として二つを取り上げ、以下に説明する。 Taken two as a conventional technology for realizing this will be described below.
【0004】 [0004]
一つは、WWW情報抽出システムである。 One is the WWW information extraction system. HTML等の構造化文書の指定部分の手掛かりとするために、その開始箇所と終了箇所にあるテキストを保存しておく。 In order to make the clue of a specified portion of the structured document such as HTML, you save the text in the end point and the start point. 文書からの指定部分の抽出は、保存されているテキストから開始箇所と終了箇所をHTML中に特定して両者に囲まれた部分を抽出するものである(例えば、特許文献1参照)。 Extraction of the specified portion of the document is to extract the enclosed start point and end point from the text stored identify and to both in HTML moiety (e.g., see Patent Document 1).
【0005】 [0005]
もう一つは、WebMethods社が提案する方法や、Iocchiが提案する方法のベースとなっている方法である(例えば、非特許文献1、非特許文献2参照)。 Second, a method of WebMethods Inc. proposed a method which is the base of how Iocchi is proposed (for example, Non-Patent Document 1, Non-Patent Document 2).
【0006】 [0006]
HTML等の構造化文書の部分を指定するために、まず文書を図8に示すような構文木に変換し、指定部分を構文木内の位置として保存しておく。 To specify the portion of the structured document such as HTML, to convert the first document in the syntax tree as shown in FIG. 8, keep the specified portion as the position of the syntax Kiuchi. 文書からの指定部分の抽出は、まず、文書を構文木に変換し、保存されている位置を構文木内に特定してこれに対応する部分を抽出するものである。 Extraction of the specified portion of the document, first, converts the document to the syntax tree, and extracts a portion specific to corresponding thereto in the syntax tree a position stored.
【0007】 [0007]
【特許文献1】 [Patent Document 1]
特許第2867986号【0008】 Patent No. 2867986 [0008]
【非特許文献1】 Non-Patent Document 1]
http://www. http: // www. w3. w3. org/TR/NOTE−widl. org / TR / NOTE-widl. html html
【0009】 [0009]
【非特許文献2】 Non-Patent Document 2]
Luca Iocchi, “The Web−OEM approach to Web information extraction,”Journal of Network and Computer Applications, Vol. Luca Iocchi, "The Web-OEM approach to Web information extraction," Journal of Network and Computer Applications, Vol. 22, pp259−269, 1999 22, pp259-269, 1999
【0010】 [0010]
【発明が解決しようとする課題】 [Problems that the Invention is to Solve
しかしながら、WWW情報抽出システムでは、開始、終了箇所にあるテキストを手掛かりとして、HTML等の構造化文書の部分を指定しているため、このテキスト自身に変更があり得る文書については、図9に示すように、適用できないという問題がある。 However, in the WWW information extraction system, starting, as a clue to the text completion point, because it specifies the portion of the structured document such as HTML, the document there may be changes in the text itself, shown in FIG. 9 as such, there is a problem that can not be applied.
【0011】 [0011]
また、この方法では、図10に示すように、指定される部分を構文木としてみたとき、一般には部分木を構成しないため、この部分を別の構造化文書中で再利用することは困難である。 Further, in this method, as shown in FIG. 10, when viewed as a part designated as syntax tree, generally because it does not constitute a partial tree, it is difficult to reuse the parts in a different structured document in is there.
【0012】 [0012]
また、WebMethods社や、Iocchiが提案する構造化文書の構文木中の位置に基づく方法では、画面表示には影響がない程度であっても、この構文木自身にある種の変更(兄弟ノードの追加や削除等)がある場合には所期の指定部分を抽出することができないという問題がある。 In addition, WebMethods Inc. and, in the method based on the position of syntax in the tree of the structured document Iocchi is proposed, even in the degree that there is no effect on the screen display, of some sort in the syntax tree itself change (of sibling nodes If there is added or deleted, etc.) there is a problem that it is not possible to extract the desired specified portion.
【0013】 [0013]
本発明は、上記の点に鑑みなされたもので、指定部分の開始、終了箇所に依存せず、上記のような構文木の変更がある場合でも確実に指定部分を抽出することが可能な構造化文書の部分指定及び抽出方法及び構造化文書抽出装置及び構造化文書抽出プログラムを提供することを目的とする。 The present invention has been made in view of the above, the start of the designated portion, without depending on the termination point, which can be extracted reliably specified portion even if there is a change of syntax tree as the structure and to provide a document part specification and extraction method, and the structured document extraction device and structured document extraction program.
【0014】 [0014]
【課題を解決するための手段】 In order to solve the problems]
図1は、本発明の原理を説明するための図である。 Figure 1 is a diagram for explaining the principle of the present invention.
【0015】 [0015]
本発明は、HTML文書を含む構造化文書の部分を指定する構造化文書の部分指定方法において、 The present invention, in the portion specifying the structured document that specifies the portion of the structured document including HTML documents,
構造化文書が格納されている記憶手段から処理対象の構造化文書を読み込んで、表示し(ステップ1)、 Loading structured document to be processed from the storage means structured document is stored, and displayed (step 1),
表示された構造化文書からユーザによって指定された部分に対応するノードの表示領域の座標情報と、該ノードより上位の一連のノードの表示領域の座標情報を要素とする配列によって、該部分を指定し(ステップ2)、 And coordinate information of the display area of ​​the node corresponding to the portion designated by the user from the displayed structured document, by a sequence of coordinate information of the display area of ​​the set of nodes of the upper and elements from the node, specify a partial (step 2),
指定された座標情報を記憶手段に蓄積する(ステップ3)。 Storing designated coordinate information in the storage unit (Step 3).
【0016】 [0016]
また、本発明は、構文化文書の構文木において、該構文木の隣接するノードにおいて、子ノードの表示領域を親ノードの表示領域の幅と高さで正規化した相対座標を該表示領域の座標情報とする。 Further, the present invention provides a syntax tree syntax document, in the adjacent node of the above constituting Bunki, the normalized relative coordinates of the display area of ​​the child nodes in the width and height of the display area of ​​the parent node of the display area and coordinate information.
【0017】 [0017]
本発明は、HTML文書を含む、構文木が変更された構造化文書の部分を抽出する構造化文書の抽出方法において、 The present invention includes an HTML document, the method of extracting the structured document syntax tree to extract part of the modified structured document,
構造化文書を記憶手段から読み込み、表示手段に前記構造化文書を表示し(ステップ11)、 It reads the structured document from the storage means and displaying said structured document on the display means (step 11),
部分指定処理により指定され、記憶手段に蓄積されている一連のノードの表示領域の座標情報を読み込み(ステップ12)、 Designated by the partial designation processing, reads the coordinate information of the display area of ​​the set of nodes stored in the storage unit (step 12),
構造化文書の構文木において、ルートとなるノード及び該ノードより下位の一連のノードからなる複数のパスについて、各パスを構成する各ノードの表示領域の座標と、読み出された前記一連のノードの表示領域の座標情報とを比較し(ステップ13)、最もよく一致するパスの最下位のノードを抽出し、出力する(ステップ14)。 In syntax tree of the structured document, a plurality of paths comprising a series of nodes lower than the node and the node serving as the root, and the coordinates of the display area of ​​each of the nodes constituting each pass, read the set of nodes comparing the coordinate information of the display area of ​​the (step 13), it extracts the lowest node in the best matching path, and outputs (step 14).
【0018】 [0018]
また、本発明は、構造化文書の構文木において、該構文木の隣接するノードにおいて、子ノードの表示領域を親ノードの表示領域の幅と高さで正規化した相対座標を該表示領域の座標情報とする。 Further, the present invention provides a syntax tree of the structured document, in the adjacent node of the above constituting Bunki, the normalized relative coordinates of the display area of ​​the child nodes in the width and height of the display area of ​​the parent node of the display area and coordinate information.
【0019】 [0019]
図2は、本発明の原理構成図である。 Figure 2 is a conceptual view of the present invention.
【0020】 [0020]
本発明は、HTML文書を含む構造化文書の部分を指定する構造化文書の部分指定装置であって、 The present invention is a part designating unit of the structured document that specifies the portion of the structured document including HTML documents,
構造化文書が格納されている記憶手段から処理対象の構造化文書を読み込む文書読込手段110と、 A document reading means 110 to read the structured document to be processed from the storage means structured document is stored,
読み込まれた文書を表示する表示手段120と、 A display unit 120 for displaying the read document,
表示手段120に表示された構造化文書からユーザによって指定された部分に対応するノードの表示領域の座標情報と、該ノードより上位の一連のノードの表示領域の座標情報を要素とする配列によって、該部分を指定する部分指定手段130と、 And coordinate information of the display area of ​​the node corresponding to the portion designated by the user from the displayed structured document on the display unit 120, the sequence of coordinate information of the display area of ​​the set of nodes of the upper and elements from the node, a part specifying unit 130 for specifying the partial,
指定された座標情報を記憶手段300に保存する位置情報保存手段140と、を有する。 A position information storage unit 140 for storing the specified coordinates information in the storage unit 300, a.
【0021】 [0021]
また、本発明の部分指定手段130は、 Also, portion designation means 130 of the present invention,
構文化文書の構文木において、該構文木の隣接するノードにおいて、子ノードの表示領域を親ノードの表示領域の幅と高さで正規化した相対座標を該表示領域の座標情報とする手段を有する。 In syntax tree syntax document, in the adjacent node of the above constituting Bunki, the normalized relative coordinates of the display area of ​​the child nodes in the width and height of the display area of ​​the parent node means to the coordinate information of the display area a.
【0022】 [0022]
本発明は、HTML文書を含む、構文木が変更された構造化文書の部分を抽出する構造化文書の抽出装置であって、 The present invention includes an HTML document, an extraction device structured document syntax tree to extract part of the modified structured document,
構造化文書を記憶手段から読み込む文書読込手段210と、 A document reading means 210 to read the structured document from the storage means,
読み込まれた前記構造化文書を表示する文書表示手段220と、 A document display means 220 for displaying the structured document read,
部分指定処理により指定され、記憶手段に蓄積されている一連のノードの表示領域の座標情報を読み込む位置情報読込手段240と、 Designated by the partial designation processing, the position information reading means 240 to read the coordinate information of the display area of ​​the set of nodes stored in the storage means,
表示された構造化文書の構文木において、ルートとなるノード及び該ノードより下位の一連のノードからなる複数のパスについて、各パスを構成する各ノードの表示領域の座標と、位置情報読込手段240で読み込まれた前記座標情報とを比較し、最もよく一致するパスの最下位のノードを抽出する部分抽出手段230と、 In syntax tree of the displayed structured document, a plurality of paths comprising a lower series of nodes from the node and the node serving as the root, and the coordinates of the display area of ​​each of the nodes constituting each path, the position information reading means 240 the partial extraction means 230 loaded comparing the coordinate information, and extracts the least significant nodes of the best matching path at,
部分抽出手段230で抽出されたノードを出力する部分情報出力手段250と、を有する。 Having the partial information output means 250 for outputting the node extracted by the partial extracting unit 230, a.
【0023】 [0023]
また、本発明の部分抽出手段230は、 The partial extracting unit 230 of the present invention,
構造化文書の構文木において、該構文木の隣接するノードにおいて、子ノードの表示領域を親ノードの表示領域の幅と高さで正規化した相対座標を該表示領域の座標情報とする手段を含む。 In syntax tree of the structured document, in the adjacent node of the above constituting Bunki, the normalized relative coordinates of the display area of ​​the child nodes in the width and height of the display area of ​​the parent node means to the coordinate information of the display area including.
【0024】 [0024]
本発明は、HTML文書を含む構造化文書の部分を指定する構造化文書の部分指定プログラムであって、 The present invention is a part designated program of the structured document that specifies the portion of the structured document including HTML documents,
構造化文書が格納されている記憶手段から処理対象の構造化文書を読み出して、表示する文書読込・表示ステップと、 It reads the structured document to be processed from the storage means structured document is stored, a document reading and display step of displaying,
表示された構造化文書からユーザによって指定された部分に対応するノードの表示領域の座標情報と、該ノードより上位の一連のノードの表示領域の座標情報を要素とする配列によって、該部分を指定する部分指定ステップと、 And coordinate information of the display area of ​​the node corresponding to the portion designated by the user from the displayed structured document, by a sequence of coordinate information of the display area of ​​the set of nodes of the upper and elements from the node, specify a partial and part specification step of,
指定された座標情報を記憶手段に蓄積する位置情報保存ステップと、からなり、コンピュータに実行させる。 A position information storage step of storing the specified coordinate information in the storage means consists, it causes the computer to execute.
【0025】 [0025]
また、本発明の部分指定ステップは、 The portion designated step of the present invention,
構文化文書の構文木において、該構文木の隣接するノードにおいて、子ノードの表示領域を親ノードの表示領域の幅と高さで正規化した相対座標を該表示領域の座標情報とするステップを含む。 In syntax tree syntax document, in the adjacent node of the above constituting Bunki, the normalized relative coordinates of the display area of ​​the child nodes in the width and height of the display area of ​​the parent node the steps of the coordinate information of the display area including.
【0026】 [0026]
本発明は、HTML文書を含む、構文木が変更された構造化文書の部分を抽出する構造化文書の抽出プログラムであって、 The present invention includes an HTML document, a program for extracting structured document syntax tree to extract part of the modified structured document,
構造化文書を記憶手段から読み込む読込ステップと、 A reading step of reading a structured document from the storage means,
表示手段に構造化文書を表示する表示ステップと、 A display step of displaying the structured document on the display means,
部分指定プログラムにより指定され、記憶手段に蓄積されている一連のノードの表示領域の座標情報を読み出す位置情報読込ステップと、 Designated by the partial designation program, the positional information reading step of reading the coordinate information of the display area of ​​the set of nodes stored in the storage means,
構造化文書の構文木において、ルートとなるノード及び該ノードより下位の一連のノードからなる複数のパスについて、各パスを構成する各ノードの表示領域の座標と、読み出された一連のノードの表示領域の座標情報とを比較し、最もよく一致するパスの最下位のノードを抽出する部分抽出ステップと、 In syntax tree of the structured document, a plurality of paths comprising a series of nodes lower than the node and the node serving as the root, and the coordinates of the display area of ​​each of the nodes constituting each pass, read a set of nodes comparing the coordinate information of the display area, the portion extraction step of extracting the lowest node of the best matching path,
抽出されたノードを出力する部分情報出力ステップと、からなり、コンピュータに実行させる。 A partial information output step of outputting the extracted node consists, it causes the computer to execute.
【0027】 [0027]
また、本発明は、部分抽出ステップは、 The present invention also part extraction step,
構造化文書の構文木において、該構文木の隣接するノードにおいて、子ノードの表示領域を親ノードの表示領域の幅と高さで正規化した相対座標を該表示領域の座標情報とする。 In syntax tree of the structured document, in the adjacent node of the above constituting Bunki, the normalized relative coordinates of the display area of ​​the child nodes in the width and height of the display area of ​​the parent node and the coordinate information of the display area.
【0028】 [0028]
上記のように、本発明は、HTML等の構造化文書の部分を指定し、抽出スルシステムにおいて、当該文書の構文木において、ユーザが指示する部分に対応するノードの表示領域の座標情報と、これより上位の一連のノードの表示領域の座標情報とを要素とする配列によって当該部分を指定し、また更新された構造化文書の構文木において、ルートとなるノード及びこれより下位の一連のノードからなる複数のパスについて、各パスを構成する各ノードの表示領域の座標情報と、前述の指定された一連のノードの表示領域の座標情報とを比較した時に最も一致するパスの最下位のノードを抽出するものであり、これにより、実際の表示領域の座標を手掛かりにして抽出部分を特定することを特徴としている。 As described above, the present invention is to specify a portion of the structured document such as HTML, the extraction sul system, in the syntax tree of the document, the coordinate information of the display area of ​​the node corresponding to the portion designated by the user, from this specifies the portion by sequence and coordinate information of the display area of ​​the set of nodes of the upper and elements, and in the syntax tree of the updated structured document, the root and becomes node and than this lower set of nodes for a plurality of paths formed of, coordinate information of the display area of ​​each of the nodes constituting each pass, the lowest nodes of the best matching path when comparing the coordinate information of the display area of ​​the set of nodes that are specified above is intended to extract, thereby, it is characterized by identifying the extracted parts to the coordinates of the actual display area on clues.
【0029】 [0029]
【発明の実施の形態】 DETAILED DESCRIPTION OF THE INVENTION
以下、図面と共に本発明の実施の形態を説明する。 Hereinafter, an embodiment of the present invention in conjunction with the accompanying drawings.
【0030】 [0030]
図3は、本発明の一実施の形態における構造化文書の部分指定・抽出装置の構成を示す。 Figure 3 shows the structure of a portion designated-extraction device of the structured document according to an embodiment of the present invention. 同図に示す装置は、指定部100と抽出部200及び、位置情報蓄積部300から構成される。 Apparatus shown in the figure, the extraction unit and the designation unit 100 200 and consists of the position information storage unit 300. なお、本実施の形態では、部分指定・抽出装置として説明するが、部分指定装置及び抽出装置の2つの装置から構成されてもよい。 In the present embodiment, is described as part specifying and extracting device may be constructed from two devices parts specified device and the extraction device.
指定部100は、文書読込部110、文書表示部120、部分指定部130、及び位置情報保存部140から構成される。 Designation unit 100, a document reading unit 110, the document display unit 120, the portion specifying unit 130, and a position information storage unit 140.
【0031】 [0031]
以下に、上記の構成における動作を説明する。 The following describes the operation of the above configuration.
【0032】 [0032]
図4は、本発明の一実施の形態における構造化文書の部分指定の動作のフローチャートであり、図5は、本発明の一実施の形態における部分指定の例を示す。 Figure 4 is a flowchart of the operation of the portion designated structured document according to an embodiment of the present invention, FIG. 5 shows an example of a portion designated in the embodiment of the present invention.
【0033】 [0033]
ステップ101) 文書読込部110は、データーベース等の記憶手段に格納されている構造化文書を読み込み、文書表示部120に表示する。 Step 101) The document reading unit 110 reads the structured document stored in the storage means of the database, and displays the document display unit 120.
【0034】 [0034]
ステップ102) ユーザは、文書表示部120に表示されたブラウザ上で構造化文書から選択したい部分を指定する。 Step 102) The user specifies the part to be selected from a structured document on a browser that is displayed in the text display unit 120.
【0035】 [0035]
ステップ103) 部分指定部130において、ユーザから指定された部分に対応するノードの表示領域を検出する。 In step 103) portion specifying unit 130 detects the display area of ​​the node corresponding to the portion designated by the user. 検出する方法としては、例えば、Java(登録商標)Script(『Java(登録商標) Script The Definitive Guide, Fourth Edition』David Flanagan O'reilly & Associates, Inc. USA, Dec. 15,2001)を用いるものとする。 As a method for detecting, for example, Java (registered trademark) Script ( "Java (registered trademark) Script The Definitive Guide, Fourth Edition" David Flanagan O'reilly & Associates, Inc. USA, Dec. 15,2001) those using to.
【0036】 [0036]
ステップ104) 次に、部分指定部130は、検出されたノードの表示位置を計算する。 Step 104) Next, the portion specifying unit 130 calculates the display position of the detected nodes.
【0037】 [0037]
ステップ105) さらに、部分指定部130は、構文木に従って、検出されたノードの親ノードの表示領域(座標情報)を検出する。 Step 105) In addition, portions designated 130, according to the syntax tree, to detect the display area of ​​the parent node of the detected nodes (coordinate information).
【0038】 [0038]
ステップ104,105の処理を最上位ノードまで繰り返す。 Processing in steps 104 and 105 is repeated until the top node. なお、「Java(登録商標)Script」には、構文木に従ってノードを検索するための方法が用意されている。 It is to be noted that the "Java (registered trademark) Script", a method for searching a node according to the syntax tree is prepared.
【0039】 [0039]
ステップ106) 次に、位置情報保存部140は、計算された全てのノードの表示位置を位置情報蓄積部300に蓄積する。 Step 106) Next, the position information storage unit 140 stores the calculated display positions of all nodes in the position information storage unit 300.
【0040】 [0040]
なお、保存すべきノードの表示領域の座標を、ノードに対応するタグ名等によって予め指定しておくことにより、位置情報蓄積部300に保存される情報量と全体の計算量を削減することができる。 Note that the coordinates of the display area of ​​the to be saved node, by specifying in advance by the tag name, etc. corresponding to the node, is possible to reduce the calculation amount of the entire information amount stored in the position information storage unit 300 it can.
【0041】 [0041]
また、位置情報蓄積部300に保存する座標情報は、親ノードの表示領域の座標で正規化された相対座標としてもよいし、例えば、構文木中、親ノードの表示領域をその左上、右下の座標を用いて(left0, top0, right0, bottom0)、子ノードの表示領域を同様に(left1, top1, right1, bottom1)とするとき、相対座標は(left1/(right0−left0), top1/(bottom0−top0), right1/(right0−left0), bottom1/ The coordinate information stored in the position information storage unit 300 may be a coordinate normalized relative coordinates in the display area of ​​the parent node, for example, in the syntax tree, the upper left display area of ​​the parent node, the lower right using the coordinates (left0, top0, right0, bottom0), similarly to the display area of ​​child nodes (left1, top1, right1, bottom1) to time, the relative coordinates (left1 / (right0-left0), top1 / (bottom0-top0), right1 / (right0-left0), bottom1 /
(bottom0−top0)) (Bottom0-top0))
などとすることができる。 It can be, and the like.
【0042】 [0042]
次に、構造化文書の部分指定・抽出装置の抽出部200について説明する。 Next, a description will be given extractor 200 parts specified and extraction device of the structured document.
【0043】 [0043]
抽出部200は、文書読込部210、文書表示部220、部分抽出部230、位置情報読込部240、及び、部分情報出力部250から構成される。 Extraction unit 200, the document reading unit 210, the document display unit 220, partial extraction unit 230, the positional information reading unit 240 and, composed of partial information output unit 250.
【0044】 [0044]
以下に、上記の構成における動作を説明する。 The following describes the operation of the above configuration.
【0045】 [0045]
図6は、本発明の一実施の形態における指定部分の抽出動作のフローチャートであり、図7は、本発明の一実施の形態における抽出の例を示す。 Figure 6 is a flow chart of operation of extracting specified portion in an embodiment of the present invention, FIG. 7 shows an example of extraction in an embodiment of the present invention.
【0046】 [0046]
ステップ201) 更新された処理対象とする構造化文書がデーターベース等の記憶手段から、文書読込部210によって読み込まれ、文書表示部220のブラウザ画面上に表示される。 Step 201) a structured document to be updated processing target from the storage means of the database, etc., are read by the document reading unit 210, it is displayed on the browser screen of the document display unit 220.
【0047】 [0047]
ステップ202) 部分抽出部230において、表示されている最上位ノードの表示領域を検出する。 In step 202) portion extracting unit 230 detects a display region of the top node that is displayed. 具体的には、図7に示す「htmlノード」が選択される。 Specifically, it is shown in FIG. 7 "html node" is selected.
【0048】 [0048]
ステップ203) 部分抽出部230は、構文木に従って、当該ノードの子ノードの表示領域を検出する。 Step 203) portion extraction unit 230 according to the syntax tree, to detect the display area of ​​the child nodes of the node.
【0049】 [0049]
ステップ204) 位置情報読込部240が、位置情報蓄積部300から位置情報を読み込み、部分抽出部230に渡す。 Step 204) the location information reading unit 240 reads the position information from the position information storage unit 300, and passes the partial extraction unit 230. これにより、部分抽出部230は、保存されていた位置情報の表示位置に最もよく一致する子ノードを選択する。 Thus, partial extraction unit 230 selects the best child nodes that match the display position of the position information stored.
【0050】 [0050]
なお、上記の子ノードや、直近にある指定されたタグ名を持つノードは、通常複数存在するが、これらの複数のノードから以下の手順によって位置情報蓄積部300に保存されている座標情報に最もよく一致するノードを選択する。 The above child node or a node with a given tag name in the most recently, the normally there are a plurality, coordinate information stored in the position information storage unit 300 by the following procedure from the plurality of nodes selecting a best match node.
【0051】 [0051]
ここで、保存されている座標情報を(left2, top2, right2, bottom2)、複数ノードのうち、i番目のものの表示領域の座標情報を、(left(i), top(i), right(i), bottom(i))とする。 Here, the coordinate information stored (left2, top2, right2, bottom2), among the plurality of nodes, the coordinate information of the display area of ​​the i-th one, (left (i), top (i), right (i ), and bottom (i)). 選択すべきノードを、この両者の距離|left2−left(i)|+|top2−top(i)|+|right2−right(i)|+|bottom2−bottom(i)|を最小にするiに対応するノードとする。 The node to be selected, the distance of both | left2-left (i) | + | top2-top (i) | + | right2-right (i) | + | bottom2-bottom (i) | a minimizing i and the corresponding node. ここで用いる座標情報は、上記で定義される相対座標を用いることができる。 Coordinate information used here, it may be used relative coordinates defined above. さらに、領域に対応する矩形の重心の座標、及び、幅、高さの差 Furthermore, the center of gravity of the coordinates of the rectangle corresponding to the region, and the width, the height difference
として、両者の距離を比較すれば、文書の更新によって位置のズレが生じたとしても確実に所期の指定部分を抽出できる。 As, by comparing the distance between them, a desired designated portion reliably even displacement of position is caused by the updating of the document can be extracted.
【0052】 [0052]
ステップ205) 上記のようにして選択されたノードの子ノード(もしくは、直近にある指定されたタグ名を持つノード)について同じ操作を行う。 Step 205) The above way child node of the selected node (or, do the same for the node) that has a tag name specified in the most recently. 以上の操作を位置情報蓄積部300に保存されている座標情報の数だけ繰り返す。 Repeated for the number of the coordinate information stored the above operation in the position information storage unit 300. 最終的に選択されたノードを抽出し、部分情報出力部250より出力する。 Extract the finally selected node, outputs from the partial information output unit 250.
【0053】 [0053]
また、上記の構造化文書の部分指定部100、抽出部200の構成による処理をプログラムとして構築し、部分指定装置、抽出装置として利用されるコンピュータにインストールし、CPU等の制御手段により実行させることも可能である。 The portion specifying unit 100 of the structured document, to construct a process by the configuration of the extraction section 200 as a program, partial designated device, installed on a computer that is used as extraction device, be executed by the control unit such as a CPU it is also possible. また、構築されたプログラムをネットワークを介して流通させることも可能である。 Further, it is also possible to distribute the program built over the network.
【0054】 [0054]
また、構築されたプログラムを部分指定装置、抽出装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納しておき、実行時にコンピュータにインストールして実行させることも可能である。 Also, install the program built part specification unit, a hard disk device and which is connected to a computer that is used as an extraction device, a flexible disk, may be stored in the portable storage medium such as a CD-ROM, the computer at runtime it is also possible to execute Te.
【0055】 [0055]
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。 The present invention is not limited to the embodiment described above, within the scope of the appended claims, and variations and modifications may be made.
【0056】 [0056]
【発明の効果】 【Effect of the invention】
上述のように、本発明によれば、構造化文書について、実際の表示領域の座標情報を手掛かりにして抽出部分が特定されるため、指定部分の開始、終了箇所に依存せず、構文木の変更がある場合でも確実に指定部分を抽出できる。 As described above, according to the present invention, the structured document, because the actual and the coordinate information as a clue extraction portion of the display region is specified, the start of the designated portion, without depending on the termination locations, the syntax tree It can be extracted reliably specified portion, even if there is a change.
【0057】 [0057]
【図面の簡単な説明】 BRIEF DESCRIPTION OF THE DRAWINGS
【図1】本発明の原理を説明するための図である。 1 is a diagram for explaining the principle of the present invention.
【図2】本発明の原理構成図である。 2 is a principle diagram of the present invention.
【図3】本発明の一実施の形態における構造化文書の部分指定・抽出装置の構成図である。 3 is a configuration diagram of a portion designated-extraction device of the structured document according to an embodiment of the present invention.
【図4】本発明の一実施の形態における部分指定の動作のフローチャートである。 It is a flowchart of a part specified operation in the embodiment of the present invention; FIG.
【図5】本発明の一実施の形態におけるにおける部分指定の例である。 Figure 5 is an example of a portion designated in the embodiment of the present invention.
【図6】本発明の一実施の形態における指定部分の抽出動作のフローチャートである。 6 is a flow chart of operation of extracting specified portion in an embodiment of the present invention.
【図7】本発明の一実施の形態における抽出の例である。 7 is an example of extraction in an embodiment of the present invention.
【図8】HTMLのソースと対応する構文木の例である。 [8] is an example of a source and the corresponding syntax tree of HTML.
【図9】開始・終了箇所のテキストを手掛かりに部分指定、抽出した例である。 [9] section specifies the text of the start and end point to the clue, which is extracted example.
【図10】開始、終了を指示するテキストを手掛かりにしてHTMLの対応部分を抽出した例である。 FIG. 10 starts, is an example of extracting a corresponding portion of the HTML in the clue the text to indicate the end.
【符号の説明】 DESCRIPTION OF SYMBOLS
100 指定装置、指定部110 文書読込手段、文書読込部120 文書表示手段、文書表示部130 部分指定手段、部分指定部140 位置情報保持手段、位置情報保持部200 抽出装置、抽出部210 文書読込手段、文書読込部220 文書表示手段、文書表示部230 部分抽出手段、部分抽出部240 位置情報読込手段、位置情報読込部250 部分情報出力手段、部分情報出力部300 位置情報蓄積手段、位置情報蓄積部 100 specifying device, the designating section 110 document reading unit, document reading unit 120 document display means, the document display unit 130 portion specifying unit, portion designation unit 140 position information holding means, the position information holding section 200 extractor, the extraction unit 210 the document reading means The document reading unit 220 document display means, the document display unit 230 portion extracting unit, partial extraction unit 240 positional information reading means, the position-information reading section 250 parts information output means, partial information output unit 300 position information storage unit, the position information storage unit

Claims (12)

  1. HTML文書を含む構造化文書の部分を指定する構造化文書の部分指定方法において、 In part specifying structured document that specifies the portion of the structured document including HTML documents,
    構造化文書が格納されている記憶手段から処理対象の構造化文書を読み込んで、表示し、 Loading structured document to be processed from the storage means structured document is stored, displayed,
    表示された前記構造化文書からユーザによって指定された部分に対応するノードの表示領域の座標情報と、該ノードより上位の一連のノードの表示領域の座標情報を要素とする配列によって、該部分を指定し、 And coordinate information of the display area of ​​the node corresponding to the portion designated by the user from the displayed the structured document, by a sequence of coordinate information of the display area of ​​the set of nodes of the upper and elements from the node, the partial specified,
    指定された座標情報を記憶手段に蓄積する、ことを特徴とする構造化文書の部分指定方法。 Storing designated coordinate information in the storage means, part designation method of a structured document, characterized in that.
  2. 前記構文化文書の構文木において、該構文木の隣接するノードにおいて、子ノードの表示領域を親ノードの表示領域の幅と高さで正規化した相対座標を該表示領域の座標情報とする請求項1記載の構造化文書の部分指定方法。 In syntax tree of the syntax document, in the adjacent node of the above constituting Bunki, according to the normalized relative coordinates of the display area of ​​the child nodes in the width and height of the display area of ​​the parent node and the coordinate information of the display area part specifying process of the structured document of claim 1, wherein.
  3. HTML文書を含む、構文木が変更された構造化文書の部分を抽出する構造化文書の抽出方法において、 Including HTML documents, in the extraction method of the structured document syntax tree to extract part of the modified structured document,
    前記構造化文書を記憶手段から読み込み、表示手段に前記構造化文書を表示し、 It reads the structured document from the storage means and displaying said structured document to the display means,
    部分指定処理により指定され、記憶手段に蓄積されている一連のノードの表示領域の座標情報を読み出し、 Designated by the partial designation processing, it reads the coordinate information of the display area of ​​the set of nodes stored in the storage means,
    前記構造化文書の構文木において、ルートとなるノード及び該ノードより下位の一連のノードからなる複数のパスについて、各パスを構成する各ノードの表示領域の座標と、読み出された前記一連のノードの表示領域の座標情報とを比較し、最もよく一致するパスの最下位のノードを抽出し、出力することを特徴とする構造化文書の抽出方法。 In syntax tree of the structured document, a plurality of paths comprising a lower series of nodes from the node and the node serving as the root, and the coordinates of the display area of ​​each of the nodes constituting each pass, read the series of comparing the coordinate information of the display area of ​​the node, to best extract the lowest node of the matching path, method of extracting a structured document and outputs.
  4. 前記構造化文書の構文木において、該構文木の隣接するノードにおいて、子ノードの表示領域を親ノードの表示領域の幅と高さで正規化した相対座標を該表示領域の座標情報とする請求項3記載の構造化文書の抽出方法。 In syntax tree of the structured document, in the adjacent node of the above constituting Bunki, according to the normalized relative coordinates of the display area of ​​the child nodes in the width and height of the display area of ​​the parent node and the coordinate information of the display area method of extracting a structured document in claim 3.
  5. HTML文書を含む構造化文書の部分を指定する構造化文書の部分指定装置であって、 A portion designated device of the structured document that specifies the portion of the structured document including HTML documents,
    構造化文書が格納されている記憶手段から処理対象の構造化文書を読み込む文書読込手段と、 A document reading means for reading a structured document to be processed from the storage means structured document is stored,
    読み込まれた文書を表示する表示手段と、 And display means for displaying the loaded document,
    表示手段に表示された前記構造化文書からユーザによって指定された部分に対応するノードの表示領域の座標情報と、該ノードより上位の一連のノードの表示領域の座標情報を要素とする配列によって、該部分を指定する部分指定手段と、 And coordinate information of the display area of ​​the node corresponding to the portion designated by the user from the structured document displayed on the display means, by a sequence of coordinate information of the display area of ​​the set of nodes of the upper and elements from the node, and a portion specifying means for specifying the partial,
    指定された座標情報を記憶手段に保存する位置情報保存手段と、を有することを特徴とする構造化文書の部分指定装置。 Part specification unit of the structured document, characterized in that it comprises a position information storage means for storing the designated coordinate information in the storage means.
  6. 前記部分指定手段は、 The partial designation means,
    前記構文化文書の構文木において、該構文木の隣接するノードにおいて、子ノードの表示領域を親ノードの表示領域の幅と高さで正規化した相対座標を該表示領域の座標情報とする手段を有する請求項4記載の構造化文書の部分指定装置。 In syntax tree of the syntax document, above constituting the adjacent nodes of Bunki, means for the normalized relative coordinates of the display area of ​​the child nodes in the width and height of the display area of ​​the parent node and the coordinate information of the display area part specifying unit of the structured document according to claim 4, further comprising a.
  7. HTML文書を含む、構文木が変更された構造化文書の部分を抽出する構造化文書の抽出装置であって、 Including HTML documents, an extraction device structured document syntax tree to extract part of the modified structured document,
    前記構造化文書を記憶手段から読み込む文書読込手段と、 A document reading means for reading the structured document from the storage means,
    読み込まれた前記構造化文書を表示する文書表示手段と、 A document display means for displaying the structured document read,
    部分指定処理により指定され、記憶手段に蓄積されている一連のノードの表示領域の座標情報を読み込む位置情報読込手段と、 Designated by the partial designation processing, the positional information reading means for reading the coordinate information of the display area of ​​the set of nodes stored in the storage means,
    表示された前記構造化文書の構文木において、ルートとなるノード及び該ノードより下位の一連のノードからなる複数のパスについて、各パスを構成する各ノードの表示領域の座標と、前記位置情報読込手段で読み込まれた前記座標情報とを比較し、最もよく一致するパスの最下位のノードを抽出する部分抽出手段と、 In syntax tree of the structured document that is displayed, for a plurality of paths comprising a series of nodes lower than the node and the node serving as the root, and the coordinates of the display area of ​​each of the nodes constituting each pass, the positional information reading comparing the coordinate information read by the unit, a portion extracting means for extracting the least significant nodes of the best matching path,
    前記部分抽出手段で抽出されたノードを出力する部分情報出力手段と、を有することを特徴とする構造化文書の抽出装置。 Extracting apparatus structured document and having a, a partial information output means for outputting the node extracted by the partial extracting unit.
  8. 前記部分抽出手段は、 The partial extraction means
    前記構造化文書の構文木において、該構文木の隣接するノードにおいて、子ノードの表示領域を親ノードの表示領域の幅と高さで正規化した相対座標を該表示領域の座標情報とする手段を含む請求項7記載の構造化文書の抽出装置。 In syntax tree of the structured document, above constituting the adjacent nodes of Bunki, means for the normalized relative coordinates of the display area of ​​the child nodes in the width and height of the display area of ​​the parent node and the coordinate information of the display area extracting apparatus structured document of claim 7, including a.
  9. HTML文書を含む構造化文書の部分を指定する構造化文書の部分指定プログラムであって、 A structured document portion specifying program that specify a portion of the structured document including HTML documents,
    構造化文書が格納されている記憶手段から処理対象の構造化文書を読み出して、表示する文書読込・表示ステップと、 It reads the structured document to be processed from the storage means structured document is stored, a document reading and display step of displaying,
    表示された前記構造化文書からユーザによって指定された部分に対応するノードの表示領域の座標情報と、該ノードより上位の一連のノードの表示領域の座標情報を要素とする配列によって、該部分を指定する部分指定ステップと、 And coordinate information of the display area of ​​the node corresponding to the portion designated by the user from the displayed the structured document, by a sequence of coordinate information of the display area of ​​the set of nodes of the upper and elements from the node, the partial and part designation step of designating,
    指定された座標情報を記憶手段に蓄積する位置情報保存ステップと、からなり、コンピュータに実行させることを特徴とする構造化文書の部分指定プログラム。 A position information storage step of storing the specified coordinate information in the storage means consists, portions designated program of the structured document, characterized by causing a computer to execute.
  10. 前記部分指定ステップは、 Said portion specifying step,
    前記構文化文書の構文木において、該構文木の隣接するノードにおいて、子ノードの表示領域を親ノードの表示領域の幅と高さで正規化した相対座標を該表示領域の座標情報とするステップを含む請求項9記載の構造化文書の部分指定プログラム。 Step In the syntax tree of the syntax document, to the adjacent node above constituting Bunki, the normalized relative coordinates of the display area of ​​the child nodes in the width and height of the display area of ​​the parent node and the coordinate information of the display area portion designated program of the structured document according to claim 9, further comprising a.
  11. HTML文書を含む、構文木が変更された構造化文書の部分を抽出する構造化文書の抽出プログラムであって、 Including HTML documents, a program for extracting structured document syntax tree to extract part of the modified structured document,
    前記構造化文書を記憶手段から読み込む読込ステップと、 A reading step of reading the structured document from the storage means,
    表示手段に前記構造化文書を表示する表示ステップと、 A display step of displaying the structured document on the display means,
    部分指定プログラムにより指定され、記憶手段に蓄積されている一連のノードの表示領域の座標情報を読み出す位置情報読込ステップと、 Designated by the partial designation program, the positional information reading step of reading the coordinate information of the display area of ​​the set of nodes stored in the storage means,
    前記構造化文書の構文木において、ルートとなるノード及び該ノードより下位の一連のノードからなる複数のパスについて、各パスを構成する各ノードの表示領域の座標と、読み出された前記一連のノードの表示領域の座標情報とを比較し、最もよく一致するパスの最下位のノードを抽出する部分抽出ステップと、 In syntax tree of the structured document, a plurality of paths comprising a lower series of nodes from the node and the node serving as the root, and the coordinates of the display area of ​​each of the nodes constituting each pass, read the series of a portion extraction step of comparing the coordinate information of the display area of ​​the node, extracts the lowest node of the best matching path,
    抽出された前記ノードを出力する部分情報出力ステップと、からなり、コンピュータに実行させることを特徴とする構造化文書の抽出プログラム。 A partial information output step of outputting the extracted the node consists, extracts the program of the structured document, characterized by causing a computer to execute.
  12. 前記部分抽出ステップは、 The partial extraction step,
    前記構造化文書の構文木において、該構文木の隣接するノードにおいて、子ノードの表示領域を親ノードの表示領域の幅と高さで正規化した相対座標を該表示領域の座標情報とする請求項11記載の構造化文書の抽出プログラム。 In syntax tree of the structured document, in the adjacent node of the above constituting Bunki, according to the normalized relative coordinates of the display area of ​​the child nodes in the width and height of the display area of ​​the parent node and the coordinate information of the display area extracting program of the structured document of claim 11, wherein.
JP2003111701A 2003-04-16 2003-04-16 Extraction method and apparatus and a program structured document Active JP4046000B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003111701A JP4046000B2 (en) 2003-04-16 2003-04-16 Extraction method and apparatus and a program structured document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003111701A JP4046000B2 (en) 2003-04-16 2003-04-16 Extraction method and apparatus and a program structured document

Publications (2)

Publication Number Publication Date
JP2004318505A true true JP2004318505A (en) 2004-11-11
JP4046000B2 JP4046000B2 (en) 2008-02-13

Family

ID=33472180

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003111701A Active JP4046000B2 (en) 2003-04-16 2003-04-16 Extraction method and apparatus and a program structured document

Country Status (1)

Country Link
JP (1) JP4046000B2 (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010503124A (en) * 2006-09-06 2010-01-28 アップル インコーポレイテッド Portable electronic apparatus for displaying structured electronic document, the method and graphical user interface
JP2012059212A (en) * 2010-09-13 2012-03-22 Nippon Telegr & Teleph Corp <Ntt> Extraction apparatus, extraction method and extraction program
US8214768B2 (en) 2007-01-05 2012-07-03 Apple Inc. Method, system, and graphical user interface for viewing multiple application windows
US8438504B2 (en) 2010-01-06 2013-05-07 Apple Inc. Device, method, and graphical user interface for navigating through multiple viewing areas
US8531423B2 (en) 2006-09-06 2013-09-10 Apple Inc. Video manager for portable multifunction device
JP2013218627A (en) * 2012-04-12 2013-10-24 Nippon Telegr & Teleph Corp <Ntt> Method and device for extracting information from structured document and program
US8842074B2 (en) 2006-09-06 2014-09-23 Apple Inc. Portable electronic device performing similar operations for different gestures
US9367232B2 (en) 2007-01-07 2016-06-14 Apple Inc. Portable multifunction device, method, and graphical user interface supporting user navigations of graphical objects on a touch screen display
US9619143B2 (en) 2008-01-06 2017-04-11 Apple Inc. Device, method, and graphical user interface for viewing application launch icons
US9772751B2 (en) 2007-06-29 2017-09-26 Apple Inc. Using gestures to slide between user interfaces
US9933913B2 (en) 2005-12-30 2018-04-03 Apple Inc. Portable electronic device with interface reconfiguration mode

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916255B (en) * 2010-07-02 2012-02-15 互动在线(北京)科技有限公司 HTML (Hypertext Markup Language) content contrast device and method

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9933913B2 (en) 2005-12-30 2018-04-03 Apple Inc. Portable electronic device with interface reconfiguration mode
US9927970B2 (en) 2006-09-06 2018-03-27 Apple Inc. Portable electronic device performing similar operations for different gestures
US9690446B2 (en) 2006-09-06 2017-06-27 Apple Inc. Portable electronic device, method, and graphical user interface for displaying structured electronic documents
JP2017016686A (en) * 2006-09-06 2017-01-19 アップル インコーポレイテッド Portable electronic device, method, and graphical user interface for displaying structured electronic document
US8531423B2 (en) 2006-09-06 2013-09-10 Apple Inc. Video manager for portable multifunction device
US8547355B2 (en) 2006-09-06 2013-10-01 Apple Inc. Video manager for portable multifunction device
US8669950B2 (en) 2006-09-06 2014-03-11 Apple Inc. Portable electronic device, method, and graphical user interface for displaying structured electronic documents
US8842074B2 (en) 2006-09-06 2014-09-23 Apple Inc. Portable electronic device performing similar operations for different gestures
JP2010503124A (en) * 2006-09-06 2010-01-28 アップル インコーポレイテッド Portable electronic apparatus for displaying structured electronic document, the method and graphical user interface
US8214768B2 (en) 2007-01-05 2012-07-03 Apple Inc. Method, system, and graphical user interface for viewing multiple application windows
US9367232B2 (en) 2007-01-07 2016-06-14 Apple Inc. Portable multifunction device, method, and graphical user interface supporting user navigations of graphical objects on a touch screen display
US9772751B2 (en) 2007-06-29 2017-09-26 Apple Inc. Using gestures to slide between user interfaces
US9619143B2 (en) 2008-01-06 2017-04-11 Apple Inc. Device, method, and graphical user interface for viewing application launch icons
US8438504B2 (en) 2010-01-06 2013-05-07 Apple Inc. Device, method, and graphical user interface for navigating through multiple viewing areas
JP2012059212A (en) * 2010-09-13 2012-03-22 Nippon Telegr & Teleph Corp <Ntt> Extraction apparatus, extraction method and extraction program
JP2013218627A (en) * 2012-04-12 2013-10-24 Nippon Telegr & Teleph Corp <Ntt> Method and device for extracting information from structured document and program

Also Published As

Publication number Publication date Type
JP4046000B2 (en) 2008-02-13 grant

Similar Documents

Publication Publication Date Title
US7240067B2 (en) System and methodology for extraction and aggregation of data from dynamic content
US6631373B1 (en) Segmented document indexing and search
US5903727A (en) Processing HTML to embed sound in a web page
US7197462B2 (en) System and method for information access
US20040090458A1 (en) Method and apparatus for previewing GUI design and providing screen-to-source association
US20090070413A1 (en) Displaying Content on a Mobile Device
US20130138674A1 (en) System and method for recommending application by using keyword
US6587855B1 (en) Formatting and displaying data retrieved from a database
US20070282940A1 (en) Thread-ranking apparatus and method
US7913163B1 (en) Determining semantically distinct regions of a document
US20070143098A1 (en) Systems and methods for determining relevant information based on document structure
KR20010112686A (en) System and method for facilitating internet search by providing web document layout image and web site structure
US20040039732A1 (en) Process description language
US20070033089A1 (en) User interface and geo-parsing data structure
US6435880B1 (en) Learning-support device and learning-support method
JP2006113984A (en) Information providing system, metadata collection analysis server, and computer program
US20080195932A1 (en) Method and apparatus for re-editing and redistributing web documents
US8555157B1 (en) Document update generation
US20070192672A1 (en) Invoking an audio hyperlink
US7188340B2 (en) Hybrid tree for mixed user interface elements and sequential data
JP2004220251A (en) Information extraction rule creation system, information extraction rule creation method, and information extraction rule creation program
US20030056175A1 (en) Information processing method and apparatus
US20070192673A1 (en) Annotating an audio file with an audio hyperlink
JP2005107688A (en) Information display method and system and information display program
US7730104B2 (en) Extraction of information from structured documents

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070724

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070921

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071112

R150 Certificate of patent (=grant) or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101130

Year of fee payment: 3

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101130

Year of fee payment: 3

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111130

Year of fee payment: 4

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111130

Year of fee payment: 4

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121130

Year of fee payment: 5

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121130

Year of fee payment: 5

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131130

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350