JP2004046642A - 構造化文書の部分指定・抽出方法及び装置及び構造化文書の部分指定・抽出プログラム及び構造化文書の部分指定・抽出プログラムを格納した記憶媒体 - Google Patents

構造化文書の部分指定・抽出方法及び装置及び構造化文書の部分指定・抽出プログラム及び構造化文書の部分指定・抽出プログラムを格納した記憶媒体 Download PDF

Info

Publication number
JP2004046642A
JP2004046642A JP2002204641A JP2002204641A JP2004046642A JP 2004046642 A JP2004046642 A JP 2004046642A JP 2002204641 A JP2002204641 A JP 2002204641A JP 2002204641 A JP2002204641 A JP 2002204641A JP 2004046642 A JP2004046642 A JP 2004046642A
Authority
JP
Japan
Prior art keywords
node
user
nodes
document
structured document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002204641A
Other languages
English (en)
Inventor
Tadashi Uchiyama
内山 匡
Masaru Miyamoto
宮本 勝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002204641A priority Critical patent/JP2004046642A/ja
Priority to EP06010490A priority patent/EP1686499B1/en
Priority to DE60333238T priority patent/DE60333238D1/de
Priority to DE60314806T priority patent/DE60314806T2/de
Priority to EP03253818A priority patent/EP1376408B1/en
Priority to US10/463,521 priority patent/US7685157B2/en
Priority to CNB031486614A priority patent/CN1244877C/zh
Priority to KR1020030042628A priority patent/KR100572576B1/ko
Publication of JP2004046642A publication Critical patent/JP2004046642A/ja
Priority to US10/982,865 priority patent/US7730104B2/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】HTMLへのポイティングにより、ポインティング位置を包含する構造的な観点からの部分情報(部分情報は入れ子関係から複数存在する)を、簡易なユーザインタフェースで実現する。
【解決手段】本発明は、文書が表示されている画面上でユーザにより指定された位置に対応する木構造の末端のノードを検出し、末端のノードより上位のノードを逐次検出して得られる一連のノードを要素とする配列から、ユーザにノードを選択させ、ユーザにより選択されたノードに対応する構造化文書の部分を指定する。
【選択図】   図1

Description

【0001】
【発明の属する技術分野】
本発明は、構造化文書の部分指定・抽出方法及び装置及び構造化文書の部分指定・抽出プログラム及び構造化文書の部分指定・抽出プログラムを格納した記憶媒体に係り、特に、HTML等の構造化文書から、所望の部分を指定及び抽出し、別の構造化文書上で再利用する、あるいは、含まれるテキスト等が変更された後の当該文書からの対応部分を抽出するための構造化文書の部分指定・抽出方法及び装置及び構造化文書の部分指定・抽出プログラム及び構造化文書の部分指定・抽出プログラムを格納した記憶媒体に関する。
【0002】
【従来の技術】
日々更新されるHTML等の構造化文書から、ある特定の指定部分を抽出したいというニーズがある。例えば、ユーザが日常訪れるウェブサイトから注目している部分だけを集めて抽出することができれば、ページスクロール等を行うことなく、必要な情報だけを容易に一覧することができる。抽出にあたっては、この指定部分に含まれるテキスト等に変更があったとしても、変更された文書から当初の指定部分を特定した上で最新の情報を抽出することが求められる。
【0003】
これを実現する従来の技術として、以下の2つがある。
【0004】
1つは、WWW情報抽出システム(特許第2867986)がある。当該システムは、HTML等の構造化文書の指定部分の手掛かりとするために、その開始箇所と終了箇所になるテキストを保存しておく。文書からの指定部分の抽出は、保存されているテキストから開始箇所と終了箇所をHTML中に特定して両者に囲まれた部分を抽出するものである。
【0005】
もう1つは、WebMethod 社が提案する方法(http://www.w3.org/TR/NOTE−widl.html) や、locchiが提案する方法(Luca locchi,”The Web−OEM approach to Web information extraction,” Journal of Network and Computer Applications. Vol.22. pp.259−269,1999) のベースとなっている方法である。
【0006】
HTML等の構造化文書の部分を指定するために、まず、文書を図10に示すような木構造に変換し、指定部分を木構造内の位置として保存しておく。文書からの指定部分の抽出は、まず文書を木構造に変換し、保存されている位置を木構造内に特定して、これに対応する部分を抽出するものである。
【0007】
【発明が解決しようとする課題】
しかしながら、上記従来のWWW情報抽出システムでは、開始、終了箇所にあるテキストを手掛かりとして、HTML等の構造化文書の部分を指定しているため、図11の例に示すように、このテキスト自身に変更があり得る文書については適用できない。
【0008】
また、この方法では、指定される部分を木構造としてみたとき、一般には部分木を構成しないため、図12に示すように、この部分を別の構造化文書中で再利用することは困難である。
【0009】
また、WebMethod 社やlocchiが提案する木構造中の位置に基づく方法では、HTML等の構造化文書の部分の指定に当たっては、タグの概念など文書構造についての知識を含む高度なスキルが必要とされる。
【0010】
本発明は、上記の点に鑑みなされたもので、指定部分の開始・終了箇所に依存しない方法で、かつ、ユーザの直感によって容易にHTML等の構造化文書の部分を指定することが可能な構造化文書の部分指定・抽出方法及び装置及び構造化文書の部分指定・抽出プログラム及び構造化文書の部分指定・抽出プログラムを格納した記憶媒体を提供することを目的とする。
【0011】
【課題を解決するための手段】
図1は、本発明の原理を説明するための図である。
【0012】
本発明は、指定されたHTMLを含む構造化文書の部分を抽出する構造化文書の部分指定・抽出方法において、
文書が表示されている画面上でユーザにより指定された位置に対応する木構造の末端のノードを検出し(ステップ1)、
末端のノードより上位のノードを逐次検出して得られる一連のノードを要素とする配列から、ユーザにノードを選択させ(ステップ2)、
ユーザにより選択されたノードに対応する構造化文書の部分を指定する(ステップ3)。
【0013】
本発明は、一連のノードを要素とする配列を構成する各ノードに対応する画面上の領域を、該画面に重畳して表示し、
ユーザに所望する領域を選択させ、
ユーザが選択した領域に対応するノードを、ユーザ選択ノードとし、
ユーザ選択ノードに対応するHTMLドキュメントの部分を指定する。
【0014】
本発明は、一連のノードを要素とする配列を構成する各ノードのうち、複数のノードが同一のユーザが所望する領域に対応している場合、最も上位のノードを、ユーザ選択ノードとする。
【0015】
本発明は、一連のノードを要素とする配列を構成する各ノードのうち、複数のノードが同一のテキスト及び画像を配下に含む場合、最も上位のノードを、ユーザ選択ノードとする。
【0016】
本発明は、ユーザによって指定されたURLからHTML文書を取得して、中継サーバに送信し、
中継サーバから部分指定及び抽出機能を含むスクリプトが付加されたHTMLドキュメントを取得し、
HTMLドキュメントに基づいて、構造化文書の部分指定・抽出を行う。
【0017】
図2は、本発明の原理構成図である。
【0018】
本発明は、指定されたHTMLを含む構造化文書の部分を抽出する構造化文書の部分指定・抽出装置であって、
文書が表示されている画面上でユーザにより指定された位置に対応する木構造の末端のノードを検出するノード検出手段1と、
末端のノードより上位のノードを逐次検出して得られる一連のノードを要素とする配列から、ユーザにノードを選択させる選択指示手段2と、
ユーザにより選択されたノードに対応する構造化文書の部分を指定する部分指定手段3と、を有する。
【0019】
また、本発明は、一連のノードを要素とする配列を構成する各ノードに対応する画面上の領域を、該画面に重畳して表示する手段と、
ユーザに所望する領域を選択させる手段と、
ユーザが選択した領域に対応するノードを、ユーザ選択ノードとする手段と、
ユーザ選択ノードに対応するHTMLドキュメントの部分を指定する手段とを有する。
【0020】
また、本発明は、一連のノードを要素とする配列を構成する各ノードのうち、複数のノードが同一のユーザが所望する領域に対応している場合、最も上位のノードを、ユーザ選択ノードとする手段を含む。
【0021】
また、本発明は、一連のノードを要素とする配列を構成する各ノードのうち、複数のノードが同一のテキスト及び画像を配下に含む場合、最も上位のノードを、ユーザ選択ノードとする手段を含む。
【0022】
また、本発明は、ユーザによって指定されたURLからHTML文書を取得して、中継サーバに送信する手段と、
中継サーバから部分指定及び抽出機能を含むスクリプトが付加されたHTMLドキュメントを取得する手段と、
HTMLドキュメントに基づいて、構造化文書の部分指定・抽出を行う手段を更に有する。
【0023】
本発明は、指定されたHTMLを含む構造化文書の部分を抽出する構造化文書の部分指定・抽出プログラムであって、
文書が表示されている画面上でユーザにより指定された位置に対応する木構造の末端のノードを検出するノード検出ステップと、
末端のノードより上位のノードを逐次検出して得られる一連のノードを要素とする配列から、ユーザにノードを選択させる選択指示ステップと、
ユーザにより選択されたノードに対応する構造化文書の部分を指定する部分指定ステップと、を実行する。
【0024】
また、本発明は、一連のノードを要素とする配列を構成する各ノードに対応する画面上の領域を、該画面に重畳して表示するステップと、
ユーザに所望する領域を選択させるステップと、
ユーザが選択した領域に対応するノードを、ユーザ選択ノードとするステップと、
ユーザ選択ノードに対応するHTMLドキュメントの部分を指定するステップとを有する。
【0025】
また、本発明は、一連のノードを要素とする配列を構成する各ノードのうち、複数のノードが同一のユーザが所望する領域に対応している場合、最も上位のノードを、ユーザ選択ノードとするステップを含む。
【0026】
また、本発明は、一連のノードを要素とする配列を構成する各ノードのうち、複数のノードが同一のテキスト及び画像を配下に含む場合、最も上位のノードを、ユーザ選択ノードとするステップを含む。
【0027】
また、本発明は、ユーザによって指定されたURLからHTML文書を取得して、中継サーバに送信するステップと、
中継サーバから部分指定及び抽出機能を含むスクリプトが付加されたHTMLドキュメントを取得するステップと、
HTMLドキュメントに基づいて、構造化文書の部分指定・抽出を行うステップを更に有する。
【0028】
また、本発明は、指定されたHTMLを含む構造化文書の部分を抽出する構造化文書の部分指定・抽出プログラムを格納した記憶媒体であって、
上記の構造化文書の部分指定・抽出プログラムを格納する。
【0029】
上記のように、本発明は、HTML等の構造化文書の部分を指定し、抽出するシステムにおいて、当該文書が表示されている画面上でユーザが指示する位置に対応する木構造の末端のノードを検出し、さらに、これより上位のノードを逐次検出して得られる一連のノードを可視化して同じ画面上に表示し、これらの中からユーザがノードを選択することにより、当該ノードに対応する構造化文書の部分を容易に指定することが可能となる。
【0030】
【発明の実施の形態】
以下、図面と共に本発明の一実施の形態を説明する。
【0031】
図3は、本発明の一実施の形態における装置構成図である。
【0032】
同図に示す構造化文書部分指定・抽出装置100は、選択部分表示部111を有する表示制御部110、入力部120、木構造生成部130、及び表示部分保存部140から構成され、表示装置10と入力装置20が接続される。
【0033】
表示装置10には、ブラウザに処理対象とするHTMLのテキストや画像が表示される。
【0034】
入力装置20は、ユーザのボタン操作等により指定された情報を入力する。ボタン操作としては、領域の拡大(+)、縮小(−)、消去(clear) 、選択(select)等がある。
【0035】
表示制御部110の選択部分表示部111は、ユーザのボタン操作により、木構造における上位及び下位のオブジェクトを逐次表示し、ユーザによって選択された所望の部分をHTMLとして表示部分保存部140に保存する。
【0036】
入力部120は、入力装置20からのユーザからの入力(ボタン操作入力)を受け付け、木構造生成部130及び選択部分表示部111に入力された情報を渡す。
【0037】
木構造生成部130は、HTMLの木構造を構成しているオブジェクトから、ユーザによりクリックされた位置にあるオブジェクトを検出し、配列に格納する。
【0038】
図4は、本発明の一実施の形態における全体の処理のフローチャートである。まず、ユーザの端末のブラウザに処理対象とするHTMLが画面表示される(ステップ110)。ユーザはこの画面上で選択したい部分をクリックする(ステップ120)。木構造生成部130において、HTMLの木構造を構成しているオブジェクトから、クリック位置に対応するオブジェクトが抽出される(ステップ130)。抽出されたオブジェクトに対応する矩形が、図5に示すように、同じ画面上に重畳して表示される。このとき、ユーザが表示部分を選択した場合には、表示部分をHTMLとして表示部分保存部140に保存し(ステップ160)、表示部分を消去する(ステップ180)。また、ユーザが表示部分を選択せずに、同時に表示されるボタンの操作により、この領域を拡大(+)、縮小(−)、消去(clear)、選択(select)することができる(ステップ170)。これらのボタン操作により、木構造における上位及び下位のオブジェクトを逐次表示し、所望の部分が表示されたところで、表示部分を選択する(ステップ150)。選択された部分は、HTML等として表示部分保存部140に保存される(ステップ160)。
【0039】
以上の処理は、処理対象とする元のHTMLに、Java(登録商標)Scriptなどで記述されたスクリプトを付加したものをブラウザに読み込ませることにより、ブラウザ上で実行することができる。
【0040】
次に、木構造生成部130の処理について説明する。
【0041】
図6は、本発明の一実施の形態における木構造生成部の処理のフローチャートである。
【0042】
最初に、配列の初期化を行う(ステップ131)。クリック位置にあるオブジェクトを検出し(ステップ132)、配列に格納する(ステップ133)。ここで、オブジェクトは、HTMLの部分に対応するものであり、木構造においては、各ノードに対応する。また、画面上でそれぞれに対応する領域が存在する。図10の例では、木構造は、計13のノードからなっている。検出したオブジェクトに親オブジェクトがある場合(ステップ134、Yes)、同じクリック位置にあるオブジェクトとして、この親オブジェクトも前述の配列に格納する(ステップ133)。この処理をオブジェクトの階層すべてについて行うことにより、クリック位置にあるオブジェクトの配列aを得ることができる。図10で「apple 」をクリックした場合、配列aには、『k,j,i,h,f,e,d,a』の各オブジェクトが格納されることになる。
【0043】
次に、この配列の各要素チェックを行う(ステップ135)。これは、オブジェクトに含まれるテキストや画像、オブジェクトに対応するテキストや領域等が他のオブジェクトのものと同一であるため画面上での区別ができないものについて、これらのオブジェクトのうち最も上位のものを選択するものである。
【0044】
次の要素がある場合には、次の要素に含まれるテキストが異なるかを判定し(ステップ137)、異なる場合には、配列bに格納し(ステップ138)、また、次の要素が存在するかを判定する(ステップ136)。次の要素が存在しない場合には、オブジェクトを配列bに格納して処理を終了する(ステップ139)。
【0045】
これにより、クリック位置にあり、かつ画面上で区別可能なオブジェクトの配列bを最終的に得ることができる。
【0046】
前述の図10の例では、『k』と『j』は配下に同じテキスト「apple 」を含むので、このうち上位にある『j』が配列bに格納される。また、『i』と『h』は、配下に同じテキスト「apple 」及び「orange」を含むので、このうち上位にあるhが配列bに格納される。この例では、最終的に配列bに格納されるのは、『j』,『h』,『a』の各オブジェクトとなる。
【0047】
次に、選択部分表示部111について説明する。
【0048】
図7は、本発明の一実施の形態における選択部分表示部の処理のフローチャートである。
【0049】
まず、表示対象とするオブジェクトを設定する(ステップ141)。設定は、初回表示は、「現在選択されている配列bの要素」、拡大表示は、「現在選択されている配列bの要素の次の要素」、縮小表示は、「現在選択されている配列bの要素の前の要素」のように行う。
【0050】
初回の表示においては、オブジェクトの配列bのうち、最も下位のオブジェクトについて、対応する矩形を抽出し(ステップ142)、画面上に重畳して、例えば図5のように表示される(ステップ143)。図5に示したボタンの操作のうち、「拡大」は、配列bのうち、現在選択されている部分に対応するオブジェクトの一つ次のオブジェクトについて、矩形を抽出した後、画面上に重畳表示される。同様に「縮小」は、一つ前のオブジェクトについて同じ処理がなされる。前述の図10の例では、配列bに格納されているオブジェクトに対してそれぞれ図8に示すような重畳表示がなされる。
【0051】
最後に、システム全体の構成を説明する。
【0052】
図9は、本発明の一実施の形態におけるシステム構成図である。
【0053】
同図に示すシステムは、ユーザクライアント端末(構造化文書部分指定・抽出装置)100、中継サーバ200、及び処理対象とするHTMLドキュメントがあるサーバ300から構成される。
【0054】
処理対象とするHTMLでは、[http://www.foo.com/doc.html ]を画面に表示しつつ、同じ画面上で上記の操作を行うために、中継サーバ200[http://www.myserv.com/cgi−bin/get.cgi?http://.foo.com/doc.html]が設けられているのが特徴である。
【0055】
以下の説明の()の数字と、図9内の()内の数字は対応するものとする。
【0056】
(1) まず、ユーザは、クライアント端末100から、処理対象とするHTMLのURLを引数として、中継サーバ200のCGIを起動する。
【0057】
(2) 中継サーバ200は、引数のURLから、元のHTMLを取得する。中継サーバ200は更に、元のHTMLに上記の操作に必要なスクリプトをサーバ300にリクエストする。
【0058】
(3) サーバ300は、オリジナルのHTMLドキュメントを中継サーバ200に送信する。
【0059】
(4) 中継サーバ200は、サーバ300から取得したHTMLドキュメントの末尾に処理スクリプトを付加する。
【0060】
(5) 中継サーバ200は、指定部分及び抽出機能を付加したHTMLドキュメントをクライアント端末100に送信する。
【0061】
このようにして、クライアント端末100は、部分指定及び抽出機能が付加されたHTMLをブラウザ上で処理することができる。
【0062】
また、上記の実施の形態における構造化文書部分指定・抽出装置の構成要素をプログラムとして構築し、構造化文書部分指定・抽出装置として利用されるコンピュータにインストールする、または、ネットワークを介して流通させることが可能である。
【0063】
また、構築されたプログラムを構造化文書部分指定・抽出装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納しておき、本発明を実施する際にインストールすることも可能である。
【0064】
なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
【0065】
【発明の効果】
上述のように、本発明によれば、HTML等の構造化文書の部分を指定し、抽出するシステムにおいて、当該文書が表示されている画面上でユーザが指定する位置に対応する木構造の末端のノードを検出し、さらに、これにより上位のノードを逐次検出して得られる一連のノードを可視化して同じ画面上に表示し、これらの中からユーザがノードを選択することにより、当該ノードに対応する構造化文書の部分が容易に指定できると共に、この部分を別の構造化文書で再利用したり、また、当該文書に含まれるテキスト等に変更があった場合も当初の指定部分を適切に抽出することができる。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の一実施の形態における装置構成図である。
【図4】本発明の一実施の形態における全体の処理のフローチャートである。
【図5】本発明の一実施の形態におけるブラウザ上での部分指定の例である。
【図6】本発明の一実施の形態における木構造生成部の処理のフローチャートである。
【図7】本発明の一実施の形態における選択部分表示部の処理のフローチャートである。
【図8】本発明の一実施の形態における木構造と選択部分表示との対応の例である。
【図9】本発明の一実施の形態におけるシステム全体の構成図である。
【図10】HTMLのソースと対応する木構造の例である。
【図11】開始・終了箇所のテキストを手掛かりに部分指定・抽出した例である。
【図12】開始・終了箇所を指示するテキストを手掛かりにしてHTMLの対応部分を抽出した例である。
【符号の説明】
1 ノード検出手段
2 選択指示手段
3 部分指定手段
10 表示装置
20 入力装置
100 構造化文書部分指定・抽出装置
110 表示制御部
111 選択部分表示部
120 入力部
130 木構造生成部
140 表示部分保存部

Claims (16)

  1. 指定されたHTMLを含む構造化文書の部分を抽出する構造化文書の部分指定・抽出方法において、
    前記文書が表示されている画面上でユーザにより指定された位置に対応する木構造の末端のノードを検出し、
    前記末端のノードより上位のノードを逐次検出して得られる一連のノードを要素とする配列から、前記ユーザにノードを選択させ、
    前記ユーザにより選択されたノードに対応する構造化文書の部分を指定することを特徴とする構造化文書の部分指定・抽出方法。
  2. 前記一連のノードを要素とする配列を構成する各ノードに対応する前記画面上の領域を、該画面に重畳して表示し、
    前記ユーザに所望する領域を選択させ、
    前記ユーザが選択した領域に対応するノードを、ユーザ選択ノードとし、
    前記ユーザ選択ノードに対応するHTMLドキュメントの部分を指定する請求項1記載の構造化文書の部分指定・抽出方法。
  3. 前記一連のノードを要素とする配列を構成する各ノードのうち、複数のノードが同一の前記ユーザが所望する領域に対応している場合、最も上位のノードを、前記ユーザ選択ノードとする請求項2記載の構造化文書の部分指定・抽出方法。
  4. 前記一連のノードを要素とする配列を構成する各ノードのうち、複数のノードが同一のテキスト及び画像を配下に含む場合、最も上位のノードを、前記ユーザ選択ノードとする請求項2記載の構造化文書の部分指定・抽出方法。
  5. 前記ユーザによって指定されたURLからHTML文書を取得して、中継サーバに送信し、
    前記中継サーバから部分指定及び抽出機能を含むスクリプトが付加されたHTMLドキュメントを取得し、
    前記HTMLドキュメントに基づいて、前記構造化文書の部分指定・抽出を行う請求項1乃至4いずれか1項記載の構造化文書の部分指定・抽出方法。
  6. 指定されたHTMLを含む構造化文書の部分を抽出する構造化文書の部分指定・抽出装置であって、
    前記文書が表示されている画面上でユーザにより指定された位置に対応する木構造の末端のノードを検出するノード検出手段と、
    前記末端のノードより上位のノードを逐次検出して得られる一連のノードを要素とする配列から、前記ユーザにノードを選択させる選択指示手段と、
    前記ユーザにより選択されたノードに対応する構造化文書の部分を指定する部分指定手段と、を有することを特徴とする構造化文書の部分指定・抽出装置。
  7. 前記一連のノードを要素とする配列を構成する各ノードに対応する前記画面上の領域を、該画面に重畳して表示する手段と、
    前記ユーザに所望する領域を選択させる手段と、
    前記ユーザが選択した領域に対応するノードを、ユーザ選択ノードとする手段と、
    前記ユーザ選択ノードに対応するHTMLドキュメントの部分を指定する手段とを有する請求項6記載の構造化文書の部分指定・抽出装置。
  8. 前記一連のノードを要素とする配列を構成する各ノードのうち、複数のノードが同一の前記ユーザが所望する領域に対応している場合、最も上位のノードを、前記ユーザ選択ノードとする手段を含む請求項7記載の構造化文書の部分指定・抽出装置。
  9. 前記一連のノードを要素とする配列を構成する各ノードのうち、複数のノードが同一のテキスト及び画像を配下に含む場合、最も上位のノードを、前記ユーザ選択ノードとする手段を含む請求項7記載の構造化文書の部分指定・抽出装置。
  10. 前記ユーザによって指定されたURLからHTML文書を取得して、中継サーバに送信する手段と、
    前記中継サーバから部分指定及び抽出機能を含むスクリプトが付加されたHTMLドキュメントを取得する手段と、
    前記HTMLドキュメントに基づいて、前記構造化文書の部分指定・抽出を行う手段を更に有する請求項7乃至9いずれか1項記載の構造化文書の部分指定・抽出装置。
  11. 指定されたHTMLを含む構造化文書の部分を抽出する構造化文書の部分指定・抽出プログラムであって、
    前記文書が表示されている画面上でユーザにより指定された位置に対応する木構造の末端のノードを検出するノード検出ステップと、
    前記末端のノードより上位のノードを逐次検出して得られる一連のノードを要素とする配列から、前記ユーザにノードを選択させる選択指示ステップと、
    前記ユーザにより選択されたノードに対応する構造化文書の部分を指定する部分指定ステップと、を実行することを特徴とする構造化文書の部分指定・抽出プログラム。
  12. 前記一連のノードを要素とする配列を構成する各ノードに対応する前記画面上の領域を、該画面に重畳して表示するステップと、
    前記ユーザに所望する領域を選択させるステップと、
    前記ユーザが選択した領域に対応するノードを、ユーザ選択ノードとするステップと、
    前記ユーザ選択ノードに対応するHTMLドキュメントの部分を指定するステップとを有する請求項11記載の構造化文書の部分指定・抽出プログラム。
  13. 前記一連のノードを要素とする配列を構成する各ノードのうち、複数のノードが同一の前記ユーザが所望する領域に対応している場合、最も上位のノードを、前記ユーザ選択ノードとするステップを含む請求項12記載の構造化文書の部分指定・抽出プログラム。
  14. 前記一連のノードを要素とする配列を構成する各ノードのうち、複数のノードが同一のテキスト及び画像を配下に含む場合、最も上位のノードを、前記ユーザ選択ノードとするステップを含む請求項12記載の構造化文書の部分指定・抽出プログラム。
  15. 前記ユーザによって指定されたURLからHTML文書を取得して、中継サーバに送信するステップと、
    前記中継サーバから部分指定及び抽出機能を含むスクリプトが付加されたHTMLドキュメントを取得するステップと、
    前記HTMLドキュメントに基づいて、前記構造化文書の部分指定・抽出を行うステップを更に有する請求項11乃至14のいずれか1項記載の構造化文書の部分指定・抽出プログラム。
  16. 指定されたHTMLを含む構造化文書の部分を抽出する構造化文書の部分指定・抽出プログラムを格納した記憶媒体であって、
    前記請求項11乃至前記請求項15記載のプログラムを格納したことを特徴とする構造化文書の部分指定・抽出プログラムを格納した記憶媒体。
JP2002204641A 2002-06-28 2002-07-12 構造化文書の部分指定・抽出方法及び装置及び構造化文書の部分指定・抽出プログラム及び構造化文書の部分指定・抽出プログラムを格納した記憶媒体 Pending JP2004046642A (ja)

Priority Applications (9)

Application Number Priority Date Filing Date Title
JP2002204641A JP2004046642A (ja) 2002-07-12 2002-07-12 構造化文書の部分指定・抽出方法及び装置及び構造化文書の部分指定・抽出プログラム及び構造化文書の部分指定・抽出プログラムを格納した記憶媒体
EP06010490A EP1686499B1 (en) 2002-06-28 2003-06-17 Selection and extraction of information from structured documents
DE60333238T DE60333238D1 (de) 2002-06-28 2003-06-17 Extrahierung von Information aus strukturierten Dokumenten
DE60314806T DE60314806T2 (de) 2002-06-28 2003-06-17 Extrahierung von Information aus strukturierten Dokumenten
EP03253818A EP1376408B1 (en) 2002-06-28 2003-06-17 Extraction of information from structured documents
US10/463,521 US7685157B2 (en) 2002-06-28 2003-06-18 Extraction of information from structured documents
CNB031486614A CN1244877C (zh) 2002-06-28 2003-06-18 结构化文件的信息提取方法、部分识别方法、部分选择提取方法及装置
KR1020030042628A KR100572576B1 (ko) 2002-06-28 2003-06-27 구조화 문서부터의 정보 추출
US10/982,865 US7730104B2 (en) 2002-06-28 2004-11-08 Extraction of information from structured documents

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002204641A JP2004046642A (ja) 2002-07-12 2002-07-12 構造化文書の部分指定・抽出方法及び装置及び構造化文書の部分指定・抽出プログラム及び構造化文書の部分指定・抽出プログラムを格納した記憶媒体

Publications (1)

Publication Number Publication Date
JP2004046642A true JP2004046642A (ja) 2004-02-12

Family

ID=31710186

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002204641A Pending JP2004046642A (ja) 2002-06-28 2002-07-12 構造化文書の部分指定・抽出方法及び装置及び構造化文書の部分指定・抽出プログラム及び構造化文書の部分指定・抽出プログラムを格納した記憶媒体

Country Status (1)

Country Link
JP (1) JP2004046642A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012168892A (ja) * 2011-02-16 2012-09-06 Shigenori Tanaka グループ化装置およびエレメント抽出装置
WO2014042158A1 (ja) * 2012-09-11 2014-03-20 日本電信電話株式会社 コンテンツ表示装置、コンテンツ表示システム、データ構造、コンテンツ表示方法及びコンテンツ表示プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012168892A (ja) * 2011-02-16 2012-09-06 Shigenori Tanaka グループ化装置およびエレメント抽出装置
WO2014042158A1 (ja) * 2012-09-11 2014-03-20 日本電信電話株式会社 コンテンツ表示装置、コンテンツ表示システム、データ構造、コンテンツ表示方法及びコンテンツ表示プログラム
JP5841260B2 (ja) * 2012-09-11 2016-01-13 日本電信電話株式会社 コンテンツ表示装置、コンテンツ表示システム、コンテンツ表示方法及びコンテンツ表示プログラム
US10275398B2 (en) 2012-09-11 2019-04-30 Nippon Telegraph And Telephone Corporation Content display device, content display method, and content display program

Similar Documents

Publication Publication Date Title
US10956531B2 (en) Dynamic generation of mobile web experience
JP5636521B2 (ja) ウェブページ情報を抽出するためのウェブクローラの構成
US8103737B2 (en) System and method for previewing hyperlinks with ‘flashback’ images
US6785740B1 (en) Text-messaging server with automatic conversion of keywords into hyperlinks to external files on a network
US7730104B2 (en) Extraction of information from structured documents
KR100971820B1 (ko) 정보 처리 장치, 방법, 기록 매체 및 시스템
US20120167047A1 (en) System and method for automatic creation of web content for mobile communicators
WO2009011837A1 (en) Extraction and reapplication of design information to existing websites
US9170988B2 (en) Method for causing computer to display page view on display area by converting HTML page into new HTML pages, and non-transitory computer readable media recording program
KR20140028029A (ko) 애플리케이션 타일용 프레젠테이션 포맷 기법
US20090150787A1 (en) Data processing device
WO2011045812A2 (en) System and method for transcoding web content adaptable to multiple client devices
JP2004287758A (ja) Webアプリケーション統合方法/プログラム/記録媒体、ポータルサーバ
US20050149853A1 (en) Document display program and method
JP2004318505A (ja) 構造化文書の部分指定及び抽出方法及び構造化文書の部分指定装置及び構造化文書の抽出装置及び構造化文書の部分指定プログラム及び構造化文書の抽出プログラム
JP2008071116A (ja) 情報配信システム、情報配信装置、情報配信方法および情報配信用プログラム
JP2008123425A (ja) ウェブ文書データ提供装置、方法、およびシステム
JP5049880B2 (ja) 情報処理装置
JP2007249700A (ja) 文書管理装置、文書検索方法、文書検索プログラム及び記録媒体
JP2004046642A (ja) 構造化文書の部分指定・抽出方法及び装置及び構造化文書の部分指定・抽出プログラム及び構造化文書の部分指定・抽出プログラムを格納した記憶媒体
JP2008287383A (ja) リンク先情報表示装置,リンク先情報表示方法,その方法を実装したリンク先情報表示プログラム及びそのプログラムを格納した記録媒体
JPH10301944A (ja) Wwwブラウザ装置
JP2010003159A (ja) Web利用者支援システム、Web利用者支援方法、およびWeb利用者支援プログラム
JP2010049598A (ja) ウェブサイト作成支援装置及びウェブサイト作成支援プログラム
JP6101880B1 (ja) Webページを表示するためのシステム、プログラムおよび記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050801

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060404

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060602

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070306