JP2004046642A

JP2004046642A - 構造化文書の部分指定・抽出方法及び装置及び構造化文書の部分指定・抽出プログラム及び構造化文書の部分指定・抽出プログラムを格納した記憶媒体

Info

Publication number: JP2004046642A
Application number: JP2002204641A
Authority: JP
Inventors: Tadashi Uchiyama; 内山　匡; Masaru Miyamoto; 宮本　勝
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2002-07-12
Filing date: 2002-07-12
Publication date: 2004-02-12

Abstract

【課題】ＨＴＭＬへのポイティングにより、ポインティング位置を包含する構造的な観点からの部分情報（部分情報は入れ子関係から複数存在する）を、簡易なユーザインタフェースで実現する。
【解決手段】本発明は、文書が表示されている画面上でユーザにより指定された位置に対応する木構造の末端のノードを検出し、末端のノードより上位のノードを逐次検出して得られる一連のノードを要素とする配列から、ユーザにノードを選択させ、ユーザにより選択されたノードに対応する構造化文書の部分を指定する。
【選択図】　　　図１

Description

【０００１】
【発明の属する技術分野】
本発明は、構造化文書の部分指定・抽出方法及び装置及び構造化文書の部分指定・抽出プログラム及び構造化文書の部分指定・抽出プログラムを格納した記憶媒体に係り、特に、ＨＴＭＬ等の構造化文書から、所望の部分を指定及び抽出し、別の構造化文書上で再利用する、あるいは、含まれるテキスト等が変更された後の当該文書からの対応部分を抽出するための構造化文書の部分指定・抽出方法及び装置及び構造化文書の部分指定・抽出プログラム及び構造化文書の部分指定・抽出プログラムを格納した記憶媒体に関する。
【０００２】
【従来の技術】
日々更新されるＨＴＭＬ等の構造化文書から、ある特定の指定部分を抽出したいというニーズがある。例えば、ユーザが日常訪れるウェブサイトから注目している部分だけを集めて抽出することができれば、ページスクロール等を行うことなく、必要な情報だけを容易に一覧することができる。抽出にあたっては、この指定部分に含まれるテキスト等に変更があったとしても、変更された文書から当初の指定部分を特定した上で最新の情報を抽出することが求められる。
【０００３】
これを実現する従来の技術として、以下の２つがある。
【０００４】
１つは、ＷＷＷ情報抽出システム（特許第２８６７９８６）がある。当該システムは、ＨＴＭＬ等の構造化文書の指定部分の手掛かりとするために、その開始箇所と終了箇所になるテキストを保存しておく。文書からの指定部分の抽出は、保存されているテキストから開始箇所と終了箇所をＨＴＭＬ中に特定して両者に囲まれた部分を抽出するものである。
【０００５】
もう１つは、ＷｅｂＭｅｔｈｏｄ　社が提案する方法（ｈｔｔｐ：／／ｗｗｗ．ｗ３．ｏｒｇ／ＴＲ／ＮＯＴＥ−ｗｉｄｌ．ｈｔｍｌ）　や、ｌｏｃｃｈｉが提案する方法（Ｌｕｃａ　ｌｏｃｃｈｉ，”Ｔｈｅ　Ｗｅｂ−ＯＥＭ　ａｐｐｒｏａｃｈ　ｔｏ　Ｗｅｂ　ｉｎｆｏｒｍａｔｉｏｎ　ｅｘｔｒａｃｔｉｏｎ，”　Ｊｏｕｒｎａｌ　ｏｆ　Ｎｅｔｗｏｒｋ　ａｎｄ　Ｃｏｍｐｕｔｅｒ　Ａｐｐｌｉｃａｔｉｏｎｓ．　Ｖｏｌ．２２．　ｐｐ．２５９−２６９，１９９９）　のベースとなっている方法である。
【０００６】
ＨＴＭＬ等の構造化文書の部分を指定するために、まず、文書を図１０に示すような木構造に変換し、指定部分を木構造内の位置として保存しておく。文書からの指定部分の抽出は、まず文書を木構造に変換し、保存されている位置を木構造内に特定して、これに対応する部分を抽出するものである。
【０００７】
【発明が解決しようとする課題】
しかしながら、上記従来のＷＷＷ情報抽出システムでは、開始、終了箇所にあるテキストを手掛かりとして、ＨＴＭＬ等の構造化文書の部分を指定しているため、図１１の例に示すように、このテキスト自身に変更があり得る文書については適用できない。
【０００８】
また、この方法では、指定される部分を木構造としてみたとき、一般には部分木を構成しないため、図１２に示すように、この部分を別の構造化文書中で再利用することは困難である。
【０００９】
また、ＷｅｂＭｅｔｈｏｄ　社やｌｏｃｃｈｉが提案する木構造中の位置に基づく方法では、ＨＴＭＬ等の構造化文書の部分の指定に当たっては、タグの概念など文書構造についての知識を含む高度なスキルが必要とされる。
【００１０】
本発明は、上記の点に鑑みなされたもので、指定部分の開始・終了箇所に依存しない方法で、かつ、ユーザの直感によって容易にＨＴＭＬ等の構造化文書の部分を指定することが可能な構造化文書の部分指定・抽出方法及び装置及び構造化文書の部分指定・抽出プログラム及び構造化文書の部分指定・抽出プログラムを格納した記憶媒体を提供することを目的とする。
【００１１】
【課題を解決するための手段】
図１は、本発明の原理を説明するための図である。
【００１２】
本発明は、指定されたＨＴＭＬを含む構造化文書の部分を抽出する構造化文書の部分指定・抽出方法において、
文書が表示されている画面上でユーザにより指定された位置に対応する木構造の末端のノードを検出し（ステップ１）、
末端のノードより上位のノードを逐次検出して得られる一連のノードを要素とする配列から、ユーザにノードを選択させ（ステップ２）、
ユーザにより選択されたノードに対応する構造化文書の部分を指定する（ステップ３）。
【００１３】
本発明は、一連のノードを要素とする配列を構成する各ノードに対応する画面上の領域を、該画面に重畳して表示し、
ユーザに所望する領域を選択させ、
ユーザが選択した領域に対応するノードを、ユーザ選択ノードとし、
ユーザ選択ノードに対応するＨＴＭＬドキュメントの部分を指定する。
【００１４】
本発明は、一連のノードを要素とする配列を構成する各ノードのうち、複数のノードが同一のユーザが所望する領域に対応している場合、最も上位のノードを、ユーザ選択ノードとする。
【００１５】
本発明は、一連のノードを要素とする配列を構成する各ノードのうち、複数のノードが同一のテキスト及び画像を配下に含む場合、最も上位のノードを、ユーザ選択ノードとする。
【００１６】
本発明は、ユーザによって指定されたＵＲＬからＨＴＭＬ文書を取得して、中継サーバに送信し、
中継サーバから部分指定及び抽出機能を含むスクリプトが付加されたＨＴＭＬドキュメントを取得し、
ＨＴＭＬドキュメントに基づいて、構造化文書の部分指定・抽出を行う。
【００１７】
図２は、本発明の原理構成図である。
【００１８】
本発明は、指定されたＨＴＭＬを含む構造化文書の部分を抽出する構造化文書の部分指定・抽出装置であって、
文書が表示されている画面上でユーザにより指定された位置に対応する木構造の末端のノードを検出するノード検出手段１と、
末端のノードより上位のノードを逐次検出して得られる一連のノードを要素とする配列から、ユーザにノードを選択させる選択指示手段２と、
ユーザにより選択されたノードに対応する構造化文書の部分を指定する部分指定手段３と、を有する。
【００１９】
また、本発明は、一連のノードを要素とする配列を構成する各ノードに対応する画面上の領域を、該画面に重畳して表示する手段と、
ユーザに所望する領域を選択させる手段と、
ユーザが選択した領域に対応するノードを、ユーザ選択ノードとする手段と、
ユーザ選択ノードに対応するＨＴＭＬドキュメントの部分を指定する手段とを有する。
【００２０】
また、本発明は、一連のノードを要素とする配列を構成する各ノードのうち、複数のノードが同一のユーザが所望する領域に対応している場合、最も上位のノードを、ユーザ選択ノードとする手段を含む。
【００２１】
また、本発明は、一連のノードを要素とする配列を構成する各ノードのうち、複数のノードが同一のテキスト及び画像を配下に含む場合、最も上位のノードを、ユーザ選択ノードとする手段を含む。
【００２２】
また、本発明は、ユーザによって指定されたＵＲＬからＨＴＭＬ文書を取得して、中継サーバに送信する手段と、
中継サーバから部分指定及び抽出機能を含むスクリプトが付加されたＨＴＭＬドキュメントを取得する手段と、
ＨＴＭＬドキュメントに基づいて、構造化文書の部分指定・抽出を行う手段を更に有する。
【００２３】
本発明は、指定されたＨＴＭＬを含む構造化文書の部分を抽出する構造化文書の部分指定・抽出プログラムであって、
文書が表示されている画面上でユーザにより指定された位置に対応する木構造の末端のノードを検出するノード検出ステップと、
末端のノードより上位のノードを逐次検出して得られる一連のノードを要素とする配列から、ユーザにノードを選択させる選択指示ステップと、
ユーザにより選択されたノードに対応する構造化文書の部分を指定する部分指定ステップと、を実行する。
【００２４】
また、本発明は、一連のノードを要素とする配列を構成する各ノードに対応する画面上の領域を、該画面に重畳して表示するステップと、
ユーザに所望する領域を選択させるステップと、
ユーザが選択した領域に対応するノードを、ユーザ選択ノードとするステップと、
ユーザ選択ノードに対応するＨＴＭＬドキュメントの部分を指定するステップとを有する。
【００２５】
また、本発明は、一連のノードを要素とする配列を構成する各ノードのうち、複数のノードが同一のユーザが所望する領域に対応している場合、最も上位のノードを、ユーザ選択ノードとするステップを含む。
【００２６】
また、本発明は、一連のノードを要素とする配列を構成する各ノードのうち、複数のノードが同一のテキスト及び画像を配下に含む場合、最も上位のノードを、ユーザ選択ノードとするステップを含む。
【００２７】
また、本発明は、ユーザによって指定されたＵＲＬからＨＴＭＬ文書を取得して、中継サーバに送信するステップと、
中継サーバから部分指定及び抽出機能を含むスクリプトが付加されたＨＴＭＬドキュメントを取得するステップと、
ＨＴＭＬドキュメントに基づいて、構造化文書の部分指定・抽出を行うステップを更に有する。
【００２８】
また、本発明は、指定されたＨＴＭＬを含む構造化文書の部分を抽出する構造化文書の部分指定・抽出プログラムを格納した記憶媒体であって、
上記の構造化文書の部分指定・抽出プログラムを格納する。
【００２９】
上記のように、本発明は、ＨＴＭＬ等の構造化文書の部分を指定し、抽出するシステムにおいて、当該文書が表示されている画面上でユーザが指示する位置に対応する木構造の末端のノードを検出し、さらに、これより上位のノードを逐次検出して得られる一連のノードを可視化して同じ画面上に表示し、これらの中からユーザがノードを選択することにより、当該ノードに対応する構造化文書の部分を容易に指定することが可能となる。
【００３０】
【発明の実施の形態】
以下、図面と共に本発明の一実施の形態を説明する。
【００３１】
図３は、本発明の一実施の形態における装置構成図である。
【００３２】
同図に示す構造化文書部分指定・抽出装置１００は、選択部分表示部１１１を有する表示制御部１１０、入力部１２０、木構造生成部１３０、及び表示部分保存部１４０から構成され、表示装置１０と入力装置２０が接続される。
【００３３】
表示装置１０には、ブラウザに処理対象とするＨＴＭＬのテキストや画像が表示される。
【００３４】
入力装置２０は、ユーザのボタン操作等により指定された情報を入力する。ボタン操作としては、領域の拡大（＋）、縮小（−）、消去（ｃｌｅａｒ）　、選択（ｓｅｌｅｃｔ）等がある。
【００３５】
表示制御部１１０の選択部分表示部１１１は、ユーザのボタン操作により、木構造における上位及び下位のオブジェクトを逐次表示し、ユーザによって選択された所望の部分をＨＴＭＬとして表示部分保存部１４０に保存する。
【００３６】
入力部１２０は、入力装置２０からのユーザからの入力（ボタン操作入力）を受け付け、木構造生成部１３０及び選択部分表示部１１１に入力された情報を渡す。
【００３７】
木構造生成部１３０は、ＨＴＭＬの木構造を構成しているオブジェクトから、ユーザによりクリックされた位置にあるオブジェクトを検出し、配列に格納する。
【００３８】
図４は、本発明の一実施の形態における全体の処理のフローチャートである。まず、ユーザの端末のブラウザに処理対象とするＨＴＭＬが画面表示される（ステップ１１０）。ユーザはこの画面上で選択したい部分をクリックする（ステップ１２０）。木構造生成部１３０において、ＨＴＭＬの木構造を構成しているオブジェクトから、クリック位置に対応するオブジェクトが抽出される（ステップ１３０）。抽出されたオブジェクトに対応する矩形が、図５に示すように、同じ画面上に重畳して表示される。このとき、ユーザが表示部分を選択した場合には、表示部分をＨＴＭＬとして表示部分保存部１４０に保存し（ステップ１６０）、表示部分を消去する（ステップ１８０）。また、ユーザが表示部分を選択せずに、同時に表示されるボタンの操作により、この領域を拡大（＋）、縮小（−）、消去（ｃｌｅａｒ）、選択（ｓｅｌｅｃｔ）することができる（ステップ１７０）。これらのボタン操作により、木構造における上位及び下位のオブジェクトを逐次表示し、所望の部分が表示されたところで、表示部分を選択する（ステップ１５０）。選択された部分は、ＨＴＭＬ等として表示部分保存部１４０に保存される（ステップ１６０）。
【００３９】
以上の処理は、処理対象とする元のＨＴＭＬに、Ｊａｖａ（登録商標）Ｓｃｒｉｐｔなどで記述されたスクリプトを付加したものをブラウザに読み込ませることにより、ブラウザ上で実行することができる。
【００４０】
次に、木構造生成部１３０の処理について説明する。
【００４１】
図６は、本発明の一実施の形態における木構造生成部の処理のフローチャートである。
【００４２】
最初に、配列の初期化を行う（ステップ１３１）。クリック位置にあるオブジェクトを検出し（ステップ１３２）、配列に格納する（ステップ１３３）。ここで、オブジェクトは、ＨＴＭＬの部分に対応するものであり、木構造においては、各ノードに対応する。また、画面上でそれぞれに対応する領域が存在する。図１０の例では、木構造は、計１３のノードからなっている。検出したオブジェクトに親オブジェクトがある場合（ステップ１３４、Ｙｅｓ）、同じクリック位置にあるオブジェクトとして、この親オブジェクトも前述の配列に格納する（ステップ１３３）。この処理をオブジェクトの階層すべてについて行うことにより、クリック位置にあるオブジェクトの配列ａを得ることができる。図１０で「ａｐｐｌｅ　」をクリックした場合、配列ａには、『ｋ，ｊ，ｉ，ｈ，ｆ，ｅ，ｄ，ａ』の各オブジェクトが格納されることになる。
【００４３】
次に、この配列の各要素チェックを行う（ステップ１３５）。これは、オブジェクトに含まれるテキストや画像、オブジェクトに対応するテキストや領域等が他のオブジェクトのものと同一であるため画面上での区別ができないものについて、これらのオブジェクトのうち最も上位のものを選択するものである。
【００４４】
次の要素がある場合には、次の要素に含まれるテキストが異なるかを判定し（ステップ１３７）、異なる場合には、配列ｂに格納し（ステップ１３８）、また、次の要素が存在するかを判定する（ステップ１３６）。次の要素が存在しない場合には、オブジェクトを配列ｂに格納して処理を終了する（ステップ１３９）。
【００４５】
これにより、クリック位置にあり、かつ画面上で区別可能なオブジェクトの配列ｂを最終的に得ることができる。
【００４６】
前述の図１０の例では、『ｋ』と『ｊ』は配下に同じテキスト「ａｐｐｌｅ　」を含むので、このうち上位にある『ｊ』が配列ｂに格納される。また、『ｉ』と『ｈ』は、配下に同じテキスト「ａｐｐｌｅ　」及び「ｏｒａｎｇｅ」を含むので、このうち上位にあるｈが配列ｂに格納される。この例では、最終的に配列ｂに格納されるのは、『ｊ』，『ｈ』，『ａ』の各オブジェクトとなる。
【００４７】
次に、選択部分表示部１１１について説明する。
【００４８】
図７は、本発明の一実施の形態における選択部分表示部の処理のフローチャートである。
【００４９】
まず、表示対象とするオブジェクトを設定する（ステップ１４１）。設定は、初回表示は、「現在選択されている配列ｂの要素」、拡大表示は、「現在選択されている配列ｂの要素の次の要素」、縮小表示は、「現在選択されている配列ｂの要素の前の要素」のように行う。
【００５０】
初回の表示においては、オブジェクトの配列ｂのうち、最も下位のオブジェクトについて、対応する矩形を抽出し（ステップ１４２）、画面上に重畳して、例えば図５のように表示される（ステップ１４３）。図５に示したボタンの操作のうち、「拡大」は、配列ｂのうち、現在選択されている部分に対応するオブジェクトの一つ次のオブジェクトについて、矩形を抽出した後、画面上に重畳表示される。同様に「縮小」は、一つ前のオブジェクトについて同じ処理がなされる。前述の図１０の例では、配列ｂに格納されているオブジェクトに対してそれぞれ図８に示すような重畳表示がなされる。
【００５１】
最後に、システム全体の構成を説明する。
【００５２】
図９は、本発明の一実施の形態におけるシステム構成図である。
【００５３】
同図に示すシステムは、ユーザクライアント端末（構造化文書部分指定・抽出装置）１００、中継サーバ２００、及び処理対象とするＨＴＭＬドキュメントがあるサーバ３００から構成される。
【００５４】
処理対象とするＨＴＭＬでは、［ｈｔｔｐ：／／ｗｗｗ．ｆｏｏ．ｃｏｍ／ｄｏｃ．ｈｔｍｌ　］を画面に表示しつつ、同じ画面上で上記の操作を行うために、中継サーバ２００［ｈｔｔｐ：／／ｗｗｗ．ｍｙｓｅｒｖ．ｃｏｍ／ｃｇｉ−ｂｉｎ／ｇｅｔ．ｃｇｉ？ｈｔｔｐ：／／．ｆｏｏ．ｃｏｍ／ｄｏｃ．ｈｔｍｌ］が設けられているのが特徴である。
【００５５】
以下の説明の（）の数字と、図９内の（）内の数字は対応するものとする。
【００５６】
（１）　まず、ユーザは、クライアント端末１００から、処理対象とするＨＴＭＬのＵＲＬを引数として、中継サーバ２００のＣＧＩを起動する。
【００５７】
（２）　中継サーバ２００は、引数のＵＲＬから、元のＨＴＭＬを取得する。中継サーバ２００は更に、元のＨＴＭＬに上記の操作に必要なスクリプトをサーバ３００にリクエストする。
【００５８】
（３）　サーバ３００は、オリジナルのＨＴＭＬドキュメントを中継サーバ２００に送信する。
【００５９】
（４）　中継サーバ２００は、サーバ３００から取得したＨＴＭＬドキュメントの末尾に処理スクリプトを付加する。
【００６０】
（５）　中継サーバ２００は、指定部分及び抽出機能を付加したＨＴＭＬドキュメントをクライアント端末１００に送信する。
【００６１】
このようにして、クライアント端末１００は、部分指定及び抽出機能が付加されたＨＴＭＬをブラウザ上で処理することができる。
【００６２】
また、上記の実施の形態における構造化文書部分指定・抽出装置の構成要素をプログラムとして構築し、構造化文書部分指定・抽出装置として利用されるコンピュータにインストールする、または、ネットワークを介して流通させることが可能である。
【００６３】
また、構築されたプログラムを構造化文書部分指定・抽出装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスク、ＣＤ−ＲＯＭ等の可搬記憶媒体に格納しておき、本発明を実施する際にインストールすることも可能である。
【００６４】
なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
【００６５】
【発明の効果】
上述のように、本発明によれば、ＨＴＭＬ等の構造化文書の部分を指定し、抽出するシステムにおいて、当該文書が表示されている画面上でユーザが指定する位置に対応する木構造の末端のノードを検出し、さらに、これにより上位のノードを逐次検出して得られる一連のノードを可視化して同じ画面上に表示し、これらの中からユーザがノードを選択することにより、当該ノードに対応する構造化文書の部分が容易に指定できると共に、この部分を別の構造化文書で再利用したり、また、当該文書に含まれるテキスト等に変更があった場合も当初の指定部分を適切に抽出することができる。
【図面の簡単な説明】
【図１】本発明の原理を説明するための図である。
【図２】本発明の原理構成図である。
【図３】本発明の一実施の形態における装置構成図である。
【図４】本発明の一実施の形態における全体の処理のフローチャートである。
【図５】本発明の一実施の形態におけるブラウザ上での部分指定の例である。
【図６】本発明の一実施の形態における木構造生成部の処理のフローチャートである。
【図７】本発明の一実施の形態における選択部分表示部の処理のフローチャートである。
【図８】本発明の一実施の形態における木構造と選択部分表示との対応の例である。
【図９】本発明の一実施の形態におけるシステム全体の構成図である。
【図１０】ＨＴＭＬのソースと対応する木構造の例である。
【図１１】開始・終了箇所のテキストを手掛かりに部分指定・抽出した例である。
【図１２】開始・終了箇所を指示するテキストを手掛かりにしてＨＴＭＬの対応部分を抽出した例である。
【符号の説明】
１　ノード検出手段
２　選択指示手段
３　部分指定手段
１０　表示装置
２０　入力装置
１００　構造化文書部分指定・抽出装置
１１０　表示制御部
１１１　選択部分表示部
１２０　入力部
１３０　木構造生成部
１４０　表示部分保存部

Claims

指定されたＨＴＭＬを含む構造化文書の部分を抽出する構造化文書の部分指定・抽出方法において、
前記文書が表示されている画面上でユーザにより指定された位置に対応する木構造の末端のノードを検出し、
前記末端のノードより上位のノードを逐次検出して得られる一連のノードを要素とする配列から、前記ユーザにノードを選択させ、
前記ユーザにより選択されたノードに対応する構造化文書の部分を指定することを特徴とする構造化文書の部分指定・抽出方法。
前記一連のノードを要素とする配列を構成する各ノードに対応する前記画面上の領域を、該画面に重畳して表示し、
前記ユーザに所望する領域を選択させ、
前記ユーザが選択した領域に対応するノードを、ユーザ選択ノードとし、
前記ユーザ選択ノードに対応するＨＴＭＬドキュメントの部分を指定する請求項１記載の構造化文書の部分指定・抽出方法。
前記一連のノードを要素とする配列を構成する各ノードのうち、複数のノードが同一の前記ユーザが所望する領域に対応している場合、最も上位のノードを、前記ユーザ選択ノードとする請求項２記載の構造化文書の部分指定・抽出方法。
前記一連のノードを要素とする配列を構成する各ノードのうち、複数のノードが同一のテキスト及び画像を配下に含む場合、最も上位のノードを、前記ユーザ選択ノードとする請求項２記載の構造化文書の部分指定・抽出方法。
前記ユーザによって指定されたＵＲＬからＨＴＭＬ文書を取得して、中継サーバに送信し、
前記中継サーバから部分指定及び抽出機能を含むスクリプトが付加されたＨＴＭＬドキュメントを取得し、
前記ＨＴＭＬドキュメントに基づいて、前記構造化文書の部分指定・抽出を行う請求項１乃至４いずれか１項記載の構造化文書の部分指定・抽出方法。
指定されたＨＴＭＬを含む構造化文書の部分を抽出する構造化文書の部分指定・抽出装置であって、
前記文書が表示されている画面上でユーザにより指定された位置に対応する木構造の末端のノードを検出するノード検出手段と、
前記末端のノードより上位のノードを逐次検出して得られる一連のノードを要素とする配列から、前記ユーザにノードを選択させる選択指示手段と、
前記ユーザにより選択されたノードに対応する構造化文書の部分を指定する部分指定手段と、を有することを特徴とする構造化文書の部分指定・抽出装置。
前記一連のノードを要素とする配列を構成する各ノードに対応する前記画面上の領域を、該画面に重畳して表示する手段と、
前記ユーザに所望する領域を選択させる手段と、
前記ユーザが選択した領域に対応するノードを、ユーザ選択ノードとする手段と、
前記ユーザ選択ノードに対応するＨＴＭＬドキュメントの部分を指定する手段とを有する請求項６記載の構造化文書の部分指定・抽出装置。
前記一連のノードを要素とする配列を構成する各ノードのうち、複数のノードが同一の前記ユーザが所望する領域に対応している場合、最も上位のノードを、前記ユーザ選択ノードとする手段を含む請求項７記載の構造化文書の部分指定・抽出装置。
前記一連のノードを要素とする配列を構成する各ノードのうち、複数のノードが同一のテキスト及び画像を配下に含む場合、最も上位のノードを、前記ユーザ選択ノードとする手段を含む請求項７記載の構造化文書の部分指定・抽出装置。
前記ユーザによって指定されたＵＲＬからＨＴＭＬ文書を取得して、中継サーバに送信する手段と、
前記中継サーバから部分指定及び抽出機能を含むスクリプトが付加されたＨＴＭＬドキュメントを取得する手段と、
前記ＨＴＭＬドキュメントに基づいて、前記構造化文書の部分指定・抽出を行う手段を更に有する請求項７乃至９いずれか１項記載の構造化文書の部分指定・抽出装置。
指定されたＨＴＭＬを含む構造化文書の部分を抽出する構造化文書の部分指定・抽出プログラムであって、
前記文書が表示されている画面上でユーザにより指定された位置に対応する木構造の末端のノードを検出するノード検出ステップと、
前記末端のノードより上位のノードを逐次検出して得られる一連のノードを要素とする配列から、前記ユーザにノードを選択させる選択指示ステップと、
前記ユーザにより選択されたノードに対応する構造化文書の部分を指定する部分指定ステップと、を実行することを特徴とする構造化文書の部分指定・抽出プログラム。
前記一連のノードを要素とする配列を構成する各ノードに対応する前記画面上の領域を、該画面に重畳して表示するステップと、
前記ユーザに所望する領域を選択させるステップと、
前記ユーザが選択した領域に対応するノードを、ユーザ選択ノードとするステップと、
前記ユーザ選択ノードに対応するＨＴＭＬドキュメントの部分を指定するステップとを有する請求項１１記載の構造化文書の部分指定・抽出プログラム。
前記一連のノードを要素とする配列を構成する各ノードのうち、複数のノードが同一の前記ユーザが所望する領域に対応している場合、最も上位のノードを、前記ユーザ選択ノードとするステップを含む請求項１２記載の構造化文書の部分指定・抽出プログラム。
前記一連のノードを要素とする配列を構成する各ノードのうち、複数のノードが同一のテキスト及び画像を配下に含む場合、最も上位のノードを、前記ユーザ選択ノードとするステップを含む請求項１２記載の構造化文書の部分指定・抽出プログラム。
前記ユーザによって指定されたＵＲＬからＨＴＭＬ文書を取得して、中継サーバに送信するステップと、
前記中継サーバから部分指定及び抽出機能を含むスクリプトが付加されたＨＴＭＬドキュメントを取得するステップと、
前記ＨＴＭＬドキュメントに基づいて、前記構造化文書の部分指定・抽出を行うステップを更に有する請求項１１乃至１４のいずれか１項記載の構造化文書の部分指定・抽出プログラム。
指定されたＨＴＭＬを含む構造化文書の部分を抽出する構造化文書の部分指定・抽出プログラムを格納した記憶媒体であって、
前記請求項１１乃至前記請求項１５記載のプログラムを格納したことを特徴とする構造化文書の部分指定・抽出プログラムを格納した記憶媒体。