JP4033764B2

JP4033764B2 - 情報抽出装置および方法

Info

Publication number: JP4033764B2
Application number: JP2002363293A
Authority: JP
Inventors: 篤司池野; 慎一堀川
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2002-06-27
Filing date: 2002-12-16
Publication date: 2008-01-16
Anticipated expiration: 2022-12-16
Also published as: JP2004086843A

Description

【０００１】
【発明の属する技術分野】
本発明は情報抽出装置および方法に関し、例えば、ＨＴＭＬやＸＭＬ、ＳＧＭＬ等のマークアップ言語により記述された電子文書から、その構成要素の一部を抽出する場合などに適用して好適なものである。
【０００２】
【従来の技術】
従来、この種の技術には、下記の特許文献１に開示されるものがある。
【０００３】
この特許文献１では、テレビジョンモニタのスーパーインポーズに供するため、ＨＴＭＬにて記述されたウェブページ（Ｗｅｂページ）を構成するデータを端から順番に読み出し、表示用の文字データかどうかを判断し、この判断によって、制御用データを除き、スーパーインポーズ表示用の文字データ（当該Ｗｅｂページの主要部）を抽出する方法が示されている。
【０００４】
【特許文献１】
特開２００２−１０８７５１号公報（段落「００２２」、「００２７」、図３，図４など）
【０００５】
【発明が解決しようとする課題】
ところがＨＴＭＬなどで記述されるＷｅｂページのソースファイルには、Ｗｅｂブラウザが画面表示してユーザが閲覧する表示用文字データ（前記主要部に対応）のほかにも、文書の論理構造を示す制御データや、Ｗｅｂブラウザで画面表示されたときの文書の表示構造（見え方）を指示する制御データが多く記述されるのが普通であるから、前記特許文献１のように、Ｗｅｂページを構成するデータを端から順番に読み出して判断していたのでは、処理の効率が低く、多大な処理能力を消費し、その処理のために必要な時間も長くなる可能性が高い。
【０００６】
このような判断は、読み出したデータが、表示用の文字データであるか制御データであるかを逐一、解釈しなければならないからである。そして当該解釈では、少なくとも、読み出したデータが制御データ（制御用タグ）に該当するか否かを識別する必要があるため、例えば、Ｗｅｂページのソースファイルに記述される可能性のあるすべての制御データを予め格納したデータベースなどを用意し、読み出したデータが当該データベース中の制御データと一致するか否かを照合する処理などを伴うものと考えられる。
【０００７】
【課題を解決するための手段】
かかる課題を解決するために、第１の発明の情報抽出装置は、所定の制御情報によって他の文書要素と区別される複数の文書要素から構成された電子文書を処理する情報抽出装置において、各文書要素ごとに、文の意図を表現する文字を除いた文の区切りを示す区切り表現文字の有無を判断し、この区切り表現文字の出現状況を検査する出現状況検査手段と、出現状況検査手段の検査結果をもとに主要部を抽出する主要部抽出手段とを備え、出現状況検査手段は、各文書要素ごとに、区切り表現文字の出現間隔をカウントする出現間隔カウント部を有し、主要部抽出手段は、出現間隔カウント部のカウント結果に基づいて、所定長の文を有する主要部を抽出することを特徴とする。
【０００８】
また、第２の発明の情報抽出方法は、所定の制御情報によって他の文書要素と区別される複数の文書要素から構成された電子文書を処理する情報抽出方法において、情報抽出装置が、出現状況検査手段及び主要部抽出手段を備え、出現状況検査手段が、各文書要素ごとに、文の意図を表現する文字を除いた文の区切りを示す区切り表現文字の有無を判断し、この区切り表現文字の出現状況を検査する出現状況検査工程と、主要部抽出手段が、出現状況検査手段の検査結果をもとに主要部を抽出する主要部抽出工程とを有し、出現状況検査手段の有する出現間隔カウント部は、各文書要素ごとに、区切り表現文字の出現間隔をカウントし、主要部抽出手段は、出現間隔カウント部のカウント結果に基づいて、所定長の文を有する主要部を抽出することを特徴とする。
【０００９】
【発明の実施の形態】
（Ａ）実施形態
以下、本発明による情報抽出装置および方法の一実施形態を、図面を参照しながら詳述する。
【００１０】
本実施形態は、ＨＴＭＬファイルなどの電子文書に大量の制御データ（タグ）が組み込まれていたとしても、当該ＨＴＭＬファイルの主要部を効率的に抽出できる点に特徴を有する。
【００１１】
（Ａ−１）実施形態の構成
本実施形態の情報抽出装置は、通信機能を有するパソコンその他の情報処理装置によって実現され得、Ｗｅｂサーバ側に配置することもでき、通信端末（クライアント）側に配置することもできるが、ここでは、通信端末側に配置することを想定する。
【００１２】
本実施形態の情報抽出装置を含む通信システム１０の全体構成例を図４に示す。
【００１３】
図４において、当該通信システム１０は、ネットワーク１１と、通信端末１２と、Ｗｅｂサーバ１３とを備えている。
【００１４】
このうちネットワーク１１は、ＬＡＮ（ローカルエリアネットワーク）などであってもかまわないが、ここでは、インターネットであるものとする。
【００１５】
Ｗｅｂサーバ１３は、通信端末１２からの要求を受信すると、その要求に応じてＷｅｂページを構成するファイルを返送する機能を持つサーバである。多くの場合、Ｗｅｂサーバ１３は、予め生成したＷｅｂページを蓄積しておくためのデータベース（図示せず）、そのデータベースを直接管理するデータベースサーバを伴う。また、これらＷｅｂサーバ１３やデータベースサーバなどの周辺には、ルータやファイアウォールなどの各種のネットワーク機器やＤＮＳサーバなどのサーバ類が配置されてＷｅｂサイトを構成するのが普通である。
【００１６】
通信端末１２は前記情報抽出装置に相当する機能を備えた情報処理装置で、具体的には、セットトップボックスなどであってもかまわないが、ここでは、ネットワーク機能を有するパーソナルコンピュータであるものとする。本実施形態の構成上、当該通信端末１２は、Ｗｅｂページを閲覧するためのプログラムであるＷｅｂブラウザＢ１（図５参照）を搭載していることが必要である。
【００１７】
この通信端末１２には、テレビジョンモニタ１４が接続されている。通信端末１２がＷｅｂページから抽出した情報（Ｗｅｂページの主要部）は、様々な用途に利用可能であると考えられるが、ここでは、一例として、当該テレビジョンモニタ１４にスーパーインポーズの形で画面表示するものとする。
【００１８】
当該通信端末１２の内部構成例を図５に示す。
【００１９】
（Ａ−１−１）通信端末の内部構成例
図５において、当該通信端末１２は、通信部２０と、制御部２１と、操作部２２と、記憶部２３と、表示部２４と、主要部抽出部２５とを備えている。制御部２１には、（当該通信端末１２の構成要素ではないが、）前記テレビジョンモニタ１４が接続されている。
【００２０】
このうち通信部２０は、前記ネットワーク１１を介してＷｅｂサーバ１３と通信する機能を持つ部分である。
【００２１】
制御部２１は、ハードウエア的には当該通信端末１２の中央処理装置（ＣＰＵ）に相当する部分であり、ソフトウエア的には、オペレーティングシステム（ＯＳ）や上述したＷｅｂブラウザＢ１などに相当する部分である。
【００２２】
操作部２２は当該通信端末１２のユーザＵ１が操作して制御部２１に指示を伝えるための部分で、例えば、キーボードや、ポインティングデバイスなどを有する。
【００２３】
表示部２４は例えば液晶ディスプレイなどの表示画面を有する部分である。ユーザＵ１がＷｅｂページを閲覧する場合には、ＷｅｂブラウザＢ１がタグを解釈し処理した結果として、Ｗｅｂページの内容が当該表示部２４に画面表示され、ユーザＵ１に閲覧され得る。このとき画面表示されるＷｅｂページは、一例として、図２（ｂ）に示したＤＰ１であってよい。
【００２４】
Ｗｅｂページの表示先は、このような通信端末１２が装備する表示部２４とするのが一般的であるが、必要ならば、前記特許文献１に記載されたように、テレビジョンモニタなどに表示することもでき、その場合には、前記テレビジョンモニタ１４が表示先となる。このとき、Ｗｅｂページから主要部を抽出し、その主要部を、スーパーインポーズの形で画面表示することも容易である。
【００２５】
記憶部２３は、例えば、ＲＡＭ（ランダムアクセスメモリ）などの揮発性記憶装置や、ハードディスクなどの不揮発性記憶装置によって構成される。
【００２６】
通信端末１２が前記Ｗｅｂサーバ１３からＷｅｂページを受信し、ユーザＵ１が表示部２４に画面表示された当該Ｗｅｂページを閲覧するとき、そのＷｅｂページを構成する各種ファイルは、当該記憶部２３のハードディスク上に確保されたキャッシュ領域ＣＨ１に一時的に蓄積される。１つのＷｅｂページは、基本となる１つのＨＴＭＬファイルのほか、１または複数の各種ファイル（例えば、画像ファイルやプログラムファイルなど）から構成されることが多いが、１つのＷｅｂページの構成要素となる全ファイルが、当該キャッシュ領域ＣＨ１に蓄積され得る。
【００２７】
当該キャッシュ領域ＣＨ１は、通常、ＷｅｂブラウザＢ１の管理下に置かれ、ＷｅｂブラウザＢ１から自由にアクセスすることが可能である。
【００２８】
当該キャッシュ領域ＣＨ１におけるファイルの記憶は可能なかぎり維持されるが、キャッシュ領域ＣＨ１の記憶容量には上限があるため、この上限を越えて新たなＷｅｂページを閲覧し、新たなファイルを蓄積するときには、すでに記憶されているファイルを例えば古いものから順番に削除することによって、必要な記憶容量を確保する。
【００２９】
例えばＵＲＬの入力などにより、ユーザＵ１が操作部２２からＷｅｂページの閲覧を指示した場合、そのＵＲＬで指定されるＷｅｂページに関連するファイルがキャッシュ領域ＣＨ１に記憶されていればＷｅｂブラウザＢ１は、ネットワーク１１経由ではなく、当該キャッシュ領域ＣＨ１から当該ファイルを取得し、表示部２４に当該ファイルの内容を画面表示する。これによりネットワーク１１上の通信トラフィックを抑制し、ユーザＵ１から見た応答時間（指示を出してからＷｅｂページが表示されるまでの時間）を短縮することができる。
【００３０】
主要部抽出部２５は本実施形態に特徴的な部分で、主として区点（「。」）だけを手がかりとする簡単な処理によりＷｅｂページを構成する各種のファイルのなかから主要部を抽出する機能を持つ。主要部とは、１つのＷｅｂページを構成する各種の情報のうちユーザ（例えば、Ｕ１）にとって主要な部分を指す。したがって、状況に応じて、主要部の中身は変動し得るが、ここでは、Ｗｅｂページ中の文章（句点を含む文字列）を主要部とする。
【００３１】
すなわち、１つのＷｅｂページには、広告、タイトル、画像、画像に関する説明文（キャプション（区点は含まないものとする））、あるいはこれらの論理構造や表示構造（例えば、レイアウト、色彩、フォントなど）を規定するタグなど様々な情報が含まれ得るが、ここでは、これらの広告、タイトル、画像、キャプションなどを除外した文章が、主要部となる。
【００３２】
画像などは主要部から除外するため、主要部抽出部２５がＷｅｂページから主要部を抽出するとき処理対象となるのは、前記キャッシュ領域ＣＨ１に蓄積されている１つのＷｅｂページを構成する各種ファイルのうち、ＨＴＭＬファイル（ＨＴＭＬソースファイル）だけでよい。ＨＴＭＬファイルのファイル形式（ＨＴＭＬ）は、最も単純なテキスト形式に属するため、汎用性が高く、効率的な処理が可能である。
【００３３】
なお、例えば、手書き調の文章（手書き調の句点も含む）など、文章が画像としてＷｅｂページ上に配置されることもあり、その場合には、文字認識機能などを活用して、画像ファイルも主要部抽出部２５の処理対象とすることが可能であるが、ここでは、簡単のためにＨＴＭＬファイルだけを処理対象とする。
【００３４】
一例として、当該ＨＴＭＬファイルが図２（ａ）に示すＳＣ１である場合、それが前記ＷｅｂブラウザＢ１によって処理されて表示部２４に画面表示されたときの表示例（画面）が、上述した図２（ｂ）に示すＤＰ１となる。この画面ＤＰ１は、ニュースサイトのＷｅｂページを示している。
【００３５】
図２（ａ）と（ｂ）で同じ符号２０４〜２２８を付与した部分は対応しており、そのなかには、ＧＩＦ（ｇｉｆ）形式の画像ファイルから構成され「○○ニュース」と記述されたタイトル２０４やバナー広告２１２，２２８と、フォントを指定することによって文字サイズを大きく画面表示させ「△△県北部で強い地震」と記述された見出し２１４と、当該見出しに対応したニュースの内容２１６〜２２６などが含まれている。また、内容２１６〜２２６のなかには、＜ｂ＞と＜／ｂ＞で挟まれることによって太字で表示された文字列「この地震による津波の心配はありません。」が含まれている。
【００３６】
図２（ａ）および（ｂ）の全体を通じて、句点が含まれているのは、内容２１６〜２２６だけであるから、図２（ａ）および（ｂ）の例では、上述した主要部は、この内容２１６〜２２６に相当する。
【００３７】
以下、上記のような構成を有する本実施形態の動作について、図３と図７のフローチャートを参照しながら説明する。
【００３８】
図３のフローチャートは３００〜３１８の各ステップから構成されており、図７のフローチャートは３２０〜３２４の各ステップから構成されている。図７のフローチャートは、図３のフローチャートにおけるステップ３１８の詳細を示したものとなっている。
【００３９】
これらのフローチャートはいずれも、前記主要部抽出部２５の動作を示すものである。
【００４０】
（Ａ−２）実施形態の動作
ユーザＵ１が通信端末１２の操作部２２を操作し、ＵＲＬの入力などを行うと、当該ＵＲＬによって指定される１つのＷｅｂページを構成する１または複数のファイルが、例えば前記Ｗｅｂサーバ１３から、当該通信端末１２に受信される。
【００４１】
このとき、前記キャッシュ領域ＣＨ１に当該ファイルが蓄積され、主要部抽出部２５によって処理される。この際の処理の詳細が、図３、図７のフローチャートで示す動作となる。このとき主要部抽出部２５は自動的に処理を実行するものであってよいが、ユーザＵ１からの指示を待って処理を実行するものであってもよい。予めユーザＵ１が指示（設定）しておくことによって、主要部抽出部２５の自動的な処理が実行されるものであってもよい。
【００４２】
ここで、キャッシュ領域ＣＨ１に蓄積されたファイルに、図２（ａ）に示すＨＴＭＬファイルＳＣ１が含まれているものとすると、主要部抽出部２５は当該ＨＴＭＬファイルＳＣ１を処理する。
【００４３】
図２（ａ）に示すＨＴＭＬファイルＳＣ１上のどこから処理を開始し、どのような順番で処理を進めてもかまわないが、ここでは、一例として、上の行ほど早く処理し、同じ行内では左の文字ほど早く処理するものとする。したがって、図２（ａ）の例では、最初に処理される文字は、行２００の＜ｈｔｍｌ＞のうちの「＜」、すなわちタグ開始文字である。
【００４４】
まずステップ３００では、読み込み文字数を示す変数ｍと句点出現回数を示す変数ｎに、０（初期値）を代入する。なお、変数ｍ、ｎの初期値は必ずしも０である必要はないが、ここでは、説明の簡単のために０を採用する。
【００４５】
つづくステップ３０２で読み込まれる最初の文字が、上述した行２００中のタグ開始文字である。
【００４６】
もしも読み込み文字がなければ次のステップ３０４はＹｅｓ側に分岐して処理が終了するが、読み込み文字がある場合にはステップ３０４はＮｏ側に分岐する。ステップ３０４の内部における詳細な処理については様々なものがあり得るが、一般的に、読み込み文字がないこと自体を情報処理装置で認識することは困難であるため、実際には、文書の終端に達したことを認識することをもって、読み込み文字がないことを認識することになると考えられる。
【００４７】
したがって当該主要部抽出部２５による探索が電子文書（ここでは、ＨＴＭＬファイルＳＣ１）の終端に達したことを認識するためには、電子文書の終端を示すＥＯＦ（ＥｎｄＯｆＦｉｌｅ）などの終端コードを予め書き込んでおき、当該終端コードを検出することによって終端に達したことを認識するか、図２（ａ）の行２３２の＜／ｈｔｍｌ＞を検出することによって終端に達したことを認識すること等が必要になるものと考えられるから、当該ステップ３０４のＹｅｓ側の分岐を実行するには、ＨＴＭＬファイルＳＣ１に前記終端コードを予め書き込んでおき、当該終端コードを解釈し、識別する処理や、図２（ａ）の＜／ｈｔｍｌ＞を解釈し識別する処理が必要になる。
【００４８】
このような方法で読み込み文字がないことを認識する場合には、１つのＨＴＭＬファイルの処理は、必ずステップ３０４がＹｅｓ側に分岐することによって終了し、新たなＨＴＭＬファイルの処理は、前記ステップ３００から開始されるため、次のステップ３０５およびステップ３１８は省略することができるが、ステップ３０４の処理の内容により、ステップ３０４がＹｅｓ側に分岐することなく１つのＨＴＭＬファイルの処理が終了する可能性がある場合には、ステップ３０５，３１８が必要となる。
【００４９】
ステップ３０５，３１８は、これまで処理してきた１つのＨＴＭＬファイルの処理が終了し、新たなＨＴＭＬファイル（例えば、ＳＣ１）の処理が開始されたときに、変数ｍ、ｎの値を初期値にリセットするために実行される。
【００５０】
当該ステップ３０５では、前記ステップ３０２で読み込んだ文字がタグ開始文字であるか否かを検査し、タグ開始文字である場合には、ステップＳ３０５はＹｅｓ側に分岐し、ステップ３１８のタグ読み飛ばし処理を経て処理はステップ３０２にもどる。
【００５１】
当該ステップ３１８の詳細を示す図７において、上述したタグ開始文字と対をなすタグ終了文字である「＞」まで文字を読み込む。この間、前記変数ｍの値はそれまでの値を維持する。
【００５２】
すなわち、前記行２００の＜ｈｔｍｌ＞の場合なら、ｈ、ｔ、ｍ、ｌ、＞の各文字が当該ステップ３２０で読み込まれる。
【００５３】
次に、読み込んだ文字列（ここでは、ｈｔｍｌ）がインラインタグを構成するか否かを検査する（３２２）。ここで、インラインタグとは、そのタグによって挟まれた（マークアップされた）文字列がＨＴＭＬソースファイル上は改行されていても、画面上はある行の一部として機能し、その前後が改行されないタグのことで、例えば、上述した行２２４（図２（ａ）の画面ＤＰ１では行２２２〜２２４）の＜ｂ＞および＜／ｂ＞などがそれに該当する。
【００５４】
これに対し、インラインタグでないタグ（ブロックタグ）は、一般的に、そのタグによってマークアップされた部分（文字列も含む）は、ＨＴＭＬソースファイル上も改行され、画面上も、ある行の一部としては機能しないタグなどを指すため、＜ｈｔｍｌ＞（および＜／ｈｔｍｌ＞）のほかにも、＜ｐ＞（および＜／ｐ＞）などが、ブロックタグに該当するが、ここでは＜ｈｔｍｌ＞タグだけがブロックタグであるものとする。＜ｐ＞タグなどは、主要部のなかで行間を調整するために利用される場合もあるからである。
【００５５】
これにより、例えば、図２（ａ）のＨＴＭＬファイルＳＣ１における行２００の＜ｈｔｍｌ＞が読み込まれると、ステップ３２２はＮｏ側に分岐し、変数ｍと変数ｎに初期値０が代入され（３２４）、処理はステップ３０２にもどる。
【００５６】
また、タグ開始文字以降の文字列（タグ）がｈｔｍｌでない場合には、ステップ３２２はＹｅｓ側に分岐し、変数ｍ、ｎはそれまでの値を維持したまま、処理はステップ３０２にもどる。
【００５７】
なお、各ステップ（例えば、３０４など）の内部処理で必要な計算量などにも依存するが、多くの場合、当該ステップ３０５，３１８を省略したほうが全体として処理の効率が向上するものと考えられる。
【００５８】
一方、前記ステップ３０２で読み込んだ文字がタグ開始文字でない場合には、ステップ３０５はＮｏ側に分岐して処理はステップ３０６に進み、前記変数ｍがインクリメント（＋１）される。
【００５９】
図２（ａ）上で行２１６の処理が開始されたあとは、行２２８の処理が開始されるまでの比較的長い期間、ステップ３０５がＮｏ側に分岐して、当該ステップ３０５を含むループが繰り返される状態がつづく。
【００６０】
ステップ３０６のあと、当該文字が句点であるか否かを検査し、句点でなければ、処理は前記ステップ３０２へもどり、句点であればステップ３１０へ進む。
【００６１】
当該ステップ３１０における検査の条件は、変数ｎ＝０または変数ｍ＜Ｍである。したがって、句点の出現回数を示す変数ｎの値が０であるか、または読み込み文字数を示す変数ｍの値が基準句点間隔Ｍよりも小さいときには、検査結果は肯定的となってステップ３１０はＹｅｓ側に分岐し、変数ｎの値が０でなく、なおかつ、変数ｍの値が予め設定した基準句点間隔Ｍ以上のときには、検査結果は否定的となる。
【００６２】
検査結果が否定的な場合、ステップ３１０はＮｏ側に分岐して前記ステップ３００が実行されるため、変数ｍ、ｎには、初期値０が代入されて、初期状態から検査が再開される。
【００６３】
ここで、基準句点間隔Ｍは、句点の出現間隔（分布間隔）の上限値を示すものである。
【００６４】
句点の出現間隔に上限値を設けることにより、ＨＴＭＬファイルＳＣ１のヘッダ部分（行２００〜２０６）など、主要部となり得ない部分を除外することができる。図２（ａ）の例では、このヘッダ部分だけで４０文字が含まれている。
【００６５】
さらにまた、当該句点の出現間隔に上限値を設けることは、例えば、前記テレビジョンモニタ１４などが、通信端末１２から受け取った主要部を蓄積する際の記憶容量や、主要部抽出部２５が図３や図７のフローチャートに対応する処理を実行する際に消費する記憶部２３上の記憶容量などを節約できる点や、スーパーインポーズに適した主要部だけを抽出できる点で有利である。
【００６６】
なお、スーパーインポーズに適した主要部とは句点の間隔が比較的短い主要部のことである。多くの場合、スーパーインポーズは、テレビジョンモニタ１４の画面上の端部（例えば、下端部）に、１行ずつ文章を表示し、表示する１行の内容が時々刻々と変化する形態になるから、極端に句点の出現間隔の長い文章を表示してもユーザ（Ｕ１など）が読みにくいと考えられ、句点の間隔が短い主要部が適する。
【００６７】
前記ステップ３１０のＹｅｓ側につづくステップ３１２では、変数ｍに初期値０が代入され、変数ｎの値はインクリメントされる。
【００６８】
次に、変数ｎの値が予め設定した基準句点数Ｎに達したか否かが検査され（３１４）、達していない場合には処理は前記ステップ３０２にもどり、達している場合には、今回、ステップ３０２で読み込んだ文字（これは、句点である）から遡って文字列を抽出する（３１６）。ここで抽出される文字列は、Ｎ個の句点を含む文章、すなわち、Ｎ個の文を含む文章であり、上述した主要部にあたる。
【００６９】
Ｎ個の文を含む文章（主要部）を抽出するにあたっては、自然言語処理などを利用してもよいが、主要部の範囲は、複雑な自然言語処理を実行しなくても、その句点から順番に１文字ずつさかのぼってタグ終了文字「＞」が検出されたところが、当該主要部の最初であり、その句点から１文字ずつ進んでタグ開始文字「＜」が検出されたところが、主要部の最後であるとして特定することができる。
【００７０】
この場合、前記＜ｂ＞タグなど、文字修飾のためのタグに関するタグ開始文字やタグ終了文字を除外するようにしてもよい。
【００７１】
抽出したこの主要部は、前記テレビジョンモニタ１４へ供給してもよく、テレビジョンモニタ１４のかわりに、またはテレビジョンモニタ１４とともに、前記表示部２４へ供給してもよい。
【００７２】
当該ステップ３１６のあと、処理は、前記ステップ３００にもどり、変数ｍと変数ｎに初期値が代入されて、上記と同様な処理が繰り返される。
【００７３】
したがって、前記行２１６〜２２４などによって記述される文章が長い場合には、１つのＨＴＭＬファイルＳＣ１から、複数の主要部が抽出されることもあり得る。
【００７４】
前記基準句点数Ｎの具体値については様々なものが考えられ、基準句点間隔Ｍの具体値についても様々なものが考えられるが、一例としては、Ｍは５０で、Ｎは３としてもよい。
【００７５】
ただし、基準句点数Ｎはより小さな値（例えば、１）に設定したほうが、処理速度は速くなる。
【００７６】
（Ａ−３）実施形態の効果
本実施形態によれば、句点に着目して主要部を判定するようにしたので、必ずしも個々の制御データ（タグ）を解釈し識別する処理を行わなくても処理を実行でき、処理の効率が高い。
【００７７】
（Ｂ）他の実施形態
上記実施形態で使用した日本語の句点は、文末を示す以外の用途で用いられる可能性はほとんどないため、本発明の文末表現として良好ものであるが、もし必要ならば、句点以外の文末表現を用意してもよい。例えば、「す。」、「る。」、「だ。」などを文末表現としてもよい。また、句点が２つ以上連続する表現（例えば、「。。。。」など）の場合は、その表現中の句点「。」は文末表現として扱わないようにしてもよい。さらに、改行タグ（より一般的には、改行コード）なども、文末表現として用いることができる。
【００７８】
また、通常、文末を示すものではないが、読点（「、」）など、文章を文より細かい文法単位に区切る区切り表現を、文末表現として取り扱うようにしてもよい。もちろん、このような区切り表現を、文末表現とは異なるものとして扱うことで、主要部のきめ細かな選定に利用することもできる。
【００７９】
なお、上記実施形態では、電子文書として主要部が日本語で書かれたＨＴＭＬファイルを対象としたが、本発明は日本語に限らず特徴的な文末表現を持つあらゆる言語に適用可能である。例えば、英語の場合には、全角のピリオド「．」などをこの文末表現として利用することができる。
【００８０】
さらに、ファイルのデータ形式も必ずしもＨＴＭＬ形式に限る必要はない。例えば、ＸＭＬ形式のファイルや、任意のワープロソフトで作成した文書ファイルなどにも本発明は適用可能である。ファイルのデータ形式が変われば、上述したタグ開始文字の内容（ＨＴＭＬの場合には「＜」）なども変化し得ることは当然である。
【００８１】
また、着目する文末表現が２種類以上あっても良い。例えば、「。」や「！」に着目して抽出するようにしても良い。
【００８２】
なお、上記実施形態では、句点を含む文章を主要部として抽出したが、これと反対に、句点を含む文章だけを除外し、句点を含む文章以外の部分（タイトルや画像など）だけを主要部として抽出すること等も可能である。例えば、長い文章を含むＷｅｂページなどでは、見出しや画像だけを閲覧して、短時間でニュースの要点だけを把握したいケースなども起こり得るものと考えられるから、そのようなケースでは、例えば、前記表示部２４にこの主要部（見出しや画像だけ）を画面表示することも好ましい。
【００８３】
さらに、上記実施形態で行ったように、句点間隔がＭ文字未満という制約を設けず、句点の出現回数だけに基づいて、主要部の抽出を行うようにしてもよいことは当然である。抽出した主要部の文字数を記憶するための記憶容量の節約などに配慮する必要性が少なく、抽出した主要部を前記スーパーインポーズとして画面表示しない多くの用途では、句点間隔まで考慮する必要性は低いものと考えられる。
【００８４】
出現回数だけに基づいて処理を行う場合には、上述した変数ｍは不要となって、図３のフローチャートはさらに簡単なものとなり、処理効率を高めることができる。
【００８５】
なお、図３のフローチャートにおいて、前記ステップ３０５および３１８を省略することができることは、すでに説明した通りである。
【００８６】
また、上記実施形態では、図７のフローチャートにおけるステップ３２２との関連では、＜ｈｔｍｌ＞タグだけがブロックタグであるものとしたが、＜ｐ＞タグなども当該ブロックタグに含めるようにしてもよい。
【００８７】
例えば、＜ｐ＞タグをブロックタグに含める場合、主要部などのなかで＜ｐ＞タグのタグ開始文字が出現して段落がかわるたびにステップ３２２はＮｏ側に分岐するから、前記ステップ３２４が実行されて、変数ｍ、ｎの値が初期値にリセットされることになる。
【００８８】
また、出現回数だけに基づいて処理を行い、なおかつ、基準句点数Ｎ＝１のケースで、番兵（センティネル）を活用すれば、繰り返し処理されるループ中のステップが少ない効率的なフローチャートを構成でき、処理量を大幅に低減することができる。このフローチャートは、例えば、図６のようなものになる。図６のフローチャートは６００〜６０４の各ステップから構成されている。
【００８９】
図６において、前記通信端末１２がＷｅｂページを受信すると（６００）、前記主要部抽出部２５は、当該Ｗｅｂページ中のＨＴＭＬファイルの処理を開始するまえに、ＨＴＭＬファイル中の末尾の部分（例えば、＜／ｈｔｍｌ＞の直前または直後）に句点を書き込んで、この句点を番兵とする（６０１）。この状態のＨＴＭＬファイルでは必ず句点が検出される。
【００９０】
そして、上記実施形態と同様にＨＴＭＬファイル（例えば、ＳＣ１）の上の行ほど早く処理し、同じ行内では左の文字ほど早く処理する場合、１文字ずつ読み込んでその文字が句点であるか否かを検査して（６０２，６０３）、最初に句点が検出されたとき、ステップ６０３はＹｅｓ側に分岐する。
【００９１】
ステップ６０３のＹｅｓ側につづいて実行されるステップ６０４では、その直前の数文字（例えば、１文字でも可）を検査し、その１文字が前記タグ終了文字「＞」でなければ、検出した句点は番兵ではないと判定できる。番兵であれば、直前の１文字としてタグ終了文字ＣＤ４やＣＤ５（図２（ａ）参照）が検出されるからである。検出した句点が番兵であるということは、当該ＨＴＭＬファイルに主要部（句点を含む文章）が存在しない（これは、図２（ａ）の内容２１６〜２２６が存在しないケースに対応）ことを意味するため、処理を終了する（６０４）。
【００９２】
一方、検出した句点が番兵でない場合、その句点の前後に広がる主要部の範囲を特定した上で、主要部を抽出する（６０４）。
【００９３】
このステップ６０４の処理の内容は、前記ステップ３１６の処理と同じであってよい。
【００９４】
例えば、図２（ａ）のＨＴＭＬファイルに図６のフローチャートを適用すれば、ステップ６０３で検出される句点は句点ＣＤ２であり、その句点ＣＤ２から順番に１文字ずつさかのぼって検出される「＞」はＣＤ１であり、その句点から１文字ずつ進んで検出される「＜」はＣＤ３である。
【００９５】
この場合、ＣＤ３以降の文章は主要部として抽出できないため、それを抽出したい場合などには、図６中の主要部抽出処理６０４で、上記実施形態と同様、前記＜ｂ＞タグなどのタグ開始文字やタグ終了文字を除外するようにすればよい。
【００９６】
一般的なＷｅｂページには、句点が存在しないものもあり得るが、この方法では、ループ中の処理ステップが前記ステップ６０２と、６０３だけで少なく、照合の対象となるのも、句点のほかは、基本的に「＞」と「＜」だけであるため、時間計算量が少ないだけでなく、領域計算量も少ない。なお、図６のフローチャートでステップ６０３がＹｅｓ側に分岐したとき、番兵の役割は終わるため、番兵は削除してよい。
【００９７】
また、この番兵の利用によって、図３のステップ３０４における終端コードや＜／ｈｔｍｌ＞を検出するために必要な解釈処理や識別処理を、図６のフローチャートでは省略することが可能になる。
【００９８】
なお、ステップ６０３がＹｅｓ側に分岐し、その句点が番兵でないと判定したあとの処理の内容を変更することにより、図６のフローチャートは、基準句点数Ｎが２以上のケースや、基準句点間隔Ｍを利用するケースにも対応可能である。
【００９９】
また、前記主要部抽出部２５の機能は、制御データを大量に含む電子文書であっても、その主要部を高速かつ的確に抽出可能であるから、本発明は、Ｗｅｂページの検索や要約を、効率化・高精度化するための前処理として利用することができる。
【０１００】
さらに、上記実施形態では通信端末（クライアント）１２側に主要部抽出部２５を配置したが、主要部抽出部２５の機能（図６のフローチャートを処理する場合も含む）をＷｅｂサーバ側に配置したり、Ｗｅｂサーバと通信端末の中間に介在し得る例えばプロキシサーバなどに配置することも可能である。
【０１０１】
Ｗｅｂサーバ側などに配置する場合、Ｗｅｂページ上に予め主要部を要求するボタン（ハイパーリンク）を設けておき、ユーザがそのボタンを操作すると、そのＷｅｂページの主要部を抽出し、ほぼ主要部だけから構成される新たなＷｅｂページを生成して返送するようにしてもよい。もちろん、主要部だけから構成されるＷｅｂページは、予め生成して蓄積しておくようにしてもよい。
【０１０２】
また、上記実施形態では、情報抽出装置をネットワーク１１に接続された通信端末１２として説明したが、情報抽出装置の機能そのものは、必ずしもネットワークに接続して利用されることを前提とするものではない。
【０１０３】
例えば、ＣＤ−ＲＯＭなどの記憶媒体に格納された形でＷｅｂページが提供された場合でも、上記実施形態と同様にそのＷｅｂページから主要部を抽出することが可能である。
【０１０４】
その場合などには、前記情報抽出装置を抽象化して、図１に示すものとしてとらえることができる。
【０１０５】
図１において、当該情報抽出装置は、電子文書入力部１００、主要部抽出部１０２および抽出結果表示部１０４を有する。
【０１０６】
電子文書入力部１００は、前記Ｗｅｂページ等、対象となる電子文書を入力する部分である。上記実施形態でこれに相当する構成要素は、通信部２０である。
【０１０７】
主要部抽出部１０２は、電子文書入力部１００に入力された電子文書に対し、その主要部の抽出処理を行う部分で、上記実施形態の主要部抽出部２５に対応する。
【０１０８】
抽出結果表示部１０４は、主要部抽出部１０２によって抽出された電子文書の主要部をオペレータに表示する部分で、上記実施形態の表示部２４またはテレビジョンモニタ１４に相当する。
【０１０９】
このうち主要部抽出部１０２は、前記主要部抽出部２５に対応する。
【０１１０】
以上の説明では主としてソフトウエア的に本発明を実現したが、本発明はハードウエア的に実現することも可能である。
【０１１１】
【発明の効果】
以上のように、本発明によれば、文書要素を選別するための処理の効率を高めることが可能になる。
【図面の簡単な説明】
【図１】他の実施形態の情報抽出装置の構成を示すブロック図である。
【図２】実施形態の電子文書入力部に入力される電子文書の例を示す説明図である。
【図３】実施形態の動作を示すフローチャートである。
【図４】実施形態にかかる通信システムの全体構成例を示す概略図である。
【図５】実施形態にかかる通信システムで使用する通信端末の主要部の構成例を示す概略図である。
【図６】他の実施形態の動作を示すフローチャートである。
【図７】実施形態の動作を示すフローチャートである。
【符号の説明】
１０…通信システム、１１…ネットワーク、１２…通信端末、１３…Ｗｅｂサーバ、１４…テレビジョンモニタ、２０…通信部、２１…制御部、２２…操作部、２３…記憶部、２４…表示部、２５、１０２…主要部抽出部、１００…電子文書入力部、１０４…抽出結果表示部、Ｂ１…Ｗｅｂブラウザ、ＣＨ１…キャッシュ領域。

Claims

所定の制御情報によって他の文書要素と区別される複数の文書要素から構成された電子文書を処理する情報抽出装置において、
前記各文書要素ごとに、文の意図を表現する文字を除いた文の区切りを示す区切り表現文字の有無を判断し、この区切り表現文字の出現状況を検査する出現状況検査手段と、
前記出現状況検査手段の検査結果をもとに主要部を抽出する主要部抽出手段とを備え、
前記出現状況検査手段は、前記各文書要素ごとに、前記区切り表現文字の出現間隔をカウントする出現間隔カウント部を有し、
前記主要部抽出手段は、前記出現間隔カウント部のカウント結果に基づいて、所定長の文を有する主要部を抽出する
ことを特徴とする情報抽出装置。
請求項１の情報抽出装置において、
前記出現状況検査手段は、さらに、
前記各文書要素ごとに、前記区切り表現文字の出現回数をカウントする出現回数カウント部を備え、
前記主要部抽出手段は、前記出現回数カウント部のカウント結果及び前記出現間隔カウント部のカウント結果に基づいて、１又は複数の前記区切り表現を含む所定長の文を有する主要部を抽出することを特徴とする情報抽出装置。
請求項２の情報抽出装置において、
前記主要部抽出手段は、前記出現回数カウント部のカウント結果が第１のしきい値以上であって、なおかつ、前記出現間隔カウント部のカウント結果が第２のしきい値以下である主要部を抽出することを特徴とする情報抽出装置。
請求項１〜３のいずれかの情報抽出装置において、
前記区切り表現文字として、句点、読点若しくはピリオドを用いることを特徴とする情報抽出装置。
請求項１の情報抽出装置において、
前記制御情報としては、マークアップ言語の予約語を利用することを特徴とする情報抽出装置。
請求項３の情報抽出装置において、
前記第１のしきい値として、３を用いることを特徴とする情報抽出装置。
所定の制御情報によって他の文書要素と区別される複数の文書要素から構成された電子文書を処理する情報抽出方法において、
情報抽出装置が、出現状況検査手段及び主要部抽出手段を備え、
前記出現状況検査手段が、前記各文書要素ごとに、文の意図を表現する文字を除いた文の区切りを示す区切り表現文字の有無を判断し、この区切り表現文字の出現状況を検査する出現状況検査工程と、
前記主要部抽出手段が、前記出現状況検査手段の検査結果をもとに主要部を抽出する主要部抽出工程とを有し、
前記出現状況検査手段の有する出現間隔カウント部は、前記各文書要素ごとに、前記区切り表現文字の出現間隔をカウントし、
前記主要部抽出手段は、前記出現間隔カウント部のカウント結果に基づいて、所定長の文を有する主要部を抽出する
ことを特徴とする情報抽出方法。