JP4033764B2 - 情報抽出装置および方法 - Google Patents

情報抽出装置および方法 Download PDF

Info

Publication number
JP4033764B2
JP4033764B2 JP2002363293A JP2002363293A JP4033764B2 JP 4033764 B2 JP4033764 B2 JP 4033764B2 JP 2002363293 A JP2002363293 A JP 2002363293A JP 2002363293 A JP2002363293 A JP 2002363293A JP 4033764 B2 JP4033764 B2 JP 4033764B2
Authority
JP
Japan
Prior art keywords
main part
appearance
information extraction
unit
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002363293A
Other languages
English (en)
Other versions
JP2004086843A (ja
Inventor
篤司 池野
慎一 堀川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2002363293A priority Critical patent/JP4033764B2/ja
Publication of JP2004086843A publication Critical patent/JP2004086843A/ja
Application granted granted Critical
Publication of JP4033764B2 publication Critical patent/JP4033764B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は情報抽出装置および方法に関し、例えば、HTMLやXML、SGML等のマークアップ言語により記述された電子文書から、その構成要素の一部を抽出する場合などに適用して好適なものである。
【0002】
【従来の技術】
従来、この種の技術には、下記の特許文献1に開示されるものがある。
【0003】
この特許文献1では、テレビジョンモニタのスーパーインポーズに供するため、HTMLにて記述されたウェブページ(Webページ)を構成するデータを端から順番に読み出し、表示用の文字データかどうかを判断し、この判断によって、制御用データを除き、スーパーインポーズ表示用の文字データ(当該Webページの主要部)を抽出する方法が示されている。
【0004】
【特許文献1】
特開2002−108751号公報(段落「0022」、「0027」、図3,図4など)
【0005】
【発明が解決しようとする課題】
ところがHTMLなどで記述されるWebページのソースファイルには、Webブラウザが画面表示してユーザが閲覧する表示用文字データ(前記主要部に対応)のほかにも、文書の論理構造を示す制御データや、Webブラウザで画面表示されたときの文書の表示構造(見え方)を指示する制御データが多く記述されるのが普通であるから、前記特許文献1のように、Webページを構成するデータを端から順番に読み出して判断していたのでは、処理の効率が低く、多大な処理能力を消費し、その処理のために必要な時間も長くなる可能性が高い。
【0006】
このような判断は、読み出したデータが、表示用の文字データであるか制御データであるかを逐一、解釈しなければならないからである。そして当該解釈では、少なくとも、読み出したデータが制御データ(制御用タグ)に該当するか否かを識別する必要があるため、例えば、Webページのソースファイルに記述される可能性のあるすべての制御データを予め格納したデータベースなどを用意し、読み出したデータが当該データベース中の制御データと一致するか否かを照合する処理などを伴うものと考えられる。
【0007】
【課題を解決するための手段】
かかる課題を解決するために、第1の発明の情報抽出装置は、所定の制御情報によって他の文書要素と区別される複数の文書要素から構成された電子文書を処理する情報抽出装置において、各文書要素ごとに、文の意図を表現する文字を除いた文の区切りを示す区切り表現文字の有無を判断し、この区切り表現文字の出現状況を検査する出現状況検査手段と、出現状況検査手段の検査結果をもとに主要部を抽出する主要部抽出手段とを備え、出現状況検査手段は、各文書要素ごとに、区切り表現文字の出現間隔をカウントする出現間隔カウント部を有し主要部抽出手段は、出現間隔カウント部のカウント結果に基づいて、所定長の文を有する主要部を抽出することを特徴とする。
【0008】
また、第2の発明の情報抽出方法は、所定の制御情報によって他の文書要素と区別される複数の文書要素から構成された電子文書を処理する情報抽出方法において、情報抽出装置が、出現状況検査手段及び主要部抽出手段を備え、出現状況検査手段が、各文書要素ごとに、文の意図を表現する文字を除いた文の区切りを示す区切り表現文字の有無を判断し、この区切り表現文字の出現状況を検査する出現状況検査工程と、主要部抽出手段が、出現状況検査手段の検査結果をもとに主要部を抽出する主要部抽出工程とを有し、出現状況検査手段の有する出現間隔カウント部は、各文書要素ごとに、区切り表現文字の出現間隔をカウントし、主要部抽出手段は、出現間隔カウント部のカウント結果に基づいて、所定長の文を有する主要部を抽出することを特徴とする。
【0009】
【発明の実施の形態】
(A)実施形態
以下、本発明による情報抽出装置および方法の一実施形態を、図面を参照しながら詳述する。
【0010】
本実施形態は、HTMLファイルなどの電子文書に大量の制御データ(タグ)が組み込まれていたとしても、当該HTMLファイルの主要部を効率的に抽出できる点に特徴を有する。
【0011】
(A−1)実施形態の構成
本実施形態の情報抽出装置は、通信機能を有するパソコンその他の情報処理装置によって実現され得、Webサーバ側に配置することもでき、通信端末(クライアント)側に配置することもできるが、ここでは、通信端末側に配置することを想定する。
【0012】
本実施形態の情報抽出装置を含む通信システム10の全体構成例を図4に示す。
【0013】
図4において、当該通信システム10は、ネットワーク11と、通信端末12と、Webサーバ13とを備えている。
【0014】
このうちネットワーク11は、LAN(ローカルエリアネットワーク)などであってもかまわないが、ここでは、インターネットであるものとする。
【0015】
Webサーバ13は、通信端末12からの要求を受信すると、その要求に応じてWebページを構成するファイルを返送する機能を持つサーバである。多くの場合、Webサーバ13は、予め生成したWebページを蓄積しておくためのデータベース(図示せず)、そのデータベースを直接管理するデータベースサーバを伴う。また、これらWebサーバ13やデータベースサーバなどの周辺には、ルータやファイアウールなどの各種のネットワーク機器やDNSサーバなどのサーバ類が配置されてWebサイトを構成するのが普通である。
【0016】
通信端末12は前記情報抽出装置に相当する機能を備えた情報処理装置で、具体的には、セットトップボックスなどであってもかまわないが、ここでは、ネットワーク機能を有するパーソナルコンピュータであるものとする。本実施形態の構成上、当該通信端末12は、Webページを閲覧するためのプログラムであるWebブラウザB1(図5参照)を搭載していることが必要である。
【0017】
この通信端末12には、テレビジョンモニタ14が接続されている。通信端末12がWebページから抽出した情報(Webページの主要部)は、様々な用途に利用可能であると考えられるが、ここでは、一例として、当該テレビジョンモニタ14にスーパーインポーズの形で画面表示するものとする。
【0018】
当該通信端末12の内部構成例を図5に示す。
【0019】
(A−1−1)通信端末の内部構成例
図5において、当該通信端末12は、通信部20と、制御部21と、操作部22と、記憶部23と、表示部24と、主要部抽出部25とを備えている。制御部21には、(当該通信端末12の構成要素ではないが、)前記テレビジョンモニタ14が接続されている。
【0020】
このうち通信部20は、前記ネットワーク11を介してWebサーバ13と通信する機能を持つ部分である。
【0021】
制御部21は、ハードウエア的には当該通信端末12の中央処理装置(CPU)に相当する部分であり、ソフトウエア的には、オペレーティングシステム(OS)や上述したWebブラウザB1などに相当する部分である。
【0022】
操作部22は当該通信端末12のユーザU1が操作して制御部21に指示を伝えるための部分で、例えば、キーボードや、ポインティングデバイスなどを有する。
【0023】
表示部24は例えば液晶ディスプレイなどの表示画面を有する部分である。ユーザU1がWebページを閲覧する場合には、WebブラウザB1がタグを解釈し処理した結果として、Webページの内容が当該表示部24に画面表示され、ユーザU1に閲覧され得る。このとき画面表示されるWebページは、一例として、図2(b)に示したDP1であってよい。
【0024】
Webページの表示先は、このような通信端末12が装備する表示部24とするのが一般的であるが、必要ならば、前記特許文献1に記載されたように、テレビジョンモニタなどに表示することもでき、その場合には、前記テレビジョンモニタ14が表示先となる。このとき、Webページから主要部を抽出し、その主要部を、スーパーインポーズの形で画面表示することも容易である。
【0025】
記憶部23は、例えば、RAM(ランダムアクセスメモリ)などの揮発性記憶装置や、ハードディスクなどの不揮発性記憶装置によって構成される。
【0026】
通信端末12が前記Webサーバ13からWebページを受信し、ユーザU1が表示部24に画面表示された当該Webページを閲覧するとき、そのWebページを構成する各種ファイルは、当該記憶部23のハードディスク上に確保されたキャッシュ領域CH1に一時的に蓄積される。1つのWebページは、基本となる1つのHTMLファイルのほか、1または複数の各種ファイル(例えば、画像ファイルやプログラムファイルなど)から構成されることが多いが、1つのWebページの構成要素となる全ファイルが、当該キャッシュ領域CH1に蓄積され得る。
【0027】
当該キャッシュ領域CH1は、通常、WebブラウザB1の管理下に置かれ、WebブラウザB1から自由にアクセスすることが可能である。
【0028】
当該キャッシュ領域CH1におけるファイルの記憶は可能なかぎり維持されるが、キャッシュ領域CH1の記憶容量には上限があるため、この上限を越えて新たなWebページを閲覧し、新たなファイルを蓄積するときには、すでに記憶されているファイルを例えば古いものから順番に削除することによって、必要な記憶容量を確保する。
【0029】
例えばURLの入力などにより、ユーザU1が操作部22からWebページの閲覧を指示した場合、そのURLで指定されるWebページに関連するファイルがキャッシュ領域CH1に記憶されていればWebブラウザB1は、ネットワーク11経由ではなく、当該キャッシュ領域CH1から当該ファイルを取得し、表示部24に当該ファイルの内容を画面表示する。これによりネットワーク11上の通信トラフィックを抑制し、ユーザU1から見た応答時間(指示を出してからWebページが表示されるまでの時間)を短縮することができる。
【0030】
主要部抽出部25は本実施形態に特徴的な部分で、主として区点(「。」)だけを手がかりとする簡単な処理によりWebページを構成する各種のファイルのなかから主要部を抽出する機能を持つ。主要部とは、1つのWebページを構成する各種の情報のうちユーザ(例えば、U1)にとって主要な部分を指す。したがって、状況に応じて、主要部の中身は変動し得るが、ここでは、Webページ中の文章(句点を含む文字列)を主要部とする。
【0031】
すなわち、1つのWebページには、広告、タイトル、画像、画像に関する説明文(キャプション(区点は含まないものとする))、あるいはこれらの論理構造や表示構造(例えば、レイアウト、色彩、フォントなど)を規定するタグなど様々な情報が含まれ得るが、ここでは、これらの広告、タイトル、画像、キャプションなどを除外した文章が、主要部となる。
【0032】
画像などは主要部から除外するため、主要部抽出部25がWebページから主要部を抽出するとき処理対象となるのは、前記キャッシュ領域CH1に蓄積されている1つのWebページを構成する各種ファイルのうち、HTMLファイル(HTMLソースファイル)だけでよい。HTMLファイルのファイル形式(HTML)は、最も単純なテキスト形式に属するため、汎用性が高く、効率的な処理が可能である。
【0033】
なお、例えば、手書き調の文章(手書き調の句点も含む)など、文章が画像としてWebページ上に配置されることもあり、その場合には、文字認識機能などを活用して、画像ファイルも主要部抽出部25の処理対象とすることが可能であるが、ここでは、簡単のためにHTMLファイルだけを処理対象とする。
【0034】
一例として、当該HTMLファイルが図2(a)に示すSC1である場合、それが前記WebブラウザB1によって処理されて表示部24に画面表示されたときの表示例(画面)が、上述した図2(b)に示すDP1となる。この画面DP1は、ニュースサイトのWebページを示している。
【0035】
図2(a)と(b)で同じ符号204〜228を付与した部分は対応しており、そのなかには、GIF(gif)形式の画像ファイルから構成され「○○ニュース」と記述されたタイトル204やバナー広告212,228と、フォントを指定することによって文字サイズを大きく画面表示させ「△△県北部で強い地震」と記述された見出し214と、当該見出しに対応したニュースの内容216〜226などが含まれている。また、内容216〜226のなかには、<b>と</b>で挟まれることによって太字で表示された文字列「この地震による津波の心配はありません。」が含まれている。
【0036】
図2(a)および(b)の全体を通じて、句点が含まれているのは、内容216〜226だけであるから、図2(a)および(b)の例では、上述した主要部は、この内容216〜226に相当する。
【0037】
以下、上記のような構成を有する本実施形態の動作について、図3と図7のフローチャートを参照しながら説明する。
【0038】
図3のフローチャートは300〜318の各ステップから構成されており、図7のフローチャートは320〜324の各ステップから構成されている。図7のフローチャートは、図3のフローチャートにおけるステップ318の詳細を示したものとなっている。
【0039】
これらのフローチャートはいずれも、前記主要部抽出部25の動作を示すものである。
【0040】
(A−2)実施形態の動作
ユーザU1が通信端末12の操作部22を操作し、URLの入力などを行うと、当該URLによって指定される1つのWebページを構成する1または複数のファイルが、例えば前記Webサーバ13から、当該通信端末12に受信される。
【0041】
このとき、前記キャッシュ領域CH1に当該ファイルが蓄積され、主要部抽出部25によって処理される。この際の処理の詳細が、図3、図7のフローチャートで示す動作となる。このとき主要部抽出部25は自動的に処理を実行するものであってよいが、ユーザU1からの指示を待って処理を実行するものであってもよい。予めユーザU1が指示(設定)しておくことによって、主要部抽出部25の自動的な処理が実行されるものであってもよい。
【0042】
ここで、キャッシュ領域CH1に蓄積されたファイルに、図2(a)に示すHTMLファイルSC1が含まれているものとすると、主要部抽出部25は当該HTMLファイルSC1を処理する。
【0043】
図2(a)に示すHTMLファイルSC1上のどこから処理を開始し、どのような順番で処理を進めてもかまわないが、ここでは、一例として、上の行ほど早く処理し、同じ行内では左の文字ほど早く処理するものとする。したがって、図2(a)の例では、最初に処理される文字は、行200の<html>のうちの「<」、すなわちタグ開始文字である。
【0044】
まずステップ300では、読み込み文字数を示す変数mと句点出現回数を示す変数nに、0(初期値)を代入する。なお、変数m、nの初期値は必ずしも0である必要はないが、ここでは、説明の簡単のために0を採用する。
【0045】
つづくステップ302で読み込まれる最初の文字が、上述した行200中のタグ開始文字である。
【0046】
もしも読み込み文字がなければ次のステップ304はYes側に分岐して処理が終了するが、読み込み文字がある場合にはステップ304はNo側に分岐する。ステップ304の内部における詳細な処理については様々なものがあり得るが、一般的に、読み込み文字がないこと自体を情報処理装置で認識することは困難であるため、実際には、文書の終端に達したことを認識することをもって、読み込み文字がないことを認識することになると考えられる。
【0047】
したがって当該主要部抽出部25による探索が電子文書(ここでは、HTMLファイルSC1)の終端に達したことを認識するためには、電子文書の終端を示すEOF(End Of File)などの終端コードを予め書き込んでおき、当該終端コードを検出することによって終端に達したことを認識するか、図2(a)の行232の</html>を検出することによって終端に達したことを認識すること等が必要になるものと考えられるから、当該ステップ304のYes側の分岐を実行するには、HTMLファイルSC1に前記終端コードを予め書き込んでおき、当該終端コードを解釈し、識別する処理や、図2(a)の</html>を解釈し識別する処理が必要になる。
【0048】
このような方法で読み込み文字がないことを認識する場合には、1つのHTMLファイルの処理は、必ずステップ304がYes側に分岐することによって終了し、新たなHTMLファイルの処理は、前記ステップ300から開始されるため、次のステップ305およびステップ318は省略することができるが、ステップ304の処理の内容により、ステップ304がYes側に分岐することなく1つのHTMLファイルの処理が終了する可能性がある場合には、ステップ305,318が必要となる。
【0049】
ステップ305,318は、これまで処理してきた1つのHTMLファイルの処理が終了し、新たなHTMLファイル(例えば、SC1)の処理が開始されたときに、変数m、nの値を初期値にリセットするために実行される。
【0050】
当該ステップ305では、前記ステップ302で読み込んだ文字がタグ開始文字であるか否かを検査し、タグ開始文字である場合には、ステップS305はYes側に分岐し、ステップ318のタグ読み飛ばし処理を経て処理はステップ302にもどる。
【0051】
当該ステップ318の詳細を示す図7において、上述したタグ開始文字と対をなすタグ終了文字である「>」まで文字を読み込む。この間、前記変数mの値はそれまでの値を維持する。
【0052】
すなわち、前記行200の<html>の場合なら、h、t、m、l、>の各文字が当該ステップ320で読み込まれる。
【0053】
次に、読み込んだ文字列(ここでは、html)がインラインタグを構成するか否かを検査する(322)。ここで、インラインタグとは、そのタグによって挟まれた(マークアップされた)文字列がHTMLソースファイル上は改行されていても、画面上はある行の一部として機能し、その前後が改行されないタグのことで、例えば、上述した行224(図2(a)の画面DP1では行222〜224)の<b>および</b>などがそれに該当する。
【0054】
これに対し、インラインタグでないタグ(ブロックタグ)は、一般的に、そのタグによってマークアップされた部分(文字列も含む)は、HTMLソースファイル上も改行され、画面上も、ある行の一部としては機能しないタグなどを指すため、<html>(および</html>)のほかにも、<p>(および</p>)などが、ブロックタグに該当するが、ここでは<html>タグだけがブロックタグであるものとする。<p>タグなどは、主要部のなかで行間を調整するために利用される場合もあるからである。
【0055】
これにより、例えば、図2(a)のHTMLファイルSC1における行200の<html>が読み込まれると、ステップ322はNo側に分岐し、変数mと変数nに初期値0が代入され(324)、処理はステップ302にもどる。
【0056】
また、タグ開始文字以降の文字列(タグ)がhtmlでない場合には、ステップ322はYes側に分岐し、変数m、nはそれまでの値を維持したまま、処理はステップ302にもどる。
【0057】
なお、各ステップ(例えば、304など)の内部処理で必要な計算量などにも依存するが、多くの場合、当該ステップ305,318を省略したほうが全体として処理の効率が向上するものと考えられる。
【0058】
一方、前記ステップ302で読み込んだ文字がタグ開始文字でない場合には、ステップ305はNo側に分岐して処理はステップ306に進み、前記変数mがインクリメント(+1)される。
【0059】
図2(a)上で行216の処理が開始されたあとは、行228の処理が開始されるまでの比較的長い期間、ステップ305がNo側に分岐して、当該ステップ305を含むループが繰り返される状態がつづく。
【0060】
ステップ306のあと、当該文字が句点であるか否かを検査し、句点でなければ、処理は前記ステップ302へもどり、句点であればステップ310へ進む。
【0061】
当該ステップ310における検査の条件は、変数n=0または変数m<Mである。したがって、句点の出現回数を示す変数nの値が0であるか、または読み込み文字数を示す変数の値が基準句点間隔Mよりも小さいときには、検査結果は肯定的となってステップ310はYes側に分岐し、変数nの値が0でなく、なおかつ、変数mの値が予め設定した基準句点間隔M以上のときには、検査結果は否定的となる。
【0062】
検査結果が否定的な場合、ステップ310はNo側に分岐して前記ステップ300が実行されるため、変数m、nには、初期値0が代入されて、初期状態から検査が再開される。
【0063】
ここで、基準句点間隔Mは、句点の出現間隔(分布間隔)の上限値を示すものである。
【0064】
句点の出現間隔に上限値を設けることにより、HTMLファイルSC1のヘッダ部分(行200〜206)など、主要部となり得ない部分を除外することができる。図2(a)の例では、このヘッダ部分だけで40文字が含まれている。
【0065】
さらにまた、当該句点の出現間隔に上限値を設けることは、例えば、前記テレビジョンモニタ14などが、通信端末12から受け取った主要部を蓄積する際の記憶容量や、主要部抽出部25が図3や図7のフローチャートに対応する処理を実行する際に消費する記憶部23上の記憶容量などを節約できる点や、スーパーインポーズに適した主要部だけを抽出できる点で有利である。
【0066】
なお、スーパーインポーズに適した主要部とは句点の間隔が比較的短い主要部のことである。多くの場合、スーパーインポーズは、テレビジョンモニタ14の画面上の端部(例えば、下端部)に、1行ずつ文章を表示し、表示する1行の内容が時々刻々と変化する形態になるから、極端に句点の出現間隔の長い文章を表示してもユーザ(U1など)が読みにくいと考えられ、句点の間隔が短い主要部が適する。
【0067】
前記ステップ310のYes側につづくステップ312では、変数mに初期値0が代入され、変数nの値はインクリメントされる。
【0068】
次に、変数nの値が予め設定した基準句点数Nに達したか否かが検査され(314)、達していない場合には処理は前記ステップ302にもどり、達している場合には、今回、ステップ302で読み込んだ文字(これは、句点である)から遡って文字列を抽出する(316)。ここで抽出される文字列は、N個の句点を含む文章、すなわち、N個の文を含む文章であり、上述した主要部にあたる。
【0069】
N個の文を含む文章(主要部)を抽出するにあたっては、自然言語処理などを利用してもよいが、主要部の範囲は、複雑な自然言語処理を実行しなくても、その句点から順番に1文字ずつさかのぼってタグ終了文字「>」が検出されたところが、当該主要部の最初であり、その句点から1文字ずつ進んでタグ開始文字「<」が検出されたところが、主要部の最後であるとして特定することができる。
【0070】
この場合、前記<b>タグなど、文字修飾のためのタグに関するタグ開始文字やタグ終了文字を除外するようにしてもよい。
【0071】
抽出したこの主要部は、前記テレビジョンモニタ14へ供給してもよく、テレビジョンモニタ14のかわりに、またはテレビジョンモニタ14とともに、前記表示部24へ供給してもよい。
【0072】
当該ステップ316のあと、処理は、前記ステップ300にもどり、変数mと変数nに初期値が代入されて、上記と同様な処理が繰り返される。
【0073】
したがって、前記行216〜224などによって記述される文章が長い場合には、1つのHTMLファイルSC1から、複数の主要部が抽出されることもあり得る。
【0074】
前記基準句点数Nの具体値については様々なものが考えられ、基準句点間隔Mの具体値についても様々なものが考えられるが、一例としては、Mは50で、Nは3としてもよい。
【0075】
ただし、基準句点数Nはより小さな値(例えば、1)に設定したほうが、処理速度は速くなる。
【0076】
(A−3)実施形態の効果
本実施形態によれば、句点に着目して主要部を判定するようにしたので、必ずしも個々の制御データ(タグ)を解釈し識別する処理を行わなくても処理を実行でき、処理の効率が高い。
【0077】
(B)他の実施形態
上記実施形態で使用した日本語の句点は、文末を示す以外の用途で用いられる可能性はほとんどないため、本発明の文末表現として良好ものであるが、もし必要ならば、句点以外の文末表現を用意してもよい。例えば、「す。」、「る。」、「だ。」などを文末表現としてもよい。また、句点が2つ以上連続する表現(例えば、「。。。。」など)の場合は、その表現中の句点「。」は文末表現として扱わないようにしてもよい。さらに、改行タグ(より一般的には、改行コード)なども、文末表現として用いることができる。
【0078】
また、通常、文末を示すものではないが、読点(「、」)など、文章を文より細かい文法単位に区切る区切り表現を、文末表現として取り扱うようにしてもよい。もちろん、このような区切り表現を、文末表現とは異なるものとして扱うことで、主要部のきめ細かな選定に利用することもできる。
【0079】
なお、上記実施形態では、電子文書として主要部が日本語で書かれたHTMLファイルを対象としたが、本発明は日本語に限らず特徴的な文末表現を持つあらゆる言語に適用可能である。例えば、英語の場合には、全角のピリオド「.」などをこの文末表現として利用することができる。
【0080】
さらに、ファイルのデータ形式も必ずしもHTML形式に限る必要はない。例えば、XML形式のファイルや、任意のワープロソフトで作成した文書ファイルなどにも本発明は適用可能である。ファイルのデータ形式が変われば、上述したタグ開始文字の内容(HTMLの場合には「<」)なども変化し得ることは当然である。
【0081】
また、着目する文末表現が2種類以上あっても良い。例えば、「。」や「!」に着目して抽出するようにしても良い。
【0082】
なお、上記実施形態では、句点を含む文章を主要部として抽出したが、これと反対に、句点を含む文章だけを除外し、句点を含む文章以外の部分(タイトルや画像など)だけを主要部として抽出すること等も可能である。例えば、長い文章を含むWebページなどでは、見出しや画像だけを閲覧して、短時間でニュースの要点だけを把握したいケースなども起こり得るものと考えられるから、そのようなケースでは、例えば、前記表示部24にこの主要部(見出しや画像だけ)を画面表示することも好ましい。
【0083】
さらに、上記実施形態で行ったように、句点間隔がM文字未満という制約を設けず、句点の出現回数だけに基づいて、主要部の抽出を行うようにしてもよいことは当然である。抽出した主要部の文字数を記憶するための記憶容量の節約などに配慮する必要性が少なく、抽出した主要部を前記スーパーインポーズとして画面表示しない多くの用途では、句点間隔まで考慮する必要性は低いものと考えられる。
【0084】
出現回数だけに基づいて処理を行う場合には、上述した変数mは不要となって、図3のフローチャートはさらに簡単なものとなり、処理効率を高めることができる。
【0085】
なお、図3のフローチャートにおいて、前記ステップ305および318を省略することができることは、すでに説明した通りである。
【0086】
また、上記実施形態では、図7のフローチャートにおけるステップ322との関連では、<html>タグだけがブロックタグであるものとしたが、<p>タグなども当該ブロックタグに含めるようにしてもよい。
【0087】
例えば、<p>タグをブロックタグに含める場合、主要部などのなかで<p>タグのタグ開始文字が出現して段落がかわるたびにステップ322はNo側に分岐するから、前記ステップ324が実行されて、変数m、nの値が初期値にリセットされることになる。
【0088】
また、出現回数だけに基づいて処理を行い、なおかつ、基準句点数N=1のケースで、番兵(センティネル)を活用すれば、繰り返し処理されるループ中のステップが少ない効率的なフローチャートを構成でき、処理量を大幅に低減することができる。このフローチャートは、例えば、図6のようなものになる。図6のフローチャートは600〜604の各ステップから構成されている。
【0089】
図6において、前記通信端末12がWebページを受信すると(600)、前記主要部抽出部25は、当該Webページ中のHTMLファイルの処理を開始するまえに、HTMLファイル中の末尾の部分(例えば、</html>の直前または直後)に句点を書き込んで、この句点を番兵とする(601)。この状態のHTMLファイルでは必ず句点が検出される。
【0090】
そして、上記実施形態と同様にHTMLファイル(例えば、SC1)の上の行ほど早く処理し、同じ行内では左の文字ほど早く処理する場合、1文字ずつ読み込んでその文字が句点であるか否かを検査して(602,603)、最初に句点が検出されたとき、ステップ603はYes側に分岐する。
【0091】
ステップ603のYes側につづいて実行されるステップ604では、その直前の数文字(例えば、1文字でも可)を検査し、その1文字が前記タグ終了文字「>」でなければ、検出した句点は番兵ではないと判定できる。番兵であれば、直前の1文字としてタグ終了文字CD4やCD5(図2(a)参照)が検出されるからである。検出した句点が番兵であるということは、当該HTMLファイルに主要部(句点を含む文章)が存在しない(これは、図2(a)の内容216〜226が存在しないケースに対応)ことを意味するため、処理を終了する(604)。
【0092】
一方、検出した句点が番兵でない場合、その句点の前後に広がる主要部の範囲を特定した上で、主要部を抽出する(604)。
【0093】
このステップ604の処理の内容は、前記ステップ316の処理と同じであってよい。
【0094】
例えば、図2(a)のHTMLファイルに図6のフローチャートを適用すれば、ステップ603で検出される句点は句点CD2であり、その句点CD2から順番に1文字ずつさかのぼって検出される「>」はCD1であり、その句点から1文字ずつ進んで検出される「<」はCD3である。
【0095】
この場合、CD3以降の文章は主要部として抽出できないため、それを抽出したい場合などには、図6中の主要部抽出処理604で、上記実施形態と同様、前記<b>タグなどのタグ開始文字やタグ終了文字を除外するようにすればよい。
【0096】
一般的なWebページには、句点が存在しないものもあり得るが、この方法では、ループ中の処理ステップが前記ステップ602と、603だけで少なく、照合の対象となるのも、句点のほかは、基本的に「>」と「<」だけであるため、時間計算量が少ないだけでなく、領域計算量も少ない。なお、図6のフローチャートでステップ603がYes側に分岐したとき、番兵の役割は終わるため、番兵は削除してよい。
【0097】
また、この番兵の利用によって、図3のステップ304における終端コードや</html>を検出するために必要な解釈処理や識別処理を、図6のフローチャートでは省略することが可能になる。
【0098】
なお、ステップ603がYes側に分岐し、その句点が番兵でないと判定したあとの処理の内容を変更することにより、図6のフローチャートは、基準句点数Nが2以上のケースや、基準句点間隔Mを利用するケースにも対応可能である。
【0099】
また、前記主要部抽出部25の機能は、制御データを大量に含む電子文書であっても、その主要部を高速かつ的確に抽出可能であるから、本発明は、Webページの検索や要約を、効率化・高精度化するための前処理として利用することができる。
【0100】
さらに、上記実施形態では通信端末(クライアント)12側に主要部抽出部25を配置したが、主要部抽出部25の機能(図6のフローチャートを処理する場合も含む)をWebサーバ側に配置したり、Webサーバと通信端末の中間に介在し得る例えばプロキシサーバなどに配置することも可能である。
【0101】
Webサーバ側などに配置する場合、Webページ上に予め主要部を要求するボタン(ハイパーリンク)を設けておき、ユーザがそのボタンを操作すると、そのWebページの主要部を抽出し、ほぼ主要部だけから構成される新たなWebページを生成して返送するようにしてもよい。もちろん、主要部だけから構成されるWebページは、予め生成して蓄積しておくようにしてもよい。
【0102】
また、上記実施形態では、情報抽出装置をネットワーク11に接続された通信端末12として説明したが、情報抽出装置の機能そのものは、必ずしもネットワークに接続して利用されることを前提とするものではない。
【0103】
例えば、CD−ROMなどの記憶媒体に格納された形でWebページが提供された場合でも、上記実施形態と同様にそのWebページから主要部を抽出することが可能である。
【0104】
その場合などには、前記情報抽出装置を抽象化して、図1に示すものとしてとらえることができる。
【0105】
図1において、当該情報抽出装置は、電子文書入力部100、主要部抽出部102および抽出結果表示部104を有する。
【0106】
電子文書入力部100は、前記Webページ等、対象となる電子文書を入力する部分である。上記実施形態でこれに相当する構成要素は、通信部20である。
【0107】
主要部抽出部102は、電子文書入力部100に入力された電子文書に対し、その主要部の抽出処理を行う部分で、上記実施形態の主要部抽出部25に対応する。
【0108】
抽出結果表示部104は、主要部抽出部102によって抽出された電子文書の主要部をオペレータに表示する部分で、上記実施形態の表示部24またはテレビジョンモニタ14に相当する。
【0109】
このうち主要部抽出部102は、前記主要部抽出部25に対応する。
【0110】
以上の説明では主としてソフトウエア的に本発明を実現したが、本発明はハードウエア的に実現することも可能である。
【0111】
【発明の効果】
以上のように、本発明によれば、文書要素を選別するための処理の効率を高めることが可能になる。
【図面の簡単な説明】
【図1】他の実施形態の情報抽出装置の構成を示すブロック図である。
【図2】実施形態の電子文書入力部に入力される電子文書の例を示す説明図である。
【図3】実施形態の動作を示すフローチャートである。
【図4】実施形態にかかる通信システムの全体構成例を示す概略図である。
【図5】実施形態にかかる通信システムで使用する通信端末の主要部の構成例を示す概略図である。
【図6】他の実施形態の動作を示すフローチャートである。
【図7】実施形態の動作を示すフローチャートである。
【符号の説明】
10…通信システム、11…ネットワーク、12…通信端末、13…Webサーバ、14…テレビジョンモニタ、20…通信部、21…制御部、22…操作部、23…記憶部、24…表示部、25、102…主要部抽出部、100…電子文書入力部、104…抽出結果表示部、B1…Webブラウザ、CH1…キャッシュ領域。

Claims (7)

  1. 所定の制御情報によって他の文書要素と区別される複数の文書要素から構成された電子文書を処理する情報抽出装置において、
    前記各文書要素ごとに、文の意図を表現する文字を除いた文の区切りを示す区切り表現文字の有無を判断し、この区切り表現文字の出現状況を検査する出現状況検査手段と、
    前記出現状況検査手段の検査結果をもとに主要部を抽出する主要部抽出手段とを備え
    前記出現状況検査手段は、前記各文書要素ごとに、前記区切り表現文字の出現間隔をカウントする出現間隔カウント部を有し
    前記主要部抽出手段は、前記出現間隔カウント部のカウント結果に基づいて、所定長の文を有する主要部を抽出する
    ことを特徴とする情報抽出装置。
  2. 請求項1の情報抽出装置において、
    前記出現状況検査手段は、さらに、
    前記各文書要素ごとに、前記区切り表現文字の出現回数をカウントする出現回数カウント部を備え、
    前記主要部抽出手段は、前記出現回数カウント部のカウント結果及び前記出現間隔カウント部のカウント結果に基づいて、1又は複数の前記区切り表現を含む所定長の文を有する主要部抽出することを特徴とする情報抽出装置。
  3. 請求項の情報抽出装置において、
    前記主要部抽出手段は、前記出現回数カウント部のカウント結果が第1のしきい値以上であって、なおかつ、前記出現間隔カウント部のカウント結果が第2のしきい値以下である主要部抽出することを特徴とする情報抽出装置。
  4. 請求項1〜のいずれかの情報抽出装置において、
    前記区切り表現文字として、句点、読点若しくはピリオドを用いることを特徴とする情報抽出装置。
  5. 請求項1の情報抽出装置において、
    前記制御情報としては、マークアップ言語の予約語を利用することを特徴とする情報抽出装置。
  6. 請求項の情報抽出装置において、
    前記第1のしきい値として、3を用いることを特徴とする情報抽出装置。
  7. 所定の制御情報によって他の文書要素と区別される複数の文書要素から構成された電子文書を処理する情報抽出方法において、
    情報抽出装置が、出現状況検査手段及び主要部抽出手段を備え、
    前記出現状況検査手段が、前記各文書要素ごとに、文の意図を表現する文字を除いた文の区切りを示す区切り表現文字の有無を判断し、この区切り表現文字の出現状況を検査する出現状況検査工程と、
    前記主要部抽出手段が、前記出現状況検査手段の検査結果をもとに主要部を抽出する主要部抽出工程とを有し、
    前記出現状況検査手段の有する出現間隔カウント部は、前記各文書要素ごとに、前記区切り表現文字の出現間隔をカウントし、
    前記主要部抽出手段は、前記出現間隔カウント部のカウント結果に基づいて、所定長の文を有する主要部を抽出する
    ことを特徴とする情報抽出方法。
JP2002363293A 2002-06-27 2002-12-16 情報抽出装置および方法 Expired - Fee Related JP4033764B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002363293A JP4033764B2 (ja) 2002-06-27 2002-12-16 情報抽出装置および方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002187667 2002-06-27
JP2002363293A JP4033764B2 (ja) 2002-06-27 2002-12-16 情報抽出装置および方法

Publications (2)

Publication Number Publication Date
JP2004086843A JP2004086843A (ja) 2004-03-18
JP4033764B2 true JP4033764B2 (ja) 2008-01-16

Family

ID=32071711

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002363293A Expired - Fee Related JP4033764B2 (ja) 2002-06-27 2002-12-16 情報抽出装置および方法

Country Status (1)

Country Link
JP (1) JP4033764B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4160548B2 (ja) * 2004-09-29 2008-10-01 株式会社東芝 文書要約作成システム、方法、及びプログラム
JP5317638B2 (ja) * 2008-11-13 2013-10-16 日本電信電話株式会社 Web文書主要コンテンツ抽出装置及びプログラム
JP5955186B2 (ja) * 2012-09-28 2016-07-20 株式会社Nttドコモ 情報処理装置
JP5766257B2 (ja) * 2013-11-25 2015-08-19 キヤノン株式会社 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
JP2004086843A (ja) 2004-03-18

Similar Documents

Publication Publication Date Title
JP6653334B2 (ja) 情報抽出方法及び装置
US9330179B2 (en) Configuring web crawler to extract web page information
EP2399234B1 (en) Font handling for viewing documents on the web
US8196037B2 (en) Method and device for extracting web information
US8326830B2 (en) Pattern recognition in web search engine result pages
CN105022803B (zh) 一种提取网页正文内容的方法及系统
US20080033938A1 (en) Keyword outputting apparatus, keyword outputting method, and keyword outputting computer program product
WO2011072434A1 (en) System and method for web content extraction
US20090300003A1 (en) Apparatus and method for supporting keyword input
US9449114B2 (en) Removing non-substantive content from a web page by removing its text-sparse nodes and removing high-frequency sentences of its text-dense nodes using sentence hash value frequency across a web page collection
WO2014153457A1 (en) Merging web page style addresses
CN109857956A (zh) 基于标签和分块特征的新闻网页关键信息自动抽取方法
Weninger et al. Web content extraction: a metaanalysis of its past and thoughts on its future
CN105740355B (zh) 基于聚集文本密度的网页正文提取方法及装置
JP6840597B2 (ja) 検索結果要約装置、プログラム及び方法
CN107590288B (zh) 用于抽取网页图文块的方法和装置
CN114443928B (zh) 一种网络文本数据爬虫方法与系统
WO2015057457A1 (en) Systems and methods to segment text for layout and rendering
CN108874870A (zh) 一种数据抽取方法、设备及计算机可存储介质
JP4033764B2 (ja) 情報抽出装置および方法
CN112433995A (zh) 文件格式转换方法、系统、计算机设备及存储介质
CN112380337A (zh) 基于富文本的高亮方法及装置
Lin et al. Combining a segmentation-like approach and a density-based approach in content extraction
CN108132919A (zh) 一种网页内容抽取的方法
CN115391711A (zh) 网页正文信息提取方法、装置、设备及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041029

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070724

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070925

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071023

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071023

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101102

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101102

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111102

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111102

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121102

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121102

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131102

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees