JP3941610B2

JP3941610B2 - 情報抽出方法、情報抽出装置および情報抽出プログラム

Info

Publication number: JP3941610B2
Application number: JP2002198199A
Authority: JP
Inventors: 健一郎藤山; 勝志松田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2002-07-08
Filing date: 2002-07-08
Publication date: 2007-07-04
Anticipated expiration: 2022-07-08
Also published as: JP2004038827A

Description

【０００１】
【発明の属する技術分野】
本発明は構造化文書のドキュメントソースから構成要素を抽出し、また構成要素の属性を判定する情報抽出方法および装置に関する。
【０００２】
【従来の技術】
WWW（World Wide Web）におけるHTMLファイルなどに代表される構造化文書は、意味的、論理的、あるいは表現的なまとまりである構成要素からなる階層的な構造をもつ文書である。構成要素にはタイトル、主文、ナビゲーション用のメニュー、ヘッダ、フッタ、広告など、様々な属性がある。従って、構造化文書のドキュメントソースが与えられ、そのドキュメントソースで示される構造化文書に対して、構成要素単位で処理を行う場合、構造化文書のドキュメントソースから個々の構成要素を抽出する必要がある。また、個々の構成要素の属性に応じた処理を行いたい場合、例えば広告属性の構成要素を除去したブラウジングや、主文属性の構成要素のみをインデックス化した効率の良い検索エンジンなどを実現する場合は、ドキュメントソースから単に構成要素の内容を抽出するだけではなく、属性を判定し一緒に抽出する必要がある。
【０００３】
構造化文書のドキュメントソースから個々の構成要素を抽出する場合、従来は、例えば特開2000-29902号公報に見られるように、ドキュメントソースを直接解析することで行っている。同様に、属性を判定して一緒に抽出する場合も、例えば特開平11-259500号公報に見れるように、ドキュメントソースをベースに行うのが一般的であった。
【０００４】
他方、画像を解析してレイアウトの特徴を抽出する技術が、特開平11-328306号公報や、論文1:「拡張スプリット検出法による文書構造解析」（画像の認識・理解シンポジウム（MIRU'98）、平成10年7月）等に記載されている。また、画像を解析して構成要素の属性を判定する技術が、論文2:「矩形レイアウトモデルに基づく文書画像の領域識別」（電子情報通信学会技術研究報告 AI93-65,PRU93-82,
1993-11）等に記載されている。
【０００５】
【発明が解決しようとする課題】
構成要素やその属性を抽出する対象の構造化文書がドキュメントソースで与えられた場合、従来はドキュメントソースを直接解析して、構成要素やその属性を抽出しているが、近年構造化文書のデザインは複雑化しており、画像とテーブルの複雑な組み合わせでレイアウトを実現しているため、ドキュメントソースレベルでは文章がばらばらに配置されていて、そのつながりを論理的に追跡できない場合が多く、充分な抽出精度を得ることができないという課題がある。
【０００６】
他方、文書の画像から構成要素やその属性を抽出する各種の手法が知られているが、この画像ベースの抽出技術をドキュメントソースで与えられた構造化文書からの構成要素およびその属性の抽出に適用する考えは従来存在しなかった。また、現状の画像処理技術は、どのような画像であっても常に精度良くレイアウト解析や属性判定できるわけでないため、画像ベースの抽出技術をドキュメントソースで与えられた構造化文書からの構成要素およびその属性の抽出に適用する場合、領域分割等の画像処理がより精度良く行えるように工夫する必要がある。
【０００７】
本発明の目的は、構造化文書のドキュメントソースから構成要素を的確に抽出することができる情報抽出方法及び装置を提供することにある。
【０００８】
本発明の別の目的は、更に、抽出した構成要素の属性を的確に判定することができる情報抽出方法及び装置を提供することにある。
【０００９】
【課題を解決するための手段】
本発明は、構成要素やその属性を抽出する対象の構造化文書がドキュメントソースで与えられた場合、それを一旦画像に変換することで、画像に対するレイアウト解析技術の適用を可能にし、その画像に対するレイアウト解析の結果に基づいて構成要素やその属性を抽出することを基本とする。具体的には、構成要素を抽出する構成にあっては、構造化文書に定義されたレイアウト情報に従って構造化文書のドキュメントソースを描画したときの画像情報を生成し、この画像情報をレイアウト解析し、このレイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を構造化文書の構成要素の内容として出力する。また、構成要素とその属性を抽出する構成にあっては、構造化文書に定義されたレイアウト情報に従って構造化文書のドキュメントソースを描画したときの画像情報を生成し、この画像情報をレイアウト解析し、このレイアウト解析で得られた前記画像情報の構成要素の属性を判定し、このレイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を構造化文書の構成要素の内容として前記判定された属性と共に出力する。ここで、構造化文書のドキュメントソースは、本来のドキュメントソースだけでなく、構造化文書がHTMLでレイアウトをスタイルシートで定義されている場合のスタイルシート等のように関連するドキュメントを含んでいても良い。また、レイアウト情報とは、フォントや色、文書表示時のレイアウトなどを指定する情報である。さらに、構造化文書に定義されたレイアウト情報とは、構造化文書中に記述されるレイアウト情報以外に前記スタイルシート等を用いて構造化文書の論理構造と分離して記述されるレイアウト情報の少なくとも一方を意味する。
【００１０】
本発明においては、抽出対象となるドキュメントソースそのものから画像を生成するようにしても良いが、レイアウト解析や属性判定が容易に行えるように構造化文書のドキュメントソースを改変してから画像情報を生成するようにしても良い。抽出対象となる文書が直接画像で与えられた場合、このような改変は不可能に近いが、本発明は抽出対象となる構造化文書がドキュメントソースで与えられているため、そのドキュメントソースを解析して、レイアウト解析し易いように、また属性判定し易いようにドキュメントソースを改変することは、ドキュメントソースを直接解析して構成要素やその属性を抽出する処理に比べて遥かに簡単である。改変する対象は、主に、構造化文書に定義されたレイアウト情報であるが、文書の内容自体を改変するようにしても良い。どのようにドキュメントソースを改変するかは、レイアウト解析方法、属性判定方法に依存する。
【００１１】
本発明においては、レイアウト解析に有効な情報や属性の判定に有効な情報を構造化文書のドキュメントソースから抽出し、この抽出した情報を利用してレイアウト解析、属性の判定を行うようにしても良い。抽出は、主に、構造化文書に定義されたレイアウト情報から行うが、文書の内容自体から抽出するようにしても良い。どのような情報をレイアウト解析や属性判定に有効な情報としてドキュメントソースから抽出するかは、レイアウト解析方法、属性判定方法に依存する。
【００１２】
本発明においては、ドキュメントソースの前記改変は、予め予定した全ての改変を一度に実施するようにしても良いし、何回かに分けて実施することもできる。後者の場合、構造化文書のドキュメントソースの改変から属性の判定までの処理を、求める全ての構成要素に対して属性が得られるまで、前回の改変内容に新たな改変内容を追加して繰り返すようにしても良いし、構造化文書のドキュメントソースの改変から属性の判定までの処理を、改変内容を毎回異ならせて複数回繰り返し、各回で得られた属性の判定結果から最終結果を求めるようにしても良い。
【００１３】
本発明においてドキュメントソースを改変したとき、出力する構造化文書の構成要素に、その改変部分が含まれる場合には、改変前の状態に戻して出力するようにしても良い。
【００１４】
【発明の実施の形態】
（第１の実施の形態）
本発明の第１の実施の形態について図面を参照して詳細に説明する。図１は、本発明の第１の実施の形態による情報抽出装置の構成を示すブロック図である。
【００１５】
（構成の説明）
図１を参照すると、本発明の第１の実施の形態は、構造化文書データベース110と、プログラム制御により動作する情報抽出装置120とを備える。
【００１６】
情報抽出装置120は、構造化文書データベース110より構造化文書のドキュメントソースを得る入力手段121と、ドキュメントソースから必要情報を獲得し、さらに情報を付加する前処理手段122と、ドキュメントソースより構造化文書を描画するレンダリング手段123と、描画された画像のレイアウト解析を行うレイアウト解析手段124と、抽出した情報を提供する出力手段127と、入力されたドキュメントソースや処理の過程で生成された各種の情報を記憶する記憶装置129とを備える。
【００１７】
（構成要素の関係）
入力手段121は、構造化文書データベース110より情報抽出の対象となる構造化文書のドキュメントソース等を得て、それをドキュメントソース情報M01として記憶装置129に格納する。
【００１８】
前処理手段122は、記憶装置129よりドキュメントソース情報M01を得る。また、そのドキュメントソース情報M01からレイアウト解析の画像処理に有効な情報を取得し、さらに描画後の画像に対するレイアウト解析の画像処理を容易にするための情報を付加する。そして、前処理したドキュメントソース情報M01を前処理済ソースM02、取得した情報を取得情報（レイアウト用）M03、付加した情報を付加情報（レイアウト用）M04として、それぞれ記憶装置129に格納する。
【００１９】
レンダリング手段123は、記憶装置129より前処理済ソースM02を得て、それを実際に描画したときの画像データを生成し、その画像データを画像データM05として記憶装置129に格納する。またレンダリング手段123は、描画された画像データの領域とそれに対応するドキュメントソースの領域との対応関係情報を取得し、対応関係情報M06として記憶装置129に格納する。
【００２０】
レイアウト解析手段124は、記憶装置129に格納されている画像データM05に対し、取得情報（レイアウト用）M03、付加情報（レイアウト用）M04を利用して画像処理を行うことでレイアウト解析を行う。またレイアウト情報の結果をレイアウト解析情報M07として記憶装置129に格納する。
【００２１】
出力手段127は、対応関係情報M06、レイアウト解析情報M07に基づき前処理済ソースM02より構成要素の内容を得て、さらに付加情報（レイアウト用）M04に基づき付加された情報を除去した内容を提供する。
【００２２】
（動作の説明）
次に図２を参照して本実施の形態の動作について詳細に説明する。図２は、本発明の第１の実施の形態による情報抽出装置の処理手順を示すフローチャートである。
【００２３】
まず入力手段121は、構造化文書データベース110より情報抽出の対象となる構造化文書のドキュメントソースを得て、ドキュメントソース情報M01として記憶装置129に格納する（ステップS201）。この際、必要であれば関連するドキュメントも格納される。例えば構造化文書を構成している画像データや、構造化文書がHTMLでレイアウトをスタイルシートで定義している場合、そのスタイルシート定義ファイル等も取得し、同様にドキュメントソース情報M01として記憶装置129に格納する。
【００２４】
前処理手段122は、記憶装置129より関連ドキュメントを含むドキュメントソース情報M01を得て、以降の処理に必要な情報を獲得し、さらに以降の処理に有効な情報を付加するなどの前処理を行う（ステップS202）。
【００２５】
具体的には前処理手段122は、以降の処理に必要な情報を獲得する処理として、ドキュメントソース情報M01からレイアウト解析手段124で用いられるレイアウト解析方法に有効な情報を取得する処理を行う。例えば、構造化文書の背景色を定義している部分から背景色を得る。構造化文書の背景色を定義している部分から背景色を得ることができれば、領域分割を行う際、取得した背景色による領域分割が容易になるからである。また、構成要素の背景色を定義している部分から背景色を得ることができれば、領域分割を行う際、背景色を利用して領域を確定するのが容易になるからである。なお、有効な情報はレイアウト解析手段124で用いられるレイアウト解析方法に依存するものであり、この例に限定するものではない。
【００２６】
さらに前処理手段122は、以降の処理に有効な情報を付加する処理として、レンダリング手段123で描画される画像がレイアウト解析手段124で用いられるレイアウト解析方法にとって解析しやすい画像になるように、ドキュメントソース情報M01に情報を付加する処理を行う。この処理の例を以下に示す。なお、解析しやすい画像はレイアウト解析手段124で用いられる画像解析方法に依存するものであり、これらの例に限定するものではない。
【００２７】
例１：構成要素と構成要素の間の幅を定義している部分をより間隔を広げるようにドキュメントソース情報M01を改変する。こうすれば、描画される画像の構成要素間の間隔も広がり、領域分割が容易になるからである。
例２：構成要素と構成要素の間になんらかのシンボルを挿入するようにドキュメントソース情報M01を改変する。こうすれば、描画される画像の領域間が明示的に示されるため、領域分割が容易になるからである。
例３：構成要素の配置を制御しているグリッドを表示するようにドキュメントソース情報M01を改変する。こうすれば、描画される画像の各構成要素を囲む矩形が表示されるため、矩形抽出が容易になるからである。
例４：構成要素にユニークな背景色を定義するようにドキュメントソース情報M01を改変する。こうすれば、描画される画像の各構成要素の領域がユニークな色で表示されるため、その色情報を用いて構成要素の領域を確定するのが容易になるからである。
例５：表示される背景画像やイメージ画像を非表示にしたり予め用意した単色イメージを表示したりするようにドキュメントソースを改変情報M01する。こうすれば、画像処理時のノイズを抑えることができるからである。
【００２８】
前処理手段122は、このようにして得られたレイアウト解析に有効な情報とその結合関係を取得情報（レイアウト用）M03として、ドキュメントソースに付加された情報とその結合関係を付加情報（レイアウト用）M04として、そして改変されたドキュメントソース情報M01を前処理済ソースM02として、それぞれ記憶装置129に格納する。ここで結合関係とは、取得された、あるいは付加された情報がどの部分に対するものかといった情報である。
【００２９】
レンダリング手段123は、記憶装置129より前処理済ソースM02を得て、実際に描画し、その画像データを画像データM05として記憶装置129に格納する（ステップS203）。ここで描画とは、表示装置に描画するのではなく、画像として計算機が認識できる形態に構成する処理である。レンダリング手段123の実現方法は構造化文書がどのような形式で表現されているかに依存するが、広く普及しているWWWブラウザの持つ機能であり、当業者には容易に実現可能である。またレンダリング手段123は、描画する際、実際に描画された座標を得ることで、描画された画像の特定の領域が前処理済ソースM02のどの部分を描画したのかという対応関係を取得し、対応関係情報M06として記憶装置129に格納する。
【００３０】
レイアウト解析手段124は、記憶装置129に格納されている画像データM05に対し、画像処理を行うことでレイアウト解析を行う（ステップS204）。ここでレイアウト解析とは、画像データの中から、一纏まりの要素として見なせる部分をブロックとして領域分割を行い、構成要素を抽出し、さらに各構成要素の位置やサイズ、さらには包含関係などといったレイアウト情報を求めることである。この、レイアウト解析方法には公知の技術を用いることができる。画像処理的にレイアウトを解析する方法としては、例えば前記論文1:「拡張スプリット検出法による文書構造解析」（画像の認識・理解シンポジウム（MIRU'98）、平成10年7月）に記載の技術等がある。これは画像データを図、段組、文字行、文字、表枠線、下線等の要素領域に分割し、１つまたは複数個の要素領域をブロックとして構造化し、各ブロックの包含関係及び上下又は左右の配置関係に従って、ブロック間の配置構造を階層的に決定し、記憶する。
【００３１】
なおレイアウト解析を行う際、用いられるレイアウト解析方法に有効な情報である取得情報（レイアウト用）M03および付加情報（レイアウト用）M04を記憶装置129より得て、その情報を併用してレイアウト解析を行う。例えばスプリット検出法では画像を二値化し、水平および垂直軸方向への投影パターンを用いる。ここで文字と背景の色が近い場合、上手く二値化できないので、前処理で文字と背景の色をコントラストが強くなるように改変してあれば、確実に二値化することができる。またセパレータ領域として空白領域を抽出する際も、背景色が予め分かっていれば、それと同じ色を検出することで容易に抽出できる。
【００３２】
レイアウト解析手段124は、レイアウト解析の結果得られた構成要素とそのレイアウト情報をレイアウト解析情報M07として記憶装置129に格納する。
【００３３】
最後に出力手段127は、抽出された構成要素の情報をレイアウト解析情報M07から得て、また各構成要素に対応する内容を前処理済ソースM02より得て、提供する（ステップS205）。ここで構成要素の内容とは、その構成要素を表現している前処理済ソースM02の領域であり、対応関係情報M06に基づき特定して抽出する。なお前処理済ソースM02から抽出された内容は、前処理手段122によりレイアウト解析に有効な情報が付加されているので、付加情報（レイアウト用）M04に基づき、付加された情報を除去する。これにより改変される前のドキュメントソース情報M01から内容を抽出する場合と同様の内容を得ることが出来る。
【００３４】
（本実施の形態の効果）
次に本実施の形態の効果について説明する。本実施の形態ではドキュメントソースを一度描画してから、画像的に処理するため、様々な構造化文書から的確かつ汎用的にレイアウト情報を取得できる。また描画する際、ドキュメントソースの一部を改変して描画される画像にレイアウト解析に有効な情報を付加し、さらにドキュメントソースの情報を併用してレイアウト解析等を行うため、より一層的確に構成要素を分割、抽出できる。
【００３５】
（第２の実施の形態）
本発明の第２の実施の形態について図面を参照して詳細に説明する。図３は、本発明の第２の実施の形態による情報抽出装置の構成を示すブロック図である。
【００３６】
（構成の説明）
図３を参照すると、本発明の第２の実施の形態の構成は、情報抽出装置320が図１に示された前処理手段122および出力手段127のかわりに前処理手段322および出力手段317を備え、さらに属性判定手段325を備える点で異なる。
【００３７】
（構成要素の関係）
前処理手段322は、記憶装置129よりドキュメントソース情報M01を得る。また、そのドキュメントソース情報M01からレイアウト解析および属性判定に有効な情報を取得し、さらに描画後の画像に対するレイアウト解析および属性判定を容易にするための情報を付加する。そして、前処理したドキュメントソース情報M01を前処理済ソースM02として、取得した情報のうちレイアウト解析に有効な情報を取得情報（レイアウト用）M03として、属性判定に有効な情報を取得情報（属性用）M08として、付加した情報のうちレイアウト解析に有効な情報を付加情報（レイアウト用）M04として、属性判定に有効な情報を付加情報（属性用）M09として、それぞれ記憶装置129に格納する。
【００３８】
属性判定手段325は、記憶装置129よりレイアウト解析情報M07を得て、取得情報（属性用）M08および付加情報（属性用）M09をを併用して構成要素の属性を判定する。また判定結果を属性判定結果M10として記憶装置129に格納する。
【００３９】
出力手段327は、対応関係情報M06、レイアウト解析情報M07に基づき前処理済ソースM02より構成要素の内容を得て、付加情報（レイアウト用）M04および付加情報（属性用）M09に基づき付加された情報を除去する。さらに属性判定結果M10より構成要素の属性を得て、内容と属性を提供する。
【００４０】
（動作の説明）
次に図４を参照して本実施の形態の動作について詳細に説明する。図４は、本発明の第２の実施の形態による情報抽出装置の処理手順を示すフローチャートである。なお、図４のステップS401、ステップS403、ステップS404で示される本実施の形態における入力手段121、レンダリング手段123、レイアウト解析手段124の動作は、第１の実施の形態の各手段121、123、124の動作と同一のため、説明は省略する。
【００４１】
前処理手段322は、記憶装置129よりドキュメントソース情報M01を得て、以降の処理に必要な情報を獲得し、さらに以降の処理に有効な情報を付加するなどの前処理を行う（ステップS402）。この際、第１の実施の形態に示されたレイアウト解析手段124で用いられるレイアウト解析方法に有効な情報の取得および付与に加え、属性判定手段325で用いられる属性判定方法に有効な情報の取得および付加を行う。
【００４２】
すなわち前処理手段322は、ドキュメントソース情報M01から属性判定手段325における属性判定方法に有効な情報を取得する。取得する情報の例を以下に示す。なお有効な情報は属性判定手段325で用いられる属性判定方法に依存するものであり、この例に限定するものではない。
【００４３】
例１：ある構成要素にリスト要素があり、リストの各アイテムがハイパーリンクであるという情報。
ナビゲーション用のメニューはハイパーリンクの集合であることが多いので、ある構成要素がハイパーリンクのリストなどであると分かれば、属性判定の際その構成要素がナビゲーション用メニューであると判定する有力な手がかりとなる。
例２：コメント情報。
ドキュメントソース情報M01ではコメントとして論理構造を明示している場合もあるので、その情報を得ることで属性判定を確実に行うことが出来る。
例３：重要な単語の含有率。
主文はその構造化文書における重要単語を多く含む可能性が高いので、例えば構成要素全体で出現頻度が高い単語を重要な単語とみなし、ある構成要素がその重要単語を多く含む文章であることが分かれば、属性判定の際その構成要素が主文であると判定する有力な手がかりとなる。
【００４４】
さらに前処理手段322は、レンダリング手段123で描画される画像が属性判定手段325で用いられる属性判定方法にとって判定しやすい画像になるように、ドキュメントソース情報M01に情報を付加する。以下に幾つかの例を示す。なお、判定しやすい画像は属性判定手段325で用いられる属性判定方法に依存するものであり、この例に限定するものではない。
【００４５】
例１：文字の大きさを定義している部分をより強調するように改変する。すなわち大きく定義されている文字はより大きく、小さく定義されている文字はより小さくするようにドキュメントソース情報M01を改変する。こうすれば、重要度を判定するのが容易になる。
例２：構造化文書の中で最も重要な単語をあるユニークな色でハイライト表示するようにドキュメントソース情報M01を改変する。こうすれば、その色の出現頻度で構成要素の重要度を判定するのが容易になる。
【００４６】
前処理手段322は、このようにして得られた属性判定に有効な情報とその結合関係を取得情報（属性用）M08として、ドキュメントソース付加された属性判定に有効な情報とその結合関係を付加情報（属性用）M09として、それぞれ記憶装置129に格納する。さらに前処理手段322は、第１の実施の形態における前処理手段122と同様に、レイアウト解析に有効な取得情報とその結合関係を取得情報（レイアウト用）M03として、レイアウト解析に有効な付加情報とその結合関係を付加情報（レイアウト用）M04として、改変されたドキュメントソース情報M01を前処理済ソースM02として、それぞれ記憶装置129に格納する。ここで結合関係とは、取得された、あるいは付加された情報がどの部分に対するものかといった情報である。
【００４７】
属性判定手段325は、記憶装置129よりレイアウト解析情報M07を得て、これを元に各構成要素の属性判定を行う（ステップS405）。ここで、属性判定とは、レイアウト情報より、タイトル、ヘッダ、フッタ、主文等といった各構成要素の属性を判定することである。この属性判定方法には公知の技術を用いることができる。属性判定の方法としては前記文献2:「矩形レイアウトモデルに基づく文書画像の領域識別」（電子情報通信学会技術研究報告 AI93-65,PRU93-82, 1993-11）に記載の技術等がある。これは文書見出しと本文の関係をグラフ形式で表現した矩形レイアウトモデルを生成し、グラフ間の距離の考え方を基にして矩形レイアウトモデル間の距離を定義し、文書見出しの領域識別を行う。
【００４８】
なお属性判定を行う際、用いられる属性判定方法に有効な情報である取得情報（属性用）M08および付加情報（レイアウト用）M09を記憶装置129より得て、その情報を併用して属性判定を行う。例えば上記の公知手法では、見出しとは矩形レイアウトにおける相対的な安定状態を崩しているという仮定に基づいて見出し領域を識別する。したがってフォントサイズ等を変更することにより、さらに安定状態を乱して不安定領域として抽出しやすくできる。
【００４９】
属性判定手段325は、属性判定の結果得られた属性情報を属性判定結果M10として記憶装置129に格納する。
【００５０】
最後に出力手段327は、レイアウト解析情報M07から抽出された構成要素の情報を得て、各構成要素に対応する内容と属性をそれぞれ前処理済ソースM02および属性判定結果M10より得て、提供する（ステップS406）。ここで構成要素の内容とは、その構成要素を表現している前処理済ソースM02の領域であり、対応関係情報M06に基づき特定して抽出する。なお、前処理済ソースM02から抽出された内容は、前処理手段322によりレイアウト解析および属性判定に有効な情報が付加されているので、付加情報（レイアウト用）M04および付加情報（属性用）M09に基づき、付加された情報を除去する。これにより改変される前のドキュメントソース情報M01から内容を抽出する場合と同様の内容を得ることが出来る。
【００５１】
（本形態の効果）
次に本実施の形態の効果について説明する。本実施の形態では第１の実施の形態で得られる効果に加え、レイアウト情報から構成要素の属性を判定するため、様々な構造化文書から的確かつ汎用的に構成要素の属性を判定し、内容と属性を抽出できる。
【００５２】
（第３の実施の形態）
本発明の第３の実施の形態について図面を参照して詳細に説明する。図５は、本発明の第３の実施の形態による情報抽出装置の構成を示すブロック図である。
【００５３】
（構成の説明）
図５を参照すると、本発明の第３の実施の形態の構成は、情報抽出装置520が図３に示された前処理手段322のかわりにインクリメンタル前処理手段522を備える点で異なる。
【００５４】
（構成要素の関係）
インクリメンタル前処理手段522は、記憶装置129よりドキュメントソース情報M01を得る。そのドキュメントソース情報M01からレイアウト解析および属性判定に有効な情報の取得、および描画後の画像に対するレイアウト解析および属性判定を容易にするための情報の付加を、インクリメンタルに行う。ここでインクリメンタルとは、複数ある前処理を全て同時に行うのではなく、そのうちの選択された１つ以上の前処理を段階的に付加することを繰り返すという意味である。前処理したドキュメントソース情報M01を前処理済ソースM02として、取得した情報のうちレイアウト解析に有効な情報を取得情報（レイアウト用）M03として、属性判定に有効な情報を取得情報（属性用）M08として、付加した情報のうちレイアウト解析に有効な情報を付加情報（レイアウト用）M04として、属性判定に有効な情報を付加情報（属性用）M09として、それぞれ記憶装置129に格納する。
【００５５】
（動作の説明）
次に図６を参照して本実施の形態の動作について詳細に説明する。図６は、本発明の第３の実施の形態による情報抽出装置の処理手順を示すフローチャートである。なお、図６のステップS601、ステップS603〜S605で示される本実施の形態における入力手段121、レンダリング手段123、レイアウト解析手段124、属性判定手段325、出力手段327の動作は、第２の実施の形態の各手段121、123、124、325、327の動作と同一のため、説明は省略する。
【００５６】
インクリメンタル前処理手段522は、１回目は記憶装置129よりドキュメントソース情報M01を得て、以降の処理に必要な情報を獲得し、さらに以降の処理に有効な情報を付加するなどの前処理を行う（ステップS602）。ただし、第２の実施の形態のように全ての前処理を行うのではなく、複数ある前処理のうちの選択された１つ以上の前処理のみを行う。試行される前処理の選択の順序等は、常に固定でも構わないし、対象となる構造化文書に対し最も有効と思われる前処理を随時選択するようにしても構わない。
【００５７】
インクリメンタル前処理手段522は、このようにしてある前処理によって得られたレイアウト解析に有効な取得情報とその結合関係を取得情報（レイアウト用）M03として、レイアウト解析に有効な付加情報とその結合関係を付加情報（レイアウト用）M04として、属性判定に有効な取得情報とその結合関係を取得情報（属性用）M08として、属性判定に有効な付加情報とその結合関係を付加情報（属性用）M09として、改変されたドキュメントソース情報M01を前処理済ソースM02として、それぞれ記憶装置129に格納する。ここで結合関係とは、取得された、あるいは付加された情報がどの部分に対するものかといった情報である。
【００５８】
次に第２の実施の形態と同様に属性判定を行ったあと（ステップS603〜S605）、レイアウト解析手段124で抽出された全ての構成要素、あるいはユーザが任意のタイミングで指定した構成要素に対し属性が判定されたか否かを判定する（ステップS606）。属性が判定されていない構成要素がある場合、インクリメンタル前処理手段522は、記憶装置129から既に前処理を行った処理済ソースM02を得て、これに対し更に別の前処理をインクリメンタルに追加し、以降情報抽出装置520は再度属性判定を行う。
【００５９】
レイアウト解析手段124で抽出された全ての構成要素、あるいはユーザが任意のタイミングで指定した構成要素の属性が判定されるまで、インクリメンタル前処理部522は前処理をインクリメンタルに追加し、情報抽出装置520は属性判定を繰り返す。
【００６０】
レイアウト解析手段124で抽出された全ての構成要素、あるいはユーザが任意のタイミングで指定した構成要素の属性が判定された場合、出力手段327は、第２の実施の形態と同様に、各構成要素に対応する内容と属性を提供する（ステップS607）。
【００６１】
なお説明の都合上、インクリメンタル前処理手段522のみをインクリメンタルに行ったが、属性判定手段325など他の手段をインクリメンタルに行っても構わない。
【００６２】
（本形態の効果）
次に本実施の形態の効果について説明する。本実施の形態では第２の実施の形態で得られる効果に加え、属性判定等の動作をインクリメンタルに行うので、属性判定に必要な前処理のみを行え、かつ不必要な前処理によって描画される画像が過度に変化することはないため、無駄なく的確に属性の判定を行うことができる。
【００６３】
（第４の実施の形態）
本発明の第４の実施の形態について図面を参照して詳細に説明する。図７は、本発明の第４の実施の形態による情報抽出装置の構成を示すブロック図である。
【００６４】
（構成の説明）
図７を参照すると、本発明の第４の実施の形態の構成は、情報抽出装置720が図３に示された前処理手段321のかわりに選択的前処理手段722を備え、さらに属性検査手段726を備える点で異なる。
【００６５】
（構成要素の関係）
選択的前処理手段722は、記憶装置129よりドキュメントソース情報M01を得る。そのドキュメントソース情報M01からレイアウト解析および属性判定に有効な情報の取得、および描画後の画像に対するレイアウト解析および属性判定を容易にするための情報の付加を、選択的に行う。ここで選択的とは、複数ある前処理を全て同時に行うのではなく、そのうちの選択された１つ以上の前処理のみを行うという意味である。選択的前処理手段722は、前処理したドキュメントソース情報M01を前処理済ソースM02として、取得した情報のうちレイアウト解析に有効な情報を取得情報（レイアウト用）M03として、属性判定に有効な情報を取得情報（属性用）M08として、付加した情報のうちレイアウト解析に有効な情報を付加情報（レイアウト用）M04として、属性判定に有効な情報を付加情報（属性用）M09として、それぞれ記憶装置129に格納する。
【００６６】
属性検査手段726は、ある構成要素に対し属性判定手段325の複数回の試行で得られた属性判定結果M10を比較し、属性が正しく判定されているか否かのチェックを行い、正しいと判定した属性を確定された属性判定結果M10として記憶装置129に格納する。
【００６７】
（動作の説明）
次に図８を参照して本実施の形態の動作について詳細に説明する。図８は、本発明の第４の実施の形態による情報抽出装置の処理手順を示すフローチャートである。なお、図８のステップS801、ステップS803〜S805で示される本実施の形態における入力手段121、レンダリング手段123、レイアウト解析手段124、属性判定手段325、出力手段327の動作は、第２の実施の形態の各手段121、123、124、325、327の動作と同一のため、説明は省略する。
【００６８】
選択的前処理手段722は、記憶装置129よりドキュメントソース情報M01を得て、以降の処理に必要な情報を獲得し、さらに以降の処理に有効な情報を付加するなどの前処理を行う（ステップS802）。ただし、第２の実施の形態のように全ての前処理を行うのではなく、複数ある前処理のうちの選択された１つ以上の前処理のみを行う。試行される前処理の選択の順序等は、常に固定でも構わないし、対象となる構造化文書に対し最も有効と思われる前処理を随時選択するようにしても構わない。
【００６９】
選択的前処理手段722は、このようにしてある前処理によって得られたレイアウト解析に有効な取得情報とその結合関係を取得情報（レイアウト用）M03として、レイアウト解析に有効な付加情報とその結合関係を付加情報（レイアウト用）M04として、属性判定に有効な取得情報とその結合関係を取得情報（属性用）M08として、属性判定に有効な付加情報とその結合関係を付加情報（属性用）M09として、改変されたドキュメントソース情報M01を前処理済ソースM02として、それぞれ記憶装置129に格納する。ここで結合関係とは、取得された、あるいは付加された情報がどの部分に対するものかといった情報である。
【００７０】
つぎに第２の実施の形態と同様に属性判定を行ったあと（ステップS803〜S805）、試行する前処理の組み合わせがまだ残っているか判定する（ステップS806）。試行する前処理がまだ残っている場合、選択的前処理手段722は改めて記憶装置129より前処理される前のドキュメントソース情報M01を得て、それに対し選択した別の前処理を行い、以降情報抽出装置720は再度属性判定を行う。ただし、属性判定結果M10は上書きされず、毎回別個に記憶装置129に格納される。試行すべき前処理の組み合わせが残っている限り、選択的前処理手段722は再度別の前処理を選択して行い、情報抽出装置720は属性判定を繰り返す。
【００７１】
全ての前処理の組み合わせの試行が終わった場合、属性検査手段325はそれぞれの前処理毎に得られた属性判定の結果である属性判定結果M10を記憶装置129より得て、それを比較し、属性の検査を行う（ステップS807）。属性の検査の方法としては、ある構成要素に対し、それぞれ異なる前処理毎に得られた属性判定の結果を比較し、結果の多数決でその構成要素の属性を確定するという方法や、全て結果が一致した属性のみを確定するなどの方法があるが、他の方法でも構わない。属性検査手段726は、確定した属性を属性判定結果M10として記憶装置129に格納する。
【００７２】
最後に出力手段327は、第２の実施の形態と同様に、各構成要素に対応する内容と、確定された属性を提供する。
【００７３】
なお説明の都合上、試行すべき全ての前処理の組み合わせによる属性判定を行った後に属性検査を行っているが、属性判定毎に属性検査を行い、属性が十分確定したと判断されたら、そこで繰り返しを止めて、確定した属性を提供するようにしても構わない。
【００７４】
また選択的前処理手段722の前処理の試行の選択を本発明の第３の実施の形態に説明されたインクリメンタル前処理手段522と同様にインクリメンタルに選択するようにし、かつ属性判定毎に属性検査を行い、属性が十分確定したと判断されたら、すなわち多数決で規定数以上の同一の判定結果が得られたら、そこで繰り返しを止めて、確定した属性を提供するようにしても構わない。
【００７５】
（本形態の効果）
次に本実施の形態の効果について説明する。本実施の形態では第２の実施の形態で得られる効果に加え、複数回の属性判定を行い、各判定の結果を比較して属性を確定するため、より的確に属性の判定を行うことができる。
【００７６】
（発明の他の実施の形態）
本発明の第１の実施の形態、第２の実施の形態、第３の実施の形態および第４の実施の形態では、構造化文書データベース110は１つしか存在していないが、ネットワーク等によって分散した個所に複数存在していても構わない。また構造化文書データベース110は、物理的には分散しているが、論理的には単一のもであってもよい。またデータベースではなくファイルシステム等の形態をとっていても構わない。
【００７７】
また本発明の第１の実施の形態、第２の実施の形態、第３の実施の形態および第４の実施の形態では、入力手段130はシステムの利用者が取得する構造化文書を指定する手段を提供するが、この指定を別のプログラムで決定して構造化文書を取得するようにしても構わない。例えば、利用者が検索条件としてのキーワード群を入力して、インターネット上のWWWを検索し、その検索結果の上位の構造化文書を取得するといった方法がある。構造化文書データベース110がファイルシステムの形態をとっている場合、grepコマンドなどで対象を絞り、その結果の構造化文書を取得するといった方法も考えられる。
【００７８】
また本発明の第１の実施の形態、第２の実施の形態、第３の実施の形態および第４の実施の形態では、描画された画像データの領域とそれに対応するドキュメントソースの領域との対応関係情報をレンダリング手段123が取得したが、対応関係を取得する方法は他の方法を用いても構わない。例えば、前処理手段121において前処理をする際に、ドキュメントソースの各所にユニークな画像や文字情報をポインタとして埋め込んでおき、描画後の画像からポインタを示す画像や文字情報を画像認識や文字認識で認識し、その認識した画像上のポインタの位置とそのポインタが埋め込まれていたドキュメントソースの箇所とから、描画された画像データの領域とそれに対応するドキュメントソースの領域との対応関係を取得するようにしても良い。
【００７９】
また本発明の第１の実施の形態、第２の実施の形態、第３の実施の形態および第４の実施の形態における情報抽出装置120、320、520、720は、ハードウェアで実現できることは勿論のこと、図９に示すようにコンピュータ910上で実行される情報抽出用のプログラム920で実現することができる。コンピュータ910は、中央処理装置などの処理手段、主記憶などの記憶手段、キーボードなどの入力手段、ディスプレイなどの出力手段を備える。情報抽出用のプログラム920は、コンピュータ910を情報抽出装置として機能させるためのプログラムである。プログラム920はコンピュータ910によって直接、あるいはネットワークを介して読み取られ、コンピュータ910の動作を制御することで、コンピュータ910上に、図１に示した情報抽出装置120、図３に示した情報抽出装置320、図５に示した情報抽出装置520、図７に示した情報抽出装置720の各機能手段を実現する。
【００８０】
【第１の実施例】
本発明の第１の実施例を図面を参照して説明する。かかる実施例は本発明の第１の実施の形態に対応するものである。
【００８１】
（構成）
図１０は、本発明の第１の実施の形態による情報抽出装置の実施例の構成を示すブロック図である。図１０を参照すると、本実施例は、構造化文書データベースとしてWWW1010を、情報抽出装置としてコンピュータ1020を、コンピュータ1020を制御するプログラムとしてプログラム1030を備える。
【００８２】
プログラム1030は、コンピュータ1020に読み込まれ、コンピュータ1020上に情報抽出装置120を実現する。情報抽出装置120は、入力手段121、前処理手段122、レンダリング手段123、レイアウト解析手段124、出力手段127および記憶装置129を備える。
【００８３】
（動作の説明）
まずユーザはコンピュータ1020の入力装置を介して、入力手段121に取得すべきWWW上のウェブページのURLを与える。入力手段121はWWW1010にアクセスし、与えられたURLに相当するウェブページのHTMLソースを取得し、ドキュメントソース情報M01として記憶装置129に格納する。指定されたページは例えば図１１に示すようなページであるとし、そのHTMLソース、すなわちドキュメントソース情報M01の一部を図１２、図１３に示す。なお、図１３は図１２の続きの部分を示す。
【００８４】
前処理手段122は、記憶装置129よりドキュメントソース情報M01を得て、前処理を施し、前処理済ソースM02として記憶装置129に格納する。ここで図１４、図１５を参照して前処理について詳細に説明する。図１４、図１５は、図１２、図１３で示したHTMLソースに前処理を施したあとの前処理済ソースM02の例の一部を示した図である。なお、図１５は図１４の続きの部分を示す。
【００８５】
本実施例では、まずレイアウト解析方法に有効な情報として、例えばウェブページの背景色を取得する。これはHTMLの場合、BODYタグ内のbgcolor値から得られる（図１４の002行）。この取得した情報と結合関係、この場合、色情報とそれが背景色であるという情報を取得情報（レイアウト用）M03として記憶装置129に格納する。
【００８６】
さらにレイアウト解析しやすい画像になるように、例えば構成要素の間隔を広げ、各構成要素にユニークな背景色を定義し、さらに背景画像を非表示およびイメージ画像を単色表示にする。構成要素の間隔を広げるには、HTMLの場合、TABLEタグでレイアウトを定義しているので、TABLEタグ内のcellSpacing値とcellPadding値を変更する（図１４の004行ほか）。各構成要素に背景色を定義するには、TABLEタグ、および各セルを示すTDタグ内にbgcolor値を定義する（図１４の006行ほか）。これにより構成要素の領域の認識が容易になるが、さらにレイアウト用のTABLEタグのborder値を１以上に設定してテーブルを表示させ、矩形領域を明示させるようにしてもよい。背景画像を非表示にするには、BODYタグ内のbackground値を無効にする（図１４の002行他）。イメージ画像を単色表示にするには、IMGタグ内のsrc値を予め用意した単色イメージ画像へのパスに変更する（図１４の010行ほか）。
【００８７】
本実施例では単純に画像を単色イメージ画像に置き換えただけではレイアウトが崩れる恐れがあるので、画像のサイズがHTMLソース内で定義されているイメージ画像のみ置き換えているが、元の画像の大きさを調べ、その大きさを指定する値を付加する、または相当する大きさの画像を動的に生成してそれを用いる、あるいは元の画像にフィルタ処理をかけて単色化してそれを用いるなどの方法を用いても構わない。
【００８８】
これら付加した情報と、その結合関係を付加情報（レイアウト用）M04として記憶装置129に格納する。
【００８９】
レンダリング手段123は、記憶装置129より前処理済ソースM02を得て描画し、描画画像を画像データM05として記憶装置129に格納する。図１６は前処理を施されたHTMLソースを描画した例を示した図である。またレンダリング手段123は、描画された画像の特定の領域がドキュメントソースのどの部分を描画したのかという対応関係を取得する。各領域の座標等は、例えばHTMLレンダリングエンジンとしてMicrosoft社のInternet Explorerのレンダリングエンジンを用いた場合、内部情報から取得することが出来る。図１７は描画画像とドキュメントソースの対応関係の例を示した図である。この対応関係を対応関係情報M06として記憶装置129に格納する。
【００９０】
レイアウト解析手段124は、前処理手段122で取得したレイアウト解析方法に有効な情報を得て、記憶装置129に格納されている画像データに対し、画像処理を行うことでレイアウト解析を行う。図１８はレイアウト解析の結果の例を示す図である。図１８によると各構成要素が階層的に分割され、さらにUL（UpperLeft：上左隅座標）、LR（LowerRight：下右隅座標）などのレイアウト情報が求めれられている。ここで構成要素1610、1620、1630に分割する際、付加情報（レイアウト用）M04に格納された構成要素の背景色に基づき構成要素の領域を抽出し、取得情報（レイアウト用）M03に格納された構造化文書の背景色情報に基づき領域分割を行っている。さらに構成要素1621を抽出する際、付加情報（レイアウト用）M04に格納された構成要素の背景色に基づき、構成要素の領域を抽出している。レイアウト解析の結果はレイアウト解析情報M07として記憶装置129に格納する。
【００９１】
最後に出力手段127は、レイアウト解析情報M07から抽出された構成要素の情報を得て、各構成要素に対応する内容を抽出し提供する。例えば構成要素1621の場合、対応する内容は対応関係情報M06に基づき、図１７の内容1501と特定される。ただし内容1501は前処理手段122によりレイアウト解析に有効な情報を付加されているため、付加情報（レイアウト用）M04に基づき付加情報を除去する。内容1501は039行において「BGCOLOR="80FF80"」が付加されているので、これを除去した内容、すなわち図１２、図１３の039〜060行と同様の内容をコンピュータ1020のディスプレイなどに表示する。
【００９２】
【第２の実施例】
次に本発明の第２の実施例を図面を参照して説明する。かかる実施例は本発明の第２の実施の形態に対応するものである。
【００９３】
（構成）
図１９は、本発明の第２の実施の形態による情報抽出装置の実施例の構成を示すブロック図である。図１９を参照すると、本実施例は構造化文書データベースとしてWWW1010を、情報抽出装置としてコンピュータ1020を、コンピュータ1020を制御するプログラムとしてプログラム1730を備える。
【００９４】
プログラム1730は、コンピュータ1020に読み込まれ、コンピュータ1020上に情報抽出装置320を実現する。情報抽出装置320は、入力手段121、前処理手段322、レンダリング手段123、レイアウト解析手段124、属性判定手段325、出力手段327および記憶装置129を備える。
【００９５】
（動作の説明）
図１９の本実施例における入力手段121、レンダリング手段123、レイアウト解析手段124の動作は、第１の実施例の各手段121、123、124の動作と同一のため、説明は省略する。
【００９６】
前処理手段322は、記憶装置129よりドキュメントソース情報M01を得て、第１の実施例に示されたレイアウト解析に有効な情報の取得および付加に加え、属性判定に有効な情報の取得および付加を行い、前処理済ソースM02として記憶装置129に格納する。ここで図２０、図２１を参照して属性判定に有効な情報の取得および付加に関する前処理について詳細に説明する。図２０、図２１は、図１２、図１３で示したドキュメントソース情報M01に前処理を施した前処理済ソースM02の例の一部を示した図である。なお、図２１は図２０の続きの部分を示す。
【００９７】
本実施例では、まず属性判定に有効な情報として、例えばリンク要素がリスト構造となっている構成要素の存在情報、およびソース内にコメントとして記述された論理構造情報を取得する。前者については、HTMLの場合、本実施例ではまずAタグで囲まれた部分をリンク要素と認識し、他のリンク要素と近接演算を行い近距離にあるリンク要素を含めてリンク群要素とし、さらにリンク群要素がリストタグ、図２０、図２１の場合はULタグで囲まれている部分をリンク要素のリスト構造と認識する（図２０の042〜057行）。後者については、HTMLソース内でコメントタグ内のコメントに対し、本実施例では「Menu」「メニュー」「Start」「Begin」「ここから」など論理要素の記述に良く使われると思われる文字列を予め登録しておき、パターンマッチを行うことでコメントの内容を認識し、論理構造情報を取得する（図２０の040行ほか）。これら取得した情報とその結合関係を取得情報（属性用）M08として記憶装置129に格納する。
【００９８】
さらに属性判定しやすい画像になるように、例えば文字のサイズを認識し、必要なら強調する。もともと他のテキストより大きい文字サイズの部分は、一般的に重要な部分である可能性が高いので、より強調することで認識しやすくする。HTMLの場合、FONTタグ内のsize値を変更することで文字サイズを変更できる。本実施例ではsize値が+2以上のものを1.5倍の大きさに変更する（図２０の068行）。この付加した情報とその結合関係、この場合フォントサイズとそれが変更された場所の情報を付加情報（属性用）M09として記憶装置129に格納する。
【００９９】
属性判定手段325は、属性判定に有効な情報である取得情報（属性用）M08および付加情報（属性用）M09を併用し、レイアウト解析情報M07に基づき抽出された構成要素の属性判定を行う。
【０１００】
例えば、メニュー属性と判定する条件が、以下の7項目のうち該当項目のポイントを合計して9pts.以上であるとすると、図１８に示されるレイアウト解析の結果抽出された構成要素1621は、条件1,3,5,6の各項目に該当するため合計9pts.なので、メニュー属性と判定される。なお、この判定方法はあくまで例であり、これに限定するものではない。
1：画面の上下左右25％以下の位置にある（2pts.）
2：画面の上下左右15％以下の位置にある（2pts.）
3：リンクの集合（リスト）である（3pts.）
4：ページの背景色と異なる背景色である（2pts.）
5：文字が小さい（1pts.）
6：ドキュメントソースで「メニューここから」等とコメントされている（3pts.）
7：画面全体に占める面積が10％以下である（2pts.）
【０１０１】
このように判定された結果を属性判定結果M10として記憶装置129に格納する。
【０１０２】
最後に出力手段327は、レイアウト解析情報M07から抽出された構成要素の情報を得て、各構成要素に対応する内容と属性を抽出し提供する。例えば構成要素1621の場合、対応する内容は第１の実施例における出力手段127と同様であり、更に対応する属性、すなわち属性版的結果M10より得られる「メニュー属性」が提供される。
【０１０３】
【第３の実施例】
本発明の第３の実施例を図面を参照して説明する。かかる実施例は本発明の第３の実施の形態に対応するものである。
【０１０４】
（構成）
図２２は、本発明の第３の実施の形態による情報抽出装置の実施例の構成を示すブロック図である。図２２を参照すると、本実施例は、構造化文書データベースとしてWWW1010を、情報抽出装置としてコンピュータ1020を、コンピュータ1020を制御するプログラムとしてプログラム1930を備える。
【０１０５】
プログラム1930は、コンピュータ1020に読み込まれ、コンピュータ1020上に情報抽出装置520を実現する。情報抽出装置520は、入力手段121、インクリメンタル前処理手段522、レンダリング手段123、レイアウト解析手段124、属性判定手段325、出力手段327および記憶装置129を備える。
【０１０６】
（動作の説明）
図２２の本実施例における入力手段121、レンダリング手段123、レイアウト解析手段124、属性判定手段325、出力手段327の動作は、第２の実施例の各手段121、123、124、325、327の動作と同一のため、説明は省略する。
【０１０７】
インクリメンタル前処理手段522は、１周目は記憶装置129よりドキュメントソース情報M01を、２周目以降は前処理済ソースM02を得て、以降の処理に必要な情報を取得し、さらに以降の処理に有効な情報を付加するなどの前処理をインクリメンタルに行う。ここで行うべき前処理の順序を以下の通りとする。
１周目：構造化文書の背景色を取得、イメージ画像を単色表示
２周目：コメントされた論理構造情報を取得、背景画像を非表示
３周目：リンクのリスト構造の存在情報を取得、各構成要素にユニークな背景色を定義
４周目：構成要素の間隔を広げる、文字サイズを認識し強調
【０１０８】
図２３は上記順序でインクリメンタルに前処理を行なった場合の取得情報、付加情報、画像データの変化を示す図である。
【０１０９】
インクリメンタル前処理手段522は、こうしてインクリメンタルに行われた前処理によって得られたレイアウト解析に有効な取得情報とその結合関係を取得情報（レイアウト用）M03として、レイアウト解析に有効な付加情報とその結合関係を付加情報（レイアウト用）M04として、属性判定に有効な取得情報とその結合関係を取得情報（属性用）M08として、属性判定に有効な付加情報とその結合関係を付加情報（属性用）M09として、改変されたドキュメントソース情報M01を前処理済ソースM02として、それぞれ記憶装置129に格納する。
【０１１０】
以降レイアウト解析手段124で抽出された全ての構成要素、あるいはユーザが任意のタイミングで指定した構成要素に対し属性が判定されるまで、第２の実施例と同様に属性判定を繰り返す。
【０１１１】
ここで図１８に示されるレイアウト解析の結果抽出された構成要素1621に対する属性判定を例に、本実施例が第２の実施例より効率が良い場合を示す。なお、メニュー属性と判定する条件は、第２の実施例で示した例と同じく、下記の7項目のうち該当項目のポイントを合計して9pts.以上であるとする。
1：画面の上下左右25％以下の位置にある（2pts.）
2：画面の上下左右15％以下の位置にある（2pts.）
3：リンクの集合（リスト）である（3pts.）
4：ページの背景色と異なる背景色である（2pts.）
5：文字が小さい（1pts.）
6：ドキュメントソースで「メニューここから」等とコメントされている（3pts.）
7：画面全体に占める面積が10％以下である（2pts.）
【０１１２】
図２４は２週目と４週目における構成要素1621に対する抽出結果を示す図である。図２４を参照すると、２周目の段階で２周目抽出結果2102のようにレイアウト解析が成功すれば、条件1,2,6,7に該当し、合計9pts.となるので、３〜４週目を行わなくてもメニュー属性と判定できる。さらにここでメニュー属性と判定する条件の１つが、
1：画面の上下左右20％以下の位置にある（2pts.）
であった場合、むしろ３〜４周目を行ってしまうと、４周目抽出結果2104に示されるように、２周目抽出結果2102より大きく構成要素が抽出されてしまうため、条件1に該当せず、条件3,5,6のみに該当し、合計8pts.となるので、メニュー属性と判定されなくなってしまう。
【０１１３】
最終的に構成要素1621の属性が判定された場合、出力手段327は、第２の実施の形態と同様に対応する内容と属性を提供する。
【０１１４】
【第４の実施例】
本発明の第４の実施例を図面を参照して説明する。かかる実施例は本発明の第４の実施の形態に対応するものである。
【０１１５】
（構成）
図２５は、本発明の第３の実施の形態による情報抽出装置の実施例の構成を示すブロック図である。図２５を参照すると、本実施例は、構造化文書データベースとしてWWW1010を、情報抽出装置としてコンピュータ1020を、コンピュータ1020を制御するプログラムとしてプログラム2230を備える。
【０１１６】
プログラム2230はコンピュータ1020に読み込まれ、コンピュータ1020上に情報抽出装置720を実現する。情報抽出装置720は、入力手段121、選択的前処理手段722、レンダリング手段123、レイアウト解析手段124、属性判定手段325、属性調査手段726、出力手段327および記憶装置129を備える。
【０１１７】
（動作の説明）
図２５の本実施例における入力手段121、レンダリング手段123、レイアウト解析手段124、属性判定手段325、出力手段327の動作は、第２の実施例の各手段121、123、124、325、327の動作と同一のため、説明は省略する。
【０１１８】
選択的前処理手段722は、記憶装置129よりドキュメントソース情報M01を得て、以降の処理に必要な情報を取得し、さらに以降の処理に有効な情報を付加するなどの前処理を選択的に行う。ここで選択される前処理には以下のものがあるとする。
前処理１：構造化文書の背景色を取得
前処理２：構成要素の間隔を広げる
前処理３：各構成要素にユニークな背景色を定義
前処理４：イメージ画像を単色表示
前処理５：背景画像を非表示
前処理６：リンクのリスト構造の存在情報を取得
前処理７：コメントされた論理構造情報を取得
前処理８：文字サイズを認識し強調
【０１１９】
そして選択される前処理の組み合わせは以下の通りとする。
１組目：１，２，５，７
２組目：２，４，６，８
３組目：３，６，７，８
【０１２０】
図２６は上記組み合わせで選択的に前処理を行なった場合の取得情報、付加情報、画像データ、構成要素の抽出の変化を示す図である。
【０１２１】
ここで図１８に示されるレイアウト解析の結果抽出された構成要素1621に対する属性判定を例に、属性検査手段726の動作を説明する。なお、メニュー属性と判定する条件は、第２の実施例と同じく、以下の7項目のうち該当項目のポイントを合計して9pts.以上であるとする。
1：画面の上下左右25％以下の位置にある（2pts.）
2：画面の上下左右15％以下の位置にある（2pts.）
3：リンクの集合（リスト）である（3pts.）
4：ページの背景色と異なる背景色である（2pts.）
5：文字が小さい（1pts.）
6：ドキュメントソースで「メニューここから」等とコメントされている（3pts.）
7：画面全体に占める面積が10％以下である（2pts.）
【０１２２】
図２６を参照すると、１組目の描画画像2311は、構成要素を分割する背景の色情報が分かり、構成要素の間が十分開いて、背景に余計な画像がないため、十分レイアウト解析が可能で、かつ抽出された構成要素2312は十分小さいため、条件1,2,7に該当する。またリンクのリスト構造の存在情報を取得しているため条件3にも該当し、合計9pts.となるので、メニュー属性と判定できる。
【０１２３】
２組目の描画画像2321は、構成要素の間隔は広いが、背景画像がノイズとなり、そもそもレイアウト解析ができず、構成要素を抽出できないため、属性判定が成されない。
【０１２４】
３組目の描画画像2331は、背景画像はあるが、各構成要素にユニークな背景色が定義されているため、それを基にレイアウト解析が可能であり、抽出された構成要素2332は条件1に該当する。またリンクのリスト構造の存在情報およびコメントされた論理情報を取得し、文字サイズを認識しているため、条件3,5,6に該当し、合計9pts.となるので、メニュー属性と判定できる。
【０１２５】
従って多数決により構成要素1621はメニュー属性と判定される。
【０１２６】
最後に出力手段327は、第２の実施の形態と同様に対応する内容と属性を提供する。
【０１２７】
【発明の効果】
以上説明したように本発明によれば以下のような効果が得られる。
【０１２８】
構造化文書のドキュメントソースから構成要素やその属性を的確に抽出することができる。その理由は、複雑な構造化文書の場合、ドキュメントソースを直接解析して構成要素やその属性を抽出することは困難になってくるが、本発明ではドキュメントソースの構造化文書を一旦画像に変換して画像に対するレイアウト解析技術の適用を可能にし、その画像に対するレイアウト解析結果に基づいて構成要素やその属性を抽出しているためである。
【０１２９】
より精度良く、構造化文書のドキュメントソースから構成要素やその属性を抽出することができる。その理由は、レイアウト解析や属性判定が容易に行えるように構造化文書のドキュメントソースを改変してから画像情報を生成しているからである。また、レイアウト解析に有効な情報や属性の判定に有効な情報を構造化文書のドキュメントソースから抽出し、この抽出した情報を利用してレイアウト解析、属性の判定を行っているからである。
【図面の簡単な説明】
【図１】本発明の第１の実施の形態による情報抽出装置の構成を示すブロック図である。
【図２】本発明の第１の実施の形態による情報抽出装置の処理手順を示すフローチャートである。
【図３】本発明の第２の実施の形態による情報抽出装置の構成を示すブロック図である。
【図４】本発明の第２の実施の形態による情報抽出装置の処理手順を示すフローチャートである。
【図５】本発明の第３の実施の形態による情報抽出装置の構成を示すブロック図である。
【図６】本発明の第３の実施の形態による情報抽出装置の処理手順を示すフローチャートである。
【図７】本発明の第４の実施の形態による情報抽出装置の構成を示すブロック図である。
【図８】本発明の第４の実施の形態による情報抽出装置の処理手順を示すフローチャートである。
【図９】本発明情報抽出装置のハードウェア構成例を示すブロック図である。
【図１０】本発明の第１の実施の形態による情報抽出装置の実施例の構成を示すブロック図である。
【図１１】本発明の第１の実施の形態による情報抽出装置の実施例におけるWWW文書の例を示す図である。
【図１２】本発明の第１の実施の形態による情報抽出装置の実施例におけるWWW文書のHTMLソースの例を示す図である。
【図１３】本発明の第１の実施の形態による情報抽出装置の実施例におけるWWW文書のHTMLソースの例を示す図である。
【図１４】本発明の第１の実施の形態による情報抽出装置の実施例におけるWWW文書のHTMLソースに前処理を施した例を示す図である。
【図１５】本発明の第１の実施の形態による情報抽出装置の実施例におけるWWW文書のHTMLソースに前処理を施した例を示す図である。
【図１６】本発明の第１の実施の形態による情報抽出装置の実施例における前処理を施したHTMLソースを描画した例を示す図である。
【図１７】本発明の第１の実施の形態による情報抽出装置の実施例における対応関係の例を示す図である。
【図１８】本発明の第１の実施の形態による情報抽出装置の実施例におけるレイアウト解析の結果の例を示す図である。
【図１９】本発明の第２の実施の形態による情報抽出装置の実施例の構成を示すブロック図である。
【図２０】本発明の第２の実施の形態による情報抽出装置の実施例におけるWWW文書のHTMLソースに前処理を施した例を示す図である。
【図２１】本発明の第２の実施の形態による情報抽出装置の実施例におけるWWW文書のHTMLソースに前処理を施した例を示す図である。
【図２２】本発明の第３の実施の形態による情報抽出装置の実施例の構成を示すブロック図である。
【図２３】本発明の第３の実施の形態による情報抽出装置の実施例のおけるインクリメンタルな前処理による取得情報、付加情報、画像データの変化を示す図である。
【図２４】本発明の第３の実施の形態による情報抽出装置の実施例における構成要素1621に対する２周目と４周目の抽出結果を示す図である。
【図２５】本発明の第４の実施の形態による情報抽出装置の実施例の構成を示すブロック図である。
【図２６】本発明の第４の実施の形態による情報抽出装置の実施例のおける選択的な前処理による取得情報、付加情報、画像データ、構成要素抽出の変化を示す図である。
【符号の説明】
110…構造化文書データベース
120…情報抽出装置
121…入力手段
122…前処理手段
123…レンダリング手段
124…レイアウト解析手段
127…出力手段
129…記憶装置
320…情報抽出装置
322…前処理手段
325…属性判定手段
327…出力手段
520…情報抽出装置
522…インクリメンタル前処理手段
720…情報抽出装置
722…選択的前処理手段
726…属性検査手段
910…コンピュータ
920…プログラム
1010…WWW
1020…コンピュータ
1030…プログラム
1501…内容
1610…構成要素
1620…構成要素
1621…構成要素
1630…構成要素
1730…プログラム
1930…プログラム
2102…２周目抽出結果
2104…４周目抽出結果
2230…プログラム
2311…描画画像
2312…構成要素
2321…描画画像
2331…描画画像
2332…構成要素

Claims

コンピュータを用いて構造化文書のドキュメントソースから情報を抽出する方法であって、
前記コンピュータが、記憶装置に記憶された構造化文書のドキュメントソースに対して、レイアウト解析し易くするための改変として、構成要素間の幅の拡大、構成要素間へのシンボルの挿入、構成要素の配置を制御しているグリッドの表示、構成要素へのユニークな背景色の定義、背景色やイメージ画像の非表示化や単色化のうち、少なくとも一つの改変を行い、結果を記憶装置に書き込む前処理ステップと、
前記コンピュータが、記憶装置を参照して、前記構造化文書に定義されたレイアウト情報に従って前記改変された構造化文書のドキュメントソースを描画したときの画像情報を生成し、結果を記憶装置に書き込む画像情報生成ステップと、
前記コンピュータが、記憶装置を参照して、前記画像情報をレイアウト解析し、結果を記憶装置に記憶するレイアウト解析ステップと、
前記コンピュータが、記憶装置を参照して、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として出力する出力ステップとを含むことを特徴とする情報抽出方法。
コンピュータを用いて構造化文書のドキュメントソースから情報を抽出する方法であって、
前記コンピュータが、記憶装置に記憶された構造化文書に定義されたレイアウト情報に従って前記構造化文書のドキュメントソースを描画したときの画像情報を生成し、結果を記憶装置に記憶する画像情報生成ステップと、
前記コンピュータが、記憶装置を参照して、前記構造化文書のドキュメントソースからレイアウト解析に有効な情報として、構造化文書の背景色および構成要素の背景色のうち、少なくとも一つの情報を抽出し、結果を記憶装置に記憶する前処理ステップと、
前記コンピュータが、記憶装置を参照して、前記抽出された情報に基づいて領域分割して前記画像情報をレイアウト解析し、結果を記憶装置に記憶するレイアウト解析ステップと、
前記コンピュータが、記憶装置を参照して、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として出力する出力ステップとを含むことを特徴とする情報抽出方法。
コンピュータを用いて構造化文書のドキュメントソースから情報を抽出する方法であって、
前記コンピュータが、記憶装置に記憶された構造化文書のドキュメントソースに対して、レイアウト解析し易くするための改変として、構成要素間の幅の拡大、構成要素間へのシンボルの挿入、構成要素の配置を制御しているグリッドの表示、構成要素へのユニークな背景色の定義、背景色やイメージ画像の非表示化や単色化のうち、少なくとも一つの改変を行い、結果を記憶装置に記憶する前処理ステップと、
前記コンピュータが、記憶装置を参照して、前記構造化文書に定義されたレイアウト情報に従って前記改変された構造化文書のドキュメントソースを描画したときの画像情報を生成し、結果を記憶装置に記憶する画像情報生成ステップと、
前記コンピュータが、記憶装置を参照して、前記画像情報をレイアウト解析し、結果を記憶装置に記憶するレイアウト解析ステップと、
前記コンピュータが、記憶装置を参照して、前記レイアウト解析で得られた前記画像情報の構成要素の属性を判定し、結果を記憶する属性判定ステップと、
前記コンピュータが、記憶装置を参照して、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として前記判定された属性と共に出力する出力ステップとを含むことを特徴とする情報抽出方法。
コンピュータを用いて構造化文書のドキュメントソースから情報を抽出する方法であって、
前記コンピュータが、記憶装置に記憶された構造化文書に定義されたレイアウト情報に従って前記構造化文書のドキュメントソースを描画したときの画像情報を生成し、結果を記憶装置に記憶する画像情報生成ステップと、
前記コンピュータが、記憶装置を参照して、前記構造化文書のドキュメントソースからレイアウト解析に有効な情報として、構造化文書の背景色および構成要素の背景色のうち、少なくとも一つの情報を抽出し、結果を記憶装置に記憶する前処理ステップと、
前記コンピュータが、記憶装置を参照して、前記抽出された情報に基づいて領域分割して前記画像情報をレイアウト解析し、結果を記憶するレイアウト解析ステップと、
前記コンピュータが、記憶装置を参照して、前記レイアウト解析で得られた前記画像情報の構成要素の属性を判定し、結果を記憶装置に記憶する属性判定ステップと、
前記コンピュータが、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として前記判定された属性と共に出力する出力ステップとを含むことを特徴とする情報抽出方法。
コンピュータを用いて構造化文書のドキュメントソースから情報を抽出する方法であって、
前記コンピュータが、記憶装置に記憶された構造化文書のドキュメントソースに対して、属性判定し易くするための改変として、文字サイズの強調および重要単語のユニーク色による表示のうち、少なくとも一つの改変を行い、結果を記憶装置に記憶する前処理ステップと、
前記コンピュータが、記憶装置を参照して、前記構造化文書に定義されたレイアウト情報に従って前記改変された構造化文書のドキュメントソースを描画したときの画像情報を生成し、結果を記憶する画像情報生成ステップと、
前記コンピュータが、記憶装置を参照して、前記画像情報をレイアウト解析し、結果を記憶するレイアウト解析ステップと、
前記コンピュータが、記憶装置を参照して、前記レイアウト解析で得られた前記画像情報の構成要素の属性を判定し、結果を記憶する属性判定ステップと、
前記コンピュータが、記憶装置を参照して、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として前記判定された属性と共に出力する出力ステップとを含むことを特徴とする情報抽出方法。
コンピュータを用いて構造化文書のドキュメントソースから情報を抽出する方法であって、
前記コンピュータが、記憶装置に記憶された構造化文書に定義されたレイアウト情報に従って前記構造化文書のドキュメントソースを描画したときの画像情報を生成し、結果を記憶装置に記憶する画像情報生成ステップと、
前記コンピュータが、記憶装置を参照して、前記構造化文書のドキュメントソースから属性判定に有効な情報として、構成要素に含まれるリストがハイパーリンクのリストであるという情報、コメント情報および出現頻度が高い単語の情報のうち、少なくとも一つの情報を抽出し、結果を記憶装置に記憶する前処理ステップと、
前記コンピュータが、記憶装置を参照して、前記画像情報をレイアウト解析し、結果を記憶装置に記憶するレイアウト解析ステップと、
前記コンピュータが、記憶装置を参照して、前記抽出された情報とレイアウト解析の結果とから予め定められた各属性ごとの判定条件の適合度を計算して、前記レイアウト解析で得られた前記画像情報の構成要素の属性を判定し、結果を記憶装置に記憶する属性判定ステップと、
前記コンピュータが、記憶装置を参照して、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として前記判定された属性と共に出力する出力ステップとを含むことを特徴とする情報抽出方法。
コンピュータを用いて構造化文書のドキュメントソースから情報を抽出する方法であって、
前記コンピュータが、記憶装置に記憶された構造化文書のドキュメントソースに対して、レイアウト解析し易くするための改変として、構成要素間の幅の拡大、構成要素間へのシンボルの挿入、構成要素の配置を制御しているグリッドの表示、構成要素へのユニークな背景色の定義、背景色やイメージ画像の非表示化や単色化のうち、少なくとも一つの改変と、属性判定し易くするための改変として、文字サイズの強調および重要単語のユニーク色による表示のうち、少なくとも一つの改変とを行い、結果を記憶装置に記憶する前処理ステップと、
前記コンピュータが、記憶装置を参照して、前記構造化文書に定義されたレイアウト情報に従って前記改変された構造化文書のドキュメントソースを描画したときの画像情報を生成し、結果を記憶装置に記憶する画像情報生成ステップと、
前記コンピュータが、記憶装置を参照して、前記画像情報をレイアウト解析し、結果を記憶装置に記憶するレイアウト解析ステップと、
前記コンピュータが、記憶装置を参照して、前記レイアウト解析で得られた前記画像情報の構成要素の属性を判定し、結果を記憶装置に記憶する属性判定ステップと、
前記コンピュータが、記憶装置を参照して、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として前記判定された属性と共に出力する出力ステップとを含むことを特徴とする情報抽出方法。
前記コンピュータが、前記前処理ステップによる構造化文書のドキュメントソースの改変から前記属性判定ステップによる属性の判定までの処理を、求める全ての構成要素に対して属性が得られるまで、前回の改変内容に新たな改変内容を追加して繰り返すステップを含むことを特徴とする請求項７記載の情報抽出方法。
前記コンピュータが、前記前処理ステップによる構造化文書のドキュメントソースの改変から前記属性判定ステップによる属性の判定までの処理を、改変内容を毎回異ならせて複数回繰り返し、且つ、各回で得られた属性の判定結果から最終結果を求めるステップを含むことを特徴とする請求項７記載の情報抽出方法。
前記コンピュータが、出力する前記構造化文書の構成要素に、前記ドキュメントソースの改変部分が含まれる場合、改変前の状態に戻して出力することを特徴とする請求項１、５または７記載の情報抽出方法。
構造化文書のドキュメントソースに対して、レイアウト解析し易くするための改変として、構成要素間の幅の拡大、構成要素間へのシンボルの挿入、構成要素の配置を制御しているグリッドの表示、構成要素へのユニークな背景色の定義、背景色やイメージ画像の非表示化や単色化のうち、少なくとも一つの改変を行う前処理手段と、前記構造化文書に定義されたレイアウト情報に従って前記改変された構造化文書のドキュメントソースを描画したときの画像情報を生成する画像情報生成手段と、前記画像情報をレイアウト解析するレイアウト解析手段と、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として出力する出力手段とを含むことを特徴とする情報抽出装置。
構造化文書に定義されたレイアウト情報に従って前記構造化文書のドキュメントソースを描画したときの画像情報を生成する画像情報生成手段と、前記構造化文書のドキュメントソースからレイアウト解析に有効な情報として、構造化文書の背景色および構成要素の背景色のうち、少なくとも一つの情報を抽出する前処理手段と、前記抽出された情報に基づいて領域分割して前記画像情報をレイアウト解析するレイアウト解析手段と、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として出力する出力手段とを含むことを特徴とする情報抽出装置。
構造化文書のドキュメントソースに対して、レイアウト解析し易くするための改変として、構成要素間の幅の拡大、構成要素間へのシンボルの挿入、構成要素の配置を制御しているグリッドの表示、構成要素へのユニークな背景色の定義、背景色やイメージ画像の非表示化や単色化のうち、少なくとも一つの改変を行う前処理手段と、前記構造化文書に定義されたレイアウト情報に従って前記改変された構造化文書のドキュメントソースを描画したときの画像情報を生成する画像情報生成手段と、前記画像情報をレイアウト解析するレイアウト解析手段と、前記レイアウト解析で得られた前記画像情報の構成要素の属性を判定する属性判定手段と、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として前記判定された属性と共に出力する出力手段とを含むことを特徴とする情報抽出装置。
構造化文書に定義されたレイアウト情報に従って前記構造化文書のドキュメントソースを描画したときの画像情報を生成する画像情報生成手段と、前記構造化文書のドキュメントソースからレイアウト解析に有効な情報として、構造化文書の背景色および構成要素の背景色のうち、少なくとも一つの情報を抽出する前処理手段と、前記抽出された情報に基づいて領域分割して前記画像情報をレイアウト解析するレイアウト解析手段と、前記レイアウト解析で得られた前記画像情報の構成要素の属性を判定する属性判定手段と、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として前記判定された属性と共に出力する出力手段とを含むことを特徴とする情報抽出装置。
構造化文書のドキュメントソースに対して、属性判定し易くするための改変として、文字サイズの強調および重要単語のユニーク色による表示のうち、少なくとも一つの改変を行う前処理手段と、前記構造化文書に定義されたレイアウト情報に従って前記改変された構造化文書のドキュメントソースを描画したときの画像情報を生成する画像情報生成手段と、前記画像情報をレイアウト解析するレイアウト解析手段と、前記レイアウト解析で得られた前記画像情報の構成要素の属性を判定する属性判定手段と、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として前記判定された属性と共に出力する出力手段とを含むことを特徴とする情報抽出装置。
構造化文書に定義されたレイアウト情報に従って前記構造化文書のドキュメントソースを描画したときの画像情報を生成する画像情報生成手段と、前記構造化文書のドキュメントソースから属性判定に有効な情報として、構成要素に含まれるリストがハイパーリンクのリストであるという情報、コメント情報および出現頻度が高い単語の情報のうち、少なくとも一つの情報を抽出する前処理手段と、前記画像情報をレイアウト解析するレイアウト解析手段と、前記抽出された情報とレイアウト解析の結果とから予め定められた各属性ごとの判定条件の適合度を計算して、前記レイアウト解析で得られた前記画像情報の構成要素の属性を判定する属性判定手段と、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として前記判定された属性と共に出力する出力手段とを含むことを特徴とする情報抽出装置。
構造化文書のドキュメントソースに対して、レイアウト解析し易くするための改変として、構成要素間の幅の拡大、構成要素間へのシンボルの挿入、構成要素の配置を制御しているグリッドの表示、構成要素へのユニークな背景色の定義、背景色やイメージ画像の非表示化や単色化のうち、少なくとも一つの改変と、属性判定し易くするための改変として、文字サイズの強調および重要単語のユニーク色による表示のうち、少なくとも一つの改変とを行う前処理手段と、前記構造化文書に定義されたレイアウト情報に従って前記改変された構造化文書のドキュメントソースを描画したときの画像情報を生成する画像情報生成手段と、前記画像情報をレイアウト解析するレイアウト解析手段と、前記レイアウト解析で得られた前記画像情報の構成要素の属性を判定する属性判定手段と、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として前記判定された属性と共に出力する出力手段とを含むことを特徴とする情報抽出装置。
前記前処理手段による構造化文書のドキュメントソースの改変から前記属性判定手段による属性の判定までの処理を、求める全ての構成要素に対して属性が得られるまで、前回の改変内容に新たな改変内容を追加して繰り返すように構成されることを特徴とする請求項１７記載の情報抽出装置。
前記前処理手段による構造化文書のドキュメントソースの改変から前記属性判定手段による属性の判定までの処理を、改変内容を毎回異ならせて複数回繰り返すように構成され、且つ、各回で得られた属性の判定結果から最終結果を求める属性検査手段を備えることを特徴とする請求項１７記載の情報抽出装置。
前記出力手段は、出力する前記構造化文書の構成要素に、前記ドキュメントソースの改変部分が含まれる場合、改変前の状態に戻して出力するものであることを特徴とする請求項１１、１５または１７記載の情報抽出装置。
コンピュータを、構造化文書のドキュメントソースに対して、レイアウト解析し易くするための改変として、構成要素間の幅の拡大、構成要素間へのシンボルの挿入、構成要素の配置を制御しているグリッドの表示、構成要素へのユニークな背景色の定義、背景色やイメージ画像の非表示化や単色化のうち、少なくとも一つの改変を行う前処理手段、前記構造化文書に定義されたレイアウト情報に従って前記改変された構造化文書のドキュメントソースを描画したときの画像情報を生成する画像情報生成手段、前記画像情報をレイアウト解析するレイアウト解析手段、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として出力する出力手段、として機能させることを特徴とする情報抽出プログラム。
コンピュータを、構造化文書に定義されたレイアウト情報に従って前記構造化文書のドキュメントソースを描画したときの画像情報を生成する画像情報生成手段、前記構造化文書のドキュメントソースからレイアウト解析に有効な情報として、構造化文書の背景色および構成要素の背景色のうち、少なくとも一つの情報を抽出する前処理手段、前記抽出された情報に基づいて領域分割して前記画像情報をレイアウト解析するレイアウト解析手段、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として出力する出力手段、として機能させることを特徴とする情報抽出プログラム。
コンピュータを、構造化文書のドキュメントソースに対して、レイアウト解析し易くするための改変として、構成要素間の幅の拡大、構成要素間へのシンボルの挿入、構成要素の配置を制御しているグリッドの表示、構成要素へのユニークな背景色の定義、背景色やイメージ画像の非表示化や単色化のうち、少なくとも一つの改変を行う前処理手段、前記構造化文書に定義されたレイアウト情報に従って前記改変された構造化文書のドキュメントソースを描画したときの画像情報を生成する画像情報生成手段、前記画像情報をレイアウト解析するレイアウト解析手段、前記レイアウト解析で得られた前記画像情報の構成要素の属性を判定する属性判定手段、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として前記判定された属性と共に出力する出力手段、として機能させることを特徴とする情報抽出プログラム。
コンピュータを、構造化文書に定義されたレイアウト情報に従って前記構造化文書のドキュメントソースを描画したときの画像情報を生成する画像情報生成手段、前記構造化文書のドキュメントソースからレイアウト解析に有効な情報として、構造化文書の背景色および構成要素の背景色のうち、少なくとも一つの情報を抽出する前処理手段、前記抽出された情報に基づいて領域分割して前記画像情報をレイアウト解析するレイアウト解析手段、前記レイアウト解析で得られた前記画像情報の構成要素の属性を判定する属性判定手段、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として前記判定された属性と共に出力する出力手段、として機能させることを特徴とする情報抽出プログラム。
コンピュータを、構造化文書のドキュメントソースに対して、属性判定し易くするための改変として、文字サイズの強調および重要単語のユニーク色による表示のうち、少なくとも一つの改変を行う前処理手段、前記構造化文書に定義されたレイアウト情報に従って前記改変された構造化文書のドキュメントソースを描画したときの画像情報を生成する画像情報生成手段、前記画像情報をレイアウト解析するレイアウト解析手段、前記レイアウト解析で得られた前記画像情報の構成要素の属性を判定する属性判定手段、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として前記判定された属性と共に出力する出力手段、として機能させることを特徴とする情報抽出プログラム。
コンピュータを、構造化文書に定義されたレイアウト情報に従って前記構造化文書のドキュメントソースを描画したときの画像情報を生成する画像情報生成手段と、前記構造化文書のドキュメントソースから属性判定に有効な情報として、構成要素に含まれるリストがハイパーリンクのリストであるという情報、コメント情報および出現頻度が高い単語の情報のうち、少なくとも一つの情報を抽出する前処理手段と、前記画像情報をレイアウト解析するレイアウト解析手段と、前記抽出された情報とレイアウト解析の結果とから予め定められた各属性ごとの判定条件の適合度を計算して、前記レイアウト解析で得られた前記画像情報の構成要素の属性を判定する属性判定手段と、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として前記判定された属性と共に出力する出力手段、として機能させることを特徴とする情報抽出プログラム。
コンピュータを、構造化文書のドキュメントソースに対して、レイアウト解析し易くするための改変として、構成要素間の幅の拡大、構成要素間へのシンボルの挿入、構成要素の配置を制御しているグリッドの表示、構成要素へのユニークな背景色の定義、背景色やイメージ画像の非表示化や単色化のうち、少なくとも一つの改変と、属性判定し易くするための改変として、文字サイズの強調および重要単語のユニーク色による表示のうち、少なくとも一つの改変とを行う前処理手段、前記構造化文書に定義されたレイアウト情報に従って前記改変された構造化文書のドキュメントソースを描画したときの画像情報を生成する画像情報生成手段、前記画像情報をレイアウト解析するレイアウト解析手段、前記レイアウト解析で得られた前記画像情報の構成要素の属性を判定する属性判定手段、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として前記判定された属性と共に出力する出力手段、として機能させることを特徴とする情報抽出プログラム。
前記コンピュータを、前記前処理手段による構造化文書のドキュメントソースの改変から前記属性判定手段による属性の判定までの処理を、求める全ての構成要素に対して属性が得られるまで、前回の改変内容に新たな改変内容を追加して繰り返すように動作させることを特徴とする請求項２７記載の情報抽出プログラム。
前記コンピュータを、前記前処理手段による構造化文書のドキュメントソースの改変から前記属性判定手段による属性の判定までの処理を、改変内容を毎回異ならせて複数回繰り返すように動作させ、且つ、前記コンピュータを、更に、各回で得られた属性の判定結果から最終結果を求める属性検査手段として機能させることを特徴とする請求項２７記載の情報抽出プログラム。
前記出力手段は、出力する前記構造化文書の構成要素に、前記ドキュメントソースの改変部分が含まれる場合、改変前の状態に戻して出力するものであることを特徴とする請求項２１、２５または２７記載の情報抽出プログラム。