JP3941610B2 - 情報抽出方法、情報抽出装置および情報抽出プログラム - Google Patents

情報抽出方法、情報抽出装置および情報抽出プログラム Download PDF

Info

Publication number
JP3941610B2
JP3941610B2 JP2002198199A JP2002198199A JP3941610B2 JP 3941610 B2 JP3941610 B2 JP 3941610B2 JP 2002198199 A JP2002198199 A JP 2002198199A JP 2002198199 A JP2002198199 A JP 2002198199A JP 3941610 B2 JP3941610 B2 JP 3941610B2
Authority
JP
Japan
Prior art keywords
information
document
layout
image information
structured document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002198199A
Other languages
English (en)
Other versions
JP2004038827A (ja
Inventor
健一郎 藤山
勝志 松田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2002198199A priority Critical patent/JP3941610B2/ja
Publication of JP2004038827A publication Critical patent/JP2004038827A/ja
Application granted granted Critical
Publication of JP3941610B2 publication Critical patent/JP3941610B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は構造化文書のドキュメントソースから構成要素を抽出し、また構成要素の属性を判定する情報抽出方法および装置に関する。
【0002】
【従来の技術】
WWW(World Wide Web)におけるHTMLファイルなどに代表される構造化文書は、意味的、論理的、あるいは表現的なまとまりである構成要素からなる階層的な構造をもつ文書である。構成要素にはタイトル、主文、ナビゲーション用のメニュー、ヘッダ、フッタ、広告など、様々な属性がある。従って、構造化文書のドキュメントソースが与えられ、そのドキュメントソースで示される構造化文書に対して、構成要素単位で処理を行う場合、構造化文書のドキュメントソースから個々の構成要素を抽出する必要がある。また、個々の構成要素の属性に応じた処理を行いたい場合、例えば広告属性の構成要素を除去したブラウジングや、主文属性の構成要素のみをインデックス化した効率の良い検索エンジンなどを実現する場合は、ドキュメントソースから単に構成要素の内容を抽出するだけではなく、属性を判定し一緒に抽出する必要がある。
【0003】
構造化文書のドキュメントソースから個々の構成要素を抽出する場合、従来は、例えば特開2000-29902号公報に見られるように、ドキュメントソースを直接解析することで行っている。同様に、属性を判定して一緒に抽出する場合も、例えば特開平11-259500号公報に見れるように、ドキュメントソースをベースに行うのが一般的であった。
【0004】
他方、画像を解析してレイアウトの特徴を抽出する技術が、特開平11-328306号公報や、論文1:「拡張スプリット検出法による文書構造解析」(画像の認識・理解シンポジウム(MIRU'98)、平成10年7月)等に記載されている。また、画像を解析して構成要素の属性を判定する技術が、論文2:「矩形レイアウトモデルに基づく文書画像の領域識別」(電子情報通信学会技術研究報告 AI93-65,PRU93-82,
1993-11)等に記載されている。
【0005】
【発明が解決しようとする課題】
構成要素やその属性を抽出する対象の構造化文書がドキュメントソースで与えられた場合、従来はドキュメントソースを直接解析して、構成要素やその属性を抽出しているが、近年構造化文書のデザインは複雑化しており、画像とテーブルの複雑な組み合わせでレイアウトを実現しているため、ドキュメントソースレベルでは文章がばらばらに配置されていて、そのつながりを論理的に追跡できない場合が多く、充分な抽出精度を得ることができないという課題がある。
【0006】
他方、文書の画像から構成要素やその属性を抽出する各種の手法が知られているが、この画像ベースの抽出技術をドキュメントソースで与えられた構造化文書からの構成要素およびその属性の抽出に適用する考えは従来存在しなかった。また、現状の画像処理技術は、どのような画像であっても常に精度良くレイアウト解析や属性判定できるわけでないため、画像ベースの抽出技術をドキュメントソースで与えられた構造化文書からの構成要素およびその属性の抽出に適用する場合、領域分割等の画像処理がより精度良く行えるように工夫する必要がある。
【0007】
本発明の目的は、構造化文書のドキュメントソースから構成要素を的確に抽出することができる情報抽出方法及び装置を提供することにある。
【0008】
本発明の別の目的は、更に、抽出した構成要素の属性を的確に判定することができる情報抽出方法及び装置を提供することにある。
【0009】
【課題を解決するための手段】
本発明は、構成要素やその属性を抽出する対象の構造化文書がドキュメントソースで与えられた場合、それを一旦画像に変換することで、画像に対するレイアウト解析技術の適用を可能にし、その画像に対するレイアウト解析の結果に基づいて構成要素やその属性を抽出することを基本とする。具体的には、構成要素を抽出する構成にあっては、構造化文書に定義されたレイアウト情報に従って構造化文書のドキュメントソースを描画したときの画像情報を生成し、この画像情報をレイアウト解析し、このレイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を構造化文書の構成要素の内容として出力する。また、構成要素とその属性を抽出する構成にあっては、構造化文書に定義されたレイアウト情報に従って構造化文書のドキュメントソースを描画したときの画像情報を生成し、この画像情報をレイアウト解析し、このレイアウト解析で得られた前記画像情報の構成要素の属性を判定し、このレイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を構造化文書の構成要素の内容として前記判定された属性と共に出力する。ここで、構造化文書のドキュメントソースは、本来のドキュメントソースだけでなく、構造化文書がHTMLでレイアウトをスタイルシートで定義されている場合のスタイルシート等のように関連するドキュメントを含んでいても良い。また、レイアウト情報とは、フォントや色、文書表示時のレイアウトなどを指定する情報である。さらに、構造化文書に定義されたレイアウト情報とは、構造化文書中に記述されるレイアウト情報以外に前記スタイルシート等を用いて構造化文書の論理構造と分離して記述されるレイアウト情報の少なくとも一方を意味する。
【0010】
本発明においては、抽出対象となるドキュメントソースそのものから画像を生成するようにしても良いが、レイアウト解析や属性判定が容易に行えるように構造化文書のドキュメントソースを改変してから画像情報を生成するようにしても良い。抽出対象となる文書が直接画像で与えられた場合、このような改変は不可能に近いが、本発明は抽出対象となる構造化文書がドキュメントソースで与えられているため、そのドキュメントソースを解析して、レイアウト解析し易いように、また属性判定し易いようにドキュメントソースを改変することは、ドキュメントソースを直接解析して構成要素やその属性を抽出する処理に比べて遥かに簡単である。改変する対象は、主に、構造化文書に定義されたレイアウト情報であるが、文書の内容自体を改変するようにしても良い。どのようにドキュメントソースを改変するかは、レイアウト解析方法、属性判定方法に依存する。
【0011】
本発明においては、レイアウト解析に有効な情報や属性の判定に有効な情報を構造化文書のドキュメントソースから抽出し、この抽出した情報を利用してレイアウト解析、属性の判定を行うようにしても良い。抽出は、主に、構造化文書に定義されたレイアウト情報から行うが、文書の内容自体から抽出するようにしても良い。どのような情報をレイアウト解析や属性判定に有効な情報としてドキュメントソースから抽出するかは、レイアウト解析方法、属性判定方法に依存する。
【0012】
本発明においては、ドキュメントソースの前記改変は、予め予定した全ての改変を一度に実施するようにしても良いし、何回かに分けて実施することもできる。後者の場合、構造化文書のドキュメントソースの改変から属性の判定までの処理を、求める全ての構成要素に対して属性が得られるまで、前回の改変内容に新たな改変内容を追加して繰り返すようにしても良いし、構造化文書のドキュメントソースの改変から属性の判定までの処理を、改変内容を毎回異ならせて複数回繰り返し、各回で得られた属性の判定結果から最終結果を求めるようにしても良い。
【0013】
本発明においてドキュメントソースを改変したとき、出力する構造化文書の構成要素に、その改変部分が含まれる場合には、改変前の状態に戻して出力するようにしても良い。
【0014】
【発明の実施の形態】
(第1の実施の形態)
本発明の第1の実施の形態について図面を参照して詳細に説明する。図1は、本発明の第1の実施の形態による情報抽出装置の構成を示すブロック図である。
【0015】
(構成の説明)
図1を参照すると、本発明の第1の実施の形態は、構造化文書データベース110と、プログラム制御により動作する情報抽出装置120とを備える。
【0016】
情報抽出装置120は、構造化文書データベース110より構造化文書のドキュメントソースを得る入力手段121と、ドキュメントソースから必要情報を獲得し、さらに情報を付加する前処理手段122と、ドキュメントソースより構造化文書を描画するレンダリング手段123と、描画された画像のレイアウト解析を行うレイアウト解析手段124と、抽出した情報を提供する出力手段127と、入力されたドキュメントソースや処理の過程で生成された各種の情報を記憶する記憶装置129とを備える。
【0017】
(構成要素の関係)
入力手段121は、構造化文書データベース110より情報抽出の対象となる構造化文書のドキュメントソース等を得て、それをドキュメントソース情報M01として記憶装置129に格納する。
【0018】
前処理手段122は、記憶装置129よりドキュメントソース情報M01を得る。また、そのドキュメントソース情報M01からレイアウト解析の画像処理に有効な情報を取得し、さらに描画後の画像に対するレイアウト解析の画像処理を容易にするための情報を付加する。そして、前処理したドキュメントソース情報M01を前処理済ソースM02、取得した情報を取得情報(レイアウト用)M03、付加した情報を付加情報(レイアウト用)M04として、それぞれ記憶装置129に格納する。
【0019】
レンダリング手段123は、記憶装置129より前処理済ソースM02を得て、それを実際に描画したときの画像データを生成し、その画像データを画像データM05として記憶装置129に格納する。またレンダリング手段123は、描画された画像データの領域とそれに対応するドキュメントソースの領域との対応関係情報を取得し、対応関係情報M06として記憶装置129に格納する。
【0020】
レイアウト解析手段124は、記憶装置129に格納されている画像データM05に対し、取得情報(レイアウト用)M03、付加情報(レイアウト用)M04を利用して画像処理を行うことでレイアウト解析を行う。またレイアウト情報の結果をレイアウト解析情報M07として記憶装置129に格納する。
【0021】
出力手段127は、対応関係情報M06、レイアウト解析情報M07に基づき前処理済ソースM02より構成要素の内容を得て、さらに付加情報(レイアウト用)M04に基づき付加された情報を除去した内容を提供する。
【0022】
(動作の説明)
次に図2を参照して本実施の形態の動作について詳細に説明する。図2は、本発明の第1の実施の形態による情報抽出装置の処理手順を示すフローチャートである。
【0023】
まず入力手段121は、構造化文書データベース110より情報抽出の対象となる構造化文書のドキュメントソースを得て、ドキュメントソース情報M01として記憶装置129に格納する(ステップS201)。この際、必要であれば関連するドキュメントも格納される。例えば構造化文書を構成している画像データや、構造化文書がHTMLでレイアウトをスタイルシートで定義している場合、そのスタイルシート定義ファイル等も取得し、同様にドキュメントソース情報M01として記憶装置129に格納する。
【0024】
前処理手段122は、記憶装置129より関連ドキュメントを含むドキュメントソース情報M01を得て、以降の処理に必要な情報を獲得し、さらに以降の処理に有効な情報を付加するなどの前処理を行う(ステップS202)。
【0025】
具体的には前処理手段122は、以降の処理に必要な情報を獲得する処理として、ドキュメントソース情報M01からレイアウト解析手段124で用いられるレイアウト解析方法に有効な情報を取得する処理を行う。例えば、構造化文書の背景色を定義している部分から背景色を得る。構造化文書の背景色を定義している部分から背景色を得ることができれば、領域分割を行う際、取得した背景色による領域分割が容易になるからである。また、構成要素の背景色を定義している部分から背景色を得ることができれば、領域分割を行う際、背景色を利用して領域を確定するのが容易になるからである。なお、有効な情報はレイアウト解析手段124で用いられるレイアウト解析方法に依存するものであり、この例に限定するものではない。
【0026】
さらに前処理手段122は、以降の処理に有効な情報を付加する処理として、レンダリング手段123で描画される画像がレイアウト解析手段124で用いられるレイアウト解析方法にとって解析しやすい画像になるように、ドキュメントソース情報M01に情報を付加する処理を行う。この処理の例を以下に示す。なお、解析しやすい画像はレイアウト解析手段124で用いられる画像解析方法に依存するものであり、これらの例に限定するものではない。
【0027】
例1:構成要素と構成要素の間の幅を定義している部分をより間隔を広げるようにドキュメントソース情報M01を改変する。こうすれば、描画される画像の構成要素間の間隔も広がり、領域分割が容易になるからである。
例2:構成要素と構成要素の間になんらかのシンボルを挿入するようにドキュメントソース情報M01を改変する。こうすれば、描画される画像の領域間が明示的に示されるため、領域分割が容易になるからである。
例3:構成要素の配置を制御しているグリッドを表示するようにドキュメントソース情報M01を改変する。こうすれば、描画される画像の各構成要素を囲む矩形が表示されるため、矩形抽出が容易になるからである。
例4:構成要素にユニークな背景色を定義するようにドキュメントソース情報M01を改変する。こうすれば、描画される画像の各構成要素の領域がユニークな色で表示されるため、その色情報を用いて構成要素の領域を確定するのが容易になるからである。
例5:表示される背景画像やイメージ画像を非表示にしたり予め用意した単色イメージを表示したりするようにドキュメントソースを改変情報M01する。こうすれば、画像処理時のノイズを抑えることができるからである。
【0028】
前処理手段122は、このようにして得られたレイアウト解析に有効な情報とその結合関係を取得情報(レイアウト用)M03として、ドキュメントソースに付加された情報とその結合関係を付加情報(レイアウト用)M04として、そして改変されたドキュメントソース情報M01を前処理済ソースM02として、それぞれ記憶装置129に格納する。ここで結合関係とは、取得された、あるいは付加された情報がどの部分に対するものかといった情報である。
【0029】
レンダリング手段123は、記憶装置129より前処理済ソースM02を得て、実際に描画し、その画像データを画像データM05として記憶装置129に格納する(ステップS203)。ここで描画とは、表示装置に描画するのではなく、画像として計算機が認識できる形態に構成する処理である。レンダリング手段123の実現方法は構造化文書がどのような形式で表現されているかに依存するが、広く普及しているWWWブラウザの持つ機能であり、当業者には容易に実現可能である。またレンダリング手段123は、描画する際、実際に描画された座標を得ることで、描画された画像の特定の領域が前処理済ソースM02のどの部分を描画したのかという対応関係を取得し、対応関係情報M06として記憶装置129に格納する。
【0030】
レイアウト解析手段124は、記憶装置129に格納されている画像データM05に対し、画像処理を行うことでレイアウト解析を行う(ステップS204)。ここでレイアウト解析とは、画像データの中から、一纏まりの要素として見なせる部分をブロックとして領域分割を行い、構成要素を抽出し、さらに各構成要素の位置やサイズ、さらには包含関係などといったレイアウト情報を求めることである。この、レイアウト解析方法には公知の技術を用いることができる。画像処理的にレイアウトを解析する方法としては、例えば前記論文1:「拡張スプリット検出法による文書構造解析」(画像の認識・理解シンポジウム(MIRU'98)、平成10年7月)に記載の技術等がある。これは画像データを図、段組、文字行、文字、表枠線、下線等の要素領域に分割し、1つまたは複数個の要素領域をブロックとして構造化し、各ブロックの包含関係及び上下又は左右の配置関係に従って、ブロック間の配置構造を階層的に決定し、記憶する。
【0031】
なおレイアウト解析を行う際、用いられるレイアウト解析方法に有効な情報である取得情報(レイアウト用)M03および付加情報(レイアウト用)M04を記憶装置129より得て、その情報を併用してレイアウト解析を行う。例えばスプリット検出法では画像を二値化し、水平および垂直軸方向への投影パターンを用いる。ここで文字と背景の色が近い場合、上手く二値化できないので、前処理で文字と背景の色をコントラストが強くなるように改変してあれば、確実に二値化することができる。またセパレータ領域として空白領域を抽出する際も、背景色が予め分かっていれば、それと同じ色を検出することで容易に抽出できる。
【0032】
レイアウト解析手段124は、レイアウト解析の結果得られた構成要素とそのレイアウト情報をレイアウト解析情報M07として記憶装置129に格納する。
【0033】
最後に出力手段127は、抽出された構成要素の情報をレイアウト解析情報M07から得て、また各構成要素に対応する内容を前処理済ソースM02より得て、提供する(ステップS205)。ここで構成要素の内容とは、その構成要素を表現している前処理済ソースM02の領域であり、対応関係情報M06に基づき特定して抽出する。なお前処理済ソースM02から抽出された内容は、前処理手段122によりレイアウト解析に有効な情報が付加されているので、付加情報(レイアウト用)M04に基づき、付加された情報を除去する。これにより改変される前のドキュメントソース情報M01から内容を抽出する場合と同様の内容を得ることが出来る。
【0034】
(本実施の形態の効果)
次に本実施の形態の効果について説明する。本実施の形態ではドキュメントソースを一度描画してから、画像的に処理するため、様々な構造化文書から的確かつ汎用的にレイアウト情報を取得できる。また描画する際、ドキュメントソースの一部を改変して描画される画像にレイアウト解析に有効な情報を付加し、さらにドキュメントソースの情報を併用してレイアウト解析等を行うため、より一層的確に構成要素を分割、抽出できる。
【0035】
(第2の実施の形態)
本発明の第2の実施の形態について図面を参照して詳細に説明する。図3は、本発明の第2の実施の形態による情報抽出装置の構成を示すブロック図である。
【0036】
(構成の説明)
図3を参照すると、本発明の第2の実施の形態の構成は、情報抽出装置320が図1に示された前処理手段122および出力手段127のかわりに前処理手段322および出力手段317を備え、さらに属性判定手段325を備える点で異なる。
【0037】
(構成要素の関係)
前処理手段322は、記憶装置129よりドキュメントソース情報M01を得る。また、そのドキュメントソース情報M01からレイアウト解析および属性判定に有効な情報を取得し、さらに描画後の画像に対するレイアウト解析および属性判定を容易にするための情報を付加する。そして、前処理したドキュメントソース情報M01を前処理済ソースM02として、取得した情報のうちレイアウト解析に有効な情報を取得情報(レイアウト用)M03として、属性判定に有効な情報を取得情報(属性用)M08として、付加した情報のうちレイアウト解析に有効な情報を付加情報(レイアウト用)M04として、属性判定に有効な情報を付加情報(属性用)M09として、それぞれ記憶装置129に格納する。
【0038】
属性判定手段325は、記憶装置129よりレイアウト解析情報M07を得て、取得情報(属性用)M08および付加情報(属性用)M09をを併用して構成要素の属性を判定する。また判定結果を属性判定結果M10として記憶装置129に格納する。
【0039】
出力手段327は、対応関係情報M06、レイアウト解析情報M07に基づき前処理済ソースM02より構成要素の内容を得て、付加情報(レイアウト用)M04および付加情報(属性用)M09に基づき付加された情報を除去する。さらに属性判定結果M10より構成要素の属性を得て、内容と属性を提供する。
【0040】
(動作の説明)
次に図4を参照して本実施の形態の動作について詳細に説明する。図4は、本発明の第2の実施の形態による情報抽出装置の処理手順を示すフローチャートである。なお、図4のステップS401、ステップS403、ステップS404で示される本実施の形態における入力手段121、レンダリング手段123、レイアウト解析手段124の動作は、第1の実施の形態の各手段121、123、124の動作と同一のため、説明は省略する。
【0041】
前処理手段322は、記憶装置129よりドキュメントソース情報M01を得て、以降の処理に必要な情報を獲得し、さらに以降の処理に有効な情報を付加するなどの前処理を行う(ステップS402)。この際、第1の実施の形態に示されたレイアウト解析手段124で用いられるレイアウト解析方法に有効な情報の取得および付与に加え、属性判定手段325で用いられる属性判定方法に有効な情報の取得および付加を行う。
【0042】
すなわち前処理手段322は、ドキュメントソース情報M01から属性判定手段325における属性判定方法に有効な情報を取得する。取得する情報の例を以下に示す。なお有効な情報は属性判定手段325で用いられる属性判定方法に依存するものであり、この例に限定するものではない。
【0043】
例1:ある構成要素にリスト要素があり、リストの各アイテムがハイパーリンクであるという情報。
ナビゲーション用のメニューはハイパーリンクの集合であることが多いので、ある構成要素がハイパーリンクのリストなどであると分かれば、属性判定の際その構成要素がナビゲーション用メニューであると判定する有力な手がかりとなる。
例2:コメント情報。
ドキュメントソース情報M01ではコメントとして論理構造を明示している場合もあるので、その情報を得ることで属性判定を確実に行うことが出来る。
例3:重要な単語の含有率。
主文はその構造化文書における重要単語を多く含む可能性が高いので、例えば構成要素全体で出現頻度が高い単語を重要な単語とみなし、ある構成要素がその重要単語を多く含む文章であることが分かれば、属性判定の際その構成要素が主文であると判定する有力な手がかりとなる。
【0044】
さらに前処理手段322は、レンダリング手段123で描画される画像が属性判定手段325で用いられる属性判定方法にとって判定しやすい画像になるように、ドキュメントソース情報M01に情報を付加する。以下に幾つかの例を示す。なお、判定しやすい画像は属性判定手段325で用いられる属性判定方法に依存するものであり、この例に限定するものではない。
【0045】
例1:文字の大きさを定義している部分をより強調するように改変する。すなわち大きく定義されている文字はより大きく、小さく定義されている文字はより小さくするようにドキュメントソース情報M01を改変する。こうすれば、重要度を判定するのが容易になる。
例2:構造化文書の中で最も重要な単語をあるユニークな色でハイライト表示するようにドキュメントソース情報M01を改変する。こうすれば、その色の出現頻度で構成要素の重要度を判定するのが容易になる。
【0046】
前処理手段322は、このようにして得られた属性判定に有効な情報とその結合関係を取得情報(属性用)M08として、ドキュメントソース付加された属性判定に有効な情報とその結合関係を付加情報(属性用)M09として、それぞれ記憶装置129に格納する。さらに前処理手段322は、第1の実施の形態における前処理手段122と同様に、レイアウト解析に有効な取得情報とその結合関係を取得情報(レイアウト用)M03として、レイアウト解析に有効な付加情報とその結合関係を付加情報(レイアウト用)M04として、改変されたドキュメントソース情報M01を前処理済ソースM02として、それぞれ記憶装置129に格納する。ここで結合関係とは、取得された、あるいは付加された情報がどの部分に対するものかといった情報である。
【0047】
属性判定手段325は、記憶装置129よりレイアウト解析情報M07を得て、これを元に各構成要素の属性判定を行う(ステップS405)。ここで、属性判定とは、レイアウト情報より、タイトル、ヘッダ、フッタ、主文等といった各構成要素の属性を判定することである。この属性判定方法には公知の技術を用いることができる。属性判定の方法としては前記文献2:「矩形レイアウトモデルに基づく文書画像の領域識別」(電子情報通信学会技術研究報告 AI93-65,PRU93-82, 1993-11)に記載の技術等がある。これは文書見出しと本文の関係をグラフ形式で表現した矩形レイアウトモデルを生成し、グラフ間の距離の考え方を基にして矩形レイアウトモデル間の距離を定義し、文書見出しの領域識別を行う。
【0048】
なお属性判定を行う際、用いられる属性判定方法に有効な情報である取得情報(属性用)M08および付加情報(レイアウト用)M09を記憶装置129より得て、その情報を併用して属性判定を行う。例えば上記の公知手法では、見出しとは矩形レイアウトにおける相対的な安定状態を崩しているという仮定に基づいて見出し領域を識別する。したがってフォントサイズ等を変更することにより、さらに安定状態を乱して不安定領域として抽出しやすくできる。
【0049】
属性判定手段325は、属性判定の結果得られた属性情報を属性判定結果M10として記憶装置129に格納する。
【0050】
最後に出力手段327は、レイアウト解析情報M07から抽出された構成要素の情報を得て、各構成要素に対応する内容と属性をそれぞれ前処理済ソースM02および属性判定結果M10より得て、提供する(ステップS406)。ここで構成要素の内容とは、その構成要素を表現している前処理済ソースM02の領域であり、対応関係情報M06に基づき特定して抽出する。なお、前処理済ソースM02から抽出された内容は、前処理手段322によりレイアウト解析および属性判定に有効な情報が付加されているので、付加情報(レイアウト用)M04および付加情報(属性用)M09に基づき、付加された情報を除去する。これにより改変される前のドキュメントソース情報M01から内容を抽出する場合と同様の内容を得ることが出来る。
【0051】
(本形態の効果)
次に本実施の形態の効果について説明する。本実施の形態では第1の実施の形態で得られる効果に加え、レイアウト情報から構成要素の属性を判定するため、様々な構造化文書から的確かつ汎用的に構成要素の属性を判定し、内容と属性を抽出できる。
【0052】
(第3の実施の形態)
本発明の第3の実施の形態について図面を参照して詳細に説明する。図5は、本発明の第3の実施の形態による情報抽出装置の構成を示すブロック図である。
【0053】
(構成の説明)
図5を参照すると、本発明の第3の実施の形態の構成は、情報抽出装置520が図3に示された前処理手段322のかわりにインクリメンタル前処理手段522を備える点で異なる。
【0054】
(構成要素の関係)
インクリメンタル前処理手段522は、記憶装置129よりドキュメントソース情報M01を得る。そのドキュメントソース情報M01からレイアウト解析および属性判定に有効な情報の取得、および描画後の画像に対するレイアウト解析および属性判定を容易にするための情報の付加を、インクリメンタルに行う。ここでインクリメンタルとは、複数ある前処理を全て同時に行うのではなく、そのうちの選択された1つ以上の前処理を段階的に付加することを繰り返すという意味である。前処理したドキュメントソース情報M01を前処理済ソースM02として、取得した情報のうちレイアウト解析に有効な情報を取得情報(レイアウト用)M03として、属性判定に有効な情報を取得情報(属性用)M08として、付加した情報のうちレイアウト解析に有効な情報を付加情報(レイアウト用)M04として、属性判定に有効な情報を付加情報(属性用)M09として、それぞれ記憶装置129に格納する。
【0055】
(動作の説明)
次に図6を参照して本実施の形態の動作について詳細に説明する。図6は、本発明の第3の実施の形態による情報抽出装置の処理手順を示すフローチャートである。なお、図6のステップS601、ステップS603〜S605で示される本実施の形態における入力手段121、レンダリング手段123、レイアウト解析手段124、属性判定手段325、出力手段327の動作は、第2の実施の形態の各手段121、123、124、325、327の動作と同一のため、説明は省略する。
【0056】
インクリメンタル前処理手段522は、1回目は記憶装置129よりドキュメントソース情報M01を得て、以降の処理に必要な情報を獲得し、さらに以降の処理に有効な情報を付加するなどの前処理を行う(ステップS602)。ただし、第2の実施の形態のように全ての前処理を行うのではなく、複数ある前処理のうちの選択された1つ以上の前処理のみを行う。試行される前処理の選択の順序等は、常に固定でも構わないし、対象となる構造化文書に対し最も有効と思われる前処理を随時選択するようにしても構わない。
【0057】
インクリメンタル前処理手段522は、このようにしてある前処理によって得られたレイアウト解析に有効な取得情報とその結合関係を取得情報(レイアウト用)M03として、レイアウト解析に有効な付加情報とその結合関係を付加情報(レイアウト用)M04として、属性判定に有効な取得情報とその結合関係を取得情報(属性用)M08として、属性判定に有効な付加情報とその結合関係を付加情報(属性用)M09として、改変されたドキュメントソース情報M01を前処理済ソースM02として、それぞれ記憶装置129に格納する。ここで結合関係とは、取得された、あるいは付加された情報がどの部分に対するものかといった情報である。
【0058】
次に第2の実施の形態と同様に属性判定を行ったあと(ステップS603〜S605)、レイアウト解析手段124で抽出された全ての構成要素、あるいはユーザが任意のタイミングで指定した構成要素に対し属性が判定されたか否かを判定する(ステップS606)。属性が判定されていない構成要素がある場合、インクリメンタル前処理手段522は、記憶装置129から既に前処理を行った処理済ソースM02を得て、これに対し更に別の前処理をインクリメンタルに追加し、以降情報抽出装置520は再度属性判定を行う。
【0059】
レイアウト解析手段124で抽出された全ての構成要素、あるいはユーザが任意のタイミングで指定した構成要素の属性が判定されるまで、インクリメンタル前処理部522は前処理をインクリメンタルに追加し、情報抽出装置520は属性判定を繰り返す。
【0060】
レイアウト解析手段124で抽出された全ての構成要素、あるいはユーザが任意のタイミングで指定した構成要素の属性が判定された場合、出力手段327は、第2の実施の形態と同様に、各構成要素に対応する内容と属性を提供する(ステップS607)。
【0061】
なお説明の都合上、インクリメンタル前処理手段522のみをインクリメンタルに行ったが、属性判定手段325など他の手段をインクリメンタルに行っても構わない。
【0062】
(本形態の効果)
次に本実施の形態の効果について説明する。本実施の形態では第2の実施の形態で得られる効果に加え、属性判定等の動作をインクリメンタルに行うので、属性判定に必要な前処理のみを行え、かつ不必要な前処理によって描画される画像が過度に変化することはないため、無駄なく的確に属性の判定を行うことができる。
【0063】
(第4の実施の形態)
本発明の第4の実施の形態について図面を参照して詳細に説明する。図7は、本発明の第4の実施の形態による情報抽出装置の構成を示すブロック図である。
【0064】
(構成の説明)
図7を参照すると、本発明の第4の実施の形態の構成は、情報抽出装置720が図3に示された前処理手段321のかわりに選択的前処理手段722を備え、さらに属性検査手段726を備える点で異なる。
【0065】
(構成要素の関係)
選択的前処理手段722は、記憶装置129よりドキュメントソース情報M01を得る。そのドキュメントソース情報M01からレイアウト解析および属性判定に有効な情報の取得、および描画後の画像に対するレイアウト解析および属性判定を容易にするための情報の付加を、選択的に行う。ここで選択的とは、複数ある前処理を全て同時に行うのではなく、そのうちの選択された1つ以上の前処理のみを行うという意味である。選択的前処理手段722は、前処理したドキュメントソース情報M01を前処理済ソースM02として、取得した情報のうちレイアウト解析に有効な情報を取得情報(レイアウト用)M03として、属性判定に有効な情報を取得情報(属性用)M08として、付加した情報のうちレイアウト解析に有効な情報を付加情報(レイアウト用)M04として、属性判定に有効な情報を付加情報(属性用)M09として、それぞれ記憶装置129に格納する。
【0066】
属性検査手段726は、ある構成要素に対し属性判定手段325の複数回の試行で得られた属性判定結果M10を比較し、属性が正しく判定されているか否かのチェックを行い、正しいと判定した属性を確定された属性判定結果M10として記憶装置129に格納する。
【0067】
(動作の説明)
次に図8を参照して本実施の形態の動作について詳細に説明する。図8は、本発明の第4の実施の形態による情報抽出装置の処理手順を示すフローチャートである。なお、図8のステップS801、ステップS803〜S805で示される本実施の形態における入力手段121、レンダリング手段123、レイアウト解析手段124、属性判定手段325、出力手段327の動作は、第2の実施の形態の各手段121、123、124、325、327の動作と同一のため、説明は省略する。
【0068】
選択的前処理手段722は、記憶装置129よりドキュメントソース情報M01を得て、以降の処理に必要な情報を獲得し、さらに以降の処理に有効な情報を付加するなどの前処理を行う(ステップS802)。ただし、第2の実施の形態のように全ての前処理を行うのではなく、複数ある前処理のうちの選択された1つ以上の前処理のみを行う。試行される前処理の選択の順序等は、常に固定でも構わないし、対象となる構造化文書に対し最も有効と思われる前処理を随時選択するようにしても構わない。
【0069】
選択的前処理手段722は、このようにしてある前処理によって得られたレイアウト解析に有効な取得情報とその結合関係を取得情報(レイアウト用)M03として、レイアウト解析に有効な付加情報とその結合関係を付加情報(レイアウト用)M04として、属性判定に有効な取得情報とその結合関係を取得情報(属性用)M08として、属性判定に有効な付加情報とその結合関係を付加情報(属性用)M09として、改変されたドキュメントソース情報M01を前処理済ソースM02として、それぞれ記憶装置129に格納する。ここで結合関係とは、取得された、あるいは付加された情報がどの部分に対するものかといった情報である。
【0070】
つぎに第2の実施の形態と同様に属性判定を行ったあと(ステップS803〜S805)、試行する前処理の組み合わせがまだ残っているか判定する(ステップS806)。試行する前処理がまだ残っている場合、選択的前処理手段722は改めて記憶装置129より前処理される前のドキュメントソース情報M01を得て、それに対し選択した別の前処理を行い、以降情報抽出装置720は再度属性判定を行う。ただし、属性判定結果M10は上書きされず、毎回別個に記憶装置129に格納される。試行すべき前処理の組み合わせが残っている限り、選択的前処理手段722は再度別の前処理を選択して行い、情報抽出装置720は属性判定を繰り返す。
【0071】
全ての前処理の組み合わせの試行が終わった場合、属性検査手段325はそれぞれの前処理毎に得られた属性判定の結果である属性判定結果M10を記憶装置129より得て、それを比較し、属性の検査を行う(ステップS807)。属性の検査の方法としては、ある構成要素に対し、それぞれ異なる前処理毎に得られた属性判定の結果を比較し、結果の多数決でその構成要素の属性を確定するという方法や、全て結果が一致した属性のみを確定するなどの方法があるが、他の方法でも構わない。属性検査手段726は、確定した属性を属性判定結果M10として記憶装置129に格納する。
【0072】
最後に出力手段327は、第2の実施の形態と同様に、各構成要素に対応する内容と、確定された属性を提供する。
【0073】
なお説明の都合上、試行すべき全ての前処理の組み合わせによる属性判定を行った後に属性検査を行っているが、属性判定毎に属性検査を行い、属性が十分確定したと判断されたら、そこで繰り返しを止めて、確定した属性を提供するようにしても構わない。
【0074】
また選択的前処理手段722の前処理の試行の選択を本発明の第3の実施の形態に説明されたインクリメンタル前処理手段522と同様にインクリメンタルに選択するようにし、かつ属性判定毎に属性検査を行い、属性が十分確定したと判断されたら、すなわち多数決で規定数以上の同一の判定結果が得られたら、そこで繰り返しを止めて、確定した属性を提供するようにしても構わない。
【0075】
(本形態の効果)
次に本実施の形態の効果について説明する。本実施の形態では第2の実施の形態で得られる効果に加え、複数回の属性判定を行い、各判定の結果を比較して属性を確定するため、より的確に属性の判定を行うことができる。
【0076】
(発明の他の実施の形態)
本発明の第1の実施の形態、第2の実施の形態、第3の実施の形態および第4の実施の形態では、構造化文書データベース110は1つしか存在していないが、ネットワーク等によって分散した個所に複数存在していても構わない。また構造化文書データベース110は、物理的には分散しているが、論理的には単一のもであってもよい。またデータベースではなくファイルシステム等の形態をとっていても構わない。
【0077】
また本発明の第1の実施の形態、第2の実施の形態、第3の実施の形態および第4の実施の形態では、入力手段130はシステムの利用者が取得する構造化文書を指定する手段を提供するが、この指定を別のプログラムで決定して構造化文書を取得するようにしても構わない。例えば、利用者が検索条件としてのキーワード群を入力して、インターネット上のWWWを検索し、その検索結果の上位の構造化文書を取得するといった方法がある。構造化文書データベース110がファイルシステムの形態をとっている場合、grepコマンドなどで対象を絞り、その結果の構造化文書を取得するといった方法も考えられる。
【0078】
また本発明の第1の実施の形態、第2の実施の形態、第3の実施の形態および第4の実施の形態では、描画された画像データの領域とそれに対応するドキュメントソースの領域との対応関係情報をレンダリング手段123が取得したが、対応関係を取得する方法は他の方法を用いても構わない。例えば、前処理手段121において前処理をする際に、ドキュメントソースの各所にユニークな画像や文字情報をポインタとして埋め込んでおき、描画後の画像からポインタを示す画像や文字情報を画像認識や文字認識で認識し、その認識した画像上のポインタの位置とそのポインタが埋め込まれていたドキュメントソースの箇所とから、描画された画像データの領域とそれに対応するドキュメントソースの領域との対応関係を取得するようにしても良い。
【0079】
また本発明の第1の実施の形態、第2の実施の形態、第3の実施の形態および第4の実施の形態における情報抽出装置120、320、520、720は、ハードウェアで実現できることは勿論のこと、図9に示すようにコンピュータ910上で実行される情報抽出用のプログラム920で実現することができる。コンピュータ910は、中央処理装置などの処理手段、主記憶などの記憶手段、キーボードなどの入力手段、ディスプレイなどの出力手段を備える。情報抽出用のプログラム920は、コンピュータ910を情報抽出装置として機能させるためのプログラムである。プログラム920はコンピュータ910によって直接、あるいはネットワークを介して読み取られ、コンピュータ910の動作を制御することで、コンピュータ910上に、図1に示した情報抽出装置120、図3に示した情報抽出装置320、図5に示した情報抽出装置520、図7に示した情報抽出装置720の各機能手段を実現する。
【0080】
【第1の実施例】
本発明の第1の実施例を図面を参照して説明する。かかる実施例は本発明の第1の実施の形態に対応するものである。
【0081】
(構成)
図10は、本発明の第1の実施の形態による情報抽出装置の実施例の構成を示すブロック図である。図10を参照すると、本実施例は、構造化文書データベースとしてWWW1010を、情報抽出装置としてコンピュータ1020を、コンピュータ1020を制御するプログラムとしてプログラム1030を備える。
【0082】
プログラム1030は、コンピュータ1020に読み込まれ、コンピュータ1020上に情報抽出装置120を実現する。情報抽出装置120は、入力手段121、前処理手段122、レンダリング手段123、レイアウト解析手段124、出力手段127および記憶装置129を備える。
【0083】
(動作の説明)
まずユーザはコンピュータ1020の入力装置を介して、入力手段121に取得すべきWWW上のウェブページのURLを与える。入力手段121はWWW1010にアクセスし、与えられたURLに相当するウェブページのHTMLソースを取得し、ドキュメントソース情報M01として記憶装置129に格納する。指定されたページは例えば図11に示すようなページであるとし、そのHTMLソース、すなわちドキュメントソース情報M01の一部を図12、図13に示す。なお、図13は図12の続きの部分を示す。
【0084】
前処理手段122は、記憶装置129よりドキュメントソース情報M01を得て、前処理を施し、前処理済ソースM02として記憶装置129に格納する。ここで図14、図15を参照して前処理について詳細に説明する。図14、図15は、図12、図13で示したHTMLソースに前処理を施したあとの前処理済ソースM02の例の一部を示した図である。なお、図15は図14の続きの部分を示す。
【0085】
本実施例では、まずレイアウト解析方法に有効な情報として、例えばウェブページの背景色を取得する。これはHTMLの場合、BODYタグ内のbgcolor値から得られる(図14の002行)。この取得した情報と結合関係、この場合、色情報とそれが背景色であるという情報を取得情報(レイアウト用)M03として記憶装置129に格納する。
【0086】
さらにレイアウト解析しやすい画像になるように、例えば構成要素の間隔を広げ、各構成要素にユニークな背景色を定義し、さらに背景画像を非表示およびイメージ画像を単色表示にする。構成要素の間隔を広げるには、HTMLの場合、TABLEタグでレイアウトを定義しているので、TABLEタグ内のcellSpacing値とcellPadding値を変更する(図14の004行ほか)。各構成要素に背景色を定義するには、TABLEタグ、および各セルを示すTDタグ内にbgcolor値を定義する(図14の006行ほか)。これにより構成要素の領域の認識が容易になるが、さらにレイアウト用のTABLEタグのborder値を1以上に設定してテーブルを表示させ、矩形領域を明示させるようにしてもよい。背景画像を非表示にするには、BODYタグ内のbackground値を無効にする(図14の002行他)。イメージ画像を単色表示にするには、IMGタグ内のsrc値を予め用意した単色イメージ画像へのパスに変更する(図14の010行ほか)。
【0087】
本実施例では単純に画像を単色イメージ画像に置き換えただけではレイアウトが崩れる恐れがあるので、画像のサイズがHTMLソース内で定義されているイメージ画像のみ置き換えているが、元の画像の大きさを調べ、その大きさを指定する値を付加する、または相当する大きさの画像を動的に生成してそれを用いる、あるいは元の画像にフィルタ処理をかけて単色化してそれを用いるなどの方法を用いても構わない。
【0088】
これら付加した情報と、その結合関係を付加情報(レイアウト用)M04として記憶装置129に格納する。
【0089】
レンダリング手段123は、記憶装置129より前処理済ソースM02を得て描画し、描画画像を画像データM05として記憶装置129に格納する。図16は前処理を施されたHTMLソースを描画した例を示した図である。またレンダリング手段123は、描画された画像の特定の領域がドキュメントソースのどの部分を描画したのかという対応関係を取得する。各領域の座標等は、例えばHTMLレンダリングエンジンとしてMicrosoft社のInternet Explorerのレンダリングエンジンを用いた場合、内部情報から取得することが出来る。図17は描画画像とドキュメントソースの対応関係の例を示した図である。この対応関係を対応関係情報M06として記憶装置129に格納する。
【0090】
レイアウト解析手段124は、前処理手段122で取得したレイアウト解析方法に有効な情報を得て、記憶装置129に格納されている画像データに対し、画像処理を行うことでレイアウト解析を行う。図18はレイアウト解析の結果の例を示す図である。図18によると各構成要素が階層的に分割され、さらにUL(UpperLeft:上左隅座標)、LR(LowerRight:下右隅座標)などのレイアウト情報が求めれられている。ここで構成要素1610、1620、1630に分割する際、付加情報(レイアウト用)M04に格納された構成要素の背景色に基づき構成要素の領域を抽出し、取得情報(レイアウト用)M03に格納された構造化文書の背景色情報に基づき領域分割を行っている。さらに構成要素1621を抽出する際、付加情報(レイアウト用)M04に格納された構成要素の背景色に基づき、構成要素の領域を抽出している。レイアウト解析の結果はレイアウト解析情報M07として記憶装置129に格納する。
【0091】
最後に出力手段127は、レイアウト解析情報M07から抽出された構成要素の情報を得て、各構成要素に対応する内容を抽出し提供する。例えば構成要素1621の場合、対応する内容は対応関係情報M06に基づき、図17の内容1501と特定される。ただし内容1501は前処理手段122によりレイアウト解析に有効な情報を付加されているため、付加情報(レイアウト用)M04に基づき付加情報を除去する。内容1501は039行において「BGCOLOR="80FF80"」が付加されているので、これを除去した内容、すなわち図12、図13の039〜060行と同様の内容をコンピュータ1020のディスプレイなどに表示する。
【0092】
【第2の実施例】
次に本発明の第2の実施例を図面を参照して説明する。かかる実施例は本発明の第2の実施の形態に対応するものである。
【0093】
(構成)
図19は、本発明の第2の実施の形態による情報抽出装置の実施例の構成を示すブロック図である。図19を参照すると、本実施例は構造化文書データベースとしてWWW1010を、情報抽出装置としてコンピュータ1020を、コンピュータ1020を制御するプログラムとしてプログラム1730を備える。
【0094】
プログラム1730は、コンピュータ1020に読み込まれ、コンピュータ1020上に情報抽出装置320を実現する。情報抽出装置320は、入力手段121、前処理手段322、レンダリング手段123、レイアウト解析手段124、属性判定手段325、出力手段327および記憶装置129を備える。
【0095】
(動作の説明)
図19の本実施例における入力手段121、レンダリング手段123、レイアウト解析手段124の動作は、第1の実施例の各手段121、123、124の動作と同一のため、説明は省略する。
【0096】
前処理手段322は、記憶装置129よりドキュメントソース情報M01を得て、第1の実施例に示されたレイアウト解析に有効な情報の取得および付加に加え、属性判定に有効な情報の取得および付加を行い、前処理済ソースM02として記憶装置129に格納する。ここで図20、図21を参照して属性判定に有効な情報の取得および付加に関する前処理について詳細に説明する。図20、図21は、図12、図13で示したドキュメントソース情報M01に前処理を施した前処理済ソースM02の例の一部を示した図である。なお、図21は図20の続きの部分を示す。
【0097】
本実施例では、まず属性判定に有効な情報として、例えばリンク要素がリスト構造となっている構成要素の存在情報、およびソース内にコメントとして記述された論理構造情報を取得する。前者については、HTMLの場合、本実施例ではまずAタグで囲まれた部分をリンク要素と認識し、他のリンク要素と近接演算を行い近距離にあるリンク要素を含めてリンク群要素とし、さらにリンク群要素がリストタグ、図20、図21の場合はULタグで囲まれている部分をリンク要素のリスト構造と認識する(図20の042〜057行)。後者については、HTMLソース内でコメントタグ内のコメントに対し、本実施例では「Menu」「メニュー」「Start」「Begin」「ここから」など論理要素の記述に良く使われると思われる文字列を予め登録しておき、パターンマッチを行うことでコメントの内容を認識し、論理構造情報を取得する(図20の040行ほか)。これら取得した情報とその結合関係を取得情報(属性用)M08として記憶装置129に格納する。
【0098】
さらに属性判定しやすい画像になるように、例えば文字のサイズを認識し、必要なら強調する。もともと他のテキストより大きい文字サイズの部分は、一般的に重要な部分である可能性が高いので、より強調することで認識しやすくする。HTMLの場合、FONTタグ内のsize値を変更することで文字サイズを変更できる。本実施例ではsize値が+2以上のものを1.5倍の大きさに変更する(図20の068行)。この付加した情報とその結合関係、この場合フォントサイズとそれが変更された場所の情報を付加情報(属性用)M09として記憶装置129に格納する。
【0099】
属性判定手段325は、属性判定に有効な情報である取得情報(属性用)M08および付加情報(属性用)M09を併用し、レイアウト解析情報M07に基づき抽出された構成要素の属性判定を行う。
【0100】
例えば、メニュー属性と判定する条件が、以下の7項目のうち該当項目のポイントを合計して9pts.以上であるとすると、図18に示されるレイアウト解析の結果抽出された構成要素1621は、条件1,3,5,6の各項目に該当するため合計9pts.なので、メニュー属性と判定される。なお、この判定方法はあくまで例であり、これに限定するものではない。
1:画面の上下左右25%以下の位置にある(2pts.)
2:画面の上下左右15%以下の位置にある(2pts.)
3:リンクの集合(リスト)である(3pts.)
4:ページの背景色と異なる背景色である(2pts.)
5:文字が小さい(1pts.)
6:ドキュメントソースで「メニューここから」等とコメントされている(3pts.)
7:画面全体に占める面積が10%以下である(2pts.)
【0101】
このように判定された結果を属性判定結果M10として記憶装置129に格納する。
【0102】
最後に出力手段327は、レイアウト解析情報M07から抽出された構成要素の情報を得て、各構成要素に対応する内容と属性を抽出し提供する。例えば構成要素1621の場合、対応する内容は第1の実施例における出力手段127と同様であり、更に対応する属性、すなわち属性版的結果M10より得られる「メニュー属性」が提供される。
【0103】
【第3の実施例】
本発明の第3の実施例を図面を参照して説明する。かかる実施例は本発明の第3の実施の形態に対応するものである。
【0104】
(構成)
図22は、本発明の第3の実施の形態による情報抽出装置の実施例の構成を示すブロック図である。図22を参照すると、本実施例は、構造化文書データベースとしてWWW1010を、情報抽出装置としてコンピュータ1020を、コンピュータ1020を制御するプログラムとしてプログラム1930を備える。
【0105】
プログラム1930は、コンピュータ1020に読み込まれ、コンピュータ1020上に情報抽出装置520を実現する。情報抽出装置520は、入力手段121、インクリメンタル前処理手段522、レンダリング手段123、レイアウト解析手段124、属性判定手段325、出力手段327および記憶装置129を備える。
【0106】
(動作の説明)
図22の本実施例における入力手段121、レンダリング手段123、レイアウト解析手段124、属性判定手段325、出力手段327の動作は、第2の実施例の各手段121、123、124、325、327の動作と同一のため、説明は省略する。
【0107】
インクリメンタル前処理手段522は、1周目は記憶装置129よりドキュメントソース情報M01を、2周目以降は前処理済ソースM02を得て、以降の処理に必要な情報を取得し、さらに以降の処理に有効な情報を付加するなどの前処理をインクリメンタルに行う。ここで行うべき前処理の順序を以下の通りとする。
1周目:構造化文書の背景色を取得、イメージ画像を単色表示
2周目:コメントされた論理構造情報を取得、背景画像を非表示
3周目:リンクのリスト構造の存在情報を取得、各構成要素にユニークな背景色を定義
4周目:構成要素の間隔を広げる、文字サイズを認識し強調
【0108】
図23は上記順序でインクリメンタルに前処理を行なった場合の取得情報、付加情報、画像データの変化を示す図である。
【0109】
インクリメンタル前処理手段522は、こうしてインクリメンタルに行われた前処理によって得られたレイアウト解析に有効な取得情報とその結合関係を取得情報(レイアウト用)M03として、レイアウト解析に有効な付加情報とその結合関係を付加情報(レイアウト用)M04として、属性判定に有効な取得情報とその結合関係を取得情報(属性用)M08として、属性判定に有効な付加情報とその結合関係を付加情報(属性用)M09として、改変されたドキュメントソース情報M01を前処理済ソースM02として、それぞれ記憶装置129に格納する。
【0110】
以降レイアウト解析手段124で抽出された全ての構成要素、あるいはユーザが任意のタイミングで指定した構成要素に対し属性が判定されるまで、第2の実施例と同様に属性判定を繰り返す。
【0111】
ここで図18に示されるレイアウト解析の結果抽出された構成要素1621に対する属性判定を例に、本実施例が第2の実施例より効率が良い場合を示す。なお、メニュー属性と判定する条件は、第2の実施例で示した例と同じく、下記の7項目のうち該当項目のポイントを合計して9pts.以上であるとする。
1:画面の上下左右25%以下の位置にある(2pts.)
2:画面の上下左右15%以下の位置にある(2pts.)
3:リンクの集合(リスト)である(3pts.)
4:ページの背景色と異なる背景色である(2pts.)
5:文字が小さい(1pts.)
6:ドキュメントソースで「メニューここから」等とコメントされている(3pts.)
7:画面全体に占める面積が10%以下である(2pts.)
【0112】
図24は2週目と4週目における構成要素1621に対する抽出結果を示す図である。図24を参照すると、2周目の段階で2周目抽出結果2102のようにレイアウト解析が成功すれば、条件1,2,6,7に該当し、合計9pts.となるので、3〜4週目を行わなくてもメニュー属性と判定できる。さらにここでメニュー属性と判定する条件の1つが、
1:画面の上下左右20%以下の位置にある(2pts.)
であった場合、むしろ3〜4周目を行ってしまうと、4周目抽出結果2104に示されるように、2周目抽出結果2102より大きく構成要素が抽出されてしまうため、条件1に該当せず、条件3,5,6のみに該当し、合計8pts.となるので、メニュー属性と判定されなくなってしまう。
【0113】
最終的に構成要素1621の属性が判定された場合、出力手段327は、第2の実施の形態と同様に対応する内容と属性を提供する。
【0114】
【第4の実施例】
本発明の第4の実施例を図面を参照して説明する。かかる実施例は本発明の第4の実施の形態に対応するものである。
【0115】
(構成)
図25は、本発明の第3の実施の形態による情報抽出装置の実施例の構成を示すブロック図である。図25を参照すると、本実施例は、構造化文書データベースとしてWWW1010を、情報抽出装置としてコンピュータ1020を、コンピュータ1020を制御するプログラムとしてプログラム2230を備える。
【0116】
プログラム2230はコンピュータ1020に読み込まれ、コンピュータ1020上に情報抽出装置720を実現する。情報抽出装置720は、入力手段121、選択的前処理手段722、レンダリング手段123、レイアウト解析手段124、属性判定手段325、属性調査手段726、出力手段327および記憶装置129を備える。
【0117】
(動作の説明)
図25の本実施例における入力手段121、レンダリング手段123、レイアウト解析手段124、属性判定手段325、出力手段327の動作は、第2の実施例の各手段121、123、124、325、327の動作と同一のため、説明は省略する。
【0118】
選択的前処理手段722は、記憶装置129よりドキュメントソース情報M01を得て、以降の処理に必要な情報を取得し、さらに以降の処理に有効な情報を付加するなどの前処理を選択的に行う。ここで選択される前処理には以下のものがあるとする。
前処理1:構造化文書の背景色を取得
前処理2:構成要素の間隔を広げる
前処理3:各構成要素にユニークな背景色を定義
前処理4:イメージ画像を単色表示
前処理5:背景画像を非表示
前処理6:リンクのリスト構造の存在情報を取得
前処理7:コメントされた論理構造情報を取得
前処理8:文字サイズを認識し強調
【0119】
そして選択される前処理の組み合わせは以下の通りとする。
1組目:1,2,5,7
2組目:2,4,6,8
3組目:3,6,7,8
【0120】
図26は上記組み合わせで選択的に前処理を行なった場合の取得情報、付加情報、画像データ、構成要素の抽出の変化を示す図である。
【0121】
ここで図18に示されるレイアウト解析の結果抽出された構成要素1621に対する属性判定を例に、属性検査手段726の動作を説明する。なお、メニュー属性と判定する条件は、第2の実施例と同じく、以下の7項目のうち該当項目のポイントを合計して9pts.以上であるとする。
1:画面の上下左右25%以下の位置にある(2pts.)
2:画面の上下左右15%以下の位置にある(2pts.)
3:リンクの集合(リスト)である(3pts.)
4:ページの背景色と異なる背景色である(2pts.)
5:文字が小さい(1pts.)
6:ドキュメントソースで「メニューここから」等とコメントされている(3pts.)
7:画面全体に占める面積が10%以下である(2pts.)
【0122】
図26を参照すると、1組目の描画画像2311は、構成要素を分割する背景の色情報が分かり、構成要素の間が十分開いて、背景に余計な画像がないため、十分レイアウト解析が可能で、かつ抽出された構成要素2312は十分小さいため、条件1,2,7に該当する。またリンクのリスト構造の存在情報を取得しているため条件3にも該当し、合計9pts.となるので、メニュー属性と判定できる。
【0123】
2組目の描画画像2321は、構成要素の間隔は広いが、背景画像がノイズとなり、そもそもレイアウト解析ができず、構成要素を抽出できないため、属性判定が成されない。
【0124】
3組目の描画画像2331は、背景画像はあるが、各構成要素にユニークな背景色が定義されているため、それを基にレイアウト解析が可能であり、抽出された構成要素2332は条件1に該当する。またリンクのリスト構造の存在情報およびコメントされた論理情報を取得し、文字サイズを認識しているため、条件3,5,6に該当し、合計9pts.となるので、メニュー属性と判定できる。
【0125】
従って多数決により構成要素1621はメニュー属性と判定される。
【0126】
最後に出力手段327は、第2の実施の形態と同様に対応する内容と属性を提供する。
【0127】
【発明の効果】
以上説明したように本発明によれば以下のような効果が得られる。
【0128】
構造化文書のドキュメントソースから構成要素やその属性を的確に抽出することができる。その理由は、複雑な構造化文書の場合、ドキュメントソースを直接解析して構成要素やその属性を抽出することは困難になってくるが、本発明ではドキュメントソースの構造化文書を一旦画像に変換して画像に対するレイアウト解析技術の適用を可能にし、その画像に対するレイアウト解析結果に基づいて構成要素やその属性を抽出しているためである。
【0129】
より精度良く、構造化文書のドキュメントソースから構成要素やその属性を抽出することができる。その理由は、レイアウト解析や属性判定が容易に行えるように構造化文書のドキュメントソースを改変してから画像情報を生成しているからである。また、レイアウト解析に有効な情報や属性の判定に有効な情報を構造化文書のドキュメントソースから抽出し、この抽出した情報を利用してレイアウト解析、属性の判定を行っているからである。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態による情報抽出装置の構成を示すブロック図である。
【図2】本発明の第1の実施の形態による情報抽出装置の処理手順を示すフローチャートである。
【図3】本発明の第2の実施の形態による情報抽出装置の構成を示すブロック図である。
【図4】本発明の第2の実施の形態による情報抽出装置の処理手順を示すフローチャートである。
【図5】本発明の第3の実施の形態による情報抽出装置の構成を示すブロック図である。
【図6】本発明の第3の実施の形態による情報抽出装置の処理手順を示すフローチャートである。
【図7】本発明の第4の実施の形態による情報抽出装置の構成を示すブロック図である。
【図8】本発明の第4の実施の形態による情報抽出装置の処理手順を示すフローチャートである。
【図9】本発明情報抽出装置のハードウェア構成例を示すブロック図である。
【図10】本発明の第1の実施の形態による情報抽出装置の実施例の構成を示すブロック図である。
【図11】本発明の第1の実施の形態による情報抽出装置の実施例におけるWWW文書の例を示す図である。
【図12】本発明の第1の実施の形態による情報抽出装置の実施例におけるWWW文書のHTMLソースの例を示す図である。
【図13】本発明の第1の実施の形態による情報抽出装置の実施例におけるWWW文書のHTMLソースの例を示す図である。
【図14】本発明の第1の実施の形態による情報抽出装置の実施例におけるWWW文書のHTMLソースに前処理を施した例を示す図である。
【図15】本発明の第1の実施の形態による情報抽出装置の実施例におけるWWW文書のHTMLソースに前処理を施した例を示す図である。
【図16】本発明の第1の実施の形態による情報抽出装置の実施例における前処理を施したHTMLソースを描画した例を示す図である。
【図17】本発明の第1の実施の形態による情報抽出装置の実施例における対応関係の例を示す図である。
【図18】本発明の第1の実施の形態による情報抽出装置の実施例におけるレイアウト解析の結果の例を示す図である。
【図19】本発明の第2の実施の形態による情報抽出装置の実施例の構成を示すブロック図である。
【図20】本発明の第2の実施の形態による情報抽出装置の実施例におけるWWW文書のHTMLソースに前処理を施した例を示す図である。
【図21】本発明の第2の実施の形態による情報抽出装置の実施例におけるWWW文書のHTMLソースに前処理を施した例を示す図である。
【図22】本発明の第3の実施の形態による情報抽出装置の実施例の構成を示すブロック図である。
【図23】本発明の第3の実施の形態による情報抽出装置の実施例のおけるインクリメンタルな前処理による取得情報、付加情報、画像データの変化を示す図である。
【図24】本発明の第3の実施の形態による情報抽出装置の実施例における構成要素1621に対する2周目と4周目の抽出結果を示す図である。
【図25】本発明の第4の実施の形態による情報抽出装置の実施例の構成を示すブロック図である。
【図26】本発明の第4の実施の形態による情報抽出装置の実施例のおける選択的な前処理による取得情報、付加情報、画像データ、構成要素抽出の変化を示す図である。
【符号の説明】
110…構造化文書データベース
120…情報抽出装置
121…入力手段
122…前処理手段
123…レンダリング手段
124…レイアウト解析手段
127…出力手段
129…記憶装置
320…情報抽出装置
322…前処理手段
325…属性判定手段
327…出力手段
520…情報抽出装置
522…インクリメンタル前処理手段
720…情報抽出装置
722…選択的前処理手段
726…属性検査手段
910…コンピュータ
920…プログラム
1010…WWW
1020…コンピュータ
1030…プログラム
1501…内容
1610…構成要素
1620…構成要素
1621…構成要素
1630…構成要素
1730…プログラム
1930…プログラム
2102…2周目抽出結果
2104…4周目抽出結果
2230…プログラム
2311…描画画像
2312…構成要素
2321…描画画像
2331…描画画像
2332…構成要素

Claims (30)

  1. コンピュータを用いて構造化文書のドキュメントソースから情報を抽出する方法であって、
    前記コンピュータが、記憶装置に記憶された構造化文書のドキュメントソースに対して、レイアウト解析し易くするための改変として、構成要素間の幅の拡大、構成要素間へのシンボルの挿入、構成要素の配置を制御しているグリッドの表示、構成要素へのユニークな背景色の定義、背景色やイメージ画像の非表示化や単色化のうち、少なくとも一つの改変を行い、結果を記憶装置に書き込む前処理ステップと、
    前記コンピュータが、記憶装置を参照して、前記構造化文書に定義されたレイアウト情報に従って前記改変された構造化文書のドキュメントソースを描画したときの画像情報を生成し、結果を記憶装置に書き込む画像情報生成ステップと、
    前記コンピュータが、記憶装置を参照して、前記画像情報をレイアウト解析し、結果を記憶装置に記憶するレイアウト解析ステップと、
    前記コンピュータが、記憶装置を参照して、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として出力する出力ステップとを含むことを特徴とする情報抽出方法。
  2. コンピュータを用いて構造化文書のドキュメントソースから情報を抽出する方法であって、
    前記コンピュータが、記憶装置に記憶された構造化文書に定義されたレイアウト情報に従って前記構造化文書のドキュメントソースを描画したときの画像情報を生成し、結果を記憶装置に記憶する画像情報生成ステップと、
    前記コンピュータが、記憶装置を参照して、前記構造化文書のドキュメントソースからレイアウト解析に有効な情報として、構造化文書の背景色および構成要素の背景色のうち、少なくとも一つの情報を抽出し、結果を記憶装置に記憶する前処理ステップと、
    前記コンピュータが、記憶装置を参照して、前記抽出された情報に基づいて領域分割して前記画像情報をレイアウト解析し、結果を記憶装置に記憶するレイアウト解析ステップと、
    前記コンピュータが、記憶装置を参照して、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として出力する出力ステップとを含むことを特徴とする情報抽出方法。
  3. コンピュータを用いて構造化文書のドキュメントソースから情報を抽出する方法であって、
    前記コンピュータが、記憶装置に記憶された構造化文書のドキュメントソースに対して、レイアウト解析し易くするための改変として、構成要素間の幅の拡大、構成要素間へのシンボルの挿入、構成要素の配置を制御しているグリッドの表示、構成要素へのユニークな背景色の定義、背景色やイメージ画像の非表示化や単色化のうち、少なくとも一つの改変を行い、結果を記憶装置に記憶する前処理ステップと、
    前記コンピュータが、記憶装置を参照して、前記構造化文書に定義されたレイアウト情報に従って前記改変された構造化文書のドキュメントソースを描画したときの画像情報を生成し、結果を記憶装置に記憶する画像情報生成ステップと、
    前記コンピュータが、記憶装置を参照して、前記画像情報をレイアウト解析し、結果を記憶装置に記憶するレイアウト解析ステップと、
    前記コンピュータが、記憶装置を参照して、前記レイアウト解析で得られた前記画像情報の構成要素の属性を判定し、結果を記憶する属性判定ステップと、
    前記コンピュータが、記憶装置を参照して、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として前記判定された属性と共に出力する出力ステップとを含むことを特徴とする情報抽出方法。
  4. コンピュータを用いて構造化文書のドキュメントソースから情報を抽出する方法であって、
    前記コンピュータが、記憶装置に記憶された構造化文書に定義されたレイアウト情報に従って前記構造化文書のドキュメントソースを描画したときの画像情報を生成し、結果を記憶装置に記憶する画像情報生成ステップと、
    前記コンピュータが、記憶装置を参照して、前記構造化文書のドキュメントソースからレイアウト解析に有効な情報として、構造化文書の背景色および構成要素の背景色のうち、少なくとも一つの情報を抽出し、結果を記憶装置に記憶する前処理ステップと、
    前記コンピュータが、記憶装置を参照して、前記抽出された情報に基づいて領域分割して前記画像情報をレイアウト解析し、結果を記憶するレイアウト解析ステップと、
    前記コンピュータが、記憶装置を参照して、前記レイアウト解析で得られた前記画像情報の構成要素の属性を判定し、結果を記憶装置に記憶する属性判定ステップと、
    前記コンピュータが、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として前記判定された属性と共に出力する出力ステップとを含むことを特徴とする情報抽出方法。
  5. コンピュータを用いて構造化文書のドキュメントソースから情報を抽出する方法であって、
    前記コンピュータが、記憶装置に記憶された構造化文書のドキュメントソースに対して、属性判定し易くするための改変として、文字サイズの強調および重要単語のユニーク色による表示のうち、少なくとも一つの改変を行い、結果を記憶装置に記憶する前処理ステップと、
    前記コンピュータが、記憶装置を参照して、前記構造化文書に定義されたレイアウト情報に従って前記改変された構造化文書のドキュメントソースを描画したときの画像情報を生成し、結果を記憶する画像情報生成ステップと、
    前記コンピュータが、記憶装置を参照して、前記画像情報をレイアウト解析し、結果を記憶するレイアウト解析ステップと、
    前記コンピュータが、記憶装置を参照して、前記レイアウト解析で得られた前記画像情報の構成要素の属性を判定し、結果を記憶する属性判定ステップと、
    前記コンピュータが、記憶装置を参照して、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として前記判定された属性と共に出力する出力ステップとを含むことを特徴とする情報抽出方法。
  6. コンピュータを用いて構造化文書のドキュメントソースから情報を抽出する方法であって、
    前記コンピュータが、記憶装置に記憶された構造化文書に定義されたレイアウト情報に従って前記構造化文書のドキュメントソースを描画したときの画像情報を生成し、結果を記憶装置に記憶する画像情報生成ステップと、
    前記コンピュータが、記憶装置を参照して、前記構造化文書のドキュメントソースから属性判定に有効な情報として、構成要素に含まれるリストがハイパーリンクのリストであるという情報、コメント情報および出現頻度が高い単語の情報のうち、少なくとも一つの情報を抽出し、結果を記憶装置に記憶する前処理ステップと、
    前記コンピュータが、記憶装置を参照して、前記画像情報をレイアウト解析し、結果を記憶装置に記憶するレイアウト解析ステップと、
    前記コンピュータが、記憶装置を参照して、前記抽出された情報とレイアウト解析の結果とから予め定められた各属性ごとの判定条件の適合度を計算して、前記レイアウト解析で得られた前記画像情報の構成要素の属性を判定し、結果を記憶装置に記憶する属性判定ステップと、
    前記コンピュータが、記憶装置を参照して、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として前記判定された属性と共に出力する出力ステップとを含むことを特徴とする情報抽出方法。
  7. コンピュータを用いて構造化文書のドキュメントソースから情報を抽出する方法であって、
    前記コンピュータが、記憶装置に記憶された構造化文書のドキュメントソースに対して、レイアウト解析し易くするための改変として、構成要素間の幅の拡大、構成要素間へのシンボルの挿入、構成要素の配置を制御しているグリッドの表示、構成要素へのユニークな背景色の定義、背景色やイメージ画像の非表示化や単色化のうち、少なくとも一つの改変と、属性判定し易くするための改変として、文字サイズの強調および重要単語のユニーク色による表示のうち、少なくとも一つの改変とを行い、結果を記憶装置に記憶する前処理ステップと、
    前記コンピュータが、記憶装置を参照して、前記構造化文書に定義されたレイアウト情報に従って前記改変された構造化文書のドキュメントソースを描画したときの画像情報を生成し、結果を記憶装置に記憶する画像情報生成ステップと、
    前記コンピュータが、記憶装置を参照して、前記画像情報をレイアウト解析し、結果を記憶装置に記憶するレイアウト解析ステップと、
    前記コンピュータが、記憶装置を参照して、前記レイアウト解析で得られた前記画像情報の構成要素の属性を判定し、結果を記憶装置に記憶する属性判定ステップと、
    前記コンピュータが、記憶装置を参照して、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として前記判定された属性と共に出力する出力ステップとを含むことを特徴とする情報抽出方法。
  8. 前記コンピュータが、前記前処理ステップによる構造化文書のドキュメントソースの改変から前記属性判定ステップによる属性の判定までの処理を、求める全ての構成要素に対して属性が得られるまで、前回の改変内容に新たな改変内容を追加して繰り返すステップを含むことを特徴とする請求項7記載の情報抽出方法。
  9. 前記コンピュータが、前記前処理ステップによる構造化文書のドキュメントソースの改変から前記属性判定ステップによる属性の判定までの処理を、改変内容を毎回異ならせて複数回繰り返し、且つ、各回で得られた属性の判定結果から最終結果を求めるステップを含むことを特徴とする請求項7記載の情報抽出方法。
  10. 前記コンピュータが、出力する前記構造化文書の構成要素に、前記ドキュメントソースの改変部分が含まれる場合、改変前の状態に戻して出力することを特徴とする請求項1、5または7記載の情報抽出方法。
  11. 造化文書のドキュメントソースに対して、レイアウト解析し易くするための改変として、構成要素間の幅の拡大、構成要素間へのシンボルの挿入、構成要素の配置を制御しているグリッドの表示、構成要素へのユニークな背景色の定義、背景色やイメージ画像の非表示化や単色化のうち、少なくとも一つの改変を行う前処理手段と、前記構造化文書に定義されたレイアウト情報に従って前記改変された構造化文書のドキュメントソースを描画したときの画像情報を生成する画像情報生成手段と、前記画像情報をレイアウト解析するレイアウト解析手段と、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として出力する出力手段とを含むことを特徴とする情報抽出装置。
  12. 構造化文書に定義されたレイアウト情報に従って前記構造化文書のドキュメントソースを描画したときの画像情報を生成する画像情報生成手段と、前記構造化文書のドキュメントソースからレイアウト解析に有効な情報として、構造化文書の背景色および構成要素の 背景色のうち、少なくとも一つの情報を抽出する前処理手段と、前記抽出された情報に基づいて領域分割して前記画像情報をレイアウト解析するレイアウト解析手段と、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として出力する出力手段とを含むことを特徴とする情報抽出装置。
  13. 造化文書のドキュメントソースに対して、レイアウト解析し易くするための改変として、構成要素間の幅の拡大、構成要素間へのシンボルの挿入、構成要素の配置を制御しているグリッドの表示、構成要素へのユニークな背景色の定義、背景色やイメージ画像の非表示化や単色化のうち、少なくとも一つの改変を行う前処理手段と、前記構造化文書に定義されたレイアウト情報に従って前記改変された構造化文書のドキュメントソースを描画したときの画像情報を生成する画像情報生成手段と、前記画像情報をレイアウト解析するレイアウト解析手段と、前記レイアウト解析で得られた前記画像情報の構成要素の属性を判定する属性判定手段と、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として前記判定された属性と共に出力する出力手段とを含むことを特徴とする情報抽出装置。
  14. 構造化文書に定義されたレイアウト情報に従って前記構造化文書のドキュメントソースを描画したときの画像情報を生成する画像情報生成手段と、前記構造化文書のドキュメントソースからレイアウト解析に有効な情報として、構造化文書の背景色および構成要素の背景色のうち、少なくとも一つの情報を抽出する前処理手段と、前記抽出された情報に基づいて領域分割して前記画像情報をレイアウト解析するレイアウト解析手段と、前記レイアウト解析で得られた前記画像情報の構成要素の属性を判定する属性判定手段と、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として前記判定された属性と共に出力する出力手段とを含むことを特徴とする情報抽出装置。
  15. 造化文書のドキュメントソースに対して、属性判定し易くするための改変として、文字サイズの強調および重要単語のユニーク色による表示のうち、少なくとも一つの改変を行う前処理手段と、前記構造化文書に定義されたレイアウト情報に従って前記改変された構造化文書のドキュメントソースを描画したときの画像情報を生成する画像情報生成手段と、前記画像情報をレイアウト解析するレイアウト解析手段と、前記レイアウト解析で得られた前記画像情報の構成要素の属性を判定する属性判定手段と、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として前記判定された属性と共に出力する出力手段とを含むことを特徴とする情報抽出装置。
  16. 構造化文書に定義されたレイアウト情報に従って前記構造化文書のドキュメントソースを描画したときの画像情報を生成する画像情報生成手段と、前記構造化文書のドキュメントソースから属性判定に有効な情報として、構成要素に含まれるリストがハイパーリンクのリストであるという情報、コメント情報および出現頻度が高い単語の情報のうち、少なくとも一つの情報を抽出する前処理手段と、前記画像情報をレイアウト解析するレイアウト解析手段と、前記抽出された情報とレイアウト解析の結果とから予め定められた各属性ごとの判定条件の適合度を計算して、前記レイアウト解析で得られた前記画像情報の構成要素の属性を判定する属性判定手段と、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として前記判定された属性と共に出力する出力手段とを含むことを特徴とする情報抽出装置。
  17. 造化文書のドキュメントソースに対して、レイアウト解析し易くするための改変として、構成要素間の幅の拡大、構成要素間へのシンボルの挿入、構成要素の配置を制御しているグリッドの表示、構成要素へのユニークな背景色の定義、背景色やイメージ画像の非 表示化や単色化のうち、少なくとも一つの改変と、属性判定し易くするための改変として、文字サイズの強調および重要単語のユニーク色による表示のうち、少なくとも一つの改変とを行う前処理手段と、前記構造化文書に定義されたレイアウト情報に従って前記改変された構造化文書のドキュメントソースを描画したときの画像情報を生成する画像情報生成手段と、前記画像情報をレイアウト解析するレイアウト解析手段と、前記レイアウト解析で得られた前記画像情報の構成要素の属性を判定する属性判定手段と、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として前記判定された属性と共に出力する出力手段とを含むことを特徴とする情報抽出装置。
  18. 前記前処理手段による構造化文書のドキュメントソースの改変から前記属性判定手段による属性の判定までの処理を、求める全ての構成要素に対して属性が得られるまで、前回の改変内容に新たな改変内容を追加して繰り返すように構成されることを特徴とする請求項17記載の情報抽出装置。
  19. 前記前処理手段による構造化文書のドキュメントソースの改変から前記属性判定手段による属性の判定までの処理を、改変内容を毎回異ならせて複数回繰り返すように構成され、且つ、各回で得られた属性の判定結果から最終結果を求める属性検査手段を備えることを特徴とする請求項17記載の情報抽出装置。
  20. 前記出力手段は、出力する前記構造化文書の構成要素に、前記ドキュメントソースの改変部分が含まれる場合、改変前の状態に戻して出力するものであることを特徴とする請求項11、15または17記載の情報抽出装置。
  21. コンピュータを、構造化文書のドキュメントソースに対して、レイアウト解析し易くするための改変として、構成要素間の幅の拡大、構成要素間へのシンボルの挿入、構成要素の配置を制御しているグリッドの表示、構成要素へのユニークな背景色の定義、背景色やイメージ画像の非表示化や単色化のうち、少なくとも一つの改変を行う前処理手段、前記構造化文書に定義されたレイアウト情報に従って前記改変された構造化文書のドキュメントソースを描画したときの画像情報を生成する画像情報生成手段、前記画像情報をレイアウト解析するレイアウト解析手段、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として出力する出力手段、として機能させることを特徴とする情報抽出プログラム。
  22. コンピュータを、構造化文書に定義されたレイアウト情報に従って前記構造化文書のドキュメントソースを描画したときの画像情報を生成する画像情報生成手段、前記構造化文書のドキュメントソースからレイアウト解析に有効な情報として、構造化文書の背景色および構成要素の背景色のうち、少なくとも一つの情報を抽出する前処理手段、前記抽出された情報に基づいて領域分割して前記画像情報をレイアウト解析するレイアウト解析手段、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として出力する出力手段、として機能させることを特徴とする情報抽出プログラム。
  23. コンピュータを、構造化文書のドキュメントソースに対して、レイアウト解析し易くするための改変として、構成要素間の幅の拡大、構成要素間へのシンボルの挿入、構成要素の配置を制御しているグリッドの表示、構成要素へのユニークな背景色の定義、背景色やイメージ画像の非表示化や単色化のうち、少なくとも一つの改変を行う前処理手段、前記構造化文書に定義されたレイアウト情報に従って前記改変された構造化文書のドキュメントソースを描画したときの画像情報を生成する画像情報生成手段、前記画像情報をレイアウト解析するレイアウト解析手段、前記レイアウト解析で得られた前記画像情報の構成要素の属性を判定する属性判定手段、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として前記判定された属性と共に出力する出力手段、として機能させることを特徴とする情報抽出プログラム。
  24. コンピュータを、構造化文書に定義されたレイアウト情報に従って前記構造化文書のドキュメントソースを描画したときの画像情報を生成する画像情報生成手段、前記構造化文書のドキュメントソースからレイアウト解析に有効な情報として、構造化文書の背景色および構成要素の背景色のうち、少なくとも一つの情報を抽出する前処理手段、前記抽出された情報に基づいて領域分割して前記画像情報をレイアウト解析するレイアウト解析手段、前記レイアウト解析で得られた前記画像情報の構成要素の属性を判定する属性判定手段、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として前記判定された属性と共に出力する出力手段、として機能させることを特徴とする情報抽出プログラム。
  25. コンピュータを、構造化文書のドキュメントソースに対して、属性判定し易くするための改変として、文字サイズの強調および重要単語のユニーク色による表示のうち、少なくとも一つの改変を行う前処理手段、前記構造化文書に定義されたレイアウト情報に従って前記改変された構造化文書のドキュメントソースを描画したときの画像情報を生成する画像情報生成手段、前記画像情報をレイアウト解析するレイアウト解析手段、前記レイアウト解析で得られた前記画像情報の構成要素の属性を判定する属性判定手段、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として前記判定された属性と共に出力する出力手段、として機能させることを特徴とする情報抽出プログラム。
  26. コンピュータを、構造化文書に定義されたレイアウト情報に従って前記構造化文書のドキュメントソースを描画したときの画像情報を生成する画像情報生成手段と、前記構造化文書のドキュメントソースから属性判定に有効な情報として、構成要素に含まれるリストがハイパーリンクのリストであるという情報、コメント情報および出現頻度が高い単語の情報のうち、少なくとも一つの情報を抽出する前処理手段と、前記画像情報をレイアウト解析するレイアウト解析手段と、前記抽出された情報とレイアウト解析の結果とから予め定められた各属性ごとの判定条件の適合度を計算して、前記レイアウト解析で得られた前記画像情報の構成要素の属性を判定する属性判定手段と、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として前記判定された属性と共に出力する出力手段、として機能させることを特徴とする情報抽出プログラム。
  27. コンピュータを、構造化文書のドキュメントソースに対して、レイアウト解析し易くするための改変として、構成要素間の幅の拡大、構成要素間へのシンボルの挿入、構成要素の配置を制御しているグリッドの表示、構成要素へのユニークな背景色の定義、背景色やイメージ画像の非表示化や単色化のうち、少なくとも一つの改変と、属性判定し易くするための改変として、文字サイズの強調および重要単語のユニーク色による表示のうち、少なくとも一つの改変とを行う前処理手段、前記構造化文書に定義されたレイアウト情報に従って前記改変された構造化文書のドキュメントソースを描画したときの画像情報を生成する画像情報生成手段、前記画像情報をレイアウト解析するレイアウト解析手段、前記レイアウト解析で得られた前記画像情報の構成要素の属性を判定する属性判定手段、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として前記判定された属性と共に出力する出力手段、として機能させることを特徴とする情報抽出プログラム。
  28. 前記コンピュータを、前記前処理手段による構造化文書のドキュメントソースの改変から前記属性判定手段による属性の判定までの処理を、求める全ての構成要素に対して属性が得られるまで、前回の改変内容に新たな改変内容を追加して繰り返すように動作させることを特徴とする請求項27記載の情報抽出プログラム。
  29. 前記コンピュータを、前記前処理手段による構造化文書のドキュメントソースの改変から前記属性判定手段による属性の判定までの処理を、改変内容を毎回異ならせて複数回繰り返すように動作させ、且つ、前記コンピュータを、更に、各回で得られた属性の判定結果から最終結果を求める属性検査手段として機能させることを特徴とする請求項27記載の情報抽出プログラム。
  30. 前記出力手段は、出力する前記構造化文書の構成要素に、前記ドキュメントソースの改変部分が含まれる場合、改変前の状態に戻して出力するものであることを特徴とする請求項21、25または27記載の情報抽出プログラム。
JP2002198199A 2002-07-08 2002-07-08 情報抽出方法、情報抽出装置および情報抽出プログラム Expired - Fee Related JP3941610B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002198199A JP3941610B2 (ja) 2002-07-08 2002-07-08 情報抽出方法、情報抽出装置および情報抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002198199A JP3941610B2 (ja) 2002-07-08 2002-07-08 情報抽出方法、情報抽出装置および情報抽出プログラム

Publications (2)

Publication Number Publication Date
JP2004038827A JP2004038827A (ja) 2004-02-05
JP3941610B2 true JP3941610B2 (ja) 2007-07-04

Family

ID=31705720

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002198199A Expired - Fee Related JP3941610B2 (ja) 2002-07-08 2002-07-08 情報抽出方法、情報抽出装置および情報抽出プログラム

Country Status (1)

Country Link
JP (1) JP3941610B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006046523A1 (ja) 2004-10-25 2006-05-04 Nec Corporation 文書解析システム、及び文書適応システム
US7814412B2 (en) * 2007-01-05 2010-10-12 Microsoft Corporation Incrementally updating and formatting HD-DVD markup
CA2776541A1 (en) * 2009-10-02 2011-04-07 Aravind Musuluri System and method for block segmenting, identifying and indexing visual elements, and searching documents
JP5669611B2 (ja) * 2011-02-16 2015-02-12 田中 成典 グループ化装置およびエレメント抽出装置
JP2019105957A (ja) * 2017-12-12 2019-06-27 コニカミノルタ株式会社 文書構成解析システム、文書構成解析方法、プログラム

Also Published As

Publication number Publication date
JP2004038827A (ja) 2004-02-05

Similar Documents

Publication Publication Date Title
US7046848B1 (en) Method and system for recognizing machine generated character glyphs and icons in graphic images
US10360294B2 (en) Methods and systems for efficient and accurate text extraction from unstructured documents
US5893127A (en) Generator for document with HTML tagged table having data elements which preserve layout relationships of information in bitmap image of original document
KR100324456B1 (ko) 구조화문서검색표시방법및장치
US7284192B2 (en) Architecture for ink annotations on web documents
JP4814575B2 (ja) 小型スクリーンコンピューティング装置にコンテンツを表示するシステムと方法
JP3478725B2 (ja) 文書情報管理システム
US8204950B2 (en) Webpage search
US9529438B2 (en) Printing structured documents
WO2006046523A1 (ja) 文書解析システム、及び文書適応システム
JPH09134282A (ja) プログラム作成方法
JPH09222974A (ja) 言語解釈表示方法とその方法を用いた装置およびシステム
JP2002278757A (ja) Htmlアプリケーションにおいてユーザーインターフェースオブジェクトの文法ベースの認識のための方法及び装置
Joshi et al. Web document text and images extraction using DOM analysis and natural language processing
WO2021242397A1 (en) Constructing a computer-implemented semantic document
JP3832693B2 (ja) 構造化文書検索表示方法及び装置
JP3941610B2 (ja) 情報抽出方法、情報抽出装置および情報抽出プログラム
CN114021042A (zh) 网页内容的提取方法、装置、计算机设备和存储介质
EP1887478A1 (en) Apparatus for automatic form filling on mobile devices
RU2398276C2 (ru) Альтернативы анализа в контекстных деревьях
JP2004157668A (ja) 検索システム、検索方法および検索プログラム
Kaddu et al. To extract informative content from online web pages by using hybrid approach
JP2001297080A (ja) 読取支援装置
JPH1115826A (ja) 文書解析装置及び方法
CN112256573B (zh) 一种面向simscript语言的仿真程序可视化方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040427

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051024

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051101

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061128

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070313

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070326

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110413

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120413

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120413

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130413

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130413

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140413

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees