JP2007286861A - 文書構造抽出方法および文書検索方法 - Google Patents

文書構造抽出方法および文書検索方法 Download PDF

Info

Publication number
JP2007286861A
JP2007286861A JP2006112894A JP2006112894A JP2007286861A JP 2007286861 A JP2007286861 A JP 2007286861A JP 2006112894 A JP2006112894 A JP 2006112894A JP 2006112894 A JP2006112894 A JP 2006112894A JP 2007286861 A JP2007286861 A JP 2007286861A
Authority
JP
Japan
Prior art keywords
document
search
node
words
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006112894A
Other languages
English (en)
Inventor
Kosuke Konishi
康介 小西
Shoji Ikeda
尚司 池田
Naohiro Furukawa
直広 古川
Yasutsugu Morimoto
康嗣 森本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2006112894A priority Critical patent/JP2007286861A/ja
Publication of JP2007286861A publication Critical patent/JP2007286861A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 電子文書から見出しと類似部分からなる連続パターンを自動的に抽出する手法の提供。また、文書構造を用いて、構造を考慮した検索要求、検索結果分類、文書要約を行う検索文書検索手法の提供。さらに、画像などの文書中の単語で表されないオブジェクトに対する、文書構造をもとにした文書中の単語の関連付け手法の提供。および、それらのオブジェクトを単語による検索手法の提供。
【解決手段】 電子文書の共通の形式へ変換し、見出しと類似部分が連続して出現する部分を発見し項目間の文書要素対応付けを行う文書構造抽出手法。また、電子文書と文書構造を記憶し、検索結果をその要約とともに返す文書検索手法。さらに、文書構造を用いて非オブジェクトに文書中の単語を関連付ける手法。および電子文書とそれに含まれる非文章オブジェクトとそれに関連付けられた単語の集合を記憶し、検索結果をその要約とともに返す非文章オブジェクト検索手法。
【選択図】 図22

Description

本発明は、電子文書から表、リスト、章節構造などの文書構造を抽出する方法及び抽出された文書構造を利用した文書検索システムに関するものである。
最近の情報処理に関する技術進歩に伴い、コンピュータによって大量の情報が蓄積されるようになった。その大量の情報の中から目的の情報を効率的に探し出すために、様々な技術開発がなされてきた。その中で、電子文書から、タグなどによって明示的に表現されていないリスト、章節構造、表などの文書構造を抽出する技術が注目された。HTML文書情報抽出の分野では、類似性の高い部分が連続して並んでいる繰り返し構造を発見することによってこれらの文書構造を抽出する手法が提案されてきた。
「非特許文献1」「非特許文献2」「非特許文献3」は、ウェブラッパーと呼ばれる、HTML文書と抽出したい部分の組を学習例として与えると、機械学習の手法を用いて文書構造抽出プログラムを自動生成する手法を提案した。しかし、これらのシステムは人手で学習例を作成する必要があり、生成された抽出プログラムは学習例と同じレイアウトを持つHTML文書にしか適用できないという問題があった。
「非特許文献4」「非特許文献5」「特許文献1」は、HTML文書の中から繰り返し規則的に出現しているタグや文字列などを検出し、そのようなセパレータ要素によって分割されている部分を意味のある文書構造とみなして抽出する手法を提案した。しかし、これらの手法は分割要素間の内容を調査しないので、人間にとって意味のない繰り返し構造が抽出されることが多いという問題があった。またその対策として、そのような繰り返し構造をできるだけ除くために文書内で最も内容が多い部分のみを抽出対象にしたが、それによって一つの文書から複数の構造を抽出することができないという問題も発生した。
「非特許文献6」「非特許文献7」は、HTML文書のタグツリーの類似性を調べ、類似度の高い部分が連続して現れている部分である繰り返しパターンと呼ばれる構造を意味のある文書構造とみなして抽出する手法を提案した。さらに「非特許文献6」ではデータ項目間の対応関係を抽出し、「非特許文献7」では繰り返しパターン間の階層関係を抽出する手法を提案した。しかし、これらの手法は規則性の強い繰り返しパターンしか抽出することができず、内容部分にあまり規則性はないが見出し部分には強い規則性がある章節構造のような、人間にとって意味のある構造であると認識されるものが抽出されないという問題があった。
従来の文書検索手法は、文書中の単語を取り出して、単語とその文書中の位置の集合をその文書に対するインデクスとして作成し、それらを文書データベースに格納するものが主であった。そして検索クエリーは、複数の単語がAND、ORなどの論理演算子で結合されている検索式と呼ばれるものが用いられた。検索システムは、検索クエリーを受け取ると、それに適合する文書を見つけ出し、さらにそれぞれの文書の検索クエリーに対する適合度を計算し、適合度が高い順に並び替えた結果を返す、というものであった。「非特許文献8」では、Web文書の集合に対して、上の方法で文書インデクスを作成し、さらにWeb文書間のハイパーリンクをもとにページランクと呼ばれる各文書の重要度も計算し、文書データベースに格納する手法を提案した。この検索手法は、上の検索式を受け取り、文書中に出現する単語およびページランクを元に適合度を計算するものであった。しかし、このような文書検索手法では、文書中に現れる単語の全てが同じ重要度を持つと仮定されており、文書の見出し部分に現れる単語を重要視したり、箇条書きで並べられている二つの単語の間には特別な関係があるとみなしたりする、というような、人間が文書を閲覧するときに考える事項の多くが考慮されていなかった。そのため、検索単語が見出しの部分に大きく現れている文書や、複数の検索単語が箇条書きで並べられているような文書の適合度が低く計算されるといった、文書構造によって人間が感じ取る文書の意味にそぐわない検索結果が得られることが多いという問題があった。
特開2005−25763号公報 N.Kushmerick., ラッパー学習:効率性と表現力(Wrapper induction: efficiency and expressiveness), Artificial Intelligence, 118:15-68, 2000. I.Muslea, S.Minton, C.Knoblock., ラッパー学習の階層的手法(A hierarchical approach to wrapper induction), Agents-99, 1999. W.Cohen, M.Hurst, L.Jensen., HTML文書の表・リストのラッピングの柔軟な学習手法(A flexible learning system for wrapping tables and lists in HTML documents), WWW-2002, 2002. D.W.Embley, Y.S.Jiang, Y.-K.Ng., Web文書中における項目境界の認識(Record-boundary discovery in web documents), SIGMOD-99, 1999 C.H.Chang, S.C.Lui, IEPAD: パターン発見に基づいた情報抽出(IEPAD: Information Extraction based on Pattern Discovery), WWW-10, 2001 Y.Zhai, B.Liu., 部分木構造整列に基づいたWebデータ抽出(Web Data Extraction Based on Partial Tree Alignment), WWW2005, 2005 T.Nanno, M.Okumura., 要素連続性に基づいたWebページ構造化(Structuring Web Pages Based on Repetition of Elements), WDA 2003, 2003 S.Brin, L.Page., 大規模ハイパーテキストウェブ検索エンジンの分析(The Anatomy of a Large-Scale Hypertextual Web Search Engine), WWW7, 1998.
本発明では上記の問題を解決するような文書構造抽出手法およびそれによって抽出された文書構造を用いた文書検索手法を提供する。
本発明では、上記の問題を克服する文書構造抽出手法、すなわち学習例を用いた機械学習を必要とせず、一つの文書から複数個の文書構造を抽出することができ、規則性の強い繰り返しパターンだけでなくより規則性の弱い章節構造などの繰り返しパターンも精度よく抽出する手法を提供する。
さらに本発明では、繰り返しパターンを見つけるだけでなく、繰り返しパターンの各項目において見出しが存在すればそれを見つけ出して見出しとその項目内の他の部分とを上下関係という関係づけを行い、また、ある繰り返しパターンとその内部に現れる繰り返しパターンにも上下関係という関係づけを行い、さらに、繰り返しパターンの各項目に含まれる文書要素の間の対応付けを行い、対応付けられた文書要素同士に対し並列関係という関係づけを行うという、従来手法よりも豊富な情報を持つ構造を抽出する手法を提供する。
また本発明では、上記の問題を克服する文書検索手法、すなわち文書構造によって表される、文書中に出現している単語の重要性および単語間の関係性を考慮して適合度を計算することができる手法を提供する。
さらに本発明では、画像などの文書中の単語で表されないオブジェクトに対して、文書構造をもとに文書中の単語を関連付ける非文章オブジェクトへの単語関連付け手法、およびそれらのオブジェクトを単語によって検索できる非文章オブジェクトの単語による検索手法も提供する。
本発明は大きく、文書構造抽出手法、文書構造を用いた文書検索手法、文書構造を用いた非文章オブジェクトへの単語関連付け手法、それを用いた非文章オブジェクトの単語による検索手法の四つの手法を提供する。以下それらの手法を実現するための手段を記述する。
文書構造抽出手法は、様々な形式の電子文書を共通の形式に変換する文書形式変換ステップとその共通の形式で表されている文書から文書構造を抽出する文書構造抽出ステップからなる。
文書形式変換ステップでは、個々の文書形式に対してそれぞれ変換方法を用意し、入力される電子文書に対してその文書の形式に対応する変換方法を適用することによって、共通の文書形式に変換する。
文書構造抽出ステップでは、文書中で類似度の高い部分が並んでいる領域、および見出しらしい部分がその見出しに属する内容部分を挟んで並んでいる領域を繰り返しパターンとして抽出する。これを実現するために文書構造抽出ステップは、文書部分間の類似度算出ステップ、文書部分の見出し度算出ステップ、文書部分とそれに続く文書部分がある時に前者が後者の見出しになっているかどうかを判定する見出し判定ステップの三つのステップを含む。
文書構造抽出ステップではさらに、抽出された繰り返しパターンの各項目の内部に文書構造抽出ステップを再帰的に適用することと、抽出された繰り返しパターンを一つの単位として元の文書部分に置換してさらに文書構造抽出ステップを適用することによって、繰り返しパターン間の包含関係を定める。また、抽出された繰り返しパターンの各項目の内容を見比べ、対応する部分同士を関係付ける文書要素対応付けも行う。
文書構造を用いた文書検索手法は、電子文書と上記文書構造抽出手法によって得られた文書構造を対応付けたものの集合を記憶する文書データベースを用い、検索クエリーを受け取りそれに適合する文書を検索して返す検索クエリー処理ステップと、適合文書の要約を適切に生成する文書要約生成ステップからなる。
検索クエリー処理ステップは、三つの形態の検索処理のいずれかを行う。第一形態は、検索クエリーとして複数の単語がANDやORなどの論理演算子で結び付けられた論理検索式を受け取り、それに対する各文書の適合度を算出して適合度順に文書を並べる。第二形態は、検索クエリーとして複数の上記の論理検索式を上下関係および並列関係で結びつけたものを受け取り、それに対する各文書の適合度を算出して適合度順に文書を並べる。第三形態は、検索クエリーとして第一形態と同じ論理検索式を受け取り、それに対する各文書の適合度を算出するとともに、検索式に含まれる各単語の文書構造中での出現位置を調べて、各出現位置の文書構造内の関係によって検索結果を分類する。
文書要約生成ステップは、検索クエリーに含まれるそれぞれの単語の文書構造中の出現位置の上下関係、並列関係を視覚的に表す形で、全体の文書構造を要約化した図に検索クエリーに含まれる単語およびその近傍の単語を出現位置に埋め込んだものを表示する。
文書構造を用いた非文章オブジェクトへの単語関連付け手法は、オブジェクトが抽出された文書構造に含まれていなければ近傍にある単語を関連付け、オブジェクトが抽出された文書構造の中に出現していれば近傍の単語の他に、上下関係、並列関係にある単語にも関連付ける。
非文章オブジェクトとは、文字コードによって電子的に文字として表現されていない文書要素である。
非文章オブジェクトの単語による検索手法は、電子文書と上記文書構造抽出手法によって得られた文書構造を対応付けたものの集合、および電子文書に含まれる非文章オブジェクトと上記単語関連付け手法によってそれに関連付けられた電子文書内の単語を対応付けたものの集合を記憶する非文章オブジェクトデータベースを用い、検索クエリーを受け取りそれに適合する非文章オブジェクトを検索して返す検索クエリー処理ステップと、適合オブジェクトに対する要約を適切に生成する非文章オブジェクト要約生成ステップからなる。
検索クエリー処理ステップは、検索クエリーとして文書構造を用いた文書検索システムの第一形態と同じ論理検索式を受け取り、それに対する各非文章オブジェクトに関連付けられた単語集合の適合度を算出して、適合度順に並べる。
非文章オブジェクト要約生成ステップは、非文章オブジェクトと適合した単語の文書構造中の出現位置の上下関係、並列関係を視覚的に表す形で、全体の文書構造を要約化した図に、非文章オブジェクト、適合した単語およびその近傍の単語を出現位置に埋め込んだものを表示する。
本発明の文書構造抽出手法によって、章節構造に代表される全体としての類似性は低いが人間にとっては明確に繰り返しパターンだと分かるものが、見出しという要素を手がかりに抽出することができる。このような構造は従来の手法では抽出が困難であった。本発明の手法は人間の直感により近いということができる。さらに本発明においては、見出しを抽出することによって、文書中の単語間の上下関係を表現することができる。
本発明の文書検索機能によって、従来のAND/OR検索では実現できなかった文書の順位付け、分類が実現できる。
まず文書検索の第一形態によって、見出し部分に現れる単語の重要度を上げたり、複数キーワードが文書構造内で上下関係や並列関係にあった場合に重要度を上げたりすることによって、従来手法では重要度が低くつけられていたが人間にとっては検索クエリーをよく表現しているような文書をより検索結果の上位に引き上げることができる。
また、文書検索の第二形態によって、従来のAND検索とは異なる絞込み方法を実現できる。例えば二つの単語が上下関係を持つという検索クエリーを与えると、上位にある単語に関するトピックの文書で、さらにその中で下位にある単語に言及している文書のみを見つけるという検索ができる。
さらに、文書検索の第三形態によって、従来のキーワード検索とは異なる検索結果の分類方法を実現することができる。例えば二つの検索キーワードを与えた時に、それらが上下関係として現れているか、並列関係として現れているかを分類し、その適合数を見ることによって、その二単語の関係として適切に出現している文書をまとめることができる。これにより二単語が不適切な共起をしている文書をまとめて除外することも可能になる。
本発明の非文章オブジェクトへの単語関連付け手法によって、オブジェクトが含まれる領域の見出し部分に現れる単語などを検索インデクスに含めることができ、従来手法であるオブジェクトの近傍に現れる単語のみをインデクスに含める手法に比べ、より人間の直感に近いインデクスを作成することができる。また、これを非文章オブジェクトの検索システムに利用することにより、単語の検索クエリーによって非文章オブジェクトを適切に検索することができる。
本発明の文書構造抽出手法、文書構造を用いた文書検索手法、文書構造を用いた非文章オブジェクトへの単語関連付け手法、非文章オブジェクトの単語による検索手法のそれぞれについて構成例を示す。
「文書構造抽出手法」
本発明の文書構造抽出手法は図1に示されているように、ある文書形式を持つ電子文書101を受け取り、それを共通文書形式変換ステップ102によって共通文書形式に変換し、そこから文書構造抽出ステップ103によって文書構造を抽出する。本実施例では共通文書形式として本発明が提案するTL形式(Table Line形式)という文書形式を、文書構造として本発明が提案するH−RP構造(Header−Repetitive Pattern構造)という文書構造を用いる。以後、共通文書形式をTL形式に、文書構造をH−RP構造にそれぞれ置き換えて説明する。
まずTL形式およびH−RP構造を説明する。
TL形式は図2に示されるようなクラス図で表されるデータ構造である。TL形式はレイアウトを行と表という二つの要素で抽象的に表現する文書形式である。TL形式の要素は全てTLノード201というクラスである。TLノードには大きく分けてTLコンテナ202とユニット203という二つのサブクラスがある。ユニットは文字列や画像などの非文章オブジェクトといった、文書を構成する最小単位を表すクラスであり、TLコンテナはユニットの集まりを一つにまとめるものを表すクラスである。TLコンテナはインデントと背景等の属性を含む。TLコンテナには行204と表205というサブクラスがある。行は文字列が横もしくは縦に一列に並んだ集まりを表すクラスであり、表は文書要素が矩形としてまとめられ、それが縦および横に並べられた集まりを表すクラスである。行はユニットの一次元配列を、表はTLコンテナの二次元配列を属性として含む。ユニットにはテキスト206とオブジェクト(非文章オブジェクト)207というサブクラスがある。テキストは文書に現れる文字列を表すクラスで、文字列の内容だけでなく文字の大きさや色、背景についての情報といった文字列に関する情報も保持する。オブジェクトは画像やグラフなど文字列で表現されない文書要素を表すクラスである。オブジェクトは、URLなどの識別子や大きさ等の属性情報も保持する。
TL形式は、平面上のレイアウトを行と表の二種類の配置方法で単純化する。座標などの細部の情報を省略することで計算が単純化され、かつ包含や並列などの文書部分間の関係は保たれる。行と表による表現は、平面レイアウトを表す上で十分強力である。
H−RP構造は図12に示されるようなクラス図で表されるデータ構造である。H−RP構造の要素は全てH−RPノード1201というクラスである。H−RPノードには、H−RPコンテナ1202と繰り返しパターンノード1203という二つのサブクラスがある。H−RPコンテナ1202はTL形式のTLノード201を属性として持ち、TL形式の中に繰り返しパターンノードを組み込むためのラッパーの役割を持つクラスである。繰り返しパターンノード1203は繰り返しパターンを表すクラスで、パターンの種類、項目列、各項目の見出し、各項目内の要素間の対応付けを属性として持つ。パターンの種類は縦方向、横方向、両方向の三種類あって、それぞれ項目が表の縦に並んでいるか、横に並んでいるか、二次元状にならんでいるかに対応する。
H−RP構造は、文書部分の繰り返しパターンと見出し部分を構造化して表したものである。文書部分間に上下、並列関係をつけることにより、後に述べる検索手法を実現できる。
共通文書形式変換ステップ102は、図3で示されるように、入力文書301の形式に従ってそれに対応する形式変換ステップを適用し、入力された文書を共通のフォーマット、TL形式に変換する。例えば入力文書301がHTML形式であった場合は、HTML変換ステップ302を適用する。入力文書301がPDF形式であった場合は、PDF変換ステップ303を適用する。その他の文書形式の場合も、それぞれの文書形式に適合した変換処理を行う。
ここでは変換の例としてHTML変換ステップ302を詳しく説明する。HTML変換ステップ302は図4で示されるように、まずスタイル情報取得ステップ402によってHTML文書が参照しているもしくはそれに埋め込まれているスタイル情報を得て、それからHTML−TL形式構築ステップ403によってTL形式を得る。HTML−TL形式構築ステップ403は図5および図6で示されるように、各HTMLノードについて、それがインライン要素かブロック要素か、子をテーブルの形に配置しているかどうか、矩形を視覚的に表示しているかどうかを判断して、TL形式の行および表を生成する。
図5はHTML文書およびスタイル情報からTL形式ノード列を生成する、HTML−TL形式構築を示している。HTML文書は、HTMLタグによりDOMツリーという木構造で表される。図7はHTML文書をDOMツリー状に表した一例である。ここで、木構造のノードはHTML文書中の開始タグと終了タグで囲まれた部分であり、これをHTMLノードと呼ぶ。また、HTML文書内のテキスト部分も、テキストノードという種類のHTMLノードとする。スタイル情報取得ステップ402において、HTML文書の全てのHTMLノードに対し、それに対応するスタイル情報が付加される。
HTML−TL形式構築ステップの入力は、一つのHTMLノードとそれに対応するスタイル情報である。まず、ステップ502において、入力HTMLノードの全ての子ノードにHTML−TL形式構築ステップを適用する。これにより、それぞれの子ノードに対して、適用で得られたTL形式ノード列を取得する。次に、入力HTMLノードの種類によって、処理を分岐する。HTMLノードの種類は四つあって、インライン要素、テーブル要素、矩形を表示するブロック要素、および矩形を表示しないブロック要素である。インライン要素の場合は、ステップ503によって、子ノードから得られたTL形式ノード列を全て一列に並べたTL形式ノード列を出力する。テーブル要素の場合は、ステップ504から506によって、子ノードから得られたTL形式ノード列のそれぞれをTL形式表ノードのノード配列としたものを作成し、それらをHTML文書における配置と同じように二次元に配置したものをノード配列とするTL形式表ノードを出力する。矩形を表示するブロック要素の場合は、子ノードから得られたTL形式ノード列を全て一列に並べたTL形式ノード列に対しTL形式行生成ステップ(図6)を適用し、その結果得られたTL形式ノード列をノード配列とするTL形式表ノードを出力する。最後に矩形を表示しないブロック要素の場合は、子ノードから得られたTL形式ノード列を全て一列に並べたTL形式ノード列に対しTL形式行生成ステップ(図6)を適用し、その結果得られたTL形式ノード列を出力する。
図6はHTML−TL形式構築ステップ(図5)において用いられる、HTML−TL形式行生成ステップの処理を示している。この処理は、HTMLにおける改行部分を検出し、TL形式ノード列をHTMLにおける行の単位に分割してTL形式行ノードとしてまとめる。まず、入力ノード列の先頭ノードから順番に見ていき、改行部分があるかどうか調べる。改行部分はBRノード(TL形式ではユニットノードとして表される)およびTLコンテナノードの開始、終端である。ある時点で見ているTLノードがBRノードもしくはTLコンテナノードの場合は、ステップ606から609により新たに行ノードを生成してコンテナヒープに追加する。そうでない場合は、そのノードはユニットノードであるので、そのノードをユニットヒープに追加する。この後、見ているノードが入力ノード列の最後尾でない場合はステップ605により見るノードを一つ後ろにずらして、上の処理を再実行する。最後尾の場合は、ユニットヒープにノードが残っている場合はそれらをユニット列とする行ノードを生成して、コンテナヒープに追加し、最後にコンテナヒープにあるコンテナノード全てをコンテナノード列として出力する。
1例を用いてHTML文書のTL形式への変換を具体的に説明する。図7のようなHTML文書を変換することを考える。この文書と同じディレクトリには図8に示すstyle.cssというスタイルファイルがあるとする。このHTML文書はWebブラウザによって図9のようにレンダリングされる。
まずスタイル情報取得部402によって、このHTML文書のスタイル情報が取得される。この場合ではこのHTML文書の中のlink要素703を見て、同じディレクトリのstyle.cssというスタイルファイルを調べてスタイル情報を取得する。
次にHTML文書の各HTMLノードに対しボトムアップにHTML−TL形式構築ステップ403が適用される。図5における、四つのノードの種類に対する処理の例をそれぞれ述べる。まずインライン要素であるノード732に対しては、その子であるテキストノード「出来高」に対してユニットノードが生成され、ノード732に対してはそのノードがそのままノード列として出力される。次にテーブル要素であるノード708に対しては、708の下にあるtr要素およびtd要素に対してHTML−TL形式構築ステップ403が適用され、例えばtr要素709の最初のtd要素に対する適用では、”A指数”という文字列を表す一つのテキストノードを保持する行ノードが生成され、最後に処理504〜506によって図10のような、各td要素から生成された行ノードが4x3の行列上に並べられた表ノードが生成される。次に矩形を表示するブロック要素であるノード724に対しては、その子に対するHTML−TL形式構築ステップ403の適用によって二つのTLノードが生成され、それに対するTL形式行生成の適用(ステップ507)によってノード725から得られたユニットノードが行ノードとなり、最後にステップ508によってそれを2x1の行列上に並べた表ノードが生成される。最後に矩形を表示しないブロック要素であるノード704に対しては、その子に対するHTML−TL形式構築ステップ403の適用によって三つのコンテナノードが生成され、それらをノード列として出力する。このような処理を全てのノードに対して行うと、最終的に図11のようなTL形式が得られる。図11において、「表」とかかれている矩形は表ノードを、「行」とかかれている矩形は行ノードを、「”」で囲まれている文字列が書かれている矩形はテキストノードを表しており、点線で繋がれて並べられているノードは、その上の表ノードもしくは行ノードの内容である。
PDFなどの他の文書形式に対しても、TL形式を構築する処理を用意する。その場合、例えばPDFに対しては、行、枠線、段組など、HTMLにおいてタグとして明示的に指定されているものが指定されていない場合があるので、TL形式構築プログラムでそれらを判別する必要がある。
次にH−RP構造抽出ステップ103を説明する。H−RP構造抽出ステップ103の処理を図13に示す。H−RP構造抽出ステップの入力はTLノード列1301であり、最初の呼び出しではTL形式変換ステップ102によって得られたTL形式のルートノードの子ノード列が入力となる。まず、入力された各TLノードの子ノード列に対してH−RP構造抽出ステップ103を適用し、得られたH−RPノード列をもとの子ノード列と置き換える。次に各TLノードに対し見出し度計算ステップ1306で見出し度を計算し、次にそのノード列に対して繰り返しパターン検出ステップ1307を適用する。その時繰り返しパターンが検出されたら要素対応付けステップ1309によって繰り返しパターンの各項目の文書要素間に並列関係を付け、検出されなかったらステップを終了する。
H−RP構造抽出ステップには見出し度計算ステップ1306、繰り返しパターン検出ステップ1307、要素対応付けステップ1309の三つのサブステップが含まれる。以下ではこれらを詳しく説明する。
見出し度計算ステップ1306はTLノードの見出しらしさを数値として算出する処理である。その詳細な処理を図14に示す。見出し度は周辺差異スコア1402、空白位置スコア1403、繰り返しパターンスコア1404、複雑度スコア1405という四つのスコアから算出される。周辺差異スコア1402は周辺のノードとのフォントのサイズ、色などの特徴の差異を表す値で、差異が大きいほどスコアが高くなる。空白位置スコア1403はノード周辺に大きな行間や矩形境界など領域を分割する要素があるかどうかを表すスコアで、領域を分割する度合いが大きく、またそれとノードとの距離が近いほどスコアが高くなる。繰り返しパターンスコア1404はノードの周辺に繰り返しパターンがあるかどうかを表すスコアで、繰り返しパターンとの距離が近く、またそのパターンの大きさが大きいほどスコアが高くなる。ここで、繰り返しパターンは対象文書に対するこれまでの処理でH−RP構造抽出ステップにおいて抽出されたものを利用する。また、繰り返しパターンとの距離とは、文書上においてノードと繰り返しパターンの間に存在する文書要素(テキスト、画像など)の量である。また、繰り返しパターンの大きさとは、そのパターンに含まれる項目数や文書要素などの量である。複雑度スコア1405はノードの内容の要素数を表すスコアで、ノードの内容が単純なほどスコアは高くなるが、ある閾値を超えて短純度が高いと逆にスコアが低くなる。
繰り返しパターン検出ステップ1307はH−RPノード配列から繰り返しパターンとなっている部分を検出し、その部分を繰り返しパターンノードに置き換える。その詳細な処理を図15に示す。処理の流れは、まずあるノードを基準ノードとして、ノード列の中でそれと類似度の高いノードを全て見つける(1503)。この類似度は、フォントの大きさや色、背景、インデントなどの属性値をもとに木構造距離などを用いて計算する。繰り返しパターンノード同士の距離は、見出しおよび並列関係にある要素の属性の違いをもとに計算する。次に繰り返しパターン判定ステップ1504で、上で算出した類似度と各ノードの見出し度をもとに基準ノードを含む繰り返しパターンがあるかどうかを判定する。その詳細な処理は後述する。繰り返しパターンが見つからなかった場合は、基準ノードを別のノードにして再度上の処理を繰り返す。見つかった場合は、その繰り返しパターンを表す繰り返しパターンノードを生成して(1506)、繰り返しパターン判定ステップ1504において判定される、パターンを構成するノード列をそれに置き換える(1507)。
繰り返しパターン判定ステップ1504の詳細な処理を図16に示す。繰り返しパターンと判定される場合は二種類あり、一つは類似度の高い見出し部分が並んで出現していることであり、もう一つは全体に類似度の高い領域が連続して出現していることである。前者を判定するのが1603〜1605であり、後者を判定するのが1607〜1609である。1604または1608で区切られた領域が、繰り返しパターンの各項目となる。繰り返しパターンの種類は、類似ノードの並び方によって判断される。
要素対応付けステップ1309は、木構造Alignmentなどの方法を用いて、繰り返しパターン中の類似ノード同士を対応付ける。この対応付けは繰り返しパターンノードの中に格納される。
1例を用いてTL形式からのH−RP構造抽出を具体的に説明する。対象のTL形式は図11のものとする。
最初にノード1104に対する処理について説明する。まず、ループ1302により、ノード1105〜1116のそれぞれに対してH−RP構造抽出ステップを適用する。この場合はその中で繰り返しパターンは検出されない。次にループ1305により各ノードの見出し度が算出される。この場合はノード1105〜1116のそれぞれについて周りに類似ノードが並んでいるので、見出し度は低くなる。次に繰り返しパターン検出ステップ1307を適用する。繰り返しパターン判定ステップ1504において、見出し度の高いノードは存在しないので、処理は1607〜1609が行われる。表の中のノードは全て類似度が高いので、繰り返しパターンと判定され、結果として図17のような繰り返しパターンノードが生成される。図17には要素対応付けの結果も合わせて示されている。ここでは見出しノードは設定されず、全てのテキスト要素が互いに対応付けられている。
同様の処理で、ノード1117からは図18のような、ノード1129からは図19のような、ノード1148からは図20のようなH−RP構造がそれぞれ抽出される。さらにノード1128からは、図19と図20のH−RP構造の類似性から図21のようなH−RP構造が抽出される。
最後にノード1101に対する処理について説明する。まずループ1302によりノード1102、1117、1128のそれぞれに対してH−RP構造抽出を適用する。その結果図17、18、21のようなH−RP構造が抽出される。次にループ1305により各ノードの見出し度が算出される。この時、ノード1103、1118、1167は周囲に同フォントのテキストがない、直後に繰り返しパターンが現れている、直前が矩形の境界であるなどの理由で見出し度が高くなる。次に繰り返しパターン検出ステップ1307を適用する。繰り返しパターン判定ステップ1504において、見出し度の高いノードに対して1603〜1605の処理がなされ、見出しノードの類似度が高く、各項目に見出しノードが持つ特徴より極端に目立つ見出し的な特徴を持つ部分がないので、結果として図22のようなH−RP構造が抽出される。
上の過程で得られたH−RP構造を言葉で簡単に説明する。図18のH−RP構造は、それぞれ「コード」、「企業名」という見出しがついている2つのリストが横に並んでいる構造である。図19のH−RP構造は、それぞれ「順位」、「コード」、「銘柄」、「前日比」という見出しがついている4つのリストが横に並んでいる構造である。図20のH−RP構造は、それぞれ「順位」、「コード」、「銘柄」、「出来高」という見出しがついている4つのリストが横に並んでいる構造である。図21のH−RP構造は、図19のH−RP構造に見出しとして「値上がり率」が、図20のH−RP構造に見出しとして「出来高」がついたものが縦に並び、さらに図19、20の繰り返し構造が同じ内部構造をもっているために中の要素同士が並列関係で結び付けられている構造である。図22のH−RP構造は、3つのH−RP構造(2番目は図18のH−RP構造で、3番目は図21のH−RP構造)に見出しとしてそれぞれ「各種指数」、「新規上場企業」、「株式ランキング」がつけられ、それが縦に並んだ構造である。
「文書構造を用いた文書検索手法」
本発明の文書検索手法は図23に示すような構成のシステムで実施される。検索サーバ2310は、検索対象となる文書とそれに対して上記文書構造抽出手法を適用して得られるH−RP構造とを組にして文書データベース2301に保存しておく。検索クライアント2311は、ユーザから入力装置2309によって入力される検索クエリーを、ネットワーク2304を通じて検索サーバ2310に渡し、検索サーバ2310が返す検索結果を表示装置2308に表示する。検索サーバ2310は検索クエリーを受け取ると、検索処理を行ってその結果を検索クライアント2310に返す。結果は適合文書の参照情報と要約文書からなり、要約文書は検索サーバが生成する。検索クライアントは一つの検索サーバに対しいくつあってもよい。
本手法の検索機能には三つの形態がある。
第一形態は検索クエリーとして複数の単語がANDやORなどの論理演算子で結び付けられた論理検索式を受け取り、それに対する文書データベース内の各文書の適合度を算出して適合度順に文書を並べるものである。適合度算出の流れを図24に示す。まず文書が論理検索式の条件を満たすかどうか調べ(2402)、もし満たしていれば各単語の出現頻度に応じてスコアを算出し(2404)、さらに複数の単語が文書構造中で上下関係もしくは並列関係にあるノードの中で現れていればスコアを増加させる(2405)。
例を用いて第一形態の適合度計算を具体的に説明する。対象の文書は図22の文書構造を持つ文書であるとする。これと検索式1「A指数 AND E指数」、検索式2「各種指数 AND 新規上場企業」、検索式3「新規上場企業 AND A社」、検索式4「A社 AND B社」、検索式5「A社 AND H社」との適合度を算出することを考える。まず検索式1は「E指数」という単語が文書中に出現しないので(2403でFalse)、適合度は0になる(2406)。検索式2は「各種指数」「新規上場企業」という単語がともに現れ、さらにこれらが並列関係にあり、またこれらが繰り返しパターン中で見出しとなっていることから、適合度は高い。検索式3は「新規上場企業」「A社」という単語がともに現れ、さらにこれらが上下関係にあるので適合度は高いが、「A社」が文書構造中で下の方の階層にありさらに見出しでないので、検索式2よりは適合度が低くなる。検索式4は「A社」「B社」という単語がともに現れ、さらにこれらが並列関係にあるが、ともに見出しでないので検索式3より適合度が低くなる。検索式5は「A社」「H社」という単語がともに現れるが、これらの間には上下関係も並列関係もないため、検索式4より適合度が低くなる。
第二形態は検索クエリーとして複数の上記の論理検索式を上下関係および並列関係で結びつけたものを受け取り、それに対する各文書の適合度を算出して適合度順に文書を並べるものである。検索クエリーは図25のようなデータ構造を持ち、上下関係は検索クエリノード2504の親子関係で、並列関係はH−RP構造検索クエリー2501のノード並列関係属性2503で表される。適合度算出の流れを図26に示す。まず検索クエリーの各検索論理式がH−RP構造においてある一つのノード内で満たされているかどうかを調べ(2602)、もしすべての検索論理式が満たされていれば次にそれらのノードの上下関係および並列関係を調べ、それが検索クエリーによって表される上下並列関係になっているかどうかを調べ(2604)、もしそうであれば論理式を満たすノード数、適合する単語数、見出しかどうか、ノードの階層をもとに適合度を算出する。
例を用いて第二形態の適合度計算を具体的に説明する。対象の文書は図22の文書構造を持つ文書であるとする。これと図27、28、29で示される検索クエリーとの適合度を算出することを考える。図27で示される検索クエリーは、新規上場企業という単語はノード2216に、A社という単語はノード2221に、F社という単語はノード2236に現れるが、ノード2216とノード2236は上下関係にないので、適合度は0となる。図28で示される検索クエリーは、新規上場企業という単語はノード2216に、A社という単語はノード2221に、B社という単語はノード2223に現れ、さらに2216と2221、2223は上下関係にあり、2221と2223は並列関係にあるため、適合度は高い。図29に示される検索クエリーは、銘柄という単語はノード2232、2250に、L社という単語はノード2254に、M社という単語はノード2258に現れ、ノード2250と2254、2258は上下関係にあり、2254と2258は並列関係にあるため、適合度は高いが、階層が低いため図28に示される検索クエリーよりは適合度が低くなる。
第三形態は検索クエリーとして第一形態と同じ論理検索式を受け取り、それに対する各文書の適合度を算出するとともに、検索式に含まれる各単語の文書構造中での出現位置を調べて、各出現位置の文書構造内の関係によって検索結果を分類するものである。検索式の各単語の出現位置の文書構造内の関係を取り出す処理を図30に示す。まず各単語の出現位置を全て調べ(3002)、次にそれらの位置が文書構造中で上下関係もしくは並列関係を持っていればそれを記憶しておく(3003)。それぞれの文書についてこの位置関係を取得し、同じ位置関係を持つ文書同士をグループにして、位置関係を図式化したものと文書に関する各種情報と文書の要約を、検索結果とする。
例を用いて第三形態の位置関係取得を具体的に説明する。対象の文書は図22の文書構造を持つ文書であるとする。これに対する検索式「新規上場企業 AND A社 AND B社」の位置関係を取得することを考える。まず新規上場企業という単語はノード2216に、A社という単語はノード2221に、B社という単語はノード2223に現れ、2216と2221、2223は上下関係にあり、2221と2223は並列関係にあることから、それらの関係を表すと図28のような位置関係が取得される。
本システムの文書要約生成ステップは検索クエリーに含まれるそれぞれの単語の文書構造中の出現位置の上下関係、並列関係を視覚的に表す形で、その単語の近傍の文章とともに表示する。この処理を図31に示す。まず検索クエリーに含まれる単語の文書中の出現位置を全て調べる(3102)。これらのノードは全て要約文書を構成するノードになる。次に各出現位置について、それが繰り返しパターン中のノードであれば、そのノードの全ての上位ノード(祖先ノード)とそれらの直前直後の並列関係にあるノード(兄弟ノード)を、全て要約文書を構成するノードとして含める(3105)。次に各ノードを表す文字列を設定する。出現ノードの祖先およびその兄弟ノードについては、文字列をそのノードの先頭n単語とする(3106)。出現ノードについては、検索クエリー中の単語の前後m単語とする(3107)。最後に、要約文書を構成するノードの間で上下関係および並列関係があれば、それらをその関係で結びつける(3108)。
例を用いて文書要約生成を具体的に説明する。対象の文書は図22の文書構造を持つ文書、検索式は「新規上場企業 AND A社」とする。まずステップ3102で検索式に含まれる全ての単語の出現位置を調べる。「新規上場企業」という単語はノード2216に、「A社」という単語はノード2221に出現している。次にループ3103で、この二つのノードについてステップ3104〜3107を適用する。これらのノードは繰り返しパターン中のノードなので、まずステップ3105が適用される。ノード2216の祖先ノードはなく、直前直後の兄弟ノードは2202と2226である。ノード2221の祖先ノードは2219、2216であり、2221の直前直後の兄弟ノードは2223、2219の直前直後の兄弟ノードは2218、2216の直前直後の兄弟ノードは2202と2226である。これらを合わせると、要約文書を構成するノードは2202、2216、2226、2218、2219、2221、2223となる。ステップ3106、3107ではこれらのノードに対して文字列が設定されるが、この場合はどのノードに含まれる文字列も短いので、それがそのまま表示文字列として設定される。最後にステップ3108で上下並列関係を付け加え、ステップ3109で各ノードに対し矩形領域が付加される。最終的に、要約文書は図32のようになる。
検索結果に要約文書を付加することにより、文書の構造および検索クエリーの単語が文書の構造中にどのような形で出現しているかが視覚的に分かるようになる。
「文書構造を用いた非文章オブジェクトへの単語関連付け手法」
本発明の文書構造を用いた非文章オブジェクトへの単語関連付け手法の処理の流れを図33に示す。非文章オブジェクトが連続パターンの中で出現していない場合は、オブジェクトの近傍のn単語をオブジェクトに関連付ける(3307)。オブジェクトが連続パターンの中で出現している場合は、近傍のn単語のほかに、祖先ノード、祖先ノードと並列関係にあるノード、およびオブジェクトの近傍のテキストノードと並列関係にあるノードに出現する単語も関連付ける(3306)。この場合、それぞれのノードに含まれるテキストの長さ、オブジェクトが出現しているノードとの近さなどによって関連付けの値を増減させる。テキストが短くオブジェクトが出現しているノードと近いほど、関連付けの値を大きくする。
例を用いて文書構造を用いた非文章オブジェクトへの単語関連付け手法を具体的に説明する。対象の文書は図34の文書構造を持つ文書とする。この文書中の画像3402への単語関連付けを考える。この画像は繰り返しパターン中に現れているので、ステップ3306が適用される。画像3402の祖先ノードは3401であり、その兄弟ノードは3408、近傍のテキストノードは3403であり、それと並列関係にあるノードは3405、3407である。よって画像3402に関連付けられる単語は値の高い順に「犬」、「動物」、「猫」、「馬」、「植物」となる。同じく、画像3404に関連付けられる単語は値の高い順に「猫」、「動物」、「犬」=「馬」、「植物」、画像3406に関連付けられる単語は値の高い順に「馬」、「動物」、「猫」、「犬」、「植物」となる。
「非文章オブジェクトの単語による検索手法」
本発明の文書構造を用いた非文章オブジェクトの単語による検索手法は、図23に示す構成のシステムにより実施される。検索サーバ2310は、検索対象となる非文章オブジェクト、それを含む文書、およびそれに関連付けられた単語集合を組にして文書データベース2301に保存しておく。検索クライアント2311は、ユーザから入力装置2309によって入力される検索クエリーを、ネットワーク2304を通じて検索サーバ2310に渡し、検索サーバ2310が返す検索結果を表示装置2308に表示する。検索サーバ2310は検索クエリーを受け取ると、検索処理を行ってその結果を検索クライアント2310に返す。結果は適合オブジェクトの参照情報である。検索クライアントは一つの検索サーバに対しいくつあってもよい。
検索サーバ2310における検索処理は、検索クエリーとして複数の単語がANDやORなどの論理演算子で結合された論理検索式を受け取り、文書データベース2301内の各非文章オブジェクトに対する適合度を計算し、適合度順に並び替える。適合度の計算の処理を図35に示す。まず非文章オブジェクトが論理検索式の条件を満たしているかどうかを調べる(3502)。もし満たしていなければ適合度は0になる。次に論理検索式の各単語に対し、単語の適合度スコアを計算する。もし単語が非文章オブジェクトと関連付けられていればその値を、そうでなければ定数値を累計適合度の値に足す。この定数値は、関連付けの値より小さく設定される。
例によって非文章オブジェクトと論理検索式の適合度計算を具体的に説明する。検索対象の非文章オブジェクトは図34の画像3402、3404、3406であるとする。検索式「猫」に対しては、三つの画像全てに「猫」という単語が関連付けられているが、関連付けの値は画像3404が一番大きいので、適合度も3404が一番大きくなる。検索式「動物」に対しては三つの画像全てに「動物」という単語が関連付けられており、関連付けの値も全て等しいので、適合度も全て等しくなる。画像3404については、検索式「猫」よりも適合度は低くなる。検索式「シダ」については三つの画像全て「シダ」という単語は関連付けられておらず、適合度は全て等しくなり、上二つの検索式と比べて適合度は低くなる。
Web検索やデスクトップ検索などの検索エンジン、文書管理システムに適用可能である。
文書構造抽出手法の処理を示す図である。 文書構造抽出において用いる共通文書形式の例であるTL形式の定義を示す図である。 電子文書のTL形式への変換の処理を示す図である。 HTML文書のTL形式への変換の処理を示す図である。 HTML文書とスタイル情報からTL形式へ変換する処理を示す図である。 HTML文書のTL形式への変換におけるTL形式の行を生成する処理を示す図である。 電子文書のTL形式への変換の具体例の説明に用いる、HTML文書の図である。 図7のHTML文書が参照するスタイルシートの図である。 図7のHTML文書のWebブラウザでのレンダリング画像の図である。 図7のHTML文書から変換されたTL形式の一部の図である。 図7のHTML文書から変換されたTL形式の全体の図である。 文書構造抽出において用いる文書構造の例であるH−RP構造の定義を示す図である。 TL形式文書からH−RP構造を抽出する処理を示す図である。 TLノードの見出し度を計算する処理を示す図である。 H−RPノード配列から繰り返しパターンを検出する処理を示す図である。 H−RPノード配列のあるノードを基準とする繰り返しパターンを検出する処理を示す図である。 図11のTL形式から抽出されるH−RP構造の一部の図である。 図11のTL形式から抽出されるH−RP構造の一部の図である。 図11のTL形式から抽出されるH−RP構造の一部の図である。 図11のTL形式から抽出されるH−RP構造の一部の図である。 図11のTL形式から抽出されるH−RP構造の一部の図である。 図11のTL形式から抽出されるH−RP構造全体の図である。 文書構造を用いた文書検索手法の構成図である。 文書検索手法の第一形態における論理検索式に対する文書の適合度の計算の処理を示す図である。 文書構造検索の検索クエリーの定義を示す図である。 文書検索手法の第二形態における文書構造検索クエリーに対する文書の適合度の計算の処理を示す図である。 文書構造検索クエリーの1例の図である。 文書構造検索クエリーの1例の図である。 文書構造検索クエリーの1例の図である。 文書検索手法の第三形態における単語出現位置関係を取得する処理を示す図である。 検索クエリーに対する文書の要約を生成する処理を示す図である。 検索クエリーに対する文書の要約の1例の図である。 非文章オブジェクトへの単語の関連付け手法の処理を示す図である。 非文章オブジェクトへの単語の関連付けの具体例の説明に用いる、TL形式の1例である。 非文章オブジェクトの単語による検索手法の処理を示す図である。
符号の説明
101:抽出対象の電子文書、102:共通文書形式変換ステップ、103:文書構造抽出ステップ、104:抽出された文書構造、201:TLノード、1201:H−RPノード、1301:抽出対象のTL形式、1306:見出し度計算ステップ、1307:繰り返しパターン検出ステップ、1309:要素対応付けステップ、2304:ネットワーク、2310:検索サーバ、2311:検索クライアント、2407:文書検索手法の第一形態における適合度、2608:文書検索手法の第二形態における適合度、3004:文書検索手法の第三形態における単語出現位置関係、3508:非文章オブジェクトの単語による検索手法における適合度。

Claims (20)

  1. 電子文書の文書データの入力を受け、該電子文書から文字列または非文章オブジェクトを含む複数の要素のレイアウトの解析により、前記複数の要素のうち見出し部分および類似部分の繰り返し領域を検出して同形式の要素が並ぶ繰り返しパターンを抽出する第1のステップと、
    該繰り返しパターン内の見出しと内容部分を上下関係にある前記要素として関係付け、また繰り返しパターンに含まれる類似の要素同士を対応付けそれらを並列関係にある前記要素として関係付け、該要素間の関係の集合を前記電子文書の文書構造として格納する第2のステップとを有する文書構造抽出方法。
  2. 請求項1記載の文章構造抽出方法であって、前記第1のステップにおいて、入力された文書データに含まれる各要素を行要素またはテーブル要素のいずれかに分類する共通データ構造への変換を含み、該変換された共通データ構造に基づいて前記見出し部分及び類似部分の繰り返し領域の検出を行うことを特徴とする文書構造抽出方法。
  3. 請求項1記載の文書構造抽出方法であって、前記見出し部分の検出は、文書要素の周辺との差異、周辺に存在する空白、周辺に存在する繰り返しパターン、要素の複雑度合いなどから算出されるスコアと、その要素が繰り返しパターンの中に含まれそのパターンの項目の見出しとして出現しているかどうかの判定により行うことを特徴とする文書構造抽出方法。
  4. 請求項1記載の文書構造抽出方法であって、前記類似部分の検出は、葉ノード同士の類似度を文字の色や大きさ、背景色などの属性値の違いにより計算し、全体の類似度を前述の類似度を用いて計算される木構造距離によって計算することにより行うことを特徴とする文書構造抽出方法。
  5. 請求項1記載の文書構造抽出方法であって、前記文書データに含まれる非文章オブジェクトについて、該文書データ中から該非文章オブジェクトに関連する単語の集合、および該単語ごとの該非文章オブジェクトとの関連の度合いを表す値も生成し、該非文章オブジェクトと対応付けて格納する第3のステップを有することを特徴とする文書構造抽出方法。
  6. 電子文書と、該電子文書中の文字列または非文章オブジェクトの要素を見出し部分及び類似部分を基に抽出した該電子文書の文書構造とを対応付けて保存する文書データベースを有する文書検索システムにおける文書検索方法であって、
    複数の単語を含む検索クエリーの入力を受け、該複数の単語に適合する電子文書を検索して出力する検索処理ステップと、
    前記検索クエリーに含まれるそれぞれの単語の前記検索結果の電子文書中における出現部分の前記文書構造中の位置を参照し、前記複数の単語のそれぞれの文書構造中の位置の関係に基づいて前記検索結果の電子文書の要約文書を作成する要約文書生成ステップとを含むことを特徴とする文書検索方法。
  7. 請求項6記載の文書検索方法であって、前記非文章オブジェクトは単語と対応付けて格納されており、前記検索クエリーに含まれる単語がいずれかの非文章オブジェクトに対応付けて格納された単語と適合する場合には、該適合する単語に対応付けられた非文章オブジェクトを用いて前記要約文書を作成することを特徴とする文書検索方法。
  8. 請求項6記載の文書検索方法であって、前記検索クエリーとして複数単語が論理演算子によって結合された論理検索式を受け取り、該論理検索式に対する各電子文書の文書構造の適合度を計算し、該適合度順に文書を並べたものを検索結果とすることを特徴とする文書検索方法。
  9. 請求項6記載の文書検索方法であって、前記検索クエリーとして複数の論理検索式が上下または並列の関係によって結合された構造検索クエリーを受け取り、該構造検索クエリーに対する各電子文書の文書構造の適合度を計算し、該適合度順に文書を並べたものを検索結果とすることを特徴とする文書検索方法。
  10. 請求項6記載の文書検索方法であって、前記検索クエリーとして論理検索式を受け取り、該検索クエリーに含まれる複数の単語を含む電子文書を抽出し、該抽出された電子文書の文書構造中において前記論理検索式に含まれる各単語が出現する位置関係を取得し、該位置関係によって文書を分類したものを検索結果とすることを特徴とする文書検索方法。
  11. 複数の電子文書の文書データを格納する記憶装置と演算部とを有する文書構造抽出サーバであって、
    前記演算部は、
    前記記憶装置から電子文書の文書データを読み出し、該電子文書から文字列または非文章オブジェクトを含む複数の要素のレイアウトの解析により、前記複数の要素のうち見出し部分および類似部分の繰り返し領域を検出して同形式の要素が並ぶ繰り返しパターンを抽出し、
    該繰り返しパターン内の見出しと内容部分を上下関係にある前記要素として関係付け、また繰り返しパターンに含まれる類似の要素同士を対応付けそれらを並列関係にある前記要素として関係付け、該要素間の関係の集合を前記電子文書の文書構造として前記記憶装置に格納することを特徴とする文書構造抽出サーバ。
  12. 請求項11記載の文章構造抽出サーバであって、前記演算部は、前記入力された文書データに含まれる各要素を行要素またはテーブル要素のいずれかに分類する共通データ構造への変換を含み、該変換された共通データ構造に基づいて前記見出し部分及び類似部分の繰り返し領域の検出を行うことを特徴とする文書構造抽出サーバ。
  13. 請求項11記載の文書構造抽出サーバであって、前記演算部は、前記見出し部分の検出は、文書要素の周辺との差異、周辺に存在する空白、周辺に存在する繰り返しパターン、要素の複雑度合いなどから算出されるスコアと、その要素が繰り返しパターンの中に含まれそのパターンの項目の見出しとして出現しているかどうかの判定により行うことを特徴とする文書構造抽出サーバ。
  14. 請求項11記載の文書構造抽出サーバであって、前記演算部は、前記類似部分の検出は、葉ノード同士の類似度を文字の色や大きさ、背景色などの属性値の違いにより計算し、全体の類似度を前述の類似度を用いて計算される木構造距離によって計算することにより行うことを特徴とする文書構造抽出サーバ。
  15. 請求項11記載の文書構造抽出サーバであって、前記演算部は、前記文書データに含まれる非文章オブジェクトについて、該文書データ中から該非文章オブジェクトに関連する単語の集合、および該単語ごとの該非文章オブジェクトとの関連の度合いを表す値も生成し、該非文章オブジェクトと対応付けて格納する第3のステップを有することを特徴とする文書構造抽出サーバ。
  16. 電子文書と、該電子文書中の文字列または非文章オブジェクトの要素を見出し部分及び類似部分を基に抽出した該電子文書の文書構造とを対応付けて保存する文書データベースを格納する記憶装置と、演算部とを有する文書検索サーバであって、
    前記演算部は、複数の単語を含む検索クエリーの入力を受け、前記記憶装置から該複数の単語に適合する電子文書を検索し、
    前記検索クエリーに含まれるそれぞれの単語の前記検索結果の電子文書中における出現部分の前記文書構造中の位置を参照し、前記複数の単語のそれぞれの文書構造中の位置の関係に基づいて前記検索結果の電子文書の要約文書を作成し、
    前記検索された電子文書とその要約文書とを出力することを特徴とする文書検索サーバ。
  17. 請求項16記載の文書検索サーバであって、前記非文章オブジェクトは単語と対応付けて前記記憶装置に格納されており、前記演算部は、前記検索クエリーに含まれる単語がいずれかの非文章オブジェクトに対応付けて格納された単語と適合する場合には、該適合する単語に対応付けられた非文章オブジェクトを用いて前記要約文書を作成することを特徴とする文書検索サーバ。
  18. 請求項16記載の文書検索サーバであって、前記演算部は、前記検索クエリーとして複数単語が論理演算子によって結合された論理検索式を受け取り、該論理検索式に対する各電子文書の文書構造の適合度を計算し、該適合度順に文書を並べたものを検索結果とすることを特徴とする文書検索サーバ。
  19. 請求項16記載の文書検索サーバであって、前記演算部は、前記検索クエリーとして複数の論理検索式が上下または並列の関係によって結合された構造検索クエリーを受け取り、該構造検索クエリーに対する各電子文書の文書構造の適合度を計算し、該適合度順に文書を並べたものを検索結果とすることを特徴とする文書検索サーバ。
  20. 請求項16記載の文書検索サーバであって、前記演算部は、前記検索クエリーとして論理検索式を受け取り、該検索クエリーに含まれる複数の単語を含む電子文書を抽出し、該抽出された電子文書の文書構造中において前記論理検索式に含まれる各単語が出現する位置関係を取得し、該位置関係によって文書を分類したものを検索結果とすることを特徴とする文書検索サーバ。
JP2006112894A 2006-04-17 2006-04-17 文書構造抽出方法および文書検索方法 Pending JP2007286861A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006112894A JP2007286861A (ja) 2006-04-17 2006-04-17 文書構造抽出方法および文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006112894A JP2007286861A (ja) 2006-04-17 2006-04-17 文書構造抽出方法および文書検索方法

Publications (1)

Publication Number Publication Date
JP2007286861A true JP2007286861A (ja) 2007-11-01

Family

ID=38758576

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006112894A Pending JP2007286861A (ja) 2006-04-17 2006-04-17 文書構造抽出方法および文書検索方法

Country Status (1)

Country Link
JP (1) JP2007286861A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012168892A (ja) * 2011-02-16 2012-09-06 Shigenori Tanaka グループ化装置およびエレメント抽出装置
WO2016125949A1 (ko) * 2015-02-02 2016-08-11 숭실대학교 산학협력단 문서 자동 요약 방법 및 서버
CN110287379A (zh) * 2019-06-17 2019-09-27 中电科大数据研究院有限公司 一种基于逻辑树的表格拆分与数据提取方法
KR102187554B1 (ko) * 2019-08-27 2020-12-07 주식회사 한글과컴퓨터 스프레드시트 상에서 지정된 두 영역 간의 유사도 측정이 가능한 전자 장치 및 그 동작 방법
JP2021500664A (ja) * 2017-10-26 2021-01-07 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 方法、システム、およびコンピュータ・プログラム(クエリ処理)
CN112464108A (zh) * 2020-12-03 2021-03-09 重庆理工大学 一种众包知识共享社区的资源推荐方法
CN113642320A (zh) * 2020-04-27 2021-11-12 北京庖丁科技有限公司 文档目录结构的提取方法、装置、设备和介质
US11645448B2 (en) 2019-03-29 2023-05-09 Nec Corporation Document analysis apparatus, document analysis method, and computer-readable recording medium

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012168892A (ja) * 2011-02-16 2012-09-06 Shigenori Tanaka グループ化装置およびエレメント抽出装置
WO2016125949A1 (ko) * 2015-02-02 2016-08-11 숭실대학교 산학협력단 문서 자동 요약 방법 및 서버
JP2021500664A (ja) * 2017-10-26 2021-01-07 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 方法、システム、およびコンピュータ・プログラム(クエリ処理)
JP7141191B2 (ja) 2017-10-26 2022-09-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 方法、システム、およびコンピュータ・プログラム(クエリ処理)
US11645448B2 (en) 2019-03-29 2023-05-09 Nec Corporation Document analysis apparatus, document analysis method, and computer-readable recording medium
CN110287379A (zh) * 2019-06-17 2019-09-27 中电科大数据研究院有限公司 一种基于逻辑树的表格拆分与数据提取方法
CN110287379B (zh) * 2019-06-17 2022-12-06 中电科大数据研究院有限公司 一种基于逻辑树的表格拆分与数据提取方法
KR102187554B1 (ko) * 2019-08-27 2020-12-07 주식회사 한글과컴퓨터 스프레드시트 상에서 지정된 두 영역 간의 유사도 측정이 가능한 전자 장치 및 그 동작 방법
CN113642320A (zh) * 2020-04-27 2021-11-12 北京庖丁科技有限公司 文档目录结构的提取方法、装置、设备和介质
CN112464108A (zh) * 2020-12-03 2021-03-09 重庆理工大学 一种众包知识共享社区的资源推荐方法
CN112464108B (zh) * 2020-12-03 2024-04-02 重庆理工大学 一种众包知识共享社区的资源推荐方法

Similar Documents

Publication Publication Date Title
US8719291B2 (en) Information extraction using spatial reasoning on the CSS2 visual box model
Gatterbauer et al. Towards domain-independent information extraction from web tables
US9069855B2 (en) Modifying a hierarchical data structure according to a pseudo-rendering of a structured document by annotating and merging nodes
US7904455B2 (en) Cascading cluster collages: visualization of image search results on small displays
US7861151B2 (en) Web site structure analysis
US10664530B2 (en) Control of automated tasks executed over search engine results
JP2007286861A (ja) 文書構造抽出方法および文書検索方法
Wu et al. Automatic web content extraction by combination of learning and grouping
US20130339840A1 (en) System and method for logical chunking and restructuring websites
CN105912684B (zh) 基于视觉特征和语义特征的跨媒体检索方法
JP2005063432A (ja) マルチメディアオブジェクト検索装置およびマルチメディアオブジェクト検索方法
WO2020101479A1 (en) System and method to detect and generate relevant content from uniform resource locator (url)
CN105808615A (zh) 一种基于分词权重的文档索引生成方法和装置
Flesca et al. Exploiting structural similarity for effective web information extraction
JP2008197952A (ja) テキストセグメンテーション方法,その装置,そのプログラムおよびコンピュータ読み取り可能な記録媒体
Zeng et al. A web page segmentation approach using visual semantics
Nie et al. Webpage understanding: beyond page-level search
Srinath An Overview of Web Content Mining Techniques
Adefowoke Ojokoh et al. Automated document metadata extraction
Negm et al. A survey of web information extraction tools
Sabri et al. A performance of comparative study for semi-structured web data extraction model
Boddu ELIMINATE THE NOISY DATA FROM WEB PAGES USING DATA MINING TECHNIQUES.
Zeng et al. Layout-tree-based approach for identifying visually similar blocks in a web page
Jian-Wu A Chinese web page clustering algorithm based on the suffix tree
ZHENG et al. Filtering noise in Web pages based on parsing tree