JP2009193571A - ウェブ・ページ・コンテンツを抽出するために用いられる方法および装置 - Google Patents

ウェブ・ページ・コンテンツを抽出するために用いられる方法および装置 Download PDF

Info

Publication number
JP2009193571A
JP2009193571A JP2008324056A JP2008324056A JP2009193571A JP 2009193571 A JP2009193571 A JP 2009193571A JP 2008324056 A JP2008324056 A JP 2008324056A JP 2008324056 A JP2008324056 A JP 2008324056A JP 2009193571 A JP2009193571 A JP 2009193571A
Authority
JP
Japan
Prior art keywords
target
dda
dir
web page
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008324056A
Other languages
English (en)
Inventor
Cheng Du
ドゥ チョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of JP2009193571A publication Critical patent/JP2009193571A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】
本発明では、従来の技術よりも最適のウェブ・ページ抽出結果が得られるウェブ・ページ・コンテンツを抽出するために用いられる方法および装置を提供することを目的とする。
【解決手段】
本発明は、ウェブ・ページ・コンテンツを抽出するために用いられる方法および装置を開示した。前記方法は、ディジタル・ドキュメント解析(DDA)方法に基づいてウェブ・ページ入力用のウェブ・ページ・コンテンツを抽出してDDA抽出結果を生成させることと、ドキュメント画像識別(DIR)方法に基づいてウェブ・ページ入力用のウェブ・ページ・コンテンツを抽出してDIR抽出結果を生成させることと、前記DDA抽出結果とDIR抽出結果とを融合して融合結果を生成させることと、を含む。
【選択図】図2

Description

本発明はウェブ・ページ処理に関するものであり、より具体的にいえば、本発明はウェブ・ページ・コンテンツを抽出するために用いられる装置および方法に関するものである。
現在、インターネットはすでに最大の情報供給源として、人々の日常生活にとって欠かせないほど依存度の高いネットワークになりつつあってきた。ネットワークの普及に伴い、ウェブ・ページ・コンテンツ抽出(ウェブ・ページ分割ともいう)の応用もますます幅広く展開してきた。
例をあげてみると、ウェブ・ページ・コンテンツを抽出することにより、ウェブ・ページの検索速度をさらに速めさせ、検索の結果をより正確にすることが可能になる。従来のテキスト・ドキュメントと比較してみると、ウェブ・ページのコンテンツは更なる多様化が図れ、同一のウェブ・ページの異なる領域にも、それぞれ違うテーマを含むことが可能になった。また、閲覧や発布の必要に応じて、ウェブ・ページにはテーマと関連付けになっていないコンテンツ、例えば、広告、グローバルナビゲーションバー、デザイン、版権情報及び連絡方法など、さまざまなコンテンツも多く掲載している。以上のようなウェブ・ページの特徴によっては、ウェブ・ページ全体を1つの情報検索ユニットとして利用することと比べて、ウェブ・ページを分割して、各々の分割ユニットを単独の情報検索ユニットとして利用することは、より正確なウェブ・ページの検索結果が得られる。また、ウェブ・ページを分割することよって、ウェブ・ページのテーマと関連付けになっていないコンテンツを排除することができるため、ウェブ・ページの検索速度をさらに速めさせ、検索の結果をより正確にすることが図れる。
また、もう1つの例をあげてみると、ウェブ・ページ・コンテンツを抽出することは、携帯設備からウェブ・ページを閲覧することにも応用することができる。ここ数年以来、携帯設備、例えば、ハンドヘルド・パソコン、携帯情報端末(PDA)、モバイル電話など、急速に発展してきた。しかし、携帯設備でインターネットへアクセスする場合は、ディスプレイ自体が小さすぎるため、多くの制限を余儀なく受けている。従来のウェブ・ページとしては、いずれもパーソナル・コンピューターを対象にして設計したものであったため、携帯設備を所有するユーザーにとっては、必要な情報を捜すのに、絶えずにウェブ・ページをスクロールする必要があった場合、インターネットへのアクセスの無味乾燥や煩雑さに悩まされる。一方、ウェブ・ページを分割することにより、ウェブ・ページのコンテンツを各々のブロックとして携帯設備に表示することができるので、この問題を解決した。
なお、ユーザーは既存のドキュメントを利用して新規ドキュメントを作成したい場合、既存の版面を分割することが欠かせない手順になる。
また、幅広い応用背景として、ユーザーはウェブ・ページ・コンテンツ抽出を必要とするニーズがかなり高い。研究者はすでにウェブ・ページ・コンテンツ抽出に利用するシステムや方法を開示した。
例えば、米国特許出願公報No.2006/0149775A1では、ドキュメント表示可能モデルに基づくドキュメント分割方法を開示した。前記方法としては、ドキュメントにおいて表示可能なブランクまたはピッチによって表示可能モデルを確定し、また、前記表示可能モデルを利用してドキュメントの階層構造を確定し、さらに、確定した階層構造を利用してドキュメントを分割する。しかし、論理構造と物理構造が異なるドキュメントに対して、前記方法としては分割ミスが生じやすい。
また、例えば、米国特許出願公報No.2006/0106798A1では、上から下へ、タグ・ツリーと関連付けがなく、ウェブ・ページ構造の検出に用いられる方法を開示した。前記方法としては、ターゲットのサイズ、ポジション、カラーおよびバックグラウンドなどに基づき、投影方法をもってドキュメントを複数のブロックに分割した後、ブロック間の視覚相似レベルを比較してから、それをより小さいブロックとして分割するか、あるいは他のブロックとマージングするかを判断する。
また、既存のドキュメント・コンテンツ抽出方法は主に2種類として分けられる。第一の方法はドキュメント画像処理を重視するため、画像処理方法を利用してドキュメント・コンテンツ抽出への実現を図る。本文では、このような方法をドキュメント画像処理(DIR)方法という。第二の方法はドキュメント・フォーマット解析を重視するため、入力ドキュメントで表示したドキュメント構造を解析してコンテンツを抽出する。本文では、このような方法をディジタル・ドキュメント解析(DDA)という。
米国特許出願公報No.2003/0215136A1 米国特許出願公報No.2006/0149775A1 米国特許出願公報No.2006/0106798A1 JL Fisher,SC HinDs anD DP D’amato,"A rule−baseD systemfor Document imaGe seGmentation",Proc.10th ICPR,第567−572ページ,1990年7月 DenG Cai,ShipenG Yu,Ji−RonG Wen anD Wei−YinG Ma,"ExTRactinGContent STRucture for Web PaGes baseD on Visual Representation",The Fifth Asia PacificWeb Conference(APWeb2003),2003年
しかし、DDA方法とDIR方法としては、いずれも限界があった。
そこで、本発明では、従来の技術よりも最適のウェブ・ページ抽出結果が得られるウェブ・ページ・コンテンツを抽出するために用いられる方法および装置を提供することを目的とする。
本発明はウェブ・ページ・コンテンツ抽出方法を開示した。当該方法は、DDA方法とDIR方法によるウェブ・ページ抽出結果を融合することができるため、当該2方法よりも最適のウェブ・ページ抽出結果が得られる。本発明はウェブ・ページ検索に用いられ、また、ウェブ・ページ分割、ウェブ・ページ情報に関するドキュメント・ソリューションとして利用することもできる。
また、本発明の1つを備えたウェブ・ページ・コンテンツ抽出方法は、ディジタル・ドキュメント解析(DDA)方法に基づいてウェブ・ページ入力用のウェブ・ページ・コンテンツを抽出してDDA抽出結果を生成させることと、ドキュメント画像識別(DIR)方法に基づいてウェブ・ページ入力用のウェブ・ページ・コンテンツを抽出してDIR抽出結果を生成させることと、前記DDA抽出結果とDIR抽出結果とを融合して融合結果を生成させることとを含む。その中、抽出結果は少なくとも1つのターゲットの集合として表し、前記ターゲットはウェブ・ページにおける矩形領域と相応するウェブ・ページ・コンテンツを代表し、前記ターゲットは少なくとも該当する矩形領域のポジション情報と前記ターゲットのタイプ情報とを含み、並びに前記タイプは文字と、グラフィックとテーブルとを含む。
また、本発明の1つを備えた前記DDA抽出結果とDIR抽出結果とを融合することは、DDAターゲットとDIRターゲットとの対応関係を確定することと、DDAターゲットとDIRターゲットとの対応関係およびDDAターゲットとDIRターゲットのタイプに基づいてDDA抽出結果とDIR抽出結果との融合を実行することとを含む。その中、DDAターゲットとDIRターゲットとの対応関係を確定することは、DDAターゲットとDIRターゲットとのオーバーラップ・サイズを算出することを含む。DIR抽出結果としてG={G1, G2, …, GM}と表し、DDA抽出結果としてD={D1, D2, …, DN}と表した場合、DDAターゲットDjとDIRターゲットGiとのオーバーラップ・サイズについては、下記の公式にて算出して求められ、すなわち、
Figure 2009193571
ここに、Area(Dj)はDjと相応する矩形領域の面積であり、Area(Gi)はGiと相応する矩形領域の面積であり、Area(Gi∩Dj)はDjと相応する矩形領域と、Giと相応する矩形領域とのオーバーラップ面積であり、並びにNとMはそれぞれDDA抽出結果およびDIR抽出結果に含まれたターゲットの個数である。
また、本発明の1つを備えた、DDA抽出結果とDIR抽出結果との融合を実行することは、DDAターゲットとDIRターゲットとの対応関係およびターゲット・タイプに基づいてDDAターゲットとDIRターゲットとを分類することと、および、ターゲットの類別によってDDA抽出結果とDIR抽出結果とを融合して融合結果を生成させることとを含む。
また、本発明の1つによれば、1つのDIRターゲットGiについては、1つのDDAターゲットDjが存在することにより、
Figure 2009193571
となり、並びにGiとDjとのタイプが同一となるならば、前記Giと前記Djとを共にマッチング類として分類する。また、1つのDIRターゲットGiについては、1つのDDAターゲットDjが存在することにより、
Figure 2009193571
となり、並びにGiとDjとのタイプが異なるならば、前記Giと前記Djとを共にタイプ・ミス類として分類する。そして、1つのDIRターゲットGiについては、すべてのDDAターゲットとも
Figure 2009193571
となるならば、前記Giをチェック抜け類として分類する。さらに、1つのDDAターゲットDjについては、すべてのDIRターゲットとも
Figure 2009193571
となるならば、前記Djをバーチャル・ウォーニング類として分類する一方、1つのDIRターゲットGiについては、
Figure 2009193571
となり、並びにそれとオーバーラップを行ったDDAターゲットとマージングした後に得られたマージング・ターゲットと、前記Giとをマッチングするならば、前記Giと、前記Giとオーバーラップを行ったDDAターゲットを分割類として分類し、ここに、Tは第一のプリセット閾値である。また、1つのDDAターゲットDjについては、
Figure 2009193571
となり、並びにそれとオーバーラップを行ったDIRターゲットとマージングした後に得られたマージング・ターゲットと、前記Djとをマッチングするならば、前記Djと、それとオーバーラップを行ったDIRターゲットとを共にマージング類として分類し、ここに、Tは第二のプリセット閾値である。さらに、上記類別以外のDDAターゲットと、DIRターゲットとを共にその他の類として分類する。
また、本発明の1つによれば、マッチング類におけるDDAターゲットを融合結果に加える。また、タイプ・ミス類におけるDIRターゲットのポジション情報と、該当するDDAターゲットのタイプ情報とを結合して新規ターゲットを生成させ、並びに前記新規ターゲットを融合結果に加える。そして、バーチャル・ウォーニング類におけるすべてのターゲットを融合結果に加える。さらに、分割類におけるDIRターゲットを融合結果に加える一方、マージング類については、DDAターゲットとオーバーラップを行ったDIRターゲットのいずれもグラフィック・タイプに属するターゲットであるならば、該当するDIRターゲットを融合結果に加える。また、DDAターゲットとオーバーラップを行ったDIRターゲットにおいてグラフィック・タイプに属するターゲットと、文字タイプに属するターゲットとの両方を含むならば、該当するDDAターゲットを融合結果に加える。そして、DDAターゲットとオーバーラップを行ったDIRターゲットのいずれも文字タイプに属するターゲットであるならば、DDAターゲットとオーバーラップを行ったDIRターゲットとマージングしてなしたマージング・ターゲットを融合結果に加える。さらに、その他の類におけるDDAターゲットを融合結果に加える。
また、本発明の1つを備えた、DDA方法に基づいてウェブ・ページ入力用のウェブ・ページ・コンテンツを抽出することは、ウェブ・ページ入力用のドキュメント・オブジェクト・モデル(DOM)ツリーを抽出し、並びに少なくともDOMツリーにおける各節点の親節点と、子節点と、タグ名と、内部文字とポジションとに関するプロパティ情報を保存することと、DOMツリーを利用してウェブ・ページ入力用の文字ターゲットと、グラフィック・ターゲットとテーブル・ターゲットとをそれぞれ抽出することを含む。一方、DOMツリーを利用して文字ターゲットを抽出することは、DOMツリーにおける各節点については、前記節点の内部文字プロパティがブランクではなく、並びに前記節点の子節点にはブロック節点を含まないならば、前記節点で表した要素を候補文字ターゲットとして確定することと、候補文字ターゲットのプロパティ情報を参考する上、確定した候補文字領域を対象にしてマージング操作を実行することによって文字ターゲットを取得することとを含み、ここに、節点のタグ名は、「INPUT」、「!」、「A」、「B」、「U」、「I」、「BIG」、「SMALL」、「FONT」、「HR」、「BR」、「PRE」、「TT」、「S」、「BLOCKQUOTE」、「ADDRESS」、「DFN」、「SAMP」、「KBD」、「VAR」、「CODE」、「CITE」、「ABBR」、「ACRONYM」、「SUB」、「SUP」、「INS」、「DEL」、「P」、「EM」、「TEXT」、「STRONG」、「/A」のいずれかの1つにも該当しないならば、前記節点はブロック節点である一方、候補文字ターゲットを対象にしてマージング操作を実行することは、ポジション上において2つの文字ターゲットをオーバーラップした場合、これらを1つの文字ターゲットとしてマージングすることと、1つの一个文字ターゲットがもう1つの文字ターゲットに含まれた場合、含まれた文字ターゲットを削除することと、2つの文字ターゲットと相応する矩形領域が垂直方向でポジションと隣接し、且つこれらのフォントおよびフォント高さのプロパティも同じ、また、これらの左側エッジ部が相互に近接し、並びに幅が相似した場合、これらを1つの文字領域としてマージングすることとを含む。
また、本発明の1つによれば、DOMツリー節点のタグ名は「IMG」となり、並びにそのサイズは第三のプリセット閾値よりも大きいならば、前記節点をグラフィック・ターゲットとして確定する一方、DOMツリー節点のタグ名は「TABLE」となり、且つ前記DOMツリー節点は少なくとも3つの「TR」子節点を含み、並びに複数の「TR」子節点は1つ以上の「TD」子節点を含む場合、前記節点をテーブル領域として確定する。
また、本発明のもう1つによって開示した、ウェブ・ページ・コンテンツを抽出するために用いられる装置は、DDA方法に基づいてウェブ・ページ入力用のウェブ・ページ・コンテンツを抽出してDDA抽出結果を生成させるディジタル・ドキュメント解析(DDA)ウェブ・ページ・コンテンツ抽出ユニットと、DIR方法に基づいてウェブ・ページ入力用のウェブ・ページ・コンテンツを抽出してDIR抽出結果を生成させるドキュメント画像識別(DIR)ウェブ・ページ・コンテンツ抽出ユニットと、前記DDA抽出結果と前記DIR抽出結果とを融合して融合結果を生成させる融合ユニットとを含む。
本発明では、従来の技術よりも最適のウェブ・ページ抽出結果が得られるウェブ・ページ・コンテンツを抽出するために用いられる方法および装置を提供することができる。
以下では、添付図を参照しながら、本発明の実施例を詳しく説明する。添付図においては、図に表示された同一の数字マークが常に同一の要素を表している。
図1は本発明の実施例を備えたウェブ・ページ・コンテンツ抽出装置100の概要構造を示す概要図である。本発明の実施例によれば、ウェブ・ページ・コンテンツ抽出装置100は、入力ユニット110と、DDAウェブ・ページ・コンテンツ抽出ユニット120と、ウェブ・ページを画像に変換する画像変換ユニット130と、DIRウェブ・ページ・コンテンツ抽出ユニット140と、およびDDAとDIR抽出結果とを融合する融合ユニット150とを含む。
一方、入力ユニット110はウェブ・ページ入力に用いられる。また、本発明の実施例によれば、入力するウェブ・ページの例として、ハイパーテキスト・タグ言語(HTML)フォーマットのウェブ・ページ・ドキュメントを利用してもよい。
また、DDAウェブ・ページ・コンテンツ抽出ユニット120は、入力ウェブ・ページを対象にして、DDA方法に基づいてウェブ・ページ・コンテンツ抽出処理を行い、DDAウェブ・ページ・コンテンツ抽出結果を生成させて出力する。
以下では、図3を参照しながら、DDAウェブ・ページ・コンテンツ抽出ユニットについて、より具体的に説明する。ウェブ・ページを画像に変換する画像変換ユニット130は、入力済みウェブ・ページを受信し、それを、入力済みウェブ・ページと同様なデザインを備えた画像ドキュメントへ変換させて出力する。
また、DIRウェブ・ページ・コンテンツ抽出ユニット140は、前記画像ドキュメントを処理し、DIRウェブ・ページ・コンテンツ抽出結果を生成させて出力する。その都度、DIRウェブ・ページ・コンテンツ抽出ユニットは任意の画像処理に基づくドキュメント・コンテンツ抽出方法をもって抽出を行うことができる。なお、画像処理に基づくドキュメント・コンテンツ抽出方法は、すでに周知になった技術であるため、ここでDIRウェブ・ページ・コンテンツ抽出ユニットに関する詳細な説明を省略する。
一方、結果融合ユニット150はDDAとDIRウェブ・ページ・コンテンツ抽出結果を受信し、2つの結果を比較してから、融合後のウェブ・ページ・コンテンツ抽出結果を生成させて出力する。
以下では、図6を参照しながら、結果融合ユニット150について、より詳しく説明する。本発明の実施例によれば、ウェブ・ページ・コンテンツ抽出結果はターゲット集合として表し、前記集合における各々のターゲットはウェブ・ページにおける1つの矩形領域内のウェブ・ページ・コンテンツを代表し、並びに前記ターゲットは前記ウェブ・ページにおける矩形領域のポジション情報およびタイプ情報を含む場合もある。また、本発明の実施例によれば、前記タイプは文字と、テーブルとグラフィックとを含む場合もある。
図2は本発明の実施例を備えたウェブ・ページ・コンテンツ抽出方法を示すフロー図である。図2を参照してみると、まず、ステップS210において、ウェブ・ページ・ドキュメントを入力し、それから、ステップS220において、DDA方法に基づいてウェブ・ページ入力用のコンテンツを抽出して少なくとも1つのターゲット(DDAターゲットをいう)を含むDDAウェブ・ページ・コンテンツ抽出結果を生成させて出力する。
また、ステップS230において、入力済みウェブ・ページを入力済みウェブ・ページと同様なデザインを備えた画像ドキュメントに変換させ、そして、ステップS240において、DIR方法に基づいて前記画像ドキュメントのコンテンツを抽出して少なくとも1つのターゲット(DIRターゲットをいう)を含むDIRウェブ・ページ・コンテンツ抽出結果を生成させて出力する。
最後に、ステップS250において、DDA抽出結果とDIR抽出結果とを比較し、DDAターゲットとDIRターゲットとの対応関係およびターゲット・タイプに基づいてDDA抽出結果とDIR抽出結果とを融合し、新規ターゲット集合を最終のウェブ・ページ・コンテンツ抽出結果として生成させる。ここで注目のポイントとして、ステップS220およびステップS230−S240では、任意の手順に従って実行してもいいし、並行的に実行することもできる。
以下では、図3を参照しながら、DDAウェブ・ページ・コンテンツ抽出ユニット120について、より具体的に説明する。図3は本発明の実施例を備えたDDAウェブ・ページ・コンテンツ抽出ユニット120の概要構造を示す概要図である。
DDAウェブ・ページ・コンテンツ抽出ユニット120はウェブ・ページ・ドキュメント構造を処理し、文字と、テーブルと、グラフィック・タイプに属するウェブ・ページ・コンテンツ(以下、それぞれ文字領域、テーブル領域とグラフィック領域をいう)をそれぞれ抽出し、並びにDDAウェブ・ページ・コンテンツ抽出結果を出力する。また、図3を参照してみると、DDAウェブ・ページ・コンテンツ抽出ユニット120は、ドキュメント・ターゲット・モデル(DOM)ツリー抽出ユニット310と、文字領域抽出ユニット320と、グラフィック領域抽出ユニット340と、テーブル領域抽出ユニット350と出力ユニット360とを含む。
また、DOMツリー抽出ユニット310は、入力済みウェブ・ページを受信し、ウェブ・ページ入力用のDOMツリーを抽出する。上記のとおり、本発明の実施例によれば、入力するウェブ・ページはハイパーテキスト・タグ言語(HTML)フォーマットを有するウェブ・ページ・ドキュメントを利用してもよい。また、DOMツリーは入力済みウェブ・ページを対応するツリー形構造を備えたものである。ウェブ・ページにおける各々の要素は、それぞれ前記ツリー形構造内の1つの節点として表し、並びにそれぞれ異なるパスを通してルート節点と連結する。
図4はウェブ・ページ・ドキュメント・ソース・コードと、対応するDOMツリーとの例をそれぞれ示す図である。DOMツリー抽出ユニット310はDOMツリーを抽出した後、ウェブ・ページにおける各々の要素の親節点と、子節点と、タグ名と、内部文字とポジションなどの情報に関するプロパティを保存し、並びに後続のユニットが前記プロパティへアクセスするまで、それを保存し続ける。
ここで注目のポイントとして、ウェブ・ページのソース・コードにおいて、要素のポジション情報はまだ記録していないため、DOMツリー抽出ユニット310について、特定のウェブ・ページ用ブラウザ、例えば、マイクロソフト社のInternet
Explorerを導入し、要素のポジション情報を算出する必要がある。また、本発明の実施例によれば、DOMツリー抽出ユニット310はマイクロソフト社のCOMインターフェースMSHTMLを利用して要素のポジション情報を算出することができる。
また、文字領域抽出ユニット320は、ユニット310がDOMツリーを利用して抽出したDOMツリーを利用して文字領域を抽出し、並びに抽出した文字領域を出力ユニット360へ出力する。具体的にいうと、文字領域抽出ユニット320は、候補文字領域抽出ユニット321と候補文字領域マージング・ユニット322とを含む。
候補文字領域抽出ユニット321はDOMツリーを通じて各々のウェブ・ページ要素へアクセスし、その都度、前記要素の内部文字プロパティがブランクではなく、且つ前記要素の子節点にはブロック節点を含めないならば、候補文字領域抽出ユニット321は前記要素を候補文字領域として確定(抽出)し、並びにそれを候補文字領域配列に加える。
ここで、節点のタグ名は、「INPUT」、「!」、「A」、「B」、「U」、「I」、「BIG」、「SMALL」、「FONT」、「HR」、「BR」、「PRE」、「TT」、「S」、「BLOCKQUOTE」、「ADDRESS」、「DFN」、「SAMP」、「KBD」、「VAR」、「CODE」、「CITE」、「ABBR」、「ACRONYM」、「SUB」、「SUP」、「INS」、「DEL」、「P」、「EM」、「TEXT」、「STRONG」、「/A」のいずれかの1つにも該当しないならば、前記節点はブロック節点として定義する。各々のウェブ・ページ要素へアクセスした後、候補文字領域抽出ユニット321は、生成した候補文字領域配列を候補文字領域マージング・ユニット322へ出力する。
一方、候補文字領域マージング・ユニット322は、候補文字領域のプロパティ情報を参考して,候補文字領域を対象にしてマージング操作を実行する。例えば、2つの文字領域はポジション上においてオーバーラップを行った場合、これらをより大きな文字領域としてマージングし、あるいは、1つの文字領域はもう1つの文字領域に含まれた場合、小さいほうの文字領域を削除する。例えば、2つの文字領域は垂直方向でポジションと隣接し、フォントおよびフォント高さなどのプロパティも同じ、また、左側エッジ部が相互に近接し、並びに幅が相似した場合、これらをより大きな文字領域としてマージングする。
以上で、マージング・ユニットでマージング操作を実行するときに守るべきルールの例を挙げたが、ただし、本発明はその限りではなく、それ以外のルールを利用することもできる。なお、文字領域マージング・ユニット322は、マージングした後の文字領域を文字タイプに属するDDAターゲットとして出力ユニット360に出力する。
また、グラフィック領域抽出ユニット340は、抽出ユニット310がDOMツリーを利用して抽出したDOMツリーを利用して、グラフィック領域を抽出する。また、本発明の実施例によれば、グラフィック領域抽出ユニット340も、文字領域を抽出した後にDOMツリーに残留された要素を処理して、グラフィック領域を抽出することができる。なお、1つの要素のタグ名は「IMG」となり、並びにそのサイズはプリセット閾値よりも大きいならば、前記要素をグラフィック領域として確定し、並びに確定したグラフィック領域をグラフィック・タイプに属するDDAターゲットとして出力ユニット360に出力する。
また、テーブル領域抽出ユニット350は、抽出ユニット310がDOMツリーを利用して抽出したDOMツリーを利用して、テーブル領域を抽出する。また、本発明の実施例によれば、テーブル領域抽出ユニット350も、文字領域とグラフィック領域とを抽出した後にDOMツリーに残留された要素を処理して、テーブル領域を抽出することができる。なお、テーブル領域抽出ユニット350は、タグ名が「TABLE」となった要素をテーブル領域として確定することができる。
あるいは、ウェブ・ページ・ドキュメントにおける「TABLE」という要素は常に版面の基準化に利用するものであり、実在のテーブル領域を表示するものではないため、テーブル領域抽出ユニット350も、タグ名が「TABLE」となった要素をより正しく判断してテーブル領域を確定することができる。例えば、1つの要素のタグ名は「TABLE」となり、且つ少なくとも3つの「TR」子節点を含み、並びに複数の「TR」子節点は1つ以上の「TD」子節点を含む場合、前記要素をテーブル領域として確定する。なお、テーブル領域抽出ユニット350は、抽出したテーブル領域をテーブル・タイプに属するDDAターゲットとして出力ユニット360に出力する。
また、出力ユニット360は、文字領域抽出ユニット320、グラフィック領域抽出ユニット340およびテーブル領域抽出ユニット350がそれぞれ抽出したDDAターゲットをDDAウェブ・ページ・コンテンツ抽出結果として出力する。
以上では、図3を参照しながら、DDAウェブ・ページ・コンテンツ抽出ユニットについて、詳しく説明したが、ただし、以上の説明はただの例として取り上げるものであるため、その限りではない、と理解する必要がある。また、本発明を備えたDDAウェブ・ページ・コンテンツ抽出ユニットは、それ以外の構造を採用することも可能であり、あるいは、DDAに基づくその他の方法を利用してウェブ・ページ・コンテンツを抽出することもできる。
図5は本発明の実施例を備えたDDAウェブ・ページ・コンテンツ抽出方法を示すフロー図である。図5を参照してみると、前記DDAウェブ・ページ・コンテンツ抽出方法として、まず、ステップS510において、ウェブ・ページ入力用のDOMツリーを抽出する。続けてステップS520において、DOMツリーを利用して候補文字領域を抽出し、並びにステップS530において、候補文字領域のプロパティ情報を参考して、候補文字領域を対象にしてマージング操作を実行し、タイプを文字のDDAターゲットとして生成させる。
また、ステップS540において、DOMツリーを利用してグラフィック領域をグラフィック・タイプに属するDDAターゲットとして抽出する。そして、ステップS550において、DOMツリーを利用してテーブル領域をテーブル・タイプに属するDDAターゲットとして抽出する。最後に、ステップS560において、集合文字と、グラフィックと、テーブル・タイプに属するDDAターゲットとをDDAウェブ・ページ・コンテンツ抽出結果として出力する。
ここで注目のポイントとして、上記ステップS520−S530、ステップS540およびステップS550は、並行的に実行するものとして指定しているが、ただし、本発明はその限りではなく、上記ステップは任意の順序に従って実行することもできる。
以下では、図6を参考しながら、結果融合ユニット150について、詳しく説明する。図6は本発明の実施例を備えた結果融合ユニット150の概要構造を示す概要図である。結果融合ユニット150は、DDAウェブ・ページ・コンテンツ抽出ユニット120が出力したDDAウェブ・ページ・コンテンツ抽出結果(以下、DDA抽出結果をいう)と、DIRウェブ・ページ・コンテンツ抽出ユニット140が出力したDIRウェブ・ページ・コンテンツ抽出結果(以下、DIR抽出結果をいう)とを受信し、DDAターゲットとDIRターゲットとの対応関係を確定し、前記対応関係およびターゲット・タイプに基づいてDDA抽出結果とDIR抽出結果とを融合することにより、より最適の融合済みウェブ・ページ・コンテンツ抽出結果(以下、融合結果をいう)を生成させる。
図6に示されたように、本発明の実施例を備えた結果融合ユニット150は、対応関係確定ユニット610と融合実行ユニット620とを含む場合もある。また、対応関係確定ユニット610はDDA抽出結果とDIR抽出結果とを受信してDDAターゲットとDIRターゲットとの対応関係を確定する。なお、1つの実現モードとしては、DDAターゲットとDIRターゲットとの対応関係はDDAターゲットとDIRターゲットと相応する矩形領域のオーバーラップ・サイズとして表すことも可能である。
上記のとおり、ウェブ・ページ・コンテンツ抽出結果はウェブ・ページ・コンテンツを代表するターゲットの集合として表すことも可能である。ここで、DIR抽出結果をターゲット集合G={G1, G2, …, GM}として表し、DDA抽出結果をターゲット集合D={D1, D2, …, DN}として表し、ここに、各々のターゲットGiと、各々のターゲットDjは、それぞれウェブ・ページにおける矩形領域と対応し、並びに少なくても該当する矩形領域のポジション情報とタイプ情報とを含み、MとNはそれぞれDIRウェブ・ページ・コンテンツ抽出ユニット120とDDAウェブ・ページ・コンテンツ抽出ユニット140が抽出したターゲットの個数である。従って、オーバーラップ・サイズは下記のとおり定義することができる。
すなわち、
Figure 2009193571
ここに、Area(Dj)は第j個のDDAターゲットと相応する矩形領域の面積であり、Area(Gi)は第i個のDIRターゲットと相応する矩形領域の面積であり、Area(Gi∩Dj)は第i個のDIRターゲットと相応する矩形面積と、第j個のDDAターゲットと相応する矩形領域とのオーバーラップ面積である。すなわち、対応関係確定ユニット610は任意のDjとGiとのオーバーラップ・サイズを算出することができる。
また、融合実行ユニット620はDDAターゲットとDIRターゲットとの対応関係およびターゲット・タイプに基づいてDDA抽出結果とDIR抽出結果とを融合する。なお、1つの実現モードとしては、融合実行ユニット621は分類ユニット621と選定ユニット622とを含む場合もある。分類ユニット621はオーバーラップ・サイズおよびターゲット・タイプに基づいてDDAターゲットとDIRターゲットとを分類する。
上記のとおり、ターゲット・タイプは文字と、グラフィックとテーブルとを含む。また、本発明の実施例によれば、分類ユニット620はDDAターゲットとDIRターゲットとを下記のとおり7種類として分類することができる。
すなわち、
1)、1つのDIRターゲットGiについては、1つのDDAターゲットDjが存在することにより、
Figure 2009193571
となり、並びにGiとDjとのタイプが同一(同じく文字、グラフィックまたはテーブルとなった場合)となるならば、GiとDjとを共にマッチング類として分類する。
2)、1つのDIRターゲットGiについては、1つのDDAターゲットDjが存在することにより、
Figure 2009193571
となり、並びにGiとDjとのタイプが異なるならば、GiとDjとを共にタイプ・ミス類として分類する。
3)、1つのDIRターゲットGiについては、すべてのDDAターゲットとも
Figure 2009193571
となるならば、すなわち、それとオーバーラップを行ったDDAターゲットが存在しないならば、前記Giをチェック抜け類として分類する。
4)、1つのDDAターゲットDjについては、すべてのDIRターゲットとも
Figure 2009193571
となるならば、すなわち、それとオーバーラップを行ったDIRターゲットが存在しないならば、前記Djをバーチャル・ウォーニング類として分類する。
5)、1つのDIRターゲットGiについては、
Figure 2009193571
となり、並びにそれとオーバーラップを行ったDDAターゲットとマージングした後に得られたマージング・ターゲットと、前記Giとをマッチングするならば、前記Giと、前記Giとオーバーラップを行ったDDAターゲットとを共に分割類として分類し、並びに前記Giとオーバーラップを行ったDDAターゲットを前記Giの分割として定義する。ここに、Tは、ユーザーがウェブ・ページ入力の特性およびユーザーのニーズに応じてあらかじめ確定したプリセット閾値であり、Tが小さいほど、分割類として分類できるターゲットが多くなる。
6)、1つのDDAターゲットDjについては、
Figure 2009193571
となり、並びにそれとオーバーラップを行ったDIRターゲットとマージングした後に得られたマージング・ターゲットと、前記Djとをマッチングするならば、前記Djと、それとオーバーラップを行ったDIRターゲットとを共にマージング類として分類し、並びにDjを、Djとオーバーラップを行ったDIRターゲットのマージングという。ここに、Tは、ユーザーがウェブ・ページ入力の特性およびユーザーのニーズに応じてあらかじめ確定したプリセット閾値であり、Tが小さいほど、マージング類として分類できるターゲットが多くなる。
7)、上記6種類以外に残されたDDAターゲットとDIRターゲットとを共にその他の類として分類する。
また、選定ユニット622は、分類ユニット621の分類結果に基づいてターゲットを選定して融合結果R={R1, R2, …, RL}を構成として出力し、ここに、Lは融合結果におけるターゲットの個数であるため、DDAとDIR抽出結果との融合を実現することができる。また、本発明の実施例によれば、選定ユニット622は類別の違いに応じて、それぞれ異なる融合対策を取り入れることができる。例を挙げてみると、マッチング類における各々の1ペアのターゲットについて、選定ユニット622は対応可能なDDAターゲットを選定して、それを融合結果に加えることができる。
一方、タイプ・ミス類における各々の1ペアのターゲットについて、選定ユニット622はDIRターゲットのポジション情報とDDAターゲットのタイプ情報とを結合して1つの新規ターゲットを生成させ、並びに前記新規ターゲットを融合結果に加えることができる。また、もう1つの例を挙げてみると、選定ユニット622は簡単にチェック抜け類におけるすべてのターゲットを無視し、並びにバーチャル・ウォーニング類におけるすべてのターゲットを融合結果に加えることができる。
なお、分割類について、選定ユニット622はその中のDIRターゲットを融合結果に加えることができる。また、マージング類中における各々の1グループのターゲットについては、ターゲット・タイプに応じて、融合結果に加えるターゲットを選定することができる。例えば、DDAターゲット(例えば、Dj)とオーバーラップを行った少なくとも1つ以上のDIRターゲットのいずれもグラフィック・タイプに属するターゲットであるならば、該当する少なくとも1つ以上のDIRターゲットを融合結果に加える。また、DDAターゲットとオーバーラップを行った少なくとも1つ以上のDIRターゲットには、グラフィック・タイプに属するターゲットと、文字タイプに属するターゲットとの両方を含むならば、該当するDDAターゲット(例えば、Dj)を融合結果に加える。
そして、DDAターゲット(例えば、Dj)とオーバーラップを行った少なくとも1つ以上のDIRターゲットのいずれも文字タイプに属するターゲットであるならば、該当する少なくとも1つ以上のDIRターゲットマージングは新規ターゲットであり、並びに前記新規ターゲットを融合結果に加える。なお、その他の類におけるターゲットについて、選定ユニット622は、その中のDDAターゲットを融合結果に加えることができる。
図7は本発明の実施例を備えた、DDA抽出結果とDIR抽出結果とを融合する融合方法を示すフロー図である。本発明の実施例によれば、DDAターゲットとDIRターゲットとの対応関係およびタイプに基づいてDDA抽出結果とDIR抽出結果とを融合する。
図7を参照してみると、まず、ステップS710において、DDA抽出結果とDIR抽出結果とを受信する。それから、ステップS720において、DDAターゲットとDIRターゲットとの対応関係を確定し、前記対応関係はDDAターゲットとDIRターゲットとのオーバーラップ・サイズに基づいて確定することができる。さらに、ステップS730において、オーバーラップ・サイズおよびターゲット・タイプに基づいてDDAターゲットとDIRターゲットとを分類する。最後に、ステップS740において、類別およびターゲット・タイプに基づいて最終の融合ウェブ・ページ・コンテンツ抽出結果に含まれたターゲットを確定する。
図8−10は、DDAウェブ・ページ・コンテンツ抽出結果と、DIRウェブ・ページ・コンテンツ抽出結果と融合結果との例をそれぞれ示す図である。例えば、図8、9を見ると、DDA抽出結果におけるD2からD5までは細すぎるため、対象のDIR抽出結果G2のほうがかなり良いと分かる。一方、DIR抽出結果には右下のページ情報が抜けているが、DDA方法では前記ページ情報を検出して、D13と表示している。また、図10に示されたように、本発明を備えたウェブ・ページ・コンテンツ抽出装置は、DDA抽出結果とDIR抽出結果とを融合することができるため、より最適のウェブ・ページ・コンテンツ抽出結果が得られる。
以上では、図を参照しながら、本発明を説明した。ただし、以上の内容はただの例として取り上げるものであるため、その限りではない、と理解する必要がある。なお、本分野の技術者は、特許請求範囲に限られた本発明の趣旨や範囲から逸脱しない前提の下で、ここで開示した装置および方法の形式や詳細について、いろいろと変更を行うことができる。
本発明の実施例を備えたウェブ・ページ・コンテンツ抽出装置の概要構造を示す概要図である。 本発明の実施例を備えたウェブ・ページ・コンテンツ抽出方法を示すフロー図である。 図1に示されたDDAウェブ・ページ・コンテンツ抽出ユニットの概要構造を示す概要図である。 ウェブ・ページ・ドキュメント・ソース・コードと、対応するDOMツリーとの例をそれぞれ示す図である。 本発明の実施例を備えたDDAウェブ・ページ・コンテンツ抽出方法を示すフロー図である。 図1に示された結果融合ユニットの概要構造を示す概要図である。 本発明の実施例を備えた、DDAとDIR抽出結果とを融合する方法を示すフロー図である。 DDAウェブ・ページ・コンテンツ抽出結果の例を示す図である。 DIRウェブ・ページ・コンテンツ抽出結果の例を示す図である。 融合結果の例を示す図である。
符号の説明
110 入力ユニット
120 DDAウェブ・ページ・コンテンツ抽出ユニット
130 画像変換ユニット
140 DIRウェブ・ページ・コンテンツ抽出ユニット
150 結果融合ユニット
310 DOMツリー抽出ユニット
320 文字領域抽出ユニット
321 候補文字領域抽出ユニット
322 候補文字領域マージング・ユニット
340 グラフィック領域抽出ユニット
350 テーブル領域抽出ユニット
360 出力ユニット
610 対応関係確定ユニット
620 融合実行ユニット
621 分類ユニット
622 選定ユニット

Claims (30)

  1. ディジタル・ドキュメント解析(DDA)方法に基づいてウェブ・ページ入力用のウェブ・ページ・コンテンツを抽出してDDA抽出結果を生成させることと、
    ドキュメント画像識別(DIR)方法に基づいてウェブ・ページ入力用のウェブ・ページ・コンテンツを抽出してDIR抽出結果を生成させることと、
    前記DDA抽出結果とDIR抽出結果とを融合して融合結果を生成させることと、を含むことを特徴とするウェブ・ページ・コンテンツを抽出するために用いられる方法。
  2. 前記抽出結果は少なくとも1つのターゲットを含み、前記ターゲットはウェブ・ページにおける矩形領域と相応するウェブ・ページ・コンテンツを代表し、前記ターゲットは少なくとも該当する矩形領域のポジション情報とタイプ情報とを含み、並びに前記タイプは文字とグラフィックとテーブルとを含むことを特徴する請求項1記載の方法。
  3. 前記DDA抽出結果とDIR抽出結果とを融合することは、
    DDA抽出結果に含まれたDDAターゲットと、DIR抽出結果に含まれたDIRターゲットとの対応関係を確定することと、
    前記対応関係およびターゲット・タイプに基づいてDDA抽出結果とDIR抽出結果との融合を実行することと、を含むことを特徴とする請求項2記載の方法。
  4. DDAターゲットとDIRターゲットとの対応関係を確定し、DDAターゲットとDIRターゲットとのオーバーラップ・サイズを算出することを含むことを特徴とする請求項3記載の方法。
  5. DIR抽出結果としてG={G1,G2,・・・,GM}と表し、DDA抽出結果としてD={D1,D2,・・・,DN}と表した場合、DDAターゲットDjとDIRターゲットGiとのオーバーラップ・サイズについては、下記の公式にて算出して求められ、すなわち、
    Figure 2009193571
    ここに、Area(Dj)はDjと相応する矩形領域の面積であり、Area(Gi)はGiと相応する矩形領域の面積であり、Area(Gi∩Dj)はDjと相応する矩形領域と、Giと相応する矩形領域とのオーバーラップ面積であり、並びにNとMはそれぞれDDA抽出結果およびDIR抽出結果に含まれたターゲットの個数であることを特徴とする請求項4記載の方法。
  6. 前記対応関係およびターゲット・タイプに基づいてDDA抽出結果とDIR抽出結果との融合を実行することは、
    DDAターゲットとDIRターゲットとの対応関係およびターゲット・タイプに基づいてDDAターゲットとDIRターゲットとを分類することと、
    ターゲットの類別によってDDA抽出結果とDIR抽出結果とを融合して融合結果を生成させることと、を含むことを特徴とする請求項5記載の方法。
  7. 1つのDIRターゲットGiについては、1つのDDAターゲットDjが存在することにより、
    Figure 2009193571
    となり、並びにGiとDjとのタイプが同一となるならば、前記Giと前記Djとを共にマッチング類として分類するルールと、
    1つのDIRターゲットGiについては、1つのDDAターゲットDjが存在することにより、
    Figure 2009193571
    となり、並びにGiとDjとのタイプが異なるならば、前記Giと前記Djとを共にタイプ・ミス類として分類するルールと、
    1つのDIRターゲットGiについては、すべてのDDAターゲットとも
    Figure 2009193571
    となるならば、前記Giをチェック抜け類として分類するルールと、
    1つのDDAターゲットDjについては、すべてのDIRターゲットとも
    Figure 2009193571
    となるならば、前記Djをバーチャル・ウォーニング類として分類するルールと、
    1つのDIRターゲットGiについては、
    Figure 2009193571
    となり、並びにそれとオーバーラップを行ったDDAターゲットとマージングした後に得られたマージング・ターゲットと、前記Giとをマッチングするならば、前記Giと、前記Giとオーバーラップを行ったDDAターゲットとを共に分割類として分類し、ここに、Tは第一のプリセット閾値であるルールと、
    1つのDDAターゲットDjについては、
    Figure 2009193571
    となり、並びにそれとオーバーラップを行ったDIRターゲットとマージングした後に得られたマージング・ターゲットと、前記Djとをマッチングするならば、前記Djと、それとオーバーラップを行ったDIRターゲットとを共にマージング類として分類し、ここに、Tは第二のプリセット閾値であるルールと、および、
    上記類別以外のDDAターゲットと、DIRターゲットとを共にその他の類として分類するルールと、を含む上記ルールに従ってDDAターゲットとDIRターゲットとを分類することを特徴とする請求項6記載の方法。
  8. ターゲットの類別によってDDA抽出結果とDIR抽出結果とを融合して融合結果を生成させることは、
    マッチング類におけるDDAターゲットを融合結果に加えることと、
    タイプ・ミス類におけるDIRターゲットのポジション情報と、該当するDDAターゲットのタイプ情報とを結合して新規ターゲットを生成させ、並びに前記新規ターゲットを融合結果に加えることと、
    バーチャル・ウォーニング類におけるすべてのターゲットを融合結果に加えるとことと、
    分割類におけるDIRターゲットを融合結果に加えることと、
    マージング類については、DDAターゲットとオーバーラップを行ったDIRターゲットのいずれもグラフィック・タイプに属するターゲットであるならば、該当するDIRターゲットを融合結果に加えることと、DDAターゲットとオーバーラップを行ったDIRターゲットにおいてグラフィック・タイプに属するターゲットと、文字タイプに属するターゲットとの両方を含むならば、該当するDDAターゲットを融合結果に加えることと、DDAターゲットとオーバーラップを行ったDIRターゲットのいずれも文字タイプに属するターゲットであるならば、DDAターゲットとオーバーラップを行ったDIRターゲットとマージングしてなしたマージング・ターゲットを融合結果に加えることと、および、
    その他の類におけるDDAターゲットを融合結果に加えることと、を含むことを特徴とする請求項7記載の方法。
  9. DDA方法に基づいてウェブ・ページ入力用のウェブ・ページ・コンテンツを抽出することは、
    ウェブ・ページ入力用のドキュメント・オブジェクト・モデル(DOM)ツリーを抽出し、並びに少なくともDOMツリーにおける各節点の親節点と、子節点と、タグ名と、内部文字とポジションとに関するプロパティ情報を保存することと、
    DOMツリーを利用してウェブ・ページ入力用の文字ターゲットと、グラフィック・ターゲットとテーブル・ターゲットとをそれぞれ抽出することと、を含むことを特徴とする請求項2記載の方法。
  10. DOMツリーを利用して文字ターゲットを抽出することは、
    DOMツリーにおける各節点については、前記節点の内部文字プロパティがブランクではなく、並びに前記節点の子節点にはブロック節点を含まないならば、前記節点で表した要素を候補文字ターゲットとして確定することと、
    候補文字ターゲットのプロパティ情報を参考する上、確定した候補文字領域を対象にしてマージング操作を実行することによって文字ターゲットを取得することと、を含む方法において、
    節点のタグ名は、「INPUT」、「!」、「A」、「B」、「U」、「I」、「BIG」、「SMALL」、「FONT」、「HR」、「BR」、「PRE」、「TT」、「S」、「BLOCKQUOTE」、「ADDRESS」、「DFN」、「SAMP」、「KBD」、「VAR」、「CODE」、「CITE」、「ABBR」、「ACRONYM」、「SUB」、「SUP」、「INS」、「DEL」、「P」、「EM」、「TEXT」、「STRONG」、「/A」のいずれかの1つにも該当しないならば、前記節点はブロック節点であることを特徴とする請求項9記載の方法。
  11. 候補文字ターゲットを対象にしてマージング操作を実行することは、
    ポジション上において2つの文字ターゲットをオーバーラップした場合、これらを1つの文字ターゲットとしてマージングすることを含むことを特徴とする請求項10記載の方法。
  12. 候補文字ターゲットを対象にしてマージング操作を実行することは、1つの文字ターゲットがもう1つの文字ターゲットに含まれた場合、含まれた文字ターゲットを削除することを含むことを特徴とする請求項10記載の方法。
  13. 候補文字ターゲットを対象にしてマージング操作を実行することは、
    2つの文字ターゲットと相応する矩形領域が垂直方向でポジションと隣接し、且つこれらのフォントおよびフォント高さのプロパティとも同じ、また、これらの左側エッジ部が相互に近接し、並びに幅が相似した場合、これらを1つの文字領域としてマージングすることを含むことを特徴とする請求項10記載の方法。
  14. DOMツリーを利用してグラフィック・ターゲットを抽出することは、
    DOMツリー節点のタグ名は「IMG」となり、並びにそのサイズは第三のプリセット閾値よりも大きいならば、前記節点をグラフィック・ターゲットとして確定することを含むことを特徴とする請求項9記載の方法。
  15. DOMツリーを利用してテーブル・ターゲットを抽出することは、
    DOMツリー節点のタグ名は「TABLE」となり、且つ前記DOMツリー節点は少なくとも3つの「TR」子節点を含み、並びに複数の「TR」子節点は1つ以上の「TD」子節点を含む場合、前記節点をテーブル領域として確定することを含むことを特徴とする請求項9記載の方法。
  16. DDA方法に基づいてウェブ・ページ入力用のウェブ・ページ・コンテンツを抽出してDDA抽出結果を生成させるディジタル・ドキュメント解析(DDA)ウェブ・ページ・コンテンツ抽出ユニットと、
    DIR方法に基づいてウェブ・ページ入力用のウェブ・ページ・コンテンツを抽出してDIR抽出結果を生成させるドキュメント画像識別(DIR)ウェブ・ページ・コンテンツ抽出ユニットと、
    前記DDA抽出結果と前記DIR抽出結果とを融合して融合結果を生成させる融合ユニットと、を含むことを特徴とするウェブ・ページ・コンテンツを抽出するために用いられる装置。
  17. 抽出結果は少なくとも1つのターゲットの集合として表し、前記ターゲットはウェブ・ページにおける矩形領域と相応するウェブ・ページ・コンテンツを代表し、前記ターゲットは少なくとも該当する矩形領域のポジション情報とタイプ情報とを含み、並びに前記タイプは文字とグラフィックとテーブルとを含むことを特徴とする請求項16記載の装置。
  18. 前記融合ユニットは、
    DDAターゲットとDIRターゲットとの対応関係を確定する対応関係確定ユニットと、DDAターゲットとDIRターゲットとの対応関係およびDDAターゲットとDIRターゲットのタイプに基づいてDDA抽出結果とDIR抽出結果との融合を実行して融合結果を生成させる融合実行ユニットと、を含むことを特徴とする請求項17記載の装置。
  19. 前記対応関係確定ユニットはDDAターゲットとDIRターゲットとのオーバーラップ・サイズを算出してDDAターゲットとDIRターゲットとの対応関係を確定することを特徴とする請求項18記載の装置。
  20. DIR抽出結果としてG={G1, G2, …, GM}と表し、DDA抽出結果としてD={D1, D2, …, DN}と表した場合、DDAターゲットDjとDIRターゲットGiとのオーバーラップ・サイズについては、下記の公式にて算出して求められ、すなわち、
    Figure 2009193571
    ここに、Area(Dj)はDjと相応する矩形領域の面積であり、Area(Gi)はGiと相応する矩形領域の面積であり、Area(Gi∩Dj)はDjと相応する矩形領域と、Giと相応する矩形領域とのオーバーラップ面積であり、並びにNとMはそれぞれDDA抽出結果およびDIR抽出結果に含まれたターゲットの個数であることを特徴とする請求項19記載の装置。
  21. 前記融合実行ユニットは、
    DDAターゲットとDIRターゲットとの対応関係およびターゲット・タイプに基づいてDDAターゲットとDIRターゲットとを分類する分類ユニットと、および、
    DDAターゲットとDIRターゲットとの類別によって前記融合結果に含まれたターゲットを確定する選定ユニットと、を含むことを特徴とする請求項18記載の装置。
  22. 1つのDIRターゲットGiについては、1つのDDAターゲットDjが存在することにより、
    Figure 2009193571
    となり、並びにGiとDjとのタイプが同一となるならば、前記Giと前記Djとを共にマッチング類として分類するルールと、
    1つのDIRターゲットGiについては、1つのDDAターゲットDjが存在することにより、
    Figure 2009193571
    となり、並びにGiとDjとのタイプが異なるならば、前記Giと前記Djとを共にタイプ・ミス類として分類するルールと、
    1つのDIRターゲットGiについては、すべてのDDAターゲットとも
    Figure 2009193571
    となるならば、前記Giをチェック抜け類として分類するルールと、
    1つのDDAターゲットDjについては、すべてのDIRターゲットとも
    Figure 2009193571
    となるならば、前記Djをバーチャル・ウォーニング類として分類するルールと、
    1つのDIRターゲットGiについては、
    Figure 2009193571
    となり、並びにそれとオーバーラップを行ったDDAターゲットとマージングした後に得られたマージング・ターゲットと、前記Giとをマッチングするならば、前記Giと、前記Giとオーバーラップを行ったDDAターゲットとを共に分割類として分類し、ここに、Tは第一のプリセット閾値であるルールと、
    1つのDDAターゲットDjについては、
    Figure 2009193571
    となり、並びにそれとオーバーラップを行ったDIRターゲットとマージングした後に得られたマージング・ターゲットと、前記Djとをマッチングするならば、前記Djと、それとオーバーラップを行ったDIRターゲットとを共にマージング類として分類し、ここに、Tは第二のプリセット閾値であるルールと、および、
    上記類別以外のDDAターゲットと、DIRターゲットとを共にその他の類として分類するルールと、を含む上記ルールに従って、前記分類ユニットはDDAターゲットとDIRターゲットとを分類することを特徴とする請求項21記載の装置。
  23. マッチング類におけるDDAターゲットを融合結果に加えることと、
    タイプ・ミス類中におけるDIRターゲットのポジション情報と、該当するDDAターゲットのタイプ情報とを結合して新規ターゲットを生成させ、並びに前記新規ターゲットを融合結果に加えることと、
    バーチャル・ウォーニング類におけるすべてのターゲットを融合結果に加えることと、
    分割類におけるDIRターゲットを融合結果に加えることと、
    マージング類については、DDAターゲットとオーバーラップを行ったDIRターゲットのいずれもグラフィック・タイプに属するターゲットであるならば、該当するDIRターゲットを融合結果に加えることと、DDAターゲットとオーバーラップを行ったDIRターゲットにおいてグラフィック・タイプに属するターゲットと、文字タイプに属するターゲットとの両方を含むならば、該当するDDAターゲットを融合結果に加えることと、DDAターゲットとオーバーラップを行ったDIRターゲットのいずれも文字タイプに属するターゲットであるならば、DDAターゲットとオーバーラップを行ったDIRターゲットとマージングしてなしたマージング・ターゲットを融合結果に加えることと、および、
    その他の類におけるDDAターゲットを融合結果に加えることと、を含む上記のとおり、前記選定ユニットは融合結果に含まれたターゲットを確定することを特徴とする請求項22記載の装置。
  24. 前記DDAウェブ・ページ・コンテンツ抽出ユニットは、
    ウェブ・ページ入力用のDOMツリーを抽出し、並びに少なくともDOMツリーにおける各節点の親節点と、子節点と、タグ名と、内部文字とポジションとに関するプロパティ情報を保存するドキュメント・オブジェクト・モデル(DOM)ツリー抽出ユニットと、
    DOMツリーを利用してウェブ・ページ入力用の文字ターゲットを抽出する文字ターゲット抽出ユニットと、
    DOMツリーを利用してウェブ・ページ入力用のグラフィック・ターゲットを抽出するグラフィック・ターゲット抽出ユニットと、および、
    DOMツリーを利用してウェブ・ページ入力用のテーブル・ターゲットを抽出するテーブル・ターゲット抽出ユニットと、を含む特徴とする請求項18記載の装置。
  25. 前記文字ターゲット抽出ユニットは、
    DOMツリーにおける各節点については、前記節点の内部文字プロパティがブランクではなく、並びに前記節点の子節点にはブロック節点を含まないならば、前記節点で表した要素を候補文字ターゲットとして確定する候補文字ターゲット抽出ユニットと、
    候補文字ターゲットのプロパティ情報を参考する上、確定した候補文字領域を対象にしてマージング操作を実行することによって文字ターゲットを取得するマージング・ユニットと、を含む装置において、
    節点のタグ名は、「INPUT」、「!」、「A」、「B」、「U」、「I」、「BIG」、「SMALL」、「FONT」、「HR」、「BR」、「PRE」、「TT」、「S」、「BLOCKQUOTE」、「ADDRESS」、「DFN」、「SAMP」、「KBD」、「VAR」、「CODE」、「CITE」、「ABBR」、「ACRONYM」、「SUB」、「SUP」、「INS」、「DEL」、「P」、「EM」、「TEXT」、「STRONG」、「/A」のいずれかの1つにも該当しないならば、前記節点はブロック節点であることを特徴とする請求項24記載の装置。
  26. ポジション上において2つの文字ターゲットをオーバーラップした場合、前記マージング・ユニットはこれらを1つの文字ターゲットとしてマージングすることを特徴とする請求項25記載の装置。
  27. 1つの文字ターゲットがもう1つの文字ターゲットに含まれた場合、前記マージング・ユニットは、含まれた文字ターゲットを削除することを特徴とする請求項25記載の装置。
  28. 2つの文字ターゲットと相応する矩形領域が垂直方向でポジションと隣接し、且つこれらのフォントおよびフォント高さのプロパティとも同じ、また、これらの左側エッジ部が相互に近接し、並びに幅が相似した場合、前記マージング・ユニットはこれらを1つの文字領域としてマージングすることを特徴とする請求項25記載の装置。
  29. DOMツリー節点のタグ名は「IMG」となり、並びにそのサイズは第三のプリセット閾値よりも大きいならば、前記グラフィック・ターゲット抽出ユニットは前記節点をグラフィック・ターゲットとして確定することを特徴とする請求項24記載の装置。
  30. DOMツリー節点のタグ名は「TABLE」となり、且つ前記DOMツリー節点は少なくとも3つの「TR」子節点を含み、並びに複数の「TR」子節点は1つ以上の「TD」子節点を含む場合、前記テーブル・ターゲット確定ユニットは前記節点をテーブル領域として確定することを特徴とする請求項24記載の装置。
JP2008324056A 2008-02-18 2008-12-19 ウェブ・ページ・コンテンツを抽出するために用いられる方法および装置 Pending JP2009193571A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810080786A CN101515272B (zh) 2008-02-18 2008-02-18 提取网页内容的方法和装置

Publications (1)

Publication Number Publication Date
JP2009193571A true JP2009193571A (ja) 2009-08-27

Family

ID=41039729

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008324056A Pending JP2009193571A (ja) 2008-02-18 2008-12-19 ウェブ・ページ・コンテンツを抽出するために用いられる方法および装置

Country Status (2)

Country Link
JP (1) JP2009193571A (ja)
CN (1) CN101515272B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314497A (zh) * 2011-08-26 2012-01-11 百度在线网络技术(北京)有限公司 一种用于识别标记语言文件主体内容的方法和设备

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8819028B2 (en) 2009-12-14 2014-08-26 Hewlett-Packard Development Company, L.P. System and method for web content extraction
CN101944109B (zh) * 2010-09-06 2012-06-27 华南理工大学 一种基于页面分块的图片摘要提取系统及方法
US20120185253A1 (en) * 2011-01-18 2012-07-19 Microsoft Corporation Extracting text for conversion to audio
CN102411475A (zh) * 2011-10-08 2012-04-11 宇龙计算机通信科技(深圳)有限公司 一种对数据进行操作的方法及移动终端
CN103488652B (zh) * 2012-06-08 2018-11-16 北京千橡网景科技发展有限公司 网页内容提取方法和网页内容提取装置
CN103488619B (zh) * 2013-07-05 2017-05-24 百度在线网络技术(北京)有限公司 一种用于进行文档文件处理的方法及装置
CN105786828A (zh) * 2014-12-19 2016-07-20 广州市动景计算机科技有限公司 页面提取方法及装置、设备终端
WO2018103540A1 (zh) 2016-12-09 2018-06-14 腾讯科技(深圳)有限公司 网页内容提取方法、装置、存储介质
CN108959287B (zh) * 2017-05-17 2021-08-03 中兴通讯股份有限公司 一种网页内容处理方法及装置、存储介质
CN110188107B (zh) * 2019-06-05 2020-05-01 中科鼎富(北京)科技发展有限公司 一种从表格中抽取信息的方法及装置
CN110765740B (zh) * 2019-10-11 2023-08-11 深圳市比一比网络科技有限公司 一种基于dom树的全类型文本替换方法、系统、装置及存储介质
CN114817639B (zh) * 2022-05-18 2024-05-10 山东大学 基于对比学习的网页图卷积文档排序方法及系统
CN114996212A (zh) * 2022-06-01 2022-09-02 北京字节跳动网络技术有限公司 用于管理电子书籍中的元素的方法、装置、设备和介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1567303A (zh) * 2003-07-03 2005-01-19 富士通株式会社 结构文档信息块的自动分割方法和装置
US7428700B2 (en) * 2003-07-28 2008-09-23 Microsoft Corporation Vision-based document segmentation
CN100442278C (zh) * 2003-09-18 2008-12-10 富士通株式会社 网页信息块提取方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314497A (zh) * 2011-08-26 2012-01-11 百度在线网络技术(北京)有限公司 一种用于识别标记语言文件主体内容的方法和设备
CN102314497B (zh) * 2011-08-26 2014-12-10 百度在线网络技术(北京)有限公司 一种用于识别标记语言文件主体内容的方法和设备

Also Published As

Publication number Publication date
CN101515272A (zh) 2009-08-26
CN101515272B (zh) 2012-10-24

Similar Documents

Publication Publication Date Title
JP2009193571A (ja) ウェブ・ページ・コンテンツを抽出するために用いられる方法および装置
US9514216B2 (en) Automatic classification of segmented portions of web pages
US8254681B1 (en) Display of document image optimized for reading
US8819028B2 (en) System and method for web content extraction
US9910842B2 (en) Interactively predicting fields in a form
JP4945813B2 (ja) 印刷構造化文書
US7937338B2 (en) System and method for identifying document structure and associated metainformation
JP6838209B1 (ja) 文書画像解析装置、文書画像解析方法およびプログラム
US20110043869A1 (en) Information processing system, its method and program
WO2017177809A1 (zh) 语言文本的分词方法和系统
US20130036113A1 (en) System and Method for Automatically Providing a Graphical Layout Based on an Example Graphic Layout
Nurminen Algorithmic extraction of data in tables in PDF documents
EP3036661A1 (en) Presenting fixed format documents in reflowed format
JPWO2019224891A1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
US10803233B2 (en) Method and system of extracting structured data from a document
Xiang et al. Effective page segmentation combining pattern analysis and visual separators for browsing on small screens
CN113673294B (zh) 文献关键信息的提取方法、装置、计算机设备和存储介质
WO2022038821A1 (ja) 表構造認識装置及び方法
CN114092948A (zh) 一种票据识别方法、装置、设备以及存储介质
JP2006309347A (ja) 対象文書からキーワードを抽出する方法、システムおよびプログラム
Rahman et al. Conversion of PDF documents into HTML: a case study of document image analysis
JP4269698B2 (ja) 意見分析方法、意見分析装置、および意見分析プログラム
CN112312189A (zh) 一种视频生成方法及视频生成系统
CN113255369B (zh) 文本相似度分析的方法、装置及存储介质
CN115186240A (zh) 基于关联性信息的社交网络用户对齐方法、装置、介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111019

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130709