JP2009193571A

JP2009193571A - ウェブ・ページ・コンテンツを抽出するために用いられる方法および装置

Info

Publication number: JP2009193571A
Application number: JP2008324056A
Authority: JP
Inventors: Cheng Du; ドゥチョン
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2008-02-18
Filing date: 2008-12-19
Publication date: 2009-08-27
Also published as: CN101515272A; CN101515272B

Abstract

【課題】
本発明では、従来の技術よりも最適のウェブ・ページ抽出結果が得られるウェブ・ページ・コンテンツを抽出するために用いられる方法および装置を提供することを目的とする。
【解決手段】
本発明は、ウェブ・ページ・コンテンツを抽出するために用いられる方法および装置を開示した。前記方法は、ディジタル・ドキュメント解析（ＤＤＡ）方法に基づいてウェブ・ページ入力用のウェブ・ページ・コンテンツを抽出してＤＤＡ抽出結果を生成させることと、ドキュメント画像識別（ＤＩＲ）方法に基づいてウェブ・ページ入力用のウェブ・ページ・コンテンツを抽出してＤＩＲ抽出結果を生成させることと、前記ＤＤＡ抽出結果とＤＩＲ抽出結果とを融合して融合結果を生成させることと、を含む。
【選択図】図２

Description

本発明はウェブ・ページ処理に関するものであり、より具体的にいえば、本発明はウェブ・ページ・コンテンツを抽出するために用いられる装置および方法に関するものである。

現在、インターネットはすでに最大の情報供給源として、人々の日常生活にとって欠かせないほど依存度の高いネットワークになりつつあってきた。ネットワークの普及に伴い、ウェブ・ページ・コンテンツ抽出（ウェブ・ページ分割ともいう）の応用もますます幅広く展開してきた。

例をあげてみると、ウェブ・ページ・コンテンツを抽出することにより、ウェブ・ページの検索速度をさらに速めさせ、検索の結果をより正確にすることが可能になる。従来のテキスト・ドキュメントと比較してみると、ウェブ・ページのコンテンツは更なる多様化が図れ、同一のウェブ・ページの異なる領域にも、それぞれ違うテーマを含むことが可能になった。また、閲覧や発布の必要に応じて、ウェブ・ページにはテーマと関連付けになっていないコンテンツ、例えば、広告、グローバルナビゲーションバー、デザイン、版権情報及び連絡方法など、さまざまなコンテンツも多く掲載している。以上のようなウェブ・ページの特徴によっては、ウェブ・ページ全体を１つの情報検索ユニットとして利用することと比べて、ウェブ・ページを分割して、各々の分割ユニットを単独の情報検索ユニットとして利用することは、より正確なウェブ・ページの検索結果が得られる。また、ウェブ・ページを分割することよって、ウェブ・ページのテーマと関連付けになっていないコンテンツを排除することができるため、ウェブ・ページの検索速度をさらに速めさせ、検索の結果をより正確にすることが図れる。

また、もう１つの例をあげてみると、ウェブ・ページ・コンテンツを抽出することは、携帯設備からウェブ・ページを閲覧することにも応用することができる。ここ数年以来、携帯設備、例えば、ハンドヘルド・パソコン、携帯情報端末（ＰＤＡ）、モバイル電話など、急速に発展してきた。しかし、携帯設備でインターネットへアクセスする場合は、ディスプレイ自体が小さすぎるため、多くの制限を余儀なく受けている。従来のウェブ・ページとしては、いずれもパーソナル・コンピューターを対象にして設計したものであったため、携帯設備を所有するユーザーにとっては、必要な情報を捜すのに、絶えずにウェブ・ページをスクロールする必要があった場合、インターネットへのアクセスの無味乾燥や煩雑さに悩まされる。一方、ウェブ・ページを分割することにより、ウェブ・ページのコンテンツを各々のブロックとして携帯設備に表示することができるので、この問題を解決した。
なお、ユーザーは既存のドキュメントを利用して新規ドキュメントを作成したい場合、既存の版面を分割することが欠かせない手順になる。

また、幅広い応用背景として、ユーザーはウェブ・ページ・コンテンツ抽出を必要とするニーズがかなり高い。研究者はすでにウェブ・ページ・コンテンツ抽出に利用するシステムや方法を開示した。

例えば、米国特許出願公報Ｎｏ．２００６／０１４９７７５Ａ１では、ドキュメント表示可能モデルに基づくドキュメント分割方法を開示した。前記方法としては、ドキュメントにおいて表示可能なブランクまたはピッチによって表示可能モデルを確定し、また、前記表示可能モデルを利用してドキュメントの階層構造を確定し、さらに、確定した階層構造を利用してドキュメントを分割する。しかし、論理構造と物理構造が異なるドキュメントに対して、前記方法としては分割ミスが生じやすい。

また、例えば、米国特許出願公報Ｎｏ．２００６／０１０６７９８Ａ１では、上から下へ、タグ・ツリーと関連付けがなく、ウェブ・ページ構造の検出に用いられる方法を開示した。前記方法としては、ターゲットのサイズ、ポジション、カラーおよびバックグラウンドなどに基づき、投影方法をもってドキュメントを複数のブロックに分割した後、ブロック間の視覚相似レベルを比較してから、それをより小さいブロックとして分割するか、あるいは他のブロックとマージングするかを判断する。

また、既存のドキュメント・コンテンツ抽出方法は主に２種類として分けられる。第一の方法はドキュメント画像処理を重視するため、画像処理方法を利用してドキュメント・コンテンツ抽出への実現を図る。本文では、このような方法をドキュメント画像処理（ＤＩＲ）方法という。第二の方法はドキュメント・フォーマット解析を重視するため、入力ドキュメントで表示したドキュメント構造を解析してコンテンツを抽出する。本文では、このような方法をディジタル・ドキュメント解析（ＤＤＡ）という。
米国特許出願公報Ｎｏ．２００３／０２１５１３６Ａ１米国特許出願公報Ｎｏ．２００６／０１４９７７５Ａ１米国特許出願公報Ｎｏ．２００６／０１０６７９８Ａ１ＪＬＦｉｓｈｅｒ，ＳＣＨｉｎＤｓａｎＤＤＰＤ’ａｍａｔｏ，"Ａｒｕｌｅ−ｂａｓｅＤｓｙｓｔｅｍｆｏｒＤｏｃｕｍｅｎｔｉｍａＧｅｓｅＧｍｅｎｔａｔｉｏｎ"，Ｐｒｏｃ．１０ｔｈＩＣＰＲ，第５６７−５７２ページ，１９９０年７月ＤｅｎＧＣａｉ，ＳｈｉｐｅｎＧＹｕ，Ｊｉ−ＲｏｎＧＷｅｎａｎＤＷｅｉ−ＹｉｎＧＭａ，"ＥｘＴＲａｃｔｉｎＧＣｏｎｔｅｎｔＳＴＲｕｃｔｕｒｅｆｏｒＷｅｂＰａＧｅｓｂａｓｅＤｏｎＶｉｓｕａｌＲｅｐｒｅｓｅｎｔａｔｉｏｎ"，ＴｈｅＦｉｆｔｈＡｓｉａＰａｃｉｆｉｃＷｅｂＣｏｎｆｅｒｅｎｃｅ（ＡＰＷｅｂ２００３），２００３年

しかし、ＤＤＡ方法とＤＩＲ方法としては、いずれも限界があった。

そこで、本発明では、従来の技術よりも最適のウェブ・ページ抽出結果が得られるウェブ・ページ・コンテンツを抽出するために用いられる方法および装置を提供することを目的とする。

本発明はウェブ・ページ・コンテンツ抽出方法を開示した。当該方法は、ＤＤＡ方法とＤＩＲ方法によるウェブ・ページ抽出結果を融合することができるため、当該２方法よりも最適のウェブ・ページ抽出結果が得られる。本発明はウェブ・ページ検索に用いられ、また、ウェブ・ページ分割、ウェブ・ページ情報に関するドキュメント・ソリューションとして利用することもできる。

また、本発明の１つを備えたウェブ・ページ・コンテンツ抽出方法は、ディジタル・ドキュメント解析（ＤＤＡ）方法に基づいてウェブ・ページ入力用のウェブ・ページ・コンテンツを抽出してＤＤＡ抽出結果を生成させることと、ドキュメント画像識別（ＤＩＲ）方法に基づいてウェブ・ページ入力用のウェブ・ページ・コンテンツを抽出してＤＩＲ抽出結果を生成させることと、前記ＤＤＡ抽出結果とＤＩＲ抽出結果とを融合して融合結果を生成させることとを含む。その中、抽出結果は少なくとも１つのターゲットの集合として表し、前記ターゲットはウェブ・ページにおける矩形領域と相応するウェブ・ページ・コンテンツを代表し、前記ターゲットは少なくとも該当する矩形領域のポジション情報と前記ターゲットのタイプ情報とを含み、並びに前記タイプは文字と、グラフィックとテーブルとを含む。

また、本発明の１つを備えた前記ＤＤＡ抽出結果とＤＩＲ抽出結果とを融合することは、ＤＤＡターゲットとＤＩＲターゲットとの対応関係を確定することと、ＤＤＡターゲットとＤＩＲターゲットとの対応関係およびＤＤＡターゲットとＤＩＲターゲットのタイプに基づいてＤＤＡ抽出結果とＤＩＲ抽出結果との融合を実行することとを含む。その中、ＤＤＡターゲットとＤＩＲターゲットとの対応関係を確定することは、ＤＤＡターゲットとＤＩＲターゲットとのオーバーラップ・サイズを算出することを含む。ＤＩＲ抽出結果としてＧ＝{Ｇ₁, Ｇ₂, …, Ｇ_M}と表し、ＤＤＡ抽出結果としてＤ＝{Ｄ₁, Ｄ₂, …, Ｄ_N}と表した場合、ＤＤＡターゲットＤ_jとＤＩＲターゲットＧ_iとのオーバーラップ・サイズについては、下記の公式にて算出して求められ、すなわち、

ここに、Ａｒｅａ(Ｄ_j)はＤ_jと相応する矩形領域の面積であり、Ａｒｅａ(Ｇ_i)はＧ_iと相応する矩形領域の面積であり、Ａｒｅａ(Ｇ_i∩Ｄ_j)はＤ_jと相応する矩形領域と、Ｇ_iと相応する矩形領域とのオーバーラップ面積であり、並びにＮとＭはそれぞれＤＤＡ抽出結果およびＤＩＲ抽出結果に含まれたターゲットの個数である。

また、本発明の１つを備えた、ＤＤＡ抽出結果とＤＩＲ抽出結果との融合を実行することは、ＤＤＡターゲットとＤＩＲターゲットとの対応関係およびターゲット・タイプに基づいてＤＤＡターゲットとＤＩＲターゲットとを分類することと、および、ターゲットの類別によってＤＤＡ抽出結果とＤＩＲ抽出結果とを融合して融合結果を生成させることとを含む。

また、本発明の１つによれば、１つのＤＩＲターゲットＧ_iについては、１つのＤＤＡターゲットＤ_jが存在することにより、

となり、並びにＧ_iとＤ_jとのタイプが同一となるならば、前記Ｇ_iと前記Ｄ_jとを共にマッチング類として分類する。また、１つのＤＩＲターゲットＧ_iについては、１つのＤＤＡターゲットＤ_jが存在することにより、

となり、並びにＧ_iとＤ_jとのタイプが異なるならば、前記Ｇ_iと前記Ｄ_jとを共にタイプ・ミス類として分類する。そして、１つのＤＩＲターゲットＧ_iについては、すべてのＤＤＡターゲットとも

となるならば、前記Ｇ_iをチェック抜け類として分類する。さらに、１つのＤＤＡターゲットＤ_jについては、すべてのＤＩＲターゲットとも

となるならば、前記Ｄ_jをバーチャル・ウォーニング類として分類する一方、１つのＤＩＲターゲットＧ_iについては、

となり、並びにそれとオーバーラップを行ったＤＤＡターゲットとマージングした後に得られたマージング・ターゲットと、前記Ｇ_iとをマッチングするならば、前記Ｇ_iと、前記Ｇ_iとオーバーラップを行ったＤＤＡターゲットを分割類として分類し、ここに、Ｔ_１は第一のプリセット閾値である。また、１つのＤＤＡターゲットＤ_jについては、

となり、並びにそれとオーバーラップを行ったＤＩＲターゲットとマージングした後に得られたマージング・ターゲットと、前記Ｄ_jとをマッチングするならば、前記Ｄ_jと、それとオーバーラップを行ったＤＩＲターゲットとを共にマージング類として分類し、ここに、Ｔ_２は第二のプリセット閾値である。さらに、上記類別以外のＤＤＡターゲットと、ＤＩＲターゲットとを共にその他の類として分類する。

また、本発明の１つによれば、マッチング類におけるＤＤＡターゲットを融合結果に加える。また、タイプ・ミス類におけるＤＩＲターゲットのポジション情報と、該当するＤＤＡターゲットのタイプ情報とを結合して新規ターゲットを生成させ、並びに前記新規ターゲットを融合結果に加える。そして、バーチャル・ウォーニング類におけるすべてのターゲットを融合結果に加える。さらに、分割類におけるＤＩＲターゲットを融合結果に加える一方、マージング類については、ＤＤＡターゲットとオーバーラップを行ったＤＩＲターゲットのいずれもグラフィック・タイプに属するターゲットであるならば、該当するＤＩＲターゲットを融合結果に加える。また、ＤＤＡターゲットとオーバーラップを行ったＤＩＲターゲットにおいてグラフィック・タイプに属するターゲットと、文字タイプに属するターゲットとの両方を含むならば、該当するＤＤＡターゲットを融合結果に加える。そして、ＤＤＡターゲットとオーバーラップを行ったＤＩＲターゲットのいずれも文字タイプに属するターゲットであるならば、ＤＤＡターゲットとオーバーラップを行ったＤＩＲターゲットとマージングしてなしたマージング・ターゲットを融合結果に加える。さらに、その他の類におけるＤＤＡターゲットを融合結果に加える。

また、本発明の１つを備えた、ＤＤＡ方法に基づいてウェブ・ページ入力用のウェブ・ページ・コンテンツを抽出することは、ウェブ・ページ入力用のドキュメント・オブジェクト・モデル（ＤＯＭ）ツリーを抽出し、並びに少なくともＤＯＭツリーにおける各節点の親節点と、子節点と、タグ名と、内部文字とポジションとに関するプロパティ情報を保存することと、ＤＯＭツリーを利用してウェブ・ページ入力用の文字ターゲットと、グラフィック・ターゲットとテーブル・ターゲットとをそれぞれ抽出することを含む。一方、ＤＯＭツリーを利用して文字ターゲットを抽出することは、ＤＯＭツリーにおける各節点については、前記節点の内部文字プロパティがブランクではなく、並びに前記節点の子節点にはブロック節点を含まないならば、前記節点で表した要素を候補文字ターゲットとして確定することと、候補文字ターゲットのプロパティ情報を参考する上、確定した候補文字領域を対象にしてマージング操作を実行することによって文字ターゲットを取得することとを含み、ここに、節点のタグ名は、「ＩＮＰＵＴ」、「！」、「Ａ」、「Ｂ」、「Ｕ」、「Ｉ」、「ＢＩＧ」、「ＳＭＡＬＬ」、「ＦＯＮＴ」、「ＨＲ」、「ＢＲ」、「ＰＲＥ」、「ＴＴ」、「Ｓ」、「ＢＬＯＣＫＱＵＯＴＥ」、「ＡＤＤＲＥＳＳ」、「ＤＦＮ」、「ＳＡＭＰ」、「ＫＢＤ」、「ＶＡＲ」、「ＣＯＤＥ」、「ＣＩＴＥ」、「ＡＢＢＲ」、「ＡＣＲＯＮＹＭ」、「ＳＵＢ」、「ＳＵＰ」、「ＩＮＳ」、「ＤＥＬ」、「Ｐ」、「ＥＭ」、「ＴＥＸＴ」、「ＳＴＲＯＮＧ」、「／Ａ」のいずれかの１つにも該当しないならば、前記節点はブロック節点である一方、候補文字ターゲットを対象にしてマージング操作を実行することは、ポジション上において２つの文字ターゲットをオーバーラップした場合、これらを１つの文字ターゲットとしてマージングすることと、１つの一个文字ターゲットがもう１つの文字ターゲットに含まれた場合、含まれた文字ターゲットを削除することと、２つの文字ターゲットと相応する矩形領域が垂直方向でポジションと隣接し、且つこれらのフォントおよびフォント高さのプロパティも同じ、また、これらの左側エッジ部が相互に近接し、並びに幅が相似した場合、これらを１つの文字領域としてマージングすることとを含む。

また、本発明の１つによれば、ＤＯＭツリー節点のタグ名は「ＩＭＧ」となり、並びにそのサイズは第三のプリセット閾値よりも大きいならば、前記節点をグラフィック・ターゲットとして確定する一方、ＤＯＭツリー節点のタグ名は「ＴＡＢＬＥ」となり、且つ前記ＤＯＭツリー節点は少なくとも３つの「ＴＲ」子節点を含み、並びに複数の「ＴＲ」子節点は１つ以上の「ＴＤ」子節点を含む場合、前記節点をテーブル領域として確定する。

また、本発明のもう１つによって開示した、ウェブ・ページ・コンテンツを抽出するために用いられる装置は、ＤＤＡ方法に基づいてウェブ・ページ入力用のウェブ・ページ・コンテンツを抽出してＤＤＡ抽出結果を生成させるディジタル・ドキュメント解析（ＤＤＡ）ウェブ・ページ・コンテンツ抽出ユニットと、ＤＩＲ方法に基づいてウェブ・ページ入力用のウェブ・ページ・コンテンツを抽出してＤＩＲ抽出結果を生成させるドキュメント画像識別（ＤＩＲ）ウェブ・ページ・コンテンツ抽出ユニットと、前記ＤＤＡ抽出結果と前記ＤＩＲ抽出結果とを融合して融合結果を生成させる融合ユニットとを含む。

本発明では、従来の技術よりも最適のウェブ・ページ抽出結果が得られるウェブ・ページ・コンテンツを抽出するために用いられる方法および装置を提供することができる。

以下では、添付図を参照しながら、本発明の実施例を詳しく説明する。添付図においては、図に表示された同一の数字マークが常に同一の要素を表している。

図１は本発明の実施例を備えたウェブ・ページ・コンテンツ抽出装置１００の概要構造を示す概要図である。本発明の実施例によれば、ウェブ・ページ・コンテンツ抽出装置１００は、入力ユニット１１０と、ＤＤＡウェブ・ページ・コンテンツ抽出ユニット１２０と、ウェブ・ページを画像に変換する画像変換ユニット１３０と、ＤＩＲウェブ・ページ・コンテンツ抽出ユニット１４０と、およびＤＤＡとＤＩＲ抽出結果とを融合する融合ユニット１５０とを含む。

一方、入力ユニット１１０はウェブ・ページ入力に用いられる。また、本発明の実施例によれば、入力するウェブ・ページの例として、ハイパーテキスト・タグ言語（ＨＴＭＬ）フォーマットのウェブ・ページ・ドキュメントを利用してもよい。

また、ＤＤＡウェブ・ページ・コンテンツ抽出ユニット１２０は、入力ウェブ・ページを対象にして、ＤＤＡ方法に基づいてウェブ・ページ・コンテンツ抽出処理を行い、ＤＤＡウェブ・ページ・コンテンツ抽出結果を生成させて出力する。

以下では、図３を参照しながら、ＤＤＡウェブ・ページ・コンテンツ抽出ユニットについて、より具体的に説明する。ウェブ・ページを画像に変換する画像変換ユニット１３０は、入力済みウェブ・ページを受信し、それを、入力済みウェブ・ページと同様なデザインを備えた画像ドキュメントへ変換させて出力する。

また、ＤＩＲウェブ・ページ・コンテンツ抽出ユニット１４０は、前記画像ドキュメントを処理し、ＤＩＲウェブ・ページ・コンテンツ抽出結果を生成させて出力する。その都度、ＤＩＲウェブ・ページ・コンテンツ抽出ユニットは任意の画像処理に基づくドキュメント・コンテンツ抽出方法をもって抽出を行うことができる。なお、画像処理に基づくドキュメント・コンテンツ抽出方法は、すでに周知になった技術であるため、ここでＤＩＲウェブ・ページ・コンテンツ抽出ユニットに関する詳細な説明を省略する。

一方、結果融合ユニット１５０はＤＤＡとＤＩＲウェブ・ページ・コンテンツ抽出結果を受信し、２つの結果を比較してから、融合後のウェブ・ページ・コンテンツ抽出結果を生成させて出力する。

以下では、図６を参照しながら、結果融合ユニット１５０について、より詳しく説明する。本発明の実施例によれば、ウェブ・ページ・コンテンツ抽出結果はターゲット集合として表し、前記集合における各々のターゲットはウェブ・ページにおける１つの矩形領域内のウェブ・ページ・コンテンツを代表し、並びに前記ターゲットは前記ウェブ・ページにおける矩形領域のポジション情報およびタイプ情報を含む場合もある。また、本発明の実施例によれば、前記タイプは文字と、テーブルとグラフィックとを含む場合もある。

図２は本発明の実施例を備えたウェブ・ページ・コンテンツ抽出方法を示すフロー図である。図２を参照してみると、まず、ステップＳ２１０において、ウェブ・ページ・ドキュメントを入力し、それから、ステップＳ２２０において、ＤＤＡ方法に基づいてウェブ・ページ入力用のコンテンツを抽出して少なくとも１つのターゲット（ＤＤＡターゲットをいう）を含むＤＤＡウェブ・ページ・コンテンツ抽出結果を生成させて出力する。

また、ステップＳ２３０において、入力済みウェブ・ページを入力済みウェブ・ページと同様なデザインを備えた画像ドキュメントに変換させ、そして、ステップＳ２４０において、ＤＩＲ方法に基づいて前記画像ドキュメントのコンテンツを抽出して少なくとも１つのターゲット（ＤＩＲターゲットをいう）を含むＤＩＲウェブ・ページ・コンテンツ抽出結果を生成させて出力する。

最後に、ステップＳ２５０において、ＤＤＡ抽出結果とＤＩＲ抽出結果とを比較し、ＤＤＡターゲットとＤＩＲターゲットとの対応関係およびターゲット・タイプに基づいてＤＤＡ抽出結果とＤＩＲ抽出結果とを融合し、新規ターゲット集合を最終のウェブ・ページ・コンテンツ抽出結果として生成させる。ここで注目のポイントとして、ステップＳ２２０およびステップＳ２３０−Ｓ２４０では、任意の手順に従って実行してもいいし、並行的に実行することもできる。

以下では、図３を参照しながら、ＤＤＡウェブ・ページ・コンテンツ抽出ユニット１２０について、より具体的に説明する。図３は本発明の実施例を備えたＤＤＡウェブ・ページ・コンテンツ抽出ユニット１２０の概要構造を示す概要図である。

ＤＤＡウェブ・ページ・コンテンツ抽出ユニット１２０はウェブ・ページ・ドキュメント構造を処理し、文字と、テーブルと、グラフィック・タイプに属するウェブ・ページ・コンテンツ（以下、それぞれ文字領域、テーブル領域とグラフィック領域をいう）をそれぞれ抽出し、並びにＤＤＡウェブ・ページ・コンテンツ抽出結果を出力する。また、図３を参照してみると、ＤＤＡウェブ・ページ・コンテンツ抽出ユニット１２０は、ドキュメント・ターゲット・モデル（ＤＯＭ）ツリー抽出ユニット３１０と、文字領域抽出ユニット３２０と、グラフィック領域抽出ユニット３４０と、テーブル領域抽出ユニット３５０と出力ユニット３６０とを含む。

また、ＤＯＭツリー抽出ユニット３１０は、入力済みウェブ・ページを受信し、ウェブ・ページ入力用のＤＯＭツリーを抽出する。上記のとおり、本発明の実施例によれば、入力するウェブ・ページはハイパーテキスト・タグ言語（ＨＴＭＬ）フォーマットを有するウェブ・ページ・ドキュメントを利用してもよい。また、ＤＯＭツリーは入力済みウェブ・ページを対応するツリー形構造を備えたものである。ウェブ・ページにおける各々の要素は、それぞれ前記ツリー形構造内の１つの節点として表し、並びにそれぞれ異なるパスを通してルート節点と連結する。

図４はウェブ・ページ・ドキュメント・ソース・コードと、対応するＤＯＭツリーとの例をそれぞれ示す図である。ＤＯＭツリー抽出ユニット３１０はＤＯＭツリーを抽出した後、ウェブ・ページにおける各々の要素の親節点と、子節点と、タグ名と、内部文字とポジションなどの情報に関するプロパティを保存し、並びに後続のユニットが前記プロパティへアクセスするまで、それを保存し続ける。

ここで注目のポイントとして、ウェブ・ページのソース・コードにおいて、要素のポジション情報はまだ記録していないため、ＤＯＭツリー抽出ユニット３１０について、特定のウェブ・ページ用ブラウザ、例えば、マイクロソフト社のＩｎｔｅｒｎｅｔ
Ｅｘｐｌｏｒｅｒを導入し、要素のポジション情報を算出する必要がある。また、本発明の実施例によれば、ＤＯＭツリー抽出ユニット３１０はマイクロソフト社のＣＯＭインターフェースＭＳＨＴＭＬを利用して要素のポジション情報を算出することができる。

また、文字領域抽出ユニット３２０は、ユニット３１０がＤＯＭツリーを利用して抽出したＤＯＭツリーを利用して文字領域を抽出し、並びに抽出した文字領域を出力ユニット３６０へ出力する。具体的にいうと、文字領域抽出ユニット３２０は、候補文字領域抽出ユニット３２１と候補文字領域マージング・ユニット３２２とを含む。

候補文字領域抽出ユニット３２１はＤＯＭツリーを通じて各々のウェブ・ページ要素へアクセスし、その都度、前記要素の内部文字プロパティがブランクではなく、且つ前記要素の子節点にはブロック節点を含めないならば、候補文字領域抽出ユニット３２１は前記要素を候補文字領域として確定（抽出）し、並びにそれを候補文字領域配列に加える。

ここで、節点のタグ名は、「ＩＮＰＵＴ」、「！」、「Ａ」、「Ｂ」、「Ｕ」、「Ｉ」、「ＢＩＧ」、「ＳＭＡＬＬ」、「ＦＯＮＴ」、「ＨＲ」、「ＢＲ」、「ＰＲＥ」、「ＴＴ」、「Ｓ」、「ＢＬＯＣＫＱＵＯＴＥ」、「ＡＤＤＲＥＳＳ」、「ＤＦＮ」、「ＳＡＭＰ」、「ＫＢＤ」、「ＶＡＲ」、「ＣＯＤＥ」、「ＣＩＴＥ」、「ＡＢＢＲ」、「ＡＣＲＯＮＹＭ」、「ＳＵＢ」、「ＳＵＰ」、「ＩＮＳ」、「ＤＥＬ」、「Ｐ」、「ＥＭ」、「ＴＥＸＴ」、「ＳＴＲＯＮＧ」、「／Ａ」のいずれかの１つにも該当しないならば、前記節点はブロック節点として定義する。各々のウェブ・ページ要素へアクセスした後、候補文字領域抽出ユニット３２１は、生成した候補文字領域配列を候補文字領域マージング・ユニット３２２へ出力する。

一方、候補文字領域マージング・ユニット３２２は、候補文字領域のプロパティ情報を参考して，候補文字領域を対象にしてマージング操作を実行する。例えば、２つの文字領域はポジション上においてオーバーラップを行った場合、これらをより大きな文字領域としてマージングし、あるいは、１つの文字領域はもう１つの文字領域に含まれた場合、小さいほうの文字領域を削除する。例えば、２つの文字領域は垂直方向でポジションと隣接し、フォントおよびフォント高さなどのプロパティも同じ、また、左側エッジ部が相互に近接し、並びに幅が相似した場合、これらをより大きな文字領域としてマージングする。

以上で、マージング・ユニットでマージング操作を実行するときに守るべきルールの例を挙げたが、ただし、本発明はその限りではなく、それ以外のルールを利用することもできる。なお、文字領域マージング・ユニット３２２は、マージングした後の文字領域を文字タイプに属するＤＤＡターゲットとして出力ユニット３６０に出力する。

また、グラフィック領域抽出ユニット３４０は、抽出ユニット３１０がＤＯＭツリーを利用して抽出したＤＯＭツリーを利用して、グラフィック領域を抽出する。また、本発明の実施例によれば、グラフィック領域抽出ユニット３４０も、文字領域を抽出した後にＤＯＭツリーに残留された要素を処理して、グラフィック領域を抽出することができる。なお、１つの要素のタグ名は「ＩＭＧ」となり、並びにそのサイズはプリセット閾値よりも大きいならば、前記要素をグラフィック領域として確定し、並びに確定したグラフィック領域をグラフィック・タイプに属するＤＤＡターゲットとして出力ユニット３６０に出力する。

また、テーブル領域抽出ユニット３５０は、抽出ユニット３１０がＤＯＭツリーを利用して抽出したＤＯＭツリーを利用して、テーブル領域を抽出する。また、本発明の実施例によれば、テーブル領域抽出ユニット３５０も、文字領域とグラフィック領域とを抽出した後にＤＯＭツリーに残留された要素を処理して、テーブル領域を抽出することができる。なお、テーブル領域抽出ユニット３５０は、タグ名が「ＴＡＢＬＥ」となった要素をテーブル領域として確定することができる。

あるいは、ウェブ・ページ・ドキュメントにおける「ＴＡＢＬＥ」という要素は常に版面の基準化に利用するものであり、実在のテーブル領域を表示するものではないため、テーブル領域抽出ユニット３５０も、タグ名が「ＴＡＢＬＥ」となった要素をより正しく判断してテーブル領域を確定することができる。例えば、１つの要素のタグ名は「ＴＡＢＬＥ」となり、且つ少なくとも３つの「ＴＲ」子節点を含み、並びに複数の「ＴＲ」子節点は１つ以上の「ＴＤ」子節点を含む場合、前記要素をテーブル領域として確定する。なお、テーブル領域抽出ユニット３５０は、抽出したテーブル領域をテーブル・タイプに属するＤＤＡターゲットとして出力ユニット３６０に出力する。

また、出力ユニット３６０は、文字領域抽出ユニット３２０、グラフィック領域抽出ユニット３４０およびテーブル領域抽出ユニット３５０がそれぞれ抽出したＤＤＡターゲットをＤＤＡウェブ・ページ・コンテンツ抽出結果として出力する。

以上では、図３を参照しながら、ＤＤＡウェブ・ページ・コンテンツ抽出ユニットについて、詳しく説明したが、ただし、以上の説明はただの例として取り上げるものであるため、その限りではない、と理解する必要がある。また、本発明を備えたＤＤＡウェブ・ページ・コンテンツ抽出ユニットは、それ以外の構造を採用することも可能であり、あるいは、ＤＤＡに基づくその他の方法を利用してウェブ・ページ・コンテンツを抽出することもできる。

図５は本発明の実施例を備えたＤＤＡウェブ・ページ・コンテンツ抽出方法を示すフロー図である。図５を参照してみると、前記ＤＤＡウェブ・ページ・コンテンツ抽出方法として、まず、ステップＳ５１０において、ウェブ・ページ入力用のＤＯＭツリーを抽出する。続けてステップＳ５２０において、ＤＯＭツリーを利用して候補文字領域を抽出し、並びにステップＳ５３０において、候補文字領域のプロパティ情報を参考して、候補文字領域を対象にしてマージング操作を実行し、タイプを文字のＤＤＡターゲットとして生成させる。

また、ステップＳ５４０において、ＤＯＭツリーを利用してグラフィック領域をグラフィック・タイプに属するＤＤＡターゲットとして抽出する。そして、ステップＳ５５０において、ＤＯＭツリーを利用してテーブル領域をテーブル・タイプに属するＤＤＡターゲットとして抽出する。最後に、ステップＳ５６０において、集合文字と、グラフィックと、テーブル・タイプに属するＤＤＡターゲットとをＤＤＡウェブ・ページ・コンテンツ抽出結果として出力する。

ここで注目のポイントとして、上記ステップＳ５２０−Ｓ５３０、ステップＳ５４０およびステップＳ５５０は、並行的に実行するものとして指定しているが、ただし、本発明はその限りではなく、上記ステップは任意の順序に従って実行することもできる。

以下では、図６を参考しながら、結果融合ユニット１５０について、詳しく説明する。図６は本発明の実施例を備えた結果融合ユニット１５０の概要構造を示す概要図である。結果融合ユニット１５０は、ＤＤＡウェブ・ページ・コンテンツ抽出ユニット１２０が出力したＤＤＡウェブ・ページ・コンテンツ抽出結果（以下、ＤＤＡ抽出結果をいう）と、ＤＩＲウェブ・ページ・コンテンツ抽出ユニット１４０が出力したＤＩＲウェブ・ページ・コンテンツ抽出結果（以下、ＤＩＲ抽出結果をいう）とを受信し、ＤＤＡターゲットとＤＩＲターゲットとの対応関係を確定し、前記対応関係およびターゲット・タイプに基づいてＤＤＡ抽出結果とＤＩＲ抽出結果とを融合することにより、より最適の融合済みウェブ・ページ・コンテンツ抽出結果（以下、融合結果をいう）を生成させる。

図６に示されたように、本発明の実施例を備えた結果融合ユニット１５０は、対応関係確定ユニット６１０と融合実行ユニット６２０とを含む場合もある。また、対応関係確定ユニット６１０はＤＤＡ抽出結果とＤＩＲ抽出結果とを受信してＤＤＡターゲットとＤＩＲターゲットとの対応関係を確定する。なお、１つの実現モードとしては、ＤＤＡターゲットとＤＩＲターゲットとの対応関係はＤＤＡターゲットとＤＩＲターゲットと相応する矩形領域のオーバーラップ・サイズとして表すことも可能である。

上記のとおり、ウェブ・ページ・コンテンツ抽出結果はウェブ・ページ・コンテンツを代表するターゲットの集合として表すことも可能である。ここで、ＤＩＲ抽出結果をターゲット集合Ｇ＝{Ｇ₁, Ｇ₂, …, Ｇ_M}として表し、ＤＤＡ抽出結果をターゲット集合Ｄ＝{Ｄ₁, Ｄ₂, …, Ｄ_N}として表し、ここに、各々のターゲットＧ_iと、各々のターゲットＤ_jは、それぞれウェブ・ページにおける矩形領域と対応し、並びに少なくても該当する矩形領域のポジション情報とタイプ情報とを含み、ＭとＮはそれぞれＤＩＲウェブ・ページ・コンテンツ抽出ユニット１２０とＤＤＡウェブ・ページ・コンテンツ抽出ユニット１４０が抽出したターゲットの個数である。従って、オーバーラップ・サイズは下記のとおり定義することができる。

すなわち、

ここに、Ａｒｅａ(Ｄ_j)は第ｊ個のＤＤＡターゲットと相応する矩形領域の面積であり、Ａｒｅａ(Ｇ_i)は第ｉ個のＤＩＲターゲットと相応する矩形領域の面積であり、Ａｒｅａ(Ｇ_i∩Ｄ_j)は第ｉ個のＤＩＲターゲットと相応する矩形面積と、第ｊ個のＤＤＡターゲットと相応する矩形領域とのオーバーラップ面積である。すなわち、対応関係確定ユニット６１０は任意のＤ_jとＧ_iとのオーバーラップ・サイズを算出することができる。

また、融合実行ユニット６２０はＤＤＡターゲットとＤＩＲターゲットとの対応関係およびターゲット・タイプに基づいてＤＤＡ抽出結果とＤＩＲ抽出結果とを融合する。なお、１つの実現モードとしては、融合実行ユニット６２１は分類ユニット６２１と選定ユニット６２２とを含む場合もある。分類ユニット６２１はオーバーラップ・サイズおよびターゲット・タイプに基づいてＤＤＡターゲットとＤＩＲターゲットとを分類する。

上記のとおり、ターゲット・タイプは文字と、グラフィックとテーブルとを含む。また、本発明の実施例によれば、分類ユニット６２０はＤＤＡターゲットとＤＩＲターゲットとを下記のとおり７種類として分類することができる。

すなわち、
１）、１つのＤＩＲターゲットＧ_iについては、１つのＤＤＡターゲットＤ_jが存在することにより、

となり、並びにＧ_iとＤ_jとのタイプが同一（同じく文字、グラフィックまたはテーブルとなった場合）となるならば、Ｇ_iとＤ_jとを共にマッチング類として分類する。

２）、１つのＤＩＲターゲットＧ_iについては、１つのＤＤＡターゲットＤ_jが存在することにより、

となり、並びにＧ_iとＤ_jとのタイプが異なるならば、Ｇ_iとＤ_jとを共にタイプ・ミス類として分類する。

３）、１つのＤＩＲターゲットＧ_iについては、すべてのＤＤＡターゲットとも

となるならば、すなわち、それとオーバーラップを行ったＤＤＡターゲットが存在しないならば、前記Ｇ_iをチェック抜け類として分類する。

４）、１つのＤＤＡターゲットＤ_jについては、すべてのＤＩＲターゲットとも

となるならば、すなわち、それとオーバーラップを行ったＤＩＲターゲットが存在しないならば、前記Ｄ_jをバーチャル・ウォーニング類として分類する。

５）、１つのＤＩＲターゲットＧ_iについては、

となり、並びにそれとオーバーラップを行ったＤＤＡターゲットとマージングした後に得られたマージング・ターゲットと、前記Ｇ_iとをマッチングするならば、前記Ｇ_iと、前記Ｇ_iとオーバーラップを行ったＤＤＡターゲットとを共に分割類として分類し、並びに前記Ｇ_iとオーバーラップを行ったＤＤＡターゲットを前記Ｇ_iの分割として定義する。ここに、Ｔ_１は、ユーザーがウェブ・ページ入力の特性およびユーザーのニーズに応じてあらかじめ確定したプリセット閾値であり、Ｔ_１が小さいほど、分割類として分類できるターゲットが多くなる。

６）、１つのＤＤＡターゲットＤ_jについては、

となり、並びにそれとオーバーラップを行ったＤＩＲターゲットとマージングした後に得られたマージング・ターゲットと、前記Ｄ_jとをマッチングするならば、前記Ｄ_jと、それとオーバーラップを行ったＤＩＲターゲットとを共にマージング類として分類し、並びにＤ_jを、Ｄ_jとオーバーラップを行ったＤＩＲターゲットのマージングという。ここに、Ｔ_２は、ユーザーがウェブ・ページ入力の特性およびユーザーのニーズに応じてあらかじめ確定したプリセット閾値であり、Ｔ_２が小さいほど、マージング類として分類できるターゲットが多くなる。

７）、上記６種類以外に残されたＤＤＡターゲットとＤＩＲターゲットとを共にその他の類として分類する。

また、選定ユニット６２２は、分類ユニット６２１の分類結果に基づいてターゲットを選定して融合結果Ｒ＝{Ｒ₁, Ｒ₂, …, Ｒ_L}を構成として出力し、ここに、Ｌは融合結果におけるターゲットの個数であるため、ＤＤＡとＤＩＲ抽出結果との融合を実現することができる。また、本発明の実施例によれば、選定ユニット６２２は類別の違いに応じて、それぞれ異なる融合対策を取り入れることができる。例を挙げてみると、マッチング類における各々の１ペアのターゲットについて、選定ユニット６２２は対応可能なＤＤＡターゲットを選定して、それを融合結果に加えることができる。

一方、タイプ・ミス類における各々の１ペアのターゲットについて、選定ユニット６２２はＤＩＲターゲットのポジション情報とＤＤＡターゲットのタイプ情報とを結合して１つの新規ターゲットを生成させ、並びに前記新規ターゲットを融合結果に加えることができる。また、もう１つの例を挙げてみると、選定ユニット６２２は簡単にチェック抜け類におけるすべてのターゲットを無視し、並びにバーチャル・ウォーニング類におけるすべてのターゲットを融合結果に加えることができる。

なお、分割類について、選定ユニット６２２はその中のＤＩＲターゲットを融合結果に加えることができる。また、マージング類中における各々の１グループのターゲットについては、ターゲット・タイプに応じて、融合結果に加えるターゲットを選定することができる。例えば、ＤＤＡターゲット（例えば、Ｄ_j）とオーバーラップを行った少なくとも１つ以上のＤＩＲターゲットのいずれもグラフィック・タイプに属するターゲットであるならば、該当する少なくとも１つ以上のＤＩＲターゲットを融合結果に加える。また、ＤＤＡターゲットとオーバーラップを行った少なくとも１つ以上のＤＩＲターゲットには、グラフィック・タイプに属するターゲットと、文字タイプに属するターゲットとの両方を含むならば、該当するＤＤＡターゲット（例えば、Ｄ_j）を融合結果に加える。

そして、ＤＤＡターゲット（例えば、Ｄ_j）とオーバーラップを行った少なくとも１つ以上のＤＩＲターゲットのいずれも文字タイプに属するターゲットであるならば、該当する少なくとも１つ以上のＤＩＲターゲットマージングは新規ターゲットであり、並びに前記新規ターゲットを融合結果に加える。なお、その他の類におけるターゲットについて、選定ユニット６２２は、その中のＤＤＡターゲットを融合結果に加えることができる。

図７は本発明の実施例を備えた、ＤＤＡ抽出結果とＤＩＲ抽出結果とを融合する融合方法を示すフロー図である。本発明の実施例によれば、ＤＤＡターゲットとＤＩＲターゲットとの対応関係およびタイプに基づいてＤＤＡ抽出結果とＤＩＲ抽出結果とを融合する。

図７を参照してみると、まず、ステップＳ７１０において、ＤＤＡ抽出結果とＤＩＲ抽出結果とを受信する。それから、ステップＳ７２０において、ＤＤＡターゲットとＤＩＲターゲットとの対応関係を確定し、前記対応関係はＤＤＡターゲットとＤＩＲターゲットとのオーバーラップ・サイズに基づいて確定することができる。さらに、ステップＳ７３０において、オーバーラップ・サイズおよびターゲット・タイプに基づいてＤＤＡターゲットとＤＩＲターゲットとを分類する。最後に、ステップＳ７４０において、類別およびターゲット・タイプに基づいて最終の融合ウェブ・ページ・コンテンツ抽出結果に含まれたターゲットを確定する。

図８−１０は、ＤＤＡウェブ・ページ・コンテンツ抽出結果と、ＤＩＲウェブ・ページ・コンテンツ抽出結果と融合結果との例をそれぞれ示す図である。例えば、図８、９を見ると、ＤＤＡ抽出結果におけるＤ２からＤ５までは細すぎるため、対象のＤＩＲ抽出結果Ｇ２のほうがかなり良いと分かる。一方、ＤＩＲ抽出結果には右下のページ情報が抜けているが、ＤＤＡ方法では前記ページ情報を検出して、Ｄ１３と表示している。また、図１０に示されたように、本発明を備えたウェブ・ページ・コンテンツ抽出装置は、ＤＤＡ抽出結果とＤＩＲ抽出結果とを融合することができるため、より最適のウェブ・ページ・コンテンツ抽出結果が得られる。

以上では、図を参照しながら、本発明を説明した。ただし、以上の内容はただの例として取り上げるものであるため、その限りではない、と理解する必要がある。なお、本分野の技術者は、特許請求範囲に限られた本発明の趣旨や範囲から逸脱しない前提の下で、ここで開示した装置および方法の形式や詳細について、いろいろと変更を行うことができる。

本発明の実施例を備えたウェブ・ページ・コンテンツ抽出装置の概要構造を示す概要図である。本発明の実施例を備えたウェブ・ページ・コンテンツ抽出方法を示すフロー図である。図１に示されたＤＤＡウェブ・ページ・コンテンツ抽出ユニットの概要構造を示す概要図である。ウェブ・ページ・ドキュメント・ソース・コードと、対応するＤＯＭツリーとの例をそれぞれ示す図である。本発明の実施例を備えたＤＤＡウェブ・ページ・コンテンツ抽出方法を示すフロー図である。図１に示された結果融合ユニットの概要構造を示す概要図である。本発明の実施例を備えた、ＤＤＡとＤＩＲ抽出結果とを融合する方法を示すフロー図である。ＤＤＡウェブ・ページ・コンテンツ抽出結果の例を示す図である。ＤＩＲウェブ・ページ・コンテンツ抽出結果の例を示す図である。融合結果の例を示す図である。

符号の説明

１１０入力ユニット
１２０ＤＤＡウェブ・ページ・コンテンツ抽出ユニット
１３０画像変換ユニット
１４０ＤＩＲウェブ・ページ・コンテンツ抽出ユニット
１５０結果融合ユニット
３１０ＤＯＭツリー抽出ユニット
３２０文字領域抽出ユニット
３２１候補文字領域抽出ユニット
３２２候補文字領域マージング・ユニット
３４０グラフィック領域抽出ユニット
３５０テーブル領域抽出ユニット
３６０出力ユニット
６１０対応関係確定ユニット
６２０融合実行ユニット
６２１分類ユニット
６２２選定ユニット

Claims

ディジタル・ドキュメント解析（ＤＤＡ）方法に基づいてウェブ・ページ入力用のウェブ・ページ・コンテンツを抽出してＤＤＡ抽出結果を生成させることと、
ドキュメント画像識別（ＤＩＲ）方法に基づいてウェブ・ページ入力用のウェブ・ページ・コンテンツを抽出してＤＩＲ抽出結果を生成させることと、
前記ＤＤＡ抽出結果とＤＩＲ抽出結果とを融合して融合結果を生成させることと、を含むことを特徴とするウェブ・ページ・コンテンツを抽出するために用いられる方法。
前記抽出結果は少なくとも１つのターゲットを含み、前記ターゲットはウェブ・ページにおける矩形領域と相応するウェブ・ページ・コンテンツを代表し、前記ターゲットは少なくとも該当する矩形領域のポジション情報とタイプ情報とを含み、並びに前記タイプは文字とグラフィックとテーブルとを含むことを特徴する請求項１記載の方法。
前記ＤＤＡ抽出結果とＤＩＲ抽出結果とを融合することは、
ＤＤＡ抽出結果に含まれたＤＤＡターゲットと、ＤＩＲ抽出結果に含まれたＤＩＲターゲットとの対応関係を確定することと、
前記対応関係およびターゲット・タイプに基づいてＤＤＡ抽出結果とＤＩＲ抽出結果との融合を実行することと、を含むことを特徴とする請求項２記載の方法。
ＤＤＡターゲットとＤＩＲターゲットとの対応関係を確定し、ＤＤＡターゲットとＤＩＲターゲットとのオーバーラップ・サイズを算出することを含むことを特徴とする請求項３記載の方法。
ＤＩＲ抽出結果としてＧ＝{Ｇ₁，Ｇ₂，・・・，Ｇ_M}と表し、ＤＤＡ抽出結果としてＤ＝{Ｄ₁，Ｄ₂，・・・，Ｄ_N}と表した場合、ＤＤＡターゲットＤ_jとＤＩＲターゲットＧ_iとのオーバーラップ・サイズについては、下記の公式にて算出して求められ、すなわち、

ここに、Ａｒｅａ(Ｄ_j)はＤ_jと相応する矩形領域の面積であり、Ａｒｅａ(Ｇ_i)はＧ_iと相応する矩形領域の面積であり、Ａｒｅａ(Ｇ_i∩Ｄ_j)はＤ_jと相応する矩形領域と、Ｇ_iと相応する矩形領域とのオーバーラップ面積であり、並びにＮとＭはそれぞれＤＤＡ抽出結果およびＤＩＲ抽出結果に含まれたターゲットの個数であることを特徴とする請求項４記載の方法。
前記対応関係およびターゲット・タイプに基づいてＤＤＡ抽出結果とＤＩＲ抽出結果との融合を実行することは、
ＤＤＡターゲットとＤＩＲターゲットとの対応関係およびターゲット・タイプに基づいてＤＤＡターゲットとＤＩＲターゲットとを分類することと、
ターゲットの類別によってＤＤＡ抽出結果とＤＩＲ抽出結果とを融合して融合結果を生成させることと、を含むことを特徴とする請求項５記載の方法。
１つのＤＩＲターゲットＧ_iについては、１つのＤＤＡターゲットＤ_jが存在することにより、

となり、並びにＧ_iとＤ_jとのタイプが同一となるならば、前記Ｇ_iと前記Ｄ_jとを共にマッチング類として分類するルールと、
１つのＤＩＲターゲットＧ_iについては、１つのＤＤＡターゲットＤ_jが存在することにより、

となり、並びにＧ_iとＤ_jとのタイプが異なるならば、前記Ｇ_iと前記Ｄ_jとを共にタイプ・ミス類として分類するルールと、
１つのＤＩＲターゲットＧ_iについては、すべてのＤＤＡターゲットとも

となるならば、前記Ｇ_iをチェック抜け類として分類するルールと、
１つのＤＤＡターゲットＤ_jについては、すべてのＤＩＲターゲットとも

となるならば、前記Ｄ_jをバーチャル・ウォーニング類として分類するルールと、
１つのＤＩＲターゲットＧ_iについては、

となり、並びにそれとオーバーラップを行ったＤＤＡターゲットとマージングした後に得られたマージング・ターゲットと、前記Ｇ_iとをマッチングするならば、前記Ｇ_iと、前記Ｇ_iとオーバーラップを行ったＤＤＡターゲットとを共に分割類として分類し、ここに、Ｔ_１は第一のプリセット閾値であるルールと、
１つのＤＤＡターゲットＤ_jについては、

となり、並びにそれとオーバーラップを行ったＤＩＲターゲットとマージングした後に得られたマージング・ターゲットと、前記Ｄ_jとをマッチングするならば、前記Ｄ_jと、それとオーバーラップを行ったＤＩＲターゲットとを共にマージング類として分類し、ここに、Ｔ_２は第二のプリセット閾値であるルールと、および、
上記類別以外のＤＤＡターゲットと、ＤＩＲターゲットとを共にその他の類として分類するルールと、を含む上記ルールに従ってＤＤＡターゲットとＤＩＲターゲットとを分類することを特徴とする請求項６記載の方法。
ターゲットの類別によってＤＤＡ抽出結果とＤＩＲ抽出結果とを融合して融合結果を生成させることは、
マッチング類におけるＤＤＡターゲットを融合結果に加えることと、
タイプ・ミス類におけるＤＩＲターゲットのポジション情報と、該当するＤＤＡターゲットのタイプ情報とを結合して新規ターゲットを生成させ、並びに前記新規ターゲットを融合結果に加えることと、
バーチャル・ウォーニング類におけるすべてのターゲットを融合結果に加えるとことと、
分割類におけるＤＩＲターゲットを融合結果に加えることと、
マージング類については、ＤＤＡターゲットとオーバーラップを行ったＤＩＲターゲットのいずれもグラフィック・タイプに属するターゲットであるならば、該当するＤＩＲターゲットを融合結果に加えることと、ＤＤＡターゲットとオーバーラップを行ったＤＩＲターゲットにおいてグラフィック・タイプに属するターゲットと、文字タイプに属するターゲットとの両方を含むならば、該当するＤＤＡターゲットを融合結果に加えることと、ＤＤＡターゲットとオーバーラップを行ったＤＩＲターゲットのいずれも文字タイプに属するターゲットであるならば、ＤＤＡターゲットとオーバーラップを行ったＤＩＲターゲットとマージングしてなしたマージング・ターゲットを融合結果に加えることと、および、
その他の類におけるＤＤＡターゲットを融合結果に加えることと、を含むことを特徴とする請求項７記載の方法。
ＤＤＡ方法に基づいてウェブ・ページ入力用のウェブ・ページ・コンテンツを抽出することは、
ウェブ・ページ入力用のドキュメント・オブジェクト・モデル（ＤＯＭ）ツリーを抽出し、並びに少なくともＤＯＭツリーにおける各節点の親節点と、子節点と、タグ名と、内部文字とポジションとに関するプロパティ情報を保存することと、
ＤＯＭツリーを利用してウェブ・ページ入力用の文字ターゲットと、グラフィック・ターゲットとテーブル・ターゲットとをそれぞれ抽出することと、を含むことを特徴とする請求項２記載の方法。
ＤＯＭツリーを利用して文字ターゲットを抽出することは、
ＤＯＭツリーにおける各節点については、前記節点の内部文字プロパティがブランクではなく、並びに前記節点の子節点にはブロック節点を含まないならば、前記節点で表した要素を候補文字ターゲットとして確定することと、
候補文字ターゲットのプロパティ情報を参考する上、確定した候補文字領域を対象にしてマージング操作を実行することによって文字ターゲットを取得することと、を含む方法において、
節点のタグ名は、「ＩＮＰＵＴ」、「！」、「Ａ」、「Ｂ」、「Ｕ」、「Ｉ」、「ＢＩＧ」、「ＳＭＡＬＬ」、「ＦＯＮＴ」、「ＨＲ」、「ＢＲ」、「ＰＲＥ」、「ＴＴ」、「Ｓ」、「ＢＬＯＣＫＱＵＯＴＥ」、「ＡＤＤＲＥＳＳ」、「ＤＦＮ」、「ＳＡＭＰ」、「ＫＢＤ」、「ＶＡＲ」、「ＣＯＤＥ」、「ＣＩＴＥ」、「ＡＢＢＲ」、「ＡＣＲＯＮＹＭ」、「ＳＵＢ」、「ＳＵＰ」、「ＩＮＳ」、「ＤＥＬ」、「Ｐ」、「ＥＭ」、「ＴＥＸＴ」、「ＳＴＲＯＮＧ」、「／Ａ」のいずれかの１つにも該当しないならば、前記節点はブロック節点であることを特徴とする請求項９記載の方法。
候補文字ターゲットを対象にしてマージング操作を実行することは、
ポジション上において２つの文字ターゲットをオーバーラップした場合、これらを１つの文字ターゲットとしてマージングすることを含むことを特徴とする請求項１０記載の方法。
候補文字ターゲットを対象にしてマージング操作を実行することは、１つの文字ターゲットがもう１つの文字ターゲットに含まれた場合、含まれた文字ターゲットを削除することを含むことを特徴とする請求項１０記載の方法。
候補文字ターゲットを対象にしてマージング操作を実行することは、
２つの文字ターゲットと相応する矩形領域が垂直方向でポジションと隣接し、且つこれらのフォントおよびフォント高さのプロパティとも同じ、また、これらの左側エッジ部が相互に近接し、並びに幅が相似した場合、これらを１つの文字領域としてマージングすることを含むことを特徴とする請求項１０記載の方法。
ＤＯＭツリーを利用してグラフィック・ターゲットを抽出することは、
ＤＯＭツリー節点のタグ名は「ＩＭＧ」となり、並びにそのサイズは第三のプリセット閾値よりも大きいならば、前記節点をグラフィック・ターゲットとして確定することを含むことを特徴とする請求項９記載の方法。
ＤＯＭツリーを利用してテーブル・ターゲットを抽出することは、
ＤＯＭツリー節点のタグ名は「ＴＡＢＬＥ」となり、且つ前記ＤＯＭツリー節点は少なくとも３つの「ＴＲ」子節点を含み、並びに複数の「ＴＲ」子節点は１つ以上の「ＴＤ」子節点を含む場合、前記節点をテーブル領域として確定することを含むことを特徴とする請求項９記載の方法。
ＤＤＡ方法に基づいてウェブ・ページ入力用のウェブ・ページ・コンテンツを抽出してＤＤＡ抽出結果を生成させるディジタル・ドキュメント解析（ＤＤＡ）ウェブ・ページ・コンテンツ抽出ユニットと、
ＤＩＲ方法に基づいてウェブ・ページ入力用のウェブ・ページ・コンテンツを抽出してＤＩＲ抽出結果を生成させるドキュメント画像識別（ＤＩＲ）ウェブ・ページ・コンテンツ抽出ユニットと、
前記ＤＤＡ抽出結果と前記ＤＩＲ抽出結果とを融合して融合結果を生成させる融合ユニットと、を含むことを特徴とするウェブ・ページ・コンテンツを抽出するために用いられる装置。
抽出結果は少なくとも１つのターゲットの集合として表し、前記ターゲットはウェブ・ページにおける矩形領域と相応するウェブ・ページ・コンテンツを代表し、前記ターゲットは少なくとも該当する矩形領域のポジション情報とタイプ情報とを含み、並びに前記タイプは文字とグラフィックとテーブルとを含むことを特徴とする請求項１６記載の装置。
前記融合ユニットは、
ＤＤＡターゲットとＤＩＲターゲットとの対応関係を確定する対応関係確定ユニットと、ＤＤＡターゲットとＤＩＲターゲットとの対応関係およびＤＤＡターゲットとＤＩＲターゲットのタイプに基づいてＤＤＡ抽出結果とＤＩＲ抽出結果との融合を実行して融合結果を生成させる融合実行ユニットと、を含むことを特徴とする請求項１７記載の装置。
前記対応関係確定ユニットはＤＤＡターゲットとＤＩＲターゲットとのオーバーラップ・サイズを算出してＤＤＡターゲットとＤＩＲターゲットとの対応関係を確定することを特徴とする請求項１８記載の装置。
ＤＩＲ抽出結果としてＧ＝{Ｇ₁, Ｇ₂, …, Ｇ_M}と表し、ＤＤＡ抽出結果としてＤ＝{Ｄ₁, Ｄ₂, …, Ｄ_N}と表した場合、ＤＤＡターゲットＤ_jとＤＩＲターゲットＧ_iとのオーバーラップ・サイズについては、下記の公式にて算出して求められ、すなわち、

ここに、Ａｒｅａ(Ｄ_j)はＤ_jと相応する矩形領域の面積であり、Ａｒｅａ(Ｇ_i)はＧ_iと相応する矩形領域の面積であり、Ａｒｅａ(Ｇ_i∩Ｄ_j)はＤ_jと相応する矩形領域と、Ｇ_iと相応する矩形領域とのオーバーラップ面積であり、並びにＮとＭはそれぞれＤＤＡ抽出結果およびＤＩＲ抽出結果に含まれたターゲットの個数であることを特徴とする請求項１９記載の装置。
前記融合実行ユニットは、
ＤＤＡターゲットとＤＩＲターゲットとの対応関係およびターゲット・タイプに基づいてＤＤＡターゲットとＤＩＲターゲットとを分類する分類ユニットと、および、
ＤＤＡターゲットとＤＩＲターゲットとの類別によって前記融合結果に含まれたターゲットを確定する選定ユニットと、を含むことを特徴とする請求項１８記載の装置。
１つのＤＩＲターゲットＧ_iについては、１つのＤＤＡターゲットＤ_jが存在することにより、

となり、並びにＧ_iとＤ_jとのタイプが同一となるならば、前記Ｇ_iと前記Ｄ_jとを共にマッチング類として分類するルールと、
１つのＤＩＲターゲットＧ_iについては、１つのＤＤＡターゲットＤ_jが存在することにより、

となり、並びにＧ_iとＤ_jとのタイプが異なるならば、前記Ｇ_iと前記Ｄ_jとを共にタイプ・ミス類として分類するルールと、
１つのＤＩＲターゲットＧ_iについては、すべてのＤＤＡターゲットとも

となるならば、前記Ｇ_iをチェック抜け類として分類するルールと、
１つのＤＤＡターゲットＤ_jについては、すべてのＤＩＲターゲットとも

となるならば、前記Ｄ_jをバーチャル・ウォーニング類として分類するルールと、
１つのＤＩＲターゲットＧ_iについては、

となり、並びにそれとオーバーラップを行ったＤＤＡターゲットとマージングした後に得られたマージング・ターゲットと、前記Ｇ_iとをマッチングするならば、前記Ｇ_iと、前記Ｇ_iとオーバーラップを行ったＤＤＡターゲットとを共に分割類として分類し、ここに、Ｔ_１は第一のプリセット閾値であるルールと、
１つのＤＤＡターゲットＤ_jについては、

となり、並びにそれとオーバーラップを行ったＤＩＲターゲットとマージングした後に得られたマージング・ターゲットと、前記Ｄjとをマッチングするならば、前記Ｄ_jと、それとオーバーラップを行ったＤＩＲターゲットとを共にマージング類として分類し、ここに、Ｔ_２は第二のプリセット閾値であるルールと、および、
上記類別以外のＤＤＡターゲットと、ＤＩＲターゲットとを共にその他の類として分類するルールと、を含む上記ルールに従って、前記分類ユニットはＤＤＡターゲットとＤＩＲターゲットとを分類することを特徴とする請求項２１記載の装置。
マッチング類におけるＤＤＡターゲットを融合結果に加えることと、
タイプ・ミス類中におけるＤＩＲターゲットのポジション情報と、該当するＤＤＡターゲットのタイプ情報とを結合して新規ターゲットを生成させ、並びに前記新規ターゲットを融合結果に加えることと、
バーチャル・ウォーニング類におけるすべてのターゲットを融合結果に加えることと、
分割類におけるＤＩＲターゲットを融合結果に加えることと、
マージング類については、ＤＤＡターゲットとオーバーラップを行ったＤＩＲターゲットのいずれもグラフィック・タイプに属するターゲットであるならば、該当するＤＩＲターゲットを融合結果に加えることと、ＤＤＡターゲットとオーバーラップを行ったＤＩＲターゲットにおいてグラフィック・タイプに属するターゲットと、文字タイプに属するターゲットとの両方を含むならば、該当するＤＤＡターゲットを融合結果に加えることと、ＤＤＡターゲットとオーバーラップを行ったＤＩＲターゲットのいずれも文字タイプに属するターゲットであるならば、ＤＤＡターゲットとオーバーラップを行ったＤＩＲターゲットとマージングしてなしたマージング・ターゲットを融合結果に加えることと、および、
その他の類におけるＤＤＡターゲットを融合結果に加えることと、を含む上記のとおり、前記選定ユニットは融合結果に含まれたターゲットを確定することを特徴とする請求項２２記載の装置。
前記ＤＤＡウェブ・ページ・コンテンツ抽出ユニットは、
ウェブ・ページ入力用のＤＯＭツリーを抽出し、並びに少なくともＤＯＭツリーにおける各節点の親節点と、子節点と、タグ名と、内部文字とポジションとに関するプロパティ情報を保存するドキュメント・オブジェクト・モデル（ＤＯＭ）ツリー抽出ユニットと、
ＤＯＭツリーを利用してウェブ・ページ入力用の文字ターゲットを抽出する文字ターゲット抽出ユニットと、
ＤＯＭツリーを利用してウェブ・ページ入力用のグラフィック・ターゲットを抽出するグラフィック・ターゲット抽出ユニットと、および、
ＤＯＭツリーを利用してウェブ・ページ入力用のテーブル・ターゲットを抽出するテーブル・ターゲット抽出ユニットと、を含む特徴とする請求項１８記載の装置。
前記文字ターゲット抽出ユニットは、
ＤＯＭツリーにおける各節点については、前記節点の内部文字プロパティがブランクではなく、並びに前記節点の子節点にはブロック節点を含まないならば、前記節点で表した要素を候補文字ターゲットとして確定する候補文字ターゲット抽出ユニットと、
候補文字ターゲットのプロパティ情報を参考する上、確定した候補文字領域を対象にしてマージング操作を実行することによって文字ターゲットを取得するマージング・ユニットと、を含む装置において、
節点のタグ名は、「ＩＮＰＵＴ」、「！」、「Ａ」、「Ｂ」、「Ｕ」、「Ｉ」、「ＢＩＧ」、「ＳＭＡＬＬ」、「ＦＯＮＴ」、「ＨＲ」、「ＢＲ」、「ＰＲＥ」、「ＴＴ」、「Ｓ」、「ＢＬＯＣＫＱＵＯＴＥ」、「ＡＤＤＲＥＳＳ」、「ＤＦＮ」、「ＳＡＭＰ」、「ＫＢＤ」、「ＶＡＲ」、「ＣＯＤＥ」、「ＣＩＴＥ」、「ＡＢＢＲ」、「ＡＣＲＯＮＹＭ」、「ＳＵＢ」、「ＳＵＰ」、「ＩＮＳ」、「ＤＥＬ」、「Ｐ」、「ＥＭ」、「ＴＥＸＴ」、「ＳＴＲＯＮＧ」、「／Ａ」のいずれかの１つにも該当しないならば、前記節点はブロック節点であることを特徴とする請求項２４記載の装置。
ポジション上において２つの文字ターゲットをオーバーラップした場合、前記マージング・ユニットはこれらを１つの文字ターゲットとしてマージングすることを特徴とする請求項２５記載の装置。
１つの文字ターゲットがもう１つの文字ターゲットに含まれた場合、前記マージング・ユニットは、含まれた文字ターゲットを削除することを特徴とする請求項２５記載の装置。
２つの文字ターゲットと相応する矩形領域が垂直方向でポジションと隣接し、且つこれらのフォントおよびフォント高さのプロパティとも同じ、また、これらの左側エッジ部が相互に近接し、並びに幅が相似した場合、前記マージング・ユニットはこれらを１つの文字領域としてマージングすることを特徴とする請求項２５記載の装置。
ＤＯＭツリー節点のタグ名は「ＩＭＧ」となり、並びにそのサイズは第三のプリセット閾値よりも大きいならば、前記グラフィック・ターゲット抽出ユニットは前記節点をグラフィック・ターゲットとして確定することを特徴とする請求項２４記載の装置。
ＤＯＭツリー節点のタグ名は「ＴＡＢＬＥ」となり、且つ前記ＤＯＭツリー節点は少なくとも３つの「ＴＲ」子節点を含み、並びに複数の「ＴＲ」子節点は１つ以上の「ＴＤ」子節点を含む場合、前記テーブル・ターゲット確定ユニットは前記節点をテーブル領域として確定することを特徴とする請求項２４記載の装置。