JP2006004417A

JP2006004417A - 情報ファイルの特定のタイプを認識する方法及び装置

Info

Publication number: JP2006004417A
Application number: JP2005151494A
Authority: JP
Inventors: Wang Zhulong; 主▲ろん▼ 王; Hao Yu; 浩于; Fumito Nishino; 文人西野
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2004-05-24
Filing date: 2005-05-24
Publication date: 2006-01-05
Also published as: CN1702651A; US20050267915A1

Abstract

【課題】本発明は、インターネットから集められた又は他の記憶装置に蓄えられたＷｅｂページファイルグループに関して、特定の情報タイプを認識するためのファイル認識装置及び方法を提供する。
【解決手段】本発明にかかるファイル認識装置は、ファイルタイプによる認識の対象であるファイルグループを、所定の視点から分類するファイルグループ化セクションと、特定の情報タイプに特定の特徴に応じてファイルタイプを認識するファイルタイプ認識セクションと、グループ内の全てのファイルの認識の正確性考慮して、ファイルそれぞれの認識結果を補正するファイルタイプ認識補正セクションとを備える。本発明の装置及び方法は、多様なタイプの情報を認識することができ、そして十分な認識精度を得ることができる。
【選択図】図１

Description

本発明は、情報ファイルの特定のタイプを認識する方法及び装置に関する。

情報は、通常、ファイル形式で保存され保管される。同様に、インターネット上に幅広く広がる情報もまた、Ｗｅｂファイル形式で分配され送られる。インターネットの急速な発展に伴い、Ｗｅｂファイル情報の量は、ますます増加し、そして相当量の割合を占め、それゆえ、例えばＷｅｂファイルの分類や検索のようなインターネット上の情報処理技術の重要性をより大きくしている。さらにネットワークの急速な発展に伴い、加入者のオンライン情報への要求は、多様化しつつある。通常、文字列マッチングに基づいたサーチ方法は、加入者の精練された情報の検索への要求を申し分なく満たし得る。しかしながら、情報タイプによって特徴付けられたいくつかのファイルグループについては、分類や認識がそれほど満足いくものではない。

今日、ネットワークの急速な発展に伴い、Ｗｅｂページによって運ばれる情報は高集積化されつつあり、そしてそのコンテンツは、ますます複雑かつ多様になりつつある。多くの情報コンテンツ、例えばハイパーリンク及びハイパーメディア情報は、Ｗｅｂページの不可欠な部分になっている。それは、送られうる情報の量を増加させ、そしてユーザインターフェースをある程度改善したが、しかしその一方、それはＷｅｂページの構造を複雑にし、Ｗｅｂ情報における多様な題目を招き、そして主情報コンテンツにノイズを加えた。これまで、多くのＷｅｂ情報処理に従事する研究者が、精度よく理解し主情報を抽出しようとして、多様なＷｅｂ情報ブロック化方法を提案している（例えば、非特許文献１や非特許文献２）。

よく知られたように、Ｗｅｂ情報において、Ｗｅｂ上に運ばれる情報は、組織化されかつＨＴＭＬ記述の言語によって表現されていて、そしてＷｅｂ情報は解釈されてＷｅｂブラウザを用いてエンドユーザに表示される。見たところでは、この種の情報フローは、線形的なテキスト情報フローであるが、実際には、Ｗｅｂ情報フローはある種の組織構造を有する。Ｗｅｂページ情報処理のキーテクノロジーの一つでもあるＷｅｂファイルの組成構造解析は、Ｗｅｂ情報の処理の前に行われる。Ｗｅｂページにおいて、ページコンテンツはＨＴＭＬ記述の言語をもって組織化され、そしてその情報構造は、ＨＴＭＬタグとＷｅｂテキスト情報とをそのノードとして用い、ＤＯＭ（Document Object Model）ツリーへとマッピングされる。現存するブラウザは、ＷｅｂページのＤＯＭツリー構造をパージングすることによって、Ｗｅｂページを表示する。Ｗｅｂページ内のテキスト情報は、ＨＴＭＬにおいて定義されたタグと共に伝えられる対象である情報を用いて組織化されている。Ｗｅｂ情報の構造ツリーは、タグの機能的属性をパージングすることによって処理されることができる。非特許文献１は、比較的シンプルな発見的ページブロック化の方法を提案し、その方法は、異なる情報トピックを分離するために、情報の意味に関する一貫性に基づきＤＯＭツリー及びＨＴＭＬタグの異なる属性を用いることによってＷｅｂページを分割する。非特許文献２は、例えば＜Table＞のようなＨＴＭＬタグを用いることによって、Ｗｅｂページの情報ブロックを検出及び分割するための方法を提案した。両方法は、ユーザが所望する情報コンテンツを抽出するために、ＨＴＭＬタグの異なる属性を用いることによって、Ｗｅｂページを分割することが分かる。

Ziv Bar-Yossef 及び Sridhar Rajagopalan、データマイニングを介したテンプレート検出及びその応用（Template Detection via Data Mining and its Applications）、 Proceedings of the WWW 2002、２００２年５月７日から１１日、ホノルル、ハワイ、ＵＳＡ Shian-Hua Lin 及び Jan-Ming Ho、Ｗｅｂ文書からの情報コンテンツブロックの発掘（Discovering Informative Content Blocks from Web Documents）、SIGKDD'02、２００２年６月２３日から２６日、エドモントン、アルバータ、カナダ

特徴付けられた情報タイプによってファイルグループを分類し認識することにおいて、上述した課題を解決するために、本発明は、情報ファイルの特定のタイプを認識するための方法及び装置を提供し、それら方法及び装置は、インターネットから集められたＷｅｂファイル又は関連した記憶装置に蓄えられたファイルグループのファイルタイプに基づいた認識を行うことができる。同じタイプのファイルは、ファイルタイプ認識に有効に用いることができる特定の属性を有するという事実に基づいて、本発明は入力されたファイルをグループ分けし、それは、ファイルサンプルの前段階の分類処理の一効果を達成し、認識の正確性の向上に貢献する。

本発明の一局面において、ファイル認識装置が提供され、この装置は、ファイルタイプによる認識の対象である前記ファイルを、例えばＵＲＬ及び著者名のような所定の視点において分類し、次に続く認識モジュールが各グループのファイル属性に基づいて認識を実行できるように、その属性に基づいてファイルを分類する、ファイルグループ化セクションを備え、このファイルグループ化セクションは、サンプルの前段階の分類処理の一効果に貢献し、そしてシステムの最終的な認識の正確性を向上させる。また、この装置は、Ｗｅｂページの固有のＤＯＭツリー構造及びＨＴＭＬタグの属性に基づいてファイルの主情報ブロックを抽出し、例えばリリック、ログ、及び、ＢＢＳのような、ファイルの情報タイプを決定する、ファイルタイプ認識セクションを備え、ファイルタイプ認識セクションは、上述した特定の情報に特定の特徴、例えば、キーワード、句読点、文書構造、及び、コンテンツの繰り返し、に基づいてファイルタイプを認識する。また、この装置は、各個別ファイルの認識結果に連動して前記グループ内の全てのファイルの認識の正確性を考慮して、グループ内の全てのファイルの全体的な認識精度に特別な注意を払いながら、グループ内の全てのファイルの全体的な認識精度向上させるために、グループの全てのファイル認識結果を補正する、ファイルタイプ認識補正セクションを備る。

好ましくは、本発明に係るファイル認識装置において、前記ファイルタイプ認識セクションは、前記ファイルから主情報ブロック抽出し、前記ファイルに対して何の意味も持たないノイズ成分を取り除く主情報ブロック抽出部をさらに備える。

好ましくは、本発明に係るファイル認識装置において、前記ファイルタイプ認識補正セクションは、現在ファイルサブグループ内の各ファイルの認識結果をサマライズし、前記現在ファイルサブグループを一単位として取得することによって、ポジティブ例として認識されたファイル数と前記現在のサブグループにおけるファイル数との比率を算定し、そして、前記比率と所定の閾値とを比較することによって前記現在ファイルサブグループを決定する。

本発明の他の局面において、ファイル認識方法が提供され、その方法は、インターネットから集められた又は他の記憶装置に蓄えられたファイルグループに関して、特定の情報タイプを認識するためのファイル認識方法であって、ファイルタイプによる認識の対象である前記ファイルを、所定の視点によって分類するステップと、前記特定の情報タイプに特定の特徴に基づいて前記ファイルタイプを認識するステップと、前記グループ内の全てのファイルの認識の正確性考慮して、前記ファイルそれぞれの認識結果を補正するステップとを含む。

好ましくは、本発明に係るファイル認識方法において、前記認識するステップは、前記ファイルに対して何の意味も持たないノイズ成分を取り除き主部分のみを抽出するステップをさらに含む。

好ましくは、本発明に係るファイル認識方法において、前記認識するステップは、現在ファイルサブグループ内の各ファイルの認識結果をサマライズし、前記現在ファイルサブグループを一単位として取得することによって、ポジティブ例として認識されたファイル数と前記現在のサブグループにおけるファイル数との比率を算定し、そして、前記比率と所定の閾値とを比較することによって前記現在ファイルサブグループを決定する。

本発明に係る、情報ファイルの特定のタイプを認識するための装置の一実施形態と、それに関して用いられた認識方法とを、図面を参照し、例としてリリックページの再組織化を用いて説明する。図１は、本発明に係るファイル認識装置の概略的な構造示す。本発明に係るファイル認識装置は、入力部と出力部とを有し、主に３つのセクションから成る。それらは、（１）ファイルグループ化セクション、（２）ファイルタイプ認識セクション、及び、（３）ファイルタイプ認識補正セクションである。詳細な説明を以下に示す。

本発明に係るファイル認識装置の入力は、インターネットから集められたＷｅｂページ又は適切な記憶装置に蓄えられた他のファイルグループである。出力は、この認識装置によって処理された２つの分類されたファイルセットであり、すなわち、ポジティブ例の認識結果セットと、カウンター例の認識結果セットである。ポジティブサンプルの認識結果は、このシステムによって認識された特定の情報タイプであり、例えば、本実施形態におけるリリックページである。カウンターサンプルの認識結果は、特定の情報タイプではないとこのシステムによって認識された認識結果であり、例えば、本実施形態において非リリックページとして認識されたファイルである。

（１）ファイルグループ化セクション
最初に、このファイルグループ化セクションは、インターネットから集められたＷｅｂページ又は他の記憶装置に蓄えられたファイルグループであるインプットファイルグループのファイルタイプの分類を、例えばＵＲＬと著者のような多様な視点に基づいて行う。大多数の従来のシステムにおいて、認識対象の全てのファイルは認識システムと等しく、そして、同じ方法とリソースを用いて各個別ファイルを認識し決定する。これは、システムモデリングの視点において基本的には妥当であり、そして認識対象のファイルに対して公平である。しかしながら、実際の適用においては、ファイルの間にある種の関連があり、そしてそのような関連は特定のファイル属性の形態として示されるが、一方、従来のシステムは、この特徴の利用を欠いている。本発明に係るファイルグループ化セクションは、まさにこの考慮に基づいていて、そして例えばＵＲＬと著者のような異なる視点においてファイルを分類し、システムの入力としてそれぞれのクラスを取得する。したがって、個別ファイルは互いに関連付けられることができ、そして、このシステムは各グループの共有属性に基づいて認識を行う。

このシステムの認識機能全般の視点から、ファイルグループ化セクションは、入力サンプルの前段階の分類処理の一効果をもたらし、それはシステムの根本的な認識正確性全般の改善に貢献するものである。

（２）ファイルタイプ認識セクション
ファイルタイプ認識セクションでは、ＤＯＭツリーの構造情報及びＨＴＭＬタグの属性
は、複雑なＷｅｂページから主情報ブロックを抽出するために十分に活用されている。その場合、この発明は、Ｗｅｂページテンプレート情報に基づいてＷｅｂページから主情報ブロックを抽出するための方法を採用し、それは、Ｗｅｂの主情報を再組織化してそれによってシステムの再組織化の正確性を改善させるためにノイズ成分の干渉を取り除くためである。

ファイルタイプ認識セクションは、Ｗｅｂページの固有のＤＯＭ構造及びＨＴＭＬタグの属性に基づいてファイルの主情報ブロック抽出し、そして主情報コンテンツに基づいてファイルの特定の情報タイプ（リリック情報）を決定する。そして、例えば、キーワード、句読点、文書構造、及び、コンテンツの繰り返しのような特徴であり、特定のタイプ情報の一タイプであるリリック情報に特定の特徴を用いてファイルタイプを認識する。

図２は、ファイルタイプ認識セクションの実行を説明する。ファイルタイプ認識セクションの入力は、ファイルグループ化セクションによって、例えばＵＲＬのような多様な視点に基づいて、分類されたファイルサブグループである。具体的には、ファイルタイプ認識セクションは、ファイルサブグループ用テンプレート情報抽出部、ファイル主情報ブロック抽出部、及び、ファイル主情報ブロックタイプ認識部を備える。ファイルサブグループ用テンプレート情報抽出部の機能は、サブグループのためのテンプレートトレーニングセットを用いてＨＴＭＬ構造文書を分析することによって、Ｗｅｂページのテンプレート情報を抽出することである。ファイル主情報ブロック抽出部の主な機能は、ファイルサブグループ用テンプレート情報抽出部によって抽出されたファイルサブグループテンプレート情報を用いて、ファイルサブグループ内の各ファイルから主情報を抽出することである。ファイル主情報ブロック抽出部は、Ｗｅｂページから大多数のノイズ情報除くことができ、そして、それによって後に続くファイルタイプ認証を保証する。その間、ファイル主情報ブロック抽出部の実行中に、並列処理を実現しその結果としてシステムの処理速度を改善するために、マルチスレッド技術が適用されてもよい。ファイル主情報ブロックタイプ認識部の機能は、特定の情報タイプであるリリックＷｅｂページに特定の特徴、例えば、キーワード、句読点、文書構造、及び、コンテンツの繰り返し、に基づいて、ファイルタイプを認識することである。ファイル主情報ブロックタイプ認識部の入力は、各ファイルから抽出された主情報コンテンツである。

図３は、ファイルサブグループ用テンプレート情報抽出部の内部機能の実行を示す。入力は、ファイルグループ化セクションによって分類されたファイルサブグループにおける、テンプレート情報抽出トレーニングセットである。このセクションは、ファイルグループのテンプレート情報の抽出を主に実現し、その主な構成要素として、ファイルＤＯＭツリー表現部、ＤＯＭツリー内リーフノード情報ブロック併合部、ＤＯＭツリー情報ブロックデータ構造（情報ブロックテーブル）表現部、情報ブロック内文字列類似度算定部、及び、テンプレート情報ブロック抽出部を備える。

１．Ｗｅｂページ情報処理におけるキーテクノロジーとして、ファイルＤＯＭツリー表現部は、Ｗｅｂページソースコードの線形的なフローの、ＷｅｂファイルのＤＯＭツリー構造へのマッピングを実現し、そして、後に続くファイル構造解析を強調する。公知であるように、情報コンテンツが伝えられるＷｅｂページは、ＨＴＭＬタグ情報、ノート情報、及び、伝えられる対象である主情報から成るＨＴＭＬ記述の言語を用いた形式である。ノート情報は構造解析に役に立たないが、その一方、タグ情報は豊富な構造情報を含んでいる。ＤＯＭツリーにおいて、Ｗｅｂページによって伝えられる対象の情報は、通常、テキスト属性であるというノード属性を伴うリーフの形式で存在する。図４は、Ｗｅｂページのためのパージング処理を説明する。ファイルフローは、ファイル情報トークンフロー部へと流れ、その属性に基づいて上述した３つの情報タイプに分類され、その各タイプはトークンフローと称される。そのようなＷｅｂページは、一連のトークンフローから成るとみなされる。これらトークン情報フローはＨＴＭＬパージング部へと流れ込み、この部は、Ｗ３Ｃによって発行されたＨＴＭＬバージョン規格に従い、各タグの属性に基づいてトークン情報フローをパージングし、そしてこのＷｅｂページに対応するＤＯＭツリー取得する。図５−１及び図５−２は、ＷｅｂページのためのＤＯＭツリーの一例を示し、それにおいて、ＴＥＸＴノードはＷｅｂページによって伝えられる対象の主情報テキストノードを表し、他のノードはＨＴＭＬタグ記号を表し、線分は２つのノード間の親子関係を表す。

２．ＤＯＭツリー内リーフノード情報ブロック併合部は、Ｗｅｂページ内の異なる情報ブロック間のデリミタの指定及び位置の決定を実現する。ＷｅｂページファイルのＨＴＭＬソースファイルは、ブラウザによって解釈されたのちユーザへと表示される。ディスプレイ効果の視点から、情報の組織はある種の構造を有し、そして、Ｗｅｂページにおいて、異なるテキスト情報が異なる領域においてある程度集まっている、すなわち、情報ブロックの形態として存在する。ＷｅｂページのＤＯＭツリーにおける対応するノード間には、ある種の関連も存在する。この併合部は、以下のように、情報ブロックの併合を実現する。

ＨＴＭＬＤＯＭツリーを用いて情報ブロック間の関係を見出すためには、ＤＯＭツリーは、まず不適切な情報ノード、例えばスクリプトノードを除くために、そして有効なノードを選択するために処理されなければならない。以下は、情報ブロックのための併合方法である。
（ａ）アルゴリズムにおいて用いられる適切なシンボルを定義する。
Ｎは、ＤＯＭツリーにおけるノードを意味する。
ＤＮは、現在のノードがテキスト情報ノードではなく、ＤＯＭツリーにおけるリーフノードとして存在することを意味する。
ＬＮは、現在のノードがＤＯＭツリーにおけるリーフノードであって、その一方でテキストノードであることを意味する。
（ｂ）深さ優先のポストオーダを用いて、ＷｅｂページのためのＤＯＭツリー全体を走査し、道をたどりながら各ノードを調査する。
ステップ１
（ｉ）もし現在のノードＮがＤＯＭツリーのリーフノードではない場合、何も実行せずに次のノードを調査する。
（ｉｉ）もし現在のノードがＤＯＭツリーのＬＮノードである場合、このノードをキャンセルして次のノードを調査する。
現時点までに、全てのＤＮノードがキャンセルされる。
ステップ２
（ｉ）もし現在のノードＮがＤＯＭツリーのリーフノードである場合、何も実行せずに次のノードを調査する。
（ｉｉ）もし現在のノードＮの親ノードがただ１つの子ノードを有し、現在のノードＮがただ１つのリーフノードを有する場合、以下を実行する。
１）現在のノードＮをキャンセルする。
２）現在のノードＮの子ノードを、現在のノードの親ノードの子ノードとし、それを他の兄弟ノードの後方に順次配置する。
３）ツリー全体の他のノードの走査を続ける。

ツリーの適切ではないノードをキャンセルした後、比較的コンパクトなＷｅｂページのＤＯＭツリーを得ることができる。ここで、もし異なる子ツリーの全てのリーフノードのコンテンツを次々とカスケード接続すると、各文字列は情報文字列、すなわちＷｅｂページ情報ブロックを表すことが見出され得る。

３．ＤＯＭツリー情報ブロックデータ構造表現部は、ノード併合されたＷｅｂページ情報をＷｅｂページ情報ブロックのデータ構造へと変換する。ＤＯＭツリー内リーフノード情報ブロック併合部による処理の後、Ｗｅｂページ情報は、異なる情報ブロックへと分割される。後に続くテンプレート情報ブロックの抽出のために、処理されたＤＯＭツリー情報コンテンツはＤＯＭツリー情報ブロックのデータ構造へとコピーされる。このデータ構造は、チェーンテーブル構造であり、この構造において各ノードはＷｅｂページの１つの情報ブロックコンテンツを蓄える。ＤＯＭツリー情報ブロックデータ構造表現部は、処理されたＤＯＭツリーにおける対応する情報ブロック子ツリーの全てのリーフノードを、順次、チェーンテーブルのノードへと、左から右への順番でコピーする。

４．情報ブロック内文字列類似度算定部は、２つの文字列の間の類似度を算定する。２つの文字列の間の類似度は、類似度等級として定義され算定される。[０，１]の範囲内にある２値変数が、類似度を示すために用いられ、ここで０は類似度がない場合、１は同一の文字列である。この算定部において、類似度算定は、２つの文字列の編集距離の算定によって達成される。文字のための３つの編集処理である、挿入、キャンセル、及び、交換、が定義され、そしてこれら３つの処理にかかる処理関数は、１に設定される。そして、それらの類似度を算定するために、動的計画法が適用される。

５．テンプレート情報ブロック抽出部は、Ｗｅｂページトレーニングセット（２つの典型的なＷｅｂページ）のためのテンプレート情報を抽出する。

上述した複数の部の処理後、トレーニングセットＷｅｂページ（例えば、２つの入力チェーンテーブルである、図６に示すテーブル１及びテーブル２）に対応したＤＯＭツリー情報ブロックのデータ構造を得ることができる。詳細なアルゴリズムは図６に示されている。このアルゴリズムを処理した後、現在のファイルグループ化セクションのためのＷｅｂページテンプレート情報を得ることができる。

図７は、ファイル主情報ブロック抽出部内部機能の実現を説明する。入力は、ファイルサブグループと現時点の認識対象であるＷｅｂページとから抽出されたテンプレート情報である。この部は、現在Ｗｅｂページからの主情報の抽出を主に実現化し、そして、現在ＷｅｂページファイルＤＯＭツリー表現部、現在Ｗｅｂページ用ＤＯＭツリー内リーフノード併合部、現在Ｗｅｂページファイル内情報ブロック表現部、情報ブロック内文字列類似度算定部、及び、Ｗｅｂページ主情報ブロック抽出部を備える。

１．現在ＷｅｂページファイルＤＯＭツリー表現部のための特定のアルゴリズムは、ファイルサブグループ用テンプレート情報抽出部のファイルＤＯＭツリー表現部のためのそれと同一である。

２．現在Ｗｅｂページ用ＤＯＭツリー内リーフノード併合部のための特定のアルゴリズムは、ファイルサブグループ用テンプレート情報抽出部のＤＯＭツリー内リーフノード情報ブロック併合部のためのそれと同一である。

３．現在Ｗｅｂページファイル内情報ブロック表現部のための特定のアルゴリズムは、ファイルサブグループ用テンプレート情報抽出部のＤＯＭツリー情報ブロックデータ構造表現部のためのそれと同一である。

４．情報ブロック内文字列類似度算定部のための特定のアルゴリズムは、ファイルサブグループ用テンプレート情報抽出部の情報ブロック文字列類似度算定部のためのそれと同一である。

５．Ｗｅｂページ主情報ブロック抽出部は、Ｗｅｂページ情報から主情報ブロックを抽出する。

上述した部の処理後、現在Ｗｅｂページに対応するＤＯＭツリーの情報ブロックのデータ構造（例えば、図８に示す入力チェーンテーブルであるＷｅｂテーブル）が得られ、そして現在ファイルサブグループのテンプレート情報（例えば、図８に示す入力チェーンテーブルであるテンプレート）が適用される。その特定のアルゴリズムを図８に示す。このアルゴリズムの処理後に、現在Ｗｅｂページファイルの主情報ブロックが得られる。

図９は、ファイル主情報ブロック認識部の内部機能の実行を示す。入力は、Ｗｅｂページの主情報ブロックである。この部は、主に、多様な方法を用いてＷｅｂページの主情報ブロックを認識するためのものであり、そして、キーワード／カウンターキーワードのスクリーンマッチングを採用した特徴情報認識部、情報ブロック関連性特徴抽出部、情報ブロック区分特徴情報抽出部、情報ブロックテキスト反復特徴情報抽出部、情報ブロックテキスト句読点特徴情報抽出部、情報ブロックテキスト長特徴情報抽出部、及び、包括的決定部を備える。最初の６部は、個別的に、情報ブロックから異なる特徴情報を抽出し、抽出された情報を特徴情報変数に保存する。そして、包括的決定部は、情報ブロックに関して、これらの特徴情報変数に基づいた決定を行い、そして、Ｗｅｂページのための最後の決定結果を提供する。

キーワード／カウンターキーワードのスクリーンマッチングを採用した特徴情報認識部は、キーワード特徴を用いて主情報ブロックをサーチしそしてマッチングし、このＷｅｂページのキーワークスコア算定し、特徴情報変数に保存する。３つのベクトルＴ_c、Ｔ_f、及び、Ｔ_wが定義され、ここでＴ_cはキーワードベクトル、Ｔ_fは現在の主情報ブロック内のキーワード出現頻度ベクトル、そしてＴ_wはキーワードの重みベクトルである。各主情報ブロックをサーチしそしてマッチングした後、Ｔ_fの現在の値を得ることができ、そして、内積Ｔ_c・Ｔ_f・Ｔ_w、すなわち現在Ｗｅｂページの主情報ブロックの特徴ワードスコアを算定することができる。そのスコアは、さらなる決定のために、特長情報変数に蓄えられる。

上述したキーワードのサーチ及びマッチング処理は、文字列の完全マッチング技術を用い、そしてそれ故、マッチングされた情報が非キーワード情報の「文字列サブセット」ではなく、かつ非キーワード情報が他の意味素を表現する場合、誤差の蓄積を無視する傾向がある。この問題に処置をとるために、「カウンターキーワードスクリーンアルゴリズム」が提案されている、すなわち、この種の可能性のあるキーワード情報の前段階のマッチングの後に、「キーワードマッチングアルゴリズム」を用いたマッチングである。

情報ブロック関連性特徴抽出部は、主情報ブロックのチェーンテーブルのためのサマライズ分析を実行する。情報ブロック関連性特徴抽出部において、関連するテキストの長さ及び現在の主ブロックのテキスト長が数えられ、そしてこれら２つの長さの比率が算定される。その結果は、さらなる決定のために、特徴変数に保存される。

情報ブロック区分特徴情報抽出部は、主情報ブロックの行セグメント情報のサマライズを実行する。各行におけるサブセグメントの数が数えられ、現在の主情報ブロックにおける行セグメントの平均数が取得され、そしてさらなる決定のために、特徴変数に保存される。この場合、サブセグメントは、１つ以上のスペースによって分離されたテキスト情報における文字セグメントとして定義される。

情報ブロックテキスト反復特徴情報抽出部は、主情報ブロックのテキスト反復のサマライズ分析（summarizing analysis）を実行する。最初に、テキストコンテンツに応じて、現在の主情報ブロックにおける全ての行を、行単位に整理する。次に、第１の行から順番に、隣り合う各行のテキストコンテンツ類似度を算定し、そして算定結果を対応する臨時の変数に保存する。最後に、閾値より大きい行情報類似度の数を数え、さらなる決定のために、特徴変数に保存する。

情報ブロックテキスト句読点特徴情報抽出部は、主情報ブロックの句読点特徴情報のサマライズ分析を実行する。現在の主情報ブロックコンテンツにおける所定の句読点を計算し、そしてさらなる決定のために、その情報を特徴変数に保存する。

情報ブロックテキスト長特徴情報抽出部は、主情報ブロックのテキスト長のサマライズ分析を実行し、そしてさらなる決定のために、その特徴情報を特徴変数に保存する。

包括的決定部は、特徴情報変数に保存されたパラメータ値の包括的決定を実行する。この部は、各特長情報のための３つのパフォーマンスレベルを表す３つのパラメータを定義する。その各特長情報は、以下のテーブルに示すように、それぞれキーワード、情報ブロック関連性、情報ブロックの行セグメント、情報ブロックのテキスト反復、情報ブロックの句読点、及び、情報ブロックのテキスト長である。

値は、所定の閾値に基づいて選択されることができ、そして主情報ブロックのタイプは、発見的ルールを用いて決定されることができる。この実施形態において、以下の発見的ルールが採用されている。

上述したルールに適合している現在の情報ブロックに基づいて決定された特徴情報変数を有する全てのファイルは、ポジティブ例認識結果として決定され、そうでなければネガティブ例認識結果である。

（３）ファイルタイプ認識補正部
ファイルタイプ認識補正セクションは、グループ内の全てのファイルの全体的な認識精度に特別な注意を払いながら、同じグループ内のファイルの全体的な認識結果を考慮し、かつ各個別ファイルの認識結果に関連して、現在グループにおける全ての再組織化結果を補正する。具体的には、ファイルタイプ認識補正セクションは、現在ファイルサブグループにおける各ファイルのための認識結果をサマライズ（summarize）し、現在ファイルサブグループを一単位として取得し、そしてこのサブグループの「正確な認識比率」を算定する、すなわち、ポジティブ例として認識されたファイル数と現在のサブグループにおけるファイル数との比率であり、そして、所定の閾値に基づいて現在ファイルサブグループに関して決定を行う。

リリックＷｅｂページの再組織化を例として用いることによって、本発明に係る再組織化装置及び方法の一実施形態を説明した。しかしながら、本発明はリリックＷｅｂページの再組織化に限られるものではなく、そしてその代わりに全ての種類の情報ファイルに適用されてもよい。加えて、上述された詳細は、単なる具体例であり、本発明のさらなる理解を提供するためのものである。請求項において定義された適用範囲において、本発明に係る再組織化装置及び方法に対して、多様な変形例及びバリエーションを作ることができる。

本発明に係るファイル認識装置の構造を示す図である。ファイルタイプ認識セクションの構造を示す図である。ファイルタイプ認識セクション内のサブグループ用テンプレート情報抽出部を示す図である。ファイルタイプ認識部のサブグループ用テンプレート情報抽出部におけるページパージング処理を示す図である。ＷｅｂページファイルのＤＯＭツリーの一例を示す図である。ＷｅｂページファイルのＤＯＭツリーの一例を示す図である。サブグループ用テンプレート情報抽出部の処理を示すフローチャートである。ファイルタイプ認識セクション内の主情報ブロック抽出部の構造を示す図である。サブグループ内ファイル主情報ブロック抽出部の処理を示すフローチャートである。ファイルタイプ認識セクション内のファイル主情報ブロック認識部の構造を示す図である。

Claims

インターネットから集められた又は他の記憶装置に蓄えられたＷｅｂページファイルグループに関して、特定の情報タイプを認識するファイル認識装置であって、
ファイルタイプによる認識の対象である前記ファイルグループを、所定の視点から分類するファイルグループ化セクションと、
前記特定の情報タイプに特定の特徴に応じて前記ファイルタイプを認識するファイルタイプ認識セクションと、
前記グループ内の全てのファイルの認識の正確性を考慮して、前記ファイルそれぞれの認識結果を補正するファイルタイプ認識補正セクションと、
を備えたことを特徴とするファイル認識装置。
前記ファイルタイプ認識セクションは、前記ファイルに対して何の意味も持たないノイズ成分を取り除き主部分のみを抽出する、主情報ブロック抽出セクションをさらに備えること、
を特徴とする請求項１に記載のファイル認識装置。
前記ファイルタイプ認識補正セクションは、現在ファイルサブグループ内の各ファイルの認識結果をサマライズし、前記現在ファイルサブグループを一単位として取得することによって、ポジティブ例として認識されたファイル数と前記現在のサブグループにおけるファイル数との比率を算定し、そして、前記比率と所定の閾値とを比較することによって前記現在ファイルサブグループについて決定すること、
を特徴とする請求項１に記載のファイル認識装置。
インターネットから集められた又は他の記憶装置に蓄えられたＷｅｂページファイルグループに関して、特定の情報タイプを認識するためのファイル認識方法であって、
ファイルタイプによる認識の対象である前記ファイルグループを、所定の視点から分類するステップと、
前記特定の情報タイプに特定の特徴に基づいて前記ファイルタイプを認識するステップと、
前記グループ内の全てのファイルの認識の正確性を考慮して、前記ファイルそれぞれの認識結果を補正するステップと、
を含むことを特徴とするファイル認識方法。
前記認識するステップは、前記ファイルに対して何の意味も持たないノイズ成分を取り除き主部分のみを抽出するステップをさらに含むこと、
を特徴とする請求項４に記載のファイル認識方法。
前記認識するステップは、現在ファイルサブグループ内の各ファイルの認識結果をサマライズし、前記現在ファイルサブグループをまとめて取得することによって、ポジティブ例として認識されたファイル数と前記現在のサブグループにおけるファイル数との比率を算定し、そして、前記比率と所定の閾値とを比較することによって前記現在ファイルサブグループについて決定すること、
を特徴とする請求項１に記載のファイル認識方法。