JP2006004417A - 情報ファイルの特定のタイプを認識する方法及び装置 - Google Patents
情報ファイルの特定のタイプを認識する方法及び装置 Download PDFInfo
- Publication number
- JP2006004417A JP2006004417A JP2005151494A JP2005151494A JP2006004417A JP 2006004417 A JP2006004417 A JP 2006004417A JP 2005151494 A JP2005151494 A JP 2005151494A JP 2005151494 A JP2005151494 A JP 2005151494A JP 2006004417 A JP2006004417 A JP 2006004417A
- Authority
- JP
- Japan
- Prior art keywords
- file
- recognition
- information
- files
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
Abstract
【課題】本発明は、インターネットから集められた又は他の記憶装置に蓄えられたWebページファイルグループに関して、特定の情報タイプを認識するためのファイル認識装置及び方法を提供する。
【解決手段】本発明にかかるファイル認識装置は、ファイルタイプによる認識の対象であるファイルグループを、所定の視点から分類するファイルグループ化セクションと、特定の情報タイプに特定の特徴に応じてファイルタイプを認識するファイルタイプ認識セクションと、グループ内の全てのファイルの認識の正確性考慮して、ファイルそれぞれの認識結果を補正するファイルタイプ認識補正セクションとを備える。本発明の装置及び方法は、多様なタイプの情報を認識することができ、そして十分な認識精度を得ることができる。
【選択図】 図1
【解決手段】本発明にかかるファイル認識装置は、ファイルタイプによる認識の対象であるファイルグループを、所定の視点から分類するファイルグループ化セクションと、特定の情報タイプに特定の特徴に応じてファイルタイプを認識するファイルタイプ認識セクションと、グループ内の全てのファイルの認識の正確性考慮して、ファイルそれぞれの認識結果を補正するファイルタイプ認識補正セクションとを備える。本発明の装置及び方法は、多様なタイプの情報を認識することができ、そして十分な認識精度を得ることができる。
【選択図】 図1
Description
本発明は、情報ファイルの特定のタイプを認識する方法及び装置に関する。
情報は、通常、ファイル形式で保存され保管される。同様に、インターネット上に幅広く広がる情報もまた、Webファイル形式で分配され送られる。インターネットの急速な発展に伴い、Webファイル情報の量は、ますます増加し、そして相当量の割合を占め、それゆえ、例えばWebファイルの分類や検索のようなインターネット上の情報処理技術の重要性をより大きくしている。さらにネットワークの急速な発展に伴い、加入者のオンライン情報への要求は、多様化しつつある。通常、文字列マッチングに基づいたサーチ方法は、加入者の精練された情報の検索への要求を申し分なく満たし得る。しかしながら、情報タイプによって特徴付けられたいくつかのファイルグループについては、分類や認識がそれほど満足いくものではない。
今日、ネットワークの急速な発展に伴い、Webページによって運ばれる情報は高集積化されつつあり、そしてそのコンテンツは、ますます複雑かつ多様になりつつある。多くの情報コンテンツ、例えばハイパーリンク及びハイパーメディア情報は、Webページの不可欠な部分になっている。それは、送られうる情報の量を増加させ、そしてユーザインターフェースをある程度改善したが、しかしその一方、それはWebページの構造を複雑にし、Web情報における多様な題目を招き、そして主情報コンテンツにノイズを加えた。これまで、多くのWeb情報処理に従事する研究者が、精度よく理解し主情報を抽出しようとして、多様なWeb情報ブロック化方法を提案している(例えば、非特許文献1や非特許文献2)。
よく知られたように、Web情報において、Web上に運ばれる情報は、組織化されかつHTML記述の言語によって表現されていて、そしてWeb情報は解釈されてWebブラウザを用いてエンドユーザに表示される。見たところでは、この種の情報フローは、線形的なテキスト情報フローであるが、実際には、Web情報フローはある種の組織構造を有する。Webページ情報処理のキーテクノロジーの一つでもあるWebファイルの組成構造解析は、Web情報の処理の前に行われる。Webページにおいて、ページコンテンツはHTML記述の言語をもって組織化され、そしてその情報構造は、HTMLタグとWebテキスト情報とをそのノードとして用い、DOM(Document Object Model)ツリーへとマッピングされる。現存するブラウザは、WebページのDOMツリー構造をパージングすることによって、Webページを表示する。Webページ内のテキスト情報は、HTMLにおいて定義されたタグと共に伝えられる対象である情報を用いて組織化されている。Web情報の構造ツリーは、タグの機能的属性をパージングすることによって処理されることができる。非特許文献1は、比較的シンプルな発見的ページブロック化の方法を提案し、その方法は、異なる情報トピックを分離するために、情報の意味に関する一貫性に基づきDOMツリー及びHTMLタグの異なる属性を用いることによってWebページを分割する。非特許文献2は、例えば<Table>のようなHTMLタグを用いることによって、Webページの情報ブロックを検出及び分割するための方法を提案した。両方法は、ユーザが所望する情報コンテンツを抽出するために、HTMLタグの異なる属性を用いることによって、Webページを分割することが分かる。
Ziv Bar-Yossef 及び Sridhar Rajagopalan、データマイニングを介したテンプレート検出及びその応用(Template Detection via Data Mining and its Applications)、 Proceedings of the WWW 2002、2002年5月7日から11日、ホノルル、ハワイ、USA
Shian-Hua Lin 及び Jan-Ming Ho、Web文書からの情報コンテンツブロックの発掘(Discovering Informative Content Blocks from Web Documents)、SIGKDD'02、2002年6月23日から26日、エドモントン、アルバータ、カナダ
特徴付けられた情報タイプによってファイルグループを分類し認識することにおいて、上述した課題を解決するために、本発明は、情報ファイルの特定のタイプを認識するための方法及び装置を提供し、それら方法及び装置は、インターネットから集められたWebファイル又は関連した記憶装置に蓄えられたファイルグループのファイルタイプに基づいた認識を行うことができる。同じタイプのファイルは、ファイルタイプ認識に有効に用いることができる特定の属性を有するという事実に基づいて、本発明は入力されたファイルをグループ分けし、それは、ファイルサンプルの前段階の分類処理の一効果を達成し、認識の正確性の向上に貢献する。
本発明の一局面において、ファイル認識装置が提供され、この装置は、ファイルタイプによる認識の対象である前記ファイルを、例えばURL及び著者名のような所定の視点において分類し、次に続く認識モジュールが各グループのファイル属性に基づいて認識を実行できるように、その属性に基づいてファイルを分類する、ファイルグループ化セクションを備え、このファイルグループ化セクションは、サンプルの前段階の分類処理の一効果に貢献し、そしてシステムの最終的な認識の正確性を向上させる。また、この装置は、Webページの固有のDOMツリー構造及びHTMLタグの属性に基づいてファイルの主情報ブロックを抽出し、例えばリリック、ログ、及び、BBSのような、ファイルの情報タイプを決定する、ファイルタイプ認識セクションを備え、ファイルタイプ認識セクションは、上述した特定の情報に特定の特徴、例えば、キーワード、句読点、文書構造、及び、コンテンツの繰り返し、に基づいてファイルタイプを認識する。また、この装置は、各個別ファイルの認識結果に連動して前記グループ内の全てのファイルの認識の正確性を考慮して、グループ内の全てのファイルの全体的な認識精度に特別な注意を払いながら、グループ内の全てのファイルの全体的な認識精度向上させるために、グループの全てのファイル認識結果を補正する、ファイルタイプ認識補正セクションを備る。
好ましくは、本発明に係るファイル認識装置において、前記ファイルタイプ認識セクションは、前記ファイルから主情報ブロック抽出し、前記ファイルに対して何の意味も持たないノイズ成分を取り除く主情報ブロック抽出部をさらに備える。
好ましくは、本発明に係るファイル認識装置において、前記ファイルタイプ認識補正セクションは、現在ファイルサブグループ内の各ファイルの認識結果をサマライズし、前記現在ファイルサブグループを一単位として取得することによって、ポジティブ例として認識されたファイル数と前記現在のサブグループにおけるファイル数との比率を算定し、そして、前記比率と所定の閾値とを比較することによって前記現在ファイルサブグループを決定する。
本発明の他の局面において、ファイル認識方法が提供され、その方法は、インターネットから集められた又は他の記憶装置に蓄えられたファイルグループに関して、特定の情報タイプを認識するためのファイル認識方法であって、ファイルタイプによる認識の対象である前記ファイルを、所定の視点によって分類するステップと、前記特定の情報タイプに特定の特徴に基づいて前記ファイルタイプを認識するステップと、前記グループ内の全てのファイルの認識の正確性考慮して、前記ファイルそれぞれの認識結果を補正するステップとを含む。
好ましくは、本発明に係るファイル認識方法において、前記認識するステップは、前記ファイルに対して何の意味も持たないノイズ成分を取り除き主部分のみを抽出するステップをさらに含む。
好ましくは、本発明に係るファイル認識方法において、前記認識するステップは、現在ファイルサブグループ内の各ファイルの認識結果をサマライズし、前記現在ファイルサブグループを一単位として取得することによって、ポジティブ例として認識されたファイル数と前記現在のサブグループにおけるファイル数との比率を算定し、そして、前記比率と所定の閾値とを比較することによって前記現在ファイルサブグループを決定する。
本発明に係る、情報ファイルの特定のタイプを認識するための装置の一実施形態と、それに関して用いられた認識方法とを、図面を参照し、例としてリリックページの再組織化を用いて説明する。図1は、本発明に係るファイル認識装置の概略的な構造示す。本発明に係るファイル認識装置は、入力部と出力部とを有し、主に3つのセクションから成る。それらは、(1)ファイルグループ化セクション、(2)ファイルタイプ認識セクション、及び、(3)ファイルタイプ認識補正セクションである。詳細な説明を以下に示す。
本発明に係るファイル認識装置の入力は、インターネットから集められたWebページ又は適切な記憶装置に蓄えられた他のファイルグループである。出力は、この認識装置によって処理された2つの分類されたファイルセットであり、すなわち、ポジティブ例の認識結果セットと、カウンター例の認識結果セットである。ポジティブサンプルの認識結果は、このシステムによって認識された特定の情報タイプであり、例えば、本実施形態におけるリリックページである。カウンターサンプルの認識結果は、特定の情報タイプではないとこのシステムによって認識された認識結果であり、例えば、本実施形態において非リリックページとして認識されたファイルである。
(1)ファイルグループ化セクション
最初に、このファイルグループ化セクションは、インターネットから集められたWebページ又は他の記憶装置に蓄えられたファイルグループであるインプットファイルグループのファイルタイプの分類を、例えばURLと著者のような多様な視点に基づいて行う。大多数の従来のシステムにおいて、認識対象の全てのファイルは認識システムと等しく、そして、同じ方法とリソースを用いて各個別ファイルを認識し決定する。これは、システムモデリングの視点において基本的には妥当であり、そして認識対象のファイルに対して公平である。しかしながら、実際の適用においては、ファイルの間にある種の関連があり、そしてそのような関連は特定のファイル属性の形態として示されるが、一方、従来のシステムは、この特徴の利用を欠いている。本発明に係るファイルグループ化セクションは、まさにこの考慮に基づいていて、そして例えばURLと著者のような異なる視点においてファイルを分類し、システムの入力としてそれぞれのクラスを取得する。したがって、個別ファイルは互いに関連付けられることができ、そして、このシステムは各グループの共有属性に基づいて認識を行う。
最初に、このファイルグループ化セクションは、インターネットから集められたWebページ又は他の記憶装置に蓄えられたファイルグループであるインプットファイルグループのファイルタイプの分類を、例えばURLと著者のような多様な視点に基づいて行う。大多数の従来のシステムにおいて、認識対象の全てのファイルは認識システムと等しく、そして、同じ方法とリソースを用いて各個別ファイルを認識し決定する。これは、システムモデリングの視点において基本的には妥当であり、そして認識対象のファイルに対して公平である。しかしながら、実際の適用においては、ファイルの間にある種の関連があり、そしてそのような関連は特定のファイル属性の形態として示されるが、一方、従来のシステムは、この特徴の利用を欠いている。本発明に係るファイルグループ化セクションは、まさにこの考慮に基づいていて、そして例えばURLと著者のような異なる視点においてファイルを分類し、システムの入力としてそれぞれのクラスを取得する。したがって、個別ファイルは互いに関連付けられることができ、そして、このシステムは各グループの共有属性に基づいて認識を行う。
このシステムの認識機能全般の視点から、ファイルグループ化セクションは、入力サンプルの前段階の分類処理の一効果をもたらし、それはシステムの根本的な認識正確性全般の改善に貢献するものである。
(2)ファイルタイプ認識セクション
ファイルタイプ認識セクションでは、DOMツリーの構造情報及びHTMLタグの属性
は、複雑なWebページから主情報ブロックを抽出するために十分に活用されている。その場合、この発明は、Webページテンプレート情報に基づいてWebページから主情報ブロックを抽出するための方法を採用し、それは、Webの主情報を再組織化してそれによってシステムの再組織化の正確性を改善させるためにノイズ成分の干渉を取り除くためである。
ファイルタイプ認識セクションでは、DOMツリーの構造情報及びHTMLタグの属性
は、複雑なWebページから主情報ブロックを抽出するために十分に活用されている。その場合、この発明は、Webページテンプレート情報に基づいてWebページから主情報ブロックを抽出するための方法を採用し、それは、Webの主情報を再組織化してそれによってシステムの再組織化の正確性を改善させるためにノイズ成分の干渉を取り除くためである。
ファイルタイプ認識セクションは、Webページの固有のDOM構造及びHTMLタグの属性に基づいてファイルの主情報ブロック抽出し、そして主情報コンテンツに基づいてファイルの特定の情報タイプ(リリック情報)を決定する。そして、例えば、キーワード、句読点、文書構造、及び、コンテンツの繰り返しのような特徴であり、特定のタイプ情報の一タイプであるリリック情報に特定の特徴を用いてファイルタイプを認識する。
図2は、ファイルタイプ認識セクションの実行を説明する。ファイルタイプ認識セクションの入力は、ファイルグループ化セクションによって、例えばURLのような多様な視点に基づいて、分類されたファイルサブグループである。具体的には、ファイルタイプ認識セクションは、ファイルサブグループ用テンプレート情報抽出部、ファイル主情報ブロック抽出部、及び、ファイル主情報ブロックタイプ認識部を備える。ファイルサブグループ用テンプレート情報抽出部の機能は、サブグループのためのテンプレートトレーニングセットを用いてHTML構造文書を分析することによって、Webページのテンプレート情報を抽出することである。ファイル主情報ブロック抽出部の主な機能は、ファイルサブグループ用テンプレート情報抽出部によって抽出されたファイルサブグループテンプレート情報を用いて、ファイルサブグループ内の各ファイルから主情報を抽出することである。ファイル主情報ブロック抽出部は、Webページから大多数のノイズ情報除くことができ、そして、それによって後に続くファイルタイプ認証を保証する。その間、ファイル主情報ブロック抽出部の実行中に、並列処理を実現しその結果としてシステムの処理速度を改善するために、マルチスレッド技術が適用されてもよい。ファイル主情報ブロックタイプ認識部の機能は、特定の情報タイプであるリリックWebページに特定の特徴、例えば、キーワード、句読点、文書構造、及び、コンテンツの繰り返し、に基づいて、ファイルタイプを認識することである。ファイル主情報ブロックタイプ認識部の入力は、各ファイルから抽出された主情報コンテンツである。
図3は、ファイルサブグループ用テンプレート情報抽出部の内部機能の実行を示す。入力は、ファイルグループ化セクションによって分類されたファイルサブグループにおける、テンプレート情報抽出トレーニングセットである。このセクションは、ファイルグループのテンプレート情報の抽出を主に実現し、その主な構成要素として、ファイルDOMツリー表現部、DOMツリー内リーフノード情報ブロック併合部、DOMツリー情報ブロックデータ構造(情報ブロックテーブル)表現部、情報ブロック内文字列類似度算定部、及び、テンプレート情報ブロック抽出部を備える。
1.Webページ情報処理におけるキーテクノロジーとして、ファイルDOMツリー表現部は、Webページソースコードの線形的なフローの、WebファイルのDOMツリー構造へのマッピングを実現し、そして、後に続くファイル構造解析を強調する。公知であるように、情報コンテンツが伝えられるWebページは、HTMLタグ情報、ノート情報、及び、伝えられる対象である主情報から成るHTML記述の言語を用いた形式である。ノート情報は構造解析に役に立たないが、その一方、タグ情報は豊富な構造情報を含んでいる。DOMツリーにおいて、Webページによって伝えられる対象の情報は、通常、テキスト属性であるというノード属性を伴うリーフの形式で存在する。図4は、Webページのためのパージング処理を説明する。ファイルフローは、ファイル情報トークンフロー部へと流れ、その属性に基づいて上述した3つの情報タイプに分類され、その各タイプはトークンフローと称される。そのようなWebページは、一連のトークンフローから成るとみなされる。これらトークン情報フローはHTMLパージング部へと流れ込み、この部は、W3Cによって発行されたHTMLバージョン規格に従い、各タグの属性に基づいてトークン情報フローをパージングし、そしてこのWebページに対応するDOMツリー取得する。図5−1及び図5−2は、WebページのためのDOMツリーの一例を示し、それにおいて、TEXTノードはWebページによって伝えられる対象の主情報テキストノードを表し、他のノードはHTMLタグ記号を表し、線分は2つのノード間の親子関係を表す。
2.DOMツリー内リーフノード情報ブロック併合部は、Webページ内の異なる情報ブロック間のデリミタの指定及び位置の決定を実現する。WebページファイルのHTMLソースファイルは、ブラウザによって解釈されたのちユーザへと表示される。ディスプレイ効果の視点から、情報の組織はある種の構造を有し、そして、Webページにおいて、異なるテキスト情報が異なる領域においてある程度集まっている、すなわち、情報ブロックの形態として存在する。WebページのDOMツリーにおける対応するノード間には、ある種の関連も存在する。この併合部は、以下のように、情報ブロックの併合を実現する。
HTMLDOMツリーを用いて情報ブロック間の関係を見出すためには、DOMツリーは、まず不適切な情報ノード、例えばスクリプトノードを除くために、そして有効なノードを選択するために処理されなければならない。以下は、情報ブロックのための併合方法である。
(a)アルゴリズムにおいて用いられる適切なシンボルを定義する。
Nは、DOMツリーにおけるノードを意味する。
DNは、現在のノードがテキスト情報ノードではなく、DOMツリーにおけるリーフノードとして存在することを意味する。
LNは、現在のノードがDOMツリーにおけるリーフノードであって、その一方でテキストノードであることを意味する。
(b)深さ優先のポストオーダを用いて、WebページのためのDOMツリー全体を走査し、道をたどりながら各ノードを調査する。
ステップ1
(i)もし現在のノードNがDOMツリーのリーフノードではない場合、何も実行せずに次のノードを調査する。
(ii)もし現在のノードがDOMツリーのLNノードである場合、このノードをキャンセルして次のノードを調査する。
現時点までに、全てのDNノードがキャンセルされる。
ステップ2
(i)もし現在のノードNがDOMツリーのリーフノードである場合、何も実行せずに次のノードを調査する。
(ii)もし現在のノードNの親ノードがただ1つの子ノードを有し、現在のノードNがただ1つのリーフノードを有する場合、以下を実行する。
1)現在のノードNをキャンセルする。
2)現在のノードNの子ノードを、現在のノードの親ノードの子ノードとし、それを他の兄弟ノードの後方に順次配置する。
3)ツリー全体の他のノードの走査を続ける。
(a)アルゴリズムにおいて用いられる適切なシンボルを定義する。
Nは、DOMツリーにおけるノードを意味する。
DNは、現在のノードがテキスト情報ノードではなく、DOMツリーにおけるリーフノードとして存在することを意味する。
LNは、現在のノードがDOMツリーにおけるリーフノードであって、その一方でテキストノードであることを意味する。
(b)深さ優先のポストオーダを用いて、WebページのためのDOMツリー全体を走査し、道をたどりながら各ノードを調査する。
ステップ1
(i)もし現在のノードNがDOMツリーのリーフノードではない場合、何も実行せずに次のノードを調査する。
(ii)もし現在のノードがDOMツリーのLNノードである場合、このノードをキャンセルして次のノードを調査する。
現時点までに、全てのDNノードがキャンセルされる。
ステップ2
(i)もし現在のノードNがDOMツリーのリーフノードである場合、何も実行せずに次のノードを調査する。
(ii)もし現在のノードNの親ノードがただ1つの子ノードを有し、現在のノードNがただ1つのリーフノードを有する場合、以下を実行する。
1)現在のノードNをキャンセルする。
2)現在のノードNの子ノードを、現在のノードの親ノードの子ノードとし、それを他の兄弟ノードの後方に順次配置する。
3)ツリー全体の他のノードの走査を続ける。
ツリーの適切ではないノードをキャンセルした後、比較的コンパクトなWebページのDOMツリーを得ることができる。ここで、もし異なる子ツリーの全てのリーフノードのコンテンツを次々とカスケード接続すると、各文字列は情報文字列、すなわちWebページ情報ブロックを表すことが見出され得る。
3.DOMツリー情報ブロックデータ構造表現部は、ノード併合されたWebページ情報をWebページ情報ブロックのデータ構造へと変換する。DOMツリー内リーフノード情報ブロック併合部による処理の後、Webページ情報は、異なる情報ブロックへと分割される。後に続くテンプレート情報ブロックの抽出のために、処理されたDOMツリー情報コンテンツはDOMツリー情報ブロックのデータ構造へとコピーされる。このデータ構造は、チェーンテーブル構造であり、この構造において各ノードはWebページの1つの情報ブロックコンテンツを蓄える。DOMツリー情報ブロックデータ構造表現部は、処理されたDOMツリーにおける対応する情報ブロック子ツリーの全てのリーフノードを、順次、チェーンテーブルのノードへと、左から右への順番でコピーする。
4.情報ブロック内文字列類似度算定部は、2つの文字列の間の類似度を算定する。2つの文字列の間の類似度は、類似度等級として定義され算定される。[0,1]の範囲内にある2値変数が、類似度を示すために用いられ、ここで0は類似度がない場合、1は同一の文字列である。この算定部において、類似度算定は、2つの文字列の編集距離の算定によって達成される。文字のための3つの編集処理である、挿入、キャンセル、及び、交換、が定義され、そしてこれら3つの処理にかかる処理関数は、1に設定される。そして、それらの類似度を算定するために、動的計画法が適用される。
5.テンプレート情報ブロック抽出部は、Webページトレーニングセット(2つの典型的なWebページ)のためのテンプレート情報を抽出する。
上述した複数の部の処理後、トレーニングセットWebページ(例えば、2つの入力チェーンテーブルである、図6に示すテーブル1及びテーブル2)に対応したDOMツリー情報ブロックのデータ構造を得ることができる。詳細なアルゴリズムは図6に示されている。このアルゴリズムを処理した後、現在のファイルグループ化セクションのためのWebページテンプレート情報を得ることができる。
図7は、ファイル主情報ブロック抽出部内部機能の実現を説明する。入力は、ファイルサブグループと現時点の認識対象であるWebページとから抽出されたテンプレート情報である。この部は、現在Webページからの主情報の抽出を主に実現化し、そして、現在WebページファイルDOMツリー表現部、現在Webページ用DOMツリー内リーフノード併合部、現在Webページファイル内情報ブロック表現部、情報ブロック内文字列類似度算定部、及び、Webページ主情報ブロック抽出部を備える。
1.現在WebページファイルDOMツリー表現部のための特定のアルゴリズムは、ファイルサブグループ用テンプレート情報抽出部のファイルDOMツリー表現部のためのそれと同一である。
2.現在Webページ用DOMツリー内リーフノード併合部のための特定のアルゴリズムは、ファイルサブグループ用テンプレート情報抽出部のDOMツリー内リーフノード情報ブロック併合部のためのそれと同一である。
3.現在Webページファイル内情報ブロック表現部のための特定のアルゴリズムは、ファイルサブグループ用テンプレート情報抽出部のDOMツリー情報ブロックデータ構造表現部のためのそれと同一である。
4.情報ブロック内文字列類似度算定部のための特定のアルゴリズムは、ファイルサブグループ用テンプレート情報抽出部の情報ブロック文字列類似度算定部のためのそれと同一である。
5.Webページ主情報ブロック抽出部は、Webページ情報から主情報ブロックを抽出する。
上述した部の処理後、現在Webページに対応するDOMツリーの情報ブロックのデータ構造(例えば、図8に示す入力チェーンテーブルであるWebテーブル)が得られ、そして現在ファイルサブグループのテンプレート情報(例えば、図8に示す入力チェーンテーブルであるテンプレート)が適用される。その特定のアルゴリズムを図8に示す。このアルゴリズムの処理後に、現在Webページファイルの主情報ブロックが得られる。
図9は、ファイル主情報ブロック認識部の内部機能の実行を示す。入力は、Webページの主情報ブロックである。この部は、主に、多様な方法を用いてWebページの主情報ブロックを認識するためのものであり、そして、キーワード/カウンターキーワードのスクリーンマッチングを採用した特徴情報認識部、情報ブロック関連性特徴抽出部、情報ブロック区分特徴情報抽出部、情報ブロックテキスト反復特徴情報抽出部、情報ブロックテキスト句読点特徴情報抽出部、情報ブロックテキスト長特徴情報抽出部、及び、包括的決定部を備える。最初の6部は、個別的に、情報ブロックから異なる特徴情報を抽出し、抽出された情報を特徴情報変数に保存する。そして、包括的決定部は、情報ブロックに関して、これらの特徴情報変数に基づいた決定を行い、そして、Webページのための最後の決定結果を提供する。
キーワード/カウンターキーワードのスクリーンマッチングを採用した特徴情報認識部は、キーワード特徴を用いて主情報ブロックをサーチしそしてマッチングし、このWebページのキーワークスコア算定し、特徴情報変数に保存する。3つのベクトルTc、Tf、及び、Twが定義され、ここでTcはキーワードベクトル、Tfは現在の主情報ブロック内のキーワード出現頻度ベクトル、そしてTwはキーワードの重みベクトルである。各主情報ブロックをサーチしそしてマッチングした後、Tfの現在の値を得ることができ、そして、内積Tc・Tf・Tw、すなわち現在Webページの主情報ブロックの特徴ワードスコアを算定することができる。そのスコアは、さらなる決定のために、特長情報変数に蓄えられる。
上述したキーワードのサーチ及びマッチング処理は、文字列の完全マッチング技術を用い、そしてそれ故、マッチングされた情報が非キーワード情報の「文字列サブセット」ではなく、かつ非キーワード情報が他の意味素を表現する場合、誤差の蓄積を無視する傾向がある。この問題に処置をとるために、「カウンターキーワードスクリーンアルゴリズム」が提案されている、すなわち、この種の可能性のあるキーワード情報の前段階のマッチングの後に、「キーワードマッチングアルゴリズム」を用いたマッチングである。
情報ブロック関連性特徴抽出部は、主情報ブロックのチェーンテーブルのためのサマライズ分析を実行する。情報ブロック関連性特徴抽出部において、関連するテキストの長さ及び現在の主ブロックのテキスト長が数えられ、そしてこれら2つの長さの比率が算定される。その結果は、さらなる決定のために、特徴変数に保存される。
情報ブロック区分特徴情報抽出部は、主情報ブロックの行セグメント情報のサマライズを実行する。各行におけるサブセグメントの数が数えられ、現在の主情報ブロックにおける行セグメントの平均数が取得され、そしてさらなる決定のために、特徴変数に保存される。この場合、サブセグメントは、1つ以上のスペースによって分離されたテキスト情報における文字セグメントとして定義される。
情報ブロックテキスト反復特徴情報抽出部は、主情報ブロックのテキスト反復のサマライズ分析(summarizing analysis)を実行する。最初に、テキストコンテンツに応じて、現在の主情報ブロックにおける全ての行を、行単位に整理する。次に、第1の行から順番に、隣り合う各行のテキストコンテンツ類似度を算定し、そして算定結果を対応する臨時の変数に保存する。最後に、閾値より大きい行情報類似度の数を数え、さらなる決定のために、特徴変数に保存する。
情報ブロックテキスト句読点特徴情報抽出部は、主情報ブロックの句読点特徴情報のサマライズ分析を実行する。現在の主情報ブロックコンテンツにおける所定の句読点を計算し、そしてさらなる決定のために、その情報を特徴変数に保存する。
情報ブロックテキスト長特徴情報抽出部は、主情報ブロックのテキスト長のサマライズ分析を実行し、そしてさらなる決定のために、その特徴情報を特徴変数に保存する。
包括的決定部は、特徴情報変数に保存されたパラメータ値の包括的決定を実行する。この部は、各特長情報のための3つのパフォーマンスレベルを表す3つのパラメータを定義する。その各特長情報は、以下のテーブルに示すように、それぞれキーワード、情報ブロック関連性、情報ブロックの行セグメント、情報ブロックのテキスト反復、情報ブロックの句読点、及び、情報ブロックのテキスト長である。
値は、所定の閾値に基づいて選択されることができ、そして主情報ブロックのタイプは、発見的ルールを用いて決定されることができる。この実施形態において、以下の発見的ルールが採用されている。
上述したルールに適合している現在の情報ブロックに基づいて決定された特徴情報変数を有する全てのファイルは、ポジティブ例認識結果として決定され、そうでなければネガティブ例認識結果である。
(3)ファイルタイプ認識補正部
ファイルタイプ認識補正セクションは、グループ内の全てのファイルの全体的な認識精度に特別な注意を払いながら、同じグループ内のファイルの全体的な認識結果を考慮し、かつ各個別ファイルの認識結果に関連して、現在グループにおける全ての再組織化結果を補正する。具体的には、ファイルタイプ認識補正セクションは、現在ファイルサブグループにおける各ファイルのための認識結果をサマライズ(summarize)し、現在ファイルサブグループを一単位として取得し、そしてこのサブグループの「正確な認識比率」を算定する、すなわち、ポジティブ例として認識されたファイル数と現在のサブグループにおけるファイル数との比率であり、そして、所定の閾値に基づいて現在ファイルサブグループに関して決定を行う。
ファイルタイプ認識補正セクションは、グループ内の全てのファイルの全体的な認識精度に特別な注意を払いながら、同じグループ内のファイルの全体的な認識結果を考慮し、かつ各個別ファイルの認識結果に関連して、現在グループにおける全ての再組織化結果を補正する。具体的には、ファイルタイプ認識補正セクションは、現在ファイルサブグループにおける各ファイルのための認識結果をサマライズ(summarize)し、現在ファイルサブグループを一単位として取得し、そしてこのサブグループの「正確な認識比率」を算定する、すなわち、ポジティブ例として認識されたファイル数と現在のサブグループにおけるファイル数との比率であり、そして、所定の閾値に基づいて現在ファイルサブグループに関して決定を行う。
リリックWebページの再組織化を例として用いることによって、本発明に係る再組織化装置及び方法の一実施形態を説明した。しかしながら、本発明はリリックWebページの再組織化に限られるものではなく、そしてその代わりに全ての種類の情報ファイルに適用されてもよい。加えて、上述された詳細は、単なる具体例であり、本発明のさらなる理解を提供するためのものである。請求項において定義された適用範囲において、本発明に係る再組織化装置及び方法に対して、多様な変形例及びバリエーションを作ることができる。
Claims (6)
- インターネットから集められた又は他の記憶装置に蓄えられたWebページファイルグループに関して、特定の情報タイプを認識するファイル認識装置であって、
ファイルタイプによる認識の対象である前記ファイルグループを、所定の視点から分類するファイルグループ化セクションと、
前記特定の情報タイプに特定の特徴に応じて前記ファイルタイプを認識するファイルタイプ認識セクションと、
前記グループ内の全てのファイルの認識の正確性を考慮して、前記ファイルそれぞれの認識結果を補正するファイルタイプ認識補正セクションと、
を備えたことを特徴とするファイル認識装置。 - 前記ファイルタイプ認識セクションは、前記ファイルに対して何の意味も持たないノイズ成分を取り除き主部分のみを抽出する、主情報ブロック抽出セクションをさらに備えること、
を特徴とする請求項1に記載のファイル認識装置。 - 前記ファイルタイプ認識補正セクションは、現在ファイルサブグループ内の各ファイルの認識結果をサマライズし、前記現在ファイルサブグループを一単位として取得することによって、ポジティブ例として認識されたファイル数と前記現在のサブグループにおけるファイル数との比率を算定し、そして、前記比率と所定の閾値とを比較することによって前記現在ファイルサブグループについて決定すること、
を特徴とする請求項1に記載のファイル認識装置。 - インターネットから集められた又は他の記憶装置に蓄えられたWebページファイルグループに関して、特定の情報タイプを認識するためのファイル認識方法であって、
ファイルタイプによる認識の対象である前記ファイルグループを、所定の視点から分類するステップと、
前記特定の情報タイプに特定の特徴に基づいて前記ファイルタイプを認識するステップと、
前記グループ内の全てのファイルの認識の正確性を考慮して、前記ファイルそれぞれの認識結果を補正するステップと、
を含むことを特徴とするファイル認識方法。 - 前記認識するステップは、前記ファイルに対して何の意味も持たないノイズ成分を取り除き主部分のみを抽出するステップをさらに含むこと、
を特徴とする請求項4に記載のファイル認識方法。 - 前記認識するステップは、現在ファイルサブグループ内の各ファイルの認識結果をサマライズし、前記現在ファイルサブグループをまとめて取得することによって、ポジティブ例として認識されたファイル数と前記現在のサブグループにおけるファイル数との比率を算定し、そして、前記比率と所定の閾値とを比較することによって前記現在ファイルサブグループについて決定すること、
を特徴とする請求項1に記載のファイル認識方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2004100383575A CN1702651A (zh) | 2004-05-24 | 2004-05-24 | 特定类型信息文件的识别方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006004417A true JP2006004417A (ja) | 2006-01-05 |
Family
ID=35426653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005151494A Withdrawn JP2006004417A (ja) | 2004-05-24 | 2005-05-24 | 情報ファイルの特定のタイプを認識する方法及び装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20050267915A1 (ja) |
JP (1) | JP2006004417A (ja) |
CN (1) | CN1702651A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102047247A (zh) * | 2008-03-31 | 2011-05-04 | 威仕达品特技术有限公司 | 灵活的网页模板构建系统和方法 |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7047033B2 (en) * | 2000-02-01 | 2006-05-16 | Infogin Ltd | Methods and apparatus for analyzing, processing and formatting network information such as web-pages |
US7996511B1 (en) * | 2003-10-28 | 2011-08-09 | Emc Corporation | Enterprise-scalable scanning using grid-based architecture with remote agents |
US8527618B1 (en) | 2004-09-24 | 2013-09-03 | Emc Corporation | Repercussionless ephemeral agent for scalable parallel operation of distributed computers |
US20090044126A1 (en) * | 2006-03-01 | 2009-02-12 | Eran Shmuel Wyler | Methods and apparatus for enabling use of web content on various types of devices |
US7680858B2 (en) * | 2006-07-05 | 2010-03-16 | Yahoo! Inc. | Techniques for clustering structurally similar web pages |
US7676465B2 (en) * | 2006-07-05 | 2010-03-09 | Yahoo! Inc. | Techniques for clustering structurally similar web pages based on page features |
CN101237420B (zh) * | 2007-02-02 | 2010-12-22 | 国际商业机器公司 | 即时消息通信方法和装置 |
US20080281827A1 (en) * | 2007-05-10 | 2008-11-13 | Microsoft Corporation | Using structured database for webpage information extraction |
US20090125529A1 (en) * | 2007-11-12 | 2009-05-14 | Vydiswaran V G Vinod | Extracting information based on document structure and characteristics of attributes |
US20090204889A1 (en) * | 2008-02-13 | 2009-08-13 | Mehta Rupesh R | Adaptive sampling of web pages for extraction |
US8051083B2 (en) * | 2008-04-16 | 2011-11-01 | Microsoft Corporation | Forum web page clustering based on repetitive regions |
US20100095024A1 (en) * | 2008-09-25 | 2010-04-15 | Infogin Ltd. | Mobile sites detection and handling |
US20100169395A1 (en) * | 2008-12-26 | 2010-07-01 | Sandisk Il Ltd. | Device and method for filtering a file system |
US20100169311A1 (en) * | 2008-12-30 | 2010-07-01 | Ashwin Tengli | Approaches for the unsupervised creation of structural templates for electronic documents |
CN101770470B (zh) * | 2008-12-31 | 2012-11-28 | 中国银联股份有限公司 | 一种文件类型识别分析方法及系统 |
US20100192054A1 (en) * | 2009-01-29 | 2010-07-29 | International Business Machines Corporation | Sematically tagged background information presentation |
US20100228738A1 (en) * | 2009-03-04 | 2010-09-09 | Mehta Rupesh R | Adaptive document sampling for information extraction |
BR112012010120A2 (pt) * | 2009-10-30 | 2016-06-07 | Rakuten Inc | dispositivo e método de determinação de conteúdo característico |
US10614134B2 (en) | 2009-10-30 | 2020-04-07 | Rakuten, Inc. | Characteristic content determination device, characteristic content determination method, and recording medium |
CN102541937B (zh) * | 2010-12-22 | 2013-12-25 | 北大方正集团有限公司 | 一种网页信息探测方法及系统 |
US9477756B1 (en) * | 2012-01-16 | 2016-10-25 | Amazon Technologies, Inc. | Classifying structured documents |
CN102819591B (zh) * | 2012-08-07 | 2016-04-06 | 北京网康科技有限公司 | 一种基于内容的网页分类方法及系统 |
CN104133812B (zh) * | 2014-07-17 | 2017-03-08 | 北京信息科技大学 | 一种面向用户查询意图的汉语句子相似度分层计算方法及装置 |
US10545749B2 (en) | 2014-08-20 | 2020-01-28 | Samsung Electronics Co., Ltd. | System for cloud computing using web components |
CN104252531B (zh) * | 2014-09-11 | 2017-12-08 | 北京优特捷信息技术有限公司 | 一种文件类型识别方法及装置 |
CN105574004B (zh) * | 2014-10-10 | 2019-06-21 | 阿里巴巴集团控股有限公司 | 一种网页去重方法和设备 |
CN104639653B (zh) * | 2015-03-05 | 2019-04-09 | 北京掌中经纬技术有限公司 | 基于云架构的自适应方法及系统 |
CN112651236B (zh) * | 2020-12-28 | 2021-10-01 | 中电金信软件有限公司 | 提取文本信息的方法、装置、计算机设备和存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000029902A (ja) * | 1998-07-15 | 2000-01-28 | Nec Corp | 構造化文書分類装置およびこの構造化文書分類装置をコンピュータで実現するプログラムを記録した記録媒体、並びに、構造化文書検索システムおよびこの構造化文書検索システムをコンピュータで実現するプログラムを記録した記録媒体 |
US6418433B1 (en) * | 1999-01-28 | 2002-07-09 | International Business Machines Corporation | System and method for focussed web crawling |
JP4489994B2 (ja) * | 2001-05-11 | 2010-06-23 | 富士通株式会社 | 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体 |
JP2003330948A (ja) * | 2002-03-06 | 2003-11-21 | Fujitsu Ltd | ウェブページを評価する装置および方法 |
-
2004
- 2004-05-24 CN CNA2004100383575A patent/CN1702651A/zh active Pending
-
2005
- 2005-05-24 US US11/135,658 patent/US20050267915A1/en not_active Abandoned
- 2005-05-24 JP JP2005151494A patent/JP2006004417A/ja not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102047247A (zh) * | 2008-03-31 | 2011-05-04 | 威仕达品特技术有限公司 | 灵活的网页模板构建系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN1702651A (zh) | 2005-11-30 |
US20050267915A1 (en) | 2005-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006004417A (ja) | 情報ファイルの特定のタイプを認識する方法及び装置 | |
US7941420B2 (en) | Method for organizing structurally similar web pages from a web site | |
US7519621B2 (en) | Extracting information from Web pages | |
US8073679B2 (en) | Aligning hierarchial and sequential document trees to identify parallel data | |
JP4656868B2 (ja) | 構造化文書作成装置 | |
US8185530B2 (en) | Method and system for web document clustering | |
US7565350B2 (en) | Identifying a web page as belonging to a blog | |
US7987417B2 (en) | System and method for detecting a web page template | |
US9268749B2 (en) | Incremental computation of repeats | |
CN109543126B (zh) | 基于块文字占比的网页正文信息提取方法 | |
JP5010885B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
Peters et al. | Content extraction using diverse feature sets | |
CN101169780A (zh) | 一种基于语义本体的检索系统和方法 | |
US20100198827A1 (en) | Method for finding text reading order in a document | |
CN110837556A (zh) | 摘要生成方法、装置、终端设备及存储介质 | |
Ferrara et al. | Automatic wrapper adaptation by tree edit distance matching | |
US20050050086A1 (en) | Apparatus and method for multimedia object retrieval | |
CN109165373B (zh) | 一种数据处理方法及装置 | |
CN108491512A (zh) | 新闻标题的摘要方法及装置 | |
CN108460150A (zh) | 新闻标题的处理方法及装置 | |
CN109657114B (zh) | 一种抽取网页半结构化数据的方法 | |
CN107145591A (zh) | 一种基于标题的网页有效元数据内容提取方法 | |
CN104778232B (zh) | 一种基于长查询的搜索结果的优化方法和装置 | |
CN100336061C (zh) | 多媒体对象检索设备和方法 | |
Lin et al. | Combining a segmentation-like approach and a density-based approach in content extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060425 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20080718 |