JP4114874B2

JP4114874B2 - ブロック自動抽出装置およびプログラム

Info

Publication number: JP4114874B2
Application number: JP2004141726A
Authority: JP
Inventors: 正之杉崎; 俊朗牧野; 聡哉栗島
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-05-11
Filing date: 2004-05-11
Publication date: 2008-07-09
Anticipated expiration: 2024-05-11
Also published as: JP2005322179A

Description

本発明は、所定の形式に従って記述されている文書において、複数の情報が記述されている１つの文書内から、各情報を適切に抽出するブロック自動抽出装置、ブロック自動抽出方法およびプログラムに関する。

近年、インターネット等、コンピュータネットワークを通じて、電子化された大量の文書をやり取りし、不特定多数を対象にして情報を発信することができる。コンピュータネットワーク上で表現された文書では、その特徴を生かした表現が利用されている。

中でも、ＷＷＷ（World Wide Web）上のＨＴＭＬと呼ばれる文書は、なんらかの情報を書き記すだけではなく、他のコンピュータ上に存在する他の人が書いた文書を参照する「ハイパーリンク」の機能がある。

このパイパーリンク機能は、他の文書を信頼して、自分の記している情報を補完したり、同じ内容の文書を指すとき等に利用される。

ＨＴＭＬファイルにおいて、上記ハイパーリンク、または、「太字」や「斜体」といった文字の修飾等は、「タグ」と呼ばれる「＜」「＞」で囲まれた特別な文字列によって、指定される。（ＨＴＭＬファイルのタグに関して、たとえば、非特許文献１を参照）。

見た目に影響がある「箇条書き」等、表示した際に２次元的に影響があるタグは、「ブロック要素」と呼ばれ、それ以外のタグ（たとえば、文字の色）は、「インライン要素」と呼ばれている。

ＨＴＭＬファイル内には、様々な単位の情報が混合して記述されている場合がある。新聞社で作成されたＨＴＭＬファイルを例に挙げると、ある事件に対する記事内容とそれに関連する過去の記事へのハイパーリンク、同時期の別の記事へのハイパーリンク、文書とは全く無関係の広告記事や同社内のサービス説明へのハイパーリンク等が、同一ファイル内に記述されている。

また、個人の日記を記述したある１つのＨＴＭＬファイルでは、たとえば、
「３／２２パソコンを買った（１）」、
「３／２３新しい本を買った。面白かった（２）」、
「３／２６デジカメが故障した。修理に持って行った（３）」
等、様々な話題が存在する場合がある。なお、上記、（１）（２）（３）は、説明用のラベルであるが、上記ラベルで挟まれている文書を、「ブロック」と呼ぶ。

一方、大量のＨＴＭＬファイルの中から欲しい情報が記述されたものだけを容易に探し出せるように、ＨＴＭＬファイルを収集し、検索できるようにしたサービス（検索システム）が公開されている（http://www.google.com/, http://www.goo.ne.jp/等）。

上記検索システムでは、単語列を入力すると、入力された単語列を含むＨＴＭＬファイルを、検索結果として羅列するものが一般的である。これらの検索システムでは、検索精度を向上させるために、複数の情報がまとめて１つのＨＴＭＬファイルに記述されている場合、個々の情報に分割して検索対象とすべきである。

つまり、検索対象をファイル単位とすると、複数の単語によって構成されている１つのキーワードを入力し、検索した場合、上記複数の単語の全てが、１つの情報の中に存在するのではなく、１つのファイルを構成する複数の情報にまたがって、上記複数の単語のそれぞれが点在する場合もあり得る。

たとえば、「パソコン修理」というキーワード（「パソコン」と「修理」とによって、２つのキーワードを構成している）を含む検索要求では、上記日記の例のＨＴＭＬファイルが検索されるが、実際のＨＴＭＬファイルには、パソコンの修理（パソコンを修理すること）に関する情報は、書かれてなく、したがって、検索対象をファイル単位とすると、検索精度が低下する。

したがって、ブロックを検索対象とする必要があり、上記ブロックを抽出する場合、従来、同時期に作成された同一のタグの並びで記述されている複数のＨＴＭＬファイルを用いて、ブロックを抽出する方法が知られている（たとえば、特許文献１参照）。
特開２００２−３３４０９０号公報「HTML 4.01 Specification」１９９９年１２月（URL:http://www.w3.org/TR/1999/REC-html401-19991224）

しかし、１つのコンピュータ（または、同一サービスを実現するコンピュータ群）から、複数のＨＴＭＬファイルを、全く同時にしかも大量に取得することは困難であり、また、いくら時期的に同じでも、他者が管理するコンピュータ上から取得したいくつかのＨＴＭＬファイルの、同一ブロックである筈の部分が一部変更されていることは大いにあり得る。

つまり、上記従来例では、所定の形式に従って記述された文書から、特徴的なブロックを抽出する場合、複数の情報の切れ目であるブロックを、適切かつ容易に、識別し、抽出することができないという問題がある。

本発明は、所定の形式に従って記述された文書から、特徴的なブロックを抽出する場合、複数の情報の切れ目であるブロックを、適切かつ容易に、識別し、抽出することができるブロック自動抽出装置、ブロック自動抽出方法およびプログラムを提供することを目的とするものである。

本発明は、所定の形式に従って記述された文書から、特徴的なブロックを抽出するブロック自動抽出装置において、文書を入力する文書入力部と、上記文書入力部で入力された文書から、所定のタグの情報を抽出するタグ情報抽出部と、上記文書入力部で入力された文書から、ブロックを構成するに必須な特徴情報を、各タグについて抽出する特徴情報抽出部と、上記タグ情報抽出部が抽出した上記所定のタグと、上記特徴情報とを用いて、上記入力された文書中に繰返し出現するブロックを抽出する繰り返し出現ブロック認識部とを有し、上記繰り返し出現ブロック認識部は、各タグの重みを、上記特徴情報抽出部で抽出された特徴情報の数量に基づいて計算する手段と、各タグについて、その子供タグの前後の並びパターンの出現回数を要素とする特徴ベクトルを求め、特徴ベクトルを用いて２つのタグ間の類似度をそれぞれ求める手段と、各タグについて、その子供タグの重みと子供タグ間の類似度とに基づいて、ブロック群度を求める手段と、ブロック群度が閾値以上であるブロックを抽出する手段とからなるブロック自動抽出装置である。

本発明によれば、文書内のある特定の形式で書かれた文字列を含む繰返し部分に、評価値を与え、この評価値を用いるので、複数の情報の切れ目であるブロックを、適切かつ容易に、識別し、抽出することができるという効果を奏する。

また、本発明によれば、単純な繰返しだけではなく、いくつかの組み合わせ、または子供タグ同士の間の類似度に閾値を導入し、上記類似度が他の兄弟タグの類似度と異なる兄弟タグを取り除くようにすると、より頑健にブロックを抽出できるという効果を奏する。

発明を実施するための最良の形態は、以下の実施例である。

まず、親子関係（ｐａｒｅｎｔ−ｃｈｉｌｄ）や、兄弟関係という概念について説明する。

ＨＴＭＬのタグ間には、包含関係（上下関係）が存在し、木構造として扱うことが可能であり、親子関係（ｐａｒｅｎｔ−ｃｈｉｌｄ）や、兄弟関係という概念が存在する。これら概念については、上記非特許文献１に記載されている。

通常、同一水準の情報は、同一の兄弟関係として記述される場合が多い。

「箇条書き」を表現するタグ「ｌｉ」を用いて、たとえば、情報「あ」、「い」、「う」を記述すると、
＜ｌｉ＞
＜ｏｌ＞あ＜／ｏｌ＞
＜ｏｌ＞い＜／ｏｌ＞
＜ｏｌ＞う＜／ｏｌ＞
＜／ｌｉ＞
のように記述され、上記情報「あ」、「い」、「う」は、互いに同一水準の情報であり、すなわち同一の兄弟関係と考えることができる。

また、本発明の実施例１の抽出対象は、特徴情報を有するブロック（または、特定の記述がされているブロック）であり、上記「特徴情報」は、たとえば、「日時情報」、「発言者情報」、「個人ＩＤ」である。

図２は、本発明の実施例１におけるブロックと、その集合体であるブロック群の例を示す図である。

次に、ブロックおよびブロック群の抽出方法について説明する。

ここでは、上記特徴情報（ブロックを構成する要素の必須項目）として、「日時情報」を考える。

まず、ＨＴＭＬファイルを解析し、ＨＴＭＬタグを抽出する。ＨＴＭＬタグ情報内に存在する木構造から、同じ水準の子供（すなわち、兄弟）のタグの数を、親タグ毎に、数える。

一方、ＨＴＭＬファイル内に存在する日時情報を抽出する。ここで、抽出対象となる日時情報は、ＨＴＭＬファイルの表示装置において、最終的に表示される文字列である。換言すると、表示に利用されない文字列（たとえば、「コメントタグ＜！−−＞」で括られている文字列）等を、抽出対象には含めない。

最小単位である所定のタグｔの重みｗ_ｔは、次のものであると定義する。

ｗ_ｔ＝１／ｍ（日時情報をｍ個含む場合） …式（１）
ｗ_ｔ＝０（日時情報を含まない場合） …式（２）
なお、上記「日時情報」は、各タグ内に含まれる日時情報である。ここで、上記「タグ内に含まれる日時情報」と記載したのは、ＨＴＭＬタグは、基本的に、開始タグ（＜…＞）と終了タグ（＜／…＞）とであり、開始タグとこの開始タグに対応する終了タグとが、文字列を挟み、上記文字列として「日時情報」が、開始タグと終了タグとに挟まれているからである。

すなわち、終了タグや開始タグ等、タグの対を持たないタグについては、その重みを計算する必要がない。

また、タグｉ，ｊの類似度を定義する場合、それぞれの子供タグを用いて定義する。タグｉの子供タグをｃｈ^ｉ _１，…，ｃｈ^ｉ _ｎとする。文書における子供タグの並びの中で、文書を除いた場合に、互いに隣接する子供タグｃｈ^ｉ _ｍｃｈ^ｉ _ｍ＋１をペアにし、でき上がったパターン（ペア）を数え、次の式（３）ように、特徴ベクトルｖｅｃ^ｉを定義する。

ｖｅｃ^ｉ＝（ｖ^ｉ _１，…，ｖ^ｉ _ｌ） …式（３）
式（３）において、ｖ^ｉ _ｋは、２つの子供タグで構成されているパターンｃｈ^ｉ _ｋｃｈ^ｉ _ｋ＋１の出現回数である。 …（４）
たとえば、Ａ、Ｂ、Ｃが、タグＴの子供タグであるとし、「ＡＢＣＢＣＡ」について考える。子供タグの並びのパターン（ペア）としては、要素「ＡＢ」が１回、要素「ＢＣ」が２回、要素「ＣＢ」が１回、要素「ＣＡ」が１回であるから、これから生成される特徴ベクトルｖｅｃ^Ｔは、
ｖｅｃ^Ｔ＝（１，２，１，１） …式（５）
である。ただし、式（５）の右辺における各要素は、（ＡＢ，ＢＣ，ＣＢ，ＣＡ）におけるそれぞれの出現回数である。これを用いて、タグｉ，ｊの類似度ｒｅｌ（ｉ，ｊ）を、
ｒｅｌ（ｉ，ｊ）＝ｖｅｃ^ｉ・ｖｅｃ^ｊ／（｜ｖｅｃ^ｉ｜｜ｖｅｃ^ｊ｜） …式（６）
とする。式（６）の右辺における分子は、ベクトルの内積であり、その分母は、各ベクトルの大きさを掛け合わせたものである。つまり、式（６）は、特徴ベクトルｖｅｃ^ｉ，ｖｅｃ^ｊの成す角θを利用して、三角関数のｃｏｓθを計算したものと同値である。

これによって、タグの並びの類似の度合いが高いる場合（文書中において、文書を除いた場合に互いに隣接するタグ同士が互いの類似の度合いが高い場合）は、タグｉ，ｊの類似度ｒｅｌ（ｉ，ｊ）の値が１に近く、上記類似の度合いが低い程、タグｉ，ｊの類似度ｒｅｌ（ｉ，ｊ）の値が０に近い。このようにして、類似度を定義することができる。ただし、子供タグを有さないタグ同士の類似度は、１であるとする。

以上を用いて、タグｔのブロック群度ｂｌｏｃｋ（ｔ）を、以下の式（７）のように定義する。

とする。ただし、Ｎは、タグｔの子供タグの数である。最初の項が、各子供タグの日時情報の含有率の平均値であり、後の項が、各子供タグ同士の類似度の平均値である。子供タグが、日時情報を必ず１回含み、かつ、子供タグ同士が類似していると、ブロック群度は高くなる。

以上によって、ブロック群度が、ある閾値よりも高いタグを、ブロック群として抽出し、この抽出されたブロック群に含まれている子供タグを、ブロックの先頭タグとして抽出する。

しかし、これだけでは不十分なタグのパターンが存在するので（他の用途にも適用できるようにするために、）、次の手法［１］、手法［２］を使用する。手法［１］は、複数の子供タグを組合せて、ブロック群度を再計算する手法であり、手法［２］は、類似度が低い子供タグを、ブロック抽出する場合に、無視する手法である。

上記手法［１］は、たとえば、
＜ｌｉ＞
＜ｏｌ＞１０／１０＜／ｏｌ＞
＜ｏｌ＞あああ＜／ｏｌ＞
＜ｏｌ＞１０／１１＜／ｏｌ＞
＜ｏｌ＞いいい＜／ｏｌ＞
＜／ｌｉ＞
と記述されていたＨＴＭＬファイルが存在する場合、ｉ番目のｏｌタグとｉ＋１番目のｏｌタグとのペアによって、１つのブロックを構成する。このようなブロックを、１つのブロックとして認識するために、タグｔにｎ個の子供タグがある場合、まず、ｎ個の子供タグ間でタグｔのブロック群度を計算し、次に、ｉ番目とｉ＋１番目とを１つのブロックとして、ｎ／２個の子供タグ間で計算し……という処理を繰返し、ブロック群度が最も大きな値となるケース（組み合わせ）を、ブロックおよびブロック群として抽出する。

上記手法［２］は、たとえば、
＜ｌｉ＞
＜ｏｌ＞ｉｏ／１０＜／ｏｌ＞
＜ｏｌ＞あああ＜／ｏｌ＞
＜ｏｌ＞＜Ｈ２＞ここは広告＜／Ｈ２＞＜／ｏｌ＞
＜ｏｌ＞１０／１１＜／ｏｌ＞
＜ｏｌ＞いいい＜／ｏｌ＞
＜／ｌｉ＞
と記述されているＨＴＭＬファイルが存在する場合、３番目のｏｌタグが、１番目、２番目のｏｌタグによるブロック候補とは異なり、また、４番目、５番目のｏｌタグによるブロック候補とも異なる。このように、類似度が低い子供タグは、ブロック群抽出時に悪い影響を与える。したがって、他のブロック候補（子供タグ）との類似度がある閾値以下であるブロック候補（子供タグ）を、ブロック抽出時に、ブロックとして無視してブロック群度を計算する。このようにすることによって、広告のブロック等、不要なタグに対応することができる。

図１は、本発明の実施例１であるブロック自動抽出装置１０の概略構成を示すブロック図である。

なお、実施例の説明において、実施例における同一要素には同一符号を付し、その繰り返しの説明を省く。

ブロック自動抽出装置１０は、文書入力部１１と、タグ情報抽出部１２と、特徴情報抽出部１３と、ブロック認識部１４とを有する。

文書入力部１１は、ブロック自動抽出装置１０において、処理対象となる文書を入力する部分である。

タグ情報抽出部１２は、文書入力部１１で入力された文書から、タグを抽出する。上記タグは、コンピュータネットワークであるインターネット上で一般化したＨＴＭＬファイルにおいては、ＨＴＭＬタグである。

特徴情報抽出部１３は、文書入力部１１で入力された文書から、特徴情報を抽出する。上記「特徴情報」は、たとえば、日時情報である。この日時情報を抽出するためのルールを予め用意し、このルールに合致した日時情報を抽出する。

なお、上記日時情報を抽出するためのルールは、たとえば、「ｎｎｎｎ／ｎｎ／ｎｎ（ｎは０から９までの数字）の場合は、日付として抽出するルール」、「ｎｎｎｎ年ｎｎ月ｎｎ日（ｎは０から９までの数字）の場合は、日付として抽出するルール」、「ｎｎ：ｎｎ：ｎｎ（ｎは０から９までの数字）の場合は、時刻として抽出するルール」を考えることができる。

ブロック認識部１４は、タグ情報抽出部１２が抽出したタグ情報と、特徴情報抽出部１３が抽出した日時情報とを用いて、各タグの重みを計算し、ブロックを抽出する場合に適切なタグを求める。

［具体例を用いた処理の説明］
次に、具体例を用いて、実施例１における処理について説明する。

解析対象とする文書を、コンピュータネットワークであるインターネット上のＨＴＭＬファイルとする。これらＨＴＭＬファイルを、文書入力部１１から入力する。

図２、図３は、実施例１において、文書入力部１１から入力された文書の例を示す図である。

タグ情報抽出部１２は、文書入力部１１で入力されたＨＴＭＬファイルを解析し、タグを抽出する。

図４は、図３に示す文書のＨＴＭＬファイルの中身を示す図である。

図５は、図４に示すＨＴＭＬファイルの中身を、説明し易くするために、ラベル付けを行った図である。

図４に示すＨＴＭＬファイルから抽出されるタグは、「ＨＴＭＬ」や「ＴＡＢＬＥ」や「／ＴＡＢＬＥ」や「ＴＲ１」等である。タグの木構造を用いて、抽出されたタグの親子兄弟関係、およびその数を計算する。

たとえば、タグＴＡＢＬＥの子供タグとして、タグＴＲ１、ＴＲ２、ＴＲ３、ＴＲ４があり、また、タグＴＲ１の子供として、タグＴＤ１，ＴＤ２が存在している。よって、タグＴＡＢＬＥの子供タグの数は４であり、タグＴＲ１の子供タグの数は２である。また、タグの締めくくりを表す／ＴＡＢＬＥ等は子供を持たない。

特徴情報抽出部１３は、文書入力部１１で入力されたＨＴＭＬファイルを解析し、入力文書中に記述されている特徴情報を抽出する。特徴情報が日時情報であるとすると、図４、図５に示す例では、抽出される特徴情報は、「２００３／０５／０９」、「２００３／０５／１０」、「２００３／０５／１２」の３種類である。

ブロック認識部１４は、上記タグ情報抽出部１２から抽出されたタグ情報と、特徴情報抽出部１３から抽出された日時情報とに基づいて、各タグのブロック度を計算する。

まず、日時情報を有するタグの重みｗ_ｔを計算する。タグＴＤ１、ＴＤ５、ＴＤ７が日時情報を有するので、これら３つのタグのそれぞれの重みｗ_ｔの値が、１である。また、その直接の親であるＴＲ１、ＴＲ３、ＴＲ４も、日時情報を１つずつ有するので、各親タグの重みｗ_ｔの値が１である。

上記ブロック群度を計算するには、子供タグ同士の類似度を計算する必要がある。子供タグを有するタグは、タグＨＴＭＬ、ＢＯＤＹ、ＴＡＢＬＥ、ＴＲｘ（ｘ＝１，２，３，４）であるが、実際に表示するためのタグは、ＢＯＤＹ、ＴＡＢＬＥ、ＴＲｘである。

次に、類似度の平均値を計算する。タグＴＲ１の子供タグは、タグＴＤ１，ＴＤ２であり、タグＴＤ１、ＴＤ２は、子供タグを持たないので、タグＴＤ１とＴＤ２との類似度ｒｅｌ（ＴＤ１，ＴＤ２）は、上記のように、
ｒｅｌ（ＴＤ１，ＴＤ２）＝１ …式（８）
である。

また、ＴＡＢＬＥの場合、その子供タグは、ＴＲ１、ＴＲ２、ＴＲ３、ＴＲ４である。

その特徴ベクトルは、
ｖｅｃ^ＴＲ１＝（ＴＤ／ＴＤ，ＴＤＴＤ）＝（２，１） …式（９）
ｖｅｃ^ＴＲ２＝（ＴＤ／ＴＤ，／ＴＤＴＤ，ＴＤＡ，Ａ／Ａ，／Ａ／ＴＤ）
＝（１，１，１，１，１） …式（１０）
ｖｅｃ^ＴＲ３＝（ＴＤ／ＴＤ，ＴＤＴＤ）＝（２，１） …式（１１）
ｖｅｃ^ＴＲ４＝（ＴＤ／ＴＤ，ＴＤＴＤ）＝（２，１） …式（１２）
となる。

なお、上記式（９）において、「（ＴＤ／ＴＤ，ＴＤＴＤ）」は、タグＴＤと、タグ／ＴＤとが、文書を除けば、隣接し、また、タグＴＤとタグＴＤとが、文書を除けば隣接していることを示する。そして、上記式（９）において、「（ＴＤ／ＴＤ，ＴＤＴＤ）＝（２，１）」は、タグＴＤとタグ／ＴＤとのペアが、２回発生し、タグＴＤとタグＴＤとのペアが１回発生していることを示している。

つまり、式（９）に示すｖｅｃ^ＴＲ１は、図５に記載されているように、「ＴＤ１／ＴＤ１ＴＤ２／ＴＤ２」であり、これから数字部分を省略すると「ＴＤ／ＴＤＴＤ／ＴＤ」になり、式（３）から、ペアは、「ＴＤ／ＴＤ」、「／ＴＤＴＤ」、「ＴＤ／ＴＤ」の３つであり、上記のように、タグＴＤとタグ／ＴＤとのペアが、２回発生し、タグＴＤとタグＴＤとのペアが１回発生している。

また、式（１０）において、ｖｅｃ^ＴＲ２は、図５に記載されているように、「ＴＤ３／ＴＤ３ＴＤ４Ａ１／Ａ１／ＴＤ４」であり、これから数字部分を省略すると「ＴＤ／ＴＤＴＤＡ／Ａ／ＴＤ」になり、式（３）から、ペアは、「ＴＤ／ＴＤ」、「／ＴＤＴＤ」、「ＴＤ／Ａ」、「Ａ／Ａ」、「／Ａ／ＴＤ」の５つであり、上記のように、タグＴＤとタグ／ＴＤとのペアが１回発生し、タグ／ＴＤとタグＴＤとのペアが１回発生し、タグＴＤとタグＡとのペアが１回発生し、タグＡとタグ／Ａとのペアが１回発生し、タグ／Ａとタグ／ＴＤとのペアが１回発生している。

式（１１）、式（１２）についても、上記と同様にして導出することができる。

また、類似度は、
ｒｅｌ（ＴＲｘ，ＴＲ２）＝３／５＝０．６ …式（１３）
ｒｅｌ（ＴＲｘ，ＴＲｙ）＝１／５＝１ …式（１４）
となる（ただし、ｘ，ｙ＝１，３，４）。

なお、式（１３）、式（１４）は、式（６）から導出される。また、式（１３）における「３／５」は、「５分の３」であり、式（１４）における「１／５」は、「５分の１」である。

ＢＯＤＹの子供タグは、ＦＯＮＴ、ＨＲ、ＴＡＢＬＥ、ＨＲ、Ａ２、Ａ３、Ａ４であるが、ブロック要素は、タグＴＡＢＬＥのみである。

よって、ブロック群度を計算できるタグは、タグＴＡＢＬＥのみであり、このブロック群度を単純に計算すると、
ｂｌｏｃｋ_{ｔａｂｌｅ}＝３／４×２／４（４−１）・（０．６＋１＋１＋０．６＋０．６＋１） …式（１５）
＝０．６ …式（１６）
となる。

なお、式（１５）、式（１６）は、式（７）から導出される。

ここで、上記手法［２］を採り入れ、ＴＡＢＬＥのブロック群度を計算する。つまり、タグＴＲ２のみが、それ以外の子供タグとの間で、特徴ベクトルが異なるので、無視する。したがって、子供タグは、タグＴＲ１，ＴＲ３，ＴＲ４であり、
ｂｌｏｃｋ（TABLE）＝３／３×２／３（３−１）・（１＋１＋１） …式（１７）
＝１ …式（１８）
であり、この組み合わせの方が、ブロック群度は高くなる。

なお、式（１７）、式（１８）は、式（７）から導出される。

また、手法［２］の代わりに、「他のタグとの類似度ｒｅｌの値が、たとえば０．７（閾値）以下であれば、無視する」手法を採用するようにしてもよい。

次に、上記と同様に、上記手法［１］を実行する。まず、タグＴＲ１、ＴＲ２を、１つのブロック、タグＴＲ３、ＴＲ４を、１つのブロックとすると、それぞれのブロック内に、日時情報が１回、２回と出現するので、タグＴＲ１、ＴＲ２のブロック、タグＴＲ３、ＴＲ４のブロックの重みｗ_ｔの値は、それぞれ１、０．５である。

また、特徴ベクトルｖｅｃ^ＴＲ１、タグ間の類似度ｒｅｌ（ＴＲ１，ＴＲ３）は、
ｖｅｃ^ＴＲ１＝（ＴＤ／ＴＤ，／ＴＤＴＤ，ＴＤＡ，Ａ／Ａ，／Ａ／ＴＤ）＝（３，３，１，１，１） …式（１９）
ｖｅｃ^ＴＲ３＝（ＴＤ／ＴＤ，／ＴＤＴＤ）＝（４，３） …式（２０）
ｒｅｌ（ＴＲ１，ＴＲ３）＝√２１／５＝０．９１７ …式（２１）
である。

なお、式（１９）、式（２０）、式（２１）は、式（３）から導出される。

よってブロック群度は、
ｂｌｏｃｋ（TABLE）＝１＋０．５／２×２／２（２−１）・０．９１７…式（２２）
＝０．６８８ …式（２３）
となり、この場合、上記手法［２］のみを用いた場合の方が、ブロック群度の値が高い。

なお、式（２２）、式（２３）は、式（７）から導出される。

これと同様に、タグＴＲ１、ＴＲ２、ＴＲ３を１つのブロックとし、タグＴＲ４を１つのブロックとして計算すると、ブロック群度の値は低くなる。

よって、この例のケースでは、タグＴＡＢＬＥの子供タグであるＴＲ１、ＴＲ３、ＴＲ４が「ブロック」として抽出される。つまり、タグＴＡＢＬＥの子供タグであるＴＲ１、ＴＲ３、ＴＲ４が、正しくは、「ブロックの先頭タグ」として抽出される。

上記実施例によれば、所定の形式に従って記述された文書から、特徴的なブロックを抽出する場合、複数の情報の切れ目であるブロックを適切かつ容易に、識別し、抽出することができる。

上記実施例によれば、特に、「掲示板」サービスや、「日記」、「Ｗｅｂｌｏｇ（ｂｌｏｇ）」サービスでは、ＨＴＭＬファイル中のブロックの構成要素として、日時情報と１つの情報とがペアで記録されているので、共通の日時の形式の繰返しを利用することによって、適切にブロックを抽出することができる。

つまり、上記実施例は、所定の形式に従って記述された文書から、特徴的なブロックを抽出するブロック自動抽出方法において、入力された文書から、所定のタグの情報を抽出し、メモリに記憶するタグ情報抽出段階と、上記入力された文書から、特徴情報を抽出し、メモリに記憶する特徴情報抽出段階と、上記タグ情報抽出段階が抽出した上記所定のタグと、上記特徴情報とを用いて、上記入力された文書中に繰返し出現するブロックを認識し、メモリに記憶する繰り返し出現ブロック認識段階とを有するブロック自動抽出方法の例である。

この場合、上記ブロック認識段階において、タグのブロック群度を計算する際に、抽出された子供タグの集合の中で、上記子供タグの列における前後の並びが、他の子供タグの前後の並びと異なる並びの子供タグの列を無視することによって、ブロックを抽出する。

そして、上記ブロック認識段階において、上記タグのブロック群度を計算する場合、抽出された子供タグの集合の中で、複数の子供タグを組み合わせブロックとして、上記タグのブロック群度を計算することによって、ブロックを抽出する。

また、上記実施例を、プログラムの発明として把握することができる。つまり、上記実施例は、所定の形式に従って記述された文書から、特徴的なブロックを抽出する場合、入力された文書から、所定のタグの情報を抽出し、メモリに記憶するタグ情報抽出手順と、上記入力された文書から、特徴情報を抽出し、メモリに記憶する特徴情報抽出手順と、上記タグ情報抽出手順が抽出した上記所定のタグと、上記特徴情報とを用いて、上記入力された文書中に繰返し出現するブロックを認識し、メモリに記憶する繰り返し出現ブロック認識手順とをコンピュータに実行させるプログラムの例である。

この場合、上記ブロック認識手順において、タグのブロック群度を計算する際に、抽出された子供タグの集合の中で、上記子供タグの列における前後の並びが、他の子供タグの前後の並びと異なる並びの子供タグの列を無視することによって、ブロックを抽出する。

そして、上記ブロック認識手順において、上記タグのブロック群度を計算する場合、抽出された子供タグの集合の中で、複数の子供タグを組み合わせブロックとして、上記タグのブロック群度を計算することによって、ブロックを抽出する。

本発明の実施例１であるブロック自動抽出装置１０の概略構成を示すブロック図である。本発明の実施例１におけるブロックと、その集合体であるブロック群の例を示す図である。実施例１において、文書入力部１１から入力された文書の例を示す図である。図３に示す文書のＨＴＭＬファイルの中身を示す図である。図４に示すＨＴＭＬファイルの中身を、説明し易くするために、ラベル付けを行った図である。

符号の説明

１０…ブロック自動抽出装置、
１１…文書入力部、
１２…タグ情報抽出部、
１３…特徴情報抽出部、
１４…ブロック認識部。

Claims

所定の形式に従って記述された文書から、特徴的なブロックを抽出するブロック自動抽出装置において、
文書を入力する文書入力部と；
上記文書入力部で入力された文書から、所定のタグの情報を抽出するタグ情報抽出部と；
上記文書入力部で入力された文書から、ブロックを構成するに必須な特徴情報を、各タグについて抽出する特徴情報抽出部と；
上記タグ情報抽出部が抽出した上記所定のタグと、上記特徴情報とを用いて、上記入力された文書中に繰返し出現するブロックを抽出する繰り返し出現ブロック認識部と；
を有し、
上記繰り返し出現ブロック認識部は、
各タグの重みを、上記特徴情報抽出部で抽出された特徴情報の数量に基づいて計算する手段と；
各タグについて、その子供タグの前後の並びパターンの出現回数を要素とする特徴ベクトルを求め、特徴ベクトルを用いて２つのタグ間の類似度をそれぞれ求める手段と；
各タグについて、その子供タグの重みと子供タグ間の類似度とに基づいて、ブロック群度を求める手段と；
ブロック群度が閾値以上であるブロックを抽出する手段と；
からなることを特徴とするブロック自動抽出装置。
請求項１において、
上記ブロック認識部において、タグのブロック群度を計算する際に、計算対象のタグの子供タグの集合の中で、他の子供タグとの類似度が閾値以下である子供タグを除外して計算することを特徴とするブロック自動抽出装置。
請求項１において、
上記ブロック認識部において、上記タグのブロック群度を計算する場合、計算対象のタグの子供タグの集合の中で、複数の子供タグを組み合わせブロックとし、各組み合わせブロックについて、その重みと特徴ベクトルとを求めるとともに、組み合わせブロック間の類似度を求め、組み合わせブロックの重みと組み合わせブロック間の類似度とに基づいて、ブロック群度を求めることを特徴とするブロック自動抽出装置。
請求項１〜請求項３のいずれか１項において、
上記ブロック群度は、重みの平均値と、類似度の平均値との乗算の結果であることを特徴とするブロック自動抽出装置。
請求項１〜請求項４のいずれか１項に記載のブロック自動抽出装置を構成する各手段としてコンピュータを機能させるブロック自動抽出プログラム。