JP2005149236A

JP2005149236A - ブロック自動抽出装置、ブロック自動抽出方法およびプログラム

Info

Publication number: JP2005149236A
Application number: JP2003387165A
Authority: JP
Inventors: Masayuki Sugizaki; 正之杉崎; Toshiaki Makino; 俊朗牧野; Akiya Kurishima; 聡哉栗島
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-11-17
Filing date: 2003-11-17
Publication date: 2005-06-09

Abstract

【課題】所定の形式に従って記述された文書から、特徴的なブロックを抽出するブロック自動抽出装置において、精度よく情報ブロックを抽出することを目的とする。

【解決手段】文書を入力する文書入力部と、上記文書入力部で入力された文書から、特定のタグ情報を抽出するタグ情報抽出部と、上記文書入力部で入力された文書の中から、日時情報を抽出する日時情報抽出部と、上記日時情報抽出部が抽出した日時情報に基づいて、ブロックとしてのまとまり程度を示す上記特定の上記各タグの重みを求め、兄弟タグ間の類似度を求め、この求めた類似度と、上記求めたタグの重みとに応じて、タグのブロック度を求めるブロック認識部とを有するブロック自動抽出装置である。

【選択図】図１

Description

本発明は、所定の形式に従って記述された文書において、複数の情報が記述されている所定の１つの文書内から、所定の情報を適切に抽出するブロック自動抽出装置、ブロック自動抽出方法およびプログラムに関する。

近年、インターネット等のコンピュータネットワークを通じて、大量の電子化された文書をやり取りし、不特定多数を対象にして情報発信できるようになった。

コンピュータネットワーク上で表現された文書では、その特徴を生かした表現が利用されている。中でもＷＷＷ（World Wide Web）上のＨＴＭＬと呼ばれる文書は、何らかの情報を書き記すだけではなく、他のコンピュータ上に存在する他の人が書いた文書を参照する「ハイパーリンク」の機能がある。これは、他の文書を信頼して自分の記している情報を補完し、同じ内容の文書を指すとき等に利用される。

ＨＴＭＬファイルにおいて、上記ハイパーリンク、または、「太字」、「斜体」等、文字の修飾等は、「タグ」と呼ばれる「＜」「＞」で囲まれた特別な文字列によって指定される（たとえば、非特許文献１参照）。

ＨＴＭＬファイル内には、様々な単位の情報が混合して記述されている場合がある。たとえば、新聞社で作成されたＨＴＭＬファイルには、ある事件に対する記事内容、その記事に関連する過去の記事へのハイパーリンク、同時期の別の記事へのハイパーリンク、文書とは全く無関係の広告記事や同社内のサービス説明へのハイパーリンク等が記述されている。

一方、大量のＨＴＭＬファイルの中から、欲しい情報が記述されているファイルだけを容易に探し出せるように、ＨＴＭＬファイルを収集し、検索できるようにしたサービスが公開されている（http://www/google.com/、http;//www/goo.ne.jp/等）。一般的な従来の検索システムにおいて、所定の単語列を入力すると、この入力された単語列を含むＨＴＭＬファイルを、検索結果として羅列する。

これらの検索システムにおいて、検索精度を向上させるためには、複数の情報がまとめて１つのＨＴＭＬファイルに記述されている場合、上記複数の情報を構成する個々の情報に分割し、この分割された情報を検索対象とすべきである。

すなわち、検索対象を、ファイル単位とした場合、複数の単語を入力すると、この入力された複数の単語を構成する各単語が、同一の１つのファイルに存在したとしても、上記１つのファイルを構成する１つの情報には、上記構成する各単語の全てが存在しない場合があり、この場合に、上記１つのファイルを検索し、適切な検索が実行されたとは言えない。

より適切な検索を実行するために、従来、同時期に作成された同一のデザイン（形式、タグの並び）で記述された複数のＨＴＭＬファイルを用いて、ブロックを抽出する方法が知られている（たとえば、特許文献１参照）。上記「デザイン」は、同じサイト内の各ＨＴＭＬファイルをブラウザで表示した際に、見ための形式である。たとえば、○○新聞社のホームページにおける <http://www.○>○.com/である。
特開２００２−３３４０９０号公報「HTML 4.01 Specification」（http://www/w3/org/TR/1999/REC-html1401-19991224）

しかし、上記従来例では、複数のＨＴＭＬファイルを１つのコンピュータ（または、同一サービスを実現するコンピュータ群）から、まったく同時に、大量に取得することが難しく、また、たとえ同時期に複数のＨＴＭＬファイルを大量に取得することができたとしても、他者が管理するコンピュータ上から取得したいくつかのＨＴＭＬファイルの、同一ブロックである筈の部分が一部変更されていることは大いに有り得るという問題がある。

つまり、見た目は統一されているので、短時間に取得したＨＴＭＬファイルをブラウザで表示した際に、たとえば、多くのファイルでは「左上には社名の絵が表示されている」が、残りのいくつかは「左上の社名の絵が異なる」場合があり、この場合、「左上の社名の絵」を制御するのは、ＨＴＭＬファイルを作っている会社（上記例であれば、○○新聞社）である。すなわち、短時間であるとはいえ、時間が違えば、統一されているであろう部分が異なっている（揺らぎがある）ことは、大いにあり得る。

本発明は、精度よく情報ブロックを抽出することができるブロック自動抽出装置提供することを目的とする。つまり、所定の１つの「意味単位(ブロック)」を抽出する場合、「複数のＨＴＭＬファイルを短時間で収集してブロックを抽出する」場合よりも、上記揺らぎ（誤差、または、ずれ）が影響せずに、情報ブロックを抽出することができるブロック自動抽出装置を提供することを目的とする。

本発明は、所定の形式に従って記述された文書から、特徴的なブロックを抽出するブロック自動抽出装置において、文書を入力する文書入力部と、上記文書入力部で入力された文書から、特定のタグ情報を抽出するタグ情報抽出部と、上記文書入力部で入力された文書の中から、日時情報を抽出する日時情報抽出部と、上記日時情報抽出部が抽出した日時情報に基づいて、ブロックとしてのまとまり程度を示す上記特定の上記各タグの重みを求め、兄弟タグ間の類似度を求め、この求めた類似度と、上記求めたタグの重みとに応じて、タグのブロック度を求めるブロック認識部とを有するブロック自動抽出装置である。

本発明によれば、文書内のある特定の形式で書かれた文字列を含む日時情報等の繰り返し部分に、評価値を与え、この評価値を用いるので、複数の情報の切れ目であるブロックの切れ目を容易に識別し、ブロックを適切に抽出することができるという効果を奏する。

発明を実施するための最良の形態は、以下の実施例である。

ＨＴＭＬのタグ間には、包含関係（上下関係）が存在し、木構造として扱うことが可能であり、親子関係（parent-child）、兄弟関係という概念が存在する（たとえば、非特許文献１参照）。

通常、同一水準の情報は、同一の兄弟関係として記述される場合が多い。「箇条書き」を表現するためのタグ「ｌｉ」を用いた例として、
＜ｌｉ＞
＜ｏｌ＞あ＜／ｏｌ＞
＜ｏｌ＞い＜／ｏｌ＞
＜ｏｌ＞う＜／ｏｌ＞
＜／ｌｉ＞
があり、上記「あ」、「い」、「う」は、互いに同一水準の情報であると考えられる。

また、本発明の実施例１における目的は、特定の情報を有するブロック（または、特定の記述がされているブロック）を認識することであり、その「特定の情報」は、「日時情報」、「発言者」、「個人ＩＤ」等の情報である。

次に、上記実施例におけるブロック抽出方法の概要について説明する。

まず、ＨＴＭＬファイルを解析し、ＨＴＭＬタグを抽出する。タグ情報内に存在する木構造から、同じ水準の子供のタグ（すなわち、兄弟タグ）を、親タグ毎に数え上げる。

一方、ＨＴＭＬファイル内に存在する日時情報を抽出する。ここで、抽出対象である日時情報は、ＨＴＭＬファイルの表示装置において、最終的に表示される文字列である。つまり、表示に利用されない文字列（たとえば、「コメントタグ＜！−−＞で括られた文字列」等を、抽出対象には含めない。

最小単位である所定のタグｔの重みｗ_ｔを、各タグ内に含まれている日時情報の数に基づいて、次の式（１）、式（２）によって求める。

タグｔの重みｗ_ｔ＝１／ｍ（日時情報をｍ個含む場合） … 式（１）
タグｔの重みｗ_ｔ＝０（日時情報を含まない場合） … 式（２）
とする。なお、上記式（１）と式（２）とが示す「タグｔの重み」は、最下位層のタグの固まり具合（ブロック度の１種）を示す数値であり、日付情報に基づいて推定した数値である。１つのタグの中に、日付情報が多数、存在していれば、それだけ情報が分散していると考えられるので、「重み」が小さいと考える。

ＨＴＭＬタグは、基本的に開始タグ「＜……＞」と、終了タグ「＜／……＞」とが存在し、「タグ内に含まれる文字列」は、開始タグと、この開始タグに対応する終了タグとによって挟まれた文字列である。すなわち、終了タグや、開始タグ終了タグの対を持たないタグの重みを計算することはない。

上記開始タグと、この開始タグに対応する終了タグとによって挟まれた文字列が、ブロックの候補である。ブロックとして抽出する開始タグは、デザイン（表示したときの、２次元におけるＸ，Ｙ座標）に影響があるタグ（ブロック要素）のみが、ブロックとして抽出する開始タグであるとし、それ以外のタグ（インライン要素）は、ブロックとして抽出する開始タグとしては、扱わない。

複数の兄弟タグｔ^ｃｈを有する親タグｔ^ｐの重みＷ_ｔｐを、次の式（３）によって示す。

とする。ただし、Ｎは、兄弟のタグの数を表す。この場合、兄弟のタグの重みｗ_ｔ ^ｃｈの値を計算するときに用いる「日時情報」は、兄弟タグに囲まれている日付情報の中で、最も出現回数が多い形式の日時情報のみである。

次に、ブロック同士の形式の類似度を定義する。

所定のブロックＢ内のタグを、その並んでいる順に、Ｂ１，Ｂ２，Ｂ３，…，Ｂｎとし、以下のような特徴ベクトルｖｅｃ＿Ｂを考える。

ｖｅｃ＿Ｂ＝（Ｂ１Ｂ２，Ｂ２Ｂ３，…，Ｂｎ−１Ｂｎ） …… 式（４）
ＢｉＢｉ＋１には、その並びでの出現回数がカウントされる。つまり、タグＢｉと、タグＢｉ＋１とは、連続しているタグである。

たとえば、所定のブロックＢ内のタグが＜ＴＲ＞＜ＴＤ＞＜／ＴＤ＞であれば、これは、＜ＴＲ＞＜ＴＤ＞を要素とする特徴ベクトルと、＜ＴＤ＞＜／ＴＤ＞を要素とする特徴ベクトルとによって構成されている。この場合、＜ＴＲ＞＜ＴＤ＞を要素とする特徴ベクトルが１回出現し、＜ＴＤ＞＜／ＴＤ＞を要素とする特徴ベクトルが１回出現している。

これよって、ブロックａ，ｂの類似度ｒｅｌ（ａ，ｂ）の三角関数のｃｏｓを用い、
ｒｅｌ（ａ，ｂ）＝ｃｏｓ＝（ｖｅｃ＿ａｘｖｅｃ＿ｂ）／｜ｖｅｃ＿ａ｜｜ｖｅｃ＿ｂ｜ …… 式（４）
とすると、タグの並びが類似している場合は、類似度の値が１になり、タグの並びが類似していない場合は、類似度の値が０になる類似度ｗを定義することができる。

たとえば、所定のブロックＡ、Ｂ、Ｃが、それぞれ、
Ａ…＜ＴＲ＞＜ＴＤ＞＜ＴＤ＞＜ＴＤ＞、
Ｂ…＜ＴＲ＞＜ＴＤ＞＜ＴＤ＞＜ＴＤ＞、
Ｃ…＜ＴＲ＞＜ＴＤ＞＜ＴＤ＞＜／ＴＤ＞
というタグの並びである場合、ブロックＡとＢとは、タグの並びが類似していると考え、ブロックＡとＣとは、タグの並びが、ブロックＡ、Ｂほどは類似せず、また、ブロックＢとＣとは、タグの並びが、ブロックＡ、Ｂほどは類似していないと考える。

つまり、上記例において、各特徴ベクトルと出現回数とは、
Ａ…（＜ＴＲ＞＜ＴＤ＞，＜ＴＤ＞＜ＴＤ＞）→（１，２）であり、
Ｂ…（＜ＴＲ＞＜ＴＤ＞，＜ＴＤ＞＜ＴＤ＞）→（１，２）であり、
Ｃ…（＜ＴＲ＞＜ＴＤ＞，＜ＴＤ＞＜ＴＤ＞，＜ＴＤ＞＜／ＴＤ＞）→（１，１，１）
である。

つまり、タグの並びが＜ＴＲ＞＜ＴＤ＞＜ＴＤ＞であるブロックＡにおける特徴ベクトルの要素は、＜ＴＲ＞＜ＴＤ＞，＜ＴＤ＞＜ＴＤ＞，＜ＴＤ＞＜ＴＤ＞であり、したがって、特徴ベクトルの要素の種類は、＜ＴＲ＞＜ＴＤ＞，＜ＴＤ＞＜ＴＤ＞の２種類であり、＜ＴＲ＞＜ＴＤ＞を要素とする特徴ベクトルの出現回数は、１回であり、＜ＴＤ＞＜ＴＤ＞を要素とする特徴ベクトルの出現回数は、２回である。

また、タグの並びが＜ＴＲ＞＜ＴＤ＞＜ＴＤ＞であるブロックＢにおける特徴ベクトルの要素と出現回数とは、ブロックＡと同じである。

さらに、タグの並びが＜ＴＲ＞＜ＴＤ＞＜ＴＤ＞＜／ＴＤ＞であるブロックＣにおける特徴ベクトルの要素は、＜ＴＲ＞＜ＴＤ＞，＜ＴＤ＞＜ＴＤ＞，＜ＴＤ＞＜／ＴＤ＞であり、したがって、特徴ベクトルの要素の種類は、＜ＴＲ＞＜ＴＤ＞，＜ＴＤ＞＜ＴＤ＞，＜ＴＤ＞＜／ＴＤ＞の３種類であり、＜ＴＲ＞＜ＴＤ＞を要素とする特徴ベクトルの出現回数、＜ＴＤ＞＜ＴＤ＞を要素とする特徴ベクトルの出現回数、＜ＴＤ＞＜／ＴＤ＞を要素とする特徴ベクトルの出現回数は，それぞれ１回である。

ここで三角関数ｃｏｓを利用し、出現回数のベクトル同士の類似度を計算すると、ブロックＡとＢとの類似度は１であり、ブロックＡとＣとの類似度、ブロックＢとＣとの類似度は、ブロックＡとＢとの類似度よりも小さくなる。全く類似しなければ、類似度は０である。

ｎ個の兄弟を子供とするタグｔのブロック度ｂ_ｔを、次の式（５）によって示す。

つまり、上記式（５）は、ｎ個のブロックの場合、式（４）による類似度は、_ｎＣ_２（ｎ個から２個とる組み合わせ）個、存在するので、これらの平均値を求め、しかも、上記式（３）に示す親タグｔ^ｐの重みＷ_ｔとの積で計算される。

同一の形式が意図的に繰り返し出現している場合（つまり、ＴＲ１、ＴＲ２、ＴＲ３が繰り返された部分になり、すなわち、同じ形式（タグの並び, 構成要素）が、何回も出現している場合）、個々の情報は、それぞれある１つの意味単位を形成し、その情報を利用してブロックを抽出する。

つまり、実施例１において、まず、構造化文書（ＨＴＭＬ）のタグを木構造とし、日時情報に基づいて、各タグの重み（ブロックとしてのまとまり程度）を求める。この場合、最下位のタグの重みについては、式（１）、式（２）によって求め、それ以外のタグの重みに付いては、上記式（３）によって求める。

そして、兄弟タグ間の類似度を、上記式（４）によって求め、上記式（４）によって求めた類似度と、上記式（３）によって求めたタグの重みとを使用し、上記式（５）によって、タグのブロック度を求める。

次に、上記実施例をより具体的に説明する。なお、同一要素には、同一符号を付け、その繰り返しの説明を省略する。

図１は、本発明の実施例１であるブロック自動抽出装置１００の概略構成を示すブロック図である。

ブロック自動抽出装置１００は、文書入力部１０と、タグ情報抽出部２０と、日時情報抽出部３０と、ブロック認識部４０とを有する。

実施例１であるブロック自動抽出装置１００では、まず処理対象である文書を、文書入力部１０で入力する。

タグ情報抽出部２０は、文書入力部１０で入力された文書から、ＨＴＭＬタグを抽出する。コンピュータネットワークであるインターネット上で一般化したＨＴＭＬファイルの場合、上記目印として付けられた「タグ」は、ＨＴＭＬタグである。

日時情報抽出部３０は、文書入力部１０で入力された文書から、日時情報を抽出する。抽出するためのルールを、予め用意し、ルールに合致した情報を、日時情報として抽出する。

ブロック認識部４０は、タグ情報抽出部２０が抽出したタグ情報と、日時情報抽出部３０が抽出した日時情報とを用い、各タグの重みを計算し、ブロックとして適切なタグを求める。つまり、ブロック認識部４０は、日時情報抽出部が抽出した日時情報に基づいて、ブロックとしてのまとまり程度を示す上記各タグの重みを求め、上記兄弟タグ間の類似度を求め、この求めた類似度と、上記求めた兄弟タグの重みとに応じて、兄弟タグのブロック度を求めるブロック認識部の例である。

次に、実施例１の具体的な動作について説明する。

実施例１が解析対象とする文書は、コンピュータネットワークであるインターネット上のＨＴＭＬファイルであるとする。これらＨＴＭＬファイルを、文書入力部１０から入力する。

図２は、入力された文書の例を示す図であり、ｓａｍｐ．ｈｔｍｌを示す図である。

図３は、入力された文書の例を示す図であり、ｓａｍｐ．ｈｔｍｌを示す図であり、図２を説明するために、各タグの後ろに番号を付与してある。

つまり、図２の２つ目のＴＲタグを示す場合、図３において、ＴＲ２という表現を使っている。

タグ情報抽出部２０は、文書入力部１０で入力されたＨＴＭＬファイルを解析し、タグを抽出する。ｓａｍｐ．ｈｔｍｌ（図３の下から２行目に記載されている）から抽出されるタグは、説明用に使用する図３の「ｓａｍｐ．ｈｔｍｌ」において、「ＨＴＭＬ１」、「ＴＡＢＬＥ１」、「／ＴＡＢＬＥ１」等である。

タグの木構造を用いて、抽出されたタグの親子兄弟関係と、その数とを計算する。たとえば、ＴＡＢＬＥ１の子供として、子供タグＴＲ１、ＴＲ２、ＴＲ３があり、また、子供タグＴＲ１の子供として、つまり、孫タグＴＤ１、ＴＤ２が存在している。よって、ＴＡＢＬＥ１の子供の数は、「３」であり、タグＴＲ１の子供の数は、「２」である。また、タグの締めくくりを表す「／ＴＡＬＢＥ１」等は、子供を持たない。

日時情報抽出部３０は、文書入力部１０で入力されたＨＴＭＬファイルを解析し、文書中に記述された日時情報を抽出する。ｓａｍｐ．ｈｔｍｌから抽出すべき日時情報として、「２００３／０５／０９」、「２００３／０５／１０」、「２００３／０５／１２」の３種類が存在する。

ブロック認識部４０は、タグ情報抽出部２０が抽出したタグ情報と、日時情報抽出部３０が抽出した日時情報とに基づいて、各タグのブロック度を計算する。

次に、タグのブロック度の計算について説明する。

まず、日時情報を有するタグｔの重みｗ_ｔを計算する。タグＴＤ１、ＴＤ３、ＴＤ５が、日時情報を有しているので、タグＴＤ１、ＴＤ２、ＴＤ３のブロック度がそれぞれ１である。

続いて、親子兄弟関係を用い、親タグの重みを計算する。この場合、値が０より大きなタグを子供に持つのがＴＡＬＢＥ１タグである。つまり、式（３）によって、タグｔの重みＷ_ｔは、兄弟のタグの重みｗ_ｔ ^ｃｈの値の積となっているので兄弟のタグの重みｗ_ｔ ^ｃｈが０であれば（すなわち、日時情報を含まなければ）、タグｔの重みＷ_ｔの値は、自動的に０になる。これを、利用すると、兄弟のタグの重みｗ_ｔ ^ｃｈの値が０よりも大きな親のタグのみ、タグＴの重みＷ_ｔの値を計算すれば足りる。

また、値が０より大きなタグを子供に持つのがＴＡＬＢＥ１タグであるので、タグｔの重みＷ_ｔを、次の式（６）によって求める。

タグｔの重みＷ_ｔ＝３×１×１×１＝３ … 式（６）
つまり、ＴＡＢＬＥ１を親タグとし、タグｔの重みＷ_ｔを計算すると、
子どもの数は、ＴＲ１、ＴＲ２、ＴＲ３の３つであり、各子どもの兄弟のタグの重みｗ_ｔ ^ｃｈが日付情報を１つずつ含むので１である。なお、タグＴＲ１の重みは、＜ＴＲ１＞から＜／ＴＲ１＞までの間、すなわち、＜ＴＲ１＞＜ＴＤ１＞２００３／０５／０９＜ＴＤ１＞＜ＴＤ２＞…＜／ＴＤ２＞＜／ＴＲ１＞の中に、日付情報が１つ出現しているので、タグの重みｗ_ｔ（ｗ_ｔ ^ｃｈ）は１である。したがって、上記式（６）に示すように、
タグの重みＷ_ｔ＝３×１×１×１＝３になる。

さらに、兄弟タグ同士の類似度ｒｅｌ（ｔ_ｉ，ｔ_ｊ）は、全て１である。つまり、ＴＲ１、ＴＲ２、ＴＲ３のタグの並びは、どれも、＜ＴＲ＞＜ＴＤ＞＜／ＴＤ＞＜ＴＤ＞＜／ＴＤ＞＜／ＴＲ＞であり（図２を参照、図３はあくまでも説明用）、並びと出現回数とを示す特徴ベクトルが全く同じであるので、ｒｅｌ（ｔｉ，ｔｊ）の値は、全て１になる。

したがって、ブロック度ｂ_ｔを、次の式（７）によって求める。

ブロック度ｂ_ｔ＝３×（１＋１＋１）×２／（３×２）＝３ … 式（７）
つまり、子どもがＴＲ１、ＴＲ２、ＴＲ３の３つであり、ｒｅｌ（ｔｉ，ｔｊ）の値が1であるので、ｒｅｌ（ｔｉ，ｔｊ）の組み合わせ数は、_３Ｃ_２＝（３×２）／２＝３通りであり、ｒｅｌ（ｔｉ，ｔｊ）の和は、１＋１＋１であり、タグｔの重みＷ_ｔは、３×１×１×１＝３であり、これらを、式（５）に代入すると、上記式（３）になる。

また、他のブロックとして、ＢＯＤＹ１タグ等があるが、その子供タグは、ＴＡＢＬＥ１のみである。この場合、ＴＡＢＬＥ１の重みｗ_ｔを求めると、１／３であり、ＢＯＤＹ１タグの重みｗ_ｔを求めると、同じく１／３になる。兄弟は１であるので、ブロック度ｂ_ｔは、１／３である。

これによって、ＴＡＢＬＥ１タグの子供タグＴＲ１、ＴＲ３、ＴＲ５が、ブロック（正確には「の先頭タグ」）として抽出される。つまり、ＴＡＢＬＥ１タグとＢＯＤＹ１タグのブロック度ｂｔとを比較すると、ＴＡＢＬＥ１タグのブロック度が大きいので、ＴＡＢＬＥ１タグのほうが、ＢＯＤＹ１タグよりもブロックとして抽出すべきタグになる。

すなわち、ここで閾値ｔｈを導入し、ブロック度がｔｈよりも大きいタグｔの子どもタグを、ブロックとして抽出することにする。たとえば、ｔｈの値が１であるとすると、「ブロック度がｔｈよりも大きいタグ」は、ＴＡＢＬＥ１タグのみであり、ブロックは、「ＴＲ１、ＴＲ２、ＴＲ３」である。また、ｔｈの値が１／４であるとすると、「ブロック度がｔｈよりも大きいタグ」は、ＢＯＤＹ１タグとＴＡＢＬＥ１タグとの２種類になり、ブロックは、「ＴＡＢＬＥ１」と「ＴＲ１、ＴＲ２、ＴＲ３」とである。

図４は、実施例１の動作を示すフローチャートである。

まず、入力されたＨＴＭＬファイルからタグを抽出する（Ｓ１）。つまり、所定の形式に従って記述された文書から、特徴的なブロックを抽出するブロック自動抽出方法において、文書を入力する文書入力段階の後に、上記文書入力段階で入力された文書から、タグ情報を抽出するタグ情報抽出段階を実行する。

次に、入力されたＨＴＭＬファイルから日時情報を抽出する（Ｓ２）。すなわち、上記文書入力段階で入力された文書の中から、日時情報を抽出する日時情報抽出段階を実行する。

そして、抽出されたタグと日時の情報とを用いて、ブロックとして認識する候補となるタグのブロック度を計算する（Ｓ３）。つまり、上記日時情報抽出段階で抽出された日時情報に基づいて、ブロックとしてのまとまり程度を示す上記タグの重みを求め、上記兄弟タグ間の類似度を求め、この求めた類似度と、上記求めた兄弟タグの重みとに応じて、兄弟タグのブロック度を求めるブロック認識段階を実行する。

その後、ブロック度の大きいタグに属する子供タグを、ブロックとして抽出する（Ｓ４）。

上記実施例によれば、特に、「掲示板」サービス、「日記」サービスにおいて、ＨＴＭＬファイル中のブロックの構成要素として、日時情報と１つの情報とがペアで記録され、共通の日時の形式の繰り返しを利用することによって、ブロックを適切に抽出することができる。

なお、上記実施例を、プログラムの発明として把握することができる。つまり、上記実施例は、所定の形式に従って記述された文書から、特徴的なブロックを抽出するブロック自動抽出プログラムにおいて、文書を入力する文書入力手順と、上記文書入力手順で入力された文書から、タグ情報を抽出し、メモリに格納するタグ情報抽出手順と、上記文書入力手順で入力された文書の中から、日時情報を抽出し、メモリに格納する日時情報抽出手順と、上記日時情報抽出手順で抽出された日時情報に基づいて、ブロックとしてのまとまり程度を示す上記タグの重みを求め、上記兄弟タグ間の類似度を求め、この求めた類似度と、上記求めた兄弟タグの重みとに応じて、兄弟タグのブロック度を求め、ブロック度をメモリに格納するブロック認識手順とをコンピュータに実行させるプログラムの例である。

また、上記プログラムを、ＣＤ、ＤＶＤ、ＨＤ、半導体メモリ等の記録媒体に格納するようにしてもよい。

本発明の実施例１であるブロック自動抽出装置１００の概略構成を示すブロック図である。入力文書の例を示す図であり、ｓａｍｐ．ｈｔｍｌを示す図である。入力された文書の例を示す図であり、ｓａｍｐ．ｈｔｍｌを示す図であり、図２を説明するために、各タグの後ろに番号を付与してある。実施例１の動作を示すフローチャートである。

符号の説明

１０…文書入力部、
２０…タグ情報抽出部、
３０…日時情報抽出部、
４０…ブロック認識部。

Claims

所定の形式に従って記述された文書から、特徴的なブロックを抽出するブロック自動抽出装置において、
文書を入力する文書入力部と；
上記文書入力部で入力された文書から、タグを抽出するタグ情報抽出部と；
上記文書入力部で入力された文書の中から、日時情報を抽出する日時情報抽出部と；
上記日時情報抽出部が抽出した日時情報に基づいて、ブロックとしてのまとまり程度を示す上記タグの重みを求め、上記兄弟タグ間の類似度を求め、この求めた類似度と、上記求めた兄弟タグの重みとに応じて、兄弟タグのブロック度を求めるブロック認識部と；
を有することを特徴とするブロック自動抽出装置。
所定の形式に従って記述された文書から、特徴的なブロックを抽出するブロック自動抽出方法において、
文書を入力する文書入力段階と；
上記文書入力段階で入力された文書から、タグ情報を抽出するタグ情報抽出段階と；
上記文書入力段階で入力された文書の中から、日時情報を抽出する日時情報抽出段階と；
上記日時情報抽出段階で抽出された日時情報に基づいて、ブロックとしてのまとまり程度を示す上記タグの重みを求め、上記兄弟タグ間の類似度を求め、この求めた類似度と、上記求めた兄弟タグの重みとに応じて、兄弟タグのブロック度を求めるブロック認識段階と；
を有することを特徴とするブロック自動抽出方法。
所定の形式に従って記述された文書から、特徴的なブロックを抽出するブロック自動抽出プログラムにおいて、
文書を入力する文書入力手順と；
上記文書入力手順で入力された文書から、タグ情報を抽出し、メモリに格納するタグ情報抽出手順と；
上記文書入力手順で入力された文書の中から、日時情報を抽出し、メモリに格納する日時情報抽出手順と；
上記日時情報抽出手順で抽出された日時情報に基づいて、ブロックとしてのまとまり程度を示す上記タグの重みを求め、上記兄弟タグ間の類似度を求め、この求めた類似度と、上記求めた兄弟タグの重みとに応じて、兄弟タグのブロック度を求め、ブロック度をメモリに格納するブロック認識手順と；
をコンピュータに実行させるプログラム。