JP2007188330A

JP2007188330A - 構造化文書抽出装置、構造化文書抽出方法および構造化文書抽出プログラム

Info

Publication number: JP2007188330A
Application number: JP2006006443A
Authority: JP
Inventors: Takahiro Kawamura; 隆浩川村; Masumi Inaba; 真純稲葉; Shinichi Nagano; 伸一長野; Tetsuo Hasegawa; 哲夫長谷川
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-01-13
Filing date: 2006-01-13
Publication date: 2007-07-26
Anticipated expiration: 2026-01-13
Also published as: US20070179937A1; JP4542993B2; US8037403B2

Abstract

【課題】様々な情報を利用することにより、より適切な文書を抽出することのできる構造化文書抽出装置を提供する。
【解決手段】ネットワークを介してアクセス可能な構造化文書に本文として含まれる本文情報を特定する本文情報特定手段１１０と、構造化文書に付与されたデータであって、当該構造化文書の本文情報に関するデータおよび当該構造化文書と他の構造化文書との間のリンク関係を示すデータを含むメタデータを抽出するメタデータ抽出手段１０６と、
ネットワークを介してアクセス可能な、複数の構造化文書から検索対象となる複数の対象文書を特定する対象文書特定手段１０４と、本文情報とメタデータとに基づいて、複数の前記対象文書それぞれの重要度を算出する重要度算出手段１２０とを備えた。
【選択図】図２

Description

本発明は、ネットワークを介してアクセス可能な構造化文書を抽出する構造化文書抽出装置、構造化文書抽出方法および構造化文書抽出プログラムに関するものである。

従来から、Ｗｅｂ上に存在する文書へのｐ／ｎ判定やホットトピック抽出の技術が知られている。例えば、非特許文献１には、インターネット上のブログ、電子メール、ニュースなどから大規模な文書ストリームを得る技術が開示されている。また、例えば特許文献１には、文書中から所定の情報を抽出することにより情報ダイジェストを生成する技術が開示されている。

特開２００５−１８２８０３号公報斉藤和己、他３名、"ブログ空間の主要トピック抽出"人工知能学会研究会資料ＳＩＧ−ＫＢＳ−Ａ５０１−０２、ｐｐ．５−１０、２００５

従来の文書抽出においては、対象文が予め用意されたコーパスである場合が多く、ユーザがＷｅｂをブラウズしながらさまざまな意見に出会う状況は想定されていない。しかし、実際には、例えばブログにおける意見において、多くのトラックバックによって賛意が付けられているものと、１つもトラックバックが付けられていないものとではユーザの心理に与える影響は異なると考えられる。

さらに、多くのリンクが付けられているとしてもリンクが付けられたのが１年前なのか今日なのかによっても、ユーザの心理に与える影響は異なると考えられ、このような情報を考慮した文書抽出技術の提供が望まれている。

本発明は、上記に鑑みてなされたものであって、様々な情報を利用することにより、より適切な文書を抽出することのできる構造化文書抽出装置を提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、構造化文書抽出装置であって、ネットワークを介してアクセス可能な構造化文書に本文として含まれる本文情報を特定する本文情報特定手段と、前記構造化文書に付与されたデータであって、当該構造化文書の前記本文情報に関するデータおよび当該構造化文書と他の構造化文書との間のリンク関係を示すデータを含むメタデータを抽出するメタデータ抽出手段と、前記ネットワークを介してアクセス可能な、複数の前記構造化文書から検索対象となる複数の対象文書を特定する対象文書特定手段と、前記本文情報特定手段が特定した前記本文情報と、前記メタデータ抽出手段が抽出した前記メタデータとに基づいて、前記対象文書特定手段により特定された複数の前記対象文書それぞれの重要度を算出する重要度算出手段とを備えたことを特徴とする。

また、本発明の他の形態は、構造化文書抽出方法であって、ネットワークを介してアクセス可能な構造化文書に本文として含まれる本文情報を特定する本文情報特定ステップと、前記構造化文書に付与されたデータであって、当該構造化文書の前記本文情報に関するデータおよび当該構造化文書と他の構造化文書との間のリンク関係を示すデータを含むメタデータを抽出するメタデータ抽出ステップと、前記ネットワークを介してアクセス可能な、複数の前記構造化文書から検索対象となる複数の対象文書を特定する対象文書特定ステップと、前記本文情報特定ステップにおいて特定した前記本文情報と、前記メタデータ抽出ステップにおいて抽出した前記メタデータとに基づいて、前記対象文書特定ステップにおいて特定された複数の前記対象文書それぞれの重要度を算出する重要度算出ステップとを有することを特徴とする。

また、本発明の他の形態は、構造化文書抽出処理をコンピュータに実行させる構造化文書抽出プログラムであって、ネットワークを介してアクセス可能な構造化文書に本文として含まれる本文情報を特定する本文情報特定ステップと、前記構造化文書に付与されたデータであって、当該構造化文書の前記本文情報に関するデータおよび当該構造化文書と他の構造化文書との間のリンク関係を示すデータを含むメタデータを抽出するメタデータ抽出ステップと、前記ネットワークを介してアクセス可能な、複数の前記構造化文書から検索対象となる複数の対象文書を特定する対象文書特定ステップと、前記本文情報特定ステップにおいて特定した前記本文情報と、前記メタデータ抽出ステップにおいて抽出した前記メタデータとに基づいて、前記対象文書特定ステップにおいて特定された複数の前記対象文書それぞれの重要度を算出する重要度算出ステップとを有することを特徴とする。

本発明にかかる構造化文書抽出装置は、本文情報特定手段が、ネットワークを介してアクセス可能な構造化文書に本文として含まれる本文情報を特定し、メタデータ抽出手段が、構造化文書に付与されたデータであって、当該構造化文書の本文情報に関するデータおよび当該構造化文書と他の構造化文書との間のリンク関係を示すデータを含むメタデータを抽出し、対象文書特定手段が、ネットワークを介してアクセス可能な、複数の構造化文書から検索対象となる複数の対象文書を特定し、重要度算出手段が、本文情報特定手段が特定した本文情報と、メタデータ抽出手段が抽出したメタデータとに基づいて、対象文書特定手段により特定された複数の対象文書それぞれの重要度を算出するので、様々な情報を利用し、より適切な文書を抽出することができるという効果を奏する。

また、本発明の他の形態にかかる構造化文書抽出方法は、本文情報特定ステップにおいて、ネットワークを介してアクセス可能な構造化文書に本文として含まれる本文情報を特定し、メタデータ抽出ステップにおいて、構造化文書に付与されたデータであって、当該構造化文書の本文情報に関するデータおよび当該構造化文書と他の構造化文書との間のリンク関係を示すデータを含むメタデータを抽出し、対象文書特定ステップにおいて、ネットワークを介してアクセス可能な、複数の構造化文書から検索対象となる複数の対象文書を特定し、重要度算出ステップにおいて、本文情報特定ステップにおいて特定した本文情報と、メタデータ抽出ステップにおいて抽出したメタデータとに基づいて、対象文書特定ステップにおいて特定された複数の対象文書それぞれの重要度を算出するので、様々な情報を利用し、より適切な文書を抽出することができるという効果を奏する。

また、本発明の他の形態にかかる構造化文書抽出プログラムは、本文情報特定ステップにおいて、ネットワークを介してアクセス可能な構造化文書に本文として含まれる本文情報を特定し、メタデータ抽出ステップにおいて、構造化文書に付与されたデータであって、当該構造化文書の本文情報に関するデータおよび当該構造化文書と他の構造化文書との間のリンク関係を示すデータを含むメタデータを抽出し、対象文書特定ステップにおいて、ネットワークを介してアクセス可能な、複数の構造化文書から検索対象となる複数の対象文書を特定し、重要度算出ステップにおいて、本文情報特定ステップにおいて特定した本文情報と、メタデータ抽出ステップにおいて抽出したメタデータとに基づいて、対象文書特定ステップにおいて特定された複数の対象文書それぞれの重要度を算出するので、様々な情報を利用し、より適切な文書を抽出することができるという効果を奏する。

以下に、本発明にかかる構造化文書抽出装置、構造化文書抽出方法および構造化文書抽出プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。

図１は、実施の形態にかかる構造化文書抽出装置１０を含む構造化文書抽出システム１の全体構成を示す図である。構造化文書抽出装置１０は、インターネットなどのネットワーク上の構造化文書の中からユーザにより指定された検索条件に合致する構造化文書、すなわち対象文書を抽出し、重要度の高い順にソートし、ユーザに提供する。構造化文書の一例として、ＸＭＬにより記述されたブログを対象とする場合について説明する。

図２は、構造化文書抽出装置１０の機能構成を示すブロック図である。構造化文書抽出装置１０は、検索条件取得部１００と、構造化文書抽出部１０２と、対象文書抽出部１０４と、メタデータ抽出部１０６と、メタデータ解析部１０８と、本文情報抽出部１１０と、本文情報解析部１１２と、重要度算出部１２０と、抽出結果作成部１２２と、オントロジーデータベース（ＤＢ）１３０と、履歴ＤＢ１３２とを備えている。

検索条件取得部１００は、入出力装置を介してユーザから検索条件を取得する。構造化文書抽出部１０２は、インターネットを介して構造化文書を取得する。対象文書抽出部１０４は、検索条件取得部１００が取得した検索条件に合致する対象文書を、構造化文書抽出部１０２が取得した構造化文書の中から抽出する。

オントロジーＤＢ１３０は、構造化文書抽出装置１０が利用する情報を保持している。図３は、オントロジーＤＢ１３０が保持する情報の一例を示す図である。オントロジーＤＢ１３０は、複数の概念を格納している。また、各概念のリンク関係を保持している。図３に示す例においては、ＨＤＤ、ＩＤＥおよびＳＣＳＩの３つの概念が格納されている。ＩＤＥおよびＳＣＳＩはいずれもＨＤＤに含まれる概念である。このリンク関係に基づいて、各概念の包含関係などの相互の関係を特定することができる。

さらに、各概念には、インスタンス（具体名）が対応付けられている。例えば、ＨＤＤには、ＡＢ社製、ＣＤ社製というインスタンスが対応付けられている。なお、このリンク関係を利用することにより、例えば、ＪＫ社製は、ＨＤＤには対応づけられていないが、ＪＫ社製が対応付けられているＳＣＳＩのリンク関係から、ＪＫ社製は、ＨＤＤのインスタンスでもあることが特定できる。

メタデータ抽出部１０６は、構造化文書抽出部１０２が取得した構造化文書からメタデータを抽出する。すなわち、対象文書およびこれ以外の構造化文書それぞれからメタデータを抽出する。

ここで、メタデータとは、構造化文書に付与された情報であり、構造化文書に本文として含まれる情報を説明するための情報である。具体的には、サイトまたは記事の内容を説明するための情報である。メタデータについては後述する。

メタデータ解析部１０８は、メタデータを解析する。具体的には、メタデータから所定のデータを特定する。なお、このとき、オントロジーＤＢ１３０に格納されている情報を適宜利用する。

本文情報抽出部１１０は、構造化文書抽出部１０２が取得した構造化文書から本文情報を抽出する。すなわち、対象文書およびこれ以外の構造化文書それぞれから本文情報を抽出する。本文情報については後述する。

本文情報解析部１１２は、本文情報を解析する。具体的には、本文情報から所定の内容を特定する。なお、このとき、オントロジーＤＢ１３０に格納されている情報を適宜利用する。

履歴ＤＢ１３２は、メタデータ解析部１０８および本文情報解析部１１２による解析結果を保持している。すなわち、所定の検索条件に対して利用された解析結果を、解析日時に対応付けて保持している。さらに、この解析結果から得られた情報を保持している。

図４は、履歴ＤＢ１３２が保持する情報の一例を示す図である。履歴ＤＢ１３２は、例えば、属性と著者情報とを対応付けて保持している。例えば、所定の属性に対応する複数の構造化文書の著者がＢであり、この構造化文書に多数の構造化文書がリンクされている場合には、著者Ｂの著者情報とこの属性とを対応付けて保持する。

リンクの多い構造化文書は、ユーザからの支持の多い文書である場合が多い。履歴ＤＢ１３２がこのような文書の著者情報を保持するので、著者情報から、ユーザから支持の多い文書を特定することができる。

重要度算出部１２０は、対象文書抽出部１０４が抽出した各対象文書の重要度を算出する。さらに、重要度算出部１２０は、対象文書に付与された各コメントの重要度を算出する。このとき、メタデータ解析部１０８による解析結果、本文情報解析部１１２による解析結果を利用する。

図５は、構造化文書のデータ構成を説明するための図である。図５に示すように構造化文書は、本文と、本文に対して付与されるメタデータとを含んでいる。また、メタデータは複数の情報を含んでいる。本文およびメタデータの各情報は、タグにより識別される。本文情報とは、例えば、ニュース記事や、ブログの本文など、構造化文書の著者により作成された内容である。

メタデータには、本文のタイトル、著者および作成日および要約などが含まれている。さらに、本文に対して寄せられた他の著者の意見などのコメント、コメントの著者およびコメントの記入日も含まれている。なお、メタデータに含まれるこのような情報は具体的には、ＲＳＳ（ＲＤＦＳｉｔｅＳｕｍｍａｒｙ）に含まれている。

また、メタデータには、当該構造化文書と他の構造化文書とのリンク関係を示す情報も含まれている。例えば、構造化文書が他の構造化文書からリンクされている場合には、その旨を示す情報および他の構造化文書をアクセスするための情報が含まれている。このような情報は具体的には、トラックバック・ピングの情報として含まれている。

図６は、構造化文書の表示例を示す図である。「ミネラルウォーター」というタイトルで、「ミネラルウォーターは、…」という本文が含まれている。さらに、この本文に対するトラックバックとコメントが付与されている。

図７は、図６に示す構造化文書の記述例を示す図である。本文として、図６に示す本文の内容が記載されている。さらに、メタデータには、タイトルが記載されている。メタデータには、さらに、この本文の著者と、本文の作成日とが記載されている。なお、メタデータに含まれるこれらの情報は、具体的には、ＲＳＳに記載されている。さらに、コメントおよびトラックバックがメタデータとして付与されている。

図８は、構造化文書抽出装置１０による構造化文書抽出処理を示すフローチャートである。まず、構造化文書抽出装置１０の検索条件取得部１００は、検索条件を取得する（ステップＳ１００）。次に、対象文書抽出部１０４は、対象文書を抽出する（ステップＳ１０２）。次に、メタデータ抽出部１０６は、構造化文書抽出部１０２が取得した各構造化文書のメタデータを抽出する（ステップＳ１０４）。次に、メタデータ解析部１０８は、メタデータ抽出部１０６が抽出したメタデータを解析する（ステップＳ１０６）。

さらに、本文情報抽出部１１０は、構造化文書抽出部１０２が取得した各構造化文書の本文情報を抽出する（ステップＳ１０８）。次に、本文情報解析部１１２は、本文情報抽出部１１０が抽出したメタデータを解析する（ステップＳ１１０）。

次に、重要度算出部１２０は、メタデータ解析部１０８による解析結果、本文情報解析部１１２による解析結果および履歴ＤＢ１３２が保持する情報に基づいて、各対象文書の重要度を算出する（ステップＳ１１２）。次に、抽出結果作成部１２２は、重要度算出部１２０により算出された重要度に基づいて、抽出結果を作成する（ステップＳ１１４）。

次に、メタデータ解析部１０８による解析結果および本文情報解析部１１２による解析結果に基づいて、履歴ＤＢ１３２が保持する情報を更新する（ステップＳ１１６）。以上で、構造化文書抽出装置１０による構造化文書抽出処理が完了する。

なお、ステップＳ１０４およびステップＳ１０６と、ステップＳ１０８およびステップＳ１１０の順番は本例に限定されるものではなく、例えば、ステップＳ１０８およびステップＳ１１０をステップＳ１０４およびステップＳ１０６よりも先に行ってもよい。

ここで、図９から図１４を参照しつつ、重要度算出処理について詳述する。メタデータ解析部１０８は、トラックバック・ピングにより対象文書にリンクしている関連文書に関連文書の著者情報がリンク情報として付与されているか否かをＲＳＳに基づいて特定する。そして、重要度算出部１２０は、関連文書の著者情報の有無に基づいて対象文書の重要度を算出する。

図９に示す例においては、対象文書１および対象文書２には、それぞれ関連文書１および関連文書２がリンクされている。しかし、関連文書２には、リンク情報として著者情報が付与されていない。この場合には、対象文書１に対し、対象文書２に比べて高い重要度を算出する。このように、著者が公開されている関連文書がリンクしている対象文書の重要度を高くすることにより、より適切な対象文書の重要度を高くすることができる。

また、メタデータ解析部１０８は、トラックバック・ピングにより対象文書にリンクしている関連文書の作成日をＲＳＳから特定する。そして、重要度算出部１２０は、関連文書の作成日が新しいほど、より高い重要度を算出する。

ただし、図１０に示す例のように、対象文書の作成日が古い場合であっても、リンクしている関連文書の作成日が比較的新しい場合には、長い期間参照されている文書であるので、対象文書の重要度を高くする。

例えば、図１０に示す例においては、対象文書１と対象文書２の作成日は同一である。しかし、対象文書２の関連文書２は、いずれも２００４年１０月に記載されたものであり、以降に作成された関連文書は、対象文書２にリンクしていない。これに対し、対象文書１の関連文書１は、２００４年１０月から２００６年１月まで定期的にリンクされている。この場合には、対象文書１に対し、対象文書２に比べて高い重要度が算出される。

また他の例としては、メタデータ解析部１０８はさらにＲＳＳから対象文書の作成日を特定する。そして、重要度算出部１２０は、対象文書の作成日と関連文書の作成日の間の期間が長いほど、より高い重要度を算出してもよい。

また、対象文書の作成日から例えば１日、１時間など所定の期間内に作成された関連情報が多数存在する場合には、対象文書の内容は議論が深まった内容であり、ホットな内容である可能性が高い。そこで、所定期間内に作成された関連文書の数が予め定められた規定数以上存在する場合には、存在しない場合に比べてより高い重要度を算出する。これにより、ホットな内容に対して、より高い重要度を算出することができる。なお、規定数は絶対値であってもよく、また全関連文書の数に対する相対的な値であってもよい。

また、メタデータ解析部１０８は、ＲＳＳから、本文情報に対するコメントを特定する。そして、重要度算出部１２０は、異なる著者からのコメントの数に基づいて、対象文書の重要度を算出する。

具体的には、まず対象文書に付与されたＲＳＳに基づいて、本文に対するコメントおよびその著者を特定する。そして、異なる著者からのコメントの数をカウントする。この数が多い対象文書は、ユーザからの反響が大きい文書であるので、これ以外の対象文書に比べて高い重要度を算出する。

例えば、図１１に示す例においては、対象文書１には、コメント１からコメント４までの４つのコメントが付与されている。ただし、コメント１とコメント２の著者は同一である。したがって、対象文書１に対する著者の異なるコメントの数は、３となる。

また、メタデータ解析部１０８は、対象文書に付与されたＲＳＳに基づいて、対象文書の作成日を特定する。さらに、対象文書の本文に対するコメントの記入日を特定する。そして、重要度算出部１２０は、対象文書の作成日およびコメントの記入日に基づいて、対象文書の重要度を特定する。

具体的には、対象文書の作成日が古いにもかかわらず、定期的にコメントが付与されている対象文書は、長い期間興味を持たれ続けている文書であると判断し、最近のコメントがついていない対象文書に比べて高い重要度を算出する。

例えば、対象文書に付与されたコメントの数を、最も古いコメントの記入日から最も新しいコメントの記入日までの期間で割った値を算出する。この結果得られた値が大きいほど、対象文書に対し高い重要度を算出する。これにより、より適切な重要度を算出することができる。

また、重要度算出部１２０は、他の構造化文書とのリンク関係を示す情報が含まれるか否かに基づいて重要度を算出する。具体的には、他の構造化文書とのリンク関係を示すトラックバック・ピングが付与されていない対象文書に対し、他の構造化文書とのリンク関係を示す情報が含まれている対象文書に比べて低い重要度を算出する。

また、図１２に示す例のように、第１対象文書のメタデータにおいて第２対象文書を含む複数の構造化文書が第１対象文書に関連付けられており第２対象文書の前記メタデータにおいて複数の構造化文書が第２対象文書に関連付けられているとする。そして、第２対象文書に関連付けられている構造化文書の数が第１対象文書に関連付けられている構造化文書の数に比べて多い場合には、第２対象文書に対し第１対象文書に比べて高い重要度を算出する。このような場合には、第１対象文書ではなく、第２対象文書が話題の軸になっていると考えられるためである。

また、メタデータ解析部１０８は、対象文書に付与されているＲＳＳから対象文書の著者を特定する。そして、重要度算出部１２０は、対象文書の著者に基づいて、重要度を算出する。

例えば、図１３に示すように、著者Ａにより作成された対象文書１が複数の対応文書２に関連付けられているとする。さらに、複数の対象文書２の著者はいずれもＢであるとする。また、対象文書２が複数の対応文書１に関連付けられているとする。

このように、２人の著者の構造化文書が互いにリンクしあっている場合には、２人の議論が深まっていることが予想される。すなわち、このような著者により作成された構造化文書の重要度は高いと予想される。

そこで、この場合には、対象文書１の著者Ａおよび対象文書２の著者Ｂを示す著者情報を履歴ＤＢ１３２に登録しておく。そして、対象文書の著者が著者Ａまたは著者Ｂである場合には、他の著者の対象文書に比べて高い重要度を算出する。これにより、互いにリンクしあっている構造化文書の著者により作成された対象文書に対し、これ以外の対象文書に比べて高い重要度を算出することができる。

また他の例としては、１つの対象文書に対し、複数の著者からのコメントが付与されているとする。この場合にも、前述のように履歴ＤＢ１３２に登録されている著者のコメントに対し、他の著者のコメントに比べてより高い重要度を算出してもよい。

また、メタデータ解析部１０８は、メタデータにおいて関連付けられている関連文書の数が予め設定された規定値以上となる構造化文書であって、かつ著者が同一の構造化文書の数を特定する。そして、特定した構造化文書の数が予め定めた規定数以上である場合に、この構造化文書の著者情報を履歴ＤＢ１３２に登録する。

履歴ＤＢ１３２に登録された著者の構造化文書は、参照されることが多く重要であると考えられる。そこで、重要度算出部１２０は、履歴ＤＢ１３２に登録された著者情報に示される著者の対象文書に対し、著者情報に示される著者以外の著者の対象文書に比べて高い重要度を算出する。これにより、所定の内容に関して多く意見を述べている著者の対象文書に対してより高い重要度を算出することができる。

また、メタデータ解析部１０８は、本文情報に記載された内容が、オントロジーＤＢ１３０において同一の属性に対応付けられている構造化文書であって著者が同一の構造化文書を検索する。そして、同一属性の内容であって、かつ著者が同一の構造化文書の数が予め定められた規定数以上である場合には、この構造化文書の著者情報を属性に対応付けて履歴ＤＢ１３２に登録する。

履歴ＤＢ１３２に登録された著者は、所定の属性に関する内容の知識が多い人物であると考えられる。そこで、重要度算出部１２０は、履歴ＤＢ１３２において所定の属性に対応付けられている著者情報に示される著者による、対応する属性の対象文書に対し、この著者以外の著者の対象文書に比べて高い重要度を算出する。これにより、所定の属性に対する内容について多く意見を述べている著者の対象文書に対してより高い重要度を算出することができる。

また、メタデータ解析部１０８は、コテンツに付与されたメタデータに基づいて、メタデータに他の構造化文書とのリンク関係を示すデータが含まれず、かつ著者が同一の構造化文書を特定する。そして、特定した構造化文書の数が予め定めた規定数以上である場合に、この構造化文書の著者情報を履歴ＤＢ１３２に登録する。

重要度算出部１２０は、履歴ＤＢ１３２に登録された著者情報に示される著者の対象文書に対し、著者情報に示される著者以外の著者の対象文書に比べて低い重要度を算出する。これにより、スパムを排除することができる。

また、他の例としては、履歴ＤＢ１３２に登録された著者情報に示される著者によるコメントに対し、他の著者のコメントに比べて低い重要度を算出してもよい。

また、本文情報抽出部１１０は、対象文書に関連付けられている関連文書の本文情報にこの対象文書を支持する記載が含まれるか否かを特定する。支持する記載か否かは、本文情報における肯定的表現および否定的表現を抽出することにより特定する。そして、重要度算出部１２０は、対象文書を支持する記載を含む関連文書に対応する対象文書に対し、支持する記載を含まない関連文書に対応する対象文書に比べて高い重要度を算出する。

さらに、対象文書に複数の前記関連文書が関連付けられている場合には、複数の関連文書それぞれの本文情報に当該対象文書を支持する記載が含まれるか否かに基づいて、重要度を算出する。具体的には、対象文書を支持する記載が含まれる関連文書の数が予め定められた規定数以上である対象文書に対し、規定数未満である対象文書に比べて高い重要度を算出する。

他の例としては、対象文書を支持する記載が含まれる関連情報の数が多いほど高い重要度を算出してもよい。

また、重要度算出部１２０は、構造化文書の本文情報に対する複数のコメントに基づいて、重要度を算出する。具体的には、メタデータに基づいて特定された、本文情報に対するコメントにおいて、同一の意見が所定の割合以上存在する場合には、この意見と逆の意見に対し、同一の意見に比べて高い重要度を算出する。このような意見は、他の意見に比べて注目すべき内容だからである。

図１４に示す例においては、対象文書に対する複数のコメントのうちコメント３のみ対象文書に反対する意見を記載している。したがって、この場合には、コメント３に対し、他のコメントに比べて高い重要度を算出する。

図１５は、構造化文書抽出装置１０のハードウェア構成を示す図である。構造化文書抽出装置１０は、ハードウェア構成として、構造化文書抽出装置１０における構造化文書抽出処理を実行する構造化文書抽出プログラムなどが格納されているＲＯＭ５２と、ＲＯＭ５２内のプログラムに従って構造化文書抽出装置１０の各部を制御するＣＰＵ５１と、構造化文書抽出装置１０の制御に必要な種々のデータを記憶するＲＡＭ５３と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５７と、各部を接続するバス６２とを備えている。

先に述べた構造化文書抽出装置１０における構造化文書抽出プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フロッピー（Ｒ）ディスク（ＦＤ）、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録されて提供されてもよい。

この場合には、構造化文書抽出プログラムは、構造化文書抽出装置１０において上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。

また、本実施の形態の構造化文書抽出プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。

以上、本発明を実施の形態を用いて説明したが、上記実施の形態に多様な変更または改良を加えることができる。

構造化文書抽出装置１０を含む構造化文書抽出システム１の全体構成を示す図である。構造化文書抽出装置１０の機能構成を示すブロック図である。オントロジーＤＢ１３０が保持する情報の一例を示す図である。履歴ＤＢ１３２が保持する情報の一例を示す図である。構造化文書のデータ構成を説明するための図である。構造化文書の表示例を示す図である。図６に示す構造化文書の記述例を示す図である。構造化文書抽出装置１０による構造化文書抽出処理を示すフローチャートである。重要度算出処理について説明するための図である。重要度算出処理について説明するための図である。重要度算出処理について説明するための図である。重要度算出処理について説明するための図である。重要度算出処理について説明するための図である。重要度算出処理について説明するための図である。構造化文書抽出装置１０のハードウェア構成を示す図である。

符号の説明

１０構造化文書抽出装置
５１ＣＰＵ
５２ＲＯＭ
５３ＲＡＭ
５７通信Ｉ／Ｆ
６２バス
１００検索条件取得部
１０２構造化文書抽出部
１０４対象文書抽出部
１０６メタデータ抽出部
１０８メタデータ解析部
１１０本文情報抽出部
１１２本文情報解析部
１２０重要度算出部
１２２抽出結果作成部
１３０オントロジーＤＢ
１３２履歴ＤＢ

Claims

ネットワークを介してアクセス可能な構造化文書に本文として含まれる本文情報を特定する本文情報特定手段と、
前記構造化文書に付与されたデータであって、当該構造化文書の前記本文情報に関するデータおよび当該構造化文書と他の構造化文書との間のリンク関係を示すデータを含むメタデータを抽出するメタデータ抽出手段と、
前記ネットワークを介してアクセス可能な、複数の前記構造化文書から検索対象となる複数の対象文書を特定する対象文書特定手段と、
前記本文情報特定手段が特定した前記本文情報と、前記メタデータ抽出手段が抽出した前記メタデータとに基づいて、前記対象文書特定手段により特定された複数の前記対象文書それぞれの重要度を算出する重要度算出手段と
を備えたことを特徴とする構造化文書抽出装置。
前記メタデータは、前記リンク関係を示すデータとして、トラックバックを含むことを特徴とする請求項１に記載の構造化文書抽出装置。
前記メタデータは、前記本文情報に関する情報として、サイトまたは記事の内容を説明する付加情報を含むことを特徴とする請求項１に記載の構造化文書抽出装置。
前記対象文書に付与された前記メタデータから、前記対象文書に関連付けられている関連文書に付与されたメタデータに当該関連文書の著者情報が含まれるか否かを特定するメタデータ解析手段をさらに備え、
前記文書重要度算出手段は、前記関連文書の前記メタデータに前記著者情報が含まれている前記対象文書に対し、前記著者情報が含まれていない前記対象文書に比べて高い重要度を算出することを特徴とする請求項１に記載の構造化文書抽出装置。
前記対象文書に付与された前記メタデータから、当該対象文書の作成日を特定し、さらに前記対象文書に関連付けられている関連文書に付与された前記メタデータから、当該関連文書の作成日を特定するメタデータ解析手段をさらに備え、
前記文書重要度算出手段は、前記対象文書の作成日と前記関連文書の作成日の間の長さに基づいて、前記対象文書の重要度を算出することを特徴とする請求項１に記載の構造化文書抽出装置。
前記メタデータ解析手段は、前記対象文書の前記メタデータにおいて前記対象文書に複数の前記関連文書が関連付けられている場合に、複数の前記関連文書それぞれの作成日を特定し、
前記文書重要度算出手段は、前記対象文書の作成日から所定期間内の作成日に作成された前記関連文書の数が予め定められた規定数以上である前記対象文書に対し、前記規定数未満である前記対象文書に比べて高い重要度を算出することを特徴とする請求項５に記載の構造化文書抽出装置。
前記対象文書に付与された前記メタデータに基づいて、当該対象文書の前記本文情報に対する意見であって、著者の異なる意見の数をカウントするメタデータ解析手段をさらに備え、
前記文書重要度算出手段は、前記本文情報に含まれる異なる著者による意見の数に基づいて、前記対象文書の重要度を算出することを特徴とする請求項１に記載の構造化文書抽出装置。
前記メタデータから、前記対象文書の作成日を特定し、さらに前記対象文書の前記本文情報に対する意見の記入日を特定するメタデータ解析手段をさらに備え、
前記文書重要度算出手段は、前記メタデータ解析手段により特定された記入日に基づいて、前記対象文書の重要度を算出することを特徴とする請求項１に記載の構造化文書抽出装置。
前記メタデータ解析手段は、さらに前記対象文書に対する意見の数を、当該意見のうち最も古い意見の記入日から最も新しい意見の記入日までの期間で割った値を算出し、
前記文書重要度算出手段は、前記文書解析手段により得られた値が大きいほど、前記対象文書に対し、高い重要度を算出することを特徴とする請求項８に記載の構造化文書抽出装置。
前記文書重要度算出手段は、前記メタデータに他の構造化文書とのリンク関係を示す情報が含まれていない前記対象文書に対し、前記メタデータに他の構造化文書とのリンク関係を示す情報が含まれている前記対象文書に比べて低い重要度を算出することを特徴とする請求項１に記載の構造化文書抽出装置。
前記文書重要度算出手段は、第１対象文書の前記メタデータにおいて第２対象文書を含む複数の構造化文書が前記第１対象文書に関連付けられており、前記第２対象文書の前記メタデータにおいて複数の構造化文書が前記第２対象文書に関連付けられており、かつ前記第２対象文書に関連付けられている前記構造化文書の数が前記第１対象文書に関連付けられている前記構造化文書の数に比べて多い場合には、前記第２対象文書に対し前記第１対象文書に比べて高い重要度を算出することを特徴とする請求項１に記載の構造化文書抽出装置。
前記構造化文書に付与された前記メタデータから、当該構造化文書の著者を示す著者情報を特定するメタデータ解析手段をさらに備え、
前記文書重要度算出手段は、第１の著者の第１対象文書の前記メタデータにおいて前記第１対象文書が第２著者の複数の第２対象文書に関連付けられており、かつ前記第２構造化文書の前記メタデータにおいて前記第２対象文書が複数の前記第１対象文書に関連付けられている場合に、前記第１の著者および前記第２の著者の著者情報を保持する著者情報保持手段と
をさらに備え、
前記文書重要度算出手段は、前記著者情報保持手段によって保持される前記著者情報に示される著者の前記対象文書に対し、前記著者情報に示される著者以外の著者の前記対象文書に比べて高い重要度を算出することを特徴とする請求項１に記載の構造化文書抽出装置。
前記メタデータに基づいて、前記メタデータにおいて関連付けられている関連文書の数が予め設定された規定値以上となる構造化文書であって、著者が同一の構造化文書の数を特定するメタデータ解析手段と、
前記メタデータ解析手段により特定された前記構造化文書の数が予め定めた規定数以上である場合に、当該構造化文書の前記著者情報を保持する著者情報保持手段と
をさらに備え、
前記文書重要度算出手段は、前記著者情報保持手段によって保持される前記著者情報に示される著者の前記対象文書に対し、前記著者情報に示される著者以外の著者の前記対象文書に比べて高い重要度を算出することを特徴とする請求項１に記載の構造化文書抽出装置。
互いに関連する複数の内容を各属性に対応付けて保持する関連内容保持手段と、
前記本文情報に記載された内容を特定する本文情報解析手段と、
前記メタデータに基づいて、著者が同一の構造化文書を検索するメタデータ解析手段と、
前記構造化文書の前記本文情報に記載された内容が前記関連内容保持手段において同一の属性に対応付けられている構造化文書であって、かつ著者が同一の構造化文書の数が予め定められた規定数以上である場合に、当該構造化文書の前記著者情報を前記属性に対応付けて保持する著者情報保持手段と
をさらに備え、
前記文書重要度算出手段は、前記著者情報保持手段おいて検索対象の属性に対応付けられている前記著者情報に示される著者の前記対象文書に対し、前記著者情報に示される著者以外の著者の前記対象文書に比べて高い重要度を算出することを特徴とする請求項１に記載の構造化文書抽出装置。
前記構造化文書に付与された前記メタデータに基づいて、前記メタデータに他の構造化文書とのリンク関係を示すデータが含まれず、かつ著者が同一の構造化文書を特定するメタデータ解析手段と、
前記メタデータ解析手段により特定された前記構造化文書の数が予め定めた規定数以上である場合に、当該構造化文書の著者情報を保持する著者情報保持手段と
をさらに備え、
前記文書重要度算出手段は、前記著者情報保持手段によって保持される前記著者情報に示される著者の前記対象文書に対し、前記著者情報に示される著者以外の著者の前記対象文書に比べて低い重要度を算出することを特徴とする請求項１に記載の構造化文書抽出装置。
前記対象文書に関連付けられている関連文書の前記本文情報に当該対象文書を支持する記載が含まれるか否かを特定する本文情報解析手段をさらに備え、
前記文書重要度算出手段は、前記対象文書を支持する記載を含む前記関連文書に対応する前記対象文書に対し、支持する記載を含まない前記関連文書に対応する前記対象文書に比べて高い重要度を算出することを特徴とする請求項１に記載の構造化文書抽出装置。
前記本文情報解析手段は、前記メタデータにおいて前記対象文書に複数の前記関連文書が関連付けられている場合に、複数の前記関連文書それぞれの前記本文情報に当該対象文書を支持する記載が含まれるか否かを特定し、
前記文書重要度算出手段は、前記対象文書を支持する記載が含まれる前記関連文書の数が予め定められた規定数以上である前記対象文書に対し、規定数未満である前記対象文書に比べて高い重要度を算出することを特徴とする請求項１６に記載の構造化文書抽出装置。
前記メタデータから、前記構造化文書の前記本文情報に対する複数の意見を特定し、特定した意見の中から同一の内容の意見と、前記同一の内容と逆の内容の意見とを特定するメタデータ解析手段と、
前記対象文書の前記本文情報に対する複数の意見のうち所定の割合以上が所定の内容を含む場合に、当該所定の内容と逆の意見に対し、前記所定の内容に比べて高い重要度を算出する意見重要度算出手段と
をさらに備えたことを特徴とする請求項１に記載の構造化文書抽出装置。
前記メタデータから、前記構造化文書の著者を示す著者情報を特定するメタデータ解析手段と、
第１の著者の第１対象文書の前記メタデータおいて前記第１対象文書が第２著者の複数の第２対象文書に関連付けられており、かつ前記第２構造化文書の前記メタデータにおいて前記第２の対象文書が複数の前記第１対象文書に関連付けられている場合に、前記第１の著者および前記第２の著者の前記著者情報を保持する著者情報保持手段と、
前記メタデータから、前記対象文書の前記本文情報に対する複数の意見を特定し、特定した各意見の著者を特定するメタデータ解析手段と
をさらに備え、
前記意見重要度算出手段は、前記対象文書の前記本文情報に含まれる複数の意見のうち前記著者情報保持手段により保持される前記著者情報に対応する著者の意見に対し、前記著者情報に対応する著者以外の著者の意見に比べて高い重要度を算出することを特徴とする請求項１に記載の構造化文書抽出装置。
前記メタデータから、前記構造化文書の著者を示す著者情報を特定するメタデータ解析手段と、
前記メタデータに他の構造化文書とのリンク関係を示すデータが含まれず、かつ前記著者情報が同一の構造化文書の数が予め定めた規定数以上である場合に、当該著者情報を保持する著者情報保持手段と
をさらに備え、
前記メタデータ解析手段は、さらに前記対象文書の前記メタデータから前記本文情報に対する複数の意見それぞれを記入した著者を示す著者情報を特定し、
前記意見重要度算出手段は、前記本文情報に対する複数の意見のうち前記著者情報保持手段により保持されている前記著者情報に示される著者の意見に対し、前記著者情報に示される著者以外の著者の意見に比べて低い重要度を算出することを特徴とする請求項１に記載の構造化文書抽出装置。
ネットワークを介してアクセス可能な構造化文書に本文として含まれる本文情報を特定する本文情報特定ステップと、
前記構造化文書に付与されたデータであって、当該構造化文書の前記本文情報に関するデータおよび当該構造化文書と他の構造化文書との間のリンク関係を示すデータを含むメタデータを抽出するメタデータ抽出ステップと、
前記ネットワークを介してアクセス可能な、複数の前記構造化文書から検索対象となる複数の対象文書を特定する対象文書特定ステップと、
前記本文情報特定ステップにおいて特定した前記本文情報と、前記メタデータ抽出ステップにおいて抽出した前記メタデータとに基づいて、前記対象文書特定ステップにおいて特定された複数の前記対象文書それぞれの重要度を算出する重要度算出ステップと
を有することを特徴とする構造化文書抽出方法。
構造化文書抽出処理をコンピュータに実行させる構造化文書抽出プログラムであって、
ネットワークを介してアクセス可能な構造化文書に本文として含まれる本文情報を特定する本文情報特定ステップと、
前記構造化文書に付与されたデータであって、当該構造化文書の前記本文情報に関するデータおよび当該構造化文書と他の構造化文書との間のリンク関係を示すデータを含むメタデータを抽出するメタデータ抽出ステップと、
前記ネットワークを介してアクセス可能な、複数の前記構造化文書から検索対象となる複数の対象文書を特定する対象文書特定ステップと、
前記本文情報特定ステップにおいて特定した前記本文情報と、前記メタデータ抽出ステップにおいて抽出した前記メタデータとに基づいて、前記対象文書特定ステップにおいて特定された複数の前記対象文書それぞれの重要度を算出する重要度算出ステップと
を有することを特徴とする構造化文書抽出プログラム。