JP2017211687A

JP2017211687A - 関連文書抽出装置

Info

Publication number: JP2017211687A
Application number: JP2016102203A
Authority: JP
Inventors: 山田　渉; Wataru Yamada; 渉山田; 悠菊地; Yu Kikuchi
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2016-05-23
Filing date: 2016-05-23
Publication date: 2017-11-30

Abstract

【課題】対象となる単語が複数の意味を有する場合でも、複数の意味のうちの所望の意味と関連する文書を抽出すること。【解決手段】関連文書抽出装置１０は、複数の文書を記憶する文書記憶部１２と、対象語及び対象語が抽出された抽出元の文書である抽出元文書を取得する取得部１３と、文書記憶部１２に記憶されている複数の文書から、対象語を含む文書の集合である対象語文書集合を抽出する文書集合抽出部１４と、抽出元文書、複数の文書、及び対象語文書集合に基づいて抽出元文書に含まれる特徴的な単語である抽出元特徴語を特定する特定部１６と、対象語及び抽出元特徴語に基づいて、抽出元文書における対象語の意味に関連する文書の集合である関連文書集合を複数の文書から抽出し、関連文書集合を出力する関連文書抽出部１７と、を備える。【選択図】図１

Description

本発明は、関連文書抽出装置に関する。

従来、ユーザの外出行動を支援するために、スマートフォン等の携帯端末を介して、観光スポット、地域に関連したイベント、及び地域に関連した商品（特産品）等の地域情報を提供する地域情報サービスがある。特許文献１に記載の技術では、ツイッター（登録商標）等のＳＮＳ（Social Networking Service）において、ユーザが投稿した文書から形態素解析により、イベント名称、開催場所、及び開催期間を組としたイベント情報（地域情報）が抽出される。特許文献１に記載の技術では、イベント名称に関する機械学習の結果に基づいて、固有表現を抽出することで、イベント名称が抽出される。

特開２０１６−２４５４５号公報

しかしながら、特許文献１に記載の技術では、文書に含まれる本来のイベント名称のうちの一部がイベント名称として抽出されることがある。例えば、本来のイベント名称が「レオナルド・ダビンチ特別展」であるにもかかわらず、「特別展」がイベント名称として抽出されることがある。また、特許文献１に記載の技術では、「飲み会」といった一般的に用いられる語句がイベント名称として抽出されることがある。このようなイベント名称は、当該イベント名称を抽出した文書におけるイベントとは異なるイベントにも用いられる可能性がある。上述のようなイベント名称は、複数のイベントに対して用いられ、１つのイベントを特定できない可能性がある。また、イベント名称に限らず、複数の意味を持つ多義語が存在する。このような単語を用いて検索を行うと、意図していない意味と関連する文書が抽出されてしまうことがある。

本発明は、対象となる単語が複数の意味を有する場合でも、複数の意味のうちの所望の意味と関連する文書を抽出可能な関連文書抽出装置を提供する。

本発明の一側面に係る関連文書抽出装置は、検索対象の単語である対象語に関連する文書を抽出する装置である。この関連文書抽出装置は、複数の文書を記憶する文書記憶手段と、対象語及び対象語が抽出された抽出元の文書である抽出元文書を取得する取得手段と、文書記憶手段に記憶されている複数の文書から、対象語を含む文書の集合である第１文書集合を抽出する第１抽出手段と、抽出元文書、複数の文書、及び第１文書集合に基づいて抽出元文書に含まれる特徴的な単語である第１特徴語を特定する第１特定手段と、対象語及び第１特徴語に基づいて、抽出元文書における対象語の意味に関連する文書の集合である第２文書集合を複数の文書から抽出し、第２文書集合を出力する第２抽出手段と、を備える。

この関連文書抽出装置では、文書記憶手段に記憶されている複数の文書から、対象語を含む文書の集合である第１文書集合が抽出される。対象語が複数の意味を有する場合、第１文書集合には、抽出元文書における意味とは異なる意味に関連する文書が含まれ得る。ここで、対象語が複数の意味を有する場合、同じ意味に関連する文書には、対象語だけでなく、同様の特徴語が含まれ得る。そこで、抽出元文書、複数の文書、及び第１文書集合に基づいて抽出元文書に含まれる特徴的な単語である第１特徴語が特定され、対象語及び第１特徴語に基づいて、抽出元文書における対象語の意味に関連する文書の集合である第２文書集合が複数の文書から抽出され、出力される。このように、対象語だけでなく、抽出元文書に含まれる特徴的な単語である第１特徴語を用いることによって、対象語が複数の意味を有する場合でも、複数の意味のうち、抽出元文書における意味と関連する文書を抽出することが可能となる。

上記関連文書抽出装置は、第１文書集合及び複数の文書に基づいて、第１文書集合に含まれる特徴的な単語である複数の第２特徴語を特定する第２特定手段を更に備えてもよい。第１特定手段は、複数の第２特徴語のうち、抽出元文書に含まれている第２特徴語を第１特徴語として特定してもよい。対象語が複数の意味を有する場合、第１文書集合に含まれる複数の第２特徴語には、抽出元文書における対象語の意味に関連する特徴語だけでなく、異なる意味に関連する特徴語が含まれ得る。言い換えると、第１特徴語は、複数の第２特徴語に含まれ得る。第２特徴語が抽出元文書に含まれていれば、抽出元文書における対象語の意味に関連する特徴語である可能性が高いので、複数の第２特徴語のうち、抽出元文書に含まれている第２特徴語を第１特徴語とすることにより、第１特徴語の特定精度を向上できる。

第２抽出手段は、複数の文書から対象語及び第１特徴語を含む文書の集合を第２文書集合として抽出してもよい。対象語及び第１特徴語を含む文書は、抽出元文書における対象語の意味と関連している可能性が高い。このため、対象語及び第１特徴語を含む文書を抽出することによって、対象語が複数の意味を有する場合であっても、抽出元文書における意味と関連する文書を抽出することが可能となる。

取得手段は、抽出元文書に含まれる場所を示す場所名称を更に取得してもよく、第２抽出手段は、場所名称に更に基づいて、複数の文書から第２文書集合を抽出してもよい。文書には、場所の名称である場所名称が含まれていることがある。同一の意味で用いられた対象語を含む文書に登場する場所名称によって示される場所は、同一である可能性が高いと考えられる。このため、対象語及び第１特徴語に加えて、場所名称を更に用いることによって、関連文書の抽出精度を向上することが可能となる。

取得手段は、抽出元文書に含まれるリンク情報を更に取得してもよく、第２抽出手段は、リンク情報に更に基づいて、複数の文書から第２文書集合を抽出してもよい。リンク情報は、ネットワーク上のデータの場所を示す情報であってもよい。文書には、リンク情報が含まれていることがある。同一の意味で用いられた対象語を含む文書に含まれるリンク情報は、同一である可能性が高いと考えられる。このため、対象語及び第１特徴語に加えて、リンク情報を更に用いることによって、関連文書の抽出精度を向上することが可能となる。

対象語がイベントを示すイベント名称であってもよい。取得手段は、抽出元文書に含まれるイベントの開催期間を示す期間情報を更に取得してもよく、第２抽出手段は、期間情報に更に基づいて、複数の文書から第２文書集合を抽出してもよい。イベントに関する文書には、イベントの開催期間を示す情報である期間情報が含まれている可能性がある。同一のイベントに対して用いられた対象語を含む文書に含まれる期間情報によって示される期間は、同一である可能性が高いと考えられる。このため、対象語及び第１特徴語に加えて、期間情報を更に用いることによって、関連文書の抽出精度を向上することが可能となる。

本発明によれば、対象となる単語が複数の意味を有する場合でも、複数の意味のうちの所望の意味と関連する文書を抽出することができる。

関連文書抽出装置の機能構成を示すブロック図である。図１の関連文書抽出装置のハードウェア構成を示す図である。イベント情報管理テーブルの一例を示す図である。検索結果管理テーブルの一例を示す図である。図１の関連文書抽出装置が行う関連文書抽出方法の一連の処理を示すフローチャートである。

以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。

図１は、関連文書抽出装置の機能構成を示すブロック図である。図１に示される関連文書抽出装置１０は、検索対象の単語である対象語に関連する文書を抽出する装置である。本実施形態では、対象語としてイベント名称が用いられる。イベント名称は、イベントの名称を示す文字列である。このイベントは、所定の開催場所で、所定の開催期間において行われる。

関連文書抽出装置１０は、機能的には、イベント情報記憶部１１と、文書記憶部１２と、取得部１３と、文書集合抽出部１４と、リスト生成部１５（第２特定手段）と、特定部１６と、関連文書抽出部１７と、検索結果記憶部１８と、を備えている。関連文書抽出装置１０は、例えば、図２に示されるハードウェアによって構成されている。

図２は、関連文書抽出装置１０のハードウェア構成を示す図である。図２に示されるように、関連文書抽出装置１０は、物理的には、１又は複数のＣＰＵ（Central Processing Unit）１０１と、主記憶装置であるＲＡＭ（RandomAccess Memory）１０２及びＲＯＭ（Read Only Memory）１０３と、データ送受信デバイスである通信モジュール１０４と、ハードディスク及びフラッシュメモリ等の補助記憶装置１０５と、キーボード等のユーザの入力を受け付ける入力装置１０６と、ディスプレイ等の出力装置１０７と、を備えるコンピュータとして構成されている。図１に示される関連文書抽出装置１０の各機能は、ＣＰＵ１０１、ＲＡＭ１０２等のハードウェア上に１又は複数の所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ１０１の制御のもとで通信モジュール１０４、入力装置１０６、及び出力装置１０７を動作させるとともに、ＲＡＭ１０２及び補助記憶装置１０５におけるデータの読み出し及び書き込みを行うことで実現される。

再び図１を参照して、関連文書抽出装置１０の各機能の詳細を説明する。イベント情報記憶部１１は、複数のイベント情報を記憶するイベント情報記憶手段として機能する。イベント情報は、イベントに関する情報であり、イベント情報記憶部１１に予め準備されている。例えば、複数のユーザがそれぞれ文書を投稿し、投稿された文書を閲覧するコミュニケーションサービス（Social NetworkingService：ＳＮＳ）において投稿された文書からイベント情報が抽出され、抽出されたイベント情報がイベント情報記憶部１１に記憶される。ＳＮＳとしては、例えば、ツイッターが挙げられる。イベント情報の抽出は、公知の手法によって行われる。イベント情報記憶部１１は、イベント情報を管理するイベント情報管理テーブルを有している。

図３は、イベント情報管理テーブルの一例を示す図である。図３に示されるように、各イベント情報は、「イベント名称」と、「抽出元文書」と、を含む。「イベント名称」は、イベントの名称を示す文字列である。図３の例では、イベント名称として「特別展」、及び「飲み会」が含まれている。「抽出元文書」は、イベント名称が抽出された抽出元の文書である。なお、抽出元文書に代えて、抽出元文書を一意に識別可能な文書ＩＤ（Identifier）が用いられてもよい。

文書記憶部１２は、複数の文書を記憶する文書記憶手段として機能する。この文書は、例えば、ツイッター等のＳＮＳにおいて投稿された文書であり、ＳＮＳによっては、ツイート又はコメント等とも呼ばれる。複数の文書は、例えば定期的に外部のＳＮＳサーバから取得され得る。取得される文書は、例えば、所定の期間（例えば、１週間）分の文書であり、取得時において取得可能な最新の文書である。

取得部１３は、対象イベント名称及び抽出元文書を取得する取得手段として機能する。対象イベント名称は、検索対象のイベント名称である。具体的には、取得部１３は、イベント情報記憶部１１に記憶されている複数のイベント情報から、１つのイベント情報を取得し、取得したイベント情報に含まれるイベント名称を対象イベント名称とする。取得部１３は、取得した対象イベント名称を文書集合抽出部１４に出力し、当該対象イベント名称の抽出元文書を特定部１６に出力し、更に対象イベント名称及び抽出元文書を関連文書抽出部１７に出力する。

文書集合抽出部１４は、文書記憶部１２に記憶されている複数の文書から対象語文書集合（第１文書集合）を抽出する第１抽出手段として機能する。本実施形態では、対象語文書集合は、対象イベント名称を含む文書の集合である。文書集合抽出部１４は、例えば、対象イベント名称を用いて検索を行い、文書記憶部１２に記憶されている複数の文書から対象イベント名称を含む文書を抽出する。文書集合抽出部１４は、抽出した対象イベント名称を含む文書群を対象語文書集合としてリスト生成部１５に出力する。

リスト生成部１５は、対象語文書集合及び文書記憶部１２に記憶されている複数の文書に基づいて、複数の特徴語（第２特徴語）を特定し、特徴語のリストである特徴語リストを生成するリスト生成手段として機能する。特徴語は、対象語文書集合に含まれる特徴的な単語である。リスト生成部１５は、形態素解析によって対象語文書集合に含まれる各文書を単語（形態素）に分解し、これらの単語の各文書における重要度を計算する。単語の重要度は、例えば、その値が大きいほど、当該単語が重要であることを示す。本実施形態では、重要度としてＩＤＦ（Inverse Document Frequency）値が用いられる。

リスト生成部１５は、式（１）に示されるように、全文書数Ｄ及び文書数ｄを用いて、各単語のＩＤＦ値ｉｄｆ_ｉを計算する。ここで、ＩＤＦ値ｉｄｆ_ｉは、対象語文書集合に含まれる単語のうちのｉ番目の単語のＩＤＦ値である。全文書数Ｄは、文書記憶部１２に記憶されている全文書の数である。文書数ｄは、対象語文書集合のうちのｉ番目の単語を含む文書数である。

リスト生成部１５は、各ＩＤＦ値ｉｄｆ_ｉと予め設定された閾値ｉｄｆ_ｔｈとを比較することによって、ｉ番目の単語が特徴語であるか否かを判定する。リスト生成部１５は、例えば、ＩＤＦ値ｉｄｆ_ｉが閾値ｉｄｆ_ｔｈよりも大きい場合に、ｉ番目の単語が特徴語であると判定し、ＩＤＦ値ｉｄｆ_ｉが閾値ｉｄｆ_ｔｈ以下である場合に、ｉ番目の単語が特徴語でないと判定する。リスト生成部１５は、特徴語と判定した複数の単語を含む特徴語リストを生成する。リスト生成部１５は、生成した特徴語リストを特定部１６に出力する。

特定部１６は、抽出元特徴語（第１特徴語）を特定する第１特定手段として機能する。抽出元特徴語は、抽出元文書に含まれる特徴的な単語である。特定部１６は、特徴語リストに含まれている複数の特徴語のうち、抽出元文書に含まれている特徴語を抽出元特徴語として特定する。具体的には、特定部１６は、特徴語のそれぞれを抽出元文書に含まれる単語と比較し、抽出元文書に含まれる単語と一致した場合に当該特徴語を抽出元特徴語とする。言い換えれば、特定部１６は、抽出元文書、文書記憶部１２に記憶されている複数の文書、及び対象語文書集合に基づいて、抽出元特徴語を特定している。特定部１６は、特定した抽出元特徴語を関連文書抽出部１７に出力する。

関連文書抽出部１７は、対象イベント名称及び抽出元特徴語に基づいて、文書記憶部１２に記憶されている複数の文書から関連文書集合（第２文書集合）を抽出し、関連文書集合を出力する第２抽出手段として機能する。関連文書集合は、抽出元文書において対象イベント名称が示す本来のイベントに関連する文書である関連文書の集合である。関連文書抽出部１７は、例えば、対象イベント名称及び抽出元特徴語を用いて検索を行い、文書記憶部１２に記憶されている複数の文書から、対象イベント名称及び抽出元特徴語を含む文書の群を関連文書の群として抽出し、抽出した関連文書の群を関連文書集合とする。

特定部１６によって複数の抽出元特徴語が特定された場合、関連文書抽出部１７は、複数の抽出元特徴語からＮ個の抽出元特徴語を選択し、対象イベント名称及びＮ個の抽出元特徴語を用いて検索を行い、関連文書集合を抽出する。Ｎは、１以上の整数であり、予め設定されている。Ｎ個の抽出元特徴語は、例えば、任意に選択される。特定部１６によって特定された抽出元特徴語の数がＮよりも小さい場合には、関連文書抽出部１７は、全ての抽出元特徴語を選択する。関連文書抽出部１７は、関連文書集合を対象イベント名称及び抽出元文書とともに検索結果記憶部１８に出力し、検索結果として検索結果記憶部１８に記憶させる。

検索結果記憶部１８は、対象イベント名称を用いた検索結果を記憶する検索結果記憶手段として機能する。検索結果記憶部１８は、関連文書抽出部１７によって抽出された関連文書を、取得部１３によって取得されたイベント情報と対応付けて記憶する。検索結果記憶部１８は、検索結果を管理する検索結果管理テーブルを有している。

図４は、検索結果管理テーブルの一例を示す図である。図４に示されるように、各検索結果は、「イベント名称」と、「抽出元文書」と、「関連文書」と、を含む。「関連文書」は、関連文書抽出部１７によって抽出された関連文書集合に含まれる関連文書である。

次に、図５を参照して、関連文書抽出装置１０における関連文書抽出方法の一連の処理を説明する。図５は、関連文書抽出装置１０が行う関連文書抽出方法の一連の処理を示すフローチャートである。図５に示される一連の処理は、例えば、新たなイベント情報が抽出され、イベント情報記憶部１１に記憶されたことに応じて開始される。なお、文書記憶部１２には、最新の所定期間分の文書がＳＮＳサーバ等から取得されて、記憶されている。

まず、取得部１３が、イベント情報記憶部１１に記憶されている複数のイベント情報から対象イベント名称及び抽出元文書を取得する（ステップＳ１１）。具体的には、取得部１３は、イベント情報記憶部１１に記憶されている複数のイベント情報のうち、いずれか１つのイベント情報を取得し、取得したイベント情報のイベント名称を対象イベント名称とする。そして、取得部１３は、対象イベント名称を文書集合抽出部１４に出力し、取得したイベント情報の抽出元文書を特定部１６に出力し、対象イベント名称及び抽出元文書を関連文書抽出部１７に出力する。

続いて、文書集合抽出部１４は、文書記憶部１２に記憶されている複数の文書から対象語文書集合を抽出する（ステップＳ１２）。具体的には、文書集合抽出部１４は、対象イベント名称を用いて検索を行い、文書記憶部１２に記憶されている複数の文書から対象イベント名称を含む文書を抽出する。そして、文書集合抽出部１４は、抽出した対象イベント名称を含む文書群を対象語文書集合としてリスト生成部１５に出力する。

続いて、リスト生成部１５は、対象語文書集合及び文書記憶部１２に記憶されている複数の文書に基づいて、複数の特徴語を特定し、特徴語リストを生成する（ステップＳ１３）。具体的には、リスト生成部１５は、形態素解析によって対象語文書集合に含まれる各文書を単語に分解し、これらの単語の各文書における重要度を計算する。

例えば、リスト生成部１５は、式（１）に示されるように、各単語のＩＤＦ値ｉｄｆ_ｉを計算し、ＩＤＦ値ｉｄｆ_ｉが閾値ｉｄｆ_ｔｈよりも大きい場合に、ｉ番目の単語が特徴語であると判定し、ＩＤＦ値ｉｄｆ_ｉが閾値ｉｄｆ_ｔｈ以下である場合に、ｉ番目の単語が特徴語でないと判定する。そして、リスト生成部１５は、特徴語と判定した複数の単語を含む特徴語リストを生成し、生成した特徴語リストを特定部１６に出力する。

続いて、特定部１６は、特徴語リストに含まれている複数の特徴語のうち、抽出元文書に含まれている特徴語を抽出元特徴語として特定する（ステップＳ１４）。具体的には、特定部１６は、特徴語のそれぞれを抽出元文書に含まれる単語と比較し、抽出元文書に含まれる単語と一致した場合に当該特徴語を抽出元特徴語とする。そして、特定部１６は、特定した１以上の抽出元特徴語を関連文書抽出部１７に出力する。

続いて、関連文書抽出部１７は、対象イベント名称及び抽出元特徴語に基づいて、文書記憶部１２に記憶されている複数の文書から関連文書を抽出する（ステップＳ１５）。具体的には、関連文書抽出部１７は、対象イベント名称及びＮ個の抽出元特徴語を用いて検索を行い、文書記憶部１２に記憶されている複数の文書から、対象イベント名称及びＮ個の抽出元特徴語の全てを含む文書の群を関連文書の群として抽出し、抽出した関連文書の群を関連文書集合とする。

そして、関連文書抽出部１７は、関連文書集合を対象イベント名称及び抽出元文書とともに検索結果記憶部１８に出力し、対象イベント名称、抽出元文書、及び関連文書集合に含まれる関連文書を検索結果として検索結果記憶部１８に記憶させる（ステップＳ１６）。以上のようにして、関連文書抽出方法の一連の処理が終了する。

以上のようにして、対象イベント名称が、一意にイベントを識別することができないイベント名称であっても、抽出元文書において対象イベント名称が示す本来のイベントに関連する文書が抽出される。

以上説明した関連文書抽出装置１０では、文書記憶部１２に記憶されている複数の文書から、対象イベント名称を含む文書の集合である対象語文書集合が抽出される。対象イベント名称が複数の意味を有する場合、つまり、対象イベント名称が、一意にイベントを識別することができないイベント名称であって、複数の異なるイベントに用いられる場合、対象語文書集合には、抽出元文書において対象イベント名称が示す本来のイベントとは異なるイベントに関連する文書が含まれ得る。ここで、対象イベント名称が複数の異なるイベントに用いられる場合、同じイベントに関連する各文書には、対象イベント名称だけでなく、同様の特徴語が含まれ得る。そこで、抽出元文書、複数の文書、及び対象語文書集合に基づいて抽出元文書に含まれる特徴的な単語である抽出元特徴語が特定され、対象イベント名称及び抽出元特徴語に基づいて、抽出元文書において対象イベント名称が示す本来のイベントに関連する文書の集合である関連文書集合が複数の文書から抽出され、出力される。このように、対象イベント名称だけでなく、抽出元特徴語を用いることによって、対象イベント名称が複数の異なるイベントに用いられる場合でも、複数のイベントのうち、抽出元文書において対象イベント名称が示す本来のイベント（つまり、抽出元文書における対象イベント名称によって示されるイベント）と関連する文書を抽出することが可能となる。

また、対象イベント名称が複数のイベントに用いられる場合、対象語文書集合に含まれる複数の特徴語には、抽出元文書において対象イベント名称が示す本来のイベントに関連する特徴語だけでなく、異なるイベントに関連する特徴語が含まれ得る。言い換えると、抽出元特徴語は、上述の複数の特徴語に含まれ得る。特徴語が抽出元文書に含まれていれば、抽出元文書において対象イベント名称が示す本来のイベントに関連する特徴語である可能性が高いので、複数の特徴語のうち、抽出元文書に含まれている特徴語を抽出元特徴語とすることにより、抽出元特徴語の特定精度を向上できる。

また、対象イベント名称及び抽出元特徴語を含む文書は、抽出元文書において対象イベント名称が示す本来のイベントと関連している可能性が高い。このため、対象イベント名称及び抽出元特徴語を含む文書を抽出することによって、対象イベント名称が複数の異なるイベントに用いられる場合であっても、抽出元文書において対象イベント名称が示す本来のイベントと関連する文書を抽出することが可能となる。

以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されない。例えば、検索対象の単語としてイベント名称以外の単語が用いられてもよい。この場合、イベント情報記憶部１１は、イベント名称に代えて、単語を示す文字列（単語名称）を記憶し、取得部１３は、検索対象の単語である対象語を取得する。また、文書集合抽出部１４は、文書記憶部１２に記憶されている複数の文書から、対象語を含む文書の集合である対象語文書集合を抽出する。また、関連文書抽出部１７は、対象語及び抽出元特徴語に基づいて、文書記憶部１２に記憶されている複数の文書から関連文書集合を抽出する。この場合、対象語が曖昧性を有する単語であっても、複数の意味のうち、抽出元文書における対象語の意味と関連する文書を抽出することが可能となる。なお、曖昧性を有する単語とは、複数の意味を有する単語であって、多義語である。

また、対象イベント名称（対象語）及び抽出元文書はユーザによって直接入力されてもよい。この場合、イベント情報記憶部１１は、省略され得る。

また、特定部１６は、対象語文書集合、文書記憶部１２に記憶されている複数の文書、及び抽出元文書を用いて、抽出元特徴語を直接抽出してもよい。この場合、リスト生成部１５は省略され得る。

また、関連文書抽出部１７は、出力装置１０７又は関連文書抽出装置１０の外部の装置に検索結果を直接出力してもよい。この場合、検索結果記憶部１８は省略され得る。

イベント情報は、「開催場所」と、「開催期間」と、の少なくともいずれかを更に含んでいてもよい。「開催場所」は、イベント名称によって示されるイベントが開催される開催場所を示す開催場所情報であり、例えば、開催場所の名称を示す文字列である。開催場所情報は、開催場所を特定可能であればよく、開催場所の名称に代えて、開催場所を一意に識別可能なＩＤが用いられてもよい。「開催期間」は、イベント名称によって示されるイベントが開催される期間を示す期間情報である。この場合、検索結果記憶部１８に記憶される検索結果には、開催場所情報及び期間情報が含まれ得る。

リスト生成部１５は、各単語の重要度として、ＩＤＦ値に代えて、ＴＦ（TermFrequency）−ＩＤＦ値を計算してもよい。この場合、リスト生成部１５は、ＴＦ値ｔｆ_ｉ及びＩＤＦ値ｉｄｆ_ｉを乗算し、その乗算結果を各単語のＴＦ−ＩＤＦ値ｔｆｉｄｆ_ｉとする。ここで、ＴＦ−ＩＤＦ値ｔｆｉｄｆ_ｉは、対象語文書集合に含まれる単語のうちのｉ番目の単語のＴＦ−ＩＤＦ値である。ＴＦ値ｔｆ_ｉは、対象語文書集合に含まれる単語のうちのｉ番目の単語のＴＦ値であり、対象語文書集合においてｉ番目の単語が出現した回数である。ＩＤＦ値ｉｄｆ_ｉは、式（１）によって計算される。この場合も、リスト生成部１５は、各ＴＦ−ＩＤＦ値ｔｆｉｄｆ_ｉと予め設定された閾値ｔｆｉｄｆ_ｔｈとを比較することによって、ｉ番目の単語が特徴語であるか否かを判定する。リスト生成部１５は、例えば、ＴＦ−ＩＤＦ値ｔｆｉｄｆ_ｉが閾値ｔｆｉｄｆ_ｔｈよりも大きい場合に、ｉ番目の単語が特徴語であると判定し、ＴＦ−ＩＤＦ値ｔｆｉｄｆ_ｉが閾値ｔｆｉｄｆ_ｔｈ以下である場合に、ｉ番目の単語が特徴語でないと判定する。

イベントに関する文書には、イベントの開催場所の名称を示す場所名称、開催期間を示す期間情報、及びリンク情報が含まれていることがある。リンク情報は、ネットワーク上のデータの場所（リンク先）を示す情報であり、例えば、ＵＲＬ（Uniform Resource Locator）である。同一のイベントに対して用いられた対象イベント名称を含む文書に含まれる場所情報、期間情報、及びリンク情報は、同一である可能性が高いと考えられる。そこで、関連文書抽出部１７は、対象イベント名称及びＮ個の抽出元特徴語に加えて、更に対象イベント名称によって示されるイベントの場所名称、期間情報、及び抽出元文書に含まれるリンク情報の少なくともいずれかを用いて検索を行い、関連文書集合を抽出してもよい。

イベントの開催場所が用いられる場合、取得部１３は、抽出元文書に含まれる場所の名称を示す場所名称を更に取得し、場所名称を関連文書抽出部１７に出力する。取得部１３は、抽出元文書から場所名称を直接取得してもよく、イベント情報に開催場所情報が含まれている場合には、開催場所情報によって特定される場所の場所名称を取得してもよい。関連文書抽出部１７は、場所名称に更に基づいて、文書記憶部１２に記憶されている複数の文書から関連文書集合を抽出する。つまり、関連文書抽出部１７は、対象イベント名称及びＮ個の抽出元特徴語に加えて、更に場所名称を用いて検索を行い、文書記憶部１２に記憶されている複数の文書から、対象イベント名称、Ｎ個の抽出元特徴語、及び場所名称の全てを含む文書の群を抽出し、関連文書集合とする。この場合、対象イベント名称及び抽出元特徴語に加えて、場所名称を更に用いることによって、関連文書の抽出精度を向上することが可能となる。

イベントの開催期間が用いられる場合、取得部１３は、抽出元文書に含まれるイベントの開催期間を示す期間情報を更に取得し、期間情報を関連文書抽出部１７に出力する。取得部１３は、抽出元文書から期間情報を直接取得してもよく、イベント情報に期間情報が含まれている場合には、イベント情報から期間情報を取得してもよい。関連文書抽出部１７は、期間情報に更に基づいて、文書記憶部１２に記憶されている複数の文書から関連文書集合を抽出する。つまり、関連文書抽出部１７は、対象イベント名称及びＮ個の抽出元特徴語に加えて、更に開催期間を用いて検索を行い、文書記憶部１２に記憶されている複数の文書から、対象イベント名称、Ｎ個の抽出元特徴語、及び開催期間の全てを含む文書の群を抽出し、関連文書集合とする。この場合、対象イベント名称及び抽出元特徴語に加えて、期間情報を更に用いることによって、関連文書の抽出精度を向上することが可能となる。

リンク情報が用いられる場合、取得部１３は、抽出元文書に含まれるリンク情報を更に取得し、リンク情報を関連文書抽出部１７に出力する。取得部１３は、例えば、正規表現を用いて抽出元文書からリンク情報を直接取得する。関連文書抽出部１７は、リンク情報に更に基づいて、文書記憶部１２に記憶されている複数の文書から関連文書集合を抽出する。つまり、関連文書抽出部１７は、対象イベント名称及びＮ個の抽出元特徴語に加えて、更にリンク情報を用いて検索を行い、文書記憶部１２に記憶されている複数の文書から、対象イベント名称、Ｎ個の抽出元特徴語、及びリンク情報の全てを含む文書の群を抽出し、関連文書集合とする。この場合、対象イベント名称及び抽出元特徴語に加えて、リンク情報を更に用いることによって、関連文書の抽出精度を向上することが可能となる。

また、文書集合抽出部１４は、文書記憶部１２に記憶されている複数の文書のうち、イベントの場所名称、期間情報、及びリンク情報の少なくともいずれかを用いて検索し、場所名称、期間情報、及びリンク情報の少なくともいずれかを含む文書を抽出した上で、抽出した文書から更に対象イベント名称を含む文書を対象語文書集合として抽出してもよい。

なお、イベントの場所名称、期間情報、及びリンク情報を用いた検索では、イベントの場所名称、期間情報、及びリンク情報の部分一致が用いられてもよい。例えば、関連文書抽出部１７は、リンク情報全体ではなく、ドメイン情報及びＦＱＤＮ（Fully Qualified Domain Name）等のリンク情報の一部を用いて検索を行ってもよい。

１０…関連文書抽出装置、１２…文書記憶部、１３…取得部、１４…文書集合抽出部、１５…リスト生成部、１６…特定部、１７…関連文書抽出部。

Claims

検索対象の単語である対象語に関連する文書を抽出する関連文書抽出装置であって、
複数の文書を記憶する文書記憶手段と、
前記対象語及び前記対象語が抽出された抽出元の文書である抽出元文書を取得する取得手段と、
前記文書記憶手段に記憶されている前記複数の文書から、前記対象語を含む文書の集合である第１文書集合を抽出する第１抽出手段と、
前記抽出元文書、前記複数の文書、及び前記第１文書集合に基づいて前記抽出元文書に含まれる特徴的な単語である第１特徴語を特定する第１特定手段と、
前記対象語及び前記第１特徴語に基づいて、前記抽出元文書における前記対象語の意味に関連する文書の集合である第２文書集合を前記複数の文書から抽出し、前記第２文書集合を出力する第２抽出手段と、
を備える関連文書抽出装置。
前記第１文書集合及び前記複数の文書に基づいて、前記第１文書集合に含まれる特徴的な単語である複数の第２特徴語を特定する第２特定手段を更に備え、
前記第１特定手段は、前記複数の第２特徴語のうち、前記抽出元文書に含まれている第２特徴語を前記第１特徴語として特定する、請求項１に記載の関連文書抽出装置。
前記第２抽出手段は、前記複数の文書から前記対象語及び前記第１特徴語を含む文書の集合を前記第２文書集合として抽出する、請求項１又は請求項２に記載の関連文書抽出装置。
前記取得手段は、前記抽出元文書に含まれる場所を示す場所名称を更に取得し、
前記第２抽出手段は、前記場所名称に更に基づいて、前記複数の文書から前記第２文書集合を抽出する、請求項１〜請求項３のいずれか一項に記載の関連文書抽出装置。
前記取得手段は、前記抽出元文書に含まれるリンク情報を更に取得し、
前記第２抽出手段は、前記リンク情報に更に基づいて、前記複数の文書から前記第２文書集合を抽出し、
前記リンク情報は、ネットワーク上のデータの場所を示す情報である、請求項１〜請求項４のいずれか一項に記載の関連文書抽出装置。
前記対象語がイベントを示すイベント名称であり、
前記取得手段は、前記抽出元文書に含まれる前記イベントの開催期間を示す期間情報を更に取得し、
前記第２抽出手段は、前記期間情報に更に基づいて、前記複数の文書から前記第２文書集合を抽出する、請求項１〜請求項５のいずれか一項に記載の関連文書抽出装置。