JP2017211687A - 関連文書抽出装置 - Google Patents
関連文書抽出装置 Download PDFInfo
- Publication number
- JP2017211687A JP2017211687A JP2016102203A JP2016102203A JP2017211687A JP 2017211687 A JP2017211687 A JP 2017211687A JP 2016102203 A JP2016102203 A JP 2016102203A JP 2016102203 A JP2016102203 A JP 2016102203A JP 2017211687 A JP2017211687 A JP 2017211687A
- Authority
- JP
- Japan
- Prior art keywords
- document
- extraction
- word
- documents
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】対象となる単語が複数の意味を有する場合でも、複数の意味のうちの所望の意味と関連する文書を抽出すること。【解決手段】関連文書抽出装置10は、複数の文書を記憶する文書記憶部12と、対象語及び対象語が抽出された抽出元の文書である抽出元文書を取得する取得部13と、文書記憶部12に記憶されている複数の文書から、対象語を含む文書の集合である対象語文書集合を抽出する文書集合抽出部14と、抽出元文書、複数の文書、及び対象語文書集合に基づいて抽出元文書に含まれる特徴的な単語である抽出元特徴語を特定する特定部16と、対象語及び抽出元特徴語に基づいて、抽出元文書における対象語の意味に関連する文書の集合である関連文書集合を複数の文書から抽出し、関連文書集合を出力する関連文書抽出部17と、を備える。【選択図】図1
Description
本発明は、関連文書抽出装置に関する。
従来、ユーザの外出行動を支援するために、スマートフォン等の携帯端末を介して、観光スポット、地域に関連したイベント、及び地域に関連した商品(特産品)等の地域情報を提供する地域情報サービスがある。特許文献1に記載の技術では、ツイッター(登録商標)等のSNS(Social Networking Service)において、ユーザが投稿した文書から形態素解析により、イベント名称、開催場所、及び開催期間を組としたイベント情報(地域情報)が抽出される。特許文献1に記載の技術では、イベント名称に関する機械学習の結果に基づいて、固有表現を抽出することで、イベント名称が抽出される。
しかしながら、特許文献1に記載の技術では、文書に含まれる本来のイベント名称のうちの一部がイベント名称として抽出されることがある。例えば、本来のイベント名称が「レオナルド・ダビンチ特別展」であるにもかかわらず、「特別展」がイベント名称として抽出されることがある。また、特許文献1に記載の技術では、「飲み会」といった一般的に用いられる語句がイベント名称として抽出されることがある。このようなイベント名称は、当該イベント名称を抽出した文書におけるイベントとは異なるイベントにも用いられる可能性がある。上述のようなイベント名称は、複数のイベントに対して用いられ、1つのイベントを特定できない可能性がある。また、イベント名称に限らず、複数の意味を持つ多義語が存在する。このような単語を用いて検索を行うと、意図していない意味と関連する文書が抽出されてしまうことがある。
本発明は、対象となる単語が複数の意味を有する場合でも、複数の意味のうちの所望の意味と関連する文書を抽出可能な関連文書抽出装置を提供する。
本発明の一側面に係る関連文書抽出装置は、検索対象の単語である対象語に関連する文書を抽出する装置である。この関連文書抽出装置は、複数の文書を記憶する文書記憶手段と、対象語及び対象語が抽出された抽出元の文書である抽出元文書を取得する取得手段と、文書記憶手段に記憶されている複数の文書から、対象語を含む文書の集合である第1文書集合を抽出する第1抽出手段と、抽出元文書、複数の文書、及び第1文書集合に基づいて抽出元文書に含まれる特徴的な単語である第1特徴語を特定する第1特定手段と、対象語及び第1特徴語に基づいて、抽出元文書における対象語の意味に関連する文書の集合である第2文書集合を複数の文書から抽出し、第2文書集合を出力する第2抽出手段と、を備える。
この関連文書抽出装置では、文書記憶手段に記憶されている複数の文書から、対象語を含む文書の集合である第1文書集合が抽出される。対象語が複数の意味を有する場合、第1文書集合には、抽出元文書における意味とは異なる意味に関連する文書が含まれ得る。ここで、対象語が複数の意味を有する場合、同じ意味に関連する文書には、対象語だけでなく、同様の特徴語が含まれ得る。そこで、抽出元文書、複数の文書、及び第1文書集合に基づいて抽出元文書に含まれる特徴的な単語である第1特徴語が特定され、対象語及び第1特徴語に基づいて、抽出元文書における対象語の意味に関連する文書の集合である第2文書集合が複数の文書から抽出され、出力される。このように、対象語だけでなく、抽出元文書に含まれる特徴的な単語である第1特徴語を用いることによって、対象語が複数の意味を有する場合でも、複数の意味のうち、抽出元文書における意味と関連する文書を抽出することが可能となる。
上記関連文書抽出装置は、第1文書集合及び複数の文書に基づいて、第1文書集合に含まれる特徴的な単語である複数の第2特徴語を特定する第2特定手段を更に備えてもよい。第1特定手段は、複数の第2特徴語のうち、抽出元文書に含まれている第2特徴語を第1特徴語として特定してもよい。対象語が複数の意味を有する場合、第1文書集合に含まれる複数の第2特徴語には、抽出元文書における対象語の意味に関連する特徴語だけでなく、異なる意味に関連する特徴語が含まれ得る。言い換えると、第1特徴語は、複数の第2特徴語に含まれ得る。第2特徴語が抽出元文書に含まれていれば、抽出元文書における対象語の意味に関連する特徴語である可能性が高いので、複数の第2特徴語のうち、抽出元文書に含まれている第2特徴語を第1特徴語とすることにより、第1特徴語の特定精度を向上できる。
第2抽出手段は、複数の文書から対象語及び第1特徴語を含む文書の集合を第2文書集合として抽出してもよい。対象語及び第1特徴語を含む文書は、抽出元文書における対象語の意味と関連している可能性が高い。このため、対象語及び第1特徴語を含む文書を抽出することによって、対象語が複数の意味を有する場合であっても、抽出元文書における意味と関連する文書を抽出することが可能となる。
取得手段は、抽出元文書に含まれる場所を示す場所名称を更に取得してもよく、第2抽出手段は、場所名称に更に基づいて、複数の文書から第2文書集合を抽出してもよい。文書には、場所の名称である場所名称が含まれていることがある。同一の意味で用いられた対象語を含む文書に登場する場所名称によって示される場所は、同一である可能性が高いと考えられる。このため、対象語及び第1特徴語に加えて、場所名称を更に用いることによって、関連文書の抽出精度を向上することが可能となる。
取得手段は、抽出元文書に含まれるリンク情報を更に取得してもよく、第2抽出手段は、リンク情報に更に基づいて、複数の文書から第2文書集合を抽出してもよい。リンク情報は、ネットワーク上のデータの場所を示す情報であってもよい。文書には、リンク情報が含まれていることがある。同一の意味で用いられた対象語を含む文書に含まれるリンク情報は、同一である可能性が高いと考えられる。このため、対象語及び第1特徴語に加えて、リンク情報を更に用いることによって、関連文書の抽出精度を向上することが可能となる。
対象語がイベントを示すイベント名称であってもよい。取得手段は、抽出元文書に含まれるイベントの開催期間を示す期間情報を更に取得してもよく、第2抽出手段は、期間情報に更に基づいて、複数の文書から第2文書集合を抽出してもよい。イベントに関する文書には、イベントの開催期間を示す情報である期間情報が含まれている可能性がある。同一のイベントに対して用いられた対象語を含む文書に含まれる期間情報によって示される期間は、同一である可能性が高いと考えられる。このため、対象語及び第1特徴語に加えて、期間情報を更に用いることによって、関連文書の抽出精度を向上することが可能となる。
本発明によれば、対象となる単語が複数の意味を有する場合でも、複数の意味のうちの所望の意味と関連する文書を抽出することができる。
以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
図1は、関連文書抽出装置の機能構成を示すブロック図である。図1に示される関連文書抽出装置10は、検索対象の単語である対象語に関連する文書を抽出する装置である。本実施形態では、対象語としてイベント名称が用いられる。イベント名称は、イベントの名称を示す文字列である。このイベントは、所定の開催場所で、所定の開催期間において行われる。
関連文書抽出装置10は、機能的には、イベント情報記憶部11と、文書記憶部12と、取得部13と、文書集合抽出部14と、リスト生成部15(第2特定手段)と、特定部16と、関連文書抽出部17と、検索結果記憶部18と、を備えている。関連文書抽出装置10は、例えば、図2に示されるハードウェアによって構成されている。
図2は、関連文書抽出装置10のハードウェア構成を示す図である。図2に示されるように、関連文書抽出装置10は、物理的には、1又は複数のCPU(Central Processing Unit)101と、主記憶装置であるRAM(RandomAccess Memory)102及びROM(Read Only Memory)103と、データ送受信デバイスである通信モジュール104と、ハードディスク及びフラッシュメモリ等の補助記憶装置105と、キーボード等のユーザの入力を受け付ける入力装置106と、ディスプレイ等の出力装置107と、を備えるコンピュータとして構成されている。図1に示される関連文書抽出装置10の各機能は、CPU101、RAM102等のハードウェア上に1又は複数の所定のコンピュータソフトウェアを読み込ませることにより、CPU101の制御のもとで通信モジュール104、入力装置106、及び出力装置107を動作させるとともに、RAM102及び補助記憶装置105におけるデータの読み出し及び書き込みを行うことで実現される。
再び図1を参照して、関連文書抽出装置10の各機能の詳細を説明する。イベント情報記憶部11は、複数のイベント情報を記憶するイベント情報記憶手段として機能する。イベント情報は、イベントに関する情報であり、イベント情報記憶部11に予め準備されている。例えば、複数のユーザがそれぞれ文書を投稿し、投稿された文書を閲覧するコミュニケーションサービス(Social NetworkingService:SNS)において投稿された文書からイベント情報が抽出され、抽出されたイベント情報がイベント情報記憶部11に記憶される。SNSとしては、例えば、ツイッターが挙げられる。イベント情報の抽出は、公知の手法によって行われる。イベント情報記憶部11は、イベント情報を管理するイベント情報管理テーブルを有している。
図3は、イベント情報管理テーブルの一例を示す図である。図3に示されるように、各イベント情報は、「イベント名称」と、「抽出元文書」と、を含む。「イベント名称」は、イベントの名称を示す文字列である。図3の例では、イベント名称として「特別展」、及び「飲み会」が含まれている。「抽出元文書」は、イベント名称が抽出された抽出元の文書である。なお、抽出元文書に代えて、抽出元文書を一意に識別可能な文書ID(Identifier)が用いられてもよい。
文書記憶部12は、複数の文書を記憶する文書記憶手段として機能する。この文書は、例えば、ツイッター等のSNSにおいて投稿された文書であり、SNSによっては、ツイート又はコメント等とも呼ばれる。複数の文書は、例えば定期的に外部のSNSサーバから取得され得る。取得される文書は、例えば、所定の期間(例えば、1週間)分の文書であり、取得時において取得可能な最新の文書である。
取得部13は、対象イベント名称及び抽出元文書を取得する取得手段として機能する。対象イベント名称は、検索対象のイベント名称である。具体的には、取得部13は、イベント情報記憶部11に記憶されている複数のイベント情報から、1つのイベント情報を取得し、取得したイベント情報に含まれるイベント名称を対象イベント名称とする。取得部13は、取得した対象イベント名称を文書集合抽出部14に出力し、当該対象イベント名称の抽出元文書を特定部16に出力し、更に対象イベント名称及び抽出元文書を関連文書抽出部17に出力する。
文書集合抽出部14は、文書記憶部12に記憶されている複数の文書から対象語文書集合(第1文書集合)を抽出する第1抽出手段として機能する。本実施形態では、対象語文書集合は、対象イベント名称を含む文書の集合である。文書集合抽出部14は、例えば、対象イベント名称を用いて検索を行い、文書記憶部12に記憶されている複数の文書から対象イベント名称を含む文書を抽出する。文書集合抽出部14は、抽出した対象イベント名称を含む文書群を対象語文書集合としてリスト生成部15に出力する。
リスト生成部15は、対象語文書集合及び文書記憶部12に記憶されている複数の文書に基づいて、複数の特徴語(第2特徴語)を特定し、特徴語のリストである特徴語リストを生成するリスト生成手段として機能する。特徴語は、対象語文書集合に含まれる特徴的な単語である。リスト生成部15は、形態素解析によって対象語文書集合に含まれる各文書を単語(形態素)に分解し、これらの単語の各文書における重要度を計算する。単語の重要度は、例えば、その値が大きいほど、当該単語が重要であることを示す。本実施形態では、重要度としてIDF(Inverse Document Frequency)値が用いられる。
リスト生成部15は、式(1)に示されるように、全文書数D及び文書数dを用いて、各単語のIDF値idfiを計算する。ここで、IDF値idfiは、対象語文書集合に含まれる単語のうちのi番目の単語のIDF値である。全文書数Dは、文書記憶部12に記憶されている全文書の数である。文書数dは、対象語文書集合のうちのi番目の単語を含む文書数である。
リスト生成部15は、各IDF値idfiと予め設定された閾値idfthとを比較することによって、i番目の単語が特徴語であるか否かを判定する。リスト生成部15は、例えば、IDF値idfiが閾値idfthよりも大きい場合に、i番目の単語が特徴語であると判定し、IDF値idfiが閾値idfth以下である場合に、i番目の単語が特徴語でないと判定する。リスト生成部15は、特徴語と判定した複数の単語を含む特徴語リストを生成する。リスト生成部15は、生成した特徴語リストを特定部16に出力する。
特定部16は、抽出元特徴語(第1特徴語)を特定する第1特定手段として機能する。抽出元特徴語は、抽出元文書に含まれる特徴的な単語である。特定部16は、特徴語リストに含まれている複数の特徴語のうち、抽出元文書に含まれている特徴語を抽出元特徴語として特定する。具体的には、特定部16は、特徴語のそれぞれを抽出元文書に含まれる単語と比較し、抽出元文書に含まれる単語と一致した場合に当該特徴語を抽出元特徴語とする。言い換えれば、特定部16は、抽出元文書、文書記憶部12に記憶されている複数の文書、及び対象語文書集合に基づいて、抽出元特徴語を特定している。特定部16は、特定した抽出元特徴語を関連文書抽出部17に出力する。
関連文書抽出部17は、対象イベント名称及び抽出元特徴語に基づいて、文書記憶部12に記憶されている複数の文書から関連文書集合(第2文書集合)を抽出し、関連文書集合を出力する第2抽出手段として機能する。関連文書集合は、抽出元文書において対象イベント名称が示す本来のイベントに関連する文書である関連文書の集合である。関連文書抽出部17は、例えば、対象イベント名称及び抽出元特徴語を用いて検索を行い、文書記憶部12に記憶されている複数の文書から、対象イベント名称及び抽出元特徴語を含む文書の群を関連文書の群として抽出し、抽出した関連文書の群を関連文書集合とする。
特定部16によって複数の抽出元特徴語が特定された場合、関連文書抽出部17は、複数の抽出元特徴語からN個の抽出元特徴語を選択し、対象イベント名称及びN個の抽出元特徴語を用いて検索を行い、関連文書集合を抽出する。Nは、1以上の整数であり、予め設定されている。N個の抽出元特徴語は、例えば、任意に選択される。特定部16によって特定された抽出元特徴語の数がNよりも小さい場合には、関連文書抽出部17は、全ての抽出元特徴語を選択する。関連文書抽出部17は、関連文書集合を対象イベント名称及び抽出元文書とともに検索結果記憶部18に出力し、検索結果として検索結果記憶部18に記憶させる。
検索結果記憶部18は、対象イベント名称を用いた検索結果を記憶する検索結果記憶手段として機能する。検索結果記憶部18は、関連文書抽出部17によって抽出された関連文書を、取得部13によって取得されたイベント情報と対応付けて記憶する。検索結果記憶部18は、検索結果を管理する検索結果管理テーブルを有している。
図4は、検索結果管理テーブルの一例を示す図である。図4に示されるように、各検索結果は、「イベント名称」と、「抽出元文書」と、「関連文書」と、を含む。「関連文書」は、関連文書抽出部17によって抽出された関連文書集合に含まれる関連文書である。
次に、図5を参照して、関連文書抽出装置10における関連文書抽出方法の一連の処理を説明する。図5は、関連文書抽出装置10が行う関連文書抽出方法の一連の処理を示すフローチャートである。図5に示される一連の処理は、例えば、新たなイベント情報が抽出され、イベント情報記憶部11に記憶されたことに応じて開始される。なお、文書記憶部12には、最新の所定期間分の文書がSNSサーバ等から取得されて、記憶されている。
まず、取得部13が、イベント情報記憶部11に記憶されている複数のイベント情報から対象イベント名称及び抽出元文書を取得する(ステップS11)。具体的には、取得部13は、イベント情報記憶部11に記憶されている複数のイベント情報のうち、いずれか1つのイベント情報を取得し、取得したイベント情報のイベント名称を対象イベント名称とする。そして、取得部13は、対象イベント名称を文書集合抽出部14に出力し、取得したイベント情報の抽出元文書を特定部16に出力し、対象イベント名称及び抽出元文書を関連文書抽出部17に出力する。
続いて、文書集合抽出部14は、文書記憶部12に記憶されている複数の文書から対象語文書集合を抽出する(ステップS12)。具体的には、文書集合抽出部14は、対象イベント名称を用いて検索を行い、文書記憶部12に記憶されている複数の文書から対象イベント名称を含む文書を抽出する。そして、文書集合抽出部14は、抽出した対象イベント名称を含む文書群を対象語文書集合としてリスト生成部15に出力する。
続いて、リスト生成部15は、対象語文書集合及び文書記憶部12に記憶されている複数の文書に基づいて、複数の特徴語を特定し、特徴語リストを生成する(ステップS13)。具体的には、リスト生成部15は、形態素解析によって対象語文書集合に含まれる各文書を単語に分解し、これらの単語の各文書における重要度を計算する。
例えば、リスト生成部15は、式(1)に示されるように、各単語のIDF値idfiを計算し、IDF値idfiが閾値idfthよりも大きい場合に、i番目の単語が特徴語であると判定し、IDF値idfiが閾値idfth以下である場合に、i番目の単語が特徴語でないと判定する。そして、リスト生成部15は、特徴語と判定した複数の単語を含む特徴語リストを生成し、生成した特徴語リストを特定部16に出力する。
続いて、特定部16は、特徴語リストに含まれている複数の特徴語のうち、抽出元文書に含まれている特徴語を抽出元特徴語として特定する(ステップS14)。具体的には、特定部16は、特徴語のそれぞれを抽出元文書に含まれる単語と比較し、抽出元文書に含まれる単語と一致した場合に当該特徴語を抽出元特徴語とする。そして、特定部16は、特定した1以上の抽出元特徴語を関連文書抽出部17に出力する。
続いて、関連文書抽出部17は、対象イベント名称及び抽出元特徴語に基づいて、文書記憶部12に記憶されている複数の文書から関連文書を抽出する(ステップS15)。具体的には、関連文書抽出部17は、対象イベント名称及びN個の抽出元特徴語を用いて検索を行い、文書記憶部12に記憶されている複数の文書から、対象イベント名称及びN個の抽出元特徴語の全てを含む文書の群を関連文書の群として抽出し、抽出した関連文書の群を関連文書集合とする。
そして、関連文書抽出部17は、関連文書集合を対象イベント名称及び抽出元文書とともに検索結果記憶部18に出力し、対象イベント名称、抽出元文書、及び関連文書集合に含まれる関連文書を検索結果として検索結果記憶部18に記憶させる(ステップS16)。以上のようにして、関連文書抽出方法の一連の処理が終了する。
以上のようにして、対象イベント名称が、一意にイベントを識別することができないイベント名称であっても、抽出元文書において対象イベント名称が示す本来のイベントに関連する文書が抽出される。
以上説明した関連文書抽出装置10では、文書記憶部12に記憶されている複数の文書から、対象イベント名称を含む文書の集合である対象語文書集合が抽出される。対象イベント名称が複数の意味を有する場合、つまり、対象イベント名称が、一意にイベントを識別することができないイベント名称であって、複数の異なるイベントに用いられる場合、対象語文書集合には、抽出元文書において対象イベント名称が示す本来のイベントとは異なるイベントに関連する文書が含まれ得る。ここで、対象イベント名称が複数の異なるイベントに用いられる場合、同じイベントに関連する各文書には、対象イベント名称だけでなく、同様の特徴語が含まれ得る。そこで、抽出元文書、複数の文書、及び対象語文書集合に基づいて抽出元文書に含まれる特徴的な単語である抽出元特徴語が特定され、対象イベント名称及び抽出元特徴語に基づいて、抽出元文書において対象イベント名称が示す本来のイベントに関連する文書の集合である関連文書集合が複数の文書から抽出され、出力される。このように、対象イベント名称だけでなく、抽出元特徴語を用いることによって、対象イベント名称が複数の異なるイベントに用いられる場合でも、複数のイベントのうち、抽出元文書において対象イベント名称が示す本来のイベント(つまり、抽出元文書における対象イベント名称によって示されるイベント)と関連する文書を抽出することが可能となる。
また、対象イベント名称が複数のイベントに用いられる場合、対象語文書集合に含まれる複数の特徴語には、抽出元文書において対象イベント名称が示す本来のイベントに関連する特徴語だけでなく、異なるイベントに関連する特徴語が含まれ得る。言い換えると、抽出元特徴語は、上述の複数の特徴語に含まれ得る。特徴語が抽出元文書に含まれていれば、抽出元文書において対象イベント名称が示す本来のイベントに関連する特徴語である可能性が高いので、複数の特徴語のうち、抽出元文書に含まれている特徴語を抽出元特徴語とすることにより、抽出元特徴語の特定精度を向上できる。
また、対象イベント名称及び抽出元特徴語を含む文書は、抽出元文書において対象イベント名称が示す本来のイベントと関連している可能性が高い。このため、対象イベント名称及び抽出元特徴語を含む文書を抽出することによって、対象イベント名称が複数の異なるイベントに用いられる場合であっても、抽出元文書において対象イベント名称が示す本来のイベントと関連する文書を抽出することが可能となる。
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されない。例えば、検索対象の単語としてイベント名称以外の単語が用いられてもよい。この場合、イベント情報記憶部11は、イベント名称に代えて、単語を示す文字列(単語名称)を記憶し、取得部13は、検索対象の単語である対象語を取得する。また、文書集合抽出部14は、文書記憶部12に記憶されている複数の文書から、対象語を含む文書の集合である対象語文書集合を抽出する。また、関連文書抽出部17は、対象語及び抽出元特徴語に基づいて、文書記憶部12に記憶されている複数の文書から関連文書集合を抽出する。この場合、対象語が曖昧性を有する単語であっても、複数の意味のうち、抽出元文書における対象語の意味と関連する文書を抽出することが可能となる。なお、曖昧性を有する単語とは、複数の意味を有する単語であって、多義語である。
また、対象イベント名称(対象語)及び抽出元文書はユーザによって直接入力されてもよい。この場合、イベント情報記憶部11は、省略され得る。
また、特定部16は、対象語文書集合、文書記憶部12に記憶されている複数の文書、及び抽出元文書を用いて、抽出元特徴語を直接抽出してもよい。この場合、リスト生成部15は省略され得る。
また、関連文書抽出部17は、出力装置107又は関連文書抽出装置10の外部の装置に検索結果を直接出力してもよい。この場合、検索結果記憶部18は省略され得る。
イベント情報は、「開催場所」と、「開催期間」と、の少なくともいずれかを更に含んでいてもよい。「開催場所」は、イベント名称によって示されるイベントが開催される開催場所を示す開催場所情報であり、例えば、開催場所の名称を示す文字列である。開催場所情報は、開催場所を特定可能であればよく、開催場所の名称に代えて、開催場所を一意に識別可能なIDが用いられてもよい。「開催期間」は、イベント名称によって示されるイベントが開催される期間を示す期間情報である。この場合、検索結果記憶部18に記憶される検索結果には、開催場所情報及び期間情報が含まれ得る。
リスト生成部15は、各単語の重要度として、IDF値に代えて、TF(TermFrequency)−IDF値を計算してもよい。この場合、リスト生成部15は、TF値tfi及びIDF値idfiを乗算し、その乗算結果を各単語のTF−IDF値tfidfiとする。ここで、TF−IDF値tfidfiは、対象語文書集合に含まれる単語のうちのi番目の単語のTF−IDF値である。TF値tfiは、対象語文書集合に含まれる単語のうちのi番目の単語のTF値であり、対象語文書集合においてi番目の単語が出現した回数である。IDF値idfiは、式(1)によって計算される。この場合も、リスト生成部15は、各TF−IDF値tfidfiと予め設定された閾値tfidfthとを比較することによって、i番目の単語が特徴語であるか否かを判定する。リスト生成部15は、例えば、TF−IDF値tfidfiが閾値tfidfthよりも大きい場合に、i番目の単語が特徴語であると判定し、TF−IDF値tfidfiが閾値tfidfth以下である場合に、i番目の単語が特徴語でないと判定する。
イベントに関する文書には、イベントの開催場所の名称を示す場所名称、開催期間を示す期間情報、及びリンク情報が含まれていることがある。リンク情報は、ネットワーク上のデータの場所(リンク先)を示す情報であり、例えば、URL(Uniform Resource Locator)である。同一のイベントに対して用いられた対象イベント名称を含む文書に含まれる場所情報、期間情報、及びリンク情報は、同一である可能性が高いと考えられる。そこで、関連文書抽出部17は、対象イベント名称及びN個の抽出元特徴語に加えて、更に対象イベント名称によって示されるイベントの場所名称、期間情報、及び抽出元文書に含まれるリンク情報の少なくともいずれかを用いて検索を行い、関連文書集合を抽出してもよい。
イベントの開催場所が用いられる場合、取得部13は、抽出元文書に含まれる場所の名称を示す場所名称を更に取得し、場所名称を関連文書抽出部17に出力する。取得部13は、抽出元文書から場所名称を直接取得してもよく、イベント情報に開催場所情報が含まれている場合には、開催場所情報によって特定される場所の場所名称を取得してもよい。関連文書抽出部17は、場所名称に更に基づいて、文書記憶部12に記憶されている複数の文書から関連文書集合を抽出する。つまり、関連文書抽出部17は、対象イベント名称及びN個の抽出元特徴語に加えて、更に場所名称を用いて検索を行い、文書記憶部12に記憶されている複数の文書から、対象イベント名称、N個の抽出元特徴語、及び場所名称の全てを含む文書の群を抽出し、関連文書集合とする。この場合、対象イベント名称及び抽出元特徴語に加えて、場所名称を更に用いることによって、関連文書の抽出精度を向上することが可能となる。
イベントの開催期間が用いられる場合、取得部13は、抽出元文書に含まれるイベントの開催期間を示す期間情報を更に取得し、期間情報を関連文書抽出部17に出力する。取得部13は、抽出元文書から期間情報を直接取得してもよく、イベント情報に期間情報が含まれている場合には、イベント情報から期間情報を取得してもよい。関連文書抽出部17は、期間情報に更に基づいて、文書記憶部12に記憶されている複数の文書から関連文書集合を抽出する。つまり、関連文書抽出部17は、対象イベント名称及びN個の抽出元特徴語に加えて、更に開催期間を用いて検索を行い、文書記憶部12に記憶されている複数の文書から、対象イベント名称、N個の抽出元特徴語、及び開催期間の全てを含む文書の群を抽出し、関連文書集合とする。この場合、対象イベント名称及び抽出元特徴語に加えて、期間情報を更に用いることによって、関連文書の抽出精度を向上することが可能となる。
リンク情報が用いられる場合、取得部13は、抽出元文書に含まれるリンク情報を更に取得し、リンク情報を関連文書抽出部17に出力する。取得部13は、例えば、正規表現を用いて抽出元文書からリンク情報を直接取得する。関連文書抽出部17は、リンク情報に更に基づいて、文書記憶部12に記憶されている複数の文書から関連文書集合を抽出する。つまり、関連文書抽出部17は、対象イベント名称及びN個の抽出元特徴語に加えて、更にリンク情報を用いて検索を行い、文書記憶部12に記憶されている複数の文書から、対象イベント名称、N個の抽出元特徴語、及びリンク情報の全てを含む文書の群を抽出し、関連文書集合とする。この場合、対象イベント名称及び抽出元特徴語に加えて、リンク情報を更に用いることによって、関連文書の抽出精度を向上することが可能となる。
また、文書集合抽出部14は、文書記憶部12に記憶されている複数の文書のうち、イベントの場所名称、期間情報、及びリンク情報の少なくともいずれかを用いて検索し、場所名称、期間情報、及びリンク情報の少なくともいずれかを含む文書を抽出した上で、抽出した文書から更に対象イベント名称を含む文書を対象語文書集合として抽出してもよい。
なお、イベントの場所名称、期間情報、及びリンク情報を用いた検索では、イベントの場所名称、期間情報、及びリンク情報の部分一致が用いられてもよい。例えば、関連文書抽出部17は、リンク情報全体ではなく、ドメイン情報及びFQDN(Fully Qualified Domain Name)等のリンク情報の一部を用いて検索を行ってもよい。
10…関連文書抽出装置、12…文書記憶部、13…取得部、14…文書集合抽出部、15…リスト生成部、16…特定部、17…関連文書抽出部。
Claims (6)
- 検索対象の単語である対象語に関連する文書を抽出する関連文書抽出装置であって、
複数の文書を記憶する文書記憶手段と、
前記対象語及び前記対象語が抽出された抽出元の文書である抽出元文書を取得する取得手段と、
前記文書記憶手段に記憶されている前記複数の文書から、前記対象語を含む文書の集合である第1文書集合を抽出する第1抽出手段と、
前記抽出元文書、前記複数の文書、及び前記第1文書集合に基づいて前記抽出元文書に含まれる特徴的な単語である第1特徴語を特定する第1特定手段と、
前記対象語及び前記第1特徴語に基づいて、前記抽出元文書における前記対象語の意味に関連する文書の集合である第2文書集合を前記複数の文書から抽出し、前記第2文書集合を出力する第2抽出手段と、
を備える関連文書抽出装置。 - 前記第1文書集合及び前記複数の文書に基づいて、前記第1文書集合に含まれる特徴的な単語である複数の第2特徴語を特定する第2特定手段を更に備え、
前記第1特定手段は、前記複数の第2特徴語のうち、前記抽出元文書に含まれている第2特徴語を前記第1特徴語として特定する、請求項1に記載の関連文書抽出装置。 - 前記第2抽出手段は、前記複数の文書から前記対象語及び前記第1特徴語を含む文書の集合を前記第2文書集合として抽出する、請求項1又は請求項2に記載の関連文書抽出装置。
- 前記取得手段は、前記抽出元文書に含まれる場所を示す場所名称を更に取得し、
前記第2抽出手段は、前記場所名称に更に基づいて、前記複数の文書から前記第2文書集合を抽出する、請求項1〜請求項3のいずれか一項に記載の関連文書抽出装置。 - 前記取得手段は、前記抽出元文書に含まれるリンク情報を更に取得し、
前記第2抽出手段は、前記リンク情報に更に基づいて、前記複数の文書から前記第2文書集合を抽出し、
前記リンク情報は、ネットワーク上のデータの場所を示す情報である、請求項1〜請求項4のいずれか一項に記載の関連文書抽出装置。 - 前記対象語がイベントを示すイベント名称であり、
前記取得手段は、前記抽出元文書に含まれる前記イベントの開催期間を示す期間情報を更に取得し、
前記第2抽出手段は、前記期間情報に更に基づいて、前記複数の文書から前記第2文書集合を抽出する、請求項1〜請求項5のいずれか一項に記載の関連文書抽出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016102203A JP2017211687A (ja) | 2016-05-23 | 2016-05-23 | 関連文書抽出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016102203A JP2017211687A (ja) | 2016-05-23 | 2016-05-23 | 関連文書抽出装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017211687A true JP2017211687A (ja) | 2017-11-30 |
Family
ID=60475530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016102203A Pending JP2017211687A (ja) | 2016-05-23 | 2016-05-23 | 関連文書抽出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017211687A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022095608A (ja) * | 2021-05-19 | 2022-06-28 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | イベントライブラリ構築方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム |
-
2016
- 2016-05-23 JP JP2016102203A patent/JP2017211687A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022095608A (ja) * | 2021-05-19 | 2022-06-28 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | イベントライブラリ構築方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102050982B1 (ko) | 수신자의 언어, 국제화 및 현지화 선호들에 기초하여 아웃고잉 메시지들을 발생시키는 기술들 | |
US9311286B2 (en) | Intelligent automatic expansion/contraction of abbreviations in text-based electronic communications | |
JP2018026178A (ja) | ユーザコンタクトエントリのデータ設定 | |
US20150195359A1 (en) | Computer device for reading e-book and server for being connected with the same | |
JP2017521769A (ja) | ログインアカウントのプロンプト | |
US20120330955A1 (en) | Document similarity calculation device | |
CN106959976B (zh) | 一种搜索处理方法以及装置 | |
US20240020305A1 (en) | Systems and methods for automatic archiving, sorting, and/or indexing of secondary message content | |
US10289739B1 (en) | System to recommend content based on trending social media topics | |
CN105893396B (zh) | 基于附近位置来解释用户查询 | |
US20150199382A1 (en) | Related content retrieval device and related content retrieval method | |
CN109815235B (zh) | 生成数据源的方法、装置、存储介质及电子设备 | |
JP2017211687A (ja) | 関連文書抽出装置 | |
CN111552527A (zh) | 用户界面内文字翻译方法、装置、系统及存储介质 | |
US20190114372A1 (en) | System and method for determining contact names that may identify the same person | |
Orthuber | Global predefinition of digital information | |
KR101583073B1 (ko) | 기사 요약 서비스 서버 및 방법 | |
US10664332B2 (en) | Application programming interfaces for identifying, using, and managing trusted sources in online and networked content | |
JP6079207B2 (ja) | キーワード提示プログラム、キーワード提示方法及びキーワード提示装置 | |
JP2017211688A (ja) | 曖昧性判定装置 | |
JP6246626B2 (ja) | 音声合成システム、音声変換支援装置および音声変換支援方法 | |
US20190114371A1 (en) | System and method for managing contact names that identify the same person | |
CN110807089B (zh) | 一种问答方法、装置及电子设备 | |
JP2014085874A (ja) | 情報検索装置、情報検索システム、及び情報検索方法 | |
KR20130118046A (ko) | Sns를 통한 과학기술정보 검색 시스템 및 방법 |