JP2016110165A

JP2016110165A - イベント情報抽出装置、イベント情報抽出方法及びイベント情報抽出プログラム

Info

Publication number: JP2016110165A
Application number: JP2014243597A
Authority: JP
Inventors: 要船越; Kaname Funakoshi; 義昌小池; Yoshimasa Koike
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-12-02
Filing date: 2014-12-02
Publication date: 2016-06-20

Abstract

【課題】文書群から同一イベントのイベント情報の集合を抽出するにあたり文書群から抽出された一群のイベント情報の同一性を精度よく判定すること。【解決手段】文書群から抽出された複数のイベント情報の同一性を判定するイベント情報抽出装置１であって、文書群から抽出されたイベント名称，開催場所並びに開催日時を含むイベント情報とこのイベント情報を開示した文書内容に基づき当該イベント情報のイベント名称，開催場所，開催日時並びに文書内容の特徴ベクトルを生成する特徴ベクトル生成部２０と、前記文書群から抽出された全てのイベント情報の対について前記イベント名称，開催場所，開催日時並びに文書内容の特徴ベクトルの類似度に基づきイベント情報間の類似度を算出する類似度計算部３０と、前記類似度の閾値を超えた前記イベント情報の対を同一イベントであると判断して同一イベントの集合に含ませる同一性判定計算部４０を備える。【選択図】図１

Description

本発明は、イベント情報を開示した複数の文書（例えばソーシャルテキスト）からイベント情報を抽出する技術に関し、特に、イベント情報の同一性を判定する技術に関する。

ブログに代表されるソーシャルテキストから地域イベント情報を抽出する技術が提案されている。例えば、ソーシャルテキストに含まれる名前、場所、日時の三つ組を、構造情報を利用して抽出し、地域イベントとして保存する方法が提案されている（非特許文献１）。この方法によれば、ブログ等のソーシャルテキストに記述されたイベント情報を保存し、再利用することが可能となる。また、文書間の類似度を計算する方法としては、情報検索分野で利用されているキーワードベクトルを比較する方法が知られている（非特許文献２）。

数原良彦、鈴木潤、鷲崎誠司，「構造学習を用いたテキストからの地域イベント情報抽出」，人工知能学会全国大会２０１３北研二，津田和彦，獅々堀正幹，「情報検索アルゴリズム」，共立出版，２００２

しかしながら、収集されたイベント情報の同一性の判定において、抽出されたイベント名称、開催地、開催日時の表現の揺れを考慮した方法はない。

本発明は、上記の事情に鑑み、文書群から同一イベントのイベント情報の集合を抽出するにあたり文書群から抽出された一群のイベント情報の同一性を精度よく判定することを課題とする。

そこで、本発明は、文書群からイベント情報を抽出するにあたり、文書群から抽出されたイベント情報間の同一性について、イベント名称の類似度、開催場所の類似度、開催日時の類似度、イベント情報を開示した文書内容の類似度に基づき判断する。

本発明のイベント情報抽出装置の態様としては、文書群から抽出された複数のイベント情報の同一性を判定するイベント情報抽出装置であって、文書群から抽出されたイベント名称，開催場所並びに開催日時を含むイベント情報とこのイベント情報を開示した文書内容に基づき当該イベント情報のイベント名称，開催場所，開催日時並びに文書内容の特徴ベクトルを生成する特徴ベクトル生成手段と、前記文書群から抽出された全てのイベント情報の対について前記イベント名称，開催場所，開催日時並びに文書内容の特徴ベクトルの類似度に基づきイベント情報間の類似度を算出する類似度計算手段と、前記類似度の閾値を超えた前記イベント情報の対を同一イベントであると判断して同一イベントの集合に含ませる同一性判定計算手段とを備える。

また、本発明のイベント情報抽出方法としては、文書群から抽出された複数のイベント情報の同一性を判定するイベント情報抽出装置が実行するイベント情報抽出方法であって、文書群から抽出されたイベント名称，開催場所並びに開催日時を含むイベント情報とこのイベント情報を開示した文書内容に基づき当該イベント情報のイベント名称，開催場所，開催日時並びに文書内容の特徴ベクトルを生成する特徴ベクトル生成ステップと、前記文書群から抽出された全てのイベント情報の対について前記イベント名称，開催場所，開催日時並びに文書内容の特徴ベクトルの類似度に基づきイベント情報間の類似度を算出する類似度計算ステップと、前記類似度の閾値を超えた前記イベント情報の対を同一イベントであると判断して同一イベントの集合に含ませる同一性判定計算ステップとを有する。

尚、本発明は上記装置の各手段としてコンピュータを機能させるプログラムまたは上記方法のステップをコンピュータに実行させるプログラムの態様とすることもできる。

以上の発明によれば文書群から同一イベントのイベント情報の集合を抽出するにあたり文書群から抽出された一群のイベント情報の同一性を精度よく判定できる。

本発明の実施形態としてのイベント情報抽出装置のブロック構成図。同実施形態におけるイベント情報抽出のフローチャート。

以下、図面を参照しながら本発明の実施の形態について説明するが本発明はこの実施形態に限定されるものではない。

［概要］
ソーシャルテキストには複数の文書に同一のイベントについて記述されていることが頻繁に発生する。そのため、ソーシャルテキストから抽出したイベント情報を提供する際には、同一のイベントを集約、排除等するため、同一性の判定を行うことが必要である。

単純には、名前、場所、日時の三つ組が同一であれば、イベントは同一であるとみなすのが妥当である。

しかしながら、ソーシャルテキストから名前、場所、日時を抽出するとき、例えば、以下の事例（１）〜（３）のように、名前、場所、日時それぞれに記述が異なる場合が多く、複数文書に記述された複数の同一のイベント情報を同一のイベントの集合として集約することが困難となる。

（１）イベント名称（以下、イベント名）の表記が異なる場合の事例
２０２０年に開催される東京五輪について、複数文書での記述が異なっている場合に抽出されるイベント名の例を表１に示す。

（２）開催場所の表記が異なる場合の事例
東京都千代田区大手町一丁目５番１号大手町ファーストスクエアで開催されるイベントについて、複数文書での記述が異なっている場合に抽出される場所の例を表２に示す。

（３）開催日時の表記が異なる場合の事例
２０１４年４月５日に開催されるイベントについて、複数文書での記述が異なっている場合にイベント開催日として抽出される日時の例を表３に示す。

そこで、図１に示された本実施形態のイベント情報抽出装置１は、イベントＤＢ２に格納されたイベント情報を読み出してイベント情報に対応する文書情報を文書ＤＢ３から読み出し、イベント情報間の同一性を判定する。同一性判定の結果、同一と判定されたイベント情報の中から不要なものをイベントＤＢ２から削除する。

具体的には、同装置１は、先ず、イベントＤＢ２からイベント情報としてイベント名、開催場所、開催日時、イベント情報を開示した文書内容を読み出し、このイベント情報に対応した文書情報として当該イベント情報を開示した文書テキストを文書ＤＢ３から読み出す。次いで、この読み出したイベント情報及び文書情報に基づき、イベント名、開催場所、開催日時並びに文書情報の特徴ベクトルの生成を行うことにより、４つのベクトル（重み付きリスト）を得る。そして、この得られた４つの特徴ベクトルに基づき、全てのイベントの対についてイベント名、開催場所、開催日時、文書内容の類似度の計算を行い、この類似度の加重和に基づいてイベント間の同一性判定を行う。同一と判定されたイベント群は、同一イベント集合として結果を出力する。結果出力においては、例えば、各同一イベント集合について、一つのイベント情報を選択し、残りのイベント情報は不要としてイベントＤＢ２から削除する。

イベントＤＢ２の一例を表４に示す。イベントＤＢ２には、イベント情報を特定するためのイベントＩＤ、抽出されたイベント名、開催地、開催場所、表示しないイベントであることを示す非表示フラグ、抽出元となった元文書ＩＤ、及びイベント情報がイベントＤＢ２に格納された更新日の組を含む。

文書ＤＢ３の一例を表５に示す。文書ＤＢ３には、イベントＤＢ２の元文書ＩＤから参照可能な文書ＩＤ、更新日、本文テキストを含む。文書ＩＤとしては、ＵＲＩ等が使用できる。本文テキストは、テキストそのまま、あるいは事前に形態素解析されているものが使用できる。

［装置の構成］
イベント情報抽出装置１は、図１に示されたように、読み出し部１０，特徴ベクトル生成部２０，類似度計算部３０，同一性判定計算部４０，結果出力部５０を備える。

読み出し部１０は、イベントＤＢ２からイベント情報を読み出し、このイベント情報に対応した文書情報を文書ＤＢ３から読み出す。

特徴ベクトル生成部２０は、文書ＤＢ３から読み出された文書群から抽出されたイベント名称，開催場所並びに開催日時を含むイベント情報とこのイベント情報を開示した文書内容に基づき当該イベント情報のイベント名称，開催場所，開催日時並びに文書内容の特徴ベクトルを生成する。

類似度計算部３０は、前記文書群から抽出された全てのイベント情報の対について前記イベント名称，開催場所，開催日時並びに文書内容の特徴ベクトルの類似度に基づきイベント情報間の類似度を算出する。

同一性判定計算部４０は、前記類似度の閾値を超えた前記イベント情報の対を同一イベントであると判断して同一イベントの集合に含ませてイベントＤＢ２に保存する。

結果出力部５０は、イベントＤＢ２に保存された同一イベントの集合からイベント情報を任意に選択して出力する。

以上のイベント情報抽出装置１の各機能部２，３，１０〜５０はコンピュータのハードウェアリソースによって実現される。すなわち、イベント情報抽出装置１は、少なくとも演算装置（ＣＰＵ）、記憶装置（メモリ、ハードディスク装置等）、通信インタフェース等のコンピュータに係るハードウェアリソースを備える。そして、これらのハードウェアリソースがソフトウェアリソース（ＯＳ、アプリケーション等）と協働することにより各機能部２，３，１０〜５０が実装される。また、各々のコンピュータに機能部２，３，１０〜５０を各々実装させるようにしてもよい。

［本実施形態のイベント情報抽出過程の説明］
図１，２を参照して本実施形態のイベント情報抽出過程について説明する。

Ｓ１：情報読み出し部１０は、イベントＤＢ２からイベント情報を読み出す。

Ｓ２：情報読み出し部１０は、文書ＤＢ３から前記読み出した各イベント情報についての文書情報を読み出す。

Ｓ３：特徴ベクトル生成部２０は、文書ＤＢ３から読み出された文書群から抽出されたイベント名称，開催場所並びに開催日時を含むイベント情報とこのイベント情報を開示した文書内容に基づき当該イベント情報のイベント名称，開催場所，開催日時並びに文書内容の特徴ベクトルを生成する。以下に各特徴ベクトルの具体的な生成法（１）〜（４）について説明する。

（１）イベント名の特徴ベクトルの生成
イベント名からの特徴ベクトルの生成にあたり、イベント名を形態素解析して語幹とそのプレフィクス並びにサフィックスとに分割する。次いで、「語幹に対する重み」をｗ_stem、「プレフィクスに対する重み」をｗ_prefix、「サフィックスに対する重み」をｗ_suffix、「重みｗ_stemと重みｗ_prefixとの関係」をｗ_stem＝Ｌｗ_prefix（Ｌ＞１）、「重みｗ_stemと重みｗ_suffixとの関係」をｗ_stem＝Ｌｗ_suffix（Ｌ＞１）として、重み付けして特徴ベクトルを生成する。Ｌの値を十分に大きな数とすることにより、語幹の重要度を高めることができる。

（２）開催場所の特徴ベクトルの生成
イベント開催場所の類似度については、単純には地理上の距離から算出できる。この場合は単純な２次元ベクトル計算となる。しかし、地理上の距離に基づくと、隣接している異なる地域の方が、同一地域内で離れた場所より類似していると判断されることがある。例えば、「東京都文京区」の代表点について、「東京都文京区本駒込」より「東京都千代田区三崎町」の方が地理上の距離は近いが、文書中のイベント開催地の観点では、「東京都文京区本駒込」の方が「東京都千代田区三崎町」より類似しているとみるべきである。

イベントＤＢ２内の開催地が住所を含めて抽出されているとして、イベントの特徴ベクトルとして利用することを考える。

表２において、イベントＤＢ２内の開催地として「抽出される場所」が格納されていることを想定する。このとき、住所を都道府県、市区町村等の階層化に従って分割すると、単語のリストが作成される。これを表６に示す。

イベントｉの開催地階層分割リストを、ｐｌｉｓｔ_iとすると、ｉの開催地ベクトルｐ_iは、以下のように生成できる。

ｐｌｉｓｔ_iのｊ番目の要素について、重みをｖ_j{ QUOTE ,}として、相当するベクトル要素に代入する。ここで、ｖ_jは階層に対する重みで、以下の式（１）のように定められる。

これにより、開催地について、階層が上の地名についてより重くして地名の類似度を計算することができる。

（３）開催日時の特徴ベクトルの生成
イベント開催日時についても特徴ベクトル化による類似度計算が可能となる。

表３に示した日時から、日単位で集合にしたもの、時刻を階層的に並べたものをリスト化したものを表７に示す。

表７の日付リストの作成方法について説明する。日付リストは１つ以上の要素からなる順序つきリストであり、第１要素は日付の集合、第２要素以降は時間、分、秒など、更に微細な時刻単位の集合を示す。１番目の例では、２０１４年４月１日から４月１０日までの１０個の日付要素を持つ集合が第１要素になる。時刻より微細な時刻は指定されていないため、第１要素のみからなるリストとなる。また４番目の例では、日付リストの第1要素は２０１４年４月５日を唯一の要素とする集合であり、第２要素は「１９時台」を示す１９を唯一の要素とする集合であり、第３要素は「００分」を示す００を唯一の要素とする集合である。

イベントｉの開催日時時刻階層分割リストをｔｌｉｓｔ_iとすると、イベントｉの開催日ベクトルｔ_iは以下のように生成できる。

ｔｌｉｓｔ_iの第１要素は日の集合であり、ここに含まれている日についてベクトルｔ_iの要素の値を１とする。ｔｌｉｓｔ_iの第２要素以降は時刻の階層分割であり、ｔｌｉｓｔ_iのｊ番目（ｊ≧１）の要素について、重みをｕ_jとして、相当するベクトル要素に代入する。ここで、ｕ_jは階層に対する重みで、以下の式（２）のように定められる。

式（２）において、Ｌ＞１は日と時間の重みの差であり、大きくすると日の重みを増し、少なくすると時刻の重みを増すことができる。

これにより、開催日時について、開催日が重なっているほどより高い類似度となり、時刻より日が一致しているほどより高い類似度となるように、特徴ベクトルを用いて日時の類似度を計算することができる。

（４）文書内容の特徴ベクトルの生成
文書内容からの特徴ベクトル生成については、文書内容の形態素解析を行ない、出現した自立語の頻度あるいは出現有無に応じた単語の特徴ベクトルを生成することにより、文書内容の特徴ベクトルを生成する。

（５）開催場所、開催日時と文書テキストの統合
以上の生成されたイベント情報の開催場所並びに開催日時の特徴ベクトルは、当該イベント情報を開示した文書内容から抽出した単語の特徴ベクトルに対して一定の重みをかけて含めることができる。これにより、前記文書内容のテキストと、抽出された開催値、開催日時との組み合わせによってイベント間の同一性判定が可能となる。

Ｓ４：類似度計算部３０は、前記生成されたイベントのイベント名，開催場所，開催日時並びに文書内容の特徴ベクトルに基づきイベント間の類似度を計算する。

イベント間の類似度は、イベントｅｖ_xのイベント名、開催地、開催日時、内容についての特徴ベクトルをそれぞれｅｖ_x,n，ｅｖ_x,p，ｅｖ_x,t，ｅｖ_x,c{ QUOTE ,}とすると、以下の式（３）によって算出される。

式（３）において、ｓｉｍ（ｘ，ｙ）は、２つのベクトル間の類似度を表し、コサイン距離などで算出される。また、ａ_uはイベント名、開催地、開催日時、内容の重要度を示すベクトルａ＝（ａ_n，ａ_p，ａ_t，ａ_c）の要素であり、実験的に算出される。イベントＤＢ２内の全てのイベント情報について類似度の計算が行われる。

Ｓ５：同一性判定計算部４０は、ステップＳ４において算出されたイベント情報の類似度の閾値を超えた前記イベント情報の対を同一イベントであると判断して同一イベントの集合に含ませてイベントＤＢ２に保存する。

すなわち、イベントＤＢ２内の全てのイベント情報について、予め定めた閾値より大きな類似度となっているイベント情報群は、同一イベントの情報であると判定し、同一イベント集合に含ませる。

あるイベント情報について、複数のイベント情報が同一イベントであると判定された場合は、それら全てを同一イベント集合に含める。最終的には、同一イベント集合に含まれたイベント情報は、全て同一のイベントであるとみなされる。

Ｓ６：結果出力部５０は、イベントＤＢ２に保存された同一イベントの集合からイベント情報を任意に選択して出力する。同一イベント集合からのイベント情報の選択方式としては例えば以下の選択法（１）（２）が挙げられる。

（１）文書作成日に基づく選択
イベント情報を開示した文書の作成日について、最も古いものを正であるとして選択し、残りの新しく記述された文書から抽出されたイベント情報を削除する。

（２）イベント情報の詳細度に基づく選択
類似度計算におけるベクトル（重み付けリスト）について、開催地及び開催日時の階層がより深いものを選択する。つまり、開催地や開催日時の記述がより詳細なイベント情報を選択する。同じ詳細度のイベント情報が複数あった場合は、他の手法を組み合わせる。

［本実施形態の効果］
以上説明したように、本実施形態のイベント情報抽出装置１によれば、イベントの同一性の判断にあたり、イベント名による類似度、開催場所による類似度、開催日時による類似度、イベント情報を抽出した元の文書の内容類似度の４つの観点から、重み付き加重和でイベントの同一性を判断する。したがって、文書群からイベント情報を抽出するにあたり、イベント情報に関する表現の揺れを吸収して、文書群から抽出された一群のイベント情報の同一性を精度よく判定できる。よって、イベント名、場所、日時それぞれに記述が異なる場合が多い場合であっても、複数文書に記述された同一のイベント情報を同一のイベントの集合として精度よく容易に集約できる。

特に、Ｓ３の特徴ベクトル生成ステップでは、イベント情報のイベント名，開催場所，開催日時並びに文書内容の特徴ベクトルの要素が重み付けされる。これにより、Ｓ４の類似度計算ステップに供されるイベント名、開催場所、開催日時、文書内容の重要度を高めることができる。

また、Ｓ４の類似度計算ステップでは、前記重み付けされたイベント情報のイベント名，開催場所，開催日時並びに文書内容の特徴ベクトルの加重和によってイベント間の類似度が計算される。このように、イベント名，開催場所，開催日時並びに文書内容の重みが加味されることにより、イベント情報間の同一性判断の精度を高めることができる。

さらに、Ｓ５の結果出力ステップでは、同一イベントの集合から最も作成日の古いイベント情報の集合が選択される。したがって、イベント情報の発信源に近い同一のイベント情報の集合を抽出できる。

また、Ｓ５の結果出力ステップでは、同一イベントの集合からイベント情報の詳細度（例えばイベントの開催場所及び開催日時が詳細なもの）に基づきイベント情報の集合が選択される。したがって、イベント情報の詳細度に依存した同一のイベント情報の集合を抽出できる。

［本発明の他の態様］
本発明は、イベント情報抽出装置１を構成する上記の機能部２，３，１０〜５０の一部若しくは全てとしてコンピュータを機能させるプログラムで構成しこれを当該コンピュータに実行させることにより実現できる。または、同装置１が実行する上記のステップＳ１〜Ｓ６の一部若しくは全てをコンピュータに実行させるプログラムで構成しこれを当該コンピュータに実行させることにより実現できる。そして、このプログラムをそのコンピュータが読み取り可能な周知の記録媒体（例えば、ハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ等）に格納して提供できる。または、前記プログラムをインターネットや電子メール等でネットワークを介して提供できる。

尚、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更、応用が可能である。

１…イベント情報抽出装置
２…イベントＤＢ（イベントデータベース）
３…文書ＤＢ（文書データベース）
１０…読み出し部
２０…特徴ベクトル生成部（特徴ベクトル生成手段）
３０…類似度計算部（類似度計算手段）
４０…同一性判定計算部（同一性判定計算手段）
５０…結果出力部（結果出力手段）

Claims

文書群から抽出された複数のイベント情報の同一性を判定するイベント情報抽出装置であって、
文書群から抽出されたイベント名称，開催場所並びに開催日時を含むイベント情報とこのイベント情報を開示した文書内容に基づき当該イベント情報のイベント名称，開催場所，開催日時並びに文書内容の特徴ベクトルを生成する特徴ベクトル生成手段と、
前記文書群から抽出された全てのイベント情報の対について前記イベント名称，開催場所，開催日時並びに文書内容の特徴ベクトルの類似度に基づきイベント情報間の類似度を算出する類似度計算手段と、
前記類似度の閾値を超えた前記イベント情報の対を同一イベントであると判断して同一イベントの集合に含ませる同一性判定計算手段と
を備えたこと
を特徴とするイベント情報抽出装置。
前記特徴ベクトル生成手段は、イベント情報のイベント名称，開催場所，開催日時並びに文書内容の特徴ベクトルの要素を重み付けすることを特徴とする請求項１に記載のイベント情報抽出装置。
前記類似度計算手段は、前記重み付けされたイベント情報のイベント名称，開催場所，開催日時並びに文書内容の特徴ベクトルの加重和によってイベント情報間の類似度を計算することを特徴とする請求項２に記載のイベント情報抽出装置。
前記同一イベントの集合から最も作成日の古いイベント情報の集合を選択して出力する結果出力手段をさらに備えたことを特徴とする請求項１から３のいずれか１項に記載のイベント情報抽出装置。
前記同一イベントの集合からイベント情報の詳細度に基づきイベント情報の集合を選択して出力する結果出力手段をさらに備えたことを特徴とする請求項１から３のいずれか１項に記載のイベント情報抽出装置。
文書群から抽出された複数のイベント情報の同一性を判定するイベント情報抽出装置が実行するイベント情報抽出方法であって、
文書群から抽出されたイベント名称，開催場所並びに開催日時を含むイベント情報とこのイベント情報を開示した文書内容に基づき当該イベント情報のイベント名称，開催場所，開催日時並びに文書内容の特徴ベクトルを生成する特徴ベクトル生成ステップと、
前記文書群から抽出された全てのイベント情報の対について前記イベント名称，開催場所，開催日時並びに文書内容の特徴ベクトルの類似度に基づきイベント情報間の類似度を算出する類似度計算ステップと、
前記類似度の閾値を超えた前記イベント情報の対を同一イベントであると判断して同一イベントの集合に含ませる同一性判定計算ステップと
を有すること
を特徴とするイベント情報抽出方法。
前記特徴ベクトル生成ステップにおいては、イベント情報のイベント名称，開催場所，開催日時並びに文書内容の特徴ベクトルの要素を重み付けすることを特徴とする請求項６に記載のイベント情報抽出方法。
コンピュータを請求項１から５のいずれか１項に記載のイベント情報抽出装置を構成する各手段として機能させることを特徴とするイベント情報抽出プログラム。