JP2016110165A - イベント情報抽出装置、イベント情報抽出方法及びイベント情報抽出プログラム - Google Patents
イベント情報抽出装置、イベント情報抽出方法及びイベント情報抽出プログラム Download PDFInfo
- Publication number
- JP2016110165A JP2016110165A JP2014243597A JP2014243597A JP2016110165A JP 2016110165 A JP2016110165 A JP 2016110165A JP 2014243597 A JP2014243597 A JP 2014243597A JP 2014243597 A JP2014243597 A JP 2014243597A JP 2016110165 A JP2016110165 A JP 2016110165A
- Authority
- JP
- Japan
- Prior art keywords
- event
- event information
- date
- document
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】文書群から同一イベントのイベント情報の集合を抽出するにあたり文書群から抽出された一群のイベント情報の同一性を精度よく判定すること。【解決手段】文書群から抽出された複数のイベント情報の同一性を判定するイベント情報抽出装置1であって、文書群から抽出されたイベント名称,開催場所並びに開催日時を含むイベント情報とこのイベント情報を開示した文書内容に基づき当該イベント情報のイベント名称,開催場所,開催日時並びに文書内容の特徴ベクトルを生成する特徴ベクトル生成部20と、前記文書群から抽出された全てのイベント情報の対について前記イベント名称,開催場所,開催日時並びに文書内容の特徴ベクトルの類似度に基づきイベント情報間の類似度を算出する類似度計算部30と、前記類似度の閾値を超えた前記イベント情報の対を同一イベントであると判断して同一イベントの集合に含ませる同一性判定計算部40を備える。【選択図】図1
Description
本発明は、イベント情報を開示した複数の文書(例えばソーシャルテキスト)からイベント情報を抽出する技術に関し、特に、イベント情報の同一性を判定する技術に関する。
ブログに代表されるソーシャルテキストから地域イベント情報を抽出する技術が提案されている。例えば、ソーシャルテキストに含まれる名前、場所、日時の三つ組を、構造情報を利用して抽出し、地域イベントとして保存する方法が提案されている(非特許文献1)。この方法によれば、ブログ等のソーシャルテキストに記述されたイベント情報を保存し、再利用することが可能となる。また、文書間の類似度を計算する方法としては、情報検索分野で利用されているキーワードベクトルを比較する方法が知られている(非特許文献2)。
数原良彦、鈴木潤、鷲崎誠司,「構造学習を用いたテキストからの地域イベント情報抽出」,人工知能学会全国大会2013
北研二,津田和彦,獅々堀正幹,「情報検索アルゴリズム」,共立出版,2002
しかしながら、収集されたイベント情報の同一性の判定において、抽出されたイベント名称、開催地、開催日時の表現の揺れを考慮した方法はない。
本発明は、上記の事情に鑑み、文書群から同一イベントのイベント情報の集合を抽出するにあたり文書群から抽出された一群のイベント情報の同一性を精度よく判定することを課題とする。
そこで、本発明は、文書群からイベント情報を抽出するにあたり、文書群から抽出されたイベント情報間の同一性について、イベント名称の類似度、開催場所の類似度、開催日時の類似度、イベント情報を開示した文書内容の類似度に基づき判断する。
本発明のイベント情報抽出装置の態様としては、文書群から抽出された複数のイベント情報の同一性を判定するイベント情報抽出装置であって、文書群から抽出されたイベント名称,開催場所並びに開催日時を含むイベント情報とこのイベント情報を開示した文書内容に基づき当該イベント情報のイベント名称,開催場所,開催日時並びに文書内容の特徴ベクトルを生成する特徴ベクトル生成手段と、前記文書群から抽出された全てのイベント情報の対について前記イベント名称,開催場所,開催日時並びに文書内容の特徴ベクトルの類似度に基づきイベント情報間の類似度を算出する類似度計算手段と、前記類似度の閾値を超えた前記イベント情報の対を同一イベントであると判断して同一イベントの集合に含ませる同一性判定計算手段とを備える。
また、本発明のイベント情報抽出方法としては、文書群から抽出された複数のイベント情報の同一性を判定するイベント情報抽出装置が実行するイベント情報抽出方法であって、文書群から抽出されたイベント名称,開催場所並びに開催日時を含むイベント情報とこのイベント情報を開示した文書内容に基づき当該イベント情報のイベント名称,開催場所,開催日時並びに文書内容の特徴ベクトルを生成する特徴ベクトル生成ステップと、前記文書群から抽出された全てのイベント情報の対について前記イベント名称,開催場所,開催日時並びに文書内容の特徴ベクトルの類似度に基づきイベント情報間の類似度を算出する類似度計算ステップと、前記類似度の閾値を超えた前記イベント情報の対を同一イベントであると判断して同一イベントの集合に含ませる同一性判定計算ステップとを有する。
尚、本発明は上記装置の各手段としてコンピュータを機能させるプログラムまたは上記方法のステップをコンピュータに実行させるプログラムの態様とすることもできる。
以上の発明によれば文書群から同一イベントのイベント情報の集合を抽出するにあたり文書群から抽出された一群のイベント情報の同一性を精度よく判定できる。
以下、図面を参照しながら本発明の実施の形態について説明するが本発明はこの実施形態に限定されるものではない。
[概要]
ソーシャルテキストには複数の文書に同一のイベントについて記述されていることが頻繁に発生する。そのため、ソーシャルテキストから抽出したイベント情報を提供する際には、同一のイベントを集約、排除等するため、同一性の判定を行うことが必要である。
ソーシャルテキストには複数の文書に同一のイベントについて記述されていることが頻繁に発生する。そのため、ソーシャルテキストから抽出したイベント情報を提供する際には、同一のイベントを集約、排除等するため、同一性の判定を行うことが必要である。
単純には、名前、場所、日時の三つ組が同一であれば、イベントは同一であるとみなすのが妥当である。
しかしながら、ソーシャルテキストから名前、場所、日時を抽出するとき、例えば、以下の事例(1)〜(3)のように、名前、場所、日時それぞれに記述が異なる場合が多く、複数文書に記述された複数の同一のイベント情報を同一のイベントの集合として集約することが困難となる。
(1)イベント名称(以下、イベント名)の表記が異なる場合の事例
2020年に開催される東京五輪について、複数文書での記述が異なっている場合に抽出されるイベント名の例を表1に示す。
2020年に開催される東京五輪について、複数文書での記述が異なっている場合に抽出されるイベント名の例を表1に示す。
(2)開催場所の表記が異なる場合の事例
東京都千代田区大手町一丁目5番1号大手町ファーストスクエアで開催されるイベントについて、複数文書での記述が異なっている場合に抽出される場所の例を表2に示す。
東京都千代田区大手町一丁目5番1号大手町ファーストスクエアで開催されるイベントについて、複数文書での記述が異なっている場合に抽出される場所の例を表2に示す。
(3)開催日時の表記が異なる場合の事例
2014年4月5日に開催されるイベントについて、複数文書での記述が異なっている場合にイベント開催日として抽出される日時の例を表3に示す。
2014年4月5日に開催されるイベントについて、複数文書での記述が異なっている場合にイベント開催日として抽出される日時の例を表3に示す。
そこで、図1に示された本実施形態のイベント情報抽出装置1は、イベントDB2に格納されたイベント情報を読み出してイベント情報に対応する文書情報を文書DB3から読み出し、イベント情報間の同一性を判定する。同一性判定の結果、同一と判定されたイベント情報の中から不要なものをイベントDB2から削除する。
具体的には、同装置1は、先ず、イベントDB2からイベント情報としてイベント名、開催場所、開催日時、イベント情報を開示した文書内容を読み出し、このイベント情報に対応した文書情報として当該イベント情報を開示した文書テキストを文書DB3から読み出す。次いで、この読み出したイベント情報及び文書情報に基づき、イベント名、開催場所、開催日時並びに文書情報の特徴ベクトルの生成を行うことにより、4つのベクトル(重み付きリスト)を得る。そして、この得られた4つの特徴ベクトルに基づき、全てのイベントの対についてイベント名、開催場所、開催日時、文書内容の類似度の計算を行い、この類似度の加重和に基づいてイベント間の同一性判定を行う。同一と判定されたイベント群は、同一イベント集合として結果を出力する。結果出力においては、例えば、各同一イベント集合について、一つのイベント情報を選択し、残りのイベント情報は不要としてイベントDB2から削除する。
イベントDB2の一例を表4に示す。イベントDB2には、イベント情報を特定するためのイベントID、抽出されたイベント名、開催地、開催場所、表示しないイベントであることを示す非表示フラグ、抽出元となった元文書ID、及びイベント情報がイベントDB2に格納された更新日の組を含む。
文書DB3の一例を表5に示す。文書DB3には、イベントDB2の元文書IDから参照可能な文書ID、更新日、本文テキストを含む。文書IDとしては、URI等が使用できる。本文テキストは、テキストそのまま、あるいは事前に形態素解析されているものが使用できる。
[装置の構成]
イベント情報抽出装置1は、図1に示されたように、読み出し部10,特徴ベクトル生成部20,類似度計算部30,同一性判定計算部40,結果出力部50を備える。
イベント情報抽出装置1は、図1に示されたように、読み出し部10,特徴ベクトル生成部20,類似度計算部30,同一性判定計算部40,結果出力部50を備える。
読み出し部10は、イベントDB2からイベント情報を読み出し、このイベント情報に対応した文書情報を文書DB3から読み出す。
特徴ベクトル生成部20は、文書DB3から読み出された文書群から抽出されたイベント名称,開催場所並びに開催日時を含むイベント情報とこのイベント情報を開示した文書内容に基づき当該イベント情報のイベント名称,開催場所,開催日時並びに文書内容の特徴ベクトルを生成する。
類似度計算部30は、前記文書群から抽出された全てのイベント情報の対について前記イベント名称,開催場所,開催日時並びに文書内容の特徴ベクトルの類似度に基づきイベント情報間の類似度を算出する。
同一性判定計算部40は、前記類似度の閾値を超えた前記イベント情報の対を同一イベントであると判断して同一イベントの集合に含ませてイベントDB2に保存する。
結果出力部50は、イベントDB2に保存された同一イベントの集合からイベント情報を任意に選択して出力する。
以上のイベント情報抽出装置1の各機能部2,3,10〜50はコンピュータのハードウェアリソースによって実現される。すなわち、イベント情報抽出装置1は、少なくとも演算装置(CPU)、記憶装置(メモリ、ハードディスク装置等)、通信インタフェース等のコンピュータに係るハードウェアリソースを備える。そして、これらのハードウェアリソースがソフトウェアリソース(OS、アプリケーション等)と協働することにより各機能部2,3,10〜50が実装される。また、各々のコンピュータに機能部2,3,10〜50を各々実装させるようにしてもよい。
[本実施形態のイベント情報抽出過程の説明]
図1,2を参照して本実施形態のイベント情報抽出過程について説明する。
図1,2を参照して本実施形態のイベント情報抽出過程について説明する。
S1:情報読み出し部10は、イベントDB2からイベント情報を読み出す。
S2:情報読み出し部10は、文書DB3から前記読み出した各イベント情報についての文書情報を読み出す。
S3:特徴ベクトル生成部20は、文書DB3から読み出された文書群から抽出されたイベント名称,開催場所並びに開催日時を含むイベント情報とこのイベント情報を開示した文書内容に基づき当該イベント情報のイベント名称,開催場所,開催日時並びに文書内容の特徴ベクトルを生成する。以下に各特徴ベクトルの具体的な生成法(1)〜(4)について説明する。
(1)イベント名の特徴ベクトルの生成
イベント名からの特徴ベクトルの生成にあたり、イベント名を形態素解析して語幹とそのプレフィクス並びにサフィックスとに分割する。次いで、「語幹に対する重み」をwstem、「プレフィクスに対する重み」をwprefix、「サフィックスに対する重み」をwsuffix、「重みwstemと重みwprefixとの関係」をwstem=Lwprefix(L>1)、「重みwstemと重みwsuffixとの関係」をwstem=Lwsuffix(L>1)として、重み付けして特徴ベクトルを生成する。Lの値を十分に大きな数とすることにより、語幹の重要度を高めることができる。
イベント名からの特徴ベクトルの生成にあたり、イベント名を形態素解析して語幹とそのプレフィクス並びにサフィックスとに分割する。次いで、「語幹に対する重み」をwstem、「プレフィクスに対する重み」をwprefix、「サフィックスに対する重み」をwsuffix、「重みwstemと重みwprefixとの関係」をwstem=Lwprefix(L>1)、「重みwstemと重みwsuffixとの関係」をwstem=Lwsuffix(L>1)として、重み付けして特徴ベクトルを生成する。Lの値を十分に大きな数とすることにより、語幹の重要度を高めることができる。
(2)開催場所の特徴ベクトルの生成
イベント開催場所の類似度については、単純には地理上の距離から算出できる。この場合は単純な2次元ベクトル計算となる。しかし、地理上の距離に基づくと、隣接している異なる地域の方が、同一地域内で離れた場所より類似していると判断されることがある。例えば、「東京都文京区」の代表点について、「東京都文京区本駒込」より「東京都千代田区三崎町」の方が地理上の距離は近いが、文書中のイベント開催地の観点では、「東京都文京区本駒込」の方が「東京都千代田区三崎町」より類似しているとみるべきである。
イベント開催場所の類似度については、単純には地理上の距離から算出できる。この場合は単純な2次元ベクトル計算となる。しかし、地理上の距離に基づくと、隣接している異なる地域の方が、同一地域内で離れた場所より類似していると判断されることがある。例えば、「東京都文京区」の代表点について、「東京都文京区本駒込」より「東京都千代田区三崎町」の方が地理上の距離は近いが、文書中のイベント開催地の観点では、「東京都文京区本駒込」の方が「東京都千代田区三崎町」より類似しているとみるべきである。
イベントDB2内の開催地が住所を含めて抽出されているとして、イベントの特徴ベクトルとして利用することを考える。
表2において、イベントDB2内の開催地として「抽出される場所」が格納されていることを想定する。このとき、住所を都道府県、市区町村等の階層化に従って分割すると、単語のリストが作成される。これを表6に示す。
イベントiの開催地階層分割リストを、plistiとすると、iの開催地ベクトルpiは、以下のように生成できる。
plistiのj番目の要素について、重みをvj{ QUOTE ,}として、相当するベクトル要素に代入する。ここで、vjは階層に対する重みで、以下の式(1)のように定められる。
これにより、開催地について、階層が上の地名についてより重くして地名の類似度を計算することができる。
(3)開催日時の特徴ベクトルの生成
イベント開催日時についても特徴ベクトル化による類似度計算が可能となる。
イベント開催日時についても特徴ベクトル化による類似度計算が可能となる。
表3に示した日時から、日単位で集合にしたもの、時刻を階層的に並べたものをリスト化したものを表7に示す。
表7の日付リストの作成方法について説明する。日付リストは1つ以上の要素からなる順序つきリストであり、第1要素は日付の集合、第2要素以降は時間、分、秒など、更に微細な時刻単位の集合を示す。1番目の例では、2014年4月1日から4月10日までの10個の日付要素を持つ集合が第1要素になる。時刻より微細な時刻は指定されていないため、第1要素のみからなるリストとなる。また4番目の例では、日付リストの第1要素は2014年4月5日を唯一の要素とする集合であり、第2要素は「19時台」を示す19を唯一の要素とする集合であり、第3要素は「00分」を示す00を唯一の要素とする集合である。
イベントiの開催日時時刻階層分割リストをtlistiとすると、イベントiの開催日ベクトルtiは以下のように生成できる。
tlistiの第1要素は日の集合であり、ここに含まれている日についてベクトルtiの要素の値を1とする。tlistiの第2要素以降は時刻の階層分割であり、tlistiのj番目(j≧1)の要素について、重みをujとして、相当するベクトル要素に代入する。ここで、ujは階層に対する重みで、以下の式(2)のように定められる。
式(2)において、L>1は日と時間の重みの差であり、大きくすると日の重みを増し、少なくすると時刻の重みを増すことができる。
これにより、開催日時について、開催日が重なっているほどより高い類似度となり、時刻より日が一致しているほどより高い類似度となるように、特徴ベクトルを用いて日時の類似度を計算することができる。
(4)文書内容の特徴ベクトルの生成
文書内容からの特徴ベクトル生成については、文書内容の形態素解析を行ない、出現した自立語の頻度あるいは出現有無に応じた単語の特徴ベクトルを生成することにより、文書内容の特徴ベクトルを生成する。
文書内容からの特徴ベクトル生成については、文書内容の形態素解析を行ない、出現した自立語の頻度あるいは出現有無に応じた単語の特徴ベクトルを生成することにより、文書内容の特徴ベクトルを生成する。
(5)開催場所、開催日時と文書テキストの統合
以上の生成されたイベント情報の開催場所並びに開催日時の特徴ベクトルは、当該イベント情報を開示した文書内容から抽出した単語の特徴ベクトルに対して一定の重みをかけて含めることができる。これにより、前記文書内容のテキストと、抽出された開催値、開催日時との組み合わせによってイベント間の同一性判定が可能となる。
以上の生成されたイベント情報の開催場所並びに開催日時の特徴ベクトルは、当該イベント情報を開示した文書内容から抽出した単語の特徴ベクトルに対して一定の重みをかけて含めることができる。これにより、前記文書内容のテキストと、抽出された開催値、開催日時との組み合わせによってイベント間の同一性判定が可能となる。
S4:類似度計算部30は、前記生成されたイベントのイベント名,開催場所,開催日時並びに文書内容の特徴ベクトルに基づきイベント間の類似度を計算する。
イベント間の類似度は、イベントevxのイベント名、開催地、開催日時、内容についての特徴ベクトルをそれぞれevx,n,evx,p,evx,t,evx,c{ QUOTE ,}とすると、以下の式(3)によって算出される。
式(3)において、sim(x,y)は、2つのベクトル間の類似度を表し、コサイン距離などで算出される。また、auはイベント名、開催地、開催日時、内容の重要度を示すベクトルa=(an,ap,at,ac)の要素であり、実験的に算出される。イベントDB2内の全てのイベント情報について類似度の計算が行われる。
S5:同一性判定計算部40は、ステップS4において算出されたイベント情報の類似度の閾値を超えた前記イベント情報の対を同一イベントであると判断して同一イベントの集合に含ませてイベントDB2に保存する。
すなわち、イベントDB2内の全てのイベント情報について、予め定めた閾値より大きな類似度となっているイベント情報群は、同一イベントの情報であると判定し、同一イベント集合に含ませる。
あるイベント情報について、複数のイベント情報が同一イベントであると判定された場合は、それら全てを同一イベント集合に含める。最終的には、同一イベント集合に含まれたイベント情報は、全て同一のイベントであるとみなされる。
S6:結果出力部50は、イベントDB2に保存された同一イベントの集合からイベント情報を任意に選択して出力する。同一イベント集合からのイベント情報の選択方式としては例えば以下の選択法(1)(2)が挙げられる。
(1)文書作成日に基づく選択
イベント情報を開示した文書の作成日について、最も古いものを正であるとして選択し、残りの新しく記述された文書から抽出されたイベント情報を削除する。
イベント情報を開示した文書の作成日について、最も古いものを正であるとして選択し、残りの新しく記述された文書から抽出されたイベント情報を削除する。
(2)イベント情報の詳細度に基づく選択
類似度計算におけるベクトル(重み付けリスト)について、開催地及び開催日時の階層がより深いものを選択する。つまり、開催地や開催日時の記述がより詳細なイベント情報を選択する。同じ詳細度のイベント情報が複数あった場合は、他の手法を組み合わせる。
類似度計算におけるベクトル(重み付けリスト)について、開催地及び開催日時の階層がより深いものを選択する。つまり、開催地や開催日時の記述がより詳細なイベント情報を選択する。同じ詳細度のイベント情報が複数あった場合は、他の手法を組み合わせる。
[本実施形態の効果]
以上説明したように、本実施形態のイベント情報抽出装置1によれば、イベントの同一性の判断にあたり、イベント名による類似度、開催場所による類似度、開催日時による類似度、イベント情報を抽出した元の文書の内容類似度の4つの観点から、重み付き加重和でイベントの同一性を判断する。したがって、文書群からイベント情報を抽出するにあたり、イベント情報に関する表現の揺れを吸収して、文書群から抽出された一群のイベント情報の同一性を精度よく判定できる。よって、イベント名、場所、日時それぞれに記述が異なる場合が多い場合であっても、複数文書に記述された同一のイベント情報を同一のイベントの集合として精度よく容易に集約できる。
以上説明したように、本実施形態のイベント情報抽出装置1によれば、イベントの同一性の判断にあたり、イベント名による類似度、開催場所による類似度、開催日時による類似度、イベント情報を抽出した元の文書の内容類似度の4つの観点から、重み付き加重和でイベントの同一性を判断する。したがって、文書群からイベント情報を抽出するにあたり、イベント情報に関する表現の揺れを吸収して、文書群から抽出された一群のイベント情報の同一性を精度よく判定できる。よって、イベント名、場所、日時それぞれに記述が異なる場合が多い場合であっても、複数文書に記述された同一のイベント情報を同一のイベントの集合として精度よく容易に集約できる。
特に、S3の特徴ベクトル生成ステップでは、イベント情報のイベント名,開催場所,開催日時並びに文書内容の特徴ベクトルの要素が重み付けされる。これにより、S4の類似度計算ステップに供されるイベント名、開催場所、開催日時、文書内容の重要度を高めることができる。
また、S4の類似度計算ステップでは、前記重み付けされたイベント情報のイベント名,開催場所,開催日時並びに文書内容の特徴ベクトルの加重和によってイベント間の類似度が計算される。このように、イベント名,開催場所,開催日時並びに文書内容の重みが加味されることにより、イベント情報間の同一性判断の精度を高めることができる。
さらに、S5の結果出力ステップでは、同一イベントの集合から最も作成日の古いイベント情報の集合が選択される。したがって、イベント情報の発信源に近い同一のイベント情報の集合を抽出できる。
また、S5の結果出力ステップでは、同一イベントの集合からイベント情報の詳細度(例えばイベントの開催場所及び開催日時が詳細なもの)に基づきイベント情報の集合が選択される。したがって、イベント情報の詳細度に依存した同一のイベント情報の集合を抽出できる。
[本発明の他の態様]
本発明は、イベント情報抽出装置1を構成する上記の機能部2,3,10〜50の一部若しくは全てとしてコンピュータを機能させるプログラムで構成しこれを当該コンピュータに実行させることにより実現できる。または、同装置1が実行する上記のステップS1〜S6の一部若しくは全てをコンピュータに実行させるプログラムで構成しこれを当該コンピュータに実行させることにより実現できる。そして、このプログラムをそのコンピュータが読み取り可能な周知の記録媒体(例えば、ハードディスク、フレキシブルディスク、CD−ROM等)に格納して提供できる。または、前記プログラムをインターネットや電子メール等でネットワークを介して提供できる。
本発明は、イベント情報抽出装置1を構成する上記の機能部2,3,10〜50の一部若しくは全てとしてコンピュータを機能させるプログラムで構成しこれを当該コンピュータに実行させることにより実現できる。または、同装置1が実行する上記のステップS1〜S6の一部若しくは全てをコンピュータに実行させるプログラムで構成しこれを当該コンピュータに実行させることにより実現できる。そして、このプログラムをそのコンピュータが読み取り可能な周知の記録媒体(例えば、ハードディスク、フレキシブルディスク、CD−ROM等)に格納して提供できる。または、前記プログラムをインターネットや電子メール等でネットワークを介して提供できる。
尚、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更、応用が可能である。
1…イベント情報抽出装置
2…イベントDB(イベントデータベース)
3…文書DB(文書データベース)
10…読み出し部
20…特徴ベクトル生成部(特徴ベクトル生成手段)
30…類似度計算部(類似度計算手段)
40…同一性判定計算部(同一性判定計算手段)
50…結果出力部(結果出力手段)
2…イベントDB(イベントデータベース)
3…文書DB(文書データベース)
10…読み出し部
20…特徴ベクトル生成部(特徴ベクトル生成手段)
30…類似度計算部(類似度計算手段)
40…同一性判定計算部(同一性判定計算手段)
50…結果出力部(結果出力手段)
Claims (8)
- 文書群から抽出された複数のイベント情報の同一性を判定するイベント情報抽出装置であって、
文書群から抽出されたイベント名称,開催場所並びに開催日時を含むイベント情報とこのイベント情報を開示した文書内容に基づき当該イベント情報のイベント名称,開催場所,開催日時並びに文書内容の特徴ベクトルを生成する特徴ベクトル生成手段と、
前記文書群から抽出された全てのイベント情報の対について前記イベント名称,開催場所,開催日時並びに文書内容の特徴ベクトルの類似度に基づきイベント情報間の類似度を算出する類似度計算手段と、
前記類似度の閾値を超えた前記イベント情報の対を同一イベントであると判断して同一イベントの集合に含ませる同一性判定計算手段と
を備えたこと
を特徴とするイベント情報抽出装置。 - 前記特徴ベクトル生成手段は、イベント情報のイベント名称,開催場所,開催日時並びに文書内容の特徴ベクトルの要素を重み付けすることを特徴とする請求項1に記載のイベント情報抽出装置。
- 前記類似度計算手段は、前記重み付けされたイベント情報のイベント名称,開催場所,開催日時並びに文書内容の特徴ベクトルの加重和によってイベント情報間の類似度を計算することを特徴とする請求項2に記載のイベント情報抽出装置。
- 前記同一イベントの集合から最も作成日の古いイベント情報の集合を選択して出力する結果出力手段をさらに備えたことを特徴とする請求項1から3のいずれか1項に記載のイベント情報抽出装置。
- 前記同一イベントの集合からイベント情報の詳細度に基づきイベント情報の集合を選択して出力する結果出力手段をさらに備えたことを特徴とする請求項1から3のいずれか1項に記載のイベント情報抽出装置。
- 文書群から抽出された複数のイベント情報の同一性を判定するイベント情報抽出装置が実行するイベント情報抽出方法であって、
文書群から抽出されたイベント名称,開催場所並びに開催日時を含むイベント情報とこのイベント情報を開示した文書内容に基づき当該イベント情報のイベント名称,開催場所,開催日時並びに文書内容の特徴ベクトルを生成する特徴ベクトル生成ステップと、
前記文書群から抽出された全てのイベント情報の対について前記イベント名称,開催場所,開催日時並びに文書内容の特徴ベクトルの類似度に基づきイベント情報間の類似度を算出する類似度計算ステップと、
前記類似度の閾値を超えた前記イベント情報の対を同一イベントであると判断して同一イベントの集合に含ませる同一性判定計算ステップと
を有すること
を特徴とするイベント情報抽出方法。 - 前記特徴ベクトル生成ステップにおいては、イベント情報のイベント名称,開催場所,開催日時並びに文書内容の特徴ベクトルの要素を重み付けすることを特徴とする請求項6に記載のイベント情報抽出方法。
- コンピュータを請求項1から5のいずれか1項に記載のイベント情報抽出装置を構成する各手段として機能させることを特徴とするイベント情報抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014243597A JP2016110165A (ja) | 2014-12-02 | 2014-12-02 | イベント情報抽出装置、イベント情報抽出方法及びイベント情報抽出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014243597A JP2016110165A (ja) | 2014-12-02 | 2014-12-02 | イベント情報抽出装置、イベント情報抽出方法及びイベント情報抽出プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016110165A true JP2016110165A (ja) | 2016-06-20 |
Family
ID=56122198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014243597A Pending JP2016110165A (ja) | 2014-12-02 | 2014-12-02 | イベント情報抽出装置、イベント情報抽出方法及びイベント情報抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2016110165A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220237219A1 (en) * | 2019-06-14 | 2022-07-28 | Nippon Telegraph And Telephone Corporation | Information extracting device, information extracting method, and information extracting program |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10134066A (ja) * | 1996-10-29 | 1998-05-22 | Matsushita Electric Ind Co Ltd | 文章集約装置 |
JP2006040058A (ja) * | 2004-07-28 | 2006-02-09 | Mitsubishi Electric Corp | 文書分類装置 |
JP2006146755A (ja) * | 2004-11-24 | 2006-06-08 | Seiko Epson Corp | 表示制御装置、画像表示方法、および、コンピュータプログラム |
WO2012148000A1 (ja) * | 2011-04-28 | 2012-11-01 | 九州日本電気ソフトウェア株式会社 | 画像処理システム、人物同定方法、画像処理装置およびその制御方法と制御プログラム |
WO2014061190A1 (ja) * | 2012-10-17 | 2014-04-24 | 日本電気株式会社 | イベント処理装置、イベント処理方法、およびイベント処理プログラム |
JP2014153862A (ja) * | 2013-02-07 | 2014-08-25 | Nippon Telegr & Teleph Corp <Ntt> | 情報抽出装置、情報抽出方法及び情報抽出プログラム |
-
2014
- 2014-12-02 JP JP2014243597A patent/JP2016110165A/ja active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10134066A (ja) * | 1996-10-29 | 1998-05-22 | Matsushita Electric Ind Co Ltd | 文章集約装置 |
JP2006040058A (ja) * | 2004-07-28 | 2006-02-09 | Mitsubishi Electric Corp | 文書分類装置 |
JP2006146755A (ja) * | 2004-11-24 | 2006-06-08 | Seiko Epson Corp | 表示制御装置、画像表示方法、および、コンピュータプログラム |
WO2012148000A1 (ja) * | 2011-04-28 | 2012-11-01 | 九州日本電気ソフトウェア株式会社 | 画像処理システム、人物同定方法、画像処理装置およびその制御方法と制御プログラム |
WO2014061190A1 (ja) * | 2012-10-17 | 2014-04-24 | 日本電気株式会社 | イベント処理装置、イベント処理方法、およびイベント処理プログラム |
JP2014153862A (ja) * | 2013-02-07 | 2014-08-25 | Nippon Telegr & Teleph Corp <Ntt> | 情報抽出装置、情報抽出方法及び情報抽出プログラム |
Non-Patent Citations (1)
Title |
---|
数原 良彦,外2名: ""構造学習を用いたテキストからの地域イベント情報抽出"", 2013年度人工知能学会全国大会(第27回)論文集[CD−ROM], JPN6017036073, 4 June 2013 (2013-06-04), pages 1 - 4, ISSN: 0003645876 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220237219A1 (en) * | 2019-06-14 | 2022-07-28 | Nippon Telegraph And Telephone Corporation | Information extracting device, information extracting method, and information extracting program |
US11995115B2 (en) * | 2019-06-14 | 2024-05-28 | Nippon Telegraph And Telephone Corporation | Information extracting device, information extracting method, and information extracting program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11734233B2 (en) | Method for classifying an unmanaged dataset | |
CN109933666B (zh) | 一种好友自动分类方法、装置、计算机设备和存储介质 | |
JP5738358B2 (ja) | 移動パターンマイニング装置及び方法 | |
TWI673617B (zh) | 使用者背景資訊的收集方法及裝置 | |
KR102334236B1 (ko) | 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용 | |
KR101651780B1 (ko) | 빅 데이터 처리 기술을 이용한 연관 단어 추출 방법 및 그 시스템 | |
Alkubaisi et al. | Conceptual framework for stock market classification model using sentiment analysis on twitter based on Hybrid Naïve Bayes Classifiers | |
JP5734118B2 (ja) | ソーシャルネットワークから小集団を抽出し、名前付け、並びに可視化する方法およびプログラム | |
CN105488165B (zh) | 基于索引库的数据检索方法及系统 | |
JP2016110165A (ja) | イベント情報抽出装置、イベント情報抽出方法及びイベント情報抽出プログラム | |
JP5361090B2 (ja) | 話題語獲得装置、方法、及びプログラム | |
CN112348279B (zh) | 资讯传播趋势的预测方法、装置、电子设备和存储介质 | |
Kim et al. | Construction of disaster knowledge graphs to enhance disaster resilience | |
JP5824429B2 (ja) | スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム | |
Borowik et al. | Fast algorithm for feature extraction | |
JP5801252B2 (ja) | イベント抽出装置及び方法及びプログラム | |
JP5008096B2 (ja) | 文書自動分類方法及び文書自動分類システム | |
CN112100670A (zh) | 一种基于大数据的隐私数据分级保护方法 | |
Narwal et al. | Entropy based content filtering for mobile web page adaptation | |
Tauheed et al. | Configuring spatial grids for efficient main memory joins | |
JP5583107B2 (ja) | キーワード地名ペア抽出装置及び方法及びプログラム | |
Steiger et al. | Towards a framework for automatic geographic feature extraction from Twitter | |
JP2013242620A (ja) | 近隣情報検索装置及び方法及びプログラム | |
EP3432154A1 (en) | Method and apparatus for providing search recommendation information | |
Al-Mutairi et al. | Predicting the Popularity of Trending Articles in the Arabic Wikipedia using Data Mining Techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170915 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170926 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20180320 |