JP5757208B2 - キーワード抽出システム、キーワード抽出方法及びプログラム - Google Patents

キーワード抽出システム、キーワード抽出方法及びプログラム Download PDF

Info

Publication number
JP5757208B2
JP5757208B2 JP2011208200A JP2011208200A JP5757208B2 JP 5757208 B2 JP5757208 B2 JP 5757208B2 JP 2011208200 A JP2011208200 A JP 2011208200A JP 2011208200 A JP2011208200 A JP 2011208200A JP 5757208 B2 JP5757208 B2 JP 5757208B2
Authority
JP
Japan
Prior art keywords
word
context
frequency
counting
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011208200A
Other languages
English (en)
Other versions
JP2013069175A (ja
Inventor
池田 聡
聡 池田
伸治 加美
伸治 加美
隆士 吉川
隆士 吉川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011208200A priority Critical patent/JP5757208B2/ja
Publication of JP2013069175A publication Critical patent/JP2013069175A/ja
Application granted granted Critical
Publication of JP5757208B2 publication Critical patent/JP5757208B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、キーワード抽出システム、キーワード抽出方法及びプログラムに関する。
近年、マイクロブログやSNS(Social Networking Service)に代表されるサービスが、情報発信やコミュニケーションの手段として広く利用されている。ユーザは、携帯端末を利用すれば、時間や場所によらずに、これらのサービスにテキスト(メッセージ等)を投稿することができる。テキストが投稿されたときの時間や場所、その他の端末の状況は、コンテクストと呼ばれる。
コンテクストは、例えば、テキストに付随するコンテクスト情報によって示される。具体的には、テキストが投稿された時間を示す情報が、多くのサービスでテキストとともに記録されている。また、端末の位置を示す情報(以下、位置情報という)が、端末が有するGPS(Global Positioning System)機能によってテキストに付与される場合がある。
また、テキストは、コンテクストに依存するキーワードを含むことがある。キーワード及びこのキーワードが依存するコンテクストは、レコメンデーション等に有用な情報である。例えば、テキストに付与された位置情報と、このテキストに含まれるキーワードとを抽出すると、ユーザが特定の場所に依存して興味を持つ対象を把握することができる。
そこで、テキストからキーワードを抽出する技術が提案されている(例えば、非特許文献1を参照)。非特許文献1に記載の技術では、所定の単語を含む位置情報付きテキストが選択され、位置情報によって示される位置のばらつきが評価される。これにより、この位置が特定の場所に集中するような単語を、この場所に依存するキーワードとして見つけ出すことができる。
荒川豊ほか、"Twitter分析に基づく位置依存文字列の抽出"、情報処理学会研究報告、MBL、2010−MBL−55(10)、pp.1−6、2010
しかしながら、非特許文献1に記載の技術では、複数のキーワードが同一の場所に依存する場合に、より強くこの場所に依存するキーワードを選定することが困難であった。
本発明は、上述の事情に鑑みてなされたもので、キーワードの候補が複数存在する場合に、より強くコンテクストに依存するキーワードを抽出することを目的とする。
上記目的を達成するために、本発明の第1の観点に係るキーワード抽出システムは、
ユーザによって投稿された複数のテキストそれぞれに含まれる単語を抽出する単語抽出手段と、
前記テキストに付随するコンテクスト情報に基づいて、前記単語に対応するコンテクストラベルを生成するラベル生成手段と、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数を、単語頻度として計数する単語頻度計数手段と、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語が相互に等しい組合せ群に含まれる前記コンテクストラベルの種類の数を、コンテクスト頻度として計数するコンテクスト頻度計数手段と、
前記コンテクストラベルにより示されるコンテクストに前記単語が依存する度合いを表す依存度を、前記単語頻度と前記コンテクスト頻度とに基づいて算出する依存度算出手段と、
前記コンテクストラベルに対応する前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出するキーワード抽出手段と、
を備え
前記単語頻度計数手段は、
計数された前記単語頻度を記憶する第1記憶手段と、
前記第1記憶手段によって前記単語頻度が記憶された後に前記単語抽出手段によって抽出された前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数に基づいて、前記第1記憶手段によって記憶された前記単語頻度を更新する第1更新手段と、
を有し、
前記コンテクスト頻度計数手段は、
計数された前記コンテクスト頻度を記憶する第2記憶手段と、
初めて前記単語頻度を計数される組合せの前記コンテクストラベルが生成された場合に、前記第2記憶手段によって記憶された前記コンテクスト頻度を更新する第2更新手段と、
を有する
上記目的を達成するために、本発明の第2の観点に係るキーワード抽出システムは、
ユーザによって投稿された複数のテキストそれぞれに含まれる単語を抽出する単語抽出手段と、
前記テキストに付随するコンテクスト情報に基づいて、前記単語に対応するコンテクストラベルを生成するラベル生成手段と、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数を、単語頻度として計数する単語頻度計数手段と、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語が相互に等しい組合せ群に含まれる前記コンテクストラベルの種類の数を、コンテクスト頻度として計数するコンテクスト頻度計数手段と、
前記コンテクストラベルにより示されるコンテクストに前記単語が依存する度合いを表す依存度を、前記単語頻度と前記コンテクスト頻度とに基づいて算出する依存度算出手段と、
前記コンテクストラベルに対応する前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出するキーワード抽出手段と、
を備え、
前記単語頻度計数手段は、
計数された前記単語頻度を記憶する第1記憶手段と、
前記単語頻度が記憶された後に前記単語抽出手段によって抽出された前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数、及び前記第1記憶手段によって記憶された前記単語頻度に重み付けを行い、重み付けされた組合せの数及び前記単語頻度に基づいて、前記第1記憶手段によって記憶された前記単語頻度を更新する第1更新手段と、
を有し、
前記コンテクスト頻度計数手段は、
計数された前記コンテクスト頻度を記憶する第2記憶手段と、
前記第1更新手段によって更新されることで前記単語頻度が所定の第1閾値を上回った場合、及び、該単語頻度が前記第1閾値を下回った場合に、前記第2記憶手段によって記憶された前記コンテクスト頻度を更新する第2更新手段と、
を有する。
上記目的を達成するために、本発明の第の観点に係るキーワード抽出方法は、
ユーザによって投稿された複数のテキストそれぞれに含まれる単語を抽出する単語抽出ステップと、
前記テキストに付随するコンテクスト情報に基づいて、前記単語に対応するコンテクストラベルを生成するラベル生成ステップと、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数を、単語頻度として計数する単語頻度計数ステップと、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語が相互に等しい組合せ群に含まれる前記コンテクストラベルの種類の数を、コンテクスト頻度として計数するコンテクスト頻度計数ステップと、
前記コンテクストラベルにより示されるコンテクストに前記単語が依存する度合いを表す依存度を、前記単語頻度と前記コンテクスト頻度とに基づいて算出する依存度算出ステップと、
前記コンテクストラベルに対応する前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出するキーワード抽出ステップと、
を含み、
前記単語頻度計数ステップでは、
計数された前記単語頻度を第1記憶手段に記憶させて、前記第1記憶手段によって前記単語頻度が記憶された後に前記単語抽出ステップにおいて抽出された前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数に基づいて、前記第1記憶手段によって記憶された前記単語頻度を更新し、
前記コンテクスト頻度計数ステップでは、
計数された前記コンテクスト頻度を第2記憶手段に記憶させて、初めて前記単語頻度を計数される組合せの前記コンテクストラベルが生成された場合に、前記第2記憶手段によって記憶された前記コンテクスト頻度を更新する
上記目的を達成するために、本発明の第4の観点に係るキーワード抽出方法は、
ユーザによって投稿された複数のテキストそれぞれに含まれる単語を抽出する単語抽出ステップと、
前記テキストに付随するコンテクスト情報に基づいて、前記単語に対応するコンテクストラベルを生成するラベル生成ステップと、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数を、単語頻度として計数する単語頻度計数ステップと、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語が相互に等しい組合せ群に含まれる前記コンテクストラベルの種類の数を、コンテクスト頻度として計数するコンテクスト頻度計数ステップと、
前記コンテクストラベルにより示されるコンテクストに前記単語が依存する度合いを表す依存度を、前記単語頻度と前記コンテクスト頻度とに基づいて算出する依存度算出ステップと、
前記コンテクストラベルに対応する前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出するキーワード抽出ステップと、
を含み、
前記単語頻度計数ステップでは、
計数された前記単語頻度を第1記憶手段に記憶させて、前記単語頻度が記憶された後に前記単語抽出ステップにおいて抽出された前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数、及び前記第1記憶手段によって記憶された前記単語頻度に重み付けを行い、重み付けされた組合せの数及び前記単語頻度に基づいて、前記第1記憶手段によって記憶された前記単語頻度を更新し、
前記コンテクスト頻度計数ステップでは、
計数された前記コンテクスト頻度を第2記憶手段に記憶させて、前記単語頻度計数ステップにおいて更新された前記単語頻度が所定の閾値を上回った場合、及び、該単語頻度が前記閾値を下回った場合に、前記第2記憶手段によって記憶された前記コンテクスト頻度を更新する。
上記目的を達成するために、本発明の第の観点に係るプログラムは、
コンピュータを、
ユーザによって投稿された複数のテキストそれぞれに含まれる単語を抽出する単語抽出手段、
前記テキストに付随するコンテクスト情報に基づいて、前記単語に対応するコンテクストラベルを生成するラベル生成手段、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数を、単語頻度として計数する単語頻度計数手段、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語が相互に等しい組合せ群に含まれる前記コンテクストラベルの種類の数を、コンテクスト頻度として計数するコンテクスト頻度計数手段、
前記コンテクストラベルにより示されるコンテクストに前記単語が依存する度合いを表す依存度を、前記単語頻度と前記コンテクスト頻度とに基づいて算出する依存度算出手段、
前記コンテクストラベルに対応する前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出するキーワード抽出手段、
として機能させ
前記単語頻度計数手段は、
計数された前記単語頻度を第1記憶手段に記憶させて、前記第1記憶手段によって前記単語頻度が記憶された後に前記単語抽出手段によって抽出された前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数に基づいて、前記第1記憶手段によって記憶された前記単語頻度を更新し、
前記コンテクスト頻度計数手段は、
計数された前記コンテクスト頻度を第2記憶手段に記憶させて、初めて前記単語頻度を計数される組合せの前記コンテクストラベルが生成された場合に、前記第2記憶手段によって記憶された前記コンテクスト頻度を更新する
上記目的を達成するために、本発明の第6の観点に係るプログラムは、
コンピュータを、
ユーザによって投稿された複数のテキストそれぞれに含まれる単語を抽出する単語抽出手段、
前記テキストに付随するコンテクスト情報に基づいて、前記単語に対応するコンテクストラベルを生成するラベル生成手段、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数を、単語頻度として計数する単語頻度計数手段、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語が相互に等しい組合せ群に含まれる前記コンテクストラベルの種類の数を、コンテクスト頻度として計数するコンテクスト頻度計数手段、
前記コンテクストラベルにより示されるコンテクストに前記単語が依存する度合いを表す依存度を、前記単語頻度と前記コンテクスト頻度とに基づいて算出する依存度算出手段、
前記コンテクストラベルに対応する前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出するキーワード抽出手段、
として機能させ、
前記単語頻度計数手段は、
計数された前記単語頻度を第1記憶手段に記憶させて、前記単語頻度が記憶された後に前記単語抽出手段によって抽出された前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数、及び前記第1記憶手段によって記憶された前記単語頻度に重み付けを行い、重み付けされた組合せの数及び前記単語頻度に基づいて、前記第1記憶手段によって記憶された前記単語頻度を更新し、
前記コンテクスト頻度計数手段は、
計数された前記コンテクスト頻度を第2記憶手段に記憶させて、前記単語頻度計数手段によって更新されることで前記単語頻度が所定の閾値を上回った場合、及び、該単語頻度が前記閾値を下回った場合に、前記第2記憶手段によって記憶された前記コンテクスト頻度を更新する。
本発明によれば、コンテクストに単語が依存する度合いを表す依存度が算出され、この依存度が最も高い単語がキーワードとして抽出される。これにより、キーワードの候補が複数存在する場合に、より強くコンテクストに依存するキーワードを抽出することができる。
実施形態1に係るキーワード抽出システムの機能の構成を示す概略図である。 テキスト記憶部に記憶されるデータを示す図である。 解析部から出力されるデータを示す図である。 単語頻度記憶部に記憶されるデータを示す図である。 単語頻度計数部からコンテクスト頻度計数部へ出力されるデータを示す図である。 コンテクスト頻度記憶部に記憶されるデータを示す図である。 依存度記憶部に記憶されるデータを示す図である。 キーワード抽出部によって抽出されたキーワードを示す図である。 キーワード抽出システムによって実行される処理を示すフロー図である。 実施形態2に係るキーワード抽出システムの機能の構成を示す概略図である。 解析部から出力されるデータを示す図である。 第1ソート部によって生成されるデータを示す図である。 第2ソート部によって生成されるデータを示す図である。 実施形態3に係るキーワード抽出システムの機能の構成を示す概略図である。 キーワード抽出システムによって実行される処理を示すフロー図である。 単語頻度計数部によって実行される単語頻度の更新処理を示すフロー図である。 コンテクスト頻度計数部によって実行されるコンテクスト頻度の更新処理を示すフロー図である。 実施形態4に係るキーワード抽出システムの機能の構成を示す概略図である。 単語頻度記憶部に記憶されるデータを示す図である。 単語頻度計数部によって実行される単語頻度の更新処理を示すフロー図である。 実施形態5に係るキーワード抽出システムの機能の構成を示す概略図である。 キーワード抽出システムのハードウェア構成を示す図である。
以下、本発明の実施形態について図面を参照しながら詳細に説明する。
(実施形態1)
本実施形態に係るキーワード抽出システム10は、コンテクスト情報として位置情報を付与された複数のテキストからキーワードを抽出する。位置情報は、例えば、緯度及び経度を示すデータである。キーワード抽出システム10は、図1に示されるように、テキスト記憶部20、解析部30、単語頻度計数部40、単語頻度記憶部50、コンテクスト頻度計数部60、コンテクスト頻度記憶部70、依存度算出部80、依存度記憶部90、及びキーワード抽出部100を有している。
テキスト記憶部20は、図2に示されるように、ユーザによって投稿された複数のテキストと、複数のテキストそれぞれに付与された位置情報とを対応づけて記憶する。
解析部30は、テキスト記憶部20に記憶されたテキスト及び位置情報を解析する。解析部30は、単語抽出部31とコンテクストラベル生成部32とを有している。
単語抽出部31は、テキストから単語を抽出する。例えば、単語抽出部31は、図2に示される「今から野球観戦@後楽園」というテキストを形態素解析によって分割することにより、「今」、「野球」、「観戦」及び「後楽園」の4つの単語(名詞)を抽出する。
コンテクストラベル生成部32は、位置情報に基づいてコンテクストラベルを生成する。コンテクストラベルは、類似している複数の位置情報をまとめるための識別子である。例えば、コンテクストラベル生成部32は、図2に示される緯度「35.7056」及び経度「139.7519」の小数点第3位以下を切り捨てて、0.01度単位のコンテクストラベル「35.70:139.75」を生成する。緯度及び経度の0.01度は約1kmに相当するため、このコンテクストラベルは、位置情報により示される位置が約1km四方の所定の地域内にあることを示している。
解析部30は、複数の位置情報付きテキストそれぞれについて、単語の抽出と、コンテクストラベルの生成とを実行する。また、解析部30は、単語と、この単語を含む位置情報付きテキストに基づいて生成されたコンテクストラベルとを対応づける。例えば、解析部30は、図3に示されるように、一のテキストから抽出された「今」、「野球」、「観戦」及び「後楽園」それぞれに、同一のコンテクストラベル「35.70:139.75」を対応づける。そして、解析部30は、単語及びコンテクストラベルが対応づけられたテーブルを、単語頻度計数部40へ出力する。
単語頻度計数部40は、解析部30の出力に含まれる単語と、この単語に対応するコンテクストラベルとの同一の組合せが出現する回数を計数する。具体的には、単語頻度計数部40は、単語及びこの単語に対応するコンテクストラベルとの組合せのうち、単語及びコンテクストラベルの双方が相互に等しい組合せの数を計数する。例えば、図3に示されるテーブルが解析部30から出力された場合、単語頻度計数部40は、単語「野球」とコンテクストラベル「35.70:139.75」との組合せが出現する回数を2回と計数する。なお、図3に示されるテーブルにおいて単語「今」は2回出現するが、それぞれに対応するコンテクストラベルは異なっている。そのため、単語頻度計数部40は、単語「今」とコンテクストラベルとの2通りの組合せそれぞれが出現する回数を、1回ずつと計数する。
単語頻度計数部40は、図4に示されるように、単語とコンテクストラベルとの組合せ(以下、単に組合せという)とともに、計数の結果を単語頻度として単語頻度記憶部50に記憶させる。単語頻度は、コンテクストラベルにより示されるコンテクストにおいて一の単語が言及された回数を表す指標である。例えば、特定の地域において一の単語が繰り返し言及されると、単語頻度は大きい値になる。
また、単語頻度計数部40は、図5に示されるように、1回以上計数された組合せを示すテーブルを、コンテクスト頻度計数部60へ出力する。
コンテクスト頻度計数部60は、単語頻度計数部40から出力されたテーブルにおいて、単語それぞれに対応する別個のコンテクストラベルが出現する回数を計数する。具体的には、コンテクスト頻度計数部60は、このテーブルのうち、単語が相互に等しい組合せ群に含まれるコンテクストラベルの種類の数を計数する。例えば、コンテクスト頻度計数部60は、図5に示されるテーブルにおいて、単語「今」に対応する別個のコンテクストラベルが生成された回数を2回と計数する。
そして、コンテクスト頻度計数部60は、図6に示されるように、単語それぞれについての計数結果を、コンテクスト頻度としてコンテクスト頻度記憶部70に記憶させる。コンテクスト頻度は、一の単語が何通りのコンテクストラベルと組みになって出現しているかを表す指標である。例えば、一の単語が数多くの地域で言及されると、この単語のコンテクスト頻度は大きい値になる。
依存度算出部80は、単語頻度記憶部50に記憶される単語頻度と、コンテクスト頻度記憶部70に記憶されるコンテクスト頻度とに基づいて、依存度を算出する。依存度は、コンテクストラベルにより示されるコンテクストに単語が依存する度合いを表す指標である。この依存度は、例えば、少ない地域において単語が繰り返し言及されると大きい値となる。換言すると、依存度は、単語頻度が高くなると高くなり、かつ、コンテクスト頻度が高くなると低くなる。
依存度算出部80は、例えば、情報検索の分野で用いられるTFIDF(term frequency - inverse document frequency)と同様の導出によって依存度を算出する。TFIDFは、複数の文書に含まれる単語の重み付け係数であって、より少ない文書において単語が繰り返し言及されると、値が大きくなる。このTFIDFと同様に依存度が導出される場合、全コンテクストラベル数をNとし、単語WとコンテクストラベルCとの組合せの単語頻度をFとし、単語Wのコンテクスト頻度をGとすると、コンテクストラベルCにより示されるコンテクストへの単語Wの依存度Iは、次式(1)で示される。
Figure 0005757208
依存度算出部80は、単語頻度記憶部50に記憶されているすべての組合せについて、上記式(1)を用いて依存度を算出する。例えば、図7に示されるように、同一の地域で2回言及された単語「野球」の依存度は、比較的大きい値となる。また、異なる地域で1回ずつ言及された単語「今」の依存度は、いずれも比較的小さい値となっている。
そして、依存度算出部80は、図7に示されるように、単語及びコンテクストラベルの組合せと、この組合せについて算出された依存度とを対応づけて依存度記憶部90に記憶させる。
キーワード抽出部100は、依存度記憶部90に記憶されたデータに基づいて、コンテクストラベルごとに、依存度が最大の単語をキーワードとして抽出する。例えば、キーワード抽出部100は、図7に示されるテーブルのうち、コンテクストラベル「35.70:139.75」について依存度が最大の単語「野球」を抽出する。このようにして、キーワード抽出部100は、図8に示されるように、コンテクストラベルそれぞれに対応するキーワードを抽出する。
続いて、以上の構成要素を有するキーワード抽出システム10の動作について説明する。
まず、図9に示されるように、解析部30は、テキスト記憶部20から位置情報付きテキストを1つ取得する(ステップS10)。
次に、単語抽出部31は、取得されたテキストから単語を抽出する(ステップS11)。また、コンテクストラベル生成部32は、取得された位置情報に基づいてコンテクストラベルを生成する(ステップS12)。
その後、解析部30は、テキスト記憶部20から位置情報付きテキストをすべて取得したか否かを判定する(ステップS13)。
位置情報付きテキストをすべて取得していないと判定された場合(ステップS13;No)、解析部30は、ステップS10へ戻って処理を繰り返す。
位置情報付きテキストをすべて取得したと判定された場合(ステップS13;Yes)、単語頻度計数部40は、解析部30の出力に基づいて単語頻度を計数する(ステップS14)。
コンテクスト頻度計数部60は、単語頻度計数部40の出力に基づいてコンテクスト頻度を計数する(ステップS15)。
依存度算出部80は、単語頻度記憶部50及びコンテクスト頻度記憶部70に記憶されたデータに基づいて、依存度を算出する(ステップS16)。
キーワード抽出部100は、依存度記憶部90に記憶されたデータに基づいて、キーワードを抽出する(ステップS17)。
以上説明したように、本実施形態に係るキーワード抽出システム10は、単語頻度及びコンテクスト頻度に基づいて、コンテクストラベルにより示される地域への単語の依存度を算出する。そして、キーワード抽出システム10は、この依存度に基づいて複数の単語からキーワードを抽出する。これにより、キーワードの候補となる複数の単語が存在する場合に、より強く特定の地域に依存する単語をキーワードとして抽出することができる。
また、キーワード抽出システム10は、コンテクストラベルごとに上述の処理に従ってキーワードを抽出する。これにより、キーワード抽出システム10は、テキストの投稿数の多少に関係なく、地域ごとにキーワードを抽出することができる。例えば、投稿数の多い都市と、投稿数の少ない郊外とのそれぞれの地域に依存するキーワードを抽出することができる。
(実施形態2)
続いて、実施形態2について、上述の実施形態1との相違点を中心に説明する。なお、実施形態1に係る構成要素と同一又は同等の構成には、実施形態1と同一の符号を付す。また、実施形態1と説明が重複する部分については、その説明を省略する。
本実施形態に係るキーワード抽出システム10は、分散システムとして構成されている点で、実施形態1に係るものと異なる。キーワード抽出システム10は、図10に示されるように、解析部30a〜30c、第1ソート部110、単語頻度計数部40a〜40c、第2ソート部120、及びコンテクスト頻度計数部60a〜60cを有している。
解析部30a〜30cそれぞれは、テキスト記憶部20に記憶された位置情報付きテキストを分担して、位置情報付きテキストを解析する。すなわち、解析部30a〜30cは、並列計算により単語を抽出し、コンテクストラベルを生成する。この際に、解析部30a〜30cそれぞれは、解析の負荷が均等になるように位置情報付きテキストを分担する。
解析部30a〜30cそれぞれは、単語及びコンテクストラベルの組合せと整数値1とのペアを、解析の結果として第1ソート部110へ出力する。以下では、このペアを<組合せ、整数値1>という記法に従って記す。また、この組合せを(単語、コンテクストラベル)という記法に従って記す。
例えば、解析部30aは、図2に示される「今、東京駅にいます。」というテキストと緯度「35.6814」及び経度「139.7661」の位置情報とを解析して、<(今、35.68:139.76)、1>と、<(東京駅、35.68:139.76)、1>との2つのペアを出力する。
第1ソート部110は、解析部30a〜30cから解析結果をすべて取得すると、単語とコンテクストラベルとの組合せについて、すべてのペアをソートする。
また、第1ソート部110は、<組合せ、整数値>というペアを、<組合せ、リスト>というペアに変換する。リストは、リスト形式のデータである。例えば、要素として整数値1と整数値2とを有するリストは、[1、2]と記されることがあり、以下でもこの記法に従ってリストを記す。なお、リストの要素が複数である必要はない。
例えば、第1ソート部110は、図11に示される<(今、35.70:139.75)、1>というペアを、図12に示される<(今、35.70:139.75)、[1]>というペアに変換する。
また、第1ソート部110は、同一の組合せを有する複数のペアを、この組合せと、ペアの数だけ整数値1を有するリストとの1つのペアに変換する。例えば、第1ソート部110は、図11に示される2つの<(野球、35.70:139.75)、1>というペアを、図12に示される1つの<(野球、35.70:139.75)、[1、1]>というペアに変換する。
そして、第1ソート部110は、これらの変換の結果を分割して、単語頻度計数部40a〜40cそれぞれへ出力する。この際に、第1ソート部110は、単語頻度計数部40a〜40cそれぞれにかかる負荷が均等になるように、結果を分割する。例えば、第1ソート部110は、図12に示される7つのペアを、3つのペア、2つのペア、及び2つのペアに分割して、3つの単語頻度計数部40a〜40cへ出力する。
単語頻度計数部40a〜40cは、第1ソート部110から出力されたペアに基づいて、並列計算により単語頻度を計数する。単語頻度計数部40a〜40cは、ペアそれぞれについて、リストの要素(整数値)の和を、組合せの単語頻度として算出する。
例えば、単語頻度計数部40aは、<(野球、35.70:139.75)、[1、1]>というペアを取得すると、単語「野球」とコンテクストラベル「35.70:139.75」との組合せの単語頻度を2回と計数する。
そして、単語頻度計数部40a〜40cは、計数の結果を単語頻度記憶部50に記憶させる。また、単語頻度計数部40a〜40cは、単語頻度が1回以上となる組合せを、第2ソート部120へ出力する。
第2ソート部120は、単語頻度計数部40a〜40cから出力された組合せをすべて取得すると、単語についてすべての組合せをソートする。
また、第2ソート部120は、(単語、コンテクストラベル)という組合せを、(単語、リスト)という組合せに変換する。このリストの要素は、コンテクストラベルである。
例えば、第2ソート部120は、図5に示される(野球、35.70:139.75)という組合せを、図13に示される(野球、[35.70:139.75])という組合せに変換する。
また、第2ソート部120は、同一の単語を有する複数の組合せを、この単語とコンテクストラベルのリストとの組合せに変換する。例えば、第2ソート部120は、図5に示される(今、35.70:139.75)、及び(今、35.68:139.76)という2つの組合せを、図13に示される(今、[35.70:139.75、35.68:139.76])という組合せに変換する。
そして、第2ソート部120は、これらの変換の結果を分割して、コンテクスト頻度計数部60a〜60cそれぞれへ出力する。この際に、第2ソート部120は、コンテクスト頻度計数部60a〜60cそれぞれにかかる負荷が均等になるように、結果を分割する。
コンテクスト頻度計数部60a〜60cは、第2ソート部120から出力された組合せに基づいて、並列計算によりコンテクスト頻度を計数する。コンテクスト頻度計数部60a〜60cは、組合せそれぞれについて、リストに含まれる要素の数を、単語に対応するコンテクスト頻度として算出する。
例えば、コンテクスト頻度計数部60a〜60cは、図13に示される(今、[35.70:139.75、35.68:139.76])という組合せを取得すると、単語「今」のコンテクスト頻度を2回と計数する。
そして、コンテクスト頻度計数部60a〜60cは、計数の結果を、コンテクスト頻度記憶部70に記憶させる。
以上説明したように、本実施形態に係るキーワード抽出システム10は、分散システムとして構成され、分散処理を実行する。これにより、テキストの数が膨大になった場合であっても、解析部30a〜30c、単語頻度計数部40a〜40c、又はコンテクスト頻度計数部60a〜60cの数を増やすことにより、スケーラビリティを確保することができる。
(実施形態3)
続いて、実施形態3について、上述の実施形態2との相違点を中心に説明する。なお、実施形態2に係る構成要素と同一又は同等の構成には、実施形態2と同一の符号を付す。また、実施形態2と説明が重複する部分については、その説明を省略する。
本実施形態に係るキーワード抽出システム10は、キーワードを抽出する処理(以下、キーワード抽出処理という)を繰り返し実行する。また、キーワード抽出システム10は、前回のキーワード抽出処理以降に投稿された位置情報付きテキストに基づいて、単語頻度記憶部50及びコンテクスト頻度記憶部70のデータを繰り返し更新する。
キーワード抽出システム10は、図14に示されるように、単語頻度計数部40d〜40fが単語頻度記憶部50に記憶されるデータを読み込み、コンテクスト頻度計数部60d〜60fがコンテクスト頻度記憶部70に記憶されるデータを読み込む点で、実施形態2に係るものと異なっている。
解析部30d〜30fは、テキスト記憶部20に記憶された位置情報付きテキストのうち、前回のキーワード抽出処理以降に新しく記憶されたもののみを取得して解析する。
単語頻度計数部40d〜40fは、組合せとリストとのペアを第1ソート部110から取得すると、この組合せの単語頻度を単語頻度記憶部50から読み込む。読み込まれた単語頻度は、前回のキーワード抽出処理までに計数された単語頻度である。
なお、この組合せの単語頻度が単語頻度記憶部50に記憶されていない場合に、単語頻度計数部40d〜40fは、単語頻度記憶部50から読み込んだ単語頻度をゼロとする。すなわち、単語頻度計数部40d〜40fは、初めて単語頻度が計数される組合せを取得した場合に、単語頻度をゼロとする。
また、この場合には、単語頻度計数部40d〜40fは、この組合せに含まれる単語と整数値1とのペアを第2ソート部120へ出力する。一方、この組合せの単語頻度が単語頻度記憶部50に記憶されている場合には、単語頻度計数部40d〜40fは、第2ソート部120へデータを出力しない。
単語頻度計数部40d〜40fは、第1ソート部110から取得したリストに含まれる整数値すべてを、読み込まれた単語頻度に加算する。単語頻度計数部40d〜40fは、この加算の結果を新しい単語頻度として、単語頻度記憶部50のデータを更新する。
第2ソート部120は、単語頻度計数部40d〜40fから単語と整数値1とのペアを取得すると、<単語、1>というペアを、<単語、[1]>というペアに変換する。つまり、第2ソート部120は、整数値を、整数値を要素に持つリスト形式のデータに変換する。また、第2ソート部120は、同一の単語を有する複数のペアを、この単語と、複数の整数値1を要素とするリストとのペアに変換する。
そして、第2ソート部120は、単語とリストとのペアを、コンテクスト頻度計数部60d〜60fへ出力する。
コンテクスト頻度計数部60d〜60fは、第2ソート部120から単語とリストとのペアを取得すると、この単語に対応するコンテクスト頻度をコンテクスト頻度記憶部70から読み込む。読み込まれたコンテクスト頻度は、前回のキーワード抽出処理までに計数されたコンテクスト頻度である。
なお、この単語のコンテクスト頻度がコンテクスト頻度記憶部70に記憶されていない場合に、コンテクスト頻度計数部60d〜60fは、コンテクスト頻度記憶部70から読み込んだコンテクスト頻度をゼロとする。
コンテクスト頻度計数部60d〜60fは、第2ソート部120から取得したリストに含まれる整数値すべてを、読み込まれたコンテクスト頻度に加算する。コンテクスト頻度計数部60d〜60fは、この加算の結果を新しいコンテクスト頻度として、コンテクスト頻度記憶部70のデータを更新する。
続いて、以上の構成要素を有するキーワード抽出システム10の動作について、図15を用いて説明する。
まず、解析部30d〜30fは、テキスト記憶部20から位置情報付きテキストを取得して、解析する(ステップS301)。
第1ソート部110は、解析部30d〜30fから出力された組合せと整数値とのペアに基づいて、ソート及び変換処理を実行する(ステップS302)。具体的には、第1ソート部110は、組合せについてペアをソートし、整数値をリスト形式のデータに変換する。
単語頻度計数部40d〜40fは、単語頻度の更新処理を実行する(ステップS303)。この単語頻度の更新処理について、図16を用いて説明する。
まず、単語頻度計数部40d〜40fは、単語W及びコンテクストラベルCの組合せとリストとのペアを、第1ソート部110から取得したか否かを判定する(ステップS321)。
ペアを取得したと判定された場合(ステップS321;Yes)、単語頻度計数部40d〜40fは、(単語W、コンテクストラベルC)という組合せの単語頻度Fが単語頻度記憶部50に記憶されているか否かを判定する(ステップS322)。
単語頻度Fが単語頻度記憶部50に記憶されていると判定された場合(ステップS322;Yes)、単語頻度計数部40d〜40fは、この単語頻度Fを読み込んで、変数Xに値を代入する(ステップS323)。その後、単語頻度計数部40d〜40fは、ステップS326へ移行する。
単語頻度Fが単語頻度記憶部50に記憶されていないと判定された場合(ステップS322;No)、単語頻度計数部40d〜40fは、変数Xにゼロを代入する(ステップS324)。また、単語頻度計数部40d〜40fは、単語Wと整数値1とのペアを第2ソート部120へ出力する(ステップS325)。その後、単語頻度計数部40d〜40fは、ステップS326へ移行する。
ステップS326にて、単語頻度計数部40d〜40fは、第1ソート部110から出力されたリストに含まれる要素(整数値)の和Swを算出する(ステップS326)。
単語頻度計数部40d〜40fは、変数Xと和Swとを加算することにより、新しく単語頻度Fを算出する。そして、単語頻度計数部40d〜40fは、単語頻度記憶部50に記憶されている単語頻度Fを更新する(ステップS327)。
その後、単語頻度計数部40d〜40fは、ステップS321へ戻り、処理を繰り返す。
また、ステップS321にてペアを取得していないと判定された場合(ステップS321;No)、単語頻度計数部40d〜40fは、単語頻度の更新処理を終了する。
図15に戻り、ステップS303に続いて、コンテクスト頻度計数部60d〜60fは、コンテクスト頻度の更新処理を実行する(ステップS304)。このコンテクスト頻度の更新処理について、図17を用いて説明する。
まず、コンテクスト頻度計数部60d〜60fは、単語Wとリストとのペアを第2ソート部120から取得したか否かを判定する(ステップS341)。
ペアを取得したと判定された場合(ステップS341;Yes)、コンテクスト頻度計数部60d〜60fは、単語Wのコンテクスト頻度Gがコンテクスト頻度記憶部70に記憶されているか否かを判定する(ステップS342)。
コンテクスト頻度Gがコンテクスト頻度記憶部70に記憶されていると判定された場合(ステップS342;Yes)、コンテクスト頻度計数部60d〜60fは、コンテクスト頻度Gを読み込んで、変数Yに値を代入する(ステップS343)。その後、コンテクスト頻度計数部60d〜60fは、ステップS345へ移行する。
コンテクスト頻度Gがコンテクスト頻度記憶部70に記憶されていないと判定された場合(ステップS342;No)、コンテクスト頻度計数部60d〜60fは、変数Yにゼロを代入する(ステップS344)。その後、コンテクスト頻度計数部60d〜60fは、ステップS345へ移行する。
ステップS345にて、コンテクスト頻度計数部60d〜60fは、第2ソート部120から出力されたリストに含まれる要素(整数値)の和Scを算出する(ステップS345)。
コンテクスト頻度計数部60d〜60fは、変数Yと和Scとを加算することにより、新しくコンテクスト頻度Gを算出する。そして、コンテクスト頻度計数部60d〜60fは、コンテクスト頻度記憶部70に記憶されているコンテクスト頻度Gを更新する(ステップS346)。
その後、コンテクスト頻度計数部60d〜60fは、ステップS341へ戻り、処理を繰り返す。
また、ステップS341にてペアを取得していないと判定された場合(ステップS341;No)、コンテクスト頻度計数部60d〜60fは、コンテクスト頻度の更新処理を終了する。
図15に戻り、ステップS304に続いて、依存度算出部80は、依存度を算出して、依存度記憶部90に記憶されている依存度を更新する(ステップS305)。
キーワード抽出部100は、依存度記憶部90に記憶された依存度に基づいて、キーワードを抽出する(ステップS315)。
そして、キーワード抽出システム10は、ステップS301に戻り、以上のキーワード抽出処理を繰り返す。
以上説明したように、本実施形態に係るキーワード抽出システム10は、ユーザにより投稿された位置情報付きテキストのうち、新しく投稿されたものに基づいて、単語頻度記憶部50、コンテクスト頻度記憶部70及び依存度記憶部90に記憶されているデータを繰り返し更新する。これにより、キーワード抽出システム10は、ユーザから投稿されたテキストに含まれるキーワードをリアルタイムに抽出することができる。
また、キーワード抽出システム10は、新しく投稿された位置情報付きテキストのみを対象としてキーワード抽出処理を実行する。これにより、キーワード抽出システム10は、繰り返し実行されるキーワード抽出処理の計算負荷を軽減することができる。
(実施形態4)
続いて、実施形態4について、上述の実施形態3との相違点を中心に説明する。なお、実施形態3に係る構成要素と同一又は同等の構成には、実施形態3と同一の符号を付す。また、実施形態3と説明が重複する部分については、その説明を省略する。
本実施形態に係るキーワード抽出システム10は、単語頻度に重み付けを行うことにより、比較的古いキーワードの影響を軽減するとともに、比較的新しいキーワードを優先的に抽出する。キーワード抽出システム10の構成は、図18に示されるように、単語頻度計数部40g〜40i及び単語頻度記憶部54が実施形態3に係るものと異なっている。
単語頻度計数部40g〜40iは、ラウンド数Rを保持する。このラウンド数Rは、繰り返し実行されるキーワード抽出処理の現在の回数を表す。単語頻度計数部40g〜40iは、キーワード抽出処理が実行されるたびに、このラウンド数Rに1を加算する。また、単語頻度計数部40g〜40iは、このラウンド数Rに基づいて単語頻度に重み付けを行う。
単語頻度記憶部54は、図19に示されるように、単語、コンテクストラベル、単語頻度、及び更新ラウンド数を対応づけて記憶する。この更新ラウンド数は、単語頻度が更新された時のラウンド数を表している。
続いて、以上の構成要素を有するキーワード抽出システム10の動作のうち、単語頻度計数部40g〜40iにより実行される単語頻度の更新処理について、図20を用いて説明する。
まず、単語頻度計数部40g〜40iは、単語W及びコンテクストラベルCの組合せとリストとのペアを、第1ソート部110から取得したか否かを判定する(ステップS41)。
ペアを取得したと判定された場合(ステップS41;Yes)、単語頻度計数部40g〜40iは、(単語W、コンテクストラベルC)という組合せの単語頻度Fが単語頻度記憶部54に記憶されているか否かを判定する(ステップS42)。
単語頻度Fが単語頻度記憶部54に記憶されていると判定された場合(ステップS42;Yes)、単語頻度計数部40g〜40iは、この単語頻度Fを読み込んで、変数Xに代入する。また、単語頻度計数部40g〜40iは、この単語頻度Fの更新ラウンド数Pを読み込んで、変数Qに代入する(ステップS43)。その後、単語頻度計数部40g〜40iは、ステップS45へ処理を移行する。
単語頻度Fが単語頻度記憶部54に記憶されていないと判定された場合(ステップS42;No)、単語頻度計数部40g〜40iは、変数Xにゼロを代入し、変数Qに現在のラウンド数Rを代入する(ステップS44)。その後、単語頻度計数部40g〜40iは、ステップS45へ処理を移行する。
ステップS45にて、単語頻度計数部40g〜40iは、第1ソート部110から出力されたリストに含まれる要素(整数値)の和Swを算出する(ステップS45)。
単語頻度計数部40g〜40iは、変数X、Q、及び和Swに基づいて、新しく単語頻度Fを算出する。αをあらかじめ設定された正の値とし、βをあらかじめ設定されたゼロ以上かつ1未満の値とすると、この単語頻度Fは、次の式(2)で示される。
Figure 0005757208
そして、単語頻度計数部40g〜40iは、単語頻度記憶部54に記憶されている単語頻度Fを更新する(ステップS46)。
また、単語頻度計数部40g〜40iは、この単語頻度Fの更新ラウンド数Pを現在のラウンド数Rに更新する(ステップS47)。
次に、単語頻度計数部40g〜40iは、単語頻度Fがあらかじめ設定された閾値T以上であり、かつ閾値Tが変数Xよりも大きいか否かを判定する(ステップS48)。すなわち、単語頻度計数部40g〜40iは、更新によって単語頻度Fが閾値Tを上回ったか否かを判定する。
ステップS48の判定が肯定された場合(ステップS48;Yes)、単語頻度計数部40g〜40iは、<単語W、整数値1>というペアを第2ソート部120へ出力する(ステップS49)。その後、単語頻度計数部40g〜40iは、ステップS41へ戻り、処理を繰り返す。
ステップS48の判定が否定された場合(ステップS48;No)、単語頻度計数部40g〜40iは、単語頻度Fがあらかじめ設定された閾値Tよりも小さく、かつ閾値Tが変数X以下であるか否かを判定する(ステップS50)。すなわち、単語頻度計数部40g〜40iは、更新によって単語頻度Fが閾値Tを下回ったか否かを判定する。
ステップS50の判定が否定された場合(ステップS50;No)、単語頻度計数部40g〜40iは、ステップS41へ戻り、処理を繰り返す。
ステップS50の判定が肯定された場合(ステップS50;Yes)、単語頻度計数部40g〜40iは、<単語W、整数値−1>というペアを第2ソート部120へ出力する(ステップS51)。その後、単語頻度計数部40g〜40iは、ステップS41へ戻り、処理を繰り返す。
また、ステップS41にて、ペアを取得していないと判定された場合(ステップS41;No)、単語頻度計数部40g〜40iは処理を終了する。
以上説明したように、単語頻度計数部40g〜40iは、単語頻度を更新する際に、単語頻度記憶部54に記憶されている単語頻度に重み係数を乗算する。この重み係数は、ゼロ以上1未満の値βのべき乗であり、その指数は現在のラウンド数Rと単語頻度の更新ラウンド数との差である。このため、単語頻度記憶部54に記憶されている単語頻度が比較的古く更新されたものであれば、重み係数は小さい値となる。一方、この単語頻度が比較的新しく更新されたものであれば、重み係数は1未満の大きい値となる。したがって、単語頻度計数部40g〜40iは、単語頻度を更新する際に、古いデータの影響を軽減し、主として新しいデータに基づく単語頻度を算出することができる。
また、単語頻度記憶部54に記憶される単語頻度が比較的新しいデータに基づいて更新されるため、依存度算出部80によって算出される依存度も、主として新しいデータに基づく依存度となる。これにより、キーワード抽出システム10は、新しく投稿された位置情報付きテキストに主として含まれるキーワードを抽出することができる。
また、単語頻度計数部40g〜40iは、単語頻度が閾値Tを上回った場合に、第2ソート部120を介してコンテクスト頻度計数部60d〜60fへデータを出力する。すなわち、単語頻度が閾値Tを上回った場合に、コンテクスト頻度が計数される。これにより、単語とコンテクストラベルとの組合せが出現する回数がごくわずかである場合にはコンテクスト頻度を計数せずに、ある程度の回数だけ単語と組み合わさって出現したコンテクストラベルの数をコンテクスト頻度として計数することができる。つまり、ノイズを除去して信頼性の高いコンテクスト頻度を得ることができる。
また、単語頻度が閾値Tを上回った場合、及び下回った場合に、コンテクスト頻度計数部60d〜60fは、コンテクスト頻度を計数する。これにより、コンテクスト頻度計数部60d〜60fは、単語頻度の推移をリアルタイムに反映したコンテクスト頻度を算出して、コンテクスト頻度記憶部70のデータを更新することができる。
(実施形態5)
続いて、実施形態5について、上述の実施形態1との相違点を中心に説明する。なお、実施形態1に係る構成要素と同一又は同等の構成には、実施形態1と同一の符号を付す。また、実施形態1と説明が重複する部分については、その説明を省略する。
本実施形態に係るキーワード抽出システム10は、図21に示されるように、テキスト記憶部25、解析部35、単語頻度計数部45、キーワード抽出部105、及びユーザ多様度算出部130を有している。
テキスト記憶部25は、ユーザにより投稿されたテキスト、このテキストに付与された位置情報、及びこのテキストを投稿したユーザのIDを対応づけて記憶する。
解析部35は、テキスト記憶部25に記憶されている位置情報付きテキストに基づいて、単語を抽出し、コンテクストラベルを生成する。また、解析部35は、これらの単語及びコンテクストラベルと、この単語が含まれる位置情報付きテキストを投稿したユーザのIDとを対応づけて、単語頻度計数部45及びユーザ多様度算出部130へ出力する。
単語頻度計数部45は、ユーザ1人により投稿された位置情報付きテキストに基づいて出現した組合せを、1回だけ計数する。つまり、単語頻度計数部45は、解析部35から出力されたデータにおいて、単語とコンテクストラベルとの同一の組合せに対応して出現するユーザの数を、単語頻度として計数する。
ユーザ多様度算出部130は、ユーザ多様度指数(Simpsonの多様度指数)を算出する。ユーザ多様度指数は、一のコンテクストラベルによって示されるコンテクストにおいて一の単語を投稿したユーザの多様性を表す指数である。例えば、特定の地域において特定の単語を含むテキストを投稿したユーザの数が多い場合に、ユーザ多様度指数は大きくなる。
単語W及びコンテクストラベルCの組合せが出現した回数をEとし、この組合せとi番目のユーザIDとが対応して出現した回数をFiとすると、この組合せに対応するユーザ多様度指数Dは、次の式(3)で示される。
Figure 0005757208
ユーザ多様度算出部130は、単語とコンテクストラベルとの組合せそれぞれについて、上記式(3)を用いて算出しユーザ多様度指数を算出し、キーワード抽出部105へ出力する。
続いて、キーワード抽出部105により実行される処理を説明する。
まず、キーワード抽出部105は、単語及びコンテクストラベルと、この単語の依存度と、この単語に対応するユーザ多様度指数を取得する。次に、キーワード抽出部105は、依存度について単語をソートする。その後、キーワード抽出部105は、ソートされた単語のうち、依存度の高い上位10個の単語を、ユーザ多様度指数について再度ソートする。そして、キーワード抽出部105は、ユーザ多様度指数の最も高い単語を、キーワードとして抽出する。キーワード抽出部105は、コンテクストラベルごとに以上の処理を実行することにより、コンテクストラベルそれぞれに対応するキーワードを抽出する。
以上説明したように、本実施形態に係る単語頻度計数部45は、1人のユーザにより投稿された位置情報付きテキストに基づいて出現した組合せを、1回まで計数する。これにより、同一の地域において少数のユーザにより繰り返し投稿された単語がキーワードとして抽出されることを防ぐことができる。
以上、実施形態について説明したが、本発明は上述の実施形態に限定されるものではない。
例えば、上記実施形態に係るキーワード抽出システム10は、ユーザにより投稿されたテキストからキーワードを抽出したが、これには限られない。例えば、位置情報と説明文とが付与された画像ファイルが投稿される場合がある。この場合に、キーワード抽出システムは、位置情報をコンテクスト情報とするとともに、説明文からキーワードを抽出してもよい。
また、上記実施形態に係るキーワード抽出システム10は、位置情報をコンテクスト情報としたが、時間(投稿時間やデジタル写真の撮影時間)、ユーザの属性(年齢、性別、又は職業)、或いは端末の温度センサや加速度センサによる観測値等をコンテクスト情報として利用してもよい。また、このようにテキストに付随するコンテクスト情報のうち2つ以上の組合せをコンテクスト情報として利用することも可能である。
また、上記実施形態に係る単語抽出部31は、形態素解析を用いて単語を抽出したが、あらかじめ設定された単語群に含まれる単語をテキストから抽出してもよい。
また、上記実施形態に係るコンテクストラベル生成部32は、0.01度単位の緯度及び経度をコンテクストラベルとしたが、住所やランドマークをコンテクストラベルとしてもよい。
また、コンテクストラベル生成部32は、緯度及び経度を0.01度単位で等分割することによりコンテクストラベルを生成した。すなわち、コンテクストラベル生成部32は、コンテクスト情報を等分割した。これには限られず、事前にコンテクスト情報の分布を分析し、各コンテクストラベルに対応するテキストの数が等しくなるように、コンテクストラベルを生成してもよい。
また、LSH(Locality Sensitive Hashing)に基づくハッシュ値をコンテクストラベルとしてもよい。この場合、コンテクスト情報の類似関係を確率的に評価することができる。
また、テキストに付随するコンテクスト情報の種類がある程度限られている場合は、コンテクストラベル生成部は、コンテクスト情報をそのままコンテクストラベルとしてもよい。例えば、テキストに付与される位置情報が0.01度単位の緯度及び経度である場合には、この位置情報をそのままコンテクストラベルとしてもよい。
また、上記の実施形態2〜4に係る分散処理において、MapReduce等のフレームワークを使用してもよい。この場合、2段のMapReduce処理を実行することになる。1段目のMapReduce処理においては、解析部30がMapフェーズを実行し、第1ソート部110がShuffleフェーズを実行し、単語頻度計数部40がReduceフェーズを実行する。2段目のMapReduce処理においては、単語頻度計数部40から第2ソート部120へデータを入力する処理がMapフェーズに対応し、第2ソート部120がShuffleフェーズを実行し、コンテクスト頻度計数部60がReduceフェーズを実行する。
また、上記実施形態4に係る依存度算出部80は、式(1)を用いて依存度を算出した。しかしながら、単語を含むテキストが投稿されない期間が長くなった場合には、単語頻度記憶部50に記憶される単語頻度が更新されないため、依存度が相対的に高い値になることがある。そこで、依存度算出部80は、式(1)に代えて、次の式(4)を用いて依存度Iを算出してもよい。この場合、長期間に渡って抽出されない単語の依存度が相対的に高くなることを防ぐことができる。
Figure 0005757208
また、上記実施形態5に係るユーザ多様度算出部130は、Simpsonの多様度指数を算出したが、これに限られず、Shannon指数等の多様度指数を算出してもよい。
また、上記実施形態5に係るキーワード抽出部105は、ユーザ多様度指数の最も高い単語をキーワードとして抽出したが、これには限られない。例えば、キーワード抽出部105は、ユーザ多様度指数をフィルタリングに利用してもよい。この場合、キーワード抽出部105は、まず、ユーザ多様度指数が所定の閾値以上となる単語を選択する。次に、キーワード抽出部105は、選択された単語のうち、依存度の最も高い単語をキーワードとして抽出する。
図22は、上記実施形態に係るキーワード抽出システム10をコンピュータに実装する場合のハードウェア構成例を示すブロック図である。キーワード抽出システム10は、一般的なコンピュータ装置と同様のハードウェア構成によって実現することができる。キーワード抽出システム10は、プロセッサH1、主記憶部H2、補助記憶部H3、出力部H4、入力部H5及び送受信部H6を備える。主記憶部H2、補助記憶部H3、出力部H4、入力部H5及び送受信部H6はいずれも内部バスH7を介してプロセッサH1に接続されている。
プロセッサH1は、CPU(Central Processing Unit)等から構成され、補助記憶部H3に記憶されるプログラムH8に従って、上記実施形態に係る解析部30、単語頻度計数部40、コンテクスト頻度計数部60、依存度算出部80、キーワード抽出部100、第1ソート部110、第2ソート部120、ユーザ多様度算出部130の処理を実行する。
主記憶部H2は、RAM(Random-Access Memory)等から構成され、補助記憶部H3に記憶されるプログラムH8をロードし、プロセッサH1の作業領域として用いられる。
補助記憶部H3は、フラッシュメモリ、ハードディスク、DVD−RAM(Digital Versatile Disc Random-Access Memory)、DVD−RW(Digital Versatile Disc ReWritable)等の不揮発性メモリから構成され、上述の処理をプロセッサH1に実行させるためのプログラムH8やパラメータ等をあらかじめ記憶する。また、補助記憶部H3は、プロセッサH1の指示に従って、プログラムH8が記憶するデータをプロセッサH1に供給し、プロセッサH1から供給されたデータを記憶する。
出力部H4は、LCD(Liquid Crystal Display)等から構成される表示装置、スピーカ等から構成される音響装置又は印刷装置等を有し、種々の情報をユーザに提供する。例えば、出力部H4は、抽出されたキーワードをキーワード抽出システム10の管理者に表示する。
入力部H5は、キーボード及びマウス等のポインティングデバイス等と、キーボード及びポインティングデバイス等を内部バスH7に接続するインタフェース装置等から構成される。例えば、キーワード抽出システムの管理者は、入力部H5を介して、閾値やパラメータ等を設定する。
送受信部H6は、モデム又は網終端装置、及びそれらと接続するシリアルインタフェース又はLANインタフェース等から構成される。キーワード抽出システム10は、送受信部H6を介して、外部から投稿される位置情報付きテキストを取得する。
図1に示されるキーワード抽出システム10の解析部30、単語頻度計数部40、コンテクスト頻度計数部60、依存度算出部80、キーワード抽出部100、第1ソート部110、第2ソート部120、及びユーザ多様度算出部130が実行する処理は、プログラムH8が、プロセッサH1、主記憶部H2、補助記憶部H3、出力部H4、入力部H5、送受信部H6等を資源として用いて処理することによって実行される。
上述の実施形態に係るキーワード抽出システム10の機能は、専用のハードウェアによっても、また、通常のコンピュータシステムによっても実現することができる。
例えば、補助記憶部H3に記憶されているプログラムH8を、フレキシブルディスク、CD−ROM(Compact Disk Read-Only Memory)、DVD(Digital Versatile Disk)、MO(Magneto-Optical disk)等のコンピュータ読み取り可能な記録媒体に格納して配布し、そのプログラムH8をコンピュータにインストールすることにより、上述の処理を実行する装置を構成することができる。
また、プログラムH8をインターネット等の通信ネットワーク上の所定のサーバ装置が有するディスク装置等に格納しておき、例えば、搬送波に重畳させて、コンピュータにダウンロード等するようにしても良い。
また、通信ネットワークを介してプログラムH8を転送しながら起動実行することによっても、上述の処理を達成することができる。
更に、プログラムH8の全部又は一部をサーバ装置上で実行させ、その処理に関する情報をコンピュータが通信ネットワークを介して送受信しながらプログラムH8を実行することによっても、上述の処理を達成することができる。
なお、上述の機能を、OS(Operating System)が分担して実現する場合又はOSとアプリケーションとの協働により実現する場合等には、OS以外の部分のみを媒体に格納して配布してもよく、また、コンピュータにダウンロード等しても良い。
上述の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
ユーザによって投稿された複数のテキストそれぞれに含まれる単語を抽出する単語抽出手段と、
前記テキストに付随するコンテクスト情報に基づいて、前記単語に対応するコンテクストラベルを生成するラベル生成手段と、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数を、単語頻度として計数する単語頻度計数手段と、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語が相互に等しい組合せ群に含まれる前記コンテクストラベルの種類の数を、コンテクスト頻度として計数するコンテクスト頻度計数手段と、
前記コンテクストラベルにより示されるコンテクストに前記単語が依存する度合いを表す依存度を、前記単語頻度と前記コンテクスト頻度とに基づいて算出する依存度算出手段と、
前記コンテクストラベルに対応する前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出するキーワード抽出手段と、
を備えるキーワード抽出システム。
(付記2)
複数の前記単語抽出手段と、複数の前記ラベル生成手段と、複数の前記単語頻度計数手段と、複数の前記コンテクスト頻度計数手段と、を備え、
複数の前記単語抽出手段は、並列計算により前記単語を抽出し、
複数の前記ラベル生成手段は、並列計算により前記コンテクストラベルを生成し、
複数の前記単語頻度計数手段は、並列計算により前記単語頻度を計数し、
複数の前記コンテクスト頻度計数手段は、並列計算により前記コンテクスト頻度を計数する、
付記1に記載のキーワード抽出システム。
(付記3)
前記単語頻度計数手段は、
計数された前記単語頻度を記憶する第1記憶手段と、
前記第1記憶手段によって前記単語頻度が記憶された後に前記単語抽出手段によって抽出された前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数に基づいて、前記第1記憶手段によって記憶された前記単語頻度を更新する第1更新手段と、
を備え、
前記コンテクスト頻度計数手段は、
計数された前記コンテクスト頻度を記憶する第2記憶手段と、
初めて前記単語頻度を計数される組合せの前記コンテクストラベルが生成された場合に、前記第2記憶手段によって記憶された前記コンテクスト頻度を更新する第2更新手段と、
を備える、
付記1又は2に記載のキーワード抽出システム。
(付記4)
前記単語頻度計数手段は、
計数された前記単語頻度を記憶する第3記憶手段と、
前記単語頻度が記憶された後に前記単語抽出手段によって抽出された前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数、及び前記第3記憶手段によって記憶された前記単語頻度に重み付けを行い、重み付けされた組合せの数及び前記単語頻度に基づいて、前記第3記憶手段によって記憶された前記単語頻度を更新する第3更新手段と、
を備え、
前記コンテクスト頻度計数手段は、
計数された前記コンテクスト頻度を記憶する第4記憶手段と、
前記第3更新手段によって前記単語頻度が所定の第1閾値を上回った場合、及び、前記単語頻度が前記第1閾値を下回った場合に、前記第4記憶手段によって記憶された前記コンテクスト頻度を更新する第4更新手段と、
を備える、
付記1又は2に記載のキーワード抽出システム。
(付記5)
前記単語頻度計数手段は、
前記単語を含む前記テキストを投稿したユーザの数に基づいて、前記単語頻度を計数する、
付記1乃至4のいずれか1つに記載のキーワード抽出システム。
(付記6)
前記単語を含む前記テキストを投稿したユーザの多様度を表すユーザ多様度指数を算出するユーザ多様度算出手段、
を備え、
前記キーワード抽出手段は、
前記依存度の高い所定の個数の前記単語のうち、前記ユーザ多様度指数の最も高い前記単語を、キーワードとして抽出する、
付記1乃至5のいずれか1つに記載のキーワード抽出システム。
(付記7)
前記単語を含む前記テキストを投稿したユーザの多様度を表すユーザ多様度指数を算出するユーザ多様度算出手段、
を備え、
前記キーワード抽出手段は、
前記ユーザ多様度指数が所定の第2閾値以上となる前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出する、
付記1乃至5のいずれか1つに記載のキーワード抽出システム。
(付記8)
前記コンテクスト情報は、
前記テキストの投稿に供された端末の位置を示す位置情報、前記テキストが投稿された時間を示す情報、及び、前記テキストを投稿したユーザの属性を示す情報のうち少なくとも1つからなる、
付記1乃至7のいずれか1つに記載のキーワード抽出システム。
(付記9)
ユーザによって投稿された複数のテキストそれぞれに含まれる単語を抽出する単語抽出ステップと、
前記テキストに付随するコンテクスト情報に基づいて、前記単語に対応するコンテクストラベルを生成するラベル生成ステップと、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数を、単語頻度として計数する単語頻度計数ステップと、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語が相互に等しい組合せ群に含まれる前記コンテクストラベルの種類の数を、コンテクスト頻度として計数するコンテクスト頻度計数ステップと、
前記コンテクストラベルにより示されるコンテクストに前記単語が依存する度合いを表す依存度を、前記単語頻度と前記コンテクスト頻度とに基づいて算出する依存度算出ステップと、
前記コンテクストラベルに対応する前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出するキーワード抽出ステップと、
を含むキーワード抽出方法。
(付記10)
コンピュータを、
ユーザによって投稿された複数のテキストそれぞれに含まれる単語を抽出する単語抽出手段、
前記テキストに付随するコンテクスト情報に基づいて、前記単語に対応するコンテクストラベルを生成するラベル生成手段、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数を、単語頻度として計数する単語頻度計数手段、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語が相互に等しい組合せ群に含まれる前記コンテクストラベルの種類の数を、コンテクスト頻度として計数するコンテクスト頻度計数手段、
前記コンテクストラベルにより示されるコンテクストに前記単語が依存する度合いを表す依存度を、前記単語頻度と前記コンテクスト頻度とに基づいて算出する依存度算出手段、
前記コンテクストラベルに対応する前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出するキーワード抽出手段、
として機能させるプログラム。
10 キーワード抽出システム
20、25 テキスト記憶部
30、30a、30b、30c、30d、30e、30f、35 解析部
31 単語抽出部
32 コンテクストラベル生成部
40、40a、40b、40c、40d、40e、40f、40g、40h、40i、45 単語頻度計数部
50、54 単語頻度記憶部
60、60a、60b、60c、60d、60e、60f コンテクスト頻度計数部
70 コンテクスト頻度記憶部
80 依存度算出部
90 依存度記憶部
100、105 キーワード抽出部
110 第1ソート部
120 第2ソート部
130 ユーザ多様度算出部
C コンテクストラベル
D ユーザ多様度指数
F 単語頻度
G コンテクスト頻度
H1 プロセッサ
H2 主記憶部
H3 補助記憶部
H4 出力部
H5 入力部
H6 送受信部
H7 内部バス
H8 プログラム
I 依存度
P 更新ラウンド数
Q、X、Y 変数
R ラウンド数
Sc、Sw 和
W 単語

Claims (11)

  1. ユーザによって投稿された複数のテキストそれぞれに含まれる単語を抽出する単語抽出手段と、
    前記テキストに付随するコンテクスト情報に基づいて、前記単語に対応するコンテクストラベルを生成するラベル生成手段と、
    前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数を、単語頻度として計数する単語頻度計数手段と、
    前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語が相互に等しい組合せ群に含まれる前記コンテクストラベルの種類の数を、コンテクスト頻度として計数するコンテクスト頻度計数手段と、
    前記コンテクストラベルにより示されるコンテクストに前記単語が依存する度合いを表す依存度を、前記単語頻度と前記コンテクスト頻度とに基づいて算出する依存度算出手段と、
    前記コンテクストラベルに対応する前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出するキーワード抽出手段と、
    を備え
    前記単語頻度計数手段は、
    計数された前記単語頻度を記憶する第1記憶手段と、
    前記第1記憶手段によって前記単語頻度が記憶された後に前記単語抽出手段によって抽出された前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数に基づいて、前記第1記憶手段によって記憶された前記単語頻度を更新する第1更新手段と、
    を有し、
    前記コンテクスト頻度計数手段は、
    計数された前記コンテクスト頻度を記憶する第2記憶手段と、
    初めて前記単語頻度を計数される組合せの前記コンテクストラベルが生成された場合に、前記第2記憶手段によって記憶された前記コンテクスト頻度を更新する第2更新手段と、
    を有する、キーワード抽出システム。
  2. ユーザによって投稿された複数のテキストそれぞれに含まれる単語を抽出する単語抽出手段と、
    前記テキストに付随するコンテクスト情報に基づいて、前記単語に対応するコンテクストラベルを生成するラベル生成手段と、
    前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数を、単語頻度として計数する単語頻度計数手段と、
    前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語が相互に等しい組合せ群に含まれる前記コンテクストラベルの種類の数を、コンテクスト頻度として計数するコンテクスト頻度計数手段と、
    前記コンテクストラベルにより示されるコンテクストに前記単語が依存する度合いを表す依存度を、前記単語頻度と前記コンテクスト頻度とに基づいて算出する依存度算出手段と、
    前記コンテクストラベルに対応する前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出するキーワード抽出手段と、
    を備え、
    前記単語頻度計数手段は、
    計数された前記単語頻度を記憶する第1記憶手段と、
    前記単語頻度が記憶された後に前記単語抽出手段によって抽出された前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数、及び前記第1記憶手段によって記憶された前記単語頻度に重み付けを行い、重み付けされた組合せの数及び前記単語頻度に基づいて、前記第1記憶手段によって記憶された前記単語頻度を更新する第1更新手段と、
    を有し、
    前記コンテクスト頻度計数手段は、
    計数された前記コンテクスト頻度を記憶する第2記憶手段と、
    前記第1更新手段によって更新されることで前記単語頻度が所定の第1閾値を上回った場合、及び、該単語頻度が前記第1閾値を下回った場合に、前記第2記憶手段によって記憶された前記コンテクスト頻度を更新する第2更新手段と、
    を有する、キーワード抽出システム。
  3. 複数の前記単語抽出手段と、複数の前記ラベル生成手段と、複数の前記単語頻度計数手段と、複数の前記コンテクスト頻度計数手段と、を備え、
    複数の前記単語抽出手段は、並列計算により前記単語を抽出し、
    複数の前記ラベル生成手段は、並列計算により前記コンテクストラベルを生成し、
    複数の前記単語頻度計数手段は、並列計算により前記単語頻度を計数し、
    複数の前記コンテクスト頻度計数手段は、並列計算により前記コンテクスト頻度を計数する、
    請求項1又は2に記載のキーワード抽出システム。
  4. 前記単語頻度計数手段は、
    前記単語を含む前記テキストを投稿したユーザの数に基づいて、前記単語頻度を計数する、
    請求項1乃至のいずれか1項に記載のキーワード抽出システム。
  5. 前記単語を含む前記テキストを投稿したユーザの多様度を表すユーザ多様度指数を算出するユーザ多様度算出手段、
    を備え、
    前記キーワード抽出手段は、
    前記依存度の高い所定の個数の前記単語のうち、前記ユーザ多様度指数の最も高い前記単語を、キーワードとして抽出する、
    請求項1乃至のいずれか1項に記載のキーワード抽出システム。
  6. 前記単語を含む前記テキストを投稿したユーザの多様度を表すユーザ多様度指数を算出するユーザ多様度算出手段、
    を備え、
    前記キーワード抽出手段は、
    前記ユーザ多様度指数が所定の第2閾値以上となる前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出する、
    請求項1乃至のいずれか1項に記載のキーワード抽出システム。
  7. 前記コンテクスト情報は、
    前記テキストの投稿に供された端末の位置を示す位置情報、前記テキストが投稿された時間を示す情報、及び、前記テキストを投稿したユーザの属性を示す情報のうち少なくとも1つからなる、
    請求項1乃至のいずれか1項に記載のキーワード抽出システム。
  8. ユーザによって投稿された複数のテキストそれぞれに含まれる単語を抽出する単語抽出ステップと、
    前記テキストに付随するコンテクスト情報に基づいて、前記単語に対応するコンテクストラベルを生成するラベル生成ステップと、
    前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数を、単語頻度として計数する単語頻度計数ステップと、
    前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語が相互に等しい組合せ群に含まれる前記コンテクストラベルの種類の数を、コンテクスト頻度として計数するコンテクスト頻度計数ステップと、
    前記コンテクストラベルにより示されるコンテクストに前記単語が依存する度合いを表す依存度を、前記単語頻度と前記コンテクスト頻度とに基づいて算出する依存度算出ステップと、
    前記コンテクストラベルに対応する前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出するキーワード抽出ステップと、
    を含み、
    前記単語頻度計数ステップでは、
    計数された前記単語頻度を第1記憶手段に記憶させて、前記第1記憶手段によって前記単語頻度が記憶された後に前記単語抽出ステップにおいて抽出された前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数に基づいて、前記第1記憶手段によって記憶された前記単語頻度を更新し、
    前記コンテクスト頻度計数ステップでは、
    計数された前記コンテクスト頻度を第2記憶手段に記憶させて、初めて前記単語頻度を計数される組合せの前記コンテクストラベルが生成された場合に、前記第2記憶手段によって記憶された前記コンテクスト頻度を更新する、キーワード抽出方法。
  9. ユーザによって投稿された複数のテキストそれぞれに含まれる単語を抽出する単語抽出ステップと、
    前記テキストに付随するコンテクスト情報に基づいて、前記単語に対応するコンテクストラベルを生成するラベル生成ステップと、
    前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数を、単語頻度として計数する単語頻度計数ステップと、
    前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語が相互に等しい組合せ群に含まれる前記コンテクストラベルの種類の数を、コンテクスト頻度として計数するコンテクスト頻度計数ステップと、
    前記コンテクストラベルにより示されるコンテクストに前記単語が依存する度合いを表す依存度を、前記単語頻度と前記コンテクスト頻度とに基づいて算出する依存度算出ステップと、
    前記コンテクストラベルに対応する前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出するキーワード抽出ステップと、
    を含み、
    前記単語頻度計数ステップでは、
    計数された前記単語頻度を第1記憶手段に記憶させて、前記単語頻度が記憶された後に前記単語抽出ステップにおいて抽出された前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数、及び前記第1記憶手段によって記憶された前記単語頻度に重み付けを行い、重み付けされた組合せの数及び前記単語頻度に基づいて、前記第1記憶手段によって記憶された前記単語頻度を更新し、
    前記コンテクスト頻度計数ステップでは、
    計数された前記コンテクスト頻度を第2記憶手段に記憶させて、前記単語頻度計数ステップにおいて更新された前記単語頻度が所定の閾値を上回った場合、及び、該単語頻度が前記閾値を下回った場合に、前記第2記憶手段によって記憶された前記コンテクスト頻度を更新する、キーワード抽出方法。
  10. コンピュータを、
    ユーザによって投稿された複数のテキストそれぞれに含まれる単語を抽出する単語抽出手段、
    前記テキストに付随するコンテクスト情報に基づいて、前記単語に対応するコンテクストラベルを生成するラベル生成手段、
    前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数を、単語頻度として計数する単語頻度計数手段、
    前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語が相互に等しい組合せ群に含まれる前記コンテクストラベルの種類の数を、コンテクスト頻度として計数するコンテクスト頻度計数手段、
    前記コンテクストラベルにより示されるコンテクストに前記単語が依存する度合いを表す依存度を、前記単語頻度と前記コンテクスト頻度とに基づいて算出する依存度算出手段、
    前記コンテクストラベルに対応する前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出するキーワード抽出手段、
    として機能させ
    前記単語頻度計数手段は、
    計数された前記単語頻度を第1記憶手段に記憶させて、前記第1記憶手段によって前記単語頻度が記憶された後に前記単語抽出手段によって抽出された前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数に基づいて、前記第1記憶手段によって記憶された前記単語頻度を更新し、
    前記コンテクスト頻度計数手段は、
    計数された前記コンテクスト頻度を第2記憶手段に記憶させて、初めて前記単語頻度を計数される組合せの前記コンテクストラベルが生成された場合に、前記第2記憶手段によって記憶された前記コンテクスト頻度を更新する、プログラム。
  11. コンピュータを、
    ユーザによって投稿された複数のテキストそれぞれに含まれる単語を抽出する単語抽出手段、
    前記テキストに付随するコンテクスト情報に基づいて、前記単語に対応するコンテクストラベルを生成するラベル生成手段、
    前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数を、単語頻度として計数する単語頻度計数手段、
    前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語が相互に等しい組合せ群に含まれる前記コンテクストラベルの種類の数を、コンテクスト頻度として計数するコンテクスト頻度計数手段、
    前記コンテクストラベルにより示されるコンテクストに前記単語が依存する度合いを表す依存度を、前記単語頻度と前記コンテクスト頻度とに基づいて算出する依存度算出手段、
    前記コンテクストラベルに対応する前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出するキーワード抽出手段、
    として機能させ、
    前記単語頻度計数手段は、
    計数された前記単語頻度を第1記憶手段に記憶させて、前記単語頻度が記憶された後に前記単語抽出手段によって抽出された前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数、及び前記第1記憶手段によって記憶された前記単語頻度に重み付けを行い、重み付けされた組合せの数及び前記単語頻度に基づいて、前記第1記憶手段によって記憶された前記単語頻度を更新し、
    前記コンテクスト頻度計数手段は、
    計数された前記コンテクスト頻度を第2記憶手段に記憶させて、前記単語頻度計数手段によって更新されることで前記単語頻度が所定の閾値を上回った場合、及び、該単語頻度が前記閾値を下回った場合に、前記第2記憶手段によって記憶された前記コンテクスト頻度を更新する、プログラム。
JP2011208200A 2011-09-22 2011-09-22 キーワード抽出システム、キーワード抽出方法及びプログラム Expired - Fee Related JP5757208B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011208200A JP5757208B2 (ja) 2011-09-22 2011-09-22 キーワード抽出システム、キーワード抽出方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011208200A JP5757208B2 (ja) 2011-09-22 2011-09-22 キーワード抽出システム、キーワード抽出方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2013069175A JP2013069175A (ja) 2013-04-18
JP5757208B2 true JP5757208B2 (ja) 2015-07-29

Family

ID=48474799

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011208200A Expired - Fee Related JP5757208B2 (ja) 2011-09-22 2011-09-22 キーワード抽出システム、キーワード抽出方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5757208B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6092742B2 (ja) * 2013-09-10 2017-03-08 シャープ株式会社 情報処理装置、情報処理装置の制御方法、および制御プログラム
JP6194760B2 (ja) * 2013-11-06 2017-09-13 富士通株式会社 キーワード生成方法、プログラム及び情報処理装置
JP6173990B2 (ja) 2014-09-16 2017-08-02 株式会社東芝 検索支援装置、方法およびプログラム
JP6477648B2 (ja) * 2016-09-29 2019-03-06 トヨタ自動車株式会社 キーワード生成装置およびキーワード生成方法
CN111858938B (zh) * 2020-07-23 2024-05-24 鼎富智能科技有限公司 一种裁判文书标签的提取方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05314169A (ja) * 1992-03-11 1993-11-26 Mitsubishi Electric Corp 並列データ処理装置および並列形態素抽出方法
JP2004185572A (ja) * 2002-12-06 2004-07-02 Nippon Telegr & Teleph Corp <Ntt> 口コミ情報解析方法及び装置
JP2004206391A (ja) * 2002-12-25 2004-07-22 Mitsubishi Electric Corp 文書情報分析装置
JP2006139716A (ja) * 2004-11-15 2006-06-01 Nippon Telegr & Teleph Corp <Ntt> 話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP5056365B2 (ja) * 2007-11-19 2012-10-24 日本電気株式会社 コンテンツ情報配信装置、コンテンツ情報配信システムおよびコンテンツ情報配信方法
JP5215877B2 (ja) * 2009-01-06 2013-06-19 ヤフー株式会社 地域特性辞書生成方法及び装置
JP5371480B2 (ja) * 2009-02-25 2013-12-18 株式会社 ミックウェア 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
JP2013069175A (ja) 2013-04-18

Similar Documents

Publication Publication Date Title
US20200026721A1 (en) Method and system for generating a geocode trie and facilitating reverse geocode lookups
US9646061B2 (en) Distributed fuzzy search and join with edit distance guarantees
JP5757208B2 (ja) キーワード抽出システム、キーワード抽出方法及びプログラム
CN111866727B (zh) 司机聚集点的展示方法、装置、电子设备、存储介质
US20190056235A1 (en) Path querying method and device, an apparatus and non-volatile computer storage medium
JP2018537760A (ja) アドレス情報に基づいたアカウントマッピングの方法及び装置
JP2007219655A (ja) 施設情報管理システム、施設情報管理方法および施設情報管理プログラム
WO2018186235A1 (ja) 場所人気度推定システム
JP2019191975A (ja) 人材選定装置、人材選定システム、人材選定方法及びプログラム
JP5221664B2 (ja) 情報マップ管理システムおよび情報マップ管理方法
JP6662689B2 (ja) 単語判定装置
JP6442918B2 (ja) 専門家検索装置、専門家検索方法および専門家検索プログラム
JP2018517218A (ja) 位置情報提供方法及び装置
JP5980520B2 (ja) 効率的にクエリを処理する方法及び装置
JP2013041385A (ja) 文献検索方法、文献検索装置及び文献検索プログラム
Tiwari et al. Scalable prediction by partial match (PPM) and its application to route prediction
JP5639549B2 (ja) 情報検索装置及び方法及びプログラム
Tiwari et al. Distributed context tree weighting (ctw) for route prediction
JP2012252391A (ja) 情報処理装置、情報処理方法、及びプログラム
JP5790768B2 (ja) 検索方法及び情報管理装置
KR101648046B1 (ko) 오픈소스 소프트웨어 추천 시스템 및 방법
CN110263082B (zh) 数据库的数据分布分析方法、装置、电子设备及存储介质
JP6676698B2 (ja) 予約語及び属性言語間の関連度を用いた情報検索方法及び装置
JP2010015394A (ja) リンク先提示装置およびコンピュータプログラム
JP5665683B2 (ja) 重要度判定装置、重要度判定方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140806

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150217

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150413

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150520

R150 Certificate of patent or registration of utility model

Ref document number: 5757208

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees