JP5757208B2 - キーワード抽出システム、キーワード抽出方法及びプログラム - Google Patents
キーワード抽出システム、キーワード抽出方法及びプログラム Download PDFInfo
- Publication number
- JP5757208B2 JP5757208B2 JP2011208200A JP2011208200A JP5757208B2 JP 5757208 B2 JP5757208 B2 JP 5757208B2 JP 2011208200 A JP2011208200 A JP 2011208200A JP 2011208200 A JP2011208200 A JP 2011208200A JP 5757208 B2 JP5757208 B2 JP 5757208B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- context
- frequency
- counting
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
ユーザによって投稿された複数のテキストそれぞれに含まれる単語を抽出する単語抽出手段と、
前記テキストに付随するコンテクスト情報に基づいて、前記単語に対応するコンテクストラベルを生成するラベル生成手段と、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数を、単語頻度として計数する単語頻度計数手段と、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語が相互に等しい組合せ群に含まれる前記コンテクストラベルの種類の数を、コンテクスト頻度として計数するコンテクスト頻度計数手段と、
前記コンテクストラベルにより示されるコンテクストに前記単語が依存する度合いを表す依存度を、前記単語頻度と前記コンテクスト頻度とに基づいて算出する依存度算出手段と、
前記コンテクストラベルに対応する前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出するキーワード抽出手段と、
を備え、
前記単語頻度計数手段は、
計数された前記単語頻度を記憶する第1記憶手段と、
前記第1記憶手段によって前記単語頻度が記憶された後に前記単語抽出手段によって抽出された前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数に基づいて、前記第1記憶手段によって記憶された前記単語頻度を更新する第1更新手段と、
を有し、
前記コンテクスト頻度計数手段は、
計数された前記コンテクスト頻度を記憶する第2記憶手段と、
初めて前記単語頻度を計数される組合せの前記コンテクストラベルが生成された場合に、前記第2記憶手段によって記憶された前記コンテクスト頻度を更新する第2更新手段と、
を有する。
上記目的を達成するために、本発明の第2の観点に係るキーワード抽出システムは、
ユーザによって投稿された複数のテキストそれぞれに含まれる単語を抽出する単語抽出手段と、
前記テキストに付随するコンテクスト情報に基づいて、前記単語に対応するコンテクストラベルを生成するラベル生成手段と、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数を、単語頻度として計数する単語頻度計数手段と、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語が相互に等しい組合せ群に含まれる前記コンテクストラベルの種類の数を、コンテクスト頻度として計数するコンテクスト頻度計数手段と、
前記コンテクストラベルにより示されるコンテクストに前記単語が依存する度合いを表す依存度を、前記単語頻度と前記コンテクスト頻度とに基づいて算出する依存度算出手段と、
前記コンテクストラベルに対応する前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出するキーワード抽出手段と、
を備え、
前記単語頻度計数手段は、
計数された前記単語頻度を記憶する第1記憶手段と、
前記単語頻度が記憶された後に前記単語抽出手段によって抽出された前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数、及び前記第1記憶手段によって記憶された前記単語頻度に重み付けを行い、重み付けされた組合せの数及び前記単語頻度に基づいて、前記第1記憶手段によって記憶された前記単語頻度を更新する第1更新手段と、
を有し、
前記コンテクスト頻度計数手段は、
計数された前記コンテクスト頻度を記憶する第2記憶手段と、
前記第1更新手段によって更新されることで前記単語頻度が所定の第1閾値を上回った場合、及び、該単語頻度が前記第1閾値を下回った場合に、前記第2記憶手段によって記憶された前記コンテクスト頻度を更新する第2更新手段と、
を有する。
ユーザによって投稿された複数のテキストそれぞれに含まれる単語を抽出する単語抽出ステップと、
前記テキストに付随するコンテクスト情報に基づいて、前記単語に対応するコンテクストラベルを生成するラベル生成ステップと、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数を、単語頻度として計数する単語頻度計数ステップと、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語が相互に等しい組合せ群に含まれる前記コンテクストラベルの種類の数を、コンテクスト頻度として計数するコンテクスト頻度計数ステップと、
前記コンテクストラベルにより示されるコンテクストに前記単語が依存する度合いを表す依存度を、前記単語頻度と前記コンテクスト頻度とに基づいて算出する依存度算出ステップと、
前記コンテクストラベルに対応する前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出するキーワード抽出ステップと、
を含み、
前記単語頻度計数ステップでは、
計数された前記単語頻度を第1記憶手段に記憶させて、前記第1記憶手段によって前記単語頻度が記憶された後に前記単語抽出ステップにおいて抽出された前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数に基づいて、前記第1記憶手段によって記憶された前記単語頻度を更新し、
前記コンテクスト頻度計数ステップでは、
計数された前記コンテクスト頻度を第2記憶手段に記憶させて、初めて前記単語頻度を計数される組合せの前記コンテクストラベルが生成された場合に、前記第2記憶手段によって記憶された前記コンテクスト頻度を更新する。
上記目的を達成するために、本発明の第4の観点に係るキーワード抽出方法は、
ユーザによって投稿された複数のテキストそれぞれに含まれる単語を抽出する単語抽出ステップと、
前記テキストに付随するコンテクスト情報に基づいて、前記単語に対応するコンテクストラベルを生成するラベル生成ステップと、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数を、単語頻度として計数する単語頻度計数ステップと、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語が相互に等しい組合せ群に含まれる前記コンテクストラベルの種類の数を、コンテクスト頻度として計数するコンテクスト頻度計数ステップと、
前記コンテクストラベルにより示されるコンテクストに前記単語が依存する度合いを表す依存度を、前記単語頻度と前記コンテクスト頻度とに基づいて算出する依存度算出ステップと、
前記コンテクストラベルに対応する前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出するキーワード抽出ステップと、
を含み、
前記単語頻度計数ステップでは、
計数された前記単語頻度を第1記憶手段に記憶させて、前記単語頻度が記憶された後に前記単語抽出ステップにおいて抽出された前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数、及び前記第1記憶手段によって記憶された前記単語頻度に重み付けを行い、重み付けされた組合せの数及び前記単語頻度に基づいて、前記第1記憶手段によって記憶された前記単語頻度を更新し、
前記コンテクスト頻度計数ステップでは、
計数された前記コンテクスト頻度を第2記憶手段に記憶させて、前記単語頻度計数ステップにおいて更新された前記単語頻度が所定の閾値を上回った場合、及び、該単語頻度が前記閾値を下回った場合に、前記第2記憶手段によって記憶された前記コンテクスト頻度を更新する。
コンピュータを、
ユーザによって投稿された複数のテキストそれぞれに含まれる単語を抽出する単語抽出手段、
前記テキストに付随するコンテクスト情報に基づいて、前記単語に対応するコンテクストラベルを生成するラベル生成手段、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数を、単語頻度として計数する単語頻度計数手段、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語が相互に等しい組合せ群に含まれる前記コンテクストラベルの種類の数を、コンテクスト頻度として計数するコンテクスト頻度計数手段、
前記コンテクストラベルにより示されるコンテクストに前記単語が依存する度合いを表す依存度を、前記単語頻度と前記コンテクスト頻度とに基づいて算出する依存度算出手段、
前記コンテクストラベルに対応する前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出するキーワード抽出手段、
として機能させ、
前記単語頻度計数手段は、
計数された前記単語頻度を第1記憶手段に記憶させて、前記第1記憶手段によって前記単語頻度が記憶された後に前記単語抽出手段によって抽出された前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数に基づいて、前記第1記憶手段によって記憶された前記単語頻度を更新し、
前記コンテクスト頻度計数手段は、
計数された前記コンテクスト頻度を第2記憶手段に記憶させて、初めて前記単語頻度を計数される組合せの前記コンテクストラベルが生成された場合に、前記第2記憶手段によって記憶された前記コンテクスト頻度を更新する。
上記目的を達成するために、本発明の第6の観点に係るプログラムは、
コンピュータを、
ユーザによって投稿された複数のテキストそれぞれに含まれる単語を抽出する単語抽出手段、
前記テキストに付随するコンテクスト情報に基づいて、前記単語に対応するコンテクストラベルを生成するラベル生成手段、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数を、単語頻度として計数する単語頻度計数手段、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語が相互に等しい組合せ群に含まれる前記コンテクストラベルの種類の数を、コンテクスト頻度として計数するコンテクスト頻度計数手段、
前記コンテクストラベルにより示されるコンテクストに前記単語が依存する度合いを表す依存度を、前記単語頻度と前記コンテクスト頻度とに基づいて算出する依存度算出手段、
前記コンテクストラベルに対応する前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出するキーワード抽出手段、
として機能させ、
前記単語頻度計数手段は、
計数された前記単語頻度を第1記憶手段に記憶させて、前記単語頻度が記憶された後に前記単語抽出手段によって抽出された前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数、及び前記第1記憶手段によって記憶された前記単語頻度に重み付けを行い、重み付けされた組合せの数及び前記単語頻度に基づいて、前記第1記憶手段によって記憶された前記単語頻度を更新し、
前記コンテクスト頻度計数手段は、
計数された前記コンテクスト頻度を第2記憶手段に記憶させて、前記単語頻度計数手段によって更新されることで前記単語頻度が所定の閾値を上回った場合、及び、該単語頻度が前記閾値を下回った場合に、前記第2記憶手段によって記憶された前記コンテクスト頻度を更新する。
本実施形態に係るキーワード抽出システム10は、コンテクスト情報として位置情報を付与された複数のテキストからキーワードを抽出する。位置情報は、例えば、緯度及び経度を示すデータである。キーワード抽出システム10は、図1に示されるように、テキスト記憶部20、解析部30、単語頻度計数部40、単語頻度記憶部50、コンテクスト頻度計数部60、コンテクスト頻度記憶部70、依存度算出部80、依存度記憶部90、及びキーワード抽出部100を有している。
続いて、実施形態2について、上述の実施形態1との相違点を中心に説明する。なお、実施形態1に係る構成要素と同一又は同等の構成には、実施形態1と同一の符号を付す。また、実施形態1と説明が重複する部分については、その説明を省略する。
続いて、実施形態3について、上述の実施形態2との相違点を中心に説明する。なお、実施形態2に係る構成要素と同一又は同等の構成には、実施形態2と同一の符号を付す。また、実施形態2と説明が重複する部分については、その説明を省略する。
続いて、実施形態4について、上述の実施形態3との相違点を中心に説明する。なお、実施形態3に係る構成要素と同一又は同等の構成には、実施形態3と同一の符号を付す。また、実施形態3と説明が重複する部分については、その説明を省略する。
続いて、実施形態5について、上述の実施形態1との相違点を中心に説明する。なお、実施形態1に係る構成要素と同一又は同等の構成には、実施形態1と同一の符号を付す。また、実施形態1と説明が重複する部分については、その説明を省略する。
ユーザによって投稿された複数のテキストそれぞれに含まれる単語を抽出する単語抽出手段と、
前記テキストに付随するコンテクスト情報に基づいて、前記単語に対応するコンテクストラベルを生成するラベル生成手段と、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数を、単語頻度として計数する単語頻度計数手段と、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語が相互に等しい組合せ群に含まれる前記コンテクストラベルの種類の数を、コンテクスト頻度として計数するコンテクスト頻度計数手段と、
前記コンテクストラベルにより示されるコンテクストに前記単語が依存する度合いを表す依存度を、前記単語頻度と前記コンテクスト頻度とに基づいて算出する依存度算出手段と、
前記コンテクストラベルに対応する前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出するキーワード抽出手段と、
を備えるキーワード抽出システム。
複数の前記単語抽出手段と、複数の前記ラベル生成手段と、複数の前記単語頻度計数手段と、複数の前記コンテクスト頻度計数手段と、を備え、
複数の前記単語抽出手段は、並列計算により前記単語を抽出し、
複数の前記ラベル生成手段は、並列計算により前記コンテクストラベルを生成し、
複数の前記単語頻度計数手段は、並列計算により前記単語頻度を計数し、
複数の前記コンテクスト頻度計数手段は、並列計算により前記コンテクスト頻度を計数する、
付記1に記載のキーワード抽出システム。
前記単語頻度計数手段は、
計数された前記単語頻度を記憶する第1記憶手段と、
前記第1記憶手段によって前記単語頻度が記憶された後に前記単語抽出手段によって抽出された前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数に基づいて、前記第1記憶手段によって記憶された前記単語頻度を更新する第1更新手段と、
を備え、
前記コンテクスト頻度計数手段は、
計数された前記コンテクスト頻度を記憶する第2記憶手段と、
初めて前記単語頻度を計数される組合せの前記コンテクストラベルが生成された場合に、前記第2記憶手段によって記憶された前記コンテクスト頻度を更新する第2更新手段と、
を備える、
付記1又は2に記載のキーワード抽出システム。
前記単語頻度計数手段は、
計数された前記単語頻度を記憶する第3記憶手段と、
前記単語頻度が記憶された後に前記単語抽出手段によって抽出された前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数、及び前記第3記憶手段によって記憶された前記単語頻度に重み付けを行い、重み付けされた組合せの数及び前記単語頻度に基づいて、前記第3記憶手段によって記憶された前記単語頻度を更新する第3更新手段と、
を備え、
前記コンテクスト頻度計数手段は、
計数された前記コンテクスト頻度を記憶する第4記憶手段と、
前記第3更新手段によって前記単語頻度が所定の第1閾値を上回った場合、及び、前記単語頻度が前記第1閾値を下回った場合に、前記第4記憶手段によって記憶された前記コンテクスト頻度を更新する第4更新手段と、
を備える、
付記1又は2に記載のキーワード抽出システム。
前記単語頻度計数手段は、
前記単語を含む前記テキストを投稿したユーザの数に基づいて、前記単語頻度を計数する、
付記1乃至4のいずれか1つに記載のキーワード抽出システム。
前記単語を含む前記テキストを投稿したユーザの多様度を表すユーザ多様度指数を算出するユーザ多様度算出手段、
を備え、
前記キーワード抽出手段は、
前記依存度の高い所定の個数の前記単語のうち、前記ユーザ多様度指数の最も高い前記単語を、キーワードとして抽出する、
付記1乃至5のいずれか1つに記載のキーワード抽出システム。
前記単語を含む前記テキストを投稿したユーザの多様度を表すユーザ多様度指数を算出するユーザ多様度算出手段、
を備え、
前記キーワード抽出手段は、
前記ユーザ多様度指数が所定の第2閾値以上となる前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出する、
付記1乃至5のいずれか1つに記載のキーワード抽出システム。
前記コンテクスト情報は、
前記テキストの投稿に供された端末の位置を示す位置情報、前記テキストが投稿された時間を示す情報、及び、前記テキストを投稿したユーザの属性を示す情報のうち少なくとも1つからなる、
付記1乃至7のいずれか1つに記載のキーワード抽出システム。
ユーザによって投稿された複数のテキストそれぞれに含まれる単語を抽出する単語抽出ステップと、
前記テキストに付随するコンテクスト情報に基づいて、前記単語に対応するコンテクストラベルを生成するラベル生成ステップと、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数を、単語頻度として計数する単語頻度計数ステップと、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語が相互に等しい組合せ群に含まれる前記コンテクストラベルの種類の数を、コンテクスト頻度として計数するコンテクスト頻度計数ステップと、
前記コンテクストラベルにより示されるコンテクストに前記単語が依存する度合いを表す依存度を、前記単語頻度と前記コンテクスト頻度とに基づいて算出する依存度算出ステップと、
前記コンテクストラベルに対応する前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出するキーワード抽出ステップと、
を含むキーワード抽出方法。
コンピュータを、
ユーザによって投稿された複数のテキストそれぞれに含まれる単語を抽出する単語抽出手段、
前記テキストに付随するコンテクスト情報に基づいて、前記単語に対応するコンテクストラベルを生成するラベル生成手段、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数を、単語頻度として計数する単語頻度計数手段、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語が相互に等しい組合せ群に含まれる前記コンテクストラベルの種類の数を、コンテクスト頻度として計数するコンテクスト頻度計数手段、
前記コンテクストラベルにより示されるコンテクストに前記単語が依存する度合いを表す依存度を、前記単語頻度と前記コンテクスト頻度とに基づいて算出する依存度算出手段、
前記コンテクストラベルに対応する前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出するキーワード抽出手段、
として機能させるプログラム。
20、25 テキスト記憶部
30、30a、30b、30c、30d、30e、30f、35 解析部
31 単語抽出部
32 コンテクストラベル生成部
40、40a、40b、40c、40d、40e、40f、40g、40h、40i、45 単語頻度計数部
50、54 単語頻度記憶部
60、60a、60b、60c、60d、60e、60f コンテクスト頻度計数部
70 コンテクスト頻度記憶部
80 依存度算出部
90 依存度記憶部
100、105 キーワード抽出部
110 第1ソート部
120 第2ソート部
130 ユーザ多様度算出部
C コンテクストラベル
D ユーザ多様度指数
F 単語頻度
G コンテクスト頻度
H1 プロセッサ
H2 主記憶部
H3 補助記憶部
H4 出力部
H5 入力部
H6 送受信部
H7 内部バス
H8 プログラム
I 依存度
P 更新ラウンド数
Q、X、Y 変数
R ラウンド数
Sc、Sw 和
W 単語
Claims (11)
- ユーザによって投稿された複数のテキストそれぞれに含まれる単語を抽出する単語抽出手段と、
前記テキストに付随するコンテクスト情報に基づいて、前記単語に対応するコンテクストラベルを生成するラベル生成手段と、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数を、単語頻度として計数する単語頻度計数手段と、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語が相互に等しい組合せ群に含まれる前記コンテクストラベルの種類の数を、コンテクスト頻度として計数するコンテクスト頻度計数手段と、
前記コンテクストラベルにより示されるコンテクストに前記単語が依存する度合いを表す依存度を、前記単語頻度と前記コンテクスト頻度とに基づいて算出する依存度算出手段と、
前記コンテクストラベルに対応する前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出するキーワード抽出手段と、
を備え、
前記単語頻度計数手段は、
計数された前記単語頻度を記憶する第1記憶手段と、
前記第1記憶手段によって前記単語頻度が記憶された後に前記単語抽出手段によって抽出された前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数に基づいて、前記第1記憶手段によって記憶された前記単語頻度を更新する第1更新手段と、
を有し、
前記コンテクスト頻度計数手段は、
計数された前記コンテクスト頻度を記憶する第2記憶手段と、
初めて前記単語頻度を計数される組合せの前記コンテクストラベルが生成された場合に、前記第2記憶手段によって記憶された前記コンテクスト頻度を更新する第2更新手段と、
を有する、キーワード抽出システム。 - ユーザによって投稿された複数のテキストそれぞれに含まれる単語を抽出する単語抽出手段と、
前記テキストに付随するコンテクスト情報に基づいて、前記単語に対応するコンテクストラベルを生成するラベル生成手段と、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数を、単語頻度として計数する単語頻度計数手段と、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語が相互に等しい組合せ群に含まれる前記コンテクストラベルの種類の数を、コンテクスト頻度として計数するコンテクスト頻度計数手段と、
前記コンテクストラベルにより示されるコンテクストに前記単語が依存する度合いを表す依存度を、前記単語頻度と前記コンテクスト頻度とに基づいて算出する依存度算出手段と、
前記コンテクストラベルに対応する前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出するキーワード抽出手段と、
を備え、
前記単語頻度計数手段は、
計数された前記単語頻度を記憶する第1記憶手段と、
前記単語頻度が記憶された後に前記単語抽出手段によって抽出された前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数、及び前記第1記憶手段によって記憶された前記単語頻度に重み付けを行い、重み付けされた組合せの数及び前記単語頻度に基づいて、前記第1記憶手段によって記憶された前記単語頻度を更新する第1更新手段と、
を有し、
前記コンテクスト頻度計数手段は、
計数された前記コンテクスト頻度を記憶する第2記憶手段と、
前記第1更新手段によって更新されることで前記単語頻度が所定の第1閾値を上回った場合、及び、該単語頻度が前記第1閾値を下回った場合に、前記第2記憶手段によって記憶された前記コンテクスト頻度を更新する第2更新手段と、
を有する、キーワード抽出システム。 - 複数の前記単語抽出手段と、複数の前記ラベル生成手段と、複数の前記単語頻度計数手段と、複数の前記コンテクスト頻度計数手段と、を備え、
複数の前記単語抽出手段は、並列計算により前記単語を抽出し、
複数の前記ラベル生成手段は、並列計算により前記コンテクストラベルを生成し、
複数の前記単語頻度計数手段は、並列計算により前記単語頻度を計数し、
複数の前記コンテクスト頻度計数手段は、並列計算により前記コンテクスト頻度を計数する、
請求項1又は2に記載のキーワード抽出システム。 - 前記単語頻度計数手段は、
前記単語を含む前記テキストを投稿したユーザの数に基づいて、前記単語頻度を計数する、
請求項1乃至3のいずれか1項に記載のキーワード抽出システム。 - 前記単語を含む前記テキストを投稿したユーザの多様度を表すユーザ多様度指数を算出するユーザ多様度算出手段、
を備え、
前記キーワード抽出手段は、
前記依存度の高い所定の個数の前記単語のうち、前記ユーザ多様度指数の最も高い前記単語を、キーワードとして抽出する、
請求項1乃至4のいずれか1項に記載のキーワード抽出システム。 - 前記単語を含む前記テキストを投稿したユーザの多様度を表すユーザ多様度指数を算出するユーザ多様度算出手段、
を備え、
前記キーワード抽出手段は、
前記ユーザ多様度指数が所定の第2閾値以上となる前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出する、
請求項1乃至4のいずれか1項に記載のキーワード抽出システム。 - 前記コンテクスト情報は、
前記テキストの投稿に供された端末の位置を示す位置情報、前記テキストが投稿された時間を示す情報、及び、前記テキストを投稿したユーザの属性を示す情報のうち少なくとも1つからなる、
請求項1乃至6のいずれか1項に記載のキーワード抽出システム。 - ユーザによって投稿された複数のテキストそれぞれに含まれる単語を抽出する単語抽出ステップと、
前記テキストに付随するコンテクスト情報に基づいて、前記単語に対応するコンテクストラベルを生成するラベル生成ステップと、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数を、単語頻度として計数する単語頻度計数ステップと、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語が相互に等しい組合せ群に含まれる前記コンテクストラベルの種類の数を、コンテクスト頻度として計数するコンテクスト頻度計数ステップと、
前記コンテクストラベルにより示されるコンテクストに前記単語が依存する度合いを表す依存度を、前記単語頻度と前記コンテクスト頻度とに基づいて算出する依存度算出ステップと、
前記コンテクストラベルに対応する前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出するキーワード抽出ステップと、
を含み、
前記単語頻度計数ステップでは、
計数された前記単語頻度を第1記憶手段に記憶させて、前記第1記憶手段によって前記単語頻度が記憶された後に前記単語抽出ステップにおいて抽出された前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数に基づいて、前記第1記憶手段によって記憶された前記単語頻度を更新し、
前記コンテクスト頻度計数ステップでは、
計数された前記コンテクスト頻度を第2記憶手段に記憶させて、初めて前記単語頻度を計数される組合せの前記コンテクストラベルが生成された場合に、前記第2記憶手段によって記憶された前記コンテクスト頻度を更新する、キーワード抽出方法。 - ユーザによって投稿された複数のテキストそれぞれに含まれる単語を抽出する単語抽出ステップと、
前記テキストに付随するコンテクスト情報に基づいて、前記単語に対応するコンテクストラベルを生成するラベル生成ステップと、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数を、単語頻度として計数する単語頻度計数ステップと、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語が相互に等しい組合せ群に含まれる前記コンテクストラベルの種類の数を、コンテクスト頻度として計数するコンテクスト頻度計数ステップと、
前記コンテクストラベルにより示されるコンテクストに前記単語が依存する度合いを表す依存度を、前記単語頻度と前記コンテクスト頻度とに基づいて算出する依存度算出ステップと、
前記コンテクストラベルに対応する前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出するキーワード抽出ステップと、
を含み、
前記単語頻度計数ステップでは、
計数された前記単語頻度を第1記憶手段に記憶させて、前記単語頻度が記憶された後に前記単語抽出ステップにおいて抽出された前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数、及び前記第1記憶手段によって記憶された前記単語頻度に重み付けを行い、重み付けされた組合せの数及び前記単語頻度に基づいて、前記第1記憶手段によって記憶された前記単語頻度を更新し、
前記コンテクスト頻度計数ステップでは、
計数された前記コンテクスト頻度を第2記憶手段に記憶させて、前記単語頻度計数ステップにおいて更新された前記単語頻度が所定の閾値を上回った場合、及び、該単語頻度が前記閾値を下回った場合に、前記第2記憶手段によって記憶された前記コンテクスト頻度を更新する、キーワード抽出方法。 - コンピュータを、
ユーザによって投稿された複数のテキストそれぞれに含まれる単語を抽出する単語抽出手段、
前記テキストに付随するコンテクスト情報に基づいて、前記単語に対応するコンテクストラベルを生成するラベル生成手段、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数を、単語頻度として計数する単語頻度計数手段、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語が相互に等しい組合せ群に含まれる前記コンテクストラベルの種類の数を、コンテクスト頻度として計数するコンテクスト頻度計数手段、
前記コンテクストラベルにより示されるコンテクストに前記単語が依存する度合いを表す依存度を、前記単語頻度と前記コンテクスト頻度とに基づいて算出する依存度算出手段、
前記コンテクストラベルに対応する前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出するキーワード抽出手段、
として機能させ、
前記単語頻度計数手段は、
計数された前記単語頻度を第1記憶手段に記憶させて、前記第1記憶手段によって前記単語頻度が記憶された後に前記単語抽出手段によって抽出された前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数に基づいて、前記第1記憶手段によって記憶された前記単語頻度を更新し、
前記コンテクスト頻度計数手段は、
計数された前記コンテクスト頻度を第2記憶手段に記憶させて、初めて前記単語頻度を計数される組合せの前記コンテクストラベルが生成された場合に、前記第2記憶手段によって記憶された前記コンテクスト頻度を更新する、プログラム。 - コンピュータを、
ユーザによって投稿された複数のテキストそれぞれに含まれる単語を抽出する単語抽出手段、
前記テキストに付随するコンテクスト情報に基づいて、前記単語に対応するコンテクストラベルを生成するラベル生成手段、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数を、単語頻度として計数する単語頻度計数手段、
前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語が相互に等しい組合せ群に含まれる前記コンテクストラベルの種類の数を、コンテクスト頻度として計数するコンテクスト頻度計数手段、
前記コンテクストラベルにより示されるコンテクストに前記単語が依存する度合いを表す依存度を、前記単語頻度と前記コンテクスト頻度とに基づいて算出する依存度算出手段、
前記コンテクストラベルに対応する前記単語のうち、前記依存度の最も高い前記単語を、キーワードとして抽出するキーワード抽出手段、
として機能させ、
前記単語頻度計数手段は、
計数された前記単語頻度を第1記憶手段に記憶させて、前記単語頻度が記憶された後に前記単語抽出手段によって抽出された前記単語と、該単語に対応する前記コンテクストラベルとの組合せのうち、前記単語及び前記コンテクストラベルの双方が相互に等しい組合せの数、及び前記第1記憶手段によって記憶された前記単語頻度に重み付けを行い、重み付けされた組合せの数及び前記単語頻度に基づいて、前記第1記憶手段によって記憶された前記単語頻度を更新し、
前記コンテクスト頻度計数手段は、
計数された前記コンテクスト頻度を第2記憶手段に記憶させて、前記単語頻度計数手段によって更新されることで前記単語頻度が所定の閾値を上回った場合、及び、該単語頻度が前記閾値を下回った場合に、前記第2記憶手段によって記憶された前記コンテクスト頻度を更新する、プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011208200A JP5757208B2 (ja) | 2011-09-22 | 2011-09-22 | キーワード抽出システム、キーワード抽出方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011208200A JP5757208B2 (ja) | 2011-09-22 | 2011-09-22 | キーワード抽出システム、キーワード抽出方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013069175A JP2013069175A (ja) | 2013-04-18 |
JP5757208B2 true JP5757208B2 (ja) | 2015-07-29 |
Family
ID=48474799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011208200A Expired - Fee Related JP5757208B2 (ja) | 2011-09-22 | 2011-09-22 | キーワード抽出システム、キーワード抽出方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5757208B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6092742B2 (ja) * | 2013-09-10 | 2017-03-08 | シャープ株式会社 | 情報処理装置、情報処理装置の制御方法、および制御プログラム |
JP6194760B2 (ja) * | 2013-11-06 | 2017-09-13 | 富士通株式会社 | キーワード生成方法、プログラム及び情報処理装置 |
JP6173990B2 (ja) | 2014-09-16 | 2017-08-02 | 株式会社東芝 | 検索支援装置、方法およびプログラム |
JP6477648B2 (ja) * | 2016-09-29 | 2019-03-06 | トヨタ自動車株式会社 | キーワード生成装置およびキーワード生成方法 |
CN111858938B (zh) * | 2020-07-23 | 2024-05-24 | 鼎富智能科技有限公司 | 一种裁判文书标签的提取方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05314169A (ja) * | 1992-03-11 | 1993-11-26 | Mitsubishi Electric Corp | 並列データ処理装置および並列形態素抽出方法 |
JP2004185572A (ja) * | 2002-12-06 | 2004-07-02 | Nippon Telegr & Teleph Corp <Ntt> | 口コミ情報解析方法及び装置 |
JP2004206391A (ja) * | 2002-12-25 | 2004-07-22 | Mitsubishi Electric Corp | 文書情報分析装置 |
JP2006139716A (ja) * | 2004-11-15 | 2006-06-01 | Nippon Telegr & Teleph Corp <Ntt> | 話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体 |
JP5056365B2 (ja) * | 2007-11-19 | 2012-10-24 | 日本電気株式会社 | コンテンツ情報配信装置、コンテンツ情報配信システムおよびコンテンツ情報配信方法 |
JP5215877B2 (ja) * | 2009-01-06 | 2013-06-19 | ヤフー株式会社 | 地域特性辞書生成方法及び装置 |
JP5371480B2 (ja) * | 2009-02-25 | 2013-12-18 | 株式会社 ミックウェア | 情報処理装置、情報処理方法、およびプログラム |
-
2011
- 2011-09-22 JP JP2011208200A patent/JP5757208B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013069175A (ja) | 2013-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200026721A1 (en) | Method and system for generating a geocode trie and facilitating reverse geocode lookups | |
US9646061B2 (en) | Distributed fuzzy search and join with edit distance guarantees | |
JP5757208B2 (ja) | キーワード抽出システム、キーワード抽出方法及びプログラム | |
CN111866727B (zh) | 司机聚集点的展示方法、装置、电子设备、存储介质 | |
US20190056235A1 (en) | Path querying method and device, an apparatus and non-volatile computer storage medium | |
JP2018537760A (ja) | アドレス情報に基づいたアカウントマッピングの方法及び装置 | |
JP2007219655A (ja) | 施設情報管理システム、施設情報管理方法および施設情報管理プログラム | |
WO2018186235A1 (ja) | 場所人気度推定システム | |
JP2019191975A (ja) | 人材選定装置、人材選定システム、人材選定方法及びプログラム | |
JP5221664B2 (ja) | 情報マップ管理システムおよび情報マップ管理方法 | |
JP6662689B2 (ja) | 単語判定装置 | |
JP6442918B2 (ja) | 専門家検索装置、専門家検索方法および専門家検索プログラム | |
JP2018517218A (ja) | 位置情報提供方法及び装置 | |
JP5980520B2 (ja) | 効率的にクエリを処理する方法及び装置 | |
JP2013041385A (ja) | 文献検索方法、文献検索装置及び文献検索プログラム | |
Tiwari et al. | Scalable prediction by partial match (PPM) and its application to route prediction | |
JP5639549B2 (ja) | 情報検索装置及び方法及びプログラム | |
Tiwari et al. | Distributed context tree weighting (ctw) for route prediction | |
JP2012252391A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP5790768B2 (ja) | 検索方法及び情報管理装置 | |
KR101648046B1 (ko) | 오픈소스 소프트웨어 추천 시스템 및 방법 | |
CN110263082B (zh) | 数据库的数据分布分析方法、装置、电子设备及存储介质 | |
JP6676698B2 (ja) | 予約語及び属性言語間の関連度を用いた情報検索方法及び装置 | |
JP2010015394A (ja) | リンク先提示装置およびコンピュータプログラム | |
JP5665683B2 (ja) | 重要度判定装置、重要度判定方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140806 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150217 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150413 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150520 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5757208 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |