JP5820765B2 - 話題語獲得装置及び方法及びプログラム - Google Patents

話題語獲得装置及び方法及びプログラム Download PDF

Info

Publication number
JP5820765B2
JP5820765B2 JP2012111946A JP2012111946A JP5820765B2 JP 5820765 B2 JP5820765 B2 JP 5820765B2 JP 2012111946 A JP2012111946 A JP 2012111946A JP 2012111946 A JP2012111946 A JP 2012111946A JP 5820765 B2 JP5820765 B2 JP 5820765B2
Authority
JP
Japan
Prior art keywords
keyword
distribution
frequency
topic word
distribution difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012111946A
Other languages
English (en)
Other versions
JP2013239042A (ja
Inventor
伸章 廣嶋
伸章 廣嶋
宜仁 安田
宜仁 安田
義昌 小池
義昌 小池
良治 片岡
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012111946A priority Critical patent/JP5820765B2/ja
Publication of JP2013239042A publication Critical patent/JP2013239042A/ja
Application granted granted Critical
Publication of JP5820765B2 publication Critical patent/JP5820765B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、話題語獲得装置及び方法及びプログラムに係り、特に、指定した場所に関して話題になっている語を獲得するための話題語獲得装置及び方法及びプログラムに関する。
指定した場所に関して話題になっている語(以下、話題語と呼ぶ)を知ることができれば便利である。例えば、旅行の計画を立てる際には、様々な場所に行くことを検討するが、候補となった旅行先に関して、その土地で食べられる食べ物や面白い施設などが話題語として提示できれば、旅行先を決定する上で参考となる。
指定した場所に関する話題語を獲得する技術としては、場所などの状況に関連する文書を検索し、文書に含まれる話題語を獲得する方法が挙げられる。また、対象となる地域全体での全キーワードの出現頻度をn、該当するキーワードの出現頻度をs、指定した場所での全キーワードの出現頻度をkとすると、指定した場所での該当キーワードの出現頻度はsk/nであることが期待されるが、それと比較して実際の指定した場所での該当キーワードの出現頻度がrであったときにその事象が起こる確率を計算し、その確率値に基づいて話題語を獲得する方法が想定される。
特開2012-22443号公報
しかしながら、特許文献1の方法では、指定した場所に関する文書を検索する必要があるため、話題語獲得の処理に時間がかかってしまうという問題があった。また、確率を計算する方法としてはポアソン確率などを計算することが考えられるが、このような確率値の計算は複雑であるため、やはり話題語獲得の処理に時間がかかってしまうという問題があった。この問題を回避するためには予め話題語の候補を限定することが考えられるが、話題語の候補を頻度の高いものに限定するという方法では、頻度が少ないがその場所で話題となっている話題語を除去してしまうため、獲得される話題語が不適切なものになってしまい、問題を解決できない。
本発明は上記の問題点に鑑みてなされたものであって、全キーワードの場所毎の分布と各キーワードの場所毎の分布との違いを算出し、分布に違いがみられるキーワードを話題語の候補として用いることにより、処理に時間をかけずに適切な話題語を獲得することが可能な話題語獲得装置及び方法及びプログラムを提供することを目的とする。
上記の課題を解決するため、本発明(請求項1)は、指定した場所に関する話題語を獲得する話題語獲得装置であって、
入力された全てのキーワードがどの場所に関して多く出現しているか示す全キーワード分布を算出し、各キーワードの場所毎の個別キーワード分布を算出し、該全キーワード分布と該個別キーワード分布とから場所毎の分布違いを表す分布相違スコアを算出し、キーワード毎にキーワードスコア記憶手段に格納する前処理手段と、
入力されたキーワードに基づいて前記キーワードスコア記憶手段を参照し、該入力されたキーワードに対する分布相違スコアを取得し、該分布相違スコアが高いキーワードの上位N件を選択して出力する話題語獲得手段と、を有する。
また、本発明(請求項2)は、前記前処理手段に、
ある場所に関するキーワードの出現頻度が格納されたキーワード頻度記憶手段と、
前記キーワード頻度記憶手段中のキーワードの頻度を足し合わせることにより全キーワード頻度を求める全キーワード頻度算出手段と、
前記キーワード頻度記憶手段の各キーワードの場所毎の頻度を取得する個別キーワード頻度取得手段と、
前記全キーワード頻度から得られる全キーワード分布と前記個別キーワード頻度から得られる個別キーワード分布から前記分布相違スコアを算出する分布相違スコア算出手段と、
を含む。
また、本発明(請求項3)は、前記分布相違スコア算出手段において、
前記分布相違スコアを、カルバック・ライブラー・ダイバージェンス、または、ジェンセン・シャノン・ダイバージェンスを用いて求める。
また、本発明(請求項4)は、前記話題語獲得手段において、
前記分布相違スコアが高いキーワードの上位R%を選択して出力する。
上記のように本発明によれば、全キーワードの場所毎の分布と各キーワードの場所毎の分布との違いを算出し、分布に違いがみられるキーワードを話題語の候補として用いることにより、処理に時間をかけずに適切な話題語を獲得することができる。
本発明の一実施の形態における話題語獲得装置の構成図である。 本発明の一実施の形態における話題語獲得の前処理のフローチャートである。 本発明の一実施の形態におけるキーワード頻度データベースの例である。 本発明の一実施の形態における全キーワード頻度の取得結果の例である。 本発明の一実施の形態における分布相違スコアの算出結果の例である。 本発明の一実施の形態における話題語獲得処理のフローチャートである。
以下、図面と共に本発明の実施の形態を説明する。
図1は、本発明の位置実施の形態における話題語獲得装置の構成図である。
図1に示す話題語獲得装置100は、全キーワード頻度取得部1と、個別キーワード頻度取得部2と、分布相違スコア算出部3と、分布相違スコア取得部4と、話題語候補選択部5と、キーワード頻度データベース6と、キーワードスコアデータベース7を有する。
キーワード頻度データベース6は、文書内でキーワードが出現した場所毎の頻度が格納されている。キーワードスコアデータベース7は、キーワード毎の分布相違スコアを格納する。
全キーワード頻度取得部1は、キーワード頻度データベース6を参照して、全キーワードの場所毎の頻度を取得する。
個別キーワード頻度取得部2は、キーワード頻度データベース6を参照して、入力された個別のキーワードの場所毎の頻度を取得する。
分布相違スコア算出部3は、全キーワードの場所毎の分布と各キーワードの場所毎の分布との違いを表す分布相違スコアを算出し、キーワードと分布相違スコアの組をキーワードスコアデータベース7に格納する。
分布相違スコア取得部4は、キーワードスコアデータベース7を参照して、入力されたキーワードに対する分布相違スコアを取得する。
話題語候補選択部5は、入力のキーワード集合の中から、分布相違スコアの高い上位N件のキーワードを選択して話題語候補集合を出力する。
次に、話題語獲得装置100の動作をより具体的に説明する。
本発明は、分布相違スコアを算出するまでの話題語獲得の前処理と、話題語獲得処理に分けられる。
図2は、本発明の一実施の形態における話題語獲得の前処理のフローチャートである。
ステップ101) 全キーワード頻度取得部1では、キーワード頻度データベース6を参照して、全キーワードの場所毎の頻度を取得する。キーワード頻度データベース6の例を図3に示す。キーワード頻度データベース6は、各キーワードがどの場所に関して述べられているかを表すデータベースである。キーワードがどの場所に関して述べられているかを算出する方法はどのようなものでもかまわない。例えば、文書の中で「今日は横浜でコーヒーを飲みました」というようにキーワード「コーヒー」と場所「横浜」が文中で一緒に出現した場合に、頻度を1増やすというようにして算出することが考えられる。全キーワード頻度は、各場所に関して、キーワード頻度データベース6中のキーワードの頻度を足し合わせることによって取得する。例えば場所L1の場合、(100+5+30+150+50+10+・・・)として求める。全キーワード頻度を取得した結果の例を図4に示す。
ステップ102) 個別キーワード頻度取得部2では、キーワード頻度データベース6を参照して、入力された個別のキーワードの場所毎の頻度を取得する。キーワード頻度データベース6の各行が、そのキーワードに関する個別キーワード頻度となる。
ステップ103) 分布相違スコア算出部3では、全キーワードの場所毎の分布と各キーワードの場所毎の分布との違いを表す分布相違スコアを算出し、キーワードと分布相違スコアの組をキーワードスコアデータベース7に格納する。ここでは、分布相違スコアとして、カルバック・ライブラー・ダイバージェンス(以下、KLダイバージェンスと呼ぶ)を用いることとする。分布相違スコアは全キーワードの場所毎の分布と各キーワードの場所毎の分布との違いを表していればどのようなものでもよく、ジェンセン・シャノン・ダイバージェンスを用いたりしてもかまわない。KLダイバージェンスは以下の式で計算できる。
Figure 0005820765
ここで、P(x)は全キーワード頻度から得られる頻度の分布、Q(x)は個別キーワードから得られる頻度の分布を表す。xには各場所が入り、例えばP(L1)=20000/(20000+10000+80000+60000+50000+10000+10000)≒0.0833となる。KLダイバージェンスを分布相違スコアとして各キーワードの分布相違スコアを算出した結果の例を図5に示す。得られたキーワードと分布相違スコアの組をキーワードスコアデータベース7に格納する。
ステップ104) 全てのキーワードについてスコアを算出したならば、処理当該前処理を終了し、未処理のキーワードがある場合にはステップ102に戻る。
図6は、本発明の一実施の形態における話題語獲得処理のフローチャートである。
ステップ201) 分布相違スコア取得部4では、キーワードスコアデータベース7を参照して、入力されたキーワードに対する分布相違スコアを取得する。ここでは、入力として、図5で示した6つのキーワードが与えられたものとする。図5の各分布相違スコアが取得される。
ステップ202) 全てのキーワードについてスコアを取得した場合にはステップ203に移行し、未取得のキーワードのスコアがある場合はステップ201に移行する。
ステップ203) 話題語候補選択部5では、入力のキーワード集合の中から、分布相違スコアの高いキーワードを選択して話題語候補集合を出力する。ここでは、分布相違スコアの高い上位N件を選択することとし、N=2とする。選択方法はこれに限るものではなく、Nに異なる値を用いたり、上位N件ではなく上位R%のキーワードを選択したりしてもよい。分布相違スコアをもとに上位2件のキーワードを選択すると、「大仏」および「ビール工場」が得られる。
このように、全キーワードから得られる頻度の分布と違いを表す分布相違スコアを求め、話題語の候補を分布相違スコアの高いものに限定することにより、適切な話題語の候補を残すことができ、それによって獲得される話題語も適切なものとなる。一方、話題語の候補を頻度の高いものに限定してしまうと、この例の場合では「コーヒー」および「カレー」が選択されることとなってしまい、その場所に関して話題になっているとはいえない不適切な話題語候補となってしまうことがわかる。
なお、上記の図1に示す話題語獲得装置の各構成要素の動作をプログラムとして構築し、話題語獲得装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
1 全キーワード頻度取得部
2 個別キーワード頻度取得部
3 分布相違スコア算出部
4 分布相違スコア取得部
5 話題語候補選択部
6 キーワード頻度データベース
7 キーワードスコアデータベース

Claims (8)

  1. 指定した場所に関する話題語を獲得する話題語獲得装置であって、
    入力された全てのキーワードがどの場所に関して多く出現しているか示す全キーワード分布を算出し、各キーワードの場所毎の個別キーワード分布を算出し、該全キーワード分布と該個別キーワード分布とから、場所毎の分布違いを表す分布相違スコアを算出し、キーワード毎にキーワードスコア記憶手段に格納する前処理手段と、
    入力されたキーワードに基づいて前記キーワードスコア記憶手段を参照し、該入力されたキーワードに対する分布相違スコアを取得し、該分布相違スコアが高いキーワードの上位N件を選択して出力する話題語獲得手段と、
    を有することを特徴とする話題語獲得装置。
  2. 前記前処理手段は、
    ある場所に関するキーワードの出現頻度が格納されたキーワード頻度記憶手段と、
    前記キーワード頻度記憶手段中のキーワードの頻度を足し合わせることにより全キーワード頻度を求める全キーワード頻度算出手段と、
    前記キーワード頻度記憶手段の各キーワードの場所毎の頻度を取得する個別キーワード頻度取得手段と、
    前記全キーワード頻度から得られる全キーワード分布と前記個別キーワード頻度から得られる個別キーワード分布から前記分布相違スコアを算出する分布相違スコア算出手段と、
    を含む
    請求項1記載の話題語獲得装置。
  3. 前記分布相違スコア算出手段は、
    前記分布相違スコアを、カルバック・ライブラー・ダイバージェンス、または、ジェンセン・シャノン・ダイバージェンスを用いて求める
    請求項2記載の話題語獲得装置。
  4. 前記話題語獲得手段は、
    前記分布相違スコアが高いキーワードの上位R%を選択して出力する
    請求項1記載の話題語獲得装置。
  5. 指定した場所に関する話題語を獲得する話題語獲得方法であって、
    前処理手段が、入力された全てのキーワードがどの場所に関して多く出現しているか示す全キーワード分布を算出し、各キーワードの場所毎の個別キーワード分布を算出し、該全キーワード分布と該個別キーワード分布とから、場所毎の分布違いを表す分布相違スコアを算出し、キーワード毎にキーワードスコア記憶手段に格納する前処理ステップと、
    話題語獲得手段が、入力されたキーワードに基づいて前記キーワードスコア記憶手段を参照し、該入力されたキーワードに対する分布相違スコアを取得し、該分布相違スコアが高いキーワードの上位N件を選択して出力する話題語獲得ステップと、
    を行うことを特徴とする話題語獲得方法。
  6. 前記前処理ステップにおいて、
    ある場所に関するキーワードの出現頻度が格納されたキーワード頻度記憶手段中のキーワードの頻度を足し合わせることにより全キーワード頻度を求める全キーワード頻度算出ステップと、
    前記キーワード頻度記憶手段の各キーワードの場所毎の頻度を取得する個別キーワード頻度取得ステップと、
    前記全キーワード頻度から得られる全キーワード分布と前記個別キーワード頻度から得られる個別キーワード分布から前記分布相違スコアを算出する分布相違スコア算出ステップと、
    を含む
    請求項5記載の話題語獲得方法。
  7. 前記分布相違スコア算出ステップにおいて
    前記分布相違スコアを、カルバック・ライブラー・ダイバージェンス、または、ジェンセン・シャノン・ダイバージェンスを用いて求める
    請求項6記載の話題語獲得方法。
  8. コンピュータを、
    請求項1乃至4のいずれか1項に記載の話題語獲得装置の各手段として機能させるための話題語獲得プログラム。
JP2012111946A 2012-05-15 2012-05-15 話題語獲得装置及び方法及びプログラム Expired - Fee Related JP5820765B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012111946A JP5820765B2 (ja) 2012-05-15 2012-05-15 話題語獲得装置及び方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012111946A JP5820765B2 (ja) 2012-05-15 2012-05-15 話題語獲得装置及び方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2013239042A JP2013239042A (ja) 2013-11-28
JP5820765B2 true JP5820765B2 (ja) 2015-11-24

Family

ID=49764008

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012111946A Expired - Fee Related JP5820765B2 (ja) 2012-05-15 2012-05-15 話題語獲得装置及び方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5820765B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2745291B2 (ja) 1994-09-17 1998-04-28 チュシクウェサ パルマ 高強度コンクリート管製造装置、その駆動システム及びその自動制御方法
JP2745292B2 (ja) 1994-09-17 1998-04-28 チュシクウェサ パルマ 高強度コンクリート管製造用振動転圧ローラ、その駆動装置及びその駆動方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2745291B2 (ja) 1994-09-17 1998-04-28 チュシクウェサ パルマ 高強度コンクリート管製造装置、その駆動システム及びその自動制御方法
JP2745292B2 (ja) 1994-09-17 1998-04-28 チュシクウェサ パルマ 高強度コンクリート管製造用振動転圧ローラ、その駆動装置及びその駆動方法

Also Published As

Publication number Publication date
JP2013239042A (ja) 2013-11-28

Similar Documents

Publication Publication Date Title
US10345923B2 (en) Input method, apparatus, and electronic device
US20220414131A1 (en) Text search method, device, server, and storage medium
US9412077B2 (en) Method and apparatus for classification
US20150278706A1 (en) Method, Predictive Analytics System, and Computer Program Product for Performing Online and Offline Learning
JP2017090912A (ja) ニューラルネットワークトレーニング装置及び方法と、音声認識装置及び方法
JP2015109068A5 (ja)
CN104281649A (zh) 一种输入方法、装置及电子设备
US10839308B2 (en) Categorizing log records at run-time
US20240221727A1 (en) Voice recognition model training method, voice recognition method, electronic device, and storage medium
CN111666965B (zh) 改进图像识别的多级别深度特征和多匹配器融合
JP6819420B2 (ja) 学習プログラム、学習方法および学習装置
KR20160064826A (ko) 지식 그래프 기반에서의 의미적 검색 서비스 제공장치 및 그 방법
JP5820765B2 (ja) 話題語獲得装置及び方法及びプログラム
US10108879B2 (en) Aggregate training data set generation for OCR processing
JP5528402B2 (ja) キーワード関連地名抽出装置及び方法及びプログラム
US10467530B2 (en) Searching text via function learning
US20160335327A1 (en) Context Aware Suggestion
US20150193555A1 (en) Method and device for pushing media information in real time
JP2020071678A5 (ja)
US9176948B2 (en) Client/server-based statistical phrase distribution display and associated text entry technique
JP5361090B2 (ja) 話題語獲得装置、方法、及びプログラム
CN105302790B (zh) 处理文本的方法和设备
US9910846B2 (en) Conversion device and conversion method
JP5575075B2 (ja) 代表的文書選択装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
CN107203512B (zh) 用于从用户的自然语言输入中提取关键元素的方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141020

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150901

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150929

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151005

R150 Certificate of patent or registration of utility model

Ref document number: 5820765

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees