JP5583107B2 - キーワード地名ペア抽出装置及び方法及びプログラム - Google Patents

キーワード地名ペア抽出装置及び方法及びプログラム Download PDF

Info

Publication number
JP5583107B2
JP5583107B2 JP2011265119A JP2011265119A JP5583107B2 JP 5583107 B2 JP5583107 B2 JP 5583107B2 JP 2011265119 A JP2011265119 A JP 2011265119A JP 2011265119 A JP2011265119 A JP 2011265119A JP 5583107 B2 JP5583107 B2 JP 5583107B2
Authority
JP
Japan
Prior art keywords
frequency
place name
keyword
distribution
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011265119A
Other languages
English (en)
Other versions
JP2013117866A (ja
Inventor
伸章 廣嶋
宜仁 安田
典史 片渕
義昌 小池
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011265119A priority Critical patent/JP5583107B2/ja
Publication of JP2013117866A publication Critical patent/JP2013117866A/ja
Application granted granted Critical
Publication of JP5583107B2 publication Critical patent/JP5583107B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、キーワード地名ペア抽出装置及び方法及びプログラムに係り、特に、指定したキーワードと地名のペアを抽出するためのキーワード地名ペア抽出装置及び方法及びプログラムに関する。例えば、キーワードとして「みかん」が入力された場合、当該キーワードに対応する「愛媛」を抽出し、当該地名の地図を表示する技術に適用するためのキーワード地名ペア抽出装置及び方法及びプログラムに関する。
さまざまな事物をキーワードとして指定した際、そのキーワードに関連する場所を知ることができれば便利である。たとえば、「餃子」をキーワードとして指定したときに、「餃子」に関連する場所として餃子で有名な「宇都宮」の地図が表示され、宇都宮で餃子を提供する店舗の情報が地図上に表示されれば有益である。そのためには、キーワードとそれに関連する地名のペアをデータとして保持しておく必要がある。
キーワードと地名のペアを抽出する技術としては、名前と職業などのような何らかの関係を持つペアを抽出する手法が提案されている。少量のペアを用意し、ペアからのパターンの抽出とパターンからペアの抽出を繰り返すことにより、大量のペアを抽出する。この手法をキーワードと地名に対して適用することにより、キーワードと地名からなる少量のペアから大量のペアを抽出することが可能である(例えば、非特許文献1参照)。
Pantel, P., Pennacchiotti, M., Espresso: leveraging generic patterns for automatically harvesting semantic relations. COLING-ACL 2006.
しかしながら、非特許文献1の手法では、キーワードと地名との共起頻度が高くないとペアとして抽出されないという問題があった。そのため、共起頻度の算出に用いるコーパスの規模が小さいような場合には、共起頻度が低くなり、ペアを抽出できなかった。この問題を解決するために、地名の表す地域に属する部分的な地域(例えば、市に属する区など)での共起頻度を足し合わせてその地名での共起頻度とすることが考えられる。しかし、一部の部分的な地域での共起頻度が高いような場合には、足し合わせることによりペアを抽出する上でのノイズとなり、不適切なペアが抽出されてしまうという問題があった。
本発明は上記の問題点に鑑みてなされたものであって、キーワードが地名の表す地域に広く分布しているかどうかを判定し、広く分布していれば部分的な地域での共起頻度を足し合わせてその地名とキーワードとの共起頻度とすることにより、共起頻度が低いことによりペアが抽出できないことを回避するとともに、足し合わせてもノイズとならずに適切にキーワードと地名のペアを抽出することを可能としたキーワード地名ペア抽出装置及び方法及びプログラムを提供することを目的とする。
上記の課題を解決するため、本発明(請求項1)は、入力されたキーワードと地名のペアの集合に対応するキーワードと地名のペアを抽出するキーワード地名ペア抽出装置であって、
地名と該地名の表す地域の属する部分的な地域の集合を格納した地理データベースと、
部分的な地域毎キーワードの分布の文書全体における全体頻度及び該地域内の複数のキーワードとの共起頻度を格納した頻度データベースと、
入力された地名に基づいて前記地理データベースを参照して、該地名に属する部分的な地域の集合を取得する部分地域取得手段と、
前記部分的な地域集合の各地域に基づいて前記頻度データベースを参照して、該地域に対応する全体頻度及び該地域のキーワードとの共起頻度を取得する頻度取得手段と、
前記全体頻度と前記キーワードとの共起頻度に基づいて、該キーワードが地名を表す地域に広く分布していると判断された場合は、部分的な地域の共起頻度を足し合わせて前記頻度データベースを更新する頻度統合手段と、
前記入力されたキーワードと地名のペアの集合に基づいて、前記頻度データベースを検索し、キーワードと地名のペアを抽出する地名ペア抽出手段と、を有する。
また、本発明(請求項2)は、前記頻度データベースの前記全体頻度から得られる分布とキーワードとの共起頻度から得られる分布との間の類似性を表す分布類似性スコアを算出する分布類似性スコア算出手段を有し、
前記頻度統合手段において、
前記分布類似性スコアに基づいて頻度を統合するかを判定し、統合する場合には、地域毎の共起頻度を統合して、前記頻度データベースを更新する。
また、本発明(請求項3)は、前記分布類似性スコア算出手段において、
分布が類似しているほど値が小さくなるKLダイバージェンスを用い、
前記頻度統合手段において、
前記分布類似性スコアが所定の値より小さい場合に前記地域毎の共起頻度を統合すると判定する。
本発明によれば、キーワードが地名の表す地域に広く分布しているかどうかを判定し、広く分布していれば部分的な地域での共起頻度を足し合わせてその地名とキーワードとの共起頻度とすることにより、共起頻度が低いことによりペアが抽出できないことを回避するとともに、足し合わせてもノイズとならずに適切にペアを抽出することができる。
本発明の一実施の形態におけるキーワード地名ペア抽出装置の構成図である。 本発明の一実施の形態における地理データベースの例である。 本発明の一実施の形態における頻度データベースの例である。 本発明の一実施の形態における動作のフローチャートである。 本発明の一実施の形態における分布類似性スコアの例(1)である。 本発明の一実施の形態における分布類似性スコアの例(2)である。 本発明の一実施の形態における分布類似性スコアの例(3)である。
以下図面と共に、本発明の実施の形態を説明する。
図1は、本発明の実施例であるキーワード地名ペア抽出装置100の構成を示す図である。図1に示すキーワード地名ペア抽出装置100は、部分地域取得部1と、頻度取得部2と、分布同一性スコア算出部3と、頻度統合部4と、キーワード地名ペア抽出部5と、地理データベース6と、頻度データベース7を有する。
図2に、地理データベース6の例を示す。同図に示すように、地理データベース6は、地名と当該地名の表す地域の属する部分的な地域の集合を格納する。
また、図3に頻度データベース7の例を示す。同図に示す頻度データベース7は、部分的な地域毎に、当該地域が文書中に存在する全体頻度及び地域に関係するキーワード毎の共起頻度を格納する。キーワード毎の共起頻度は、キーワードKの数分(n)格納されているものとする。
部分地域取得部1は、地名に対し、地理データベース6を参照して、その地名の表す地域の属する部分的な地域の集合を取得する。
頻度取得部2は、部分的な地域のそれぞれに関して、頻度データベース7を参照して、全体頻度およびキーワードとの共起頻度を取得する。
分布類似性スコア算出部3は、全体頻度から得られる分布とキーワードとの共起頻度から得られる分布との間の類似性を表す分布類似性スコアを算出する。
頻度統合部4は、分布類似性スコアをもとに頻度を統合すべきかどうかを判定し、統合すべきと判定された場合には地域ごとの共起頻度を統合して入力された地名の共起頻度とし、頻度データベース7を更新する。
キーワード地名ペア抽出部5は、検索時に検索対象のキーワードと地名のペアの集合が入力されると、頻度データベース7を参照して入力されたペア以外のキーワードと地名のペアを抽出する。
次に、キーワード地名ペア抽出装置100の動作をより具体的に説明する。
図4は、本発明の一実施の形態における動作のフローチャートである。
以下の処理において、ステップ1〜5は、頻度データベース更新のための処理であり、ステップ6は、入力されたキーワードと地名の集合に対する検索処理である。
ステップ1) 部分地域取得部1では、地名集合が入力されると、各地名に対し、地理データベース6を参照して、その地名の表す地域の属する部分的な地域の集合を取得する。ここでは、地名として「A」が入力されたものとする。地理データベース6の例を図2に示す。「A」に対応する部分的な地域として、「a1,a2,a3,a4,a5,a6」が得られる。部分的な地域の取得方法はこれに限るものではなく、地名「A」を表す住所と前方一致する住所を持つ地域を部分的な地域としたりしても構わない。
ステップ2) 頻度取得部2では、部分的な地域のそれぞれに関して、頻度データベース7を参照して、当該部分的な地域が文書中に存在する全体頻度および当該地域に関連するキーワードとの共起頻度を取得する。図3の例では、部分地域「a1」に関して、頻度データベース7から全体頻度およびキーワードK1との共起頻度を取得すると、それぞれ8000、8となる。ここでは、利用する全体頻度として文書頻度を用いる。利用する全体頻度は、各地域における分布が反映されているものであればどのようなものでもよく、その地域における対象とするキーワードの頻度の合計などを用いたりしても構わない。
上記の全体頻度とは、キーワード毎の頻度に対して扱うデータ全体に関する頻度を指す。本実施の形態では、文書頻度を用いるため、扱っている文書中で各地域に関する文書(例えば、その地名を本文に含む文書)が1000文書あった場合には、全体頻度は1000となる。
ステップ3) 分布類似性スコア算出部3では、全体頻度から得られる分布とキーワードとの共起頻度から得られる分布との間の類似性を表す分布類似性スコアを算出する。ここでは、全体頻度から得られる分布Pとキーワードとの共起頻度から得られる分布Qとの間の類似性を表す分布類似性スコアとして、KLダイバージェンスを用いる。
Figure 0005583107
利用する分布類似性スコアは、全体頻度から得られる分布とキーワードとの共起頻度から得られる分布との間の類似性を表していればどのようなものでもよく、JSダイバージェンスを用いたりしても構わない。
図5〜図7にKLダイバージェンスに基づいて判定した分布類似性スコアの例を示す。キーワードK1に関してKLダイバージェンスを算出する。頻度データベース7の全体頻度から文書の分布P(a1)を算出すると、
P(a1)=8000/(8000+4000+2000+1000+500+500)
となる。a2などについても同様である。キーワードの分布Q(a1)を算出すると、
Q(a1)=8/(8+6+4+4+4+4)
となる。a2などについても同様である。これにより、P(a1)log(P(a1)/Q(a1))=0.314となる。a2などについても同様である。最終的な分布類似性スコアは0.224となる。キーワードK2,K3についても同様に分布類似性スコアを算出すると、それぞれ0.520、0.044となる。
ステップ4) 頻度統合部4では、分布類似性スコアをもとに頻度を統合すべきかどうかを判定し、統合すべきと判定された場合は、ステップ5に移行し、統合の必要がない場合はステップ6に移行する。KLダイバージェンスの値は分布が類似しているほど値が小さくなり、分布がまったく同一の場合に0で最小値となるため、ここでは分布類似性スコアが0.3以下のものを統合すべきと判定することにする。統合すべきかどうかの判定方法はこれに限るものではなく、異なる閾値を用いたり、割合を用いたりしても構わない。キーワードK1およびK3については統合すべきであると判定されるため、a1からa6までのK1、K3との共起頻度を統合して地名AのキーワードK1、K3との共起頻度とし、頻度データベース7を更新する。キーワードK2については統合を行わない。
ステップ5) 頻度統合部4は、ステップ4で統合すべきと判定された場合には地域ごとの共起頻度を統合して入力された地名の共起頻度とし、頻度データベース7を更新する。
ステップ6) キーワード地名ペア抽出部5では、キーワードと地名のペアの集合が入力されると、頻度データベース7を参照してキーワードと地名のペアを抽出する。キーワードと地名のペアの抽出方法としては、Espresso(登録商標)などの方法を適用することができる。
具体的には、
<うどん,香川>
<牛タン,仙台>
<みかん,愛媛>
のような少量のキーワードと地名のペアを入力として、当該入力以外の
<たこ焼き,大阪>
<ひつまぶし,名古屋>

のような大量のキーワードと地名のペアを新たに獲得することができる。
このように、キーワードK1やK3のように地名の表す地域に広く分布していれば部分的な地域での共起頻度を足し合わせてその地名とキーワードとの共起頻度として頻度データベース7を更新することができるため、検索時に入力されたキーワードと地名のペアの集合に対するペアの抽出に利用することができる。また、キーワードK2のように特定の部分的な地域に偏って共起するような場合は統合を行わないため、ノイズを発生させずに適切にペアを抽出することができる。
なお、上記の図1に示すキーワード地名ペア抽出装置の構成要素の一連の動作をプログラムとして構築し、キーワード地名ペア抽出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
1 部分地域取得部
2 頻度取得部
3 分布類似性スコア算出部
4 頻度統合部
5 キーワード地名ペア抽出部
6 地理データベース
7 頻度データベース

Claims (7)

  1. 入力されたキーワードと地名のペアの集合に対応するキーワードと地名のペアを抽出するキーワード地名ペア抽出装置であって、
    地名と該地名の表す地域の属する部分的な地域の集合を格納した地理データベースと、
    部分的な地域毎キーワードの分布の文書全体における全体頻度及び該地域内の複数のキーワードとの共起頻度を格納した頻度データベースと、
    入力された地名に基づいて前記地理データベースを参照して、該地名に属する部分的な地域の集合を取得する部分地域取得手段と、
    前記部分的な地域集合の各地域に基づいて前記頻度データベースを参照して、該地域に対応する全体頻度及び該地域のキーワードとの共起頻度を取得する頻度取得手段と、
    前記全体頻度と前記キーワードとの共起頻度に基づいて、該キーワードが地名を表す地域に広く分布していると判断された場合は、部分的な地域の共起頻度を足し合わせて前記頻度データベースを更新する頻度統合手段と、
    前記入力されたキーワードと地名のペアの集合に基づいて、前記頻度データベースを検索し、キーワードと地名のペアを抽出する地名ペア抽出手段と、
    を有することを特徴とするキーワード地名ペア抽出装置。
  2. 前記頻度データベースの前記全体頻度から得られる分布とキーワードとの共起頻度から得られる分布との間の類似性を表す分布類似性スコアを算出する分布類似性スコア算出手段を有し、
    前記頻度統合手段は、
    前記分布類似性スコアに基づいて頻度を統合するかを判定し、統合する場合には、地域毎の共起頻度を統合して、前記頻度データベースを更新する、
    請求項1記載のキーワード地名ペア抽出装置。
  3. 前記分布類似性スコア算出手段は、
    分布が類似しているほど値が小さくなるKL(Kullback Leibler)ダイバージェンスを用い、
    前記頻度統合手段は、
    前記分布類似性スコアが所定の値より小さい場合に前記地域毎の共起頻度を統合すると判定する
    請求項2記載のキーワード地名ペア抽出装置。
  4. 入力されたキーワードと地名のペアの集合に対応するキーワードと地名のペアを抽出するキーワード地名ペア抽出方法であって、
    地名と該地名の表す地域の属する部分的な地域の集合を格納した地理データベースと、
    部分的な地域毎キーワードの分布の文書全体における全体頻度及び該地域内の複数のキーワードとの共起頻度を格納した頻度データベースと、
    を有する装置において、
    部分地域取得手段が、入力された地名に基づいて前記地理データベースを参照して、該地名に属する部分的な地域の集合を取得する部分地域取得ステップと、
    頻度取得手段が、前記部分的な地域集合の各地域に基づいて前記頻度データベースを参照して、該地域に対応する全体頻度及び該地域のキーワードとの共起頻度を取得する頻度取得ステップと、
    頻度統合手段が、前記全体頻度と前記キーワードとの共起頻度に基づいて、該キーワードが地名を表す地域に広く分布していると判断された場合は、部分的な地域の共起頻度を足し合わせて前記頻度データベースを更新する頻度統合ステップと、
    地名ペア抽出手段が、前記入力されたキーワードと地名のペアの集合に基づいて、前記頻度データベースを検索し、キーワードと地名のペアを抽出する地名ペア抽出ステップと、
    を行うことを特徴とするキーワード地名ペア抽出方法。
  5. 分布類似度スコア算出手段が、前記頻度データベースの前記全体頻度から得られる分布とキーワードとの共起頻度から得られる分布との間の類似性を表す分布類似性スコアを算出する分布類似性スコア算出ステップを行い、
    前記頻度統合ステップにおいて、
    前記分布類似性スコアに基づいて頻度を統合するかを判定し、統合する場合には、地域毎の共起頻度を統合して、前記頻度データベースを更新する、
    請求項4記載のキーワード地名ペア抽出方法。
  6. 前記分布類似性スコア算出ステップにおいて、
    分布が類似しているほど値が小さくなるKLダイバージェンスを用い、
    前記頻度統合ステップにおいて、
    前記分布類似性スコアが所定の値より小さい場合に前記地域毎の共起頻度を統合すると判定する
    請求項5記載のキーワード地名ペア抽出方法。
  7. コンピュータを、
    請求項1乃至3のいずれか1項に記載のキーワード地名ペア抽出装置の各手段として機能させるキーワード地名ペア抽出プログラム。
JP2011265119A 2011-12-02 2011-12-02 キーワード地名ペア抽出装置及び方法及びプログラム Expired - Fee Related JP5583107B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011265119A JP5583107B2 (ja) 2011-12-02 2011-12-02 キーワード地名ペア抽出装置及び方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011265119A JP5583107B2 (ja) 2011-12-02 2011-12-02 キーワード地名ペア抽出装置及び方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2013117866A JP2013117866A (ja) 2013-06-13
JP5583107B2 true JP5583107B2 (ja) 2014-09-03

Family

ID=48712386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011265119A Expired - Fee Related JP5583107B2 (ja) 2011-12-02 2011-12-02 キーワード地名ペア抽出装置及び方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5583107B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111751814A (zh) * 2019-03-29 2020-10-09 富士通株式会社 基于无线信号的运动状态检测装置、方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3855551B2 (ja) * 1999-08-25 2006-12-13 株式会社日立製作所 検索方法及び検索システム
JP4567025B2 (ja) * 2007-05-14 2010-10-20 日本電信電話株式会社 テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
JP5412137B2 (ja) * 2009-02-24 2014-02-12 ヤフー株式会社 機械学習装置及び方法
JP5220684B2 (ja) * 2009-05-28 2013-06-26 ヤフー株式会社 感覚情報表現サーバ、感覚情報表現システム、及び感情表現方法
JP5621773B2 (ja) * 2009-07-06 2014-11-12 日本電気株式会社 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム
JP5513929B2 (ja) * 2010-03-02 2014-06-04 日本電信電話株式会社 経験情報の再利用性評価装置及び方法及びプログラム

Also Published As

Publication number Publication date
JP2013117866A (ja) 2013-06-13

Similar Documents

Publication Publication Date Title
US10430255B2 (en) Application program interface mashup generation
US10242258B2 (en) Organizational data enrichment
US20120323839A1 (en) Entity recognition using probabilities for out-of-collection data
CN107145545B (zh) 一种基于位置的社交网络中Top-k区域用户文本数据推荐方法
US10133807B2 (en) Author disambiguation and publication assignment
US20170235726A1 (en) Information identification and extraction
US9734207B2 (en) Entity resolution techniques and systems
CN110457672A (zh) 关键词确定方法、装置、电子设备及存储介质
CN103559313B (zh) 搜索方法及装置
US10354339B2 (en) Automatic initiation for generating a company profile
CN108287850B (zh) 文本分类模型的优化方法及装置
US10216787B2 (en) Method, apparatus, and computer-readable medium for contextual data mining using a relational data set
CN106202440B (zh) 数据处理方法、装置及设备
US20170235835A1 (en) Information identification and extraction
US10504145B2 (en) Automated classification of network-accessible content based on events
Toba et al. Enhanced unsupervised person name disambiguation to support alumni tracer study
US10191786B2 (en) Application program interface mashup generation
US9317871B2 (en) Mobile classifieds search
CN105488165B (zh) 基于索引库的数据检索方法及系统
JP5583107B2 (ja) キーワード地名ペア抽出装置及び方法及びプログラム
US9104755B2 (en) Ontology enhancement method and system
JP5792871B1 (ja) 代表スポット出力方法、代表スポット出力装置および代表スポット出力プログラム
CN104090966A (zh) 基于图模型的半结构化数据检索方法
US10204139B2 (en) Systems and methods for processing geographic data
JP5575075B2 (ja) 代表的文書選択装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20131004

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140625

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140708

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140715

R150 Certificate of patent or registration of utility model

Ref document number: 5583107

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees