JP5583107B2 - キーワード地名ペア抽出装置及び方法及びプログラム - Google Patents
キーワード地名ペア抽出装置及び方法及びプログラム Download PDFInfo
- Publication number
- JP5583107B2 JP5583107B2 JP2011265119A JP2011265119A JP5583107B2 JP 5583107 B2 JP5583107 B2 JP 5583107B2 JP 2011265119 A JP2011265119 A JP 2011265119A JP 2011265119 A JP2011265119 A JP 2011265119A JP 5583107 B2 JP5583107 B2 JP 5583107B2
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- place name
- keyword
- distribution
- occurrence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
地名と該地名の表す地域の属する部分的な地域の集合を格納した地理データベースと、
部分的な地域毎キーワードの分布の文書全体における全体頻度及び該地域内の複数のキーワードとの共起頻度を格納した頻度データベースと、
入力された地名に基づいて前記地理データベースを参照して、該地名に属する部分的な地域の集合を取得する部分地域取得手段と、
前記部分的な地域集合の各地域に基づいて前記頻度データベースを参照して、該地域に対応する全体頻度及び該地域のキーワードとの共起頻度を取得する頻度取得手段と、
前記全体頻度と前記キーワードとの共起頻度に基づいて、該キーワードが地名を表す地域に広く分布していると判断された場合は、部分的な地域の共起頻度を足し合わせて前記頻度データベースを更新する頻度統合手段と、
前記入力されたキーワードと地名のペアの集合に基づいて、前記頻度データベースを検索し、キーワードと地名のペアを抽出する地名ペア抽出手段と、を有する。
前記頻度統合手段において、
前記分布類似性スコアに基づいて頻度を統合するかを判定し、統合する場合には、地域毎の共起頻度を統合して、前記頻度データベースを更新する。
分布が類似しているほど値が小さくなるKLダイバージェンスを用い、
前記頻度統合手段において、
前記分布類似性スコアが所定の値より小さい場合に前記地域毎の共起頻度を統合すると判定する。
P(a1)=8000/(8000+4000+2000+1000+500+500)
となる。a2などについても同様である。キーワードの分布Q(a1)を算出すると、
Q(a1)=8/(8+6+4+4+4+4)
となる。a2などについても同様である。これにより、P(a1)log(P(a1)/Q(a1))=0.314となる。a2などについても同様である。最終的な分布類似性スコアは0.224となる。キーワードK2,K3についても同様に分布類似性スコアを算出すると、それぞれ0.520、0.044となる。
<うどん,香川>
<牛タン,仙台>
<みかん,愛媛>
のような少量のキーワードと地名のペアを入力として、当該入力以外の
<たこ焼き,大阪>
<ひつまぶし,名古屋>
…
のような大量のキーワードと地名のペアを新たに獲得することができる。
2 頻度取得部
3 分布類似性スコア算出部
4 頻度統合部
5 キーワード地名ペア抽出部
6 地理データベース
7 頻度データベース
Claims (7)
- 入力されたキーワードと地名のペアの集合に対応するキーワードと地名のペアを抽出するキーワード地名ペア抽出装置であって、
地名と該地名の表す地域の属する部分的な地域の集合を格納した地理データベースと、
部分的な地域毎キーワードの分布の文書全体における全体頻度及び該地域内の複数のキーワードとの共起頻度を格納した頻度データベースと、
入力された地名に基づいて前記地理データベースを参照して、該地名に属する部分的な地域の集合を取得する部分地域取得手段と、
前記部分的な地域集合の各地域に基づいて前記頻度データベースを参照して、該地域に対応する全体頻度及び該地域のキーワードとの共起頻度を取得する頻度取得手段と、
前記全体頻度と前記キーワードとの共起頻度に基づいて、該キーワードが地名を表す地域に広く分布していると判断された場合は、部分的な地域の共起頻度を足し合わせて前記頻度データベースを更新する頻度統合手段と、
前記入力されたキーワードと地名のペアの集合に基づいて、前記頻度データベースを検索し、キーワードと地名のペアを抽出する地名ペア抽出手段と、
を有することを特徴とするキーワード地名ペア抽出装置。 - 前記頻度データベースの前記全体頻度から得られる分布とキーワードとの共起頻度から得られる分布との間の類似性を表す分布類似性スコアを算出する分布類似性スコア算出手段を有し、
前記頻度統合手段は、
前記分布類似性スコアに基づいて頻度を統合するかを判定し、統合する場合には、地域毎の共起頻度を統合して、前記頻度データベースを更新する、
請求項1記載のキーワード地名ペア抽出装置。 - 前記分布類似性スコア算出手段は、
分布が類似しているほど値が小さくなるKL(Kullback Leibler)ダイバージェンスを用い、
前記頻度統合手段は、
前記分布類似性スコアが所定の値より小さい場合に前記地域毎の共起頻度を統合すると判定する
請求項2記載のキーワード地名ペア抽出装置。 - 入力されたキーワードと地名のペアの集合に対応するキーワードと地名のペアを抽出するキーワード地名ペア抽出方法であって、
地名と該地名の表す地域の属する部分的な地域の集合を格納した地理データベースと、
部分的な地域毎キーワードの分布の文書全体における全体頻度及び該地域内の複数のキーワードとの共起頻度を格納した頻度データベースと、
を有する装置において、
部分地域取得手段が、入力された地名に基づいて前記地理データベースを参照して、該地名に属する部分的な地域の集合を取得する部分地域取得ステップと、
頻度取得手段が、前記部分的な地域集合の各地域に基づいて前記頻度データベースを参照して、該地域に対応する全体頻度及び該地域のキーワードとの共起頻度を取得する頻度取得ステップと、
頻度統合手段が、前記全体頻度と前記キーワードとの共起頻度に基づいて、該キーワードが地名を表す地域に広く分布していると判断された場合は、部分的な地域の共起頻度を足し合わせて前記頻度データベースを更新する頻度統合ステップと、
地名ペア抽出手段が、前記入力されたキーワードと地名のペアの集合に基づいて、前記頻度データベースを検索し、キーワードと地名のペアを抽出する地名ペア抽出ステップと、
を行うことを特徴とするキーワード地名ペア抽出方法。 - 分布類似度スコア算出手段が、前記頻度データベースの前記全体頻度から得られる分布とキーワードとの共起頻度から得られる分布との間の類似性を表す分布類似性スコアを算出する分布類似性スコア算出ステップを行い、
前記頻度統合ステップにおいて、
前記分布類似性スコアに基づいて頻度を統合するかを判定し、統合する場合には、地域毎の共起頻度を統合して、前記頻度データベースを更新する、
請求項4記載のキーワード地名ペア抽出方法。 - 前記分布類似性スコア算出ステップにおいて、
分布が類似しているほど値が小さくなるKLダイバージェンスを用い、
前記頻度統合ステップにおいて、
前記分布類似性スコアが所定の値より小さい場合に前記地域毎の共起頻度を統合すると判定する
請求項5記載のキーワード地名ペア抽出方法。 - コンピュータを、
請求項1乃至3のいずれか1項に記載のキーワード地名ペア抽出装置の各手段として機能させるキーワード地名ペア抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011265119A JP5583107B2 (ja) | 2011-12-02 | 2011-12-02 | キーワード地名ペア抽出装置及び方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011265119A JP5583107B2 (ja) | 2011-12-02 | 2011-12-02 | キーワード地名ペア抽出装置及び方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013117866A JP2013117866A (ja) | 2013-06-13 |
JP5583107B2 true JP5583107B2 (ja) | 2014-09-03 |
Family
ID=48712386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011265119A Expired - Fee Related JP5583107B2 (ja) | 2011-12-02 | 2011-12-02 | キーワード地名ペア抽出装置及び方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5583107B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111751814A (zh) * | 2019-03-29 | 2020-10-09 | 富士通株式会社 | 基于无线信号的运动状态检测装置、方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3855551B2 (ja) * | 1999-08-25 | 2006-12-13 | 株式会社日立製作所 | 検索方法及び検索システム |
JP4567025B2 (ja) * | 2007-05-14 | 2010-10-20 | 日本電信電話株式会社 | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 |
JP5412137B2 (ja) * | 2009-02-24 | 2014-02-12 | ヤフー株式会社 | 機械学習装置及び方法 |
JP5220684B2 (ja) * | 2009-05-28 | 2013-06-26 | ヤフー株式会社 | 感覚情報表現サーバ、感覚情報表現システム、及び感情表現方法 |
JP5621773B2 (ja) * | 2009-07-06 | 2014-11-12 | 日本電気株式会社 | 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム |
JP5513929B2 (ja) * | 2010-03-02 | 2014-06-04 | 日本電信電話株式会社 | 経験情報の再利用性評価装置及び方法及びプログラム |
-
2011
- 2011-12-02 JP JP2011265119A patent/JP5583107B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013117866A (ja) | 2013-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10430255B2 (en) | Application program interface mashup generation | |
US10242258B2 (en) | Organizational data enrichment | |
US20120323839A1 (en) | Entity recognition using probabilities for out-of-collection data | |
CN107145545B (zh) | 一种基于位置的社交网络中Top-k区域用户文本数据推荐方法 | |
US10133807B2 (en) | Author disambiguation and publication assignment | |
US20170235726A1 (en) | Information identification and extraction | |
US9734207B2 (en) | Entity resolution techniques and systems | |
CN110457672A (zh) | 关键词确定方法、装置、电子设备及存储介质 | |
CN103559313B (zh) | 搜索方法及装置 | |
US10354339B2 (en) | Automatic initiation for generating a company profile | |
CN108287850B (zh) | 文本分类模型的优化方法及装置 | |
US10216787B2 (en) | Method, apparatus, and computer-readable medium for contextual data mining using a relational data set | |
CN106202440B (zh) | 数据处理方法、装置及设备 | |
US20170235835A1 (en) | Information identification and extraction | |
US10504145B2 (en) | Automated classification of network-accessible content based on events | |
Toba et al. | Enhanced unsupervised person name disambiguation to support alumni tracer study | |
US10191786B2 (en) | Application program interface mashup generation | |
US9317871B2 (en) | Mobile classifieds search | |
CN105488165B (zh) | 基于索引库的数据检索方法及系统 | |
JP5583107B2 (ja) | キーワード地名ペア抽出装置及び方法及びプログラム | |
US9104755B2 (en) | Ontology enhancement method and system | |
JP5792871B1 (ja) | 代表スポット出力方法、代表スポット出力装置および代表スポット出力プログラム | |
CN104090966A (zh) | 基于图模型的半结构化数据检索方法 | |
US10204139B2 (en) | Systems and methods for processing geographic data | |
JP5575075B2 (ja) | 代表的文書選択装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20131004 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140204 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140625 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140708 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140715 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5583107 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |