JP5806971B2 - 地域推定装置及び方法及びプログラム - Google Patents
地域推定装置及び方法及びプログラム Download PDFInfo
- Publication number
- JP5806971B2 JP5806971B2 JP2012100488A JP2012100488A JP5806971B2 JP 5806971 B2 JP5806971 B2 JP 5806971B2 JP 2012100488 A JP2012100488 A JP 2012100488A JP 2012100488 A JP2012100488 A JP 2012100488A JP 5806971 B2 JP5806971 B2 JP 5806971B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- expression
- information
- index
- geographic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
入力された文書が地名を含む場合は、固有表現、地名表現、該地名表現に対応する緯度経度の地理情報を抽出し、地名を含まない場合は、固有表現のみを抽出し、文書情報記憶手段に格納する文書解析手段と、
前記文書情報記憶手段から、前記固有表現と前記地理情報の組み合わせを取得して、該固有表現をキーとし、該地理情報を対応付けた固有表現−地理インデクスを生成し、インデクス記憶手段に格納するインデクス作成手段と、
前記インデクス記憶手段から、地理的に広く分布している、または、地理的に特徴がないデータを削除するデータトリミング手段と、
前記文書情報記憶手段から前記文書毎の文書IDと前記固有表現と前記地理情報を取得し、該文書に地理情報がある場合は、文書IDと地理情報を出力し、該地理情報がない場合は、前記インデクス記憶手段から取得した該固有表現に対応する地理情報を文書IDと共に出力する地理推定手段と、を有する。
前記文書情報記憶手段から取得した前記地理情報を、検索対象とする地理範囲内を任意の単位で区切り、区切られた各メッシュのメッシュIDに変換し、該地理情報に対応する前記固有表現が前記文書で出現する頻度のスコアと対応付けた固有表現−地理インデクスを前記インデクス記憶手段に格納する手段を含み、
前記データトリミング手段において、
前記インデクス記憶手段の前記メッシュIDに対応するスコアを分析し、該スコアの分散が高い固有表現のデータを前記インデクス記憶手段から除去する手段と、
前記インデクス記憶手段の前記メッシュIDに対応するスコアを分析し、該スコアの分布が、所定の閾値以下の固有表現のデータを前記インデクス記憶手段から除去する手段と、を含む。
前記固有表現−地理インデクスのメッシュID毎にスコアを合算し、合算したスコアが最も高いメッシュIDの中心点を示す地理情報、または、隣接するメッシュのスコアが所定の閾値以上のメッシュIDのメッシュが示す地理情報を出力する手段を含む。
前記文書が入力される毎に前記固有表現−地理インデクスを生成する手段を含む。
図1は、本発明の第1の実施の形態における地域推定装置の構成を示す。
・固有表現カラム:文書に含まれる固有表現のリスト
・地名カラム:文書に含まれる地名表現のリスト
・地理カラム:文書に含まれる地名表現に対応する緯度経度情報(ポイントもしくは範囲を示す情報)
具体的には、図2の例において、文書1(文書ID:0001)は、『奈良県橿原市には飛鳥時代のお寺がたくさんあるらしい』という地名が含まれる文書から、固有表現として「飛鳥時代』『お寺』を抽出し、地名として『奈良県橿原市』を抽出し、地理情報として『34.510517.135.793762』を抽出し、文書情報テーブル10に格納する。また、文書2「文書ID:0002」は『飛鳥時代の遺跡がすごい!!』という地名が含まれない文書である。当該文書2から、固有表現として『奈良時代』、『遺跡』のみを抽出し、文書情報テーブル10に格納する。
{固有表現:メッシュID(のリスト):当該文書での頻度}
の組み合わせを作ることができ、最終的に全文書で固有表現をキーとして合算したものを固有表現−地理インデクスとして保存する。固有表現に対応する値は、
"(メッシュID:スコア),(メッシュID:スコア)…"
となる。スコアは単に出現頻度としても良いし、tf・idfのように固有表現の総出現回数を考慮することで、高頻度の一つのキーワードの影響が強くなりすぎるのを防ぐこともできる。
{固有表現:メッシュID(のリスト):頻度:範囲考慮係数}
のデータを作成する。ここで範囲考慮スコアは下記の式などで計算可能である。
なお、地理が地点(ポイント)の場合は1とする。
図3(a)に示すように、各固有表現について、地理的スコアが広く分散しているものは地理を推定する際に有用ではない。そのため、各地理におけるスコアの分布を解析し、分散が高い固有表現のデータは固有表現−地理インデクス記憶部20から除去する。分散が高いかどうかの判定には、通常の標準偏差やエントロピーを計算したり、最大スコアの30%以上の地理がどれほどあるかなどで求める。
図3(b)に示すように、各固有表現において、地理的に特徴的な範囲のみの情報を用いることで、有効性が高まると考える。そのため、各固有表現のスコアの分布において、一定の閾値以下のものを固有表現−地理インデクス記憶部20から除去する。閾値は頻度をスコアとする場合には10、tf・idfをスコアとする場合では0.1など絶対値で指定しても、分布の最大値の25%などと相対的に設定してもよい。
本実施の形態では、入力する文書集合を生成する機能について説明する。
20 固有表現−地理インデクス記憶部
110 固有表現抽出・地理解析部
120 固有表現−地理インデクス作成部
130 データトリミング部
140 地理推定部
210 文書選択部
Claims (8)
- 入力された文書を解析し、該文書に対応する地理情報を出力する地域推定装置であって、
入力された文書が地名を含む場合は、固有表現、地名表現、該地名表現に対応する緯度経度の地理情報を抽出し、地名を含まない場合は、固有表現のみを抽出し、文書情報記憶手段に格納する文書解析手段と、
前記文書情報記憶手段から、前記固有表現と前記地理情報の組み合わせを取得して、該固有表現をキーとし、該地理情報を対応付けた固有表現−地理インデクスを生成し、インデクス記憶手段に格納するインデクス作成手段と、
前記インデクス記憶手段から、地理的に広く分布している、または、地理的に特徴がないデータを削除するデータトリミング手段と、
前記文書情報記憶手段から前記文書毎の文書IDと前記固有表現と前記地理情報を取得し、該文書に地理情報がある場合は、文書IDと地理情報を出力し、該地理情報がない場合は、前記インデクス記憶手段から取得した該固有表現に対応する地理情報を文書IDと共に出力する地理推定手段と、
を有することを特徴とする地域推定装置。 - 前記インデクス作成手段は、
前記文書情報記憶手段から取得した前記地理情報を、検索対象とする地理範囲内を任意の単位で区切り、区切られた各メッシュのメッシュIDに変換し、該地理情報に対応する前記固有表現が前記文書で出現する頻度のスコアと対応付けた固有表現−地理インデクスを前記インデクス記憶手段に格納する手段を含み、
前記データトリミング手段は、
前記インデクス記憶手段の前記メッシュIDに対応するスコアを分析し、該スコアの分散が高い固有表現のデータを前記インデクス記憶手段から除去する手段と、
前記インデクス記憶手段の前記メッシュIDに対応するスコアを分析し、該スコアの分布が、所定の閾値以下の固有表現のデータを前記インデクス記憶手段から除去する手段と、
を含む請求項1記載の地域推定装置。 - 前記地理推定手段は、
前記固有表現−地理インデクスのメッシュID毎にスコアを合算し、合算したスコアが最も高いメッシュIDの中心点を示す地理情報、または、隣接するメッシュのスコアが所定の閾値以上のメッシュIDのメッシュが示す地理情報を出力する手段を含む
請求項1記載の地域推定装置。 - 前記インデクス作成手段は、
前記文書が入力される毎に前記固有表現−地理インデクスを生成する手段を含む
請求項2記載の地域推定装置。 - 前記インデクス作成手段は、
前記地名表現の広さに応じて低減する係数を用いて前記スコアを算出する手段を含む請求項2記載の地域推定装置。 - 文書が入力されると、指定された一定の期間内の文書を選択し、前記文書解析手段に出力する文書選択手段を更に有する
請求項1記載の地域推定装置。 - 入力された文書を解析し、該文書に対応する地理情報を出力する地域推定方法であって、
文書解析手段が、入力された文書が地名を含む場合は、固有表現、地名表現、該地名表現に対応する緯度経度の地理情報を抽出し、地名を含まない場合は、固有表現のみを抽出し、文書情報記憶手段に格納する文書解析ステップと、
インデクス作成手段が、前記文書情報記憶手段から、前記固有表現と前記地理情報の組み合わせを取得して、該固有表現をキーとし、該地理情報を対応付けた固有表現−地理インデクスを生成し、インデクス記憶手段に格納するインデクス作成ステップと、
データトリミング手段が、前記インデクス記憶手段から、地理的に広く分布している、または、地理的に特徴がないデータを削除するデータトリミングステップと、
地理推定手段が、前記文書情報記憶手段から前記文書毎の文書IDと前記固有表現と前記地理情報を取得し、該文書に地理情報がある場合は、文書IDと地理情報を出力し、該地理情報がない場合は、前記インデクス記憶手段から取得した該固有表現に対応する地理情報を文書IDと共に出力する地理推定ステップと、
を行うことを特徴とする地域推定方法。 - コンピュータを、
請求項1乃至6のいずれか1項に記載の地域推定装置の各手段として機能させるための地域推定プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012100488A JP5806971B2 (ja) | 2012-04-25 | 2012-04-25 | 地域推定装置及び方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012100488A JP5806971B2 (ja) | 2012-04-25 | 2012-04-25 | 地域推定装置及び方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013228888A JP2013228888A (ja) | 2013-11-07 |
JP5806971B2 true JP5806971B2 (ja) | 2015-11-10 |
Family
ID=49676452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012100488A Expired - Fee Related JP5806971B2 (ja) | 2012-04-25 | 2012-04-25 | 地域推定装置及び方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5806971B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104537062A (zh) * | 2014-12-29 | 2015-04-22 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种地址信息抽取方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7822751B2 (en) * | 2005-05-27 | 2010-10-26 | Google Inc. | Scoring local search results based on location prominence |
US20080010273A1 (en) * | 2006-06-12 | 2008-01-10 | Metacarta, Inc. | Systems and methods for hierarchical organization and presentation of geographic search results |
JP4921330B2 (ja) * | 2007-11-29 | 2012-04-25 | 日本電信電話株式会社 | 地名が意味する範囲を考慮した検索結果スニペットの生成装置、生成方法、生成プログラムおよびその生成プログラムを記録した記録媒体 |
US9690804B2 (en) * | 2010-05-28 | 2017-06-27 | Rakuten, Inc. | Information processing device, information processing method, information processing program, and recording medium |
JP5345987B2 (ja) * | 2010-08-18 | 2013-11-20 | 日本電信電話株式会社 | 文書検索装置、文書検索方法および文書検索プログラム |
-
2012
- 2012-04-25 JP JP2012100488A patent/JP5806971B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013228888A (ja) | 2013-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6254583B2 (ja) | 動的言語モデル | |
US8958826B2 (en) | Device and method for mobility pattern mining | |
JP5367632B2 (ja) | 知識量推定装置及びプログラム | |
JP5351123B2 (ja) | 文書検索キーワード提示装置および文書検索キーワード提示プログラム | |
Kotzias et al. | Addressing the Sparsity of Location Information on Twitter. | |
JP5806971B2 (ja) | 地域推定装置及び方法及びプログラム | |
JP5639549B2 (ja) | 情報検索装置及び方法及びプログラム | |
JP5637073B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP5271863B2 (ja) | 情報分析装置、情報分析方法および情報分析プログラム | |
JP5806364B1 (ja) | バースト領域抽出装置、バースト領域抽出方法及びバースト領域抽出プログラム | |
JP6126516B2 (ja) | 訪問poi推定装置 | |
JP5977199B2 (ja) | 地域連想語抽出装置、地域連想語抽出方法及び地域連想語抽出プログラム | |
JP5604406B2 (ja) | 情報検索装置及び方法及びプログラム | |
JP5801243B2 (ja) | 特徴キーワード推薦装置及び方法及びプログラム | |
JP5806974B2 (ja) | 近隣情報検索装置及び方法及びプログラム | |
JP5824415B2 (ja) | 住所特徴語抽出装置及び方法及びプログラム | |
JP6718288B2 (ja) | 関連語抽出支援装置 | |
JP5798081B2 (ja) | 情報検索装置及び方法及びプログラム | |
JP5670944B2 (ja) | 文書要約装置及び方法及びプログラム | |
JP2015102987A (ja) | 地名推定方法、地名推定装置及び地名推定プログラム | |
JP5792871B1 (ja) | 代表スポット出力方法、代表スポット出力装置および代表スポット出力プログラム | |
JP2013125429A (ja) | 分析対象決定装置 | |
JP5583107B2 (ja) | キーワード地名ペア抽出装置及び方法及びプログラム | |
JP2016224487A (ja) | 投稿情報集計装置 | |
JP2011227731A (ja) | クエリ選択装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141020 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150623 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150714 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150810 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150901 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150907 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5806971 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |