JP5824415B2 - 住所特徴語抽出装置及び方法及びプログラム - Google Patents
住所特徴語抽出装置及び方法及びプログラム Download PDFInfo
- Publication number
- JP5824415B2 JP5824415B2 JP2012123651A JP2012123651A JP5824415B2 JP 5824415 B2 JP5824415 B2 JP 5824415B2 JP 2012123651 A JP2012123651 A JP 2012123651A JP 2012123651 A JP2012123651 A JP 2012123651A JP 5824415 B2 JP5824415 B2 JP 5824415B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- feature word
- address
- area
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
住所と作成者が付与された文書を保持する文書記憶手段と、
入力された位置情報に対応する前記文書記憶手段の文書の特徴語について、文外書を作成した作成者群の特定地域での認知度を求め、作成者に対応付けて偏り記憶手段に格納する文書作成確率偏り算出手段と、
前記文書記憶手段から取得した文書を対象として、広域から広域内の狭域へのエリアの縮尺の変化に伴う、該文書に出現する各特徴語の出現確率の変化に基づいて該特徴語の順位上昇率を算出する順位上昇率算出手段と、
前記偏り記憶手段から取得した前記特定地域での認知度と、前記特徴語の順位上昇率から、特徴語スコアを求める特徴語スコア算出手段と、
前記特徴語スコアの上位N件の特徴語を本文に含む文書に、入力された住所を付与して住所不定文書記憶手段に格納する位置情報付与手段と、を有する。
前記作成者が作成した文書が特定地域について作成される確率とエントロピーに基づき前記文書の特定地域の偏りを求める手段を含む。
前記文書を作成した作成者の数に応じて前記特徴語スコアを算出する手段を含む。
前記文書記憶手段から取得した全文書のうち、前記入力された位置情報に属する地域に存在する文書の数と属さない地域に存在する文書の数を用いて前記特徴語の順位上昇率を算出する手段を含む。
前記特徴語の順位上昇率を、縮尺毎に、前記文書記憶手段から取得した全文書の数と、該全文書における入力された前記位置情報と同じ文書の数と、該全文書における該入力された位置情報と同じ文書内での単語出現頻度から、出現回数が該単語出現頻度以上のスコアの単語を特徴語とし、該スコアに応じて特徴語に順位を付与し、該順位に基づいて、前記順位上昇率を算出する手段を含む。
「特徴語の順位上昇率」は、広域の狭域での特徴語の出現頻度を基に算出し、この値が大きい場合は特定地域で利用される特徴語とする。具体的には、広域の地域においてはあまり出現する確率は高くないが、狭域の地域においては出現する確率が高い特徴語のスコアを大きくする。また、広域と狭域の両方で出現確率が高い場合は広く知られた特徴語としてスコアを小さくする。そのための算出方法として、ポアソン分布を用いる。例えば、特徴語「青ガエル」(渋谷の待ち合わせ場所)は東京都全体では出現確率が低いが、「東京都渋谷区」では出現率が高いため地域を特定できる特徴語となる。特徴語「ハチ公前」は東京都全体と東京都渋谷区でも高い出現率のため、広く知られた特徴語である。
2 文書収集部
3 文書作成確率の偏り算出部
4 順位上昇率算出部
5 特徴語スコア算出部
6 位置情報付与部
7 文書記憶部
8 エリア情報記憶部
9 文書作成確率の偏り記憶部
10 縮尺情報記憶部
11 単語基本スコア記憶部
12 住所不定文書記憶部
Claims (8)
- 特定の場所について書かれた文書の場所推定に利用する住所の特徴語を抽出する住所特徴語抽出装置であって、
住所と作成者が付与された文書を保持する文書記憶手段と、
入力された位置情報に対応する前記文書記憶手段の文書の特徴語について、該文書を作成した作成者群の特定地域での認知度を求め、作成者に対応付けて偏り記憶手段に格納する文書作成確率偏り算出手段と、
前記文書記憶手段から取得した文書を対象として、広域から広域内の狭域へのエリアの縮尺の変化に伴う、該文書に出現する各特徴語の出現確率の変化に基づいて該特徴語の順位上昇率を算出する順位上昇率算出手段と、
前記偏り記憶手段から取得した前記特定地域での認知度と、前記特徴語の順位上昇率から、特徴語スコアを求める特徴語スコア算出手段と、
前記特徴語スコアの上位N件の特徴語を本文に含む文書に、入力された住所を付与して住所不定文書記憶手段に格納する位置情報付与手段と、
を有することを特徴とする住所特徴語抽出装置。 - 前記文書作成確率偏り算出手段は、
前記作成者が作成した文書が特定地域について作成される確率とエントロピーに基づき前記文書の特定地域の偏りを求める手段を含む
請求項1記載の住所特徴語抽出装置。 - 前記特徴語スコア算出手段は、
前記文書を作成した作成者の数に応じて前記特徴語スコアを算出する手段を含む
請求項1記載の住所特徴語抽出装置。 - 前記順位上昇率算出手段は、
前記文書記憶手段から取得した全文書のうち、前記入力された位置情報に属する地域に存在する文書の数と属さない地域に存在する文書の数を用いて前記特徴語の順位上昇率を算出する手段を含む
請求項1記載の住所特徴語抽出装置。 - 前記順位上昇率算出手段は、
前記特徴語の順位上昇率を、縮尺毎に、前記文書記憶手段から取得した全文書の数と、該全文書における入力された前記位置情報と同じ文書の数と、該全文書における該入力された位置情報と同じ文書内での単語出現頻度から、出現回数が該単語出現頻度以上のスコアの単語を特徴語とし、該スコアに応じて特徴語に順位を付与し、該順位に基づいて、前記順位上昇率を算出する手段を含む
請求項1記載の住所特徴語抽出装置。 - 特定の場所について書かれた文書の場所推定に利用する住所の特徴語を抽出する住所特徴語抽出方法であって、
住所と作成者が付与された文書を保持する文書記憶手段から、入力された位置情報に対応する文書を取得し、該文書を作成した作成者群の特定地域での認知度を求め、作成者に対応付けて偏り記憶手段に格納する文書作成確率偏り算出ステップと、
前記文書記憶手段から取得した文書を対象として、広域から広域内の狭域へのエリアの縮尺の変化に伴う、該文書に出現する各特徴語の出現確率の変化に基づいて該特徴語の順位上昇率を算出する順位上昇率算出ステップと、
前記偏り記憶手段から取得した前記特定地域での認知度と、前記特徴語の順位上昇率から、特徴語スコアを求める特徴語スコア算出ステップと、
前記特徴語スコアの上位N件の特徴語を本文に含む文書に、入力された住所を付与して住所不定文書記憶手段に格納する位置情報付与ステップと、
を行うことを特徴とする住所特徴語抽出方法。 - 前記文書作成確率偏り算出ステップにおいて、
前記作成者が作成した文書が特定地域について作成される確率とエントロピーに基づき前記文書の特定地域の偏りを求める
請求項6記載の住所特徴語抽出方法。 - コンピュータを、
請求項1乃至5のいずれか1項に記載の住所特徴語抽出装置の各手段として機能させるための住所特徴語抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012123651A JP5824415B2 (ja) | 2012-05-30 | 2012-05-30 | 住所特徴語抽出装置及び方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012123651A JP5824415B2 (ja) | 2012-05-30 | 2012-05-30 | 住所特徴語抽出装置及び方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013250670A JP2013250670A (ja) | 2013-12-12 |
JP5824415B2 true JP5824415B2 (ja) | 2015-11-25 |
Family
ID=49849323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012123651A Expired - Fee Related JP5824415B2 (ja) | 2012-05-30 | 2012-05-30 | 住所特徴語抽出装置及び方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5824415B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019207963A1 (ja) * | 2018-04-25 | 2019-10-31 | 株式会社Nttドコモ | Poi情報更新装置 |
-
2012
- 2012-05-30 JP JP2012123651A patent/JP5824415B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013250670A (ja) | 2013-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11036791B2 (en) | Computerized system and method for determining non-redundant tags from a user's network activity | |
JP6196316B2 (ja) | ユーザ投稿に基づいたコンテンツの配信の調整 | |
JP6759844B2 (ja) | 画像を施設に対して関連付けるシステム、方法、プログラム及び装置 | |
US9792657B2 (en) | Methods and systems for leveraging social information, including a social graph, to identify and present content of interest | |
KR102263637B1 (ko) | 검색 시스템을 위한 써드 파티 검색 애플리케이션들 | |
Park et al. | Implications and alternatives of assigning climate data to geographical centroids | |
US10146775B2 (en) | Apparatus, system and method for string disambiguation and entity ranking | |
JP5543384B2 (ja) | ローカルクエリ抽出装置、ローカルクエリ抽出プログラム、およびローカルクエリ抽出方法 | |
US9344507B2 (en) | Method of processing web access information and server implementing same | |
US9407589B2 (en) | System and method for following topics in an electronic textual conversation | |
JP2017525026A (ja) | 文脈検索の提示の生成 | |
CA3167569A1 (en) | Systems and methods for determining entity attribute representations | |
Jaiswal et al. | Predicting time-sensitive user locations from social media | |
KR20080078930A (ko) | 관심사를 반영하여 추출한 정보 제공 방법 및 시스템 | |
Li et al. | A probabilistic topic-based ranking framework for location-sensitive domain information retrieval | |
JP2006331014A (ja) | 情報提供装置、情報提供方法及び情報提供プログラム | |
JP5824415B2 (ja) | 住所特徴語抽出装置及び方法及びプログラム | |
JP5361090B2 (ja) | 話題語獲得装置、方法、及びプログラム | |
JP2008040869A (ja) | 地点情報評価装置、地点情報評価プログラム | |
JP5841108B2 (ja) | 情報処理装置、記事情報生成方法およびプログラム | |
JP5824416B2 (ja) | 特徴語抽出装置及び方法及びプログラム | |
Katragadda et al. | An unsupervised approach to identify location based on the content of user’s tweet history | |
JP2020042545A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP5650607B2 (ja) | 文書検索キーワード提示装置及び方法 | |
JP5806971B2 (ja) | 地域推定装置及び方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141020 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150626 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150707 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150827 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151006 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151009 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5824415 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |