JP5824416B2 - 特徴語抽出装置及び方法及びプログラム - Google Patents
特徴語抽出装置及び方法及びプログラム Download PDFInfo
- Publication number
- JP5824416B2 JP5824416B2 JP2012123652A JP2012123652A JP5824416B2 JP 5824416 B2 JP5824416 B2 JP 5824416B2 JP 2012123652 A JP2012123652 A JP 2012123652A JP 2012123652 A JP2012123652 A JP 2012123652A JP 5824416 B2 JP5824416 B2 JP 5824416B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- feature
- score
- feature word
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
住所と作成者が付与された文書を保持する文書記憶手段と、
入力された位置情報に対応する前記文書記憶手段の文書の特徴語の時間情報から時間的周期性を算出し、周期に対する重み関数を用いて周期性スコアを算出し、周期性記憶手段に格納する周期性スコア算出手段と、
前記文書記憶手段から取得した文書を対象として、広域から広域内の狭域へのエリアの縮尺の変化に伴う、該文書に出現する各特徴語の出現確率の変化に基づいて該特徴語の順位上昇率を算出する順位上昇率算出手段と、
前記周期性記憶手段から取得した前記周期性スコアと、前記特徴語の順位上昇率から、特徴語スコアを求める特徴語スコア算出手段と、
前記特徴語スコアの上位N件の特徴語を本文に含む文書に、入力された住所を付与して住所不定文書記憶手段に格納する位置情報付与手段と、を有する。
前記特徴語の時間tにおける出現回数を求め、フーリエ変換を用いることにより、前記時間的周期性を算出する手段を含む。
前記特徴語の順位上昇率を、縮尺毎に、前記文書記憶手段から取得した全文書の数と、該全文書における前記入力された位置情報と同じ位置情報を持つ文書の数と、該全文書における該入力された位置情報と同じ位置情報を持つ文書内での単語の出現頻度から、出現回数が該単語の出現頻度以上のスコアの単語を特徴語とし、該スコアの順位に基づいて前記特徴語の順位上昇率を算出する手段を含む。
「特徴語の順位上昇率」は、広域内の狭域での特徴語の出現頻度を基に算出し、この値が大きい場合は特定地域で利用される特徴語とする。具体的には、広域の地域においてはあまり出現する確率は高くないが、狭域の地域においては出現する確率が高い特徴語のスコアを大きくする。また、広域と狭域の両方で出現確率が高い場合は広く知られた特徴語としてスコアを小さくする。そのための算出方法として、ポアソン確率を用いる。例えば、特徴語「青ガエル」(渋谷の待ち合わせ場所)は東京都全体では出現確率が低いが、東京都渋谷区では出現確率が高いため、地域を特定できる特徴語となる。特徴語「ハチ公前」は東京都全体と東京都渋谷区でも高い出現率のため広く知られた特徴語である。
上記の値を用いて、下記のフーリエ変換式を用いて特徴語の時間的周期性F(f(wordi,t))を算出する。
文書収集部2から入力された位置情報と文書情報を取得する。位置情報として「東京都千代田区大手町」が入力されたものとする。
ここで、αは0から1.0までの任意の実数とする。
2 文書収集部
3 周期性スコア算出部
4 特徴語抽出部
5 位置情報付与部
6 文書記憶部
7 周期性記憶部
8 エリア情報記憶部
9 縮尺情報記憶部
10 住所不定文書記憶部
11 単語基本スコア記憶部
Claims (7)
- 特定の場所について書かれた文書の場所推定に利用する住所の特徴語を抽出する特徴語抽出装置であって、
住所と作成者が付与された文書を保持する文書記憶手段と、
入力された位置情報に対応する前記文書記憶手段の文書の特徴語の時間情報から時間的周期性を算出し、周期に対する重み関数を用いて周期性スコアを算出し、周期性記憶手段に格納する周期性スコア算出手段と、
前記文書記憶手段から取得した文書を対象として、広域から広域内の狭域へのエリアの縮尺の変化に伴う、該文書に出現する各特徴語の出現確率の変化に基づいて該特徴語の順位上昇率を算出する順位上昇率算出手段と、
前記周期性記憶手段から取得した前記周期性スコアと、前記特徴語の順位上昇率から、特徴語スコアを求める特徴語スコア算出手段と、
前記特徴語スコアの上位N件の特徴語を本文に含む文書に、入力された住所を付与して住所不定文書記憶手段に格納する位置情報付与手段と、
を有することを特徴とする特徴語抽出装置。 - 前記周期性スコア算出手段は、
前記特徴語の時間tにおける出現回数を求め、フーリエ変換を用いることにより、前記時間的周期性を算出する手段を含む
請求項1記載の特徴語抽出装置。 - 前記順位上昇率算出手段は、
前記特徴語の順位上昇率を、縮尺毎に、前記文書記憶手段から取得した全文書の数と、該全文書における前記入力された位置情報と同じ位置情報を持つ文書の数と、該全文書における該入力された位置情報と同じ位置情報を持つ文書内での単語の出現頻度から、出現回数が該単語の出現頻度以上のスコアの単語を特徴語とし、該スコアの順位に基づいて前記特徴語の順位上昇率を算出する手段を含む
請求項1記載の特徴語抽出装置。 - 特定の場所について書かれた文書の場所推定に利用する住所の特徴語を抽出する特徴語抽出方法であって、
住所と作成者が付与された文書を保持する文書記憶手段から、入力された位置情報に対応する文書の特徴語を抽出し、該特徴語の時間情報から時間的周期性を算出し、周期に対する重み関数を用いて周期性スコアを算出し、周期性記憶手段に格納する周期性スコア算出ステップと、
前記文書記憶手段から取得した文書を対象として、広域から広域内の狭域へのエリアの縮尺の変化に伴う、該文書に出現する各特徴語の出現確率の変化に基づいて該特徴語の順位上昇率を算出する順位上昇率算出ステップと、
前記周期性記憶手段から取得した前記周期性スコアと、前記特徴語の順位上昇率から、特徴語スコアを求める特徴語スコア算出ステップと、
前記特徴語スコアの上位N件の特徴語を本文に含む文書に、入力された住所を付与して住所不定文書記憶手段に格納する位置情報付与ステップと、
を行うことを特徴とする特徴語抽出方法。 - 前記周期性スコア算出ステップにおいて、
前記特徴語の時間tにおける出現回数を求め、フーリエ変換を用いることにより、前記時間的周期性を算出する
請求項4記載の特徴語抽出方法。 - 前記順位上昇率算出ステップにおいて、
前記特徴語の順位上昇率を、縮尺毎に、前記文書記憶手段から取得した全文書の数と、該全文書における前記入力された位置情報と同じ位置情報を持つ文書の数と、該全文書における該入力された位置情報と同じ位置情報を持つ文書内での単語の出現頻度から、出現回数が該単語の出現頻度以上のスコアの単語を特徴語とし、該スコアの順位に基づいて前記特徴語の順位上昇率を算出する
請求項4記載の特徴語抽出方法。 - コンピュータを、
請求項1乃至3のいずれか1項に記載の特徴語抽出装置の各手段として機能させるための特徴語抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012123652A JP5824416B2 (ja) | 2012-05-30 | 2012-05-30 | 特徴語抽出装置及び方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012123652A JP5824416B2 (ja) | 2012-05-30 | 2012-05-30 | 特徴語抽出装置及び方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013250671A JP2013250671A (ja) | 2013-12-12 |
JP5824416B2 true JP5824416B2 (ja) | 2015-11-25 |
Family
ID=49849324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012123652A Expired - Fee Related JP5824416B2 (ja) | 2012-05-30 | 2012-05-30 | 特徴語抽出装置及び方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5824416B2 (ja) |
-
2012
- 2012-05-30 JP JP2012123652A patent/JP5824416B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013250671A (ja) | 2013-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lampos et al. | Nowcasting events from the social web with statistical learning | |
US8291075B1 (en) | Detecting events of interest | |
KR102263637B1 (ko) | 검색 시스템을 위한 써드 파티 검색 애플리케이션들 | |
Ballatore et al. | Digital hegemonies: the localness of search engine results | |
US20130080428A1 (en) | User-Centric Opinion Analysis for Customer Relationship Management | |
Hahmann et al. | Twitter location (sometimes) matters: Exploring the relationship between georeferenced tweet content and nearby feature classes | |
WO2015192667A1 (zh) | 推荐广告的方法及广告推荐服务器 | |
US20180246899A1 (en) | Generate an index for enhanced search based on user interests | |
EP2941754A2 (en) | Social media impact assessment | |
JP2017142796A (ja) | 情報の特定及び抽出 | |
JP2017525026A (ja) | 文脈検索の提示の生成 | |
CN110020273B (zh) | 用于生成热力图的方法、装置以及系统 | |
Williams et al. | Improving geolocation of social media posts | |
Singh et al. | Structural analysis of the emerging event-web | |
Meijers et al. | Using toponym co-occurrences to measure relationships between places: Review, application and evaluation | |
Silva | Importance of climate-driven forest–savanna biome shifts in anthropological and ecological research | |
JP2014164576A (ja) | 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法 | |
Francalanci et al. | Exploratory spatio-temporal queries in evolving information | |
WO2018160747A1 (en) | Enhanced search to generate a feed based on a user's interests | |
JP5824416B2 (ja) | 特徴語抽出装置及び方法及びプログラム | |
JP5824415B2 (ja) | 住所特徴語抽出装置及び方法及びプログラム | |
Al-Barhamtoshy et al. | A data analytic framework for unstructured text | |
Fan et al. | Improving microblog retrieval with feedback entity model | |
US9104777B2 (en) | Method for improving accessibility to rich internet applications through collaborative crawling and computer program for the same | |
JP7042720B2 (ja) | 情報処理装置、情報処理方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141020 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150626 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150707 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150827 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151006 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151009 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5824416 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |