JP5224453B2 - 地理的特徴情報抽出方法およびシステム - Google Patents
地理的特徴情報抽出方法およびシステム Download PDFInfo
- Publication number
- JP5224453B2 JP5224453B2 JP2008187212A JP2008187212A JP5224453B2 JP 5224453 B2 JP5224453 B2 JP 5224453B2 JP 2008187212 A JP2008187212 A JP 2008187212A JP 2008187212 A JP2008187212 A JP 2008187212A JP 5224453 B2 JP5224453 B2 JP 5224453B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- area
- document
- analysis target
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
ωk:対象語(エリア名)(1≦k≦K(Kはエリア名総数))。
D(ωk):ωkで検索された文書数(解析対象エリア文書群内の文書総数)。
D:全てのωkで検索された文書数(解析対象文書群内の文書総数)。
en :解析対象文書群内の文書に含まれる単語(1≦n≦N(Nは単語総数))。
D(en,ωk):解析対象エリア文書群内の文書中で、enを含む文書数。
D(en):解析対象文書群内の文書中で、enを含む文書数。
D(ωk,en):解析対象文書群内の文書内で、enを含む文書中のωkを含む文書数。
S(k,k+1):エリアk,k+1の類似度
Claims (8)
- 地理的なエリア名をキーとして該エリア名を含む複数の文書を取得する第1のステップと、
前記第1のステップで取得された全文書を解析対象文書群とし、該解析対象文書群の各文書のデータを品詞に分解する第2のステップと、
各エリア名に対して取得された文書を解析対象エリア文書群とし、前記解析対象文書群に出現する個々の単語について、前記第2のステップにより得られた品詞を参照して個々の単語が出現する文書数を前記解析対象エリア文書群ごとに保持する第3のステップと、
前記解析対象文書群に出現する個々の単語について、前記解析対象エリア文書群内の、文書総数に対する当該単語を含む文書数の割合を第1の寄与度として算出し、前記解析対象文書群内の、当該単語を含む文書数に対する、当該単語を含む文書群内で当該エリア名を含む文書数の割合を第2の寄与度として算出し、前記第1の寄与度と前記第2の寄与度の積として各単語の第1の重要度を各エリア名ごとに算出する第4のステップと、
前記第1の重要度が高い単語あるいは単語群を当該エリアに属する話題語として抽出する第5のステップを備えたことを特徴とする地理的特徴情報抽出方法。 - さらに、前記解析対象文書群に出現する個々の単語について、前記解析対象文書群内の、文書総数に対する、当該単語を含む文書群内で当該エリア名を含む文書数の割合を各単語の第2の重要度として各エリア名ごとに算出する第6のステップと、
各エリア名ごとの前記第2の重要度の集合を当該エリアの特徴ベクトルとし、各エリア間の特徴ベクトルの類似度をエリア間類似度として算出する第7のステップと、
前記エリア間類似度に基づいて類似エリアを抽出する第8のステップを備えたことを特徴とする請求項1記載の地理的特徴情報抽出方法。 - さらに、類似エリア間について、前記第7のステップでエリア間類似度を算出する過程で得られる、前記特徴ベクトルの要素である各単語ごとの類似度を保持する第9のステップと、
前記単語ごとの類似度に基づいて類似エリア間での類似単語あるいは類似単語群を抽出する第10のステップを備えたことを特徴とする請求項2記載の地理的特徴情報抽出方法。 - 地理的なエリア名をキーとして該エリア名を含む複数の文書を取得する文書取得部と、
前記文書取得部により取得された全文書を解析対象文書群とし、該解析対象文書群の各文書のデータを品詞に分解する形態素解析部と、
各エリア名に対して取得された文書を解析対象エリア文書群とし、前記解析対象文書群に出現する個々の単語について、前記形態素解析部により得られた品詞を参照して前記解析対象エリア文書群ごとに個々の単語が出現する文書数を前記解析対象エリア文書群ごとに保持する単語出現文書数保持部と、
前記解析対象文書群に出現する個々の単語について、前記解析対象エリア文書群内の、文書総数に対する当該単語を含む文書数の割合を第1の寄与度として算出し、前記解析対象文書群内の、当該単語を含む文書数に対する、当該単語を含む文書群内で当該エリア名を含む文書数の割合を第2の寄与度として算出し、前記第1の寄与度と前記第2の寄与度の積として各単語の第1の重要度を各エリア名ごとに算出する第1の重要度算出部と、
前記第1の重要度が高い単語あるいは単語群を当該エリアに属する話題語として抽出する話題語抽出部を備えたことを特徴とする地理的特徴情報抽出システム。 - さらに、前記解析対象文書群に出現する個々の単語について、前記解析対象文書群内の、文書総数に対する、当該単語を含む文書群内で当該エリア名を含む文書数の割合を各単語の第2の重要度として各エリア名ごとに算出する第2の重要度算出部と、
各エリア名ごとの前記第2の重要度の集合を当該エリアの特徴ベクトルとし、各エリア間の特徴ベクトルの類似度をエリア間類似度として算出するエリア間類似度算出部と、
前記エリア間類似度に基づいて類似エリアを抽出する類似エリア抽出部を備えたことを特徴とする請求項4記載の地理的特徴情報抽出システム。 - 前記第2の重要度算出部は、前記解析対象文書群内の、文書総数に対する当該単語を含む文書数の割合を第3の寄与度として算出する手段と、前記第2の寄与度と前記第3の寄与度の積を前記第2の重要度として算出する手段を有することを特徴とする請求項5記載の地理的特徴情報抽出システム。
- さらに、類似エリア間について、前記エリア間類似度算出部がエリア間類似度を算出する過程で得られる、前記特徴ベクトルの要素である各単語ごとの類似度を保持する単語類似度保持部と、
前記単語ごとの類似度に基づいて類似エリア間での類似単語あるいは類似単語群を抽出する類似語抽出部を備えたことを特徴とする請求項記載5または6に記載の地理的特徴情報抽出システム。 - 前記解析対象エリア文書群の文書について、少なくとも重複を排除する文書フィルタ部を備え、該文書フィルタ部を通して得られる全解析対象エリア文書群を前記解析対象文書群とすることを特徴とする請求項4ないし7のいずれかに記載の地理的特徴情報抽出システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008187212A JP5224453B2 (ja) | 2008-07-18 | 2008-07-18 | 地理的特徴情報抽出方法およびシステム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008187212A JP5224453B2 (ja) | 2008-07-18 | 2008-07-18 | 地理的特徴情報抽出方法およびシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010026773A JP2010026773A (ja) | 2010-02-04 |
JP5224453B2 true JP5224453B2 (ja) | 2013-07-03 |
Family
ID=41732553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008187212A Expired - Fee Related JP5224453B2 (ja) | 2008-07-18 | 2008-07-18 | 地理的特徴情報抽出方法およびシステム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5224453B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5351123B2 (ja) * | 2010-10-21 | 2013-11-27 | 日本電信電話株式会社 | 文書検索キーワード提示装置および文書検索キーワード提示プログラム |
JP5731940B2 (ja) * | 2011-09-29 | 2015-06-10 | 株式会社Nttドコモ | テキスト位置判定装置及びテキスト位置判定方法 |
JP5766104B2 (ja) * | 2011-12-06 | 2015-08-19 | 株式会社Nttドコモ | 情報提供装置及び情報提供方法 |
JP5901502B2 (ja) * | 2012-11-27 | 2016-04-13 | 日本電信電話株式会社 | 居住地推定用データ生成装置、居住地推定用データ生成方法、及びプログラム |
KR102255035B1 (ko) * | 2019-06-26 | 2021-05-24 | 주식회사 코이션 | 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법 |
-
2008
- 2008-07-18 JP JP2008187212A patent/JP5224453B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010026773A (ja) | 2010-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9305083B2 (en) | Author disambiguation | |
US10417269B2 (en) | Systems and methods for verbatim-text mining | |
US7424421B2 (en) | Word collection method and system for use in word-breaking | |
CN107918644B (zh) | 声誉管理框架内的新闻议题分析方法和实施系统 | |
US8832126B2 (en) | Custodian suggestion for efficient legal e-discovery | |
CN104484380A (zh) | 个性化搜索方法及装置 | |
US20160335367A1 (en) | Entity disambiguation using multisource learning | |
JP2014120053A (ja) | 質問応答装置、方法、及びプログラム | |
JP5224453B2 (ja) | 地理的特徴情報抽出方法およびシステム | |
Nasser et al. | n-Gram based language processing using Twitter dataset to identify COVID-19 patients | |
Amdouni et al. | Web-based recruiting | |
Dumani et al. | Quality-aware ranking of arguments | |
JP6867963B2 (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
JP5251099B2 (ja) | 用語共起度抽出装置、用語共起度抽出方法及び用語共起度抽出プログラム | |
JP4853915B2 (ja) | 検索システム | |
MM et al. | Constructing twitter corpus of Iraqi Arabic Dialect (CIAD) for sentiment analysis | |
CN107818091B (zh) | 文档处理方法及装置 | |
US8886651B1 (en) | Thematic clustering | |
Panchenko et al. | Large-scale parallel matching of social network profiles | |
Figueroa et al. | Collaborative ranking between supervised and unsupervised approaches for keyphrase extraction | |
Sahmoudi et al. | Towards a linguistic patterns for arabic keyphrases extraction | |
CN113934910A (zh) | 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法 | |
Kumar et al. | Enterprise analysis through opinion mining | |
WO2019132648A1 (en) | System and method for identifying concern evolution within temporal and geospatial windows | |
Alsulami et al. | Extracting attributes for twitter hashtag communities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110127 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121004 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121017 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130306 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130307 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160322 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |