JP5224453B2 - 地理的特徴情報抽出方法およびシステム - Google Patents

地理的特徴情報抽出方法およびシステム Download PDF

Info

Publication number
JP5224453B2
JP5224453B2 JP2008187212A JP2008187212A JP5224453B2 JP 5224453 B2 JP5224453 B2 JP 5224453B2 JP 2008187212 A JP2008187212 A JP 2008187212A JP 2008187212 A JP2008187212 A JP 2008187212A JP 5224453 B2 JP5224453 B2 JP 5224453B2
Authority
JP
Japan
Prior art keywords
word
area
document
analysis target
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008187212A
Other languages
English (en)
Other versions
JP2010026773A (ja
Inventor
慎司 太田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2008187212A priority Critical patent/JP5224453B2/ja
Publication of JP2010026773A publication Critical patent/JP2010026773A/ja
Application granted granted Critical
Publication of JP5224453B2 publication Critical patent/JP5224453B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、地理的特徴情報抽出方法およびシステムに関し、特に、インターネットなどのネットワーク上に存在する文書(テキストデータ)から地理的エリアに関する特徴情報を抽出する地理的特徴情報抽出方法およびシステムに関する。
インターネット上のウエブ(Web)やブログ(Blog)などの文書からテキストマイニング手法を駆使して有用な知見を得る試みがなされている。テキストマイニング手法には、文書から特徴的な単語を抽出する特徴語抽出手法と文書間の類似性を調べる類似性抽出手法が存在する。
特徴語抽出手法としては、TF-IDF法が広く知られている。TF-IDF法には様々な変形があるが、いずれにしても「より多く出現し、より少ない文書に偏って出現する単語ほど大きなスコアとなる」ように定義されたスコアを各単語ごとに算出し、これにより算出されたスコアの大きな単語を特徴語として抽出する。
類似性抽出手法では、一般的に、比較対象の文書それぞれに含まれている単語群から特徴ベクトルを作成し、特徴ベクトル同士の内積や距離を算出することにより文書間の類似度を求める。
非特許文献1には、主題語からの話題語抽出手法に関し、検索キーワードとなる主題語に関連性が高い話題語を抽出する技術が記載されている。ここでは、特に“p(主題語)のt(話題語)”というフレーズが多くの場合に成立するということに着目し、まず、“pの”という文字列をクリエとして検索エンジンに送り、「の」以降に続く名詞を抽出して話題語tの候補群とする。次に、話題語tの候補群のランキングから主題語pに関連性が高い話題語tを抽出する。具体的には、主題語pを含む文書群における話題語tを含む文書群の割合、および話題語tを含む文書群における主題語pを含む文書群の割合を求め、それらの割合の積を指標として話題語のランキング化を試みている。
非特許文献2には、ウエブ地域情報の自動要約のための特徴キーワード抽出手法に関し、特徴キーワードの抽出技術を、GIS(Geographic Information System)のような地理的情報を扱う分野へ応用することが記載されている。
特許公報1,2には、特徴語抽出手法に関し、特徴ベクトルを利用して文書群中の単語または単語列の重要度を測る単語重要度計算方法が記載されている。これでは、まず、重要度を計算すべき単語Tを含む部分文書集合D(T)内の単語分布と全文書集合D0内の単語分布の間の距離dを計算する。次に、全文書集合D0からランダム選出された、部分文書集合D(T)と同数の単語数を含む部分集合Dと、全文書集合D0との距離d'の推定値を計算する。そして、距離dとd'を比較し、両者の差を単語の重要度としている。
特許公報3には、類似性抽出手法に関し、入力される各文書と各カテゴリごとに用意された学習文書との類似度を算出し、この類似度から各文書をカテゴライズする情報分類方法が記載されている。これでは、各カテゴリごとに学習文書を用意し、学習文書から得られる単語群の重要度を鑑みて生成された特徴ベクトルを利用して各文書と学習文書との類似度を算出し、この類似度から文書をカテゴライズする。
特開2001−67362号公報 特開2003−99427号公報 特開平11−167581号公報 野田武史 他4名,「主題語からの話題語自動抽出とこれに基づくWeb情報検索」,情報処理学会研究報告2006-DSB-140(II),pp305-311 中戸隆一郎 他1名,「ウェブ地域情報の自動要約のための特徴キーワード抽出」DEWS2005 5-C-03(2005)
本発明は、特に、インターネットなどのネットワーク上に存在する文書から地理的エリアに関する特徴情報を自動的に抽出する方法およびシステムに関するものであるが、これを実現するために、従来の特徴語抽出手法を用いた場合、以下のような課題が生じる。
TF-IDF法をベースとして利用する場合、TF-IDF法では「より多く出現し、より少ない文書に偏って出現する単語ほど大きなスコアとなる」ようにスコアが定義されるので、単語の出現回数がスコアに大きく寄与する。また、同一文書での出現回数が多い単語ほどスコアが大きくなる。
このため、例えば「・・・する。」,「・・・行く。」など、一般的に高頻度で使用される単語のスコアは大きくなる。したがって、地理的エリアと関係しない単語が特徴情報として抽出されてしまい、このような単語を特徴情報から排除することが困難である。また、例えば、スパム的なブログ文書では、同一文書で同じ単語が繰り返し使用されて強調されることが多く、この単語のスコアが大きくなる。したがって、例えば、広告で繰り返し用いられる単語のように、地理的エリアに関係しない単語であっても、それらが特徴情報として抽出されてしまう。
このように、TF-IDF法をベースとして利用した場合、一般的に高頻度で使用される単語や特定の文書内での出現頻度が高い単語のスコアが大きくなる傾向があるので、地理的エリアと関係しない単語が特徴情報として抽出されてしまい、それらを排除することが困難となるという課題が生じる。
非特許文献1の特徴語抽出手法は、“p(主題語)のt(話題語)”というフレーズを含む文を解析対象としている。解析対象を特定の文構造に限定すると、解析に十分な数のサンプルを入手するためのコストおよび負担が大きくなるという課題が生じる。特定の文構造に限定されている手法を一般的な文書からの特徴情報抽出に適用することはできない。
非特許文献2には、特徴キーワードの抽出技術の地理的情報を扱う分野への応用が考えられているが、収集したWebページ集合をクラスタリングし、各クラスタからの特徴キーワード抽出では、TF-IDF法を用いている。
特許公報1,2の特徴語抽出手法によれば、TF-IDF法におけるような単語の出現頻度に起因した課題を排除することができる。しかしながら、解析対象の文書内に出現する全ての単語に関して特徴ベクトルを生成する必要があるので、文書内に含まれる単語数が多くなればなるほど、計算コストが大きくなるという課題が生じる。
特許公報3の類似性抽出手法は、学習文書を予め用意する必要がある。また、算出される類似性は、学習文書と分類対象の文書の間でのものであり、分類対象の文書間での類似度は算出されない。また、地理的エリアに関する特徴情報は、ダイナミックに変化しているので、学習文書を常に最新のものに更新する必要がある。文書間の類似度は、比較する文書それぞれに含まれている単語群から特徴ベクトルを作成し、特徴ベクトル同士の内積や距離から算出できるが、そのための適切な特徴ベクトルを作成する必要がある。
本発明の目的は、インターネットなどのネットワーク上に存在する文書から地理的エリアに関係する特徴情報、さらには類似エリアや類似語を適切に抽出することができる地理的特徴情報抽出方法およびシステムを提供することにある。
上記課題を解決するため、本発明は、地理的なエリア名をキーとして該エリア名を含む複数の文書を取得する文書取得部と、前記文書取得部により取得された全文書を解析対象文書群とし、該解析対象文書群の各文書のデータを品詞に分解する形態素解析部と、各エリア名に対して取得された文書を解析対象エリア文書群とし、前記解析対象文書群に出現する個々の単語について、前記形態素解析部により得られた品詞を参照して個々の単語が出現する文書数を前記解析対象エリア文書群ごとに保持する単語出現文書数保持部と、前記解析対象文書群に出現する個々の単語について、前記解析対象エリア文書群内の、文書総数に対する当該単語を含む文書数の割合を第1の寄与度として算出し、前記解析対象文書群内の、当該単語を含む文書数に対する、当該単語を含む文書群内で当該エリア名を含む文書数の割合を第2の寄与度として算出し、前記第1の寄与度前記第2の寄与度の積として各単語の第1の重要度を各エリア名ごとに算出する第1の重要度算出部と、前記第1の重要度が高い単語あるいは単語群を当該エリアに属する話題語として抽出する話題語抽出部を備えた点に第1の特徴がある。
また、本発明は、さらに、前記解析対象文書群に出現する個々の単語について、前記解析対象文書群内の、文書総数に対する、当該単語を含む文書群内で当該エリア名を含む文書数の割合を各単語の第2の重要度として各エリア名ごとに算出する第2の重要度算出部と、各エリア名ごとの前記第2の重要度の集合を当該エリアの特徴ベクトルとし、各エリア間の特徴ベクトルの類似度をエリア間類似度として算出するエリア間類似度算出部と、前記エリア間類似度に基づいて類似エリアを抽出する類似エリア抽出部を備えた点に第2の特徴がある。
また、本発明は、前記第2の重要度算出部が、前記解析対象文書群内の、文書総数に対する当該単語を含む文書数の割合を第3の寄与度として算出する手段と、前記第2の寄与度と前記第3の寄与度の積を前記第2の重要度として算出する手段を有する点に第3の特徴がある。
また、本発明は、さらに、類似エリア間について、前記エリア間類似度算出部がエリア間類似度を算出する過程で得られる、前記特徴ベクトルの要素である各単語ごとの類似度を保持する単語類似度保持部と、前記単語ごとの類似度に基づいて類似エリア間での類似単語あるいは類似単語群を抽出する類似語抽出部を備えた点に第4の特徴がある。
さらに、本発明は、前記解析対象エリア文書群の文書について、少なくとも重複を排除する文書フィルタ部を備え、該文書フィルタ部を通して得られる全解析対象エリア文書群を前記解析対象文書群とする点に第5の特徴がある。
なお、本発明は、システムとしてだけでなく、各部の機能を実行するステップを備えた方法としても実現できる。
本発明の第1の特徴によれば、地理的なエリア各々についての話題語を抽出できる。ここで、解析対象文書群に出現する個々の単語について、解析対象エリア文書群内の、文書総数に対する当該単語を含む文書数の割合を第1の寄与度として算出し、解析対象文書群内の、当該単語を含む文書数に対する、当該単語を含む文書群内で当該エリア名を含む文書数の割合を第2の寄与度として算出し、第1の寄与度および第2の寄与度から各単語の第1の重要度を各エリア名ごとに算出する。これにより、エリア名をキーとして多くの解析対象文書のサンプルを揃え、解析することができる。また、第1の寄与度と第2の寄与度を文書数の割合として算出し、これを話題語抽出のための指標として導入しているので、特定の文書内に繰り返し出現する単語の影響を低減できる。さらに、第2の寄与度は、エリア間での相対的な単語の重要度を表しており、これを話題語抽出のための指標として導入しているので、全エリアで一般的に使用される単語の影響を低減できる。
また、第2,3の特徴によれば、話題語が類似するエリアを抽出できる。ここで、解析対象文書群に出現する個々の単語について、解析対象文書群内の、文書総数に対する、当該単語を含む文書群内で当該エリア名を含む文書数の割合を各単語の第2の重要度として各エリア名ごとに算出する。この算出は、解析対象文書群内の、総文書数に対する当該単語を含む文書数の割合を第3の寄与度として算出し、第2の寄与度と第3の寄与度の積を第2の重要度とすることと同じである。第2の寄与度には、エリアで共起性が高い単語に対して高い値を与える特性があり、第3の寄与度には、解析対象文書群内の総文書内で使用頻度の高い単語に対して高い値を与える特性がある。したがって、第2の重要度の各エリア名ごとの集合を当該エリアの特徴ベクトルとすることにより、使用頻度が低い単語の影響を低減しつつ、エリア間の類似度を適切に算出できる。
また、第4の特徴によれば、類似エリア間について、類似をもたらす単語あるいは単語群を適切に抽出できる。
さらに、第5の特徴によれば、解析対象エリア文書群中の文書の重複をなくして処理負担を軽減できる。さらにエリア名と関係しない文書領域、名詞や未知語の割合が高い文書領域を解析対象文書群から排除すれば、さらに処理負担を軽減できる。
以下、図面を参照して本発明を説明する。図1は、本発明に係る地理的特徴情報抽出システムの一実施形態を示すブロック図である。本実施形態の地理的特徴情報抽出システム10は、文書取得部11、文書保持部12、文書フィルタ部13、形態素解析部14、単語出現有無保持部15、第1の重要度算出部16、第2の重要度算出部17、単語重要度保持部18、話題語抽出部19、エリア間類似度算出部20、単語類似度保持部21および類似語抽出部22を備える。なお、上記した各部分は、ハードウエアでもソフトウエアでも実現できる。また、本発明は、各部の機能を実行するステップを備えた方法としても実現できる。
文書取得部11は、インターネットなどのネットワーク1に接続されたサーバ2,3,・・・にアクセスし、地理的なエリア名(例えば、渋谷、秋葉原など)をキーとし、該エリア名を含む複数の文書(テキストデータ)を取得する。文書の取得は、異なるエリア名ごとに行う。
文書保持部12は、文書取得部11により取得された複数の文書をエリア名ごとに保持する。以下では、各エリア名で取得された各文書群を解析対象エリア文書群と称し、それらの全体を解析対象文書群と称する。
文書フィルタ部13は、文書取得部11により取得された複数の文書のうち、解析対象としない文書や記載領域を排除する。例えば、解析対象エリア文書群内の同一文書(重複)を排除したり、解析対象文書群内の文書におけるエリア名が記載されている記載領域(例えば、エリア名が含まれる文の前1〜2文ないし後1〜2文の領域)を抽出したり、名詞や未知語の割合が高い記載領域(名詞の割合が極めて高い文書領域は、人名や地名などが単に羅列されている領域と推定される。)を削除したりする。文書フィルタ部13を通して得られる文書を解析対象文書群とする。なお、異なるエリア名で取得された文書は、同一文書であっても異なる文書として取り扱う。
形態素解析部14は、文書フィルタ部13を通して得られる解析対象文書群の各文書を品詞ごとに分解する。文書を品詞ごとに分解する手法は、特定の手法に限られるものではなく、いかなる手法でもよい。この手法は、既知であるので、説明は省略する。
単語出現文書数保持部15は、解析対象文書群に出現する個々の単語について、形態素解析部14で得られた品詞を参照して個々の単語が出現する文書数を解析対象エリア文書群ごとに保持する。
第1の重要度算出部16は、解析対象文書群に出現する個々の単語について、解析対象エリア文書群内の、文書総数に対する当該単語を含む文書数の割合を第1の寄与度として算出し、解析対象文書群内の、当該単語を含む文書数に対する、当該単語を含む文書群内で当該エリア名を含む文書数の割合を第2の寄与度として算出し、第1の寄与度および第2の寄与度から各単語の第1の重要度を各エリア名ごとに算出する。
第2の重要度算出部17は、解析対象文書群に出現する個々の単語について、解析対象文書群内の、文書総数に対する、当該単語を含む文書群内で当該エリア名を含む文書数の割合を各単語の第2の重要度として各エリア名ごとに算出する。
単語重要度保持部18は、第1の重要度および第2の重要度を、エリア名ごとに各単語と関連付けて保持する。
話題語抽出部19は、単語重要度保持部18に保持された第1の重要度に基づき単語をランキングし、重要度が高い単語群を当該エリアに属する話題語として抽出する。これを提示すれば、各エリアの特徴的単語(話題語)あるいは単語群(話題語群)が分かる。
エリア間類似度算出部20は、第2の重要度の各エリア名ごとの集合を当該エリアの特徴ベクトルとし、エリア間での特徴ベクトルの類似度からエリア間類似度を算出する。エリア間類似度に基づいて類似単語群を持つ類似エリアを抽出でき、これを提示すれば、類似エリアが分かる。類似エリアは、類似度が設定値を超えているエリア、あるいは類似度が上位の一定個数のエリアを抽出することにより抽出できる。
単語類似度保持部21は、類似エリア間について、エリア間類似度算出部20がエリア間類似度を算出する過程で得られる、特徴ベクトルの要素である各単語ごとの類似度(単語類似度)を保持する。
類似語抽出部22は、単語類似度に基づいてエリア間の類似をもたらす単語あるいは単語群を抽出する。この単語(単語群)も、類似エリア間での単語ごとの類似度が設定値を超えている単語(単語群)、あるいは類似エリア間での単語ごとの類似度が上位の一定個数の単語(単語群)を抽出することにより抽出できる。この単語(単語群)提示すれば、類似エリアがどの単語(単語群)で類似しているかが分かる。
以下に、第1の重要度算出部16、第2の重要度算出部17、エリア類似度算出部20および類似語抽出部22の処理を具体的に説明する。以下の各記号の意味は、次の通りであり、図2は、各文書数の関係を示す。
ω:対象語(エリア名)(1≦k≦K(Kはエリア名総数))。
D(ω):ωで検索された文書数(解析対象エリア文書群内の文書総数)。
D:全てのωで検索された文書数(解析対象文書群内の文書総数)。
e:解析対象文書群内の文書に含まれる単語(1≦n≦N(Nは単語総数))。
D(e):解析対象エリア文書群内の文書中で、eを含む文書数。
D(e):解析対象文書群内の文書中で、eを含む文書数。
D(ω,e):解析対象文書群内の文書内で、eを含む文書中のωを含む文書数。
S(k,k+1):エリアk,k+1の類似度
第1の重要度算出部16は、第1の寄与度α(k,n)および第2の寄与度β(n,k)を算出し、これらから各単語の重要度(第1の重要度)γ(k,n)を各エリア名ごとに算出する。
第1の寄与度α(k,n)は、解析対象エリア文書群内の文書中でのeの重要度を表すものであり、式(1)で示すように、D(ω)に対するD(e)の割合として算出される。
Figure 0005224453
第2の寄与度β(n,k)は、解析対象文書群内で、eを含む文書中でのωの重要度を表すものでり、式(2)に示すように、D(e)に対するD(ω,e)の割合として算出される。
Figure 0005224453
第1の重要度γ(k,n)は、第1の寄与度α(k,n)と第2の寄与度β(n,k)の積として算出され、D(e)=D(ω,e)であるので、式(3)で示される。
Figure 0005224453
第1の寄与度α(k,n)は、文書数の割合として算出され、特定の文書内に特定の単語が繰り返し出現してもその値は大きくならないので、その影響を低減できる。また、第2の寄与度β(n,k)は、各エリア間での相対的な単語の重要度を表しており、これも文書数の割合として算出され、全エリアで一般的に使用される単語に対してその値は小さくなるので、その影響を低減できる。したがって、式(3)により、各エリアにおける各単語の重要度γ(k,n)を適切に算出できる。
第2の重要度算出部17は、各単語の重要度(第2の重要度)η(k,n)をエリア名ごとに算出する。第2の重要度η(k,n)は、式(4)に示すように、解析対象文書群に出現する個々の単語について、解析対象文書群内の、文書総数Dに対する、当該単語を含む文書群内で当該エリア名を含む文書数D(ω,e)の割合として算出される。各単語の第2の重要度η(k,n)の各エリア名ごとの集合を当該エリアの特徴ベクトルとする。
Figure 0005224453
式(4)で算出される第2の重要度η(k,n)は、式(2)で示される第2の寄与度β(n,k)と式(5)で示される第3の寄与度θ(n)の積β(n,k)×θ(n)と同じであるので、β(n,k)×θ(n)から算出することもできる。第3の寄与度θ(n)は、全てのωで検索された文書でのeを含む文書の重要度を表し、Dに対するD(e)の割合である。
Figure 0005224453
ここで、第2の寄与度β(n,k)には、エリアで共起性が高い単語に対して高い値を与える特性があり、第3の寄与度θ(n)には、解析対象文書群内の総文書内で使用頻度の高い単語に対して高い値を与える特性がある。したがって、第2の重要度η(k,n)の集合は、エリア間類似度を算出するための有効な指標(特徴ベクトル)となる。
エリア間類似度算出部20は、式(6)により、エリアk,k+1間の類似度S(k,k+1)を算出する。式(6)は、エリアkとエリアk+1の間で、同じ単語n同士の第2の重要度の差分絶対値|η(k+1,n)-η(k,n)|を全ての単語(1≦n≦N)について算出し、それらを加算することで、エリアk,k+1間の類似度(距離)を求めること、すなわち、各エリアの特徴ベクトル(第2の重要度の集合)の類似度をエリアk,k+1間の類似度S(k,k+1)とすることを示している。図3は、この関係を示す。式(6)の類似度S(k,k+1)は、エリア間の特徴ベクトルが類似する程、小さい値となる。
Figure 0005224453
類似語抽出部22は、類似エリア間について、特徴ベクトルの要素である各単語ごとの類似度に基づいて類似単語あるいは単語群を抽出する。各単語ごとの類似度は、類似度算出部20がエリア間類似度を算出する過程で、第2の重要度の差分絶対値|η(k+1,n)-η(k,n)|として既に算出されている。類似語抽出部22では、その差分絶対値に基づいて類似単語(単語群)を抽出できる。この単語(単語群)は、差分絶対値|η(k+1,n)-η(k,n)|が設定値より小さい単語(単語群)、あるいは差分絶対値|η(k+1,n)-η(k,n)|が最小の単語から一定個数の単語(単語群)を抽出することにより抽出できる。
以上、実施形態を説明したが、本発明は、上記実施形態に限定されるものではない。例えば、地理的特徴情報抽出システムは、文書取得部により収集された文書から各エリアの地理的特徴を表す単語(話題語)を抽出する構成を備えるだけでもよい。これに加えて、エリア間類似度算出部や類似語抽出部を備えれば、類似エリアやその間の類似をもたらす単語(話題語)を抽出できるので、ユーザにとって有益な地理的特徴情報を提供することができる。
本発明に係る地理的特徴情報抽出システムの一実施形態を示すブロック図である。 各文書数の関係を示す説明図である。 エリア間類似度の算出を示す説明図である。
符号の説明
1・・・ネットワーク、2,3・・・サーバ、10・・・地理的特徴情報抽出システム、11・・・文書取得部、12・・・文書保持部、13・・・文書フィルタ部、14・・・形態素解析部、15・・・単語出現文書数保持部、16・・・第1の重要度算出部、17・・・第2の重要度算出部、18・・・単語重要度保持部、19・・・話題語抽出部、20・・・エリア間類似度算出部、21・・・単語類似度保持部、22・・・類似語抽出部

Claims (8)

  1. 地理的なエリア名をキーとして該エリア名を含む複数の文書を取得する第1のステップと、
    前記第1のステップで取得された全文書を解析対象文書群とし、該解析対象文書群の各文書のデータを品詞に分解する第2のステップと、
    各エリア名に対して取得された文書を解析対象エリア文書群とし、前記解析対象文書群に出現する個々の単語について、前記第2のステップにより得られた品詞を参照して個々の単語が出現する文書数を前記解析対象エリア文書群ごとに保持する第3のステップと、
    前記解析対象文書群に出現する個々の単語について、前記解析対象エリア文書群内の、文書総数に対する当該単語を含む文書数の割合を第1の寄与度として算出し、前記解析対象文書群内の、当該単語を含む文書数に対する、当該単語を含む文書群内で当該エリア名を含む文書数の割合を第2の寄与度として算出し、前記第1の寄与度前記第2の寄与度の積として各単語の第1の重要度を各エリア名ごとに算出する第4のステップと、
    前記第1の重要度が高い単語あるいは単語群を当該エリアに属する話題語として抽出する第5のステップを備えたことを特徴とする地理的特徴情報抽出方法。
  2. さらに、前記解析対象文書群に出現する個々の単語について、前記解析対象文書群内の、文書総数に対する、当該単語を含む文書群内で当該エリア名を含む文書数の割合を各単語の第2の重要度として各エリア名ごとに算出する第6のステップと、
    各エリア名ごとの前記第2の重要度の集合を当該エリアの特徴ベクトルとし、各エリア間の特徴ベクトルの類似度をエリア間類似度として算出する第7のステップと、
    前記エリア間類似度に基づいて類似エリアを抽出する第8のステップを備えたことを特徴とする請求項1記載の地理的特徴情報抽出方法。
  3. さらに、類似エリア間について、前記第7のステップでエリア間類似度を算出する過程で得られる、前記特徴ベクトルの要素である各単語ごとの類似度を保持する第9のステップと、
    前記単語ごとの類似度に基づいて類似エリア間での類似単語あるいは類似単語群を抽出する第10のステップを備えたことを特徴とする請求項2記載の地理的特徴情報抽出方法。
  4. 地理的なエリア名をキーとして該エリア名を含む複数の文書を取得する文書取得部と、
    前記文書取得部により取得された全文書を解析対象文書群とし、該解析対象文書群の各文書のデータを品詞に分解する形態素解析部と、
    各エリア名に対して取得された文書を解析対象エリア文書群とし、前記解析対象文書群に出現する個々の単語について、前記形態素解析部により得られた品詞を参照して前記解析対象エリア文書群ごとに個々の単語が出現する文書数を前記解析対象エリア文書群ごとに保持する単語出現文書数保持部と、
    前記解析対象文書群に出現する個々の単語について、前記解析対象エリア文書群内の、文書総数に対する当該単語を含む文書数の割合を第1の寄与度として算出し、前記解析対象文書群内の、当該単語を含む文書数に対する、当該単語を含む文書群内で当該エリア名を含む文書数の割合を第2の寄与度として算出し、前記第1の寄与度前記第2の寄与度の積として各単語の第1の重要度を各エリア名ごとに算出する第1の重要度算出部と、
    前記第1の重要度が高い単語あるいは単語群を当該エリアに属する話題語として抽出する話題語抽出部を備えたことを特徴とする地理的特徴情報抽出システム。
  5. さらに、前記解析対象文書群に出現する個々の単語について、前記解析対象文書群内の、文書総数に対する、当該単語を含む文書群内で当該エリア名を含む文書数の割合を各単語の第2の重要度として各エリア名ごとに算出する第2の重要度算出部と、
    各エリア名ごとの前記第2の重要度の集合を当該エリアの特徴ベクトルとし、各エリア間の特徴ベクトルの類似度をエリア間類似度として算出するエリア間類似度算出部と、
    前記エリア間類似度に基づいて類似エリアを抽出する類似エリア抽出部を備えたことを特徴とする請求項4記載の地理的特徴情報抽出システム。
  6. 前記第2の重要度算出部は、前記解析対象文書群内の、文書総数に対する当該単語を含む文書数の割合を第3の寄与度として算出する手段と、前記第2の寄与度と前記第3の寄与度の積を前記第2の重要度として算出する手段を有することを特徴とする請求項5記載の地理的特徴情報抽出システム。
  7. さらに、類似エリア間について、前記エリア間類似度算出部がエリア間類似度を算出する過程で得られる、前記特徴ベクトルの要素である各単語ごとの類似度を保持する単語類似度保持部と、
    前記単語ごとの類似度に基づいて類似エリア間での類似単語あるいは類似単語群を抽出する類似語抽出部を備えたことを特徴とする請求項記載5または6に記載の地理的特徴情報抽出システム。
  8. 前記解析対象エリア文書群の文書について、少なくとも重複を排除する文書フィルタ部を備え、該文書フィルタ部を通して得られる全解析対象エリア文書群を前記解析対象文書群とすることを特徴とする請求項4ないし7のいずれかに記載の地理的特徴情報抽出システム。
JP2008187212A 2008-07-18 2008-07-18 地理的特徴情報抽出方法およびシステム Expired - Fee Related JP5224453B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008187212A JP5224453B2 (ja) 2008-07-18 2008-07-18 地理的特徴情報抽出方法およびシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008187212A JP5224453B2 (ja) 2008-07-18 2008-07-18 地理的特徴情報抽出方法およびシステム

Publications (2)

Publication Number Publication Date
JP2010026773A JP2010026773A (ja) 2010-02-04
JP5224453B2 true JP5224453B2 (ja) 2013-07-03

Family

ID=41732553

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008187212A Expired - Fee Related JP5224453B2 (ja) 2008-07-18 2008-07-18 地理的特徴情報抽出方法およびシステム

Country Status (1)

Country Link
JP (1) JP5224453B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5351123B2 (ja) * 2010-10-21 2013-11-27 日本電信電話株式会社 文書検索キーワード提示装置および文書検索キーワード提示プログラム
JP5731940B2 (ja) * 2011-09-29 2015-06-10 株式会社Nttドコモ テキスト位置判定装置及びテキスト位置判定方法
JP5766104B2 (ja) * 2011-12-06 2015-08-19 株式会社Nttドコモ 情報提供装置及び情報提供方法
JP5901502B2 (ja) * 2012-11-27 2016-04-13 日本電信電話株式会社 居住地推定用データ生成装置、居住地推定用データ生成方法、及びプログラム
KR102255035B1 (ko) * 2019-06-26 2021-05-24 주식회사 코이션 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법

Also Published As

Publication number Publication date
JP2010026773A (ja) 2010-02-04

Similar Documents

Publication Publication Date Title
US9305083B2 (en) Author disambiguation
US10417269B2 (en) Systems and methods for verbatim-text mining
US7424421B2 (en) Word collection method and system for use in word-breaking
CN107918644B (zh) 声誉管理框架内的新闻议题分析方法和实施系统
US8832126B2 (en) Custodian suggestion for efficient legal e-discovery
CN104484380A (zh) 个性化搜索方法及装置
US20160335367A1 (en) Entity disambiguation using multisource learning
JP2014120053A (ja) 質問応答装置、方法、及びプログラム
JP5224453B2 (ja) 地理的特徴情報抽出方法およびシステム
Nasser et al. n-Gram based language processing using Twitter dataset to identify COVID-19 patients
Amdouni et al. Web-based recruiting
Dumani et al. Quality-aware ranking of arguments
JP6867963B2 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
JP5251099B2 (ja) 用語共起度抽出装置、用語共起度抽出方法及び用語共起度抽出プログラム
JP4853915B2 (ja) 検索システム
MM et al. Constructing twitter corpus of Iraqi Arabic Dialect (CIAD) for sentiment analysis
CN107818091B (zh) 文档处理方法及装置
US8886651B1 (en) Thematic clustering
Panchenko et al. Large-scale parallel matching of social network profiles
Figueroa et al. Collaborative ranking between supervised and unsupervised approaches for keyphrase extraction
Sahmoudi et al. Towards a linguistic patterns for arabic keyphrases extraction
CN113934910A (zh) 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法
Kumar et al. Enterprise analysis through opinion mining
WO2019132648A1 (en) System and method for identifying concern evolution within temporal and geospatial windows
Alsulami et al. Extracting attributes for twitter hashtag communities

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121004

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121017

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130306

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130307

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160322

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees