JP5224453B2

JP5224453B2 - 地理的特徴情報抽出方法およびシステム

Info

Publication number: JP5224453B2
Application number: JP2008187212A
Authority: JP
Inventors: 慎司太田
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2008-07-18
Filing date: 2008-07-18
Publication date: 2013-07-03
Anticipated expiration: 2028-07-18
Also published as: JP2010026773A

Description

本発明は、地理的特徴情報抽出方法およびシステムに関し、特に、インターネットなどのネットワーク上に存在する文書(テキストデータ)から地理的エリアに関する特徴情報を抽出する地理的特徴情報抽出方法およびシステムに関する。

インターネット上のウエブ(Web)やブログ(Blog)などの文書からテキストマイニング手法を駆使して有用な知見を得る試みがなされている。テキストマイニング手法には、文書から特徴的な単語を抽出する特徴語抽出手法と文書間の類似性を調べる類似性抽出手法が存在する。

特徴語抽出手法としては、TF-IDF法が広く知られている。TF-IDF法には様々な変形があるが、いずれにしても「より多く出現し、より少ない文書に偏って出現する単語ほど大きなスコアとなる」ように定義されたスコアを各単語ごとに算出し、これにより算出されたスコアの大きな単語を特徴語として抽出する。

類似性抽出手法では、一般的に、比較対象の文書それぞれに含まれている単語群から特徴ベクトルを作成し、特徴ベクトル同士の内積や距離を算出することにより文書間の類似度を求める。

非特許文献１には、主題語からの話題語抽出手法に関し、検索キーワードとなる主題語に関連性が高い話題語を抽出する技術が記載されている。ここでは、特に“p(主題語)のt(話題語)”というフレーズが多くの場合に成立するということに着目し、まず、“pの”という文字列をクリエとして検索エンジンに送り、「の」以降に続く名詞を抽出して話題語tの候補群とする。次に、話題語tの候補群のランキングから主題語pに関連性が高い話題語tを抽出する。具体的には、主題語pを含む文書群における話題語tを含む文書群の割合、および話題語tを含む文書群における主題語pを含む文書群の割合を求め、それらの割合の積を指標として話題語のランキング化を試みている。

非特許文献２には、ウエブ地域情報の自動要約のための特徴キーワード抽出手法に関し、特徴キーワードの抽出技術を、GIS(Geographic Information System)のような地理的情報を扱う分野へ応用することが記載されている。

特許公報１，２には、特徴語抽出手法に関し、特徴ベクトルを利用して文書群中の単語または単語列の重要度を測る単語重要度計算方法が記載されている。これでは、まず、重要度を計算すべき単語Tを含む部分文書集合D(T)内の単語分布と全文書集合D0内の単語分布の間の距離dを計算する。次に、全文書集合D0からランダム選出された、部分文書集合D(T)と同数の単語数を含む部分集合Dと、全文書集合D0との距離d'の推定値を計算する。そして、距離dとd'を比較し、両者の差を単語の重要度としている。

特許公報３には、類似性抽出手法に関し、入力される各文書と各カテゴリごとに用意された学習文書との類似度を算出し、この類似度から各文書をカテゴライズする情報分類方法が記載されている。これでは、各カテゴリごとに学習文書を用意し、学習文書から得られる単語群の重要度を鑑みて生成された特徴ベクトルを利用して各文書と学習文書との類似度を算出し、この類似度から文書をカテゴライズする。
特開２００１−６７３６２号公報特開２００３−９９４２７号公報特開平１１−１６７５８１号公報野田武史他4名,「主題語からの話題語自動抽出とこれに基づくWeb情報検索」,情報処理学会研究報告2006-DSB-140(II),pp305-311 中戸隆一郎他1名,「ウェブ地域情報の自動要約のための特徴キーワード抽出」DEWS2005 5-C-03(2005)

本発明は、特に、インターネットなどのネットワーク上に存在する文書から地理的エリアに関する特徴情報を自動的に抽出する方法およびシステムに関するものであるが、これを実現するために、従来の特徴語抽出手法を用いた場合、以下のような課題が生じる。

TF-IDF法をベースとして利用する場合、TF-IDF法では「より多く出現し、より少ない文書に偏って出現する単語ほど大きなスコアとなる」ようにスコアが定義されるので、単語の出現回数がスコアに大きく寄与する。また、同一文書での出現回数が多い単語ほどスコアが大きくなる。

このため、例えば「・・・する。」，「・・・行く。」など、一般的に高頻度で使用される単語のスコアは大きくなる。したがって、地理的エリアと関係しない単語が特徴情報として抽出されてしまい、このような単語を特徴情報から排除することが困難である。また、例えば、スパム的なブログ文書では、同一文書で同じ単語が繰り返し使用されて強調されることが多く、この単語のスコアが大きくなる。したがって、例えば、広告で繰り返し用いられる単語のように、地理的エリアに関係しない単語であっても、それらが特徴情報として抽出されてしまう。

このように、TF-IDF法をベースとして利用した場合、一般的に高頻度で使用される単語や特定の文書内での出現頻度が高い単語のスコアが大きくなる傾向があるので、地理的エリアと関係しない単語が特徴情報として抽出されてしまい、それらを排除することが困難となるという課題が生じる。

非特許文献１の特徴語抽出手法は、“p(主題語)のt(話題語)”というフレーズを含む文を解析対象としている。解析対象を特定の文構造に限定すると、解析に十分な数のサンプルを入手するためのコストおよび負担が大きくなるという課題が生じる。特定の文構造に限定されている手法を一般的な文書からの特徴情報抽出に適用することはできない。

非特許文献２には、特徴キーワードの抽出技術の地理的情報を扱う分野への応用が考えられているが、収集したWebページ集合をクラスタリングし、各クラスタからの特徴キーワード抽出では、TF-IDF法を用いている。

特許公報１，２の特徴語抽出手法によれば、TF-IDF法におけるような単語の出現頻度に起因した課題を排除することができる。しかしながら、解析対象の文書内に出現する全ての単語に関して特徴ベクトルを生成する必要があるので、文書内に含まれる単語数が多くなればなるほど、計算コストが大きくなるという課題が生じる。

特許公報３の類似性抽出手法は、学習文書を予め用意する必要がある。また、算出される類似性は、学習文書と分類対象の文書の間でのものであり、分類対象の文書間での類似度は算出されない。また、地理的エリアに関する特徴情報は、ダイナミックに変化しているので、学習文書を常に最新のものに更新する必要がある。文書間の類似度は、比較する文書それぞれに含まれている単語群から特徴ベクトルを作成し、特徴ベクトル同士の内積や距離から算出できるが、そのための適切な特徴ベクトルを作成する必要がある。

本発明の目的は、インターネットなどのネットワーク上に存在する文書から地理的エリアに関係する特徴情報、さらには類似エリアや類似語を適切に抽出することができる地理的特徴情報抽出方法およびシステムを提供することにある。

上記課題を解決するため、本発明は、地理的なエリア名をキーとして該エリア名を含む複数の文書を取得する文書取得部と、前記文書取得部により取得された全文書を解析対象文書群とし、該解析対象文書群の各文書のデータを品詞に分解する形態素解析部と、各エリア名に対して取得された文書を解析対象エリア文書群とし、前記解析対象文書群に出現する個々の単語について、前記形態素解析部により得られた品詞を参照して個々の単語が出現する文書数を前記解析対象エリア文書群ごとに保持する単語出現文書数保持部と、前記解析対象文書群に出現する個々の単語について、前記解析対象エリア文書群内の、文書総数に対する当該単語を含む文書数の割合を第１の寄与度として算出し、前記解析対象文書群内の、当該単語を含む文書数に対する、当該単語を含む文書群内で当該エリア名を含む文書数の割合を第２の寄与度として算出し、前記第１の寄与度と前記第２の寄与度の積として各単語の第１の重要度を各エリア名ごとに算出する第１の重要度算出部と、前記第１の重要度が高い単語あるいは単語群を当該エリアに属する話題語として抽出する話題語抽出部を備えた点に第１の特徴がある。

また、本発明は、さらに、前記解析対象文書群に出現する個々の単語について、前記解析対象文書群内の、文書総数に対する、当該単語を含む文書群内で当該エリア名を含む文書数の割合を各単語の第２の重要度として各エリア名ごとに算出する第２の重要度算出部と、各エリア名ごとの前記第２の重要度の集合を当該エリアの特徴ベクトルとし、各エリア間の特徴ベクトルの類似度をエリア間類似度として算出するエリア間類似度算出部と、前記エリア間類似度に基づいて類似エリアを抽出する類似エリア抽出部を備えた点に第２の特徴がある。

また、本発明は、前記第２の重要度算出部が、前記解析対象文書群内の、文書総数に対する当該単語を含む文書数の割合を第３の寄与度として算出する手段と、前記第２の寄与度と前記第３の寄与度の積を前記第２の重要度として算出する手段を有する点に第３の特徴がある。

また、本発明は、さらに、類似エリア間について、前記エリア間類似度算出部がエリア間類似度を算出する過程で得られる、前記特徴ベクトルの要素である各単語ごとの類似度を保持する単語類似度保持部と、前記単語ごとの類似度に基づいて類似エリア間での類似単語あるいは類似単語群を抽出する類似語抽出部を備えた点に第４の特徴がある。

さらに、本発明は、前記解析対象エリア文書群の文書について、少なくとも重複を排除する文書フィルタ部を備え、該文書フィルタ部を通して得られる全解析対象エリア文書群を前記解析対象文書群とする点に第５の特徴がある。

なお、本発明は、システムとしてだけでなく、各部の機能を実行するステップを備えた方法としても実現できる。

本発明の第１の特徴によれば、地理的なエリア各々についての話題語を抽出できる。ここで、解析対象文書群に出現する個々の単語について、解析対象エリア文書群内の、文書総数に対する当該単語を含む文書数の割合を第１の寄与度として算出し、解析対象文書群内の、当該単語を含む文書数に対する、当該単語を含む文書群内で当該エリア名を含む文書数の割合を第２の寄与度として算出し、第１の寄与度および第２の寄与度から各単語の第１の重要度を各エリア名ごとに算出する。これにより、エリア名をキーとして多くの解析対象文書のサンプルを揃え、解析することができる。また、第１の寄与度と第２の寄与度を文書数の割合として算出し、これを話題語抽出のための指標として導入しているので、特定の文書内に繰り返し出現する単語の影響を低減できる。さらに、第２の寄与度は、エリア間での相対的な単語の重要度を表しており、これを話題語抽出のための指標として導入しているので、全エリアで一般的に使用される単語の影響を低減できる。

また、第２，３の特徴によれば、話題語が類似するエリアを抽出できる。ここで、解析対象文書群に出現する個々の単語について、解析対象文書群内の、文書総数に対する、当該単語を含む文書群内で当該エリア名を含む文書数の割合を各単語の第２の重要度として各エリア名ごとに算出する。この算出は、解析対象文書群内の、総文書数に対する当該単語を含む文書数の割合を第３の寄与度として算出し、第２の寄与度と第３の寄与度の積を第２の重要度とすることと同じである。第２の寄与度には、エリアで共起性が高い単語に対して高い値を与える特性があり、第３の寄与度には、解析対象文書群内の総文書内で使用頻度の高い単語に対して高い値を与える特性がある。したがって、第２の重要度の各エリア名ごとの集合を当該エリアの特徴ベクトルとすることにより、使用頻度が低い単語の影響を低減しつつ、エリア間の類似度を適切に算出できる。

また、第４の特徴によれば、類似エリア間について、類似をもたらす単語あるいは単語群を適切に抽出できる。

さらに、第５の特徴によれば、解析対象エリア文書群中の文書の重複をなくして処理負担を軽減できる。さらにエリア名と関係しない文書領域、名詞や未知語の割合が高い文書領域を解析対象文書群から排除すれば、さらに処理負担を軽減できる。

以下、図面を参照して本発明を説明する。図１は、本発明に係る地理的特徴情報抽出システムの一実施形態を示すブロック図である。本実施形態の地理的特徴情報抽出システム10は、文書取得部11、文書保持部12、文書フィルタ部13、形態素解析部14、単語出現有無保持部15、第１の重要度算出部16、第２の重要度算出部17、単語重要度保持部18、話題語抽出部19、エリア間類似度算出部20、単語類似度保持部21および類似語抽出部22を備える。なお、上記した各部分は、ハードウエアでもソフトウエアでも実現できる。また、本発明は、各部の機能を実行するステップを備えた方法としても実現できる。

文書取得部11は、インターネットなどのネットワーク1に接続されたサーバ2,3,・・・にアクセスし、地理的なエリア名(例えば、渋谷、秋葉原など)をキーとし、該エリア名を含む複数の文書(テキストデータ)を取得する。文書の取得は、異なるエリア名ごとに行う。

文書保持部12は、文書取得部11により取得された複数の文書をエリア名ごとに保持する。以下では、各エリア名で取得された各文書群を解析対象エリア文書群と称し、それらの全体を解析対象文書群と称する。

文書フィルタ部13は、文書取得部11により取得された複数の文書のうち、解析対象としない文書や記載領域を排除する。例えば、解析対象エリア文書群内の同一文書(重複)を排除したり、解析対象文書群内の文書におけるエリア名が記載されている記載領域(例えば、エリア名が含まれる文の前１〜２文ないし後１〜２文の領域)を抽出したり、名詞や未知語の割合が高い記載領域(名詞の割合が極めて高い文書領域は、人名や地名などが単に羅列されている領域と推定される。)を削除したりする。文書フィルタ部13を通して得られる文書を解析対象文書群とする。なお、異なるエリア名で取得された文書は、同一文書であっても異なる文書として取り扱う。

形態素解析部14は、文書フィルタ部13を通して得られる解析対象文書群の各文書を品詞ごとに分解する。文書を品詞ごとに分解する手法は、特定の手法に限られるものではなく、いかなる手法でもよい。この手法は、既知であるので、説明は省略する。

単語出現文書数保持部15は、解析対象文書群に出現する個々の単語について、形態素解析部14で得られた品詞を参照して個々の単語が出現する文書数を解析対象エリア文書群ごとに保持する。

第１の重要度算出部16は、解析対象文書群に出現する個々の単語について、解析対象エリア文書群内の、文書総数に対する当該単語を含む文書数の割合を第１の寄与度として算出し、解析対象文書群内の、当該単語を含む文書数に対する、当該単語を含む文書群内で当該エリア名を含む文書数の割合を第２の寄与度として算出し、第１の寄与度および第２の寄与度から各単語の第１の重要度を各エリア名ごとに算出する。

第２の重要度算出部17は、解析対象文書群に出現する個々の単語について、解析対象文書群内の、文書総数に対する、当該単語を含む文書群内で当該エリア名を含む文書数の割合を各単語の第２の重要度として各エリア名ごとに算出する。

単語重要度保持部18は、第１の重要度および第２の重要度を、エリア名ごとに各単語と関連付けて保持する。

話題語抽出部19は、単語重要度保持部18に保持された第１の重要度に基づき単語をランキングし、重要度が高い単語群を当該エリアに属する話題語として抽出する。これを提示すれば、各エリアの特徴的単語(話題語)あるいは単語群(話題語群)が分かる。

エリア間類似度算出部20は、第２の重要度の各エリア名ごとの集合を当該エリアの特徴ベクトルとし、エリア間での特徴ベクトルの類似度からエリア間類似度を算出する。エリア間類似度に基づいて類似単語群を持つ類似エリアを抽出でき、これを提示すれば、類似エリアが分かる。類似エリアは、類似度が設定値を超えているエリア、あるいは類似度が上位の一定個数のエリアを抽出することにより抽出できる。

単語類似度保持部21は、類似エリア間について、エリア間類似度算出部20がエリア間類似度を算出する過程で得られる、特徴ベクトルの要素である各単語ごとの類似度(単語類似度)を保持する。

類似語抽出部22は、単語類似度に基づいてエリア間の類似をもたらす単語あるいは単語群を抽出する。この単語(単語群)も、類似エリア間での単語ごとの類似度が設定値を超えている単語(単語群)、あるいは類似エリア間での単語ごとの類似度が上位の一定個数の単語(単語群)を抽出することにより抽出できる。この単語(単語群)提示すれば、類似エリアがどの単語(単語群)で類似しているかが分かる。

以下に、第１の重要度算出部16、第２の重要度算出部17、エリア類似度算出部20および類似語抽出部22の処理を具体的に説明する。以下の各記号の意味は、次の通りであり、図２は、各文書数の関係を示す。
ω_ｋ：対象語(エリア名)(1≦k≦K(Kはエリア名総数))。
D(ω_ｋ)：ω_ｋで検索された文書数(解析対象エリア文書群内の文書総数)。
D：全てのω_ｋで検索された文書数(解析対象文書群内の文書総数)。
e_ｎ：解析対象文書群内の文書に含まれる単語(1≦n≦N(Nは単語総数))。
D(e_ｎ,ω_ｋ)：解析対象エリア文書群内の文書中で、e_ｎを含む文書数。
D(e_ｎ)：解析対象文書群内の文書中で、e_ｎを含む文書数。
D(ω_ｋ,e_ｎ)：解析対象文書群内の文書内で、e_ｎを含む文書中のω_ｋを含む文書数。
S(k,k+1)：エリアk,k+1の類似度

第１の重要度算出部16は、第１の寄与度α(k,n)および第２の寄与度β(n,k)を算出し、これらから各単語の重要度(第１の重要度)γ(k,n)を各エリア名ごとに算出する。

第１の寄与度α(k,n)は、解析対象エリア文書群内の文書中でのe_ｎの重要度を表すものであり、式(1)で示すように、D(ω_ｋ)に対するD(e_ｎ,ω_ｋ)の割合として算出される。

第２の寄与度β(n,k)は、解析対象文書群内で、e_ｎを含む文書中でのω_ｋの重要度を表すものでり、式(2)に示すように、D(e_ｎ)に対するD(ω_ｋ,e_ｎ)の割合として算出される。

第１の重要度γ(k,n)は、第１の寄与度α(k,n)と第２の寄与度β(n,k)の積として算出され、D(e_ｎ,ω_ｋ)＝D(ω_ｋ,e_ｎ)であるので、式(3)で示される。

第１の寄与度α(k,n)は、文書数の割合として算出され、特定の文書内に特定の単語が繰り返し出現してもその値は大きくならないので、その影響を低減できる。また、第２の寄与度β(n,k)は、各エリア間での相対的な単語の重要度を表しており、これも文書数の割合として算出され、全エリアで一般的に使用される単語に対してその値は小さくなるので、その影響を低減できる。したがって、式(3)により、各エリアにおける各単語の重要度γ(k,n)を適切に算出できる。

第２の重要度算出部17は、各単語の重要度(第２の重要度)η(k,n)をエリア名ごとに算出する。第２の重要度η(k,n)は、式(4)に示すように、解析対象文書群に出現する個々の単語について、解析対象文書群内の、文書総数Dに対する、当該単語を含む文書群内で当該エリア名を含む文書数D(ω_ｋ,e_ｎ)の割合として算出される。各単語の第２の重要度η(k,n)の各エリア名ごとの集合を当該エリアの特徴ベクトルとする。

式(4)で算出される第２の重要度η(k,n)は、式(2)で示される第２の寄与度β(n,k)と式(5)で示される第３の寄与度θ(n)の積β(n,k)×θ(n)と同じであるので、β(n,k)×θ(n)から算出することもできる。第３の寄与度θ(n)は、全てのω_ｋで検索された文書でのe_ｎを含む文書の重要度を表し、Dに対するD(e_ｎ)の割合である。

ここで、第２の寄与度β(n,k)には、エリアで共起性が高い単語に対して高い値を与える特性があり、第３の寄与度θ(n)には、解析対象文書群内の総文書内で使用頻度の高い単語に対して高い値を与える特性がある。したがって、第２の重要度η(k,n)の集合は、エリア間類似度を算出するための有効な指標(特徴ベクトル)となる。

エリア間類似度算出部20は、式(6)により、エリアk,k+1間の類似度S(k,k+1)を算出する。式(6)は、エリアkとエリアk+1の間で、同じ単語n同士の第２の重要度の差分絶対値｜η(k+1,n)-η(k,n)｜を全ての単語(1≦n≦N)について算出し、それらを加算することで、エリアk,k+1間の類似度(距離)を求めること、すなわち、各エリアの特徴ベクトル(第２の重要度の集合)の類似度をエリアk,k+1間の類似度S(k,k+1)とすることを示している。図３は、この関係を示す。式(6)の類似度S(k,k+1)は、エリア間の特徴ベクトルが類似する程、小さい値となる。

類似語抽出部22は、類似エリア間について、特徴ベクトルの要素である各単語ごとの類似度に基づいて類似単語あるいは単語群を抽出する。各単語ごとの類似度は、類似度算出部20がエリア間類似度を算出する過程で、第２の重要度の差分絶対値｜η(k+1,n)-η(k,n)｜として既に算出されている。類似語抽出部22では、その差分絶対値に基づいて類似単語(単語群)を抽出できる。この単語(単語群)は、差分絶対値｜η(k+1,n)-η(k,n)｜が設定値より小さい単語(単語群)、あるいは差分絶対値｜η(k+1,n)-η(k,n)｜が最小の単語から一定個数の単語(単語群)を抽出することにより抽出できる。

以上、実施形態を説明したが、本発明は、上記実施形態に限定されるものではない。例えば、地理的特徴情報抽出システムは、文書取得部により収集された文書から各エリアの地理的特徴を表す単語(話題語)を抽出する構成を備えるだけでもよい。これに加えて、エリア間類似度算出部や類似語抽出部を備えれば、類似エリアやその間の類似をもたらす単語(話題語)を抽出できるので、ユーザにとって有益な地理的特徴情報を提供することができる。

本発明に係る地理的特徴情報抽出システムの一実施形態を示すブロック図である。各文書数の関係を示す説明図である。エリア間類似度の算出を示す説明図である。

符号の説明

1・・・ネットワーク、2,3・・・サーバ、10・・・地理的特徴情報抽出システム、11・・・文書取得部、12・・・文書保持部、13・・・文書フィルタ部、14・・・形態素解析部、15・・・単語出現文書数保持部、16・・・第１の重要度算出部、17・・・第２の重要度算出部、18・・・単語重要度保持部、19・・・話題語抽出部、20・・・エリア間類似度算出部、21・・・単語類似度保持部、22・・・類似語抽出部

Claims

地理的なエリア名をキーとして該エリア名を含む複数の文書を取得する第１のステップと、
前記第１のステップで取得された全文書を解析対象文書群とし、該解析対象文書群の各文書のデータを品詞に分解する第２のステップと、
各エリア名に対して取得された文書を解析対象エリア文書群とし、前記解析対象文書群に出現する個々の単語について、前記第２のステップにより得られた品詞を参照して個々の単語が出現する文書数を前記解析対象エリア文書群ごとに保持する第３のステップと、
前記解析対象文書群に出現する個々の単語について、前記解析対象エリア文書群内の、文書総数に対する当該単語を含む文書数の割合を第１の寄与度として算出し、前記解析対象文書群内の、当該単語を含む文書数に対する、当該単語を含む文書群内で当該エリア名を含む文書数の割合を第２の寄与度として算出し、前記第１の寄与度と前記第２の寄与度の積として各単語の第１の重要度を各エリア名ごとに算出する第４のステップと、
前記第１の重要度が高い単語あるいは単語群を当該エリアに属する話題語として抽出する第５のステップを備えたことを特徴とする地理的特徴情報抽出方法。
さらに、前記解析対象文書群に出現する個々の単語について、前記解析対象文書群内の、文書総数に対する、当該単語を含む文書群内で当該エリア名を含む文書数の割合を各単語の第２の重要度として各エリア名ごとに算出する第６のステップと、
各エリア名ごとの前記第２の重要度の集合を当該エリアの特徴ベクトルとし、各エリア間の特徴ベクトルの類似度をエリア間類似度として算出する第７のステップと、
前記エリア間類似度に基づいて類似エリアを抽出する第８のステップを備えたことを特徴とする請求項１記載の地理的特徴情報抽出方法。
さらに、類似エリア間について、前記第７のステップでエリア間類似度を算出する過程で得られる、前記特徴ベクトルの要素である各単語ごとの類似度を保持する第９のステップと、
前記単語ごとの類似度に基づいて類似エリア間での類似単語あるいは類似単語群を抽出する第１０のステップを備えたことを特徴とする請求項２記載の地理的特徴情報抽出方法。
地理的なエリア名をキーとして該エリア名を含む複数の文書を取得する文書取得部と、
前記文書取得部により取得された全文書を解析対象文書群とし、該解析対象文書群の各文書のデータを品詞に分解する形態素解析部と、
各エリア名に対して取得された文書を解析対象エリア文書群とし、前記解析対象文書群に出現する個々の単語について、前記形態素解析部により得られた品詞を参照して前記解析対象エリア文書群ごとに個々の単語が出現する文書数を前記解析対象エリア文書群ごとに保持する単語出現文書数保持部と、
前記解析対象文書群に出現する個々の単語について、前記解析対象エリア文書群内の、文書総数に対する当該単語を含む文書数の割合を第１の寄与度として算出し、前記解析対象文書群内の、当該単語を含む文書数に対する、当該単語を含む文書群内で当該エリア名を含む文書数の割合を第２の寄与度として算出し、前記第１の寄与度と前記第２の寄与度の積として各単語の第１の重要度を各エリア名ごとに算出する第１の重要度算出部と、
前記第１の重要度が高い単語あるいは単語群を当該エリアに属する話題語として抽出する話題語抽出部を備えたことを特徴とする地理的特徴情報抽出システム。
さらに、前記解析対象文書群に出現する個々の単語について、前記解析対象文書群内の、文書総数に対する、当該単語を含む文書群内で当該エリア名を含む文書数の割合を各単語の第２の重要度として各エリア名ごとに算出する第２の重要度算出部と、
各エリア名ごとの前記第２の重要度の集合を当該エリアの特徴ベクトルとし、各エリア間の特徴ベクトルの類似度をエリア間類似度として算出するエリア間類似度算出部と、
前記エリア間類似度に基づいて類似エリアを抽出する類似エリア抽出部を備えたことを特徴とする請求項４記載の地理的特徴情報抽出システム。
前記第２の重要度算出部は、前記解析対象文書群内の、文書総数に対する当該単語を含む文書数の割合を第３の寄与度として算出する手段と、前記第２の寄与度と前記第３の寄与度の積を前記第２の重要度として算出する手段を有することを特徴とする請求項５記載の地理的特徴情報抽出システム。
さらに、類似エリア間について、前記エリア間類似度算出部がエリア間類似度を算出する過程で得られる、前記特徴ベクトルの要素である各単語ごとの類似度を保持する単語類似度保持部と、
前記単語ごとの類似度に基づいて類似エリア間での類似単語あるいは類似単語群を抽出する類似語抽出部を備えたことを特徴とする請求項記載５または６に記載の地理的特徴情報抽出システム。
前記解析対象エリア文書群の文書について、少なくとも重複を排除する文書フィルタ部を備え、該文書フィルタ部を通して得られる全解析対象エリア文書群を前記解析対象文書群とすることを特徴とする請求項４ないし７のいずれかに記載の地理的特徴情報抽出システム。