JP4360181B2

JP4360181B2 - ドメイン別概念辞書構築装置及びプログラム

Info

Publication number: JP4360181B2
Application number: JP2003384093A
Authority: JP
Inventors: 吉秀佐藤; 伸治安部; 佳代池田; 雅且大久保
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-11-13
Filing date: 2003-11-13
Publication date: 2009-11-11
Anticipated expiration: 2023-11-13
Also published as: JP2005149015A

Description

本発明は、ドメイン別概念辞書構築装置及びプログラムに係り、特に、構築しようとする辞書の対象ドメインに応じて外部の情報源から文書データを取得し、取得した文書データから切り出される語句の出現分布に基づいて辞書構築に用いる語句の選定を行い、異なる語句が同一文書内に出現する回数から各語句の持つ概念をベクトル表現し、自動的にドメイン別の概念辞書データベースを構築するためのドメイン別概念辞書構築装置及びプログラムに関する。

第１の従来の方法として、文書の概念をベクトルで表現し、文書分類に利用する方法がある。この方法は、分類の前提となる学習フェーズで、全文書中に出現する語句のうち、出現頻度が大きい語句と小さい語句を除いた語句を、文書の概念で表すベクトルの要素として利用する。各語句の文書に対する重要度を、その文書のベクトルの各要素の値として用いることで、文書の特徴を表すベクトルを定義するものである（例えば、特許文献１参照）。

また、第２の従来の方法として、国語辞典の見出し語の概念が、その語義文中に出現する語句の分布で表現できるという仮説に基づき、語義文に出現する語句の集合を要素としたベクトルで様々な見出し語の概念を表現するような知識ベースを構築する技術がある（例えば、非特許文献１参照）。
特許第３３８５２９７号「国語辞書を利用した日常語の類似性判別」笠原要、松澤和光、石川勉：情報処理学会論文誌、Vol．38, No.7, pp.1272-1283)

しかしながら、上記第１の従来の方法は、概念辞書構築のための知識源として分類対象の文書データ自体を利用するため、大量の文書が予め存在していることが前提となり、文書数が少ない場合には高いカテゴリ分類精度を発揮する辞書を構築することが難しい。

また、上位第２の従来の方法は、もともとジャンルという概念を持たない国語辞典を概念辞書構築の知識源として利用するため、語句や文書の類似判定は行えるが、それらをカテゴリ毎に分類するには充分な効力を発揮することができない。

本発明は、上記の点に鑑みなされたもので、同一ジャンルに属する語句の概念間の類似度と、異なるジャンルに属する語句の概念間の類似度とを同時に表現する概念辞書を、対象ドメインに応じて自動的に構築することが可能なドメイン別概念辞書構築装置及びプログラムを提供することを目的とする。

図１は、本発明の原理構成図である。

本発明（請求項１）は、ドメイン別概念辞書構築装置であって、
ジャンル体系をもつドメインに分類される文書を収集する文書データ取得手段１１０と、
取得した文書データから語句を抽出して、文書毎に抽出された語句と文書内出現度数を抽出語句リストとして抽出語句データベース２０に記録する語句抽出手段１２０と、
抽出語句データベース２０に記録された抽出語句ごとに、文書内出現度数をジャンル別に集計し、最大出現度数に対して所定の割合以上となるジャンル数を半値幅として求め、半値幅に対する抽出語句数の度数分布グラフにおいて、最大な抽出語句数となる半値幅を中心に所定の幅を基底語句抽出区間とし、基底語句抽出区間に含まれる抽出語句を基底語句として選定し、基底語句データベース３０に格納する基底語句選定手段２１０と、
抽出語句データベース２０に記録された抽出語句ごとに、抽出語句のジャンルでの出現度数、抽出語句が出現するジャンル数を基にＴＦＩＧＦ値を求め、ジャンルごとにＴＦＩＧＦ値が大きい所定数の抽出語句を定義語句として選定し、定義語句データベース４０に格納する定義語句選定手段２２０と、
抽出語句データベース２０、基底語句データベース３０、定義語句データベース４０を利用し、定義語句が基底語句の各々と同一文書に出現するか否かを調べ、同一文書に出現する回数が多いほどに語句間の関連度が深いとして重みを付け、定義語句と基底語句との関連度を求めることにより、各定義語句を総基底語句数を次元とするベクトルであり基底語句との関連度からなる概念ベクトルとして表現する概念ベクトル計算手段３１０と、を有する。

本発明（請求項２）は、ドメイン別概念辞書構築装置であって、
ジャンル体系をもつドメインに分類される文書を収集する文書データ取得手段と、
取得した文書データから語句を抽出して、文書毎に抽出された語句と文書内出現度数を抽出語句リストとして抽出語句データベースに記録する語句抽出手段と、
抽出語句データベースに記録された抽出語句ごとに、文書内出現度数をジャンル別に集計し、最大出現度数に対して所定の割合以上となるジャンル数を半値幅として求め、ジャンル別の半値幅に対する抽出語句数の度数分布グラフにおいて、最大な抽出語句数となる半値幅を中心に所定の幅を基底語句抽出区間とし、基底語句抽出区間に含まれる抽出語句を当該ジャンルの基底語句として選定し、ジャンル別の基底語句を併合して全体の基底語句とし、基底語句データベースに格納する基底語句選定手段と、
抽出語句データベースに記録された抽出語句ごとに、抽出語句のジャンルでの出現度数、抽出語句が出現するジャンル数を基にＴＦＩＧＦ値を求め、ジャンルごとにＴＦＩＧＦ値が大きい所定数の抽出語句を定義語句として選定し、定義語句データベースに格納する定義語句選定手段と、
抽出語句データベース、基底語句データベース、定義語句データベースを利用し、定義語句が基底語句の各々と同一文書に出現するか否かを調べ、同一文書に出現する回数が多いほどに語句間の関連度が深いとして重みを付け、定義語句と基底語句との関連度を求めることにより、各定義語句を総基底語句数を次元とするベクトルであり基底語句との関連度からなる概念ベクトルとして表現する概念ベクトル計算手段と、を有する。

本発明（請求項３）は、請求項１または２に記載のドメイン別概念辞書構築装置において、概念ベクトル計算手段で求められた概念ベクトルを正規化し、概念辞書に格納する概念ベクトル正規化手段を更に有する。
本発明（請求項４）は、請求項１乃至３の何れか１項の記載のドメイン別概念辞書構築装置を構成する各手段としてコンピュータを機能させるためのドメイン別概念辞書構築プログラムである。

本発明によれば、ジャンル構造を有するドメインを対象とした概念辞書を構築する場合に、指定したドメインに関連のある文書データを収集し、収集文書から語句を切り出して抽出し、辞書の見出し語となる定義語句と、語句の概念をベクトルで表現する際の属性となる基底語句とを選定して辞書を構築するため、ドメイン情報さえ指示すれば簡単に概念辞書を構築することができる。

また、特定のジャンルにのみ出現する特殊な語句、及びあらゆるジャンルに出現する一般的な語句を除いた語句をベクトルの属性として選定するため、複数のジャンルに分類できる多義性のある語句を的確に定義でき、異なるジャンルに属する語句の概念間の類似性の判別も行うことが可能な辞書を構築できる。

以下、図面と共に、本発明の実施の形態を説明する。

図２は、本発明の一実施の形態におけるドメイン別概念辞書構築装置の構成を示す。

同図に示すドメイン別概念辞書構築装置は、抽出部１００、語句選定部２００、概念ベクトル生成部３００から構成される。

抽出部１００は、文書データ取得部１１０、語句抽出部１２０から構成され、文書データ取得部１１０は、ネットワーク等を介して外部情報源１０が接続され、語句抽出部１２０には抽出語句データベース２０が接続される。

文書データ取得部１１０は、外部情報源１０から文書データを収集し、語句抽出部１２０は、収集された文書からの語句の抽出を行い抽出語句データベース２０に記録する。

語句選定部２００は、基底語句選定部２１０と定義語句選定部２２０から構成され、基底語句選定部２１０には抽出語句データベース２０と基底語句データベース３０が接続され、また、定義語句選定部２２０は、抽出語句データベース２０及び定義語句データベース４０が接続される。基底語句選定部２１０は、抽出語句データベース２０から特定のジャンルに特徴的であって、かつ複数のジャンルに関連のある語句を基底語句として選定し、基底語句データベース３０に格納する。定義語句選定部２２０は、抽出語句データベース２０から対象ドメインに特徴的であって、構築しようとする概念辞書の見出し語となる語句を定義語句として選定し、定義語句で４０に格納する。

概念ベクトル生成部３００は、概念ベクトル計算部３１０と概念ベクトル正規化部３２０とから構成され、概念ベクトル計算部３１０には、抽出語句データベース２０、基底語句データベース３０及び定義語句データベース４０が接続され、概念ベクトル正規化部３２０には概念辞書５０が接続される。概念ベクトル計算部３１０は、定義語句データベース４０から取得した定義語句リスト及び基底語句データベース３０から取得した基底語句リスト及び抽出語句データベース２０から取得した抽出語句リストに登録された語句と、その出現度数や同一文書内出現回数等の情報を参照して、定義語句と基底語句との関連度を計算し、各定義語句の概念ベクトルを決定する。概念ベクトル正規化部３２０は、概念ベクトル計算部３１０が生成した各定義語句概念ベクトルを正規化し、概念辞書５０に格納する。

以下、本発明のドメイン別概念辞書構築装置の動作を詳細に説明する。

図３は、本発明の一実施の形態におけるドメイン別概念辞書構築装置の動作を示すフローチャートである。

まず、文書データ取得部１１０が、外部情報源１０から文書データを取得する（ステップ１０１）。収集対象は、オペレータが明示的に与えたドメイン情報に基づいて決定され、例えば図４のような２階層を有するジャンル体系を辞書構築の対象ドメインとする場合、「野球」「相撲」「テニス」「政治」「経済」といった各最下層ジャンルに分類される文書を取得対象とする。

指定される分類体系は１階層や３階層以上であってもよく、階層の深さが均一でないようなジャンル体系であってもよい。いずれの場合も、最下層ジャンルを収集対象とみなせばよい。

情報源は、新聞記事、書籍、Webページなど、ある特定の主題に沿って記述された文章を含むものであればよい。情報源が予め分類されていない場合や、指示されたジャンル体系に沿って分類されていない場合には、手動で分類するか、あるいは自動分類器を用いればよい。また、Webページの場合には検索エンジンを利用し、「野球」など収集対象のジャンル名をキーにした検索でヒットしたページを収集の対象としてもよい。

文書中の出現語句は、収集文書が多ければ多いほど各ジャンルの統計的特徴が出やすくなる。このため、辞書の精度を高めるには、各ジャンル毎に多くの文書を収集する必要がある。

文書データ取得部１１０が収集した各文書データは、語句抽出部１２０が解析を行い、文中の語句を切り出す。ドメイン別概念辞書５０に登録する語句は対象ドメインの特徴をよく表す語がふさわしい。動詞や形容詞や副詞は、ジャンル毎に出現度数に大きな特徴が表れにくいため、辞書検索には名詞がより適している。特に、複合名詞、固有名詞は分野毎の特徴を如実に表す場合が多く、概念辞書構築の対象語句として適している。本実施の形態では、文中の名詞を切り出して辞書構築に用いるものとし、固有名詞を含めた各種名詞を総称して語句と呼ぶ。

語句抽出部１２０は、収集文書ごとに形態素解析を行い、文中に登場する語句を抽出する。また、このとき、文書内での各語句の出現度数を集計し、抽出語句データベース２０に、図５の形式で収集文書毎の語句リストとして記録する（ステップ１０２）。

図５は、ジャンル１からNまでのNジャンルに分類される文書をそれぞれ複数収集し、語句リストを作成した場合の例である。語句と文書内出現度数の組からなるリストとして文書毎に保存する。

語句選定部２００は、互いに異なる選定基準を持つ基底語句選定部２１０と定義語句選定部２２０からなり、抽出語句データベース２０に保存された語句群から、それぞれ後述する基底語句及び定義語句を選定し、図６のように基底語句データベース３０、選定語句データベース４０に記録する（ステップ１０３）。

本発明のドメイン別概念辞書構築装置が構築する概念辞書の例を図７に示す。縦に並ぶ語句（Wdef1,Wdef2,…）の概念が、横に並ぶ語句それぞれとの関連度を数値化して羅列したベクトルとして定義されるものである。横に並ぶ語句の数がベクトルの次元となる。以下、このベクトルを概念ベクトルと呼ぶ。例えば、Wdef1は、語句Wbasc1との関連度が0.40、語句Wbase2との関連度が0.08、語句Wbase3との関連度が0.01、語句Wbase4との関連度が0.12、…となる。Wbase1,Wbase2,Wbase3,Wbase4,…は、概念を定義するための属性となる語句であり、これを基底語句と呼ぶ。一方、Wdef1,Wdef2,Wdef3,Wdef4,…は概念辞書５０によって意味付けされる語句であり、辞書の見出し語であるともいえる。以下のこの語句を定義語句と呼ぶ。

概念ベクトル計算部３１０は、定義語句データベース４０の定義語句リスト、基底語句データベース３０の基底語句リスト、並びに、文書中の語句出現度数を記録した抽出語句データベース２０のリストを参照し、定義語句と基底語句との関連度を計算して、各定義語句の概念ベクトルを決定していく（ステップ１０４）。

語句間の関連度を決定する方法には、同一文書内に出現する語句の分布を調べる方法がある。ある文書内で同時に出現しやすい語句は互いに関連性が高く、さらに、ジャンル内での出現度数が高ければジャンルの特徴を強く表す語である可能性が高い。例えば、政治に関するある新聞記事には「内閣総理大臣」と「首相官邸」という語が同時に出現する可能性が高く、さらに、これらの語は「政治」というジャンルを特徴付ける語にもなっている。

以下、語句間の関連度を属性値とする概念ベクトルの計算方法について説明する。まず、定義語句リスト中の第1の語句Wdef1について、基底語句リスト中の第1の語句Wbase1との関連を、文書内の出現語句リストに保存されている抽出語句データベース２０を参照して調べる。Wdef1とWbase1が同時に出現する文書数がnであったとすると、Wdef1に対するWbase1の属性値がｎとなる。同様にして、第1の定義語句Wdef1に対し、WbaseYまでの全ての基底語句との同一文書内出現回数を調べ、属性値を決定していく。これを全定義語句Wdef1〜WdefXについて行い、全ての概念ベクトルを計算する。

概念ベクトル正規化部３２０は、概念ベクトル計算部３１０が生成した各定義語句概念ベクトルを、大きさが1になるように正規化し、図７のように概念辞書５０に保存する（ステップ１０５）。

続いて、基底語句選定部２１０、定義語句選定部２２０について詳しく説明する。

基底語句は、高次元ベクトル空間内での定義語句の分布の度合いを決める要因となる。例えば、基底語句として「こと」「人」「今日」など、あらゆるジャンルの文書に出現する一般的な語句を選定したと仮定する。この場合、異なるジャンルに属する定義語句の概念ベクトル同士が似通ってしまい、ジャンル毎の特徴が現れにくい概念辞書となる。換言すれば各ジャンルに属する定義語句が高次元ベクトル空間内で密集する空間となり、語句の概念間の類似度が表現されにくい辞書になる。

逆に、基底語句としてある特定のジャンルにしか出現しない語句ばかりを選定したと仮定すると、高次元ベクトル空間内の定義語句群はジャンル毎に孤立した集合を形成する傾向が生じる。この場合、異なるジャンルに属する語句間の関連度は極端に低くなり、上記の例と同様に、類似度が表現されにくい辞書になる。

基底語句選定部２１０は、上記2例に反する特徴を満たす語句を選定する機能を有する。即ち、ある特定のジャンルを特徴付ける語句であるが、他のジャンルとも関連のある語句を選定する。

抽出語句リスト内の語句WordXに対して、図５の抽出語句データベース２０に記録された文書別の出現度数のデータを集計してジャンル別に出現度数を合計する。図８は、各ジャンルで出現度数の集計結果の例である。例えば、「ジャンル１」に分類された文書におけるWordXの出現度数を合計すると「２２」であったことを表す。

この集計結果を、出現度数の高い順にソートして度数分布表にすると、図９のようになる。「ジャンル３」でのWordXの出現度数「５２」が一番左に示され、右に進むにつれて「ジャンルN」の「４５回」、「ジャンル１」の「２２回」、「ジャンル２」の「４回」,,,と度数が下がっている。

出現度数が、最大度数「５２」の半分である２６以上であるジャンル数を計測すると、図９の例では、「ジャンル３」及び「ジャンルN」を含む合計６ジャンルで出現度数が２６を超えている。こうして求められたジャンル数の「６」を半値幅と呼ぶことにする。半値幅は、図９のグラフの横方向への広がりを表す1つの指標と言える。即ち、「こと」「人」「もの」といった一般性の高い語句は、どのジャンルでも多く出現するため、半値幅が大きくなると考えられる。逆にジャンルへの依存度が高い、即ち、ジャンルに特徴的な語句は、半値幅が小さくなると考えられる。

基底語句選定部２１０は、WordXを含む全ジャンル内の全ての抽出語句に対して半値幅を計算する。図１０は、全ジャンル内の全抽出語句についての半値幅の度数分布グラフである。H_０という半値幅を持つ語が全抽出語句中にＮ（H_０）個あったとする。このグラフにおいて、語数のピーク位置Ｈ_０を中心とする一定区間を基底語句選定区間とし、区間内に含まれる語句を基底語句として選定する。これにより、半値幅が大きくも小さくもない語句が、基底語句として選定されることになる。

また、上記選定法に加え、全収集文書内における各語句の出現度数も併せて考慮し、図１０の語数のピーク付近にあって、かつ全収集文書内の出現度数が高い語句を選定するようにしてもよい。

上記では、全ジャンルの全抽出語句に対する半値幅の度数分布グラフ（図１０）から一度に選定する基底語句選定法を説明したが、選定される基底語句が特定のジャンルに偏る問題を防ぐためには、ジャンル別に選定した基底語句を併合して全体の基底語句集合を作成すればよい。この場合、各ジャンルの基底語句は以下のように選ぶ方法がある。例えば、図９のように全ジャンル中で「ジャンル３」での出現度数が最大である語句WordXは「ジャンル３」の基底語句の候補とし、基底の候補語句からなる図１０のような半値幅の度数分布グラフをジャンル別に作成して選定すればよい。

図８の集計をジャンル内での出現度数として行っているが、出現度数に限定するものではない。特に、ジャンルごとの収集文書数や文章の分量にばらつきがある場合は、出現度数ではなく、出現確率として集計するなどし、ジャンル毎の集計文書数や文章の分量の差を吸収する場合もある。

上記の基底語句選定基準により、一般的過ぎる語でも、ジャンルの特徴を極端に強く表す語でもない語句が基底語句として選定される。

一方、定義語句は、概念辞書５０の見出し語とも言える語句であるため、定義語句選定部２２０は、各ジャンル内を特徴付ける語句で、かつジャンル内でよく出現する語句を選定する。

抽出語句リスト内の語句WordXについて、あるジャンルG内での出現度数がF(G,X)回であり、全Nジャンル中でWordXが出現するジャンル数がｇ（X）ジャンルであったとする。

このとき、ジャンル総数Nを出現ジャンル数ｇ（X）で割った値の対数値は、全ジャンルに出現する語句（g（X）＝N）の場合０となり、出現ジャンル数が減るにつれて大きくなるため、この対数値にジャンルG内での出現度数F(G,X)を乗じた値（式（１）のＴＦＩＧＦ（G，X））は、ジャンル内での出現度数が高く、かつ、出現ジャンル数が少ない語句ほど大きな値をとる。例えば、この指標を用いて、各ジャンル毎にＴＦＩＧＦ値の大きな語から一定数を選定すれば、各ジャンルに特徴的な語句の集合ができる。

基底語句選定部２１０ならびに定義語句選定部２２０によって選定された各語句集合を用いて、上記概念ベクトル生成部３００がベクトル計算し、概念辞書５０を構築する。

以下、本実施の形態のドメイン別概念辞書構築装置の動作の流れをフローチャートを用いて説明する。

図１１は、本発明の一実施の形態における語句抽出部の処理のフローチャートである。

処理が開始されると、ジャンル別の収集対象文書を決定し（ステップ２０１）、各文書を収集して（ステップ２０２）、形態素解析により文書中の語句を抽出する（ステップ２０３）。１文書内での各語句の出現度数をカウントし（ステップ２０４）、集計結果を抽出語句データベース２０に記録する（ステップ２０５）。抽出語句データベース２０内では、語句とその出現度数のペアを文書別に管理する。これを、全ての対象文書の収集が終わるまで繰り返す（ステップ２０６）。

図１２は、本発明の一実施の形態における基底語句選定処理のフローチャートである。

基底語句選定部２１０は、まず、抽出語句データベース２０内で文書別に管理されている抽出語句を全て集計し、集計した全文書内に出現する語句のリストを作成する（ステップ３０１）。このリスト中の各語句について、ジャンル毎の出現度数、即ち、ジャンル内の全収集文書中における語句の出現度数を調べる（ステップ３０２）。ジャンル毎の出現度数から、その語句の半値幅を算出し（ステップ３０３）、これを全ての抽出語句について繰り返す（ステップ３０４）。全ての抽出語句の半値幅の算出が終われば、半値幅の度数分布を調べ（ステップ３０５）、ピークを中心として基底語句を選定して（ステップ３０６）、基底語句データベース３０に記録する（ステップ３０７）。

図１３は、本発明の一実施の形態における定義語句選定処理のフローチャートである。

まず、定義語句選定処理部２２０は、抽出語句データベース２０内で文書別に管理されている抽出語句をジャンル別に集計し、ジャンル別の抽出語句リストを作成する（ステップ４０１）。続いて、注目するジャンルＧ内の語句について、ジャンルＧ内での出現度数、及びその語句が出現するジャンル数を調べる（ステップ４０２）。この後、それらの値を用いて、評価値を算出し（ステップ４０３）、これをジャンルＧ内の語句全ての評価値が求まるまで繰り返す（ステップ４０４）。さらに、この処理を注目ジャンルを変えながら全ジャンルについて行い（ステップ４０５）、最終的に、抽出語句データベース２０内の全語句の評価値を算出する。評価値によって、ジャンル内の語句を降順にソートし（ステップ４０６）、最後に、評価値の大きい語句から一定語数をジャンル別に選定し定義語句として定義語句データベース４０に記録する（ステップ４０７）。

次に、概念ベクトル生成部３００の処理を説明する。

図１４は、本発明の一実施の形態における概念ベクトル生成処理のフローチャートである。

概念ベクトルの生成は、概念ベクトル生成部３００において、基底語句データベース３０と定義語句データベース４０及び抽出語句データベース２０を参照することにより行われる。

まず、概念ベクトル計算部３１０は、定義語句データベース４０から１語句Wdefを取得し（ステップ５０１）、続いて基底語句データベース３０から１語句Wbaseを取得する（ステップ５０２）。抽出語句データベース２０を参照することでWdefとWbaseが同時に出現する文書の数を調べ、これをWdefとWbaseに対する関連度とする（ステップ５０３）。上記のステップ５０２，５０３を基底語句データベース３０内の全ての語句を対象として繰り返す（ステップ５０４）。１個の定義語句に対して全ての基底語句との関連度が求まれば、基底語句数を次元数とする概念ベクトルが１個求まったことになる。こうして算出された概念ベクトルを大きさが１になるように、概念ベクトル正規化部３２０で正規化し（ステップ５０５）、概念辞書５０に登録する（ステップ５０６）。全定義語句の概念ベクトルが終了していなければ（ステップ５０７）、ステップ５０１に戻って処理を繰り返し全定義語句の概念ベクトルからなる概念辞書５０を構築する。

また、上記の抽出部１００、語句選定部２００及び、概念ベクトル生成部３００の処理をプログラムとして構築し、ドメイン別概念辞書構築装置として利用されるコンピュータにインストールして、ＣＰＵ等の制御手段により実行させる、または、ネットワークを介して流通させることも可能である。

また、構築されたプログラムをドメイン別概念辞書構築装置として利用されるコンピュータに接続されるハードディスクやフレキシブルディスク、ＣＤ−ＲＯＭ等の可搬記憶媒体に格納しておき、コンピュータにインストールするようにしてもよい。

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。

本発明は、取得した文書データから概念辞書を作成する技術に適用可能である。

本発明の原理構成図である。本発明の一実施の形態におけるドメイン別概念辞書構築装置の構成図である。本発明の一実施の形態におけるドメイン別概念辞書構築装置の動作を示すフローチャートである。本発明の一実施の形態におけるジャンル体系の一例である。本発明の一実施の形態における抽出語句データベースの例である。本発明の一実施の形態における定義語句リスト・基底語句リストの例である。本発明の一実施の形態における概念辞書の例である。本発明の一実施の形態におけるジャンル毎の出現度数である。本発明の一実施の形態におけるジャンルごとの出現度数を降順にソートしたグラフである。本発明の一実施の形態における半値幅と語数の関係を示す図である。本発明の一実施の形態における語句抽出部の処理を示すフローチャートである。本発明の一実施の形態における基底語句選定処理のフローチャートである。本発明の一実施の形態における定義語句選定処理のフローチャートである。本発明の一実施の形態における概念ベクトル生成処理のフローチャートである。

符号の説明

１０情報源、外部情報源
２０抽出語句データベース
３０基底語句データベース
４０定義語句データベース
５０概念辞書
６０データベース
１００抽出手段、抽出部
１１０文書データ取得手段、文書データ取得部
１２０語句抽出手段、語句抽出部
２００語句選定手段、語句選定部
２１０基底語句選定手段、基底語句選定部
２２０定義語句選定手段、定義語句選定部
３００概念ベクトル生成手段、概念ベクトル生成部
３１０概念ベクトル計算手段、概念ベクトル計算部
３２０概念ベクトル正規化部

Claims

ドメイン別概念辞書構築装置であって、
ジャンル体系をもつドメインに分類される文書を収集する文書データ取得手段と、
取得した文書データから語句を抽出して、文書毎に抽出された語句と文書内出現度数を抽出語句リストとして抽出語句データベースに記録する語句抽出手段と、
前記抽出語句データベースに記録された抽出語句ごとに、前記文書内出現度数をジャンル別に集計し、最大出現度数に対して所定の割合以上となるジャンル数を半値幅として求め、半値幅に対する抽出語句数の度数分布グラフにおいて、最大な抽出語句数となる半値幅を中心に所定の幅を基底語句抽出区間とし、基底語句抽出区間に含まれる抽出語句を基底語句として選定し、基底語句データベースに格納する基底語句選定手段と、
前記抽出語句データベースに記録された抽出語句ごとに、抽出語句のジャンルでの出現度数、抽出語句が出現するジャンル数を基にＴＦＩＧＦ値を求め、ジャンルごとにＴＦＩＧＦ値が大きい所定数の抽出語句を定義語句として選定し、定義語句データベースに格納する定義語句選定手段と、
前記抽出語句データベース、前記基底語句データベース、前記定義語句データベースを利用し、前記定義語句が前記基底語句の各々と同一文書に出現するか否かを調べ、同一文書に出現する回数が多いほどに語句間の関連度が深いとして重みを付け、定義語句と基底語句との関連度を求めることにより、各定義語句を総基底語句数を次元とするベクトルであり基底語句との関連度からなる概念ベクトルとして表現する概念ベクトル計算手段と、を有する
ことを特徴とするドメイン別概念辞書構築装置。
ドメイン別概念辞書構築装置であって、
ジャンル体系をもつドメインに分類される文書を収集する文書データ取得手段と、
取得した文書データから語句を抽出して、文書毎に抽出された語句と文書内出現度数を抽出語句リストとして抽出語句データベースに記録する語句抽出手段と、
前記抽出語句データベースに記録された抽出語句ごとに、前記文書内出現度数をジャンル別に集計し、最大出現度数に対して所定の割合以上となるジャンル数を半値幅として求め、ジャンル別の半値幅に対する抽出語句数の度数分布グラフにおいて、最大な抽出語句数となる半値幅を中心に所定の幅を基底語句抽出区間とし、基底語句抽出区間に含まれる抽出語句を当該ジャンルの基底語句として選定し、ジャンル別の基底語句を併合して全体の基底語句とし、基底語句データベースに格納する基底語句選定手段と、
前記抽出語句データベースに記録された抽出語句ごとに、抽出語句のジャンルでの出現度数、抽出語句が出現するジャンル数を基にＴＦＩＧＦ値を求め、ジャンルごとにＴＦＩＧＦ値が大きい所定数の抽出語句を定義語句として選定し、定義語句データベースに格納する定義語句選定手段と、
前記抽出語句データベース、前記基底語句データベース、前記定義語句データベースを利用し、前記定義語句が前記基底語句の各々と同一文書に出現するか否かを調べ、同一文書に出現する回数が多いほどに語句間の関連度が深いとして重みを付け、定義語句と基底語句との関連度を求めることにより、各定義語句を総基底語句数を次元とするベクトルであり基底語句との関連度からなる概念ベクトルとして表現する概念ベクトル計算手段と、を有する
ことを特徴とするドメイン別概念辞書構築装置。
前記概念ベクトル計算手段で求められた概念ベクトルを正規化し、概念辞書に格納する概念ベクトル正規化手段を更に有する
請求項１または２に記載のドメイン別概念辞書構築装置。
前記請求項１乃至３の何れか１項の記載のドメイン別概念辞書構築装置を構成する各手段としてコンピュータを機能させるためのドメイン別概念辞書構築プログラム。