JP4360181B2 - ドメイン別概念辞書構築装置及びプログラム - Google Patents

ドメイン別概念辞書構築装置及びプログラム Download PDF

Info

Publication number
JP4360181B2
JP4360181B2 JP2003384093A JP2003384093A JP4360181B2 JP 4360181 B2 JP4360181 B2 JP 4360181B2 JP 2003384093 A JP2003384093 A JP 2003384093A JP 2003384093 A JP2003384093 A JP 2003384093A JP 4360181 B2 JP4360181 B2 JP 4360181B2
Authority
JP
Japan
Prior art keywords
phrase
extracted
base
genre
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003384093A
Other languages
English (en)
Other versions
JP2005149015A (ja
Inventor
吉秀 佐藤
伸治 安部
佳代 池田
雅且 大久保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003384093A priority Critical patent/JP4360181B2/ja
Publication of JP2005149015A publication Critical patent/JP2005149015A/ja
Application granted granted Critical
Publication of JP4360181B2 publication Critical patent/JP4360181B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ドメイン別概念辞書構築装置及びプログラムに係り、特に、構築しようとする辞書の対象ドメインに応じて外部の情報源から文書データを取得し、取得した文書データから切り出される語句の出現分布に基づいて辞書構築に用いる語句の選定を行い、異なる語句が同一文書内に出現する回数から各語句の持つ概念をベクトル表現し、自動的にドメイン別の概念辞書データベースを構築するためのドメイン別概念辞書構築装置及びプログラムに関する。
第1の従来の方法として、文書の概念をベクトルで表現し、文書分類に利用する方法がある。この方法は、分類の前提となる学習フェーズで、全文書中に出現する語句のうち、出現頻度が大きい語句と小さい語句を除いた語句を、文書の概念で表すベクトルの要素として利用する。各語句の文書に対する重要度を、その文書のベクトルの各要素の値として用いることで、文書の特徴を表すベクトルを定義するものである(例えば、特許文献1参照)。
また、第2の従来の方法として、国語辞典の見出し語の概念が、その語義文中に出現する語句の分布で表現できるという仮説に基づき、語義文に出現する語句の集合を要素としたベクトルで様々な見出し語の概念を表現するような知識ベースを構築する技術がある(例えば、非特許文献1参照)。
特許第3385297号 「国語辞書を利用した日常語の類似性判別」笠原要、松澤和光、石川勉:情報処理学会論文誌、Vol.38, No.7, pp.1272-1283)
しかしながら、上記第1の従来の方法は、概念辞書構築のための知識源として分類対象の文書データ自体を利用するため、大量の文書が予め存在していることが前提となり、文書数が少ない場合には高いカテゴリ分類精度を発揮する辞書を構築することが難しい。
また、上位第2の従来の方法は、もともとジャンルという概念を持たない国語辞典を概念辞書構築の知識源として利用するため、語句や文書の類似判定は行えるが、それらをカテゴリ毎に分類するには充分な効力を発揮することができない。
本発明は、上記の点に鑑みなされたもので、同一ジャンルに属する語句の概念間の類似度と、異なるジャンルに属する語句の概念間の類似度とを同時に表現する概念辞書を、対象ドメインに応じて自動的に構築することが可能なドメイン別概念辞書構築装置及びプログラムを提供することを目的とする。
図1は、本発明の原理構成図である。
本発明(請求項1)は、ドメイン別概念辞書構築装置であって、
ジャンル体系をもつドメインに分類される文書を収集する文書データ取得手段110と、
取得した文書データから語句を抽出して、文書毎に抽出された語句と文書内出現度数を抽出語句リストとして抽出語句データベース20に記録する語句抽出手段120と、
抽出語句データベース20に記録された抽出語句ごとに、文書内出現度数をジャンル別に集計し、最大出現度数に対して所定の割合以上となるジャンル数を半値幅として求め、半値幅に対する抽出語句数の度数分布グラフにおいて、最大な抽出語句数となる半値幅を中心に所定の幅を基底語句抽出区間とし、基底語句抽出区間に含まれる抽出語句を基底語句として選定し、基底語句データベース30に格納する基底語句選定手段210と、
抽出語句データベース20に記録された抽出語句ごとに、抽出語句のジャンルでの出現度数、抽出語句が出現するジャンル数を基にTFIGF値を求め、ジャンルごとにTFIGF値が大きい所定数の抽出語句を定義語句として選定し、定義語句データベース40に格納する定義語句選定手段220と、
抽出語句データベース20、基底語句データベース30、定義語句データベース40を利用し、定義語句が基底語句の各々と同一文書に出現するか否かを調べ、同一文書に出現する回数が多いほどに語句間の関連度が深いとして重みを付け、定義語句と基底語句との関連度を求めることにより、各定義語句を総基底語句数を次元とするベクトルであり基底語句との関連度からなる概念ベクトルとして表現する概念ベクトル計算手段310と、を有する。
本発明(請求項2)は、ドメイン別概念辞書構築装置であって、
ジャンル体系をもつドメインに分類される文書を収集する文書データ取得手段と、
取得した文書データから語句を抽出して、文書毎に抽出された語句と文書内出現度数を抽出語句リストとして抽出語句データベースに記録する語句抽出手段と、
抽出語句データベースに記録された抽出語句ごとに、文書内出現度数をジャンル別に集計し、最大出現度数に対して所定の割合以上となるジャンル数を半値幅として求め、ジャンル別の半値幅に対する抽出語句数の度数分布グラフにおいて、最大な抽出語句数となる半値幅を中心に所定の幅を基底語句抽出区間とし、基底語句抽出区間に含まれる抽出語句を当該ジャンルの基底語句として選定し、ジャンル別の基底語句を併合して全体の基底語句とし、基底語句データベースに格納する基底語句選定手段と、
抽出語句データベースに記録された抽出語句ごとに、抽出語句のジャンルでの出現度数、抽出語句が出現するジャンル数を基にTFIGF値を求め、ジャンルごとにTFIGF値が大きい所定数の抽出語句を定義語句として選定し、定義語句データベースに格納する定義語句選定手段と、
抽出語句データベース、基底語句データベース、定義語句データベースを利用し、定義語句が基底語句の各々と同一文書に出現するか否かを調べ、同一文書に出現する回数が多いほどに語句間の関連度が深いとして重みを付け、定義語句と基底語句との関連度を求めることにより、各定義語句を総基底語句数を次元とするベクトルであり基底語句との関連度からなる概念ベクトルとして表現する概念ベクトル計算手段と、を有する。
発明(請求項3)は、請求項1またはに記載のドメイン別概念辞書構築装置において、概念ベクトル計算手段で求められた概念ベクトルを正規化し、概念辞書に格納する概念ベクトル正規化手段を更に有する。
本発明(請求項)は、請求項1乃至の何れか1項の記載のドメイン別概念辞書構築装置を構成する各手段としてコンピュータを機能させるためのドメイン別概念辞書構築プログラムである。

本発明によれば、ジャンル構造を有するドメインを対象とした概念辞書を構築する場合に、指定したドメインに関連のある文書データを収集し、収集文書から語句を切り出して抽出し、辞書の見出し語となる定義語句と、語句の概念をベクトルで表現する際の属性となる基底語句とを選定して辞書を構築するため、ドメイン情報さえ指示すれば簡単に概念辞書を構築することができる。
また、特定のジャンルにのみ出現する特殊な語句、及びあらゆるジャンルに出現する一般的な語句を除いた語句をベクトルの属性として選定するため、複数のジャンルに分類できる多義性のある語句を的確に定義でき、異なるジャンルに属する語句の概念間の類似性の判別も行うことが可能な辞書を構築できる。
以下、図面と共に、本発明の実施の形態を説明する。
は、本発明の一実施の形態におけるドメイン別概念辞書構築装置の構成を示す。
同図に示すドメイン別概念辞書構築装置は、抽出部100、語句選定部200、概念ベクトル生成部300から構成される。
抽出部100は、文書データ取得部110、語句抽出部120から構成され、文書データ取得部110は、ネットワーク等を介して外部情報源10が接続され、語句抽出部120には抽出語句データベース20が接続される。
文書データ取得部110は、外部情報源10から文書データを収集し、語句抽出部120は、収集された文書からの語句の抽出を行い抽出語句データベース20に記録する。
語句選定部200は、基底語句選定部210と定義語句選定部220から構成され、基底語句選定部210には抽出語句データベース20と基底語句データベース30が接続され、また、定義語句選定部220は、抽出語句データベース20及び定義語句データベース40が接続される。基底語句選定部210は、抽出語句データベース20から特定のジャンルに特徴的であって、かつ複数のジャンルに関連のある語句を基底語句として選定し、基底語句データベース30に格納する。定義語句選定部220は、抽出語句データベース20から対象ドメインに特徴的であって、構築しようとする概念辞書の見出し語となる語句を定義語句として選定し、定義語句で40に格納する。
概念ベクトル生成部300は、概念ベクトル計算部310と概念ベクトル正規化部320とから構成され、概念ベクトル計算部310には、抽出語句データベース20、基底語句データベース30及び定義語句データベース40が接続され、概念ベクトル正規化部320には概念辞書50が接続される。概念ベクトル計算部310は、定義語句データベース40から取得した定義語句リスト及び基底語句データベース30から取得した基底語句リスト及び抽出語句データベース20から取得した抽出語句リストに登録された語句と、その出現度数や同一文書内出現回数等の情報を参照して、定義語句と基底語句との関連度を計算し、各定義語句の概念ベクトルを決定する。概念ベクトル正規化部320は、概念ベクトル計算部310が生成した各定義語句概念ベクトルを正規化し、概念辞書50に格納する。
以下、本発明のドメイン別概念辞書構築装置の動作を詳細に説明する。
は、本発明の一実施の形態におけるドメイン別概念辞書構築装置の動作を示すフローチャートである。
まず、文書データ取得部110が、外部情報源10から文書データを取得する(ステップ101)。収集対象は、オペレータが明示的に与えたドメイン情報に基づいて決定され、例えば図のような2階層を有するジャンル体系を辞書構築の対象ドメインとする場合、「野球」「相撲」「テニス」「政治」「経済」といった各最下層ジャンルに分類される文書を取得対象とする。
指定される分類体系は1階層や3階層以上であってもよく、階層の深さが均一でないようなジャンル体系であってもよい。いずれの場合も、最下層ジャンルを収集対象とみなせばよい。
情報源は、新聞記事、書籍、Webページなど、ある特定の主題に沿って記述された文章を含むものであればよい。情報源が予め分類されていない場合や、指示されたジャンル体系に沿って分類されていない場合には、手動で分類するか、あるいは自動分類器を用いればよい。また、Webページの場合には検索エンジンを利用し、「野球」など収集対象のジャンル名をキーにした検索でヒットしたページを収集の対象としてもよい。
文書中の出現語句は、収集文書が多ければ多いほど各ジャンルの統計的特徴が出やすくなる。このため、辞書の精度を高めるには、各ジャンル毎に多くの文書を収集する必要がある。
文書データ取得部110が収集した各文書データは、語句抽出部120が解析を行い、文中の語句を切り出す。ドメイン別概念辞書50に登録する語句は対象ドメインの特徴をよく表す語がふさわしい。動詞や形容詞や副詞は、ジャンル毎に出現度数に大きな特徴が表れにくいため、辞書検索には名詞がより適している。特に、複合名詞、固有名詞は分野毎の特徴を如実に表す場合が多く、概念辞書構築の対象語句として適している。本実施の形態では、文中の名詞を切り出して辞書構築に用いるものとし、固有名詞を含めた各種名詞を総称して語句と呼ぶ。
語句抽出部120は、収集文書ごとに形態素解析を行い、文中に登場する語句を抽出する。また、このとき、文書内での各語句の出現度数を集計し、抽出語句データベース20に、図の形式で収集文書毎の語句リストとして記録する(ステップ102)。
は、ジャンル1からNまでのNジャンルに分類される文書をそれぞれ複数収集し、語句リストを作成した場合の例である。語句と文書内出現度数の組からなるリストとして文書毎に保存する。
語句選定部200は、互いに異なる選定基準を持つ基底語句選定部210と定義語句選定部220からなり、抽出語句データベース20に保存された語句群から、それぞれ後述する基底語句及び定義語句を選定し、図のように基底語句データベース30、選定語句データベース40に記録する(ステップ103)。
本発明のドメイン別概念辞書構築装置が構築する概念辞書の例を図に示す。縦に並ぶ語句(Wdef1,Wdef2,…)の概念が、横に並ぶ語句それぞれとの関連度を数値化して羅列したベクトルとして定義されるものである。横に並ぶ語句の数がベクトルの次元となる。以下、このベクトルを概念ベクトルと呼ぶ。例えば、Wdef1は、語句Wbasc1との関連度が0.40、語句Wbase2との関連度が0.08、語句Wbase3との関連度が0.01、語句Wbase4との関連度が0.12、…となる。Wbase1,Wbase2,Wbase3,Wbase4,…は、概念を定義するための属性となる語句であり、これを基底語句と呼ぶ。一方、Wdef1,Wdef2,Wdef3,Wdef4,…は概念辞書50によって意味付けされる語句であり、辞書の見出し語であるともいえる。以下のこの語句を定義語句と呼ぶ。
概念ベクトル計算部310は、定義語句データベース40の定義語句リスト、基底語句データベース30の基底語句リスト、並びに、文書中の語句出現度数を記録した抽出語句データベース20のリストを参照し、定義語句と基底語句との関連度を計算して、各定義語句の概念ベクトルを決定していく(ステップ104)。
語句間の関連度を決定する方法には、同一文書内に出現する語句の分布を調べる方法がある。ある文書内で同時に出現しやすい語句は互いに関連性が高く、さらに、ジャンル内での出現度数が高ければジャンルの特徴を強く表す語である可能性が高い。例えば、政治に関するある新聞記事には「内閣総理大臣」と「首相官邸」という語が同時に出現する可能性が高く、さらに、これらの語は「政治」というジャンルを特徴付ける語にもなっている。
以下、語句間の関連度を属性値とする概念ベクトルの計算方法について説明する。まず、定義語句リスト中の第1の語句Wdef1について、基底語句リスト中の第1の語句Wbase1との関連を、文書内の出現語句リストに保存されている抽出語句データベース20を参照して調べる。Wdef1とWbase1が同時に出現する文書数がnであったとすると、Wdef1に対するWbase1の属性値がnとなる。同様にして、第1の定義語句Wdef1に対し、WbaseYまでの全ての基底語句との同一文書内出現回数を調べ、属性値を決定していく。これを全定義語句Wdef1〜WdefXについて行い、全ての概念ベクトルを計算する。
概念ベクトル正規化部320は、概念ベクトル計算部310が生成した各定義語句概念ベクトルを、大きさが1になるように正規化し、図のように概念辞書50に保存する(ステップ105)。
続いて、基底語句選定部210、定義語句選定部220について詳しく説明する。
基底語句は、高次元ベクトル空間内での定義語句の分布の度合いを決める要因となる。例えば、基底語句として「こと」「人」「今日」など、あらゆるジャンルの文書に出現する一般的な語句を選定したと仮定する。この場合、異なるジャンルに属する定義語句の概念ベクトル同士が似通ってしまい、ジャンル毎の特徴が現れにくい概念辞書となる。換言すれば各ジャンルに属する定義語句が高次元ベクトル空間内で密集する空間となり、語句の概念間の類似度が表現されにくい辞書になる。
逆に、基底語句としてある特定のジャンルにしか出現しない語句ばかりを選定したと仮定すると、高次元ベクトル空間内の定義語句群はジャンル毎に孤立した集合を形成する傾向が生じる。この場合、異なるジャンルに属する語句間の関連度は極端に低くなり、上記の例と同様に、類似度が表現されにくい辞書になる。
基底語句選定部210は、上記2例に反する特徴を満たす語句を選定する機能を有する。即ち、ある特定のジャンルを特徴付ける語句であるが、他のジャンルとも関連のある語句を選定する。
抽出語句リスト内の語句WordXに対して、図の抽出語句データベース20に記録された文書別の出現度数のデータを集計してジャンル別に出現度数を合計する。図は、各ジャンルで出現度数の集計結果の例である。例えば、「ジャンル1」に分類された文書におけるWordXの出現度数を合計すると「22」であったことを表す。
この集計結果を、出現度数の高い順にソートして度数分布表にすると、図のようになる。「ジャンル3」でのWordXの出現度数「52」が一番左に示され、右に進むにつれて「ジャンルN」の「45回」、「ジャンル1」の「22回」、「ジャンル2」の「4回」,,,と度数が下がっている。
出現度数が、最大度数「52」の半分である26以上であるジャンル数を計測すると、図の例では、「ジャンル3」及び「ジャンルN」を含む合計6ジャンルで出現度数が26を超えている。こうして求められたジャンル数の「6」を半値幅と呼ぶことにする。半値幅は、図のグラフの横方向への広がりを表す1つの指標と言える。即ち、「こと」「人」「もの」といった一般性の高い語句は、どのジャンルでも多く出現するため、半値幅が大きくなると考えられる。逆にジャンルへの依存度が高い、即ち、ジャンルに特徴的な語句は、半値幅が小さくなると考えられる。
基底語句選定部210は、WordXを含む全ジャンル内の全ての抽出語句に対して半値幅を計算する。図10は、全ジャンル内の全抽出語句についての半値幅の度数分布グラフである。Hという半値幅を持つ語が全抽出語句中にN(H)個あったとする。このグラフにおいて、語数のピーク位置Hを中心とする一定区間を基底語句選定区間とし、区間内に含まれる語句を基底語句として選定する。これにより、半値幅が大きくも小さくもない語句が、基底語句として選定されることになる。
また、上記選定法に加え、全収集文書内における各語句の出現度数も併せて考慮し、図10の語数のピーク付近にあって、かつ全収集文書内の出現度数が高い語句を選定するようにしてもよい。
上記では、全ジャンルの全抽出語句に対する半値幅の度数分布グラフ(図10)から一度に選定する基底語句選定法を説明したが、選定される基底語句が特定のジャンルに偏る問題を防ぐためには、ジャンル別に選定した基底語句を併合して全体の基底語句集合を作成すればよい。この場合、各ジャンルの基底語句は以下のように選ぶ方法がある。例えば、図のように全ジャンル中で「ジャンル3」での出現度数が最大である語句WordXは「ジャンル3」の基底語句の候補とし、基底の候補語句からなる図10のような半値幅の度数分布グラフをジャンル別に作成して選定すればよい。
の集計をジャンル内での出現度数として行っているが、出現度数に限定するものではない。特に、ジャンルごとの収集文書数や文章の分量にばらつきがある場合は、出現度数ではなく、出現確率として集計するなどし、ジャンル毎の集計文書数や文章の分量の差を吸収する場合もある。
上記の基底語句選定基準により、一般的過ぎる語でも、ジャンルの特徴を極端に強く表す語でもない語句が基底語句として選定される。
一方、定義語句は、概念辞書50の見出し語とも言える語句であるため、定義語句選定部220は、各ジャンル内を特徴付ける語句で、かつジャンル内でよく出現する語句を選定する。
抽出語句リスト内の語句WordXについて、あるジャンルG内での出現度数がF(G,X)回であり、全Nジャンル中でWordXが出現するジャンル数がg(X)ジャンルであったとする。
このとき、ジャンル総数Nを出現ジャンル数g(X)で割った値の対数値は、全ジャンルに出現する語句(g(X)=N)の場合0となり、出現ジャンル数が減るにつれて大きくなるため、この対数値にジャンルG内での出現度数F(G,X)を乗じた値(式(1)のTFIGF(G,X))は、ジャンル内での出現度数が高く、かつ、出現ジャンル数が少ない語句ほど大きな値をとる。例えば、この指標を用いて、各ジャンル毎にTFIGF値の大きな語から一定数を選定すれば、各ジャンルに特徴的な語句の集合ができる。
Figure 0004360181
基底語句選定部210ならびに定義語句選定部220によって選定された各語句集合を用いて、上記概念ベクトル生成部300がベクトル計算し、概念辞書50を構築する。
以下、本実施の形態のドメイン別概念辞書構築装置の動作の流れをフローチャートを用いて説明する。
図1は、本発明の一実施の形態における語句抽出部の処理のフローチャートである。
処理が開始されると、ジャンル別の収集対象文書を決定し(ステップ201)、各文書を収集して(ステップ202)、形態素解析により文書中の語句を抽出する(ステップ203)。1文書内での各語句の出現度数をカウントし(ステップ204)、集計結果を抽出語句データベース20に記録する(ステップ205)。抽出語句データベース20内では、語句とその出現度数のペアを文書別に管理する。これを、全ての対象文書の収集が終わるまで繰り返す(ステップ206)。
12は、本発明の一実施の形態における基底語句選定処理のフローチャートである。
基底語句選定部210は、まず、抽出語句データベース20内で文書別に管理されている抽出語句を全て集計し、集計した全文書内に出現する語句のリストを作成する(ステップ301)。このリスト中の各語句について、ジャンル毎の出現度数、即ち、ジャンル内の全収集文書中における語句の出現度数を調べる(ステップ302)。ジャンル毎の出現度数から、その語句の半値幅を算出し(ステップ303)、これを全ての抽出語句について繰り返す(ステップ304)。全ての抽出語句の半値幅の算出が終われば、半値幅の度数分布を調べ(ステップ305)、ピークを中心として基底語句を選定して(ステップ306)、基底語句データベース30に記録する(ステップ307)。
13は、本発明の一実施の形態における定義語句選定処理のフローチャートである。
まず、定義語句選定処理部220は、抽出語句データベース20内で文書別に管理されている抽出語句をジャンル別に集計し、ジャンル別の抽出語句リストを作成する(ステップ401)。続いて、注目するジャンルG内の語句について、ジャンルG内での出現度数、及びその語句が出現するジャンル数を調べる(ステップ402)。この後、それらの値を用いて、評価値を算出し(ステップ403)、これをジャンルG内の語句全ての評価値が求まるまで繰り返す(ステップ404)。さらに、この処理を注目ジャンルを変えながら全ジャンルについて行い(ステップ405)、最終的に、抽出語句データベース20内の全語句の評価値を算出する。評価値によって、ジャンル内の語句を降順にソートし(ステップ406)、最後に、評価値の大きい語句から一定語数をジャンル別に選定し定義語句として定義語句データベース40に記録する(ステップ407)。
次に、概念ベクトル生成部300の処理を説明する。
14は、本発明の一実施の形態における概念ベクトル生成処理のフローチャートである。
概念ベクトルの生成は、概念ベクトル生成部300において、基底語句データベース30と定義語句データベース40及び抽出語句データベース20を参照することにより行われる。
まず、概念ベクトル計算部310は、定義語句データベース40から1語句Wdefを取得し(ステップ501)、続いて基底語句データベース30から1語句Wbaseを取得する(ステップ502)。抽出語句データベース20を参照することでWdefとWbaseが同時に出現する文書の数を調べ、これをWdefとWbaseに対する関連度とする(ステップ503)。上記のステップ502,503を基底語句データベース30内の全ての語句を対象として繰り返す(ステップ504)。1個の定義語句に対して全ての基底語句との関連度が求まれば、基底語句数を次元数とする概念ベクトルが1個求まったことになる。こうして算出された概念ベクトルを大きさが1になるように、概念ベクトル正規化部320で正規化し(ステップ505)、概念辞書50に登録する(ステップ506)。全定義語句の概念ベクトルが終了していなければ(ステップ507)、ステップ501に戻って処理を繰り返し全定義語句の概念ベクトルからなる概念辞書50を構築する。
また、上記の抽出部100、語句選定部200及び、概念ベクトル生成部300の処理をプログラムとして構築し、ドメイン別概念辞書構築装置として利用されるコンピュータにインストールして、CPU等の制御手段により実行させる、または、ネットワークを介して流通させることも可能である。
また、構築されたプログラムをドメイン別概念辞書構築装置として利用されるコンピュータに接続されるハードディスクやフレキシブルディスク、CD−ROM等の可搬記憶媒体に格納しておき、コンピュータにインストールするようにしてもよい。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
本発明は、取得した文書データから概念辞書を作成する技術に適用可能である。
本発明の原理構成図である。 本発明の一実施の形態におけるドメイン別概念辞書構築装置の構成図である。 本発明の一実施の形態におけるドメイン別概念辞書構築装置の動作を示すフローチャートである。 本発明の一実施の形態におけるジャンル体系の一例である。 本発明の一実施の形態における抽出語句データベースの例である。 本発明の一実施の形態における定義語句リスト・基底語句リストの例である。 本発明の一実施の形態における概念辞書の例である。 本発明の一実施の形態におけるジャンル毎の出現度数である。 本発明の一実施の形態におけるジャンルごとの出現度数を降順にソートしたグラフである。 本発明の一実施の形態における半値幅と語数の関係を示す図である。 本発明の一実施の形態における語句抽出部の処理を示すフローチャートである。 本発明の一実施の形態における基底語句選定処理のフローチャートである。 本発明の一実施の形態における定義語句選定処理のフローチャートである。 本発明の一実施の形態における概念ベクトル生成処理のフローチャートである。
符号の説明
10 情報源、外部情報源
20 抽出語句データベース
30 基底語句データベース
40 定義語句データベース
50 概念辞書
60 データベース
100 抽出手段、抽出部
110 文書データ取得手段、文書データ取得部
120 語句抽出手段、語句抽出部
200 語句選定手段、語句選定部
210 基底語句選定手段、基底語句選定部
220 定義語句選定手段、定義語句選定部
300 概念ベクトル生成手段、概念ベクトル生成部
310 概念ベクトル計算手段、概念ベクトル計算部
320 概念ベクトル正規化部

Claims (4)

  1. ドメイン別概念辞書構築装置であって、
    ジャンル体系をもつドメインに分類される文書を収集する文書データ取得手段と、
    取得した文書データから語句を抽出して、文書毎に抽出された語句と文書内出現度数を抽出語句リストとして抽出語句データベースに記録する語句抽出手段と、
    前記抽出語句データベースに記録された抽出語句ごとに、前記文書内出現度数をジャンル別に集計し、最大出現度数に対して所定の割合以上となるジャンル数を半値幅として求め、半値幅に対する抽出語句数の度数分布グラフにおいて、最大な抽出語句数となる半値幅を中心に所定の幅を基底語句抽出区間とし、基底語句抽出区間に含まれる抽出語句を基底語句として選定し、基底語句データベースに格納する基底語句選定手段と、
    前記抽出語句データベースに記録された抽出語句ごとに、抽出語句のジャンルでの出現度数、抽出語句が出現するジャンル数を基にTFIGF値を求め、ジャンルごとにTFIGF値が大きい所定数の抽出語句を定義語句として選定し、定義語句データベースに格納する定義語句選定手段と、
    前記抽出語句データベース、前記基底語句データベース、前記定義語句データベースを利用し、前記定義語句が前記基底語句の各々と同一文書に出現するか否かを調べ、同一文書に出現する回数が多いほどに語句間の関連度が深いとして重みを付け、定義語句と基底語句との関連度を求めることにより、各定義語句を総基底語句数を次元とするベクトルであり基底語句との関連度からなる概念ベクトルとして表現する概念ベクトル計算手段と、を有する
    ことを特徴とするドメイン別概念辞書構築装置。
  2. ドメイン別概念辞書構築装置であって、
    ジャンル体系をもつドメインに分類される文書を収集する文書データ取得手段と、
    取得した文書データから語句を抽出して、文書毎に抽出された語句と文書内出現度数を抽出語句リストとして抽出語句データベースに記録する語句抽出手段と、
    前記抽出語句データベースに記録された抽出語句ごとに、前記文書内出現度数をジャンル別に集計し、最大出現度数に対して所定の割合以上となるジャンル数を半値幅として求め、ジャンル別の半値幅に対する抽出語句数の度数分布グラフにおいて、最大な抽出語句数となる半値幅を中心に所定の幅を基底語句抽出区間とし、基底語句抽出区間に含まれる抽出語句を当該ジャンルの基底語句として選定し、ジャンル別の基底語句を併合して全体の基底語句とし、基底語句データベースに格納する基底語句選定手段と、
    前記抽出語句データベースに記録された抽出語句ごとに、抽出語句のジャンルでの出現度数、抽出語句が出現するジャンル数を基にTFIGF値を求め、ジャンルごとにTFIGF値が大きい所定数の抽出語句を定義語句として選定し、定義語句データベースに格納する定義語句選定手段と、
    前記抽出語句データベース、前記基底語句データベース、前記定義語句データベースを利用し、前記定義語句が前記基底語句の各々と同一文書に出現するか否かを調べ、同一文書に出現する回数が多いほどに語句間の関連度が深いとして重みを付け、定義語句と基底語句との関連度を求めることにより、各定義語句を総基底語句数を次元とするベクトルであり基底語句との関連度からなる概念ベクトルとして表現する概念ベクトル計算手段と、を有する
    ことを特徴とするドメイン別概念辞書構築装置。
  3. 前記概念ベクトル計算手段で求められた概念ベクトルを正規化し、概念辞書に格納する概念ベクトル正規化手段を更に有する
    請求項1または2に記載のドメイン別概念辞書構築装置。
  4. 前記請求項1乃至3の何れか1項の記載のドメイン別概念辞書構築装置を構成する各手段としてコンピュータを機能させるためのドメイン別概念辞書構築プログラム。
JP2003384093A 2003-11-13 2003-11-13 ドメイン別概念辞書構築装置及びプログラム Expired - Fee Related JP4360181B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003384093A JP4360181B2 (ja) 2003-11-13 2003-11-13 ドメイン別概念辞書構築装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003384093A JP4360181B2 (ja) 2003-11-13 2003-11-13 ドメイン別概念辞書構築装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2005149015A JP2005149015A (ja) 2005-06-09
JP4360181B2 true JP4360181B2 (ja) 2009-11-11

Family

ID=34692626

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003384093A Expired - Fee Related JP4360181B2 (ja) 2003-11-13 2003-11-13 ドメイン別概念辞書構築装置及びプログラム

Country Status (1)

Country Link
JP (1) JP4360181B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5154535B2 (ja) * 2009-12-25 2013-02-27 ヤフー株式会社 スコア付形態素辞書の生成装置、方法、及びプログラム
JP6495856B2 (ja) * 2016-03-18 2019-04-03 株式会社Kddi総合研究所 適用用途の異なる辞書を生成する辞書生成装置、サーバ、プログラム及び方法
US10943673B2 (en) * 2019-04-10 2021-03-09 Tencent America LLC Method and apparatus for medical data auto collection segmentation and analysis platform

Also Published As

Publication number Publication date
JP2005149015A (ja) 2005-06-09

Similar Documents

Publication Publication Date Title
US6256629B1 (en) Method and apparatus for measuring the degree of polysemy in polysemous words
US9317533B2 (en) Adaptive image retrieval database
US20030225749A1 (en) Computer-implemented system and method for text-based document processing
US8380714B2 (en) Method, computer system, and computer program for searching document data using search keyword
US7197451B1 (en) Method and mechanism for the creation, maintenance, and comparison of semantic abstracts
US7792833B2 (en) Ranking search results using language types
US8543380B2 (en) Determining a document specificity
KR20180110713A (ko) 문서 유사도 분석 장치 및 방법
US20070112720A1 (en) Two stage search
JP2007249584A (ja) クライアントデータベース構築方法、データ検索方法、データ検索システム、データ検索フィルタリングシステム、クライアントデータベース構築プログラム、データ検索プログラム、データ検索フィルタリングプログラム及びプログラムを格納したコンピュータで読み取り可能な記録媒体並びに記録した機器
EP2045732A2 (en) Determining the depths of words and documents
JP5014479B2 (ja) 画像検索装置、画像検索方法及びプログラム
Wang et al. Sizing sketches: a rank-based analysis for similarity search
JP4360181B2 (ja) ドメイン別概念辞書構築装置及びプログラム
Phadnis et al. Framework for document retrieval using latent semantic indexing
EP1973045A1 (en) Organising and storing documents
Vadivel et al. An Effective Document Category Prediction System Using Support Vector Machines, Mann-Whitney Techniques
Scott et al. EBS kd tree: An entropy balanced statistical kd tree for image databases with ground-truth labels
Waegel The Development of Text-Mining Tools and Algorithms
Bashir Estimating retrievability ranks of documents using document features
EP1876540A1 (en) Organising and storing documents
JP2005234865A (ja) ドメイン別概念辞書構築方法及び装置及びプログラム
JP2005025465A (ja) 文書検索方法及び文書検索装置
KR101108600B1 (ko) 온톨로지를 이용한 문서간 유사도 측정 방법 및 장치
Claveau Indiscriminateness in representation spaces of terms and documents

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090310

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090512

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090626

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090721

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090803

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120821

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130821

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees