JP2009116415A

JP2009116415A - 概念情報データベース作成装置、概念情報データベース作成方法、プログラムおよび記録媒体

Info

Publication number: JP2009116415A
Application number: JP2007285578A
Authority: JP
Inventors: Masahiro Oku; 雅博奥; Katsuto Bessho; 克人別所; Toshiro Uchiyama; 俊郎内山
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2007-11-01
Filing date: 2007-11-01
Publication date: 2009-05-28

Abstract

【課題】構文解析をせずに、間接的に文法的・意味的な関係を捉え、単語間の類似性を判別する場合や文書検索を高精度化する場合に、十分な精度で概念情報データベースを作成することができる概念情報データベース作成装置を提供することを目的とする。
【解決手段】与えられた文書集合を解析し、上記与えられた文書集合中に存在している語の並びを抽出し、一定の文書範囲内に現れる上記語の並びと、上記一定の文書範囲内に現れる他の語の並びとの共起回数を計数し、上記共起回数を上記文書集合の全体にわたって集計することによって、共起度を算出し、上記算出された共起度に基づいて、上記語の並びの概念情報を定量化し、上記語の並びの概念情報を、データベースに格納する概念情報データベース作成装置である。
【選択図】図１

Description

本発明は、語の並びの持つ概念情報を定量化してデータベース化する装置および方法に係わり、特に、与えられた文書中に現れる語の並びの概念情報を、上記与えられた文書中に現れる語の並びと、一定の文書範囲内に現れる上記語の並びとの共起する回数を文書集合全体にわたって集計することによって、単語の概念情報を定量化する概念情報データベース作成装置および方法に関する。

従来から、単語間の類似性判別や、文書検索の高精度化を目的として、単語の概念情報をデータベース化する装置・方法が提案されている（たとえば、非特許文献１、非特許文献２参照）。この従来装置は、単語間の類似性判別を目的とし、単語を要素とした多次元空間を用意し、該多次元空間中に各単語をベクトルとして配置したデータベースの作成手法が提案されている。

また、特許文献１では、語の概念を表現する際に、文中の単語ｎ−ｇｒａｍ（ｎ＝１の場合は単語、ｎ＝２の場合は２語連鎖）同士の一定の範囲内（文内、段落内等）における共起をカウントし、それらを要素とした多次元ベクトルを用いることで、間接的に構文情報を勘案する発明が知られている（たとえば、特許文献１参照）。
Schuetze, H., "Dimensions of Meaning", in Proceedings of Supercomputing '92, pp.787-796, 1992 笠原，松澤，石川、「国語辞書を利用した日常語の類似性判別」、情報処理学会論文誌、Vol.38、No.7、pp.1272-1284、１９９７年特開２００６−２１５８５０号公報

しかし、上記従来例では、以下の問題が生じている。

（１）上記非特許文献１や非特許文献２に記載されている従来例では、文法的・意味的な関係を考慮せずに共起頻度を算出するので、単語間の類似性判別や文書検索の高精度化で利用するには十分ではないという問題がある。

（２）上記特許文献１記載の従来例では、文法的・意味的な関係を捉えるために、単語ｎ−ｇｒａｍを用いている。しかし、文法的・意味的な関係を表す重要な構文上のまとまりは、いわゆる文節（自立語と付属語からなる）であるので、無意味な単語ｎ−ｇｒａｍでも、共起をカウントし、多次元ベクトルの要素とする。たとえば、「我々は検索システムの研究開発を進めている」において、２語連鎖「我々は」や「検索システムの」といういわゆる文節以外に、「は検索システム」、「の研究」等の語連鎖をも対象とする。すなわち、単純な語連鎖だけで文法的・意味的な関係を捉えることは難しいという問題がる。この結果、十分な精度を持つ概念情報データベースを得ることは難しいという問題がある。

（３）さらに、無意味なｎ−ｇｒａｍは、いわゆる文節に比して、出現することが稀であるので、多次元ベクトルが非常に大きくなり、また、スパース（０要素が非常に多い）になり、計算量が非常に大きくなり、現実的なリソース（メモリ量、ＣＰＵ、パワー等）で計算することが困難であるという問題がある。

本発明は、構文解析をせずに、間接的に文法的・意味的な関係を捉え、単語間の類似性を判別する場合や文書検索を高精度化する場合に、十分な精度で概念情報データベースを作成することができる概念情報データベース作成装置を提供することを目的とする。

本発明は、与えられた文書集合を解析する文書解析手段と、上記与えられた文書集合中に存在している語の並びを抽出し、記憶装置に記憶する語の並び抽出手段と、一定の文書範囲内に現れる上記語の並びと、上記一定の文書範囲内に現れる他の語の並びとの共起回数を計数し、記憶装置に記憶する共起回数計数手段と、上記共起回数を上記文書集合の全体にわたって集計することによって、共起度を算出し、上記算出された共起度に基づいて、上記語の並びの概念情報を定量化し、記憶装置に記憶する概念情報定量化手段と、上記概念情報定量化手段が得た上記語の並びの概念情報を、データベースに格納する概念情報データベース作成手段とを有することを特徴とする概念情報データベース作成装置である。

本発明によれば、語の並び同士の共起を用いるので、構文解析をせずに、間接的に文法的・意味的な関係を捉え、単語間の類似性を判別する場合や文書検索を高精度化する場合に、十分な精度で概念情報データベースを作成することができるという効果を奏する。

発明を実施するための最良の形態は、以下の実施例である。

図１は、本発明の実施例１である概念情報データベース作成装置１０の基本構成を示すブロック図である。

概念情報データベース作成装置１０は、概念情報データベースを作成する元となる大量の文書集合２０を入力し、概念情報データベース３０を出力し、文書解析手段１１と、語の並び抽出手段１２と、共起回数計数手段１３と、概念情報定量化手段１４と、概念情報データベース作成手段１５とを有する。

文書解析手段１１は、文書集合２０に含まれている全ての文に対して形態素解析を行い、単語に分割し、また、各単語に品詞を付与する。

語の並び抽出手段１２は、文書集合２０に含まれている語の並びを抽出し、記憶装置に記憶する。

共起回数計数手段１３は、文書解析手段１１が行った解析結果を使用し、一定の文書範囲内に現れる語の並びについて、上記一定の文書範囲内に現れる語の並びを抽出し、共起回数をカウントし、記憶装置に記憶する。さらに、上記共起回数を文書集合２０の全体にわたって集計し、記憶装置に記憶する。

概念情報定量化手段１４は、共起回数計数手段１３が文書集合２０の全体にわたって集計した共起回数に基づいて、着目している語の並びと他の語の並びとの共起度を計算し、上記着目している語の並びに対する概念情報を定量化する。なお、上記「共起度」は、共起する度合いである。

概念情報データベース作成手段１５は、自立語または語の並びをキーとして、概念情報定量化手段１４が定量化した概念情報を検索するためにデータベース化する。

次に、概念情報データベース作成装置１０の概略動作について説明する。

図２は、概念情報データベース作成装置１０の概略動作を示すフローチャートである。

Ｓ１では、文書解析手段１１が文書集合２０から１つの文書を抜き出して処理対象とする。Ｓ２では、文書解析手段１１が、Ｓ１で取り出した文書から、１つの文を抜き出して処理対象とする。Ｓ３では、文書解析手段１１が、Ｓ２で取り出した１文に対して、形態素解析を行い、単語単位に分割し、各単語に品詞を付与する。

Ｓ４では、語の並び抽出手段１２が、形態素解析結果から全ての語の並びを抽出し、記憶装置に記憶する。Ｓ５では、共起回数計数手段１３が、抽出された語の並びのそれぞれに対して、一定の文書範囲内（実施例１では、同一文内）に共起する語の並びを抽出し、出現回数をカウントする。

Ｓ６では、取り出された文書中の全文を処理したか否かを判断する。未処理の文が存在すれば、Ｓ７に進み、未処理の文が存在しなければ（全文を処理済であれば）、Ｓ８に進む。Ｓ７では、次の文を対象として、Ｓ２〜Ｓ７の処理を繰り返す。

Ｓ８では、文書集合２０に含まれている全文書を処理したか否かを判断する。未処理の文書が存在すれば、Ｓ９に進み、未処理の文書が存在しなければ、文書集合２０の全文書の形態素解析結果を、語の並び抽出手段１２に送り、Ｓ１０に進む。

Ｓ９では、文書集合２０中の次の文書を処理対象とし、Ｓ１〜Ｓ９の処理を繰り返す。Ｓ１０では、共起回数計数手段１３が全文書にわたってカウントした結果を、概念情報定量化手段１４に送り、概念情報定量化手段１４では、送られてきたカウント結果に基づいて、抽出された語の並びのそれぞれについて、他の語の並びとの共起度を計算する。

共起度を計算する場合、共起回数をそのまま共起度としてもよく、また、共起回数を正規化するようにしてもよい。共起回数を正規化する場合、所定の語の並びの出現回数で、共起する語の並びの回数を除すことによって正規化してもよく、また、全ての語の並びの出現回数で、各語の並びの回数を除すことによって正規化するようにしてもよい。上記実施例において、共起度を計算する方法については限定しない。

Ｓ１１で、上記計算された共起度に基づいて、概念情報定量化手段１４が、それぞれの語の並びの概念情報を定量化し、この定量化した結果を、概念情報データベース作成手段１５に送る。

概念情報を定量化する場合、語の並びの全てを要素とする行ベクトルを用いて概念情報を定量化する方法、語の並びの要素が０のものを削除した要素のみを行ベクトルとして概念情報を定量化する方法、特異値分解等の数値計算によって行ベクトルの次元を圧縮した行ベクトルを用いて概念情報を定量化する方法が考えられる。上記実施例では、概念情報を定量化する方法については限定しない。

Ｓ１２では、概念情報データベース作成手段１５が、語の並びをキーとして、上記語の並びの概念情報を検索するために、概念情報データベース３０を作成する。そして、概念情報作成処理を終了する。

次に、具体例を用いて概念情報データベース作成装置１０の動作を説明する。

図３は、実施例１で使用する文書集合２０の内容の例を示す図である。

文書集合２０は、ｎ個（ｎは整数）の文書によって構成されているとする。第１文書２１、第２文書２２、…、第ｎ文書２ｎは、文書集合２０に含まれている文書であり、この順で、文書集合２０を構成しているとし、第ｎ文書２ｎを文書集合２０の最終文書とする。

具体例では、図３に示す文書集合２０を対象として、概念情報データベース３０を作成する。また、上記具体例では、抽出する語の並びは、文節であり、１つ以上の自立語と０個以上の付属語とによって、抽出する語の並びが構成されている。

上記一定の文書範囲は同一文であるとする。また、共起度として、共起回数そのままを用い、語の並びの概念情報を定量化する場合、共起する語の並びを要素とするベクトルとして、概念情報を定量化する。

文書解析手段１１が、図３に示す文書集合２０から、第１文書２１を抽出する（Ｓ１）。次に文書解析手段１１が、Ｓ１で取り出された第１文書２１中から、第１文を抽出する（Ｓ２）。図３に示す第１文書２１から、第１文として、「我々は検索技術の研究開発を進めている。」が抽出される。文書解析手段１１が、この第１文について、形態素解析を行うことによって、上記第１文を単語単位に分割し、分割された各単語に、品詞を表す識別子を付与し、記憶装置に記憶する（Ｓ３）。上記第１文に対する形態素解析結果は、次に示すようである。なお、「／」は、単語境界を示し、「［］」は、品詞等を示す。

第１文書２１の第１文の形態素解析結果例は、「我々［代名詞］／は［副助詞］／検索技術［複合名詞］／の［格助詞］／研究［サ変名詞］／開発［サ変名詞］／を［格助詞］／進め［動詞・連用］／て［接続助詞］／いる［補助動詞・終止］／。［句点］／」である。

語の並び抽出手段１２が、上記形態素解析結果から、全ての語の並びを取り出し、記憶装置に記憶する（Ｓ４）。具体例では、抽出する語の並びは、文節であり、この文節は、１つ以上の自立語と０個以上の付属語とによって構成されている。したがって、第１文書２１の第１文の形態素解析結果から、「我々は」、「検索技術の」、「研究開発を」、「進めている」の４つの「語の並び」が抽出される。

共起回数計数手段１３が、抽出された「語の並び」のそれぞれに対して、同一文書内において共起する「語の並び」の共起回数をカウントする（Ｓ５）。第１文書２１の第１文に関して、それぞれの「語の並び」について、共起している「語の並び」と、その共起回数とを括弧書きで表すと、次のようになる。

「我々は」：（「検索技術の」、１）、（「研究開発を」、１）、（「進めている」、１）
「検索技術の」：（「研究開発を」、１）、（「進めている」、１）
「研究開発を」：（「進めている」、１）。

つまり、上記記載は、語の並び「我々は」に着目すると、語の並び「我々は」と語の並び「検索技術の」との共起回数は「１」であることを示し、また、語の並び「我々は」と語の並び「研究開発を」との共起回数は「１」であることを示し、さらに、語の並び「我々は」と語の並び「進めている」との共起回数は「１」であることを示している。語の並び、「検索技術の」、「研究開発を」に着目した場合の共起回数も、上記と同様である。

次に、取り出された第１文書２１中の全文を処理したか否かを判断する（Ｓ６）。未処理の文が残っているので、次の第２文「我々は検索技術の利用目的は人によって様々だと考えている。」を処理対象とする（Ｓ７）。上記第２文についても、上記第１文における処理と同様に、Ｓ２〜Ｓ５の処理を行い、形態素解析と識別子付与（Ｓ３）、語の並びの抽出（Ｓ４）と共起回数のカウント（Ｓ５）を行い、記憶装置に記憶する。

第１文書２１の第２文の形態素解析結果例は、「我々［代名詞］／は［副助詞］／検索技術［複合名詞］／の［格助詞］／利用［サ変名詞］／目的［名詞］／は［副助詞］／様々だ［形容動詞・終止］／と［格助詞］／考え［動詞・連用］／て［接続助詞］／いる［補助動詞・終止］／。［句点］／」である。

第１文書の第２文における語の並びは、「我々は」、「検索技術の」、「利用目的は」、「様々だと」、「考えている」の５つである。

第１文書２１の第２文に関して、それぞれの語の並びについて、共起している語の並びと、その共起回数とを括弧書きで表すと、次のようになる。

「我々は」：（「検索技術の」、１）、（「利用目的は」、１）、（「様々だと」、１）、（「考えている」、１）
「検索技術の」：（「利用目的は」、１）、（「様々だと」、１）、（「考えている」、１）
「利用目的は」：（「様々だ」と、１）、（「考えている」、１）
「様々だと」：（「考えている」、１）。

第１文書２１の第１文と第２文との処理が終わった時点で、共起回数のカウント結果は、次のようになる。なお、「我々は」と「検索技術の」との共起回数が２となっていることに注意を要する。

「我々は」：（「検索技術の」、２）、（「研究開発を」、１）、（「進めている」、１）、（「利用目的は」、１）、（「様々だと」、１）、（「考えている」、１）
「検索技術の」：（「研究開発を」、１）、（「進めている」、１）、（「利用目的は」、１」、（「様々だと、１」、（「考えている」１）
「研究開発を」：（「進めている」、１）
「利用目的は」：（「様々だと」、１）、（「考えている」、１）
「様々だと」：（「考えている」、１）。

第１文書２１に含まれている全文が処理されると、文書集合２０に含まれている全文書を処理したか否かを判断する（Ｓ８）。第２文書２２以降が残っているので、文書集合２０は、第２文書２２を、次の処理対象とする（Ｓ９）。

図４は、上記具体例において、文書集合２０から抽出した語の並びのそれぞれと、他の語の並びのそれぞれとの共起回数の例を示す図である。

図４において、たとえば、語の並び「我々は」と、語の並び「検索技術の」とが同一文内で共起する回数である共起回数をカウントし、全文書の処理が終わったときのカウントの合計値が、図４に示すように、２９回である。

次に、共起回数計数手段１３がカウントした結果に基づいて、第１文書２１から抽出した語の並びのそれぞれについて、概念情報定量化手段１４が共起度を計算する（Ｓ１０）。具体例では、共起度として共起回数をそのまま用いるので、図４が、語の並びの共起度を示す。

概念情報定量化手段１４は、共起度に基づいて、それぞれの語の並びに対する概念情報を定量化した後に、この定量化した結果を、概念情報データベース作成手段１５に送る（Ｓ１１）。

具体例では、共起する語の並びを要素とするベクトルを、概念情報として定量化するので、図４に示す各行ベクトルが、対応する語の並びに対する定量化後の概念情報である。

概念情報の定量化結果を受け取った概念情報データベース作成手段１５は、語の並びをキーとして、この語の並びの概念情報を検索するために、概念情報データベース３０を作成し、概念情報データベース作成処理を終了する（Ｓ１２）。

上記動作によって、文書集合２０から、語の並びの共起度を要素とする行ベクトルによって、語の並びの概念情報が表現された概念情報データベース３０を作成することができる。

図５は、本発明の実施例２の説明図である。

本発明の実施例２は、語の並びのうち、自立語をもキーとして検索することができる概念情報データベースを作成する実施例である。

つまり、実施例２は、図４に示す例において、語の並びを構成する自立語毎に、共起回数を集計した実施例である。この集計した値を用いることによって、共起する語の並びの行ベクトルとして、自立語の概念情報を表すことができる。

つまり、共起回数計数手段１３は、一定の文書範囲内に現れる語の並びの一部と、上記一定の文書範囲内に現れる他の語の並びの一部との共起回数をも計数する手段である。たとえば、語の並び「我々は、」における「語の並びの一部」は、「我々」であり、他の語の並び「考えている」における「語の並びの一部」は、「考え」であり、上記「我々」と、上記「考え」との共起回数をカウントし、共起回数７０２回を得る。

すなわち、上記実施例は、与えられた文書集合を解析する文書解析手段と、上記与えられた文書集合中に存在している語の並びを抽出し、記憶装置に記憶する語の並び抽出手段と、一定の文書範囲内に現れる上記語の並びと、上記一定の文書範囲内に現れる他の語の並びとの共起回数を計数し、記憶装置に記憶する共起回数計数手段と、上記共起回数を上記文書集合の全体にわたって集計することによって、共起する度合いを示す共起度を算出し、上記算出された共起度に基づいて、上記語の並びの概念情報を定量化し、記憶装置に記憶する概念情報定量化手段と、上記概念情報定量化手段が得た上記語の並びの概念情報を、データベースに格納する概念情報データベース作成手段とを有する概念情報データベース作成装置の例である。

この場合、上記一定の文書範囲は、段落である。なお、上記一定の文書の範囲が、文または文書であってもよい。そして、上記語の並びは、文節である。さらに、上記共起回数計数手段は、上記一定の文書範囲内に現れる語の並びの一部と、上記一定の文書範囲内に現れる他の語の並びの一部との共起回数をも計数する手段であり、この場合、上記語の並びの一部は、少なくとも１つの自立語である。

そして、上記実施例を方法の発明として把握することができる。つまり、上記実施例は、与えられた文書集合を、文書解析手段が解析する文書解析工程と、上記与えられた文書集合中に存在している語の並びを、語の並び抽出手段が、抽出し、記憶装置に記憶する語の並び抽出工程と、一定の文書範囲内に現れる上記語の並びと、上記一定の文書範囲内に現れる他の語の並びとの共起回数を、共起回数計数手段が、計数し、記憶装置に記憶する共起回数計数工程と、概念情報定量化手段が、上記共起回数を上記文書集合の全体にわたって集計することによって、共起度を算出し、上記算出された共起度に基づいて、上記語の並びの概念情報を定量化し、記憶装置に記憶する概念情報定量化工程と、上記概念情報定量化工程で得た上記語の並びの概念情報を、概念情報データベース作成手段が、データベースに格納する概念情報データベース作成工程とを有する概念情報データベース作成方法の例である。

本発明の実施例３は、実施例１、実施例２において、概念情報定量化手段１４を削除した実施例である。この場合、概念情報データベース作成手段１５は、共起回数計数手段１３が得た上記共起回数の計数結果を語の並びの概念情報として、データベースに格納する手段である。

つまり、実施例３は、与えられた文書集合を解析する文書解析手段と、上記与えられた文書集合中に存在している語の並びを抽出し、記憶装置に記憶する語の並び抽出手段と、一定の文書範囲内に現れる上記語の並びと、上記一定の文書範囲内に現れる他の語の並びとの共起回数を計数し、記憶装置に記憶する共起回数計数手段と、上記共起回数計数手段が得た上記共起回数の計数結果を語の並びの概念情報として、データベースに格納する概念情報データベース作成手段とを有する概念情報データベース作成装置の例である。

また、実施例３を方法の発明として把握することができる。つまり、実施例３は、与えられた文書集合を、文書解析手段が解析する文書解析工程と、上記与えられた文書集合中に存在している語の並びを、語の並び抽出手段が、抽出し、記憶装置に記憶する語の並び抽出工程と、一定の文書範囲内に現れる上記語の並びと、上記一定の文書範囲内に現れる他の語の並びとの共起回数を、共起回数計数手段が、計数し、記憶装置に記憶する共起回数計数工程と、上記共起回数計数工程で得た上記共起回数の計数結果を語の並びの概念情報として、概念情報データベース作成手段が、データベースに格納する概念情報データベース作成工程とを有する概念情報データベース作成方法の例である。

上記各実施例は、語の並びとして、文節を使用するので、文法的な関係を考慮して共起度を算出している。したがって、上記各実施例によれば、単語間の類似性判別や文書検索の高度化に利用することができる。また、上記各実施例は、自立語に連接する助詞を区別して扱うことによって、主語、目的語等を考慮しているので、意味的な関係を考慮して共起度を算出している。したがって、上記各実施例を、単語間の類似性判別や文書検索の高度化に利用することができる。

また、上記各実施例をプログラムの発明として把握することができる．すなわち、上記各実施例である概念情報データベース作成装置を構成する各手段としてコンピュータを機能させるプログラムを考えることができる。

さらに、上記プログラムを記録したコンピュータ読取可能な記録媒体を考えることができる。上記記録媒体として、ＣＤ、ＤＶＤ、ハードディスク、光ディスク、光磁気ディスク、半導体メモリなどを想定することができる。

本発明の実施例１である概念情報データベース作成装置１０の基本構成を示すブロック図である。概念情報データベース作成装置１０の概略動作を示すフローチャートである。実施例１で使用する文書集合２０の内容の例を示す図である。文書集合２０から抽出した語の並びのそれぞれと、他の語の並びのそれぞれとの共起回数の例を示す図である。本発明の実施例２の説明図である。

符号の説明

１０…概念情報データベース作成装置、
１１…文書解析手段、
１２…語の並び抽出手段、
１３…共起回数計数手段、
１４…概念情報定量化手段、
１５…概念情報データベース作成手段、
２０…文書集合、
２１…第１文書、
２２…第２文書、
２ｎ…第ｎ文書（最終文書）、
３０…概念情報データベース。

Claims

与えられた文書集合を解析する文書解析手段と；
上記与えられた文書集合中に存在している語の並びを抽出し、記憶装置に記憶する語の並び抽出手段と；
一定の文書範囲内に現れる上記語の並びと、上記一定の文書範囲内に現れる他の語の並びとの共起回数を計数し、記憶装置に記憶する共起回数計数手段と；
上記共起回数計数手段が得た上記共起回数の計数結果を語の並びの概念情報として、データベースに格納する概念情報データベース作成手段と；
を有することを特徴とする概念情報データベース作成装置。
与えられた文書集合を解析する文書解析手段と；
上記与えられた文書集合中に存在している語の並びを抽出し、記憶装置に記憶する語の並び抽出手段と；
一定の文書範囲内に現れる上記語の並びと、上記一定の文書範囲内に現れる他の語の並びとの共起回数を計数し、記憶装置に記憶する共起回数計数手段と；
上記共起回数を上記文書集合の全体にわたって集計することによって、共起する度合いを示す共起度を算出し、上記算出された共起度に基づいて、上記語の並びの概念情報を定量化し、記憶装置に記憶する概念情報定量化手段と；
上記概念情報定量化手段が得た上記語の並びの概念情報を、データベースに格納する概念情報データベース作成手段と；
を有することを特徴とする概念情報データベース作成装置。
請求項１または請求項２において、
上記一定の文書範囲は、文であることを特徴とする概念情報データベース作成装置。
請求項１〜請求項３のいずれか１項において、
上記語の並びは、文節であることを特徴とする概念情報データベース作成装置。
請求項１〜請求項４のいずれか１項において、
上記共起回数計数手段は、上記一定の文書範囲内に現れる語の並びの一部と、上記一定の文書範囲内に現れる他の語の並びの一部との共起回数をも計数する手段であることを特徴とする概念情報データベース作成装置。
請求項１〜請求項５いずれか１項において、
上記語の並びの一部は、少なくとも１つの自立語であることを特徴とする概念情報データベース作成装置。
与えられた文書集合を、文書解析手段が解析する文書解析工程と；
上記与えられた文書集合中に存在している語の並びを、語の並び抽出手段が、抽出し、記憶装置に記憶する語の並び抽出工程と；
一定の文書範囲内に現れる上記語の並びと、上記一定の文書範囲内に現れる他の語の並びとの共起回数を、共起回数計数手段が、計数し、記憶装置に記憶する共起回数計数工程と；
上記共起回数計数工程で得た上記共起回数の計数結果を語の並びの概念情報として、概念情報データベース作成手段が、データベースに格納する概念情報データベース作成工程と；
を有することを特徴とする概念情報データベース作成方法。
与えられた文書集合を、文書解析手段が解析する文書解析工程と；
上記与えられた文書集合中に存在している語の並びを、語の並び抽出手段が、抽出し、記憶装置に記憶する語の並び抽出工程と；
一定の文書範囲内に現れる上記語の並びと、上記一定の文書範囲内に現れる他の語の並びとの共起回数を、共起回数計数手段が、計数し、記憶装置に記憶する共起回数計数工程と；
概念情報定量化手段が、上記共起回数を上記文書集合の全体にわたって集計することによって、共起度を算出し、上記算出された共起度に基づいて、上記語の並びの概念情報を定量化し、記憶装置に記憶する概念情報定量化工程と；
上記概念情報定量化工程で得た上記語の並びの概念情報を、概念情報データベース作成手段が、データベースに格納する概念情報データベース作成工程と；
を有することを特徴とする概念情報データベース作成方法。
請求項１〜請求項６記載の概念情報データベース作成装置を構成する各手段としてコンピュータを機能させるプログラム。
請求項９記載のプログラムを記録したコンピュータ読取可能な記録媒体。