JP6930180B2

JP6930180B2 - 学習装置、学習方法及び学習プログラム

Info

Publication number: JP6930180B2
Application number: JP2017068552A
Authority: JP
Inventors: 裕司溝渕
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-03-30
Filing date: 2017-03-30
Publication date: 2021-09-01
Anticipated expiration: 2037-03-30
Also published as: JP2018169940A; US20180285347A1; US10747955B2

Description

本発明は、学習装置、学習方法及び学習プログラムに関する。

文章処理において、文内で共起する（同時に出現する）単語のベクトルを用いて、単語の表現を獲得する技術が知られている。例えば、クラスターを二次元平面上に配置してクラスターマップを作成する技術が知られている。当該技術は、検索文の入力や検索結果の出力を行う利用者用端末装置と、検索文に基づいて特許文献の検索処理を行う検索装置と、検索装置に特許文献の登録を行う管理用端末装置とを用いる。当該技術は、大量の技術文献(特許文献など)をいくつかの多次元空間上のクラスターに効率よく分類し、これらクラスターを二次元平面上に配置してクラスターマップを作成する。

また、携帯機器によって得られたコンテキストデータに対してセマンティック分類を自動的に決定する技術も知られている。当該技術は、１つ以上のコンテキストデータストリームを時間とともにサンプリングし、サンプリングされたコンテキストデータにおいて１つ以上のクラスタを特定するためにクラスタリングアルゴリズムを適用する。また、当該技術は、一連の所定の概念名からある概念名を、１つ以上のクラスタのセマンティック分類として、自動的に決定するために推論エンジンを実行し、１つ以上のクラスタへ概念名を割当てるか、またはその割当てをユーザに提案する。

特開２００５−０９２４４２号公報特開２００８−１７１４１８号公報

Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. "Efficient Estimation of Word Representations in Vector Space." In Proceedings of Workshop at ICLR, 2013. Xu Chang et al." Rc-net:A general framework for incorporating knowledge into word representations." Proceeding of the ２３rd ACM International Conference on Conference on Information and knowledge Management. ACM, 2014. Bengio, Yoshua, et al. "A neural probabilistic language model." Journal of machine learning research 3.Feb (2003): 1137-1155. Guo, Jiang, et al. "Learning Sense-specific Word Embeddings By Exploiting Bilingual Resources." COLING. 2014

しかし、上記技術においては、入力文書数が少ない場合に、分散学習の精度が低下するという問題がある。特に、概念名を、１つ以上のクラスタのセマンティック分類として、自動的に決定すると、単語が概念名ごとに細分化されるため、当該概念名を含む入力文書数が減少するので、分散学習の精度が低下しやすい。

一つの側面では、分散学習に用いる入力文書数を確保する学習装置、学習方法及び学習プログラムを提供することを目的とする。

一つの態様において、学習装置は、複数の文書を、当該文書に含まれる単語を用いてクラスタに分類する際に、クラスタの分類に用いられた各単語にラベルを付与する。学習装置は、各単語に付与されたラベルを用いて、複数の文書をクラスタに分類する。さらに、学習装置は、第１の単語を用いて分類されたクラスタと、第２の単語を用いて分類されたクラスタとが類似する場合に、第１の単語に付与されたラベルと共通するラベルを第２のラベルに付与する。

一つの態様によれば、分散学習に用いる入力文書数を確保できる。

図１は、実施例１における学習装置の一例を示す図である。図２は、実施例１における学習用コーパスの一例を示す図である。図３は、実施例１における表層単語辞書の一例を示す図である。図４Ａは、実施例１におけるコンテキスト記憶部の一例を示す図である。図４Ｂは、実施例１におけるコンテキスト記憶部の別の一例を示す図である。図４Ｃは、実施例１におけるコンテキスト記憶部の別の一例を示す図である。図４Ｄは、実施例１におけるコンテキスト記憶部の別の一例を示す図である。図４Ｅは、実施例１におけるコンテキスト記憶部の別の一例を示す図である。図４Ｆは、実施例１におけるコンテキスト記憶部の別の一例を示す図である。図５は、実施例１におけるクラスタ記憶部の一例を示す図である。図６は、実施例１における意味ラベル記憶部の一例を示す図である。図７は、実施例１における更新後のコンテキスト記憶部の一例を示す図である。図８は、実施例１における更新後のクラスタ記憶部の一例を示す図である。図９は、実施例１におけるクラスタリング結果の一例を示す図である。図１０は、実施例１におけるクラスタの出力結果の一例を示す図である。図１１は、実施例１における学習処理の一例を示すフローチャートである。図１２は、実施例２におけるラベル付与前のクラスタ記憶部の一例を示す図である。図１３は、実施例２におけるラベル付与後のクラスタ記憶部の一例を示す図である。図１４は、実施例３におけるクラスタリング結果の一例を示す図である。図１５は、実施例３における学習装置の一例を示す図である。図１６は、実施例３における単語意味辞書の一例を示す図である。図１７は、実施例３における学習処理の一例を示すフローチャートである。図１８は、実施例４における閾値算出処理の一例を示すフローチャートである。図１９は、コンピュータのハードウェア構成例を示す図である。

以下に、本願の開示する学習装置、学習方法及び学習プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、以下に示す各実施例は、矛盾を起こさない範囲で適宜組み合わせても良い。

以下の実施例においては、いずれも「携帯可能なコンピュータ」の意味を有する「notebook」及び「laptop」、並びにいずれも「机」の意味を有する「table」及び「desk」の各単語を含む英語の文書を対象とする分散学習について説明する。なお、実施の形態は英語の文書を対象とする分散学習に限られず、例えば日本語や中国語などのその他の言語の文書を用いてもよい。

［機能ブロック］
本実施例における学習装置の一例について、図１を用いて説明する。図１は、実施例１における学習装置の一例を示す図である。図１に示すように、本実施例における学習装置１００は、記憶部１２０と、分析部１３０とを有する。

記憶部１２０は、例えば分析部１３０が実行するプログラムなどの各種データなどを記憶する。また、記憶部１２０は、学習用コーパス１２１、表層単語辞書１２２、コンテキスト記憶部１２３、クラスタ記憶部１２４及び意味ラベル記憶部１２５を有する。記憶部１２０は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ（Flash Memory）などの半導体メモリ素子や、ＨＤＤ（Hard Disk Drive）などの記憶装置に対応する。

学習用コーパス１２１は、学習に用いられるコーパスである。なお、コーパスとは、文章の集まりのことをいう。図２は、実施例１における学習用コーパスの一例を示す図である。図２に示すように、学習用コーパス１２１は、複数の「文書」を、文書を一意に識別する識別子である「文書ＩＤ」（Identifier）に対応付けて記憶する。例えば、学習用コーパス１２１は、"I wrote a memo in my notebook on the table."という文書を、文書ＩＤ「ｓ１」と対応付けて記憶する。なお、学習用コーパス１２１には、例えば図示しない通信部を通じて取得した情報が予め記憶される。また、本実施例における「文書」は、図２に示すように、例えば１つの文であるが、これに限られず、複数の文を含む文書であってもよい。

次に、表層単語辞書１２２は、学習用コーパス１２１に記憶された文書から抽出される単語の表層を記憶する。なお、以下において、単語の意味を考慮せずに単語の表記について説明する場合、「表層」と表現する場合がある。

図３は、実施例１における表層単語辞書の一例を示す図である。図３に示すように、表層単語辞書１２２は、例えば、学習用コーパス１２１の文書ＩＤ「ｓ１」の文書に含まれる単語を、単語の表層を一意に識別する識別子である表層ＩＤ「ｗ１」乃至「ｗ１０」とそれぞれ対応付けて記憶する。同様に、表層単語辞書１２２は、学習用コーパス１２１の文書ＩＤ「ｓ２」の文書に含まれる単語のうち、未登録の単語「switched」及び「off」を、表層ＩＤ「ｗ１１」及び「ｗ１２」とそれぞれ対応付けて記憶する。同様に、表層単語辞書１２２は、文書ＩＤ「ｓ４２」の文書に含まれる単語のうち未登録の単語「desk」、及び文書ＩＤ「ｓ１０４」の文書に含まれる単語のうち未登録の単語「laptop」を、表層ＩＤ「ｗ５３」及び「ｗ７８」とそれぞれ対応付けて記憶する。なお、表層単語辞書１２２に記憶される情報は、後に説明する辞書生成部１３１により入力される。また、表層単語辞書１２２が、１つの単語だけでなく、例えば複数の単語からなる熟語を、表層ＩＤと対応付けて記憶するような構成であってもよい。

次に、コンテキスト記憶部１２３は、コーパスで出現する文において、文内で共起する単語のベクトル（Bag of words）を求めたものであるコンテキストを記憶する。本実施例におけるコンテキストは、学習用コーパス１２１に記憶される文書ＩＤごとに生成される。また、本実施例におけるコンテキストは、一つの文書に対しても、推定したい単語ごとに個別に生成される。このため、本実施例におけるコンテキスト記憶部１２３は、表層単語辞書１２２に記憶される単語ごとに一つのテーブルを有する。なお、コンテキスト記憶部１２３に記憶される情報は、後に説明するコンテキスト生成部１３２により入力される。

本実施例におけるコンテキスト記憶部１２３が記憶する情報について、図４Ａ乃至図４Ｆを用いて説明する。図４Ａは、実施例１におけるコンテキスト記憶部の一例を示す図である。図４Ａは、表層単語辞書１２２に記憶される表層ＩＤ「ｗ１」の単語「Ｉ」のコンテキストを記憶するテーブルを示す。図４Ａに示すように、コンテキスト記憶部１２３は、「コンテキスト」を、コンテキストを一意に識別する識別子である「コンテキストＩＤ」に対応付けて記憶する。なお、コンテキストＩＤは、学習用コーパス１２１に記憶する文書ＩＤと一対一で対応する。すなわち、図４Ａに示すコンテキストＩＤ「ｃ１」は、推定したい単語「ｗ１」に対して生成された、図２に示す文書ＩＤ「ｓ１」の文書のコンテキストを示す。同様に、図４Ａに示すコンテキストＩＤ「ｃｎ」は、推定したい単語「ｗ１」に対して生成された、図２に示す文書ＩＤ「ｓｎ」の文書のコンテキストを示す。

本実施例におけるコンテキストは、図４Ａに示すように、文書中に出現する単語を１、文書中に出現しない単語を０とするベクトルの形で示される。図４Ａにおいて、ベクトルの第１項は、表層単語辞書１２２の表層ＩＤ「ｗ１」の単語が出現するか否かを示す。同様に、図４Ａに示すベクトルの第ｎ項は、表層単語辞書１２２の表層ＩＤ「ｗｎ」の単語が出現するか否かを示す。ただし、本実施例におけるコンテキストにおいては、推定したい単語を示す項の値は、常に「０」で示す。図４Ａは、表層ＩＤ「ｗ１」のコンテキストを示すので、図４Ａの符号１１０１に示すように、各コンテキストの第１項の値は常に「０」となる。また、コンテキストＩＤ「ｃ３」に対応する文書ＩＤ「ｓ３」の文書には単語「I」が登場しないため、図４Ａの符号１１１１に示すように、コンテキストＩＤ「ｃ３」のコンテキストは「Ｎ／Ａ」（該当無し）となる。

次に、その他の単語に対応するコンテキスト記憶部１２３の内容について説明する。図４Ｂ乃至図４Ｆは、実施例１におけるコンテキスト記憶部の別の一例を示す図である。図４Ｂは、表層単語辞書１２２に記憶される表層ＩＤ「ｗ２」の単語「wrote」のコンテキストを記憶するテーブルを示すので、図４Ｂの符号１２０１に示すように、各コンテキストの第２項の値は常に「０」となる。また、単語「wrote」は、コンテキストＩＤ「ｃ２」、「ｃ３」、「ｃ４２」及び「ｃ１０４」のいずれに対応する文書においても登場しない。このため、図４Ｂに示すテーブルは、コンテキストＩＤ「ｃ２」、「ｃ３」、「ｃ４２」及び「ｃ１０４」のコンテキスト１２１１は「Ｎ／Ａ」であることを記憶する。

次に、図４Ｃは、表層単語辞書１２２に記憶される表層ＩＤ「ｗ７」の単語「notebook」のコンテキストを記憶するテーブルを示すので、図４Ｃの符号１３０１に示すように、各コンテキストの第７項の値は常に「０」となる。また、単語「notebook」は、コンテキストＩＤ「ｃ１０４」に対応する文書には登場しないので、図４Ｃに示すテーブルは、コンテキストＩＤ「ｃ１０４」のコンテキストは「Ｎ／Ａ」であることを記憶する。

同様に、図４Ｄは、表層単語辞書１２２に記憶される表層ＩＤ「ｗ１０」の単語「table」のコンテキストを記憶するテーブルを示すので、図４Ｄの符号１４０１に示すように、各コンテキストの第１０項の値は常に「０」となる。また、単語「table」は、コンテキストＩＤ「ｃ４２」に対応する文書には登場しないので、図４Ｄに示すテーブルは、コンテキストＩＤ「ｃ４２」のコンテキストは「Ｎ／Ａ」であることを記憶する。

また、図４Ｅは、表層単語辞書１２２に記憶される表層ＩＤ「ｗ５３」の単語「desk」のコンテキストを記憶するテーブルを示すので、図４Ｅの符号１５０１に示すように、各コンテキストの第５３項の値は常に「０」となる。単語「desk」は、コンテキストＩＤ「ｃ１」、「ｃ２」、「ｃ３」及び「ｃ１０４」のいずれに対応する文書においても登場しない。このため、図４Ｅに示すテーブルは、コンテキストＩＤ「ｃ１」、「ｃ２」、「ｃ３」及び「ｃ１０４」のコンテキストは「Ｎ／Ａ」であることを記憶する。同様に、図４Ｆは、表層単語辞書１２２に記憶される表層ＩＤ「ｗ７８」の単語「laptop」のコンテキストを記憶するテーブルを示すので、図４Ｆの符号１６０１に示すように、各コンテキストの第７８項の値は常に「０」となる。単語「laptop」は、コンテキストＩＤ「ｃ１」、「ｃ２」、「ｃ３」及び「ｃ４２」のいずれに対応する文書においても登場しない。このため、図４Ｆに示すテーブルは、コンテキストＩＤ「ｃ１」、「ｃ２」、「ｃ３」及び「ｃ４２」のコンテキストは「Ｎ／Ａ」であることを記憶する。

次に、クラスタ記憶部１２４は、コンテキスト記憶部１２３に記憶されたコンテキストをクラスタリングした結果を記憶する。なお、クラスタ記憶部１２４に記憶される情報は、後に説明するクラスタリング処理部１３３により入力され、又は更新される。

クラスタ記憶部１２４は、図５に示すように、推定したい単語ごとに、クラスタリング処理により特定された、当該単語が登場するコンテキストを含むクラスタを記憶する。図５は、実施例１におけるクラスタ記憶部の一例を示す図である。図５の符号２００１乃至２１０２に示すように、クラスタ記憶部１２４は、「クラスタＩＤ」と、「コンテキストＩＤ」とを、「表層ＩＤ」に対応付けて記憶する。

図５において、「クラスタＩＤ」は、推定したい単語を含むクラスタを一意に識別する識別子である。なお、本実施例においては、いずれの表層ＩＤの単語も１つのクラスタのみに関連するため、何れのクラスタＩＤも「cluster1」となる。

次に、意味ラベル記憶部１２５は、表層単語辞書１２２に記憶される各単語に対して付与される意味ラベルを記憶する。なお、意味ラベル記憶部１２５に記憶される情報は、後に説明するラベル付与部１３４により入力される。図６は、実施例１における意味ラベル記憶部の一例を示す図である。図６に示すように、意味ラベル記憶部１２５は、「表層ＩＤ」と、「単語」とを、「ラベルＩＤ」に対応付けて記憶する。

図６において、「ラベルＩＤ」は、各表層ＩＤの単語に対して付与される意味ラベルを一意に識別する識別子である。なお、本実施例においては、図６の符号３００１及び３００２に示すように、１つのラベルＩＤに対して、複数の表層ＩＤが対応付けられて記憶される場合がある。例えば、ラベルＩＤ「ｍ７」に対しては、表層ＩＤ「ｗ７」の単語「notebook」と表層ＩＤ「ｗ７８」の単語「laptop」とが対応付けられて記憶される。同様に、ラベルＩＤ「ｍ１０」に対しては、表層ＩＤ「ｗ１０」の単語「table」と表層ＩＤ「ｗ５３」の単語「desk」とが対応付けられて記憶される。

次に、分析部１３０は、学習装置１００の全体的な処理を司る処理部である。分析部１３０は、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、内部の記憶装置に記憶されているプログラムがＲＡＭを作業領域として実行されることにより実現される。また、分析部１３０は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現されるようにしてもよい。この分析部１３０は、辞書生成部１３１、コンテキスト生成部１３２、クラスタリング処理部１３３、ラベル付与部１３４及び出力部１３５を有する。なお、辞書生成部１３１、コンテキスト生成部１３２、クラスタリング処理部１３３、ラベル付与部１３４及び出力部１３５は、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。

辞書生成部１３１は、学習用コーパス１２１から文書を読み出し、文書から単語を抽出する。辞書生成部１３１は、例えば公知の形態素解析技術や単語分割技術等を用いて、文書から単語を抽出する。また、辞書生成部１３１は、図３に示すように、抽出された単語に表層ＩＤを付与して、表層単語辞書１２２に記憶する。

次に、コンテキスト生成部１３２は、表層単語辞書１２２に記憶された単語ごとに、学習用コーパス１２１に記憶された各文書からコンテキストを生成し、例えば図４Ａ乃至図４Ｆに示すようにコンテキストＩＤを付与してコンテキスト記憶部１２３に記憶する。

コンテキスト生成部１３２は、学習用コーパス１２１に記憶される、特定の文書ＩＤの文書に対応して、例えば全ての項を「０」とするコンテキストを生成する。次に、コンテキスト生成部１３２は、表層単語辞書１２２に記憶されるいずれかの表層ＩＤを特定する。

次に、コンテキスト生成部１３２は、特定された表層ＩＤ以外の表層単語辞書１２２に記憶される各表層ＩＤの単語が、学習用コーパス１２１に記憶される、当該表層ＩＤの単語を含む各文書に含まれるか否かを判定する。コンテキスト生成部１３２は、単語が当該文書に含まれると判定した場合に、当該単語の表層ＩＤに対応するコンテキストの項の値を「１」とする。そして、コンテキスト生成部１３２は、表層単語辞書１２２に含まれる、特定された表層ＩＤ以外の全ての表層ＩＤの単語について処理を繰り返すことにより、特定された文書ＩＤの文書に対するコンテキストを生成する。コンテキスト生成部１３２は、当該表層ＩＤの単語を含む全ての文書ＩＤの文書について、コンテキストの生成を繰り返し、図４Ａ乃至図４Ｆに示すようなコンテキストをコンテキスト記憶部１２３に記憶する。

また、コンテキスト生成部１３２は、意味ラベル記憶部１２５に記憶された意味ラベルごとに、生成したコンテキストを更新して、コンテキスト記憶部１２３に記憶する。図７は、実施例１における更新後のコンテキスト記憶部の一例を示す図である。図７は、ラベルＩＤ「ｍ１０」が付与された単語「table」及び「desk」を対象としたコンテキストを示す。

例えば、コンテキストＩＤ「ｃ４２」は、図４Ｄにおいては「Ｎ／Ａ」であったが、図７においては符号１９０１に示すように新たにコンテキストが記憶されている。これは、コンテキストＩＤ「ｃ４２」のコンテキストに対応する文書ＩＤ「ｓ４２」の文書には、ラベルＩＤ「ｍ１０」が付与された単語「table」は含まれないが、同じくラベルＩＤ「ｍ１０」が付与された単語「desk」は含まれるためである。

また、コンテキストＩＤ「ｃ１０４」の第７項は、図４Ｄにおいては「０」であったが、図７においては、符号１９１１に示すように「１」に更新されている。これは、コンテキストＩＤ「ｃ１０４」のコンテキストに対応する文書ＩＤ「ｓ１０４」の文書には、ラベルＩＤ「ｍ７」が付与された単語「notebook」は含まれないが、同じくラベルＩＤ「ｍ７」が付与された単語「laptop」は含まれるためである。

次に、クラスタリング処理部１３３は、コンテキスト記憶部１２３に記憶されたコンテキストをクラスタに分類する。例えば、クラスタリング処理部１３３は、例えば公知のクラスタリング技術を用いて、各コンテキスト間の距離を算出し、距離が近いコンテキストの集合を１つのクラスタとする。そして、クラスタリング処理部１３３は、図５に示すようなクラスタリング処理結果を、クラスタ記憶部１２４に記憶する。

また、クラスタリング処理部１３３は、意味ラベルを用いて更新されたコンテキストをクラスタに分類して、クラスタ記憶部１２４に記憶されたクラスタを更新する。図８は、実施例１における更新後のクラスタ記憶部の一例を示す図である。図８に示すように、更新後のクラスタ記憶部１２４は、図５に示す「表層ＩＤ」の代わりに「ラベルＩＤ」を記憶する。

例えば図８の符号４００１に示すように、更新後のクラスタ記憶部１２４は、ラベルＩＤ「ｍ７」に対応するコンテキストとして、図５に示す表層ＩＤ「ｗ７」に対応するコンテキストと、表層ＩＤ「ｗ７８」に対応するコンテキストとを含む。すなわち、更新後のクラスタ記憶部１２４は、表層ＩＤ「ｗ７」に対応するコンテキスト「ｃ１」及び「ｃ４２」と、表層ＩＤ「ｗ７８」に対応するコンテキスト「ｃ７」、「ｃ８」及び「ｃ１０４」とを含む。同様に、例えば図８の符号４００１に示すように、更新後のクラスタ記憶部１２４は、ラベルＩＤ「ｍ１０」に対応するコンテキストとして、表層ＩＤ「ｗ１０」に対応するコンテキストと、表層ＩＤ「ｗ５３」に対応するコンテキストとを含む。すなわち、本実施例において、ラベルＩＤ「ｍ７」には、表層ＩＤ「ｗ７」に割り当てられる入力文書よりも多くの入力文書が割り当てられる。

次に、ラベル付与部１３４は、クラスタ記憶部１２４を参照し、各クラスタの分類に用いられた各単語に意味ラベルを付与する。本実施例において、ラベル付与部１３４は、相互に類似するクラスタを特定して、当該各クラスタの分類に用いられた各表層ＩＤの単語に、例えば図６の符号３００１及び３００２に示すように共通する意味ラベルを付与する。

ラベル付与部１３４は、例えば二つのクラスタの重心間の距離が、所定の閾値未満であるか否かを判定することにより、各クラスタが相互に類似するか否かを判定する。所定の閾値は、例えば事前に記憶部１２０に記憶される。

ラベル付与部１３４が各クラスタが相互に類似するか否かを判定する処理について、図９を用いて説明する。図９は、実施例１におけるクラスタリング結果の一例を示す図である。図９において、例えば「◇」印９００１は単語「table」を含むコンテキストの分布を示し、「×」印９００２は単語「desk」を含むコンテキストの分布を示す。また、「★」印９１０１は、単語「table」を含むコンテキストの分布の重心を示し、「☆」印９１０２は、単語「desk」を含むコンテキストの分布の重心を示す。同様に、「□」印９００３及び「※」印９１０３は、それぞれ単語「laptop」を含むコンテキストの分布及びその重心を示す。

図９に示すように、表層ＩＤ「ｗ１０」の単語「table」及び表層ＩＤ「ｗ５３」の「desk」は、相互にコンテキストの分布が近似しており、コンテキストの分布の重心間の距離も小さい。このような場合、ラベル付与部１３４は、単語「table」を含むコンテキストのクラスタと、単語「desk」を含むコンテキストのクラスタとは相互に類似すると判定し、単語「table」及び「desk」に、共通のラベルＩＤ「ｍ１０」を付与する。

一方、単語「table」のコンテキストの分布の重心と、表層ＩＤ「ｗ７８」の単語「laptop」のコンテキストの分布の重心との距離は閾値より大きいので、ラベル付与部１３４は、単語「laptop」には、「table」と共通のラベルＩＤ「ｍ１０」を付与しない。

また、ラベル付与部１３４は、例えば、二つのクラスタの重心間の距離の代わりに、二つのクラスタの分散の差異が所定の閾値以下であるか否かに応じて、各クラスタが相互に類似するか否かを判定してもよい。

図１に戻って、出力部１３５は、クラスタ記憶部１２４を参照し、クラスタリング処理の結果を出力する。図１０は、実施例１におけるクラスタの出力結果の一例を示す図である。図１０に示すように、出力部１３５は、クラスタリング処理の結果として、付与されたラベルごとに、クラスタに含まれるコンテキストを列挙する。すなわち、出力部１３５は、ラベル「ｍ７」が付された単語「notebook」及び「laptop」、並びにラベル「ｍ１０」が付与された単語「table」及び「desk」を、それぞれ一つのクラスタに統合して、各クラスタに含まれるコンテキストを列挙する。

［処理の流れ］
次に、本実施例における学習装置１００による学習処理について、図１１を用いて説明する。図１１は、実施例１における学習処理の一例を示すフローチャートである。図１１に示すように、学習装置１００の辞書生成部１３１は、例えば図示しない操作部を通じて、図示しないユーザから、学習開始の指示を受け付けるまで待機する（Ｓ１００：Ｎｏ）。辞書生成部１３１は、学習開始の指示を受け付けたと判定した場合（Ｓ１００：Ｙｅｓ）、学習用コーパス１２１から文書を取得して単語を抽出し、表層単語辞書１２２に記憶する（Ｓ１０１）。

次に、コンテキスト生成部１３２は、学習用コーパス１２１及び表層単語辞書１２２を参照し、文書に対応するコンテキストを生成して、コンテキスト記憶部１２３に記憶する（Ｓ１０２）。次に、クラスタリング処理部１３３は、表層単語辞書１２２に記憶された単語単位で、コンテキスト記憶部１２３に記憶されたコンテキストをクラスタリングする（Ｓ１０３）。クラスタリング処理部１３３は、表層単語辞書１２２に記憶された全ての単語について処理が完了するまで（Ｓ１１０：Ｎｏ）、Ｓ１０３に戻ってクラスタリング処理を繰り返す。

次に、ラベル付与部１３４は、表層単語辞書１２２に記憶された全ての単語についてクラスタリング処理が完了すると（Ｓ１１０：Ｙｅｓ）、生成されたクラスタと、クラスタ間の距離が所定の閾値未満となるクラスタが有るか否かを判定する（Ｓ１１１）。ラベル付与部１３４は、クラスタ間の距離が所定の閾値未満となるクラスタが有ると判定した場合（Ｓ１１１：Ｙｅｓ）、各クラスタの分類に用いられた各単語に共通の意味ラベルを付与し（Ｓ１１２）、Ｓ１２０に移行する。一方、ラベル付与部１３４は、クラスタ間の距離が所定の閾値未満となるクラスタが無いと判定した場合（Ｓ１１１：Ｎｏ）、クラスタの分類に用いられた単語に固有の意味ラベルを付与し（Ｓ１１３）、Ｓ１２０に移行する。

ラベル付与部１３４は、クラスタ記憶部１２４に記憶された全てのクラスタについて処理が完了するまで（Ｓ１２０：Ｎｏ）、Ｓ１１１に戻って処理を繰り返す。そして、クラスタ記憶部１２４に記憶された全てのクラスタについて処理が完了すると（Ｓ１２０：Ｙｅｓ）、コンテキスト生成部１３２は、付与されたラベルを用いてコンテキストを更新する（Ｓ１２１）。

次に、クラスタリング処理部１３３は、更新されたコンテキストをクラスタに分類し、分類されたクラスタをクラスタ記憶部１２４に記憶する（Ｓ１２２）。そして、出力部１３５は、クラスタ記憶部１２４を参照して、図１０に示すような結果画面を出力し（Ｓ１３０）、処理を終了する。

［効果］
以上説明したように、本実施例における学習装置は、複数の文書を、当該文書に含まれる単語を用いてクラスタに分類する際に、クラスタの分類に用いられた各単語にラベルを付与し、各単語に付与されたラベルを用いて、複数の文書をクラスタに分類する。また、本実施例における学習装置は、第１の単語を用いて分類されたクラスタと、第２の単語を用いて分類されたクラスタとが類似する場合に、第１の単語に付与されたラベルと共通するラベルを第２の単語に付与する。これにより、入力文書数が少ない場合においても、分散学習に用いる入力文書数を確保できる。

また、本実施例における学習装置は、複数のクラスタの重心間の距離が第１の閾値未満であると判定した場合、又は複数のクラスタの分散の差異が第２の閾値未満であると判定した場合に、当該複数のクラスタが相互に類似すると判定する。これにより、類似する意味を有する表層の異なる単語が有るか否かを容易に判定できる。

ところで、例えば同じ表層の単語が、異なる意味を有する場合がある。例えば、一つの表層の単語を含む文書が、複数のクラスタに分類されるような場合がある。このような場合においては、単語を含む文書が細分化され、入力文書数が減少する傾向にある。そこで、このように同じ表層の単語を細分化するような構成において、細分化された各表層の単語と、当該細分化された単語と意味が類似する単語とに共通のラベルを付与することにより、分散学習に用いる入力文書数の増加がより効果を奏する。

［機能ブロック］
本実施例における学習装置の一例について説明する。なお、以下の実施例において、先に説明した図面に示す部位と同一の部位には同一の符号を付し、重複する説明は省略する。また、本実施例における学習装置については図示を省略する。

本実施例における学習装置２００は、記憶部２２０と、分析部２３０とを有する。記憶部２２０は、学習用コーパス１２１、表層単語辞書１２２、コンテキスト記憶部１２３、クラスタ記憶部１２４及び意味ラベル記憶部２２５を有する。

意味ラベル記憶部２２５は、意味ラベル記憶部１２５と同様に、表層単語辞書１２２に記憶される各単語に対して付与される意味ラベルを記憶するが、一つの表層ＩＤを、複数のラベルＩＤに対応付けて記憶する場合がある点が意味ラベル記憶部１２５とは異なる。なお、意味ラベル記憶部２２５に記憶される情報は、後に説明するラベル付与部２３４により入力される。

例えば、意味ラベル記憶部２２５は、「帳面」及び「携帯可能なコンピュータ」の意味を有する表層ＩＤ「ｗ７」の単語「notebook」に、「ｍ７＿１」及び「ｍ７＿２」という２つのラベルＩＤを対応づけて記憶する。また、意味ラベル記憶部２２５は、「notebook」と同様に「携帯可能なコンピュータ」の意味を有する表層ＩＤ「ｗ７８」の単語「laptop」を、「notebook」に対応付けられたラベルＩＤ「ｍ７＿２」と対応付けて記憶する。

次に、分析部２３０は、辞書生成部１３１、コンテキスト生成部１３２、クラスタリング処理部１３３、ラベル付与部２３４及び出力部１３５を有する。なお、ラベル付与部２３４も、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。

ラベル付与部２３４は、ラベル付与部１３４と同様に、クラスタ記憶部１２４を参照し、各クラスタの分類に用いられた各単語に意味ラベルを付与する。本実施例において、ラベル付与部２３４は、相互に類似するクラスタを特定して、当該各クラスタの分類に用いられた各表層ＩＤの単語に共通する意味ラベルを付与する。

さらに、本実施例におけるラベル付与部２３４は、特定の表層ＩＤの単語を含む文書の分布が、２つ以上のクラスタを含むか否かを判定する。ラベル付与部２３４は、文書の分布が２つ以上のクラスタを含むと判定した場合、各クラスタに属する表層ＩＤに対して、それぞれ異なるラベルＩＤを付与する。ラベル付与部２３４は、例えば、表層ＩＤ「ｗ７」の単語「notebook」を含む文書の分布が２つのクラスタを含む場合、各クラスタに属する表層ＩＤ「ｗ７」に対して、それぞれ異なるラベルＩＤを付与する。そして、ラベル付与部２３４は、異なるラベルＩＤ「ｍ７＿１」及び「ｍ７＿２」を、表層ＩＤ「ｗ７」と対応付けて意味ラベル記憶部２２５に記憶する。

また、ラベル付与部２３４は、「notebook」と同様に「携帯可能なコンピュータ」の意味を有する表層ＩＤ「ｗ７８」の単語「laptop」にも、「notebook」に付与されたラベルＩＤ「ｍ７＿２」を付与する。一方、単語「laptop」は「帳面」の意味を有しないため、ラベル付与部２３４は、単語「laptop」には「notebook」に付与されたラベルＩＤ「ｍ７＿１」を付与しない。

ラベル付与部２３４により付与されるラベルにより更新されるクラスタ記憶部の一例について、図１２及び図１３を用いて説明する。図１２は、実施例２におけるラベル付与前のクラスタ記憶部の一例を示す図である。図１２の符号５００１は、表層ＩＤ「ｗ７」の単語「notebook」を含む文書の分布が、クラスタＩＤ「cluster1」及び「cluster2」の２つのクラスタを含むことを示す。同様に、図１２の符号５００２は、表層ＩＤ「ｗ１０」の単語「table」を含む文書の分布が、クラスタＩＤ「cluster1」及び「cluster2」の２つのクラスタを含むことを示す。

この場合において、ラベル付与部２３４は、２つのラベルＩＤ「ｍ７＿１」及び「ｍ７＿２」を、表層ＩＤ「ｗ７」と対応付けて意味ラベル記憶部２２５に記憶する。また、ラベル付与部２３４は、ラベルＩＤ「ｍ７＿２」を、表層ＩＤ「ｗ７８」の単語「laptop」とも対応付けて意味ラベル記憶部２２５に記憶する。同様に、ラベル付与部２３４は、ラベルＩＤ「ｍ１０＿１」を、「机」の意味を有する表層ＩＤ「ｗ５３」の単語「desk」とも対応付けて意味ラベル記憶部２２５に記憶する。

そして、学習装置２００のクラスタリング処理部１３３は、対応付けられたラベルＩＤを用いて、クラスタ記憶部１２４に記憶されたクラスタを更新する。図１３は、実施例２におけるラベル付与後のクラスタ記憶部の一例を示す図である。図１３の符号６００１に示すように、図１２において表層ＩＤ「ｗ７８」に対応して記憶されていたコンテキストＩＤ「ｃ７」、「ｃ８」及び「ｃ１０４」が、ラベルＩＤ「ｍ７＿２」に対応付けられて記憶される。同様に、図１３の符号６００２に示すように、図１２において表層ＩＤ「ｗ５３」に対応して記憶されていたコンテキストＩＤ「ｃ４」、「ｃ５」及び「ｃ４２」が、ラベルＩＤ「ｍ１０＿１」に対応付けられて記憶される。すなわち、図１３に示す更新後のクラスタ記憶部１２４においては、更新前と比較して、ラベルＩＤに対応して記憶されるコンテキストＩＤの数、すなわちラベルＩＤに対応する単語を含む入力文書の数が増加する場合がある。

［効果］
以上説明したように、本実施例における学習装置は、第１の単語を含む文書が第１のクラスタと第２のクラスタとに分類された場合、第１のクラスタを構成する文書に含まれる第１の単語に対して第１のラベルを付与する。また、本実施例における学習装置は、第２のクラスタを構成する文書に含まれる第１の単語に対して第１のラベルとは異なる第２のラベルを付与する。本実施例における学習装置は、第２の単語を用いて分類されたクラスタが第１のクラスタと類似する場合は第１のラベルを第２の単語に付与し、第２の単語を用いて分類されたクラスタが第２のクラスタと類似する場合は第２のラベルを第２の単語に付与する。これにより、同じ表層の単語を細分化するような構成において、分散学習に用いる入力文書数を増加できる。

上記の各実施例においては、クラスタの距離が近い２つの単語に対して共通の意味ラベルを対応付ける構成について説明したが、実施の形態はこれに限られない。例えば、予め記憶された類義語辞書等に記憶された類義語に対しては、クラスタの距離に関わらず共通の意味ラベルを対応付けるような構成であってもよい。また、既に十分な入力文書数を確保できている場合や、２つの単語が相互に包含関係にある場合など、分散学習に用いる入力文書数を増加させることが必ずしも有効ではない場合もある。

分散学習に用いる入力文書数を増加させることが必ずしも有効ではない場合の一例について、図１４を用いて説明する。図１４は、実施例３におけるクラスタリング結果の一例を示す図である。図１４において、符号９２０１に示す記号「◇」は第１の単語を含む文書の分布を示し、符号９２０２に示す記号「×」は第２の単語を含む文書の分布を示す。

図１４において、第１の単語を含む文書の分布の重心９３０１と、第２の単語を含む文書の分布の重心９３０２とは近接している。一方で、第２の単語を含む文書は広範に分散しており、第１の単語を含む文書の分布を包含する関係にある。例えば、第１の単語が「fruits」で、第２の単語が「apple」である場合など、２つの単語が相互に上位概念、下位概念の関係にある場合、図１４に示すように２つの分布が包含関係となる場合がある。この場合、分散学習に用いる入力文書数を増加させるために第１の単語及び第２の単語に共通の意味ラベルを付与すると、かえって両者の上位概念、下位概念の関係を把握できなくなるおそれがある。

そこで、本実施例においては、２つの単語に共通のラベルを付与するか否かを判定する構成について説明する。

［機能ブロック］
本実施例における学習装置の一例について、図１５を用いて説明する。図１５は、実施例３における学習装置の一例を示す図である。なお、以下の実施例において、先に説明した図面に示す部位と同一の部位には同一の符号を付し、重複する説明は省略する。

図１５に示すように、本実施例における学習装置３００は、記憶部３２０と、分析部３３０とを有する。記憶部３２０は、学習用コーパス１２１、表層単語辞書１２２、コンテキスト記憶部１２３、クラスタ記憶部１２４及び意味ラベル記憶部１２５に加えて、単語意味辞書３２６及び閾値記憶部３２７をさらに有する。

単語意味辞書３２６は、相互に類似する単語の対応関係を記憶する。単語意味辞書３２６は、例えば類義語辞書であるが、これに限られず、単語の表層ＩＤと意味とを対応付けて記憶するその他の形式であってもよい。図１６は、実施例３における単語意味辞書の一例を示す図である。図１６は、類似する意味を有する表層ＩＤをひとまとめにした類義語辞書形式の単語意味辞書３２６の一例を示す。なお、単語意味辞書３２６に記憶される情報は、例えば予め図示しない学習装置３００の管理者により入力され、又は図示しない通信部を通じて外部のコンピュータから取得される。

図１６に示すように、単語意味辞書３２６は、複数の表層ＩＤを「ラベルＩＤ」に対応付けて記憶する。図１６に示す単語意味辞書３２６は、例えば表層ＩＤ「ｗ１４」の単語と「ｗ２３」の単語とが、いずれもラベルＩＤ「ｍ１５」の意味を有する、すなわち相互に類似することを記憶する。同様に、図１６に示す単語意味辞書３２６は、例えば表層ＩＤ「ｗ３１」の単語と「ｗ４２」の単語とが、いずれもラベルＩＤ「ｍ２１」の意味を有する、すなわち相互に類似することを記憶する。

図１５に戻って、閾値記憶部３２７は、複数の表層ＩＤの単語に共通する意味ラベルを付与するか否かを判定する際に用いられる閾値を記憶する。閾値記憶部３２７に記憶される情報は、例えば予め図示しない学習装置３００の管理者により入力される。なお、閾値記憶部３２７については図示を省略する。

本実施例における閾値記憶部３２７は、例えば実施例１において学習装置１００の記憶部１２０に記憶される、二つのクラスタの重心間の距離に関する閾値を記憶する。また、本実施例における閾値記憶部３２７は、これに加えて、二つのクラスタの分散の差異に関する閾値、クラスタに含まれる文書数などのサンプル数に関する閾値など、その他の閾値を記憶してもよい。

次に、分析部３３０は、辞書生成部１３１、コンテキスト生成部１３２、クラスタリング処理部１３３、ラベル付与部３３４及び出力部１３５を有する。なお、ラベル付与部３３４も、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。

ラベル付与部３３４は、実施例１におけるラベル付与部１３４と同様に、クラスタ記憶部１２４を参照し、各クラスタの分類に用いられた各単語に意味ラベルを付与する。本実施例において、ラベル付与部３３４は、実施例１におけるラベル付与部１３４とは異なり、二つのクラスタの重心間の距離が所定の閾値未満であると判定された場合、さらにその他の条件を判定する。

例えば、ラベル付与部３３４は、重心間の距離が所定の閾値未満である二つのクラスタの分散の差異が、所定の閾値未満であるか否かをさらに判定する。本実施例においては、ラベル付与部３３４は、二つのクラスタの分散の差異が所定の閾値以上であると判定した場合、２つの単語に対して共通のラベルを付与しない。例えば、図１４に示すように、２つの単語が包含関係にある場合、ラベル付与部３３４は２つの単語に共通のラベルを付与しない。

また、ラベル付与部３３４は、重心間の距離が所定の閾値未満である二つのクラスタに含まれるサンプル数が、所定の閾値未満であるか否かをさらに判定する。本実施例においては、ラベル付与部３３４は、二つのクラスタに含まれるサンプル数が所定の閾値以上であると判定した場合、２つの単語に対して共通のラベルを付与しない。例えば、既に十分なサンプル数がある場合、分散学習に用いられる入力文書数を十分に確保できるためである。

なお、ラベル付与部３３４は、例えば二つのクラスタに含まれるサンプル数の合計について判定するが、これに限られず、いずれかサンプル数が少ない方のクラスタに含まれるサンプル数について判定してもよい。

さらに、ラベル付与部３３４は、図１６に示す単語意味辞書３２６を参照し、特定の表層ＩＤの単語に類似する意味を有する単語が登録されているか否かを判定してもよい。ラベル付与部３３４は、類似する意味を有する単語が単語意味辞書３２６に登録されていると判定した場合、当該特定の表層ＩＤの単語と当該類似する意味を有する単語とのクラスタ間の距離にかかわらず、当該２つの単語に共通する意味ラベルを付与してもよい。

［処理の流れ］
次に、本実施例における学習装置３００による学習処理について、図１７を用いて説明する。図１７は、実施例３における学習処理の一例を示すフローチャートである。なお、以下の説明において、図１１に示すステップと同じ符号については同様のステップであるため、詳細な説明を省略する。

図１７に示すように、学習装置３００のラベル付与部３３４は、生成されたクラスタと、クラスタ間の距離が所定の閾値未満となるクラスタが有るか否かを判定する（Ｓ１１１）。ラベル付与部３３４は、クラスタ間の距離が所定の閾値未満となるクラスタが無いと判定した場合（Ｓ１１１：Ｎｏ）、単語意味辞書３２６を参照し生成されたクラスタに含まれる単語と類似する意味を有する単語が登録されているか否かを判定する（Ｓ３３１）。

ラベル付与部３３４は、類似する意味を有する単語が登録されていると判定した場合（Ｓ３３１：Ｙｅｓ）、各単語に共通の意味ラベルを付与し（Ｓ１１２）、Ｓ１２０に移行する。一方、ラベル付与部３３４は、類似する意味を有する単語が登録されていないと判定した場合（Ｓ３３１：Ｎｏ）、単語に固有の意味ラベルを付与し（Ｓ１１３）、Ｓ１２０に移行する。

Ｓ１１１に戻って、ラベル付与部３３４は、クラスタ間の距離が所定の閾値未満となるクラスタが有ると判定した場合（Ｓ１１１：Ｙｅｓ）、さらに、二つのクラスタに含まれるサンプル数が、所定の閾値未満であるか否かをさらに判定する（Ｓ３１１）。ラベル付与部３３４は、二つのクラスタに含まれるサンプル数が所定の閾値以上であると判定した場合（Ｓ３１１：Ｎｏ）、Ｓ３３１に移行する。

一方、ラベル付与部３３４は、二つのクラスタに含まれるサンプル数が所定の閾値未満であると判定した場合（Ｓ３１１：Ｙｅｓ）、さらに、二つのクラスタの分散の差異が、所定の閾値未満であるか否かをさらに判定する（Ｓ３２１）。ラベル付与部３３４は、二つのクラスタの分散の差異が所定の閾値以上であると判定した場合（Ｓ３２１：Ｎｏ）、Ｓ３３１に移行する。

一方、ラベル付与部３３４は、二つのクラスタの分散の差異が所定の閾値未満であると判定した場合（Ｓ３２１：Ｙｅｓ）、各クラスタの分類に用いられた各単語に共通の意味ラベルを付与し（Ｓ１１２）、Ｓ１２０に移行する。

［効果］
以上説明したように、本実施例における学習装置は、第１の単語を用いて分類されたクラスタと、第２の単語を用いて分類されたクラスタとのうち少なくともいずれかのサンプル数が閾値以上であると判定した場合、共通するラベルを付与することを抑制する。また、本実施例における学習装置は、第１の単語を用いて分類されたクラスタのサンプルの密度と、第２の単語を用いて分類されたクラスタのサンプルの密度との差異が閾値以上であると判定した場合、共通するラベルを付与することを抑制する。これにより、過剰な意味ラベルの付与を抑制できる。

また、本実施例における学習装置は、単語の意味を記憶する単語意味辞書をさらに有する。本実施例における学習装置は、第１の単語及び第２の単語が相互に類似する意味を有することが単語意味辞書に記載されていると判定される場合に、第１の単語を用いて分類されたクラスタと第２の単語を用いて分類されたクラスタとが相互に類似すると判定する。これにより、複数のクラスタが相互に類似するか否かを判定することなく、類似関係にある２つの単語を適切に対応付けられる。

さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。例えば、学習装置１００は、機能ブロックの一部が外部のコンピュータに実装されていてもよい。例えば、学習装置１００が学習用コーパス１２１を有さない代わりに、図示しない通信部を通じて外部のデータベースにアクセスして、学習用コーパスを取得するような構成であってもよい。また、学習装置１００が表層単語辞書１２２を生成する代わりに、外部のデータベースから表層単語辞書を取得するような構成であってもよい。

また、上記の各実施例においては、複数の表層ＩＤの単語に共通する意味ラベルを付与するか否かを判定する際に用いられる閾値が予め記憶されている構成について説明したが、実施の形態はこれに限られない。例えば、学習装置が、閾値を算出して閾値記憶部３２７に記憶するような構成であってもよい。

本実施例における学習装置の一例について説明する。なお、以下の実施例において、先に説明した図面に示す部位と同一の部位には同一の符号を付し、重複する説明は省略する。また、本実施例における学習装置については図示を省略する。

本実施例における学習装置４００は、記憶部４２０と、分析部４３０とを有する。記憶部４２０は、学習用コーパス１２１、表層単語辞書１２２、コンテキスト記憶部１２３、クラスタ記憶部１２４、意味ラベル記憶部１２５、単語意味辞書３２６及び閾値記憶部４２７を有する。

本実施例における閾値記憶部４２７は、閾値記憶部３２７と同様に、複数の表層ＩＤの単語に共通する意味ラベルを付与するか否かを判定する際に用いられる閾値を記憶する。閾値記憶部４２７に記憶される情報は、例えば後に説明する閾値算出部４３６により入力される。なお、閾値記憶部４２７については図示を省略する。

次に、分析部４３０は、辞書生成部１３１、コンテキスト生成部１３２、クラスタリング処理部１３３、ラベル付与部１３４、出力部１３５に加えて、さらに閾値算出部４３６を有する。なお、閾値算出部４３６も、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。

閾値算出部４３６は、類似する２つの単語を特定し、各単語を用いて分類されたクラスタ間の関係に基づいて、閾値を算出し、閾値記憶部４２７に記憶する。閾値算出部４３６は、例えば、各クラスタの重心間の距離を算出し、算出した距離の所定の値を乗算することにより、クラスタの重心間の距離に関する閾値を算出する。同様に、閾値算出部４３６は、例えば、各クラスタの分散の差異を算出し、算出した際の所定の値を乗算することにより、クラスタの分散の差異に関する閾値を算出する。

また、閾値算出部４３６は、全てのクラスタに含まれる文書数の平均値又は中央値等を算出し、算出した平均値又は中央値の所定の値を乗算することにより、クラスタに含まれるサンプル数に関する閾値を算出する。

なお、閾値算出部４３６が閾値を算出する構成は一例であり、クラスタの重心間の距離の最大値、最小値、平均値、中央値等のその他の値を用いてもよい。

本実施例における学習装置４００による閾値算出処理について、図１８を用いて説明する。図１８は、実施例４における閾値算出処理の一例を示すフローチャートである。図１８に示すように、学習装置４００の閾値算出部４３６は、例えば図示しない操作部を通じて、図示しない管理者から、閾値設定指示を受け付けるまで待機する（Ｓ５００：Ｎｏ）。閾値算出部４３６は、閾値設定指示を受け付けたと判定した場合（Ｓ５００：Ｙｅｓ）、単語意味辞書３２６を参照して、相互に類似する単語を抽出する（Ｓ５０１）。

次に、閾値算出部４３６は、抽出された各単語を含む文書のクラスタを特定し（Ｓ５０２）、各クラスタの重心間の距離を算出する（Ｓ５０３）。また、閾値算出部４３６は、各クラスタの分散の差異も算出する（Ｓ５０４）。そして、閾値算出部４３６は、算出された重心間の距離及び分散の差異に、所定の値を乗算することにより、閾値を算出し、閾値記憶部４２７に記憶する（Ｓ５０５）。

そして、閾値算出部４３６は、全ての類似する単語について処理を終了するまで、Ｓ５０３に戻って処理を繰り返す（Ｓ５１０：Ｎｏ）。そして、出力部１３５は、全ての類似する単語について処理を終了すると（Ｓ５１０：Ｙｅｓ）、閾値算出処理を終了する。

以上説明したように、本実施例における学習装置は、相互に類似する意味を有する単語を用いて分類された各クラスタの重心間の距離、又は各クラスタの分散の差異を用いて閾値を算出する。これにより、相互に類似する単語を用いて分類されたクラスタの実態に即して閾値を設定できる。

また、各実施例における学習装置が、二つのクラスタが相互に類似するか否かを判定するための閾値を事前に記憶部１２０に記憶する構成について説明したが、実施の形態はこれに限られない。例えば、各実施例における学習装置が、相互に類似する意味を有する単語を用いて分類された各クラスタの重心間の距離を用いて第１の閾値を算出し、又は各クラスタの分散の差異を用いて第２の閾値を算出してもよい。実際に類似する意味を有する単語間でのクラスタの類似に基づいて閾値を算出することにより、クラスタが相互に類似するか否かの判定を、より実態に近似させることができる。

また、複数のクラスタが類似すると判定される場合であっても、例えば、各クラスタを構成する入力文書の数が十分に確保されている場合など、各クラスタの分類に用いられる単語に共通のラベルを付与する必要がないこともある。そこで、学習装置は、第１の単語を用いて分類されたクラスタと、第２の単語を用いて分類されたクラスタとのうち少なくともいずれかのサンプル数が閾値以上であると判定した場合に、第２の単語に、第１の単語と共通するラベルを付与することを抑制してもよい。また、学習装置は、第１の単語を用いて分類されたクラスタのサンプルの密度と、第２の単語を用いて分類されたクラスタのサンプルの密度との差異が閾値以上であると判定した場合、第２の単語に、第１の単語と共通するラベルを付与することを抑制してもよい。これにより、不要なラベル付けを抑制することができる。

また、各実施例におけるコンテキストは、文書中に出現する単語を「１」、推定したい単語及び文書中に出現しない単語を「０」で示すベクトルにより表されるが、これに限られない。例えば、コンテキストの値を、単語が文書中に出現する回数としてもよい。この場合、コンテキストの各項は「０」と「１」だけでなく、２以上の値をとることがある。

［システム］
また、各実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともできる。あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

［ハードウェア構成］
図１９は、コンピュータのハードウェア構成例を示す図である。図１９に示すように、コンピュータ５００は、各種演算処理を実行するＣＰＵ５０１と、ユーザからのデータ入力を受け付ける入力装置５０２と、モニタ５０３とを有する。また、コンピュータ５００は、記憶媒体からプログラムなどを読み取る媒体読取装置５０４と、他の装置と接続するためのインターフェース装置５０５と、他の装置と無線により接続するための無線通信装置５０６とを有する。また、コンピュータ５００は、各種情報を一時記憶するＲＡＭ（Random Access Memory）５０７と、ハードディスク装置５０８とを有する。また、各装置５０１〜５０８は、バス５０９に接続される。

ハードディスク装置５０８には、図１に示した分析部１３０と同様の機能を有する分析プログラムが記憶される。また、ハードディスク装置５０８には、分析プログラムを実現するための各種データが記憶される。各種データには、図１に示した記憶部１２０内のデータが含まれる。

ＣＰＵ５０１は、ハードディスク装置５０８に記憶された各プログラムを読み出して、ＲＡＭ５０７に展開して実行することで、各種の処理を行う。これらのプログラムは、コンピュータ５００を図１に示した各機能部として機能させることができる。

なお、上記の分析プログラムは、必ずしもハードディスク装置５０８に記憶されている必要はない。例えば、コンピュータ５００が読み取り可能な記憶媒体に記憶されたプログラムを、コンピュータ５００が読み出して実行するようにしてもよい。コンピュータ５００が読み取り可能な記憶媒体は、例えば、ＣＤ−ＲＯＭやＤＶＤディスク、ＵＳＢ（Universal Serial Bus）メモリなどの可搬型記録媒体、フラッシュメモリなどの半導体メモリ、ハードディスクドライブなどが対応する。また、公衆回線、インターネット、ＬＡＮ（Local Area Network）などに接続された装置にこれらのプログラムを記憶させておき、コンピュータ５００がこれらのプログラムを読み出して実行するようにしても良い。

１００、２００、３００、４００学習装置
１２０、２２０、３２０、４２０記憶部
１２１学習用コーパス
１２２表層単語辞書
１２３コンテキスト記憶部
１２４クラスタ記憶部
１２５、２２５意味ラベル記憶部
３２６単語意味辞書
３２７、４２７閾値記憶部
１３０、２３０、３３０、４３０分析部
１３１辞書生成部
１３２コンテキスト生成部
１３３クラスタリング処理部
１３４、２３４、３３４ラベル付与部
１３５出力部
４３６閾値算出部

Claims

複数の文書から単語を抽出して表層単語辞書を生成する辞書生成部と、
生成された前記表層単語辞書と、前記複数の文書とを参照し、前記文書それぞれに対応するコンテキストを生成するコンテキスト生成部と、
前記表層単語辞書に含まれる前記単語単位で、生成された前記コンテキストをクラスタに分類するクラスタリング処理部と、
分類された前記クラスタのうち、第１の単語を用いて分類されたクラスタと、第２の単語を用いて分類されたクラスタとが類似する場合に、前記第１の単語と前記第２の単語に共通するラベルを付与し、前記第１の単語を用いて分類されたクラスタと、前記第２の単語を用いて分類されたクラスタとが類似しない場合に、前記第１の単語と前記第２の単語に異なるラベルを付与するラベル付与部と、
を有し、
前記コンテキスト生成部は、付与された前記ラベルを用いて前記コンテキストを更新し、
前記クラスタリング処理部は、前記ラベル単位で、更新された前記コンテキストをクラスタに分類する、
ことを特徴とする学習装置。
前記ラベル付与部は、分類された複数の前記クラスタの重心間の距離が第１の閾値未満であると判定した場合、又は、複数の前記クラスタの分散の差異が第２の閾値未満であると判定した場合に、判定対象の複数の前記クラスタが相互に類似すると判定することを特徴とする請求項１に記載の学習装置。
相互に類似する意味を有する単語を用いて分類された各クラスタの重心間の距離を用いて前記第１の閾値を算出し、又は前記各クラスタの分散の差異を用いて前記第２の閾値を算出する閾値算出部をさらに有することを特徴とする請求項２に記載の学習装置。
前記ラベル付与部は、前記第１の単語を用いて分類されたクラスタと、前記第２の単語を用いて分類されたクラスタとのうち少なくともいずれかのサンプル数が第３の閾値以上であると判定した場合、又は前記第１の単語を用いて分類されたクラスタのサンプルの密度と、前記第２の単語を用いて分類されたクラスタのサンプルの密度との差異が第４の閾値以上であると判定した場合、前記第２の単語に、前記第１の単語と共通するラベルを付与することを抑制することを特徴とする請求項１〜３のいずれか１つに記載の学習装置。
前記単語の意味を記憶する単語意味辞書をさらに有し、
前記ラベル付与部は、前記第１の単語及び前記第２の単語が、相互に類似する意味を有することが前記単語意味辞書に記載されていると判定される場合に、前記第１の単語を用いて分類されたクラスタと前記第２の単語を用いて分類されたクラスタとが相互に類似すると判定することを特徴とする請求項１〜４のいずれか１つに記載の学習装置。
さらに、前記ラベルごとに、前記クラスタに含まれるコンテキストを出力する出力部を有する、
ことを特徴とする請求項１〜５のいずれか１つに記載の学習装置。
前記ラベル付与部は、前記第１の単語を含む文書が第１のクラスタと第２のクラスタとに分類された場合、前記第１のクラスタを構成する文書に含まれる前記第１の単語に対して第１のラベルを付与し、前記第２のクラスタを構成する文書に含まれる前記第１の単語に対して前記第１のラベルとは異なる第２のラベルを付与し、前記第２の単語を用いて分類されたクラスタが前記第１のクラスタと類似する場合は前記第１のラベルを前記第２の単語に付与し、前記第２の単語を用いて分類されたクラスタが前記第２のクラスタと類似する場合は前記第２のラベルを前記第２の単語に付与することを特徴とする請求項１〜６のいずれか１つに記載の学習装置。
複数の文書から単語を抽出して表層単語辞書を生成し、
生成された前記表層単語辞書と、前記複数の文書とを参照し、前記文書それぞれに対応するコンテキストを生成し、
前記表層単語辞書に含まれる前記単語単位で、生成された前記コンテキストをクラスタに分類し、
分類された前記クラスタのうち、第１の単語を用いて分類されたクラスタと、第２の単語を用いて分類されたクラスタとが類似する場合に、前記第１の単語と前記第２の単語に共通するラベルを付与し、前記第１の単語を用いて分類されたクラスタと、前記第２の単語を用いて分類されたクラスタとが類似しない場合に、前記第１の単語と前記第２の単語に異なるラベルを付与する、
処理をコンピュータが実行し、
前記コンテキストを生成する処理は、付与された前記ラベルを用いて前記コンテキストを更新し、
前記分類する処理は、前記ラベル単位で、更新された前記コンテキストをクラスタに分類する、
ことを特徴とする学習方法。
複数の文書から単語を抽出して表層単語辞書を生成し、
生成された前記表層単語辞書と、前記複数の文書とを参照し、前記文書それぞれに対応するコンテキストを生成し、
前記表層単語辞書に含まれる前記単語単位で、生成された前記コンテキストをクラスタに分類し、
分類された前記クラスタのうち、第１の単語を用いて分類されたクラスタと、第２の単語を用いて分類されたクラスタとが類似する場合に、前記第１の単語と前記第２の単語に共通するラベルを付与し、前記第１の単語を用いて分類されたクラスタと、前記第２の単語を用いて分類されたクラスタとが類似しない場合に、前記第１の単語と前記第２の単語に異なるラベルを付与する、
処理をコンピュータに実行させ、
前記コンテキストを生成する処理は、付与された前記ラベルを用いて前記コンテキストを更新し、
前記分類する処理は、前記ラベル単位で、更新された前記コンテキストをクラスタに分類する、
ことを特徴とする学習プログラム。