JP6930180B2 - 学習装置、学習方法及び学習プログラム - Google Patents

学習装置、学習方法及び学習プログラム Download PDF

Info

Publication number
JP6930180B2
JP6930180B2 JP2017068552A JP2017068552A JP6930180B2 JP 6930180 B2 JP6930180 B2 JP 6930180B2 JP 2017068552 A JP2017068552 A JP 2017068552A JP 2017068552 A JP2017068552 A JP 2017068552A JP 6930180 B2 JP6930180 B2 JP 6930180B2
Authority
JP
Japan
Prior art keywords
word
label
cluster
context
classified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017068552A
Other languages
English (en)
Other versions
JP2018169940A (ja
Inventor
裕司 溝渕
裕司 溝渕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017068552A priority Critical patent/JP6930180B2/ja
Priority to US15/919,811 priority patent/US10747955B2/en
Publication of JP2018169940A publication Critical patent/JP2018169940A/ja
Application granted granted Critical
Publication of JP6930180B2 publication Critical patent/JP6930180B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、学習装置、学習方法及び学習プログラムに関する。
文章処理において、文内で共起する(同時に出現する)単語のベクトルを用いて、単語の表現を獲得する技術が知られている。例えば、クラスターを二次元平面上に配置してクラスターマップを作成する技術が知られている。当該技術は、検索文の入力や検索結果の出力を行う利用者用端末装置と、検索文に基づいて特許文献の検索処理を行う検索装置と、検索装置に特許文献の登録を行う管理用端末装置とを用いる。当該技術は、大量の技術文献(特許文献など)をいくつかの多次元空間上のクラスターに効率よく分類し、これらクラスターを二次元平面上に配置してクラスターマップを作成する。
また、携帯機器によって得られたコンテキストデータに対してセマンティック分類を自動的に決定する技術も知られている。当該技術は、1つ以上のコンテキストデータストリームを時間とともにサンプリングし、サンプリングされたコンテキストデータにおいて1つ以上のクラスタを特定するためにクラスタリングアルゴリズムを適用する。また、当該技術は、一連の所定の概念名からある概念名を、1つ以上のクラスタのセマンティック分類として、自動的に決定するために推論エンジンを実行し、1つ以上のクラスタへ概念名を割当てるか、またはその割当てをユーザに提案する。
特開2005−092442号公報 特開2008−171418号公報
Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. "Efficient Estimation of Word Representations in Vector Space." In Proceedings of Workshop at ICLR, 2013. Xu Chang et al." Rc-net:A general framework for incorporating knowledge into word representations." Proceeding of the 23rd ACM International Conference on Conference on Information and knowledge Management. ACM, 2014. Bengio, Yoshua, et al. "A neural probabilistic language model." Journal of machine learning research 3.Feb (2003): 1137-1155. Guo, Jiang, et al. "Learning Sense-specific Word Embeddings By Exploiting Bilingual Resources." COLING. 2014
しかし、上記技術においては、入力文書数が少ない場合に、分散学習の精度が低下するという問題がある。特に、概念名を、1つ以上のクラスタのセマンティック分類として、自動的に決定すると、単語が概念名ごとに細分化されるため、当該概念名を含む入力文書数が減少するので、分散学習の精度が低下しやすい。
一つの側面では、分散学習に用いる入力文書数を確保する学習装置、学習方法及び学習プログラムを提供することを目的とする。
一つの態様において、学習装置は、複数の文書を、当該文書に含まれる単語を用いてクラスタに分類する際に、クラスタの分類に用いられた各単語にラベルを付与する。学習装置は、各単語に付与されたラベルを用いて、複数の文書をクラスタに分類する。さらに、学習装置は、第1の単語を用いて分類されたクラスタと、第2の単語を用いて分類されたクラスタとが類似する場合に、第1の単語に付与されたラベルと共通するラベルを第2のラベルに付与する。
一つの態様によれば、分散学習に用いる入力文書数を確保できる。
図1は、実施例1における学習装置の一例を示す図である。 図2は、実施例1における学習用コーパスの一例を示す図である。 図3は、実施例1における表層単語辞書の一例を示す図である。 図4Aは、実施例1におけるコンテキスト記憶部の一例を示す図である。 図4Bは、実施例1におけるコンテキスト記憶部の別の一例を示す図である。 図4Cは、実施例1におけるコンテキスト記憶部の別の一例を示す図である。 図4Dは、実施例1におけるコンテキスト記憶部の別の一例を示す図である。 図4Eは、実施例1におけるコンテキスト記憶部の別の一例を示す図である。 図4Fは、実施例1におけるコンテキスト記憶部の別の一例を示す図である。 図5は、実施例1におけるクラスタ記憶部の一例を示す図である。 図6は、実施例1における意味ラベル記憶部の一例を示す図である。 図7は、実施例1における更新後のコンテキスト記憶部の一例を示す図である。 図8は、実施例1における更新後のクラスタ記憶部の一例を示す図である。 図9は、実施例1におけるクラスタリング結果の一例を示す図である。 図10は、実施例1におけるクラスタの出力結果の一例を示す図である。 図11は、実施例1における学習処理の一例を示すフローチャートである。 図12は、実施例2におけるラベル付与前のクラスタ記憶部の一例を示す図である。 図13は、実施例2におけるラベル付与後のクラスタ記憶部の一例を示す図である。 図14は、実施例3におけるクラスタリング結果の一例を示す図である。 図15は、実施例3における学習装置の一例を示す図である。 図16は、実施例3における単語意味辞書の一例を示す図である。 図17は、実施例3における学習処理の一例を示すフローチャートである。 図18は、実施例4における閾値算出処理の一例を示すフローチャートである。 図19は、コンピュータのハードウェア構成例を示す図である。
以下に、本願の開示する学習装置、学習方法及び学習プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、以下に示す各実施例は、矛盾を起こさない範囲で適宜組み合わせても良い。
以下の実施例においては、いずれも「携帯可能なコンピュータ」の意味を有する「notebook」及び「laptop」、並びにいずれも「机」の意味を有する「table」及び「desk」の各単語を含む英語の文書を対象とする分散学習について説明する。なお、実施の形態は英語の文書を対象とする分散学習に限られず、例えば日本語や中国語などのその他の言語の文書を用いてもよい。
[機能ブロック]
本実施例における学習装置の一例について、図1を用いて説明する。図1は、実施例1における学習装置の一例を示す図である。図1に示すように、本実施例における学習装置100は、記憶部120と、分析部130とを有する。
記憶部120は、例えば分析部130が実行するプログラムなどの各種データなどを記憶する。また、記憶部120は、学習用コーパス121、表層単語辞書122、コンテキスト記憶部123、クラスタ記憶部124及び意味ラベル記憶部125を有する。記憶部120は、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子や、HDD(Hard Disk Drive)などの記憶装置に対応する。
学習用コーパス121は、学習に用いられるコーパスである。なお、コーパスとは、文章の集まりのことをいう。図2は、実施例1における学習用コーパスの一例を示す図である。図2に示すように、学習用コーパス121は、複数の「文書」を、文書を一意に識別する識別子である「文書ID」(Identifier)に対応付けて記憶する。例えば、学習用コーパス121は、"I wrote a memo in my notebook on the table."という文書を、文書ID「s1」と対応付けて記憶する。なお、学習用コーパス121には、例えば図示しない通信部を通じて取得した情報が予め記憶される。また、本実施例における「文書」は、図2に示すように、例えば1つの文であるが、これに限られず、複数の文を含む文書であってもよい。
次に、表層単語辞書122は、学習用コーパス121に記憶された文書から抽出される単語の表層を記憶する。なお、以下において、単語の意味を考慮せずに単語の表記について説明する場合、「表層」と表現する場合がある。
図3は、実施例1における表層単語辞書の一例を示す図である。図3に示すように、表層単語辞書122は、例えば、学習用コーパス121の文書ID「s1」の文書に含まれる単語を、単語の表層を一意に識別する識別子である表層ID「w1」乃至「w10」とそれぞれ対応付けて記憶する。同様に、表層単語辞書122は、学習用コーパス121の文書ID「s2」の文書に含まれる単語のうち、未登録の単語「switched」及び「off」を、表層ID「w11」及び「w12」とそれぞれ対応付けて記憶する。同様に、表層単語辞書122は、文書ID「s42」の文書に含まれる単語のうち未登録の単語「desk」、及び文書ID「s104」の文書に含まれる単語のうち未登録の単語「laptop」を、表層ID「w53」及び「w78」とそれぞれ対応付けて記憶する。なお、表層単語辞書122に記憶される情報は、後に説明する辞書生成部131により入力される。また、表層単語辞書122が、1つの単語だけでなく、例えば複数の単語からなる熟語を、表層IDと対応付けて記憶するような構成であってもよい。
次に、コンテキスト記憶部123は、コーパスで出現する文において、文内で共起する単語のベクトル(Bag of words)を求めたものであるコンテキストを記憶する。本実施例におけるコンテキストは、学習用コーパス121に記憶される文書IDごとに生成される。また、本実施例におけるコンテキストは、一つの文書に対しても、推定したい単語ごとに個別に生成される。このため、本実施例におけるコンテキスト記憶部123は、表層単語辞書122に記憶される単語ごとに一つのテーブルを有する。なお、コンテキスト記憶部123に記憶される情報は、後に説明するコンテキスト生成部132により入力される。
本実施例におけるコンテキスト記憶部123が記憶する情報について、図4A乃至図4Fを用いて説明する。図4Aは、実施例1におけるコンテキスト記憶部の一例を示す図である。図4Aは、表層単語辞書122に記憶される表層ID「w1」の単語「I」のコンテキストを記憶するテーブルを示す。図4Aに示すように、コンテキスト記憶部123は、「コンテキスト」を、コンテキストを一意に識別する識別子である「コンテキストID」に対応付けて記憶する。なお、コンテキストIDは、学習用コーパス121に記憶する文書IDと一対一で対応する。すなわち、図4Aに示すコンテキストID「c1」は、推定したい単語「w1」に対して生成された、図2に示す文書ID「s1」の文書のコンテキストを示す。同様に、図4Aに示すコンテキストID「cn」は、推定したい単語「w1」に対して生成された、図2に示す文書ID「sn」の文書のコンテキストを示す。
本実施例におけるコンテキストは、図4Aに示すように、文書中に出現する単語を1、文書中に出現しない単語を0とするベクトルの形で示される。図4Aにおいて、ベクトルの第1項は、表層単語辞書122の表層ID「w1」の単語が出現するか否かを示す。同様に、図4Aに示すベクトルの第n項は、表層単語辞書122の表層ID「wn」の単語が出現するか否かを示す。ただし、本実施例におけるコンテキストにおいては、推定したい単語を示す項の値は、常に「0」で示す。図4Aは、表層ID「w1」のコンテキストを示すので、図4Aの符号1101に示すように、各コンテキストの第1項の値は常に「0」となる。また、コンテキストID「c3」に対応する文書ID「s3」の文書には単語「I」が登場しないため、図4Aの符号1111に示すように、コンテキストID「c3」のコンテキストは「N/A」(該当無し)となる。
次に、その他の単語に対応するコンテキスト記憶部123の内容について説明する。図4B乃至図4Fは、実施例1におけるコンテキスト記憶部の別の一例を示す図である。図4Bは、表層単語辞書122に記憶される表層ID「w2」の単語「wrote」のコンテキストを記憶するテーブルを示すので、図4Bの符号1201に示すように、各コンテキストの第2項の値は常に「0」となる。また、単語「wrote」は、コンテキストID「c2」、「c3」、「c42」及び「c104」のいずれに対応する文書においても登場しない。このため、図4Bに示すテーブルは、コンテキストID「c2」、「c3」、「c42」及び「c104」のコンテキスト1211は「N/A」であることを記憶する。
次に、図4Cは、表層単語辞書122に記憶される表層ID「w7」の単語「notebook」のコンテキストを記憶するテーブルを示すので、図4Cの符号1301に示すように、各コンテキストの第7項の値は常に「0」となる。また、単語「notebook」は、コンテキストID「c104」に対応する文書には登場しないので、図4Cに示すテーブルは、コンテキストID「c104」のコンテキストは「N/A」であることを記憶する。
同様に、図4Dは、表層単語辞書122に記憶される表層ID「w10」の単語「table」のコンテキストを記憶するテーブルを示すので、図4Dの符号1401に示すように、各コンテキストの第10項の値は常に「0」となる。また、単語「table」は、コンテキストID「c42」に対応する文書には登場しないので、図4Dに示すテーブルは、コンテキストID「c42」のコンテキストは「N/A」であることを記憶する。
また、図4Eは、表層単語辞書122に記憶される表層ID「w53」の単語「desk」のコンテキストを記憶するテーブルを示すので、図4Eの符号1501に示すように、各コンテキストの第53項の値は常に「0」となる。単語「desk」は、コンテキストID「c1」、「c2」、「c3」及び「c104」のいずれに対応する文書においても登場しない。このため、図4Eに示すテーブルは、コンテキストID「c1」、「c2」、「c3」及び「c104」のコンテキストは「N/A」であることを記憶する。同様に、図4Fは、表層単語辞書122に記憶される表層ID「w78」の単語「laptop」のコンテキストを記憶するテーブルを示すので、図4Fの符号1601に示すように、各コンテキストの第78項の値は常に「0」となる。単語「laptop」は、コンテキストID「c1」、「c2」、「c3」及び「c42」のいずれに対応する文書においても登場しない。このため、図4Fに示すテーブルは、コンテキストID「c1」、「c2」、「c3」及び「c42」のコンテキストは「N/A」であることを記憶する。
次に、クラスタ記憶部124は、コンテキスト記憶部123に記憶されたコンテキストをクラスタリングした結果を記憶する。なお、クラスタ記憶部124に記憶される情報は、後に説明するクラスタリング処理部133により入力され、又は更新される。
クラスタ記憶部124は、図5に示すように、推定したい単語ごとに、クラスタリング処理により特定された、当該単語が登場するコンテキストを含むクラスタを記憶する。図5は、実施例1におけるクラスタ記憶部の一例を示す図である。図5の符号2001乃至2102に示すように、クラスタ記憶部124は、「クラスタID」と、「コンテキストID」とを、「表層ID」に対応付けて記憶する。
図5において、「クラスタID」は、推定したい単語を含むクラスタを一意に識別する識別子である。なお、本実施例においては、いずれの表層IDの単語も1つのクラスタのみに関連するため、何れのクラスタIDも「cluster1」となる。
次に、意味ラベル記憶部125は、表層単語辞書122に記憶される各単語に対して付与される意味ラベルを記憶する。なお、意味ラベル記憶部125に記憶される情報は、後に説明するラベル付与部134により入力される。図6は、実施例1における意味ラベル記憶部の一例を示す図である。図6に示すように、意味ラベル記憶部125は、「表層ID」と、「単語」とを、「ラベルID」に対応付けて記憶する。
図6において、「ラベルID」は、各表層IDの単語に対して付与される意味ラベルを一意に識別する識別子である。なお、本実施例においては、図6の符号3001及び3002に示すように、1つのラベルIDに対して、複数の表層IDが対応付けられて記憶される場合がある。例えば、ラベルID「m7」に対しては、表層ID「w7」の単語「notebook」と表層ID「w78」の単語「laptop」とが対応付けられて記憶される。同様に、ラベルID「m10」に対しては、表層ID「w10」の単語「table」と表層ID「w53」の単語「desk」とが対応付けられて記憶される。
次に、分析部130は、学習装置100の全体的な処理を司る処理部である。分析部130は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、内部の記憶装置に記憶されているプログラムがRAMを作業領域として実行されることにより実現される。また、分析部130は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されるようにしてもよい。この分析部130は、辞書生成部131、コンテキスト生成部132、クラスタリング処理部133、ラベル付与部134及び出力部135を有する。なお、辞書生成部131、コンテキスト生成部132、クラスタリング処理部133、ラベル付与部134及び出力部135は、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。
辞書生成部131は、学習用コーパス121から文書を読み出し、文書から単語を抽出する。辞書生成部131は、例えば公知の形態素解析技術や単語分割技術等を用いて、文書から単語を抽出する。また、辞書生成部131は、図3に示すように、抽出された単語に表層IDを付与して、表層単語辞書122に記憶する。
次に、コンテキスト生成部132は、表層単語辞書122に記憶された単語ごとに、学習用コーパス121に記憶された各文書からコンテキストを生成し、例えば図4A乃至図4Fに示すようにコンテキストIDを付与してコンテキスト記憶部123に記憶する。
コンテキスト生成部132は、学習用コーパス121に記憶される、特定の文書IDの文書に対応して、例えば全ての項を「0」とするコンテキストを生成する。次に、コンテキスト生成部132は、表層単語辞書122に記憶されるいずれかの表層IDを特定する。
次に、コンテキスト生成部132は、特定された表層ID以外の表層単語辞書122に記憶される各表層IDの単語が、学習用コーパス121に記憶される、当該表層IDの単語を含む各文書に含まれるか否かを判定する。コンテキスト生成部132は、単語が当該文書に含まれると判定した場合に、当該単語の表層IDに対応するコンテキストの項の値を「1」とする。そして、コンテキスト生成部132は、表層単語辞書122に含まれる、特定された表層ID以外の全ての表層IDの単語について処理を繰り返すことにより、特定された文書IDの文書に対するコンテキストを生成する。コンテキスト生成部132は、当該表層IDの単語を含む全ての文書IDの文書について、コンテキストの生成を繰り返し、図4A乃至図4Fに示すようなコンテキストをコンテキスト記憶部123に記憶する。
また、コンテキスト生成部132は、意味ラベル記憶部125に記憶された意味ラベルごとに、生成したコンテキストを更新して、コンテキスト記憶部123に記憶する。図7は、実施例1における更新後のコンテキスト記憶部の一例を示す図である。図7は、ラベルID「m10」が付与された単語「table」及び「desk」を対象としたコンテキストを示す。
例えば、コンテキストID「c42」は、図4Dにおいては「N/A」であったが、図7においては符号1901に示すように新たにコンテキストが記憶されている。これは、コンテキストID「c42」のコンテキストに対応する文書ID「s42」の文書には、ラベルID「m10」が付与された単語「table」は含まれないが、同じくラベルID「m10」が付与された単語「desk」は含まれるためである。
また、コンテキストID「c104」の第7項は、図4Dにおいては「0」であったが、図7においては、符号1911に示すように「1」に更新されている。これは、コンテキストID「c104」のコンテキストに対応する文書ID「s104」の文書には、ラベルID「m7」が付与された単語「notebook」は含まれないが、同じくラベルID「m7」が付与された単語「laptop」は含まれるためである。
次に、クラスタリング処理部133は、コンテキスト記憶部123に記憶されたコンテキストをクラスタに分類する。例えば、クラスタリング処理部133は、例えば公知のクラスタリング技術を用いて、各コンテキスト間の距離を算出し、距離が近いコンテキストの集合を1つのクラスタとする。そして、クラスタリング処理部133は、図5に示すようなクラスタリング処理結果を、クラスタ記憶部124に記憶する。
また、クラスタリング処理部133は、意味ラベルを用いて更新されたコンテキストをクラスタに分類して、クラスタ記憶部124に記憶されたクラスタを更新する。図8は、実施例1における更新後のクラスタ記憶部の一例を示す図である。図8に示すように、更新後のクラスタ記憶部124は、図5に示す「表層ID」の代わりに「ラベルID」を記憶する。
例えば図8の符号4001に示すように、更新後のクラスタ記憶部124は、ラベルID「m7」に対応するコンテキストとして、図5に示す表層ID「w7」に対応するコンテキストと、表層ID「w78」に対応するコンテキストとを含む。すなわち、更新後のクラスタ記憶部124は、表層ID「w7」に対応するコンテキスト「c1」及び「c42」と、表層ID「w78」に対応するコンテキスト「c7」、「c8」及び「c104」とを含む。同様に、例えば図8の符号4001に示すように、更新後のクラスタ記憶部124は、ラベルID「m10」に対応するコンテキストとして、表層ID「w10」に対応するコンテキストと、表層ID「w53」に対応するコンテキストとを含む。すなわち、本実施例において、ラベルID「m7」には、表層ID「w7」に割り当てられる入力文書よりも多くの入力文書が割り当てられる。
次に、ラベル付与部134は、クラスタ記憶部124を参照し、各クラスタの分類に用いられた各単語に意味ラベルを付与する。本実施例において、ラベル付与部134は、相互に類似するクラスタを特定して、当該各クラスタの分類に用いられた各表層IDの単語に、例えば図6の符号3001及び3002に示すように共通する意味ラベルを付与する。
ラベル付与部134は、例えば二つのクラスタの重心間の距離が、所定の閾値未満であるか否かを判定することにより、各クラスタが相互に類似するか否かを判定する。所定の閾値は、例えば事前に記憶部120に記憶される。
ラベル付与部134が各クラスタが相互に類似するか否かを判定する処理について、図9を用いて説明する。図9は、実施例1におけるクラスタリング結果の一例を示す図である。図9において、例えば「◇」印9001は単語「table」を含むコンテキストの分布を示し、「×」印9002は単語「desk」を含むコンテキストの分布を示す。また、「★」印9101は、単語「table」を含むコンテキストの分布の重心を示し、「☆」印9102は、単語「desk」を含むコンテキストの分布の重心を示す。同様に、「□」印9003及び「※」印9103は、それぞれ単語「laptop」を含むコンテキストの分布及びその重心を示す。
図9に示すように、表層ID「w10」の単語「table」及び表層ID「w53」の「desk」は、相互にコンテキストの分布が近似しており、コンテキストの分布の重心間の距離も小さい。このような場合、ラベル付与部134は、単語「table」を含むコンテキストのクラスタと、単語「desk」を含むコンテキストのクラスタとは相互に類似すると判定し、単語「table」及び「desk」に、共通のラベルID「m10」を付与する。
一方、単語「table」のコンテキストの分布の重心と、表層ID「w78」の単語「laptop」のコンテキストの分布の重心との距離は閾値より大きいので、ラベル付与部134は、単語「laptop」には、「table」と共通のラベルID「m10」を付与しない。
また、ラベル付与部134は、例えば、二つのクラスタの重心間の距離の代わりに、二つのクラスタの分散の差異が所定の閾値以下であるか否かに応じて、各クラスタが相互に類似するか否かを判定してもよい。
図1に戻って、出力部135は、クラスタ記憶部124を参照し、クラスタリング処理の結果を出力する。図10は、実施例1におけるクラスタの出力結果の一例を示す図である。図10に示すように、出力部135は、クラスタリング処理の結果として、付与されたラベルごとに、クラスタに含まれるコンテキストを列挙する。すなわち、出力部135は、ラベル「m7」が付された単語「notebook」及び「laptop」、並びにラベル「m10」が付与された単語「table」及び「desk」を、それぞれ一つのクラスタに統合して、各クラスタに含まれるコンテキストを列挙する。
[処理の流れ]
次に、本実施例における学習装置100による学習処理について、図11を用いて説明する。図11は、実施例1における学習処理の一例を示すフローチャートである。図11に示すように、学習装置100の辞書生成部131は、例えば図示しない操作部を通じて、図示しないユーザから、学習開始の指示を受け付けるまで待機する(S100:No)。辞書生成部131は、学習開始の指示を受け付けたと判定した場合(S100:Yes)、学習用コーパス121から文書を取得して単語を抽出し、表層単語辞書122に記憶する(S101)。
次に、コンテキスト生成部132は、学習用コーパス121及び表層単語辞書122を参照し、文書に対応するコンテキストを生成して、コンテキスト記憶部123に記憶する(S102)。次に、クラスタリング処理部133は、表層単語辞書122に記憶された単語単位で、コンテキスト記憶部123に記憶されたコンテキストをクラスタリングする(S103)。クラスタリング処理部133は、表層単語辞書122に記憶された全ての単語について処理が完了するまで(S110:No)、S103に戻ってクラスタリング処理を繰り返す。
次に、ラベル付与部134は、表層単語辞書122に記憶された全ての単語についてクラスタリング処理が完了すると(S110:Yes)、生成されたクラスタと、クラスタ間の距離が所定の閾値未満となるクラスタが有るか否かを判定する(S111)。ラベル付与部134は、クラスタ間の距離が所定の閾値未満となるクラスタが有ると判定した場合(S111:Yes)、各クラスタの分類に用いられた各単語に共通の意味ラベルを付与し(S112)、S120に移行する。一方、ラベル付与部134は、クラスタ間の距離が所定の閾値未満となるクラスタが無いと判定した場合(S111:No)、クラスタの分類に用いられた単語に固有の意味ラベルを付与し(S113)、S120に移行する。
ラベル付与部134は、クラスタ記憶部124に記憶された全てのクラスタについて処理が完了するまで(S120:No)、S111に戻って処理を繰り返す。そして、クラスタ記憶部124に記憶された全てのクラスタについて処理が完了すると(S120:Yes)、コンテキスト生成部132は、付与されたラベルを用いてコンテキストを更新する(S121)。
次に、クラスタリング処理部133は、更新されたコンテキストをクラスタに分類し、分類されたクラスタをクラスタ記憶部124に記憶する(S122)。そして、出力部135は、クラスタ記憶部124を参照して、図10に示すような結果画面を出力し(S130)、処理を終了する。
[効果]
以上説明したように、本実施例における学習装置は、複数の文書を、当該文書に含まれる単語を用いてクラスタに分類する際に、クラスタの分類に用いられた各単語にラベルを付与し、各単語に付与されたラベルを用いて、複数の文書をクラスタに分類する。また、本実施例における学習装置は、第1の単語を用いて分類されたクラスタと、第2の単語を用いて分類されたクラスタとが類似する場合に、第1の単語に付与されたラベルと共通するラベルを第2の単語に付与する。これにより、入力文書数が少ない場合においても、分散学習に用いる入力文書数を確保できる。
また、本実施例における学習装置は、複数のクラスタの重心間の距離が第1の閾値未満であると判定した場合、又は複数のクラスタの分散の差異が第2の閾値未満であると判定した場合に、当該複数のクラスタが相互に類似すると判定する。これにより、類似する意味を有する表層の異なる単語が有るか否かを容易に判定できる。
ところで、例えば同じ表層の単語が、異なる意味を有する場合がある。例えば、一つの表層の単語を含む文書が、複数のクラスタに分類されるような場合がある。このような場合においては、単語を含む文書が細分化され、入力文書数が減少する傾向にある。そこで、このように同じ表層の単語を細分化するような構成において、細分化された各表層の単語と、当該細分化された単語と意味が類似する単語とに共通のラベルを付与することにより、分散学習に用いる入力文書数の増加がより効果を奏する。
[機能ブロック]
本実施例における学習装置の一例について説明する。なお、以下の実施例において、先に説明した図面に示す部位と同一の部位には同一の符号を付し、重複する説明は省略する。また、本実施例における学習装置については図示を省略する。
本実施例における学習装置200は、記憶部220と、分析部230とを有する。記憶部220は、学習用コーパス121、表層単語辞書122、コンテキスト記憶部123、クラスタ記憶部124及び意味ラベル記憶部225を有する。
意味ラベル記憶部225は、意味ラベル記憶部125と同様に、表層単語辞書122に記憶される各単語に対して付与される意味ラベルを記憶するが、一つの表層IDを、複数のラベルIDに対応付けて記憶する場合がある点が意味ラベル記憶部125とは異なる。なお、意味ラベル記憶部225に記憶される情報は、後に説明するラベル付与部234により入力される。
例えば、意味ラベル記憶部225は、「帳面」及び「携帯可能なコンピュータ」の意味を有する表層ID「w7」の単語「notebook」に、「m7_1」及び「m7_2」という2つのラベルIDを対応づけて記憶する。また、意味ラベル記憶部225は、「notebook」と同様に「携帯可能なコンピュータ」の意味を有する表層ID「w78」の単語「laptop」を、「notebook」に対応付けられたラベルID「m7_2」と対応付けて記憶する。
次に、分析部230は、辞書生成部131、コンテキスト生成部132、クラスタリング処理部133、ラベル付与部234及び出力部135を有する。なお、ラベル付与部234も、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。
ラベル付与部234は、ラベル付与部134と同様に、クラスタ記憶部124を参照し、各クラスタの分類に用いられた各単語に意味ラベルを付与する。本実施例において、ラベル付与部234は、相互に類似するクラスタを特定して、当該各クラスタの分類に用いられた各表層IDの単語に共通する意味ラベルを付与する。
さらに、本実施例におけるラベル付与部234は、特定の表層IDの単語を含む文書の分布が、2つ以上のクラスタを含むか否かを判定する。ラベル付与部234は、文書の分布が2つ以上のクラスタを含むと判定した場合、各クラスタに属する表層IDに対して、それぞれ異なるラベルIDを付与する。ラベル付与部234は、例えば、表層ID「w7」の単語「notebook」を含む文書の分布が2つのクラスタを含む場合、各クラスタに属する表層ID「w7」に対して、それぞれ異なるラベルIDを付与する。そして、ラベル付与部234は、異なるラベルID「m7_1」及び「m7_2」を、表層ID「w7」と対応付けて意味ラベル記憶部225に記憶する。
また、ラベル付与部234は、「notebook」と同様に「携帯可能なコンピュータ」の意味を有する表層ID「w78」の単語「laptop」にも、「notebook」に付与されたラベルID「m7_2」を付与する。一方、単語「laptop」は「帳面」の意味を有しないため、ラベル付与部234は、単語「laptop」には「notebook」に付与されたラベルID「m7_1」を付与しない。
ラベル付与部234により付与されるラベルにより更新されるクラスタ記憶部の一例について、図12及び図13を用いて説明する。図12は、実施例2におけるラベル付与前のクラスタ記憶部の一例を示す図である。図12の符号5001は、表層ID「w7」の単語「notebook」を含む文書の分布が、クラスタID「cluster1」及び「cluster2」の2つのクラスタを含むことを示す。同様に、図12の符号5002は、表層ID「w10」の単語「table」を含む文書の分布が、クラスタID「cluster1」及び「cluster2」の2つのクラスタを含むことを示す。
この場合において、ラベル付与部234は、2つのラベルID「m7_1」及び「m7_2」を、表層ID「w7」と対応付けて意味ラベル記憶部225に記憶する。また、ラベル付与部234は、ラベルID「m7_2」を、表層ID「w78」の単語「laptop」とも対応付けて意味ラベル記憶部225に記憶する。同様に、ラベル付与部234は、ラベルID「m10_1」を、「机」の意味を有する表層ID「w53」の単語「desk」とも対応付けて意味ラベル記憶部225に記憶する。
そして、学習装置200のクラスタリング処理部133は、対応付けられたラベルIDを用いて、クラスタ記憶部124に記憶されたクラスタを更新する。図13は、実施例2におけるラベル付与後のクラスタ記憶部の一例を示す図である。図13の符号6001に示すように、図12において表層ID「w78」に対応して記憶されていたコンテキストID「c7」、「c8」及び「c104」が、ラベルID「m7_2」に対応付けられて記憶される。同様に、図13の符号6002に示すように、図12において表層ID「w53」に対応して記憶されていたコンテキストID「c4」、「c5」及び「c42」が、ラベルID「m10_1」に対応付けられて記憶される。すなわち、図13に示す更新後のクラスタ記憶部124においては、更新前と比較して、ラベルIDに対応して記憶されるコンテキストIDの数、すなわちラベルIDに対応する単語を含む入力文書の数が増加する場合がある。
[効果]
以上説明したように、本実施例における学習装置は、第1の単語を含む文書が第1のクラスタと第2のクラスタとに分類された場合、第1のクラスタを構成する文書に含まれる第1の単語に対して第1のラベルを付与する。また、本実施例における学習装置は、第2のクラスタを構成する文書に含まれる第1の単語に対して第1のラベルとは異なる第2のラベルを付与する。本実施例における学習装置は、第2の単語を用いて分類されたクラスタが第1のクラスタと類似する場合は第1のラベルを第2の単語に付与し、第2の単語を用いて分類されたクラスタが第2のクラスタと類似する場合は第2のラベルを第2の単語に付与する。これにより、同じ表層の単語を細分化するような構成において、分散学習に用いる入力文書数を増加できる。
上記の各実施例においては、クラスタの距離が近い2つの単語に対して共通の意味ラベルを対応付ける構成について説明したが、実施の形態はこれに限られない。例えば、予め記憶された類義語辞書等に記憶された類義語に対しては、クラスタの距離に関わらず共通の意味ラベルを対応付けるような構成であってもよい。また、既に十分な入力文書数を確保できている場合や、2つの単語が相互に包含関係にある場合など、分散学習に用いる入力文書数を増加させることが必ずしも有効ではない場合もある。
分散学習に用いる入力文書数を増加させることが必ずしも有効ではない場合の一例について、図14を用いて説明する。図14は、実施例3におけるクラスタリング結果の一例を示す図である。図14において、符号9201に示す記号「◇」は第1の単語を含む文書の分布を示し、符号9202に示す記号「×」は第2の単語を含む文書の分布を示す。
図14において、第1の単語を含む文書の分布の重心9301と、第2の単語を含む文書の分布の重心9302とは近接している。一方で、第2の単語を含む文書は広範に分散しており、第1の単語を含む文書の分布を包含する関係にある。例えば、第1の単語が「fruits」で、第2の単語が「apple」である場合など、2つの単語が相互に上位概念、下位概念の関係にある場合、図14に示すように2つの分布が包含関係となる場合がある。この場合、分散学習に用いる入力文書数を増加させるために第1の単語及び第2の単語に共通の意味ラベルを付与すると、かえって両者の上位概念、下位概念の関係を把握できなくなるおそれがある。
そこで、本実施例においては、2つの単語に共通のラベルを付与するか否かを判定する構成について説明する。
[機能ブロック]
本実施例における学習装置の一例について、図15を用いて説明する。図15は、実施例3における学習装置の一例を示す図である。なお、以下の実施例において、先に説明した図面に示す部位と同一の部位には同一の符号を付し、重複する説明は省略する。
図15に示すように、本実施例における学習装置300は、記憶部320と、分析部330とを有する。記憶部320は、学習用コーパス121、表層単語辞書122、コンテキスト記憶部123、クラスタ記憶部124及び意味ラベル記憶部125に加えて、単語意味辞書326及び閾値記憶部327をさらに有する。
単語意味辞書326は、相互に類似する単語の対応関係を記憶する。単語意味辞書326は、例えば類義語辞書であるが、これに限られず、単語の表層IDと意味とを対応付けて記憶するその他の形式であってもよい。図16は、実施例3における単語意味辞書の一例を示す図である。図16は、類似する意味を有する表層IDをひとまとめにした類義語辞書形式の単語意味辞書326の一例を示す。なお、単語意味辞書326に記憶される情報は、例えば予め図示しない学習装置300の管理者により入力され、又は図示しない通信部を通じて外部のコンピュータから取得される。
図16に示すように、単語意味辞書326は、複数の表層IDを「ラベルID」に対応付けて記憶する。図16に示す単語意味辞書326は、例えば表層ID「w14」の単語と「w23」の単語とが、いずれもラベルID「m15」の意味を有する、すなわち相互に類似することを記憶する。同様に、図16に示す単語意味辞書326は、例えば表層ID「w31」の単語と「w42」の単語とが、いずれもラベルID「m21」の意味を有する、すなわち相互に類似することを記憶する。
図15に戻って、閾値記憶部327は、複数の表層IDの単語に共通する意味ラベルを付与するか否かを判定する際に用いられる閾値を記憶する。閾値記憶部327に記憶される情報は、例えば予め図示しない学習装置300の管理者により入力される。なお、閾値記憶部327については図示を省略する。
本実施例における閾値記憶部327は、例えば実施例1において学習装置100の記憶部120に記憶される、二つのクラスタの重心間の距離に関する閾値を記憶する。また、本実施例における閾値記憶部327は、これに加えて、二つのクラスタの分散の差異に関する閾値、クラスタに含まれる文書数などのサンプル数に関する閾値など、その他の閾値を記憶してもよい。
次に、分析部330は、辞書生成部131、コンテキスト生成部132、クラスタリング処理部133、ラベル付与部334及び出力部135を有する。なお、ラベル付与部334も、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。
ラベル付与部334は、実施例1におけるラベル付与部134と同様に、クラスタ記憶部124を参照し、各クラスタの分類に用いられた各単語に意味ラベルを付与する。本実施例において、ラベル付与部334は、実施例1におけるラベル付与部134とは異なり、二つのクラスタの重心間の距離が所定の閾値未満であると判定された場合、さらにその他の条件を判定する。
例えば、ラベル付与部334は、重心間の距離が所定の閾値未満である二つのクラスタの分散の差異が、所定の閾値未満であるか否かをさらに判定する。本実施例においては、ラベル付与部334は、二つのクラスタの分散の差異が所定の閾値以上であると判定した場合、2つの単語に対して共通のラベルを付与しない。例えば、図14に示すように、2つの単語が包含関係にある場合、ラベル付与部334は2つの単語に共通のラベルを付与しない。
また、ラベル付与部334は、重心間の距離が所定の閾値未満である二つのクラスタに含まれるサンプル数が、所定の閾値未満であるか否かをさらに判定する。本実施例においては、ラベル付与部334は、二つのクラスタに含まれるサンプル数が所定の閾値以上であると判定した場合、2つの単語に対して共通のラベルを付与しない。例えば、既に十分なサンプル数がある場合、分散学習に用いられる入力文書数を十分に確保できるためである。
なお、ラベル付与部334は、例えば二つのクラスタに含まれるサンプル数の合計について判定するが、これに限られず、いずれかサンプル数が少ない方のクラスタに含まれるサンプル数について判定してもよい。
さらに、ラベル付与部334は、図16に示す単語意味辞書326を参照し、特定の表層IDの単語に類似する意味を有する単語が登録されているか否かを判定してもよい。ラベル付与部334は、類似する意味を有する単語が単語意味辞書326に登録されていると判定した場合、当該特定の表層IDの単語と当該類似する意味を有する単語とのクラスタ間の距離にかかわらず、当該2つの単語に共通する意味ラベルを付与してもよい。
[処理の流れ]
次に、本実施例における学習装置300による学習処理について、図17を用いて説明する。図17は、実施例3における学習処理の一例を示すフローチャートである。なお、以下の説明において、図11に示すステップと同じ符号については同様のステップであるため、詳細な説明を省略する。
図17に示すように、学習装置300のラベル付与部334は、生成されたクラスタと、クラスタ間の距離が所定の閾値未満となるクラスタが有るか否かを判定する(S111)。ラベル付与部334は、クラスタ間の距離が所定の閾値未満となるクラスタが無いと判定した場合(S111:No)、単語意味辞書326を参照し生成されたクラスタに含まれる単語と類似する意味を有する単語が登録されているか否かを判定する(S331)。
ラベル付与部334は、類似する意味を有する単語が登録されていると判定した場合(S331:Yes)、各単語に共通の意味ラベルを付与し(S112)、S120に移行する。一方、ラベル付与部334は、類似する意味を有する単語が登録されていないと判定した場合(S331:No)、単語に固有の意味ラベルを付与し(S113)、S120に移行する。
S111に戻って、ラベル付与部334は、クラスタ間の距離が所定の閾値未満となるクラスタが有ると判定した場合(S111:Yes)、さらに、二つのクラスタに含まれるサンプル数が、所定の閾値未満であるか否かをさらに判定する(S311)。ラベル付与部334は、二つのクラスタに含まれるサンプル数が所定の閾値以上であると判定した場合(S311:No)、S331に移行する。
一方、ラベル付与部334は、二つのクラスタに含まれるサンプル数が所定の閾値未満であると判定した場合(S311:Yes)、さらに、二つのクラスタの分散の差異が、所定の閾値未満であるか否かをさらに判定する(S321)。ラベル付与部334は、二つのクラスタの分散の差異が所定の閾値以上であると判定した場合(S321:No)、S331に移行する。
一方、ラベル付与部334は、二つのクラスタの分散の差異が所定の閾値未満であると判定した場合(S321:Yes)、各クラスタの分類に用いられた各単語に共通の意味ラベルを付与し(S112)、S120に移行する。
[効果]
以上説明したように、本実施例における学習装置は、第1の単語を用いて分類されたクラスタと、第2の単語を用いて分類されたクラスタとのうち少なくともいずれかのサンプル数が閾値以上であると判定した場合、共通するラベルを付与することを抑制する。また、本実施例における学習装置は、第1の単語を用いて分類されたクラスタのサンプルの密度と、第2の単語を用いて分類されたクラスタのサンプルの密度との差異が閾値以上であると判定した場合、共通するラベルを付与することを抑制する。これにより、過剰な意味ラベルの付与を抑制できる。
また、本実施例における学習装置は、単語の意味を記憶する単語意味辞書をさらに有する。本実施例における学習装置は、第1の単語及び第2の単語が相互に類似する意味を有することが単語意味辞書に記載されていると判定される場合に、第1の単語を用いて分類されたクラスタと第2の単語を用いて分類されたクラスタとが相互に類似すると判定する。これにより、複数のクラスタが相互に類似するか否かを判定することなく、類似関係にある2つの単語を適切に対応付けられる。
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。例えば、学習装置100は、機能ブロックの一部が外部のコンピュータに実装されていてもよい。例えば、学習装置100が学習用コーパス121を有さない代わりに、図示しない通信部を通じて外部のデータベースにアクセスして、学習用コーパスを取得するような構成であってもよい。また、学習装置100が表層単語辞書122を生成する代わりに、外部のデータベースから表層単語辞書を取得するような構成であってもよい。
また、上記の各実施例においては、複数の表層IDの単語に共通する意味ラベルを付与するか否かを判定する際に用いられる閾値が予め記憶されている構成について説明したが、実施の形態はこれに限られない。例えば、学習装置が、閾値を算出して閾値記憶部327に記憶するような構成であってもよい。
本実施例における学習装置の一例について説明する。なお、以下の実施例において、先に説明した図面に示す部位と同一の部位には同一の符号を付し、重複する説明は省略する。また、本実施例における学習装置については図示を省略する。
本実施例における学習装置400は、記憶部420と、分析部430とを有する。記憶部420は、学習用コーパス121、表層単語辞書122、コンテキスト記憶部123、クラスタ記憶部124、意味ラベル記憶部125、単語意味辞書326及び閾値記憶部427を有する。
本実施例における閾値記憶部427は、閾値記憶部327と同様に、複数の表層IDの単語に共通する意味ラベルを付与するか否かを判定する際に用いられる閾値を記憶する。閾値記憶部427に記憶される情報は、例えば後に説明する閾値算出部436により入力される。なお、閾値記憶部427については図示を省略する。
次に、分析部430は、辞書生成部131、コンテキスト生成部132、クラスタリング処理部133、ラベル付与部134、出力部135に加えて、さらに閾値算出部436を有する。なお、閾値算出部436も、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。
閾値算出部436は、類似する2つの単語を特定し、各単語を用いて分類されたクラスタ間の関係に基づいて、閾値を算出し、閾値記憶部427に記憶する。閾値算出部436は、例えば、各クラスタの重心間の距離を算出し、算出した距離の所定の値を乗算することにより、クラスタの重心間の距離に関する閾値を算出する。同様に、閾値算出部436は、例えば、各クラスタの分散の差異を算出し、算出した際の所定の値を乗算することにより、クラスタの分散の差異に関する閾値を算出する。
また、閾値算出部436は、全てのクラスタに含まれる文書数の平均値又は中央値等を算出し、算出した平均値又は中央値の所定の値を乗算することにより、クラスタに含まれるサンプル数に関する閾値を算出する。
なお、閾値算出部436が閾値を算出する構成は一例であり、クラスタの重心間の距離の最大値、最小値、平均値、中央値等のその他の値を用いてもよい。
本実施例における学習装置400による閾値算出処理について、図18を用いて説明する。図18は、実施例4における閾値算出処理の一例を示すフローチャートである。図18に示すように、学習装置400の閾値算出部436は、例えば図示しない操作部を通じて、図示しない管理者から、閾値設定指示を受け付けるまで待機する(S500:No)。閾値算出部436は、閾値設定指示を受け付けたと判定した場合(S500:Yes)、単語意味辞書326を参照して、相互に類似する単語を抽出する(S501)。
次に、閾値算出部436は、抽出された各単語を含む文書のクラスタを特定し(S502)、各クラスタの重心間の距離を算出する(S503)。また、閾値算出部436は、各クラスタの分散の差異も算出する(S504)。そして、閾値算出部436は、算出された重心間の距離及び分散の差異に、所定の値を乗算することにより、閾値を算出し、閾値記憶部427に記憶する(S505)。
そして、閾値算出部436は、全ての類似する単語について処理を終了するまで、S503に戻って処理を繰り返す(S510:No)。そして、出力部135は、全ての類似する単語について処理を終了すると(S510:Yes)、閾値算出処理を終了する。
以上説明したように、本実施例における学習装置は、相互に類似する意味を有する単語を用いて分類された各クラスタの重心間の距離、又は各クラスタの分散の差異を用いて閾値を算出する。これにより、相互に類似する単語を用いて分類されたクラスタの実態に即して閾値を設定できる。
また、各実施例における学習装置が、二つのクラスタが相互に類似するか否かを判定するための閾値を事前に記憶部120に記憶する構成について説明したが、実施の形態はこれに限られない。例えば、各実施例における学習装置が、相互に類似する意味を有する単語を用いて分類された各クラスタの重心間の距離を用いて第1の閾値を算出し、又は各クラスタの分散の差異を用いて第2の閾値を算出してもよい。実際に類似する意味を有する単語間でのクラスタの類似に基づいて閾値を算出することにより、クラスタが相互に類似するか否かの判定を、より実態に近似させることができる。
また、複数のクラスタが類似すると判定される場合であっても、例えば、各クラスタを構成する入力文書の数が十分に確保されている場合など、各クラスタの分類に用いられる単語に共通のラベルを付与する必要がないこともある。そこで、学習装置は、第1の単語を用いて分類されたクラスタと、第2の単語を用いて分類されたクラスタとのうち少なくともいずれかのサンプル数が閾値以上であると判定した場合に、第2の単語に、第1の単語と共通するラベルを付与することを抑制してもよい。また、学習装置は、第1の単語を用いて分類されたクラスタのサンプルの密度と、第2の単語を用いて分類されたクラスタのサンプルの密度との差異が閾値以上であると判定した場合、第2の単語に、第1の単語と共通するラベルを付与することを抑制してもよい。これにより、不要なラベル付けを抑制することができる。
また、各実施例におけるコンテキストは、文書中に出現する単語を「1」、推定したい単語及び文書中に出現しない単語を「0」で示すベクトルにより表されるが、これに限られない。例えば、コンテキストの値を、単語が文書中に出現する回数としてもよい。この場合、コンテキストの各項は「0」と「1」だけでなく、2以上の値をとることがある。
[システム]
また、各実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともできる。あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[ハードウェア構成]
図19は、コンピュータのハードウェア構成例を示す図である。図19に示すように、コンピュータ500は、各種演算処理を実行するCPU501と、ユーザからのデータ入力を受け付ける入力装置502と、モニタ503とを有する。また、コンピュータ500は、記憶媒体からプログラムなどを読み取る媒体読取装置504と、他の装置と接続するためのインターフェース装置505と、他の装置と無線により接続するための無線通信装置506とを有する。また、コンピュータ500は、各種情報を一時記憶するRAM(Random Access Memory)507と、ハードディスク装置508とを有する。また、各装置501〜508は、バス509に接続される。
ハードディスク装置508には、図1に示した分析部130と同様の機能を有する分析プログラムが記憶される。また、ハードディスク装置508には、分析プログラムを実現するための各種データが記憶される。各種データには、図1に示した記憶部120内のデータが含まれる。
CPU501は、ハードディスク装置508に記憶された各プログラムを読み出して、RAM507に展開して実行することで、各種の処理を行う。これらのプログラムは、コンピュータ500を図1に示した各機能部として機能させることができる。
なお、上記の分析プログラムは、必ずしもハードディスク装置508に記憶されている必要はない。例えば、コンピュータ500が読み取り可能な記憶媒体に記憶されたプログラムを、コンピュータ500が読み出して実行するようにしてもよい。コンピュータ500が読み取り可能な記憶媒体は、例えば、CD−ROMやDVDディスク、USB(Universal Serial Bus)メモリなどの可搬型記録媒体、フラッシュメモリなどの半導体メモリ、ハードディスクドライブなどが対応する。また、公衆回線、インターネット、LAN(Local Area Network)などに接続された装置にこれらのプログラムを記憶させておき、コンピュータ500がこれらのプログラムを読み出して実行するようにしても良い。
100、200、300、400 学習装置
120、220、320、420 記憶部
121 学習用コーパス
122 表層単語辞書
123 コンテキスト記憶部
124 クラスタ記憶部
125、225 意味ラベル記憶部
326 単語意味辞書
327、427 閾値記憶部
130、230、330、430 分析部
131 辞書生成部
132 コンテキスト生成部
133 クラスタリング処理部
134、234、334 ラベル付与部
135 出力部
436 閾値算出部

Claims (9)

  1. 複数の文書から単語を抽出して表層単語辞書を生成する辞書生成部と、
    生成された前記表層単語辞書と、前記複数の文書とを参照し、前記文書それぞれに対応するコンテキストを生成するコンテキスト生成部と、
    前記表層単語辞書に含まれる前記単語単位で、生成された前記コンテキストをクラスタに分類するクラスタリング処理部と、
    分類された前記クラスタのうち、第1の単語を用いて分類されたクラスタと、第2の単語を用いて分類されたクラスタとが類似する場合に、前記第1の単語と前記第2の単語に共通するラベルを付し、前記第1の単語を用いて分類されたクラスタと、前記第2の単語を用いて分類されたクラスタとが類似しない場合に、前記第1の単語と前記第2の単語に異なるラベルを付与するラベル付与部と、
    を有し、
    前記コンテキスト生成部は、付与された前記ラベルを用いて前記コンテキストを更新し、
    前記クラスタリング処理部は、前記ラベル単位で、更新された前記コンテキストをクラスタに分類する、
    ことを特徴とする学習装置。
  2. 前記ラベル付与部は、分類された複数の前記クラスタの重心間の距離が第1の閾値未満であると判定した場合、又は複数の前記クラスタの分散の差異が第2の閾値未満であると判定した場合に、判定対象の複数の前記クラスタが相互に類似すると判定することを特徴とする請求項1に記載の学習装置。
  3. 相互に類似する意味を有する単語を用いて分類された各クラスタの重心間の距離を用いて前記第1の閾値を算出し、又は前記各クラスタの分散の差異を用いて前記第2の閾値を算出する閾値算出部をさらに有することを特徴とする請求項2に記載の学習装置。
  4. 前記ラベル付与部は、前記第1の単語を用いて分類されたクラスタと、前記第2の単語を用いて分類されたクラスタとのうち少なくともいずれかのサンプル数が第3の閾値以上であると判定した場合、又は前記第1の単語を用いて分類されたクラスタのサンプルの密度と、前記第2の単語を用いて分類されたクラスタのサンプルの密度との差異が第4の閾値以上であると判定した場合、前記第2の単語に、前記第1の単語と共通するラベルを付与することを抑制することを特徴とする請求項13のいずれか1つに記載の学習装置。
  5. 前記単語の意味を記憶する単語意味辞書をさらに有し、
    前記ラベル付与部は、前記第1の単語及び前記第2の単語が、相互に類似する意味を有することが前記単語意味辞書に記載されていると判定される場合に、前記第1の単語を用いて分類されたクラスタと前記第2の単語を用いて分類されたクラスタとが相互に類似すると判定することを特徴とする請求項14のいずれか1つに記載の学習装置。
  6. さらに、前記ラベルごとに、記クラスタに含まれるコンテキストを出力する出力部をする、
    とを特徴とする請求項15のいずれか1つに記載の学習装置。
  7. 前記ラベル付与部は、前記第1の単語を含む文書が第1のクラスタと第2のクラスタとに分類された場合、前記第1のクラスタを構成する文書に含まれる前記第1の単語に対して第1のラベルを付与し、前記第2のクラスタを構成する文書に含まれる前記第1の単語に対して前記第1のラベルとは異なる第2のラベルを付与し、前記第2の単語を用いて分類されたクラスタが前記第1のクラスタと類似する場合は前記第1のラベルを前記第2の単語に付与し、前記第2の単語を用いて分類されたクラスタが前記第2のクラスタと類似する場合は前記第2のラベルを前記第2の単語に付与することを特徴とする請求項16のいずれか1つに記載の学習装置。
  8. 複数の文書から単語を抽出して表層単語辞書を生成し、
    生成された前記表層単語辞書と、前記複数の文書とを参照し、前記文書それぞれに対応するコンテキストを生成し、
    前記表層単語辞書に含まれる前記単語単位で、生成された前記コンテキストをクラスタに分類し、
    分類された前記クラスタのうち、第1の単語を用いて分類されたクラスタと、第2の単語を用いて分類されたクラスタとが類似する場合に、前記第1の単語と前記第2の単語に共通するラベルを付し、前記第1の単語を用いて分類されたクラスタと、前記第2の単語を用いて分類されたクラスタとが類似しない場合に、前記第1の単語と前記第2の単語に異なるラベルを付与する
    処理をコンピュータが実行し、
    前記コンテキストを生成する処理は、付与された前記ラベルを用いて前記コンテキストを更新し、
    前記分類する処理は、前記ラベル単位で、更新された前記コンテキストをクラスタに分類する、
    とを特徴とする学習方法。
  9. 複数の文書から単語を抽出して表層単語辞書を生成し、
    生成された前記表層単語辞書と、前記複数の文書とを参照し、前記文書それぞれに対応するコンテキストを生成し、
    前記表層単語辞書に含まれる前記単語単位で、生成された前記コンテキストをクラスタに分類し、
    分類された前記クラスタのうち、第1の単語を用いて分類されたクラスタと、第2の単語を用いて分類されたクラスタとが類似する場合に、前記第1の単語と前記第2の単語に共通するラベルを付し、前記第1の単語を用いて分類されたクラスタと、前記第2の単語を用いて分類されたクラスタとが類似しない場合に、前記第1の単語と前記第2の単語に異なるラベルを付与する
    処理をコンピュータに実行させ
    前記コンテキストを生成する処理は、付与された前記ラベルを用いて前記コンテキストを更新し、
    前記分類する処理は、前記ラベル単位で、更新された前記コンテキストをクラスタに分類する、
    とを特徴とする学習プログラム。
JP2017068552A 2017-03-30 2017-03-30 学習装置、学習方法及び学習プログラム Active JP6930180B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017068552A JP6930180B2 (ja) 2017-03-30 2017-03-30 学習装置、学習方法及び学習プログラム
US15/919,811 US10747955B2 (en) 2017-03-30 2018-03-13 Learning device and learning method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017068552A JP6930180B2 (ja) 2017-03-30 2017-03-30 学習装置、学習方法及び学習プログラム

Publications (2)

Publication Number Publication Date
JP2018169940A JP2018169940A (ja) 2018-11-01
JP6930180B2 true JP6930180B2 (ja) 2021-09-01

Family

ID=63670500

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017068552A Active JP6930180B2 (ja) 2017-03-30 2017-03-30 学習装置、学習方法及び学習プログラム

Country Status (2)

Country Link
US (1) US10747955B2 (ja)
JP (1) JP6930180B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6930179B2 (ja) * 2017-03-30 2021-09-01 富士通株式会社 学習装置、学習方法及び学習プログラム
JP7006402B2 (ja) * 2018-03-14 2022-01-24 富士通株式会社 クラスタリングプログラム、クラスタリング方法およびクラスタリング装置
US10810513B2 (en) * 2018-10-25 2020-10-20 The Boeing Company Iterative clustering for machine learning model building
GB201916800D0 (en) * 2019-11-19 2020-01-01 Ibm Detecting errors in spreadsheets
GB201916803D0 (en) 2019-11-19 2020-01-01 Ibm Identifying content and structure of olap dimensions from a spreadsheet
GB201916804D0 (en) 2019-11-19 2020-01-01 Ibm Generating an OLAP model from a spreadsheet
GB201916801D0 (en) 2019-11-19 2020-01-01 Ibm Identifying data relationships from a spreadsheet
JP7358981B2 (ja) * 2019-12-27 2023-10-11 富士通株式会社 情報処理プログラム、情報処理方法、および情報処理装置

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3643516B2 (ja) * 2000-03-23 2005-04-27 日本電信電話株式会社 文書評価方法及び装置及び文書評価プログラムを格納した記録媒体
AU2001264928A1 (en) * 2000-05-25 2001-12-03 Kanisa Inc. System and method for automatically classifying text
US6751614B1 (en) * 2000-11-09 2004-06-15 Satyam Computer Services Limited Of Mayfair Centre System and method for topic-based document analysis for information filtering
WO2003014975A1 (en) * 2001-08-08 2003-02-20 Quiver, Inc. Document categorization engine
US20040013302A1 (en) * 2001-12-04 2004-01-22 Yue Ma Document classification and labeling using layout graph matching
US7031909B2 (en) * 2002-03-12 2006-04-18 Verity, Inc. Method and system for naming a cluster of words and phrases
US20040133560A1 (en) * 2003-01-07 2004-07-08 Simske Steven J. Methods and systems for organizing electronic documents
US8056001B2 (en) * 2003-04-10 2011-11-08 Hewlett-Packard Development Company, L.P. Method and apparatus for classifying elements of a document
US7610313B2 (en) * 2003-07-25 2009-10-27 Attenex Corporation System and method for performing efficient document scoring and clustering
JP2005092442A (ja) 2003-09-16 2005-04-07 Mitsubishi Research Institute Inc 多次元空間モデル表現装置および多次元空間モデル表現方法
CN100462961C (zh) * 2004-11-09 2009-02-18 国际商业机器公司 组织多个文档的方法以及显示多个文档的设备
US7945437B2 (en) * 2005-02-03 2011-05-17 Shopping.Com Systems and methods for using automated translation and other statistical methods to convert a classifier in one language to another language
US7937345B2 (en) * 2006-07-12 2011-05-03 Kofax, Inc. Data classification methods using machine learning techniques
EP1939797A1 (en) * 2006-12-23 2008-07-02 NTT DoCoMo, Inc. Method and apparatus for automatically determining a semantic classification of context data
US9317593B2 (en) * 2007-10-05 2016-04-19 Fujitsu Limited Modeling topics using statistical distributions
US7996390B2 (en) * 2008-02-15 2011-08-09 The University Of Utah Research Foundation Method and system for clustering identified forms
US8566349B2 (en) * 2009-09-28 2013-10-22 Xerox Corporation Handwritten document categorizer and method of training
US9928244B2 (en) * 2010-05-18 2018-03-27 Integro, Inc. Electronic document classification
US8751496B2 (en) * 2010-11-16 2014-06-10 International Business Machines Corporation Systems and methods for phrase clustering
US8510306B2 (en) * 2011-05-30 2013-08-13 International Business Machines Corporation Faceted search with relationships between categories
US9430464B2 (en) * 2013-12-20 2016-08-30 International Business Machines Corporation Identifying unchecked criteria in unstructured and semi-structured data
US9805115B1 (en) * 2014-03-13 2017-10-31 Symantec Corporation Systems and methods for updating generic file-classification definitions
US9672279B1 (en) * 2014-09-30 2017-06-06 EMC IP Holding Company LLC Cluster labeling system for documents comprising unstructured text data
US10176253B2 (en) * 2015-01-28 2019-01-08 International Business Machines Corporation Fusion of cluster labeling algorithms by analyzing sub-clusters
US10095686B2 (en) * 2015-04-06 2018-10-09 Adobe Systems Incorporated Trending topic extraction from social media
US10339921B2 (en) * 2015-09-24 2019-07-02 Google Llc Multichannel raw-waveform neural networks
US10691739B2 (en) * 2015-12-22 2020-06-23 Mcafee, Llc Multi-label content recategorization

Also Published As

Publication number Publication date
JP2018169940A (ja) 2018-11-01
US20180285347A1 (en) 2018-10-04
US10747955B2 (en) 2020-08-18

Similar Documents

Publication Publication Date Title
JP6930180B2 (ja) 学習装置、学習方法及び学習プログラム
US7031909B2 (en) Method and system for naming a cluster of words and phrases
CN103678418B (zh) 信息处理方法和信息处理设备
RU2583716C2 (ru) Метод построения и обнаружения тематической структуры корпуса
US10956472B2 (en) Dynamic load balancing based on question difficulty
JP6933736B2 (ja) 知識グラフにおけるデータモデルを取得する方法、装置、機器及び媒体
JP2024101661A (ja) 求職者検索システム、情報処理方法及びプログラム
KR101494795B1 (ko) 문서를 매트릭스로 표현하는 방법
Raghav et al. Text and citations based cluster analysis of legal judgments
JP2020140468A (ja) 情報処理装置及びプログラム
US10643152B2 (en) Learning apparatus and learning method
Zhou et al. Geo-location inference on news articles via multimodal pLSA
JP6282714B1 (ja) 算出装置、算出方法、及び算出プログラム
KR20160120583A (ko) 지식 관리 시스템 및 이의 지식 구조 기반의 자료 관리 방법
JP2006099753A (ja) 名前及びキーワードのグループ化方法、そのプログラムおよび記録媒体並びに装置
Ravinuthala et al. Thematic text graph: A text representation technique for keyword weighting in extractive summarization system
JP2016045552A (ja) 特徴抽出プログラム、特徴抽出方法、および特徴抽出装置
US8886651B1 (en) Thematic clustering
JP2019159918A (ja) クラスタリングプログラム、クラスタリング方法およびクラスタリング装置
JPH11282874A (ja) 情報フィルタリング方法および装置
JP7168334B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP7042720B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6159002B1 (ja) 推定装置、推定方法及び推定プログラム
Zhao et al. Applying lexical link analysis to discover insights from public information on COVID-19
JP6887002B2 (ja) 情報処理装置、サーバ装置、ユーザ端末、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210713

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210726

R150 Certificate of patent or registration of utility model

Ref document number: 6930180

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150