JP4325938B2 - 単語配置装置、単語配置方法およびプログラム - Google Patents

単語配置装置、単語配置方法およびプログラム Download PDF

Info

Publication number
JP4325938B2
JP4325938B2 JP2004302254A JP2004302254A JP4325938B2 JP 4325938 B2 JP4325938 B2 JP 4325938B2 JP 2004302254 A JP2004302254 A JP 2004302254A JP 2004302254 A JP2004302254 A JP 2004302254A JP 4325938 B2 JP4325938 B2 JP 4325938B2
Authority
JP
Japan
Prior art keywords
word
vector
category
different
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2004302254A
Other languages
English (en)
Other versions
JP2006113917A (ja
Inventor
克人 別所
雅博 奥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004302254A priority Critical patent/JP4325938B2/ja
Publication of JP2006113917A publication Critical patent/JP2006113917A/ja
Application granted granted Critical
Publication of JP4325938B2 publication Critical patent/JP4325938B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、単語を、該単語の意味を表現するベクトルにマッピングすることにより、単語を距離空間上に配置する単語配置装置、単語配置方法および単語配置プログラムに関する。
従来、ある動詞にある助詞で係る名詞の集合を、カテゴリととらえ、この情報に基づいて、名詞の集合を距離空間上に配置することが知られている。名詞tに未知ベクトルVtを対応付け、全名詞の平均ベクトルと、1カテゴリ内での全名詞の平均ベクトルとの距離の自乗に、上記カテゴリ内での名詞の出現回数の和を乗じた値を、全カテゴリにわたって加算した値が、ベクトルの分散が一定という条件下で、最大となるように、未知ベクトルVtを求めるという手法が知られている(たとえば、非特許文献1参照)。
冨浦洋一、田中省作、日高達著「共起データに基づく名詞のn次元空間への配置」情報処理学会研究報告、Vol.SIG−NL 154、p.71−76、2003年3月6日
一般の単語集合を、同一文書または同一文書集合内に含まれている単語集合の情報に基づいて、距離空間上に配置する技術は、これまで知られていない。
また、非特許文献1の手法では、実質的に1階層のカテゴリ集合しか用いていず、包含関係にあるカテゴリ群が存在するような複数階層のカテゴリ集合を用いる概念はない。複数階層のカテゴリ集合を用いることにより、より単語の意味を反映した配置ができる可能性がある。
さらに、複数階層のカテゴリ集合において、上位の大カテゴリ内の単語は緩やかに関係しており、下位の小カテゴリ内の単語は強固に関係していると考えられ、カテゴリの階層毎の単語間の関係性を反映する機能が必要である。
一方、単語配置技術によって、ある文書集合から、上記文書集合に含まれる単語集合を距離空間上に配置することによって、単語と上記単語の意味を表現するベクトルとの対の集合が格納されているデータベース(以下、「概念ベース」と呼ぶ)を生成する。
概念ベースの例としては他に、特開平6−103315号公報に記載されている「類似性判別装置」や、特開平7−302265号公報に記載されている「類似性判別用データ精錬方法およびこの方法を実施する装置」で開示されているデータベースがある。
また、Deerwesterの論文(S.Deerwester, S.T.Dumais, G.W.Furnas, T.K.Landauer and R.Harshman, “Indexing by Latent Semantic Analysis”, Journal of the American Society for Information Science, pp.391-407, 1990)では、単語の文書における頻度を記録した単語・文書間の共起行列を特異値分解によって、次元数を縮退させた行列に変換しているが、この変換後の行列も、概念ベースの一例である。
Schutzeの論文(H.Schutze, “Dimensions of Meaning”, Proceedings of Supercomputing '92, pp.786-796, 1992)では、コーパス中の単語間の共起頻度を記録した単語・単語間の共起行列を特異値分解によって次元数を縮退させた行列に変換しているが、この変換後の行列も概念ベースの一例である。
概念ベースを別のテキストの言語処理に使用する際、テキスト中の各単語に対し、当該単語で概念ベースを検索し、対応するベクトルを付与する。しかし、概念ベース中に存在していない単語については、ベクトルを割り当てることができず、ベクトルを利用した言語処理において、そのような単語は全く考慮されていない。
テキストの話題構造化等の言語処理で概念ベースを利用する際に、話題に特徴的な単語であっても、概念ベースに存在していない単語があると、精度の低下を招く。新語が、話題に特徴的な単語であることも多く、この新語が、概念ベースの生成時には存在しないので、概念ベース中に存在していないことも多い。
また、概念ベースを利用した検索において、入力した検索語であって、検索対象テキストには含まれるが、概念ベースには含まれていない検索語には、ベクトルが付与されず、検索において全く考慮されないので、精度の低下を招く。
どんなに数多くの単語を含む概念ベースを用意しても、概念ベース中に存在していない単語が処理対象テキスト中に出てくることは、避けられない。
処理対象テキストそのものから概念ベースを生成する方法が考えられるが、この方法を採用した場合、処理対象テキストの分量が多くないと、単語ベクトルは、上記単語の意味を的確に表していない可能性が高く、単語配置の精度の低下は避けられない。
また、概念ベースの生成用テキストと処理対象テキストとを連接して得られる新たなテキストから、概念ベースを生成し直し、処理対象テキスト中の全ての単語に、単語ベクトルを割り当てる方法も考えられるが、一般に、概念ベースの生成処理は長い時間がかかるので、この方法を採用した場合、処理対象テキストを処理する度に、概念ベースを生成し直すことは、時間がかかり過ぎるという問題がある。
本発明は、単語の意味をより反映した単語配置を実現できる単語配置装置、単語配置方法および単語配置プログラムを提供することを目的とするものである。
また、本発明は、概念ベースを生成し直さなくても、処理対象テキスト中の概念ベースに含まれていない単語に、適切な単語ベクトルを、短時間で推定することができる単語配置装置、単語配置方法および単語配置プログラムを提供することを目的とするものである。
請求項1記載の発明は、単語を、該単語の意味を表現するベクトルにマッピングすることにより、単語を距離空間上に配置する単語配置装置において、文書集合の部分集合としてのカテゴリの集合が付随した文書集合を入力し、上記文書集合中の各文書を、形態素解析し、単語に分割し、異なり単語を得、メモリに記憶する形態素解析手段と、任意のカテゴリcと、上記形態素解析手段が得た異なり単語の集合中の任意の単語tに対し、カテゴリc内における単語tの出現回数n(t|c)に、カテゴリcに対応する重みw(c)を乗じたz(t|c):=w(c)*n(t|c)を、単語tのカテゴリc内での重みとし、単語tの全カテゴリにわたるz(t|c)の和を、単語tの重みとして算出し、メモリに記憶する単語重み算出手段と、各異なり単語tに未知ベクトルVtを対応付け、全異なり単語の重み付平均ベクトルと、1カテゴリ内での全異なり単語の重み付平均ベクトルとの距離の自乗に、上記カテゴリ内での異なり単語重み和を乗じた値を、全カテゴリにわたって加算した値が、ベクトルの分散が一定という条件下で、最大となるように、未知ベクトルVtを求め、メモリに記憶するベクトル付与手段とを有することを特徴とする単語配置装置である。
請求項2記載の発明は、単語を、該単語の意味を表現するベクトルにマッピングすることにより、単語を距離空間上に配置する単語配置装置において、文書集合の部分集合としてのカテゴリの集合が付随した文書集合を入力し、上記文書集合中の各文書を、形態素解析し、単語に分割し、異なり単語を得、メモリに記憶する形態素解析手段と、任意のカテゴリcと、上記形態素解析手段が得た異なり単語の集合中の任意の単語tに対し、カテゴリc内における単語tの出現回数n(t|c)に、カテゴリcに対応する重みw(c)を乗じたz(t|c):=w(c)*n(t|c)を、単語tのカテゴリc内での重みとし、単語tの全カテゴリにわたるz(t|c)の和を、単語tの重みとして算出し、メモリに記憶する単語重み算出手段と、各異なり単語tを検索キーとして、単語と該単語の意味を表現するベクトルの対の集合が格納されているデータベースを検索し、検索された異なり単語tに、異なり単語tのベクトルVtを対応付け、メモリに記憶するデータベース検索手段と、上記データベース検索手段で検索されなかった各異なり単語t’に未知ベクトルVt’を対応付け、全異なり単語の重み付平均ベクトルと、1カテゴリ内での全異なり単語の重み付平均ベクトルとの距離の自乗に、上記カテゴリ内での異なり単語重み和を乗じた値を、全カテゴリにわたって加算した値が、ベクトルの分散が一定という条件下で、最大となるように、未知ベクトルVt’を求め、メモリに記憶するベクトル付与手段とを有することを特徴とする単語配置装置である。
請求項3記載の発明は、単語を、該単語の意味を表現するベクトルにマッピングすることにより、単語を距離空間上に配置する単語配置方法において、文書集合の部分集合としてのカテゴリの集合が付随した文書集合を入力し、上記文書集合中の各文書を、形態素解析し、単語に分割し、異なり単語を得、メモリに記憶する形態素解析工程と、任意のカテゴリcと、上記形態素解析工程で得た異なり単語の集合中の任意の単語tに対し、カテゴリc内における単語tの出現回数n(t|c)に、カテゴリcに対応する重みw(c)を乗じたz(t|c):=w(c)*n(t|c)を、単語tのカテゴリc内での重みとし、単語tの全カテゴリにわたるz(t|c)の和を、単語tの重みとして算出し、メモリに記憶する単語重み算出工程と、各異なり単語tに未知ベクトルVtを対応付け、全異なり単語の重み付平均ベクトルと、1カテゴリ内での全異なり単語の重み付平均ベクトルとの距離の自乗に、上記カテゴリ内での異なり単語重み和を乗じた値を、全カテゴリにわたって加算した値が、ベクトルの分散が一定という条件下で、最大となるように、未知ベクトルVtを求め、メモリに記憶するベクトル付与工程とを有することを特徴とする単語配置方法である。
請求項4記載の発明は、単語を、該単語の意味を表現するベクトルにマッピングすることにより、単語を距離空間上に配置する単語配置方法において、文書集合の部分集合としてのカテゴリの集合が付随した文書集合を入力し、上記文書集合中の各文書を、形態素解析し、単語に分割し、異なり単語を得、メモリに記憶する形態素解析工程と、任意のカテゴリcと、上記形態素解析工程で得た異なり単語の集合中の任意の単語tに対し、カテゴリc内における単語tの出現回数n(t|c)に、カテゴリcに対応する重みw(c)を乗じたz(t|c):=w(c)*n(t|c)を、単語tのカテゴリc内での重みとし、単語tの全カテゴリにわたるz(t|c)の和を、単語tの重みとして算出し、メモリに記憶する単語重み算出工程と、各異なり単語tを検索キーとして、単語と該単語の意味を表現するベクトルの対の集合が格納されているデータベースを検索し、検索された異なり単語tに、異なり単語tのベクトルVtを対応付け、メモリに記憶するデータベース検索工程と、上記データベース検索工程で検索されなかった各異なり単語t’に未知ベクトルVt’を対応付け、全異なり単語の重み付平均ベクトルと、1カテゴリ内での全異なり単語の重み付平均ベクトルとの距離の自乗に、上記カテゴリ内での異なり単語重み和を乗じた値を、全カテゴリにわたって加算した値が、ベクトルの分散が一定という条件下で、最大となるように、未知ベクトルVt’を求め、メモリに記憶するベクトル付与工程とを有することを特徴とする単語配置方法である。
請求項5記載の発明は、単語を、該単語の意味を表現するベクトルにマッピングすることにより、単語を距離空間上に配置するプログラムであって、文書集合の部分集合としてのカテゴリの集合が付随した文書集合を入力し、上記文書集合中の各文書を、形態素解析し、単語に分割し、異なり単語を得、メモリに記憶する形態素解析手順と、任意のカテゴリcと、上記形態素解析手順で得た異なり単語の集合中の任意の単語tに対し、カテゴリc内における単語tの出現回数n(t|c)に、カテゴリcに対応する重みw(c)を乗じたz(t|c):=w(c)*n(t|c)を、単語tのカテゴリc内での重みとし、単語tの全カテゴリにわたるz(t|c)の和を、単語tの重みとして算出し、メモリに記憶する単語重み算出手順と、各異なり単語tに未知ベクトルVtを対応付け、全異なり単語の重み付平均ベクトルと、1カテゴリ内での全異なり単語の重み付平均ベクトルとの距離の自乗に、上記カテゴリ内での異なり単語重み和を乗じた値を、全カテゴリにわたって加算した値が、ベクトルの分散が一定という条件下で、最大となるように、未知ベクトルVtを求め、メモリに記憶するベクトル付与手順とをコンピュータに実行させるプログラムである。
請求項6記載の発明は、単語を、該単語の意味を表現するベクトルにマッピングすることにより、単語を距離空間上に配置するプログラムであって、文書集合の部分集合としてのカテゴリの集合が付随した文書集合を入力し、上記文書集合中の各文書を、形態素解析し、単語に分割し、異なり単語を得、メモリに記憶する形態素解析手順と、任意のカテゴリcと、上記形態素解析手順で得た異なり単語の集合中の任意の単語tに対し、カテゴリc内における単語tの出現回数n(t|c)に、カテゴリcに対応する重みw(c)を乗じたz(t|c):=w(c)*n(t|c)を、単語tのカテゴリc内での重みとし、単語tの全カテゴリにわたるz(t|c)の和を、単語tの重みとして算出し、メモリに記憶する単語重み算出手順と、各異なり単語tを検索キーとして、単語と該単語の意味を表現するベクトルの対の集合が格納されているデータベースを検索し、検索された異なり単語tに、異なり単語tのベクトルVtを対応付け、メモリに記憶するデータベース検索手順と、上記データベース検索手順で検索されなかった各異なり単語t’に未知ベクトルVt’を対応付け、全異なり単語の重み付平均ベクトルと、1カテゴリ内での全異なり単語の重み付平均ベクトルとの距離の自乗に、上記カテゴリ内での異なり単語重み和を乗じた値を、全カテゴリにわたって加算した値が、ベクトルの分散が一定という条件下で、最大となるように、未知ベクトルVt’を求め、メモリに記憶するベクトル付与手順とをコンピュータに実行させるプログラムである。
上述のように、本発明は、一般の単語集合を、同一文書あるいは同一文書集合内に含まれる単語集合の情報を基に、距離空間上に配置する。
請求項1、3、5記載の発明によれば、文書集合中の任意の部分集合をカテゴリとして、上記カテゴリ内の共起関係を反映させることができるので、階層構造をなしているカテゴリ集合をとることによって、最も粒度の高い下位のカテゴリのみならず、上位のカテゴリの共起関係も反映させることができ、このために、下位のカテゴリだけ、または上位のカテゴリだけでは捉えきれない共起関係をともに反映させることができ、したがって、単語の意味を的確に反映した単語配置をすることができるという効果を奏する。
また、各カテゴリ毎に、単語の重みを調節できるので、たとえば、上位カテゴリ内の単語重みを小さくすることにより、上位カテゴリ内に共起する単語同士の距離を長くし、下位カテゴリ内の単語重みを大きくすることにより、下位カテゴリ内に共起する単語同士の距離を短くすることができる。このようにして、上位カテゴリ内の単語は緩やかに関係していて、下位カテゴリ内の単語は強固に関係しているという性質を反映した配置が可能となる。
また、請求項2、4、6記載の発明によれば、処理対象テキスト中の異なり単語で、既に生成済みの概念ベース中に存在する単語のベクトル値を固定した上で、上記生成済の概念ベースに存在しない単語の最適なベクトル値を、処理対象テキストにおけるカテゴリ内の単語共起関係に基づいて、推定するので、概念ベースを生成し直さずに、しかも短時間で、処理対象テキスト中の概念ベースに含まれない単語について、良質なベクトル値を推定することができるという効果を奏する。
発明を実施するための最良の形態は、以下の実施例である。
図1は、本発明の実施例1である単語配置装置100を示すブロック図である。
単語配置装置100は、文書集合の部分集合としてのカテゴリの集合が付随した文書集合を入力する。
1つの文書であっても、文書集合と考えることができるので、1つの文書がカテゴリを構成すると考えることもできる。
文書の単位は、典型的には、内容を完結した1つのドキュメントである。
また、ドキュメント中の各段落を、文書として把握するようにしてもよく、この場合、ドキュメントは、段落の集合であるので、1つのドキュメントをカテゴリであると認識してもよい。ドキュメント中の各文を文書と考えてもよく、この場合、ドキュメント、段落も、文の集合であるで、それぞれをカテゴリと見なすことができる。
一般に、カテゴリ間には、包含関係が存在しうる。文とそれを含む段落、該段落を含むドキュメントの間には、包含関係がある。また、あるトピックに属するドキュメントの集合を、カテゴリとして設定することができる。
図3は、ドキュメントを文書相当とし、各文書が、上記文書に含まれる単語の集合として設定されていることを示す図である。
また、図3には、文書のカテゴリとして、「国産車」、「バイク」、「病気」、「栄養」が設定され、「国産車」、「バイク」を包含するカテゴリとして「車」が設定され、また、「病気」、「栄養」を包含するカテゴリとして「健康」が設定され、これらも文書集合である。
「車」、「健康」は、上位カテゴリであり、「国産車」、「バイク」、「病気」、「栄養」は、下位カテゴリである。このように、一般に、カテゴリ集合は、包含関係が存在し得る階層構造を形成している。
単語配置装置100は、形態素解析手段10と、単語重み算出手段20と、ベクトル付与手段50とを有する。
形態素解析手段10は、文書集合を入力した後に、文書集合中の各文書を、形態素解析し、単語に分割し、異なり単語を得、メモリに記憶する手段である。ここで、自立語等の内容語のみを、異なり単語として残し、それ以外の語は削除する。
単語重み算出手段20は、形態素解析手段10が得た異なり単語の集合中の任意の単語の重みを算出し、メモリに記憶する。
形態素解析手段10が得た異なり単語の集合を、T={t,t,…,t}とする。また、カテゴリの集合をC={c,c,…,c}とする。
カテゴリcには、重みw(c)(>0)が対応付けられている。複数階層のカテゴリ集合において、上位カテゴリ内の単語は、緩やかに関係し、下位カテゴリ内の単語は、強固に関係していると考えられるので、上位カテゴリには小さい重みを、下位カテゴリには大きい重みを付ける。
任意のカテゴリc内で、任意の異なり単語tが出現する回数n(t|c)を、算出する。
カテゴリc内での異なり単語tの重みを、z(t|c):=w(c)*n(t|c)として算出する。
また、異なり単語tの重みを、
Figure 0004325938
として算出する。
ベクトル付与手段50は、各異なり単語にベクトルを付与し、メモリに記憶する。
ベクトルの次元数を、k(<<m)とし、異なり単語tのベクトルを、v(t)=(ti1,ti2,…,tik)とする。
任意のカテゴリc内での全異なり単語の重みの和
Figure 0004325938
を算出する。
また、
Figure 0004325938
を算出する。
全異なり単語の重み付平均ベクトルμ=(μ,μ,…,μ)を
Figure 0004325938
として算出する。
カテゴリc内での全異なり単語の重み付平均ベクトルμ(c)を
Figure 0004325938
として算出する。
一般に、以下の関係式が成り立つ。
Figure 0004325938
上式の左辺を、「全変動」と呼び、右辺の第1項を、「クラスタ内変動」と呼び、第2項を、「クラスタ間変動」と呼ぶ。上記実施例では、カテゴリ内の単語間の距離が近くなるように単語を配置することを目指す。したがって、カテゴリ集合がクラスタ群として最適となるように、v(t)を定めなければならない。全変動に対するクラスタ内変動の割合が最小となるときに、カテゴリ集合はクラスタ群として最適となる。
単語を配置するに際して、単語間の相対的な位置のみが重要となるので、以下の制約条件1、2を設定する。
[制約条件1] 全異なり単語の重み付平均ベクトルを0ベクトルとする。
μ=0 (1≦r≦k)
[制約条件2] 全異なり単語のベクトルの各成分の分散を1とし、異なる成分間の共分散を0とする。
Figure 0004325938
但し、上記制約条件2において、異なり単語数が1である場合、σ =0(1≦r≦k)とする。
次に、カテゴリの重みw(c)の効用について述べる。
カテゴリの重みw(c)が大きくなると、クラスタ内変動内のz(t|c)が大きくなり、クラスタ内変動を最小にしようとすると、
Figure 0004325938
が小さくなる。逆に、w(c)が小さくなると、クラスタ内変動内のz(t|c)が小さくなる。このとき、クラスタ内変動を最小にしようとすると、
Figure 0004325938
を大きくしてでも、重みが相対的に大きいカテゴリc
Figure 0004325938
を小さくする。
上位カテゴリに小さい重みを付け、下位カテゴリに大きい重みを付けることによって、上位カテゴリ内に共起する単語同士の距離が長くなり、下位カテゴリ内に共起する単語同士の距離が短くなる。このようにして、上位カテゴリ内の単語は、緩やかに関係し、下位カテゴリ内の単語は、強固に関係しているという性質を反映して、配置することができる。
全変動に対するクラスタ内変動の割合が最小であることと、全変動に対するクラスタ間変動の割合が最大であることとは、同値である。すわなち、全異なり単語の重み付平均ベクトルと、1カテゴリ内での全異なり単語の重み付平均ベクトルとの距離の自乗に、上記カテゴリの単語重み和を乗じた値を、全カテゴリにわたって加算した値が、ベクトルの分散が一定という条件下で、最大となるように、各異なり単語tのベクトルv(t)を求める。
これは、以下の手順によって求める。
Figure 0004325938
とし、
Figure 0004325938
と置いたときに、上記Mの固有値を、λ,λ,…,λm−1とし、それぞれに属する大きさ1の固有ベクトルを、e,e,…,em−1とする。Mの固有値には、1が存在し、λ=1,λ≧λ≧…≧λm−1とする。
クラスタ間変動を最大にする
Figure 0004325938
は、V=Δ1/2・[e,e,…,e
として求める。
図2は、本発明の実施例2である単語配置装置200を示すブロック図である。
データベース40(以下、「概念ベース40」と呼ぶ)は、ある文書集合から、単語と上記単語の意味を表現するベクトルとの対を格納している。
概念ベース40生成用の文書集合とは異なる文書集合で、上記文書集合の部分集合としてのカテゴリの集合が付随しているものを入力する。
文書集合が入力された後に、形態素解析手段10が、文書集合中の各文書を形態素解析し単語に分割する。
次に、単語重み算出手段20が、形態素解析手段10が得た異なり単語の集合中の任意の単語の重みを算出する。
実施例2における処理内容は、実施例1における上記処理内容と同様である。
次に、データベース検索手段30が、各異なり単語tを検索キーとして、概念ベース40を検索し、検索されたtに、tのベクトル(ti1’,ti2’,…,tik’)を対応付ける。
次に、ベクトル付与手段50は、データベース検索手段30で検索されなかった各異なり単語にベクトルを、付与する。
ここで、ベクトルの次元数は、概念ベース40中のベクトルの次元数と同じkであるとする。
検索された異なり単語の集合を、{t,t,…,t}とし、検索されなかった異なり単語の集合を、{tp+1,tp+2,…,t}とする。以下の値を算出する。
Figure 0004325938
入力文書集合において、検索された全異なり単語のベクトルの異なる成分間の分散は、一般に0ではない。そこで、検索された全異なり単語の重み付平均ベクトルが0ベクトルとなり、全異なり単語のベクトルの各成分の分散が1となるように、検索された異なり単語tのベクトルv(t)を、以下のように変換する。
Figure 0004325938
これによって、
Figure 0004325938
が成り立つ。
但し、σ1r’=0のときは、tir=0(1≦i≦p),μ1r=0,σ1r =0とする。
検索された異なり単語tのベクトルは、上記により導出したベクトルv(t)とし、検索されなかった異なり単語tのベクトルは、未知ベクトルv(t):=(ti1,ti2,…,tik)とした上で、以下の式を定義する。
Figure 0004325938
次の制約条件3、4の下で、クラスタ間変動
Figure 0004325938
が最大となる、検索されなかった異なり単語tのベクトルv(t)を求める。
[制約条件3] 全異なり単語の重み付平均ベクトルを0ベクトルとする。
μ=0(1≦r≦k)
[制約条件4] 全異なり単語のベクトルの各成分の分散を1とする。
Figure 0004325938
制約条件3、4と以下の制約条件3’、4’とは、互いに同値である。
[制約条件3’] 検索されなかった全異なり単語の重み付平均ベクトルを0ベクトルとする。
μ2r=0(1≦r≦k)
[制約条件4’] 検索されなかった全異なり単語のベクトルの各成分の分散を1とする。
σ2r =1(1≦r≦k)
実際は、上記制約条件3’、4’の下で、クラスタ間変動
Figure 0004325938
が最大となる、検索されなかった異なり単語tのベクトルv(t)を求める。σ1r’=0の場合でも、制約条件4’はσ2r =1とする。また、検索されなかった異なり単語数が1の場合は、制約条件4’はσ2r =1(1≦r≦k)とする。
制約条件3’、4’の下でクラスタ間変動
Figure 0004325938
を最大にする問題は、(m−p)*k個の変数の最適化問題であり、逐次的な数値計算手法によって、クラスタ間変動を最大にするv(t)=(ti1,ti2,…,tik)(p+1≦i≦m)を求める。
ここでは、制約条件が成分間で独立であり、クラスタ間変動の式は、各成分毎の値の和であるので、各成分毎に最大となる未知数を求めることによって、計算量を抑えることができる。
なお、このうようにして求めたv(t)=(ti1,ti2,…,tik)(p+1≦i≦m)を、v(t)’=(ti1’,ti2’,…,tik’)=(σ11’ti1+μ11’,σ12’ti2+μ12’,…,σ1k’tik+μ1k’)と変換した上で、検索されなかった異なり単語tと、そのベクトルv(t)’とを、概念ベース40に追加登録するようにしてもよい。但し、σ1r’=0の場合、tir’=tir+μ1r’とする。
さらに、このようにして更新した概念ベース40を用い、新たな文書集合に対して、再び、実施例2のように、概念ベース40中に含まれない異なり単語のベクトル値を導出・変換し、上記異なり単語と上記ベクトル値とを、概念ベース40に追加登録するという処理を繰り返すようにしてもよい。
実施例2において、検索された異なり単語のベクトル値を変換することなく、制約条件として、入力文書集合中の全異なり単語の重み付平均ベクトルを、検索された全異なり単語の重み付平均ベクトルとし、入力文書集合中の全異なり単語のベクトルの各成分の分散を、検索された全異なり単語のベクトルの上記成分の分散とした上で、検索されなかった異なり単語のベクトル値を導出するようにしてもよい。この場合、検索されなかった異なり単語とそのベクトル値とを、上記ベクトル値を変換することなく、そのまま概念ベース40に追加登録できる。
また、実施例2において、検索された異なり単語のベクトル値を変換することなく、制約条件として、検索されなかった全異なり単語の重み付平均ベクトルを0ベクトルとし、検索されなかった全異なり単語のベクトルの各成分の分散を1とした上で、検索されなかった異なり単語のベクトル値を導出するようにしてもよい。この場合も、検索されなかった異なり単語とそのベクトル値とを、上記ベクトル値を変換することなく、そのまま概念ベース40に追加登録できる。
また、上記実施例において、最終的に得られた単語ベクトル(概念ベース40中のもの、または推定処理をして得られたもの)の長さをたとえば1に正規化するようにしてもよい。
これまで述べた処理をプログラムとして構築し、当該プログラムを通信回線または、記憶媒体からインストールし、CPU等の手段で実施するようにしてもよい。
上記実施例では、一般の単語集合を、同一文書あるいは同一文書集合内に含まれる単語集合の情報を基に、距離空間上に配置する。
文書集合中の任意の部分集合をカテゴリとして、該カテゴリ内の共起関係を反映させることができるので、階層構造をなしているカテゴリ集合をとることにより、最も粒度の高い下位のカテゴリのみならず、上位のカテゴリの共起関係も反映させることができる。このため、下位のカテゴリだけ、あるいは上位のカテゴリだけでは捉えきれない共起関係をともに反映させることができ、単語の意味を的確に反映した配置が可能となる。
また、カテゴリ毎に、単語の重みを調節できるので、たとえば、上位カテゴリ内の単語重みを小さくすることによって、上位カテゴリ内に共起する単語同士の距離を長くし、下位カテゴリ内の単語重みを大きくすることによって、下位カテゴリ内に共起する単語同士の距離を短くすることができる。このようにして、上位カテゴリ内の単語は、緩やかに関係し、下位カテゴリ内の単語は、強固に関係しているという性質を反映させて配置することができる。
また、上記実施例では、処理対象テキスト中の異なり単語で、既に生成済みの概念ベース中に存在する単語のベクトル値を固定した上で、存在しない単語の最適なベクトル値を、処理対象テキストにおけるカテゴリ内の単語共起関係に基づき推定する。これにより、概念ベースを新規に生成し直すことなく、短時間で、処理対象テキスト中の概念ベースに含まれない単語の良質なベクトル値を推定することが可能となる。
本発明は、単語を、上記単語の意味を表現するベクトルにマッピングすることによって、単語を距離空間上に配置する技術に適用可能である。
本発明の実施例1である単語配置装置100を示すブロック図である。 本発明の実施例2である単語配置装置200を示すブロック図である。 カテゴリ間の関係を説明するための図である。
符号の説明
10…形態素解析手段、
20…単語重み算出手段、
30…データベース検索手段、
40…データベース(概念ベース)、
50…ベクトル付与手段。

Claims (6)

  1. 単語を、該単語の意味を表現するベクトルにマッピングすることにより、単語を距離空間上に配置する単語配置装置において、
    文書集合の部分集合としてのカテゴリの集合が付随した文書集合を入力し、上記文書集合中の各文書を、形態素解析し、単語に分割し、異なり単語を得、メモリに記憶する形態素解析手段と;
    任意のカテゴリcと、上記形態素解析手段が得た異なり単語の集合中の任意の単語tに対し、カテゴリc内における単語tの出現回数n(t|c)に、カテゴリcに対応する重みw(c)を乗じたz(t|c):=w(c)*n(t|c)を、単語tのカテゴリc内での重みとし、単語tの全カテゴリにわたるz(t|c)の和を、単語tの重みとして算出し、メモリに記憶する単語重み算出手段と;
    各異なり単語tに未知ベクトルVtを対応付け、全異なり単語の重み付平均ベクトルと、1カテゴリ内での全異なり単語の重み付平均ベクトルとの距離の自乗に、上記カテゴリ内での異なり単語重み和を乗じた値を、全カテゴリにわたって加算した値が、ベクトルの分散が一定という条件下で、最大となるように、未知ベクトルVtを求め、メモリに記憶するベクトル付与手段と;
    を有することを特徴とする単語配置装置。
  2. 単語を、該単語の意味を表現するベクトルにマッピングすることにより、単語を距離空間上に配置する単語配置装置において、
    文書集合の部分集合としてのカテゴリの集合が付随した文書集合を入力し、上記文書集合中の各文書を、形態素解析し、単語に分割し、異なり単語を得、メモリに記憶する形態素解析手段と;
    任意のカテゴリcと、上記形態素解析手段が得た異なり単語の集合中の任意の単語tに対し、カテゴリc内における単語tの出現回数n(t|c)に、カテゴリcに対応する重みw(c)を乗じたz(t|c):=w(c)*n(t|c)を、単語tのカテゴリc内での重みとし、単語tの全カテゴリにわたるz(t|c)の和を、単語tの重みとして算出し、メモリに記憶する単語重み算出手段と;
    各異なり単語tを検索キーとして、単語と該単語の意味を表現するベクトルの対の集合が格納されているデータベースを検索し、検索された異なり単語tに、異なり単語tのベクトルVtを対応付け、メモリに記憶するデータベース検索手段と;
    上記データベース検索手段で検索されなかった各異なり単語t’に未知ベクトルVt’を対応付け、全異なり単語の重み付平均ベクトルと、1カテゴリ内での全異なり単語の重み付平均ベクトルとの距離の自乗に、上記カテゴリ内での異なり単語重み和を乗じた値を、全カテゴリにわたって加算した値が、ベクトルの分散が一定という条件下で、最大となるように、未知ベクトルVt’を求め、メモリに記憶するベクトル付与手段と;
    を有することを特徴とする単語配置装置。
  3. 単語を、該単語の意味を表現するベクトルにマッピングすることにより、単語を距離空間上に配置する単語配置方法において、
    文書集合の部分集合としてのカテゴリの集合が付随した文書集合を入力し、上記文書集合中の各文書を、形態素解析し、単語に分割し、異なり単語を得、メモリに記憶する形態素解析工程と;
    任意のカテゴリcと、上記形態素解析工程で得た異なり単語の集合中の任意の単語tに対し、カテゴリc内における単語tの出現回数n(t|c)に、カテゴリcに対応する重みw(c)を乗じたz(t|c):=w(c)*n(t|c)を、単語tのカテゴリc内での重みとし、単語tの全カテゴリにわたるz(t|c)の和を、単語tの重みとして算出し、メモリに記憶する単語重み算出工程と;
    各異なり単語tに未知ベクトルVtを対応付け、全異なり単語の重み付平均ベクトルと、1カテゴリ内での全異なり単語の重み付平均ベクトルとの距離の自乗に、上記カテゴリ内での異なり単語重み和を乗じた値を、全カテゴリにわたって加算した値が、ベクトルの分散が一定という条件下で、最大となるように、未知ベクトルVtを求め、メモリに記憶するベクトル付与工程と;
    を有することを特徴とする単語配置方法。
  4. 単語を、該単語の意味を表現するベクトルにマッピングすることにより、単語を距離空間上に配置する単語配置方法において、
    文書集合の部分集合としてのカテゴリの集合が付随した文書集合を入力し、上記文書集合中の各文書を、形態素解析し、単語に分割し、異なり単語を得、メモリに記憶する形態素解析工程と;
    任意のカテゴリcと、上記形態素解析工程で得た異なり単語の集合中の任意の単語tに対し、カテゴリc内における単語tの出現回数n(t|c)に、カテゴリcに対応する重みw(c)を乗じたz(t|c):=w(c)*n(t|c)を、単語tのカテゴリc内での重みとし、単語tの全カテゴリにわたるz(t|c)の和を、単語tの重みとして算出し、メモリに記憶する単語重み算出工程と;
    各異なり単語tを検索キーとして、単語と該単語の意味を表現するベクトルの対の集合が格納されているデータベースを検索し、検索された異なり単語tに、異なり単語tのベクトルVtを対応付け、メモリに記憶するデータベース検索工程と;
    上記データベース検索工程で検索されなかった各異なり単語t’に未知ベクトルVt’を対応付け、全異なり単語の重み付平均ベクトルと、1カテゴリ内での全異なり単語の重み付平均ベクトルとの距離の自乗に、上記カテゴリ内での異なり単語重み和を乗じた値を、全カテゴリにわたって加算した値が、ベクトルの分散が一定という条件下で、最大となるように、未知ベクトルVt’を求め、メモリに記憶するベクトル付与工程と;
    を有することを特徴とする単語配置方法。
  5. 単語を、該単語の意味を表現するベクトルにマッピングすることにより、単語を距離空間上に配置するプログラムであって、
    文書集合の部分集合としてのカテゴリの集合が付随した文書集合を入力し、上記文書集合中の各文書を、形態素解析し、単語に分割し、異なり単語を得、メモリに記憶する形態素解析手順と;
    任意のカテゴリcと、上記形態素解析手順で得た異なり単語の集合中の任意の単語tに対し、カテゴリc内における単語tの出現回数n(t|c)に、カテゴリcに対応する重みw(c)を乗じたz(t|c):=w(c)*n(t|c)を、単語tのカテゴリc内での重みとし、単語tの全カテゴリにわたるz(t|c)の和を、単語tの重みとして算出し、メモリに記憶する単語重み算出手順と;
    各異なり単語tに未知ベクトルVtを対応付け、全異なり単語の重み付平均ベクトルと、1カテゴリ内での全異なり単語の重み付平均ベクトルとの距離の自乗に、上記カテゴリ内での異なり単語重み和を乗じた値を、全カテゴリにわたって加算した値が、ベクトルの分散が一定という条件下で、最大となるように、未知ベクトルVtを求め、メモリに記憶するベクトル付与手順と;
    をコンピュータに実行させるプログラム。
  6. 単語を、該単語の意味を表現するベクトルにマッピングすることにより、単語を距離空間上に配置するプログラムであって、
    文書集合の部分集合としてのカテゴリの集合が付随した文書集合を入力し、上記文書集合中の各文書を、形態素解析し、単語に分割し、異なり単語を得、メモリに記憶する形態素解析手順と;
    任意のカテゴリcと、上記形態素解析手順で得た異なり単語の集合中の任意の単語tに対し、カテゴリc内における単語tの出現回数n(t|c)に、カテゴリcに対応する重みw(c)を乗じたz(t|c):=w(c)*n(t|c)を、単語tのカテゴリc内での重みとし、単語tの全カテゴリにわたるz(t|c)の和を、単語tの重みとして算出し、メモリに記憶する単語重み算出手順と;
    各異なり単語tを検索キーとして、単語と該単語の意味を表現するベクトルの対の集合が格納されているデータベースを検索し、検索された異なり単語tに、異なり単語tのベクトルVtを対応付け、メモリに記憶するデータベース検索手順と;
    上記データベース検索手順で検索されなかった各異なり単語t’に未知ベクトルVt’を対応付け、全異なり単語の重み付平均ベクトルと、1カテゴリ内での全異なり単語の重み付平均ベクトルとの距離の自乗に、上記カテゴリ内での異なり単語重み和を乗じた値を、全カテゴリにわたって加算した値が、ベクトルの分散が一定という条件下で、最大となるように、未知ベクトルVt’を求め、メモリに記憶するベクトル付与手順と;
    をコンピュータに実行させるプログラム。
JP2004302254A 2004-10-15 2004-10-15 単語配置装置、単語配置方法およびプログラム Active JP4325938B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004302254A JP4325938B2 (ja) 2004-10-15 2004-10-15 単語配置装置、単語配置方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004302254A JP4325938B2 (ja) 2004-10-15 2004-10-15 単語配置装置、単語配置方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2006113917A JP2006113917A (ja) 2006-04-27
JP4325938B2 true JP4325938B2 (ja) 2009-09-02

Family

ID=36382377

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004302254A Active JP4325938B2 (ja) 2004-10-15 2004-10-15 単語配置装置、単語配置方法およびプログラム

Country Status (1)

Country Link
JP (1) JP4325938B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5116580B2 (ja) * 2008-06-25 2013-01-09 日本電信電話株式会社 他言語の概念ベクトル生成装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JP6467893B2 (ja) * 2014-12-03 2019-02-13 日本電気株式会社 情報処理システム、情報処理方法、及び、プログラム
JP6498095B2 (ja) * 2015-10-15 2019-04-10 日本電信電話株式会社 単語埋込学習装置、テキスト評価装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP2006113917A (ja) 2006-04-27

Similar Documents

Publication Publication Date Title
AU2015299050B2 (en) Methods and systems for mapping data items to sparse distributed representations
JP4571404B2 (ja) データ処理方法、データ処理システムおよびプログラム
Gerani et al. Proximity-based opinion retrieval
CN108733682B (zh) 一种生成多文档摘要的方法及装置
JP2007087401A (ja) インデクシングシステム、インデクシング方法、質問テンプレート生成システム、質問テンプレート生成方法、及びプログラム
JP4711761B2 (ja) データ検索装置、データ検索方法、データ検索プログラムおよびコンピュータに読み取り可能な記録媒体
Li et al. Integration of knowledge graph embedding into topic modeling with hierarchical dirichlet process
Huang et al. A patent keywords extraction method using TextRank model with prior public knowledge
Litvak et al. Cross-lingual training of summarization systems using annotated corpora in a foreign language
JP2006338342A (ja) 単語ベクトル生成装置、単語ベクトル生成方法およびプログラム
JP2006331245A (ja) 情報検索装置、情報検索方法およびプログラム
Amalia et al. An efficient text classification using fasttext for bahasa indonesia documents classification
Basmatkar et al. An overview of contextual topic modeling using bidirectional encoder representations from transformers
Suresh Kumar et al. Local search five‐element cycle optimized reLU‐BiLSTM for multilingual aspect‐based text classification
Bhopale et al. Leveraging Neural Network Phrase Embedding Model for Query Reformulation in Ad-hoc Biomedical Information Retrieval
JP2001331515A (ja) 単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品
JP4325938B2 (ja) 単語配置装置、単語配置方法およびプログラム
Wei et al. Finding related publications: extending the set of terms used to assess article similarity
Chu-Carroll et al. An experimental study of the impact of information extraction accuracy on semantic search performance
JP2010128598A (ja) 文書検索装置及び方法及びプログラム及びプログラムを記録した記録媒体
Chakraborti et al. Product news summarization for competitor intelligence using topic identification and artificial bee colony optimization
Rizun et al. Methodology of constructing and analyzing the hierarchical contextually-oriented corpora
Kim et al. Improving patent search by search result diversification
Chavula et al. Ranking by language similarity for resource scarce southern bantu languages
JP2008282328A (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060814

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090521

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090605

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090605

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120619

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4325938

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130619

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140619

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350