JP5008137B2 - 単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよびプログラムを記録した記録媒体 - Google Patents

単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよびプログラムを記録した記録媒体 Download PDF

Info

Publication number
JP5008137B2
JP5008137B2 JP2007288653A JP2007288653A JP5008137B2 JP 5008137 B2 JP5008137 B2 JP 5008137B2 JP 2007288653 A JP2007288653 A JP 2007288653A JP 2007288653 A JP2007288653 A JP 2007288653A JP 5008137 B2 JP5008137 B2 JP 5008137B2
Authority
JP
Japan
Prior art keywords
genre
word
word vector
vector
appearance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007288653A
Other languages
English (en)
Other versions
JP2009116593A (ja
Inventor
克人 別所
俊郎 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007288653A priority Critical patent/JP5008137B2/ja
Publication of JP2009116593A publication Critical patent/JP2009116593A/ja
Application granted granted Critical
Publication of JP5008137B2 publication Critical patent/JP5008137B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、単語・ジャンル間の的確な関連度を求め、各座標がジャンルに対応し、その値が該ジャンルとの関連度であるような単語ベクトルを生成する単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよびプログラムを記録した記録媒体に関する。
本発明において、ジャンルは、文書の集合として表される。単語・ジャンル間の関連度算出に類似する処理として、単語・文書間の関連度算出があり、単語・文書間関連度算出の手法が知られている(たとえば、非特許文献1参照)。この手法では、単語i、文書jの間の関連度を、
ij …式(1)
として算出する。ここで、Xijは文書j内の単語iの出現頻度から定まる重み、Yは単語iの文書集合全体にわたる分布から定まる重み、Zは文書jの長さを正規化するための係数である。
Chisholm,E. and Kolda,T.G., New term weighting formulas for the vector space method in information retrieval, Technical Memorandum ORNL/TM-13756, Oak Ridge National Laboratory, 1999.
上記従来手法において、式(1)におけるXijは文書j以外の文書とは無関係に定まる重みである。
単語iとジャンルjとの関連度を考えたとき、単語iがジャンルj以外のジャンルと比べてどれだけ多くジャンルjに出現しているかを表す相対的な重みwijを考慮する必要がある。単語iとジャンルjの関連度を式(1)で算出したとき、wijに相当する因数がないため、的確に関連度を表すことができないという第1の課題がある。
また、各ジャンルに該当する正例文書の集合を、十分に用意できない場合も多い。正例文書集合が十分にない場合、正例文書集合に含まれる単語の集合も十分にはなく、また、単語・ジャンル間の関連度もスパースで信頼度が低くなるという第2の課題がある。
本発明は、単語が該ジャンル以外のジャンルと比べてどれだけ多く該ジャンルに出現しているかを表す相対的な重みを算出することができる単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよびプログラムを記録した記録媒体を提供することを目的とする。
また、本発明は、各ジャンル毎の正例文書集合には出現しない単語と各ジャンルとの関連度を算出することができ、また、関連度の信頼性が向上する単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよびプログラムを記録した記録媒体を提供することを目的とする。
本発明の第1単語ベクトル生成装置は、ジャンルの集合と、各ジャンルに対応付けられた文書の集合とを入力とし、各単語が、各ジャンルに対応付けられた文書の集合に出現する頻度を算出する出現頻度算出手段と、各ジャンル毎に、上記出現頻度算出手段で得られた各単語の出現頻度を、当該ジャンルでの各単語の出現頻度の総和で除することにより、各単語のジャンル内出現確率を算出するジャンル内出現確率算出手段と、各単語毎に、上記ジャンル内出現確率算出手段で得られた各ジャンル内出現確率を、当該単語での各ジャンル内出現確率の総和で除することにより、各ジャンルとの関連度を算出し、各座標がジャンルに対応し、その値が該ジャンルとの関連度であるような第1の単語ベクトルを生成する第1単語ベクトル生成手段とからなる。
本発明の第2単語ベクトル生成装置は、各座標がジャンルに対応し、その値が該ジャンルとの関連度であるような第1の単語ベクトルと、コーパスとを入力とし、コーパス中の各単語毎に、各座標がジャンルに対応し、その値が該ジャンルとの関連度であるような第2の単語ベクトルを初期化する第2単語ベクトル初期化手段と、コーパスを分割して得られる各範囲毎に、該範囲中に出現する単語の上記第1の単語ベクトルを加算し、その結果得られたベクトルを、該範囲中の各単語に対応する上記第2の単語ベクトルに加算し、この処理を全ての範囲にわたって繰り返す第2単語ベクトル更新手段と、上記第2の単語ベクトルの各座標値を正規化する第2単語ベクトル正規化手段とからなる。
第1単語ベクトル生成装置では、ジャンル内出現確率算出手段により、ジャンル内文書集合の量で正規化した上での該ジャンル内の単語の重みを算出でき、第1単語ベクトル生成手段により、単語が該ジャンル以外のジャンルと比べてどれだけ多く該ジャンルに出現しているかを表す相対的な重みを算出できる。
第2単語ベクトル生成装置は、ある単語xが、ジャンルgとの関連度がzである単語yと共起しているとき、単語xもジャンルgと関連度zを持つという考えをベースとしている。各ジャンル毎の正例文書集合とは別に、大量のコーパスを用意することにより、該コーパス内の大量の単語に対して、該単語と共起する単語と各ジャンルとの関連度を基に、該単語と各ジャンルとの関連度を算出する。これにより、各ジャンル毎の正例文書集合には出現しない単語と各ジャンルとの関連度も算出できる。また、着目している単語と共起する大量の単語に関する関連度から該単語に関する関連度を算出するので、関連度の信頼性が向上する。
発明を実施するための最良の形態は、以下の実施例である。
以下、図面とともに本発明の実施例を説明する。
図1は、本発明の実施例1である第1単語ベクトル生成装置100の構成例を示す。
出現頻度算出手段11は、ジャンルの集合と、各ジャンルに対応付けられた文書の集合を入力とし、各単語が、各ジャンルに対応付けられた文書の集合に出現する頻度を算出する。
ジャンルの集合を、{G,…,G,…,G}とし、各Gには、正例文書集合
Figure 0005008137

が対応付けられているとする。各ジャンルの正例文書集合をマージした
Figure 0005008137

における異なり単語(通常、内容語とする)の集合を{w,…,w,…,w}とする。
任意の(i,j)(1≦i≦m,1≦j≦n)に対し、wがGに出現する頻度Aijを算出する。ここでAijを、
Figure 0005008137

としてもよいし、文書出現頻度(wが出現するG内の正例文書の数のこと)としてもよい。
このようにして、図2のような、各行がwに対応し、各列がGに対応し、(i,j)成分がAijであるような行列が得られる。
図3は、図2の一例であり、各成分は単語出現頻度である。
ジャンル内出現確率算出手段12は、各ジャンル毎に、上記出現頻度算出手段11で得られた各単語の出現頻度を正規化することにより、各単語のジャンル内出現確率を算出する。
詳細なフローは以下の通りである。
(a1)任意のj(1≦j≦n)に対し、(a2)〜(a3)を行う。
(a2)Gの長さに相当する値Uを算出する。ここでAijが、単語出現頻度ならば、
Figure 0005008137

とし算出し、文書出現頻度ならばU=lとして算出する。
(a3)任意のi(1≦i≦m)に対し、wがGに出現する確率(ジャンル内出現確率)Bijを、Bij=Aij/Uとして算出する。
このようにして、Gの長さによる影響をなくしたwの重みBijが得られる。上記フローの結果、図4のような行列が得られる。
図5は、図3からジャンル内出現確率算出手段12の処理によって得られるものである。
図3において、wはGに9回、Gに90回出現しているので、一見、Gの方に出現しやすく見えるが、それはGの長さがGの10倍あるからであり、各ジャンルの長さを正規化すると、図5のように、wがGに出現する確率と、Gに出現する確率は、ともに0.9で同じとなる。
第1単語ベクトル生成手段13は、各単語毎に、上記ジャンル内出現確率算出手段12で得られた各ジャンル内出現確率を正規化することにより、各ジャンルとの関連度を算出し、各座標がジャンルに対応し、その値が該ジャンルとの関連度であるような第1の単語ベクトルを生成する。
詳細なフローは以下の通りである。
(b1)任意のi(1≦i≦m)に対し、(b2)〜(b3)を行う。
(b2)wの各ジャンルとのジャンル内出現確率Bijの和Tを、
Figure 0005008137

とし算出する。
(b3)任意のj(1≦j≦n)に対し、wとGとの関連度Cijを、Cij=Bij/Tとして算出する。
このようにして、wがG以外のジャンルと比べてどれだけ多くGに出現しているかを表す相対的な重みCijが得られる。上記フローの結果、図6のような行列が得られる。図6の行列の各行ベクトルが、対応する単語の第1の単語ベクトルである。単語と該単語の第1単語ベクトルの対の集合であるこの行列を、第1単語ベクトルDBと呼ぶことにする。
図7は、図5から第1単語ベクトル生成手段13の処理によって得られるものである。
図5において、wと各ジャンルとの関連度は0.9で、wと各ジャンルとの関連度は0.1で、一見、wに関する関連度の方が強く見える。しかし、単語がどのジャンルに出現しやすいかは、各ジャンルとの関連度の全てから勘案して決まるものであり、wの各ジャンルへの出現のしやすさは等しく、wについても同じことが言える。各単語毎に各ジャンル内出現確率を正規化することにより、図7のように、wと各ジャンルとの関連度も、wと各ジャンルとの関連度も、0.5となる。
図8は、本発明の実施例2である第2単語ベクトル生成装置200の構成例を示す。
第2単語ベクトル初期化手段21は、コーパスを入力とし、コーパス中の各単語毎に、各座標がジャンルに対応し、その値が該ジャンルとの関連度であるような第2の単語ベクトルを初期化する。
コーパスは単語分割し、通常、内容語のみを残す。同一文内の内容語の順序はそのままにしておく。同一文内に同一単語が複数あるとき、1つにマージせず、複数あるものとして扱う。
コーパスにおける異なり単語の集合を{p,…,p,…,p}とする。図9のように、各行がpに対応し、各列がGに対応し、(q,j)成分が0であるような行列を作成する。図9の行列の各行ベクトルが、対応する単語の初期化された第2の単語ベクトルである。単語と該単語の第2単語ベクトルの対の集合であるこの行列を、第2単語ベクトルDBと呼ぶことにする。
図10は、コーパスを単語分割し、内容語のみを残して得られたものの一例である。句点で区切られた文が2つあり、それぞれの文の構成単語が示されている。
コーパス中の異なり単語のうち、「馬」以外の単語が、第1単語ベクトルDBに存在しているとする。この第1単語ベクトルDBの例を、図11に示す。図11に示すように、「牛」、「豚」はジャンル「家畜」と関連が深く、「車」、「船」はジャンル「乗り物」と関連が深い。
図12は、初期化された第2単語ベクトルDBの具体例である。
第2単語ベクトル更新手段22は、コーパスを分割して得られる各範囲毎に、該範囲中に出現する単語の上記第1の単語ベクトルを加算し、その結果得られたベクトルを、該範囲中の各単語に対応する上記第2の単語ベクトルに加算し、この処理を全ての範囲にわたって繰り返す。
コーパスを分割して得られる範囲としては、1文や1段落、あるいは、ある一定数の単語の列等が挙げられる。
図10の例に対しては、範囲として1文をとるものとする。
図13は、第2単語ベクトル更新手段22の詳細なフローである。
制御手段A(S1)では、処理対象の範囲を選択する。最初はコーパス中の1番目の範囲を選択する。該範囲に関する処理を終え、再びステップS1に戻ってきたとき、コーパス中の該範囲の次の範囲を選択する。範囲を選択したならばステップS2に進み、選択すべき範囲がなくなれば、図13のフローを終了する。
一時ベクトル初期化(S2)では、各座標がジャンルに対応し、その値が該ジャンルとの関連度であるような一時的なベクトルを生成し、各座標値を0とおく。もし、一時ベクトルが既にあれば、各座標値を0に更新する。図14は、初期された一時ベクトルである。
図15は、初期化された一時ベクトルの具体的な例である。
制御手段B(S3)では、処理対象の範囲における処理対象の単語を選択する。最初は、該範囲中の1番目の単語を選択する。該単語に関する処理を終え、再びステップS3に戻ってきたとき、該範囲中の該単語の次の単語を選択する。単語を選択したならばステップS4に進み、選択すべき単語がなくなればステップS6に進む。
一時ベクトル更新(S4)では、選択した単語で、第1単語ベクトルDB(S5)を検索する。検索がヒットしなければ、何もしない。検索がヒットすれば、該単語の対応する第1単語ベクトルを一時ベクトルに加算する。
処理が終われば、ステップS3に戻る。
図16は、ステップS3、S4の処理を繰り返し、終了した時点での、一時ベクトルを表す。
制御手段C(S6)では、処理対象の範囲における処理対象の単語を選択する。最初は、該範囲中の1番目の単語を選択する。該単語に関する処理を終え、再びステップS6に戻ってきたとき、該範囲中の該単語の次の単語を選択する。単語を選択したならばステップS7に進み、選択すべき単語がなくなれば、ステップS1に戻る。
第2単語ベクトル更新(S7)では、選択した単語に対応する第2単語ベクトルに、一時ベクトルを加算する。処理が終われば、ステップS6に戻る。
ステップS3、S4の繰り返し処理が終了した時点での一時ベクトルが図16であった場合、このベクトルを、選択した単語に対応する第2単語ベクトルに加算する。
図17は、図13のフローが終了した時点での、第2単語ベクトルDBを表す。
ステップS1で、図10の文1を選択したとき、ステップS3、S4の処理を繰り返し、終了した時点での一時ベクトルは、図18となる。
次に、ステップS6、S7の処理を繰り返し、終了した時点での第2単語ベクトルDBは、図19となる。
このように、単語「馬」は、単語「牛」や「豚」と共起するので、「牛」や「豚」と各ジャンルとの関連度を、「馬」と該ジャンルとの関連度に受け継ぐ。
次に、ステップS1で、図10の文2を選択したとき、ステップS3、S4の処理を繰り返し、終了した時点での一時ベクトルは、図20となる。
次に、ステップS6、S7の処理を繰り返し、終了した時点での第2単語ベクトルDBは、図21となる。これが、図13のフローが終了した時点での第2単語ベクトルDBとなる。
第2単語ベクトル正規化手段23は、上記第2単語ベクトルの各座標値を正規化する。
詳細なフローは以下の通りである。
(c1)任意のq(1≦q≦r)に対し、(c2)〜(c3)を行う。
(c2)pの各ジャンルとの関連度Eqjの和Sを、
Figure 0005008137

として算出する。
(c3)任意のj(1≦j≦n)に対し、pとGとの関連度Fqjを、Fqj=Eqj/Sとして算出する。
上記フローの結果、図22のような行列が得られる。図22の行列の各行ベクトルが、対応する単語の最終的な第2単語ベクトルであり、該行列が最終的な第2単語ベクトルDBである。
図23は、図21から第2単語ベクトル正規化手段23の処理によって得られるものである。このように、ジャンル毎の正例文書集合に含まれていなかった単語「馬」は、ジャンル「家畜」、「乗り物」それぞれと同程度の関連度を持つようになる。
なお、請求項2における第2単語ベクトル生成装置の入力となるコーパスが、請求項1における第1単語ベクトル生成装置の入力となるジャンル毎の正例文書集合と一致、あるいは、交わりをもっていても構わない。
つまり、上記実施例は、ジャンルの集合と、各ジャンルに対応付けられた文書の集合とを入力とし、各単語が、各ジャンルに対応付けられた文書の集合に出現する頻度を算出する出現頻度算出手段と、各ジャンル毎に、上記出現頻度算出手段で得られた各単語の出現頻度を正規化することにより、各単語のジャンル内出現確率を算出するジャンル内出現確率算出手段と、各単語毎に、上記ジャンル内出現確率算出手段で得られた各ジャンル内出現確率を正規化することにより、各ジャンルとの関連度を算出し、各座標がジャンルに対応し、その値が該ジャンルとの関連度であるような第1の単語ベクトルを生成する第1単語ベクトル生成手段とからなる第1単語ベクトル生成装置の例である。
また、上記実施例は、各座標がジャンルに対応し、その値が該ジャンルとの関連度であるような第1の単語ベクトルと、コーパスとを入力とし、コーパス中の各単語毎に、各座標がジャンルに対応し、その値が該ジャンルとの関連度であるような第2の単語ベクトルを初期化する第2単語ベクトル初期化手段と、コーパスを分割して得られる各範囲毎に、該範囲中に出現する単語の上記第1の単語ベクトルを加算し、その結果得られたベクトルを、該範囲中の各単語に対応する上記第2の単語ベクトルに加算し、この処理を全ての範囲にわたって繰り返す第2単語ベクトル更新手段と、上記第2の単語ベクトルの各座標値を正規化する第2単語ベクトル正規化手段とからなる第2単語ベクトル生成装置の例である。
そして、上記実施例を方法の発明として把握することができる。すなわち、上記実施例は、ジャンルの集合と、各ジャンルに対応付けられた文書の集合とを入力とし、各単語が、各ジャンルに対応付けられた文書の集合に出現する頻度を、出現頻度算出手段が算出し、記憶装置に記憶する出現頻度算出工程と、各ジャンル毎に、上記出現頻度算出工程で得られた各単語の出現頻度を、ジャンル内出現確率算出手段が、正規化することにより、各単語のジャンル内出現確率を算出し、記憶装置に記憶するジャンル内出現確率算出工程と、各単語毎に、上記ジャンル内出現確率算出工程で得られた各ジャンル内出現確率を、第1単語ベクトル生成手段が、正規化することにより、各ジャンルとの関連度を算出し、各座標がジャンルに対応し、その値が該ジャンルとの関連度であるような第1の単語ベクトルを生成し、記憶装置に記憶する第1単語ベクトル生成工程とからなる第1単語ベクトル生成方法の例である。
しかも、上記実施例は、各座標がジャンルに対応し、その値が該ジャンルとの関連度であるような第1の単語ベクトルと、コーパスとを入力とし、コーパス中の各単語毎に、各座標がジャンルに対応し、その値が該ジャンルとの関連度であるような第2の単語ベクトルを、第2単語ベクトル初期化手段が、初期化し、記憶装置に記憶する第2単語ベクトル初期化工程と、コーパスを分割して得られる各範囲毎に、該範囲中に出現する単語の上記第1の単語ベクトルを、第2単語ベクトル更新手段が、加算し、その結果得られたベクトルを、該範囲中の各単語に対応する上記第2の単語ベクトルに加算し、記憶装置に記憶し、この処理を全ての範囲にわたって繰り返す第2単語ベクトル更新工程と、上記第2の単語ベクトルの各座標値を、第2単語ベクトル正規化手段が、正規化し、記憶装置に記憶する第2単語ベクトル正規化工程とからなる第2単語ベクトル生成方法の例である。
そして、上記実施例は、上記第1単語ベクトル生成装置または上記第2単語ベクトル生成装置を構成する各手段としてコンピュータを機能させるプログラムの例である。
加えて、上記実施例を、上記プログラムを記録したコンピュータ読取可能な記録媒体として把握することできる.この場合、CD、DVD、ハードディスク、光ディスク、光磁気ディスク、半導体メモリ等を記録媒体として使用してもよい。
また、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
上記の実施の形態における処理をプログラムとして構築し、当該プログラムを通信回線または記憶媒体からインストールし、CPU等の手段で実施することが可能である。
本発明は、言語処理技術に適用可能である。
本発明の実施例1である第1単語ベクトル生成装置100の構成例を示す。 出現頻度算出手段11の処理によって得られる行列を示す図である。 図2の一例であり、各成分は単語出現頻度である。 ジャンル内出現確率算出手段12の処理によって得られる行列を示す図である。 図3からジャンル内出現確率算出手段12の処理によって得られるものである。 第1単語ベクトル生成手段13の処理によって得られる行列を示す図である。 図5から第1単語ベクトル生成手段13の処理によって得られるものである。 本発明の実施例2である第2単語ベクトル生成装置200の構成例を示す。 第2単語ベクトル初期化手段21の処理によって得られる行列を示す図である。 コーパスを単語分割し、内容語のみを残して得られたものの一例である。 第1単語ベクトルDBの例を示す図である。 初期化された第2単語ベクトルDBの具体例である。 第2単語ベクトル更新手段22の詳細なフローである。 初期化された一時ベクトルを示す図である。 初期化された一時ベクトルの具体的な例である。 S3、S4の処理を繰り返し、終了した時点での、一時ベクトルを表す。 図13のフローが終了した時点での、第2単語ベクトルDBを表す。 S1で、図10の文1を選択し、S3、S4の処理を繰り返し、終了した時点での一時ベクトルを示す図である。 S6、S7の処理を繰り返し、終了した時点での第2単語ベクトルDBの例を示す図である。 S1で、図10の文2を選択し、S3、S4の処理を繰り返し、終了した時点での一時ベクトルを示す図である。 S6、S7の処理を繰り返し、終了した時点での第2単語ベクトルDBの例を示す図である。 第2単語ベクトル正規化手段23の処理によって得られる行列を示す図である。 図21から第2単語ベクトル正規化手段23の処理によって得られるものである。
符号の説明
100…第1単語ベクトル生成装置、
11…出現頻度算出手段、
12…ジャンル内出現確率算出手段、
13…第1単語ベクトル生成手段、
200…第2単語ベクトル生成装置、
21…第2単語ベクトル初期化手段、
22…第2単語ベクトル更新手段、
23…第2単語ベクトル正規化手段。

Claims (6)

  1. ジャンルの集合と、各ジャンルに対応付けられた文書の集合とを入力とし、
    各単語が、各ジャンルに対応付けられた文書の集合に出現する頻度を算出する出現頻度算出手段と;
    各ジャンル毎に、上記出現頻度算出手段で得られた各単語の出現頻度を、当該ジャンルでの各単語の出現頻度の総和で除することにより、各単語のジャンル内出現確率を算出するジャンル内出現確率算出手段と;
    各単語毎に、上記ジャンル内出現確率算出手段で得られた各ジャンル内出現確率を、当該単語での各ジャンル内出現確率の総和で除することにより、各ジャンルとの関連度を算出し、各座標がジャンルに対応し、その値が該ジャンルとの関連度であるような第1の単語ベクトルを生成する第1単語ベクトル生成手段と;
    からなることを特徴とする第1単語ベクトル生成装置。
  2. 各座標がジャンルに対応し、その値が該ジャンルとの関連度であるような第1の単語ベクトルと、コーパスとを入力とし、
    コーパス中の各単語毎に、各座標がジャンルに対応し、その値が該ジャンルとの関連度であるような第2の単語ベクトルを初期化する第2単語ベクトル初期化手段と;
    コーパスを分割して得られる各範囲毎に、該範囲中に出現する単語の上記第1の単語ベクトルを加算し、その結果得られたベクトルを、該範囲中の各単語に対応する上記第2の単語ベクトルに加算し、この処理を全ての範囲にわたって繰り返す第2単語ベクトル更新手段と;
    上記第2の単語ベクトルの各座標値を正規化する第2単語ベクトル正規化手段と;
    からなることを特徴とする第2単語ベクトル生成装置。
  3. ジャンルの集合と、各ジャンルに対応付けられた文書の集合とを入力とし、
    各単語が、各ジャンルに対応付けられた文書の集合に出現する頻度を、出現頻度算出手段が算出し、記憶装置に記憶する出現頻度算出工程と;
    各ジャンル毎に、上記出現頻度算出手段で得られた各単語の出現頻度を、当該ジャンルでの各単語の出現頻度の総和で除することにより、各単語のジャンル内出現確率を算出し、記憶装置に記憶するジャンル内出現確率算出工程と;
    各単語毎に、上記ジャンル内出現確率算出手段で得られた各ジャンル内出現確率を、当該単語での各ジャンル内出現確率の総和で除することにより、各ジャンルとの関連度を算出し、各座標がジャンルに対応し、その値が該ジャンルとの関連度であるような第1の単語ベクトルを生成し、記憶装置に記憶する第1単語ベクトル生成工程と;
    からなることを特徴とする第1単語ベクトル生成方法。
  4. 各座標がジャンルに対応し、その値が該ジャンルとの関連度であるような第1の単語ベクトルと、コーパスとを入力とし、
    コーパス中の各単語毎に、各座標がジャンルに対応し、その値が該ジャンルとの関連度であるような第2の単語ベクトルを、第2単語ベクトル初期化手段が、初期化し、記憶装置に記憶する第2単語ベクトル初期化工程と;
    コーパスを分割して得られる各範囲毎に、該範囲中に出現する単語の上記第1の単語ベクトルを、第2単語ベクトル更新手段が、加算し、その結果得られたベクトルを、該範囲中の各単語に対応する上記第2の単語ベクトルに加算し、記憶装置に記憶し、この処理を全ての範囲にわたって繰り返す第2単語ベクトル更新工程と;
    上記第2の単語ベクトルの各座標値を、第2単語ベクトル正規化手段が、正規化し、記憶装置に記憶する第2単語ベクトル正規化工程と;
    からなることを特徴とする第2単語ベクトル生成方法。
  5. 請求項1記載の第1単語ベクトル生成装置または請求項2記載の第2単語ベクトル生成装置を構成する各手段としてコンピュータを機能させるプログラム。
  6. 請求項5記載のプログラムを記録したコンピュータ読取可能な記録媒体。
JP2007288653A 2007-11-06 2007-11-06 単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよびプログラムを記録した記録媒体 Expired - Fee Related JP5008137B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007288653A JP5008137B2 (ja) 2007-11-06 2007-11-06 単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよびプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007288653A JP5008137B2 (ja) 2007-11-06 2007-11-06 単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよびプログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2009116593A JP2009116593A (ja) 2009-05-28
JP5008137B2 true JP5008137B2 (ja) 2012-08-22

Family

ID=40783681

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007288653A Expired - Fee Related JP5008137B2 (ja) 2007-11-06 2007-11-06 単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよびプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP5008137B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011042946A1 (ja) * 2009-10-05 2011-04-14 株式会社 東芝 類似コンテンツ検索装置及びプログラム
JP5154535B2 (ja) * 2009-12-25 2013-02-27 ヤフー株式会社 スコア付形態素辞書の生成装置、方法、及びプログラム
CN102141977A (zh) * 2010-02-01 2011-08-03 阿里巴巴集团控股有限公司 一种文本分类的方法及装置
JP5362649B2 (ja) * 2010-05-24 2013-12-11 日本電信電話株式会社 文字列ベクトル変換装置、文字列ベクトル変換方法、プログラム、及びプログラムを格納したコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
JP2009116593A (ja) 2009-05-28

Similar Documents

Publication Publication Date Title
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
KR101778679B1 (ko) 딥러닝을 이용하여 텍스트 단어 및 기호 시퀀스를 값으로 하는 복수 개의 인자들로 표현된 데이터를 자동으로 분류하는 방법 및 시스템
US8918348B2 (en) Web-scale entity relationship extraction
WO2020062770A1 (zh) 一种领域词典的构建方法、装置、设备及存储介质
US20180189271A1 (en) Apparatus and method for verifying sentence
JP7070653B2 (ja) 学習装置、音声認識順位推定装置、それらの方法、およびプログラム
WO2014073206A1 (ja) 情報処理装置、及び、情報処理方法
CN111400584A (zh) 联想词的推荐方法、装置、计算机设备和存储介质
JP5008137B2 (ja) 単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよびプログラムを記録した記録媒体
JP2017151926A (ja) 情報処理プログラム、情報処理装置および情報処理方法
JP5373998B1 (ja) 辞書生成装置、方法、及びプログラム
JP2013097723A (ja) テキスト要約装置、方法及びプログラム
CN106776782B (zh) 基于人工智能的语义相似度获取方法及装置
JP6340351B2 (ja) 情報検索装置、辞書作成装置、方法、及びプログラム
JP7389389B2 (ja) 処理装置、処理方法および処理プログラム
Liu et al. Boosting feature selection using information metric for classification
JP5623369B2 (ja) テキスト要約装置、方法及びプログラム
JP4594992B2 (ja) 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体
JP6495206B2 (ja) 文書概念ベース生成装置、文書概念検索装置、方法、及びプログラム
JP5211000B2 (ja) ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム
JP4537970B2 (ja) 言語モデル作成装置、言語モデル作成方法、そのプログラムおよびその記録媒体
JP2017174009A (ja) 事態間知識抽出装置、事態間知識抽出方法、及びプログラム
JP2019021206A (ja) 学習装置、プログラムパラメータ、学習方法およびモデル
JP5755603B2 (ja) 言語モデル作成装置、言語モデル作成方法、プログラム
JP2012053848A (ja) データ可視化装置、データ変換装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120217

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120417

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120525

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120525

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150608

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees