JP4099197B2 - 概念ベクトル推定方法及び装置及びプログラム及びコンピュータ読取可能な記憶媒体 - Google Patents
概念ベクトル推定方法及び装置及びプログラム及びコンピュータ読取可能な記憶媒体 Download PDFInfo
- Publication number
- JP4099197B2 JP4099197B2 JP2006148895A JP2006148895A JP4099197B2 JP 4099197 B2 JP4099197 B2 JP 4099197B2 JP 2006148895 A JP2006148895 A JP 2006148895A JP 2006148895 A JP2006148895 A JP 2006148895A JP 4099197 B2 JP4099197 B2 JP 4099197B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- matrix
- semantic information
- text
- projection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
共起行列生成手段において、
単語と該単語の意味情報の組の集合を格納する単語・意味情報データベースを参照することにより、入力されたテキストAから、該テキストA中のある単語集合における任意の単語と、意味情報集合における任意の意味情報の対に対し、該テキストAにおける1つまたは複数の所定の範囲のそれぞれにおいて、該単語と該意味情報とが共起する事象を、該テキストAの全体にわたって計数した頻度を導出することにより、該単語集合と該意味情報集合との間の共起行列Xを生成する共起行列生成ステップ(ステップ1)と、
射影行列取得手段において、
共起行列生成ステップで生成された共起行列Xに対し、
X=UΣVt
が成立するような該共起行列Xの特異値分解を構成する行列Uの左から指定した数の列ベクトルをとって得られる行列U’、行列Σの左上から指定した数の行数、列数をもつ正方行列をとって得られる行列Σ’、行列Vの左から指定した数の列ベクトルをとって得られる行列V’を取得し、該行列V’またはV’Σ’−1を射影行列として射影行列記憶手段に記憶する射影行列取得ステップ(ステップ2)と、
射影手段において、
テキストAまたは別のテキストBにおける単語wに対し、該単語wと、意味情報集合における任意の意味情報の対をとり、該テキストAまたは該テキストBにおける一つまたは複数の所定の範囲のそれぞれにおいて、該単語wと該意味情報とが共起する事象を、該テキストAまたは該テキストBの全体にわたって計数した頻度を必要に応じて導出し、各座標が意味情報に対応し、該座標の値が該単語wと該意味情報との間で導出された頻度または該頻度の変換値であるベクトルhwをとり、射影行列記憶手段に格納されている射影行列V’またはV’Σ’−1を用いて積演算を行った、hwV’またはhwV’Σ’−1、またはそれらの長さを正規化して得られるベクトルを単語wの概念ベクトルとして推定する射影ステップ(ステップ3)と、を行う。
単語と該単語の意味情報の組の集合を格納する単語・意味情報データベース121と、
単語・意味情報データベース121を参照することにより、入力されたテキストAから、該テキストA中のある単語集合における任意の単語と、意味情報集合における任意の意味情報の対に対し、該テキストAにおける1つまたは複数の所定の範囲のそれぞれにおいて、該単語と該意味情報とが共起する事象を、該テキストAの全体にわたって計数した頻度を導出することにより、該単語集合と該意味情報集合との間の共起行列Xを生成する共起行列生成手段111と、
共起行列生成手段111で生成された共起行列Xに対し、
X=UΣVt
が成立するような該共起行列Xの特異値分解を構成する行列Uの左から指定した数の列ベクトルをとって得られる行列U’、行列Σの左上から指定した数の行数、列数をもつ正方行列をとって得られる行列Σ’、行列Vの左から指定した数の列ベクトルをとって得られる行列V’を取得し、該行列V’またはV’Σ’−1を射影行列として射影行列記憶手段122に記憶する射影行列取得手段112と、
テキストAまたは別のテキストBにおける単語wに対し、該単語wと、意味情報集合における任意の意味情報の対をとり、該テキストAまたは該テキストBにおける一つまたは複数の所定の範囲のそれぞれにおいて、該単語wと該意味情報とが共起する事象を、該テキストAまたは該テキストBの全体にわたって計数した頻度を必要に応じて導出し、各座標が意味情報に対応し、該座標の値が該単語wと該意味情報との間で導出された頻度または該頻度の変換値であるベクトルhwをとり、射影行列記憶手段122に格納されている射影行列V’またはV’Σ’−1を用いて積演算を行った、hwV’またはhwV’Σ’−1、またはそれらの長さを正規化して得られるベクトルを単語wの概念ベクトルとして推定する射影手段113と、を有する。
本発明(請求項4)は、請求項3に記載の概念ベクトル推定プログラムを格納したコンピュータ読取可能な記憶媒体である。
X=UΣVt
が成立するような共起行列Xの特異値分解を構成する行列Uの左から指定した数の列ベクトルをとって得られる行列U’、行列Σの左上から指定した数の行数、列数を持つ正方行列をとって得られる行列Σ’、行列Vの左から指定した数の列ベクトルをとって得られる行列V’を取得し、該行列V’またはV’Σ’−1を射影行列として射影行列記憶部122に記憶する。共起行列はスパースであるため、精度的に問題であり、また、次元数が多いため計算量的にも問題であるが、この処理により精度向上、計算量低減を図ることができる。
頻度ハッシュ更新部219は、処理対象の形態素の各意味情報に対し、該意味情報が頻度ハッシュになければ、該意味情報とその頻度1を頻度ハッシュに追加する。該意味情報が頻度ハッシュにあれば、頻度ハッシュにおける該意味情報の頻度を1だけ増やす。ここで、単語・意味情報データベース121において、1単語における複数の意味情報が、よく使用される順に並べられており、形態素解析結果における意味情報の順番もそれを引き継いでいる場合、意味情報の列の中の最初から指定した数だけの意味情報のみを頻度ハッシュ更新部219の処理対象としてもよい。図12に示した、テキストの1範囲の形態素解析結果からは、制御部B217で処理対象の形態素がなくなった時点で、図14の頻度ハッシュが得られる(ステップ109)。
112 射影行列取得手段、射影行列取得部
113 射影手段、射影部
121 単語・意味情報データベース
122 射影行列記憶手段、射影行列記憶部
123 不要単語テーブル
124 不要品詞テーブル
125 概念ベース
211 形態素解析部
212 必要語判断部
213 単語頻度算出部
214 共起行列初期化部
215 制御部A
216 頻度ハッシュクリア部
217 制御部B
218 制御部C
219 頻度ハッシュ更新部
220 制御部D
221 制御部E
222 共起行列更新部
1121 特異値分解部
1122 射影行列導出部
1131 行列積演算部
1132 概念ベース格納部
Claims (4)
- 単語の意味を表現する概念ベクトルを推定する概念ベクトル推定装置における概念ベクトル推定方法であって、
共起行列生成手段において、
単語と該単語の意味情報の組の集合を格納する単語・意味情報データベースを参照することにより、入力されたテキストAから、該テキストA中のある単語集合における任意の単語と、意味情報集合における任意の意味情報の対に対し、該テキストAにおける1つまたは複数の所定の範囲のそれぞれにおいて、該単語と該意味情報とが共起する事象を、該テキストAの全体にわたって計数した頻度を導出することにより、該単語集合と該意味情報集合との間の共起行列Xを生成する共起行列生成ステップと、
射影行列取得手段において、
前記共起行列生成ステップで生成された前記共起行列Xに対し、
X=UΣVt
が成立するような該共起行列Xの特異値分解を構成する行列Uの左から指定した数の列ベクトルをとって得られる行列U'、行列Σの左上から指定した数の行数、列数をもつ正方行列をとって得られる行列Σ'、行列Vの左から指定した数の列ベクトルをとって得られる行列V'を取得し、該行列V'またはV'Σ'−1を射影行列として射影行列記憶手段に記憶する射影行列取得ステップと、
射影手段において、
前記テキストAまたは別のテキストBにおける単語wに対し、該単語wと、前記意味情報集合における任意の意味情報の対をとり、該テキストAまたは該テキストBにおける一つまたは複数の所定の範囲のそれぞれにおいて、該単語wと該意味情報とが共起する事象を、該テキストAまたは該テキストBの全体にわたって計数した頻度を必要に応じて導出し、各座標が意味情報に対応し、該座標の値が該単語wと該意味情報との間で導出された前記頻度または該頻度の変換値であるベクトルhwをとり、前記射影行列記憶手段に格納されている前記射影行列V'またはV'Σ'−1を用いて積演算を行った、hwV'またはhwV'Σ'−1、またはそれらの長さを正規化して得られるベクトルを単語wの概念ベクトルとして推定する射影ステップと、
を行うことを特徴とする概念ベクトル推定方法。 - 単語の意味を表現する概念ベクトルを推定する概念ベクトル推定装置であって、
単語と該単語の意味情報の組の集合を格納する単語・意味情報データベースと、
前記単語・意味情報データベースを参照することにより、入力されたテキストAから、該テキストA中のある単語集合における任意の単語と、意味情報集合における任意の意味情報の対に対し、該テキストAにおける1つまたは複数の所定の範囲のそれぞれにおいて、該単語と該意味情報とが共起する事象を、該テキストAの全体にわたって計数した頻度を導出することにより、該単語集合と該意味情報集合との間の共起行列Xを生成する共起行列生成手段と、
前記共起行列生成手段で生成された前記共起行列Xに対し、
X=UΣVt
が成立するような該共起行列Xの特異値分解を構成する行列Uの左から指定した数の列ベクトルをとって得られる行列U'、行列Σの左上から指定した数の行数、列数をもつ正方行列をとって得られる行列Σ'、行列Vの左から指定した数の列ベクトルをとって得られる行列V'を取得し、該行列V'またはV'Σ'−1を射影行列として射影行列記憶手段に記憶する射影行列取得手段と、
前記テキストAまたは別のテキストBにおける単語wに対し、該単語wと、前記意味情報集合における任意の意味情報の対をとり、該テキストAまたは該テキストBにおける一つまたは複数の所定の範囲のそれぞれにおいて、該単語wと該意味情報とが共起する事象を、該テキストAまたは該テキストBの全体にわたって計数した頻度を必要に応じて導出し、各座標が意味情報に対応し、該座標の値が該単語wと該意味情報との間で導出された前記頻度または該頻度の変換値であるベクトルhwをとり、前記射影行列記憶手段に格納されている前記射影行列V'またはV'Σ'−1を用いて積演算を行った、hwV'または、hwV'Σ'−1、またはそれらの長さを正規化して得られるベクトルを単語wの概念ベクトルとして推定する射影手段と、
を有することを特徴とする概念ベクトル推定装置。 - 請求項2に記載の概念ベクトル推定装置を構成する各手段としてコンピュータを機能させるための概念ベクトル推定プログラム。
- 請求項3に記載の概念ベクトル推定プログラムを格納したことを特徴とするコンピュータ読取可能な記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006148895A JP4099197B2 (ja) | 2006-05-29 | 2006-05-29 | 概念ベクトル推定方法及び装置及びプログラム及びコンピュータ読取可能な記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006148895A JP4099197B2 (ja) | 2006-05-29 | 2006-05-29 | 概念ベクトル推定方法及び装置及びプログラム及びコンピュータ読取可能な記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007317132A JP2007317132A (ja) | 2007-12-06 |
JP4099197B2 true JP4099197B2 (ja) | 2008-06-11 |
Family
ID=38850910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006148895A Active JP4099197B2 (ja) | 2006-05-29 | 2006-05-29 | 概念ベクトル推定方法及び装置及びプログラム及びコンピュータ読取可能な記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4099197B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5116580B2 (ja) * | 2008-06-25 | 2013-01-09 | 日本電信電話株式会社 | 他言語の概念ベクトル生成装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 |
JP5131923B2 (ja) * | 2008-11-11 | 2013-01-30 | 日本電信電話株式会社 | 単語間関連度判定装置、単語間関連度判定方法、プログラムおよび記録媒体 |
JP4982542B2 (ja) * | 2009-09-16 | 2012-07-25 | 日本電信電話株式会社 | 共起行列生成装置、共起行列生成方法、共起行列生成プログラムおよびそのプログラムを記録した記録媒体 |
US10423891B2 (en) | 2015-10-19 | 2019-09-24 | International Business Machines Corporation | System, method, and recording medium for vector representation of words in a language |
-
2006
- 2006-05-29 JP JP2006148895A patent/JP4099197B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2007317132A (ja) | 2007-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104615767B (zh) | 搜索排序模型的训练方法、搜索处理方法及装置 | |
WO2020062770A1 (zh) | 一种领域词典的构建方法、装置、设备及存储介质 | |
JP5377889B2 (ja) | 言語処理装置およびプログラム | |
JP5661813B2 (ja) | セマンティックオブジェクトの特徴付けおよび検索 | |
CN101079026B (zh) | 文本相似度、词义相似度计算方法和系统及应用系统 | |
US11080480B2 (en) | Matrix generation program, matrix generation apparatus, and plagiarism detection program | |
US20230076658A1 (en) | Method, apparatus, computer device and storage medium for decoding speech data | |
JP2019082931A (ja) | 検索装置、類似度算出方法、およびプログラム | |
JP4099197B2 (ja) | 概念ベクトル推定方法及び装置及びプログラム及びコンピュータ読取可能な記憶媒体 | |
JP2006338342A (ja) | 単語ベクトル生成装置、単語ベクトル生成方法およびプログラム | |
US12118314B2 (en) | Parameter learning apparatus, parameter learning method, and computer readable recording medium | |
CN114021573B (zh) | 一种自然语言处理方法、装置、设备及可读存储介质 | |
JP2019082860A (ja) | 生成プログラム、生成方法及び生成装置 | |
CN110633363B (zh) | 一种基于nlp和模糊多准则决策的文本实体推荐方法 | |
JP6586026B2 (ja) | 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム | |
JP4499003B2 (ja) | 情報処理方法及び装置及びプログラム | |
CN110210691B (zh) | 资源推荐方法、装置、存储介质及设备 | |
JP6495206B2 (ja) | 文書概念ベース生成装置、文書概念検索装置、方法、及びプログラム | |
JP5295037B2 (ja) | ConditionalRandomFieldsもしくはGlobalConditionalLog−linearModelsを用いる学習装置及びその学習装置におけるパラメータ学習方法、プログラム | |
JP4576977B2 (ja) | 情報処理装置および方法、並びにプログラム | |
JP4567025B2 (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
JP4314271B2 (ja) | 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体 | |
JP4042678B2 (ja) | 単語ベクトル推定方法及び装置及び単語ベクトル推定プログラム及び単語ベクトル推定プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2011243166A (ja) | テキスト要約装置、テキスト要約方法及びテキスト要約プログラム | |
JP5362649B2 (ja) | 文字列ベクトル変換装置、文字列ベクトル変換方法、プログラム、及びプログラムを格納したコンピュータ読み取り可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080122 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080311 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080314 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4099197 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110321 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110321 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120321 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130321 Year of fee payment: 5 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |