JP6973255B2 - 単語ベクトル変更装置、方法、及びプログラム - Google Patents
単語ベクトル変更装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6973255B2 JP6973255B2 JP2018076253A JP2018076253A JP6973255B2 JP 6973255 B2 JP6973255 B2 JP 6973255B2 JP 2018076253 A JP2018076253 A JP 2018076253A JP 2018076253 A JP2018076253 A JP 2018076253A JP 6973255 B2 JP6973255 B2 JP 6973255B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- vector
- pair
- dictionary
- concept
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、単語と該単語の概念を表すベクトルとの対の集合が与えられたとき、辞書中にある意味的に遠い単語対の各単語のベクトルの距離はこれまでより大きくなり、辞書中にある意味的に近い単語対の各単語のベクトルの距離はこれまでより小さくなり、かつ、辞書中にない単語対の各単語のベクトルの距離は可能な限り変化がないように、単語のベクトルを変換する単語ベクトル変更装置、方法、及びプログラムに関する。
単語と該単語の概念を表すベクトルとの対の集合である概念ベースとして、非特許文献1や非特許文献2で述べられている手法がある。
これらの手法はいずれもコーパスを入力として単語のベクトルを生成するものであり、意味的に近い単語のベクトルは近くなるような配置となる。生成アルゴリズムは、各単語の概念は、コーパスにおける該単語の周辺単語の出現パターン(周辺分布)によって推定できるという分布仮説をベースにしている。
これらの手法により生成した概念ベースを用いて、テキスト間の類似性を表す距離を算出することができる。任意のテキストに対し、該テキスト中の単語のベクトルを合成する(例えば単語ベクトルの重心をとる)ことにより、該テキストのベクトルを生成する。テキスト間の距離を、対応するテキストベクトル間の距離として算出する。
別所克人, 内山俊郎, 内山匡, 片岡良治, 奥雅博,"単語・意味属性間共起に基づくコーパス概念ベースの生成方式,"情報処理学会論文誌, Vol.49, No.12, pp.3997-4006, Dec. 2008.
Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean,"Efficient estimation of word representations in vector space,"ICLR, 2013.
上記従来手法で生成した概念ベースでは、以下に述べる課題がある。
課題1)
反義語の対(例:良い、悪い)は、各単語の周辺分布が似ているため、各単語のベクトルが近くなるという課題がある。このため、テキストベクトル間の距離関係が不適切なものになる。
反義語の対(例:良い、悪い)は、各単語の周辺分布が似ているため、各単語のベクトルが近くなるという課題がある。このため、テキストベクトル間の距離関係が不適切なものになる。
例えば単語「良い」に対し、その反義語「悪い」の方が、同義語「宜しい」よりも、ベクトル間の距離が小さくなる。このため、以下のテキストAに対し、テキストCの方がテキストBよりも意味が近いにも関わらず、テキストBの方がテキストCよりもベクトル間の距離が小さくなる。
テキストA:この考えは良い。
テキストB:この考えは悪い。
テキストC:この考えは宜しい。
テキストB:この考えは悪い。
テキストC:この考えは宜しい。
課題2)
単語の対について、一方の単語が他方の単語の上位語でも下位語でも同義語でもなく、共通の上位語があるとき、該対を同位語の対と呼ぶ。単語の対「野球、サッカー」は、一方の単語が他方の単語の上位語でも下位語でも同義語でもなく、共通の上位語「スポーツ」をもつため、同位語の対となる。
単語の対について、一方の単語が他方の単語の上位語でも下位語でも同義語でもなく、共通の上位語があるとき、該対を同位語の対と呼ぶ。単語の対「野球、サッカー」は、一方の単語が他方の単語の上位語でも下位語でも同義語でもなく、共通の上位語「スポーツ」をもつため、同位語の対となる。
同位語の対(例:野球、サッカー)は、各単語の周辺分布が似ているため、各単語のベクトルが近くなるという課題がある。このため、テキストベクトル間の距離関係が不適切なものになる。
例えば単語「野球」に対し、その同位語「サッカー」の方が、下位語「草野球」よりも、ベクトル間の距離が小さくなる。このため、以下のテキストAに対し、テキストCの方がテキストBよりも意味が近いにも関わらず、テキストBの方がテキストCよりもベクトル間の距離が小さくなる。
テキストA:野球を見る。
テキストB:サッカーを見る。
テキストC:草野球を見る。
テキストB:サッカーを見る。
テキストC:草野球を見る。
課題3)
同義語の対(例:野球、ベースボール)は、場合によっては、各単語のベクトルが遠くなるという課題がある。このため、テキストベクトル間の距離関係が不適切なものになる。
同義語の対(例:野球、ベースボール)は、場合によっては、各単語のベクトルが遠くなるという課題がある。このため、テキストベクトル間の距離関係が不適切なものになる。
例えば単語「野球」に対し、その同義語「ベースボール」の方が、下位語「草野球」よりも、ベクトル間の距離が大きくなる。このため、以下のテキストAに対し、テキストBの方がテキストCよりも意味が近いにも関わらず、テキストCの方がテキストBよりもベクトル間の距離が小さくなる。
テキストA:野球を見る。
テキストB:ベースボールを見る。
テキストC:草野球を見る。
テキストB:ベースボールを見る。
テキストC:草野球を見る。
本発明は、上記課題を解決するためのものであり、一旦生成した概念ベースに対し、各単語のベクトルを変換することにより、単語のベクトルの配置が、単語間の意味的な近さを反映したものとなるようにするものである。具体的には、辞書中にある反義語や同位語といった意味的に遠い単語対の各単語のベクトルの距離はこれまでより大きくなり、辞書中にある同義語といった意味的に近い単語対の各単語のベクトルの距離はこれまでより小さくなるようにする。ただ、それだけを行うと、辞書中にない単語対については、ベクトルの距離が不当に大きくなったり小さくなったりし、配置が適切なものでなくなる。このため、辞書中にある単語対の距離を適切なものにするのと同時に、辞書中にない単語対の距離は可能な限り変化がないように、各単語のベクトルを変換する必要がある。本発明は、任意の単語対の距離が適切となるように全単語を配置することを目的とする。
上記目的を達成するために、本発明に係る単語ベクトル変更装置は、単語と該単語の概念を表すベクトルとの対の集合である概念ベースと、意味的に遠いまたは近い単語対の集合である辞書を入力とし、前記概念ベース中の任意の単語A、Bの対である単語対Cに対し、前記単語対Cが前記辞書中にある場合、前記単語Aの変換後のベクトルと前記単語Bの変換後のベクトルとの差ベクトルV’と、前記単語Aの前記概念ベース中のベクトルと前記単語Bの前記概念ベース中のベクトルとの差ベクトルVにスカラー値kを乗算したベクトルkVとの差ベクトルの大きさDを前記単語対Cに対応付け、かつ、前記単語対Cが前記辞書中にない場合、前記差ベクトルV’と前記差ベクトルVとの差ベクトルの大きさDを前記単語対Cに対応付け、全ての単語対Cに対応する前記大きさDの総和が可能な限り小さくなるように、前記概念ベース中の任意の単語のベクトルを変換する変換手段を備えることを特徴とする。
また、本発明に係る単語ベクトル変更装置の前記変換手段は、前記単語対Cが、前記辞書中の意味的に遠い単語対である場合、前記スカラー値kを1以上の値とし、前記単語対Cが、前記辞書中の意味的に近い単語対である場合、前記スカラー値kを0以上1以下の値とする。
また、本発明に係る単語ベクトル変更方法は、単語と該単語の概念を表すベクトルとの対の集合である概念ベースを備えた単語ベクトル変換装置における単語ベクトル変換方法であって、意味的に遠いまたは近い単語対の集合である辞書を入力とし、変換手段が、前記概念ベース中の任意の単語A、Bの対である単語対Cに対し、前記単語対Cが前記辞書中にある場合、前記単語Aの変換後のベクトルと前記単語Bの変換後のベクトルとの差ベクトルV’と、前記単語Aの前記概念ベース中のベクトルと前記単語Bの前記概念ベース中のベクトルとの差ベクトルVにスカラー値kを乗算したベクトルkVとの差ベクトルの大きさDを前記単語対Cに対応付け、かつ、前記単語対Cが前記辞書中にない場合、前記差ベクトルV’と前記差ベクトルVとの差ベクトルの大きさDを前記単語対Cに対応付け、全ての単語対Cに対応する前記大きさDの総和が可能な限り小さくなるように、前記概念ベース中の任意の単語のベクトルを変換するステップを備えることを特徴とする。
本発明に係るプログラムは、コンピュータを、本発明に係る単語ベクトル変更装置の変換手段として機能させるためのプログラムである。
本発明により、変換後の差ベクトルV’は、変換前の差ベクトルVをk倍したkVにほぼ等しくなる。辞書中にある反義語や同位語といった意味的に遠い単語対に対しては、kをk>1とすることにより、変換後のベクトル間距離は変換前のベクトル間距離より大きくなり、辞書中にある同義語といった意味的に近い単語対に対しては、kをk<1とすることにより、変換後のベクトル間距離は変換前のベクトル間距離より小さくなる。辞書中にない単語対に対しては、変換後のベクトル間距離は変換前のベクトル間距離とあまり変化がないようになる。このようにして任意の単語対の距離が適切となっている全単語の配置を実現した変換後概念ベースを生成できる。
また、特定の概念ベースには、同一の関係性にある単語対の各単語のベクトルの差ベクトルは、ほぼ同一であるという性質がある。すなわち、単語xのベクトルをUxとしたとき、同一の関係性にある単語対(a、b)と単語対(c、d)に対し、
が成り立つ。例えば、単語対(男、女)と単語対(おじ、おば)は同一の関係性にあり、
が成り立つ。
が成り立つ。例えば、単語対(男、女)と単語対(おじ、おば)は同一の関係性にあり、
が成り立つ。
本発明においては、単語xの変換後のベクトルをUx’としたとき、同一の関係性にある単語対(a、b)と単語対(c、d)に対し、
が成り立つ一方で、
が成り立つ(但し、kは単語対に依存する)。同一の関係性にある単語対群の各単語対は全て、対応する変換前の差ベクトルの大きさがほぼ同じである。そして、同一の関係性にある単語対群の各単語対は全て、意味的に遠いか、あるいは、意味的に近いか、あるいは、意味的に遠くも近くもないかのいずれかとなる。kは通常、変換前の差ベクトルの大きさに依存して定められる。したがって、同一の関係性にある単語対群の各単語対に対し同一のkの値をとることができる。このため、同一の関係性にある単語対(a、b)と単語対(c、d)に対し、
が成り立つ。すなわち、同一の関係性にある単語対の各単語のベクトルの差ベクトルは、ほぼ同一であるという性質を、変換後もなるべく維持することができるという効果もある。
が成り立つ一方で、
が成り立つ(但し、kは単語対に依存する)。同一の関係性にある単語対群の各単語対は全て、対応する変換前の差ベクトルの大きさがほぼ同じである。そして、同一の関係性にある単語対群の各単語対は全て、意味的に遠いか、あるいは、意味的に近いか、あるいは、意味的に遠くも近くもないかのいずれかとなる。kは通常、変換前の差ベクトルの大きさに依存して定められる。したがって、同一の関係性にある単語対群の各単語対に対し同一のkの値をとることができる。このため、同一の関係性にある単語対(a、b)と単語対(c、d)に対し、
が成り立つ。すなわち、同一の関係性にある単語対の各単語のベクトルの差ベクトルは、ほぼ同一であるという性質を、変換後もなるべく維持することができるという効果もある。
テキスト間距離算出に、変換後概念ベースを用いることにより、テキストベクトル間の距離関係が適切なものに改善される。
課題1)の例では、単語「良い」に対し、その反義語「悪い」の方が、同義語「宜しい」よりも、ベクトル間の距離が大きくなるため、テキストAに対し、テキストCの方がテキストBよりもベクトル間の距離が小さくなる。
課題2)の例では、単語「野球」に対し、その同位語「サッカー」の方が、下位語「草野球」よりも、ベクトル間の距離が大きくなるため、テキストAに対し、テキストCの方がテキストBよりもベクトル間の距離が小さくなる。
課題3)の例では、単語「野球」に対し、その同義語「ベースボール」の方が、下位語「草野球」よりも、ベクトル間の距離が小さくなるため、テキストAに対し、テキストBの方がテキストCよりもベクトル間の距離が小さくなる。
以下、図面とともに本発明の実施の形態を説明する。
<本発明の実施の形態に係る単語ベクトル変更装置の構成>
図1は、本発明の請求項1の単語ベクトル変更装置の構成例である。
単語ベクトル変更装置100は、単語と該単語の概念を表すベクトルとの対の集合である概念ベース22と、意味的に遠いまたは近い単語対の集合である辞書24を入力とし、概念ベース22中の任意の単語A、Bの対である単語対Cに対し、単語対Cが辞書24中にある場合、単語Aの変換後のベクトルと単語Bの変換後のベクトルとの差ベクトルV’と、単語Aの概念ベース22中のベクトルと単語Bの概念ベース22中のベクトルとの差ベクトルVにスカラー値kを乗算したベクトルkVとの差ベクトルの大きさDを単語対Cに対応付け、かつ、単語対Cが辞書24中にない場合、差ベクトルV’と差ベクトルVとの差ベクトルの大きさDを単語対Cに対応付け、全ての単語対Cに対応する大きさDの総和が可能な限り小さくなるように、概念ベース22中の任意の単語のベクトルを変換し、変換後概念ベース32を生成する変換手段30を備える。
図2は、概念ベース22の例である。概念ベース22は、例えば、非特許文献1や非特許文献2の手法によって生成する。
概念ベース22中の単語に重複するものはない。
各単語のベクトルはn次元ベクトルであり、意味的に近い単語のベクトルは、近くに配置されている。
概念ベース22には名詞、動詞、形容詞等の内容語のみを登録するというようにしてもよい。概念ベース22において単語を終止形で登録し、概念ベース22を検索する際は、単語の終止形で検索するというようにしてもよい。
辞書24の例として、レコード群が反義語、同位語、同義語それぞれに関するレコード群に分けられているように構成することができる。図3は反義語に関するレコード群の例、図4は同位語に関するレコード群の例、図5は同義語に関するレコード群の例である。図3の各レコードは、基点語とその基点語にとっての反義語のリストからなる。基点語とその反義語リスト中の各反義語との対が、反義語の単語対となる。図4、図5についても同様である。反義語レコード群及び同位語レコード群における単語対は、意味的に遠い単語対である。同義語レコード群における単語対は、意味的に近い単語対である。
辞書24は上記例に限らず、基点語とその基点語にとっての意味的に遠い単語のリストからなるレコードの群と、基点語とその基点語にとっての意味的に近い単語のリストからなるレコードの群から構成されているようにとることもできる。この場合、基点語とその意味的に遠い単語のリスト中の各単語との対が、意味的に遠い単語対となり、基点語とその意味的に近い単語のリスト中の各単語との対が、意味的に近い単語対となる。
辞書24は通常、辞書24の同種(意味的に遠い、意味的に近い等)のレコード群において、単語リスト中に単語Bがある基点語Aのレコードがあれば、単語リスト中に単語Aがある基点語Bのレコードがあるような構成である。
変換手段30の変換処理を、以下のように定式化する。
τpqは定数であり、ωpqは変数である。
概念ベース22中の単語対Wi,Wjに対し、τiとτjとの差ベクトルτi−τjに乗算するスカラー値kは、一般に{i,j}に依存し、k{i,j}と表す。
変換手段30では、以下の目的関数Fを最小化する(ωpq)を求める。
あるいは、以下の目的関数Fを最小化する(ωpq)を求める。
あるいは、F{i,j}を
のその他の何らかの大きさとし、F{i,j}の総和である目的関数Fを最小化する(ωpq)を求める。
k{i,j}は下記のように設定することとする。
k{i,j}は、単語対Wi,Wjが辞書24中の意味的に遠い単語対の場合、k{i,j}≧1として定めておき、単語対Wi,Wjが辞書24中の意味的に近い単語対の場合、0≦k{i,j}≦1として定めておき、単語対Wi,Wjが辞書24中にない場合、k{i,j}=1として定めておく。なお、単語対Wi,Wjが辞書24中の意味的に遠い単語対の場合、k{i,j}≧1と定めたが、k{i,j}>1としてもよい。また、単語対Wi,Wjが辞書24中の意味的に近い単語対の場合、0≦k{i,j}≦1と定めたが、0≦k{i,j}<1としてもよい。
単語対Wi,Wjが辞書24中の意味的に遠い単語対の場合、k{i,j}を{i,j}に依存しない定数としてもよい。また、定数α>0を定め、
単語対Wi,Wjが辞書24中の意味的に近い単語対の場合、k{i,j}を{i,j}に依存しない定数としてもよい。また、定数α>0を定め、
のとき
としてもよい。また、
の最小値以下である定数β≧0を定め、
としてもよい。また、
が小さい程、k{i,j}を大きくして、元々の距離が小さい単語対に対しては、変換後の距離が過度に小さくならないようにしてもよい。
目的関数Fを最小化する(ωpq)を、例えば確率的勾配降下法を用いて求める。(別の最適化手法でもよい。)確率的勾配降下法は以下のアルゴリズムとなる。
上記アルゴリズムの(m,n)行列(ωpq)の更新部分を、例えばAdagradにより以下のようにして行う。
上記アルゴリズム開始前に、行列(ωpq)の初期値を例えば、
(m,n)行列(rpq)をとる。上記アルゴリズム開始前に、行列(rpq)の初期値を例えば、
上記アルゴリズムの(m,n)行列(ωpq)の更新部分において、任意の
上記更新を更新(1)と呼ぶことにする。
目的関数Fが数式1の場合、
<本発明の実施の形態に係る単語ベクトル変更装置の作用>
図6は、変換手段30の変換処理ルーチンの一例を示す図である。以下、図6の各ステップの処理内容を述べる。
S1)
S2〜S6の処理からなるターンを実行するか否かを判断する。
所定の回数を実行済みの場合は、終了と判断して、変換処理ルーチンを終了する。
所定の回数を実行済みでない場合は、実行すると判断してS2に進む。
所定の回数を実行済みでない場合でも、現時点の行列(ωpq)と、一つ前のS1時点の行列(ωpq)とが同じ(すなわち収束している)場合、終了と判断して、変換処理ルーチンを終了してもよい。
変換処理ルーチンを終了する場合、概念ベース22中の各単語Wpとその単語ベクトルωpとの対の集合を、変換後概念ベース32として出力する。
S2〜S6の処理からなるターンを実行するか否かを判断する。
所定の回数を実行済みの場合は、終了と判断して、変換処理ルーチンを終了する。
所定の回数を実行済みでない場合は、実行すると判断してS2に進む。
所定の回数を実行済みでない場合でも、現時点の行列(ωpq)と、一つ前のS1時点の行列(ωpq)とが同じ(すなわち収束している)場合、終了と判断して、変換処理ルーチンを終了してもよい。
変換処理ルーチンを終了する場合、概念ベース22中の各単語Wpとその単語ベクトルωpとの対の集合を、変換後概念ベース32として出力する。
S2)
概念ベース22中の単語のリストを、W1,W2,・・・,Wmとする。W1,W2,・・・,Wmの中で、S2で未選定の単語から一つ選定したWxを処理対象の単語Xとし、S3に進む。未選定の単語がなければ、本ターンを終了し、S1に進む。
概念ベース22中の単語のリストを、W1,W2,・・・,Wmとする。W1,W2,・・・,Wmの中で、S2で未選定の単語から一つ選定したWxを処理対象の単語Xとし、S3に進む。未選定の単語がなければ、本ターンを終了し、S1に進む。
S3)
辞書24中のWxが基点語であるレコード(複数ありえる)中の、対応する単語リストの中で、概念ベース22中にあり、かつ、S3で未選定であり、かつ、単語Wxとの(集合としての)対が、本ターンのS4、S6においてこれまで処理をした(集合としての)対でないことを満たす単語から一つ選定したWyを処理対象の単語Yとし、S4に進む。そのような単語がなければ、S5に進む。
辞書24中のWxが基点語であるレコード(複数ありえる)中の、対応する単語リストの中で、概念ベース22中にあり、かつ、S3で未選定であり、かつ、単語Wxとの(集合としての)対が、本ターンのS4、S6においてこれまで処理をした(集合としての)対でないことを満たす単語から一つ選定したWyを処理対象の単語Yとし、S4に進む。そのような単語がなければ、S5に進む。
S4)
x<yのときi=x,j=yとし、y<xのときi=y,j=xとした上で、{i,j}に対し、上記更新(1)を行う。この際に、
を求め、
をもとに適切なk{i,j}を求めた上で、上記更新(1)を行うというようにしてもよい。S3に進む。
x<yのときi=x,j=yとし、y<xのときi=y,j=xとした上で、{i,j}に対し、上記更新(1)を行う。この際に、
を求め、
をもとに適切なk{i,j}を求めた上で、上記更新(1)を行うというようにしてもよい。S3に進む。
S5)
W1,W2,・・・,Wmの中で、Wxでなく、かつ、S3で選定したいずれのWyでもなく、かつ、S5で未選定であり、かつ、単語Wxとの(集合としての)対が、本ターンのS4、S6においてこれまで処理をした(集合としての)対でないことを満たす単語から一つ選定したWzを処理対象の単語Zとし、S6に進む。そのような単語がなければ、S2に進む。
S6の計算量を低減するために、Wxを除くW1,W2,・・・,Wmを、変換処理ルーチン開始時のWxとの距離の昇順にソートし、その上位G個の中から、(場合によってはソートした順序で)、上記条件を満たす単語を選定するというようにしてもよい。あるいは、Wxを除くW1,W2,・・・,Wmの中で、Wxとの距離が、ある閾値以下(あるいは未満)であるものの中から、(場合によっては距離の昇順にソートした順序で)、上記条件を満たす単語を選定するというようにしてもよい。
W1,W2,・・・,Wmの中で、Wxでなく、かつ、S3で選定したいずれのWyでもなく、かつ、S5で未選定であり、かつ、単語Wxとの(集合としての)対が、本ターンのS4、S6においてこれまで処理をした(集合としての)対でないことを満たす単語から一つ選定したWzを処理対象の単語Zとし、S6に進む。そのような単語がなければ、S2に進む。
S6の計算量を低減するために、Wxを除くW1,W2,・・・,Wmを、変換処理ルーチン開始時のWxとの距離の昇順にソートし、その上位G個の中から、(場合によってはソートした順序で)、上記条件を満たす単語を選定するというようにしてもよい。あるいは、Wxを除くW1,W2,・・・,Wmの中で、Wxとの距離が、ある閾値以下(あるいは未満)であるものの中から、(場合によっては距離の昇順にソートした順序で)、上記条件を満たす単語を選定するというようにしてもよい。
S6)
x<zのときi=x,j=zとし、z<xのときi=z,j=xとした上で、{i,j}に対し、上記更新(1)を行う。S5に進む。
x<zのときi=x,j=zとし、z<xのときi=z,j=xとした上で、{i,j}に対し、上記更新(1)を行う。S5に進む。
上記変換処理ルーチンを行う前に、S2で選定する各Wxに対し、S3で選定することになるWyと距離
の組や、S5で選定することになるWzと距離
の組のリストを求め、距離
をもとに、各単語対(Wx,Wy)に対応するスカラー値kを求めておき、変換処理ルーチンでは、そのリストの順序に従ってS3やS5における選定をし、スカラー値kの計算はせず、既に求めたスカラー値kを参照するという構成にしてもよい。
の組や、S5で選定することになるWzと距離
の組のリストを求め、距離
をもとに、各単語対(Wx,Wy)に対応するスカラー値kを求めておき、変換処理ルーチンでは、そのリストの順序に従ってS3やS5における選定をし、スカラー値kの計算はせず、既に求めたスカラー値kを参照するという構成にしてもよい。
これまで述べた処理をプログラムとして構築し、当該プログラムを通信回線または記録媒体からインストールし、CPU等の手段で実施することが可能である。
なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
本発明は、単語と該単語の概念を表すベクトルとの対の集合が与えられたとき、任意の単語対の距離が適切となるように単語のベクトルを変換する単語ベクトル変更技術に適用可能である。
22 概念ベース
24 辞書
30 変換手段
32 変換後概念ベース
100 単語ベクトル変更装置
24 辞書
30 変換手段
32 変換後概念ベース
100 単語ベクトル変更装置
Claims (4)
- 単語と該単語の概念を表すベクトルとの対の集合である概念ベースと、
意味的に遠いまたは近い単語対の集合である辞書を入力とし、
前記概念ベース中の任意の単語A、Bの対である単語対Cに対し、前記単語対Cが前記辞書中にある場合、前記単語Aの変換後のベクトルと前記単語Bの変換後のベクトルとの差ベクトルV’と、前記単語Aの前記概念ベース中のベクトルと前記単語Bの前記概念ベース中のベクトルとの差ベクトルVにスカラー値kを乗算したベクトルkVとの差ベクトルの大きさDを前記単語対Cに対応付け、かつ、前記単語対Cが前記辞書中にない場合、前記差ベクトルV’と前記差ベクトルVとの差ベクトルの大きさDを前記単語対Cに対応付け、全ての単語対Cに対応する前記大きさDの総和が可能な限り小さくなるように、前記概念ベース中の任意の単語のベクトルを変換する変換手段を備えることを特徴とする単語ベクトル変更装置。 - 前記変換手段は、前記単語対Cが、前記辞書中の意味的に遠い単語対である場合、前記スカラー値kを1以上の値とし、前記単語対Cが、前記辞書中の意味的に近い単語対である場合、前記スカラー値kを0以上1以下の値とする請求項1記載の単語ベクトル変更装置。
- 単語と該単語の概念を表すベクトルとの対の集合である概念ベースを備えた単語ベクトル変換装置における単語ベクトル変換方法であって、
意味的に遠いまたは近い単語対の集合である辞書を入力とし、
変換手段が、前記概念ベース中の任意の単語A、Bの対である単語対Cに対し、前記単語対Cが前記辞書中にある場合、前記単語Aの変換後のベクトルと前記単語Bの変換後のベクトルとの差ベクトルV’と、前記単語Aの前記概念ベース中のベクトルと前記単語Bの前記概念ベース中のベクトルとの差ベクトルVにスカラー値kを乗算したベクトルkVとの差ベクトルの大きさDを前記単語対Cに対応付け、かつ、前記単語対Cが前記辞書中にない場合、前記差ベクトルV’と前記差ベクトルVとの差ベクトルの大きさDを前記単語対Cに対応付け、全ての単語対Cに対応する前記大きさDの総和が可能な限り小さくなるように、前記概念ベース中の任意の単語のベクトルを変換するステップを備えることを特徴とする単語ベクトル変更方法。 - コンピュータを、請求項1又は請求項2に記載の単語ベクトル変更装置の変換手段として機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018076253A JP6973255B2 (ja) | 2018-04-11 | 2018-04-11 | 単語ベクトル変更装置、方法、及びプログラム |
PCT/JP2019/015025 WO2019198618A1 (ja) | 2018-04-11 | 2019-04-04 | 単語ベクトル変更装置、方法、及びプログラム |
US17/046,668 US11537790B2 (en) | 2018-04-11 | 2019-04-04 | Word vector changing device, method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018076253A JP6973255B2 (ja) | 2018-04-11 | 2018-04-11 | 単語ベクトル変更装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019185439A JP2019185439A (ja) | 2019-10-24 |
JP6973255B2 true JP6973255B2 (ja) | 2021-11-24 |
Family
ID=68163178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018076253A Active JP6973255B2 (ja) | 2018-04-11 | 2018-04-11 | 単語ベクトル変更装置、方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11537790B2 (ja) |
JP (1) | JP6973255B2 (ja) |
WO (1) | WO2019198618A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11354513B2 (en) * | 2020-02-06 | 2022-06-07 | Adobe Inc. | Automated identification of concept labels for a text fragment |
US11416684B2 (en) | 2020-02-06 | 2022-08-16 | Adobe Inc. | Automated identification of concept labels for a set of documents |
CN113268565B (zh) * | 2021-04-27 | 2022-03-25 | 山东大学 | 一种基于概念文本的词向量快速生成方法和装置 |
WO2023148948A1 (ja) * | 2022-02-07 | 2023-08-10 | 三菱電機株式会社 | 情報処理装置、更新方法、及び更新プログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012000013A1 (en) * | 2010-06-29 | 2012-01-05 | Springsense Pty Ltd | Method and system for determining word senses by latent semantic distance |
CN106484682B (zh) * | 2015-08-25 | 2019-06-25 | 阿里巴巴集团控股有限公司 | 基于统计的机器翻译方法、装置及电子设备 |
US11023685B2 (en) * | 2019-05-15 | 2021-06-01 | Adobe Inc. | Affect-enriched vector representation of words for use in machine-learning models |
-
2018
- 2018-04-11 JP JP2018076253A patent/JP6973255B2/ja active Active
-
2019
- 2019-04-04 WO PCT/JP2019/015025 patent/WO2019198618A1/ja active Application Filing
- 2019-04-04 US US17/046,668 patent/US11537790B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019185439A (ja) | 2019-10-24 |
US11537790B2 (en) | 2022-12-27 |
US20210034822A1 (en) | 2021-02-04 |
WO2019198618A1 (ja) | 2019-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107704563B (zh) | 一种问句推荐方法及系统 | |
CN108959396B (zh) | 机器阅读模型训练方法及装置、问答方法及装置 | |
CN109783817B (zh) | 一种基于深度强化学习的文本语义相似计算模型 | |
JP6973255B2 (ja) | 単語ベクトル変更装置、方法、及びプログラム | |
US11544474B2 (en) | Generation of text from structured data | |
CN102298576B (zh) | 文档关键词生成方法和装置 | |
JP6848091B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
US12008473B2 (en) | Augmenting machine learning language models using search engine results | |
KR20230075052A (ko) | 언어 모델을 이용하여 도메인에 특화된 대화를 제공하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램 | |
CN108038106B (zh) | 一种基于上下文语义的细粒度领域术语自学习方法 | |
EP4060548A1 (en) | Method and device for presenting prompt information and storage medium | |
CN111813993A (zh) | 视频内容的拓展方法、装置、终端设备及存储介质 | |
CN114818729A (zh) | 一种训练语义识别模型、查找语句的方法、装置及介质 | |
CN111723179B (zh) | 基于概念图谱的反馈模型信息检索方法、系统及介质 | |
CN114896377A (zh) | 一种基于知识图谱的答案获取方法 | |
CN114841335A (zh) | 基于变分蒸馏的多模态联合表示学习方法及系统 | |
US12118314B2 (en) | Parameter learning apparatus, parameter learning method, and computer readable recording medium | |
JP6698061B2 (ja) | 単語ベクトル変換装置、方法、及びプログラム | |
CN114490926A (zh) | 一种相似问题的确定方法、装置、存储介质及终端 | |
Baez et al. | LSLlama: Fine-tuned LLaMA for lexical simplification | |
CN113505196A (zh) | 基于词性的文本检索方法、装置、电子设备及存储介质 | |
JP6586026B2 (ja) | 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム | |
CN116069174A (zh) | 一种输入联想方法、电子设备及存储介质 | |
Zheng | Improve general contextual SLIM recommendation algorithms by factorizing contexts | |
CN114912446A (zh) | 一种关键词抽取方法、装置及储存介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200730 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211005 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211018 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6973255 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |