JP7204431B2 - 単語ベクトルリスト生成装置 - Google Patents

単語ベクトルリスト生成装置 Download PDF

Info

Publication number
JP7204431B2
JP7204431B2 JP2018210421A JP2018210421A JP7204431B2 JP 7204431 B2 JP7204431 B2 JP 7204431B2 JP 2018210421 A JP2018210421 A JP 2018210421A JP 2018210421 A JP2018210421 A JP 2018210421A JP 7204431 B2 JP7204431 B2 JP 7204431B2
Authority
JP
Japan
Prior art keywords
word vector
vector list
word
intersect
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018210421A
Other languages
English (en)
Other versions
JP2020077228A (ja
Inventor
俊廷 伊藤
建人 大泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2018210421A priority Critical patent/JP7204431B2/ja
Publication of JP2020077228A publication Critical patent/JP2020077228A/ja
Application granted granted Critical
Publication of JP7204431B2 publication Critical patent/JP7204431B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、単語ベクトルリストを生成する装置と方法に関する。
自然言語処理は、人間が意味を解する言語(自然言語)を、コンピュータを用いて解析する処理である。自然言語をコンピュータで解析しようとすると、文章を構成する単語、助詞等の単位を特定し、単位の意味を特定しなければならない。このため、従前からコンピュータによる自然言語処理の分野では、文章を最小単位(形態素)に分解する形態素解析や、構文解析や、語義判別等の処理が試みられていた。しかし、人間が使用する言語は、単語の区切り、語義、構文等に曖昧さを伴う。さらに、不完全な文章や間違った文章も使用される。このため、従前の技術では限界があった。
これに対して近年は、機械学習によるディープラーニングの技術が急速に進展し、単語の属性や潜在的な意味まで考慮した自然言語処理が行われるようになった。このディープラーニングの自然言語処理の適用分野は、機械翻訳、対話、感情分析等に急速に拡大している。
ディープラーニングによる自然言語処理は、単語とその要素との関係(単語の特徴量)を機械学習し、単語の特徴量に基づいて文章内の単語の正しさの評価等をするものである。ここで、単語の「要素」とは、単語と潜在的に関係を有する他の単語をいう。例えば、「東京」という単語に対して、地理的に潜在的な関係を有する「ヨーロッパ」や、地形的に潜在的な関係を有する「島」や、人口の集積度の面から潜在的な関係を有する「大都会」は、「東京」の要素である。「東京」という単語は、複数の要素との関係で特徴付けることができる。つまり、単語は、該単語を表す複数の要素との関係の強さを数値化して定義することができる。要素との関係を表した数値のセットにより、単語をベクトル化することができる。単語をベクトル化することによって単語間の近さを数値計算することができる。それによって、ある単語が所定の文章内で使用された場合に、その使用された文章(他の単語)との適合性から、単語の正しさや意味の推測等を行うことができる。
現在、大量の文章から単語をベクトル化した「単語ベクトルリスト」が、複数の企業や研究所によって提供されている。これらの単語ベクトルリストは、大量の一般的な文章から機械学習されるため、汎用的な単語の単語ベクトル(汎用単語ベクトル)が生成される傾向にある。
また、汎用単語ベクトルリストは、大量の文章から一括して機械学習されるため、膨大な量の機械学習の後は頻繁に追加の文章を取り入れて学習することは困難であった。
汎用の単語に対して、現実の世界では新製品名や新組織名等が次々に生成され、新しい単語が生成される。また、特定の企業や組織内では従来から固有の単語を使用することが多い。このため、新しい単語や固有の単語(これらをまとめて「固有単語」という)について、特化した単語ベクトルリスト(固有単語ベクトルリスト)が個別的作成されている。
しかし、固有単語が使用される分野でも汎用単語が使用されるため、汎用単語ベクトルリストを固有単語ベクトルリストで補完した単語ベクトルリストが必要であった。
この要求に対して、非特許文献1は、異なる単語ベクトルリスト(単語ベクトル空間)を結合する技術を提案している。
方法1として、結合する2つの単語ベクトルリストをW(n次元ベクトル空間)、W(m次元ベクトル空間)(n≦m)とする。単語wのWにおけるベクトルをwa,1、wのWにおけるベクトルをwa,2とする。最初に、W,Wに共通して含まれる単語について、ベクトルを連結した単語ベクトルリストM(n+m次元ベクトル空間)を生成する。
次に、Wにのみ含まれる単語ベクトルwa,1について、W,Wに共通して含まれる単語ベクトルの中でwa,1との類似度が高い上位5つの単語ベクトルを取得する。取得した5つの単語ベクトルのWでのベクトルの平均をwa,2とし、wa,1とwa,2を連結したベクトルをMに追加する。この処理をWにのみ含まれる全単語ベクトルについて行う。同様に、Wにのみ含まれる単語ベクトルについても同じ処理を行う。
このようにして得られたMについて、SVD(特異値分解:singular value decomposition)を用いて次元削減を行う。すなわち、
Figure 0007204431000001
Figure 0007204431000002
ここで、Mがp×qの行列とすると、Uはp×pの直交行列、Vはq×qの直交行列、Σはp×qの行列であって、対角成分が非負で大きさの順に特異値が並んだ行列になる。sqrt(Σ)はΣの対角成分の平方根を示している。U・sqrt(Σ)は、行列Uと、行列Σの各特異ベクトルの特異値の二乗根の内積を示している。dim_reduct()は、次元削減するという意味のここで定義した関数であって、かっこ内の行列の特異値の大きいものから所定の次元を切り出して次元削減をするという意味である。
方法2として、非特許文献1の技術は、結合する2つの単語ベクトルリストをW(n次元ベクトル空間)、W(m次元ベクトル空間)(n≦m)とし、WとWを連結して単語ベクトルリストM(n+m次元ベクトル空間)を生成する。
次に、Mから一部をサンプリングしてMsampleを生成し、SVDを用いて変換行列を得る。すなわち、
Figure 0007204431000003
Figure 0007204431000004
Figure 0007204431000005
ここで、dim_reduct()はすでに説明したここで定義した関数であって、n+m次元の行列から特異値の大きいk次元を切り出すという意味である。
次に、得られた変換行列で、連結した単語ベクトルを射影して、sの各要素の二乗根で対応する行ベクトルを除算する。すなわち、
Figure 0007204431000006
Figure 0007204431000007
luminoso-beaudoin、他3名、"conceptnet5/conceptnet5/vectors/merge.py"、[online]、2018年6月6日、[2018年7月17日検索]、GitHub、インターネット〈URL:https://github.com/commonsense/conseptnet5/blob/master/conceptnet5/vectros/merge.py〉
しかし、従来技術の方法1では、自然言語処理の精度を高くするのが困難であった。
例えば、方法1は、Wにのみ含まれる単語ベクトルwa,1について、W,Wに共通して含まれる単語ベクトルの中でwa,1との類似度が高い上位5つの単語ベクトルを得るようにしている。しかし、類似度が高い上位5つの単語ベクトルの選定にはばらつきがあり、その結果、平均すると自然言語処理の精度が低下する問題があった。
また、方法1の技術によれば、単語数の二乗のオーダーの計算量となり、コンピュータの計算量が膨大になるという問題があった。
方法2は、WとWを連結して単語ベクトルリストM(n+m次元ベクトル空間)を生成し、Mから一部をサンプリングしてSVDで変換行列を得るようにしている。
しかし、方法2によれば、W,Wに共通する単語しか出力することができず、単語数が減ってしまうという問題があった。
そこで、本発明の目的は、コンピュータの計算量を抑えることができ、汎用単語ベクトルリストに固有単語ベクトルリストを簡単に加えられ、かつ、精度の高い自然言語処理を行うことができる単語ベクトルリストを生成する技術を提供することにある。
上述した課題を解決するために、本発明の単語ベクトルリスト生成装置は、
結合対象の2つの単語ベクトルリストW(n次元ベクトル空間),W(m次元ベクトル空間)(n≦m)を入力する入力手段と、
前記単語ベクトルリストW,Wの次元を同一次元になるように調整する次元調整手段と、
前記次元調整された単語ベクトルリストWと単語ベクトルリストW’の共通の単語の単語ベクトルを連結し、共通単語ベクトルリストMintersectを生成する共通単語ベクトルリスト生成手段と、
前記共通単語ベクトルリストMintersectを次元削減し、出力単語ベクトル空間Wresult,intersectを生成する出力ベクトル空間生成手段と、
前記単語ベクトルリストW,Wの単語ベクトル空間W1,intersect,W2,intersectから前記出力単語ベクトル空間Wresult,intersectへの変換行列T,Tを計算する変換行列生成手段と、
前記変換行列T,Tを使用して前記単語ベクトルリストW,Wの全単語を出力単語ベクトル空間にマッピングして出力単語ベクトルリストWresultを出力するマッピング手段と、
を有することを特徴とする。
前記出力単語ベクトルリストWresultの行列に、知識ベースから自己関連性ウェイトと関連語の関連性ウェイトによる補正を行う知識注入手段、を有していてもよい。
前記出力ベクトル空間生成手段は、SVD(特異値分解:singular value decomposition)、または、PCA(主成分分析:principal component analysis)により、前記共通単語ベクトルリストMintersectを次元削減してもよい。
前記次元調整手段は、SVD(特異値分解:singular value decomposition)、または、PCA(主成分分析:principal component analysis)により、次元削減してもよい。
本発明の単語ベクトルリスト生成方法は、
結合対象の2つの単語ベクトルリストW(n次元ベクトル空間),W(m次元ベクトル空間)(n≦m)を入力する工程と、
前記単語ベクトルリストW,Wの次元を同一次元になるように調整する工程と、
前記次元調整された単語ベクトルリストWと単語ベクトルリストW’の共通の単語の単語ベクトルを連結し、共通単語ベクトルリストMintersectを生成する工程と、
前記共通単語ベクトルリストMintersectを次元削減し、出力単語ベクトル空間Wresult,intersectを生成する工程と、
前記単語ベクトルリストW,Wの単語ベクトル空間W1,intersect,W2,intersectから前記出力単語ベクトル空間Wresult,intersectへの変換行列T,Tを計算する工程と、
前記変換行列T,Tを使用して前記単語ベクトルリストW,Wの全単語を出力単語ベクトル空間にマッピングして出力単語ベクトルリストWresultを出力する工程と、
を有する。
本発明によれば、コンピュータの計算量を抑えられ、汎用単語ベクトルリストに固有単語ベクトルリストを簡単に加えられ、かつ、精度の高い自然言語処理を行うことができる単語ベクトルリストを生成することができる。
本発明の一実施形態による単語ベクトルリストの生成の全体の流れを示した説明図。 本発明の一実施形態による単語ベクトルリスト生成装置の構成と処理の流れを示したブロック図。 知識ベースを例示した説明図。 知識ベースの関連性ウェイトを単語ベクトルリストに注入するための疎行列の例を示した説明図。 知識ベースの関連性ウェイトを単語ベクトルリストに注入する方法を示した説明図。 本発明による単語ベクトルリストの効果を示した説明図。
以下に本発明の実施形態を、図面を用いて説明する。
図1は、本発明の一実施形態による単語ベクトルリストの生成の全体の流れを示している。前述したように、複数の企業や研究所により、一般的な文章を含む大量の文章データから汎用単語ベクトルリストが作成されている。なお図1においては、かかる汎用単語ベクトルリストを一つのみ示しているが、かかる汎用単語ベクトルリストは複数提供されている。一方、新しい分野を含む特定の企業や分野で使用される単語は、それらの用語を含む文章データから、個別に固有単語ベクトルリストが作成されている。
汎用単語ベクトルリストは通常単語数が多く、これに対して固有単語ベクトルリストの単語数は相対的に少ないことが多い。単語を表す要素の数は区々である。また、汎用単語ベクトルリストと固有単語ベクトルリストでは、性質上元々含まれる単語が異なることが多い。さらに、同一単語であっても、異なるベクトルリストでは、各次元の表す意味が異なるため、一般に大きく異なるベクトルとなる。
本発明による単語ベクトルリストの生成は、上記のような性質が異なる汎用単語ベクトルリストと固有単語ベクトルリストを結合する部分を有する(図中の「1.異なる単語ベクトル空間の結合技術」)。なお、「異なる単語ベクトル空間の結合技術」に関して、ここでは汎用単語ベクトルリストと固有単語ベクトルリストを結合することについて説明している。しかし、本発明による「異なる単語ベクトル空間の結合技術」の結合対象は、汎用単語ベクトルリストと固有単語ベクトルリストに限られず、任意の二つの単語ベクトルリストとすることができる。
結合の方法は後に詳細に説明するが、最初にそれぞれの単語ベクトルリストに、知識ベースの関連性ウェイトの処理を行う。知識ベースとは、所定の単語間の関連性を有し、その関連性の強さを表すウェイトを有する知識ベースである。関連性ウェイトに関する処理は、元の単語ベクトルリストに含まれない単語を、関連のある単語のベクトルを使って追加する。また、関連性ウェイトに関する処理は、関連のある単語により類似するベクトルとなるように、単語ベクトルの調整を行う。これら二つの処理は下記の処理により同時に行われる。
具体的には、本発明の知識ベースの関連性ウェイトに関する処理は、単語ベクトルリストの単語に知識ベースの単語を加え、単語間の関連性ウェイトを行列化する。関連性ウェイトの行列と、正規化した元の単語ベクトルリストの行列を掛け合わせることによって元の単語ベクトルリストの行列の要素に関連性ウェイトを加えることができる。次に得られた単語ベクトルリストの行列をL2正則化し、元の単語ベクトルとの平均を新たな単語ベクトルとする。これらの操作を数回繰り返すことによって、知識ベースの単語の関連性ウェイトを注入することができる(図中の「2.単語ベクトルと知識ベースの融合技術」)。
次に、知識ベースの関連性ウェイトを注入した単語ベクトルを連結する。
さらに次に、各単語の特徴量を可能な限り保存しながら単語ベクトル空間の次元を削減し、出力用の単語ベクトル空間上に配置する。
以上の処理により、本発明は、膨大な再学習やサンプリング等を行うことなく、単語の特徴量を維持しながら汎用単語ベクトルリストと固有単語ベクトルリストを結合することができる。
なお、知識ベースの関連性ウェイトの処理と、単語ベクトルの連結の処理は、順番を入れ替えて行うこともできる。順番を入れ替えた処理も本発明の範疇内である。
次に、図2を用いて、本発明による異なる単語ベクトル空間の結合技術について説明する。
本発明による単語ベクトルリスト生成装置1は、結合対象の単語ベクトルリストを本装置に入力するための入力手段2を有している。入力手段2は、結合対象の単語ベクトルリストを単語ベクトルリスト生成装置1に取り込める範囲内のすべての公知の技術を含む。すなわち、入力手段2はその物理的な構成は限定されない。
最初に、入力手段2により、結合対象の2つの単語ベクトルリストW(n次元ベクトル空間)、W(m次元ベクトル空間)(n≦m)を入力する。単語wのWにおけるベクトルをwa,1、単語wのWにおけるベクトルをwa,2とする。
次に以下の順番に限られないが、知識注入手段9により、二つの単語ベクトルリストW,Wに対して、既存の知識ベースの単語の関連性ウェイトを加味する。知識注入手段9による処理は、単語ベクトルリストW,Wの結合後に追加的に行うことができ、この処理については後に詳細に説明する。
次に、次元調整手段3により、W(n次元ベクトル空間)とW(m次元ベクトル空間)を、次元が同一になるように調整する。好ましくは、SVD(特異値分解:singular value decomposition)により、次元が大きい方のWを次元が小さい方のn次元に次元削減する。たとえば、以下のように処理することができる。
Figure 0007204431000008
ここで、Wがm×pの行列とすると、SVDによればWは上式のように分解でき、Uはm×mの直交行列、Vはp×pの直交行列、Σはm×pの行列であって、対角成分が非負で大きさの順に特異値が並んだ行列になる。
を次元削減または次元調整した行列をW’とすると、W’は以下のように求めることができる。
Figure 0007204431000009
ここで、W’はWのn次元に次元調整された行列である。sqrt(Σ)はΣの対角成分の平方根を示している。U・sqrt(Σ)は、行列Uと、行列Σの各特異ベクトルの特異値の二乗根の内積を示している。dim_reduct()は、次元削減するという意味のここで定義した関数であって、かっこ内の行列の特異値の大きいものから所定の次元を切り出して次元削減をするという意味である。なお、行列Uと行列Σの内積による次元削減dim_reduct(U・Σ)ではなく、行列Uと行列Σの各特異ベクトルの特異値の二乗根の内積による次元削減dim_reduct(U・sqrt(Σ))を用いる理由は、後者の方が自然言語処理の分野でより精度が向上するからである。換言すると、精度の問題を別にすれば前者を用いることも可能であり、前者を用いる場合も本発明の範疇内である。
なお、次元調整手段3は、ここではn次元に次元調整しているが、次元調整される単語ベクトルの次元数を自由に設定することができる。このため、処理を行う者が処理前に次元数を決定することが好ましい。
次元調整手段3による次元削減は、WとWの次元を同一次元になるように調整できれば足り、双方のベクトル空間をn次以下の同次元に調整することも本発明の範疇内である。次元調整手段3により、後述する出力単語ベクトル空間の次元数に合わせてWとWの次元を削減することもできる。また、WとWの次元が大きく相違しないことが明らかな場合は、省略することもできる。
次元調整手段3は、次元削減の方法としてPCA(主成分分析:principal component analysis)を採用することもできる。
次に、次元調整されたWとW’の共通の単語から、共通単語ベクトルリスト生成手段4により、共通単語のベクトルを連結する。
連結したベクトルリストを共通単語ベクトルリストMintersect(n+n次元ベクトル空間)とする。なお、ここで行うベクトルの連結は、2つの単語ベクトルリストの成分を並べるようにして連結する。この連結の際に、次元調整されたWとW’のいずれか重要視する方に加重的に所定の倍数を乗じて連結することができる。この倍数は、単語ベクトルリストの性質によって適宜採ることができる。
共通単語ベクトルリストMintersectは、n+n次元を有しているので、WとW’から出力できる単語ベクトル空間(出力単語ベクトル空間)に次元削減を行う必要がある。
そこで、出力ベクトル空間生成手段5により、Mintersectの次元削減を行う。好ましくは、SVDにより、以下のように共通単語ベクトルリストMintersectの次元を削減する。
Figure 0007204431000010
Figure 0007204431000011
ここで、Mintersectがp×qの行列とすると、Uはp×pの直交行列、Vはq×qの直交行列、Σはp×qの行列であって、対角成分が非負で大きさの順に特異値が並んだ行列になる。dim_reduct()は前述したように、次元削減するという意味のここで定義した関数である。sqrt(Σ)はΣの対角成分の平方根を示している。U・sqrt(Σ)は、行列Uと、行列Σの各特異ベクトルの特異値の二乗根の内積を示している。
result,intersectは、WとW’から出力できる次元とするのが好ましい。例えば、Wresult,intersectはn次元とすることができる。
なお、出力ベクトル空間生成手段5は、次元削減の方法としてPCA(主成分分析:principal component analysis)を用いることができる。
次に、単語ベクトル空間WとW’と出力単語ベクトル空間Wresult,intersectの関係から、それぞれ変換行列T及びTを計算することができる。
すなわち、変換行列生成手段6により、以下のようにして変換行列T,Tを計算する。
Figure 0007204431000012
Figure 0007204431000013
ここで、W1,intersect,W’2,intersectは共通単語のW,W’の単語ベクトル空間、Wresult,intersectは共通単語の出力単語ベクトル空間である。
上記変換行列T,Tは、WとW’の全単語に適用できるため、マッピング手段7により、以下のようにして全単語を出力ベクトル空間にマッピングすることができる。この結果、以下のように全単語を含む出力単語ベクトルリストWresultを得ることができる。
Figure 0007204431000014
ここで、W1,uniqueはWにのみ存在する単語の単語ベクトルリスト、W’2,uniqueはW’にのみ存在する単語の単語ベクトルリスト、Wresult,intersectは共通単語の出力単語ベクトルリストである。出力単語ベクトルリストWresultはそれらの和集合となる。
以上により、次元や要素や単語が異なる二つの単語ベクトルリストを、単語の特徴量を損なうことなく結合でき、汎用単語と固有単語の双方をカバーすることができる。また、類似語の選択やサンプリングを行うことなく、少ない計算量で単語ベクトルリストを結合することができる。
なお、上述したSVDによる次元削減は、種々な式の表現をとり得る。このことについて以下に説明する。
入力行列をA、出力行列をBとすると、入力行列Aは次のように特異値分解することができる。
Figure 0007204431000015
これに続いて、出力行列Bを以下の式(1)~式(3)のいずれか一つのように求めることができる。
Figure 0007204431000016
Figure 0007204431000017
Figure 0007204431000018
ここで、dim_reduct()は前述したように、次元削減するという意味のここで定義した関数である。sqrt(Σ)はΣの対角成分の平方根を示している。U・sqrt(Σ)は、行列Uと、行列Σの各特異ベクトルの特異値の二乗根の内積である。divide()は、かっこ内の行列を要素ごとに除算する関数である。sはΣの対角成分からなるベクトルである。Vmod (n)は行列Vの要素を特異ベクトルΣの特異値の二乗根で除算した行列の最初のn列を採用した行列である。
式(1)~式(3)は、表現は異なるが、本質的に同じ処理である。同一の入力行列Aに対して、算出される出力行列Bはすべて同じ値になる。
本実施形態によるSVDによる次元削減は、式(1)の形で説明したが、式(2)または式(3)の形でもよい。
図3はここにいう「知識ベース」の例を示す。
図3の知識ベース8は、携帯電話のキャリア(以下単に「キャリア」という。)に関する知識ベースの例を示している。キャリアは、通信会社と同義語であり、A,B,Cの3つの系列が存在するとする。各系列には、親会社キャリアA,B,Cと、親会社に所属するショップ(図中の「A社ショップ」と「B社ショップ」と「C社ショップ」)と、関連会社(図中の「系列会社A」と「関係会社B」と「関係会社C」)が存在する。各社のショップの上位概念として「キャリアショップ」が存在する。
知識ベース8上の「単語」は、「コンセプト(Concept)」になっており、関連する単語は関連性ウェイトを有している。A系列の単語同士は、同系列であるため、高い関連性ウェイトを有している。B系列とC系列についても同様に、同じ系列同士は高い関連性ウェイトを有している。異なる系列の単語同士は低い関連性ウェイトを有している。同じ系列内であれば、距離が短いほど高い関連性ウェイトを有している。
このような構成の知識ベースを用いて、単語ベクトルリストに関連性ウェイトを注入する方法について以下に説明する。なお、この知識ベースの関連性ウェイトの注入は、単語ベクトル空間の結合の後に図2の知識注入手段9によって行われる。
知識ベースの単語の関連性ウェイトを単語ベクトルリストに反映するには、知識ベース上の単語(知識ベースの「コンセプト(Concept)」になっている。)と単語ベクトルリストの単語から、疎行列を作る。
まず、単語ベクトルリストの単語リスト(Labels)に、単語ベクトルリストにない知識ベース8の単語(Concept)を追加する。図4の例では、知識ベースにのみ存在する「desktop」を単語リストに加えている。
次に、Concept1とConcept2の間の関連性ウェイトを疎行列の要素にセットする。この場合、自Conceptとの関連性ウェイトは、他のConceptとの関連性ウェイトの合算をセットする。すなわち、疎行列の対角成分(自Conceptとの関連性ウェイトの成分)は、その行や列の合算値をセットする。また、Conceptの組合せで出現しない要素は“0”をセットする。
図4の例では、「telephone」と「call」と「desktop」の関連性ウェイト(weight)を疎行列にセットしている。単語数をmとすると疎行列はm×mの行列となる。
次に、上記疎行列を使用して、単語ベクトルリストに知識ベースの関連性ウェイトを注入する処理について説明する。
図5において、「関連性ウェイト」と表示した行列は、図4で説明した疎行列を示している。関連性ウェイトの要素は具体的な数値に代えてa,・・・,d,α,β,γとする。「元の単語ベクトルリスト」と表示した行列は、関連性ウェイトを注入する前の行列であって、単語数m、要素数を300の行列になっている。元の単語ベクトルリストは、行の平均値が0になるように正規化している。「単語ベクトルリスト」と表示した行列は、関連性ウェイトを注入した後の行列である。
「関連性ウェイト」の行列と「元の単語ベクトルリスト」の行列をかけ合わせて「単語ベクトルリスト」の行列を得る。「単語ベクトルリスト」のある次元に着目すると、「自己Weight×元の値+関連性Weight×関連語の同次元の値」になっている。すなわち、「単語ベクトルリスト」の各単語の要素は、自己Weightをかけたものと、関連語の同次元の要素に関連性Weightをかけたものの和になっている。つまり、単語ベクトルリストの各成分は、元の単語の要素に、自己の関連性ウェイトの他に、関連語の同次元の要素の関連性Weightをかけて加えられている。これにより、単語ベクトルリストに、知識ベースの関連性ウェイトを注入する。
「関連性ウェイト」の行列をかけて得られた「単語ベクトルリスト」の行列は、行の平均値が0になるように正規化し、ベクトル長さが1になるようにノルム化する。
次に、ノルム化した「単語ベクトルリスト」の行列と「元の単語ベクトルリスト」の行列を加算し、ベクトルがある行は2で除し、ベクトルがない行はそのまま加算し、この計算を行った行列を「元の単語ベクトルリスト」の行列として使用する。
Figure 0007204431000019
以上の処理を所定回、好ましくは5回繰り返すことによって、単語ベクトルリストに知識ベースの関連性ウェイトを注入することができる。これによって、さらに自然言語処理の精度を向上させることができる。
本発明の発明者らは、本発明による結合と関連性ウェイト注入を行った後の単語ベクトルリストの評価を行った。図6は日本語単語類似度データセットによるベンチマークの結果を示している。
図6において、固有単語と全体の単語に分けて評価結果を示している。図6に示すように、汎用単語ベクトルリスト(例:ConceptNet Numberbatch)は、ベンチマークのスコアが高いが、固有単語のカバー率が低い。一方、固有単語ベクトルリスト(例:nwjc2vic(word2vec版))は固有単語のカバー率が高いが、ベンチマークのスコアが低い。これに対して、本発明による単語ベクトルリストは、固有単語を100パーセントカバーし、かつ、ベンチマークのスコアが高い結果となった。
以上のように、本発明の技術によれば、汎用単語ベクトルリストの膨大な再学習を行うことなく、既存の汎用単語ベクトルリストと特定の企業や分野で作成された固有単語ベクトルリストを結合して、高い単語カバー率を得ることができる。また、結合に際しては、単語の特徴量を損なうことなく結合でき、結果として精度の高い自然言語処理を行うことができる単語ベクトルリストを生成することができる。
上記の記載に基づいて、当業者であれば、本発明の追加の効果や種々の変形を想到できるかもしれないが、本発明の態様は、上述した実施形態に限定されるものではない。特許請求の範囲に規定された内容及びその均等物から導き出される本発明の概念的な思想と趣旨を逸脱しない範囲で種々の追加、変更及び部分的削除が可能である。
1 単語ベクトルリスト生成装置
2 入力手段
3 次元調整手段
4 共通単語ベクトルリスト生成手段
5 出力ベクトル空間生成手段
6 変換行列生成手段
7 マッピング手段
8 知識ベース
9 知識注入手段

Claims (5)

  1. 結合対象の2つの単語ベクトルリストW(n次元ベクトル空間),W(m次元ベクトル空間)(n≦m)を入力する入力手段と、
    前記単語ベクトルリストW,Wの次元を同一次元になるように調整する次元調整手段と、
    前記次元調整された単語ベクトルリストWと単語ベクトルリストW’の共通の単語の単語ベクトルを連結し、共通単語ベクトルリストMintersectを生成する共通単語ベクトルリスト生成手段と、
    前記共通単語ベクトルリストMintersectを次元削減し、出力単語ベクトル空間Wresult,intersectを生成する出力ベクトル空間生成手段と、
    前記単語ベクトルリストW,Wの単語ベクトル空間W1,intersect,W2,intersectから前記出力単語ベクトル空間Wresult,intersectへの変換行列T,Tを計算する変換行列生成手段と、
    前記変換行列T,Tを使用して前記単語ベクトルリストW,Wの全単語を出力単語ベクトル空間にマッピングして出力単語ベクトルリストWresultを出力するマッピング手段と、
    を有することを特徴とする単語ベクトルリスト生成装置。
  2. 請求項1記載の単語ベクトルリスト生成装置であって、
    前記出力単語ベクトルリストWresultの行列に、知識ベースから自己関連性ウェイトと関連語の関連性ウェイトによる補正を行う知識注入手段、を有することを特徴とする単語ベクトルリスト生成装置。
  3. 請求項1または2に記載の単語ベクトルリスト生成装置であって、
    前記出力ベクトル空間生成手段は、SVD(特異値分解:singular value decomposition)、または、PCA(主成分分析:principal component analysis)により、前記共通単語ベクトルリストMintersect(n+n次元ベクトル空間)を次元削減することを特徴とする単語ベクトルリスト生成装置。
  4. 請求項1~3のいずれかに記載の単語ベクトルリスト生成装置であって、
    前記次元調整手段は、SVD(特異値分解:singular value decomposition)、または、PCA(主成分分析:principal component analysis)により、次元削減することを特徴とする単語ベクトルリスト生成装置。
  5. 入力手段と次元調整手段と共通単語ベクトルリスト生成手段と出力ベクトル空間生成手段と変換行列生成手段とマッピング手段がコンピュータにより実装されるとして、
    前記入力手段が、結合対象の2つの単語ベクトルリストW(n次元ベクトル空間),W(m次元ベクトル空間)(n≦m)を入力する工程と、
    前記次元調整手段が、前記単語ベクトルリストW,Wの次元を同一次元になるように調整する工程と、
    前記共通単語ベクトルリスト生成手段が、前記次元調整された単語ベクトルリストWと単語ベクトルリストW’の共通の単語の単語ベクトルを連結し、共通単語ベクトルリストMintersectを生成する工程と、
    前記出力ベクトル空間生成手段が、前記共通単語ベクトルリストMintersectを次元削減し、出力単語ベクトル空間Wresult,intersectを生成する工程と、
    前記変換行列生成手段が、前記単語ベクトルリストW,Wの単語ベクトル空間W1,intersect,W2,intersectから前記出力単語ベクトル空間Wresult,intersectへの変換行列T,Tを計算する工程と、
    前記マッピング手段が、前記変換行列T,Tを使用して前記単語ベクトルリストW,Wの全単語を出力単語ベクトル空間にマッピングして出力単語ベクトルリストWresultを出力する工程と、
    を有することを特徴とする単語ベクトルリスト生成方法。
JP2018210421A 2018-11-08 2018-11-08 単語ベクトルリスト生成装置 Active JP7204431B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018210421A JP7204431B2 (ja) 2018-11-08 2018-11-08 単語ベクトルリスト生成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018210421A JP7204431B2 (ja) 2018-11-08 2018-11-08 単語ベクトルリスト生成装置

Publications (2)

Publication Number Publication Date
JP2020077228A JP2020077228A (ja) 2020-05-21
JP7204431B2 true JP7204431B2 (ja) 2023-01-16

Family

ID=70724189

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018210421A Active JP7204431B2 (ja) 2018-11-08 2018-11-08 単語ベクトルリスト生成装置

Country Status (1)

Country Link
JP (1) JP7204431B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004070636A (ja) 2002-08-06 2004-03-04 Mitsubishi Electric Corp 概念検索装置
JP2012190080A (ja) 2011-03-08 2012-10-04 Internatl Business Mach Corp <Ibm> 用語の対応を見出す方法、プログラム及びシステム
WO2018172840A1 (en) 2017-03-20 2018-09-27 International Business Machines Corporation Creating cognitive intelligence queries from multiple data corpuses

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004070636A (ja) 2002-08-06 2004-03-04 Mitsubishi Electric Corp 概念検索装置
JP2012190080A (ja) 2011-03-08 2012-10-04 Internatl Business Mach Corp <Ibm> 用語の対応を見出す方法、プログラム及びシステム
WO2018172840A1 (en) 2017-03-20 2018-09-27 International Business Machines Corporation Creating cognitive intelligence queries from multiple data corpuses

Also Published As

Publication number Publication date
JP2020077228A (ja) 2020-05-21

Similar Documents

Publication Publication Date Title
US11106714B2 (en) Summary generating apparatus, summary generating method and computer program
CN109582956B (zh) 应用于句子嵌入的文本表示方法和装置
CN107704563B (zh) 一种问句推荐方法及系统
US6173275B1 (en) Representation and retrieval of images using context vectors derived from image information elements
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
CN111859986A (zh) 基于多任务孪生网络的语义匹配方法、装置、设备和介质
JP2018063696A (ja) ノン・ファクトイド型質問応答システム及び方法並びにそのためのコンピュータプログラム
CN110795572B (zh) 一种实体对齐方法、装置、设备及介质
US20220138601A1 (en) Question responding apparatus, learning apparatus, question responding method and program
CN112434533B (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN113326374A (zh) 基于特征增强的短文本情感分类方法及系统
CN113821527A (zh) 哈希码的生成方法、装置、计算机设备及存储介质
Gupta et al. Unsupervised self-training for sentiment analysis of code-switched data
CN112100377A (zh) 文本分类方法、装置、计算机设备和存储介质
CN115168579A (zh) 一种基于多头注意力机制和二维卷积操作的文本分类方法
CN116644148A (zh) 关键词识别方法、装置、电子设备及存储介质
JP2019082860A (ja) 生成プログラム、生成方法及び生成装置
JP7204431B2 (ja) 単語ベクトルリスト生成装置
CN115510203B (zh) 问题答案确定方法、装置、设备、存储介质及程序产品
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端
CN115408997A (zh) 一种文本生成方法、文本生成装置和可读存储介质
Habib et al. GAC-Text-to-Image Synthesis with Generative Models using Attention Mechanisms with Contrastive Learning
CN115512374A (zh) 针对表格文本的深度学习特征提取分类方法及装置
Chaonithi et al. A hybrid approach for Thai word segmentation with crowdsourcing feedback system
KR102689965B1 (ko) 데이터 해석 장치 및 데이터 해석 프로그램

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220829

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220831

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221013

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221221

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221228

R150 Certificate of patent or registration of utility model

Ref document number: 7204431

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D04