JP6498095B2 - 単語埋込学習装置、テキスト評価装置、方法、及びプログラム - Google Patents

単語埋込学習装置、テキスト評価装置、方法、及びプログラム Download PDF

Info

Publication number
JP6498095B2
JP6498095B2 JP2015203908A JP2015203908A JP6498095B2 JP 6498095 B2 JP6498095 B2 JP 6498095B2 JP 2015203908 A JP2015203908 A JP 2015203908A JP 2015203908 A JP2015203908 A JP 2015203908A JP 6498095 B2 JP6498095 B2 JP 6498095B2
Authority
JP
Japan
Prior art keywords
embedding
word
node
text
tree structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015203908A
Other languages
English (en)
Other versions
JP2017076281A (ja
Inventor
ジュン オウ
ジュン オウ
克仁 須藤
克仁 須藤
永田 昌明
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015203908A priority Critical patent/JP6498095B2/ja
Publication of JP2017076281A publication Critical patent/JP2017076281A/ja
Application granted granted Critical
Publication of JP6498095B2 publication Critical patent/JP6498095B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、単語埋込学習装置、テキスト評価装置、方法、及びプログラムに係り、特に、単語埋込を学習するための単語埋込学習装置、テキスト評価装置、方法、及びプログラムに関する。
ベクトル空間モデルは、実数低次元密ベクトル(real-number low dimension dense vector)を用いて単語を表現する。単語の意味および構文情報を含んだ高品質な単語ベクトルを実現できれば、ほとんどすべての自然言語処理タスクは、この強力な単語表現の恩恵を受けることができる。単語表現を学習する現行の方法は、大きく2つの方式に基づいている。一つの方式は、予測(prediction)に基づく方法であり、その初期の代表的な例が、非特許文献1である。非特許文献1は、Word2Vecモデルを提示している。このモデルは、単語の文脈を入力とし、それに応じて、対応する単語を予測する。非特許文献3は、単語予測に対する文の影響を考慮することにより、非特許文献1を拡張したものである。他方の種類の方式は、共起(co-occurrence)に基づく方法であり、非特許文献2により提案されている。非特許文献2は、大局的な共起統計から単語埋込を学習するものである。
Mikolov, Tomas, et al. "Efficient estimation of word representations in vector space." arXiv preprint arXiv:1301.3781 (2013). Pennington, Jeffrey, Richard Socher, and Christopher D. Manning. "Glove: Global vectors for word representation." Proceedings of the Empiricial Methods in Natural Language Processing (EMNLP 2014) 12 (2014): 1532-1543. Le, Quoc V., and Tomas Mikolov. "Distributed representations of sentences and documents." arXiv preprint arXiv:1405.4053 (2014).
本発明では、学習される単語埋込の品質を向上させることができる単語埋込学習装置、方法、及びプログラムを提供することを目的とする。
また、入力テキストを精度よく評価することができるテキスト評価装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る単語埋込学習装置は、複数のテキストの各々について、前記テキストの木構造を作成する木構造作成部と、各単語埋込を含む、前記木構造の各階層の各ノードの埋込、及び各ノードの埋込を予測するためのモデルのモデルパラメータに基づいて、前記複数のテキストの各々に対し、前記木構造作成部によって前記テキストについて作成された前記木構造の各ノードについての、前記ノードの親ノードの埋込及び前記ノードの兄弟ノードの埋込が与えられたときの前記ノードの埋込の確率から計算される、前記テキストの確率が最大化されるように、前記木構造の各階層のノードの埋込、及び前記モデルパラメータを更新する更新部と、予め定められた収束判定条件を満たすまで、前記更新部の更新を繰り返す収束判定部と、を含んで構成されている。
第2の発明に係る単語埋込学習方法は、木構造作成部が、複数のテキストの各々について、前記テキストの木構造を作成し、更新部が、各単語埋込を含む、前記木構造の各階層の各ノードの埋込、及び各ノードの埋込を予測するためのモデルのモデルパラメータに基づいて、前記複数のテキストの各々に対し、前記木構造作成部によって前記テキストについて作成された前記木構造の各ノードについての、前記ノードの親ノードの埋込及び前記ノードの兄弟ノードの埋込が与えられたときの前記ノードの埋込の確率から計算される、前記テキストの確率が最大化されるように、前記木構造の各階層のノードの埋込、及び前記モデルパラメータを更新し、収束判定部が、予め定められた収束判定条件を満たすまで、前記更新部の更新を繰り返す。
第3の発明に係るテキスト評価装置は、入力テキストを単語ベクトルに変換する単語ベクトル変換部と、第1の発明に係る単語埋込学習装置によって学習された各単語埋込から、前記単語ベクトル変換部によって変換された前記単語ベクトルに最も類似する単語埋込を有する単語を検索する検索部と、前記検索部によって検索された前記単語を、前記入力テキストに対する評価結果として出力する出力部と、を含んで構成されている。
第4の発明に係る評価方法は、単語ベクトル変換部が、入力テキストを単語ベクトルに変換し、検索部が、第2の発明に係る単語埋込学習方法によって学習された各単語埋込から、前記単語ベクトル変換部によって変換された前記単語ベクトルに最も類似する単語埋込を有する単語を検索し、出力部が、前記検索部によって検索された前記単語を、前記入力テキストに対する評価結果として出力する。
また、第5の発明のプログラムは、コンピュータを、上記の単語埋込学習装置、及びテキスト評価装置を構成する各部として機能させるためのプログラムである。
以上説明したように、本発明の単語埋込学習装置、方法、及びプログラムによれば、複数のテキストの各々に対し、木構造の各ノードについての、親ノードの埋込及び兄弟ノードの埋込が与えられたときのノードの埋込の確率から計算される、テキストの確率が最大化されるように、木構造の各階層のノードの埋込、及びモデルパラメータを更新することを繰り返すことにより、学習される単語埋込の品質を向上させることができる。
また、本発明のテキスト評価装置、方法、及びプログラムによれば、入力テキストを単語ベクトルに変換し、学習された各単語埋込から、単語ベクトルに最も類似する単語埋込を有する単語を検索することにより、入力テキストを精度よく評価することができる。
本発明の実施の形態に係る単語埋込学習装置の機能的構成を示すブロック図である。 本発明の実施の形態に係るテキスト評価装置の機能的構成を示すブロック図である。 本発明の実施の形態に係る単語埋込学習装置における単語埋込学習処理ルーチンを示すフローチャート図である。 本発明の実施の形態に係るテキスト評価装置におけるテキスト評価処理ルーチンを示すフローチャート図である。 実験結果を示す図である。 実験結果を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態の概要>
本実施の形態は、単語埋込(word embedding)の品質向上を目的とする。本発明者らは、異なるレベルのテキスト単位の関係をモデル化するために、階層的ニューラルネットワークモデル(hierarchical neural network model)を開発した。本モデルにより、学習済の単語埋込の中にテキスト単位間の相互作用を符号化できるようになる。
<課題の設定>
文書Dは、段落列D = {P1, P2,…, PND}から成り、段落Pは、文列P = {S1, S2, …SNP}から成り、文Sは、単語列S = {w1, w2,…, wNS}からなる。ここで、ND、NPおよびNSは、それぞれ、文書、段落、文における対応する子の数(文書の段落数、段落の文数、文の単語数)を示す。各レベルのテキスト単位D、P、S、wは、K次元の埋込eD、eP、eSおよびewと関連付けられている。したがって、あらゆるテキスト単位は、L=4レベルの木構造階層で編成されている。ηを、木構造内の任意のノードとする。ここで、ηはこの木の任意のノードでありうる、すなわち、埋込eηを有する文書、段落、文または単語でありうる。parent(η)、sibling(η)およびkid(η)は、それぞれ、ηの親ノード、兄弟ノード、および子ノードを示す。
<本実施の形態の最適条件>
本モデルは、テキストの階層構造を利用している。テキストは、ボトムアップ式に、単語、文、段落および文書からなる4階層の木構造で表現される。
水平方向には、木構造の各レベルにおいて、マルコフ特性を仮定する。また、垂直方向には、子の埋込は、親ノードの影響を受ける。
本モデルは、木構造に沿って親(parent)と兄弟(sibling)が与えられたときに、以下の(1)式に従って、全てのノードηの埋込を順番に予測することにより、標準的な埋込学習フレームワークを拡張している。
このようにして、文書全体の確率は、次のように与えられる。
ここに示すように、同一文中にない2単語であっても、一方の単語を含む文の埋込、段落の埋込および文書の埋込へと影響が伝播し、さらに逆向きに階層を下ることによって他方の単語へと影響が伝播するというように遠隔的に相互作用する。したがって、本実施の形態のモデルは、大局的なレベルの統計をある程度考慮しながら、ニューラルネットにより局所的な言語モデルを構成することの利点をも享受することができる。
さらに、木構造の異なるレベルに沿ったマルコフ特性に基づき、段落列や文列など高いレベルの隣接するテキスト単位の意味が相互作用しながら、各レベルにおける意味の整合性が保たれるので、より低いレベルの意味がより良い表現がなることがありうる。このような利点は、単語レベルの予測へとさらに伝播し、単語レベルの埋込の改善につながる。
説明のため、g()が、兄弟の埋込と親の埋込との連結(concatenation)の形態を取ることとし、f(×)が、文/段落レベルでのシグモイド関数の形態、および単語レベルでのソフトマックス(softmax)を取ることとする。Pを、文Siを含む段落とし、Sを、単語wiを含む文とする。
ここでσ(×)は、シグモイド関数を示す。なお、上記(3)式の上段が、文/段落レベルの埋め込みの予測に使用するシグモイド関数を表し、上記(3)式の下段が、単語レベルの埋め込みの予測に使用するソフトマックス関数を表している。
パラメータΘおよび各埋込は、以下の(4)式に示すように、最尤推定法(Maximum Likelihood Estimation, MLE)により推定される。本実施の形態では、最尤推定に確率的勾配降下法(Stochastic Gradient Descent, SGD)を使用し、勾配は誤差逆伝播法(back propagation)により求められる。
なお、パラメータΘおよび各単語埋込は、複数の学習用のテキストから構成される訓練コーパスから推定される。推定された単語埋込は、下流側の応用のための素性として利用される。
f(×)としては、以下の3つの形態の演算関数を使用することができる。
1つ目の形態は、以下の(5)式で表わされるSkip-gramモデルの演算関数である。
また、2つ目の形態は、以下の(6)式で表わされるCBOWモデルの演算関数である。この演算関数のg( )では、まず親および兄弟の埋込の平均をとり、現在のノードの埋込との内積をとっている。
また、3つ目の形態は、以下の(7)式で表わされる連結(concatenation)モデルの演算関数である。この演算関数のg( )では、まず親および兄弟の埋込を連結し、次に連結されたベクトルを現在のノードの埋込と同じ次元になるように投射することで、順序情報を得ている。なお、3つ目の形態では、f( )は、上記(6)式と共通である。
ここで、[×]は、含まれるベクトルの連結を示し、Wは、(1 + N) ´ K次元の畳み込み行列を示す。Wは、パラメータΘおよび単語埋込と同様に最尤推定法により求める。連結モデルではdropout を0.5とした。すなわち、各繰り返しステップにおいてWの要素の50%をランダムに選択し、0にする。
上記(5)式〜(7)式を用いる場合には、モデルパラメータΘは、シグモイド関数の閾値(threshold)と傾き(slopeまたはgain)を含む。
<本発明の実施の形態に係る単語埋込学習装置の構成>
次に、本発明の実施の形態に係る単語埋込学習装置の構成について説明する。図1に示すように、本発明の実施の形態に係る単語埋込学習装置100は、CPUと、RAMと、後述する単語埋込学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この単語埋込学習装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部90とを備えている。
入力部10は、学習用のテキストを複数受け付け、複数のテキストをテキスト22に記憶する。
演算部20は、テキスト22と、木構造作成部24と、テキスト木構造26と、事前学習された単語埋込28と、初期化テキスト埋込30と、初期化モデル32と、確率計算部34と、収束判定部36と、更新部38と、単語埋込40と、テキスト埋込42、更新モデル44と、を含んで構成されている。
テキスト22には、入力部10において受け付けた複数の学習用のテキストが記憶されている。
木構造作成部24は、複数の学習用のテキストの各々について、段落分割、文分割、及び単語分割を行って、当該学習用のテキストの各々についてテキスト(文書)・段落・文・単語から構成される階層的な文書構造を表す木構造を作成し、テキスト木構造26に格納する。
事前学習された単語埋込28には、予め学習された各単語の単語埋込が記憶されている。
初期化テキスト埋込30には、木構造作成部24によって作成された各木構造の各階層のノードに応じてランダムに初期化された、テキストの埋込、段落の埋込、文の埋込が記憶されている。
初期化モデル32には、初期化されたモデルとして、モデルパラメータΘの初期値が格納されている。なお、初期値として、ランダムに設定された値を用いればよい。
確率計算部34は、テキスト木構造26、単語埋込40、テキスト埋込42、及び更新モデル44に基づいて、上記(2)式と、上記(5)式〜(7)式の何れかに従って、複数の学習用のテキストの確率を計算する。
収束判定部36は、確率計算部34によって計算された確率に基づいて、予め定められた収束判定条件を満たすか否かを判定し、収束判定条件を満たさないと判定した場合には、更新部38及び確率計算部34の繰り返し処理を継続し、一方、収束判定条件を満たすと判定した場合には、繰り返し処理を終了し、出力部90により、単語埋込40、テキスト埋込42、及び更新モデル44の内容を出力する。
更新部38は、上記(4)式に従って、複数の学習用のテキストの確率を最大化するように、誤差逆伝播法(back propagation)により、パラメータΘおよび各埋込の勾配を計算し、パラメータΘおよび各埋込を更新し、単語埋込40、テキスト埋込42、及び更新モデル44に格納する。
<本発明の実施の形態に係るテキスト評価装置の構成>
次に、本発明の実施の形態に係るテキスト評価装置の構成について説明する。図2に示すように、本発明の実施の形態に係るテキスト評価装置200は、CPUと、RAMと、後述するテキスト評価処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このテキスト評価装置200は、機能的には図2に示すように入力部210と、演算部220と、出力部290とを備えている。
入力部210は、評価対象のテキストを受け付ける。例えば、「aに対するbは、cに対する何か」というような質問を表すテキストを受け付ける。質問の種類には、「北京に対する中国は、ロンドンに対する何か」(首都)というような意味的なものや、「ダンスをする、に対する、ダンスをしている、は、飛ぶ、に対する何か」(時制)というような構文的のものが含まれる。
演算部220は、単語ベクトル変換部222と、検索部224と、単語埋込226と、を含んで構成されている。
単語ベクトル変換部222は、入力部210において受け付けたテキストを、単語ベクトルに変換する。例えば、テキストが質問「aに対するbは、cに対する何か」である場合には、Eb−Ea+Ecを算出することにより、単語ベクトルに変換する。ただし、Eは、単語埋込226から得られる各単語の単語埋込を示す。
単語埋込226には、単語埋込学習装置100によって学習された単語埋込40と同じ、各単語の単語埋込が記憶されている。
検索部224は、単語埋込226から、単語ベクトル変換部222によって変換された単語ベクトルに単語埋込が最も近い単語dを検索する。例えば、余弦類似度に基づく最も近い表現の単語dを検索する。
検索された単語dが、出力部290により出力される。
<本発明の実施の形態に係る単語埋込学習装置の作用>
次に、本発明の実施の形態に係る単語埋込学習装置100の作用について説明する。入力部10において、複数の学習用のテキストを受け付けると、複数の学習用のテキストをテキスト22に記憶し、単語埋込学習装置100は、図3に示す単語埋込学習処理ルーチンを実行する。
まず、ステップS100では、テキスト22に記憶されている複数の学習用のテキストの各々について、段落分割、文分割、及び単語分割を行って、当該テキストの階層的な文書構造を表す木構造を作成する。
次に、ステップS102では、事前学習された単語埋込28に記憶されている各単語の単語埋込を読み込む。
そして、ステップS104では、モデルパラメータΘの初期値をランダムに設定し、初期化モデル32及び更新モデル44に格納する。また、複数の学習用のテキストの各々について、当該テキストを表す木構造の各階層のノードに応じた、テキストの単語埋込、段落の単語埋込、文の単語埋込の初期値をランダムに設定し、初期化テキスト埋込30及びテキスト埋込42に格納する。
そして、ステップS106では、複数の学習用のテキストの各々について、単語埋込40、テキスト埋込42、及び更新モデル44に基づいて、上記(2)式と、上記(5)式〜(7)式の何れかに従って、当該テキストの確率を計算する。
次のステップS108では、上記ステップS106で計算された確率に基づいて、予め定められた収束判定条件を満たしたか否かを判定し、収束判定条件を満たしていないと判定された場合には、ステップS110へ移行する。一方、収束判定条件を満たしたと判定された場合には、ステップS112へ移行する。
ステップS110では、上記(4)式に従って、複数の学習用のテキストの確率を最大化するように、誤差逆伝播法(back propagation)により、パラメータΘおよび各埋込の勾配を計算し、パラメータΘおよび各埋込を更新し、単語埋込40、テキスト埋込42、及び更新モデル44に格納し、上記ステップS106へ戻る。
ステップS112では、単語埋込40、テキスト埋込42、及び更新モデル44の現時点の内容を出力部90により出力して、単語埋込学習処理ルーチンを終了する。
<本発明の実施の形態に係るテキスト評価装置の作用>
次に、本発明の実施の形態に係るテキスト評価装置200の作用について説明する。単語埋込学習装置100によって学習された単語埋込が、テキスト評価装置200の単語埋込226に格納される。また、入力部210において評価対象のテキストを受け付けると、テキスト評価装置200は、図4に示すテキスト評価処理ルーチンを実行する。
まず、ステップS120では、単語埋込226に記憶されている各単語の単語埋込を読み込む。
次に、ステップS122では、上記ステップS120で読み込んだ各単語の単語埋込に基づいて、入力部210により受け付けたテキストを、単語ベクトルに変換する。
そして、ステップS124では、上記ステップS120で読み込んだ各単語の単語埋込から、上記ステップS122において変換された単語ベクトルに最も近い単語埋込を有する単語を検索する。
ステップS126では、上記ステップS124の検索結果を出力部290により出力して、テキスト評価処理ルーチンを終了する。
<実施例>
<単語類似度評価>
まず、単語埋込を標準的な単語類似度尺度に関して評価し、テキスト階層に注目することによりこれらの評価尺度を改善可能かどうか調べる。本モデルは、ウィキペディア(R)2014データセットを用いて訓練する。単語予測に、階層的ソフトマックス関数を用いる。ウィンドウサイズは11に設定する。
Tofel-353、MC、RG、SCWSおよびRWを含む標準的オントロジー評価尺度を用いる。各データセットには、単語対とそれらの間の類似度スコア(similarity score)が正解として人手で付与されている。例えば、「本、紙、7.46」は、(本、紙)間の類似度スコアが7.46であることを示す。標準的には、単語埋込間の類似度スコアは、余弦類似度(consine similarity)を用いて算出される。そして、このスコアと人間の判断との間のスピアマン順位相関係数を求める。
本実施の形態の比較対象となる、テキスト単位の階層構造を考慮しない単語埋込のベースラインとしては、Skip-Gram(非特許文献1)、CBOW(非特許文献1)、連結(concatenation)、Glove(非特許文献2)を用いる。テキスト単位の階層構造を考慮する単語埋込の学習方法としておよびParaVector(非特許文献3)に記載されている段落ベクトル(paragraph vector)の学習法を用いる。そして本実施の形態によるテキスト単位の階層性を考慮する単語埋込の学習法を同時学習(joint learning)と呼ぶ。図5に、実験結果を示す。テキスト単位の階層構造を考慮しないベースラインの単語埋込に対して、階層構造を考慮する学習法の違いを「+段落ベクトル」と「+同時学習」で表す。
ベクトルの次元は300に設定した。実験結果はいずれも、同じウィキペディア(R)2014データセットにより訓練した埋込に基づく。各サブセットに関して、「+段落ベクトル」および「+同時学習」は、先頭のモデルと同じf(・)およびg(・)を用いる。
上記図5に示すように、テキスト単位の階層構造を考慮する同時学習を適用することにより、性能の向上が実現可能となることがわかった。
<単語類推タスク>
単語類推評価は、「aに対するbは、cに対する何か」というような問題を解くことを目的としている。問題の種類には、「北京に対する中国は、ロンドンに対する何か」(首都)というような意味的なものや、「ダンスをする、に対する、ダンスをしている、は、飛ぶ、に対する何か」(時制)というような構文的のものが含まれる。データセットには、8,869個の意味的問題と、10,675個の構文的問題が含まれる。「aに対するbは、cに対する何か」という問題を解くことは、Eb−Ea+Ecを算出することによる単純な計算を行うことである。ここで、Eは、現在の単語埋込を示し、余弦類似度に基づく最も近い表現の単語dを求める。
図6に、様々なモデルについての性能を示す。モデルは、同一のウィキペディア(R)2014コーパスにより訓練したものである。Skip-GramおよびCBOWは、Word2Vec(非特許文献1)にて訓練した。
単語類似度評価の場合と同様に、テキストの階層構造を考慮する同時学習を適用することにより、よりよい性能が観測されている。単語埋込に関して、本実施の形態のモデルは、テキストの階層構造を考慮しない従来のモデルよりも性能がよい。従来のモデルと比較すると、本モデルは局所的情報と大局的域情報の両方を考慮した単語埋込を生成できることがわかった。
以上説明したように、本発明の実施の形態に係る単語埋込学習装置によれば、複数の学習用のテキストの各々に対し、木構造の各ノードについての、親ノードの埋込及び兄弟ノードの埋込が与えられたときのノードの埋込の確率から計算される、テキストの確率が最大化されるように、木構造の各階層のノードの埋込、及びモデルパラメータを更新することを繰り返すことにより、学習される単語埋込の品質を向上させることができる。
また、広く利用されているデータセットについての実験により、本実施の形態のモデルが、学習される単語表現の品質を向上させることが明らかになった。
また、本発明の実施の形態に係るテキスト評価装置によれば、入力テキストを単語ベクトルに変換し、単語埋込学習装置によって学習された各単語埋込から、単語ベクトルに最も類似する単語埋込を有する単語を検索することにより、入力テキストを精度よく評価することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、単語埋込学習装置とテキスト評価装置とを1つの装置で構成するようにしてもよい。
また、テキスト評価装置において、学習されたテキストの埋込、段落の埋込、文の埋込から、入力テキストを変換した単語ベクトルに最も類似するものを検索して、評価結果としてもよい。例えば、文や段落に関する類似度や類推を利用するタスクを行ってもよい。情報検索などの用途で、文書、段落、文に類似するものを検索するようにしてもよい。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。
10、210 入力部
20、220 演算部
22 テキスト
24 木構造作成部
26 テキスト木構造
28、226 単語埋込
30 初期化テキスト埋込
32 初期化モデル
34 確率計算部
36 収束判定部
38 更新部
40 単語埋込
42 テキスト埋込
44 更新モデル
90、290 出力部
100 単語埋込学習装置
200 テキスト評価装置
222 単語ベクトル変換部
224 検索部

Claims (7)

  1. 複数のテキストの各々について、前記テキストの木構造を作成する木構造作成部と、
    各単語埋込を含む、前記木構造の各階層の各ノードの埋込、及び各ノードの埋込を予測するためのモデルのモデルパラメータに基づいて、前記複数のテキストの各々に対し、前記木構造作成部によって前記テキストについて作成された前記木構造の各ノードについての、前記ノードの親ノードの埋込及び前記ノードの兄弟ノードの埋込が与えられたときの前記ノードの埋込の確率から計算される、前記テキストの確率が最大化されるように、前記木構造の各階層のノードの埋込、及び前記モデルパラメータを更新する更新部と、
    予め定められた収束判定条件を満たすまで、前記更新部の更新を繰り返す収束判定部と、
    を含む単語埋込学習装置。
  2. 前記テキストの前記木構造の各階層のノードの埋込は、前記テキストに対応するノードの埋込、各段落に対応するノードの埋込、各文に対応するノードの埋込、及び各単語埋込を含む請求項1記載の単語埋込学習装置。
  3. 請求項1又は2記載の単語埋込学習装置と、
    入力テキストを単語ベクトルに変換する単語ベクトル変換部と、
    前記単語埋込学習装置によって学習された各単語埋込から、前記単語ベクトル変換部によって変換された前記単語ベクトルに最も類似する単語埋込を有する単語を検索する検索部と、
    前記検索部によって検索された前記単語を、前記入力テキストに対する評価結果として出力する出力部と、
    を含むテキスト評価装置。
  4. 木構造作成部が、複数のテキストの各々について、前記テキストの木構造を作成し、
    更新部が、各単語埋込を含む、前記木構造の各階層の各ノードの埋込、及び各ノードの埋込を予測するためのモデルのモデルパラメータに基づいて、前記複数のテキストの各々に対し、前記木構造作成部によって前記テキストについて作成された前記木構造の各ノードについての、前記ノードの親ノードの埋込及び前記ノードの兄弟ノードの埋込が与えられたときの前記ノードの埋込の確率から計算される、前記テキストの確率が最大化されるように、前記木構造の各階層のノードの埋込、及び前記モデルパラメータを更新し、
    収束判定部が、予め定められた収束判定条件を満たすまで、前記更新部の更新を繰り返す
    単語埋込学習方法。
  5. 前記テキストの前記木構造の各階層のノードの埋込は、前記テキストに対応するノードの埋込、各段落に対応するノードの埋込、各文に対応するノードの埋込、及び各単語埋込を含む請求項4記載の単語埋込学習方法。
  6. 請求項4又は5記載の単語埋込学習方法によって各単語埋込を学習し、
    単語ベクトル変換部が、入力テキストを単語ベクトルに変換し、
    検索部が、前記学習された各単語埋込から、前記単語ベクトル変換部によって変換された前記単語ベクトルに最も類似する単語埋込を有する単語を検索し、
    出力部が、前記検索部によって検索された前記単語を、前記入力テキストに対する評価結果として出力する
    テキスト評価方法。
  7. コンピュータを、請求項1又は2記載の単語埋込学習装置、又は請求項3記載のテキスト評価装置の各部として機能させるためのプログラム。
JP2015203908A 2015-10-15 2015-10-15 単語埋込学習装置、テキスト評価装置、方法、及びプログラム Active JP6498095B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015203908A JP6498095B2 (ja) 2015-10-15 2015-10-15 単語埋込学習装置、テキスト評価装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015203908A JP6498095B2 (ja) 2015-10-15 2015-10-15 単語埋込学習装置、テキスト評価装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017076281A JP2017076281A (ja) 2017-04-20
JP6498095B2 true JP6498095B2 (ja) 2019-04-10

Family

ID=58551371

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015203908A Active JP6498095B2 (ja) 2015-10-15 2015-10-15 単語埋込学習装置、テキスト評価装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6498095B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273352B (zh) * 2017-06-07 2020-07-14 北京理工大学 一种基于Zolu函数的词嵌入学习模型及训练方法
JP6918030B2 (ja) 2019-01-11 2021-08-11 株式会社東芝 学習装置、学習方法、プログラムおよび情報処理システム
JP7148077B2 (ja) * 2019-02-28 2022-10-05 日本電信電話株式会社 木構造解析装置、方法、及びプログラム
CN110322150B (zh) * 2019-07-04 2023-04-18 优估(上海)信息科技有限公司 一种信息审核方法、装置及服务器
CN111309854B (zh) * 2019-11-20 2023-05-26 武汉烽火信息集成技术有限公司 一种基于文章结构树的文章评价方法及系统
CN111259663B (zh) * 2020-01-14 2023-05-26 北京百度网讯科技有限公司 信息处理方法和装置
JP7472587B2 (ja) * 2020-03-26 2024-04-23 富士通株式会社 エンコーディングプログラム、情報処理装置およびエンコーディング方法
CN115017158A (zh) * 2022-05-31 2022-09-06 武汉联影医疗科技有限公司 节点信息查询方法
CN115934752B (zh) * 2022-12-09 2023-07-14 北京中科闻歌科技股份有限公司 一种构建检索模型的方法、电子设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4360122B2 (ja) * 2003-05-26 2009-11-11 富士ゼロックス株式会社 キーワード抽出装置
JP4325938B2 (ja) * 2004-10-15 2009-09-02 日本電信電話株式会社 単語配置装置、単語配置方法およびプログラム
US8977537B2 (en) * 2011-06-24 2015-03-10 Microsoft Technology Licensing, Llc Hierarchical models for language modeling
JP6144133B2 (ja) * 2013-07-08 2017-06-07 久美子 石井 検索システム

Also Published As

Publication number Publication date
JP2017076281A (ja) 2017-04-20

Similar Documents

Publication Publication Date Title
JP6498095B2 (ja) 単語埋込学習装置、テキスト評価装置、方法、及びプログラム
Li et al. Imbalanced text sentiment classification using universal and domain-specific knowledge
CN109992629B (zh) 一种融合实体类型约束的神经网络关系抽取方法及系统
CN106502985B (zh) 一种用于生成标题的神经网络建模方法及装置
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
WO2020062770A1 (zh) 一种领域词典的构建方法、装置、设备及存储介质
WO2018131259A1 (ja) 文章評価装置、及び文章評価方法
Bansal et al. Structured learning for taxonomy induction with belief propagation
US20170351663A1 (en) Iterative alternating neural attention for machine reading
US20140236577A1 (en) Semantic Representations of Rare Words in a Neural Probabilistic Language Model
JP6291443B2 (ja) 接続関係推定装置、方法、及びプログラム
JP6946842B2 (ja) モデル学習装置、変換装置、方法、及びプログラム
JP6738769B2 (ja) 文ペア分類装置、文ペア分類学習装置、方法、及びプログラム
JP6312467B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN110245349B (zh) 一种句法依存分析方法、装置及一种电子设备
CN111488742B (zh) 用于翻译的方法和装置
CN114841140A (zh) 依存分析模型及基于依存分析的中文联合事件抽取方法
WO2014020834A1 (ja) 単語潜在トピック推定装置および単語潜在トピック推定方法
JP2017010249A (ja) パラメタ学習装置、文類似度算出装置、方法、及びプログラム
JP2016224483A (ja) モデル学習装置、方法、及びプログラム
JP7452623B2 (ja) 学習装置、情報処理装置、学習方法、情報処理方法及びプログラム
CN110633363B (zh) 一种基于nlp和模糊多准则决策的文本实体推荐方法
JP2016133956A (ja) 形態素解析モデル生成装置、形態素解析モデル生成方法、及び、プログラム
JP2016197289A (ja) パラメタ学習装置、類似度算出装置、方法、及びプログラム
US20210279579A1 (en) Conversion apparatus, learning apparatus, conversion method, learning method and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181120

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190312

R150 Certificate of patent or registration of utility model

Ref document number: 6498095

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150