JP6498095B2

JP6498095B2 - 単語埋込学習装置、テキスト評価装置、方法、及びプログラム

Info

Publication number: JP6498095B2
Application number: JP2015203908A
Authority: JP
Inventors: ジュンオウ; 克仁須藤; 永田　昌明; 昌明永田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-10-15
Filing date: 2015-10-15
Publication date: 2019-04-10
Anticipated expiration: 2035-10-15
Also published as: JP2017076281A

Description

本発明は、単語埋込学習装置、テキスト評価装置、方法、及びプログラムに係り、特に、単語埋込を学習するための単語埋込学習装置、テキスト評価装置、方法、及びプログラムに関する。

ベクトル空間モデルは、実数低次元密ベクトル(real-number low dimension dense vector)を用いて単語を表現する。単語の意味および構文情報を含んだ高品質な単語ベクトルを実現できれば、ほとんどすべての自然言語処理タスクは、この強力な単語表現の恩恵を受けることができる。単語表現を学習する現行の方法は、大きく2つの方式に基づいている。一つの方式は、予測(prediction)に基づく方法であり、その初期の代表的な例が、非特許文献1である。非特許文献1は、Word2Vecモデルを提示している。このモデルは、単語の文脈を入力とし、それに応じて、対応する単語を予測する。非特許文献3は、単語予測に対する文の影響を考慮することにより、非特許文献1を拡張したものである。他方の種類の方式は、共起(co-occurrence)に基づく方法であり、非特許文献2により提案されている。非特許文献2は、大局的な共起統計から単語埋込を学習するものである。

Mikolov, Tomas, et al. "Efficient estimation of word representations in vector space." arXiv preprint arXiv:1301.3781 (2013). Pennington, Jeffrey, Richard Socher, and Christopher D. Manning. "Glove: Global vectors for word representation." Proceedings of the Empiricial Methods in Natural Language Processing (EMNLP 2014) 12 (2014): 1532-1543. Le, Quoc V., and Tomas Mikolov. "Distributed representations of sentences and documents." arXiv preprint arXiv:1405.4053 (2014).

本発明では、学習される単語埋込の品質を向上させることができる単語埋込学習装置、方法、及びプログラムを提供することを目的とする。

また、入力テキストを精度よく評価することができるテキスト評価装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係る単語埋込学習装置は、複数のテキストの各々について、前記テキストの木構造を作成する木構造作成部と、各単語埋込を含む、前記木構造の各階層の各ノードの埋込、及び各ノードの埋込を予測するためのモデルのモデルパラメータに基づいて、前記複数のテキストの各々に対し、前記木構造作成部によって前記テキストについて作成された前記木構造の各ノードについての、前記ノードの親ノードの埋込及び前記ノードの兄弟ノードの埋込が与えられたときの前記ノードの埋込の確率から計算される、前記テキストの確率が最大化されるように、前記木構造の各階層のノードの埋込、及び前記モデルパラメータを更新する更新部と、予め定められた収束判定条件を満たすまで、前記更新部の更新を繰り返す収束判定部と、を含んで構成されている。

第２の発明に係る単語埋込学習方法は、木構造作成部が、複数のテキストの各々について、前記テキストの木構造を作成し、更新部が、各単語埋込を含む、前記木構造の各階層の各ノードの埋込、及び各ノードの埋込を予測するためのモデルのモデルパラメータに基づいて、前記複数のテキストの各々に対し、前記木構造作成部によって前記テキストについて作成された前記木構造の各ノードについての、前記ノードの親ノードの埋込及び前記ノードの兄弟ノードの埋込が与えられたときの前記ノードの埋込の確率から計算される、前記テキストの確率が最大化されるように、前記木構造の各階層のノードの埋込、及び前記モデルパラメータを更新し、収束判定部が、予め定められた収束判定条件を満たすまで、前記更新部の更新を繰り返す。

第３の発明に係るテキスト評価装置は、入力テキストを単語ベクトルに変換する単語ベクトル変換部と、第１の発明に係る単語埋込学習装置によって学習された各単語埋込から、前記単語ベクトル変換部によって変換された前記単語ベクトルに最も類似する単語埋込を有する単語を検索する検索部と、前記検索部によって検索された前記単語を、前記入力テキストに対する評価結果として出力する出力部と、を含んで構成されている。

第４の発明に係る評価方法は、単語ベクトル変換部が、入力テキストを単語ベクトルに変換し、検索部が、第２の発明に係る単語埋込学習方法によって学習された各単語埋込から、前記単語ベクトル変換部によって変換された前記単語ベクトルに最も類似する単語埋込を有する単語を検索し、出力部が、前記検索部によって検索された前記単語を、前記入力テキストに対する評価結果として出力する。

また、第５の発明のプログラムは、コンピュータを、上記の単語埋込学習装置、及びテキスト評価装置を構成する各部として機能させるためのプログラムである。

以上説明したように、本発明の単語埋込学習装置、方法、及びプログラムによれば、複数のテキストの各々に対し、木構造の各ノードについての、親ノードの埋込及び兄弟ノードの埋込が与えられたときのノードの埋込の確率から計算される、テキストの確率が最大化されるように、木構造の各階層のノードの埋込、及びモデルパラメータを更新することを繰り返すことにより、学習される単語埋込の品質を向上させることができる。

また、本発明のテキスト評価装置、方法、及びプログラムによれば、入力テキストを単語ベクトルに変換し、学習された各単語埋込から、単語ベクトルに最も類似する単語埋込を有する単語を検索することにより、入力テキストを精度よく評価することができる。

本発明の実施の形態に係る単語埋込学習装置の機能的構成を示すブロック図である。本発明の実施の形態に係るテキスト評価装置の機能的構成を示すブロック図である。本発明の実施の形態に係る単語埋込学習装置における単語埋込学習処理ルーチンを示すフローチャート図である。本発明の実施の形態に係るテキスト評価装置におけるテキスト評価処理ルーチンを示すフローチャート図である。実験結果を示す図である。実験結果を示す図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態の概要＞
本実施の形態は、単語埋込(word embedding)の品質向上を目的とする。本発明者らは、異なるレベルのテキスト単位の関係をモデル化するために、階層的ニューラルネットワークモデル(hierarchical neural network model)を開発した。本モデルにより、学習済の単語埋込の中にテキスト単位間の相互作用を符号化できるようになる。

＜課題の設定＞
文書Dは、段落列D = {P₁, P₂,…, P_ND}から成り、段落Pは、文列P = {S₁, S₂, …S_NP}から成り、文Sは、単語列S = {w1, w2,…, w_NS}からなる。ここで、N_D、N_PおよびN_Sは、それぞれ、文書、段落、文における対応する子の数(文書の段落数、段落の文数、文の単語数)を示す。各レベルのテキスト単位D、P、S、wは、K次元の埋込e_D、e_P、e_Sおよびe_wと関連付けられている。したがって、あらゆるテキスト単位は、Ｌ＝４レベルの木構造階層で編成されている。ηを、木構造内の任意のノードとする。ここで、ηはこの木の任意のノードでありうる、すなわち、埋込e_ηを有する文書、段落、文または単語でありうる。parent(η)、sibling(η)およびkid(η)は、それぞれ、ηの親ノード、兄弟ノード、および子ノードを示す。

＜本実施の形態の最適条件＞
本モデルは、テキストの階層構造を利用している。テキストは、ボトムアップ式に、単語、文、段落および文書からなる4階層の木構造で表現される。

水平方向には、木構造の各レベルにおいて、マルコフ特性を仮定する。また、垂直方向には、子の埋込は、親ノードの影響を受ける。

本モデルは、木構造に沿って親（parent）と兄弟（sibling）が与えられたときに、以下の（１）式に従って、全てのノードηの埋込を順番に予測することにより、標準的な埋込学習フレームワークを拡張している。

このようにして、文書全体の確率は、次のように与えられる。

ここに示すように、同一文中にない2単語であっても、一方の単語を含む文の埋込、段落の埋込および文書の埋込へと影響が伝播し、さらに逆向きに階層を下ることによって他方の単語へと影響が伝播するというように遠隔的に相互作用する。したがって、本実施の形態のモデルは、大局的なレベルの統計をある程度考慮しながら、ニューラルネットにより局所的な言語モデルを構成することの利点をも享受することができる。

さらに、木構造の異なるレベルに沿ったマルコフ特性に基づき、段落列や文列など高いレベルの隣接するテキスト単位の意味が相互作用しながら、各レベルにおける意味の整合性が保たれるので、より低いレベルの意味がより良い表現がなることがありうる。このような利点は、単語レベルの予測へとさらに伝播し、単語レベルの埋込の改善につながる。

説明のため、g()が、兄弟の埋込と親の埋込との連結(concatenation)の形態を取ることとし、f(×)が、文／段落レベルでのシグモイド関数の形態、および単語レベルでのソフトマックス（softmax）を取ることとする。Pを、文S_iを含む段落とし、Sを、単語w_iを含む文とする。

ここでσ(×)は、シグモイド関数を示す。なお、上記（３）式の上段が、文/段落レベルの埋め込みの予測に使用するシグモイド関数を表し、上記（３）式の下段が、単語レベルの埋め込みの予測に使用するソフトマックス関数を表している。

パラメータΘおよび各埋込は、以下の（４）式に示すように、最尤推定法(Maximum Likelihood Estimation, MLE)により推定される。本実施の形態では、最尤推定に確率的勾配降下法(Stochastic Gradient Descent, SGD)を使用し、勾配は誤差逆伝播法(back propagation)により求められる。

なお、パラメータΘおよび各単語埋込は、複数の学習用のテキストから構成される訓練コーパスから推定される。推定された単語埋込は、下流側の応用のための素性として利用される。

f(×)としては、以下の３つの形態の演算関数を使用することができる。

１つ目の形態は、以下の（５）式で表わされるSkip-gramモデルの演算関数である。

また、２つ目の形態は、以下の（６）式で表わされるCBOWモデルの演算関数である。この演算関数のg( )では、まず親および兄弟の埋込の平均をとり、現在のノードの埋込との内積をとっている。

また、３つ目の形態は、以下の（７）式で表わされる連結(concatenation)モデルの演算関数である。この演算関数のg( )では、まず親および兄弟の埋込を連結し、次に連結されたベクトルを現在のノードの埋込と同じ次元になるように投射することで、順序情報を得ている。なお、３つ目の形態では、f( )は、上記（６）式と共通である。

ここで、[×]は、含まれるベクトルの連結を示し、Wは、(1 + N) ´ K次元の畳み込み行列を示す。Wは、パラメータΘおよび単語埋込と同様に最尤推定法により求める。連結モデルではdropout を0.5とした。すなわち、各繰り返しステップにおいてWの要素の50%をランダムに選択し、0にする。

上記（５）式〜（７）式を用いる場合には、モデルパラメータΘは、シグモイド関数の閾値(threshold)と傾き(slopeまたはgain)を含む。

＜本発明の実施の形態に係る単語埋込学習装置の構成＞
次に、本発明の実施の形態に係る単語埋込学習装置の構成について説明する。図１に示すように、本発明の実施の形態に係る単語埋込学習装置１００は、ＣＰＵと、ＲＡＭと、後述する単語埋込学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この単語埋込学習装置１００は、機能的には図１に示すように入力部１０と、演算部２０と、出力部９０とを備えている。

入力部１０は、学習用のテキストを複数受け付け、複数のテキストをテキスト２２に記憶する。

演算部２０は、テキスト２２と、木構造作成部２４と、テキスト木構造２６と、事前学習された単語埋込２８と、初期化テキスト埋込３０と、初期化モデル３２と、確率計算部３４と、収束判定部３６と、更新部３８と、単語埋込４０と、テキスト埋込４２、更新モデル４４と、を含んで構成されている。

テキスト２２には、入力部１０において受け付けた複数の学習用のテキストが記憶されている。

木構造作成部２４は、複数の学習用のテキストの各々について、段落分割、文分割、及び単語分割を行って、当該学習用のテキストの各々についてテキスト（文書）・段落・文・単語から構成される階層的な文書構造を表す木構造を作成し、テキスト木構造２６に格納する。

事前学習された単語埋込２８には、予め学習された各単語の単語埋込が記憶されている。

初期化テキスト埋込３０には、木構造作成部２４によって作成された各木構造の各階層のノードに応じてランダムに初期化された、テキストの埋込、段落の埋込、文の埋込が記憶されている。

初期化モデル３２には、初期化されたモデルとして、モデルパラメータΘの初期値が格納されている。なお、初期値として、ランダムに設定された値を用いればよい。

確率計算部３４は、テキスト木構造２６、単語埋込４０、テキスト埋込４２、及び更新モデル４４に基づいて、上記（２）式と、上記（５）式〜（７）式の何れかに従って、複数の学習用のテキストの確率を計算する。

収束判定部３６は、確率計算部３４によって計算された確率に基づいて、予め定められた収束判定条件を満たすか否かを判定し、収束判定条件を満たさないと判定した場合には、更新部３８及び確率計算部３４の繰り返し処理を継続し、一方、収束判定条件を満たすと判定した場合には、繰り返し処理を終了し、出力部９０により、単語埋込４０、テキスト埋込４２、及び更新モデル４４の内容を出力する。

更新部３８は、上記（４）式に従って、複数の学習用のテキストの確率を最大化するように、誤差逆伝播法(back propagation)により、パラメータΘおよび各埋込の勾配を計算し、パラメータΘおよび各埋込を更新し、単語埋込４０、テキスト埋込４２、及び更新モデル４４に格納する。

＜本発明の実施の形態に係るテキスト評価装置の構成＞
次に、本発明の実施の形態に係るテキスト評価装置の構成について説明する。図２に示すように、本発明の実施の形態に係るテキスト評価装置２００は、ＣＰＵと、ＲＡＭと、後述するテキスト評価処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。このテキスト評価装置２００は、機能的には図２に示すように入力部２１０と、演算部２２０と、出力部２９０とを備えている。

入力部２１０は、評価対象のテキストを受け付ける。例えば、「ａに対するｂは、ｃに対する何か」というような質問を表すテキストを受け付ける。質問の種類には、「北京に対する中国は、ロンドンに対する何か」（首都）というような意味的なものや、「ダンスをする、に対する、ダンスをしている、は、飛ぶ、に対する何か」（時制）というような構文的のものが含まれる。

演算部２２０は、単語ベクトル変換部２２２と、検索部２２４と、単語埋込２２６と、を含んで構成されている。

単語ベクトル変換部２２２は、入力部２１０において受け付けたテキストを、単語ベクトルに変換する。例えば、テキストが質問「ａに対するｂは、ｃに対する何か」である場合には、Ｅ_b−Ｅ_a＋Ｅ_cを算出することにより、単語ベクトルに変換する。ただし、Ｅは、単語埋込２２６から得られる各単語の単語埋込を示す。

単語埋込２２６には、単語埋込学習装置１００によって学習された単語埋込４０と同じ、各単語の単語埋込が記憶されている。

検索部２２４は、単語埋込２２６から、単語ベクトル変換部２２２によって変換された単語ベクトルに単語埋込が最も近い単語ｄを検索する。例えば、余弦類似度に基づく最も近い表現の単語dを検索する。

検索された単語ｄが、出力部２９０により出力される。

＜本発明の実施の形態に係る単語埋込学習装置の作用＞
次に、本発明の実施の形態に係る単語埋込学習装置１００の作用について説明する。入力部１０において、複数の学習用のテキストを受け付けると、複数の学習用のテキストをテキスト２２に記憶し、単語埋込学習装置１００は、図３に示す単語埋込学習処理ルーチンを実行する。

まず、ステップＳ１００では、テキスト２２に記憶されている複数の学習用のテキストの各々について、段落分割、文分割、及び単語分割を行って、当該テキストの階層的な文書構造を表す木構造を作成する。

次に、ステップＳ１０２では、事前学習された単語埋込２８に記憶されている各単語の単語埋込を読み込む。

そして、ステップＳ１０４では、モデルパラメータΘの初期値をランダムに設定し、初期化モデル３２及び更新モデル４４に格納する。また、複数の学習用のテキストの各々について、当該テキストを表す木構造の各階層のノードに応じた、テキストの単語埋込、段落の単語埋込、文の単語埋込の初期値をランダムに設定し、初期化テキスト埋込３０及びテキスト埋込４２に格納する。

そして、ステップＳ１０６では、複数の学習用のテキストの各々について、単語埋込４０、テキスト埋込４２、及び更新モデル４４に基づいて、上記（２）式と、上記（５）式〜（７）式の何れかに従って、当該テキストの確率を計算する。

次のステップＳ１０８では、上記ステップＳ１０６で計算された確率に基づいて、予め定められた収束判定条件を満たしたか否かを判定し、収束判定条件を満たしていないと判定された場合には、ステップＳ１１０へ移行する。一方、収束判定条件を満たしたと判定された場合には、ステップＳ１１２へ移行する。

ステップＳ１１０では、上記（４）式に従って、複数の学習用のテキストの確率を最大化するように、誤差逆伝播法(back propagation)により、パラメータΘおよび各埋込の勾配を計算し、パラメータΘおよび各埋込を更新し、単語埋込４０、テキスト埋込４２、及び更新モデル４４に格納し、上記ステップＳ１０６へ戻る。

ステップＳ１１２では、単語埋込４０、テキスト埋込４２、及び更新モデル４４の現時点の内容を出力部９０により出力して、単語埋込学習処理ルーチンを終了する。

＜本発明の実施の形態に係るテキスト評価装置の作用＞
次に、本発明の実施の形態に係るテキスト評価装置２００の作用について説明する。単語埋込学習装置１００によって学習された単語埋込が、テキスト評価装置２００の単語埋込２２６に格納される。また、入力部２１０において評価対象のテキストを受け付けると、テキスト評価装置２００は、図４に示すテキスト評価処理ルーチンを実行する。

まず、ステップＳ１２０では、単語埋込２２６に記憶されている各単語の単語埋込を読み込む。

次に、ステップＳ１２２では、上記ステップＳ１２０で読み込んだ各単語の単語埋込に基づいて、入力部２１０により受け付けたテキストを、単語ベクトルに変換する。

そして、ステップＳ１２４では、上記ステップＳ１２０で読み込んだ各単語の単語埋込から、上記ステップＳ１２２において変換された単語ベクトルに最も近い単語埋込を有する単語を検索する。

ステップＳ１２６では、上記ステップＳ１２４の検索結果を出力部２９０により出力して、テキスト評価処理ルーチンを終了する。

＜実施例＞
＜単語類似度評価＞
まず、単語埋込を標準的な単語類似度尺度に関して評価し、テキスト階層に注目することによりこれらの評価尺度を改善可能かどうか調べる。本モデルは、ウィキペディア（Ｒ）2014データセットを用いて訓練する。単語予測に、階層的ソフトマックス関数を用いる。ウィンドウサイズは11に設定する。

Tofel-353、MC、RG、SCWSおよびRWを含む標準的オントロジー評価尺度を用いる。各データセットには、単語対とそれらの間の類似度スコア(similarity score)が正解として人手で付与されている。例えば、「本、紙、7.46」は、（本、紙）間の類似度スコアが7.46であることを示す。標準的には、単語埋込間の類似度スコアは、余弦類似度(consine similarity)を用いて算出される。そして、このスコアと人間の判断との間のスピアマン順位相関係数を求める。

本実施の形態の比較対象となる、テキスト単位の階層構造を考慮しない単語埋込のベースラインとしては、Skip-Gram（非特許文献1）、CBOW（非特許文献1）、連結(concatenation)、Glove（非特許文献2）を用いる。テキスト単位の階層構造を考慮する単語埋込の学習方法としておよびParaVector（非特許文献3）に記載されている段落ベクトル(paragraph vector)の学習法を用いる。そして本実施の形態によるテキスト単位の階層性を考慮する単語埋込の学習法を同時学習(joint learning)と呼ぶ。図５に、実験結果を示す。テキスト単位の階層構造を考慮しないベースラインの単語埋込に対して、階層構造を考慮する学習法の違いを「+段落ベクトル」と「+同時学習」で表す。

ベクトルの次元は300に設定した。実験結果はいずれも、同じウィキペディア（Ｒ）2014データセットにより訓練した埋込に基づく。各サブセットに関して、「+段落ベクトル」および「+同時学習」は、先頭のモデルと同じf(・)およびg(・)を用いる。

上記図５に示すように、テキスト単位の階層構造を考慮する同時学習を適用することにより、性能の向上が実現可能となることがわかった。

＜単語類推タスク＞
単語類推評価は、「ａに対するｂは、ｃに対する何か」というような問題を解くことを目的としている。問題の種類には、「北京に対する中国は、ロンドンに対する何か」（首都）というような意味的なものや、「ダンスをする、に対する、ダンスをしている、は、飛ぶ、に対する何か」（時制）というような構文的のものが含まれる。データセットには、8,869個の意味的問題と、10,675個の構文的問題が含まれる。「ａに対するｂは、ｃに対する何か」という問題を解くことは、Ｅ_b−Ｅ_a＋Ｅ_cを算出することによる単純な計算を行うことである。ここで、Ｅは、現在の単語埋込を示し、余弦類似度に基づく最も近い表現の単語dを求める。

図６に、様々なモデルについての性能を示す。モデルは、同一のウィキペディア（Ｒ）2014コーパスにより訓練したものである。Skip-GramおよびCBOWは、Word2Vec（非特許文献1）にて訓練した。

単語類似度評価の場合と同様に、テキストの階層構造を考慮する同時学習を適用することにより、よりよい性能が観測されている。単語埋込に関して、本実施の形態のモデルは、テキストの階層構造を考慮しない従来のモデルよりも性能がよい。従来のモデルと比較すると、本モデルは局所的情報と大局的域情報の両方を考慮した単語埋込を生成できることがわかった。

以上説明したように、本発明の実施の形態に係る単語埋込学習装置によれば、複数の学習用のテキストの各々に対し、木構造の各ノードについての、親ノードの埋込及び兄弟ノードの埋込が与えられたときのノードの埋込の確率から計算される、テキストの確率が最大化されるように、木構造の各階層のノードの埋込、及びモデルパラメータを更新することを繰り返すことにより、学習される単語埋込の品質を向上させることができる。

また、広く利用されているデータセットについての実験により、本実施の形態のモデルが、学習される単語表現の品質を向上させることが明らかになった。

また、本発明の実施の形態に係るテキスト評価装置によれば、入力テキストを単語ベクトルに変換し、単語埋込学習装置によって学習された各単語埋込から、単語ベクトルに最も類似する単語埋込を有する単語を検索することにより、入力テキストを精度よく評価することができる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、単語埋込学習装置とテキスト評価装置とを１つの装置で構成するようにしてもよい。

また、テキスト評価装置において、学習されたテキストの埋込、段落の埋込、文の埋込から、入力テキストを変換した単語ベクトルに最も類似するものを検索して、評価結果としてもよい。例えば、文や段落に関する類似度や類推を利用するタスクを行ってもよい。情報検索などの用途で、文書、段落、文に類似するものを検索するようにしてもよい。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。

１０、２１０入力部
２０、２２０演算部
２２テキスト
２４木構造作成部
２６テキスト木構造
２８、２２６単語埋込
３０初期化テキスト埋込
３２初期化モデル
３４確率計算部
３６収束判定部
３８更新部
４０単語埋込
４２テキスト埋込
４４更新モデル
９０、２９０出力部
１００単語埋込学習装置
２００テキスト評価装置
２２２単語ベクトル変換部
２２４検索部

Claims

複数のテキストの各々について、前記テキストの木構造を作成する木構造作成部と、
各単語埋込を含む、前記木構造の各階層の各ノードの埋込、及び各ノードの埋込を予測するためのモデルのモデルパラメータに基づいて、前記複数のテキストの各々に対し、前記木構造作成部によって前記テキストについて作成された前記木構造の各ノードについての、前記ノードの親ノードの埋込及び前記ノードの兄弟ノードの埋込が与えられたときの前記ノードの埋込の確率から計算される、前記テキストの確率が最大化されるように、前記木構造の各階層のノードの埋込、及び前記モデルパラメータを更新する更新部と、
予め定められた収束判定条件を満たすまで、前記更新部の更新を繰り返す収束判定部と、
を含む単語埋込学習装置。
前記テキストの前記木構造の各階層のノードの埋込は、前記テキストに対応するノードの埋込、各段落に対応するノードの埋込、各文に対応するノードの埋込、及び各単語埋込を含む請求項１記載の単語埋込学習装置。
請求項１又は２記載の単語埋込学習装置と、
入力テキストを単語ベクトルに変換する単語ベクトル変換部と、
前記単語埋込学習装置によって学習された各単語埋込から、前記単語ベクトル変換部によって変換された前記単語ベクトルに最も類似する単語埋込を有する単語を検索する検索部と、
前記検索部によって検索された前記単語を、前記入力テキストに対する評価結果として出力する出力部と、
を含むテキスト評価装置。
木構造作成部が、複数のテキストの各々について、前記テキストの木構造を作成し、
更新部が、各単語埋込を含む、前記木構造の各階層の各ノードの埋込、及び各ノードの埋込を予測するためのモデルのモデルパラメータに基づいて、前記複数のテキストの各々に対し、前記木構造作成部によって前記テキストについて作成された前記木構造の各ノードについての、前記ノードの親ノードの埋込及び前記ノードの兄弟ノードの埋込が与えられたときの前記ノードの埋込の確率から計算される、前記テキストの確率が最大化されるように、前記木構造の各階層のノードの埋込、及び前記モデルパラメータを更新し、
収束判定部が、予め定められた収束判定条件を満たすまで、前記更新部の更新を繰り返す
単語埋込学習方法。
前記テキストの前記木構造の各階層のノードの埋込は、前記テキストに対応するノードの埋込、各段落に対応するノードの埋込、各文に対応するノードの埋込、及び各単語埋込を含む請求項４記載の単語埋込学習方法。
請求項４又は５記載の単語埋込学習方法によって各単語埋込を学習し、
単語ベクトル変換部が、入力テキストを単語ベクトルに変換し、
検索部が、前記学習された各単語埋込から、前記単語ベクトル変換部によって変換された前記単語ベクトルに最も類似する単語埋込を有する単語を検索し、
出力部が、前記検索部によって検索された前記単語を、前記入力テキストに対する評価結果として出力する
テキスト評価方法。
コンピュータを、請求項１又は２記載の単語埋込学習装置、又は請求項３記載のテキスト評価装置の各部として機能させるためのプログラム。