JP2021501390A

JP2021501390A - テキスト意味論的コード化の方法および装置

Info

Publication number: JP2021501390A
Application number: JP2020520227A
Authority: JP
Inventors: ワン、チェンロン
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-10-27
Filing date: 2018-10-24
Publication date: 2021-01-14
Also published as: CN110019793A; US20200250379A1; TW201917602A; WO2019080864A1

Abstract

本開示の実施形態は、テキスト意味論的コード化のための方法および装置を提供する。一実施形態において、方法は、テキストデータに基づいて単語ベクトルマトリクスを生成する段階と、単語ベクトルマトリクスを出力ベクトルに事前処理するように単語ベクトルマトリクスを双方向再帰型ニューラルネットワークに入力する段階であって、出力ベクトルは文脈の意味論的関係を表す、段階と、畳み込み結果を取得するように出力ベクトルに畳み込みを実行する段階であって、畳み込み結果はトピックを表す、段階と、テキストデータの意味論的コード化として固定長ベクトルを取得するように畳み込み結果にプーリングを実行する段階であって、意味論的コード化はテキストデータのトピックを表す、段階とを含む。【選択図】図２

Description

［関連出願の相互参照］
本開示は、２０１８年１０月２４日に出願された国際出願ＰＣＴ／ＣＮ２０１８／１１１６２８号の国内段階であり、２０１７年１０月２７日に出願された中国特許出願第２０１７１１０５６８４５．２号の優先権を主張し、その双方がそれらの全体として参照により本明細書に組み込まれる。

本開示はコンピュータ技術の分野に関し、特に、テキスト意味論的コード化の方法および装置に関する。

多くのアプリケーションが、質問と回答（ＱＡ）サービスをユーザに提供することを要求する。例えば、インターネットベースのアプリケーションは頻繁に、製品の特徴、サービスの機能、および同様のものなどのトピックを、ユーザがよりよく理解することの助けとなるように、これらの特徴に関する顧客サービスを提供する。ＱＡの処理において、ユーザとカスタマーサービス担当者との間の通信は、通常は自然言語テキストの形態で行われる。アプリケーションの数またはアプリケーションによってサービスされるユーザの数が増加するにつれて、顧客サービスへの圧力も同様に増加する。結果として、多くのサービスプロバイダが、自動ＱＡサービスをユーザに提供して、手動ＱＡサービスへのコストがかかり拡張性に乏しい投資を置き換えるように、テキストマイニングまたは情報インデクシングなどの技術に頼っている。

質問と回答に関連づけられた自然言語ベースのテキストデータをマイニングおよび処理するために、数値コード化（例えば、テキストコード化）がテキストデータにおいて実行される。現在、システムは可変長のテキストをコード化するために単語の袋技術を用いる。テキストデータの各項目は、長さＶの整数個のベクトルを使用して処理され、長さ（Ｖ）は、辞書のサイズを示し、ベクトルの各要素は、１つの単語を表し、その値は、テキストデータにおける単語の出現の数を表す。しかしながら、このコード化技術は、テキストデータにおいて単語に関連づけられた頻度情報のみを用い、故に、単語間の文脈的従属関係は無視する。したがって、テキストデータの意味論的情報を十分に表すことは困難である。さらに、単語の袋技術によって、コード化長は辞書全体のサイズ（例えば、通常は１０万のオーダーの単語）となり、その最大多数はゼロ（０）のコード化値を有する。そのようなコード化の低密度さは、後続のテキストマイニングにおいて不利であり、冗長なコード化長は、後続のテキスト処理のスピードを減少させる。

単語の袋コード化の問題に対処するように、単語埋め込みの技術が、テキストデータをコード化するように開発されている。そのような技術は、テキストデータの意味論を表すように実数の固定長ベクトルを用いる。単語埋め込みコード化技術は、寸法減少ベースのデータ表現のタイプである。特に、テキストデータの意味論は、固定長（通常、１００次元）ベクトルの実数を使用して表される。単語の袋コード化と比較すると、単語次元はデータの次元度を減少させ、データ低密度問題を解決し、後続のテキスト処理のスピードを改善する。しかしながら、単語埋め込み技術は、一般に、事前トレーニングを要求する。それは、オフライントレーニングの間に、コード化のためのテキストデータが判断されなければならないことである。したがって、アルゴリズムは一般に、列挙された次元によって、短い長さのテキスト（例えば、単語またはフレーズ）をコード化して表すように用いられる。しかしながら、文または段落レベルでキャプチャされたテキストデータは、可変長を有するデータのシーケンスを含み、その次元は列挙することができない。結果として、そのようなテキストベースのデータは、上で説明したような事前トレーニングによってコード化されることに好適ではない。

したがって、可変長のテキストデータを正確にコード化する必要性が存在する。

本開示は、可変長のテキストデータを正確にコード化することができない当技術分野の上記技術問題を解決するように、テキスト意味論的コード化のための方法、コンピュータ可読媒体、および装置を提供する。

一実施形態において、本開示は、テキスト意味論的コード化の方法を提供し、方法は、テキストデータに基づいて単語ベクトルマトリクスを生成する段階と、単語ベクトルマトリクスを出力ベクトルへと事前処理するように、単語ベクトルマトリクスを双方向再帰型ニューラルネットワークに入力する段階であって、出力ベクトルは文脈の意味論的関係を表す、段階と、畳み込み結果を取得するように出力ベクトルの畳み込みを実行する段階であって、畳み込み結果はトピックに関連する、段階と、テキストデータの意味論的コード化として固定長ベクトルを取得するように、畳み込み結果のプーリングを実行する段階であって、意味論的コード化はテキストデータのトピックを表す、段階とを備える。

一実施形態において、本開示は、テキスト意味論的コード化のための装置を提供し、装置は、テキストデータに基づいて単語ベクトルマトリクスを生成するように構成される単語ベクトルマトリクス生成ユニットと、単語ベクトルマトリクスを出力ベクトルに事前処理するように、単語ベクトルマトリクスを双方向再帰型ニューラルネットワークに入力するように構成される事前処理ユニットであって、出力ベクトルは文脈の意味論的関係を表す、事前処理ユニットと、畳み込み結果を取得するように出力ベクトルの畳み込みを実行するように構成される畳み込み処理ユニットであって、畳み込み結果はトピックに関連する、畳み込み処理ユニットと、テキストデータの意味論的コード化として固定長ベクトルを取得するように畳み込み結果のプーリングを実行するように構成されるプーリング処理ユニットであって、意味論的コード化はテキストデータのトピックを表す、プーリング処理ユニットとを含む。

一実施形態において、本開示は、テキスト意味論的コード化のための装置を提供し、装置は、複数のプログラムを格納するメモリを含み、１または複数のプロセッサによって実行されるとき、以下の動作を実行するように装置に命令し、動作は、テキストデータに基づいて単語ベクトルマトリクスを生成する段階と、単語ベクトルマトリクスを出力ベクトルへと事前処理するように、単語ベクトルマトリクスを双方向再帰型ニューラルネットワークに入力する段階であって、出力ベクトルは文脈の意味論的関係を表す、段階と、畳み込み結果を取得するように出力ベクトルの畳み込みを実行する段階であって、畳み込み結果はトピックに関連する、段階と、テキストデータの意味論的コード化として固定長ベクトルを取得するように、畳み込み結果のプーリングを実行する段階であって、意味論的コード化はテキストデータのトピックを表す、段階とを含む。

一実施形態において、本開示は、命令を格納されたコンピュータ可読媒体を提供し、命令は、１または複数のプロセッサによって実行されるとき、本開示の実施形態によるテキスト意味論的コード化方法を実行するように装置に命令する。

本開示の様々な実施形態において、異なるデータソースからの可変長テキストデータが、単語ベクトルのマトリクスを生成するように処理され、次に、事前処理のために双方向再帰型ニューラルネットワークに入力される。続いて、可変長テキストデータのための意味論的コード化として実数の固定長ベクトルを取得するように、線形畳み込みおよびプーリングが反復性ニューラルネットワークの出力で実行される。そのような意味論的コード化は、任意の後続のテキストマイニングタスクにおいて用いられ得る。さらに、本開示は、テキストデータの意味論的関係をマイニングする機構、ならびに、テキストデータとそのそれぞれのトピックとの間の相関を提供し、可変長テキストデータの固定長意味論的コード化を達成する。

実施形態の説明のために用いられる図面が、以下に簡単に紹介される。以下の発明の説明において、図面は本開示のいくつかの実施形態である。当業者は、顕著な努力なしで、これらの添付図面に従って他の図面をさらに取得することができる。

本開示のいくつかの実施形態による応用シナリオを示す図である。

本開示のいくつかの実施形態によるテキスト意味論的コード化の方法を示すフロー図である。

本開示のいくつかの実施形態によるテキスト意味論的コード化の方法を示す図である。

本開示のいくつかの実施形態によるテキスト意味論的コード化の装置を示すブロック図である。

本開示のいくつかの実施形態によるテキスト意味論的コード化の装置のブロック図である。

本開示のいくつかの実施形態において、方法、コンピュータ可読媒体、および装置が、可変長テキストデータのテキスト意味論的コード化を達成するように、テキスト意味論的コード化のために提供される。

本開示の実施形態において用いられる用語は、開示を限定するのではなくむしろ、特定の実施形態を説明する目的のみを意図している。本開示の実施形態および請求項において用いられるものとして、単数形「ａｎ」、「ｓａｉｄ」および「ｔｈｅ」もまた、文脈が明らかにそうではないことを示さない限り、複数形の場合を含むように意図される。本明細書で用いられる用語「および／または」は、１または複数の関連づけられた列挙項目の、可能な組み合わせのいくつかまたはすべてを指し、それらを含む。

本明細書で用いられるものとして、用語「テキストコード化」は、可変長自然言語テキストのベクトル化表現を指す。本開示のいくつかの実施形態において、可変長自然言語テキストは、テキストコード化によって実数の固定長ベクトルを表し得る。

用語の上記定義は、いかなる限定を負わせることなく、本開示の理解のためのみに説明されるものである。

図１は、本開示のいくつかの実施形態による例示的な応用シナリオを示す。この例において、本開示の実施形態によるコード化方法は、テキスト意味論的コード化を実行するように、図１に示されたシナリオに適用される。示される方法は、限定なしで、任意の他のシナリオにもまた適用され得る。本明細書の図１に示されるように、例示的な適用シナリオにおいて、テキストデータを取得するように電子デバイス（１００）が構成される。この例において、テキストデータは、可変長テキスト（１０１）、可変長テキスト（１０２）、可変長テキスト（１０３）、および可変長テキスト（１０４）を含み、それぞれが異なってよい長さを有する。取得された後、テキストデータはテキスト意味論的コード化装置（４００）に入力される。示される実施形態において、テキスト意味論的コード化装置（４００）は、固定長意味論的コード化を生成するように、単語セグメンテーション、単語ベクトルマトリクス生成、双方向再帰型ニューラルネットワーク事前処理、畳み込み、およびプーリングの演算を実行する。出力として、テキスト意味論的コード化装置（４００）は、対応する意味論的コード化のセットを生成する。本明細書に示されるように、意味論的コード化（２００）のセットは、テキスト意味論的コード化（１２１）、テキスト意味論的コード化（１２２）、テキスト意味論的コード化（１２３）、およびテキスト意味論的コード化（１２４）を含み、そのそれぞれが同一の長さを有する。このように、可変長テキストデータは固定長のテキスト意味論的コード化に変換される。さらに、テキストによって反映されるトピックは、それぞれのテキスト意味論的コード化によって表され、後続のデータマイニングのための基盤を提供する。

上記の応用シナリオは、本開示の理解のためだけに示され、限定されることなく表される。本開示の実施形態は、任意の適切なシナリオに適用され得る。

以下は、図２、３および６を参照して、本開示のいくつかの例示的な実施形態によるテキスト意味論的コード化の方法を示す。

図２は、本開示のいくつかの実施形態によるテキスト意味論的コード化のための方法を示すフロー図である。図２に示されるように、テキスト意味論的コード化の方法は、以下の段階を含む。

段階Ｓ２０１：テキストデータに基づいて単語ベクトルマトリクスを生成する。

いくつかの実施形態において、段階Ｓ２０１はさらに、以下のサブ段階を含む。

サブ段階Ｓ２０１Ａ：テキストデータを取得する。いくつかの実施形態において、様々なデータソースからのテキストが、テキストデータとして取得される。例としてＱＡシステムを取り上げると、ユーザからの質問が、テキストデータとして用いられ得る。例えば、ユーザによって入力された質問（例えば、「この機能はどのように用いますか？」）が、テキストデータとして収集され得る。別の例において、ＱＡシステムのカスタマーサービス担当者からの回答もまた、テキストデータとして収集され得る。例えば、カスタマーサービス担当者からのテキストベースの回答（例えば、「製品シェアリング機能の操作ステップは以下の通りです。Ｔａｏｂａｏアカウントにログインします、製品を取り上げたページを開きます、「共有」ボタンをクリックします、Ａｌｉｐａｙフレンドを選択します、「送信」ボタンをクリックしますと製品シェアリング機能が完了します」）が、テキストデータとして収集され得る。任意の他のテキストベースのデータが、限定するものではないが、テキストデータとして取得され得る。

繰り返すが、テキストデータは可変長である。言い換えれば、テキストデータの各項目は、どの自然言語ベースのテキストにおいてもいえることだが、固定長に限定されない。

サブ段階Ｓ２０１Ｂは、テキストデータに対して単語セグメンテーションを実行して、単語シーケンスを取得する。

いくつかの実施形態において、入力テキストに対するセグメンテーションによって取得された単語シーケンスが次のように表される。
［ｗ_１，…，ｗ_ｉ，…ｗ_｜ｓ｜］ｗ
ここで、ｗ_ｉは入力テキストのセグメンテーション以降のｉ番目の単語であり、｜ｓ｜はセグメンテーション後のテキストの長さである。例えば、「この機能はどのように用いますか？」のテキストデータの項目に関して、セグメンテーション後に、テキストデータの項目が［この，機能は，どのように，用います，か］という単語シーケンスとして表される。単語シーケンスは５の長さを有し、単語シーケンスの単語の数に対応する。

サブ段階Ｓ２０１Ｃは、単語シーケンスにおける各単語に対応する単語ベクトルを判断し、単語ベクトルマトリクスを生成する。

いくつかの実施形態において、上記単語シーケンスは、単語埋め込み技術を使用してコード化され、単語ベクトルのマトリクス
［ｖ_１，…，ｖ_ｉ…ｖ_｜ｓ｜］
を生成する。

ｉ番目の単語に対応する単語ベクトルは、以下によって計算される。
ｖ_ｉ＝ＬＴ_ｗ（ｗ_ｉ）（１）
ここで、Ｗ∈Ｒ^{ｄ×｜ｖ｜}は、事前トレーニングされた単語ベクトル（例えば、単語埋め込みを使用して生成されるベクトル）マトリクスであり、｜ｖ｜は単語ベクトルマトリクスにおける単語の数であり、ｄは単語ベクトル（例えば、単語埋め込みを使用して生成されるベクトル）のコード化長であり、Ｒは実数空間であり、ＬＴはルックアップテーブル関数である。
マトリクスの各列は、単語シーケンスの各単語に対応する単語埋め込みベースのコード化を表す。このようにして、任意のテキストデータが、ｄ×｜ｓ｜からなるマトリクスＳとして表されることができ、Ｓは入力テキストデータにおける単語に対応する単語ベクトルマトリクスを表す。

単語埋め込みは、自然言語を処理するコード化技術であり、｜ｖ｜＊ｄのサイズの単語ベクトルマトリクスの生成に用いられる。例えば、マトリクスの各列が単語「どのように」などの１つの単語を表し、それぞれのベクトル列が単語「どのように」に関するコード化を表す。ここで、｜ｖ｜は辞書の単語の数を表し、ｄはコード化ベクトルの長さを表す。上記の例「この機能はどのように用いますか」などの１つの文に関して、文は第１に「この」「機能は」「どのように」「用います」「か」という単語（例えば、単語シーケンス）に区分される。次に、各単語に対応するコード化ベクトルが検索される。例えば、単語「この」に対応するベクトルは、［−０．０１，０．０３，０．０２，…，０．０６］として識別され得る。これらの５つの各単語は、それぞれのベクトル表現で表される。５つのベクトルは共に、例示のテキストデータの文を表すマトリクスを形成する。

ステップ２０２：単語ベクトルマトリクスを双方向再帰型ニューラルネットワークに入力して、単語ベクトルマトリクスを事前処理して、文脈の意味論的関係を表す出力ベクトルとする。

いくつかの実施形態において、ステップ２０２は、単語ベクトルマトリクスを双方向再帰型ニューラルネットワークに入力する段階と、長・短期記憶（ＬＳＴＭ）ユニット（例えばニューラルネットワークユニット）によって演算を実行して、順方向処理を実行して、各単語とそれの先行文脈テキストとの間の意味論的従属関係を取得し、逆方向処理を実行して、各単語ベクトルとそれの後続文脈テキストとの間の意味論的従属関係を取得する、演算を実行する段階と、各単語ベクトルと先行文脈テキストおよび後続文脈テキストのそれぞれとの間の意味論的従属関係を出力ベクトルとして使用する段階と、を含む。

１つの実装において、段階Ｓ２０２で生成された単語ベクトルマトリクスＳは、双方向再帰型ニューラルネットワークを使用して事前処理され、その計算ユニットは長・短期記憶（ＬＳＴＭ）ユニットを利用する。双方向再帰型ニューラルネットワークは、（処理順序がｗ_１→ｗ_｜Ｓ｜である）順方向処理と、（処理順序がｗ_｜Ｓ｜→ｗ_１である）逆方向処理とを含む。各入力ベクトルv_ｉに関して、順方向処理は出力ベクトルｈ_ｉ ^ｆ∈Ｒ^ｄを生成し、それに応じて、逆方向処理は出力ベクトルｈ_ｉ ^ｂ∈Ｒ^ｄを生成する。
これらのベクトルは、各単語ｗ_ｉと、それらの（順方向処理に対応する）先行文脈テキストまたはそれらの（逆方向処理に対応する）後続文脈テキストのそれぞれの意味論的情報とを表す。次に、出力ベクトルは下式を使用して計算される。
ｈ_ｉ＝［ｈ_ｉ ^ｆ；ｈ_ｉ ^ｂ］（２）
ここで、ｈ_ｉはｗ_ｉそれぞれの中間コード化であり、ｈ_ｉ ^ｆは双方向再帰型ニューラルネットワークの上記順方向処理において入力された単語ｉを処理することによって生成されたベクトルであり、単語ｉとそれの先行文脈テキストとの間の意味論的従属関係を表し、ｈ_ｉ ^ｂは双方向再帰型ニューラルネットワークの上記逆方向処理において入力された単語ｉを処理することによって生成されたベクトルであり、単語ｉとそれの後続文脈テキストとの間の意味論的従属関係を表す。

段階Ｓ２０３は、出力ベクトルの畳み込みを実行して畳み込み結果を取得し、畳み込み結果はトピックに関連する。

いくつかの実施形態において、段階Ｓ２０３は以下のサブ段階を含む。

サブ段階Ｓ２０３Ａは、畳み込みカーネルを使用して出力ベクトルに対して線形畳み込み演算を実行し、畳み込みカーネルはトピックに関連する。

実装において、畳み込みカーネルＦ∈Ｒ^ｄ×ｍ（ｍは畳み込みウインドウのサイズを表す）が利用され、Ｈ∈Ｒ^{２ｄ×｜Ｓ｜}に対して線形畳み込み演算を実行し、ベクトルＣ∈Ｒ^{（｜Ｓ｜−ｍ＋１）}を取得する。ここで、
ｃ_ｉ＝（Ｈ＊Ｆ）_ｉ＝Σ（Ｈ_{：，ｉ：ｉ＋ｍ−１}・Ｆ）（３）
ここで、畳み込みカーネルＦはトピックに関連する。

いくつかの実施形態において、サブ段階Ｓ２０３Ａは、下式を適用することによって畳み込みカーネルＦの群を使用して出力ベクトルＨの畳み込み演算を実行する段階を含む。
ｃ_ｊｉ＝Σ（Ｈ_{：，ｉ：ｉ＋ｍ−１}・Ｆ_ｊ）＋ｂ_ｉ（４）
ここで、ｃ_ｊｉは畳み込み演算の結果としてのベクトルであり、Ｈは双方向再帰型ニューラルネットワークの出力ベクトルであり、Ｆ_ｊはｊ番目の畳み込みカーネルであり、ｂ_ｉは畳み込みカーネルＦ_ｊに対応するバイアス値であり、ｉは整数であり、ｊは整数であり、ｍは畳み込みウインドウのサイズである。

いくつかの実施形態において、畳み込みカーネルＦ∈Ｒ^{（ｎ×ｄ×ｍ）}の群は、Ｈの畳み込み演算を実行するように用いられ、マトリクスＣ∈Ｒ^{（ｎ×（｜Ｓ｜−ｍ＋１）}を取得し、それは畳み込み演算の結果としてのベクトルを表す。さらに、各畳み込みカーネルＦ_ｊはそれぞれのバイアス値ｂ_ｉに対応する。

実装において、畳み込みカーネルのサイズもまた、使用のための畳み込みカーネルが判断されたときに判断される。一例において、各畳み込みカーネルは２次元ベクトルを含み、それらのサイズは異なる応用シナリオに基づく調整によって取得され、ベクトルの値は教師あり学習によって取得される。いくつかの実施形態において、畳み込みカーネルはニューラルネットワークトレーニングによって取得される。一例において、畳み込みカーネルに対応するベクトルは、トレーニングサンプルに対して教師あり学習技術を実行することによって取得される。

サブ段階Ｓ２０３Ｂ：線形畳み込み演算の結果に非線形変換を実行して、畳み込み結果を取得する。

いくつかの実施形態において、非線形の表現力をコード化するように、１または複数の非線形アクティブ化関数（例えば、ｓｏｆｔｍａｘ、正規化線形関数（ＲｅＬｕ））が畳み込み層に追加される。例としてＲｅＬｕを取り上げると、出力結果はＡ∈Ｒ^{（ｎ×（｜Ｓ｜−ｍ＋１）}であり、ここで、
ａ_ｉｊ＝ｍａｘ（０，ｃ_ｉｊ）（５）
ここで、ＡはＲｅＬｕ処理の結果として計算された変数である。ここで、ａ_ｉｊはＡに関連づけられた変数である。
上記処理の後、各ａ_ｉｊは０以上の数値へと処理される。

段階Ｓ２０４：畳み込み結果にプーリングを実行して、テキストデータの意味論的コード化として固定長ベクトルを取得し、意味論的コード化はテキストデータのトピックを表す。

いくつかの実施形態において、最大プーリングが畳み込み結果に実行され、結果に関連づけられた可変長を除去する。このようにして、実数の固定長ベクトルが、テキストデータの意味論的コード化として取得される。ベクトルの各要素の値は、テキストデータがトピックを反映する程度を示す。

いくつかの実施形態において、段階Ｓ２０３において取得されたマトリクスＡは最大プーリングによって処理される。テキストコード化において、プーリングは、ベクトル長が異なる値であることの影響を除去するように用いられる。実装において、入力マトリクスＡに関して、マトリクスＡの各行は、対応する畳み込みカーネルを使用する畳み込みによって取得される実数のベクトルに対応する。ベクトルのこれらの値の中で最大である値は、
ｐ_ｉ＝ｍａｘ（Ａ_ｉ，：）（６）
として計算される。ここで、最終結果Ｐ∈Ｒ^ｎは、目標テキストデータの最終コード化である。

いくつかの実施形態において、結果ベクトルＰの各要素は「トピック」を表し、各要素の値は、「トピック」がテキストデータによって反映される程度を表す。

様々な実施形態において、ひとたびテキストデータに対応する意味論的コード化が取得されると、複数種の処理が意味論的コード化に基づいて実行され得る。例えば、取得されたテキスト意味論的コード化が実数のベクトルであるので、後続の処理はベクトルの共通演算を使用して実行され得る。一例において、２つのそれぞれのコード化の余弦距離が、テキストデータの２つの項目の間の類似性を表すように計算される。本開示の様々な実施形態によると、上記のテキストデータの意味論的コード化を取得する後のテキスト意味論的コード化の任意の後続の処理が、限定なしで実行され得る。

図３は、本開示のいくつかの実施形態によるテキスト意味論的コード化の方法を示す図である。図３に示されるように、テキストデータの項目「この機能はどのように用いますか」は目標テキストデータ（３０１）である。目標テキストデータは、単語セグメンテーションのときに、［この，機能は，どのように，用います，か］の単語シーケンス（３０３）に切り分けられる。セグメント化された各単語は、単語ベクトルを使用してコード化される。これらの単語ベクトルのマトリクスは、双方向再帰型ニューラルネットワーク（３０５）に入力されて、処理されて出力結果を取得する。出力結果の、線形畳み込み（３０７）、非線形変換（３０９）、および最大プーリング（３１１）の演算のとき、各単語ベクトルが可変長を有するという影響は除去される。結果として、固定長ベクトルが、テキストデータの意味論的コード化（３１３）として取得される。本開示の様々な実施形態において、可変長のテキストデータが処理されて、単語ベクトルのマトリクスとして最初に表され、次に、実数の固定長ベクトルが、双方向再帰型ニューラルネットワークおよび畳み込み関連の演算を使用して取得される。そのような実数の固定長ベクトルは、テキストデータの意味論的コード化である。このようにして、可変長のテキストデータが固定長のテキスト意味論的コード化に変換され、テキストデータの意味論的関係と同様に、テキストデータのトピック表現がマイニングされる。

図６は、本開示のいくつかの実施形態によるテキスト意味論的コード化の方法を示すフロー図を示す。テキスト意味論的コード化の方法は、以下の段階を含む。

段階Ｓ６０１：テキストデータに基づいて単語ベクトルマトリクスを生成する。

いくつかの実施形態において、段階Ｓ６０１は以下のサブ段階を含む。

サブ段階Ｓ６０１Ａ：テキストデータを取得する。様々な実施形態において、テキストデータは可変長である。いくつかの実施形態において、テキストデータは図２を参照して上記のサブ段階Ｓ２０１Ａと実質的に同様な方式で取得され、その詳細を本明細書で繰り返すことはしない。

ステップＳ６０１Ｂ：テキストデータ上で単語セグメンテーションを実行して、単語シーケンスを取得する。いくつかの実施形態において、テキストデータは図２を参照して上記のサブ段階Ｓ２０１Ｂと実質的に同様な方式で取得され、その詳細を本明細書で繰り返すことはしない。

ステップＳ６０１Ｃ：単語シーケンスの各単語に対応する単語ベクトルを判断し、単語ベクトルのマトリクスを生成する。いくつかの実施形態において、単語ベクトルの単語ベクトルおよびマトリクスは図２を参照して上記のサブ段階Ｓ２０１Ｃと実質的に同様な方式で取得され、その詳細を本明細書で繰り返すことはしない。

段階Ｓ６０２：単語ベクトルマトリクスに基づいて、文脈の意味論的関係を表す出力ベクトルを取得する。

いくつかの実施形態において、段階Ｓ６０２は、文脈の意味論的関係を表す出力ベクトルを取得するように、単語ベクトルマトリクスを双方向再帰型ニューラルネットワークに入力することによって、単語ベクトルマトリクスを事前処理する段階を含む。実装において、単語ベクトルのマトリクスが、双方向再帰型ニューラルネットワークに入力され、長・短期記憶（ＬＳＴＭ）ユニットが、演算のために用いられる。一例において、各単語ベクトルとその先行文脈テキストとの間の意味論的従属関係を取得するように、順方向処理が実行され、各単語ベクトルとその後続文脈テキストとの間の意味論的従属関係を取得するように、逆方向処理が実行される。各単語ベクトルとそれぞれの先行文脈テキストおよびそれぞれの後続文脈テキストとの間の意味論的従属関係は、出力ベクトルを形成する。様々な実施形態において、任意の適切な技術が、限定することなく、出力ベクトルを生成するように適用され得る。

段階Ｓ６０３：出力ベクトルに基づいて、トピックに関連する畳み込み結果を取得する。

いくつかの実施形態において、畳み込みカーネルを使用して線形畳み込み演算が出力ベクトル上で実行され、それはトピックに関連する。非線形変換は、畳み込み結果を取得するように、線形畳み込みの結果に実行される。

段階Ｓ６０４：畳み込み結果に基づいて、テキストデータの意味論的コード化として固定長ベクトルを取得し、意味論的コード化はテキストデータのトピックを表す。

いくつかの実施形態において、実数の固定長ベクトルを取得するように、結果に関連づけられた可変ベクトル長を除去するように、最大プーリングが畳み込み結果に実行される。そのような実数の固定長ベクトルは、テキストデータの意味論的コード化として生成され、ベクトルの各要素の値は、テキストがトピックを反映する程度を表す。

今、図４に戻って参照すると、本開示のいくつかの実施形態による、テキスト意味論的コード化の装置のブロック図が開示される。図４に示されるように、装置（４００）は、単語ベクトルマトリクス生成ユニット（４０１）、事前処理ユニット（４０２）、畳み込みユニット（４０３）、およびプーリングユニット（４０４）を含む。

単語ベクトルマトリクス生成ユニット（４０１）は、テキストデータに基づいて単語ベクトルマトリクスを生成するように構成される。いくつかの実施形態において、単語ベクトルマトリクス生成ユニット４０１は、図２を参照して上記の段階Ｓ２０１を実装するように構成され、その詳細は本明細書で繰り返すことはしない。

事前処理ユニット（４０２）は、単語ベクトルマトリクスを双方向再帰型ニューラルネットワークに入力し、単語ベクトルマトリクスを出力ベクトルに事前処理するように構成され、出力ベクトルは文脈の意味論的関係を表す。いくつかの実施形態において、事前処理ユニット（４０２）は図２を参照して上記の段階Ｓ２０２を実装するように構成され、その詳細は本明細書において繰り返すことはしない。

畳み込みユニット（４０３）は、畳み込み結果くぉ取得するように出力ベクトルの畳み込みを実行するように構成され、畳み込み結果はトピックに関連する。いくつかの実施形態において、畳み込み処理ユニット（４０３）は、図２を参照して上記の段階Ｓ２０３を実装するように構成され、その詳細は本明細書で繰り返すことはしない。

プーリングユニット（４０４）は、畳み込み結果のプーリングを実行して、テキストデータの意味論的コード化として固定長ベクトルを取得するように構成され、意味論的コード化はテキストデータのトピックを表す。いくつかの実施形態において、プーリングユニット（４０４）は、図２を参照して上記の段階Ｓ２０４を実装するように構成され、その詳細は本明細書で繰り返すことはしない。

いくつかの実施形態において、単語ベクトルマトリクス生成ユニット（４０１）はさらに、テキストデータを取得するように構成された取得ユニットを含む。一実施形態において、取得ユニットは、図２を参照して上記のサブ段階Ｓ２０１Ａを実装するように構成され、その詳細は本明細書で繰り返すことはしない。

いくつかの実施形態において、単語ベクトルマトリクス生成ユニット（４０１）はさらに、テキストデータの単語セグメンテーションを実行して単語シーケンスを取得するように構成された単語セグメンテーションユニットを含む。いくつかの実施形態において、単語セグメンテーションユニットは、図２を参照して上記のサブ段階Ｓ２０１Ｂを実装するように構成され、その詳細は本明細書で繰り返すことはしない。

いくつかの実施形態において、単語ベクトルマトリクス生成ユニット（４０１）はさらに、単語シーケンスにおける各単語に対応する単語ベクトル（例えば、単語埋め込みに基づいて取得されたベクトル）を判断し、これらの単語ベクトルのマトリクスを生成するように構成されたマトリクス生成ユニットを含む。いくつかの実施形態において、マトリクス生成ユニットは、図２を参照して上記のステップＳ２０１Ｃを実装するように構成され、その詳細は本明細書で繰り返すことはしない。

いくつかの実施形態において、事前処理ユニット（４０２）はさらに、単語ベクトルのマトリクスを双方向再帰型ニューラルネットワークに入力し、長・短期記憶（ＬＳＴＭ）ユニットを使用して演算を実行するように構成される。いくつかの例において、順方向処理が、各単語ベクトルとその先行文脈テキストとの間の意味論的従属関係を取得するように実行され、逆方向処理が、各単語ベクトルとその後続文脈テキストとの間の意味論的従属関係を取得するように実行される。各単語ベクトルとそれぞれの先行文脈テキストおよびそれぞれの後続文脈テキストとの間の意味論的従属関係が、出力ベクトルとして計算される。

いくつかの実施形態において、畳み込み処理ユニット（４０３）はさらに、畳み込みユニットおよび非線形変換ユニットを含む。畳み込みユニットは、畳み込みカーネルを使用して出力ベクトルの線形畳み込みを実行するように構成され、それはトピックに関連する。

非線形変換ユニットは、線形畳み込みの結果に非線形変換を実行し、畳み込み結果を取得するように構成される。

いくつかの実施形態において、畳み込みユニットは、下式を使用して、畳み込みカーネルＦの群によって出力ベクトルに畳み込み演算を実行するように構成される。
ｃ_ｊｉ＝Σ（Ｈ_{：，ｉ：ｉ＋ｍ−１}・Ｆ_ｊ）＋ｂ_ｉ（７）
ここで、ｃ_ｊｉは畳み込み演算の結果としてのベクトルであり、Ｈは双方向再帰型ニューラルネットワークの出力ベクトルであり、Ｆ_ｊはｊ番目の畳み込みカーネルであり、ｂ_ｉは畳み込みカーネルＦ_ｊに対応するバイアス値であり、ｉは整数であり、ｊは整数であり、ｍは畳み込みウインドウのサイズである。

いくつかの実施形態において、プーリングユニット（４０４）は畳み込み結果に最大プーリングを実行し、結果に関連づけられた可変長を除去し、テキストデータの意味論的コード化として実数の固定長ベクトルを取得するように構成される。ベクトルの各要素の値は、テキストがトピックを反映する程度を表す。

図５は、本開示のいくつかの実施形態による、テキスト意味論的コード化の装置を示すブロック図である。図５に示されるように、テキスト意味論的コード化装置は１または複数のプロセッサ（５０１）（例えば、ＣＰＵ）、メモリ（５０２）、および、１または複数のプロセッサ（５０１）とメモリ（５０２）とを通信可能に接続する通信バス（５０３）を含む。１または複数のプロセッサ（５０１）は、メモリ（５０２）に格納されたコンピュータプログラムなどの実行可能なモジュールを実行するように構成される。

メモリ（５０２）は、高速ランダムアクセスメモリ（ＲＡＭ）、不揮発性メモリ（例えば、ディスクメモリ）、および同様のものを含むように構成され得る。メモリ（５０２）は、１または複数のプロセッサ（５０１）によって実行されるとき、装置に以下の工程、すなわち、テキストデータに基づいて単語ベクトルマトリクスを生成する段階と、単語ベクトルマトリクスを双方向再帰型ニューラルネットワークに入力して、単語ベクトルのマトリクスを出力ベクトルに事前処理する段階であって、出力ベクトルは文脈の意味論的関係を表す、段階と、畳み込み結果を取得するように出力ベクトルの畳み込みを実行する段階であって、畳み込み結果はトピックに関連する、段階と、テキストデータの意味論的コード化として固定長ベクトルを取得するように畳み込み結果のプーリングを実行する段階であって、意味論的コード化はテキストデータのトピックを表す、段階とを実行するように命令する命令を含む１または複数のプログラムを格納する。

いくつかの実施形態において、１または複数のプロセッサ（５０１）は、単語ベクトルマトリクスを双方向再帰型ニューラルネットワークに入力することと、長・短期記憶（ＬＳＴＭ）ユニットを使用して演算を実行することと、各単語ベクトルとその先行文脈テキストとの間の意味論的従属関係を取得するように順方向処理を実行することと、各単語ベクトルとその後続文脈テキストとの間の意味論的従属関係を取得するように逆方向処理を実行することと、各単語ベクトルとそれぞれの先行文脈テキストおよびそれぞれの後続文脈テキストとの間の意味論的従属関係を使用して出力ベクトルを生成することと、に関する命令を含む１または複数のプログラムを実行するように構成される。

いくつかの実施形態において、１または複数のプロセッサ（５０１）は、畳み込みカーネルを使用して出力ベクトル上で線形畳み込み演算を実行することであって、畳み込みカーネルはトピックに関連する、実行することと、畳み込み結果を取得するように線形畳み込み演算の結果に非線形変換を実行することとに関する命令を含む１または複数のプログラムを実行するように構成される。

いくつかの実施形態において、１または複数のプロセッサ（５０１）は、テキストデータの意味論的コード化として実数の固定長ベクトルを取得するように結果に関連づけられた可変長を除去するように畳み込み結果に最大プーリングを実行することであって、ベクトルの各要素の値はテキストがトピックを反映する程度を表す、実行することに関する命令を含む１または複数のプログラムを実行するように構成される。

いくつかの実施形態において、開示はさらに、そこに命令を格納する、非一時的コンピュータ可読格納媒体を提供する。例えば、メモリは、プロセッサによって実行されるとき、図１から図３および図６を参照して上記の方法を実行するように装置に命令する、命令を格納し得る。いくつかの実施形態において、非一時的コンピュータ可読格納媒体は、リードオンリーメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、ＣＤ−ＲＯＭ、フロッピーディスク、光学データストレージデバイス、などであり得る。

いくつかの実施形態において、本開示はさらに、コンピュータ可読媒体を提供する。一例において、コンピュータ可読媒体は、そこに命令を格納する、非一時的コンピュータ可読格納媒体であり、装置（例えば、クライアントデバイスまたはサーバ）のプロセッサによって実行されるとき、装置に、テキスト意味論的コード化の方法を実行するように命令し、方法は、テキストデータに基づいて単語ベクトルのマトリクスを生成する段階と、単語ベクトルのマトリクスを双方向再帰型ニューラルネットワークに入力して、単語ベクトルのマトリクスを出力ベクトルに事前処理する段階であって、出力ベクトルは文脈の意味論的関係を表す、段階と、畳み込み結果を取得するように出力ベクトルの畳み込みを実行する段階であって、畳み込み結果はトピックに関連する、段階と、テキストデータの意味論的コード化として固定長ベクトルを取得するように畳み込み結果のプーリングを実行する段階であって、意味論的コード化はテキストデータのトピックを表す、段階とを含む。

図７は、本開示のいくつかの実施形態によるテキスト意味論的コード化の装置を示すブロック図である。本明細書の図７に示されるように、テキスト意味論的コード化装置（７００）は、単語ベクトルマトリクス生成ユニット（７０１）、出力ベクトル取得ユニット（７０２）、畳み込み処理ユニット（７０３）、および意味論的コード化ユニット（７０４）を含む。

単語ベクトルマトリクス生成ユニット（７０１）は、テキストデータに基づいて単語ベクトルマトリクスを生成するように構成される。いくつかの実施形態において、単語ベクトルマトリクス生成ユニット（７０１）は、図６を参照して上記の段階Ｓ６０１を実装するように構成され、その詳細は本明細書で繰り返すことはしない。

出力ベクトル取得ユニット（７０２）は、単語ベクトルマトリクスに基づいて、文脈の意味論的関係を表す出力ベクトルを取得するように構成される。いくつかの実施形態において、出力ベクトル取得ユニット（７０２）は、図６を参照して上記の段階Ｓ６０２を実装するように構成され、その詳細は本明細書で繰り返すことはしない。

畳み込み処理ユニット（７０３）は、出力ベクトルに基づいて、トピックに関連する畳み込み結果を取得するように構成される。いくつかの実施形態において、畳み込み処理ユニット（７０３）は、図６を参照して上記の段階Ｓ６０３を実装するように構成され、その詳細は本明細書で繰り返すことはしない。

意味論的コード化ユニット（７０４）は、畳み込み結果に基づいて、テキストデータのトピックを表すテキストデータの意味論的コード化として固定長ベクトルを取得するように構成される。いくつかの実施形態において、意味論的コード化ユニット（７０４）は図６を参照して上記の段階Ｓ６０４を実装するように構成され、その詳細は本明細書で繰り返すことはしない。

いくつかの実施形態において、本開示によって提供される装置の１または複数のユニットまたはモジュールが、上記図２、３および６と実質的に同様な方法を実装するように構成されるが、その詳細は本明細書で繰り返すことはしない。

他の本開示の実施形態は、明細書を考慮し、本明細書に開示される発明を実践した後に、当業者によって容易に想到可能であろう。本開示は、本開示のいかなる変形、使用、または適合例も対象とすることを意図し、変形、使用、または適合例は、本開示の一般な原則に準拠し、現在の開示に開示されていない分野において共通して知られる知識または従来の技術手段を含む。明細書および実施形態は例示のみであるとみなされ、本開示の実際の範囲および主旨は、添付の特許請求の範囲に示される。

本開示は、上に説明された、および添付図面に示された正確な構造に限定されないこと、ならびに、様々な修正および変形が、本開示の範囲から逸脱することなく作成され得ることが、理解されるべきである。本開示の範囲は、添付の特許請求の範囲によってのみ限定される。

本明細書の「第１」および「第２」などの相対的な用語は、１つの実在物または操作を別の実在物または操作から区別するために用いられるに過ぎず、これらの実在物または操作がこの実際の関連性または順序を有することを要求または暗示するものではないことに、留意する必要がある。さらに、用語「ｉｎｃｌｕｄｅ（含む）」、「ｃｏｍｐｒｉｓｅ（含む）」またはこれらの他の変形は、非排他的な含有を対象とすることを意図し、したがって、一連の要素を含む処理、方法、物品、またはデバイスは、その要素のみを含むもののみでなく、はっきりと列挙されていない他の要素もまた含み、または、処理、方法、物品、またはデバイスに固有の要素をさらに含む。ステートメント「１つを含む」によって定義される要素は、さらなる限定なしで、その要素を含む処理、方法、商品、またはデバイスにおける追加の同一の要素の存在を除外するものではない。本開示は、プログラムモジュールなどの、コンピュータによって実行されるコンピュータ実行可能命令の一般的な文脈において説明され得る。一般に、プログラムモジュールは、特定のタスクを実行するか、特定の抽象的なデータタイプを実装するための、ルーティン、プログラム、オブジェクト、コンポーネント、データ構造、などを含む。本開示はまた、分散コンピューティング環境において実装されてもよい。分散コンピューティング環境において、タスクは、通信ネットワークによって接続されるリモート処理デバイスによって実行される。分散コンピューティング環境において、プログラムモジュールは、ストレージデバイスを含む、ローカルまたはリモートコンピュータストレージ媒体に位置してもよい。

現在の明細書における実施形態は、進行的な方式で説明され、異なる実施形態の間の同一のまたは同様の部分に関して、各実施形態が他の実施形態からの相違に焦点を当てるように、互いに参照が行われ得る。特に、装置の実施形態に関して、装置の実施形態が方法の実施形態と実質的に同様であるので、説明は比較的簡潔であり、関連する部分に関する方法の実施形態の説明の参照が行われ得る。上で説明されたデバイス実施形態は例示に過ぎず、別の構成要素として説明されたユニットは、物理的に別であってもよく、別でなくてもよく、ユニットとして表示された構成要素は、物理的にユニットであってもよく、なくてもよい、すなわち、同一の場所に位置してもよく、複数のネットワークユニットに分散して位置してもよい。この実施形態の解決方法の対象は、実際の要求に従って、モジュールの一部またはすべてを選択することによって実装されてもよい。当業者は、創造的な努力なしで、現在の発明を理解および実装できるであろう。上記明細書は、本開示の実装に過ぎない。当業者が、本開示の原則から逸脱することなく改良および修正を行ってよいこと、および、その改良および修正もまた本開示の保護範囲内にあるものとみなされることは、注目されるべきである。

Claims

テキストデータに基づいて単語ベクトルマトリクスを生成する段階と、
前記単語ベクトルマトリクスを双方向再帰型ニューラルネットワークに入力することによって前記単語ベクトルマトリクスを事前処理して、文脈の意味論的関係を示す出力ベクトルを取得する段階と、
前記出力ベクトルの畳み込み演算を実行して、畳み込み結果を取得する段階であって、前記畳み込み結果は対象に関連する、段階と、
前記畳み込み結果のプーリング演算を実行して、前記テキストデータの意味論的コード化として用いられた固定長ベクトルを取得する段階であって、前記意味論的コード化を使用して前記テキストデータの前記対象を表す、段階と
を備える、テキスト意味論的コード化方法。
文脈の意味論的関係を示す出力ベクトルを取得するように、前記単語ベクトルマトリクスを双方向再帰型ニューラルネットワークに入力することによって、前記単語ベクトルマトリクスを事前処理する前記段階は、
前記単語ベクトルマトリクスを前記双方向再帰型ニューラルネットワークに入力する段階と、長・短期記憶（ＬＳＴＭ）演算子を使用することによって計算を実行する段階と、先行するテキストに関する各単語ベクトルの意味論的従属関係を取得するように順方向処理を実行する段階と、後続するテキストに関する各単語ベクトルの意味論的従属関係を取得するように逆方向処理を実行する段階と、前記先行するテキストおよび前記後続するテキストに関する前記各単語ベクトルの意味論的従属関係を、前記出力ベクトルとして使用する段階と、
を有する、請求項１に記載のテキスト意味論的コード化方法。
畳み込み結果を取得するように前記出力ベクトルの畳み込み演算を実行する前記段階は、
畳み込みカーネルを使用することによって前記出力ベクトルに線形畳み込み演算を実行する段階であって、前記畳み込みカーネルは前記対象に関連する、段階と、
前記畳み込み結果を取得するように、前記線形畳み込み演算の結果に非線形変換を実行する段階と、
を有する、請求項１または２に記載のテキスト意味論的コード化方法。
前記畳み込み結果の前記プーリング演算を実行する前記段階は、
前記畳み込み結果の可変長さを除去し、前記テキストデータの前記意味論的コード化として用いられる固定長浮動小数点値ベクトルを取得するように、前記畳み込み結果に最大プーリング演算を実行する段階を含み、前記固定長浮動小数点値ベクトルの各値は、前記テキストデータが前記対象を反映する程度を示すように用いられる、
請求項１から３のいずれか一項に記載のテキスト意味論的コード化方法。
前記テキストデータは、固定長ではないテキストデータである、請求項１から４のいずれか一項に記載のテキスト意味論的コード化方法。
テキストデータに基づいて単語ベクトルマトリクスを生成する段階と、
前記単語ベクトルマトリクスに従って、文脈の意味論的関係を示すように用いられる出力ベクトルを取得する段階と、
前記出力ベクトルに従って、対象に関連する畳み込み結果を取得する段階と、
前記畳み込み結果に従って、前記テキストデータの前記対象を表すように前記テキストデータの意味論的コード化として用いられる固定長ベクトルを取得する段階と、
を含む、テキスト意味論的コード化方法。
テキストデータに基づいて単語ベクトルマトリクスを生成するように用いられる単語ベクトルマトリクス生成ユニットと、
文脈の意味論的関係を示す出力ベクトルを取得するように、前記単語ベクトルマトリクスを双方向再帰型ニューラルネットワークに入力することによって前記単語ベクトルマトリクスを事前処理するように用いられる事前処理ユニットと、
畳み込み結果を取得するように前記出力ベクトルに畳み込み演算を実行するように用いられる畳み込み処理ユニットであって、前記畳み込み結果は対象に関連する、畳み込み処理ユニットと、
前記テキストデータの意味論的コード化として用いられる固定長ベクトルを取得するように前記畳み込み結果のプーリング演算を実行するように用いられるプーリング処理ユニットであって、前記意味論的コード化は前記テキストデータの前記対象を表すように用いられる、プーリング処理ユニットと、
を含む、テキスト意味論的コード化装置。
テキストデータに基づいて単語ベクトルマトリクスを生成するように用いられる単語ベクトルマトリクス生成ユニットと、
前記単語ベクトルマトリクスに従って、文脈の意味論的関係を示すように用いられる出力ベクトルを取得するように用いられる出力ベクトル取得ユニットと、
前記出力ベクトルに従って、対象に関連する畳み込み結果を取得するように用いられる畳み込み処理ユニットと、
前記畳み込み結果に従って、前記テキストデータの前記対象を表すように前記テキストデータの意味論的コード化として用いられる固定長ベクトルを、取得するように用いられる意味論的コード化取得ユニットと、
を含む、テキスト意味論的コード化装置。
メモリと、１または複数のプログラムとを備え、前記１または複数のプログラムは前記メモリに格納され、１または複数のプロセッサによって実行されるように構成され、前記１または複数のプログラムは、以下の手順のための命令を含み、前記手順は、
テキストデータに基づいて単語ベクトルマトリクスを生成する段階と、
文脈の意味論的関係を示す出力ベクトルを取得するように、前記単語ベクトルマトリクスを双方向再帰型ニューラルネットワークに入力することによって、前記単語ベクトルマトリクスを事前処理する段階と、
畳み込み結果を取得するように前記出力ベクトルに畳み込み演算を実行する段階であって、前記畳み込み結果は対象に関連する、段階と、
前記テキストデータの意味論的コード化として用いられる固定長ベクトルを取得するように、前記畳み込み結果のプーリング演算を実行する段階であって、前記意味論的コード化は前記テキストデータの前記対象を表すように用いられる、段階と、
である、テキスト意味論的コード化のための装置。
メモリと、１または複数のプログラムとを備え、前記１または複数のプログラムは前記メモリに格納され、１または複数のプロセッサによって実行されるように構成され、前記１または複数のプログラムは、以下の手順のための命令を含み、前記手順は、
テキストデータに基づいて単語ベクトルマトリクスを生成する段階と、
前記単語ベクトルマトリクスに従って、文脈の意味論的関係を示すように用いられる出力ベクトルを取得する段階と、
前記出力ベクトルに従って、対象に関連する畳み込み結果を取得する段階と、
前記畳み込み結果に従って、前記テキストデータの前記対象を表すように前記テキストデータの意味論的コード化として用いられる固定長ベクトルを取得する段階と、
である、テキスト意味論的コード化のための装置。
請求項１から５のいずれか一項に記載のテキスト意味論的コード化方法を装置に実行させるためのプログラム。