JP2019133563A - 情報処理装置および情報処理システム - Google Patents

情報処理装置および情報処理システム Download PDF

Info

Publication number
JP2019133563A
JP2019133563A JP2018017205A JP2018017205A JP2019133563A JP 2019133563 A JP2019133563 A JP 2019133563A JP 2018017205 A JP2018017205 A JP 2018017205A JP 2018017205 A JP2018017205 A JP 2018017205A JP 2019133563 A JP2019133563 A JP 2019133563A
Authority
JP
Japan
Prior art keywords
vector
grammar
sentence
meaning
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018017205A
Other languages
English (en)
Inventor
陽 邵
Yang Shao
陽 邵
義行 小林
Yoshiyuki Kobayashi
義行 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2018017205A priority Critical patent/JP2019133563A/ja
Publication of JP2019133563A publication Critical patent/JP2019133563A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】文の局所的な特徴ではなく、全体の構造特徴を自動的に解析する。【課題を解決する手段】本発明の一側面は、入力装置、出力装置、演算装置、および記憶装置を備える計算機を用い、テキスト文の文意を数値化する情報処理方法である。この方法では、記憶装置からテキスト文のデータを読み出す第1のステップと、テキスト文の言語要素を解析して、テキスト文の文法構造を表す文法ベクトルを生成する第2のステップと、テキスト文から、単語ベクトルで構成されるマトリクスを生成する第3のステップと、文法ベクトルに基づいて単語ベクトルを重み付けし、重み付けした単語ベクトルで構成されるマトリクスに基づいて、テキスト文の文意を数値化した文意ベクトルを生成する第4のステップと、を備える。【選択図】図1

Description

本発明は、情報処理装置および情報処理システムに関わり、特に文意の深層学習モデルの構築技術に関する。例えば、文法特徴を顕在的に考えた文意の深層学習モデルおよび計算システムに関する。
オートエンコーダ(Autoencoder)は機械学習において、ニューラルネットワークを使用した次元圧縮(Dimension reduction)のためのアルゴリズムである。オートエンコーダは3層ニューラルネットにおいて、入力層と出力層に同じデータを用いて教師あり学習をさせたものである。バックプロパゲーションの特殊な場合と言える。学習は、バックプロパゲーションで行うため非線形最適化問題となる。中間層と出力層の活性化関数はそれぞれ任意に選ぶことができる。教師データが実数値で値域がない場合、出力層の活性化関数は恒等写像が選ばれる(つまり何も変化させない)ことが多い。中間層の活性化関数も恒等写像を選ぶと、結果は主成分分析とほぼ一致する。
中間層が2層以上あるニューラルネットワークをディープ・ニューラルネットワーク(Deep neural network)と呼ぶ。
順伝播型ニューラルネットワーク(Feedforward Neural Network)とはネットワークにループする結合を持たず、入力ノード→中間ノード→出力ノードというように単一方向へのみ信号が伝播するものを指す。
再帰型ニューラルネットワーク(RNN ;Reccurent Neural Network)は順伝播型ニューラルネットと違い、双方向に信号が伝播するモデルである。すべてのノードが他の全てのノードと結合を持っている場合、全結合リカレントニューラルネットと呼ぶ。
注意力モデル(Attention Model)、特にエンコーダー・デコーダーモデルにおける注意力モデルは、入力情報全体ではなく、その一部のみを特にフォーカスしたベクトルをデコーダーで使用する仕組みのことである。そのことにより、デコードの特定のタイミングにだけ必要になる入力情報を、精度よく出力に反映させることができるようになる(例えば非特許文献1参照)。
特徴量とは、問題の解決に必要な本質的な変数であったり、特定の概念を特徴づける変数である。この特徴量を発見できれば、パターン認識精度の向上や、フレーム問題の解決につながったりすると期待されている。
この階層的な特徴量の学習が、ディープラーニングが従来の機械学習と決定的に異なる点である。この技術は、画像認識や音声認識等の分野に活用される。テキスト文の意味を深く理解するために、画像、音声で高度な精度を得た深層学習モデルも有効と考えられ、様々な改良手法が開発されている。
本明細書では、品詞、語素など文を構成する単語の性質を「言語要素」と呼ぶ。文の構造上の特性を定量で表すベクトルを「文法ベクトル」と呼ぶ。文の意味を定量で表すベクトルを「文意ベクトル」と呼ぶ。多層オートエンコーダで言語要素の数値抽象ベクトルを圧縮する時、中間層で算出された圧縮途中のベクトルを「中間ベクトル」と呼ぶ。
D. Bahdanau, K. Cho, and Y. Bengio. Neural machine translation by jointly learning to align and translate. In Proc.ICLR, 2015. Sepp Hochreiter, Jurgen Schmidhuber. "Long Short-Term Memory". Neural Computation 9(8):1735-1780, 1997.
従来、複数の文書を比較したり類似性を測定するためBag of words(単語の袋)という手法が提案されている。Bag of wordsモデルとは、文書検索システムで従来使われている手法であり、文書中の語から索引語の集合を作り、与えられた検索語の集合あるいは質問文から作られた検索語の集合と比較照合するものをいう。
しかし、テキスト文の意味を深く理解するために、単語のリストのみが考えられる従来のBag of wordsモデルでは不十分であり、単語の配列である文法構造も考える必要がある。
LSTM(Long short - Term Memory)を含むRNN(再帰型ニューラルネットワーク)は、テキスト文を対象にする深層学習モデル(ディープ・ニューラルネットワーク)の主流であるが(例えば非特許文献2参照)、文法特徴は潜在的に考えられ、単語自体の特徴量と混ざっている。多くのモデルは、2つの特徴量の次元も一緒(隠れ変数の次元数とゲートの次元数)になっている。再帰型ニューラルネットワークを強化する注意力モデルは顕在的に文の構造を考えているが、局所的な重みのみで、文法レベルの抽象特徴量になっていない。
そこで、文法特徴を顕在的に考慮して、文の意味解釈を行なう技術が望まれている。
本発明の一側面は、入力装置、出力装置、演算装置、および記憶装置を備える計算機を用い、テキスト文の文意を数値化する情報処理方法である。この方法では、記憶装置からテキスト文のデータを読み出す第1のステップと、テキスト文の言語要素を解析して、テキスト文の文法構造を表す文法ベクトルを生成する第2のステップと、テキスト文から、単語ベクトルで構成されるマトリクスを生成する第3のステップと、文法ベクトルに基づいて単語ベクトルを重み付けし、重み付けした単語ベクトルで構成されるマトリクスに基づいて、テキスト文の文意を数値化した文意ベクトルを生成する第4のステップと、を備える。
本発明の他の一側面は、テキスト文のデータを格納するデータ記憶部と、テキスト文の言語要素を解析して、テキスト文の文法構造を表す文法ベクトルを生成する、文法ベクトル構築部と、テキスト文から、単語ベクトルで構成されるマトリクスを生成する、単語ベクトル構築部と、文法ベクトルに基づいて単語ベクトルを重み付けし、重み付けした単語ベクトルで構成されるマトリクスに基づいて、テキスト文の文意を数値化した文意ベクトルを生成する、文意ベクトル構築部と、を備える情報処理システムである。
本発明によれば、文の局所的な特徴ではなく、全体の構造特徴を自動的に解析することができる。上記した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
実施例1の計算機システムの構成の一例を示すブロック図である。 実施例1のデータベースに格納される標記データの一例を示す説明図である。 実施例1のデータベースに格納される無標記および標記データのテキストレコードの自然言語文の言語要素の一例を示す説明図である。 実施例1のデータベースに格納される無標記および標記データのテキストレコードの自然言語文を単語ベクトル化した結果の一例を示す説明図である。 実施例1のデータベースに格納される無標記および標記データのテキストレコードの自然言語文の言語要素からオートエンコーダで抽象された文法ベクトルの一例を示す説明図である。 実施例1のデータベースに格納される無標記および標記データのテキストレコードの自然言語文の言語要素からオートエンコーダで抽象された文法ベクトルからニューラルネットワークで算出される文法重みの一例を示す説明図である。 実施例1の文法重みを用いて、単語ベクトルを変換した結果の一例を示す説明図である。 実施例1の文法ベクトルを生成するためのオートエンコーダを無標記データのテキストレコードで生成する時、オートエンコーダの入力と出力および中間結果の一例を示す説明図である。 実施例1の文法ベクトルを生成するためのオートエンコーダの概念図である。 実施例1の計算機の文意差分スコアを算出する時に実行される処理の一例を説明するフローチャートである。 実施例1の計算機の文意モデルおよび文意差分モデルを学習する時に実行される処理の一例を説明するフローチャートである。 実施例1の計算機のオートエンコーダを学習する時に実行される処理の一例を説明するフローチャートである。
実施の形態について、図面を用いて詳細に説明する。ただし、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。
以下に説明する発明の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、重複する説明は省略することがある。
本明細書等における「第1」、「第2」、「第3」などの表記は、構成要素を識別するために付するものであり、必ずしも、数、順序、もしくはその内容を限定するものではない。また、構成要素の識別のための番号は文脈毎に用いられ、一つの文脈で用いた番号が、他の文脈で必ずしも同一の構成を示すとは限らない。また、ある番号で識別された構成要素が、他の番号で識別された構成要素の機能を兼ねることを妨げるものではない。
本明細書において単数形で表される構成要素は、特段文脈で明らかに示されない限り、複数形を含むものとする。
以下で説明する実施例のシステムでは、文法特徴を顕在的に考えることにより、単語の特徴量と分離して扱う。これにより、文法の構造と単語の意味という2つのものを分離して表現できるシステムを提案している。文法の構造と単語の意味は、人間であれば直感で分離可能であるが、これを可能とする人工的知能の実現は従来困難であった。以下で説明する実施例では、局所的な重み情報のみの注意力モデルの代わりに、もっと多くの情報が含まれている文法特徴量で、文の意味ベクトルを計算する過程をコントロールすることによって、文の局所的な特徴だけではなく、全体的な構造特徴も考えられるようになる。
実施例において開示される発明の代表的な一例を示せば以下の通りである。まず文の文法パタンを抽出する。抽出方法としては、一般的な形態素解析の技術を用いることができる。文法パタンはオートエンコーダで文法特徴ベクトルにする。オートエンコーダは教師なし学習で学習しておく。そして、この文法特徴ベクトルに基づいて注意力モデルによる単語ベクトルを重み付けして、単語ベクトルから文意ベクトルの計算過程をコントロールする。処理の中では必要に応じてニューラルネットワークを用いたベクトルの次元数変換を行なう。ニューラルネットワークを通じて次元数変換することで、後の処理のために次元数を合わせることができる。例えば文法特徴ベクトルと注意力モデルの重みの次元数を合わせる。
具体的には、プログラムを実行する演算装置、及び前記プログラムを格納するメモリを有する一つ以上の計算機を備える計算機システムとして構成することができる。このシステムでは、自然言語文となるテキストレコードで構成される無標記データを管理する無標記データ記憶部、自然言語文となるテキスト項目を含むレコードおよびそのレコードのスコアから構成される標記データを管理する標記データ記憶部、無標記データを用いて、文法ベクトルを生成するオートエンコーダを記憶するオートエンコーダモデル記憶部、標記データおよびオートエンコーダモデルで生成した文法ベクトルを用いて、文意ベクトルを生成する文意モデルを管理する文意モデル記憶部、生成した文意ベクトルを用いて、標記データの標記であるスコアを相当する数値を生成する文意差分モデルを管理する文意差分モデル記憶部、無標記データから文法ベクトルをオートエンコーダで算出する文法ベクトル構築部、文法ベクトルおよび標記データのテキストレコードから文意ベクトルを算出する文意ベクトル構築部、標記データのテキストレコード中の全ての自然言語文の文意ベクトルを用いて、文意差分モデルで、標記データ中のスコアに相当する数値を算出する文意差分ベクトル構築部を有する。これにより、文法特徴を顕在的に考えた文意の深層学習モデルおよび計算システムを提供する。
図1は、実施例1の計算機システムの構成の一例を示すブロック図である。計算機システムは、計算機200及びデータベース206から構成される。
計算機200は、文の文法パタンを抽出し、教師なし学習のオートエンコーダで文法特徴ベクトルにし、この文法特徴ベクトルを一層のニューラルネットワークを通じて変換する。変換後のベクトルを注意力モデルの重みとして使って単語ベクトルを変換し、文意ベクトルを計算し、文意ベクトルの差分で標記データのスコアに相当する数値を計算する。ここで、標記データのスコアは、例えば以下の場面が想定できる。(1)自然言語文2つがあって、この2つの文の間の文意の類似性を量るスコア。(2)自然言語文2つ以上があって、この数個の文の間の関連性を量るスコア。(3)自然言語文2つがあって、一つは問題で、一つは回答、この問題と回答ペア間の対応性を量るスコア。(4)自然言語文2つがあって、それぞれ異なる種類の言語であって、この2つの文の通訳精度を量るスコア。本実施例は文意の類似性を量るスコアを例として説明するが、場面に対応する学習を行うことにより、他の場面でも同様に適用することができる。
本実施例の計算機200は、演算装置201、メモリ202、記憶媒体203、入力装置204、及び出力装置205を有し、内部バス等を介して互いに接続される。
演算装置201は、メモリ202に格納されるプログラムを実行する演算装置であり、例えば、CPU(Central Processing Unit)及びGPU(Graphics Processing Unit)等がある。以下の、機能部を主語として処理及び機能を説明する場合、演算装置201によって当該機能部を実現するプログラムが実行されていることを示す。メモリ202は、演算装置201によって実行されるプログラム及び当該プログラムによって使用される情報を格納する。メモリ202は、揮発性のメモリ及び不揮発性のメモリのいずれであってもよい。
記憶媒体203は、計算機200が有する各種機能を実現するプログラム等を格納する。本実施例では、演算装置201が、記憶媒体203からプログラムを読み出し、読み出されたプログラムをメモリ202上にロードし、さらに、ロードされたプログラムを実行する。本実施例の記憶媒体203に格納されるプログラム等については後述する。
なお、記憶媒体203に格納されるプログラムは、CD−ROM及びフラッシュメモリ等のリムーバブルメディア又はネットワークを介して接続される配信サーバから取得する方法が考えられる。リムーバブルメディアからプログラムを取得する場合、計算機200は、リムーバブルメディアに接続されるインタフェースを備える。
入力装置204は、計算機200に各種情報を入力するための装置であり、例えば、キーボード、マウス、及びタッチパネル等が含まれる。出力装置205は、計算機200が実行した処理結果を出力する装置であり、例えばディスプレイ等が含まれる。
データベース206は、計算機200が管理する各種データを格納する。本実施例では、図示しないストレージシステムを用いてデータベース206が構築されるものとする。ストレージシステムは、コントローラ、外部インタフェース、及び複数の記憶媒体を備える。ストレージシステムは、複数の記憶媒体を用いてRAID(Redundant Arrays of Inexpensive Disks)を構成することができる。また、ストレージシステムは、RAIDボリュームを用いて複数の論理的な記憶領域を提供することもできる。
データベース206は、無標記データ記憶部241、標記データ記憶部242、オートエンコーダモデル記憶部243、文意モデル記憶部244、文意差分モデル記憶部245を含む。
無標記データ記憶部241は、文法ベクトルを生成するためのオートエンコーダモデルを生成するための無標記データを記憶する。無標記データの詳細は図2を用いて説明する。
標記データ記憶部242は、文ペアから文ペア間の類似度を量るスコアを算出するための文意モデルおよび文意差分モデルを学習するための標記データを記憶する。標記データの詳細は図2を用いて説明する。
オートエンコーダモデル記憶部243は、無標記データの自然言語文テキストレコードから文法ベクトルを生成するためのオートエンコーダモデルを記憶する。オートエンコーダモデルを、教師なし学習する詳細過程は図12を用いて説明する。
文意モデル記憶部244は、標記データの自然言語文テキストレコードから文法ベクトルを用いて、標記データのスコアに相当する数値を算出するために必要な文意ベクトルを算出するための文意モデルを記憶する。文意ベクトルの詳細計算プロセスおよび文意モデルの学習過程は図10および図11を用いて説明する。
文意差分モデル記憶部245は、標記データの自然言語文テキストレコードから文法ベクトルを用いて、標記データのスコアに相当する数値を算出するために必要な文意差分ベクトルを文意ベクトルから算出するための文意差分モデルを記憶する。文意差分ベクトルの詳細計算プロセスおよび文意差分モデルの学習過程は図10および図11を用いて説明する。
ここで、記憶媒体203に格納されるプログラムについて説明する。記憶媒体203は、文法ベクトル構築部210、文意ベクトル構築部220、文意差分ベクトル構築部230を実現するプログラムを格納する。
文法ベクトル構築部210は、テキストレコードの自然言語文を構文解析し、言語要素に分け、文法特徴を表す文法ベクトルを算出する。文法ベクトル構築部210は、言語要素解析部211、オートエンコーダ圧縮部212、文法ベクトル計算部213を含む。
言語要素解析部211は、テキストレコードの自然言語文を構文解析し、言語要素に変換する。言語要素解析部の処理の詳細例は図3を用いて説明する。
オートエンコーダ圧縮部212は、生成した言語要素をオートエンコーダで次元数を圧縮する。オートエンコーダ圧縮部の処理の詳細例は図8、図9を用いて説明する。
文法ベクトル計算部213は、生成した言語要素をオートエンコーダで次元数を圧縮した結果を線形変換で規格化し、文法ベクトルを計算する。文法ベクトル計算部の処理の詳細例は図8を用いて説明する。
文意ベクトル構築部220は、テキストレコードの自然言語文の文意を表す文意ベクトルを算出する。文意ベクトル構築部220は単語ベクトル構築部221、文法重み計算部222、文意ベクトル計算部223、文意ベクトル変換部224を含む。
単語ベクトル構築部221は、テキストレコードの自然言語文を単語ごとに単語ベクトルに入れ替え、単語ベクトルで順番に構成される単語ベクトルマトリクスに変換する。単語ベクトル構築部の処理の詳細例は図4を用いて説明する。
文法重み計算部222は、算出された文法ベクトルを用いて、線形変換で次元数を文の長さに変換し、文法重みを算出する。文法重み計算部の処理の詳細例は図6を用いて、説明する。
文意ベクトル計算部223は、構成された単語ベクトルマトリクスおよび算出された文法重みを用いて、ディープニューラルネットワークで自然言語文の意味を表す文意ベクトルを算出する。文意ベクトル計算部の処理の詳細プロセスは図10、図11を用いて説明する。
文意ベクトル変換部224は、算出された文意ベクトルをディープニューラルネットワークで空間変換し、全ての自然言語文の文意ベクトルの次元数を揃えるように変換する。文意ベクトル変換部224の処理の詳細プロセスは図10、図11を用いて説明する。
文意差分ベクトル構築部230は、前記で算出し、同じ次元数に変換された文意ベクトルの間の各種の差分特徴量を計算し、標記データのスコアに相当する数値を算出する。文意差分ベクトル構築部230は、文意差分ベクトル計算部231と、文意差分ベクトル変換部232を含む。
文意差分ベクトル計算部231は、前記で算出し、同じ次元数に変換された文意ベクトルの間の各種の差分特徴量を計算する。文意差分ベクトル計算部231の処理の詳細プロセスは図10、図11を用いて説明する。
文意差分ベクトル変換部232は、前記で算出された文意ベクトル間の各種差分特徴量で構成されるベクトルをディープニューラルネットワークで変換し、標記データのスコアに相当する数値に変換する。文意差分ベクトル変換部232の処理の詳細プロセスは図10、図11を用いて説明する。
図1に示した実施例の計算機200の構成は、単体の計算機で構成してもよいし、あるいは、入力装置、出力装置、処理装置、記憶装置の任意の部分が、ネットワークで接続された他の計算機で構成されてもよい。また、本実施例中、ソフトウエアで構成した機能と同等の機能は、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)などのハードウエアでも実現できる。
図2は、実施例1の計算機システム上のデータベース206の無標記データ記憶部241および標記データ記憶部242に格納される、無標記データ2001および標記データ2002を説明する説明図である。無標記データ2001と標記データ2002の違いは、図2のスコア604の有無のみであるため、図2により両者を説明する。無標記データ2001にはスコア604がなく、標記データ2002にはスコア604がある。無標記データ2001と標記データ2002は、学習データとして用いられるため、以下学習データ600として説明する。
学習データ600はテキストレコードの自然言語文2つおよび、例えばそれらの間の文意の類似度を量るスコアを含む。本実施例のレコードはレコードID601、第1の自然言語文602、第2の自然言語文603、スコア604を含む。レコードID601は自然言語文ペアの識別情報である。自然言語文はたとえば、文書データベース等からランダムに取得することができる。
第1の自然言語文602は自然言語文ペアの中の文の一つである。第2の自然言語文603は自然言語文ペアの中の文のもう一つである。ここで、自然言語文間の類似度を量る場合、それぞれの文は文意を持つ完全なる文になる必要がある。また、問題、回答ペアの場合、第1の自然言語文は問題になる形式が必要であり、第2の自然言語文は回答になる形式が必要である。ここで、第1の自然言語文と第2の自然言語文の形式は交換できる。図2の例は、2つの文602と603のペアとなっているが、用途や目的に応じて、文は一つあるいは3つ以上の場合もある。
スコア604は、第1の自然言語文602と第2の自然言語文603の間の文意の類似性を量る数値である。ここでは6段階の評価で、0から5までの範囲で、採点されている。この数値は、利用者が別途採点して無標記データ2001に追加することにより、標記データ2002が得られる。利用者が付したスコアを持つ標記データは、ニューラルネットワーク学習時の教師データとして用いられる。上の例では、スコア604は2つの文の類似度であるが、既述のように、問題と回答ペア間の対応性を量るスコアや、2つの異なる言語による文の通訳精度を量るスコアのように、用途や目的に応じて定めることができる。
図3は、実施例1の計算機システム上のデータベース206に格納される、無標記データ2001および標記データ2002のテキストレコードの、自然言語文の言語要素の一例を示す説明図である。言語要素の解析は言語要素解析部211により実行される。言語要素解析(形態素解析)自体は、公知の技術である。
言語要素解析例700は例文を構成する単語の並び701と、例文を構成する単語の品詞および文法単位の属性からなる言語要素702を含む。例文を構成する単語の並び701は、本実施例の例文として、「虎は兎を食べた。」としている。この単語の並び701は、無標記データ2001および標記データ2002のテキストレコード(図2の602,603)に対応する。例文を構成する単語の品詞および文法単位の属性を配列した言語要素702は、本実施例の例文として、「虎」は名詞で主語になっている。「は」と「を」は文法構成上の助詞である。「兎」は名詞で本例文の目的語あるいは対象語である。最後、「食べた」は動詞で本例文の述語である。
図4は、実施例1の計算機システム上のデータベース206に格納される、無標記データ2001および標記データ2002のテキストレコードの自然言語文を単語ベクトル化した結果の一例を示す説明図である。単語ベクトル化は単語ベクトル構築部221により実行される。単語のベクトル化自体は公知技術である。
単語ベクトル化した例文例800は例文を構成する単語の並び701と、例文を構成する単語をベクトル化した結果の単語ベクトルの並びで構成される単語マトリクス802を含む。例文を構成する単語の並び701は、図3と同様である。
例文を構成する単語をベクトル化した結果のベクトルの並びで構成される単語マトリクス802は、本実施例として、「虎」はベクトル[0.1,0.3,0.2,0.5,...]に変換される。ここで、ベクトルの次元は事前に規定される数値とする。また、各次元の数値は人間の概念に一致するものとは限らず、無標記テキストデータから自動的に学習されるベクトルになる。続いて、助詞「は」と「を」はそれぞれ[0.2,0.3,0.5,0.8,...]と[0.8,0.1,0.2,0.1,...]にする。単語ベクトルの間の距離は必ずではないが、一般的には人間の概念間の距離と相関性がある。兎は[0.5,0.1,0.2,0.3,...]、「食べた」は[0.9,0.8,0.7,0.5,...]、約物の「。」もそれと対応しているベクトルに変換する。これで、例文を構成する全ての単語をベクトルにし、例文を一つのマトリクスにすることで数値化することができる。
図5は、実施例1の計算機システムのデータベースに格納される無標記データ2001および標記データ2002のテキストレコードの自然言語文の言語要素702からオートエンコーダで抽出された文法ベクトルの一例を示す説明図である。文法ベクトルは、オートエンコーダ圧縮部212と、文法ベクトル計算部213により生成される。
文法ベクトルの計算例900は例文を構成する単語の並び701と、例文を構成する単語の品詞および文法単位の属性の配列である言語要素702と、例文の文法特徴量を数値で表すベクトルである文法ベクトル903を含む。例文を構成する単語の並び701と、例文を構成する単語の品詞および文法単位の属性の配列である言語要素702は、図3と同様である。
例文の文法特徴量を数値で表すベクトルである文法ベクトル903は、本実施例の例として、例文「虎は兎を食べた。」に対応する文法ベクトルは[0.3,0.3,0.8,0.6,0.7,0.2,...]になる。これは例文の意味の内容を考えず、文法の抽象表現である「名詞」「助詞」「名詞」「助詞」「動詞」「約物」の並びを数値化して表現したベクトルである。含まれている情報は文法の特徴のみである。本実施例では、言語要素702からオートエンコーダ圧縮部212を用いて文法ベクトル903を生成する。オートエンコーダの詳細は、後に図8および図9で説明する。
図6は、図5で示した文法ベクトル903からニューラルネットワークで算出される文法重みの一例を示す説明図である。文法重みは文法重み計算部222で計算される。
文法重みの計算例1000は例文を構成する単語の並び701と、例文を構成する単語の品詞および文法単位の属性である言語要素702と、例文の文法特徴量を数値で表すベクトルである文法ベクトル903と、それぞれの単語の品詞および文法単位の意味理解に対する重要さを示す文法重み1004を含む。例文を構成する単語の並び701、言語要素702、文法ベクトル903は図5と同様である。
例文のそれぞれの単語の品詞および文法単位の意味理解に対する重要さを示す文法重み1004は、文法ベクトル903を一層のニューラルネットワークを経由して、文法ベクトルの次元数(例えば300次元)から文の長さの次元数(例えば6次元)に変換した結果である。本実施例の場合、文法重み1004は、[0.8,0.3,0.6,0.2,0.7,0.1]になっている。文法重みは、「虎は兎を食べた。」との例文にとって、意味理解時、「虎」と「兎」の重要さ0.8と0.6に対して、助詞「は」と「を」の重要さは0.3と0.2しかないことを示す。このことは人間の意味理解時の直感と一致している。この変換を行なうニューラルネットワークは、別途教師あり学習で生成しておく。学習時の教師データとしては、利用者が言語要素702に対して重みスコアを付した標記ありデータを用いる。
図7は実施例1の文法重み1004を用いて、単語ベクトルを変換した結果の一例を示す説明図である。単語ベクトル化した例文例の変換結果1100は、例文を構成する単語の並び701と、例文を構成する単語をベクトル化した結果のベクトルの並びで構成される単語マトリクス802と、それぞれの単語の品詞および文法単位の意味理解に対する重要さを示す文法重み1004と、例文を構成する単語をベクトル化した結果のベクトルを文法重み1004で調整された結果ベクトルの並びで構成される単語マトリクス1104を含む。例文を構成する単語の並び701、単語マトリクス802、文法重み1004は、図2〜図6で説明したものと同様である。
単語マトリクス802の重み付けは、文法重み計算部222により文意ベクトル計算部223の処理前に行なわれる。単語マトリクス1104は、例文を構成する単語をベクトル化した結果のベクトルの並びで構成される単語マトリクス802と、例文のそれぞれの単語の品詞および文法単位の意味理解に対する重要さを示す文法重み1004とに基づいて、それぞれの単語ベクトルに対して、重み調整をした結果である。これによって、文の意味理解に対して重要である単語のベクトルは強化され、重要ではない品詞や文法単位のベクトルは弱化されるので、後継のディープニューラルネットワークによる、各単語のベクトルから文のベクトルに変換する、意味ベクトルの変換処理に、人間の直感と一致するコントロール要素を入れることができた。
図8は文法ベクトル903を生成するため、オートエンコーダで無標記データのテキストを処理する時の、オートエンコーダの入力と出力および中間結果の一例を示す説明図である。オートエンコーダの処理はオートエンコーダ圧縮部212で行なわれ、文法ベクトルの計算は文法ベクトル計算部213で行なわれる。
オートエンコーダの入力と出力および中間結果の例1200は、例文を構成する単語の並び701と、例文を構成する単語の品詞および文法単位の属性である言語要素702と、例文を構成する単語の品詞および文法単位の属性の数値抽象1203と、例文の文法特徴を表す次元数が一定しているベクトルである文法ベクトル903と、例文の文法特徴を表す文法ベクトルから還元される例文を構成する単語の品詞および文法単位の属性の数値抽象1205を含む。例文を構成する単語の並び701、単語の品詞および文法単位の属性である言語要素702、文法ベクトル903は、図2〜図7で説明したものと同様である。
例文を構成する単語の品詞および文法単位の属性の数値抽象1203は、本実施例として、「名詞」を「1」にし、「動詞」を「2」にし、「助詞」を「3」にし、「約物」を「0」にした結果。本実施例の文法単位の属性の数値抽象を表すベクトルは「1,3,1,3,2,0」になる。このような変換ルールは利用者が予め定義しておき、データベース206に格納しておく。
図9は、図8の変換を行なうオートエンコーダの概念図である。オートエンコーダは、オートエンコーダモデル記憶部243に格納される。例文の文法特徴を表す次元数が一定しているベクトルである文法ベクトル903は、図9で示されているオートエンコーダ9000の階層的な変換によって、例文を構成する単語の品詞および文法単位の属性の数値抽象1203を表すベクトル「1,3,1,3,2,0」から、中間ベクトル1206を経由して変換され、文法ベクトル計算部213で、例えば規格化等の処理を行なって生成される。概念上では、文法ベクトル903は、例文の言語要素の数値抽象1203で構成されるベクトルを事前に規定した次元数に圧縮した結果である。運用時において、文法ベクトル903は、オートエンコーダの出力9001となり、最終的に文法ベクトル計算部213から出力される。
また学習時には、文法ベクトル903から逆変換により還元される要素の数値抽象1205は、文法ベクトル903から、オートエンコーダ9000の階層的な変換によって、中間ベクトル1207を経て生成される。図8の例では、還元した要素の数値抽象1205は、例文を構成する単語の品詞および文法単位の属性の数値抽象1203に対応する、数値抽象1203を表すベクトル「1,3,1,3,2,0」を再現したベクトルである。概念上では、文法ベクトル903が例文の言語要素の数値抽象1203で構成されるベクトルを事前に規定した次元数に欠落なしで圧縮できれば、還元した文法単位の属性の数値抽象1205を表すベクトルは本来のベクトルである「1,3,1,3,2,0」と一致することになる。しかし、現実には異なる場合が多い。実用上では、還元したベクトルと本来のベクトルの間の各種の差分計算9002を行ない、差分が小さくなるようにバックプロパゲーションでオートエンコーダの学習を行い、差分が事前に規定された閾値より小さくなれば、学習を終了する。ここで、使えるベクトル間の差は、絶対差、内積などが考えられる。
図10は、実施例1の計算機システムを用い、データベース206に格納される無標記データ2001を用いて、標記データ2002のスコア604に相当する数値(図2参照)を自動算出するプロセスを示す説明図である。学習済みの計算機システムを用いた、運用時の処理を示している。
計算機200は、無標記データ2001から標記データ2002のスコア604に相当する数値の算出が指示された場合等に、以下で説明する処理を開始する。
ステップS101で、計算機200は、無標記データ2001(図2参照)の入力を受付、テキストレコードの自然言語文を選択する。無標記データ2001は、例えば、入力装置204等を用いて入力する方法が考えられる。
このとき、計算機200は、データベース206の無標記データ記憶部241に、入力された無標記データ2001を格納する(図1参照)。なお、様々なデータ形式の無標記データが入力される場合、無標記データ記憶部241は、入力されたデータを図2に示すような形式に変換した後、変換された無標記データ2001を格納してもよい。
ステップS102で、計算機200の言語要素解析部211は、選択された自然言語文の言語要素を解析する。文を単語単位で分割し、それぞれの単語の品詞および文法役割を標記する。具体的には、言語要素解析部211は無標記データ2001のテキストレコードの自然言語文602(あるいは603)を単語単位で分割し、単語の品詞および文法役割を並べて言語要素702を得る(図3参照)。なお、ここでの処理は、公知の形態要素解析を用いた外部解析器を使うことが可能である。たとえば、MeCabやStanfordNLPなどの公知のツールを使うことが可能である。
ステップS103で、計算機200は、ステップS102で生成した、自然言語文602の単語単位の品詞あるいは文法役割情報を示す言語要素702(図3参照)を、オートエンコーダ9000に入力し、オートエンコーダ圧縮部212で、文法の特徴量を圧縮する(図8、図9参照)。なお、文法特徴量の数値抽象1203は整数であるが、オートエンコーダの中の中間結果である中間ベクトル903,1206,1207および還元した要素の数値抽象1205は整数と限らない。オートエンコーダの学習時あるいは運用時の精度確認のために、還元結果である数値抽象1205と本来の文法特徴量の数値抽象1203の差を計算するとき、計算精度は還元結果の精度に準ずればよい。還元結果と本来の文法特徴量の間の差が事前に規定した閾値より小さい場合、オートエンコーダは正常に作動しているとする。すなわち、このオートエンコーダは教師なし学習で最適化が可能である。
ステップS104で、計算機200の文法ベクトル計算部213は、生成した自然言語文602の言語要素702をオートエンコーダで圧縮した結果の中間層の、次元数が事前に規定された中間結果をベクトル化し、文法特徴を表す文法ベクトル903(図5、図8、図9参照)を算出する。
ステップS105で、計算機200の文法重み計算部222は、ステップS104で生成した文法特徴を表す文法ベクトル903を、ニューラルネットワーク経由で、事前に規定した次元数の文法ベクトル903から自然言語文の長さの次元数に変換し、文法重み1004を算出する(図6参照)。例えばS次元の文法ベクトルを、S×Tのマトリクス変換で、文の長さTにあわせて重みを生成する。次元数を変換するS×Tのマトリクスは、教師あり学習で学習しておく。
ステップS106で、計算機200の単語ベクトル構築部221は、選択された自然言語文の単語をベクトル化し、自然言語文を数値マトリクスに変換する。なお、ここでの単語ベクトル化は外部辞書を用いることができる。例えば、GoogleNews(商標)、GloVe辞書などの公知の単語ベクトル辞書を用いることができる。
ステップS107で、計算機200の単語ベクトル構築部221は、ステップS106で生成した単語ベクトルで構成される自然言語文の数値マトリクスを、ニューラルネットワーク経由で、事前に規定される次元数の自然言語文の自然言語記号を数値化した結果である数値マトリクスを得、単語マトリクス802として算出する(図4参照)。
ステップS108で、計算機200の文意ベクトル計算部223は、ステップS107で生成した自然言語文の自然言語記号を数値化した結果である単語マトリクス802と、ステップS105で生成した文法特徴量の圧縮結果である文法ベクトル903から算出された自然言語文の長さに合わせた文法重み1004を用いて、変換後の単語マトリクス1104を生成する(図7参照)。この処理では、従来の注意力モデルに対して、ステップS105で生成した文法重みを適用することになる。そして、ディープニューラルネットワーク経由で、変換後の複数の単語ベクトルの単語マトリクス1104から、自然言語文の文意を数値化して表す一つの文意ベクトル(意味ベクトル)を算出する。この場合には、文意ベクトルの形式は、一つのベクトルになる。別の例では、変換後の複数の単語ベクトルの数値マトリクスである単語マトリクス1104を、そのまま文の意味を示すマトリクスとして用いてもよい。
ステップS109で、計算機200の文意ベクトル変換部224は、必要に応じて、ステップS108で生成した文意ベクトルを事前に規定される次元数から変換する。例えば、文意間の差分を計算するためには、他の文の文意ベクトルと次元数を合わせるように、ニューラルネットワーク経由で変換する。
ステップS110で、計算機200は、データベース206の無標記データ記憶部241に格納されている無標記データ2001のテキストレコードの自然言語文を、全て自然言語文の文の意味を数値で表す結果である文意ベクトルに変換したかどうかを検証する。もし、全ての自然言語文の処理は完了していないならば、プロセスはステップS101に戻り、次の自然言語文を選択し、処理する。もし、全ての自然言語文の処理が完了したら、プロセスは次の段階、各自然言語文の文の意味間の関係を計算するプロセスに入る。プロセスの具体的な流れは次で説明する。
ステップS111で、計算機200の文意差分ベクトル計算部231は、生成した全ての自然言語文の文の文意ベクトルを揃えて、各自然言語文の文の意味間の各種差分を計算する。本実施例の場合、一つのテキストレコードでは2つの自然言語文があるので、2つの自然言語文の文の意味を数値化した結果である文意ベクトル間の各種差分を計算すれば良い。なお、一つのテキストレコードの中で、2つ以上の自然言語文が含まれる場合も考えられ、その場合は、各自然言語文の文の意味を数値化した結果である各文意ベクトルの分布を計算し、各文意ベクトル間の離散程度を量る数値特徴量、例えば、標準差などの指標が計算できる。
ステップS112で、計算機200の文意差分ベクトル変換部232は、ステップS111で計算された2つの自然言語文の文の意味を数値化した結果である文意ベクトル間の各種差分をディープニューラルネットワーク経由で、データベース206の標記データ記憶部242に格納している標記データ2002のスコア604に相当する数値の次元数に合わせるように変換する。
ステップS113で、計算機200の文意差分ベクトル変換部232は、ステップS112で変換された各自然言語文の文の意味間の差分を数値化した結果である文意差分ベクトルから、無標記データ2001のスコア604に相当する数値を算出する(図2参照)。
図11は、実施例1の計算機システム(図1参照)を用いて、計算機200の文意モデル記憶部244に格納する文意モデル、および文意差分モデル記憶部245に格納する文意差分モデルを学習する時に実行される処理の一例を説明するフローチャートである。
本実施例では、基本的に図10、図11の文意ベクトル計算(S108)から文意差分スコアの計算(S113)までを、一つのディープニューラルネットワークDNNで行なうことにした。図11中、ディープニューラルネットワークが担当する処理の範囲を点線で囲んで示した。
本実施例では、ディープニューラルネットワークDNNの学習は、公知の誤差逆伝播法(バックプロパゲーション)を用いて行なった。図11の説明では、図10記載のステップと同様のステップは、同じ符号を付して説明は省略する。ステップS401以前に無標記データ2001に対して、テキストレコードの全ての自然言語文間の関係を定量で量る標記データ2002のスコア604に相当する数値を、計算機システムを用いて算出しておく(図2参照)。それからのプロセスを下記で説明する。
ステップS408で、計算機200は、前記で算出された、無標記データ2001のスコアに相当する数値を、データベース206の標記データ記憶部242に格納している標記データ2002のスコア604と、それぞれ比較してスコアの差分を計算する。
標記データ2002のスコア604は、予め使用者が付加した正解スコアであり、標記データ2002を教師データとして用いることになる。もし、例えば差分の絶対値の合計値(以下単に「差分」という)が事前に規定した閾値に辿り着けたら、その時点の計算機200のデータベース206の文意モデル記憶部244で管理されている文意モデル、および文意差分モデル記憶部245で管理されている文意差分モデルを保存し、学習プロセスを終了する(ステップS413)。
もし、前記の差分が事前に規定した閾値に辿り着けなければ、その差分とディープニューラルネットワークのパラメータ間の勾配を計算するステップに入る。この勾配を用いて誤差を最小にするアルゴリズムは、周知の確率的最急降下法である。
ステップS409で、前記で算出された無標記データ2001のスコアに相当する数値を、標記データ記憶部242に格納している標記データ2002のスコア604と比較し、差分を算出し、その差分と文意差分モデル記憶部245で管理されている文意差分モデルパラメータ間の勾配を計算する。
ステップS410で、ステップS409で算出された勾配を用いて、文意差分モデル記憶部245で管理されている文意モデルパラメータを更新する。更新の幅は事前に規定される係数で定めても良い。あるいは、現時点での文意モデルパラメータと連動して決めっても良い。
ステップS411で、ステップS409で算出された勾配を用いて、前記で算出された無標記データ2001のスコアに相当する数値と、標記データ記憶部242に格納している標記データ2002のスコア604との差分と、文意モデル記憶部244で管理されている文意モデルパラメータ間の勾配を計算する。
ステップS412で、ステップS411でで算出された勾配を用いて、文意モデル記憶部244で管理されている文意モデルパラメータを更新する。更新の幅は事前に規定される係数で定めても良い。あるいは、現時点での文意差分モデルパラメータと連動して決めても良い。
なお、図10、図11では、2つの自然言語文の意味間の差分を数値化したスコアを算出する例を説明した。すでに述べたように、問題文と回答文ペア間の対応性を量るスコア、2つの文の通訳精度を量るスコアなど、他の種類のスコアを生成するシステムも、同様に学習することができることは言うまでもない。
図12は、実施例1の計算機のオートエンコーダ圧縮部212におけるオートエンコーダ(図8、図9参照)を学習する時に実行される処理の一例を説明するフローチャートである。図10記載のステップと同様のステップは、同じ符号を付して説明は適宜省略する。図12中、オートエンコーダAEが担当する処理の範囲を点線で囲んで示した。本実施例では、オートエンコーダAEは、教師なし学習により学習が行なわれるものとしている。
計算機200は、学習時に無標記データ2001から文法ベクトル903を算出することが指示された場合等に以下で説明する処理を開始する。
ステップS101で、計算機200は、無標記データ2001の入力を受付、テキストレコードの自然言語文を選択する。
ステップS102で、言語要素解析部211は、ステップS101で選択されたテキスト文701の自然言語文の言語要素を解析し、文を単語単位で分割し、それぞれの単語の品詞および文法役割を標記する言語要素702を得る(図3参照)。
ステップS103で、オートエンコーダ圧縮部212は、ステップS102で生成した言語要素702をオートエンコーダ9000に入力し、圧縮して中間結果を得、中間結果をベクトル化して文法ベクトル903を得る(図8、図9参照)。
ステップS505で、オートエンコーダ圧縮部212は、言語要素の数値抽象1203を圧縮した中間結果を、ふたたび、オートエンコーダを経由して、言語要素の数値抽象1203を還元した要素の数値抽象1205を得る(図8、図9参照)。
ステップS506で、計算機200は前記の還元結果である数値抽象1205と本来の数値抽象1203を比較し、それらの間の差分を計算する。なお、文法特徴量の数値抽象1203は整数であるが、オートエンコーダの中の中間結果および最終還元結果は整数と限らない。還元結果と本来の文法特徴量の数値抽象の差を計算する時、還元結果の精度に準する(図8、図9参照)。
ステップS507で、計算機200はステップS506で計算した差分を、事前に規定した閾値と比較する。差分が閾値より小さい場合、オートエンコーダは正常に作動しているとし、学習過程を終了する。
ステップS508で、ステップS507の比較結果が閾値より大きい場合、ステップS506で算出された差分とオートエンコーダモデル記憶部243で管理されているオートエンコーダモデルパラメータ間の勾配を計算するプロセスに入る。
ステップS503で、計算機200はステップS508で計算された勾配を用い、オートエンコーダモデル記憶部243で管理されているオートエンコーダモデルパラメータを更新する。
もしステップS507で、ステップS506で計算した差分が前記の閾値より小さい場合、ステップS509でオートエンコーダモデルパラメータをオートエンコーダモデル記憶部243に保存する。
以上詳細に説明した本実施例では、教師なし学習で、文の文法パタンをオートエンコーダで文法特徴ベクトルにする。そして、この文法特徴ベクトルを一層のニューラルネットワークを通じて変換し、変換後のベクトルを注意力モデルの重みとして使い、単語ベクトルから文意ベクトルの計算過程をコントロールする。
具体的な構成としては、プログラムを実行する演算装置、及び前記プログラムを格納するメモリを有する一つ以上の計算機を備える計算機システムであって、自然言語文となるテキストレコードで構成される無標記データを管理する無標記データ記憶部、自然言語文となるテキスト項目を含むレコードおよびそのレコードのスコアから構成される標記データを管理する標記データ記憶部、無標記データを用いて、文法ベクトルを生成するオートエンコーダを記憶するオートエンコーダモデル記憶部、標記データおよびオートエンコーダモデルで生成した文法ベクトルを用いて、文意ベクトルを生成する文意モデルを管理する文意モデル記憶部、生成した文意ベクトルを用いて、標記データの標記であるスコアに相当する数値を生成する文意差分モデルを管理する文意差分モデル記憶部、無標記データから文法ベクトルをオートエンコーダで算出する文法ベクトル構築部、文法ベクトルおよび標記データのテキストレコードから文意ベクトルを算出する文意ベクトル構築部、標記データのテキストレコード中の全ての自然言語文の文意ベクトルを用いて、文意差分モデルで、標記データ中のスコアに相当する数値を算出する文意差分ベクトル構築部、などの機能部品を有する。
以上説明した実施例によれば、文法特徴を顕在的に考えることにより、単語の特徴量と明確的に分けられ、文法の構造と単語の意味の人類の直感で分離するはずの2つのものを分離して表現できる。局所的な部分のための重み情報のみの注意力モデルの代わりに、もっと多くの情報が含まれている文法特徴量で、文の意味ベクトルを計算する過程をコントロールすることによって、文の局所的な特徴ではなく、全局の構造特徴を考えられるようになる。
本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることが可能である。また、各実施例の構成の一部について、他の実施例の構成の追加・削除・置換をすることが可能である。

Claims (15)

  1. 入力装置、出力装置、演算装置、および記憶装置を備える計算機を用い、テキスト文の文意を数値化する情報処理方法であって、
    前記記憶装置からテキスト文のデータを読み出す第1のステップと、
    前記テキスト文の言語要素を解析して、テキスト文の文法構造を表す文法ベクトルを生成する第2のステップと、
    前記テキスト文から、単語ベクトルで構成されるマトリクスを生成する第3のステップと、
    前記文法ベクトルに基づいて前記単語ベクトルを重み付けし、重み付けした単語ベクトルで構成されるマトリクスに基づいて、前記テキスト文の文意を数値化した文意ベクトルを生成する第4のステップと、
    を備える情報処理方法。
  2. 前記第2のステップは、
    前記テキスト文を解析して、テキスト文を構成する各単語の品詞および文法役割の少なくとも一つを配列した言語要素を生成する、言語要素解析ステップと、
    前記言語要素から、前記文法ベクトルを生成する文法ベクトル計算ステップと、
    を含む請求項1記載の情報処理方法。
  3. 前記第2のステップは、
    前記言語要素の各単語に対応する部分を数値化し、数値抽象ベクトルを生成する数値抽象ベクトル生成ステップと、
    前記数値抽象ベクトルを、事前に規定した次元数に圧縮する圧縮ステップと、
    を含み、
    前記圧縮された数値抽象ベクトルから前記文法ベクトルを生成する、
    請求項2記載の情報処理方法。
  4. 前記圧縮ステップは、オートエンコーダにより実行される、
    請求項3記載の情報処理方法。
  5. 前記オートエンコーダは、教師なし学習により学習されている、
    請求項4記載の情報処理方法。
  6. 前記第4のステップは、
    前記文法ベクトルの次元数を変換し、前記単語ベクトルに対応した文法重みを生成する文法重み計算ステップを含む、
    請求項1記載の情報処理方法。
  7. 前記文法重み計算ステップは、
    前記文法ベクトルの次元数を線形変換で前記テキスト文の長さに変換し、前記文法重みを算出する、
    請求項6記載の情報処理方法。
  8. 第5のステップをさらに備え、
    前記第1のステップは、
    前記記憶装置からテキスト文のペアからなるデータを読み出し、
    前記第5のステップは、
    前記テキスト文のペアの前記文意ベクトル同士を比較することにより、スコアを算出する、
    請求項1記載の情報処理方法。
  9. 前記第4のステップの少なくとも一部と、前記第5のステップの少なくとも一部は、一つのディープニューラルネットワークで実行される、
    請求項8記載の情報処理方法。
  10. 前記ディープニューラルネットワークは、教師あり学習により学習されている、
    請求項9記載の情報処理方法。
  11. 前記スコアは、
    前記テキスト文のペアの文意の類似性を量るスコア、前記テキスト文のペアの間の関連性を量るスコア、前記テキスト文のペアの対応性を量るスコア、および、異なる言語による前記テキスト文のペアの通訳精度を量るスコアの、少なくとも一つである、
    請求項8記載の情報処理方法。
  12. テキスト文のデータを格納するデータ記憶部と、
    前記テキスト文の言語要素を解析して、テキスト文の文法構造を表す文法ベクトルを生成する、文法ベクトル構築部と、
    前記テキスト文から、単語ベクトルで構成されるマトリクスを生成する、単語ベクトル構築部と、
    前記文法ベクトルに基づいて前記単語ベクトルを重み付けし、重み付けした単語ベクトルで構成されるマトリクスに基づいて、前記テキスト文の文意を数値化した文意ベクトルを生成する、文意ベクトル構築部と、
    を備える情報処理システム。
  13. 前記文法ベクトル構築部は、
    前記テキスト文を解析して、テキスト文を構成する各単語の品詞および文法役割の少なくとも一つを配列した言語要素を生成する、言語要素解析部と、
    前記言語要素を数値化して数値抽象ベクトルを生成し、該数値抽象ベクトルの次元数を圧縮する、オートエンコーダ圧縮部と、
    前記圧縮された数値抽象ベクトルを規格化して文法ベクトルを生成する、文法ベクトル計算部と、
    を備える請求項12記載の情報処理システム。
  14. 前記文意ベクトル構築部は、
    前記文法ベクトルの次元数を変換し、前記単語ベクトルに対応した文法重みを生成する文法重み計算部、
    を備える請求項12記載の情報処理システム。
  15. 文意演算ベクトル構築部をさらに備え、
    前記データ記憶部は、複数のテキスト文の組からなるデータを格納し、
    前記文意演算ベクトル構築部は、
    前記テキスト文の組の前記文意ベクトルを演算する文意演算ベクトル計算部と、
    前記演算の結果をスコアに変換する文意演算ベクトル変換部と、
    を備える請求項12記載の情報処理システム。
JP2018017205A 2018-02-02 2018-02-02 情報処理装置および情報処理システム Pending JP2019133563A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018017205A JP2019133563A (ja) 2018-02-02 2018-02-02 情報処理装置および情報処理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018017205A JP2019133563A (ja) 2018-02-02 2018-02-02 情報処理装置および情報処理システム

Publications (1)

Publication Number Publication Date
JP2019133563A true JP2019133563A (ja) 2019-08-08

Family

ID=67547507

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018017205A Pending JP2019133563A (ja) 2018-02-02 2018-02-02 情報処理装置および情報処理システム

Country Status (1)

Country Link
JP (1) JP2019133563A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732900A (zh) * 2021-01-04 2021-04-30 山东众阳健康科技集团有限公司 一种电子病历文本摘要抽取方法
CN113627161A (zh) * 2021-08-09 2021-11-09 杭州网易云音乐科技有限公司 数据处理方法及装置、存储介质、电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732900A (zh) * 2021-01-04 2021-04-30 山东众阳健康科技集团有限公司 一种电子病历文本摘要抽取方法
CN112732900B (zh) * 2021-01-04 2022-07-29 山东众阳健康科技集团有限公司 一种电子病历文本摘要抽取方法
CN113627161A (zh) * 2021-08-09 2021-11-09 杭州网易云音乐科技有限公司 数据处理方法及装置、存储介质、电子设备
CN113627161B (zh) * 2021-08-09 2024-06-04 杭州网易云音乐科技有限公司 数据处理方法及装置、存储介质、电子设备

Similar Documents

Publication Publication Date Title
KR102071582B1 (ko) 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치
Tang et al. Sentiment embeddings with applications to sentiment analysis
US20220180073A1 (en) Linguistically rich cross-lingual text event embeddings
CN111597830A (zh) 基于多模态机器学习的翻译方法、装置、设备及存储介质
CN109783618A (zh) 基于注意力机制神经网络的药物实体关系抽取方法及系统
Beysolow Applied natural language processing with python
CN112364638B (zh) 一种基于社交文本的人格识别方法
US11645479B1 (en) Method for AI language self-improvement agent using language modeling and tree search techniques
CN111401077A (zh) 语言模型的处理方法、装置和计算机设备
Tripathy et al. Comprehensive analysis of embeddings and pre-training in NLP
Bokka et al. Deep Learning for Natural Language Processing: Solve your natural language processing problems with smart deep neural networks
CN111368082A (zh) 一种基于层次网络的领域自适应词嵌入的情感分析方法
CN117094291B (zh) 基于智能写作的自动新闻生成系统
CN111538841B (zh) 基于知识互蒸馏的评论情感分析方法、装置及系统
CN112597302A (zh) 基于多维评论表示的虚假评论检测方法
Zulqarnain et al. An efficient two-state GRU based on feature attention mechanism for sentiment analysis
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN114547303A (zh) 基于Bert-LSTM的文本多特征分类方法及装置
JP2019133563A (ja) 情報処理装置および情報処理システム
CN114022192A (zh) 一种基于智能营销场景的数据建模方法及系统
Suresh Kumar et al. Local search five‐element cycle optimized reLU‐BiLSTM for multilingual aspect‐based text classification
CN114997155A (zh) 一种基于表格检索和实体图推理的事实验证方法与装置
Kalangi et al. Sentiment Analysis using Machine Learning
Venkatesan et al. Sentimental Analysis of Industry 4.0 Perspectives Using a Graph‐Based Bi‐LSTM CNN Model
Sangani et al. Comparing deep sentiment models using quantified local explanations