JP2018026098A - 識別制御方法及び識別制御装置 - Google Patents

識別制御方法及び識別制御装置 Download PDF

Info

Publication number
JP2018026098A
JP2018026098A JP2017067775A JP2017067775A JP2018026098A JP 2018026098 A JP2018026098 A JP 2018026098A JP 2017067775 A JP2017067775 A JP 2017067775A JP 2017067775 A JP2017067775 A JP 2017067775A JP 2018026098 A JP2018026098 A JP 2018026098A
Authority
JP
Japan
Prior art keywords
text
language
model
identification
control method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017067775A
Other languages
English (en)
Other versions
JP6715492B2 (ja
Inventor
宏杰 史
Hung-Chieh Shi
宏杰 史
貴志 牛尾
Takashi Ushio
貴志 牛尾
遠藤 充
Mitsuru Endo
充 遠藤
山上 勝義
Katsuyoshi Yamagami
勝義 山上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to CN201710446316.7A priority Critical patent/CN107704456B/zh
Priority to EP17182712.4A priority patent/EP3282367A1/en
Priority to US15/662,628 priority patent/US10460039B2/en
Publication of JP2018026098A publication Critical patent/JP2018026098A/ja
Application granted granted Critical
Publication of JP6715492B2 publication Critical patent/JP6715492B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】複数の言語が用いられる環境においてテキストの内容を表すラベルを適切に識別するための識別制御方法を提供する。【解決手段】識別制御方法は、第1言語のテキストである第1テキストを取得するステップ(S101)と、第2言語のテキストであり、第1テキストを第2言語に翻訳することにより得られるテキストである第2テキストを取得するステップ(S102)と、第1テキストの内容を表すラベルである正解ラベルを取得するステップ(S103)と、第1言語及び第2言語で共通の識別モデル107へ第1テキスト及び第2テキストを入力するステップ(S104)と、第1テキスト及び第2テキストから共通の識別モデル107によって識別されるラベルが正解ラベルに適合するように、共通の識別モデル107を更新するステップ(S105)とを含む。【選択図】図5

Description

本発明は、テキストの内容を表すラベルを識別するための識別制御方法等に関する。
非特許文献1では、言語を横断する情報検索に関して、文書の翻訳とクエリの翻訳との両方が取り入れられたハイブリッドシステムが提案されている。非特許文献2では、言語を横断するテキストの分類に関して、機械翻訳を用いて、2つの異なる分類器を訓練することが提案されている。
J.Scott McCarley、「Should we translate the documents or the queries in cross−language」、ACL ’99 Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics、Association for Computational Linguistics、1999年6月20日、p.208−214 Yuhong Guo及びMin Xiao、「Cross Language Text Classification via Subspace Co−Regularized Multi−View Learning」、the 29th International Conference on Machine Learning(ICML 2012)、2012年6月27日
しかしながら、国際化が進む中、複数の言語に関する情報処理の品質は、未だ十分ではない。そのため、複数の言語が用いられる環境においてテキストの内容を表すラベルを適切に識別することは困難である。
そこで、本発明は、複数の言語が用いられる環境においてテキストの内容を表すラベルを適切に識別するための識別制御方法等を提供することを目的とする。
本発明の一態様における識別制御方法は、第1言語のテキストである第1テキストを取得するステップと、第2言語のテキストであり、前記第1テキストを前記第2言語に翻訳することにより得られるテキストである第2テキストを取得するステップと、前記第1テキストの内容を表すラベルである正解ラベルを取得するステップと、前記第1言語及び前記第2言語で共通の識別モデルへ前記第1テキスト及び前記第2テキストを入力するステップと、前記第1テキスト及び前記第2テキストから前記共通の識別モデルによって識別されるラベルが前記正解ラベルに適合するように、前記共通の識別モデルを更新するステップとを含む。
なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なCD−ROMなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。
本発明の一態様における識別制御方法等によって、複数の言語が用いられる環境においてテキストの内容を表すラベルを適切に識別することが可能になる。
図1は、参考例における英語の識別モデルを示す模式図である。 図2は、参考例における英語の識別モデル又は英語の訓練データを用いて中国語のテキストの内容を示すラベルを識別するための方法を示す模式図である。 図3は、実施の形態における識別モデルを示す模式図である。 図4は、実施の形態における識別制御装置の構成を示すブロック図である。 図5は、実施の形態における識別制御装置が行う学習動作を示すフローチャートである。 図6は、実施の形態における識別制御装置が行う識別動作を示すフローチャートである。 図7は、実施の形態における識別制御装置が行う学習動作の変形例を示すフローチャートである。 図8は、実施の形態における識別制御装置が行う識別動作の変形例を示すフローチャートである。 図9は、実施の形態における識別モデルの第1構成例を示す模式図である。 図10は、実施の形態における識別モデルの第2構成例を示す模式図である。 図11は、実施の形態における識別モデルの第3構成例を示す模式図である。 図13は、評価例における対話セグメントに関するトピック及びスロットを示すデータテーブル図である。 図12は、評価例における対話及び対話状態を示すデータテーブル図である。 図14は、評価例におけるマルチチャネルモデル及び入出力データを示す模式図である。 図15は、評価例におけるマルチチャネルモデルの構成を示す模式図である。 図16は、評価例における訓練データに対する前処理を示す模式図である。 図17は、評価例における開発データ及びテストデータに対する前処理を示す模式図である。 図18は、評価例における評価結果を示すデータテーブル図である。 図19は、評価例におけるハイパーパラメータを示すデータテーブル図である。 図20は、評価例における各モデルによって推定されたラベルの正解率を示すグラフである。 図21は、評価例における各モデルによって推定されたラベルを示すデータテーブル図である。 図22は、評価例における各モデルによって推定されたラベルの正解率をスロット毎に示すグラフである。
(本発明の基礎となった知見)
本発明者らは、テキストの内容を表すラベルを識別するための識別制御方法等に関して、課題を見出した。以下、具体的に説明する。
図1は、参考例における英語の識別モデルを示す模式図である。図1に示された英語の識別モデル102は、英語のテキストから、そのテキストの内容を表すラベルを識別するためのモデルであり、例えばニューラルネットワークモデルである。
ここで、ニューラルネットワークモデルは、生物の神経が模擬された数学的なモデルである。ニューラルネットワークモデルは、複数のノードを含む。複数のノードのそれぞれは、ニューロンとも呼ばれる。ノード間には、重みと呼ばれる結合強度がパラメータとして設定される。ニューラルネットワークモードに入力された情報から、複数のノード及びノード間の重みに従って、入力された情報の内容を表すラベルが識別され得る。ニューラルネットワークモデルでは、訓練によって重みが更新され、識別の性能が改善される。
英語の識別モデル102は、英語の訓練データ101によって訓練される。具体的には、英語の訓練データ101には、英語のテキストと、そのテキストの内容を表すラベルとが含まれる。英語の訓練データ101に含まれるラベルは、正解ラベル又は教師ラベルとも呼ばれる。そして、英語の訓練データ101に含まれる英語のテキストから英語の識別モデル102によって識別されるラベルが、正解ラベルに適合するように、英語の識別モデル102が更新される。これにより、英語の識別モデル102は、訓練される。
英語の識別モデル102は、英語の識別対象データ103に対して適用可能であるが、中国語の識別対象データ104に対して適用可能ではない。
具体的には、英語の識別対象データ103には、英語のテキストが含まれる。英語の識別対象データ103に含まれる英語のテキストから英語の識別モデル102によって適切なラベルが得られる。一方、中国語の識別対象データ104には、中国語のテキストが含まれる。中国語の識別対象データ104に含まれる中国語のテキストから英語の識別モデル102によって適切なラベルは得られない。
図2は、参考例における英語の識別モデル102又は英語の訓練データ101を用いて中国語の識別対象データ104に含まれる中国語のテキストの内容を示すラベルを識別するための方法を示す模式図である。
例えば、中国語の識別対象データ104から英語の識別対象データ103へ機械翻訳が行われる。具体的には、中国語の識別対象データ104に含まれる中国語のテキストから英語のテキストへ機械翻訳が行われ、英語のテキストを含む英語の識別対象データ103が構築される。そして、得られた英語の識別対象データ103に対して英語の識別モデル102を適用することが可能である。
あるいは、英語の訓練データ101から中国語の訓練データ105へ機械翻訳が行われる。具体的には、英語の訓練データ101に含まれる英語のテキストから中国語のテキストへ機械翻訳が行われ、中国語のテキストと、そのテキストの内容を表すラベルとを含む中国語の訓練データ105が構築される。なお、テキストの内容を表すラベルは、言語によらず数値等で表現される。
そして、得られた中国語の訓練データ105によって中国語の識別モデル106が訓練される。すなわち、得られた中国語の訓練データ105によって中国語の識別モデル106が構築される。そして、構築された中国語の識別モデル106を中国語の識別対象データ104に対して適用することが可能である。
つまり、中国語の識別対象データ104から英語の識別対象データ103へ機械翻訳を行う方法と、英語の訓練データ101から中国語の訓練データ105へ機械翻訳を行って中国語の識別モデル106を構築する方法との2つの方法がある。
これらの2つの方法は組み合わされてもよい。つまり、これらの2つの方法のそれぞれによって、中国語の識別対象データ104に含まれる中国語のテキストの内容を表すラベルが識別されてもよい。そして、2つの方法で識別される2つのラベルの組み合わせ又は取捨選択によって、最終的に、中国語のテキストの内容を表すラベルが識別されてもよい。
なお、このような2つの方法の組み合わせは、非特許文献1に記載のハイブリッドシステムに類似する。また、このような2つの方法の組み合わせは、英語の識別モデル102及び中国語の識別モデル106のような2つのモデルを用いることに関して、非特許文献2に記載の技術に類似する。
しかしながら、機械翻訳によって得られる英語の識別対象データ103及び中国語の訓練データ105には、機械翻訳の品質の低さによって、誤りが含まれるため、ラベルの識別において十分な品質が得られない可能性がある。
そこで、本発明の一態様における識別制御方法は、第1言語のテキストである第1テキストを取得するステップと、第2言語のテキストであり、前記第1テキストを前記第2言語に翻訳することにより得られるテキストである第2テキストを取得するステップと、前記第1テキストの内容を表すラベルである正解ラベルを取得するステップと、前記第1言語及び前記第2言語で共通の識別モデルへ前記第1テキスト及び前記第2テキストを入力するステップと、前記第1テキスト及び前記第2テキストから前記共通の識別モデルによって識別されるラベルが前記正解ラベルに適合するように、前記共通の識別モデルを更新するステップとを含む。
これにより、第1言語の第1テキスト及び第2言語の第2テキストの両方が共通の識別モデルへ入力される。そして、共通の識別モデルによって適切なラベルが識別されるように、共通の識別モデルが更新される。すなわち、複数の言語の複数のテキストから適切なラベルが識別されるような、複数の言語に基づく識別モデルが構築される。
そして、複数の言語に基づく識別モデルは、言語を横断して適切に訓練される。そのため、複数の言語に基づく識別モデルによって、単一の言語に基づく識別モデル、又は、その組み合わせよりも、適切にラベルを識別することが可能である。したがって、複数の言語が用いられる環境においてテキストの内容を表すラベルを適切に識別することが可能になる。すなわち、複数の言語が用いられる環境においてラベルの識別品質を改善することが可能になる。
例えば、前記識別制御方法は、さらに、前記第1言語で表現される複数の要素が意味的に近いほどより近い複数の値に変換される第1変換モデルによって、前記第1テキストを第1値列に変換するステップと、前記第2言語で表現される複数の要素が意味的に近いほどより近い複数の値に変換される第2変換モデルによって、前記第2テキストを第2値列に変換するステップとを含み、前記第1テキスト及び前記第2テキストを前記共通の識別モデルへ入力ステップでは、前記第1値列に変換された前記第1テキスト、及び、前記第2値列に変換された前記第2テキストを前記共通の識別モデルへ入力してもよい。
これにより、各言語で表現される要素の意味に基づく変換モデルで適切にテキストを値列に変換し、値列に変換されたテキストを共通の識別モデルへ入力することが可能になる。
また、例えば、前記第1変換モデルでは、前記第1言語で表現される複数の要素が意味的に近いほどより近い複数のベクトルに変換され、前記第2変換モデルでは、前記第2言語で表現される複数の要素が意味的に近いほどより近い複数のベクトルに変換され、前記第1値列は第1ベクトル列であり、前記第2値列は第2ベクトル列であってもよい。
これにより、各言語で表現される要素の意味に基づく変換モデルで適切にテキストをベクトル列に変換し、ベクトル列に変換されたテキストを共通の識別モデルへ入力することが可能になる。
また、例えば、前記共通の識別モデルは、畳み込みニューラルネットワークモデルであってもよい。
これにより、ラベルを識別するための識別モデルとして、畳み込みニューラルネットワークモデルが用いられる。畳み込みニューラルネットワークモデルによって、適切に特徴が抽出され、抽出された特徴に基づく適切なラベルが識別される。したがって、適切なラベルの識別が可能になる。
また、例えば、前記畳み込みニューラルネットワークモデルは、交互に積層された複数の畳み込み層と複数のプーリング層とを含んでいてもよい。
これにより、ラベルを識別するための識別モデルに、複数の畳み込み層及び複数のプーリング層が交互に積層された畳み込みニューラルネットワークモデルが用いられる。複数の畳み込み層及び複数のプーリング層が交互に積層された畳み込みニューラルネットワークモデルでは、入力された情報から複数回の特徴抽出によって特徴がより適切に抽出される。したがって、より適切なラベルの識別が可能になる。
また、例えば、前記畳み込みニューラルネットワークモデルは、前記第1言語に対応する少なくとも1つの畳み込み層と、前記第2言語に対応する少なくとも1つの畳み込み層とを別々に含んでいてもよい。
これにより、各言語に対応する畳み込み層で、特徴を適切に抽出することが可能になる。すなわち、言語毎の特徴を適切に抽出することが可能になる。
また、例えば、前記畳み込みニューラルネットワークモデルは、前記第1言語に対応する少なくとも1つのプーリング層と、前記第2言語に対応する少なくとも1つのプーリング層とを別々に含んでいてもよい。
これにより、各言語に対応するプーリング層で、特徴を示す情報の次元を削減することが可能になる。すなわち、複数の言語に対応する複数の特徴を結合する前に次元を削減することが可能になる。したがって、演算量の増加を抑制することが可能になる。
また、例えば、前記畳み込みニューラルネットワークモデルは、前記第1言語と前記第2言語とで共通の少なくとも1つのプーリング層を含んでいてもよい。
これにより、複数の言語に対応する複数の特徴を結合することが可能になる。そして、結合された複数の特徴をラベルの識別に利用することが可能になる。
また、例えば、前記畳み込みニューラルネットワークモデルは、前記第1言語と前記第2言語とで共通の少なくとも1つの畳み込み層を含んでいてもよい。
これにより、複数の言語に対して共通の畳み込み層で、特徴を抽出することが可能になる。すなわち、複数の言語に対して共通の処理として特徴の抽出を行うことが可能になる。したがって、演算量の増加を抑制することが可能になる。
また、例えば、前記共通の識別モデルは、再帰型ニューラルネットワークモデルであってもよい。
これにより、ラベルを識別するための識別モデルとして、自然言語処理に適した再帰型ニューラルネットワークモデルが用いられる。したがって、テキストの内容を表すラベルの適切な識別が可能になる。
また、例えば、前記共通の識別モデルは、前記第1言語のテキストの特徴である第1特徴が抽出される第1抽出層と、前記第2言語のテキストの特徴である第2特徴が抽出される第2抽出層と、前記第1特徴及び前記第2特徴が結合される結合層とを含んでいてもよい。
これにより、複数の抽出層及び結合層を含む識別モデルが、ラベルを識別するための識別モデルとして用いられる。そして、これらの層を含む識別モデルが、全体的に訓練される。したがって、ラベルを適切に識別することが可能になる。
また、例えば、前記結合層では、前記第1特徴及び前記第2特徴を示す複数の値が連結されてもよい。
これにより、複数の言語に対応する複数の特徴を示す複数の値をシンプルに結合することが可能になる。そして、結合の結果をラベルの識別に利用することが可能になる。
また、例えば、前記結合層では、前記第1特徴及び前記第2特徴を示す複数の値に対して線形結合が行われてもよい。
これにより、複数の言語に対応する複数の特徴を示す複数の値をシンプルな演算によって組み合わせることが可能になる。そして、組み合わせの結果をラベルの識別に利用することが可能になる。
また、例えば、前記結合層では、前記第1特徴及び前記第2特徴を示す複数の値の結合及び重み付け加算を含む処理によって、複数のラベルのそれぞれの確率が導出され、前記共通の識別モデルによって識別されるラベルは、前記結合層で導出された確率によって識別されてもよい。
これにより、最終的なラベルが確率によって識別される。また、2つの言語の2つのテキストから最終的なラベルを識別するための識別モデルが訓練される。したがって、最終的なラベルを適切に識別することが可能になる。
また、例えば、前記識別制御方法は、さらに、前記第1言語のテキストである第3テキストを取得するステップと、前記第2言語のテキストである第4テキストを取得するステップとを含み、前記第3テキスト及び前記第4テキストのうちの一方のテキストは、他方のテキストを前記一方のテキストに対応する言語に翻訳することにより得られるテキストであり、前記識別制御方法は、さらに、更新された前記共通の識別モデルへ前記第3テキスト及び前記第4テキストを入力するステップと、前記第3テキスト及び前記第4テキストから前記共通の識別モデルによって識別されるラベルを前記第3テキスト又は前記第4テキストを表すラベルとして識別するステップとを含んでいてもよい。
これにより、複数の言語に基づく識別モデルに、第1言語の第3テキスト及び第2言語の第4テキストの両方が入力される。複数の言語に基づく識別モデルによって、単一の言語に基づく識別モデル、又は、その組み合わせよりも、適切にラベルを識別することが可能である。したがって、ラベルが適切に識別される。
また、例えば、前記識別制御方法は、さらに、前記第1言語で表現される複数の要素が意味的に近いほどより近い複数の値に変換される第1変換モデルによって、前記第3テキストを第3値列に変換するステップと、前記第2言語で表現される複数の要素が意味的に近いほどより近い複数の値に変換される第2変換モデルによって、前記第4テキストを第4値列に変換するステップとを含み、前記第3テキスト及び前記第4テキストを前記共通の識別モデルへ入力するステップでは、前記第3値列に変換された前記第3テキスト、及び、前記第4値列に変換された前記第4テキストを前記共通の識別モデルへ入力してもよい。
これにより、各言語で表現される要素の意味に基づく変換モデルで適切にテキストを値列に変換し、値列に変換されたテキストを共通の識別モデルへ入力することが可能になる。
また、例えば、前記第1変換モデルでは、前記第1言語で表現される複数の要素が意味的に近いほどより近い複数のベクトルに変換され、前記第2変換モデルでは、前記第2言語で表現される複数の要素が意味的に近いほどより近い複数のベクトルに変換され、前記第3値列は第3ベクトル列であり、前記第4値列は第4ベクトル列であってもよい。
これにより、各言語で表現される要素の意味に基づく変換モデルで適切にテキストをベクトル列に変換し、ベクトル列に変換されたテキストを共通の識別モデルへ入力することが可能になる。
また、本発明の一態様における識別制御装置は、識別制御方法を実行する制御回路と、前記識別制御方法を前記制御回路が実行するための情報が記憶される記憶回路とを備え、前記識別制御方法は、第1言語のテキストである第1テキストを取得するステップと、第2言語のテキストであり、前記第1テキストを前記第2言語に翻訳することにより得られるテキストである第2テキストを取得するステップと、前記第1テキストの内容を表すラベルである正解ラベルを取得するステップと、前記第1言語及び前記第2言語で共通の識別モデルへ前記第1テキスト及び前記第2テキストを入力するステップと、前記第1テキスト及び前記第2テキストから前記共通の識別モデルによって識別されるラベルが前記正解ラベルに適合するように、前記共通の識別モデルを更新するステップとを含む。
これにより、識別制御装置は、上記の識別制御方法を実行することができる。したがって、識別制御装置は、複数の言語が用いられる環境においてテキストの内容を表すラベルを適切に識別することを可能にすることができる。
なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なCD−ROMなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。
以下、実施の形態について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
また、ラベルの識別は、ラベルの推定、ラベルの予測、又は、ラベルの分類等とも表現され得る。したがって、識別の表現は、推定、予測又は分類等の表現に置き換えられてもよい。
(実施の形態1)
図3は、本実施の形態における識別モデルを示す模式図である。図3に示された識別モデル107は、第1言語のテキスト及び第2言語のテキストから、それらのテキストの内容を表すラベルを識別するためのモデルであり、例えばニューラルネットワークモデルである。
識別モデル107は、多層構造のニューラルネットワークモデルであってもよい。また、識別モデル107は、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)モデルでもよいし、再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)モデルでもよい。
ここでは、第1言語及び第2言語が英語及び中国語である場合の例が説明されるが、第1言語及び第2言語は英語及び中国語でなくてもよい。
図3に示された英語の訓練データ101、英語の識別対象データ103、中国語の訓練データ105、及び、中国語の識別対象データ104は、図2に示された各データと同じである。なお、訓練データは、教師データとも呼ばれる。
識別モデル107は、英語の訓練データ101及び中国語の訓練データ105によって訓練される。具体的には、英語の訓練データ101に含まれる英語のテキスト、及び、中国語の訓練データ105に含まれる中国語のテキストが、識別モデル107へ入力される。英語及び中国語のテキストから識別モデル107によって識別されるラベルが、正解ラベルに適合するように、識別モデル107が更新される。これにより、識別モデル107は、訓練される。
識別モデル107は、英語の訓練データ101及び中国語の訓練データ105によって訓練されるため、英語の識別対象データ103及び中国語の識別対象データ104に対して適用可能である。すなわち、英語の識別対象データ103に含まれる英語のテキスト、及び、中国語の識別対象データ104に含まれる中国語のテキストから、識別モデル107によって適切なラベルが識別される。
図4は、図3によって示された識別モデル107を用いる識別制御装置の構成を示すブロック図である。図4に示された識別制御装置100は、制御回路110及び記憶回路111を備える。識別制御装置100は、例えば、コンピュータである。
制御回路110は、情報処理を行う汎用又は専用の電気回路である。制御回路110は、CPUのようなプロセッサでもよい。制御回路110は、識別制御装置100の動作を制御するための情報処理を行う。ここでは、制御回路110が行う動作は、識別制御装置100が行う動作として示される場合がある。
また、制御回路110は、テキストの内容を表すラベルを識別するための識別制御方法を実行する。具体的には、制御回路110は、図示しない入出力回路を介して、第1言語のテキスト、第2言語のテキスト、及び、正解ラベルを取得する。そして、制御回路110は、第1言語及び第2言語の2つのテキストから識別モデル107によって識別されるラベルが正解ラベルに適合するように、識別モデル107を更新する。
また、制御回路110は、更新された識別モデル107によって第1言語及び第2言語の2つのテキストから識別されるラベルを図示しない入出力回路を介して出力する。
記憶回路111は、制御回路110が情報処理を行うための情報が記憶される汎用又は専用の電気回路である。記憶回路111は、揮発性メモリでもよいし、不揮発性メモリでもよい。例えば、記憶回路111には、制御回路110が識別制御方法を実行するための情報が記憶される。記憶回路111には、識別モデル107が記憶されてもよいし、識別制御方法を実行するためのプログラムが記憶されてもよい。
また、情報処理が円滑に行われるように、記憶回路111には、第1言語及び第2言語の2つのテキスト、正解ラベル、並びに、識別モデル107によって識別されたラベル等が、一時的に記憶されてもよい。
図5は、図4に示された識別制御装置100が行う学習動作を示すフローチャートである。図4に示された識別制御装置100は、図5に示された動作を行うことにより、識別モデル107を更新する。
まず、識別制御装置100は、第1言語のテキストを取得する(S101)。第1言語のテキストは、第1言語で表現されたテキストである。また、識別制御装置100は、第2言語のテキストを取得する(S102)。第2言語のテキストは、第2言語で表現されたテキストである。
第1言語及び第2言語の2つのテキストのうちの一方のテキストは、他方のテキストに対して機械翻訳を行うことによって得られるテキストである。言い換えれば、一方のテキストは、他方のテキストから翻訳されたテキストであり、他方のテキストは、一方のテキストから翻訳されていないオリジナルのテキストである。
また、識別制御装置100は、正解ラベルを取得する(S103)。正解ラベルは、テキストの内容を表すラベルである。正解ラベルは、より具体的には、第1言語及び第2言語の2つのテキストのうち機械翻訳によらずに取得されたテキストの内容を表す。つまり、正解ラベルは、他方のテキストから翻訳されたテキストではなく、オリジナルのテキストの内容を表す。したがって、正解ラベルは、機械翻訳によって生じる誤りを含まない。
識別制御装置100は、第1言語及び第2言語の2つのテキストのうち、オリジナルのテキストと一緒に正解ラベルを取得してもよい。具体的には、識別制御装置100は、オリジナルのテキストに付けられた正解ラベルを取得してもよい。
次に、識別制御装置100は、第1言語及び第2言語の2つのテキストを識別モデル107へ入力する(S104)。そして、識別制御装置100は、第1言語及び第2言語の2つのテキストから識別モデル107によって識別されるラベルが正解ラベルに適合するように識別モデル107を更新する(S105)。
例えば、識別モデル107がニューラルネットワークモデルである場合、識別制御装置100は、誤差逆伝搬法(Backpropagation)によって、識別モデル107を更新してもよい。この場合、識別制御装置100は、識別モデル107のパラメータ、より具体的にはノード間の重みを更新することにより、識別モデル107を更新してもよい。
これにより、識別制御装置100は、識別モデル107を訓練することができる。つまり、識別制御装置100は、識別モデル107を学習させることができる。
図6は、図4に示された識別制御装置100が行う識別動作を示すフローチャートである。図4に示された識別制御装置100は、図6に示された動作を行うことにより、ラベルを識別する。
まず、識別制御装置100は、第1言語のテキストを取得する(S201)。また、識別制御装置100は、第2言語のテキストを取得する(S202)。
次に、識別制御装置100は、第1言語及び第2言語の2つのテキストを更新された識別モデル107へ入力する(S203)。そして、識別制御装置100は、第1言語及び第2言語の2つのテキストから識別モデル107によってラベルを識別する(S204)。
これにより、識別制御装置100は、更新された識別モデル107によって適切なラベルを識別することができる。
図7は、図4に示された識別制御装置100が行う学習動作の変形例を示すフローチャートである。図7に示された取得処理(S301〜S303)は、図5に示された取得処理(S101〜S103)と同じである。
その後、図7に示された変形例において、識別制御装置100は、第1言語のテキストを変換する(S304)。具体的には、識別制御装置100は、第1言語で表現される複数の要素が意味的に近いほどより近い複数の値に変換される第1変換モデルによって、第1言語のテキストを値列に変換する。値は、集合値でもよいし、ベクトル値でもよいし、行列値でもよい。
例えば、第1変換モデルでは、第1言語で表現される複数の要素が意味的に近いほどより近い複数のベクトルに変換されてもよい。そして、識別制御装置100は、第1変換モデルによって、第1言語のテキストを値列に相当するベクトル列に変換してもよい。
同様に、識別制御装置100は、第2言語のテキストを変換する(S305)。具体的には、識別制御装置100は、第2言語で表現される複数の要素が意味的に近いほどより近い複数の値に変換される第2変換モデルによって、第2言語のテキストを値列に変換する。値は、集合値でもよいし、ベクトル値でもよいし、行列値でもよい。
例えば、第2変換モデルでは、第2言語で表現される複数の要素が意味的に近いほどより近い複数のベクトルに変換されてもよい。そして、識別制御装置100は、第2変換モデルによって、第2言語のテキストを値列に相当するベクトル列に変換してもよい。
次に、識別制御装置100は、第1言語及び第2言語の2つの変換されたテキストを識別モデルへ入力する(S306)。そして、識別制御装置100は、第1言語及び第2言語の2つのテキストから識別モデル107によって識別されるラベルが正解ラベルに適合するように識別モデル107を更新する(S307)。
これにより、識別制御装置100は、各要素の意味に基づいてラベルを識別しやすいように変換されたテキストを識別モデル107に対する入力として利用することができる。したがって、識別制御装置100は、より適切にラベルが識別されるように、識別モデル107を訓練し、識別モデル107を学習させることができる。
図8は、図4に示された識別制御装置100が行う識別動作の変形例を示すフローチャートである。図8に示された取得処理(S401及びS402)は、図6に示された取得処理(S201及びS202)と同じである。
その後、図8に示された変形例において、識別制御装置100は、第1言語のテキストを変換する(S403)。具体的には、識別制御装置100は、第1言語で表現される複数の要素が意味的に近いほどより近い複数の値に変換される第1変換モデルによって、第1言語のテキストを値列に変換する。
同様に、識別制御装置100は、第2言語のテキストを変換する(S404)。具体的には、識別制御装置100は、第2言語で表現される複数の要素が意味的に近いほどより近い複数の値に変換される第2変換モデルによって、第2言語のテキストを値列に変換する。
次に、識別制御装置100は、第1言語及び第2言語の2つの変換されたテキストを更新された識別モデルへ入力する(S405)。そして、識別制御装置100は、更新された識別モデル107によって第1言語及び第2言語の2つのテキストからラベルを識別する(S406)。
これにより、識別制御装置100は、各要素の意味に基づいてラベルを識別しやすいように変換されたテキストを識別モデル107に対する入力として利用することができる。したがって、識別制御装置100は、より適切にラベルを識別することができる。
図9は、図3に示された識別モデル107の第1構成例を示す模式図である。図9の例において、識別モデル107は、第1抽出層131、第2抽出層132及び結合層140を含む。第1抽出層131、第2抽出層132及び結合層140は、それぞれ、複数の層を含んでいてもよい。すなわち、第1抽出層131、第2抽出層132及び結合層140のそれぞれが、1以上の層の集合であってもよい。
例えば、識別モデル107は、多層構造のニューラルネットワークモデルであり、第1抽出層131、第2抽出層132及び結合層140のそれぞれは、多層構造のニューラルネットワークモデルに含まれる1以上の層に対応する。
第1抽出層131では、第1言語のテキスト121の特徴である第1特徴が抽出される。第2抽出層132では、第2言語のテキスト122の特徴である第2特徴が抽出される。
結合層140では、第1抽出層131で抽出された第1特徴、及び、第2抽出層132で抽出された第2特徴が結合される。結合層140では、第1特徴及び第2特徴を示す複数の値が連結されることで、第1特徴及び第2特徴が結合されてもよい。つまり、結合層140では、第1特徴を示す複数の値、及び、第2特徴を示す複数の値が単純に繋ぎ合わされてもよい。あるいは、第1特徴及び第2特徴を示す複数の値に対して線形結合が行われることにより、第1特徴及び第2特徴が結合されてもよい。
また、結合層140では、第1特徴及び第2特徴を示す複数の値が連結され、連結された複数の値に対して線形結合が行われることにより、第1特徴及び第2特徴が結合されてもよい。
また、結合層140では、第1特徴及び第2特徴を示す複数の値の結合及び重み付け加算を含む処理によって、複数のラベルのそれぞれの確率が導出されてもよい。ここで、複数のラベルのそれぞれの確率は、ラベルが第1言語のテキスト121及び第2言語のテキスト122の内容を表している確率である。
そして、識別モデル107によって識別されるラベルは、導出された確率によって識別されてもよい。例えば、識別モデル107によって第1言語のテキスト121及び第2言語のテキスト122の内容を表すラベルとして識別されるラベルは、導出された確率が所定の確率よりも高いラベルである。
識別モデル107は、第1言語のテキスト121を示す情報が入力される第1入力層、第2言語のテキスト122を示す情報が入力される第2入力層、及び、識別モデル107によって識別されるラベルを示す情報が出力される出力層を含んでいてもよい。
識別モデル107は、第1抽出層131、第2抽出層132及び結合層140とは別に、第1入力層、第2入力層及び出力層を含んでいてもよい。識別モデル107は、第1抽出層131に第1入力層を含んでいてもよい。また、識別モデル107は、第2抽出層132に第2入力層を含んでいてもよい。また、識別モデル107は、結合層140に出力層を含んでいてもよい。特に、結合層140は、出力層を兼ねていてもよい。つまり、結合層140は、出力層であってもよい。
また、第1言語のテキスト121は、第1変換モデルによって変換されて、識別モデル107へ入力されてもよい。同様に、第2言語のテキスト122は、第2変換モデルによって変換されて、識別モデル107へ入力されてもよい。
図10は、図3に示された識別モデル107の第2構成例を示す模式図である。図10に示された識別モデル107は、畳み込みニューラルネットワークモデルの例であり、第1入力層151、第2入力層152、第1畳み込み層161、第2畳み込み層162、プーリング層170及び全結合層180を含む。
例えば、図10における第1畳み込み層161、又は、第1入力層151と第1畳み込み層161との組み合わせは、図9における第1抽出層131に対応する。また、図10における第2畳み込み層162、又は、第2入力層152と第2畳み込み層162との組み合わせは、図9における第2抽出層132に対応する。また、図10におけるプーリング層170及び全結合層180のうち少なくとも一方は、図9における結合層140に対応する。
第1入力層151では、第1言語のテキスト121を示す情報が入力される。特に、この例では、第1言語のテキスト121が、第1変換モデルによってベクトル列に変換され、ベクトル列を示す2次元行列が第1入力層151に入力される。第1畳み込み層161では、第1入力層151に入力された2次元行列に対して、複数のフィルタを用いて畳み込みが行われる。これにより、第1言語のテキスト121の特徴が抽出される。
第2入力層152では、第2言語のテキスト122を示す情報が入力される。特に、この例では、第2言語のテキスト122が、第2変換モデルによってベクトル列に変換され、ベクトル列を示す2次元行列が第2入力層152に入力される。第2畳み込み層162では、第2入力層152に入力された2次元行列に対して、複数のフィルタを用いて畳み込みが行われる。これにより、第2言語のテキスト122の特徴が抽出される。
プーリング層170では、第1畳み込み層161によって行列として得られる複数の値、及び、第2畳み込み層162によって行列として得られる複数の値が結合されることにより、第1言語のテキスト121の特徴、及び、第2言語のテキスト122の特徴が結合される。その際、プーリング層170において、第1畳み込み層161によって行列として得られる複数の値、及び、第2畳み込み層162によって行列として得られる複数の値がサブサンプリングされることによって、次元の増加が抑制される。
全結合層180では、プーリング層170で結合された複数の値の重み付け加算を含む処理によって複数のラベルのそれぞれの確率が導出される。識別モデル107によって第1言語のテキスト121及び第2言語のテキスト122の内容を表すラベルとして識別されるラベルは、全結合層180で導出された確率が所定の確率よりも高いラベルである。
上記のような構成によって、畳み込みニューラルネットワークモデルを識別モデル107に適用することが可能である。
なお、図10の例において、識別モデル107は、第1言語に対応する第1畳み込み層161と、第2言語に対応する第2畳み込み層162とを含み、第1言語及び第2言語で共通のプーリング層170を含む。つまり、識別モデル107は、第1言語に対応する少なくとも1つの畳み込み層と、第2言語に対応する少なくとも1つの畳み込み層とを別々に含み、第1言語及び第2言語で共通の少なくとも1つのプーリング層を含む。
識別モデル107は、図10の例に限られず、第1言語に対応する少なくとも1つのプーリング層と、第2言語に対応する少なくとも1つのプーリング層とを別々に含んでもよいし、第1言語及び第2言語で共通の少なくとも1つの畳み込み層を含んでもよい。また、識別モデル107は、交互に積層された複数の畳み込み層と複数のプーリング層とを含んでもよい。
また、第1言語に対応する情報と、第2言語に対応する情報とが、プーリング層170ではなく、全結合層180で結合されてもよい。すなわち、識別モデル107に、第1言語と第2言語とで共通のプーリング層170が含まれていなくてもよい。
図11は、図3に示された識別モデル107の第3構成例を示す模式図である。図11に示された識別モデル107は、再帰型ニューラルネットワークモデルの例であり、第1入力層151、第2入力層152、第1リカレント層191、第2リカレント層192及び結合層140を含む。
例えば、図11における第1リカレント層191、又は、第1入力層151と第1リカレント層191との組み合わせは、図9における第1抽出層131に対応する。また、図11における第2リカレント層192、又は、第2入力層152と第2リカレント層192との組み合わせは、図9における第2抽出層132に対応する。また、図11における結合層140は、図9における結合層140に対応する。
図10の例と同様に、第1入力層151では、第1言語のテキスト121を示す情報が入力される。例えば、第1言語のテキスト121が、第1変換モデルによってベクトル列に変換され、ベクトル列が第1入力層151に入力される。ベクトル列を構成する複数のベクトルは、順次、第1入力層151に入力されて処理されてもよい。第1リカレント層191では、第1入力層151に入力されたベクトル列の特徴が抽出されることにより、第1言語のテキスト121の特徴が抽出される。
例えば、第1リカレント層191では、第1入力層151に入力されたベクトル列を構成する複数のベクトルに対して、順次、特徴抽出処理が行われる。その際、カレントのベクトルと、前のベクトルに対する特徴抽出処理の結果とを入力として用いて、カレントのベクトルに対する特徴抽出処理が行われる。すなわち、前のベクトルに対する特徴抽出処理の結果が、カレントのベクトルに対する特徴抽出処理に反映され、要素間の関係が特徴抽出処理に反映される。
また、図10の例と同様に、第2入力層152では、第2言語のテキスト122を示す情報が入力される。例えば、第2言語のテキスト122が、第2変換モデルによってベクトル列に変換され、ベクトル列が第2入力層152に入力される。ベクトル列を構成する複数のベクトルは、順次、第2入力層152に入力されて処理されてもよい。第2リカレント層192では、第2入力層152に入力されたベクトル列の特徴が抽出されることにより、第2言語のテキスト122の特徴が抽出される。
例えば、第2リカレント層192では、第2入力層152に入力されたベクトル列を構成する複数のベクトルに対して、順次、特徴抽出処理が行われる。その際、カレントのベクトルと、前のベクトルに対する特徴抽出処理の結果とを入力として用いて、カレントのベクトルに対する特徴抽出処理が行われる。すなわち、前のベクトルに対する特徴抽出処理の結果が、カレントのベクトルに対する特徴抽出処理に反映され、要素間の関係が特徴抽出処理に反映される。
結合層140では、第1リカレント層191で得られた複数の値、及び、第2リカレント層192で得られた複数の値が結合されることによって、第1言語のテキスト121の特徴、及び、第2言語のテキスト122の特徴が結合される。また、結合層140では、複数の値の結合及び重み付け加算を含む処理によって複数のラベルのそれぞれの確率が導出される。
識別モデル107によって第1言語のテキスト121及び第2言語のテキスト122の内容を表すラベルとして識別されるラベルは、結合層140で導出された確率が所定の確率よりも高いラベルである。
上記のような構成によって、再帰型ニューラルネットワークモデルを識別モデル107に適用することが可能である。
なお、図11の例において、図10と同様に、行列を構成するベクトル列が識別モデル107に入力されている。しかし、識別モデル107に入力される情報は、行列を構成するベクトル列でなくてもよい。
また、図9、図10及び図11のそれぞれにおいて示される構成例は、識別モデル107の構成の一例である。識別モデル107の構成は、図9、図10及び図11のそれぞれにおいて示される構成例に限られない。
本実施の形態における識別制御方法及び識別制御装置100は、特に、訓練データに対応する言語と、識別対象データに対応する言語が異なる場合に有用である。
なお、上記では、2つの言語に関する例が示されている。しかし、本実施の形態における識別制御方法及び識別制御装置100を3つ以上の言語に適用することが可能である。例えば、追加の言語に伴って、追加の言語に対応する構成要素が追加されてもよい。また、追加の言語に対して、追加の機械翻訳が行われてもよい。そして、3つ以上の言語の各テキストが識別モデル107に入力され、テキストの内容を表すラベルが識別されてもよい。
また、識別制御装置100は、機械翻訳を行ってもよい。例えば、識別制御装置100は、第1言語のテキストを第2言語に翻訳してもよいし、第2言語のテキストを第1言語に翻訳してもよい。つまり、識別制御装置100は、第1言語のテキストを第2言語に翻訳することにより第2言語のテキストを取得してもよいし、第2言語のテキストを第1言語に翻訳することにより第1言語のテキストを取得してもよい。
これにより、識別制御装置100は、第1言語及び第2言語のうち一方の言語のテキストのみを取得して、学習又は識別を行うことができる。
(評価例)
次に、実施の形態に示された識別モデル107に関する評価例として、主にDSTC5(fifth Dialog State Tracking Challenge)の評価を紹介する。
DSTC5は、対話における意図の識別精度を競う5回目のコンテストである。また、以下の説明におけるマルチチャネル畳み込みニューラルネットワークモデルは、実施の形態に示された識別モデル107に相当する。また、対話セグメントはテキストに相当する。対話状態(Dialog State)はテキストの内容を表すラベルに相当する。
また、以下では、基本的に、文字列によって表現される対話が用いられているが、音声によって表現される対話が、例えば音声認識によって文字列に変換されて用いられてもよい。また、DSTC5は、正確には、対話状態の追跡に関する。以下の説明では、わかりやすさを考慮して、「追跡」に代えて「識別」という表現が用いられているが、「識別」は「追跡」に読み替えられてもよい。
また、以下では、畳み込みニューラルネットワークモデルの例が示されているが、再帰型ニューラルネットワークモデル等の他のモデルにも同様の説明が適用され得る。
[1.概要]
DSTC5で提供されたシナリオは、言語を横断して対話状態を識別することに関する。このシナリオにおいて、参加者は、ラベルのある英語データに基づいて識別器を構築し、ラベルのない中国語データに基づいて識別器を検証することが求められる。また、英語データ及び中国語データの両方に対して、コンピュータにより作成された翻訳が与えられる。しかし、それらの翻訳には誤りが含まれる。そのため、翻訳の不用意な使用によって、識別器の性能が低下する可能性がある。
これに対して、本発明者らは、マルチチャネル畳み込みニューラルネットワークモデルのアーキテクチャを提案する。このアーキテクチャでは、英語と中国語とが共通のマルチチャネル畳み込みニューラルネットワークモデルに入力される。このアーキテクチャは、誤訳に対するロバスト性を効果的に向上させることができる。
さらに、このアーキテクチャは、純粋に機械学習に基づいている。したがって、両言語について、広範な予備知識が不要である。識別器の開発者が両言語に精通していない可能性があるため、この特性は、識別器を構築において有用である。
なお、以下において、マルチチャネル畳み込みニューラルネットワークモデルを単にマルチチャネルモデルと呼ぶ場合がある。
[2.前置き]
対話状態の識別は、対話処理の主要なタスクの1つである。具体的には、対話状態の識別は、コンピュータが対話を処理しやすくするため、対話の部分である対話セグメント毎に、対話セグメントの内容を値として表す対話状態を対話セグメントから識別することである。このタスクの汎用的な試験台を提供するため、一連のDSTC(Dialog State Tracking Challenges)が実施されている。
DSTCは、すでに4回実施されており、その間、この分野における研究に対して非常に価値ある援助を提供し、最新技術の改良を手助けしている。4回目のDSTC以降、対話状態が識別される対話は、人間と機械との対話から人間同士の対話へと変化した。そして、人間同士の対話における柔軟性と曖昧さにより、対話状態の識別の困難性が大幅に増した。
機械学習において、人間同士の対話に対する有用な識別器を限定的な訓練データで構築することは難しい。この状況は好ましくない。なぜなら、ラベルのある訓練データの準備には、基本的に、大きなコスト、長い時間、及び、専門家が求められるためである。また、新しい言語のための識別器の構築には、新しい言語の新しい訓練データが求められる。
DSTC5では、急速に進歩した機械翻訳技術を用いることが提案されている。これにより、新しい言語の訓練データの準備に時間をかけずに、別の言語で構築された識別器を新しい言語に適応させることが可能になる。機械翻訳技術の利用は非常に魅力的である。例えば、新しい言語に識別器を適応させるコストを削減することが可能になるだけでなく、異なる言語の訓練データで識別器を構築することが可能になるかもしれない。
具体的には、機械翻訳技術の利用は、旅行情報システムについて有用である。例えば、異なる言語の話者、つまり他国から来た旅行者からデータが収集されても、各言語のデータの量は限られているかもしれない。しかし、複数の言語のデータを組み合わせることで、訓練のための十分なデータ量が得られる。
しかしながら、機械翻訳技術は最近偉大な進歩を遂げたにもかかわらず、翻訳品質は未だ十分ではない。コンピュータによって作成された翻訳で訓練された単一言語識別モデルは、不完全である可能性がある。また、他の言語から作成された翻訳に対する識別の性能が通常よりも低下する可能性がある。
これに対して、本発明者らは、複数の言語で同時に訓練され、対話状態の識別のための入力として元の対話セグメントとその翻訳の両方が用いられるマルチチャネルモデルを提案する。これにより、コンピュータによって作成された翻訳のみに基づく識別器の構築が回避される。そして、複数の言語の複数の情報が最大限に活用され、誤訳に対するロバスト性が高められる。
[3.データセット]
DSTC4の訓練データ、開発データ及びテストデータを含む全データがDSTC5の訓練データとして用いられる。この訓練データは、英語話者から収集されたシンガポールの旅行情報に関する35つの対話セッションを含む。
この訓練データ以外に、中国語話者から収集された2つの対話セッションを含む開発データが、最終評価の前に、識別器の性能の確認用に提供される。訓練データ及び開発データのそれぞれは、対話状態がラベルとして付され、機械翻訳システムによって作成された上位5つの英語翻訳又は中国語翻訳を含む。
DSTC5における評価段階において、ラベルのない8つの中国語対話を含むテストデータが、各参加者に配布された。そして、参加者によって提出された識別結果が、識別結果におけるラベルと真のラベルとの比較によって評価された。テストデータは、訓練データ及び開発データと同様に、機械翻訳システムによって作成された上位5つの英語翻訳を含む。
DSTC5における対話状態は、DSTC4と同じオントロジーによって定義される。このオントロジーは、図12に示されているように、互いに異なるスロットセットを有する5つのトピックを含む。
対話状態は、トピックとスロットとの組み合わせに対して対話セグメントにおいて言及された最も特徴的な情報を示す。例えば、トピック「Food(食べ物)」及びスロット「CUISINE(料理)」の組み合わせに対して、対話状態は料理の種類を示す。また、トピック「Transportation(交通)」及びスロット「STATION(駅)」の組み合わせに対して、対話状態は列車の駅を示す。
トピックとスロットとの組み合わせの総数は30である。そして、トピックとスロットとの組み合わせ毎に、可能性のある全ての対話状態がオントロジーにおけるリストとして与えられる。DSTC5の主なタスクは、対話セグメント、対話セグメントのトピック、及び、対話セグメントよりも前の対話履歴から、各スロットについて適切な対話状態を識別することである。図13は、対話セグメント、及び、その対話状態を示す。
[4.方法]
[4.1.枠組み]
DSTC4において、本発明者らは、畳み込みニューラルネットワークモデルに基づく方法を提案した。この方法により、スロット「INFO(情報)」に関する識別において最高の性能が達成された。この方法において用いられたCNNモデルは、全てのトピックで共通のCNNモデルであり、複数のトピックにおいて提示される情報をよりよく扱うことができるように、追加のマルチトピック畳み込み層を含む。
このモデルは、様々なトピックを通じて訓練され得る。そのため、訓練データが限られている場合でも、高い性能が得られる。DSTC5における訓練データは、DSTC4における訓練データよりも75%多い。したがって、訓練データが限られている状況は改善されている。
本発明者らは、言語を横断することに一層注目するため、DSTC4における方法に代えて、各トピックについて個別のCNNモデルを訓練する方法をDSTC5において採用した。つまり、DSTC5における方法では、例えば、トピック「FOOD(食べ物)」におけるスロット「INFO(情報)」と、トピック「SHOPPING(買い物)」におけるスロット「INFO(情報)」とが、2つの独立したモデルによって訓練される。
さらに、一般的に応用可能かつ容易に調整可能な方法を提供するため、スロット及びトピックの組み合わせ毎のCNNモデルに対して同じハイパーパラメータが設定される。
図14は、DSTC5において本発明者らによって採用された方法を示す模式図である。トピック及びスロットの組み合わせ毎にCNNモデルであるマルチチャネルモデルが構築される。例えば、訓練データに対してトピック「Food」でフィルタが行われることにより、トピック「Food」用訓練データが得られる。このトピック「Food」用訓練データによって、トピック「Food」の各スロットのマルチチャネルモデルが訓練される。
また、トピック「Food」に関する対話セグメント及び対話セグメントの翻訳が、トピック「Food」の各スロットのマルチチャネルモデルに入力される。そして、トピック「Food」の各スロットの対話状態をラベルとして示す情報が出力される。
[4.2.動機]
DSTC5では、訓練データ及びテストデータが、互いに異なる言語で与えられる。また、訓練データ及びテストデータのそれぞれに関して、中国語及び英語の言語間でコンピュータによって作成された翻訳が提供される。そのため、1つの直接的な方法は、英語の訓練データで訓練されたモデルに対してテストデータの英語翻訳を用いる方法である。別の直接的な方法は、訓練データの中国語翻訳で訓練されたモデルに対して中国語のテストデータを用いる方法である。
しかしながら、両方法において、訓練データ又はテストデータのいずれかが直接利用されず、その翻訳が利用される。英語データ及び中国語データの両方が十分に活用されるように、本発明者らは、英語及び中国語の両方が入力されるモデルであるマルチチャネルモデルを提案する。
[4.3.モデルアーキテクチャ]
図15は、DSTC5において本発明者らによって提案されたマルチチャネルモデルの構成を示す模式図である。
本発明者らの提案では、画像処理に多用されるマルチチャネルモデルが複数の言語の処理に適用される。カラー画像の画像処理では、マルチチャネルモデルの複数の入力チャネルが、R、G及びBに対応する複数の入力チャネルとして用いられる。複数の言語の処理では、マルチチャネルモデルの複数の入力チャネルが、複数の言語に対応する複数の入力チャネルとして用いられる。
このマルチチャネルモデルにおいて、各入力チャネルに対する入力データは、次式によって表現される2次元行列であり、その各行は、対応する語のベクトル表現であって埋め込みベクトルとも呼ばれる。
Figure 2018026098
ここで、wは、入力テキストにおいてi番目の語の埋め込みベクトルである。sは、2次元配列であって、入力テキストの行列表現である。sは、埋め込み行列とも呼ばれる。2つの中国語形式と、1つの英語形式とを含む3つの形式で入力テキストを行列に変換するため3つの埋め込みモデルが用いられる。これらの埋め込みモデルの詳細は後述する。
各チャネルについて、次式を用いて、埋め込み行列sにフィルタmを畳み込むことによって、特徴マップhが得られる。
Figure 2018026098
ここで、fは、非線形活性化関数である。非線形活性化関数として、正規化線形関数(ReLU:Rectified Linear Unit)を用いることが可能である。*は、畳み込み演算子である。bは、バイアス項である。その後、この特徴マップhの最大値が、プーリング層によって選択される。この選択処理は、次式によって表現される。
Figure 2018026098
この選択処理は、フィルタ毎に入力行列から最も顕著な特徴を抽出する処理である。図15では、プーリング層で複数のチャネルの情報が連結されているが、必ずしもプーリング層で連結されていなくてもよい。このマルチチャネルモデルでは、各チャネルにおいて複数のフィルタを用いて、複数の特徴が抽出される。これらの特徴は、全結合層に送られる。全結合層では、次式に示す演算が行われる。
Figure 2018026098
なお、Sは、シグモイド関数であり、wは重みを示し、yは確率を示す。これにより、複数のラベルのそれぞれの確率が算出される。つまり、複数の対話状態のそれぞれの確率が算出される。
マルチチャネルモデルでは、最終出力の前に、複数のチャネルから抽出された特徴同士が接続される。これにより、複数のチャネルから得られる豊富な情報が用いられる。
複数の言語に対する埋め込み行列は互いに大きく異なる可能性がある。そのため、このマルチチャネルモデルでは、チャネル毎に異なるフィルタセットが用いられる。例えば、複数の言語において、同じ又は略同じ埋め込みベクトルが、大きく意味の異なる無関係な語に対応する場合がある。このマルチチャネルモデルでは、複数の言語のそれぞれについて、その言語に対応するフィルタセットが用いられることにより、その言語に対応する行列から適切な特徴が抽出される。
[4.4.埋め込みモデル]
word2vecモデルは、単語の埋め込みを行うための最も汎用的なモデルの1つである。具体的には、word2vecモデルは、言語の要素をベクトルに変換するモデルであって、2層のニューラルネットワークモデルである。また、word2vecモデルは、複数の要素が意味的に近いほどより近い複数のベクトルに変換されるように、コーパスによって訓練される。
マルチチャネルモデルに入力される行列を生成するため、3つの異なる訓練コーパスで訓練された3つの異なるword2vecモデルである英語埋め込みモデル、中国語単語埋め込みモデル及び中国語文字埋め込みモデルが用いられる。英語埋め込みモデル、中国語単語埋め込みモデル及び中国語文字埋め込みモデルは、具体的には以下の通りである。
英語埋め込みモデルは、英語のウィキペディア(登録商標)における全てのテキストの内容をスペースで区切り、全ての文字を小文字にして訓練され、英語の単語を200次元のベクトルに変換するためのword2vecモデルである。この英語埋め込みモデルは、253854個の英単語を学習している。
中国語単語埋め込みモデルは、中国語のウィキペディア(登録商標)における全てのテキストの内容を「jieba」モジュールを用いて単語境界で区切って訓練され、中国語の単語を200次元のベクトルに変換するためのword2vecモデルである。「jieba」モジュールは、中国語のテキストの内容を単語で分割するためのプログラムである。中国語単語埋め込みモデルは、中国語のウィキペディア(登録商標)に現れた444184個の中国語の単語及び53743個の英単語を学習している。
中国語文字埋め込みモデルは、中国語のウィキペディア(登録商標)における全てのテキストの内容を中国語の文字毎に区切って訓練され、中国語の文字を200次元のベクトルに変換するためのword2vecモデルである。中国語文字埋め込みモデルは、中国語のウィキペディア(登録商標)に現れた12145個の中国語の文字及び53743個の英単語を学習している。
中国語において単語境界を特定することは容易ではない。したがって、中国語に対して、中国語単語埋め込みモデル及び中国語文字埋め込みモデルの2つのモデルが訓練された。
中国語において、意味のある最小要素は、単一の文字である場合もあり、連結された複数の文字である場合もある。そして、中国語のテキストの分割には、文の解析が伴う。そのため、最新技術の方法によっても未だ完全な正確性が達成されていない。この理由により、中国語単語埋め込みモデルは、不正確な語彙を学習することがあり、文字の組み合わせを適切に取り扱うことができない。
一方、中国語文字埋め込みモデルは、単語の分割に頼らないため、中国語文字埋め込みモデルには誤りがなく、文字を1つの語として容易に取り扱うことができる。しかしながら、中国語文字埋め込みモデルは、単語境界を無視する。そのため、埋め込み結果に正確な意味が反映されない場合がある。
図16は、訓練データに対する前処理を示す模式図である。訓練データにおける英語の対話セグメントは、英語埋め込みモデルによって、英語の単語のベクトルで構成される英語埋め込み行列に変換されて、マルチチャネルモデルの第3チャネルに入力される。また、英語の対話セグメントは、英語から中国語への機械翻訳システムによって、中国語の翻訳対話セグメントに変換される。
そして、中国語の翻訳対話セグメントは、中国語単語埋め込みモデルによって、中国語の単語のベクトルで構成される中国語単語埋め込み行列に変換されて、マルチチャネルモデルの第1チャネルに入力される。また、中国語の翻訳対話セグメントは、中国語文字埋め込みモデルによって、中国語の文字のベクトルで構成される中国語文字埋め込み行列に変換されて、マルチチャネルモデルの第2チャネルに入力される。
図17は、開発データ及びテストデータに対する前処理を示す模式図である。開発データ及びテストデータにおける中国語の対話セグメントは、中国語単語埋め込みモデルによって、中国語の単語のベクトルで構成される中国語単語埋め込み行列に変換されて、マルチチャネルモデルの第1チャネルに入力される。また、中国語の対話セグメントは、中国語文字埋め込みモデルによって、中国語の文字のベクトルで構成される中国語文字埋め込み行列に変換されて、マルチチャネルモデルの第2チャネルに入力される。
また、中国語の対話セグメントは、中国語から英語への機械翻訳システムによって、英語の翻訳対話セグメントに変換される。そして、英語の翻訳対話セグメントは、英語埋め込みモデルによって、英語の単語のベクトルで構成される英語埋め込み行列に変換されて、マルチチャネルモデルの第3チャネルに入力される。
[5.結果]
[5.1.DSTC5における評価結果]
本発明者らのチームによって提案された方法のスコアを他のチームのスコアと共に、図18に示す。本発明者らのチームの番号は、「2」である。
本発明者らによって提案されたマルチチャネルモデルは、全9チームの中で最高のスコアを取得した。エントリー「3」の正解率は、0.0956であり、スコアが2番目に高い他のチームの正解率は、0.0635である。また、エントリー「3」のF値(F−measure)は、0.4519であり、スコアが2番目に高い他のチームのF値は、0.3945である。すなわち、エントリー「3」の結果は、スコアが2番目に高い他のチームよりも、正解率において約50%、F値において約15%、上回っている。
本発明者らのチームの5つのエントリー「0」〜「4」において、ハイパーパラメータが互いに異なる。図19は、複数のハイパーパラメータを示す。複数のハイパーパラメータのうちドロップアウト率は、結果に大きく影響を与える。ドロップアウトは、ニューラルネットワークモデルにおいて、特異なデータが学習されることで一般化性能が低下する過学習を削減するための技術として知られている。
5つのエントリー「0」〜「4」に関して、ドロップアウト率の低下に伴って、再現率が低下し、適合率が上昇している。一方、ドロップアウト率のさらなる低下は、全体としての性能を改善しない。図18及び図19において、2つのエントリー「5」及び「6」は、ドロップアウト率がより低いハイパーパラメータの設定、及び、その結果に対応する。
[5.2.マルチチャネルモデル、単一チャネルモデル及び組み合わせモデル]
本発明者らは、マルチチャネルモデルの貢献度合いを調査するため、マルチチャネルモデルと通常の単一チャネルモデルとの間で性能を比較した。この比較のために、上記の3つの埋め込みモデルを用いて、3つの単一チャネルモデルを訓練した。また、訓練には、最上位の翻訳が用いられた。図20は、その評価結果を示す。マルチチャネルモデルは、3つの単一チャネルモデルの性能を上回っている。一方、中国語文字モデルは、3つの単一チャネルモデルのうち最高の性能を有する。
先のDSTCでは、識別性能を改善するため、複数のモデルを組み合わせる技術が用いられている。このような組み合わせの最終的な出力は、複数の単一チャネルモデルの出力の平均に対応する。図20には、3つの単一チャネルモデルの組み合わせによって得られる結果が組み合わせモデルとして示されている。組み合わせモデルは、マルチチャネルモデルに迫る性能を有する。また、組み合わせモデルの構築は、比較的容易である。そのため、組み合わせモデルがマルチチャネルモデルの代替モデルとして用いられてもよい。
[5.3.考察]
上記の結果は、アンサンブル学習の観点からも部分的に説明され得る。マルチチャネルモデルにおいて、複数のチャネルは、データに関してより多くの特徴を提供する。より多くの特徴によって、適切に情報が補完される。また、マルチチャネルモデルにおける全結合層は最適化される。したがって、マルチチャネルモデルは、誤訳に対するロバスト性を向上させることができる。
図21は、マルチチャネルモデルの実証例を示し、各モデルによって識別されたラベルを示す。この例において、3つの単一チャネルモデルのいずれによっても、正解ラベルが出力されていない。一方、マルチチャネルモデルでは、正解ラベルが出力されている。
組み合わせモデルでは、単純な投票のような動作が行われる。つまり、複数の単一チャネルモデルのうち多くで識別されたラベルが選択される。これに対して、マルチチャネルモデルでは、複数の特徴に従って信頼度の高いラベルが選択される。結果として、3つの単一チャネルモデルのうち1つで識別されたラベル「Walking」がマルチチャネルモデルで適切に識別され、3つの単一チャネルモデルのうち2つで識別されたラベル「Exhibit」がマルチチャネルモデルで適切に否定される。
ただし、実際の状況はさらに複雑である。図22に示されているように、正解率はスロットによって異なっており、複数のモデルの性能の順位もスロットによって部分的に異なっている。機械翻訳で主題毎に異なって生じる曖昧さによって、このような差異が発生しているかもしれない。
例えば、英語における時間表現として、単語「evening」及び単語「night」は、それぞれ96%及び43%の確率で、同じ中国語の単語である「wan shang」と翻訳される。この中国語の単語は「evening」及び「night」の両方の意味を有するが、各単語を表すより正確な中国語の用語が存在する。
このような翻訳の不正確さは、中国語において「Evening」及び「Night」のラベルを識別することをより困難にし、スロット「TIME」における中国語の単一チャネルモデルの性能の低さにつながる。
また、翻訳方向を逆にすることにより、言語間の語形、語順及び文法の相違の影響を受けて、翻訳品質が変化する場合がある。DSTC5において、訓練データは、1つの翻訳方向、具体的には英語から中国語の方向のみを含むため、マルチチャネルモデルは、逆の翻訳方向に最適化されていない。そこで、翻訳品質等に基づいて、マルチチャネルモデルは、複数のチャネルに対応する複数の特徴に、偏りを有していてもよい。また、組み合わせモデルも、同様に、モデル間で偏りを有していてもよい。
また、マルチチャネルモデルの性能を向上させるため、2つの翻訳方向の両方で訓練されてもよい。
[6.評価に関する結論]
本発明者らは、互いに異なる複数のチャネルから複数の言語の入力を受け付けるマルチチャネルモデルを提案する。このマルチチャネルモデルは、誤訳に対するロバスト性を有し、かつ、いかなる単一チャネルモデルよりも性能が高い。さらに、新しい言語について予備知識が不要である。そのため、異なる言語のデータをマルチチャネルモデルに容易に適用することが可能である。
したがって、マルチチャネルモデルは、新しい言語に対する適用のコストを削減することを可能にし、複数の言語に対して対話状態を識別することを可能にする。
(まとめ)
上記の通り、本発明の一態様における識別制御方法では、第1テキスト、第2テキスト及び正解ラベルが取得される。第1テキストは、第1言語のテキストである。第2テキストは、第2言語のテキストであり、第1テキストを第2言語に翻訳することにより得られるテキストである。正解ラベルは、第1テキストの内容を表すラベルである。
そして、第1言語及び第2言語で共通の識別モデル107へ第1テキスト及び第2テキストが入力される。そして、第1テキスト及び第2テキストから共通の識別モデル107によって識別されるラベルが正解ラベルに適合するように、共通の識別モデル107が更新される。
これにより、第1言語の第1テキスト及び第2言語の第2テキストの両方が共通の識別モデル107へ入力される。そして、共通の識別モデル107によって適切なラベルが識別されるように、共通の識別モデル107が更新される。すなわち、複数の言語の複数のテキストから適切なラベルが識別されるような、複数の言語に基づく識別モデル107が構築される。
そして、複数の言語に基づく識別モデル107は、言語を横断して適切に訓練される。そのため、複数の言語に基づく識別モデル107によって、単一の言語に基づく識別モデル、又は、その組み合わせよりも、適切にラベルを識別することが可能である。したがって、複数の言語が用いられる環境においてテキストの内容を表すラベルを適切に識別することが可能になる。すなわち、複数の言語が用いられる環境においてラベルの識別品質を改善することが可能になる。
例えば、第1テキストが第1変換モデルによって第1値列に変換され、第2テキストが第2変換モデルによって第2値列に変換されてもよい。第1変換モデルでは、第1言語で表現される複数の要素が意味的に近いほどより近い複数の値に変換される。第2変換モデルでは、第2言語で表現される複数の要素が意味的に近いほどより近い複数の値に変換される。そして、第1値列に変換された第1テキスト、及び、第2値列に変換された第2テキストが、共通の識別モデル107へ入力されてもよい。
これにより、各言語で表現される要素の意味に基づく変換モデルで適切にテキストを値列に変換し、値列に変換されたテキストを共通の識別モデル107へ入力することが可能になる。
また、例えば、第1変換モデルでは、第1言語で表現される複数の要素が意味的に近いほどより近い複数のベクトルに変換されてもよい。第2変換モデルでは、第2言語で表現される複数の要素が意味的に近いほどより近い複数のベクトルに変換されてもよい。第1値列は第1ベクトル列であってもよい。第2値列は第2ベクトル列であってもよい。
これにより、各言語で表現される要素の意味に基づく変換モデルで適切にテキストをベクトル列に変換し、ベクトル列に変換されたテキストを共通の識別モデル107へ入力することが可能になる。
また、例えば、共通の識別モデル107は、畳み込みニューラルネットワークモデルであってもよい。これにより、ラベルを識別するための識別モデル107として、畳み込みニューラルネットワークモデルが用いられる。畳み込みニューラルネットワークモデルによって、適切に特徴が抽出され、抽出された特徴に基づく適切なラベルが識別される。したがって、適切なラベルの識別が可能になる。
また、例えば、畳み込みニューラルネットワークモデルは、交互に積層された複数の畳み込み層と複数のプーリング層とを含んでいてもよい。
これにより、ラベルを識別するための識別モデル107に、複数の畳み込み層及び複数のプーリング層が交互に積層された畳み込みニューラルネットワークモデルが用いられる。複数の畳み込み層及び複数のプーリング層が交互に積層された畳み込みニューラルネットワークモデルでは、入力された情報から複数回の特徴抽出によって特徴がより適切に抽出される。したがって、より適切なラベルの識別が可能になる。
また、例えば、畳み込みニューラルネットワークモデルは、第1言語に対応する少なくとも1つの畳み込み層と、第2言語に対応する少なくとも1つの畳み込み層とを別々に含んでいてもよい。これにより、各言語に対応する畳み込み層で、特徴を適切に抽出することが可能になる。すなわち、言語毎の特徴を適切に抽出することが可能になる。
また、例えば、畳み込みニューラルネットワークモデルは、第1言語に対応する少なくとも1つのプーリング層と、第2言語に対応する少なくとも1つのプーリング層とを別々に含んでいてもよい。これにより、各言語に対応するプーリング層で、特徴を示す情報の次元を削減することが可能になる。すなわち、複数の言語に対応する複数の特徴を結合する前に次元を削減することが可能になる。したがって、演算量の増加を抑制することが可能になる。
また、例えば、畳み込みニューラルネットワークモデルは、第1言語と第2言語とで共通の少なくとも1つのプーリング層を含んでいてもよい。これにより、複数の言語に対応する複数の特徴を結合することが可能になる。そして、結合された複数の特徴をラベルの識別に利用することが可能になる。
また、例えば、畳み込みニューラルネットワークモデルは、第1言語と第2言語とで共通の少なくとも1つの畳み込み層を含んでいてもよい。これにより、複数の言語に対して共通の畳み込み層で、特徴を抽出することが可能になる。すなわち、複数の言語に対して共通の処理として特徴の抽出を行うことが可能になる。したがって、演算量の増加を抑制することが可能になる。
また、例えば、共通の識別モデル107は、再帰型ニューラルネットワークモデルであってもよい。これにより、ラベルを識別するための識別モデル107として、自然言語処理に適した再帰型ニューラルネットワークモデルが用いられる。したがって、テキストの内容を表すラベルの適切な識別が可能になる。
また、例えば、共通の識別モデル107は、第1抽出層、第2抽出層及び結合層を含んでいてもよい。第1抽出層では、第1言語のテキストの特徴である第1特徴が抽出される。第2抽出層では、第2言語のテキストの特徴である第2特徴が抽出される。結合層では、第1特徴及び第2特徴が結合される。
これにより、複数の抽出層及び結合層を含む識別モデルが、ラベルを識別するための識別モデル107として用いられる。そして、これらの層を含む識別モデル107が、全体的に訓練される。したがって、ラベルを適切に識別することが可能になる。
また、例えば、結合層では、第1特徴及び第2特徴を示す複数の値が連結されてもよい。これにより、複数の言語に対応する複数の特徴を示す複数の値をシンプルに結合することが可能になる。そして、結合の結果をラベルの識別に利用することが可能になる。
また、例えば、結合層では、第1特徴及び第2特徴を示す複数の値に対して線形結合が行われてもよい。これにより、複数の言語に対応する複数の特徴を示す複数の値をシンプルな演算によって組み合わせることが可能になる。そして、組み合わせの結果をラベルの識別に利用することが可能になる。
また、例えば、結合層では、第1特徴及び第2特徴を示す複数の値の結合及び重み付け加算を含む処理によって、複数のラベルのそれぞれの確率が導出されてもよい。そして、識別モデル107によって識別されるラベルは、結合層で導出された確率によって識別されてもよい。
これにより、最終的なラベルが確率によって識別される。また、2つの言語の2つのテキストから最終的なラベルを識別するための識別モデル107が訓練される。したがって、最終的なラベルを適切に識別することが可能になる。
また、例えば、第3テキスト及び第4テキストが取得されてもよい。第3テキストは、第1言語のテキストであり、第4テキストは、第2言語のテキストである。また、第3テキスト及び第4テキストのうちの一方のテキストは、他方のテキストを一方のテキストに対応する言語に翻訳することにより得られるテキストである。
そして、更新された共通の識別モデル107へ第3テキスト及び第4テキストが入力されてもよい。そして、第3テキスト及び第4テキストから共通の識別モデル107によって識別されるラベルが、第3テキスト又は第4テキストを表すラベルとして識別されてもよい。
これにより、複数の言語に基づく識別モデル107に、第1言語の第3テキスト及び第2言語の第4テキストの両方が入力される。複数の言語に基づく識別モデル107によって、単一の言語に基づく識別モデル、又は、その組み合わせよりも、適切にラベルを識別することが可能である。したがって、ラベルが適切に識別される。
また、例えば、第3テキストが第1変換モデルによって第3値列に変換され、第4テキストが第2変換モデルによって第4値列に変換されてもよい。第1変換モデルでは、第1言語で表現される複数の要素が意味的に近いほどより近い複数の値に変換される。第2変換モデルでは、第2言語で表現される複数の要素が意味的に近いほどより近い複数の値に変換される。そして、第3値列に変換された第3テキスト、及び、第4値列に変換された第4テキストが、共通の識別モデル107へ入力されてもよい。
これにより、各言語で表現される要素の意味に基づく変換モデルで適切にテキストを値列に変換し、値列に変換されたテキストを共通の識別モデル107へ入力することが可能になる。
また、例えば、第1変換モデルでは、第1言語で表現される複数の要素が意味的に近いほどより近い複数のベクトルに変換されてもよい。第2変換モデルでは、第2言語で表現される複数の要素が意味的に近いほどより近い複数のベクトルに変換されてもよい。第3値列は第3ベクトル列であってもよい。第4値列は第4ベクトル列であってもよい。
これにより、各言語で表現される要素の意味に基づく変換モデルで適切にテキストをベクトル列に変換し、ベクトル列に変換されたテキストを共通の識別モデル107へ入力することが可能になる。
また、本発明の一態様における識別制御装置100は、上記の識別制御方法を実行する制御回路110と、識別制御方法を制御回路110が実行するための情報が記憶される記憶回路111とを備える。これにより、識別制御装置100は、上記の識別制御方法を実行することができる。したがって、識別制御装置100は、複数の言語が用いられる環境においてテキストの内容を表すラベルを適切に識別することを可能にすることができる。
以上、本発明の一態様における識別制御装置100及び識別制御方法について、実施の形態等に基づいて説明したが、本発明は実施の形態等に限定されない。実施の形態等に対して当業者が思いつく変形を施して得られる形態、及び、実施の形態等における複数の構成要素を任意に組み合わせて実現される別の形態も本発明に含まれる。
例えば、上記実施の形態において、特定の構成要素が実行する処理を特定の構成要素の代わりに別の構成要素が実行してもよい。また、複数の処理の順序が変更されてもよいし、複数の処理が並行して実行されてもよい。また、翻訳は機械翻訳でなくてもよい。また、プログラムが、識別制御方法に含まれるステップをコンピュータに実行させてもよい。
例えば、このプログラムは、コンピュータに、第1言語のテキストである第1テキストを取得するステップと、第2言語のテキストであり、前記第1テキストを前記第2言語に翻訳することにより得られるテキストである第2テキストを取得するステップと、前記第1テキストの内容を表すラベルである正解ラベルを取得するステップと、前記第1言語及び前記第2言語で共通の識別モデルへ前記第1テキスト及び前記第2テキストを入力するステップと、前記第1テキスト及び前記第2テキストから前記共通の識別モデルによって識別されるラベルが前記正解ラベルに適合するように、前記共通の識別モデルを更新するステップとを含む識別制御方法を実行させる。
また、このプログラムは、CD−ROM等の非一時的な記録媒体に記録されてもよい。また、識別制御装置100は、集積回路で実装されてもよい。また、識別制御装置100は、識別制御方法に含まれる複数のステップにそれぞれ対応する複数の電気回路又は複数のユニット等を複数のハードウェア要素として備えていてもよい。
本発明は、複数の言語において、複数の言語が用いられる環境においてテキストの内容を表すラベルを識別するための識別制御装置等に利用可能であり、文書識別システム、言語解析システム、対話識別システム又は文書要約システム等に適用可能である。
100 識別制御装置
101 英語の訓練データ
102 英語の識別モデル
103 英語の識別対象データ
104 中国語の識別対象データ
105 中国語の訓練データ
106 中国語の識別モデル
107 識別モデル
110 制御回路
111 記憶回路
121 第1言語のテキスト
122 第2言語のテキスト
131 第1抽出層
132 第2抽出層
140 結合層
151 第1入力層
152 第2入力層
161 第1畳み込み層
162 第2畳み込み層
170 プーリング層
180 全結合層
191 第1リカレント層
192 第2リカレント層

Claims (18)

  1. 第1言語のテキストである第1テキストを取得するステップと、
    第2言語のテキストであり、前記第1テキストを前記第2言語に翻訳することにより得られるテキストである第2テキストを取得するステップと、
    前記第1テキストの内容を表すラベルである正解ラベルを取得するステップと、
    前記第1言語及び前記第2言語で共通の識別モデルへ前記第1テキスト及び前記第2テキストを入力するステップと、
    前記第1テキスト及び前記第2テキストから前記共通の識別モデルによって識別されるラベルが前記正解ラベルに適合するように、前記共通の識別モデルを更新するステップとを含む
    識別制御方法。
  2. 前記識別制御方法は、さらに、
    前記第1言語で表現される複数の要素が意味的に近いほどより近い複数の値に変換される第1変換モデルによって、前記第1テキストを第1値列に変換するステップと、
    前記第2言語で表現される複数の要素が意味的に近いほどより近い複数の値に変換される第2変換モデルによって、前記第2テキストを第2値列に変換するステップとを含み、
    前記第1テキスト及び前記第2テキストを前記共通の識別モデルへ入力ステップでは、前記第1値列に変換された前記第1テキスト、及び、前記第2値列に変換された前記第2テキストを前記共通の識別モデルへ入力する
    請求項1に記載の識別制御方法。
  3. 前記第1変換モデルでは、前記第1言語で表現される複数の要素が意味的に近いほどより近い複数のベクトルに変換され、
    前記第2変換モデルでは、前記第2言語で表現される複数の要素が意味的に近いほどより近い複数のベクトルに変換され、
    前記第1値列は第1ベクトル列であり、
    前記第2値列は第2ベクトル列である
    請求項2に記載の識別制御方法。
  4. 前記共通の識別モデルは、畳み込みニューラルネットワークモデルである
    請求項1〜3のいずれか1項に記載の識別制御方法。
  5. 前記畳み込みニューラルネットワークモデルは、交互に積層された複数の畳み込み層と複数のプーリング層とを含む
    請求項4に記載の識別制御方法。
  6. 前記畳み込みニューラルネットワークモデルは、前記第1言語に対応する少なくとも1つの畳み込み層と、前記第2言語に対応する少なくとも1つの畳み込み層とを別々に含む
    請求項4又は5に記載の識別制御方法。
  7. 前記畳み込みニューラルネットワークモデルは、前記第1言語に対応する少なくとも1つのプーリング層と、前記第2言語に対応する少なくとも1つのプーリング層とを別々に含む
    請求項4〜6のいずれか1項に記載の識別制御方法。
  8. 前記畳み込みニューラルネットワークモデルは、前記第1言語と前記第2言語とで共通の少なくとも1つのプーリング層を含む
    請求項4〜7のいずれか1項に記載の識別制御方法。
  9. 前記畳み込みニューラルネットワークモデルは、前記第1言語と前記第2言語とで共通の少なくとも1つの畳み込み層を含む
    請求項4〜8のいずれか1項に記載の識別制御方法。
  10. 前記共通の識別モデルは、再帰型ニューラルネットワークモデルである
    請求項1〜3のいずれか1項に記載の識別制御方法。
  11. 前記共通の識別モデルは、
    前記第1言語のテキストの特徴である第1特徴が抽出される第1抽出層と、
    前記第2言語のテキストの特徴である第2特徴が抽出される第2抽出層と、
    前記第1特徴及び前記第2特徴が結合される結合層とを含む
    請求項1〜10のいずれか1項に記載の識別制御方法。
  12. 前記結合層では、前記第1特徴及び前記第2特徴を示す複数の値が連結される
    請求項11に記載の識別制御方法。
  13. 前記結合層では、前記第1特徴及び前記第2特徴を示す複数の値に対して線形結合が行われる
    請求項11又は12に記載の識別制御方法。
  14. 前記結合層では、前記第1特徴及び前記第2特徴を示す複数の値の結合及び重み付け加算を含む処理によって、複数のラベルのそれぞれの確率が導出され、
    前記共通の識別モデルによって識別されるラベルは、前記結合層で導出された確率によって識別される
    請求項11〜13のいずれか1項に記載の識別制御方法。
  15. 前記識別制御方法は、さらに、
    前記第1言語のテキストである第3テキストを取得するステップと、
    前記第2言語のテキストである第4テキストを取得するステップとを含み、
    前記第3テキスト及び前記第4テキストのうちの一方のテキストは、他方のテキストを前記一方のテキストに対応する言語に翻訳することにより得られるテキストであり、
    前記識別制御方法は、さらに、
    更新された前記共通の識別モデルへ前記第3テキスト及び前記第4テキストを入力するステップと、
    前記第3テキスト及び前記第4テキストから前記共通の識別モデルによって識別されるラベルを前記第3テキスト又は前記第4テキストを表すラベルとして識別するステップとを含む
    請求項1〜14のいずれか1項に記載の識別制御方法。
  16. 前記識別制御方法は、さらに、
    前記第1言語で表現される複数の要素が意味的に近いほどより近い複数の値に変換される第1変換モデルによって、前記第3テキストを第3値列に変換するステップと、
    前記第2言語で表現される複数の要素が意味的に近いほどより近い複数の値に変換される第2変換モデルによって、前記第4テキストを第4値列に変換するステップとを含み、
    前記第3テキスト及び前記第4テキストを前記共通の識別モデルへ入力するステップでは、前記第3値列に変換された前記第3テキスト、及び、前記第4値列に変換された前記第4テキストを前記共通の識別モデルへ入力する
    請求項15に記載の識別制御方法。
  17. 前記第1変換モデルでは、前記第1言語で表現される複数の要素が意味的に近いほどより近い複数のベクトルに変換され、
    前記第2変換モデルでは、前記第2言語で表現される複数の要素が意味的に近いほどより近い複数のベクトルに変換され、
    前記第3値列は第3ベクトル列であり、
    前記第4値列は第4ベクトル列である
    請求項16に記載の識別制御方法。
  18. 識別制御方法を実行する制御回路と、
    前記識別制御方法を前記制御回路が実行するための情報が記憶される記憶回路とを備え、
    前記識別制御方法は、
    第1言語のテキストである第1テキストを取得するステップと、
    第2言語のテキストであり、前記第1テキストを前記第2言語に翻訳することにより得られるテキストである第2テキストを取得するステップと、
    前記第1テキストの内容を表すラベルである正解ラベルを取得するステップと、
    前記第1言語及び前記第2言語で共通の識別モデルへ前記第1テキスト及び前記第2テキストを入力するステップと、
    前記第1テキスト及び前記第2テキストから前記共通の識別モデルによって識別されるラベルが前記正解ラベルに適合するように、前記共通の識別モデルを更新するステップとを含む
    識別制御装置。
JP2017067775A 2016-08-09 2017-03-30 識別制御方法及び識別制御装置 Active JP6715492B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201710446316.7A CN107704456B (zh) 2016-08-09 2017-06-14 识别控制方法以及识别控制装置
EP17182712.4A EP3282367A1 (en) 2016-08-09 2017-07-24 Method for controlling identification and identification control apparatus
US15/662,628 US10460039B2 (en) 2016-08-09 2017-07-28 Method for controlling identification and identification control apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201662372456P 2016-08-09 2016-08-09
US62/372,456 2016-08-09

Publications (2)

Publication Number Publication Date
JP2018026098A true JP2018026098A (ja) 2018-02-15
JP6715492B2 JP6715492B2 (ja) 2020-07-01

Family

ID=61194587

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017067775A Active JP6715492B2 (ja) 2016-08-09 2017-03-30 識別制御方法及び識別制御装置

Country Status (1)

Country Link
JP (1) JP6715492B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019160087A1 (ja) 2018-02-16 2019-08-22 日本製鉄株式会社 無方向性電磁鋼板、及び無方向性電磁鋼板の製造方法
WO2019159995A1 (ja) * 2018-02-16 2019-08-22 日本電信電話株式会社 学習装置、識別装置、それらの方法、およびプログラム
WO2020017006A1 (ja) 2018-07-19 2020-01-23 富士通株式会社 学習方法、翻訳方法、学習プログラム、翻訳プログラムおよび情報処理装置
JP2020091549A (ja) * 2018-12-03 2020-06-11 日本放送協会 テキスト分類装置、学習装置、およびプログラム
CN112329765A (zh) * 2020-10-09 2021-02-05 中保车服科技服务股份有限公司 文本检测的方法及装置、存储介质及计算机设备
JP2022120106A (ja) * 2018-03-29 2022-08-17 富士フイルム株式会社 巻き取り欠陥レベル予測値生成装置、巻き取り条件生成装置、巻き取り欠陥レベル予測値生成方法、及び巻き取り条件生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05282361A (ja) * 1992-03-30 1993-10-29 Toshiba Corp データベース作成支援装置及び機械翻訳装置
JP2000200273A (ja) * 1998-11-04 2000-07-18 Atr Interpreting Telecommunications Res Lab 発話意図認識装置
JP2011034171A (ja) * 2009-07-30 2011-02-17 National Institute Of Information & Communication Technology 単語間の意味的関係の有無についての、複数言語での同時分類器及びそのためのコンピュータプログラム。
WO2011036769A1 (ja) * 2009-09-25 2011-03-31 株式会社東芝 翻訳装置、及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05282361A (ja) * 1992-03-30 1993-10-29 Toshiba Corp データベース作成支援装置及び機械翻訳装置
JP2000200273A (ja) * 1998-11-04 2000-07-18 Atr Interpreting Telecommunications Res Lab 発話意図認識装置
JP2011034171A (ja) * 2009-07-30 2011-02-17 National Institute Of Information & Communication Technology 単語間の意味的関係の有無についての、複数言語での同時分類器及びそのためのコンピュータプログラム。
WO2011036769A1 (ja) * 2009-09-25 2011-03-31 株式会社東芝 翻訳装置、及びプログラム

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019160087A1 (ja) 2018-02-16 2019-08-22 日本製鉄株式会社 無方向性電磁鋼板、及び無方向性電磁鋼板の製造方法
WO2019159995A1 (ja) * 2018-02-16 2019-08-22 日本電信電話株式会社 学習装置、識別装置、それらの方法、およびプログラム
JPWO2019159995A1 (ja) * 2018-02-16 2021-02-04 日本電信電話株式会社 学習装置、識別装置、それらの方法、およびプログラム
JP7017176B2 (ja) 2018-02-16 2022-02-08 日本電信電話株式会社 学習装置、識別装置、それらの方法、およびプログラム
JP2022120106A (ja) * 2018-03-29 2022-08-17 富士フイルム株式会社 巻き取り欠陥レベル予測値生成装置、巻き取り条件生成装置、巻き取り欠陥レベル予測値生成方法、及び巻き取り条件生成方法
JP7430218B2 (ja) 2018-03-29 2024-02-09 富士フイルム株式会社 巻き取り欠陥レベル予測値生成装置、巻き取り条件生成装置、巻き取り欠陥レベル予測値生成方法、及び巻き取り条件生成方法
US11960992B2 (en) 2018-03-29 2024-04-16 Fujifilm Corporation Winding condition generating apparatus, winding apparatus, winding defect level prediction value generating apparatus, winding condition calculating method, winding method, and winding defect level prediction value generating method
WO2020017006A1 (ja) 2018-07-19 2020-01-23 富士通株式会社 学習方法、翻訳方法、学習プログラム、翻訳プログラムおよび情報処理装置
JP2020091549A (ja) * 2018-12-03 2020-06-11 日本放送協会 テキスト分類装置、学習装置、およびプログラム
JP7186591B2 (ja) 2018-12-03 2022-12-09 日本放送協会 テキスト分類装置、学習装置、およびプログラム
CN112329765A (zh) * 2020-10-09 2021-02-05 中保车服科技服务股份有限公司 文本检测的方法及装置、存储介质及计算机设备
CN112329765B (zh) * 2020-10-09 2024-05-24 中保车服科技服务股份有限公司 文本检测的方法及装置、存储介质及计算机设备

Also Published As

Publication number Publication date
JP6715492B2 (ja) 2020-07-01

Similar Documents

Publication Publication Date Title
CN107704456B (zh) 识别控制方法以及识别控制装置
JP6715492B2 (ja) 識別制御方法及び識別制御装置
US11106714B2 (en) Summary generating apparatus, summary generating method and computer program
Abdullah et al. SEDAT: sentiment and emotion detection in Arabic text using CNN-LSTM deep learning
Viglino et al. End-to-End Accented Speech Recognition.
CN110895932B (zh) 基于语言种类和语音内容协同分类的多语言语音识别方法
WO2019200923A1 (zh) 基于拼音的语义识别方法、装置以及人机对话系统
CN111984766B (zh) 缺失语义补全方法及装置
Shi et al. A multichannel convolutional neural network for cross-language dialog state tracking
EP3926531B1 (en) Method and system for visio-linguistic understanding using contextual language model reasoners
CN108228576B (zh) 文本翻译方法及装置
CN108062978B (zh) 一种急性冠状动脉综合征患者的主要不良心血管事件预测方法
CN113780012A (zh) 基于预训练语言模型的抑郁症访谈对话生成方法
CN111597341B (zh) 一种文档级关系抽取方法、装置、设备及存储介质
CN112686056B (zh) 一种情感分类方法
CN111831789A (zh) 一种基于多层语义特征提取结构的问答文本匹配方法
JP6946842B2 (ja) モデル学習装置、変換装置、方法、及びプログラム
Malmi et al. Automatic prediction of discourse connectives
CN111368544A (zh) 命名实体识别方法及装置
Jiang et al. Towards robust mispronunciation detection and diagnosis for L2 English learners with accent-modulating methods
Hegde et al. Mucs@-machine translation for dravidian languages using stacked long short term memory
CN110838290A (zh) 跨语言交流的语音机器人交互方法及装置
CN115114437A (zh) 基于bert和双分支网络的胃镜文本分类系统
CN115146621A (zh) 一种文本纠错模型的训练方法、应用方法、装置及设备
CN114330701A (zh) 模型训练方法、装置、计算机设备、存储介质及程序产品

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191024

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200519

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200525

R151 Written notification of patent or utility model registration

Ref document number: 6715492

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151