JP6823809B2

JP6823809B2 - 対話行為推定方法、対話行為推定装置およびプログラム

Info

Publication number: JP6823809B2
Application number: JP2017071334A
Authority: JP
Inventors: 貴志牛尾; 宏杰史; 遠藤　充; 充遠藤; 山上　勝義; 勝義山上
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2016-08-09
Filing date: 2017-03-31
Publication date: 2021-02-03
Anticipated expiration: 2037-03-31
Also published as: JP2018025747A

Description

本開示は、対話行為推定方法、対話行為推定装置およびプログラムに関し、特に、機械学習される所定のモデルを用いて発話文の対話行為を推定する対話行為推定方法、対話行為推定装置およびプログラムに関する。

対話行為推定技術は、ユーザの発話が意味する対話行為を推定する技術である。このような技術として、１発話単位で対話行為が付与されているコーパスを用いて、対話行為に寄与している高頻度の語句を言語特徴として学習したり、さらに一つ前の発話などとの文脈情報を用いて文脈依存の対話行為を学習したりするニューラルネットワークを用いた技術が提案されている（例えば非特許文献１参照）。非特許文献１では、時系列情報を扱えるリカレントニューラルネットワークを用いて、文脈依存および言語特徴の対話行為を学習する。

Nal Kalchbrenner, Phil Blunsom, "Recurrent Convolutional Neural Networks for Discourse Compositionality", arXiv preprint arXiv:1306.3584, 2013.

しかしながら、上記非特許文献１で提案される方法では、学習時の教師データが不足し、十分な推定精度を得られないという課題がある。

本開示は、上述の事情を鑑みてなされたもので、対話行為の推定精度を向上できる対話行為推定方法、対話行為推定装置およびプログラムを提供することを目的とする。

本開示の一態様に係る対話行為推定方法は、機械学習される所定のモデルを用いて発話文の対話行為を推定する対話行為推定方法であって、推定対象の第１時刻における第１発話文のテキストデータである第１文章と、前記第１時刻より前の時刻における第２発話文であって前記第１発話文に連続する第２発話文のテキストデータである第２文章と、前記第１文章に対応づけられた行為を示す行為情報と、前記第１文章に対応づけられた属性を示す属性情報と、前記第１文章に対応づけられた行為および属性の組み合わせである対話行為を示す対話行為情報とを含む学習用データを取得する取得ステップと、前記学習用データを用いて、前記モデルに２種以上のタスクを同時に学習させる学習ステップと、前記学習ステップにおいて学習した結果を学習結果情報として記憶する記憶ステップとを含む。そして、前記学習ステップでは、前記タスクの一として、前記学習用データに含まれる前記行為情報を教師データとして用いて、前記第１発話文と前記行為情報との対応付けを学習させ、前記タスクの一として、前記学習用データに含まれる前記属性情報を教師データとして用いて、前記第１発話文と前記属性情報との対応付けを学習させ、前記タスクの一として、前記学習用データに含まれる前記対話行為情報を教師データとして、前記第１発話文と前記対話行為情報との対応付けを学習させる。

また、上記目的を達成するために、本開示の一態様に係る対話行為推定装置は、機械学習される所定のモデルを用いて発話文の対話行為を推定する対話行為推定装置であって、推定対象の第１時刻における第１発話文のテキストデータである第１文章と、前記第１時刻より前の時刻における第２発話文であって前記第１発話文に連続する第２発話文のテキストデータである第２文章と、前記第１文章に対応づけられた行為を示す行為情報と、前記第１文章に対応づけられた属性を示す属性情報と、前記第１文章に対応づけられた行為および属性の組み合わせである対話行為を示す対話行為情報とを含む学習用データを取得する取得部と、前記学習用データを用いて、前記モデルに２種以上のタスクを同時に学習させる学習部と、前記学習ステップにおいて学習した結果を学習結果情報として記憶する記憶部とを備える。そして、前記学習部は、前記タスクの一として、前記学習用データに含まれる前記行為情報を教師データとして用いて、前記第１発話文と前記行為情報との対応付けを学習させ、前記タスクの一として、前記学習用データに含まれる前記属性情報を教師データとして用いて、前記第１発話文と前記属性情報との対応付けを学習させ、前記タスクの一として、前記学習用データに含まれる前記対話行為情報を教師データとして、前記第１発話文と前記対話行為情報との対応付けを学習させる。

なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なＣＤ−ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

本開示の対話行為推定方法等によれば、対話行為の推定精度を向上できる。

実施の形態１に係る対話行為推定装置システムの構成例を示すブロック図である。実施の形態１に係る対話行為推定システムの構成の別例を示すブロック図である。実施の形態１に係る学習用データの一例を示す図である。実施の形態１に係る学習部の詳細構成の一例を示すブロック図である。実施の形態１に係るニューラルネットワークモデルの概略を示す図である。実施の形態１に係る対話データの一例を示す図である。実施の形態１に係る対話行為推定部の詳細構成の一例を示すブロック図である。実施の形態１に係る対話行為推定装置の推定結果の一例を示す図である。実施の形態１に係る対話行為推定システムの動作の概要を示すフローチャートである。実施の形態１に係る学習処理の詳細のフローチャートである。図９に示すＳ２３の詳細を示すフローチャートである。実施の形態１に係る対話行為推定方法等による効果を示す図である。実施の形態１の変形例に係るニューラルネットワークモデルの概略を示す図である。実施の形態１の変形例に係る学習部の詳細構成の一例を示すブロック図である。実施の形態１の変形例に係る推定部の詳細構成の一例を示すブロック図である。実施の形態１の変形例に係る対話行為推定方法等による効果を示す図である。実施の形態１の変形例に係る対話行為推定方法等による効果を示す図である。実施の形態２に係る対話システムの構成の一例を示すブロック図である。

（本開示の基礎となった知見）
また、非特許文献１では、連続した発話からなる対話データに含まれる重要な文脈情報を使っていない点を問題としている。これに対して、連続した発話からなる対話データの発話の特徴量を話者毎に区別し、時系列モデルであるリカレントニューラルネットワークで学習することで、自身と相手の発話を区別して、文脈依存を抽出するモデルが提案されている。

しかしながら、非特許文献１は、単一の意味的概念を出力することを想定しており、他の意味的概念を利用することは行われていない。

そのため、非特許文献１で提案される方法では、学習時の教師データが不足し、十分な推定精度を得られない。

このような課題に対して、本開示の一態様に係る対話行為推定方法は、機械学習される所定のモデルを用いて発話文の対話行為を推定する対話行為推定方法であって、推定対象の第１時刻における第１発話文のテキストデータである第１文章と、前記第１時刻より前の時刻における第２発話文であって前記第１発話文に連続する第２発話文のテキストデータである第２文章と、前記第１文章に対応づけられた行為を示す行為情報と、前記第１文章に対応づけられた属性を示す属性情報と、前記第１文章に対応づけられた行為および属性の組み合わせである対話行為を示す対話行為情報とを含む学習用データを取得する取得ステップと、前記学習用データを用いて、前記モデルに２種以上のタスクを同時に学習させる学習ステップと、前記学習ステップにおいて学習した結果を学習結果情報として記憶する記憶ステップとを含む。そして、前記学習ステップでは、前記タスクの一として、前記学習用データに含まれる前記行為情報を教師データとして用いて、前記第１発話文と前記行為情報との対応付けを学習させ、前記タスクの一として、前記学習用データに含まれる前記属性情報を教師データとして用いて、前記第１発話文と前記属性情報との対応付けを学習させ、前記タスクの一として、前記学習用データに含まれる前記対話行為情報を教師データとして、前記第１発話文と前記対話行為情報との対応付けを学習させる。

本態様によれば、学習処理対象の第１時刻の発話文の対話行為を、当該発話文を示す文章の行為情報と属性情報と、行為情報および属性情報の組み合わせの対話行為情報とを用いてマルチタスク学習を行う。これにより、発話文と対話行為情報との対応付けの精度を向上できる。

例えば、前記学習用データは、さらに、前記第１文章の話者を示す第１話者識別情報と、前記第２文章の話者を示す第２話者識別情報とを含むとしてよい。

本態様によれば、複数の発話文の文章の各々の話者を示す話者識別情報を用いて学習を行うことで、発話文と対話行為情報との対応付けの精度をさらに向上できる。

また、例えば、前記モデルは、前記第１文章と、前記第２文章と、前記第１話者識別情報と、前記第２話者識別情報と、第１重みパラメータとに基づき、前記第１文章に示される行為に関する単語特徴および当該単語特徴の文脈情報を表現する第１特徴ベクトルを出力する第１モデルと、前記第１文章と、前記第２文章と、前記第１話者識別情報と、前記第２話者識別情報と、第２重みパラメータとに基づき、前記第１文章に示される属性に関する単語特徴および当該単語特徴の文脈情報を表現する第２特徴ベクトルを出力する第２モデルと、前記第１特徴ベクトルと、第３重みパラメータとに基づき、前記第１文章に対応する行為の事後確率を出力する第３モデルと、前記第２特徴ベクトルと、第４重みパラメータとに基づき、前記第１文章に対応する属性の事後確率を出力する第４モデルと、前記第１特徴ベクトルと、前記第２特徴ベクトルと、第５重みパラメータとに基づき、前記第１文章に対応する対話行為の事後確率を出力する第５モデルとを含む。そして、前記学習ステップでは、前記第１文章に対応する行為の事後確率、前記第１文章に対応する属性の事後確率、および前記第１文章に対応する対話行為の事後確率と、前記学習用データに含まれる前記対話行為情報、前記行為情報および前記属性情報との間の誤差に基づいて、前記第１重みパラメータ、前記第２重みパラメータ、前記第３重みパラメータ、前記第４重みパラメータおよび前記第５重みパラメータを誤差逆伝搬法で更新することにより、前記学習用データを用いて前記モデルに２種以上のタスクを同時に学習させるとしてよい。

ここで、例えば、前記第１モデルは、前記第１話者識別情報および前記第２話者識別情報に依存した前記第１重みパラメータを持つＲＮＮ−ＬＳＴＭ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ−ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）で構成され、前記第２モデルは、前記第１話者識別情報および前記第２話者識別情報に依存した前記第２重みパラメータを持つ２ＲＮＮ−ＬＳＴＭで構成されてもよい。

また、例えば、前記モデルは、前記第１文章と、前記第２文章と、前記第１話者識別情報と、前記第２話者識別情報と、第１重みパラメータとに基づき、前記第１文章に示される行為および属性に関する単語特徴および当該単語特徴の文脈情報を表現する特徴ベクトルを出力する第１モデルと、前記特徴ベクトルと、第３重みパラメータとに基づき、前記第１文章に対応する行為の事後確率を出力する第３モデルと、前記特徴ベクトルと、第４重みパラメータとに基づき、前記第１文章に対応する属性の事後確率を出力する第４モデルと、前記特徴ベクトルと、第５重みパラメータとに基づき、前記第１文章に対応する対話行為の事後確率を出力する第５モデルとを含む。そして、前記学習ステップでは、前記第１文章に対応する行為の事後確率、前記第１文章に対応する属性の事後確率、および前記第１文章に対応する対話行為の事後確率と、前記学習用データに含まれる前記対話行為情報、前記行為情報および前記属性情報との間の誤差に基づいて、前記第１重みパラメータ、前記第３重みパラメータ、前記第４重みパラメータ、および前記第５重みパラメータを誤差逆伝搬法で更新することにより、前記学習用データを用いて２種以上のタスクを同時に学習させてもよい。

ここで、例えば、前記第１モデルは、前記第１話者識別情報および前記第２話者識別情報に依存した前記第１重みパラメータを持つＲＮＮ−ＬＳＴＭで構成されてもよい。

また、例えば、前記取得ステップでは、前記学習用データを、時系列に連続して発話される２以上の発話文と、当該２以上の発話文それぞれに対応づけられた行為情報、属性情報および対話行為とが集積されたコーパスから取得してもよい。

例えば、前記対話行為推定方法は、さらに、ユーザにより発話された第２時刻の第３発話文のテキストデータである第３文章と、前記第２時刻の直前の時刻における第４発話文のテキストデータである第４文章と、前記第３文章の話者を示す第３話者識別情報と、前記第４文章の話者を示す第４話者識別情報とを含む対話データを取得する対話取得ステップと、前記記憶ステップにおいて記憶された前記学習結果情報を反映した前記モデルに、前記対話データを適用することにより、前記第３発話文の対話行為を推定する推定ステップとを含めてもよい。

これによれば、学習結果を用いて、発話文から対話行為を推定できる。

また、本開示の一態様に係る対話行為推定装置は、機械学習される所定のモデルを用いて発話文の対話行為を推定する対話行為推定装置であって、推定対象の第１時刻における第１発話文のテキストデータである第１文章と、前記第１時刻より前の時刻における第２発話文であって前記第１発話文に連続する第２発話文のテキストデータである第２文章と、前記第１文章に対応づけられた行為を示す行為情報と、前記第１文章に対応づけられた属性を示す属性情報と、前記第１文章に対応づけられた行為および属性の組み合わせである対話行為を示す対話行為情報とを含む学習用データを取得する取得部と、前記学習用データを用いて、前記モデルに２種以上のタスクを同時に学習させる学習部と、前記学習ステップにおいて学習した結果を学習結果情報として記憶する記憶部とを備える。そして、前記学習部は、前記タスクの一として、前記学習用データに含まれる前記行為情報を教師データとして用いて、前記第１発話文と前記行為情報との対応付けを学習させ、前記タスクの一として、前記学習用データに含まれる前記属性情報を教師データとして用いて、前記第１発話文と前記属性情報との対応付けを学習させ、前記タスクの一として、前記学習用データに含まれる前記対話行為情報を教師データとして、前記第１発話文と前記対話行為情報との対応付けを学習させる。

また、本開示の一態様に係るプログラムは、上記態様に記載の対話行為推定方法をコンピュータに実行させる。

なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なＣＤ−ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

以下、本開示の実施の形態について、図面を参照しながら説明する。以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施の形態において、各々の内容を組み合わせることもできる。

（実施の形態１）
以下では、図面を参照しながら、実施の形態１における対話行為推定方法等の説明を行う。

［対話行為推定システム］
図１は、実施の形態１に係る対話行為推定システム１の構成例を示すブロック図である。図２は、実施の形態１に係る対話行為推定システムの構成の別例を示すブロック図である。なお、図１と同様の要素には同一の符号を付している。

図１に示す対話行為推定システム１は、記憶装置１０と、学習処理装置１１と、対話行為推定装置１２とを備える。

＜記憶装置１０＞
記憶装置１０は、コーパス１０１および対話データ１０２を記憶する。コーパス１０１は、１発話を示すテキストデータである１発話文の単位で対話行為が付与されたデータが集められたものである。対話行為は、ユーザが行う発話の意図の種類を示すものである。本実施の形態では、コーパス１０１は、複数の学習用データ１０１１を含む。学習用データ１０１１は学習処理装置１１が学習処理を行う際に用いる学習用データである。

記憶装置１０は、例えば、ハードディスクドライブまたはソリッドステートドライブ等の書き換え可能な不揮発性のメモリーで構成される。

＜学習処理装置１１＞
学習処理装置１１は、記憶装置１０に記憶されるコーパス１０１から１以上の学習用データ１０１１を取得し、発話文の対話行為を推定するために用いられる所定のモデルに２種以上のタスクを同時に学習させるマルチタスク学習を行う。学習処理装置１１は、コンピュータ等で実現される。本実施の形態では、所定のモデルは、機械学習される２つのリカレントニューラルネットワークを含むニューラルネットワークモデルであるとして説明するが、ＣＲＦ（ＣｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄｓ）などを含む確率モデルであってもよい。

＜対話行為推定装置１２＞
対話行為推定装置１２は、記憶装置１０から対話データ１０２を取得し、学習処理装置１１によりマルチタスク学習で機械学習が行われた所定のモデルを用いて、対話データ１０２に含まれる発話文の対話行為を推定する。対話行為推定装置１２は、コンピュータ等で実現される。

なお、実施の形態１に係る対話行為推定システム１は、図１に示す構成に限らない。図２の対話行為推定システム１Ａに示すように、対話行為推定装置１２が、図１に示す学習処理装置１１に相当する機能部である学習処理装置部１１Ａと、図１に示す対話行為推定装置１２に相当する機能部である対話行為推定装置部１２Ａとを含むとしてもよい。つまり、図２に示す対話行為推定装置１２のように、学習処理と対話行為推定処理との両方が行われてもよいし、図１に示すように学習処理装置１１と対話行為推定装置１２の異なる装置で学習処理と対話行為推定処理を行うとしてもよい。また、図２に示す対話行為推定装置１２に、さらに記憶装置１０が含まれるとしてもよい。

以下、学習処理装置１１および対話行為推定装置１２の詳細構成について説明する。

［学習処理装置１１］
学習処理装置１１は、図１等に示すように、取得部１１１と、学習部１１２と、記憶部１１３とを備える。

＜記憶部１１３＞
記憶部１１３は、学習部１１２において学習された結果を学習結果情報１１３１として記憶する。記憶部１１３は、例えば、ハードディスクドライブまたはソリッドステートドライブ等の書き換え可能な不揮発性のメモリーで構成される。

＜取得部１１１＞
取得部１１１は、学習処理対象の第１時刻における第１発話文のテキストデータである第１文章と、第１時刻より前の時刻における第２発話文であって第１発話文に連続する第２発話文のテキストデータである第２文章と、第１文章に対応づけられた行為を示す行為情報と、第１文章に対応づけられた属性を示す属性情報と、第１文章に対応づけられた行為および属性の組み合わせである対話行為を示す対話行為情報とを含む学習用データを取得する。ここで、学習用データは、さらに、第１文章の話者を示す第１話者識別情報と、第２文章の話者を示す第２話者識別情報とを含めてもよい。また、取得部１１１は、学習用データを、時系列に連続して発話される２以上の発話文と、当該２以上の発話文それぞれに対応づけられた行為情報、属性情報および対話行為とが集積されたコーパスから取得する。

本実施の形態では、取得部１１１は、記憶装置１０に記憶されるコーパス１０１から１以上の学習用データ１０１１を取得する。なお、取得部１１１は、例えば、ＣＰＵ、ＡＳＩＣ、またはＦＰＧＡ等のプロセッサで構成され、ＣＰＵ等のプロセッサが、コンピュータに保持されている、コンピュータで読み取り可能なプログラムを実行することで実現される。

図３は、実施の形態１に係る学習用データ１０１１の一例を示す図である。上述したが、図３に示す学習用データ１０１１はコーパス１０１に含まれる。換言すると、コーパス１０１は、学習用データ１０１１が集積されたものに該当する。

学習用データ１０１１には、連続して時系列に発話される複数の発話文についてのデータが含まれている。図３に示す学習用データ１０１１は、英語により旅行案内されたひとまとまり対話を構成する複数の発話文についてのデータを有している。

学習用データ１０１１は、図３に示すように、対話ＩＤ１４３、時刻情報１４４、対話行為情報１４５、行為情報１４６、属性情報１４７、および話者識別情報１４８が付与された文章１４９を含む。また、学習用データ１０１１は、対話ＩＤ１４３〜話者識別情報１４８が付与された文章１４９を１以上含む訓練データ１４２を有する。図３には、訓練データ１４２に、２つの対話ＩＤ１４３〜話者識別情報１４８が付与された文章１４９を含む例が示されているがこれに限らない。

文章１４９は、１発話の文章を示す１発話文のテキストデータである。図３に示すように、文章１４９は、半角スペースにより英語の単語が区切られた文字列データである。なお、文章１４９が日本語のテキストデータである場合、文章１４９は単語の区切りがない文字列データであればよい。

対話ＩＤ１４３は、学習用データ１０１１を一意に特定するための識別子である。時刻情報１４４は、文章１４９の発話順すなわち時刻を示す。つまり、時刻情報１４４は、学習用データ１０１１に含まれる複数の文章１４９が発話された順番を示す。なお、対話ＩＤ１４３および時刻情報１４４により、一つの学習用データ１０１１内における対話の開始および終端が管理される。

対話行為情報１４５と行為情報１４６と属性情報１４７は、文章１４９が示す発話でユーザが行った意図の種類すなわち文章１４９の分類を示す。具体的には、図３に示すように、行為情報１４６は、「ＩＮＩ（主導）」、「ＦＯＬ（追従）」、「ＲＥＳ（応答）」、「ＱＳＴ（質問）」といった、文章１４９が示す行為の分類を示す。属性情報１４７は、「ＲＥＣＯＭＭＥＮＤ（推薦）」、「ＩＮＦＯ（情報提供）」、「ＡＣＫ（承諾）」といった、文章１４９が示す属性の分類を示す。対話行為情報１４５は、文章１４９が示す対話行為の分類を示す。言い換えると、対話行為情報１４５は、図３に示す行為情報１４６と属性情報１４７との組み合わせ（例えば、ＦＯＬ＿ＩＮＦＯ）により、文章１４９の意味またはその概要を示す。なお、対話行為情報１４５と行為情報１４６と属性情報１４７は、学習時に、文章１４９に対する教師データとして用いられる。

話者識別情報１４８は、文章１４９の話者を識別するための情報である。

ここで、例えば図３を用いて説明すると、取得部１１１は、学習用データ１０１１から、学習部１１２の学習処理対象となる第１時刻における対話ＩＤ１４３〜話者識別情報１４８が付与された文章１４９を訓練データ１４２として取得する。また、取得部１１１は、学習用データ１０１１から、当該時刻の直前の連続する時刻であって、予め定められた文脈幅で示される数の１以上の時刻である前時刻群の文章１４９およびその文章１４９に付されたもののうち少なくとも話者識別情報１４８を訓練データ１４２として取得する。ここで、文脈幅は固定であるが、対話初期など文脈情報が文脈幅に満たない場合は、固定された文脈幅より短い文脈幅としてもよい。

例えば文脈幅が５であり、学習処理対象が時刻５の文章１４９である場合には、取得部１１１は、時刻５における対話ＩＤ１４３〜話者識別情報１４８が付与された文章１４９を訓練データ１４２として取得する。また、取得部１１１は、前時刻群である時刻０〜４における文章１４９と、前時刻群の時刻０〜４の話者識別情報１４８「Ｇｕｉｄｅ，Ｔｏｕｒｉｓｔ，Ｇｕｉｄｅ，Ｔｏｕｒｉｓｔ，Ｇｕｉｄｅ」とを訓練データ１４２として取得する。なお、取得部１１１は、時刻５における文章１４９に付与される対話行為情報１４５「ＦＯＬ＿ＡＣＫ，ＦＯＬ＿ＰＯＳＩＴＩＶＥ」と、対話行為情報１４５「ＦＯＬ」と、属性情報１４７「ＡＣＫ，ＰＯＳＩＴＩＶＥ」とは学習時の真値となる教師データとして取得している。

なお、取得部１１１は、対話ＩＤ１４３に基づいて、異なる対話間では非連続となるように抽出を行う。また、取得部１１１は、抽出ごとに第１時刻をインクリメントすることで異なる訓練データ１４２を取得することができる。

＜学習部１１２＞
学習部１１２は、学習用データを用いて、所定のモデルに２種以上のタスクを同時に学習させる。学習部１１２は、タスクの一として、学習用データに含まれる行為情報を教師データとして用いて、第１発話文と行為情報との対応付けを学習させる。また、学習部１１２は、タスクの一として、学習用データに含まれる属性情報を教師データとして用いて、第１発話文と属性情報との対応付けを学習させる。また、学習部１１２は、タスクの一として、学習用データに含まれる対話行為情報を教師データとして、第１発話文と対話行為情報との対応付けを学習させる。なお、所定のモデルは、第１重みパラメータを有する第１モデル、第２重みパラメータを有する第２モデル、第３重みパラメータを有する第３モデル、第４重みパラメータを有する第４モデルおよび第５重みパラメータを有する第５モデルを含む。

本実施の形態では、学習部１１２は、取得部１１１で取得された学習用データ１０１１を用いて２つのリカレントニューラルネットワークを含む所定のモデルにマルチタスク学習で機械学習させる。より具体的には、学習部１１２は、図３の文章１４９で示されるような発話文に含まれる単語の重要度などを示す言語特徴と文脈情報とを用いて、所定のモデルに、学習処理対象の文章１４９および行為情報１４６の対応付けと、当該文章１４９および属性情報１４７の対応付けとを学習し、当該文章１４９と対話行為情報１４５との対応付けを同時に学習させる。なお、学習部１１２は、例えば、ＣＰＵ、ＡＳＩＣ、またはＦＰＧＡ等のプロセッサで構成され、ＣＰＵ等のプロセッサが、コンピュータに保持されている、コンピュータ読み取り可能なプログラムを実行することで実現される。

図４は、実施の形態１に係る学習部１１２の詳細構成の一例を示すブロック図である。図５は、実施の形態１に係るニューラルネットワークモデル１５０の概略を示す図である。なお、ニューラルネットワークモデル１５０は、上記の所定のモデルに該当する。

学習部１１２は、図４に示すように、形態素解析部１１２１と、行為用単語特徴抽出部１１２２と、属性用単語特徴抽出部１１２３と、行為用文脈依存抽出部１１２４と、属性用文脈依存抽出部１１２５と、行為予測部１１２６と、属性予測部１１２７と、対話行為予測部１１２８と、重み更新部１１２９とを備える。

≪形態素解析部１１２１≫
形態素解析部１１２１は、取得部１１１で取得された発話文において自然言語で意味を持つ最小単位である形態素を解析して、形態素を単語とする単語列に変換する。本実施の形態では、形態素解析部１１２１は、取得部１１１で取得された第１時刻および前時刻群の文章１４９の各々を、単語に分割することで単語列に変換する。形態素解析部１１２１は、日本語の発話文には、例えばＭｅＣａｂなどの形態素解析ソフトを用いて、この処理を実現することができる。形態素解析部１１２１は、例えば「頭痛があります。」という発話文を、「頭痛」、「が」、「あります」、「。」に分割する。また、形態素解析部１１２１は、英語の発話文には、半角スペースを単語区切りとすることで、この処理を実現することができる。

≪行為用単語特徴抽出部１１２２≫
行為用単語特徴抽出部１１２２は、形態素解析部１１２１で変換された単語列に基づいて、行為情報を予測するための単語特徴を抽出し、抽出した単語特徴を表現した文ベクトル表現である行為用特徴ベクトルを生成する。本実施の形態では、行為用単語特徴抽出部１１２２は、形態素解析部１１２１で得られた、第１時刻および前時刻群の単語列の各々を、行為情報を予測するための単語特徴を表現した行為用特徴ベクトルに変換する。

行為用特徴ベクトルへの変換方法としては、文章に単語が含まれているかどうかのみを考え、単語の並び方などは考慮しないＢａｇ−ｏｆ−ｗｏｒｄｓモデルを利用する方法がある。Ｂａｇ−ｏｆ−ｗｏｒｄｓモデルを利用すると、例えば文章に単語が含まれていれば１、なければ０と表現することができる。本実施の形態では、行為用単語特徴抽出部１１２２は、Ｂａｇ−ｏｆ−ｗｏｒｄｓモデルを利用して、例えば、入力として想定される全ての単語のリストすなわち辞書に基づき、文に含まれる単語または連続単語のみの要素値を１とした行為用特徴ベクトルに変換する。したがって、行為用特徴ベクトルは、辞書に含まれる全ての単語または連続単語の数の要素を含み、各要素は、各単語または連続単語の有無に対応する。

なお、変換方法としては、これに限らない。事前に行為を教師とする教師あり学習を行い、ある行為に高頻度で出現する単語を抽出したベクトル表現に変換する方法を用いてもよい。

≪属性用単語特徴抽出部１１２３≫
属性用単語特徴抽出部１１２３は、形態素解析部１１２１で変換された単語列に基づいて、属性情報を予測するための単語特徴を抽出し、抽出した単語特徴を表現した文ベクトル表現である属性用特徴ベクトルを生成する。本実施の形態では、属性用単語特徴抽出部１１２３は、形態素解析部１１２１で得られた、第１時刻および前時刻群の単語列の各々を、属性情報を予測するための単語特徴を表現した属性用特徴ベクトルに変換する。変換方法としては、上述同様にＢａｇ−ｏｆ−ｗｏｒｄｓモデルを利用する方法または属性を教師とする教師あり学習を行い、ある属性に高頻度で出現する単語を抽出したベクトル表現に変換する方法がある。

≪行為用文脈依存抽出部１１２４≫
行為用文脈依存抽出部１１２４は、第１モデルを用いて、行為用単語特徴抽出部１１２２が生成した行為用特徴ベクトルなどから、複数の発話文で行為を予測するのに用いられる単語特徴と当該単語特徴の周囲に高頻度に出現する単語などの文脈とを示す第１特徴ベクトルを生成する。

本実施の形態では、行為用文脈依存抽出部１１２４は、所定のモデルに含まれる第１モデルを用いて、前時刻群の行為用特徴ベクトルと、第１時刻の行為用特徴ベクトルと、前時刻群の話者識別情報１４８と、第１重みパラメータとに基づき、第１時刻の文章１４９に対する行為を予測する際に高頻度で用いられる文脈を示す第１特徴ベクトルを算出する。

ここで、行為用文脈依存抽出部１１２４は、図５に示すニューラルネットワークモデル１５０に含まれる第１重みパラメータを有するモデル１５２４により実現される。つまり、モデル１５２４は、所定のモデルに含まれる第１モデルに該当し、第１文章と、第２文章と、第１話者識別情報と、第２話者識別情報と、第１重みパラメータとに基づき、第１文章に示される行為に関する単語特徴および当該単語特徴の文脈情報を表現する第１特徴ベクトルを出力する。モデル１５２４は、第１話者識別情報および第２話者識別情報に依存した第１重みパラメータを持つＲＮＮ−ＬＳＴＭ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ−ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）で構成される。例えば、モデル１５２４は、前時刻群の話者識別情報１４８（図５で前話者識別情報）に依存した第１重みパラメータを持つ、時系列ニューラルネットワークモデルであるＲＮＮ−ＬＳＴＭに従って、第１時刻の文章１４９と前時刻群の文章１４９とから第１特徴ベクトルを算出する。このモデル１５２４により、行為を予測する際に高頻度で発生する第１時刻の文章１４９と依存している文脈情報が第１特徴ベクトルとして出力される。

≪属性用文脈依存抽出部１１２５≫
属性用文脈依存抽出部１１２５は、第２モデルを用いて、属性用単語特徴抽出部１１２３が生成した属性用特徴ベクトルなどから、複数の発話文で属性を予測するのに用いられる単語特徴と当該単語特徴の周囲に高頻度に出現する単語などの文脈とを示す第２特徴ベクトルを生成する。

本実施の形態では、属性用文脈依存抽出部１１２５は、所定のモデルに含まれる第２モデルを用いて、前時刻群の属性用特徴ベクトルと、第１時刻の属性用特徴ベクトルと、前時刻群の話者識別情報１４８と、第２重みパラメータとに基づき、第１時刻の文章１４９に対する属性を予測する際に高頻度で用いられる文脈を示す第２特徴ベクトルを算出する。

ここで、属性用文脈依存抽出部１１２５は、図５に示すニューラルネットワークモデル１５０に含まれる第２重みパラメータを有するモデル１５２５により実現される。つまり、モデル１５２５は、所定のモデルに含まれる第２モデルに該当し、第１文章と、第２文章と、第１話者識別情報と、第２話者識別情報と、第２重みパラメータとに基づき、第１文章に示される属性に関する単語特徴および当該単語特徴の文脈情報を表現する第２特徴ベクトルを出力する。モデル１５２５は、第１話者識別情報および第２話者識別情報に依存した第２重みパラメータを持つ２ＲＮＮ−ＬＳＴＭで構成される。例えば、モデル１５２５は、前時刻群の話者識別情報１４８に依存した第２重みパラメータを持つ、時系列ニューラルネットワークモデルであるＲＮＮ−ＬＳＴＭに従って、第１時刻の文章１４９と前時刻群の文章１４９とから第２特徴ベクトルを算出する。このモデル１５２５により、属性を予測する際に高頻度で発生する第１時刻の文章１４９と依存している文脈情報が第２特徴ベクトルとして出力される。

≪行為予測部１１２６≫
行為予測部１１２６は、第３モデルを用いて、行為用文脈依存抽出部１１２４で算出された第１特徴ベクトルと、第３重みパラメータとに基づき、学習処理対象の発話文に対する行為を予測する。

本実施の形態では、行為予測部１１２６は、所定のモデルに含まれる第３モデルを用いて、行為用文脈依存抽出部１１２４で算出された第１特徴ベクトルと、第３重みパラメータとに基づき、第１時刻の文章１４９に対する行為の確率分布を示す事後確率を算出する。

ここで、行為予測部１１２６は、図５に示すニューラルネットワークモデル１５０に含まれる第３重みパラメータを有するモデル１５２６により実現される。つまり、モデル１５２６は、所定のモデルに含まれる第３モデルに該当し、第１特徴ベクトルと、第３重みパラメータとに基づき、第１文章に対応する行為の事後確率を出力する。モデル１５２６は、図５に示すように、多項ロジスティック回帰により当該事後確率の算出を実現する。このように、モデル１５２６は、第１特徴ベクトルと、第３重みパラメータとに基づき、第１時刻の文章１４９に対応する行為の事後確率を算出して出力する。

≪属性予測部１１２７≫
属性予測部１１２７は、第４モデルを用いて、属性用文脈依存抽出部１１２５で算出された第２特徴ベクトルと、第４重みパラメータとに基づき、学習処理対象の発話文に対する属性を予測する。

本実施の形態では、属性予測部１１２７は、所定のモデルに含まれる第４モデルを用いて、属性用文脈依存抽出部１１２５で算出された第２特徴ベクトルと、第４重みパラメータとに基づき、第１時刻の文章１４９に対する行為の確率分布を示す事後確率を算出する。

ここで、属性予測部１１２７は、図５に示すニューラルネットワークモデル１５０に含まれる第４重みパラメータを有するモデル１５２７により実現される。つまり、モデル１５２７は、所定のモデルに含まれる第４モデルに該当し、第２特徴ベクトルと、第４重みパラメータとに基づき、第１文章に対応する属性の事後確率を出力する。モデル１５２７は、多項ロジスティック回帰により当該事後確率の算出を実現する。このように、モデル１５２７は、第２特徴ベクトルと、第４重みパラメータとに基づき、第１時刻の文章１４９に対応する属性の事後確率を算出して出力する。

≪対話行為予測部１１２８≫
対話行為予測部１１２８は、第５モデルを用いて、行為用文脈依存抽出部１１２４で算出された第１特徴ベクトルと、属性用文脈依存抽出部１１２５で算出された第２特徴ベクトルと、第５重みパラメータとに基づき、学習処理対象の発話文に対する対話行為を予測する。

本実施の形態では、対話行為予測部１１２８は、所定のモデルに含まれる第４モデルを用いて、行為用文脈依存抽出部１１２４で算出された第１特徴ベクトルと、属性用文脈依存抽出部１１２５で算出された第２特徴ベクトルと、第５重みパラメータとに基づき、第１時刻の文章１４９に対する対話行為の確率分布を示す事後確率を算出する。

ここで、対話行為予測部１１２８は、図５に示すニューラルネットワークモデル１５０に含まれる第５重みパラメータを有するモデル１５２８により実現される。つまり、モデル１５２８は、所定のモデルに含まれる第５モデルに該当し、第１特徴ベクトルと、第２特徴ベクトルと、第５重みパラメータとに基づき、第１文章に対応する対話行為の事後確率を出力する。モデル１５２８は、多項ロジスティック回帰により当該事後確率の算出を実現する。このように、モデル１５２８は、第１特徴ベクトルと、第２特徴ベクトルと、第５重みパラメータとに基づき、第１時刻の文章１４９に対応する対話行為の事後確率を算出して出力する。

≪重み更新部１１２９≫
重み更新部１１２９は、第１文章に対応する行為の事後確率、第１文章に対応する属性の事後確率、および第１文章に対応する対話行為の事後確率と、学習用データに含まれる対話行為情報、行為情報および属性情報との間の誤差に基づいて、第１重みパラメータ、第２重みパラメータ、第３重みパラメータ、第４重みパラメータおよび第５重みパラメータを誤差逆伝搬法で更新することにより、学習用データを用いて所定のモデルに２種以上のタスクを同時に学習させる。

本実施の形態では、重み更新部１１２９は、行為予測部１１２６で算出された行為の事後確率と属性予測部１１２７で算出された属性の事後確率と、対話行為予測部１１２８で算出された対話行為の事後確率とが、教師データすなわち真値となる対話行為と行為と属性とを示すように、モデル１５２４〜モデル１５２８の第１重みパラメータ〜第５重みパラメータを適した数値に更新する。

具体的には、重み更新部１１２９は、対話行為の事後確率および真値となる対話行為の予測誤差、行為の事後確率および真値となる行為の予測誤差、並びに属性の事後確率および真値となる属性の予測誤差に基づいて、誤差逆伝搬法により上記の重みパラメータを更新する。つまり、重み更新部１１２９は、対話行為、行為および属性の事後確率と、真値となる対話行為、行為およ属性との誤差（差分）が最小となるように第１重みパラメータ〜第５重みパラメータすなわち学習パラメータを更新する。

このようにして、学習部１１２は、対話行為、行為および属性の事後確率と、学習用データ１０１１に含まれる対話行為、行為および属性の教師データ５との間で誤差逆伝搬学習を行うことにより所定のモデルに２種以上のタスクを同時に学習させるマルチタスク学習を実行する。

＜ニューラルネットワーク＞
ここで、図５に示すニューラルネットワークモデル１５０を用いた学習部１１２の学習方法について説明する。図５に示すニューラルネットワークモデル１５０は、モデル１５２４〜モデル１５２８を含み、上述したように、行為用文脈依存抽出部１１２４、属性用文脈依存抽出部１１２５、行為予測部１１２６、属性予測部１１２７および対話行為予測部１１２８で用いられる。

モデル１５２４は、上記の第１モデルに該当し、行為用文脈依存抽出部１１２４で用いられる。また、モデル１５２５は、上記の第２モデルに該当し、属性用文脈依存抽出部１１２５で用いられる。モデル１５２４およびモデル１５２５はそれぞれ、リカレントニューラルネットワーク（ＬＳＴＭ）によって構成されている。リカレントニューラルネットワークは、時系列データの処理に適している。その中でもＬＳＴＭ（ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）は、記憶ユニットと呼ばれるモジュールを持たせることで、長期依存関係を学習可能である点が優れている。

モデル１５２６は、上記の第３モデルに該当し、行為予測部１１２６で用いられる。モデル１５２７は、上記の第４モデルに該当し、属性予測部１１２７で用いられる。モデル１５２８は、上記の第５モデルに該当し、対話行為予測部１１２８で用いられる。モデル１５２６、モデル１５２７およびモデル１５２８はそれぞれ、ロジスティック回帰と隠れ層とによって構成されている。

ニューラルネットワークモデル１５０は、下記（式１）で表す誤差の値を最小化することを目的とする。

ここで、Ｌ_ｍａｉｎ（θ_ｍａｉｎ）は対話行為の予測誤差を示し、Ｌ_ｓｕｂ１（θ_ｓｕｂ１）は行為の予測誤差を示し、Ｌ_ｓｕｂ２（θ_ｓｕｂ２）は属性の予測誤差を示す。θ_ｓｕｂ１はモデル１５２４の第１重みパラメータとモデル１５２６の第３重みパラメータを指し、θ_ｓｕｂ２はモデル１５２５の第２重みパラメータとモデル１５２７の第４重みパラメータを指す。θ_ｍａｉｎはニューラルネットワークモデル１５０の全ての学習パラメータを指す。

各予測誤差は、下記（式２）で表すクロスエントロピー誤差が用いられる。

ここで、ｐ_ｔｋは、Ｎ個の訓練データ１４２におけるｔ番目（第１時刻）の文章１４９に対する、Ｋ_ｉ個の予測対象中のｋ番目のラベルの事後確率を示している。また、ｙ_ｔｋはｔ番目の文章１４９に対する、Ｋｉ個の予測対象中のｋ番目のラベルの真値である。ｉは、｛ｍａｉｎ，ｓｕｂ１，ｓｕｂ２｝の要素を指す。つまり、ラベルは、対話行為を構成する行為および属性と、その組み合わせである対話行為を指す。そのため、（式１）は、全データに対する対話行為と、行為および属性の予測誤差の総和を示しており、学習部１１２は、（式１）の予測誤差を最小化するために、θ_ｍａｉｎを誤差逆伝搬法により更新していく。

以降、各事後確率が求まるまでの、ニューラルネットワークの処理の流れを説明する。まず、ＬＳＴＭにおいて、下記（式３）〜（式６）に示すように、特徴ベクトルｘに４つの重み行列Ｗ_ｉ，Ｗ_ｃ，Ｗ_ｆ，Ｗ_ｏを掛け、一つ前のＬＳＴＭの出力を示すｈ_ｔ−１に重み行列Ｈ_ｉ，Ｈ_ｃ，Ｈ_ｆ，Ｈ_ｏを掛け、これらの結果にバイアス項であるｂ_ｉ，ｂ_ｃ，ｂ_ｆ，ｂ_ｏを足し合わせる。この結果を、活性化関数であるｓｉｇｍｏｉｄ関数の引数とすることで、０〜１の範囲で要素値を持つ４つのベクトルｉ_ｔ，ｃ^〜 _ｔ，ｆ_ｔ，ｏ_ｔが算出される。ｉ_ｔ，ｃ^〜 _ｔ，ｆ_ｔ，ｏ_ｔは、記憶ユニットの制御を行うためのベクトルであり、前から順に記憶入力制御、入力記憶セル、記憶忘却制御、記憶出力制御を担っている。

次に、学習部１１２は、下記（式７）に示すように、入力制御ベクトルｉｔと入力記憶セルｃ^〜 _ｔ、忘却制御ベクトルｆ_ｔ、および前記憶ユニット値ｃ_ｔ−１を用いて、ニューラルネットワークが持つ記憶セルｃ_ｔの値を更新する。

次に、学習部１１２は、（式８）で示すように、出力制御ベクトルｏ_ｔおよび記憶セルｃ_ｔにより第１時刻のＬＳＴＭの出力であるｈ_ｔを算出する。

ここで、ｔは、前時刻群および第１時刻の文章１４９を時系列に並べた際において、その時刻が過去から何番目かを指している。ｔａｎｈ関数を（式９）に示す。

学習部１１２は、対話行為の予測対象の第１時刻であるｔ＝ｅに至るまで再帰的に演算を繰り返す。なお、上記の処理は、行為用文脈依存抽出部１１２４が第１重みパラメータを用い、属性用文脈依存抽出部１１２５が第２重みパラメータを用いて、異なる重みパラメータで行われる。

特に、本実施の形態の特徴として、下記（式１０）に示すように、図５のモデル１５２４およびモデル１５２５において、（式３）〜（式７）の重み行列Ｈ_ｉ，Ｈ_ｃ，Ｈ_ｆ，Ｈ_ｏに対して、前話者識別情報に依存した変数Ｈ^ｉ _ａｔ−１，Ｈ^ｃ _ａｔ−１，Ｈ^ｆ _ａｔ−１，Ｈ^ｏ _ａｔ−１が用いられる。つまり、前話者の文章１４９の特徴ベクトルを、前話者の識別番号に応じて異なる重みパラメータによって演算した結果が、次の話者の文章１４９の特徴ベクトルに再帰的に加算される。これにより、対話行為を予測する第１時刻におけるＬＳＴＭの出力には、話者が区別された状態で文脈が反映される。

次に、図５に示すモデル１５２６、１５２７、１５２８における処理を、下記（式１１）に示す。

ある入力ベクトルｘに対して、隠れ層において、重み行列Ｗ^（１）を掛け、その結果にバイアス項ｂ^（ｌ）を足す。そして、ロジスティック回帰により、重み行列Ｗ^（２）を掛け、その結果にバイアス項ｂ^（２）を足すことで、複数の確率値のベクトルが得られる。

なお、（式１１）は、ある特徴量を示すベクトルから、確率分布を導出する近似関数をニューラルネットワークにおいて、実現する方法である。

次に、図５に示すモデル１５２６において、対話行為の予測対象の第１時刻であるｔ＝ｅにおける、行為用文脈依存抽出部１１２４の出力であるｈ_ｅ ^ｓｕｂ１を入力として、下記（式１２）に示すように、第３重みパラメータを用いて、行為の複数の確率値のベクトルが得られる。そして、各要素が行為の事後確率を示している。

同様に、図５に示すモデル１５２７において、対話行為の予測対象の第１時刻であるｔ＝ｅにおける、属性用文脈依存抽出部１１２５の出力であるｈ_ｅ ^ｓｕｂ２を入力として、下記（式１３）に示すように、第４重みパラメータを用いて、属性の複数の確率値のベクトルが得られる。そして、各要素が属性の事後確率を示している。

次に、図５に示すモデル１５２８において、下記（式１４）に示すように、行為用文脈依存抽出部１１２４で求めた特徴ベクトルｈ_ｅ ^ｓｕｂ１と、属性用文脈依存抽出部１１２５で求めた特徴ベクトルｈ_ｅ ^ｓｕｂ２とを結合し、ｈ_ｅ ^ｍａｉｎを算出する。

最後に、図５に示すモデル１５２８において、対話行為の予測対象の第１時刻であるｔ＝ｅにおける、ｈ_ｅ ^ｍａｉｎを入力として、下記（式１５）に示すように、第５重みパラメータを用いて、対話行為の複数の確率値のベクトルが得られる。そして、各要素が属性の事後確率を示している。

上記の処理は、行為予測部１１２６と属性予測部１１２７と対話行為予測部１１２８で異なる重みパラメータを用いて行われる。

以上のようにして、図５に示すニューラルネットワークモデル１５０により、対話行為の事後確率が算出される。

［対話行為推定装置１２］
次に、対話行為推定装置１２の詳細構成について説明する。

対話行為推定装置１２は、図１等に示すように、対話取得部１２１と、推定部１２２と、記憶部１２３とを備える。

＜記憶部１２３＞
記憶部１２３は、推定部１２２において推定された結果を推定結果１２３１として記憶する。記憶部１２３は、例えば、ハードディスクドライブまたはソリッドステートドライブ等の書き換え可能な不揮発性のメモリーで構成される。

＜対話取得部１２１＞
対話取得部１２１は、ユーザにより発話された第２時刻の第３発話文のテキストデータである第３文章と、第２時刻の直前の時刻における第４発話文のテキストデータである第４文章と、第３文章の話者を示す第３話者識別情報と、第４文章の話者を示す第４話者識別情報とを含む対話データを取得する。

本実施の形態では、対話取得部１２１は、対話データ１０２を取得する。より具体的には、対話取得部１２１は、推定処理対象となる時刻における発話文と、当該時刻の直前の連続する時刻であって、予め定められた文脈幅で示される数の１以上の時刻である前時刻群の発話文を対話データとして取得する。なお、対話取得部１２１は、例えば、ＣＰＵ、ＡＳＩＣ、またはＦＰＧＡ等のプロセッサで構成され、ＣＰＵ等のプロセッサが、コンピュータに保持されている、コンピュータ読み取り可能なプログラムを実行することで実現される。

図６は、実施の形態１に係る対話データ１０２の一例を示す図である。

対話データ１０２には、時系列に発せられた複数の発話文についてのデータが含まれている。図６に示す対話データ１０２は、英語により旅行案内されたひとまとまり対話を構成する複数の発話文についてのデータを有している。

対話データ１０２は、時刻情報１７２および話者識別情報１７３が付与された発話文１７４を含む。また、対話データ１０２は、時刻情報１７２および話者識別情報１７３が付与された発話文１７４を１以上含む複数の対話情報１７５を有する。図６には、対話情報１７５に２つの発話文１７４を含む例が示されているがこれに限らない。

発話文１７４は、ユーザにより発話された１発話の文章を示す１発話文のテキストデータである。図６に示す発話文１７４は、半角スペースにより英語の単語が区切られた文字列データである。なお、発話文１７４が日本語のテキストデータである場合、発話文１７４は単語の区切りがない文字列データであればよい。時刻情報１７２は、発話文１７４の発話順すなわち時刻を示す。つまり、時刻情報１７２は、対話データ１０２に含まれる複数の発話文１７４が発話された順番を示す。話者識別情報１７３は、発話文１７４の話者を識別するための情報である。

図６では、第２時刻を時刻４、前時刻群を時刻０〜３とした文脈幅が４の対話データ１０２を有する例が示されている。時刻０〜４の各時刻に対応する話者識別情報１７３は、「Ｇｕｉｄｅ，Ｔｏｕｒｉｓｔ，Ｔｏｕｒｉｓｔ，Ｔｏｕｒｉｓｔ，Ｇｕｉｄｅ」である。

対話データ１０２は、例えば、外部から入力された、連続する複数の発話文に基づき生成される。すなわち、まず、連続する複数の発話文を時系列に分割し複数の発話文１７４を生成する。例えば、テキストチャットシステムにより連続した発話文が入力された場合、相手に一度に送信したテキスト単位で発話文を分割して複数の発話文１７４を生成すればよい。また、音声対話システムより連続した発話文が入力された場合、音声認識のトリガとなる連続する無音区間の発生に基づき、発話文を分割して複数の発話文１７４を生成すればよい。次に、生成した各発話文１７４に時刻情報１７２および話者識別情報１７３を付与する。話者識別情報１７３は、声紋認証等により生成してもよいし、外部から入力されてもよい。

なお、対話データ１０２は、対話行為推定装置１２の外部にある記憶装置１０に保存されている場合に限らず、対話行為推定装置１２が外部から入力されたユーザの発話文に基づき生成してもよい。つまり、対話データ１０２は、対話行為推定装置１２が生成してもよいし、他装置が生成してもよい。

また、対話データ１０２は、文脈幅に応じた過去の連続する発話文と、新しく入力された現在の発話文が少なくとも保持され、新たな入力に応じて最も過去の発話文が除去される。また、文脈幅は固定であるが、上述した取得部１１１が取得する訓練データ１４２の文脈幅と等しい数値を用いるとよい。

＜推定部１２２＞
推定部１２２は、学習処理装置１１において記憶された学習結果情報１１３１を反映した所定のモデルに、対話データを適用することにより、第３発話文の対話行為を推定する。

本実施の形態では、推定部１２２は、記憶部１１３に記憶されている学習結果情報１１３１を反映させた所定のモデルを用いて、推定対象の発話文の対話行為を推定する。この所定のモデルは、学習部１１２で用いられたニューラルネットワークモデル１５０と同一構造のものである。なお、推定部１２２は、例えば、ＣＰＵ、ＡＳＩＣ、またはＦＰＧＡ等のプロセッサで構成され、ＣＰＵ等のプロセッサが、コンピュータに保持されている、コンピュータ読み取り可能なプログラムを実行することで実現される。

図７は、実施の形態１に係る推定部１２２の詳細構成の一例を示すブロック図である。図１等と同様の要素には同一の符号を付している。

推定部１２２は、図７に示すように、形態素解析部１２２１と、行為用単語特徴抽出部１２２２と、属性用単語特徴抽出部１２２３と、行為用文脈依存抽出部１２２４と、属性用文脈依存抽出部１２２５と、対話行為予測部１２２６と、対話行為推定部１２２７とを備える。

≪形態素解析部１２２１≫
形態素解析部１２２１は、対話取得部１２１で取得された対話データ１０２に含まれる発話文の形態素を解析して、形態素を単語とする単語列に変換する。本実施の形態では、形態素解析部１２２１は、対話取得部１２１で取得された図６に示す対話データ１０２に含まれる推定処理対象となる時刻（第２時刻）および前時刻群の発話文１７４の各々を、形態素解析により単語に分割することで単語列に変換する。

なお、形態素解析の方法は上述した通りである。

≪行為用単語特徴抽出部１２２２≫
行為用単語特徴抽出部１２２２は、形態素解析部１２２１で変換された単語列に基づいて、行為情報を予測するための単語特徴を抽出し、抽出した単語特徴を表現した行為用特徴ベクトルを生成する。本実施の形態では、行為用単語特徴抽出部１２２２は、形態素解析部１２２１で得られた、第２時刻および前時刻群の単語列の各々を、行為情報を予測するための単語特徴を表現した文ベクトル表現である行為用特徴ベクトルに変換する。

なお、行為用特徴ベクトルへの変換方法は上述した通りである。

≪属性用単語特徴抽出部１２２３≫
属性用単語特徴抽出部１２２３は、形態素解析部１２２１で変換された単語列に基づいて、属性情報を予測するための単語特徴を抽出し、抽出した単語特徴を表現した属性用特徴ベクトルを生成する。本実施の形態では、属性用単語特徴抽出部１２２３は、形態素解析部１２２１で得られた、第２時刻および前時刻群の単語列の各々を、属性情報を予測するための単語特徴を表現した属性用特徴ベクトルに変換する。

なお、属性用特徴ベクトルへの変換方法は上述した通りである。

≪行為用文脈依存抽出部１２２４≫
行為用文脈依存抽出部１２２４は、学習済みの第１モデルを用いて、行為用単語特徴抽出部１２２２が生成した行為用特徴ベクトルなどから、複数の発話文で行為を予測するのに用いられる単語特徴と当該単語特徴の周囲に高頻度に出現する単語などの文脈とを示す第１特徴ベクトルを生成する。本実施の形態では、行為用文脈依存抽出部１２２４は、前時刻群の行為用特徴ベクトルと、第２時刻の行為用特徴ベクトルと、前時刻群の話者識別情報１７３と、学習済みの第１重みパラメータとに基づき、第３特徴ベクトルを算出する。

ここで、行為用文脈依存抽出部１２２４は、図５に示すニューラルネットワークモデル１５０に含まれる学習済みの第１重みパラメータを有するモデル１５２４により実現される。つまり、学習済みのモデル１５２４は、所定のモデルに含まれる第１モデルに該当し、学習結果情報１１３１が反映された第１重みパラメータを有する。行為用文脈依存抽出部１２２４は、学習済みのモデル１５２４を用いて、行為を予測する際に高頻度で発生する第２時刻の発話文１７４と依存している文脈情報が第１特徴ベクトルとして出力される。

なお、モデル１５２４を用いて第１特徴ベクトルを出力する方法は、学習済みの第１重みパラメータを用いる点を除き、上述した通りである。

≪属性用文脈依存抽出部１２２５≫
属性用文脈依存抽出部１２２５は、学習済みの第２モデルを用いて、属性用単語特徴抽出部１２２３が生成した属性用特徴ベクトルなどから、複数の発話文で属性を予測するのに用いられる単語特徴と当該単語特徴の周囲に高頻度に出現する単語などの文脈とを示す第２特徴ベクトルを生成する。本実施の形態では、属性用文脈依存抽出部１２２５は、前時刻群の属性用特徴ベクトルと、第２時刻の属性用特徴ベクトルと、前時刻群の話者識別情報１７３と、学習済みの第２重みパラメータとに基づき、第４特徴ベクトルを算出する。

ここで、属性用文脈依存抽出部１２２５は、図５に示すニューラルネットワークモデル１５０に含まれる学習済みの第２重みパラメータを有するモデル１５２５により実現される。つまり、学習済みのモデル１５２５は、所定のモデルに含まれる第２モデルに該当し、学習結果情報１１３１が反映された第２重みパラメータを有する。属性用文脈依存抽出部１２２５は、学習済みのモデル１５２５を用いて、属性を予測する際に高頻度で発生する第２時刻の発話文１７４と依存している文脈情報が第４特徴ベクトルとして出力される。

なお、モデル１５２５を用いて第２特徴ベクトルを出力する方法は、学習済みの第２重みパラメータを用いる点を除き、上述した通りである。

≪対話行為予測部１２２６≫
対話行為予測部１２２６は、学習済みの第５モデルを用いて、行為用文脈依存抽出部１２２４で算出された第１特徴ベクトルと、属性用文脈依存抽出部１２２５で算出された第２特徴ベクトルと、学習済みの第５重みパラメータとに基づき、推定処理対象の発話文に対する行為を予測する。本実施の形態では、対話行為予測部１２２６は、行為用文脈依存抽出部１２２４で算出された第３特徴ベクトルと、属性用文脈依存抽出部１２２５で算出された第４特徴ベクトルと、学習済みの第５重みパラメータとに基づき、第２時刻の発話文１７４に対する対話行為の確率分布を示す事後確率を算出する。

ここで、対話行為予測部１２２６は、図５に示すニューラルネットワークモデル１５０に含まれる学習済みの第５重みパラメータを有するモデル１５２８により実現される。つまり、学習済みのモデル１５２８は、所定のモデルに含まれる第５モデルに該当し、学習結果情報１１３１が反映された第５重みパラメータを有する。

なお、モデル１５２８を用いて対話行為の確率分布を示す事後確率を算出する方法は、学習済みの第５重みパラメータを用いる点を除き、上述した通りである。

≪対話行為推定部１２２７≫
対話行為推定部１２２７は、対話行為予測部１２２６により算出された対話行為の事後確率に基づき、対話行為を推定する。対話行為推定部１２２７は、推定した対話行為を示す推定結果１２３１として記憶部１２３に記憶する。例えば、対話行為推定部１２２７は、事後確率で示される複数の対話行為の確率値に対して、例えば０．５の閾値を適用することで、確率値が高い複数の対話行為を推定結果１２３１として指定できる。

図８は、実施の形態１に係る対話行為推定装置１２の推定結果１２３１の一例を示す図である。図６と同様の要素には同一の符号を付している。図８は、図６に示す対話データ１０２に対する推定結果１２３１の一例である。

推定結果１２３１は、図８に示すように、図６に示す対話データ１０２と比較して、時系列に発せられた複数の発話文１７４に対する推定対話行為１７６を含む。推定対話行為１７６は、対話行為推定部１２２７で得られた発話文１７４に対する対話行為の推定結果である。

図８では、第２時刻を時刻４、前時刻群を時刻０〜３とした文脈幅が４の対話データ１０２が取得され、第２時刻の推定対話行為１７６として「ＲＥＳ＿ＩＮＦＯ（応答＿情報提供）」が得られた例が示されている。これは、行為用文脈依存抽出部１２２４と属性用文脈依存抽出部１２２５とにより、行為ごとに高頻度で発生する“ｙｏｕｃａｎｔａｋｅ”と、属性ごとに高頻度で発生する”Ｓｔａｉｏｎ”を抽出できたことで、予測確率がより高められた例である。さらに、対話行為予測部１２２６が第１特徴ベクトルと第２特徴ベクトルの組み合わせを学習したことで、例えば、“ＦＯＬ＿ＩＮＦＯ（追従＿情報提供）”のように、部分的に正解である予測を避けることができている。

［対話行為推定システム１の動作］
次に、以上のように構成された対話行為推定システム１の動作について説明する。

図９は、実施の形態１に係る対話行為推定システム１の動作の概要を示すフローチャートである。

まず、対話行為推定システム１は、コーパス１０１に含まれる学習用データ１０１１を用いて、発話文と対話行為との対応関係を学習する学習処理を行う（Ｓ１）。より具体的には、Ｓ１において、学習処理装置１１は、まず、記憶装置１０に記憶されるコーパス１０１から学習用データ１０１１を取得する（Ｓ１１）。次いで、学習処理装置１１は、Ｓ１１で取得した学習用データ１０１１を用いて発話文の対話行為を推定するために用いられる所定のモデルにマルチタスク学習を行う（Ｓ１２）。そして、学習処理装置１１は、Ｓ１１で学習した結果を学習結果情報１１３１として記憶する（Ｓ１３）。

次に、対話行為推定システム１は、Ｓ１の学習処理の結果を用いて、発話文の対話行為を推定する対話行為推定処理を行う（Ｓ２）。より具体的には、Ｓ２において、まず、対話行為推定装置１２は、Ｓ１の学習処理の結果である学習結果情報１１３１を読み込み（Ｓ２１）、所定のモデルに反映させる。次いで、対話行為推定装置１２は、記憶装置１０に記憶される対話データ１０２を取得する（Ｓ２２）。そして、対話行為推定装置１２は、学習結果情報１１３１を反映させた所定のモデルを用いて、対話データ１０２に含まれる発話文の対話行為を推定する（Ｓ２３）。

＜学習処理装置１１の動作＞
次に、学習処理装置１１が行う学習処理の詳細について説明する。

図１０は、実施の形態１に係る学習処理の詳細のフローチャートである。図９と同様の要素には同一の符号を付している。以下では、図３等に示す例を用いて説明する。

まず、学習処理装置１１は、学習対象である全ての重みパラメータすなわち学習対象の学習パラメータを初期化する（Ｓ１０）。具体的には、学習処理装置１１は、図５に示すニューラルネットワークモデル１５０の第１重みパラメータ〜第５重みパラメータを擬似乱数テーブルに基づいて初期化する。

次に、学習処理装置１１は、学習用データ１０１１を取得する（Ｓ１１）。具体的には、学習処理装置１１は、記憶装置１０に記憶されるコーパス１０１に含まれる複数の学習用データ１０１１のうちの一つを取得する。

次に、学習処理装置１１は、Ｓ１１で取得した学習用データ１０１１を用いて学習を行う（Ｓ１２）。具体的には、学習処理装置１１は、Ｓ１１で取得した学習用データ１０１１に含まれる行為情報、属性情報および対話行為情報を教師データとして用いる。学習処理装置１１は、図５に示すニューラルネットワークモデル１５０に、学習処理対象の第１発話文と行為情報との対応付け、第１発話文と属性情報との対応付け、および、第１発話文と対話行為情報との対応付けを当該教師データを用いて学習させる。

より詳細には、図１０に示すように、Ｓ１２において、まず、学習処理装置１１は、Ｓ１１で取得された第１時刻および前時刻群の文章１４９の各々を形態素解析することで単語列に変換する（Ｓ１２１１）。

次いで、学習処理装置１１は、Ｓ１２１１で得られた第１時刻および前時刻群の単語列の各々を、行為情報を予測するための単語特徴を表現した行為用特徴ベクトルに変換する（Ｓ１２１２）。また、学習処理装置１１は、Ｓ１２１１で得られた第１時刻および前時刻群の単語列の各々を、属性情報を予測するための単語特徴を表現した属性用特徴ベクトルに変換する（Ｓ１２１３）。

次いで、学習処理装置１１は、Ｓ１２１２で算出された前時刻群の行為用特徴ベクトルおよび第１時刻の行為用特徴ベクトルと、前時刻群の話者識別情報１４８と、モデル１５２４の第１重みパラメータとに基づき、第１時刻の文章１４９に対する行為を予測する際に高頻度で用いられる文脈を示す第１特徴ベクトルを算出する（Ｓ１２１４）。また、学習処理装置１１は、Ｓ１２１３で算出された前時刻群の属性用特徴ベクトルおよび第１時刻の属性用特徴ベクトルと、前時刻群の話者識別情報１４８と、モデル１５２５の第２重みパラメータとに基づき、第１時刻の文章１４９に対する属性を予測する際に高頻度で用いられる文脈を示す第２特徴ベクトルを算出する（Ｓ１２１５）。

次いで、学習処理装置１１は、Ｓ１２１４で算出された第１特徴ベクトルと、モデル１５２６の第３重みパラメータとに基づき、第１時刻の文章１４９に対する行為の確率分布を示す事後確率を算出する（Ｓ１２１６）。また、学習処理装置１１は、Ｓ１２１５で算出された第２特徴ベクトルと、モデル１５２７の第４重みパラメータとに基づき、第１時刻の文章１４９に対する行為の確率分布を示す事後確率を算出する（Ｓ１２１７）。

次いで、学習処理装置１１は、Ｓ１２１４で算出された第１特徴ベクトルと、Ｓ１２１５で算出された第２特徴ベクトルと、モデル１５２８の第５重みパラメータとに基づき、第１時刻の文章１４９に対する対話行為の確率分布を示す事後確率を算出する（Ｓ１２１８）。

次いで、学習処理装置１１は、Ｓ１２１６で算出された行為の事後確率と、Ｓ１２１７で算出された属性の事後確率と、Ｓ１２１８で算出された対話行為の事後確率と、教師データとを用いて学習する（Ｓ１２１９）。ここでの教師データは、上述したように、第１時刻の対話行為情報１４５で示される真値となる対話行為と、第１時刻の行為情報１４６で示される真値となる行為、第１時刻の属性情報１４７で示される真値となる属性である。つまり、学習処理装置１１は、Ｓ１２１６〜Ｓ１２１８で算出した行為、属性および対話行為の事後確率と、これらの教師データとを用いて、モデル１５２４〜モデル１５２８の第１重みパラメータ〜第５重みパラメータすなわち学習パラメータを、誤差逆伝搬学習を行うことで適した数値に更新する。

次いで、学習処理装置１１は、Ｓ１２の学習処理を終了するか否かを判定する（Ｓ１２２０）。Ｓ１２の学習処理を終了しない場合（Ｓ１２２０でＮｏ）、再度、Ｓ１１に戻り、第１時刻の次の時刻を第１時刻として、または別の学習用データ１０１１を取得して、Ｓ１２の学習処理を行う。つまり、学習処理装置１１は、Ｓ１２の学習処理を、学習処理対象とする第１時刻または学習用データ１０１１を変更しながら、学習が収束するまで繰り返し実行する。

一方、学習処理装置１１は、学習処理を終了する場合（Ｓ１２２０でＹｅｓ）、学習処理の結果を示す学習結果情報１１３１を記憶する（Ｓ１３）。具体的には、学習処理装置１１は、学習処理終了時の学習パラメータを学習結果情報１１３１として記憶する。なお、学習処理装置１１は、学習を繰り返しても、誤差が減らなくなった場合に学習処理を終了すると判定する。

＜対話行為推定装置１２の動作＞
次に、対話行為推定装置１２が行う対話行為推定の詳細について説明する。

図１１は、図９に示すＳ２３の詳細を示すフローチャートである。図９と同様の要素には同一の符号を付している。以下では図６等に示す例を用いて説明する。

Ｓ２３において、対話行為推定装置１２は、学習結果情報１１３１が反映された第１重みパラメータ〜第５重みパラメータを有するニューラルネットワークモデル１５０を用いて、推定処理対象の発話文の対話行為を推定する。

より詳細には、図１１に示すように、Ｓ２３において、まず、対話行為推定装置１２は、Ｓ２２で取得された対話データ１０２に含まれる推定処理対象の第２時刻および前時刻群の発話文１７４の各々を、形態素解析することで単語列に変換する（Ｓ２３１１）。

次いで、対話行為推定装置１２は、Ｓ２３１１で得られた第２時刻および前時刻群の単語列の各々を、行為情報を予測するための単語特徴を表現した行為用特徴ベクトルに変換する（Ｓ２３１２）。また、対話行為推定装置１２は、Ｓ２３１１で得られた第２時刻および前時刻群の単語列の各々を、属性情報を予測するための単語特徴を表現した属性用特徴ベクトルに変換する（Ｓ２３１３）。

次いで、対話行為推定装置１２は、Ｓ２３１２で算出された前時刻群の行為用特徴ベクトルおよび第２時刻の行為用特徴ベクトルと、前時刻群の話者識別情報１７３と、モデル１５２４の学習済みの第１重みパラメータとに基づき、第２時刻の発話文１７４に対する行為を予測する際に高頻度で用いられる文脈を示す第１特徴ベクトルを算出する（Ｓ２３１４）。また、対話行為推定装置１２は、Ｓ２３１３で算出された前時刻群の属性用特徴ベクトルおよび第２時刻の属性用特徴ベクトルと、前時刻群の話者識別情報１７３と、モデル１５２５の学習済みの第２重みパラメータとに基づき、第２時刻の発話文１７４に対する属性を予測する際に高頻度で用いられる文脈を示す第２特徴ベクトルを算出する（Ｓ２３１５）。

次いで、対話行為推定装置１２は、Ｓ２３１４で算出された第１特徴ベクトルと、Ｓ２３１５で第２特徴ベクトルと、モデル１５２８の学習済みの第５の重みパラメータとに基づき、第２時刻の発話文１７４に対する対話行為の確率分布を示す事後確率を算出する（Ｓ２３１６）。

次いで、対話行為推定装置１２は、Ｓ２３１６で得られた対話行為の事後確率に基づき、第２時刻の発話文１７４に対する対話行為を推定する（Ｓ２３１７）。対話行為推定装置１２は、推定した対話行為を示す推定結果１２３１を記憶する。

なお、図１１に示す一連の処理は、対話データ１０２に含まれる各時刻の発話文１７４に対して順次行われる。

［効果等］
以上のように、本実施の形態によれば、２つのＲＣＮＮすなわち行為および属性のそれぞれに一つ対応させたＲＣＮＮを用いて行為用文脈依存抽出と属性用文脈抽出とのタスクを学習するのと同時にその特徴結合のタスクも学習する。これにより、対話行為の推定精度を向上できる対話行為推定方法および対話行為推定装置を実現できる。

より具体的には、本実施の形態では、学習処理対象の第１時刻の発話文の対話行為を、当該発話文を示す文章の行為情報と属性情報と、行為情報および属性情報の組み合わせの対話行為情報とを用いてマルチタスク学習を行う。例えば、図３に示す文章１４９が示す行為の種類を示す行為情報１４６と、文章１４９が示す属性の種類を示す属性情報１４７と、例えば、ＦＯＬ＿ＩＮＦＯなどの行為情報１４６および属性情報１４７の組み合わせによる、文章１４９が示す対話行為情報１４５とを用いて学習を行う。これにより、発話文と対話行為情報との対応付けの精度を向上できる。なお、第１時刻の発話文の文章と、当該文章の行為情報と、当該文章の属性情報を個別に収集することで、更なる精度向上も可能である。

また、さらに複数の発話文の各々の話者を示す話者識別情報を用いて学習を行うことで、発話文と対話行為情報との対応付けの精度をより向上できる。

なお、学習処理対象の第１時刻の文章の話者が第１時刻の直前の文章の話者と同一であるか否かを示す話者交代情報と、各文章の話者を示す話者識別情報とをさらに用いて学習を行ってもよい。これにより、発話文と対話行為情報との対応付けの精度をさらに向上できる。

図１２は、実施の形態１に係る対話行為推定方法等による効果を示す図である。図１２では、一セット１００〜１０００の対話を含む１４セット英語対話データ規模の旅行案内の対話コーパス（ＤＳＴＣ４）を用いて、図５に示すニューラルネットワークモデル１５０の学習パラメータを学習させたときの対話行為推定の結果を示している。また、図１２には比較例として非特許文献１で提案される方法で学習させたときの対話行為推定の結果を示している。

図１２に示すように、行為４種と、属性２２種からなる８８種の対話行為の分類精度（Ｆ１値）において、実施の形態１に係る推定結果は、非特許文献１の推定結果と比較して、ガイドに対しても、旅行者に対しても優れた分類精度を示しているのがわかる。

（変形例）
図１３は、実施の形態１の変形例に係るニューラルネットワークモデル１５０Ｂの概略を示す図である。なお、図５と同様の要素には同一の符号を付しており、詳細な説明は省略する。

実施の形態１では、学習処理装置１１および対話行為推定装置１２は、所定のモデルとして、図５に示すニューラルネットワークモデル１５０を用いるとして説明したが、これに限らない。図１３に示すニューラルネットワークモデル１５０Ｂを用いてもよい。

図１３に示すニューラルネットワークモデル１５０Ｂは、図５に示すニューラルネットワークモデル１５０と比較して、モデル１５２４およびモデル１５２５のうちのモデル１５２５がなく、モデル１５２４Ｂのみを含んでいる点で構成が異なる。すなわち、図１３に示すニューラルネットワークモデル１５０Ｂは、１つのリカレントニューラルネットワークを含むモデルであり、図５に示すニューラルネットワークモデル１５０は、２つのリカレントニューラルネットワークを含むモデルである点で構成が異なる。

以下、実施の形態１と異なる点について説明する。

［学習部１１２Ｂ］
学習部１１２Ｂは、実施の形態１と同様に、学習用データを用いて、所定のモデルに２種以上のタスクを同時に学習させる。学習部１１２Ｂは、タスクの一として、学習用データに含まれる行為情報を教師データとして用いて、第１発話文と行為情報との対応付けを学習させる。また、学習部１１２Ｂは、タスクの一として、学習用データに含まれる属性情報を教師データとして用いて、第１発話文と属性情報との対応付けを学習させる。また、学習部１１２Ｂは、タスクの一として、学習用データに含まれる対話行為情報を教師データとして、第１発話文と対話行為情報との対応付けを学習させる。

本変形例では、所定のモデルは、第１重みパラメータを有する第１モデル、第３重みパラメータを有する第３モデル、第４重みパラメータを有する第４モデル、第５重みパラメータを有する第５モデルを含む。第１モデルは、第１文章と、第２文章と、第１話者識別情報と、第２話者識別情報と、第１重みパラメータとに基づき、第１文章に示される行為および属性に関する単語特徴および当該単語特徴の文脈情報を表現する特徴ベクトルを出力する。第１モデルは、第１話者識別情報および第２話者識別情報に依存した前記第１重みパラメータを持つＲＮＮ−ＬＳＴＭで構成される。第３モデルは、特徴ベクトルと、第３重みパラメータとに基づき、第１文章に対応する行為の事後確率を出力する。第４モデルは、特徴ベクトルと、第４重みパラメータとに基づき、第１文章に対応する属性の事後確率を出力する。第５モデルは、特徴ベクトルと、第５重みパラメータとに基づき、第１文章に対応する対話行為の事後確率を出力する。

つまり、本変形例では、学習部１１２Ｂは、第１文章に対応する行為の事後確率、第１文章に対応する属性の事後確率、および前記第１文章に対応する対話行為の事後確率と、学習用データに含まれる対話行為情報、行為情報および属性情報との間の誤差に基づいて、第１重みパラメータ、第３重みパラメータ、第４重みパラメータ、および第５重みパラメータを誤差逆伝搬法で更新することにより、学習用データを用いて２種以上のタスクを同時に学習させるマルチタスク学習を行う。

つまり、学習部１１２Ｂは、取得部１１１で取得された学習用データ１０１１を用いて１つのリカレントニューラルネットワークを含む所定のモデルにマルチタスク学習させる。そして、この所定のモデルが、図１３に示すニューラルネットワークモデル１５０Ｂに該当する。

図１４は、実施の形態１の変形例に係る学習部１１２Ｂの詳細構成の一例を示すブロック図である。図３と同様の要素には同一の符号を付しており、詳細な説明は省略する。

図１４に示す学習部１１２Ｂは、図３に学習部１１２と比較して、行為用文脈依存抽出部１１２４と、属性用文脈依存抽出部１１２５とがなく、行為用および属性用文脈依存抽出部１１２４Ｂが追加されている点で構成が異なる。

＜行為用および属性用文脈依存抽出部１１２４Ｂ＞
行為用および属性用文脈依存抽出部１１２４Ｂは、第１モデルを用いて、行為用単語特徴抽出部１１２２が生成した行為用特徴ベクトルと属性用単語特徴抽出部１１２３が生成した属性用特徴ベクトルとなどから、複数の発話文で行為および属性を予測するのに用いられる単語特徴と当該単語特徴の周囲に高頻度に出現する単語などの文脈とを示す特徴ベクトルを生成する。なお、行為用および属性用文脈依存抽出部１１２４Ｂが第１モデルを用いて、特徴ベクトルを生成することは、同一の第１特徴ベクトルおよび第２特徴ベクトルを生成して特徴ベクトルとすることに該当する。

ここで、行為用および属性用文脈依存抽出部１１２４Ｂは、図１３に示すニューラルネットワークモデル１５０Ｂに含まれる第１重みパラメータを有するモデル１５２４Ｂにより実現される。つまり、モデル１５２４Ｂは、本変形例の所定のモデルに含まれる第１モデルに該当し、第１文章と、第２文章と、第１話者識別情報と、第２話者識別情報と、第１重みパラメータとに基づき、第１文章に示される行為および属性に関する単語特徴および当該単語特徴の文脈情報を表現する特徴ベクトルを出力する。モデル１５２４Ｂは、第１話者識別情報および第２話者識別情報に依存した第１重みパラメータを持つＲＮＮ−ＬＳＴＭで構成される。例えば、モデル１５２４Ｂは、前時刻群の話者識別情報１４８（図１３で前話者識別情報）に依存した第１重みパラメータを持つ、時系列ニューラルネットワークモデルであるＲＮＮ−ＬＳＴＭに従って、第１時刻の文章１４９と前時刻群の文章１４９とから特徴ベクトルを算出する。このモデル１５２４Ｂにより、行為および属性を予測する際に高頻度で発生する第１時刻の文章１４９と依存している文脈情報が特徴ベクトルとして出力される。

なお、これは、上記の式１〜式１５において、第３重みパラメータ、第４パラメータを、単一の共通重みパラメータとし、行為用文脈依存抽出部１１２４の出力であるｈ_ｅ ^ｓｕｂ１と属性用文脈依存抽出部１１２５の出力であるｈ_ｅ ^ｓｕｂ２とこれらを結合したｈ_ｅ ^ｍａｉｎを全て同一の特徴ベクトルとして表現することで実現できる。

［推定部１２２Ｂ］
推定部１２２Ｂは、学習部１１２Ｂにより学習された結果である学習結果情報１１３１を反映した所定のモデルに、対話データを適用することにより、発話文の対話行為を推定する。本変形例では、推定部１２２Ｂは、記憶部１１３に記憶されている学習結果情報１１３１を反映させたニューラルネットワークモデル１５０Ｂを用いて、推定対象の発話文の対話行為を推定する。このニューラルネットワークモデル１５０Ｂは、学習部１１２Ｂで用いられたものと同一構造のものである。

図１５は、実施の形態１の変形例に係る推定部１２２Ｂの詳細構成の一例を示すブロック図である。図７等と同様の要素には同一の符号を付している。

図１５に示す推定部１２２Ｂは、図７に推定部１２２と比較して、行為用文脈依存抽出部１２２４と属性用文脈依存抽出部１２２５とがなく、行為用および属性用文脈依存抽出部１２２４Ｂが追加されている点で構成が異なる。

＜行為用および属性用文脈依存抽出部１２２４Ｂ＞
行為用および属性用文脈依存抽出部１２２４Ｂは、学習済みの第１モデルを用いて、行為用単語特徴抽出部１２２２が生成した行為用特徴ベクトルと属性用単語特徴抽出部１２２３が生成した属性用特徴ベクトルなどから、複数の発話文で行為および属性を予測するのに用いられる単語特徴と当該単語特徴の周囲に高頻度に出現する単語などの文脈とを示す特徴ベクトルを生成する。

ここで、行為用および属性用文脈依存抽出部１２２４Ｂは、図１３に示すニューラルネットワークモデル１５０Ｂに含まれる学習済みの第１重みパラメータを有するモデル１５２４Ｂにより実現される。

なお、行為用および属性用文脈依存抽出部１２２４Ｂが第１モデルを用いて、特徴ベクトルを生成することは、実施の形態１において同一の第１特徴ベクトルおよび第２特徴ベクトルを生成して特徴ベクトルとすることに該当する。

［効果等］
以上のように、本変形例によれば、１つのＲＣＮＮを用いて、行為用文脈依存抽出と属性用文脈抽出とのタスクを学習するのと同時にその特徴結合のタスクも学習する。これにより対話行為の推定精度を向上できる対話行為推定方法および対話行為推定装置を実現できる。

図１６Ａおよび図１６Ｂは、実施の形態１の変形例に係る対話行為推定方法等による効果を示す図である。図１６Ａおよび図１６Ｂでも、一セット１００〜１０００の対話を含む１４セット英語対話データ規模の旅行案内の対話コーパス（ＤＳＴＣ４）を用いている。図１６Ａおよび図１６Ｂには、旅行案内の対話コーパス（ＤＳＴＣ４）を用いて図１３に示すニューラルネットワークモデル１５０Ｂの学習パラメータを学習させたときの対話行為推定の結果を示している。また、図１６Ａおよび図１６Ｂには比較例として非特許文献１で提案される方法で学習させたときの対話行為推定の結果と、実施の形態１に係る方法で学習させたときの対話行為推定の結果を示している。

図１６Ａおよび図１６Ｂに示すように、行為４種と、属性２２種から成る８８種の対話行為の分類精度（Ｆ１値）において、本変形例に係る推定結果は、非特許文献１の推定結果と比較して、ガイドに対しても、旅行者に対しても優れた分類精度を示している。また、本変形例に係る推定結果は、実施の形態１に係る推定結果と比較して、旅行者に対して優れた分類精度を示している。これは実施の形態１と比較して、旅行案内の対話コーパス（ＤＳＴＣ４）において教師データとして利用できるデータ量が増えたことに起因すると考えられる。

（実施の形態２）
次に、実施の形態２として、上述した対話行為推定装置１２の利用形態について説明する。

図１７は、実施の形態２に係る対話システムの構成の一例を示すブロック図である。この対話システムは、音声認識の機能を有し、クラウド上に存在するサーバ５０と、スマートフォン等の携帯端末６０とを含む。ユーザは、携帯端末６０を介して、音声によりシステムと自然言語による対話を行うことができる。サーバ５０および携帯端末６０は、例えば、インターネット等の公衆通信ネットワークを介して接続されている。

携帯端末６０は、スマートフォンまたはタブレットなどである。携帯端末６０は、マイク６０１、信号処理部６０２、応答実行部６０３および通信部６０４を備える。マイク６０１は、音声を電気的な音声信号に変換するものであり、ユーザの音声を収音するために用いられる。信号処理部６０２は、マイク６０１から入力される音声信号がノイズであるか否かを判定し、ノイズで無い場合、その音声信号を通信部６０４に出力する。通信部６０４は、入力された音声信号を通信可能なフォーマットを持つ通信信号に変換し、得られた通信信号をサーバ５０に送信する。応答実行部６０３は、信号処理部６０２が通信部６０４より受け取った応答文をモニタに表示する。

サーバ５０は、対話行為推定装置１２、通信部５０１、音声処理部５０２、対話行為推定装置５０４、対話管理部５０５、および応答生成部５０６を備える。

通信部５０１は、携帯端末６０からの通信信号を受信し、通信信号から音声信号を取り出して、取り出した音声信号を音声処理部５０２に出力する。音声処理部５０２は、取り出された音声信号を解析することで、ユーザが発話した音声を示すテキストデータを生成する。

対話行為推定装置５０４は、例えば、図２に示す対話行為推定装置１２であり、上述した学習処理が既に終了している状態である。対話行為推定装置５０４は、音声処理部５０２で生成されたテキストデータを用いて、上述した対話データ１０２を生成し、該対話データ１０２を用いて、対話行為を推定し、推定結果を出力する。

対話管理部５０５は、対話行為推定装置５０４で推定された対話行為を時系列に保持し、対話行為の系列に基づいて、応答すべきシステム側の対話行為を出力する。応答生成部５０６は、対話管理部５０５から受け取った対話行為に対応する応答文を生成する。そして、通信部５０１は、生成された応答文を通信可能なフォーマットを持つ通信信号に変換し、得られた通信信号を携帯端末６０に送信する。

このように、図１７に示す対話システムでは、サーバ５０は、実施の形態１で説明した学習が行われた後の対話行為推定装置５０４を用いて、ユーザの発話を適切に理解し、応答することが可能である。

以上、実施の形態に係る対話行為推定装置および対話行為推定方法等について説明したが、本開示は、この実施の形態に限定されるものではない。

また、上記実施の形態に係る対話行為推定装置に含まれる各処理部は典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されてもよいし、一部または全てを含むように１チップ化されてもよい。

また、集積回路化はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、またはＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

また、本開示は、対話行為推定装置により実行される対話行為推定方法として実現されてもよい。

また、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェアまたはソフトウェアが並列または時分割に処理してもよい。

また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時（並列）に実行されてもよい。

以上、一つまたは複数の態様に係る対話行為推定装置について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。

本開示は、対話行為推定装置に適用でき、例えば、音声またはテキストによるユーザの発話を保持した対話履歴に基づいて、ユーザの発話を適切に理解するシステムに適用できる。また、本開示は、ユーザのタスクを達成するコールセンター、問診対話、または雑談対話など、タスク指向或いは非タスク指向の対話システム装置または対話システム方式に利用可能である。また、本開示は、対話履歴から特定の対話行為のみを抽出する情報検索装置または情報検索方式に利用可能である。

１、１Ａ対話行為推定システム
１０記憶装置
１１学習処理装置
１１Ａ学習処理装置部
１２、５０４対話行為推定装置
１２Ａ対話行為推定装置部
５０サーバ
６０携帯端末
１０１コーパス
１０２対話データ
１１１取得部
１１２学習部
１１３、１２３記憶部
１２１対話取得部
１２２推定部
１４２訓練データ
１４３対話ＩＤ
１４４、１７２時刻情報
１４５対話行為情報
１４６行為情報
１４７属性情報
１４８、１７３話者識別情報
１４９文章
１５０ニューラルネットワークモデル
１７４発話文
１７５対話情報
１７６推定対話行為
５０１、６０４通信部
５０２音声処理部
５０５対話管理部
５０６応答生成部
６０１マイク
６０２信号処理部
６０３応答実行部
１０１１学習用データ
１１３１学習結果情報
１１２１、１２２１形態素解析部
１１２２、１２２２行為用単語特徴抽出部
１１２３、１２２３属性用単語特徴抽出部
１１２４、１２２４行為用文脈依存抽出部
１１２５、１２２５属性用文脈依存抽出部
１１２６行為予測部
１１２７属性予測部
１１２８、１２２６対話行為予測部
１１２９重み更新部
１２２７対話行為推定部
１２３１推定結果
１５２４、１５２５、１５２６、１５２７、１５２８モデル

Claims

機械学習される所定のモデルを用いて発話文の対話行為を推定する対話行為推定方法であって、
推定対象の第１時刻における第１発話文のテキストデータである第１文章と、前記第１時刻より前の時刻における第２発話文であって前記第１発話文に連続する第２発話文のテキストデータである第２文章と、前記第１文章に対応づけられた行為を示す行為情報と、前記第１文章に対応づけられた属性を示す属性情報と、前記第１文章に対応づけられた行為および属性の組み合わせである対話行為を示す対話行為情報とを含む学習用データを取得する取得ステップと、
前記学習用データを用いて、前記モデルに２種以上のタスクを同時に学習させる学習ステップと、
前記学習ステップにおいて学習した結果を学習結果情報として記憶する記憶ステップとを含み、
前記学習ステップでは、
前記タスクの一として、前記学習用データに含まれる前記行為情報を教師データとして用いて、前記第１発話文と前記行為情報との対応付けを学習させ、
前記タスクの一として、前記学習用データに含まれる前記属性情報を教師データとして用いて、前記第１発話文と前記属性情報との対応付けを学習させ、
前記タスクの一として、前記学習用データに含まれる前記対話行為情報を教師データとして、前記第１発話文と前記対話行為情報との対応付けを学習させる、
対話行為推定方法。
前記学習用データは、さらに、前記第１文章の話者を示す第１話者識別情報と、前記第２文章の話者を示す第２話者識別情報とを含む、
請求項１に記載の対話行為推定方法。
前記モデルは、
前記第１文章と、前記第２文章と、前記第１話者識別情報と、前記第２話者識別情報と、第１重みパラメータとに基づき、前記第１文章に示される行為に関する単語特徴および当該単語特徴の文脈情報を表現する第１特徴ベクトルを出力する第１モデルと、
前記第１文章と、前記第２文章と、前記第１話者識別情報と、前記第２話者識別情報と、第２重みパラメータとに基づき、前記第１文章に示される属性に関する単語特徴および当該単語特徴の文脈情報を表現する第２特徴ベクトルを出力する第２モデルと、
前記第１特徴ベクトルと、第３重みパラメータとに基づき、前記第１文章に対応する行為の事後確率を出力する第３モデルと、
前記第２特徴ベクトルと、第４重みパラメータとに基づき、前記第１文章に対応する属性の事後確率を出力する第４モデルと、
前記第１特徴ベクトルと、前記第２特徴ベクトルと、第５重みパラメータとに基づき、前記第１文章に対応する対話行為の事後確率を出力する第５モデルとを含み、
前記学習ステップでは、
前記第１文章に対応する行為の事後確率、前記第１文章に対応する属性の事後確率、および前記第１文章に対応する対話行為の事後確率と、前記学習用データに含まれる前記対話行為情報、前記行為情報および前記属性情報との間の誤差に基づいて、前記第１重みパラメータ、前記第２重みパラメータ、前記第３重みパラメータ、前記第４重みパラメータおよび前記第５重みパラメータを誤差逆伝搬法で更新することにより、前記学習用データを用いて前記モデルに２種以上のタスクを同時に学習させる、
請求項２に記載の対話行為推定方法。
前記第１モデルは、前記第１話者識別情報および前記第２話者識別情報に依存した前記第１重みパラメータを持つＲＮＮ−ＬＳＴＭ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ−ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）で構成され、
前記第２モデルは、前記第１話者識別情報および前記第２話者識別情報に依存した前記第２重みパラメータを持つ２ＲＮＮ−ＬＳＴＭで構成される、
請求項３に記載の対話行為推定方法。
前記モデルは、
前記第１文章と、前記第２文章と、前記第１話者識別情報と、前記第２話者識別情報と、第１重みパラメータとに基づき、前記第１文章に示される行為および属性に関する単語特徴および当該単語特徴の文脈情報を表現する特徴ベクトルを出力する第１モデルと、
前記特徴ベクトルと、第３重みパラメータとに基づき、前記第１文章に対応する行為の事後確率を出力する第３モデルと、
前記特徴ベクトルと、第４重みパラメータとに基づき、前記第１文章に対応する属性の事後確率を出力する第４モデルと、
前記特徴ベクトルと、第５重みパラメータとに基づき、前記第１文章に対応する対話行為の事後確率を出力する第５モデルとを含み、
前記学習ステップでは、
前記第１文章に対応する行為の事後確率、前記第１文章に対応する属性の事後確率、および前記第１文章に対応する対話行為の事後確率と、前記学習用データに含まれる前記対話行為情報、前記行為情報および前記属性情報との間の誤差に基づいて、前記第１重みパラメータ、前記第３重みパラメータ、前記第４重みパラメータ、および前記第５重みパラメータを誤差逆伝搬法で更新することにより、前記学習用データを用いて２種以上のタスクを同時に学習させる、
請求項２に記載の対話行為推定方法。
前記第１モデルは、前記第１話者識別情報および前記第２話者識別情報に依存した前記第１重みパラメータを持つＲＮＮ−ＬＳＴＭで構成される、
請求項５に記載の対話行為推定方法。
前記取得ステップでは、
前記学習用データを、時系列に連続して発話される２以上の発話文と、当該２以上の発話文それぞれに対応づけられた行為情報、属性情報および対話行為とが集積されたコーパスから取得する、
請求項１〜６のいずれか１項に記載の対話行為推定方法。
前記対話行為推定方法は、さらに、
ユーザにより発話された第２時刻の第３発話文のテキストデータである第３文章と、前記第２時刻の直前の時刻における第４発話文のテキストデータである第４文章と、前記第３文章の話者を示す第３話者識別情報と、前記第４文章の話者を示す第４話者識別情報とを含む対話データを取得する対話取得ステップと、
前記記憶ステップにおいて記憶された前記学習結果情報を反映した前記モデルに、前記対話データを適用することにより、前記第３発話文の対話行為を推定する推定ステップとを含む、
請求項２〜７のいずれか１項に記載の対話行為推定方法。
機械学習される所定のモデルを用いて発話文の対話行為を推定する対話行為推定装置であって、
推定対象の第１時刻における第１発話文のテキストデータである第１文章と、前記第１時刻より前の時刻における第２発話文であって前記第１発話文に連続する第２発話文のテキストデータである第２文章と、前記第１文章に対応づけられた行為を示す行為情報と、前記第１文章に対応づけられた属性を示す属性情報と、前記第１文章に対応づけられた行為および属性の組み合わせである対話行為を示す対話行為情報とを含む学習用データを取得する取得部と、
前記学習用データを用いて、前記モデルに２種以上のタスクを同時に学習させる学習部と、
前記学習部において学習した結果を学習結果情報として記憶する記憶部とを備え、
前記学習部は、
前記タスクの一として、前記学習用データに含まれる前記行為情報を教師データとして用いて、前記第１発話文と前記行為情報との対応付けを学習させ、
前記タスクの一として、前記学習用データに含まれる前記属性情報を教師データとして用いて、前記第１発話文と前記属性情報との対応付けを学習させ、
前記タスクの一として、前記学習用データに含まれる前記対話行為情報を教師データとして、前記第１発話文と前記対話行為情報との対応付けを学習させる、
対話行為推定装置。
請求項１に記載の対話行為推定方法をコンピュータに実行させる、
プログラム。