JP7478075B2

JP7478075B2 - 生成装置および生成方法

Info

Publication number: JP7478075B2
Application number: JP2020175821A
Authority: JP
Inventors: 健本間; 尚和内田; 真岩山
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2024-05-02
Anticipated expiration: 2040-10-20
Also published as: JP2022067223A

Description

本発明は、学習データを生成する生成装置および生成方法に関する。

人が機械とやりとりを行うヒューマンインタフェースにおいて、ユーザが機械と対話を行うことができる対話システムが存在する。対話システムでは、ユーザは、人と対話するときに使うような自然言語を入力することができ、かつ対話システムも、あたかも人が話したり書いたりするような自然言語で出力される。そのため、ユーザは、対話システムの使い方を新たに習得する必要がなく、人との対話と同様のすでに慣れている方法で、対話システムを操作できる。このように、操作容易なヒューマンインタフェースが実現される。

ユーザが入力した文に対して、対話システムが出力する応答を決定するアルゴリズムは複数存在する。代表的なアルゴリズムとして、用例検索方式がある。用例検索方式では、対話システムは、あらかじめユーザが入力すると想定されるユーザ発話文集と、それぞれのユーザ発話文に対応するシステム応答文とを、を有するデータベースを用いる。運用する場面では、用例検索方式では、対話システムは、ユーザが実際に入力した発話文と類似する発話文をデータベースから検索し、それに対応する応答文を出力する。

さらに、この用例検索方式の延長として、データベース中のユーザ発話文を不要とし、対話システムが出力してもよい応答文集だけを用意しておく応答選択方式もある。応答選択方式は、ユーザ発話文をデータベース中で検索する代わりに、ユーザ発話文と応答文集とにあるそれぞれの応答文のペアを評価し、応答文集にあるそれぞれの応答文がユーザ発話文への応答としてどの程度適切であるかを評価する。また、適切性を評価する際に、直近のユーザ発話文に加えて、過去にユーザと対話システムとがやりとりした発言（文脈という）を使用する方式もある。

応答選択方式における応答の適切性を評価するため、大量の対話データを利用した機械学習が利用可能である。対話データとは、２名以上の話者（機械を含む）がやりとりした文の集合である。対話は、発言する話者が交代しながら進行する。

１名の話者が発言した単位をターンと呼ぶ。対話の適切性を評価する機械学習モデルを構築する場合、対話システムは、対話データの中に存在する複数のターンからなる部分対話を、文脈とする１以上のターンおよび応答とする１つのターンの組み合わせごとに分割し、文脈を条件として応答が出力される条件付確率を出力するモデルを学習する。このモデルを応答選択モデルと呼ぶ。

応答選択方式では、対話システムは、応答選択モデルを使い、ユーザ入力および過去のやりとりを文脈と見なし、応答文集に含まれるそれぞれの応答が文脈を条件として生起される確率を計算する。この計算された確率が最も高かった応答を、対話システムの応答として採用する。

特許文献１は、データベース中の複数の事例の中からユーザに対する応答の候補を検索する検索手段と、前記検索手段により検索された候補が複数あった場合に、当該各候補を応答とした場合に予測される前記ユーザの表情の望ましさの程度を算出する第１の算出手段と、前記第１の算出手段により算出された望ましさの程度から前記各候補の適切度を算出する第２の算出手段と、前記第２の算出手段により算出された適切度が最大となる候補から前記ユーザに対する応答を生成する生成手段と、を備える応答生成装置を開示する。

特開２００６－３１４６７号公報

応答選択方式で使われる応答選択モデルは、さまざまな分野で採取された対話データ（一般対話文と呼ぶ。）を、学習データを用いて構築される。一般対話文は、さまざまな分野の対話を収集することにより大規模化される。一般対話文に含まれる多種多様の対話のやりとりから文脈と応答との関係をモデル化することで、自然な応答が選択可能な応答選択モデルが得られる。

しかし、対話システムがターゲットとするドメインにおいて行われるユーザと対話システムとのやりとりと、一般対話文におけるやりとりとを比較すると、似ていない対話が存在する。この似ていない対話文が一般対話文の中に存在すると、一般対話文から学習された応答選択モデルによる応答選択の結果が、目的ドメインでの対話において適切でなくなり、対話が不自然になる問題がある。

この問題は、もし目的となる特定の分野（ドメイン）で採取された対話文（目的ドメイン対話文と呼ぶ）が大量にあれば、その目的ドメイン対話文だけから応答選択モデルを学習すれば発生しない。しかしながら、ドメインが異なるごとに大量の対話データを収集することは、莫大な費用が必要となり、非効率的である。

本発明は、学習データ生成の効率化を図ることを目的とする。

本願において開示される発明の一側面となる生成装置は、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する生成装置であって、特定の分野の対話を示す特定対話文に含まれる特定文脈と当該特定文脈に対する特定応答との組み合わせである特定文脈－特定応答ペアの集合を第１学習データとし、前記第１学習データを用いて学習された、前記特定文脈に対する前記特定応答の適切性を評価する確率モデルにアクセス可能であり、前記プロセッサは、対話文に含まれる文脈と当該文脈に対する応答との組み合わせである文脈－応答ペアを前記確率モデルに入力することにより、前記確率モデルから出力される前記文脈－応答ペアの適切性を評価するスコアを取得する取得処理と、前記取得処理によって取得されたスコアに基づいて、前記文脈－応答ペアを第２学習データに追加する追加処理と、を実行することを特徴とする。

本発明の代表的な実施の形態によれば、学習データ生成の効率化を図ることができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。

図１は、実施例１にかかる対話システムによる応答選択例を示す説明図である。図２は、実施例１にかかる対話システムのシステム構成例を示す説明図である。図３は、実施例１にかかる生成装置による対話処理手順例を示すフローチャートである。図４は、図３に示した確率モデル学習処理（ステップＳ３０１）の詳細な処理手順例を示すフローチャートである。図５は、図４に示した文脈－応答ペア作成処理（ステップＳ４０２）の詳細な処理手順例を示すフローチャートである。図６は、確率モデル学習処理（ステップＳ３０１）の具体例１を示す説明図である。図７は、図４に示した言語モデル学習（ステップＳ４０４）の一例を示す説明図である。図８は、図３に示したフィルタリング処理（ステップＳ３０２）の詳細な処理手順例を示すフローチャートである。図９は、実施例１にかかるフィルタリング処理（ステップＳ３０２）の一例を示す説明図である。図１０は、スコア計算結果の一例を示す説明図である。図１１は、第２学習データの抽出例を示す説明図である。図１２は、図３に示した応答選択処理（ステップＳ３０４）の詳細な処理手順例を示すフローチャートである。図１３は、応答選択処理（ステップＳ１２０５）の一例を示す説明図である。図１４は、ダイアログアクト遷移モデル学習（ステップＳ４０５）および感情遷移モデル学習（ステップＳ４０６）を混合した文脈－応答ペアＰｔの作成例を示す説明図である。図１５は、実施例２にかかる確率モデル学習例１を示す説明図である。図１６は、実施例２にかかる確率モデル学習例２を示す説明図である。図１７は、実施例２にかかる確率モデル学習例３を示す説明図である。図１８は、実施例２にかかるフィルタリング処理（ステップＳ３０２）の一例を示す説明図である。図１９は、実施例３にかかる単語クラス化の一例を示す説明図である。図２０は、実施例５にかかる応答選択モデルの改善処理手順例を示すフローチャートである。図２１は、実施例５にかかる応答選択モデルの改善例を示す説明図である。図２２は、実施例６にかかる応答選択処理（ステップＳ３０４）の詳細な処理手順例を示すフローチャートである。図２３は、実施例６にかかる総合スコアの算出例を示す説明図である。図２４は、実施例７にかかる寄与度調整例を示す説明図である。

＜応答選択例＞
図１は、実施例１にかかる対話システムによる応答選択例を示す説明図である。対話システム１００は、目的ドメイン対話文Ｓｔを受け付けると、言語モデル学習１０１により、目的ドメイン対話文Ｓｔを第１学習データとして用いて、言語モデル１１０を学習する。言語モデル１１０とは、過去のユーザ１３０と対話システム１００との発言によるやりとりを示す文脈から、対話システム１００が次に出力すべき応答について、その適切性を評価するモデルである。

また、対話システム１００は、尤度評価１０２により、言語モデル１１０を用いて一般対話文Ｓｇの尤度を評価して、一般対話文Ｓｇから尤もらしさがない文を削除する。このようにフィルタリングされた一般対話文Ｓｇを、フィルタ後一般対話文ＦＳｇと称す。対話システム１００は、応答選択モデル学習１０３により、フィルタ後一般対話文ＦＳｇを用いて応答選択モデル１２０を生成する。

対話システム１００は、ユーザ１３０からユーザ発話文１３１（「体調悪い」）を対話ロボット１４０で受け付けると、応答選択１０４により、応答選択モデルを用いて、応答文候補Ｓｃの中からふさわしい応答文１４１（「体調は大丈夫ですか？」）を選択し、対話ロボット１４０から発話する。

このように、対話システム１００は、尤度評価１０２により、目的ドメイン対話文Ｓｔと一般対話文Ｓｇとの間の対話の類似性を計測し、この類似性を示す尺度が高かった対話文（すなわち、フィルタ後一般対話文ＦＳｇ）を一般対話文Ｓｇから抽出し、応答選択モデルの第２学習データとする。これにより、対話システム１００は、ユーザ１３０の発言に対して、より適切な応答を出力できるようになり、対話の自然性の向上を図ることができる。

なお、対話システム１００は、発話音声を音声認識によりテキスト変換して対話文や発話文としてもよく、テキストの対話文や発話文の入力を受け付けてもよい。また、対話システム１００は、選択した対話文や発話文を表示してもよく、音声出力してもよい。

＜システム構成例＞
図２は、実施例１にかかる対話システム１００のシステム構成例を示す説明図である。対話システム１００は、生成装置２００と、対話ロボット１４０と、を有する。生成装置２００と対話ロボット１４０は、インターネット、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などのネットワーク２０７を介して通信可能に接続される。

生成装置２００は、プロセッサ２０１と、記憶デバイス２０２と、入力デバイス２０３と、出力デバイス２０４と、通信インタフェース（通信ＩＦ）２０５と、を有する。プロセッサ２０１、記憶デバイス２０２、入力デバイス２０３、出力デバイス２０４、および通信ＩＦ２０５は、バス２０６により接続される。プロセッサ２０１は、生成装置２００を制御する。記憶デバイス２０２は、プロセッサ２０１の作業エリアとなる。また、記憶デバイス２０２は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス２０２としては、たとえば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、フラッシュメモリがある。入力デバイス２０３は、データを入力する。入力デバイス２０３としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナ、マイクがある。出力デバイス２０４は、データを出力する。出力デバイス２０４としては、たとえば、ディスプレイ、プリンタ、スピーカがある。通信ＩＦ２０５は、ネットワーク２０７と接続し、データを送受信する。

なお、対話ロボット１４０のハードウェア構成も生成装置２００と同様である。対話ロボット１４０は、対話文の入出力を行うインタフェースの一例である。対話ロボット１４０ではなく、パーソナルコンピュータでもよい。また、図２の対話システム１００は、クライアントサーバシステムで構成したが、スタンドアロン型の生成装置２００でもよい。スタンドアロン型の生成装置２００は、対話ロボット１４０のように移動可能でもよい。なお、以下の説明では、生成装置２００がモデル生成や応答選択を実行し、対話ロボット１４０を介して対話文の音声入出力を実行する場合を例に挙げて説明する。

＜対話処理手順例＞
図３は、実施例１にかかる生成装置２００による対話処理手順例を示すフローチャートである。生成装置２００は、確率モデル学習処理（ステップＳ３０１）、フィルタリング処理（ステップＳ３０２）、応答選択モデル学習処理（ステップＳ３０３）および応答選択処理（ステップＳ３０４）を実行する。

確率モデル学習処理（ステップＳ３０１）は、図１の言語モデル１１０学習により、目的ドメイン対話文Ｓｔを第１学習データとして用いて、言語モデル１１０のような確率モデルを学習する処理であり、図４で後述する。

フィルタリング処理（ステップＳ３０２）は、図１の尤度評価１０２により一般対話文をフィルタリングしてフィルタ後一般対話文ＦＳｇを生成する処理であり、図８で後述する。

応答選択モデル学習処理（ステップＳ３０３）は、図１に示したように、フィルタ後一般対話文ＦＳｇを第２学習データとして用いて、応答選択モデル１２０を生成する処理である。応答選択処理（ステップＳ３０４）は、応答選択モデル１２０を用いて、図１の応答選択により応答文候補Ｓｃから応答文１４１を選択して出力する処理であり、図１２で後述する。

＜確率モデル学習処理（ステップＳ３０１）＞
図４は、図３に示した確率モデル学習処理（ステップＳ３０１）の詳細な処理手順例を示すフローチャートである。生成装置２００は、対話ロボット１４０を介してまたは入力デバイス２０３から目的ドメイン対話文Ｓｔを読み込む（ステップＳ４０１）。つぎに、生成装置２００は、文脈－応答ペア作成処理を実行する（ステップＳ４０２）。文脈－応答ペア作成処理（ステップＳ４０２）とは、目的ドメイン対話文Ｓｔのような入力対話文から文脈－応答ペアを作成する処理であり、図５で後述する。「文脈－応答ペア」とは、文脈と、当該文脈に対する応答と、の組み合わせである。

つぎに、生成装置２００は、言語モデル学習（ステップＳ４０４）、ダイアログアクト遷移モデル学習（ステップＳ４０５）、または感情遷移モデル学習（ステップＳ４０６）のうち、いずれかの学習モードを選択する（ステップＳ４０３）。選択方法については、生成装置２００の管理者が事前に設定しておいてもよく、発話するユーザ１３０が選択してもよい。

なお、生成装置２００は、言語モデル学習（ステップＳ４０４）、ダイアログアクト遷移モデル学習（ステップＳ４０５）、および感情遷移モデル学習（ステップＳ４０６）をすべて実装する必要はなく、少なくとも１つを実装していればよい。実施例１では、言語モデル学習（ステップＳ４０４）についてのみ詳細に説明し、ダイアログアクト遷移モデル学習（ステップＳ４０５）、および感情遷移モデル学習（ステップＳ４０６）については、実施例２として後述する。

言語モデル学習（ステップＳ４０４）は、正例となる文脈－応答ペアと負例となる文脈－応答ペアのそれぞれについて、正例が負例よりも高いスコアを出力するような機械学習モデルを学習する。たとえば、生成装置２００は、ＢＥＲＴ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ）モデルを用いてスコアを算出する。

正例となる文脈－応答ペアとは、文脈－応答ペア作成処理（ステップＳ４０２）で作成された文脈－応答ペアである。負例となる文脈－応答ペアとは、文脈－応答ペア作成処理（ステップＳ４０２）で作成された文脈－応答ペアの応答を、異なる応答に置換した文脈－応答ペアである。言語モデル学習（ステップＳ４０４）の詳細は、図７で後述する。

＜文脈－応答ペア作成処理（ステップＳ４０２）＞
図５は、図４に示した文脈－応答ペア作成処理（ステップＳ４０２）の詳細な処理手順例を示すフローチャートである。図６は、確率モデル学習処理（ステップＳ３０１）の具体例１を示す説明図である。なお、図５および図６の説明において、Ａ、Ｂは発言した話者を示す。

生成装置２００は、入力対話文を対話単位で分割する（ステップＳ５０１）。入力対話文とは、この場合、ステップＳ４０１で読み込まれた目的ドメイン対話文Ｓｔａである。対話単位とは、対話のまとまりを示す単位である。具体的には、たとえば、対話単位とは、ＡとＢのやりとりが、それより前の対話のやりとりおよびそれより後の対話のやりとりとは直接関係しない内容において行われている単位である。図５では、Ｓｔａｕ１、Ｓｔａｕ２、Ｓｔａｕ３、…（これらを区別しない場合、単に対話単位Ｓｔａｕと表記）が対話単位である。端的に表現すると、生成装置２００は、話題が転換したターン間の境界で目的ドメイン対話文Ｓｔａを区切り（図６中、太点線で表記）、対話単位Ｓｔａｕを抽出する。

このような話題が転換したターン間の境界がどこであるかを識別する処理は、対話単位Ｓｔａｕの境界を示す区切り位置があらかじめ付与されている対話データを学習データとした機械学習モデルにより実現可能である。すなわち、生成装置２００は、目的ドメイン対話文Ｓｔａを区切り位置に関する機械学習モデルに入力することより、対話単位Ｓｔａｕを抽出することができる。

つぎに、生成装置２００は、対話番号ｉをｉ＝１に設定して、対話単位Ｓｔａｕの処理を実行するループを開始する（ステップＳ５０２）。ｉは１≦ｉ≦Ｎを満たす整数である。Ｎは、目的ドメイン対話文Ｓｔａ内の対話単位Ｓｔａｕの総数である。対話番号ｉの対話単位Ｓｔａｕを、対話単位Ｓｔａｕ（ｉ）とする。当該ループの終了条件は、ステップＳ５０３で示す。対話番号ｉは、ステップＳ５１５でインクリメントされる。

生成装置２００は、対話番号ｉがＮ以下であるか否かを判断する（ステップＳ５０３）。対話番号ｉがＮ以下である場合（ステップＳ５０３：Ｙｅｓ）、生成装置２００は、考慮ターン数ｎでのループを開始する（ステップＳ５０４）。考慮ターン数ｎとは、応答が生起される条件として用いる文脈に追加されるターンの数である。考慮ターン数ｎは、文脈に１個のターンのみが入っている条件（ｎ＝１）に初期設定され、上限となる所定数（上限ターン数）までインクリメントされる（ステップＳ５０５，Ｓ５１４）。

ステップＳ５０４以降、生成装置２００は、１個の対話単位Ｓｔａｕ（ｉ）に対して解析を実行し、対話単位Ｓｔａｕ（ｉ）から文脈－応答ペアを抽出することになる。具体的には、たとえば、ステップＳ５０６～Ｓ５１３の処理では、生成装置２００は、対話単位Ｓｔａｕ（ｉ）から一部のターンを抜き出し、図６に示したように、文脈－応答ペア群Ｐｔｓを生成する。たとえば、文脈－応答ペアＰｔ１は、文脈としてＡおよびＢのやり取りを示す３個のターンと、Ｂの発話を示す１個の応答と、を含む。文脈－応答ペアＰｔ１、Ｐｔ２、…を区別しない場合は、単に、文脈－応答ペアＰｔと表記する。

ステップＳ５０６～Ｓ５１３の処理を具体的に説明すると、考慮ターン数ｎが所定数以下である場合（ステップＳ５０５：Ｙｅｓ）、生成装置２００は、ターン数番号ｊをｊ＝２に初期設定し、ターン単位でのループの実行を開始する（ステップＳ５０６）。文脈－応答ペアＰｔは、少なくとも１ターン以上の文脈と１ターンの応答とにより構成されるため、ターン数番号ｊはｊ＝２に初期設定される。また、ターン数番号ｊは、上限ターン数までインクリメントされる（ステップＳ５０７）。上限ターン数は、対話単位Ｓｔａｕ（ｉ）に含まれるターンの総数でもよく、あらかじめ設定された値でもよい。

ターン数番号ｊが上限ターン数以下である場合（ステップＳ５０７：Ｙｅｓ）、生成装置２００は、学習データサンプルを空に設定する（ステップＳ５０８）。そして、生成装置２００は、ターン数番号ｊが考慮ターン数ｎよりも大きい場合（ｊ－ｎ＞０）、ｋ＝ｊ－Ｎに設定し、そうでない場合（ｏｔｈｅｒｗｉｓｅ）、ｋ＝１に設定する（ステップＳ５０９）。ｋは、対話単位Ｓｔａｕ（ｉ）を構成するターン群において、文脈に追加される先頭ターンの位置を示す。これにより、文脈は１以上のターンとなる。

生成装置２００は、対話単位Ｓｔａｕ（ｉ）を構成するターン群において、ｋ番目からｊ－１番目までのターン列を文脈として学習データサンプルに追加し（ステップＳ５１０）。ｊ番目のターンを応答として学習データサンプルに追加する（ステップＳ５１１）。そして、生成装置２００は、学習データサンプルを文脈－応答ペアＰｔとして登録する（ステップＳ５１２）。このあと、生成装置２００はターン数番号ｊをインクリメントして（ステップＳ５１３）、ステップＳ５０７に戻る。

ステップＳ５０７において、ターン数番号ｊが上限ターン数以下でない場合（ステップＳ５０７：Ｎｏ）、生成装置２００は、考慮ターン数ｎをインクリメントし（ステップＳ５１４）、ステップＳ５０５に戻る。

ステップＳ５０５において、考慮ターン数ｎが所定数以下でない場合（ステップＳ５０５：Ｎｏ）、生成装置２００は、対話番号ｉをインクリメントし（ステップＳ５１５）、ステップＳ５０３に戻る。対話番号ｉがＮ以下でない場合（ステップＳ５０３：Ｎｏ）、文脈－応答ペア作成処理（ステップＳ４０２）が終了し、文脈－応答ペア群Ｐｔｓが得られ、ステップＳ４０３に移行する。

＜言語モデル学習（ステップＳ４０４）＞
図７は、図４に示した言語モデル学習（ステップＳ４０４）の一例を示す説明図である。言語モデル学習（ステップＳ４０４）では、生成装置２００は、作成した文脈－応答ペアＰｔに対して高いスコアを出力するような機械学習モデルを学習する。ここでは、ＢＥＲＴモデル７００を用いた言語モデル学習例を示す。

（ａ）生成装置２００は、ＢＥＲＴモデル７００に、トークン列７０１として、生成した文脈－応答ペアＰｔの単語列および特殊単語を入力する。文脈－応答ペアＰｔの各単語は、ベクトルで表現される。［ＣＬＳ］は文頭に常に入力される特殊単語である。［ＰＡＤ］は単語が存在しない箇所を埋める特殊単語である。文脈に現れる単語がその順番のまま入力されるが、Ａ、Ｂいずれの話者の発言であるかを示す特殊単語（［Ａ］，［Ｂ］）もそれぞれの発言の先頭に入力される。生成装置２００は、文脈のあとに、［ＳＥＰ］という特殊単語を入れたのち、応答を入力する。［ＳＥＰ］は、文の後に入力される特殊単語である。

（ｂ）話者を示す特殊単語を入力トークン列７０１に追加する方法は、上記（ａ）に限られない。たとえば、Ａ、Ｂいずれの話者の発言であるかを示す特殊単語（［Ａ］，［Ｂ］）を使わずに、各話者Ａ、Ｂに割り当てたベクトルをトークン列７０１のベクトルに足し合わせる方式でもよい。たとえば、（ｃ）に示すように、単語のベクトルと話者のベクトルは、加算または連結され、加算結果または連結結果が、トークン列７０１を構成する入力トークンとなる。

（ａ）、（ｂ）いずれにおいても、文脈－応答ペアＰｔから生成されたトークン列７０１がＢＥＲＴモデル７００に入力されると、生成装置２００は、ＢＥＲＴモデル７００の出力であるスコア７０２が高い値となるよう、ＢＥＲＴモデル７００を学習する。この「高い値」としては、たとえば、「１」を用いることが通常であるが、他の値でもよい。

また、文脈－応答ペアＰｔとは別に、生成装置２００は、文脈の次に実際には現れない対話内の別の発言を応答とする文脈－応答ペアＰｔも別途生成しておき、ＢＥＲＴモデル７００に入力する。そして、生成装置２００は、この文脈－応答ペアの入力に対して、スコア７０２が低い値（上記「高い値」よりも低い値。たとえば、「０」）になるように学習する。

「文脈の次に現れない応答」を選ぶ方法としては、たとえば、目的ドメイン対話文Ｓｔａに存在する発話から、ランダムに１個選ぶ方法がある。文脈－応答ペアＰｔを正例と称する。一方、文脈－応答ペアＰｔにおいて「文脈の次に現れない応答」に変更した文脈－応答ペアＰｔを負例と称す。両者をどの程度の割合で第１学習データに含めるかを決める割合は、任意である。

＜フィルタリング処理（ステップＳ３０２）＞
図８は、図３に示したフィルタリング処理（ステップＳ３０２）の詳細な処理手順例を示すフローチャートである。図９は、実施例１にかかるフィルタリング処理（ステップＳ３０２）の一例を示す説明図である。

生成装置２００は、一般対話文Ｓｇａを読み込み（ステップＳ８０１）、文脈－応答ペア作成処理を実行する（ステップＳ８０２）。文脈－応答ペア作成処理（ステップＳ８０２）は、文脈－応答ペア作成処理（ステップＳ４０２）において入力対話文が目的ドメイン対話文Ｓｔａではなく一般対話文Ｓｇａとした場合の処理である。文脈－応答ペア作成処理（ステップＳ８０２）において、生成装置２００は、一般対話文Ｓｇａを対話単位Ｓｇａｕ１、Ｓｇａｕ２、Ｓｇａｕ３、Ｓｇａｕ４、…に分割する（ステップＳ５０１）。その後、生成装置２００は、ステップＳ５０２～Ｓ５１５を実行することにより、一般対話文Ｓｇａについての文脈－応答ペア群Ｐｇｓ（文脈－応答ペアの各々をＰｇとする）を作成する。

なお、文脈－応答ペア作成処理（ステップＳ８０２）では、以下の点で文脈－応答ペア作成処理（ステップＳ４０２）と異なる。図５に示した文脈－応答ペア作成処理（ステップＳ４０２）では、文脈と応答は時系列に連続した対話のターン列であるが、文脈－応答ペア作成処理（ステップＳ８０２）では、一部のターンをスキップした時系列でかつ不連続なターンを含む文脈が作成される。たとえば、考慮ターン数ｎ＝３の条件では、以下の連続した対話のターンを抽出することが可能である。

Ａ：おなか痛い（以下、ターンＡ１）
Ｂ：笑いすぎですか？（以下、ターンＢ１）
Ａ：いや、体調悪い（以下、ターンＡ２）
Ｂ：大丈夫かい？（以下、ターンＢ２）

生成装置２００は、最後のターンであるターンＢ２を応答とし、それ以外の３ターン（Ａ１，Ｂ１，Ａ２）を文脈とする文脈－応答ペアＰｇを作成する。それに加えて、生成装置２００は、文脈として３ターン（Ａ１，Ｂ１，Ａ２）すべてを使うのではなく、一部のターンをスキップすることもできる。具合的には、たとえば、ターンＡ１だけを文脈として使い、応答のターンＢ２と組み合わせることで、文脈「Ａ：おなか痛い」（ターンＡ１）、応答「Ｂ：大丈夫かい？」（ターンＢ２）という文脈－応答ペアＰｇを生成することができる。

また、ここで示した文脈－応答ペアＰｇの作成方法では、文脈中の最後のターンＡ２の話者Ａと応答のターンの話者Ｂは、必ず異なる話者という制約にした。さらに、文脈中の連続するターンはかならず異なる話者から発言されたターンという制約もあった。しかし、これらの制約はなくてもよい。たとえば、いま注目する対話単位Ｓｇａｕから文脈－応答ペアＰｇを抽出する場合、
文脈「Ａ：おなか痛い」「Ａ：いや、体調悪い」、応答「Ｂ：大丈夫かい？」
文脈「Ａ：おなか痛い」「Ｂ：笑いすぎですか？」、応答「Ｂ：大丈夫かい？」
といった文脈－応答ペアＰｇを生成してもよい。

なお、このように生成された文脈－応答ペアＰｇをすべて後続の処理で利用するのではなく、生成装置２００は、別の観点からの評価を行い、有用性が高い文脈－応答ペアＰｇだけを残し、後続の処理で利用してもよい。

たとえば、生成装置２００は、文脈－応答ペアＰｇの間の「対話としてのかみ合い度合」を示すコヒーレントの値に基づいて、文脈－応答ペアＰｇの有用性を判定してもよい。具体的には、たとえば、生成装置２００は、文脈と応答との間で一致する単語の数や単語種類数を計算し、その値が大きいほどコヒーレントが高くなるような計算式を用いて、コヒーレントの値を算出する。

または、生成装置２００は、対話としてどの程度かみ合っているかを主観的に採点した文脈－応答ペアＰｇを多数用意し、これらから文脈－応答ペアＰｇのコヒーレントの値を算出する機械学習モデルを別途学習する。そして、生成装置２００は、その機械学習モデルで計算されたコヒーレントの推定値を用いて、文脈－応答ペアＰｇの有用性を判定してもよい。具体的には、たとえば、生成装置２００は、文脈－応答ペア作成処理（ステップＳ８０２）で作成された文脈－応答ペア群Ｐｇｓのうち、コヒーレントの値が所定の閾値未満である文脈－応答ペアＰｇを削除し、残余の文脈－応答ペア群Ｐｇｓを用いて、ステップＳ８０３を実行してもよい。

つぎに、生成装置２００は、生成された文脈－応答ペア群Ｐｇｓに対して、言語モデル１１０を用いてスコアを計算する（ステップＳ８０３）。具体的には、たとえば、生成装置２００は、目的ドメイン対話文Ｓｔａについて学習されたＢＥＲＴモデル７００に、一般対話文Ｓｇａから作成されたそれぞれの文脈－応答ペアＰｇを入力して、スコア７０２を算出する。このスコア７０２が高いほど、入力した文脈－応答ペアＰｇが、目的ドメインの対話において生起される確率が高いことを意味する。

図１０は、スコア計算結果の一例を示す説明図である。図１０は、文脈－応答ペアＰｇ１～Ｐｇ９の各々におけるスコア７０２の計算結果を示す。

図８に戻り、生成装置２００は、一般対話文Ｓｇａから作成した文脈－応答ペア群Ｐｇｓから、応答選択モデル作成用の第２学習データ９００を抽出する（ステップＳ８０４）。具体的には、たとえば、生成装置２００は、一般対話文Ｓｇａから作成した文脈－応答ペア群Ｐｇｓのうち、スコア７０２が所定のしきい値以下の文脈－応答ペアＰｇを削除する。図１０の例では、所定のしきい値を０．５とする。したがって、文脈－応答ペアＰｇ４、Ｐｇ６、Ｐｇ７が削除される。そして、生成装置２００は、残余の文脈－応答ペア群Ｐｇｓを第２学習データ９００として出力する。

図１１は、第２学習データ９００の抽出例を示す説明図である。図１１では、文脈－応答ペアＰｇ１～Ｐｇ３、Ｐｇ５、Ｐｇ８、Ｐｇ９が抽出される。

図８に戻り、生成装置２００は、第２学習データ９００を用いて応答選択モデルを学習する（ステップＳ８０５）。具体的には、たとえば、生成装置２００は、図７に示した目的ドメイン対話文Ｓｔａからの言語モデル学習で説明した方法をそのまま応答選択モデルの学習に適用する。すなわち、生成装置２００は、第２学習データ９００から、文脈と応答に現れるトークンを連結したトークン列を生成して、ＢＥＲＴモデル７００に入力し、出力されるスコアが高くなるように学習する。さらに、生成装置２００は、第２学習データ９００から、ある文脈と、本来応答としては現れない文とを組み合わせた負例のトークン列を生成して、ＢＥＲＴモデル７００に入力し、出力されるスコアが低くなるように学習してもよい。これにより、ＢＥＲＴモデル７００が学習されて応答選択モデルになる。

＜応答選択処理（ステップＳ３０４）＞
図１２は、図３に示した応答選択処理（ステップＳ３０４）の詳細な処理手順例を示すフローチャートである。生成装置２００は、ステップＳ８０５で学習された応答選択モデルを読み込む（ステップＳ１２０１）。つぎに、生成装置２００は、ユーザ１３０と対話ロボット１４０との間で発言された文脈を空にする（ステップＳ１２０２）。

生成装置２００は、ユーザ１３０からの文を入力し（ステップＳ１２０３）、文脈に追加する（ステップＳ１２０４）。また、生成装置２００は、当該文脈を用いて、応答選択処理を実行する（ステップＳ１２０５）。応答選択処理（ステップＳ１２０５）では、生成装置２００は、文脈内のすべての文を用いてもよく、最新の所定数の文を文脈として用いてもよい。

図１３は、応答選択処理（ステップＳ１２０５）の一例を示す説明図である。応答選択処理（ステップＳ１２０５）では、別途用意した応答文候補リスト１３０２が用いられる。生成装置２００は、文脈１３０１と、応答文候補リスト１３０２から選択した１個の文とを組み合わせて、文脈－応答ペア１３０３を生成して応答選択モデルに入力し、そのスコア１３０４を出力する。

ここで算出されるスコア１３０４は、与えた文脈１３０１に対して、応答文候補リスト１３０２から選択された応答が対話ロボット１４０の応答としてどの程度ふさわしいかを示す値として解釈できる。生成装置２００は、応答選択処理（ステップＳ１２０５）を応答文候補リスト１３０２に格納されるすべての文について実行してもよい。たとえば、応答文候補リスト１３０２に１００個の文があるとすれば、文脈－応答ペア１３０３も１００個生成され、スコア１３０４も１００個算出される。

図１２に戻り、生成装置２００は、応答選択処理（ステップＳ１２０５）で算出されたスコア１３０４が最も高い応答文を選択し、対話ロボット１４０の応答として出力する（ステップＳ１２０６）。これにより、ユーザ１３０は応答文を対話ロボット１４０から聞くことができる。図１３の例では、スコア１３０４が最も高い文脈－応答ペア１３０３は、｛「あなたの名前は」「私の名前はロボトです」｝であるため、スコア１３０４が最も高い応答文は、「私の名前はロボトです」である。

つぎに、生成装置２００は、出力した応答文を文脈に追加する（ステップＳ１２０７）。そして、生成装置２００は、対話が終了したかを判断する（ステップＳ１２０８）。具体的には、たとえば、生成装置２００は、ユーザ１３０が生成装置２００または対話ロボット１４０に対して、「さようなら」と入力した場合や、不図示の終了ボタンを押したときに終了と判断する（ステップＳ１２０８：Ｙｅｓ）。対話が終了していない場合（ステップＳ１２０８：Ｎｏ）、ステップＳ１２０３に戻り、引き続き対話を継続する。このようにして、生成装置２００は、学習された応答選択モデルに基づき、ユーザ１３０と対話ロボット１４０との対話を円滑に実現することができる。

このように、実施例１によれば、生成装置２００は、応答選択モデルを学習する際に、あらかじめ一般対話文から目的ドメイン対話文Ｓｔａと類似する対話だけを抽出して、応答選択モデルを学習する。したがって、目的ドメインと無関係な対話文の第２学習データ９００への混入が低減される。これにより、応答選択精度の低下が抑制される。

実施例２は、図４に示した確率モデル学習処理（ステップＳ３０１）において、ダイアログアクト遷移モデル学習（ステップＳ４０５）または感情遷移モデル学習（ステップＳ４０６）のうち少なくとも一方を適用する例である。実施例２では、ダイアログアクト遷移モデル学習（ステップＳ４０５）または感情遷移モデル学習（ステップＳ４０６）が確率モデル学習処理（ステップＳ３０１）で適用される点を除いて実施例１と同一である。したがって、実施例２では、ダイアログアクト遷移モデル学習（ステップＳ４０５）および感情遷移モデル学習（ステップＳ４０６）を中心に説明し、実施例１との重複部分については説明を省略する。

ダイアログアクト遷移モデル学習（ステップＳ４０５）は、ダイアログアクト遷移モデルを学習する処理である。ダイアログアクト遷移モデルとは、ダイアログアクトが遷移する確率モデルである。ダイアログアクトとは、「質問」、「回答」、「開示」、および「確認」のように、発話した文の意図、具体的には、たとえば、発言に込められた働きかけの種類を示す。

感情遷移モデル学習（ステップＳ４０６）は、感情遷移モデルを学習する処理である。感情遷移モデルとは、「困惑」、「心配」、「いたわり」のような各種感情が遷移する確率モデルである。

図１４は、ダイアログアクト遷移モデル学習（ステップＳ４０５）および感情遷移モデル学習（ステップＳ４０６）を混合した文脈－応答ペアＰｔの作成例を示す説明図である。図１４の作成は、図５に示した文脈－応答ペア作成処理（ステップＳ４０２）で実行される。

具体的には、たとえば、生成装置２００は、目的ドメイン対話文Ｓｔａを対話単位Ｓｔａｕごとに分割する（ステップＳ５０１）。このとき、生成装置２００は、それぞれの対話のターンに、ダイアログアクト１４０１および感情１４０２を示すタグを付与する。

ダイアログアクト１４０１の付与および感情１４０２の付与は、自然言語処理技術における文へのラベル付けの技術を適用することにより可能である。具体的には、たとえば、生成装置２００は、文とダイアログアクト１４０１と感情１４０２との組み合わせについて、文とダイアログアクト１４０１と感情１４０２との関係を機械学習して機械学習モデルを生成する。そして、生成装置２００は、生成された機械学習モデルに、対話単位Ｓｔａｕの文を入力することで、その文のダイアログアクト１４０１および感情１４０２を推定することが可能になる。

なお、ダイアログアクト遷移モデル学習（ステップＳ４０５）のみ適用する場合は、生成装置２００は、文とダイアログアクト１４０１とのペアについて、文とダイアログアクト１４０１との関係を機械学習して機械学習モデルを生成する。そして、生成装置２００は、生成された機械学習モデルに、対話単位Ｓｔａｕの文を入力することで、その文のダイアログアクト１４０１を推定することができる。同様に、感情遷移モデル学習（ステップＳ４０６）のみ適用する場合は、生成装置２００は、文と感情１４０２とのペアについて、文と感情１４０２との関係を機械学習して機械学習モデルを生成する。

生成装置２００は、このように推定されたダイアログアクト１４０１および感情１４０２を示すタグを、それぞれの対話のターンに付与し、対話単位Ｓｔａｕ１、Ｓｔａｕ２、Ｓｔａｕ３、…を生成する（ステップＳ５０１）。そして、生成装置２００は、ステップＳ５０２～Ｓ５１５により、対話単位Ｓｔａｕごとに文脈－応答ペア群Ｐｔｓを作成する。文脈－応答ペア群Ｐｔｓの各文脈－応答ペアＰｔでは、ターンごとにダイアログアクト１４０１および感情１４０２が関連付けされる。

ダイアログアクト遷移モデルと感情遷移モデルとの混合モデルの学習では、実施例１（図７）と同様、ＢＥＲＴモデルを用いることができる（ダイアログアクト遷移モデルの学習や感情遷移モデルの学習も同様）。以下、図１５～図１７を用いて具体的に説明する。

図１５は、実施例２にかかる確率モデル学習例１を示す説明図である。実施例１と同様、生成装置２００は、ＢＥＲＴモデルを用いる。生成装置２００は、文脈と応答の単語列であるトークン列７０１をＢＥＲＴモデル１５００に入力する。これと並行して、生成装置２００は、それぞれの単語が属する発話のダイアログアクト１４０１、および感情１４０２も入力する。具体的には、生成装置２００は、単語を表すベクトルに、ダイアログアクトを表すベクトル、および感情を表すベクトルを加算または連結する（図７の（ｃ）を参照）。

これにより、ＢＥＲＴモデル１５００は、最後にスコア１５０２を出力する。ＢＥＲＴモデル１５００の学習プロセスにおいて、生成装置２００は、目的ドメイン対話文Ｓｔａから与えられた文脈－応答ペアＰｔ（正例）に対して、スコア１５０２の値が高くなるように学習する。さらに、生成装置２００は、文脈－応答ペアＰｔ（正例）の文脈と、実際には文脈の次には現れない応答をペアにした負例に対して、スコア１５０２が低くなるように学習する（ステップＳ３０１）。

なお、ここで示した方法では、単語、ダイアログアクト１４０１、感情１４０２のすべてがＢＥＲＴモデル１５００に入力され、かつ予測にも使用される。そのため、確率モデル学習処理（ステップＳ３０１）と照らし合わせると、言語モデル学習（ステップＳ４０４）、ダイアログアクト遷移モデル学習（ステップＳ４０５）、感情遷移モデル学習（ステップＳ４０６）のすべてが実行される。

図１６は、実施例２にかかる確率モデル学習例２を示す説明図である。図１６では、生成装置２００は、ＢＥＲＴモデル１５００の替わりに、リカレントニューラルネットワーク（ＲＮＮ）１６００を用いる。生成装置２００は、ＲＮＮ１６００に、文脈中のダイアログアクト１４０１および感情１４０２をターンごとに入力していく。すると、最終的に、応答として予測されるダイアログアクト１６０１および感情１６０２が、その確からしさを示すスコア１６１１，１６１２と一緒に出力される。なお、図示はしないが、ＲＮＮ１６００の入力と出力に、話者を示すタグ（［Ａ］、［Ｂ］など）を含めてもよい。

ＲＮＮ１６００の学習プロセスにおいて、生成装置２００は、目的ドメイン対話文Ｓｔａから与えられた文脈－応答ペアＰｔ（正例）の文脈中のダイアログアクト１４０１および感情１４０２に対して、スコア１６１１，１６１２の値が高くなるように学習する（ステップＳ３０１）。

図１７は、実施例２にかかる確率モデル学習例３を示す説明図である。図１７では、生成装置２００は、ＢＥＲＴモデル１７００に文脈だけを入力する（応答は入力されない）。具体的には、たとえば２、生成装置２００は、文脈の単語列を含むトークン列７０１、ダイアログアクト１４０１、および感情１４０２を入力する。これにより、ＢＥＲＴモデル１７００は、文脈に後続する応答に現れるダイアログアクト１７０１および感情１７０２をスコア１７２１，１７２２付きで出力する。

ＢＥＲＴモデル１７００の学習プロセスにおいて、生成装置２００は、目的ドメイン対話文Ｓｔａから与えられた文脈－応答ペアＰｔ（正例）の文脈中のトークン列１７００、ダイアログアクト１４０１、および感情１４０２に対して、スコア１７２１，１７２２の値が高くなるように学習する（ステップＳ３０１）。

以上のように、図１５～図１７で学習された確率モデル（ＢＥＲＴモデル１５００，１７００，ＲＮＮ１６００）を用いて、生成装置２００は、一般対話文Ｓｇａのフィルタリング処理を実行する（ステップＳ３０２）。

＜フィルタリング処理（ステップＳ３０２）＞
図１８は、実施例２にかかるフィルタリング処理（ステップＳ３０２）の一例を示す説明図である。一般対話文Ｓｇａは、対話単位Ｓｇａｕごとに分割され、それぞれのターンにダイアログアクト１４０１および感情１４０２が付与される。さらに、実施例１と同様に、生成装置２００は、文脈－応答ペア群Ｐｇｓを生成する。

図１５に示したＢＥＲＴモデル１５００を適用する場合には、生成装置２００は、一般対話文Ｓｇａの文脈－応答ペアＰｇをＢＥＲＴモデル１５００に入力してスコア１５０２を取得し（ステップＳ８０３）、そのスコア１５０２が所定の閾値より高い場合、入力した文脈－応答ペアＰｇを第２学習データ９００として採用する（ステップＳ８０４）。

図１６に示したＲＮＮ１６００を適用する場合には、生成装置２００は、一般対話文Ｓｇａの文脈－応答ペアＰｇから文脈のターンにおけるダイアログアクト１４０１と感情１４０２を入力し、応答として出力されるダイアログアクト１６０１および感情１６０２のスコア１６１１，１６１２を計算する。生成装置２００は、このスコア１６１１，１６１２の両方が所定の閾値以上になるダイアログアクト１６０１および感情１６０２をあらかじめ列挙しておく。

そして、生成装置２００は、実際に一般対話文Ｓｇａの応答に関連付けされたダイアログアクト１４０１および感情１４０２が、ＲＮＮ１６００から列挙されたダイアログアクト１６０１および感情１６０２に一致するか否か判断する。一致する場合には、生成装置２００は、当該一致した応答とそのダイアログアクト１６０１および感情１６０２と、当該一致した応答に対応する文脈とそのダイアログアクト１４０１および感情１４０２と、により構成される文脈－応答ペアＰｇを、第２学習データ９００に追加する。

図１７に示したＢＥＲＴモデル１７００を適用する場合、一般対話文Ｓｇａの文脈－応答ペアＰｇから文脈の単語列を含むトークン列７０１、ダイアログアクト１７０１、感情１７０２を入力し、応答に現れるダイアログアクト１７１１および感情１７１２のスコア１７２１，１７２２を計算する。このスコア１７２１，１７２２の両方が所定の閾値以上になるダイアログアクト１７１１および感情１７１２をあらかじめ列挙しておく。

そして、生成装置２００は、実際に一般対話文の応答に関連付けされたダイアログアクトおよび感情が、ＢＥＲＴモデル１７００から列挙されたダイアログアクト１７１１および感情１７１２に一致するか否かを判断する。一致する場合には、生成装置２００は、当該一致した応答とそのダイアログアクト１７１１および感情１７１２と、当該一致した応答に対応する文脈とそのダイアログアクト１４０１および感情１４０２と、により構成される文脈－応答ペアＰｇを、第２学習データ９００に追加する。

このように、実施例２によれば、ダイアログアクト１４０１または感情１４０２の少なくとも一方を考慮することにより、より目的ドメイン対話文Ｓｔのやりとりに似た一般対話文（ＦＳｇ）を抽出することができる。これにより、より適切な応答生成を実現することができる。

なお、文脈－応答ペアＰｇを作成する際、１個のターンに含まれる文が長い場合がある。さらに、その結果として、１個の文に複数のダイアログアクト１４０１または感情１４０２が含まれる場合がある。その場合には、生成装置２００は、１個のターンを複数の文に分割し、それぞれの文を独立したターンとして再定義してもよい。そして、生成装置２００は、再定義後のそれぞれのターンに対してダイアログアクト１４０１または感情１４０２を付与し、確率モデルの学習に適用する。この場合、同一話者のターンが連続する場合もあるが、生成装置２００はそれを許容してもよい。または、生成装置２００は、分割後の文に対して、後続の応答の決定に最も影響を与える文をルールまたは機械学習の方法で同定し、その文だけを残してターンを形成してもよい。

実施例３は、実施例１および実施例２において、目的ドメイン対話文Ｓｔおよび一般対話文Ｓｇを事前に単語クラス化する例である。単語クラス化とは、固有名詞のような単語を上位概念化した単語に変換する処理である。実施例３では、単語クラス化を中心に説明するため、実施例１および実施例２との重複部分については説明を省略する。

図１９は、実施例３にかかる単語クラス化の一例を示す説明図である。（Ａ）は、目的ドメイン対話文Ｓｔのクラス化、（Ｂ）は、一般対話文Ｓｇｂのクラス化を示す。（Ａ）において、クラス化目的ドメイン対話文ＣＳｔは、目的ドメイン対話文Ｓｔからクラス化された文であり、目的ドメイン対話文Ｓｔに含まれている人名（ロボト）や地名（横浜、中華街）といった固有名詞が［人名１］、［地名１］、［地名２］といったクラスに置換されている。

（Ｂ）において、クラス化一般対話文ＣＳｇｂは、一般対話文Ｓｇｂからクラス化された文であり、一般対話文Ｓｇｂに含まれている人名（佐藤）や地名（沖縄、首里城）といった固有名詞が［人名１］、［地名１］、［地名２］といったクラスに置換されている。また、単語代入後一般対話文ＤＳｇｂは、クラス化一般対話文ＣＳｇｂからクラスに具体的な単語を代入した文であり、クラス化一般対話文ＣＳｇｂに含まれている［人名１］、［地名１］、［地名２］といったクラスが、目的ドメイン対話文Ｓｔに含まれている人名（ロボト）や地名（横浜、中華街）といった固有名詞に置換されている。

生成装置２００は、目的ドメイン対話文Ｓｔおよび一般対話文Ｓｇｂのそれぞれについて、形態素解析や固有表現抽出を実行する。これにより、目的ドメイン対話文Ｓｔおよび一般対話文Ｓｇｂはそれぞれ、単語に分割され、かつ単語の品詞や種別といった属性が抽出される。この属性をクラスと称す。形態素解析や固有表現抽出については、生成装置２００とアクセス可能な他のコンピュータが実行し、生成装置２００は、当該他のコンピュータから形態素解析結果や固有表現抽出結果を取得してもよい。

クラス化目的ドメイン対話文ＣＳｔおよびクラス化一般対話文ＣＳｇｂでは、生成装置２００は、人名を［人名］、地名を［地名］というクラスに置換する。なお、１個のクラスに属する異なる単語がある場合には、生成装置２００は、文脈上においてどの単語が一致しているかという情報を残すために、［地名１］、［地名２］のようにクラスに番号をつける。

目的ドメイン対話文Ｓｔと一般対話文Ｓｇｂとの間では、含まれる単語の内訳には大きな差がある。しかし、対話のやりとりの質の類似性を測る上では、具体的にどんな単語が使われたかは重要ではない。そこで、実施例３では、生成装置２００が、両者に含まれる単語をクラスに置き換えることで、具体的な単語の違いを無視し、対話のやりとりの質における類似性を計測することを容易とする。最終的に、生成装置２００は、単語をクラスに置換したクラス化目的ドメイン対話文ＣＳｔから学習した確率モデルを適用し、一般対話文のフィルタリング処理（ステップＳ３０２）を実行する。これにより、応答選択をより高精度に行うことができる。

また、生成装置２００は、クラス化一般対話文ＣＳｇｂを、具体的単語の代入により、目的ドメイン対話文Ｓｔに出現する単語で置換して、単語代入後一般対話文ＤＳｇｂを出力することもできる。具体的には、たとえば、一般対話文ＣＳｇｂに含まれる単語（佐藤、沖縄、首里城）が目的ドメイン対話文の単語（ロボト、横浜、中華街）に置換される。生成装置２００は、単語代入後一般対話文ＤＳｇｂを用いて学習して、文脈－応答ペアＰｇを作成し、第２学習データ９００を生成してもよい。このような第２学習データ９００を用いることにより、応答選択モデルの高精度化を図ることができる。

実施例４は、実施例１～３において、言語モデル１１０、ダイアログアクト遷移モデル、および感情遷移モデルのいずれかのフィルタリング処理（ステップＳ３０２）を実行するのではなく、複数の属性に基づくフィルタリング処理（ステップＳ３０２）を実行する例である。実施例３では、フィルタリング処理（ステップＳ３０２）を中心に説明するため、実施例１～３との重複部分については説明を省略する。

フィルタリング処理（ステップＳ３０２）では、図８で示したように、生成装置２００は、一般対話文Ｓｇの文脈－応答ペアＰｇの確率モデル上でのスコアを計算し（ステップＳ８０３）、スコアの大小により文脈－応答ペアＰｇを第２学習データ９００に採用するか否かを決定する（ステップＳ８０４）。このとき、生成装置２００は、言語モデル１１０に基づくスコア、ダイアログアクト１４０１に基づくスコア、感情１４０２に基づくスコアを、独立して計算する。したがって、得られるスコアは３個である。さらに、生成装置２００は、これら３個のスコアを用いて、下記式（１）により、総合スコアＳを算出する。

上記式（１）において、ｓｉは、スコアである。ｉは、スコアｓｉを算出した属性を特定する識別子である。Ｎはスコアｓｉの総数である。ｗｉは属性ｉに対応する重みであり、ｗｉの合計が１になるよう制約を設ける。生成装置２００は、総合スコアＳを用い、ステップＳ８０４において、総合スコアＳの大小により文脈－応答ペアＰｇを第２学習データ９００に採用するか否かを決定する。これにより、文脈－応答ペアＰｇの適切性を総合的に判断することができ、より適切な応答を生成することができる。

実施例５は、実施例１～４にかかる生成装置２００の開発者が、生成装置２００を用いて実際に学習された応答選択モデルをテストし、サンプルとして得た応答の良し悪しを判断したフィードバック結果を生かし、応答選択モデルの改善を行う例である。実施例３では、応答選択モデルの改善を中心に説明するため、実施例１～４との重複部分については説明を省略する。

図２０は、実施例５にかかる応答選択モデルの改善処理手順例を示すフローチャートである。生成装置２００は、サンプルとなる文脈の入力を受け付ける（ステップＳ２００１）。つぎに、生成装置２００は、入力された文脈を応答選択モデルに入力して、応答文候補を生成する（ステップＳ２００２）。応答文候補は、１個でもよいし、または、応答選択モデルが高いスコアを出力した複数の応答文候補であってもよい。ここでは、複数の応答文候補があることを想定する。

開発者は、生成されたそれぞれの応答文候補に対して適切性を判断する。そして、生成装置２００は、開発者から、各々の応答文候補に対しＯＫ（適切）またはＮＧ（不適切）の入力を受け付ける（ステップＳ２００３）。そして、生成装置２００は、文脈入力の受付が終了したか否かを判断し（ステップＳ２００４）、終了していなければ（ステップＳ２００４：Ｎｏ）、ステップＳ２００１に戻り、終了していれば（ステップＳ２００４：Ｙｅｓ）、モデル更新（ステップＳ２００５）に移行する。

生成装置２００は、設定により、ステップＳ２００６またはステップＳ２００７に分岐する（ステップＳ２００５）。モデル更新（ステップＳ２００５）が確率モデルの更新に設定されている場合、生成装置２００は、確率モデルを更新する（ステップＳ２００６）。一方、モデル更新（ステップＳ２００５）が確率モデルの重みの更新に設定されている場合、生成装置２００は、確率モデルの重みを更新する（ステップＳ２００７）。

生成装置２００は、更新後の確率モデルまたは確率モデルの重みを用いて、一般対話文Ｓｇからのフィルタリング処理（ステップＳ３０２）、および応答選択処理（ステップＳ３０４）を実行する。

図２１は、実施例５にかかる応答選択モデルの改善例を示す説明図である。画面２１００は、生成装置２００で表示される。画面２１００は、第１表示領域２１０１と、第２表示領域２１０２とを有する。第１表示領域２１０１は、開発者が入力可能な表示領域であり、開発者が生成装置２００に入力した文脈と、生成装置２００から応答選択処理（ステップＳ３０４）により得た応答文候補（Ｓ１２０６で出力される応答）、および開発者が適切性を入力した結果を表示する。第２表示領域２１０２も、開発者が入力可能な表示領域であり、発話に自動的に付与されたダイアログアクト１４０１および感情１４０２を表示する。さらに、開発者から発話に付与すべきダイアログアクト１４０１および感情１４０２を受け付け修正できるようにしてもよい。

ここで、図２０の確率モデルの更新（ステップＳ２００６）および確率モデルの重みの更新（ステップＳ２００７）について、具体的に説明する。確率モデルの更新（ステップＳ２００６）では、生成装置２００は、ステップＳ２００３でＯＫとされた文脈－応答ペアＰｇを正例とし、ＮＧとされた文脈－応答ペアＰｇを負例として第２学習データ９００に追加し、確率モデルを再学習する。

この場合、生成装置２００は、確率モデルへの入力として、単語のみ、ダイアログアクト１４０１のみ、感情１４０２のみ、単語とダイアログアクト１４０１、単語と感情１４０２、ダイアログアクト１４０１と感情１４０２、または、単語とダイアログアクト１４０１と感情１４０２の組み合わせ、のいずれかを用い、用いた入力に対して適用可能な確率モデル（ＢＥＲＴモデル７００，１５００，１７００，ＲＮＮ１６００）に入力する。

たとえば、生成装置２００は、ＯＫと判断された文脈－応答ペアＰｇを正例、ＮＧと判断された文脈－応答ペアＰｇを負例とし、ＲＮＮ１６００の第２学習データ９００に追加する。これにより、ＲＮＮ１６００の再学習が可能になる。

また、生成装置２００は、複数の確率モデルを併用してもよい。たとえば、ダイアログアクト１４０１のスコアを計算するときを考えた場合、ＢＥＲＴモデル１７００とＲＮＮ１６００の両方を用い、この両者のスコアの合計値をダイアログアクト１４０１のスコアをしてもよい。開発者の判断を確率モデルに反映させる工程を考えると、単語を入力として持つＢＥＲＴモデル１７００よりも、ダイアログアクト１４０１だけを入力とするＲＮＮ１６００の方が、短い計算時間で確率モデルの更新を完了することができる。よって、開発者の判断を反映するモデルは、ＲＮＮ１６００のみとすることもできる。

このように、図２０の確率モデルの更新（ステップＳ２００６）では、開発者の対話に対する良し悪しの判断を入れ込むことにより、より適切な応答を得る対話システム１００を実現することができる。また、実施例５では、開発者が判断を行うことを想定したが、ユーザ１３０などの他の役割を持つ人の判断でもよいし、良し悪しの判断を行う別の機械や計算機プログラムであってもよい。

また、確率モデルの重みの更新（ステップＳ２００７）では、一般対話文Ｓｇの文脈を入力して得た応答により、文脈－応答ペアＰｇを構築する。生成装置２００は、文脈－応答ペアＰｇの文脈と応答のそれぞれに対して、開発者によるＯＫ（適切）またはＮＧ（不適切）の判断結果を入力として受け付ける。さらに、生成装置２００は、当該文脈－応答ペアＰｇに対して、複数の属性（たとえば、単語、ダイアログアクト、感情）それぞれのスコアを計算する。

つぎに、生成装置２００は、判断結果（ＯＫまたはＮＧ）と、複数の属性の各々のスコアと、を比較し、開発者がどの属性を重要視して対話の適切性を判断しているかを調べる。すなわち、開発者がＯＫと判断した文脈－応答ペア群のうち、単語を入力とする確率モデルのスコアが所定値以上の文脈－応答ペアＰｇが相対的に多ければ、生成装置２００は、その開発者が「単語に基づいて適切性を評価している」と判断する。

一方、開発者がＯＫと判断した文脈－応答ペア群のうち、感情１４０２を入力とする確率モデルのスコアが所定値以上の文脈－応答ペアＰｇが相対的に多ければ、生成装置２００は、その開発者は「感情に基づいて適切性を判断している」と判断する。

このように、生成装置２００は、開発者の判断結果と各属性で計算されたスコアとを比較することで、その開発者が、どういった側面を重視した対話を望んでいるかを特定することができる。生成装置２００は、この比較結果に基づいて、重みを調整する。重みとは、先に述べた上記式（１）におけるｗｉである。すなわち、生成装置２００は、重要視されている属性の重みを大きく、または、重要視されていない属性の重みを小さくする。

このように、生成装置２００は、確率モデルの重みを調整することで、開発者がどういった側面に重きを置いた対話を望んでいるかを特定することができ、その嗜好を効率的に反映することができる。

実施例６は、実施例１～５において、目的ドメイン対話文Ｓｔから学習された確率モデルを、一般対話文Ｓｇからのフィルタリングに使うのではなく、生成装置２００の応答選択結果に対して適用する例である。実施例６では、当該内容を中心に説明するため、実施例１～５との重複部分については説明を省略する。

図２２は、実施例６にかかる応答選択処理（ステップＳ３０４）の詳細な処理手順例を示すフローチャートである。図１２との相違点は、実施例６では、ステップＳ１２０５とＳ１２０６との間に、ステップＳ２２００を実行する点である。

ステップＳ２２００では、生成装置２００は、応答選択（ステップＳ１２０５）で得られた、複数の応答文候補を入力として用いる。また、ステップＳ２２００では、すでに文脈も存在している。そこで、生成装置２００は、当該文脈とそれぞれの応答文候補を組み合わせて、文脈－応答ペアを生成しておく。それぞれの文脈－応答ペアについては、生成装置２００は、実施例１～５で説明したいずれかの方法により、スコアを計算しておく。

図２３は、実施例６にかかる総合スコアの算出例を示す説明図である。ステップＳ２２００では、生成装置２００は、応答文候補のスコアを操作する。具体的には、たとえば、応答選択モデルで得られたある応答に対するスコアが０から１の範囲で、かつ、フィルタリング処理（ステップＳ３０２）用の確率モデルから得られたスコアも０から１の範囲とする。この場合、生成装置２００は、両者の重み付き和を取ることで、両者を総合した総合スコアを算出する。生成装置２００は、この総合スコアに基づいて、総合スコア第１位の応答を生成装置２００の出力として採用する（ステップＳ１２０６）。

実施例１～５では、応答選択モデルの第２学習データ９００となる一般対話文Ｓｇをフィルタリング処理（ステップＳ３０２）したのち、応答選択モデルを学習する前提であった。しかし、一般対話文は大量に存在するため、応答選択モデルの学習には時間がかかる。そのため、試行錯誤的に生成装置２００を改善したいケースでは、実施例１～５を適用するよりも、実施例６を適用すればよい。すなわち、実施例６にかかる生成装置２００は、確率モデルを応答選択の後処理で使用するため、応答選択モデルの再学習が不要になる。したがって、試行錯誤的な改善をより容易に行うことができる。

たとえば、開発者からのフィードバックを生かして生成装置２００の応答戦略を変更する場面を想定すると、応答選択モデルの学習に時間がかかるため、開発者にとって試行錯誤をすることが難しくなる。一方、目的ドメイン対話文Ｓｔのデータ量は一般対話文Ｓｇより相対的に少ないため、実施例６にかかる生成装置２００は、目的ドメイン対話文Ｓｔを用いた確率モデルの学習を高頻度で実行することができる。このように、開発者のフィードバックを生かして生成装置２００を改善していく場面において、より高頻度な更新を図ることができる。

実施例７について説明する。実施例１～６では、生成装置２００は、一般対話文Ｓｇから得られた文脈－応答ペアＰｇに対して、確率モデルによるスコアを算出し、そのスコアが所定の閾値以上であれば第２学習データ９００に採用し、そうでなければ不採用とした。これに対し、実施例７では、生成装置２００は、実施例１～６のようにスコアに応じて採用／不採用のいずれかを決定する方法ではなく、スコアの値に応じて、当該文脈－応答ペアＰｇの学習における寄与度を調整した上で、第２学習データ９００に追加する。

図２４は、実施例７にかかる寄与度調整例を示す説明図である。実施例７では、図４に示した言語モデル１１０の学習を例に挙げて説明するが、他の確率モデルに対しても適用が可能である。ＢＥＲＴモデルの学習に必要となる情報は、入力される文脈－応答ペアＰｇと、それに対する正解となるスコア（正解ラベル）である。正解ラベルは、実施例１～実施例６では、正例には「１」、負例には「０」が用いられる。

実施例７では、生成装置２００は、ある文脈－応答ペア２４０１，２４０２に対するスコア２４１１，２４１２を計算し、そのスコア２４１１，２４１２を、そのまま応答選択モデルの正解ラベルとして採用する。確率モデルで評価されたスコア２４１１，２４１２は、目的ドメイン対話文でより生起しそうであれば高い値、すなわち１に近い値となり（スコア２４１１）、あまり生起しそうになければ低い値、すなわち０に近い値となる（スコア２４１２）。よって、この確率モデルが出力するスコア２４１１，２４１２を正解ラベルに採用することで、生成装置２００は、正例、負例を使った応答選択モデルの学習を実行することができる。また、確率モデルが出力した値をそのまま正解ラベルとして使うのではなく、学習がうまくいくような別の変換を行ってもよい。

また、上記の方法以外にも、応答選択モデルの学習における損失値の計算において、確率モデルのスコアを考慮することもできる。確率モデルによるスコアが１に近いほど、生成装置２００は、正例として学習するサンプルとしての損失値での重みを大きくする。逆に、確率モデルによるスコアが０に近いほど、生成装置２００は、負例として学習されるサンプルとしての損失値への重みを大きくする。

また、実施例１～６では、フィルタリング処理（ステップＳ３０２）により除外していた一般対話文にも、応答選択モデルに役立つ何らかの情報は存在すると考えられる。実施例７により、それらの一般対話文が持つ情報も応答選択モデルの学習に生かすことができる。これにより、より高い適切性となる応答選択の実現が可能となる。

なお、上述した実施例１～７では、生成装置２００が確率モデルや応答選択モデルを学習したが、生成装置２００がアクセス可能な他のコンピュータが確率モデルや応答選択モデルを学習してもよい。この場合、生成装置２００が第２学習データ９００を他のコンピュータに与える。また、生成装置２００が、他のコンピュータにトークン列やダイアログアクト、感情を与えることにより、応答やスコアを取得することになる。

また、上述した実施例１～７にかかる生成装置２００は、下記（１）～（１４）のように構成することもできる。

（１）生成装置２００は、プログラムを実行するプロセッサ２０１と、前記プログラムを記憶する記憶デバイス２０２と、を有し、特定の分野の対話を示す特定対話文（目的ドメイン対話文Ｓｔ）に含まれる特定文脈と当該特定文脈に対する特定応答との組み合わせである特定文脈－特定応答ペアＰｔの集合Ｐｔｓを第１学習データとし、前記第１学習データを用いて学習された、前記特定文脈に対する前記特定応答の適切性を評価する確率モデルにアクセス可能である。前記プロセッサ２０１は、一般対話文Ｓｇに含まれる文脈と当該文脈に対する応答との組み合わせである文脈－応答ペアＰｇを前記確率モデルに入力することにより、前記確率モデルから出力される前記文脈－応答ペアＰｇの適切性を評価するスコアを取得する取得処理（ステップＳ８０３）と、前記取得処理によって取得されたスコアに基づいて、前記文脈－応答ペアＰｇを第２学習データ９００に追加する追加処理（ステップＳ８０４）と、を実行する。

（２）上記（１）において、前記プロセッサ２０１は、前記文脈と前記文脈に続く文である前記応答とを一般対話文Ｓｇから抽出することにより、前記文脈－応答ペアＰｇを作成する作成処理（ステップＳ８０２）を実行し、前記取得処理では、前記プロセッサ２０１は、前記作成処理によって作成された前記文脈－応答ペアＰｇを前記確率モデルに入力することにより、前記確率モデルから出力される前記スコアを取得する。

（３）上記（２）において、前記作成処理では、前記プロセッサ２０１は、時系列な連続する複数の文を前記文脈として前記対話文Ｓｇから抽出する。

（４）上記（２）において、前記作成処理では、前記プロセッサ２０１は、時系列でかつ不連続な複数の文を含む前記文脈を前記対話文Ｓｇから抽出する。

（５）上記（１）において、前記確率モデルは、前記特定文脈と、前記特定応答と、前記特定文脈および前記特定応答を構成する各文の意図を示す特定ダイアログアクトと、の組み合わせである特定文脈－特定応答ペアの集合を前記第１学習データとし、前記第１学習データを用いて学習された、前記特定文脈に対する前記特定応答の適切性を評価するＢＥＲＴモデル１５００であり、前記取得処理では、前記プロセッサ２０１は、前記文脈と、前記文脈に対する応答と、前記文脈および前記応答を構成する各文の意図を示すダイアログアクトと、の組み合わせである文脈－応答ペアを、前記確率モデルに入力することにより、前記確率モデルから出力される前記文脈－応答ペアの適切性を評価するスコアを取得する。

（６）上記（１）において、前記確率モデルは、前記特定文脈と、前記特定応答と、前記特定文脈および前記特定応答を構成する各文を発話した話者の気持ちを示す特定感情と、の組み合わせである特定文脈－特定応答ペアの集合を前記第１学習データとし、前記第１学習データを用いて学習された、前記特定文脈に対する前記特定応答の適切性を評価するＢＥＲＴモデル１５００であり、前記取得処理では、前記プロセッサは、前記文脈と、前記文脈に対する応答と、前記文脈および前記応答を構成する各文を発話した話者の気持ちを示す感情と、の組み合わせである文脈－応答ペアを、前記確率モデルに入力することにより、前記確率モデルから出力される前記文脈－応答ペアの適切性を評価するスコアを取得する。

（７）上記（１）において、前記確率モデルは、前記特定文脈と、前記特定応答と、前記特定文脈および前記特定応答を構成する各文の意図を示す特定ダイアログアクトと、前記特定文脈および前記特定応答を構成する各文を発話した話者の気持ちを示す特定感情と、の組み合わせである特定文脈－特定応答ペアの集合を前記第１学習データとし、前記第１学習データを用いて学習された、前記特定文脈に対する前記特定応答の適切性を評価するＢＥＲＴモデル１５００であり、前記取得処理では、前記プロセッサ２０１は、前記文脈と、前記文脈に対する応答と、前記文脈および前記応答を構成する各文の意図を示すダイアログアクトと、前記文脈および前記応答を構成する各文を発話した話者の気持ちを示す感情と、の組み合わせである文脈－応答ペアを、前記確率モデルに入力することにより、前記確率モデルから出力される前記文脈－応答ペアの適切性を評価するスコアを取得する。

（８）上記（１）において、前記確率モデルは、前記特定文脈を構成する各文の意図を示す特定文脈ダイアログアクトの集合を前記第１学習データとし、前記第１学習データを用いて学習された、前記特定応答を構成する各文の意図を示す特定応答ダイアログアクトの適切性を評価するＲＮＮ１６００であり、前記取得処理では、前記プロセッサ２０１は、前記文脈を構成する各文の意図を示す文脈ダイアログアクトを、前記確率モデルに入力することにより、前記確率モデルから出力される前記応答を構成する各文の意図を示す応答ダイアログアクトの適切性を評価するスコアを取得する。

（９）上記（１）において、前記確率モデルは、前記特定文脈を構成する各文を発話した話者の気持ちを示す特定文脈感情の集合を前記第１学習データとし、前記第１学習データを用いて学習された、前記特定応答を構成する各文を発話した話者の気持ちを示す特定応答感情の適切性を評価するＲＮＮ１６００であり、前記取得処理では、前記プロセッサ２０１は、前記文脈を構成する各文を発話した話者の気持ちを示す文脈感情を、前記確率モデルに入力することにより、前記確率モデルから出力される前記応答を構成する各文を発話した話者の気持ちを示す応答感情の適切性を評価するスコアを取得する。

（１０）上記（１）において、前記確率モデルは、前記特定文脈と、前記特定文脈を構成する各文の意図を示す特定文脈ダイアログアクトと、の組み合わせの集合を前記第１学習データとし、前記第１学習データを用いて学習された、前記特定応答を構成する各文の意図を示す特定応答ダイアログアクトの適切性を評価するＢＥＲＴモデル１７００であり、前記取得処理では、前記プロセッサ２０１は、前記文脈と、前記文脈を構成する各文の意図を示す文脈ダイアログアクトと、の組み合わせを、前記確率モデルに入力することにより、前記確率モデルから出力される前記応答を構成する各文の意図を示す応答ダイアログアクトの適切性を評価するスコアを取得する。

（１１）上記（１）において、前記確率モデルは、前記特定文脈と、前記特定文脈を構成する各文を発話した話者の気持ちを示す特定文脈感情と、の組み合わせの集合を前記第１学習データとし、前記第１学習データを用いて学習された、前記特定応答を構成する各文を発話した話者の気持ちを示す特定応答感情の適切性を評価するＢＥＲＴモデル１７００であり、前記取得処理では、前記プロセッサ２０１は、前記文脈と、前記文脈を構成する各文を発話した話者の気持ちを示す文脈感情と、の組み合わせを、前記確率モデルに入力することにより、前記確率モデルから出力される前記応答を構成する各文を発話した話者の気持ちを示す応答感情の適切性を評価するスコアを取得する。

（１２）上記（１）において、前記プロセッサ２０１は、前記対話文に含まれる固有名詞を上位概念化した単語に変換するクラス化処理を実行し、前記取得処理では、前記プロセッサ２０１は、前記クラス化処理によって前記固有名詞が変換された前記対話文に含まれる文脈と当該文脈に対する応答との組み合わせである文脈－応答ペアを前記確率モデルに入力することにより、前記確率モデルから出力される前記スコアを取得する。

（１３）上記（１）において、応答文候補にアクセス可能であり、前記プロセッサ２０１は、応答文候補ごとに、前記文脈と前記応答文候補との組み合わせである文脈－応答文候補ペアを生成し、前記追加処理による追加後の第２学習データ９００を用いて前記確率モデルを再学習した結果得られる応答選択モデルに、前記文脈－応答文候補ペアの各々を入力した結果、前記応答選択モデルから出力される各スコアに基づいて、出力対象となる応答文候補を選択して出力する選択処理（ステップＳ３０４）を実行する。

（１４）上記（１３）において、前記取得処理では、前記プロセッサ２０１は、前記応答選択モデルに、前記文脈－応答文候補ペアの各々を入力して前記応答選択モデルから得られる前記各スコアを出力した結果、外部入力により前記文脈－応答文候補ペアについての適切性の判断結果を取得し、前記追加処理では、前記プロセッサは、前記判断結果に基づいて、前記文脈－応答文候補ペアを前記第２学習データ９００に追加する。

（１５）上記（１３）において、前記選択処理では、前記プロセッサは、前記追加処理による追加後の第２学習データを用いて前記確率モデルを再学習した結果得られる応答選択モデルに、前記文脈－応答ペアを入力することにより、前記応答選択モデルから出力される前記文脈－応答ペアの適切性を評価する第１スコアを取得し（Ｓ１２０５）、前記確率モデルに、前記文脈－応答ペアを入力することにより、前記確率モデルから出力される前記文脈－応答ペアの適切性を評価する第２スコアを取得し（Ｓ２２００）、前記第１スコアおよび前記第２スコアに基づいて、前記出力対象となる応答文候補を選択して出力する。

なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。たとえば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。

また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、たとえば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。

各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置、又は、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）カード、ＳＤカード、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）の記録媒体に格納することができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。

１００対話システム
１１０言語モデル
１２０応答選択モデル
１４０対話ロボット
２００生成装置
２０１プロセッサ
２０２記憶デバイス
９００第２学習データ
Ｓｔ目的ドメイン対話文
Ｓｇ一般対話文
Ｓｃ応答文候補

Claims

プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する生成装置であって、
特定の分野の対話を示す特定対話文に含まれる特定文脈と当該特定文脈に対する特定応答との組み合わせである特定文脈－特定応答ペアの集合を第１学習データとし、前記第１学習データを用いて学習された、前記特定文脈に対する前記特定応答の適切性を評価する確率モデルにアクセス可能であり、
前記プロセッサは、
対話文に含まれる文脈と当該文脈に対する応答との組み合わせである文脈－応答ペアを前記確率モデルに入力することにより、前記確率モデルから出力される前記文脈－応答ペアの適切性を評価するスコアを取得する取得処理と、
前記取得処理によって取得されたスコアに基づいて、前記文脈－応答ペアを第２学習データに追加する追加処理と、
を実行することを特徴とする生成装置。
請求項１に記載の生成装置であって、
前記プロセッサは、
前記文脈と前記文脈に続く文である前記応答とを対話文から抽出することにより、前記文脈－応答ペアを作成する作成処理を実行し、
前記取得処理では、前記プロセッサは、前記作成処理によって作成された前記文脈－応答ペアを前記確率モデルに入力することにより、前記確率モデルから出力される前記スコアを取得する、
ことを特徴とする生成装置。
請求項２に記載の生成装置であって、
前記作成処理では、前記プロセッサは、時系列な連続する複数の文を前記文脈として前記対話文から抽出する、
ことを特徴とする生成装置。
請求項２に記載の生成装置であって、
前記作成処理では、前記プロセッサは、時系列でかつ不連続な複数の文を含む前記文脈を前記対話文から抽出する、
ことを特徴とする生成装置。
請求項１に記載の生成装置であって、
前記確率モデルは、前記特定文脈と、前記特定応答と、前記特定文脈および前記特定応答を構成する各文の意図を示す特定ダイアログアクトと、の組み合わせである特定文脈－特定応答ペアの集合を前記第１学習データとし、前記第１学習データを用いて学習された、前記特定文脈に対する前記特定応答の適切性を評価し、
前記取得処理では、前記プロセッサは、前記文脈と、前記文脈に対する応答と、前記文脈および前記応答を構成する各文の意図を示すダイアログアクトと、の組み合わせである文脈－応答ペアを、前記確率モデルに入力することにより、前記確率モデルから出力される前記文脈－応答ペアの適切性を評価するスコアを取得する、
ことを特徴とする生成装置。
請求項１に記載の生成装置であって、
前記確率モデルは、前記特定文脈と、前記特定応答と、前記特定文脈および前記特定応答を構成する各文を発話した話者の気持ちを示す特定感情と、の組み合わせである特定文脈－特定応答ペアの集合を前記第１学習データとし、前記第１学習データを用いて学習された、前記特定文脈に対する前記特定応答の適切性を評価し、
前記取得処理では、前記プロセッサは、前記文脈と、前記文脈に対する応答と、前記文脈および前記応答を構成する各文を発話した話者の気持ちを示す感情と、の組み合わせである文脈－応答ペアを、前記確率モデルに入力することにより、前記確率モデルから出力される前記文脈－応答ペアの適切性を評価するスコアを取得する、
ことを特徴とする生成装置。
請求項１に記載の生成装置であって、
前記確率モデルは、前記特定文脈と、前記特定応答と、前記特定文脈および前記特定応答を構成する各文の意図を示す特定ダイアログアクトと、前記特定文脈および前記特定応答を構成する各文を発話した話者の気持ちを示す特定感情と、の組み合わせである特定文脈－特定応答ペアの集合を前記第１学習データとし、前記第１学習データを用いて学習された、前記特定文脈に対する前記特定応答の適切性を評価し、
前記取得処理では、前記プロセッサは、前記文脈と、前記文脈に対する応答と、前記文脈および前記応答を構成する各文の意図を示すダイアログアクトと、前記文脈および前記応答を構成する各文を発話した話者の気持ちを示す感情と、の組み合わせである文脈－応答ペアを、前記確率モデルに入力することにより、前記確率モデルから出力される前記文脈－応答ペアの適切性を評価するスコアを取得する、
ことを特徴とする生成装置。
請求項１に記載の生成装置であって、
前記確率モデルは、前記特定文脈を構成する各文の意図を示す特定文脈ダイアログアクトの集合を前記第１学習データとし、前記第１学習データを用いて学習された、前記特定応答を構成する各文の意図を示す特定応答ダイアログアクトの適切性を評価し、
前記取得処理では、前記プロセッサは、前記文脈を構成する各文の意図を示す文脈ダイアログアクトを、前記確率モデルに入力することにより、前記確率モデルから出力される前記応答を構成する各文の意図を示す応答ダイアログアクトの適切性を評価するスコアを取得する、
ことを特徴とする生成装置。
請求項１に記載の生成装置であって、
前記確率モデルは、前記特定文脈を構成する各文を発話した話者の気持ちを示す特定文脈感情の集合を前記第１学習データとし、前記第１学習データを用いて学習された、前記特定応答を構成する各文を発話した話者の気持ちを示す特定応答感情の適切性を評価し、
前記取得処理では、前記プロセッサは、前記文脈を構成する各文を発話した話者の気持ちを示す文脈感情を、前記確率モデルに入力することにより、前記確率モデルから出力される前記応答を構成する各文を発話した話者の気持ちを示す応答感情の適切性を評価するスコアを取得する、
ことを特徴とする生成装置。
請求項１に記載の生成装置であって、
前記確率モデルは、前記特定文脈と、前記特定文脈を構成する各文の意図を示す特定文脈ダイアログアクトと、の組み合わせの集合を前記第１学習データとし、前記第１学習データを用いて学習された、前記特定応答を構成する各文の意図を示す特定応答ダイアログアクトの適切性を評価し、
前記取得処理では、前記プロセッサは、前記文脈と、前記文脈を構成する各文の意図を示す文脈ダイアログアクトと、の組み合わせを、前記確率モデルに入力することにより、前記確率モデルから出力される前記応答を構成する各文の意図を示す応答ダイアログアクトの適切性を評価するスコアを取得する、
ことを特徴とする生成装置。
請求項１に記載の生成装置であって、
前記確率モデルは、前記特定文脈と、前記特定文脈を構成する各文を発話した話者の気持ちを示す特定文脈感情と、の組み合わせの集合を前記第１学習データとし、前記第１学習データを用いて学習された、前記特定応答を構成する各文を発話した話者の気持ちを示す特定応答感情の適切性を評価し、
前記取得処理では、前記プロセッサは、前記文脈と、前記文脈を構成する各文を発話した話者の気持ちを示す文脈感情と、の組み合わせを、前記確率モデルに入力することにより、前記確率モデルから出力される前記応答を構成する各文を発話した話者の気持ちを示す応答感情の適切性を評価するスコアを取得する、
ことを特徴とする生成装置。
請求項１に記載の生成装置であって、
前記プロセッサは、
前記対話文に含まれる固有名詞を上位概念化した単語に変換するクラス化処理を実行し、
前記取得処理では、前記プロセッサは、前記クラス化処理によって前記固有名詞が変換された前記対話文に含まれる文脈と当該文脈に対する応答との組み合わせである文脈－応答ペアを前記確率モデルに入力することにより、前記確率モデルから出力される前記スコアを取得する、
ことを特徴とする生成装置。
請求項１に記載の生成装置であって、
応答文候補にアクセス可能であり、
前記プロセッサは、
応答文候補ごとに、前記文脈と前記応答文候補との組み合わせである文脈－応答文候補ペアを生成し、前記追加処理による追加後の前記第２学習データを用いて前記確率モデルを学習した結果得られる応答選択モデルに、前記文脈－応答文候補ペアの各々を入力した結果、前記応答選択モデルから出力される各スコアに基づいて、出力対象となる応答文候補を選択して出力する選択処理を実行することを特徴とする生成装置。
請求項１３に記載の生成装置であって、
前記取得処理では、前記プロセッサは、前記応答選択モデルに、前記文脈－応答文候補ペアの各々を入力して前記応答選択モデルから得られる前記各スコアを出力した結果、外部入力により前記文脈－応答文候補ペアについての適切性の判断結果を取得し、
前記追加処理では、前記プロセッサは、前記判断結果に基づいて、前記文脈－応答文候補ペアを前記第２学習データに追加する、
ことを特徴とする生成装置。
プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する生成装置が実行する生成方法であって、
前記生成装置は、
特定の分野の対話を示す特定対話文に含まれる特定文脈と当該特定文脈に対する特定応答との組み合わせである特定文脈－特定応答ペアの集合を第１学習データとし、前記第１学習データを用いて学習された、前記特定文脈に対する前記特定応答の適切性を評価する確率モデルにアクセス可能であり、
前記プロセッサが、
対話文に含まれる文脈と当該文脈に対する応答との組み合わせである文脈－応答ペアを前記確率モデルに入力することにより、前記確率モデルから出力される前記文脈－応答ペアの適切性を評価するスコアを取得する取得処理と、
前記取得処理によって取得されたスコアに基づいて、前記文脈－応答ペアを第２学習データに追加する追加処理と、
を実行することを特徴とする生成方法。