JP2020126186A

JP2020126186A - 相槌判定によって応答発話生成を制御する対話実施プログラム、装置及び方法

Info

Publication number: JP2020126186A
Application number: JP2019019481A
Authority: JP
Inventors: 剣明呉; Jiangming Wu; 啓一郎帆足; Keiichiro Hoashi
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2019-02-06
Filing date: 2019-02-06
Publication date: 2020-08-20
Anticipated expiration: 2039-02-06
Also published as: JP6985311B2

Abstract

【課題】対話の中で、対話先ユーザとのタッチポイント（接点，繋がり）をより拡充させることが可能な対話実施プログラムを提供する。【解決手段】本対話実施プログラムは、入力発話を受けた応答用発話生成モデルによって生成された応答用発話が、予め設定された相槌相当の発話であるか否かを判定する相槌判定手段と、この応答用発話が相槌相当の発話であると判定された際、先の入力発話の内容に基づいて追加発話を生成し、この追加発話を応答用発話に追加した発話を、応答発話として出力する応答発話生成手段としてコンピュータを機能させる。ここで、応答発話生成手段は、先の入力発話から、所定条件を満たす語である重要語を抽出し、疑問詞とこの重要語とを含んだ質問相当の追加発話を生成することも好ましい。【選択図】図１

Description

本発明は、ユーザとの間で対話を行う対話システムの技術に関する。

近年、ユーザとの間で対話を実施し、当該ユーザに種々のサービスを提供可能な対話システムの開発が盛んに進められている。例えば、現在普及しているスマートフォンには、ユーザの発話による問合せに音声で回答し、検索結果等の情報を提供する対話応答機能が常備されているものも少なくない。

このような対話システムでは、ユーザの発話であるユーザ発話に対し、如何に適切なシステム側の応答発話を生成するかが最重要の課題となる。

この課題に対し、例えば、非特許文献１には、リカレントニューラルネットワークの一種であるＬＳＴＭ（Long Short term Memory）を用いたエンコーダ（encoder）及びデコーダ（Decoder）から構成された発話生成モデルであるSeq2Seq（Sequence to Sequence）モデルが開示されている。

このモデルのＬＳＴＭによるエンコーダでは、ユーザ発話の発話文を単語等のトークン（token）に分解し、当該発話文であるトークン列をＩＤ化した上で、各トークンをエンコーダに順次入力し、エンコーダ内で隠れベクトル（hidden vector）を順次生成して保持し、最後のトークンによる隠れベクトルをデコーダへ出力する。次いで、デコーダは、エンコーダから受け取った隠れベクトルを用いて、システム側の応答発話の発話文を構成するトークンを順次生成し、最終的に応答発話の発話文となるトークン列を出力するのである。

さらに、このようにして生成された大量の発話文・応答文のペアを学習データとして用いることによって、ユーザ発話からシステム側の応答発話を動的に生成可能なSeq2Seqモデルが構築されるのである。

Sutskever, I., Vinyals, O., and Le, Q. V., "Sequence to sequence learning with neural networks" NIPS Proceedings: Advances in Neural Information Processing Systems, 3104〜3112頁, 2014年

しかしながら、非特許文献１に記載された技術を含めた従来技術では、応答発話として単なる相槌が比較的に多く出力され、無難ではあるが内容の薄い対話になってしまう場合が少なくないとの問題が生じていた。

ここで、このような問題は、発話生成モデルを構築する際に使用される発話学習データが通常、人間同士の対話における発話から生成されたデータとなっており、当該データには実際に、「いいですね」、「そうですね」、「だよね」といった相槌が相当に多く含まれていることに起因して生じるのである。

このように、応答発話が無難な内容の提供に終始してしまうと、例えばユーザが対話を続けたいとの意欲も削がれがちとなってユーザの発話がそれほど行われなくなり、結果的に、対話システム設置の目的である、所望のユーザ情報の収集、ユーザへの適切なサービスの提供や、マーケティング成果の獲得等を達成することができなくなる場合も生じてしまう。

そこで、本発明は、対話の中で、対話先ユーザとのタッチポイント（接点，繋がり）をより拡充させることが可能な対話実施プログラム、装置及び方法を提供することを目的とする。

本発明によれば、入力発話を受け取って応答用発話を生成する応答用発話生成モデルを用いて対話を実施する装置に搭載されたコンピュータを機能させる対話実施プログラムであって、
当該応答用発話生成モデルの生成した応答用発話が、予め設定された相槌相当の発話であるか否かを判定する相槌判定手段と、
当該応答用発話が相槌相当の発話であると判定された際、当該入力発話の内容に基づいて追加発話を生成し、当該追加発話を当該応答用発話に追加した発話を、応答発話として出力する応答発話生成手段と
してコンピュータを機能させる対話実施プログラムが提供される。

ここで、上述した「相槌相当の発話」は、間投詞、又は理解、共感若しくは同意を示す語句・短文、又は当該間投詞若しくは当該語句・短文に類似する語句・短文であることも好ましい。

さらに、この本発明による対話実施プログラムの一実施形態として、応答発話生成手段は、当該入力発話から、所定条件を満たす語である重要語を抽出し、疑問詞と当該重要語とを含んだ質問相当の追加発話を生成することも好ましい。

また、上記の質問相当の追加発話を生成する実施形態において、
本装置は、複数の疑問詞を含む疑問詞リスト、及び多数の発話を含むコーパスを有し、
応答発話生成手段は、当該疑問詞リストに含まれる疑問詞の中から、当該疑問詞と当該重要語とを含む語句が当該コーパスから検索される度合いに基づいて疑問詞を選択し、当該追加発話生成用の疑問詞とすることも好ましい。

さらに、上記の疑問詞リストは、名詞用疑問詞リスト及び動詞用疑問詞リストを含み、
応答発話生成手段は、当該重要語が名詞の場合には当該名詞用疑問詞リストの中から疑問詞を選択し、当該重要語が動詞の場合には当該動詞用疑問詞リストの中から疑問詞を選択することも好ましい。

さらに、本発明による対話実施プログラムの他の実施形態として、本対話実施プログラムは、生成された追加発話を、文脈情報として、次いで取得された入力発話とともに当該応答用発話生成モデルに入力するモデル制御手段としてコンピュータを更に機能させることも好ましい。

本発明によれば、また、入力発話を受け取って応答用発話を生成する応答用発話生成モデルを用いて対話を実施する装置であって、
当該応答用発話生成モデルの生成した応答用発話が、予め設定された相槌相当の発話であるか否かを判定する相槌判定手段と、
当該応答用発話が相槌相当の発話であると判定された際、当該入力発話の内容に基づいて追加発話を生成し、当該追加発話を当該応答用発話に追加した発話を、応答発話として出力する応答発話生成手段と
を有する対話実施装置が提供される。

本発明によれば、さらに、入力発話を受け取って応答用発話を生成する応答用発話生成モデルを用いて対話を実施する装置に搭載されたコンピュータにおいて実施される方法であって、
当該応答用発話生成モデルの生成した応答用発話が、予め設定された相槌相当の発話であるか否かを判定するステップと、
当該応答用発話が相槌相当の発話であると判定された際、当該入力発話の内容に基づいて追加発話を生成し、当該追加発話を当該応答用発話に追加した発話を、応答発話として出力するステップと
を有する対話実施方法が提供される。

本発明の対話実施プログラム、装置及び方法によれば、対話の中で、対話先ユーザとのタッチポイント（接点，繋がり）をより拡充させることができる。

本発明による対話実施装置の一実施形態における機能構成を示す機能ブロック図である。本発明に係る相槌判定部及び応答発話生成部における相槌判定処理及び応答発話生成処理の一実施例を説明するための模式図である。本発明に係る追加発話生成部における追加発話生成処理の一実施例を説明するための模式図である。本発明による対話実施装置の他の実施形態における機能構成を示す機能ブロック図である。

以下、本発明の実施形態について、図面を用いて詳細に説明する。

［対話実施装置］
図１は、本発明による対話実施装置の一実施形態における機能構成を示す機能ブロック図である。

図１によれば、本発明の一実施形態としての対話実施装置１は、ユーザが当該装置に対しユーザインタフェース（ＵＩ）１０１を介して対話を行うことができる装置である。

ここで、ユーザインタフェース１０１がマイク及びスピーカであって、ユーザがユーザ発話を音声で入力し、装置側発話が同じく音声で出力されてもよい。または、ユーザインタフェース１０１がタッチパネル・ディスプレイであって、ユーザがユーザ発話をタッチパネルに対するタップ等の入力操作をもって入力し、一方、装置側発話がディスプレイに表示されてもよい。さらに、上述した発話入出力の混合形態をとることも勿論可能である。

本実施形態において、対話実施装置１は、装置へ入力されたユーザ発話である入力発話を受け取って、装置側発話を生成するための応答用発話を生成する発話生成モデル１０２を備えている。この発話生成モデル１０２は、例えば公知のSeq2Seq（Sequence to Sequence）等のモデルとすることができる。

ここで従来、このようなモデルを構築するのに人間同士の対話に基づく発話学習データが利用されてきたが、当該データには実際に、「いいですね」、「そうですね」、「だよね」といった「相槌相当の発話」が相当に多く含まれている。その結果、発話生成モデル１０２から応答用発話として、単なる「相槌相当の発話」が比較的に多く出力されてしまう。ここで従来通りにこのような発話をそのまま装置側発話としてユーザに提供したならば、無難ではあるが内容の薄い対話になってしまう可能性が高くなる。

これに対し、対話実施装置１は、具体的にその特徴として、
（Ａ）発話生成モデル１０２の生成した応答用発話が、予め設定された「相槌相当の発話」であるか否かを判定する相槌判定部１１３と、
（Ｂ）応答用発話が「相槌相当の発話」であると判定された際、入力発話の内容に基づいて「追加発話」を生成し、「追加発話」を応答用発話に追加した発話を、応答発話として出力する応答発話生成部１１４と
を有している。

ここで、「相槌相当の発話」とは、
（Ａ１）間投詞（感嘆詞）、
（Ａ２）理解、共感若しくは同意を示す語句・短文、又は
（Ａ３）上記（Ａ１）の間投詞若しくは上記（Ａ２）の語句・短文に類似する語句・短文
との意味である。

また、上記（Ａ３）の「類似する」とは、類似度算出対象の語句・短文間の類似度が所定閾値以上になることとしてもよい。さらに、この類似度としては、類似度算出対象の語句・短文を、品詞種別やその意味内容を特徴付ける特徴ベクトルVに変換し、例えば次式によって算出されるこれら特徴ベクトルV間におけるコサイン（cos）類似度sを、この類似度として採用することができる。
（１）ｓ(i,j)＝cosθ_ij＝(V_i・V_j)／(|V_i||V_j|)
V_i，V_j：類似度算出対象それぞれの特徴ベクトル

このように、対話実施装置１は、発話生成モデル１０２が「相槌相当の発話」を生成した際、単にその「相槌相当の発話」を応答発話として出力するのではなく、入力発話の内容に基づいて生成した「追加発話」を加味した発話を、応答発話として出力するのである。

これにより、ユーザは自らの発話に対し、単なるありがちな相槌や相槌相当の返答のみを受け取るのではなく、自らの発話に基づいた内容を有する応答を受け取ることになり、この装置１との対話について、より多くの充実感や親近感を得ることができる。

またそれとともに、ユーザは、このような装置側応答によって発話し易い感じを受けることになり、この後もより多くの発話を行う可能性が高くなる。このようにして、対話実施装置１は、当該対話の中で、対話先のユーザとのタッチポイント（接点，繋がり）をより拡充させることが可能となるのである。

なお変更態様として、対話実施装置１は、発話生成モデル１０２を保有する代わりに、発話送受信制御部１１６及び通信インタフェース１０６を介して対話制御サーバ２の保有する発話生成モデル２１と通信接続し、この発話生成モデル２１を利用して対話を実施してもよい。

また、後述する会話コーパス１０５についても、これを保有するのではなく、対話制御サーバ２の会話コーパス２２を利用する態様をとることも可能である。このような変更態様では、対話実施装置１が発話生成モデルや会話コーパスを保有する必要がないので、例えばメモリ容量の小さな端末でも、対話実施装置１を具現可能となる。

［装置機能構成］
同じく図１の機能ブロック図によれば、対話実施装置１は、ユーザインタフェース（ＵＩ）１０１と、発話生成モデル１０２と、相槌リスト１０３と、疑問詞リスト１０４と、会話コーパス１０５と、通信インタフェース１０６と、プロセッサ・メモリとを有する。

ここで、このプロセッサ・メモリは、本発明による対話実施プログラムの一実施形態を保存しており、また、コンピュータ機能を有していて、この対話実施プログラムを実行することによって、対話処理を実施する。このことから、対話実施装置１は、対話ロボットやスマートスピーカ等の対話専用装置であってもよいが、本発明による対話実施プログラム（アプリ）を搭載した例えばスマートフォン、タブレット型若しくはノート型コンピュータや、パーソナル・コンピュータ（ＰＣ）等とすることも可能である。

さらに、このプロセッサ・メモリは、機能構成部として、発話入出力制御部１１１と、入力発話解析部１１２と、相槌判定部１１３と、追加発話生成部１１４ａを含む応答発話生成部１１４と、モデル制御部１１５と、発話送受信制御部１１６とを有する。なお、これらの機能構成部は、プロセッサ・メモリに保存された対話実施プログラムの機能と捉えることができる。また、図１における対話実施装置１の機能構成部間を矢印で接続して示した処理の流れは、本発明による対話実施方法の一実施形態としても理解される。

同じく図１の機能ブロック図において、発話入出力制御部１１１は、ユーザインタフェース１０１を介して入力された入力発話であるユーザ発話を発話デジタルデータに変換して入力発話解析部１１２へ出力し、一方、応答発話生成部１１４で生成された応答発話である装置側発話を表示データや音声データに変換してユーザインタフェース１０１へ出力する。

入力発話解析部１１２は、入力された入力発話（ユーザ発話デジタルデータ）を、発話生成モデル１０２への入力に適した形に変換した上で、発話生成モデル１０２に対するインタフェースであるモデル制御部１１５を介し、発話生成モデル１０２へ出力する。

例えば、この後説明するように発話生成モデル１０２がSeq2Seq（Sequence to Sequence）モデルやＨＲＥＤ（Hierarchical Recurrent Encoder-Decoder）モデルである場合、入力発話解析部１１２は入力発話を、単語等のトークン（token）に分解してトークン列（さらには、それをＩＤ化したデータ）へ変換してもよい。

発話生成モデル１０２は、本実施形態では対話先ユーザのユーザ発話である入力発話を受け取って応答用発話を生成するモデルであり、例えば非特許文献１に開示されたSeq2Seqモデルとすることができる。Seq2Seqは一問一答の処理を行い、過去の1個の発話から応答用発話を生成するものである。

また、発話生成モデル１０２として、Seq2Seqを発展させたモデルであるＨＲＥＤモデルを採用してもよい。ＨＲＥＤは、過去の複数個の発話から応答用発話を生成可能となっている。このように発話生成モデル１０２がＨＲＥＤモデルである場合、上記（Ｂ）の「追加発話」の生成は、同じく過去の複数個の「入力発話」の内容に基づいて実施されてもよい。

相槌判定部１１３は、発話生成モデル１０２の生成した応答用発話が、「相槌相当の発話」であるか否かを判定する。ここで、「相槌相当の発話」は、予め設定された語句・短文であって上記（Ａ１）〜（Ａ３）に相当する語句・短文として相槌リスト１０３に登録されている。相槌判定部１１３は、入力された応答用発話が、相槌リスト１０３に登録された語句・短文のいずれかに該当するならば、当該応答用発話は「相槌相当の発話」であると判定するのである。

また変更態様として、上記（Ａ１）及び（Ａ２）に相当する語句・短文が相槌リスト１０３に登録されていて、相槌判定部１１３は、入力された応答用発話が、この相槌リスト１０３に登録された語句・短文のいずれかに該当するか、又は当該語句・短文のいずれかと類似するならば、当該応答用発話は「相槌相当の発話」であると判定してもよい。

同じく図１の機能ブロック図において、応答発話生成部１１４の追加発話生成部１１４ａは、相槌判定部１１３において応答用発話が「相槌相当の発話」であると判定された際、発話生成モデル１０２へ入力された（１つ又は複数の）入力発話の内容に基づいて追加発話を生成する。次いで、応答発話生成部１１４は、このように生成された追加発話を応答用発話に追加した発話を、応答発話として出力する。

一方、応答発話生成部１１４は、相槌判定部１１３において応答用発話が「相槌相当の発話」ではないと判定された際には、発話生成モデル１０２の生成した応答用発話をそのまま、応答発話として出力する。

ここで、追加発話生成処理の一実施形態として、追加発話生成部１１４ａは、発話生成モデル１０２へ入力された１つの入力発話から、所定条件を満たす語である「重要語」を抽出し、「重要語」と「疑問詞」とを含んだ質問相当の追加発話を生成することも好ましい。

このうち「重要語」については、入力発話に対し述語項構造解析を行って入力発話内の動詞（述語）に対する名詞を抽出し、当該名詞又は動詞を「重要語」としてもよい。または、入力発話に対し述語項構造解析又は形態素解析を行い、単純に入力発話中で最後に出現している名詞又は動詞を「重要語」とすることも可能である。ちなみに、上述したように「重要語」は、過去の複数の入力発話から抽出されて所定条件の下で選択されてもよい。

また、「疑問詞」については、複数の疑問詞が予め登録された疑問詞リスト１０４を用い、その中から、抽出された「重要語」を勘案して１つを選択することができる。具体的には、追加発話生成部１１４ａは、多数の発話を含む会話コーパス１０５を利用し、疑問詞リスト１０４に登録された疑問詞の中から、当該疑問詞と「重要語」とを含む語句が会話コーパス１０５から検索される度合いに基づいて１つを選択し、追加発話生成用の「疑問詞」としてもよい。

なお、以上に述べた「重要語」及び「疑問詞」の選択処理及び追加発話生成処理については、後に図２及び図３に示した実施例を通して詳細に説明する。

モデル制御部１１５は、発話生成モデル１０４に対するインタフェース機能部であり、１つの好適な実施形態として、追加発話生成部１１４ａで生成された追加発話を、文脈情報として、次いで取得された入力発話とともに発話生成モデル１０４に入力する。この追加発話を文脈情報として利用する実施形態については、この後、図２に示した実施例を通して詳細に説明を行う。

［実施例］
図２は、相槌判定部１１３及び応答発話生成部１１４における相槌判定処理及び応答発話生成処理の一実施例を説明するための模式図である。

図２に示した実施例では最初に、対話実施装置１は、「なんの食べ物が好きですか？」との装置側発話をユーザへ出力する。これに対し、ユーザは、ユーザ発話「カレーが好きです。」を装置１へ入力する。次いで、このユーザ発話を入力発話として受け取った発話生成モデル１０２は、応答用発話として「いいですね。」を出力する。

この応答用発話を受け取った相槌判定部１１３は、これが「相槌相当の発話」であるとの判定を行い、この判定結果を応答発話生成部１１４へ通知する。応答発話生成部１１４の追加発話生成部１１４ａは、この判定結果を受け、入力発話「カレーが好きです」に基づいて追加発話「どこのカレーですか？」を生成する。ここでの追加発話生成処理については、後に図３を用いて詳細に説明する。

次いで、応答発話生成部１１４は、発話生成モデル１０２から出力された応答用発話「いいですね。」と生成した追加発話「どこのカレーですか？」とを結合させて、応答発話「いいですね。どこのカレーですか？」を生成し、ユーザへ出力するのである。

以上述べたように本実施例では、ユーザ発話「カレーが好きです。」に対する応答発話として、「いいですね。」との相槌だけでなく、会話を円滑に継続させその内容を深めるような疑問・掘り下げ質問の発話「どこのカレーですか？」も併せてユーザへ提示されている。

その結果、この後のユーザの発話が促され、次のターンのユーザ返答発話「よくインド料理屋で食べてるよ。」を得ることができる。またさらに、このユーザ発話に対し、相槌「そうなんだ。」だけでなく「誰と一緒に食べてますか？」との疑問・掘り下げ質問の発話を更に繰り出すこともできるのである。このようにして、対話をより進展させ深めることができるので、ユーザは、より多くの充実感や親近感を得ることも可能となる。

ちなみに、本実施例では、「そうなんだ。誰と一緒に食べてますか？」との装置側発話に対するユーザの返答発話「大学の友人。」に対し、発話生成モデル１０２は、応答用発話として「友達と一緒に食べるなんて最高。」を出力する。ここで、相槌判定部１１３は、このユーザの返答発話が「相槌相当の発話」ではないとの判定を行い、応答発話生成部１１４はこの判定結果を受けて、発話生成モデル１０２から出力された応答用発話「友達と一緒に食べるなんて最高。」を、そのまま応答発話としてユーザへ出力している。

また、本実施例では、最初に生成された追加発話「どこのカレーですか？」が、文脈情報としてモデル制御部１１５を介し、次のターンとして取得された入力発話「よくインド料理屋で食べてるよ。」とともに、発話生成モデル１０２へ入力されている。これにより、発話生成モデル１０２における応答用発話生成処理の精度（対話文脈上の適切さ）が向上するのである。

ちなみに本実施例では、発話生成モデル１０２はSeq2Seqモデルであり、入力発話（ユーザ発話）及び応答用発話（装置側発話）がペアになった学習データによってモデル構築処理（学習処理）が行われる。ここで、上述したような追加発話を文脈情報として利用する形態に合わせ、追加発話、入力発話及び応答用発話が組になった学習データによってモデル構築を行うことも好ましい。

さらに、追加発話を文脈情報として利用する際には、それに合わせて構築した別のモデルを用いることも可能である。例えば、発話生成モデル１０２が、追加発話を考慮せずに応答用発話を出力するSeq2Seqモデルと、追加発話を考慮して応答用発話を出力するSeq2Seqモデルとを備えていてもよい。

図３は、追加発話生成部１１４ａにおける追加発話生成処理の一実施例を説明するための模式図である。

図３に示した実施例によれば、入力発話「カレーが好きです。」を受け取った発話生成モデル１０２は、応答用発話として「いいですね。」を出力して、相槌判定部１１３は、これを相槌であると判定し、さらに追加発話生成部１１４ａは、この判定結果を受けて、入力発話「カレーが好きです。」から重要語「カレー」を抽出している。

具体的に、追加発話生成部１１４ａは、入力発話「カレーが好きです。」に対し述語項構造解析を行い、発話文中において最後に出現する名詞又は動詞を特定し、これを重要語として抽出する処理を行っており、本実施例では、重要語として名詞「カレー」が抽出されている。

次に、追加発話生成部１１４ａは、疑問詞リスト１０４に登録されている各疑問詞と重要語「カレー」とを連結させた複数の疑問詞・重要語候補を生成する。ここで本実施例において、疑問詞リスト１０４は、名詞用疑問詞リスト及び動詞用疑問詞リストを含んでおり、追加発話生成部１１４ａは、
（ａ）抽出された重要語が名詞である場合、名詞用疑問詞リストから疑問詞を取り出して疑問詞・重要語候補を生成し、一方、
（ｂ）抽出された重要語が動詞である場合、動詞用疑問詞リストから疑問詞を取り出して疑問詞・重要語候補を生成する。
したがって本実施例では、名詞用疑問詞リストの各疑問詞と、名詞である重要語「カレー」とを連結させた疑問詞・重要語候補が生成されるのである。

追加発話生成部１１４ａは次いで、会話コーパス１０５を利用し、当該コーパス中に含まれる発話群における、各追加発話候補の出現確率を算出し、最も出現確率の高い疑問詞・重要語候補をなす疑問詞「どこの」を選定している。その結果本実施例では、この「どこの」及び重要語「カレー」を含む追加発話「どこのカレーですか？」が生成されるのである。またこれにより、重要語「カレー」と関連性の高い疑問詞「どこの」と連結した掘り下げ質問を含む発話をユーザへ提示することが可能となる。

ちなみに、上記の「出現確率」として例えば、N-gram言語モデルにおける疑問詞・重要語候補（本実施例では単語列：「疑問詞」,「カレー」）のN-gram確率を算出してもよい。ここで、N-gram言語モデルは、単語列wⁿ＝w₁,w₂,・・・,w_nにおける各単語の生起確率P(w_i)が直前の(N-1)個の単語のみに依存するという公知の言語モデルであり、N-gram確率は、このN-gram言語モデルにおける当該単語列wⁿの生起確率P(wⁿ)のことである。

また以上に説明した追加発話生成処理の変更態様として、追加発話生成部１１４ａは、疑問・掘り下げ質問の追加発話ではなく、「同意・共感の意を重ねる又は強調する追加発話」を生成してもよい。例えば、重要語の意味内容毎に、当該重要語を当て嵌めれば同意・共感を示す発話が完成する発話テンプレートを用意しておき、抽出された重要語の意味内容に応じ発話テンプレートを選択して当該重要語を当て嵌めることにより、その前の「相槌相当の発話」に対し「同意・共感の意を重ねる又は強調する追加発話」を生成してもよいのである。

具体的には、図２に示したユーザ発話「カレーが好きです。」に対し、抽出された重要語「カレー」を用いて、「私もカレーが食べたいです。」との追加発話を生成し、応答発話「いいですね。私もカレーが食べたいです。」を出力することができる。

ここで、「相槌相当の発話」の定義として述べた上記（Ａ２）の「理解、共感若しくは同意を示す語句・短文」には、例えば「そうなんですよね」が該当する。これに対し、上述した追加発話は、例えば「私も（重要語）が好きなんです。」となり、まさに「同意・共感の意を重ねる又は強調する追加発話」となっているのである。

［対話実施装置の他の実施形態］
図４は、本発明による対話実施装置の他の実施形態における機能構成を示す機能ブロック図である。

図４によれば、本実施形態の対話実施装置３は、図１に示した対話実施装置１と同様、ユーザとの間で対話を実施することができる装置となっている。ただし、対話実施装置３は、対話実施装置１とは異なり、対話先であるユーザの有するユーザ端末４との間で通信ネットワークを介して通信接続されており、当該ユーザは、ユーザ端末４のユーザインタフェース（例えばマイク・スピーカやタッチパネル・ディスプレイ等）を介して、対話実施装置３との間で対話を行うことになる。

また、図４の機能ブロック図に示した対話実施装置３の機能構成部については、通信インタフェース３０６及び発話送受信制御部３１６を除き、対話実施装置１（図１）における同名の機能構成部と同様の機能を有し、同様の処理を実施する機能構成部となっている。

ここで、発話送受信制御部３１６は、
（ａ）通信インタフェース３０６を介し、ユーザ端末４からユーザ発話を受け取り、入力発話として入力発話解析部３１２に入力し、
（ｂ）応答発話生成部３１４で生成された応答発話を、通信インタフェース３０６を介し、ユーザ端末４に送信する。
すなわち、発話送受信制御部３１６は、図１に示した対話実施装置１における発話入出力制御部１１１に対応する機能を果たす構成部となっている。

このような対話実施装置３によっても、ユーザは自らの発話に対し、単なるありがちな相槌や相槌相当の返答のみを受け取るのではなく、自らの発話に基づいた内容を有する応答を受け取ることになり、装置との対話について、より多くの充実感や親近感を得ることができる。またそれとともに、ユーザは、このような装置側応答によって発話し易い感じを受けることになり、この後もより多くの発話を行う可能性が高くなる。このようにして、対話実施装置３も、当該対話の中で、対話先のユーザとのタッチポイント（接点，繋がり）をより拡充させることが可能となるのである。

ちなみに、以上詳細に説明した本発明による対話実施装置における対話実施方法は、対話シナリオ生成方法にも適用可能となっている。例えば、「ユーザ発話」とそれに対する「装置側発話」との多数のペアを含む基準対話シナリオが存在する場合において、
（Ａ’）この基準対話シナリオ中の「装置側発話」が、予め設定された「相槌相当の発話」であるか否かを判定するステップと、
（Ｂ１’）当該「装置側発話」が「相槌相当の発話」であると判定された際、それに対応する「ユーザ発話」の内容に基づいて「追加発話」を生成するステップと、
（Ｂ２’）基準対話シナリオにおいて、当該「装置側発話」に当該「追加発話」を追加した発話を、新たな「装置側発話」とする書き換えを行うステップと
を行うことができる。

これにより、それを用いた対話の中で、対話先ユーザとのタッチポイント（接点，繋がり）をより拡充させることができるような対話シナリオが生成可能となるのである。

以上詳細に説明したように、本発明によれば、対話先のユーザは自らの発話に対し、単なるありがちな相槌や相槌相当の返答のみを受け取るのではなく、自らの発話に基づいた内容を有する応答を受け取ることになり、装置との対話について、より多くの充実感や親近感を得ることができる。

またそれとともに、対話先ユーザは、このような装置側応答によって発話し易い感じを受けることになり、この後もより多くの発話を行う可能性が高くなる。このようにして、対話の中で、対話先ユーザとのタッチポイント（接点，繋がり）をより拡充させることが可能となる。

以上に述べた本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１、３対話シナリオ生成装置
１０１ユーザインタフェース（ＵＩ）
１０２、３０２発話生成モデル
１０３、３０３相槌リスト
１０４、３０４疑問詞リスト
１０５、３０５会話コーパス
１０６、３０６通信インタフェース
１１１発話入出力制御部
１１２、３１２入力発話解析部
１１３、３１３相槌判定部
１１４、３１４応答発話生成部
１１４ａ、３１４ａ追加発話生成部
１１５、３１５モデル制御部
１１６、３１６発話送受信制御部
２対話制御サーバ
２１発話生成モデル
２２会話コーパス
４ユーザ端末

Claims

入力発話を受け取って応答用発話を生成する応答用発話生成モデルを用いて対話を実施する装置に搭載されたコンピュータを機能させる対話実施プログラムであって、
当該応答用発話生成モデルの生成した応答用発話が、予め設定された相槌相当の発話であるか否かを判定する相槌判定手段と、
当該応答用発話が相槌相当の発話であると判定された際、当該入力発話の内容に基づいて追加発話を生成し、当該追加発話を当該応答用発話に追加した発話を、応答発話として出力する応答発話生成手段と
してコンピュータを機能させることを特徴とする対話実施プログラム。
当該相槌相当の発話は、間投詞、又は理解、共感若しくは同意を示す語句・短文、又は当該間投詞若しくは当該語句・短文に類似する語句・短文であることを特徴とする請求項１に記載の対話実施プログラム。
前記応答発話生成手段は、当該入力発話から、所定条件を満たす語である重要語を抽出し、疑問詞と当該重要語とを含んだ質問相当の追加発話を生成することを特徴とする請求項１又は２に記載の対話実施プログラム。
前記装置は、複数の疑問詞を含む疑問詞リスト、及び多数の発話を含むコーパスを有し、
前記応答発話生成手段は、当該疑問詞リストに含まれる疑問詞の中から、当該疑問詞と当該重要語とを含む語句が当該コーパスから検索される度合いに基づいて疑問詞を選択し、当該追加発話生成用の疑問詞とする
ことを特徴とする請求項３に記載の対話実施プログラム。
当該疑問詞リストは、名詞用疑問詞リスト及び動詞用疑問詞リストを含み、
前記応答発話生成手段は、当該重要語が名詞の場合には当該名詞用疑問詞リストの中から疑問詞を選択し、当該重要語が動詞の場合には当該動詞用疑問詞リストの中から疑問詞を選択する
ことを特徴とする請求項４に記載の対話実施プログラム。
生成された追加発話を、文脈情報として、次いで取得された入力発話とともに当該応答用発話生成モデルに入力するモデル制御手段としてコンピュータを更に機能させることを特徴とする請求項１から５のいずれか１項に記載の対話実施プログラム。
入力発話を受け取って応答用発話を生成する応答用発話生成モデルを用いて対話を実施する装置であって、
当該応答用発話生成モデルの生成した応答用発話が、予め設定された相槌相当の発話であるか否かを判定する相槌判定手段と、
当該応答用発話が相槌相当の発話であると判定された際、当該入力発話の内容に基づいて追加発話を生成し、当該追加発話を当該応答用発話に追加した発話を、応答発話として出力する応答発話生成手段と
を有することを特徴とする対話実施装置。
入力発話を受け取って応答用発話を生成する応答用発話生成モデルを用いて対話を実施する装置に搭載されたコンピュータにおいて実施される方法であって、
当該応答用発話生成モデルの生成した応答用発話が、予め設定された相槌相当の発話であるか否かを判定するステップと、
当該応答用発話が相槌相当の発話であると判定された際、当該入力発話の内容に基づいて追加発話を生成し、当該追加発話を当該応答用発話に追加した発話を、応答発話として出力するステップと
を有することを特徴とする対話実施方法。