JP2018049132A

JP2018049132A - 音声対話システムおよび音声対話方法

Info

Publication number: JP2018049132A
Application number: JP2016184128A
Authority: JP
Inventors: 純一伊藤; Junichi Ito; 池野　篤司; Tokuji Ikeno; 篤司池野
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2016-09-21
Filing date: 2016-09-21
Publication date: 2018-03-29

Abstract

【課題】ユーザがシステム発話に応答しない場合に注意を引くように繰り返し発話を行う音声対話システムにおいて、ユーザに過度な不快感を与えることを防止する。【解決手段】発話文を生成する発話文生成手段と、前記発話文を出力する音声出力手段と、ユーザからの音声を入力する音声入力手段と、前記ユーザの機嫌を検出する機嫌検出手段と、を備え、ユーザに話しかける発話文の出力の後に前記ユーザが応答しない場合に、当該発話文と同じ内容をより強い口調で出力する繰り返し発話を出力するものであり、ユーザに話しかける発話文の出力の後に前記ユーザが応答せず、かつ、ユーザの機嫌が悪化した場合には、ユーザの機嫌が悪化していない場合と比較して、繰り返し発話を抑制する。【選択図】図３

Description

本発明は、音声対話システムに関する。

ユーザとの音声対話を行うシステムにおいて、システムからの問いかけに対してユーザが反応しない場合に、ユーザの注意を引くようにして同じ内容の発話を繰り返すことが行われている。例えば、特許文献１は、前回の発話に対して、イントネーション、発話スピード、言葉の区切り方、省略形、声色の少なくともいずれかを変えて発話を繰り返すことを提案する。

特開２００４−４６４００号公報

システムが繰り返し発話をしてもユーザが応答しない場合には、さらに発話を繰り返すことが考えられる。しかしながら、単純に繰り返し発話を継続すると、ユーザに不快感を与えてしまうことがあり得る。

本発明は、ユーザがシステム発話に応答しない場合に注意を引くように繰り返し発話を行う音声対話システムにおいて、ユーザに過度な不快感を与えることを防止することを目的とする。

本発明の第一の態様は、
発話文を生成する発話文生成手段と、
前記発話文を出力する音声出力手段と、
ユーザからの音声を入力する音声入力手段と、
前記ユーザの機嫌を検出する機嫌検出手段と、
を備え、
ユーザに話しかける発話文の出力の後に前記ユーザが応答しない場合に、当該発話文と同じ内容をより強い口調で出力する繰り返し発話を出力するものであり、
ユーザに話しかける発話文の出力の後に前記ユーザが応答せず、かつ、前記ユーザの機嫌が悪化した場合には、前記ユーザの機嫌が悪化していない場合と比較して、繰り返し発話を抑制する、
ことを特徴とする音声対話システムである。

本発明において、繰り返し発話とは、先の発話と同じ内容をユーザに伝達するための発話を意味する。ただし、先の発話と完全に同じ内容を含んでいる必要はなく、先の発話の少なくとも一部の内容を含んでいればよい。また、先の発話と繰り返し発話は少なくとも一部の内容が実質的に同じであればよく、その具体的な表現態様は異なっていてもよい。

また、本発明において、繰り返し発話は、先の発話と比較してより強い口調で出力される。ここで、「先の発話と比較して繰り返し発話の口調が強い」ということは、繰り返し発話の内容や表現あるいはイントネーションや発話スピード、発話音量、声色が先の発話と異なり、ユーザの注意をより強く引くと想定または期待されることを意味する。

また、本発明において、「繰り返し発話を抑制する」とは、繰り返し発話によるユーザの注意喚起効果を低くすることを意味する。典型的には、繰り返し発話を一時的または完全に停止することや、繰り返し発話を行うまでの期間を長くすること、口調の強さの変化をより少なくすることが、「繰り返し発話の抑制」に該当する。

本発明において機嫌検出手段によるユーザの機嫌の変化を検出は、前記ユーザの顔を撮影した画像に基づいて検出される前記発話文の出力前後における前記ユーザの表情の変化に基づいて行うことができる。機嫌検出手段は、前記音声入力手段から得られる前記ユーザからの音声も考慮して前記ユーザの機嫌の変化を検出することも好ましい。ただし、本発明においてはユーザが音声によって応答しないことが想定されるので、音声に基づくユーザの機嫌を履歴として保持しておき、当該履歴を用いて機嫌変化の検出に用いるとよい。

なお、本発明は、上記手段の少なくとも一部を備える音声対話システムとして捉えることもできる。本発明はまた、音声対話システムを構成する音声対話装置あるいは対話サーバとして捉えることもできる。本発明は、また、上記処理の少なくとも一部を実行する音声対話方法として捉えることができる。また、本発明は、この方法をコンピュータに実行させるためのコンピュータプログラム、あるいはこのコンピュータプログラムを非一時的に記憶したコンピュータ可読記憶媒体として捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。

例えば、本発明の一態様は、音声対話システムが行う音声対話方法であって、
第１の発話文を生成および出力する発話ステップと、
前記第１の発話文の出力の後に前記ユーザが応答しない場合に、当該第１の発話文と同じ内容であり、かつ、より強い口調の第２の発話文を生成および出力する繰り返し発話ステップと、
前記ユーザの機嫌を検出する機嫌検出ステップと、
を含み、
前記第１の発話文の出力の後に前記ユーザが応答せず、かつ、ユーザの機嫌が悪化した場合には、ユーザの機嫌が悪化していない場合と比較して、繰り返し発話を抑制する、
ことを特徴とする音声対話方法である。

本発明によれば、ユーザがシステム発話に応答しない場合に注意を引くように繰り返し発話を行う音声対話システムにおいて、ユーザに過度な不快感を与えることを防止できる。

図１は、実施形態に係る音声対話システムの構成を示す図である。図２は、実施形態に係る音声対話システムを構成する対話サーバの機能構成を示す図である。図３は、実施形態に係る音声対話システムにおける処理の流れの例を示す図である。図４は、実施形態における催促文データベースを説明する図である。

以下に図面を参照して、この発明の好適な実施の形態を例示的に詳しく説明する。以下で説明される実施形態は、音声対話ロボットをフロントエンド装置とし、スマートフォンや各種のサーバが連携することで実現するし音声対話システムであるが、システムをどの
ような装置から構成するかは適宜変更可能である。

＜システム構成＞
図１は、本実施形態に係る音声対話システムの構成を示す図である。本実施形態に係る音声対話システムは、音声対話ロボット（フロントエンド装置）１００、スマートフォン２００、音声認識サーバ３００、対話サーバ４００、表情検出サーバ５００から構成される。

音声対話ロボット１００は、マイク、スピーカー、カメラおよびマイクロプロセッサなどの演算装置、メモリ、通信装置などを含むコンピュータである。音声対話ロボット１００は、マイクから取得した音声データやカメラから取得した画像データをスマートフォン２００に送信すると共に、スマートフォン２００から送信される音声出力命令にしたがって音声をスピーカーから出力する。音声対話ロボット１００は、可動関節部や移動手段などを備えていて、スマートフォン２００から命令にしたがってこれらを制御してもよい。

スマートフォン２００は、マイクロプロセッサなどの演算装置、メモリ、通信装置などを含む電話通話機能を有するコンピュータである。スマートフォン２００は、音声対話ロボット１００と、音声認識サーバ３００、対話サーバ４００、表情検出サーバ５００とののあいだの処理を制御する。スマートフォン２００は、音声対話ロボット１００からユーザから入力される音声データを取得し、音声認識サーバ３００に送って音声認識結果を取得する。また、スマートフォン２００は、音声対話ロボット１００からユーザの顔を写した画像データを取得し、表情検出サーバ５００に送って表情検出結果を取得する。また、スマートフォン２００は、ユーザ発話の音声認識結果およびユーザの表情検出結果を対話サーバ４００へ送り、ユーザに対して応答するための応答文を取得する。スマートフォン２００は、対話サーバ４００から得られた応答文を音声対話ロボット１００出力するための命令を生成して、音声対話ロボット１００に送信する。

なお、ロボットおよび各サーバ間のデータがスマートフォン２００を経由してやりとりされる例を示しているが、音声認識結果が音声認識サーバ３００から対話サーバ４００に直接送られたり、表情検出結果が表情検出サーバ５００から対話サーバ４００に直接送られたりしてもよい。

音声認識サーバ３００は、マイクロプロセッサなどの演算装置、メモリ、通信装置などを含むコンピュータであり、音声認識部を備える。音声認識サーバ３００は、豊富な資源（高速な演算部や、大容量の語彙辞書など）を有しており、高精度な音声認識が可能である。音声認識サーバ３００は、音声認識の結果をスマートフォン２００へ送信する。なお、音声認識は公知な技術のため詳しい説明は省略する。

表情検出サーバ５００は、マイクロプロセッサなどの演算装置、メモリ、通信装置などを含むコンピュータであり、表情検出部を備える。表情検出部は、音声対話ロボット１００が撮影した画像からユーザの顔を抽出して、その表情の変化を検出（認識）する。表情検出サーバ５００は、検出した表情をスマートフォン２００へ送信する。

表情の検出には、統計的学習ベースの手法やルールベースの手法など既存の技術が利用できる。顔検出および表情検出は公知な技術のため詳しい説明は省略する。

対話サーバ４００は、マイクロプロセッサなどの演算装置、メモリ、通信装置などを含むコンピュータであり、対話生成機能を備える。対話サーバ４００は、ユーザの発話の内容や表情（感情）の変化などに基づいてユーザに話しかける発話内容を決定して、スマートフォン２００へ送信する。本実施形態では、システムからの発話にユーザが反応しない
場合に口調を強めて繰り返し発話を行う。

図２を参照して、対話サーバ４００をより詳細に説明する。対話サーバ４００は、会話データベース（ＤＢ）４０１、催促文データベース４０２、話しかけ文選択部４０３、発話メッセージ作成部４０４、再発話タイマー４０５、会話応答検出部４０６、機嫌検出部４０７として機能する。以下、各機能部の詳細については、図３のフローチャートを用いた処理説明において行う。

図３は、音声対話システムからユーザに対して話しかける際の処理を示すフローチャートである。システムからユーザに話しかけるというのは、システムが会話を開始する場合だけでなく、ユーザからの発話に対してシステムが応答する場合も含む。

ステップＳ１１において、話しかけ文選択部４０３は会話データベース４０１を参照して、適切な会話文を選択する選択処理を実行する。会話データベース４０１には、話題や状況に応じた複数の会話シナリオが格納されており、話しかけ文選択部４０３が適切なものを選択する。この選択の際に、話しかけ文選択部４０３は、ユーザの発話内容（音声認識結果）やユーザの置かれている状況、ユーザの個人情報（属性や嗜好など）を考慮することができる。

ステップＳ１２において、発話メッセージ作成部４０４は、話しかけ文選択部４０３が選択した会話文に基づいて、応答文のテキスト（音声対話ロボットに発話させる文章）を作成する。発話メッセージ作成部４０４は、話しかけ文選択部４０３が選択した会話文に対して、適当なつなぎ言葉（文頭におかれる簡易的な応答や相づちなど）を付け加えたり、語尾（文末）を変えたりして応答文のテキストを生成する。発話メッセージ作成部４０４は、生成した応答文テキストを出力する際のイントネーションや発話スピードなどを決定してもよい。

ステップＳ１３において、発話メッセージ作成部４０４は、作成した応答文テキストをスマートフォン２００に送信し、スマートフォン２００が応答文テキストを出力するように音声対話ロボット１００に命令する。これにより、対話サーバ４００が作成した発話が音声対話ロボット１００からユーザに向けて話しかけられる。なお、ここまでの時点で催促レベル（後述）は初期値０に設定される。

ステップＳ１４において、再発話タイマー４０５が、音声対話ロボット１００が発話を開始したタイミングで再発話タイマーを起動させる。再発話タイマーは、起動から所定の時間が経過すると再発話トリガーイベントを発する。

ステップＳ１５において、会話応答検出部４０６は、音声対話ロボット１００からの発話に対するユーザの応答の有無を検出する。会話応答検出部４０６は、スマートフォン２００から送信される音声認識処理結果に基づいてユーザがロボットからの発話に対して応答したか否かを判断する。より簡単には、会話応答検出部４０６は、スマートフォン２００から送信される音声入力の有無に基づいて、ユーザが応答したか否かを判断してもよい。ユーザからの応答が無い場合にはステップＳ１６に進み、応答が検出された場合はステップＳ２０に進む。

ステップＳ１５においてユーザからの応答が無いと判断された場合（Ｓ１５−ＮＯ）、ステップＳ１６において、機嫌検出部４０７が、ユーザの機嫌が悪化したか否かを判断する。機嫌検出部４０７は、基本的に、ユーザの表情の変化（表情検出サーバ５００の処理結果）に基づいて、ユーザの機嫌の悪化を判断する。

機嫌検出部４０７は、ユーザの音声（発話の内容や、発話音量やトーンなどの音声特徴量）などを考慮してユーザの機嫌の悪化を判断することも好ましい。ただし、ステップＳ１６での判断はユーザの応答が無い場合の処理であるから、対話サーバ４００は直近のユーザの発話音声に基づく機嫌検出の結果を履歴として保持しておき、この履歴と表情に基づく判断結果とを総合してユーザの機嫌検出を行う。

ステップＳ１６においてユーザの機嫌が悪化していないと判断された場合はステップＳ１７に進み、悪化していると判断された場合はステップＳ２０に進む。

ユーザの応答が無く（Ｓ１５−ＮＯ）かつユーザの機嫌が悪化していない場合（Ｓ１６−ＮＯ）は、ステップＳ１７において再発話タイマーがトリガされたか否かを判断する。すなわち、システムからユーザへの発話（再発話タイマーの起動）から所定時間が経過したかが判断される。再発話タイマーがトリガされていない場合（Ｓ１７−ＮＯ）には、ステップＳ１５に戻って上記の処理が繰り返される。一方、再発話タイマーがトリガされた場合（Ｓ１７−ＹＥＳ）にはステップＳ１８に進み、口調を強めて同じ内容の発話を繰り返すための制御を行う。

再発話タイマーがトリガされると（Ｓ１７−ＹＥＳ）、ステップＳ１８において、発話メッセージ作成部４０４は催促レベルを＋１増加させる。すなわち、前回行ったシステムからユーザへの話しかけよりも一段強いレベル（口調）で発話するように設定する。なお、ここでいう「強いレベルにする」というのは、イントネーションや発話スピード、内容や表現など、口調を強い段階にすることである。

ステップＳ１９において、発話メッセージ作成部４０４は、現在の催促レベルに応じた発話メッセージを作成する。発話メッセージ作成部４０４は、発話の内容自体はステップＳ１１で決定した会話文と同様であるが、催促文データベース４０２を参照して前回の話しかけよりも口調が一段階強い発話を作成する。

図４は、催促文データベース４０２の例を示す。催促文データベース４０２には、催促レベル３０２１に応じて、発話文の文頭に付加する語句３０２２および文末に付加する語句３０２３を記憶している。ここでは催促レベルが３段階（レベル０を含めると４段階）であるものとしているが、催促レベルの数はいくつであっても構わない。

発話メッセージ作成部４０４は、現在の催促レベルおよび会話文に応じて適切な文頭および文末に付加する語句を選択して、繰り返し発話のテキストを決定する。なお、ここでは応答文のテキストのみを考慮しているが、催促レベルに応じてイントネーションや発話スピード、発話音量などを調整するようにしてもよい。

繰り返し発話の内容が決定されるとステップＳ１３に進み、繰り返し発話が音声対話ロボット１００からユーザに向けて出力される共に、上述したステップＳ１４以降の処理が繰り返される。

システムからユーザに対して発話（最初の発話および繰り返し発話の両方を含む）がされた後に、ユーザからの応答が検出された場合（Ｓ１５−ＹＥＳ）あるいはユーザの機嫌が悪化した場合（Ｓ１６−ＹＥＳ）は、ステップＳ２０に進み、再発話タイマーを停止する。これにより、ユーザが応答を返さなかった場合でもシステムからの繰り返し発話は行われなくなる。

＜動作例＞
ここで、催促レベルが上がっていく際のシステムからの発話内容を説明する。たとえば
、「明日は雨」という情報をユーザに伝えるために、「明日は雨らしいよ」という発話をシステムが行うことを考える。

このシステム発話に対してユーザが応答をしないでいると、システムからは催促レベルに応じて次のような発話が行われる。
「明日は雨だって」（催促レベル１）
→「ねぇねぇ、明日は雨だって」（催促レベル２）
→「ちょっと聞いてるの？明日は雨だって」（催促レベル３）

いずれかのシステム発話の後にユーザが応答を返した場合には、それ以降の繰り返し発話を行わないことはもちろんであるが、途中でユーザの機嫌が悪化した場合にも、それ以降の繰り返し発話は行われない。例えば、催促レベル２の「ねぇねぇ、明日は雨だって」の後にユーザの機嫌が悪化したことが検出されたら、催促レベル３の繰り返し発話は抑制される。

＜効果＞
本実施形態によれば、システム発話に対してユーザが応答しない場合に口調を強くして同じ内容の発話を繰り返すことでユーザの注意を喚起するとともに、ユーザが不快感を感じた場合にも対処できる。すなわち、繰り返し発話に対してユーザが不快感を感じた場合に、それ以上の繰り返し発話を行わないことでユーザに与える不快感を最小限に留めることができる。

＜変形例＞
上記の実施形態ではユーザの機嫌悪化が検出された場合にただちに繰り返し発話を中止するようにしているが、繰り返し発話を抑制する対応であれば、中止以外の対応を取っても構わない。例えば、ユーザの応答が無いと判断するまでに待つ所定期間（再発話タイマーの時間）を長く設定するという対応をとることができる。また、繰り返し発話を一時的に中断するだけにし、ユーザの機嫌が元に戻ったら繰り返し発話を行うようにしてもよい。この際、中断前と同じ催促レベルの繰り返し発話を行ってもよいし、催促レベルを１レベル（あるいはそれ以上）下げて繰り返し発話を行ってもよい。

上記の説明では、催促レベルを上げて口調を強くするために、発話の内容（テキスト）を変えることを主として説明したが、イントネーション、発話スピード、発話音量、声色などテキストの読み上げ方法を変えることによって口調を強くするようにしてもよい。口調を強くするのは、ユーザの注意をより強く引きつけることを目的とするものなので、この目的を達せられるような態様であれば、繰り返し発話をどのように行うかは特に制限されない。

図３のフローチャートでは、ユーザが応答を返さず、かつ機嫌も悪化しない場合には、無制限に催促レベルが増加していくように示してあるが、一定回数の繰り返し発話をしてもユーザが応答を返さない場合には繰り返し発話を中止することが望ましい。

本実施形態では、音声対話ロボット１００、スマートフォン２００、音声認識サーバ３００、対話サーバ４００、表情検出サーバ５００など複数の装置が連携して上記の機能を実現する例を示した。上述の各機能を具体的のどのコンピュータで実現するかは適宜定めればよく、上記の説明において１つの機能（処理）を複数のコンピュータで分担してもよいし、上記の説明において異なるコンピュータで行っていた複数の機能（処理）を１台のコンピュータで実行してもよい。

＜その他＞
上記の実施形態および変形例の構成は、本発明の技術的思想を逸脱しない範囲内で、適宜組み合わせて利用することができる。また、本発明は、その技術的思想を逸脱しない範囲で適宜変更を加えて実現しても構わない。

１００：音声対話ロボット
２００：スマートフォン
３００：音声認識サーバ
４００：対話サーバ
４０１：会話データベース４０２：催促文データベース
４０３：話しかけ文選択部４０４：発話メッセージ作成部
４０５：再発話タイマー４０６：会話応答検出部４０７：機嫌検出部
５００：表情検出サーバ

Claims

発話文を生成する発話文生成手段と、
前記発話文を出力する音声出力手段と、
ユーザからの音声を入力する音声入力手段と、
前記ユーザの機嫌を検出する機嫌検出手段と、
を備え、
ユーザに話しかける発話文の出力の後に前記ユーザが応答しない場合に、当該発話文と同じ内容をより強い口調で出力する繰り返し発話を出力するものであり、
ユーザに話しかける発話文の出力の後に前記ユーザが応答せず、かつ、前記ユーザの機嫌が悪化した場合には、前記ユーザの機嫌が悪化していない場合と比較して、繰り返し発話を抑制する、
音声対話システム。
ユーザに話しかける発話文の出力の後に前記ユーザが応答せず、かつ、前記ユーザの機嫌が悪化した場合には、繰り返し発話を少なくとも一時的に停止する、
請求項１に記載の音声対話システム。
ユーザの機嫌が改善されたことが検出された後に、繰り返し発話を再開する、
請求項２に記載の音声対話システム。
ユーザに話しかける発話文の出力の後に所定期間の経過後も前記ユーザからの応答が得られない場合に、前記ユーザが前記発話文に応答しないと判断するものであり、
ユーザに話しかける発話文の出力の後に前記ユーザが応答せず、かつ、ユーザの機嫌が悪化した場合には、ユーザの機嫌が悪化していない場合と比較して、前記所定期間を長くする、
請求項１に記載の音声対話システム。
前記機嫌検出手段は、前記ユーザの顔を撮影した画像に基づいて検出される前記発話文の出力前後における前記ユーザの表情の変化から前記ユーザの機嫌の変化を検出する、
請求項１から４のいずれか１項に記載の音声対話システム。
前記機嫌検出手段は、前記音声入力手段から得られる前記ユーザからの音声も考慮して前記ユーザの機嫌の変化を検出する、
請求項５に記載の音声対話システム。
音声対話システムが行う音声対話方法であって、
第１の発話文を生成および出力する発話ステップと、
前記第１の発話文の出力の後に前記ユーザが応答しない場合に、当該第１の発話文と同じ内容であり、かつ、より強い口調の第２の発話文を生成および出力する繰り返し発話ステップと、
前記ユーザの機嫌を検出する機嫌検出ステップと、
を含み、
前記第１の発話文の出力の後に前記ユーザが応答せず、かつ、前記ユーザの機嫌が悪化した場合には、前記ユーザの機嫌が悪化していない場合と比較して、繰り返し発話を抑制する、
音声対話方法。
請求項７に記載の方法の各ステップをコンピュータに実行させるためのプログラム。