JP7373348B2

JP7373348B2 - 音声対話装置、音声対話用学習済みモデル、及び音声対話方法

Info

Publication number: JP7373348B2
Application number: JP2019183211A
Authority: JP
Inventors: 充伸神沼
Original assignee: Renault SA
Current assignee: Renault SA
Priority date: 2019-10-03
Filing date: 2019-10-03
Publication date: 2023-11-02
Anticipated expiration: 2039-10-03
Also published as: JP2021060464A

Description

本発明は、音声対話装置、音声対話用学習済みモデル、及び音声対話方法に関する。

近年、ユーザの発話に対して出力音声を発することにより、ユーザと対話する音声対話装置が提案されている（特許文献１参照）。この音声対話装置は、装置からの出力音声とユーザの発話との時間間隔などを検出する。検出された時間間隔が短かったり長かったりする場合、音声対話装置からの出力音声の出力タイミングや表現形式などの出力態様が調節される。

特開昭６０－２４７６９７号公報

上記の音声対話装置は、対話を円滑に行う観点から、出力音声の出力タイミング、及び丁寧語の削除やユーザの発話に了解する内容の追加などの形式的な表現の変更を行う。しかしながら、個々のユーザの認識能力などによっては、このような出力音声の出力タイミングの調節や形式的な表現の変更を行っただけでは、出力音声の趣旨（すなわち、ユーザに認識させるべき本質的な内容）を十分に認識できない場合がある。

このように、ユーザが出力音声の趣旨を適切に認識できない場合には、音声対話装置との間の円滑な対話が阻害され、ユーザに不便を感じさせることが想定される。

このような事情に鑑み、本発明の目的は、ユーザにとって使いやすい音声対話装置、音声対話用学習済みモデル、及び音声対話方法を提供することにある。

本発明のある態様によれば、ユーザに対する出力音声に変換可能な出力音声データを生成する生成部と、ユーザによる入力音声から変換された入力音声データを取得する取得部と、取得部において取得された入力音声データの履歴に基づいて、ユーザに出力音声の趣旨を認識させることを補助するための補助情報の追加、削除又は変更を行うことで該出力音声の出力態様を決定する態様決定部と、を備えるユーザと対話可能な音声対話装置が提供される。この音声対話装置の生成部は、態様決定部において決定された出力音声の態様に応じた出力音声データを生成する。

本発明の一つの態様によれば、ユーザにとって使いやすい音声対話装置、音声対話用学習済みモデル、及び音声対話方法を提供することができる。

図１は、本発明の第１実施形態にかかる音声対話装置の概略構成図である。図２は、本実施形態におけるユーザとカーナビとの対話を表す概念図である。図３は、本実施形態にかかる音声対話装置の機能ブロック図である。図４は、ユーザとカーナビとの対話を表す概念図であって、応答時間が正の値をとる場合を表す概念である。図５は、ユーザとカーナビとの対話を表す概念図であって、応答時間が負の値をとる場合を表す概念図である。図６は、応答時間と出力音声の出力態様との対応関係を示す図である。図７は、態様決定処理を説明するフローチャートである。図８は、本発明の第２実施形態にかかる音声対話装置の機能ブロック図である。図９は、本実施形態にかかる入力信号の概念図である。図１０は、本実施形態にかかるニューラルネットワークの入出力の関係を示す模式図である。図１１は、本発明の第３実施形態にかかる音声対話装置の機能ブロック図である。図１２は、本実施形態にかかる入力信号の概念図である。図１３は、本実施形態にかかるニューラルネットワークの入出力の関係を示す模式図である。図１４は、本発明の第４実施形態にかかる音声対話装置の機能ブロック図である。図１５は、本実施形態にかかる入力信号の概念図である。図１６は、本実施形態にかかるニューラルネットワークの入出力の関係を示す模式図である。

以下、図面を参照して各実施形態について説明する。

（第１実施形態）
［システム構成］
まず、図１は、本発明の第１実施形態にかかる音声対話装置１の概略構成図である。音声対話装置１は、ユーザＰ１と対話することが可能となるように構成された装置である。音声対話装置１は、カーナビ（カーナビゲーション装置）１０と、ネットワーク２０を介してカーナビ１０に接続されるサーバ３０とを備える。

カーナビ１０は、例えば、ハイブリッド自動車、又は電気自動車をはじめとする車両に搭載されている。カーナビ１０は、図示しないマイクとスピーカを備えている。カーナビ１０のマイクはユーザＰ１が発話すると入力音声ｉｎ１を収音し、カーナビ１０のスピーカは出力音声ｏｕｔ１を出力する。

サーバ３０は、カーナビ１０からネットワーク２０を介して取得した入力音声データに対して好適な出力音声データを生成する。サーバ３０は、出力音声データを生成し、ネットワーク２０を介して出力音声データをカーナビ１０に送信する。なお、このサーバ３０の機能については以下で詳述する。

このように、本実施形態の音声対話装置１は、ユーザＰ１の入力音声ｉｎ１に対して、好適な出力音声ｏｕｔ１を出力する。

［用語の定義］
ここで、本実施形態における音声対話装置１における用語について説明する。

まず、入力音声ｉｎ１は、ユーザＰ１の発話によってカーナビ１０に入力される音声である。この入力音声ｉｎ１は、実際には発話ごとに内容が異なるため、入力音声ｉｎｊ（ｊは自然数）と表記することにより音声を区別する。同様に、出力音声ｏｕｔ１も出力ごとに内容が異なるため、出力音声ｏｕｔｊと表記することにより音声を区別する。

また、入力音声ｉｎｊと出力音声ｏｕｔｊとによって構成される一連の対話を「対話フレーム」と称する。「対話フレーム」は、対話のタスクごと、又は対話の目的が達成されて対話が完結するごと、など任意の条件によって定められてもよい。ここにいうタスクとは、例えば「楽曲検索」、「目的地検索」、「電話」、又は「雑談」という対話の種別である。以下では、このような任意の条件によって定められる「対話フレーム」を、対話フレームＦｋ（ｋは自然数）と表記することにより区別する。なお、この変数ｋは、対話フレームＦｋが区分されるごとに増加してくものとして説明する。

なお、以下の説明においてユーザＰ１は特定の人物である。しかしながら、本実施形態のカーナビ１０は、ユーザＰ１とは異なるユーザＰｉと対話することも可能であるため、ユーザＰｉ（ｉは１以外の自然数）と表記する場合には、ユーザＰｉはユーザＰ１とは異なる人物を意味する。

また、本実施形態において、「音声」とは、ユーザＰ１が発声器官を通じて発する言語音そのもの、又はカーナビ１０がスピーカなどを通じて発する言語音そのものを指す。また、「音声の内容」とは、名詞、動詞、及び形容詞などの「音声」の意味内容を表す語を指す。そして、「音声データ」とは、「音声」がカーナビ１０、ネットワーク２０及びサーバ３０などの機器によって処理可能なデータ形式に変換された情報を指す。

［機能的構成］
続いて、図２及び図３を参照して本実施形態の音声対話装置１が備える機能的な構成について説明する。

図２は、本実施形態におけるユーザＰ１とカーナビ１０との対話を表す概念図である。図２の横軸は時間軸であり、この時間軸に沿った領域にはユーザＰ１の発話に基づく入力音声データＩＮ１，ＩＮ２が示されており、その下方にはカーナビ１０の出力音声データＯＵＴ１，ＯＵＴ２が示されている。

図３は本実施形態のサーバ３０の機能ブロック図である。図３に示されるように、サーバ３０は、取得部３１０と、態様決定部３２０と、生成部３３０と、記憶部４００とを備える。

取得部３１０は、ユーザＰ１の入力音声ｉｎ１に基づく入力音声データＩＮ１を取得する。取得部３１０は、カーナビ１０に入力された入力音声ｉｎ１がＡ／Ｄ変換された入力音声データＩＮ１を、ネットワーク２０を介して受信することによって取得する。

態様決定部３２０は、履歴取得部３２１と、応答時間検出部３２２と、決定部３２３とを備える。履歴取得部３２１は、対話フレームＦ１の履歴を取得する。応答時間検出部３２２は、出力音声データＯＵＴ１に対する入力音声データＩＮ２の応答時間Ｔ１を検出する。決定部３２３は、応答時間Ｔ１に応じて出力音声ｏｕｔ２の出力態様を決定する。これらの履歴取得部３２１、応答時間検出部３２２、及び決定部３２３の動作については以下で詳述する。

生成部３３０は、決定部３２３において決定された出力態様に応じて、入力音声データＩＮ１，ＩＮ２に対する応答としての出力音声データＯＵＴ１，ＯＵＴ２を生成する。この生成部３３０の動作についても以下で詳述する。

記憶部４００は、音声データ記憶部４１０と、履歴データ記憶部４２０と、応答時間記憶部４３０とを備える。音声データ記憶部４１０は、取得部３１０において取得された入力音声データＩＮ１，ＩＮ２と、生成部３３０において生成された出力音声データＯＵＴ１，ＯＵＴ２と、を記憶する。また、履歴データ記憶部４２０は、履歴取得部３２１において取得された入力音声データＩＮ１などの履歴を記憶する。そして、応答時間記憶部４３０は、応答時間検出部３２２において検出された応答時間Ｔ１を記憶する。

［動作］
次に、図２から図７を参照して、態様決定部３２０としての履歴取得部３２１、応答時間検出部３２２、及び決定部３２３の動作について詳細に説明する。

まず、図２を参照して、履歴取得部３２１の動作について説明する。上記のとおり、図２にはユーザＰ１とカーナビ１０との対話が時系列で示されている。

時刻ｔａにおいて、入力音声データＩＮ１の取得が開始され、この入力音声データＩＮ１の取得開始の時刻ｔａから時間ＷＩ１経過後の時刻ｔｂにおいて、入力音声データＩＮ１の取得が完了する。履歴取得部３２１は、取得開始の時刻ｔａと取得完了の時刻ｔｂとを取得して履歴データ記憶部４２０に記憶させる。

続いて、入力音声データＩＮ１の取得完了の時刻ｔｂから時間ｔ１経過後の時刻ｔｃにおいて、サーバ３０からの出力音声データＯＵＴ１の出力が開始される。そして、出力音声データＯＵＴ１の出力開始の時刻ｔｃから時間ＷＯ１経過後の時刻ｔｄにおいて、出力音声データＯＵＴ１の出力が完了する。履歴取得部３２１は、出力音声データＯＵＴ１の出力開始の時刻ｔｃと出力完了の時刻ｔｄとを取得して履歴データ記憶部４２０に記憶させる。

出力音声データＯＵＴ１の出力が完了した時刻ｔｄから応答時間Ｔ１経過後の時刻ｔｅにおいて、出力音声データＯＵＴ１に対する応答としての入力音声データＩＮ２の取得が開始される。

そして、時刻ｔｅから時間ＷＩ２経過後の時刻ｔｆにおいて、入力音声データＩＮ２の取得が完了する。履歴取得部３２１は、入力音声データＩＮ２の取得開始の時刻ｔｅと取得完了の時刻ｔｆとを取得して履歴データ記憶部４２０に記憶させる。

続いて、入力音声データＩＮ２の取得完了の時刻ｔｆから時間ｔ２経過後の時刻ｔｇから出力音声データＯＵＴ２の出力が開始され、時間ＷＯ２経過後の時刻ｔｈにおいて出力音声データＯＵＴ２の出力が完了する。履歴取得部３２１は、出力音声データＯＵＴ２の出力開始の時刻ｔｇと出力完了の時刻ｔｈとを取得して履歴データ記憶部４２０に記憶させる。

上記のように、入力音声データＩＮ１，ＩＮ２は取得にかかる時間幅として時間ＷＩ１，ＷＩ２を有しており、この時間ＷＩ１，ＷＩ２はユーザＰ１の入力音声ｉｎ１，ｉｎ２の情報量に応じて短くなったり長くなったりする。同様に、出力音声データＯＵＴ１，ＯＵＴ２もまた、出力にかかる時間幅として時間ＷＯ１，ＷＯ２を有しており、この時間ＷＯ１，ＷＯ２は出力音声ｏｕｔ１，ｏｕｔ２の情報量に応じて長短が変化する。

また、履歴取得部３２１は、入力音声データＩＮ１と出力音声データＯＵＴ１とを、所定の条件に基づいて対話フレームＦ１に区分する。ここで、所定の条件とは、例えば、出力音声データＯＵＴ２の後に長時間ユーザＰ１の入力音声データＩＮ３が取得されない場合とする。

この所定の条件によれば、入力音声データＩＮ１から対話が始まり、出力音声データＯＵＴ２の後に長時間ユーザＰ１の入力音声データＩＮ３が取得されない場合に、履歴取得部３２１は、出力音声データＯＵＴ２を対話フレームＦ１の終端として特定する。そして、履歴取得部３２１は、その次の入力音声データＩＮ３を次の対話フレームＦ２の始端として特定する。

履歴取得部３２１は、このように対話フレームＦ１の終端を特定した場合、一つの対話フレームＦ１が完結したものとみなして、最初の入力音声データＩＮ１から最後の出力音声データＯＵＴ２を一つの対話フレームＦ１として区分する。このように区分された対話フレームＦ１は、対話フレームＦ１ごとに識別番号が付与されて履歴データ記憶部４２０に記憶される。

そして、履歴取得部３２１は、入力音声データＩＮ１の取得開始の時刻ｔａから出力音声データＯＵＴ２の出力完了の時刻ｔｈまでの対話時間Ｄ１を、履歴データ記憶部４２０に記憶させる。また、履歴取得部３２１は、対話フレームＦ１の始端から終端までの対話時間Ｄ１も履歴データ記憶部４２０に記憶させる。

このように、履歴取得部３２１は、主に入力音声データＩＮ１，ＩＮ２の取得の開始／完了のタイミング、及び出力音声データＯＵＴ１，ＯＵＴ２の出力の開始／完了のタイミングをはじめとする種々の時刻情報の履歴を取得する。

続いて、応答時間検出部３２２の動作について詳細に説明する。

まず、図４は、ユーザＰ１とカーナビ１０との対話を表す概念図であって、図２を一般化した図である。具体的には、図４の変数ｊが「１」の場合が図２に相当する。また、図４は、応答時間Ｔｊが正の値をとる場合を示す図である。

応答時間検出部３２２は、履歴取得部３２１が取得した時刻ｔｄと時刻ｔｅとから応答時間Ｔｊを検出する。同様に、履歴取得部３２１が出力音声データＯＵＴｊ＋１の出力完了の時刻ｔｈと、入力音声データＩＮｊ＋２の取得開始の時刻ｔｉとを取得すると、応答時間検出部３２２は時刻ｔｈと時刻ｔｉとから応答時間Ｔｊ＋１を検出する。このように、応答時間検出部３２２は、対話フレームＦｋが完結するまでに生じる応答時間Ｔｊ～ＴＮ（Ｎはｊよりも大きい自然数）を検出する。なお、ここでは対話フレームＦｋの終端の出力音声ｏｕｔｊの変数ｊがＮになるものと仮定する。応答時間検出部３２２は、検出した応答時間Ｔｊ～ＴＮを応答時間記憶部４３０に記憶させる。

一方、図５は、図４と同様にユーザＰ１とカーナビ１０との対話を表す概念図であって、応答時間Ｔｊが負の値をとる場合を示す図である。図５に示されるように、応答時間Ｔｊが負になる場合とは、カーナビ１０の出力音声データＯＵＴｊの出力が完了する前にユーザＰ１の入力音声データＩＮｊ＋１の取得が開始される場合である。言い換えると、ユーザＰ１は、カーナビ１０の出力音声ｏｕｔｊの音声を聞き終わる前に、入力音声ｉｎｊ＋１の発話を開始している状態である。

続いて、決定部３２３の動作について詳細に説明する。

決定部３２３は、出力音声データＯＵＴ１，ＯＵＴ２の出力態様を決定する。ここにいう出力態様は、主として、出力音声ｏｕｔ１，ｏｕｔ２を構成する全内容を意味する。すなわち、全内容には、出力音声によりユーザＰ１に認識させることを意図する基本的な内容である出力音声の趣旨に加え、これを補足する補助情報を含む。特に、出力音声の趣旨は、出力音声の内、ユーザＰ１に認識させるべきそれ自体の意味、並びに当該意味を認識したユーザＰ１が次の発話内容及び次の行動を決定することが論理的に可能と考えられる最低限の事項（質問に対する一単語のの端的な回答など）を示す音声を意味する。また、補助情報とは、出力音声の内、特定のユーザＰ１が上記出力音声の趣旨を適切に認識する観点から定まる音声部分を意味する。特に、本実施形態の補助情報は、検索対象語、確認文、説明文、又は誘導文である。

そして、本実施形態の出力態様の決定は、上記補助情報の追加、削除又は変更を含む。より詳細には、本実施形態では、上記補助情報の追加、削除又は変更に、検索対象語の削除、確認文の削除、説明文の削除、又は誘導文の追加が含まれる。

また、本実施形態では、出力態様の決定において、上記補助情報の追加、削除又は変更に加え、出力音声データＯＵＴ１，ＯＵＴ２の出力の開始／完了のタイミング、又は出力時間幅の調節など種々の出力の状態の調節が含まれる。この出力態様は、決定部３２３が、以下で図７を用いて説明する態様決定処理を実行することによって決定される。

一例として、態様決定処理によって「検索対象語の削除」が行われる場合に、ユーザＰ１の入力音声ｉｎ１に検索対象語としての「飲食店」が含まれる場合に、出力音声ｏｕｔ２からこの「飲食店」に相当する音声が削除される。より詳細な「検索対象語の削除」の例としては、入力音声ｉｎ１に「飲食店」が含まれる場合に、基本の出力音声ｏｕｔ２が「飲食店は２０件見つかりました」と設定されている場合、当該出力音声ｏｕｔ２から「飲食店」及びこれに文法構造上形式的に付随する助詞及び接続詞など（本例では「は」）を削除して「２０件見つかりました」とすることが挙げられる。これ以外の出力態様については、以下で順次説明する。

図６は、応答時間検出部３２２が取得した応答時間Ｔ１～ＴＮに応じた音声出力ｏｕｔｊ＋１の出力態様を示す図である。それぞれの「出力態様」は、態様決定処理で設定される「フラグ値」と対応付けられている。例えば、上記した出力態様としての「検索対象語の削除」はフラグ値「１」に対応付けられている。

図７を参照して態様決定処理について説明する。図７は、決定部３２３が実行する態様決定処理を説明するフローチャートである。この態様決定処理において、ステップＳ７０１～Ｓ７０２では応答時間Ｔｊのばらつきを計算し、ステップＳ７０３～Ｓ７１０では応答時間Ｔｊのばらつきに基づいて出力音声ｏｕｔｊの音声の出力態様を決定する。

ステップＳ７０１において、決定部３２３は、応答時間記憶部４３０から応答時間Ｔｊの履歴として応答時間Ｔ１～ＴＮを取得する。好ましくは、決定部３２３は、複数の対話フレームＦ１～Ｆｋにおける各応答時間Ｔ１～ＴＮを全て取得する。

そして、ステップＳ７０２では、応答時間Ｔ１～ＴＮのばらつきが求められる。ここでは、ばらつきの指標として分散値Ｖを用いる。ステップＳ７０２において、決定部３２３は、取得した応答時間Ｔ１～ＴＮの分散値Ｖを計算する。

この分散値Ｖは、所定の条件、例えばタスクごとに仕分けられた対話フレームＦｋに存在する応答時間Ｔｊ（応答時間Ｔ１～ＴＮのうちのいくつか）に対して算出される。この場合、特定のタスクに対応する対話フレームＦｋが一つだけの場合には、分散値Ｖは一つの対話フレームＦｋにおける応答時間Ｔｊに対して算出される。また、特定のタスクに対応する対話フレームＦｋが複数の場合には、分散値Ｖは複数の対話フレームＦｋにおける応答時間Ｔｊに対して算出される。決定部３２３は、算出した分散値Ｖを履歴データ記憶部４２０に記憶させると、処理をステップＳ７０３に進める。

ステップＳ７０３において、決定部３２３は分散値Ｖが第１閾値Ｔｈｖを超えるか否か判定する。分散値Ｖが第１閾値Ｔｈｖより小さい場合、処理はステップＳ７０１に戻る。一方、分散値Ｖが第１閾値Ｔｈｖを超える場合、処理はステップＳ７０４に移行する。

ステップＳ７０４において、決定部３２３は、応答時間Ｔ１～ＴＮのうち絶対値が第２閾値Ｔｈｎを超える負の値が存在するか否か判定する。決定部３２３が応答時間Ｔ１～ＴＮのうち絶対値が第２閾値Ｔｈｎを超える負の値が存在すると判定した場合、処理はステップＳ７０５に移行する。

ステップＳ７０５において決定部３２３は、フラグ値を「３」に設定する。この処理は、図６の表における設定Ｂに相当する。決定部３２３は、ステップＳ７０５の処理が完了すると、態様決定処理を抜ける。

一方、ステップＳ７０４において、決定部３２３が応答時間Ｔ１～ＴＮに絶対値が第２閾値Ｔｈｎを超える負の値が存在しないと判定した場合、処理はステップＳ７０６に移行する。

ステップＳ７０６において、決定部３２３は、応答時間Ｔ１～ＴＮに第３閾値Ｔｈｐを超える正の値が存在するか否かを判定する。決定部３２３が応答時間Ｔ１～ＴＮに第３閾値Ｔｈｐを超える正の値が存在すると判定した場合、処理はステップＳ７０７に移行する。

ステップＳ７０７において、決定部３２３は、フラグ値を「４」及び「５」に設定する。この処理は図６の表における設定Ｃに相当する。決定部３２３は、ステップＳ７０７の処理が完了すると、態様決定処理を抜ける。

一方、ステップＳ７０６において、決定部３２３が応答時間Ｔ１～ＴＮに第３閾値Ｔｈｐを超える正の値が存在しないと判定した場合、処理はステップＳ７０８に移行する。

ステップＳ７０８において、決定部３２３は、履歴データ記憶部４２０から読み出した対話時間Ｄ１～Ｄｋが第４閾値Ｔｈｄを超えるか否かを判定する。決定部３２３が、対話時間Ｄｋが第４閾値Ｔｈｄを超えると判定した場合、処理はステップＳ７０９に移行する。

ステップＳ７０９において、決定部３２３は、フラグ値を「３」、「５」及び「６」に設定する。この処理は図６の表における設定Ｄに相当する。決定部３２３は、ステップＳ７０９の処理が完了すると、態様決定処理を抜ける。

一方、ステップＳ７０８において、決定部３２３が対話時間Ｄ１～Ｄｋに第４閾値Ｔｈｄを超える値が存在しないと判定した場合、処理はステップＳ７１０に移行する。ステップＳ７１０において、決定部３２３は、フラグ値を「１」、「２」及び「６」に設定する。この処理は図６の表における設定Ａに相当する。決定部３２３は、ステップＳ７１０の処理が完了すると、態様決定処理を抜ける。

このように、決定部３２３は、応答時間Ｔ１～ＴＮのばらつきとしての分散値Ｖに基づいて、次の出力音声ｏｕｔｊ＋１の出力態様を決定する。

次に、図６を参照して生成部３３０の動作について説明する。生成部３３０は、次の第一から第四の例として示すように、決定部３２３において決定された出力態様に応じた出力音声データＯＵＴｊ＋１を生成する。

第一の例として、態様決定処理においてフラグ値「３」が設定された場合、すなわちステップＳ７０５において決定された出力態様としての設定Ｂに応じて、生成部３３０は、「確認文の削除」が施された次の出力音声ｏｕｔｊ＋１に基づく出力音声データＯＵＴｊ＋１を生成する。

フラグ値「３」が設定される場合とは、ステップＳ７０４において説明したように、応答時間Ｔ１～ＴＮに絶対値が第２閾値Ｔｈｎを超える負の値を有する応答時間が含まれる場合である。すなわち、図５に示されるように、カーナビ１０の出力音声ｏｕｔｊの出力が完了する前に、ユーザＰ１が発話（入力音声ｉｎｊ＋１）を開始することで、互いの音声が重複している状態である。このように互いの音声が重複しているとき、ユーザＰ１は、焦っていたり、苛立ちを感じていたりして、カーナビ１０に対する使いづらさを感じていることが推定される。

これに対して、本実施形態では、上述の「確認文の削除」が施された出力音声ｏｕｔｊ＋１が出力されることで、ユーザＰ１の焦りや苛立ちが抑制され、ユーザＰ１のカーナビ１０に対する使いづらさが解消される。

なお、本実施形態の「確認文」は、出力音声ｏｕｔｊ＋１の内、ユーザＰ１の入力音声ｉｎｊ＋１の少なくとも一部を復唱する部分を意味する。「確認文」の具体的な音声の一例としては、目的地を検索する場面において、ユーザＰ１の入力音声ｉｎｊ＋１が「Ａ店」である場合に、入力内容の確認を目的として「Ａ店を目的地に設定しますか」と出力するものが挙げられる。そして、「確認文の削除」とは、出力音声ｏｕｔｊ＋１からこのような確認のための復唱部分（補助情報）及びこれに文法構造上形式的に付随する助詞及び接続詞などを削除する処理を意味する。

第二の例として、態様決定処理においてフラグ値「４」及び「５」が設定された場合、すなわちステップＳ７０７において決定された出力態様としての設定Ｃに応じて、生成部３３０は、「説明文の追加」及び「誘導文の追加」を施した出力音声データＯＵＴｊ＋１を生成する。

フラグ値「４」及び「５」が設定される場合とは、ステップＳ７０６において説明したように、応答時間Ｔ１～ＴＮに第３閾値Ｔｈｐを超える正の値を有する応答時間が含まれる場合である。すなわち、図４に示されるように、カーナビ１０の出力音声ｏｕｔｊの出力が完了した後、ユーザＰ１が入力音声ｉｎｊ＋１を長時間発話しないため、互いの音声の時間間隔が大きく開いている状態である。このように互いの音声の時間間隔が大きく開いているとき、ユーザＰ１は、カーナビ１０の使い方が解らなかったり、出力音声ｏｕｔｊを聞き取りづらかったりして、ユーザＰ１は、カーナビ１０に対する使いづらさを感じていることが推定される。

これに対して、本実施形態では、上述の「説明文の追加」及び「誘導文の追加」が施された出力音声ｏｕｔｊ＋１が出力されることで、ユーザＰ１の出力音声ｏｕｔｊ＋１の趣旨に対する理解を補助して、次の発話（入力音声ｉｎｊ＋２）を促すこととなる。すなわち、カーナビ１０におけるユーザＰ１にとっての利便性をより向上させることができる。

例えば、「説明文」の具体的な音声の一例としては、店舗の検索条件の絞り込みを行う場合に、「安い店舗、近い店舗などを検索できます」又は「店舗を番号で選択できます」といったカーナビ１０の使用方法を説明する音声が挙げられる。

さらに、「誘導文」は、出力音声ｏｕｔｊ＋１の内、ユーザＰ１にカーナビ１０の操作を促す音声部分である。なお、「誘導文の追加」の具体的な音声の一例としては、ユーザＰ１の発話を促すために「検索条件を入力して下さい」といった音声を追加することが挙げられる。

第三の例として、態様決定処理において、フラグ値「３」、「５」及び「６」が設定された場合、すなわちステップＳ７０９において決定された出力態様としての設定Ｄに応じて、生成部３３０は、「確認文の削除」、「誘導文の追加」及び「話速の向上」を施した出力音声データＯＵＴｊ＋１を生成する。

フラグ値「３」、「５」及び「６」が設定される場合とは、ステップＳ７０９において説明したように、対話時間Ｄ１～Ｄｋが第４閾値Ｔｈｄを超える値を有する場合である。すなわち、カーナビ１０とユーザＰ１との対話が長引いている状態である。このように対話が長引いているとき、ユーザＰ１は、カーナビ１０の出力音声ｏｕｔｊが冗長と感じているか、あるいは出力音声ｏｕｔｊに対してユーザＰ１が発話内容に迷っているかなど、ユーザＰ１は、カーナビ１０に対する使いづらさを感じていることが推定される。

このため、生成部３３０は、出力音声データＯＵＴｊ＋１の音声に対して「確認文の削除」、「誘導文の追加」及び「話速の向上」を施す。これにより、ユーザＰ１の入力音声ｉｎｊ＋２の発話を補助する情報を追加するとともに、出力音声ｏｕｔｊ＋１の音声や話速を調節する。このように、生成部３３０は、ユーザＰ１が、出力音声ｏｕｔｊ＋１に対してスムーズに入力音声ｉｎｊ＋２を発話できるような出力音声データＯＵＴｊ＋１を生成する。これにより、ユーザＰ１のカーナビ１０に対する使いづらさが解消される。

なお、「話速の向上」とは、出力音声ｏｕｔｊ＋１の発話スピードをそれまでの出力音声ｏｕｔｊに対して相対的に速くすること、例えば出力音声ｏｕｔｊ＋１の文節間の時間間隔を短くすること、又は単語の発音を短くすることなどを指す。この「話速の向上」によって、出力音声ｏｕｔｊ＋1の出力に要する時間は短くなる。

第四の例として、態様決定処理においてフラグ値「１」、「２」及び「６」が設定された場合、すなわちステップＳ７１０において決定された出力態様としての設定Ａに応じて、生成部３３０は、「検索対象語の削除」、「尊敬語／謙譲語／丁寧語／助詞の削除」、及び「話速の向上」が施された出力音声データＯＵＴｊ＋１を生成する。

フラグ値「１」、「２」及び「６」が設定される場合とは、ステップＳ７１０において説明したように、上記第一から第三の例に該当しない場合である。このように、第一から第三の例に該当しない場合であっても、応答時間Ｔｊのばらつきが大きいとき、ユーザＰ１は、何らかの理由でカーナビ１０と円滑に対話できていないため、カーナビ１０に対する使いづらさを感じていることが推定される。

これに対して、本実施形態では、上述の「検索対象語の削除」、「尊敬語／謙譲語／丁寧語／助詞の削除」、及び「話速の向上」が施されたより簡潔な出力音声ｏｕｔｊ＋１が出力されることで、ユーザＰ１とカーナビ１０との対話がより円滑化される。結果として、ユーザＰ１のカーナビ１０に対する使いづらさを解消する。

なお、「尊敬語／謙譲語／丁寧語／助詞の削除」の具体的な一例としては、「２０件見つかりました。絞り込み条件をどうぞ」を「２０件。絞り込み可能です」としたり、「Ａ店を目的地に設定します。運転にご注意下さい」を「Ａ店を設定」としたりすることを指す。つまり、「尊敬語／謙譲語／丁寧語／助詞の削除」とは、例えば、係り助詞のような構文上必要とされる語を残しつつ、尊敬語、謙譲語、丁寧語、及び助詞を削除することを意味してもよい。

このように、態様決定部３２０は、次の出力音声ｏｕｔｊ＋１に対して、特定のユーザＰｉに出力音声ｏｕｔｊ＋１の趣旨を認識させることを補助するための補助情報を追加又は削除する出力態様を決定する。

また、ここではユーザＰ１について説明したが、他のユーザＰｉに適用する場合には、入力音声データＩＮｊ及び出力音声データＯＵＴｊは、ユーザＰｉごとに所定の識別番号を付して記憶部４００に記憶されるものとする。この場合、態様決定処理もユーザＰｉごとに行われるため、ユーザＰｉに応じた出力音声ｏｕｔｊの出力態様が決定される。

すなわち、本実施形態の音声対話装置１は、ユーザＰｉそれぞれの発話に適した出力態様を決定する。したがって、本実施形態によれば、ユーザＰｉ個々人にとって使いやすい音声対話装置１を提供することができる。なお、ひとつの対話フレームＦｋが完結するまでの間に、異なるユーザＰｉの発話が混ざることもあり得る。このような場合、履歴取得部３２１は、異なるユーザＰｉの発話が検出された時点で対話フレームＦｋを区切ってもよい。

また、上記のような異なるユーザＰｉの検出は、態様決定部３２０が入力音声データＩＮｊの周波数を解析することによって実行されてもよい。なお、入力音声データＩＮｊの周波数の解析には周知の技術が適用される。

なお、図７に示される態様決定処理では、ステップＳ７０８の処理は、ステップＳ７０４及びステップＳ７０６に該当しない場合に確認的に行われている。しかしながら、ステップＳ７０８の処理は、ステップＳ７０３の処理の直後に行われてもよい。すなわち、ステップＳ７０８の判定事項は、ステップＳ７０４及びステップＳ７０６の判定事項とは排反事象であるものとして扱われてもよい。

また、本実施形態では、態様決定部３２０は、履歴データ記憶部４２０から対話の履歴を読み出している。しかしながら、この履歴として履歴データ記憶部４２０に現在の対話フレームＦ１しか記憶されていない場合であっても、態様決定部３２０は、この対話フレームＦ１を履歴として読み出して態様決定処理を実行する。すなわち、本実施形態は、蓄積された対話フレームＦ１～Ｆｋではなく、現在行われている対話フレームＦｋだけにも適用され得る。

また、上記実施形態では、ばらつきの計算に分散値Ｖを用いた。しかしながら、ばらつきの計算には、分散以外の標準偏差など、平均からのずれ度合いを表す任意の統計量を用いてもよい。また、この統計量を求めるために用いる確率分布として、度数分布、正規分布、又はカイ自乗分布その他の種々の手法が用いられてもよい。

また、上記の態様決定処理において、対話の種別としてのタスクごとに対話フレームＦｋのばらつきが計算されることが望ましい。この場合、取得部３１０は、対話フレームＦｋをタスクごとに区分して、音声データ記憶部４１０にタスクごとに記憶させる。そして、態様決定部３２０は、タスクごとに区分された対話フレームＦｋをタスクごとに音声データ記憶部４１０から読み出し、タスクごとの対話フレームＦｋに対して態様決定処理を実行する。これにより、それぞれのタスクに適した出力態様を決定することができる。なお、タスクの判定は、態様決定部３２０が入力音声データＩＮｊに含まれる用語を解析することによって行われてもよい。

また、図３に示されるサーバ３０の機能は、カーナビ１０に備えられていてもよい。この場合、出力音声ｏｕｔｊ＋１の出力態様はカーナビ１０において決定される。すなわち、上記の音声対話装置１の機能は、カーナビ１０において完結するような実施形態とすることもできる。

上記の実施形態による作用効果を以下に説明する。

本実施形態の音声対話装置１は、ユーザＰ１と対話可能な音声対話装置１である。音声対話装置１は、ユーザＰ１に対する出力音声に変換可能な出力音声データＯＵＴｊを生成する生成部３３０と、ユーザＰ１による入力音声ｉｎｊから変換された入力音声データＩＮｊを取得する取得部３１０と、取得部３１０において取得された入力音声データＩＮｊの履歴に基づいて、特定のユーザＰ１に出力音声ｏｕｔｊの趣旨を認識させることを補助する補助情報の追加、削除又は変更（検索対象語の削除、確認文の削除、説明文の削除、又は誘導文の追加）を行うことで出力音声ｏｕｔｊ＋１の出力態様を決定する態様決定部３２０と、を備える。生成部３３０は、態様決定部３２０において決定された出力音声ｏｕｔｊの態様に応じた出力音声データＯＵＴｊを生成する。

このように、本実施形態によれば、特定のユーザＰ１にとって出力音声ｏｕｔｊの趣旨を認識する上で、過剰な補助情報を削除したり、或いは不足している補助情報を補足したりするような出力態様を決定するため、特定のユーザＰ１にとって使いやすい音声対話装置１を提供することができる。また、当然ながら、変数ｉが１以外の自然数の値をとる場合には、個々のユーザＰｉにとって適した出力態様が決定されるため、個々のユーザＰｉに応じて使いやすい音声対話装置１を提供することができる。

また、本実施形態の態様決定部３２０は、入力音声データＩＮｊ及び出力音声データＯＵＴｊの履歴から、出力音声ｏｕｔｊに対する応答としての入力音声ｉｎｊ＋１の応答時間Ｔｊを検出して応答時間Ｔｊのばらつきを演算し、少なくとも、ばらつきが予め設定された第１閾値Ｔｈｖよりも大きいか否かに基づいて、次の出力音声ＯＵＴｊ＋１の出力態様を決定する態様決定処理を実行する。

このように、本実施形態では、応答時間Ｔｊのばらつきから特定のユーザＰ１の音声対話装置１の使いづらさを推定する。より具体的には、応答時間Ｔｊが短かったり長かったりする場合、ユーザＰ１は音声対話装置１の出力音声ｏｕｔｊ＋１の趣旨を適切に認識できておらず、円滑な対話が妨げられる可能性があると推定する。これにより、上述した出力音声ｏｕｔｊ＋１に対する補助情報の追加、削除又は変更を行うべき状況（ユーザＰ１が出力音声ｏｕｔｊ＋１の趣旨を適切に認識できない状況）をより適切に特定することができる。これにより、ユーザＰ１に出力音声ｏｕｔｊ＋１の趣旨をより確実に理解させる観点からより好ましい出力態様の決定に資することとなり、ユーザＰ１にとってさらに使いやすい音声対話装置１を提供することができる。

また、本実施形態の態様決定部３２０は、応答時間Ｔｊのばらつきが第１閾値Ｔｈｖより大きい場合に、出力音声ｏｕｔｊ＋１から入力音声ｉｎｊ＋１に含まれる検索対象語に相当する音声を削除する。

このように、応答時間Ｔｊのばらつきが第１閾値Ｔｈｖより大きい場合には、出力音声ｏｕｔ１～ｏｕｔｊの音声が冗長であるおそれがあるため、次の出力音声ｏｕｔｊ＋１からユーザＰ１が発話した検索対象語を削除する。これにより、次の出力音声ｏｕｔｊ＋１がユーザＰ１にとって応答しやすい音声となることが期待される。これにより、ユーザＰ１にとってより使いやすい音声対話装置１を提供することができる。

また、本実施形態の態様決定部３２０は、応答時間Ｔｊのばらつきが第１閾値Ｔｈｖより大きく、かつ、応答時間Ｔｊの絶対値が第２閾値Ｔｈｎを超える負の値であるとき、次の出力音声ｏｕｔｊ＋１から入力音声ｉｎｊ＋１の内容を確認するための音声を削除する出力態様決定処理を実行する。

図５を用いて説明したように、応答時間Ｔｊのばらつきが第１閾値Ｔｈｖより大きい場合であって、さらに応答時間Ｔｊの絶対値が第２閾値Ｔｈｎを超える負の値である場合、出力音声ｏｕｔ１～ｏｕｔｊ＋１の音声が冗長であるおそれがあるため、次の出力音声ｏｕｔｊ＋１をより端的な出力態様にする。次の入力音声ｉｎｊ＋２の内容確認を削除することによって、ユーザＰ１が出力音声ｏｕｔｊ＋１の意味を理解できなくなる可能性は低いと想定される。またユーザＰ１にとって応答しやすい音声となることが期待される。これにより、ユーザＰ１にとって使いやすい音声対話装置１を提供することができる。

また、本実施形態の態様決定部３２０は、応答時間Ｔｊのばらつきが第１閾値Ｔｈｖより大きく、かつ、応答時間Ｔｊが予め設定された第３閾値Ｔｈｐより大きい場合に、当該音声対話装置１の使用方法の提示を次の出力音声ｏｕｔｊ＋１に含める態様決定処理を実行する。

応答時間Ｔｊのばらつきが第１閾値Ｔｈｖより大きい場合であって、さらに応答時間Ｔｊが予め設定された第３閾値Ｔｈｐより大きい場合とは、ユーザＰ１が応答するまでに時間がかかっている場合である。このような場合、ユーザＰ１がカーナビ１０に対する使用方法として、上記したように、音声対話装置１がどのような機能を有しているのかなどの使用方法を提示する。これにより、ユーザＰ１は、次の出力音声ｏｕｔｊ＋１に含まれる使用方法を聞いて、それ以降の発話をスムーズに行うことができることが期待される。これにより、ユーザＰ１にとって使いやすい音声対話装置１を提供することができる。

また、本実施形態の態様決定部３２０は、応答時間Ｔｊのばらつきが第１閾値Ｔｈｖより大きく、かつ、応答時間Ｔｊが予め設定された第３閾値Ｔｈｐより大きい場合に、ユーザＰ１に音声対話装置１の使用を促す誘導文を次の出力音声に含める。

このように、ユーザＰ１は、応答時間Ｔｊのばらつきが第１閾値Ｔｈｖより大きい場合であって、さらに応答時間Ｔｊが所定の時間よりも長い時間発話しない場合、例えば、ユーザＰ１は何を発話して良いかわからない可能性がある。このため、態様決定部３２０は、出力音声ｏｕｔｊ＋１の内容に音声対話装置１の使用を促す音声を含めることによってユーザＰ１の発話を促進する。これにより、ユーザＰ１にとって使いやすい音声対話装置１を提供することができる。

また、本実施形態の態様決定部３２０は、応答時間Ｔｊのばらつきが第１閾値Ｔｈｖより大きく、かつ、当該音声対話装置１とユーザＰ１との音声対話の対話時間（継続時間）Ｄｋが予め設定された第４閾値Ｔｈｄより長くなった場合に、次の出力音声ｏｕｔｊ＋１から入力音声ｉｎｊ＋１の内容を確認するための音声を削除する。

このように、応答時間Ｔｊのばらつきが第１閾値Ｔｈｖより大きい場合であって、さらにカーナビ１０とユーザＰ１との対話が長引いている場合、出力音声ｏｕｔ１～ｏｕｔｊの内容が冗長であるおそれがある。このため、次の出力音声ｏｕｔｊ＋１からユーザＰ１の発話内容の確認を削除することによって、対話の対話時間Ｄｋが短縮される。これにより、ユーザＰ１にとって使いやすい音声対話装置１を提供することができる。

また、本実施形態の態様決定部３２０は、応答時間Ｔｊのばらつきが第１閾値Ｔｈｖより大きく、かつ、当該音声対話装置１とユーザＰ１との音声対話の対話時間（継続時間）Ｄｋが予め設定された第４閾値Ｔｈｄより長くなった場合に、ユーザＰ１の発話を促す誘導文を次の出力音声ｏｕｔｊ＋１に含める態様決定処理を実行する。

このように、応答時間Ｔｊのばらつきが第１閾値Ｔｈｖより大きい場合であって、さらに音声対話の対話時間Ｄｋが長くなっている場合、上記同様に、出力音声ｏｕｔ１～ｏｕｔｊ＋１の内容が冗長であるおそれがある。このため、態様決定部３２０は、ユーザＰ１の発話を促す内容を次の出力音声ｏｕｔｊ＋１に含めることによって、ユーザＰ１にとって使いやすい音声対話装置１を提供することができる。

また、本実施形態の態様決定部３２０は、応答時間Ｔｊのばらつきが第１閾値Ｔｈｖより大きい場合に、出力音声ｏｕｔｊ＋1の趣旨を認識させることを補助する補助情報の追加又は削除に加えて、謙譲語、尊敬語、丁寧語、及び助詞の少なくとも何れかを削除する。

同様に、応答時間Ｔｊのばらつきが第１閾値Ｔｈｖより大きい場合には、ユーザＰ１にとって、出力音声ｏｕｔ１～ｏｕｔｊの音声が冗長であるおそれがあるため、次の出力音声ｏｕｔｊ＋１をより端的な出力態様にする。謙譲語、尊敬語、丁寧語、及び助詞の少なくとも何れかが削除されたとしても、ユーザＰ１に認識させるための出力音声ｏｕｔｊ＋１の趣旨は保持されるので、ユーザＰ１が出力音声ｏｕｔｊ＋１の意味を理解できなくなる可能性は低いと想定される。したがって、出力音声ｏｕｔｊ＋１からこれらの語を削除することによって、ユーザＰ１にとって応答しやすい音声となることが期待される。これにより、ユーザＰ１にとって使いやすい音声対話装置１を提供することができる。

また、本実施形態の態様決定部３２０は、ばらつきが第１閾値Ｔｈｖより大きい場合に、出力音声ｏｕｔｊ＋1の趣旨を認識させることを補助する補助情報の追加又は削除に加えて、話速を向上させる態様決定処理を実行する。これにより、少なくとも応答時間Ｔ１～Ｔｊのうち、絶対値が第２閾値Ｔｈｎを超えないが負の値をとる出力音声ｏｕｔｊ＋１を出力することが避けられる。これにより、ユーザＰ１にとって使いやすい音声対話装置１を提供することができる。

また、本実施形態によれば、ユーザに対する出力音声に変換可能な出力音声データを生成する生成ステップ（生成部）３３０と、ユーザによる入力音声から変換された入力音声データを取得する取得ステップ（取得部）３１０と、取得ステップにおいて取得された入力音声データの履歴に基づいて、ユーザＰ１に出力音声ｏｕｔｊ＋1の趣旨を認識させることを補助する補助情報を追加又は削除して出力態様を決定する態様決定ステップ（態様決定部）３２０と、を備え、生成ステップにおいて、態様決定ステップにおいて決定された出力音声の態様に応じた出力音声データを生成する音声対話方法を提供することができる。

（第２実施形態）
次に、図８から図１０を参照して第２実施形態の音声対話装置１について説明する。

図８は、第２実施形態のサーバ３０の機能ブロック図である。図８に示されるように、第２実施形態では、第１実施形態の態様決定部３２０が本実施形態の態様決定部５００に置き換えられている。態様決定部５００は、第２入力信号生成部５１０と、第２決定部５２０と、を備える。

第２入力信号生成部５１０は、後述の第２決定部５２０の入力として用いられる入力信号Ｉｊを生成する。この入力信号Ｉｊは、入力音声ｉｎｊ及び出力音声ｏｕｔｊの波形をデジタル処理した情報を含む。第２入力信号生成部５１０は、音声データ記憶部４１０から入力音声ｉｎ１～ｉｎｊ及び出力音声ｏｕｔ１～ｏｕｔｊを読み出す。そして、第２入力信号生成部５１０は、読み出した入力音声ｉｎ１～ｉｎｊ及び出力音声ｏｕｔ１～ｏｕｔｊに対して、変数ｊの値ごとに入力音声ｉｎｊ及び出力音声ｏｕｔｊを、以下で詳述するデータ形式の入力信号Ｉｊに変換する。

第２決定部５２０は、出力音声ｏｕｔｊ＋１の出力態様を決定する。第２決定部５２０は、機械学習が可能な人工知能モデルＭ１を有している。本実施形態では、人工知能モデルＭ１の一例としてニューラルネットワークから構成されるものとして説明する。このニューラルネットワークは、入力層と出力層とを備えており、入力層に対して以下に詳述する学習データが入力されることによって機械学習を行う。

第２決定部５２０は、以下で説明するように、学習データを用いて機械学習を行うことにより、学習済みモデルｍ１を生成する。そして、第２決定部５２０は、学習済みモデルｍ１によって、出力音声ｏｕｔｊ＋１の出力態様を決定する。

［学習済みモデルの生成］
続いて、本実施形態の学習済みモデルｍ１の生成方法について説明する。学習済みモデルｍ１は、サンプルとしての対話フレームＦｓに応じた入力信号Ｉｊに対する出力信号Ｏｊのビットフラグパターンを学習することによって生成される。

本実施形態の学習用のビットフラグパターンは、出力音声ｏｕｔｊ＋1の出力態様を表す。また、サンプルとしての対話フレームＦｓとしては、予め記憶された音声対話データ、例えばコーパスのような、対話例を大量に集積したサンプルが用いられる。本実施形態のビットフラグパターンは、対話フレームＦｓで規定される対話を円滑化することを目的として、人手で出力層に「０」又は「１」を割り振ることによって決定される。

この人手によるビットフラグパターンの設定における目的（対話の円滑化）を判断する基準の一例として、第１実施形態で説明した分散値Ｖ（ばらつき）に基づいた出力音声ｏｕｔｊ＋１の出力態様の決定のロジックを採用しても良い。すなわち、入力信号Ｉｊに図６に示す各フラグ値（「０」又は「１」）の割り当てを適用して得られたフラグ値の組み合わせを学習用のビットフラグパターンとしても良い。

ここで、入力層にサンプルとなる対話フレームＦｓが入力された場合に、出力層の六つのノードに対して「００１０００」のように設定することを例示して説明する。ビットフラグパターンとして出力層の六つのノードのそれぞれに「００１０００」が設定される場合とは、第１実施形態の図７で説明したステップＳ７０５の処理が行われることに等しく、出力音声ｏｕｔｊ＋１の出力態様としてフラグ値「３」の処理を行うことが決定される場合である。

例えば、人工知能モデルＭ１に対して、サンプルとなる対話フレームＦｓの分散値Ｖ及び応答時間ＴｊがステップＳ７０５に至る条件を満たすような入力音声ｉｎｊに対して、フラグ値「３」に相当する「確認文の削除」の処理を施す出力音声ｏｕｔｊ＋１のビットフラグパターンを学習させる。

上記のビットフラグパターン「００１０００」は一例であり、その他にも、人工知能モデルＭ１に対して、第１実施形態のステップＳ７０７に対応するビットフラグパターン、ステップＳ７０９に対応するビットフラグパターン、及びステップＳ７１０に対応するビットフラグパターンがそれぞれ設定される。

あるいは、段階的にビットフラグパターンの値を変更するためにスコアを出力する場合には、一段階に対して一つのノードを割り振るため、図６に示される六種類の出力態様に対応する六つのノードを超える数のノードが用意されることになる。

このように、サンプルとしての対話フレームＦｓに対するビットフラグパターンの設定を繰り返すことによって、学習済みモデルｍ１が生成される。

なお、このビットフラグパターンは図６に示される出力態様に対応するパターンに限られず、六種類の出力態様以外の出力態様に対しては、他のビットフラグパターンが設定されることになる。また、学習のためのビットフラグパターンの設定は、手動ではなく自動で設定される構成としてもよい。

ここで、図９を参照して入力信号Ｉｊについて説明する。図９は、理解を容易にするために、入力音声データＩＮｊと出力音声データＯＵＴｊのうち変数ｊの値が「１」から「３」の場合に生成される入力信号Ｉｊを示す概念図である。

図９の下方に示される行列は、入力音声データＩＮ１～ＩＮ３及び出力音声データＯＵＴ１～ＯＵＴ３に基づいて第２入力信号生成部５１０によって生成される入力信号Ｉ１である。また、行列の各要素の上付きの数字「１」は、対話フレームＦ１の番号「１」と関連付けられている。すなわち、「Ｍ」番目の対話フレームＦｋは対話フレームＦＭであり、この場合の行列の各要素の上付きの数字は「１」ではなく「Ｍ」となる。

また、各要素の左側の下付き文字は発話者番号であって、「１」はユーザＰ１を意味し、また「２」はカーナビ１０を意味している。そして、各要素の右側の下付き文字は離散音声信号の位置を示し、各要素の上付き文字はタスク番号を示している。

このように、入力信号Ｉｊは、発話者番号、離散音声信号、及びタスク番号によって特徴づけられる。入力信号Ｉｊは、入力音声ｉｎ１～ｉｎｊと、出力音声ｏｕｔ１～ｏｕｔｊと、出力音声ｏｕｔ１～ｏｕｔｊの出力態様と、を示す情報を含む信号に相当する。

なお、対話フレームＦ１から対話フレームＦＭまでの入力信号Ｉｊは、図１０に示されるとおりである。図１０は、第２入力信号生成部５１０によって検出された対話フレームＦ１における時刻ｔ１～ｔＮから、対話フレームＦＭにおける時刻ｔ１～時刻ｔＮまでの間に生成される入力信号Ｉｊの一例を示す図である。すなわち、対話フレームＦｋの変数ｋの値が増加するにつれて行列の列の数が増加する。このように、図１０の行列は、「２」行「Ｍ×Ｎ」列の形式となる。

なお、全ての対話フレームＦｋの要素がＭ×Ｎ列まであるとは限らない。したがって、時刻ｔＮまで値が存在しない対話フレームＦｋにおいては、存在しない列に対応する要素の値は「０」に設定されてもよい。

［第２実施形態の出力態様の決定］
次に、上記の学習済みモデルｍ１を用いた出力音声ｏｕｔｊ＋１の出力態様の決定について説明する。本実施形態の学習済みモデルｍ１の入力層には、ユーザＰ１の発話に基づく入力音声ｉｎｊ及びカーナビ１０からの出力音声ｏｕｔｊから生成される入力信号Ｉｊが入力される。

このように、本実施形態では、学習済みモデルｍ１の入力層に対して、入力音声ｉｎｊと、出力音声ｏｕｔｊと、出力音声ｏｕｔｊの出力態様と、を示す情報を含む音声情報の履歴としての入力信号Ｉｊを入力することによって、カーナビ１０からの出力音声ｏｕｔｊ＋１の出力態様を決定する。

言い換えると、本実施形態の学習済みモデルｍ１の入力層に対して、入力音声ｉｎ１～ｉｎｊと出力音声ｏｕｔ１～ｏｕｔｊとの情報を含む入力信号Ｉｊが入力されると、ニューラルネットワークの出力層から、出力音声ｏｕｔｊ＋１の出力態様を示す出力信号Ｏｊを出力するように、コンピュータを機能させることができる。

［第２実施形態の入出力の相関関係］
また、次に示すように、本実施形態の学習済みモデルｍ１では、入力信号Ｉｊと出力信号Ｏｊとの間に一定の関係性があるものと推認する。

カーナビ１０からの出力音声ｏｕｔｊに含まれる情報量が、特定のユーザＰ１にとってその趣旨を認識する観点から不足していたり過剰であったりして、応答しづらい出力態様である場合には、ユーザＰ１とカーナビ１０との対話が円滑に行われないことが想定される。また、逆に、出力音声ｏｕｔｊが適切な情報量となるような出力態様に調整されている場合には、ユーザＰ１とカーナビ１０との対話が円滑に行われることが想定される。

具体的には、出力音声ｏｕｔｊの出力態様として、出力音声ｏｕｔｊが言葉足らずであるか、又は出力音声ｏｕｔｊが冗長であるか、など出力音声ｏｕｔｊの出力態様によって、ユーザＰ１が出力音声を速やかに認識し、その応答として次の入力音声ｉｎｊ＋１を円滑に発話できるか否かが決定する可能性が高いことが推認される。すなわち、入力音声ｉｎｊの情報量と出力音声ｏｕｔｊの出力態様とには一定の関係性があることが推認される。

そこで、本実施形態では、入力信号Ｉｊから、ユーザＰ１とカーナビ１０との対話が円滑に行われているか否かを推定し、相対的に対話が円滑に行われるように、ユーザＰ１に応じて出力音声ｏｕｔｊ＋１の趣旨を認識させることを補助するための補助情報を追加又は削除して出力音声ｏｕｔｊ＋１の出力態様を提示する音声対話装置１を提供する。

なお、本実施形態における入力信号Ｉｊは行列として示しているものの、他の形式、例えば音声の周波数を抽出したスペクトル形式といったような、入力音声ｉｎ１～ｉｎｊと出力音声ｏｕｔ１～ｏｕｔｊとの関係を示すことが可能な任意の信号であってもよい。一方で、本発明者は、人工知能モデルＭ１が入力信号Ｉｊに含まれる入力音声ｉｎｊと出力音声ｏｕｔｊの間の時間間隔と、出力音声ｏｕｔｊの出力態様との関係性を学習することが、ユーザＰ１とカーナビ１０との対話を円滑にするための出力態様の決定を可能とするための重要な要素であると推定している。このため、入力信号Ｉｊとしては、上記時間間隔を情報として含む信号であることが好ましい。

本実施形態による作用効果について、以下に説明する。

本実施形態の音声対話装置１は、入力音声ｉｎｊ及び出力音声ｏｕｔｊを含む学習用入力情報（対話例）と、学習用入力情報に対応して定められる出力音声ｏｕｔｊ＋１の出力態様を含む学習用出力情報（人手で設定されたビットフラグパターン）と、の関係を学習データとして人工知能モデルＭ１に学習させ、学習済みの人工知能モデルＭ１に対して、入力音声ｉｎ１～ｉｎｊの信号及び出力音声ｏｕｔ１～ｏｕｔｊの信号を含む入力データとしての入力信号Ｉｊを入力し、この入力信号Ｉｊに対して得られた出力データ（出力信号Ｏｊ）を出力音声ｏｕｔｊ＋１の出力態様として決定する。

すなわち、本実施形態の音声対話装置１は、学習用入力情報に基づいて音声対話装置１とユーザＰ１との対話が円滑になるような入力信号Ｉｊ（入力音声及び出力音声）と出力信号Ｏｊの出力態様との関係性を学習する。

そして、上記学習を経た学習済みモデルｍ１を用いることで、ユーザＰ１にとってより使用しやすい音声対話装置１が実現されることとなる。

より詳細には、ユーザＰ１が音声対話装置１を使いづらい状態にあると推定された場合、学習済みモデルｍ１は、第１実施形態で説明したようなユーザＰ１に出力音声の趣旨を認識させることを補助する補助情報の追加、削除又は変更を実行して出力音声ｏｕｔｊ＋１の出力態様を決定することとなる。これにより、ユーザＰ１は、適切な情報量を有する出力音声ｏｕｔｊ＋１に対してスムーズに発話することができるようになる。このように、本実施形態によれば、ユーザＰ１にとって使いやすい音声対話装置１を提供することができる。

また、本実施形態の学習済みモデルｍ１は、ユーザＰ１の入力音声ｉｎ１～ｉｎｊ及び音声対話装置１の出力音声ｏｕｔ１～ｏｕｔｊに基づいて、音声対話装置１の出力音声ｏｕｔｊ＋１の出力態様を決定するように、コンピュータを機能させるための学習済みモデルｍ１であって、少なくとも入力層と出力層とを有するニューラルネットワークから構成される。学習済みモデルｍ１は、入力音声ｉｎ１～ｉｎｊ及び出力音声ｏｕｔ１～ｏｕｔｊを含む学習用入力情報と、該学習用入力情報に対応して定められる出力音声ｏｕｔ１～ｏｕｔｊの出力態様を含む学習用出力情報と、を関連付けて学習されたものである。学習済みモデルｍ１は、ニューラルネットワークの入力層に対して、入力音声ｉｎ１～ｉｎｊの信号及び出力音声ｏｕｔ１～ｏｕｔｊを含む入力データが入力されると、ニューラルネットワークの出力層から、ユーザＰ１に出力音声ｏｕｔｊ＋1の趣旨を認識させることを補助する補助情報の追加、削除又は変更が行われた出力音声ｏｕｔｊ＋1の出力態様を出力するよう、コンピュータを機能させる。

このように、本実施形態の学習済みモデルｍ１は、上記の作用及び効果と同様に、ユーザＰ１が発話しやすい出力音声ｏｕｔｊ＋１の出力態様を決定し、コンピュータにその出力態様を示す出力信号Ｏｊを出力させる。これにより、本実施形態によれば、ユーザＰ１にとって使いやすい音声対話装置１を提供することができる。

（第３実施形態）
次に、図１１から図１３を参照して第３実施形態の音声対話装置１について説明する。

図１１は、第３実施形態のサーバ３０の機能ブロック図である。図１１に示されるように、第３実施形態では、第１実施形態の態様決定部３２０が本実施形態の態様決定部６００に置き換えられている。態様決定部６００は、第３入力信号生成部６１０と、第３判定部６２０と、を備える。

第３入力信号生成部６１０は、後述の第３判定部６２０の入力として用いられるタイミング信号ＴＩｊを生成する。まず、第３入力信号生成部６１０は、音声データ記憶部４１０から入力音声ｉｎ１～ｉｎｊ及び出力音声ｏｕｔ１～ｏｕｔｊを読み出す。そして、第３入力信号生成部６１０は、読み出した入力音声ｉｎ１～ｉｎｊ及び出力音声ｏｕｔ１～ｏｕｔｊに基づいて、変数ｊの値ごとに入力音声ｉｎｊ及び出力音声ｏｕｔｊを、以下に詳述するデータ形式のタイミング信号ＴＩｊに変換する。

第３判定部６２０は、入力信号としてのタイミング信号ＴＩｊに基づいて出力音声ｏｕｔｊ＋１の出力態様を決定する。第３判定部６２０は、機械学習が可能な人工知能モデルＭ２を有しており、本実施形態では、人工知能モデルＭ２は、一例としてニューラルネットワークから構成されるものとして説明する。

この人工知能モデルＭ２は、入力層と出力層とを備えており、第２実施形態において説明した手法、すなわち、ビットフラグパターンの設定によって機械学習が行われた学習済みモデルｍ２を備えている。

なお、本実施形態における人工知能モデルＭ２に対する学習方法、すなわちビットフラグパターンの設定方法は第２実施形態の設定方法と同様である。本実施形態では、第２実施形態においてビットフラグパターンの設定に用いられた入力信号Ｉｊを本実施形態のタイミング信号ＴＩｊに置き換えてビットフラグパターンを設定する。すなわち、学習済みモデルｍ２は、タイミング信号ＴＩｊの各要素の値とビットフラグパターンとの関係が学習されたものである。

［第３実施形態の出力態様の決定］
本実施形態のニューラルネットワークには、入力音声ｉｎ１～ｉｎｊ及び出力音声ｏｕｔ１～ｏｕｔｊから生成されるタイミング信号ＴＩｊが入力される。

ここで、図１２を参照してタイミング信号ＴＩｊについて説明する。図１２は、理解を容易にするために、入力音声データＩＮｊと出力音声データＯＵＴｊのうち変数ｊの値が「１」から「３」をとる場合のタイミングを例示した図である。なお、以下の説明では「Ｎ」はある固定値として説明する。

まず、図１２に示されるように、第３入力信号生成部６１０は、入力音声データＩＮ１～ＩＮ３の取得のタイミング及び出力音声データＯＵＴ１～ＯＵＴ３の出力のタイミングを検出して履歴データ記憶部４２０に記憶させる。具体的には、入力音声データＩＮ１の取得の開始タイミングは時刻ｔ１であり、取得の完了タイミングは時刻ｔ２である。また、出力音声データＯＵＴ１の出力の開始タイミングは時刻ｔ３であり、出力の完了タイミングは時刻ｔ４である。

時刻ｔ５以降の説明は省略するものの、第３入力信号生成部６１０は、時刻ｔ４までと同様に時刻ｔ５から時刻ｔ１２を検出する。さらに、図示及び説明を省略するものの、変数ｊの値が「３」以降の入力音声データＩＮｊ及び出力音声データＯＵＴｊについても同様に、入力音声データＩＮｊの取得のタイミング及び出力音声データＯＵＴｊの出力のタイミングを検出して履歴データ記憶部４２０に記憶させる。

また、図１２の下方に示される行列は、第３入力信号生成部６１０によって検出された時刻ｔ１～ｔ１２に基づいて生成されるタイミング信号ＴＩｊの一例を示す図である。また、行列の各要素の上付きの数字「１」は、対話フレームＦ１の番号と関連付けられている。すなわち、対話フレームＦｋの「Ｍ」番目は対話フレームＦＭであり、この場合の行列の各要素の上付きの数字は「１」ではなく「Ｍ」となる。

なお、対話フレームＦ１から対話フレームＦＭまでのタイミング信号ＴＩｊは、図１３に示されるとおりである。図１３は、第３入力信号生成部６１０によって検出された対話フレームＦ１における時刻ｔ１～ｔＮから、対話フレームＦＭにおける時刻ｔ１～時刻ｔＮまでの間に生成されるタイミング信号ＴＩｊの一例を示す図である。すなわち、対話フレームＦｋの「ｋ」の番号が増加するにつれて行列の行の数が増加する。このように、図１３の行列は「Ｍ」行「Ｍ×Ｎ」列の形式となる。

なお、対話フレームＦｋの全てが時刻ｔＮまであるとは限らない。すなわち、ある対話フレームＦｋでは時刻ｔ２で対話が終了する一方で、他の対話フレームＦｋでは時刻ｔ１０まで存在するというように、対話フレームＦｋごとに対話が完結するまでの対話時間Ｄｋが異なる。したがって、複数の対話フレームＦｋにおけるタイミングの履歴を入力信号とした場合、存在しない要素の値は「０」に設定されてもよい。

このように、タイミング信号ＴＩｊは、対話フレームＦ１から対話フレームＦＭにおける、入力音声データＩＮｊの取得のタイミング及び出力音声データＯＵＴｊの出力のタイミングとしての時刻ｔ１～ｔＮによって特徴づけられる。タイミング信号ＴＩｊは、入力音声データＩＮｊと出力音声データＯＵＴｊとの時間間隔を示す情報、及び出力音声ｏｕｔｊの出力態様を示す情報を含む。

このように、本実施形態では、人工知能モデルＭ２の入力層に対して、入力音声ｉｎ１～ｉｎｊと、出力音声ｏｕｔ１～ｏｕｔｊと、出力音声ｏｕｔ１～ｏｕｔｊの出力態様を示す情報と、を含む信号として、サンプルとなるタイミング信号ＴＩｓを入力し、タイミング信号ＴＩｓに対して出力音声ｏｕｔｊ＋１が対話を円滑にする観点から好適な出力態様として、ビットフラグパターンを設定することによって学習済みモデルｍ２を生成する。

このように、本実施形態の学習済みモデルｍ２において、タイミング信号ＴＩｊが入力されると、対話を円滑にする観点から好適な出力音声ｏｕｔｊ＋１の出力態様を示す出力信号Ｏｊが出力される。なお、ここにいう出力態様とは、図６において示すフラグ値「１」～「６」に相当する処理の組み合わせによる出力態様のうちの少なくとも何れかを含む。すなわち、出力信号Ｏｊ＋１として、その他の出力態様が決定される場合もある。

なお、出力信号Ｏｊの算出においては、ニューラルネットワークによってフラグ値「１」～「６」に相当する処理の尤度が演算され、一定の尤度を超えた場合に各フラグ値がオン状態、すなわち出力信号Ｏｊにおいて「１」が出力される。

［第３実施形態の入出力の相関関係］
また、次に示すように、本実施形態の学習済みモデルｍ２において、タイミング信号ＴＩｊと出力信号ＴＯｊ＋１の出力態様との間には一定の関係性があるものと推認する。

本実施形態では、第２実施形態と同様に、ユーザＰ１の入力音声ｉｎｊに対する応答としての出力音声ｏｕｔｊの出力態様、例えば、出力音声ｏｕｔｊが言葉足らずであるか、出力音声ｏｕｔｊが冗長であるか、などの出力音声ｏｕｔｊの出力態様によって、ユーザＰ１がその応答として次の入力音声ｉｎｊ＋１を円滑に発話できるか否かが決定する可能性が高いことが推認される。

本実施形態では、このような入出力の相関関係に基づいて、入力信号としてのタイミング信号ＴＩｊの履歴に基づいて、ユーザＰ１と音声対話装置１との対話が円滑に行われているか否かを推定し、対話が相対的に円滑に行われるように、ユーザＰ１に出力音声ｏｕｔｊ＋１の趣旨を認識させることを補助する補助情報を追加又は削除して出力音声ｏｕｔｊ＋１の出力態様を出力信号ＯＴｊとして提示する音声対話装置１を提供する。

本実施形態による作用効果について、以下に説明する。

本実施形態の音声対話装置１は、入力音声ｉｎｊ及び出力音声ｏｕｔｊを含む学習用入力情報（対話例）と、学習用入力情報に対応して定められる出力音声ｏｕｔｊ＋１の出力態様を含む学習用出力情報（人手で設定されたビットフラグパターン）と、の関係を学習データとして人工知能モデルＭ２に学習させ、学習済みの人工知能モデルＭ２に対して、入力音声ｉｎ１～ｉｎｊの信号及び出力音声ｏｕｔ１～ｏｕｔｊの信号を含む入力データとしてのタイミング信号ＴＩｊを入力し、このタイミング信号ＴＩｊに対して得られた出力データ（出力信号ＴＯｊ）を出力音声ｏｕｔｊ＋１の出力態様として決定する。

本実施形態の音声対話装置１による作用及び効果は、第２実施形態と略同様である。具体的には、音声対話装置１は、人工知能モデルＭ２に上記学習をさせることによって、ユーザＰ１の音声対話装置１の使用状態を推定することを可能にする。なお、本発明者は、学習済みモデルｍ２が、概して特定のユーザＰ１の出力音声ｏｕｔｊに対する入力音声ｉｎｊ＋１の応答時間のばらつきを基準に出力態様を決定していると推定している。

第２実施形態に加えた効果として、本実施形態では、ニューラルネットワークに対して、入力音声データＩＮｊの取得のタイミング及び出力音声データＯＵＴｊの出力のタイミングだけを入力すればよいため、第２実施形態と比較して学習済みモデルｍ２における演算量を低減することができる。

また、本実施形態の入力音声ｉｎ１～ｉｎｊの信号及び出力音声ｏｕｔ１～ｏｕｔｊの信号は、入力音声ｉｎ１～ｉｎｊと出力音声ｏｕｔ１～ｏｕｔｊとの時間間隔を示す情報を含む。

このように、本実施形態では、入力音声ｉｎ１～ｉｎｊと出力音声ｏｕｔ１～ｏｕｔｊとの時間間隔を示す情報として時刻ｔ１などがパラメータ信号ＰＩｊに含まれている。これにより、学習済みモデルｍ２は、時刻ｔ１などから応答時間Ｔｊを算出し、尤度の演算において応答時間Ｔｊを用いることも可能となる。例えば、尤度の演算において、第１実施形態のように、応答時間Ｔｊのばらつきが利用されることもあり得る。

本実施形態の学習済みモデルｍ２による作用及び効果は第２実施形態における学習済みモデルｍ１と略同様である。さらに、本実施形態では、上記のように、時刻に関する情報のみを入力することによって出力態様を決定することができるので、学習済みモデルｍ２における演算量を低減することができる利点がある。

（第４実施形態）
次に、図１４から図１６を参照して第４実施形態の音声対話装置１について説明する。

図１４は、サーバ３０の機能ブロック図である。図１４に示されるように、第４実施形態では、第１実施形態の態様決定部３２０が本実施形態の態様決定部７００に置き換えられている。態様決定部７００は、第４入力信号生成部７１０と、第４判定部７２０と、を備える。

第４入力信号生成部７１０は、後述の第４判定部７２０の入力として用いられるパラメータ信号ＰＩｊを生成する。まず、第４入力信号生成部７１０は、音声データ記憶部４１０から入力音声ｉｎ１～ｉｎｊ及び出力音声ｏｕｔ１～ｏｕｔｊを読み出す。そして、第４入力信号生成部７１０は、読み出した入力音声ｉｎ１～ｉｎｊ及び出力音声ｏｕｔ１～ｏｕｔｊから、以下に詳述する五種類のパラメータを抽出してパラメータ信号ＰＩｊに変換する。

第４判定部７２０は、入力信号としてのパラメータ信号ＰＩｊに基づいて、出力音声ｏｕｔｊ＋１の出力態様を決定する。第４判定部７２０は、機械学習が可能な人工知能モデルＭ３を有しており、本実施形態では、人工知能モデルＭ３は、一例として、ニューラルネットワークから構成されるものとして説明する。

このニューラルネットワークは、入力層と出力層とを備えており、第２実施形態及び第３実施形態の手法、すなわち、ビットフラグパターンの設定によって機械学習が行われた学習済みモデルｍ３を備えている。

なお、本実施形態における人工知能モデルＭ３に対する学習方法、すなわちビットフラグパターンの設定方法は第２実施形態の設定方法と同様である。本実施形態では、第２実施形態のビットフラグパターンの設定時に用いる入力信号Ｉｊを本実施形態のパラメータ信号ＰＩｊに置き換えることによってビットフラグパターンが設定される。すなわち、学習済みモデルｍ３は、パラメータ信号ＰＩｊの各要素の値とビットフラグパターンとの関係が学習されたものである。

［第４実施形態の出力態様の決定］
次に、上記の学習済みモデルｍ２を用いた出力音声ｏｕｔｊ＋１の出力態様の決定について説明する。本実施形態の学習済みモデルｍ２の入力層には、入力音声ｉｎ１～ｉｎｊ及び出力音声ｏｕｔ１～ｏｕｔｊから生成されるパラメータ信号ＰＩｊが入力される。

ここで、図１５を参照してパラメータ信号ＰＩｊについて説明する。図１５は、理解を容易にするために、入力音声データＩＮｊと出力音声データＯＵＴｊのうち変数ｊの値が「１」から「３」をとる場合における取得及び出力にかかる時間を例示した図である。

時間ｔ１は入力音声データＩＮ１の取得に要する時間を示す「ユーザ発話時間」である。時間ｔ２は、入力音声データＩＮ１の取得を完了してから、出力音声データＯＵＴ１の出力が開始するまでの時間を示す「レイテンシー」である。時間ｔ３は、出力音声データＯＵＴ１の出力に要する時間を示す「ガイド時間」である。そして、時間ｔ４は出力音声データＯＵＴ１の出力が完了してから、それに対して入力音声データＩＮ２の取得が開始されるまでの時間を示す「ユーザレスポンスタイム（以下、ＵＲＴと称する。）」である。また、時間ｔ１２はひとつの対話フレームＦ１が完結するまでの時間を示す「デュレーション」である。

本実施形態では、これらの「ユーザ発話時間」、「レイテンシー」、「ガイド時間」、「ＵＲＴ」、及び「デュレーション」の五種類のパラメータを、入力信号としてのパラメータ信号ＰＩｊに利用する。

時間ｔ４以降についての説明は省略するものの、同様に、第４入力信号生成部７１０は、図１６に示される時間ｔ１～ｔ１２を検出する。そして、図示を省略するものの、変数ｊの値が「３」以降の入力音声データＩＮｊ及び出力音声データＯＵＴｊについても同様に上記五種類のパラメータを検出して履歴データ記憶部４２０に記憶させる。

また、図１５の下方に示される行列は、上記のように第４入力信号生成部７１０によって検出された時間ｔ１～ｔ１２に基づいて生成されるパラメータ信号ＰＩ１を示す。また、各要素の上付きの数字「１」は、第２及び第３実施形態と同様に、対話フレームＦ１の番号と関連付けられる。また、対話フレームＦ１～ＦＭまでのパラメータ信号ＰＩｊは、図１６に示されるとおりである。行列の各要素の配列については、第３実施形態と同様であるため説明を省略する。

このように、パラメータ信号ＰＩｊは、対話フレームＦ１～ＦＭにおける時間ｔ１～ｔＮによって特徴づけられる。パラメータ信号ＰＩｊは、入力音声ｉｎ１～ｉｎｊと、出力音声ｏｕｔ１～ｏｕｔｊと、出力音声ｏｕｔ１～ｏｕｔｊの出力態様を示す情報と、を含む信号に相当する。

本実施形態では、人工知能モデルＭ３の入力層に対して、入力音声ｉｎ１～ｉｎｊと、出力音声ｏｕｔ１～ｏｕｔｊと、出力音声ｏｕｔ１～ｏｕｔｊの出力態様を示す情報と、を含む音声情報としてサンプルとなるパラメータ信号ＰＩｓを入力し、サンプルとなるパラメータ信号ＰＩｓに対する出力態様として、出力音声ｏｕｔｊ＋１が対話を円滑にする観点から好適な出力態様となるようなビットフラグパターンを設定することによって学習済みモデルｍ３を生成する。

このように、本実施形態の学習済みモデルｍ３においては、パラメータ信号ＰＩｊが入力されると、対話を円滑に行う観点から好適な出力音声ｏｕｔｊ＋１の出力態様を示す出力信号ＰＯｊが出力される。

［第４実施形態の入出力の相関関係］
また、次に示すように、本実施形態の学習済みモデルｍ３において、パラメータ信号ＰＩｊと出力信号ＰＯｊの出力態様との間には一定の関係性があるものと推認する。

本実施形態では、第２実施形態と同様に、ユーザＰ１の入力音声ｉｎｊに対する応答としての出力音声ｏｕｔｊの出力態様、例えば、出力音声ｏｕｔｊが言葉足らずであるか、出力音声ｏｕｔｊが冗長であるか、などの出力音声ｏｕｔｊの出力態様によって、ユーザＰ１が次の入力音声ｉｎｊ＋１を円滑に発話できるか否かが決定する可能性が高いことが推認される。

本実施形態では、このような入出力の相関関係に基づいて、入力信号としてのパラメータ信号ＰＩｊに基づいて、ユーザＰ１と音声対話装置１との対話が円滑に行われているか否かを推定し、相対的に円滑に対話が行われるように、ユーザＰ１に出力音声ｏｕｔｊ＋１の趣旨を認識させることを補助する補助情報を追加、削除、又は変更して出力音声ｏｕｔｊ＋１の出力態様を出力信号ＰＯｊとして提示する音声対話装置１を提供する。

なお、図１６に示される行列は一例であって、五種類のパラメータの順番はいかなる順番であってもよい。

本実施形態による作用効果について、以下に説明する。

本実施形態の音声対話装置１は、入力音声ｉｎｊ及び出力音声ｏｕｔｊを含む学習用入力情報（対話例）と、学習用入力情報に対応して定められる出力音声ｏｕｔｊ＋１の出力態様を含む学習用出力情報（人手で設定されたビットフラグパターン）と、の関係を学習データとして人工知能モデルＭ３に学習させ、学習済みの人工知能モデルＭ３に対して、入力音声ｉｎ１～ｉｎｊの信号及び出力音声ｏｕｔ１～ｏｕｔｊの信号を含む入力データとしてのパラメータ信号ＰＩｊを入力し、このパラメータ信号ＰＩｊに対して得られた出力データ（出力信号ＰＯｊ）を出力音声ｏｕｔｊ＋１の出力態様として決定する。

本実施形態による作用及び効果は第２実施形態と同様である。第２実施形態に加えて、本実施形態のパラメータ信号ＰＩｊは、五種類のパラメータを含んでいる。すなわち、本実施形態のニューラルネットワークには、予め処理されて抽出された五種類のパラメータがパラメータ信号ＰＩｊとして入力されるため、ニューラルネットワークによる抽出工程が省かれることによる処理負担の低減が見込まれる。

このように、本実施形態では、入力音声ｉｎ１～ｉｎｊと出力音声ｏｕｔ１～ｏｕｔｊとの時間間隔としての時間ｔ２（ＵＲＴ）などがパラメータ信号ＰＩｊに含まれている。これにより、ニューラルネットワークは、尤度の演算においてＵＲＴを用いることも可能となる。例えば、尤度の演算において、第１実施形態のように、ＵＲＴのばらつきが利用されることもあり得る。

本実施形態の学習済みモデルｍ３による作用及び効果は、第２実施形態における学習済みモデルｍ１と略同様である。

以上、本発明の各実施形態について説明したが、上記各実施形態は本発明の適用例の一部を示したに過ぎず、本発明の技術的範囲を上記実施形態の具体的構成に限定する趣旨ではない。

なお、第２から第４実施形態の出力態様とは、図６において示すフラグ値「１」～「６」に相当する処理の組み合わせによる出力態様のうちの少なくとも何れかを含むものとする。すなわち、出力信号Ｏｊ，ＴＯｊ，ＰＯｊとして、他の組み合わせによる出力態様が決定される場合もある。

また、第２から第４実施形態の学習済みモデルｍ１～ｍ３の演算においては、ニューラルネットワークによってフラグ値「１」～「６」に相当する処理の尤度が演算され、一定の尤度を超えた場合に各フラグ値に対応するノードが「１」に設定される。

さらに、上記第２実施形態から第４実施形態における人工知能モデルＭ１～Ｍ３は、畳み込みニューラルネットワーク（ＣＮＮ）、ディープニューラルネットワーク（ＤＮＮ）、又はリカレントニューラルネットワーク（ＬＳＴＭ）などのいかなる機械学習機能を有していてもよい。

また、上記第２実施形態から第４実施形態における学習済みモデルｍ１～ｍ３は、人工知能ソフトウエアの一部であるプログラムモジュールとして利用されてもよい。

また、上記の学習済みモデルｍ１～ｍ３、及び第２から第４実施形態のニューラルネットワークへの入力信号は、上記した実施形態に限られない。入力信号は、例えば、時系列の連続信号のベクトル、又は対話フレームＦｋごとに生成される他の形式の行列であってもよい。

また、図２、図４～５、図１２、及び図１５に示される対話は、入力音声ｉｎｊから始まっている。しかしながら、上記全ての実施形態は、出力音声ｏｕｔｊから始まる対話にも適用され得る。

さらに、上記各実施形態において、ユーザＰ１が対話する装置をカーナビ１０としている。しかしながら、ユーザＰ１が対話する装置は他の装置、例えば、スマートフォンに類する機器など、音声を認識し得る機器である限りいかなる機器であってもよい。この場合、例えば、これらの機器にインストールされるアプリケーションとして、本実施形態の音声対話装置１の有する機能が搭載されてもよい。

また、上記実施形態では出力音声ｏｕｔｊ＋１の出力態様として、補助情報の追加又は削除について説明した。しかしながら、出力音声ｏｕｔｊ＋１に対して補助情報の変更が行われてもよい。ここにいう補助情報の変更は、補助情報を短くしたり長くしたりすることを含む。具体的には、補助情報の変更とは、出力音声ｏｕｔｊ＋１に対して、ユーザＰ１にとってより親切な内容に改変すること、又はユーザＰ１にとってより端的な内容に改変することなど、ユーザＰ１に適した補助情報に変更することを含む。

さらに、出力音声ｏｕｔｊ＋１の出力態様は、図６のフラグ値「１」から「６」に相当する出力態様に限られない。すなわち、ユーザに出力音声の趣旨を認識させることの補助を可能とする限り、上記実施形態で例示した出力態様以外の出力態様が決定されてもよい。

（変形例１）
第１実施形態には次に示すような変形が施されてもよい。具体的には、態様決定部３２０は、次に示す手法によってユーザＰｉの感情を推定し、推定した感情に基づいて出力態様を決定してもよい。

ユーザＰｉの感情を推定する手法として、音声対話装置１が、適当なタイミングで、ユーザＰｉに対してユーザＰｉの感情を尋ねるとともに、入力音声ｉｎｊの発話タイミング及び発話の周波数その他のユーザＰｉの感情に連動することが予測されるパラメータの少なくとも何れかと関連付けて、記憶部４００の所定領域に記憶することが考えられる。そして、態様決定部３２０は、入力音声ｉｎｊと記憶部４００に記憶されたユーザＰｉと入力音声ｉｎｊとを参照してユーザＰｉの感情を推定する。

あるいは、他のユーザＰｉの感情を推定する方法として、ユーザＰｉが音声対話装置１に手動で入力するか又はネットワーク２０を介してサーバ３０に自身の感情を送信する手法が考えられる。もしくは、取得部３１０において取得される入力音声ｉｎｊ、又は音声対話装置１が車両に設けられる場合にはユーザＰｉの運転状況を示す信号などから、ユーザＰｉの感情を自動的に推定する手法が挙げられる。

このように、態様決定部３２０は、ユーザＰｉの感情を推定して、推定した感情に基づいて出力音声ｏｕｔｊの出力態様を決定してもよい。具体的には、態様決定部３２０が、入力音声データＩＮｊがユーザＰｉが苛立ちを感じているときの入力音声データに類似していると判定した場合には、出力音声ｏｕｔｊの話速を向上したり、尊敬語などを削除したりするなど、フラグ値「１」～「６」に示される処理のうち出力音声ｏｕｔｊの発話時間が短くなるような出力態様を決定してもよい。

１音声対話装置
３１０取得部
３２０態様決定部
３３０生成部

Claims

ユーザと対話可能な音声対話装置であって、
前記ユーザに対する出力音声に変換可能な出力音声データを生成する生成部と、
前記ユーザによる入力音声から変換された入力音声データを取得する取得部と、
前記取得部において取得された前記入力音声データの履歴に基づいて、前記ユーザに前記出力音声の趣旨を認識させることを補助する補助情報の追加、削除又は変更を行うことで該出力音声の出力態様を決定する態様決定部と、を備え、
前記生成部は、前記態様決定部において決定された前記出力音声の前記出力態様に応じた前記出力音声データを生成し、
前記態様決定部は、
前記入力音声データの履歴から、前記出力音声に対する前記ユーザの応答としての前記入力音声の応答時間を検出する検出部と、
前記応答時間のばらつきを演算し、少なくとも前記ばらつきが予め設定された第１閾値よりも大きいか否かに基づいて、前記出力音声の前記出力態様を決定する決定部と、を有する、
音声対話装置。
請求項１に記載の音声対話装置であって、
前記決定部は、前記応答時間のばらつきが前記第１閾値より大きい場合に、前記出力音声から前記入力音声に含まれる検索対象語に相当する音声を削除する、
音声対話装置。
請求項１又は２に記載の音声対話装置であって、
前記決定部は、前記応答時間のばらつきが前記第１閾値より大きく、かつ、前記応答時間の絶対値が第２閾値を超える負の値であるとき、前記出力音声から前記入力音声の内容を確認するための音声を削除する、
音声対話装置。
請求項１から３の何れか一項に記載の音声対話装置であって、
前記決定部は、前記応答時間のばらつきが前記第１閾値より大きく、かつ、前記応答時間が予め設定された第３閾値より大きい正の値である場合に、当該音声対話装置の使用方法の提示を前記出力音声に含める、
音声対話装置。
請求項１から３の何れか一項に記載の音声対話装置であって、
前記決定部は、前記応答時間のばらつきが前記第１閾値より大きく、かつ、前記応答時間が予め設定された第３閾値より大きい正の値である場合に、前記ユーザに当該音声対話装置の使用を促す誘導文を前記出力音声に含める、
音声対話装置。
請求項１から５の何れか一項に記載の音声対話装置であって、
前記決定部は、前記応答時間のばらつきが前記第１閾値より大きく、かつ、当該音声対話装置と前記ユーザとの音声対話の継続時間が予め設定された第４閾値より長くなった場合に、前記出力音声から前記入力音声の内容を確認するための音声を削除する、
音声対話装置。
請求項１から６の何れか一項に記載の音声対話装置であって、
前記決定部は、前記応答時間のばらつきが前記第１閾値より大きく、かつ、当該音声対話装置と前記ユーザとの音声対話の継続時間が予め設定された第４閾値より大きくなった場合に、前記ユーザに当該音声対話装置の使用を促す誘導文を前記出力音声に含める、
音声対話装置。
請求項１から７の何れか一項に記載の音声対話装置であって、
前記決定部は、前記応答時間のばらつきが前記第１閾値より大きい場合に、前記補助情報の追加、削除又は変更に加えて、前記出力音声の謙譲語、尊敬語、丁寧語、及び助詞の少なくとも何れかを削除する、
音声対話装置。
請求項１から７の何れか一項に記載の音声対話装置であって、
前記決定部は、前記応答時間のばらつきが前記第１閾値より大きい場合に、前記補助情報の追加、削除又は変更に加えて、前記出力音声の話速を向上させる、
音声対話装置。
ユーザと対話可能な音声対話装置であって、
前記ユーザに対する出力音声に変換可能な出力音声データを生成する生成部と、
前記ユーザによる入力音声から変換された入力音声データを取得する取得部と、
前記取得部において取得された前記入力音声データの履歴に基づいて、前記ユーザに前記出力音声の趣旨を認識させることを補助する補助情報の追加、削除又は変更を行うことで該出力音声の出力態様を決定する態様決定部と、を備え、
前記生成部は、前記態様決定部において決定された前記出力音声の前記出力態様に応じた前記出力音声データを生成し、
前記態様決定部は、
前記出力音声に対する前記ユーザの応答時間又は該応答時間のばらつきを含む学習用入力情報と、該学習用入力情報に対応して前記応答時間又は該応答時間のばらつきが所望の値をとるように定められる前記出力音声の前記出力態様を含む学習用出力情報と、の関係を学習データとして人工知能モデルに学習させ、
学習済みの前記人工知能モデルに対して前記入力音声の信号及び前記出力音声の信号を含む入力データを入力し、該入力データに対して得られた出力データを前記出力音声の前記出力態様として決定する、
音声対話装置。
ユーザの入力音声及び音声対話装置の出力音声に基づいて、前記音声対話装置の前記出力音声の出力態様を決定するように、コンピュータを機能させるための音声対話用学習済みモデルであって、
少なくとも入力層と出力層とを有するニューラルネットワークから構成され、
前記出力音声に対する前記ユーザの応答時間又は該応答時間のばらつきを含む学習用入力情報と、該学習用入力情報に対応して前記応答時間又は該応答時間のばらつきが所望の値をとるように定められる前記出力音声の前記出力態様を含む学習用出力情報と、を関連付けて学習されたものであり、
前記ニューラルネットワークの前記入力層に対して、前記入力音声の信号及び前記出力音声を含む入力データが入力されると、前記ニューラルネットワークの前記出力層から、前記ユーザに前記出力音声の趣旨を認識させることを補助する補助情報の追加、削除又は変更が行われた該出力音声の前記出力態様を出力するよう、コンピュータを機能させるための、
音声対話用学習済みモデル。
ユーザとの音声対話方法であって、
前記ユーザに対する出力音声に変換可能な出力音声データを生成する生成ステップと、
前記ユーザによる入力音声から変換された入力音声データを取得する取得ステップと、
前記取得ステップにおいて取得された前記入力音声データの履歴に基づいて、前記ユーザに前記出力音声の趣旨を認識させることを補助する補助情報の追加、削除又は変更を行うことで該出力音声の出力態様を決定する態様決定ステップと、を備え、
前記生成ステップにおいて、前記態様決定ステップにおいて決定された前記出力音声の前記出力態様に応じた前記出力音声データを生成し、
前記態様決定ステップでは、
前記入力音声データの履歴から、前記出力音声に対する前記ユーザの応答としての前記入力音声の応答時間を検出し、
前記応答時間のばらつきを演算し、少なくとも前記ばらつきが予め設定された第１閾値よりも大きいか否かに基づいて、前記出力音声の前記出力態様を決定する、
音声対話方法。