JP2018200386A

JP2018200386A - 音声対話装置

Info

Publication number: JP2018200386A
Application number: JP2017104766A
Authority: JP
Inventors: 達朗堀; Tatsuro Hori; 生聖渡部; Seisho Watabe
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2017-05-26
Filing date: 2017-05-26
Publication date: 2018-12-20
Anticipated expiration: 2037-05-26
Also published as: JP6801587B2

Abstract

【課題】ユーザの発話を遮ってしまう可能性を低減することができる音声対話装置を提供する。【解決手段】ユーザの音声を入力する入力部１１０と、ユーザに対して音声を出力する出力部１２０とを備えるロボット１００であって、少なくとも入力部１１０によって入力された音声の音声波形から特徴量を抽出するユーザ音声解析部１３１と、出力部１２０がユーザに対してフィラーを出力する際に、ユーザ音声解析部１３１によって抽出された特徴量に基づいてフィラーを出力する信頼度を示す値Ｉｖを計算し、フィラーを出力する信頼度を示す値Ｉｖに基づいてフィラーの音圧レベルを決定する音圧レベル決定部１３２と、を備える。【選択図】図１

Description

本発明は、音声対話装置に関する。

特許文献１には、ユーザの発話の音声波形から韻律的特徴を抽出し、当該韻律的特徴に基づいて音声対話システムに発話権があるか否かを判定することが記載されている。

特開２０１６−０３８５０１号公報

特許文献１に記載の音声対話システムでは、当該音声対話システムに発話権があるか否かがあいまいな場合にもフィラー（相槌）を出力して当該音声対話システムに発話権があることを主張する場合がある。しかし、実際には、音声対話システムに発話権がなかった場合、当該フィラーを出力すると、ユーザの発話を遮ってしまう結果となる可能性がある。

本発明は、このような問題を解決するためになされたものであり、ユーザの発話を遮ってしまう可能性を低減することができる音声対話装置を提供することを目的とするものである。

本発明に係る音声対話装置は、ユーザの音声を入力する入力部と、前記ユーザに対して音声を出力する出力部とを備える。また、前記音声対話装置は、少なくとも前記入力部によって入力された前記音声の音声波形から特徴量を抽出するユーザ音声解析部と、前記出力部が前記ユーザに対してフィラーを出力する際に、前記ユーザ音声解析部によって抽出された前記特徴量に基づいて前記フィラーを出力する信頼度を示す値を計算し、前記フィラーを出力する信頼度を示す値に基づいて前記フィラーの音圧レベルを決定する音圧レベル決定部と、を備える。

本発明に係る音声対話装置によれば、音圧レベル決定部によって、ユーザ音声解析部によって抽出された特徴量に基づいて前記フィラーを出力する信頼度を示す値が計算され、前記フィラーを出力する信頼度を示す値に基づいて前記フィラーの音圧レベルが決定される。そのため、フィラーを出力する信頼度を示す値に応じた音圧レベルで前記出力部はフィラーを出力することができる。そして、フィラーを出力する信頼度は、発話権が音声対話装置にある可能性と正の相関関係にある。すなわち、発話権が音声対話装置にある否かがあいまいな場合であっても、発話権が音声対話装置にある可能性に応じた音圧レベルで前記出力部はフィラーを出力することができる。そのため、発話権が音声対話装置にある可能性が低い場合には出力部は小さい音圧レベルでフィラーを出力することとなり、出力部が出力したフィラーによってユーザの発話を遮ることを低減できる。これにより、ユーザの発話を遮ってしまう可能性を低減することができる音声対話装置を提供することができる。

本発明の実施の形態１に係るロボットの概略構成を示すブロック図である。本発明の実施の形態１に係るユーザの発話区間の終了部分を示すグラフである。本発明の実施の形態１に係る特徴量ベクトルの各要素の一例を示す表である。本発明の実施の形態１に係るオフライン学習による判定モデルの作成におけるサブセットの作成を説明する図である。本発明の実施の形態１に係るオフライン学習による判定モデルの作成における分岐関数候補の生成を説明する図である。本発明の実施の形態１に係るオフライン学習による判定モデルの作成における分岐関数候補の決定を説明する図である。本発明の実施の形態１に係る判定モデルを用いた、フィラーを出力する信頼度の決定を説明する図である。本発明の実施の形態１に係る特徴量ベクトルの一部の要素であるユーザ発話長さと沈黙又はフィラーの頻度との関係を示すグラフの一例である。本発明の実施の形態１に係る特徴量ベクトルの一部の要素であるユーザ発話長さとフィラーを出力する割合との関係を示す表の一例である。本発明の実施例１に係るユーザとロボットとの会話の一例を示す図である。本発明の実施例１に係る特徴量ベクトルの各要素の一例を示す表である。図１０に示す会話の例において、ロボットが出力するフィラーの音声波形を示すグラフである。

実施の形態１
以下、図面を参照して本発明の実施の形態について説明する。図１は、本発明の実施の形態１に係る音声対話装置としてのロボット１００の概略構成を示すブロック図である。実施の形態１に係るロボット１００は、図１に示すように、入力部１１０、出力部１２０、制御部１３０を備える。制御部１３０は、ユーザ音声解析部１３１、音圧レベル決定部１３２等を備える。音圧レベル決定部１３２は、手法選択部１３２Ａ、音圧レベル設定パラメータ計算部１３２Ｂ、学習用データベース（学習用ＤＢ）１３２Ｃ、オフライン学習部１３２Ｄ、判定モデル及び条件分岐式データベース（判定モデル及び条件分岐式ＤＢ）１３２Ｅ、音声合成部１３２Ｆを備える。ロボット１００は、ユーザの発話に応じて、応答としての音声を出力したり、フィラーを出力したりする。ここで、発話とは、対話内容として意味を持つ音声である。また、フィラーとは、相槌であり、ユーザの一の発話と次の発話との間に発する繋ぎの音声である。

入力部１１０は、マイク等を備え、ユーザの音声を集音し、ユーザの音声をユーザ音声解析部１３１に入力する。

出力部１２０は、スピーカー等を備え、ロボット１００からユーザに対して発話である音声を出力したり、フィラーを出力したりする。具体的には、後述する音声合成部１３２Ｆによって合成された音声を出力する。また、本実施の形態において、音声合成部１３２Ｆは、音圧レベル決定部１３２から入力された音圧レベル設定パラメータＩｖに基づく音圧レベルのフィラーを合成し、出力部１２０に出力する。音声合成部１３２Ｆの詳細については、後述する。

制御部１３０は、図示しないＣＰＵ及び図示しない記憶部等を備える。そして、ＣＰＵが記憶部に格納されたプログラムを実行することにより、制御部１３０における全ての処理が実現する。
また、制御部１３０のそれぞれの記憶部に格納されるプログラムは、ＣＰＵに実行されることにより、制御部１３０のそれぞれにおける処理を実現するためのコードを含む。なお、記憶部は、例えば、このプログラムや、制御部１３０における処理に利用される各種情報を格納することができる任意の記憶装置を含んで構成される。記憶装置は、例えば、メモリ等である。

具体的には、ＣＰＵが記憶部に格納されたプログラムを実行することによって、制御部１３０は、ユーザ音声解析部１３１、音圧レベル決定部１３２として機能する。また、記憶部には、学習用データベース１３２Ｃ、判定モデル及び条件分岐式データベース１３２Ｅ等が格納されている。

ユーザ音声解析部１３１は、入力部１１０によって入力された音声の音声波形から特徴量を抽出する。また、ユーザ音声解析部１３１は、ロボット１００のユーザへの応答の履歴情報（装置応答の過去履歴）から、特徴量を抽出する。そして、ユーザ音声解析部１３１は、ユーザの音声波形及びユーザへの応答の履歴情報から抽出した特徴量を用いて、特徴量ベクトルを生成し、音圧レベル決定部１３２に出力する。

具体的には、ユーザ音声解析部１３１は、入力部１１０によって入力された音声の音声波形を、１以上の「発話区間」に分割する。ここで、「発話区間」とは、ユーザの発話の始まりから終わりまでの区間を意味し、ユーザ音声解析部１３１は、ユーザの発話の音圧に基づいて、「発話区間」がどこからどこまでかを決定する。図２は、ユーザの発話区間の終了部分を示すグラフであり、縦軸は音圧（ｄＢ）を示し、横軸は時間を示す。ユーザ音声解析部１３１は、例えば、図２に示すように、ユーザの音声の音圧が所定の音圧閾値より小さくなった時点から一定時間Ｔにおいて、再び音圧閾値を超え且つゼロとなる回数がＮ回以下であった場合、当該時点（ユーザの音声の音圧が所定の音圧閾値より小さくなった時点）を「発話区間」の終わりとして検出する。図２においては、Ｔは４００ｍｓｅｃ（ミリ秒）、Ｎは０となっているが、Ｔ及びＮの値は、実験対象及び環境によって適宜設定される値である。同様に、ユーザ音声解析部１３１は、ユーザの音声の音圧が所定の音圧閾値より大きくなった時点から一定時間Ｔ_２において、再び音圧閾値より小さくなり且つゼロとなる回数がＮ_２回以上であった場合、当該時点（ユーザの音声の音圧が所定の音圧閾値より大きくなった時点）を「発話区間」の始まりとして検出する。同様に、Ｔ_２及びＮ_２の値は、実験対象及び環境によって適宜設定される値である。

そして、ユーザ音声解析部１３１は、ｉ番目（ｉは、１以上の整数である。）の「発話区間」の音声波形から特徴量を抽出する。また、ユーザ音声解析部１３１は、ｉ番目の「発話区間」の音声波形及びユーザへの応答の履歴情報から抽出した特徴量を用いて、特徴量ベクトルｖｉを生成し、音圧レベル決定部１３２に出力する。

図３に、ユーザ音声解析部１３１によって生成された特徴量ベクトルｖｉの一例を示す。具体的には、図３は、特徴量ベクトルｖｉの各要素、及び、当該要素の値を示す。図３に示すように、特徴量ベクトルｖｉの各要素は、「ｉ番目のユーザ発話情報」に属するものと、「装置応答の過去履歴」に属するものに、大きく分けられる。図３に示す例では、「ｉ番目のユーザ発話情報」に属する要素としては、「句末○ｍｓｅｃ」、「発話区間全体」、「ユーザ発話の長さ」等が挙げられている。また、「装置応答の過去履歴」に属する要素としては、「同一話題の継続時間」、「直前のシステム発話タイプ」、「直前のシステムの質問タイプ」等が挙げられている。なお、図３において、太枠で囲んだ列に、各要素の値が示されている。また、図３において、「システム」とは、ロボット１００のことを指す。

図３において、「句末○ｍｓｅｃ」とは、ユーザの発話区間の終わりから○ｍｓｅｃ（○ミリ秒）前までの発話を意味する。図３においては、「句末○ｍｓｅｃ」の音声波形の基本周波数ｆ０、ボリュームが特徴量ベクトルｖｉの要素として挙げられている。また、「句末○ｍｓｅｃ」の音声波形の基本周波数ｆ０及びボリュームの平均値、分散値、増減の傾きの値、最大値等を、特徴量ベクトルｖｉの要素の値とする。また、ボリュームとは、入力部１１０から入力されたユーザの発話の音声の大きさ（ｄＢ）である。なお、ユーザ音声解析部１３１は、これらの基本周波数ｆ０及びボリュームの平均値、分散値、増減の傾きの値、最大値をユーザごとに正規化する。

また、図３において、「発話区間全体」の音声波形の基本周波数ｆ０、ボリュームが特徴量ベクトルｖｉの要素として挙げられている。また、「発話区間全体」の音声波形の基本周波数ｆ０及びボリュームの平均値、分散値、増減の傾きの値、最大値等を、特徴量ベクトルｖｉの要素の値とする。なお、ユーザ音声解析部１３１は、これらの基本周波数ｆ０及びボリュームの平均値、分散値、増減の傾きの値、最大値をユーザごとに正規化する。

また、図３において、「ユーザ発話の長さ」が特徴量ベクトルｖｉの要素として挙げられている。また、「ユーザ発話の長さ」の数値（ｓｅｃ）、すなわち、ユーザ発話の長さが何秒であったかを、特徴量ベクトルｖｉの要素の値とする。なお、「ユーザ発話の長さ」は、ユーザ音声解析部１３１によって上述の方法で決定された「発話区間」の長さ（時間（ｓｅｃ））である。

また、図３において、「同一話題の継続時間」が特徴量ベクトルｖｉの要素として挙げられている。また、「同一話題の継続時間」の数値（ｓｅｃ）、すなわち、同一話題の継続時間の長さが何秒であったかを、特徴量ベクトルｖｉの要素の値とする。なお、「同一話題の継続時間」は、例えば、ロボット１００が前回「次話題誘導」の音声を出力した時から、ロボット１００が今回「次話題誘導」の音声を出力する時までの時間である。また、ロボット１００は、例えば、ユーザの沈黙時間が所定時間以上である場合や前回「次話題誘導」の音声を出力した時から所定時間以上経過した場合に、「次話題誘導」の音声を出力する。

また、図３において、「直前のシステムの発話タイプ」が特徴量ベクトルｖｉの要素として挙げられている。ここで、「システム」とは、ロボット１００のことを指す。また、「直前のシステムの発話タイプ」が「相槌」、「傾聴応答」、「質問」等を、特徴量ベクトルｖｉの要素の値とする。なお、「相槌」、「傾聴応答」、「質問」等は、それぞれ、「０」、「１」、「２」等の離散値で表現する。すなわち、ユーザ音声解析部１３１は、「相槌」、「傾聴応答」、「質問」等、数値で表されない特徴量についても、離散値で表現することにより、数値化する。

また、図３において、「直前のシステムの質問タイプ」が特徴量ベクトルｖｉの要素として挙げられている。また、「直前のシステムの質問タイプ」が「深堀質問」、「次話題誘導」等を、特徴量ベクトルｖｉの要素の値とする。上記と同様に、「深堀質問」、「次話題誘導」等は、それぞれ、「０」、「１」等の離散値で表現する。すなわち、ユーザ音声解析部１３１は、「深堀質問」、「次話題誘導」等、数値で表されない特徴量についても、離散値で表現することにより、数値化する。

そして、ユーザ音声解析部１３１は、図２に示す要素及び要素の値等から、特徴量ベクトルｖｉを生成する。図２に示す要素及び要素の値から生成された特徴量ベクトルｖｉは、例えば、ｖｉ＝（・・・，２．４，・・・，２０，１，１，・・・）と表される。

音圧レベル決定部１３２は、出力部１２０がユーザに対してフィラーを出力する際に、ユーザ音声解析部１３１によって抽出された特徴量に基づいてフィラーを出力する信頼度を示す値を計算し、フィラーを出力する信頼度を示す値に基づいてフィラーの音圧レベルを決定する。
具体的には、音圧レベル決定部１３２は、ユーザ音声解析部１３１から入力された特徴量ベクトルｖｉに基づいて、フィラーを出力する信頼度を示す値Ｉｖを計算し、当該値Ｉｖを「音圧レベル設定パラメータ」とする。なお、本実施の形態において、音圧レベル決定部１３２において決定される音圧レベル設定パラメータＩｖは、０．５≦Ｉｖ≦１を満たす。すなわち、後述する音圧レベル設定パラメータ計算部１３２Ｂは、計算によって得られたＩｖの値が０．５未満である場合、Ｉｖの値は０．５であると決定する。
そして、音圧レベル決定部１３２は、決定した音圧レベル設定パラメータＩｖを音声合成部１３２Ｆに出力する。

より具体的には、音圧レベル決定部１３２は、手法選択部１３２Ａ、音圧レベル設定パラメータ計算部１３２Ｂ、学習用データベース（学習用ＤＢ）１３２Ｃ、オフライン学習部１３２Ｄ、判定モデル及び条件分岐式データベース（判定モデル及び条件分岐式ＤＢ）１３２Ｅを備える。

手法選択部１３２Ａは、音圧レベル設定パラメータ計算部１３２Ｂが音圧レベル設定パラメータＩｖを計算する手法を選択する。本実施の形態では、音圧レベル設定パラメータ計算部１３２Ｂは、判定モデルを用いて音圧レベル設定パラメータＩｖを計算する手法（以下、「第１の手法」と称する。）と、特徴量ベクトルｖｉの一部の特徴量を用いて作成した条件分岐式を用いて音圧レベル設定パラメータＩｖを計算する手法（以下、「第２の手法」と称する。）と、のいずれかを用いて、音圧レベル設定パラメータＩｖを計算する。そのため、手法選択部１３２Ａは、音圧レベル設定パラメータ計算部１３２Ｂが第１の手法と第２の手法とのいずれを用いて音圧レベル設定パラメータＩｖを計算するのかを選択する。具体的には、手法選択部１３２Ａは、音圧レベル設定パラメータＩｖを計算するのに用いるデータの量、ロボット１００の仕様等に基づいて、第１の手法と第２の手法とのいずれを用いるかを選択する。そして、手法選択部１３２Ａは、第１の手法と第２の手法とのいずれを用いて音圧レベル設定パラメータＩｖを計算するかについての指示を音圧レベル設定パラメータ計算部１３２Ｂに出力する。

音圧レベル設定パラメータ計算部１３２Ｂは、手法選択部１３２Ａから入力された指示に従って、判定モデル及び条件分岐式データベース１３２Ｅから、判定モデル又は条件分岐式のいずれかを読み出す。そして、音圧レベル設定パラメータ計算部１３２Ｂは、当該判定モデル又は条件分岐式を用いて、ユーザ音声解析部１３１から入力された特徴量ベクトルｖｉに基づいて、音圧レベル設定パラメータＩｖを計算する。なお、判定モデル及び条件分岐式の詳細については、後述する。

学習用データベース１３２Ｃは、判定モデル及び条件分岐式を作成するために必要なデータを格納している。具体的には、学習用データベース１３２Ｃは、事前に集められた模擬対話の音声データを格納している。また、当該音声データに含まれるそれぞれの発話に対して特徴量ベクトル及び教師ラベルが付されている。より具体的には、上述の方法等によって模擬対話の音声の音声波形が１以上の発話区間に分割され、それぞれの発話区間の音声波形に対し、特徴量ベクトル及び教師ラベルが付されている。ここで、ｉ番目（ｉは、１以上の整数である。）の発話区間に付される特徴量ベクトルをｖｉとし、教師ラベルをｃｉとする。すなわち、学習用データベース１３２Ｃは、事前に集められた模擬対話のｉ番目の発話区間の音声波形と、当該発話区間の特徴量ベクトルｖｉと、当該発話区間の教師ラベルｃｉと、を対応付けて、格納している。

オフライン学習部１３２Ｄは、学習用データベース１３２Ｃから、判定モデルを作成するために必要なデータを読み出し、判定モデルを作成し、作成した判定モデルを判定モデル及び条件分岐式データベース１３２Ｅに出力する。また、オフライン学習部１３２Ｄは、学習用データベース１３２Ｃから、条件分岐式を作成するために必要なデータを読み出し、条件分岐式を作成し、作成した条件分岐式を判定モデル及び条件分岐式データベース１３２Ｅに出力する。なお、ロボット１００がユーザとの対話を実際に開始する前に、オフライン学習部１３２Ｄは判定モデル及び条件分岐式を作成し、判定モデル及び条件分岐式データベース１３２Ｅは、当該判定モデル及び条件分岐式を格納している。

まず、オフライン学習部１３２Ｄによる判定モデルの作成について説明する。ここでは、オフライン学習部１３２Ｄが、判定モデルとして、ランダムフォレストを作成する方法について説明する。図４に示すように、オフライン学習部１３２Ｄは、学習用データベース１３２Ｃから、判定モデルを作成するために必要なデータを読み出し、複数のサンプルを有するサンプル集合Ｓを用意する。具体的には、ｉ番目のサンプルは、ｉ番目の発話区間の音声波形と、当該発話区間に付された特徴量ベクトルｖｉと、当該発話区間に付された教師ラベルｃｉとを含むデータである。図４において、ハッチングしているサンプルは、教師ラベルｃｉ（フィラー）を含み、ハッチングしていないサンプルは、教師ラベルｃｉ（沈黙）を含む。また、教師ラベルｃｉ（フィラー）は、フィラーを出力するというラベルであり、教師ラベルｃｉ（沈黙）は、沈黙するというラベルである。そして、オフライン学習部１３２Ｄは、図４に示すように、サンプル集合ＳをＴ個（Ｔは、１以上の整数である。）のサブセットＳ_ｊ（ｊは、１以上Ｔ以下の整数である。）に、ランダムに分ける。ここで、Ｔは、ランダムフォレストに含まれる決定木の本数に相当する。なお、オフライン学習部１３２Ｄが、サンプル集合ＳをサブセットＳ_１、Ｓ_２、・・・Ｓ_Ｔに分ける際、異なるサブセットに１つのサンプルがそれぞれ分配されたり、いずれのサブセットにも分配されないサンプルがあったりしてもよい。

次に、オフライン学習部１３２Ｄは、ランダムフォレストの決定木の各ノードの分岐関数を生成する。例えば、オフライン学習部１３２Ｄは、図５に示すように、分岐前のサブセットＳ_ｊに含まれるサンプルの特徴量ベクトルｖｉから、分岐関数ｆ_ｋの要素となる、特徴量の種類と当該特徴量の閾値との組み合わせをｋ個（ｋは、１以上の整数である。）ランダムに選択し、当該分岐関数ｆ_ｋを生成する。なお、候補数ｋは、特徴量ベクトルｖｉに含まれる特徴量の数をｍ個とすると（ｍは、１以上の整数である。）、以下の式（１）を満たすことが望ましい。
図５に示す例では、特徴量ベクトルｖｉは、１７個の特徴量の種類を含むため（ｍ＝１７）、ｋは約４となる。そこで、図５では、オフライン学習部１３２Ｄは、例えば、１番目の特徴量の種類及び閾値（０．４）、３番目の特徴量の種類及び閾値（０．３）、５番目の特徴量の種類及び閾値（０．６）、及び、１７番目の特徴量の種類及び閾値（０．４）の４つの組み合わせを選択し、分岐関数ｆ_ｋを生成している。また、図５に示す例では、生成された分岐関数は、以下の式（２）で表される。なお、式（２）において、ｘ_ｍは、ｍ番目の特徴量の値を意味する。

次に、オフライン学習部１３２Ｄは、ランダムフォレストのＴ本の決定木の各ノードのエントロピーを計算し、情報利得Ｉ_ｊを計算する。例えば、図６に示す例では、サブセットＳ_ｊを有する親ノードのエントロピーＨ（Ｓ_ｊ）が以下の式（３）で表され、
候補１のノードの左側への分岐のエントロピーＨ（Ｓ^Ｌ _１）及び右側への分岐のＨ（Ｓ^Ｒ _１）が以下の式（４）及び式（５）で表され、
候補２のノードの左側への分岐のエントロピーＨ（Ｓ^Ｌ _２）及び右側への分岐のＨ（Ｓ^Ｒ _２）が以下の式（６）及び式（７）で表される。
そして、各末端ノードの情報利得Ｉ_ｊは、以下の式（８）で表される。式（８）において、Ｈ（Ｓ_ｊ）は、分岐前のエントロピー（すなわち、親ノードのエントロピー）を意味し、Ｈ（Ｓ_ｌ）は、左側への分岐のエントロピーを意味し、Ｈ（Ｓ_ｒ）は、右側への分岐のエントロピーを意味する。
そのため、図６に示す例では、候補１のノードの情報利得Ｉ_１は、以下の式（９）で表され、
候補２のノードの情報利得Ｉ_２は、以下の式（１０）で表されるため、
候補２の情報利得Ｉ_２の方が、候補１の情報利得Ｉ_１よりも大きい。そして、オフライン学習部１３２Ｄは、各決定木の情報利得が最大となるように、当該決定木の形を決定する。すなわち、図６に示す例では、親ノードから候補２への分岐が選択される。換言すれば、オフライン学習部１３２Ｄは、情報利得が最大となるように、親ノードのサブセットＳｊ（分類前のサブセット）を分類する。そして、オフライン学習部１３２Ｄは、このようにして作成したランダムフォレストのＴ本の決定木を、判定モデルとして、判定モデル及び条件分岐式データベース１３２Ｅに出力する。

次に、上述のようにして作成された判定モデルを用いた音圧レベル設定パラメータＩｖの決定方法について説明する。まず、音圧レベル設定パラメータ計算部１３２Ｂは、判定モデル及び条件分岐式データベース１３２Ｅに格納されているランダムフォレスト（判定モデル）を読み出す。次に、音圧レベル設定パラメータ計算部１３２Ｂは、図７に示すように、ユーザ音声解析部１３１から入力されたｉ番目の発話区間の特徴量ベクトルｖｉに基づいて、Ｔ本の決定木（ｔｒｅｅｔ_１、・・・、ｔｒｅｅｔ_Ｔ）をトラバーサルする。そして、音圧レベル設定パラメータ計算部１３２Ｂは、たどり着いた各決定木の末端ノードに、オフライン学習部１３２Ｄによる学習時に親ノードのサブセットがどのような割合で振り分けられたかを示す値を、条件付き確率Ｐ_Ｔ（ｃ｜ｖ）として取得する。なお、当該Ｐ_Ｔ（ｃ｜ｖ）におけるｃは、「フィラーを出力するラベル」である。そして、音圧レベル設定パラメータ計算部１３２Ｂは、図７に示すように、Ｔ本の決定木のそれぞれで得られた条件付き確率Ｐ_Ｔ（ｃ｜ｖ）の平均値Ｐ（ｃ｜ｖ）を、音圧レベル設定パラメータＩｖとする。条件付き確率Ｐ_Ｔ（ｃ｜ｖ）の平均値Ｐ（ｃ｜ｖ）は、以下の式（１１）で表される。なお、平均値Ｐ（ｃ｜ｖ）は、ランダムフォレストのＴ本の決定木のそれぞれが特徴量ベクトルｖｉを識別した結果を統合した値である。
そして、音圧レベル設定パラメータ計算部１３２Ｂは、決定した音圧レベル設定パラメータＩｖを音声合成部１３２Ｆに出力する。

次に、オフライン学習部１３２Ｄによる条件分岐式の作成について説明する。オフライン学習部１３２Ｄは、学習用データベース１３２Ｃから、条件分岐式を作成するために必要なデータを読み出し、条件分岐式を作成する。具体的には、オフライン学習部１３２Ｄは、上述と同様の方法で、ランダムフォレストの決定木を作成する。

次に、オフライン学習部１３２Ｄは、学習用データベース１３２Ｃから、事前に集められた模擬対話のｉ番目の発話区間の特徴量ベクトルｖｉを読み出し、当該特徴量ベクトルｖｉの要素及び当該要素の特徴量の値に基づいて、ランダムフォレストの決定木をトラバーサルする。例えば、オフライン学習部１３２Ｄは、特徴量ベクトルｖｉの要素「ユーザ発話の長さ」及び当該要素の特徴量の値に基づいてランダムフォレストの決定木をトラバーサルすることにより、図８に示す、要素「ユーザ発話長さ」と、沈黙又はフィラーの頻度との関係を示すグラフを作成する。図８において、縦軸は、沈黙又はフィラーを出力する頻度を示し、横軸は、ユーザ発話長さ（ｓｅｃ）を示す。なお、単位「ｓｅｃ」は「秒」を意味する。

さらに、オフライン学習部１３２Ｄは、図８に示すグラフから、図９に示す、要素「ユーザ発話長さ」と、フィラーを出力する割合との関係を示す表を作成する。例えば、ユーザ発話の長さが０秒以上１秒未満である場合、フィラーを出力する割合は、図８より、２÷（２０＋２）＝０．１１である。しかし、０．５≦Ｉｖ≦１であるため、ユーザ発話の長さが０秒以上１秒未満である場合にフィラーを出力する割合は、０．５とされる。また、ユーザ発話の長さが３秒以上４秒未満である場合、フィラーを出力する割合は、図８より、１２÷（１２＋４）＝０．７５である。そして、オフライン学習部１３２Ｄは、当該フィラーを出力する割合を、音圧レベル設定パラメータＩｖとし、図８に示すグラフ及び図９に示す表から、条件分岐式を作成する。図８、図９に示す例の場合、条件分岐式は、以下の式（１２）で表される。なお、以下の式（１２）において、ｔは、ユーザ発話の長さ（ｓｅｃ）である。
そして、オフライン学習部１３２Ｄは、このようにして作成した条件分岐式を判定モデル及び条件分岐式データベース１３２Ｅに出力する。

次に、上述のようにして作成された条件分岐式を用いた音圧レベル設定パラメータＩｖの決定方法について説明する。まず、音圧レベル設定パラメータ計算部１３２Ｂは、判別モデル及び条件分岐式データベース１３２Ｅから条件分岐式を読み出し、ユーザ音声解析部１３１から入力されたｉ番目の発話区間の特徴量ベクトルｖｉと、当該条件分岐式とに基づいて、音圧レベル設定パラメータＩｖを計算する。例えば、ユーザ音声解析部１３１から入力されたｉ番目の発話区間の特徴量ベクトルｖｉに含まれる要素「ユーザ発話長さ」の特徴量が２．４（ｓｅｃ）である場合、音圧レベル設定パラメータ計算部１３２Ｂは、式（１２）で表される条件分岐式に基づいて、音圧レベル設定パラメータＩｖの値を０．６９と決定する。
そして、音圧レベル設定パラメータ計算部１３２Ｂは、決定した音圧レベル設定パラメータＩｖを音声合成部１３２Ｆに出力する。

なお、音圧レベル決定部１３２によって決定されるＩｖの値は、ユーザ音声解析部１３１から同じ特徴量ベクトルｖｉが入力されたとしても、ユーザとロボット１００とが対話する内容、ロボット１００が用意している質問内容、ユーザとロボット１００とが用いる言語等によって、異なる値となる。換言すれば、オフライン学習部１３２Ｄは、ユーザとロボット１００とが対話する内容、ロボット１００が用意している質問内容、ユーザとロボット１００とが用いる言語等ごとに、あらかじめ、判定モデル及び条件分岐式を作成する。

次に、音声合成部１３２Ｆが、音圧レベル決定部１３２から入力された音圧レベル設定パラメータＩｖに応じた音圧レベルを決定する方法について説明する。
音声合成部１３２Ｆは、例えば、音圧レベル設定パラメータＩｖ＝０．５の時、ユーザとロボット１００との距離が５０ｃｍ、病院内の個室という環境下で、ユーザの耳元におけるロボット１００から出力された音声の大きさが５０ｄＢとなり、音圧レベル設定パラメータＩｖ＝１の時、当該環境下でユーザの耳元におけるロボット１００から出力された音声の大きさが６０ｄＢとなるような音声を合成できる音圧レベル計算式を格納している。例えば、音圧レベル計算式は、以下の式（１３）で表される。以下の式（１３）において、Ｐは、音声合成部１３２Ｆにおける調整用変数である。
すなわち、Ｉｖが０．５に近い値である場合、フィラーを出力する信頼度は低いため、音声合成部１３２Ｆは、フィラーの音圧レベルを比較的小さい音圧レベル（例えば、５０ｄＢ）とする。一方、Ｉｖが１に近い値である場合、フィラーを出力する信頼度は高いため、音声合成部１３２Ｆは、フィラーの音圧レベルを比較的大きい音圧レベル（例えば、６０ｄＢ）とする。

または、音声合成部１３２Ｆは、音圧レベル設定パラメータＩｖと音圧レベル（ｄＢ）とを対応付けた表を予め格納しており、音圧レベル決定部１３２から入力された音圧レベル設定パラメータＩｖと当該表とに基づいて、フィラーを出力する音圧レベルを決定してもよい。

実施例１
次に、本実施の形態１に係るロボット１００とユーザとの対話の一例を実施例１として説明する。図１０は、ユーザとロボット１００との会話の一例を示す。
例えば、ユーザのｉ番目の発話内容が、図１０における「ロボ君は行ったことある？」という質問である場合（ユーザがロボット１００に質問している場合）、ｉ番目の発話区間の特徴量ベクトルｖｉの各要素及び特徴量の値は、図３に示すものとなり、ｉ番目の発話区間の特徴量ベクトルｖｉは、ｖｉ＝（・・・，２．４，・・・，２０，１，１，・・・）と表される。そして、当該特徴量ベクトルｖｉと上述の判定モデル（ランダムフォレスト）を用いて、音圧レベル設定パラメータ計算部１３２Ｂが計算するＩｖの値は、０．７となる（図７参照）。また、当該特徴量ベクトルｖｉと上述の条件分岐式を用いて、音圧レベル設定パラメータ計算部１３２Ｂが計算するＩｖの値は、０．６９となる（図９参照）。
そして、音声合成部１３２Ｆは、当該音圧レベル設定パラメータＩｖと、上述の音圧レベル計算式又は音圧レベル設定パラメータＩｖと音圧レベル（ｄＢ）とを対応付けた表とに基づいて、６０ｄＢに近い音圧レベルでフィラー「えーっと」を合成し、出力部１２０に出力する。

一方、ユーザのｉ番目の発話内容が、図１０における「昨日は公園に行ってきて」という発話である場合（ユーザがロボット１００に質問していない場合）、ｉ番目の発話区間の特徴量ベクトルｖｉの各要素及び特徴量の値は、図１１に示すものとなり、ｉ番目の発話区間の特徴量ベクトルｖｉは、ｖｉ＝（・・・，１．７，・・・，２０，１，１，・・・）と表される。そして、当該特徴量ベクトルｖｉと上述の判定モデル（ランダムフォレスト）を用いて、音圧レベル設定パラメータ計算部１３２Ｂが計算するＩｖの値は、０．５５となる。また、当該特徴量ベクトルｖｉと上述の条件分岐式を用いて、音圧レベル設定パラメータ計算部１３２Ｂが計算するＩｖの値は、０．５となる（図９参照）。
そして、音声合成部１３２Ｆは、当該音圧レベル設定パラメータＩｖと、上述の音圧レベル計算式又は音圧レベル設定パラメータＩｖと音圧レベル（ｄＢ）とを対応付けた表とに基づいて、音圧レベル５０ｄＢでフィラー「えーっと」を合成し、出力部１２０に出力する。

図１２に、実施例１においてロボット１００が出力するフィラーの音声波形を示す。図１２の上側に、ユーザのｉ番目の発話内容が、図１０における「ロボ君は行ったことある？」という質問である場合に、ロボット１００が出力するフィラー「えーっと」の音声波形を示す。また、図１２の下側に、ユーザのｉ番目の発話内容が、図１０における「昨日は公園に行ってきて」という発話である場合に、ロボット１００が出力するフィラー「えーっと」の音声波形を示す。また、図１２において、縦軸は、音声波形の振幅を示し、横軸は、時間（ｓｅｃ）を示す。

図１２に示すように、ユーザのｉ番目の発話内容が「ロボ君は行ったことある？」という質問である場合は、ロボット１００がユーザに対して答える必要があり、フィラーを出力する信頼度は高いといえる。実施例１において、このような場合には、フィラーの音圧レベルを大きくすることができている。
一方、ユーザのｉ番目の発話内容が「昨日は公園に行ってきて」という発話である場合は、ロボット１００がフィラーを出力する信頼度は低いといえる。実施例１において、このような場合には、フィラーの音圧レベルを小さくすることができている。

以上に説明した、実施の形態１に係るロボット１００によれば、音圧レベル決定部１３２によって、ユーザ音声解析部１３１によって抽出された特徴量に基づいてフィラーを出力する信頼度を示す値Ｉｖが計算され、フィラーを出力する信頼度を示す値Ｉｖに基づいてフィラーの音圧レベルが決定される。そのため、フィラーを出力する信頼度を示す値Ｉｖに応じた音圧レベルで出力部１２０はフィラーを出力することができる。そして、フィラーを出力する信頼度は、発話権がロボット１００にある可能性と正の相関関係にある。すなわち、発話権がロボット１００にある否かがあいまいな場合であっても、発話権がロボット１００にある可能性に応じた音圧レベルで出力部１２０はフィラーを出力することができる。そのため、発話権がロボット１００にある可能性が低い場合には出力部は小さい音圧レベルでフィラーを出力することとなり、出力部１２０が出力したフィラーによってユーザの発話を遮ることを低減できる。これにより、ユーザの発話を遮ってしまう可能性を低減することができるロボット１００を提供することができる。

本実施の形態に係るロボット１００においては、ユーザの音声の音声波形の基本周波数ｆ０やロボット１００の発話の過去履歴等の情報を用いてフィラーの音圧レベルを決定するため、ユーザの音声の言語情報を用いる処理に比べて、処理が比較的軽い計算でフィラーの音圧レベルを決定することができる。

なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、判定モデルとしては、上述のランダムフォレストだけでなく、サポートベクタマシン（ＳＶＭ）等の他の機械学習手法を用いてもよい。また、本実施の形態では、ユーザ音声解析部１３１は、ロボット１００の発話の過去履歴の情報からも特徴量ベクトルｖｉの特徴量を抽出しているが、ユーザの音声の音声波形のみから、特徴量ベクトルｖｉの特徴量を抽出してもよい。また、ロボット１００は、ユーザの発話区間と発話区間との合間にフィラーを発しない場合があるのは言うまでもない。ロボット１００は、ユーザの発話区間と発話区間との合間に、フィラーを出力してもよいだけでなく、沈黙していてもよいし、発話（対話内容として意味を持つ音声）を出力してもよい。また、本実施の形態では、音声対話装置としてロボット１００を説明したが、本発明に係る音声対話装置は、ユーザと対話可能な装置であれば何であってもよく、例えば、ユーザと対話するアプリケーションが組み込まれたスマートフォン等であってもよい。

１００ロボット（音声対話装置）
１１０入力部
１２０出力部
１３０制御部
１３１ユーザ音声解析部
１３２音圧レベル決定部
１３２Ａ手法選択部
１３２Ｂ音圧レベル設定パラメータ計算部
１３２Ｃ学習用データベース
１３２Ｄオフライン学習部
１３２Ｅ判定モデル及び条件分岐式データベース
１３２Ｆ音声合成部

Claims

ユーザの音声を入力する入力部と、前記ユーザに対して音声を出力する出力部とを備える音声対話装置であって、
少なくとも前記入力部によって入力された前記音声の音声波形から特徴量を抽出するユーザ音声解析部と、
前記出力部が前記ユーザに対してフィラーを出力する際に、前記ユーザ音声解析部によって抽出された前記特徴量に基づいて前記フィラーを出力する信頼度を示す値を計算し、前記フィラーを出力する信頼度を示す値に基づいて前記フィラーの音圧レベルを決定する音圧レベル決定部と、
を備える、音声対話装置。