JP5051882B2

JP5051882B2 - 音声対話装置、音声対話方法及びロボット装置

Info

Publication number: JP5051882B2
Application number: JP2007161998A
Authority: JP
Inventors: 哲則小林; 真也藤江; 大地渡辺
Original assignee: Waseda University
Current assignee: Waseda University
Priority date: 2007-06-20
Filing date: 2007-06-20
Publication date: 2012-10-17
Anticipated expiration: 2027-06-20
Also published as: JP2009003040A

Description

本発明は、音声対話装置、音声対話方法及びロボット装置に関し、例えば話者との対話中に所定のタイミングで相槌音を出力する音声対話装置に適用して好適なものである。

従来、話者との対話において、所定のタイミングで相槌音を出力することにより、話者の発話を認識していることを通知し、話者との間で円滑な対話を行う音声対話装置が考えられている。

実際上、このような音声対話装置は、例えばマイクロホン等の音声入力部に入力された音声信号に基づいて話者が現在発話中であるか否かを認識する認識手段を備え、当該認識手段において音声信号が所定の無音時間入力されていないと認識すると、話者との対話の区切り目であると判断し、スピーカ等の出力手段から相槌音を出力し得るようになされている（例えば、非特許文献１参照）。

また、他の音声対話装置としては、音声入力部に入力された音声信号に基づいて話者の発話の高さを示す基本周波数を算出すると共に、当該音声信号における音声波形のパワーを算出した後、これら基本周波数及びパワーを関係付けた音声特徴量を算出し、この音声特徴量に基づいて相槌音を出力するタイミングを推測して相槌音を出力する音声対話装置が考えられている（例えば、非特許文献２参照）。
竹内真士、北岡教英、中川聖一「韻律・表層的言語情報を発話タイミング制御に用いた雑談対話システム」情報処理学会研究報告、SLP-50、no.14、pp.87-92、2004年2月藤江真也、福島健太、小林哲則、"言語/非言語情報を用いた相槌機能の実現," 日本音響学会春季研究発表会、pp.655-656、2005年3月

しかしながら、前者の音声対話装置では、短時間ではあるものの、最後に入力された音声信号から時間を計時してゆき、所定の無音時間が経過したときに初めて相槌音を出力するタイミングであると判定しているため、明らかに無音区間であることが判別できる無音時間の分だけ相槌音を出力するタイミングが必ず遅延し、対話内容によっては不自然な相槌となる虞があるという問題があった。

また、後者の音声対話装置では、上述した無音時間を設ける必要がないことから、相槌の遅延を最小限に抑えることができるが、話者が未だ発話を継続している場合でも、当該発話にかかわらず推測したタイミングで相槌音が出力される虞があり、この場合、相槌音が話者の発話を遮ることになり、円滑な対話を損なうという問題があった。

本発明は以上の点を考慮してなされたもので、自然で円滑な対話を実現できる音声認識装置、音声認識方法及びロボット装置を提案することを目的とする。

かかる課題を解決するため本発明の音声対話装置は、入力された音声信号を基に計算した話者の音声特徴量に基づいて、前記話者との対話中に相槌手段に相槌させる相槌タイミングを推測する推測手段と、前記話者との対話中に前記相槌手段に相槌させる前記相槌タイミングがあるとの推測結果が前記推測手段により得られると、前記相槌タイミング直前の前記音声信号を基に前記相槌手段に相槌させるか否かを最終的に判定する相槌判定手段とを備えることを特徴とするものである。

また、本発明の音声対話装置は、前記相槌判定手段は、前記相槌タイミングの直前で前記話者が発話しているか否かを前記音声信号に基づき判定し、前記相槌タイミングの直前で前記話者が発話していないと判断したときにのみ前記相槌手段に相槌させることを特徴とするものである。

また、本発明の音声対話装置は、前記音声特徴量は、前記話者の韻律的特徴を示した韻律情報であることを特徴とするものである。

また、本発明の音声対話装置は、前記相槌判定手段は、前記相槌タイミングの直前の前記音声信号から得られる音声らしさを表す評価値が所定の閾値以下のときに、前記話者が発話していないと判断することを特徴とするものである。

また、本発明の音声対話装置は、前記相槌手段は、前記相槌判定手段からの相槌信号により、前記相槌として所定の相槌音を出力する電気音響変換手段であることを特徴とするものである。

また、本発明の音声対話方法は、入力された音声信号を基に計算した話者の音声特徴量に基づいて、前記話者との対話中に相槌手段に相槌させる相槌タイミングを推測する推測ステップと、
前記話者との対話中に前記相槌手段に相槌させる前記相槌タイミングがあるとの推測結果が得られると、前記相槌タイミング直前の前記音声信号を基に前記相槌手段に相槌させるか否かを最終的に判定する相槌判定ステップとを備えることを特徴とするものである。

また、本発明の音声対話方法は、前記相槌判定ステップは、前記相槌タイミングの直前で前記話者が発話しているか否かを前記音声信号に基づき判定し、前記相槌タイミングの直前で前記話者が発話していないと判断したときにのみ前記相槌手段に相槌させることを特徴とするものである。

また、本発明の音声対話方法は、前記音声特徴量は、前記話者の韻律的特徴を示した韻律情報であることを特徴とするものである。

また、本発明の音声対話方法は、前記相槌判定ステップは、前記相槌タイミングの直前の前記音声信号から得られる音声らしさを表す評価値が所定の閾値以下のときに、前記話者が発話していないと判断することを特徴とするものである。

また、本発明の音声対話方法は、前記相槌手段は、前記相槌判定手段からの相槌信号により、前記相槌として所定の相槌音を出力する電気音響変換手段であることを特徴とするものである。

また、本発明のロボット装置は、前記請求項１〜５に記載の音声対話装置を備えたことを特徴とするものである。

また、本発明のロボット装置は、前記相槌手段は可動部であって、前記可動部は、前記相槌タイミングに相槌させるとの判定結果を前記相槌判定手段から得ると、前記相槌タイミングに相槌動作を行うことを特徴とするものである。

本発明の音声対話装置及び音声対話方法によれば、一般の対話者が相槌をする目安としている音声特徴量を基に相槌タイミングを推測することで、対話者が相槌をするであろうタイミングを相槌タイミングとして推測でき、かつ２段階の判定により仮に１度目の相槌タイミングが誤検出であっても、当該相槌タイミングを棄却することにより、誤って推測した不自然な相槌を回避でき、かくして自然で円滑な対話を実現できる。また、２度目の判定は相槌タイミングの直前の一瞬の音声信号だけなので、従来のポーズ検出手法のように無音区間を判定するために必要な間が生じることを確実に回避でき、かくして自然で円滑な対話を実現できる。

本発明の音声対話装置及び音声対話方法によれば、相槌タイミングが推測された場合であっても、当該相槌タイミングの時点で話者が発話しているときには相槌を行わせないことから、話者の発話が相槌で遮られずにすむので、話者との間で円滑な対話を実現できる。

本発明の音声対話装置及び音声対話方法によれば、一般の対話者が相槌をする目安としている韻律情報を基に相槌タイミングを推測することで、対話者が相槌をするであろう相槌タイミングを推測できる。

本発明の音声対話装置及び音声対話方法によれば、閾値を基に、話者の発話と、発話以外の周辺音とを区別し、これにより話者が発話していない無声区間であることを判断でき、かくして相槌に適した話者の無声区間で相槌させることができる。

本発明の音声対話装置及び音声対話方法によれば、自動音声案内等のような話者との間で音声でやり取りを行う場合に自然で円滑な対話を実現できる。

本発明のロボット装置によれば、自然で円滑な対話を行えるロボット装置を提供することができる。

本発明のロボット装置によれば、２段階の判定結果に基づいて所定の相槌タイミングで可動部を可動させることで相槌を行い、自然で円滑な対話を行えるロボット装置を提供することができる。

以下図面に基づいて本発明の実施の形態を詳述する。

（１）第１の実施の形態
図１において、１は本発明による音声対話装置を示し、この音声対話装置１は、話者の発音を集音し、音声信号として得る音声入力部２と、音声入力部２で得られた音声信号に基づいて話者の音声の韻律的特徴を示す情報（以下、これを韻律情報と呼ぶ）を計算するＦＯ抽出・パワー計算部３と、韻律情報に基づいて少ない情報量で音声の特徴を表す情報（以下、これを音声特徴量と呼ぶ）を算出し、この音声特徴量を用いて相槌音を出力するタイミング（以下、これを相槌タイミングと呼ぶ）を推測する推測部４と、当該推測部４で推測した相槌タイミングで相槌音を出力するか否かを相槌判定部５で最終的に判定し、その判定結果により所定の相槌タイミングで相槌音を相槌手段としてのスピーカ６から出力する出力部７とから構成されている。

すなわち、この音声対話装置１は、話者と対話を行う対話モード時、音声入力部２から話者の音声信号が入力さると、既に記憶部10に記憶されている複数の学習時音声特徴量を用いて相槌音の相槌タイミングを決定し、この相槌タイミングで相槌音を出力することにより話者が発話し易くなると思われると判定したときにのみ、決定した相槌タイミングで相槌音を出力し、これにより話者と円滑な対話が行え得るようになされている。

この場合、音声対話装置１は、先ず始めに複数の話者の音声信号に基づいて予め学習時音声特徴量を生成して記憶部10に記憶しておくことが必要であり、この学習用音声特徴量を生成するために実行する各種処理を学習用プログラムに従ってソフトウェア的に実現する。

具体的には、音声対話装置１は、学習用プログラムに従って学習用音声特徴量を生成する学習モード時、任意の話題について発話させる話者と、この話者の発話を聴いて相槌を打っても良いと思われるタイミングで操作キー（図示せず）を押下させて相槌音の相槌タイミングを決定する対話者とがペアとなり、話者の学習用音声特徴量と、対話者の操作キーを押下したタイミング情報とを取得し得るようになされている。

すなわち、音声対話装置１は、話者が発話すると、音声入力部２に入力された音声信号をＦＯ抽出・パワー計算部３へ送出し、ＦＯ抽出・パワー計算部３において音声信号に基づき韻律情報として基本周波数（ＦＯ）とパワーとを算出して、これら基本周波数及びパワーをＦＯ代表点計算部11に送出する。

ここで声の強さを示すパワーＰｗｒ（ｔ）は、次式

によって求められる。なお、窓関数としては例えばハミング窓を用い、ｗ（ｘ）＝０．５４−０．４６ｃｏｓ２πｘで表され、Ｗ＝０．６３とする。

また、ＦＯ抽出・パワー計算部３は、基本周波数抽出処理プログラムに従って基本周波数抽出処理を実行することにより、音声信号から声の高さを示す基本周波数を抽出する。

すなわち、ＦＯ抽出・パワー計算部３は、図２に示すように、基本周波数処理手順ＲＴ１の開始ステップから入り、続くステップＳＰ１へ移る。

ステップＳＰ１においてＦＯ抽出・パワー計算部３は、例えば標本化周波数１６［ＫＨｚ］、量子ビット数１６［ｂｉｔ］でＡ／Ｄ変換して音声信号を得、この連続的な音声波形を有する音声信号を所定長さのフレームに順次切り出してゆき、次のステップＳＰ２へ移る。

なお、この実施の形態の場合、ＦＯ抽出・パワー計算部３は、例えばフレームサイズ１０２４ポイント、フレームシフト幅８０ポイント（５［ｍｓｅｃ］）毎に音声信号を切り出すようになされている。

ステップＳＰ２においてＦＯ抽出・パワー計算部３は、各フレームに対して例えばハミング窓等の窓関数をかける窓がけ処理を行うことにより、音声信号における音声波形の不連続性を軽減した窓関数処理データを得、次のステップＳＰ３へ移る。

ステップＳＰ３においてＦＯ抽出・パワー計算部３は、窓関数処理データに対して高速フーリエ変換（ＦＦＴ）を施すことにより音声信号からスペクトルを計算し、次のステップＳＰ４へ移る。

ステップＳＰ４においてＦＯ抽出・パワー計算部３は、ステップＳＰ３のスペクトルをフィルタバンク出力と解釈して瞬時周波数を計算した後、この瞬時周波数軸上にパワースペクトルを写像し、次のステップＳＰ５へ移る。

ステップＳＰ５においてＦＯ抽出・パワー計算部３は、瞬時周波数軸上のパワースペクトルに、予め計算した各基本周波数（５０［Ｈｚ］〜３００［Ｈｚ］程度）に対応するコムフィルタをかけてコムフィルタ出力データを得、次のステップＳＰ６へ移る。

ここで各コムフィルタは、対応する基本周波数と、当該基本周波数に関する高調波成分のみを出力するようになされている。これにより、対応する基本周波数を持つパワースペクトルの出力は、他に比べて大きくなる。

ステップＳＰ６においてＦＯ抽出・パワー計算部３は、コムフィルタ出力データの中で最も大きい値を選択し、コムフィルタに対応する基本周波数を、対象としたフレームの基本周波数抽出結果として得、次にステップＳＰ７へ移って基本周波数処理手順を終了する。

ＦＯ代表点計算部11は、このようにして算出した基本周波数及びパワーを受け取ると、連続するＮ個のフレームの基本周波数抽出結果を最小二乗法を用いて直線に近似し、このときの近似した直線と基本周波数抽出結果との平均誤差を算出する。

ＦＯ代表点計算部11は、このようにして求めた平均誤差が、当該平均誤差について予め定められた所定の閾値Ｎｅ以下であるか否かを判断し、当該平均誤差が閾値Ｎｅ以下であるとき、対象としているＮフレームの端点の近似値を代表点として決定する。

かくして、ＦＯ代表点計算部11は、図３に示すように、基本周波数（ＦＯ）の抽出結果とある程度近似できたフレームの端点を代表点として得、このようにして順次得られた代表点、基本周波数及びパワーを音声特徴量抽出部12に送出する。

音声特徴量抽出部12は、ＦＯ代表点計算部11から代表点を受け取る毎に、この代表点を基準代表点とし、この判断基準となる基準代表点から過去Ｒ個の代表点と、過去Ｒ個の代表点での各パワー点とを基に学習時音声特徴量を算出する。

この実施の形態の場合、図４に示すように、基準代表点ｒｐから例えば過去４個（すなわちＲ＝４）の代表点ｒ１〜ｒ４を選択するようになされており、これら過去４個の各代表点ｒ１〜ｒ４と基準代表点ｒｐとの各周波数差分値ｆ１〜ｆ４と、過去４個の代表点ｒ１〜ｒ４の各パワー点ｐ１〜ｐ４と基準代表点ｒｐのパワー点ｐｐとの各パワー差分値ｐｄ１〜ｐｄ４と、隣接する代表点間の時間ｔ１〜ｔ３と、基準代表点ｒｐ及び基準代表点ｒｐと隣接する過去の代表点ｒ１間の時間ｔ４とを抽出し、これら１２次元をまとめて学習時音声特徴量として得、これをタイミング判定部13に順次送出してゆくようになされている。

タイミング判定部13は、話者の発話に対して順次学習時音声特徴量を算出すると同時に、操作キーからのタイミング情報を待ち受けている。

タイミング判定部13は、操作キーからタイミング情報を受け取ると、このタイミング情報を得た直前の学習時音声特徴量における基準代表点ｒｐからタイミング情報を得た時点までの経過時間を特定し、この経過時間を学習時音声特徴量にタグ付けして、相槌音がどのタイミングで出力されたかを示すようになされている。

かくしてタイミング判定部13は、記憶部10に学習時音声特徴量を送出する際に、タイミング情報が得られると、タイミング情報を得るたびに学習時音声特徴量にタグ付けして記憶部10に送出し得るようになされている。かくして記憶部10は、タイミング判定部13から順次受け取る学習時音声特徴量を記憶してゆくようになされている。

このようにして音声対話装置１では、学習モード時、複数の被験者を話者と対話者とに分けて２人１組で上述した処理を実行してゆき、複数種類の学習時音声特徴量を記憶部10に記憶し得るようになされている。

その後、複数種類の学習時音声特徴量を記憶させた音声対話装置１は、学習モードから対話モードに移行し、このとき話者が発音し始めると、学習時音声特徴量によって得られた相槌を打つ傾向から、話者が発話し易くなると思われる相槌タイミングを推測し、さらに２段階目の判定を行い、相槌タイミングで相槌音を実際に出力したときに話者と円滑な対話が行えると判定したときにのみ、自動的に相槌音を出力し得るようになされている。

すなわち、音声対話装置１は、対話モードに移行すると、図５に示すように相槌２段階判定プログラムに従って相槌２段階判定処理手順ＲＴ２の開始ステップから入り、続くステップＳＰ１０へ移る。

ステップＳＰ１０において音声対話装置１は、話者が発話すると、音声入力部２で得られた音声信号をＦＯ抽出・パワー計算部３（図１）へ入力し、次のステップＳＰ１１へ移る。

ステップＳＰ１１において音声対話装置１は、音声信号に基づいて基本周波数を抽出すると共に、パワーＰｗｒ（ｔ）を計算した後、これら基本周波数及びパワーＰｗｒ（ｔ）をＦＯ代表点計算データとしてＦＯ代表点計算部11（図１）に送出し、次のステップＳＰ１２へ移る。因みに、パワーＰｗｒ（ｔ）及び基本周波数の計算については、上述した説明と重複するためその説明は省略する。

ステップＳＰ１２において音声対話装置１は、ＦＯ代表点計算部11により、対象とする連続したＮ個のフレーム分の基本周波数抽出結果を最小二乗法を用いて直線に近似し、このとき近似した直線と基本周波数抽出結果との平均誤差を算出する。

次いで、音声対話装置１は、このようにして求めた平均誤差が、当該平均誤差について予め定められた所定の閾値Ｎｅ以下であるか否かを判断し、当該平均誤差が閾値Ｎｅ以下であるとき、対象としているＮ個のフレームの端点の近似値を代表点として決定する。

音声対象装置は、このようにして得られた代表点、基本周波数及びパワーＰｗｒ（ｔ）を音声特徴量抽出部12に送出し、次のステップＳＰ１３へ移る。

ステップＳＰ１３において音声対話装置１は、学習時音声特徴量を生成した処理手順と同様に、対話モード時においても、図４に示すように、先ず最新の代表点を基準代表点ｒｐとし、この基準代表点ｒｐから過去４個の代表点ｒ１〜ｒ４を選択するようになされており、これら過去４個の各代表点ｒ１〜ｒ４と基準代表点ｒｐとの各周波数差分値ｆ１〜ｆ４と、過去４個の代表点ｒ１〜ｒ４の各パワー点ｐ１〜ｐ４と基準代表点ｒｐのパワー点ｐｐとの各パワー差分値ｐｄ１〜ｐｄ４と、隣接する代表点ｆ１〜ｆ４間の時間ｔ１〜ｔ３と、基準代表点ｒｐ及び基準代表点ｒｐと隣接する過去の代表点ｒ１間の時間ｔ４とを抽出して、これら１２次元をまとめて音声特徴量として得、これをタイミング判定部13へ送出し、次のステップＳＰ１４へ移る。

ステップＳＰ１４において音声対話装置１は、１段階判定として、タイミング判定部13により、記憶部10から複数種類の学習時音声特徴量を全て読み出した後、これら複数種類の学習時音声特徴量と音声特徴量とを対比してゆくことにより、学習時音声特徴量におけるタグ付けの有無の傾向から音声特徴量を得た時点で相槌音を出力する相槌タイミングがあるか否かを判断する。

具体的に、音声対話装置１は、判断対象となる音声特徴量における周波数差分値ｆ１〜ｆ４と、パワー差分値ｐｄ１〜ｐｄ４と、隣接する代表点ｒ１〜ｒ４間の時間ｔ１〜ｔ３と、基準代表点ｒｐ及びこれに隣接する過去の代表点ｒ１間の時間ｔ４との１２次元全てが一致する学習時音声特徴量を検索する。

そして音声対話装置１は、判断対象となる音声特徴量と一致した学習時音声特徴量全てについて、図６に示すように、判断対象となる音声特長量の基準代表点ｒｐを得た時刻ｔ´の直後Ｇｍｉｎ〜Ｇｍａｘの期間Ｔ１に相当する期間（以下、この期間を相槌判断期間と呼ぶ）に、相槌タイミングのタグ付けがされているか否かを順次判断してゆく。

この判断の結果、タイミング判定部13は、図７（Ａ）に示すように、判断対象となる音声特徴量と一致した学習時音声特徴量にうち、基準代表点ｒｐを得た時刻ｔの直後の相槌判断期間Ｔ２にタグｔｇが付された学習時音声特徴量を相槌タイミングモデルとしてモデル化する。

一方、タイミング判定部13は、図７（Ｂ）に示すように、判断対象となる音声特徴量と一致した学習時音声特徴量のうち、基準代表点ｒｐを得た時刻ｔの直後の相槌判断期間Ｔ２にタグｔｇが付けられていない学習時音声特徴量をガーベッジ（不要なデータ）モデルとしてモデル化する。なお、この実施の形態の場合、相槌タイミングモデル及びガーベッジモデルは混合正規分布で表現し得るようになされている。

そして、タイミング判定部13は、現在判断対象となっている音声特徴量について、全ての学習時音声特徴量を基に相槌タイミングモデル（図７（Ａ））及びガーベッジモデル（図７（Ｂ））のうち、どちらのモデルの出力尤度（統計的観点から見た尤もらしさの度合い）が上回ったかを判断する。

その結果、音声対話装置１は、タイミング判定部13において、例えばガーベッジモデルの出力尤度が上回ると、判断対象となっている音声特徴量が、相槌音を出力するに適しない音声特徴量であると推測し、次のステップＳＰ１５へ移る。これにより音声対話装置１は、相槌音を出力することなく、新たな音声特徴量を判断対象とし、新たな判断対象となった音声特徴量について上述した処理を行ってゆく。

一方、音声対話装置１は、タイミング判定部13において、例えば相槌タイミングモデルの出力尤度が上回ると、判断対象となっている音声特徴量が、相槌音を出力するに適した相槌タイミングがある音声特徴量であると推測し、次のステップＳＰ１６へ移る。

ステップＳＰ１６において音声対話装置１は、２段階判定として、次式により決められた相槌タイミングＢＣの直前のパワーが、当該パワーについて予め定められた所定の閾値以下であるか否かを判断する。

なお、ここで相槌タイミングＢＣの直前とは、相槌タイミングＢＣから０〜０．４［ｓ］前であり、後述する検証試験により相槌タイミングＢＣに近いほど最適な相槌音を出力できることから、相槌タイミングＢＣとほぼ同時刻であることが好ましい。

すなわち、相槌判定部５は、例えば基準代表点ｒｐの時刻ｔ´から相槌タイミングＢＣまでの間に、音声らしさを表す評価値としてのパワーが存在する場合、当該相槌タイミングＢＣ直前のパワーが所定の閾値以下であるか否かを判断し、これにより相槌音を出力するか否かについて２段階目の判定を行うようになされている。

このステップＳＰ１６で否定結果が得られると、このことは相槌タイミングＢＣ直前のパワーが所定の閾値より上であること、すなわち未だ話者が発話中であることを表しており、このとき音声対話装置１は次のステップＳＰ１５へ移り、当該相槌タイミングＢＣでの相槌音の出力を中止する。

これに対して、ステップＳＰ１６で肯定結果が得られると、このことは相槌タイミングＢＣ直前のパワーが存在しないか、或いはパワーが存在していても所定の閾値以下であること、すなわち現在話者が発話しておらず、無声休止期間であり相槌音を出力する最適なタイミングであることを表しており、このとき音声対話装置１は次のステップＳＰ１７へ移る。

ステップＳＰ１７において音声対話装置１は、相槌判定部５により相槌信号を生成して、この相槌信号をスピーカ６に送出することにより、相槌タイミングＢＣでスピーカ６から所定の相槌音を出力し、次のステップＳＰ１５へ移り、上述した処理を終了する。

ここで、この実施の形態の場合、相槌タイミングＢＣで相槌音を出力するか否かのパワーの判断に、所定の閾値を設けるようにしたことにより、話者の発話と、周囲の雑音等の発話以外の周辺音とを区別し、これにより話者が発話していない無声区間であることを判断でき、かくして相槌タイミングのなかでも、最適な話者の無声区間において相槌音を一段と確実に出力できる。

以上の構成において、音声対話装置１では、音声入力部２に入力された音声信号から話者の音声特徴量を抽出してゆき、この判断対象となる音声特徴量と同じ学習時音声特徴量を記憶部10から全て読み出してゆく。

音声対話装置１では、読み出した学習時音声特徴量に相槌音の相槌タイミングを示すタグが相槌判断期間Ｔ２に付されているか否かを判断し、当該相槌判断期間Ｔ２にタグが付されている学習時音声特徴量を相槌タイミングモデルとし、一方、相槌判断期間Ｔ２にタグが付されていない学習時音声特徴量をガーベッジモデルとしてモデル化して、相槌タイミングモデル及びガーベッジモデルの出力尤度を比較する。

その結果、音声対話装置１では、判断対象となる音声特徴量に対して相槌タイミングモデルの出力尤度がガーベッジモデルの出力尤度を上回ると、判断対象となる音声特徴量に相槌音を出力する相槌タイミングがあるだろうと推測し、１段階判定による相槌タイミング判定を行うことができる。

これにより、音声対話装置１では、一般的の対話者が相槌を打つべきか否かを判断する際に重要な情報となる音声特徴量に基づいて相槌音を出力するか否かを判断することができるので、対話者が相槌をするであろうタイミングを相槌タイミングとして推測でき、かくして話者との対話中に自然なタイミングで相槌音を出力できる。

かかる構成に加えて音声対話装置１では、１段階判定により相槌タイミングＢＣを決定した後に、さらに２段階判定により相槌タイミングＢＣ直前のパワーを基に最終的に相槌音を出力するか否かを判定するようにしたことにより、１段階判定において相槌タイミングの誤検出があっても、当該相槌タイミングＢＣを破棄することで、話者が発話している際に相槌音が出力してしまうことを回避できる。

従って、音声対話装置１では、話者が発話している際に出力される不自然な相槌音が出力されない分だけ、話者の発話が相槌音で遮られずにすむので、話者の間で円滑な対話を行うことができる。

また、音声対話装置１では、韻律情報を音声特徴量として用い、相槌音を出力するのに最適なタイミングを選定した後、さらに相槌タイミングの時点で無音区間のときにのみ相槌音を確実に出力させることができるので、従来に比して一段と自然なタイミングで相槌音を出力させることができる。

以上の構成によれば、音声入力部２に入力された音声信号を基に計算した話者の音声特徴量に基づき、話者との対話中にスピーカ６から相槌音を出力させる相槌タイミングを推測し、話者との対話中に前記スピーカ６から相槌音を出力させる相槌タイミングがあるとの推測結果が得られると、相槌タイミング直前のパワーを基に相槌音を出力させるか否かを判定するようにした。

従って、音声対話装置１では、対話者が相槌をする目安としている音声特徴量を基に相槌タイミングを推測することで、対話者が相槌をするであろうタイミングを相槌タイミングとして推測でき、かつ２段階の判定により仮に１度目で誤検出された相槌タイミングがあっても、当該相槌タイミングを棄却することにより、誤って推測した不自然な相槌音の出力を回避でき、かくして自然で円滑な対話を実現できる。
また、音声対話装置１では、パワーを見るのは相槌音を出力する相槌タイミング直前の一瞬だけなので、従来のポーズ検出手法のように無音区間を判断するために必要な間が生じることを確実に回避でき、かくして自然で円滑な対話を実現できる。

（１−１）相槌タイミングデータの収集
ここでは一般的な人達の相槌を行うタイミングについてデータを収集した。先ず始めに、昼食を話題とする人同士（１対１）の対面対話を収録した。各対話の参加者は６名で、そのうち任意に選んだ２名を１組とした。そして、各話者の音声は、パワーとゼロクロスとを元に発話単位に切り出され、計８６１発話、約５０分のデータとした。

そして、上述した音声対話装置１を用いずに、単なる計算機を用いてこれら計８６１発話、約５０分のデータに対して、７名の被験者（対話の参加者２名、不参加５名）が、相槌を打ってもよいタイミングのタグ付けを行った。

具体的には、計算機から流れる発話音声を聴取すると同時に、自分が聞き手であると想定した時に相槌を打てると思うタイミングに操作キーを押すように指示した。なお、各話者の音声をそのまま再生したため、発話データは言語情報も含むが、タグ付けの際はそれを無視するよう指示した。また、発話データの再生順序をランダムにしたため、対話の流れの影響が出ないようにした。そして、タグ付けの結果、計５８７２個のタイミングデータを得た。

（１−２）分析方法
次に、上述したようにして得られたタイミングデータが被験者間でどの程度一致するかを調べた。図８に示すように、ある目的の被験者が相槌を打ったタイミングｔｇ１の前後０．３［ｓ］に注目し、その目的の被験者が相槌を打ったタイミングｔｇ１の総数（Total）をＴとし、そのうち注目する範囲ＥＲ１に他被験者が相槌を打っていないタイミングｉｔｇ(Insertion)の数をＩとした。

また、他被験者が相槌を打ったタイミングｔｇ２のうち、注目した範囲ＥＲ１に存在するタイミングｔｇ２ａ（Correct）の数をＣとし、注目した範囲外のタイミングｔｇ２ｂ（Deletion）の数をＤとした。この時の適合率ＰＲ（Precision）及び再現率ＲＥ（Recall）を次式で定義した。

収集したデータの評価結果を表１に示す。

表１に示した評価結果では、適合率ＰＲが平均的に高いことから、ある被験者が相槌を打てると判断したタイミングに注目したとき、他被験者のうち少なくとも１人は同様に相槌を打てると判断しているケースが多いことが分かる。一方で、再現率ＲＥが０．５に満たないことから、被験者の間でも一致率がそれほど高くないことが分かる。

（１−３）韻律情報のみを用いた相槌タイミング検出実験
上述の実験により被験者から収集したタイミングデータを用いて、本発明の音声対話装置１における１段階判定しか行わない手法（以下、１段階判定手法と呼ぶ）と、従来のポーズ認識を用いた手法（以下、従来手法と呼ぶ）による相槌タイミング検出実験を行い、比較検討した。なお、従来手法による相槌タイミング検出は、予備実験で最も評価値の高かった０．４５［ｓ］ポーズが続いたら相槌音を出力するという音声対話装置を用いた。実際の性能の評価は次式のＦ値

で行った。今回試行したパラメータの中で最も性能が良かった組合せは、Ｎ（フレーム数）＝１５、Ｔｅ（代表点を求めるときの平均誤差の閾値）＝１０．０、Ｇｍｉｎ＝０．４、Ｇｍａｘ＝１．０となった。基準代表点から過去Ｒ個の代表点を用いて音声特徴量を算出するとし、このＲ以外のパラメータを固定し、Ｒを変化させたときの評価値の変化と、ポーズ検出を用いた場合の評価値とを図９に示す。

注目する代表点の数を増やす、すなわち考慮する時間を長くしても、性能は上がらなかった。このことから、相槌を打つべきタイミングを予告するような情報は、連続して発話中に表出しているのでは無く、ある一定区間に集中して表出していると推測できる。また、ポーズ認識を用いた従来手法の音声対話装置の実験結果と、最も評価値の高いＲ＝４の実験結果とを比較すると、適合率ＰＲでは劣っているが、再現率ＲＥ、Ｆ値で優れていることが分かる。

人同士の結果と比較した場合も、同様に適合率ＰＲでは劣っているが、再現率ＲＥ、Ｆ値で優れている。この結果から、１段階判定手法は人が相槌を打てると判断したタイミングをカバーするという点では優れているが、人やポーズ認識による相槌タイミング検出と比べ、本来相槌を打ってはいけないタイミングを多く検出するということが分かる。

また、いくら適合率ＰＲに優れていても、自然なタイミングで相槌音を出力しているとは限らない。そこで、人同士、韻律情報のみを用いた１段階判定手法、従来のポーズ検出手法のそれぞれでタイミングがどの程度ずれているのか調べた。比較対象が相槌を打ったタイミングの内、前後０．３［ｓ］以内に他被験者のタイミングが存在するものを対象として、最も近い他被験者のタイミングとの差を集計した。その結果を図１０に示す。

図１０に示した結果から、韻律情報のみを用いた１段階判定手法は、人同士、ポーズ検出手法には劣っているが、７０％以上が人が相槌を打つ場合の前後０．１［ｓ］以内に相槌音を出力していることが分かる。

（１−３）本発明のパワーを用いた不適切な相槌タイミングの棄却
図６に示したように、相槌タイミング検出の際、実際に相槌音を出力する相槌タイミングの０．７［ｓ］前までの情報のみを用いて相槌タイミング検出を行った。上述した韻律情報を用いて１度相槌タイミングの検出を行い、その後実際に相槌音を出力するまでの０．７［ｓ］間の情報を用いて２度目の判定を行い、相槌タイミング検出の精度について検証した。

すなわち、再現率ＲＥが極めて高いことから、相槌を打ってもよいタイミングを見逃している場合は少ない。そこで、１度目で相槌音を出力すると判定されたタイミングを対象に２度目の判定を行う。この２度目の判定には、相槌音を出力する相槌タイミングの直前のパワーを用いて行う。この値が閾値以上なら、まだ発話の最中だと考え、相槌を打つことを止めるようにした。

上述するように２度の判定を行う本発明の２段階判定手法を用いて、同様の相槌タイミング検出実験を行ったが、２度目の判定タイミング（すなわち、相槌タイミングの直前のパワー検出期間）を変えた時の実験結果を図１１に示す。この結果から２度目の判定を行うタイミングは、実際に相槌を打つタイミングに近い程効果が高いことが分かった。

また、再現率ＲＥは減少したが、それ以上に適合率ＰＲが向上していることが分かった。このことから本発明の２段階判定手法では、２段階の判定により１度目で誤検出された相槌タイミングが棄却できたことを確認できた。この本発明の２段階判定手法ならば、パワーを見るのは相槌を打つ直前の一瞬だけなので、従来のポーズ検出手法のように不要な間が生じることを確実に回避できる。さらに適合率ＰＲ、再現率ＲＥ、Ｆ値のいずれについてもポーズ認識を行う従来手法より上回っていた。

次に、後述する聴取実験と同様に、本発明の２段階判定による相槌タイミングと、被験者のタイミングとがどの程度ずれているか調べた。この結果を図１２に示す。この結果から韻律情報のみを用いた１段階判定と、本発明の２段階判定とを比べたとき、０．２〜０．３［ｓ］ずれているタイミングの割合が減少し、０〜１［ｓ］ずれているタイミングの割合が増加したことが分かる。このことから、本発明の２段階判定により相槌音を出力するタイミングの精度も僅かに向上していることが分かった。

（１−４）聴取実験
次に、実際に人と音声対話装置とが対話したとき、音声対話装置が出力した相槌音をどのように感じるか調べるために聴取実験を行った。

聴取実験は次の条件で行った。具体的には３種類の音声対話装置を用いて聴取実験を行い、それぞれについて音声対話装置から流れる相槌音声（「はい」）のタイミングが自然か不自然かを（１）不自然（２）どちらかといえば不自然（３）どちらともいい難い（４）どちらかといえば自然（５）自然の５段階で評価した。

相槌タイミング検出に用いる音声対話装置としては、従来のポーズ検出の手法を用いた音声対話装置と、韻律情報のみを用いた１段階判定の手法を用いた音声対話装置と、韻律情報を用いた判定を行った後、パワーを用いて判定を行う２段階判定の手法を用いた本発明の音声対話装置１との３種類を用いた。

ここで、実験１としては、フリートークを行い、マイクに向かって被験者が１５［ｓ］間自由に喋る試行を、上述した３種類の音声対話装置を用いて各２回行い、１回毎に相槌音声の流れたタイミングについて判定を行ってもらった。

また、実験２としては、固定トークを行い、用意した約１０［ｓ］の会話文３種類を、次の２通りの読み方で読ませた。第１のパターンＡとしては、読点「、」のところで必ず一旦切るようにして読んでもらった。第２のパターンＢとしては、読点「、」のところで切らず、一息に読んでもらった。これは第１のパターンＡで読む場合には読点「、」で相槌を打ってくれることを期待し、第２のパターンＢでは読点「、」で相槌を打たないことを期待して行った。

さらに、実験３としては、相槌音声の聞き比べを行ってもらった。用意した約２０［ｓ］間の音声に、音声対話装置によって出力された相槌音声を合わせたものを３回聞いてもらった。なお、上述した３つの実験は、それぞれ３種類の音声対話装置をどのような順番で用いるかは人により異なるが、偏りがでないよう配慮した。

以上において実験１では、フリートークで話す内容は「電話の応対」「バイト先の対応」「手近な文章を読み上げる」等、人それぞれであった。この結果を図１３に示す。ポーズ検出による手法の音声対話装置では、収集した相槌タイミングデータによる実験結果では良好な性能を示していたが、相槌音声を出力するタイミングが遅いという意見が目立ち、評価はあまり良くなかった。一方、１段階判定の手法の音声対話装置では、相槌音声の出力が早いという意見が目立った。

これに対して本発明の音声対話装置１では、１度の対話の最中に相槌音声を出力してくれいないときが１、２回あるという意見があったが、全体的には良好な結果となった。

次に実験２における固定トークの結果を図１４に示す。第２のパターンＢになると、どの音声対話装置も評価が悪くなった。特に１段階判定の音声対話装置と、２段階判定の本発明による音声対話装置１は共に顕著に評価が悪くなった。これは相槌タイミングモデルの学習の際、短い発話に対する相槌ばかりを学習したため、長い発話に対して適切なタイミングで相槌を打つことができなかったものである。従って長い発話に対する相槌についても学習しておけば、長い発話に対しても適切なタイミングで相槌音声を出力することができる。

次に実験３において相槌音声の聞き比べの結果を図１５に示す。聴取実験１と同様に、ポーズ検出による従来の音声対話装置は相槌音声の出力が遅く、１段階判定の音声対話装置による相槌は早いという感想が得られたが、２段階判定の本発明による音声対話装置１による相槌は、１、２回相槌音声を出力してくれない箇所があるが、他と比べて比較的自然な相槌音が出力されたとの感想を得た。

このように、本発明のよる音声対話装置１は、従来のポーズ検出による音声対話装置や１段階判定の音声対話装置に比して、全体的に自然な相槌音を出力でき、その結果、話者との間で従来よりも円滑な対話を行わせることができた。

（２）他の実施の形態
なお、本発明は、本実施形態に限定されるものではなく、本発明の要旨の範囲内で種々の変形実施が可能であり、例えば、図１との対応部分に同一符号を付して示す図１６のように、端末装置52とサーバ51とが無線通信接続された構成からなる音声対話システム50を構築するようにしても良い。

この場合、サーバ51には、ＦＯ抽出・パワー計算部３と、ＦＯ代表点計算部11と、音声特徴量抽出部12と、タイミング判定部13と、記憶部10とを設けることにより、端末装置52の構成を簡易にすることができる。

すなわち、端末装置52は、音声入力部２と、パワー計算部53と、相槌判定部５と、スピーカ６とを備え、音声入力部２から入力された音声信号を図示しない通信手段によりサーバ51へ送信し、当該サーバ51での相槌タイミング結果を無線信号で受信する。

これにより端末装置52は、サーバ51から受信した相槌タイミング結果を基に、パワー計算部53で相槌タイミングを認識した音声特徴量において２段階判定を行うためのパワーのみを算出し、相槌判定部５で当該パワーが所定の閾値以下ならスピーカ６から相槌音を出力させることできる。

このように端末装置52では、パワー計算部53を設けるだけなので、簡易な構成にできると共に、処理負担を軽減できる。

また、上述した実施の形態においては、音声対話装置１は相槌音を出力させるようにした場合について述べたが、本発明はこれに限らず、頭部や腕部等の可動部を供えた人型或いは動物型の各種ロボットに音声対話装置１を搭載し、相槌音に替えて、或いは相槌音と共に、例えば頭部を上下方向に動かすようにしたり、腕部を動かすようにする等この他種々の可動部を動かして相槌動作を行わせるようにしても良い。

さらに、上述した実施の形態においては、基本周波数抽出処理を実行することにより、音声信号から声の高さを示す基本周波数（ＦＯ）を抽出するようにした場合について述べたが、本発明はこれに限らず、自己相関を用いた手法や、相互相関を用いた手法、ＳＩＦＴアルゴリズム（Simplified Inverse Filter Algorithm [Markel 1972]）、ＡＭＤＦ（Average Magnitude Difference Function）を用いた手法、ＲＡＰＴ（Robust Algorithm for Pitch Tracking [Talkin 1995]）等のように時間波形処理によって音声信号から基本周波数（ＦＯ）を抽出するようにしたり、或いは、ケプストラムを用いた手法や、ピリオドヒストグラムを用いた手法等のようにスペクトル処理によって音声信号から基本周波数（ＦＯ）を抽出するようにしても良い。

さらに、上述した実施の形態においては、２段階判定で用いる音声らしさを表す評価値として、音声波形が有するパワーを用い、当該パワーにより相槌タイミングＢＣの直前で話者が発話しているか否かを判定するようにした場合について述べたが、本発明はこれに限らず、例えば音声レベルとしてゼロクロス（零交差）や、スペクトルエントロピ、Ｓ／Ｎ比等を用いて相槌タイミングＢＣの直前で話者が発話しているか否かを判定するようにしても良い。

なお、ゼロクロス（零交差）を用いた場合には、音声波形が０を交差する回数が多ければ（正負の切り替わりが多ければ）音声信号が入力されている可能性が高いと判定でき、スペクトルエントロピを用いた場合には、スペクトルのエントロピーが低ければ、話者が発話している可能性が高いと判定でき、Ｓ／Ｎ比を用いる場合には、Ｓ／Ｎ比（雑音レベルに対する音声レベルの比）が大きければ、話者が発話している可能性が高いと判定できる。また、ゼロクロス（零交差）や、スペクトルエントロピ、Ｓ／Ｎ比についても適宜所定の閾値を設け、当該閾値以下のときに無声区間であるとして判断するようにしても良い。

さらに、上述した実施の形態においては、音声特徴量として１２次元を用いたが、本発明はこれに限らず、１２次元のうちいずれかを用いて１０次元や１１次元等の１２次元以外の音声特徴量を用いたり、その他種々の韻律的特徴を示す音声特徴量を用いたりしても良い。

さらに、上述した実施の形態においては、電気音響変換手段として、スピーカ６を適用するようにした場合について述べたが、本発明はこれに限らず、例えば端末の筐体に直接設けたスピーカや、イヤホン又はヘッドホンに設けたスピーカ、相槌音を生体内部に伝搬させて通知する骨伝導手段等この他種々の電気音響変換手段を適用するようにしても良い。

本発明による音声対話装置の回路構成を示すブロック図である。基本周波数抽出処理手順を示すフローチャットである。基本周波数の代表点の計算例を示す概略図である。Ｒ＝４の場合の音声特徴量の計算例を示す概略図である。相槌２段階判定処理手順を示すフローチャートである。相槌タイミングを示す概略図である。学習時音声特徴量の分類を示す概略図である。相槌タイミングの正解・誤りのカウント方法の説明に供する概略図である。１段階判定手法と、ポーズ検出の従来手法とを用いた相槌タイミング検出実験の結果を示すグラフである。相槌タイミングの被験者とのズレを示したグラフである。２段階判定を用いた相槌タイミングの検出実験結果と、２段階判定の判定タイミングによる評価値の変化とを示すグラフである。概略図である。２段階判定による相槌タイミングと被験者の相槌タイミングとのずれを示すグラフである。聴取実験１におけるフリートークに対する音声対話装置が出力した相槌音声の感想をまとめたグラフである。聴取実験２における固定トークに対する音声対話装置が出力した相槌音声の感想をまとめたグラフである。聴取実験３における流れる音声に対し音声対話装置が出力した相槌音声の感想をまとめたグラフである。本発明による音声対話システムの全体構成を示すブロック図である。

符号の説明

１音声対話装置
２音声入力部
４推測部（推測手段）
５相槌判定部（相槌判定手段）
６スピーカ（相槌手段、電気音響変換手段）

Claims

入力された音声信号を基に計算した話者の音声特徴量に基づいて、前記話者との対話中に相槌手段に相槌させる相槌タイミングを推測する推測手段と、
前記話者との対話中に前記相槌手段に相槌させる前記相槌タイミングがあるとの推測結果が前記推測手段により得られると、前記相槌タイミング直前の前記音声信号を基に前記相槌手段に相槌させるか否かを最終的に判定する相槌判定手段と
を備え、
前記音声特徴量は、前記話者の韻律的特徴を示した韻律情報であり、
前記相槌判定手段は、前記相槌タイミングの直前で前記話者が発話しているか否かを前記音声信号に基づき判定し、前記相槌タイミングの直前で前記話者が発話していないと判断したときにのみ前記相槌手段に相槌させる
ことを特徴とする音声対話装置。
前記韻律情報は、前記音声信号の基本周波数とパワーとである
ことを特徴とする請求項１記載の音声対話装置。
前記相槌判定手段は、前記相槌タイミングの直前の前記音声信号から得られる音声らしさを表す評価値が所定の閾値以下のときに、前記話者が発話していないと判断する
ことを特徴とする請求項１又は２記載の音声対話装置。
前記相槌手段は、前記相槌判定手段からの相槌信号により、前記相槌として所定の相槌音を出力する電気音響変換手段である
ことを特徴とする請求項１〜３のうちいずれか１項記載の音声対話装置。
入力された音声信号を基に計算した話者の音声特徴量に基づいて、前記話者との対話中に相槌手段に相槌させる相槌タイミングを推測する推測ステップと、
前記話者との対話中に前記相槌手段に相槌させる前記相槌タイミングがあるとの推測結果が得られると、前記相槌タイミング直前の前記音声信号を基に前記相槌手段に相槌させるか否かを最終的に判定する相槌判定ステップと
を備え、
前記音声特徴量は、前記話者の韻律的特徴を示した韻律情報であり、
前記相槌判定ステップは、前記相槌タイミングの直前で前記話者が発話しているか否かを前記音声信号に基づき判定し、前記相槌タイミングの直前で前記話者が発話していないと判断したときにのみ前記相槌手段に相槌させる
ことを特徴とする音声対話方法。
前記韻律情報は、前記音声信号の基本周波数とパワーとである
ことを特徴とする請求項５記載の音声対話方法。
前記相槌判定ステップは、前記相槌タイミングの直前の前記音声信号から得られる音声らしさを表す評価値が所定の閾値以下のときに、前記話者が発話していないと判断する
ことを特徴とする請求項５又は６記載の音声対話方法。
前記相槌手段は、前記相槌判定手段からの相槌信号により、前記相槌として所定の相槌音を出力する電気音響変換手段である
ことを特徴とする請求項５〜７のうちいずれか１項記載の音声対話方法。
前記請求項１〜４に記載の音声対話装置を備えた
ことを特徴とするロボット装置。
前記相槌手段は可動部であって、
前記可動部は、前記相槌タイミングに相槌させるとの判定結果を前記相槌判定手段から得ると、前記相槌タイミングに相槌動作を行う
ことを特徴とする請求項９記載のロボット装置。