JP6270661B2

JP6270661B2 - 音声対話方法、及び音声対話システム

Info

Publication number: JP6270661B2
Application number: JP2014162579A
Authority: JP
Inventors: 達也河原; 生聖渡部; 中野　雄介; 雄介中野
Original assignee: Kyoto University; Toyota Motor Corp
Current assignee: Kyoto University; Toyota Motor Corp
Priority date: 2014-08-08
Filing date: 2014-08-08
Publication date: 2018-01-31
Anticipated expiration: 2034-08-08
Also published as: JP2016038501A

Description

本発明は音声対話方法、及び音声対話システムに関する。

音声対話システムや人型ロボットにおいては、高齢者や認知症などの患者のケアを行うニーズが高まっており、傾聴する機能が要求されている。傾聴においては、ユーザが話しやすいように相槌を打つことが重要である。

特許文献１には、自然で円滑な対話を実現できる音声認識装置に関する技術が開示されている。特許文献１に開示されている音声認識装置では、音声入力部に入力された音声信号を基に計算した話者の音声特徴量に基づき、話者との対話中にスピーカから相槌音を出力させる相槌タイミングを推測している。そして、相槌タイミングであるとの推測結果が得られると、相槌タイミング直前のパワーを基に相槌音を出力させるか否かを判定している。

特開２００９−３０４０号公報

しかしながら、特許文献１に開示されている技術では、相槌を打つタイミングについてのみ焦点が置かれており、実際に打たれている相槌は同一の音声となっている。傾聴においては、ユーザが話しやすいように相槌を打つことが重要であるが、相槌の音声が同一である場合は、ユーザに機械的な印象を与えてしまい、ユーザは話を聞いてもらっているという意識を持つことができない。このため、ユーザの発話が促進されないという問題があった。

上記課題に鑑み本発明の目的は、発話を促進させる相槌を生成することが可能な音声対話方法、及び音声対話システムを提供することである。

本発明にかかる音声対話方法は、ユーザ発話を入力する工程と、入力された前記ユーザ発話の韻律的特徴を抽出する工程と、抽出された前記韻律的特徴に基づき前記ユーザ発話に応答する相槌を生成する工程と、を備え、前記相槌を生成する際、前記相槌の韻律的特徴が前記ユーザ発話の韻律的特徴と合うように前記相槌の韻律を調整する。

本発明にかかる音声対話システムは、ユーザ発話を入力する発話入力部と、前記発話入力部に入力された前記ユーザ発話の韻律的特徴を抽出する韻律的特徴抽出部と、前記韻律的特徴抽出部で抽出された前記韻律的特徴に基づき前記ユーザ発話に応答する相槌を生成する相槌生成部と、を備え、前記相槌生成部は、前記相槌の韻律的特徴が前記ユーザ発話の韻律的特徴と合うように前記相槌の韻律を調整する。

本発明にかかる音声対話方法および音声対話システムでは、ユーザ発話の韻律的特徴を抽出し、相槌を生成する際に、相槌の韻律的特徴がユーザ発話の韻律的特徴と合うように相槌の韻律（音声波形）を調整している。このように相槌の韻律を調整することで、ユーザに機械的な印象を与えることを抑制することができ、ユーザは話を聞いてもらっているという意識を持つことができ、ユーザの発話を促すことができる。

本発明により、発話を促進させる相槌を生成することが可能な音声対話方法、及び音声対話システムを提供することができる。

実施の形態にかかる音声対話システムを示すブロック図である。実施の形態にかかる音声対話方法を説明するためのフローチャートである。ユーザと音声対話システムとが対話している状態を示す図である。ユーザ発話の韻律的特徴と相槌の韻律的特徴との相関を示す相関係数テーブルを示す図である。ユーザ発話の韻律的特徴と相槌の韻律的特徴との相関を示す相関係数テーブルの一例を示す図である。

以下、図面を参照して本発明の実施の形態について説明する。
図３は、ユーザと音声対話システムとが対話している状態を示す図である。図３に示すように、本実施の形態にかかる発明は、ユーザ３１がロボット（音声対話システム）３２と対話する際に、ロボット３２が、ユーザ３１の発話を促進させる相槌を発することを特徴としている。つまり、本実施の形態にかかる発明では、ユーザ３１の発話の音声波形３３から韻律的特徴を抽出し、相槌を生成する際に、相槌の音声波形３４の韻律的特徴がユーザ３１の発話の音声波形３３の韻律的特徴と合うように相槌の韻律（音声波形３４）を調整することを特徴としている。以下で、本実施の形態にかかる音声対話方法、及び音声対話システムについて詳細に説明する。

図１は、本実施の形態にかかる音声対話システムを示すブロック図である。図１に示すように、本実施の形態にかかる音声対話システム１は、発話入力部１１、韻律的特徴抽出部１２、相槌生成タイミング決定部１３、相槌データベース１５、相槌選択部１６、韻律調整パラメータ生成部１７、相槌波形生成部１８、及び相槌出力部１９を備える。相槌データベース１５、相槌選択部１６、韻律調整パラメータ生成部１７、及び相槌波形生成部１８は、相槌生成部１４を構成している。

発話入力部１１は、ユーザの発話を入力する。例えば、発話入力部１１はマイク等を用いて構成することができる。

韻律的特徴抽出部１２は、発話入力部１１に入力されたユーザ発話（先行発話）の韻律的特徴を抽出する。韻律的特徴としては、ユーザ発話の基本周波数成分Ｆ０（以下、単にＦ０と記載する場合もある）やパワー成分が挙げられる。このとき、基本周波数成分Ｆ０として、Ｆ０の対数を用いてもよい。例えば、Ｆ０の対数は、発話音声を用いて１０ｍ秒毎にＦ０を算出し、この算出されたＦ０に対して１０を底とする対数を取ることで求めることができる。また、パワー成分についても、例えば１０ｍ秒毎にｄＢ値を算出することで求めることができる。韻律的特徴抽出部１２は、抽出した韻律的特徴２１を相槌生成タイミング決定部１３に出力する。

また、韻律的特徴抽出部１２は、相槌生成タイミング決定部１３から相槌生成タイミング情報２２が供給された際、相槌選択部１６に相槌選択信号２３を出力する。

また、韻律的特徴抽出部１２は、相槌生成タイミング決定部１３から相槌生成タイミング情報２２が供給された際、相槌生成タイミングから所定の時間さかのぼった期間（例えば、５００ｍ秒）における基本周波数成分Ｆ０の最大値、平均値、最大値と最小値のレンジ等、及びパワー成分の最大値、平均値、最大値と最小値のレンジ等の特徴量を算出する。算出された特徴量２４は、韻律調整パラメータ生成部１７に供給される。

相槌生成タイミング決定部１３は、韻律的特徴抽出部１２で抽出された韻律的特徴２１を用いて、相槌を生成するタイミングを決定する。また、相槌生成タイミング決定部１３は、相槌を生成するタイミングを決定した場合、相槌生成タイミング情報２２を韻律的特徴抽出部１２に出力する。

例えば、相槌生成タイミング決定部１３は、ユーザ発話の韻律的特徴であるパワー成分が所定の閾値以下である場合に、相槌を生成するタイミングであると決定することができる。つまり、ユーザが発話が終了したタイミングでは、ユーザ発話のパワー成分がほぼゼロになるので、このタイミングを相槌を生成するタイミングであると決定することができる。また、ユーザ発話が途中の場合であっても、ユーザ発話のパワー成分が小さい場合は、ユーザ発話の終了が近づいていると判断することができる。よって、このような場合も、相槌を生成するタイミングであると決定することができる。

なお、上記では、ユーザ発話の韻律的特徴としてパワー成分を用いた場合を例として挙げたが、例えば、ユーザ発話の基本周波数成分Ｆ０を用いて相槌を生成するタイミングを決定してもよい。例えば、相槌生成タイミング決定部１３は、ユーザ発話の基本周波数成分Ｆ０が所定の閾値以下である場合に、相槌を生成するタイミングであると決定してもよい。つまり、ユーザ発話の基本周波数成分Ｆ０が所定の閾値以下である場合は、ユーザ発話のトーンが下がっている状態であるので、ユーザ発話の終了が近づいていると判断することができる。

相槌データベース１５は、ユーザ発話の韻律的特徴と相槌の韻律的特徴との相関を示す相関係数テーブルを格納している。この相関係数テーブルは予め生成されている。図４は、ユーザ発話の韻律的特徴と相槌の韻律的特徴との相関を示す相関係数テーブルを示す図である。図４に示すように、相関係数テーブルは、各々の相槌（相槌の形態）と相関係数αとを対応付けたテーブルである。相関係数αは、韻律的特徴の特徴量毎に求める。つまり、相関係数αは、基本周波数成分Ｆ０の最大値、平均値、及びパワー成分の最大値、平均値のそれぞれについて算出する。

例えば、相関係数α（１、１）は、ユーザ発話（先行発話）と相槌「あー」との相関を示す相関係数のうち、基本周波数成分Ｆ０の最大値を用いて求めた相関係数である。相関係数α（１、２）は、ユーザ発話（先行発話）と相槌「あー」との相関を示す相関係数のうち、基本周波数成分Ｆ０の平均値を用いて求めた相関係数である。相関係数α（１、３）は、ユーザ発話（先行発話）と相槌「あー」との相関を示す相関係数のうち、パワー成分の最大値を用いて求めた相関係数である。相関係数α（１、４）は、ユーザ発話（先行発話）と相槌「あー」との相関を示す相関係数のうち、パワー成分の平均値を用いて求めた相関係数である。

相関係数は、話し役（複数のサンプル）と聞き役（カウンセラ）の対話を収録し、この収録した対話の音声を分析して、ユーザ発話と相槌との相関を相槌の形態別に調べることで推定することができる。ここで、話し役は主にユーザ発話を発し、聞き役は主に相槌を発する。相関係数を求める場合、相槌の開始から終了までの韻律的特徴と、相槌の直前のユーザ発話の有声区間（例えば、５００ｍ秒）の韻律的特徴を使用する。使用する韻律的特徴の種類は、該当区間の対数Ｆ０の最大値、平均値、及びパワー成分の最大値、平均値とすることができる。

なお、図４に示すように、相槌の種類には感情表出系の相槌と応答系の相槌とがある。感情表出系の相槌は、「あー」、「はー」等の興味、理解、共感等の感情を示す相槌である。応答系の相槌は、「ふーん」、「はい」等の相手の発話に対する応答を示す相槌である。

図１に示す相槌選択部１６は、韻律的特徴抽出部１２から相槌選択信号２３が供給されると、相槌データベース１５に格納されている相槌の形態の中から、所定の相槌を選択する。このとき選択される相槌は任意に決定することができる。一例を挙げると、相槌生成タイミング決定部１３で決定されたタイミングがユーザ発話の途中のタイミングである場合、応答系の相槌（つまり、相手の発話に対する応答を示す相槌）の中から相槌を選択してもよい。一方、相槌生成タイミング決定部１３で決定されたタイミングがユーザ発話が終了したタイミングである場合、感情表出系の相槌（つまり、興味、理解、共感等の感情を示す相槌）の中から相槌を選択してもよい。

相槌選択部１６は、選択した相槌に関する相槌情報２５（例えば、テキストデータ）を相槌波形生成部１８に出力する。また、相槌選択部１６は、選択した相槌の相関係数に関する情報２６を、韻律調整パラメータ生成部１７に出力する。相槌選択部１６は、相関係数に関する情報を相槌データベース１５から取得することができる。相槌選択部１６は、例えば、相槌として図４に示す「あー」を選択した場合、相関係数に関する情報２６として、α（１、１）、α（１、２）、α（１、３）、α（１、４）の値を韻律調整パラメータ生成部１７に出力する。

韻律調整パラメータ生成部１７は、相槌選択部１６で選択された相槌の韻律的特徴が、ユーザ発話の韻律的特徴と合うように相槌の韻律を調整するパラメータを生成する。このとき、韻律調整パラメータ生成部１７は、韻律的特徴抽出部１２から供給された特徴量２４と、相槌選択部１６から供給された相関係数に関する情報２６とを用いて、韻律調整パラメータを生成する。生成された韻律調整パラメータ２７は、相槌波形生成部１８に供給される。

具体的には、韻律調整パラメータ生成部１７は、下記の式を用いて韻律調整パラメータＢＣ_ｉｐを求める。このとき、韻律調整パラメータ生成部１７は、基本周波数成分Ｆ０の最大値、平均値、及びパワー成分の最大値、平均値の各々について韻律調整パラメータＢＣ_ｉｐを求める。

上記式において、ＢＣ_ｉｐは韻律調整パラメータ（相槌の韻律的特徴の目標値）、αは相関係数、Ｓ_ｉはユーザ発話の韻律的特徴を示す。ｉはサンプル数であり、ｉ＝１、２、・・・、Ｎである。Ｅ（Ｓ）はユーザ発話の直前Ｎターンの発話（Ｎ≧１）における平均値（ユーザ発話の韻律的特徴の平均値）、Ｅ（ＢＣ）は相槌データベースにおける平均値（相槌の韻律的特徴の平均値）である。σ（Ｓ）はユーザ発話の直前Ｎターンの発話（Ｎ≧１）における標準偏差（ユーザ発話の韻律的特徴の標準偏差）、σ（ＢＣ）は相槌データベースにおける標準偏差（相槌の韻律的特徴の標準偏差）である。本実施の形態では、Ｓ_ｉ、Ｅ（Ｓ）、Ｅ（ＢＣ）、σ（Ｓ）、σ（ＢＣ）は、基本周波数成分Ｆ０の最大値、平均値、及びパワー成分の最大値、平均値のそれぞれについて求める。Ｅ（ＢＣ）およびσ（ＢＣ）は、相槌データベース１５に予め格納されている。なお、ユーザ発話は、初対面なら直前のターンだけで推測、リピーター（かつ、ユーザ判別可能）なら過去の対話履歴全体から推測してもよい。

例えば、相槌選択部１６において相槌として「あー」が選択された場合、韻律調整パラメータ生成部１７には、相関係数に関する情報２６としてα（１、１）、α（１、２）、α（１、３）、α（１、４）が供給される。

韻律調整パラメータ生成部１７は、韻律的特徴抽出部１２から供給されたユーザ発話の基本周波数成分Ｆ０の最大値を用いて、Ｓ_ｉ、Ｅ（Ｓ）、σ（Ｓ）を求める。なお、Ｅ（ＢＣ）、σ（ＢＣ）については、相槌データベースの値を用いて求める。その後、韻律調整パラメータ生成部１７は、基本周波数成分Ｆ０の最大値に対応した相関係数α（１、１）、基本周波数成分Ｆ０の最大値に対応したＳ_ｉ、Ｅ（Ｓ）、σ（Ｓ）、Ｅ（ＢＣ）、σ（ＢＣ）を上記式に代入して、基本周波数成分Ｆ０の最大値に対応した韻律調整パラメータＢＣ_ｉｐ（Ｆ０_ｍａｘ）を算出する。

同様に、韻律調整パラメータ生成部１７は、基本周波数成分Ｆ０の平均値に対応した韻律調整パラメータＢＣ_ｉｐ（Ｆ０_ａｖｅ）、パワーの最大値に対応した韻律調整パラメータＢＣ_ｉｐ（Ｐ_ｍａｘ）、パワーの平均値に対応した韻律調整パラメータＢＣ_ｉｐ（Ｐ_ａｖｅ）のそれぞれを算出する。算出されたこれらの韻律調整パラメータ２７は、相槌波形生成部１８に供給される。

なお、上記では４つの韻律調整パラメータＢＣ_ｉｐを求める場合について説明したが、
求める韻律調整パラメータＢＣ_ｉｐの数はこれ以外であってもよい。例えば、韻律調整パラメータ生成部１７は、基本周波数成分Ｆ０およびパワー成分のうち、ユーザ発話の韻律的特徴と相槌の韻律的特徴との相関が高い成分（つまり、相関係数αが高い成分：図５を参照）について、韻律調整パラメータＢＣ_ｉｐを求めるようにしてもよい。換言すると、韻律調整パラメータ生成部１７は、基本周波数成分Ｆ０およびパワー成分のうち、相槌についての相関係数が高い成分を優先的に用いて、韻律調整パラメータＢＣ_ｉｐを求めるようにしてもよい。

図５は、ユーザ発話の韻律的特徴と相槌の韻律的特徴との相関を示す相関係数テーブルの一例を示す図である。図５に示すように、各成分における相関係数は、相槌の形態に応じて異なってくる。例えば、相槌の形態が「はー」である場合は、相関係数の値が大きい「パワー成分の最大値（相関係数０．４７）」および「パワー成分の平均値（相関係数０．２９」のそれぞれに対応した韻律調整パラメータＢＣ_ｉｐ（Ｐ_ｍａｘ）、ＢＣ_ｉｐ（Ｐ_ａｖｅ）を求めてもよい。また、例えば、相槌の形態が「ふん」、「うん」である場合は、相関係数の値が大きい「基本周波数成分Ｆ０の最大値（相関係数０．２２」および「パワー成分の最大値（相関係数０．２３）」のそれぞれに対応した韻律調整パラメータＢＣ_ｉｐ（Ｆ０_ｍａｘ）、ＢＣ_ｉｐ（Ｐ_ｍａｘ）を求めてもよい。このように、基本周波数成分Ｆ０の最大値および平均値、並びにパワー成分の最大値および平均値のうち、相関係数が高い成分を優先的に用いて韻律調整パラメータＢＣ_ｉｐを求めることで、韻律調整パラメータの精度を向上させることができる。また、韻律調整パラメータを求める際の演算量を低減させることができる。

図１に示す相槌波形生成部１８は、相槌選択部１６で選択された相槌に関する相槌情報２５（例えば、テキストデータ）と、韻律調整パラメータ生成部１７で生成された韻律調整パラメータ２７とを用いて、相槌の音声波形を生成する。ここで、韻律調整パラメータ２７は、基本周波数成分Ｆ０の最大値に対応した韻律調整パラメータＢＣ_ｉｐ（Ｆ０_ｍａｘ）、基本周波数成分Ｆ０の平均値に対応した韻律調整パラメータＢＣ_ｉｐ（Ｆ０_ａｖｅ）、パワーの最大値に対応した韻律調整パラメータＢＣ_ｉｐ（Ｐ_ｍａｘ）、及びパワーの平均値に対応した韻律調整パラメータＢＣ_ｉｐ（Ｐ_ａｖｅ）の少なくとも１つである。例えば、相槌波形生成部１８は、ＴＴＳ（text to speech）技術を用いて相槌の音声波形を生成することができる。

このように、相槌データベース１５、相槌選択部１６、韻律調整パラメータ生成部１７、及び相槌波形生成部１８で構成される相槌生成部１４は、韻律的特徴抽出部１２で抽出された韻律的特徴に基づいて、ユーザ発話に応答する相槌の音声波形を生成することができる。

相槌波形生成部１８で生成された相槌の音声波形は、相槌出力部１９に供給される。相槌出力部１９は、供給された音声波形に対応した相槌を出力する。例えば、相槌出力部１９はスピーカ等を用いて構成することができる。これにより、ロボット（音声対話システム）３２は、相槌の韻律的特徴がユーザ発話の韻律的特徴と合うように韻律が調整された相槌を出力することができる。このように相槌の韻律を調整することで、ユーザの発話を促すことができる。

なお、本実施の形態にかかる音声対話システムでは、相槌出力部１９から出力される相槌に応じてロボットが首を振るように構成してもよい。このように、相槌に合わせてロボットが首を振るようにすることで、ユーザの発話を更に促すことができる。

次に、本実施の形態にかかる音声対話システムの動作（音声対話方法）について説明する。図２は、本実施の形態にかかる音声対話方法を説明するためのフローチャートである。なお、この場合も、相槌データベース１５には、予めユーザ発話の韻律的特徴と相槌の韻律的特徴との相関を示す相関係数テーブルが格納されているものとする。

図１、図２に示すように、まず、音声対話システム１の発話入力部１１は、ユーザの発話を入力する（ステップＳ１）。次に、韻律的特徴抽出部１２は、発話入力部１１に入力されたユーザ発話（先行発話）の韻律的特徴を抽出する（ステップＳ２）。韻律的特徴としては、ユーザ発話の基本周波数成分Ｆ０やパワー成分が挙げられる。次に、相槌生成タイミング決定部１３は、韻律的特徴抽出部１２で抽出された韻律的特徴２１を用いて、相槌を生成するタイミングを決定する。相槌生成タイミング決定部１３が相槌生成タイミングではないと判断した場合（ステップＳ３：Ｎｏ）、再度、ステップＳ１〜Ｓ３の動作を繰り返す。一方、相槌生成タイミング決定部１３が相槌生成タイミングであると判断した場合（ステップＳ３：Ｙｅｓ）、相槌生成タイミング情報２２を韻律的特徴抽出部１２に出力する。例えば、相槌生成タイミング決定部１３は、ユーザ発話の韻律的特徴であるパワー成分が所定の閾値以下である場合に、相槌を生成するタイミングであると決定することができる。

韻律的特徴抽出部１２は、相槌生成タイミング決定部１３から相槌生成タイミング情報２２が供給された場合、相槌選択部１６に相槌選択信号２３を出力する。また、韻律的特徴抽出部１２は、相槌生成タイミング決定部１３から相槌生成タイミング情報２２が供給された場合、相槌生成タイミングから所定の時間さかのぼった期間（例えば、５００ｍ秒）における基本周波数成分Ｆ０の最大値、平均値、最大値と最小値のレンジ等、及びパワー成分の最大値、平均値、最大値と最小値のレンジ等の特徴量を算出する。算出された特徴量２４は、韻律調整パラメータ生成部１７に供給される。

相槌選択部１６は、韻律的特徴抽出部１２から相槌選択信号２３が供給されると、相槌データベース１５に格納されている相槌の形態の中から、所定の相槌（相槌の形態）を選択する（ステップＳ４）。また、相槌選択部１６は、選択した相槌に関する相槌情報２５（例えば、テキストデータ）を相槌波形生成部１８に出力する。また、相槌選択部１６は、選択した相槌の相関係数に関する情報２６を、韻律調整パラメータ生成部１７に出力する。相槌選択部１６は、相関係数に関する情報を相槌データベース１５から取得することができる。

韻律調整パラメータ生成部１７は、相槌選択部１６で選択された相槌の韻律的特徴が、ユーザ発話の韻律的特徴と合うように相槌の韻律を調整するパラメータを生成する（ステップＳ５）。このとき、韻律調整パラメータ生成部１７は、韻律的特徴抽出部１２から供給された特徴量２４と、相槌選択部１６から供給された相関係数に関する情報２６とを用いて、韻律調整パラメータを生成する。生成された韻律調整パラメータ２７は、相槌波形生成部１８に供給される。

具体的には、韻律調整パラメータ生成部１７は、上記式を用いて韻律調整パラメータＢＣ_ｉｐを求める。このとき、韻律調整パラメータ生成部１７は、基本周波数成分Ｆ０の最大値、平均値、及びパワー成分の最大値、平均値の各々について韻律調整パラメータＢＣ_ｉｐを求める。

相槌波形生成部１８は、相槌選択部１６で選択された相槌に関する相槌情報２５と、韻律調整パラメータ生成部１７で生成された韻律調整パラメータ２７とを用いて、相槌の音声波形を生成する（ステップＳ６）。ここで、韻律調整パラメータ２７は、基本周波数成分Ｆ０の最大値に対応した韻律調整パラメータＢＣ_ｉｐ（Ｆ０_ｍａｘ）、基本周波数成分Ｆ０の平均値に対応した韻律調整パラメータＢＣ_ｉｐ（Ｆ０_ａｖｅ）、パワーの最大値に対応した韻律調整パラメータＢＣ_ｉｐ（Ｐ_ｍａｘ）、及びパワーの平均値に対応した韻律調整パラメータＢＣ_ｉｐ（Ｐ_ａｖｅ）の少なくとも１つである。例えば、相槌波形生成部１８は、ＴＴＳ（text to speech）技術を用いて相槌の音声波形を生成することができる。

相槌波形生成部１８で生成された相槌の音声波形は、相槌出力部１９に供給される。相槌出力部１９は、供給された音声波形に対応した相槌を出力する（ステップＳ７）。これにより、ロボット（音声対話システム）３２は、相槌の韻律的特徴がユーザ発話の韻律的特徴と合うように韻律が調整された相槌を出力することができる。このとき、相槌出力部１９から出力される相槌に応じてロボットが首を振るように構成してもよい。

背景技術で説明したように、特許文献１に開示されている音声認識装置では、音声入力部に入力された音声信号を基に計算した話者の音声特徴量に基づき、話者との対話中にスピーカから相槌音を出力させる相槌タイミングを推測している。そして、相槌タイミングであるとの推測結果が得られると、相槌タイミング直前のパワーを基に相槌音を出力させるか否かを判定している。

そこで本実施の形態にかかる音声対話方法および音声対話システムでは、ユーザ発話の音声波形から韻律的特徴を抽出し、相槌を生成する際に、相槌の音声波形の韻律的特徴がユーザ発話の音声波形の韻律的特徴と合うように相槌の韻律（音声波形）を調整している。このように相槌の韻律を調整することで、ユーザに機械的な印象を与えることを抑制することができ、ユーザは話を聞いてもらっているという意識を持つことができ、ユーザの発話を促すことができる。よって、本実施の形態にかかる発明により、発話を促進させる相槌を生成することが可能な音声対話方法、及び音声対話システムを提供することができる。

つまり、本実施の形態にかかる発明では、図３に示すように、ユーザ３１の発話の音声波形３３から韻律的特徴Ｓｉを抽出し、この抽出した韻律的特徴Ｓｉを上記で示した式に代入して、相槌の韻律的特徴を予測している（つまり、ＢＣ_ｉｐを求めている）。よって、相槌を生成する際に、相槌の音声波形３４の韻律的特徴ＢＣ_ｉｐがユーザ３１の発話の音声波形３３の韻律的特徴と合うように相槌の韻律（音声波形３４）を調整することができる。

ここで、上記式におけるＥ（ＢＣ）は、相槌の韻律的特徴（Ｆ０、パワー）の平均値であり、上記式では、このＥ（ＢＣ）の値をベースラインとし、このＥ（ＢＣ）に、ユーザ発話の韻律的特徴Ｓｉに応じた値を加算することで、相槌の韻律的特徴（韻律調整パラメータ）ＢＣ_ｉｐを求めている。

以上、本発明を上記実施形態に即して説明したが、本発明は上記実施の形態の構成にのみ限定されるものではなく、本願特許請求の範囲の請求項の発明の範囲内で当業者であればなし得る各種変形、修正、組み合わせを含むことは勿論である。

１音声対話システム
１１発話入力部
１２韻律的特徴抽出部
１３相槌生成タイミング決定部
１４相槌生成部
１５相槌データベース
１６相槌選択部
１７韻律調整パラメータ生成部
１８相槌波形生成部
１９相槌出力部
２１抽出した韻律的特徴
２２相槌生成タイミング情報
２３相槌選択信号
２４特徴量
２５相槌情報
２６相関係数に関する情報
２７韻律調整パラメータ
３１ユーザ
３２ロボット
３３ユーザ発話の音声波形
３４相槌の音声波形

Claims

ユーザ発話を入力する工程と、
入力された前記ユーザ発話の韻律的特徴を抽出する工程と、
抽出された前記韻律的特徴に基づき前記ユーザ発話に応答する相槌を生成する工程と、を備え、
前記ユーザ発話の韻律的特徴を抽出する際、前記ユーザ発話の基本周波数成分およびパワー成分を抽出し、
前記パワー成分は、当該パワー成分の最大値および平均値を含み、
前記相槌を生成する際、前記基本周波数成分および前記パワー成分のうち、前記ユーザ発話の韻律的特徴と前記相槌の韻律的特徴との相関が高い成分を用いて、前記相槌の韻律的特徴が前記ユーザ発話の韻律的特徴と合うように前記相槌の韻律を調整する、
音声対話方法。
前記ユーザ発話の韻律的特徴と前記相槌の韻律的特徴との相関を示す相関係数テーブルを予め生成し、
前記基本周波数成分および前記パワー成分のうち、前記相槌についての相関係数が高い成分を優先的に用いて前記相槌の韻律を調整する、
請求項１に記載の音声対話方法。
前記基本周波数成分は、当該基本周波数成分の最大値および平均値を含む、請求項１または２に記載の音声対話方法。
前記相槌を生成する際、下記の式を用いて、前記基本周波数成分の最大値、平均値、及び前記パワー成分の最大値、平均値の各々について韻律調整パラメータＢＣ_ｉｐを求め、当該韻律調整パラメータＢＣ_ｉｐを用いて前記相槌の韻律を調整する、請求項３に記載の音声対話方法。

上記式において、αは相関係数、Ｓ_ｉはユーザ発話の韻律的特徴、ｉはサンプル数、Ｅ（Ｓ）はユーザ発話の韻律的特徴の平均値、Ｅ（ＢＣ）は相槌の韻律的特徴の平均値、σ（Ｓ）はユーザ発話の韻律的特徴の標準偏差、σ（ＢＣ）は相槌の韻律的特徴の標準偏差である。
前記ユーザ発話の韻律的特徴を用いて前記相槌を生成するタイミングを決定する工程を更に備え、
前記ユーザ発話の韻律的特徴であるパワー成分が所定の閾値以下である場合に、前記相槌を生成する、
請求項１乃至４のいずれか一項に記載の音声対話方法。
前記相槌には感情表出系の相槌と応答系の相槌とが含まれており、
前記ユーザ発話が発話中である場合、前記応答系の相槌を選択し、
前記ユーザ発話が終了している場合、前記感情表出系の相槌を選択する、
請求項１乃至５のいずれか一項に記載の音声対話方法。
ユーザ発話を入力する発話入力部と、
前記発話入力部に入力された前記ユーザ発話の韻律的特徴を抽出する韻律的特徴抽出部と、
前記韻律的特徴抽出部で抽出された前記韻律的特徴に基づき前記ユーザ発話に応答する相槌を生成する相槌生成部と、を備え、
前記韻律的特徴抽出部は、前記ユーザ発話の韻律的特徴を抽出する際、前記ユーザ発話の基本周波数成分およびパワー成分を抽出し、
前記パワー成分は、当該パワー成分の最大値および平均値を含み、
前記相槌生成部は、前記相槌を生成する際、前記基本周波数成分および前記パワー成分のうち、前記ユーザ発話の韻律的特徴と前記相槌の韻律的特徴との相関が高い成分を用いて、前記相槌の韻律的特徴が前記ユーザ発話の韻律的特徴と合うように前記相槌の韻律を調整する、
音声対話システム。