JP6270661B2 - 音声対話方法、及び音声対話システム - Google Patents

音声対話方法、及び音声対話システム Download PDF

Info

Publication number
JP6270661B2
JP6270661B2 JP2014162579A JP2014162579A JP6270661B2 JP 6270661 B2 JP6270661 B2 JP 6270661B2 JP 2014162579 A JP2014162579 A JP 2014162579A JP 2014162579 A JP2014162579 A JP 2014162579A JP 6270661 B2 JP6270661 B2 JP 6270661B2
Authority
JP
Japan
Prior art keywords
prosodic
conflict
user utterance
utterance
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014162579A
Other languages
English (en)
Other versions
JP2016038501A (ja
Inventor
達也 河原
達也 河原
生聖 渡部
生聖 渡部
中野 雄介
雄介 中野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyoto University
Toyota Motor Corp
Original Assignee
Kyoto University
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyoto University, Toyota Motor Corp filed Critical Kyoto University
Priority to JP2014162579A priority Critical patent/JP6270661B2/ja
Publication of JP2016038501A publication Critical patent/JP2016038501A/ja
Application granted granted Critical
Publication of JP6270661B2 publication Critical patent/JP6270661B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は音声対話方法、及び音声対話システムに関する。
音声対話システムや人型ロボットにおいては、高齢者や認知症などの患者のケアを行うニーズが高まっており、傾聴する機能が要求されている。傾聴においては、ユーザが話しやすいように相槌を打つことが重要である。
特許文献1には、自然で円滑な対話を実現できる音声認識装置に関する技術が開示されている。特許文献1に開示されている音声認識装置では、音声入力部に入力された音声信号を基に計算した話者の音声特徴量に基づき、話者との対話中にスピーカから相槌音を出力させる相槌タイミングを推測している。そして、相槌タイミングであるとの推測結果が得られると、相槌タイミング直前のパワーを基に相槌音を出力させるか否かを判定している。
特開2009−3040号公報
しかしながら、特許文献1に開示されている技術では、相槌を打つタイミングについてのみ焦点が置かれており、実際に打たれている相槌は同一の音声となっている。傾聴においては、ユーザが話しやすいように相槌を打つことが重要であるが、相槌の音声が同一である場合は、ユーザに機械的な印象を与えてしまい、ユーザは話を聞いてもらっているという意識を持つことができない。このため、ユーザの発話が促進されないという問題があった。
上記課題に鑑み本発明の目的は、発話を促進させる相槌を生成することが可能な音声対話方法、及び音声対話システムを提供することである。
本発明にかかる音声対話方法は、ユーザ発話を入力する工程と、入力された前記ユーザ発話の韻律的特徴を抽出する工程と、抽出された前記韻律的特徴に基づき前記ユーザ発話に応答する相槌を生成する工程と、を備え、前記相槌を生成する際、前記相槌の韻律的特徴が前記ユーザ発話の韻律的特徴と合うように前記相槌の韻律を調整する。
本発明にかかる音声対話システムは、ユーザ発話を入力する発話入力部と、前記発話入力部に入力された前記ユーザ発話の韻律的特徴を抽出する韻律的特徴抽出部と、前記韻律的特徴抽出部で抽出された前記韻律的特徴に基づき前記ユーザ発話に応答する相槌を生成する相槌生成部と、を備え、前記相槌生成部は、前記相槌の韻律的特徴が前記ユーザ発話の韻律的特徴と合うように前記相槌の韻律を調整する。
本発明にかかる音声対話方法および音声対話システムでは、ユーザ発話の韻律的特徴を抽出し、相槌を生成する際に、相槌の韻律的特徴がユーザ発話の韻律的特徴と合うように相槌の韻律(音声波形)を調整している。このように相槌の韻律を調整することで、ユーザに機械的な印象を与えることを抑制することができ、ユーザは話を聞いてもらっているという意識を持つことができ、ユーザの発話を促すことができる。
本発明により、発話を促進させる相槌を生成することが可能な音声対話方法、及び音声対話システムを提供することができる。
実施の形態にかかる音声対話システムを示すブロック図である。 実施の形態にかかる音声対話方法を説明するためのフローチャートである。 ユーザと音声対話システムとが対話している状態を示す図である。 ユーザ発話の韻律的特徴と相槌の韻律的特徴との相関を示す相関係数テーブルを示す図である。 ユーザ発話の韻律的特徴と相槌の韻律的特徴との相関を示す相関係数テーブルの一例を示す図である。
以下、図面を参照して本発明の実施の形態について説明する。
図3は、ユーザと音声対話システムとが対話している状態を示す図である。図3に示すように、本実施の形態にかかる発明は、ユーザ31がロボット(音声対話システム)32と対話する際に、ロボット32が、ユーザ31の発話を促進させる相槌を発することを特徴としている。つまり、本実施の形態にかかる発明では、ユーザ31の発話の音声波形33から韻律的特徴を抽出し、相槌を生成する際に、相槌の音声波形34の韻律的特徴がユーザ31の発話の音声波形33の韻律的特徴と合うように相槌の韻律(音声波形34)を調整することを特徴としている。以下で、本実施の形態にかかる音声対話方法、及び音声対話システムについて詳細に説明する。
図1は、本実施の形態にかかる音声対話システムを示すブロック図である。図1に示すように、本実施の形態にかかる音声対話システム1は、発話入力部11、韻律的特徴抽出部12、相槌生成タイミング決定部13、相槌データベース15、相槌選択部16、韻律調整パラメータ生成部17、相槌波形生成部18、及び相槌出力部19を備える。相槌データベース15、相槌選択部16、韻律調整パラメータ生成部17、及び相槌波形生成部18は、相槌生成部14を構成している。
発話入力部11は、ユーザの発話を入力する。例えば、発話入力部11はマイク等を用いて構成することができる。
韻律的特徴抽出部12は、発話入力部11に入力されたユーザ発話(先行発話)の韻律的特徴を抽出する。韻律的特徴としては、ユーザ発話の基本周波数成分F0(以下、単にF0と記載する場合もある)やパワー成分が挙げられる。このとき、基本周波数成分F0として、F0の対数を用いてもよい。例えば、F0の対数は、発話音声を用いて10m秒毎にF0を算出し、この算出されたF0に対して10を底とする対数を取ることで求めることができる。また、パワー成分についても、例えば10m秒毎にdB値を算出することで求めることができる。韻律的特徴抽出部12は、抽出した韻律的特徴21を相槌生成タイミング決定部13に出力する。
また、韻律的特徴抽出部12は、相槌生成タイミング決定部13から相槌生成タイミング情報22が供給された際、相槌選択部16に相槌選択信号23を出力する。
また、韻律的特徴抽出部12は、相槌生成タイミング決定部13から相槌生成タイミング情報22が供給された際、相槌生成タイミングから所定の時間さかのぼった期間(例えば、500m秒)における基本周波数成分F0の最大値、平均値、最大値と最小値のレンジ等、及びパワー成分の最大値、平均値、最大値と最小値のレンジ等の特徴量を算出する。算出された特徴量24は、韻律調整パラメータ生成部17に供給される。
相槌生成タイミング決定部13は、韻律的特徴抽出部12で抽出された韻律的特徴21を用いて、相槌を生成するタイミングを決定する。また、相槌生成タイミング決定部13は、相槌を生成するタイミングを決定した場合、相槌生成タイミング情報22を韻律的特徴抽出部12に出力する。
例えば、相槌生成タイミング決定部13は、ユーザ発話の韻律的特徴であるパワー成分が所定の閾値以下である場合に、相槌を生成するタイミングであると決定することができる。つまり、ユーザが発話が終了したタイミングでは、ユーザ発話のパワー成分がほぼゼロになるので、このタイミングを相槌を生成するタイミングであると決定することができる。また、ユーザ発話が途中の場合であっても、ユーザ発話のパワー成分が小さい場合は、ユーザ発話の終了が近づいていると判断することができる。よって、このような場合も、相槌を生成するタイミングであると決定することができる。
なお、上記では、ユーザ発話の韻律的特徴としてパワー成分を用いた場合を例として挙げたが、例えば、ユーザ発話の基本周波数成分F0を用いて相槌を生成するタイミングを決定してもよい。例えば、相槌生成タイミング決定部13は、ユーザ発話の基本周波数成分F0が所定の閾値以下である場合に、相槌を生成するタイミングであると決定してもよい。つまり、ユーザ発話の基本周波数成分F0が所定の閾値以下である場合は、ユーザ発話のトーンが下がっている状態であるので、ユーザ発話の終了が近づいていると判断することができる。
相槌データベース15は、ユーザ発話の韻律的特徴と相槌の韻律的特徴との相関を示す相関係数テーブルを格納している。この相関係数テーブルは予め生成されている。図4は、ユーザ発話の韻律的特徴と相槌の韻律的特徴との相関を示す相関係数テーブルを示す図である。図4に示すように、相関係数テーブルは、各々の相槌(相槌の形態)と相関係数αとを対応付けたテーブルである。相関係数αは、韻律的特徴の特徴量毎に求める。つまり、相関係数αは、基本周波数成分F0の最大値、平均値、及びパワー成分の最大値、平均値のそれぞれについて算出する。
例えば、相関係数α(1、1)は、ユーザ発話(先行発話)と相槌「あー」との相関を示す相関係数のうち、基本周波数成分F0の最大値を用いて求めた相関係数である。相関係数α(1、2)は、ユーザ発話(先行発話)と相槌「あー」との相関を示す相関係数のうち、基本周波数成分F0の平均値を用いて求めた相関係数である。相関係数α(1、3)は、ユーザ発話(先行発話)と相槌「あー」との相関を示す相関係数のうち、パワー成分の最大値を用いて求めた相関係数である。相関係数α(1、4)は、ユーザ発話(先行発話)と相槌「あー」との相関を示す相関係数のうち、パワー成分の平均値を用いて求めた相関係数である。
相関係数は、話し役(複数のサンプル)と聞き役(カウンセラ)の対話を収録し、この収録した対話の音声を分析して、ユーザ発話と相槌との相関を相槌の形態別に調べることで推定することができる。ここで、話し役は主にユーザ発話を発し、聞き役は主に相槌を発する。相関係数を求める場合、相槌の開始から終了までの韻律的特徴と、相槌の直前のユーザ発話の有声区間(例えば、500m秒)の韻律的特徴を使用する。使用する韻律的特徴の種類は、該当区間の対数F0の最大値、平均値、及びパワー成分の最大値、平均値とすることができる。
なお、図4に示すように、相槌の種類には感情表出系の相槌と応答系の相槌とがある。感情表出系の相槌は、「あー」、「はー」等の興味、理解、共感等の感情を示す相槌である。応答系の相槌は、「ふーん」、「はい」等の相手の発話に対する応答を示す相槌である。
図1に示す相槌選択部16は、韻律的特徴抽出部12から相槌選択信号23が供給されると、相槌データベース15に格納されている相槌の形態の中から、所定の相槌を選択する。このとき選択される相槌は任意に決定することができる。一例を挙げると、相槌生成タイミング決定部13で決定されたタイミングがユーザ発話の途中のタイミングである場合、応答系の相槌(つまり、相手の発話に対する応答を示す相槌)の中から相槌を選択してもよい。一方、相槌生成タイミング決定部13で決定されたタイミングがユーザ発話が終了したタイミングである場合、感情表出系の相槌(つまり、興味、理解、共感等の感情を示す相槌)の中から相槌を選択してもよい。
相槌選択部16は、選択した相槌に関する相槌情報25(例えば、テキストデータ)を相槌波形生成部18に出力する。また、相槌選択部16は、選択した相槌の相関係数に関する情報26を、韻律調整パラメータ生成部17に出力する。相槌選択部16は、相関係数に関する情報を相槌データベース15から取得することができる。相槌選択部16は、例えば、相槌として図4に示す「あー」を選択した場合、相関係数に関する情報26として、α(1、1)、α(1、2)、α(1、3)、α(1、4)の値を韻律調整パラメータ生成部17に出力する。
韻律調整パラメータ生成部17は、相槌選択部16で選択された相槌の韻律的特徴が、ユーザ発話の韻律的特徴と合うように相槌の韻律を調整するパラメータを生成する。このとき、韻律調整パラメータ生成部17は、韻律的特徴抽出部12から供給された特徴量24と、相槌選択部16から供給された相関係数に関する情報26とを用いて、韻律調整パラメータを生成する。生成された韻律調整パラメータ27は、相槌波形生成部18に供給される。
具体的には、韻律調整パラメータ生成部17は、下記の式を用いて韻律調整パラメータBCipを求める。このとき、韻律調整パラメータ生成部17は、基本周波数成分F0の最大値、平均値、及びパワー成分の最大値、平均値の各々について韻律調整パラメータBCipを求める。
Figure 0006270661
上記式において、BCipは韻律調整パラメータ(相槌の韻律的特徴の目標値)、αは相関係数、Sはユーザ発話の韻律的特徴を示す。iはサンプル数であり、i=1、2、・・・、Nである。E(S)はユーザ発話の直前Nターンの発話(N≧1)における平均値(ユーザ発話の韻律的特徴の平均値)、E(BC)は相槌データベースにおける平均値(相槌の韻律的特徴の平均値)である。σ(S)はユーザ発話の直前Nターンの発話(N≧1)における標準偏差(ユーザ発話の韻律的特徴の標準偏差)、σ(BC)は相槌データベースにおける標準偏差(相槌の韻律的特徴の標準偏差)である。本実施の形態では、S、E(S)、E(BC)、σ(S)、σ(BC)は、基本周波数成分F0の最大値、平均値、及びパワー成分の最大値、平均値のそれぞれについて求める。E(BC)およびσ(BC)は、相槌データベース15に予め格納されている。なお、ユーザ発話は、初対面なら直前のターンだけで推測、リピーター(かつ、ユーザ判別可能)なら過去の対話履歴全体から推測してもよい。
例えば、相槌選択部16において相槌として「あー」が選択された場合、韻律調整パラメータ生成部17には、相関係数に関する情報26としてα(1、1)、α(1、2)、α(1、3)、α(1、4)が供給される。
韻律調整パラメータ生成部17は、韻律的特徴抽出部12から供給されたユーザ発話の基本周波数成分F0の最大値を用いて、S、E(S)、σ(S)を求める。なお、E(BC)、σ(BC)については、相槌データベースの値を用いて求める。その後、韻律調整パラメータ生成部17は、基本周波数成分F0の最大値に対応した相関係数α(1、1)、基本周波数成分F0の最大値に対応したS、E(S)、σ(S)、E(BC)、σ(BC)を上記式に代入して、基本周波数成分F0の最大値に対応した韻律調整パラメータBCip(F0_max)を算出する。
同様に、韻律調整パラメータ生成部17は、基本周波数成分F0の平均値に対応した韻律調整パラメータBCip(F0_ave)、パワーの最大値に対応した韻律調整パラメータBCip(P_max)、パワーの平均値に対応した韻律調整パラメータBCip(P_ave)のそれぞれを算出する。算出されたこれらの韻律調整パラメータ27は、相槌波形生成部18に供給される。
なお、上記では4つの韻律調整パラメータBCipを求める場合について説明したが、
求める韻律調整パラメータBCipの数はこれ以外であってもよい。例えば、韻律調整パラメータ生成部17は、基本周波数成分F0およびパワー成分のうち、ユーザ発話の韻律的特徴と相槌の韻律的特徴との相関が高い成分(つまり、相関係数αが高い成分:図5を参照)について、韻律調整パラメータBCipを求めるようにしてもよい。換言すると、韻律調整パラメータ生成部17は、基本周波数成分F0およびパワー成分のうち、相槌についての相関係数が高い成分を優先的に用いて、韻律調整パラメータBCipを求めるようにしてもよい。
図5は、ユーザ発話の韻律的特徴と相槌の韻律的特徴との相関を示す相関係数テーブルの一例を示す図である。図5に示すように、各成分における相関係数は、相槌の形態に応じて異なってくる。例えば、相槌の形態が「はー」である場合は、相関係数の値が大きい「パワー成分の最大値(相関係数0.47)」および「パワー成分の平均値(相関係数0.29」のそれぞれに対応した韻律調整パラメータBCip(P_max)、BCip(P_ave)を求めてもよい。また、例えば、相槌の形態が「ふん」、「うん」である場合は、相関係数の値が大きい「基本周波数成分F0の最大値(相関係数0.22」および「パワー成分の最大値(相関係数0.23)」のそれぞれに対応した韻律調整パラメータBCip(F0_max)、BCip(P_max)を求めてもよい。このように、基本周波数成分F0の最大値および平均値、並びにパワー成分の最大値および平均値のうち、相関係数が高い成分を優先的に用いて韻律調整パラメータBCipを求めることで、韻律調整パラメータの精度を向上させることができる。また、韻律調整パラメータを求める際の演算量を低減させることができる。
図1に示す相槌波形生成部18は、相槌選択部16で選択された相槌に関する相槌情報25(例えば、テキストデータ)と、韻律調整パラメータ生成部17で生成された韻律調整パラメータ27とを用いて、相槌の音声波形を生成する。ここで、韻律調整パラメータ27は、基本周波数成分F0の最大値に対応した韻律調整パラメータBCip(F0_max)、基本周波数成分F0の平均値に対応した韻律調整パラメータBCip(F0_ave)、パワーの最大値に対応した韻律調整パラメータBCip(P_max)、及びパワーの平均値に対応した韻律調整パラメータBCip(P_ave)の少なくとも1つである。例えば、相槌波形生成部18は、TTS(text to speech)技術を用いて相槌の音声波形を生成することができる。
このように、相槌データベース15、相槌選択部16、韻律調整パラメータ生成部17、及び相槌波形生成部18で構成される相槌生成部14は、韻律的特徴抽出部12で抽出された韻律的特徴に基づいて、ユーザ発話に応答する相槌の音声波形を生成することができる。
相槌波形生成部18で生成された相槌の音声波形は、相槌出力部19に供給される。相槌出力部19は、供給された音声波形に対応した相槌を出力する。例えば、相槌出力部19はスピーカ等を用いて構成することができる。これにより、ロボット(音声対話システム)32は、相槌の韻律的特徴がユーザ発話の韻律的特徴と合うように韻律が調整された相槌を出力することができる。このように相槌の韻律を調整することで、ユーザの発話を促すことができる。
なお、本実施の形態にかかる音声対話システムでは、相槌出力部19から出力される相槌に応じてロボットが首を振るように構成してもよい。このように、相槌に合わせてロボットが首を振るようにすることで、ユーザの発話を更に促すことができる。
次に、本実施の形態にかかる音声対話システムの動作(音声対話方法)について説明する。図2は、本実施の形態にかかる音声対話方法を説明するためのフローチャートである。なお、この場合も、相槌データベース15には、予めユーザ発話の韻律的特徴と相槌の韻律的特徴との相関を示す相関係数テーブルが格納されているものとする。
図1、図2に示すように、まず、音声対話システム1の発話入力部11は、ユーザの発話を入力する(ステップS1)。次に、韻律的特徴抽出部12は、発話入力部11に入力されたユーザ発話(先行発話)の韻律的特徴を抽出する(ステップS2)。韻律的特徴としては、ユーザ発話の基本周波数成分F0やパワー成分が挙げられる。次に、相槌生成タイミング決定部13は、韻律的特徴抽出部12で抽出された韻律的特徴21を用いて、相槌を生成するタイミングを決定する。相槌生成タイミング決定部13が相槌生成タイミングではないと判断した場合(ステップS3:No)、再度、ステップS1〜S3の動作を繰り返す。一方、相槌生成タイミング決定部13が相槌生成タイミングであると判断した場合(ステップS3:Yes)、相槌生成タイミング情報22を韻律的特徴抽出部12に出力する。例えば、相槌生成タイミング決定部13は、ユーザ発話の韻律的特徴であるパワー成分が所定の閾値以下である場合に、相槌を生成するタイミングであると決定することができる。
韻律的特徴抽出部12は、相槌生成タイミング決定部13から相槌生成タイミング情報22が供給された場合、相槌選択部16に相槌選択信号23を出力する。また、韻律的特徴抽出部12は、相槌生成タイミング決定部13から相槌生成タイミング情報22が供給された場合、相槌生成タイミングから所定の時間さかのぼった期間(例えば、500m秒)における基本周波数成分F0の最大値、平均値、最大値と最小値のレンジ等、及びパワー成分の最大値、平均値、最大値と最小値のレンジ等の特徴量を算出する。算出された特徴量24は、韻律調整パラメータ生成部17に供給される。
相槌選択部16は、韻律的特徴抽出部12から相槌選択信号23が供給されると、相槌データベース15に格納されている相槌の形態の中から、所定の相槌(相槌の形態)を選択する(ステップS4)。また、相槌選択部16は、選択した相槌に関する相槌情報25(例えば、テキストデータ)を相槌波形生成部18に出力する。また、相槌選択部16は、選択した相槌の相関係数に関する情報26を、韻律調整パラメータ生成部17に出力する。相槌選択部16は、相関係数に関する情報を相槌データベース15から取得することができる。
韻律調整パラメータ生成部17は、相槌選択部16で選択された相槌の韻律的特徴が、ユーザ発話の韻律的特徴と合うように相槌の韻律を調整するパラメータを生成する(ステップS5)。このとき、韻律調整パラメータ生成部17は、韻律的特徴抽出部12から供給された特徴量24と、相槌選択部16から供給された相関係数に関する情報26とを用いて、韻律調整パラメータを生成する。生成された韻律調整パラメータ27は、相槌波形生成部18に供給される。
具体的には、韻律調整パラメータ生成部17は、上記式を用いて韻律調整パラメータBCipを求める。このとき、韻律調整パラメータ生成部17は、基本周波数成分F0の最大値、平均値、及びパワー成分の最大値、平均値の各々について韻律調整パラメータBCipを求める。
相槌波形生成部18は、相槌選択部16で選択された相槌に関する相槌情報25と、韻律調整パラメータ生成部17で生成された韻律調整パラメータ27とを用いて、相槌の音声波形を生成する(ステップS6)。ここで、韻律調整パラメータ27は、基本周波数成分F0の最大値に対応した韻律調整パラメータBCip(F0_max)、基本周波数成分F0の平均値に対応した韻律調整パラメータBCip(F0_ave)、パワーの最大値に対応した韻律調整パラメータBCip(P_max)、及びパワーの平均値に対応した韻律調整パラメータBCip(P_ave)の少なくとも1つである。例えば、相槌波形生成部18は、TTS(text to speech)技術を用いて相槌の音声波形を生成することができる。
相槌波形生成部18で生成された相槌の音声波形は、相槌出力部19に供給される。相槌出力部19は、供給された音声波形に対応した相槌を出力する(ステップS7)。これにより、ロボット(音声対話システム)32は、相槌の韻律的特徴がユーザ発話の韻律的特徴と合うように韻律が調整された相槌を出力することができる。このとき、相槌出力部19から出力される相槌に応じてロボットが首を振るように構成してもよい。
背景技術で説明したように、特許文献1に開示されている音声認識装置では、音声入力部に入力された音声信号を基に計算した話者の音声特徴量に基づき、話者との対話中にスピーカから相槌音を出力させる相槌タイミングを推測している。そして、相槌タイミングであるとの推測結果が得られると、相槌タイミング直前のパワーを基に相槌音を出力させるか否かを判定している。
しかしながら、特許文献1に開示されている技術では、相槌を打つタイミングについてのみ焦点が置かれており、実際に打たれている相槌は同一の音声となっている。傾聴においては、ユーザが話しやすいように相槌を打つことが重要であるが、相槌の音声が同一である場合は、ユーザに機械的な印象を与えてしまい、ユーザは話を聞いてもらっているという意識を持つことができない。このため、ユーザの発話が促進されないという問題があった。
そこで本実施の形態にかかる音声対話方法および音声対話システムでは、ユーザ発話の音声波形から韻律的特徴を抽出し、相槌を生成する際に、相槌の音声波形の韻律的特徴がユーザ発話の音声波形の韻律的特徴と合うように相槌の韻律(音声波形)を調整している。このように相槌の韻律を調整することで、ユーザに機械的な印象を与えることを抑制することができ、ユーザは話を聞いてもらっているという意識を持つことができ、ユーザの発話を促すことができる。よって、本実施の形態にかかる発明により、発話を促進させる相槌を生成することが可能な音声対話方法、及び音声対話システムを提供することができる。
つまり、本実施の形態にかかる発明では、図3に示すように、ユーザ31の発話の音声波形33から韻律的特徴Siを抽出し、この抽出した韻律的特徴Siを上記で示した式に代入して、相槌の韻律的特徴を予測している(つまり、BCipを求めている)。よって、相槌を生成する際に、相槌の音声波形34の韻律的特徴BCipがユーザ31の発話の音声波形33の韻律的特徴と合うように相槌の韻律(音声波形34)を調整することができる。
ここで、上記式におけるE(BC)は、相槌の韻律的特徴(F0、パワー)の平均値であり、上記式では、このE(BC)の値をベースラインとし、このE(BC)に、ユーザ発話の韻律的特徴Siに応じた値を加算することで、相槌の韻律的特徴(韻律調整パラメータ)BCipを求めている。
以上、本発明を上記実施形態に即して説明したが、本発明は上記実施の形態の構成にのみ限定されるものではなく、本願特許請求の範囲の請求項の発明の範囲内で当業者であればなし得る各種変形、修正、組み合わせを含むことは勿論である。
1 音声対話システム
11 発話入力部
12 韻律的特徴抽出部
13 相槌生成タイミング決定部
14 相槌生成部
15 相槌データベース
16 相槌選択部
17 韻律調整パラメータ生成部
18 相槌波形生成部
19 相槌出力部
21 抽出した韻律的特徴
22 相槌生成タイミング情報
23 相槌選択信号
24 特徴量
25 相槌情報
26 相関係数に関する情報
27 韻律調整パラメータ
31 ユーザ
32 ロボット
33 ユーザ発話の音声波形
34 相槌の音声波形

Claims (7)

  1. ユーザ発話を入力する工程と、
    入力された前記ユーザ発話の韻律的特徴を抽出する工程と、
    抽出された前記韻律的特徴に基づき前記ユーザ発話に応答する相槌を生成する工程と、を備え、
    前記ユーザ発話の韻律的特徴を抽出する際、前記ユーザ発話の基本周波数成分およびパワー成分を抽出し、
    前記パワー成分は、当該パワー成分の最大値および平均値を含み、
    前記相槌を生成する際、前記基本周波数成分および前記パワー成分のうち、前記ユーザ発話の韻律的特徴と前記相槌の韻律的特徴との相関が高い成分を用いて、前記相槌の韻律的特徴が前記ユーザ発話の韻律的特徴と合うように前記相槌の韻律を調整する、
    音声対話方法。
  2. 前記ユーザ発話の韻律的特徴と前記相槌の韻律的特徴との相関を示す相関係数テーブルを予め生成し、
    前記基本周波数成分および前記パワー成分のうち、前記相槌についての相関係数が高い成分を優先的に用いて前記相槌の韻律を調整する、
    請求項に記載の音声対話方法。
  3. 前記基本周波数成分は、当該基本周波数成分の最大値および平均値を含、請求項またはに記載の音声対話方法。
  4. 前記相槌を生成する際、下記の式を用いて、前記基本周波数成分の最大値、平均値、及び前記パワー成分の最大値、平均値の各々について韻律調整パラメータBCipを求め、当該韻律調整パラメータBCipを用いて前記相槌の韻律を調整する、請求項に記載の音声対話方法。
    Figure 0006270661
    上記式において、αは相関係数、Sはユーザ発話の韻律的特徴、iはサンプル数、E(S)はユーザ発話の韻律的特徴の平均値、E(BC)は相槌の韻律的特徴の平均値、σ(S)はユーザ発話の韻律的特徴の標準偏差、σ(BC)は相槌の韻律的特徴の標準偏差である。
  5. 前記ユーザ発話の韻律的特徴を用いて前記相槌を生成するタイミングを決定する工程を更に備え、
    前記ユーザ発話の韻律的特徴であるパワー成分が所定の閾値以下である場合に、前記相槌を生成する、
    請求項1乃至のいずれか一項に記載の音声対話方法。
  6. 前記相槌には感情表出系の相槌と応答系の相槌とが含まれており、
    前記ユーザ発話が発話中である場合、前記応答系の相槌を選択し、
    前記ユーザ発話が終了している場合、前記感情表出系の相槌を選択する、
    請求項1乃至のいずれか一項に記載の音声対話方法。
  7. ユーザ発話を入力する発話入力部と、
    前記発話入力部に入力された前記ユーザ発話の韻律的特徴を抽出する韻律的特徴抽出部と、
    前記韻律的特徴抽出部で抽出された前記韻律的特徴に基づき前記ユーザ発話に応答する相槌を生成する相槌生成部と、を備え、
    前記韻律的特徴抽出部は、前記ユーザ発話の韻律的特徴を抽出する際、前記ユーザ発話の基本周波数成分およびパワー成分を抽出し、
    前記パワー成分は、当該パワー成分の最大値および平均値を含み、
    前記相槌生成部は、前記相槌を生成する際、前記基本周波数成分および前記パワー成分のうち、前記ユーザ発話の韻律的特徴と前記相槌の韻律的特徴との相関が高い成分を用いて、前記相槌の韻律的特徴が前記ユーザ発話の韻律的特徴と合うように前記相槌の韻律を調整する、
    音声対話システム。
JP2014162579A 2014-08-08 2014-08-08 音声対話方法、及び音声対話システム Active JP6270661B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014162579A JP6270661B2 (ja) 2014-08-08 2014-08-08 音声対話方法、及び音声対話システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014162579A JP6270661B2 (ja) 2014-08-08 2014-08-08 音声対話方法、及び音声対話システム

Publications (2)

Publication Number Publication Date
JP2016038501A JP2016038501A (ja) 2016-03-22
JP6270661B2 true JP6270661B2 (ja) 2018-01-31

Family

ID=55529610

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014162579A Active JP6270661B2 (ja) 2014-08-08 2014-08-08 音声対話方法、及び音声対話システム

Country Status (1)

Country Link
JP (1) JP6270661B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6461058B2 (ja) 2016-09-06 2019-01-30 国立大学法人京都大学 音声対話装置および音声対話装置を用いた自動対話方法
JP6911398B2 (ja) * 2017-03-09 2021-07-28 ヤマハ株式会社 音声対話方法、音声対話装置およびプログラム
JP6801587B2 (ja) * 2017-05-26 2020-12-16 トヨタ自動車株式会社 音声対話装置
JP6768597B2 (ja) 2017-06-08 2020-10-14 株式会社日立製作所 対話システム、対話システムの制御方法、及び装置
JP6993314B2 (ja) * 2018-11-09 2022-01-13 株式会社日立製作所 対話システム、装置、及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11175082A (ja) * 1997-12-10 1999-07-02 Toshiba Corp 音声対話装置及び音声対話用音声合成方法
JP2002041084A (ja) * 2000-07-26 2002-02-08 Victor Co Of Japan Ltd 対話処理システム
JP2003228449A (ja) * 2002-02-01 2003-08-15 Sharp Corp 対話装置及び対話処理プログラムを記録した記録媒体
JP2004086001A (ja) * 2002-08-28 2004-03-18 Sony Corp 会話処理装置、および会話処理方法、並びにコンピュータ・プログラム
JP2011217018A (ja) * 2010-03-31 2011-10-27 Oki Networks Co Ltd 音声応答装置及びプログラム

Also Published As

Publication number Publication date
JP2016038501A (ja) 2016-03-22

Similar Documents

Publication Publication Date Title
JP4456537B2 (ja) 情報伝達装置
JP6270661B2 (ja) 音声対話方法、及び音声対話システム
US20150348538A1 (en) Speech summary and action item generation
WO2016063879A1 (ja) 音声合成装置および方法
JP6464703B2 (ja) 会話評価装置およびプログラム
EP3065130B1 (en) Voice synthesis
Tanaka et al. A hybrid approach to electrolaryngeal speech enhancement based on noise reduction and statistical excitation generation
JP6664670B2 (ja) 声質変換システム
Janke et al. Fundamental frequency generation for whisper-to-audible speech conversion
CN108369804A (zh) 语音交互设备和语音交互方法
JP6747318B2 (ja) 対話装置
CN111653281A (zh) 用于对助听器的音频信号进行个性化信号处理的方法
JP2012163692A (ja) 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
JP2018132624A (ja) 音声対話装置
JP2004021121A (ja) 音声対話制御装置
JP6569588B2 (ja) 音声対話装置およびプログラム
JP6728660B2 (ja) 音声対話方法、音声対話装置およびプログラム
JP6657887B2 (ja) 音声対話方法、音声対話装置およびプログラム
JP6657888B2 (ja) 音声対話方法、音声対話装置およびプログラム
JP2018165805A (ja) 対話装置、対話装置の制御方法およびプログラム
JP2018132623A (ja) 音声対話装置
Ueda et al. Are we truly modeling expressiveness? A study on expressive TTS in Brazilian Portuguese for real-life application styles
Gallardo Human and automatic speaker recognition over telecommunication channels
JP2018205654A (ja) 音声合成学習装置、音声合成装置、これらの方法及びプログラム
WO2017098940A1 (ja) 音声対話装置および音声対話方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161007

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170919

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170926

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171030

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171226

R150 Certificate of patent or registration of utility model

Ref document number: 6270661

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250