JP2016038501A - Voice interactive method and voice interactive system - Google Patents
Voice interactive method and voice interactive system Download PDFInfo
- Publication number
- JP2016038501A JP2016038501A JP2014162579A JP2014162579A JP2016038501A JP 2016038501 A JP2016038501 A JP 2016038501A JP 2014162579 A JP2014162579 A JP 2014162579A JP 2014162579 A JP2014162579 A JP 2014162579A JP 2016038501 A JP2016038501 A JP 2016038501A
- Authority
- JP
- Japan
- Prior art keywords
- conflict
- prosodic
- user utterance
- prosody
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000002452 interceptive effect Effects 0.000 title abstract description 5
- 238000000605 extraction Methods 0.000 claims abstract description 26
- 230000003993 interaction Effects 0.000 claims description 46
- 239000000284 extract Substances 0.000 claims description 5
- 230000002996 emotional effect Effects 0.000 claims description 4
- 230000007474 system interaction Effects 0.000 claims 1
- 238000004519 manufacturing process Methods 0.000 abstract description 3
- 230000001737 promoting effect Effects 0.000 abstract 1
- 230000033764 rhythmic process Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 6
- 239000004071 soot Substances 0.000 description 6
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 206010012289 Dementia Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
Images
Abstract
Description
本発明は音声対話方法、及び音声対話システムに関する。 The present invention relates to a voice dialogue method and a voice dialogue system.
音声対話システムや人型ロボットにおいては、高齢者や認知症などの患者のケアを行うニーズが高まっており、傾聴する機能が要求されている。傾聴においては、ユーザが話しやすいように相槌を打つことが重要である。 In voice dialogue systems and humanoid robots, there is an increasing need to care for patients such as elderly people and dementia, and a function to listen is required. In listening, it is important to make a consensus so that the user can easily speak.
特許文献1には、自然で円滑な対話を実現できる音声認識装置に関する技術が開示されている。特許文献1に開示されている音声認識装置では、音声入力部に入力された音声信号を基に計算した話者の音声特徴量に基づき、話者との対話中にスピーカから相槌音を出力させる相槌タイミングを推測している。そして、相槌タイミングであるとの推測結果が得られると、相槌タイミング直前のパワーを基に相槌音を出力させるか否かを判定している。
しかしながら、特許文献1に開示されている技術では、相槌を打つタイミングについてのみ焦点が置かれており、実際に打たれている相槌は同一の音声となっている。傾聴においては、ユーザが話しやすいように相槌を打つことが重要であるが、相槌の音声が同一である場合は、ユーザに機械的な印象を与えてしまい、ユーザは話を聞いてもらっているという意識を持つことができない。このため、ユーザの発話が促進されないという問題があった。
However, in the technique disclosed in
上記課題に鑑み本発明の目的は、発話を促進させる相槌を生成することが可能な音声対話方法、及び音声対話システムを提供することである。 In view of the above-described problems, an object of the present invention is to provide a voice dialogue method and a voice dialogue system capable of generating a conflict that promotes speech.
本発明にかかる音声対話方法は、ユーザ発話を入力する工程と、入力された前記ユーザ発話の韻律的特徴を抽出する工程と、抽出された前記韻律的特徴に基づき前記ユーザ発話に応答する相槌を生成する工程と、を備え、前記相槌を生成する際、前記相槌の韻律的特徴が前記ユーザ発話の韻律的特徴と合うように前記相槌の韻律を調整する。 The voice interaction method according to the present invention includes a step of inputting a user utterance, a step of extracting a prosodic feature of the input user utterance, and a response to the user utterance based on the extracted prosodic feature. A step of generating, and when generating the companion, the prosodic feature of the companion is adjusted so that the prosodic feature of the companion matches the prosodic feature of the user utterance.
本発明にかかる音声対話システムは、ユーザ発話を入力する発話入力部と、前記発話入力部に入力された前記ユーザ発話の韻律的特徴を抽出する韻律的特徴抽出部と、前記韻律的特徴抽出部で抽出された前記韻律的特徴に基づき前記ユーザ発話に応答する相槌を生成する相槌生成部と、を備え、前記相槌生成部は、前記相槌の韻律的特徴が前記ユーザ発話の韻律的特徴と合うように前記相槌の韻律を調整する。 The speech dialogue system according to the present invention includes an utterance input unit that inputs a user utterance, a prosodic feature extraction unit that extracts prosodic features of the user utterance input to the utterance input unit, and the prosodic feature extraction unit A conflict generation unit that generates a response in response to the user utterance based on the prosodic feature extracted in step (a), wherein the conflict generation unit matches the prosodic feature of the conflict with the prosodic feature of the user utterance As described above, the prosody of the reconciliation is adjusted.
本発明にかかる音声対話方法および音声対話システムでは、ユーザ発話の韻律的特徴を抽出し、相槌を生成する際に、相槌の韻律的特徴がユーザ発話の韻律的特徴と合うように相槌の韻律(音声波形)を調整している。このように相槌の韻律を調整することで、ユーザに機械的な印象を与えることを抑制することができ、ユーザは話を聞いてもらっているという意識を持つことができ、ユーザの発話を促すことができる。 In the spoken dialogue method and the spoken dialogue system according to the present invention, the prosodic features of the user utterance are extracted so that the prosodic features of the user utterance are matched with the prosodic features of the user utterance. (Sound waveform) is adjusted. By adjusting the prosodic prosody in this way, the user can be prevented from giving a mechanical impression, the user can be aware that they are listening to the story, and the user's utterance can be encouraged. Can do.
本発明により、発話を促進させる相槌を生成することが可能な音声対話方法、及び音声対話システムを提供することができる。 INDUSTRIAL APPLICABILITY According to the present invention, it is possible to provide a voice dialogue method and a voice dialogue system capable of generating a conflict that promotes speech.
以下、図面を参照して本発明の実施の形態について説明する。
図3は、ユーザと音声対話システムとが対話している状態を示す図である。図3に示すように、本実施の形態にかかる発明は、ユーザ31がロボット(音声対話システム)32と対話する際に、ロボット32が、ユーザ31の発話を促進させる相槌を発することを特徴としている。つまり、本実施の形態にかかる発明では、ユーザ31の発話の音声波形33から韻律的特徴を抽出し、相槌を生成する際に、相槌の音声波形34の韻律的特徴がユーザ31の発話の音声波形33の韻律的特徴と合うように相槌の韻律(音声波形34)を調整することを特徴としている。以下で、本実施の形態にかかる音声対話方法、及び音声対話システムについて詳細に説明する。
Embodiments of the present invention will be described below with reference to the drawings.
FIG. 3 is a diagram illustrating a state in which the user and the voice interaction system are interacting with each other. As shown in FIG. 3, the invention according to the present embodiment is characterized in that when the
図1は、本実施の形態にかかる音声対話システムを示すブロック図である。図1に示すように、本実施の形態にかかる音声対話システム1は、発話入力部11、韻律的特徴抽出部12、相槌生成タイミング決定部13、相槌データベース15、相槌選択部16、韻律調整パラメータ生成部17、相槌波形生成部18、及び相槌出力部19を備える。相槌データベース15、相槌選択部16、韻律調整パラメータ生成部17、及び相槌波形生成部18は、相槌生成部14を構成している。
FIG. 1 is a block diagram showing a voice dialogue system according to the present embodiment. As shown in FIG. 1, the spoken
発話入力部11は、ユーザの発話を入力する。例えば、発話入力部11はマイク等を用いて構成することができる。
The
韻律的特徴抽出部12は、発話入力部11に入力されたユーザ発話(先行発話)の韻律的特徴を抽出する。韻律的特徴としては、ユーザ発話の基本周波数成分F0(以下、単にF0と記載する場合もある)やパワー成分が挙げられる。このとき、基本周波数成分F0として、F0の対数を用いてもよい。例えば、F0の対数は、発話音声を用いて10m秒毎にF0を算出し、この算出されたF0に対して10を底とする対数を取ることで求めることができる。また、パワー成分についても、例えば10m秒毎にdB値を算出することで求めることができる。韻律的特徴抽出部12は、抽出した韻律的特徴21を相槌生成タイミング決定部13に出力する。
The prosodic
また、韻律的特徴抽出部12は、相槌生成タイミング決定部13から相槌生成タイミング情報22が供給された際、相槌選択部16に相槌選択信号23を出力する。
Further, the prosodic
また、韻律的特徴抽出部12は、相槌生成タイミング決定部13から相槌生成タイミング情報22が供給された際、相槌生成タイミングから所定の時間さかのぼった期間(例えば、500m秒)における基本周波数成分F0の最大値、平均値、最大値と最小値のレンジ等、及びパワー成分の最大値、平均値、最大値と最小値のレンジ等の特徴量を算出する。算出された特徴量24は、韻律調整パラメータ生成部17に供給される。
In addition, when the prosodic
相槌生成タイミング決定部13は、韻律的特徴抽出部12で抽出された韻律的特徴21を用いて、相槌を生成するタイミングを決定する。また、相槌生成タイミング決定部13は、相槌を生成するタイミングを決定した場合、相槌生成タイミング情報22を韻律的特徴抽出部12に出力する。
The conflict generation
例えば、相槌生成タイミング決定部13は、ユーザ発話の韻律的特徴であるパワー成分が所定の閾値以下である場合に、相槌を生成するタイミングであると決定することができる。つまり、ユーザが発話が終了したタイミングでは、ユーザ発話のパワー成分がほぼゼロになるので、このタイミングを相槌を生成するタイミングであると決定することができる。また、ユーザ発話が途中の場合であっても、ユーザ発話のパワー成分が小さい場合は、ユーザ発話の終了が近づいていると判断することができる。よって、このような場合も、相槌を生成するタイミングであると決定することができる。
For example, the conflict generation
なお、上記では、ユーザ発話の韻律的特徴としてパワー成分を用いた場合を例として挙げたが、例えば、ユーザ発話の基本周波数成分F0を用いて相槌を生成するタイミングを決定してもよい。例えば、相槌生成タイミング決定部13は、ユーザ発話の基本周波数成分F0が所定の閾値以下である場合に、相槌を生成するタイミングであると決定してもよい。つまり、ユーザ発話の基本周波数成分F0が所定の閾値以下である場合は、ユーザ発話のトーンが下がっている状態であるので、ユーザ発話の終了が近づいていると判断することができる。
In the above description, the case where the power component is used as the prosodic feature of the user utterance is taken as an example. However, for example, the timing of generating the conflict may be determined using the fundamental frequency component F0 of the user utterance. For example, the conflict generation
相槌データベース15は、ユーザ発話の韻律的特徴と相槌の韻律的特徴との相関を示す相関係数テーブルを格納している。この相関係数テーブルは予め生成されている。図4は、ユーザ発話の韻律的特徴と相槌の韻律的特徴との相関を示す相関係数テーブルを示す図である。図4に示すように、相関係数テーブルは、各々の相槌(相槌の形態)と相関係数αとを対応付けたテーブルである。相関係数αは、韻律的特徴の特徴量毎に求める。つまり、相関係数αは、基本周波数成分F0の最大値、平均値、及びパワー成分の最大値、平均値のそれぞれについて算出する。
The
例えば、相関係数α(1、1)は、ユーザ発話(先行発話)と相槌「あー」との相関を示す相関係数のうち、基本周波数成分F0の最大値を用いて求めた相関係数である。相関係数α(1、2)は、ユーザ発話(先行発話)と相槌「あー」との相関を示す相関係数のうち、基本周波数成分F0の平均値を用いて求めた相関係数である。相関係数α(1、3)は、ユーザ発話(先行発話)と相槌「あー」との相関を示す相関係数のうち、パワー成分の最大値を用いて求めた相関係数である。相関係数α(1、4)は、ユーザ発話(先行発話)と相槌「あー」との相関を示す相関係数のうち、パワー成分の平均値を用いて求めた相関係数である。 For example, the correlation coefficient α (1, 1) is a correlation coefficient obtained by using the maximum value of the fundamental frequency component F0 among the correlation coefficients indicating the correlation between the user utterance (preceding utterance) and the companion “Ah”. It is. The correlation coefficient α (1, 2) is a correlation coefficient obtained using the average value of the fundamental frequency component F0 among the correlation coefficients indicating the correlation between the user utterance (preceding utterance) and the companion “Ah”. . The correlation coefficient α (1, 3) is a correlation coefficient obtained by using the maximum value of the power component among the correlation coefficients indicating the correlation between the user utterance (preceding utterance) and the companion “Ah”. The correlation coefficient α (1, 4) is a correlation coefficient obtained by using the average value of the power components among the correlation coefficients indicating the correlation between the user utterance (preceding utterance) and the companion “ah”.
相関係数は、話し役(複数のサンプル)と聞き役(カウンセラ)の対話を収録し、この収録した対話の音声を分析して、ユーザ発話と相槌との相関を相槌の形態別に調べることで推定することができる。ここで、話し役は主にユーザ発話を発し、聞き役は主に相槌を発する。相関係数を求める場合、相槌の開始から終了までの韻律的特徴と、相槌の直前のユーザ発話の有声区間(例えば、500m秒)の韻律的特徴を使用する。使用する韻律的特徴の種類は、該当区間の対数F0の最大値、平均値、及びパワー成分の最大値、平均値とすることができる。 Correlation coefficients are estimated by recording conversations between a speaker (multiple samples) and a listener (counselor), analyzing the voice of the recorded conversations, and examining the correlation between the user's utterances and the interaction according to the form of the interaction. can do. Here, the talker mainly utters the user's speech, and the hearer mainly talks. When obtaining the correlation coefficient, the prosodic features from the start to the end of the match and the prosodic features of the voiced section (eg, 500 milliseconds) of the user utterance immediately before the match are used. The types of prosodic features to be used can be the maximum value and average value of the logarithm F0 of the corresponding section, and the maximum value and average value of the power component.
なお、図4に示すように、相槌の種類には感情表出系の相槌と応答系の相槌とがある。感情表出系の相槌は、「あー」、「はー」等の興味、理解、共感等の感情を示す相槌である。応答系の相槌は、「ふーん」、「はい」等の相手の発話に対する応答を示す相槌である。 As shown in FIG. 4, there are two types of conflicts: emotional expression and response. The emotional expression is a relationship that expresses emotions such as interest, understanding, empathy, etc. The response system is a response indicating a response to the utterance of the other party such as “Fun” or “Yes”.
図1に示す相槌選択部16は、韻律的特徴抽出部12から相槌選択信号23が供給されると、相槌データベース15に格納されている相槌の形態の中から、所定の相槌を選択する。このとき選択される相槌は任意に決定することができる。一例を挙げると、相槌生成タイミング決定部13で決定されたタイミングがユーザ発話の途中のタイミングである場合、応答系の相槌(つまり、相手の発話に対する応答を示す相槌)の中から相槌を選択してもよい。一方、相槌生成タイミング決定部13で決定されたタイミングがユーザ発話が終了したタイミングである場合、感情表出系の相槌(つまり、興味、理解、共感等の感情を示す相槌)の中から相槌を選択してもよい。
The
相槌選択部16は、選択した相槌に関する相槌情報25(例えば、テキストデータ)を相槌波形生成部18に出力する。また、相槌選択部16は、選択した相槌の相関係数に関する情報26を、韻律調整パラメータ生成部17に出力する。相槌選択部16は、相関係数に関する情報を相槌データベース15から取得することができる。相槌選択部16は、例えば、相槌として図4に示す「あー」を選択した場合、相関係数に関する情報26として、α(1、1)、α(1、2)、α(1、3)、α(1、4)の値を韻律調整パラメータ生成部17に出力する。
The
韻律調整パラメータ生成部17は、相槌選択部16で選択された相槌の韻律的特徴が、ユーザ発話の韻律的特徴と合うように相槌の韻律を調整するパラメータを生成する。このとき、韻律調整パラメータ生成部17は、韻律的特徴抽出部12から供給された特徴量24と、相槌選択部16から供給された相関係数に関する情報26とを用いて、韻律調整パラメータを生成する。生成された韻律調整パラメータ27は、相槌波形生成部18に供給される。
The prosodic adjustment
具体的には、韻律調整パラメータ生成部17は、下記の式を用いて韻律調整パラメータBCipを求める。このとき、韻律調整パラメータ生成部17は、基本周波数成分F0の最大値、平均値、及びパワー成分の最大値、平均値の各々について韻律調整パラメータBCipを求める。
Specifically, the prosody adjustment
上記式において、BCipは韻律調整パラメータ(相槌の韻律的特徴の目標値)、αは相関係数、Siはユーザ発話の韻律的特徴を示す。iはサンプル数であり、i=1、2、・・・、Nである。E(S)はユーザ発話の直前Nターンの発話(N≧1)における平均値(ユーザ発話の韻律的特徴の平均値)、E(BC)は相槌データベースにおける平均値(相槌の韻律的特徴の平均値)である。σ(S)はユーザ発話の直前Nターンの発話(N≧1)における標準偏差(ユーザ発話の韻律的特徴の標準偏差)、σ(BC)は相槌データベースにおける標準偏差(相槌の韻律的特徴の標準偏差)である。本実施の形態では、Si、E(S)、E(BC)、σ(S)、σ(BC)は、基本周波数成分F0の最大値、平均値、及びパワー成分の最大値、平均値のそれぞれについて求める。E(BC)およびσ(BC)は、相槌データベース15に予め格納されている。なお、ユーザ発話は、初対面なら直前のターンだけで推測、リピーター(かつ、ユーザ判別可能)なら過去の対話履歴全体から推測してもよい。
In the above formula, BC ip is a prosodic adjustment parameter (target value of the prosodic feature of the conflict), α is a correlation coefficient, and S i is a prosodic feature of the user utterance. i is the number of samples, i = 1, 2,. E (S) is the average value (average value of prosodic features of user utterances) in N turns (N ≧ 1) immediately before the user utterance, and E (BC) is the average value of the prosodic features (the prosodic features of the utterances). Average value). σ (S) is the standard deviation (standard deviation of prosodic features of the user utterance) in the N-turn utterance (N ≧ 1) immediately before the user utterance, and σ (BC) is the standard deviation (the prosodic features of the compliment prosodic feature). Standard deviation). In the present embodiment, S i , E (S), E (BC), σ (S), and σ (BC) are the maximum value and average value of the fundamental frequency component F0, and the maximum value and average value of the power component. Ask for each. E (BC) and σ (BC) are stored in advance in the
例えば、相槌選択部16において相槌として「あー」が選択された場合、韻律調整パラメータ生成部17には、相関係数に関する情報26としてα(1、1)、α(1、2)、α(1、3)、α(1、4)が供給される。
For example, when “Ah” is selected as the conflict in the
韻律調整パラメータ生成部17は、韻律的特徴抽出部12から供給されたユーザ発話の基本周波数成分F0の最大値を用いて、Si、E(S)、σ(S)を求める。なお、E(BC)、σ(BC)については、相槌データベースの値を用いて求める。その後、韻律調整パラメータ生成部17は、基本周波数成分F0の最大値に対応した相関係数α(1、1)、基本周波数成分F0の最大値に対応したSi、E(S)、σ(S)、E(BC)、σ(BC)を上記式に代入して、基本周波数成分F0の最大値に対応した韻律調整パラメータBCip(F0_max)を算出する。
The prosody adjustment
同様に、韻律調整パラメータ生成部17は、基本周波数成分F0の平均値に対応した韻律調整パラメータBCip(F0_ave)、パワーの最大値に対応した韻律調整パラメータBCip(P_max)、パワーの平均値に対応した韻律調整パラメータBCip(P_ave)のそれぞれを算出する。算出されたこれらの韻律調整パラメータ27は、相槌波形生成部18に供給される。
Similarly, prosodic
なお、上記では4つの韻律調整パラメータBCipを求める場合について説明したが、
求める韻律調整パラメータBCipの数はこれ以外であってもよい。例えば、韻律調整パラメータ生成部17は、基本周波数成分F0およびパワー成分のうち、ユーザ発話の韻律的特徴と相槌の韻律的特徴との相関が高い成分(つまり、相関係数αが高い成分:図5を参照)について、韻律調整パラメータBCipを求めるようにしてもよい。換言すると、韻律調整パラメータ生成部17は、基本周波数成分F0およびパワー成分のうち、相槌についての相関係数が高い成分を優先的に用いて、韻律調整パラメータBCipを求めるようにしてもよい。
In the above description, the case where the four prosodic adjustment parameters BC ip are obtained has been described.
The number of prosodic adjustment parameters BC ip to be calculated may be other than this. For example, the prosody adjustment
図5は、ユーザ発話の韻律的特徴と相槌の韻律的特徴との相関を示す相関係数テーブルの一例を示す図である。図5に示すように、各成分における相関係数は、相槌の形態に応じて異なってくる。例えば、相槌の形態が「はー」である場合は、相関係数の値が大きい「パワー成分の最大値(相関係数0.47)」および「パワー成分の平均値(相関係数0.29」のそれぞれに対応した韻律調整パラメータBCip(P_max)、BCip(P_ave)を求めてもよい。また、例えば、相槌の形態が「ふん」、「うん」である場合は、相関係数の値が大きい「基本周波数成分F0の最大値(相関係数0.22」および「パワー成分の最大値(相関係数0.23)」のそれぞれに対応した韻律調整パラメータBCip(F0_max)、BCip(P_max)を求めてもよい。このように、基本周波数成分F0の最大値および平均値、並びにパワー成分の最大値および平均値のうち、相関係数が高い成分を優先的に用いて韻律調整パラメータBCipを求めることで、韻律調整パラメータの精度を向上させることができる。また、韻律調整パラメータを求める際の演算量を低減させることができる。 FIG. 5 is a diagram illustrating an example of a correlation coefficient table indicating the correlation between the prosodic features of the user utterance and the prosodic features of the conflict. As shown in FIG. 5, the correlation coefficient in each component differs depending on the form of the conflict. For example, when the form of the interaction is “ha-”, the “maximum value of the power component (correlation coefficient 0.47)” and the “average value of the power component (correlation coefficient 0. 29 ”may be obtained as prosodic adjustment parameters BC ip (P_max) and BC ip (P_ave), for example, when the form of the companion is“ fun ”or“ yes ”, the correlation coefficient Prosody adjustment parameter BC ip (F0_max) corresponding to each of “maximum value of fundamental frequency component F0 (correlation coefficient 0.22)” and “maximum value of power component (correlation coefficient 0.23)”, BC ip (P_max) may be obtained in this way, by preferentially using a component having a high correlation coefficient among the maximum value and average value of the fundamental frequency component F0 and the maximum value and average value of the power component. Prosody adjustment By obtaining meter BC ip, it is possible to improve the accuracy of the prosodic adjustment parameters. Also, it is possible to reduce the amount of calculation for obtaining the prosodic adjustment parameters.
図1に示す相槌波形生成部18は、相槌選択部16で選択された相槌に関する相槌情報25(例えば、テキストデータ)と、韻律調整パラメータ生成部17で生成された韻律調整パラメータ27とを用いて、相槌の音声波形を生成する。ここで、韻律調整パラメータ27は、基本周波数成分F0の最大値に対応した韻律調整パラメータBCip(F0_max)、基本周波数成分F0の平均値に対応した韻律調整パラメータBCip(F0_ave)、パワーの最大値に対応した韻律調整パラメータBCip(P_max)、及びパワーの平均値に対応した韻律調整パラメータBCip(P_ave)の少なくとも1つである。例えば、相槌波形生成部18は、TTS(text to speech)技術を用いて相槌の音声波形を生成することができる。
The conflict
このように、相槌データベース15、相槌選択部16、韻律調整パラメータ生成部17、及び相槌波形生成部18で構成される相槌生成部14は、韻律的特徴抽出部12で抽出された韻律的特徴に基づいて、ユーザ発話に応答する相槌の音声波形を生成することができる。
As described above, the
相槌波形生成部18で生成された相槌の音声波形は、相槌出力部19に供給される。相槌出力部19は、供給された音声波形に対応した相槌を出力する。例えば、相槌出力部19はスピーカ等を用いて構成することができる。これにより、ロボット(音声対話システム)32は、相槌の韻律的特徴がユーザ発話の韻律的特徴と合うように韻律が調整された相槌を出力することができる。このように相槌の韻律を調整することで、ユーザの発話を促すことができる。
The audio waveform of the interaction generated by the interaction
なお、本実施の形態にかかる音声対話システムでは、相槌出力部19から出力される相槌に応じてロボットが首を振るように構成してもよい。このように、相槌に合わせてロボットが首を振るようにすることで、ユーザの発話を更に促すことができる。
Note that the voice interaction system according to the present embodiment may be configured such that the robot shakes his / her head according to the conflict output from the
次に、本実施の形態にかかる音声対話システムの動作(音声対話方法)について説明する。図2は、本実施の形態にかかる音声対話方法を説明するためのフローチャートである。なお、この場合も、相槌データベース15には、予めユーザ発話の韻律的特徴と相槌の韻律的特徴との相関を示す相関係数テーブルが格納されているものとする。
Next, the operation (voice dialogue method) of the voice dialogue system according to the present embodiment will be described. FIG. 2 is a flowchart for explaining the voice interaction method according to the present embodiment. Also in this case, it is assumed that the
図1、図2に示すように、まず、音声対話システム1の発話入力部11は、ユーザの発話を入力する(ステップS1)。次に、韻律的特徴抽出部12は、発話入力部11に入力されたユーザ発話(先行発話)の韻律的特徴を抽出する(ステップS2)。韻律的特徴としては、ユーザ発話の基本周波数成分F0やパワー成分が挙げられる。次に、相槌生成タイミング決定部13は、韻律的特徴抽出部12で抽出された韻律的特徴21を用いて、相槌を生成するタイミングを決定する。相槌生成タイミング決定部13が相槌生成タイミングではないと判断した場合(ステップS3:No)、再度、ステップS1〜S3の動作を繰り返す。一方、相槌生成タイミング決定部13が相槌生成タイミングであると判断した場合(ステップS3:Yes)、相槌生成タイミング情報22を韻律的特徴抽出部12に出力する。例えば、相槌生成タイミング決定部13は、ユーザ発話の韻律的特徴であるパワー成分が所定の閾値以下である場合に、相槌を生成するタイミングであると決定することができる。
As shown in FIGS. 1 and 2, first, the
韻律的特徴抽出部12は、相槌生成タイミング決定部13から相槌生成タイミング情報22が供給された場合、相槌選択部16に相槌選択信号23を出力する。また、韻律的特徴抽出部12は、相槌生成タイミング決定部13から相槌生成タイミング情報22が供給された場合、相槌生成タイミングから所定の時間さかのぼった期間(例えば、500m秒)における基本周波数成分F0の最大値、平均値、最大値と最小値のレンジ等、及びパワー成分の最大値、平均値、最大値と最小値のレンジ等の特徴量を算出する。算出された特徴量24は、韻律調整パラメータ生成部17に供給される。
The prosodic
相槌選択部16は、韻律的特徴抽出部12から相槌選択信号23が供給されると、相槌データベース15に格納されている相槌の形態の中から、所定の相槌(相槌の形態)を選択する(ステップS4)。また、相槌選択部16は、選択した相槌に関する相槌情報25(例えば、テキストデータ)を相槌波形生成部18に出力する。また、相槌選択部16は、選択した相槌の相関係数に関する情報26を、韻律調整パラメータ生成部17に出力する。相槌選択部16は、相関係数に関する情報を相槌データベース15から取得することができる。
When the
韻律調整パラメータ生成部17は、相槌選択部16で選択された相槌の韻律的特徴が、ユーザ発話の韻律的特徴と合うように相槌の韻律を調整するパラメータを生成する(ステップS5)。このとき、韻律調整パラメータ生成部17は、韻律的特徴抽出部12から供給された特徴量24と、相槌選択部16から供給された相関係数に関する情報26とを用いて、韻律調整パラメータを生成する。生成された韻律調整パラメータ27は、相槌波形生成部18に供給される。
The prosodic adjustment
具体的には、韻律調整パラメータ生成部17は、上記式を用いて韻律調整パラメータBCipを求める。このとき、韻律調整パラメータ生成部17は、基本周波数成分F0の最大値、平均値、及びパワー成分の最大値、平均値の各々について韻律調整パラメータBCipを求める。
Specifically, the prosody adjustment
相槌波形生成部18は、相槌選択部16で選択された相槌に関する相槌情報25と、韻律調整パラメータ生成部17で生成された韻律調整パラメータ27とを用いて、相槌の音声波形を生成する(ステップS6)。ここで、韻律調整パラメータ27は、基本周波数成分F0の最大値に対応した韻律調整パラメータBCip(F0_max)、基本周波数成分F0の平均値に対応した韻律調整パラメータBCip(F0_ave)、パワーの最大値に対応した韻律調整パラメータBCip(P_max)、及びパワーの平均値に対応した韻律調整パラメータBCip(P_ave)の少なくとも1つである。例えば、相槌波形生成部18は、TTS(text to speech)技術を用いて相槌の音声波形を生成することができる。
The
相槌波形生成部18で生成された相槌の音声波形は、相槌出力部19に供給される。相槌出力部19は、供給された音声波形に対応した相槌を出力する(ステップS7)。これにより、ロボット(音声対話システム)32は、相槌の韻律的特徴がユーザ発話の韻律的特徴と合うように韻律が調整された相槌を出力することができる。このとき、相槌出力部19から出力される相槌に応じてロボットが首を振るように構成してもよい。
The audio waveform of the interaction generated by the interaction
背景技術で説明したように、特許文献1に開示されている音声認識装置では、音声入力部に入力された音声信号を基に計算した話者の音声特徴量に基づき、話者との対話中にスピーカから相槌音を出力させる相槌タイミングを推測している。そして、相槌タイミングであるとの推測結果が得られると、相槌タイミング直前のパワーを基に相槌音を出力させるか否かを判定している。
As described in the background art, in the speech recognition apparatus disclosed in
しかしながら、特許文献1に開示されている技術では、相槌を打つタイミングについてのみ焦点が置かれており、実際に打たれている相槌は同一の音声となっている。傾聴においては、ユーザが話しやすいように相槌を打つことが重要であるが、相槌の音声が同一である場合は、ユーザに機械的な印象を与えてしまい、ユーザは話を聞いてもらっているという意識を持つことができない。このため、ユーザの発話が促進されないという問題があった。
However, in the technique disclosed in
そこで本実施の形態にかかる音声対話方法および音声対話システムでは、ユーザ発話の音声波形から韻律的特徴を抽出し、相槌を生成する際に、相槌の音声波形の韻律的特徴がユーザ発話の音声波形の韻律的特徴と合うように相槌の韻律(音声波形)を調整している。このように相槌の韻律を調整することで、ユーザに機械的な印象を与えることを抑制することができ、ユーザは話を聞いてもらっているという意識を持つことができ、ユーザの発話を促すことができる。よって、本実施の形態にかかる発明により、発話を促進させる相槌を生成することが可能な音声対話方法、及び音声対話システムを提供することができる。 Therefore, in the speech dialogue method and the speech dialogue system according to the present embodiment, when the prosodic features are extracted from the speech waveform of the user utterance and the companion is generated, the prosodic feature of the comprehension speech waveform is the speech waveform of the user utterance. The prosody (speech waveform) is adjusted to match the prosodic features of By adjusting the prosodic prosody in this way, the user can be prevented from giving a mechanical impression, the user can be aware that they are listening to the story, and the user's utterance can be encouraged. Can do. Therefore, according to the invention according to the present embodiment, it is possible to provide a voice dialogue method and a voice dialogue system capable of generating a conflict that promotes speech.
つまり、本実施の形態にかかる発明では、図3に示すように、ユーザ31の発話の音声波形33から韻律的特徴Siを抽出し、この抽出した韻律的特徴Siを上記で示した式に代入して、相槌の韻律的特徴を予測している(つまり、BCipを求めている)。よって、相槌を生成する際に、相槌の音声波形34の韻律的特徴BCipがユーザ31の発話の音声波形33の韻律的特徴と合うように相槌の韻律(音声波形34)を調整することができる。
That is, in the invention according to the present embodiment, as shown in FIG. 3, the prosodic feature Si is extracted from the
ここで、上記式におけるE(BC)は、相槌の韻律的特徴(F0、パワー)の平均値であり、上記式では、このE(BC)の値をベースラインとし、このE(BC)に、ユーザ発話の韻律的特徴Siに応じた値を加算することで、相槌の韻律的特徴(韻律調整パラメータ)BCipを求めている。 Here, E (BC) in the above equation is an average value of the prosodic features (F0, power) of the competing, and in the above equation, the value of E (BC) is taken as a baseline, and this E (BC) Then, by adding a value corresponding to the prosodic feature Si of the user utterance, the compliment prosodic feature (prosodic adjustment parameter) BC ip is obtained.
以上、本発明を上記実施形態に即して説明したが、本発明は上記実施の形態の構成にのみ限定されるものではなく、本願特許請求の範囲の請求項の発明の範囲内で当業者であればなし得る各種変形、修正、組み合わせを含むことは勿論である。 Although the present invention has been described with reference to the above embodiment, the present invention is not limited to the configuration of the above embodiment, and those skilled in the art within the scope of the invention of the claims of the present application claims. It goes without saying that various modifications, modifications, and combinations that can be made are included.
1 音声対話システム
11 発話入力部
12 韻律的特徴抽出部
13 相槌生成タイミング決定部
14 相槌生成部
15 相槌データベース
16 相槌選択部
17 韻律調整パラメータ生成部
18 相槌波形生成部
19 相槌出力部
21 抽出した韻律的特徴
22 相槌生成タイミング情報
23 相槌選択信号
24 特徴量
25 相槌情報
26 相関係数に関する情報
27 韻律調整パラメータ
31 ユーザ
32 ロボット
33 ユーザ発話の音声波形
34 相槌の音声波形
DESCRIPTION OF
Claims (8)
入力された前記ユーザ発話の韻律的特徴を抽出する工程と、
抽出された前記韻律的特徴に基づき前記ユーザ発話に応答する相槌を生成する工程と、を備え、
前記相槌を生成する際、前記相槌の韻律的特徴が前記ユーザ発話の韻律的特徴と合うように前記相槌の韻律を調整する、
音声対話方法。 Inputting a user utterance;
Extracting prosodic features of the input user utterance;
Generating a response in response to the user utterance based on the extracted prosodic features,
Adjusting the prosody of the companion so that the prosodic feature of the companion matches the prosodic feature of the user utterance when generating the companion;
Spoken dialogue method.
前記基本周波数成分および前記パワー成分のうち、前記ユーザ発話の韻律的特徴と前記相槌の韻律的特徴との相関が高い成分を用いて前記相槌の韻律を調整する、
請求項1に記載の音声対話方法。 When extracting the prosodic features of the user utterance, extract the fundamental frequency component and the power component of the user utterance,
Of the fundamental frequency component and the power component, adjust the prosody of the conflict using a component having a high correlation between the prosodic feature of the user utterance and the prosodic feature of the conflict;
The voice interaction method according to claim 1.
前記基本周波数成分および前記パワー成分のうち、前記相槌についての相関係数が高い成分を優先的に用いて前記相槌の韻律を調整する、
請求項2に記載の音声対話方法。 Generating in advance a correlation coefficient table indicating a correlation between the prosodic features of the user utterance and the prosodic features of the conflict;
Of the fundamental frequency component and the power component, the component having a high correlation coefficient for the conflict is preferentially used to adjust the prosody of the conflict,
The voice interaction method according to claim 2.
前記パワー成分は、当該パワー成分の最大値および平均値を含む、
請求項2または3に記載の音声対話方法。 The fundamental frequency component includes a maximum value and an average value of the fundamental frequency component,
The power component includes a maximum value and an average value of the power component,
The voice interaction method according to claim 2 or 3.
前記ユーザ発話の韻律的特徴であるパワー成分が所定の閾値以下である場合に、前記相槌を生成する、
請求項1乃至5のいずれか一項に記載の音声対話方法。 Further comprising the step of determining when to generate the adjunction using prosodic features of the user utterance,
When the power component that is the prosodic feature of the user utterance is equal to or less than a predetermined threshold, the conflict is generated.
The voice interaction method according to any one of claims 1 to 5.
前記ユーザ発話が発話中である場合、前記応答系の相槌を選択し、
前記ユーザ発話が終了している場合、前記感情表出系の相槌を選択する、
請求項1乃至6のいずれか一項に記載の音声対話方法。 The agenda includes an emotional expression and a response system,
If the user utterance is uttering, select the response system interaction,
If the user utterance has been completed, select the emotional expression interaction,
The voice interaction method according to any one of claims 1 to 6.
前記発話入力部に入力された前記ユーザ発話の韻律的特徴を抽出する韻律的特徴抽出部と、
前記韻律的特徴抽出部で抽出された前記韻律的特徴に基づき前記ユーザ発話に応答する相槌を生成する相槌生成部と、を備え、
前記相槌生成部は、前記相槌の韻律的特徴が前記ユーザ発話の韻律的特徴と合うように前記相槌の韻律を調整する、
音声対話システム。 An utterance input unit for inputting user utterances;
A prosodic feature extraction unit that extracts prosodic features of the user utterance input to the utterance input unit;
A conflict generation unit that generates a conflict in response to the user utterance based on the prosodic feature extracted by the prosodic feature extraction unit;
The conflict generating unit adjusts the prosody of the conflict so that the prosodic feature of the conflict matches the prosodic feature of the user utterance;
Spoken dialogue system.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014162579A JP6270661B2 (en) | 2014-08-08 | 2014-08-08 | Spoken dialogue method and spoken dialogue system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014162579A JP6270661B2 (en) | 2014-08-08 | 2014-08-08 | Spoken dialogue method and spoken dialogue system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016038501A true JP2016038501A (en) | 2016-03-22 |
JP6270661B2 JP6270661B2 (en) | 2018-01-31 |
Family
ID=55529610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014162579A Active JP6270661B2 (en) | 2014-08-08 | 2014-08-08 | Spoken dialogue method and spoken dialogue system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6270661B2 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018164278A1 (en) * | 2017-03-09 | 2018-09-13 | ヤマハ株式会社 | Voice conversation method and voice conversation device |
JP2018200386A (en) * | 2017-05-26 | 2018-12-20 | トヨタ自動車株式会社 | Voice interactive device |
US10339930B2 (en) | 2016-09-06 | 2019-07-02 | Toyota Jidosha Kabushiki Kaisha | Voice interaction apparatus and automatic interaction method using voice interaction apparatus |
JP2020076923A (en) * | 2018-11-09 | 2020-05-21 | 株式会社日立製作所 | Interaction system, device, and program |
US10832119B2 (en) | 2017-06-08 | 2020-11-10 | Hitachi, Ltd. | Interactive agent for imitating and reacting to a user based on user inputs |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11175082A (en) * | 1997-12-10 | 1999-07-02 | Toshiba Corp | Voice interaction device and voice synthesizing method for voice interaction |
JP2002041084A (en) * | 2000-07-26 | 2002-02-08 | Victor Co Of Japan Ltd | Interactive speech processing system |
JP2003228449A (en) * | 2002-02-01 | 2003-08-15 | Sharp Corp | Interactive apparatus and recording medium with recorded program |
JP2004086001A (en) * | 2002-08-28 | 2004-03-18 | Sony Corp | Conversation processing system, conversation processing method, and computer program |
JP2011217018A (en) * | 2010-03-31 | 2011-10-27 | Oki Networks Co Ltd | Voice response apparatus, and program |
-
2014
- 2014-08-08 JP JP2014162579A patent/JP6270661B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11175082A (en) * | 1997-12-10 | 1999-07-02 | Toshiba Corp | Voice interaction device and voice synthesizing method for voice interaction |
JP2002041084A (en) * | 2000-07-26 | 2002-02-08 | Victor Co Of Japan Ltd | Interactive speech processing system |
JP2003228449A (en) * | 2002-02-01 | 2003-08-15 | Sharp Corp | Interactive apparatus and recording medium with recorded program |
JP2004086001A (en) * | 2002-08-28 | 2004-03-18 | Sony Corp | Conversation processing system, conversation processing method, and computer program |
JP2011217018A (en) * | 2010-03-31 | 2011-10-27 | Oki Networks Co Ltd | Voice response apparatus, and program |
Non-Patent Citations (2)
Title |
---|
東海林圭輔: "対話に関するリズムや同調作用を考慮した音声対話システム", 情報処理学会研究報告, vol. 2006, no. 40, JPN6017045244, 11 May 2006 (2006-05-11), JP, pages 43 - 48, ISSN: 0003690987 * |
西村良太: "応答タイミングを考慮した雑談音声対話システム A spoken dialog system for chat-like conversations con", 第46回 言語・音声理解と対話処理研究会資料, vol. SIG−SLUD−A503, JPN6017045245, 3 March 2006 (2006-03-03), JP, pages 21 - 26, ISSN: 0003690988 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10339930B2 (en) | 2016-09-06 | 2019-07-02 | Toyota Jidosha Kabushiki Kaisha | Voice interaction apparatus and automatic interaction method using voice interaction apparatus |
WO2018164278A1 (en) * | 2017-03-09 | 2018-09-13 | ヤマハ株式会社 | Voice conversation method and voice conversation device |
JP2018146906A (en) * | 2017-03-09 | 2018-09-20 | ヤマハ株式会社 | Voice interaction method and voice interactive device |
JP2018200386A (en) * | 2017-05-26 | 2018-12-20 | トヨタ自動車株式会社 | Voice interactive device |
US10832119B2 (en) | 2017-06-08 | 2020-11-10 | Hitachi, Ltd. | Interactive agent for imitating and reacting to a user based on user inputs |
JP2020076923A (en) * | 2018-11-09 | 2020-05-21 | 株式会社日立製作所 | Interaction system, device, and program |
JP6993314B2 (en) | 2018-11-09 | 2022-01-13 | 株式会社日立製作所 | Dialogue systems, devices, and programs |
Also Published As
Publication number | Publication date |
---|---|
JP6270661B2 (en) | 2018-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4456537B2 (en) | Information transmission device | |
JP6270661B2 (en) | Spoken dialogue method and spoken dialogue system | |
Nakamura et al. | Speaking-aid systems using GMM-based voice conversion for electrolaryngeal speech | |
US20150348538A1 (en) | Speech summary and action item generation | |
EP3065130B1 (en) | Voice synthesis | |
JP6464703B2 (en) | Conversation evaluation apparatus and program | |
Tanaka et al. | A hybrid approach to electrolaryngeal speech enhancement based on noise reduction and statistical excitation generation | |
Janke et al. | Fundamental frequency generation for whisper-to-audible speech conversion | |
CN108369804A (en) | Interactive voice equipment and voice interactive method | |
Hansen et al. | On the issues of intra-speaker variability and realism in speech, speaker, and language recognition tasks | |
JP2012073364A (en) | Voice interactive device, method, program | |
CN111653281A (en) | Method for individualized signal processing of an audio signal of a hearing aid | |
JP2012163692A (en) | Voice signal processing system, voice signal processing method, and voice signal processing method program | |
JP2018124432A (en) | Dialog device | |
Vekkot et al. | Inter-emotion conversion using dynamic time warping and prosody imposition | |
JP6569588B2 (en) | Spoken dialogue apparatus and program | |
JP6728660B2 (en) | Spoken dialogue method, spoken dialogue device and program | |
JP6657887B2 (en) | Voice interaction method, voice interaction device, and program | |
JP6657888B2 (en) | Voice interaction method, voice interaction device, and program | |
US11455984B1 (en) | Noise reduction in shared workspaces | |
JP2018165805A (en) | Interactive device, method for controlling interactive device, and program | |
JP2018132623A (en) | Voice interaction apparatus | |
Ueda et al. | Are we truly modeling expressiveness? A study on expressive TTS in Brazilian Portuguese for real-life application styles | |
CN111179943A (en) | Conversation auxiliary equipment and method for acquiring information | |
Govind et al. | Expressive speech synthesis using prosodic modification and dynamic time warping |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161007 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170919 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170926 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171030 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171226 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6270661 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |