JP4752516B2 - 音声対話装置および音声対話方法 - Google Patents
音声対話装置および音声対話方法 Download PDFInfo
- Publication number
- JP4752516B2 JP4752516B2 JP2006004761A JP2006004761A JP4752516B2 JP 4752516 B2 JP4752516 B2 JP 4752516B2 JP 2006004761 A JP2006004761 A JP 2006004761A JP 2006004761 A JP2006004761 A JP 2006004761A JP 4752516 B2 JP4752516 B2 JP 4752516B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- signal
- possibility
- speech
- combined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
別の例として、直前に発話されたユーザ音声の一部断片を切り取り、これを応答音声に挿入した結合音声を生成して提示するシステムがある。これは音声認識に「信頼度」と呼ぶ認識単語の確からしさを示す指標を付与する機能を備えた音声対話装置における応用方法である。認識信頼度に関しては下記「非特許文献1」に詳しく記述されている。
Akinobu Lee,Kiyohiso Shikano,and Tatsuya Kawahara,"Real-time word confidence scoring using local posterior probabilities on tree trellis search," In Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP2004)、 Vol.I, pp.793−796, May 2004.
本発明は、こうした問題に鑑み、応答音声中での声質の乖離による聞き落としを低減する音声対話装置および音声対話方法の提供を目的とする。
本実施の形態1において、本発明の基本構成を説明する。図1はこの基本構成を示すもので、図1の矢印(a)は入力信号を、矢印(b)は出力信号を示している。図1に示すように、本発明においては、音声入力部110、音声理解部120、応答音声管理部130、応答音声出力部140から構成されている。
図1において、音声入力部110は使用者の発話音声を入力(a)し、電気信号である音声信号に変換するものであり、例えば図2においてマイクロフォン201とAD変換部202とを組み合わせることで実現される。図1における音声理解部120は、前記音声入力部110から入力された音声信号に対する音声認識を行い、これにより得られた単語列情報を理解結果として取得する音声認識機能を持つものである。応答音声管理部130は、複数の音声生成部130a〜130nを含んでおり、音声理解部120の理解結果に基づき、出力対象となる音声信号(以下、出力対象音声信号)をそれぞれの音声生成部130a〜130nから選択生成し、これら複数の生成された出力対象音声信号を連結し、結合音声信号を出力する機能を持つものである。この音声生成部130a〜130nには、一般的な音声合成方法や、予めナレータによって録音された音声データベースから必要な音声を選択する録音音声再生方法などを用いることができる。
この場合、図1における音声理解部120は図3(a)に示すような文法構造の辞書を持つ音声認識機能を備える。図3(a)の文法辞書によれば、県名ノード(401a)には402aに示すよう県名単語が格納されている。更に県名401aに引き続き駅名ノード(404a)が接続されており、405aのような各県に対応する駅名が格納されている(便宜上405aは神奈川県に接続される駅名だけを示しているが、実際には各県毎に駅名が格納されており、対応する県名と接続されている)
。この辞書構成によって、「県名+駅名」の発話が認識可能であり、例えば、「北海道室蘭市」「神奈川県厚木市」のような入力も認識可能に出来る。また、駅名ノード(404a)の前後に「Garbage」と記されたノードがある。これは間投詞や前後の駅名あるいは県名ノードに格納されていない単語、すなわち未知語などを吸収するためのノードであり、これにより例えば「神奈川県の横浜駅まで」等と発話した場合に、“の”や“まで”の部分をGarbageが吸収することにより、結果として単語「神奈川県」と「横浜駅」を正しく得ることが可能である。
基本周波数
音声エネルギー値
AQ(Amplitude Quotient)値
発話速度
等を用いることができる、声質の差異を示すこれらパラメータの算出の仕方は以下の通りである。
1. 基本周波数は、F0(エフゼロ)とも呼ばれる。これは声帯振動によって発生する周波数であり、「声の高さ」を数値化したものである。一般的な成人男性では150Hz前後、女性では250Hzから300Hz程度と言われている。尚、声の高さの指標として「ピッチ」という言葉が用いられる場合もあるが、これは有声音声での音声波形の1周期分の時間長であり、ピッチの逆数がF0に相当する。F0は、音声波形に対しLPC逆フィルタを通して残差波形を求め、これに低域通過フィルタを通した後、自己相関関数
2. 音声エネルギー値は、音声の大きさ、すなわち声量に関する指標として用いる。例えば(数3)式のように、音圧の自乗の区間平均値として算出する。
3. AQ(Amplitude Quotient)値は、ホルマントの影響を除いた声帯音源波形のピークツーピーク値と、その微分波形の最大ネガティブピークの比として定義される値で、声の柔らかさに関する指標と言われており、文献:P.Alku、T.Baeckstroem、and E.Vilkman、”Normalized amplitude quotient for parametrization of the glottal flow”、J.Acoust.Soc.Am.,vol.112,no.2,pp.701−710,2002に詳細に記述されている。
4. 発話速度は、例えば単位時間当たりの出力音素数、あるいは単位時間当たりのモーラ数として検出される。なお、モーラとは一定の時間的長さをもった音の分節単位のことで、「拍」とも呼ばれる。基本的に母音(「ア」等)、子音+母音(「カ」等)、半母音+母音(「ヤ」等)、子音+半母音+母音(「シャ」等)の組み合わせがある。モーラ数算出のため、音声生成部は、各音声に対応するテキストデータを保持しておく必要がある。尚、音声合成の場合はその機能自体に単語列(音素列)の入力を含むため、該入力文字列からモーラ数を算出できる。
音声信号の声質調整方法としては、
A.各音声生成部130a〜130n出力音声信号の結合部境界にポーズ(所定の時間長の無音信号)を挿入する
B.連結対象の音声の基本周波数、音声エネルギー値、発話速度を加工する
等の方法を用いることができる。
前者のポーズを挿入する方法(A)に対しては、挿入するポーズ長の例を図5に示す。図5(a)は前述した図4(a)の方法で聞き落とし可能度を決定した場合の挿入ポーズ長の対応を示している。この方法では、聞き落とし可能度(横軸)の増加に伴い挿入するポーズの信号長(縦軸)が増加するように対応させている。ただし、挿入信号長の最大値を図5(a)中の“A”の値に制限している。“A”の値は、例えば1.5秒等とする。実際にはポーズ時間と聞き落としの関係から実験等により決定されることが好ましい。一方、前述した図4(b)の方法で聞き落とし可能度を決定した場合の挿入されるポーズ長の対応を図5(b)に示す。聞き落とし可能度がA,B,Cそれぞれの場合に挿入ポーズ長がα、β、γのように設定される。尚、より簡単な方法として、聞き落とし可能度の閾値を一つのみとし、該閾値を越える場合に一定のポーズ時間を一律で挿入するようにしても良い。
(a)=(b)=170Hz,
(c)=150Hz
と検出された。この差異120Hzを直接聞き落とし可能度と算出し、この差異を解消するように上記応答音声の基本周波数のシフト操作を行う。図7の例では(a)(b)をシフトし基本周波数を(c)の150Hzにそろえた(a‘)(b’)を得ている。この処理の後、(a’)+(c)+(b’)と音声を連結して出力する。
先ず、入力されたユーザの音声信号はステップ:S101において認識され、理解した内容として単語列を抽出する。この理解内容に基づいた単語列から、応答すべき出力音声信号を複数の音声生成部130a〜130nから取得する(ステップ:S102)。例えば図10においては生成された音声信号(a)、(b)の2つが取得されている。この取得された音声信号に対して、その連結順序を決定する(ステップ:S103)。図10の例では(b)+(a)の連結順序としている。
本実施の形態2においては、システム側で生成された出力音声(以下システム音声)とユーザの発話した音声(以下ユーザ音声)とを連結した出力音を用いてユーザに応答音声を提示する方法での本発明の適用形態について説明する。すなわち、前記応答音声管理部は、合成音声信号あるいは予め録音された音声信号であるシステム音声信号を生成するシステム音声生成部と、ユーザが発話した音声の少なくとも一部をユーザ音声信号として抽出するユーザ音声抽出部とを有し、且つ前記システム音声生成部出力と前記ユーザ音声抽出部出力とを結合して前記結合音声信号を応答音声信号として生成する機能を有している。
「神奈川県(信頼度高)」&「横浜駅(信頼度高)」が得られる場合や、
理解結果(2)のように、
「神奈川県(信頼度高)」&「横浜駅(信頼度低)」
が得られる場合が考えられる。この場合の応答については後述する。そしてこの時同時に、音声区間について、
「神奈川県」:A1〜A2
「の(ガベージ)」:A2〜A3
「横浜駅」:A3〜A4
「に行く(ガベージ)」:A4〜A5
が得られている。
「神奈川県(信頼度高)」&「○○○(信頼度低)」
(ただし○○○は横浜駅とは音素的に大きく異なる単語)
が得られる場合が考えられる。この場合の応答例については後述する。
一方、理解結果(2)の場合は、「神奈川県」は信頼度が高いものの、「横浜駅」の信頼度が十分出ないため、音声区間A3〜A4のユーザ音声を抽出し、応答例(2)「“神奈川県(システム音声)”の“よこはまえき(ユーザ音声)”の部分が分かりませんでした」等の応答音声を生成する。
更に、理解結果3の場合は、「神奈川県」は信頼度が高いものの、それ以降「の横浜駅に行く」の部分については、まったく信頼度が得られない。従って、「神奈川県」についてはシステム音声を選択し、それ以降の部分については、区間C2〜C3のユーザ音声を抽出し、応答例(3)「“神奈川県”(システム音声)の“の横浜駅に行く”(ユーザ音声)の部分が分かりませんでした。もう一度お願いします」等の応答音声を生成する。下記の応答音声出力部240は、応答例(2)及び(3)の場合に機能するもので、応答例(1)の場合のように、全て高信頼度で認識された場合は応答音声出力部240に搭載されている機能を使用することなく音声信号は出力される。すなわち、応答音声出力部240は、結合音声信号に含まれる複数の出力対象音声信号の声質の乖離を、音声信号の音響的特徴の乖離として検出する機能を備え、この乖離が大きい場合、聞き落とし可能度が大きいと判断し、聞き落とし可能度が予め定められた値以下となるように前記音響的特徴の調整を行う機能を有している。
入力音声はユーザからの入力音声に対して認識処理が行われる(ステップ:S201)。この該認識処理の結果として、理解内容(Wn,Cn)を取得する。ここでWnは理解した単語、Cnは該単語の信頼度、nは理解した単語の通し番号の数(n=1...N)、Snはn番目の単語の時間軸上における開始位置、Enはその終了位置である(ステップ:S202)。次いで、理解単語全て(Wn)について、信頼度(Cn)と信頼度閾値(TH)との比較を行う(ステップ:S203)。閾値より大きい、すなわち信頼度が高い場合(ステップ:S203YES)にはステップ:S204へ、閾値より小さい、すなわち信頼度が低い場合(ステップ:S203NO)にはステップ:S205へ移行する。信頼度の高かった理解単語(Wn(a))については、対応するシステム音声(SWn)をシステム音声生成部231から選択し取得する(ステップ:S204)。信頼度の低かった理解単語(Wn(b))については、対応する音声区間Sn,Enを取得し、該区間におけるユーザの音声信号(UWn)を抽出する(ステップ:S205)。このようにして得られたシステム音声(SWn)とユーザ音声以外の補足音声部分(SWx)をシステム音声生成部231より取得する(ステップ:S206)。例えば「が分かりません」「を目的地にします」等の応答音声が補足システム音声に相当する。以上のようにして得られた応答音声用の音声信号、すなわち、上記のシステム音声(SWn)、ユーザ音声(UWn)および補足システム音声(SWx)について、その連結順序を決定する(ステップ:S207)。
真一他, “動的尺度を用いた発話速度の推定,” 電気関係学会北陸支部連合大会講演論文集, F-69, p.369, Oct 1999)、あるいは文献(特開平7−295588 発話速度推定方法)のような公知の方法を用いて直接発話速度を推定することが好ましい。
本実施の形態3は、音声理解部において信頼度が高いと判断された単語については対応する単語の音声合成を行い、信頼度が低いと判断された単語についてはユーザ音声を音素認識した結果の音素列を用いて音声合成するものである。
本実施の形態3の基本的構成は実施の形態2と共通であり、図14に示す音声入力部110、音声理解部220、応答音声管理部330、応答音声出力部340の各部から構成される。
各機能も基本的な部分は第2実施形態共通である。以下には異なる部分(応答音声管理部330、及び応答音声出力部340)について説明する。
応答音声管理部330は、システム音声用の出力単語列あるいは音素列(以下システム音素列)を生成するシステム音声生成部331と、ユーザ音声を抽出するユーザ音声抽出部332と、該ユーザ音声抽出部332によって抽出されたユーザ音声に対して、音素認識を行いユーザ音素列を取得する音素認識部333とから構成され、音声理解部220の理解内容に基づき、システム音素列及びユーザ音素列を組み合わせた結合音素列を生成する機能を持つ。
pp.71-78,1993)等で紹介されている。応答音声出力部340は音声合成部341で構成されており、応答音声管理部330から得られた結合音素列を入力として音声合成を実行し、この応答音声信号を出力する応答音声出力部340を介して出力する。
理解結果(1)の場合、「神奈川県」及び「横浜駅」双方の信頼度が高いため、双方の単語に対応する音素列「kanagawaken」及び「yokohamaeki」を取得し、応答例1の合成音声「kanagawaken no yokohamaeki wo mokutekichinisetteishimasu(神奈川県の横浜駅を目的地に設定します)」が出力される。
尚、本実施の形態3では、音声合成のみを用いて出力音声を生成する場合について説明したが、システム音声としてナレータの録音音声を使う音声生成方法と組み合わせ、実施の形態1あるいは実施の形態2の場合と同様に、聞き落とし可能度検出に基づく音声の加工を行う処理を付加しても良い。
130、230,330:応答音声管理部
130a〜130n:音声生成部
140、240、340:応答音声出力部
141,241:聞き落とし可能度検出部
142、242:音声調整部 201:マイクロフォン
202:AD変換部 203:演算装置
204:記憶装置 231,331:システム音声生成部
232、332:ユーザ音声抽出部 333:音素認識部
341:音声合成部
Claims (18)
- 少なくとも一つ以上の音声を音声信号として取得する音声入力部と、
該音声信号に対応する単語列情報を理解結果として取得する音声理解部と、
出力音声を生成する少なくとも二つ以上の音声生成部と、
前記音声理解部における理解結果に基づき、前記複数の音声生成部から出力対象音声信号を選択し、該出力対象音声信号を連結させた結合音声信号を応答音声信号として生成する応答音声管理部と、
前記結合音声信号を出力する応答音声出力部と、
を具備し、
前記応答音声出力部は、前記結合音声信号を構成している前記生成された各出力対象音声信号間の声質の乖離を検出する機能と、該乖離に基づく聞き落とし可能性の程度を検出する聞き落とし可能度検出部と、該聞き落とし可能性の程度を示す聞き落とし可能度が所定の値以下となるように前記生成された各音声信号間の声質の乖離が少なくなるように前記生成された結合音声信号を調整する音声調整部と
を備え、
前記応答音声出力部は、前記結合音声信号に含まれる複数の出力対象音声信号の声質の乖離を、音声信号の音響的特徴の乖離として検出する機能を備え、該乖離が大きい場合、前記聞き落とし可能度が大きいと判断し、該聞き落とし可能度が予め定められた値以下となるように前記音響的特徴の調整を行う機能を有することを特徴とする音声対話装置。 - 請求項1に記載の音声対話装置において、
前記音響的特徴は、基本周波数、エネルギー値、AQ値(Amplitude Quotient)の少なくとも何れかであること、を特徴とする音声対話装置。 - 少なくとも一つ以上の音声を音声信号として取得する音声入力部と、
該音声信号に対応する単語列情報を理解結果として取得する音声理解部と、
出力音声を生成する少なくとも二つ以上の音声生成部と、
前記音声理解部における理解結果に基づき、前記複数の音声生成部から出力対象音声信号を選択し、該出力対象音声信号を連結させた結合音声信号を応答音声信号として生成する応答音声管理部と、
前記結合音声信号を出力する応答音声出力部と、
を具備し、
前記応答音声出力部は、前記結合音声信号を構成している前記生成された各出力対象音声信号間の声質の乖離を検出する機能と、該乖離に基づく聞き落とし可能性の程度を検出する聞き落とし可能度検出部と、該聞き落とし可能性の程度を示す聞き落とし可能度が所定の値以下となるように前記生成された各音声信号間の声質の乖離が少なくなるように前記生成された結合音声信号を調整する音声調整部と
を備え、
前記応答音声出力部は、前記結合音声信号に含まれる複数の出力対象音声信号の声質の乖離を、発話速度の乖離として検出する機能を備え、該発話速度の乖離が大きい場合に、聞き落とし可能度が大きいと判断し、該聞き落とし可能度が予め定められた値以下となるように前記発話速度の乖離を低減する機能を有することを特徴とする音声対話装置。 - 少なくとも一つ以上の音声を音声信号として取得する音声入力部と、
該音声信号に対応する単語列情報を理解結果として取得する音声理解部と、
出力音声を生成する少なくとも二つ以上の音声生成部と、
前記音声理解部における理解結果に基づき、前記複数の音声生成部から出力対象音声信号を選択し、該出力対象音声信号を連結させた結合音声信号を応答音声信号として生成する応答音声管理部と、
前記結合音声信号を出力する応答音声出力部と、
を具備し、
前記応答音声出力部は、前記結合音声信号を構成している前記生成された各出力対象音声信号間の声質の乖離を検出する機能と、該乖離に基づく聞き落とし可能性の程度を検出する聞き落とし可能度検出部と、該聞き落とし可能性の程度を示す聞き落とし可能度が所定の値以下となるように前記生成された各音声信号間の声質の乖離が少なくなるように前記生成された結合音声信号を調整する音声調整部と
を備え、
前記応答音声出力部は、前記聞き落とし可能度が所定の値より大きい場合に、前記結合音声信号の結合部境界に所定時間長の定常信号あるいは非定常信号あるいは無音信号を挿入することを特徴とする音声対話装置。 - 請求項4に記載の音声対話装置において、
前記応答音声出力部は、前記聞き落とし可能度が所定の値より大きい場合に、前記結合音声信号の結合部境界に、前記聞き落とし可能度に正比例する時間長の定常信号あるいは非定常信号あるいは無音信号を挿入する機能を有すること、を特徴とする音声対話装置。 - 少なくとも一つ以上の音声を音声信号として取得する音声入力部と、
該音声信号に対応する単語列情報を理解結果として取得する音声理解部と、
出力音声を生成する少なくとも二つ以上の音声生成部と、
前記音声理解部における理解結果に基づき、前記複数の音声生成部から出力対象音声信号を選択し、該出力対象音声信号を連結させた結合音声信号を応答音声信号として生成する応答音声管理部と、
前記結合音声信号を出力する応答音声出力部と、
を具備し、
前記応答音声出力部は、前記結合音声信号を構成している前記生成された各出力対象音声信号間の声質の乖離を検出する機能と、該乖離に基づく聞き落とし可能性の程度を検出する聞き落とし可能度検出部と、該聞き落とし可能性の程度を示す聞き落とし可能度が所定の値以下となるように前記生成された各音声信号間の声質の乖離が少なくなるように前記生成された結合音声信号を調整する音声調整部と
を備え、
前記応答音声出力部は、前記結合音声信号に含まれる複数の出力対象音声信号の声質の乖離を、音声信号の音響的特徴の乖離として検出する機能を備え、且つ該乖離が大きい場合には、聞き落とし可能度が大きいと判断する機能と、
該聞き落とし可能度が所定の値より大きい場合に、該聞き落とし可能度が所定の値よりも小さくなるように、複数の出力音声信号における基本周波数或いは音声エネルギーの少なくともいずれかを加工する機能を有することを特徴とする音声対話装置。 - 少なくとも一つ以上の音声を音声信号として取得する音声入力部と、
該音声信号に対応する単語列情報を理解結果として取得する音声理解部と、
出力音声を生成する少なくとも二つ以上の音声生成部と、
前記音声理解部における理解結果に基づき、前記複数の音声生成部から出力対象音声信号を選択し、該出力対象音声信号を連結させた結合音声信号を応答音声信号として生成する応答音声管理部と、
前記結合音声信号を出力する応答音声出力部と、
を具備し、
前記応答音声出力部は、前記結合音声信号を構成している前記生成された各出力対象音声信号間の声質の乖離を検出する機能と、該乖離に基づく聞き落とし可能性の程度を検出する聞き落とし可能度検出部と、該聞き落とし可能性の程度を示す聞き落とし可能度が所定の値以下となるように前記生成された各音声信号間の声質の乖離が少なくなるように前記生成された結合音声信号を調整する音声調整部と
を備え、
前記応答音声出力部は、前記結合音声信号に含まれる複数の出力対象音声信号における声質の乖離を、発話速度の乖離として検出する機能を備え、且つ該乖離が大きい場合に、聞き落とし可能度が大きいと判断する機能と、
該聞き落とし可能度が所定の値より大きい場合に、該聞き落とし可能度が所定の値より小さくなるように、複数の出力音声信号のうちの少なくとも一つについて、発話速度を調整する機能を有することを特徴とする音声対話装置。 - 請求項1乃至請求項7のいずれかに記載の音声対話装置において、
前記応答音声管理部は、合成音声信号あるいは予め録音された音声信号であるシステム音声信号を生成するシステム音声生成部と、ユーザが発話した音声の少なくとも一部をユーザ音声信号として抽出するユーザ音声抽出部とを有し、且つ前記システム音声生成部出力と前記ユーザ音声抽出部出力とを結合して前記結合音声信号を応答音声信号として生成する機能を有していることを特徴とする音声対話装置。 - 請求項1乃至請求項8のいずれかに記載の音声対話装置において、
前記音声理解部は前記音声入力部からの音声信号に対応する単語列を認識し、該単語毎の認識信頼度を付与して前記理解結果として出力する機能を有し、
前記応答音声管理部は前記音声信号の理解結果に基づき前記信頼度が高いと判断された単語については前記システム音声信号を選択し、前記信頼度が低いと判断された単語については前記ユーザ音声信号を選択し、且つ該システム音声信号と該ユーザ音声信号とを組み合わせた前記結合音声信号を生成する機能を有することを特徴とする音声対話装置。 - 少なくとも一つ以上の音声を音声信号として取得し、
該音声信号に対応する単語列情報の理解結果を取得し、
出力音声を少なくとも二つ以上生成し、
前記理解結果に基づき、前記複数の出力対象音声信号を選択し、該出力対象音声信号を連結させた結合音声信号を応答音声信号として生成し、
前記結合音声信号を出力する、
音声対話方法であって、
前記結合音声信号を構成している前記生成された各音声信号間の声質の乖離に基づく聞き落とし可能性の程度を示す聞き落とし可能度を検出し、該聞き落とし可能度が所定の値以下となるように前記生成された各音声信号間の声質の乖離が少なくなるように前記生成された結合音声信号を調整するようになっており、
前記結合音声信号に含まれる複数の出力対象音声信号の声質の乖離を、音声信号の音響的特徴の乖離として検出し、該乖離が大きい場合、聞き落とし可能度が大きいと判断し、該聞き落とし可能度が予め定められた値以下となるように前記音響的特徴を調整することを特徴とする音声対話方法。 - 請求項10に記載の音声対話方法において、
前記音響的特徴は、基本周波数、エネルギー値、AQ値(Amplitude Quotient)の少なくとも何れかであること、を特徴とする音声対話方法。 - 少なくとも一つ以上の音声を音声信号として取得し、
該音声信号に対応する単語列情報の理解結果を取得し、
出力音声を少なくとも二つ以上生成し、
前記理解結果に基づき、前記複数の出力対象音声信号を選択し、該出力対象音声信号を連結させた結合音声信号を応答音声信号として生成し、
前記結合音声信号を出力する、
音声対話方法であって、
前記結合音声信号を構成している前記生成された各音声信号間の声質の乖離に基づく聞き落とし可能性の程度を示す聞き落とし可能度を検出し、該聞き落とし可能度が所定の値以下となるように前記生成された各音声信号間の声質の乖離が少なくなるように前記生成された結合音声信号を調整するようになっており、
前記結合音声信号に含まれる複数の出力対象音声信号の声質の乖離を、発話速度の乖離として検出し、該発話速度の乖離が大きい場合に、聞き落とし可能度が大きいと判断し、該聞き落とし可能度が予め定められた値以下となるように前記発話速度の乖離を低減することを特徴とする音声対話方法。 - 少なくとも一つ以上の音声を音声信号として取得し、
該音声信号に対応する単語列情報の理解結果を取得し、
出力音声を少なくとも二つ以上生成し、
前記理解結果に基づき、前記複数の出力対象音声信号を選択し、該出力対象音声信号を連結させた結合音声信号を応答音声信号として生成し、
前記結合音声信号を出力する、
音声対話方法であって、
前記結合音声信号を構成している前記生成された各音声信号間の声質の乖離に基づく聞き落とし可能性の程度を示す聞き落とし可能度を検出し、該聞き落とし可能度が所定の値以下となるように前記生成された各音声信号間の声質の乖離が少なくなるように前記生成された結合音声信号を調整するようになっており、
前記聞き落とし可能度が所定の値より大きい場合に、前記結合音声信号の結合部境界に所定時間長の定常信号あるいは非定常信号あるいは無音信号を挿入することを特徴とする音声対話方法。 - 請求項13に記載の音声対話方法において、
前記聞き落とし可能度が所定の値より大きい場合に、前記結合音声信号の結合部境界に聞き落とし可能度の前記所定の値に正比例する時間長の定常信号あるいは非定常信号あるいは無音信号を挿入すること、を特徴とする音声対話方法。 - 少なくとも一つ以上の音声を音声信号として取得し、
該音声信号に対応する単語列情報の理解結果を取得し、
出力音声を少なくとも二つ以上生成し、
前記理解結果に基づき、前記複数の出力対象音声信号を選択し、該出力対象音声信号を連結させた結合音声信号を応答音声信号として生成し、
前記結合音声信号を出力する、
音声対話方法であって、
前記結合音声信号を構成している前記生成された各音声信号間の声質の乖離に基づく聞き落とし可能性の程度を示す聞き落とし可能度を検出し、該聞き落とし可能度が所定の値以下となるように前記生成された各音声信号間の声質の乖離が少なくなるように前記生成された結合音声信号を調整するようになっており、
前記結合音声信号に含まれる複数の出力対象音声信号の声質の乖離を、音声信号の音響的特徴の乖離として検出し、且つ該乖離が大きい場合には、聞き落とし可能度が大きいと判断し、
該聞き落とし可能度が所定の値より大きい場合に、該聞き落とし可能度が所定の値よりも小さくなるように、複数の出力音声信号における基本周波数或いは音声エネルギーの少なくともいずれかを加工することを特徴とする音声対話方法。 - 少なくとも一つ以上の音声を音声信号として取得し、
該音声信号に対応する単語列情報の理解結果を取得し、
出力音声を少なくとも二つ以上生成し、
前記理解結果に基づき、前記複数の出力対象音声信号を選択し、該出力対象音声信号を連結させた結合音声信号を応答音声信号として生成し、
前記結合音声信号を出力する、
音声対話方法であって、
前記結合音声信号を構成している前記生成された各音声信号間の声質の乖離に基づく聞き落とし可能性の程度を示す聞き落とし可能度を検出し、該聞き落とし可能度が所定の値以下となるように前記生成された各音声信号間の声質の乖離が少なくなるように前記生成された結合音声信号を調整するようになっており、
前記結合音声信号に含まれる複数の出力対象音声信号における声質の乖離を、発話速度の乖離として検出し、且つ該乖離が大きい場合に、聞き落とし可能度が大きいと判断し、
該聞き落とし可能度が所定の値より大きい場合に、該聞き落とし可能度が所定の値より小さくなるように、複数の出力音声信号のうちの少なくとも一つについて、発話速度を調整することを特徴とする音声対話方法。 - 請求項10乃至請求項16のいずれかに記載の音声対話方法において、
合成音声信号あるいは予め録音された音声信号であるシステム音声信号を生成し、ユーザが発話した音声の少なくとも一部をユーザ音声信号として抽出し、且つ前記システム音声信号と前記ユーザ音声信号とを結合した前記結合音声信号を応答音声信号として生成すること、を特徴とする音声対話方法。 - 請求項10乃至請求項17のいずれかに記載の音声対話方法において、
前記音声信号に対応する単語列を認識し、該単語列に含まれる単語毎の認識信頼度を付与して前記理解結果として出力し、
前記音声信号の理解結果に基づき前記信頼度が高い認識単語については前記システム音声信号を選択し、前記信頼度が低い認識単語については前記ユーザ音声信号を選択し、該システム音声信号と該ユーザ音声信号とを組み合わせた前記結合音声信号を生成すること、を特徴とする音声対話方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006004761A JP4752516B2 (ja) | 2006-01-12 | 2006-01-12 | 音声対話装置および音声対話方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006004761A JP4752516B2 (ja) | 2006-01-12 | 2006-01-12 | 音声対話装置および音声対話方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007187799A JP2007187799A (ja) | 2007-07-26 |
JP4752516B2 true JP4752516B2 (ja) | 2011-08-17 |
Family
ID=38343024
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006004761A Expired - Fee Related JP4752516B2 (ja) | 2006-01-12 | 2006-01-12 | 音声対話装置および音声対話方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4752516B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5218971B2 (ja) * | 2008-07-31 | 2013-06-26 | 株式会社日立製作所 | 音声メッセージ作成装置及び方法 |
JP4992925B2 (ja) * | 2009-03-23 | 2012-08-08 | トヨタ自動車株式会社 | 音声対話装置及びプログラム |
JP5532880B2 (ja) * | 2009-12-07 | 2014-06-25 | ヤマハ株式会社 | 音声認識装置 |
JP2014010420A (ja) * | 2012-07-03 | 2014-01-20 | Seiko Epson Corp | 集積回路装置 |
JP6384681B2 (ja) * | 2014-03-07 | 2018-09-05 | パナソニックIpマネジメント株式会社 | 音声対話装置、音声対話システムおよび音声対話方法 |
KR20200111853A (ko) * | 2019-03-19 | 2020-10-05 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 음성 인식 제어 방법 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02109100A (ja) * | 1988-10-19 | 1990-04-20 | Fujitsu Ltd | 音声入力装置 |
JP3089715B2 (ja) * | 1991-07-24 | 2000-09-18 | 松下電器産業株式会社 | 音声合成装置 |
JP3518898B2 (ja) * | 1994-09-06 | 2004-04-12 | 富士通テン株式会社 | 音声合成装置 |
JP2002297179A (ja) * | 2001-03-29 | 2002-10-11 | Fujitsu Ltd | 自動応答対話システム |
-
2006
- 2006-01-12 JP JP2006004761A patent/JP4752516B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2007187799A (ja) | 2007-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7974392B2 (en) | System and method for personalized text-to-voice synthesis | |
US7627471B2 (en) | Providing translations encoded within embedded digital information | |
US8768701B2 (en) | Prosodic mimic method and apparatus | |
US8645131B2 (en) | Detecting segments of speech from an audio stream | |
JP4752516B2 (ja) | 音声対話装置および音声対話方法 | |
WO2013182118A1 (zh) | 一种语音数据的传输方法及装置 | |
EP1703492A1 (en) | System and method for personalised text-to-voice synthesis | |
JP2009003040A (ja) | 音声対話装置、音声対話方法及びロボット装置 | |
US20160210982A1 (en) | Method and Apparatus to Enhance Speech Understanding | |
JP2012163692A (ja) | 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム | |
JP2019215449A (ja) | 会話補助装置、会話補助方法及びプログラム | |
JP6599828B2 (ja) | 音処理方法、音処理装置、及びプログラム | |
JP2005070430A (ja) | 音声出力装置および方法 | |
JP2015215503A (ja) | 音声認識方法、音声認識装置および音声認識プログラム | |
KR102088216B1 (ko) | 자동 통역 시스템에서 크로스토크를 감소시키는 방법 및 장치 | |
JP2001056696A (ja) | 音声蓄積再生方法および音声蓄積再生装置 | |
US11610596B2 (en) | Adjustment method of sound output and electronic device performing the same | |
US11563708B1 (en) | Message grouping | |
JP2005338454A (ja) | 音声対話装置 | |
JP3219892B2 (ja) | リアルタイム話速変換装置 | |
JP6044490B2 (ja) | 情報処理装置、話速データ生成方法、及びプログラム | |
JP4979336B2 (ja) | 音声出力装置 | |
JP2007086592A (ja) | 音声出力装置および音声出力方法 | |
TWI824424B (zh) | 語意評估之助聽調整裝置及其方法 | |
JP2015007683A (ja) | 音声処理器具、音声処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081126 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20101001 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101026 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20101028 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101102 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101221 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110426 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110509 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140603 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |