JP4752516B2 - 音声対話装置および音声対話方法 - Google Patents

音声対話装置および音声対話方法 Download PDF

Info

Publication number
JP4752516B2
JP4752516B2 JP2006004761A JP2006004761A JP4752516B2 JP 4752516 B2 JP4752516 B2 JP 4752516B2 JP 2006004761 A JP2006004761 A JP 2006004761A JP 2006004761 A JP2006004761 A JP 2006004761A JP 4752516 B2 JP4752516 B2 JP 4752516B2
Authority
JP
Japan
Prior art keywords
voice
signal
possibility
speech
combined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006004761A
Other languages
English (en)
Other versions
JP2007187799A (ja
Inventor
大介 斎藤
実 冨樫
健 大野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2006004761A priority Critical patent/JP4752516B2/ja
Publication of JP2007187799A publication Critical patent/JP2007187799A/ja
Application granted granted Critical
Publication of JP4752516B2 publication Critical patent/JP4752516B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声認識機能および音声出力機能を備えた音声対話装置に関する。特に、本発明は、音声出力機能によるシステム音声信号と、ユーザ発話音声信号とを組み合わせて音声出力を行う音声対話装置の性能向上に係る。
近年、音声認識及び音声出力機能を備え、システムすなわち音声対話装置とユーザとの間で音声対話を行うことが可能な音声対話装置が提供されている。音声対話の基本フローでは、ユーザがある目的を達成するためにシステムに向かって音声を入力し、システムは該音声を認識した結果、対応する応答音声を出力する。一度のユーザ発話でタスク達成のための十分な情報が得られた場合にはその旨を提示する音声出力を行って終了するが、ユーザの発話内容が理解できず、再度入力を要する場合や、発話内容の理解には成功しても、タスクの達成に十分な情報が該発話内容に含まれず、更なる情報の入力を要する場合は、複数回(ターン)に亘ってユーザとシステム側とで音声によるインタラクション(対話)を行う。
通常音声対話システムでは、予めナレータによる発話を録音した録音音声や音声合成を用いて音声出力を行う。こうした音声出力手法の中には、録音音声と合成音声を結合して出力する機能を備えたものもある。例えばナビゲーション装置であれば、共通的な言い回し「電話をかけます」「目的地に設定します」等をナレータの録音音声とし、「いち(1)」「に(2)」等の数字や、「東京ディズニーランド」のような施設名称を合成音声とし、「12―2456へ電話します」や「”東京ディズニーランド”を目的地に設定します」等の音声を生成して出力する方法である。
また、今後大規模な音声対話によるエージェントシステム等を構築する場合や、ナビゲーションシステムと携帯電話等、双方で音声認識・出力機能を持つ機器を協調動作させることを考えた場合、複数の音声出力機能を組み合わせて用いる可能性がある。
別の例として、直前に発話されたユーザ音声の一部断片を切り取り、これを応答音声に挿入した結合音声を生成して提示するシステムがある。これは音声認識に「信頼度」と呼ぶ認識単語の確からしさを示す指標を付与する機能を備えた音声対話装置における応用方法である。認識信頼度に関しては下記「非特許文献1」に詳しく記述されている。
ここで、認識単語列に信頼度(Word confidence)を付与して出力する機能を備えた音声認識装置を用いた音声対話の例を以下に説明する。以下は、音声対話によるナビゲーション装置において目的地を設定する場合の例である。ここでは、ユーザが「神奈川県の横浜駅まで」と発話入力した場合に、音声認識装置は「神奈川県」については高い信頼度で認識し、「横浜駅」については低い信頼度で認識されているとする。この時、「神奈川県の“YOKOHAMAEKI”の部分がわかりませんでした」と応答音声を出力する。ここで「神奈川県の」及び「の部分が分かりませんでした」の部分はナレータの音声あるいは音声合成すなわちシステム音声が用いられ、「YOKOHAMAEKI」の部分は、直前のユーザの発話、すなわち「神奈川県の横浜駅」の後半部分である「横浜駅」を切り出してきた音声である。ユーザは、このシステム応答音声から、後半部分が認識できなかったことを理解し、「横浜駅」部分を再度発話する。この時システムが高信頼度で「横浜駅」を認識し、応答として「神奈川県の横浜駅ですね。目的地に設定します」と応答する。
尚、ユーザ発話中の「横浜駅」部分を切り出すためには、「横浜駅」と言う単語の発話された位置を特定する必要があるが、例えば、認識辞書で“県名”+“ガベージ”+“駅名”という辞書を用意し、“駅名”部分の単語との尤度が最大になる区間を対象区間とする方法等によって抽出が可能である。ここでガベージとは、辞書に登録された単語以外の未知語、間投詞(「の」「が」等)を吸収するために設けられるマッチング対象オブジェクトである。
以上のように、ユーザ音声をシステム音声に挿入した応答を出力することで、ユーザはどの単語が認識され、どの単語が認識されなかったのかを知ることが出来ると共に、仮に「横浜駅」の部分を発話するときに不意の雑音等が発生していたとすると、出力される応答音声にもその雑音が含まれるため、認識されなかった原因について直感的に知ることが出来る。こうした適切な音声フィードバックを介することによりユーザに対してスムーズな対話を提供できる。
Akinobu Lee,Kiyohiso Shikano,and Tatsuya Kawahara,"Real-time word confidence scoring using local posterior probabilities on tree trellis search," In Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP2004)、 Vol.I, pp.793−796, May 2004.
上述したような複数の音声出力機能を合わせて用いる音声対話装置では、複数の種類の「声」が結合されて出力されることになるが、こうした結合音声では、結合前後で声の高さや大きさ、話す速度などによって人の感じる声の特徴、いわゆる「声質」が大きく異なる場合がある。例えば合成音声とナレータの音声の声質は乖離が大きく、前述したユーザの音声とシステム音声とを連結させる技術においては、前者が男性の声、後者が女性の声となるようなケースも考えられ、声質の乖離は顕著なものとなる。
こうした声質の乖離を含む音声を提示した時、ユーザの聴覚特性が影響し、声質が変化した直後の音声を聞き落とす可能性が高いことが知られている(例えば、Robert F. Potter, “The Effects of Voice Changes on Orienting and Immediate Cognitive Overload in Radio Listeners” Media Psycology, 2000, Vol.2, pp.147-177)。この聴覚特性とは、普段我々が「音を聴く」時に働くフィルタに相当する機能のことである。すなわち我々は入力される多くの音情報から、自分に必要な刺激信号を選別(フィルタリング)する構造を持っており、車室内のような雑音の大きい環境でも必要な音声(ナビゲーションシステムの音声等)を聴き取ることができる。しかしながら、注目している音の特徴が急激に変化した場合には、このフィルタを作り直さなければならないが、フィルタが適応するまでのタイムラグが生じるため、その間の音が正常にフィルタリングできず、聞き落としが発生するものと考えられる。
例えば、予め用意されているナレータ音声と、ユーザの発話音声とを結合した応答音声を考えた場合、これら両音声の結合部分直後の音声の聞き落としの可能性が高くなってしまう。特に、ユーザの発話が低い信頼度で認識された場合、この低い信頼度の発話音声部分をそのままユーザの録音音声として提示することで、ユーザにとって直感性の高いインタフェースを提供するのが重要な目的である本発明を利用するシステムにおいてこのような聞き落としが発生してしまうと、この手法の有効性が十分に発揮されないと言う問題があった。
本発明は、こうした問題に鑑み、応答音声中での声質の乖離による聞き落としを低減する音声対話装置および音声対話方法の提供を目的とする。
前記問題を達成するため、本発明においては、声質の乖離を検出する機能を有し、この乖離に基づく聞き落とし可能性の程度を示す聞き落とし可能度を検出し、この聞き落とし可能度が予め定められた値以下となるように出力音声の調整を行うことを基本的手段とした。すなわち、音声入力部から入力された音声信号は音声理解部で認識理解され、この結果として単語列を得る。この単語列による理解結果に基づき複数の音声生成部において生成された音声信号を選択し連結する。次いで上記音声信号の連結に用いた各音声信号の声質の乖離を予め定められたパラメータについて調べ、連結部分を中心に聞き落とし可能度の検出を聞き落とし可能度検出部で行う。この検出結果に基づき音声調整部で聞き落とし可能度を低減するように音声信号の声質調整を行う。
上記構成により本発明においては、入力音声信号を認識・理解した結果に基づいて声質の異なる音声を結合して応答音声を生成する際に、これら声質の乖離を検出し、この乖離に基づくユーザの聞き落としの可能性を定量化し、この聞き落とし可能度が所定の値以下となるように各結合音声を調整する機能を持たせるようにした。これにより、複数の声質を持つ音声を結合して出力する場合、ユーザに聞き落とされる可能性を抑制した聞き易い音質の音声出力の提示を可能にした。
(実施の形態1)
本実施の形態1において、本発明の基本構成を説明する。図1はこの基本構成を示すもので、図1の矢印(a)は入力信号を、矢印(b)は出力信号を示している。図1に示すように、本発明においては、音声入力部110、音声理解部120、応答音声管理部130、応答音声出力部140から構成されている。
以下、図1により本実施の形態1を構成する各部について説明する。
図1において、音声入力部110は使用者の発話音声を入力(a)し、電気信号である音声信号に変換するものであり、例えば図2においてマイクロフォン201とAD変換部202とを組み合わせることで実現される。図1における音声理解部120は、前記音声入力部110から入力された音声信号に対する音声認識を行い、これにより得られた単語列情報を理解結果として取得する音声認識機能を持つものである。応答音声管理部130は、複数の音声生成部130a〜130nを含んでおり、音声理解部120の理解結果に基づき、出力対象となる音声信号(以下、出力対象音声信号)をそれぞれの音声生成部130a〜130nから選択生成し、これら複数の生成された出力対象音声信号を連結し、結合音声信号を出力する機能を持つものである。この音声生成部130a〜130nには、一般的な音声合成方法や、予めナレータによって録音された音声データベースから必要な音声を選択する録音音声再生方法などを用いることができる。
応答音声出力部140は、上記結合音声信号の連結に用いた各出力対象音声信号の声質の乖離すなわち声質の差異を検出する機能と、この声質の乖離に基づく連結部分を中心にユーザにおける聞き落とし可能性の程度を示す聞き落とし可能度を算出する聞き落とし可能度検出部141と、この聞き落とし可能度の検出結果に基づき、聞き落とし可能度が所定の値以下となるように、上記の生成された各出力対象音声信号間の声質の乖離が少なくなるように上記の生成された結合音声信号の声質調整を行う音声調整部142とを含むものである。以上、音声理解部120から応答音声出力部140までの各機能は図2における演算装置203と記憶装置204とを組み合わせることで実現することができる。
上記構成を用いた装置の具体的な動作を、対話機能を持つナビゲーション装置における目的地設定のタスクを例として説明する。
この場合、図1における音声理解部120は図3(a)に示すような文法構造の辞書を持つ音声認識機能を備える。図3(a)の文法辞書によれば、県名ノード(401a)には402aに示すよう県名単語が格納されている。更に県名401aに引き続き駅名ノード(404a)が接続されており、405aのような各県に対応する駅名が格納されている(便宜上405aは神奈川県に接続される駅名だけを示しているが、実際には各県毎に駅名が格納されており、対応する県名と接続されている)
。この辞書構成によって、「県名+駅名」の発話が認識可能であり、例えば、「北海道室蘭市」「神奈川県厚木市」のような入力も認識可能に出来る。また、駅名ノード(404a)の前後に「Garbage」と記されたノードがある。これは間投詞や前後の駅名あるいは県名ノードに格納されていない単語、すなわち未知語などを吸収するためのノードであり、これにより例えば「神奈川県の横浜駅まで」等と発話した場合に、“の”や“まで”の部分をGarbageが吸収することにより、結果として単語「神奈川県」と「横浜駅」を正しく得ることが可能である。
ただし、上記構成の辞書を持つと、全国の県名及び駅を対象単語として待ち受けるため、単語を展開するために多くのメモリを必要とする。そこで、必要メモリを削減する方法を図3(b)及び図3(c)示した。この手法は発話音声を複数段階に分けて認識する方法であり、先ず第1段階の認識にて図3(b)の辞書のみを展開して県名部分を認識し、この認識結果に基づき、対応する県についての駅名が格納された図3(c)の辞書を展開して駅名を認識する。この手法により一度に展開する辞書は、県名辞書か単独県下の駅名辞書であるため、消費するメモリは飛躍的に小さくすることが出来る。
次に、目的地設定タスクにおいて、応答音声管理部130は前記音声理解部120の理解結果に基づき、ユーザに対する応答音声を生成する。この時、応答音声管理部130は図1に示したように複数の音声生成部130a〜130nを持っており、この中から適切な音声生成部130a〜130nの生成した音声信号を選択する。複数の音声入力手段からそれぞれ一つ以上の音声生成結果を取得し、これらを連結する機能も有する。具体的には、「(を)目的地に設定します」、「渋滞のためルートを再計算します」といったナビゲーション機能に関する出力音声信号を録音データとして保持した音声生成部130a、「(に)電話をします」、「(から)電話です」「(を)ダウンロードします」といった外部通信機能に関する出力音声信号を録音データとして保持した音声生成部130b、前記音声理解部120が理解対象とする「神奈川県」、「横浜駅」といった県名、施設名、または「日本太郎(さん)」、「横浜花子(さん)」といったユーザの登録データや携帯電話のアドレス帳データ等に含まれる氏名等を合成音声として生成する音声生成部130c等を持ち、これらを組み合わせた結合音声「神奈川県、横浜駅 + ‥を目的地に設定します」、「日本太郎さんに電話をします」等を生成する。
ただし、ここでの結合音声は後述の応答音声出力部140にて調整を受けることを前提とするため、必ずしもこの時点で実際の結合音声データとして生成する必要は無く、音声生成部130a〜130nから得られる音声データへのインデックスとその連結順序が参照できる形式で準備されていれば良い。
ここで、複数の音声生成機能を有する理由について説明する。音声出力の品質を向上させるには、全ての音声応答文をナレータによる録音音声として統一しておくべきであろうが、パターン数が膨大であること、データの更新によって新規対話が増加する場合に再度録音しなおさなければならない等、実用上困難な場合が多い。このため、ナレータの音声と音声合成とを組み合わせて用いることが一般的である。これによって少なくともナレータと合成音声の2種類の声質がシステム上に存在することになる。また、例えばナビゲーション装置と携帯電話等の複数機器を接続して用いるシステム等を考えると、それぞれの機器が個別に音声認識・出力機能を持つ可能性があり、これを統合・協調して用いる場合にも、やはり複数の声質が存在することになる。こうしたシステム構築上の問題とは別に、ユーザビリティーの観点からあえて音声出力を複数持たせることも考えられる。例えばナビゲーション関係の機能は女性のナレータ音声とし、電話・ダウンロード接続などのネットワーク関係の機能は男性のナレータ音声としてそれぞれ出力する構成とすることで、ユーザは出力音声の男女の違いからナビゲーション機能かネットワーク機能かを瞬時に判断することができるため、使い勝手が向上する。
応答音声出力部140においては内蔵の聞き落とし可能度検出部141により、前記応答音声管理部130において結合音声信号を生成した場合に、連結対象となるそれぞれの音声信号における「声質の差異(声質の乖離)」として検出し、該差異から聞き落とし可能度を決定する。ここで、算出する声質の差異としては、下記の音声信号の音響的特徴の乖離を示すパラメータの少なくとも一つを含み
基本周波数
音声エネルギー値
AQ(Amplitude Quotient)値
発話速度
等を用いることができる、声質の差異を示すこれらパラメータの算出の仕方は以下の通りである。
1. 基本周波数は、F0(エフゼロ)とも呼ばれる。これは声帯振動によって発生する周波数であり、「声の高さ」を数値化したものである。一般的な成人男性では150Hz前後、女性では250Hzから300Hz程度と言われている。尚、声の高さの指標として「ピッチ」という言葉が用いられる場合もあるが、これは有声音声での音声波形の1周期分の時間長であり、ピッチの逆数がF0に相当する。F0は、音声波形に対しLPC逆フィルタを通して残差波形を求め、これに低域通過フィルタを通した後、自己相関関数
Figure 0004752516
を求め、これを下記(数2)式
Figure 0004752516
によって正規化した複数のピーク値の平均値(平均F0値)、或いは最大F0値と平均F0値との差分、あるいは複数のピーク値からパワーが50msの区間で6dB以上落ちないピーク値等として検出する。
2. 音声エネルギー値は、音声の大きさ、すなわち声量に関する指標として用いる。例えば(数3)式のように、音圧の自乗の区間平均値として算出する。
Figure 0004752516
尚、該音声エネルギー値の平方根をとったものをpとし、(数4)式
Figure 0004752516
として求められる「平均音圧」として扱ってもよい。
応答音声出力部においては、結合音声信号に含まれる複数の出力音声信号の声質の乖離を、前記の音響的特長の乖離として検出する機能を有しており、かつこの乖離が大きい場合には聞き落し可能度が大きいと判断し、この判断に基づき聞き落とし可能度が所定の値よりも小さくなるように複数の出力対象音声信号における基本周波数或いは音声エネルギーの少なくとも何れかを加工する機能を有している。
3. AQ(Amplitude Quotient)値は、ホルマントの影響を除いた声帯音源波形のピークツーピーク値と、その微分波形の最大ネガティブピークの比として定義される値で、声の柔らかさに関する指標と言われており、文献:P.Alku、T.Baeckstroem、and E.Vilkman、”Normalized amplitude quotient for parametrization of the glottal flow”、J.Acoust.Soc.Am.,vol.112,no.2,pp.701−710,2002に詳細に記述されている。
4. 発話速度は、例えば単位時間当たりの出力音素数、あるいは単位時間当たりのモーラ数として検出される。なお、モーラとは一定の時間的長さをもった音の分節単位のことで、「拍」とも呼ばれる。基本的に母音(「ア」等)、子音+母音(「カ」等)、半母音+母音(「ヤ」等)、子音+半母音+母音(「シャ」等)の組み合わせがある。モーラ数算出のため、音声生成部は、各音声に対応するテキストデータを保持しておく必要がある。尚、音声合成の場合はその機能自体に単語列(音素列)の入力を含むため、該入力文字列からモーラ数を算出できる。
上記4指標の少なくとも一つを抽出して、その差異を比較した結果に基づき、聞き落とし可能度を算出する。ここで聞き落とし可能度は、前記声質の差異そのもの、すなわち図4(a)のような正比例の関係としても良いし、一つ以上の所定の閾値を設けて該閾値を上回るか否かで聞き落とし可能度を判断してもよい。図4(b)は、3種類の閾値a,b,c(横軸)を設け、これら各閾値に基づき、聞き落とし可能度をA,B,C(縦軸)のように決定する例である。
応答音声出力部140の音声調整部142は、上記聞き落とし可能度が所定の値より大きい場合に、音声聞き落とし可能度抑圧のため音声信号の上記乖離を示す何れかの項目について声質調整を行う。
音声信号の声質調整方法としては、
A.各音声生成部130a〜130n出力音声信号の結合部境界にポーズ(所定の時間長の無音信号)を挿入する
B.連結対象の音声の基本周波数、音声エネルギー値、発話速度を加工する
等の方法を用いることができる。
前者のポーズを挿入する方法(A)に対しては、挿入するポーズ長の例を図5に示す。図5(a)は前述した図4(a)の方法で聞き落とし可能度を決定した場合の挿入ポーズ長の対応を示している。この方法では、聞き落とし可能度(横軸)の増加に伴い挿入するポーズの信号長(縦軸)が増加するように対応させている。ただし、挿入信号長の最大値を図5(a)中の“A”の値に制限している。“A”の値は、例えば1.5秒等とする。実際にはポーズ時間と聞き落としの関係から実験等により決定されることが好ましい。一方、前述した図4(b)の方法で聞き落とし可能度を決定した場合の挿入されるポーズ長の対応を図5(b)に示す。聞き落とし可能度がA,B,Cそれぞれの場合に挿入ポーズ長がα、β、γのように設定される。尚、より簡単な方法として、聞き落とし可能度の閾値を一つのみとし、該閾値を越える場合に一定のポーズ時間を一律で挿入するようにしても良い。
ポーズ挿入の具体例を図6に示す。図6は応答音声管理部130が音声、(a)「目的地を」及び(b)「に設定します」をナレータ音声から選択し、音声(c)「横浜駅」を合成音声として生成し、これを(a)+(c)+(b)の順に連結した「目的地を+横浜駅+に設定します」という応答音声を生成する場合を示している。聞き落とし可能度検出部141はナレータ音声(a),(b)と(c)の声質の乖離(声質の差異)を計算した結果、例えば図4(b)の“A”と得られる。続いて図5(b)を参照して、挿入するポーズの信号長を“α”と決定する。その結果、図6の右部分に示すように、音声信号(a)及び(c)の間、及び音声信号(c)と音声信号(b)の間にポーズ(p1)及び(p2)を応答音声出力部において挿入する。よって最終的に図6(d)に示すような音声信号へと加工され、出力される。
尚、この例ではポーズを無音信号として示したが、このほかにも、例えば、非定常信号である「ホワイトノイズ」や、「後ろに接続される音声の基本周波数に相当する周波数の定常信号」等としても良い。また、聞き落とし可能度が所定の値より大きい場合に、結合音声信号の結合境界に、聞き落とし可能度に正比例する時間長の定常信号あるいは非定常信号あるいは無音信号を挿入してもよい。特に後者の場合、次に出力される信号の直前でヒトの聴覚フィルタを自動的に作り変える作用(すなわち耳を準備させる効果)が期待できるため、より聞き落としの可能度を低減できるといえる。
後者の結合部の声質制御(B)については、具体的には結合対象の音声すなわち出力対象音声信号の基本周波数、音声エネルギー値、AQ値、発話速度の差異に基づき聞き落とし可能度を算出し、該可能度を低減するように、基本周波数、音声エネルギー、発話速度の変換を行う方法の具体例を示す。尚、基本周波数、音声エネルギー、発話速度変換法については、それぞれ公知のピッチ変換技術、ボリューム加工技術、話速変換技術を適用することができる。
以下の例では、基本周波数、音声エネルギー、AQ値、発話速度の差異を直接聞き落とし可能度と解釈し、該差異を解消するように基本周波数、音声エネルギー、発話速度を変更する(AQ値の差異の解消は基本周波数の加工によって行うものとする)。ただし、前述したように、ユーザビリティーの観点から、敢えて声質を変化させて出力する場合も考えられるため、この場合は前述のAの方法(ポーズの挿入)で対処するのが好ましい。すなわち、応答音声出力部は、前記結合音声信号に含まれる複数の出力対象音声信号の声質の乖離を、音声信号の音響的特徴の乖離として検出する機能を備え、且つこの乖離が大きい場合には、聞き落とし可能度が大きいと判断する機能と、この聞き落とし可能度が所定の値より大きい場合に、該聞き落とし可能度が所定の値よりも小さくなるように、複数の出力音声信号における基本周波数或いは音声エネルギーの少なくともいずれかを加工する機能を有するようにしている。また、同様に、応答音声出力部は、結合音声信号に含まれる複数の出力対象音声信号における声質の乖離を、発話速度の乖離として検出する機能を備え、且つ該乖離が大きい場合に、聞き落とし可能度が大きいと判断する機能と、該聞き落とし可能度が所定の値より大きい場合に、該聞き落とし可能度が所定の値より小さくなるように、複数の出力音声信号のうちの少なくとも一つについて、発話速度を調整する機能を有している。
図7は、図6同様、(a)「目的地を」及び(b)「に設定します」をナレータ音声から選択し、音声(c)「横浜駅」を合成音声として生成し、これを(a)+(c)+(b)の順に連結した「目的地を+横浜駅+に設定します」という応答音声を生成する場合を示している。各音声について基本周波数を抽出した結果、
(a)=(b)=170Hz,
(c)=150Hz
と検出された。この差異120Hzを直接聞き落とし可能度と算出し、この差異を解消するように上記応答音声の基本周波数のシフト操作を行う。図7の例では(a)(b)をシフトし基本周波数を(c)の150Hzにそろえた(a‘)(b’)を得ている。この処理の後、(a’)+(c)+(b’)と音声を連結して出力する。
図8は図6同様の結合音声について、音声エネルギーの差異に基づく聞き落とし可能度を検出する。この例では、(a)=(b)18dB、(c)=38dBとして得られている。この差異の20dBを聞き落とし可能度と捉え、解消するようにエネルギーのシフトを行う。具体的には、予め所定のエネルギーを設定し、各音声について、この所定のエネルギーになるよう加工を行う。図8の例では、各音声のエネルギーを30dBに揃うように調整した(a’)(b’)(c’)を取得し、これを前記の(a’)+(c)+(b’)と同様に連結して出力する。
図9は図6同様の結合音声について、応答音声出力部140は、出力対象音声信号における性質の乖離を発話速度の乖離として聞き落とし可能度を検出する。ここで、聞き落とし可能度が所定の値より大きい場合に、この聞き落とし可能度が所定の値より小さくなるように、複数の出力対象音声信号のうちの少なくとも一つについて発話速度を調整する。この例では、(a)=(b)=6モーラ/秒、(c)=12モーラ/秒と検出され、差異の6モーラが聞き落とし可能度となる。これを解消するため、(c)について話速変換を行い、(a)、(b)に等しい6モーラ/秒の音声(c’)を取得する。これを前記同様(a’)+(c)+(b’)の配列として連結し出力する。
上述した処理手順の流れを図10のフローチャートを用いて説明する。
先ず、入力されたユーザの音声信号はステップ:S101において認識され、理解した内容として単語列を抽出する。この理解内容に基づいた単語列から、応答すべき出力音声信号を複数の音声生成部130a〜130nから取得する(ステップ:S102)。例えば図10においては生成された音声信号(a)、(b)の2つが取得されている。この取得された音声信号に対して、その連結順序を決定する(ステップ:S103)。図10の例では(b)+(a)の連結順序としている。
次に、音声信号(a)、(b)それぞれについて、上述した基本周波数、音声エネルギー、AQ値、発話速度などの指標に基づく声質の差異を算出する(ステップ:S104)。ここで得られた声質の差異は、図4に示した声質の差異と聞き落とし可能度の対応関係を用いて、聞き落とし可能度を算出する(ステップ:S105)。さらに、この算出された聞き落とし可能度が図4に示したような所定の閾値(TH)を越えるか否かを判断する(ステップ:S106)。この場合、閾値は一つでも良いし、図4(b)のA,B,Cのように複数設定しても良い。ここで、閾値を0に近い値に設定すると、声質の差異に対して厳しくなり、加工対象が増加する可能性が大きくなる。従って、実態を実験等により把握して閾値の所定値を設定することが好ましい。ここで聞き落とし可能度が閾値を上回る場合(ステップ:S106:NO)はステップ:S107へ、また、下回る場合(ステップ:S106:YES)はステップ:S109へ移行する。
上記聞き落とし可能度が閾値を上回る場合においては、加工対象とする音声信号の選択を行う(ステップ:S107)。図10においては音声信号(b)が選択されたとしている。この選択に関しては、複数の生成された音声信号の何れか一つを常に選択するようにしても良いし、あるいは予め基準となる声質を保持し、この基準から声質が乖離する音声は全て聞き落とし可能度があると判断し、加工対象としても良い。また、基本周波数を変更して差異を解消する手法を用いる場合には、周波数シフト量が大きくなるにつれ音声信号自体に歪みが生じ、音質が劣化する可能性がある。そこで例えば周波数シフト量の最大値を設定しておき、基本周波数の差異が該最大値を超える場合には、一方の音声信号を他方に揃えるのではなく、双方の音声信号を加工対象として選択し、基本周波数の加工を行うのが好ましい。この加工処理は上記の各手法(ポーズの挿入、基本周波数のシフト、音声エネルギーのシフト、話速変換等)を用いて加工を行い音声信号(b’)を取得する(ステップ:S108)。音声信号(b’)を取得後はステップ:S104に戻り、再度差異を検出し、聞き落とし可能度を検証する。ただし、上述した基本周波数のシフトの場合は、音声歪みのことも考慮し、基本周波数の乖離が極度に大きく、双方の音声を基本周波数シフト量の最大値(装置の限界値)までシフトしても乖離を吸収できない場合に、最大値までのシフトで処理を中止するようにしても良い。この場合、聞き落とし可能度の値は最適化されていないが加工処理を中止している旨のフラグ等何らかのマークを付してステップ:S106のループから抜け出す処理が必要である。聞き落とし可能度が閾値以下となった場合(ステップ:S106:YES)、ステップ:S103で求めた連結順序(b’)+(a)と、ステップ:S108で求めた加工音声結果(挿入ポーズを含む)を用いて、音声信号を連結する(ステップ:S109)。これにより生成された音声信号を出力しユーザに提示する(ステップ:S110)。
以上述べた構成およびその処理手段により、複数の声質を含むような音声信号を連結してユーザに提示する場合に、その個々の音声信号における声質の乖離に基づく聞き落とし可能度を判断し、その可能度を抑制するように連結対象となる音声を加工あるいはポーズの挿入してユーザに提示するため、聞き落しが発生し難く、より円滑な対話が遂行できる音声対話装置を提供することができる。
(実施の形態2)
本実施の形態2においては、システム側で生成された出力音声(以下システム音声)とユーザの発話した音声(以下ユーザ音声)とを連結した出力音を用いてユーザに応答音声を提示する方法での本発明の適用形態について説明する。すなわち、前記応答音声管理部は、合成音声信号あるいは予め録音された音声信号であるシステム音声信号を生成するシステム音声生成部と、ユーザが発話した音声の少なくとも一部をユーザ音声信号として抽出するユーザ音声抽出部とを有し、且つ前記システム音声生成部出力と前記ユーザ音声抽出部出力とを結合して前記結合音声信号を応答音声信号として生成する機能を有している。
図11は本実施の形態2による装置構成を示すブロック図である。本実施の形態2においても実施の形態1の場合と同様に、構成要素は、音声入力部110、音声理解部220、応答音声管理部230、応答音声出力部240から構成されており、装置構成、各機能共に基本部分は共通であるので、以下には本実施形態2の特徴部分について説明する。
音声理解部(図11:220)は、前記音声入力部から得られた音声信号に対応する単語列音声認識を行い、該音声に対応する単語列を選択する音声認識機能と、この単語列に含まれる複数の単語情報を用いて現在のシステムの理解状態を決定する機能を有している。ここで、上記音声認識機能は認識した単語列に含まれる各単語について認識信頼度を付与し、上記の理解結果として出力する機能、及び認識時の各単語の認識位置の記録機能を持つことが好ましい。前者の信頼度は理解候補として出力された単語の確からしさであり、同時に出現した候補単語との認識尤度の近さから算出する方法、単語事後確率等から算出する方法等が提案されている。本実施の形態2では信頼度に対する所定の閾値を設定し、閾値を上回る単語に関しては認識成功として処理を進め、下回る単語に対しては認識の自信が無いとして、聞き返し等の処理を行う。後者(単語の認識位置)は文法辞書との照合処理時において取得可能である。例えば、認識辞書で“県名”+“ガベージ”+“駅名”という辞書を用意し、「○○県の××駅」を照合する場合、発話“○○駅”と、辞書の“駅名”とが最大尤度で合致するときに、該駅名が認識単語として出力されるため、そのときのマッチング位置が“○○駅”の音声区間として取得可能である。ただし、雑音等の影響で誤認識が生じる場合にはこの音声区間も間違って選択されている可能性が高い。本実施の形態2の例における対話装置では、このように音声区間に誤認識ある場合も、ユーザ音声をそのまま提示する構成としている。これによってユーザはシステムが音声区間を誤って理解していることを直感的に知ることが出来るため、以降の対話が円滑になる。
この具体例を図12に示す。図12(a)はユーザ音声「神奈川県の横浜駅に行く」の波形を示したものである。図3(a)に示す辞書で認識した場合、「神奈川県」+「の(ガベージ)」+「横浜駅」+「に行く(ガベージ)」が認識され、理解結果として、図12に示す理解結果(1)のように、
「神奈川県(信頼度高)」&「横浜駅(信頼度高)」が得られる場合や、
理解結果(2)のように、
「神奈川県(信頼度高)」&「横浜駅(信頼度低)」
が得られる場合が考えられる。この場合の応答については後述する。そしてこの時同時に、音声区間について、
「神奈川県」:A1〜A2
「の(ガベージ)」:A2〜A3
「横浜駅」:A3〜A4
「に行く(ガベージ)」:A4〜A5
が得られている。
一方、図12(b)は背景雑音が存在する場合であり、時刻B1を境に背景雑音の振幅が大きくなっている。この状況で同様の発話を行った波形が図12(c)であるが、これを同様の辞書で認識させた場合「神奈川県」が区間C1〜C2で認識されるものの、その後の音声信号については雑音に埋もれて正しく切り出せず(区間C2〜C3のように判定され)、認識結果も正しく得られない可能性が高い。例えば理解結果として、図12(c)の理解結果(3)のように、
「神奈川県(信頼度高)」&「○○○(信頼度低)」
(ただし○○○は横浜駅とは音素的に大きく異なる単語)
が得られる場合が考えられる。この場合の応答例については後述する。
応答音声管理部230は、システム音声信号を生成するシステム音声生成部231と、ユーザ音声信号を抽出するユーザ音声抽出部232とから構成され、前記音声理解部220における音声信号の理解内容に基づき、システム音声信号とユーザ音声信号とを組み合わせた結合音声を生成する機能を持つ。具体的には、前記音声理解部220において信頼度が高いと判断された単語についてはシステム音声信号を選択し、信頼度が低いと判断された単語についてはユーザ音声信号を選択し、これら両音声信号を結合する機能を有している。
システム音声生成部231としては、一般的な音声合成方法や、ナレータ音声による録音音声再生方法等が用いられる。ユーザ音声抽出部232は、前記音声理解部220の持つ認識位置の記録機能を用いて、各認識単語に対応する区間の音声信号を切り出してくる機能を持つ。
前述した図12の例を考えると、理解結果(1)の場合は「神奈川県」「横浜駅」双方の単語の信頼度が高いため、両単語について、対応するシステム音声を選択し、応答例(1)「“神奈川県(システム音声)”の“横浜駅(システム音声)”を目的地に設定します」等の応答音声を生成する。
一方、理解結果(2)の場合は、「神奈川県」は信頼度が高いものの、「横浜駅」の信頼度が十分出ないため、音声区間A3〜A4のユーザ音声を抽出し、応答例(2)「“神奈川県(システム音声)”の“よこはまえき(ユーザ音声)”の部分が分かりませんでした」等の応答音声を生成する。
更に、理解結果3の場合は、「神奈川県」は信頼度が高いものの、それ以降「の横浜駅に行く」の部分については、まったく信頼度が得られない。従って、「神奈川県」についてはシステム音声を選択し、それ以降の部分については、区間C2〜C3のユーザ音声を抽出し、応答例(3)「“神奈川県”(システム音声)の“の横浜駅に行く”(ユーザ音声)の部分が分かりませんでした。もう一度お願いします」等の応答音声を生成する。下記の応答音声出力部240は、応答例(2)及び(3)の場合に機能するもので、応答例(1)の場合のように、全て高信頼度で認識された場合は応答音声出力部240に搭載されている機能を使用することなく音声信号は出力される。すなわち、応答音声出力部240は、結合音声信号に含まれる複数の出力対象音声信号の声質の乖離を、音声信号の音響的特徴の乖離として検出する機能を備え、この乖離が大きい場合、聞き落とし可能度が大きいと判断し、聞き落とし可能度が予め定められた値以下となるように前記音響的特徴の調整を行う機能を有している。
応答音声出力部240の聞き落とし可能度検出部241は応答音声管理部230で選択・抽出されたシステム音声及びユーザ音声の声質の差異を求め、聞き落とし可能度を算出する機能を持ち、音声調整部242は該聞き落とし可能度を抑制するようにシステム音声もしくはユーザ音声を加工し、出力する機能を持つ。
以下上記システムの具体的な動作について具体的な処理の流れを、図13のフローチャートにより説明する。
入力音声はユーザからの入力音声に対して認識処理が行われる(ステップ:S201)。この該認識処理の結果として、理解内容(Wn,Cn)を取得する。ここでWnは理解した単語、Cnは該単語の信頼度、nは理解した単語の通し番号の数(n=1...N)、Snはn番目の単語の時間軸上における開始位置、Enはその終了位置である(ステップ:S202)。次いで、理解単語全て(Wn)について、信頼度(Cn)と信頼度閾値(TH)との比較を行う(ステップ:S203)。閾値より大きい、すなわち信頼度が高い場合(ステップ:S203YES)にはステップ:S204へ、閾値より小さい、すなわち信頼度が低い場合(ステップ:S203NO)にはステップ:S205へ移行する。信頼度の高かった理解単語(Wn(a))については、対応するシステム音声(SWn)をシステム音声生成部231から選択し取得する(ステップ:S204)。信頼度の低かった理解単語(Wn(b))については、対応する音声区間Sn,Enを取得し、該区間におけるユーザの音声信号(UWn)を抽出する(ステップ:S205)。このようにして得られたシステム音声(SWn)とユーザ音声以外の補足音声部分(SWx)をシステム音声生成部231より取得する(ステップ:S206)。例えば「が分かりません」「を目的地にします」等の応答音声が補足システム音声に相当する。以上のようにして得られた応答音声用の音声信号、すなわち、上記のシステム音声(SWn)、ユーザ音声(UWn)および補足システム音声(SWx)について、その連結順序を決定する(ステップ:S207)。
次いで、上記のシステム音声(SWn)、ユーザ音声(UWn)、補足システム音声(SWx)それぞれの音声信号について基本周波数、音声エネルギー、AQ値、発話速度の少なくとも何れかについて評価を行い、その差異を算出する(ステップ:S208)。ただし、これら指標を算出する前に、音声以外の雑音状況について簡易的に推定する処理を含めることが好ましい。すなわち、ユーザ音声に雑音が酷く混入するような情況、マイクのボリュームや、取り付け位置、ユーザの音声の大きさ、雑音の大きさ等の関係で入力信号がオーバーフローしてしまうような情況(すなわち音が割れているような状況)では、基本周波数やAQ値、発話速度等について正しく評価できない可能性があり、むしろ、この異常状態を直接ユーザに提示するべきである。従って、このような状況を検出した場合には後述の音声信号加工処理にて例外処理(加工の中止処理)を行う。尚、雑音の推定手法については、各種フィルタを通し、音声周波数帯を強調あるいは抑圧した信号のスペクトルから判断する方法、雑音を事前知識として与える方法等、公知の手法を用いることができる。また、オーバーフローに関しては、入力信号を監視することで検出可能である。
一方、発話速度の算出については、本実施の形態2における特有の処理であるが、雑音が含まれない場合であっても発話速度についての考慮が必要である。すなわち、システム音声(SWn)及び補足システム音声(SWx)については実施の形態1同様、予め出力する音声に対応する単語列を保持しておくことでモーラ数が算出できる(音声合成であれば、合成の命令に用いる単語列から算出可能)が、ユーザ音声(UWn)については、信頼度が低い場合、そもそもモーラ数が正しく判断できない可能性がある。そこで、理解単語(Wn(b))が検出されたときの他の候補単語のモーラ数を比較し、その分散が低い場合はそのままUWnのモーラ数を用いるか、あるいは前記候補単語の平均モーラ数とし、一方分散が大きい場合は、例えば文献(川本
真一他, “動的尺度を用いた発話速度の推定,” 電気関係学会北陸支部連合大会講演論文集, F-69, p.369, Oct 1999)、あるいは文献(特開平7−295588 発話速度推定方法)のような公知の方法を用いて直接発話速度を推定することが好ましい。
ステップ:S208で算出した声質の差異に基づき、図4で示したような対応関係を参照して、聞き落とし可能度の算出を行い(ステップ:S209)、得られた聞き落とし可能度が所定の閾値(HT)を超えるか否かの判定を行う(ステップ:S210)。閾値を越える場合(ステップ:S210NO)はステップ:S211へ、超えない場合(ステップ:S210YES)はステップ:S213へ移行する。前者の場合、すなわち閾値を越える場合は加工対象とする音声信号の選択を行う(ステップ:S211)。この例ではシステム音声(SWx)及び補足システム音声(SWx)が選択されている。この選択操作に続いて選択された音声信号の加工処理(ポーズの挿入、基本周波数のシフト、音声エネルギーのシフト、話速変換等)が行われ、加工された音声信号SWn’、SWx’を求める(ステップ:S212)。加工処理の後、ステップ208に戻り、再度声質の差異を算出する。例えば一回目の差異算出にて基本周波数の算出を行い、次の処理では音声エネルギーの差異を算出する等とすることで、複数の指標についての差異に基づく聞き落とし可能度軽減の加工を施すことができる。尚、前述したように、ユーザ音声部分に雑音が多く含まれている状況、入力信号のオーバーフローの状況を検出した場合には、例外処理として加工を行わずに出力する方法を取ることが好ましい。
以上の処理を実行し、加工後の音声を含む出力音声(SWn’、SWx’、UWn)の聞き落とし可能度が閾値以下となると、加工の結果および結合順序に基づき音声信号の結合を行う。すなわち、ステップ:S207で取得した結合順序に基づき、音声信号を結合し、(SWn’+UWn+SWx’)を得る(ステップ:S213)。最後に、以上のようにして得られた結合音声を応答音声として出力(ステップ:S214)して一連の処理を終了する。
上述した一連の構成及び処理により、ユーザの音声とシステム音声とを結合して出力する場合に、聞き落しが発生するのを抑制するように加工した音声を提示することが出来るようになる。
(実施の形態3)
本実施の形態3は、音声理解部において信頼度が高いと判断された単語については対応する単語の音声合成を行い、信頼度が低いと判断された単語についてはユーザ音声を音素認識した結果の音素列を用いて音声合成するものである。
本実施の形態3の基本的構成は実施の形態2と共通であり、図14に示す音声入力部110、音声理解部220、応答音声管理部330、応答音声出力部340の各部から構成される。
各機能も基本的な部分は第2実施形態共通である。以下には異なる部分(応答音声管理部330、及び応答音声出力部340)について説明する。
応答音声管理部330は、システム音声用の出力単語列あるいは音素列(以下システム音素列)を生成するシステム音声生成部331と、ユーザ音声を抽出するユーザ音声抽出部332と、該ユーザ音声抽出部332によって抽出されたユーザ音声に対して、音素認識を行いユーザ音素列を取得する音素認識部333とから構成され、音声理解部220の理解内容に基づき、システム音素列及びユーザ音素列を組み合わせた結合音素列を生成する機能を持つ。
音素認識部333は、一般的に音素タイプライタ、あるいはサブワード認識と呼ばれる簡便かつ計算負荷の小さい認識方法であり、入力信号に対して、「a」「ka」「N」のような音素単位の認識を行うものである。音素認識については、例えば非特許文献(大脇浩, 榑松明, ハラルド シンガー, 鷹見淳一(ATR), “音素配列構造の制約を用いた音素タイプライタ,” 信学技報, SP93-113,
pp.71-78,1993)等で紹介されている。応答音声出力部340は音声合成部341で構成されており、応答音声管理部330から得られた結合音素列を入力として音声合成を実行し、この応答音声信号を出力する応答音声出力部340を介して出力する。
図15に具体的な動作例を示す。図15(a)は図12(a)と同じ発話入力及び理解結果(1)および(2)、図15(b)は図12(c)と同じ発話入力及び理解結果(3)が得られる状況である。
理解結果(1)の場合、「神奈川県」及び「横浜駅」双方の信頼度が高いため、双方の単語に対応する音素列「kanagawaken」及び「yokohamaeki」を取得し、応答例1の合成音声「kanagawaken no yokohamaeki wo mokutekichinisetteishimasu(神奈川県の横浜駅を目的地に設定します)」が出力される。
理解結果(2)の場合、「神奈川県」の信頼度は高く、「横浜駅」の信頼度は低い。従って、「神奈川県」については対応する音素列「kanagawaken」を取得する。一方「横浜駅」の部分は、対応するユーザ音声を抽出し、音素認識処理を行う。この結果として、例えば「okoameeki(おこあめえき)」が得られる。この二つを組み合わせ、応答例(2)の合成音声「kanagawaken no “okoameeki” nobubunga wakarimasenndeshita (神奈川県の“okoameeki”の部分がわかりませんでした)」が出力される。
理解結果(3)の場合、「神奈川県」は高信頼度で得られるものの、それ以降「の横浜駅に行く」の部分(区間C2〜C3)について、雑音のために十分な信頼度が得られない。そこで、区間(C2〜C3)について音素認識を行う。認識結果として、「akuoeomokeueiko」のような入力音声とは大きく乖離した結果が得られる。これと「神奈川県」に対応する音素列「kanagawaken」とを組み合わせ、「kanagawaken no “akuoeomokeueiko” nobubunga wakarimasenndeshita (神奈川県の“akuoeomokeueiko”の部分がわかりませんでした)」が出力される。
この音素認識の不確かさがそのままユーザに提示されるため、ユーザは何処がどのくらい分からなかったのかを知ることができ、以降の対話が円滑になる。ただし、上記の出力を全て同じ音声合成器を用いて生成する場合、「kanagawakeN no okoameeki nobubunngawakarimasenndeshita(神奈川県のおこあめえきの部分がわかりませんでした)」のように、そのまま連結した音素を出力すると、どの部分が分からないのかが正確に伝わらない可能性も考えられるので、例えば”okoameeki”の直前にポーズを挿入するなどの処理を施すことが好ましい。
以下、これらの処理の具体的な流れを、図16のフロー図を用いて説明する。先ず、ユーザ音声に対して認識処理を行い(ステップ:S301)、次いで、この認識処理の結果として、理解内容(Wn,Cn)を取得する(ステップ:S302)。ここでWnは理解した単語、Cnは該単語の信頼度、nは理解した単語の通し番号の数(n=1...N)、Snはn番目の単語の時間軸上での開始位置、Enは同じく時間軸上での終了位置である。この取得された理解内容の理解単語全て(Wn)について、信頼度(Cn)と信頼度閾値(TH)との比較を行う(ステップ:S303)。ここで閾値より大きい、すなわち信頼度が高い場合(ステップ:S303YES)にはステップ:S304へ、閾値より小さい、すなわち信頼度が低い場合(ステップ:S303NO)にはステップ:S305へ移行する。
信頼度の高い理解単語(Wn(a))に対してはシステム音素列(Spn)を取得する(ステップ:S304)。また、信頼度の低い理解単語(Wn(b))については対応する音声区間Sn、およびEnを取得し、当該区間におけるユーザの音声信号(UWn)を抽出する(ステップ:S305)。このようにして抽出したユーザ音声信号(UWn)に対して音素認識を実行し(ステップ:S306)、続いてこの音素認識結果(UPn)を取得する(ステップ:S307)。さらに上記システム音素列(SPn)とユーザ音素列(UPn)以外の補足部分の音素列(SPx)取得を行う(ステップ:S308)。例えば「が分かりません」「を目的地にします」等の音素列がこれに相当する。このようにして上記システム音素列(SPn)、ユーザ音素列(UPn)および補足システム音素列(SPx)が取得されたところで、これ等各音素列について、(例えばSPn⇒UPn⇒SPx)のようにその連結順序を決定する(ステップ:S309)。以上、各処理が完了したところで連結音順序に沿った連結音素列に基づいて音声合成を行い、出力する(ステップ:S310)。
以上説明した一連の構成及び処理手段により、全ての出力音声を同一の音声合成手法を用いて再生できるため、声質に差異を生じることがない。従って聞き落としの可能性を大きく抑制することが可能となる。
尚、本実施の形態3では、音声合成のみを用いて出力音声を生成する場合について説明したが、システム音声としてナレータの録音音声を使う音声生成方法と組み合わせ、実施の形態1あるいは実施の形態2の場合と同様に、聞き落とし可能度検出に基づく音声の加工を行う処理を付加しても良い。
:実施の形態1の基本的構成を示したブロック図。 :実施の形態1の装置構成を示すブロック図。 音声認識における認識辞書例を示した辞書構成図。 声質の差異と聞き落とし可能度との対応図。 聞き落とし可能度とポーズ挿入時間の対応図。 ポーズを挿入した結合音声生成の場合の音声波形図。 基本周波数シフトを介した結合音声生成の場合の音声波形図。 音声エネルギーシフトを介した結合音声生成の場合の音声波形図。 話速変換を介した結合音声生成の場合の音声波形図。 実施の形態1における処理の流れを示したフロー図。 実施の形態2の基本構成を示すブロック図。 実施の形態2の理解結果と応答例を示す波形図。 実施の形態2における処理の流れを示したフロー図。 実施の形態3の基本的な構成を示したブロック図。 実施の形態3の理解結果と応答例を示した図。 実施の形態3における処理の流れを示したフロー図。
符号の説明
110:音声入力部 120、220:音声理解部
130、230,330:応答音声管理部
130a〜130n:音声生成部
140、240、340:応答音声出力部
141,241:聞き落とし可能度検出部
142、242:音声調整部 201:マイクロフォン
202:AD変換部 203:演算装置
204:記憶装置 231,331:システム音声生成部
232、332:ユーザ音声抽出部 333:音素認識部
341:音声合成部

Claims (18)

  1. 少なくとも一つ以上の音声を音声信号として取得する音声入力部と、
    該音声信号に対応する単語列情報を理解結果として取得する音声理解部と、
    出力音声を生成する少なくとも二つ以上の音声生成部と、
    前記音声理解部における理解結果に基づき、前記複数の音声生成部から出力対象音声信号を選択し、該出力対象音声信号を連結させた結合音声信号を応答音声信号として生成する応答音声管理部と、
    前記結合音声信号を出力する応答音声出力部と、
    を具備し、
    前記応答音声出力部は、前記結合音声信号を構成している前記生成された各出力対象音声信号間の声質の乖離を検出する機能と、該乖離に基づく聞き落とし可能性の程度を検出する聞き落とし可能度検出部と、該聞き落とし可能性の程度を示す聞き落とし可能度が所定の値以下となるように前記生成された各音声信号間の声質の乖離が少なくなるように前記生成された結合音声信号を調整する音声調整部と
    を備え
    前記応答音声出力部は、前記結合音声信号に含まれる複数の出力対象音声信号の声質の乖離を、音声信号の音響的特徴の乖離として検出する機能を備え、該乖離が大きい場合、前記聞き落とし可能度が大きいと判断し、該聞き落とし可能度が予め定められた値以下となるように前記音響的特徴の調整を行う機能を有することを特徴とする音声対話装置。
  2. 請求項に記載の音声対話装置において、
    前記音響的特徴は、基本周波数、エネルギー値、AQ値(Amplitude Quotient)の少なくとも何れかであること、を特徴とする音声対話装置。
  3. 少なくとも一つ以上の音声を音声信号として取得する音声入力部と、
    該音声信号に対応する単語列情報を理解結果として取得する音声理解部と、
    出力音声を生成する少なくとも二つ以上の音声生成部と、
    前記音声理解部における理解結果に基づき、前記複数の音声生成部から出力対象音声信号を選択し、該出力対象音声信号を連結させた結合音声信号を応答音声信号として生成する応答音声管理部と、
    前記結合音声信号を出力する応答音声出力部と、
    を具備し、
    前記応答音声出力部は、前記結合音声信号を構成している前記生成された各出力対象音声信号間の声質の乖離を検出する機能と、該乖離に基づく聞き落とし可能性の程度を検出する聞き落とし可能度検出部と、該聞き落とし可能性の程度を示す聞き落とし可能度が所定の値以下となるように前記生成された各音声信号間の声質の乖離が少なくなるように前記生成された結合音声信号を調整する音声調整部と
    を備え
    前記応答音声出力部は、前記結合音声信号に含まれる複数の出力対象音声信号の声質の乖離を、発話速度の乖離として検出する機能を備え、該発話速度の乖離が大きい場合に、聞き落とし可能度が大きいと判断し、該聞き落とし可能度が予め定められた値以下となるように前記発話速度の乖離を低減する機能を有することを特徴とする音声対話装置。
  4. 少なくとも一つ以上の音声を音声信号として取得する音声入力部と、
    該音声信号に対応する単語列情報を理解結果として取得する音声理解部と、
    出力音声を生成する少なくとも二つ以上の音声生成部と、
    前記音声理解部における理解結果に基づき、前記複数の音声生成部から出力対象音声信号を選択し、該出力対象音声信号を連結させた結合音声信号を応答音声信号として生成する応答音声管理部と、
    前記結合音声信号を出力する応答音声出力部と、
    を具備し、
    前記応答音声出力部は、前記結合音声信号を構成している前記生成された各出力対象音声信号間の声質の乖離を検出する機能と、該乖離に基づく聞き落とし可能性の程度を検出する聞き落とし可能度検出部と、該聞き落とし可能性の程度を示す聞き落とし可能度が所定の値以下となるように前記生成された各音声信号間の声質の乖離が少なくなるように前記生成された結合音声信号を調整する音声調整部と
    を備え
    前記応答音声出力部は、前記聞き落とし可能度が所定の値より大きい場合に、前記結合音声信号の結合部境界に所定時間長の定常信号あるいは非定常信号あるいは無音信号を挿入することを特徴とする音声対話装置。
  5. 請求項に記載の音声対話装置において、
    前記応答音声出力部は、前記聞き落とし可能度が所定の値より大きい場合に、前記結合音声信号の結合部境界に、前記聞き落とし可能度に正比例する時間長の定常信号あるいは非定常信号あるいは無音信号を挿入する機能を有すること、を特徴とする音声対話装置。
  6. 少なくとも一つ以上の音声を音声信号として取得する音声入力部と、
    該音声信号に対応する単語列情報を理解結果として取得する音声理解部と、
    出力音声を生成する少なくとも二つ以上の音声生成部と、
    前記音声理解部における理解結果に基づき、前記複数の音声生成部から出力対象音声信号を選択し、該出力対象音声信号を連結させた結合音声信号を応答音声信号として生成する応答音声管理部と、
    前記結合音声信号を出力する応答音声出力部と、
    を具備し、
    前記応答音声出力部は、前記結合音声信号を構成している前記生成された各出力対象音声信号間の声質の乖離を検出する機能と、該乖離に基づく聞き落とし可能性の程度を検出する聞き落とし可能度検出部と、該聞き落とし可能性の程度を示す聞き落とし可能度が所定の値以下となるように前記生成された各音声信号間の声質の乖離が少なくなるように前記生成された結合音声信号を調整する音声調整部と
    を備え
    前記応答音声出力部は、前記結合音声信号に含まれる複数の出力対象音声信号の声質の乖離を、音声信号の音響的特徴の乖離として検出する機能を備え、且つ該乖離が大きい場合には、聞き落とし可能度が大きいと判断する機能と、
    該聞き落とし可能度が所定の値より大きい場合に、該聞き落とし可能度が所定の値よりも小さくなるように、複数の出力音声信号における基本周波数或いは音声エネルギーの少なくともいずれかを加工する機能を有することを特徴とする音声対話装置。
  7. 少なくとも一つ以上の音声を音声信号として取得する音声入力部と、
    該音声信号に対応する単語列情報を理解結果として取得する音声理解部と、
    出力音声を生成する少なくとも二つ以上の音声生成部と、
    前記音声理解部における理解結果に基づき、前記複数の音声生成部から出力対象音声信号を選択し、該出力対象音声信号を連結させた結合音声信号を応答音声信号として生成する応答音声管理部と、
    前記結合音声信号を出力する応答音声出力部と、
    を具備し、
    前記応答音声出力部は、前記結合音声信号を構成している前記生成された各出力対象音声信号間の声質の乖離を検出する機能と、該乖離に基づく聞き落とし可能性の程度を検出する聞き落とし可能度検出部と、該聞き落とし可能性の程度を示す聞き落とし可能度が所定の値以下となるように前記生成された各音声信号間の声質の乖離が少なくなるように前記生成された結合音声信号を調整する音声調整部と
    を備え
    前記応答音声出力部は、前記結合音声信号に含まれる複数の出力対象音声信号における声質の乖離を、発話速度の乖離として検出する機能を備え、且つ該乖離が大きい場合に、聞き落とし可能度が大きいと判断する機能と、
    該聞き落とし可能度が所定の値より大きい場合に、該聞き落とし可能度が所定の値より小さくなるように、複数の出力音声信号のうちの少なくとも一つについて、発話速度を調整する機能を有することを特徴とする音声対話装置。
  8. 請求項1乃至請求項7のいずれかに記載の音声対話装置において、
    前記応答音声管理部は、合成音声信号あるいは予め録音された音声信号であるシステム音声信号を生成するシステム音声生成部と、ユーザが発話した音声の少なくとも一部をユーザ音声信号として抽出するユーザ音声抽出部とを有し、且つ前記システム音声生成部出力と前記ユーザ音声抽出部出力とを結合して前記結合音声信号を応答音声信号として生成する機能を有していることを特徴とする音声対話装置。
  9. 請求項1乃至請求項8のいずれかに記載の音声対話装置において、
    前記音声理解部は前記音声入力部からの音声信号に対応する単語列を認識し、該単語毎の認識信頼度を付与して前記理解結果として出力する機能を有し、
    前記応答音声管理部は前記音声信号の理解結果に基づき前記信頼度が高いと判断された単語については前記システム音声信号を選択し、前記信頼度が低いと判断された単語については前記ユーザ音声信号を選択し、且つ該システム音声信号と該ユーザ音声信号とを組み合わせた前記結合音声信号を生成する機能を有することを特徴とする音声対話装置。
  10. 少なくとも一つ以上の音声を音声信号として取得し、
    該音声信号に対応する単語列情報の理解結果を取得し、
    出力音声を少なくとも二つ以上生成し、
    前記理解結果に基づき、前記複数の出力対象音声信号を選択し、該出力対象音声信号を連結させた結合音声信号を応答音声信号として生成し、
    前記結合音声信号を出力する、
    音声対話方法であって、
    前記結合音声信号を構成している前記生成された各音声信号間の声質の乖離に基づく聞き落とし可能性の程度を示す聞き落とし可能度を検出し、該聞き落とし可能度が所定の値以下となるように前記生成された各音声信号間の声質の乖離が少なくなるように前記生成された結合音声信号を調整するようになっており、
    前記結合音声信号に含まれる複数の出力対象音声信号の声質の乖離を、音声信号の音響的特徴の乖離として検出し、該乖離が大きい場合、聞き落とし可能度が大きいと判断し、該聞き落とし可能度が予め定められた値以下となるように前記音響的特徴を調整することを特徴とする音声対話方法。
  11. 請求項10に記載の音声対話方法において、
    前記音響的特徴は、基本周波数、エネルギー値、AQ値(Amplitude Quotient)の少なくとも何れかであること、を特徴とする音声対話方法。
  12. 少なくとも一つ以上の音声を音声信号として取得し、
    該音声信号に対応する単語列情報の理解結果を取得し、
    出力音声を少なくとも二つ以上生成し、
    前記理解結果に基づき、前記複数の出力対象音声信号を選択し、該出力対象音声信号を連結させた結合音声信号を応答音声信号として生成し、
    前記結合音声信号を出力する、
    音声対話方法であって、
    前記結合音声信号を構成している前記生成された各音声信号間の声質の乖離に基づく聞き落とし可能性の程度を示す聞き落とし可能度を検出し、該聞き落とし可能度が所定の値以下となるように前記生成された各音声信号間の声質の乖離が少なくなるように前記生成された結合音声信号を調整するようになっており、
    前記結合音声信号に含まれる複数の出力対象音声信号の声質の乖離を、発話速度の乖離として検出し、該発話速度の乖離が大きい場合に、聞き落とし可能度が大きいと判断し、該聞き落とし可能度が予め定められた値以下となるように前記発話速度の乖離を低減することを特徴とする音声対話方法。
  13. 少なくとも一つ以上の音声を音声信号として取得し、
    該音声信号に対応する単語列情報の理解結果を取得し、
    出力音声を少なくとも二つ以上生成し、
    前記理解結果に基づき、前記複数の出力対象音声信号を選択し、該出力対象音声信号を連結させた結合音声信号を応答音声信号として生成し、
    前記結合音声信号を出力する、
    音声対話方法であって、
    前記結合音声信号を構成している前記生成された各音声信号間の声質の乖離に基づく聞き落とし可能性の程度を示す聞き落とし可能度を検出し、該聞き落とし可能度が所定の値以下となるように前記生成された各音声信号間の声質の乖離が少なくなるように前記生成された結合音声信号を調整するようになっており、
    前記聞き落とし可能度が所定の値より大きい場合に、前記結合音声信号の結合部境界に所定時間長の定常信号あるいは非定常信号あるいは無音信号を挿入することを特徴とする音声対話方法。
  14. 請求項13に記載の音声対話方法において、
    前記聞き落とし可能度が所定の値より大きい場合に、前記結合音声信号の結合部境界に聞き落とし可能度の前記所定の値に正比例する時間長の定常信号あるいは非定常信号あるいは無音信号を挿入すること、を特徴とする音声対話方法。
  15. 少なくとも一つ以上の音声を音声信号として取得し、
    該音声信号に対応する単語列情報の理解結果を取得し、
    出力音声を少なくとも二つ以上生成し、
    前記理解結果に基づき、前記複数の出力対象音声信号を選択し、該出力対象音声信号を連結させた結合音声信号を応答音声信号として生成し、
    前記結合音声信号を出力する、
    音声対話方法であって、
    前記結合音声信号を構成している前記生成された各音声信号間の声質の乖離に基づく聞き落とし可能性の程度を示す聞き落とし可能度を検出し、該聞き落とし可能度が所定の値以下となるように前記生成された各音声信号間の声質の乖離が少なくなるように前記生成された結合音声信号を調整するようになっており、
    前記結合音声信号に含まれる複数の出力対象音声信号の声質の乖離を、音声信号の音響的特徴の乖離として検出し、且つ該乖離が大きい場合には、聞き落とし可能度が大きいと判断し、
    該聞き落とし可能度が所定の値より大きい場合に、該聞き落とし可能度が所定の値よりも小さくなるように、複数の出力音声信号における基本周波数或いは音声エネルギーの少なくともいずれかを加工することを特徴とする音声対話方法。
  16. 少なくとも一つ以上の音声を音声信号として取得し、
    該音声信号に対応する単語列情報の理解結果を取得し、
    出力音声を少なくとも二つ以上生成し、
    前記理解結果に基づき、前記複数の出力対象音声信号を選択し、該出力対象音声信号を連結させた結合音声信号を応答音声信号として生成し、
    前記結合音声信号を出力する、
    音声対話方法であって、
    前記結合音声信号を構成している前記生成された各音声信号間の声質の乖離に基づく聞き落とし可能性の程度を示す聞き落とし可能度を検出し、該聞き落とし可能度が所定の値以下となるように前記生成された各音声信号間の声質の乖離が少なくなるように前記生成された結合音声信号を調整するようになっており、
    前記結合音声信号に含まれる複数の出力対象音声信号における声質の乖離を、発話速度の乖離として検出し、且つ該乖離が大きい場合に、聞き落とし可能度が大きいと判断し、
    該聞き落とし可能度が所定の値より大きい場合に、該聞き落とし可能度が所定の値より小さくなるように、複数の出力音声信号のうちの少なくとも一つについて、発話速度を調整することを特徴とする音声対話方法。
  17. 請求項10乃至請求項16のいずれかに記載の音声対話方法において、
    合成音声信号あるいは予め録音された音声信号であるシステム音声信号を生成し、ユーザが発話した音声の少なくとも一部をユーザ音声信号として抽出し、且つ前記システム音声信号と前記ユーザ音声信号とを結合した前記結合音声信号を応答音声信号として生成すること、を特徴とする音声対話方法。
  18. 請求項10乃至請求項17のいずれかに記載の音声対話方法において、
    前記音声信号に対応する単語列を認識し、該単語列に含まれる単語毎の認識信頼度を付与して前記理解結果として出力し、
    前記音声信号の理解結果に基づき前記信頼度が高い認識単語については前記システム音声信号を選択し、前記信頼度が低い認識単語については前記ユーザ音声信号を選択し、該システム音声信号と該ユーザ音声信号とを組み合わせた前記結合音声信号を生成すること、を特徴とする音声対話方法。
JP2006004761A 2006-01-12 2006-01-12 音声対話装置および音声対話方法 Expired - Fee Related JP4752516B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006004761A JP4752516B2 (ja) 2006-01-12 2006-01-12 音声対話装置および音声対話方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006004761A JP4752516B2 (ja) 2006-01-12 2006-01-12 音声対話装置および音声対話方法

Publications (2)

Publication Number Publication Date
JP2007187799A JP2007187799A (ja) 2007-07-26
JP4752516B2 true JP4752516B2 (ja) 2011-08-17

Family

ID=38343024

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006004761A Expired - Fee Related JP4752516B2 (ja) 2006-01-12 2006-01-12 音声対話装置および音声対話方法

Country Status (1)

Country Link
JP (1) JP4752516B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5218971B2 (ja) * 2008-07-31 2013-06-26 株式会社日立製作所 音声メッセージ作成装置及び方法
JP4992925B2 (ja) * 2009-03-23 2012-08-08 トヨタ自動車株式会社 音声対話装置及びプログラム
JP5532880B2 (ja) * 2009-12-07 2014-06-25 ヤマハ株式会社 音声認識装置
JP2014010420A (ja) * 2012-07-03 2014-01-20 Seiko Epson Corp 集積回路装置
JP6384681B2 (ja) * 2014-03-07 2018-09-05 パナソニックIpマネジメント株式会社 音声対話装置、音声対話システムおよび音声対話方法
KR20200111853A (ko) * 2019-03-19 2020-10-05 삼성전자주식회사 전자 장치 및 전자 장치의 음성 인식 제어 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02109100A (ja) * 1988-10-19 1990-04-20 Fujitsu Ltd 音声入力装置
JP3089715B2 (ja) * 1991-07-24 2000-09-18 松下電器産業株式会社 音声合成装置
JP3518898B2 (ja) * 1994-09-06 2004-04-12 富士通テン株式会社 音声合成装置
JP2002297179A (ja) * 2001-03-29 2002-10-11 Fujitsu Ltd 自動応答対話システム

Also Published As

Publication number Publication date
JP2007187799A (ja) 2007-07-26

Similar Documents

Publication Publication Date Title
US7974392B2 (en) System and method for personalized text-to-voice synthesis
US7627471B2 (en) Providing translations encoded within embedded digital information
US8768701B2 (en) Prosodic mimic method and apparatus
US8645131B2 (en) Detecting segments of speech from an audio stream
JP4752516B2 (ja) 音声対話装置および音声対話方法
WO2013182118A1 (zh) 一种语音数据的传输方法及装置
EP1703492A1 (en) System and method for personalised text-to-voice synthesis
JP2009003040A (ja) 音声対話装置、音声対話方法及びロボット装置
US20160210982A1 (en) Method and Apparatus to Enhance Speech Understanding
JP2012163692A (ja) 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
JP2019215449A (ja) 会話補助装置、会話補助方法及びプログラム
JP6599828B2 (ja) 音処理方法、音処理装置、及びプログラム
JP2005070430A (ja) 音声出力装置および方法
JP2015215503A (ja) 音声認識方法、音声認識装置および音声認識プログラム
KR102088216B1 (ko) 자동 통역 시스템에서 크로스토크를 감소시키는 방법 및 장치
JP2001056696A (ja) 音声蓄積再生方法および音声蓄積再生装置
US11610596B2 (en) Adjustment method of sound output and electronic device performing the same
US11563708B1 (en) Message grouping
JP2005338454A (ja) 音声対話装置
JP3219892B2 (ja) リアルタイム話速変換装置
JP6044490B2 (ja) 情報処理装置、話速データ生成方法、及びプログラム
JP4979336B2 (ja) 音声出力装置
JP2007086592A (ja) 音声出力装置および音声出力方法
TWI824424B (zh) 語意評估之助聽調整裝置及其方法
JP2015007683A (ja) 音声処理器具、音声処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081126

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20101001

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101026

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101221

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110426

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110509

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140603

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees