JP2008116643A - 音声生成装置 - Google Patents

音声生成装置 Download PDF

Info

Publication number
JP2008116643A
JP2008116643A JP2006299101A JP2006299101A JP2008116643A JP 2008116643 A JP2008116643 A JP 2008116643A JP 2006299101 A JP2006299101 A JP 2006299101A JP 2006299101 A JP2006299101 A JP 2006299101A JP 2008116643 A JP2008116643 A JP 2008116643A
Authority
JP
Japan
Prior art keywords
unit
sentence
voice
utterance
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006299101A
Other languages
English (en)
Other versions
JP4953767B2 (ja
Inventor
Toru Marumoto
徹 丸本
Yohei Yabuta
洋平 薮田
Nozomi Saito
望 齊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2006299101A priority Critical patent/JP4953767B2/ja
Publication of JP2008116643A publication Critical patent/JP2008116643A/ja
Application granted granted Critical
Publication of JP4953767B2 publication Critical patent/JP4953767B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

【課題】周囲騒音の大きさに応じた出力音声のゲインの調整を、出力音声が不自然に聴者に聞こえないように行う「音声生成装置」を提供する。
【解決手段】発話単位分割部13は、出力文を発話単位に分割し、出力音声データ形成部14に、各発話単位の音声を表す音声データを音声データ再生部17に格納させる。補正タイミング制御部23は、順次、補正適用部22へ補正適用指示を発行し、発話単位音声出力指示を音声データ再生部17に指示し、音声データ再生部17からの音声出力終了の報告を待つ処理を繰り返す。音声データ再生部17は、発話単位音声出力指示を受け取ると、格納している各発話単位の音声を表す音声データから音声信号を再生し出力し、音声出力終了を報告する。補正適用部22は、補正適用指示に従って、アンプ18における音声信号のゲインを、その時点の周囲騒音のパワーに応じて設定する。
【選択図】図1

Description

本発明は、主として、周囲騒音に応じて出力音声のゲインを調整する音声生成装置に関するものである。
従来より、音声を生成し、生成した音声をスピーカから出力する音声生成装置において、出力音声の明瞭度を保つために、周囲騒音の大きさに応じて、出力音声のゲインを調整する技術が知られている(たとえば、特許文献1)。
特開平11-166835号公報
出力音声が案内音声などの意味のある文や文章を表す音声である場合、周囲騒音の大きさに応じた出力音声のゲインの調整によって、たとえば、文節の途中や単語の途中などの文章途中の任意の位置で、出力音声の大きさが変化してしまうことがある。そして、このように、文節の途中や単語の途中などで、出力音声の大きさが変化すると、聴者にとって出力音声が、人間が話す音声とは異質な不自然なものとして聞こえてしまうことになる。
そこで、本発明は、周囲騒音の大きさに応じた出力音声のゲインの調整を、出力音声が不自然に聴者に聞こえないように行うことを課題とする。
前記課題達成のために、本発明は、音声を表す音声信号を生成し出力する音声生成装置を、指定された文または文章を読み上げた音声を表す音声信号を生成する出力音声生成部と、前記出力音声生成部が生成した音声信号のゲインを調整するゲイン調整部と、前記ゲイン調整部がゲインを調整した音声信号を出力するスピーカと、前記ゲイン調整部における前記ゲインの調整の調整量を、周囲騒音の大きさに応じた値に更新する調整量更新部と、前記文または文章を、当該文または文章の構成に基づいて、人間が区切りを置かずに連続的に話すと推定される単位である発話単位に分割する発話単位分割部と、前記発話単位分割部が分割した発話単位に基づいて、前記出力音声生成部が生成した音声信号が表す音声によって読み上げられる発話単位が切り替わるタイミングにおいて、前記調整量更新部に、前記調整量の更新を行わせる調整タイミング制御部とを含めて構成したものである。
このように、本音声生成装置では、スピーカから出力する音声信号の周囲騒音に応じたゲインの調整量の切替が、発話単位の区切りにおいてのみ行われるようにすることにより、スピーカから出力する音声の大きさの変化が人間の発声としての観点から見て不自然な時点において発生することを抑止することができる。よって、このような音声生成装置によれば、スピーカら出力する音声信号の周囲騒音の大きさに応じたゲインの調整を、当該音声信号が聴者に不自然に聞こえないように行うことができるようになる。
なお、このような音声生成装置は、前記発話単位分割部において、文と文の間を前記発話単位の区切りとして、前記文章を分割するように構成してもよいし、前記発話単位分割部において、文節と文節の間を前記発話単位の区切りとして、前記文または文章を分割するように構成してもよいし、前記発話単位分割部において、読点または発声されない記号文字を前記発話単位の区切りとして、前記文または文章を分割するように構成してもよいし、前記発話単位分割部において、読点または発声されない記号文字で区切られる所定文字数以上の文字列の間を前記発話単位の区切りとして、前記文または文章を分割するように構成してもよい。
また、以上のような音声生成装置は、より具体的には、前記出力音声生成部において、前記発話単位分割部が分割した発話単位毎に、順次、当該発話単位を読み上げた音声を表す音声信号を生成する処理を行い、前記調整タイミング制御部において、前記出力音声生成部が、前記発話単位を読み上げた音声を表す音声信号を生成する処理を完了する度に、前記調整量更新部に、前記調整量の更新を行わせるように構成することができる。または、以上のような音声生成装置は、より具体的には、前記調整タイミング制御部において、前記発話単位分割部が分割した各発話単位の文字数またはモーラ数から、前記出力音声生成部が生成した音声信号が表す音声によって読み上げられる発話単位が切り替わる可能性のある期間を算定し、算定した期間内に、前記出力音声生成部が生成した音声信号が無音を表すものとなったときに、前記調整量更新部に、前記調整量の更新を行わせるように構成することもできる。
なお、以上の音声生成装置において、前記調整量更新部は、前記スピーカから出力される音声信号が表す音声が所定の明瞭度をもって聴者に聞こえるように、前記ゲイン調整部における前記ゲインの調整の調整量を、周囲騒音の大きさと前記出力音声生成部が生成した音声信号の大きさとに応じた値に更新するものであってもよい。また、前記ゲイン調整部を、前記出力音声生成部が生成した音声信号のゲインを周波数帯域毎に調整するものとし、前記調整量更新部において、前記ゲイン調整部における前記ゲインの調整の調整量を、周囲騒音の各周波数帯域の大きさに応じて、周波数帯域毎に更新するようにしてもよい。
また、以上の音声生成装置は、周囲騒音のパワーを算出する周囲騒音パワー算出部を設け、前記調整量更新部において、前記調整量の更新を行う際に、前記ゲインの調整の調整量を、当該時点において前記周囲騒音パワー算出部が算出しているパワーの大きさに応じた値に更新するようにしてもよい。または、周囲騒音のパワーを算出する周囲騒音パワー算出部を設け、前記調整量更新部において、前記調整量の更新を行う際に、前記ゲインの調整の調整量を、前記生成した音声信号が発話単位を読み上げる音声であった直前の期間中に、前記周囲騒音パワー算出部が算出したパワーの大きさの平均値に応じた値に更新するようにしてもよい。
なお、以上のような音声生成装置は、たとえば、カーナビゲーション装置の案内音声の出力などの用途に用いることができる。すなわち、この場合には、たとえば、以上の音声生成装置と、当該音声生成装置に、経路を案内する文または文章を指定することにより、経路を案内する音声を出力する経路案内部とを含めてカーナビゲーション装置を構成すればよい。
以上のように、本発明によれば、周囲騒音の大きさに応じた出力音声のゲインの調整を、出力音声が不自然に聴者に聞こえないように行うことができる。
以下、本発明の実施形態を説明する。
まず、第1の実施形態について説明する。
図1に本第1実施形態に係る音声生成装置の構成を示す。
図示した音声生成装置1は、たとえば音声生成装置1を利用して案内音声を出力するカーナビゲーション装置などである情報処理装置2から指定された漢字仮名交じり文を読み上げた音声を生成し、スピーカ3に出力する装置である。また、音声生成装置は、マイクロフォン4を用いて周囲騒音の大きさを検出し、検出した周囲騒音の大きさに応じて、スピーカ3に出力する音声の音量を調整する。
さて、このような音声生成装置1は、図示するように、出力文受付部11、仮名変換部12、発話単位分割部13、出力音声データ形成部14、音素波形データベース15、音声合成部16、音声データ再生部17、アンプ18、騒音パワー推定部19、音声パワー推定部20、補正量算出部21、補正適用部22、補正タイミング制御部23とを備えている。
このような構成において、出力文受付部11は、情報処理装置2から、漢字仮名交じりの文または文章を出力文として受け付ける。なお、この受け付けは、情報処理装置2から出力文を表すテキストデータの入力を受け付けることにより行うものであってもよいし、出力文受付部11に予め記憶しておいた複数の漢字仮名交じりの文または文章のうちからの出力文とする文や文章の指定を、情報処理装置2から受け付けることにより行うものであってもよい。
次に、仮名変換部12は、出力文受付部11が受け付けた出力文を仮名文に変換する。すなわち、たとえば、出力文が、
「次の、交差点を、左折です。」との漢字仮名混じり文であれば、
「つぎの、こうさてんを、させつです。」との仮名文に変換する。
次に、発話単位分割部13は、当該仮名文の構成に基づいて、仮名変換部12が変換した仮名文を発話単位毎に分割する。発話単位とは、通常の人間が区切りを置かずに連続的に話す単位であり、句点で示される文の区切りを発話単位の区切りとしたり、文節を発話単位とすることにより仮名文を分割したり、句点や読点や「?」、「!」などの記号文字を発話単位の区切りとして仮名文を分割したりすることができる。なお、文は、辞書と照合した時に、文法的に正しいと考えられる長さがもっとも長くなる文節の区切り方が、正しい文節の区切り方とするn文節最長一致法などによって、文節に区切ることができる。
または、発話単位分割部13における仮名変換部12が変換した仮名文の発話単位への分割は、句点を発話単位の区切りとすると共に、所定文字数以上の長さの読点や「?」、「!」などの記号文字で区切られる文字列を、発話単位として仮名文を分割することにより行うようにしてもよい。
すなわち、たとえば、所定文字数を5文字とすれば、仮名文
「つぎの、こうさてんを、させつです。」は、
「つぎの、こうさてんを、」と「させつです。」との二つの発話単位に分割することができる。なお、この際の文字数は、句読点や発音されない記号文字は含めずに計数してもよい。
さて、発話単位分割部13は、このようにして、仮名文を、発話単位に分割したならば、各発話単位の音声データの形成を出力音声データ形成部14に指示する。すなわち、「つぎの、こうさてんを、」と「させつです。」との二つの発話単位に仮名文を分割した場合には、「つぎの、こうさてんを、」の音声データの形成と、「させつです。」の音声データの形成を出力音声データ形成部14に指示する。
また、発話単位分割部13は、仮名変換部12から入力する仮名文を発話単位に分割したならば、出力文の発生と、当該出力文を分割した発話単位の数を補正タイミング制御部23に通知する。すなわち、仮名変換部12から入力する仮名文「つぎの、こうさてんを、させつです。」を、「つぎの、こうさてんを、」と「させつです。」との二つの発話単位に分割した場合には、出力文の発生と共に、発話単位数2を補正タイミング制御部23に通知する。
さて、音声データの形成を指示された出力音声データ形成部14は、音声データの形成を指示された発話単位毎に、音素波形データベース15に格納された、各々音声の最小の単位である各音素の波形を表す音素波形データを組み合わせて発話単位を読み上げた音声を表す音声データを形成し、音声データ再生部17に格納する処理を行う。または、音声データの形成を指示された出力音声データ形成部14は、音声データの形成を指示された発話単位毎に、音声合成部16に、発話単位を読み上げた音声を表す合成音声の音声データを生成させ、生成させた音声データを音声データ再生部17に格納する処理を行う。
この結果、出力音声データ形成部14が、「つぎの、こうさてんを、」と「させつです。」との二つの発話単位についての音声データの形成を生成された場合には、「つぎの、こうさてんを、」を読み上げた音声を表す音声データと、「させつです。」を読み上げた音声を表す音声データとが、各々一つの発話単位の音声データとして音声データ再生部17に格納される。
次に、音声データ再生部17は、補正タイミング制御部23から発行される発話単位音声出力指示を受け取る度に、格納している一つの発話単位の音声データを音声信号に再生してアンプ18に出力し、出力を完了しだい補正タイミング制御部23に音声出力終了を報告する処理を行う。一方、アンプ18は音声データ再生部17から入力する音声信号のゲインを、補正適用部22によって設定されている補正値で調整しスピーカ3にする。
一方、騒音パワー推定部19は、マイクロフォン4から入力する周囲騒音を表す音声信号のパワーからユーザに聞こえる周囲騒音のパワーを推定する処理を繰り返し行い、音声パワー推定部20は、音声データ再生部17が再生出力した音声信号のパワーから、ユーザに聞こえる、スピーカ3から出力した音声のパワーを推定する処理を繰り返し行う。
また、補正量算出部21は、騒音パワー推定部19が推定したユーザに聞こえる周囲騒音のパワーと、音声パワー推定部20が推定したユーザに聞こえるスピーカ3から出力した音声のパワーとに基づいて、スピーカ3から出力した音声のユーザに聞こえる明瞭度を所定レベルに保つために、スピーカ3に出力する音声信号に対してアンプ18で施すべきゲイン調整の調整量を補正値として算出する処理を繰り返し行う。
また、補正適用部22は、補正タイミング制御部23から発行された補正適用指示に応じて、その時点で補正量算出部21が算出している補正値を、アンプ18に設定する。
そして、補正タイミング制御部23は、以下の補正タイミング制御処理を行って、上述した音声データ再生部17への発話単位音声出力指示の発行と、補正適用部22への補正適用指示の発行を行う。
図2に、この補正タイミング制御部23が行う補正タイミング制御処理の手順を示す。
図示するように、この処理では、まず、発話単位分割部13から出力文の発生の通知を待ち(ステップ202)、出力文の発生が通知されたならば、当該通知と共に発話単位分割部13から通知された発話単位数をnとし(ステップ204)、1からnまでの各iについて(ステップ212、214)、順次、以下の処理を行う。
すなわち、まず、補正適用部22へ補正適用指示を発行し(ステップ206)、発話単位音声出力指示を音声データ再生部17に指示する(ステップ208)。そして、音声データ再生部17からの音声出力終了の報告を待ち(ステップ210)、音声出力終了が報告されたならば、このiについての処理を終了する。
そして、nまでのiについて処理を終了したならば、ステップ202に戻って、次の出力文の発生が通知されているかどうかを調べ、通知されていなければ、次の出力文の発生通知を待つ。一方、次の出力文の発生が通知されていれば、ステップ204に進んで、次の出力文についての以上の処理を行う。
さて、以上の処理の結果、「つぎの、こうさてんを、」を読み上げた音声を表す音声データと、「させつです。」を読み上げた音声を表す音声データとが、各々一つの発話単位の音声データとして音声データ再生部17に格納されている場合、まず、アンプ18の補正値が、その時点で補正量算出部21が算出している補正値に更新され、次に、「つぎの、こうさてんを、」を読み上げた音声がスピーカ3から出力される。
そして、アンプ18の補正値が、その時点で補正量算出部21が算出している補正値に更新され、その後に、「させつです。」を読み上げた音声がスピーカ3から出力されることになる。また、引き続き、次の出力文の音声の出力を行う場合には、「させつです。」を読み上げた音声がスピーカ3から出力された後、アンプ18の補正値を、その時点で補正量算出部21が算出している補正値に更新される。そして、次の出力文の音声の出力の処理が開始される。
結果、本実施形態によれば、スピーカ3から出力する音声の周囲騒音に応じたゲインの切替が、通常の人間が区切りを置かずに連続的に話す単位である発話単位の区切りにおいてのみ行われるようにすることができる。そして、これにより、周囲騒音の大きさに応じた出力音声のゲインの調整を、出力音声が不自然に聴者に聞こえないように行うことができるようになる。
以下、本発明の第2の実施形態について説明する。
図3に、本第2実施形態に係る音声生成装置1の構成を示す。
図示するように、本第2実施形態に係る音声生成装置1の構成は、図1に示した第1実施形態に係る音声生成装置1とほぼ同様であり、音素波形データベース15を用いてスピーカ3に出力する音声信号を生成する際の動作は、前記第1実施形態と同様である。
ただし、本第2実施形態に係る音声生成装置1は、音声合成部16の音声合成パラメータを設定する合成パラメータ設定部24を備えており、音声合成部16を用いてスピーカ3に出力する音声信号を生成する際には、補正タイミング制御部23において、合成パラメータ設定部24から音声合成パラメータを取得し、取得した音声合成パラメータと、音声パワー推定部20が推定したパワーとに応じて、補正適用部22に補正適用指示を発行して、アンプ18の補正値を更新するタイミングを決定する。
以下、音声合成部16を用いてスピーカ3に出力する音声信号を生成する際の動作について説明する。
この場合、発話単位分割部13は、仮名変換部12から入力する仮名文を発話単位に分割したならば、発話単位と発話単位の間の各区切りについて、発話単位区切期間変数を算定する。ただし、発話単位分割部13は、最後の発話単位の終端も、発話単位の区切りと見なして、発話単位区切期間変数を算定する。
ここで、発話単位区切期間は、発話単位と発話単位の区切りに隣接する、発音されない句読点や記号文字に対応する期間を、音声合成部16の音声合成パラメータを用いて表したものである。すなわち、発音されない句読点や記号文字を無音文字として、ある無音文字に対応する期間を表す発話単位区切期間変数は、仮名文中の当該無音文字が属する文の先頭から、当該無音文字までの間にある無音文字以外の文字の文字数をn、当該無音文字が出力文に表れるm番目の無音文字であるとして、無音文字以外の文字に対応して音声合成部16が生成する音声データが表す音声区間の平均時間長をA、当該平均時間長Aの標準偏差をa、無音文字に対応して音声合成部16が生成する音声データが表す無音区間の平均時間長をB、当該平均時間長Bの標準偏差をbとして、
{nA+(m-1)B}-{na+(m-1)b}から{nA+mB}+{na+mb}として求められる。
したがって、発話単位分割部13で、「つぎの、こうさてんを、」と「させつです。」との二つの発話単位を求めた場合には、この二つの発話単位の間の区切りに対する発話単位区切期間変数は、「つぎの、こうさてんを、」の最後の「、」に対して、{9A+1B}-{9a+1b}から{9A+2B}+{9a+2b}と求められる。また、最後の発話単位「させつです。」終端の区切りに対する発話単位区切期間変数は、「させつです。」の最後の「。」に対して、{14A+2B}-{14a+2b}から{14A+3B}+{14a+3b}と求められる。
ただし、この発話単位区切期間変数は、無音文字以外の文字に代えて、モーラ:拍を用いて算出するようにしてもよい。このようにすることにより、上述の発話単位区切期間変数の算出式において、「しゃ」などの1拍で読み上げられる文字列部分を1文字と見なして発話単位区切期間変数を求めることができるようになる。
すなわち、この場合には、ある無音文字に対応する期間を表す発話単位区切期間変数は、仮名文中の当該無音文字が属する文の先頭から、当該無音文字までの間にあるモーラの数をn、当該無音文字が出力文に表れるm番目の無音文字であるとして、1モーラに対応して音声合成部16が生成する音声データが表す音声区間の平均時間長をA、当該平均時間長Aの標準偏差をa、無音文字に対応して音声合成部16が生成する音声データが表す無音区間の平均時間長をB、当該平均時間長Bの標準偏差をbとして、
{nA+(m-1)B}-{na+(m-1)b}から{nA+mB}+{na+mb}として求めるようにする。
さて、発話単位分割部13は、このようにして発話単位区切期間変数を求めたならば、仮名変換部12から入力した仮名文の音声合成部16を用いた音声データの形成を出力音声データ形成部14に指示する。すなわち、「つぎの、こうさてんを、させつです。」との仮名文が入力されている場合には、「つぎの、こうさてんを、させつです。」の音声データの形成を出力音声データ形成部14に指示する。また、この際に、発話単位分割部13は、出力文の発生と、出力文に対して上述のように算出した各発話単位区切期間変数を、発話単位区切期間変数を求めた発話単位の区切数と、何番目の発話単位の区切りが文の末尾に対応するものであるかを示す文区切情報と共に補正タイミング制御部23に通知する。
さて、音声データの形成を指示された出力音声データ形成部14は、音声合成部16に、音声データの形成を指示された仮名文を読み上げた音声を表す合成音声の音声データを生成させ、生成させた音声データを音声データ再生部17に格納する。
次に、音声データ再生部17は、補正タイミング制御部23から発行される出力文音声出力指示を受け取ったならば、格納している音声データを音声信号に再生してアンプ18に出力し、出力を完了しだい補正タイミング制御部23に音声出力終了を報告する処理を行う。一方、アンプ18は音声データ再生部17から入力する音声信号のゲインを、補正適用部22によって設定されている補正値で調整しスピーカ3にする。
そして、補正適用部22は、補正タイミング制御部23から発行された補正適用指示に応えて、その時点で補正量算出部21が算出している補正値を、アンプ18に設定する。
そして、補正タイミング制御部23は、図4に示す補正タイミング制御処理を行って、上述した音声データ再生部17への出力文音声出力指示の発行と、補正適用部22への補正適用指示の発行を行う。
すなわち、補正タイミング制御部23は、まず、発話単位分割部13から出力文の発生の通知を待ち(ステップ402)、出力文の発生が通知されたならば、当該通知と共に発話単位分割部13から通知された発話単位区切数をnとし(ステップ404)、補正適用部22に補正適用指示を発行し(ステップ406)、音声データ再生部17へ出力文音声出力指示を発行し(ステップ408)、時刻0より計時を開始する(ステップ410)。
そして、1からn-1までの各iについて(ステップ416、424)、順次、以下の処理を行う。
すなわち、まず、計時時刻がi番目の発話単位区切期間内となるのを待つ(ステップ412)。ここで、i番目の発話単位区切期間は、発話単位分割部13から通知されているi番目の発話単位区切期間変数に、合成パラメータ設定部24から上述の音声合成パラメータA、B、a、bを取得し代入することにより求まる。
そして、計時時刻がi番目の発話単位区切期間内となったらば、音声パワー推定部20が推定したパワーが、所定期間無音を表す音声信号の最大値を表すしきい値未満Thとなるのを待つことにより、音声データ再生部17から出力されている音声信号が無音区間の音声信号となるのを待ち(ステップ414)、無音区間の音声信号となったならば、補正適用部22へ補正適用指示を発行する(ステップ418)。そして、発話単位分割部13より通知されている文区切情報より、i番目の発話単位の区切が、文の末尾に対応する発話単位の区切りであるかどうかを調べ(ステップ420)、そうであれば、計時を時刻0よりやり直しさせ(ステップ422)、このiについての処理を終了する。一方、i番目の発話単位の区切が、文の末尾に対応する発話単位の区切りでなければ、そのまま、このiについての処理を終了する。
そして、n-1までのiについて以上の処理を終了したならば、計時時刻がn番目の発話単位区切期間内となるのを待ち(ステップ412)、計時時刻がn番目の発話単位区切期間内となったならば、音声パワー推定部20が推定したパワーが所定期間しきい値未満Thとなるのを待つことにより、音声データ再生部17から出力されている音声信号が無音区間の音声信号となるのを待つ(ステップ414)。
そして、無音区間の音声信号となったならば、ステップ402に戻って、次の出力文の発生が通知されているかどうかを調べ、通知されていなければ、次の出力文の発生通知を待つ。一方、次の出力文の発生が通知されていれば、ステップ404に進んで、次の出力文についての以上の処理を行う。
以上、本発明の第2の実施形態について説明した。
このような第2実施形態によっても、音声合成部16を用いてスピーカ3から出力する音声信号を生成する場合に、前記第1実施形態と同様に、スピーカ3から出力する音声の周囲騒音に応じたゲインの切替が、発話単位の区切りにおいてのみ行われるようにすることができる。
ところで、以上各実施形態で示したスピーカ3から出力する音声の周囲騒音に応じたゲインの切替を、発話単位の区切りにおいてのみ行う技術は、TVやラジオや電話などの音声を出力する任意の音声ソース機器の出力音声をスピーカ3に出力する場合に、当該出力音声のゲインを周囲騒音に応じて調整する場合に同様に適用することができる。
すなわち、たとえば、図5に示すように、音声ソース機器6のゲインを周囲騒音に応じて調整しスピーカ3に出力する音声補正装置5を、遅延部51、発話単位区切検出部52、遅延部51で音声ソース機器6から入力する音声信号を発話単位区切検出部52における処理時間分遅延させた音声信号のゲインを調整するアンプ18、騒音パワー推定部19、音声パワー推定部20、補正量算出部21、補正適用部22より構成する。なお、騒音パワー推定部19、音声パワー推定部20、補正量算出部21、補正適用部22は、第1実施形態で示したものと同様の部位である。
そして、音声ソース機器6から入力する音声信号中の発話単位の区切りを発話単位区切検出部52で検出すると共に、発話単位の区切りを検出したならば、補正適用部22に補正適用指示を発行する。そして、補正適用指示を発行された補正適用部22において、その時点で、補正量算出部21が、音声パワー推定部20と騒音パワー推定部19が推定したパワーに基づいて算出した補正値に、アンプ18に設定する補正値を更新するようにする。
ここで、発話単位区切検出部52は、音声ソース機器6から入力する音声信号中の発話単位の区切りを次のように検出する。
すなわち、発話単位区切検出部52は、音声ソース機器6から入力する音声信号が表す音声に対して音声認識処理を施して、当該音声が表す文章または文に変換する。そして、当該文章または文を、前記第1実施形態で示したように発話単位に分割する。そして、各発話単位と発話単位の間に対応する無音区間の音声信号を遅延部51が出力している期間に、補正適用部22に補正適用指示を発行する。
または、発話単位区切検出部52は、音声ソース機器6から入力する音声信号中に、所定時間長以上の無音区間が発生した場合に、これを発話単位の区切りとして検出し、当該無音区間の音声信号を遅延部51が出力信号が出力している期間に、補正適用部22に補正適用指示を発行するようにしてもよい。
以上、本発明の実施形態について説明した。
なお、以上の各実施形態では、スピーカ3から出力する音声の周囲騒音に応じたゲインの切替が、発話単位の区切りにおいてのみ行われるようにするために、アンプ18に対する補正適用部22の補正値の設定を発話単位の区切りにおいてのみ行うようにしたが、これに代えて、騒音パワー推定部19の周囲騒音のパワーの推定を、発話単位の区切りにおいてのみ行わせるようにしても同様の効果を達成することができる。
また、以上の各実施形態における、騒音パワー推定部19における周囲騒音のパワーの推定は、マイクロフォン4に入力するスピーカ出力音声のエコー成分を考慮して行うようにしてもよい。なお、このエコー成分は、エコー経路の伝達関数と、スピーカ3から出力する音声信号に基づいて求めることにより推定することができ、この伝達関数は、マイクロフォン4が出力する音声信号のパワーから、スピーカ3から出力する音声信号に伝達関数を施した音声信号のパワーを差し引いた信号のパワーを最小とする伝達関数として求めることができる。
また、以上の各実施形態における、アンプ18におけるスピーカ3に出力する音声信号のゲイン調整は、周波数帯域毎に行うようにしてもよい。なお、この場合には、騒音パワー推定部19と音声パワー推定部20において各々パワーの推定を周波数帯域毎に行うと共に、補正量算出部21において補正値を周波数帯域毎に算出し、補正適用部22において、周波数帯域毎の補正値をアンプ18に設定するようにする。
また、以上の各実施形態では、発話単位の区切りにおいてのみ行う、スピーカ3から出力する音声の周囲騒音に応じたゲインの切替を、その時点において補正量算出部21が算出している補正値をアンプ18に設定することにより行ったが、これは当該区切りの直前の発話単位の音声を表す音声信号が出力されている期間中の、各時点において騒音パワー推定部19が推定したパワーの平均値を、当該時点における周囲騒音のパワーとして、補正量算出部21が算出した補正値をアンプ18に設定することにより行うようにしてもよい。または、当該期間中の各時点において、補正量算出部21が当該時点で騒音パワー推定部19が推定したパワーに基づいて算出した補正値の平均値をアンプ18に設定することにより行ってもよい。
また、以上の実施形態におけるスピーカ3から出力する音声の周囲騒音に応じたゲインの切替を発話単位の区切りにおいてのみ行う技術は、日本語以外の言語、たとえば、英語の出力文を音声出力するような場合にも、当該言語に応じた発話単位の分割を行うことにより同様に適用することができる。
本発明の第1実施形態に係る音声生成装置の構成を示すブロック図である。 本発明の第1実施形態に係る補正タイミング制御処理を示すフローチャートである。 本発明の第2実施形態に係る音声生成装置の構成を示すブロック図である。 本発明の第2実施形態に係る補正タイミング制御処理を示すフローチャートである。 本発明の実施形態に係る音声補正装置の構成を示すブロック図である。
符号の説明
1…音声生成装置、2…情報処理装置、3…スピーカ、4…マイクロフォン、5…音声補正装置、6…音声ソース機器、11…出力文受付部、12…仮名変換部、13…発話単位分割部、14…出力音声データ形成部、15…音素波形データベース、16…音声合成部、17…音声データ再生部、18…アンプ、19…騒音パワー推定部、20…音声パワー推定部、21…補正量算出部、22…補正適用部、23…補正タイミング制御部、24…合成パラメータ設定部、51…遅延部、52…発話単位区切検出部。

Claims (20)

  1. 音声を表す音声信号を生成し出力する音声生成装置であって、
    指定された文または文章を読み上げた音声を表す音声信号を生成する出力音声生成部と、
    前記出力音声生成部が生成した音声信号のゲインを調整するゲイン調整部と、
    前記ゲイン調整部がゲインを調整した音声信号を出力するスピーカと、
    前記ゲイン調整部における前記ゲインの調整の調整量を、周囲騒音の大きさに応じた値に更新する調整量更新部と、
    前記文または文章を、当該文または文章の構成に基づいて、人間が区切りを置かずに連続的に話すと推定される単位である発話単位に分割する発話単位分割部と、
    前記発話単位分割部が分割した発話単位に基づいて、前記出力音声生成部が生成した音声信号が表す音声によって読み上げられる発話単位が切り替わるタイミングにおいて、前記調整量更新部に、前記調整量の更新を行わせる調整タイミング制御部とを有することを特徴とする音声生成装置。
  2. 請求項1記載の音声生成装置であって、
    前記出力音声生成部は指定された文章を読み上げた音声を表す音声信号を生成し、
    前記発話単位分割部は、文と文の間を前記発話単位の区切りとして、前記文章を分割することを特徴とする音声生成装置。
  3. 請求項1記載の音声生成装置であって、
    前記発話単位分割部は、文節と文節の間を前記発話単位の区切りとして、前記文または文章を分割することを特徴とする音声生成装置。
  4. 請求項1記載の音声生成装置であって、
    前記発話単位分割部は、読点または発声されない記号文字を前記発話単位の区切りとして、前記文または文章を分割することを特徴とする音声生成装置。
  5. 請求項1記載の音声生成装置であって、
    前記発話単位分割部は、読点または発声されない記号文字で区切られる所定文字数以上の文字列の間を前記発話単位の区切りとして、前記文または文章を分割することを特徴とする音声生成装置。
  6. 請求項1記載の音声生成装置であって、
    前記出力音声生成部は、前記発話単位分割部が分割した発話単位毎に、順次、当該発話単位を読み上げた音声を表す音声信号を生成する処理を行い、
    前記調整タイミング制御部は、前記出力音声生成部が、前記発話単位を読み上げた音声を表す音声信号を生成する処理を完了する度に、前記調整量更新部に、前記調整量の更新を行わせることを特徴とする音声生成装置。
  7. 請求項1記載の音声生成装置であって、
    前記調整タイミング制御部は、前記発話単位分割部が分割した各発話単位の文字数またはモーラ数から、前記出力音声生成部が生成した音声信号が表す音声によって読み上げられる発話単位が切り替わる可能性のある期間を算定し、算定した期間内に、前記出力音声生成部が生成した音声信号が無音を表すものとなったときに、前記調整量更新部に、前記調整量の更新を行わせることを特徴とする音声生成装置。
  8. 請求項1記載の音声生成装置であって、
    前記調整量更新部は、前記スピーカから出力される音声信号が表す音声が所定の明瞭度をもって聴者に聞こえるように、前記ゲイン調整部における前記ゲインの調整の調整量を、周囲騒音の大きさと前記出力音声生成部が生成した音声信号の大きさとに応じた値に更新することを特徴とする音声生成装置。
  9. 請求項1記載の音声生成装置であって、
    前記ゲイン調整部は、前記出力音声生成部が生成した音声信号のゲインを周波数帯域毎に調整し、
    前記調整量更新部は、前記ゲイン調整部における前記ゲインの調整の調整量を、周囲騒音の各周波数帯域の大きさに応じて、周波数帯域毎に更新することを特徴とする音声生成装置。
  10. 請求項1記載の音声生成装置であって、
    周囲騒音のパワーを算出する周囲騒音パワー算出部を備え、
    前記調整量更新部は、前記調整量の更新を行う際に、前記ゲインの調整の調整量を、当該時点において前記周囲騒音パワー算出部が算出しているパワーの大きさに応じた値に更新することを特徴とする音声生成装置。
  11. 請求項1記載の音声生成装置であって、
    周囲騒音のパワーを算出する周囲騒音パワー算出部を備え、
    前記調整量更新部は、前記調整量の更新を行う際に、前記ゲインの調整の調整量を、前記生成した音声信号が発話単位を読み上げる音声であった直前の期間中に、前記周囲騒音パワー算出部が算出したパワーの大きさの平均値に応じた値に更新することを特徴とする音声生成装置。
  12. 請求項1記載の音声生成装置と、当該音声生成装置に、経路を案内する文または文章を指定することにより、経路を案内する音声を出力する経路案内部とを備えたことを特徴とするカーナビゲーション装置。
  13. 指定された文または文章を読み上げた音声を表す音声信号を生成し、生成した音声信号のゲインを調整し、スピーカから出力する音声生成装置において、前記音声信号のゲインの調整量を制御するゲイン調整量制御方法であって、
    前記指定された文または文章を、当該文または文章の構成に基づいて、人間が区切りを置かずに連続的に話すと推定される単位である発話単位に分割する発話単位分割ステップと、
    前記発話単位分割ステップで分割した発話単位に基づいて、前記生成した音声信号が表す音声によって読み上げられる発話単位が切り替わるタイミングにおいて、前記ゲインの調整量を、周囲騒音の大きさに応じた値に更新する調整量更新ステップとを有することを特徴とする音声生成装置におけるゲイン制御方法。
  14. 請求項13記載の音声生成装置におけるゲイン制御方法であって、
    前記音声生成装置は、指定された文章を読み上げた音声を表す音声信号を生成するものであり、
    前記発話単位分割ステップは、文と文の間を前記発話単位の区切りとして、前記文章を分割するものであることを特徴とする音声生成装置におけるゲイン制御方法。
  15. 請求項13記載の音声生成装置におけるゲイン制御方法であって、
    前記発話単位分割ステップにおいて、文節と文節の間を前記発話単位の区切りとして、前記文または文章を分割することを特徴とする音声生成装置におけるゲイン制御方法。
  16. 請求項13記載の音声生成装置におけるゲイン制御方法であって、
    前記発話単位分割ステップにおいて、読点または発声されない記号文字を前記発話単位の区切りとして、前記文または文章を分割することを特徴とする音声生成装置におけるゲイン制御方法。
  17. 請求項13記載の音声生成装置におけるゲイン制御方法であって、
    前記発話単位分割ステップにおいて、読点または発声されない記号文字で区切られる所定文字数以上の文字列の間を前記発話単位の区切りとして、前記文または文章を分割することを特徴とする音音声生成装置におけるゲイン制御方法。
  18. 請求項13記載の音声生成装置におけるゲイン制御方法であって、
    前記調整量更新ステップにおいて、前記スピーカから出力される音声信号が表す音声が所定の明瞭度をもって聴者に聞こえるように、周囲騒音の大きさと前記生成した音声信号の大きさとに応じた値に、前記ゲインの調整量を更新することを特徴とする音声生成装置におけるゲイン制御方法。
  19. 請求項13記載の音声生成装置におけるゲイン制御方法であって、
    当該音声生成装置における前記生成した音声信号のゲインの調整は、周波数帯域毎に行われるものであり、
    前記調整量更新ステップは、各周波数帯域の前記ゲインの調整量を、前記周囲騒音の各周波数帯域の大きさに応じて更新するものであることを特徴とする音声生成装置におけるゲイン制御方法。
  20. 音声信号のゲインを調整し、スピーカから出力する音声生成装置において、前記音声信号のゲインの調整量を制御するゲイン調整量制御方法であって、
    人間が区切りを置かずに連続的に話すと推定される単位を発話単位として、前記生成した音声信号が表す音声によって読み上げられる発話単位が切り替わるタイミングを検出するステップと、
    前記検出したタイミングにおいて、前記ゲインの調整量を、周囲騒音の大きさに応じた値に更新するステップとを有することを特徴とする音声生成装置におけるゲイン制御方法。
JP2006299101A 2006-11-02 2006-11-02 音声生成装置 Expired - Fee Related JP4953767B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006299101A JP4953767B2 (ja) 2006-11-02 2006-11-02 音声生成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006299101A JP4953767B2 (ja) 2006-11-02 2006-11-02 音声生成装置

Publications (2)

Publication Number Publication Date
JP2008116643A true JP2008116643A (ja) 2008-05-22
JP4953767B2 JP4953767B2 (ja) 2012-06-13

Family

ID=39502630

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006299101A Expired - Fee Related JP4953767B2 (ja) 2006-11-02 2006-11-02 音声生成装置

Country Status (1)

Country Link
JP (1) JP4953767B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010102223A (ja) * 2008-10-27 2010-05-06 Alpine Electronics Inc 音声明瞭度改善方法および音声明瞭度改善システム
JP2014078863A (ja) * 2012-10-11 2014-05-01 Iwate Prefectural Univ 音響コードの符号化・復号化装置および音響コードの符号化・復号化方法
JP2017003774A (ja) * 2015-06-10 2017-01-05 富士通株式会社 音声生成装置、音声生成方法、及びプログラム
JP2018194832A (ja) * 2017-05-12 2018-12-06 ネイバー コーポレーションNAVER Corporation 受信した音声入力の入力音量に基づいて出力される音の出力音量を調節するユーザ命令処理方法およびシステム
WO2023191290A1 (ko) * 2022-03-30 2023-10-05 삼성전자 주식회사 음성 안내 기능을 갖는 전자 장치 및 전자 장치에 의한 음성 안내 방법

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08317497A (ja) * 1995-05-17 1996-11-29 Kiyoshi Kawachi 音声案内装置
JPH0968997A (ja) * 1995-08-30 1997-03-11 Sony Corp 音声処理方法及び装置
JPH11126091A (ja) * 1997-10-22 1999-05-11 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声言語処理単位変換装置
JPH11166835A (ja) * 1997-12-03 1999-06-22 Alpine Electron Inc ナビゲーション音声補正装置
JP2003263190A (ja) * 2002-03-07 2003-09-19 Fujitsu Ltd 音声自動質問応答装置
JP2005027273A (ja) * 2003-06-12 2005-01-27 Alpine Electronics Inc 音声補正装置
JP2005196134A (ja) * 2003-12-12 2005-07-21 Toyota Central Res & Dev Lab Inc 音声対話システム及び方法並びに音声対話プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08317497A (ja) * 1995-05-17 1996-11-29 Kiyoshi Kawachi 音声案内装置
JPH0968997A (ja) * 1995-08-30 1997-03-11 Sony Corp 音声処理方法及び装置
JPH11126091A (ja) * 1997-10-22 1999-05-11 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声言語処理単位変換装置
JPH11166835A (ja) * 1997-12-03 1999-06-22 Alpine Electron Inc ナビゲーション音声補正装置
JP2003263190A (ja) * 2002-03-07 2003-09-19 Fujitsu Ltd 音声自動質問応答装置
JP2005027273A (ja) * 2003-06-12 2005-01-27 Alpine Electronics Inc 音声補正装置
JP2005196134A (ja) * 2003-12-12 2005-07-21 Toyota Central Res & Dev Lab Inc 音声対話システム及び方法並びに音声対話プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010102223A (ja) * 2008-10-27 2010-05-06 Alpine Electronics Inc 音声明瞭度改善方法および音声明瞭度改善システム
JP2014078863A (ja) * 2012-10-11 2014-05-01 Iwate Prefectural Univ 音響コードの符号化・復号化装置および音響コードの符号化・復号化方法
JP2017003774A (ja) * 2015-06-10 2017-01-05 富士通株式会社 音声生成装置、音声生成方法、及びプログラム
JP2018194832A (ja) * 2017-05-12 2018-12-06 ネイバー コーポレーションNAVER Corporation 受信した音声入力の入力音量に基づいて出力される音の出力音量を調節するユーザ命令処理方法およびシステム
WO2023191290A1 (ko) * 2022-03-30 2023-10-05 삼성전자 주식회사 음성 안내 기능을 갖는 전자 장치 및 전자 장치에 의한 음성 안내 방법

Also Published As

Publication number Publication date
JP4953767B2 (ja) 2012-06-13

Similar Documents

Publication Publication Date Title
JP5029167B2 (ja) 音声読み上げのための装置、プログラム及び方法
US10176797B2 (en) Voice synthesis method, voice synthesis device, medium for storing voice synthesis program
JP5029168B2 (ja) 音声読み上げのための装置、プログラム及び方法
US20090006098A1 (en) Text-to-speech apparatus
US20180130462A1 (en) Voice interaction method and voice interaction device
JP6111802B2 (ja) 音声対話装置及び対話制御方法
JP4953767B2 (ja) 音声生成装置
JPH0632020B2 (ja) 音声合成方法および装置
JP2019008120A (ja) 声質変換システム、声質変換方法、及び声質変換プログラム
JP2005070430A (ja) 音声出力装置および方法
JP2014062970A (ja) 音声合成方法、装置、及びプログラム
JP6314879B2 (ja) 音読評価装置、音読評価方法、及びプログラム
JP4744338B2 (ja) 合成音声生成装置
JPH05257490A (ja) 話速変換方法および装置
JP3685648B2 (ja) 音声合成方法及び音声合成装置、並びに音声合成装置を備えた電話機
JP4979336B2 (ja) 音声出力装置
JP5518621B2 (ja) 音声合成装置およびコンピュータプログラム
JP2008116826A (ja) 休止時間長算出装置及びそのプログラム、並びに音声合成装置
JPH0580791A (ja) 音声規則合成装置および方法
JP4313724B2 (ja) 音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体
JP2015049311A (ja) 情報処理装置、話速データ生成方法、及びプログラム
JP2936773B2 (ja) 継続時間長決定方法
JP2006017819A (ja) 音声合成方法、音声合成プログラム及び音声合成装置
JP2015049309A (ja) 情報処理装置、話速データ生成方法、及びプログラム
JPH056191A (ja) 音声合成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110830

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120313

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120313

R150 Certificate of patent or registration of utility model

Ref document number: 4953767

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150323

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees