JP2008116643A

JP2008116643A - 音声生成装置

Info

Publication number: JP2008116643A
Application number: JP2006299101A
Authority: JP
Inventors: Toru Marumoto; 徹丸本; Yohei Yabuta; 洋平薮田; Nozomi Saito; 望齊藤
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2006-11-02
Filing date: 2006-11-02
Publication date: 2008-05-22
Anticipated expiration: 2026-11-02
Also published as: JP4953767B2

Abstract

【課題】周囲騒音の大きさに応じた出力音声のゲインの調整を、出力音声が不自然に聴者に聞こえないように行う「音声生成装置」を提供する。
【解決手段】発話単位分割部１３は、出力文を発話単位に分割し、出力音声データ形成部１４に、各発話単位の音声を表す音声データを音声データ再生部１７に格納させる。補正タイミング制御部２３は、順次、補正適用部２２へ補正適用指示を発行し、発話単位音声出力指示を音声データ再生部１７に指示し、音声データ再生部１７からの音声出力終了の報告を待つ処理を繰り返す。音声データ再生部１７は、発話単位音声出力指示を受け取ると、格納している各発話単位の音声を表す音声データから音声信号を再生し出力し、音声出力終了を報告する。補正適用部２２は、補正適用指示に従って、アンプ１８における音声信号のゲインを、その時点の周囲騒音のパワーに応じて設定する。
【選択図】図１

Description

本発明は、主として、周囲騒音に応じて出力音声のゲインを調整する音声生成装置に関するものである。

従来より、音声を生成し、生成した音声をスピーカから出力する音声生成装置において、出力音声の明瞭度を保つために、周囲騒音の大きさに応じて、出力音声のゲインを調整する技術が知られている（たとえば、特許文献１）。
特開平11-166835号公報

出力音声が案内音声などの意味のある文や文章を表す音声である場合、周囲騒音の大きさに応じた出力音声のゲインの調整によって、たとえば、文節の途中や単語の途中などの文章途中の任意の位置で、出力音声の大きさが変化してしまうことがある。そして、このように、文節の途中や単語の途中などで、出力音声の大きさが変化すると、聴者にとって出力音声が、人間が話す音声とは異質な不自然なものとして聞こえてしまうことになる。

そこで、本発明は、周囲騒音の大きさに応じた出力音声のゲインの調整を、出力音声が不自然に聴者に聞こえないように行うことを課題とする。

前記課題達成のために、本発明は、音声を表す音声信号を生成し出力する音声生成装置を、指定された文または文章を読み上げた音声を表す音声信号を生成する出力音声生成部と、前記出力音声生成部が生成した音声信号のゲインを調整するゲイン調整部と、前記ゲイン調整部がゲインを調整した音声信号を出力するスピーカと、前記ゲイン調整部における前記ゲインの調整の調整量を、周囲騒音の大きさに応じた値に更新する調整量更新部と、前記文または文章を、当該文または文章の構成に基づいて、人間が区切りを置かずに連続的に話すと推定される単位である発話単位に分割する発話単位分割部と、前記発話単位分割部が分割した発話単位に基づいて、前記出力音声生成部が生成した音声信号が表す音声によって読み上げられる発話単位が切り替わるタイミングにおいて、前記調整量更新部に、前記調整量の更新を行わせる調整タイミング制御部とを含めて構成したものである。

このように、本音声生成装置では、スピーカから出力する音声信号の周囲騒音に応じたゲインの調整量の切替が、発話単位の区切りにおいてのみ行われるようにすることにより、スピーカから出力する音声の大きさの変化が人間の発声としての観点から見て不自然な時点において発生することを抑止することができる。よって、このような音声生成装置によれば、スピーカら出力する音声信号の周囲騒音の大きさに応じたゲインの調整を、当該音声信号が聴者に不自然に聞こえないように行うことができるようになる。

なお、このような音声生成装置は、前記発話単位分割部において、文と文の間を前記発話単位の区切りとして、前記文章を分割するように構成してもよいし、前記発話単位分割部において、文節と文節の間を前記発話単位の区切りとして、前記文または文章を分割するように構成してもよいし、前記発話単位分割部において、読点または発声されない記号文字を前記発話単位の区切りとして、前記文または文章を分割するように構成してもよいし、前記発話単位分割部において、読点または発声されない記号文字で区切られる所定文字数以上の文字列の間を前記発話単位の区切りとして、前記文または文章を分割するように構成してもよい。

また、以上のような音声生成装置は、より具体的には、前記出力音声生成部において、前記発話単位分割部が分割した発話単位毎に、順次、当該発話単位を読み上げた音声を表す音声信号を生成する処理を行い、前記調整タイミング制御部において、前記出力音声生成部が、前記発話単位を読み上げた音声を表す音声信号を生成する処理を完了する度に、前記調整量更新部に、前記調整量の更新を行わせるように構成することができる。または、以上のような音声生成装置は、より具体的には、前記調整タイミング制御部において、前記発話単位分割部が分割した各発話単位の文字数またはモーラ数から、前記出力音声生成部が生成した音声信号が表す音声によって読み上げられる発話単位が切り替わる可能性のある期間を算定し、算定した期間内に、前記出力音声生成部が生成した音声信号が無音を表すものとなったときに、前記調整量更新部に、前記調整量の更新を行わせるように構成することもできる。

なお、以上の音声生成装置において、前記調整量更新部は、前記スピーカから出力される音声信号が表す音声が所定の明瞭度をもって聴者に聞こえるように、前記ゲイン調整部における前記ゲインの調整の調整量を、周囲騒音の大きさと前記出力音声生成部が生成した音声信号の大きさとに応じた値に更新するものであってもよい。また、前記ゲイン調整部を、前記出力音声生成部が生成した音声信号のゲインを周波数帯域毎に調整するものとし、前記調整量更新部において、前記ゲイン調整部における前記ゲインの調整の調整量を、周囲騒音の各周波数帯域の大きさに応じて、周波数帯域毎に更新するようにしてもよい。

また、以上の音声生成装置は、周囲騒音のパワーを算出する周囲騒音パワー算出部を設け、前記調整量更新部において、前記調整量の更新を行う際に、前記ゲインの調整の調整量を、当該時点において前記周囲騒音パワー算出部が算出しているパワーの大きさに応じた値に更新するようにしてもよい。または、周囲騒音のパワーを算出する周囲騒音パワー算出部を設け、前記調整量更新部において、前記調整量の更新を行う際に、前記ゲインの調整の調整量を、前記生成した音声信号が発話単位を読み上げる音声であった直前の期間中に、前記周囲騒音パワー算出部が算出したパワーの大きさの平均値に応じた値に更新するようにしてもよい。

なお、以上のような音声生成装置は、たとえば、カーナビゲーション装置の案内音声の出力などの用途に用いることができる。すなわち、この場合には、たとえば、以上の音声生成装置と、当該音声生成装置に、経路を案内する文または文章を指定することにより、経路を案内する音声を出力する経路案内部とを含めてカーナビゲーション装置を構成すればよい。

以上のように、本発明によれば、周囲騒音の大きさに応じた出力音声のゲインの調整を、出力音声が不自然に聴者に聞こえないように行うことができる。

以下、本発明の実施形態を説明する。
まず、第１の実施形態について説明する。
図１に本第１実施形態に係る音声生成装置の構成を示す。
図示した音声生成装置１は、たとえば音声生成装置１を利用して案内音声を出力するカーナビゲーション装置などである情報処理装置２から指定された漢字仮名交じり文を読み上げた音声を生成し、スピーカ３に出力する装置である。また、音声生成装置は、マイクロフォン４を用いて周囲騒音の大きさを検出し、検出した周囲騒音の大きさに応じて、スピーカ３に出力する音声の音量を調整する。

さて、このような音声生成装置１は、図示するように、出力文受付部１１、仮名変換部１２、発話単位分割部１３、出力音声データ形成部１４、音素波形データベース１５、音声合成部１６、音声データ再生部１７、アンプ１８、騒音パワー推定部１９、音声パワー推定部２０、補正量算出部２１、補正適用部２２、補正タイミング制御部２３とを備えている。

このような構成において、出力文受付部１１は、情報処理装置２から、漢字仮名交じりの文または文章を出力文として受け付ける。なお、この受け付けは、情報処理装置２から出力文を表すテキストデータの入力を受け付けることにより行うものであってもよいし、出力文受付部１１に予め記憶しておいた複数の漢字仮名交じりの文または文章のうちからの出力文とする文や文章の指定を、情報処理装置２から受け付けることにより行うものであってもよい。

次に、仮名変換部１２は、出力文受付部１１が受け付けた出力文を仮名文に変換する。すなわち、たとえば、出力文が、
「次の、交差点を、左折です。」との漢字仮名混じり文であれば、
「つぎの、こうさてんを、させつです。」との仮名文に変換する。

次に、発話単位分割部１３は、当該仮名文の構成に基づいて、仮名変換部１２が変換した仮名文を発話単位毎に分割する。発話単位とは、通常の人間が区切りを置かずに連続的に話す単位であり、句点で示される文の区切りを発話単位の区切りとしたり、文節を発話単位とすることにより仮名文を分割したり、句点や読点や「?」、「!」などの記号文字を発話単位の区切りとして仮名文を分割したりすることができる。なお、文は、辞書と照合した時に、文法的に正しいと考えられる長さがもっとも長くなる文節の区切り方が、正しい文節の区切り方とするｎ文節最長一致法などによって、文節に区切ることができる。

または、発話単位分割部１３における仮名変換部１２が変換した仮名文の発話単位への分割は、句点を発話単位の区切りとすると共に、所定文字数以上の長さの読点や「?」、「!」などの記号文字で区切られる文字列を、発話単位として仮名文を分割することにより行うようにしてもよい。
すなわち、たとえば、所定文字数を５文字とすれば、仮名文
「つぎの、こうさてんを、させつです。」は、
「つぎの、こうさてんを、」と「させつです。」との二つの発話単位に分割することができる。なお、この際の文字数は、句読点や発音されない記号文字は含めずに計数してもよい。

さて、発話単位分割部１３は、このようにして、仮名文を、発話単位に分割したならば、各発話単位の音声データの形成を出力音声データ形成部１４に指示する。すなわち、「つぎの、こうさてんを、」と「させつです。」との二つの発話単位に仮名文を分割した場合には、「つぎの、こうさてんを、」の音声データの形成と、「させつです。」の音声データの形成を出力音声データ形成部１４に指示する。

また、発話単位分割部１３は、仮名変換部１２から入力する仮名文を発話単位に分割したならば、出力文の発生と、当該出力文を分割した発話単位の数を補正タイミング制御部２３に通知する。すなわち、仮名変換部１２から入力する仮名文「つぎの、こうさてんを、させつです。」を、「つぎの、こうさてんを、」と「させつです。」との二つの発話単位に分割した場合には、出力文の発生と共に、発話単位数２を補正タイミング制御部２３に通知する。

さて、音声データの形成を指示された出力音声データ形成部１４は、音声データの形成を指示された発話単位毎に、音素波形データベース１５に格納された、各々音声の最小の単位である各音素の波形を表す音素波形データを組み合わせて発話単位を読み上げた音声を表す音声データを形成し、音声データ再生部１７に格納する処理を行う。または、音声データの形成を指示された出力音声データ形成部１４は、音声データの形成を指示された発話単位毎に、音声合成部１６に、発話単位を読み上げた音声を表す合成音声の音声データを生成させ、生成させた音声データを音声データ再生部１７に格納する処理を行う。

この結果、出力音声データ形成部１４が、「つぎの、こうさてんを、」と「させつです。」との二つの発話単位についての音声データの形成を生成された場合には、「つぎの、こうさてんを、」を読み上げた音声を表す音声データと、「させつです。」を読み上げた音声を表す音声データとが、各々一つの発話単位の音声データとして音声データ再生部１７に格納される。

次に、音声データ再生部１７は、補正タイミング制御部２３から発行される発話単位音声出力指示を受け取る度に、格納している一つの発話単位の音声データを音声信号に再生してアンプ１８に出力し、出力を完了しだい補正タイミング制御部２３に音声出力終了を報告する処理を行う。一方、アンプ１８は音声データ再生部１７から入力する音声信号のゲインを、補正適用部２２によって設定されている補正値で調整しスピーカ３にする。

一方、騒音パワー推定部１９は、マイクロフォン４から入力する周囲騒音を表す音声信号のパワーからユーザに聞こえる周囲騒音のパワーを推定する処理を繰り返し行い、音声パワー推定部２０は、音声データ再生部１７が再生出力した音声信号のパワーから、ユーザに聞こえる、スピーカ３から出力した音声のパワーを推定する処理を繰り返し行う。

また、補正量算出部２１は、騒音パワー推定部１９が推定したユーザに聞こえる周囲騒音のパワーと、音声パワー推定部２０が推定したユーザに聞こえるスピーカ３から出力した音声のパワーとに基づいて、スピーカ３から出力した音声のユーザに聞こえる明瞭度を所定レベルに保つために、スピーカ３に出力する音声信号に対してアンプ１８で施すべきゲイン調整の調整量を補正値として算出する処理を繰り返し行う。
また、補正適用部２２は、補正タイミング制御部２３から発行された補正適用指示に応じて、その時点で補正量算出部２１が算出している補正値を、アンプ１８に設定する。

そして、補正タイミング制御部２３は、以下の補正タイミング制御処理を行って、上述した音声データ再生部１７への発話単位音声出力指示の発行と、補正適用部２２への補正適用指示の発行を行う。
図２に、この補正タイミング制御部２３が行う補正タイミング制御処理の手順を示す。
図示するように、この処理では、まず、発話単位分割部１３から出力文の発生の通知を待ち（ステップ２０２）、出力文の発生が通知されたならば、当該通知と共に発話単位分割部１３から通知された発話単位数をｎとし（ステップ２０４）、１からｎまでの各ｉについて（ステップ２１２、２１４）、順次、以下の処理を行う。

すなわち、まず、補正適用部２２へ補正適用指示を発行し（ステップ２０６）、発話単位音声出力指示を音声データ再生部１７に指示する（ステップ２０８）。そして、音声データ再生部１７からの音声出力終了の報告を待ち（ステップ２１０）、音声出力終了が報告されたならば、このiについての処理を終了する。
そして、ｎまでのiについて処理を終了したならば、ステップ２０２に戻って、次の出力文の発生が通知されているかどうかを調べ、通知されていなければ、次の出力文の発生通知を待つ。一方、次の出力文の発生が通知されていれば、ステップ２０４に進んで、次の出力文についての以上の処理を行う。

さて、以上の処理の結果、「つぎの、こうさてんを、」を読み上げた音声を表す音声データと、「させつです。」を読み上げた音声を表す音声データとが、各々一つの発話単位の音声データとして音声データ再生部１７に格納されている場合、まず、アンプ１８の補正値が、その時点で補正量算出部２１が算出している補正値に更新され、次に、「つぎの、こうさてんを、」を読み上げた音声がスピーカ３から出力される。

そして、アンプ１８の補正値が、その時点で補正量算出部２１が算出している補正値に更新され、その後に、「させつです。」を読み上げた音声がスピーカ３から出力されることになる。また、引き続き、次の出力文の音声の出力を行う場合には、「させつです。」を読み上げた音声がスピーカ３から出力された後、アンプ１８の補正値を、その時点で補正量算出部２１が算出している補正値に更新される。そして、次の出力文の音声の出力の処理が開始される。

結果、本実施形態によれば、スピーカ３から出力する音声の周囲騒音に応じたゲインの切替が、通常の人間が区切りを置かずに連続的に話す単位である発話単位の区切りにおいてのみ行われるようにすることができる。そして、これにより、周囲騒音の大きさに応じた出力音声のゲインの調整を、出力音声が不自然に聴者に聞こえないように行うことができるようになる。

以下、本発明の第２の実施形態について説明する。
図３に、本第２実施形態に係る音声生成装置１の構成を示す。
図示するように、本第２実施形態に係る音声生成装置１の構成は、図１に示した第１実施形態に係る音声生成装置１とほぼ同様であり、音素波形データベース１５を用いてスピーカ３に出力する音声信号を生成する際の動作は、前記第１実施形態と同様である。
ただし、本第２実施形態に係る音声生成装置１は、音声合成部１６の音声合成パラメータを設定する合成パラメータ設定部２４を備えており、音声合成部１６を用いてスピーカ３に出力する音声信号を生成する際には、補正タイミング制御部２３において、合成パラメータ設定部２４から音声合成パラメータを取得し、取得した音声合成パラメータと、音声パワー推定部２０が推定したパワーとに応じて、補正適用部２２に補正適用指示を発行して、アンプ１８の補正値を更新するタイミングを決定する。

以下、音声合成部１６を用いてスピーカ３に出力する音声信号を生成する際の動作について説明する。
この場合、発話単位分割部１３は、仮名変換部１２から入力する仮名文を発話単位に分割したならば、発話単位と発話単位の間の各区切りについて、発話単位区切期間変数を算定する。ただし、発話単位分割部１３は、最後の発話単位の終端も、発話単位の区切りと見なして、発話単位区切期間変数を算定する。

ここで、発話単位区切期間は、発話単位と発話単位の区切りに隣接する、発音されない句読点や記号文字に対応する期間を、音声合成部１６の音声合成パラメータを用いて表したものである。すなわち、発音されない句読点や記号文字を無音文字として、ある無音文字に対応する期間を表す発話単位区切期間変数は、仮名文中の当該無音文字が属する文の先頭から、当該無音文字までの間にある無音文字以外の文字の文字数をｎ、当該無音文字が出力文に表れるｍ番目の無音文字であるとして、無音文字以外の文字に対応して音声合成部１６が生成する音声データが表す音声区間の平均時間長をＡ、当該平均時間長Ａの標準偏差をａ、無音文字に対応して音声合成部１６が生成する音声データが表す無音区間の平均時間長をＢ、当該平均時間長Ｂの標準偏差をｂとして、
｛ｎＡ+（ｍ-１）Ｂ｝-｛ｎａ+（ｍ-１）ｂ｝から｛ｎＡ+ｍＢ｝+｛ｎａ+ｍｂ｝として求められる。

したがって、発話単位分割部１３で、「つぎの、こうさてんを、」と「させつです。」との二つの発話単位を求めた場合には、この二つの発話単位の間の区切りに対する発話単位区切期間変数は、「つぎの、こうさてんを、」の最後の「、」に対して、｛９Ａ+１Ｂ｝-｛９ａ+１ｂ｝から｛９Ａ+２Ｂ｝+｛９ａ+２ｂ｝と求められる。また、最後の発話単位「させつです。」終端の区切りに対する発話単位区切期間変数は、「させつです。」の最後の「。」に対して、｛１４Ａ+２Ｂ｝-｛１４ａ+２ｂ｝から｛１４Ａ+３Ｂ｝+｛１４ａ+３ｂ｝と求められる。

ただし、この発話単位区切期間変数は、無音文字以外の文字に代えて、モーラ：拍を用いて算出するようにしてもよい。このようにすることにより、上述の発話単位区切期間変数の算出式において、「しゃ」などの１拍で読み上げられる文字列部分を１文字と見なして発話単位区切期間変数を求めることができるようになる。

すなわち、この場合には、ある無音文字に対応する期間を表す発話単位区切期間変数は、仮名文中の当該無音文字が属する文の先頭から、当該無音文字までの間にあるモーラの数をｎ、当該無音文字が出力文に表れるｍ番目の無音文字であるとして、１モーラに対応して音声合成部１６が生成する音声データが表す音声区間の平均時間長をＡ、当該平均時間長Ａの標準偏差をａ、無音文字に対応して音声合成部１６が生成する音声データが表す無音区間の平均時間長をＢ、当該平均時間長Ｂの標準偏差をｂとして、
｛ｎＡ+（ｍ-１）Ｂ｝-｛ｎａ+（ｍ-１）ｂ｝から｛ｎＡ+ｍＢ｝+｛ｎａ+ｍｂ｝として求めるようにする。

さて、発話単位分割部１３は、このようにして発話単位区切期間変数を求めたならば、仮名変換部１２から入力した仮名文の音声合成部１６を用いた音声データの形成を出力音声データ形成部１４に指示する。すなわち、「つぎの、こうさてんを、させつです。」との仮名文が入力されている場合には、「つぎの、こうさてんを、させつです。」の音声データの形成を出力音声データ形成部１４に指示する。また、この際に、発話単位分割部１３は、出力文の発生と、出力文に対して上述のように算出した各発話単位区切期間変数を、発話単位区切期間変数を求めた発話単位の区切数と、何番目の発話単位の区切りが文の末尾に対応するものであるかを示す文区切情報と共に補正タイミング制御部２３に通知する。

さて、音声データの形成を指示された出力音声データ形成部１４は、音声合成部１６に、音声データの形成を指示された仮名文を読み上げた音声を表す合成音声の音声データを生成させ、生成させた音声データを音声データ再生部１７に格納する。
次に、音声データ再生部１７は、補正タイミング制御部２３から発行される出力文音声出力指示を受け取ったならば、格納している音声データを音声信号に再生してアンプ１８に出力し、出力を完了しだい補正タイミング制御部２３に音声出力終了を報告する処理を行う。一方、アンプ１８は音声データ再生部１７から入力する音声信号のゲインを、補正適用部２２によって設定されている補正値で調整しスピーカ３にする。

そして、補正適用部２２は、補正タイミング制御部２３から発行された補正適用指示に応えて、その時点で補正量算出部２１が算出している補正値を、アンプ１８に設定する。
そして、補正タイミング制御部２３は、図４に示す補正タイミング制御処理を行って、上述した音声データ再生部１７への出力文音声出力指示の発行と、補正適用部２２への補正適用指示の発行を行う。
すなわち、補正タイミング制御部２３は、まず、発話単位分割部１３から出力文の発生の通知を待ち（ステップ４０２）、出力文の発生が通知されたならば、当該通知と共に発話単位分割部１３から通知された発話単位区切数をｎとし（ステップ４０４）、補正適用部２２に補正適用指示を発行し（ステップ４０６）、音声データ再生部１７へ出力文音声出力指示を発行し（ステップ４０８）、時刻０より計時を開始する（ステップ４１０）。

そして、１からｎ-１までの各ｉについて（ステップ４１６、４２４）、順次、以下の処理を行う。
すなわち、まず、計時時刻がi番目の発話単位区切期間内となるのを待つ（ステップ４１２）。ここで、i番目の発話単位区切期間は、発話単位分割部１３から通知されているｉ番目の発話単位区切期間変数に、合成パラメータ設定部２４から上述の音声合成パラメータＡ、Ｂ、ａ、ｂを取得し代入することにより求まる。

そして、計時時刻がi番目の発話単位区切期間内となったらば、音声パワー推定部２０が推定したパワーが、所定期間無音を表す音声信号の最大値を表すしきい値未満Ｔｈとなるのを待つことにより、音声データ再生部１７から出力されている音声信号が無音区間の音声信号となるのを待ち（ステップ４１４）、無音区間の音声信号となったならば、補正適用部２２へ補正適用指示を発行する（ステップ４１８）。そして、発話単位分割部１３より通知されている文区切情報より、i番目の発話単位の区切が、文の末尾に対応する発話単位の区切りであるかどうかを調べ（ステップ４２０）、そうであれば、計時を時刻０よりやり直しさせ（ステップ４２２）、このiについての処理を終了する。一方、i番目の発話単位の区切が、文の末尾に対応する発話単位の区切りでなければ、そのまま、このiについての処理を終了する。

そして、ｎ-１までのiについて以上の処理を終了したならば、計時時刻がｎ番目の発話単位区切期間内となるのを待ち（ステップ４１２）、計時時刻がｎ番目の発話単位区切期間内となったならば、音声パワー推定部２０が推定したパワーが所定期間しきい値未満Ｔｈとなるのを待つことにより、音声データ再生部１７から出力されている音声信号が無音区間の音声信号となるのを待つ（ステップ４１４）。

そして、無音区間の音声信号となったならば、ステップ４０２に戻って、次の出力文の発生が通知されているかどうかを調べ、通知されていなければ、次の出力文の発生通知を待つ。一方、次の出力文の発生が通知されていれば、ステップ４０４に進んで、次の出力文についての以上の処理を行う。

以上、本発明の第２の実施形態について説明した。
このような第２実施形態によっても、音声合成部１６を用いてスピーカ３から出力する音声信号を生成する場合に、前記第１実施形態と同様に、スピーカ３から出力する音声の周囲騒音に応じたゲインの切替が、発話単位の区切りにおいてのみ行われるようにすることができる。

ところで、以上各実施形態で示したスピーカ３から出力する音声の周囲騒音に応じたゲインの切替を、発話単位の区切りにおいてのみ行う技術は、ＴＶやラジオや電話などの音声を出力する任意の音声ソース機器の出力音声をスピーカ３に出力する場合に、当該出力音声のゲインを周囲騒音に応じて調整する場合に同様に適用することができる。

すなわち、たとえば、図５に示すように、音声ソース機器６のゲインを周囲騒音に応じて調整しスピーカ３に出力する音声補正装置５を、遅延部５１、発話単位区切検出部５２、遅延部５１で音声ソース機器６から入力する音声信号を発話単位区切検出部５２における処理時間分遅延させた音声信号のゲインを調整するアンプ１８、騒音パワー推定部１９、音声パワー推定部２０、補正量算出部２１、補正適用部２２より構成する。なお、騒音パワー推定部１９、音声パワー推定部２０、補正量算出部２１、補正適用部２２は、第１実施形態で示したものと同様の部位である。

そして、音声ソース機器６から入力する音声信号中の発話単位の区切りを発話単位区切検出部５２で検出すると共に、発話単位の区切りを検出したならば、補正適用部２２に補正適用指示を発行する。そして、補正適用指示を発行された補正適用部２２において、その時点で、補正量算出部２１が、音声パワー推定部２０と騒音パワー推定部１９が推定したパワーに基づいて算出した補正値に、アンプ１８に設定する補正値を更新するようにする。

ここで、発話単位区切検出部５２は、音声ソース機器６から入力する音声信号中の発話単位の区切りを次のように検出する。
すなわち、発話単位区切検出部５２は、音声ソース機器６から入力する音声信号が表す音声に対して音声認識処理を施して、当該音声が表す文章または文に変換する。そして、当該文章または文を、前記第１実施形態で示したように発話単位に分割する。そして、各発話単位と発話単位の間に対応する無音区間の音声信号を遅延部５１が出力している期間に、補正適用部２２に補正適用指示を発行する。

または、発話単位区切検出部５２は、音声ソース機器６から入力する音声信号中に、所定時間長以上の無音区間が発生した場合に、これを発話単位の区切りとして検出し、当該無音区間の音声信号を遅延部５１が出力信号が出力している期間に、補正適用部２２に補正適用指示を発行するようにしてもよい。

以上、本発明の実施形態について説明した。
なお、以上の各実施形態では、スピーカ３から出力する音声の周囲騒音に応じたゲインの切替が、発話単位の区切りにおいてのみ行われるようにするために、アンプ１８に対する補正適用部２２の補正値の設定を発話単位の区切りにおいてのみ行うようにしたが、これに代えて、騒音パワー推定部１９の周囲騒音のパワーの推定を、発話単位の区切りにおいてのみ行わせるようにしても同様の効果を達成することができる。

また、以上の各実施形態における、騒音パワー推定部１９における周囲騒音のパワーの推定は、マイクロフォン４に入力するスピーカ出力音声のエコー成分を考慮して行うようにしてもよい。なお、このエコー成分は、エコー経路の伝達関数と、スピーカ３から出力する音声信号に基づいて求めることにより推定することができ、この伝達関数は、マイクロフォン４が出力する音声信号のパワーから、スピーカ３から出力する音声信号に伝達関数を施した音声信号のパワーを差し引いた信号のパワーを最小とする伝達関数として求めることができる。

また、以上の各実施形態における、アンプ１８におけるスピーカ３に出力する音声信号のゲイン調整は、周波数帯域毎に行うようにしてもよい。なお、この場合には、騒音パワー推定部１９と音声パワー推定部２０において各々パワーの推定を周波数帯域毎に行うと共に、補正量算出部２１において補正値を周波数帯域毎に算出し、補正適用部２２において、周波数帯域毎の補正値をアンプ１８に設定するようにする。

また、以上の各実施形態では、発話単位の区切りにおいてのみ行う、スピーカ３から出力する音声の周囲騒音に応じたゲインの切替を、その時点において補正量算出部２１が算出している補正値をアンプ１８に設定することにより行ったが、これは当該区切りの直前の発話単位の音声を表す音声信号が出力されている期間中の、各時点において騒音パワー推定部１９が推定したパワーの平均値を、当該時点における周囲騒音のパワーとして、補正量算出部２１が算出した補正値をアンプ１８に設定することにより行うようにしてもよい。または、当該期間中の各時点において、補正量算出部２１が当該時点で騒音パワー推定部１９が推定したパワーに基づいて算出した補正値の平均値をアンプ１８に設定することにより行ってもよい。

また、以上の実施形態におけるスピーカ３から出力する音声の周囲騒音に応じたゲインの切替を発話単位の区切りにおいてのみ行う技術は、日本語以外の言語、たとえば、英語の出力文を音声出力するような場合にも、当該言語に応じた発話単位の分割を行うことにより同様に適用することができる。

本発明の第１実施形態に係る音声生成装置の構成を示すブロック図である。本発明の第１実施形態に係る補正タイミング制御処理を示すフローチャートである。本発明の第２実施形態に係る音声生成装置の構成を示すブロック図である。本発明の第２実施形態に係る補正タイミング制御処理を示すフローチャートである。本発明の実施形態に係る音声補正装置の構成を示すブロック図である。

符号の説明

１…音声生成装置、２…情報処理装置、３…スピーカ、４…マイクロフォン、５…音声補正装置、６…音声ソース機器、１１…出力文受付部、１２…仮名変換部、１３…発話単位分割部、１４…出力音声データ形成部、１５…音素波形データベース、１６…音声合成部、１７…音声データ再生部、１８…アンプ、１９…騒音パワー推定部、２０…音声パワー推定部、２１…補正量算出部、２２…補正適用部、２３…補正タイミング制御部、２４…合成パラメータ設定部、５１…遅延部、５２…発話単位区切検出部。

Claims

音声を表す音声信号を生成し出力する音声生成装置であって、
指定された文または文章を読み上げた音声を表す音声信号を生成する出力音声生成部と、
前記出力音声生成部が生成した音声信号のゲインを調整するゲイン調整部と、
前記ゲイン調整部がゲインを調整した音声信号を出力するスピーカと、
前記ゲイン調整部における前記ゲインの調整の調整量を、周囲騒音の大きさに応じた値に更新する調整量更新部と、
前記文または文章を、当該文または文章の構成に基づいて、人間が区切りを置かずに連続的に話すと推定される単位である発話単位に分割する発話単位分割部と、
前記発話単位分割部が分割した発話単位に基づいて、前記出力音声生成部が生成した音声信号が表す音声によって読み上げられる発話単位が切り替わるタイミングにおいて、前記調整量更新部に、前記調整量の更新を行わせる調整タイミング制御部とを有することを特徴とする音声生成装置。
請求項１記載の音声生成装置であって、
前記出力音声生成部は指定された文章を読み上げた音声を表す音声信号を生成し、
前記発話単位分割部は、文と文の間を前記発話単位の区切りとして、前記文章を分割することを特徴とする音声生成装置。
請求項１記載の音声生成装置であって、
前記発話単位分割部は、文節と文節の間を前記発話単位の区切りとして、前記文または文章を分割することを特徴とする音声生成装置。
請求項１記載の音声生成装置であって、
前記発話単位分割部は、読点または発声されない記号文字を前記発話単位の区切りとして、前記文または文章を分割することを特徴とする音声生成装置。
請求項１記載の音声生成装置であって、
前記発話単位分割部は、読点または発声されない記号文字で区切られる所定文字数以上の文字列の間を前記発話単位の区切りとして、前記文または文章を分割することを特徴とする音声生成装置。
請求項１記載の音声生成装置であって、
前記出力音声生成部は、前記発話単位分割部が分割した発話単位毎に、順次、当該発話単位を読み上げた音声を表す音声信号を生成する処理を行い、
前記調整タイミング制御部は、前記出力音声生成部が、前記発話単位を読み上げた音声を表す音声信号を生成する処理を完了する度に、前記調整量更新部に、前記調整量の更新を行わせることを特徴とする音声生成装置。
請求項１記載の音声生成装置であって、
前記調整タイミング制御部は、前記発話単位分割部が分割した各発話単位の文字数またはモーラ数から、前記出力音声生成部が生成した音声信号が表す音声によって読み上げられる発話単位が切り替わる可能性のある期間を算定し、算定した期間内に、前記出力音声生成部が生成した音声信号が無音を表すものとなったときに、前記調整量更新部に、前記調整量の更新を行わせることを特徴とする音声生成装置。
請求項１記載の音声生成装置であって、
前記調整量更新部は、前記スピーカから出力される音声信号が表す音声が所定の明瞭度をもって聴者に聞こえるように、前記ゲイン調整部における前記ゲインの調整の調整量を、周囲騒音の大きさと前記出力音声生成部が生成した音声信号の大きさとに応じた値に更新することを特徴とする音声生成装置。
請求項１記載の音声生成装置であって、
前記ゲイン調整部は、前記出力音声生成部が生成した音声信号のゲインを周波数帯域毎に調整し、
前記調整量更新部は、前記ゲイン調整部における前記ゲインの調整の調整量を、周囲騒音の各周波数帯域の大きさに応じて、周波数帯域毎に更新することを特徴とする音声生成装置。
請求項１記載の音声生成装置であって、
周囲騒音のパワーを算出する周囲騒音パワー算出部を備え、
前記調整量更新部は、前記調整量の更新を行う際に、前記ゲインの調整の調整量を、当該時点において前記周囲騒音パワー算出部が算出しているパワーの大きさに応じた値に更新することを特徴とする音声生成装置。
請求項１記載の音声生成装置であって、
周囲騒音のパワーを算出する周囲騒音パワー算出部を備え、
前記調整量更新部は、前記調整量の更新を行う際に、前記ゲインの調整の調整量を、前記生成した音声信号が発話単位を読み上げる音声であった直前の期間中に、前記周囲騒音パワー算出部が算出したパワーの大きさの平均値に応じた値に更新することを特徴とする音声生成装置。
請求項１記載の音声生成装置と、当該音声生成装置に、経路を案内する文または文章を指定することにより、経路を案内する音声を出力する経路案内部とを備えたことを特徴とするカーナビゲーション装置。
指定された文または文章を読み上げた音声を表す音声信号を生成し、生成した音声信号のゲインを調整し、スピーカから出力する音声生成装置において、前記音声信号のゲインの調整量を制御するゲイン調整量制御方法であって、
前記指定された文または文章を、当該文または文章の構成に基づいて、人間が区切りを置かずに連続的に話すと推定される単位である発話単位に分割する発話単位分割ステップと、
前記発話単位分割ステップで分割した発話単位に基づいて、前記生成した音声信号が表す音声によって読み上げられる発話単位が切り替わるタイミングにおいて、前記ゲインの調整量を、周囲騒音の大きさに応じた値に更新する調整量更新ステップとを有することを特徴とする音声生成装置におけるゲイン制御方法。
請求項１３記載の音声生成装置におけるゲイン制御方法であって、
前記音声生成装置は、指定された文章を読み上げた音声を表す音声信号を生成するものであり、
前記発話単位分割ステップは、文と文の間を前記発話単位の区切りとして、前記文章を分割するものであることを特徴とする音声生成装置におけるゲイン制御方法。
請求項１３記載の音声生成装置におけるゲイン制御方法であって、
前記発話単位分割ステップにおいて、文節と文節の間を前記発話単位の区切りとして、前記文または文章を分割することを特徴とする音声生成装置におけるゲイン制御方法。
請求項１３記載の音声生成装置におけるゲイン制御方法であって、
前記発話単位分割ステップにおいて、読点または発声されない記号文字を前記発話単位の区切りとして、前記文または文章を分割することを特徴とする音声生成装置におけるゲイン制御方法。
請求項１３記載の音声生成装置におけるゲイン制御方法であって、
前記発話単位分割ステップにおいて、読点または発声されない記号文字で区切られる所定文字数以上の文字列の間を前記発話単位の区切りとして、前記文または文章を分割することを特徴とする音音声生成装置におけるゲイン制御方法。
請求項１３記載の音声生成装置におけるゲイン制御方法であって、
前記調整量更新ステップにおいて、前記スピーカから出力される音声信号が表す音声が所定の明瞭度をもって聴者に聞こえるように、周囲騒音の大きさと前記生成した音声信号の大きさとに応じた値に、前記ゲインの調整量を更新することを特徴とする音声生成装置におけるゲイン制御方法。
請求項１３記載の音声生成装置におけるゲイン制御方法であって、
当該音声生成装置における前記生成した音声信号のゲインの調整は、周波数帯域毎に行われるものであり、
前記調整量更新ステップは、各周波数帯域の前記ゲインの調整量を、前記周囲騒音の各周波数帯域の大きさに応じて更新するものであることを特徴とする音声生成装置におけるゲイン制御方法。
音声信号のゲインを調整し、スピーカから出力する音声生成装置において、前記音声信号のゲインの調整量を制御するゲイン調整量制御方法であって、
人間が区切りを置かずに連続的に話すと推定される単位を発話単位として、前記生成した音声信号が表す音声によって読み上げられる発話単位が切り替わるタイミングを検出するステップと、
前記検出したタイミングにおいて、前記ゲインの調整量を、周囲騒音の大きさに応じた値に更新するステップとを有することを特徴とする音声生成装置におけるゲイン制御方法。