JP4979336B2 - 音声出力装置 - Google Patents

音声出力装置 Download PDF

Info

Publication number
JP4979336B2
JP4979336B2 JP2006284791A JP2006284791A JP4979336B2 JP 4979336 B2 JP4979336 B2 JP 4979336B2 JP 2006284791 A JP2006284791 A JP 2006284791A JP 2006284791 A JP2006284791 A JP 2006284791A JP 4979336 B2 JP4979336 B2 JP 4979336B2
Authority
JP
Japan
Prior art keywords
output
unit
noise
voice
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006284791A
Other languages
English (en)
Other versions
JP2008102310A (ja
Inventor
洋平 薮田
徹 丸本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2006284791A priority Critical patent/JP4979336B2/ja
Publication of JP2008102310A publication Critical patent/JP2008102310A/ja
Application granted granted Critical
Publication of JP4979336B2 publication Critical patent/JP4979336B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音声を出力する音声出力装置において、一旦、出力した音声を再出力する技術に関するものである。
音声を出力する音声出力装置において、一旦出力した音声を再出力する技術としては、ユーザのキー操作に応じて、一旦出力した音声を再出力する技術が知られている(たとえば、特許文献1)。
特開2003-177771号公報
さて、たとえば、カーナビゲーション装置において、道案内を行うための音声メッセージを出力中に、大型車とのすれちがいや段差通過や窓の開放や同乗者の会話やトンネルへの進入等の原因により一時的に周囲騒音が大きくなり、ユーザが音声メッセージを聞き取れなくなることがある。
そして、このような場合に、前述した特許文献1の技術を用いて、聞き取れなかった音声メッセージをカーナビゲーション装置に再出力させれば、ユーザは、当該音声メッセージを再度聴いて、その内容を把握することができる。しかし、このためには、ユーザはキー操作という煩雑な操作を行う必要がある。
そこで、本発明は、ユーザの煩雑な操作を必要とすることなしに、より確実に音声が表す内容をユーザに伝えることができる音声出力装置を提供することを課題とする。
前記課題達成のために、本発明は、音声を出力する音声出力装置を、スピーカと、前記スピーカを用いて文または文章を表す音声を出力する音声出力部と、周囲騒音の、前記スピーカから出力される音声の聴き取りの妨げとなる度合いを表す騒音レベルを算定する騒音レベル算定部と、前記音声出力部が前記音声を出力している期間中に、前記騒音レベル算定部が算定している騒音レベルが所定レベル以上大きい所定時間長以上の時間区間である高騒音期間が発生したときに、その後の、前記騒音レベル算定部が算定している騒音レベルが所定値より小さい予め定めた時間長以上の時間区間である低騒音期間の発生時に、前記高騒音期間において出力していた音声を、前記音声出力部に出力させる再出力制御手段とを含めて構成したものである。
このような音声出力装置によれば、音声の出力中に周囲騒音が大きくなった場合には、その後、騒音が小さくなったときに、周囲騒音が大きかった時に出力していた音声を自動的に再出力する。よって、ユーザの煩雑な操作を必要とすることなしに、より確実に音声が表す内容をユーザに伝えることができるようになる。
ここで、このような音声出力装置は、さらに、前記音声出力部が出力する音声が表す文または文章を、当該文または文章を構成する、人間が区切りを置かずに連続的に話すと推定される単位である、または、文節である、または、文である出力単位に分割する出力単位分割部を設け、前記再出力制御手段において、前記音声出力部が前記音声を出力している期間中に前記高騒音期間が発生したときに、前記出力単位分割部が分割した出力単位に基づいて、その後の前記低騒区間の発生時に、前記高騒音期間において出力していた文または文章の、当該高騒音期間において出力していた出力単位以降の部分を表す音声を前記音声出力部に出力させるようにすることも好ましい。
このようにすることにより、音声の再出力が、人間の発話として不自然な箇所、または、意味的に不自然な箇所から行われてしまうことを抑止することができる。また、出力単位を適当に設定することにより、再出力する音声の範囲を、ユーザの音声が表す内容の聴き取りのために必要な最小の範囲に適正化することができるようになる。
また、以上のような音声出力装置に、さらに、聴者が識別しづらい語彙の種別であるとして予め定めた所定種別の語彙である識別非容易語彙を、前記各出力単位が含むかどうかを判定する識別非容易語彙判定手段を備え、前記識別非容易語彙判定手段の判定結果に従って、前記騒音レベル推定手段において、前記音声出力部が、前記識別非容易語彙を含む出力単位を表す音声を出力している場合に、前記識別非容易語彙を含まない出力単位を表す音声を出力している場合に比べ、より大きくなるように前記騒音レベルを推定するようにしてもよい。
このようにすることにより、出力する音声がユーザが識別しづらい語彙を含むために、騒音の音声の聴き取りの妨げとなる度合いが、出力する音声がユーザが識別しづらい語彙を含まない場合に比べて大きくなるときには、音声の再出力をより積極的に行うようにすることができる。そして、これにより、より確実に音声が表す内容をユーザに伝えることができるようになる。
また、以上のような音声出力装置に、さらに、マイクロフォンを設けると共に、前記騒音レベル算定部を、前記マイクロフォンの出力信号に基づいて周囲騒音の周波数帯域のパワーとを推定する騒音パワー推定手段と、前記騒音パワー推定手段が推定した周囲騒音のパワーに基づいて、前記周囲騒音の、前記スピーカから出力される音声の聴き取りの妨げとなる度合いを表す騒音レベルを推定する騒音レベル推定手段とより構成し、前記騒音レベル推定手段において、前記騒音パワー推定手段が推定した周囲騒音の周波数帯域と、前記音声出力部が出力する音声の周波数帯域とが重複する範囲がより大きいほど、より大きくなるように前記騒音レベルを推定するようにしてもよい。
このようにすることにより、音声の周波数帯域と騒音の周波数帯域の重複範囲が大きい場合、すなわち、ユーザの音声の聞き取りを大きく阻害する周波数帯域を持つ騒音が発生している場合に、再出力をより積極的に行うようにすることができる。そして、これにより、より確実に音声が表す内容をユーザに伝えることができるようになる。
また、以上の音声出力装置に、さらに、設定されたゲイン量で、前記音声出力部が出力した音声のゲインを調整するゲイン調整部と、前記スピーカから出力される音声が所定の明瞭度をもって聴者に聞こえるようになる、前記ゲイン調整部におけるゲイン量を、前記騒音レベル算定部が算定した騒音レベルに基づいて算出するゲイン量算出部とを設け、前記再出力制御手段は、前記低騒音期間の発生時に、前記高騒音期間において出力していた音声を、前記音声出力部に出力させる際に、前記ゲイン量算出部が算出しているゲイン量に、前記ゲイン調整部に設定されているゲイン量を更新するようにすることも好ましい。
このようにすることにより、聴者が確実に聞き取れるように、音声の再出力を行うことができるようになる。
また、以上の音声出力装置は、マイクロフォンを設けると共に、前記騒音レベル算定部を、前記マイクロフォンの出力信号に基づいて周囲騒音のパワーを推定する騒音パワー推定手段と、前記音声出力部が出力する音声のパワーを算出する音声パワー算出手段と、前記騒音パワー推定手段が推定した周囲騒音のパワーと、前記音声パワー算出手段が算出した音声のパワーとの関係より、前記周囲騒音の、前記スピーカから出力される音声の聴き取りの妨げとなる度合いを表す騒音レベルを推定する騒音レベル推定手段とより構成してもよい。
なお、以上のような音声出力装置は、たとえば、カーナビゲーション装置の案内音声の出力などの用途に用いることができる。すなわち、この場合には、たとえば、以上の音声出力装置と、当該音声出力装置を用いて、経路を案内する文を表す音声を出力する経路案内部とを備えてカーナビゲーション装置を構成すればよい。
以上のように、本発明によれば、ユーザの煩雑な操作を必要とすることなしに、より確実に音声が表す内容をユーザに伝えることができる。
以下、本発明の実施形態を説明する。
まず、第1の実施形態について説明する。
図1に本第1実施形態に係る音声出力装置の構成を示す。
図示した音声出力装置1は、たとえば音声出力装置1を利用して案内音声を出力するカーナビゲーション装置などである情報処理装置2から指定された、ユーザに対するメッセージを表す出力文を読み上げた音声を生成し、スピーカ3に出力する装置である。また、音声出力装置1は、周囲騒音の大きさを検出するために用いるマイクロフォン4に接続されている。
さて、このような音声出力装置1は、図示するように、出力文受付部11、仮名変換部12、発話単位分割部13、出力音声データ形成部14、音素波形データベース15、音声合成部16、音声データ再生部17、アンプ18、騒音パワー推定部19、音声パワー推定部20、再出力制御部21とを備えている。
そして、このような構成において、出力文受付部11は、情報処理装置2から、漢字仮名交じり文を出力文として受け付ける。なお、この受け付けは、情報処理装置2から出力文を表すテキストデータの入力を受け付けることにより行うものであってもよいし、出力文受付部11に予め記憶しておいた複数の漢字仮名交じり文のうちからの出力文とする漢字仮名交じり文の指定を、情報処理装置2から受け付けることにより行うものであってもよい。
次に、仮名変換部12は、出力文受付部11が受け付けた出力文を仮名文に変換する。すなわち、たとえば、出力文が、
「日本橋の、交差点を、左折です。」との漢字仮名混じり文であれば、
「にほんばしの、しんごうを、させつです。」との仮名文に変換する。
次に、発話単位分割部13は、当該仮名文の構成に基づいて、仮名変換部12が変換した仮名文を発話単位毎に分割する。発話単位とは、通常の人間が区切りを置かずに連続的に話す単位、または、意味を損なわない程度に文を短く区切った単位であり、文節を発話単位として仮名文を分割したり、読点や「?」、「!」などの記号文字を発話単位の区切りとして仮名文を分割したりすることができる。なお、文は、辞書と照合した時に、文法的に正しいと考えられる長さがもっとも長くなる、文節の区切り方が正しい文節の区切り方とするn文節最長一致法などによって、文節に区切ることができる。
または、発話単位分割部13における仮名変換部12が変換した仮名文の発話単位への分割は、所定文字数以上の長さの読点や「?」、「!」などの記号文字で区切られる文字列を、発話単位として仮名文を分割することにより行うようにしてもよい。
すなわち、たとえば、所定文字数を5文字とすれば、仮名文
「にほんばしの、しんごうを、させつです。」は、
「にほんばしの、」と「しんごうを、」と「させつです。」との三つの発話単位に分割することができる。
さて、発話単位分割部13は、このようにして、仮名文を、発話単位に分割したならば、各発話単位の音声データの形成を出力音声データ形成部14に指示する。すなわち、「にほんばしの、」と「しんごうを、」と「させつです。」との三つの発話単位に仮名文を分割した場合には、「にほんばしの、」の音声データの形成と、「しんごうを、」の音声データの形成と、「させつです。」の音声データの形成を出力音声データ形成部14に指示する。
音声データの形成を指示された出力音声データ形成部14は、音声データの形成を指示された発話単位毎に、音素波形データベース15に格納された音素波形を組み合わせて発話単位を読み上げた音声を表す音声データを形成し、音声データ再生部17に格納する処理を行う。または、音声データの形成を指示された出力音声データ形成部14は、音声データの形成を指示された発話単位毎に、音声合成部16に、発話単位を読み上げた音声を表す合成音声の音声データを生成させ、生成させた音声データを音声データ再生部17に格納する処理を行う。
この結果、「にほんばしの、」の音声データの形成と、「しんごうを、」の音声データの形成と、「させつです。」の音声データの形成を指示された場合、出力音声データ形成部14によって「にほんばしの、」を読み上げた音声を表す音声データと、「しんごうを、」を読み上げた音声を表す音声データと、「させつです。」を読み上げた音声を表す音声データとが、各々一つの発話単位の音声データとして音声データ再生部17に格納されることになる。
次に、音声データ再生部17は、出力音声データ形成部14によって各発話単位の音声データが格納されたならば、格納された各発話単位の音声データを順次音声信号に再生してアンプ18に出力する。この結果、出力音声データ形成部14によって「にほんばしの、」を読み上げた音声を表す音声データと、「しんごうを、」を読み上げた音声を表す音声データと、「させつです。」を読み上げた音声を表す音声データとが音声データ再生部17に格納された場合には、「にほんばしの、」を読み上げた音声、「しんごうを、」を読み上げた音声、「させつです。」を読み上げた音声が順にスピーカ3から出力され、ユーザによって、「にほんばしの、しんごうを、させつです。」を読み上げた音声として聴き取られることになる。
また、音声データ再生部17は、出力音声データ形成部14によって発話単位の音声データが格納されたならば、格納された音声データに固有の識別子を発話単位識別子として与える。そして、音声信号の再生中は、再生中であることを示す再生中信号と、現時点において音声信号を再生している音声データの発話単位識別子を再出力制御部21に出力する。また、音声データ再生部17は、出力音声データ形成部14によって格納された各発話単位の音声データを、当該音声データからの音声信号の再生後も、当該音声データの発話単位識別子と対応づけて一定期間格納し続ける。
一方、騒音パワー推定部19は、マイクロフォン4から入力する周囲騒音と、音声信号のパワーとからユーザに聞こえる周囲騒音のパワーを推定する処理を繰り返し行い、音声パワー推定部20は、音声データ再生部17が再生出力した音声信号のパワーとマイクロフォン4から入力する信号とから、ユーザに聞こえる、スピーカ3から出力した音声のパワーを推定する処理を繰り返し行う。
以下、再出力制御部21が行う再出力制御処理について説明する。
図2に示すように、この処理では、音声データ再生部17による音声信号の出力が開始されるのを待ち(ステップ202)、音声信号の出力が開始されたならば、音声パワー推定部20から当該時点で推定されている音声信号のパワーをSPとして取得し、騒音パワー推定部19から当該時点で推定されている周囲騒音のパワーをNPとして取得する(ステップ204)。なお、ステップ202における、音声信号の出力の有無は、音声データ再生部17から出力される再生中の信号に基づいて判定することができる。
次に、取得した音声信号パワーSPと騒音パワーNPの差分であるSP-NPを、実効音声レベルとして算定し、実効音声レベルSP-NPが、予め定めたしきい値Th1未満であるかどうかを調べ(ステップ206)、実効音声レベルSP-NPがしきい値Th1以上大きければ、そのままステップ202からの処理に戻る。ここで、しきい値Th1の値は、実効音声レベルSP-NPが、それよりも小さくなると、ユーザがスピーカ3から出力される音声を良好に聞き取れなくなる値を設定する。なお、このしきい値Th1の値は、予め設けたいくつかの値のうちから、ユーザが適宜選択して設定できるように構成してもよい。
なお、以下では、便宜上、音声データ再生部17が音声信号を出力している期間中の実効音声レベルSP-NPがしきい値Th1未満となる時間区間を高騒音区間と、音声データ再生部17が音声信号を出力している期間中の実効音声レベルSP-NPがしきい値Th1以上となる時間区間を低騒音区間と呼ぶ。
さて、実効音声レベルSP-NPが、予め定めたしきい値Th1未満である場合には(ステップ206)、現在時刻を高騒音区間開始時刻として記憶する(ステップ208)。また、音声データ再生部17から再出力制御部21に出力される、当該音声データ再生部17が現時点において音声信号を再生している音声データの発話単位識別子を再出力開始発話単位識別子として記憶し(ステップ210)、所定のタイムアウト時間を有する高騒音区間タイマをスタートする(ステップ212)。
そして、以降、音声パワー推定部20から音声信号パワーSPと騒音のパワーNPを繰り返し取得しながら(ステップ216)、音声データ再生部17が音声信号の出力中でなくなるか(ステップ214)、実効音声レベルSP-NPがしきい値Th1以上となるか(ステップ218)、高騒音区間タイマがタイムアウトする(ステップ220)のを待つ。
そして、高騒音区間タイマがタイムアウトする(ステップ220)前に、音声データ再生部17が音声信号の出力中でなくなるか(ステップ214)、実効音声レベルSP-NPがしきい値Th1以上となった(ステップ218)ならば、高騒音区間タイマをリセットすると共に(ステップ236)、高騒音区間開始時刻と再出力開始発話単位識別子をリセットし(ステップ238)、ステップ202からの処理に戻る。
一方、音声データ再生部17が音声信号の出力中でなくなるか(ステップ214)、実効音声レベルSP-NPがしきい値Th1以上となる(ステップ218)前に、高騒音区間タイマがタイムアウトしたならば(ステップ220)、所定のタイムアウト時間を有する低騒音区間タイマをスタートする(ステップ222)。
さて、低騒音区間タイマをスタートした(ステップ222)ならば、以降、音声パワー推定部20から音声信号パワーSPと騒音のパワーNPを繰り返し取得しながら(ステップ226)、高騒音区間開始時刻から所定期間T経過するか(ステップ224)、実効音声レベルSP-NPがしきい値Th2以下となるか(ステップ228)、低騒音区間タイマがタイムアウトする(ステップ230)のを待つ。ここで、しきい値Th2の値は、実効音声レベルSP-NPが、それよりも大きければ、ユーザがスピーカ3から出力される音声を確実に聞き取れる値を設定する。ただし、Th2はTh1と同じ値を用いても良い。また、Th2も、Th1同様にユーザが適宜設定できるようにしてもよい。
そして、高騒音区間開始時刻から所定期間T経過するか(ステップ224)、実効音声レベルSP-NPがしきい値Th2以下となる(ステップ228)前に、低騒音区間タイマのタイムアウトが発生したならば(ステップ230)、再出力開始発話単位識別子を再出力を行う先頭の発話単位の発話単位識別として指定した再出力指示を音声データ再生部17に発行する(ステップ232)。そして、高騒音区間開始時刻と再出力開始発話単位識別子をリセットし(ステップ234)、ステップ202からの処理に戻る。
一方、低騒音区間タイマのタイムアウトが発生する前に(ステップ230)、高騒音区間開始時刻から所定期間T経過した場合には(ステップ224)、高騒音区間開始時刻と再出力開始発話単位識別子をリセットし(ステップ234)、ステップ202からの処理に戻る。また、低騒音区間タイマのタイムアウトと(ステップ230)、高騒音区間開始時刻からの所定期間T経過(ステップ224)前に、実効音声レベルSP-NPがしきい値Th2以下となった(ステップ228)場合には、低騒音区間タイマをリセットし(ステップ240)、以降、音声パワー推定部20から音声信号パワーSPと騒音のパワーNPを繰り返し取得しながら(ステップ244)、高騒音区間開始時刻から所定期間T経過するか(ステップ242)、実効音声レベルSP-NPがしきい値Th2より大きくなる(ステップ246)のを待つ。
そして、実効音声レベルSP-NPがしきい値Th2より大きくなる(ステップ246)前に、高騒音区間開始時刻から所定期間T経過したならば(ステップ242)、高騒音区間開始時刻と再出力開始発話単位識別子をリセットし(ステップ234)、ステップ202からの処理に戻る。また、高騒音区間開始時刻から所定期間T経過する前に(ステップ242)、実効音声レベルSP-NPがしきい値Th2より大きくなったならば(ステップ246)、低騒音区間タイマをスタートさせるステップ222以降の処理を行う。
さて、ここで、以上の処理によれば、高騒音区間タイマのタイムアウトは、音声データ再生部17の音声信号出力期間中に、高騒音区間タイマのタイムアウト時間以上時間的に長い高騒音区間が発生したときに発生することになる。そして、ステップ230の低騒音区間タイマのタイムアウトは、音声データ再生部17の音声信号出力期間中に高騒音区間タイマのタイムアウト時間以上時間的に長い高騒音区間が発生した後に、低騒音区間タイマのタイムアウト時間以上時間的に長い低騒音区間が発生したときに発生することになる。
また、ステップ232で発行される再出力制御部21から再出力指示を受け取った音声データ再生部17は、現在行っている音声データの音声信号への再生を取り止め、格納している音声データの内の、再出力指示で指定された発話単位識別子に対応する発話単位の音声データより、順次、それ以降に格納された各発話単位の音声データを音声信号に再生してアンプ18に出力する処理を行う。
したがって、以上の再生出力制御処理によれば、音声データ再生部17の音声信号出力期間中に、所定期間以上長い高騒音区間が発生した後に、所定期間以上長い低騒音区間が発生したときに、自動的に、所定期間以上長い高騒音区間が開始した際に出力していた発話単位以降の発話単位の音声信号が再度、再生され出力されることになる。ただし、高騒音区間の発生から次の低騒音区間発生までに、所定時間長Tより長い時間が経過してしまった場合、すなわち、大きな騒音が長期間に渡って継続した場合には、もはや出力文の内容をユーザに伝える意味が無くなってしまっている可能性が大きいので、このような場合については、ステップ224、242の高騒音区間開示時刻から現在時刻までの経過時間を判定するステップによって、低騒音区間発生時に、高騒音区間が開始した際に出力していた発話単位以降の発話単位の音声信号の出力は行わないよう制御される。
以上、再出力制御処理について説明した。
ここで、図3にこのような再出力制御処理の処理例を示す。
いま、再出力制御処理を行わなかった場合、図3aのように、音声データ再生部17によって「にほんばしの、」と「しんごうを、」と「させつです。」との発話単位1から発話単位3の3つの発話単位を読み上げた音声が出力される場合を考える。
このような場合において、図3bに示すように、発話単位2の「しんごうを、」を読み上げた音声を出力しているときに、周囲騒音の騒音パワーが大きくなる高騒音区間がある程度の時間以上発生すると、ユーザが、この「しんごうを、」を読み上げた音声部分を聞き取れなくなってしまう。
一方、再出力制御処理によれば、発話単位2の「しんごうを、」を読み上げた音声を読み上げているときに、一時的に周囲騒音の騒音パワーが大きくなると、高騒音区間の開始が検出され、その時点で再生出力されている発話単位2を再出力開始発話単位(再出力開始発話単位識別子で示される発話単位)に設定し、高騒音区間タイマをスタートする。そして、高騒音区間タイマのタイムアウトTOUT1によって、この高騒音区間の長さが所定時間長以上であることが確認されたならば、周囲騒音が小さい低騒音区間の発生を待って、低騒音区間タイマをスタートする。そして、低騒音区間タイマのタイムアウトTOUT2によって、この低騒音区間が所定時間長以上継続していることが確認できたならば、再出力指示を発行することにより、現在行っている音声データの再生出力を取り止めて、先に設定した再出力開始発話単位を発話単位識別子として持つ発話単位以降の各発話単位を読み上げた音声の出力を行う。
この結果、図3cに示すように、音声データ再生部17が「にほんばしの、」と「しんごうを、」と「させつです。」との発話単位1から発話単位3の3つの発話単位を読み上げた音声を出力している途中の、発話単位2の「しんごうを、」を読み上げた音声を出力しているときに所定時間長以上の高騒音区間が発生すると、その後の、周囲騒音が小さい低騒音区間が所定時間長継続したときに、その時点で行っている音声データの再生出力が取り止められ、発話単位2の「しんごうを、」以降の発話単位、すなわち、「しんごうを、」と「させつです。」との発話単位2から発話単位3の2つの発話単位を読み上げた音声が出力される。
したがって、ユーザは、この再出力指示に従って音声データ再生部17が騒音が小さい期間中に再生出力する音声信号より、騒音が大きい期間中に出力されていた「しんごうを、」を読み上げた音声部分についても支障なく聞き取り認知することができるようになる。
以上、本発明の実施形態について説明した。
なお、以上の実施形態の図2に示した再出力制御処理において、ステップ206とステップ218の高騒音区間の判定は、音声パワーSPと騒音パワーNPの周波数帯域毎の重なりの大小に応じて行うようにしてもよい。すなわち、この場合には、騒音パワー推定部19と音声パワー推定部20において、各々パワーの推定を周波数帯域毎に行って、その周波数分布を求め、求めた騒音パワーと音声パワーの周波数分布の重なる周波数範囲が大きいほど、再出力制御処理で高騒音区間の判定に用いるしきい値Th1を大きく設定したり、高騒音区間タイマのタイムアウトを短く設定することにより、再出力がより行われ易くする。
また、以上で示した音声出力装置1は、図4に示すように構成してもよい。
ここで、図4に示した音声出力装置1は、図1に示した音声出力装置1に、補正量算出部22、補正適用部23、語彙種別辞書24を追加した構成を示している。
また、このような構成において、補正量算出部22は、騒音パワー推定部19が推定したユーザに聞こえる周囲騒音のパワーと、音声パワー推定部20が推定したユーザに聞こえるスピーカ3から出力した音声のパワーとに基づいて、スピーカ3から出力した音声がユーザに聞こえる明瞭度を所定レベルに保つために、スピーカ3に出力する音声信号に対してアンプ18で施すべきゲイン調整の調整量を補正値として算出する処理を繰り返し行う。
また、補正適用部23は、再出力制御部21から発行された補正適用指示に応えて、その時点で補正量算出部22が算出している補正値を、アンプ18に設定する。そして、アンプ18は設定された補正値が示す値で音声データ再生部17から入力する音声信号のゲインを調整し、スピーカ3に出力する。
そして、再出力制御部21は、再出力指示を音声データ再生部17に発行する際に、補正適用部23に補正適用指示を発行することにより、再出力される音声が、その時点の騒音下で明瞭にユーザに聞こえる大きさとなるように制御する。
次に、語彙種別辞書24には、出力文受付部11が受け付ける出力文に含まれる可能性のある各単語の種別を登録する。ここで、単語の種別としては、聞き慣れた語彙と、聞き慣れない語彙との二つの種別を用い、施設名称、都道府県名、市町村名、交差点名などの固有名詞や、30メートルなどの、数詞を含む語彙の種別は、聞き慣れない語彙の種別として語彙種別辞書24に登録し、他の語彙の種別は聞き慣れた語彙として語彙種別辞書24に登録する。
そして、発話単位分割部13は、分割した各発話単位について、当該発話単位に含まれる語彙の種別を語彙種別辞書24を参照して調べ、その発話単位に、種別が聞き慣れない語彙である語彙が含まれている場合には、その発話単位の発話単位種別を「聞き慣れない語彙を含む」に設定し、その発話単位に、種別が聞き慣れない語彙である語彙が含まれていない場合には、その発話単位の発話単位種別を「聞き慣れない語彙を含まない」として設定する。そして、各発話単位の音声データの形成を出力音声データ形成部14に指示する際に、併せて、その発話単位の発話単位種別を出力音声データ形成部14に通知する。
また、出力音声データ形成部14は、音声データ再生部17に各発話単位の音声データを音声データ再生部17に格納する際に併せて、その発話単位の発話単位分割部13から通知された発話単位種別を音声データ再生部17に通知する。
また、音声データ再生部17において、音声信号の再生中、当該音声信号を再生している音声データの発話単位識別子と共に、当該音声データの発話単位について出力音声データ形成部14より通知された発話単位種別を再出力制御部21に出力する。
そして、再出力制御部21において、発話単位種別が「聞き慣れない語彙を含む」である発話単位の音声データの音声信号が出力されている期間中、発話単位種別が「聞き慣れない語彙を含まない」である発話単位の音声データの音声信号が出力されている期間よりも、再出力制御処理で高騒音区間の判定に用いるしきい値Th1を大きく設定したり、高騒音区間タイマのタイムアウトを短く設定することにより、聞き慣れない語彙を含む発話単位の音声が、より再出力され易くする。
なお、図4に示した構成におけるアンプ18におけるスピーカ3に出力する音声信号のゲイン調整は、周波数帯域毎に行うようにしてもよい。なお、この場合には、騒音パワー推定部19と音声パワー推定部20において各々パワーの推定を周波数帯域毎に行う共に、補正量算出部22において補正値を周波数帯域毎に算出し、補正適用部23において、周波数帯域毎の補正値をアンプ18に設定するようにする。
また、以上の各実施形態における、音声パワー推定部20及び騒音パワー推定部19における周囲騒音のパワーの推定は、マイクロフォン4に入力するスピーカ出力音声のエコー成分を考慮して行うようにしてもよい。なお、このエコー成分は、エコー経路の伝達関数と、スピーカ3から出力する音声信号に基づいて推定することができ、この伝達関数は、マイクロフォン4が出力する音声信号のパワーから、スピーカ3から出力する音声信号に伝達関数を施した音声信号のパワーを差し引いた信号のパワーを最小とする伝達関数として求めることができる。
また、以上の実施形態は、文を発話単位として扱って、文単位に音声の再出力を行うようにしてもよい。
また、以上の実施形態による音声の再出力の技術は、日本語以外の言語、たとえば、英語の出力文を音声出力するような場合にも同様に適用することができる。
また、以上の実施形態は、音声の再出力を行う場合に、音声の再出力を行う旨の音声メッセージを出力してから、実際の音声の再出力を行うように構成してもよい。
本発明の実施形態に係る音声出力装置の構成を示すブロック図である。 本発明の実施形態に係る再出力制御処理を示すフローチャートである。 本発明の実施形態に係る音声出力装置の動作例を示す図である。 本発明の実施形態に係る音声出力装置の他の構成例を示すブロック図である。
符号の説明
1…音声出力装置、2…情報処理装置、3…スピーカ、4…マイクロフォン、11…出力文受付部、12…仮名変換部、13…発話単位分割部、14…出力音声データ形成部、15…音素波形データベース、16…音声合成部、17…音声データ再生部、18…アンプ、19…騒音パワー推定部、20…音声パワー推定部、21…再出力制御部、22…補正量算出部、23…補正適用部、24…語彙種別辞書。

Claims (6)

  1. 音声を出力する音声出力装置であって、
    スピーカと、
    前記スピーカを用いて文または文章を表す音声を出力する音声出力部と、
    周囲騒音のレベルを表す騒音レベルを算定する騒音レベル算定部と、
    前記音声出力部が前記音声を出力している期間中に、前記騒音レベル算定部が算定している騒音レベルが所定レベル以上大きい所定時間長以上の時間区間である高騒音期間の発生を検出する高騒音期間検出手段と、
    前記高騒音期間が発生したときに、その後の、前記騒音レベル算定部が算定している騒音レベルが所定値より小さい予め定めた時間長以上の時間区間である低騒音期間の発生時に、前記高騒音期間において出力していた音声を、前記音声出力部に出力させる再出力制御手段と、
    前記音声出力部が出力する音声が表す文または文章を、当該文または文章を構成する、文節である、または、文である出力単位に分割する出力単位分割部と、
    聴者が識別しづらい語彙の種別であるとして予め定めた所定種別の語彙である識別非容易語彙を、前記各出力単位が含むかどうかを判定する識別非容易語彙判定手段とを有し、
    前記再出力制御手段は、前記音声出力部が前記音声を出力している期間中に前記高騒音期間が発生したときに、前記出力単位分割部が分割した出力単位に基づいて、その後の前記低騒区間の発生時に、前記高騒音期間において出力していた文または文章の、当該高騒音期間において出力していた出力単位以降の部分を表す音声を前記音声出力部に出力させ、
    前記高騒音期間検出手段は、前記識別非容易語彙判定手段の判定結果に従って、前記音声出力部が、前記識別非容易語彙を含む出力単位を表す音声を出力している場合に、前記識別非容易語彙を含まない出力単位を表す音声を出力している場合に比べ、前記所定レベルを小さく設定することと、前記所定時間長を短く設定することとの少なくとも一方を行うことを特徴とする音声出力装置。
  2. 請求項1記載の音声出力装置であって、
    マイクロフォンを有し、
    前記騒音レベル算定部は、
    前記マイクロフォンの出力信号に基づいて周囲騒音の周波数帯域とパワーとを推定する騒音パワー推定手段と、
    前記騒音パワー推定手段が推定した周囲騒音のパワーに基づいて、前記騒音レベルを推定する騒音レベル推定手段とを有し、
    当該騒音レベル推定手段は、前記騒音パワー推定手段が推定した周囲騒音の周波数帯域と、前記音声出力部が出力する音声の周波数帯域とが重複する範囲がより大きいほど、より大きくなるように前記騒音レベルを推定することを特徴とする音声出力装置。
  3. 請求項1または2記載の音声出力装置であって、
    設定されたゲイン量で、前記音声出力部が出力する音声のゲインを調整するゲイン調整部と、
    前記スピーカから出力される音声が所定の明瞭度をもって聴者に聞こえるようになる、前記ゲイン調整部におけるゲイン量を、前記騒音レベル算定部が算定した騒音レベルに基づいて算出するゲイン量算出部とを有し、
    前記再出力制御手段は、前記低騒音期間の発生時に、前記高騒音期間において出力していた音声を前記音声出力部に出力させる際に、前記ゲイン量算出部が算出しているゲイン量に、前記ゲイン調整部に設定されているゲイン量を更新することを特徴とする音声出力装置。
  4. 請求項1記載の音声出力装置であって、
    マイクロフォンを有し、
    前記騒音レベル算定部は、
    前記マイクロフォンの出力信号に基づいて周囲騒音のパワーを推定する騒音パワー推定手段と、
    前記音声出力部が出力する音声のパワーを算出する音声パワー算出手段と、
    前記騒音パワー推定手段が推定した周囲騒音のパワーと、前記音声パワー算出手段が算出した音声のパワーとの関係より、前記周囲騒音の騒音レベルを推定する騒音レベル推定手段とを有することを特徴とする音声出力装置。
  5. 請求項1、2、3または4記載の音声出力装置と、当該音声出力装置を用いて、経路を案内する文を表す音声を出力する経路案内部とを備えたことを特徴とするカーナビゲーション装置。
  6. スピーカを用いて文または文章を表す音声を出力する音声出力装置において当該音声の出力を制御する音声出力制御方法であって、
    前記音声出力装置が、周囲騒音のレベルを表す騒音レベルを算定する騒音レベル算定ステップと、
    前記音声出力装置が、前記音声を出力している期間中に、前記騒音レベル算定ステップで算定している騒音レベルが所定レベル以上大きい所定時間長以上の時間区間である高騒音期間の発生を検出する高騒音期間検出ステップと、
    前記音声出力装置が、前記高騒音期間が発生したときに、その後の、前記騒音レベル算定ステップで算定している騒音レベルが所定値より小さい予め定めた時間長以上の時間区間である低騒音期間の発生時に、前記高騒音期間において出力していた音声を出力する再出力制御ステップと、
    前記音声出力装置が、前記出力する音声が表す文または文章を、当該文または文章を構成する、文節である、または、文である出力単位に分割する出力単位分割ステップと、
    前記音声出力装置が、聴者が識別しづらい語彙の種別であるとして予め定めた所定種別の語彙である識別非容易語彙を、前記各出力単位が含むかどうかを判定する識別非容易語彙判定ステップとを有し、
    前記音声出力装置は、前記再出力制御ステップにおいて、前記音声を出力している期間中に前記高騒音期間が発生したときに、前記出力単位分割ステップで分割した出力単位に基づいて、その後の前記低騒区間の発生時に、前記高騒音期間において出力していた文または文章の、当該高騒音期間において出力していた出力単位以降の部分を表す音声を出力し、
    前記音声出力装置は、前記高騒音期間検出ステップにおいて、前記識別非容易語彙判定ステップの判定結果に従って、前記識別非容易語彙を含む出力単位を表す音声を出力している場合に、前記識別非容易語彙を含まない出力単位を表す音声を出力している場合に比べ、前記所定レベルを小さく設定することと、前記所定時間長を短く設定することとの少なくとも一方を行うことを特徴とする音声出力制御方法。
JP2006284791A 2006-10-19 2006-10-19 音声出力装置 Expired - Fee Related JP4979336B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006284791A JP4979336B2 (ja) 2006-10-19 2006-10-19 音声出力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006284791A JP4979336B2 (ja) 2006-10-19 2006-10-19 音声出力装置

Publications (2)

Publication Number Publication Date
JP2008102310A JP2008102310A (ja) 2008-05-01
JP4979336B2 true JP4979336B2 (ja) 2012-07-18

Family

ID=39436686

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006284791A Expired - Fee Related JP4979336B2 (ja) 2006-10-19 2006-10-19 音声出力装置

Country Status (1)

Country Link
JP (1) JP4979336B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6582514B2 (ja) * 2015-04-23 2019-10-02 富士通株式会社 コンテンツ再生装置、コンテンツ再生プログラム及びコンテンツ再生方法
JP2019091977A (ja) * 2017-11-13 2019-06-13 クラリオン株式会社 音声出力システム及び音声出力方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1021049A (ja) * 1996-06-28 1998-01-23 Ricoh Co Ltd 音声合成装置
JP3284176B2 (ja) * 1996-10-25 2002-05-20 シャープ株式会社 オーディオ装置
JPH11166835A (ja) * 1997-12-03 1999-06-22 Alpine Electron Inc ナビゲーション音声補正装置
JP2000267687A (ja) * 1999-03-19 2000-09-29 Mitsubishi Electric Corp 音声応答装置
JP2005070430A (ja) * 2003-08-25 2005-03-17 Alpine Electronics Inc 音声出力装置および方法
JP2006042061A (ja) * 2004-07-28 2006-02-09 Toshiba Corp 放送受信装置、番組情報音声出力プログラム

Also Published As

Publication number Publication date
JP2008102310A (ja) 2008-05-01

Similar Documents

Publication Publication Date Title
US7490039B1 (en) Text to speech system and method having interactive spelling capabilities
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP4667085B2 (ja) 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法
US20140372117A1 (en) Transcription support device, method, and computer program product
KR101836430B1 (ko) 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버
JP2013025299A (ja) 書き起こし支援システムおよび書き起こし支援方法
JP2012163692A (ja) 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
JP4752516B2 (ja) 音声対話装置および音声対話方法
JP2003150194A (ja) 音声対話装置および音声対話装置における入力音声最適化方法ならびに音声対話装置における入力音声最適化処理プログラム
JP2005070430A (ja) 音声出力装置および方法
JP4953767B2 (ja) 音声生成装置
JP4979336B2 (ja) 音声出力装置
US8990092B2 (en) Voice recognition device
JPH05257490A (ja) 話速変換方法および装置
US7092884B2 (en) Method of nonvisual enrollment for speech recognition
JP3219892B2 (ja) リアルタイム話速変換装置
JP2000206987A (ja) 音声認識装置
JP2011180416A (ja) 音声合成装置、音声合成方法およびカーナビゲーションシステム
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
JP2016186646A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP3277579B2 (ja) 音声認識方法および装置
KR101104822B1 (ko) 큰소리 발성에 기반을 둔 어학 시스템 및 방법
JP2015187738A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP2005157166A (ja) 音声認識装置、音声認識方法及びプログラム
JP2002244694A (ja) 字幕送出タイミング検出装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110608

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110804

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120417

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120417

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150427

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4979336

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees