JP2005070430A

JP2005070430A - 音声出力装置および方法

Info

Publication number: JP2005070430A
Application number: JP2003300071A
Authority: JP
Inventors: Toru Marumoto; 徹丸本; Nozomi Saito; 望齊藤
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2003-08-25
Filing date: 2003-08-25
Publication date: 2005-03-17
Also published as: US20050080626A1

Abstract

【課題】出力される単語の内容にかかわらず、了解度の高い（聞こえやすい）音声を出力できる音声出力装置および方法を提供する。
【解決手段】各単語または単語列に対してどの程度なじみがあるかを表した親密度情報を記録した音声ＤＢ１と、再生部２により音声ＤＢ１から音声データと共に読み出される親密度情報に基づいて、単語または単語列の単位で音圧レベルを調整する音圧調整部３とを設け、親密度が低い単語等については音圧を大きく補正するようにすることにより、例えば聞きなれない土地名など単語親密度が低い内容の音声を出力する場合であっても、親密度が高い単語に比べて大きな音圧で出力されるようにして、親密度が低い単語も聞き取りやすくなるようにする。
【選択図】図１

Description

本発明は音声出力装置および方法に関し、特に、車室内において車載機から出力される音声がユーザに聞き取りやすくなるように音声の補正を行う装置および方法に用いて好適なものである。

近年、ナビゲーション装置のガイド音声はもとより、ハンズフリー装置による通話相手の音声、情報通信装置で受信したＷｅｂ情報や電子メールの内容読み上げ音声など、車室内における音声出力の需要がますます高まっている。この音声出力の方式としては、ＤＶＤ（Digital Versatile Disk）やハードディスク等のメディアにあらかじめ収録された音声を再生する録音再生方式と、与えられた文字情報をもとに音声波形を構築して再生するＴＴＳ（Text-to-Speech）方式とがある。

後者のＴＴＳ方式に基づく音声出力装置は、大きく分けて、与えられた文字情報に対して、テキスト解析用の辞書データによって読みやアクセントを付加する言語処理部と、波形／音素片の辞書データによって音声を生成する音声合成部との２つの処理部から構成されている。

ところで従来、音声出力に関して、ラウドネス補償に基づく音声明瞭度改善システムが提供されている。このシステムは、マイクより入力された周囲の騒音等のレベルに応じて出力音声の音圧レベルを適切に調整することにより、騒音の中でも出力音声がより明瞭に聞こえるようすることを可能にしたものである（例えば、特許文献１参照）。
特開平１１−１６６８３５号公報

この明瞭度改善システムに代表される従来の音声補正装置は、騒音のレベルや車速信号といった周辺騒音環境に基づく物理量をもとに音声の音圧を補正するものである。ただ、これらの物理量をもとに出力音声が明瞭となるように補正しても、それを聞き取るのは人間であるため、全ての単語や文章が同程度に了解できる訳ではない。というのは、同じ音圧レベルの単語であっても、その単語の親密度（なじみ度合い）によって了解度が変わってしまうためである。

図５は、単語親密度と単語了解度と音圧との関係を示した試験結果の特性図である。この特性図は、音圧レベルを変えたときにどのように単語了解度が変化するのかを示すと同時に、聴取する単語の親密度によって単語了解度がどのように変化するのかを示したものである。この特性図から明らかなように、同じ音圧レベルであっても、親密度が高い単語ほど了解度も高くなり、親密度が低い単語ほど了解度も低くなっている。

このように、物理量をもとに出力音声の音圧レベルを補正しても、出力音声の内容に応じて聞こえやすさは異なってしまう。そのため、例えばナビゲーション装置の走行案内時においても、見知らぬ地名であればあるほど聞き取りづらくなってしまうという問題があった。

なお、単語の親密度を考慮した情報処理装置として、親密度の高い順に変換候補の漢字を並べて表示するようにしたかな漢字変換装置が存在する（例えば、特許文献２参照）。また、入力されたパターン列に対して同一の概念を表現する単語が複数存在する場合に、より親密度の高い単語を探索して認識結果として出力するパターン認識装置も存在する（例えば、特許文献３参照）。
特開２００１−２１６２９５号公報特開２００２−１６２９９１号公報

本発明は、上述のような問題を解決するために成されたものであり、出力される単語の内容にかかわらず、了解度の高い（聞こえやすい）音声を提供できるようにすることを目的とする。

上記した課題を解決するために、本発明の音声出力装置では、複数の単語または単語列に対してどの程度なじみがあるかを表した親密度に関する情報を用意しておき、当該親密度情報に基づいて、出力対象の音声に対して単語または単語列の単位で音圧レベルを調整するようにしている。

上記のように構成した本発明によれば、例えば聞きなれない土地名など単語親密度が低い内容の音声を出力する場合であっても、親密度が高い単語に比べて大きな音圧で出力されることにより、単語の了解度を高くすることができる。これにより、出力される音声が親密度の低い単語または単語列で構成されている場合や、出力される音声中に親密度の高い単語や親密度の低い単語が混在しているような場合でも、常に了解度の高い音声を提供することができるようになる。

（第１の実施形態）
以下、本発明による第１の実施形態を図面に基づいて説明する。第１の実施形態は、本発明を録音再生方式の音声出力装置に適用したものである。図１は、第１の実施形態に係る音声出力装置の要部構成例を示す図である。図１に示すように、本実施形態の音声出力装置は、音声データベース（ＤＢ）１、再生部２、音圧調整部３およびボリューム４を備えて構成されている。

音声ＤＢ１は、波形符号化された音声データがＤＶＤやハードディスク等のメディアに記録されて構成されている。この音声ＤＢ１には、出力対象となる音声データが、単語または単語列の単位で録音されている。単語列とは、同時に使用される可能性が高い複数の単語を組み合わせたものや、複数の単語により構成される熟語あるいは簡単な文章などを言う。以下では、「単語または単語列」をまとめて「単語等」と言うことにする。

例えば、本実施形態の音声出力装置をナビゲーション装置に適用する場合、「この先○○方面、渋滞です。」といった一連のガイド音声を、｜この先｜○○｜方面｜渋滞｜です｜のように単語等に区切って、それぞれを別個の音声パターンとして記録する。なお、一連のガイド音声を再生するときは、分割して記録されている複数の音声パターンを順次読み出して出力する。

この音声ＤＢ１には更に、単語等の単位で記録された個々の音声パターンに対して、どの程度なじみがあるかを表した親密度に関する情報が付加して記録されている。この親密度情報は、単語等の単位で、単語親密度がいくつであるかを数値（例えば、１．０〜７．０）として表したものである。このように音声ＤＢ１は、本発明の親密度情報記憶手段を構成する。

再生部２は、音声ＤＢ１から音声データおよび親密度情報を再生するものである。この再生部２が音声ＤＢ１から複数の音声パターンを任意に選択して読み出す（発話させたい内容に対応する音声パターンが記録されているデータ位置のタグを選択して読み出す）ことにより、任意内容のガイド音声を再生することが可能である。このとき、読み出した複数の音声パターンに対応して記憶されている親密度情報も読み出す。

音圧調整部３は、再生部２により音声ＤＢ１から読み出された親密度情報に基づいてボリューム４を制御することにより、同じく再生部２により音声ＤＢ１から読み出された各音声パターン（各単語等）の音圧レベルを調整する。具体的には、親密度が低い音声パターンほどボリューム値を大きくするように補正する。

例えば、「この先○○方面、渋滞です。」といったガイド音声を出力する場合において、地名を表す○○の部分が「郡山（こおりやま）」のように親密度が高い単語の場合は、ボリューム値の調整は行わない。一方、地名を表す○○の部分が「差塩（さいそ）」や「百槻（どうづき）」のように親密度が低い単語の場合は、ボリューム値を上げるような調整を行う。

どの程度ボリューム値を大きくするかは、単語親密度の値によって異ならせるのが好ましい。例えば、図５の特性図において、単語了解度８０％を実現することを想定した場合、元々の音圧レベルが約２０ｄＢであるとすると、単語親密度が７．０〜５．５の音声パターンについては音圧レベルの調整が不要である。これに対して、単語親密度が５．５〜４．０の音声パターンは音圧レベルを約５ｄＢ大きくする。また、単語親密度が４．０〜２．５の音声パターンは音圧レベルを約１５ｄＢ大きくし、単語親密度が２．５〜１．０の音声パターンは音圧レベルを約２０ｄＢ大きくする。

以上詳しく説明したように、第１の実施形態によれば、出力対象の各単語等が録音された音声ＤＢ１に対して、単語等の単位で親密度情報を付加して記憶しておき、音声と共に読み出される親密度情報に基づいて、出力対象の各単語等の音圧レベルを適宜調整するようにしたので、普段聞きなれない内容の音声を出力する場合であっても、了解度の高い（聞き取りやすい）音声を提供することができる。よって、例えば本実施形態の音声出力装置を適用したナビゲーション装置を不慣れな土地で使用していても、ガイド音声は常に聞こえやすくなる。

なお、上記第１の実施形態では、単語親密度が最も高い単語等を基準の音圧レベルとし、これより単語親密度が低い単語等の音圧レベルを大きく補正する例について説明したが、本発明はこれに限定されない。例えば、単語親密度が最も低い単語等を基準の音圧レベルとし、これより単語親密度が高い単語等の音圧レベルを小さく補正するようにしても良い。また、単語親密度が中程度の単語等を基準の音圧レベルとし、基準より単語親密度が高い単語等の音圧レベルを小さく補正し、基準より単語親密度が低い単語等の音圧レベルを大きく補正することによって全ての単語等の了解度が同等程度となるようにしても良い。

また、上記第１の実施形態では、単語親密度に応じて音圧レベルを調整することによって全ての単語等の了解度が同等程度となるようにする例について説明したが、本発明はこれに限定されない。例えば、音圧調整によって単語了解度が所定値よりも大きくなるようにすれば良く、必ずしも全ての単語等の了解度が同等程度となるようにする必要はない。

また、上記第１の実施形態では、親密度情報に基づいて音声の音圧レベルを調整する例について説明したが、これに加えて、またはこれに代えて、単語親密度が所定値より低い単語等を２回以上繰り返して再生するようにしても良い。例えば、「この先差塩方面、渋滞です。」といったガイド音声を出力する場合に、音圧調整部３が「差塩」の部分で音圧レベルを上げるように調整するとともに、「この先差塩方面、渋滞です。差塩方面です。」ように単語親密度が低い単語等を２回繰り返して再生するように制御する。この繰り返し再生の制御は、再生部２において行うことが可能である。このように、馴染みの少ない単語等であっても繰り返し再生することにより、了解度を高めることができる。

また、親密度情報に基づいて音声の音圧レベルを調整することに加えて、またはこれに代えて、音声の再生速度を調整するようにしても良い。例えば、「この先差塩方面、渋滞です。」といったガイド音声を出力する場合に、音圧調整部３が「差塩」の部分で音圧レベルを上げるように調整するとともに、「差塩」の部分を他の部分より遅い速度で再生するように制御する。この再生速度の制御も、再生部２において行うことが可能である。このように、馴染みの少ない単語等であっても再生速度を遅くすることにより、了解度を高めることができる。

また、親密度情報に基づいて音声の音圧レベルを調整することに加えて、またはこれに代えて、単語親密度が所定値より低い単語等を画面上に表示するようにしても良い。この表示制御は、図示しない表示コントローラ（例えば、ナビゲーション装置の場合は、地図画像等を表示装置に表示するために通常備えられているもの）を用いて行うことが可能である。このように、馴染みの少ない単語等であっても、それを画面表示して視覚上でも確認できるようにすることにより、了解度を高めることができる。

（第２の実施形態）
次に、本発明による第２の実施形態を図面に基づいて説明する。第２の実施形態は、本発明をＴＴＳ方式の音声出力装置に適用したものである。図２は、第２の実施形態に係る音声出力装置の要部構成例を示す図である。図２に示すように、本実施形態の音声出力装置は、テキスト生成部１１、ＴＴＳエンジン１２、音圧調整部１３およびボリューム１４を備えて構成されている。

テキスト生成部１１は、出力対象とする音声の内容を文字列で表したテキスト情報を生成するものである。このテキスト生成部１１は、図示しないキーボードをユーザが操作することによって任意の文字列のテキスト情報を手動で生成するものであっても良いし、所定のルールに従ってコントローラが任意の文字列のテキスト情報を自動で生成するものであっても良い。

ＴＴＳエンジン１２は、言語処理部１５、テキスト解析用辞書１６、音声合成部１７および音素片辞書１８を備えて構成されている。テキスト解析用辞書１６は、各種の単語等から成るテキスト情報と、それらの単語等に対して付加する音韻情報および韻律情報とを対応付けて記憶したテキスト解析用の辞書データベースである。

このテキスト解析用辞書１６には更に、単語等の単位で記録された個々のテキスト情報に対して、その単語等に関する親密度情報が付加して記録されている。この親密度情報は、それぞれの単語等ごとに、単語親密度がいくつであるかを数値（例えば、１．０〜７．０）として表したものである。このようにテキスト解析用辞書１６は、本発明の親密度情報記憶手段を構成する。

言語処理部１５は、テキスト生成部１１より入力されるテキスト情報をもとにテキスト解析用辞書１６を参照し、テキスト情報により示される単語等の文字列に対して該当する音韻情報や韻律情報を付加することにより、表音文字列の情報を生成する。このとき言語処理部１５は、入力されたテキスト情報に対応して記憶されている親密度情報も読み出す。

音素片辞書１８は、各種の単語等から成る文字列を単位として、それらの文字列に対して付加する波形情報を記憶した音素片の辞書データベースである。音声合成部１７は、言語処理部１５より出力された表音文字列の情報をもとに音素片辞書１８を参照し、当該表音文字列を波形情報を用いて加工することにより、合成音声を生成する。

音圧調整部１３は、言語処理部１５によりテキスト解析用辞書１６から抽出された親密度情報に基づいてボリューム１４を制御することにより、音声合成部１７により生成された合成音声の音圧レベルを単語等の単位で調整する。例えば、単語親密度が最も高い単語等を基準の音圧レベルとし、これより単語親密度が低い単語等のボリューム値を大きくするように補正する。どの程度ボリューム値を大きくするかは、第１の実施形態と同様、単語親密度の値によって異ならせるのが好ましい。

以上詳しく説明したように、第２の実施形態によれば、与えられたテキスト情報をもとに音声波形を合成して再生するＴＴＳエンジン１２が備えるテキスト解析用辞書１６に対して、単語等の単位で親密度情報を付加して記憶しておき、テキスト情報の解析の際に抽出される親密度情報に基づいて、出力対象の各単語等の音圧レベルを適宜調整するようにしたので、普段聞きなれない内容の音声を出力する場合であっても、了解度の高い（聞き取りやすい）音声を提供することができる。よって、例えば本実施形態の音声出力装置を適用したナビゲーション装置を不慣れな土地で使用していても、ガイド音声は常に聞こえやすくなる。

なお、上記第２の実施形態でも、単語親密度が最も高い単語等を基準の音圧レベルとし、これより単語親密度が低い単語等の音圧レベルを大きく補正する例について説明したが、本発明はこれに限定されない。例えば、単語親密度が最も低い単語等を基準の音圧レベルとしても良いし、単語親密度が中程度の単語等を基準の音圧レベルとしても良い。

また、上記第２の実施形態でも、単語親密度に応じて音圧レベルを調整することによって全ての単語等の了解度が同等程度となるようにする必要は必ずしもなく、音圧調整によって単語了解度が所定値よりも大きくなるようにすれば良い。

また、上記第２の実施形態でも、親密度情報に基づいて音声の音圧レベルを調整する例について説明したが、これに加えて、またはこれに代えて、単語親密度が所定値より低い単語等を２回以上繰り返して再生するようにしても良い。この繰り返し再生の制御は、例えば音声合成部１７が同じ単語等を２回繰り返して合成することによって行うことが可能である。

また、親密度情報に基づいて音声の音圧レベルを調整することに加えて、またはこれに代えて、音声の再生速度を調整するようにしても良い。この再生速度の制御は、例えば音声合成部１７から合成音声を出力する際の出力タイミングを可変とすることによって行うことが可能である。

また、親密度情報に基づいて音声の音圧レベルを調整することに加えて、またはこれに代えて、単語親密度が所定値より低い単語等を画面上に表示するようにしても良い。この表示制御は、図示しない表示コントローラ（例えば、ナビゲーション装置の場合は、地図画像等を表示装置に表示するために通常備えられているもの）を用いて行うことが可能である。

（第３の実施形態）
次に、本発明による第３の実施形態を図面に基づいて説明する。第３の実施形態は、ラウドネス補償技術を用いた音声明瞭度改善システムに本発明を適用したものである。図３は、第３の実施形態に係る音声明瞭度改善システムの要部構成例を示す図である。

図３に示すように、本実施形態の音声明瞭度改善システムは、音声ＤＢ２１、再生部２２、ボリューム又はイコライザ（以下、単にボリューム等と記す）２３、音圧調整部２４、ゲイン制御部２５、適応フィルタ（ＡＤＦ）２６、スピーカ２７、マイク２８および減算器２９を備えて構成されている。

音声ＤＢ２１は、波形符号化された音声データがＤＶＤやハードディスク等のメディアに記録されて構成されている。この音声ＤＢ２１には、出力対象となる音声データが、単語等の単位で録音されている。例えば、本実施形態の音声明瞭度改善システムをナビゲーション装置に適用する場合、「この先○○方面、渋滞です。」といった一連のナビ音声を、｜この先｜○○｜方面｜渋滞｜です｜のように単語等に区切って、それぞれを別個の音声パターンとして記録する。

この音声ＤＢ２１には更に、単語等の単位で記録された個々の音声パターンに対して親密度情報が付加して記録されている。この親密度情報は、単語等の単位で、単語親密度がいくつであるかを数値（例えば、１．０〜７．０）として表したものである。このように音声ＤＢ２１は、本発明の親密度情報記憶手段を構成する。

再生部２２は、音声ＤＢ２１から音声データおよび親密度情報を再生するものである。この再生部２２が音声ＤＢ２１から複数の音声パターンを任意に選択して読み出す（発話させたい内容に対応する音声パターンが記録されているデータ位置のタグを選択して読み出す）ことにより、任意内容のナビ音声を再生することが可能である。このとき、読み出した複数の音声パターンに対応して記憶されている親密度情報も読み出す。

ボリューム等２３は、再生部２２により再生されたナビ音声の音量を制御する。スピーカ２７は、ボリューム等２３で音圧が補正されたナビ音声を出力する。マイク２８は、発話音声入力用のものであるが、実際には、発声された音声コマンドだけでなく、スピーカ２７から出力されるナビ音声、図示しない他のスピーカから出力されるオーディオ音、走行ノイズなど（以下、オーディオ音と走行ノイズとを合わせて「周辺ノイズ」と言う）も全て同じマイク２８に入力される。

適応フィルタ２６は、係数同定部および音声補正フィルタを含んで構成されている。係数同定部は、スピーカ２７からマイク２８の間における音響系の伝達関数（音声補正フィルタのフィルタ係数）を同定するためのフィルタであり、ＬＭＳ（Least Mean Square ）アルゴリズムやＮ−ＬＭＳ（Normalized-LMS）アルゴリズムによる適応フィルタが用いられている。この係数同定部は、減算器２９から出力される誤差信号（後述する）のパワーが最小となるように動作して音響系のインパルス応答を同定する。

音声補正フィルタは、係数同定部により決定されたフィルタ係数と、制御対象となる音圧補正済みのナビ音声とを用いて畳み込み演算することにより、当該音声補正済みのナビ音声に対して上述の音響系と同一の伝達特性を与える。これにより、マイク２８の位置におけるナビ音声を模擬したナビ模擬音声を生成する。

減算器２９は、マイク２８より入力された音声（ナビ音声と周辺ノイズとが混在した音声）から、適応フィルタ２６により生成されたナビ模擬音声を減算することにより、周辺ノイズを抽出する。この減算器２９により抽出された周辺ノイズは、誤差信号として適応フィルタ２６の係数同定部およびゲイン制御部２５にフィードバックされる。

ゲイン制御部２５は、適応フィルタ２６から出力されるナビ模擬音声と、減算器２９から出力される周辺ノイズとに基づいて、再生部２２により再生される制御対象のナビ音声に対して加える最適のゲインを算出し、この算出したゲイン値を音圧調整部２４に出力する。ここでは、周辺ノイズ（誤差信号）をナビ音声に対するノイズとみなして、スピーカ２７から出力されるナビ音声がユーザに明瞭に聞こえるように、当該ナビ音声のゲイン調整を行う。このようにゲイン制御部２５は、本発明のゲイン算出手段を構成する。

音圧調整部２４は、ゲイン制御部２５により算出された補正ゲインに基づいてボリューム等２３を制御し、出力対象となるナビ音声の音圧レベルを全体として調整するとともに、再生部２２により音声ＤＢ２１から読み出された親密度情報に基づいてボリューム等２３を制御し、出力対象となるナビ音声の音圧レベルを単語等の単位で調整する。例えば、単語親密度が最も高い単語等を基準の音圧レベルとし、これより単語親密度が低い単語等のボリューム値を大きくするように補正する。

例えば、「この先○○方面、渋滞です。」といったナビ音声を出力する場合において、周囲音があってもこのナビ音声が明瞭に聞こえるように、一連のナビ音声に対して全体としてボリューム値を調整する。さらに、地名を表す○○の部分が「差塩（さいそ）」や「百槻（どうづき）」のように単語親密度が低い単語の場合は、その単語区間では更に補償量を加えるようにボリューム値を調整する。単語等の単位でどの程度ボリューム値を大きくするかは、第１の実施形態と同様に、単語親密度の値によって異ならせるのが好ましい。

以上詳しく説明したように、第３の実施形態によれば、ラウドネス補償型音声明瞭度改善システムにおいて、単語親密度情報に基づいて単語等の単位で音声補償量を適宜調整するようにしたので、出力対象の音声が周囲音によらず明瞭に聞こえるようにするとともに、普段聞きなれない内容の音声を出力する場合であっても、それを聞き取りやすくすることができる。よって、例えばこの音声明瞭度改善システムを適用したナビゲーション装置を不慣れな土地で使用していても、ガイド音声は常に聞こえやすくなる。

なお、上記第３の実施形態でも、単語親密度が最も高い単語等を基準の音圧レベルとし、これより単語親密度が低い単語等の音圧レベルを大きく補正する例について説明したが、本発明はこれに限定されない。例えば、単語親密度が最も低い単語等を基準の音圧レベルとしても良いし、単語親密度が中程度の単語等を基準の音圧レベルとしても良い。

また、上記第３の実施形態でも、単語親密度に応じて音圧レベルを調整することによって全ての単語等の了解度が同等程度となるようにする必要は必ずしもなく、音圧調整によって単語了解度が所定値よりも大きくなるようにすれば良い。

また、上記第３の実施形態でも、親密度情報に基づいて音声の音圧レベルを調整する例について説明したが、これに加えて、またはこれに代えて、単語親密度が所定値より低い単語等を２回以上繰り返して再生するようにしても良い。この繰り返し再生の制御は、再生部２２によって行うことが可能である。

また、親密度情報に基づいて音声の音圧レベルを調整することに加えて、またはこれに代えて、音声の再生速度を調整するようにしても良い。この再生速度の制御も、再生部２２によって行うことが可能である。

（第４の実施形態）
次に、本発明による第４の実施形態を図面に基づいて説明する。第４の実施形態は、音声通話システム（例えば、ハンズフリーシステム）に本発明を適用したものである。図４は、第４の実施形態に係る音声通話システムの要部構成例を示す図である。

図４に示すように、本実施形態の音声通話システムは、音響モデルＤＢ３１、言語モデルＤＢ３２、第１の連続認識部３３、第１の音圧調整部３４、第１のボリューム３５、スピーカ３６、マイク３７、第２の連続認識部３８、第２の音圧調整部３９および第２のボリューム４０を備えて構成されている。

音響モデルＤＢ３１は、認識対象となる各単語等の文字列とその音声パターンの特徴量とを対応付けて記憶した音声辞書データベースである。言語モデルＤＢ３２は、認識された音声パターンの構文を解析するために必要な情報を記憶した構文解析用辞書データベースである。この言語モデルＤＢ３２には更に、各種単語等の文字列を表すテキスト情報とそれらの親密度との関係を示す情報が付加して記憶されている。このように言語モデルＤＢ３２は、本発明の親密度情報記憶手段を構成する。

第１の連続認識部３３は、受話音声から特徴量を算出し、その算出した特徴量と、音響モデルＤＢ３１にあらかじめ格納されている各単語等の特徴量とを比較して類似度が最も高い音声パターンを検索し、その音声パターンを有する文字列を受話音声の文字列であると認識する。そして、入力された受話音声を、当該認識した文字列のテキスト情報に変換する。このように第１の連続認識部３３は、本発明の第１の音声認識手段を構成する。

この第１の連続認識部３３は、変換したテキスト情報をもとに言語モデルＤＢ３２を参照し、当該テキスト情報に対応して記憶されている親密度情報を読み出して第１の音圧調整部３４に供給する処理も行う。第１の音圧調整部３４は、第１の連続認識部３３から供給される親密度情報に基づいて第１のボリューム３５を制御することにより、受話音声の音圧レベルを単語等の単位で調整する。例えば、単語親密度が最も高い単語等を基準の音圧レベルとし、これより単語親密度が低い単語等のボリューム値を大きくするように補正する。このように音圧が補正された受話音声は、スピーカ３６から出力される。

第２の連続認識部３８は、マイク３７より入力された送話音声から特徴量を算出し、その算出した特徴量と、音響モデルＤＢ３１にあらかじめ格納されている各単語等の特徴量とを比較して類似度が最も高い音声パターンを検索し、その音声パターンを有する文字列を送話音声の文字列であると認識する。そして、入力された送話音声を、当該認識した文字列のテキスト情報に変換する。このように第２の連続認識部３８は、本発明の第２の音声認識手段を構成する。

この第２の連続認識部３８は、変換したテキスト情報をもとに言語モデルＤＢ３２を参照し、当該テキスト情報に対応して記憶されている親密度情報を読み出して第２の音圧調整部３９に供給する処理も行う。第２の音圧調整部３９は、第２の連続認識部３８から供給される親密度情報に基づいて第２のボリューム４０を制御することにより、送話音声の音圧レベルを単語等の単位で調整する。例えば、単語親密度が最も高い単語等を基準の音圧レベルとし、これより単語親密度が低い単語等のボリューム値を大きくするように補正する。このように音圧が補正された送話音声は、通話相手に送信される。

この図４の例では、受話側と送話側との双方に連続認識部および音圧調整部を設けている。これにより、相手側の音声通信システムに図４と同様の構成が備えられていなくても、送受信とも発話内容に応じて適宜調整した音圧による通話音声を提供することができる。なお、本発明においては連続認識部と音圧調整部とを必ずしも受話側と送話側との双方に設ける必要はなく、どちらか一方のみでも良い。

また、受話側と送話側との双方に連続認識部および音圧調整部を設けた場合、相手側も同様の構成を備えていると、自分の送話側で音圧調整された音声が相手の受話側でも更に音圧調整されることになり、音圧が必要以上に調整されてしまうことになる。そこで、通話を開始する前（最初のコール時）に、所定の通信を行うことによって、通話相手が音圧調整部を備えているか否かを確認する。そして、通話相手が音圧調整部を備えている場合には、第１の音圧調整部３４および第２の音圧調整部３９の少なくとも一方の機能を休止させるように制御することが可能である。

例えば、最初に電話をかけるときに、発呼側の音声通信システムから着呼側の音声通信システムに問い合わせ信号を送信し、着呼側が音圧調整部を備えているか否かを問い合わせる。着呼側システムは、この問い合わせに応答して音圧調整部の有無を発呼側システムに返信する。発呼側システムは、音圧調整部が有るとの返答を受けたときに、発呼側システムにおける第１の音圧調整部３４の機能を休止させるように制御する。また、着呼側システムにおける第１の音圧調整部３４の機能を休止させることを指示する信号を着呼側システムに送信し、着呼側システムにおける第１の音圧調整部３４の機能も休止させるように制御する。

なお、発呼側システムが着呼側システムから音圧調整部が有るとの返答を受けたときに、発呼側システムにおける第２の音圧調整部３９と着呼側システムにおける第２の音圧調整部３９との機能を休止させるように制御しても良い。あるいは、発呼側システムにおける第１の音圧調整部３４と第２の音圧調整部３９の機能を休止させるように制御し、着呼側システムの機能は休止させないようにしても良い。さらに、発呼側および着呼側のシステムにおいて双方とも音圧調整部３４，３９の機能は休止させず、音圧の増減幅を通常の半分程度となるように制御しても良い。

以上詳しく説明したように、第４の実施形態によれば、音声通信システムにおいて、通話音声を認識および構文解析し、その解析結果を用いて単語親密度情報に基づいて単語等の単位で音圧を適宜調整するようにしたので、通話中において馴染みのない発話内容があっても、音圧補正によってそれを聞き取りやすくすることができる。よって、常に快適な通話を行うことができる。

なお、上記第４の実施形態でも、単語親密度が最も高い単語等を基準の音圧レベルとし、これより単語親密度が低い単語等の音圧レベルを大きく補正する例について説明したが、本発明はこれに限定されない。例えば、単語親密度が最も低い単語等を基準の音圧レベルとしても良いし、単語親密度が中程度の単語等を基準の音圧レベルとしても良い。

また、上記第４の実施形態に関しても、音圧調整によって単語了解度が所定値よりも大きくなるようにすれば良く、必ずしも全ての単語等の了解度が同等程度となるようにする必要はない。

また、上記第４の実施形態でも、親密度情報に基づいて音声の音圧レベルを調整する例について説明したが、これに加えて、またはこれに代えて、単語親密度が所定値より低い単語等を２回以上繰り返して再生するようにしても良い。この繰り返し再生の制御は、例えば次のようにして行うことが可能である。すなわち、受話音声や送話音声をデジタル化して一旦バッファメモリに蓄積し、バッファメモリからの読み出しを２回以上繰り返し行い、読み出された音声を再度アナログ信号に戻すようにする。

また、親密度情報に基づいて音声の音圧レベルを調整することに加えて、またはこれに代えて、単語親密度に応じて音声の再生速度を調整するようにしても良い。この再生速度の制御も、例えば次のようにして行うことが可能である。すなわち、受話音声や送話音声をデジタル化して一旦バッファメモリに蓄積し、バッファメモリからの読み出しタイミングを単語親密度に応じて可変とする。

また、親密度情報に基づいて音声の音圧レベルを調整することに加えて、またはこれに代えて、単語親密度が所定値より低い単語等を画面上に表示するようにしても良い。この表示制御は、図示しない表示コントローラ（例えば、電話番号等を表示装置に表示するために通常備えられているもの）を用いて行うことが可能である。

以上に説明した第１〜第４の実施形態による音圧調整の手法は、ハードウェア構成、ＤＳＰ、ソフトウェアの何れによっても実現することが可能である。例えばソフトウェアによって実現する場合、本実施形態の音声出力装置は、実際にはコンピュータのＣＰＵあるいはＭＰＵ、ＲＡＭ、ＲＯＭなどを備えて構成され、ＲＡＭやＲＯＭに記憶されたプログラムが動作することによって実現できる。

したがって、コンピュータが上記各実施形態の機能を果たすように動作させるプログラムを例えばＣＤ−ＲＯＭのような記録媒体に記録し、コンピュータに読み込ませることによって実現できるものである。上記プログラムを記録する記録媒体としては、ＣＤ−ＲＯＭ以外に、フレキシブルディスク、ハードディスク、磁気テープ、光ディスク、光磁気ディスク、ＤＶＤ、不揮発性メモリカード等を用いることができる。また、上記プログラムをインターネット等のネットワークを介してコンピュータにダウンロードすることによっても実現できる。

なお、上記第１〜第４の実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその精神、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。

本発明の音声出力装置および方法は、親密度に応じて単語等の単位で音圧を調整する装置あるいはシステムに広く適用することが可能であり、例えば上記実施形態で説明したナビゲーション装置や音声通話システムに有用である。また、インターネット等の情報ネットワーク上から受信したＷｅｂ情報や電子メールの内容を音声で読み上げる機能を有する情報通信装置にも有用である。さらに、会話や単語等を読み上げる語学学習システムにおいて、聞きなれない単語等や難易度の高い単語等、発音が難しい単語等の音圧を調整する場合にも有用である。

第１の実施形態に係る音声出力装置の要部構成例を示す図である。第２の実施形態に係る音声出力装置の要部構成例を示す図である。第３の実施形態に係る音声明瞭度改善システムの要部構成例を示す図である。第４の実施形態に係る音声通話システムの要部構成例を示す図である。単語親密度と単語了解度と音圧との関係を示した試験結果の特性図である。

符号の説明

１音声ＤＢ
２再生部
３音圧調整部
４ボリューム
１１テキスト生成部
１２ＴＴＳエンジン
１３音圧調整部
１４ボリューム
１５言語処理部
１６テキスト解析用辞書
１７音声合成部
１８音素片辞書
２１音声ＤＢ
２２再生部
２３ボリュームまたはイコライザ
２４音圧調整部
２５ゲイン制御部
２６適応フィルタ
２７スピーカ
２８マイク
２９減算器
３１音響モデルＤＢ
３２言語モデルＤＢ
３３第１の連続認識部
３４第１の音圧調整部
３５第１のボリューム
３６スピーカ
３７マイク
３８第２の連続認識部
３９第２の音圧調整部
４０第２のボリューム

Claims

複数の単語または単語列に対してどの程度なじみがあるかを表した親密度に関する情報を記憶した親密度情報記憶手段と、
上記親密度情報記憶手段に記憶されている親密度情報に基づいて、出力対象の各単語または単語列の音圧レベルを調整する音圧調整手段とを備えたことを特徴とする音声出力装置。
上記親密度情報記憶手段は、上記出力対象の各単語または単語列が録音された音声データベースに対して、単語または単語列の単位で上記親密度情報を付加して構成されたものであることを特徴とする請求項１に記載の音声出力装置。
上記親密度情報記憶手段は、与えられたテキスト情報をもとに音声波形を合成して再生する装置が備えるテキスト解析用の辞書データベースに対して、単語または単語列の単位で上記親密度情報を付加して構成されたものであることを特徴とする請求項１に記載の音声出力装置。
出力された音声の音圧レベルと、この出力音声の聴取位置において聴取可能な周囲音の音圧レベルとに基づいて、上記出力音声の補正ゲインを算出するゲイン算出手段を備え、
上記音圧調整手段は、上記ゲイン算出手段により算出された補正ゲインに基づいて、出力対象となる音声の音圧レベルを調整するとともに、上記親密度情報記憶手段に記憶されている親密度情報に基づいて、上記出力対象となる音声の音圧レベルを単語または単語列の単位で調整することを特徴とする請求項１に記載の音声出力装置。
入力された音声とあらかじめ用意されている音声辞書とを比較し、入力音声に係る単語または単語列を認識してテキスト情報に変換する音声認識手段を備え、
上記親密度情報記憶手段は、複数の単語または単語列を表すテキスト情報と上記親密度との関係を示した情報を記憶して構成されたものであり、
上記音圧調整手段は、上記音声認識手段により変換されたテキスト情報をもとに上記親密度情報記憶手段を参照して得られる上記親密度情報に基づいて、上記入力音声の音圧レベルを単語または単語列の単位で調整することを特徴とする請求項１に記載の音声出力装置。
上記音声認識手段は、音声通話システムにおける受話音声を入力してあらかじめ用意されている音声辞書とを比較し、上記受話音声に係る単語または単語列を認識してテキスト情報に変換することを特徴とする請求項５に記載の音声出力装置。
上記音声認識手段は、音声通話システムにおける送話音声を入力してあらかじめ用意されている音声辞書とを比較し、上記送話音声に係る単語または単語列を認識してテキスト情報に変換することを特徴とする請求項５に記載の音声出力装置。
上記音声認識手段は、音声通話システムにおける受話音声を入力してあらかじめ用意されている音声辞書とを比較し、上記受話音声に係る単語または単語列を認識してテキスト情報に変換する第１の音声認識手段と、上記音声通話システムにおける送話音声を入力してあらかじめ用意されている音声辞書とを比較し、上記送話音声に係る単語または単語列を認識してテキスト情報に変換する第２の音声認識手段とを備え、
上記音圧調整手段は、上記第１の音声認識手段により変換されたテキスト情報をもとに上記親密度情報記憶手段を参照して得られる上記親密度情報に基づいて、上記受話音声の音圧レベルを単語または単語列の単位で調整する第１の音圧調整手段と、上記第２の音声認識手段により変換されたテキスト情報をもとに上記親密度情報記憶手段を参照して得られる上記親密度情報に基づいて、上記送話音声の音圧レベルを単語または単語列の単位で調整する第２の音圧調整手段とを備えることを特徴とする請求項５に記載の音声出力装置。
上記音声通話システムにおいて通話を開始する前に、通話相手が上記音圧調整手段を備えているか否かを判定する判定手段と、
上記判定手段により通話相手が上記音圧調整手段を備えていると判定されたときに、上記第１の音圧調整手段および上記第２の音圧調整手段の少なくとも一方の機能を休止させるように制御する制御手段とを備えたことを特徴とする請求項８に記載の音声出力装置。
上記親密度情報記憶手段に記憶されている親密度情報に基づいて、親密度が所定値より低い単語または単語列を２回以上繰り返して再生するように制御する再生制御手段を備えたことを特徴とする請求項１に記載の音声出力装置。
上記親密度情報記憶手段に記憶されている親密度情報に基づいて、上記出力対象の各単語または単語列の再生速度を調整する再生制御手段を備えたことを特徴とする請求項１に記載の音声出力装置。
上記親密度情報記憶手段に記憶されている親密度情報に基づいて、親密度が所定値より低い単語または単語列を画面上に表示するように制御する表示制御手段を備えたことを特徴とする請求項１に記載の音声出力装置。
複数の単語または単語列に対してどの程度なじみがあるかを表した親密度情報を音圧調整部が参照して、出力対象の各単語または単語列の音圧レベルを上記親密度情報に応じて調整するようにしたことを特徴とする音声出力方法。
上記出力対象の各単語または単語列が録音された音声データベースから音声を再生するときに、上記音声データベース上において単語または単語列の単位で記録されている上記親密度情報を上記音圧調整部が参照して、再生する音声の音圧レベルを単語または単語列の単位で調整することを特徴とする請求項１３に記載の音声出力方法。
与えられたテキスト情報をもとに音声波形を合成して再生するときに、テキスト解析用の辞書データベースにおいて単語または単語列の単位で記録されている上記親密度情報を上記音圧調整部が参照して、再生する音声の音圧レベルを単語または単語列の単位で調整することを特徴とする請求項１３に記載の音声出力方法。
外部より入力された音声を再生するときに、上記入力音声とあらかじめ用意されている音声辞書とを比較して上記入力音声に係る単語または単語列を音声認識部が認識し、当該認識された単語または単語列に対応する上記親密度情報を上記音圧調整部が参照して、再生する音声の音圧レベルを単語または単語列の単位で調整することを特徴とする請求項１３に記載の音声出力方法。
出力された音声の音圧レベルと、この出力音声の聴取位置において聴取可能な周囲音の音圧レベルとに基づいて補正ゲインを求め、当該補正ゲインに基づいて上記出力音声の音圧レベルを補正する音声明瞭度改善システムにおいて、
上記音圧調整部が上記補正ゲインに基づいて上記出力音声の音圧レベルを調整するとともに、上記親密度情報に基づいて上記出力音声の音圧レベルを単語または単語列の単位で調整することを特徴とする請求項１３に記載の音声出力方法。
上記親密度情報に基づいて、親密度が所定値より低い単語または単語列を２回以上繰り返し再生して出力するようにしたことを特徴とする請求項１３に記載の音声出力方法。
上記親密度情報に基づいて、親密度が所定値より低い単語または単語列を、親密度が上記所定値以上の単語または単語列よりも遅い速度で再生して出力するようにしたことを特徴とする請求項１３に記載の音声出力方法。
上記親密度情報に基づいて、親密度が所定値より低い単語または単語列を画面上に表示するようにしたことを特徴とする請求項１３に記載の音声出力方法。