JP2004525412A

JP2004525412A - 合成された音声の了解度を改善するためのランタイム合成装置適合方法およびシステム

Info

Publication number: JP2004525412A
Application number: JP2002572565A
Authority: JP
Inventors: ピーター・ヴェプレク
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2001-03-08
Filing date: 2002-03-07
Publication date: 2004-08-19
Also published as: EP1374221A1; CN1316448C; WO2002073596A1; CN1549999A; US6876968B2; RU2003129075A; RU2294565C2; US20020128838A1; EP1374221A4

Abstract

合成された音声をランタイム修正するための方法およびシステムが提供される。前記方法は、テキスト入力（１６）と複数のランタイム制御パラメータ値（４２）とに基づいて、合成された音声を生成する段階（４０）を含む。前記リアルタイムデータは、入力信号（４６）に基づいて生成され（４４）、この場合に、該入力信号は、聴取者に関する音声の了解度を特徴づける。前記方法は、音声の了解度が増加するように、リアルタイムデータ（２０）に基づいて、ランタイム制御パラメータ値のうちの１つ以上を修正する段階（４８）をさらに提供する。設計段階中とは対照的に、ランタイム時にパラメータ値を修正することは、従来型のアプローチによっては達成不可能な適合レベルを提供する。

Description

【技術分野】
【０００１】
本発明は、概略的には、音声合成（speech synthesis）に関するものである。より詳細には、本発明は、リアルタイムデータに基づいて、合成された音声の了解度（intelligibility）をランタイム（run-time）時に改善するための方法およびシステムに関するものである。
【背景技術】
【０００２】
自動車のキャビンや、航空機のキャビンおよび操縦室や、自宅および職場のような多くの環境内で、聴取者に提示される可聴音（audible sound）の了解度を改善するためのシステムが開発されている。例えば、自動車のオーディオシステムの出力を改善するための最近の成果が、該オーディオシステムのスペクトル出力を手動でまたは自動的に調整できる等化器（equalizer）という結果となっている。このことが聴取者による様々な制御操作に応じて従来的に行われている一方で、より最近の成果は、聴取者の環境のオーディオサンプリングを含む。オーディオシステム等化アプローチは、通常は、システムが用いられる場合の予想される環境に関する著しい量の知識を必要とする。したがって、この形式の適合は、オーディオシステム出力に制限され、かつ、自動車の場合には、特定の型およびモデルに通常は固定される。
【０００３】
実際に、表音綴り字法（phonetic spelling）によるアルファベット（すなわち、アルファ（alpha）、ブラボー（bravo）、チャーリー（Charlie）、…）は、綴られた自体の曖昧さを厳格な条件下で除くために、航空交通および軍隊様式のコミュニケーションにおいて、長年にわたって用いられている。したがって、このアプローチは、ある音が、チャンネルおよび／または背景雑音が存在する場合の他の音よりも本質的に分かり易いという基本的な理論にさらに基づくものである。
【０００４】
了解度の改善についての他の例は、アップリンク／ダウンリンクチャンネル内、および、基地局ネットワーク内の送信エラーにより引き起こされる可聴歪み（audible distortion）を低減させるためのセルラー電話内における信号処理を含む。このアプローチは、チャンネル（または、畳み込み）雑音に関係するものではあるが、聴取者の環境内に存在する背景（付加）雑音について考慮していないことに留意することは重要である。さらに他の例は、テレビ会議において通常用いられる従来型の反響消去（echo cancellation）システムである。
【発明の開示】
【発明が解決しようとする課題】
【０００５】
前述の技術のいずれも、合成された音声をランタイム時に修正するための機構を提供していないことに留意することもまた重要である。このことは重要である。その理由は、音声合成装置（speech synthesizer）の出力の改善における最近の進歩に起因して、音声合成の人気が急速に高まっているためである。。これらの最近の業績にも拘わらず、音声合成に関する多数の問題点が依然として存在している。実際に、ある特定の問題点は、全ての従来型の音声合成装置が、設計時に様々な制御パラメータ値を設定するために、予想される環境についての事前知識を必要とする点である。このようなアプローチが非常に柔軟性に欠け、かつ、所定の音声合成装置を、該音声合成装置を最適に利用できる比較的狭い環境群に制限することを理解することは容易である。したがって、音声の了解度が増加するように、リアルタイムデータに基づいて、合成された音声を修正するための方法およびシステムを提供することが望ましい。
【課題を解決するための手段】
【０００６】
前述のおよび他の目的は、本発明による、合成された音声を修正するための方法により提供される。前記方法は、テキスト入力と複数のランタイム制御パラメータ値とに基づいて、合成された音声を生成する段階を含む。前記リアルタイムデータは、入力信号に基づいて生成され、この場合に、該入力信号は、聴取者に関する音声の了解度を特徴づける。前記方法は、音声の了解度が増加するように、リアルタイムデータに基づいて、ランタイム制御パラメータ値のうちの１つ以上を修正する段階をさらに提供する。設計段階中とは対照的に、ランタイム時にパラメータ値を修正することは、従来型のアプローチによっては達成不可能な適合レベルを提供する。
【０００７】
さらに、本発明によれば、１つ以上の音声合成装置ランタイム制御パラメータ値を修正するための方法が提供される。前記方法は、リアルタイムデータを受信する段階と、合成された音声の関連特徴を、リアルタイムデータに基づいて識別する段階とを含む。前記関連特徴は、対応するランタイム制御パラメータを有する。前記方法は、音声の関連特徴が望ましい様式で変化するように、調整値を制御パラメータのパラメータ値に適用する段階をさらに提供する。
【０００８】
本発明の他の特徴において、音声合成装置の適合システムは、テキスト音声（ＴＴＳ）合成装置と、オーディオ入力システムと、適合制御装置とを含む。前記合成装置は、テキスト入力と複数のランタイム制御パラメータ値とに基づいて、音声を生成する。前記オーディオ入力システムは、音声が再生される環境内に含まれる様々な形式の背景雑音に基づいて、リアルタイムデータを生成する。前記適合制御装置は、合成装置とオーディオ入力システムとに動作可能に連結される。前記適合制御装置は、背景雑音と音声との間の干渉が低減するように、リアルタイムデータに基づいて、ランタイム制御パラメータ値のうちの１つ以上を修正する。
【０００９】
前述の概略的説明および以下の詳細な説明の両方が、本発明の例示に過ぎず、かつ、本発明の本質および特性をクレームされている通りに理解するための概観および枠組を提供するようには意図されていないことを理解すべきである。添付図面は、本発明のさらなる理解を提供するために含まれ、かつ、本明細書に組み込まれて本明細書の一部を構成する。これらの図面は、本発明の様々な特性および実施例を例示し、かつ、記載とともに、本発明の原理および作用を説明するのに役立つ。
【発明を実施するための最良の形態】
【００１０】
本発明の様々な利点は、以下の説明および追加クレームを読みかつ図面を参照することにより、当業者には明らかとなるだろう。
【００１１】
以下、図１を参照すると、好ましい音声合成装置の適合システム１０が示される。概略的に、適合システム１０は、テキスト入力１６と複数のランタイム制御パラメータ値４２とに基づいて、合成された音声１４を生成するためのテキスト音声（text-to-speech）（ＴＴＳ）合成装置１２を有する。オーディオ入力システム１８は、音声１４が再生される環境２４内に含まれる背景雑音２２に基づいて、リアルタイムデータ（ＲＴＤ）２０を生成する。適合制御装置２６は、合成装置１２とオーディオ入力システム１８とに動作可能に連結される。適合制御装置２６は、背景雑音２２と音声１４との間の干渉が低減するように、リアルタイムデータ２０に基づいて、ランタイム制御パラメータ値４２のうちの１つ以上を修正する。オーディオ入力システム１８は、マイクロフォンのような、音波を電気信号に変換するための音響−電気（acoustic-electric）信号変換器を含むことが好ましい。
【００１２】
背景雑音２２は、例示されるような多数の音源からの成分を含み得る。干渉音源は、音源の形式および特徴に応じて分類される。例えば、パトロールカーのサイレン２８や通過する航空機（図示せず）のような音源は、急速に変化する特徴をしばしば有する瞬時の高レベルの干渉を生じさせる。運転中の機械装置３０や空気調和ユニット（図示せず）のような他の音源は、通常は、変動のない連続的な低レベルの背景雑音を生じさせる。さらに、ラジオ３２や様々な娯楽用ユニット（図示せず）のような他の音源は、合成された音声１４と同様の特徴を備えた、音楽や歌のような継続的な干渉をしばしば生じさせる。さらに、環境２４内に存在する競合する話者３４は、合成された音声１４の属性と事実上同一の属性を有する干渉音源であり得る。さらに、環境２４自体が、合成された音声１４の出力に影響を及ぼし得る。環境２４は（したがって、その影響もまた）、時間とともに動的に変化し得る。
【００１３】
例示された適合システム１０は、音声１４が再生される環境２４内に含まれる背景雑音２２に基づいてリアルタイムデータ２０を生成するが、本発明はこのように制限されるものではないことに留意することは重要である。例えば、より詳細に後述するように、リアルタイムデータ２０については、入力装置１９を経ての聴取者３６からの入力に基づいて生成することもできる。
【００１４】
以下、図２を参照すると、合成された音声１４を修正するための方法３８が示される。段階４０において、合成された音声が、テキスト入力１６と複数のランタイム制御パラメータ値４２とに基づいて生成されることが理解できる。リアルタイムデータ２０は、段階４４において、入力信号４６に基づいて生成され、この場合に、該入力信号４６は、聴取者に関する音声の了解度を特徴づける。既述したように、入力信号４６は、環境内の背景雑音２２から、または、聴取者（または、他のユーザー）から、直接的に生じ得る。それにも拘わらず、入力信号４６は、音声の了解度に関するデータを含み、したがって、音声をランタイム時に適合させるための貴重な情報源を示す。段階４８において、音声の了解度が増加するように、ランタイム制御パラメータ値４２のうちの１つ以上が、リアルタイムデータ２０に基づいて修正される。
【００１５】
既述したように、一実施例は、音声が再生される環境内に含まれる背景雑音に基づいて、リアルタイムデータ２０を生成することを含む。したがって、図３は、段階４４においてリアルタイムデータ２０を生成するための好ましいアプローチを示す。具体的には、段階５２において、背景雑音２２が電気信号５０に変換されることが理解できる。段階５４において、１つ以上の干渉モデル５６がモデルデータベース（図示せず）から検索される。これにより、電気信号５０と干渉モデル５６とに基づいて、段階５８において、背景雑音２２をリアルタイムデータ２０によって特徴づけることができる。
【００１６】
図４は、段階５８において背景雑音を特徴づけるための好ましいアプローチを例示する。具体的には、段階６０において、時間領域解析が電気信号５０について実行されることが理解できる。結果として生じる時間データ６２は、本明細書において説明する工程において用いるべき多くの情報を提供する。同様に、段階６４において、周波数領域解析が電気信号５０について実行され、周波数データ６６が得られる。段階６０および段階６４が実行される順序が全体的な結果にとって重要ではないことに留意することは重要である。
【００１７】
特徴づけ段階５８が背景雑音内の様々な形式の干渉を識別することを含むことに留意することもまた重要である。これらの例は、高レベルの干渉、低レベルの干渉、瞬時の干渉、連続的な干渉、変動する干渉、および、変動のない干渉を含むが、これらに制限されるものではない。特徴づけ段階５８は、背景雑音の潜在的な音源を識別すること、背景雑音内の音声を識別すること、および、これら全ての音源の位置を判断することをさらに含むこともできる。
【００１８】
以下、図５を参照すると、ランタイム制御パラメータ値４２を修正するための好ましいアプローチが、より詳細に示される。具体的には、段階６８において、リアルタイムデータ２０が受信され、かつ、段階７０において、音声の関連特徴（relevant characteristics）７２がリアルタイムデータ２０に基づいて識別されることが理解できる。関連特徴７２は、対応するランタイム制御パラメータを有する。段階７４において、音声の関連特徴７２が望ましい様式で変化するように、調整値が制御パラメータのパラメータ値に適用される。
【００１９】
以下、図６を参照すると、潜在的な関連特徴７２が、より詳細に示される。概略的には、関連特徴７２については、話者の特徴７６、感情の特徴７７、方言の特徴７８、および、内容の特徴７９に分類することができる。話者の特徴７６については、発声（voice）の特徴８０、および、発話様式（speaking style）の特徴８２にさらに分類することができる。発声の特徴８０に影響を及ぼすパラメータは、発話速度（speech rate）、ピッチ（基本周波数）、音量（volume）、パラメトリック等化（parametric equalization）、フォルマント（formants）（フォルマント周波数および帯域幅）、声門音源（glottal source）、音声パワースペクトル（speech power spectrum）の傾き（tilt）、性別、年齢、および、身元を含むが、これらに制限されるものではない。発話様式の特徴８２に影響を及ぼすパラメータは、動的な韻律（prosody）（例えば、音律、強勢、および、イントネーション）、および、調音（articulation）を含むが、これらに制限されるものではない。したがって、破裂音（stop consonants）などを十分に調音させることにより過調音（over-articulation）が達成され、より良い了解度という結果となり得る。
【００２０】
聴取者の注意を捉えるために、緊急度（urgency）のような感情の特徴７７に関連するパラメータをさらに用いることができる。方言の特徴７８は、発音（pronunciation）および調音（フォルマントなど）により影響を及ぼされ得る。冗長性（redundancy）、反復（repetition）、および、語彙（vocabulary）のようなパラメータが内容の特徴７９に関連することが、さらに理解されるだろう。例えば、同義の（synonym）単語（words）および語句（phrases）を用いることにより（例えば、５ＰＭ＝５ｐｍ（five pm）対午後５時（five o'clock in the afternoon））、音声内の冗長性を追加または除去することが挙げられる。反復は、重要な内容をより強調するために、合成された音声の一部を選択的に繰り返すことを含む。さらに、言葉の混乱を低減させるために、限られた語彙および限られた文の構造を許容することもまた、了解度を増加させ得る。
【００２１】
以下、図１へ戻ると、リアルタイムデータ２０に基づいて音声１４を空間的に別の場所に移す（spatially reposition）ために、ポリフォニックオーディオ処理（polyphonic audio processing）を、オーディオ出力システム８４と関連して利用できることが理解されるだろう。
【００２２】
前述の説明から、当業者は、本発明の広い教示内容を様々な形式で実施できることを、今では理解することができる。したがって、本発明をその特定の例と関連して説明できる一方で、本発明の真の範囲はそのように制限されるべきではない。その理由は、図面、明細書、および、請求項の検討に基づいて、他の修正形態が当業者には明らかとなるためである。
【図面の簡単な説明】
【００２３】
【図１】本発明の原理による、音声合成装置の適合システムのブロック図である。
【図２】本発明の原理による、合成された音声を修正するための方法のフローチャートである。
【図３】本発明の一実施例による、入力信号に基づいてリアルタイムデータを生成するためのプロセスのフローチャートである。
【図４】本発明の一実施例による、背景雑音をリアルタイムデータによって特徴づけるためのプロセスのフローチャートである。
【図５】本発明の一実施例による、１つ以上のランタイム制御パラメータ値を修正するためのプロセスのフローチャートである。
【図６】本発明の一実施例による、関連特徴と、対応するランタイム制御パラメータとを示す図である。
【符号の説明】
【００２４】
１０音声合成装置の適合システム
１２テキスト音声合成装置
１４合成された音声
１６テキスト入力
１８オーディオ入力システム
１９入力装置
２０リアルタイムデータ
２２背景雑音
２４音声が再生される環境
２６適合制御装置
２８サイレン
３０機械装置
３２ラジオ
３４話者
３６聴取者
４２ランタイム制御パラメータ値
４６入力信号
５０電気信号
５６干渉モデル
６２時間データ
６６周波数データ
７２音声の関連特徴
８４オーディオ出力システム

Claims

合成された音声を修正するための方法であって、
テキスト入力と複数のランタイム制御パラメータ値とに基づいて、合成された音声を生成する段階と、
聴取者に関する音声の了解度を特徴づける入力信号に基づいて、リアルタイムデータを生成する段階と、
音声の了解度が増加するように、リアルタイムデータに基づいて、ランタイム制御パラメータ値のうちの１つ以上を修正する段階と
を含むことを特徴とする方法。
前記音声が再生される環境内に含まれる背景雑音に基づいて、リアルタイムデータを生成する段階をさらに含むことを特徴とする請求項１に記載の方法。
前記背景雑音を電気信号に変換する段階と、
１つ以上の干渉モデルをモデルデータベースから検索する段階と、
電気信号と干渉モデルとに基づいて、背景雑音をリアルタイムデータによって特徴づける段階と
を含むことを特徴とする請求項２に記載の方法。
前記電気信号について、時間領域解析を実行する段階をさらに含むことを特徴とする請求項３に記載の方法。
前記電気信号について、周波数領域解析を実行する段階をさらに含むことを特徴とする請求項３に記載の方法。
前記特徴づけ段階は、
背景雑音内の高レベルの干渉を識別する段階と、
背景雑音内の低レベルの干渉を識別する段階と、
背景雑音内の瞬時の干渉を識別する段階と、
背景雑音内の連続的な干渉を識別する段階と、
背景雑音内の変動する干渉を識別する段階と、
背景雑音内の変動のない干渉を識別する段階と、
背景雑音の音源の空間的位置を識別する段階と、
背景雑音の潜在的な音源を識別する段階と、
背景雑音内の音声を識別する段階と
から本質的になるグループから選択されることを特徴とする請求項３に記載の方法。
前記リアルタイムデータを受信する段階と、
音声の関連特徴であって、対応するランタイム制御パラメータを有する関連特徴を、リアルタイムデータに基づいて識別する段階と、
音声の関連特徴が望ましい様式で変化するように、調整値を制御パラメータのパラメータ値に適用する段階と
をさらに含むことを特徴とする請求項１に記載の方法。
前記音声の話者の関連特徴を変化させる段階をさらに含むことを特徴とする請求項７に記載の方法。
前記音声の発声の関連特徴を変化させる段階をさらに含むことを特徴とする請求項８に記載の方法。
発話速度と、
ピッチと、
音量と、
パラメトリック等化と、
フォルマント周波数および帯域幅と、
声門音源と、
音声パワースペクトルの傾きと、
性別と、
年齢と、
身元と
から本質的になるグループから選択される特徴を変化させる段階をさらに含むことを特徴とする請求項９に記載の方法。
前記音声の発話様式の関連特徴を変化させる段階をさらに含むことを特徴とする請求項８に記載の方法。
動的な韻律と、
調音と
から本質的になるグループから選択される特徴を変化させる段階をさらに含むことを特徴とする請求項１１に記載の方法。
前記音声の感情の関連特徴を変化させる段階をさらに含むことを特徴とする請求項７に記載の方法。
前記音声の緊急度の特徴を変化させる段階をさらに含むことを特徴とする請求項１３に記載の方法。
前記音声の方言の関連特徴を変化させる段階をさらに含むことを特徴とする請求項７に記載の方法。
発音と、
調音と
から本質的になるグループから選択される特徴を変化させる段階をさらに含むことを特徴とする請求項１５に記載の方法。
前記音声の内容の関連特徴を変化させる段階をさらに含むことを特徴とする請求項７に記載の方法。
冗長性と、
反復と、
語彙と
から本質的になるグループから選択される特徴を変化させる段階をさらに含むことを特徴とする請求項１７に記載の方法。
前記リアルタイムデータに基づいて音声を空間的に別の場所に移すために、ポリフォニックオーディオ処理を利用する段階をさらに含むことを特徴とする請求項１に記載の方法。
前記聴取者の入力に基づいて、リアルタイムデータを生成する段階をさらに含むことを特徴とする請求項１に記載の方法。
前記合成された音声を、自動車の用途において用いる段階をさらに含むことを特徴とする請求項１に記載の方法。
１つ以上の音声合成装置ランタイム制御パラメータを修正するための方法であって、
リアルタイムデータを受信する段階と、
合成された音声の関連特徴であって、対応するランタイム制御パラメータを有する関連特徴を、リアルタイムデータに基づいて識別する段階と、
音声の関連特徴が望ましい様式で変化するように、調整値を制御パラメータのパラメータ値に適用する段階と
を具備することを特徴とする方法。
前記音声の話者の関連特徴を変化させる段階をさらに含むことを特徴とする請求項２２に記載の方法。
前記音声の発声の関連特徴を変化させる段階をさらに含むことを特徴とする請求項２３に記載の方法。
前記音声の発話様式の関連特徴を変化させる段階をさらに含むことを特徴とする請求項２３に記載の方法。
前記音声の感情の関連特徴を変化させる段階をさらに含むことを特徴とする請求項２２に記載の方法。
前記音声の方言の関連特徴を変化させる段階をさらに含むことを特徴とする請求項２２に記載の方法。
前記音声の内容の関連特徴を変化させる段階をさらに含むことを特徴とする請求項２２に記載の方法。
テキスト入力と複数のランタイム制御パラメータ値とに基づいて、音声を生成するためのテキスト音声合成装置と、
音声が再生される環境内に含まれる背景雑音に基づいて、リアルタイムデータを生成するためのオーディオ入力システムと、
合成装置とオーディオ入力システムとに動作可能に連結され、背景雑音と音声との間の干渉が低減するように、リアルタイムデータに基づいて、ランタイム制御パラメータ値のうちの１つ以上を修正する適合制御装置と
を具備することを特徴とする音声合成装置の適合システム。
前記オーディオ入力システムは、音響−電気信号変換器を含むことを特徴とする請求項２９に記載の適合システム。