JP2008530608A

JP2008530608A - 音声合成方法

Info

Publication number: JP2008530608A
Application number: JP2007554694A
Authority: JP
Inventors: マレクシュチェルバ; ブリンケルアルベルトゥスシーデン; アンドレアスジェイヒェリツ; アルノルドゥスダブリュジェイオーメン; ミッデリンクマルククレイン
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2005-02-10
Filing date: 2006-02-01
Publication date: 2008-08-07
Anticipated expiration: 2026-02-01
Also published as: EP1851752A1; US7781665B2; US20080184871A1; KR20070104465A; KR101207325B1; CN101116135B; EP1851752B1; WO2006085244A1; CN101116135A; JP5063364B2

Abstract

装置１は、パラメータの群によって表現される音声を合成するように構成され、各群は、前記音声の雑音成分を表す雑音パラメータＮＰ、並びに任意選択的に過渡変動及び正弦波などの他の成分を表す他のパラメータを含む。それぞれのパラメータの群は、ＭＩＤＩボイスなどの音声チャネルに対応し得る。計算負荷を低減するために、前記装置は、振幅又はエネルギ等の知覚的関連性値に基づいて、前記群の総数から、制限された群を選択する選択ユニット２を備える。前記装置は、更に、前記選択された群の雑音パラメータのみを用いて前記雑音成分を合成する合成ユニット３を備える。

Description

本発明は、音声の合成方法に関する。より特には、本発明は、パラメータの群によって表される音声を合成する装置及び方法に関し、各群は、前記音声の雑音成分を表す雑音パラメータと、他の成分を表す他のパラメータと、を含む。

音声を、パラメータの群によって表現することは周知である。音声を、一連のパラメータによって表す、いわゆるパラメトリック符号化技法が、音声を効率的に符号化するために用いられる。適した復号器は、元の音声を、前記一連のパラメータを用いてほぼ再構築することが可能である。前記一連のパラメータは、複数の群に分割され得、各群は、例えば（人間の）話者又は楽器などの個別の音源（音声チャネル）に対応する。

普及しているＭＩＤＩ(Musical Instrument Digital Interface)プロトコルは、音楽が、楽器用の機材の群によって表現されることを可能にする。それぞれの機材は、特定の機材に割り当てられる。それぞれの機材は、（ＭＩＤＩにおいて「ボイス」と呼ばれる）１つ又は複数の音声チャネルを使用し得る。同時に使用され得る音声チャネルの数は、多声(polyphony)レベル又は多声と呼ばれる。ＭＩＤＩ楽器は、効率的に伝送及び／又は記憶され得る。

合成器は、通常、例えば音声バンク又はパッチデータなどの、音声定義データを含む。楽器の音声のサンプルは、音声バンクにおいて、音声データとして記憶される一方で、パッチデータは、音声発生器に関する制御パラメータを規定する。

ＭＩＤＩ楽器は、合成器に、音声バンクから音声データを取得するようにさせ、当該データによって表現される音声を合成させるようにする。これらの音声データは、従来のwave-table合成の場合のように、デジタル化された音声（波形）である、実際の音声サンプルであり得る。しかし、音声サンプルは、通常、多量のメモリを必要とし、このような多量のメモリは、特に携帯電話等のハンドヘルド型民生装置などの、比較的小型な装置においては実現可能でない。

代替的には、音声サンプルは、パラメータによって表現され得、前記パラメータは、振幅、周波数、位相、及び／又は方形型パラメータを含み得、音声サンプルが再構築されるのを可能にする。音声サンプルのパラメータを記憶するのには、通常、実際の音声サンプルを記憶するよりも遥かに少ないメモリを必要とする。しかし、音声の合成は、計算的に負荷の大きいものであり得る。これは、特に、異なる音声チャネル（ＭＩＤＩにおける「ボイス」）を表すパラメータの多くの群が、同時に合成される（高度の多音）である必要がある場合に該当することである。計算的な負荷は、通常、高度な多音で合成されるべきチャネル（「ボイス」）の数に比例して増加する。このことは、斯様な技法がハンドヘルド装置で用いられることを困難にする。

論文である"Parametric Audio Coding Based Wavetable Synthesis" by M. Szczerba, W. Oomen and M. Klein Middelink, Audio Engineering Society Convention Paper No. 6063, Berlin (Germany), May 2004は、ＳＳＣ(SinusSoidal Coding) wavetable合成器を開示している。ＳＳＣ符号化器は、音声入力を、過渡変動、正弦波、及び雑音成分に分解し、これらの成分のそれぞれに関するパラメータ的表現を生成する。これらのパラメータ的表現は、音声バンクに記憶される。ＳＳＣ復号器（合成器）は、このパラメータ的表現を、元の音声入力を再構築するために使用する。雑音成分を再構築するために、個別の音声チャネルの時間的包絡線は、それぞれの利得と組み合わせられて加算され、その後、白色雑音は、時間的に形成された雑音信号を生成するために、この組み合わせられた時間的包絡線と混合される。個別のチャネルのスペクトル包絡線パラメータは、時間的及びスペクトル的の両方に形成される雑音信号を生成するように、時間的に形成される雑音信号をフィルタリングするフィルタ係数を生成するのに用いられる。

この既知の装置は非常に効果的であるものの、多くの音声チャネルに関して時間的包絡線及びスペクトル包絡線の両方を決定することは、相当の計算負荷を含む。多くの最新の音声システムにおいて、６４音声チャネルが用いられ得、更に多くの数の音声チャネルが想定される。このことは、既知の装置を、制限された計算処理能力を有する比較的小型な装置において使用するのを不適にする。

一方で、携帯電話などのハンドヘルド型民生装置において音声合成に関する需要は増加している。現代の消費者は、自身のハンドヘルド装置が、様々な呼び出し音などの広範囲の音声を生成することを期待している。

したがって、本発明の目的は、従来技術のこれら及び他の問題を解決すること、並びに、音声の雑音成分を合成する装置及び方法であって、より効率的で計算負荷を低減する装置及び方法を提供することである。

したがって、本発明は、パラメータの群によって表現される音声を合成する装置であって、各群は、前記音声の雑音成分を表す雑音パラメータを含み、
−知覚的関連性値に基づいて、前記群の総数から、制限された群を選択する選択手段と、
−前記選択された群の雑音パラメータのみを用いて前記雑音成分を合成する合成手段と、
を備える装置を提供する。

制限された数のパラメータの群を選択すること、及び合成に関してこの制限されたパラメータの群のみを使用することによって、有効に残りの群を無視し、合成の計算負荷が、相当低減され得る。特定のパラメータの群を使用しないことの知覚的な効果は、知覚的関連性値を用いて群を選択することによって、驚くほどに小さくなる。

例えばパラメータの６４個の群から５個のみを使用することにより、再構築される（すなわち、合成される）音声の知覚される品質は深刻に影響し得ることが予想され得る。しかし、本発明者は、本発明の例のように適切に５個の群を選択することによって、音声品質は影響されないことを発見していた。群の数が更に低減される場合、音声品質の劣化が生じる。しかし、この低下は、緩やかなものであり、３つの選択される群の数は、なお許容され得る。

パラメータの群は、音声の雑音成分を表現する雑音パラメータに加えて、音声の他の成分を表現する他のパラメータも備える。したがって、それぞれのパラメータの群は、雑音パラメータ、並びに正弦波及び／又は過渡変動パラメータなどの他のパラメータを備え得る。しかし、群が、雑音パラメータのみを含むことも可能であり得る。

雑音パラメータの群の選択は、正弦波及び／又は過渡変動パラメータなどのいかなる他のパラメータとは独立であることが好ましいことが特記される。しかし、特定の実施例において、前記選択する手段が、制限された数の群を、他の音声成分を表現する１つ又は複数の他のパラメータに基づいて、前記群の総数から選択するようにも構成される。すなわち、ある群のいずれの正弦波及び／又は過渡変動パラメータも、含まれ得、したがって、群の雑音パラメータの選択に影響を与える。

好ましい実施例において、前記装置は、どのパラメータの群を選択するかを決定する決定部、及び前記決定部によって提供される情報に基づきパラメータの群を選択する選択部、を備える。しかし、決定部および選択部が単一の一体型ユニットを構成する実施例も想定され得る。代替的に、装置は、パラメータの群を、当該パラメータの群に含まれる知覚的関連性値に基づき選択する選択部を含み得る。知覚的関連性値、又はいかなる更なる決定処理を必要としない選択を決定し得るいかなる他の値が、パラメータの群に含まれる場合、決定部は、もはや必要とされない。

本発明の前記合成装置は、全ての選択された群の雑音をスペクトル的に形成する単一のフィルタと、前記フィルタのフィルタパラメータを決定するLevinson-Durbinユニットと、を備え、前記単一のフィルタが、好ましくは、Laguerreフィルタによって構成される。斯様にして、非常に効率的な合成が達成される。

有利には、本発明の装置は、いずれの却下される雑音成分によるいずれのエネルギ損失に関しても、前記選択された雑音成分の利得を補償する利得補償手段を更に備え得る。利得補償手段は、雑音の総エネルギが選択処理によってほぼ影響を受けていないままにされることを可能にするが、これは、いかなる却下される雑音成分のエネルギも選択される雑音成分に対して分配されるからである。

加えて、本発明は、パラメータの群によって音声を表現する符号化装置であって、各群は、前記音声の雑音成分を表す雑音パラメータを含み、当該装置は、それぞれの雑音パラメータの知覚的関連性を表現する関連性値を提供する関連性検出器を備える。関連性パラメータは、好ましくは、それぞれの群に加えられ、知覚性モデルに基づき決定され得る。生じるパラメータの群は、上述の合成する装置によって音声へと再変換され得る。

本発明は、上述の合成する装置を含む民生装置も提供する。本発明の民生装置は、必ずしもそうである必要はないが好ましくは、携帯型で、より一層好ましくはハンドヘルド型であり、また携帯（セルラー）電話、ＣＤプレーヤ、ＤＶＤプレーヤ、（ＭＰ３プレーヤ等の）ソリッドステートプレーヤ、ＰＤＡ(PersonalDigitalAssistant)、又はいかなる他の適した機器により構成され得る。

本発明は、更に、パラメータの群によって表現される音声を合成する方法であって、各群は、前記音声の雑音成分を表す雑音パラメータを含み、
−知覚的関連性値に基づいて、前記群の総数から、制限された群を選択するステップと、
−前記選択された群の雑音パラメータのみを用いて前記雑音成分を合成するステップと、
を含む方法を提供する。

本発明の方法において、前記知覚的関連性値が、前記雑音の振幅、及び／又は前記雑音のエネルギを示し得る。

前記パラメータの群は、雑音パラメータのみを含み得るが、正弦波及び／又は過渡変動などの、音声の他の成分を表現する他のパラメータも含み得る。

本発明の方法は、いずれの却下される雑音成分によるいずれのエネルギ損失に関しても、前記選択された雑音成分の利得を補償する更なるステップを含み得る。このステップを適用することによって、雑音の総エネルギは、選択する過程によってほぼ影響されていない。

本発明は、追加的に、上述の方法を実行する計算機プログラムを提供する。計算機プログラムは、ＣＤ又はＤＶＤなどの光学又は磁気担体に記憶された、又は例えばインターネット等の遠隔サーバに記憶されそこからダウンロード可能な一群の計算機実行可能な命令を含み得る。

本発明は、添付の図面に例示される例証的な実施例を参照にして以下に更に説明される。

図１において非制限的例のみとして示される雑音成分合成装置１は、選択ユニット（選択手段）２及び合成ユニット（合成手段）３を備える。本発明に従うと、選択ユニット２は、雑音成分パラメータＮＰを受信し、制限された数の雑音成分パラメータを選択し、これらの選択されたパラメータＮＰ'を合成ユニット３へ渡す。合成ユニット３は、形成された雑音、すなわち時間及び／又はスペクトル包絡線が形成されている雑音を合成するために、該選択された雑音成分パラメータＮＰ'のみを用いる。合成ユニット３の例証的な実施例は、図４を参照にしてさらに詳細に以下に説明される。

雑音成分パラメータＮＰは、図２に示されるように、音声パラメータの群S₁,S₂,…,S_Nの一部であり得る。群S_i(i=1…N)は、例示される例において、過渡変動音声成分を表現する過渡変動パラメータＴＰ、正弦波音声成分を表現する正弦波パラメータＳＰ、及び雑音音声成分を表現する雑音パラメータＮＰ、を含む。群S_iは、上述のＳＳＣ符号化器又はいかなる他の適した符号化器を用いて生成されてあり得る。特定の符号化器は、過渡変動パラメータ（ＴＰ）を生成し得ない一方で、他の符号化器は正弦波パラメータ（ＳＰ）を生成し得ないことを理解され得る。パラメータはＭＩＤＩフォーマットに準じてもよいし又は準じなくてもよい。

それぞれの群S_iは、単一の活動中の音声チャネル（又はＭＩＤＩにおける（ボイス））を表現し得る。

雑音成分パラメータを選択するステップは、図３により詳細に例示されており、図３は、装置１の選択ユニット２の実施例を概略的に示す。図３の例証的な選択ユニット２は、決定部２１及び選択部２２を備える。決定部２１及び選択部２２の両方は、雑音パラメータＮＰを受信する。しかし、決定部２１は、選択決定ステップが基づかれるべき適切な構成パラメータのみを必要とする。

適切な構成パラメータは、利得g_iである。好ましい実施例において、g_iは、群S_i（図２参照）の雑音の時間的包絡線の利得である。しかし、個別の雑音成分の振幅も用いられ得る、又はエネルギ値がパラメータから導出され得る。振幅及びエネルギが雑音の知覚を表すこと、またしたがって、これらの大きさが知覚的関連性値を構成することは明らかである。有利には、知覚的モデル（例えば、人間の耳の音響的及び心理的知覚を含むもの）が、適切なパラメータを決定及び（任意選択的に）重み付けるために用いられる。

決定部２１は、雑音合成に関してどの雑音パラメータが用いられ得るかを決定する。決定は、知覚的関連性値に適用される最適化規準を用いて行われ、例えば入手可能な利得g_iのうちから５つの最高利得g_iを見つけるなどである。対応する群の数（例えば、２、３、１２、２３及び４１）は、選択部２２に供給される。特定の実施例において、選択パラメータ（すなわち、関連性値）は、雑音パラメータＮＰに既に含まれ得る。斯様な実施例において、決定部２１は、省略され得る。

選択部２２は、決定部２１によって示される群の雑音パラメータを選択するように構成される。残りの群の雑音パラメータは、無視される。結果として、制限された数の雑音パラメータのみが合成ユニット（図１における３）に渡され、結果として合計される。したがって、合成ユニットの計算負荷は、相当低減される。

発明者は、合成に関して用いられる雑音パラメータの数が、いかなる大幅な音声品質の損失も生じることなく劇的に低減され得るという洞察を得ていた。選択される群の数は、比較的小さくあり得、例えば全体で６４個のうちの５個（７．８％）であり得る。一般的に、選択される群の数は、少なくとも10%が好ましいものの、音声品質のいかなる知覚的な損失を防ぐために、全体数の約4.5%であるべきである。選択される群の数が約４．５%より下に更に低減される場合、合成音声の品質は、徐々に低下するが、特定のアプリケーションに関しては、なお許容され得る。15％、20％、30％、又は40％などのより高いパーセンテージも用いられ得るが、これらの数字は、計算負荷を増加し得ることを理解される。

決定部２１によってなされる、どの群を含めるのか又はどれを含めないのかについての決定は、例えば雑音成分の振幅（レベル）、（包絡線発生器、及び低周波数発振器などを制御する）音声バンクからの調音データ、及びＭＩＤＩデータからの情報などの知覚的関連性値であって、例えばノートオン速度及び調音に関する制御器などに基づきなされる。他の知覚的関連性値も活用され得る。通常、例えば最高雑音振幅（又は利得）などの、最大知覚的値を有するＭ個の群のある数が選択される。

追加的に又は代替的に、各群からの他のパラメータが、決定部２１によって用いられ得る。例えば、正弦波パラメータが、雑音パラメータの数を減らすのに用いられ得る。正弦波（及び／又は過渡変動）パラメータを用いて、マスキング曲線が、当該マスキング曲線よりも低い振幅を有する雑音パラメータが省略され得るように、描かれ得る。ある群の雑音パラメータは、したがって、マスキング曲線と比較され得る。これらが該曲線よりも下に当てはまる場合、当該群の雑音パラメータは、却下され得る。

群S_i（図２）及び雑音選択ステップ及び合成ステップは、通常、例えば時間フレームなどの、単位時間毎に実行されることを理解される。雑音パラメータ、及び他のパラメータは、したがって、特定の単位時間のみを参照し得る。時間フレーム等の単位時間は、部分的に重複し得る。

図１の合成ユニット３の例示的な実施例が、図４により詳細に示される。この実施例において、雑音は、時間的（時間ドメイン）包絡線及びスペクトル（周波数ドメイン）包絡線の両方を用いて生成される。

時間的包絡線発生器３１１、３１２及び３１３は、選択された群S_iのそれぞれに対応する包絡線パラメータb_i(i=1…M)を受信する。本発明に従うと、選択された群の数のＭ個は、利用可能な群の数のＮ個より小さい。時間的包絡線パラメータb_iは、発生器３１１〜３１３によって出力される時間的包絡線を規定する。乗算器３３１、３３２、及び３３３は、時間的包絡線を、それぞれの利得g_iによって乗算する。生じる利得が調整された時間的包絡線は、加算器３４１によって加算され、更なる乗算器３３９へ供給され、前記包絡線は、雑音発生器３５０によって発生される（白色）雑音と乗算される。時間的に形成されているが通常実質的に一様なスペクトルを有する生じる雑音信号は、（任意選択的な）重複・加算回路３６０へ供給される。この回路において、後続の時間フレームの雑音セグメントは、フィルタ３９０へ供給される連続的な信号を形成するために合成される。

上述のように、g₁からg_Mまでの利得は、選択される群に対応する。Ｎ個の利用可能な群が存在するので、g_M+1からg_Nまでの利得は、却下される群に対応する。図４の好ましい実施例において、g_M+1からg_Nまでの利得は、破棄されておらず、g₁からg_Mの利得を調整するために用いられる。この利得補償は、合成される雑音のレベル（すなわち、振幅）に対する雑音パラメータの選択の効果を低減又は更には除外するように作用する。

したがって、図４の実施例は、加算器３４３及びスケーリングユニット３４９を追加的に備える。加算器３４３は、g_M+1からg_Nまでの利得を加算し、生じる累積利得をスケーリングユニット３４９へ供給し、スケーリングユニット３４９では、スケーリング因数1/Mが補償利得g_cを提供するために適用され、Ｍは上述のように選択される群の数である。この補償利得gcは、その後、加算器３３４、３３５、…等によって、g₁からg_Mの利得のそれぞれに加算され、加算器の数はＭに等しい。却下される成分の累積利得を選択される成分に分配することによって、雑音のエネルギは、ほぼ一定に維持し、雑音成分の選択による音声レベルの変化は避けられる。

加算器３４３、スケーリングユニット３４９、及び加算器３３４、３３５、…が任意選択的であり、他の実施例においてはこれらのユニットが存在し得ないことを理解され得る。スケーリングユニット３４９は、もし存在する場合、代替的に加算器３４１及び乗算器３３９の間に配置され得る。

好ましい実施例においてLaguerreフィルタであるフィルタ３９０は、雑音信号をスペクトル的に形成するように作用する。選択された群S_iから導出されるスペクトル包絡線パラメータa_iは、これらのパラメータの自己相関を計算する自己相関ユニット３２１へ供給する。生じる自己相関は、加算器３４２によって加算され、スペクトル形成フィルタ３９０のフィルタ係数を決定するために、ユニット３７０へ供給される。好ましい実施例において、ユニット３７０は、周知のLevinson-Durbinアルゴリズムに従いフィルタ係数を決定するように構成される。その後、生じる線形フィルタ係数は、変換ユニット３８０によってLaguerreフィルタ係数へ変換される。Laguerreフィルタ３９０は、その後、（白色）雑音のスペクトル包絡線を形成するのに用いられる。

パラメータa_iの各グループの自己相関関数を決定する代わりに、より効率的な方法が使用される。選択される群の（すなわち、選択される活動中のチャネル又は「ボイス」の）パワースペクトルが計算され、その後、自己相関関数は、合計されたパワースペクトルを逆フーリエ変換することによって計算される。その後、生じる自己相関関数は、Levinson-Durbinユニット３７０へ供給される。

パラメータa_i,b_i,g_i及びλは、図１及び２においてＮＰで記される雑音パラメータの全ての部分であることを理解される。図３の選択ユニットの実施例において、決定部２２は、利得パラメータg_iのみを使用する。しかし、パラメータa_i,b_i,g_i及びλのいくつか又は全て、及び可能であれば（例えば、正弦波成分及び／又は過渡変動に関する）他のパラメータが決定部２２によって使用される実施例も想定され得る。パラメータλは、定数であり得、雑音パラメータＮＰの一部である必要がないことを特記される。

本発明が用いられ得る音声合成器は、図５に概略的に示される。合成器５は、雑音合成器５１、正弦波合成器５２、及び過渡変動合成器５３、を備える。出力信号（合成された過渡変動、正弦波、及び雑音）は、合成された音声出力信号を形成するために加算器５４によって加算される。雑音合成器５１は、有利には、上述の装置（図１の１）を備える。

合成器５は、オーディオ（音声）復号器（図示せず）の一部であり得る。オーディオ復号器は、入力ビットストリームをデマルチプレクスするとともに、過渡変動パラメータ（ＴＰ）、正弦波パラメータ（ＳＰ）、及び雑音パラメータ（ＮＰ）、の群を分離させるデマルチプレクサを備え得る。

図６において非制限的な例としてのみ示されるオーディオ符号化装置６は、オーディオ信号を３つの段階で符号化する。

第１段階において、オーディオ信号s(n)におけるいかなる過渡変動信号成分も、過渡変動パラメータ抽出（ＴＰＥ）ユニット６１を用いて符号化される。パラメータは、マルチプレクス（ＭＵＸ）ユニット６８及び過渡変動合成（ＴＳ）ユニット６２の両方に供給される。マルチプレクスユニット６８は、図５の装置５などの復号器へ伝送するためのパラメータを適切に組合せ及びマルチプレクスを行う一方で、過渡変動合成ユニット６２は、符号化された過渡変動を再構築する。これらの再構築された過渡変動は、過渡変動がほぼ除去される中間信号を形成するために、第１組合せユニット６３において元のオーディオ信号s(n)から減算される。

第２段階において、中間信号におけるいかなる正弦波信号成分（すなわち、正弦及び余弦）は、正弦波パラメータ抽出（ＳＰＥ）ユニット６４によって符号化される。生じるパラメータは、マルチプレクスユニット６８へ及び正弦波合成（ＳＳ）ユニット６５へ供給される。正弦波合成ユニット６５によって再構築される正弦波は、残余信号を生じさせるために、第２組合せユニット６６において中間信号から減算される。

第３段階において、残余信号は、時間／周波数包絡線データ抽出（ＴＦＥ）ユニット６７を用いて符号化される。残余信号は、過渡変動及び正弦波が第１及び第２段階で除去されるので、雑音信号であると仮定されることを特記される。したがって、時間／周波数包絡線データ抽出（ＴＦＥ）ユニット６７は、適切な雑音パラメータによって残余雑音を表現する。

従来技術による雑音モデリング及び符号化技術の概要は、Chapter5ofthedissertation"AudioRepresentationsforDataCompressionandCompressedDomainProcessing",byS.N.Levine,StanfordUniversity,USA,1999において提示され、当該文書の内容の全体は、本文書において組み込まれる。

全ての３つの段階から生じるパラメータは、マルチプレクス（ＭＵＸ）ユニット６８によって適切に組合せ及びマルチプレクスされ、また前記マルチプレクス（ＭＵＸ）ユニット６８は、伝送用に必要とされる帯域幅を低減するために、例えばハフマン符号化又は時間差分符号化などの、パラメータの追加的な符号化をも実行し得る。

パラメータ抽出（すなわち、符号化）ユニット６１、６４、及び６７は、抽出されたパラメータの量子化を実行し得ることを特記される。代替的及び追加的に、量子化は、マルチプレクス（ＭＵＸ）ユニット６８において実行され得る。更に、s(n)は、デジタル信号であり、ｎはサンプル数を表し、群S_i(n)はデジタル信号として伝送されることを特記される。しかし、アナログ信号にも適用され得る。

ＭＵＸユニット６８において組合せ及びマルチプレクス（および任意選択的に符号化及び／又は量子化）された後に、パラメータは、衛星接続、グラスファイバケーブル、銅ケーブル、及び／又は他のいずれかの適した媒体などの、伝送媒体を介して伝送される。

オーディオ符号化装置６は、関連性検出器（ＲＤ）６９を更に備える。関連性検出器６９は、（図３に例示されるような）雑音利得g_iなどの所定のパラメータを受信し、これらの音響（知覚的）関連性を決定する。生じる関連性値は、マルチプレクサ６８へ供給されて戻されて、マルチプレクサ６８において、前記値は、出力ビットストリームを形成する群S_i(n)に挿入される。前記群に含まれる関連性値は、その後、知覚的関連性を決定する必要なく適切な雑音パラメータを選択するために、復号器によって用いられ得る。結果として、復号器は、より簡単で高速であり得る。

関連性検出器（ＲＤ）６９は図６においてマルチプレクサ６８に接続されるように示されるが、代わりに、関連性検出器６９は、時間／周波数包絡線データ抽出（ＴＦＥ）６７に直接接続され得る。関連性検出器６９の動作は、図３に例示される決定部２１の動作と類似であり得る。

図６のオーディオ符号化装置６は、３つの段階を有するように示される。しかし、オーディオ符号化装置６は、３つよりも少ないの段階から構成され得、例えば、正弦波及び雑音パラメータのみを生成する２つの段階、又は追加的なパラメータを生成する３つより多い段階から構成され得る。したがって、ユニット６１、６２、及び６３が存在しない実施例は想定され得る。図６のオーディオ符号化装置６は、有利には、図１に示される合成装置によって復号（合成）され得るオーディオパラメータを生成するように構成され得る。

本発明の合成装置は、携帯型装置において、特に、携帯電話、ＰＤＡ(PersonalDigitalAssistant)、時計、ゲーム装置、ソリッドステートプレーヤ、電子楽器、デジタル留守番電話機、携帯型ＣＤプレーヤ及び／又はＤＶＤプレーヤなどハンドヘルド型民生装置において活用され得る。

上述から、本発明は、パラメータの群によって表現される音声を合成する方法も提供し、各パラメータの群は、前記音声の雑音成分を表す雑音パラメータ、並びに任意選択的に過渡変動及び／又は正弦波などの、他の成分を表現する他のパラメータの両方をも含む。本発明の方法は、本質的に、
−知覚的関連性値に基づいて、群の総数から、制限された群を選択するステップと、
−前記選択された群の雑音パラメータのみを用いて雑音成分を合成するステップと、
を含む。

本発明の方法は、追加的に、却下される雑音成分により生じさせられるいずれのエネルギ損失に関しても、選択された雑音成分の利得を補償する任意選択的なステップを含み得る。

追加的に、本発明は、パラメータの群によって音声を表現する符号化装置を提供し、各パラメータの群は、前記音声の雑音成分を表す雑音パラメータ、並びに好ましくは、前記音声の過渡変動成分及び／又は正弦波成分を表現する他のパラメータを含み、また前記装置は、それぞれの雑音パラメータの知覚的関連性を表す関連性値を提供する関連性検出器を備える。

本発明は、音声の雑音成分を合成するときに制限された数の音声チャネルを選択することが、合成される音声の劣化を実質的に生じさせ得ないという洞察に基づく。本発明は、知覚的関連性値に基づき音声チャネルを選択することが、合成される音声のいかなる歪みも最小化又は除去するという更なる洞察から恩恵を受ける。

本文書におけるいかなる用語も本発明の請求の範囲を制限するように解釈されてはならないことを特記される。特に、「有する」という動詞及びその活用形の使用は、具体的に記載される以外のいかなる要素の存在も排除しないことを意図される。単数形の（回路）構成要素は、複数個の斯様な（回路）構成要素又はそれらの等価物によって置換され得る。

本発明は、上述の実施例に制限されず、添付の請求項に記載の発明の精神及び範囲から逸脱することなく、多数の変更態様及び追加態様がなされ得ることを当業者により理解され得る。

図１は、本発明に従う雑音合成装置を概略的に示す。図２は、本発明で用いられる音声を表現するパラメータの群を概略的に示す。図３は、より詳細に図１の装置の選択部を概略的に示す。図４は、より詳細に図１の装置の合成部を概略的に示す。図５は、本発明の装置を組み込む音声合成装置を概略的に示す。図６は、音声符号化装置を概略的に示す。

Claims

パラメータの群によって表現される音声を合成する装置であって、各群は、前記音声の雑音成分を表す雑音パラメータを含み、
−知覚的関連性値に基づいて、前記群の総数から、制限された群を選択する選択手段と、
−前記選択された群の雑音パラメータのみを用いて前記雑音成分を合成する合成手段と、
を備える装置。
前記知覚的関連性値が、前記雑音成分の振幅及び／又はエネルギを示す、請求項１に記載の装置。
パラメータの群が、更に、前記音声の過渡変動成分及び／又は正弦波成分を表現する他のパラメータを含む、請求項１に記載の装置。
前記選択する手段が、前記音声の他の成分を表現する前記他のパラメータのうちの１つ又は複数に基づいて、前記群の総数から制限された数の群を選択するようにも構成される、請求項３に記載の装置。
前記雑音パラメータが、前記雑音の時間的包絡線及び／又はスペクトル的包絡線を規定する、請求項１に記載の装置。
それぞれのパラメータの群が、音声チャネル、好ましくはＭＩＤＩボイスに対応する、請求項１に記載の装置。
どのパラメータの群が選択されるかを決定する決定部、及び前記決定部によって提供される情報に基づきパラメータの群を選択する選択部を備える、請求項１に記載の装置。
パラメータの群を、前記パラメータの群に含まれる知覚的関連性値に基づき選択する選択部を備える、請求項１に記載の装置。
前記合成手段が、全ての選択された群の雑音をスペクトル的に形成する単一のフィルタと、前記フィルタのフィルタパラメータを決定するLevinson-Durbinユニットと、を備え、前記単一のフィルタが、好ましくは、Laguerreフィルタによって構成される、請求項１に記載の装置。
いずれの却下される雑音成分によるいずれのエネルギ損失に関しても、前記選択された雑音成分の利得を補償する利得補償手段を更に備える、請求項１に記載の装置。
請求項１に記載の合成する装置を備える、ＭＩＤＩ合成器等の、音声合成器。
請求項１に記載の合成する装置を含む、携帯電話などの、民生装置。
パラメータの群によって表現される音声を合成する方法であって、各群は、前記音声の雑音成分を表す雑音パラメータを含み、
−知覚的関連性値に基づいて、前記群の総数から、制限された群を選択するステップと、
−前記選択された群の雑音パラメータのみを用いて前記雑音成分を合成するステップと、
を含む方法。
前記知覚的関連性値が、前記雑音成分の振幅及び／又はエネルギを示す、請求項１３に記載の方法。
パラメータの群が、更に、前記音声の過渡変動成分及び／又は正弦波成分を表現する他のパラメータを含む、請求項１３に記載の方法。
前記群の総数から制限された数の群を選択するステップが、前記音声の他の成分を表現する前記他のパラメータのうちの１つ又は複数にも基づいて実行される、請求項１５に記載の方法。
前記雑音パラメータが、前記雑音の時間的包絡線及び／又はスペクトル的包絡線を規定する、請求項１３に記載の方法。
それぞれのパラメータの群が、音声チャネル、好ましくはＭＩＤＩボイスに対応する、請求項１３に記載の方法。
いずれの却下される雑音成分によるいずれのエネルギ損失に関しても、前記選択された雑音成分の利得を補償するステップを更に含む、請求項１３に記載の方法。
それぞれのパラメータの群が、音声チャネル、好ましくはＭＩＤＩボイスに対応する、請求項１３に記載の方法。
それぞれのパラメータの群が、知覚的関連性値を含む、請求項１３に記載の方法。
請求項１３乃至２１の何れか一項に記載の方法を実行する計算機プログラム。