JP5063363B2

JP5063363B2 - 音声合成方法

Info

Publication number: JP5063363B2
Application number: JP2007554693A
Authority: JP
Inventors: アンドレアスジェイヒェリツ; アルノルドゥスダブリュジェイオーメン; ミッデリンクマルククレイン; マレクシュチェルバ
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2005-02-10
Filing date: 2006-02-01
Publication date: 2012-10-31
Anticipated expiration: 2026-02-01
Also published as: JP2008530607A; US7649135B2; WO2006085243A3; WO2006085243A2; KR101315075B1; KR20070107117A; US20080250913A1; CN101116136B; EP1851760B1; EP1851760A2; CN101116136A

Description

本発明は、音声の合成方法に関する。より特には、本発明は、パラメータの群によって表される音声を合成する装置及び方法に関し、各群は、前記音声の正弦波成分(sinusoidalcomponents)を表す正弦波パラメータと、他の成分を表す他のパラメータと、を含む。

音声を、パラメータの群によって表現することは周知である。音声を、一連のパラメータによって表す、いわゆるパラメトリック符号化技法が、音声を効率的に符号化するために用いられる。適した復号器は、元の音声を、前記一連のパラメータを用いてほぼ再構築することが可能である。前記一連のパラメータは、複数の群に分割され得、各群は、例えば（人間の）話者又は楽器などの個別の音源（音声チャネル）に対応する。

普及しているＭＩＤＩ(MusicalInstrumentDigitalInterface)プロトコルは、音楽が、楽器用の機材の群によって表現されることを可能にする。それぞれの機材は、特定の機材に割り当てられる。それぞれの機材は、（ＭＩＤＩにおいて「ボイス」と呼ばれる）１つ又は複数の音声チャネルを使用し得る。同時に使用され得る音声チャネルの数は、多声(polyphony)レベル又は多声と呼ばれる。ＭＩＤＩ楽器は、効率的に伝送及び／又は記憶され得る。

合成器は、通常、例えば音声バンク又はパッチデータなどの、所定の音声定義データを使用する。楽器の音声のサンプルは、音声バンクにおいて、音声データとして記憶される一方で、パッチデータは、音声発生器に関する制御パラメータを規定する。

ＭＩＤＩ楽器は、合成器に、音声バンクから音声データを取得するようにさせ、当該データによって表現される音声を合成させるようにする。これらの音声データは、従来のwave-table合成の場合のように、デジタル化された音声（波形）である、実際の音声サンプルであり得る。しかし、音声サンプルは、通常、多量のメモリを必要とし、このような多量のメモリは、特に携帯電話等のハンドヘルド型民生装置などの、比較的小型な装置においては実現可能でない。

代替的には、音声サンプルは、パラメータによって表現され得、前記パラメータは、振幅、周波数、位相、及び／又は方形型パラメータを含み得、音声サンプルが再構築されるのを可能にする。音声サンプルのパラメータを記憶するのには、通常、実際の音声サンプルを記憶するよりも遥かに少ないメモリを必要とする。しかし、音声の合成は、計算的に負荷の大きいものであり得る。これは、特に、異なる音声チャネル（ＭＩＤＩにおける「ボイス」）を表すパラメータの異なる群が、同時に合成される（多音）である必要がある場合に該当することである。計算的な負荷は、通常、合成されるべきチャネル（「ボイス」）の数に比例して増加する。このことは、斯様な技法がハンドヘルド装置で用いられることを困難にする。

論文である"ParametricAudioCodingBasedWavetableSynthesis"byM.Szczerba,W.OomenandM.KleinMiddelink,AudioEngineeringSocietyConventionPaperNo.6063,Berlin(Germany),May2004は、ＳＳＣ(SinusSoidalCoding)wavetable合成器を開示している。ＳＳＣ符号化器は、音声入力を、過渡変動、正弦波、及び雑音成分に分解し、これらの成分のそれぞれに関するパラメータ的表現を生成する。これらのパラメータ的表現は、音声バンクに記憶される。ＳＳＣ復号器（合成器）は、このパラメータ的表現を、元の音声入力を再構築するために使用する。正弦波成分を再構築するために、前記論文は、各正弦波のエネルギスペクトルを信号のスペクトルイメージに収集し、単一の逆フーリエ変換を用いて正弦波を合成することを提案している。この種類の再構築に含まれる計算的負荷は、なお相当なものであり、特に、多数のチャネルの正弦波が同時に合成される必要がある場合には、そのようになる。

多くの最新の音声システムにおいて、６４音声チャネルが用いられ得、更に多くの数の音声チャネルが想定される。このことは、既知の装置を、制限された計算処理能力を有する比較的小型な装置において使用するのを不適にする。

一方で、携帯電話などのハンドヘルド型民生装置において音声合成に関する需要は増加している。現代の消費者は、自身のハンドヘルド装置が、様々な呼び出し音などの広範囲の音声を生成することを期待している。

したがって、本発明の目的は、従来技術のこれら及び他の問題を解決すること、並びに、音声の正弦波成分を合成する装置及び方法であって、より効率的で計算負荷を低減する装置及び方法を提供することである。

したがって、本発明は、正弦波成分を含む音声を合成する装置であって、
−知覚的関連性値を用いて、ある数の周波数帯域のそれぞれから、制限された数の正弦波成分を選択する選択手段と、
−前記選択された正弦波成分のみを合成する合成手段と、
を備える装置を提供する。

選択された正弦波成分のみを合成することによって、計算負荷のかなりの低減が達成され得る一方で、合成音声の品質をほぼ維持している。選択及び合成される正弦波成分の制限された数は、好ましくは、例えば１６００のうちの１１０など、入手可能な数よりも相当少ないが、選択される実際の数は、装置の計算処理能力、所望の音声品質、及び／又は、関連する帯域における利用可能な正弦波成分の数に通常依存する。

選択が適用される周波数帯域の数も、変化し得る。好ましくは、選択の処理は、全ての利用可能な周波数帯域において実行され、これにより、可能な最大の低減が達成され得る。しかし、１つ又はいくつかの周波数帯域のみにおいて正弦波成分の制限された数を選択することも可能である。周波数帯域の幅は、数ヘルツから数千ヘルツの間でも変化し得る。

知覚的関連性値は、好ましくは、それぞれの正弦波成分の振幅及び／又はエネルギを含む。いかなる知覚的関連性値も、人間の耳に対する（振幅、エネルギ、及び／又は位相）パラメータの知覚される関連性を考慮する心理的音響モデルに基づき得る。斯様な心理的音響モデルは、それ自体既知であり得る。

知覚的関連性値は、それぞれの正弦波成分の位置も含み得る。平面（２次元）又は空間（３次元）における音源の位置を表現する位置情報は、特定の又は全ての正弦波成分と関連付けられ得、また選択決定ステップにおいて含まれ得る。位置情報は、周知の技術を用いて収集され得、一群の座標（Ｘ，Ｙ）又は（Ａ，Ｌ）を含み得、ここで、Ａは角度、Ｌは距離である。３次元位置情報は、当然一群の座標（Ｘ，Ｙ，Ｚ）又は（Ａ１，Ａ２，Ｌ）を含み得る。

周波数帯域は、例えば線形スケール又はバーク（Bark）スケールなどの他のスケールも可能であるものの、好ましくは、例えばＥＲＢスケールに基づく。

本発明の装置において、前記正弦波成分は、パラメータによって表現され得る。これらのパラメータは、振幅、周波数、及び／又は位相情報を含み得る。特定の実施例において、例えば過渡変動及び雑音などの他の成分もパラメータによって表現される。

前記パラメータは、振幅パラメータ及び／又は周波数パラメータを含み得、また量子化された値に基づき得る。すなわち、量子化された振幅及び／又は周波数値は、パラメータとして用いられ得る、又はパラメータを導出するのに用いられ得る。このことは、いずれの量子化された値をも逆量子化する必要を除外する。

全ての活動中の音声のパラメータが同時に考慮されることが更に好ましい。全ての活動中の音声に関する全ての正弦波は、選択処理によって考慮される。（従来技術の合成器において行われるように）音声を選択する代わりに、選択するステップは、正弦波成分に実行される。有利な点は、何の音声も失われる必要がないこと、また計算負荷を増加させることなく高い多音が達成されることである。

当該装置は、パラメータの群を、前記パラメータの群に含まれる知覚的関連性値に基づき選択する選択部を備え得る。このことは、関連性パラメータが所定である、すなわち符号化器で決定される場合、特に有用である。斯様な実施例において、符号化器は、知覚的関連性値が挿入されるビットストリームを生成し得る。好ましくは、知覚的関連性値は、ビットストリームとして伝送され得るそれぞれのパラメータの群において含まれる。

代替的に、又は追加的に、装置は、パラメータの群を、当該装置の決定部によって発生される知覚的関連性値に基づき選択する選択部を含み得、前記決定部は、前記知覚的関連性値を、前記群に含まれるパラメータに基づき生成する。

本発明は、上述の合成する装置を含む民生機器も提供する。本発明の民生機器は、必ずしもそうである必要はないが好ましくは、携帯型で、より一層好ましくはハンドヘルド型であり、また携帯（セルラー）電話、ＣＤプレーヤ、ＤＶＤプレーヤ、（ＭＰ３プレーヤ等の）ソリッドステートプレーヤ、ＰＤＡ(PersonalDigitalAssistant)、又はいかなる他の適した機器により構成され得る。

本発明は、更に、正弦波成分を含む音声を合成する方法であって、
−知覚的関連性値を用いて、ある数の周波数帯域のそれぞれから、制限された数の正弦波成分を選択するステップと、
−前記選択された正弦波成分のみを合成するステップと、
を含む方法を提供する。

前記知覚的関連性値が、該それぞれの正弦波成分の振幅、位相、及び／又はエネルギを含み得る。

本発明の方法は、却下される正弦波成分のエネルギ損失に関して、前記選択された正弦波成分の利得を補償するステップを更に含み得る。

本発明は、追加的に、上述の方法を実行する計算機プログラムを提供する。計算機プログラムは、ＣＤ又はＤＶＤなどの光学又は磁気担体に記憶された、又は例えばインターネット等の遠隔サーバに記憶されそこからダウンロード可能な一群の計算機実行可能な命令を含み得る。

本発明は、添付の図面に例示される例証的な実施例を参照にして以下に更に説明される。

図１において非制限的例のみとして示される正弦波成分合成装置１は、選択ユニット２及び合成ユニット３を備える。本発明に従うと、選択ユニット２は、正弦波成分パラメータＳＰを受信し、制限された数の正弦波成分パラメータを選択し、これらの選択されたパラメータＳＰ'を合成ユニット３へ渡す。合成ユニット３は、従来技術の手法で正弦波成分を合成するために、該選択された正弦波成分パラメータＳＰ'のみを用いる。

正弦波成分パラメータＳＰは、図２に示されるように、音声パラメータの群S₁,S₂,…,S_Nの一部であり得る。群S_i(i=1…N)は、例示される例において、過渡変動音声成分を表現する過渡変動パラメータＴＰ、正弦波音声成分を表現する正弦波パラメータＳＰ、及び雑音音声成分を表現する雑音パラメータＮＰ、を含む。群S_iは、上述のＳＳＣ符号化器又はいかなる他の適した符号化器を用いて生成されてあり得る。特定の符号化器は、過渡変動パラメータ（ＴＰ）又は雑音パラメータ（ＮＰ）を生成し得ないことを理解され得る。

それぞれの群S_iは、単一の活動中の音声チャネル（又はＭＩＤＩにおける（ボイス））を表現し得る。

正弦波成分パラメータの選択するステップは、図３により詳細に例示されており、図３は、装置１の選択ユニット２の実施例を概略的に示す。図３の例証的な選択ユニット２は、決定部２１及び選択部２２を備える。決定部２１及び選択部２２の両方は、正弦波パラメータＳＰを受信する。しかし、決定部２１は、選択決定ステップが基づかれるべき適切な構成パラメータのみを受信する必要がある。

適切な構成パラメータは、利得g_iである。好ましい実施例において、g_iは、群S_i（図２参照）によって表現される正弦波成分の利得（振幅）である。各利得g_iは、組み合わせられた（チャネル毎の）利得を生成するために対応するＭＩＤＩ利得と乗算され得、そして組み合わせられた（チャネル毎の）利得は、選択決定ステップが基づかれるべきパラメータとして用いられ得る。しかし、利得の代わりに、パラメータから導出されるエネルギ値も用いられ得る。

決定部２１は、正弦波成分合成に関してどのパラメータが用いられ得るかを決定する。決定は、最適化規準を用いて行われ、例えば５つの最高利得g_iを見つけ、５つの正弦波の最大値が選択されるべきであると仮定する。周波数帯域語毎に選択されるべき正弦波の実際の数は、所定であり得る、又は完全な帯域における正弦波の総数若しくは全体帯域エネルギに基づく他の因数によって決定され得る。例えば、１つの帯域において所定数の制限より少なく存在する場合、他の帯域は、より転送可能な成分を使用し得る。選択された群に対応する群の数（例えば、２、３、１２、２３及び４１）は、選択部２２に供給される。

選択部２２は、決定部２１によって示される群の正弦波成分パラメータを選択するように構成される。残りの群の正弦波成分パラメータは、無視される。結果として、制限された数の正弦波成分パラメータのみが合成ユニット（図１における３）に渡され、結果として合計される。したがって、合成ユニットの計算負荷は、全ての正弦波成分を合成することに比べて相当低減される。

発明者は、合成に関して用いられる正弦波成分パラメータの数が、音声品質のいかなる大幅な損失もすることなく劇的に低減され得るという洞察を得ていた。選択される群の数は、比較的小さくあり得、例えば全体で１６００個のうちの１１０個（２５個の正弦波のそれぞれの６４チャネル）、すなわち、約6.9％である。一般的に、選択される群の数は、少なくとも6.0%が好ましいものの、音声品質のいかなる知覚的な損失を防ぐために、全体数の約5.0%であるべきである。選択される群の数が更に低減される場合、合成音声の品質は、徐々に低下するが、特定のアプリケーションに関しては、なお許容され得る。

決定部２１によってなされる、どの群を含めるのか又はどれを含めないのかについての決定は、例えば正弦波成分の振幅（レベル）などの知覚値に基づきなされる。例えば、エネルギ値及び／又は包絡線値等の、他の知覚的、すなわち音声の知覚に影響を及ぼす値も利用され得る。位置情報も使用され得、これにより、正弦波成分がその（相対的）位置に基づき選択されるのを可能にされる。

したがって、正弦波成分を選択するステップは、対応する正弦波成分の例えば振幅及びエネルギなどを表現する知覚的関連性値に加えて、（空間）位置情報を含み得る（位置情報は、追加的な知覚的関連性値としてみなされ得ることを特記される）。位置情報は、周知の技術を用いて収集され得る。特定のしかし全てではない正弦波成分が、関連付けられた位置情報を有することが可能であり、「中立」位置情報が、位置情報を有さない成分に割り当てられ得る。

知覚的関連性値を決定するために、周波数、振幅、及び／又は他のパラメータの量子化されたものが用いられ得、これにより、逆量子化に関する必要性を除外し得る。このことは、以下に更に詳細に説明され得る。

群S_i（図２）及び正弦波成分の選択するステップ及び合成は、通常、例えば時間フレーム又はサブフレーム毎などの、単位時間毎に実行されることを理解される。正弦波成分パラメータ、及び他のパラメータは、したがって、特定の単位時間のみを参照し得る。時間フレーム等の単位時間は、部分的に重複し得る。

図４に示される例証的なグラフ４０は、合成されるべき音声チャネル（又は「ボイス」）の周波数分布を概略的に例示する。正弦波成分の振幅Ａは、周波数ｆの関数として示される。３つの正弦波成分(f₁、f₂及びf₃において)のみ例証の簡略化のために示されるが、実際には、正弦波成分の数は、より多くあり得、通常いかなる所定の時間においてもチャネル毎に２５個である。特定のアプリケーションにおいて６４チャネルが存在し得るので、このことにより、64×25=1600個の正弦波成分の合成が必要となり、この数は、ハンドヘルド型民生装置などの比較的小さく高価でない装置に関して明らかに実現可能でない。

本発明に従い、周波数分布は、周波数帯域４１に再分割される。本例において、６つの周波数帯域が示されるが、例えば、単一の周波数帯域、２つの周波数帯域、３つ、１０つ、又は２０個など、（６つ）より多い及びより少ない周波数帯域の両方が可能であることを理解され得る。

いくつかの帯域４１は全く正弦波成分を含み得ない一方で、他の帯域は５０又はより多い正弦波成分を含み得るものの、各周波数帯域４１は、元々、ある数の正弦波成分、例えば１０又は２０個の正弦波成分を含む。本発明に従い、帯域毎の正弦波成分の数は、特定の制限された数、例えば３、４、又は５などに低減される。実際の選択される数は、帯域に元々存在する正弦波成分の数、帯域の幅（周波数範囲）、周波数帯域の総数、及び／又は帯域における正弦波成分の知覚的関連性値に依存し得る。

図４の例において、元々３つより多い正弦波成分が各帯域に存在していたこと、及び３つの最も関連する（すなわち最高知覚的関連性値を有する）ものが選択されるべきであることを仮定される。図４における１つの例証的な周波数帯域において、選択された正弦波成分４２が周波数f₁,f₂及びf₃に示される。本発明に従い、これら３つの正弦波成分のみが、音声を合成するために選択及び使用される。関わる周波数帯域におけるいかなる残りの正弦波成分も合成に関して使用されず、廃棄され得る。

しかし、却下された正弦波成分は、利得補償に関して使用され得る。すなわち、正弦波成分を廃棄することによるエネルギ損失が、選択された正弦波成分のエネルギを増加するために、計算及び使用され得る。このエネルギ補償の結果として、音声の全体エネルギは、選択処理によって実質的に影響を受けない。

エネルギ補償は、以下のように実施され得る。始めに、周波数帯域４１における全ての（選択された及び却下された）正弦波成分のエネルギが計算される。合成されるべき正弦波成分（図４の例における周波数f₁,f₂及びf₃における正弦波成分）を選択した後で、却下される正弦波成分及び選択される正弦波成分のエネルギ比率が計算される。このエネルギ比率は、この場合、選択された正弦波成分のエネルギを比例して増加させるのに用いられる。結果として、周波数帯域の総エネルギは、選択するステップにおいて影響されない。

したがって、図３の選択部２２に組み込まれ得る利得補償手段は、例えば、却下された正弦波成分及び選択された正弦波成分のそれぞれエネルギ値を加算する第１および第２加算ユニット、却下された正弦波成分及び選択された正弦波成分のエネルギ比率を決定する比率ユニット、及び選択された正弦波成分のエネルギ又は振幅値をスケーリングするスケーリングユニット、を備え得る。

上述のように、周波数帯域４１の数は変化し得る。好ましい実施例において、周波数帯域は、ＥＲＢ(EquivalentRegularBandwidth)スケールに基づく。ＥＲＢスケールは、当該分野において周知であることを特記される。ＥＲＢスケールの代わりに、Barkスケール又は類似のスケールが使用され得る。このことは、ＥＲＢ帯域毎に制限された数の正弦波が選択されることを意味する。

上述のように、周波数及び振幅の量子化が符号化器において実行され得、前記符号化器は音声を正弦波成分に分解し、そして前記正弦波成分はパラメータによって表現され得る。例えば、浮動小数点値として利用可能な周波数は、以下の数式：

を用いてＥＲＢ(EquivalentRectangularBandwidth)値に変換され得、ここで、ｆはチャネルchのサブフレームsfにおけるｎ番目の正弦波の（ラジアンの）周波数であり、f_rl[sf][ch][n]は、ＥＲＢ毎に91.2表現レベルを有するＥＲＢスケールの（整数）表現レベル(rl)であり（括弧

及び

は、切り捨て演算を示すことを特記される）、またここで、

である。

値saが、チャネルchのサブフレームsfにおけるｎ番目の正弦波の振幅を維持し、表現レベルへ変換する場合、符号化器は、浮動小数点振幅を、0.1875dBの最大振幅エラーで対数スケールに量子化する。（整数）表現レベルsa_rl[sf][ch][n]は、

によって計算され、ここで、sa_b=1.0218である。上で使用された値91.2と同様にこの値及び他の値も、実験的に決定され、本発明が、これらの特定の値に制限されず、他の値も代わりに使用され得ることを特記される。

量子化された値f_rl及びa_rlは、本発明の合成装置によって合成されるために、伝送及び／又は記憶される。本発明に従い、これらの量子化された値は、正弦波成分の選択に関して使用され得る。

これらの量子化された値の逆量子化は、以下のように達成され得る。量子化された周波数は、以下の数式：

を用いて、逆量子化された（ラジアンの）（絶対値の）周波数f_qに変換され得、ここで、

である。

復号化された値は、

に従い、逆量子化された（線形）振幅値sa_qに変換され、ここで、sa_b=1.0218は、0.1875dBの最大エラーに対応する対数量子化基底である。

全ての周波数及び振幅の逆量子化を避けることは、合成装置の計算複雑性を相当低減する。したがって、本発明の有利な実施例において、選択手段（図１の選択部２２及び／又は決定部２１）は、量子化された正弦波成分を選択するように構成される。選択ステップを量子化された値に実行することによって、選択された値のみが逆量子化される必要があり、逆量子化の演算の数は、相当低減される。

本発明が用いられ得る音声合成器は、図５に概略的に示される。合成器５は、雑音合成器５１、正弦波合成器５２、及び過渡変動合成器５３、を備える。出力信号（合成された過渡変動、正弦波、及び雑音）は、合成された音声出力信号を形成するために加算器５４によって加算される。正弦波合成器５２は、有利には、上述の装置を備える。合成器５は、音声品質を妥協することなく制限された数の正弦波成分のみを合成するので、従来技術よりも効率的である。例えば、正弦波の最大数を1600から110に制限することは音声品質に影響を与えないことが分かっている。

合成器５は、オーディオ（音声）復号器（図示せず）の一部であり得る。オーディオ復号器は、入力ビットストリームをデマルチプレクスするとともに、過渡変動パラメータ（ＴＰ）、正弦波パラメータ（ＳＰ）、及び雑音パラメータ（ＮＰ）、の群を分離させるデマルチプレクサを備え得る。

図６において非制限的な例としてのみ示されるオーディオ符号化装置６は、オーディオ信号を３つの段階で符号化する。

第１段階において、オーディオ信号s(n)におけるいかなる過渡変動信号成分も、過渡変動パラメータ抽出（ＴＰＥ）ユニット６１を用いて符号化される。パラメータは、マルチプレクス（ＭＵＸ）ユニット６８及び過渡変動合成（ＴＳ）ユニット６２の両方に供給される。マルチプレクスユニット６８は、図５の装置５などの復号器へ伝送するためのパラメータを適切に組合せ及びマルチプレクスを行う一方で、過渡変動合成ユニット６２は、符号化された過渡変動を再構築する。これらの再構築された過渡変動は、過渡変動がほぼ除去される中間信号を形成するために、第１組合せユニット６３において元のオーディオ信号s(n)から減算される。

第２段階において、中間信号におけるいかなる正弦波信号成分（すなわち、正弦及び余弦）は、正弦波パラメータ抽出（ＳＰＥ）ユニット６４によって符号化される。生じるパラメータは、マルチプレクスユニット６８へ及び正弦波合成（ＳＳ）ユニット６５へ供給される。正弦波合成ユニット６５によって再構築される正弦波は、残余信号を生じさせるために、第２組合せユニット６６において中間信号から減算される。

第３段階において、残余信号は、時間／周波数包絡線データ抽出（ＴＦＥ）ユニット６７を用いて符号化される。残余信号は、過渡変動及び正弦波が第１及び第２段階で除去されるので、雑音信号であると仮定されることを特記される。したがって、時間／周波数包絡線データ抽出（ＴＦＥ）ユニット６７は、適切な雑音パラメータによって残余雑音を表現する。

従来技術による雑音モデリング及び符号化技術の概要は、Chapter5ofthedissertation"AudioRepresentationsforDataCompressionandCompressedDomainProcessing",byS.N.Levine,StanfordUniversity,USA,1999において提示され、当該文書の内容の全体は、本文書において組み込まれる。

全ての３つの段階から生じるパラメータは、マルチプレクス（ＭＵＸ）ユニット６８によって適切に組合せ及びマルチプレクスされ、また前記マルチプレクス（ＭＵＸ）ユニット６８は、伝送用に必要とされる帯域幅を低減するために、例えばハフマン符号化又は時間差分符号化などの、パラメータの追加的な符号化をも実行し得る。

パラメータ抽出（すなわち、符号化）ユニット６１、６４、及び６７は、抽出されたパラメータの量子化を実行し得ることを特記される。代替的及び追加的に、量子化は、マルチプレクス（ＭＵＸ）ユニット６８において実行され得る。更に、s(n)は、デジタル信号であり、ｎはサンプル数を表し、群S_i(n)はデジタル信号として伝送されることを特記される。しかし、同一の概念は、アナログ信号にも適用され得る。

ＭＵＸユニット６８において組合せ及びマルチプレクス（および任意選択的に符号化及び／又は量子化）された後に、パラメータは、衛星接続、グラスファイバケーブル、銅ケーブル、及び／又は他のいずれかの適した媒体などの、伝送媒体を介して伝送される。

オーディオ符号化装置６は、関連性検出器（ＲＤ）６９を更に備える。関連性検出器６９は、（図３に例示されるような）正弦波利得g_iなどの所定のパラメータを受信し、これらの音響（知覚的）関連性を決定する。生じる関連性値は、マルチプレクサ６８へ供給されて戻されて、マルチプレクサ６８において、前記値は、出力ビットストリームを形成する群S_i(n)に挿入される。前記群に含まれる関連性値は、その後、知覚的関連性を決定する必要なく適切な正弦波パラメータを選択するために、復号器によって用いられ得る。結果として、復号器は、より簡単で高速であり得る。

関連性検出器（ＲＤ）６９は図６においてマルチプレクサ６８に接続されるように示されるが、代わりに、関連性検出器６９は、正弦波パラメータ抽出（ＳＰＥ）６４に直接接続され得る。関連性検出器６９の動作は、図３に例示される決定部２１の動作と類似であり得る。

図６のオーディオ符号化装置６は、３つの段階を有するように示される。しかし、オーディオ符号化装置６は、３つよりも少ないの段階から構成され得、例えば、正弦波及び雑音パラメータのみを生成する２つの段階、又は追加的なパラメータを生成する３つより多い段階から構成され得る。したがって、ユニット６１、６２、及び６３が存在しない実施例は想定され得る。図６のオーディオ符号化装置６は、有利には、図１に示される合成装置によって復号（合成）され得るオーディオパラメータを生成するように構成され得る。

本発明の合成装置は、携帯型装置において、特に、携帯電話、ＰＤＡ(PersonalDigitalAssistant)、時計、ゲーム装置、ソリッドステートプレーヤ、電子楽器、デジタル留守番電話機、携帯型ＣＤプレーヤ及び／又はＤＶＤプレーヤなどハンドヘルド型民生装置において活用され得る。

本発明は、合成されるべき正弦波成分の数が、音声品質を妥協することなく劇的に低減され得るという洞察に基づく。本発明は、知覚的関連性値が選択の規準として用いられる場合に、最も効率的な正弦波成分の選択が達成されるという更なる洞察から恩恵を受ける。

本文書におけるいかなる用語も本発明の請求の範囲を制限するように解釈されてはならないことを特記される。特に、「有する」という動詞及びその活用形の使用は、具体的に記載される以外のいかなる要素の存在も排除しないことを意図される。単数形の（回路）構成要素は、複数個の斯様な（回路）構成要素又はそれらの等価物によって置換され得る。

本発明は、上述の実施例に制限されず、添付の請求項に記載の発明の精神及び範囲から逸脱することなく、多数の変更態様及び追加態様がなされ得ることを当業者により理解され得る。

図１は、本発明に従う正弦波合成装置を概略的に示す。図２は、本発明で用いられる音声を表現するパラメータの群を概略的に示す。図３は、より詳細に図１の装置の選択部を概略的に示す。図４は、本発明に従う正弦波成分の選択するステップを概略的に示す。図５は、本発明の装置を組み込む音声合成装置を概略的に示す。図６は、音声符号化装置を概略的に示す。

Claims

振幅パラメータ及び／又は周波数パラメータを含むパラメータであって、量子化された値に基づくパラメータによって表現される正弦波成分を含む音声を合成する装置であり、
−知覚的関連性値を用いて、多数の周波数帯域のそれぞれから、制限された数の正弦波成分を選択する選択手段と、
−前記選択された正弦波成分のみを合成する合成手段と、
を備える装置であって、
前記合成手段が、前記合成の一部として前記選択された正弦波成分のみの前記パラメータを逆量子化するよう構成され、
前記選択手段が、前記合成手段による逆量子化の前に、前記パラメータの前記量子化された値に基づいて、前記制限された数の正弦波成分を選択するよう構成されることを特徴とする装置。
前記知覚的関連性値が、該それぞれの正弦波成分の振幅、エネルギ及び／又は空間位置を含む、請求項１に記載の装置。
前記正弦波成分が、複数の音声チャネルのうちの１つとそれぞれ関連付けられ、前記知覚的関連性値が、前記それぞれのチャネルの包絡線を含む、請求項１に記載の装置。
前記周波数帯域が、ＥＲＢスケール等の知覚的関連性値に基づく、請求項１に記載の装置。
いずれの却下される正弦波成分のいずれのエネルギ損失に関しても、前記選択された正弦波成分の利得を補償する利得補償手段を更に備える、請求項１に記載の装置。
請求項１乃至５の何れか一項に記載の合成する装置を含む、携帯電話、ゲーム機、オーディオプレーヤ、又は留守番電話機などの、民生装置。
振幅パラメータ及び／又は周波数パラメータを含むパラメータであって、量子化された値に基づくパラメータによって表現される正弦波成分を含む音声を合成する方法であり、
−知覚的関連性値を用いて、多数の周波数帯域のそれぞれから、制限された数の正弦波成分を選択するステップと、
−前記選択された正弦波成分のみを合成するステップと、
を含む方法であって、
前記合成するステップが、前記合成の一部として前記選択された正弦波成分のみの前記パラメータの逆量子化を含み、
前記選択するステップが、前記合成するステップによる逆量子化の前に、前記パラメータの前記量子化された値に基づく、前記制限された数の正弦波成分の選択を含むことを特徴とする方法。
前記知覚的関連性値が、該それぞれの正弦波成分の振幅、エネルギ及び／又は空間位置を含む、請求項７に記載の方法。
前記正弦波成分が、複数の音声チャネルのうちの１つとそれぞれ関連付けられ、前記知覚的関連性値が、前記それぞれのチャネルの包絡線を含む、請求項７に記載の方法。
いずれの却下される正弦波成分のいずれのエネルギ損失に関しても、前記選択された正弦波成分の利得を補償するステップを更に備える、請求項７に記載の方法。
請求項７乃至１０の何れか一項に記載の方法を実行する計算機プログラム。
正弦波成分を含む音声を合成する装置であり、
−知覚的関連性値を用いて、多数の周波数帯域のそれぞれから、制限された数の正弦波成分を選択する選択手段と、
−前記選択された正弦波成分のみを合成する合成手段と、
を備える装置であって、
いずれの却下される正弦波成分のいずれのエネルギ損失に関しても、前記選択された正弦波成分の利得を補償する利得補償手段を更に備えることを特徴とする装置。
正弦波成分を含む音声を合成する方法であり、
−知覚的関連性値を用いて、多数の周波数帯域のそれぞれから、制限された数の正弦波成分を選択するステップと、
−前記選択された正弦波成分のみを合成するステップと、
を含む方法であって、
いずれの却下される正弦波成分のいずれのエネルギ損失に関しても、前記選択された正弦波成分の利得を補償するステップを更に含むことを特徴とする方法。