JP2009543112A

JP2009543112A - 音声パラメータの復号化

Info

Publication number: JP2009543112A
Application number: JP2009517552A
Authority: JP
Inventors: スズクゼルバマレク; ヘーリッツアンドレアス; ミーデリンクマルク
Original assignee: NXP BV
Current assignee: NXP BV
Priority date: 2006-06-29
Filing date: 2007-06-27
Publication date: 2009-12-03
Also published as: WO2008001316A3; US20090308229A1; CN101479789A; EP2038882A2; WO2008001316A2

Abstract

音声成分を表す音声パラメータから音声標本を生成する装置であって、その装置は、各フレームに含まれる過渡音声パラメータから過渡音声成分を合成するための過渡合成ユニット（１４）を具える。合成効率を増加させるために、フレーム当たり１つの過渡音声成分のみを選択するための過渡成分選択ユニット（１１）を構成する。更に、その装置は過渡成分が生成される場合、より少ない正弦波成分を生成するように構成できる。変換領域係数は、時間窓表現の変換領域表現と畳み込むことができ、得られた変換領域係数の数は、更に合成効率を向上するように制御できる。

Description

本発明は音声パラメータの復号化及び音声の合成に関するものである。より詳細には、本発明は、過渡音声成分、正弦波音声成分及び／又は他の音声成分を表す音声パラメータから音声標本を生成する装置、及びその方法に関するものである。

時間的包絡線パラメータ及び／又はスペクトル包絡線パラメータ、スペクトル係数、及び他のパラメータのような音声パラメータから音声標本を生成することは周知である。例えば、パラメータ復号器はこのようなパラメータを復号化し、後でアナログ音声信号に変換できる音声標本を生成することができる。同様にパラメータ合成器も音声パラメータを用いて音声標本を生成する。

音声パラメータ及びその結果得られる音声標本は、典型的にはフレーム、即ち単一ルーチンで処理できるデータセットに配列される。各フレームは、複数の音声標本を生成するように処理し得る１つ以上のパラメータを含むことができる。音声標本の数は、それらが導出される音声パラメータの数よりもずっと大きいため、音声パラメータは典型的には音声の効率的な表現を構成している。

異なる音声成分を表すために、異なる型の音声パラメータを使用できる。例えば、ある音声パラメータは過渡音声成分のみを表すことができるが、他の音声パラメータは、例えば正弦波成分及び／又は雑音成分などの他の音声成分を表すことができる。これらの音声成分は異なる特性を有しているため、異なるパラメータ群によって、より効率的に表すことができる。

１フレーム当たりの音声成分の数は非常に大きくてもよい。しかし多数の音声成分の合成は多数の計算を必要としうる。これにより比較的大きな処理能力を有する装置が必要になり、多くの用途には適していない。

本発明の目的は、先行技術のこれら及び他の問題を解決し、より少ない計算で済む音声パラメータから音声標本を生成する装置及び方法を提供することにある。

従って、本発明は過渡音声成分及び他の音声成分を表す音声パラメータから音声標本を生成する装置を提供し、本装置は合成すべき音声パラメータ数を低減する手段を具える。

より詳細には、本発明は音声成分を表す音声パラメータから音声標本を生成する装置を提供し、本装置は、
音声成分を表す音声パラメータを含むフレームを受信して、各フレームに対して限定数の音声成分を選択する、少なくとも１つの選択ユニットと、
選択された音声成分をそれらのパラメータから合成する、少なくとも１つの合成ユニットと、
を具える。

選択ユニットは、１フレームにつき１つの過渡音声成分を選択する過渡成分選択ユニットとし、合成ユニットは選択された過渡成分を合成する過渡成分合成ユニットとすることができる。

過渡音声成分を含む各フレームにおいて１つの過渡音声成分のみを選択することによって、フレーム毎に複数の過渡（音声）成分を合成することを防止する。複数の過渡成分の合成は計算的に非常に不利であり、フレーム毎に１つの過渡成分だけを合成することによって、必要な処理を大きく低減できることが明らかとなった。更に、ほとんどの場合、音声品質はほとんど悪影響を受けないことも明らかとなった。このように、音声の生成効率が大きく改善されるが、各フレームの他の過渡成分の省略はほとんど聞こえない。

フレームが過渡音声成分を含まない場合には、過渡成分は合成されないことが理解されよう。フレームが１つの過渡成分のみを含む場合には、その過渡成分は選択される。

過渡成分選択ユニットは、合成すべき１つの過渡成分を様々な方法で選択できる。各フレームの第１の過渡成分を選択し、残りの成分（のパラメータ）を無視することができる。しかし過渡音声成分を選択するために他の基準も使用できる。好適な実施例においては、選択ユニットに最大のエネルギー含量を有する過渡音声成分を選択する手段を設ける。

個々のフレームの音声成分、特に過渡成分は次のフレームに延在することもある。フレームの音声を合成しているとき、前のフレームの音声の一部も合成されることが可能である。このような場合には、本発明を使用しても、２つの過渡音声成分（又は３つ以上でさえ可能）が同時に合成されることが可能である。合成効率を更に増加させるために、過渡合成ユニットに、現在のフレーム中の過渡音声成分を合成するときに前のフレームの過渡音声成分を切断する切断ユニットを設けることが好ましい。

本発明の装置は、正弦波音声成分を含む各フレーム毎に１つ以上の正弦波音声成分を選択する正弦波成分選択ユニットと、選択された正弦波音声成分をそれらのパラメータから合成する正弦波成分合成ユニットを、追加して又は代わりに具えることができる。

本装置が過渡成分合成ユニットも具える場合、正弦波成分選択ユニットは過渡成分選択ユニットに依存させ、過渡成分選択ユニットが同一のフレームに対して過渡成分を選択する場合、より少ない正弦波音声成分を選択することができるようにするのが有利である。従って、正弦波成分選択ユニットは過渡成分選択ユニットによって制御され、選択される正弦波成分の数が同一のフレーム中の過渡成分の存在に依存するようにするのが好ましい。

正弦波成分選択ユニットを具える実施例において、過渡成分が合成されている場合に正弦波成分の数を低減することは、所要の計算数を低減する。この方法は、過渡成分が正弦波成分をマスキングするため、音声品質にほとんど悪影響を与えないことが明らかとなった。過渡成分を含まないフレームにおいては、全ての正弦波音声成分を選択して合成できる。

過渡合成ユニットが同一のフレームに対して過渡成分を生成する場合、より少数の正弦波音声成分を生成するという特徴は独立に使用でき、従って１フレーム当たり２つ以上の過渡成分を合成する装置に使用することもできることに注意されたい。

所定のフレームが過渡音声成分を含まずにその前のフレームが含む場合、過渡成分が依然として合成されることがある。このような場合、計算負荷を低減するために正弦波成分の数を低減することもできる。正弦波成分の選択及び過渡成分の選択は互いに影響するが、正弦波成分及び過渡成分の選択は、音響心理的適切度に基づくものとするのが好ましい。

変換領域における正弦波成分の合成は、通常、時間領域の合成よりも効率的であるため、正弦波音声パラメータは変換領域係数を表す、又は変換領域係数に変換できるデータを表すものとするのが好ましい。更に、装置は変換領域係数を時間領域標本に変換する逆変換ユニットを更に具えることが好ましい。変換領域は周波数領域、特に複素スペクトル領域であることが好ましく、逆変換は逆高速フーリエ変換（ＩＦＦＴ）であることが好ましいが、他の変換領域及び関連する（逆）変換、例えば（離散）コサイン変換領域又は直交ミラーフィルタ（ＱＭＦ）変換領域を使用することができる。

音声パラメータはフーリエ係数のような変換領域係数とし得るが、音声パラメータから変換領域係数を生成することも可能であることに注意されたい。前者の場合、音声パラメータは変換領域係数と同一であるが、後者の場合は音声パラメータはこのような係数又は等価なデータを表し、変換領域音声係数に変換できる。

好適な実施例においては、正弦波合成ユニットは変換領域音声係数と時間窓の変換領域表現とを畳み込む畳み込みユニットと、畳み込みによって生じる追加の変換領域音声係数の数を限定する係数限定ユニットとを具える。係数限定ユニットは、利用可能な係数セットのサブセットを選択することによって、畳み込み後の音声係数の数を効率的に限定できる。

適切な持続時間に対応する音声データ（係数又は標本）を生成するために、音声係数を時間窓の表現を使用して処理するのが有利である。その処理は、音声パラメータが時間領域係数を表すときは乗算を必要とし、音声パラメータが変換領域係数を表すときは畳み込みを必要とするものとし得る。畳み込みは、典型的には非ゼロの変換領域係数の数を増加させる。しかしこれは必要な処理量も増加させる。

本発明の更なる態様によれば、係数限定ユニットは、フレーム中の変換領域係数の数をフレーム中の音声パラメータの元の数に依存して限定するように構成できる。例えば、元の係数の数が大きい場合、選択される追加の係数の数を小さくすることができる。このように全体の係数の数をほぼ一定、又は少なくとも所定の最大値以下に維持できる。代わりに追加の係数の数をほぼ一定、又は所定の最大値以下に維持できる。

追加の係数の数は、様々な方法で限定できる。特に好適な実施例において、フレーム中の追加の係数の数は、
− 元の係数の数が２以下の場合には６
− 元の係数の数が３〜５の場合には４
− 元の係数の数が５以上の場合には２
とする。

しかし、これらの数は個々のフレーム長やそれぞれの正弦波成分のエネルギーのような他の考慮事項に依存し、通常は個々の実施例によることが理解されよう。特に、上記の数は周波数帯域毎に適用することができ、好適には周知のＥＲＢ（等価長方形帯域幅）スケールは音響心理を考慮しているため、ＥＲＢ帯域又は類似の帯域毎に適用することができる。

本発明の装置は、各フレーム毎に合成すべき雑音音声成分を選択する雑音成分選択ユニットと、選択された雑音音声成分をそれらのパラメータから合成する雑音成分合成ユニットとを具えることができる。合成前に雑音成分を選択することによって、計算負荷を更に低減できる。雑音成分の選択は、過渡成分及び／又は正弦波成分の選択に独立にすること又は依存させることができる。

本発明の装置は、音声標本を出力するための出力ユニットを更に具えることができ、その出力ユニットは重複フレームを加算するための手段を具えていることが好ましい。つまり出力ユニットは、フレームを出力信号に組み合わせるために周知の重複加算技術を使用できる。

本発明の装置は、音声パラメータを含むフレームを形成するためのフレーム形成ユニットを追加として又は代わりとして具えることができ、この場合には、過渡成分選択ユニット、正弦波成分選択ユニット及び／又は雑音成分選択ユニットは、フレーム形成ユニットからフレームを受信する。

本発明は、上で特定した装置を具える音響システム並びに民生用装置を更に提供する。本発明の民生用装置は、移動（米国ではセルラ）電話装置のような携帯民生用装置、ＭＰ３プレーヤのような固体音楽プレーヤ、音楽合成器、又は他の適切な装置とすることができる。

本発明は、過渡音声成分及び他の音声成分を表す音声パラメータから音声標本を生成する方法も提供し、本方法は、
音声成分を表す音声パラメータを含むフレームを受信するステップと、
各フレーム毎に、限定数の音声成分を選択するステップと、
選択された音声成分をそれらのパラメータから合成するステップと、
を含む。

本発明の方法は、上述の装置と同一の利点を有する。

選択される音声成分は、１フレーム当たり１つの過渡成分のみを含むことができる。本発明の方法は、フレーム中に含まれる正弦波音声パラメータから正弦波音声成分を合成し、同一のフレームに対して少なくとも１つの過渡音声成分が生成される場合に、より少ない正弦波音声成分を生成するステップを更に含むことができる。

音声パラメータは、変換領域パラメータ又は変換領域パラメータに変換できるデータを表すことができ、本方法はパラメータを逆変換するステップを更に含むことが好ましい。

本発明の方法は、変換領域音声係数と時間窓の変換領域表現とを畳み込み、その畳み込みにより生じる追加の音声成分の数を限定するステップを含むことが有利である。

本発明の方法は、１つ以上の音声成分を表す音声パラメータを含むフレームを形成するステップも含むことができる。

本発明による更なる方法ステップは、以下の本発明の詳細な説明から明らかになる。

本発明は更に、上で特定した方法を実行するためのコンピュータプログラム製品を提供する。コンピュータプログラム製品は、ＣＤ又はＤＶＤのようなデータキャリア上に記憶されたコンピュータが実行可能な命令セットを含むことができる。コンピュータが実行可能な命令セットは、プログラム可能なコンピュータが上で規定した方法を実行することを可能にし、例えばインターネット経由で遠隔サーバからのダウンロードすることにより利用可能にすることもできる。

添付の図に説明した代表的な実施例を参照して、本発明を以下に更に説明する。

本発明による装置の代表的な実施例の概略図を示している。本発明による畳み込み後のパラメータ数を限定するプロセスの概略図を示している。本発明による隣接するフレームの過渡音声成分の所要時間を限定する概略図を示している。本発明による、過渡成分合成ユニットの概略図を示している。本発明による正弦波成分合成ユニットの概略図を示している。本発明による民生用装置の概略図を示している。

図１における非限定的な例によってのみ示す本発明の装置１は、ビットストリーム分析（ＢＰ）ユニット１０、過渡成分選択（ＳＥＬ）ユニット１１、過渡成分合成（ＴＳ）ユニット１４、正弦波成分選択（ＳＥＬ）ユニット１２、正弦波成分合成（ＳＳ）ユニット１５、雑音成分選択（ＳＥＬ）ユニット１３、雑音成分合成（ＮＳ）ユニット１６、逆高速フーリエ変換（ＩＦＦＴ）ユニット１７、重複加算（ＯＬＡ）ユニット１８、及び混合（ＭＩＸ）出力ユニット１９を具える。

示した実施例において、装置１は音声パラメータを含む入力ビットストリームＡを受信し、時間領域音声標本を含む出力信号Ｂを生成する。

ビットストリーム分析ユニット１０は、入力ビットストリームＡを分析し、音声パラメータを含むフレームを形成する。これらのフレームは、それぞれ過渡音声成分、正弦波音声成分及び雑音音声成分を表す過渡成分パラメータ（ＴＰ）、正弦波成分パラメータ（ＳＳ）及び／又は雑音成分パラメータ（ＮＰ）を含むことができる。各フレームのパラメータは、それぞれ過渡成分合成ユニット１４、正弦波成分合成ユニット１５及び雑音成分合成ユニット１６に供給される。ある実施例においては１つ又は２つの型の音声パラメータのみを区別することができるが、別の実施例においては３つ以上の音声パラメータを使用することができることに注意されたい。ビットストリーム分析ユニット１０は、複数のチャネル（例えば合成器内の複数の機器）を受信する複数の入力端子を有することができる。

本発明によれば、過渡成分パラメータＴＰは過渡成分合成ユニット１４に直接供給されない。代わりに過渡成分パラメータＴＰは、最初に、個々のフレーム中に存在する過渡成分から１つの過渡成分を選択する過渡成分選択ユニット１１に供給される（別の実施例において、１フレーム当たり２つ以上の過渡成分、例えば２つの過渡成分を、本発明の利点の少なくとも一部を維持しながら、選択することができることに注意されたい）。選択ユニット１１は、１つの過渡成分、例えば最大のエネルギー含量を有する過渡成分を選択し、選択した過渡成分のパラメータＴＰ’を出力する。過渡成分が選択されたか否かを示す選択データｓｄは、正弦波成分選択ユニット１２に送信される。

図１の実施例において、過渡成分選択ユニット１１は個別ユニットとして示されている。しかし、代わりに過渡成分選択ユニット１１は過渡成分合成ユニット１４中に組み込むことができる。過渡成分選択ユニット１１は、図４を参照して後により詳細に説明する。

過渡成分合成ユニット１４は、選択された過渡成分パラメータＴＰ’を使用して過渡（音声）成分ＴＣを合成し、得られた標本Ｔｓを混合出力ユニット１９に供給する。

正弦波成分選択ユニット１２は、正弦波成分パラメータＳＰを受信し、１つ又はそれ以上の正弦波音声成分のパラメータを選択する。示した実施例において、この選択は過渡選択ユニット１１から受信される選択データｓｄに依存する。過渡成分が選択されない場合（典型的には、これは現在のフレーム中に過渡成分が少しも存在しない又は大きな振幅を有する過渡成分が存在しないことを意味している）、正弦波成分の数を比較的大きくでき、例えば現在のフレームの全ての正弦波成分を選択できる。選択データｓｄによって示されるように、過渡成分が選択される場合、正弦波選択ユニット１２によって正弦波成分の数を低減できる。フレーム中に比較的小さい過渡成分しか存在しない場合には、正弦波成分選択ユニット１２から過渡成分選択ユニット１１に送信される制御データｓｄに依存して、比較的大きな正弦波のために省略できる。正弦波成分選択ユニット１２の好適な実施例は、図５を参照して後により詳細に説明する。

正弦波成分合成ユニット１５は、選択された正弦波成分パラメータＳＰ’を使用して選択された正弦波（音声）成分を合成し、本実施例においてはスペクトル（つまりフーリエ）係数である正弦波音声係数Ｓｃを生成する。係数Ｓｃは、逆ＦＦＴ（ＩＦＦＴ）ユニット１７によって逆変換される。得られた時間領域標本は、正弦波音声標本Ｓｓを生成するために重複加算（ＯＬＡ（overlap-and -add））ユニット１８において重ね合わされ、得られた正弦波音声標本Ｓｓは混合出力ユニット１９に供給される。

同様に雑音成分選択ユニット１３は、雑音成分パラメータＮＰを受信し、１つ又はそれ以上の雑音成分のパラメータを選択する。示した実施例において、この選択は過渡成分選択ユニット１１及び正弦波成分選択ユニット１２から受信される選択データｓｄに依存する。過渡応答が選択されない場合（典型的には、これは現在のフレーム中に過渡成分が少しも存在しない又は大きな振幅を有する過渡成分が存在しないことを意味している）、雑音成分の数を比較的大きくでき、例えば現在のフレームの全ての雑音成分を選択できる。選択データｓｄによって示されるように、過渡成分が選択される場合、正弦波成分は典型的には音響心理的適切度が低いこともあり、雑音成分の数を低減できる。正弦波成分選択ユニット１２から受信した選択データｓｄによって示されるように、比較的大きな数の正弦波成分が選択される場合、合成される雑音成分の数を低減できる。

選択データｓｄを逆方向に送り、例えば所定の数の正弦波成分を合成する場合には過渡成分の数を低減する、又は同一のフレームが比較的高いエネルギーを有する正弦波成分を含む場合には比較的低いエネルギーを有する過渡成分を抑圧することもできる。

雑音合成ユニット１６は、選択された雑音成分パラメータＮＰ’を使用して雑音（音声）成分を合成し、また合成した成分の雑音成分標本Ｎｓを混合出力ユニット１９に供給し、そこでそれらの標本Ｎｓは過渡音声標本Ｔｓ及び正弦波音声標本Ｓｓと合成されて出力信号Ｂを生成する。

正弦波成分選択ユニット１２及び雑音選択ユニット１３は個別のユニットとして示されている。別の実施例では、正弦波成分選択ユニット１２及び／又は雑音成分選択ユニット１３は、それぞれ正弦波成分合成ユニット１４及び又は雑音成分合成ユニット１６中に組み込むことができる。同様に、逆変換ユニット１７及び重複加算ユニット１８も正弦波成分合成ユニット１５に組み込み、単一の複合ユニットを形成することができる。

図１の代表的な実施例において、正弦波成分合成ユニット１５は、選択した正弦波成分パラメータＳＰ’によって表されるスペクトル（又は他の変換領域）係数と適切な時間窓のスペクトル（又は他の変換領域）表現との畳み込みを実行する畳み込みユニットを具える。この畳み込みの結果は、スペクトル係数（通常、変換領域データ）のフレームであり、そのフレームの長さは例えば２５６又は５１２個の係数である適切な変換長に一致する。

畳み込みユニット（図５中の１５１）によって実行される畳み込みは図２に概略的に示されている。ここでは、代表的な変換領域表現Ｐは単一係数を有し、この係数は例えば正弦波成分を表すことができる。この変換領域表現Ｐは、時間窓の変換領域表現Ｑと畳み込まれ、記号「＊」は畳み込みを示している（図２においては、簡単のために表現Ｐ及びＱの絶対値のみが示してある）。本例において、得られた変換領域表現Ｒは、元の表現Ｐより８つ多い９つの係数を有する。

変換領域係数の総数は変更することはできないが、畳み込みは典型的には非ゼロの係数を増加させ、これらは追加の変換領域係数として参照できる。本発明の更なる態様によれば、この追加の変換領域係数（典型的にはスペクトルビン(bin)）の数は、係数限定（ＣＬ）ユニット（図５中の１５２）によって限定される。

畳み込み操作の結果である追加の変換領域係数（又は「サイドビン」）は、係数を処理するのに必要な計算数を増加させる。このため、係数限定ユニット（図５中の１５２）は、計算効率を増加させるために、必要に応じ、係数の数を低減する。図２では、係数の数は５つの係数のセットＳに限定され、このように他の係数を破棄して処理すべきパラメータの数を低減する。生成された追加の係数は、合成される信号の時間−周波数分解能も決定することに注意されたい。

使用する追加の係数の数は、元の係数の数、従って正弦波成分の数に依存させると有利である。係数の総数を低減するために、使用する追加の係数（図２のＳに含まれる）の数は、好適な実施例においては、元の係数の数（図２のＰ）に反比例する。特に好適な実施例においては、フレーム中の追加の変換領域係数の数は、
− 元の変換領域係数の数が２以下の場合には６
− 元の変換領域係数の数が３〜５の場合には４
− 元の変換領域係数の数が５以上の場合には２
とする。

使用する追加の変換領域係数の実際の数は、特定の実施例に依存することが理解されよう。これらの数は、周波数帯域毎、好ましくはＥＲＢ帯域又は類似の帯域毎に適用することができる。

過渡合成（ＴＳ）ユニット１４の好適な実施例が図４に示されている。示した実施例には、現在のフレームの過渡成分が合成されている場合に、前のフレームの過渡成分を切断するように働く過渡切断（ＴＤ）ユニット１４１が設けられている。図３に更に示すように、過渡成分Ｔ１及びＴ２は隣接するフレームＦ１及びＦ２において合成されることがある。第１フレームＦ１はｔ＝０にて開始し、第２フレームＦ２はｔ＝１にて開始する。

第１フレームＦ１の過渡成分は第２フレームＦ２へ続き、第２フレームＦ２の少なくとも一部においてＴ１とＴ２の合成を引き起こす。複数の過渡成分の合成を防止するために、第１過渡成分Ｔ１は第２フレームＦ２がｔ＝１にて開始する時に切断される。

合成効率の更なる増加は、図５に示すように、正弦波成分合成（ＳＳ）ユニット１５に係数限定（ＣＬ）ユニット１５２を設けた場合に達成できる。係数限定（ＣＬ）ユニット１５２は、フレーム内の合成される正弦波の数を、同じフレーム内の合成される過渡成分の存在に依存して限定し、更に要すれば音響心理的な基準に依存して限定することもできる。その結果、正弦波係数の数Ｓｃは低減され、こうして必要な計算数を低減できる。係数限定ユニット１５２は、正弦波成分選択ユニット１２に加えて、又はその代わりに使用できる。

正弦波成分合成（ＳＳ）ユニット１５は、選択された正弦波パラメータＳＰ’によって表される変換領域係数と時間窓の変換領域表現とを畳み込むための畳み込み（ＣＯＮ）ユニット１５１を更に具えることが示されている。正弦波成分合成ユニット１５は、選択された正弦波パラメータＳＰ’から前記の変換領域係数を生成するための係数生成ユニット（図示せず）と、時間窓の変換領域表現を記憶するための記憶ユニット（図示せず）とを更に具えることができる。時間窓の長さは、効率的な変換ができるように選択することが好ましく、オーバーサンプリングを使用する場合には、例えば１２８，２５６，５１２又は１０２４の係数、又は１２８ｘＮ，２５６ｘＮなどの係数の長さを有することができ、ここでＮはオーバーサンプリング係数であり、例えば３２とすることができる。

本発明による民生用装置が図６に概略的に示されている。本発明によれば、民生用装置９は音声合成装置１を具えるように示されている。更に民生用装置９は追加の要素、例えば音声データ記憶装置２，アンプ、ラウドスピーカ、電源、制御パネル（図示せず）などを具えることができる。民生用装置９は、携帯オーディオプレーヤ、携帯（移動）電話装置、携帯情報端末（ＰＤＡ）、音楽合成器、ゲーム装置、又は、デジタル又は音響音声信号を出力可能な他の民生用装置とすることができる。本発明による音声合成装置１は、音声システムにおいても使用でき、特にパラメータ復号器及びパラメータ合成器用に適している。

本発明は、音声の合成効率は、合成すべき音声成分を特に音声心理学的基準を考慮して選択することによって増加できるという見識に基づいている。本発明は、１フレーム当たり１つの過渡成分だけを音声品質にさほど悪影響を与えることなく合成できるという更なる見識による利点もある。本発明は、１フレーム当たりの合成される正弦波の数を、同じフレームにおいて過渡成分が合成される場合に低減できるとともに、変換領域の畳み込みによって生成される追加の係数の数を、音声品質をほぼ一定に保ちつつ低減できるという更なる見識による利点もある。

本明細書において使用されている用語は本発明の範囲を限定するように解釈されるべきではない。特に、「具える」という言葉は、明記してない他の要素を排除しない。１つの（回路）素子は、複数の（回路）素子又は他の装置で置き換えることができる。各実施例は別々に、又は他の実施例と組み合わせて実施できる。

従って、当業者は、本発明は上で示した実施例に限定されず、添付の請求項において特定された本発明の範囲から離れることなく、多くの改良又は追加を行うことができることを理解されよう。

Claims

音声成分を表す音声パラメータを含むフレームを受信し、各フレーム毎に限定数の音声成分を選択するための少なくとも１つの選択ユニットと、
選択された音声成分をそれらのパラメータから合成する、少なくとも１つの合成ユニットと、
を具えることを特徴とする、音声成分を表す音声パラメータから音声標本を生成するための装置。
過渡音声成分を含む各フレーム毎に単一の過渡音声成分を選択する過渡成分選択ユニットと、
選択された過渡音声成分をそれらのパラメータから合成する、過渡成分合成ユニットと、
を具えることを特徴とする、請求項１に記載の装置。
前記過渡選択ユニットが、最大のエネルギー含量を有する前記過渡音声成分を選択するための手段を具えていることを特徴とする、請求項２に記載の装置。
前記過渡合成ユニットが、現在のフレームにおいて過渡音声成分を合成するときに前のフレームの過渡音声成分を切断するための切断ユニットを具えることを特徴とする、請求項２に記載の方法。
各フレーム毎に、１つ以上の正弦波音声成分を選択するための正弦波成分選択ユニットと、
選択された正弦波音声成分をそれらのパラメータから合成する、正弦波成分合成ユニットと、
を具えることを特徴とする、請求項１に記載の装置。
前記過渡成分選択ユニットが同一のフレームに対して過渡成分を選択する場合に、前記正弦波成分選択ユニットが、選択された正弦波成分の数を低減することを特徴とする、請求項２又は５に記載の装置。
逆変換ユニットを更に具えることを特徴とする、請求項５に記載の方法。
前記正弦波選択ユニットが前記変換領域係数と時間窓の変換領域表現とを畳み込むための畳み込みユニットを具え、前記正弦波成分選択ユニットに前記畳み込みによって生じる追加の変換領域係数の数を限定するための係数限定ユニットも設けることを特徴とする、請求項５に記載の装置。
前記係数限定ユニットが、フレーム中の追加の変換領域係数の数をフレーム中の音声パラメータの元の数に依存して、好ましくは周波数帯域毎に限定することを特徴とする、請求項８に記載の装置。
各フレーム毎に合成すべき雑音成分を選択するための雑音成分選択ユニットと、
雑音成分をそれらのパラメータから合成する、雑音成分合成ユニットと、
を具えることを特徴とする、請求項１に記載の装置。
請求項１に記載の装置を具える民生用装置。
請求項１に記載の装置を具える音響システム。
音声成分を表す音声パラメータを含むフレームを受信するステップと、
各フレーム毎に、限定数の音声成分を選択するステップと、
それらのパラメータから選択した音声成分を合成するステップと、
を含むことを特徴とする、過渡音声成分及び他の音声成分を表す音声パラメータから音声標本を生成する方法。
前記選択ステップが、各フレームに対して１つの過渡音声成分を選択するするステップを含み、前記合成ステップが、選択された過渡音声成分をそれらのパラメータから合成するステップを含むことを特徴とする、請求項１３に記載の方法。
前記選択ステップが、最大のエネルギー含量を有する前記過渡音声成分を選択するステップを含むことを特徴とする、請求項１４に記載の方法。
前記合成ステップが、現在のフレームにおいて過渡音声成分を合成するときに、前のフレームの過渡音声成分を切断するステップを含むことを特徴とする、請求項１４に記載の方法。
フレームに含まれる正弦波音声パラメータから正弦波音声成分を合成するステップと、
その合成前に正弦波音声成分を選択するステップと、
を更に具えることを特徴とする、請求項１３に記載の方法。
同一のフレームに対して過渡音声成分が生成される場合に、選択される正弦波成分の数を低減するステップを更に具えることを特徴とする、請求項１４及び１７に記載の方法。
前記音声パラメータが変換領域係数を表し、前記変換領域係数を逆変換するステップを更に含むことを特徴とする、請求項１３に記載の方法。
前記変換領域係数と時間窓の変換領域表現とを畳み込むステップと、
好ましくは前記畳み込みにより生じる追加の変換領域係数の数を限定するステップと、
を更に含むことを特徴とする、請求項１９に記載の方法。
フレームに含まれる雑音成分パラメータから雑音成分を合成するステップと、
その合成前に雑音成分を選択するステップと、
を更に含むことを特徴とする、請求項１３に記載の方法。
請求項１３に記載の方法を実行するためのコンピュータプログラム製品。