JP2010503875A

JP2010503875A - 音声フレーム長の適応化

Info

Publication number: JP2010503875A
Application number: JP2009517554A
Authority: JP
Inventors: スズクゼルバマレク; ヘーリッツアンドレアス; クラインミーデリンクマルク
Original assignee: NXP BV
Current assignee: NXP BV
Priority date: 2006-06-29
Filing date: 2007-06-27
Publication date: 2010-02-04
Also published as: ATE520120T1; EP2038881B1; EP2038881A2; CN101479788A; WO2008001320A3; CN101479788B; WO2008001320A2; US20090287479A1

Abstract

音声パラメータ（Ａ）から時間領域音声データ（Ｂ）を形成する方法であって、各々が音声を表す音声パラメータを含む第１のフレームを形成するステップと、第１のフレームから、各々が音声パラメータから得られた所定の時間領域長を有する音声を表す変換領域音声データを含むとともに、効率的な逆変換に対応する長さを有する第２のフレームを形成するステップと、第２のフレームを、各々が単一の第２のフレームの変換領域音声データに対応する時間領域音声データを含むとともに、第２のフレームと等しい長さを有する第３のフレーム（Ｇ１，Ｇ２，．．．）に逆変換するステップと、各第３のフレームのほぼ全ての時間領域音声データ（Ｂ）を出力するステップと、
前記所定の時間領域長（Ｐ）と第３のフレーム長（Ｑ）との差を補償するために、必要に応じて第１のフレーム（Ｆ３，Ｆ７）を放棄又は繰り返すステップとを含むことを特徴とする。

Description

本発明は、音声フレームのフレーム長適応化に関するものである。より詳細には、本発明は、効率的な変換を可能にするようなフレーム長適応化を伴う音声パラメータから、時間領域音声データを生成するための装置及び方法に関するものである。

音声標本を表す音声パラメータから音声を合成又は再構成する方法が周知である。周波数（つまりフーリエ変換）領域のような変換領域における音声合成は、時間領域における音声合成よりも計算に関し有利である。このため、音声はスペクトル成分、又はスペクトル又は時間的特性を表すパラメータのような音声パラメータとして符号化されて記憶されることが多い。異なる音声成分、例えば過渡成分、正弦波成分、及び雑音成分に、別々のパラメータを与えることが出来る。このような異なる音声成分を使用する符号器及び復号器が、例えば特許文献１に開示されている。

国際公開第２００１６９５９３号パンフレット（出願人：フィリップス）

合成器又は復号器は、記憶又は送信されてきた音声パラメータを用いて、変換領域音声フレームを組み立て、次に時間領域に逆変換することができる。得られる時間領域音声フレームの持続時間は、典型的には音響心理を考慮して決定され、アーチファクトが最小になるように選ぶことができる。例えば、幾つかの合成器は、８．７ｍｓの（時間領域）持続時間を有する音声フレームを使用している。４４．１ｋＨｚの標本化周波数では、このようなフレームは３８４標本の長さを有することになる。

３８４データ項目のこのフレーム長は、音響心理の観点からは最適かもしれないが、このようなフレームの変換は非常に非効率的である。高速フーリエ変換（ＦＦＴ）、その逆変換（ＩＦＦＴ）及び離散コサイン変換（ＤＣＴ）のような同様の変換は、フレーム中のデータ項目数が２のべき乗、例えば、１２８，２５６，又は５１２の時に最も効率的である。フレーム当たりのデータ項目が３８４である本例においては、５１２の変換長を選択する。変換が完了したときに所望の３８４データ項目数を与えるために、１２８データ項目が破棄される。しかしこれでは変換効率が僅か７５％となり、データ項目の２５％（＝１２８／５１２）が冗長であることを意味している。

変換効率は、他の標本化周波数では更に低下する可能性がある。上述の例においては、８．７ｍｓの持続時間は、１６．９ｋＨｚの標本化周波数にて１３９個の標本を与える。２５６の変換長を使用すると、変換効率は僅か５４％になる。

２のべき乗以外のフレーム長に適したＦＦＴの実施例は既知であるが、これらの代替実施例は、典型的には変換効率が悪く、より多くの処理時間及び／又はメモリ領域を必要とする。

本発明の目的は、先行技術のこれら及び他の問題を解決し、音声パラメータのような入力音声データから時間領域出力音声データを生成する、より効率的な装置及び方法を提供することにある。

従って、本発明は音声パラメータから時間領域音声データを生成する装置を提供し、本装置は、
各々が音声を表す音声パラメータを含む第１のフレームを形成する第１のフレーム形成ユニットと、
前記第１のフレームから、各々が単一の第１のフレームの音声パラメータから得られた所定の時間領域長を有する音声を表す変換領域音声データを含むとともに、効率的な逆変換に対応する長さを有する第２のフレームを形成する第２のフレーム形成ユニットと、
前記第２のフレームを、各々が単一の第２のフレームの変換領域音声データに対応する時間領域音声データを含むとともに、第２のフレーム長に等しい長さを有する第３のフレームに逆変換する逆変換ユニットと、
各第３のフレームのほぼ全ての時間領域音声データを出力する出力ユニットと、
前記所定の時間領域長と前記第３のフレーム長との差を補償するために、必要に応じて第１のフレームを破棄又は繰り返すフレーム選択ユニットと、
を含む。

第２のフレームによって表された元の所定の時間領域長に対応する数の音声データのみを使用する代わりに、第３のフレームに含まれる逆変換された音声データの全て又はほぼ全てを使用することによって、装置の効率が大きく向上する。

本発明において、出力ユニットは、各第３のフレームの時間領域音声データの全て、又はほぼ全て、即ち前記時間領域音声データの９０％以上、好ましくは９５％以上、より好ましくは９８％を出力できることに注意されたい。

第１のフレームを破棄する、又は場合によっては繰り返すことによって、第３のフレームと第２のフレームの変換領域データによって表された所定の時間領域長との差を補償できる。例えば、本発明に従って３８４標本の長さを有する（第１の）フレームに対して５１２の変換長を使用し、５１２の逆変換された標本を全て使用する場合、先行技術における場合と同一の、５１２／３８４＝１．３３倍の標本が生成される。従って、使用すべき第１のフレームの数を、３８４／５１２＝１／１．３３＝２５％だけ低減しなければならない。従って、本例では同一の全持続時間を有する音声を得るには、４フレームおきに１フレームを破棄しなければならない。

フレームの破棄は、特に断続的に行うときにはほぼ目立たないことが明らかとなった。従って、フレームの破棄は等間隔に行い、特に２つの直接隣接するフレームを破棄することは避けることが好ましい（例えば元の一連のフレームがＡＢＣＤＥＦＧの時はＡＢＤＥＧ）。しかしフレームを繰り返すときには、隣接するフレームを繰り返すことが好ましい（例えばＡＢＣＣＤＥＦＦＧ）。

上記の所定の時間領域長は、所望の持続時間と一致する時間窓、例えば、上で参照した持続時間８．７ｍｓに対応する３８４標本によって規定できる。実用的な実施例においては、第２のフレーム形成ユニットは、音声パラメータによって表された変換領域音声データと、所望の時間窓の（例えば複素スペクトル）変換領域表現（のセグメント）とを畳み込むことによって、音声パラメータから変換領域音声データを導出できる。得られる信号の周波数領域の分解能を改良するために、所望の時間窓のこのスペクトル表現にオーバサンプリングを適用できる。

上述した所定の時間領域長は、典型的には第１のフレームが形成されるレートに関連し、連続する第１のフレーム間の時間間隔に等しくすることができる。しかし、これは必須ではなく、第１のフレームが変化する時間間隔で形成され、第１のフレームが第２のフレームに変換する前にバッファリングされる実施例を想定することもできる。

本発明においては、音声パラメータが音声特性を表すパラメータを含み、変換領域音声データは前記音声パラメータから導出される変換領域係数を含み、時間領域音声データは前記係数から得られる音声標本を含むことができる。

より適切な変換長を選択することによって、変換効率を更に改良することが出来る。従って本発明の更なる態様によれば、第１のフレーム形成ユニットは、所定の持続時間を低減又は増加させて前記所定の時間領域長が第３のフレーム長に等しく又はほぼ等しくなるように構成することができる。

第２のフレームのデータによって表される所定の持続時間を低減又は増加させることによって、効率的な変換長により近い短縮された又は伸張されたフレームが得られる。例えば、８．７ｍｓの上記の持続時間は、１６ｋＨｚの標本化周波数にて１３９個の標本を与え、２５６の変換長を使用するとき、変換効率は僅か５４％（＝１３９／２５６）となる。しかしこの持続時間が８．０ｍｓに低減される場合、１６ｋＨｚでは１２８個の標本だけが必要であり、僅か１２８の変換長を使用できる。この手段が効率を大きく改良することは明らかとなろう。

実際の実施例においては、技術的理由のために、所定の持続時間の長さを更に僅かに低減し、例えば７．９ｍｓで１２６標本に低減することができる。

フレームの持続時間を低減できるため、音声の全持続時間も低減され、これは通常好ましくない。このため、フレーム選択ユニットは、第１のフレームと第２のフレームとの長さの差を補償するために、必要に応じ第１のフレームを繰り返す（又は場合によっては破棄する）手段を具えている。フレームを繰り返すことによって、出力される音声の全持続時間をほぼ一定に維持できる。上記の例において、８．７から８．０ｍｓへの第１のフレーム長の低減は、８．７／８．０＝１．０８７５倍の長さ調整（つまり８．７５％の付加）を行う必要があり、例えば、１２フレーム毎に１フレーム繰り返す（１／１２＝８．３３％）ことによって達成できる。

長さの低減及び関連するフレームの繰り返しによるアーチファクトは、所定の制限が遵守される限り、殆ど聞こえないことが明らかとなった。はっきり聞こえるアーチファクトを防止するために、第１のフレーム形成ユニットは、最大で４０％、好ましくは最大２５％、より好ましくは１５％だけ、所定の持続時間を低減する手段を具えることが好ましい。

前記逆変換は逆高速フーリエ変換（ＩＦＦＴ）であることが好ましいが、例えば逆離散コサイン変換（ＩＤＣＴ）又は（順）高速フーリエ変換（ＦＦＴ）などの他の適切な変換法も使用できる。

本発明は更に、音声合成器、音声復号器、民生用装置、そしてこれらの装置を具える音響システムを提供する。例えば音声合成器は、記憶した変換領域データから音声を再現するように構成でき、過渡成分、正弦波成分及び雑音成分を別々に合成できる。本発明の装置は、正弦波の合成に特に適している。音声復号器は、符号化された変換領域データから音声を再生するように構成でき、過渡成分、正弦波成分及び雑音成分を別々に合成するように構成することもできる。

本発明の民生用装置は、例えばポータブルオーディオプレーヤ（例えばＭＰ３プレーヤ）又は移動（携帯）電話装置、又は電子音楽機器などのハンドヘルド装置である。音響システムは家庭用娯楽システム又は専門音響システムとすることができる。代わりに音響システムは音声合成機器とすることができる。

本発明は、音声パラメータから時間領域音声データを生成する方法も提供し、本方法は、
各々が音声を表す音声パラメータを含む第１のフレームを形成するステップと、
前記第１のフレームから、各々が単一の第１のフレームの音声パラメータから得られた所定の時間領域長を有する音声を表す変換領域音声データを含むとともに、効率的な逆変換に対応する長さを有する第２のフレームを形成するステップと、
前記第２のフレームを、各々が単一の第２のフレームの変換領域音声データに対応する時間領域音声データを含むとともに、第２のフレーム長に等しい長さを有する第３のフレームに逆変換するステップと、
各第３のフレームのほぼ全ての時間領域音声データを出力するステップと、
前記所定の時間領域長と前記第３のフレーム長との差を補償するために、必要に応じて第１のフレームを破棄又は繰り返すステップと、
を含む。

これらの方法ステップは記載順に実行する必要はない。例えば、第１のフレームを破棄するステップは、第２のフレームを形成するステップの前に実行できる。代わりに幾つかの第１のフレームは当初から形成しなくてもよく、従って第１のフレームを形成する前に変換領域音声データを破棄することができる。幾つかの第１のフレームが破棄されるだけであること、従って破棄ステップは幾つかのフレームに対しては実行されないことに注意されたい。

本発明の方法は、上で特定した本発明の装置と同一の問題を本質的に解決し、同一の利点を達成する。

第１のフレームを形成するステップは、第１のフレーム長を第２のフレーム長以下にするために所定の持続時間を減少させることができる。第１のフレームを形成するステップは、一定の音声歪みを許容する場合には、所定の持続時間を最大４０％、好ましくは最大２５％、より好ましくは１５％だけ低減することが好ましいが、４０％以上減少させることも可能である。

本発明による方法は、所定の時間領域長と第２のフレーム長との差を補償するために、必要に応じて第１のフレームを破棄又は繰り返すステップを更に含むことが出来る。

本発明の方法は、例えば、過渡成分、正弦波成分及び雑音成分を別々に生成する合成器において、周期的音声成分を合成するのに特に適している。

本発明は、上で特定した方法を実行するためのコンピュータプログラム製品を更に提供する。コンピュータプログラム製品は、ＣＤ又はＤＶＤのようなデータキャリア上に記憶されているコンピュータが実行可能な命令セットを含むことが出来る。コンピュータが実行可能な命令セットは、プログラム可能なコンピュータが、上で特定した方法を実行することを可能にし、例えばインターネットを介して、遠隔サーバからダウンロードすることにより利用可能にすることもできる。

本発明を更に、添付の図に示す代表的な実施例を参照して、以下に説明する。

先行技術による音声データ変換装置の概略図を示している。本発明による音声データ変換装置の概略図を示している。図１及び２の音声データ変換装置におけるフレーム処理の概略図を示している。本発明によるフレーム破棄の概略図を示している。本発明によるフレーム繰り返しの概略図を示している。本発明による音声データ変換装置を具える音声合成器の概略図を示している。本発明による音声データ変換装置を具える民生用装置の概略図を示している。

図１に示す先行技術による代表的な音声データ変換装置１’は、ビットストリーム分析ユニット（ＢＰ）１１、スペクトル構成ユニット１２、逆高速フーリエ変換（ＩＦＦＴ）ユニット１３，重複加算(ＯＬＡ(overlap-and-add))ユニット１４、及びフレーム計数器（ＦＣ）１５を具える。

ビットストリーム分析ユニット１１は、音声パラメータＡの入力ビットストリームを受信し、これらの音声データを含む第１のフレームを形成する。音声パラメータは、一時的包絡線又はスペクトル包絡線、スペクトル係数、及び／又は他のパラメータを記述及び／又は表すパラメータを含むことができる。第１のフレーム当たりの音声パラメータ数は、使用する符号化の所定の型に依存し、１つのデータ項目から数百のデータ項目まで変化し得る。第１のフレームは可変長を有することが出来る。

第１のフレームの音声データは、所定の時間間隔の間の音声表現を提供する。この時間間隔の持続時間は音響心理及び／又は技術制限を満足するように選択でき、例えば８．７ｍｓとすることができるが、他の値を使用することもきる。この時間間隔は、第１のフレーム間の時間間隔と一致させることができるが、必須ではない。

スペクトル構成ユニット１２は、変換ユニット１３における次の変換に適した長さを有する第２のフレームを形成するために、第１のフレームの標本を使用する。最も効率的なＦＦＴは、典型的には１２８，２５６，５１２及び１０２４（２のべき乗）の長さを有し、従来技術においては、次に大きいＦＦＴ長を使用し、本例においては５１２である。スペクトル構成ユニット１２は、従って、可変の数の音声データを含むことが出来る第１のフレームを、本例においては各々が５１２のスペクトル成分を含む第２のフレームに変換する。

このため、スペクトル構成ユニット１２は、各第１のフレームの音声データを時間窓の（複素）スペクトル表現と畳み込むことが出来る。この時間窓の長さは、単一フレームによって表現される音声の持続時間に一致するように選択する。上記の例においては、８．７ｍｓの持続時間を使用し、４４．１ｋＨｚの標本化周波数では、３８４個の時間領域の音声データ項目（標本）の長さになる。時間窓の形状は音声の歪みを防止するように選択し、典型的にはハニング窓を使用する。精度を改善するために、時間窓の（複素）スペクトル表現をオーバサンプリングできる。

従って、スペクトル構成ユニット１２は、（ハニング）時間窓の（複素）スペクトルと第１のフレームの音声データとの畳み込みを実行し、スペクトル成分を含む第２のフレームを導く。スペクトル成分数（例えば５１２）は、効率的な（逆）変換を可能にするために、２のべき乗である。当業者は、変換領域におけるこの畳み込みは時間領域における乗算と置き換えることができることを認識されよう。

次に、ＩＦＦＴユニット１３は、変換領域の第２のフレームを時間領域の第３のフレームに変換し、その第３のフレームは第２のフレームと同一の長さを有し、本例においては５１２個のデータ項目（即ち標本）も含む。

重複加算ユニット１４’は、第３のフレームを、時間領域出力音声データＢを含むビットストリーム、フレームの系列又は他の適切な出力信号に変換する。当業者は、重複加算（ＯＬＡ）ユニットが部分的に重複するフレームの標本を加算することによって信号を生成することを既知である。

フレーム計数器１５は、生成されたフレーム数を計数し、それに応じてビットストリーム分析ユニット１１を制御する。フレーム計数器は、例えば、サーチ動作を実行するために、又は再生速度を調整するために、外部から制御することもできる。

先行技術の重複加算ユニット１４’は、各第３のフレームの、元の少数の標本に対応する部分のみを使用する。本例において、先行技術の重複加算ユニット１４’は、５１２標本の内の３８４のみを使用し、残りの１２８標本を破棄する。これは非効率であることが明らかであろう。

図２に非限定的な一例としてのみ示す本発明による音声データ変換装置１も、ビットストリーム分析ユニット（ＢＰ）１１、スペクトル構成ユニット１２、逆高速フーリエ変換（ＩＦＦＴ）ユニット１３、重複加算（ＯＬＡ）ユニット１４、及びフレーム計数器（ＦＣ）１５を具える。更に、示した実施例は、フレーム選択ユニット（ＦＳ）１６を具える。

図１の先行技術のデバイス１’に対して、本発明による装置１は、出力信号を生成するために、第３のフレームの全ての利用可能なデータ項目（標本）を使用する。ユニット１１，１２，１３及び１５は実質上先行技術につき説明したように動作するが、図２のユニット１４は図１の対応するユニット１４’に対して改良されている。

上の例を使用すると、ビットストリーム分析ユニット１１は、先行技術と同様に、変換領域データ項目（例えばパラメータ）を含む第１のフレームを形成する。スペクトル構成ユニット１２は、第１のフレームデータによって表された係数を、先行技術の３８４標本長に対して５１２標本長を有する適切な時間窓、例えばハニング窓の（好ましくは複素）周波数スペクトルと畳み込むことによって、これらの第１のフレームを５１２個のデータ項目を有する第２のフレームに変換する。第２のフレームは次に、ＩＦＦＴユニット１３によって（逆）変換され、第３のフレームにおいて、各々が５１２個の時間領域の音声データ項目を含むこととなる。

本発明の重複加算（ＯＬＡ）ユニット１４は、時間領域出力音声データＢを出力するように設計されており、出力ビットストリームを生成するために、各第３のフレームの全ての（又はほぼ全ての）データ項目を使用する。つまり上で与えた例では、重複加算ユニット１４は、出力ビットストリームを生成するために各第３のフレームの全５１２標本を使用する。

第３のフレームの全データ項目の使用は、フレーム当たりの出力標本数を増加させ、従って音声の持続時間を増加させる。所望の持続時間を有する音声を得るために、本発明は更に、第１のフレームをスキップすることを提案する。これは処理するフレーム数を低減し、従って処理時間を節約する更なる利点を有する。

本発明の装置１には、フレーム計数器１５によって制御されるフレーム選択ユニット１６が設けられている。フレーム選択ユニット１６は、処理できる第１のフレームを選択し、第１のフレーム毎の変換領域データ項目数と第２のフレーム毎の変換領域データ項目数との比に従って、ビットストリーム分析器１１によって形成する必要のないフレームを破棄する。これは図３及び４を参照してより詳細に説明する。

畳み込みを実行する代わりに、又は畳み込みの実行に加えて、スペクトル構成ユニットは、フレームサイズを調整するためにゼロ付加（ｚｅｒｏ−ｐａｄｄｉｎｇ）又は類似の技術を使用できる。

フレームの処理を図３に示し、ここで先行技術による処理を左側に、本発明による処理を右側に示す。

先行技術によれば、入力ビットストリームＡは、第１の（Ｉ）フレーム１０１に組み立てられ、本例においては音声を表す（スペクトル）パラメータのようなフーリエ領域データ（ＦＤＤ）を含むが、包絡線パラメータのような他のパラメータを使用することもできる。データ項目数、従って、第１のフレーム長は変えることができ、典型的には対応する第２、及び第３のフレームの長さよりも短い。

第１の（Ｉ）フレーム１０１は、例えば、時間窓の複素スペクトルとの畳み込みによって、第２の（ＩＩ）フレーム１０２に変換される。先行技術においては、この時間窓は、各第１のフレームの変換領域データ又はパラメータによって表されるデータの持続時間と一致するように選択される。

第２のフレームは、効率的な変換フォーマットと一致する長さを有し、例えば５１２データ項目を含む。第２のフレームは、本例においては５１２の時間領域データ項目（ＴＤＤ）を含む、第３の（ＩＩＩ）フレーム１０３を与えるように逆変換される。次に、先行技術の方法は出力信号Ｂを形成するために、本例においては元の標本数である３８４個のみ使用し、残りの標本（Ｘ）を破棄する。

本発明によれば、先行技術のように第１のフレーム１１１が形成され、第２のフレーム１１２を形成するように畳み込まれ、第３のフレーム１１３を与えるように逆変換される。しかし、先行技術と対照的に、出力信号Ｂを生成するために第３のフレーム１１３の全データ項目（つまり標本）を使用し、標本は破棄されない。上述の例において、これは出力ビットストリームが１フレーム当たり元の３８４標本ではなく５１２標本を含むことを意味する。このフレーム当たりの増加した出力によって、変換のより効率的な使用が可能になることが明らかであろう。

しかし、フレーム毎に出力される標本数が増加するにつれて、速度が減少し、出力標本によって表される音声の持続時間が増加する。これは典型的には好ましくないため、本発明は、フレームを破棄することによって（又は別の場合には繰り返すことによって）、音声トラックの長さを調整することを提案する。これは図４に示されている。

第１のフレームのブロック２０１は、各々が元の時間領域の長さＰ（例えば３８４標本又は８．７ｍｓ）を有する８つの第１のフレームＦ１，Ｆ２，．．．，Ｆ８を含むことが示されている。本発明によれば、これらの第１のフレームは増加した時間領域の長さＱを有する（例えば５１２標本又は１１．６ｍｓ）第３のフレームに変換される。その結果、ブロック２０２はＧ１，Ｇ２，．．．，Ｇ６の僅か６フレームを含むだけである。ブロック２０２は、ブロック２０１（８ｘ３８４＝３０７２）と同一の長さ（６ｘ５１２＝３０７２）を有し、従って同一の音声持続時間を表すために、これらの第１のブロックの２つのフレームは破棄しなければならない。図示の例では、フレームＦ３及びＦ７が破棄されている。破棄されたフレームは、音声における目立つアーチファクトを防止するために、隣接させないことが好ましい。第１のフレーム又は第１のフレームと対応するデータを廃棄することによって、処理量が、本例においては２５％だけ、低減される。

上で使用した例は、本発明を限定することを決して意図しておらず、５１２及び３８４データ項目の代わりに、例えば２５６及び１３９データ項目など、他の長さを有するフレームを使用できることを理解されたい。更にデータ項目を、ビットストリームの代わりにフレームとして入力及び／又は出力できることを理解されたい。

図３及び図４の例においては、適切な変換フォーマットに合うようにデータ項目数が増加されるため、第３のフレームの長さは第１のフレームの長さよりも大きい。本発明の更なる態様によれば、第３のフレームの長さは第１のフレーム長より小さくすることも出来る。これは、適切な変換フォーマットに合うようにデータ項目数が減少される場合である。

例えば、８．７ｍｓの持続時間に一致する時間窓は、１６ｋＨｚの標本化周波数にて１３９データ項目を含む。２５６の変換長を使用するとき、変換効率は僅か５４％（＝１３９／２５６）となる。しかし８．７ｍｓの持続時間が８．０ｍｓに低減された場合、１６ｋＨｚにて１２８データ項目だけが必要であり、僅か１２８だけの変換長を使用できる。フレーム長を短縮することが変換効率を大きく向上させることが明らかであろう。

実際の実施例においては、技術的理由、例えばデータ項目数は３で割り切れなければならないために、時間窓の長さは更に僅かに低減され、例えば７．９ｍｓで１２６データ項目に低減されることに注意されたい。これらの場合、本発明によれば、第３のフレームの全１２８標本を出力できる。更なる変換効率の大きな改良が達成される。

フレームの持続時間が低減され得るため、音声の全持続時間が低減され、これは通常好ましくない。このためフレーム選択ユニットは、第１のフレームと第２のフレームとの間の長さの差を補償するために、必要に応じて第１のフレームを繰り返す手段を具える。フレームを繰り返すことによって、出力される音声の全持続時間をほぼ一定に維持できる。上記の例においては、８．７ｍｓから８．０ｍｓへの時間窓長の低減は、８．７／８．０＝１．０８７５倍（つまり８．７５％の付加）の長さ調整を行う必要があり、これは例えば１２フレーム毎に１フレームの繰り返し（１／１２＝８．３３％）を行うことによって達成できる。

これを図５に示し、ここでは、第１のブロック２０３は１２の（第１の）フレームを含むが、ほぼ同一の長さを有する第２のブロック２０４は１３の（第３の）フレームを含む。（第１の）フレームＦ１，Ｆ２，．．．，Ｆ１２の各々は、本例において１３９データ項目を含み、（第３の）フレームＧ１，Ｇ２，．．．，Ｇ１，Ｇ１^＊の各々は１２８データ項目を含む。従って、ブロック２０３及び２０４は、ほぼ同数のデータ項目（１３９ｘ１２＝１６６８，１２８ｘ１３＝１６６４）を含んでいる。この長さの違いは、必要に応じ１つ以上のフレームを時々繰り返すことによって補償できる。

図５から、フレームＦ７が繰り返されていること、即ちフレームＦ７がフレームＧ７とフレームＧ８の両方を生成するために使用されていることが分かる。図５の例において、二重フレームＧ７及びＧ８は、可聴アーチファクトを最小化するために隣接している。

本発明による合成器又は復号器８が図６に示されている。合成器又は復号器８は、音声パラメータを記憶するためのデータベース（ＤＢ）２のみならず、本発明による音声データ変換装置（ＳＳＣＤ）１も具えている。データベース２は音声データ変換装置１によって、出力ビットストリームＢに変換される入力ビットストリームＡを生成する。合成器又は復号器８は、図の明確さのために示していないが、例えば音声の周期（ピッチ）及び速度を独立に制御するための要素など、更なる要素を含むことが出来る。本発明は、特にパラメータ復号器において有利に適用できる。

民生用装置９の概略図を図７に示す。民生用装置７は、例えばＭＰ３プレーヤなどの、固体オーディオプレーヤなどの携帯民生用装置とすることができる。民生用装置７は、図６に示すように音声合成器８を含む。民生用装置７は、移動電話装置、ゲーム装置、携帯音楽装置、又は音声が生成される他の装置にすることができる。音声は音楽に限定されず、会話音声又は着信音、又はそれらの組み合わせとすることができる。

本発明の方法が図２に示されており、ここで、下記のユニットは下記の方法のステップを表すものとすることが出来る。
− ユニット１１（ＢＰ）：音声パラメータを含む第１のフレームを形成するステップ。
− ユニット１２（ＳＢ）：第１のフレームから、効率的な逆変換に一致する長さを有する第２のフレームを形成するステップ。
− ユニット１３（ＩＦＦＴ）：第２のフレームを第３のフレームに逆変換するステップ。
− ユニット１４（ＯＬＡ）：各第３のフレームの時間領域出力音声データを出力するステップ。
− ユニット１１（ＢＰ）と連動するユニット１６（ＦＳ）：第１のフレームを破棄又は繰り返すステップ。

本発明は、音声フレームの変換効率は、元の短いフレームと一致する部分だけの代わりに、（逆）変換されたフレーム全体を使用し、次に増加した音声の全持続時間を補償するためにフレームを破棄することによって大きく向上できるという洞察に基づいている。本発明は、適切な変換長に合わせるためにフレーム長を低減又は増加し、次に音声の減少又は増加した全持続時間を補償するためにフレームを繰り返す又は破棄することによって更に改善できるという洞察に基づいている。

この明細書にいて使用されている用語は、本発明の範囲を限定するものと解釈されるべきではないことに注意されたい。特に、「具える」という言葉は、明確に言及していない要素の存在を排除することを意味していない。単一の（回路）素子は、複数の（回路）素子又はそれらの同等物で置き換えることが出来る。フレームという用語は、音声データのセットを所定の配置に限定することを意味していない。上記のフーリエ変換は、別の変換に置き換えることが出来る。

従って、本発明は上で説明した実施例に限定されないこと、及び添付の請求項において規定されている本発明の範囲から離れることなく、多くの変更及び追加が可能であることは当業者に理解されよう。例えば、本発明の装置が音声を表す音声パラメータを含む第１のフレームを受信する場合、第１のフレーム形成ユニットは省略でき、従って装置内において第１のフレームを形成する必要が除去される。

Claims

各々が音声を表す音声パラメータを含む第１のフレームを形成する第１のフレーム形成ユニットと、
前記第１のフレームから、各々が単一の第１のフレームの音声パラメータから得られた所定の時間領域長を有する音声を表す変換領域音声データを含むとともに、効率的な逆変換に対応する長さを有する第２のフレームを形成する第２のフレーム形成ユニットと、
前記第２のフレームを、各々が単一の第２のフレームの変換領域音声データに対応する時間領域音声データを含むとともに、第２のフレーム長に等しい長さを有する第３のフレームに逆変換する逆変換ユニットと、
各第３のフレームのほぼ全ての時間領域音声データを出力する出力ユニットと、
前記所定の時間領域長と前記第３のフレーム長との差を補償するために、必要に応じて第１のフレームを破棄又は繰り返すフレーム選択ユニットと、
を含むことを特徴とする、音声パラメータから時間領域音声データを生成する装置。
前記第２のフレーム形成ユニットが、前記音声パラメータによって表された前記変換領域音声データを前記所定の時間領域長を有する時間窓の変換領域表現と畳み込む手段を具えることを特徴とする、請求項１に記載の装置。
前記第１のフレーム形成ユニットが、前記所定の持続時間の長さが第３のフレーム長にほぼ等しくなるように前記所定の持続時間を低減又は増加する手段を具えることを特徴とする、請求項１に記載の装置。
前記第１のフレーム形成ユニットが、前記所定の持続時間を最大で４０％、好ましくは最大で２５％、より好ましくは１５％だけ、低減する手段を具えることを特徴とする、請求項３に記載の装置。
前記逆変換が逆高速フーリエ変換（ＩＦＦＴ）であることを特徴とする、請求項１に記載の装置。
フレーム計数器を更に具えることを特徴とする、請求項１に記載の装置。
請求項１による装置を具える音声合成器。
請求項１による装置を具える音声復号器。
請求項１による装置を具える民生用装置。
請求項１による装置を具える音響システム。
各々が音声を表す音声パラメータを含む第１のフレームを形成する第１のステップと、
前記第１のフレームから、各々が単一の第１のフレームの音声パラメータから得られた所定の時間領域長を有する音声を表す変換領域音声データを含むとともに、効率的な逆変換に対応する長さを有する第２のフレームを形成するステップと、
前記第２のフレームを、各々が単一の第２のフレームの変換領域音声データに対応する時間領域音声データを含むとともに、第２のフレーム長に等しい長さを有する第３のフレームに逆変換するステップと、
各第３のフレームのほぼ全ての時間領域音声データを出力するステップと、
前記所定の時間領域長と前記第３のフレーム長との差を補償するために、必要に応じて第１のフレームを破棄又は繰り返すステップと、
を含むことを特徴とする、音声パラメータから時間領域音声データを生成する方法。
第１のフレームを形成する前記ステップが、前記所定の持続時間が前記第２のフレーム長以下になるように、前記所定の持続時間を低減することを含むことを特徴とする、請求項１１に記載の方法。
第１のフレームを形成する前記ステップが、前記所定の持続時間を最大で４０％、好ましくは最大で２５％、より好ましくは最大で１５％だけ低減することを含むことを特徴とする、請求項１１に記載の方法。
前記逆変換が逆高速フーリエ変換であることを特徴とする、請求項１１に記載の方法。
請求項１１による方法を実行するためのコンピュータプログラム製品。