JP2010503875A - 音声フレーム長の適応化 - Google Patents
音声フレーム長の適応化 Download PDFInfo
- Publication number
- JP2010503875A JP2010503875A JP2009517554A JP2009517554A JP2010503875A JP 2010503875 A JP2010503875 A JP 2010503875A JP 2009517554 A JP2009517554 A JP 2009517554A JP 2009517554 A JP2009517554 A JP 2009517554A JP 2010503875 A JP2010503875 A JP 2010503875A
- Authority
- JP
- Japan
- Prior art keywords
- frame
- length
- speech
- time domain
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006978 adaptation Effects 0.000 title description 3
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000006243 chemical reaction Methods 0.000 claims description 32
- 238000009432 framing Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 abstract 1
- 230000003595 spectral effect Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 8
- 238000007792 addition Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 230000009467 reduction Effects 0.000 description 4
- 230000001052 transient effect Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
音声パラメータ(A)から時間領域音声データ(B)を形成する方法であって、各々が音声を表す音声パラメータを含む第1のフレームを形成するステップと、第1のフレームから、各々が音声パラメータから得られた所定の時間領域長を有する音声を表す変換領域音声データを含むとともに、効率的な逆変換に対応する長さを有する第2のフレームを形成するステップと、第2のフレームを、各々が単一の第2のフレームの変換領域音声データに対応する時間領域音声データを含むとともに、第2のフレームと等しい長さを有する第3のフレーム(G1,G2, ... )に逆変換するステップと、各第3のフレームのほぼ全ての時間領域音声データ(B)を出力するステップと、
前記所定の時間領域長(P)と第3のフレーム長(Q)との差を補償するために、必要に応じて第1のフレーム(F3,F7)を放棄又は繰り返すステップとを含むことを特徴とする。
前記所定の時間領域長(P)と第3のフレーム長(Q)との差を補償するために、必要に応じて第1のフレーム(F3,F7)を放棄又は繰り返すステップとを含むことを特徴とする。
Description
本発明は、音声フレームのフレーム長適応化に関するものである。より詳細には、本発明は、効率的な変換を可能にするようなフレーム長適応化を伴う音声パラメータから、時間領域音声データを生成するための装置及び方法に関するものである。
音声標本を表す音声パラメータから音声を合成又は再構成する方法が周知である。周波数(つまりフーリエ変換)領域のような変換領域における音声合成は、時間領域における音声合成よりも計算に関し有利である。このため、音声はスペクトル成分、又はスペクトル又は時間的特性を表すパラメータのような音声パラメータとして符号化されて記憶されることが多い。異なる音声成分、例えば過渡成分、正弦波成分、及び雑音成分に、別々のパラメータを与えることが出来る。このような異なる音声成分を使用する符号器及び復号器が、例えば特許文献1に開示されている。
合成器又は復号器は、記憶又は送信されてきた音声パラメータを用いて、変換領域音声フレームを組み立て、次に時間領域に逆変換することができる。得られる時間領域音声フレームの持続時間は、典型的には音響心理を考慮して決定され、アーチファクトが最小になるように選ぶことができる。例えば、幾つかの合成器は、8.7msの(時間領域)持続時間を有する音声フレームを使用している。44.1kHzの標本化周波数では、このようなフレームは384標本の長さを有することになる。
384データ項目のこのフレーム長は、音響心理の観点からは最適かもしれないが、このようなフレームの変換は非常に非効率的である。高速フーリエ変換(FFT)、その逆変換(IFFT)及び離散コサイン変換(DCT)のような同様の変換は、フレーム中のデータ項目数が2のべき乗、例えば、128,256,又は512の時に最も効率的である。フレーム当たりのデータ項目が384である本例においては、512の変換長を選択する。変換が完了したときに所望の384データ項目数を与えるために、128データ項目が破棄される。しかしこれでは変換効率が僅か75%となり、データ項目の25%(=128/512)が冗長であることを意味している。
変換効率は、他の標本化周波数では更に低下する可能性がある。上述の例においては、8.7msの持続時間は、16.9kHzの標本化周波数にて139個の標本を与える。256の変換長を使用すると、変換効率は僅か54%になる。
2のべき乗以外のフレーム長に適したFFTの実施例は既知であるが、これらの代替実施例は、典型的には変換効率が悪く、より多くの処理時間及び/又はメモリ領域を必要とする。
本発明の目的は、先行技術のこれら及び他の問題を解決し、音声パラメータのような入力音声データから時間領域出力音声データを生成する、より効率的な装置及び方法を提供することにある。
従って、本発明は音声パラメータから時間領域音声データを生成する装置を提供し、本装置は、
各々が音声を表す音声パラメータを含む第1のフレームを形成する第1のフレーム形成ユニットと、
前記第1のフレームから、各々が単一の第1のフレームの音声パラメータから得られた所定の時間領域長を有する音声を表す変換領域音声データを含むとともに、効率的な逆変換に対応する長さを有する第2のフレームを形成する第2のフレーム形成ユニットと、
前記第2のフレームを、各々が単一の第2のフレームの変換領域音声データに対応する時間領域音声データを含むとともに、第2のフレーム長に等しい長さを有する第3のフレームに逆変換する逆変換ユニットと、
各第3のフレームのほぼ全ての時間領域音声データを出力する出力ユニットと、
前記所定の時間領域長と前記第3のフレーム長との差を補償するために、必要に応じて第1のフレームを破棄又は繰り返すフレーム選択ユニットと、
を含む。
各々が音声を表す音声パラメータを含む第1のフレームを形成する第1のフレーム形成ユニットと、
前記第1のフレームから、各々が単一の第1のフレームの音声パラメータから得られた所定の時間領域長を有する音声を表す変換領域音声データを含むとともに、効率的な逆変換に対応する長さを有する第2のフレームを形成する第2のフレーム形成ユニットと、
前記第2のフレームを、各々が単一の第2のフレームの変換領域音声データに対応する時間領域音声データを含むとともに、第2のフレーム長に等しい長さを有する第3のフレームに逆変換する逆変換ユニットと、
各第3のフレームのほぼ全ての時間領域音声データを出力する出力ユニットと、
前記所定の時間領域長と前記第3のフレーム長との差を補償するために、必要に応じて第1のフレームを破棄又は繰り返すフレーム選択ユニットと、
を含む。
第2のフレームによって表された元の所定の時間領域長に対応する数の音声データのみを使用する代わりに、第3のフレームに含まれる逆変換された音声データの全て又はほぼ全てを使用することによって、装置の効率が大きく向上する。
本発明において、出力ユニットは、各第3のフレームの時間領域音声データの全て、又はほぼ全て、即ち前記時間領域音声データの90%以上、好ましくは95%以上、より好ましくは98%を出力できることに注意されたい。
第1のフレームを破棄する、又は場合によっては繰り返すことによって、第3のフレームと第2のフレームの変換領域データによって表された所定の時間領域長との差を補償できる。例えば、本発明に従って384標本の長さを有する(第1の)フレームに対して512の変換長を使用し、512の逆変換された標本を全て使用する場合、先行技術における場合と同一の、512/384=1.33倍の標本が生成される。従って、使用すべき第1のフレームの数を、384/512=1/1.33=25%だけ低減しなければならない。従って、本例では同一の全持続時間を有する音声を得るには、4フレームおきに1フレームを破棄しなければならない。
フレームの破棄は、特に断続的に行うときにはほぼ目立たないことが明らかとなった。従って、フレームの破棄は等間隔に行い、特に2つの直接隣接するフレームを破棄することは避けることが好ましい(例えば元の一連のフレームがABCDEFGの時はABDEG)。しかしフレームを繰り返すときには、隣接するフレームを繰り返すことが好ましい(例えばABCCDEFFG)。
上記の所定の時間領域長は、所望の持続時間と一致する時間窓、例えば、上で参照した持続時間8.7msに対応する384標本によって規定できる。実用的な実施例においては、第2のフレーム形成ユニットは、音声パラメータによって表された変換領域音声データと、所望の時間窓の(例えば複素スペクトル)変換領域表現(のセグメント)とを畳み込むことによって、音声パラメータから変換領域音声データを導出できる。得られる信号の周波数領域の分解能を改良するために、所望の時間窓のこのスペクトル表現にオーバサンプリングを適用できる。
上述した所定の時間領域長は、典型的には第1のフレームが形成されるレートに関連し、連続する第1のフレーム間の時間間隔に等しくすることができる。しかし、これは必須ではなく、第1のフレームが変化する時間間隔で形成され、第1のフレームが第2のフレームに変換する前にバッファリングされる実施例を想定することもできる。
本発明においては、音声パラメータが音声特性を表すパラメータを含み、変換領域音声データは前記音声パラメータから導出される変換領域係数を含み、時間領域音声データは前記係数から得られる音声標本を含むことができる。
より適切な変換長を選択することによって、変換効率を更に改良することが出来る。従って本発明の更なる態様によれば、第1のフレーム形成ユニットは、所定の持続時間を低減又は増加させて前記所定の時間領域長が第3のフレーム長に等しく又はほぼ等しくなるように構成することができる。
第2のフレームのデータによって表される所定の持続時間を低減又は増加させることによって、効率的な変換長により近い短縮された又は伸張されたフレームが得られる。例えば、8.7msの上記の持続時間は、16kHzの標本化周波数にて139個の標本を与え、256の変換長を使用するとき、変換効率は僅か54%(=139/256)となる。しかしこの持続時間が8.0msに低減される場合、16kHzでは128個の標本だけが必要であり、僅か128の変換長を使用できる。この手段が効率を大きく改良することは明らかとなろう。
実際の実施例においては、技術的理由のために、所定の持続時間の長さを更に僅かに低減し、例えば7.9msで126標本に低減することができる。
フレームの持続時間を低減できるため、音声の全持続時間も低減され、これは通常好ましくない。このため、フレーム選択ユニットは、第1のフレームと第2のフレームとの長さの差を補償するために、必要に応じ第1のフレームを繰り返す(又は場合によっては破棄する)手段を具えている。フレームを繰り返すことによって、出力される音声の全持続時間をほぼ一定に維持できる。上記の例において、8.7から8.0msへの第1のフレーム長の低減は、8.7/8.0=1.0875倍の長さ調整(つまり8.75%の付加)を行う必要があり、例えば、12フレーム毎に1フレーム繰り返す(1/12=8.33%)ことによって達成できる。
長さの低減及び関連するフレームの繰り返しによるアーチファクトは、所定の制限が遵守される限り、殆ど聞こえないことが明らかとなった。はっきり聞こえるアーチファクトを防止するために、第1のフレーム形成ユニットは、最大で40%、好ましくは最大25%、より好ましくは15%だけ、所定の持続時間を低減する手段を具えることが好ましい。
前記逆変換は逆高速フーリエ変換(IFFT)であることが好ましいが、例えば逆離散コサイン変換(IDCT)又は(順)高速フーリエ変換(FFT)などの他の適切な変換法も使用できる。
本発明は更に、音声合成器、音声復号器、民生用装置、そしてこれらの装置を具える音響システムを提供する。例えば音声合成器は、記憶した変換領域データから音声を再現するように構成でき、過渡成分、正弦波成分及び雑音成分を別々に合成できる。本発明の装置は、正弦波の合成に特に適している。音声復号器は、符号化された変換領域データから音声を再生するように構成でき、過渡成分、正弦波成分及び雑音成分を別々に合成するように構成することもできる。
本発明の民生用装置は、例えばポータブルオーディオプレーヤ(例えばMP3プレーヤ)又は移動(携帯)電話装置、又は電子音楽機器などのハンドヘルド装置である。音響システムは家庭用娯楽システム又は専門音響システムとすることができる。代わりに音響システムは音声合成機器とすることができる。
本発明は、音声パラメータから時間領域音声データを生成する方法も提供し、本方法は、
各々が音声を表す音声パラメータを含む第1のフレームを形成するステップと、
前記第1のフレームから、各々が単一の第1のフレームの音声パラメータから得られた所定の時間領域長を有する音声を表す変換領域音声データを含むとともに、効率的な逆変換に対応する長さを有する第2のフレームを形成するステップと、
前記第2のフレームを、各々が単一の第2のフレームの変換領域音声データに対応する時間領域音声データを含むとともに、第2のフレーム長に等しい長さを有する第3のフレームに逆変換するステップと、
各第3のフレームのほぼ全ての時間領域音声データを出力するステップと、
前記所定の時間領域長と前記第3のフレーム長との差を補償するために、必要に応じて第1のフレームを破棄又は繰り返すステップと、
を含む。
各々が音声を表す音声パラメータを含む第1のフレームを形成するステップと、
前記第1のフレームから、各々が単一の第1のフレームの音声パラメータから得られた所定の時間領域長を有する音声を表す変換領域音声データを含むとともに、効率的な逆変換に対応する長さを有する第2のフレームを形成するステップと、
前記第2のフレームを、各々が単一の第2のフレームの変換領域音声データに対応する時間領域音声データを含むとともに、第2のフレーム長に等しい長さを有する第3のフレームに逆変換するステップと、
各第3のフレームのほぼ全ての時間領域音声データを出力するステップと、
前記所定の時間領域長と前記第3のフレーム長との差を補償するために、必要に応じて第1のフレームを破棄又は繰り返すステップと、
を含む。
これらの方法ステップは記載順に実行する必要はない。例えば、第1のフレームを破棄するステップは、第2のフレームを形成するステップの前に実行できる。代わりに幾つかの第1のフレームは当初から形成しなくてもよく、従って第1のフレームを形成する前に変換領域音声データを破棄することができる。幾つかの第1のフレームが破棄されるだけであること、従って破棄ステップは幾つかのフレームに対しては実行されないことに注意されたい。
本発明の方法は、上で特定した本発明の装置と同一の問題を本質的に解決し、同一の利点を達成する。
第1のフレームを形成するステップは、第1のフレーム長を第2のフレーム長以下にするために所定の持続時間を減少させることができる。第1のフレームを形成するステップは、一定の音声歪みを許容する場合には、所定の持続時間を最大40%、好ましくは最大25%、より好ましくは15%だけ低減することが好ましいが、40%以上減少させることも可能である。
本発明による方法は、所定の時間領域長と第2のフレーム長との差を補償するために、必要に応じて第1のフレームを破棄又は繰り返すステップを更に含むことが出来る。
本発明の方法は、例えば、過渡成分、正弦波成分及び雑音成分を別々に生成する合成器において、周期的音声成分を合成するのに特に適している。
本発明は、上で特定した方法を実行するためのコンピュータプログラム製品を更に提供する。コンピュータプログラム製品は、CD又はDVDのようなデータキャリア上に記憶されているコンピュータが実行可能な命令セットを含むことが出来る。コンピュータが実行可能な命令セットは、プログラム可能なコンピュータが、上で特定した方法を実行することを可能にし、例えばインターネットを介して、遠隔サーバからダウンロードすることにより利用可能にすることもできる。
本発明を更に、添付の図に示す代表的な実施例を参照して、以下に説明する。
図1に示す先行技術による代表的な音声データ変換装置1’は、ビットストリーム分析ユニット(BP)11、スペクトル構成ユニット12、逆高速フーリエ変換(IFFT)ユニット13,重複加算(OLA(overlap-and-add))ユニット14、及びフレーム計数器(FC)15を具える。
ビットストリーム分析ユニット11は、音声パラメータAの入力ビットストリームを受信し、これらの音声データを含む第1のフレームを形成する。音声パラメータは、一時的包絡線又はスペクトル包絡線、スペクトル係数、及び/又は他のパラメータを記述及び/又は表すパラメータを含むことができる。第1のフレーム当たりの音声パラメータ数は、使用する符号化の所定の型に依存し、1つのデータ項目から数百のデータ項目まで変化し得る。第1のフレームは可変長を有することが出来る。
第1のフレームの音声データは、所定の時間間隔の間の音声表現を提供する。この時間間隔の持続時間は音響心理及び/又は技術制限を満足するように選択でき、例えば8.7msとすることができるが、他の値を使用することもきる。この時間間隔は、第1のフレーム間の時間間隔と一致させることができるが、必須ではない。
スペクトル構成ユニット12は、変換ユニット13における次の変換に適した長さを有する第2のフレームを形成するために、第1のフレームの標本を使用する。最も効率的なFFTは、典型的には128,256,512及び1024(2のべき乗)の長さを有し、従来技術においては、次に大きいFFT長を使用し、本例においては512である。スペクトル構成ユニット12は、従って、可変の数の音声データを含むことが出来る第1のフレームを、本例においては各々が512のスペクトル成分を含む第2のフレームに変換する。
このため、スペクトル構成ユニット12は、各第1のフレームの音声データを時間窓の(複素)スペクトル表現と畳み込むことが出来る。この時間窓の長さは、単一フレームによって表現される音声の持続時間に一致するように選択する。上記の例においては、8.7msの持続時間を使用し、44.1kHzの標本化周波数では、384個の時間領域の音声データ項目(標本)の長さになる。時間窓の形状は音声の歪みを防止するように選択し、典型的にはハニング窓を使用する。精度を改善するために、時間窓の(複素)スペクトル表現をオーバサンプリングできる。
従って、スペクトル構成ユニット12は、(ハニング)時間窓の(複素)スペクトルと第1のフレームの音声データとの畳み込みを実行し、スペクトル成分を含む第2のフレームを導く。スペクトル成分数(例えば512)は、効率的な(逆)変換を可能にするために、2のべき乗である。当業者は、変換領域におけるこの畳み込みは時間領域における乗算と置き換えることができることを認識されよう。
次に、IFFTユニット13は、変換領域の第2のフレームを時間領域の第3のフレームに変換し、その第3のフレームは第2のフレームと同一の長さを有し、本例においては512個のデータ項目(即ち標本)も含む。
重複加算ユニット14’は、第3のフレームを、時間領域出力音声データBを含むビットストリーム、フレームの系列又は他の適切な出力信号に変換する。当業者は、重複加算(OLA)ユニットが部分的に重複するフレームの標本を加算することによって信号を生成することを既知である。
フレーム計数器15は、生成されたフレーム数を計数し、それに応じてビットストリーム分析ユニット11を制御する。フレーム計数器は、例えば、サーチ動作を実行するために、又は再生速度を調整するために、外部から制御することもできる。
先行技術の重複加算ユニット14’は、各第3のフレームの、元の少数の標本に対応する部分のみを使用する。本例において、先行技術の重複加算ユニット14’は、512標本の内の384のみを使用し、残りの128標本を破棄する。これは非効率であることが明らかであろう。
図2に非限定的な一例としてのみ示す本発明による音声データ変換装置1も、ビットストリーム分析ユニット(BP)11、スペクトル構成ユニット12、逆高速フーリエ変換(IFFT)ユニット13、重複加算(OLA)ユニット14、及びフレーム計数器(FC)15を具える。更に、示した実施例は、フレーム選択ユニット(FS)16を具える。
図1の先行技術のデバイス1’に対して、本発明による装置1は、出力信号を生成するために、第3のフレームの全ての利用可能なデータ項目(標本)を使用する。ユニット11,12,13及び15は実質上先行技術につき説明したように動作するが、図2のユニット14は図1の対応するユニット14’に対して改良されている。
上の例を使用すると、ビットストリーム分析ユニット11は、先行技術と同様に、変換領域データ項目(例えばパラメータ)を含む第1のフレームを形成する。スペクトル構成ユニット12は、第1のフレームデータによって表された係数を、先行技術の384標本長に対して512標本長を有する適切な時間窓、例えばハニング窓の(好ましくは複素)周波数スペクトルと畳み込むことによって、これらの第1のフレームを512個のデータ項目を有する第2のフレームに変換する。第2のフレームは次に、IFFTユニット13によって(逆)変換され、第3のフレームにおいて、各々が512個の時間領域の音声データ項目を含むこととなる。
本発明の重複加算(OLA)ユニット14は、時間領域出力音声データBを出力するように設計されており、出力ビットストリームを生成するために、各第3のフレームの全ての(又はほぼ全ての)データ項目を使用する。つまり上で与えた例では、重複加算ユニット14は、出力ビットストリームを生成するために各第3のフレームの全512標本を使用する。
第3のフレームの全データ項目の使用は、フレーム当たりの出力標本数を増加させ、従って音声の持続時間を増加させる。所望の持続時間を有する音声を得るために、本発明は更に、第1のフレームをスキップすることを提案する。これは処理するフレーム数を低減し、従って処理時間を節約する更なる利点を有する。
本発明の装置1には、フレーム計数器15によって制御されるフレーム選択ユニット16が設けられている。フレーム選択ユニット16は、処理できる第1のフレームを選択し、第1のフレーム毎の変換領域データ項目数と第2のフレーム毎の変換領域データ項目数との比に従って、ビットストリーム分析器11によって形成する必要のないフレームを破棄する。これは図3及び4を参照してより詳細に説明する。
畳み込みを実行する代わりに、又は畳み込みの実行に加えて、スペクトル構成ユニットは、フレームサイズを調整するためにゼロ付加(zero−padding)又は類似の技術を使用できる。
フレームの処理を図3に示し、ここで先行技術による処理を左側に、本発明による処理を右側に示す。
先行技術によれば、入力ビットストリームAは、第1の(I)フレーム101に組み立てられ、本例においては音声を表す(スペクトル)パラメータのようなフーリエ領域データ(FDD)を含むが、包絡線パラメータのような他のパラメータを使用することもできる。データ項目数、従って、第1のフレーム長は変えることができ、典型的には対応する第2、及び第3のフレームの長さよりも短い。
第1の(I)フレーム101は、例えば、時間窓の複素スペクトルとの畳み込みによって、第2の(II)フレーム102に変換される。先行技術においては、この時間窓は、各第1のフレームの変換領域データ又はパラメータによって表されるデータの持続時間と一致するように選択される。
第2のフレームは、効率的な変換フォーマットと一致する長さを有し、例えば512データ項目を含む。第2のフレームは、本例においては512の時間領域データ項目(TDD)を含む、第3の(III)フレーム103を与えるように逆変換される。次に、先行技術の方法は出力信号Bを形成するために、本例においては元の標本数である384個のみ使用し、残りの標本(X)を破棄する。
本発明によれば、先行技術のように第1のフレーム111が形成され、第2のフレーム112を形成するように畳み込まれ、第3のフレーム113を与えるように逆変換される。しかし、先行技術と対照的に、出力信号Bを生成するために第3のフレーム113の全データ項目(つまり標本)を使用し、標本は破棄されない。上述の例において、これは出力ビットストリームが1フレーム当たり元の384標本ではなく512標本を含むことを意味する。このフレーム当たりの増加した出力によって、変換のより効率的な使用が可能になることが明らかであろう。
しかし、フレーム毎に出力される標本数が増加するにつれて、速度が減少し、出力標本によって表される音声の持続時間が増加する。これは典型的には好ましくないため、本発明は、フレームを破棄することによって(又は別の場合には繰り返すことによって)、音声トラックの長さを調整することを提案する。これは図4に示されている。
第1のフレームのブロック201は、各々が元の時間領域の長さP(例えば384標本又は8.7ms)を有する8つの第1のフレームF1, F2, ... ,F8を含むことが示されている。本発明によれば、これらの第1のフレームは増加した時間領域の長さQを有する(例えば512標本又は11.6ms)第3のフレームに変換される。その結果、ブロック202はG1,G2, ..., G6の僅か6フレームを含むだけである。ブロック202は、ブロック201(8x384=3072)と同一の長さ(6x512=3072)を有し、従って同一の音声持続時間を表すために、これらの第1のブロックの2つのフレームは破棄しなければならない。図示の例では、フレームF3及びF7が破棄されている。破棄されたフレームは、音声における目立つアーチファクトを防止するために、隣接させないことが好ましい。第1のフレーム又は第1のフレームと対応するデータを廃棄することによって、処理量が、本例においては25%だけ、低減される。
上で使用した例は、本発明を限定することを決して意図しておらず、512及び384データ項目の代わりに、例えば256及び139データ項目など、他の長さを有するフレームを使用できることを理解されたい。更にデータ項目を、ビットストリームの代わりにフレームとして入力及び/又は出力できることを理解されたい。
図3及び図4の例においては、適切な変換フォーマットに合うようにデータ項目数が増加されるため、第3のフレームの長さは第1のフレームの長さよりも大きい。本発明の更なる態様によれば、第3のフレームの長さは第1のフレーム長より小さくすることも出来る。これは、適切な変換フォーマットに合うようにデータ項目数が減少される場合である。
例えば、8.7msの持続時間に一致する時間窓は、16kHzの標本化周波数にて139データ項目を含む。256の変換長を使用するとき、変換効率は僅か54%(=139/256)となる。しかし8.7msの持続時間が8.0msに低減された場合、16kHzにて128データ項目だけが必要であり、僅か128だけの変換長を使用できる。フレーム長を短縮することが変換効率を大きく向上させることが明らかであろう。
実際の実施例においては、技術的理由、例えばデータ項目数は3で割り切れなければならないために、時間窓の長さは更に僅かに低減され、例えば7.9msで126データ項目に低減されることに注意されたい。これらの場合、本発明によれば、第3のフレームの全128標本を出力できる。更なる変換効率の大きな改良が達成される。
フレームの持続時間が低減され得るため、音声の全持続時間が低減され、これは通常好ましくない。このためフレーム選択ユニットは、第1のフレームと第2のフレームとの間の長さの差を補償するために、必要に応じて第1のフレームを繰り返す手段を具える。フレームを繰り返すことによって、出力される音声の全持続時間をほぼ一定に維持できる。上記の例においては、8.7msから8.0msへの時間窓長の低減は、8.7/8.0=1.0875倍(つまり8.75%の付加)の長さ調整を行う必要があり、これは例えば12フレーム毎に1フレームの繰り返し(1/12=8.33%)を行うことによって達成できる。
これを図5に示し、ここでは、第1のブロック203は12の(第1の)フレームを含むが、ほぼ同一の長さを有する第2のブロック204は13の(第3の)フレームを含む。(第1の)フレームF1,F2, ...,F12の各々は、本例において139データ項目を含み、(第3の)フレームG1,G2, ..., G1, G1*の各々は128データ項目を含む。従って、ブロック203及び204は、ほぼ同数のデータ項目(139x12=1668,128x13=1664)を含んでいる。この長さの違いは、必要に応じ1つ以上のフレームを時々繰り返すことによって補償できる。
図5から、フレームF7が繰り返されていること、即ちフレームF7がフレームG7とフレームG8の両方を生成するために使用されていることが分かる。図5の例において、二重フレームG7及びG8は、可聴アーチファクトを最小化するために隣接している。
本発明による合成器又は復号器8が図6に示されている。合成器又は復号器8は、音声パラメータを記憶するためのデータベース(DB)2のみならず、本発明による音声データ変換装置(SSCD)1も具えている。データベース2は音声データ変換装置1によって、出力ビットストリームBに変換される入力ビットストリームAを生成する。合成器又は復号器8は、図の明確さのために示していないが、例えば音声の周期(ピッチ)及び速度を独立に制御するための要素など、更なる要素を含むことが出来る。本発明は、特にパラメータ復号器において有利に適用できる。
民生用装置9の概略図を図7に示す。民生用装置7は、例えばMP3プレーヤなどの、固体オーディオプレーヤなどの携帯民生用装置とすることができる。民生用装置7は、図6に示すように音声合成器8を含む。民生用装置7は、移動電話装置、ゲーム装置、携帯音楽装置、又は音声が生成される他の装置にすることができる。音声は音楽に限定されず、会話音声又は着信音、又はそれらの組み合わせとすることができる。
本発明の方法が図2に示されており、ここで、下記のユニットは下記の方法のステップを表すものとすることが出来る。
− ユニット11(BP):音声パラメータを含む第1のフレームを形成するステップ。
− ユニット12(SB):第1のフレームから、効率的な逆変換に一致する長さを有する第2のフレームを形成するステップ。
− ユニット13(IFFT):第2のフレームを第3のフレームに逆変換するステップ。
− ユニット14(OLA):各第3のフレームの時間領域出力音声データを出力するステップ。
− ユニット11(BP)と連動するユニット16(FS):第1のフレームを破棄又は繰り返すステップ。
− ユニット11(BP):音声パラメータを含む第1のフレームを形成するステップ。
− ユニット12(SB):第1のフレームから、効率的な逆変換に一致する長さを有する第2のフレームを形成するステップ。
− ユニット13(IFFT):第2のフレームを第3のフレームに逆変換するステップ。
− ユニット14(OLA):各第3のフレームの時間領域出力音声データを出力するステップ。
− ユニット11(BP)と連動するユニット16(FS):第1のフレームを破棄又は繰り返すステップ。
本発明は、音声フレームの変換効率は、元の短いフレームと一致する部分だけの代わりに、(逆)変換されたフレーム全体を使用し、次に増加した音声の全持続時間を補償するためにフレームを破棄することによって大きく向上できるという洞察に基づいている。本発明は、適切な変換長に合わせるためにフレーム長を低減又は増加し、次に音声の減少又は増加した全持続時間を補償するためにフレームを繰り返す又は破棄することによって更に改善できるという洞察に基づいている。
この明細書にいて使用されている用語は、本発明の範囲を限定するものと解釈されるべきではないことに注意されたい。特に、「具える」という言葉は、明確に言及していない要素の存在を排除することを意味していない。単一の(回路)素子は、複数の(回路)素子又はそれらの同等物で置き換えることが出来る。フレームという用語は、音声データのセットを所定の配置に限定することを意味していない。上記のフーリエ変換は、別の変換に置き換えることが出来る。
従って、本発明は上で説明した実施例に限定されないこと、及び添付の請求項において規定されている本発明の範囲から離れることなく、多くの変更及び追加が可能であることは当業者に理解されよう。例えば、本発明の装置が音声を表す音声パラメータを含む第1のフレームを受信する場合、第1のフレーム形成ユニットは省略でき、従って装置内において第1のフレームを形成する必要が除去される。
Claims (15)
- 各々が音声を表す音声パラメータを含む第1のフレームを形成する第1のフレーム形成ユニットと、
前記第1のフレームから、各々が単一の第1のフレームの音声パラメータから得られた所定の時間領域長を有する音声を表す変換領域音声データを含むとともに、効率的な逆変換に対応する長さを有する第2のフレームを形成する第2のフレーム形成ユニットと、
前記第2のフレームを、各々が単一の第2のフレームの変換領域音声データに対応する時間領域音声データを含むとともに、第2のフレーム長に等しい長さを有する第3のフレームに逆変換する逆変換ユニットと、
各第3のフレームのほぼ全ての時間領域音声データを出力する出力ユニットと、
前記所定の時間領域長と前記第3のフレーム長との差を補償するために、必要に応じて第1のフレームを破棄又は繰り返すフレーム選択ユニットと、
を含むことを特徴とする、音声パラメータから時間領域音声データを生成する装置。 - 前記第2のフレーム形成ユニットが、前記音声パラメータによって表された前記変換領域音声データを前記所定の時間領域長を有する時間窓の変換領域表現と畳み込む手段を具えることを特徴とする、請求項1に記載の装置。
- 前記第1のフレーム形成ユニットが、前記所定の持続時間の長さが第3のフレーム長にほぼ等しくなるように前記所定の持続時間を低減又は増加する手段を具えることを特徴とする、請求項1に記載の装置。
- 前記第1のフレーム形成ユニットが、前記所定の持続時間を最大で40%、好ましくは最大で25%、より好ましくは15%だけ、低減する手段を具えることを特徴とする、請求項3に記載の装置。
- 前記逆変換が逆高速フーリエ変換(IFFT)であることを特徴とする、請求項1に記載の装置。
- フレーム計数器を更に具えることを特徴とする、請求項1に記載の装置。
- 請求項1による装置を具える音声合成器。
- 請求項1による装置を具える音声復号器。
- 請求項1による装置を具える民生用装置。
- 請求項1による装置を具える音響システム。
- 各々が音声を表す音声パラメータを含む第1のフレームを形成する第1のステップと、
前記第1のフレームから、各々が単一の第1のフレームの音声パラメータから得られた所定の時間領域長を有する音声を表す変換領域音声データを含むとともに、効率的な逆変換に対応する長さを有する第2のフレームを形成するステップと、
前記第2のフレームを、各々が単一の第2のフレームの変換領域音声データに対応する時間領域音声データを含むとともに、第2のフレーム長に等しい長さを有する第3のフレームに逆変換するステップと、
各第3のフレームのほぼ全ての時間領域音声データを出力するステップと、
前記所定の時間領域長と前記第3のフレーム長との差を補償するために、必要に応じて第1のフレームを破棄又は繰り返すステップと、
を含むことを特徴とする、音声パラメータから時間領域音声データを生成する方法。 - 第1のフレームを形成する前記ステップが、前記所定の持続時間が前記第2のフレーム長以下になるように、前記所定の持続時間を低減することを含むことを特徴とする、請求項11に記載の方法。
- 第1のフレームを形成する前記ステップが、前記所定の持続時間を最大で40%、好ましくは最大で25%、より好ましくは最大で15%だけ低減することを含むことを特徴とする、請求項11に記載の方法。
- 前記逆変換が逆高速フーリエ変換であることを特徴とする、請求項11に記載の方法。
- 請求項11による方法を実行するためのコンピュータプログラム製品。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP06116274 | 2006-06-29 | ||
PCT/IB2007/052494 WO2008001320A2 (en) | 2006-06-29 | 2007-06-27 | Sound frame length adaptation |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010503875A true JP2010503875A (ja) | 2010-02-04 |
Family
ID=38704818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009517554A Pending JP2010503875A (ja) | 2006-06-29 | 2007-06-27 | 音声フレーム長の適応化 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20090287479A1 (ja) |
EP (1) | EP2038881B1 (ja) |
JP (1) | JP2010503875A (ja) |
CN (1) | CN101479788B (ja) |
AT (1) | ATE520120T1 (ja) |
WO (1) | WO2008001320A2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8737645B2 (en) * | 2012-10-10 | 2014-05-27 | Archibald Doty | Increasing perceived signal strength using persistence of hearing characteristics |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003527932A (ja) * | 2000-03-29 | 2003-09-24 | エラン・ファルマ・インターナショナル・リミテッド | 針アセンブリとシースならびに薬剤供給デバイスの充填方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1062963C (zh) * | 1990-04-12 | 2001-03-07 | 多尔拜实验特许公司 | 用于产生高质量声音信号的解码器和编码器 |
US6226608B1 (en) * | 1999-01-28 | 2001-05-01 | Dolby Laboratories Licensing Corporation | Data framing for adaptive-block-length coding system |
FI116643B (fi) * | 1999-11-15 | 2006-01-13 | Nokia Corp | Kohinan vaimennus |
SE517156C2 (sv) * | 1999-12-28 | 2002-04-23 | Global Ip Sound Ab | System för överföring av ljud över paketförmedlade nät |
US6931292B1 (en) * | 2000-06-19 | 2005-08-16 | Jabra Corporation | Noise reduction method and apparatus |
FR2824978B1 (fr) * | 2001-05-15 | 2003-09-19 | Wavecom Sa | Dispositif et procede de traitement d'un signal audio |
US7460993B2 (en) * | 2001-12-14 | 2008-12-02 | Microsoft Corporation | Adaptive window-size selection in transform coding |
JP3881943B2 (ja) * | 2002-09-06 | 2007-02-14 | 松下電器産業株式会社 | 音響符号化装置及び音響符号化方法 |
US6929380B2 (en) * | 2003-10-16 | 2005-08-16 | James D. Logan | Candle holder adapter for an electric lighting fixture |
EP1711937B1 (en) * | 2004-01-28 | 2009-10-28 | Koninklijke Philips Electronics N.V. | Method and apparatus for time scaling of a signal |
-
2007
- 2007-06-27 AT AT07789821T patent/ATE520120T1/de not_active IP Right Cessation
- 2007-06-27 CN CN200780024091.0A patent/CN101479788B/zh not_active Expired - Fee Related
- 2007-06-27 WO PCT/IB2007/052494 patent/WO2008001320A2/en active Application Filing
- 2007-06-27 JP JP2009517554A patent/JP2010503875A/ja active Pending
- 2007-06-27 EP EP07789821A patent/EP2038881B1/en active Active
- 2007-06-27 US US12/306,618 patent/US20090287479A1/en not_active Abandoned
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003527932A (ja) * | 2000-03-29 | 2003-09-24 | エラン・ファルマ・インターナショナル・リミテッド | 針アセンブリとシースならびに薬剤供給デバイスの充填方法 |
Also Published As
Publication number | Publication date |
---|---|
ATE520120T1 (de) | 2011-08-15 |
EP2038881B1 (en) | 2011-08-10 |
EP2038881A2 (en) | 2009-03-25 |
CN101479788A (zh) | 2009-07-08 |
WO2008001320A3 (en) | 2008-02-21 |
CN101479788B (zh) | 2012-01-11 |
WO2008001320A2 (en) | 2008-01-03 |
US20090287479A1 (en) | 2009-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20150312676A1 (en) | System and method for reducing latency in transposer-based virtual bass systems | |
RU2491658C2 (ru) | Синтезатор аудиосигнала и кодирующее устройство аудиосигнала | |
JP5844266B2 (ja) | 適応オーバーサンプリングを用いる高周波数オーディオ信号を発生させるための装置および方法 | |
US8065141B2 (en) | Apparatus and method for processing signal, recording medium, and program | |
RU2518682C2 (ru) | Усовершенствованное гармоническое преобразование на основе блока поддиапазонов | |
JP2010079275A (ja) | 周波数帯域拡大装置及び方法、符号化装置及び方法、復号化装置及び方法、並びにプログラム | |
US20060130637A1 (en) | Method for differentiated digital voice and music processing, noise filtering, creation of special effects and device for carrying out said method | |
JP2007178675A (ja) | オーディオ再生の効果付加方法およびその装置 | |
JP4760278B2 (ja) | 補間装置、オーディオ再生装置、補間方法および補間プログラム | |
JP3430985B2 (ja) | 合成音生成装置 | |
EP2907324B1 (en) | System and method for reducing latency in transposer-based virtual bass systems | |
JP2004198485A (ja) | 音響符号化信号復号化装置及び音響符号化信号復号化プログラム | |
JP5104553B2 (ja) | インパルス応答加工装置、残響付与装置およびプログラム | |
EP1905009B1 (en) | Audio signal synthesis | |
JP2010503875A (ja) | 音声フレーム長の適応化 | |
WO2020179472A1 (ja) | 信号処理装置および方法、並びにプログラム | |
JP4649351B2 (ja) | デジタルデータ復号化装置 | |
JP2003216199A (ja) | 復号装置、復号方法及びプログラム供給媒体 | |
US20090308229A1 (en) | Decoding sound parameters | |
US20030187528A1 (en) | Efficient implementation of audio special effects | |
Hanna et al. | Time scale modification of noises using a spectral and statistical model | |
JP2008512699A (ja) | 入力信号に残響を加える装置及び方法 | |
JP4715385B2 (ja) | 補間装置、オーディオ再生装置、補間方法および補間プログラム | |
JP2010513940A (ja) | ノイズ合成 | |
JP2011133568A (ja) | 音声処理装置、音声処理方法および音声処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110927 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120313 |