JP2009543112A - 音声パラメータの復号化 - Google Patents

音声パラメータの復号化 Download PDF

Info

Publication number
JP2009543112A
JP2009543112A JP2009517552A JP2009517552A JP2009543112A JP 2009543112 A JP2009543112 A JP 2009543112A JP 2009517552 A JP2009517552 A JP 2009517552A JP 2009517552 A JP2009517552 A JP 2009517552A JP 2009543112 A JP2009543112 A JP 2009543112A
Authority
JP
Japan
Prior art keywords
component
transient
speech
frame
components
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009517552A
Other languages
English (en)
Inventor
スズクゼルバ マレク
ヘーリッツ アンドレアス
ミーデリンク マルク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NXP BV
Original Assignee
NXP BV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NXP BV filed Critical NXP BV
Publication of JP2009543112A publication Critical patent/JP2009543112A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/093Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

音声成分を表す音声パラメータから音声標本を生成する装置であって、その装置は、各フレームに含まれる過渡音声パラメータから過渡音声成分を合成するための過渡合成ユニット(14)を具える。合成効率を増加させるために、フレーム当たり1つの過渡音声成分のみを選択するための過渡成分選択ユニット(11)を構成する。更に、その装置は過渡成分が生成される場合、より少ない正弦波成分を生成するように構成できる。変換領域係数は、時間窓表現の変換領域表現と畳み込むことができ、得られた変換領域係数の数は、更に合成効率を向上するように制御できる。

Description

本発明は音声パラメータの復号化及び音声の合成に関するものである。より詳細には、本発明は、過渡音声成分、正弦波音声成分及び/又は他の音声成分を表す音声パラメータから音声標本を生成する装置、及びその方法に関するものである。
時間的包絡線パラメータ及び/又はスペクトル包絡線パラメータ、スペクトル係数、及び他のパラメータのような音声パラメータから音声標本を生成することは周知である。例えば、パラメータ復号器はこのようなパラメータを復号化し、後でアナログ音声信号に変換できる音声標本を生成することができる。同様にパラメータ合成器も音声パラメータを用いて音声標本を生成する。
音声パラメータ及びその結果得られる音声標本は、典型的にはフレーム、即ち単一ルーチンで処理できるデータセットに配列される。各フレームは、複数の音声標本を生成するように処理し得る1つ以上のパラメータを含むことができる。音声標本の数は、それらが導出される音声パラメータの数よりもずっと大きいため、音声パラメータは典型的には音声の効率的な表現を構成している。
異なる音声成分を表すために、異なる型の音声パラメータを使用できる。例えば、ある音声パラメータは過渡音声成分のみを表すことができるが、他の音声パラメータは、例えば正弦波成分及び/又は雑音成分などの他の音声成分を表すことができる。これらの音声成分は異なる特性を有しているため、異なるパラメータ群によって、より効率的に表すことができる。
1フレーム当たりの音声成分の数は非常に大きくてもよい。しかし多数の音声成分の合成は多数の計算を必要としうる。これにより比較的大きな処理能力を有する装置が必要になり、多くの用途には適していない。
本発明の目的は、先行技術のこれら及び他の問題を解決し、より少ない計算で済む音声パラメータから音声標本を生成する装置及び方法を提供することにある。
従って、本発明は過渡音声成分及び他の音声成分を表す音声パラメータから音声標本を生成する装置を提供し、本装置は合成すべき音声パラメータ数を低減する手段を具える。
より詳細には、本発明は音声成分を表す音声パラメータから音声標本を生成する装置を提供し、本装置は、
音声成分を表す音声パラメータを含むフレームを受信して、各フレームに対して限定数の音声成分を選択する、少なくとも1つの選択ユニットと、
選択された音声成分をそれらのパラメータから合成する、少なくとも1つの合成ユニットと、
を具える。
選択ユニットは、1フレームにつき1つの過渡音声成分を選択する過渡成分選択ユニットとし、合成ユニットは選択された過渡成分を合成する過渡成分合成ユニットとすることができる。
過渡音声成分を含む各フレームにおいて1つの過渡音声成分のみを選択することによって、フレーム毎に複数の過渡(音声)成分を合成することを防止する。複数の過渡成分の合成は計算的に非常に不利であり、フレーム毎に1つの過渡成分だけを合成することによって、必要な処理を大きく低減できることが明らかとなった。更に、ほとんどの場合、音声品質はほとんど悪影響を受けないことも明らかとなった。このように、音声の生成効率が大きく改善されるが、各フレームの他の過渡成分の省略はほとんど聞こえない。
フレームが過渡音声成分を含まない場合には、過渡成分は合成されないことが理解されよう。フレームが1つの過渡成分のみを含む場合には、その過渡成分は選択される。
過渡成分選択ユニットは、合成すべき1つの過渡成分を様々な方法で選択できる。各フレームの第1の過渡成分を選択し、残りの成分(のパラメータ)を無視することができる。しかし過渡音声成分を選択するために他の基準も使用できる。好適な実施例においては、選択ユニットに最大のエネルギー含量を有する過渡音声成分を選択する手段を設ける。
個々のフレームの音声成分、特に過渡成分は次のフレームに延在することもある。フレームの音声を合成しているとき、前のフレームの音声の一部も合成されることが可能である。このような場合には、本発明を使用しても、2つの過渡音声成分(又は3つ以上でさえ可能)が同時に合成されることが可能である。合成効率を更に増加させるために、過渡合成ユニットに、現在のフレーム中の過渡音声成分を合成するときに前のフレームの過渡音声成分を切断する切断ユニットを設けることが好ましい。
本発明の装置は、正弦波音声成分を含む各フレーム毎に1つ以上の正弦波音声成分を選択する正弦波成分選択ユニットと、選択された正弦波音声成分をそれらのパラメータから合成する正弦波成分合成ユニットを、追加して又は代わりに具えることができる。
本装置が過渡成分合成ユニットも具える場合、正弦波成分選択ユニットは過渡成分選択ユニットに依存させ、過渡成分選択ユニットが同一のフレームに対して過渡成分を選択する場合、より少ない正弦波音声成分を選択することができるようにするのが有利である。従って、正弦波成分選択ユニットは過渡成分選択ユニットによって制御され、選択される正弦波成分の数が同一のフレーム中の過渡成分の存在に依存するようにするのが好ましい。
正弦波成分選択ユニットを具える実施例において、過渡成分が合成されている場合に正弦波成分の数を低減することは、所要の計算数を低減する。この方法は、過渡成分が正弦波成分をマスキングするため、音声品質にほとんど悪影響を与えないことが明らかとなった。過渡成分を含まないフレームにおいては、全ての正弦波音声成分を選択して合成できる。
過渡合成ユニットが同一のフレームに対して過渡成分を生成する場合、より少数の正弦波音声成分を生成するという特徴は独立に使用でき、従って1フレーム当たり2つ以上の過渡成分を合成する装置に使用することもできることに注意されたい。
所定のフレームが過渡音声成分を含まずにその前のフレームが含む場合、過渡成分が依然として合成されることがある。このような場合、計算負荷を低減するために正弦波成分の数を低減することもできる。正弦波成分の選択及び過渡成分の選択は互いに影響するが、正弦波成分及び過渡成分の選択は、音響心理的適切度に基づくものとするのが好ましい。
変換領域における正弦波成分の合成は、通常、時間領域の合成よりも効率的であるため、正弦波音声パラメータは変換領域係数を表す、又は変換領域係数に変換できるデータを表すものとするのが好ましい。更に、装置は変換領域係数を時間領域標本に変換する逆変換ユニットを更に具えることが好ましい。変換領域は周波数領域、特に複素スペクトル領域であることが好ましく、逆変換は逆高速フーリエ変換(IFFT)であることが好ましいが、他の変換領域及び関連する(逆)変換、例えば(離散)コサイン変換領域又は直交ミラーフィルタ(QMF)変換領域を使用することができる。
音声パラメータはフーリエ係数のような変換領域係数とし得るが、音声パラメータから変換領域係数を生成することも可能であることに注意されたい。前者の場合、音声パラメータは変換領域係数と同一であるが、後者の場合は音声パラメータはこのような係数又は等価なデータを表し、変換領域音声係数に変換できる。
好適な実施例においては、正弦波合成ユニットは変換領域音声係数と時間窓の変換領域表現とを畳み込む畳み込みユニットと、畳み込みによって生じる追加の変換領域音声係数の数を限定する係数限定ユニットとを具える。係数限定ユニットは、利用可能な係数セットのサブセットを選択することによって、畳み込み後の音声係数の数を効率的に限定できる。
適切な持続時間に対応する音声データ(係数又は標本)を生成するために、音声係数を時間窓の表現を使用して処理するのが有利である。その処理は、音声パラメータが時間領域係数を表すときは乗算を必要とし、音声パラメータが変換領域係数を表すときは畳み込みを必要とするものとし得る。畳み込みは、典型的には非ゼロの変換領域係数の数を増加させる。しかしこれは必要な処理量も増加させる。
本発明の更なる態様によれば、係数限定ユニットは、フレーム中の変換領域係数の数をフレーム中の音声パラメータの元の数に依存して限定するように構成できる。例えば、元の係数の数が大きい場合、選択される追加の係数の数を小さくすることができる。このように全体の係数の数をほぼ一定、又は少なくとも所定の最大値以下に維持できる。代わりに追加の係数の数をほぼ一定、又は所定の最大値以下に維持できる。
追加の係数の数は、様々な方法で限定できる。特に好適な実施例において、フレーム中の追加の係数の数は、
− 元の係数の数が2以下の場合には6
− 元の係数の数が3〜5の場合には4
− 元の係数の数が5以上の場合には2
とする。
しかし、これらの数は個々のフレーム長やそれぞれの正弦波成分のエネルギーのような他の考慮事項に依存し、通常は個々の実施例によることが理解されよう。特に、上記の数は周波数帯域毎に適用することができ、好適には周知のERB(等価長方形帯域幅)スケールは音響心理を考慮しているため、ERB帯域又は類似の帯域毎に適用することができる。
本発明の装置は、各フレーム毎に合成すべき雑音音声成分を選択する雑音成分選択ユニットと、選択された雑音音声成分をそれらのパラメータから合成する雑音成分合成ユニットとを具えることができる。合成前に雑音成分を選択することによって、計算負荷を更に低減できる。雑音成分の選択は、過渡成分及び/又は正弦波成分の選択に独立にすること又は依存させることができる。
本発明の装置は、音声標本を出力するための出力ユニットを更に具えることができ、その出力ユニットは重複フレームを加算するための手段を具えていることが好ましい。つまり出力ユニットは、フレームを出力信号に組み合わせるために周知の重複加算技術を使用できる。
本発明の装置は、音声パラメータを含むフレームを形成するためのフレーム形成ユニットを追加として又は代わりとして具えることができ、この場合には、過渡成分選択ユニット、正弦波成分選択ユニット及び/又は雑音成分選択ユニットは、フレーム形成ユニットからフレームを受信する。
本発明は、上で特定した装置を具える音響システム並びに民生用装置を更に提供する。本発明の民生用装置は、移動(米国ではセルラ)電話装置のような携帯民生用装置、MP3プレーヤのような固体音楽プレーヤ、音楽合成器、又は他の適切な装置とすることができる。
本発明は、過渡音声成分及び他の音声成分を表す音声パラメータから音声標本を生成する方法も提供し、本方法は、
音声成分を表す音声パラメータを含むフレームを受信するステップと、
各フレーム毎に、限定数の音声成分を選択するステップと、
選択された音声成分をそれらのパラメータから合成するステップと、
を含む。
本発明の方法は、上述の装置と同一の利点を有する。
選択される音声成分は、1フレーム当たり1つの過渡成分のみを含むことができる。本発明の方法は、フレーム中に含まれる正弦波音声パラメータから正弦波音声成分を合成し、同一のフレームに対して少なくとも1つの過渡音声成分が生成される場合に、より少ない正弦波音声成分を生成するステップを更に含むことができる。
音声パラメータは、変換領域パラメータ又は変換領域パラメータに変換できるデータを表すことができ、本方法はパラメータを逆変換するステップを更に含むことが好ましい。
本発明の方法は、変換領域音声係数と時間窓の変換領域表現とを畳み込み、その畳み込みにより生じる追加の音声成分の数を限定するステップを含むことが有利である。
本発明の方法は、1つ以上の音声成分を表す音声パラメータを含むフレームを形成するステップも含むことができる。
本発明による更なる方法ステップは、以下の本発明の詳細な説明から明らかになる。
本発明は更に、上で特定した方法を実行するためのコンピュータプログラム製品を提供する。コンピュータプログラム製品は、CD又はDVDのようなデータキャリア上に記憶されたコンピュータが実行可能な命令セットを含むことができる。コンピュータが実行可能な命令セットは、プログラム可能なコンピュータが上で規定した方法を実行することを可能にし、例えばインターネット経由で遠隔サーバからのダウンロードすることにより利用可能にすることもできる。
添付の図に説明した代表的な実施例を参照して、本発明を以下に更に説明する。
本発明による装置の代表的な実施例の概略図を示している。 本発明による畳み込み後のパラメータ数を限定するプロセスの概略図を示している。 本発明による隣接するフレームの過渡音声成分の所要時間を限定する概略図を示している。 本発明による、過渡成分合成ユニットの概略図を示している。 本発明による正弦波成分合成ユニットの概略図を示している。 本発明による民生用装置の概略図を示している。
図1における非限定的な例によってのみ示す本発明の装置1は、ビットストリーム分析(BP)ユニット10、過渡成分選択(SEL)ユニット11、過渡成分合成(TS)ユニット14、正弦波成分選択(SEL)ユニット12、正弦波成分合成(SS)ユニット15、雑音成分選択(SEL)ユニット13、雑音成分合成(NS)ユニット16、逆高速フーリエ変換(IFFT)ユニット17、重複加算(OLA)ユニット18、及び混合(MIX)出力ユニット19を具える。
示した実施例において、装置1は音声パラメータを含む入力ビットストリームAを受信し、時間領域音声標本を含む出力信号Bを生成する。
ビットストリーム分析ユニット10は、入力ビットストリームAを分析し、音声パラメータを含むフレームを形成する。これらのフレームは、それぞれ過渡音声成分、正弦波音声成分及び雑音音声成分を表す過渡成分パラメータ(TP)、正弦波成分パラメータ(SS)及び/又は雑音成分パラメータ(NP)を含むことができる。各フレームのパラメータは、それぞれ過渡成分合成ユニット14、正弦波成分合成ユニット15及び雑音成分合成ユニット16に供給される。ある実施例においては1つ又は2つの型の音声パラメータのみを区別することができるが、別の実施例においては3つ以上の音声パラメータを使用することができることに注意されたい。ビットストリーム分析ユニット10は、複数のチャネル(例えば合成器内の複数の機器)を受信する複数の入力端子を有することができる。
本発明によれば、過渡成分パラメータTPは過渡成分合成ユニット14に直接供給されない。代わりに過渡成分パラメータTPは、最初に、個々のフレーム中に存在する過渡成分から1つの過渡成分を選択する過渡成分選択ユニット11に供給される(別の実施例において、1フレーム当たり2つ以上の過渡成分、例えば2つの過渡成分を、本発明の利点の少なくとも一部を維持しながら、選択することができることに注意されたい)。選択ユニット11は、1つの過渡成分、例えば最大のエネルギー含量を有する過渡成分を選択し、選択した過渡成分のパラメータTP’を出力する。過渡成分が選択されたか否かを示す選択データsdは、正弦波成分選択ユニット12に送信される。
図1の実施例において、過渡成分選択ユニット11は個別ユニットとして示されている。しかし、代わりに過渡成分選択ユニット11は過渡成分合成ユニット14中に組み込むことができる。過渡成分選択ユニット11は、図4を参照して後により詳細に説明する。
過渡成分合成ユニット14は、選択された過渡成分パラメータTP’を使用して過渡(音声)成分TCを合成し、得られた標本Tsを混合出力ユニット19に供給する。
正弦波成分選択ユニット12は、正弦波成分パラメータSPを受信し、1つ又はそれ以上の正弦波音声成分のパラメータを選択する。示した実施例において、この選択は過渡選択ユニット11から受信される選択データsdに依存する。過渡成分が選択されない場合(典型的には、これは現在のフレーム中に過渡成分が少しも存在しない又は大きな振幅を有する過渡成分が存在しないことを意味している)、正弦波成分の数を比較的大きくでき、例えば現在のフレームの全ての正弦波成分を選択できる。選択データsdによって示されるように、過渡成分が選択される場合、正弦波選択ユニット12によって正弦波成分の数を低減できる。フレーム中に比較的小さい過渡成分しか存在しない場合には、正弦波成分選択ユニット12から過渡成分選択ユニット11に送信される制御データsdに依存して、比較的大きな正弦波のために省略できる。正弦波成分選択ユニット12の好適な実施例は、図5を参照して後により詳細に説明する。
正弦波成分合成ユニット15は、選択された正弦波成分パラメータSP’を使用して選択された正弦波(音声)成分を合成し、本実施例においてはスペクトル(つまりフーリエ)係数である正弦波音声係数Scを生成する。係数Scは、逆FFT(IFFT)ユニット17によって逆変換される。得られた時間領域標本は、正弦波音声標本Ssを生成するために重複加算(OLA(overlap-and -add))ユニット18において重ね合わされ、得られた正弦波音声標本Ssは混合出力ユニット19に供給される。
同様に雑音成分選択ユニット13は、雑音成分パラメータNPを受信し、1つ又はそれ以上の雑音成分のパラメータを選択する。示した実施例において、この選択は過渡成分選択ユニット11及び正弦波成分選択ユニット12から受信される選択データsdに依存する。過渡応答が選択されない場合(典型的には、これは現在のフレーム中に過渡成分が少しも存在しない又は大きな振幅を有する過渡成分が存在しないことを意味している)、雑音成分の数を比較的大きくでき、例えば現在のフレームの全ての雑音成分を選択できる。選択データsdによって示されるように、過渡成分が選択される場合、正弦波成分は典型的には音響心理的適切度が低いこともあり、雑音成分の数を低減できる。正弦波成分選択ユニット12から受信した選択データsdによって示されるように、比較的大きな数の正弦波成分が選択される場合、合成される雑音成分の数を低減できる。
選択データsdを逆方向に送り、例えば所定の数の正弦波成分を合成する場合には過渡成分の数を低減する、又は同一のフレームが比較的高いエネルギーを有する正弦波成分を含む場合には比較的低いエネルギーを有する過渡成分を抑圧することもできる。
雑音合成ユニット16は、選択された雑音成分パラメータNP’を使用して雑音(音声)成分を合成し、また合成した成分の雑音成分標本Nsを混合出力ユニット19に供給し、そこでそれらの標本Nsは過渡音声標本Ts及び正弦波音声標本Ssと合成されて出力信号Bを生成する。
正弦波成分選択ユニット12及び雑音選択ユニット13は個別のユニットとして示されている。別の実施例では、正弦波成分選択ユニット12及び/又は雑音成分選択ユニット13は、それぞれ正弦波成分合成ユニット14及び又は雑音成分合成ユニット16中に組み込むことができる。同様に、逆変換ユニット17及び重複加算ユニット18も正弦波成分合成ユニット15に組み込み、単一の複合ユニットを形成することができる。
図1の代表的な実施例において、正弦波成分合成ユニット15は、選択した正弦波成分パラメータSP’によって表されるスペクトル(又は他の変換領域)係数と適切な時間窓のスペクトル(又は他の変換領域)表現との畳み込みを実行する畳み込みユニットを具える。この畳み込みの結果は、スペクトル係数(通常、変換領域データ)のフレームであり、そのフレームの長さは例えば256又は512個の係数である適切な変換長に一致する。
畳み込みユニット(図5中の151)によって実行される畳み込みは図2に概略的に示されている。ここでは、代表的な変換領域表現Pは単一係数を有し、この係数は例えば正弦波成分を表すことができる。この変換領域表現Pは、時間窓の変換領域表現Qと畳み込まれ、記号「*」は畳み込みを示している(図2においては、簡単のために表現P及びQの絶対値のみが示してある)。本例において、得られた変換領域表現Rは、元の表現Pより8つ多い9つの係数を有する。
変換領域係数の総数は変更することはできないが、畳み込みは典型的には非ゼロの係数を増加させ、これらは追加の変換領域係数として参照できる。本発明の更なる態様によれば、この追加の変換領域係数(典型的にはスペクトルビン(bin))の数は、係数限定(CL)ユニット(図5中の152)によって限定される。
畳み込み操作の結果である追加の変換領域係数(又は「サイドビン」)は、係数を処理するのに必要な計算数を増加させる。このため、係数限定ユニット(図5中の152)は、計算効率を増加させるために、必要に応じ、係数の数を低減する。図2では、係数の数は5つの係数のセットSに限定され、このように他の係数を破棄して処理すべきパラメータの数を低減する。生成された追加の係数は、合成される信号の時間−周波数分解能も決定することに注意されたい。
使用する追加の係数の数は、元の係数の数、従って正弦波成分の数に依存させると有利である。係数の総数を低減するために、使用する追加の係数(図2のSに含まれる)の数は、好適な実施例においては、元の係数の数(図2のP)に反比例する。特に好適な実施例においては、フレーム中の追加の変換領域係数の数は、
− 元の変換領域係数の数が2以下の場合には6
− 元の変換領域係数の数が3〜5の場合には4
− 元の変換領域係数の数が5以上の場合には2
とする。
使用する追加の変換領域係数の実際の数は、特定の実施例に依存することが理解されよう。これらの数は、周波数帯域毎、好ましくはERB帯域又は類似の帯域毎に適用することができる。
過渡合成(TS)ユニット14の好適な実施例が図4に示されている。示した実施例には、現在のフレームの過渡成分が合成されている場合に、前のフレームの過渡成分を切断するように働く過渡切断(TD)ユニット141が設けられている。図3に更に示すように、過渡成分T1及びT2は隣接するフレームF1及びF2において合成されることがある。第1フレームF1はt=0にて開始し、第2フレームF2はt=1にて開始する。
第1フレームF1の過渡成分は第2フレームF2へ続き、第2フレームF2の少なくとも一部においてT1とT2の合成を引き起こす。複数の過渡成分の合成を防止するために、第1過渡成分T1は第2フレームF2がt=1にて開始する時に切断される。
合成効率の更なる増加は、図5に示すように、正弦波成分合成(SS)ユニット15に係数限定(CL)ユニット152を設けた場合に達成できる。係数限定(CL)ユニット152は、フレーム内の合成される正弦波の数を、同じフレーム内の合成される過渡成分の存在に依存して限定し、更に要すれば音響心理的な基準に依存して限定することもできる。その結果、正弦波係数の数Scは低減され、こうして必要な計算数を低減できる。係数限定ユニット152は、正弦波成分選択ユニット12に加えて、又はその代わりに使用できる。
正弦波成分合成(SS)ユニット15は、選択された正弦波パラメータSP’によって表される変換領域係数と時間窓の変換領域表現とを畳み込むための畳み込み(CON)ユニット151を更に具えることが示されている。正弦波成分合成ユニット15は、選択された正弦波パラメータSP’から前記の変換領域係数を生成するための係数生成ユニット(図示せず)と、時間窓の変換領域表現を記憶するための記憶ユニット(図示せず)とを更に具えることができる。時間窓の長さは、効率的な変換ができるように選択することが好ましく、オーバーサンプリングを使用する場合には、例えば128,256,512又は1024の係数、又は128xN,256xNなどの係数の長さを有することができ、ここでNはオーバーサンプリング係数であり、例えば32とすることができる。
本発明による民生用装置が図6に概略的に示されている。本発明によれば、民生用装置9は音声合成装置1を具えるように示されている。更に民生用装置9は追加の要素、例えば音声データ記憶装置2,アンプ、ラウドスピーカ、電源、制御パネル(図示せず)などを具えることができる。民生用装置9は、携帯オーディオプレーヤ、携帯(移動)電話装置、携帯情報端末(PDA)、音楽合成器、ゲーム装置、又は、デジタル又は音響音声信号を出力可能な他の民生用装置とすることができる。本発明による音声合成装置1は、音声システムにおいても使用でき、特にパラメータ復号器及びパラメータ合成器用に適している。
本発明は、音声の合成効率は、合成すべき音声成分を特に音声心理学的基準を考慮して選択することによって増加できるという見識に基づいている。本発明は、1フレーム当たり1つの過渡成分だけを音声品質にさほど悪影響を与えることなく合成できるという更なる見識による利点もある。本発明は、1フレーム当たりの合成される正弦波の数を、同じフレームにおいて過渡成分が合成される場合に低減できるとともに、変換領域の畳み込みによって生成される追加の係数の数を、音声品質をほぼ一定に保ちつつ低減できるという更なる見識による利点もある。
本明細書において使用されている用語は本発明の範囲を限定するように解釈されるべきではない。特に、「具える」という言葉は、明記してない他の要素を排除しない。1つの(回路)素子は、複数の(回路)素子又は他の装置で置き換えることができる。各実施例は別々に、又は他の実施例と組み合わせて実施できる。
従って、当業者は、本発明は上で示した実施例に限定されず、添付の請求項において特定された本発明の範囲から離れることなく、多くの改良又は追加を行うことができることを理解されよう。

Claims (22)

  1. 音声成分を表す音声パラメータを含むフレームを受信し、各フレーム毎に限定数の音声成分を選択するための少なくとも1つの選択ユニットと、
    選択された音声成分をそれらのパラメータから合成する、少なくとも1つの合成ユニットと、
    を具えることを特徴とする、音声成分を表す音声パラメータから音声標本を生成するための装置。
  2. 過渡音声成分を含む各フレーム毎に単一の過渡音声成分を選択する過渡成分選択ユニットと、
    選択された過渡音声成分をそれらのパラメータから合成する、過渡成分合成ユニットと、
    を具えることを特徴とする、請求項1に記載の装置。
  3. 前記過渡選択ユニットが、最大のエネルギー含量を有する前記過渡音声成分を選択するための手段を具えていることを特徴とする、請求項2に記載の装置。
  4. 前記過渡合成ユニットが、現在のフレームにおいて過渡音声成分を合成するときに前のフレームの過渡音声成分を切断するための切断ユニットを具えることを特徴とする、請求項2に記載の方法。
  5. 各フレーム毎に、1つ以上の正弦波音声成分を選択するための正弦波成分選択ユニットと、
    選択された正弦波音声成分をそれらのパラメータから合成する、正弦波成分合成ユニットと、
    を具えることを特徴とする、請求項1に記載の装置。
  6. 前記過渡成分選択ユニットが同一のフレームに対して過渡成分を選択する場合に、前記正弦波成分選択ユニットが、選択された正弦波成分の数を低減することを特徴とする、請求項2又は5に記載の装置。
  7. 逆変換ユニットを更に具えることを特徴とする、請求項5に記載の方法。
  8. 前記正弦波選択ユニットが前記変換領域係数と時間窓の変換領域表現とを畳み込むための畳み込みユニットを具え、前記正弦波成分選択ユニットに前記畳み込みによって生じる追加の変換領域係数の数を限定するための係数限定ユニットも設けることを特徴とする、請求項5に記載の装置。
  9. 前記係数限定ユニットが、フレーム中の追加の変換領域係数の数をフレーム中の音声パラメータの元の数に依存して、好ましくは周波数帯域毎に限定することを特徴とする、請求項8に記載の装置。
  10. 各フレーム毎に合成すべき雑音成分を選択するための雑音成分選択ユニットと、
    雑音成分をそれらのパラメータから合成する、雑音成分合成ユニットと、
    を具えることを特徴とする、請求項1に記載の装置。
  11. 請求項1に記載の装置を具える民生用装置。
  12. 請求項1に記載の装置を具える音響システム。
  13. 音声成分を表す音声パラメータを含むフレームを受信するステップと、
    各フレーム毎に、限定数の音声成分を選択するステップと、
    それらのパラメータから選択した音声成分を合成するステップと、
    を含むことを特徴とする、過渡音声成分及び他の音声成分を表す音声パラメータから音声標本を生成する方法。
  14. 前記選択ステップが、各フレームに対して1つの過渡音声成分を選択するするステップを含み、前記合成ステップが、選択された過渡音声成分をそれらのパラメータから合成するステップを含むことを特徴とする、請求項13に記載の方法。
  15. 前記選択ステップが、最大のエネルギー含量を有する前記過渡音声成分を選択するステップを含むことを特徴とする、請求項14に記載の方法。
  16. 前記合成ステップが、現在のフレームにおいて過渡音声成分を合成するときに、前のフレームの過渡音声成分を切断するステップを含むことを特徴とする、請求項14に記載の方法。
  17. フレームに含まれる正弦波音声パラメータから正弦波音声成分を合成するステップと、
    その合成前に正弦波音声成分を選択するステップと、
    を更に具えることを特徴とする、請求項13に記載の方法。
  18. 同一のフレームに対して過渡音声成分が生成される場合に、選択される正弦波成分の数を低減するステップを更に具えることを特徴とする、請求項14及び17に記載の方法。
  19. 前記音声パラメータが変換領域係数を表し、前記変換領域係数を逆変換するステップを更に含むことを特徴とする、請求項13に記載の方法。
  20. 前記変換領域係数と時間窓の変換領域表現とを畳み込むステップと、
    好ましくは前記畳み込みにより生じる追加の変換領域係数の数を限定するステップと、
    を更に含むことを特徴とする、請求項19に記載の方法。
  21. フレームに含まれる雑音成分パラメータから雑音成分を合成するステップと、
    その合成前に雑音成分を選択するステップと、
    を更に含むことを特徴とする、請求項13に記載の方法。
  22. 請求項13に記載の方法を実行するためのコンピュータプログラム製品。
JP2009517552A 2006-06-29 2007-06-27 音声パラメータの復号化 Pending JP2009543112A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP06116297 2006-06-29
PCT/IB2007/052488 WO2008001316A2 (en) 2006-06-29 2007-06-27 Decoding sound parameters

Publications (1)

Publication Number Publication Date
JP2009543112A true JP2009543112A (ja) 2009-12-03

Family

ID=38704357

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009517552A Pending JP2009543112A (ja) 2006-06-29 2007-06-27 音声パラメータの復号化

Country Status (5)

Country Link
US (1) US20090308229A1 (ja)
EP (1) EP2038882A2 (ja)
JP (1) JP2009543112A (ja)
CN (1) CN101479789A (ja)
WO (1) WO2008001316A2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1851752B1 (en) * 2005-02-10 2016-09-14 Koninklijke Philips N.V. Sound synthesis
CA3054712C (en) * 2013-01-08 2020-06-09 Lars Villemoes Model based prediction in a critically sampled filterbank

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006003813A1 (ja) * 2004-07-02 2006-01-12 Matsushita Electric Industrial Co., Ltd. オーディオ符号化及び復号化装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
US5886276A (en) * 1997-01-16 1999-03-23 The Board Of Trustees Of The Leland Stanford Junior University System and method for multiresolution scalable audio signal encoding
US5903872A (en) * 1997-10-17 1999-05-11 Dolby Laboratories Licensing Corporation Frame-based audio coding with additional filterbank to attenuate spectral splatter at frame boundaries
US6266003B1 (en) * 1998-08-28 2001-07-24 Sigma Audio Research Limited Method and apparatus for signal processing for time-scale and/or pitch modification of audio signals
US6266644B1 (en) * 1998-09-26 2001-07-24 Liquid Audio, Inc. Audio encoding apparatus and methods
JP3751001B2 (ja) * 2002-03-06 2006-03-01 株式会社東芝 オーディオ信号再生方法および再生装置
CN1886783A (zh) * 2003-12-01 2006-12-27 皇家飞利浦电子股份有限公司 音频编码
US7454332B2 (en) * 2004-06-15 2008-11-18 Microsoft Corporation Gain constrained noise suppression
US8476518B2 (en) * 2004-11-30 2013-07-02 Stmicroelectronics Asia Pacific Pte. Ltd. System and method for generating audio wavetables
EP1851752B1 (en) * 2005-02-10 2016-09-14 Koninklijke Philips N.V. Sound synthesis
CN101116136B (zh) * 2005-02-10 2011-05-18 皇家飞利浦电子股份有限公司 声音合成的装置和方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006003813A1 (ja) * 2004-07-02 2006-01-12 Matsushita Electric Industrial Co., Ltd. オーディオ符号化及び復号化装置

Also Published As

Publication number Publication date
WO2008001316A3 (en) 2008-02-21
US20090308229A1 (en) 2009-12-17
CN101479789A (zh) 2009-07-08
EP2038882A2 (en) 2009-03-25
WO2008001316A2 (en) 2008-01-03

Similar Documents

Publication Publication Date Title
US9407993B2 (en) Latency reduction in transposer-based virtual bass systems
EP1851760B1 (en) Sound synthesis
KR100465567B1 (ko) 신호 처리 장치, 신호 처리 방법, 프로그램 및, 기록 매체
KR101370354B1 (ko) 낮은 복잡도 파라메트릭 스테레오 디코더
KR20070080601A (ko) 부호화/복호화 장치 및 방법
CN101385076A (zh) 用于编码/解码信号的装置和方法
WO2010119253A9 (en) Processing audio signals
JP2008530608A (ja) 音声合成方法
KR20130007439A (ko) 신호 처리 장치, 신호 처리 방법 및 프로그램
JP2009543112A (ja) 音声パラメータの復号化
RU2433489C2 (ru) Параметрическое многоканальное декодирование
US20160179458A1 (en) Digital signal processing using a combination of direct and multi-band convolution algorithms in the time domain
EP2012302A1 (en) Harmonic producing device, digital signal processing device, and harmonic producing method
US7668848B2 (en) Method and system for selectively decoding audio files in an electronic device
US20090245526A1 (en) Device for and method of adding reverberation to an input signal
EP2038881B1 (en) Sound frame length adaptation
US20070022869A1 (en) Loudspeaker sensitive sound reproduction
Juillerat Audio Time Stretching with Controllable Phase Coherence
JP2010513940A (ja) ノイズ合成
JP2003091294A (ja) 音声復号装置、音声復号方法および音声復号プログラム
JP2007279581A (ja) オーディオ信号処理装置,オーディオ信号処理方法,プログラムおよび記憶媒体
JPH11330972A (ja) 復号装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111004

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20111118

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120321