JP5588547B2 - 音声復号装置、音声復号方法、及び音声復号プログラム - Google Patents
音声復号装置、音声復号方法、及び音声復号プログラム Download PDFInfo
- Publication number
- JP5588547B2 JP5588547B2 JP2013146360A JP2013146360A JP5588547B2 JP 5588547 B2 JP5588547 B2 JP 5588547B2 JP 2013146360 A JP2013146360 A JP 2013146360A JP 2013146360 A JP2013146360 A JP 2013146360A JP 5588547 B2 JP5588547 B2 JP 5588547B2
- Authority
- JP
- Japan
- Prior art keywords
- time envelope
- frequency
- unit
- frequency component
- linear prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 149
- 238000004458 analytical method Methods 0.000 claims description 137
- 238000006243 chemical reaction Methods 0.000 claims description 84
- 238000000926 separation method Methods 0.000 claims description 67
- 230000005236 sound signal Effects 0.000 claims description 62
- 230000009466 transformation Effects 0.000 claims description 25
- 238000012545 processing Methods 0.000 description 183
- 238000012986 modification Methods 0.000 description 181
- 230000004048 modification Effects 0.000 description 181
- 238000004891 communication Methods 0.000 description 100
- 238000004590 computer program Methods 0.000 description 98
- 230000008569 process Effects 0.000 description 84
- 238000004364 calculation method Methods 0.000 description 68
- 230000008859 change Effects 0.000 description 57
- 238000001514 detection method Methods 0.000 description 33
- 230000015572 biosynthetic process Effects 0.000 description 27
- 238000003786 synthesis reaction Methods 0.000 description 27
- 238000013213 extrapolation Methods 0.000 description 19
- 238000013139 quantization Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 17
- 238000001228 spectrum Methods 0.000 description 16
- 230000002123 temporal effect Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 11
- 230000003595 spectral effect Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000010187 selection method Methods 0.000 description 6
- 230000001052 transient effect Effects 0.000 description 6
- 230000000295 complement effect Effects 0.000 description 4
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
図1は、第1の実施形態に係る音声符号化装置11の構成を示す図である。音声符号化装置11は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声符号化装置11の内蔵メモリに格納された所定のコンピュータプログラム(例えば、図2のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声符号化装置11を統括的に制御する。音声符号化装置11の通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。
1.時間スロットrにおける信号の短時間電力p(r)を次の数式(4)によって取得する。
2.p(r)を平滑化したエンベロープpenv(r)を次の数式(5)によって取得する。ただしαは0<α<1を満たす定数である。
3.p(r)とpenv(r)とを用いてT(r)を次の数式(6)に従って取得する。ただしβは定数である。
以上に示した方法は電力の変化に基づく信号変化検出の単純な例であり、他のもっと洗練された方法により信号変化検出を行ってもよい。また、信号変化検出部2eは省略してもよい。
さらに、信号変化検出部2eの出力T(r)が得られる場合には、強度の調整は次の数式(8)に従って行ってもよい。
この線形予測逆フィルタ処理は、低周波側の係数から高周波側の係数に向かって行われてもよいし、その逆でもよい。線形予測逆フィルタ処理は、後段において時間エンベロープ変形を行う前に高周波成分の時間エンベロープを一旦平坦化しておくための処理であり、線形予測逆フィルタ部2iは省略されてもよい。また、高周波生成部2gからの出力に対して高周波成分への線形予測分析と逆フィルタ処理を行うかわりに、後述する高周波調整部2jからの出力に対して高周波線形予測分析部2hによる線形予測分析と線形予測逆フィルタ部2iによる逆フィルタ処理とを行ってもよい。さらに、線形予測逆フィルタ処理に用いる線形予測係数は、aexp(n,r)ではなく、adec(n,r)又はaadj(n,r)であってもよい。また、線形予測逆フィルタ処理に用いられる線形予測係数は、aexp(n,r)に対してフィルタ強度調整を行って取得される線形予測係数aexp,adj(n,r)であってもよい。強度調整は、aadj(n,r)を取得する際と同様、例えば、次の数式(10)に従って行われる。
この線形予測合成フィルタ処理によって、線形予測フィルタ部2kは、SBRに基づいて生成された高周波成分の時間エンベロープを変形する。
図5は、第1の実施形態に係る音声符号化装置の変形例(音声符号化装置11a)の構成を示す図である。音声符号化装置11aは、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声符号化装置11aの内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって音声符号化装置11aを統括的に制御する。音声符号化装置11aの通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。
第1の実施形態の変形例2の音声符号化装置(不図示)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の変形例2の音声符号化装置の内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって変形例2の音声符号化装置を統括的に制御する。変形例2の音声符号化装置の通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。
図6は、第2の実施形態に係る音声符号化装置12の構成を示す図である。音声符号化装置12は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声符号化装置12の内蔵メモリに格納された所定のコンピュータプログラム(例えば、図7のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声符号化装置12を統括的に制御する。音声符号化装置12の通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。
ただし、ri0は線形予測係数が伝送されている時間スロット{ri}のうちrに最も近いものとする。また、δは0<δ<1を満たす定数である。
図10は、第3の実施形態に係る音声符号化装置13の構成を示す図である。音声符号化装置13は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声符号化装置13の内蔵メモリに格納された所定のコンピュータプログラム(例えば、図11のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声符号化装置13を統括的に制御する。音声符号化装置13の通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。
ただし、
上記の数式におけるs(i)はbi≦r<bi+1を満たすi番目のSBRエンベロープ内におけるe(r)の変化の大きさを示すパラメータであり、時間エンベロープの変化が大きいほどe(r)は大きい値をとる。上記の数式(20)及び(21)は、s(i)の算出方法の一例であり、例えばe(r)のSMF(Spectral Flatness Measure)や、最大値と最小値の比等、を用いてs(i)を取得してもよい。この後、s(i)は量子化され、ビットストリーム多重化部1g3に伝送される。
ただし、
である。
図14は、第4の実施形態に係る音声復号装置24の構成を示す図である。音声復号装置24は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置24の内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって音声復号装置24を統括的に制御する。音声復号装置24の通信装置は、音声符号化装置11又は音声符号化装置13から出力される符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。
を取得した後に、所定のテーブルを用いて、この数式(29)に示す平均値をs(i)に変換することによって行ってもよい。また、時間エンベロープ補助情報がs(i)の場合、補助情報変換部2wは、s(i)をK(r)に変換する。補助情報変換部2wは、この変換を、例えば所定のテーブルを用いてs(i)をK(r)に変換することによって行ってもよい。ただし、iとrはbi≦r<bi+1の関係を満たすよう対応づけられるものとする。
第1の実施形態の音声復号装置21において、音声復号装置21の線形予測フィルタ部2kは、自動利得制御処理を含むことができる。この自動利得制御処理は、線形予測フィルタ部2kの出力のQMF領域の信号の電力を入力されたQMF領域の信号電力に合わせる処理である。利得制御後のQMF領域信号qsyn,pow(n,r)は、一般的には、次式により実現される。
ここで、P0(r),P1(r)はそれぞれ以下の数式(31)及び数式(32)で表される。
この自動利得制御処理により、線形予測フィルタ部2kの出力信号の高周波成分の電力は線形予測フィルタ処理前と等しい値に調整される。その結果、SBRに基づいて生成された高周波成分の時間エンベロープを変形した線形予測フィルタ部2kの出力信号において、高周波調整部2jにおいて行われた高周波信号の電力の調整の効果が保たれる。なお、この自動利得制御処理は,QMF領域の信号の任意の周波数範囲に対して個別に行うことも可能である。個々の周波数範囲に対する処理は、それぞれ、数式(30)、数式(31)、数式(32)のnをある周波数範囲に限定することで実現できる。例えばi番目の周波数範囲はFi≦n<Fi+1と表すことができる(この場合のiは、QMF領域の信号の任意の周波数範囲の番号を示すインデックスである)。Fiは周波数範囲の境界を示し、“MPEG4AAC”のSBRにおいて規定されるエンベロープスケールファクタの周波数境界テーブルであることが望ましい。周波数境界テーブルは“MPEG4AAC”のSBRの規定に従い、高周波生成部2gにおいて決定される。この自動利得制御処理により、線形予測フィルタ部2kの出力信号の高周波成分の任意の周波数範囲内の電力は線形予測フィルタ処理前と等しい値に調整される。その結果、SBRに基づいて生成された高周波成分の時間エンベロープを変形した線形予測フィルタ部2kの出力信号で、高周波調整部2jにおいて行われた高周波信号の電力の調整の効果が周波数範囲の単位で保たれる。また、第1の実施形態の本変形例3と同様の変更を第4の実施形態における線形予測フィルタ部2kに加えてもよい。
第3の実施形態の音声符号化装置13におけるエンベロープ形状パラメータ算出部1nは、以下のような処理で実現することもできる。エンベロープ形状パラメータ算出部1nは、符号化フレーム内のSBRエンベロープの各々について、次の数式(33)に従ってエンベロープ形状パラメータs(i)(0≦i<Ne)を取得する。
ただし、
はe(r)のSBRエンベロープ内での平均値であり、その算出方法は数式(21)に従う。ただし、SBRエンベロープとは、bi≦r<bi+1を満たす時間範囲を示す。また、{bi}は、SBR補助情報に情報として含まれている、SBRエンベロープの時間境界であり、任意の時間範囲、任意の周波数範囲の平均信号エネルギーを表すSBRエンベロープスケールファクタが対象とする時間範囲の境界である。また、min(・)はbi≦r<bi+1の範囲における最小値を表す。従って、この場合には、エンベロープ形状パラメータs(i)は、調整後の時間エンベロープ情報のSBRエンベロープ内での最小値と平均値の比率を指示するパラメータである。また、第3の実施形態の音声復号装置23におけるエンベロープ形状調整部2sは、以下のような処理で実現することもできる。エンベロープ形状調整部2sは、s(i)を用いてe(r)を調整し、調整後の時間エンベロープ情報eadj(r)を取得する。調整の方法は次の数式(35)又は数式(36)に従う。
数式35は、調整後の時間エンベロープ情報eadj(r)のSBRエンベロープ内での最小値と平均値の比率が、エンベロープ形状パラメータs(i)の値と等しくなるようエンベロープ形状を調整するものである。また、上記した第3の実施形態の本変形例1と同様の変更を第4の実施形態に加えてもよい。
時間エンベロープ変形部2vは、数式(28)に代わり、次の数式を利用することもできる。数式(37)に示すとおり、eadj,scaled(r)は、qadj(k,r)とqenvadj(k,r)のSBRエンベロープ内での電力が等しくなるよう調整後の時間エンベロープ情報eadj(r)の利得を制御したものである。また、数式(38)に示すとおり、第3の実施形態の本変形例2では、eadj(r)ではなくeadj,scaled(r)をQMF領域の信号qadj(k,r)に乗算してqenvadj(k,r)を得る。従って、時間エンベロープ変形部2vは、SBRエンベロープ内での信号電力が時間エンベロープの変形の前と後で等しくなるようにQMF領域の信号qadj(k,r)の時間エンベロープの変形を行うことができる。ただし、SBRエンベロープとは、bi≦r<bi+1を満たす時間範囲を示す。また、{bi}は、SBR補助情報に情報として含まれている、SBRエンベロープの時間境界であり、任意の時間範囲、任意の周波数範囲の平均信号エネルギーを表すSBRエンベロープスケールファクタが対象とする時間範囲の境界である。また、本発明の実施例中における用語“SBRエンベロープ”は、“ISO/IEC 14496-3”に規定される“MPEG4AAC”における用語“SBRエンベロープ時間セグメント”に相当し、実施例全体を通して“SBRエンベロープ”は“SBRエンベロープ時間セグメント”と同一の内容を意味する。
また、上記した第3の実施形態の本変形例2と同様の変更を第4の実施形態に加えてもよい。
数式(19)は下記の数式(39)であってもよい。
数式(22)は下記の数式(40)であってもよい。
数式(26)は下記の数式(41)であってもよい。
数式(39)及び数式(40)にしたがった場合、時間エンベロープ情報e(r)は、QMFサブバンドサンプルごとの電力をSBRエンベロープ内での平均電力で正規化し、さらに平方根をとったものとなる。ただし、QMFサブバンドサンプルは、QMF領域信号において、同一の時間インデックス“r”に対応する信号ベクトルであり、QMF領域における一つのサブサンプルを意味する。また、本発明の実施形態全体において、用語”時間スロット”は”QMFサブバンドサンプル”と同一の内容を意味する。この場合、時間エンベロープ情報e(r)は、各QMFサブバンドサンプルへ乗算されるべきゲイン係数を意味することとなり、調整後の時間エンベロープ情報eadj(r)も同様である。
第4の実施形態の変形例1の音声復号装置24a(不図示)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置24aの内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって音声復号装置24aを統括的に制御する。音声復号装置24aの通信装置は、音声符号化装置11又は音声符号化装置13から出力される符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置24aは、機能的には、音声復号装置24のビットストリーム分離部2a3に代わり、ビットストリーム分離部2a4(不図示)を備え、さらに、補助情報変換部2wに代わり、時間エンベロープ補助情報生成部2y(不図示)を備える。ビットストリーム分離部2a4は、多重化ビットストリームを、SBR補助情報と、符号化ビットストリームとに分離する。時間エンベロープ補助情報生成部2yは、符号化ビットストリームおよびSBR補助情報に含まれる情報に基づいて、時間エンベロープ補助情報を生成する。
第4の実施形態の変形例2の音声復号装置24b(図15参照)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置24bの内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって音声復号装置24bを統括的に制御する。音声復号装置24bの通信装置は、音声符号化装置11又は音声符号化装置13から出力される符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置24bは、図15に示すとおり、高周波調整部2jにかえて、一次高周波調整部2j1と二次高周波調整部2j2とを備える。
第4の実施形態の変形例3の音声復号装置24c(図16参照)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置24cの内蔵メモリに格納された所定のコンピュータプログラム(例えば、図17のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声復号装置24cを統括的に制御する。音声復号装置24cの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置24cは、図16に示すとおり、高周波調整部2jにかえて、一次高周波調整部2j3と二次高周波調整部2j4とを備え、さらに線形予測フィルタ部2kと時間エンベロープ変形部2vに代えて個別信号成分調整部2z1,2z2,2z3を備える(個別信号成分調整部は、時間エンベロープ変形手段に相当する)。
第1の実施形態の変形例4の音声符号化装置11b(図44)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声符号化装置11bの内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって音声符号化装置11bを統括的に制御する。音声符号化装置11bの通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。音声符号化装置11bは、音声符号化装置11の線形予測分析部1eにかえて線形予測分析部1e1を備え、時間スロット選択部1pをさらに備える。
ただし、Mは高周波生成部2gによって生成される高周波成分の下限周波数kxより高い周波数の範囲を表す値であり、さらには高周波生成部2gによって生成される高周波成分の周波数範囲をkx<=k<kx+Mのように表してもよい。また、所定の値Pexp,Thは時間スロットrを含む所定の時間幅のPexp(r)の平均値でもよい。さらに所定の時間幅はSBRエンベロープでもよい。
について
が正の値から負の値に変わる時間スロットrの高周波成分のQMF領域の信号電力をピークとしてもよい。信号電力の移動平均値
は、例えば次の式で求めることができる。
ただし、cは平均値を求める範囲を定める所定の値である。また信号電力のピークは、前記の方法で求めてもよく、異なる方法により求めてもよい。
第1の実施形態の変形例5の音声符号化装置11c(図45)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声符号化装置11cの内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって音声符号化装置11cを統括的に制御する。音声符号化装置11cの通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。音声符号化装置11cは、変形例4の音声符号化装置11bの時間スロット選択部1p、及びビットストリーム多重化部1gにかえて、時間スロット選択部1p1、及びビットストリーム多重化部1g4を備える。
第1の実施形態の変形例6の音声符号化装置11d(不図示)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声符号化装置11dの内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって音声符号化装置11dを統括的に制御する。音声符号化装置11dの通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。音声符号化装置11dは、変形例1の音声符号化装置11aの短時間電力算出部1iにかえて、図示しない短時間電力算出部1i1を備え、時間スロット選択部1p2をさらに備える。
第1の実施形態の変形例7の音声符号化装置11e(不図示)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声符号化装置11eの内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって音声符号化装置11eを統括的に制御する。音声符号化装置11eの通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。音声符号化装置11eは、変形例6の音声符号化装置11dの時間スロット選択部1p2にかえて、図示しない時間スロット選択部1p3を備える。さらに、ビットストリーム多重化部1g1にかえて、時間スロット選択部1p3からの出力をさらに受けるビットストリーム多重化部を備える。時間スロット選択部1p3は、第1の実施形態の変形例6に記載の時間スロット選択部1p2と同様に時間スロットを選択し、時間スロット選択情報をビットストリーム多重化部へ送る。
第1の実施形態の変形例8の音声符号化装置(不図示)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の変形例8の音声符号化装置の内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって変形例8の音声符号化装置を統括的に制御する。変形例8の音声符号化装置の通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。変形例8の音声符号化装置は、変形例2に記載の音声符号化装置に加え、時間スロット選択部1pをさらに備える。
第1の実施形態の変形例9の音声符号化装置(不図示)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の変形例9の音声符号化装置の内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって変形例9の音声符号化装置を統括的に制御する。変形例9の音声符号化装置の通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。変形例9の音声符号化装置は、変形例8に記載の音声符号化装置の時間スロット選択部1pにかえて、時間スロット選択部1p1を備える。さらに、変形例8に記載のビットストリーム多重化部にかえて、変形例8に記載のビットストリーム多重化部への入力に加えて時間スロット選択部1p1からの出力をさらに受けるビットストリーム多重化部を備える。
第2の実施形態の変形例1の音声符号化装置12a(図46)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声符号化装置12aの内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって音声符号化装置12aを統括的に制御する。音声符号化装置12aの通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。音声符号化装置12aは、音声符号化装置12の線形予測分析部1eにかえて、線形予測分析部1e1を備え、時間スロット選択部1pをさらに備える。
第2の実施形態の変形例2の音声符号化装置12b(図47)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声符号化装置12bの内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって音声符号化装置11bを統括的に制御する。音声符号化装置12bの通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。音声符号化装置12bは、変形例1の音声符号化装置12aの時間スロット選択部1p、及びビットストリーム多重化部1g2にかえて、時間スロット選択部1p1、及びビットストリーム多重化部1g5を備える。ビットストリーム多重化部1g5は、ビットストリーム多重化部1g2と同様に、コアコーデック符号化部1cで算出された符号化ビットストリームと、SBR符号化部1dで算出されたSBR補助情報と、線形予測係数量子化部1kから与えられた量子化後の線形予測係数に対応する時間スロットのインデックスとを多重化し、さらに時間スロット選択部1p1から受け取る時間スロット選択情報をビットストリームに多重化し、多重化ビットストリームを、音声符号化装置12bの通信装置を介して出力する。
エンベロープ形状調整部2sは、前記第3の実施形態の変形例3に記載のとおり、調整後の時間エンベロープeadj(r)が例えば数式(28),数式(37)及び(38)のとおり、QMFサブバンドサンプルへ乗算されるゲイン係数であることを鑑み、eadj(r)を所定の値eadj,Th(r)により以下のように制限することが望ましい。
第4の実施形態の音声符号化装置14(図48)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声符号化装置14の内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって音声符号化装置14を統括的に制御する。音声符号化装置14の通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。音声符号化装置14は、第1の実施形態の変形例4の音声符号化装置11bのビットストリーム多重化部1gにかえて、ビットストリーム多重化部1g7を備え、さらに音声符号化装置13の時間エンベロープ算出部1m、及びエンベロープ形状パラメータ算出部1nを備える。
第4の実施形態の変形例4の音声符号化装置14a(図49)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声符号化装置14aの内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって音声符号化装置14aを統括的に制御する。音声符号化装置14aの通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。音声符号化装置14aは、第4の実施形態の音声符号化装置14の線形予測分析部1eにかえて、線形予測分析部1e1を備え、時間スロット選択部1pをさらに備える。
第4の実施形態の変形例5の音声復号装置24e(図28参照)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置24eの内蔵メモリに格納された所定のコンピュータプログラム(例えば、図29のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声復号装置24eを統括的に制御する。音声復号装置24eの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置24eは、図28に示すとおり、変形例5においては、第1の実施形態と同様に第4の実施形態の全体を通して省略可能である、変形例4に記載の音声復号装置24dの高周波線形予測分析部2h1と、線形予測逆フィルタ部2i1を省略し、音声復号装置24dの時間スロット選択部3a、及び時間エンベロープ変形部2vにかえて、時間スロット選択部3a2、及び時間エンベロープ変形部2v1を備える。さらに、第4の実施形態の全体を通して処理順序を入れ替え可能である線形予測フィルタ部2k3の線形予測合成フィルタ処理と時間エンベロープ変形部2v1での時間エンベロープの変形処理の順序を入れ替える。
でのそれらの平均値である数式(24)の
もあわせて時間スロット選択情報としてもよい。ただし、
である。
でのそれらの平均値である
もあわせて時間スロット選択情報としてもよい。ただし、
である。さらに時間スロット選択情報としては、数式(23)、数式(35)、数式(36)のeadj(r)またはその算出過程にて平方根演算をしない|eadj(r)|2でもよく、さらにある複数時間スロット区間(例えばSBRエンベロープ)
でのそれらの平均値である
もあわせて時間スロット選択情報としてもよい。ただし、
である。さらに時間スロット選択情報としては、数式(37)のeadj,scaled(r)またはその算出過程にて平方根演算をしない|eadj,scaled(r)|2でもよく、さらにある複数時間スロット区間(例えばSBRエンベロープ)
でのそれらの平均値である
もあわせて時間スロット選択情報としてもよい。ただし、
である。さらに時間スロット選択情報としては、時間エンベロープが変形された高周波成分に対応するQMF領域信号の時間スロットrの信号電力Penvadj(r)またはそれの平方根演算をした信号振幅値
でもよく、さらにある複数時間スロット区間(例えばSBRエンベロープ)
でのそれらの平均値である
もあわせて時間スロット選択情報としてもよい。ただし、
である。ただし、Mは高周波生成部2gによって生成される高周波成分の下限周波数kxより高い周波数の範囲を表す値であり、さらには高周波生成部2gによって生成される高周波成分の周波数範囲をkx≦k<kx+Mのように表してもよい。
のうち少なくともひとつを含んでいてもよく、uThは、上記
のうち少なくともひとつを含んでもよい。またuThは、時間スロットrを含む所定の時間幅(例えばSBRエンベロープ)のu(r)の平均値でもよい。さらに、u(r)がピークになる時間スロットが含まれるように選択してもよい。u(r)のピークは、前記第1の実施形態の変形例4における高周波成分のQMF領域信号の信号電力のピークの算出と同様に算出できる。さらに、前記第1の実施形態の変形例4における定常状態と過渡状態を、u(r)を用いて前記第1の実施形態の変形例4と同様に判断し、それに基づいて時間スロットを選択してもよい。時間スロットの選択方法は、前記の方法を少なくともひとつ用いてもよく、さらには前記とは異なる方法を少なくともひとつ用いてもよく、さらにはそれらを組み合わせてもよい。
第4の実施形態の変形例6の音声復号装置24f(図30参照)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置24fの内蔵メモリに格納された所定のコンピュータプログラム(例えば、図29のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声復号装置24fを統括的に制御する。音声復号装置24fの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置24fは、図30に示すとおり、変形例6においては、第1の実施形態と同様に第4の実施形態の全体を通して省略可能である、変形例4に記載の音声復号装置24dの信号変化検出部2e1と、高周波線形予測分析部2h1と、線形予測逆フィルタ部2i1を省略し、音声復号装置24dの時間スロット選択部3a、及び時間エンベロープ変形部2vにかえて、時間スロット選択部3a2、及び時間エンベロープ変形部2v1を備える。さらに、第4の実施形態の全体を通して処理順序を入れ替え可能である線形予測フィルタ部2k3の線形予測合成フィルタ処理と時間エンベロープ変形部2v1での時間エンベロープの変形処理の順序を入れ替える。
第4の実施形態の変形例7の音声符号化装置14b(図50)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声符号化装置14bの内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって音声符号化装置14bを統括的に制御する。音声符号化装置14bの通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。音声符号化装置14bは、変形例4の音声符号化装置14aのビットストリーム多重化部1g7、及び時間スロット選択部1pにかえて、ビットストリーム多重化部1g6、および時間スロット選択部1p1を備える。
第4の実施形態の変形例8の音声復号装置24h(図33参照)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置24hの内蔵メモリに格納された所定のコンピュータプログラム(例えば、図34のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声復号装置24hを統括的に制御する。音声復号装置24hの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置24hは、図33に示すとおり、変形例2の音声復号装置24bの低周波線形予測分析部2d、信号変化検出部2e、高周波線形予測分析部2h、線形予測逆フィルタ部2i、及び線形予測フィルタ部2kにかえて、低周波線形予測分析部2d1、信号変化検出部2e1、高周波線形予測分析部2h1、線形予測逆フィルタ部2i1、及び線形予測フィルタ部2k3を備え、時間スロット選択部3aをさらに備える。一次高周波調整部2j1は、第4の実施形態の変形例2における一次高周波調整部2j1と同様に、前記“MPEG-4 AAC”のSBRにおける”HF Adjustment“ステップにある処理のいずれか一つ以上を行う(ステップSm1の処理)。二次高周波調整部2j2は、第4の実施形態の変形例2における二次高周波調整部2j2と同様に、前記“MPEG-4 AAC”のSBRにおける”HF Adjustment“ステップにある処理のいずれか一つ以上を行う(ステップSm2の処理)。二次高周波調整部2j2で行う処理は、前記“MPEG-4 AAC”のSBRにおける”HF Adjustment“ステップにある処理のうち、一次高周波調整部2j1で行われなかった処理とすることが望ましい。
第4の実施形態の変形例9の音声復号装置24i(図35参照)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置24iの内蔵メモリに格納された所定のコンピュータプログラム(例えば、図36のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声復号装置24iを統括的に制御する。音声復号装置24iの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置24iは、図35に示すとおり、第1の実施形態と同様に第4の実施形態の全体を通して省略可能である、変形例8の音声復号装置24hの高周波線形予測分析部2h1、及び線形予測逆フィルタ部2i1を省略し、変形例8の音声復号装置24hの時間エンベロープ変形部2v、及び時間スロット選択部3aにかえて、時間エンベロープ変形部2v1、及び時間スロット選択部3a2を備える。さらに、第4の実施形態の全体を通して処理順序を入れ替え可能である線形予測フィルタ部2k3の線形予測合成フィルタ処理と時間エンベロープ変形部2v1での時間エンベロープの変形処理の順序を入れ替える。
第4の実施形態の変形例10の音声復号装置24j(図37参照)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置24jの内蔵メモリに格納された所定のコンピュータプログラム(例えば、図36のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声復号装置24jを統括的に制御する。音声復号装置24jの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置24jは、図37に示すとおり、第1の実施形態と同様に第4の実施形態の全体を通して省略可能である、変形例8の音声復号装置24hの信号変化検出部2e1、高周波線形予測分析部2h1、及び線形予測逆フィルタ部2i1を省略し、変形例8の音声復号装置24hの時間エンベロープ変形部2v、及び時間スロット選択部3aにかえて、時間エンベロープ変形部2v1、及び時間スロット選択部3a2を備える。さらに、第4の実施形態の全体を通して処理順序を入れ替え可能である線形予測フィルタ部2k3の線形予測合成フィルタ処理と時間エンベロープ変形部2v1での時間エンベロープの変形処理の順序を入れ替える。
第4の実施形態の変形例11の音声復号装置24k(図38参照)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置24kの内蔵メモリに格納された所定のコンピュータプログラム(例えば、図39のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声復号装置24kを統括的に制御する。音声復号装置24kの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置24kは、図38に示すとおり、変形例8の音声復号装置24hのビットストリーム分離部2a3、及び時間スロット選択部3aにかえて、ビットストリーム分離部2a7、及び時間スロット選択部3a1を備える。
第4の実施形態の変形例12の音声復号装置24q(図40参照)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置24qの内蔵メモリに格納された所定のコンピュータプログラム(例えば、図41のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声復号装置24qを統括的に制御する。音声復号装置24qの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置24qは、図40に示すとおり、変形例3の音声復号装置24cの低周波線形予測分析部2d、信号変化検出部2e、高周波線形予測分析部2h、線形予測逆フィルタ部2i、及び個別信号成分調整部2z1,2z2,2z3にかえて、低周波線形予測分析部2d1、信号変化検出部2e1、高周波線形予測分析部2h1、線形予測逆フィルタ部2i1、及び個別信号成分調整部2z4,2z5,2z6を備え(個別信号成分調整部は、時間エンベロープ変形手段に相当する)、時間スロット選択部3aをさらに備える。
第4の実施形態の変形例13の音声復号装置24m(図42参照)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置24mの内蔵メモリに格納された所定のコンピュータプログラム(例えば、図43のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声復号装置24mを統括的に制御する。音声復号装置24mの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置24mは、図42に示すとおり、変形例12の音声復号装置24qのビットストリーム分離部2a3、及び時間スロット選択部3aにかえて、ビットストリーム分離部2a7、及び時間スロット選択部3a1を備える。
第4の実施形態の変形例14の音声復号装置24n(不図示)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置24nの内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって音声復号装置24nを統括的に制御する。音声復号装置24nの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置24nは、機能的には、変形例1の音声復号装置24aの低周波線形予測分析部2d、信号変化検出部2e、高周波線形予測分析部2h、線形予測逆フィルタ部2i、及び線形予測フィルタ部2kにかえて、低周波線形予測分析部2d1、信号変化検出部2e1、高周波線形予測分析部2h1、線形予測逆フィルタ部2i1、及び線形予測フィルタ部2k3を備え、時間スロット選択部3aをさらに備える。
第4の実施形態の変形例15の音声復号装置24p(不図示)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置24pの内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって音声復号装置24pを統括的に制御する。音声復号装置24pの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置24pは、機能的には、変形例14の音声復号装置24nの時間スロット選択部3aにかえて、時間スロット選択部3a1を備える。さらに、ビットストリーム分離部2a4にかえて、ビットストリーム分離部2a8(不図示)を備える。
Claims (7)
- 符号化された音声信号を復号する音声復号装置であって、
前記符号化された音声信号を含む外部からのビットストリームを、符号化ビットストリームと時間エンベロープ補助情報とに分離するビットストリーム分離手段と、
前記ビットストリーム分離手段によって分離された前記符号化ビットストリームを復号して低周波成分を得るコア復号手段と、
前記コア復号手段によって得られた前記低周波成分を周波数領域に変換する周波数変換手段と、
前記周波数変換手段によって周波数領域に変換された前記低周波成分を低周波帯域から高周波帯域に複写することによって高周波成分を生成する高周波生成手段と、
前記高周波生成手段によって生成された前記高周波成分を調整して、調整された高周波成分を生成する高周波調整手段と、
前記周波数変換手段によって周波数領域に変換された前記低周波成分を分析して時間エンベロープ情報を取得する低周波時間エンベロープ分析手段であり、前記周波数変換手段によって周波数領域に変換された前記低周波成分のQMFサブバンドサンプルごとの電力を取得することによって、前記時間エンベロープ情報を取得する、該低周波時間エンベロープ分析手段と、
前記時間エンベロープ補助情報を、前記時間エンベロープ情報を調整するためのパラメータに変換する補助情報変換手段と、
前記低周波時間エンベロープ分析手段によって取得された前記時間エンベロープ情報を調整して、調整された時間エンベロープ情報を生成する時間エンベロープ調整手段であり、該時間エンベロープ情報の調整に前記パラメータを用いる、該時間エンベロープ調整手段と、
前記調整された時間エンベロープ情報を用いて、前記調整された高周波成分の時間エンベロープを変形する時間エンベロープ変形手段と、
を備える、音声復号装置。 - 符号化された音声信号を復号する音声復号装置であって、
前記符号化された音声信号を含む外部からのビットストリームを復号して低周波成分を得るコア復号手段と、
前記コア復号手段によって得られた前記低周波成分を周波数領域に変換する周波数変換手段と、
前記周波数変換手段によって周波数領域に変換された前記低周波成分を低周波帯域から高周波帯域に複写することによって高周波成分を生成する高周波生成手段と、
前記高周波生成手段によって生成された前記高周波成分を調整して、調整された高周波成分を生成する高周波調整手段と、
前記周波数変換手段によって周波数領域に変換された前記低周波成分を分析して時間エンベロープ情報を取得する低周波時間エンベロープ分析手段であり、前記周波数変換手段によって周波数領域に変換された前記低周波成分のQMFサブバンドサンプルごとの電力を取得することによって、前記時間エンベロープ情報を取得する、該低周波時間エンベロープ分析手段と、
前記ビットストリームを分析して前記時間エンベロープ情報を調整するためのパラメータを生成する時間エンベロープ補助情報生成部と、
前記低周波時間エンベロープ分析手段によって取得された前記時間エンベロープ情報を調整して、調整された時間エンベロープ情報を生成する時間エンベロープ調整手段であり、該時間エンベロープ情報の調整に前記パラメータを用いる、該時間エンベロープ調整手段と、
前記調整された時間エンベロープ情報を用いて、前記調整された高周波成分の時間エンベロープを変形する時間エンベロープ変形手段と、
を備える、音声復号装置。 - 前記低周波時間エンベロープ分析手段は、さらにSBRエンベロープ時間セグメント内での平均電力を用いて前記QMFサブバンドサンプルごとの電力を正規化することによって、前記時間エンベロープ情報を取得する、請求項1又は2に記載の音声復号装置。
- 符号化された音声信号を復号する音声復号装置を用いた音声復号方法であって、
前記音声復号装置が、前記符号化された音声信号を含む外部からのビットストリームを、符号化ビットストリームと時間エンベロープ補助情報とに分離するビットストリーム分離ステップと、
前記音声復号装置が、前記ビットストリーム分離ステップにおいて分離した前記符号化ビットストリームを復号して低周波成分を得るコア復号ステップと、
前記音声復号装置が、前記コア復号ステップにおいて得た前記低周波成分を周波数領域に変換する周波数変換ステップと、
前記音声復号装置が、前記周波数変換ステップにおいて周波数領域に変換した前記低周波成分を低周波帯域から高周波帯域に複写することによって高周波成分を生成する高周波生成ステップと、
前記音声復号装置が、前記高周波生成ステップにおいて生成した前記高周波成分を調整して、調整された高周波成分を生成する高周波調整ステップと、
前記音声復号装置が、前記周波数変換ステップにおいて周波数領域に変換した前記低周波成分を分析して時間エンベロープ情報を取得する低周波時間エンベロープ分析ステップであり、前記周波数変換ステップにおいて周波数領域に変換された前記低周波成分のQMFサブバンドサンプルごとの電力を取得することによって、前記時間エンベロープ情報を取得する、該低周波時間エンベロープ分析ステップと、
前記音声復号装置が、前記時間エンベロープ補助情報を、前記時間エンベロープ情報を調整するためのパラメータに変換する補助情報変換ステップと、
前記音声復号装置が、前記低周波時間エンベロープ分析ステップにおいて取得した前記時間エンベロープ情報を調整して、調整された時間エンベロープ情報を生成する時間エンベロープ調整ステップであり、該時間エンベロープ情報の調整に前記パラメータを用いる、該時間エンベロープ調整ステップと、
前記音声復号装置が、前記調整された時間エンベロープ情報を用いて、前記調整された高周波成分の時間エンベロープを変形する時間エンベロープ変形ステップと、
を含む音声復号方法。 - 符号化された音声信号を復号する音声復号装置を用いた音声復号方法であって、
前記音声復号装置が、前記符号化された音声信号を含む外部からのビットストリームを復号して低周波成分を得るコア復号ステップと、
前記音声復号装置が、前記コア復号ステップにおいて得た前記低周波成分を周波数領域に変換する周波数変換ステップと、
前記音声復号装置が、前記周波数変換ステップにおいて周波数領域に変換した前記低周波成分を低周波帯域から高周波帯域に複写することによって高周波成分を生成する高周波生成ステップと、
前記音声復号装置が、前記高周波生成ステップにおいて生成した前記高周波成分を調整して、調整された高周波成分を生成する高周波調整ステップと、
前記音声復号装置が、前記周波数変換ステップにおいて周波数領域に変換された前記低周波成分を分析して時間エンベロープ情報を取得する低周波時間エンベロープ分析ステップであり、前記周波数変換ステップにおいて周波数領域に変換された前記低周波成分のQMFサブバンドサンプルごとの電力を取得することによって、前記時間エンベロープ情報を取得する、該低周波時間エンベロープ分析ステップと、
前記音声復号装置が、前記ビットストリームを分析して前記時間エンベロープ情報を調整するためのパラメータを生成する時間エンベロープ補助情報生成ステップと、
前記音声復号装置が、前記低周波時間エンベロープ分析ステップにおいて取得した前記時間エンベロープ情報を調整して、調整された時間エンベロープ情報を生成する時間エンベロープ調整ステップであり、該時間エンベロープ情報の調整に前記パラメータを用いる、該時間エンベロープ調整ステップと、
前記音声復号装置が、前記調整された時間エンベロープ情報を用いて、前記調整された高周波成分の時間エンベロープを変形する時間エンベロープ変形ステップと、
を含む音声復号方法。 - 符号化された音声信号を復号するために、コンピュータ装置を、
前記符号化された音声信号を含む外部からのビットストリームを、符号化ビットストリームと時間エンベロープ補助情報とに分離するビットストリーム分離手段と、
前記ビットストリーム分離手段によって分離された前記符号化ビットストリームを復号して低周波成分を得るコア復号手段と、
前記コア復号手段によって得られた前記低周波成分を周波数領域に変換する周波数変換手段と、
前記周波数変換手段によって周波数領域に変換された前記低周波成分を低周波帯域から高周波帯域に複写することによって高周波成分を生成する高周波生成手段と、
前記高周波生成手段によって生成された前記高周波成分を調整して、調整された高周波成分を生成する高周波調整手段と、
前記周波数変換手段によって周波数領域に変換された前記低周波成分を分析して時間エンベロープ情報を取得する低周波時間エンベロープ分析手段であり、前記周波数変換手段によって周波数領域に変換された前記低周波成分のQMFサブバンドサンプルごとの電力を取得することによって、前記時間エンベロープ情報を取得する、該低周波時間エンベロープ分析手段と、
前記時間エンベロープ補助情報を、前記時間エンベロープ情報を調整するためのパラメータに変換する補助情報変換手段と、
前記低周波時間エンベロープ分析手段によって取得された前記時間エンベロープ情報を調整して、調整された時間エンベロープ情報を生成する時間エンベロープ調整手段であり、該時間エンベロープ情報の調整に前記パラメータを用いる、該時間エンベロープ調整手段と、
前記調整された時間エンベロープ情報を用いて、前記調整された高周波成分の時間エンベロープを変形する時間エンベロープ変形手段と、
として機能させる音声復号プログラム。 - 符号化された音声信号を復号するために、コンピュータ装置を、
前記符号化された音声信号を含む外部からのビットストリームを復号して低周波成分を得るコア復号手段と、
前記コア復号手段によって得られた前記低周波成分を周波数領域に変換する周波数変換手段と、
前記周波数変換手段によって周波数領域に変換された前記低周波成分を低周波帯域から高周波帯域に複写することによって高周波成分を生成する高周波生成手段と、
前記高周波生成手段によって生成された前記高周波成分を調整して、調整された高周波成分を生成する高周波調整手段と、
前記周波数変換手段によって周波数領域に変換された前記低周波成分を分析して時間エンベロープ情報を取得する低周波時間エンベロープ分析手段であり、前記周波数変換手段によって周波数領域に変換された前記低周波成分のQMFサブバンドサンプルごとの電力を取得することによって、前記時間エンベロープ情報を取得する、該低周波時間エンベロープ分析手段と、
前記ビットストリームを分析して前記時間エンベロープ情報を調整するためのパラメータを生成する時間エンベロープ補助情報生成部と、
前記低周波時間エンベロープ分析手段によって取得された前記時間エンベロープ情報を調整して、調整された時間エンベロープ情報を生成する時間エンベロープ調整手段であり、該時間エンベロープ情報の調整に前記パラメータを用いる、該時間エンベロープ調整手段と、
前記調整された時間エンベロープ情報を用いて、前記調整された高周波成分の時間エンベロープを変形する時間エンベロープ変形手段と、
として機能させる音声復号プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013146360A JP5588547B2 (ja) | 2009-04-03 | 2013-07-12 | 音声復号装置、音声復号方法、及び音声復号プログラム |
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009091396 | 2009-04-03 | ||
JP2009091396 | 2009-04-03 | ||
JP2009146831 | 2009-06-19 | ||
JP2009146831 | 2009-06-19 | ||
JP2009162238 | 2009-07-08 | ||
JP2009162238 | 2009-07-08 | ||
JP2013146360A JP5588547B2 (ja) | 2009-04-03 | 2013-07-12 | 音声復号装置、音声復号方法、及び音声復号プログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012030289A Division JP5320475B2 (ja) | 2009-04-03 | 2012-02-15 | 音声復号装置、音声復号方法、及び音声復号プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013225152A JP2013225152A (ja) | 2013-10-31 |
JP5588547B2 true JP5588547B2 (ja) | 2014-09-10 |
Family
ID=45906784
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011271559A Active JP4921611B2 (ja) | 2009-04-03 | 2011-12-12 | 音声復号装置、音声復号方法、及び音声復号プログラム |
JP2012030289A Active JP5320475B2 (ja) | 2009-04-03 | 2012-02-15 | 音声復号装置、音声復号方法、及び音声復号プログラム |
JP2013146360A Active JP5588547B2 (ja) | 2009-04-03 | 2013-07-12 | 音声復号装置、音声復号方法、及び音声復号プログラム |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011271559A Active JP4921611B2 (ja) | 2009-04-03 | 2011-12-12 | 音声復号装置、音声復号方法、及び音声復号プログラム |
JP2012030289A Active JP5320475B2 (ja) | 2009-04-03 | 2012-02-15 | 音声復号装置、音声復号方法、及び音声復号プログラム |
Country Status (1)
Country | Link |
---|---|
JP (3) | JP4921611B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6200034B2 (ja) * | 2012-04-27 | 2017-09-20 | 株式会社Nttドコモ | 音声復号装置 |
JP5997592B2 (ja) | 2012-04-27 | 2016-09-28 | 株式会社Nttドコモ | 音声復号装置 |
JP6035270B2 (ja) | 2014-03-24 | 2016-11-30 | 株式会社Nttドコモ | 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム |
JP6511033B2 (ja) * | 2016-10-31 | 2019-05-08 | 株式会社Nttドコモ | 音声符号化装置および音声符号化方法 |
EP3382701A1 (en) * | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for post-processing an audio signal using prediction based shaping |
CN113707156B (zh) * | 2021-08-06 | 2024-04-05 | 武汉科技大学 | 一种用于车载的语音识别方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE512719C2 (sv) * | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
US20030187663A1 (en) * | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
JP5129117B2 (ja) * | 2005-04-01 | 2013-01-23 | クゥアルコム・インコーポレイテッド | 音声信号の高帯域部分を符号化及び復号する方法及び装置 |
CN101138274B (zh) * | 2005-04-15 | 2011-07-06 | 杜比国际公司 | 用于处理去相干信号或组合信号的设备和方法 |
DE102005032724B4 (de) * | 2005-07-13 | 2009-10-08 | Siemens Ag | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen |
DE102006049154B4 (de) * | 2006-10-18 | 2009-07-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Kodierung eines Informationssignals |
-
2011
- 2011-12-12 JP JP2011271559A patent/JP4921611B2/ja active Active
-
2012
- 2012-02-15 JP JP2012030289A patent/JP5320475B2/ja active Active
-
2013
- 2013-07-12 JP JP2013146360A patent/JP5588547B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP4921611B2 (ja) | 2012-04-25 |
JP5320475B2 (ja) | 2013-10-23 |
JP2013225152A (ja) | 2013-10-31 |
JP2012093794A (ja) | 2012-05-17 |
JP2012053493A (ja) | 2012-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4932917B2 (ja) | 音声復号装置、音声復号方法、及び音声復号プログラム | |
JP5588547B2 (ja) | 音声復号装置、音声復号方法、及び音声復号プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140701 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140725 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5588547 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |