JP2003216189A - 符号化装置及び復号装置 - Google Patents
符号化装置及び復号装置Info
- Publication number
- JP2003216189A JP2003216189A JP2002306411A JP2002306411A JP2003216189A JP 2003216189 A JP2003216189 A JP 2003216189A JP 2002306411 A JP2002306411 A JP 2002306411A JP 2002306411 A JP2002306411 A JP 2002306411A JP 2003216189 A JP2003216189 A JP 2003216189A
- Authority
- JP
- Japan
- Prior art keywords
- data
- variable number
- input
- fixed number
- variable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
演算量を大幅に減らしながらも、データ個数変換ができ
る。 【解決手段】 入力されたブロック毎に可変個数のデー
タを、非線形圧縮部12で非線形圧縮し、スペクトルエ
ンベロープ拡張部14でそのスペクトルエンベロープの
両端を拡張し、FIRフィルタ15でFIRフィルタリ
ング(演算)し、直線補間16で直線補間し、一定個数
のサンプルデータに変換する。
Description
置に関し、特に、音声合成分析装置(ボコーダ)等にお
いて算出されたスペクトルの振幅データのような可変個
数のデータを一定個数のデータに変換するようなデータ
数変換を伴う符号化装置及び復号装置に関する。
含む)の時間領域や周波数領域における統計的性質と人
間の聴感上の特性を利用して信号圧縮を行うような符号
化方法が種々知られている。この符号化方法としては、
大別して時間領域での符号化、周波数領域での符号化、
分析合成符号化等が挙げられる。
BE(Multiband Excitation: マルチバンド励起)符号
化、SBE(Singleband Excitation:シングルバンド励
起)符号化、ハーモニック(Harmonic)符号化、SBC
(Sub-band Coding:帯域分割符号化)、LPC(Linear
Predictive Coding: 線形予測符号化)、あるいはDC
T(離散コサイン変換)、MDCT(モデファイドDC
T)、FFT(高速フーリエ変換)等において、スペク
トル振幅やそのパラメータ(LSPパラメータ、αパラ
メータ、kパラメータ等)のような各種情報データを量
子化する場合に、従来においてはスカラ量子化を行うこ
とが多い。
トを例えば3〜4kbps 程度にまで低減し、量子化効率
を更に向上させようとすると、スカラ量子化では量子化
雑音(歪み)が大きくなってしまい、実用化が困難であ
った。そこで、これらの符号化の際に得られる時間軸デ
ータや周波数軸データやフィルタ係数データ等を個々に
量子化せず、複数個のデータを組(ベクトル)にまとめ
て一つの符号で表現して量子化するベクトル量子化が注
目されている。
C等のスペクトル振幅データ等は、ピッチに依存して個
数が変化するため、そのままベクトル量子化しようとす
ると可変次元のベクトル量子化が必要となり、構成が複
雑化するのみならず、良好な特性を得ることが困難であ
る。
レーム)間差分をとるような場合にも、前後のブロック
(フレーム)内のデータの個数が一致していないと、差
分をとることができない。このように、可変個数のデー
タを一定個数に変換することがデータ処理の過程で必要
とされることがあるが、特性の良好なデータ数変換が望
まれる。
3号特許出願の明細書及び図面において、可変個数のデ
ータを一定個数に変換することができ、端点でリンキン
グ等の発生しない特性の良好なデータ数変換が行えるよ
うなデータ数変換方法を提案した。この方法は、ブロッ
ク毎に可変個数のデータを非線形圧縮部で非線形圧縮
し、ダミーデータ付加部でブロック内の最後のデータ値
から最初のデータ値までの補間をするようなダミーデー
タを付加してデータ個数を拡大した後、高速フーリエ変
換(FFT)処理部、逆高速フーリエ変換(IFFT)
処理部等を有した帯域制限型のオーバーサンプリング部
でオーバーサンプルし、直線補間部で直線補間し、間引
き処理部で間引くことにより一定個数のサンプルデータ
に変換するものである。
FTをする際に、1ブロックを例えば256サンプルに
延長して計算している。次に、例えば8倍のオーバーサ
ンプリングを実現するために、FFT変換により得られ
た256サンプルのスペクトルデータに対し、各サンプ
ルの中間に7(=8−1)個の0を詰めるような中間0
詰め処理を行って2048サンプルとし、この2048
サンプルに対してIFFTの計算を行っている。
1ブロックのサンプル数をNとするとき、(N/2×lo
g2N)の複素乗算と、(Nlog2N)の複素加算が行わ
れている。ここで、(N/2log2N)の複素乗算は、
(N/2×log2N×4)の実数乗算となり、(Nlog2
N)の複素加算は、(Nlog2N×2)の実数加算とな
る。したがって、Nを256としたときのFFTの演算
量は、4096回(=256/2×8×4)となり、N
=2048としたときのIFFTの演算量は、4505
6回(=2048/2×11×4)となり、その合計は
49152回となる。
FTで、N点FFTが実現できる、いわゆる高速化の手
法を用いたとしても、N/4(log2N−1)×4+N
×4の実数乗算と、N/2(log2N−1)×2+N×
2の実数加算が必要となる。すなわち、N=256とし
たときのFFTでは、乗算が2816回、加算が230
4回行われる。また、N=2048としたときのIFF
Tでは、乗算が28672回、加算が24576回行わ
れる。したがって、乗算だけでも31488回の演算が
必要となる。
ロック(フレーム)内で可変個数(8〜63個)のサン
プルデータを一定個数(44個)のサンプルデータに変
換するデータ数(サンプルレート)変換を想定している
が、デコードの場合も同様な方法でブロック(フレー
ム)内の一定個数(44個)のサンプルデータを可変個
数(8〜63個)のサンプルデータ変換しているもので
ある。
コードの際には2048点でIFFTした内の約44点
程であり、また、デコードの際を考慮しても、最終的に
得たいサンプル数は最大でも63個程度であり、このよ
うな間引かれた演算を行うという性質が生かされていな
かった。
たものであり、演算量を低減しながらも、エンコードの
際には可変個数のデータを一定個数に変換することがで
き、またデコードの際には一定個数のデータを可変個数
のデータに変換することができるようなデータ数変換を
用いた符号化装置及び復号装置の提供を目的とする。
は、入力オーディオ信号をブロックに分割して、ブロッ
ク内の可変個数の波形データ又は波形を表すパラメータ
データを抽出し、上記抽出された可変個数のデータをブ
ロック毎に一定の個数の基準データと比較するために上
記可変個数のデータを上記一定個数に変換して符号化す
る符号化装置であって、上記可変個数のデータが入力さ
れる帯域制限型オーバーサンプリングのためのFIRフ
ィルタで、上記入力データのサンプル点に対してそれぞ
れ異なる複数の位相と対応した複数の係数セットの内の
上記一定個数のデータの各位置に対応する係数セットを
用いることにより、出力として必要な上記一定個数のデ
ータを求める手段を有することを特徴として上記課題を
解決する。
オーディオ信号をブロックに分割して、ブロック内の可
変個数の波形データ又は波形を表すパラメータデータを
抽出し、上記抽出された可変個数のデータをブロック毎
に一定の個数の基準データと比較するために上記可変個
数のデータを上記一定個数のデータに変換して符号化す
る符号化装置であって、上記可変個数のデータが入力さ
れる帯域制限型オーバーサンプリングのためのFIRフ
ィルタで、上記入力データのサンプル点に対してそれぞ
れ異なる複数の位相と対応した複数の係数セットの内の
上記一定個数のデータの各位置の近傍の位置に対応する
係数セットを用いることにより、中間的な出力データを
求める手段と、上記中間的な出力データを補間して必要
とされる一定個数のデータを求める手段とを有すること
を特徴として上記課題を解決する。
ディオ信号をブロックに分割して、ブロック内の可変個
数の波形データ又は波形を表すパラメータデータを抽出
し、上記抽出された可変個数のデータをブロック毎に一
定の個数の基準データと比較するために上記可変個数の
データを上記一定個数のデータに変換することにより符
号化された符号列を受け取り、上記符号列から上記一定
個数のデータを復号化し、上記復号化された一定個数の
データから可変個数のデータに逆変換する復号装置であ
って、上記一定個数のデータが入力される帯域制限型オ
ーバーサンプリングのためのFIRフィルタで、上記入
力データのサンプル点に対してそれぞれ異なる複数の位
相と対応した複数の係数セットの内の上記可変個数のデ
ータの各位置に対応する係数セットを用いることによ
り、出力として必要な上記可変個数のデータを求める手
段を有することを特徴として上記課題を解決する。
ーディオ信号をブロックに分割して、ブロック内の可変
個数の波形データ又は波形を表すパラメータデータを抽
出し、上記抽出された可変個数のデータをブロック毎に
一定の個数の基準データと比較するために上記可変個数
のデータを上記一定個数のデータに変換することにより
符号化された符号列を受け取り、上記符号列から上記一
定個数のデータを復号化し、上記復号化された一定個数
のデータから可変個数のデータに逆変換する復号装置で
あって、上記一定個数のデータが入力される帯域制限型
オーバーサンプリングのためのFIRフィルタで、上記
入力データのサンプル点に対してそれぞれ異なる複数の
位相と対応した複数の係数セットの内の上記可変個数の
データの各位置の近傍の位置に対応する係数セットを用
いることにより、中間的な出力データを求める手段と、
上記中間的な出力データを補間して必要とされる可変個
数のデータを求める手段とを有することを特徴として上
記課題を解決する。
の実施例について、図面を参照しながら説明する。
装置に用いられるデータ数変換の概略構成を示してい
る。この第1の実施例は後述するMBEボコーダに適用
される。すなわち、MBEボコーダにより算出されたス
ペクトルエンベロープの個数が可変とされた振幅データ
を一定個数に変換する方法である。
るMBEボコーダにより算出されたスペクトルエンベロ
ープの振幅データ等が供給されている。この振幅データ
は、例えば図2のAに示すようなスペクトルを有する音
声信号を分析して、ピッチ周波数(角周波数)ωを求
め、このピッチ周波数ωに応じたスペクトルの周期性を
考慮して、各高調波(ハーモニクス)位置での振幅か
ら、図2のBに示すようなスペクトル包絡(エンベロー
プ)を表す振幅データとして求められる。この振幅デー
タの個数は一定の有効帯域(例えば200〜3400H
z)内でピッチ周波数ωに依存して変化する。そこで、
図2のCに示すように一定の固定周波数(角周波数)ω
c の各高調波位置での上記スペクトル包絡の振幅デー
タを求めることで、データ個数を一定にできる。
M個(例えばM=8〜63である)の入力データを、非
線形圧縮部12にて例えばdB領域に圧縮(対数圧縮)
した後、データ個数変換本体部13にて一定個数のデー
タに変換している。データ個数変換本体部13は、スペ
クトルエンベロープ拡張部14、帯域制限型FIRフィ
ルタ15及び直線補間部16から成っている。
データは、非線形圧縮部12で非線形圧縮され、スペク
トルエンベロープ拡張部14でスペクトルエンベロープ
の両端の値を繰り返して前後に延長される。この両端が
前後に延長されたスペクトルエンベロープは、FIRフ
ィルタ15に供給される。このFIRフィルタ15は入
力データのサンプル点に対してそれぞれ異なる複数の位
相と対応した複数の係数セットの内の上記一定個数のデ
ータの各位置の近傍の位置に対応する係数セットを用い
ることにより、中間的な出力データを求める。この中間
的な出力データは、直線補間部16に供給され、直線補
間されて最終出力に必要とされる一定個数のデータとな
り、出力端子17から出力される。
算出されるM個(mMX+1個)の振幅データ列をa
〔m〕とする。mは上記高調波(ハーモニックス)の次
数あるいはバンド番号であり、mMXが最大値である
が、m=0のバンドの振幅データも含めて、全バンドの
振幅データの個数はmMX+1個となる。この振幅デー
タa〔m〕を、非線形圧縮部12にて例えばdB領域に
変換する。すなわち得られたデータをadB〔m〕とす
るとき、 adB〔m〕=20 log10a〔m〕 ・・・(1) である。この対数変換された振幅データadB〔m〕の
個数mMX+1は、上述したようにピッチに依存して変
化するため、一定個数の振幅データb〔m〕に変換す
る。これは一種のサンプリングレート(サンプルレー
ト)変換である。なお、非線形圧縮部12での圧縮処理
は、dB領域への対数圧縮の他に、例えばいわゆるμ-l
awやα-lawのような疑似対数圧縮処理を施してもよい。
このように、振幅を圧縮することにより、能率的な符号
化が実現される。
声信号に対するサンプリング周波数fs は、通常8kHz
で、全帯域幅は3.4kHz(ただし有効帯域は200〜
3400Hz)であり、女声の高い方から男声の低い方ま
でのピッチラグ(ピッチ周期に相当するサンプル数)
は、20〜147程度である。従って、ピッチ(角)周
波数ωは、8000/147≒54(Hz)から 8000/20=400
(Hz)程度までの間で変動することになる。従って、周
波数軸上で上記3.4kHzまでの間に約8〜63本のピ
ッチパルス(ハーモニックス)が立つことになる。すな
わち、周波数軸上のdB領域の波形として、8サンプル
乃至63サンプルから成るmMX+1個のデータを、一
定のサンプル数、例えば44サンプルに、サンプル数変
換を行うわけである。これが、図2のCに示すように、
一定のピッチ周波数(角周波数)ω C 毎のハーモニッ
クスの位置のサンプルを求めることに相当する。
は、上述したように非線形圧縮部12で非線形圧縮さ
れ、adB〔m〕の配列で表せるmMX+1個のスペク
トルエンベロープの両端の値を前後に延長する。これは
スペクトルエンベロープの端点におけるリンギングの発
生を防ぐために行われる。このようにしてできた数列を
a JdB 〔m〕とすると、このaJdB 〔m〕は−
(f0 −1)/2≦m<M+(f0 −1)/2の範
囲で、
使用するFIRフィルタの(オーバーサンプリング後の
サンプリングレートでみた)次数F0 例えば65と、
F0=OS ×(f0 −1)+1という関係にある定
数である。また、f0 −1は、このスペクトルエンベ
ロープ拡張を一種のオーバーサンプリングと考えたと
き、オーバーサンプリングする前のサンプリングレート
でみたときのフィルタ次数であり、F0 は、オーバー
サンプリング後のサンプリングレートでみたときのフィ
ルタの次数である。また、OS は、オーバーサンプリ
ングの比率(レシオ) である。図3はこのaJdB
〔m〕を示す図である。すなわち、このaJ dB
〔m〕は、0≦m<Mの区間に示される元の波形adB
〔m〕の左端F0をadB
1)まで延長し、右端部を最後のデータであるa
dB〔M−1〕のままM+(f0 −1)/2まで延長
している。
は、例えば(OS −1)個のデータを0詰めしたもの
にF0 次のフィルタを通したものとしてもよいが、0
データに対する積和は無視してよい。そのため、帯域制
限型のオーバーサンプリングは、8つの位相の係数セッ
ト(P=0・・・7)の各セット毎に(f0 −1)個
の係数からなり、もとのF0 個の係数をオーバーサン
プリングするフィルタ処理とみることができる。
を8とした場合のFIRフィルタ15の位相の係数を示
す図である。図4のAは、−4πから4πまでの位相の
変化範囲でF0 個(65個)の係数の大きさを振幅値
として示している。位相変化が0πのとき係数値は1で
あるが、位相変化が±4π、±3π、±2π、±πのと
きは0である。また、この図4のAは0πの振幅を軸に
左右対称となっている。図4のBは、P=0・・・7の
各位相の係数セットの持つ係数値が図4のAのどこにあ
たるかを示している。なお、この係数値は、周知の方法
によって導出できる。
タのサンプル点に対してそれぞれ異なる複数の位相と対
応した複数の係数セットの内の上記一定個数のデータの
各位置に対応する係数セットを用いることにより、出力
として必要なデータそのもの、あるいは必要とされるデ
ータの近傍のデータを求めることにより、演算自体を間
引いて演算量を減らすものである。
0・・・7)を用いてaJdB 〔m〕をフィルタリン
グし、出力として必要とされる一定個数のデータb
〔m〕の内の任意の1個を得るための演算を説明するた
めの図である。
dB〔m〕からb〔m〕を得るには、上記スペクトルエ
ンベロープ拡張部14でadB〔m〕の両端を延長して
図3に示したようなaJdB 〔m〕を先ず得る。iは
可変数M個のデータのインデックスである。
b〔m〕を求めようとする場合を以下に述べる。
セットはP=2の係数セットである。このP=2の係数
セットは図5のBに示すような各係数値を持っている。
この各係数値をp20、p21、p22、p23、p
24、p25、p27とする。すると、b点のb〔m〕
は、インデックスi=0のデータと係数値p20の乗算
値と、インデックスi=1のデータと係数値p21の乗
算値と、インデックスi=2のデータと係数値p22の
乗算値と、インデックスi=3のデータと係数値p23
の乗算値と、インデックスi=4のデータと係数値p
24の乗算値と、インデックスi=5のデータと係数値
p25の乗算値と、インデックスi=6のデータと係数
値p26の乗算値と、インデックスi=7のデータと係
数値p27の乗算値との合計8個の乗算値の和として表
せる。
囲でcoef〔k〕とすると0≦m<M・OS の範囲での
b〔m〕は、次の(3)式で示される。
〔m〕は、OS =8であれば、b〔3×8+2〕であ
り、b〔26〕となり、b〔26〕のサンプルデータの
振幅値を求めることになる。
上記(3)式は、
幅をそのまま求めることになる。
は、
〔i−2〕、aJdB 〔i−1〕、aJdB 〔i
−0〕、aJdB 〔i+1〕、aJdB 〔i+
2〕、aJ dB 〔i+3〕、aJdB 〔i+4〕の
8個のデータに対し、coef〔8−P〕、coef〔16−
P〕、coef〔24−P〕、coef〔32−P〕、coef〔40−
P〕、coef〔48−P〕、coef〔56−P〕、coef〔64−
P〕の8個の係数が各々乗算され、その8個の乗算値が
全て加算されてb〔m〕が得られることが分かる。
〔m〕の例では、i=3、P=2であるので、aJdB
の8個のデータに対し、coef〔6〕、coef〔14〕、・・
・coef〔62〕の8個の係数が各々乗算され、その8個の
乗算値が全て加算されてb〔26〕が得られる。
を求める場合は、上記スペクトルエンベロープ拡張部1
4で得たデータaJdB 〔−3〕、aJdB 〔−
2〕、aJdB 〔−1〕の計3個のデータにそれぞれ
coef〔5〕、coef〔11〕、coef〔22〕の計3個の係数を
乗算した3個の乗算値と、aJdB
〔1〕、aJdB 〔2〕、aJdB 〔3〕、a
JdB 〔4〕の計5個のデータにそれぞれcoef〔2
9〕、coef〔37〕、coef〔45〕、coef〔53〕、coef〔6
1〕の5個の係数を乗算した5個の乗算値とからなる計
8個の乗算値が加算されてb〔3〕が得られる。
1)/2〕の〔 〕内がimin−(f0 −1)/2
=1−(f0 −1)/2、imax +(f0 −
1)/2=mMX+(f0 −1)/2に関しては、ス
ペクトルエンベロープ拡張部14により、データが拡張
されているので問題はない。ここで、b〔m〕の一点を
求めるのに必要な積は(f0 −1)回である。
ば8倍の)オーバーサンプル点のいずれかの位置に上記
最終的に必要とされる一定個数(例えば44個)のデー
タの位置が一致するものとして説明したが、現実には、
このような一致を得るためにはオーバーサンプルの比率
(倍数)を極めて高くとることが必要とされ、フィルタ
係数の個数が膨大なものとなることより、最終的には必
要とされるデータの位置の近傍(例えば前後の2点)の
オーバーサンプル点のデータを中間的な出力として上記
フィルタリング演算により求め、この中間的な出力を補
間処理することで、上記最終的に必要とされるデータを
求めることが好ましい。
FIR出力は、直線補間部16に供給される。この直線
補間部16は、上記FIRフィルタ15からの少なくと
も2つのFIR出力を直線補間し、必要な出力点を得
る。例えば、図6において点A 0 を直線補間で求める
には、その点A0 を挟む2点A−1、A1 がFIR
フィルタで算出されていればよい。したがって、データ
個数変換本体部13で求められる最終的なエンコーダで
の出力点の個数を44点とすれば、44×2(=88)
点が上記FIRフィルタ15で算出されればよい。
A−1、A1 のb〔m〕を求める処理について図7の
フローチャートを用いて説明する。
S (サンプリングレシオ)で割ったω0fと、出力側
の角周波数ω0 を求める。第1の実施例では、OS
(例えば8)倍のサンプリングを行っているので、スペ
クトルは、入力の角周波数の1/OS のインターバル
で立っている。そのため、OS で割った値ω0fを出
す。0〜πまでを例えば1024のグリッドで表現する
と、このω0fは、1024/M×1/OS となる。 ま
た、欲しい点(出力側)の角周波数はω0 であり、こ
のω0 が1024/M' となる。ここで、M' は、出力側
のハーモニクスの数である。ステップS2では、入力側
ハーモニクスのインデックスi及び出力側ハーモニクス
のインデックスiiを初期化する。
期化する。
インデックスiと係数セットPとにより求めたいデータ
の位置A0 を検索(スキャン)する。すなわち、求め
たいデータの位置A0 (=ω0 ×ii)を、iとPに
よるスキャンの位置A1 (=i×OS +P+1)が
越えたか否かを判定する。例えば、始めは上記ステップ
S2、S3でiとPが初期化されているのでi=0、P
=0として検索する。ここで、YESを判定するとステ
ップS5に進み、NOを判定するとステップS7に進
む。
A0 (=ω0 ×ii)を越えたiとPによるスキャン
の位置A1 (=i×OS +P+1)でのb〔m〕、
すなわち、b〔i×OS +P+1〕とその一つ前(A
−1)のb〔i×OS +P〕とを求める。このb〔i
×OS +P+1〕とb〔i×OS +P〕とは上記求
めたいデータの位置A0 (=ω0 ×ii)を挟み込む
ような位置(A1 とA−1の間)でのb〔m〕とな
る。
位置を移動するため、出力側ハーモニクスのインデック
スiiをインクリメントする。
するために係数セットPをインクリメントする。このと
きiは0のままである。すなわち、i=0のまま、Pを
0から1に変える。
の値と一致したか否かを判定する。Pは0・・・7まで
の8個であり、OS も8としている。ここで、YES
を判定するとステップS9に進み、NOを判定するとス
テップS4に進む。
インデックスiをインクリメントする。そして、ステッ
プS10に進む。
データと数(M個)と等しくなったか否かを判定する。
ここでYESを判定するとこのフローは終了となり、N
Oを判定するとステップS3に戻る。
S (ここではOS =8)倍でオーバーサンプリング
ピッチ(角周波数)ω0fのインターバルで周波数をイ
ンクリメントしてゆき出力として欲しい点を越えたとこ
ろでのb〔m〕とその一つ手前のb〔m〕とを求めてい
る。このようにすれば、出力点を直線補間で求めるのに
必要な左右の点が全て算出されることになる。
処理によって求められた、出力として欲しい点を越えた
ところでのb〔m〕とその一つ手前のb〔m〕を直線補
間部16により直線する処理を図8のフローチャートを
用いて説明する。
と、入力角周波数ω0fとを求める。これは、上記図7
に示したステップS1と同様である。
側のハーモニクスの8倍のインデックスiでインクリメ
ントされるのでこのiを初期化する。
か否かを判別する。ここでYESを判別するとステップ
S24に進み、NOを判別するとステップS25に進
む。
6に示すようにある一つの区間に着目して、その幅をb
w とし、上限をub 、下限をlb としている。こ
の上限ub は、inint (i+1)×ω0fとなり、下
限lb は、inint i×ω0 fとなる。ここで、inint
はinint (x)とするとき、xに最も近い数を返す関数
である。また、上記下限lb は、一回前の上限ub
となる。したがって、bw は、上限ub と下限lb
との差になる。
とし、ステップS26に進む。
限ub とを一致させる。
ub をinint (i+1)×ω0fと設定する。
b との差であるbw を求める。そして、このbw
の間をスキャンして、直線補間値c〔ii〕を求める。
とするc〔ii〕と下限lb との差idxを0に設定す
る。すなわち、idx=0の位置(下限lb と一致)
からスキャンを開始するスキャン開始位置を設定する。
lb からスキャンjを開始する。
うとするc〔ii〕の位置と一致したか否かを判別する。
ここで、YESを判別するとステップS31に進み、N
Oを判別するとステップS32に進む。
重み付けを考慮したc〔ii〕を求める。ここで、例え
ば、idxが0のときは、c〔ii〕=b〔i〕となり、
idxがbw のときは、c〔ii〕=b〔i+1〕とな
る。ステップS32では、idxをインクリメントす
る。そして、ステップS33では、出力ハーモニクスの
インデックスiiが出力ハーモニクスの数M' より大きく
なったか否かを判別する。ここで、YESを判別する
と、このフローは終了となり、NOを判別するとステッ
プS34に進む。
しを始める。
b まで到達したか否かを判別する。ここで、YESを
判別するとステップS36に進み、NOを判別するとス
テップS30に戻る。
スiをインクリメントする。
スMとOS との積よりも大きくなったか否かを判別す
る。ここで、YESを判別するとこのフローは終了とな
るが、NOを判別するとステップS23に戻る。
上記図7のフローチャートの処理で求めたb〔m〕を直
線補間部16により直線補間するだけで、必要な点だけ
を求められる。
を求めることによって、個数が可変とされたデータを一
定個数にすることができる。そのため、演算量が減少す
る。
に変換した数列に必要に応じてブロック間、あるいはフ
レーム間で差分をとり、ベクトル量子化を施して、その
インデックスを伝送するようにすればよい。
により算出されたスペクトルエンベロープの個数が可変
とされた振幅データを一定個数に変換する方法であった
が、以下、第2の実施例として、一定個数にされたデー
タをデータ内容に応じた個数のデータに変換するデータ
個数変換方法を説明する。この第2の実施例は例えば音
声信号を合成するデコーダ側に適用される。すなわち、
デコーダ側では、上記インデックスより、ベクトル量子
化及び逆量子化された数列の一定個数とされた波形デー
タを得て、そのデータ列を、同様の方法で、すなわち帯
域制限オーバーサンプリング、直線補間等を施すことに
より、データの内容に応じた個数のM個の数列に変換す
る。
る。
れた入力データは入力端子21を介してデータ個数変換
本体部22に供給され、このデータ個数変換本体部22
で可変個数のデータとされて出力端子26から出力され
る。このデータ個数変換本体部22は、スペクトルエン
ベロープ拡張部23、帯域制限型FIRフィルタ24及
び直線補間部25から成っている。
ータは、スペクトルエンベロープ拡張部23でスペクト
ルエンベロープの両端の値を延長される。この両端が前
後に延長されたスペクトルエンベロープは、FIRフィ
ルタ24に供給される。このFIRフィルタ24はスペ
クトルエンベロープが延長されることによりデータ個数
が拡大されたデータのサンプル点に対しそれぞれ異なる
複数の位相と対応した複数の係数セットの内の一定個数
のデータの各位置の近傍の位置に対応する係数セットを
用いることにより、中間的な出力データを求める。そし
て、この中間的な出力データは直線補間部25に供給さ
れる。この直線補間部25は上記中間的な出力データを
直線補間し、出力端子26から間引きされ、データ内容
に応じた可変個数のデータを出力する。
ることによって、個数が一定とされたデータをデータ内
容に応じた個数に変換することができる。そのため、演
算量が減少される。
は、求めるデータの個数を44個とすれば、その2倍の
88個のデータに対し、8回の乗算が施されることにな
り、1024回の乗算となる。これは、上述した高速化
手法を用いたFFT、IFFTの乗算の回数の合計31
488回の1/45となる。また、第2の実施例による
乗算の回数は、求めるデータの個数を60個とすれば、
その2倍の120個のデータに対し、8回の乗算がほど
こされることになる。これは、上述した高速化手法を用
いたFFT、IFFTの乗算の回数の合計31488回
の1/30となる。
適用可能な、音声信号の合成分析符号化装置(いわゆる
ボコーダ)の一種のMBE(Multiband Excitation: マ
ルチバンド励起)ボコーダの具体例について、図面を参
照しながら説明する。
riffin and J.S. Lim, “MultibandExcitation Vocode
r," IEEE Trans.Acoustics,Speech,and Signal Process
ing,vol.36, No.8, pp.1223-1235, Aug. 1988 に開示さ
れているものであり、従来のPARCOR(PARtial au
to-CORrelation: 偏自己相関)ボコーダ等では、音声の
モデル化の際に有声音区間と無声音区間とをブロックあ
るいはフレーム毎に切り換えていたのに対し、MBEボ
コーダでは、同時刻(同じブロックあるいはフレーム
内)の周波数軸領域に有声音(Voiced)区間と無声音
(Unvoiced)区間とが存在するという仮定でモデル化し
ている。
適用した実施例の全体の概略構成を示すブロック図であ
る。
音声信号が供給されるようになっており、この入力音声
信号は、HPF(ハイパスフィルタ)等のフィルタ10
2に送られて、いわゆるDC(直流)オフセット分の除
去や帯域制限(例えば200〜3400Hzに制限)のた
めの少なくとも低域成分(200Hz以下)の除去が行わ
れる。このフィルタ102を介して得られた信号は、ピ
ッチ抽出部103及び窓かけ処理部104にそれぞれ送
られる。ピッチ抽出部103では、入力音声信号データ
が所定サンプル数N(例えばN=256)単位でブロッ
ク分割され(あるいは方形窓による切り出しが行わ
れ)、このブロック内の音声信号についてのピッチ抽出
が行われる。このような切り出しブロック(256サン
プル)を、例えば図11のAに示すようにLサンプル
(例えばL=160)のフレーム間隔で時間軸方向に移
動させており、各ブロック間のオーバラップはN−Lサ
ンプル(例えば96サンプル)となっている。また、窓
かけ処理部104では、1ブロックNサンプルに対して
所定の窓関数、例えばハミング窓をかけ、この窓かけブ
ロックを1フレームLサンプルの間隔で時間軸方向に順
次移動させている。
qはデータの時間インデックス(サンプル番号)を表
し、処理前の入力信号のq番目のデータx(q) に対して
第kブロックの窓(ウィンドウ)関数w(kL-q)により窓
かけ処理されることによりデータxw (k,q) が得られ
ることを示している。ピッチ抽出部103内での図11
のAに示すような方形窓の場合の窓関数wr (r) は、 wr (r) =1 0≦r<N ・・・(8) =0 r<0,N≦r また、窓かけ処理部104での図11のBに示すような
ハミング窓の場合の窓関数wh (r) は、 wh (r) = 0.54 − 0.46 cos(2πr/(N-1)) 0≦r<N ・・・(9) =0 r<0,N≦r である。このような窓関数wr (r) あるいはwh
(r) を用いるときの上記(7)式の窓関数w(r) (=w
(kL-q))の否零区間は、 0≦kL−q<N これを変形して、 kL−N<q≦kL 従って例えば上記方形窓の場合に窓関数wr (kL-q)=
1となるのは、図12に示すように、kL−N<q≦k
Lのときとなる。また、上記(7)〜(9)式は、長さ
N(=256)サンプルの窓が、L(=160)サンプ
ルずつ前進してゆくことを示している。以下、上記
(8)式、(9)式の各窓関数で切り出された各N点
(0≦r<N)の否零サンプル列を、それぞれx
wr(k,r) 、xwh(k,r) と表すことにする。
うに、上記(9)式のハミング窓がかけられた1ブロッ
ク256サンプルのサンプル列xwh(k,r) に対して1
792サンプル分の0データが付加されて(いわゆる0
詰めされて)2048サンプルとされ、この2048サ
ンプルの時間軸データ列に対して、直交変換部105に
より例えばFFT(高速フーリエ変換)等の直交変換処
理が施される。あるいは、256点のままで(0詰めな
しで)FFTを施してもよい。
r) のサンプル列(1ブロックNサンプル)に基づいて
ピッチ抽出が行われる。このピッチ抽出法には、時間波
形の周期性や、スペクトルの周期的周波数構造や、自己
相関関数を用いるもの等が知られているが、本実施例で
は、センタクリップ波形の自己相関法を採用している。
このときのブロック内でのセンタクリップレベルについ
ては、1ブロックにつき1つのクリップレベルを設定し
てもよいが、ブロックを細分割した各部(各サブブロッ
ク)の信号のピークレベル等を検出し、これらの各サブ
ブロックのピークレベル等の差が大きいときに、ブロッ
ク内でクリップレベルを段階的にあるいは連続的に変化
させるようにしている。このセンタクリップ波形の自己
相関データのピーク位置に基づいてピッチ周期を決めて
いる。このとき、現在フレームに属する自己相関データ
(自己相関は1ブロックNサンプルのデータを対象とし
て求められる)から複数のピークを求めておき、これら
の複数のピークの内の最大ピークが所定の閾値以上のと
きには該最大ピーク位置をピッチ周期とし、それ以外の
ときには、現在フレーム以外のフレーム、例えば前後の
フレームで求められたピッチに対して所定の関係を満た
すピッチ範囲内、例えば前フレームのピッチを中心とし
て±20%の範囲内にあるピークを求め、このピーク位
置に基づいて現在フレームのピッチを決定するようにし
ている。このピッチ抽出部103ではオープンループに
よる比較的ラフなピッチのサーチが行われ、抽出された
ピッチデータは高精度(ファイン)ピッチサーチ部10
6に送られて、クローズドループによる高精度のピッチ
サーチ(ピッチのファインサーチ)が行われる。
には、ピッチ抽出部103で抽出された整数(インテジ
ャー)値の粗(ラフ)ピッチデータと、直交変換部10
5により例えばFFTされた周波数軸上のデータとが供
給されている。この高精度ピッチサーチ部106では、
上記粗ピッチデータ値を中心に、0.2〜0.5きざみで±
数サンプルずつ振って、最適な小数点付き(フローティ
ング)のファインピッチデータの値へ追い込む。このと
きのファインサーチの手法として、いわゆる合成による
分析 (Analysis by Synthesis)法を用い、合成されたパ
ワースペクトルが原音のパワースペクトルに最も近くな
るようにピッチを選んでいる。
する。先ず、上記MBEボコーダにおいては、上記FF
T等により直交変換された周波数軸上のスペクトルデー
タとしてのS(j) を S(j) =H(j) |E(j)| 0<j<J ・・・(10) と表現するようなモデルを想定している。ここで、Jは
ωs/4π=fs/2に対応し、サンプリング周波数f
s=ωs/2πが例えば8kHzのときには4kHzに対応
する。上記(10)式中において、周波数軸上のスペクト
ルデータS(j) が図14のAに示すような波形のとき、
H(j) は、図14のBに示すような元のスペクトルデー
タS(j) のスペクトル包絡線(エンベロープ)を示し、
E(j) は、図14のCに示すような等レベルで周期的な
励起信号(エキサイテイション)のスペクトルを示して
いる。すなわち、FFTスペクトルS(j) は、スペクト
ルエンベロープH(j) と励起信号のパワースペクトル|
E(j)| との積としてモデル化される。
| は、上記ピッチに応じて決定される周波数軸上の波
形の周期性(ピッチ構造)を考慮して、1つの帯域(バ
ンド)の波形に相当するスペクトル波形を周波数軸上の
各バンド毎に繰り返すように配列することにより形成さ
れる。この1バンド分の波形は、例えば上記図13に示
すような256サンプルのハミング窓関数に1792サ
ンプル分の0データを付加(0詰め)した波形を時間軸
信号と見なしてFFTし、得られた周波数軸上のある帯
域幅を持つインパルス波形を上記ピッチに応じて切り出
すことにより形成することができる。
ンド毎に、上記H(j) を代表させるような(各バンド毎
のエラーを最小化するような)値(一種の振幅)|Am
|を求める。ここで、例えば第mバンド(第m高調波
の帯域)の下限、上限の点をそれぞれam 、bm と
するとき、この第mバンドのエラーεm は、
ような|Am |は、
き、エラーεm を最小化する。このような振幅|Am
|を各バンド毎に求め、得られた各振幅|Am |を
用いて上記(11)式で定義された各バンド毎のエラーε
m を求める。次に、このような各バンド毎のエラーε
m の全バンドの総和値Σεm を求める。さらに、こ
のような全バンドのエラー総和値Σεm を、いくつか
の微小に異なるピッチについて求め、エラー総和値Σε
m が最小となるようなピッチを求める。
られたラフピッチを中心として、例えば 0.25 きざみで
上下に数種類ずつ用意する。これらの複数種類の微小に
異なるピッチの各ピッチに対してそれぞれ上記エラー総
和値Σεm を求める。この場合、ピッチが定まるとバ
ンド幅が決まり、上記(13)式より、周波数軸上データ
のパワースペクトル|S(j) |と励起信号スペクトル|
E(j) |とを用いて上記(11)式のエラーεm を求
め、その全バンドの総和値Σεm を求めることができ
る。このエラー総和値Σεm を各ピッチ毎に求め、最
小となるエラー総和値に対応するピッチを最適のピッチ
として決定するわけである。以上のようにして高精度ピ
ッチサーチ部106で最適のファイン(例えば 0.25 き
ざみ)ピッチが求められ、この最適ピッチに対応する振
幅|Am |が決定される。
ては、説明を簡略化するために、全バンドが有声音(Vo
iced)の場合を想定しているが、上述したようにMBE
ボコーダにおいては、同時刻の周波数軸上に無声音(Un
voiced)領域が存在するというモデルを採用しているこ
とから、上記各バンド毎に有声音/無声音の判別を行う
ことが必要とされる。
適ピッチ及び振幅|Am |のデータは、有声音/無声
音判別部107に送られ、上記各バンド毎に有声音/無
声音の判別が行われる。この判別のために、NSR(ノ
イズtoシグナル比)を利用する。すなわち、第mバン
ドのNSRは、
ば0.3)より大のとき(エラーが大きい)ときには、そ
のバンドでの|Am ||E(j) |による|S(j) |の
近似が良くない(上記励起信号|E(j) |が基底として
不適当である)と判断でき、当該バンドをUV(Unvoic
ed、無声音)と判別する。これ以外のときは、近似があ
る程度良好に行われていると判断でき、そのバンドをV
(Voiced、有声音)と判別する。
部105からの周波数軸上データ、高精度ピッチサーチ
部106からのファインピッチと評価された振幅|Am
|との各データ、及び上記有声音/無声音判別部10
7からのV/UV(有声音/無声音)判別データが供給
されている。この振幅再評価部108では、有声音/無
声音判別部107において無声音(UV)と判別された
バンドに関して、再度振幅を求めている。このUVのバ
ンドについての振幅|Am |UVは、
データ数変換(一種のサンプリングレート変換)部10
9に送られる。このデータ数変換部109は、上記ピッ
チに応じて周波数軸上での分割帯域数が異なり、データ
数(特に振幅データの数)が異なることを考慮して、一
定の個数にするためのものである。すなわち、例えば有
効帯域を3400kHzまでとすると、この有効帯域が上
記ピッチに応じて、8バンド〜63バンドに分割される
ことになり、これらの各バンド毎に得られる上記振幅|
Am |(UVバンドの振幅|Am |UVも含む)デ
ータの個数mM X+1も8〜63と変化することにな
る。このためデータ数変換部109では、この可変個数
mMX+1の振幅データを一定個数(例えば44個)の
データに変換している。
1〜図8と共に説明したように、周波数軸上の有効帯域
1ブロック分の振幅データに対して、ブロック内の両端
のデータを延長してデータ個数を拡大し、帯域制限型F
IRフィルタによるフィルタ処理を施し、さらに直線補
間を施すことにより一定個数(例えば44個)のデータ
を得ている。
(上記一定個数の振幅データ)がベクトル量子化部11
0に送られて、所定個数のデータ毎にまとめられてベク
トルとされ、ベクトル量子化が施される。ベクトル量子
化部110からの量子化出力データは、CRC&レート
1/2畳込み符号付加部111に供給されと共にフレー
ムインターリーブ部112に供給される。また、上記高
精度のピッチサーチ部106からの高精度(ファイン)
ピッチデータ及び上記有声音/無声音判別部107から
の有声音/無声音(V/UV)判別データも上記CRC
&レート1/2畳込み符号付加部111に供給される。
符号付加部111は、上記ファインピッチデータ、V/
UV判別データ及び量子化出力データを用いて、スペク
トルエンベロープの量子化を階層的な構造とし、その出
力インデックスの重要度を分けることで効果的に畳込み
符号による誤り訂正を行う。
2号において、提案した高能率符号化方法、すなわち、
M次元ベクトルを、S次元(S<M)ベクトルに次元低
下させてベクトル量子化するような、階層構造化された
コードブックを有する量子化を行わせる方法と同様に誤
り訂正符号の効果的な適用が可能となる方法である。
CRC検出は、以下のような原理である。図15は、ビ
タビ復号&CRC検出の原理を説明するための機能ブロ
ック図である。例えば、音声符号器121から出力され
た音声パラメータのうち、聴覚上特に重要な部分(クラ
ス1)80ビットとそれ以外の部分(クラス2)40ビ
ットとに分ける。クラス1のうちさらに重要な50ビッ
トについてCRC計算ブロック122によりCRCを計
算し、7ビットの結果を得る。クラス1の80ビットと
CRCの7ビットと畳込み符号化器の初期値を0に戻す
ためのテールビット5ビットの合計92ビットを畳込み
符号化部123に入力し、184ビットの出力を得る。
畳込み符号化された184ビットとクラス2ビットの4
0ビットの計224ビットにつき、2スロットインター
リーブ器124により、インターリーブを行い、その出
力として224ビットを伝送する。
相当するのが図10のフレームインターリーブ部112
であり、その出力が出力端子113から伝送される。
ル(例えば256サンプル)のブロック内のデータに対
して処理を施すことにより得られるものであるが、ブロ
ックは時間軸上を上記Lサンプルのフレームを単位とし
て前進することから、伝送するデータは上記フレーム単
位で得られる。すなわち、上記フレーム周期でピッチデ
ータ、V/UV判別データ、振幅データが更新されるこ
とになる。
て、伝送されて得られた上記出力データに基づき音声信
号を合成するための合成側(デコード側)の概略構成に
ついて、図16を参照しながら説明する。
は、伝送されたきたCRC&レート1/2畳込み符号が
付加された出力データが供給される。入力端子131か
らの出力データは、フレームデインタリーブ132に供
給され、デインターリーブされる。デインターリーブさ
れたデータは、ビタビ復号&CRC検出部133に供給
され、復号化される。
デインターリーブ132からのデータをマスク処理し、
量子化振幅データを逆ベクトル量子化部135に供給す
る。
おり、各階層のインデックスデータに基づいて逆ベクト
ル化されたデータを合成して出力する。この逆量子化部
135からの出力データは、データ数逆変換部136に
送られて逆変換される。このデータ数逆変換部136で
は、上述した図9の説明と同様な(逆)変換が行われ、
得られた振幅データが有声音合成部137及び無声音合
成部138に送られる。また、上記マスク処理部134
は、符号化ピッチデータをピッチ復号化部139に供給
する。このピッチ復号化器139で復号されたピッチデ
ータは、データ数逆変換部136、有声音合成部137
及び無声音合成部138に送られる。また、上記マスク
処理部134は、V/UV判別データを有声音合成部1
37及び無声音合成部138に供給する。
e)波合成により時間軸上の有声音波形を合成し、無声音
合成部138では例えばホワイトノイズをバンドパスフ
ィルタでフィルタリングして時間軸上の無声音波形を合
成し、これらの各有声音合成波形と無声音合成波形とを
加算部140で加算合成して、出力端子141より取り
出すようにしている。この場合、上記振幅データ、ピッ
チデータ及びV/UV判別データは、上記分析時の1フ
レーム(Lサンプル、例えば160サンプル)毎に更新
されて与えられるが、フレーム間の連続性を高める(円
滑化する)ために、上記振幅データやピッチデータの各
値を1フレーム中の例えば中心位置における各データ値
とし、次のフレームの中心位置までの間(合成時の1フ
レーム)の各データ値を補間により求める。すなわち、
合成時の1フレーム(例えば上記分析フレームの中心か
ら次の分析フレームの中心まで)において、先端サンプ
ル点での各データ値と終端(次の合成フレームの先端)
サンプル点での各データ値とが与えられ、これらのサン
プル点間の各データ値を補間により求めるようにしてい
る。
理を詳細に説明する。
(第m高調波の帯域)における時間軸上の上記1合成フ
レーム(Lサンプル、例えば160サンプル)分の有声
音をVm (n) とするとき、この合成フレーム内の時間
インデックス(サンプル番号)nを用いて、 Vm (n) =Am (n) cos(θm (n)) 0≦n<L・・・(15) と表すことができる。全バンドの内のV(有声音)と判
別された全てのバンドの有声音を加算(ΣVm (n) )
して最終的な有声音V(n) を合成する。
フレームの先端から終端までの間で補間された第m高調
波の振幅である。最も簡単には、フレーム単位で更新さ
れる振幅データの第m高調波の値を直線補間すればよ
い。すなわち、上記合成フレームの先端(n=0)での
第m高調波の振幅値をA0m、該合成フレームの終端
(n=L:次の合成フレームの先端)での第m高調波の
振幅値をALmとするとき、 Am (n) = (L-n)A0m/L+nALm/L ・・・(16) の式によりAm (n) を計算すればよい。
は、 θm (0) =mωO1n+n2 m(ωL1−ω01)/2L+φ0m+Δ ωn ・・・(17) により求めることができる。この(17)式中で、φ0m
は上記合成フレームの先端(n=0)での第m高調波の
位相(フレーム初期位相)を示し、ω01は合成フレー
ム先端(n=0)での基本角周波数、ωL1は該合成フ
レームの終端(n=L:次の合成フレーム先端)での基
本角周波数をそれぞれ示している。上記(17)式中のΔ
ωは、n=Lにおける位相φLmがθm (L) に等しく
なるような最小のΔωを設定する。
れn=0、n=LのときのV/UV判別結果に応じた上
記振幅Am (n) 、位相θm (n) の求め方を説明す
る。
V(有声音)とされる場合に、振幅Am (n) は、上述
した(16)式により、伝送された振幅値A0m、ALm
を直線補間して振幅Am (n) を算出すればよい。位相
θm (n) は、n=0でθm(0) =φ0mからn=Lで
θm (L) がφLmとなるようにΔωを設定する。
LのときUV(無声音)とされる場合に、振幅Am
(n) は、Am (0) の伝送振幅値A0mからAm (L)
で0となるように直線補間する。n=Lでの伝送振幅値
ALmは無声音の振幅値であり、後述する無声音合成の
際に用いられる。位相θm (n) は、θm (0) =φ0
mとし、かつΔω=0とする。
n=LのときV(有声音)とされる場合には、振幅Am
(n) は、n=0での振幅Am (0) を0とし、n=L
で伝送された振幅値ALmとなるように直線補間する。
位相θm (n) については、n=0での位相θm (0)
として、フレーム終端での位相値φLmを用いて、 θm (0) =φLm−m(ωO1+ωL1)L/2 ・・・(18) とし、かつΔω=0とする。
音)とされる場合に、θm (L) がφ Lmとなるように
Δωを設定する手法について説明する。上記(17)式
で、n=Lと置くことにより、 θm (L) =mωO1L+L2 m(ωL1−ω01)/2L+φ0m +ΔωL =m(ωO1+ωL1)L/2+φ0m+ΔωL =φLm となり、これを整理すると、Δωは、 Δω=(mod2π((φLm−φ0m) − mL(ωO1+ωL1)/2)/L ・・・(19) となる。この(19)式でmod2π(x) とは、xの主値を−
π〜+πの間の値で返す関数である。例えば、x=1.3
πのときmod2π(x) =−0.7π、x=2.3πのときmod2
π(x) =0.3π、x=−1.3πのときmod2π(x) =0.7
π、等である。
トルの一例を示しており、バンド番号(ハーモニクスナ
ンバ)mが8、9、10の各バンドがUV(無声音)と
され、他のバンドはV(有声音)とされている。このV
(有声音)のバンドの時間軸信号が上記有声音合成部1
37により合成され、UV(無声音)のバンドの時間軸
信号が無声音合成部138で合成されるわけである。
合成処理を説明する。
上のホワイトノイズ信号波形を、所定の長さ(例えば2
56サンプル)で適当な窓関数(例えばハミング窓)に
より窓かけをし、STFT処理部143によりSTFT
(ショートタームフーリエ変換)処理を施すことによ
り、図17のBに示すようなホワイトノイズの周波数軸
上のパワースペクトルを得る。このSTFT処理部14
3からのパワースペクトルをバンド振幅処理部144に
送り、図17のCに示すように、上記UV(無声音)と
されたバンド(例えばm=8、9、10)について上記
振幅|Am |U Vを乗算し、他のV(有声音)とされ
たバンドの振幅を0にする。このバンド振幅処理部14
4には上記振幅データ、ピッチデータ、V/UV判別デ
ータが供給されている。バンド振幅処理部144からの
出力は、ISTFT処理部145に送られ、位相は元の
ホワイトノイズの位相を用いて逆STFT処理を施すこ
とにより時間軸上の信号に変換する。ISTFT処理部
145からの出力は、オーバーラップ加算部146に送
られ、時間軸上で適当な(元の連続的なノイズ波形を復
元できるように)重み付けをしながらオーバーラップ及
び加算を繰り返し、連続的な時間軸波形を合成する。オ
ーバーラップ加算部146からの出力信号が上記加算部
140に送られる。
いて合成されて時間軸上に戻された有声音部及び無声音
部の各信号は、加算部140により適当な固定の混合比
で加算して、出力端子141より再生された音声信号を
取り出す。
&CRC検出は、以下のような原理である。図18は、
ビタビ復号&CRC検出の原理を説明するための機能ブ
ロック図である。例えば、図18に示すような原理であ
る。先ず、伝送されてきた224ビットを2スロットデ
インターリーブ器151が受信し、デインタリーブす
る。この2スロットデインターリーブ器151の出力を
クラス2とエンコードされているクラス1ビットに分
け、後者を畳込み復号化器152に入力し、復号して、
80ビットのクラス1復号結果を受信7ビットを得る。
次に、80ビットのクラス1復号結果からエンコーダで
計算したのと同じパラメータビットに相当するものから
再びCRCをCRC計算部153により計算し、受信C
RCと比較し、その結果を音声復号器154に出力す
る。
ド側)の構成や図16の音声合成側(デコード側)の構
成については、各部をハードウェア的に記載している
が、いわゆるDSP(ディジタル信号プロセッサ)等を
用いてソフトウェアプログラムにより実現することも可
能である。なお、本発明は上記実施例のみに限定される
ものではなく、例えば、音声信号のみならず、音響信号
を入力信号として用いることもできる。
に係る符号化装置によれば、入力オーディオ信号をブロ
ックに分割して、ブロック内の可変個数の波形データ又
は波形を表すパラメータデータを抽出し、上記抽出され
た可変個数のデータをブロック毎に一定の個数の基準デ
ータと比較するために上記可変個数のデータを上記一定
個数に変換して符号化する符号化装置であって、上記可
変個数のデータが入力される帯域制限型オーバーサンプ
リングのためのFIRフィルタで、上記入力データのサ
ンプル点に対してそれぞれ異なる複数の位相と対応した
複数の係数セットの内の上記一定個数のデータの各位置
に対応する係数セットを用いることにより、出力として
必要な上記一定個数のデータを求める手段を有している
ため、必要な点のみを計算する間引かれた演算が可能と
なり、積和の演算回数を大幅に減らせる。
ば、入力オーディオ信号をブロックに分割して、ブロッ
ク内の可変個数の波形データ又は波形を表すパラメータ
データを抽出し、上記抽出された可変個数のデータをブ
ロック毎に一定の個数の基準データと比較するために上
記可変個数のデータを上記一定個数のデータに変換して
符号化する符号化装置であって、上記可変個数のデータ
が入力される帯域制限型オーバーサンプリングのための
FIRフィルタで、上記入力データのサンプル点に対し
てそれぞれ異なる複数の位相と対応した複数の係数セッ
トの内の上記一定個数のデータの各位置の近傍の位置に
対応する係数セットを用いることにより、中間的な出力
データを求める手段と、上記中間的な出力データを補間
して必要とされる一定個数のデータを求める手段とを有
しているため、必要な点のみを計算する間引かれた演算
が可能となり、積和の演算回数を大幅に減らせる。
力オーディオ信号をブロックに分割して、ブロック内の
可変個数の波形データ又は波形を表すパラメータデータ
を抽出し、上記抽出された可変個数のデータをブロック
毎に一定の個数の基準データと比較するために上記可変
個数のデータを上記一定個数のデータに変換することに
より符号化された符号列を受け取り、上記符号列から上
記一定個数のデータを復号化し、上記復号化された一定
個数のデータから可変個数のデータに逆変換する復号装
置であって、上記一定個数のデータが入力される帯域制
限型オーバーサンプリングのためのFIRフィルタで、
上記入力データのサンプル点に対してそれぞれ異なる複
数の位相と対応した複数の係数セットの内の上記可変個
数のデータの各位置に対応する係数セットを用いること
により、出力として必要な上記可変個数のデータを求め
る手段を有しているため、必要な点のみを計算する間引
かれた演算が可能となり、積和の演算回数を大幅に減ら
せる。
入力オーディオ信号をブロックに分割して、ブロック内
の可変個数の波形データ又は波形を表すパラメータデー
タを抽出し、上記抽出された可変個数のデータをブロッ
ク毎に一定の個数の基準データと比較するために上記可
変個数のデータを上記一定個数のデータに変換すること
により符号化された符号列を受け取り、上記符号列から
上記一定個数のデータを復号化し、上記復号化された一
定個数のデータから可変個数のデータに逆変換する復号
装置であって、上記一定個数のデータが入力される帯域
制限型オーバーサンプリングのためのFIRフィルタ
で、上記入力データのサンプル点に対してそれぞれ異な
る複数の位相と対応した複数の係数セットの内の上記可
変個数のデータの各位置の近傍の位置に対応する係数セ
ットを用いることにより、中間的な出力データを求める
手段と、上記中間的な出力データを補間して必要とされ
る可変個数のデータを求める手段とを有しているため、
必要な点のみを計算する間引かれた演算が可能となり、
積和の演算回数を大幅に減らせる。
られるデータ数変換方法を説明するための概略構成を示
すブロック図である。
ある。
の波形図である。
の図である。
点を求める例を説明するための図である。
するための図である。
ローチャートである。
る。
しての音声信号の合成分析符号化装置の分析側(エンコ
ード側)の概略構成を示す機能ブロック図である。
の図である。
データを示す図である。
包絡線(エンベロープ)及び励起信号のパワースペクト
ルを示す図である。
る。
タ数変換方法が適用される装置の具体例としての音声信
号の合成分析符号化装置の合成側(デコード側)の概略
構成を示す機能ブロック図である。
るための図である。
る。
14 スペクトルエンベロープ拡張部、 15 帯域
制限型FIRフィルタ、 16 直線補間部、103
ピッチ抽出部、 104 窓かけ処理部、 105 直
交変換(FFT)部、 106 高精度(ファイン)ピ
ッチサーチ部、 107 有声音/無声音(V/UV)
判別部、 108 振幅再評価部、 109 データ数
変換(データレートコンバート)部、 110 ベクト
ル量子化部、 111 CRC&畳込み符号化部、 1
12 フレームインターリーブ部
Claims (8)
- 【請求項1】 入力オーディオ信号をブロックに分割し
て、ブロック内の可変個数の波形データ又は波形を表す
パラメータデータを抽出し、上記抽出された可変個数の
データをブロック毎に一定の個数の基準データと比較す
るために上記可変個数のデータを上記一定個数に変換し
て符号化する符号化装置であって、 上記可変個数のデータが入力される帯域制限型オーバー
サンプリングのためのFIRフィルタで、上記入力デー
タのサンプル点に対してそれぞれ異なる複数の位相と対
応した複数の係数セットの内の上記一定個数のデータの
各位置に対応する係数セットを用いることにより、出力
として必要な上記一定個数のデータを求める手段を有す
ることを特徴とする符号化装置。 - 【請求項2】 上記可変個数のデータのデータ個数を拡
大する拡張手段を更に有し、 上記一定個数のデータを求める手段は、上記データ個数
が拡大されたデータを上記FIRフィルタの入力とする
ことを特徴とする請求項1記載の符号化装置。 - 【請求項3】 入力オーディオ信号をブロックに分割し
て、ブロック内の可変個数の波形データ又は波形を表す
パラメータデータを抽出し、上記抽出された可変個数の
データをブロック毎に一定の個数の基準データと比較す
るために上記可変個数のデータを上記一定個数のデータ
に変換して符号化する符号化装置であって、 上記可変個数のデータが入力される帯域制限型オーバー
サンプリングのためのFIRフィルタで、上記入力デー
タのサンプル点に対してそれぞれ異なる複数の位相と対
応した複数の係数セットの内の上記一定個数のデータの
各位置の近傍の位置に対応する係数セットを用いること
により、中間的な出力データを求める手段と、 上記中間的な出力データを補間して必要とされる一定個
数のデータを求める手段とを有することを特徴とする符
号化装置。 - 【請求項4】 上記可変個数のデータのデータ個数を拡
大する拡張手段を更に有し、 上記中間的な出力のデータを求める手段は、上記データ
個数が拡大されたデータを上記FIRフィルタの入力と
することを特徴とする請求項3記載の符号化装置。 - 【請求項5】 入力オーディオ信号をブロックに分割し
て、ブロック内の可変個数の波形データ又は波形を表す
パラメータデータを抽出し、上記抽出された可変個数の
データをブロック毎に一定の個数の基準データと比較す
るために上記可変個数のデータを上記一定個数のデータ
に変換することにより符号化された符号列を受け取り、
上記符号列から上記一定個数のデータを復号化し、上記
復号化された一定個数のデータから可変個数のデータに
逆変換する復号装置であって、 上記一定個数のデータが入力される帯域制限型オーバー
サンプリングのためのFIRフィルタで、上記入力デー
タのサンプル点に対してそれぞれ異なる複数の位相と対
応した複数の係数セットの内の上記可変個数のデータの
各位置に対応する係数セットを用いることにより、出力
として必要な上記可変個数のデータを求める手段を有す
ることを特徴とする復号装置。 - 【請求項6】 上記一定個数のデータのデータ個数を拡
大する拡張手段を更に有し、 上記可変個数のデータを求める手段は、上記データ個数
が拡大されたデータを上記FIRフィルタの入力とする
ことを特徴とする請求項5記載の復号装置。 - 【請求項7】 入力オーディオ信号をブロックに分割し
て、ブロック内の可変個数の波形データ又は波形を表す
パラメータデータを抽出し、上記抽出された可変個数の
データをブロック毎に一定の個数の基準データと比較す
るために上記可変個数のデータを上記一定個数のデータ
に変換することにより符号化された符号列を受け取り、
上記符号列から上記一定個数のデータを復号化し、上記
復号化された一定個数のデータから可変個数のデータに
逆変換する復号装置であって、 上記一定個数のデータが入力される帯域制限型オーバー
サンプリングのためのFIRフィルタで、上記入力デー
タのサンプル点に対してそれぞれ異なる複数の位相と対
応した複数の係数セットの内の上記可変個数のデータの
各位置の近傍の位置に対応する係数セットを用いること
により、中間的な出力データを求める手段と、 上記中間的な出力データを補間して必要とされる可変個
数のデータを求める手段とを有することを特徴とする復
号装置。 - 【請求項8】 上記一定個数のデータのデータ個数を拡
大する拡張手段を更に有し、 上記中間的な出力データを求める手段は、上記データ個
数が拡大されたデータを上記FIRフィルタの入力とす
ることを特徴とする請求項7記載の復号装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002306411A JP3731575B2 (ja) | 2002-10-21 | 2002-10-21 | 符号化装置及び復号装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002306411A JP3731575B2 (ja) | 2002-10-21 | 2002-10-21 | 符号化装置及び復号装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4223227A Division JPH0651800A (ja) | 1992-07-30 | 1992-07-30 | データ数変換方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003216189A true JP2003216189A (ja) | 2003-07-30 |
JP3731575B2 JP3731575B2 (ja) | 2006-01-05 |
Family
ID=27655745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002306411A Expired - Lifetime JP3731575B2 (ja) | 2002-10-21 | 2002-10-21 | 符号化装置及び復号装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3731575B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100587309B1 (ko) | 2004-08-13 | 2006-06-08 | 엘지전자 주식회사 | 디지털 보간 필터 |
WO2013176177A1 (ja) * | 2012-05-23 | 2013-11-28 | 日本電信電話株式会社 | 符号化方法、復号方法、符号化装置、復号装置、プログラム、および記録媒体 |
JP2016527527A (ja) * | 2014-07-28 | 2016-09-08 | テレフオンアクチーボラゲット エルエム エリクソン(パブル) | ピラミッドベクトル量子化器形状サーチ |
CN107393291A (zh) * | 2017-07-07 | 2017-11-24 | 青岛酷控网络科技有限公司 | 一种红外码数据的压缩及解压缩方法 |
-
2002
- 2002-10-21 JP JP2002306411A patent/JP3731575B2/ja not_active Expired - Lifetime
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100587309B1 (ko) | 2004-08-13 | 2006-06-08 | 엘지전자 주식회사 | 디지털 보간 필터 |
WO2013176177A1 (ja) * | 2012-05-23 | 2013-11-28 | 日本電信電話株式会社 | 符号化方法、復号方法、符号化装置、復号装置、プログラム、および記録媒体 |
CN104321814A (zh) * | 2012-05-23 | 2015-01-28 | 日本电信电话株式会社 | 编码方法、解码方法、编码装置、解码装置、程序以及记录介质 |
JP2016527527A (ja) * | 2014-07-28 | 2016-09-08 | テレフオンアクチーボラゲット エルエム エリクソン(パブル) | ピラミッドベクトル量子化器形状サーチ |
US9792922B2 (en) | 2014-07-28 | 2017-10-17 | Telefonaktiebolaget Lm Ericsson (Publ) | Pyramid vector quantizer shape search |
JP2017216696A (ja) * | 2014-07-28 | 2017-12-07 | テレフオンアクチーボラゲット エルエム エリクソン(パブル) | ピラミッドベクトル量子化器形状サーチ |
JP2018156099A (ja) * | 2014-07-28 | 2018-10-04 | テレフオンアクチーボラゲット エルエム エリクソン(パブル) | ピラミッドベクトル量子化器形状サーチ |
JP2020010353A (ja) * | 2014-07-28 | 2020-01-16 | テレフオンアクチーボラゲット エルエム エリクソン(パブル) | ピラミッドベクトル量子化器形状サーチ |
US11942102B2 (en) | 2014-07-28 | 2024-03-26 | Telefonaktiebolaget Lm Ericsson (Publ) | Pyramid vector quantizer shape search |
CN107393291A (zh) * | 2017-07-07 | 2017-11-24 | 青岛酷控网络科技有限公司 | 一种红外码数据的压缩及解压缩方法 |
Also Published As
Publication number | Publication date |
---|---|
JP3731575B2 (ja) | 2006-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3483958B2 (ja) | 広帯域音声復元装置及び広帯域音声復元方法及び音声伝送システム及び音声伝送方法 | |
JP3475446B2 (ja) | 符号化方法 | |
KR100348899B1 (ko) | 캡스트럼 분석을 이용한 하모닉 노이즈 음성 부호화기 및부호화 방법 | |
JPH0869299A (ja) | 音声符号化方法、音声復号化方法及び音声符号化復号化方法 | |
JPH0990968A (ja) | 音声合成方法 | |
JPH11510274A (ja) | 線スペクトル平方根を発生し符号化するための方法と装置 | |
JP3297751B2 (ja) | データ数変換方法、符号化装置及び復号化装置 | |
JP2779325B2 (ja) | ボコーダーにおける前処理の相関関係式を用いたピッチ検索時間短縮方法 | |
JP3297749B2 (ja) | 符号化方法 | |
JP3237178B2 (ja) | 符号化方法及び復号化方法 | |
JP3362471B2 (ja) | 音声信号の符号化方法及び復号化方法 | |
JPH0651800A (ja) | データ数変換方法 | |
JP3218679B2 (ja) | 高能率符号化方法 | |
JP3731575B2 (ja) | 符号化装置及び復号装置 | |
JP2000132193A (ja) | 信号符号化装置及び方法、並びに信号復号装置及び方法 | |
JP4578145B2 (ja) | 音声符号化装置、音声復号化装置及びこれらの方法 | |
JP3297750B2 (ja) | 符号化方法 | |
JP3321933B2 (ja) | ピッチ検出方法 | |
JP3218681B2 (ja) | 背景雑音検出方法及び高能率符号化方法 | |
JP4618823B2 (ja) | 信号符号化装置及び方法 | |
JP3218680B2 (ja) | 有声音合成方法 | |
JP3266920B2 (ja) | 音声符号化装置及び音声復号化装置並びに音声符号化復号化装置 | |
JPH05281995A (ja) | 音声符号化方法 | |
JPH05265488A (ja) | ピッチ抽出方法 | |
JPH0744194A (ja) | 高能率符号化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050315 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050516 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050621 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050819 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050920 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20051003 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081021 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091021 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091021 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101021 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111021 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121021 Year of fee payment: 7 |
|
EXPY | Cancellation because of completion of term |