JPH0990989A - Conversion encoding method and conversion decoding method - Google Patents

Conversion encoding method and conversion decoding method

Info

Publication number
JPH0990989A
JPH0990989A JP7248145A JP24814595A JPH0990989A JP H0990989 A JPH0990989 A JP H0990989A JP 7248145 A JP7248145 A JP 7248145A JP 24814595 A JP24814595 A JP 24814595A JP H0990989 A JPH0990989 A JP H0990989A
Authority
JP
Japan
Prior art keywords
signal
frequency
pitch
pitch component
frequency domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7248145A
Other languages
Japanese (ja)
Other versions
JP3348759B2 (en
Inventor
Naoki Iwagami
直樹 岩上
Takehiro Moriya
健弘 守谷
Satoshi Miki
聡 三樹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP24814595A priority Critical patent/JP3348759B2/en
Publication of JPH0990989A publication Critical patent/JPH0990989A/en
Application granted granted Critical
Publication of JP3348759B2 publication Critical patent/JP3348759B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To improve an efficiency of an entire encoder by encoding a signal with a high efficiency by making use of a regularity of a spikelike pitch component appearing in a frequency domain signal transformed into a frequency domain. SOLUTION: An encoder A is constituted of a time-frequency converter 1, a general situation outline calculation and quantization device 2, a first flattening device 3, a pitch encoder 4 an adder 5, a minute spectrum outline calculation and quantization device 6, a second flattening device 7, and a quantization device 8. And a decoder B is constituted of a reproducing device 9, a minute spectrum outline reproducing device 10, a first inverse flattening device 11, a pitch reproducing device 12, an adder 13, a general situation outline reproducing device 14, a second inverse flattening device 15, and a time-frequency inverter 16. And a tone signal or a voice signal is divided into frames of a certain interval and is converted into a frequency domain signal. Next, only the pitch component is extracted from the frequency domain signal, to be separated and decoded.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、楽音信号あるいは
音声信号等、ピッチ成分を含む信号の変換符号化方法お
よび変換復号化方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a transform coding method and a transform decoding method for a signal including a pitch component such as a tone signal or a voice signal.

【0002】[0002]

【従来の技術】現在、楽音信号あるいは音声信号等のオ
ーディオ信号を高能率に符号化する方法として、該オー
ディオ信号をフレームと呼ばれる5〜50ms程度の一
定間隔の区間に分割し、この1フレームの信号に時間−
周波数変換を施して得られた周波数領域信号を、周波数
特性の包絡形状(周波数特性の概形)と、周波数領域信
号を周波数特性概形で平坦化して得られる残差信号の2
つの情報に分離し、それぞれを符号化することが提案さ
れている。
2. Description of the Related Art At present, as a method of highly efficiently encoding an audio signal such as a musical tone signal or a voice signal, the audio signal is divided into intervals of a constant interval of about 5 to 50 ms called a frame, Time to signal-
The frequency domain signal obtained by performing frequency conversion is the envelope shape of the frequency characteristic (frequency characteristic outline) and the residual signal obtained by flattening the frequency domain signal with the frequency characteristic outline.
It has been proposed to separate the information into two pieces and encode each piece.

【0003】また、このような符号化法の具体的な方法
として、適応スペクトル聴感制御エントロピー符号化法
(ASPEC,Adaptive Spectral Perceptual Entropy Codin
g)、重み付きベクトル量子化による変換符号化法(TCW
VQ,Transform Coding withWeighted Vector Quantizati
on)、およびエムペグ−オーディオ・レイヤ3方式(MP
EG-Audio Layer 3)等が提案されている。
As a concrete method of such an encoding method, an adaptive spectral perceptual control entropy encoding method (ASPEC, Adaptive Spectral Perceptual Entropy Codin) is used.
g), transform coding method by weighted vector quantization (TCW
VQ, Transform Coding with Weighted Vector Quantizati
on), and Mpeg-Audio Layer 3 method (MP
EG-Audio Layer 3) etc. have been proposed.

【0004】なお、これらの技術については、K.Brande
nburg, J.Herre, J.D.Johnston etal:"ASPEC:Adaptive
spectral entropy coding of high quality music sign
als", Proc.AES'91 、T.Moriya, H.Suda:"An 8 Kbit/s
transform coder for noisychannels", Proc.ICASSP'89
pp.196--199 、および ISO/IEC標準 IS-11172-3 に詳
しく述べられている。
Regarding these technologies, K. Brande
nburg, J.Herre, JDJohnston et al: "ASPEC: Adaptive
spectral entropy coding of high quality music sign
als ", Proc.AES'91, T.Moriya, H.Suda:" An 8 Kbit / s
transform coder for noisychannels ", Proc.ICASSP'89
pp.196--199, and ISO / IEC standard IS-11172-3.

【0005】ここで、これらの符号化法によって高能率
な符号化を実現するためには、残差信号は、できるだけ
周波数特性が平坦であることが望ましい。このため、上
述の適応スペクトル聴感制御エントロピー符号化法(AS
PEC)あるいはエムペグ−オーディオ・レイヤ3方式(M
PEG-Audio Layer 3)では、図5に示すように、周波数
領域信号をいくつかの小帯域に分割し、各小帯域内の信
号を帯域の強さを表すスケーリングファクタと呼ばれる
値で除算して正規化することにより、残差信号の周波数
特性の平坦化を図っている。
Here, in order to realize highly efficient coding by these coding methods, it is desirable that the residual signal has as flat a frequency characteristic as possible. For this reason, the adaptive spectrum auditory control entropy coding method (AS
PEC) or Mpeg-Audio Layer 3 method (M
In PEG-Audio Layer 3), as shown in FIG. 5, the frequency domain signal is divided into several small bands, and the signal in each small band is divided by a value called a scaling factor that represents the strength of the band. By normalizing, the frequency characteristic of the residual signal is flattened.

【0006】一方、これらの方法よりも高能率な周波数
領域信号の平坦化方法として、図6に示すような線形予
測分析を用いる方法がある。この方法では、入力信号を
線形予測して得られた線形予測係数で線形予測分析フィ
ルタを駆動することにより周波数特性の平坦化を行う。
この方法は、上記 重み付きベクトル量子化による変換
符号化法(TCWVQ)で用いられている手法である。
On the other hand, as a method of flattening a frequency domain signal which is more efficient than these methods, there is a method using linear prediction analysis as shown in FIG. In this method, the frequency characteristics are flattened by driving a linear prediction analysis filter with a linear prediction coefficient obtained by linearly predicting an input signal.
This method is a method used in the transform coding method (TCWVQ) by the weighted vector quantization.

【0007】なお、線形予測分析、離散コサイン変換
(DCT)、変形離散コサイン変換(MDCT)等の各関連各
技術については、斉藤、中田”音声情報処理の基礎”
(オーム社)の第6章、K.R.Rao,P.Yip 著、安田、藤原
訳”画像符号化技術−DCTとその国際標準”(オーム
社)の第2章、H.S.Malvar,"Signal Processing with L
apedTransforms,"Artech House 、および ISO/IEC 標
準 IS-11172-3 に記載されている。
Regarding each related technique such as linear prediction analysis, discrete cosine transform (DCT) and modified discrete cosine transform (MDCT), Saito and Nakata "Basics of Speech Information Processing"
(Ohmsha) Chapter 6, KRRao, P.Yip, Translated by Yasuda and Fujiwara "Image Coding Technology-DCT and Its International Standards" Chapter 2 (Ohmsha), HSMalvar, "Signal Processing with L
apedTransforms, "Artech House, and ISO / IEC standard IS-11172-3.

【0008】[0008]

【発明が解決しようとする課題】しかし、これらの符号
化方法では、周波数特性の大局的な概形を正規化するに
とどまり、楽音や音声のピッチ成分による微視的な周波
数特性の凹凸を能率良く除去することができない。した
がって、このことが障害となり、上記従来の符号化方法
は、ピッチ成分の強いオーディオ信号を符号化する場合
に高能率化することが困難であった。
However, in these encoding methods, the general outline of the frequency characteristic is limited to normalization, and the unevenness of the microscopic frequency characteristic due to the pitch component of the musical sound or voice is efficiently generated. It cannot be removed well. Therefore, this becomes an obstacle, and it is difficult for the above-mentioned conventional encoding method to improve the efficiency when encoding an audio signal having a strong pitch component.

【0009】本発明は、上述する問題点に鑑みてなされ
たもので、ピッチ成分が含まれたオーディオ信号を能率
良く符号化することが可能な変換符号化方法および変換
復号化方法を提供することを目的としている。
The present invention has been made in view of the above-mentioned problems, and provides a transform coding method and a transform decoding method capable of efficiently coding an audio signal containing a pitch component. It is an object.

【0010】[0010]

【課題を解決するための手段】請求項1記載の発明は、
ピッチ成分を含む楽音信号あるいは音声信号の変換符号
化方法であって、音信号あるいは音声信号を一定時間間
隔のフレームに分割し、周波数領域信号に変換する第1
の段階と、前記周波数領域信号からピッチ成分のみを抽
出、分離して符号化する第2の段階と、前記周波数領域
信号からピッチ成分を除去した信号を符号化する第3の
段階とからなることを特徴としている。
According to the first aspect of the present invention,
A conversion coding method of a tone signal or a voice signal including a pitch component, which divides a voice signal or a voice signal into frames at constant time intervals and transforms into a frequency domain signal.
, A second step of extracting only a pitch component from the frequency domain signal, separating and encoding the same, and a third step of encoding a signal from which the pitch component is removed from the frequency domain signal. Is characterized by.

【0011】請求項2記載の発明は、請求項1記載の発
明において、第2の段階は、ピッチ成分の基本周波数を
求めて符号化する第4の段階と、該基本周波数をもとに
ピッチ成分を抽出して符号化する第5の段階とからなる
ことを特徴としている。
According to a second aspect of the present invention, in the first aspect of the invention, the second step is the fourth step of obtaining and encoding the fundamental frequency of the pitch component, and the pitch based on the fundamental frequency. And a fifth step of extracting and encoding the component.

【0012】請求項3記載の発明は、請求項2記載の発
明において、第5の段階は、基本周波数の自然数倍の周
波数に最も近い周波数領域信号のサンプルを中心とし
て、これを含めた連続する複数のサンプルを1単位とし
てピッチ成分を抽出することを特徴としている。
According to a third aspect of the invention, in the second aspect of the invention, the fifth step is such that a sample of a frequency domain signal closest to a frequency that is a natural number multiple of the fundamental frequency is centered, and is included continuously. It is characterized in that the pitch component is extracted with a plurality of samples as a unit.

【0013】請求項4記載の発明は、請求項2または3
記載の発明において、第5の段階は、ピッチ成分の各単
位ごとにベクトル量子化することにより符号化すること
を特徴としている。
The invention according to claim 4 is the invention according to claim 2 or 3.
In the invention described above, the fifth step is characterized in that each unit of pitch components is encoded by vector quantization.

【0014】請求項5記載の発明は、請求項1記載の変
換符号化方法によって得られた符号の復号化方法であっ
て、第2の段階において符号化されたピッチ成分を復号
化する第6の段階と、第3の段階において符号化された
周波数領域信号からピッチ成分を除去した信号を復号化
する第7の段階と、前記第6の段階において得られた複
合化出力と第7の段階において得られた複合化出力を合
成して得られた周波数領域信号を時間領域信号に変換す
る第8の段階とからなることを特徴としている。
The invention described in claim 5 is a method for decoding a code obtained by the transform coding method according to claim 1, wherein the pitch component coded in the second stage is decoded. Step, a seventh step of decoding a signal obtained by removing a pitch component from the frequency domain signal encoded in the third step, a composite output obtained in the sixth step and a seventh step The eighth step of transforming the frequency domain signal obtained by synthesizing the composite output obtained in 1) into a time domain signal.

【0015】請求項6記載の発明は、請求項5記載の発
明において、第6の段階は、第4の段階で得られたピッ
チ成分の基本周波数を復号化する第9の段階と、該第9
の段階によって得られたピッチ成分の基本周波数をもと
にピッチ成分を周波数領域の信号として配置する第10
の段階とからなることを特徴としている。
According to a sixth aspect of the invention, in the fifth aspect of the invention, the sixth step includes a ninth step of decoding the fundamental frequency of the pitch component obtained in the fourth step, and the ninth step. 9
Arranging the pitch component as a signal in the frequency domain based on the fundamental frequency of the pitch component obtained by the step of
It is characterized in that

【0016】請求項7記載の発明は、請求項6記載の発
明において、第10の段階は、基本周波数の自然数倍の
周波数に最も近い周波数領域のサンプルを含めた連続す
るサンプルを1単位としてピッチ成分を配置することを
特徴としている。
According to a seventh aspect of the invention, in the tenth aspect of the invention, the tenth step is such that a continuous sample including a sample in a frequency region closest to a natural multiple of the fundamental frequency is taken as one unit. The feature is that pitch components are arranged.

【0017】請求項8記載の発明は、請求項6または7
記載の発明において、第10の段階は、ピッチ成分の各
単位ごとにベクトル量子化されたインデックスを復号化
することを特徴としている。
The invention according to claim 8 is the invention according to claim 6 or 7.
In the described invention, the tenth step is characterized in that the vector-quantized index is decoded for each unit of the pitch component.

【0018】[0018]

【作用】楽音あるいは音声は、ピッチすなわち音程の高
/低を有する。この楽音あるいは音声を周波数変換して
得られる周波数領域信号には、一定の周波数間隔で並ぶ
ピッチ成分が含まれる。したがって、該周波数領域信号
を自らの周波数特性の概形で正規化して得られる残差信
号にも、上記ピッチ成分が含まれている。このピッチ成
分は、全体のパワーに対してエネルギーの大きいスパイ
クとなって現れるので、残差信号の平坦度を落として量
子化能率を悪化させる。しかし、本発明は、ピッチ成分
が周波数軸上で等間隔に並んでいる点に着目し、ピッチ
成分を残差信号から差し引くことにより、少ない付加情
報量で残差係数の平坦度を高める。
The musical tone or voice has a pitch, that is, high / low pitch. The frequency domain signal obtained by frequency-converting this musical sound or voice contains pitch components arranged at regular frequency intervals. Therefore, the above-mentioned pitch component is also included in the residual signal obtained by normalizing the frequency domain signal with the outline of its own frequency characteristic. Since this pitch component appears as a spike having a large energy with respect to the total power, it lowers the flatness of the residual signal and deteriorates the quantization efficiency. However, the present invention focuses on the fact that the pitch components are arranged at equal intervals on the frequency axis, and subtracts the pitch components from the residual signal, thereby increasing the flatness of the residual coefficient with a small amount of additional information.

【0019】[0019]

【発明の実施の形態】以下、図面を参照して本発明の一
実施形態について説明する。図1は、本実施形態による
変換符号化方法および変換復号化方法を説明する図であ
り、符号Aは符号器、またBは復号器である。図示する
ように、符号器Aは、時間−周波数変換器1、大局的概
形計算・量子化器2、第1平坦化器3、ピッチ符号化器
4、加算器5、微細スペクトル概形計算・量子化器6、
第2平坦化器7、および量子化器8によって構成されて
いる。
DETAILED DESCRIPTION OF THE INVENTION An embodiment of the present invention will be described below with reference to the drawings. FIG. 1 is a diagram for explaining the transform coding method and transform decoding method according to the present embodiment, where code A is an encoder and B is a decoder. As shown in the figure, the encoder A includes a time-frequency converter 1, a global rough shape calculator / quantizer 2, a first flattener 3, a pitch encoder 4, an adder 5, and a fine spectrum rough shape calculation.・ Quantizer 6,
The second flattener 7 and the quantizer 8 are included.

【0020】時間−周波数変換器1は、時間領域の入力
信号(楽音信号あるいは音声信号等のオーディオ信号)
を一定時間間隔のフレームに分割し、各々のフレームに
時間−周波数変換を施して周波数領域信号を生成する。
The time-frequency converter 1 is an input signal in the time domain (audio signal such as tone signal or voice signal).
Is divided into frames having a constant time interval, and each frame is subjected to time-frequency conversion to generate a frequency domain signal.

【0021】図2は、この周波数領域信号の周波数特性
を示したものである。この図に示すように、楽音信号あ
るいは音声信号の周波数領域信号は、一定周波数間隔p
で配列するピッチ成分が含まれている。なお、変換手法
としては、離散コサイン変換(Discrete Cosine Transf
ormation,DCT)や変形離散コサイン変換(Modified Dis
crete Cosine Transformation,MDCT)を用いることがで
きる。
FIG. 2 shows the frequency characteristic of this frequency domain signal. As shown in this figure, the frequency domain signal of the tone signal or the voice signal has a constant frequency interval p.
It contains the pitch components arranged in. The conversion method is Discrete Cosine Transf
ormation, DCT) and modified discrete cosine transform (Modified Dis)
crete Cosine Transformation (MDCT) can be used.

【0022】大局的概形計算・量子化器2は、上記時間
−周波数変換器1から出力された周波数領域信号の大局
的な概形を示す信号を生成し、また量子化する。そし
て、この信号を上記第1平坦化器3に出力すると共に、
量子化大局的概形インデックスとして外部に出力する。
該大局的概形の算出手法としては、線形予測スペクト
ル、あるいは周波数領域信号を複数のサブバンドに分割
し、各バンドの代表値によって周波数領域信号全体の概
形を表現するスケールファクタを用いてもよい。
The global outline calculator / quantizer 2 generates and quantizes a signal representing the global outline of the frequency domain signal output from the time-frequency converter 1. Then, while outputting this signal to the first flattener 3,
Output as a quantized global outline index.
As a method of calculating the global outline, a linear prediction spectrum or a scale factor that divides the frequency domain signal into a plurality of subbands and expresses the overall shape of the frequency domain signal by the representative value of each band may be used. Good.

【0023】なお、線形予測スペクトルを量子化する場
合は、線形予測パラメータをLSPパラメータに変換し
て量子化する。またはKパラメータに変換して量子化す
る。
When the linear prediction spectrum is quantized, the linear prediction parameters are converted into LSP parameters and quantized. Alternatively, it is converted into K parameters and quantized.

【0024】第1平坦化器3は、上記時間−周波数変換
器1から出力された周波数領域信号を大局的概形計算・
量子化器2から出力された上記大局的概形信号によって
除算することにより平坦化し、第1の平坦化信号を出力
する。
The first flattener 3 calculates a global shape of the frequency domain signal output from the time-frequency converter 1
It is flattened by division by the global outline signal output from the quantizer 2, and a first flattened signal is output.

【0025】次に、ピッチ符号化器4は、上記第1の平
坦化信号からピッチ成分を検出して符号化する。また、
図3はピッチ符号化器4の詳細を示す図であり、上記第
1の平坦化信号は、図示するピッチ基本周波数抽出器4
aおよびピッチサンプル抽出器4bに入力される。
Next, the pitch encoder 4 detects the pitch component from the first flattened signal and encodes it. Also,
FIG. 3 is a diagram showing the details of the pitch encoder 4, in which the first flattened signal is the pitch fundamental frequency extractor 4 shown.
a and the pitch sample extractor 4b.

【0026】このピッチ基本周波数抽出器4aは、第1
の平坦化信号を分析することによりピッチ成分の基本周
波数(ピッチ基本周波数)を求める。すなわち、ピッチ
基本周波数抽出器4aは、第1の平坦化係数のケプスト
ラムを計算し、その最大値をピッチ成分の基本周期とす
る。そして、該基本周期の逆数を演算することによりピ
ッチ基本周波数を求め、ピッチ基本周波数量子化器4c
に出力する。
This pitch fundamental frequency extractor 4a has a first
The fundamental frequency of the pitch component (pitch fundamental frequency) is obtained by analyzing the flattened signal of. That is, the pitch fundamental frequency extractor 4a calculates the cepstrum of the first flattening coefficient, and sets the maximum value as the fundamental cycle of the pitch component. Then, the pitch fundamental frequency is calculated by calculating the reciprocal of the fundamental period, and the pitch fundamental frequency quantizer 4c
Output to

【0027】なお、ピッチ基本周波数をより正確にする
ために、求められたピッチ基本周波数の前後で、ピッチ
基本周波数ごとの第1の平坦化信号のサンプルのパワー
の総和が最大になる基本周波数を検索し、新たにこれを
ピッチ基本周波数としてもよい。
In order to make the pitch fundamental frequency more accurate, the fundamental frequency at which the total sum of the powers of the samples of the first flattening signal for each pitch fundamental frequency is maximized before and after the obtained pitch fundamental frequency. You may search and use this as a new pitch fundamental frequency.

【0028】ピッチ基本周波数量子化器4cは、このよ
うにして求められたピッチ基本周波数を量子化する。す
なわち、このピッチ基本周波数量子化器4cは、ピッチ
基本周波数の対数値をスカラ量子化し、量子化ピッチ基
本周波数インデックスとして外部に出力すると共に、こ
のスカラ量子化された信号を上記ピッチサンプル抽出器
4bに出力する。
The pitch fundamental frequency quantizer 4c quantizes the pitch fundamental frequency thus obtained. That is, the pitch fundamental frequency quantizer 4c scalar-quantizes the logarithmic value of the pitch fundamental frequency and outputs it to the outside as a quantized pitch fundamental frequency index, and at the same time, outputs the scalar-quantized signal to the pitch sample extractor 4b. Output to.

【0029】このピッチサンプル抽出器4bは、第1平
坦化器3から入力された第1の平坦化信号に対して、ピ
ッチ基本周波数量子化器4cから入力された量子化ピッ
チ基本周波数の自然数倍の周波数に最も近いサンプルを
中心として前後1サンプルを抽出し、この3サンプル一
組を一本のピッチ成分のサンプル群としてピッチサンプ
ル量子化器4dに出力する。なお、このピッチ成分のサ
ンプル群の数は、固定値でも良いし、可変としても良
い。
The pitch sample extractor 4b is a natural number of the quantized pitch fundamental frequency input from the pitch fundamental frequency quantizer 4c with respect to the first flattened signal input from the first flattener 3. One sample before and after is extracted centering on the sample closest to the doubled frequency, and a set of these three samples is output to the pitch sample quantizer 4d as a sample group of one pitch component. The number of sample groups of this pitch component may be a fixed value or may be variable.

【0030】ピッチサンプル量子化器4dは、上記ピッ
チ成分のサンプル群を量子化して量子化ピッチ成分イン
デックスとして外部に出力すると共に、この量子化ピッ
チ成分インデックスを復号した量子化ピッチ成分を上記
加算器5に出力する。なお、該サンプル群の量子化は、
スカラ量子化であっても良いし、3サンプルからなるサ
ンプル群ごとにベクトル量子化してもよい。また、全サ
ンプル群を一括でベクトル量子化しても良い。以上がピ
ッチ符号化器4において行われる処理である。
The pitch sample quantizer 4d quantizes the pitch component sample group and outputs it to the outside as a quantized pitch component index, and the quantized pitch component obtained by decoding the quantized pitch component index is added to the adder. Output to 5. The quantization of the sample group is
Scalar quantization may be used, or vector quantization may be performed for each sample group consisting of three samples. Further, vector quantization may be performed on all sample groups at once. The above is the processing performed in the pitch encoder 4.

【0031】次に、加算器5は、該ピッチ符号化器4か
ら入力されたピッチ成分の量子化信号を用いて、第1平
坦化器3から入力された第1の平坦化信号からピッチ成
分のみを差し引いて第2の平坦化信号を生成し、微細ス
ペクトル概形計算・量子化器6および第2平坦化器7に
出力する。
Next, the adder 5 uses the quantized signal of the pitch component input from the pitch encoder 4 to generate the pitch component from the first flattened signal input from the first flattener 3. A second flattening signal is generated by subtracting only the above, and is output to the fine spectrum rough shape calculating / quantizing unit 6 and the second flattening unit 7.

【0032】ここで、図4は、この第2の平坦化信号の
周波数特性を示す図である。上記図2との比較でわかる
ように、第2の平坦化信号は、時間−周波数変換器1か
ら出力された周波数領域信号からピッチ成分を除去した
ものとなる。
FIG. 4 is a diagram showing the frequency characteristic of the second flattened signal. As can be seen from the comparison with FIG. 2, the second flattened signal is the frequency domain signal output from the time-frequency converter 1 with the pitch component removed.

【0033】微細スペクトル概形計算・量子化器6は、
該第2の平坦化信号から微細なスペクトルの概形(微細
スペクトル概形)を計算し、これを量子化する。そし
て、この量子化した信号を量子化微細スペクトル概形イ
ンデックスとして外部に出力すると共に、第2平坦化器
7に出力する。
The fine spectrum rough shape calculator / quantizer 6 is
A fine spectrum outline (fine spectrum outline) is calculated from the second flattened signal and quantized. Then, this quantized signal is output to the outside as a quantized fine spectrum outline index, and is also output to the second flattener 7.

【0034】この微細スペクトル概形は、微細スペクト
ル概形を直接量子化して求めてもよいし、過去のフレー
ムの微細スペクトル概形を線形合成して求めてもよい。
また、過去および現在のフレームの量子化された微細ス
ペクトル概形の情報を線形合成して求めてもよい。さら
に、この微細スペクトル概形は、例えば、第2の平坦化
信号の絶対値に3から5程度の幅の窓関数を畳み込んだ
ものを用いてもよいし、サブバンド分割した第2の平坦
化信号の振幅の代表値を各バンドごとに用意し、これを
概形としてもよい。
The fine spectrum outline may be obtained by directly quantizing the fine spectrum outline, or may be obtained by linearly combining the fine spectrum outlines of past frames.
Alternatively, the information of the quantized fine spectrum outlines of the past and present frames may be obtained by linear synthesis. Further, as this fine spectrum outline, for example, a value obtained by convolving a window function having a width of about 3 to 5 with the absolute value of the second flattened signal may be used, or the second flattened signal obtained by subband division. It is also possible to prepare a representative value of the amplitude of the encoded signal for each band and use this as a rough shape.

【0035】第2平坦化器7は、加算器5から入力され
た第2の平坦化信号を微細スペクトル概形計算・量子化
器6で得られた微細スペクト概形で除算して平坦化し、
第3の平坦化信号として量子化器8に出力する。この量
子化器8は、該第3の平坦化信号をスカラ量子化あるい
はベクトル量子化し、量子化インデックスとして外部に
出力する。
The second flattening unit 7 divides the second flattening signal input from the adder 5 by the fine spectrum rough shape obtained by the fine spectrum rough shape calculating / quantizing unit 6 to flatten it,
The third flattened signal is output to the quantizer 8. The quantizer 8 performs scalar quantization or vector quantization on the third flattened signal and outputs it to the outside as a quantization index.

【0036】なお、ベクトル量子化する場合は、フレー
ムの全サンプルを一括で量子化してもよいが、フレーム
のサンプル列を複数のサブベクトルに分割して、このサ
ブベクトルごとに量子化する方が演算量の面で現実的で
ある。また、分割の方法は、単純なサブバンド分割でも
よいし、サンプルをインタリーブしてから分割するイン
タリーブ分割でもよい。また、量子化の際必要な情報量
にあわせて適応的ビット割り当てをしてもよい。
In the case of vector quantization, all samples of a frame may be quantized at once, but it is better to divide the sample sequence of the frame into a plurality of subvectors and quantize each subvector. It is realistic in terms of calculation amount. The division method may be simple subband division, or interleave division in which samples are interleaved and then divided. Also, adaptive bit allocation may be performed according to the amount of information required for quantization.

【0037】次に、復号器Bについて説明する。図1に
示すように、復号器Bは、再生器9、微細スペクトル概
形再生器10、第1逆平坦化器11、ピッチ再生器1
2、加算器13、大局的概形再生器14、第2逆平坦化
器15、および時間−周波数逆変換器16によって構成
されている。
Next, the decoder B will be described. As shown in FIG. 1, the decoder B includes a regenerator 9, a fine spectrum outline regenerator 10, a first inverse flatter 11, and a pitch regenerator 1.
2, an adder 13, a global rough regenerator 14, a second inverse flatter 15, and a time-frequency inverse converter 16.

【0038】このうち、再生器9は、上記符号器Aから
伝送されてきた量子化インデックスから上記第3の平坦
化信号を再生する。この再生器9は、上記量子化器8の
逆処理を行うことにより第3の平坦化信号を再生し、第
1逆平坦化器11に出力する。微細スペクトル概形再生
器10は、符号器Aから伝送されてきた微細スペクトル
概形量子化インデックスから微細スペクトル概形を再生
する。
Of these, the regenerator 9 regenerates the third flattened signal from the quantization index transmitted from the encoder A. The regenerator 9 reproduces the third flattened signal by performing the inverse process of the quantizer 8 and outputs it to the first inverse flattener 11. The fine spectrum outline regenerator 10 reproduces the fine spectrum outline from the fine spectrum outline quantization index transmitted from the encoder A.

【0039】第1逆平坦化器11は、再生器9から入力
された第3の平坦化信号に微細スペクトル概形を付加し
て、上記第2の平坦化信号を再生して加算器13に出力
する。また、ピッチ再生器12は、符号器Aから伝送さ
れてきた量子化ピッチ成分インデックスおよび量子化ピ
ッチ基本周波数インデックスから上記ピッチ成分を再生
し、加算器13に出力する。
The first inverse flattener 11 adds a fine spectrum outline to the third flattened signal input from the regenerator 9, reproduces the second flattened signal, and supplies it to the adder 13. Output. The pitch regenerator 12 regenerates the pitch component from the quantized pitch component index and the quantized pitch fundamental frequency index transmitted from the encoder A, and outputs it to the adder 13.

【0040】加算器13は、第1逆平坦化器11から入
力された第2の平坦化信号に、ピッチ再生器12から入
力されたピッチ成分を加えて上記第1の平坦化信号を再
生し、第2逆平坦化器15に出力する。また、大局的概
形再生器14は、符号器Aから伝送されてきた量子化大
局的概形インデックスから上記大局的概形を再生し、第
2逆平坦化器15に出力する。
The adder 13 adds the pitch component input from the pitch regenerator 12 to the second flattened signal input from the first inverse flattener 11 to reproduce the first flattened signal. , To the second inverse flatter 15. Further, the global outline regenerator 14 reproduces the global outline from the quantized global outline index transmitted from the encoder A, and outputs it to the second inverse flatter 15.

【0041】第2逆平坦化器15は、加算器13から入
力された第1の平坦化信号に、大局的概形再生器14か
ら入力された大局的概形を付加し、上記周波数領域信号
を生成する。そして、時間−周波数逆変換器16は、該
第2逆平坦化器15から入力された周波数領域信号に時
間−周波数逆変換を施して復号し、時間領域の音声信号
あるいは楽音信号を出力する。
The second inverse flatter 15 adds the global outline input from the global outline regenerator 14 to the first flattened signal input from the adder 13, and outputs the frequency domain signal. To generate. Then, the time-frequency inverse converter 16 performs time-frequency inverse conversion on the frequency domain signal input from the second inverse flatter 15 and decodes it to output a time domain voice signal or musical tone signal.

【0042】[0042]

【発明の効果】以上説明したように、本発明によれば、
ピッチ成分を有する楽音信号あるいは音声信号を符号化
するに際し、該信号を周波数領域に変換した周波数領域
信号に現れるスパイク状のピッチ成分のの規則性を利用
して、これを高能率に符号化する。したがって、より平
坦化された残差係数を得ることができ、符号化器全体の
能率を高めることが可能である。
As described above, according to the present invention,
When encoding a musical tone signal or a voice signal having a pitch component, the regularity of spike-like pitch components appearing in a frequency domain signal obtained by converting the signal into the frequency domain is used to highly efficiently encode the signal. . Therefore, a more flattened residual coefficient can be obtained, and the efficiency of the entire encoder can be improved.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施形態を示す符号器および復号器
を説明する図である。
FIG. 1 is a diagram illustrating an encoder and a decoder according to an embodiment of the present invention.

【図2】本発明において時間−周波数変換器の出力信号
の周波数特性を示す図である。
FIG. 2 is a diagram showing frequency characteristics of an output signal of the time-frequency converter in the present invention.

【図3】本発明においてピッチ符号化器の詳細構成を示
す図である。
FIG. 3 is a diagram showing a detailed configuration of a pitch encoder in the present invention.

【図4】本発明において第2平坦化信号の周波数特性を
示す図である。
FIG. 4 is a diagram showing frequency characteristics of a second flattened signal in the present invention.

【図5】従来の変換符号化方法を説明する第1の図であ
る。
FIG. 5 is a first diagram illustrating a conventional transform coding method.

【図6】従来の変換符号化方法を説明する第2の図であ
る。
FIG. 6 is a second diagram illustrating a conventional transform encoding method.

【符号の説明】[Explanation of symbols]

1 時間−周波数変換器 2 大局的概形計算・量子化器 3 第1平坦化器 4 ピッチ符号化器 5、13 加算器 6 微細スペクトル概形計算・量子化器 7 第2平坦化器 8 量子化器 9 再生器 10 微細スペクトル概形再生器 11 第1逆平坦化器 12 ピッチ再生器 14 大局的概形再生器 15 第2逆平坦化器 16 時間−周波数逆変換器 1 Time-Frequency Converter 2 Global Approximate Calculator / Quantizer 3 First Flatter 4 Pitch Encoder 5 13 Adder 6 Fine Spectrum Approximate Calculator / Quantizer 7 2nd Flatter 8 Quantum 9 Regenerator 10 Fine spectrum rough regenerator 11 First inverse flatter 12 Pitch regenerator 14 Global rough regenerator 15 Second inverse flatter 16 Time-frequency inverse converter

Claims (8)

【特許請求の範囲】[Claims] 【請求項1】 ピッチ成分を含む楽音信号あるいは音声
信号の変換符号化方法であって、 音信号あるいは音声信号を一定時間間隔のフレームに分
割し、周波数領域信号に変換する第1の段階と、 前記周波数領域信号からピッチ成分のみを抽出、分離し
て符号化する第2の段階と、 前記周波数領域信号からピッチ成分を除去した信号を符
号化する第3の段階とからなることを特徴とした変換符
号化方法。
1. A method for transform-encoding a tone signal or voice signal containing a pitch component, the method comprising: a first step of dividing the tone signal or voice signal into frames at fixed time intervals and transforming into a frequency domain signal; It is characterized by comprising a second step of extracting only the pitch component from the frequency domain signal, separating and encoding the same, and a third step of encoding a signal from which the pitch component is removed from the frequency domain signal. Transform coding method.
【請求項2】 第2の段階は、ピッチ成分の基本周波数
を求めて符号化する第4の段階と、該基本周波数をもと
にピッチ成分を抽出して符号化する第5の段階とからな
ることを特徴とする請求項1記載の変換符号化方法。
2. The second step comprises a fourth step of obtaining and coding a fundamental frequency of a pitch component and a fifth step of extracting and coding a pitch component based on the fundamental frequency. The transform coding method according to claim 1, wherein
【請求項3】 第5の段階は、基本周波数の自然数倍の
周波数に最も近い周波数領域信号のサンプルを中心とし
て、これを含めた連続する複数のサンプルを1単位とし
てピッチ成分を抽出することを特徴とする請求項2記載
の変換符号化方法。
3. A fifth step is to extract a pitch component with a unit of a plurality of continuous samples including a sample of a frequency domain signal closest to a frequency which is a natural multiple of the fundamental frequency. The transform coding method according to claim 2.
【請求項4】 第5の段階は、ピッチ成分の各単位ごと
にベクトル量子化することにより符号化することを特徴
とする請求項2または3記載の変換符号化方法。
4. The transform coding method according to claim 2, wherein in the fifth step, coding is performed by vector quantization for each unit of the pitch component.
【請求項5】 請求項1記載の変換符号化方法によって
得られた符号の復号化方法であって、 第2の段階において符号化されたピッチ成分を復号化す
る第6の段階と、 第3の段階において符号化された周波数領域信号からピ
ッチ成分を除去した信号を復号化する第7の段階と、 前記第6の段階において得られた複合化出力と第7の段
階において得られた複合化出力を合成して得られた周波
数領域信号を時間領域信号に変換する第8の段階とから
なることを特徴とする変換復号化方法。
5. A method for decoding a code obtained by the transform coding method according to claim 1, comprising a sixth step of decoding the pitch component coded in the second step, and a third step. A seventh step of decoding a signal from which a pitch component has been removed from the frequency domain signal encoded in the step of :, the composite output obtained in the sixth step, and the composite output obtained in the seventh step. An eighth step of transforming a frequency domain signal obtained by synthesizing outputs into a time domain signal, the transform decoding method.
【請求項6】 第6の段階は、第4の段階で得られたピ
ッチ成分の基本周波数を復号化する第9の段階と、該第
9の段階によって得られたピッチ成分の基本周波数をも
とにピッチ成分を周波数領域の信号として配置する第1
0の段階とからなることを特徴とする請求項5記載の変
換復号化方法。
6. The sixth step also includes a ninth step of decoding the fundamental frequency of the pitch component obtained in the fourth step and a fundamental frequency of the pitch component obtained by the ninth step. First, the pitch component is arranged as a signal in the frequency domain in and
6. The transform decoding method according to claim 5, further comprising:
【請求項7】 第10の段階は、基本周波数の自然数倍
の周波数に最も近い周波数領域のサンプルを含めた連続
するサンプルを1単位としてピッチ成分を配置すること
を特徴とする請求項6記載の変換復号化方法。
7. The pitch component is arranged in the tenth step with one continuous sample including a sample in a frequency region closest to a frequency that is a natural multiple of the fundamental frequency as one unit. Conversion decoding method.
【請求項8】 第10の段階は、ピッチ成分の各単位ご
とにベクトル量子化されたインデックスを復号化するこ
とを特徴とする請求項6または7記載の変換復号化方
法。
8. The transform decoding method according to claim 6, wherein in the tenth step, the vector-quantized index is decoded for each unit of the pitch component.
JP24814595A 1995-09-26 1995-09-26 Transform coding method and transform decoding method Expired - Lifetime JP3348759B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24814595A JP3348759B2 (en) 1995-09-26 1995-09-26 Transform coding method and transform decoding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24814595A JP3348759B2 (en) 1995-09-26 1995-09-26 Transform coding method and transform decoding method

Publications (2)

Publication Number Publication Date
JPH0990989A true JPH0990989A (en) 1997-04-04
JP3348759B2 JP3348759B2 (en) 2002-11-20

Family

ID=17173899

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24814595A Expired - Lifetime JP3348759B2 (en) 1995-09-26 1995-09-26 Transform coding method and transform decoding method

Country Status (1)

Country Link
JP (1) JP3348759B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010111630A (en) * 2000-06-12 2001-12-19 니시무로 타이죠 Device and method for converting time/pitch
KR100713366B1 (en) * 2005-07-11 2007-05-04 삼성전자주식회사 Pitch information extracting method of audio signal using morphology and the apparatus therefor
JP2007272238A (en) * 2000-12-14 2007-10-18 Sony Corp Encoding device and method, decoding device and method, and recording medium
JP2008502022A (en) * 2004-06-08 2008-01-24 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Audio encoding
KR100868763B1 (en) * 2006-12-04 2008-11-13 삼성전자주식회사 Method and apparatus for extracting Important Spectral Component of audio signal, and method and appartus for encoding/decoding audio signal using it
WO2010101446A3 (en) * 2009-03-06 2010-11-04 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010111630A (en) * 2000-06-12 2001-12-19 니시무로 타이죠 Device and method for converting time/pitch
JP2007272238A (en) * 2000-12-14 2007-10-18 Sony Corp Encoding device and method, decoding device and method, and recording medium
JP4548444B2 (en) * 2000-12-14 2010-09-22 ソニー株式会社 Encoding apparatus and method, decoding apparatus and method, and recording medium
JP2008502022A (en) * 2004-06-08 2008-01-24 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Audio encoding
KR100713366B1 (en) * 2005-07-11 2007-05-04 삼성전자주식회사 Pitch information extracting method of audio signal using morphology and the apparatus therefor
KR100868763B1 (en) * 2006-12-04 2008-11-13 삼성전자주식회사 Method and apparatus for extracting Important Spectral Component of audio signal, and method and appartus for encoding/decoding audio signal using it
US8612215B2 (en) 2006-12-04 2013-12-17 Samsung Electronics Co., Ltd. Method and apparatus to extract important frequency component of audio signal and method and apparatus to encode and/or decode audio signal using the same
WO2010101446A3 (en) * 2009-03-06 2010-11-04 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
US8532803B2 (en) 2009-03-06 2013-09-10 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof

Also Published As

Publication number Publication date
JP3348759B2 (en) 2002-11-20

Similar Documents

Publication Publication Date Title
US6721700B1 (en) Audio coding method and apparatus
KR101139172B1 (en) Technique for encoding/decoding of codebook indices for quantized mdct spectrum in scalable speech and audio codecs
JP4506039B2 (en) Encoding apparatus and method, decoding apparatus and method, and encoding program and decoding program
KR101171098B1 (en) Scalable speech coding/decoding methods and apparatus using mixed structure
US6871106B1 (en) Audio signal coding apparatus, audio signal decoding apparatus, and audio signal coding and decoding apparatus
US6678655B2 (en) Method and system for low bit rate speech coding with speech recognition features and pitch providing reconstruction of the spectral envelope
KR20080059279A (en) Audio compression
KR20080074234A (en) Vector quantizing device for lpc parameters, decoding device for lpc parameters, recording medium, voice encoding device, voice decoding device, voice signal transmitting device, and voice signal receiving device
JPH0869299A (en) Voice coding method, voice decoding method and voice coding/decoding method
JP3765171B2 (en) Speech encoding / decoding system
JPH07261800A (en) Transformation encoding method, decoding method
US6269332B1 (en) Method of encoding a speech signal
JPH09106299A (en) Coding and decoding methods in acoustic signal conversion
JP4359949B2 (en) Signal encoding apparatus and method, and signal decoding apparatus and method
JP3348759B2 (en) Transform coding method and transform decoding method
WO2002021091A1 (en) Noise signal analyzer, noise signal synthesizer, noise signal analyzing method, and noise signal synthesizing method
JP3297749B2 (en) Encoding method
JP4281131B2 (en) Signal encoding apparatus and method, and signal decoding apparatus and method
JP3237178B2 (en) Encoding method and decoding method
JP2004246038A (en) Speech or musical sound signal encoding method, decoding method, encoding device, decoding device, encoding program, and decoding program
JPH09230898A (en) Acoustic signal transformation and encoding and decoding method
JP4618823B2 (en) Signal encoding apparatus and method
KR20090016343A (en) Method and apparatus for encoding/decoding signal having strong non-stationary properties using hilbert-huang transform
KR100768090B1 (en) Apparatus and method for waveform interpolation speech coding for complexity reduction
JP2002073097A (en) Celp type voice coding device and celp type voice decoding device as well as voice encoding method and voice decoding method

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070913

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080913

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080913

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090913

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090913

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100913

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100913

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110913

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120913

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130913

Year of fee payment: 11

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term