JP2002123298A - Method and device for encoding signal, recording medium recorded with signal encoding program - Google Patents

Method and device for encoding signal, recording medium recorded with signal encoding program

Info

Publication number
JP2002123298A
JP2002123298A JP2000318017A JP2000318017A JP2002123298A JP 2002123298 A JP2002123298 A JP 2002123298A JP 2000318017 A JP2000318017 A JP 2000318017A JP 2000318017 A JP2000318017 A JP 2000318017A JP 2002123298 A JP2002123298 A JP 2002123298A
Authority
JP
Japan
Prior art keywords
quantization
envelope
weighting
calculating
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000318017A
Other languages
Japanese (ja)
Other versions
JP3590342B2 (en
Inventor
Akio Jin
明夫 神
Takehiro Moriya
健弘 守谷
Naoki Iwagami
直樹 岩上
Takeshi Mori
岳至 森
Kazuaki Chikira
和明 千喜良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2000318017A priority Critical patent/JP3590342B2/en
Publication of JP2002123298A publication Critical patent/JP2002123298A/en
Application granted granted Critical
Publication of JP3590342B2 publication Critical patent/JP3590342B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide a method for masking hearing sensation highly accurately by precisely estimating the position of a mountain and a valley in a spectral envelope curved line when vocal and musical sound signals are encoded. SOLUTION: The device is provided with a T/F converter 11 which performs a time-axis/frequency-axis conversion to an input signal to obtain a coefficient sequence X on a frequency-axis (n), an envelope calculation part 13 which calculates the spectral envelope on the basis of the coefficient sequence X (n), a mountain and valley estimation part 14 which estimates the position of the mountain and the valley in the spectral envelope, a weighting part 15 which performs weighting of amount of information at the position of the estimated mountain and valley in the spectral envelope, a hearing sensation weight calculation part 16 which calculates hearing sensation weight for quantization on the basis of the spectral envelope subjected to weighting of amount of information, and a quantization part 17 which performs quantization to the coefficient sequence X (n) on the basis of the hearing sensation weight for quantization.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、入力信号を時間軸
/周波数軸変換して量子化を行う信号符号化方法及び装
置に関し、特に、符号化に際して発生する量子化誤差
を、人間の耳が知覚しづらいように変形するための聴覚
マスキング方法と、この聴覚マスキング方法による信号
符号化装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a signal encoding method and apparatus for performing quantization by transforming an input signal on a time axis / frequency axis. The present invention relates to an auditory masking method for deforming the audio signal so as to be hard to perceive, and a signal encoding device using the auditory masking method.

【0002】[0002]

【従来の技術】音声・楽音を符号化する従来の信号符号
化方法における聴覚マスキング方法としては、入力信号
を時間軸上または時間軸/周波数軸変換した上で、線形
予測分析方法等によりその入力信号のスペクトル包絡曲
線を推定し、その推定された曲線に妥当な変形操作を加
えることによってマスキング曲線を求めて聴覚マスキン
グを行なうという方法があった。あるいは、入力信号を
時間軸/周波数軸変換した信号から直接、スペクトル包
絡曲線を求め、この曲線に妥当な変形操作を加えること
によってマスキング曲線を求めて、聴覚マスキングによ
る量子化を行なう方法もあった。
2. Description of the Related Art As an auditory masking method in a conventional signal encoding method for encoding voices and musical sounds, an input signal is converted on a time axis or a time axis / frequency axis, and the input signal is input by a linear prediction analysis method or the like. There has been a method of estimating a spectral envelope curve of a signal, performing a proper deformation operation on the estimated curve, obtaining a masking curve, and performing auditory masking. Alternatively, there is also a method in which a spectrum envelope curve is directly obtained from a signal obtained by converting an input signal into a time axis / frequency axis, and a masking curve is obtained by applying a proper deformation operation to the curve to perform quantization by auditory masking. .

【0003】[0003]

【発明が解決しようとする課題】聴覚マスキング方法で
は、周波数軸上でのマスキングとして、スペクトル包絡
曲線の谷付近の量子化雑音を減らし、その代りにスペク
トル包絡曲線の山付近の量子化雑音を増加させるような
ノイズシェイピングを行うことによって、人間の耳には
量子化雑音が聞こえにくいようにすることができる。こ
こで、上述したような従来法では、スペクトル包絡にお
ける山と谷の推定位置が不正確となる場合があったた
め、ノイズシェイピングが適切に行われずに、結果とし
て符号化再生音の音質が悪い場合があった。
In the auditory masking method, as the masking on the frequency axis, the quantization noise near the valley of the spectrum envelope curve is reduced, and the quantization noise near the peak of the spectrum envelope curve is increased instead. By performing such noise shaping, it is possible to make the quantization noise inaudible to the human ear. Here, in the conventional method as described above, since the estimated positions of the peaks and valleys in the spectral envelope may be inaccurate, noise shaping is not properly performed, and as a result, the sound quality of the encoded reproduced sound is poor. was there.

【0004】そこで本発明の目的は、スペクトル包絡曲
線における山と谷の位置を正確に推定することができ、
これによって精度の高い聴覚マスキング方法を実行でき
る信号符号化方法及び装置を提供することにある。
Accordingly, an object of the present invention is to accurately estimate the positions of peaks and valleys in a spectral envelope curve,
Accordingly, it is an object of the present invention to provide a signal encoding method and apparatus capable of executing a highly accurate auditory masking method.

【0005】[0005]

【課題を解決するための手段】本発明は、聴感ベースで
の歪みが最小となるように量子化できる信号符号化を実
現するためのものであって、上述した課題を解決するた
めに、スペクトル包絡曲線の山と谷の位置を正確に推定
し、正確に推定した山と谷の位置から適切なノイズシェ
イピングを行う手法を取る。スペクトル包絡曲線の山と
谷の位置推定は、時間軸/周波数軸変換した信号の正確
なスペクトル包絡曲線から必要に応じて、微細な凹凸を
取り除き、さらに必要に応じて1階微分、2階微分を求
めて、これらの微分値または、微分値の相加平均値か
ら、山と谷の正確な位置を決定する。こうして得られた
山と谷の位置において適切な重みづけを行ない、効果的
なノイズシェイピングを実現する。
SUMMARY OF THE INVENTION The present invention is for realizing signal encoding that can be quantized so that distortion on an auditory basis is minimized. A method of accurately estimating the positions of the peaks and valleys of the envelope curve and performing appropriate noise shaping from the accurately estimated positions of the peaks and valleys is employed. The position estimation of the peaks and valleys of the spectrum envelope curve is performed by removing fine irregularities as necessary from the accurate spectrum envelope curve of the signal subjected to the time-axis / frequency-axis conversion, and further performing first-order differentiation and second-order differentiation as necessary. And the exact positions of the peaks and valleys are determined from these differential values or the arithmetic mean of the differential values. Appropriate weighting is performed at the positions of the peaks and valleys thus obtained, and effective noise shaping is realized.

【0006】[0006]

【発明の実施の形態】次に、本発明の好ましい実施の形
態について、図面を参照して説明する。図1は本発明の
実施の一形態の信号符号化装置の構成を示すブロック図
である。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Next, a preferred embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram illustrating a configuration of a signal encoding device according to an embodiment of the present invention.

【0007】この信号符号化装置は、典型的には音声信
号あるいは楽音信号である時系列の入力信号x(t)に対
して時間軸/周波数軸変換(T/F変換)を施して周波
数軸上の信号列X(n)を得るT/F変換部11と、この
信号列X(n)に対してベクトル量子化(VQ)及びスカ
ラー量子化(SQ)を施して量子化インデックスを得る
量子化部12を備えている。ここでT/F変換部11
は、例えば、MDCT(modified descrete cosine tra
nsform;変形離散コサイン変換)などの変換を実行し、
X(n)はこの変換によって得られた変換係数列などを指
す。さらにこの信号符号化装置では、どの周波数帯域に
どれだけの情報量を配分するのかを決定するための“聴
覚重み”を算出し、量子化部11での量子化に際し、人
間の耳に量子化雑音が聞こえ難いようにこの聴覚重みに
基づく聴覚重み付け量子化が行われるようになってい
る。聴覚重みの算出のために、この信号符号化装置は、
信号列X(n)に基づいてスペクトル包絡を算出する包絡
算出部13と、算出されたスペクトル包絡に基づいてス
ペクトルの山と谷の位置を推定する山・谷推定部14
と、推定されたスペクトルの山と谷の位置に基づき、情
報量の配分が「山の位置で特に小さく」かつ「谷の位置
で特に大きく」なるように、山の付近と谷の付近におい
て適切な重み付けを行う重み付け部15と、“聴覚重
み”として量子化部12に出力する聴覚重み算出部16
と、を備えている。ここで“聴覚重み”の原形として
は、スペクトル包絡の逆数を用いている。
This signal encoding apparatus performs time / frequency axis conversion (T / F conversion) on a time-series input signal x (t), which is typically a voice signal or a tone signal, and performs frequency axis conversion. A T / F converter 11 for obtaining the above signal sequence X (n), and a quantum for obtaining a quantization index by performing vector quantization (VQ) and scalar quantization (SQ) on the signal sequence X (n). It has a conversion unit 12. Here, the T / F converter 11
Is, for example, MDCT (modified descrete cosine tra
nsform; modified discrete cosine transform)
X (n) indicates a conversion coefficient sequence or the like obtained by this conversion. Further, this signal encoding apparatus calculates an “auditory weight” for determining how much information amount is to be allocated to which frequency band, and when the quantization is performed by the quantization unit 11, the quantization is performed by the human ear. Perceptual weighting quantization based on this perceptual weight is performed so that noise is hard to hear. For the calculation of the auditory weight, this signal coding device
An envelope calculating unit 13 that calculates a spectrum envelope based on the signal sequence X (n), and a peak / valley estimating unit 14 that estimates the positions of peaks and valleys of the spectrum based on the calculated spectrum envelope.
Based on the estimated peak and valley positions of the spectrum, the distribution of the information amount is appropriate in the vicinity of the peak and the valley so that the distribution of the information amount is “particularly small at the peak position” and “particularly large at the valley position”. Weighting unit 15 for performing an appropriate weighting, and an auditory weight calculating unit 16 for outputting to the quantizing unit 12 as “auditory weight”
And Here, the reciprocal of the spectral envelope is used as the original form of the “auditory weight”.

【0008】なお、山、谷については、横軸を周波数軸
として信号列X(n)をプロットし、ならした(平滑化し
た)ときに、周囲に比べて信号列の値が大きいところを
山と称し、周囲に比べて値が小さいところを谷と称して
いる。後述するように、平滑化は、例えばある区間長
(平均区間長ともいう)での相加平均を算出する(その
区間長による移動平均を算出する)ことによって行われ
ているが、このとき、その区間長を変化させることによ
り、微細な山・谷、やや微細な山・谷、大まかな山・谷
の位置などが推定されることになる。ここで相加平均と
は、1フレーム内のスペクトルを周波数区間内で平滑化
するためのものである。本発明では、平滑化の度合いが
異なる山・谷の位置の推定を組み合わせることにより、
より精度の高い聴覚マスキングを可能にしている。
As for the peaks and valleys, the signal sequence X (n) is plotted with the horizontal axis as the frequency axis, and when the signal sequence X (n) is averaged (smoothed), a portion where the value of the signal sequence is larger than the surroundings is indicated as a peak. The area where the value is smaller than the surrounding area is called a valley. As described later, the smoothing is performed by, for example, calculating an arithmetic mean (calculating a moving average based on the section length) in a certain section length (also referred to as an average section length). By changing the section length, fine peaks / valleys, slightly fine peaks / valleys, rough positions of peaks / valleys, and the like are estimated. Here, the arithmetic averaging is for smoothing a spectrum in one frame in a frequency section. In the present invention, by combining the estimation of the positions of the peaks and valleys with different degrees of smoothing,
This enables more accurate auditory masking.

【0009】次に、この信号符号化装置の動作を説明す
る。
Next, the operation of the signal encoding apparatus will be described.

【0010】時系列の信号として入力する時系列の入力
信号x(t)は、T/F変換部11によって周波数軸上の
信号列X(n)に変換される。この信号列X(n)は、ベク
トル量子化及びスカラー量子化のために量子化部12に
供給されるとともに、そのスペクトル包絡を算出するた
めに、包絡算出部13にも送られる。包絡算出部13
は、信号列X(n)のスペクトル包絡を算出し、山・谷推
定部14は、算出されたスペクトル包絡に基づいて、ス
ペクトルにおける山と谷の位置を推定し、推定した位置
を重み付け部15に出力する。重み付け部15は、包絡
算出部13において得られたスペクトル包絡の逆数に基
づいて、スペクトルの山と谷の位置においてそれぞれ、
情報量の配分が「山の位置で特に小さく」、「谷の位置
で特に大きく」なるように、山の付近と谷の付近におい
て、適切な情報量重み付けを行う。具体的には、山の付
近を高く持ち上げかつ谷の付近を深く下げるか、あるい
は、山の付近を低く下げ谷の付近を浅くなるように持ち
上げるような重み関数を用いて、山・谷の位置へ重み付
け操作を行う。重み付け部15には、包絡算出部13か
らスペクトル包絡曲線が供給されており、重み付け操作
が施されたスペクトル包絡曲線が重み付け部15から聴
覚重み算出部16に供給される。
A time-series input signal x (t) input as a time-series signal is converted by a T / F converter 11 into a signal sequence X (n) on the frequency axis. The signal sequence X (n) is supplied to the quantization unit 12 for vector quantization and scalar quantization, and is also sent to the envelope calculation unit 13 to calculate the spectrum envelope. Envelope calculator 13
Calculates the spectral envelope of the signal sequence X (n), and the peak / valley estimating unit 14 estimates the positions of the peaks and valleys in the spectrum based on the calculated spectral envelope, and weights the estimated position to a weighting unit 15. Output to The weighting unit 15 calculates the peak and valley positions of the spectrum based on the reciprocal of the spectrum envelope obtained by the envelope calculation unit 13, respectively.
Appropriate information amount weighting is performed in the vicinity of the mountain and in the vicinity of the valley so that the distribution of the information amount is “particularly small at the position of the mountain” and “particularly large at the position of the valley”. Specifically, the position of the peaks and valleys is raised using a weight function that raises the vicinity of the peaks high and lowers the vicinity of the valleys deeply, or lowers the vicinity of the peaks and raises the vicinity of the valleys so as to be shallow. Weighting operation. The weighting unit 15 is supplied with a spectrum envelope curve from the envelope calculation unit 13, and the weighted operation is performed to supply the weighted spectrum envelope curve to the auditory weight calculation unit 16.

【0011】聴覚重み算出部16は、重み付けされたス
ペクトル包絡曲線に基づいて量子化用聴覚重みを算出し
てそれを量子化部12に向けて出力する。その結果、量
子化部13は、供給された量子化用聴覚重みを使用し
て、T/F変換部11からの信号列X(n)に対するベク
トル量子化及びスカラー量子化を実行する。これによ
り、量子化部13から、精度の高い聴覚マスキングがな
された量子化インデックス(出力インデックス)が出力
される。
The auditory weight calculator 16 calculates an auditory weight for quantization based on the weighted spectral envelope curve, and outputs it to the quantizer 12. As a result, the quantization unit 13 performs vector quantization and scalar quantization on the signal sequence X (n) from the T / F conversion unit 11 using the supplied auditory weights for quantization. As a result, the quantization unit 13 outputs a quantization index (output index) on which high-precision auditory masking has been performed.

【0012】以上、この実施の形態の信号符号化装置の
基本的動作を説明したが、本発明では、聴覚重み付けの
方法として、上述した重み付けの方法と、従来から一般
的に用いられている線形予測分析法等によりスペクトル
包絡を予測し包絡曲線の山と谷をべき乗演算によりなま
らせ重みとする方法とを併用してもよい。
Although the basic operation of the signal encoding apparatus according to this embodiment has been described above, in the present invention, the above-described weighting method and a conventionally used linear weighting method are used as auditory weighting methods. A method may be used in which a spectral envelope is predicted by a prediction analysis method or the like, and peaks and valleys of the envelope curve are rounded by exponentiation operation and weighted.

【0013】次に、この実施の形態における重み付けの
過程を詳細を説明する。
Next, the weighting process in this embodiment will be described in detail.

【0014】図2は、スペクトルの山・谷へ重み付けを
行う過程を示すブロック図である。ここでは、スペクト
ル包絡算出部13において得られたスペクトル包絡曲線
から、山・谷推定部14において、スペクトルの微細な
山・谷の周波数位置を推定し、次にやや微細な山・谷の
周波数位置を推定し、というように、この手順を必要な
回数だけ繰り返し、最後に、スペクトルの大まかな山・
谷の周波数位置を推定する。重み付け部15は、これら
の推定された山と谷の付近に対して、各々、妥当な重み
関数によって重み付け操作を行う。
FIG. 2 is a block diagram showing a process of weighting peaks and valleys of a spectrum. Here, from the spectrum envelope curve obtained by the spectrum envelope calculator 13, the peak / valley estimator 14 estimates the frequency position of the fine peak / valley of the spectrum, and then the frequency position of the slightly fine peak / valley. This procedure is repeated as many times as necessary, and finally, a rough peak of the spectrum is obtained.
Estimate the frequency position of the valley. The weighting unit 15 performs a weighting operation on each of the estimated peaks and valleys by using an appropriate weighting function.

【0015】図3は、包絡算出部13における処理の詳
細を示すブロック図である。包絡算出部13は、周波数
領域の信号列X(n)に対して相加平均処理を施すことに
より、スペクトル包絡曲線を得るものである。図におい
て、相加平均(1)から相加平均(k)までは、それぞ
れ、区間長が異なる移動平均区間における相加平均であ
る。ここでは、信号列X(n)に対し、まず、第1の相加
平均(1)が適用され、その結果Y1(n)に対して第2
の相加平均(2)が適用され、さらにその結果Y2(n)
に対して第3の相加平均(3)が適用されるというよう
にして、k回の相加平均を順次行うようにしている。こ
こでkは1以上の整数の定数である。このようにして得
られた各相加平均の結果Y1(n),Y2(n),...,Y
k(n)は、それぞれ山・谷推定部14に送られる。各回
の相加平均での区間長は、各々の用途に応じて決定され
るものであるが、主として、相加平均(1)では平均区
間長を短くして微細な山と谷の位置を検出し、相加平均
(2)では相加平均(1)よりも平均区間長を長くして
大まかな山と谷の位置を検出する。以下、相加平均
(k)まで同様の操作とし、各回の相加平均での平均区
間長を徐々に長くして行くとよい。また、前述した“相
加平均(k)”の演算は、必要に応じて、平均区間長を
変えて複数回実施してもよい。
FIG. 3 is a block diagram showing details of the processing in the envelope calculation unit 13. The envelope calculation unit 13 obtains a spectrum envelope curve by performing arithmetic averaging processing on the signal sequence X (n) in the frequency domain. In the figure, arithmetic averages (1) to (k) are arithmetic averages in moving average sections having different section lengths. Here, first, the first arithmetic mean (1) is applied to the signal sequence X (n), and as a result, the second arithmetic average (1) is applied to Y 1 (n).
The arithmetic mean (2) is applied, and as a result Y 2 (n)
, The third arithmetic mean (3) is applied, and the arithmetic average of k times is sequentially performed. Here, k is an integer constant of 1 or more. The results of each arithmetic mean Y 1 (n), Y 2 (n),.
k (n) is sent to the peak / valley estimating unit 14, respectively. The section length in each arithmetic averaging is determined according to each application, but mainly in the arithmetic averaging (1), the average section length is shortened to detect fine peaks and valleys. In the arithmetic averaging (2), the average section length is made longer than in the arithmetic averaging (1), and rough peak and valley positions are detected. Hereinafter, the same operation is performed up to the arithmetic averaging (k), and the average section length in each arithmetic averaging may be gradually increased. Further, the arithmetic operation of the above-described “arithmetic average (k)” may be performed a plurality of times by changing the average section length as needed.

【0016】ここでkの値や各相加平均での区間長につ
いて説明する。kは1以上の整数であればよいが、典型
的には2または3である。また、入力信号が通常の音声
信号であり、入力信号のサンプリング周波数が16kH
z、フレーム長が60msである場合には、相加平均
(1)の平均区間長は200μs程度、相加平均(2)
の平均区間長は1ms程度、相加平均(3)の平均区間
長は10ms程度、とすることが好ましい。
Here, the value of k and the section length at each arithmetic mean will be described. k may be an integer of 1 or more, but is typically 2 or 3. The input signal is a normal audio signal, and the sampling frequency of the input signal is 16 kHz.
When the z and the frame length are 60 ms, the average section length of the arithmetic average (1) is about 200 μs, and the arithmetic average (2)
Is preferably about 1 ms, and the average section length of the arithmetic mean (3) is about 10 ms.

【0017】次に、山・谷推定部14での処理を説明す
る。図4は、山・谷推定部14での処理を説明するブロ
ック図である。
Next, the processing in the peak / valley estimating unit 14 will be described. FIG. 4 is a block diagram for explaining processing in the peak / valley estimating unit 14.

【0018】山・谷推定部14は、包絡算出部13から
の各回の相加平均によるスペクトル包絡を表す係数列Y
1(n),Y2(n),...,Yk(n)を入力として、係数列ご
とに、以下のようにして山と谷の位置を推定する。すな
わち、入力した係数列Yj(n)(1≦j≦k)をまずn
で微分して系列Y′j(n)を求め、この系列Y′j(n)に
対して適切な区間で相加平均をとり、微細な変動成分を
取り除いた系列
The peak / valley estimating unit 14 calculates a coefficient sequence Y representing the spectral envelope by the arithmetic averaging from each time from the envelope calculating unit 13.
Using 1 (n), Y 2 (n),..., Y k (n) as inputs, the positions of peaks and valleys are estimated for each coefficient sequence as follows. That is, the input coefficient sequence Y j (n) (1 ≦ j ≦ k) is first converted to n
In differentiating 'seek j (n), the sequence Y' series Y to take an arithmetic mean with the appropriate interval relative to j (n), sequence obtained by removing the fine fluctuation component

【0019】[0019]

【外1】 [Outside 1]

【0020】を求める。さらにこれをnで再び微分して
系列Y″j(n)を求め、この系列Y″j(n)の微細な変動
成分を取り除いた系列
Is obtained. Further, this is differentiated again by n to obtain a series Y ″ j (n), and a series Y ′ j (n) obtained by removing minute fluctuation components from the series Y ″ j (n)

【0021】[0021]

【外2】 [Outside 2]

【0022】を求める。そして、図4中に式で示したよ
うに、これらの値の正負からスペクトル包絡曲線の山と
谷の位置を推定する。また、前述した、微細な変動成分
を取り除くための“相加平均”の演算は、必要に応じ
て、平均区間長を変えて複数回実施してもよいし、これ
を実施しなくてもよい。
Is obtained. Then, as shown by the equation in FIG. 4, the positions of the peaks and valleys of the spectrum envelope curve are estimated from the positive / negative of these values. In addition, the above-described arithmetic operation of “arithmetic averaging” for removing minute fluctuation components may be performed a plurality of times by changing the average section length as necessary, or may not be performed. .

【0023】図5は、以上のようにして係数列X(n)か
らスペクトル包絡の山と谷が検出された様子を例示する
図である。ここでは、k=2、すなわち包絡算出部13
において2段階に相加平均を求める場合を示している。
この図において、平均を取る前の係数列X(n)の絶対値
|X(n)|を、相加平均(1)による系数列Y1(n)
における絶対値|Y1(n)|を、相加平均(2)によ
る係数列Y2(n)における絶対値|Y2(n)|をとす
る。相加平均(1)から推定した山の位置をm1
2,...,m12、谷の位置をV1,V2,...,V11で表
し、相加平均(2)から推定した山の位置をM1,M2
3、谷の位置をV1,V2で表している。ここでは、相
加平均(1)での区間長よりも相加平均(2)での区間
長を長くしており、が微細な山・谷の周波数位置に相
当し、が大まかな山・谷の周波数位置に相当する。
FIG. 5 is a diagram illustrating a manner in which peaks and valleys of the spectral envelope are detected from the coefficient sequence X (n) as described above. Here, k = 2, that is, the envelope calculation unit 13
Shows a case in which the arithmetic mean is obtained in two stages.
In this figure, the absolute value | X (n) | of the coefficient sequence X (n) before taking the average is represented by a series Y 1 (n) of arithmetic mean (1).
The absolute value of | Y 1 (n) | a, the absolute value of the arithmetic mean coefficient due (2) column Y 2 (n) | Y 2 (n) | and the. The position of the mountain estimated from the arithmetic mean (1) is m 1 ,
m 2, ..., m 12, the position of the valley V 1, V 2, ..., expressed in V 11, M 1 to position mountain estimated from the arithmetic mean (2), M 2,
M 3 and the position of the valley are represented by V 1 and V 2 . Here, the section length in the arithmetic mean (2) is longer than the section length in the arithmetic mean (1), and corresponds to a fine peak / trough frequency position. Frequency position.

【0024】次に、このようにして、複数種類の山・谷
の周波数位置が求められたとして、どのように情報量の
重み付けを行うかを説明する。図6は、スペクトル包絡
曲線の山・谷付近に情報量の重み付けを行った例を示す
図である。ここでは、説明を分かりやすくするために、
おおまかな波形を使って説明を行う。
Next, assuming that a plurality of types of frequency positions of peaks and valleys have been obtained in this manner, how to weight information amounts will be described. FIG. 6 is a diagram illustrating an example in which information amounts are weighted near peaks and valleys of a spectrum envelope curve. Here, for simplicity of explanation,
The explanation is given using rough waveforms.

【0025】図6において、あらかじめ推定されたスペ
クトル包絡曲線(|Y2(n)|)の逆数(1/|Y2
(n)|)を聴覚重みの原形とし、これの山と谷の推定位
置付近において、重み関数を使って重み付けを行う。こ
の図の例では、重み付け関数をに乗算することによ
って、山と谷の位置で情報量を補正した聴覚重み(W
L)を作成している。重み付け関数及びとしては、
種々の形のものが可能であるが、ここでは、一例とし
て、重み付けを行う区間長が2t、山の中心で0.5
倍、山の端で1.0倍、谷の中心で2.0倍、谷の端で
1.0倍となるような直線関数による重み付けを行った
結果をとして示している。図6から分かるように、山
と谷の正確な位置を推定し、谷の付近に情報量を多く
し、山の付近に情報量を少なく割り当る重みを作成する
ことができる。
In FIG. 6, the reciprocal (1 / | Y 2 ) of the spectral envelope curve (| Y 2 (n) |) estimated in advance is shown.
(n) |) is used as the original form of the auditory weight, and weighting is performed using a weight function in the vicinity of the estimated positions of the peaks and valleys. In the example of this figure, the auditory weight (W) in which the information amount is corrected at the positions of the peaks and valleys by multiplying the weighting function by
L ) have created. The weighting function and
Although various shapes are possible, here, as an example, the section length to be weighted is 2t, and 0.5 is set at the center of the mountain.
The result is weighted by a linear function such that the magnification is 1.0 times at the edge of the valley, 2.0 times at the center of the valley and 1.0 times at the edge of the valley. As can be seen from FIG. 6, it is possible to estimate the exact positions of the peaks and valleys, create a weight that increases the amount of information near the valley, and allocates a smaller amount of information near the peak.

【0026】ここでtの値は、例えば、ピッチ周波数を
表す山・谷の構造に重み付けしたい場合には100〜2
00Hz、ホルマント周波数を表す山・谷の構造に重み
付けしたい場合には300〜600Hz程度とすること
が好ましい。
Here, the value of t is, for example, 100 to 2 when it is desired to weight the peak / trough structure representing the pitch frequency.
When it is desired to weight the peak and valley structure representing 00 Hz and the formant frequency, the frequency is preferably about 300 to 600 Hz.

【0027】実際には、スペクトル包絡の“微細な曲
線”と“おおまかな曲線”の各々の山・谷の付近におい
て、前述した方法により重み付けを行う。例えば、図5
に示すようにスペクトル包絡の“微細な曲線”と“おお
まかな曲線”の各々について山と谷の位置が推定されて
いる場合には、微細構造を表すスペクトル包絡の逆数
1/|Y1(n)|を聴覚重みの原形とし、この包絡曲線
の山と谷の位置m1,v1,m2,v2,...の付近におい
て、図6と同様にして聴覚重みの原形である1/|Y
1(n)|に対して適切な重み付けを行い、さらに、おお
まかなスペクトル構造を表す曲線の山と谷の位置
1,V1,M2,V2,...の付近において、同様に聴覚
重みの原形である1/|Y1(n)|に対して適切な重み
付けを行う。
Actually, weighting is performed by the above-described method in the vicinity of the peaks and valleys of the “fine curve” and “rough curve” of the spectral envelope. For example, FIG.
As shown in (1), when the positions of the peaks and valleys are estimated for each of the “fine curve” and the “rough curve” of the spectral envelope, the reciprocal 1 / | Y 1 (n ) | Is the original form of the auditory weight, and in the vicinity of the peak and valley positions m 1 , v 1 , m 2 , v 2 ,... Of this envelope curve, the original form of the auditory weight is 1 as in FIG. / | Y
1 (n) | is appropriately weighted, and in the vicinity of the peak and valley positions M 1 , V 1 , M 2 , V 2 ,... Of the curve representing the rough spectral structure, Appropriate weighting is performed on 1 / | Y 1 (n) | which is the original form of the auditory weight.

【0028】山に対する重み付け関数及び谷に対する重
み付け関数としては、各種のものが考えられる。図7
は、そうした重み付け関数を例示するものである。
Various functions can be considered as the weighting function for the peak and the weighting function for the valley. FIG.
Exemplifies such a weighting function.

【0029】図7中、(a),(b)はいずれも山に対する重
み付け関数の例を示しており、(a)は直線により構成さ
れたもの、(b)は放物線により構成されたものである。
いずれも山の中心n=Mの両側にtずつ、合計2tの区
間を重み付け区間としている。重み付け関数の値は、重
み付け区間の両端(M±t)においては1.0であるも
のとする。また、山の中心n=Mにおける重みの値α
は、通常、0<α<1.0における妥当な定数とすれば
よい。同様に図7中、(c),(d)は、谷に対する重み付け
関数の例を示しており、(c)は直線により構成されたも
の、(d)は放物線により構成されたものである。山の場
合と同様に、谷に対する重み付け関数も、その値は、重
み付け区間の両端(V±t)においては1.0である。
また、谷の中心n=Vにおける重みの値βは、通常、β
>1.0における妥当な定数を使用する。しかしなが
ら、場合によっては、α>1.0,0<β<1.0とす
ると効果的なこともある。
In FIG. 7, (a) and (b) each show an example of a weighting function for a mountain, where (a) is composed of a straight line and (b) is composed of a parabola. is there.
In each case, a section of a total of 2t is set as a weighted section, with t on each side of the center n = M of the mountain. It is assumed that the value of the weighting function is 1.0 at both ends (M ± t) of the weighting section. Also, the value α of the weight at the center of the mountain n = M
Is usually a reasonable constant at 0 <α <1.0. Similarly, in FIG. 7, (c) and (d) show examples of the weighting function for the valley, where (c) is formed by a straight line and (d) is formed by a parabola. As in the case of the peak, the value of the weighting function for the valley is 1.0 at both ends (V ± t) of the weighting section.
The weight value β at the center of the valley n = V is usually β
Use a reasonable constant at> 1.0. However, in some cases, setting α> 1.0 and 0 <β <1.0 may be effective.

【0030】このようにして聴覚重み付けを行った場合
に、量子化雑音は図8に示すように変形される。すなわ
ち、聴覚重み付けを行わない場合には、量子化ノイズは
周波数によらずに一定であると考えられるが(図中
)、入力信号のスペクトル包絡が図中に示すような
ものであるとすると、上述した聴覚重み付けを行うこと
により、ノイズは、図中に示すようにその周波数特性
が変形され、入力信号のスペクトル特性であるに隠さ
れて、聴感的に聞こえ難くなる。
When the auditory weighting is performed in this way, the quantization noise is transformed as shown in FIG. That is, when the auditory weighting is not performed, the quantization noise is considered to be constant irrespective of the frequency (in the figure), but if the spectrum envelope of the input signal is as shown in the figure, By performing the above-described auditory weighting, the noise has its frequency characteristics deformed as shown in the figure and is hidden by the spectral characteristics of the input signal, making it difficult to hear audibly.

【0031】したがって、従来法よりも精度の高い聴覚
マスキングが行なえ、高品質な符号化を行なうことが可
能となる。
Therefore, auditory masking can be performed with higher accuracy than the conventional method, and high-quality coding can be performed.

【0032】次に、上述した本発明の信号符号化方法を
一般的な変換符号化方式の聴覚重み付けに適用した例を
説明する。図9はそのような聴覚重み付けを行う信号符
号化装置の構成を示している。
Next, an example in which the above-described signal encoding method of the present invention is applied to auditory weighting of a general transform encoding method will be described. FIG. 9 shows the configuration of a signal encoding device that performs such auditory weighting.

【0033】図9に示す信号符号化装置は、入力信号に
対してMDCTを施すMDCT変換部31と、MDCT
後の信号のスペクトルを平坦化するスペクトル平坦化部
32と、平坦化後のスペクトルに基づいてフレームゲイ
ンを正規化し量子化した後、ゲインインデックスを出力
するフレームゲイン正規化部33と、正規化されたフレ
ームゲインに基づいて残差成分を量子化(ベクトル量子
化あるいはスカラー量子化)し、量子化インデックスを
出力する残差成分量子化部34と、MDCT後の信号の
スペクトルからスペクトル包絡を推定するスペクトル包
絡推定部35と、残差成分量子化部34での量子化に際
して情報量重み付けを行うために、推定されたスペクト
ル包絡から聴覚重みを計算する聴覚重み計算部36と、
推定されたスペクトル包絡に基づいてスペクトル情報を
量子化しスペクトルインデックスを出力するスペクトル
情報量子化部37とを備えている。この信号符号化装置
では、MDCT変換部31が図1に示した信号符号化装
置のT/F変換部11に相当し、また、スペクトル包絡
推定部35は、図1に示す装置の包絡算出部13及び山
・谷推定部14で構成され、聴覚重み計算部36は、図
1に示す装置の重み付け部15及び聴覚重み算出部16
で構成される。
The signal encoding apparatus shown in FIG. 9 includes an MDCT conversion unit 31 that performs MDCT on an input signal,
A spectrum flattening unit 32 for flattening the spectrum of the subsequent signal, a frame gain normalizing unit 33 for normalizing and quantizing the frame gain based on the flattened spectrum, and then outputting a gain index; The residual component is quantized (vector quantization or scalar quantization) based on the obtained frame gain, and a residual component quantization unit 34 that outputs a quantization index, and a spectral envelope is estimated from a signal spectrum after MDCT. A spectral envelope estimating unit 35, an auditory weight calculating unit 36 that calculates an auditory weight from the estimated spectral envelope to perform information weighting at the time of quantization in the residual component quantizing unit 34,
A spectrum information quantization unit 37 for quantizing the spectrum information based on the estimated spectrum envelope and outputting a spectrum index. In this signal encoding device, the MDCT conversion unit 31 corresponds to the T / F conversion unit 11 of the signal encoding device shown in FIG. 1, and the spectrum envelope estimating unit 35 is an envelope calculating unit of the device shown in FIG. 13 and the peak / valley estimating unit 14, and the hearing weight calculating unit 36 includes the weighting unit 15 and the hearing weight calculating unit 16 of the device shown in FIG. 1.
It consists of.

【0034】本発明の信号符号化方法により、分析フレ
ーム内におけるスペクトルの山と谷を正確かつ細かに分
析し、その形に合わせて量子化の際に精度の高い聴覚マ
スキングを行うことができる。この聴覚マスキングは、
ベクトル量子化や、サブバンドスカラー量子化に対して
適用できる。
According to the signal encoding method of the present invention, peaks and valleys of a spectrum in an analysis frame can be accurately and finely analyzed, and highly accurate auditory masking can be performed at the time of quantization according to the shape. This auditory masking
It can be applied to vector quantization and subband scalar quantization.

【0035】さらに図10は、特開平8−44399号
公報に開示される符号器及び復号器に本発明の聴覚重み
付けを適用した例を示している。図10に示されるもの
において、符号器110は、入力端子111に与えられ
た入力信号をフレームに分割するフレーム分割部114
と、フレームに時間窓を描ける時間窓掛部115と、時
間窓が掛けられたフレームにN次のMDCTを施すMD
CT部116と、時間窓が掛けられたフレームに対して
線形予測分析を行い予測係数を出力する線形予測分析部
117と、予測係数を量子化してインデックスIpを得
る量子化部118と、予測係数のスペクトラム概形を求
めるスペクトラム概形計算部121と、MDCT部11
6からのスペクトラム振幅をスペクトラム概形により正
規化し残差係数R(F)を得る正規化部122と、残差係
数概形ER(F)を計算する残差概形計算部123と、残
差係数概形及びスペクトラム概形に基づいて重み付け係
数(ベクトルW)を計算する重み計算部124と、重み
付け係数に基づいて量子化しインデックスImと量子化
小系列ベクトルC(m)を出力する量子化部125と、残
差係数R(F)を残差係数概形ER(F)で正規化して微細
構造係数を得る残差係数正規化部126と、現フレーム
の微細構造係数を正規化し正規化微細構造係数X(F)と
して量子化部125に与えるとともにインデックスIG
を出力するパワー正規化部127と、量子化小系列ベク
トルC(m)を逆正規化し量子化残差係数Rq(F)を残差
概形計算部123に出力する逆正規化部131とを備え
ている。
FIG. 10 shows an example in which the auditory weighting of the present invention is applied to the encoder and decoder disclosed in Japanese Patent Application Laid-Open No. 8-44399. In the configuration shown in FIG. 10, encoder 110 includes a frame dividing section 114 for dividing an input signal applied to input terminal 111 into frames.
And a time windowing unit 115 for drawing a time window on the frame, and an MD for performing an N-order MDCT on the frame on which the time window is set
A CT unit 116, a linear prediction analysis unit 117 that performs a linear prediction analysis on a frame to which a time window is applied and outputs a prediction coefficient, a quantization unit 118 that quantizes the prediction coefficient to obtain an index I p , A spectrum outline calculation unit 121 for obtaining a spectrum outline of a coefficient, and an MDCT unit 11
6, a normalization unit 122 that obtains a residual coefficient R (F) by normalizing the spectrum amplitude from the spectrum amplitude by a spectrum outline, a residual outline calculation unit 123 that calculates a residual coefficient outline E R (F), A weight calculator 124 for calculating a weighting coefficient (vector W) based on the difference coefficient outline and the spectrum outline, and a quantum for quantizing based on the weighting coefficient and outputting an index Im and a quantized small sequence vector C (m) And a residual coefficient normalizing unit 126 for normalizing the residual coefficient R (F) with the residual coefficient approximate form E R (F) to obtain a fine structure coefficient, and normalizing the fine structure coefficient of the current frame. It is given to the quantization unit 125 as the normalized fine structure coefficient X (F) and the index IG
And a denormalization unit 131 that denormalizes the quantized small sequence vector C (m) and outputs a quantized residual coefficient R q (F) to the residual approximate calculation unit 123. It has.

【0036】符号器110において本発明に基づく聴覚
重み付けを行うためには、スペクトラム概形計算部12
1において、従来法に加えてさらに図1に示した信号符
号化装置の包絡算出部13及び山・谷推定部14での処
理と同様の処理を行わせ、その結果に基づいて、重み計
算部124においては、従来法に加えてさらに図1に示
した装置の重み付け部15及び聴覚重み算出部16での
処理と同様の処理を行い、得られた量子化用聴覚重みを
量子化部125に供給するようにすればよい。
In order to perform the auditory weighting based on the present invention in the encoder 110, the spectrum outline calculator 12
1, in addition to the conventional method, the same processing as the processing in the envelope calculating unit 13 and the peak / valley estimating unit 14 of the signal encoding device shown in FIG. 1 is performed, and based on the result, the weight calculating unit In 124, in addition to the conventional method, the same processing as the processing in the weighting unit 15 and the perceptual weight calculating unit 16 of the apparatus shown in FIG. What is necessary is just to supply.

【0037】これに対して復号器150は、インデック
スImから正規化微細構造係数を再生する再生部151
と、インデックスIGから正規化ゲインを再生する正規
化ゲイン再生部152と、正規化微細構造係数を正規化
ゲインにより逆正規化して微細構造係数を得るパワー逆
正規化部153と、微細構造係数を残差概形ERで逆正
規化して残差係数R(F)を再生する残差逆正規化部15
4と、残差概形ERを計算する残差概形計算部155
と、インデックスIpから線形予測係数を再生しスペク
トラム概形を計算する再生・スペクトラム概形計算部1
56と、スペクトラム概形を残差係数R(F)で逆正規化
し周波数領域係数を再生する逆正規化部157と、周波
数領域係数にフレームごとに逆MDCTを施し時間領域
信号を得る逆MDCT部158と、時間領域信号にフレ
ームごとに時間窓を掛ける窓掛部159と、窓掛け出力
に対してフレーム重ね合わせを行い再生音響信号を得て
これを出力端子191に出力するフレーム重ね合わせ部
161と、を備えている。
[0037] The decoder 150 on the other hand, the reproduction unit 151 for reproducing the normalized fine structure coefficients from the index I m
When, the normalized gain reproducing unit 152 for reproducing normalized gain from the index I G, and power inverse normalization unit 153 and normalized fine structure coefficients by inverse normalization by the normalization gain obtain fine structure coefficients, fine structure coefficients Is denormalized with a residual approximate form ER to reproduce a residual coefficient R (F).
4 and a residual approximate shape calculation unit 155 for calculating the residual approximate shape E R
And a reproduction / spectrum outline calculation unit 1 for reproducing a linear prediction coefficient from the index I p and calculating a spectrum outline
56, an inverse normalization unit 157 that inversely normalizes the spectrum outline with a residual coefficient R (F) to reproduce a frequency domain coefficient, and an inverse MDCT unit that performs inverse MDCT on the frequency domain coefficient for each frame to obtain a time domain signal. 158, a windowing unit 159 for applying a time window to the time domain signal for each frame, and a frame overlapping unit 161 for obtaining a reproduced audio signal by superimposing frames on the windowed output and outputting the reproduced audio signal to an output terminal 191. And

【0038】なお、図10に示す符号器110において
は、逆正規化部131を設けることなく、正規化部12
2の出力のみに基づいて残差概形計算部123が残差係
数概形ER(F)とインデックスIQを算出するようにする
ことが可能であり、この場合、復号器150において残
差概形計算部155はインデックスIQに基づいて残差
概形ERを計算する。
In the encoder 110 shown in FIG. 10, the normalization unit 12 is provided without the denormalization unit 131.
Residual envelope calculation section 123 based on only the output of 2 it is possible to calculate the residual coefficients envelope E R (F) and the index I Q, the residual in this case, the decoder 150 envelope calculation section 155 calculates a residual envelope E R based on the index I Q.

【0039】次に、時間領域の符号化方式であるCEL
P(Code-Excited Linear Prediction)符号化の聴覚マス
キングに本発明を適用した例を説明する。CELP符号
化では、時間領域で聴覚マスキングが行われるため、本
発明に基づく聴覚重み付けを周波数領域で適用し、得ら
れた聴覚重みを時間領域に戻してから量子化に適用す
る。図11はそのような符号化を行う信号符号化装置の
構成を示すブロック図である。
Next, CEL which is a coding method in the time domain is used.
An example in which the present invention is applied to auditory masking of P (Code-Excited Linear Prediction) coding will be described. In CELP coding, since auditory masking is performed in the time domain, the auditory weighting based on the present invention is applied in the frequency domain, and the obtained auditory weight is returned to the time domain and then applied to quantization. FIG. 11 is a block diagram illustrating a configuration of a signal encoding device that performs such encoding.

【0040】図11に示す装置は、入力信号に対してF
FT(高速フーリエ変換)を施すFFT部38と、FF
T部の出力(周波数領域の信号列)に基づき、スペクト
ル包絡を推定するスペクトル包絡推定部35と、推定さ
れたスペクトル包絡から聴覚重みを計算する聴覚重み計
算部36と、聴覚重みを時間領域に戻すための逆FFT
部39と、時間領域の聴覚重みに基づいて入力信号のC
ELP符号化を行い、インデックスを出力するCELP
符号化部40とを備えている。この信号符号化装置にお
いては、FFT部38が図1に示した信号符号化装置の
T/F変換部11に相当し、また、スペクトル包絡推定
部35は、図1に示す装置の包絡算出部13及び山・谷
推定部14で構成され、聴覚重み計算部36は、図1に
示す装置の重み付け部15及び聴覚重み算出部16で構
成される。
The device shown in FIG.
An FFT unit 38 for performing FT (fast Fourier transform);
A spectral envelope estimating unit 35 for estimating a spectral envelope based on an output of the T unit (a signal sequence in the frequency domain), an auditory weight calculating unit 36 for calculating an auditory weight from the estimated spectral envelope, and Inverse FFT to return
Unit 39 and the C of the input signal based on the auditory weight in the time domain.
CELP that performs ELP encoding and outputs an index
And an encoding unit 40. In this signal encoding device, the FFT unit 38 corresponds to the T / F conversion unit 11 of the signal encoding device shown in FIG. 1, and the spectrum envelope estimating unit 35 is an envelope calculating unit of the device shown in FIG. 13 and the peak / valley estimating unit 14, and the auditory weight calculating unit 36 includes the weighting unit 15 and the auditory weight calculating unit 16 of the apparatus shown in FIG.

【0041】さらに図12は、特開平6−282298
号公報の図1に開示される音声符号化装置に本発明の聴
覚重み付けを適用した例を示している。図12に示され
る音声符号化装置は、入力端子201を介して入力した
音声信号をフレームに分割して線形予測分析を行い、予
測係数を決定する予測係数決定部202と、合成フィル
タ203と、予測係数を量子化して合成フィルタ203
に予測係数を設定する予測係数量子化部204と、複数
のピッチ周期ベクトルを記憶する適応符号帳217と、
複数の雑音波形ベクトルを記憶する雑音符号帳218
と、適応符号帳217から選択されたピッチ周期ベクト
ルに利得を加える利得部219a及び雑音符号帳218
から選択された雑音波形ベクトルに利得を加える利得部
219bとを有する利得符号帳219と、利得部219
bの過去の出力パワーに基づいて次の雑音波形ベクトル
の予測利得を得る予測利得決定部215と、利得部21
9bの入力側に設けられ選択された雑音波形ベクトルに
この予測利得を加える予測利得部216と、利得部21
9a、219bからの出力ベクトルを加算して駆動ベク
トルとして合成フィルタ203に供給する加算器209
と、入力音声ベクトル(入力信号)から合成フィルタ2
03の出力(合成音声ベクトル)を減算して歪データと
して出力する減算器211と、歪データに対して聴覚重
み付けを行う聴覚重み付けフィルタ220と、聴覚重み
付け後の歪データに基づいて歪パワーを計算し、歪パワ
ーが最小になるように各符号帳217〜219での選択
を行う歪パワー計算部212と、符号を出力する符号出
力部213と、を備えている。
Further, FIG.
FIG. 1 shows an example in which the auditory weighting of the present invention is applied to the speech encoding device disclosed in FIG. The speech coding apparatus shown in FIG. 12 divides a speech signal input via an input terminal 201 into frames, performs linear prediction analysis, and determines a prediction coefficient, a prediction coefficient determination unit 202, a synthesis filter 203, Quantizing the prediction coefficients and synthesizing filter 203
A predictive coefficient quantizer 204 for setting a predictive coefficient in the adaptive codebook 217 for storing a plurality of pitch period vectors,
Noise codebook 218 storing a plurality of noise waveform vectors
And a gain unit 219 a for adding a gain to the pitch period vector selected from the adaptive codebook 217 and a noise codebook 218.
Codebook 219 having a gain section 219b for adding a gain to the noise waveform vector selected from, and gain section 219.
a prediction gain determination unit 215 for obtaining a prediction gain of the next noise waveform vector based on the past output power of b, and a gain unit 21
A prediction gain section 216 provided on the input side of the input section 9b and adding the prediction gain to a selected noise waveform vector;
The adder 209 adds the output vectors from 9a and 219b and supplies the resultant to the synthesis filter 203 as a drive vector.
And a synthesis filter 2 from the input speech vector (input signal)
03, a subtractor 211 that subtracts the output (synthesized speech vector) and outputs the resultant as distortion data, a perceptual weighting filter 220 that performs perceptual weighting on the distortion data, and calculates distortion power based on the perceptually weighted distortion data. Further, a distortion power calculation unit 212 that performs selection in each of the codebooks 217 to 219 so as to minimize distortion power is provided, and a code output unit 213 that outputs a code.

【0042】この音声符号化装置において本発明に基づ
く聴覚重み付けを行う場合には、上述の図11に示した
信号符号化装置をここでの聴覚重み付けフィルタ220
として、または聴覚重み付けフィルタ220と併用して
用いればよい。これにより、歪データに対して、本発明
に基づく聴覚重み付けがなされることになる。さらに、
ここでは図面を用いては説明しないが、特開平6−28
2298号公報の図2に開示される音声符号化装置にお
いても、その聴覚重み付けフィルタとして、図11に示
した信号符号化装置を上述のように変形したものを使用
することができる。
When performing the hearing weighting based on the present invention in this speech coding apparatus, the signal coding apparatus shown in FIG.
Or in combination with the auditory weighting filter 220. As a result, auditory weighting based on the present invention is performed on the distortion data. further,
Here, although not described with reference to the drawings,
In the speech coding apparatus disclosed in FIG. 2 of Japanese Patent No. 2298, the signal coding apparatus shown in FIG. 11 modified as described above can be used as the auditory weighting filter.

【0043】以上説明した本発明に基づく信号符号化方
法及び装置は、それを実現するための計算機プログラム
を、計算機(コンピュータ)に読み込ませ、そのプログ
ラムを実行させることによっても実現できる。信号符号
化を行うためのプログラムは、磁気テープやCD−RO
Mなどの記録媒体によって、あるいは、ネットワークを
介して、計算機に読み込まれる。図13は、上述の信号
符号化方法を実行する計算機の構成を示すブロック図で
ある。
The signal encoding method and apparatus according to the present invention described above can also be realized by causing a computer (computer) to read a computer program for realizing the method and executing the program. The program for performing signal encoding is a magnetic tape or CD-RO.
It is read into a computer by a recording medium such as M or via a network. FIG. 13 is a block diagram illustrating a configuration of a computer that executes the above-described signal encoding method.

【0044】この計算機は、中央処理装置(CPU)2
1と、プログラムやデータを格納するためのハードディ
スク装置22と、主メモリ23と、キーボードやマウ
ス、マイクロホンなどの入力装置24と、CRTやスピ
ーカなどの表示装置25と、磁気テープやCD−ROM
等の記録媒体27を読み取る読み取り装置26と、ネッ
トワークに接続した通信インタフェース28とから構成
されている。ハードディスク装置22、主メモリ23、
入力装置24、表示装置25、読み取り装置26及び通
信インタフェース28は、いずれも中央処理装置21に
接続している。ハードディスク装置22の代わりに、フ
ラッシュROMなどの不揮発性半導体記憶装置を用いて
もよい。この計算機は、信号符号化を行うためのプログ
ラムを格納した記録媒体27を読み取り装置26に装着
し、記録媒体27からプログラムを読み出してハードデ
ィスク装置22に格納し、ハードディスク装置22に格
納されたプログラムを中央処理装置21が実行すること
により、信号符号化装置として機能するようになる。も
ちろん、ネットワークを介して、信号符号化を行うため
のプログラムをこの計算機にダウンロードするようにし
てもよい。
This computer has a central processing unit (CPU) 2
1, a hard disk device 22 for storing programs and data, a main memory 23, an input device 24 such as a keyboard, a mouse, and a microphone, a display device 25 such as a CRT or a speaker, a magnetic tape or a CD-ROM.
And the like, and a communication device 28 connected to a network. Hard disk device 22, main memory 23,
The input device 24, the display device 25, the reading device 26, and the communication interface 28 are all connected to the central processing unit 21. Instead of the hard disk device 22, a nonvolatile semiconductor storage device such as a flash ROM may be used. The computer attaches a recording medium 27 storing a program for performing signal encoding to a reading device 26, reads the program from the recording medium 27, stores the program in the hard disk drive 22, and executes the program stored in the hard disk drive 22. The central processing unit 21 functions as a signal encoding device when executed. Of course, a program for performing signal encoding may be downloaded to this computer via a network.

【0045】[0045]

【発明の効果】以上説明したように、本発明によれば、
音声・楽音信号を符号化する際に、従来法よりも精度の
高い聴覚マスキングが行なえ、高品質な符号化を行なう
ことが可能となる。具体的には、例えばMDCT変換等
によって時系列信号を周波数領域の係数列に変換して量
子化する際に、本発明を用いれば、人間の聴覚マスキン
グ特性を利用して、量子化誤差を知覚し難いように、周
波数軸上で従来法よりも高精度で配分することが可能と
なる。
As described above, according to the present invention,
When encoding a speech / tone signal, auditory masking can be performed with higher accuracy than the conventional method, and high-quality encoding can be performed. Specifically, when the time series signal is converted into a frequency-domain coefficient sequence by, for example, an MDCT transform and quantized, the present invention is used to perceive a quantization error using human auditory masking characteristics. As a result, it is possible to perform the distribution on the frequency axis with higher accuracy than the conventional method.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の実施の一形態の信号符号化装置の構成
を示すブロック図である。
FIG. 1 is a block diagram illustrating a configuration of a signal encoding device according to an embodiment of the present invention.

【図2】スペクトルの山・谷へ重み付けを行う過程を示
すブロック図である。
FIG. 2 is a block diagram showing a process of weighting peaks and valleys of a spectrum.

【図3】包絡算出部における処理の詳細を示すブロック
図である。
FIG. 3 is a block diagram illustrating details of processing in an envelope calculation unit.

【図4】山・谷推定部における処理の詳細を示すブロッ
ク図である。
FIG. 4 is a block diagram illustrating details of processing in a peak / valley estimating unit;

【図5】山・谷推定部により検出された、スペクトラム
包絡における山及び谷の様子の一例を示す図である。
FIG. 5 is a diagram illustrating an example of a state of peaks and valleys in a spectrum envelope detected by a peak / valley estimating unit.

【図6】スペクトル包絡の山・谷付近に重み付けを行っ
た例を示す図である。
FIG. 6 is a diagram illustrating an example in which weighting is performed around peaks and valleys of a spectral envelope.

【図7】(a)〜(d)は、山・谷付近への重み付け関数の例
を示す図である。
FIGS. 7A to 7D are diagrams illustrating examples of weighting functions for peaks and valleys;

【図8】聴覚重み付け処理によって量子化雑音がスペク
トル包絡にマスキングされる様子を示した図である。
FIG. 8 is a diagram illustrating a state where quantization noise is masked into a spectral envelope by an auditory weighting process.

【図9】本発明に基づく信号符号化装置の構成の一例を
示すブロック図である。
FIG. 9 is a block diagram illustrating an example of a configuration of a signal encoding device according to the present invention.

【図10】本発明に基づく聴覚重み付けが適用される符
号器及び復号器の構成の一例を示すブロック図である。
FIG. 10 is a block diagram showing an example of a configuration of an encoder and a decoder to which auditory weighting according to the present invention is applied.

【図11】信号符号化装置の構成の一例を示すブロック
図である。
FIG. 11 is a block diagram illustrating an example of a configuration of a signal encoding device.

【図12】信号符号化装置の構成の一例を示すブロック
図である。
FIG. 12 is a block diagram illustrating an example of a configuration of a signal encoding device.

【図13】信号符号化装置を構成するために使用される
計算機システムの一例を示すブロック図である。
FIG. 13 is a block diagram illustrating an example of a computer system used to configure the signal encoding device.

【符号の説明】[Explanation of symbols]

11 T/F変換部 12 量子化部 13 包絡算出部 14 山・谷推定部 15 重み付け部 16 聴覚重み算出部 Reference Signs List 11 T / F converter 12 Quantizer 13 Envelope calculator 14 Peak / valley estimator 15 Weighter 16 Auditory weight calculator

───────────────────────────────────────────────────── フロントページの続き (72)発明者 岩上 直樹 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 (72)発明者 森 岳至 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 (72)発明者 千喜良 和明 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 Fターム(参考) 5J064 AA01 BA16 BB03 BC16 BC21 ──────────────────────────────────────────────────続 き Continuing on the front page (72) Inventor Naoki Iwagami 2-3-1 Otemachi, Chiyoda-ku, Tokyo Within Nippon Telegraph and Telephone Corporation (72) Inventor Takeshi Mori 2-chome Otemachi, Chiyoda-ku, Tokyo No. 1 Within Nippon Telegraph and Telephone Corporation (72) Inventor Kazuaki Chikira 2-3-1 Otemachi, Chiyoda-ku, Tokyo F-term within Nippon Telegraph and Telephone Corporation (reference) 5J064 AA01 BA16 BB03 BC16 BC21

Claims (15)

【特許請求の範囲】[Claims] 【請求項1】 入力信号に対して量子化を行う信号符号
化方法であって、 前記入力信号に対して時間軸/周波数軸変換を行って周
波数軸上の係数列を得る工程と、 前記係数列に基づいてスペクトル包絡を算出する工程
と、 算出されたスペクトル包絡の山・谷の位置へ情報量重み
付けを行う工程と、 情報量重み付けされたスペクトル包絡に基づいて、量子
化用聴覚重みを算出する工程と、 前記量子化用聴覚重みに基づいて量子化を行う工程と、
を有する信号符号化方法。
1. A signal encoding method for performing quantization on an input signal, comprising: performing a time axis / frequency axis conversion on the input signal to obtain a coefficient sequence on a frequency axis; Calculating the spectrum envelope based on the sequence; weighting the information at the peak and valley positions of the calculated spectrum envelope; calculating the auditory weight for quantization based on the information weighted spectrum envelope Performing a quantization based on the auditory weight for quantization,
A signal encoding method comprising:
【請求項2】 入力信号に対して量子化を行う信号符号
化方法であって、 前記入力信号に対して時間軸/周波数軸変換を行って周
波数軸上の係数列を得る工程と、 前記係数列に対して区間長にまたがった相加平均を求め
ることにより平滑化処理を行ってスペクトル包絡を求め
る工程と、 前回求めたスペクトル包絡に対して、前記前回求めたス
ペクトルを求める際に用いた区間長よりも長い区間長に
またがった相加平均を求めることにより平滑化処理を行
ってスペクトル包絡を求めることを1回以上実行する工
程と、 いずれかのスペクトル包絡において、前記各スペクトル
包絡での山・谷の位置へ情報量重み付けを行って、情報
量重み付けされたスペクトル包絡を得る工程と、 前記情報量重み付けされたスペクトル包絡に基づいて、
量子化用聴覚重みを算出する工程と、 前記量子化用聴覚重みに基づいて量子化を行う工程と、 を有する信号符号化方法。
2. A signal encoding method for performing quantization on an input signal, comprising: performing a time axis / frequency axis conversion on the input signal to obtain a coefficient sequence on a frequency axis; A step of performing a smoothing process by obtaining an arithmetic mean over the section length for the column to obtain a spectrum envelope, and a section used in obtaining the spectrum obtained last time with respect to the spectrum envelope obtained last time. Performing a smoothing process by obtaining an arithmetic mean over a section length longer than the length to obtain a spectral envelope at least once, and in any one of the spectral envelopes, a peak in each of the spectral envelopes is obtained. Performing a weighting of the information amount at the position of the valley to obtain a spectrum envelope weighted with the information amount, based on the spectrum envelope weighted with the information amount,
A signal encoding method comprising: calculating an auditory weight for quantization; and performing quantization based on the auditory weight for quantization.
【請求項3】 入力信号に対して量子化を行う信号符号
化方法であって、 前記入力信号に対して時間軸/周波数軸変換を行って周
波数軸上の係数列を得る工程と、 前記係数列に基づいてスペクトル包絡を算出する工程
と、 前記スペクトル包絡における山・谷の位置を推定する工
程と、 前記スペクトル包絡において、推定された山・谷の位置
へ情報量重み付けを行う工程と、 情報量重み付けされたスペクトル包絡に基づいて、量子
化用聴覚重みを算出する工程と、 前記量子化用聴覚重みに基づいて量子化を行う工程と、 を有し、 前記推定する工程が、前記スペクトル包絡の1階微分値
を求める工程と、前記1階微分値の相加平均値を求める
工程と、前記1階微分値の相加平均値の1階微分値を求
めて2階微分値とする工程と、前記2階微分値の相加平
均値を求める工程と、を有し、 前記1階微分値または前記1階微分値の相加平均値が正
の値から負の値に変化し、かつ、該変化の近傍で前記2
階微分値または前記2階微分値の相加平均値が常に負の
値ならば、その周波数を山の位置とし、前記1階微分値
また前記1階微分値の相加平均値が負の値から正の値に
変化し、かつ、該変化の近傍で前記2階微分値または2
階微分値の相加平均値が常に正の値ならば、その周波数
を谷の位置とする、信号符号化方法。
3. A signal encoding method for performing quantization on an input signal, comprising: performing a time-axis / frequency-axis conversion on the input signal to obtain a coefficient sequence on a frequency axis; Calculating a spectrum envelope based on the sequence; estimating the positions of peaks and valleys in the spectrum envelope; and performing weighting of information amounts to the estimated positions of peaks and valleys in the spectrum envelope. Calculating the auditory weight for quantization based on the weighted spectral envelope; andquantizing based on the auditory weight for quantization, wherein the estimating step comprises: Obtaining the first order differential value, calculating the arithmetic mean value of the first order differential value, and obtaining the first order differential value of the arithmetic mean value of the first order differential value to obtain the second order differential value And the second derivative Calculating the arithmetic mean of the first order differential value or the arithmetic mean value of the first order differential value changes from a positive value to a negative value, and in the vicinity of the change, 2
If the arithmetic differential value of the first-order differential value or the second-order differential value is always a negative value, the frequency is regarded as a peak position, and the first-order differential value or the arithmetic mean of the first-order differential value is a negative value. To a positive value, and in the vicinity of the change, the second derivative or 2
If the arithmetic mean of the differential values is always a positive value, the frequency is used as the position of the valley.
【請求項4】 情報量重み付けを行う工程は、山の付近
を高く持ち上げ谷の付近を深く下げるか、または山の付
近を低く下げ谷の付近を浅くなるように持ち上げるよう
な重み関数を用いて山・谷の位置へ重み付け操作を行う
工程を有する、請求項1に記載の信号符号化方法。
4. The step of weighting the amount of information is performed by using a weighting function that raises the vicinity of the hill high and lowers the vicinity of the valley deeply, or lowers the vicinity of the hill and lifts the vicinity of the valley to be shallow. The signal encoding method according to claim 1, further comprising a step of performing a weighting operation on the positions of the peaks and valleys.
【請求項5】 量子化用聴覚重みを算出する工程は、山
・谷の位置へ情報量重み付けが行われた包絡曲線を元に
量子化用聴覚重みを求める工程である、請求項1に記載
の信号符号化方法。
5. The method according to claim 1, wherein the step of calculating the auditory weight for quantization is a step of obtaining an auditory weight for quantization based on an envelope curve in which information positions are weighted at peaks and valleys. Signal encoding method.
【請求項6】 入力信号に対して量子化を行う信号符号
化装置であって、 前記入力信号に対して時間軸/周波数軸変換を行って周
波数軸上の係数列を得る変換手段と、 前記係数列に基づいてスペクトル包絡を算出する包絡算
出手段と、 算出されたスペクトル包絡の山・谷の位置へ情報量重み
付けを行う重み付け手段と、 情報量重み付けされたスペクトル包絡に基づいて、量子
化用聴覚重みを算出する聴覚重み算出手段と、 前記量子化用聴覚重みに基づいて量子化を行う量子化手
段と、 を有する信号符号化装置。
6. A signal coding apparatus for performing quantization on an input signal, comprising: a conversion unit for performing a time axis / frequency axis conversion on the input signal to obtain a coefficient sequence on a frequency axis; Envelope calculating means for calculating a spectrum envelope based on a coefficient sequence; weighting means for weighting the amount of information at peaks and valleys of the calculated spectrum envelope; and quantizing based on the information weighted spectrum envelope. A signal encoding device comprising: an auditory weight calculating unit that calculates an auditory weight; and a quantizing unit that performs quantization based on the quantizing auditory weight.
【請求項7】 入力信号に対して量子化を行う信号符号
化装置であって、 前記入力信号に対して時間軸/周波数軸変換を行って周
波数軸上の係数列を得る変換手段と、 前記係数列に対して区間長にまたがった相加平均を求め
ることにより平滑化処理を行ってスペクトル包絡を求
め、次いで、前回求めたスペクトル包絡に対して、前記
前回求めたスペクトルを求める際に用いた区間長よりも
長い区間長にまたがった相加平均を求めることにより平
滑化処理を行ってスペクトル包絡を求めることを1回以
上実行する、包絡算出手段と、 いずれかのスペクトル包絡において、前記包絡算出手段
で求めた各スペクトル包絡での山・谷の位置へ情報量重
み付けを行って、情報量重み付けされたスペクトル包絡
を得る重み付け手段と、 前記情報量重み付けされたスペクトル包絡に基づいて、
量子化用聴覚重みを算出する聴覚重み算出手段と、 前記量子化用聴覚重みに基づいて量子化を行う量子化手
段と、 を有する信号符号化装置。
7. A signal encoding apparatus for performing quantization on an input signal, comprising: a conversion unit for performing a time axis / frequency axis conversion on the input signal to obtain a coefficient sequence on a frequency axis; The smoothing process is performed to obtain the spectral envelope by obtaining the arithmetic mean over the section length for the coefficient sequence, and then the previously obtained spectral envelope is used for the previously obtained spectral envelope. An envelope calculating means for performing one or more times of performing a smoothing process to obtain a spectrum envelope by obtaining an arithmetic mean over a section length longer than the section length, and the envelope calculation in any of the spectrum envelopes; Weighting means for weighting the amount of information at peak and valley positions in each spectrum envelope obtained by the means to obtain a spectrum envelope weighted with the amount of information; Based on the spectral envelope which is,
A signal encoding device, comprising: an auditory weight calculator that calculates an auditory weight for quantization; and a quantizer that performs quantization based on the auditory weight for quantization.
【請求項8】 入力信号に対して量子化を行う信号符号
化装置であって、 前記入力信号に対して時間軸/周波数軸変換を行って周
波数軸上の係数列を得る変換手段と、 前記係数列に基づいてスペクトル包絡を算出する包絡算
出手段と、 前記スペクトル包絡における山・谷の位置を推定する山
・谷推定手段と、 前記スペクトル包絡において、推定された山・谷の位置
へ情報量重み付けを行う重み付け手段と、 情報量重み付けされたスペクトル包絡に基づいて、量子
化用聴覚重みを算出する聴覚重み算出手段と、 前記量子化用聴覚重みに基づいて量子化を行う量子化手
段と、 を有し、 前記山・谷推定手段は、前記スペクトル包絡の1階微分
値を求め、前記1階微分値の相加平均値を求め、前記1
階微分値の相加平均値の1階微分値を求めて2階微分値
とし、前記2階微分値の相加平均値を求め、前記1階微
分値または前記1階微分値の相加平均値が正の値から負
の値に変化し、かつ、該変化の近傍で前記2階微分値ま
たは前記2階微分値の相加平均値が常に負の値ならば、
その周波数を山の位置とし、前記1階微分値また前記1
階微分値の相加平均値が負の値から正の値に変化し、か
つ、該変化の近傍で前記2階微分値または2階微分値の
相加平均値が常に正の値ならば、その周波数を谷の位置
とする、信号符号化装置。
8. A signal encoding apparatus for performing quantization on an input signal, comprising: a conversion unit configured to perform a time axis / frequency axis conversion on the input signal to obtain a coefficient sequence on a frequency axis; An envelope calculating means for calculating a spectrum envelope based on a coefficient sequence; a peak / valley estimating means for estimating a peak / valley position in the spectrum envelope; and an information amount to the estimated peak / valley position in the spectrum envelope. Weighting means for performing weighting, perceptual weight calculating means for calculating a perceptual weight for quantization based on the information-weighted spectral envelope, quantizing means for performing quantization based on the perceptual weight for quantization, The peak / valley estimating means obtains a first-order differential value of the spectrum envelope, obtains an arithmetic mean value of the first-order differential value,
Calculating the first order differential value of the arithmetic mean value of the second order differential value to obtain a second order differential value, obtaining the arithmetic mean value of the second order differential value, and calculating the arithmetic mean of the first order differential value or the first order differential value If the value changes from a positive value to a negative value and the second derivative or the arithmetic mean of the second derivative is always a negative value in the vicinity of the change,
The frequency is defined as the position of the mountain,
If the arithmetic mean of the second derivative changes from a negative value to a positive value, and if the second derivative or the arithmetic mean of the second derivative is always a positive value in the vicinity of the change, A signal encoding device that uses the frequency as a valley position.
【請求項9】 重み付け手段は、山の付近を高く持ち上
げ谷の付近を深く下げるか、または山の付近を低く下げ
谷の付近を浅くなるように持ち上げるような重み関数を
用いて山・谷の位置へ重み付け操作を行う、請求項6に
記載の信号符号化装置。
9. The weighting means uses a weighting function that raises the vicinity of the hill higher and lowers the vicinity of the valley deeply, or lowers the vicinity of the hill and lifts the vicinity of the valley so as to be shallower. The signal encoding device according to claim 6, wherein a weighting operation is performed on the position.
【請求項10】 重み付け手段は、山・谷の位置へ情報
量重み付けが行われた包絡曲線を元に量子化用聴覚重み
を求める、請求項6に記載の信号符号化装置。
10. The signal encoding apparatus according to claim 6, wherein the weighting means obtains an auditory weight for quantization based on an envelope curve obtained by weighting the amount of information to the positions of the peaks and valleys.
【請求項11】 計算機が読取り可能な記録媒体であっ
て、 前記計算機に、 入力信号に対して時間軸/周波数軸変換を行って周波数
軸上の係数列を得る工程と、 前記係数列に基づいてスペクトル包絡を算出する工程
と、 算出されたスペクトル包絡の山・谷の位置へ情報量重み
付けを行う工程と、 情報量重み付けされたスペクトル包絡に基づいて、量子
化用聴覚重みを算出する工程と、 前記量子化用聴覚重みに基づいて量子化を行う工程と、 を実行させる信号符号化プログラムを記録した記録媒
体。
11. A recording medium readable by a computer, wherein the computer performs a time-axis / frequency-axis conversion on an input signal to obtain a coefficient sequence on a frequency axis, based on the coefficient sequence. Calculating the spectral envelope by calculating the amount of information to the peaks and valleys of the calculated spectral envelope; and calculating the auditory weight for quantization based on the information-weighted spectral envelope. A step of performing quantization based on the quantization auditory weight; and a recording medium storing a signal encoding program for executing the following.
【請求項12】 計算機が読取り可能な記録媒体であっ
て、 前記計算機に、 入力信号に対して時間軸/周波数軸変換を行って周波数
軸上の係数列を得る工程と、 前記係数列に対して区間長にまたがった相加平均を求め
ることにより平滑化処理を行ってスペクトル包絡を求め
る工程と、 前回求めたスペクトル包絡に対して、記前回求めたスペ
クトルを求める際に用いた区間長よりも長い区間長にま
たがった相加平均を求めることにより平滑化処理を行っ
てスペクトル包絡を求めることを1回以上実行する工程
と、 いずれかのスペクトル包絡において、前記各スペクトル
包絡での山・谷の位置へ情報量重み付けを行って、情報
量重み付けされたスペクトル包絡を得る工程と、 前記情報量重み付けされたスペクトル包絡に基づいて、
量子化用聴覚重みを算出する工程と、 前記量子化用聴覚重みに基づいて量子化を行う工程と、 を実行させる信号符号化プログラムを記録した記録媒
体。
12. A recording medium readable by a computer, wherein the computer performs a time axis / frequency axis conversion on an input signal to obtain a coefficient sequence on a frequency axis; Performing a smoothing process to obtain an arithmetic average over the section length to obtain a spectrum envelope, and comparing the previously obtained spectrum envelope with the section length used in obtaining the previously obtained spectrum. Performing a smoothing process by obtaining an arithmetic mean over a long section length to obtain a spectral envelope at least once, and in any one of the spectral envelopes, Performing an information amount weighting on the position to obtain an information amount weighted spectrum envelope, based on the information amount weighted spectrum envelope,
A recording medium storing a signal encoding program for executing the steps of: calculating a hearing weight for quantization; and performing quantization based on the hearing weight for quantization.
【請求項13】 計算機が読取り可能な記録媒体であっ
て、 前記計算機に、 前記入力信号に対して時間軸/周波数軸変換を行って周
波数軸上の係数列を得る工程と、 前記係数列に基づいてスペクトル包絡を算出する工程
と、 前記スペクトル包絡における山・谷の位置を推定する工
程と、 前記スペクトル包絡において、推定された山・谷の位置
へ情報量重み付けを行う工程と、 情報量重み付けされたスペクトル包絡に基づいて、量子
化用聴覚重みを算出する工程と、 前記量子化用聴覚重みに基づいて量子化を行う工程と、 を実行させ、 前記推定する工程が、前記スペクトル包絡の1階微分値
を求める工程と、前記1階微分値の相加平均値を求める
工程と、前記1階微分値の相加平均値の1階微分値を求
めて2階微分値とする工程と、前記2階微分値の相加平
均値を求める工程と、を有し、 前記1階微分値または前記1階微分値の相加平均値が正
の値から負の値に変化し、かつ、該変化の近傍で前記2
階微分値または前記2階微分値の相加平均値が常に負の
値ならば、その周波数を山の位置とし、前記1階微分値
また前記1階微分値の相加平均値が負の値から正の値に
変化し、かつ、該変化の近傍で前記2階微分値または2
階微分値の相加平均値が常に正の値ならば、その周波数
を谷の位置とする、信号符号化プログラムを記録した記
録媒体。
13. A recording medium readable by a computer, wherein the computer performs a time axis / frequency axis conversion on the input signal to obtain a coefficient sequence on a frequency axis; Calculating a spectrum envelope based on the spectrum envelope; estimating the positions of peaks and valleys in the spectrum envelope; performing weighting of information amounts to the estimated positions of peaks and valleys in the spectrum envelope; Calculating an auditory weight for quantization based on the obtained spectral envelope; and performing a quantization based on the auditory weight for quantization. Calculating a first derivative, calculating an arithmetic mean of the first derivative, calculating a first derivative of the arithmetic mean of the first derivative to obtain a second derivative, 2 above Calculating an arithmetic mean value of the first derivative value, wherein the first derivative value or the arithmetic mean value of the first derivative value changes from a positive value to a negative value, and In the vicinity 2
If the arithmetic differential value of the first-order differential value or the second-order differential value is always a negative value, the frequency is regarded as a peak position, and the first-order differential value or the arithmetic mean of the first-order differential value is a negative value. To a positive value, and in the vicinity of the change, the second derivative or 2
If the arithmetic mean of the differential values is always a positive value, a recording medium that stores a signal encoding program that sets the frequency as a valley position.
【請求項14】 情報量重み付けを行う工程は、山の付
近を高く持ち上げ谷の付近を深く下げるか、または山の
付近を低く下げ谷の付近を浅くなるように持ち上げるよ
うな重み関数を用いて山・谷の位置へ重み付け操作を行
う工程を有する、請求項11に記載の記録媒体。
14. The step of weighting the amount of information is performed by using a weighting function that raises the vicinity of the hill high and lowers the vicinity of the valley deeply, or lowers the vicinity of the mountain and lifts the vicinity of the valley so as to be shallow. The recording medium according to claim 11, further comprising a step of performing a weighting operation on the positions of the peaks and valleys.
【請求項15】 量子化用聴覚重みを算出する工程は、
山・谷の位置へ情報量重み付けが行われた包絡曲線を元
に量子化用聴覚重みを求める工程である、請求項11に
記載の記録媒体。
15. The step of calculating auditory weights for quantization includes:
12. The recording medium according to claim 11, wherein the step of obtaining an auditory weight for quantization is based on an envelope curve obtained by weighting the amount of information to peaks and valleys.
JP2000318017A 2000-10-18 2000-10-18 Signal encoding method and apparatus, and recording medium recording signal encoding program Expired - Fee Related JP3590342B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000318017A JP3590342B2 (en) 2000-10-18 2000-10-18 Signal encoding method and apparatus, and recording medium recording signal encoding program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000318017A JP3590342B2 (en) 2000-10-18 2000-10-18 Signal encoding method and apparatus, and recording medium recording signal encoding program

Publications (2)

Publication Number Publication Date
JP2002123298A true JP2002123298A (en) 2002-04-26
JP3590342B2 JP3590342B2 (en) 2004-11-17

Family

ID=18796710

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000318017A Expired - Fee Related JP3590342B2 (en) 2000-10-18 2000-10-18 Signal encoding method and apparatus, and recording medium recording signal encoding program

Country Status (1)

Country Link
JP (1) JP3590342B2 (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005112001A1 (en) * 2004-05-19 2005-11-24 Matsushita Electric Industrial Co., Ltd. Encoding device, decoding device, and method thereof
WO2006093019A1 (en) * 2005-03-01 2006-09-08 Japan Advanced Institute Of Science And Technology Speech processing method and device, storage medium, and speech system
JP2007178677A (en) * 2005-12-27 2007-07-12 Victor Co Of Japan Ltd High efficiency coding program and high efficiency coding apparatus
JP2010039059A (en) * 2008-08-01 2010-02-18 Yamaha Motor Co Ltd Utterance section detecting device
JP2010526346A (en) * 2007-05-08 2010-07-29 サムスン エレクトロニクス カンパニー リミテッド Method and apparatus for encoding and decoding audio signal
WO2011086923A1 (en) * 2010-01-14 2011-07-21 パナソニック株式会社 Encoding device, decoding device, spectrum fluctuation calculation method, and spectrum amplitude adjustment method
WO2015166733A1 (en) * 2014-05-01 2015-11-05 日本電信電話株式会社 Encoding device, decoding device, encoding and decoding methods, and encoding and decoding programs
WO2015166734A1 (en) * 2014-05-01 2015-11-05 日本電信電話株式会社 Encoding device, decoding device, encoding and decoding methods, and encoding and decoding programs
JP2016514857A (en) * 2013-04-05 2016-05-23 ドルビー・インターナショナル・アーベー Audio encoder and decoder
US9424830B2 (en) 2012-12-06 2016-08-23 Fujitsu Limited Apparatus and method for encoding audio signal, system and method for transmitting audio signal, and apparatus for decoding audio signal
WO2018052004A1 (en) * 2016-09-15 2018-03-22 日本電信電話株式会社 Sample string transformation device, signal encoding device, signal decoding device, sample string transformation method, signal encoding method, signal decoding method, and program

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6387117B2 (en) * 2015-01-30 2018-09-05 日本電信電話株式会社 Encoding device, decoding device, these methods, program, and recording medium

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8463602B2 (en) 2004-05-19 2013-06-11 Panasonic Corporation Encoding device, decoding device, and method thereof
WO2005112001A1 (en) * 2004-05-19 2005-11-24 Matsushita Electric Industrial Co., Ltd. Encoding device, decoding device, and method thereof
JP5013863B2 (en) * 2004-05-19 2012-08-29 パナソニック株式会社 Encoding apparatus, decoding apparatus, communication terminal apparatus, base station apparatus, encoding method, and decoding method
US8688440B2 (en) 2004-05-19 2014-04-01 Panasonic Corporation Coding apparatus, decoding apparatus, coding method and decoding method
WO2006093019A1 (en) * 2005-03-01 2006-09-08 Japan Advanced Institute Of Science And Technology Speech processing method and device, storage medium, and speech system
JP2006243178A (en) * 2005-03-01 2006-09-14 Japan Advanced Institute Of Science & Technology Hokuriku Method and device for processing voice, program, and voice system
KR100931419B1 (en) * 2005-03-01 2009-12-11 글로리 가부시키가이샤 Speech processing methods and devices, storage media and voice systems
US8065138B2 (en) 2005-03-01 2011-11-22 Japan Advanced Institute Of Science And Technology Speech processing method and apparatus, storage medium, and speech system
JP2007178677A (en) * 2005-12-27 2007-07-12 Victor Co Of Japan Ltd High efficiency coding program and high efficiency coding apparatus
JP4556866B2 (en) * 2005-12-27 2010-10-06 日本ビクター株式会社 High efficiency encoding program and high efficiency encoding apparatus
JP2010526346A (en) * 2007-05-08 2010-07-29 サムスン エレクトロニクス カンパニー リミテッド Method and apparatus for encoding and decoding audio signal
JP2010039059A (en) * 2008-08-01 2010-02-18 Yamaha Motor Co Ltd Utterance section detecting device
JP5602769B2 (en) * 2010-01-14 2014-10-08 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ Encoding device, decoding device, encoding method, and decoding method
WO2011086923A1 (en) * 2010-01-14 2011-07-21 パナソニック株式会社 Encoding device, decoding device, spectrum fluctuation calculation method, and spectrum amplitude adjustment method
US8892428B2 (en) 2010-01-14 2014-11-18 Panasonic Intellectual Property Corporation Of America Encoding apparatus, decoding apparatus, encoding method, and decoding method for adjusting a spectrum amplitude
CN102714040A (en) * 2010-01-14 2012-10-03 松下电器产业株式会社 Encoding device, decoding device, spectrum fluctuation calculation method, and spectrum amplitude adjustment method
US9424830B2 (en) 2012-12-06 2016-08-23 Fujitsu Limited Apparatus and method for encoding audio signal, system and method for transmitting audio signal, and apparatus for decoding audio signal
US10043528B2 (en) 2013-04-05 2018-08-07 Dolby International Ab Audio encoder and decoder
US11621009B2 (en) 2013-04-05 2023-04-04 Dolby International Ab Audio processing for voice encoding and decoding using spectral shaper model
JP2016514857A (en) * 2013-04-05 2016-05-23 ドルビー・インターナショナル・アーベー Audio encoder and decoder
US10515647B2 (en) 2013-04-05 2019-12-24 Dolby International Ab Audio processing for voice encoding and decoding
WO2015166733A1 (en) * 2014-05-01 2015-11-05 日本電信電話株式会社 Encoding device, decoding device, encoding and decoding methods, and encoding and decoding programs
JPWO2015166734A1 (en) * 2014-05-01 2017-04-20 日本電信電話株式会社 Encoding device, decoding device, method thereof, program, and recording medium
JPWO2015166733A1 (en) * 2014-05-01 2017-04-20 日本電信電話株式会社 Encoding device, decoding device, method thereof, program, and recording medium
WO2015166734A1 (en) * 2014-05-01 2015-11-05 日本電信電話株式会社 Encoding device, decoding device, encoding and decoding methods, and encoding and decoding programs
WO2018052004A1 (en) * 2016-09-15 2018-03-22 日本電信電話株式会社 Sample string transformation device, signal encoding device, signal decoding device, sample string transformation method, signal encoding method, signal decoding method, and program
JPWO2018052004A1 (en) * 2016-09-15 2019-07-04 日本電信電話株式会社 Sample sequence deformation device, signal coding device, signal decoding device, sample sequence deformation method, signal coding method, signal decoding method, and program
US11468905B2 (en) * 2016-09-15 2022-10-11 Nippon Telegraph And Telephone Corporation Sample sequence converter, signal encoding apparatus, signal decoding apparatus, sample sequence converting method, signal encoding method, signal decoding method and program

Also Published As

Publication number Publication date
JP3590342B2 (en) 2004-11-17

Similar Documents

Publication Publication Date Title
USRE43191E1 (en) Adaptive Weiner filtering using line spectral frequencies
EP1252621B1 (en) System and method for modifying speech signals
US8265940B2 (en) Method and device for the artificial extension of the bandwidth of speech signals
US7792672B2 (en) Method and system for the quick conversion of a voice signal
US5706395A (en) Adaptive weiner filtering using a dynamic suppression factor
KR101213840B1 (en) Decoding device and method thereof, and communication terminal apparatus and base station apparatus comprising decoding device
US8515747B2 (en) Spectrum harmonic/noise sharpness control
US8271292B2 (en) Signal bandwidth expanding apparatus
US20100004934A1 (en) Speech separating apparatus, speech synthesizing apparatus, and voice quality conversion apparatus
US7124078B2 (en) System and method of coding sound signals using sound enhancement
US20070055504A1 (en) Optimized windows and interpolation factors, and methods for optimizing windows, interpolation factors and linear prediction analysis in the ITU-T G.729 speech coding standard
WO2010091013A1 (en) Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
TWI524332B (en) Apparatus and method for generating a frequency enhanced signal using temporal smoothing of subbands
US20100217584A1 (en) Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
JP3590342B2 (en) Signal encoding method and apparatus, and recording medium recording signal encoding program
JP4382808B2 (en) Method for analyzing fundamental frequency information, and voice conversion method and system implementing this analysis method
Motlıcek Feature extraction in speech coding and recognition
JP2004272292A (en) Sound signal processing method
US10950251B2 (en) Coding of harmonic signals in transform-based audio codecs
US7389226B2 (en) Optimized windows and methods therefore for gradient-descent based window optimization for linear prediction analysis in the ITU-T G.723.1 speech coding standard
US7512534B2 (en) Optimized windows and methods therefore for gradient-descent based window optimization for linear prediction analysis in the ITU-T G.723.1 speech coding standard
JPH1097288A (en) Background noise removing device and speech recognition system
Rabiner et al. Use of a Computer Voice‐Response System for Wiring Communications Equipment
JPH0990998A (en) Acoustic signal conversion decoding method
Huang et al. Nonstationary linear prediction analysis of speech codec corrected by pre-stage forward volume normalizer

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20031222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040310

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040510

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040510

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040510

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040811

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040819

R150 Certificate of patent or registration of utility model

Ref document number: 3590342

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080827

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080827

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090827

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090827

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100827

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100827

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110827

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120827

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130827

Year of fee payment: 9

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees