New! View global litigation for patent families

JP3163206B2 - Acoustic signal encoding apparatus - Google Patents

Acoustic signal encoding apparatus

Info

Publication number
JP3163206B2
JP3163206B2 JP18038093A JP18038093A JP3163206B2 JP 3163206 B2 JP3163206 B2 JP 3163206B2 JP 18038093 A JP18038093 A JP 18038093A JP 18038093 A JP18038093 A JP 18038093A JP 3163206 B2 JP3163206 B2 JP 3163206B2
Authority
JP
Grant status
Grant
Patent type
Prior art keywords
spectrum
characteristics
sound
signal
auditory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP18038093A
Other languages
Japanese (ja)
Other versions
JPH0736484A (en )
Inventor
智一 森尾
Original Assignee
シャープ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Grant date

Links

Abstract

PURPOSE:To provide the high-compression, small-throughput sound signal encoding device which improves the quality of a speech by making a quantization noise generated in encoding hard to hear by utilizing auditory masking characteristics as to a device which compresses and encodes a sound signal. CONSTITUTION:This device is equipped with a power spectrum calculation part 111 which finds the power spectrum of the sound signal, a masking characteristic calculation part 112 which finds auditory masking spectrum characteristics, a finite impulse response filter 107 which has power spectrum spectrum characteristics reverse to those of the sound signal, and all polarity type infinite impulse response filters 104 and 109 which have spectrum characteristics generated by dividing the power spectrum characteristics of the sound signal by the auditory masking spectrum characteristics; and an auditory weighting process is performed by the finite impulse response filter and all-polarity type infinite impulse response filters.

Description

【発明の詳細な説明】 DETAILED DESCRIPTION OF THE INVENTION

【0001】 [0001]

【産業上の利用分野】本発明は、オーディオ信号や音声信号を圧縮符号化して通信または蓄積する音響信号符号化装置に関する。 The present invention relates to a sound signal encoding device for communication or storage by compression encoding the audio signal and voice signal.

【0002】 [0002]

【従来の技術】第1の従来技術として、音声信号を圧縮符号化する際に、符号化で生じる量子化ノイズを、聴覚マスキング特性を利用して、スペクトルシェイピングする技術がある。 2. Description of the Related Art As a first conventional technique, when compressing and encoding audio signals, the quantization noise generated by coding, by utilizing the auditory masking characteristics, there is a spectrum shaping technology. その一例としては、"A New Model of LP As an example of this, "A New Model of LP
C Excitation for Producing Natural-Sounding Speech C Excitation for Producing Natural-Sounding Speech
at Low Bit Rates", BSAtal and JR Remde,IEEEI at Low Bit Rates ", BSAtal and JR Remde, IEEEI
nt. Conf.on Acoustics, Speech and Signal Processin nt. Conf.on Acoustics, Speech and Signal Processin
g, pp.614-617,1982、が知られている。 g, pp.614-617,1982, has been known.

【0003】これは音声信号を線形予測分析して得られる線形予測係数を用いて、数1で表される伝達特性を持つフィルタで、量子化誤差波形をフィルタリングし、そのフィルタリングされた誤差波形のエネルギーを最小化するように符号化処理を行う手法である。 [0003] This is using the linear prediction coefficients obtained by linear prediction analysis of the speech signal, a filter having a transfer characteristic represented by the number 1, filters the quantization error waveform, the filtered error waveform the energy is a technique for performing encoding so as to minimize.

【0004】 [0004]

【数1】 [Number 1]

【0005】上記式(1)において、a kはk次の線形予測係数、pは予測次数、β,γは0≦γ≦β≦1の定数をそれぞれ表す。 [0005] In the above formula (1), a k is the k-th order linear prediction coefficient, p is represented respectively prediction order, beta, gamma is 0 ≦ γ ≦ β ≦ 1 for constant.

【0006】この聴覚的重み付けフィルタを用いた音声符号化方式である、符号帳励振線形予測符号化(Code-Ex [0006] is a speech coding method using the auditory weighting filter, codebook excited linear predictive coding (Code-Ex
cited Linear Predictive Coding.以後CELPと記す)は、例えば、“Code-Excited Linear Prediction cited Linear Predictive Coding. hereafter referred to as CELP) is, for example, "Code-Excited Linear Prediction
(CELP):High-Quality Speech atVery Low Bit Rates", (CELP): High-Quality Speech atVery Low Bit Rates ",
MRSchroeder and BSAtal,IEEE Int.Conf.on Acoust MRSchroeder and BSAtal, IEEE Int.Conf.on Acoust
ics,Speech and Signal Processing,pp.937-940,1985に示されている。 ics, have been shown Speech and Signal Processing, to pp.937-940,1985. 図4はその構成を示すブロック図である。 Figure 4 is a block diagram showing a configuration.

【0007】図4において、1/A(z)は、式(2) [0007] In FIG. 4, 1 / A (z) has the formula (2)
で表される音声の線形予測合成フィルタである。 In a linear prediction synthesis filter of the speech represented.

【0008】 [0008]

【数2】 [Number 2]

【0009】上記式(1)においてγ=0.8,β=1 [0009] In the above formula (1) γ = 0.8, β = 1
に設定して、上記式(2)で表される音声の線形予測合成フィルタとこの聴覚的重み付けフィルタを合成すると、式(3)のように簡略化される。 Is set to, when synthesizing the auditory weighting filter and the linear prediction synthesis filter of the speech represented by the above formula (2) is simplified as Equation (3).

【0010】この場合、図4のブロック図は、図5に示す構成に変更される。 [0010] In this case, the block diagram of FIG. 4 is changed to the configuration shown in FIG.

【0011】 [0011]

【数3】 [Number 3]

【0012】上述した従来の技術では聴覚的重み付けフィルタは、聴覚マスキング特性を非常に簡単に近似した特性で表している。 [0012] auditory weighting filter in the prior art described above represents a very simple approximation characteristics auditory masking characteristic.

【0013】第2の従来技術として、オーディオ信号の圧縮符号化で用いられている技術がある。 [0013] As a second prior art, there is a technique used in the compression coding of audio signals. この方式は、 This method,
第1の従来技術より積極的に聴覚マスキング特性を利用している。 It utilizes actively auditory masking characteristic than the first prior art.

【0014】図6に、MPEGで用いられている音響信号の符号化部の動作シーケンスを示す。 [0014] FIG 6 shows an operation sequence of the coding portion of the acoustic signal used in MPEG. その一例は、 One example is that,
「音響信号の高能率符号化−MPEGオーディオ符号化方式」後藤、日本音響学会誌47巻12号pp. "High-efficiency coding -MPEG audio encoding method of acoustic signal" Goto, Japan acoustic Journal Vol. 47, No. 12, pp. 966 966
−969,1991に示されている。 It has been shown to -969,1991.

【0015】図6のフローの右上において、入力信号をFFTを用いパワースペクトルを求め、パワースペクトルの情報等から、聴覚マスキング特性を算出している。 [0015] In the top right of the flow of FIG. 6, it obtains a power spectrum using the FFT input signal, from the information of the power spectrum, and calculates the auditory masking properties.
MPEG Layer1,2では、基本的には帯域分割符号化を用いており、マスキング特性の情報等から、各帯域毎の符号化ビットを決定している。 In MPEG Layer1,2, basically it uses a sub-band coding, the information of the masking properties, and determines the coding bits per each band.

【0016】第3の従来技術としては、第1と第2の技術を融合した技術がある。 [0016] As a third prior art, there is a technique that combines the first and second techniques. パワースペクトル情報から聴覚マスキング特性を求め、その逆特性を持つ聴覚的重み付けフィルタを用い、量子化誤差波形のエネルギーを最小化するように符号化処理を行う手法である。 It obtains an auditory masking characteristic from the power spectrum information, using a perceptual weighting filter having the inverse characteristic, a method of performing encoding so as to minimize the energy of the quantization error waveform. その一例は、"Some Experiments in Perceptual Maskinig ofQua One example is that, "Some Experiments in Perceptual Maskinig ofQua
ntizing Noise in Analysis-By-Synthesis Speech Code ntizing Noise in Analysis-By-Synthesis Speech Code
rs",R.Drogo De Iacovo and R.Montagna, EUROSPEECH,p rs ", R.Drogo De Iacovo and R.Montagna, EUROSPEECH, p
p.825-828,1991に示されている。 It has been shown to p.825-828,1991.

【0017】この方式においては、ヒルベルト変換の技術を用いて、聴覚マスキング特性のパワースペクトル特性を持つ、最小位相有限インパルス応答フィルタ(以後FIRフィルタと記す)を設計し、その逆フィルタを聴覚的重み付けフィルタとして使用している。 [0017] In this method, using techniques Hilbert transform, with the power spectrum of auditory masking properties, and design a minimum phase finite impulse response filter (hereinafter referred to as FIR filter), auditory weighting the inverse filter It is used as a filter.

【0018】 [0018]

【発明が解決しようとする課題】しかしながら、上述した第1の従来技術における聴覚的重み付けフィルタの特性は、簡単な近似によって求められているので人間の聴覚マスキング特性とは異なっており、量子化ノイズを充分に隠蔽することができないという問題点があった。 [SUMMARY OF THE INVENTION However, characteristics of the auditory weighting filter in the first prior art described above, is different from the human auditory masking properties since obtained by a simple approximation, quantization noise there is a problem that can not be sufficiently conceal.

【0019】また、上述した第2の従来技術においては、マスキング特性は、人間の聴覚マスキング特性のモデルに従って求めてはいるが、最終的に帯域分割符号化を用いており、ビット配分等の付加情報も必要で、圧縮率が充分に低くできないという問題点があった。 [0019] In the second prior art described above, the masking characteristic, although is determined according to a model of human auditory masking characteristic, finally uses a sub-band coding, the additional bit allocation, etc. information is also required, the compression ratio there is a problem that can not be sufficiently low.

【0020】更に、上述した第3の従来技術においては、上記2つの問題点に対処し、聴覚マスキング特性を考慮し、聴覚的重み付けフィルタを用いることで、圧縮率の高い符号化方式が実現できる。 Furthermore, in the third prior art described above, addresses the above two problems, considering the auditory masking characteristics, by using the auditory weighting filter, high coding scheme compression rate can be achieved . しかしながら聴覚的重み付けフィルタはFIRフィルタで構成されているゆえ、同一フィルタ次数で振幅周波数特性を近似する観点からは無限インパルス応答フィルタ(以後IIRフィルタと記す)より劣るという課題と、第1の従来技術で説明したような、聴覚的重み付けフィルタと、音声の線形予測合成フィルタとの合成処理による処理の簡易化が困難であるという問題点があった。 However because auditory weighting filter which is composed of FIR filter, and a problem that in view of approximating the amplitude frequency characteristic inferior infinite impulse response filter (hereinafter referred to as IIR filter) in the same filter order, the first prior art in as described, the auditory weighting filter, simplification of processing by the synthesis process of the linear prediction synthesis filter of the speech has a problem that it is difficult.

【0021】本発明の目的は、上述した従来の技術における問題点に鑑み、量子化ノイズを充分に隠蔽でき、圧縮率が充分に低くできると共に全体の処理を簡易化できる音響信号符号化装置を提供することにある。 An object of the present invention has been made in view of the problems in the conventional technology described above, it can sufficiently hide the quantization noise, the acoustic signal encoding apparatus capable of simplifying the whole process with the compression ratio can be sufficiently low It is to provide.

【0022】 [0022]

【課題を解決するための手段】本発明の目的は、音響信号のパワースペクトルを求める手段と、聴覚マスキングスペクトル特性を求める手段と、音響信号の逆パワースペクトル特性を有する第1フィルタリング手段と、音響信号のパワースペクトル特性を聴覚マスキングスペクトル特性で除したスペクトル特性を有する第2フィルタリング手段とを備えており、第1フィルタリング手段及び第2フィルタリング手段により聴覚的重み付け処理を行う音響信号符号化装置によって達成される。 An object of the present invention, in order to solve the problems] includes means for determining the power spectrum of the acoustic signal, means for determining the auditory masking spectral characteristics, a first filtering means having an inverse power spectrum characteristic of the acoustic signal, the acoustic the power spectral characteristics of the signal and a second filtering means having a spectral characteristic obtained by dividing the auditory masking spectral properties, achieved by the acoustic signal encoding apparatus for performing perceptual weighting processing by the first filtering means and the second filtering means It is.

【0023】本発明の音響信号符号化装置は、音響信号のパワースペクトルから自己相関系列を求める逆フーリエ変換手段と、自己相関系列から第2フィルタリング手段の係数を算出する手段を備えるように構成されてもよい。 The acoustic signal encoding apparatus of the present invention is configured to include an inverse Fourier transform means for obtaining an autocorrelation sequence from the power spectrum of the acoustic signal, the means for calculating the coefficients of the second filtering means from the autocorrelation sequence it may be.

【0024】本発明の音響信号符号化装置は、対数パワースペクトルを求める手段と、対数パワースペクトルから逆フーリエ変換によってケプストラムを求める手段と、ケプストラムから第2フィルタリング手段の係数を算出する手段とを備えるように構成されてもよい。 The acoustic signal encoding apparatus of the present invention comprises a means for obtaining a logarithmic power spectrum, it means for obtaining the cepstrum by an inverse Fourier transform from the log power spectrum, and means for calculating the coefficients of the second filtering means from the cepstrum it may be configured to.

【0025】 [0025]

【作用】本発明の音響信号符号化装置では、音響信号のパワースペクトルを求め、聴覚マスキングスペクトル特性を求め、第1フィルタリング手段は音響信号の逆パワースペクトル特性を有し、第2フィルタリング手段は音響信号のパワースペクトル特性を聴覚マスキングスペクトル特性で除したスペクトル特性を有し、第1フィルタリング手段及び第2フィルタリング手段により聴覚的重み付け処理を行う。 [Action] In the acoustic signal encoding apparatus of the present invention obtains the power spectrum of the acoustic signal, obtains an auditory masking spectral characteristics, the first filtering means has an inverted power spectral characteristics of the acoustic signal, the second filtering means sound has a spectral characteristic obtained by dividing the auditory masking spectral characteristic power spectrum characteristics of the signal, it performs perceptual weighting processing by the first filtering means and the second filtering means.

【0026】本発明の音響信号符号化装置では、逆フーリエ変換手段は音響信号のパワースペクトルから自己相関系列を求め、自己相関系列から第2フィルタリング手段の係数を算出する。 [0026] In the acoustic signal encoding apparatus of the present invention, inverse Fourier transform unit obtains the autocorrelation sequence from the power spectrum of the acoustic signal, to calculate the coefficients of the second filtering means from the autocorrelation sequence.

【0027】本発明の音響信号符号化装置では、対数パワースペクトルを求め、対数パワースペクトルから逆フーリエ変換によってケプストラムを求め、ケプストラムから第2フィルタリング手段の係数を算出する。 [0027] In the acoustic signal encoding apparatus of the present invention determines the logarithmic power spectrum, determine the cepstrum by an inverse Fourier transform from the log power spectrum, and calculates the coefficients of the second filtering means from the cepstrum.

【0028】 [0028]

【実施例】以下、図面を参照して本発明の音響信号符号化装置の実施例を説明する。 EXAMPLES Hereinafter, an embodiment of the acoustic signal encoding apparatus of the present invention with reference to the accompanying drawings.

【0029】図1は、本発明の音響信号符号化装置の第1実施例の構成を示すブロック図であり、CELPシステムを用いた例を示す。 FIG. 1 is a block diagram showing a configuration of a first embodiment of the acoustic signal encoding apparatus of the present invention, an example of using a CELP system.

【0030】図1の音響信号符号化装置は、音響信号の入力端子105、入力端子105に接続されており音響信号を線形予測分析(以後LPC分析と記す)するLP The acoustic signal encoding apparatus of FIG. 1 includes an input terminal 105 of the audio signal, (referred to hereafter as LPC analysis) linear predictive analysis of the sound signal is connected to an input terminal 105 to LP
C分析部110、LPC分析部110に接続されておりLPC分析結果から信号のパワースペクトルP(ω)を算出するパワースペクトル算出部111、パワースペクトル算出部111に接続されており信号のパワースペクトルからマスキング特性M(ω)を算出するマスキング特性算出部112、パワースペクトル算出部111及びマスキング特性算出部112に接続されており信号のパワースペクトルをマスキング特性で割算する割算器11 C analysis unit 110, a power spectrum calculating unit 111 for calculating the signal power spectrum P (omega) from LPC analysis section 110 connected to and LPC analysis results, from the power spectrum of the connected and signal to the power spectrum calculating unit 111 masking characteristic calculating unit 112 which calculates the masking characteristic M (ω), a divider 11 to the power spectrum of the connected and signal to the power spectrum calculation unit 111 and the masking characteristic calculating unit 112 dividing the masking characteristic
3、割算器113に接続されており割算器113で求まったスペクトル比特性からIIRフィルタ係数を求めるIIRフィルタ係数算出部114、入力端子105及びLPC分析部110に接続されており入力信号を聴覚的重み付けするための第1フィルタリング手段であるFI 3, IIR filter coefficient calculation section 114 for obtaining the IIR filter coefficients from the spectral ratio characteristics Motoma' in which the divider 113 is connected to a divider 113, an input signal is connected to the input terminal 105 and the LPC analysis section 110 FI is a first filtering means for auditory weighting
Rフィルタ107、FIRフィルタ107及びIIRフィルタ係数算出部114に接続されており入力信号を聴覚的重み付けするための第2フィルタリング手段の一部であるIIRフィルタ109、CELP音声符号化の励振符号帳(コードブック)101、コードブック101 R filter 107, FIR filter 107 and IIR filter 109, the CELP speech coding excitation codebook, which is part of the second filtering means for auditory weighting input signal is connected to the IIR filter coefficient calculating section 114 ( code book) 101, code book 101
に接続されており励振信号を増幅する増幅部102、増幅部102に接続されておりピッチ成分を合成するピッチ成分合成フィルタ103、ピッチ成分合成フィルタ1 Amplifier 102, the pitch component synthesis filter 103 for synthesizing the pitch component is connected to the amplifier 102 for amplifying the connected and excitation signal, pitch component synthesis filter 1
03及びIIRフィルタ係数算出部114に接続されており音声スペクトル合成フィルタと聴覚的重み付けフィルタを合成した特性を持つ第2フィルタリング手段の他の一部であるIIRフィルタ104、IIRフィルタ1 03 and IIR filter 104, which is another part of the second filtering means having a synthesized characteristic speech spectral synthesis filter and perceptual weighting filter is connected to the IIR filter coefficient calculation unit 114, the IIR filter 1
04,109に接続されており聴覚的重み付けされた入力信号と聴覚的重み付けされた再生信号の差分をとる減算部106、減算部106に接続されており差分波形のエネルギーを最小化するように符号化パラメータを設定するエネルギー最小化部108によって構成されている。 Taking the difference between the connected and auditory weighted input signal and auditory weighted reproduction signal 04,109 subtraction unit 106, the code so as to minimize the energy of the differential waveform is connected to the subtraction unit 106 It is constituted by energy minimization section 108 for setting a parameter.

【0031】本実施例では、聴覚的重み付けフィルタの構成法が上述した図5の従来技術と異なる。 [0031] In the present embodiment, the configuration method of the auditory weighting filter is different from the prior art in FIG. 5 described above. 以下では聴覚的重み付けフィルタの構成法に重点をおいて説明する。 Hereinafter will be described with emphasis on the configuration method of the auditory weighting filter.

【0032】入力端子105から入力した信号は、ある一定の時間長毎に区分化処理される。 The signal input from the input terminal 105 is partitioned processing for each certain time length. これをフレームと呼ぶことにする。 This is referred to as frame. 1フレームの信号はLPC分析部11 1 frame signal is the LPC analysis section 11
0で線形予測係数が算出される。 0 linear prediction coefficient is calculated by. この線形予測係数は上記式(1)で示す聴覚的重み付けフィルタの分子項であるFIRフィルタ107の係数として設定される(但し以後、上記式(1)において、β=1とする)。 The linear prediction coefficients are set as the coefficients of the FIR filter 107 is a numerator term of the auditory weighting filter shown by the formula (1) (where hereafter, in the formula (1), and beta = 1). 算出された線形予測係数から振巾伝達特性をパワースペクトル算出部111で計算する。 The Fuhaba transfer characteristic from the calculated linear prediction coefficients calculated by the power spectrum calculating unit 111. 上記式(2)で表された伝達特性から下記に示す式(4)でパワースペクトルが算出される。 Power spectrum is calculated by the equation (4) shown below from the transfer characteristics represented by the above formula (2).

【0033】 [0033]

【数4】 [Number 4]

【0034】上記式(4)において、ω=2πFs でF [0034] In the above formula (4), F at ω = 2πFs
s はサンプリング周波数である。 s is the sampling frequency.

【0035】上述の説明では、LPC分析の結果から入力信号のパワースペクトルを算出したが、入力信号をフーリエ変換して算出してもよい。 [0035] In the above description has been calculated power spectrum of the input signal from the results of LPC analysis, the input signal may be calculated by Fourier transformation. この場合、LPCスペクトルより周波数分解能を高く求められるので、マスキング特性の算出がより精度よく計算できる。 In this case, since it is determined higher frequency resolution than LPC spectrum calculated masking characteristics it can be more accurately calculated.

【0036】マスキング特性算出部112は、入力信号のパワースペクトルから、マスキングスペクトル特性を算出する。 The masking characteristic calculating unit 112, the power spectrum of the input signal, calculates a masking spectral characteristics. 本処理手順の概要は、パワースペクトルを聴覚の臨界帯域幅毎に分解し、全ての臨界帯域毎に、入力信号による量子化雑音のマスキング曲線を算出し、信号帯域全体に渡る最小可聴値及び時間軸でのマスキング等を考慮してマスキング曲線M(ω)を算出する。 Overview of the procedure is to decompose the power spectrum for each auditory critical band width, all for each critical band, it calculates a masking curve of the quantization noise due to the input signal, the minimum over the entire signal band audible value and time taking into account the masking or the like in the axial calculating the masking curve M (omega). マスキング曲線の算出は、種々提案されており、その一例としては"Estimation of Perceptual Entropy Using Noise Calculation of the masking curve, various proposed and its way of example "Estimation of Perceptual Entropy Using Noise
Masking Criteria",JD Johnston,IEEE Int. Conf.on A Masking Criteria ", JD Johnston, IEEE Int. Conf.on A
coustics, Speech and Signal Processing,pp.2524-252 coustics, Speech and Signal Processing, pp.2524-252
7,1988がある。 There is 7,1988.

【0037】符号化による量子化ノイズは、このマスキング曲線の形状に従ってシェイピングされるように聴覚的重み付けフィルタを設計する。 The quantization noise due to encoding is designed auditory weighting filter as shaping according to the shape of the masking curve. 即ち、聴覚的重み付けフィルタのパワースペクトルは、マスキングスペクトルの逆特性を持つ必要がある。 That is, the power spectrum of the auditory weighting filter is required to have an inverse characteristic of a masking spectrum. ここで下記の式(5)に示す関係が成り立つフィルタF(z)を考える。 Here we consider the filter F (z) relationship is established as shown in Equation (5) below.

【0038】 [0038]

【数5】 [Number 5]

【0039】フィルタF(z)の振巾伝達特性は、入力信号のパワースペクトルP(ω)を、マスキングスペクトルM(ω)で除した伝達特性を持つフィルタと考えることができる。 The Fuhaba transfer characteristic of the filter F (z) is the power spectrum P of the input signal (omega), can be considered as filter having a divided by the transfer characteristics in the masking spectrum M (ω).

【0040】このフィルタF(z)を全極形IIRフィルタで実現した場合には、聴覚的重み付けフィルタW [0040] In the case of realizing the filter F (z) in the all-pole IIR filter, auditory weighting filter W
(z)と音声合成フィルタ1/A(z)を合成すると、 (Z) and the synthesized speech synthesis filter 1 / A (z),
下記に示す式(6)のように簡略化できる。 Below can be simplified as Equation (6).

【0041】 [0041]

【数6】 [6]

【0042】上記動作を行うために、割算部113でP [0042] In order to perform the above operation, P in the division unit 113
(ω)/M(ω)を求め、IIRフィルタ係数算出部1 (Omega) / seek M (ω), IIR filter coefficient calculation section 1
14で、P(ω)/M(ω)で示されるパワースペクトルからIIRフィルタ係数を算出する。 14, calculates the IIR filter coefficients from the power spectrum represented by P (ω) / M (ω).

【0043】ここで、フィルタF(z)の伝達関数を式(7)に示す。 [0043] Here, a transfer function of the filter F (z) in equation (7).

【0044】 [0044]

【数7】 [Equation 7]

【0045】式(7)において、qはIIRフィルタの次数で、音声の線形予測次数と一致している必要はない。 [0045] formula (7), q is the order of the IIR filter, it is not necessary to match the linear prediction order of the speech. kはIIRフィルタ係数算出部114で算出されたIIRフィルタのk次の係数である。 f k is the k-th order coefficient of the IIR filter calculated in IIR filter coefficient calculation section 114.

【0046】以上の処理で、LPC分析部110で求まった線形予測係数が設定されたA(z)の伝達関数を持つFIRフィルタ107と上述したIIRフィルタで、 [0046] In the above processing, in the IIR filter described above with FIR filter 107 having a transfer function of the linear prediction coefficients Motoma' by LPC analysis section 110 is set A (z),
入力信号を聴覚的重み付け処理する。 Auditory weighting processing an input signal. また、IIRフィルタ109と同じ係数が設定されたIIRフィルタ10 Also, IIR filter 10 the same factor as the IIR filter 109 is set
4によって、聴覚的重み付けされた再生信号を得る。 By 4 to obtain a reproduction signal auditory weighting. この後の符号化処理は、一般のCELP符号化方式と同じであり、概略だけ説明すると、聴覚的重み付けされた入力信号と、聴覚的重み付けされた再生信号の、誤差エネルギーが最小になるように、符号化のパラメータを決定する。 Coding processing after this is the same as ordinary CELP coding method, it will be described only schematically, an input signal that is audible weighted, auditory weighted reproduction signal, so that the error energy is minimized , to determine the parameters of the coding.

【0047】次に、パワースペクトルP(ω)と、マスキングスペクトルM(ω)から、IIRフィルタ係数を算出する処理法を説明する。 Next, the power spectrum P (omega), the masking spectrum M (omega), explaining the treatment method for calculating the IIR filter coefficients.

【0048】図2は、逆フーリエ変換と正規方程式を解くことにより、パワースペクトルP(ω)とマスキングスペクトルM(ω)から、IIRフィルタ係数を算出する処理手順を示す。 [0048] Figure 2 by solving the inverse Fourier transform and the normal equation, from the power spectrum P (omega) and the masking spectrum M (omega), showing the procedure for calculating the IIR filter coefficients.

【0049】以下、図2を参照して説明する。 [0049] In the following, it will be described with reference to FIG. 2.

【0050】まず、下記の式(8)に示すようにパワースペクトルを定義する。 [0050] First, define the power spectrum as shown in the following formula (8).

【0051】 [0051]

【数8】 [Equation 8]

【0052】パワースペクトルS(ω)と自己相関関数R(τ)の間には、下記の式(9)で示すような関係があるので、τ=0〜qの範囲で、FFTの手法等を使い、自己相関系列を算出する。 [0052] Between the power spectrum S (omega) and the autocorrelation function R (tau), there is a relationship shown by the following formula (9), in the range of τ = 0~q, FFT techniques such as the use, to calculate the autocorrelation sequence.

【0053】 [0053]

【数9】 [Equation 9]

【0054】次に自己相関係数から、IIRフィルタ係数への変換は、音声の線形予測分析で一般的に用いられているように、式(10)の正規方程式を解くことで求められる。 [0054] Next from the autocorrelation coefficients, conversion to IIR filter coefficients, as commonly used in the linear prediction analysis of speech, is determined by solving the normal equation of Equation (10).

【0055】 [0055]

【数10】 [Number 10]

【0056】式(10)において、(....) Tは行列の転置操作を表す。 [0056] formula (10) represents the transpose operation (....) T is a matrix.

【0057】上述した操作で、IIRフィルタの係数が算出される。 [0057] In the operations described above, the coefficient of the IIR filter is calculated.

【0058】図3は、準同形処理によるケプストラムを用いてIIRフィルタ係数を算出する他の手法を示す。 [0058] Figure 3 shows another method of calculating the IIR filter coefficients using cepstrum by homomorphic processing.

【0059】ここではパワースペクトルP(ω)を、マスキングスペクトルM(ω)で除す演算を、対数領域で行うので、式(11)に示す処理を行う。 [0059] The power spectrum P (omega) here, the dividing operation with a masking spectrum M (omega), is performed in the logarithmic domain, performs the processing shown in equation (11). これは図3では、P(ω)、M(ω)をそれぞれ対数演算部301, This FIG 3, P (ω), M the (omega), respectively logarithmic operation unit 301,
302で対数化して、演算部303で減算することに相当する。 And logarithmic in 302, equivalent to subtracting the arithmetic unit 303.

【0060】 [0060]

【数11】 [Number 11]

【0061】このLog S(ω)を逆FFT演算部3 [0061] The Log S (ω) the inverse FFT computation unit 3
04で逆フーリエ変換すると、式(12)によって、ケプストラムc nが算出される(「音声情報処理の基礎」 When inverse Fourier transform 04, the equation (12), cepstrum c n is calculated ( "Fundamentals of Speech Information Processing"
斎藤、中田、オーム社、pp. Saito, Nakata, Ohm, Inc., pp. 99−103、参照)。 99-103, reference).

【0062】 [0062]

【数12】 [Number 12]

【0063】ケプストラムc nの低次部分がスペクトル構造を表しているので、ケプストラム窓(例えば、w n [0063] Since the low-order portion of the cepstrum c n represents a spectral structure, cepstrum window (e.g., w n
=1:n=1〜q,w n =0:n>q)で窓掛けする。 = 1: n = 1~q, w n = 0: to windowing with n> q).
こうして求まったケプストラムc nから、式(13)によってIIRフィルタの係数が算出される。 From the thus Motoma' cepstrum c n, coefficients of the IIR filter is calculated by the equation (13).

【0064】 [0064]

【数13】 [Number 13]

【0065】ただし、式(13)において、kはk=1 [0065] However, in the formula (13), k is k = 1
〜qの整数である。 It is an integer of ~q.

【0066】以上の説明はCELPシステムで説明したが、マルチパルス符号化等の聴覚的重み付けフィルタを構成要素として持つシステムへも容易に応用できる。 [0066] The above description has been described in the CELP system, easily applicable to a system with hearing weighting filter such as multi-pulse coding as a component.

【0067】なお、符号化装置の符号化に関する部分を変更することにより、他の部分は一切変更なしで復号装置を実現できる。 [0067] By changing the part relating to the encoding of the encoding device, the other part can realize decoding apparatus without changing at all.

【0068】 [0068]

【発明の効果】本発明の音響信号符号化装置は、音響信号のパワースペクトルを求める手段と、聴覚マスキングスペクトル特性を求める手段と、音響信号の逆パワースペクトル特性を有する第1フィルタリング手段と、音響信号のパワースペクトル特性を聴覚マスキングスペクトル特性で除したスペクトル特性を有する第2フィルタリング手段とを備えており、第1フィルタリング手段及び第2フィルタリング手段により聴覚的重み付け処理を行うので、符号化で生じる量子化ノイズを、聴覚的重み付けフィルタによって、ノイズシェイピングすることができ、人間の聴覚特性の聴覚マスキングを利用することにより、雑音を聞こえにくくして再生音質を向上できる。 Acoustic signal encoding apparatus of the present invention exhibits, means for determining the power spectrum of the acoustic signal, means for determining the auditory masking spectral characteristics, a first filtering means having an inverse power spectrum characteristic of the acoustic signal, the acoustic the power spectral characteristics of the signal and a second filtering means having a spectral characteristic obtained by dividing the auditory masking spectral characteristics, since the auditory weighting processing by the first filtering means and the second filtering means, quantum occurring in coding the reduction noise by auditory weighting filter, can be noise shaping by utilizing auditory masking of the human auditory characteristics, thereby improving the quality of reproduced sound by less audible noise.
また、聴覚的重み付けフィルタは、音声の線形予測合成フィルタと合成することで、簡易化することができ、符号化演算量を削減することができる。 Further, auditory weighting filter by synthesizing a linear prediction synthesis filter of the speech, can be simplified, it is possible to reduce the encoding operation amount.

【0069】本発明の音響信号符号化装置は、音響信号のパワースペクトルから自己相関系列を求める逆フーリエ変換手段と、自己相関系列から第2フィルタリング手段の係数を効果的に算出することができる。 [0069] acoustic signal encoding apparatus of the present invention, the inverse Fourier transform means for obtaining an autocorrelation sequence from the power spectrum of the audio signal, it is possible to effectively calculate the coefficients of the second filtering means from the autocorrelation sequence.

【0070】本発明の音響信号符号化装置は、対数パワースペクトルを求める手段と、対数パワースペクトルから逆フーリエ変換によってケプストラムを求める手段によって、ケプストラムから第2フィルタリング手段の係数を効果的に算出することができる。 [0070] acoustic signal encoding apparatus of the present invention includes a means for obtaining a logarithmic power spectrum, the means for obtaining a cepstrum by an inverse Fourier transform from the log power spectrum, to effectively calculate the coefficients of the second filtering means from the cepstrum can.

【図面の簡単な説明】 BRIEF DESCRIPTION OF THE DRAWINGS

【図1】本発明の音響信号符号化装置の一実施例の構成を示すブロック図である。 1 is a block diagram showing the configuration of an embodiment of the acoustic signal encoding apparatus of the present invention.

【図2】本発明の音響信号符号化装置におけるフィルタ係数算出の一例を説明するためのフローチャートである。 Is a flowchart for explaining an example of a filter coefficient calculation in the acoustic signal encoding apparatus of the present invention; FIG.

【図3】本発明の音響信号符号化装置におけるフィルタ係数算出の他の一例を説明するためのブロック図である。 3 is a block diagram for explaining another example of the filter coefficient calculation in the acoustic signal encoding apparatus of the present invention.

【図4】従来技術のCELP音声符号化方式を説明するためのブロック図である。 4 is a block diagram for explaining the CELP speech coding system of the prior art.

【図5】従来技術のCELP音声符号化方式の、聴覚的重み付けフィルタ処理の簡易化を説明するためのブロック図である。 [5] of the CELP speech coding system of the prior art, it is a block diagram for explaining a simplified auditory weighting filter.

【図6】従来技術の聴覚マスキングを考慮した符号化方式を説明するためのフローチャートである。 6 is a flowchart for explaining an encoding method considering the auditory masking of the prior art.

【符号の説明】 DESCRIPTION OF SYMBOLS

101 CELPの励振符号帳(コードブック) 102 掛算部 103 ピッチ成分合成フィルタ 104,109 全極形IIRフィルタ 105 入力端子 106 減算部 107 FIRフィルタ 108 誤差エネルギー最小化部 110 線形予測分析部 111 パワースペクトル算出部 112 マスキング特性算出部 113 スペクトル比算出部 114 全極形IIRフィルタ算出部 301,302 対数演算部 303 減算部 304 逆フーリエ変換部 305 ケプストラム窓掛け部 306 ケプストラムから予測係数への変換部 101 CELP excitation codebook (codebook) 102 multiplication section 103 pitch component synthesis filter 104 and 109 all-pole IIR filter 105 input terminal 106 subtraction section 107 FIR filter 108 error energy minimizing section 110 linear prediction analyzer 111 power spectrum calculating part 112 masking characteristic calculating unit 113 spectrum ratio calculating unit 114 all-pole IIR filter calculating section 301, 302 conversion unit from logarithmic arithmetic unit 303 subtracting unit 304 inverse Fourier transform unit 305 cepstrum windowing unit 306 cepstrum to the prediction coefficients

Claims (3)

    (57)【特許請求の範囲】 (57) [the claims]
  1. 【請求項1】 音響信号のパワースペクトルを求める手段と、聴覚マスキングスペクトル特性を求める手段と、 Means for determining a power spectrum of 1. A sound signal, means for determining the auditory masking spectral characteristics,
    該音響信号の逆パワースペクトル特性を有する第1フィルタリング手段と、該音響信号のパワースペクトル特性を該聴覚マスキングスペクトル特性で除したスペクトル特性を有する第2フィルタリング手段とを備えており、 A first filtering means having an inverse power spectrum characteristic of the acoustic signal, and a second filtering means having a spectral characteristic obtained by dividing the power spectrum characteristics of the acoustic signal in 該聴 sense masking spectral characteristics,
    該第1フィルタリング手段及び該第2フィルタリング手段により聴覚的重み付け処理を行うことを特徴とする音響信号符号化装置。 Acoustic signal encoding apparatus characterized by performing the perceptual weighting processing by the first filtering means and the second filtering means.
  2. 【請求項2】 前記音響信号のパワースペクトルから自己相関系列を求める逆フーリエ変換手段と、自己相関系列から前記第2フィルタリング手段の係数を算出する手段を更に備えていることを特徴とする請求項1に記載の音響信号符号化装置。 2. A method according to claim, characterized in that said reverse Fourier transform means for obtaining an autocorrelation sequence from the power spectrum of the sound signal further comprises means for calculating the coefficients of the second filtering means from the autocorrelation sequence acoustic signal encoding apparatus according to 1.
  3. 【請求項3】 対数パワースペクトルを求める手段と、 3. A means for obtaining a logarithmic power spectrum,
    該対数パワースペクトルから逆フーリエ変換によってケプストラムを求める手段と、該ケプストラムから前記第2フィルタリング手段の係数を算出する手段とを更に備えていることを特徴とする請求項1に記載の音響信号符号化装置。 Means for determining a cepstrum by an inverse Fourier transform from the logarithmic power spectrum, the acoustic signal encoding according to claim 1, characterized in that it further comprises a means for calculating the coefficients of the second filtering means from said cepstrum apparatus.
JP18038093A 1993-07-21 1993-07-21 Acoustic signal encoding apparatus Expired - Fee Related JP3163206B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP18038093A JP3163206B2 (en) 1993-07-21 1993-07-21 Acoustic signal encoding apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP18038093A JP3163206B2 (en) 1993-07-21 1993-07-21 Acoustic signal encoding apparatus

Publications (2)

Publication Number Publication Date
JPH0736484A true JPH0736484A (en) 1995-02-07
JP3163206B2 true JP3163206B2 (en) 2001-05-08

Family

ID=16082227

Family Applications (1)

Application Number Title Priority Date Filing Date
JP18038093A Expired - Fee Related JP3163206B2 (en) 1993-07-21 1993-07-21 Acoustic signal encoding apparatus

Country Status (1)

Country Link
JP (1) JP3163206B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9016974B2 (en) 2009-07-02 2015-04-28 Vertical Leisure Ltd Coupling device

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1076297A1 (en) * 1999-08-09 2001-02-14 Deutsche Thomson-Brandt Gmbh Method for fast Fourier transformation of audio signals
JP2004356894A (en) * 2003-05-28 2004-12-16 Mitsubishi Electric Corp Sound quality adjuster

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9016974B2 (en) 2009-07-02 2015-04-28 Vertical Leisure Ltd Coupling device

Also Published As

Publication number Publication date Type
JPH0736484A (en) 1995-02-07 application

Similar Documents

Publication Publication Date Title
US6067511A (en) LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech
US5819212A (en) Voice encoding method and apparatus using modified discrete cosine transform
US5749065A (en) Speech encoding method, speech decoding method and speech encoding/decoding method
US5873059A (en) Method and apparatus for decoding and changing the pitch of an encoded speech signal
US6094629A (en) Speech coding system and method including spectral quantizer
Chen et al. Adaptive postfiltering for quality enhancement of coded speech
US6119082A (en) Speech coding system and method including harmonic generator having an adaptive phase off-setter
US6081776A (en) Speech coding system and method including adaptive finite impulse response filter
US6182030B1 (en) Enhanced coding to improve coded communication signals
US6078880A (en) Speech coding system and method including voicing cut off frequency analyzer
US6138092A (en) CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency
US6345246B1 (en) Apparatus and method for efficiently coding plural channels of an acoustic signal at low bit rates
US5864794A (en) Signal encoding and decoding system using auditory parameters and bark spectrum
US6941263B2 (en) Frequency domain postfiltering for quality enhancement of coded speech
US5924061A (en) Efficient decomposition in noise and periodic signal waveforms in waveform interpolation
US5752222A (en) Speech decoding method and apparatus
US7151802B1 (en) High frequency content recovering method and device for over-sampled synthesized wideband signal
US6353808B1 (en) Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
US5903866A (en) Waveform interpolation speech coding using splines
US20050065785A1 (en) Indexing pulse positions and signs in algebraic codebooks for coding of wideband signals
US5684920A (en) Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
US6912495B2 (en) Speech model and analysis, synthesis, and quantization methods
Gülzow et al. Comparison of a discrete wavelet transformation and a nonuniform polyphase filterbank applied to spectral-subtraction speech enhancement
US4945565A (en) Low bit-rate pattern encoding and decoding with a reduced number of excitation pulses
US6052658A (en) Method of amplitude coding for low bit rate sinusoidal transform vocoder

Legal Events

Date Code Title Description
FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 7

Free format text: PAYMENT UNTIL: 20080223

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090223

Year of fee payment: 8

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100223

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees