JPH06164520A - Method and device for encoding sound - Google Patents

Method and device for encoding sound

Info

Publication number
JPH06164520A
JPH06164520A JP30523492A JP30523492A JPH06164520A JP H06164520 A JPH06164520 A JP H06164520A JP 30523492 A JP30523492 A JP 30523492A JP 30523492 A JP30523492 A JP 30523492A JP H06164520 A JPH06164520 A JP H06164520A
Authority
JP
Japan
Prior art keywords
information
mel
spectrum
scaled
spectrum information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP30523492A
Other languages
Japanese (ja)
Other versions
JPH0775339B2 (en
Inventor
Isao Tejima
功 手嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHODENRYOKU KOSOKU TSUSHIN
SHODENRYOKU KOSOKU TSUSHIN KENKYUSHO KK
Original Assignee
SHODENRYOKU KOSOKU TSUSHIN
SHODENRYOKU KOSOKU TSUSHIN KENKYUSHO KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHODENRYOKU KOSOKU TSUSHIN, SHODENRYOKU KOSOKU TSUSHIN KENKYUSHO KK filed Critical SHODENRYOKU KOSOKU TSUSHIN
Priority to JP4305234A priority Critical patent/JPH0775339B2/en
Publication of JPH06164520A publication Critical patent/JPH06164520A/en
Publication of JPH0775339B2 publication Critical patent/JPH0775339B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

PURPOSE:To considerably reduce information amount by compressing spectrum information through the use of a mell scale, ignoring phase information and quantizing a transmission parameter by two bits. CONSTITUTION:A mell frequency axis is equally divided at first. Then, a physical frequency axis corresponding to a section divided by the mell frequency axis is divided. Representative spectrum (mell scaling spectrum) information is calculated from the respective sections of the divided physical frequency axes. Spectrum information S5 and S6 of a complex system calculated by an FFT unit are shown in power by a spectrum calculator 50 and they are set to be information S7 obtained by reducing a phase angle. Then, information S7 is divided by a mell scale divider 51 and mell band information S8 is obtained. Then, position information 9 of a maximum amplitude spectrum is detected from information S8 by a maximum position detector 52. The power of a synthesized spectrum in a mell band is obtained by the synthesizer 53, and it becomes mell scaling spectrum information S10. Then, information S10 is encoded by a power spectrum encoder.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、音声通信を行なう際
に、音声信号をディジタル信号の形式に変換して伝送す
る場合において、情報量を削減することによって伝送速
度を低速化して狭帯域化を図り伝送帯域の有効利用を図
る音声符号化方法及び装置に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention reduces the amount of information in the case of converting a voice signal into a digital signal format for transmission during voice communication and transmitting it, thereby lowering the transmission speed and narrowing the band. The present invention relates to a speech coding method and apparatus for achieving efficient use of transmission band by utilizing the above method.

【0002】[0002]

【従来の技術】従来、離散化された音声信号を処理単位
(フレーム)に区切り、窓かけによって重み付けを行な
い、3/4フレームを重ね合わせて高速フーリエ変換
(FFT)によって時間領域から周波数領域へ直交変換
し、人間の聴覚特性の一つであるメル尺度に従って物理
的な周波数[Hz]からメル尺度で表される周波数[m
el]に置換する場合において、メル周波数軸で40個
程度の帯域に等分割しそれに対応する物理周波数軸を分
割し、分割された物理周波数軸の帯域に存在する複数の
スペクトル情報からその帯域の代表スペクトル情報すな
わちメル尺度化スペクトル情報を抽出し、ADPCMに
より符号化する音声符号化方式があった。しかし、この
方式では圧縮率が低く伝送帯域の有効利用は期待できな
い。
2. Description of the Related Art Conventionally, a discretized audio signal is divided into processing units (frames), weighted by windowing, 3/4 frames are superposed, and a fast Fourier transform (FFT) is performed to change them from a time domain to a frequency domain. Orthogonal transformation is performed, and according to the Mel scale, which is one of the human auditory characteristics, the frequency [m] expressed from the physical frequency [Hz] to the Mel scale
[el], the mel frequency axis is equally divided into about 40 bands, the corresponding physical frequency axis is divided, and a plurality of spectrum information existing in the divided physical frequency axis bands There is a speech coding method in which representative spectrum information, that is, Mel scaled spectrum information is extracted and coded by ADPCM. However, with this method, the compression rate is low and effective use of the transmission band cannot be expected.

【0003】そこで、メル尺度化スペクトル情報のLO
Gをとり再度FFTとすることによりメル尺度化ケプス
トラムを算出しその低次成分(スペクトル包洛情報)を
ベクトル量子化する方法が考え出され大幅な圧縮が可能
となった。しかし、この方式ではベクトル量子化に要す
る処理が膨大であり実現は非常に困難であった。
Therefore, the LO of the mel-scaled spectral information is
A method of calculating the mel-scaled cepstrum by taking G and again using FFT and vector-quantizing the low-order component (spectral envelopment information) has been devised, and it has become possible to significantly compress. However, this method is very difficult to realize because the amount of processing required for vector quantization is huge.

【0004】[0004]

【発明が解決しようとする課題】本発明は上記の事情に
鑑みてなされたもので、比較的圧縮率が高く実現が容易
な音声符号化方法及び装置を提供することを目的とす
る。
SUMMARY OF THE INVENTION The present invention has been made in view of the above circumstances, and it is an object of the present invention to provide a speech coding method and apparatus which have a relatively high compression rate and are easy to realize.

【0005】[0005]

【課題を解決するための手段】本発明は上記課題を解決
するために、離散化された音声信号を処理単位に区切
り、高速フーリエ変換によって時間領域から周波数領域
へ直交変換し、メル尺度に従って物理的な周波数からメ
ル尺度で表される周波数に置換する場合において、メル
周波数軸で複数の帯域に等分割しそれに対応する物理周
波数軸を分割し、分割された物理周波数軸の帯域に存在
する複数のスペクトル情報からその帯域の最大振幅スペ
クトルの位置情報とその帯域の合成スペクトル電力から
なるメル尺度化スペクトル情報を抽出し、符号化して情
報量を削減することを特徴とする音声符号化方法であ
る。
In order to solve the above problems, the present invention divides a discretized audio signal into processing units, performs orthogonal transform from the time domain to the frequency domain by fast Fourier transform, and performs physical transformation according to the Mel scale. In the case of replacing a specific frequency with a frequency represented by a mel scale, the mel frequency axis is equally divided into a plurality of bands, the corresponding physical frequency axis is divided, and a plurality of divided physical frequency axis bands exist. Of the maximum amplitude spectrum of the band and mel-scaled spectrum information composed of the combined spectrum power of the band is extracted from the spectrum information of the band, and is coded to reduce the amount of information. .

【0006】また、上記音声符号化方法において、離散
化されフレーム化された音声信号を高速フーリエ変換を
用いて時間領域から周波数領域に変換する場合、複素形
式のスペクトル情報を電力スペクトル情報の形式で表す
ことで位相情報を無視して伝送パラメータの削減を図
り、復号時においては電力スペクトル情報を虚数部に配
置して実数部は0として高速逆フーリエ変換を行ない時
間軸に再変換した際に正弦波の合成となるようにしたこ
とを特徴とするものである。
Further, in the above speech coding method, when transforming the discretized and framed speech signal from the time domain to the frequency domain by using the fast Fourier transform, the complex spectrum information is converted into the power spectrum information format. By expressing it, the phase information is ignored and the transmission parameters are reduced. At the time of decoding, the power spectrum information is arranged in the imaginary part, the real part is set to 0, and the fast inverse Fourier transform is performed. It is characterized in that the wave is synthesized.

【0007】また、上記音声符号化方法において、メル
尺度化スペクトル情報中で絶対値が最大のものを選び最
大値情報とし、その最大値情報と他のメル尺度化スペク
トル情報の絶対値を比較し、その差が最大値の1/2以
上であれば00,1/4以上1/2未満であれば01,
1/8以上1/4未満であれば10,1/8未満であれ
ば11と、4段階に2ビットで符号化したことを特徴と
するものである。
Further, in the above speech coding method, the one having the largest absolute value is selected from the mel-scaled spectrum information as the maximum value information, and the maximum value information is compared with the absolute value of other mel-scaled spectrum information. , If the difference is ½ or more of the maximum value, 00, if ¼ or more and less than 1/2, 01,
It is characterized in that 2 bits are coded in 4 steps, that is, if it is 1/8 or more and less than 1/4, it is 10, and if it is less than 1/8, it is 11.

【0008】また、音声信号をディジタルデータとする
A/D変換器と、このA/D変換器から出力されたディ
ジタルデータを処理単位に分割された信号とする第1の
バッファと、この第1のバッファから出力されたデータ
に重み付けを行なう窓かけ器と、この窓かけ器から出力
されたデータを時間領域から周波数領域のスペクトル情
報に変換する高速フーリエ変換器と、この高速フーリエ
変換器から出力されたスペクトル情報を物理的な周波数
軸からメルで表現されるメル周波数軸に変換してメル尺
度化スペクトル情報を得るメル尺度化器と、このメル尺
度化器から出力されたメル尺度化スペクトル情報からメ
ル尺度化スペクトル情報中で絶対値が最大の最大値情報
及び符号化メル尺度化スペクトル情報を得る電力スペク
トル符号化器と、この電力スペクトル符号化器から抽出
された最大値情報,符号化メル尺度化スペクトル情報,
及び前記メル尺度化器から出力されたメル尺度化スペク
トルの位置情報を多重化してディジタルデータとして伝
送する多重化器と、この多重化器から伝送されたディジ
タルデータを多重分離してメル尺度化スペクトル情報中
で絶対値が最大の最大値情報,符号化メル尺度化スペク
トル情報,及びメル尺度化スペクトルの位置情報を得る
多重分離器と、この多重分離器から出力された最大値情
報及び符号化メル尺度化スペクトル情報からメル尺度化
スペクトル情報を復号化する電力スペクトル復号器と、
この電力スペクトル復号器から出力されたメル尺度化ス
ペクトル情報と前記多重分離器から出力されたメル尺度
化スペクトルの位置情報とから物理的な周波数軸上のス
ペクトル情報に復号化するメル尺度復号器と、このメル
尺度復号器から出力されたスペクトル情報を周波数領域
から時間領域のディジタルデータに変換する高速逆フー
リエ変換器と、この高速逆フーリエ変換器から出力され
たディジタルデータを第2のバッファを介してアナログ
の音声信号に変換するD/A変換器とを具備することを
特徴とするものである。
Also, an A / D converter that converts a voice signal into digital data, a first buffer that converts the digital data output from the A / D converter into processing units, and the first buffer Windower for weighting the data output from the buffer, the fast Fourier transformer for converting the data output from this windower into the spectrum information in the frequency domain, and the output from this fast Fourier transformer Mel scaler that obtains mel-scaled spectrum information by converting the generated spectral information from the physical frequency axis to the mel frequency axis represented by mel, and the mel-scaled spectrum information output from this mel-scaler A power spectrum encoder that obtains maximum value information and encoded mel-scaled spectrum information having the largest absolute value in the mel-scaled spectrum information from Max information, coding mel scale of spectral information extracted from the power spectrum encoder,
And a multiplexer for multiplexing position information of the mel-scaled spectrum output from the mel-scaler and transmitting it as digital data, and a mel-scaled spectrum for demultiplexing the digital data transmitted from the multiplexer. A demultiplexer for obtaining maximum value information having the largest absolute value in information, coded mel-scaled spectrum information, and position information of mel-scaled spectrum, and maximum value information and coded mel output from the demultiplexer. A power spectrum decoder for decoding Mel scaled spectrum information from the scaled spectrum information,
A mel-scale decoder that decodes mel-scaled spectrum information output from the power spectrum decoder and position information of the mel-scaled spectrum output from the demultiplexer into spectrum information on a physical frequency axis, and , A fast inverse Fourier transformer that transforms the spectral information output from the mel scale decoder into digital data in the frequency domain from the frequency domain, and the digital data output from the fast inverse Fourier transformer via a second buffer. And a D / A converter for converting into an analog audio signal.

【0009】[0009]

【作用】本発明は上記手段により、周波数領域における
波形符号化の一種で人間の聴覚特性を利用して圧縮を図
るものであり、音声信号を周波数領域に変換し、人間の
聴覚特性の一つであるメル尺度に従って物理的な周波数
をメル尺度で表現されるメル周波数軸に置換する場合に
おいて複素スペクトルの位相情報を無視しさらにメル尺
度化スペクトル情報を2ビットで符号化することにより
大幅な情報量削減をはかることを特徴とするものであ
る。
According to the present invention, the above-mentioned means is one of the waveform coding in the frequency domain for the purpose of compression by utilizing the human auditory characteristic. The speech signal is converted into the frequency domain and one of the human auditory characteristic is obtained. By replacing the physical frequency according to the mel scale with the mel frequency axis represented by the mel scale, the phase information of the complex spectrum is ignored, and the mel-scaled spectrum information is encoded by 2 bits to obtain a large amount of information. The feature is that the amount is reduced.

【0010】[0010]

【実施例】以下図面を参照して本発明の実施例を詳細に
説明する。図1は本発明の一実施例の回路構成を示す。
図において20は音声符号化器、21は音声復号器であ
る。まず音声符号化処理について説明する。
Embodiments of the present invention will now be described in detail with reference to the drawings. FIG. 1 shows a circuit configuration of an embodiment of the present invention.
In the figure, 20 is a speech encoder, and 21 is a speech decoder. First, the voice encoding process will be described.

【0011】連続的な音声信号S1をA/D(アナログ
/ディジタル)変換器1によって標本化、量子化し離散
信号S2とする。次にバッファ2を介し離散信号S2を
処理単位(フレーム)に分割された信号S3とする。こ
のフレームの長さは音声信号の定常性を考慮し20〜4
0msec程度とする。次に周波数領域に変換する際に
分析精度を向上させるため信号S3に対し適当な窓かけ
器3により重み付けを行なう。窓かけの方法としてはハ
ミング窓やハニング窓等が挙げられる。次に窓かけされ
た処理単位の信号S4を周波数領域に変換する。変換の
方法としては分解能が高く高速に実行できる方法が望ま
しいため高速フーリエ変換(FFT)器4を用いる。F
FTの分析ポイント数は分析時間と分解能のトレードオ
フから256ポイント程度とする。256ポイントFF
Tを行なった場合128本の複素スペクトル情報が得ら
れる。このスペクトル情報の間隔は、例えば標本化周波
数8kHzで1フレーム32mSの場合31.25Hz
となる。次にFFT器4によって算出されたスペクトル
情報S5,S6を物理的な周波数軸からメルで表現され
るメル周波数軸にメル尺度化器5によって置換する。メ
ル尺度は人間の聴覚特性において音の高さの感覚が、図
2に示すように物理的な周波数に対して線形でなく、 fm =1000log2 (1+f/1000) f :物理的な周波数[Hz] fm :メル周波数[mel] で近似される。
A continuous audio signal S1 is sampled and quantized by an A / D (analog / digital) converter 1 to form a discrete signal S2. Next, the discrete signal S2 is converted into a signal S3 divided into processing units (frames) via the buffer 2. The length of this frame is 20 to 4 considering the steadiness of the audio signal.
It is about 0 msec. Next, the signal S3 is weighted by an appropriate windowing device 3 in order to improve the analysis accuracy when converting into the frequency domain. Examples of the windowing method include a Hamming window and a Hanning window. Next, the windowed processing unit signal S4 is transformed into the frequency domain. A fast Fourier transform (FFT) device 4 is used because a method having a high resolution and a high-speed execution is desirable as the conversion method. F
The number of FT analysis points is set to about 256 points from the trade-off between analysis time and resolution. 256 point FF
When T is performed, 128 pieces of complex spectrum information are obtained. The interval of the spectrum information is, for example, 31.25 Hz when the sampling frequency is 8 kHz and one frame is 32 mS.
Becomes Next, the mel scaler 5 replaces the spectrum information S5 and S6 calculated by the FFT unit 4 with the mel frequency axis represented by mel from the physical frequency axis. According to the Mel scale, the perception of pitch is not linear with the physical frequency as shown in FIG. 2 in the human auditory characteristic, and f m = 1000 log 2 (1 + f / 1000) f: physical frequency [ Hz] f m: is approximated by Mel frequency [mel].

【0012】メル尺度を利用して圧縮を図るための具体
的手段を説明する。まずメル周波数軸を等分割する。こ
の分割数が少ないほど圧縮率は高くなる。次に図3に示
すようにメル周波数軸で分割された区間に対応する物理
周波数軸を分割する。分割された物理周波数軸のそれぞ
れの区間から代表スペクトル(メル尺度化スペクトル)
情報を算出する。メル尺度化スペクトル情報の算出方法
を図4を用いて説明する。まずFFT器4によって算出
された複素形式のスペクトル情報S5,S6を電力スペ
クトル算出器50によって電力で表し位相角を削除した
スペクトル情報S7とする。これは人間の聴覚が瞬時位
相に対して鈍感であり、位相を無視しても音声情報の認
識には影響を及ぼさないためである。次にメル尺度分割
器51でスペクトル情報S7を分割しメル帯域スペクト
ル情報S8を得る。次にスペクトル情報S8を最大値位
置検出器52によりメル帯域内の最大振幅スペクトルの
位置情報S9を検出する。次に合成器53によりメル帯
域の合成スペクトル電力を求める。この合成スペクトル
電力がメル尺度化スペクトル情報S10となる。上記の
例として、15分割する場合には128本の複素スペク
トル情報が15本のメル尺度化スペクトル情報と15の
位置情報で表されることになりこの時点で情報量は約1
/4に圧縮される。次に電力スペクトル符号化器6によ
りメル尺度化スペクトル情報S10を符号化する。この
符号化器6の詳細を説明する。まず、メル尺度化スペク
トル情報中で絶対値が最大のものを抽出し最大値情報S
11とする。次にその最大値情報とメル尺度化スペクト
ル情報の絶対値を比較し、その差が最大値の1/2以上
であれば00,1/4以上1/2未満であれば01,1
/8以上1/4未満であれば10,1/8未満であれば
11と、4段階に2bitで符号化し大幅な情報量削減
を行なった符号化メル尺度化スペクトル情報S12を得
る。例として15分割の場合この時点では元の情報の約
1/25に圧縮される。最後に最大値情報S11、符号
化メル尺度化スペクトル情報(×分割数)S12、メル
尺度化スペクトルの位置情報(×分割数)S9を多重化
器7により多重化してディジタルデータS13として伝
送する。
Specific means for achieving compression using the Mel scale will be described. First, the Mel frequency axis is equally divided. The smaller the number of divisions, the higher the compression rate. Next, as shown in FIG. 3, the physical frequency axis corresponding to the section divided by the mel frequency axis is divided. Representative spectrum (mel-scaled spectrum) from each section of the divided physical frequency axis
Calculate information. A method of calculating mel-scaled spectrum information will be described with reference to FIG. First, the spectrum information S5 and S6 in the complex format calculated by the FFT unit 4 are represented by power by the power spectrum calculator 50, and the spectrum information S7 is obtained by deleting the phase angle. This is because the human sense of hearing is insensitive to the instantaneous phase, and ignoring the phase does not affect the recognition of voice information. Next, the mel scale divider 51 divides the spectrum information S7 to obtain mel band spectrum information S8. Then, the maximum value position detector 52 detects the position information S9 of the maximum amplitude spectrum in the mel band of the spectrum information S8. Next, the combiner 53 obtains the combined spectrum power in the mel band. This combined spectrum power becomes Mel scaled spectrum information S10. As an example of the above, in the case of 15 divisions, 128 pieces of complex spectrum information are represented by 15 pieces of mel-scaled spectrum information and 15 pieces of position information, and the amount of information is about 1 at this point.
Compressed to / 4. Next, the power spectrum encoder 6 encodes the mel-scaled spectrum information S10. Details of the encoder 6 will be described. First, the maximum absolute value information S is extracted by extracting the maximum absolute value from the Mel scaled spectrum information.
11 Next, the maximum value information and the absolute value of the mel-scaled spectrum information are compared. If the difference is ½ or more of the maximum value, 00, ¼ or more and less than 1/2, 01, 1
If / 8 or more and less than ¼, it is 10, if less than ⅛, it is 11, and encoded mel-scaled spectrum information S12 is obtained by performing 2-bit encoding in four steps and greatly reducing the information amount. For example, in the case of 15 divisions, at this point, the information is compressed to about 1/25. Finally, the maximum value information S11, the encoded mel-scaled spectrum information (x division number) S12, and the mel-scaled spectrum position information (x division number) S9 are multiplexed by the multiplexer 7 and transmitted as digital data S13.

【0013】次に音声復号器21の説明をする。まず受
信されたディジタルデータS13を多重分離器8により
多重分離を行なう。次に電力スペクトル復号器9により
最大値情報S11を基準として符号化メル尺度化スペク
トル情報S12を最大値の1/1,1/2,1/4,1
/8で表現することで復号しメル尺度化スペクトル情報
S14を得る。次に得られたメル尺度化スペクトル情報
S14と位置情報S9をメル尺度復号器10により符号
化時に分割された帯域内の最大振幅スペクトル情報があ
った位置に配置することで元の物理周波数軸上に復元す
る。この操作により、音声信号のピッチ構造と抑揚はほ
ぼ保存される。次に高速逆フーリエ変換(IFFT)器
11で変換を行ない周波数領域から時間領域に変換す
る。この際、スペクトルは本来複素形式で位相角を持っ
ているはずだが符号化時に述べたように瞬時位相を無視
しそのスペクトルの電力値で表現している為、時間領域
に再変換した際にフレーム端でスムーズに接続されるよ
うにスペクトル情報は虚数部S16に配置し実数部S1
5は全て0とする。この結果IFFT器11により時間
軸に再変換されたデータS17は正弦波の合成となりフ
レーム先端は全て振幅が0から始まり終端で0で終わり
前後のフレームはスムーズに接続される。このため符号
化時にフレーム分割する際にフレーム接続を考慮したオ
ーバーラップ処理を行なう必要はないことがわかる。次
にバッファ12を介しディジタルデータS18をD/A
変換器13によりD/A変換しアナログの復号音声信号
S19を得て処理を終える。
Next, the speech decoder 21 will be described. First, the received digital data S13 is demultiplexed by the demultiplexer 8. Next, the power spectrum decoder 9 sets the encoded mel-scaled spectrum information S12 based on the maximum value information S11 as 1/1, 1/2, 1/4, 1 of the maximum value.
Decoding is performed by expressing / 8 to obtain Mel scaled spectrum information S14. Next, the mel-scaled spectrum information S14 and the position information S9 obtained are arranged on the original physical frequency axis by arranging them at the position where the maximum amplitude spectrum information within the band divided by the mel-scale decoder 10 at the time of encoding was present. Restore to. By this operation, the pitch structure and intonation of the voice signal are almost preserved. Next, the fast inverse Fourier transform (IFFT) device 11 performs the conversion to convert the frequency domain to the time domain. At this time, the spectrum should originally have a phase angle in a complex format, but since it was expressed by the power value of that spectrum ignoring the instantaneous phase as described at the time of encoding, the frame when reconverted to the time domain The spectral information is arranged in the imaginary part S16 so that the smooth connection is made at the end, and the real part S1
5 is all 0. As a result, the data S17 re-converted to the time axis by the IFFT unit 11 becomes a sine wave composite, and the frame front end all starts from 0 in amplitude and ends in 0, and the frames before and after are smoothly connected. Therefore, it is understood that it is not necessary to perform overlap processing considering frame connection when dividing a frame during encoding. Next, the digital data S18 is transferred to the D / A via the buffer 12.
The converter 13 performs D / A conversion to obtain an analog decoded voice signal S19 and ends the processing.

【0014】[0014]

【発明の効果】以上述べたように本発明によれば、音声
通信を行なう際に、音声信号をディジタル信号の形式に
変換して伝送する場合において、人間の聴覚特性の一つ
であるメル尺度を利用することによってスペクトル情報
を圧縮し、位相情報を無視し、伝送パラメータを2ビッ
トで量子化することによって大幅に情報量を削減できる
ので実用上の効果は大きい。
As described above, according to the present invention, in voice communication, when the voice signal is converted into a digital signal and transmitted, the Mel scale, which is one of human auditory characteristics, is used. Is used, the spectrum information is compressed, the phase information is ignored, and the transmission parameter is quantized by 2 bits, so that the amount of information can be significantly reduced.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例を示す構成説明図である。FIG. 1 is a structural explanatory view showing an embodiment of the present invention.

【図2】本発明に係るメル尺度と物理周波数の関係の一
例を示す特性図である。
FIG. 2 is a characteristic diagram showing an example of a relationship between a mel scale and a physical frequency according to the present invention.

【図3】本発明に係るメル尺度軸の分割に対応した物理
周波数軸の分割の一例を示す特性図である。
FIG. 3 is a characteristic diagram showing an example of division of a physical frequency axis corresponding to division of a mel scale axis according to the present invention.

【図4】本発明に係るメル尺度化処理の一例を示す構成
説明図である。
FIG. 4 is a structural explanatory view showing an example of a mel scaling processing according to the present invention.

【符号の説明】[Explanation of symbols]

1…A/D変換器、2,12…バッファ、3…窓かけ
器、4…FFT器、5…メル尺度化器、6…符号化器、
7…多重化器、8…多重分離器、9…復号器、10…メ
ル尺度復号器、11…IFFT器、13…D/A変換
器、20…音声符号化器、21…音声復号器、50…電
力スペクトル算出器、51…分割器、52…最大値位置
検出器、53…合成器。
1 ... A / D converter, 2, 12 ... Buffer, 3 ... Window device, 4 ... FFT device, 5 ... Mel scaler, 6 ... Encoder,
7 ... Multiplexer, 8 ... Demultiplexer, 9 ... Decoder, 10 ... Mel scale decoder, 11 ... IFFT device, 13 ... D / A converter, 20 ... Speech encoder, 21 ... Speech decoder, 50 ... Power spectrum calculator, 51 ... Divider, 52 ... Maximum value position detector, 53 ... Combiner

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 離散化された音声信号を処理単位に区切
り、高速フーリエ変換によって時間領域から周波数領域
へ直交変換し、メル尺度に従って物理的な周波数からメ
ル尺度で表される周波数に置換する場合において、メル
周波数軸で複数の帯域に等分割しそれに対応する物理周
波数軸を分割し、分割された物理周波数軸の帯域に存在
する複数のスペクトル情報からその帯域の最大振幅スペ
クトルの位置情報とその帯域の合成スペクトル電力から
なるメル尺度化スペクトル情報を抽出し、符号化して情
報量を削減することを特徴とする音声符号化方法。
1. A case where a discretized audio signal is divided into processing units, orthogonal transformation is performed from a time domain to a frequency domain by a fast Fourier transform, and a physical frequency is replaced with a frequency represented by a mel scale according to the mel scale. In, in the mel frequency axis is divided into a plurality of bands on the physical frequency axis corresponding to it, the position information of the maximum amplitude spectrum of that band from the plurality of spectrum information existing in the band of the divided physical frequency axis and its A speech coding method characterized in that mel-scaled spectral information composed of band combined spectral power is extracted and coded to reduce the amount of information.
【請求項2】 離散化されフレーム化された音声信号を
高速フーリエ変換を用いて時間領域から周波数領域に変
換する場合、複素形式のスペクトル情報を電力スペクト
ル情報の形式で表すことで位相情報を無視して伝送パラ
メータの削減を図り、復号時においては電力スペクトル
情報を虚数部に配置して実数部は0として高速逆フーリ
エ変換を行ない時間軸に再変換した際に正弦波の合成と
なるようにしたことを特徴とする請求項1記載の音声符
号化方法。
2. When transforming a discretized and framed speech signal from the time domain to the frequency domain by using the fast Fourier transform, the spectrum information in the complex format is represented in the format of the power spectrum information and the phase information is ignored. In order to reduce the transmission parameters, the power spectrum information is placed in the imaginary part at the time of decoding, the real part is set to 0, and the fast inverse Fourier transform is performed so that the sine wave is synthesized when re-transformed to the time axis. The speech coding method according to claim 1, wherein
【請求項3】 メル尺度化スペクトル情報中で絶対値が
最大のものを選び最大値情報とし、その最大値情報と他
のメル尺度化スペクトル情報の絶対値を比較し、その差
が最大値の1/2以上であれば00,1/4以上1/2
未満であれば01,1/8以上1/4未満であれば1
0,1/8未満であれば11と、4段階に2ビットで符
号化したことを特徴とする請求項1記載の音声符号化方
法。
3. The mel-scaled spectrum information having the maximum absolute value is selected as maximum value information, and the maximum value information is compared with the absolute values of other mel-scaled spectrum information, and the difference is the maximum value. 00 if 1/2 or more, 1/2 or more 1/2
01 if less than 1 and 1 if 1/8 or more and less than 1/4
2. The speech coding method according to claim 1, wherein if the value is less than 0, 1/8, it is 11, and the coding is performed with 2 bits in 4 steps.
【請求項4】 音声信号をディジタルデータとするA/
D変換器と、このA/D変換器から出力されたディジタ
ルデータを処理単位に分割された信号とする第1のバッ
ファと、この第1のバッファから出力されたデータに重
み付けを行なう窓かけ器と、この窓かけ器から出力され
たデータを時間領域から周波数領域のスペクトル情報に
変換する高速フーリエ変換器と、この高速フーリエ変換
器から出力されたスペクトル情報を物理的な周波数軸か
らメルで表現されるメル周波数軸に変換してメル尺度化
スペクトル情報を得るメル尺度化器と、このメル尺度化
器から出力されたメル尺度化スペクトル情報からメル尺
度化スペクトル情報中で絶対値が最大の最大値情報及び
符号化メル尺度化スペクトル情報を得る電力スペクトル
符号化器と、この電力スペクトル符号化器から抽出され
た最大値情報,符号化メル尺度化スペクトル情報,及び
前記メル尺度化器から出力されたメル尺度化スペクトル
の位置情報を多重化してディジタルデータとして伝送す
る多重化器と、この多重化器から伝送されたディジタル
データを多重分離してメル尺度化スペクトル情報中で絶
対値が最大の最大値情報,符号化メル尺度化スペクトル
情報,及びメル尺度化スペクトルの位置情報を得る多重
分離器と、この多重分離器から出力された最大値情報及
び符号化メル尺度化スペクトル情報からメル尺度化スペ
クトル情報を復号化する電力スペクトル復号器と、この
電力スペクトル復号器から出力されたメル尺度化スペク
トル情報と前記多重分離器から出力されたメル尺度化ス
ペクトルの位置情報とから物理的な周波数軸上のスペク
トル情報に復号化するメル尺度復号器と、このメル尺度
復号器から出力されたスペクトル情報を周波数領域から
時間領域のディジタルデータに変換する高速逆フーリエ
変換器と、この高速逆フーリエ変換器から出力されたデ
ィジタルデータを第2のバッファを介してアナログの音
声信号に変換するD/A変換器とを具備することを特徴
とする音声符号化装置。
4. A / A in which a voice signal is digital data
A D converter, a first buffer that uses the digital data output from the A / D converter as a signal divided into processing units, and a windower that weights the data output from the first buffer. And a fast Fourier transformer that transforms the data output from this window multiplier into spectrum information in the time domain from the time domain, and the spectrum information output from this fast Fourier transformer is expressed in mel from the physical frequency axis. The mel scaler that obtains the mel-scaled spectrum information by converting it to the mel-scaled spectral axis that is output from this mel-scaled spectrum information has the largest absolute value in the mel-scaled spectrum information. A power spectrum coder for obtaining value information and coded mel-scaled spectrum information, and maximum value information and code extracted from the power spectrum coder. Mel-scaled spectrum information and a multiplexer for multiplexing position information of the mel-scaled spectrum output from the mel-scaler and transmitting it as digital data, and the digital data transmitted from this multiplexer. A demultiplexer that separates and obtains the maximum value information having the largest absolute value in the mel-scaled spectrum information, the encoded mel-scaled spectrum information, and the position information of the mel-scaled spectrum, and the output from this demultiplexer A power spectrum decoder for decoding the mel-scaled spectrum information from the maximum value information and the encoded mel-scaled spectrum information, the mel-scaled spectrum information output from the power spectrum decoder and the demultiplexer output Mel scale decoding for decoding from position information of mel scaled spectrum to spectrum information on physical frequency axis And a fast inverse Fourier transformer that transforms the spectrum information output from the Mel scale decoder into digital data in the frequency domain from the frequency domain, and the digital data output from the fast inverse Fourier transformer in a second buffer. A D / A converter for converting the signal into an analog speech signal via the speech coding apparatus.
JP4305234A 1992-11-16 1992-11-16 Speech coding method and apparatus Expired - Lifetime JPH0775339B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4305234A JPH0775339B2 (en) 1992-11-16 1992-11-16 Speech coding method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4305234A JPH0775339B2 (en) 1992-11-16 1992-11-16 Speech coding method and apparatus

Publications (2)

Publication Number Publication Date
JPH06164520A true JPH06164520A (en) 1994-06-10
JPH0775339B2 JPH0775339B2 (en) 1995-08-09

Family

ID=17942651

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4305234A Expired - Lifetime JPH0775339B2 (en) 1992-11-16 1992-11-16 Speech coding method and apparatus

Country Status (1)

Country Link
JP (1) JPH0775339B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007515126A (en) * 2003-12-19 2007-06-07 クリエイティブ テクノロジー リミテッド Method and system for processing digital images
JP2008537174A (en) * 2005-04-20 2008-09-11 キューエヌエックス ソフトウェア システムズ (ウェイブメイカーズ), インコーポレイテッド System for improving speech quality and intelligibility
US8086451B2 (en) 2005-04-20 2011-12-27 Qnx Software Systems Co. System for improving speech intelligibility through high frequency compression
US8249861B2 (en) 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61201526A (en) * 1985-02-27 1986-09-06 テレフンケン・フエルンゼー・ウント・ルントフンク・ゲゼルシヤフト・ミツト・ベシユレンクテル・ハフツング Transmission of audio signal

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61201526A (en) * 1985-02-27 1986-09-06 テレフンケン・フエルンゼー・ウント・ルントフンク・ゲゼルシヤフト・ミツト・ベシユレンクテル・ハフツング Transmission of audio signal

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007515126A (en) * 2003-12-19 2007-06-07 クリエイティブ テクノロジー リミテッド Method and system for processing digital images
JP2008537174A (en) * 2005-04-20 2008-09-11 キューエヌエックス ソフトウェア システムズ (ウェイブメイカーズ), インコーポレイテッド System for improving speech quality and intelligibility
JP4707739B2 (en) * 2005-04-20 2011-06-22 キューエヌエックス ソフトウェア システムズ (ウェイブメイカーズ), インコーポレイテッド System for improving speech quality and intelligibility
US8086451B2 (en) 2005-04-20 2011-12-27 Qnx Software Systems Co. System for improving speech intelligibility through high frequency compression
US8249861B2 (en) 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration

Also Published As

Publication number Publication date
JPH0775339B2 (en) 1995-08-09

Similar Documents

Publication Publication Date Title
US6725190B1 (en) Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope
KR101000345B1 (en) Audio encoding device, audio decoding device, audio encoding method, and audio decoding method
EP2881945B1 (en) Haptic signal synthesis and transport in a bit stream
JP3747492B2 (en) Audio signal reproduction method and apparatus
JP3557662B2 (en) Speech encoding method and speech decoding method, and speech encoding device and speech decoding device
US6678655B2 (en) Method and system for low bit rate speech coding with speech recognition features and pitch providing reconstruction of the spectral envelope
RU2366007C2 (en) Method and device for speech restoration in system of distributed speech recognition
US20150262587A1 (en) Pitch Synchronous Speech Coding Based on Timbre Vectors
JPH10307599A (en) Waveform interpolating voice coding using spline
US20090144058A1 (en) Restoration of high-order Mel Frequency Cepstral Coefficients
JP3344962B2 (en) Audio signal encoding device and audio signal decoding device
JPH11510274A (en) Method and apparatus for generating and encoding line spectral square root
JP2002156999A (en) Noise signal analyzing device, noise signal composing device, noise signal analyzing method, and noise signal composing method
EP2595147A1 (en) Audio data encoding method and device
JPH06164520A (en) Method and device for encoding sound
JP2834260B2 (en) Speech spectral envelope parameter encoder
US10490196B1 (en) Method and system for low bit rate voice encoding and decoding applicable for any reduced bandwidth requirements including wireless
JP4578145B2 (en) Speech coding apparatus, speech decoding apparatus, and methods thereof
JP4274614B2 (en) Audio signal decoding method
JPH05297898A (en) Data quantity converting method
JPH06268609A (en) System and device for encoding voice
JPH0990989A (en) Conversion encoding method and conversion decoding method
JP4327420B2 (en) Audio signal encoding method and audio signal decoding method
JP4618823B2 (en) Signal encoding apparatus and method
JP2003216189A (en) Encoder and decoder