JPH06164520A - Method and device for encoding sound - Google Patents
Method and device for encoding soundInfo
- Publication number
- JPH06164520A JPH06164520A JP30523492A JP30523492A JPH06164520A JP H06164520 A JPH06164520 A JP H06164520A JP 30523492 A JP30523492 A JP 30523492A JP 30523492 A JP30523492 A JP 30523492A JP H06164520 A JPH06164520 A JP H06164520A
- Authority
- JP
- Japan
- Prior art keywords
- information
- mel
- spectrum
- scaled
- spectrum information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
Abstract
Description
【0001】[0001]
【産業上の利用分野】本発明は、音声通信を行なう際
に、音声信号をディジタル信号の形式に変換して伝送す
る場合において、情報量を削減することによって伝送速
度を低速化して狭帯域化を図り伝送帯域の有効利用を図
る音声符号化方法及び装置に関するものである。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention reduces the amount of information in the case of converting a voice signal into a digital signal format for transmission during voice communication and transmitting it, thereby lowering the transmission speed and narrowing the band. The present invention relates to a speech coding method and apparatus for achieving efficient use of transmission band by utilizing the above method.
【0002】[0002]
【従来の技術】従来、離散化された音声信号を処理単位
(フレーム)に区切り、窓かけによって重み付けを行な
い、3/4フレームを重ね合わせて高速フーリエ変換
(FFT)によって時間領域から周波数領域へ直交変換
し、人間の聴覚特性の一つであるメル尺度に従って物理
的な周波数[Hz]からメル尺度で表される周波数[m
el]に置換する場合において、メル周波数軸で40個
程度の帯域に等分割しそれに対応する物理周波数軸を分
割し、分割された物理周波数軸の帯域に存在する複数の
スペクトル情報からその帯域の代表スペクトル情報すな
わちメル尺度化スペクトル情報を抽出し、ADPCMに
より符号化する音声符号化方式があった。しかし、この
方式では圧縮率が低く伝送帯域の有効利用は期待できな
い。2. Description of the Related Art Conventionally, a discretized audio signal is divided into processing units (frames), weighted by windowing, 3/4 frames are superposed, and a fast Fourier transform (FFT) is performed to change them from a time domain to a frequency domain. Orthogonal transformation is performed, and according to the Mel scale, which is one of the human auditory characteristics, the frequency [m] expressed from the physical frequency [Hz] to the Mel scale
[el], the mel frequency axis is equally divided into about 40 bands, the corresponding physical frequency axis is divided, and a plurality of spectrum information existing in the divided physical frequency axis bands There is a speech coding method in which representative spectrum information, that is, Mel scaled spectrum information is extracted and coded by ADPCM. However, with this method, the compression rate is low and effective use of the transmission band cannot be expected.
【0003】そこで、メル尺度化スペクトル情報のLO
Gをとり再度FFTとすることによりメル尺度化ケプス
トラムを算出しその低次成分(スペクトル包洛情報)を
ベクトル量子化する方法が考え出され大幅な圧縮が可能
となった。しかし、この方式ではベクトル量子化に要す
る処理が膨大であり実現は非常に困難であった。Therefore, the LO of the mel-scaled spectral information is
A method of calculating the mel-scaled cepstrum by taking G and again using FFT and vector-quantizing the low-order component (spectral envelopment information) has been devised, and it has become possible to significantly compress. However, this method is very difficult to realize because the amount of processing required for vector quantization is huge.
【0004】[0004]
【発明が解決しようとする課題】本発明は上記の事情に
鑑みてなされたもので、比較的圧縮率が高く実現が容易
な音声符号化方法及び装置を提供することを目的とす
る。SUMMARY OF THE INVENTION The present invention has been made in view of the above circumstances, and it is an object of the present invention to provide a speech coding method and apparatus which have a relatively high compression rate and are easy to realize.
【0005】[0005]
【課題を解決するための手段】本発明は上記課題を解決
するために、離散化された音声信号を処理単位に区切
り、高速フーリエ変換によって時間領域から周波数領域
へ直交変換し、メル尺度に従って物理的な周波数からメ
ル尺度で表される周波数に置換する場合において、メル
周波数軸で複数の帯域に等分割しそれに対応する物理周
波数軸を分割し、分割された物理周波数軸の帯域に存在
する複数のスペクトル情報からその帯域の最大振幅スペ
クトルの位置情報とその帯域の合成スペクトル電力から
なるメル尺度化スペクトル情報を抽出し、符号化して情
報量を削減することを特徴とする音声符号化方法であ
る。In order to solve the above problems, the present invention divides a discretized audio signal into processing units, performs orthogonal transform from the time domain to the frequency domain by fast Fourier transform, and performs physical transformation according to the Mel scale. In the case of replacing a specific frequency with a frequency represented by a mel scale, the mel frequency axis is equally divided into a plurality of bands, the corresponding physical frequency axis is divided, and a plurality of divided physical frequency axis bands exist. Of the maximum amplitude spectrum of the band and mel-scaled spectrum information composed of the combined spectrum power of the band is extracted from the spectrum information of the band, and is coded to reduce the amount of information. .
【0006】また、上記音声符号化方法において、離散
化されフレーム化された音声信号を高速フーリエ変換を
用いて時間領域から周波数領域に変換する場合、複素形
式のスペクトル情報を電力スペクトル情報の形式で表す
ことで位相情報を無視して伝送パラメータの削減を図
り、復号時においては電力スペクトル情報を虚数部に配
置して実数部は0として高速逆フーリエ変換を行ない時
間軸に再変換した際に正弦波の合成となるようにしたこ
とを特徴とするものである。Further, in the above speech coding method, when transforming the discretized and framed speech signal from the time domain to the frequency domain by using the fast Fourier transform, the complex spectrum information is converted into the power spectrum information format. By expressing it, the phase information is ignored and the transmission parameters are reduced. At the time of decoding, the power spectrum information is arranged in the imaginary part, the real part is set to 0, and the fast inverse Fourier transform is performed. It is characterized in that the wave is synthesized.
【0007】また、上記音声符号化方法において、メル
尺度化スペクトル情報中で絶対値が最大のものを選び最
大値情報とし、その最大値情報と他のメル尺度化スペク
トル情報の絶対値を比較し、その差が最大値の1/2以
上であれば00,1/4以上1/2未満であれば01,
1/8以上1/4未満であれば10,1/8未満であれ
ば11と、4段階に2ビットで符号化したことを特徴と
するものである。Further, in the above speech coding method, the one having the largest absolute value is selected from the mel-scaled spectrum information as the maximum value information, and the maximum value information is compared with the absolute value of other mel-scaled spectrum information. , If the difference is ½ or more of the maximum value, 00, if ¼ or more and less than 1/2, 01,
It is characterized in that 2 bits are coded in 4 steps, that is, if it is 1/8 or more and less than 1/4, it is 10, and if it is less than 1/8, it is 11.
【0008】また、音声信号をディジタルデータとする
A/D変換器と、このA/D変換器から出力されたディ
ジタルデータを処理単位に分割された信号とする第1の
バッファと、この第1のバッファから出力されたデータ
に重み付けを行なう窓かけ器と、この窓かけ器から出力
されたデータを時間領域から周波数領域のスペクトル情
報に変換する高速フーリエ変換器と、この高速フーリエ
変換器から出力されたスペクトル情報を物理的な周波数
軸からメルで表現されるメル周波数軸に変換してメル尺
度化スペクトル情報を得るメル尺度化器と、このメル尺
度化器から出力されたメル尺度化スペクトル情報からメ
ル尺度化スペクトル情報中で絶対値が最大の最大値情報
及び符号化メル尺度化スペクトル情報を得る電力スペク
トル符号化器と、この電力スペクトル符号化器から抽出
された最大値情報,符号化メル尺度化スペクトル情報,
及び前記メル尺度化器から出力されたメル尺度化スペク
トルの位置情報を多重化してディジタルデータとして伝
送する多重化器と、この多重化器から伝送されたディジ
タルデータを多重分離してメル尺度化スペクトル情報中
で絶対値が最大の最大値情報,符号化メル尺度化スペク
トル情報,及びメル尺度化スペクトルの位置情報を得る
多重分離器と、この多重分離器から出力された最大値情
報及び符号化メル尺度化スペクトル情報からメル尺度化
スペクトル情報を復号化する電力スペクトル復号器と、
この電力スペクトル復号器から出力されたメル尺度化ス
ペクトル情報と前記多重分離器から出力されたメル尺度
化スペクトルの位置情報とから物理的な周波数軸上のス
ペクトル情報に復号化するメル尺度復号器と、このメル
尺度復号器から出力されたスペクトル情報を周波数領域
から時間領域のディジタルデータに変換する高速逆フー
リエ変換器と、この高速逆フーリエ変換器から出力され
たディジタルデータを第2のバッファを介してアナログ
の音声信号に変換するD/A変換器とを具備することを
特徴とするものである。Also, an A / D converter that converts a voice signal into digital data, a first buffer that converts the digital data output from the A / D converter into processing units, and the first buffer Windower for weighting the data output from the buffer, the fast Fourier transformer for converting the data output from this windower into the spectrum information in the frequency domain, and the output from this fast Fourier transformer Mel scaler that obtains mel-scaled spectrum information by converting the generated spectral information from the physical frequency axis to the mel frequency axis represented by mel, and the mel-scaled spectrum information output from this mel-scaler A power spectrum encoder that obtains maximum value information and encoded mel-scaled spectrum information having the largest absolute value in the mel-scaled spectrum information from Max information, coding mel scale of spectral information extracted from the power spectrum encoder,
And a multiplexer for multiplexing position information of the mel-scaled spectrum output from the mel-scaler and transmitting it as digital data, and a mel-scaled spectrum for demultiplexing the digital data transmitted from the multiplexer. A demultiplexer for obtaining maximum value information having the largest absolute value in information, coded mel-scaled spectrum information, and position information of mel-scaled spectrum, and maximum value information and coded mel output from the demultiplexer. A power spectrum decoder for decoding Mel scaled spectrum information from the scaled spectrum information,
A mel-scale decoder that decodes mel-scaled spectrum information output from the power spectrum decoder and position information of the mel-scaled spectrum output from the demultiplexer into spectrum information on a physical frequency axis, and , A fast inverse Fourier transformer that transforms the spectral information output from the mel scale decoder into digital data in the frequency domain from the frequency domain, and the digital data output from the fast inverse Fourier transformer via a second buffer. And a D / A converter for converting into an analog audio signal.
【0009】[0009]
【作用】本発明は上記手段により、周波数領域における
波形符号化の一種で人間の聴覚特性を利用して圧縮を図
るものであり、音声信号を周波数領域に変換し、人間の
聴覚特性の一つであるメル尺度に従って物理的な周波数
をメル尺度で表現されるメル周波数軸に置換する場合に
おいて複素スペクトルの位相情報を無視しさらにメル尺
度化スペクトル情報を2ビットで符号化することにより
大幅な情報量削減をはかることを特徴とするものであ
る。According to the present invention, the above-mentioned means is one of the waveform coding in the frequency domain for the purpose of compression by utilizing the human auditory characteristic. The speech signal is converted into the frequency domain and one of the human auditory characteristic is obtained. By replacing the physical frequency according to the mel scale with the mel frequency axis represented by the mel scale, the phase information of the complex spectrum is ignored, and the mel-scaled spectrum information is encoded by 2 bits to obtain a large amount of information. The feature is that the amount is reduced.
【0010】[0010]
【実施例】以下図面を参照して本発明の実施例を詳細に
説明する。図1は本発明の一実施例の回路構成を示す。
図において20は音声符号化器、21は音声復号器であ
る。まず音声符号化処理について説明する。Embodiments of the present invention will now be described in detail with reference to the drawings. FIG. 1 shows a circuit configuration of an embodiment of the present invention.
In the figure, 20 is a speech encoder, and 21 is a speech decoder. First, the voice encoding process will be described.
【0011】連続的な音声信号S1をA/D(アナログ
/ディジタル)変換器1によって標本化、量子化し離散
信号S2とする。次にバッファ2を介し離散信号S2を
処理単位(フレーム)に分割された信号S3とする。こ
のフレームの長さは音声信号の定常性を考慮し20〜4
0msec程度とする。次に周波数領域に変換する際に
分析精度を向上させるため信号S3に対し適当な窓かけ
器3により重み付けを行なう。窓かけの方法としてはハ
ミング窓やハニング窓等が挙げられる。次に窓かけされ
た処理単位の信号S4を周波数領域に変換する。変換の
方法としては分解能が高く高速に実行できる方法が望ま
しいため高速フーリエ変換(FFT)器4を用いる。F
FTの分析ポイント数は分析時間と分解能のトレードオ
フから256ポイント程度とする。256ポイントFF
Tを行なった場合128本の複素スペクトル情報が得ら
れる。このスペクトル情報の間隔は、例えば標本化周波
数8kHzで1フレーム32mSの場合31.25Hz
となる。次にFFT器4によって算出されたスペクトル
情報S5,S6を物理的な周波数軸からメルで表現され
るメル周波数軸にメル尺度化器5によって置換する。メ
ル尺度は人間の聴覚特性において音の高さの感覚が、図
2に示すように物理的な周波数に対して線形でなく、 fm =1000log2 (1+f/1000) f :物理的な周波数[Hz] fm :メル周波数[mel] で近似される。A continuous audio signal S1 is sampled and quantized by an A / D (analog / digital) converter 1 to form a discrete signal S2. Next, the discrete signal S2 is converted into a signal S3 divided into processing units (frames) via the buffer 2. The length of this frame is 20 to 4 considering the steadiness of the audio signal.
It is about 0 msec. Next, the signal S3 is weighted by an appropriate windowing device 3 in order to improve the analysis accuracy when converting into the frequency domain. Examples of the windowing method include a Hamming window and a Hanning window. Next, the windowed processing unit signal S4 is transformed into the frequency domain. A fast Fourier transform (FFT) device 4 is used because a method having a high resolution and a high-speed execution is desirable as the conversion method. F
The number of FT analysis points is set to about 256 points from the trade-off between analysis time and resolution. 256 point FF
When T is performed, 128 pieces of complex spectrum information are obtained. The interval of the spectrum information is, for example, 31.25 Hz when the sampling frequency is 8 kHz and one frame is 32 mS.
Becomes Next, the mel scaler 5 replaces the spectrum information S5 and S6 calculated by the FFT unit 4 with the mel frequency axis represented by mel from the physical frequency axis. According to the Mel scale, the perception of pitch is not linear with the physical frequency as shown in FIG. 2 in the human auditory characteristic, and f m = 1000 log 2 (1 + f / 1000) f: physical frequency [ Hz] f m: is approximated by Mel frequency [mel].
【0012】メル尺度を利用して圧縮を図るための具体
的手段を説明する。まずメル周波数軸を等分割する。こ
の分割数が少ないほど圧縮率は高くなる。次に図3に示
すようにメル周波数軸で分割された区間に対応する物理
周波数軸を分割する。分割された物理周波数軸のそれぞ
れの区間から代表スペクトル(メル尺度化スペクトル)
情報を算出する。メル尺度化スペクトル情報の算出方法
を図4を用いて説明する。まずFFT器4によって算出
された複素形式のスペクトル情報S5,S6を電力スペ
クトル算出器50によって電力で表し位相角を削除した
スペクトル情報S7とする。これは人間の聴覚が瞬時位
相に対して鈍感であり、位相を無視しても音声情報の認
識には影響を及ぼさないためである。次にメル尺度分割
器51でスペクトル情報S7を分割しメル帯域スペクト
ル情報S8を得る。次にスペクトル情報S8を最大値位
置検出器52によりメル帯域内の最大振幅スペクトルの
位置情報S9を検出する。次に合成器53によりメル帯
域の合成スペクトル電力を求める。この合成スペクトル
電力がメル尺度化スペクトル情報S10となる。上記の
例として、15分割する場合には128本の複素スペク
トル情報が15本のメル尺度化スペクトル情報と15の
位置情報で表されることになりこの時点で情報量は約1
/4に圧縮される。次に電力スペクトル符号化器6によ
りメル尺度化スペクトル情報S10を符号化する。この
符号化器6の詳細を説明する。まず、メル尺度化スペク
トル情報中で絶対値が最大のものを抽出し最大値情報S
11とする。次にその最大値情報とメル尺度化スペクト
ル情報の絶対値を比較し、その差が最大値の1/2以上
であれば00,1/4以上1/2未満であれば01,1
/8以上1/4未満であれば10,1/8未満であれば
11と、4段階に2bitで符号化し大幅な情報量削減
を行なった符号化メル尺度化スペクトル情報S12を得
る。例として15分割の場合この時点では元の情報の約
1/25に圧縮される。最後に最大値情報S11、符号
化メル尺度化スペクトル情報(×分割数)S12、メル
尺度化スペクトルの位置情報(×分割数)S9を多重化
器7により多重化してディジタルデータS13として伝
送する。Specific means for achieving compression using the Mel scale will be described. First, the Mel frequency axis is equally divided. The smaller the number of divisions, the higher the compression rate. Next, as shown in FIG. 3, the physical frequency axis corresponding to the section divided by the mel frequency axis is divided. Representative spectrum (mel-scaled spectrum) from each section of the divided physical frequency axis
Calculate information. A method of calculating mel-scaled spectrum information will be described with reference to FIG. First, the spectrum information S5 and S6 in the complex format calculated by the FFT unit 4 are represented by power by the power spectrum calculator 50, and the spectrum information S7 is obtained by deleting the phase angle. This is because the human sense of hearing is insensitive to the instantaneous phase, and ignoring the phase does not affect the recognition of voice information. Next, the mel scale divider 51 divides the spectrum information S7 to obtain mel band spectrum information S8. Then, the maximum value position detector 52 detects the position information S9 of the maximum amplitude spectrum in the mel band of the spectrum information S8. Next, the combiner 53 obtains the combined spectrum power in the mel band. This combined spectrum power becomes Mel scaled spectrum information S10. As an example of the above, in the case of 15 divisions, 128 pieces of complex spectrum information are represented by 15 pieces of mel-scaled spectrum information and 15 pieces of position information, and the amount of information is about 1 at this point.
Compressed to / 4. Next, the power spectrum encoder 6 encodes the mel-scaled spectrum information S10. Details of the encoder 6 will be described. First, the maximum absolute value information S is extracted by extracting the maximum absolute value from the Mel scaled spectrum information.
11 Next, the maximum value information and the absolute value of the mel-scaled spectrum information are compared. If the difference is ½ or more of the maximum value, 00, ¼ or more and less than 1/2, 01, 1
If / 8 or more and less than ¼, it is 10, if less than ⅛, it is 11, and encoded mel-scaled spectrum information S12 is obtained by performing 2-bit encoding in four steps and greatly reducing the information amount. For example, in the case of 15 divisions, at this point, the information is compressed to about 1/25. Finally, the maximum value information S11, the encoded mel-scaled spectrum information (x division number) S12, and the mel-scaled spectrum position information (x division number) S9 are multiplexed by the multiplexer 7 and transmitted as digital data S13.
【0013】次に音声復号器21の説明をする。まず受
信されたディジタルデータS13を多重分離器8により
多重分離を行なう。次に電力スペクトル復号器9により
最大値情報S11を基準として符号化メル尺度化スペク
トル情報S12を最大値の1/1,1/2,1/4,1
/8で表現することで復号しメル尺度化スペクトル情報
S14を得る。次に得られたメル尺度化スペクトル情報
S14と位置情報S9をメル尺度復号器10により符号
化時に分割された帯域内の最大振幅スペクトル情報があ
った位置に配置することで元の物理周波数軸上に復元す
る。この操作により、音声信号のピッチ構造と抑揚はほ
ぼ保存される。次に高速逆フーリエ変換(IFFT)器
11で変換を行ない周波数領域から時間領域に変換す
る。この際、スペクトルは本来複素形式で位相角を持っ
ているはずだが符号化時に述べたように瞬時位相を無視
しそのスペクトルの電力値で表現している為、時間領域
に再変換した際にフレーム端でスムーズに接続されるよ
うにスペクトル情報は虚数部S16に配置し実数部S1
5は全て0とする。この結果IFFT器11により時間
軸に再変換されたデータS17は正弦波の合成となりフ
レーム先端は全て振幅が0から始まり終端で0で終わり
前後のフレームはスムーズに接続される。このため符号
化時にフレーム分割する際にフレーム接続を考慮したオ
ーバーラップ処理を行なう必要はないことがわかる。次
にバッファ12を介しディジタルデータS18をD/A
変換器13によりD/A変換しアナログの復号音声信号
S19を得て処理を終える。Next, the speech decoder 21 will be described. First, the received digital data S13 is demultiplexed by the demultiplexer 8. Next, the power spectrum decoder 9 sets the encoded mel-scaled spectrum information S12 based on the maximum value information S11 as 1/1, 1/2, 1/4, 1 of the maximum value.
Decoding is performed by expressing / 8 to obtain Mel scaled spectrum information S14. Next, the mel-scaled spectrum information S14 and the position information S9 obtained are arranged on the original physical frequency axis by arranging them at the position where the maximum amplitude spectrum information within the band divided by the mel-scale decoder 10 at the time of encoding was present. Restore to. By this operation, the pitch structure and intonation of the voice signal are almost preserved. Next, the fast inverse Fourier transform (IFFT) device 11 performs the conversion to convert the frequency domain to the time domain. At this time, the spectrum should originally have a phase angle in a complex format, but since it was expressed by the power value of that spectrum ignoring the instantaneous phase as described at the time of encoding, the frame when reconverted to the time domain The spectral information is arranged in the imaginary part S16 so that the smooth connection is made at the end, and the real part S1
5 is all 0. As a result, the data S17 re-converted to the time axis by the IFFT unit 11 becomes a sine wave composite, and the frame front end all starts from 0 in amplitude and ends in 0, and the frames before and after are smoothly connected. Therefore, it is understood that it is not necessary to perform overlap processing considering frame connection when dividing a frame during encoding. Next, the digital data S18 is transferred to the D / A via the buffer 12.
The converter 13 performs D / A conversion to obtain an analog decoded voice signal S19 and ends the processing.
【0014】[0014]
【発明の効果】以上述べたように本発明によれば、音声
通信を行なう際に、音声信号をディジタル信号の形式に
変換して伝送する場合において、人間の聴覚特性の一つ
であるメル尺度を利用することによってスペクトル情報
を圧縮し、位相情報を無視し、伝送パラメータを2ビッ
トで量子化することによって大幅に情報量を削減できる
ので実用上の効果は大きい。As described above, according to the present invention, in voice communication, when the voice signal is converted into a digital signal and transmitted, the Mel scale, which is one of human auditory characteristics, is used. Is used, the spectrum information is compressed, the phase information is ignored, and the transmission parameter is quantized by 2 bits, so that the amount of information can be significantly reduced.
【図1】本発明の一実施例を示す構成説明図である。FIG. 1 is a structural explanatory view showing an embodiment of the present invention.
【図2】本発明に係るメル尺度と物理周波数の関係の一
例を示す特性図である。FIG. 2 is a characteristic diagram showing an example of a relationship between a mel scale and a physical frequency according to the present invention.
【図3】本発明に係るメル尺度軸の分割に対応した物理
周波数軸の分割の一例を示す特性図である。FIG. 3 is a characteristic diagram showing an example of division of a physical frequency axis corresponding to division of a mel scale axis according to the present invention.
【図4】本発明に係るメル尺度化処理の一例を示す構成
説明図である。FIG. 4 is a structural explanatory view showing an example of a mel scaling processing according to the present invention.
1…A/D変換器、2,12…バッファ、3…窓かけ
器、4…FFT器、5…メル尺度化器、6…符号化器、
7…多重化器、8…多重分離器、9…復号器、10…メ
ル尺度復号器、11…IFFT器、13…D/A変換
器、20…音声符号化器、21…音声復号器、50…電
力スペクトル算出器、51…分割器、52…最大値位置
検出器、53…合成器。1 ... A / D converter, 2, 12 ... Buffer, 3 ... Window device, 4 ... FFT device, 5 ... Mel scaler, 6 ... Encoder,
7 ... Multiplexer, 8 ... Demultiplexer, 9 ... Decoder, 10 ... Mel scale decoder, 11 ... IFFT device, 13 ... D / A converter, 20 ... Speech encoder, 21 ... Speech decoder, 50 ... Power spectrum calculator, 51 ... Divider, 52 ... Maximum value position detector, 53 ... Combiner
Claims (4)
り、高速フーリエ変換によって時間領域から周波数領域
へ直交変換し、メル尺度に従って物理的な周波数からメ
ル尺度で表される周波数に置換する場合において、メル
周波数軸で複数の帯域に等分割しそれに対応する物理周
波数軸を分割し、分割された物理周波数軸の帯域に存在
する複数のスペクトル情報からその帯域の最大振幅スペ
クトルの位置情報とその帯域の合成スペクトル電力から
なるメル尺度化スペクトル情報を抽出し、符号化して情
報量を削減することを特徴とする音声符号化方法。1. A case where a discretized audio signal is divided into processing units, orthogonal transformation is performed from a time domain to a frequency domain by a fast Fourier transform, and a physical frequency is replaced with a frequency represented by a mel scale according to the mel scale. In, in the mel frequency axis is divided into a plurality of bands on the physical frequency axis corresponding to it, the position information of the maximum amplitude spectrum of that band from the plurality of spectrum information existing in the band of the divided physical frequency axis and its A speech coding method characterized in that mel-scaled spectral information composed of band combined spectral power is extracted and coded to reduce the amount of information.
高速フーリエ変換を用いて時間領域から周波数領域に変
換する場合、複素形式のスペクトル情報を電力スペクト
ル情報の形式で表すことで位相情報を無視して伝送パラ
メータの削減を図り、復号時においては電力スペクトル
情報を虚数部に配置して実数部は0として高速逆フーリ
エ変換を行ない時間軸に再変換した際に正弦波の合成と
なるようにしたことを特徴とする請求項1記載の音声符
号化方法。2. When transforming a discretized and framed speech signal from the time domain to the frequency domain by using the fast Fourier transform, the spectrum information in the complex format is represented in the format of the power spectrum information and the phase information is ignored. In order to reduce the transmission parameters, the power spectrum information is placed in the imaginary part at the time of decoding, the real part is set to 0, and the fast inverse Fourier transform is performed so that the sine wave is synthesized when re-transformed to the time axis. The speech coding method according to claim 1, wherein
最大のものを選び最大値情報とし、その最大値情報と他
のメル尺度化スペクトル情報の絶対値を比較し、その差
が最大値の1/2以上であれば00,1/4以上1/2
未満であれば01,1/8以上1/4未満であれば1
0,1/8未満であれば11と、4段階に2ビットで符
号化したことを特徴とする請求項1記載の音声符号化方
法。3. The mel-scaled spectrum information having the maximum absolute value is selected as maximum value information, and the maximum value information is compared with the absolute values of other mel-scaled spectrum information, and the difference is the maximum value. 00 if 1/2 or more, 1/2 or more 1/2
01 if less than 1 and 1 if 1/8 or more and less than 1/4
2. The speech coding method according to claim 1, wherein if the value is less than 0, 1/8, it is 11, and the coding is performed with 2 bits in 4 steps.
D変換器と、このA/D変換器から出力されたディジタ
ルデータを処理単位に分割された信号とする第1のバッ
ファと、この第1のバッファから出力されたデータに重
み付けを行なう窓かけ器と、この窓かけ器から出力され
たデータを時間領域から周波数領域のスペクトル情報に
変換する高速フーリエ変換器と、この高速フーリエ変換
器から出力されたスペクトル情報を物理的な周波数軸か
らメルで表現されるメル周波数軸に変換してメル尺度化
スペクトル情報を得るメル尺度化器と、このメル尺度化
器から出力されたメル尺度化スペクトル情報からメル尺
度化スペクトル情報中で絶対値が最大の最大値情報及び
符号化メル尺度化スペクトル情報を得る電力スペクトル
符号化器と、この電力スペクトル符号化器から抽出され
た最大値情報,符号化メル尺度化スペクトル情報,及び
前記メル尺度化器から出力されたメル尺度化スペクトル
の位置情報を多重化してディジタルデータとして伝送す
る多重化器と、この多重化器から伝送されたディジタル
データを多重分離してメル尺度化スペクトル情報中で絶
対値が最大の最大値情報,符号化メル尺度化スペクトル
情報,及びメル尺度化スペクトルの位置情報を得る多重
分離器と、この多重分離器から出力された最大値情報及
び符号化メル尺度化スペクトル情報からメル尺度化スペ
クトル情報を復号化する電力スペクトル復号器と、この
電力スペクトル復号器から出力されたメル尺度化スペク
トル情報と前記多重分離器から出力されたメル尺度化ス
ペクトルの位置情報とから物理的な周波数軸上のスペク
トル情報に復号化するメル尺度復号器と、このメル尺度
復号器から出力されたスペクトル情報を周波数領域から
時間領域のディジタルデータに変換する高速逆フーリエ
変換器と、この高速逆フーリエ変換器から出力されたデ
ィジタルデータを第2のバッファを介してアナログの音
声信号に変換するD/A変換器とを具備することを特徴
とする音声符号化装置。4. A / A in which a voice signal is digital data
A D converter, a first buffer that uses the digital data output from the A / D converter as a signal divided into processing units, and a windower that weights the data output from the first buffer. And a fast Fourier transformer that transforms the data output from this window multiplier into spectrum information in the time domain from the time domain, and the spectrum information output from this fast Fourier transformer is expressed in mel from the physical frequency axis. The mel scaler that obtains the mel-scaled spectrum information by converting it to the mel-scaled spectral axis that is output from this mel-scaled spectrum information has the largest absolute value in the mel-scaled spectrum information. A power spectrum coder for obtaining value information and coded mel-scaled spectrum information, and maximum value information and code extracted from the power spectrum coder. Mel-scaled spectrum information and a multiplexer for multiplexing position information of the mel-scaled spectrum output from the mel-scaler and transmitting it as digital data, and the digital data transmitted from this multiplexer. A demultiplexer that separates and obtains the maximum value information having the largest absolute value in the mel-scaled spectrum information, the encoded mel-scaled spectrum information, and the position information of the mel-scaled spectrum, and the output from this demultiplexer A power spectrum decoder for decoding the mel-scaled spectrum information from the maximum value information and the encoded mel-scaled spectrum information, the mel-scaled spectrum information output from the power spectrum decoder and the demultiplexer output Mel scale decoding for decoding from position information of mel scaled spectrum to spectrum information on physical frequency axis And a fast inverse Fourier transformer that transforms the spectrum information output from the Mel scale decoder into digital data in the frequency domain from the frequency domain, and the digital data output from the fast inverse Fourier transformer in a second buffer. A D / A converter for converting the signal into an analog speech signal via the speech coding apparatus.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4305234A JPH0775339B2 (en) | 1992-11-16 | 1992-11-16 | Speech coding method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4305234A JPH0775339B2 (en) | 1992-11-16 | 1992-11-16 | Speech coding method and apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH06164520A true JPH06164520A (en) | 1994-06-10 |
JPH0775339B2 JPH0775339B2 (en) | 1995-08-09 |
Family
ID=17942651
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4305234A Expired - Lifetime JPH0775339B2 (en) | 1992-11-16 | 1992-11-16 | Speech coding method and apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0775339B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007515126A (en) * | 2003-12-19 | 2007-06-07 | クリエイティブ テクノロジー リミテッド | Method and system for processing digital images |
JP2008537174A (en) * | 2005-04-20 | 2008-09-11 | キューエヌエックス ソフトウェア システムズ (ウェイブメイカーズ), インコーポレイテッド | System for improving speech quality and intelligibility |
US8086451B2 (en) | 2005-04-20 | 2011-12-27 | Qnx Software Systems Co. | System for improving speech intelligibility through high frequency compression |
US8249861B2 (en) | 2005-04-20 | 2012-08-21 | Qnx Software Systems Limited | High frequency compression integration |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61201526A (en) * | 1985-02-27 | 1986-09-06 | テレフンケン・フエルンゼー・ウント・ルントフンク・ゲゼルシヤフト・ミツト・ベシユレンクテル・ハフツング | Transmission of audio signal |
-
1992
- 1992-11-16 JP JP4305234A patent/JPH0775339B2/en not_active Expired - Lifetime
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61201526A (en) * | 1985-02-27 | 1986-09-06 | テレフンケン・フエルンゼー・ウント・ルントフンク・ゲゼルシヤフト・ミツト・ベシユレンクテル・ハフツング | Transmission of audio signal |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007515126A (en) * | 2003-12-19 | 2007-06-07 | クリエイティブ テクノロジー リミテッド | Method and system for processing digital images |
JP2008537174A (en) * | 2005-04-20 | 2008-09-11 | キューエヌエックス ソフトウェア システムズ (ウェイブメイカーズ), インコーポレイテッド | System for improving speech quality and intelligibility |
JP4707739B2 (en) * | 2005-04-20 | 2011-06-22 | キューエヌエックス ソフトウェア システムズ (ウェイブメイカーズ), インコーポレイテッド | System for improving speech quality and intelligibility |
US8086451B2 (en) | 2005-04-20 | 2011-12-27 | Qnx Software Systems Co. | System for improving speech intelligibility through high frequency compression |
US8249861B2 (en) | 2005-04-20 | 2012-08-21 | Qnx Software Systems Limited | High frequency compression integration |
Also Published As
Publication number | Publication date |
---|---|
JPH0775339B2 (en) | 1995-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6725190B1 (en) | Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope | |
KR101000345B1 (en) | Audio encoding device, audio decoding device, audio encoding method, and audio decoding method | |
EP2881945B1 (en) | Haptic signal synthesis and transport in a bit stream | |
JP3747492B2 (en) | Audio signal reproduction method and apparatus | |
JP3557662B2 (en) | Speech encoding method and speech decoding method, and speech encoding device and speech decoding device | |
US6678655B2 (en) | Method and system for low bit rate speech coding with speech recognition features and pitch providing reconstruction of the spectral envelope | |
RU2366007C2 (en) | Method and device for speech restoration in system of distributed speech recognition | |
US20150262587A1 (en) | Pitch Synchronous Speech Coding Based on Timbre Vectors | |
JPH10307599A (en) | Waveform interpolating voice coding using spline | |
US20090144058A1 (en) | Restoration of high-order Mel Frequency Cepstral Coefficients | |
JP3344962B2 (en) | Audio signal encoding device and audio signal decoding device | |
JPH11510274A (en) | Method and apparatus for generating and encoding line spectral square root | |
JP2002156999A (en) | Noise signal analyzing device, noise signal composing device, noise signal analyzing method, and noise signal composing method | |
EP2595147A1 (en) | Audio data encoding method and device | |
JPH06164520A (en) | Method and device for encoding sound | |
JP2834260B2 (en) | Speech spectral envelope parameter encoder | |
US10490196B1 (en) | Method and system for low bit rate voice encoding and decoding applicable for any reduced bandwidth requirements including wireless | |
JP4578145B2 (en) | Speech coding apparatus, speech decoding apparatus, and methods thereof | |
JP4274614B2 (en) | Audio signal decoding method | |
JPH05297898A (en) | Data quantity converting method | |
JPH06268609A (en) | System and device for encoding voice | |
JPH0990989A (en) | Conversion encoding method and conversion decoding method | |
JP4327420B2 (en) | Audio signal encoding method and audio signal decoding method | |
JP4618823B2 (en) | Signal encoding apparatus and method | |
JP2003216189A (en) | Encoder and decoder |