JP3660676B2 - Speech coding apparatus and method - Google Patents

Speech coding apparatus and method Download PDF

Info

Publication number
JP3660676B2
JP3660676B2 JP2004236427A JP2004236427A JP3660676B2 JP 3660676 B2 JP3660676 B2 JP 3660676B2 JP 2004236427 A JP2004236427 A JP 2004236427A JP 2004236427 A JP2004236427 A JP 2004236427A JP 3660676 B2 JP3660676 B2 JP 3660676B2
Authority
JP
Japan
Prior art keywords
noise
signal
speech
linear prediction
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004236427A
Other languages
Japanese (ja)
Other versions
JP2004355020A (en
Inventor
泰 山崎
智彦 谷口
知紀 佐藤
壽成 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2004236427A priority Critical patent/JP3660676B2/en
Publication of JP2004355020A publication Critical patent/JP2004355020A/en
Application granted granted Critical
Publication of JP3660676B2 publication Critical patent/JP3660676B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、自動車電話や携帯電話等のデジタル移動無線通信システムにおいて、屋外等の背景雑音が重畳する場合に符号化品質を向上させ、雑音重畳音声の伝送品質を向上させる技術に関する。   The present invention relates to a technique for improving coding quality and improving transmission quality of noise-superimposed speech when background noise such as outdoors is superimposed in a digital mobile radio communication system such as an automobile phone or a cellular phone.

近年では、通信技術の向上により、自動車電話や携帯電話等のようなデジタル移動無線通信システムが普及してきている。これにともない、音声信号を高効率に圧縮する音声信号処理装置が要求されるようになってきている。   In recent years, digital mobile radio communication systems such as car phones and mobile phones have become widespread due to improvements in communication technology. Accordingly, an audio signal processing apparatus that compresses an audio signal with high efficiency has been demanded.

デジタル移動無線通信システムでは、無線周波数を有効利用するため、4kHz帯域の音声信号を4〜8kbps程度のビットレートで符号化することが望ましい。これに対応した音声符号化方式としては、CELP方式が知られている。   In a digital mobile radio communication system, in order to effectively use a radio frequency, it is desirable to encode an audio signal in a 4 kHz band at a bit rate of about 4 to 8 kbps. A CELP system is known as a speech encoding system corresponding to this.

CELP方式は、音声信号を線形予測理論に基づいて分析し、周波数特性を表すパラメータを抽出する。これと共に、駆動音源信号をベクトル量子化により波形的に符号化している。また、受信側では、伝送路上を送信されてくる符号化音声を送信側と逆の手順により復号化している。   In the CELP method, a speech signal is analyzed based on a linear prediction theory, and parameters representing frequency characteristics are extracted. At the same time, the driving sound source signal is encoded in a waveform by vector quantization. On the receiving side, the encoded speech transmitted on the transmission path is decoded by a procedure reverse to that on the transmitting side.

ところで、上記のCELP方式では、音声信号を低ビットレートに圧縮すると同時に再生音声品質を維持するため、音声の生成モデルに基づいた符号化(帯域圧縮)を行っているため、背景雑音の重畳された音声信号を符号化する場合に、不自然な再生音を出力することがある。すなわち、従来の方式では、音声とは異なる性質を有する雑音信号に対して、音声と同様の性質を有すると仮定した符号化処理を行っている。このため、背景雑音のみの信号は、周波数の相関性が無いにもかかわらず符号化処理を施され、不自然な有音として再生されてしまう。   By the way, in the CELP system, since the audio signal is compressed to a low bit rate and at the same time the reproduction audio quality is maintained, encoding (band compression) based on the audio generation model is performed, so that background noise is superimposed. When an audio signal is encoded, an unnatural reproduction sound may be output. In other words, in the conventional system, encoding processing is performed on the assumption that noise signals having properties different from those of speech have properties similar to those of speech. For this reason, a signal with only background noise is subjected to an encoding process even though there is no frequency correlation, and is reproduced as unnatural sound.

また、従来では、音声を符号化する際に、音声の波形に基づいて適応符号帳を参照し、類似する波形パターンのインデックス情報を検出している。しかし、音声に雑音が重畳した場合には、適応符号帳に類似した波形パターンが存在せず、あまり類似していない波形パターンを選出せざるを得なかったため、これを復号化した時に不自然な音声となって出力されるという問題がある。   Conventionally, when encoding speech, an adaptive codebook is referred to based on the speech waveform to detect index information of a similar waveform pattern. However, when noise is superimposed on speech, there is no waveform pattern similar to the adaptive codebook, and a waveform pattern that is not very similar has to be selected, which is unnatural when this is decoded. There is a problem of being output as audio.

ここで、背景雑音として空調音を例に挙げると、空調音の原音のスペクトルは図13に示すように略フラットな特性を示し、時間変動も少ない。これに対し、空調音の再生音は図14に示すように、スペクトル包絡のピークがフレーム毎に変動している。本発明の発明者は、スペクトル包絡の変動が聴覚上の不自然さを引き起こしていることに着目し、このスペクトル変動の原因を究明した。すなわち、従来の復号器では、適応符号帳と雑音符号帳から励起信号を生成し、この励起信号を合成フィルタを介することにより復号処理を行っているため、発明者は、スペクトル変動の原因が励起信号の生成処理によるものか、あるいは合成フィルタによるものかを解析した。その結果、励起信号のスペクトルには時間的変動が見られなかった。一方、合成フィルタの場合には、図15に示すような変動が表れた。   Here, taking the air-conditioning sound as an example of the background noise, the spectrum of the original sound of the air-conditioning sound shows a substantially flat characteristic as shown in FIG. On the other hand, as shown in FIG. 14, the reproduced sound of the air-conditioning sound has a spectrum envelope peak that varies from frame to frame. The inventor of the present invention has focused on the fact that fluctuations in the spectral envelope cause auditory unnaturalness, and have investigated the cause of the spectral fluctuations. In other words, in the conventional decoder, the excitation signal is generated from the adaptive codebook and the noise codebook, and the excitation signal is decoded through the synthesis filter. It was analyzed whether it was due to signal generation processing or a synthesis filter. As a result, no temporal variation was observed in the spectrum of the excitation signal. On the other hand, in the case of the synthesis filter, fluctuations as shown in FIG. 15 appeared.

そこで、本発明は、上記問題点に鑑みてなされたものであり、雑音のみを含む信号と音
声を含む信号とを識別して、雑音のみを含む信号の符号化処理あるいは復号化処理を差別化し、雑音のみを復号化する場合に合成フィルタの特性を抑制することにより、聴覚的に自然な再生音を出力する装置を提供することを第1の課題とする。
Therefore, the present invention has been made in view of the above problems, and distinguishes between a signal containing only noise and a signal containing speech, and differentiates the encoding process or the decoding process of a signal containing only noise. Therefore, it is a first object to provide an apparatus that outputs an acoustically natural reproduced sound by suppressing the characteristics of a synthesis filter when only noise is decoded.

また、音声に雑音が重畳した信号を符号化する際に、雑音の影響を防止して、質の高い符号化処理を行える技術を提供することを第2の課題とする。   Another object of the present invention is to provide a technology capable of performing high-quality encoding processing by preventing the influence of noise when encoding a signal in which noise is superimposed on speech.

本発明は上記課題を解決するために以下のような手段を採用した。これを図面に沿って説明する。
(第1の課題を解決する手段)
まず、上記第1の課題を解決する手段について図1の原理図に沿って説明する。
The present invention employs the following means in order to solve the above problems. This will be described with reference to the drawings.
(Means for solving the first problem)
First, means for solving the first problem will be described with reference to the principle diagram of FIG.

本発明の音声復号化システムは、雑音重量区間検出手段1、音声復号化手段2、雑音復号化手段3、及び雑音制御手段4を備えている。雑音重畳区間検出手段1は、送信側で符号化された信号を監視し、音声を含む音声区間であるか、あるいは雑音のみを含む雑音区間であるかを識別する機能を有している。例えば、雑音重畳区間検出手段1は、符号化信号から信号のパワーを検出し、このパワーが予め設定されている閾値以上であるか否かを判別するようにしてもよい。つまり、符号化信号のパワーが閾値以上ならば音声区間と判別し、符号化信号のパワーが閾値未満ならば雑音区間と判別するようにしてもよい。また、パワーの代わりに、符号化信号のゲインを利用するようにしてもよい。   The speech decoding system of the present invention includes a noise weight section detecting means 1, speech decoding means 2, noise decoding means 3, and noise control means 4. The noise superimposition section detection means 1 has a function of monitoring a signal encoded on the transmission side and identifying whether the section is a voice section including speech or a noise section including only noise. For example, the noise superimposition section detecting means 1 may detect the power of the signal from the encoded signal and determine whether or not the power is equal to or higher than a preset threshold value. That is, if the power of the encoded signal is equal to or greater than the threshold, it may be determined as a speech interval, and if the power of the encoded signal is less than the threshold, it may be determined as a noise interval. Further, the gain of the encoded signal may be used instead of the power.

音声復号化手段2は、雑音重畳区間検出手段1が音声区間の符号化信号を判別した際に、この符号化信号を波形信号に復号化する機能を有している。具体的には、インデックス情報毎に波形パターンを登録する符号帳3aと、この符号帳3aから読み出された波形パターンを励起する駆動音源3bと、この駆動音源3bから出力される励起信号にフィルタリング処理を施す合成フィルタ3cとを備えている。   The speech decoding means 2 has a function of decoding the encoded signal into a waveform signal when the noise superimposing section detecting means 1 discriminates the encoded signal in the speech section. Specifically, the code book 3a for registering the waveform pattern for each index information, the driving sound source 3b for exciting the waveform pattern read from the code book 3a, and the excitation signal output from the driving sound source 3b are filtered. And a synthesis filter 3c that performs processing.

雑音復号化手段3は、雑音重畳区間検出手段1が雑音区間の符号化信号を判別した際に、この符号化信号を波形信号へ復号化する機能を有している。具体的には、インデックス情報毎に波形パターンを登録する符号帳3aと、この符号帳3aから読み出された波形パターンを励起する駆動音源3bと、この駆動音源3bから出力される励起信号にフィルタリング処理を施す合成フィルタ3cとを備えている。   The noise decoding unit 3 has a function of decoding the encoded signal into a waveform signal when the noise superimposing interval detecting unit 1 determines the encoded signal in the noise interval. Specifically, the code book 3a for registering the waveform pattern for each index information, the driving sound source 3b for exciting the waveform pattern read from the code book 3a, and the excitation signal output from the driving sound source 3b are filtered. And a synthesis filter 3c that performs processing.

雑音制御手段4は、雑音重畳区間検出手段1が雑音区間の符号化信号を判別した時に、雑音復号化手段3の合成フィルタ3cのフィルタ係数を制御して、雑音の周波数特性を抑制させる機能を有している。具体的には、雑音制御手段4は、フィルタ係数に乗算すべき1以下の正数値を決定する機能を有している。   The noise control unit 4 has a function of controlling the filter coefficient of the synthesis filter 3c of the noise decoding unit 3 to suppress the frequency characteristic of noise when the noise superimposition section detection unit 1 determines the encoded signal in the noise section. Have. Specifically, the noise control means 4 has a function of determining a positive value of 1 or less to be multiplied by the filter coefficient.

また、雑音復号化手段3及び音声復号化手段2の後段に、合成フィルタ3cから出力される復号信号の振幅を増幅させるポストフィルタ9を備えた場合には、このポストフィルタ9は、雑音復号化手段3から出力される雑音区間の復号信号をそのまま通過させる機能を有している。   Further, when the post filter 9 for amplifying the amplitude of the decoded signal output from the synthesis filter 3c is provided at the subsequent stage of the noise decoding unit 3 and the speech decoding unit 2, the post filter 9 is configured to perform noise decoding. It has a function of passing the decoded signal of the noise section output from the means 3 as it is.

次に、本発明の音声符号化システムについて説明する。本発明の音声符号化システムは、雑音重畳区間検出手段5、音声符号化手段6、雑音符号化手段7、及び制御情報生成手段8を備えている。   Next, the speech coding system of the present invention will be described. The speech encoding system of the present invention includes a noise superimposition section detecting means 5, speech encoding means 6, noise encoding means 7, and control information generating means 8.

雑音重畳区間検出手段5は、送信側で符号化された符号化信号を監視して、音声を含む音声区間の信号であるか、あるいは雑音のみを含む雑音区間の信号であるかを識別する機
能を有している。具体的には、符号化信号に含まれる波形特性を分析して、信号のパワーが閾値未満であるか否か、あるいは符号化のゲインが閾値未満であるか否かを判別することにより、雑音区間を識別するようにしてもよい。
The noise superimposition section detection means 5 monitors the encoded signal encoded on the transmission side, and identifies whether the signal is a speech section signal including speech or a noise section signal including only noise. have. Specifically, by analyzing the waveform characteristics included in the encoded signal, it is possible to determine whether the power of the signal is less than the threshold or whether the gain of the encoding is less than the threshold. A section may be identified.

また、音声符号化手段6は、雑音重畳区間検出手段5が音声区間を判別した際に、この区間の波形を特定するインデックス情報へ符号化する機能を有している。具体的には、音声符号化手段6は、インデックス情報毎に波形パターンを登録する符号帳を備えている。   Further, the speech encoding means 6 has a function of encoding into index information for specifying the waveform of this section when the noise superimposition section detecting means 5 discriminates the speech section. Specifically, the speech encoding means 6 includes a code book for registering a waveform pattern for each index information.

雑音符号化手段7は、雑音重畳区間検出手段5が雑音区間を判別した際に、この区間の波形を特定するインデックス情報へ符号化する機能を有している。この符号化手段は、音声符号化手段6と同様に、インデックス情報毎に波形パターンを登録する符号帳を備えている。   The noise encoding unit 7 has a function of encoding, when the noise superimposing section detecting unit 5 determines a noise section, the index information for specifying the waveform of the section. Similar to the voice encoding unit 6, the encoding unit includes a code book for registering a waveform pattern for each index information.

制御情報生成手段8は、雑音重畳区間検出手段5が雑音区間を判別した場合に、この雑音区間の復号化処理にかかる制御情報を生成し、この制御情報を雑音区間の符号化信号に付加して受信側へ送信させる機能を有している。具体的には、雑音の波形特性に基づいて復号側で使用される合成フィルタのフィルタ係数を制御する情報である。例えば、フィルタ係数に乗算すべき1以下の正数値を制御情報とする。   The control information generation means 8 generates control information for decoding processing of the noise section when the noise superimposition section detection means 5 discriminates the noise section, and adds this control information to the encoded signal of the noise section. And has a function of transmitting to the receiving side. Specifically, it is information for controlling the filter coefficient of the synthesis filter used on the decoding side based on the waveform characteristics of noise. For example, a positive value of 1 or less to be multiplied by the filter coefficient is used as the control information.

(第2の課題を解決するための手段)
次に、上記第2の課題を解決する手段について図2の原理図に沿って説明する。
この手段は、符号化システムに適用されるものであり、雑音重畳区間検出手段10、逆フィルタ手段11、雑音除去手段12、ピッチ周期検出手段13、及び音声符号化手段14を備えている。
(Means for solving the second problem)
Next, means for solving the second problem will be described with reference to the principle diagram of FIG.
This means is applied to an encoding system, and includes a noise superposition section detecting means 10, an inverse filter means 11, a noise removing means 12, a pitch period detecting means 13, and a speech encoding means 14.

雑音重畳区間検出手段10は、送話器から入力される信号を監視し、音声のみを含む音声区間と、雑音のみを含む雑音区間と、音声に雑音が重畳した雑音重畳区間とを識別する機能を有している。   The noise superimposition section detection means 10 monitors a signal input from the transmitter, and identifies a speech section including only speech, a noise section including only noise, and a noise superimposition section where noise is superimposed on speech. have.

逆フィルタ手段11は、雑音重畳区間検出手段10が雑音重畳区間を判別した時に、この雑音重畳区間を線形予測分析して線形予測係数を求め、この線形予測係数をフィルタ係数とする逆フィルタリング処理を施す機能を有している。この逆フィルタ手段11から出力される予測残差信号は、雑音除去手段12へ入力される。   When the noise superimposition section detection means 10 discriminates the noise superimposition section, the inverse filter means 11 performs linear prediction analysis on the noise superimposition section to obtain a linear prediction coefficient, and performs an inverse filtering process using the linear prediction coefficient as a filter coefficient. It has a function to apply. The prediction residual signal output from the inverse filter unit 11 is input to the noise removing unit 12.

雑音除去手段12は、予測残差信号から雑音部分を除去する機能を有している。この雑音除去手段12としては、例えば、ローパスフィルタを用いることができる。
ピッチ周期検出手段13は、雑音除去手段12から出力される残差信号の自己相関関数を求め、この自己相関関数が最大値となるピッチ周期を検出する機能を有している。すなわち、予測残差信号を特定周期分ずつずらしていき、各予測残差信号と元の予測残差信号との相関が最大となる特定周期をピッチ周期として検出する。
The noise removing unit 12 has a function of removing a noise part from the prediction residual signal. For example, a low-pass filter can be used as the noise removing unit 12.
The pitch period detecting unit 13 has a function of obtaining an autocorrelation function of the residual signal output from the noise removing unit 12 and detecting a pitch period at which the autocorrelation function becomes a maximum value. That is, the prediction residual signal is shifted by a specific period, and a specific period at which the correlation between each prediction residual signal and the original prediction residual signal is maximized is detected as a pitch period.

そして、音声符号化手段14は、ピッチ周期検出手段13が検出したピッチ周期に基づいて雑音重畳区間の波形を符号化する機能を有している。
本発明の第1の課題を解決するシステムについて説明する。
The voice encoding unit 14 has a function of encoding the waveform of the noise superimposed section based on the pitch period detected by the pitch period detection unit 13.
A system for solving the first problem of the present invention will be described.

(第1の課題を解決するシステムの作用)
本発明の音声復号化システムでは、送信側で符号化された符号化信号を受信すると、雑音重畳区間検出手段1が雑音のみを含む雑音区間の符号化信号であるか、音声を含む音声区間の符号化信号であるかを判別する。
(Operation of the system that solves the first problem)
In the speech decoding system of the present invention, when an encoded signal encoded on the transmission side is received, the noise superimposition section detecting means 1 is a coded signal in a noise section including only noise or a speech section including speech. It is determined whether the signal is an encoded signal.

ここで、符号化信号が音声区間の符号化信号であれば、この符号化信号は音声復号化手段2へ入力される。音声符号化手段2は、符号化信号を波形信号へ符号化する。
また、符号化信号が雑音区間の符号化信号ならば、この符号化信号は雑音復号化手段3へ入力される。そして、雑音復号化手段3では、符号帳3aからインデックス情報に対応する波形パターンを検出し、この波形パターンを駆動音源3bを介して励起させる。そして、励起信号は、合成フィルタへ3c入力される。これと同時に、雑音制御手段4は、合成フィルタ3cのフィルタ係数に1以下の正数値を乗算して合成フィルタ3cへ通知する。合成フィルタ3cは、雑音制御手段4から通知されたフィルタ係数に基づいて前記励起信号にフィルタリング処理を施し、復号化信号を出力する。これにより、雑音区間の波形は、周波数特性を不自然に強調されることなく再生される。
Here, if the encoded signal is an encoded signal of a speech section, this encoded signal is input to the speech decoding means 2. The voice encoding unit 2 encodes the encoded signal into a waveform signal.
If the encoded signal is an encoded signal in a noise interval, this encoded signal is input to the noise decoding means 3. The noise decoding means 3 detects a waveform pattern corresponding to the index information from the codebook 3a, and excites this waveform pattern via the driving sound source 3b. The excitation signal is input to the synthesis filter 3c. At the same time, the noise control means 4 multiplies the filter coefficient of the synthesis filter 3c by a positive value of 1 or less and notifies the synthesis filter 3c. The synthesis filter 3c performs a filtering process on the excitation signal based on the filter coefficient notified from the noise control unit 4, and outputs a decoded signal. As a result, the waveform of the noise section is reproduced without unnaturally enhancing the frequency characteristics.

また、雑音復号化手段3は、雑音区間のゲインを”0”として処理するようにしてもよい。さらに、合成フィルタ3cの後段にポストフィルタ9を備えた場合には、ポストフィルタ9は、合成フィルタ3cから出力される雑音波形のピークを強調せずに(何も処理せずに)通過させる。   Further, the noise decoding unit 3 may process the gain of the noise section as “0”. Further, when the post filter 9 is provided in the subsequent stage of the synthesis filter 3c, the post filter 9 passes the noise waveform peak output from the synthesis filter 3c without being emphasized (no processing is performed).

次に、本発明の音声符号化システムでは、送話器から信号が入力されると、雑音重畳区間検出手段5は、入力信号が音声を含む音声区間の信号であるか、あるいは雑音のみを含む雑音区間の信号であるかを識別する。   Next, in the speech coding system of the present invention, when a signal is input from the transmitter, the noise superimposition section detecting means 5 is a signal in a speech section including speech or includes only noise. Identify whether the signal is in the noise interval.

ここで、入力信号が音声区間の信号であれば、音声符号化手段6は、音声区間の波形と類似する波形パターンを判別し、この波形パターンを特定するインデックス情報へ符号化して受信側へ送信する。   Here, if the input signal is a speech section signal, the speech encoding means 6 discriminates a waveform pattern similar to the speech section waveform, encodes this waveform pattern into index information for identification, and transmits it to the receiving side. To do.

また、入力信号が雑音区間の信号であれば、雑音符号化手段7は、雑音区間の波形と類似する波形パターンを判別し、この波形パターンを特定するインデックス情報へ符号化する。これと同時に、制御情報生成手段8は、雑音区間の復号処理に関する制御情報を生成し、上記インデックス情報に付加する。具体的には、制御情報生成手段8は、雑音区間の入力信号を線形予測分析して周波数特性を判別し、求まったフィルタ係数に1以下の正数値を乗算し、受信側で使用される合成フィルタのフィルタ係数を決定する。そして、このフィルタ係数を制御情報としてインデックス情報と共に受信側へ送信する。   If the input signal is a signal in the noise interval, the noise encoding means 7 discriminates a waveform pattern similar to the waveform in the noise interval, and encodes this waveform pattern into index information for specifying the waveform pattern. At the same time, the control information generation means 8 generates control information related to the noise section decoding process and adds it to the index information. Specifically, the control information generation means 8 performs linear prediction analysis on the input signal in the noise interval to determine the frequency characteristic, multiplies the obtained filter coefficient by a positive value of 1 or less, and performs synthesis used on the receiving side. Determine the filter coefficients of the filter. Then, this filter coefficient is transmitted as control information to the receiving side together with index information.

以下、本発明の第2の課題を解決するシステムについて説明する。
(第2の課題を解決するシステムの作用)
本発明の音声符号化システムでは、雑音重畳区間判別手段10が、送話器から入力される信号を監視し、音声のみを含む音声区間であるか、雑音のみを含む雑音区間であるか、あるいは音声に雑音が重畳した雑音重畳区間であるかを判別する。
Hereinafter, a system for solving the second problem of the present invention will be described.
(Operation of the system that solves the second problem)
In the speech coding system of the present invention, the noise superimposition section discriminating means 10 monitors the signal input from the transmitter, and is a speech section including only speech, a noise section including only noise, or It is determined whether or not it is a noise superimposition section in which noise is superimposed on speech.

ここで、雑音重畳区間が判別されると、逆フィルタ手段11は、雑音重畳区間の予測係数を求め、この予測係数をフィルタ係数とするフィルタリング処理を施して予測残差信号を出力する。この予測残差信号は、雑音除去手段12へ入力され、雑音部分を除去される。   Here, when the noise superimposition section is determined, the inverse filter unit 11 obtains a prediction coefficient of the noise superimposition section, performs a filtering process using the prediction coefficient as a filter coefficient, and outputs a prediction residual signal. This prediction residual signal is input to the noise removing unit 12 and the noise portion is removed.

雑音除去手段12により雑音部分を除去された予測残差信号は、ピッチ周期検出手段13へ入力される。ピッチ周期検出手段13は、予測残差信号の自己相関関数を求め、この自己相関関数が最大値となるピッチ周期を検出する。   The prediction residual signal from which the noise part has been removed by the noise removing unit 12 is input to the pitch period detecting unit 13. The pitch period detection means 13 obtains an autocorrelation function of the prediction residual signal and detects a pitch period at which the autocorrelation function becomes a maximum value.

そして、音声符号化手段14は、ピッチ周期検出手段13が検出したピッチ周期に基づいて雑音重畳区間の波形と類似する波形パターンを判別し、この波形パターンを特定するインデックス情報へ符号化する。これにより、雑音の影響を受けずに音声信号の符号化を
行える。
Then, the voice encoding unit 14 discriminates a waveform pattern similar to the waveform of the noise superimposition section based on the pitch period detected by the pitch period detection unit 13, and encodes the waveform pattern into index information for specifying the waveform pattern. As a result, the audio signal can be encoded without being affected by noise.

本発明によれば、周波数特性の変化が少ない雑音に、不自然な周波数特性が付加することを防止し、再生時の違和感を低下させることができる。
さらに、音声に雑音が重畳した信号を符号化する際に、雑音成分を除去して正確なピッチ周期を検出することにより、質の高い符号化を行える。
According to the present invention, it is possible to prevent an unnatural frequency characteristic from being added to noise with a small change in frequency characteristic, and to reduce the uncomfortable feeling during reproduction.
Furthermore, when coding a signal in which noise is superimposed on speech, high-quality coding can be performed by removing a noise component and detecting an accurate pitch period.

従って、本発明によれば、携帯電話や自動車電話等の移動通信システムの音声の品質向上に寄与することができる。   Therefore, according to the present invention, it is possible to contribute to an improvement in voice quality of a mobile communication system such as a mobile phone or a car phone.

本発明の実施例について図面に沿って説明する。
<実施例1>
本発明の第1の実施例について図面に沿って説明する。
Embodiments of the present invention will be described with reference to the drawings.
<Example 1>
A first embodiment of the present invention will be described with reference to the drawings.

図3は、本実施例1における音声復号化システムの構成を示すブロック図である。本実施例1における音声符号化システムは、雑音重畳区間検出手段としての雑音重畳検出判定器1と、音声符号化手段としての音声復号器A(2)と、雑音復号手段としての音声復号器B(3)と、受信符号分離部15とを備えている。   FIG. 3 is a block diagram illustrating the configuration of the speech decoding system according to the first embodiment. The speech encoding system according to the first embodiment includes a noise superimposition detection / determination unit 1 as noise superimposing section detection means, a speech decoder A (2) as speech encoding means, and a speech decoder B as noise decoding means. (3) and a received code separating unit 15 are provided.

尚、音声復号器A(2)と音声復号器B(3)とは、復号化方式としてCELP方式を採用するものとする。受信符号分離部15は、送信側から受信した符号化信号をパワー情報、インデックス情報、合成フィルタ係数に分離する機能を有している。   Note that the speech decoder A (2) and the speech decoder B (3) adopt the CELP method as a decoding method. The reception code separation unit 15 has a function of separating the encoded signal received from the transmission side into power information, index information, and synthesis filter coefficients.

雑音重畳検出判定器1は、受信符号分離部15が分離したパワー情報と予め設定されている閾値とを比較し、パワー情報が閾値以上ならば符号化信号を音声区間と判定し、パワー情報が閾値未満ならば符号化信号を雑音区間と判定する機能を有している。さらに、雑音重畳検出判定器1は、音声区間の符号化信号を音声復号器A(2)へ入力させると共に雑音区間の符号化信号を音声復号器B(3)へ入力させる機能とを有している。   The noise superimposition detection determination unit 1 compares the power information separated by the received code separation unit 15 with a preset threshold value. If the power information is equal to or greater than the threshold value, the encoded signal is determined to be a speech section. If it is less than the threshold, it has a function of determining the encoded signal as a noise interval. Furthermore, the noise superimposition detection / determination unit 1 has a function of causing the encoded signal in the speech section to be input to the speech decoder A (2) and the encoded signal in the noise section to be input to the speech decoder B (3). ing.

音声復号器A(2)は、音声区間の符号化信号を復号化するものである。具体的には、従来のCELP方式の復号器と同様の構成及び機能を有しており、説明は省略する。
音声復号器B(3)は、雑音区間の符号化信号を復号化するものである。ここで、図4に、音声復号器B(3)の内部構成と周辺構成とを示す。同図において、音声復号器B(3)は、適応符号帳30aと、雑音符号帳31aと、駆動音源3bと、合成フィルタ3cを備えている。そして、合成フィルタ3cには、本発明の雑音制御手段としてのLPC係数補正部4が接続されている。
The audio decoder A (2) decodes the encoded signal in the audio section. Specifically, it has the same configuration and function as a conventional CELP decoder and will not be described.
The audio decoder B (3) decodes the encoded signal in the noise section. Here, FIG. 4 shows an internal configuration and a peripheral configuration of the speech decoder B (3). In the figure, the speech decoder B (3) includes an adaptive codebook 30a, a noise codebook 31a, a driving sound source 3b, and a synthesis filter 3c. The synthesis filter 3c is connected to an LPC coefficient correction unit 4 as noise control means of the present invention.

適応符号帳30aは、周期性を有する波形信号の波形パターンとインデックス情報とを登録するものであり、復号化した波形信号により波形パターンを更新する機能を有している。   The adaptive codebook 30a registers the waveform pattern of the waveform signal having periodicity and the index information, and has a function of updating the waveform pattern with the decoded waveform signal.

雑音符号帳31aは、周期性を持たない波形信号の波形パターンとインデックス情報とを登録するものである。適応符号帳30aと雑音符号帳31aには、それぞれから読み出した波形パターンの増幅率(ゲイン)が規定されており、駆動音源3bは、適応符号帳30aと雑音符号帳31aとから読み出された波形パターンを各々のゲインに従って励起する機能を有している。   The noise codebook 31a is for registering the waveform pattern and index information of a waveform signal having no periodicity. The adaptive codebook 30a and the noise codebook 31a define the amplification factor (gain) of the waveform pattern read from each, and the driving sound source 3b is read from the adaptive codebook 30a and the noise codebook 31a. It has a function of exciting the waveform pattern according to each gain.

合成フィルタ3cは、駆動音源3bから出力される励起信号に対してフィルタリング処
理を施し、波形信号へ復号化するものである。合成フィルタ3cのフィルタ係数は、送信側で決定される。すなわち、送信側では、元の波形信号を線形予測分析して、線形予測係数を算出し、この線形予測係数をフィルタ係数として受信側へ送信する。これにより、音声復号器B(3)は、符号化信号からフィルタ係数を検出し、このフィルタ係数を合成フィルタ3cのフィルタ係数として用いる。
The synthesis filter 3c performs a filtering process on the excitation signal output from the driving sound source 3b and decodes it into a waveform signal. The filter coefficient of the synthesis filter 3c is determined on the transmission side. That is, the transmission side performs linear prediction analysis on the original waveform signal, calculates a linear prediction coefficient, and transmits this linear prediction coefficient as a filter coefficient to the reception side. Thereby, the speech decoder B (3) detects the filter coefficient from the encoded signal, and uses this filter coefficient as the filter coefficient of the synthesis filter 3c.

LPC係数補正部4は、雑音重畳検出判定器1の判定結果を受けて合成フィルタ3cのフィルタ係数を補正する機能を有している。具体的には、以下の数式に示すように、合成フィルタ3cのフィルタ係数に、1以下の正数を乗算してフィルタ係数を補正する機能を有している。   The LPC coefficient correction unit 4 has a function of correcting the filter coefficient of the synthesis filter 3c in response to the determination result of the noise superimposition detection determination unit 1. Specifically, as shown in the following equation, the filter coefficient of the synthesis filter 3c is multiplied by a positive number of 1 or less to correct the filter coefficient.

α’i=gi×αi (0.0<g≦1.0)
これにより、合成フィルタ3cの周波数特性を略フラットな特性とすることができる(図12参照)。
α′i = gi × αi (0.0 <g ≦ 1.0)
As a result, the frequency characteristic of the synthesis filter 3c can be made substantially flat (see FIG. 12).

以下、音声復号化システムの動作について説明する。音声復号化システムは、送信側で符号化された符号化信号を受信符号分離部15が受信する。
受信符号分離部15は、符号化信号を、パワー情報、インデックス情報、フィルタ係数に分離し、パワー情報を雑音重畳検出判定器1へ入力させる。雑音重畳検出判定器1は、パワー情報が閾値以上であるか、あるいは閾値未満であるかを判別する。ここで、パワー情報が閾値以上ならば、雑音重畳検出判定器1は、符号化信号を音声区間の信号と判定し、受信符号分離部15が分離したパワー情報、インデックス情報、及びフィルタ係数を音声復号器A(2)へ入力させる。音声復号器A(2)は、これらの情報に基づいて符号化信号を音声波形へ復号化する。
Hereinafter, the operation of the speech decoding system will be described. In the speech decoding system, the reception code separation unit 15 receives the encoded signal encoded on the transmission side.
The reception code separation unit 15 separates the encoded signal into power information, index information, and filter coefficients, and inputs the power information to the noise superimposition detection determination unit 1. The noise superimposition detection determination unit 1 determines whether the power information is greater than or equal to a threshold value or less than the threshold value. If the power information is equal to or greater than the threshold value, the noise superimposition detection / determination unit 1 determines that the encoded signal is a speech section signal, and uses the power information, index information, and filter coefficient separated by the received code separation unit 15 as speech. Input to the decoder A (2). The voice decoder A (2) decodes the encoded signal into a voice waveform based on these pieces of information.

一方、パワー情報が閾値未満の場合には、雑音重畳検出判定器1は、符号化信号が雑音区間の信号と判定し、受信符号分離部15が分離したパワー情報及びインデックス情報を音声復号器B(3)へ入力させると同時に、フィルタ係数をLPC係数補正部4へ通知する。   On the other hand, when the power information is less than the threshold value, the noise superimposition detection / determination unit 1 determines that the encoded signal is a signal in the noise section, and uses the power information and index information separated by the received code separation unit 15 as speech decoder B. At the same time as inputting to (3), the filter coefficient is notified to the LPC coefficient correction unit 4.

音声復号器B(3)では、インデックス情報に基づいて適応符号帳30aあるいは雑音符号帳31aを検索し、該当する波形パターンを検出する。そして、駆動音源3bは、波形パターンを各符号帳のゲインに従って励起し、励起信号を合成フィルタ3cへ入力させる。   The speech decoder B (3) searches the adaptive codebook 30a or the noise codebook 31a based on the index information, and detects a corresponding waveform pattern. Then, the driving sound source 3b excites the waveform pattern according to the gain of each codebook, and inputs the excitation signal to the synthesis filter 3c.

ここで、LPC係数補正部4は、フィルタ係数に1以下の正数値を乗算してフィルタ係数を補正する。そして、補正後のフィルタ係数を合成フィルタ3cへ通知する。
合成フィルタ3cは、LPC係数補正部4から通知されたフィルタ係数に従って駆動音源3bから出力される励起信号をフィルタリング処理して雑音波形へ復号化する。 以上
、本実施例1によれば、雑音区間の信号を符号化する際に、フィルタ係数を制御することにより、合成フィルタ3cのスペクトルを略フラットな特性とすることができ、雑音波形の特性を不自然に強調させることを防止し、聴覚的に耳障りな雑音の再生を抑制することができる。従って、携帯電話や自動車電話等のような携帯移動通信の音声品質を向上させることができる。
Here, the LPC coefficient correction unit 4 corrects the filter coefficient by multiplying the filter coefficient by a positive value of 1 or less. Then, the corrected filter coefficient is notified to the synthesis filter 3c.
The synthesis filter 3c performs a filtering process on the excitation signal output from the driving sound source 3b according to the filter coefficient notified from the LPC coefficient correction unit 4, and decodes the excitation signal into a noise waveform. As described above, according to the first embodiment, when the signal in the noise section is encoded, the spectrum of the synthesis filter 3c can be made substantially flat by controlling the filter coefficient, and the noise waveform characteristic can be improved. It is possible to prevent unnatural emphasis and to suppress the reproduction of noise that is audibly annoying. Therefore, it is possible to improve the voice quality of portable mobile communication such as a mobile phone or a car phone.

<実施例2>
本実施例2では、本発明のシステムを符号器に適用した例について説明する。図5は、音声符号化システムの概略構成図である。
<Example 2>
In the second embodiment, an example in which the system of the present invention is applied to an encoder will be described. FIG. 5 is a schematic configuration diagram of a speech encoding system.

同図において、音声符号化システムは、音声符号器A(6)、音声符号器B(7)、及
び雑音重畳検出判定器5を備えている。雑音重畳検出判定器5は、送話器から入力される波形信号のパワーを検出し、このパワーが閾値以上であれば音声を含む音声区間の波形信号と判定し、パワーが閾値未満ならば雑音のみを含む雑音区間の波形信号と判定する機能を有している。そして、雑音重畳検出判定器5は、音声区間の波形信号を音声符号器A(6)へ入力させ、雑音区間の波形信号を音声符号器B(7)へ入力させる機能を有している。
In the figure, the speech coding system includes a speech encoder A (6), a speech encoder B (7), and a noise superimposition detection / determination unit 5. The noise superimposition detection / determination unit 5 detects the power of the waveform signal input from the transmitter. If the power is greater than or equal to a threshold value, the noise superimposition detection / determination unit 5 determines that the waveform signal is in a voice section including speech. It has a function to determine the waveform signal of the noise section including only the. The noise superimposition detection / determination unit 5 has a function of inputting the waveform signal in the speech section to the speech encoder A (6) and inputting the waveform signal in the noise section to the speech encoder B (7).

音声符号器A(6)は、音声区間の波形信号を符号化する機能を有し、従来のCELP方式の符号器である。音声符号器B(7)は、雑音区間の波形信号を符号化する機能を有している。   The speech encoder A (6) has a function of encoding a waveform signal in a speech section and is a conventional CELP encoder. The speech encoder B (7) has a function of encoding a waveform signal in a noise interval.

ここで、図6に、音声符号器B(7)の内部構成と周辺構成を示す。同図において、音声符号器B(7)は、適応符号帳70a、雑音符号帳71a、駆動音源7b、合成フィルタ7c、LPC分析部7e、及び誤差最少化部7dを備えている。   Here, FIG. 6 shows an internal configuration and a peripheral configuration of the speech encoder B (7). In the figure, a speech encoder B (7) includes an adaptive codebook 70a, a noise codebook 71a, a driving sound source 7b, a synthesis filter 7c, an LPC analysis unit 7e, and an error minimization unit 7d.

適応符号帳70aは、周期性を有する波形の波形パターンと、個々の波形パターンを特定するインデックス情報とを登録している。雑音符号帳71aは、周期性を持たない波形の波形パターンと、個々の波形パターンを特定するインデックス情報とを登録している。   The adaptive codebook 70a registers a waveform pattern having a periodicity and index information for specifying each waveform pattern. The noise codebook 71a registers a waveform pattern of a waveform having no periodicity and index information for identifying each waveform pattern.

駆動音源7bは、適応符号帳70aから検出された波形パターン、及び雑音符号帳71aから検出された波形パターンを各符号帳のゲインに従って励起する機能を有している。
合成フィルタ7cは、雑音区間の波形信号の線形予測係数をフィルタ係数としたフィルタリング処理を行う機能を有している。誤差最少化部7dは、合成フィルタ7cから出力される波形信号と、入力された雑音信号の波形とを比較して、インデックス情報と波形パターンの増幅率(ゲイン)を最適化して雑音符号帳71aの内容を更新する機能を有している。
The driving sound source 7b has a function of exciting the waveform pattern detected from the adaptive codebook 70a and the waveform pattern detected from the noise codebook 71a according to the gain of each codebook.
The synthesis filter 7c has a function of performing a filtering process using a linear prediction coefficient of a waveform signal in a noise interval as a filter coefficient. The error minimizing unit 7d compares the waveform signal output from the synthesis filter 7c with the waveform of the input noise signal, optimizes the index information and the amplification factor (gain) of the waveform pattern, and generates the noise codebook 71a. It has a function to update the contents.

LPC分析部7eは、入力波形を線形予測分析して線形予測係数を算出し、この線形予測係数をフィルタ係数として合成フィルタ7cへ入力する機能を有している。
さらに、音声符号器B(7)には、符号送信部16とLPC係数補正部8とが接続されている。符号送信部16は、音声符号器B(7)で符号化されたパワー情報、インデックス情報、及びフィルタ係数を受信側へ送信する機能を有している。
The LPC analysis unit 7e has a function of calculating a linear prediction coefficient by performing linear prediction analysis on the input waveform, and inputting the linear prediction coefficient as a filter coefficient to the synthesis filter 7c.
Furthermore, the code encoder 16 and the LPC coefficient correction unit 8 are connected to the speech encoder B (7). The code transmission unit 16 has a function of transmitting the power information, index information, and filter coefficient encoded by the speech encoder B (7) to the reception side.

LPC係数補正部8は、前述の実施例1と同様の機能を有しており、雑音区間の符号化信号を復号化する際に使用される合成フィルタ7cのフィルタ係数を補正する機能を有している。具体的には、フィルタ係数に1以下の正数値を乗算して補正を行う。これに対応して、符号送信部16は、LPC係数補正部8が補正したフィルタ係数を他の符号化信号と共に送信するものとする。   The LPC coefficient correction unit 8 has the same function as that of the first embodiment, and has a function of correcting the filter coefficient of the synthesis filter 7c used when decoding the encoded signal in the noise section. ing. Specifically, correction is performed by multiplying the filter coefficient by a positive value of 1 or less. In response to this, the code transmission unit 16 transmits the filter coefficient corrected by the LPC coefficient correction unit 8 together with other encoded signals.

以下に、実施例2における音声符号化システムの動作について説明する。送話器から波形信号が入力されると、雑音重畳検出判定器5は、この波形信号のパワーを検出し、閾値以上であるかあるいは閾値未満であるかを判別する。ここで、波形信号のパワーが閾値以上ならば、雑音重畳検出判定器5は、波形信号を音声区間の波形信号と判定し、この波形信号を音声符号器A(6)へ入力させる。   The operation of the speech encoding system in the second embodiment will be described below. When a waveform signal is input from the transmitter, the noise superimposition detection / determination unit 5 detects the power of the waveform signal and determines whether it is greater than or less than a threshold value. Here, if the power of the waveform signal is equal to or greater than the threshold value, the noise superimposition detection / determination unit 5 determines that the waveform signal is a waveform signal in the speech section, and inputs this waveform signal to the speech encoder A (6).

音声符号器A(6)では、符号帳を用いて波形情報をインデックス情報、パワー情報、及びフィルタ係数とに符号化し、受信側へ送信する。また、入力波形のパワーが閾値未満の場合には、雑音重畳検出判定器5は、波形信号が雑音区間の波形信号であると判定し、この波形信号を音声符号器B(7)へ入力させる。   Speech encoder A (6) encodes waveform information into index information, power information, and filter coefficients using a codebook, and transmits the encoded information to the receiving side. If the power of the input waveform is less than the threshold value, the noise superimposition detection / determination unit 5 determines that the waveform signal is a waveform signal in the noise interval, and inputs this waveform signal to the speech encoder B (7). .

音声符号器B(7)では、適応符号帳70aと雑音符号帳71aとを雑音区間の波形に基づいて検索し、類似する波形パターンを検出する機能を有している。さらに、音声符号器B(7)は、適応符号帳70aあるいは雑音符号帳71aから読み出された波形パターンを駆動音源7bへ入力させる。   The speech encoder B (7) has a function of searching the adaptive codebook 70a and the noise codebook 71a based on the waveform of the noise section and detecting a similar waveform pattern. Furthermore, the speech encoder B (7) inputs the waveform pattern read from the adaptive codebook 70a or the noise codebook 71a to the driving sound source 7b.

駆動音源7bは、波形パターンを励起して合成フィルタ7cへ入力させる。ここで、LPC分析部7eは、入力された波形信号を線形予測分析し、線形予測係数を算出する。そして、LPC分析部7eは、線形予測係数を合成フィルタ7cへ通知する。   The driving sound source 7b excites the waveform pattern and inputs it to the synthesis filter 7c. Here, the LPC analysis unit 7e performs linear prediction analysis on the input waveform signal and calculates a linear prediction coefficient. Then, the LPC analysis unit 7e notifies the synthesis filter 7c of the linear prediction coefficient.

合成フィルタ7cは、線形予測係数をフィルタ係数とするフィルタリング処理を、駆動音源7bから入力された励起信号に対して施す。誤差最少化部7dは、合成フィルタ7cから出力される復号信号と、入力された波形信号とを比較し、双方の誤差を最少にするために最適なインデックス情報と波形パターンのゲインとを適応符号帳70a及び雑音符号帳71aへ通知する。そして、各符号帳は、誤差最少化部7dから通知されるインデックス情報とゲインとに基づいて登録内容及びゲインを更新し、更新後のインデックス情報を符号送信部16へ通知する。さらに、LPC係数補正部8は、LPC分析部8が算出した線形予測係数(フィルタ係数)に1以下の正数値を乗算してフィルタ係数を補正する。そして、LPC係数補正部8は補正後のフィルタ係数を符号送信部16へ通知する。   The synthesis filter 7c performs a filtering process using the linear prediction coefficient as a filter coefficient on the excitation signal input from the driving sound source 7b. The error minimizing unit 7d compares the decoded signal output from the synthesis filter 7c with the input waveform signal, and applies the optimum index information and waveform pattern gain to minimize the error between the two. Notification is made to the book 70a and the noise codebook 71a. Each codebook updates the registration contents and gain based on the index information and gain notified from the error minimizing unit 7d, and notifies the code transmitting unit 16 of the updated index information. Further, the LPC coefficient correction unit 8 corrects the filter coefficient by multiplying the linear prediction coefficient (filter coefficient) calculated by the LPC analysis unit 8 by a positive value of 1 or less. Then, the LPC coefficient correction unit 8 notifies the code transmission unit 16 of the corrected filter coefficient.

符号送信部16は、音声符号器B(7)から通知されたインデックス情報及びパワー情報と、LPC係数補正部8から通知されたフィルタ係数とを受信側へ通知する。
これにより、受信側では、補正されたフィルタ係数を用いて復号処理を行うことにより、合成フィルタのスペクトルをフラットな特性とすることができ、雑音区間の波形を不自然に復号化することを防止することができる。
The code transmission unit 16 notifies the reception side of the index information and power information notified from the speech encoder B (7) and the filter coefficient notified from the LPC coefficient correction unit 8.
As a result, on the receiving side, the decoding process is performed using the corrected filter coefficient, so that the spectrum of the synthesis filter can be made flat, and the waveform in the noise section is prevented from being unnaturally decoded. can do.

以上、本実施例2によれば、雑音区間の復号化処理を行う際に、合成フィルタのスペクトルをフラットな特性にすることができ、雑音区間の周波数特性を不自然にせず、聴覚的にも耳障りな雑音を抑制することができる。   As described above, according to the second embodiment, when performing the decoding process of the noise section, the spectrum of the synthesis filter can be made to have a flat characteristic, and the frequency characteristic of the noise section is not unnatural and can be heard acoustically. Unpleasant noise can be suppressed.

<実施例3>
以下に、本発明の第3の実施例について図面に沿って説明する。図7に、本実施例3における音声符号器Bの内部構成を示す。
<Example 3>
A third embodiment of the present invention will be described below with reference to the drawings. FIG. 7 shows the internal configuration of the speech encoder B according to the third embodiment.

同図において、音声符号器B(7)は、前述の実施例2の音声符号器B(7)に対して、適応符号帳70a、雑音符号帳71a、駆動音源7b、合成フィルタ7c、LPC分析部7e、及び誤差最少化部7dを備えている。さらに、音声符号器B(7)には、符号送信部16が接続されている。   In the figure, the speech encoder B (7) is different from the speech encoder B (7) of the second embodiment described above in that it includes an adaptive codebook 70a, a noise codebook 71a, a driving sound source 7b, a synthesis filter 7c, and LPC analysis. A section 7e and an error minimizing section 7d are provided. Furthermore, the code transmitter 16 is connected to the speech encoder B (7).

符号送信部16は、雑音区間の符号化信号を送信する際に、適応符号帳70aのインデックス情報として”0”を送信する機能を有している。その他の構成及び機能は、前述の実施例2と同様であり説明は、省略する。   The code transmitting unit 16 has a function of transmitting “0” as index information of the adaptive codebook 70a when transmitting the encoded signal in the noise section. Other configurations and functions are the same as those of the second embodiment described above, and a description thereof will be omitted.

図8は、図7の音声符号器B(7)に対応する音声復号器B(3)の構成を示すブロック図である。音声復号器B(3)は、前述の実施例1の構成に対して、適応符号帳30a、雑音符号帳31a、駆動音源3b、合成フィルタ3c、及び適応ポストフィルタ17を備えている。   FIG. 8 is a block diagram showing a configuration of speech decoder B (3) corresponding to speech encoder B (7) in FIG. The speech decoder B (3) is provided with an adaptive codebook 30a, a noise codebook 31a, a driving sound source 3b, a synthesis filter 3c, and an adaptive postfilter 17 with respect to the configuration of the first embodiment.

適応ポストフィルタ17は、波形の周期を変更せずに振幅値を増幅させる機能を有している。また、適応符号帳30aは、送信側から適応符号帳30aのインデックス情報”0”を受信すると、適応符号帳30aのゲインを”0”とする。これにより、雑音区間の波
形信号が入力されると、雑音符号帳31aのインデックス情報に基づいて雑音符号帳31aを検索し、該当する波形パターンを読み出す機能を有している。さらに、適応ポストフィルタ17は、雑音区間の波形信号が入力されると、この波形信号に対して何も処理を行わずに通過させる。
The adaptive post filter 17 has a function of amplifying the amplitude value without changing the waveform period. When the adaptive codebook 30a receives the index information “0” of the adaptive codebook 30a from the transmission side, the adaptive codebook 30a sets the gain of the adaptive codebook 30a to “0”. Thus, when a waveform signal in the noise section is input, the noise codebook 31a is searched based on the index information of the noise codebook 31a, and the corresponding waveform pattern is read out. Further, when the waveform signal in the noise interval is input, the adaptive post filter 17 passes the waveform signal without performing any processing.

本実施例3によれば、周期性の無い雑音波形を雑音符号帳で符号化及び復号化することにより、復号処理時には周期性の無いフラットな特性の雑音信号に不自然な周期性を付加することなく、聴覚的に自然な波形信号へ復号化することができる。   According to the third embodiment, an unnatural periodicity is added to a noise signal having a flat characteristic having no periodicity during decoding processing by encoding and decoding a noise waveform having no periodicity using a noise codebook. Without being decoded into an acoustically natural waveform signal.

<実施例4>
図9に、本実施例4における符号化器Bの構成を示す。符号化器B(7)は、適応符号帳分析部18、雑音符号帳分析部19、駆動音源生成部20、開ループピッチ分析部21を備えている。
<Example 4>
FIG. 9 shows the configuration of the encoder B in the fourth embodiment. The encoder B (7) includes an adaptive codebook analyzer 18, a noise codebook analyzer 19, a drive excitation generator 20, and an open loop pitch analyzer 21.

適応符号帳分析部18は、雑音符号帳71aから検出された波形信号に対して、長期予測合成フィルタ72でフィルタリング処理を行い、波形信号のピッチ周期を算出する閉ループ処理を行う機能を有している(図10参照)。   The adaptive codebook analysis unit 18 has a function of performing a filtering process on the waveform signal detected from the noise codebook 71a by the long-term prediction synthesis filter 72 and performing a closed loop process for calculating the pitch period of the waveform signal. (See FIG. 10).

一方、開ループピッチ分析部21は、音声波形に雑音波形が重畳した雑音重畳区間を符号化する際に起動されるものであり、短期予測逆フィルタ11、ローパスフィルタLPF12、自己相関検出部13b、相関最大値検出部13c、及び遅延部13aを備えている(図11参照)。   On the other hand, the open loop pitch analysis unit 21 is activated when encoding a noise superimposed section in which a noise waveform is superimposed on a speech waveform, and includes a short-term prediction inverse filter 11, a low-pass filter LPF 12, an autocorrelation detection unit 13b, A correlation maximum value detection unit 13c and a delay unit 13a are provided (see FIG. 11).

短期予測逆フィルタ11は、波形信号の線形予測係数をフィルタ係数とした逆フィルタリング処理を行い、予測残差信号を出力する機能を有している。ローパスフィルタLPF12は、予測残差信号から雑音部分の波形を除去する機能を有している。   The short-term prediction inverse filter 11 has a function of performing an inverse filtering process using a linear prediction coefficient of a waveform signal as a filter coefficient and outputting a prediction residual signal. The low pass filter LPF 12 has a function of removing the waveform of the noise portion from the prediction residual signal.

遅延部13aは、予測残差信号の周期を、特定周期ずつずらしていく機能を有している。自己相関検出部13bは、元の予測残差信号と遅延部13aが特定周期分ずらした予測残差信号との相関値を検出する機能を有している。   The delay unit 13a has a function of shifting the period of the prediction residual signal by a specific period. The autocorrelation detection unit 13b has a function of detecting a correlation value between the original prediction residual signal and the prediction residual signal shifted by a specific period by the delay unit 13a.

相関最大値検出部13cは、遅延部13aが特定周期ずつずらしていき、最も相関が大きい遅延量(周期)を検出する機能を有している。この遅延量は、ピッチ周期として駆動音源7bへ通知される。そして、駆動音源7bは、このピッチ周期に基づいて適用符号帳70aから読み出された波形パターンを励起する。   The correlation maximum value detection unit 13c has a function of detecting the delay amount (cycle) having the largest correlation by the delay unit 13a being shifted by a specific period. This delay amount is notified to the driving sound source 7b as a pitch period. Then, the driving sound source 7b excites the waveform pattern read from the applied codebook 70a based on this pitch period.

以上、本実施例4によれば、雑音が重畳した音声波形のピッチ周期を正確に検出することができ、雑音の有無に左右されない質の高い符号化処理を行うことができ、再生音声の品質を向上させることができる。   As described above, according to the fourth embodiment, it is possible to accurately detect the pitch period of a speech waveform on which noise is superimposed, to perform high-quality encoding processing independent of the presence or absence of noise, and to improve the quality of reproduced speech Can be improved.

本発明の原理図(1)Principle of the present invention (1) 本発明の原理図(2)Principle of the present invention (2) 実施例1における音声復号化システムの概略構成図1 is a schematic configuration diagram of a speech decoding system according to Embodiment 1. 音声復号器Bの内部構成ブロック図Internal configuration block diagram of speech decoder B 実施例2における音声符号化システムの概略構成図Schematic configuration diagram of a speech encoding system in Embodiment 2. 音声符号器Bの内部構成ブロック図Internal configuration block diagram of speech encoder B 実施例3における音声符号器Bの内部構成ブロック図Block diagram of internal configuration of speech encoder B in Embodiment 3 実施例3における音声復号器Bの内部構成ブロック図Block diagram of internal configuration of speech decoder B in the third embodiment. 実施例4における音声符号化システムの概略構成図Schematic configuration diagram of a speech encoding system in Embodiment 4. 適応符号帳分析部の内部構成を示すブロック図Block diagram showing the internal configuration of the adaptive codebook analyzer 開ループ分析部の内部構成ブロック図Internal configuration block diagram of the open loop analysis unit 合成フィルタの周波数特性を示すスペクトルSpectrum showing frequency characteristics of synthesis filter 空調音の源音のスペクトルを示す図The figure which shows the spectrum of the source sound of the air conditioning sound 空調音の再生音のスペクトルを示す図The figure which shows the spectrum of the reproduction sound of the air conditioning sound 合成フィルタの周波数特性を示すスペクトルSpectrum showing frequency characteristics of synthesis filter

符号の説明Explanation of symbols

1・・雑音重畳区間検出手段
2・・音声復号化手段
3・・雑音復号化手段
3a・・符号帳
3b・・駆動音源
3c・・合成フィルタ
4・・雑音制御手段(LPC係数補正部)
5・・雑音重畳区間検出手段(雑音重畳検出判定器)
6・・音声符号化手段
7・・雑音符号化手段
7b・・駆動音源
7c・・合成フィルタ
7d・・誤差最少化部
7e・・LPC分析部
8・・制御情報生成手段(LPC係数補正部)
9・・ポストフィルタ
10・・雑音重畳区間検出手段
11・・逆フィルタ手段(短期予測逆フィルタ)
12・・雑音除去手段(ローパスフィルタLPF)
13・・ピッチ周期検出手段
13a・・遅延部
13b・・自己相関検出部
13c・・相関最大値検出部
14・・音声符号化手段
15・・受信符号分離部
16・・符号送信部
17・・適応ポストフィルタ
18・・適応符号帳分析部
19・・雑音符号帳分析部
20・・駆動音源生成部
21・・開ループピッチ分析部
30a・・適応符号帳
31a・・雑音符号帳
70a・・適応符号帳
71a・・雑音符号帳
72・・長期予測合成フィルタ
DESCRIPTION OF SYMBOLS 1 .... Noise superimposition section detection means 2 .... Speech decoding means 3 .... Noise decoding means 3a ... Codebook 3b ... Driving sound source 3c ... Synthetic filter 4 .... Noise control means (LPC coefficient correction unit)
5. ・ Noise superimposition section detection means (noise superimposition detection / determination unit)
6 .. Speech encoding means 7.. Noise encoding means 7 b... Driving sound source 7 c... Synthesis filter 7 d .. Error minimizing section 7 e .. LPC analysis section 8 .. Control information generating means (LPC coefficient correcting section)
9..Post filter 10..Noise superimposing section detection means 11..Inverse filter means (short-term prediction inverse filter)
12. Noise removal means (low pass filter LPF)
13. · Pitch period detection means 13a ·· Delay portion 13b ·· Autocorrelation detection portion 13c ·· Maximum correlation value detection portion 14 ·· Voice encoding means 15 ·· Reception code separation portion 16 ·· Code transmission portion 17 ··· Adaptive post filter 18 .... Adaptive codebook analysis unit 19 .... Noise codebook analysis unit 20 .... Driving sound source generation unit 21 ... Open loop pitch analysis unit 30a ... Adaptive code book 31a ... Noise codebook 70a ... Codebook 71a ... Noise codebook 72 ... Long-term prediction synthesis filter

Claims (4)

送話器から入力される信号が音声を含む音声区間の信号であるか、あるいはそれ以外の雑音区間の信号であるかを判定する検出手段と、
該音声区間の信号を符号化する第1の音声符号器と、
該雑音区間の信号を符号化する第2の音声符号器と
該第2の音声符号器中に設けられ、前記送話器から入力される信号を線形予測分析して線形予測係数を算出し、この線形予測係数を出力する手段と、
前記検出手段が雑音区間を判定した場合に、該線形予測係数を、受信側で使用される合成フィルタの出力において周波数特性の時間的変動が見られなくなるような線形予測係数に補正する手段と、
補正された線形予測係数を前記受信側に送信する手段と
を備えることを特徴とする音声符号化装置。
Detecting means for determining whether the signal input from the transmitter is a signal in a voice section including voice or a signal in a noise section other than the voice section;
A first speech encoder that encodes the signal of the speech interval;
A second speech encoder that encodes the signal in the noise interval ;
Means for calculating a linear prediction coefficient by performing linear prediction analysis on a signal input from the transmitter, and outputting the linear prediction coefficient, provided in the second speech encoder;
Means for correcting the linear prediction coefficient to a linear prediction coefficient such that temporal variation of the frequency characteristic is not seen in the output of the synthesis filter used on the receiving side when the detection means determines a noise interval ;
Means for transmitting the corrected linear prediction coefficient to the receiving side;
Speech coding apparatus comprising: a.
送話器から入力される信号が音声を含む音声区間の信号であるか、あるいはそれ以外の雑音区間の信号であるかを判定する検出手段と、
該音声区間の信号を符号化、又は該雑音区間の信号を符号化する音声符号化器と
該音声符号器中に設けられ、前記送話器から入力される信号を線形予測分析して線形予測係数を算出し、この線形予測係数を出力する手段と、
前記検出手段が雑音区間を判定した場合に、該線形予測係数を、受信側で使用される合成フィルタの出力においてフレーム間のスペクトルの変動が小さくなるような線形予測係数に補正する手段と、
補正された線形予測係数を前記受信側に送信する手段と
を備えることを特徴とする音声符号化装置。
Detecting means for determining whether the signal input from the transmitter is a signal in a voice section including voice or a signal in a noise section other than the voice section;
A speech encoder that encodes the signal of the speech section or encodes the signal of the noise section ;
Means for providing a linear prediction coefficient by performing linear prediction analysis on the signal input from the transmitter, and outputting the linear prediction coefficient, provided in the speech encoder;
Means for correcting the linear prediction coefficient to a linear prediction coefficient such that the fluctuation of the spectrum between frames is reduced in the output of the synthesis filter used on the receiving side when the detection means determines a noise interval ;
Means for transmitting the corrected linear prediction coefficient to the receiving side;
Speech coding apparatus comprising: a.
送話器から入力される信号が音声を含む音声区間の信号であるか、或いはそれ以外の雑音区間の信号であるかを判定するステップと、
該音声区間の信号を符号化、又は該雑音区間の信号を符号化するステップと、
前記送話器から入力される信号を線形予測分析して線形予測係数を算出し、この線形予測係数を出力するステップと、
前記雑音区間の信号を符号化する際に、該線形予測係数を、受信側で使用される合成フ
ィルタの出力において周波数特性の時間的変動が見られなくなるような線形予測係数に補正するステップと、
補正された線形予測係数を前記受信側へ送信するステップと
を有することを特徴とする音声符号化方法。
Determining whether the signal input from the transmitter is a signal in a speech section including speech or a signal in a noise section other than that,
Encoding the speech interval signal or encoding the noise interval signal;
Linear prediction analysis of the signal input from the transmitter to calculate a linear prediction coefficient, and outputting the linear prediction coefficient;
When encoding the signal in the noise interval, the linear prediction coefficient is used as a synthesis block used on the receiving side.
Correcting to a linear prediction coefficient such that temporal fluctuation of the frequency characteristic is not seen in the output of the filter;
Transmitting the corrected linear prediction coefficient to the receiving side .
送話器から入力される信号が音声を含む音声区間の信号であるか、あるいはそれ以外の雑音区間の信号であるかを判定するステップと、
該音声区間の信号を符号化、又は該雑音区間の信号を符号化するステップと、
前記送話器から入力される信号を線形予測分析して線形予測係数を算出し、この線形予測係数を出力するステップと、
前記雑音区間の信号を符号化する際に、前記線形予測係数を、受信側で使用される合成フィルタの出力においてフレーム間のスペクトルの変動が小さくなるような線形予測係数に補正するステップと、
補正された線形予測係数を前記受信側へ送信するステップと
を有することを特徴とする音声符号化方法
Determining whether the signal input from the transmitter is a signal in a speech section including speech or a signal in a noise section other than that,
Encoding the speech interval signal or encoding the noise interval signal;
Linear prediction analysis of the signal input from the transmitter to calculate a linear prediction coefficient, and outputting the linear prediction coefficient;
Correcting the linear prediction coefficient to a linear prediction coefficient that reduces the variation in the spectrum between frames at the output of the synthesis filter used on the receiving side when encoding the signal in the noise section;
Transmitting the corrected linear prediction coefficient to the receiving side;
A speech encoding method characterized by comprising:
JP2004236427A 2004-08-16 2004-08-16 Speech coding apparatus and method Expired - Lifetime JP3660676B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004236427A JP3660676B2 (en) 2004-08-16 2004-08-16 Speech coding apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004236427A JP3660676B2 (en) 2004-08-16 2004-08-16 Speech coding apparatus and method

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2002333492A Division JP2003216197A (en) 2002-11-18 2002-11-18 Speech decoding device and its method

Publications (2)

Publication Number Publication Date
JP2004355020A JP2004355020A (en) 2004-12-16
JP3660676B2 true JP3660676B2 (en) 2005-06-15

Family

ID=34056470

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004236427A Expired - Lifetime JP3660676B2 (en) 2004-08-16 2004-08-16 Speech coding apparatus and method

Country Status (1)

Country Link
JP (1) JP3660676B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115188388B (en) * 2022-07-11 2024-05-17 北京百瑞互联技术股份有限公司 Audio post-filtering method, device, storage medium and equipment

Also Published As

Publication number Publication date
JP2004355020A (en) 2004-12-16

Similar Documents

Publication Publication Date Title
JP3102015B2 (en) Audio decoding method
JP4275855B2 (en) Decoding method and system with adaptive postfilter
JP4218134B2 (en) Decoding apparatus and method, and program providing medium
JP4464488B2 (en) Speech decoding apparatus, code error compensation method, speech decoding method
US7636055B2 (en) Signal decoding apparatus and signal decoding method
US9232323B2 (en) Hearing aid with audio codec and method
JP3568255B2 (en) Audio coding apparatus and method
JP3522012B2 (en) Code Excited Linear Prediction Encoder
KR20070028373A (en) Audio/music decoding device and audio/music decoding method
US6047253A (en) Method and apparatus for encoding/decoding voiced speech based on pitch intensity of input speech signal
JPH06202696A (en) Speech decoding device
JP3483853B2 (en) Application criteria for speech coding
JP3936370B2 (en) Speech decoding apparatus and method
JPWO2007043643A1 (en) Speech coding apparatus, speech decoding apparatus, speech coding method, and speech decoding method
JP3660676B2 (en) Speech coding apparatus and method
JP3817562B2 (en) Speech decoding apparatus and method
JP3936369B2 (en) Speech decoding apparatus and method
JP3571709B2 (en) Audio coding apparatus and method
JP2003216197A (en) Speech decoding device and its method
JP3785363B2 (en) Audio signal encoding apparatus, audio signal decoding apparatus, and audio signal encoding method
JP4238535B2 (en) Code conversion method and apparatus between speech coding and decoding systems and storage medium thereof
JP3896654B2 (en) Audio signal section detection method and apparatus
JP3350340B2 (en) Voice coding method and voice decoding method
JP4764956B1 (en) Speech coding apparatus and speech coding method
JPH07143075A (en) Voice coding communication system and device therefor

Legal Events

Date Code Title Description
A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20040922

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040929

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20041101

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050124

A072 Dismissal of procedure [no reply to invitation to correct request for examination]

Free format text: JAPANESE INTERMEDIATE CODE: A072

Effective date: 20050125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050317

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080325

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090325

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100325

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100325

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110325

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110325

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120325

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130325

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140325

Year of fee payment: 9

EXPY Cancellation because of completion of term