JPH11119798A - Method of encoding speech and device therefor, and method of decoding speech and device therefor - Google Patents

Method of encoding speech and device therefor, and method of decoding speech and device therefor

Info

Publication number
JPH11119798A
JPH11119798A JP9285458A JP28545897A JPH11119798A JP H11119798 A JPH11119798 A JP H11119798A JP 9285458 A JP9285458 A JP 9285458A JP 28545897 A JP28545897 A JP 28545897A JP H11119798 A JPH11119798 A JP H11119798A
Authority
JP
Japan
Prior art keywords
section
encoding
background noise
speech
input signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9285458A
Other languages
Japanese (ja)
Other versions
JP4230550B2 (en
Inventor
Kazuyuki Iijima
和幸 飯島
Masayuki Nishiguchi
正之 西口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP28545897A priority Critical patent/JP4230550B2/en
Publication of JPH11119798A publication Critical patent/JPH11119798A/en
Application granted granted Critical
Publication of JP4230550B2 publication Critical patent/JP4230550B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To generate background noise with unnatural feeling relaxed by using encoded data by outputting plural kinds of parameters after a predetermined time in a speech encoding process when a judgment result shows background noise section. SOLUTION: An input signal judgment device 21 judges whether an input signal supplied from an input terminal 1 and converted into a digital signal by an A/D converter 10, is voice sound V or unvoiced sound UV or background noise in a predetermined time section. And, an idVUV parameter is outputted which shows the result of V/UV judgment such as '0' presenting unvoiced sound, '1' presenting background noise, '2' presenting 1st voiced sound or '3' presenting 2nd second voiced sound. When a voice encoding device 20 grasps from the judgment result in this input judgment part 21, namely, the idVUV parameter that the input signal is a background noise section, the voice encoding device 20 outputs plural kinds of parameters for UV after a predetermined time.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、有声音又は無声音
区間に分けられる音声信号区間と、背景雑音区間からな
る入力信号を、各区間の判定結果に基づいた可変レート
で符号化する音声符号化方法及び装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to voice coding for coding an input signal comprising a voice signal section divided into a voiced sound section or an unvoiced sound section and a background noise section at a variable rate based on the determination result of each section. Method and apparatus.

【0002】また、本発明は、上記音声符号化方法及び
装置によって符号化された符号化データを復号化する音
声復号化方法及び装置に関する。
[0002] The present invention also relates to a speech decoding method and apparatus for decoding coded data encoded by the above speech encoding method and apparatus.

【0003】[0003]

【従来の技術】近年、伝送路を必要とする通信分野にお
いては、伝送帯域の有効利用を実現するために、伝送し
ようとする入力信号の種類、例えば有声音又は無声音区
間に分けられる音声信号区間と、背景雑音区間のような
種類によって、符号化レートを可変してから伝送するこ
とが考えられるようになった。
2. Description of the Related Art In recent years, in a communication field requiring a transmission line, in order to realize effective use of a transmission band, a type of an input signal to be transmitted, for example, a voice signal section divided into a voiced sound or an unvoiced sound section. According to such a type as a background noise section, it has been considered that the transmission is performed after changing the coding rate.

【0004】例えば、背景雑音区間と判断されると、符
号化パラメータを全く送らずに、復号化装置側では、特
に背景雑音を生成することをせずに、単にミュートする
ことが考えられた。
[0004] For example, if it is determined that the background noise section is present, it has been considered that the decoding apparatus does not transmit any coding parameter and simply mutes the image without generating background noise.

【0005】しかし、これでは通信相手が音声を発して
いればその音声には背景雑音が乗っているが、音声を発
しないときには突然無音になってしまうことになるので
不自然な通話となってしまう。
[0005] However, in this case, if the communication partner is making a voice, the voice has background noise, but if the voice is not made, the voice suddenly becomes silent. I will.

【0006】そのため、可変レートコーデックにおいて
は、背景雑音区間として判断されると符号化のパラメー
タのいくつかを送らずに、復号化装置側では過去のパラ
メータを繰り返し用いて背景雑音を生成するということ
を行っていた。
For this reason, in the variable rate codec, if it is determined that the background noise section is present, some of the coding parameters are not sent, and the decoding apparatus generates background noise by repeatedly using past parameters. Had gone.

【0007】[0007]

【発明が解決しようとする課題】ところで、上述したよ
うに、過去のパラメータをそのまま繰り返し用いると、
雑音自体がピッチを持つような印象を受け、不自然な雑
音になることが多い。これは、レベルなどを変えても、
線スペクトル対(LSP)パラメータが同じである限り
起こってしまう。
As described above, when the past parameters are repeatedly used as they are,
The noise itself has the impression of having a pitch, and often results in unnatural noise. This means that even if you change the level,
This happens as long as the line spectrum pair (LSP) parameters are the same.

【0008】他のパラメータを乱数等で変えるようにし
ても、LSPパラメータが同一であると、不自然な感じ
を与えてしまう。
Even if other parameters are changed by random numbers or the like, if the LSP parameters are the same, an unnatural feeling is given.

【0009】本発明は、上記実情に鑑みてなされたもの
であり、可変レート符号化を効率良く実現する音声符号
化方法及び装置の提供を目的とする。
SUMMARY OF THE INVENTION The present invention has been made in view of the above circumstances, and has as its object to provide a speech encoding method and apparatus for efficiently implementing variable rate encoding.

【0010】また、本発明は、上記実情に鑑みてなされ
たものであり、可変レート符号化を実現する音声符号化
方法及び装置により符号化された符号化データを用い
て、背景雑音を不自然感を緩和して生成できる音声復号
化方法及び装置の提供を目的とする。
Further, the present invention has been made in view of the above-mentioned circumstances, and uses a coded data coded by a voice coding method and apparatus for realizing variable rate coding to reduce background noise. It is an object of the present invention to provide a speech decoding method and apparatus capable of generating a sound with reduced feeling.

【0011】[0011]

【課題を解決するための手段】本発明に係る音声符号化
方法は、有声音又は無声音区間に分けられる音声信号区
間と、背景雑音区間からなる入力信号を、各区間の判定
結果に基づいた可変レートで符号化する音声符号化方法
であって、上記課題を解決するために、上記入力信号を
時間軸上で所定の符号化単位で区分して各符号化単位で
符号化を行って複数種類の音声符号化パラメータを出力
する音声符号化工程を備え、上記音声符号化工程は、上
記判定結果が上記背景雑音区間を示すときには、所定時
間をおいて上記複数種類のパラメータを出力する。
SUMMARY OF THE INVENTION A speech encoding method according to the present invention is characterized in that an input signal consisting of a speech signal section divided into a voiced sound section or an unvoiced sound section, and an input signal comprising a background noise section is variable based on the judgment result of each section. A speech encoding method for encoding at a rate, wherein in order to solve the above-described problem, the input signal is divided into predetermined encoding units on a time axis and encoded in each encoding unit to perform a plurality of types. And outputting the plurality of types of parameters after a predetermined time when the determination result indicates the background noise section.

【0012】ここで、上記音声符号化工程は、上記各区
間の判定結果を基本パラメータとして上記所定時間中に
も常に出力する。
Here, in the voice encoding step, the determination result of each section is always output as a basic parameter even during the predetermined time.

【0013】また、上記音声符号化工程は、入力信号の
短期予測残差を求める短期予測残差算出工程と、求めら
れた短期予測残差をサイン波分析符号化するサイン波分
析符号化工程又は上記入力信号を波形符号化により符号
化する波形符号化工程とを備えてなる。
Further, the speech encoding step includes a short-term prediction residual calculating step of obtaining a short-term prediction residual of the input signal, a sine wave analysis encoding step of performing a sine wave analysis encoding of the obtained short-term prediction residual, or And a waveform encoding step of encoding the input signal by waveform encoding.

【0014】また、上記音声信号区間が有声音であると
きには上記サイン波分析符号化工程により、無声音であ
るときには上記波形符号化工程により上記入力信号を符
号化する。
When the voice signal section is voiced, the input signal is coded by the sine wave analysis coding step, and when the voice signal section is unvoiced, the input signal is coded by the waveform coding step.

【0015】また、上記音声符号化工程は、上記背景雑
音区間中、又は1フレーム前が背景雑音区間であるとき
には上記短期予測残差算出工程にて差分量子化を行わな
い。
Further, in the speech encoding step, when the background noise section is within the background noise section or one frame before is the background noise section, difference quantization is not performed in the short-term prediction residual calculation step.

【0016】本発明に係る音声符号化装置は、有声音又
は無声音区間に分けられる音声信号区間と、背景雑音区
間からなる入力信号を、各区間の判定結果に基づいた可
変レートで符号化する音声符号化装置であって、上記課
題を解決するために、上記入力信号を時間軸上で所定の
符号化単位で区分して各符号化単位で符号化を行って複
数種類の音声符号化パラメータを出力する音声符号化手
段を備え、上記音声符号化手段は、上記判定結果が上記
背景雑音区間を示すときには、所定時間をおいて上記複
数種類のパラメータを出力する。
A speech encoding apparatus according to the present invention is a speech encoding apparatus for encoding an input signal consisting of a speech signal section divided into a voiced sound section or an unvoiced sound section and a background noise section at a variable rate based on the determination result of each section. In the encoding device, in order to solve the above-described problem, the input signal is divided into predetermined coding units on the time axis, and the coding is performed in each coding unit to perform a plurality of types of speech coding parameters. And a speech encoding unit that outputs the plurality of types of parameters after a predetermined time when the determination result indicates the background noise section.

【0017】本発明に係る音声復号化方法は、有声音又
は無声音区間に分けられる音声信号区間と、背景雑音区
間からなる入力信号を、各区間の判定結果に基づいた可
変レートにより符号化して伝送されてきた音声符号化デ
ータを復号化する音声復号化方法であって、上記課題を
解決するために、上記背景雑音区間中には、所定時間を
おいて伝送されてきた複数種類のパラメータを用いて上
記背景雑音を生成すると共に、上記所定時間中には過去
に送られたパラメータを用いて上記背景雑音を生成す
る。
In the speech decoding method according to the present invention, an input signal consisting of a speech signal section divided into a voiced sound section or an unvoiced sound section and an input signal comprising a background noise section is encoded and transmitted at a variable rate based on a result of determination of each section. A speech decoding method for decoding speech encoded data that has been performed. In order to solve the above-described problem, during the background noise section, a plurality of types of parameters transmitted at predetermined time intervals are used. The background noise is generated using the parameters transmitted in the past during the predetermined time.

【0018】このため、過去の例えば線形予測符号化パ
ラメータをそのまま繰り返し使用することがなく、さら
に過去に送られた線形予測符号化パラメータと補間しな
がら使うので、背景雑音の不自然感を緩和できる。
For this reason, the past, for example, the linear prediction coding parameter is not used repeatedly as it is, but is used while interpolating with the linear prediction coding parameter sent in the past, so that the unnatural feeling of the background noise can be reduced. .

【0019】ここで、上記音声符号化データは、入力音
声信号の短期予測残差を求める短期予測残差算出工程
と、求められた短期予測残差をサイン波分析符号化する
サイン波分析符号化工程又は上記入力音声信号を波形符
号化工程により符号化する波形符号化工程とを備えてな
る音声符号化工程により生成されている。
The speech coded data includes a short-term prediction residual calculation step for obtaining a short-term prediction residual of the input speech signal, and a sine-wave analysis coding for performing sine-wave analysis coding on the obtained short-term prediction residual. And a waveform encoding step of encoding the input audio signal by a waveform encoding step.

【0020】また、上記音声符号化データは、上記音声
信号区間が有声音であるときには上記サイン波分析符号
化工程により、無声音であるときには上記波形符号化工
程により符号化されている。
The coded voice data is coded by the sine wave analysis coding step when the voice signal section is voiced, and is coded by the waveform coding step when the voice signal section is unvoiced.

【0021】また、上記所定時間中に背景雑音を生成す
るのに用いる過去のパラメータは、上記短期予測残差算
出工程が算出した少なくとも短期予測符号化係数である
することのできる。
The past parameter used to generate background noise during the predetermined time may be at least a short-term prediction coding coefficient calculated by the short-term prediction residual calculation step.

【0022】また、上記所定時間をおいて伝送されてき
た複数種類のパラメータ中の上記波形符号化工程からの
符号化出力の前回の値との差に応じて上記背景雑音を生
成する。ここで、上記波形符号化工程からの符号化出力
は、短期予測符号化係数に基づいたゲインインデックス
である。
Further, the background noise is generated in accordance with a difference between a previous value of an encoded output from the waveform encoding step and a previous value of the plurality of types of parameters transmitted at the predetermined time. Here, the encoded output from the waveform encoding step is a gain index based on the short-term predicted encoding coefficient.

【0023】本発明に係る音声復号化装置は、有声音又
は無声音区間に分けられる音声信号区間と、背景雑音区
間からなる入力信号を、各区間の判定結果に基づいた可
変レートにより符号化して伝送されてきた音声符号化デ
ータを復号化する音声復号化装置であって、上記課題を
解決するために、上記背景雑音区間中には、所定時間を
おいて伝送されてきた複数種類のパラメータを用いて上
記背景雑音を生成すると共に、上記所定時間中には過去
に送られたパラメータを用いて上記背景雑音を生成する
音声復号化手段を備える。
The speech decoding apparatus according to the present invention encodes an audio signal section divided into a voiced sound section or an unvoiced sound section and an input signal composed of a background noise section at a variable rate based on the determination result of each section and transmits the encoded signal. A speech decoding device for decoding encoded speech encoded data, wherein in order to solve the above-mentioned problem, during the background noise section, a plurality of types of parameters transmitted at predetermined time intervals are used. Speech decoding means for generating the background noise by using the parameters transmitted in the past during the predetermined time.

【0024】このため、過去の例えば線形予測符号化パ
ラメータをそのまま繰り返し使用することがなく、さら
に過去に送られた線形予測符号化パラメータと補間しな
がら使うので、背景雑音の不自然感を緩和できる。
For this reason, the past, for example, the linear prediction coding parameter is not repeatedly used as it is, but is used while interpolating with the linear prediction coding parameter sent in the past, so that the unnatural feeling of the background noise can be reduced. .

【0025】[0025]

【発明の実施の形態】以下、本発明に係る音声符号化方
法及び装置、並びに音声復号化方法及び装置の実施の形
態について説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS The embodiments of the speech encoding method and apparatus and speech decoding method and apparatus according to the present invention will be described below.

【0026】この実施の形態は、本発明に係る音声符号
化方法及び装置、並びに音声復号化方法及び装置を図1
に示すように、音声符号化装置20、並びに音声復号化
装置31として用いた携帯電話装置である。
In this embodiment, a speech encoding method and apparatus and a speech decoding method and apparatus according to the present invention are shown in FIG.
As shown in FIG. 1, a mobile phone device used as a voice encoding device 20 and a voice decoding device 31.

【0027】この携帯電話装置において、本発明に係る
音声符号化方法を適用した音声符号化装置20は、有声
音(Voiced:V)又は無声音(UnVoiced:UV)区間に
分けられる音声信号区間と、背景雑音(Back grand noi
ze:BGN)区間からなる入力信号を、各区間の判定結
果に基づいた可変レートで符号化する音声符号化装置で
あり、上記入力信号を時間軸上で所定の符号化単位で区
分して各符号化単位で符号化を行って複数種類の音声符
号化パラメータを出力する。
In this portable telephone device, the speech encoding apparatus 20 to which the speech encoding method according to the present invention is applied includes a speech signal section divided into a voiced (Voiced: V) or unvoiced (UnVoiced: UV) section; Background noise (Back grand noi
ze: BGN) is a speech encoding apparatus that encodes an input signal composed of sections at a variable rate based on the determination result of each section. Encoding is performed in units of encoding, and a plurality of types of speech encoding parameters are output.

【0028】この音声符号化装置20は、上記判定結果
が上記背景雑音区間を示すときには、所定時間をおいて
上記複数種類のパラメータを出力する。なお、上記判定
結果を示すパラメータについては、基本パラメータ或い
はモードビットとして上記所定時間中にも常に出力す
る。
When the determination result indicates the background noise section, the speech coding apparatus 20 outputs the plurality of types of parameters after a predetermined time. The parameter indicating the determination result is always output as a basic parameter or a mode bit even during the predetermined time.

【0029】ここで、入力信号が有声音(V)又は無声
音(UV)区間であるか、又は背景雑音(BGN)区間
であるかは、入力信号判定部21が判定する。
Here, the input signal determination section 21 determines whether the input signal is a voiced (V) or unvoiced (UV) section or a background noise (BGN) section.

【0030】すなわち、この入力信号判定装置21は、
入力端子1から供給され、A/D変換器10でディジタ
ル信号に変換された入力信号が、所定時間区間で有声音
(V)、又は無声音(UV)であるか、又は背景雑音
(BGN)であるかを判定する。そして、上記無声音で
あることを示す“0”、上記背景雑音であることを示す
“1”、第1有声音であることを示す“2”、又は第2
有声音であることを示す“3”というV/UV判定の結
果を示すidVUVパラメータを出力する。このidVUVパラメ
ータは、上述したように基本パラメータ或いはモードビ
ットとされて、上記所定時間中にも常に出力される。
That is, the input signal determination device 21
An input signal supplied from the input terminal 1 and converted to a digital signal by the A / D converter 10 is a voiced sound (V), an unvoiced sound (UV), or a background noise (BGN) in a predetermined time interval. It is determined whether there is. Then, "0" indicating the unvoiced sound, "1" indicating the background noise, "2" indicating the first voiced sound, or the second.
An idVUV parameter indicating the result of the V / UV determination “3” indicating voiced sound is output. The idVUV parameter is set as a basic parameter or a mode bit as described above, and is always output even during the predetermined time.

【0031】この入力信号判定部21での判定結果、す
なわちidVUVパラメータにより、入力信号が背景雑音区
間であることを音声符号化装置20が把握すると、この
音声符号化装置20は、所定時間をおいて、後述するU
V用の複数種類のパラメータを出力する。
When the speech coder 20 recognizes that the input signal is in the background noise section based on the result of the determination by the input signal determiner 21, that is, the idVUV parameter, the speech coder 20 waits for a predetermined time. And U
A plurality of types of parameters for V are output.

【0032】また、この携帯電話装置において、本発明
に係る音声復号化方法を適用した音声復号化装置31
は、有声音又は無声音区間に分けられる音声信号区間
と、背景雑音区間からなる入力信号を、各区間の判定結
果に基づいた可変レートにより符号化して伝送されてき
た音声符号化データを復号化する音声復号化装置であ
り、上記背景雑音区間中には、所定時間をおいて伝送さ
れてきた複数種類のパラメータを用いて上記背景雑音を
生成すると共に、上記所定時間中には過去に送られたパ
ラメータを用いて上記背景雑音を生成する。
In this portable telephone device, a speech decoding apparatus 31 to which the speech decoding method according to the present invention is applied.
Encodes an input signal consisting of a voice signal section divided into a voiced sound section or an unvoiced sound section and an input signal consisting of a background noise section at a variable rate based on the determination result of each section and decodes the transmitted voice coded data. A speech decoding device, wherein during the background noise section, the background noise is generated using a plurality of types of parameters transmitted at a predetermined time, and the background noise is transmitted in the past during the predetermined time. The background noise is generated using parameters.

【0033】また、この携帯電話装置は、送信時には、
マイクロホン1から入力された音声信号を、A/D変換
器10によりディジタル信号に変換し、音声符号化装置
20により上記idVUVパラメータに基づいた可変レート
の符号化を施し、伝送路符号化器22により伝送路の品
質が音声品質に影響を受けにくいように符号化した後、
変調器23で変調し、送信機24で出力ビットに送信処
理を施し、アンテナ共用器25を通して、アンテナ26
から送信する。
In addition, this portable telephone device, when transmitting,
The audio signal input from the microphone 1 is converted into a digital signal by the A / D converter 10, subjected to variable rate encoding based on the idVUV parameter by the audio encoding device 20, and transmitted by the transmission line encoder 22. After encoding so that the quality of the transmission path is not affected by the voice quality,
The signal is modulated by the modulator 23, the output bit is subjected to transmission processing by the transmitter 24, and transmitted to the antenna 26 through the antenna duplexer 25.
Send from.

【0034】また、受信時には、アンテナ26で捉えた
電波を、アンテナ共用器25を通じて受信機27で受信
し、復調器29で復調し、伝送路復号化器30で伝送路
誤りを訂正し、音声復号化装置31で復号し、D/A変
換器32でアナログ音声信号に戻して、スピーカ33か
ら出力する。
At the time of reception, the radio wave captured by the antenna 26 is received by the receiver 27 through the antenna duplexer 25, demodulated by the demodulator 29, the transmission path decoder 30 corrects the transmission path error, and The signal is decoded by a decoding device 31, converted back to an analog audio signal by a D / A converter 32, and output from a speaker 33.

【0035】また、制御部34は上記各部をコントロー
ルし、シンセサイザ28は送受信周波数を送信機24、
及び受信機27に与えている。また、キーパッド35及
びLCD表示器36はマンマシンインターフェースに利
用される。
The control unit 34 controls the above units, and the synthesizer 28 controls the transmission / reception frequency by the transmitter 24,
And the receiver 27. The keypad 35 and the LCD display 36 are used for a man-machine interface.

【0036】次に、有声音又は無声音区間に分けられる
音声信号区間と、背景雑音区間からなる入力信号を、入
力信号判定部21の判定結果idVUVパラメータに基づい
て、可変レートで符号化する音声符号化装置20につい
て説明する。
Next, a speech code for encoding an input signal consisting of a speech signal section divided into a voiced sound section or an unvoiced sound section and a background noise section at a variable rate based on the judgment result idVUV parameter of the input signal judgment section 21. The chemical conversion device 20 will be described.

【0037】先ず、可変レートエンコードを説明してお
く。LSP量子化インデクス、及び励起パラメータイン
デクスは、以下の表1に示すように、idVUV判定パラメ
ータが“1”の背景雑音のときには、1フレーム20ms
ec当たり0ビットにしてしまう。idVUV判定パラメータ
が“0”の無声音、“2,3”の有声音のときには、そ
のまま20mseec当たり18ビット、及び20ビットとす
る。これにより可変レートエンコードが実現できる。
First, the variable rate encoding will be described. As shown in Table 1 below, the LSP quantization index and the excitation parameter index are 20 ms per frame when the idVUV determination parameter is “1” for background noise.
0 bits per ec. When the idVUV determination parameter is an unvoiced sound of “0” and a voiced sound of “2, 3”, the bits are directly set to 18 bits and 20 bits per 20 mseec. Thereby, variable rate encoding can be realized.

【0038】[0038]

【表1】 [Table 1]

【0039】ここで、idVUV判定パラメータの内の、V
/UV判定出力となる2ビットは、常に符号化されてい
る。なお、無声音時の励起パラメータインデクスとして
は、後述する雑音符号帳のコードブックのシェイプイン
デクスと、ゲインインデクスが挙げられる。
Here, V in the idVUV determination parameter
Two bits serving as the / UV determination output are always encoded. The excitation parameter index at the time of unvoiced sound includes a shape index of a codebook of a random codebook described later and a gain index.

【0040】この音声符号化装置の構成を図2、図3に
示す。図2の音声符号化装置20の基本的な考え方は、
入力音声信号の短期予測残差例えばLPC(線形予測符
号化)残差を求めてサイン波分析(sinusoidal analysi
s )符号化、例えばハーモニックコーディング(harmon
ic coding )を行う第1の符号化部110と、入力音声
信号に対して位相伝送を行う波形符号化により符号化す
る第2の符号化部120とを有し、入力信号の有声音
(V:Voiced)の部分の符号化には第1の符号化部11
0を用い、入力信号の無声音(UV:Unvoiced)の部分
の符号化には第2の符号化部120を用いるようにする
ことである。
FIGS. 2 and 3 show the configuration of this speech coding apparatus. The basic concept of the speech encoding device 20 in FIG.
Sine wave analysis (sinusoidal analysis) is performed by obtaining a short-term prediction residual of the input speech signal, for example, an LPC (linear predictive coding) residual.
s) coding, for example harmonic coding (harmon coding)
ic coding), and a second encoding unit 120 that encodes the input audio signal by waveform encoding that performs phase transmission on the input audio signal. : Voiced) is encoded by the first encoding unit 11
The second encoding unit 120 is used to encode the unvoiced (UV) portion of the input signal using 0.

【0041】上記第1の符号化部110には、例えばL
PC残差をハーモニック符号化やマルチバンド励起(M
BE)符号化のようなサイン波分析符号化を行う構成が
用いられる。上記第2の符号化部120には、例えば合
成による分析法を用いて最適ベクトルのクローズトルー
プサーチによるベクトル量子化を用いた符号励起線形予
測(CELP)符号化の構成が用いられる。
The first encoding unit 110 has, for example, L
Harmonic coding and multi-band excitation (M
A configuration for performing sine wave analysis encoding such as BE) encoding is used. The second encoding unit 120 employs, for example, a configuration of code excitation linear prediction (CELP) encoding using vector quantization by closed-loop search for an optimal vector using an analysis method based on synthesis.

【0042】図2の例では、入力端子101に供給され
た音声信号が、第1の符号化部110のLPC逆フィル
タ111及びLPC分析・量子化部113に送られてい
る。LPC分析・量子化部113で得られたLPC係数
あるいはいわゆるαパラメータは、LPC逆フィルタ1
11に送られて、このLPC逆フィルタ111により入
力音声信号の線形予測残差(LPC残差)が取り出され
る。また、LPC分析・量子化部113からは、後述す
るようにLSP(線スペクトル対)の量子化出力が取り
出され、これが出力端子102に送られる。LPC逆フ
ィルタ111からのLPC残差は、サイン波分析符号化
部114に送られる。サイン波分析符号化部114で
は、ピッチ検出やスペクトルエンベロープ振幅計算が行
われると共に、上記入力信号判定部21と同一構成の入
力信号判定部115により入力信号の上記idVUVパラメ
ータが求められる。サイン波分析符号化部114からの
スペクトルエンベロープ振幅データはベクトル量子化部
116に送られる。スペクトルエンベロープのベクトル
量子化出力としてのベクトル量子化部116からのコー
ドブックインデクスは、スイッチ117を介して出力端
子103に送られ、サイン波分析符号化部114からの
ピッチ出力は、スイッチ118を介して出力端子104
に送られる。また、入力信号判定部115からのidVUV
判定パラメータ出力は出力端子105に送られると共
に、スイッチ117、118及び図3に示すスイッチ1
19の制御信号に使われる。スイッチ117、118
は、上記制御信号により有声音(V)のとき上記インデ
クス及びピッチを選択して各出力端子103及び104
からそれぞれ出力する。
In the example of FIG. 2, the audio signal supplied to the input terminal 101 is sent to the LPC inverse filter 111 and the LPC analysis / quantization unit 113 of the first encoding unit 110. The LPC coefficient or the so-called α parameter obtained by the LPC analysis / quantization unit 113 is
The LPC inverse filter 111 extracts the linear prediction residual (LPC residual) of the input audio signal. Also, a quantized output of an LSP (line spectrum pair) is extracted from the LPC analysis / quantization unit 113 and sent to the output terminal 102 as described later. The LPC residual from LPC inverse filter 111 is sent to sine wave analysis encoding section 114. In the sine wave analysis coding unit 114, pitch detection and spectrum envelope amplitude calculation are performed, and the idVUV parameter of the input signal is obtained by the input signal determination unit 115 having the same configuration as the input signal determination unit 21. The spectrum envelope amplitude data from the sine wave analysis encoding unit 114 is sent to the vector quantization unit 116. The codebook index from the vector quantization unit 116 as the vector quantization output of the spectrum envelope is sent to the output terminal 103 via the switch 117, and the pitch output from the sine wave analysis encoding unit 114 is sent via the switch 118. Output terminal 104
Sent to Also, idVUV from the input signal determination unit 115
The judgment parameter output is sent to the output terminal 105, and the switches 117 and 118 and the switch 1 shown in FIG.
Used for 19 control signals. Switches 117, 118
Selects the index and the pitch when the voiced sound (V) is received by the control signal, and selects the output terminals 103 and 104
Output from each.

【0043】また、上記ベクトル量子化部116でのベ
クトル量子化の際には、例えば、周波数軸上の有効帯域
1ブロック分の振幅データに対して、ブロック内の最後
のデータからブロック内の最初のデータまでの値を補間
するようなダミーデータ,又は最後のデータ及び最初の
データを延長するようなダミーデータを最後と最初に適
当な数だけ付加してデータ個数をNF 個に拡大した後、
帯域制限型のOS 倍(例えば8倍)のオーバーサンプリ
ングを施すことによりOS 倍の個数の振幅データを求
め、このOS 倍の個数((mMX+1)×OS 個)の振幅
データを直線補間してさらに多くのNM 個(例えば20
48個)に拡張し、このNM 個のデータを間引いて上記
一定個数M(例えば44個)のデータに変換した後、ベ
クトル量子化している。
In the vector quantization performed by the vector quantization unit 116, for example, the amplitude data of one effective band on the frequency axis is compared with the first data in the block from the last data in the block. dummy data as to interpolate values up to data, or the last data and the first data of the last and first added by an appropriate number of data number of dummy data as to extend the after expanding the N F ,
Obtain an amplitude data of O S times the number by performing oversampling O S times the band-limited (e.g., 8 times), amplitude data of O S times the number ((m MX +1) × O S pieces) Is linearly interpolated into N M more (eg, 20
48), the N M pieces of data are thinned out, converted into the above-mentioned fixed number M (for example, 44 pieces), and then vector-quantized.

【0044】図2の第2の符号化部120は、この例で
はCELP(符号励起線形予測)符号化構成を有してお
り、雑音符号帳121からの出力を、重み付きの合成フ
ィルタ122により合成処理し、得られた重み付き音声
を減算器123に送り、入力端子101に供給された音
声信号を聴覚重み付けフィルタ125を介して得られた
音声との誤差を取り出し、この誤差を距離計算回路12
4に送って距離計算を行い、誤差が最小となるようなベ
クトルを雑音符号帳121でサーチするような、合成に
よる分析(Analysis by Synthesis )法を用いたクロー
ズドループサーチを用いた時間軸波形のベクトル量子化
を行っている。このCELP符号化は、上述したように
無声音部分の符号化に用いられており、雑音符号帳12
1からのUVデータとしてのコードブックインデクス
は、上記入力信号判定部115からのidVUV判定パラメ
ータが無声音(UV)のときオンとなるスイッチ127
を介して、出力端子107より取り出される。
The second encoding unit 120 in FIG. 2 has a CELP (Code Excitation Linear Prediction) encoding configuration in this example, and outputs the output from the noise codebook 121 using a weighted synthesis filter 122. The synthesized voice signal is sent to the subtractor 123, and the audio signal supplied to the input terminal 101 is extracted from the audio signal obtained through the auditory weighting filter 125. 12
4 to calculate the distance, and search for a vector that minimizes the error in the noise codebook 121 by using a closed-loop search using an analysis by synthesis method. Vector quantization is performed. This CELP coding is used for coding the unvoiced sound portion as described above,
The codebook index as UV data from No. 1 is turned on when the idVUV determination parameter from the input signal determination unit 115 is unvoiced (UV).
Through the output terminal 107.

【0045】また、スイッチ127の制御信号となるid
VUV判定パラメータが“1”となり入力信号が背景雑音
信号であると判定したときには、所定時間、例えば8フ
レーム分の時間をおいて無声音時の複数のパラメータ、
例えば雑音符号帳121からのUVデータとしてのシェ
イプインデクスやゲインインデクスを送る。
Further, id which is a control signal for the switch 127
When the VUV determination parameter is “1” and the input signal is determined to be a background noise signal, a plurality of parameters at the time of unvoiced sound after a predetermined time, for example, 8 frames,
For example, a shape index or a gain index as UV data from the noise codebook 121 is sent.

【0046】次に、上記図2に示した音声信号符号化装
置のより具体的な構成について、図3を参照しながら説
明する。なお、図3において、上記図2の各部と対応す
る部分には同じ指示符号を付している。
Next, a more specific configuration of the audio signal encoding apparatus shown in FIG. 2 will be described with reference to FIG. In FIG. 3, parts corresponding to the respective parts in FIG. 2 are denoted by the same reference numerals.

【0047】この図3に示された音声信号符号化装置に
おいて、入力端子101に供給された音声信号は、ハイ
パスフィルタ(HPF)109にて不要な帯域の信号を
除去するフィルタ処理が施された後、LPC(線形予測
符号化)分析・量子化部113のLPC分析回路132
と、LPC逆フィルタ回路111とに送られる。
In the audio signal encoding apparatus shown in FIG. 3, the audio signal supplied to input terminal 101 has been subjected to filter processing for removing signals in unnecessary bands by high-pass filter (HPF) 109. After that, the LPC analysis circuit 132 of the LPC (linear prediction coding) analysis / quantization unit 113
To the LPC inverse filter circuit 111.

【0048】LPC分析・量子化部113のLPC分析
回路132は、入力信号波形の256サンプル程度の長
さを1ブロックとしてハミング窓をかけて、自己相関法
により線形予測係数、いわゆるαパラメータを求める。
データ出力の単位となるフレーミングの間隔は、160
サンプル程度とする。サンプリング周波数fsが例えば
8kHzのとき、1フレーム間隔は160サンプルで20
msec となる。
The LPC analysis circuit 132 of the LPC analysis / quantization unit 113 obtains a linear prediction coefficient, that is, an α parameter by an autocorrelation method by applying a Hamming window with a length of about 256 samples of the input signal waveform as one block. .
The framing interval, which is the unit of data output, is 160
Make it about a sample. When the sampling frequency fs is, for example, 8 kHz, one frame interval is 20 for 160 samples.
msec.

【0049】LPC分析回路132からのαパラメータ
は、α→LSP変換回路133に送られて、線スペクト
ル対(LSP)パラメータに変換される。これは、直接
型のフィルタ係数として求まったαパラメータを、例え
ば10個、すなわち5対のLSPパラメータに変換す
る。変換は例えばニュートン−ラプソン法等を用いて行
う。このLSPパラメータに変換するのは、αパラメー
タよりも補間特性に優れているからである。
The α parameter from the LPC analysis circuit 132 is sent to the α → LSP conversion circuit 133 and is converted into a line spectrum pair (LSP) parameter. This converts the α parameter obtained as a direct type filter coefficient into, for example, ten, ie, five pairs of LSP parameters. The conversion is performed using, for example, the Newton-Raphson method. The conversion to the LSP parameter is because it has better interpolation characteristics than the α parameter.

【0050】α→LSP変換回路133からのLSPパ
ラメータは、LSP量子化器134によりマトリクスあ
るいはベクトル量子化される。このとき、このLSP量
子化器134は、リーキングファクタを有する差分ベク
トル量子化(差分VQ)を行っても良い。差分VQの量
子化効率はマトリクス量子化(MQ)に比べると優れて
おり、また、MQのように量子化誤差が一方のフレーム
に偏ることがないため、滑らかで異音の少ない音声が得
られる。しかし、差分VQでは一度エラーが起こると、
その影響がしばらく続くので、差分のリーク量を大目に
とるようにしている。しかし、入力信号判定部115
で、背景雑音と判断されたときには、LSPは送らない
ので、LSP量子化器134では、差分量子化の一種で
ある上記差分VQを行わない。
The LSP parameters from the α → LSP conversion circuit 133 are subjected to matrix or vector quantization by the LSP quantizer 134. At this time, the LSP quantizer 134 may perform difference vector quantization (difference VQ) having a leaking factor. The quantization efficiency of the difference VQ is superior to that of the matrix quantization (MQ), and since the quantization error is not biased to one frame as in the case of MQ, a smooth voice with less noise is obtained. . However, once an error occurs in the differential VQ,
Since the effect continues for a while, the leak amount of the difference is set to be large. However, the input signal determination unit 115
When the background noise is determined, the LSP is not transmitted, and the LSP quantizer 134 does not perform the difference VQ, which is a type of difference quantization.

【0051】このLSP量子化器134からの量子化出
力、すなわちLSP量子化のインデクスは、スイッチ1
19によって切り換えられてから、端子102を介して
取り出され、また量子化済みのLSPベクトルは、LS
P補間回路136に送られる。ここで、スイッチ119
は、上記入力信号判定部115からのidVUV判定フラグ
により切り換えが制御され、例えば有声音(V)のとき
にオンとなる。
The quantized output from the LSP quantizer 134, that is, the index of LSP quantization, is
19, and then retrieved via terminal 102 and the quantized LSP vector is LS
The signal is sent to the P interpolation circuit 136. Here, the switch 119
The switching of is controlled by the idVUV determination flag from the input signal determination unit 115, and is turned on when, for example, a voiced sound (V).

【0052】また、LSP補間回路136は、20mse
c毎に量子化されたLSPのベクトルを補間し、8倍の
レートにする。すなわち、2.5msec 毎にLSPベク
トルが更新されるようにする。これは、残差波形をハー
モニック符号化復号化方法により分析合成すると、その
合成波形のエンベロープは非常になだらかでスムーズな
波形になるため、LPC係数が20msec 毎に急激に変
化すると異音を発生することがあるからである。すなわ
ち、2.5msec 毎にLPC係数が徐々に変化してゆく
ようにすれば、このような異音の発生を防ぐことができ
る。
The LSP interpolation circuit 136 has a
The vector of the LSP quantized for each c is interpolated to make the rate 8 times. That is, the LSP vector is updated every 2.5 msec. This is because when the residual waveform is analyzed and synthesized by the harmonic encoding / decoding method, the envelope of the synthesized waveform becomes a very smooth and smooth waveform, so that an abnormal sound is generated when the LPC coefficient changes abruptly every 20 msec. This is because there are times. That is, if the LPC coefficient is gradually changed every 2.5 msec, the occurrence of such abnormal noise can be prevented.

【0053】このような補間が行われた2.5msec 毎
のLSPベクトルを用いて入力音声の逆フィルタリング
を実行するために、LSP→α変換回路137により、
LSPパラメータを例えば10次程度の直接型フィルタ
の係数であるαパラメータに変換する。このLSP→α
変換回路137からの出力は、上記LPC逆フィルタ回
路111に送られ、このLPC逆フィルタ111では、
2.5msec 毎に更新されるαパラメータにより逆フィ
ルタリング処理を行って、滑らかな出力を得るようにし
ている。このLPC逆フィルタ111からの出力は、サ
イン波分析符号化部114、具体的には例えばハーモニ
ック符号化回路、の直交変換回路145、例えばDFT
(離散フーリエ変換)回路に送られる。
In order to perform inverse filtering of the input voice using the LSP vector every 2.5 msec in which such interpolation has been performed, the LSP → α conversion circuit 137
The LSP parameter is converted into, for example, an α parameter which is a coefficient of a direct-order filter of about the tenth order. This LSP → α
The output from the conversion circuit 137 is sent to the LPC inverse filter circuit 111, where the LPC inverse filter 111
Inverse filtering is performed using the α parameter updated every 2.5 msec to obtain a smooth output. An output from the LPC inverse filter 111 is output to an orthogonal transform circuit 145 of a sine wave analysis encoding unit 114, specifically, for example, a harmonic encoding circuit, for example, a DFT.
(Discrete Fourier Transform) sent to the circuit.

【0054】LPC分析・量子化部113のLPC分析
回路132からのαパラメータは、聴覚重み付けフィル
タ算出回路139に送られて聴覚重み付けのためのデー
タが求められ、この重み付けデータが後述する聴覚重み
付きのベクトル量子化器116と、第2の符号化部12
0の聴覚重み付けフィルタ125及び聴覚重み付きの合
成フィルタ122とに送られる。
The α parameter from the LPC analysis circuit 132 of the LPC analysis / quantization unit 113 is sent to a perceptual weighting filter calculating circuit 139 to obtain data for perceptual weighting. Vector quantizer 116 and the second encoding unit 12
0 and a synthesis filter 122 with a perceptual weight.

【0055】ハーモニック符号化回路等のサイン波分析
符号化部114では、LPC逆フィルタ111からの出
力を、ハーモニック符号化の方法で分析する。すなわ
ち、ピッチ検出、各ハーモニクスの振幅Amの算出、有
声音(V)/無声音(UV)の判別を行い、ピッチによ
って変化するハーモニクスのエンベロープあるいは振幅
Amの個数を次元変換して一定数にしている。
The sine wave analysis encoding unit 114 such as a harmonic encoding circuit analyzes the output from the LPC inverse filter 111 by a harmonic encoding method. That is, pitch detection, calculation of the amplitude Am of each harmonic, determination of voiced sound (V) / unvoiced sound (UV) are performed, and the number of the envelopes or amplitudes Am of the harmonics that change with the pitch is dimensionally converted to a constant number. .

【0056】図3に示すサイン波分析符号化部114の
具体例においては、一般のハーモニック符号化を想定し
ているが、特に、MBE(Multiband Excitation: マル
チバンド励起)符号化の場合には、同時刻(同じブロッ
クあるいはフレーム内)の周波数軸領域いわゆるバンド
毎に有声音(Voiced)部分と無声音(Unvoiced)部分と
が存在するという仮定でモデル化することになる。それ
以外のハーモニック符号化では、1ブロックあるいはフ
レーム内の音声が有声音か無声音かの択一的な判定がな
されることになる。なお、以下の説明中のフレーム毎の
V/UVとは、MBE符号化に適用した場合には全バン
ドがUVのときを当該フレームのUVとしている。ここ
で上記MBEの分析合成手法については、本件出願人が
先に提案した特願平4−91422号明細書及び図面に
詳細な具体例を開示している。
In the specific example of the sine wave analysis encoding unit 114 shown in FIG. 3, general harmonic encoding is assumed. In particular, in the case of MBE (Multiband Excitation) encoding, Modeling is performed on the assumption that a voiced portion and an unvoiced portion exist in the frequency domain at the same time (in the same block or frame), that is, for each band. In other harmonic coding, an alternative determination is made as to whether voice in one block or frame is voiced or unvoiced. In the following description, the term “V / UV for each frame” means that when all bands are UV when applied to MBE coding, the UV of the frame is used. Regarding the MBE analysis / synthesis technique, detailed specific examples are disclosed in the specification and drawings of Japanese Patent Application No. 4-91422 previously proposed by the present applicant.

【0057】図3のサイン波分析符号化部114のオー
プンループピッチサーチ部141には、上記入力端子1
01からの入力音声信号が、またゼロクロスカウンタ1
42には、上記HPF(ハイパスフィルタ)109から
の信号がそれぞれ供給されている。サイン波分析符号化
部114の直交変換回路145には、LPC逆フィルタ
111からのLPC残差あるいは線形予測残差が供給さ
れている。オープンループピッチサーチ部141では、
入力信号のLPC残差をとってオープンループによる比
較的ラフなピッチのサーチが行われ、抽出された粗ピッ
チデータは高精度ピッチサーチ146に送られて、後述
するようなクローズドループによる高精度のピッチサー
チ(ピッチのファインサーチ)が行われる。また、オー
プンループピッチサーチ部141からは、上記粗ピッチ
データと共にLPC残差の自己相関の最大値をパワーで
正規化した正規化自己相関最大値r(p) が取り出され、
入力信号判定部115に送られている。
The open-loop pitch search section 141 of the sine wave analysis encoding section 114 shown in FIG.
01 and the zero-cross counter 1
Signals from the HPF (high-pass filter) 109 are supplied to 42 respectively. The LPC residual or the linear prediction residual from the LPC inverse filter 111 is supplied to the orthogonal transform circuit 145 of the sine wave analysis encoding unit 114. In the open loop pitch search section 141,
An LPC residual of the input signal is used to perform a relatively rough pitch search by an open loop, and the extracted coarse pitch data is sent to a high-precision pitch search 146, and a high-precision closed loop as described later is used. A pitch search (fine search of the pitch) is performed. From the open loop pitch search section 141, a normalized autocorrelation maximum value r (p) obtained by normalizing the maximum value of the autocorrelation of the LPC residual with power together with the coarse pitch data is extracted.
The signal is sent to the input signal determination unit 115.

【0058】直交変換回路145では例えばDFT(離
散フーリエ変換)等の直交変換処理が施されて、時間軸
上のLPC残差が周波数軸上のスペクトル振幅データに
変換される。この直交変換回路145からの出力は、高
精度ピッチサーチ部146及びスペクトル振幅あるいは
エンベロープを評価するためのスペクトル評価部148
に送られる。
The orthogonal transform circuit 145 performs an orthogonal transform process such as DFT (Discrete Fourier Transform) to convert the LPC residual on the time axis into spectrum amplitude data on the frequency axis. An output from the orthogonal transform circuit 145 is output to a high-precision pitch search unit 146 and a spectrum evaluation unit 148 for evaluating a spectrum amplitude or an envelope.
Sent to

【0059】高精度(ファイン)ピッチサーチ部146
には、オープンループピッチサーチ部141で抽出され
た比較的ラフな粗ピッチデータと、直交変換部145に
より例えばDFTされた周波数軸上のデータとが供給さ
れている。この高精度ピッチサーチ部146では、上記
粗ピッチデータ値を中心に、0.2〜0.5きざみで±数サ
ンプルずつ振って、最適な小数点付き(フローティン
グ)のファインピッチデータの値へ追い込む。このとき
のファインサーチの手法として、いわゆる合成による分
析 (Analysis by Synthesis)法を用い、合成されたパワ
ースペクトルが原音のパワースペクトルに最も近くなる
ようにピッチを選んでいる。このようなクローズドルー
プによる高精度のピッチサーチ部146からのピッチデ
ータについては、スイッチ118を介して出力端子10
4に送っている。
High precision (fine) pitch search section 146
Is supplied with relatively rough coarse pitch data extracted by the open loop pitch search unit 141 and data on the frequency axis, for example, DFT performed by the orthogonal transform unit 145. The high-precision pitch search unit 146 oscillates ± several samples at intervals of 0.2 to 0.5 around the coarse pitch data value to drive the value of the fine pitch data with a decimal point (floating) to an optimum value. At this time, as a method of fine search, a so-called analysis by synthesis method is used, and the pitch is selected so that the synthesized power spectrum is closest to the power spectrum of the original sound. The pitch data from the high-precision pitch search unit 146 by such a closed loop is output via the switch 118 to the output terminal 10.
4

【0060】スペクトル評価部148では、LPC残差
の直交変換出力としてのスペクトル振幅及びピッチに基
づいて各ハーモニクスの大きさ及びその集合であるスペ
クトルエンベロープが評価され、高精度ピッチサーチ部
146及び聴覚重み付きのベクトル量子化器116に送
られる。
The spectrum evaluation section 148 evaluates the magnitude of each harmonic and the spectrum envelope which is a set of the harmonics based on the spectrum amplitude and the pitch as the orthogonal transform output of the LPC residual, and outputs a high-precision pitch search section 146 and a hearing weight. Is sent to the vector quantizer 116 with

【0061】入力信号判定部115は、オープンループ
ピッチサーチ部141からの正規化自己相関最大値r
(p) と、ゼロクロスカウンタ142からのゼロクロスカ
ウント値とに基づいて、当該フレームが上記有声音であ
るか、無声音であるか、あるいは背景雑音であるかの判
定を行い、上記idVUV判定パラメータを出力する。この
入力信号判定部115からの上記idVUV判定パラメータ
は、出力端子105を介して取り出されると共に、上述
したように、スイッチ119及び、スイッチ117、1
18及び127の切り換え制御信号としても用いられ
る。
The input signal determination section 115 receives the normalized autocorrelation maximum value r from the open loop pitch search section 141.
Based on (p) and the zero cross count value from the zero cross counter 142, determine whether the frame is the voiced sound, unvoiced sound, or background noise, and output the idVUV determination parameter. I do. The idVUV determination parameter from the input signal determination unit 115 is extracted via the output terminal 105 and, as described above, the switch 119, the switch 117, and the switch 117.
18 and 127 are also used as switching control signals.

【0062】ところで、スペクトル評価部148の出力
部あるいはベクトル量子化器116の入力部には、デー
タ数変換(一種のサンプリングレート変換)部が設けら
れている。このデータ数変換部は、上記ピッチに応じて
周波数軸上での分割帯域数が異なり、データ数が異なる
ことを考慮して、エンベロープの振幅データ|Am|を
一定の個数にするためのものである。すなわち、例えば
有効帯域を3400kHzまでとすると、この有効帯域が
上記ピッチに応じて、8バンド〜63バンドに分割され
ることになり、これらの各バンド毎に得られる上記振幅
データ|Am|の個数mMX+1も8〜63と変化するこ
とになる。このためデータ数変換部では、この可変個数
MX+1の振幅データを一定個数M個、例えば44個、
のデータに変換している。
Incidentally, a data number conversion (a kind of sampling rate conversion) section is provided at the output section of the spectrum evaluation section 148 or the input section of the vector quantizer 116. The number-of-data converters are used to make the amplitude data | A m | of the envelope a constant number in consideration of the fact that the number of divided bands on the frequency axis varies according to the pitch and the number of data varies. It is. That is, for example, if the effective band is up to 3400 kHz, this effective band is divided into 8 bands to 63 bands according to the pitch, and the amplitude data | A m | of each of these bands is obtained. The number m MX +1 also changes from 8 to 63. For this reason, in the data number converter, the variable number m MX +1 of amplitude data is set to a fixed number M, for example, 44,
Is converted to data.

【0063】このスペクトル評価部148の出力部ある
いはベクトル量子化器116の入力部に設けられたデー
タ数変換部からの上記一定個数M個(例えば44個)の
振幅データあるいはエンベロープデータが、ベクトル量
子化器116により、所定個数、例えば44個のデータ
毎にまとめられてベクトルとされ、重み付きベクトル量
子化が施される。この重みは、聴覚重み付けフィルタ算
出回路139からの出力により与えられる。ベクトル量
子化器116からの上記エンベロープのインデクスは、
スイッチ117を介して出力端子103より取り出され
る。なお、上記重み付きベクトル量子化に先だって、所
定個数のデータから成るベクトルについて適当なリーク
係数を用いたフレーム間差分をとっておくようにしても
よい。
The fixed number M (for example, 44) of the amplitude data or envelope data from the output unit of the spectrum evaluation unit 148 or the data number conversion unit provided at the input unit of the vector quantizer 116 is a vector quantization unit. The data is grouped into a vector by a predetermined number, for example, 44 pieces of data, and weighted vector quantization is performed. This weight is given by the output from the auditory weighting filter calculation circuit 139. The envelope index from the vector quantizer 116 is:
It is taken out from the output terminal 103 via the switch 117. Prior to the weighted vector quantization, an inter-frame difference using an appropriate leak coefficient may be calculated for a vector composed of a predetermined number of data.

【0064】次に、第2の符号化部120について説明
する。第2の符号化部120は、いわゆるCELP(符
号励起線形予測)符号化構成を有しており、特に、入力
音声信号の無声音部分の符号化のために用いられてい
る。この無声音部分用のCELP符号化構成において、
雑音符号帳、いわゆるストキャスティック・コードブッ
ク(stochastic code book)121からの代表値出力で
ある無声音のLPC残差に相当するノイズ出力を、ゲイ
ン回路126を介して、聴覚重み付きの合成フィルタ1
22に送っている。重み付きの合成フィルタ122で
は、入力されたノイズをLPC合成処理し、得られた重
み付き無声音の信号を減算器123に送っている。減算
器123には、上記入力端子101からHPF(ハイパ
スフィルタ)109を介して供給された音声信号を聴覚
重み付けフィルタ125で聴覚重み付けした信号が入力
されており、合成フィルタ122からの信号との差分あ
るいは誤差を取り出している。なお、聴覚重み付けフィ
ルタ125の出力から聴覚重み付き合成フィルタの零入
力応答を事前に差し引いておくものとする。この誤差を
距離計算回路124に送って距離計算を行い、誤差が最
小となるような代表値ベクトルを雑音符号帳121でサ
ーチする。このような合成による分析(Analysis by Sy
nthesis )法を用いたクローズドループサーチを用いた
時間軸波形のベクトル量子化を行っている。
Next, the second encoding section 120 will be described. The second encoding unit 120 has a so-called CELP (Code Excited Linear Prediction) encoding configuration, and is particularly used for encoding an unvoiced sound portion of an input audio signal. In this unvoiced CELP coding configuration,
A noise output corresponding to an LPC residual of unvoiced sound, which is a representative value output from a noise codebook, that is, a so-called stochastic codebook 121, is passed through a gain circuit 126 to a synthesis filter 1 with auditory weights.
22. The weighted synthesis filter 122 performs an LPC synthesis process on the input noise, and sends the obtained weighted unvoiced sound signal to the subtractor 123. A signal obtained by subjecting the audio signal supplied from the input terminal 101 via the HPF (high-pass filter) 109 to auditory weighting by the auditory weighting filter 125 is input to the subtractor 123, and the difference from the signal from the synthesis filter 122 is input to the subtractor 123. Alternatively, the error is extracted. It is assumed that the zero input response of the synthesis filter with auditory weight is subtracted from the output of the auditory weight filter 125 in advance. This error is sent to the distance calculation circuit 124 to calculate the distance, and a representative value vector that minimizes the error is searched in the noise codebook 121. Analysis by Sy
Vector quantization of the time axis waveform is performed using a closed loop search using the nthesis) method.

【0065】このCELP符号化構成を用いた第2の符
号化部120からのUV(無声音)部分用のデータとし
ては、雑音符号帳121からのコードブックのシェイプ
インデクスと、ゲイン回路126からのコードブックの
ゲインインデクスとが取り出される。雑音符号帳121
からのUVデータであるシェイプインデクスは、スイッ
チ127sを介して出力端子107sに送られ、ゲイン
回路126のUVデータであるゲインインデクスは、ス
イッチ127gを介して出力端子107gに送られてい
る。
The data for the UV (unvoiced sound) portion from the second encoding unit 120 using the CELP encoding configuration includes the shape index of the codebook from the noise codebook 121 and the code from the gain circuit 126. The gain index of the book is extracted. Noise codebook 121
Is sent to the output terminal 107s via the switch 127s, and the gain index which is UV data of the gain circuit 126 is sent to the output terminal 107g via the switch 127g.

【0066】ここで、これらのスイッチ127s、12
7g及び上記スイッチ117、118は、上記入力信号
判定部115からのidVUV判定パラメータによりオン/
オフ制御され、スイッチ117、118は、現在伝送し
ようとするフレームの音声信号のidVUV判定パラメータ
が有声音(V)のときオンとなり、スイッチ127s、
127gは、現在伝送しようとするフレームの音声信号
が無声音(UV)のときオンとなる。また、idVUV判定
パラメータが背景雑音を表すとき、上記スイッチ127
s、127gは、8フレーム時間毎にオンとされ、上記
シェイプインデクス、ゲインインデクスを出力する。ま
た、上記スイッチ119も8フレーム時間毎にオンとさ
れ、上記UV用のLSPインデクスを出力する。これら
が、上述したUV用の複数種類のパラメータである。
Here, these switches 127s, 12s
7g and the switches 117 and 118 are turned on / off by the idVUV determination parameter from the input signal determination unit 115.
The switches 117 and 118 are turned off when the idVUV determination parameter of the audio signal of the frame to be transmitted is voiced (V), and the switches 117 and 118 are turned on.
127g is turned on when the audio signal of the frame to be transmitted at present is unvoiced (UV). When the idVUV determination parameter indicates background noise, the switch 127 is used.
s and 127g are turned on every eight frame times, and output the shape index and the gain index. The switch 119 is also turned on every eight frame time, and outputs the UV LSP index. These are a plurality of types of parameters for UV described above.

【0067】図4には、上記入力信号判定部(図中、入
力信号判定装置と記す。)115の詳細な構成を示す。
すなわち、この入力信号判定部115は、入力端子1か
ら実効(root mean square、r.m.s)値演算部2を介し
て入力された入力信号(実効値)の最小レベルを所定時
間区間、例えば20msecで検出し、この最小レベルを保
持する最小レベル演算部4と、上記実効値演算部2から
の入力信号実効値からリファレンスレベルを演算により
求めるリファレンスレベル演算部5とを備え、最小レベ
ル演算部4からの最小レベルとリファレンスレベル演算
部5からのリファレンスレベルとに基づいて上記入力信
号が所定時間区間で有声音(Voice)、又は無声音(UnV
oice)であるか、又は背景雑音であるかを判定する。そ
して、上記無声音であることを示す“0”、上記背景雑
音であることを示す“1”、第1有声音であることを示
す“2”、又は第2有声音であることを示す“3”とい
うV/UV判定の結果を示すidVUVパラメータを出力す
る。
FIG. 4 shows a detailed configuration of the input signal determination section (referred to as an input signal determination device) 115 in the figure.
That is, the input signal determination unit 115 detects the minimum level of the input signal (effective value) input from the input terminal 1 via the effective (root mean square, rms) value calculation unit 2 in a predetermined time interval, for example, 20 msec. A minimum level calculator 4 for holding the minimum level; and a reference level calculator 5 for calculating a reference level from the effective value of the input signal from the effective value calculator 2 by calculation. Based on the minimum level and the reference level from the reference level calculation unit 5, the input signal is voiced (Voice) or unvoiced (UnV) in a predetermined time interval.
oice) or background noise. Then, “0” indicating the unvoiced sound, “1” indicating the background noise, “2” indicating the first voiced sound, or “3” indicating the second voiced sound And outputs an idVUV parameter indicating the result of the V / UV determination.

【0068】また、この入力信号判定装置21は、上記
実効値演算部2からの入力信号実効値の所定時間区間分
に対して仮に有声音(V)/無声音(UV)とを判定す
るV/UV判定部3を備え、最小レベル演算部4にV/
UV判定結果を供給する。最小レベル演算部4は、この
V/UV判定結果に基づいて上記最小レベルを演算す
る。
Further, the input signal determination device 21 temporarily determines whether the input signal effective value from the effective value calculation section 2 is voiced (V) / unvoiced (UV) for a predetermined time section. A UV judgment unit 3 is provided.
Supply UV judgment result. The minimum level calculator 4 calculates the minimum level based on the V / UV determination result.

【0069】また、V/UV判定部3からのV/UV判
定結果はパラメータ生成部8にも供給される。このパラ
メータ生成部8は、出力端子105から上記idVUVパラ
メータを出力する。
The V / UV determination result from the V / UV determination unit 3 is also supplied to the parameter generation unit 8. The parameter generator 8 outputs the idVUV parameter from the output terminal 105.

【0070】このパラメータ生成部8は、最小レベル演
算部4からの最小レベルとリファレンスレベル演算部5
からのリファレンスレベルとを比較する比較部7からの
比較結果と、上記V/UV判定部3からのV/UV判定
結果に基づいて上記idVUVパラメータを出力する。
The parameter generation unit 8 includes the minimum level from the minimum level calculation unit 4 and the reference level calculation unit 5.
The idVUV parameter is output based on the comparison result from the comparison unit 7 for comparing the reference level with the reference level and the V / UV determination result from the V / UV determination unit 3.

【0071】以下、この入力信号判定装置21の動作に
ついて説明する。例えば、走行している電車の中では、
背景雑音のレベルが高い。そこで、周りの雑音に合わせ
てしきい値(スレショルド)を決定することが望まし
い。
The operation of the input signal determination device 21 will be described below. For example, in a running train,
Background noise level is high. Therefore, it is desirable to determine the threshold value according to the surrounding noise.

【0072】そこで、上記最小レベル演算部4では、適
当な所定時間区間で一番小さいレベルを最小レベルと
し、その最小レベルを上記所定時間毎に更新していく。
Therefore, the minimum level calculating section 4 sets the smallest level in an appropriate predetermined time interval as the minimum level, and updates the minimum level every predetermined time.

【0073】図5は最小レベル演算部4のアルゴリズム
を示すフローチャートである。このフローチャートで
は、最小レベルの更新(トラッキング)を、最小レベル
候補値cdLevのセットとクリア、及び最小レベルgmlのセ
ットとクリアに大きく分けている。
FIG. 5 is a flowchart showing the algorithm of the minimum level calculation unit 4. In this flowchart, the updating (tracking) of the minimum level is roughly divided into the setting and clearing of the minimum level candidate value cdLev and the setting and clearing of the minimum level gml.

【0074】先ず、ステップS1で、V/UV判定部3
からのV/UV判定結果に基づいて有声音フレームの連
続回数vContが4より多い整数となるかを判断する。す
なわち、有声音Vと判断されたフレームが4より大きな
整数回、つまり5フレーム連続したか否かを判断する。
ここで、有声音フレームが5フレーム以上連続している
場合は、音声区間に入っていると判断し、ステップS2
に進み、最小レベル候補値cdLevをクリアする。このス
テップS2では、候補値が設定され続けた回数gmlSetSt
ateは0である。一方、ステップS1で、有声音フレー
ムの連続回数vContが4以下であると判断すると、ステ
ップS3に進む。
First, in step S1, the V / UV determination unit 3
It is determined whether or not the number of continuous voiced frame frames vCont is an integer greater than 4 based on the V / UV determination result from. That is, it is determined whether or not the frame determined to be voiced sound V is an integer number of times greater than 4, that is, five consecutive frames.
Here, when five or more voiced sound frames are continuous, it is determined that the voice section is in the voice section, and step S2 is performed.
To clear the minimum level candidate value cdLev. In this step S2, the number of times the candidate value has been set gmlSetSt
ate is 0. On the other hand, if it is determined in step S1 that the number of continuous voiced frames vCont is 4 or less, the process proceeds to step S3.

【0075】ステップS3では、現在の入力信号の実効
値演算部2を介した入力レベルlevが最小レベルの最低
値MIN_GMLより小さいか否かを判断する。ここでいう、
最小レベルの最低値MIN_GMLは、最小レベルgmlが0とな
らないように決定されている。ここで、入力レベルlev
が最小レベルの最低値MIN_GMLより小さいと判断する
と、ステップS4で上記最小レベルの最低値MIN_GMLを
最小レベルgmlとして設定する。このステップS4で
は、候補値が設定され続けた回数gmlSetStateと、最小
レベルが設定された後、候補値が設定されていない回数
gmlResetStateとは0である。一方、ステップS3で現
在の入力レベルlevは最小レベルの最低値MIN_GML以上で
あると判断するとステップS5に進む。
At step S3, it is determined whether or not the input level lev of the current input signal via the effective value calculating section 2 is smaller than the minimum value MIN_GML of the minimum level. Here,
The minimum value MIN_GML of the minimum level is determined so that the minimum level gml does not become zero. Where the input level lev
Is smaller than the minimum value MIN_GML of the minimum level, the minimum value MIN_GML of the minimum level is set as the minimum level gml in step S4. In this step S4, the number of times that the candidate value has been set, gmlSetState, and the number of times that the candidate value has not been set after the minimum level has been set
gmlResetState is 0. On the other hand, if it is determined in step S3 that the current input level lev is equal to or more than the minimum minimum value MIN_GML, the process proceeds to step S5.

【0076】ステップS5では、現在の入力レベルlev
が最小レベルgmlより小さいか否かを判断する。ここで
YESとなれば、ステップS6に進む。すなわち、この
ステップS6は、上記ステップS3の判断で現在の入力
レベルlevが最小レベルの最低値MIN_GML以上であり、さ
らに上記ステップS5で現在の入力レベルlevが最小レ
ベルgmlより小さいと判断されたときに、その入力レベ
ルlevを最小レベルgmlとして設定する。一方、このステ
ップS5で現在の入力レベルlevが最小レベルgml以上で
あると判断すると、ステップS7に進む。
In step S5, the current input level lev
Is smaller than the minimum level gml. If “YES” here, the process proceeds to a step S6. That is, in step S6, when the current input level lev is equal to or more than the minimum minimum value MIN_GML in the determination in step S3, and when the current input level lev is determined to be smaller than the minimum level gml in step S5. , The input level lev is set as the minimum level gml. On the other hand, if it is determined in step S5 that the current input level lev is equal to or higher than the minimum level gml, the process proceeds to step S7.

【0077】ステップS7では、現在の入力レベルが充
分小さいか、候補値cdLevとの変動が小さいか否かを判
断する。このステップS7では、現在の入力レベルが充
分小さいか、候補値cdLevとの変動が小さいかという判
断を、status0であるか否かで判断している。status0
は、入力レベルlevが100.0以下というように充分小さい
か、又は、入力レベルが500.0以下で候補値cdLev*0.70
より大きく、かつ候補値cdLev*1.30より小さいという
ように候補値cdLevとの変動が小さいことを表す状態で
ある。ここで、YESを選択し、現在の入力レベルが充
分小さいか、又は候補値cdLevとの変動が小さいと判断
すると、候補値cdLevが更新される。一方、NOを選択
するとステップS11に進む。
In the step S7, it is determined whether or not the current input level is sufficiently small and whether or not the fluctuation with the candidate value cdLev is small. In this step S7, it is determined whether the current input level is sufficiently small or the variation with the candidate value cdLev is small based on whether or not the status is status0. status0
Is sufficiently small such that the input level lev is 100.0 or less, or the candidate value cdLev * 0.70 when the input level is 500.0 or less.
This is a state indicating that the fluctuation from the candidate value cdLev is small, such as being larger and smaller than the candidate value cdLev * 1.30. Here, if YES is selected and it is determined that the current input level is sufficiently small or the variation from the candidate value cdLev is small, the candidate value cdLev is updated. On the other hand, if NO is selected, the process proceeds to step S11.

【0078】ステップS8では、候補値cdLevが更新さ
れ続けた回数gmlSetStateが7回以上であるか否か、す
なわち候補値cdLevの更新が7フレーム連続するか否か
を判断する。ここで、候補値cdLevの更新が7フレーム
以上連続したと判断すれば、ステップS9に進み、その
ときの入力レベルlevを最小レベルgmlとする。候補値cd
Levの更新が6フレーム以内であれば、NOとなり、ス
テップS10で入力レベルlevを候補値cdLevとする。
In step S8, it is determined whether or not the number of times gmlSetState in which the candidate value cdLev is continuously updated is 7 or more, that is, whether or not the update of the candidate value cdLev is continued for seven frames. If it is determined that the update of the candidate value cdLev has continued for seven or more frames, the process proceeds to step S9, and the input level lev at that time is set to the minimum level gml. Candidate value cd
If the update of Lev is within six frames, the result is NO, and the input level lev is set to the candidate value cdLev in step S10.

【0079】一方、ステップS7での判断でNOとなっ
た後に進んだステップS11では、1フレーム過去の入
力レベルprevLevと現在の入力レベルlevの変動が小さい
か否かを判断する。この1フレーム過去の入力レベルpr
evLevと現在の入力レベルlevの変動が小さいか否かの判
断は、status1であるか否かの判断で行っている。stat
us1は、現在の入力レベルlevが100.0以下というように
充分小さいか、又は現在の入力レベルlevが500.0以下で
1フレーム過去の入力レベルprevLev*0.70より大き
く、かつ1フレーム過去の入力レベルprevLev*1.30よ
り小さいというように1フレーム過去の入力レベルprev
Levとの変動が小さいことを表す状態である。ここで、
YESを選択し、現在の入力レベルが充分小さいか、又
は1フレーム過去の入力レベルと現在の入力レベルの変
動が小さい場合には、ステップS12に進み、現在の入
力レベルlevを最小レベル候補値cdLevに設定する。一
方、ステップS11で現在の入力レベルが小さくない
か、又は1フレーム過去の入力レベルと現在の入力レベ
ルの変動が小さくないと判断すると、ステップS13に
進む。
On the other hand, in step S11, which proceeds after the determination in step S7 is NO, it is determined whether or not the change between the input level prevLev one frame before and the current input level lev is small. Input level pr one frame before
The determination as to whether or not the fluctuation between evLev and the current input level lev is small is made by determining whether or not the status is status1. stat
us1 is sufficiently small such that the current input level lev is equal to or less than 100.0, or is larger than the input level prevLev * 0.70 in the past one frame when the current input level lev is 500.0 or less and the input level prevLev * 1.30 in the past one frame Input level prev one frame past, such as less than
This is a state indicating that the fluctuation from Lev is small. here,
If YES is selected and the current input level is sufficiently small or the change between the input level one frame past and the current input level is small, the process proceeds to step S12, where the current input level lev is set to the minimum level candidate value cdLev. Set to. On the other hand, if it is determined in step S11 that the current input level is not low or that the change between the input level one frame past and the current input level is not small, the process proceeds to step S13.

【0080】ステップS13では、最小レベルが設定さ
れた後、候補値が設定されていない回数gmlResetState
が40より大きいか否かを判断する。ここで、NOとな
り候補値が設定されていない回数gmlResetStateが40
以下であるときには、ステップS14で最小レベル候補
値cdLevをクリアし、予め定めた最小値をセットする。
一方ここで、YESとなり、候補値が設定されていない
回数gmlResetStateが40回を越えていると判断する
と、ステップS15に進み、最小レベルgmlは最小レベ
ルの最低値MIN_GMLに設定される。
In step S13, after the minimum level is set, the number of times no candidate value is set gmlResetState
Is greater than 40. Here, the result is NO and the number of times the candidate value has not been set gmlResetState is 40
If not, the minimum level candidate value cdLev is cleared in step S14, and a predetermined minimum value is set.
On the other hand, if "YES" here, and it is determined that the number of times gmlResetState in which no candidate value has been set exceeds 40, the process proceeds to step S15, and the minimum level gml is set to the minimum value MIN_GML of the minimum level.

【0081】以上のように最小レベルはある時間保持さ
れ、順次更新される。
As described above, the minimum level is held for a certain period of time and is sequentially updated.

【0082】次に、リファレンスレベル演算部5の動作
について図6を用いて説明する。このリファレンスレベ
ル演算部5は、リファレンスレベルrefLevを次の(1)
式で算出する。
Next, the operation of the reference level calculator 5 will be described with reference to FIG. The reference level calculation unit 5 converts the reference level refLev into the following (1)
It is calculated by the formula.

【0083】 refLev=A×max(lev,refLev)+(1.0−A)×min(lev,refLev) ・・・(1) この(1)式において、入力端子6から与えるA=0.
75としたときの入力レベルlevとリファレンスレベルr
efLevとの関係を図6に示す。リファレンスレベルrefLe
vは、立ち上がりは入力レベルlevと同様に立ち上がる
が、立ち下がりでは緩やかに減少していく。このため、
上記リファレンスレベルを用いることで、音声信号区間
において、瞬間的にたまたまレベルが下がった状態を背
景雑音区間として判定してしまうことを防いでいる。こ
のように、リファレンスレベル演算部5は、瞬間的なレ
ベル変動に対してもある程度余裕を持たせるような滑ら
かなレベルを演算する。
RefLev = A × max (lev, refLev) + (1.0−A) × min (lev, refLev) (1) In the equation (1), A = 0.
Input level lev and reference level r when 75
FIG. 6 shows the relationship with efLev. Reference level refLe
v rises at the rising edge like the input level lev, but gradually decreases at the falling edge. For this reason,
By using the reference level, it is possible to prevent a state in which the level is instantaneously lowered in the audio signal section from being determined as a background noise section. As described above, the reference level calculation unit 5 calculates a smooth level that allows a certain margin even for an instantaneous level change.

【0084】比較部7は、最小レベル演算部4からの最
小レベルに所定の定数Bを掛けたB×gmlと上記リファ
レンスレベル演算部5からのリファレンスレベルrefLev
とを比較する。そして、その比較結果は、パラメータ生
成部8に送られる。
The comparison unit 7 calculates B × gml obtained by multiplying the minimum level from the minimum level calculation unit 4 by a predetermined constant B and the reference level refLev from the reference level calculation unit 5.
Compare with Then, the comparison result is sent to the parameter generation unit 8.

【0085】パラメータ生成部8は、V/UV判定部3
での判定結果により、Vと判定されたフレームについて
は、上記(1)式に示したリファレンスレベルrefLevが
最小レベルgmlのB倍より小さいか否かを調べ、小さい
ときには背景雑音区間と判断する。ただし、過去のV/
UV判断を調べ、Vのフレームが2フレーム以上連続し
ている場合は音声区間が始まっているものとし、背景雑
音区間と判断することはない。すなわち、現在のフレー
ムがVと判断されたときは、過去Vフレームが連続して
いるかを調べ、連続している場合には背景雑音モードに
入らない。これは、Vフレームが連続しているときに背
景雑音モードに入ると不連続感が生じるためである。
The parameter generation unit 8 includes the V / UV determination unit 3
With respect to the frame determined to be V according to the determination result in step (1), it is checked whether or not the reference level refLev shown in the above equation (1) is smaller than B times the minimum level gml. However, past V /
The UV judgment is checked, and when two or more V frames are continuous, it is assumed that the voice section has started, and no judgment is made as a background noise section. That is, when it is determined that the current frame is V, it is checked whether or not the past V frames are continuous, and if it is continuous, the apparatus does not enter the background noise mode. This is because if the background noise mode is entered while V frames are continuous, a sense of discontinuity occurs.

【0086】また、パラメータ生成部8は、V/UV判
定部3からの判定結果がUVと判定されたフレームにつ
いては、Vの場合と同様に、リファレンスレベルrefLev
が最小レベルgmlのB倍より小さいかを調べ、この条件
を4回満たした場合、背景雑音区間と判断する。すなわ
ち、UVと判断された場合は、4フレーム連続で上記条
件を満たした後、背景雑音区間と判断する。
The parameter generation unit 8 sets the reference level refLev for the frame whose determination result from the V / UV determination unit 3 is determined to be UV, as in the case of V.
Is smaller than B times the minimum level gml, and if this condition is satisfied four times, it is determined to be a background noise section. In other words, when it is determined that the condition is UV, the condition is satisfied for four consecutive frames, and then the background noise section is determined.

【0087】なお、上記Bは適当な定数であり、ここで
は2.0と定める。また、このような定数とせずに入力
レベルlevの分散に比例した量とすることも考えられ
る。
Note that B is an appropriate constant, and is set to 2.0 here. It is also conceivable to use an amount proportional to the variance of the input level lev instead of such a constant.

【0088】そして、パラメータ生成部8は、出力端子
105からidVUVパラメータを出力する。
Then, the parameter generator 8 outputs the idVUV parameter from the output terminal 105.

【0089】このようにして、入力信号判定装置21
は、最小レベルgmlを更新しながら、それを元に音声信
号区間と背景雑音区間とのしきい値(スレショルド)gm
l×Bを変化できるので、このスレショルドgml×Bとリ
ファレンスレベルrefLevを比較することにより音声信号
区間と背景雑音区間との高精度な区別を可能とする。
As described above, the input signal judging device 21
Updates the minimum level gml, and based on that, the threshold gm between the audio signal section and the background noise section
Since l × B can be changed, by comparing the threshold gml × B with the reference level refLev, it is possible to distinguish the speech signal section from the background noise section with high accuracy.

【0090】ここで、図1に戻る。音声復号化装置31
は、他の携帯電話装置の上記音声符号化装置20により
可変レート符号化された上記符号化データをアンテナ2
6、アンテナ共用器25、受信機27、復調器29及び
伝送路復号化器30を介して受け取り、復号化する。
Now, return to FIG. Voice decoding device 31
Transmits the coded data variable-rate coded by the voice coding device 20 of another mobile phone device to the antenna 2
6. The signal is received and decoded through the antenna duplexer 25, the receiver 27, the demodulator 29 and the transmission path decoder 30.

【0091】この音声復号化装置31は、上述したよう
に、音声符号化装置20から上記所定時間中にも常に伝
送されてくるidVUV判定パラメータに基づいて、上記符
号化データを復号化する。特に、idVUV判定パラメータ
が背景雑音区間を示す“1”であれば、8フレーム分を
おいて伝送されてきた上記複数種類のパラメータ、例え
ば雑音符号帳のシェイプインデクスや、ゲインインデク
ス、又はLSPパラメータを用いて、背景雑音を生成す
ると共に、8フレーム中では過去に送られてきた線スペ
クトル対(LSP)パラメータを補間して上記背景雑音
を生成する。
As described above, the speech decoding device 31 decodes the coded data based on the idVUV determination parameter which is always transmitted from the speech encoding device 20 during the predetermined time. In particular, if the idVUV determination parameter is “1” indicating a background noise section, the plurality of types of parameters transmitted at intervals of eight frames, for example, a shape index of a noise codebook, a gain index, or an LSP parameter are used. In addition to generating background noise, the background noise is generated by interpolating a line spectrum pair (LSP) parameter transmitted in the past in eight frames.

【0092】実際に、音声復号化装置31では、常に、
前回送られたLSP(prevLsp1)と前々回送られたLS
P(prevLsp2)を、例えばRAM内に保持している。
Actually, in the speech decoding device 31, always,
LSP sent last time (prevLsp1) and LS sent two times before
P (prevLsp2) is held in, for example, a RAM.

【0093】そして、上記idVUV判定パラメータが背景
雑音モードに入ると、新たなLSPは送られてこないの
で、prevLsp1、prevLsp2の更新を行ず、この二つのLS
Pを線形補間することにより、現在のフレームのLSP
とし、背景雑音を形成する。
When the idVUV determination parameter enters the background noise mode, no new LSP is sent, so that prevLsp1 and prevLsp2 are updated, and the two LSs are updated.
By linearly interpolating P, the LSP of the current frame
To form background noise.

【0094】背景雑音モード中、8フレーム目に通常の
UVとして音声符号化装置側からUVの全パラメータが
送られてくるが、このときゲイン回路126からのゲイ
ンインデクスを調べ、インデックスが前回送られたイン
デックス+2より小さければ、そのフレームの合成に用
いるLSPを前回送られたパラメータに置き換える。こ
の動作については後述する。ただし、ゲインインデクス
は小さい順にソートされているものとする。
In the background noise mode, all the UV parameters are sent from the speech coding apparatus side as normal UV in the eighth frame. At this time, the gain index from the gain circuit 126 is checked, and the index is sent last time. If the index is smaller than the index +2, the LSP used for synthesizing the frame is replaced with the previously transmitted parameter. This operation will be described later. However, it is assumed that the gain indexes are sorted in ascending order.

【0095】このような音声復号化装置31の構成を図
7及び図8に示す。図7は、音声復号化装置31の基本
構成を示すブロック図である。
FIG. 7 and FIG. 8 show the configuration of such a speech decoding device 31. FIG. 7 is a block diagram showing a basic configuration of the audio decoding device 31.

【0096】この図7において、入力端子202には上
記図2の出力端子102からの上記LSP(線スペクト
ル対)の量子化出力としてのコードブックインデクスが
入力される。入力端子203、204、及び205に
は、上記図2の各出力端子103、104、及び105
からの各出力、すなわちエンベロープ量子化出力として
のインデクス、ピッチ、及びV/UV判定出力がそれぞ
れ入力される。また、入力端子207には、上記図2の
出力端子107からのUV(無声音)用のデータとして
のインデクスが入力される。
In FIG. 7, a codebook index as a quantized output of the LSP (line spectrum pair) from the output terminal 102 of FIG. 2 is input to an input terminal 202. The input terminals 203, 204, and 205 include the output terminals 103, 104, and 105 of FIG.
, That is, an index, a pitch, and a V / UV determination output as an envelope quantization output. An index as UV (unvoiced sound) data from the output terminal 107 in FIG. 2 is input to the input terminal 207.

【0097】入力端子203からのエンベロープ量子化
出力としてのインデクスは、逆ベクトル量子化器212
に送られて逆ベクトル量子化され、LPC残差のスペク
トルエンベロープが求められて有声音合成部211に送
られる。有声音合成部211は、サイン波合成により有
声音部分のLPC(線形予測符号化)残差を合成するも
のであり、この有声音合成部211には入力端子204
及び205からのピッチ及びidVUV判定パラメータも供
給されている。有声音合成部211からの有声音のLP
C残差は、LPC合成フィルタ214に送られる。ま
た、入力端子207からのUVデータのインデクスは、
無声音合成部220に送られて、雑音符号帳を参照する
ことにより無声音部分のLPC残差が取り出される。こ
のLPC残差もLPC合成フィルタ214に送られる。
LPC合成フィルタ214では、上記有声音部分のLP
C残差と無声音部分のLPC残差とがそれぞれ独立に、
LPC合成処理が施される。あるいは、有声音部分のL
PC残差と無声音部分のLPC残差とが加算されたもの
に対してLPC合成処理を施すようにしてもよい。ここ
で入力端子202からのLSPのインデクスは、LPC
パラメータ再生部213に送られて、LPCのαパラメ
ータが取り出され、これがLPC合成フィルタ214に
送られる。LPC合成フィルタ214によりLPC合成
されて得られた音声信号は、出力端子201より取り出
される。
The index as the envelope quantization output from the input terminal 203 is calculated by the inverse vector quantizer 212.
, And is subjected to inverse vector quantization, and the spectrum envelope of the LPC residual is obtained and sent to the voiced sound synthesis unit 211. The voiced sound synthesizer 211 synthesizes an LPC (linear predictive coding) residual of the voiced sound part by sine wave synthesis.
And 205 and the pitch and idVUV determination parameters are also provided. LP of voiced sound from voiced sound synthesizer 211
The C residual is sent to LPC synthesis filter 214. The index of the UV data from the input terminal 207 is
It is sent to the unvoiced sound synthesis unit 220, and the LPC residual of the unvoiced sound portion is extracted by referring to the noise codebook. This LPC residual is also sent to the LPC synthesis filter 214.
In the LPC synthesis filter 214, the LP of the voiced sound portion is
The C residual and the LPC residual of the unvoiced part are independent of each other,
An LPC synthesis process is performed. Alternatively, the voiced sound portion L
LPC synthesis processing may be performed on the sum of the PC residual and the LPC residual of the unvoiced sound portion. Here, the index of the LSP from the input terminal 202 is LPC
The parameter is sent to the parameter reproducing unit 213 to extract the α parameter of the LPC, which is sent to the LPC synthesis filter 214. An audio signal obtained by LPC synthesis by the LPC synthesis filter 214 is extracted from the output terminal 201.

【0098】ここで、入力端子205に供給されたidVU
V判定パラメータと入力端子207に供給された上記U
Vデータとしての雑音符号帳のシェイプインデクス及び
ゲインインデクスは、上記LPCパラメータ生成部21
3でのLPCパラメータの再生を制御するLPCパラメ
ータ再生制御部240に送られる。
Here, idVU supplied to the input terminal 205
V judgment parameter and the above U supplied to the input terminal 207
The shape index and the gain index of the random codebook as V data are obtained by the LPC parameter generation unit 21.
3 is transmitted to the LPC parameter reproduction control section 240 which controls the reproduction of the LPC parameter.

【0099】このLPC再生制御部240により制御さ
れ、LPCパラメータ再生部213は、背景雑音信号生
成用のLPCを生成し、LPC合成フィルタ214に送
る。
The LPC reproduction section 213 controls the LPC reproduction section 240 to generate an LPC for generating a background noise signal and sends it to the LPC synthesis filter 214.

【0100】次に、図8は、上記図7に示した音声復号
化装置31のより具体的な構成を示している。この図8
において、上記図7の各部と対応する部分には、同じ指
示符号を付している。
Next, FIG. 8 shows a more specific configuration of the speech decoding device 31 shown in FIG. This FIG.
In FIG. 7, portions corresponding to the respective portions in FIG. 7 are denoted by the same reference numerals.

【0101】この図8において、入力端子202には、
上記図2、3の出力端子102からの出力に相当するL
SPのベクトル量子化出力、いわゆるコードブックのイ
ンデクスが供給されている。
In FIG. 8, an input terminal 202 has
L corresponding to the output from the output terminal 102 in FIGS.
An SP vector quantization output, a so-called codebook index, is supplied.

【0102】このLSPのインデクスは、LPCパラメ
ータ再生部213のLSPの逆ベクトル量子化器231
に送られてLSP(線スペクトル対)データに逆ベクト
ル量子化され、スイッチ243を介してLSP補間回路
232、233に送られてLSPの補間処理が施された
後、LSP→α変換回路234、235でLPC(線形
予測符号)のαパラメータに変換され、このαパラメー
タがLPC合成フィルタ214に送られる。ここで、L
SP補間回路232及びLSP→α変換回路234は有
声音(V)用であり、LSP補間回路233及びLSP
→α変換回路235は無声音(UV)用である。またL
PC合成フィルタ214は、有声音部分のLPC合成フ
ィルタ236と、無声音部分のLPC合成フィルタ23
7とを分離している。すなわち、有声音部分と無声音部
分とでLPCの係数補間を独立に行うようにして、有声
音から無声音への遷移部や、無声音から有声音への遷移
部で、全く性質の異なるLSP同士を補間することによ
る悪影響を防止している。
The index of this LSP is calculated by the inverse vector quantizer 231 of the LSP of the LPC parameter reproducing unit 213.
Is subjected to inverse vector quantization into LSP (line spectrum pair) data, sent to LSP interpolation circuits 232 and 233 via a switch 243, and subjected to LSP interpolation processing. At 235, the parameter is converted to an α parameter of LPC (linear prediction code), and the α parameter is sent to the LPC synthesis filter 214. Where L
The SP interpolation circuit 232 and the LSP → α conversion circuit 234 are for voiced sound (V), and the LSP interpolation circuit 233 and the LSP
→ The α conversion circuit 235 is for unvoiced sound (UV). Also L
The PC synthesis filter 214 includes an LPC synthesis filter 236 for a voiced portion and an LPC synthesis filter 23 for an unvoiced portion.
7 is separated. That is, LPC coefficient interpolation is performed independently for voiced and unvoiced parts, and LSPs having completely different properties are interpolated between the transition from voiced to unvoiced and the transition from unvoiced to voiced. To prevent the adverse effects of doing so.

【0103】また、図8の入力端子203には、上記図
2、図3のエンコーダ側の端子103からの出力に対応
するスペクトルエンベロープ(Am)の重み付けベクト
ル量子化されたコードインデクスデータが供給され、入
力端子204には、上記図2、図3の端子104からの
ピッチのデータが供給され、入力端子205には、上記
図2、図3の端子105からのidVUV判定パラメータが
供給されている。
The input terminal 203 shown in FIG. 8 is supplied with the code index data obtained by quantizing the weight of the spectral envelope (Am) corresponding to the output from the terminal 103 on the encoder side shown in FIGS. , Input terminal 204 is supplied with pitch data from terminal 104 in FIGS. 2 and 3, and input terminal 205 is supplied with idVUV determination parameters from terminal 105 in FIGS. 2 and 3. .

【0104】入力端子203からのスペクトルエンベロ
ープAmのベクトル量子化されたインデクスデータは、
逆ベクトル量子化器212に送られて逆ベクトル量子化
が施され、上記データ数変換に対応する逆変換が施され
て、スペクトルエンベロープのデータとなって、有声音
合成部211のサイン波合成回路215に送られてい
る。
The vector-quantized index data of the spectral envelope Am from the input terminal 203 is
The data is sent to the inverse vector quantizer 212, subjected to inverse vector quantization, subjected to an inverse transform corresponding to the above-described data number conversion, becomes spectral envelope data, and becomes a sine wave synthesizing circuit of the voiced sound synthesizer 211. 215.

【0105】なお、エンコード時にスペクトルのベクト
ル量子化に先だってフレーム間差分をとっている場合に
は、ここでの逆ベクトル量子化後にフレーム間差分の復
号を行ってからデータ数変換を行い、スペクトルエンベ
ロープのデータを得る。
If the inter-frame difference is obtained prior to the vector quantization of the spectrum at the time of encoding, the inter-frame difference is decoded after the inverse vector quantization here, the number of data is converted, and the spectrum envelope is converted. To get the data.

【0106】サイン波合成回路215には、入力端子2
04からのピッチ及び入力端子205からの上記idVUV
判定パラメータが供給されている。サイン波合成回路2
15からは、上述した図2、図3のLPC逆フィルタ1
11からの出力に相当するLPC残差データが取り出さ
れ、これが加算器218に送られている。このサイン波
合成の具体的な手法については、例えば本件出願人が先
に提案した、特願平4−91422号の明細書及び図
面、あるいは特願平6−198451号の明細書及び図
面に開示されている。
The sine wave synthesis circuit 215 has an input terminal 2
04 and the idVUV from input terminal 205
Judgment parameters are supplied. Sine wave synthesis circuit 2
15, the LPC inverse filter 1 shown in FIGS.
LPC residual data corresponding to the output from 11 is extracted and sent to the adder 218. The specific method of the sine wave synthesis is disclosed in, for example, the specification and drawings of Japanese Patent Application No. 4-91422 or the specification and drawings of Japanese Patent Application No. 6-198451, which were previously proposed by the present applicant. Have been.

【0107】また、逆ベクトル量子化器212からのエ
ンベロープのデータと、入力端子204、205からの
ピッチ、idVUV判定パラメータとは、有声音(V)部分
のノイズ加算のためのノイズ合成回路216に送られて
いる。このノイズ合成回路216からの出力は、重み付
き重畳加算回路217を介して加算器218に送ってい
る。これは、サイン波合成によって有声音のLPC合成
フィルタへの入力となるエクサイテイション(Excitati
on:励起、励振)を作ると、男声等の低いピッチの音で
鼻づまり感がある点、及びV(有声音)とUV(無声
音)とで音質が急激に変化し不自然に感じる場合がある
点を考慮し、有声音部分のLPC合成フィルタ入力すな
わちエクサイテイションについて、音声符号化データに
基づくパラメータ、例えばピッチ、スペクトルエンベロ
ープ振幅、フレーム内の最大振幅、残差信号のレベル等
を考慮したノイズをLPC残差信号の有声音部分に加え
ているものである。
The envelope data from the inverse vector quantizer 212, the pitches from the input terminals 204 and 205, and the idVUV determination parameter are sent to the noise synthesis circuit 216 for adding noise in the voiced (V) portion. Has been sent. The output from the noise synthesis circuit 216 is sent to an adder 218 via a weighted superposition addition circuit 217. This is an excitation (Excitati) which is input to the LPC synthesis filter of voiced sound by sine wave synthesis.
When on (excitation, excitation) is made, there is a case where a low pitch sound such as a male voice has a feeling of stuffy nose, and the sound quality suddenly changes between V (voiced sound) and UV (unvoiced sound) and feels unnatural. Considering a certain point, the LPC synthesis filter input of the voiced sound portion, that is, the excitation, was considered in consideration of parameters based on the speech coded data, for example, pitch, spectrum envelope amplitude, maximum amplitude in a frame, residual signal level, and the like. Noise is added to the voiced portion of the LPC residual signal.

【0108】加算器218からの加算出力は、LPC合
成フィルタ214の有声音用の合成フィルタ236に送
られてLPCの合成処理が施されることにより時間波形
データとなり、さらに有声音用ポストフィルタ238v
でフィルタ処理された後、加算器239に送られる。
The added output from the adder 218 is sent to the voiced sound synthesis filter 236 of the LPC synthesis filter 214 and subjected to LPC synthesis processing to become time waveform data, and further to the voiced sound post filter 238v.
, And sent to the adder 239.

【0109】次に、図8の入力端子207s及び207
gには、上記図3の出力端子107s及び107gから
のUVデータとしてのシェイプインデクス及びゲインイ
ンデクスがそれぞれ供給され、無声音合成部220に送
られている。端子207sからのシェイプインデクス
は、無声音合成部220の雑音符号帳221に、端子2
07gからのゲインインデクスはゲイン回路222にそ
れぞれ送られている。雑音符号帳221から読み出され
た代表値出力は、無声音のLPC残差に相当するノイズ
信号成分であり、これがゲイン回路222で所定のゲイ
ンの振幅となり、窓かけ回路223に送られて、上記有
声音部分とのつなぎを円滑化するための窓かけ処理が施
される。
Next, the input terminals 207s and 207 of FIG.
The shape index and the gain index as UV data from the output terminals 107 s and 107 g in FIG. 3 are supplied to g, and are sent to the unvoiced sound synthesis unit 220. The shape index from the terminal 207s is stored in the noise codebook 221 of the unvoiced sound synthesizer 220 in the terminal 2
The gain index from 07g is sent to the gain circuit 222, respectively. The representative value output read from the noise codebook 221 is a noise signal component corresponding to the LPC residual of the unvoiced sound. The noise signal component has an amplitude of a predetermined gain in the gain circuit 222 and is sent to the windowing circuit 223. A windowing process is performed to smooth the connection with the voiced sound portion.

【0110】窓かけ回路223からの出力は、無声音合
成部220からの出力として、LPC合成フィルタ21
4のUV(無声音)用の合成フィルタ237に送られ
る。合成フィルタ237では、LPC合成処理が施され
ることにより無声音部分の時間波形データとなり、この
無声音部分の時間波形データは無声音用ポストフィルタ
238uでフィルタ処理された後、加算器239に送ら
れる。
The output from the windowing circuit 223 is output from the unvoiced sound synthesis section 220 as the LPC synthesis filter 21.
4 is sent to the synthesis filter 237 for UV (unvoiced sound). The synthesis filter 237 performs LPC synthesis processing to obtain unvoiced sound time waveform data. The unvoiced sound time waveform data is filtered by the unvoiced sound post filter 238u, and then sent to the adder 239.

【0111】加算器239では、有声音用ポストフィル
タ238vからの有声音部分の時間波形信号と、無声音
用ポストフィルタ238uからの無声音部分の時間波形
データとが加算され、出力端子201より取り出され
る。
In the adder 239, the time waveform signal of the voiced sound portion from the voiced sound post filter 238v and the time waveform data of the unvoiced sound portion from the unvoiced sound post filter 238u are added, and the result is taken out from the output terminal 201.

【0112】また、LPCパラメータ再生部213内部
には、背景雑音信号生成用に用いられるLPCパラメー
タを再生するためのLSP補間回路245と、LSP→
α変換回路247も上記スイッチ243の後段に設けら
れている。さらに、上記LSPの逆量子化器231によ
り得られた上記prevLSP1とprevLSP2を保持しておくため
のRAM244と、8フレームの間隔があいている上記
prevLSP1とprevLSP2との補間をフレーム間隔に補正する
ためのフレーム補間部245も備えている。
Further, inside the LPC parameter reproducing section 213, an LSP interpolation circuit 245 for reproducing the LPC parameter used for generating the background noise signal, and an LSP →
The α conversion circuit 247 is also provided after the switch 243. Further, a RAM 244 for holding the prevLSP1 and prevLSP2 obtained by the inverse quantizer 231 of the LSP is provided with a RAM 244 having an interval of 8 frames.
A frame interpolation unit 245 for correcting interpolation between prevLSP1 and prevLSP2 to a frame interval is also provided.

【0113】LSP→α変換回路247からのBGN用の
αパラメータは、LPC合成フィルタ214の無声音部
分のLPC合成フィルタ237に送られる。
The α parameter for BGN from the LSP → α conversion circuit 247 is sent to the LPC synthesis filter 237 of the unvoiced sound portion of the LPC synthesis filter 214.

【0114】また、上記LPCパラメータ再生制御部2
40は、入力端子207gからの上記UVデータ用のゲ
インインデスクが、前回送られたインデックス+2より
小さいか否かを判定するインデックス判定部242と、
このインデクス判定部242からの判定結果と上記入力
端子205から供給されるidVUV判定パラメータとに基
づいて上記スイッチ243の切り換えを制御する切り換
え制御部241とを備えてなる。
Further, the LPC parameter reproduction control unit 2
40, an index determination unit 242 that determines whether the gain desk for the UV data from the input terminal 207g is smaller than the previously transmitted index +2,
A switching control unit 241 for controlling switching of the switch 243 based on the determination result from the index determining unit 242 and the idVUV determination parameter supplied from the input terminal 205 is provided.

【0115】上記idVUV判定パラメータが1であると
き、すなわち背景雑音区間であることを示す上記基本パ
ラメータとなるモードビットを受信したときのこの音声
復号化装置31の動作を、図9に示すフローチャートを
用いて説明する。
FIG. 9 is a flowchart showing the operation of the speech decoding apparatus 31 when the idVUV determination parameter is 1, that is, when a mode bit serving as the basic parameter indicating a background noise section is received. It will be described using FIG.

【0116】先ず、ステップS21でidVUV判定パラメ
ータが1であるとき、LPCパラメータ再生制御部24
0の切り換え制御部241は、切り換えスイッチ243
をオフにする。そして、ステップS22に進み、LSP
補間回路246で上記RAM244に保持されたPrevLS
P1とPrevLSP2をフレーム補間回路245を通して得た
フレーム毎の直線補間値を使ってBGN用のLSPを求め
る。そして、このBGN用のLSPは、UV用の合成フィル
タ237に供給され、背景雑音が合成される。
First, when the idVUV determination parameter is 1 in step S21, the LPC parameter reproduction control unit 24
0 switch control unit 241
Turn off. Then, the process proceeds to step S22, where the LSP
PrevLS held in the RAM 244 by the interpolation circuit 246
An LSP for BGN is obtained by using a linear interpolation value for each frame obtained from P1 and PrevLSP2 through the frame interpolation circuit 245. Then, the LSP for BGN is supplied to the UV synthesis filter 237, and background noise is synthesized.

【0117】なお、音声符号化装置20からは、背景雑
音区間と判断されたフレームが連続8フレームとなる
と、次の9フレーム目は通常のUVデータ用のシェイプ
インデクス、ゲインインデクス及びLSPパラメータが
送られてくる。ここで、音声符号化装置20では、9フ
レーム目に本当にidVUV判定パラメータがUVになるこ
とがないとは限らない。そこで、音声復号化装置31側
では、本当のUV用データなのか、あるいは単に9フレ
ーム目に送られたUV用の全パラメータなのかを判断す
る必要がある。
Note that, when the number of frames determined to be a background noise section becomes eight consecutive frames, the speech encoding apparatus 20 transmits the shape index, gain index, and LSP parameter for normal UV data in the next ninth frame. Come. Here, in the speech encoding device 20, the idVUV determination parameter does not always become UV at the ninth frame. Therefore, it is necessary for the audio decoding device 31 to determine whether the data is true UV data or simply all the UV parameters sent in the ninth frame.

【0118】そこで、LPCパラメータ再生制御部24
0では、ステップS23でidVUV=0であるとき、ス
テップS24に進み、インデクス判定部242により入
力端子207gを介して送られてきたUVデータ用のゲ
インインデクスを調べ、ステップS26のルーティンの
処理か、ステップS27の本来のUVの処理かを判断す
る。具体的には、上述したように、入力端子207gか
らの上記UVデータ用のゲインインデスクが、前回送ら
れたインデクス+2より小さいか否かを判定する。9フ
レーム目に送られてきたUVデータ用のインデクスが音
声としてのUV用インデクスであれば前回送られたゲイ
ンインデクスのパラメータよりも大きいはずである。
Therefore, the LPC parameter reproduction control unit 24
In step S23, when idVUV = 0 in step S23, the process proceeds to step S24, in which the index determination unit 242 checks the gain index for the UV data transmitted via the input terminal 207g, and determines whether the routine process in step S26 is performed. It is determined whether the processing is the original UV processing in step S27. Specifically, as described above, it is determined whether or not the gain index for the UV data from the input terminal 207g is smaller than the previously transmitted index +2. If the UV data index sent in the ninth frame is a UV index as audio, it should be larger than the parameter of the gain index sent last time.

【0119】ステップS24で上記ゲインインデクスが
前回送られてきたインデクス+2より小さいとなれば、
これは9フレーム目に送られたUVデータ用の、すなわ
ちルーティン用のデータであると判断し、ステップS2
6に進み、切り換え制御部241により、スイッチ24
3をLSP補間回路246側に接続し、上記PrevLSP1
とPrevLSP2を用いた直線補間により求めた値に変えて、
UV用に送られたLSP逆量子化部231からのLSP
パラメータをLSP補間回路246に供給する。LSP
補間回路246では、このアップデートされたLSPパ
ラメータを、そのままLSP→α変換回路247に供給
する。そして、LSP→α変換回路247からのBGN用
のαパラメータは、LPC合成フィルタ214の無声音
部分のLPC合成フィルタ237に送られ、9フレーム
目には8フレーム間の背景雑音とは異なった背景雑音が
得られることになる。このため、背景雑音の不自然さを
緩和することができる。
If the gain index is smaller than the previously transmitted index +2 in step S24,
This is determined to be the data for the UV data sent in the ninth frame, that is, the data for the routine, and step S2
6 and the switching control unit 241
3 is connected to the LSP interpolation circuit 246 side, and the PrevLSP1
And the value obtained by linear interpolation using PrevLSP2,
LSP sent from LSP inverse quantization unit 231 for UV
The parameters are supplied to the LSP interpolation circuit 246. LSP
The interpolation circuit 246 supplies the updated LSP parameter to the LSP → α conversion circuit 247 as it is. Then, the BGN α parameter from the LSP → α conversion circuit 247 is sent to the LPC synthesis filter 237 of the unvoiced sound portion of the LPC synthesis filter 214, and the ninth frame has a different background noise from the background noise between the eight frames. Is obtained. For this reason, the unnaturalness of the background noise can be reduced.

【0120】また、ステップS24で上記ゲインインデ
クスが前回送られてきたインデクス+2以上より大きい
となれば、これは9フレーム目に送られてきたのは、本
当のUV用のパラメータであると判断し、ステップS2
7に進む。ステップS27では、切り換え制御部241
がスイッチ243をUV用のLSP補間回路233に切
り換えて、通常のUV用のLSP補間により得られたL
SPを使った無声音の合成が行われる。
If the gain index is greater than or equal to the previously transmitted index + 2 in step S24, it is determined that the transmitted ninth frame is a true UV parameter. , Step S2
Go to 7. In step S27, the switching control unit 241
Switches the switch 243 to the LSP interpolation circuit 233 for UV, and obtains L obtained by normal LSP interpolation for UV.
Synthesis of unvoiced sound using SP is performed.

【0121】一方、上記ステップS23でidVUV判定パ
ラメータが0でないと判断すると、ステップS25に進
み、UV用のLSPからαパラメータを変換し、合成フ
ィルタ236で有声音を合成する。
On the other hand, if it is determined in step S23 that the idVUV determination parameter is not 0, the process proceeds to step S25, where the α parameter is converted from the UV LSP, and a voiced sound is synthesized by the synthesis filter 236.

【0122】以上のように、音声復号化装置31では、
idVUV判定パラメータが1であるとき、すなわち他の携
帯電話装置の音声符号化装置が背景雑音区間を検出した
ときには、8フレームをおいて伝送されてきた複数種類
のパラメータを用いて上記背景雑音を生成すると共に、
上記8フレーム中には過去に送られたパラメータを用い
て上記背景雑音を生成する。このため、背景雑音の不自
然さを緩和することができる。また、9フレーム目に偶
然に、本当の無声音区間が検出されて伝送されてきて
も、正確に判断できるので、高品質な音声を復号でき
る。
As described above, in the speech decoding device 31,
When the idVUV determination parameter is 1, that is, when the speech coder of another mobile phone device detects a background noise section, the background noise is generated using a plurality of types of parameters transmitted with eight frames apart. Along with
In the eight frames, the background noise is generated by using parameters transmitted in the past. For this reason, the unnaturalness of the background noise can be reduced. Further, even if a true unvoiced sound section is detected and transmitted by chance in the ninth frame, accurate judgment can be made, so that high-quality speech can be decoded.

【0123】LSPは8フレーム分のディレイが生じる
ことになるが、背景雑音モード中は完全に滑らかに繋が
ることになり、急激にLSPが変化して異音を発生する
ことがなくなる。また、音声の子音部は背景雑音より高
いレベルを有することが多いので、音声の子音部を誤っ
て背景雑音として処理してしまうことを防げる。
Although the LSP has a delay of eight frames, the connection is completely smooth during the background noise mode, and the LSP does not suddenly change to generate abnormal noise. Further, since the consonant part of the voice often has a higher level than the background noise, it is possible to prevent the consonant part of the voice from being erroneously processed as the background noise.

【0124】そして、再び背景雑音モードに入ったらpr
evLsp1、prevLsp2を線形補間することにより、現在のフ
レームのLSPとする。
Then, when entering the background noise mode again, pr
evLsp1 and prevLsp2 are linearly interpolated to be the LSP of the current frame.

【0125】ところで、モードビットが充分にあり、こ
れを一つのモードとして送ることができれば、このよう
な処理は必要ない。また、prevLsp1とprevLsp2の補間方
法は線形補間以外にも様々なものが考えられる。
By the way, if there are enough mode bits and they can be transmitted as one mode, such processing is not necessary. Various interpolation methods other than linear interpolation are conceivable for the prevLsp1 and prevLsp2 interpolation methods.

【0126】[0126]

【発明の効果】本発明に係る音声符号化方法及び装置
は、可変レート符号化を効率良く実現する。
The speech encoding method and apparatus according to the present invention realize variable rate encoding efficiently.

【0127】また、本発明に係る音声復号化方法及び装
置は、可変レート符号化を実現する音声符号化方法及び
装置により符号化された符号化データを用いて、背景雑
音を不自然感を緩和して生成できる。
Further, the speech decoding method and apparatus according to the present invention reduce background noise by using encoded data encoded by the speech encoding method and apparatus for implementing variable rate encoding. Can be generated.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明に係る音声符号化方法及び装置、並びに
音声復号化方法及び装置の実施の形態となる携帯電話装
置の構成を示すブロック図である。
FIG. 1 is a block diagram showing a configuration of a mobile phone device which is an embodiment of a speech encoding method and device and a speech decoding method and device according to the present invention.

【図2】上記携帯電話装置を構成する音声符号化装置の
基本的な構成を示すブロック図である。
FIG. 2 is a block diagram showing a basic configuration of a speech encoding device constituting the mobile phone device.

【図3】上記図2に示した音声符号化装置の詳細な構成
を示すブロック図である。
FIG. 3 is a block diagram showing a detailed configuration of the speech encoding device shown in FIG. 2;

【図4】上記音声符号化装置内部にあって入力信号を判
定する入力信号判定装置の構成を示すブロック図であ
る。
FIG. 4 is a block diagram illustrating a configuration of an input signal determination device that determines an input signal inside the speech encoding device.

【図5】上記図4に示した入力信号判定装置を構成する
最小レベル演算部のアルゴリズムを説明するためのフロ
ーチャートである。
FIG. 5 is a flowchart for explaining an algorithm of a minimum level calculation unit included in the input signal determination device shown in FIG. 4;

【図6】上記図4に示した入力信号判定装置を構成する
リファレンスレベル演算部を説明するための特性図であ
る。
FIG. 6 is a characteristic diagram for explaining a reference level calculation unit included in the input signal determination device shown in FIG. 4;

【図7】上記携帯電話装置を構成する音声復号化装置の
基本的な構成を示すブロック図である。
FIG. 7 is a block diagram showing a basic configuration of a speech decoding device constituting the mobile phone device.

【図8】上記図7に示した音声復号化装置の詳細な構成
を示すブロック図である。
FIG. 8 is a block diagram showing a detailed configuration of the speech decoding device shown in FIG. 7;

【図9】上記音声復号化装置の動作を説明するためのフ
ローチャートである。
FIG. 9 is a flowchart for explaining the operation of the speech decoding apparatus.

【符号の説明】[Explanation of symbols]

20 音声符号化装置、21、115 入力信号判定
部、31 音声復号化装置、240 LPCパラメータ
再生制御部、241 切り換え制御部、242インデク
ス判定部
Reference Signs List 20 audio encoding device, 21, 115 input signal determination unit, 31 audio decoding device, 240 LPC parameter reproduction control unit, 241 switching control unit, 242 index determination unit

Claims (13)

【特許請求の範囲】[Claims] 【請求項1】 有声音又は無声音区間に分けられる音声
信号区間と、背景雑音区間からなる入力信号を、各区間
の判定結果に基づいた可変レートで符号化する音声符号
化方法であって、 上記入力信号を時間軸上で所定の符号化単位で区分して
各符号化単位で符号化を行って複数種類の音声符号化パ
ラメータを出力する音声符号化工程を備え、 上記音声符号化工程は、上記判定結果が上記背景雑音区
間を示すときには、所定時間をおいて上記複数種類のパ
ラメータを出力することを特徴とする音声符号化方法。
1. A speech encoding method for encoding an input signal consisting of a speech signal section divided into a voiced sound section or an unvoiced sound section and a background noise section at a variable rate based on a determination result of each section. An audio encoding step of dividing the input signal into predetermined encoding units on the time axis, encoding the encoded signals in each encoding unit, and outputting a plurality of types of audio encoding parameters, the audio encoding step includes: When the determination result indicates the background noise section, the plurality of types of parameters are output after a predetermined time.
【請求項2】 上記音声符号化工程は、上記各区間の判
定結果を基本パラメータとして上記所定時間中にも常に
出力することを特徴とする請求項1記載の音声符号化方
法。
2. The speech encoding method according to claim 1, wherein in the speech encoding step, the determination result of each section is always output as a basic parameter even during the predetermined time.
【請求項3】 上記音声符号化工程は、入力信号の短期
予測残差を求める短期予測残差算出工程と、求められた
短期予測残差をサイン波分析符号化するサイン波分析符
号化工程又は上記入力信号を波形符号化により符号化す
る波形符号化工程とを備えてなることを特徴とする請求
項1記載の音声符号化方法。
3. The speech encoding step includes: a short-term prediction residual calculation step for obtaining a short-term prediction residual of the input signal; and a sine wave analysis encoding step for performing sine-wave analysis encoding on the obtained short-term prediction residual. 2. A speech encoding method according to claim 1, further comprising a waveform encoding step of encoding said input signal by waveform encoding.
【請求項4】 上記音声信号区間が有声音であるときに
は上記サイン波分析符号化工程により、無声音であると
きには上記波形符号化工程により上記入力信号を符号化
することを特徴とする請求項3記載の音声符号化方法。
4. The method according to claim 3, wherein the sine wave analysis encoding step encodes the input signal when the audio signal section is voiced, and the waveform encoding step encodes the input signal when the audio signal section is unvoiced. Voice encoding method.
【請求項5】 上記音声符号化工程は、上記背景雑音区
間中、又は1フレーム前が背景雑音区間であるときには
上記短期予測残差算出工程にて差分量子化を行わないこ
とを特徴とする請求項3記載の音声符号化方法。
5. The speech encoding step according to claim 1, wherein the difference quantization is not performed in the short-term prediction residual calculating step when the background noise section is within the background noise section or one frame before is the background noise section. Item 3. The speech encoding method according to Item 3.
【請求項6】 有声音又は無声音区間に分けられる音声
信号区間と、背景雑音区間からなる入力信号を、各区間
の判定結果に基づいた可変レートで符号化する音声符号
化装置であって、 上記入力信号を時間軸上で所定の符号化単位で区分して
各符号化単位で符号化を行って複数種類の音声符号化パ
ラメータを出力する音声符号化手段を備え、 上記音声符号化手段は、上記判定結果が上記背景雑音区
間を示すときには、所定時間をおいて上記複数種類のパ
ラメータを出力することを特徴とする音声符号化装置。
6. A speech coding apparatus for coding an input signal consisting of a speech signal section divided into a voiced sound section or an unvoiced sound section and a background noise section at a variable rate based on a determination result of each section. An audio encoding unit that divides an input signal into predetermined encoding units on a time axis, performs encoding in each encoding unit, and outputs a plurality of types of audio encoding parameters, wherein the audio encoding unit includes: When the determination result indicates the background noise section, the plurality of parameters are output after a predetermined time.
【請求項7】 有声音又は無声音区間に分けられる音声
信号区間と、背景雑音区間からなる入力信号を、各区間
の判定結果に基づいた可変レートにより符号化して伝送
されてきた音声符号化データを復号化する音声復号化方
法であって、 上記背景雑音区間中には、所定時間をおいて伝送されて
きた複数種類のパラメータを用いて上記背景雑音を生成
すると共に、上記所定時間中には過去に送られたパラメ
ータを用いて上記背景雑音を生成することを特徴とする
音声復号化方法。
7. Speech coded data transmitted by coding an input signal consisting of a voice signal section divided into a voiced sound section or an unvoiced sound section and a background noise section at a variable rate based on the determination result of each section. A speech decoding method for decoding, wherein during the background noise section, the background noise is generated using a plurality of types of parameters transmitted at a predetermined time interval, and the past background noise is generated during the predetermined time interval. A speech decoding method characterized by generating the background noise using the parameters sent to the speech decoding device.
【請求項8】 上記音声符号化データは、入力音声信号
の短期予測残差を求める短期予測残差算出工程と、求め
られた短期予測残差をサイン波分析符号化するサイン波
分析符号化工程又は上記入力音声信号を波形符号化工程
により符号化する波形符号化工程とを備えてなる音声符
号化工程により生成されていることを特徴とする請求項
7記載の音声復号化方法。
8. A short-term prediction residual calculation step for obtaining a short-term prediction residual of an input audio signal, and a sine wave analysis encoding step for performing sine-wave analysis encoding of the obtained short-term prediction residual. 8. The audio decoding method according to claim 7, wherein the audio signal is generated by an audio encoding step including a waveform encoding step of encoding the input audio signal by a waveform encoding step.
【請求項9】 上記音声符号化データは、上記音声信号
区間が有声音であるときには上記サイン波分析符号化工
程により、無声音であるときには上記波形符号化工程に
より符号化されていることを特徴とする請求項8記載の
音声復号化方法。
9. The audio encoded data is encoded by the sine wave analysis encoding step when the audio signal section is voiced, and is encoded by the waveform encoding step when the audio signal section is unvoiced. 9. The speech decoding method according to claim 8, wherein
【請求項10】 上記所定時間中に背景雑音を生成する
のに用いる過去のパラメータは、上記短期予測残差算出
工程が算出した少なくとも短期予測符号化係数であるこ
とを特徴とする請求項7の音声復号化方法。
10. The method according to claim 7, wherein the past parameter used to generate the background noise during the predetermined time is at least a short-term prediction coding coefficient calculated by the short-term prediction residual calculation step. Audio decoding method.
【請求項11】 上記所定時間をおいて伝送されてきた
複数種類のパラメータ中の上記波形符号化工程からの符
号化出力の前回の値との差に応じて上記背景雑音を生成
することを特徴とする請求項7記載の音声復号化方法。
11. The background noise is generated according to a difference between a previous value of an encoded output from the waveform encoding step and a previous value of the plurality of types of parameters transmitted after the predetermined time. The speech decoding method according to claim 7, wherein
【請求項12】 上記波形符号化工程からの符号化出力
は、短期予測符号化係数に基づいたゲインインデクスで
あることを特徴とする請求項11記載の音声復号化方
法。
12. The speech decoding method according to claim 11, wherein an encoded output from said waveform encoding step is a gain index based on a short-term predicted encoding coefficient.
【請求項13】 有声音又は無声音区間に分けられる音
声信号区間と、背景雑音区間からなる入力信号を、各区
間の判定結果に基づいた可変レートにより符号化して伝
送されてきた音声符号化データを復号化する音声復号化
装置であって、 上記背景雑音区間中には、所定時間をおいて伝送されて
きた複数種類のパラメータを用いて上記背景雑音を生成
すると共に、上記所定時間中には過去に送られたパラメ
ータを用いて上記背景雑音を生成する音声復号化手段を
備えることを特徴とする音声復号化装置。
13. An audio signal section divided into a voiced sound section or an unvoiced sound section and an input signal composed of a background noise section are encoded at a variable rate based on a result of determination of each section, and transmitted speech encoded data is transmitted. A speech decoding apparatus for decoding, wherein during the background noise section, the background noise is generated using a plurality of types of parameters transmitted at a predetermined time interval, and the background noise is generated during the predetermined time interval. And a speech decoding unit for generating the background noise using the parameters sent to the speech decoding apparatus.
JP28545897A 1997-10-17 1997-10-17 Speech encoding method and apparatus, and speech decoding method and apparatus Expired - Fee Related JP4230550B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP28545897A JP4230550B2 (en) 1997-10-17 1997-10-17 Speech encoding method and apparatus, and speech decoding method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP28545897A JP4230550B2 (en) 1997-10-17 1997-10-17 Speech encoding method and apparatus, and speech decoding method and apparatus

Publications (2)

Publication Number Publication Date
JPH11119798A true JPH11119798A (en) 1999-04-30
JP4230550B2 JP4230550B2 (en) 2009-02-25

Family

ID=17691791

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28545897A Expired - Fee Related JP4230550B2 (en) 1997-10-17 1997-10-17 Speech encoding method and apparatus, and speech decoding method and apparatus

Country Status (1)

Country Link
JP (1) JP4230550B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001052241A1 (en) * 2000-01-11 2001-07-19 Matsushita Electric Industrial Co., Ltd. Multi-mode voice encoding device and decoding device

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001052241A1 (en) * 2000-01-11 2001-07-19 Matsushita Electric Industrial Co., Ltd. Multi-mode voice encoding device and decoding device
US7167828B2 (en) 2000-01-11 2007-01-23 Matsushita Electric Industrial Co., Ltd. Multimode speech coding apparatus and decoding apparatus
US7577567B2 (en) 2000-01-11 2009-08-18 Panasonic Corporation Multimode speech coding apparatus and decoding apparatus

Also Published As

Publication number Publication date
JP4230550B2 (en) 2009-02-25

Similar Documents

Publication Publication Date Title
JP3653826B2 (en) Speech decoding method and apparatus
JP4218134B2 (en) Decoding apparatus and method, and program providing medium
KR100487136B1 (en) Voice decoding method and apparatus
JP4005154B2 (en) Speech decoding method and apparatus
JP4438127B2 (en) Speech encoding apparatus and method, speech decoding apparatus and method, and recording medium
US6691085B1 (en) Method and system for estimating artificial high band signal in speech codec using voice activity information
JPH09127991A (en) Voice coding method, device therefor, voice decoding method, and device therefor
JPH09127990A (en) Voice coding method and device
JPH09190196A (en) Reproducing method and device for voice signal, and voice decoding method and device, and voice synthesizing method and device, and portable radio terminal device
JP4040126B2 (en) Speech decoding method and apparatus
EP0837453A2 (en) Speech analysis method and speech encoding method and apparatus
US9082398B2 (en) System and method for post excitation enhancement for low bit rate speech coding
JPH11122120A (en) Coding method and device therefor, and decoding method and device therefor
JPH10149199A (en) Voice encoding method, voice decoding method, voice encoder, voice decoder, telephon system, pitch converting method and medium
JPH10105195A (en) Pitch detecting method and method and device for encoding speech signal
JP4230550B2 (en) Speech encoding method and apparatus, and speech decoding method and apparatus
JP3896654B2 (en) Audio signal section detection method and apparatus
JPH08160996A (en) Voice encoding device
KR100421816B1 (en) A voice decoding method and a portable terminal device
JPH09127993A (en) Voice coding method and voice encoder
JPH09127997A (en) Voice coding method and device
JPH09269798A (en) Voice coding method and voice decoding method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040427

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060320

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070219

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070309

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20070518

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081008

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081204

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111212

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121212

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131212

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees