JPH09114498A - Speech encoding device - Google Patents

Speech encoding device

Info

Publication number
JPH09114498A
JPH09114498A JP7268756A JP26875695A JPH09114498A JP H09114498 A JPH09114498 A JP H09114498A JP 7268756 A JP7268756 A JP 7268756A JP 26875695 A JP26875695 A JP 26875695A JP H09114498 A JPH09114498 A JP H09114498A
Authority
JP
Japan
Prior art keywords
signal
voice
speech
linear prediction
input signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP7268756A
Other languages
Japanese (ja)
Inventor
秀享 ▲高▼橋
Hideyuki Takahashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Olympus Corp
Original Assignee
Olympus Optical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Olympus Optical Co Ltd filed Critical Olympus Optical Co Ltd
Priority to JP7268756A priority Critical patent/JPH09114498A/en
Publication of JPH09114498A publication Critical patent/JPH09114498A/en
Withdrawn legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To perform an encoding process excellently even if a non-speech signal is inputted by continuously outputting the spectrum parameter of a precedent frame to a linear predictive analyzing means (LPC analyzer) when the non-speech signal lasts. SOLUTION: A buffer memory 1 sends out an input signal in frame units to a subframe divider 7 and a speech discrimination unit 2. A switch control circuit 3 sets a variable (i) indicating the number of successive non-sound frames to 0 when encoding is started. Then, when the speech discrimination unit 2 discriminates as a non-speech signal, the variable (i) is increased by one and it is judged whether or not the variable (i) is a specific number R(e.g. 10). When the variable (i) is larger than the specific number R, a terminal of a changeover switch 4 is closed to a side (a). The LPC analyzer 5 continuously outputs the spectrum parameter of the precedent frame.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、音声符号化装置、
より詳しくは、音声信号をディジタル情報圧縮して記録
または伝送する音声符号化装置に関する。
[0001] The present invention relates to a speech coding apparatus,
More specifically, the present invention relates to an audio encoding device for compressing and recording or transmitting an audio signal by digital information.

【0002】[0002]

【従来の技術】音声信号を効率良く圧縮するために広く
用いられている手段として、音声信号を、スペクトル包
絡を表す線形予測パラメータと、線形予測残差信号に対
応する音源パラメータとを用いて符号化する方式があ
る。このような線形予測の手段を用いた音声符号化方式
は、少ない伝送容量で比較的高品質な合成音声を得られ
ることから、最近のハードウェア技術の進歩と相まって
様々な応用方式が盛んに研究し、開発されている。
2. Description of the Related Art As a widely used means for efficiently compressing a speech signal, a speech signal is encoded using a linear prediction parameter representing a spectral envelope and an excitation parameter corresponding to the linear prediction residual signal. There is a method to make it. A speech coding method using such a linear prediction method can obtain a relatively high quality synthesized speech with a small transmission capacity. Therefore, various application methods are actively studied in combination with the recent progress in hardware technology. And is being developed.

【0003】その中でも良い音質が得られる方式とし
て、Kleijin等による "Improved speech quality and e
fficient vector quantization in SELP"(ICASP’88 s
4.4,pp.155-158,1988)と題した論文に記載されている、
過去の音源信号を繰り返して得られる適応コードブック
を用いるCELP(Code Excited Linear Predictive Codin
g)方式がよく知られている。
Among them, as a method for obtaining good sound quality, "Improved speech quality and e" by Kleijin et al.
fficient vector quantization in SELP "(ICASP'88 s
4.4, pp.155-158, 1988),
CELP (Code Excited Linear Predictive Codin) which uses an adaptive codebook obtained by repeating past sound source signals
g) The method is well known.

【0004】図7は、上記適応コードブックを備えたコ
ード駆動線形予測符号化装置の構成を示すブロック図で
ある。
FIG. 7 is a block diagram showing the configuration of a code driven linear predictive coding apparatus including the above adaptive codebook.

【0005】図示のように、入力端子から、例えば8k
Hz(すなわち、1サンプル当たり1/8ms)でサン
プリングされた原音声信号を入力し、予め定められたフ
レーム間隔(例えば20ms、すなわち160サンプ
ル)の音声信号をバッファメモリ51に格納する。
As shown, from the input terminal, for example, 8k
An original voice signal sampled at Hz (that is, 1/8 ms per sample) is input, and a voice signal having a predetermined frame interval (for example, 20 ms, that is, 160 samples) is stored in the buffer memory 51.

【0006】このバッファメモリ51は、フレーム単位
で原音声信号をLPC(Linear Predictive Coding;線
形予測コード化)分析器55に送出する。
The buffer memory 51 sends the original audio signal in frame units to an LPC (Linear Predictive Coding) analyzer 55.

【0007】このLPC分析器55は、原音声信号に対
して線形予測分析(LPC分析)を行い、スペクトル特
性を表すスペクトルパラメータである線形予測パラメー
タαを抽出して、合成フィルタ56およびマルチプレク
サ68に送出する。
The LPC analyzer 55 performs a linear prediction analysis (LPC analysis) on the original speech signal, extracts a linear prediction parameter α which is a spectral parameter representing a spectral characteristic, and outputs it to a synthesis filter 56 and a multiplexer 68. Send out.

【0008】また、サブフレーム分割器57は、上記バ
ッファメモリ51からフレーム単位で入力された原音声
信号を、予め定められたサブフレーム間隔(例えば5m
s、つまり40サンプル)に分割する。すなわち、1フ
レームの原音声信号から、上述の例においては、第1サ
ブフレームから第4サブフレームまでの4つのサブフレ
ーム信号が作成される。
Further, the sub-frame divider 57 receives the original audio signal input from the buffer memory 51 on a frame-by-frame basis, at a predetermined sub-frame interval (for example, 5 m).
s, that is, 40 samples). That is, in the above example, four subframe signals from the first subframe to the fourth subframe are created from the original audio signal of one frame.

【0009】次に、適応コードブックの遅延Lとゲイン
βは、以下の処理によって決定される。
Next, the delay L and the gain β of the adaptive codebook are determined by the following processing.

【0010】まず、遅延回路61において、先行サブフ
レームにおける合成フィルタ56の入力信号すなわち駆
動音源信号に、ピッチ周期に相当する遅延を与えて適応
コードベクトルとして作成する。
First, in the delay circuit 61, the input signal of the synthesizing filter 56 in the preceding sub-frame, that is, the driving sound source signal, is delayed by a delay corresponding to the pitch period to create an adaptive code vector.

【0011】例えば、想定するピッチ周期を40〜16
7サンプルとすると、40〜167サンプル遅れの12
8種類の信号が適応コードベクトルとして作成され、適
応コードブック62に格納される。
For example, the assumed pitch period is 40 to 16
Assuming 7 samples, 12 samples with a delay of 40 to 167 samples
Eight types of signals are created as adaptive code vectors and stored in the adaptive code book 62.

【0012】このときスイッチ66は開いた状態となっ
ていて、各適応コードベクトルは乗算器63でゲイン値
を可変して乗じた後に、加算器67を通過してそのまま
合成フィルタ56に入力される。
At this time, the switch 66 is in an open state, each adaptive code vector is multiplied by the gain value varied by the multiplier 63, and then passed through the adder 67 to be input to the synthesis filter 56 as it is. .

【0013】この合成フィルタ56は、線形予測パラメ
ータαを用いて合成処理を行い、合成ベクトルを減算器
58に送出する。この減算器58は、原音声ベクトルと
合成ベクトルとの減算を行うことにより誤差ベクトルを
生成し、得られた誤差ベクトルを聴感重み付けフィルタ
59に送出する。
The synthesizing filter 56 performs the synthesizing process using the linear prediction parameter α and sends the synthesized vector to the subtractor 58. The subtracter 58 generates an error vector by subtracting the original speech vector and the synthetic vector, and sends the obtained error vector to the perceptual weighting filter 59.

【0014】この聴感重み付けフィルタ59は、誤差ベ
クトルに対して聴感特性を考慮した重み付け処理を行
い、誤差評価器60に送出する。
The perceptual weighting filter 59 performs weighting processing on the error vector in consideration of perceptual characteristics, and sends it to the error evaluator 60.

【0015】誤差評価器60は、誤差ベクトルの2乗平
均を計算し、その2乗平均値が最小となる適応コードベ
クトルを検索して、その遅れLとゲインβをマルチプレ
クサ68に送出する。このようにして、適応コードブッ
ク62の遅延Lとゲインβが決定される。
The error evaluator 60 calculates the mean square of the error vector, searches for the adaptive code vector having the smallest mean square value, and sends the delay L and the gain β to the multiplexer 68. In this way, the delay L and the gain β of the adaptive codebook 62 are determined.

【0016】続いて、確率コードブック64のインデッ
クスiとゲインγは、以下の処理によって決定される。
Subsequently, the index i and the gain γ of the probability codebook 64 are determined by the following processing.

【0017】確率コードブック64は、サブフレーム長
に対応する次元数(すなわち、上述の例では40次元)
の確率コードベクトルが、例えば512種類予め格納さ
れており、各々にインデックスが付与されている。な
お、このときにはスイッチ66は閉じた状態となってい
る。
The probability codebook 64 has a dimension number corresponding to the subframe length (that is, 40 dimensions in the above example).
Are stored in advance, for example, in the form of 512 types, and each is assigned an index. At this time, the switch 66 is in a closed state.

【0018】まず、上記処理によって決定された最適な
適応コードベクトルを、乗算器63で最適ゲインβを乗
じた後に、加算器67に送出する。
First, the optimum adaptive code vector determined by the above processing is multiplied by the optimum gain β in the multiplier 63 and then sent to the adder 67.

【0019】次に、各確率コードベクトルを乗算器65
でゲイン値を可変して乗じた後に、加算器67に入力す
る。加算器67は上記最適ゲインβを乗じた最適な適応
コードベクトルと各確率コードベクトルの加算を行い、
その結果が合成フィルタ56に入力される。
Next, each probability code vector is multiplied by the multiplier 65.
The gain value is varied and multiplied by, and then input to the adder 67. The adder 67 adds the optimal adaptive code vector multiplied by the optimal gain β and each probability code vector,
The result is input to the synthesis filter 56.

【0020】この後の処理は、上記適応コードブックパ
ラメータの決定処理と同様に行われる。すなわち、合成
フィルタ56は線形予測パラメータαを用いて合成処理
を行い、合成ベクトルを減算器58に送出する。
The subsequent processing is performed in the same manner as the adaptive codebook parameter determination processing. That is, the synthesizing filter 56 performs the synthesizing process using the linear prediction parameter α, and sends the synthesized vector to the subtractor 58.

【0021】減算器58は原音声ベクトルと合成ベクト
ルとの減算を行うことにより誤差ベクトルを生成し、得
られた誤差ベクトルを聴感重み付けフィルタ59に送出
する。
The subtractor 58 generates an error vector by subtracting the original speech vector and the synthetic vector, and sends the obtained error vector to the perceptual weighting filter 59.

【0022】聴感重み付けフィルタ59は、誤差ベクト
ルに対して聴感特性を考慮した重み付け処理を行い、誤
差評価器60に送出する。
The perceptual weighting filter 59 performs a weighting process on the error vector in consideration of perceptual characteristics, and sends it to the error evaluator 60.

【0023】誤差評価器60は、誤差ベクトルの2乗平
均を計算して、その2乗平均値が最小となる確率コード
ベクトルを検索して、そのインデックスiとゲインγを
マルチプレクサ68に送出する。このようにして、確率
コードブック64のインデックスiとゲインγが決定さ
れる。
The error evaluator 60 calculates the mean square of the error vector, searches for the probability code vector having the smallest mean square value, and sends the index i and the gain γ to the multiplexer 68. In this way, the index i and the gain γ of the probability codebook 64 are determined.

【0024】上記マルチプレクサ68は、量子化された
線形予測パラメータα、適応コードブックの遅れL、ゲ
インβ、確率コードブックのインデックスi、ゲインγ
の各々をマルチプレクスするものである。
The multiplexer 68 has a quantized linear prediction parameter α, an adaptive codebook delay L, a gain β, a probability codebook index i, and a gain γ.
Is to multiplex each.

【0025】続いて、上述した音声符号化装置に対応す
る音声復号化装置の動作を図8を参照して詳細に説明す
る。図8は、上記図7のコード駆動線形予測符号化装置
に対応する復号化装置の構成を示すブロック図である。
Next, the operation of the speech decoding apparatus corresponding to the above speech encoding apparatus will be described in detail with reference to FIG. FIG. 8 is a block diagram showing a configuration of a decoding device corresponding to the code driven linear predictive coding device of FIG.

【0026】同図において、デマルチプレクサ78は、
受信した信号を線形予測パラメータα、適応コードブッ
クの遅れLとゲインβ、確率コードブックのインデック
スiとゲインγに分解して、線形予測パラメータαを合
成フィルタに、適応コードブックの遅れLとゲインβを
各々適応コードブック72と乗算器73に、確率コード
ブックのインデックスiとゲインγを各々確率コードブ
ック74と乗算器75にそれぞれ出力する。
In the figure, the demultiplexer 78 is
The received signal is decomposed into a linear prediction parameter α, an adaptive codebook delay L and gain β, a probability codebook index i and a gain γ, and the linear prediction parameter α is used as a synthesis filter, and the adaptive codebook delay L and gain are used. β is output to the adaptive codebook 72 and the multiplier 73, and the index i and the gain γ of the probability codebook are output to the probability codebook 74 and the multiplier 75, respectively.

【0027】上記デマルチプレクサ78から出力された
適応コードブックの遅れLに基づいて、適応コードブッ
ク72の適応コードベクトルを選択する。ここで適応コ
ードブック72は、上記符号化装置における適応コード
ブック62の内容と同じ内容を有するものである。すな
わち、適応コードブック72には、遅延回路71を介し
て過去の駆動音源信号が入力される。乗算器73は、受
信したゲインβにより、適応コードゲイン補間回路76
を介して入力された適応コードベクトルを増幅して加算
器79に送出する。
Based on the delay L of the adaptive codebook output from the demultiplexer 78, the adaptive code vector of the adaptive codebook 72 is selected. Here, the adaptive codebook 72 has the same content as the adaptive codebook 62 in the above-mentioned encoding device. That is, the past driving sound source signal is input to the adaptive codebook 72 via the delay circuit 71. The multiplier 73 uses the received gain β to obtain the adaptive code gain interpolation circuit 76.
The adaptive code vector input via the is amplified and sent to the adder 79.

【0028】また、上記デマルチプレクサ78から出力
された確率コードブックのインデックスiに基づいて、
確率コードブック74の確率コードベクトルを選択す
る。ここで確率コードブック74は、上記符号化装置に
おける確率コードブック64の内容と同じ内容を有する
ものである。乗算器75は、受信したゲインγにより、
確率コードゲイン補間回路77を介して入力された確率
コードベクトルを増幅して加算器79に送出する。
Based on the index i of the probability codebook output from the demultiplexer 78,
A probability code vector in the probability code book 74 is selected. Here, the probability code book 74 has the same contents as the contents of the probability code book 64 in the above encoding device. The multiplier 75 uses the received gain γ to
The probability code vector input via the probability code gain interpolation circuit 77 is amplified and sent to the adder 79.

【0029】加算器79は、増幅された確率コードベク
トルと増幅された適応コードベクトルとを加算して、合
成フィルタ80および遅延回路71に送出する。
The adder 79 adds the amplified probability code vector and the amplified adaptive code vector, and sends them to the synthesis filter 80 and the delay circuit 71.

【0030】上記合成フィルタ80は、受信した線形予
測パラメータαを係数として合成処理を行い、合成音声
信号として出力するようになっている。
The synthesizing filter 80 performs synthesizing processing using the received linear prediction parameter α as a coefficient, and outputs it as a synthetic speech signal.

【0031】上述したような線形予測分析を基礎とした
音声符号化装置は、比較的低いビットレートで高品質な
符号化性能を得ることができるという利点を有してい
る。このような線形予測分析を基礎とした音声符号化装
置は、人間が発する概周期的な有声音を前提として構成
されており、1フレームの分析長は20ms前後が適当
であるとされている。
The speech coding apparatus based on the linear prediction analysis as described above has an advantage that high-quality coding performance can be obtained at a relatively low bit rate. The speech coding apparatus based on such a linear predictive analysis is configured on the premise of almost periodic voiced sound produced by humans, and it is said that an appropriate analysis length of one frame is around 20 ms.

【0032】[0032]

【発明が解決しようとする課題】しかしながら、上述し
たような従来の音声符号化装置は、音声信号以外の非音
声信号については良好に符号化することができず、特に
背景雑音等が混入すると急激に音質が劣化してしまうと
いう問題点があった。
However, the conventional speech coder as described above cannot satisfactorily encode a non-speech signal other than a speech signal, and in particular, when background noise or the like is mixed, it becomes sharp. There was a problem that the sound quality deteriorates.

【0033】上述したような音声符号化装置の適用分野
としては、移動体電話や音声録音装置などが考えられて
おり、これらは背景雑音が混入する場合を含む様々な環
境下で使用されるものと想定されるために、上記音質劣
化の問題点は、魅力的な製品を実現する上でどうしても
解決しなければならない必須の課題である。
Mobile phones, voice recorders, and the like are considered as fields of application of the above-mentioned voice encoding device, and these are used in various environments including the case where background noise is mixed. Therefore, the problem of sound quality deterioration is an essential issue that must be solved in order to realize an attractive product.

【0034】本発明は上記事情に鑑みてなされたもので
あり、非音声信号が入力しても良好に符号化することが
できる音質の良い音声符号化装置を提供することを目的
としている。
The present invention has been made in view of the above circumstances, and it is an object of the present invention to provide a voice encoding device with good sound quality that can be encoded well even if a non-voice signal is input.

【0035】[0035]

【課題を解決するための手段】上記の目的を達成するた
めに、第1の発明による音声符号化装置は、予め定めら
れたフレーム間隔に分割された入力信号が音声信号か非
音声信号かを判別する音声判別手段と、上記入力信号の
スペクトルパラメータを出力する線形予測分析手段と、
上記音声判別手段による判別結果が非音声信号であるこ
とが所定フレーム数にわたって連続した場合に上記入力
信号のスペクトルパラメータとして上記線形予測分析手
段に所定の先行フレームにおけるスペクトルパラメータ
を継続して出力させる制御手段と、線形予測残差信号に
相当する駆動音源信号を生成する駆動音源信号生成手段
と、上記スペクトルパラメータに基づいて上記駆動音源
信号から音声を合成する合成フィルタとを備えたもので
ある。
In order to achieve the above object, the speech coder according to the first invention determines whether an input signal divided into predetermined frame intervals is a speech signal or a non-speech signal. A voice discriminating means for discriminating, a linear prediction analysis means for outputting the spectrum parameter of the input signal,
Control for causing the linear prediction analysis unit to continuously output the spectrum parameter in a predetermined preceding frame as the spectrum parameter of the input signal when the result of the determination by the voice determining unit is a non-voice signal continuously for a predetermined number of frames. Means, a driving sound source signal generating means for generating a driving sound source signal corresponding to the linear prediction residual signal, and a synthesis filter for synthesizing voice from the driving sound source signal based on the spectral parameter.

【0036】また、第2の発明による音声符号化装置
は、予め定められたフレーム間隔に分割された入力信号
が音声信号か非音声信号かを判別する音声判別手段と、
上記入力信号のスペクトルパラメータを出力する線形予
測分析手段と、上記音声判別手段による判別結果が非音
声信号である場合には所定フレーム数を越えない範囲で
次に音声信号であると判別されるまでその入力信号をバ
ッファリングして上記線形予測分析手段にその入力信号
を一括して線形予測分析させる制御手段と、線形予測残
差信号に相当する駆動音源信号を生成する駆動音源信号
生成手段と、上記スペクトルパラメータに基づいて上記
駆動音源信号から音声を合成する合成フィルタとを備え
たものである。
The speech coding apparatus according to the second aspect of the invention comprises speech discrimination means for discriminating whether the input signal divided into a predetermined frame interval is a speech signal or a non-speech signal,
Linear prediction analysis means for outputting the spectrum parameter of the input signal, and when the discrimination result by the voice discrimination means is a non-voice signal, until the next voice signal is discriminated within a range not exceeding a predetermined number of frames. Control means for buffering the input signal to cause the linear prediction analysis means to perform linear prediction analysis of the input signal at once, and driving excitation signal generation means for generating a driving excitation signal corresponding to the linear prediction residual signal, And a synthesis filter for synthesizing voice from the drive sound source signal based on the spectrum parameter.

【0037】従って、第1の発明による音声符号化装置
は、音声判別手段が予め定められたフレーム間隔に分割
された入力信号が音声信号か非音声信号かを判別し、線
形予測分析手段が上記入力信号のスペクトルパラメータ
を出力し、上記音声判別手段による判別結果が非音声信
号であることが所定フレーム数にわたって連続した場合
に、制御手段が上記入力信号のスペクトルパラメータと
して上記線形予測分析手段に所定の先行フレームにおけ
るスペクトルパラメータを継続して出力させ、駆動音源
信号生成手段が線形予測残差信号に相当する駆動音源信
号を生成し、合成フィルタが上記スペクトルパラメータ
に基づいて上記駆動音源信号から音声を合成する。
Therefore, in the speech coder according to the first aspect of the invention, the speech discrimination means discriminates whether the input signal divided into the predetermined frame intervals is a speech signal or a non-speech signal, and the linear prediction analysis means is the above-mentioned. When the spectrum parameter of the input signal is output and the discrimination result by the voice discriminating means is a non-voice signal continuously over a predetermined number of frames, the control means determines the spectrum parameter of the input signal by the linear predictive analysis means. Continuously output the spectrum parameter in the preceding frame, the driving sound source signal generation means generates a driving sound source signal corresponding to the linear prediction residual signal, the synthesis filter based on the spectrum parameter from the driving sound source signal voice. To synthesize.

【0038】また、第2の発明による音声符号化装置
は、音声判別手段が予め定められたフレーム間隔に分割
された入力信号が音声信号か非音声信号かを判別し、線
形予測分析手段が上記入力信号のスペクトルパラメータ
を出力し、上記音声判別手段による判別結果が非音声信
号である場合には、制御手段が所定フレーム数を越えな
い範囲で次に音声信号であると判別されるまでその入力
信号をバッファリングして上記線形予測分析手段にその
入力信号を一括して線形予測分析させ、駆動音源信号生
成手段が線形予測残差信号に相当する駆動音源信号を生
成し、合成フィルタが上記スペクトルパラメータに基づ
いて上記駆動音源信号から音声を合成する。
In the speech coder according to the second aspect of the invention, the speech discrimination means discriminates whether the input signal divided into the predetermined frame intervals is a speech signal or a non-speech signal, and the linear prediction analysis means is the above-mentioned. When the spectrum parameter of the input signal is output and the discrimination result by the voice discriminating means is the non-voice signal, the control means inputs the signal until it is discriminated to be the next voice signal within a range not exceeding the predetermined number of frames. The signal is buffered, the input signal is collectively subjected to linear prediction analysis by the linear prediction analysis unit, the driving excitation signal generation unit generates a driving excitation signal corresponding to the linear prediction residual signal, and the synthesis filter is the spectrum. Speech is synthesized from the driving sound source signal based on the parameters.

【0039】[0039]

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。図1から図4は本発明の第1の実
施形態を示したものであり、図1は音声符号化装置の構
成を示すブロック図である。
Embodiments of the present invention will be described below with reference to the drawings. 1 to 4 show a first embodiment of the present invention, and FIG. 1 is a block diagram showing a configuration of a speech coding apparatus.

【0040】図1に示すように、入力端子に接続された
バッファメモリ1の出力端は3つに分岐されていて、第
1の出力端はサブフレーム分割器7を介して減算器8に
接続され、第2の出力端は切替スイッチ4の入力端に接
続され、第3の出力端は音声判別手段たる音声判別器2
を介して上記切替スイッチ4の制御を行う制御手段たる
スイッチ制御回路3に接続されている。
As shown in FIG. 1, the output terminal of the buffer memory 1 connected to the input terminal is branched into three, and the first output terminal is connected to the subtracter 8 via the subframe divider 7. The second output end is connected to the input end of the changeover switch 4, and the third output end is the voice discriminator 2 which is a voice discriminating means.
It is connected to the switch control circuit 3 which is a control means for controlling the changeover switch 4 via.

【0041】上記切替スイッチ4は、一方の出力端aが
合成フィルタ6に接続されていて、他方の出力端bが線
形予測分析手段たるLPC分析器5を介して上記合成フ
ィルタ6に接続されている。
One output terminal a of the changeover switch 4 is connected to the synthesizing filter 6, and the other output terminal b is connected to the synthesizing filter 6 via the LPC analyzer 5 which is a linear predictive analysis means. There is.

【0042】減算器8の出力端子は、聴感重み付けフィ
ルタ9を介して誤差評価器10の入力端子に接続されて
いて、さらに、この誤差評価器10の出力端子は、適応
コードブック12と、確率コードブック14と、さらに
乗算器13,15とに接続されている。
The output terminal of the subtractor 8 is connected to the input terminal of the error evaluator 10 via the perceptual weighting filter 9. Further, the output terminal of the error evaluator 10 is connected to the adaptive codebook 12 and the probability. It is connected to the codebook 14 and also to the multipliers 13 and 15.

【0043】上記適応コードブック12は、乗算器13
を介して加算器17の第1入力端子に接続されており、
また、確率コードブック14は、乗算器15とスイッチ
16とを介して上記加算器17の第2入力端子に接続さ
れている。
The adaptive codebook 12 has a multiplier 13
Is connected to the first input terminal of the adder 17 via
The probability codebook 14 is connected to the second input terminal of the adder 17 via the multiplier 15 and the switch 16.

【0044】この加算器17の出力端子は、合成フィル
タ6を介して上記減算器8の入力端子に接続されるとと
もに、遅延回路11を介して上記適応コードブック12
に接続されている。
The output terminal of the adder 17 is connected to the input terminal of the subtractor 8 via the synthesis filter 6 and the adaptive codebook 12 via the delay circuit 11.
It is connected to the.

【0045】そして、マルチプレクサ18は、音声判別
器2と、LPC分析器5と、誤差評価器10とに接続さ
れている。
The multiplexer 18 is connected to the voice discriminator 2, the LPC analyzer 5, and the error evaluator 10.

【0046】上述のような音声符号化装置において、線
形予測残差信号に相当する駆動音源信号を生成する駆動
音源信号生成手段は、上記遅延回路11、適応コードブ
ック12、確率コードブック14、乗算器13,15、
スイッチ16、加算器17等を含んで構成されている。
In the above speech coding apparatus, the driving excitation signal generating means for generating the driving excitation signal corresponding to the linear prediction residual signal is the delay circuit 11, the adaptive codebook 12, the probability codebook 14, and the multiplication. Vessels 13,15,
The switch 16 and the adder 17 are included.

【0047】次に、図2は上記音声判別器2のより詳細
な構成を示すブロック図である。
Next, FIG. 2 is a block diagram showing a more detailed structure of the voice discriminator 2.

【0048】この音声判別器2に入力された上記バッフ
ァメモリ1の出力信号は、2つに分岐されて一方がフレ
ームエネルギー分析回路2aに、他方が初期フレームエ
ネルギー分析回路2bに入力されるようになっている。
The output signal of the buffer memory 1 input to the voice discriminator 2 is branched into two so that one is input to the frame energy analysis circuit 2a and the other is input to the initial frame energy analysis circuit 2b. Has become.

【0049】上記フレームエネルギー分析回路2aは加
算器2cの+端子となっている第1入力端子に、上記初
期フレームエネルギー分析回路2bは該加算器2cの−
端子となっている第2入力端子にそれぞれ接続されてい
るとともに、さらに、初期フレームエネルギー分析回路
2bは、閾値決定回路2dにも接続されている。
The frame energy analysis circuit 2a is connected to the first input terminal which is the + terminal of the adder 2c, and the initial frame energy analysis circuit 2b is connected to the-of the adder 2c.
The initial frame energy analysis circuit 2b is connected to each of the second input terminals, which are terminals, and is also connected to the threshold value determination circuit 2d.

【0050】そして、上記加算器2cの出力端子と上記
閾値決定回路2dの出力端子は、共に判別回路2eに接
続されていて、この判別回路2eの出力が上記スイッチ
制御回路3に出力されるようになっている。
The output terminal of the adder 2c and the output terminal of the threshold value determining circuit 2d are both connected to the discriminating circuit 2e, and the output of the discriminating circuit 2e is output to the switch control circuit 3. It has become.

【0051】次に、上記図1および図2に示したような
構成における信号の流れを説明する。
Next, the signal flow in the configuration shown in FIGS. 1 and 2 will be described.

【0052】入力端子から例えば8kHz(すなわち、
1サンプル当たり1/8ms)でサンプリングされた原
音声信号を入力して、予め定められたフレーム間隔(例
えば20ms、すなわち160サンプル)の音声信号を
バッファメモリ1に格納する。
From the input terminal, for example, 8 kHz (that is,
An original audio signal sampled at 1/8 ms per sample) is input, and an audio signal at a predetermined frame interval (for example, 20 ms, ie, 160 samples) is stored in the buffer memory 1.

【0053】バッファメモリ1は、入力信号をフレーム
単位でサブフレーム分割器7と音声判別器2に送出す
る。
The buffer memory 1 sends the input signal to the sub-frame divider 7 and the voice discriminator 2 in frame units.

【0054】この音声判別器2は、フレームの入力信号
が音声か非音声かを、例えば以下に説明するような方法
で判別する。
The voice discriminator 2 discriminates whether the input signal of the frame is voice or non-voice by a method as described below, for example.

【0055】上記図2に示したような構成の音声判別器
2において、フレームエネルギー分析回路2aは、入力
されたフレーム入力信号のフレームエネルギーEf を次
に示すような数式により算出する。
In the voice discriminator 2 having the structure shown in FIG. 2, the frame energy analysis circuit 2a calculates the frame energy Ef of the input frame input signal by the following mathematical formula.

【0056】[0056]

【数1】 ここに、s(n)はサンプルnにおける入力信号、Nは
フレーム長をそれぞれ示している。
(Equation 1) Here, s (n) indicates an input signal in sample n, and N indicates a frame length.

【0057】また、上記初期フレームエネルギー分析回
路2bは、符号化を開始したときのフレームエネルギー
Eb を上記数式1と同様の数式を用いて算出する。
Further, the initial frame energy analysis circuit 2b calculates the frame energy Eb at the time of starting the encoding by using the same mathematical expression as the mathematical expression 1.

【0058】上記閾値決定回路2dは、背景雑音エネル
ギーの大きさに応じて閾値を決定する。例えば、図3に
示すように、背景雑音エネルギーがdB単位で増加する
に従って、閾値をdB単位で減少させる関係により、閾
値を決定する。そして、その結果を判別回路2eに送出
する。
The threshold decision circuit 2d decides a threshold according to the magnitude of the background noise energy. For example, as shown in FIG. 3, as the background noise energy increases in dB units, the threshold value is determined based on the relationship of decreasing the threshold value in dB units. Then, the result is sent to the discrimination circuit 2e.

【0059】加算器2cでは、フレームエネルギーEf
を正として入力するとともに、初期フレームエネルギー
Eb を負として入力してこれらを加算することにより、
フレームエネルギーEf から初期フレームエネルギーE
b を減算し、その減算結果を判別回路2eに送出する。
In the adder 2c, the frame energy Ef
By inputting as a positive value and inputting the initial frame energy Eb as a negative value and adding them,
From the frame energy Ef to the initial frame energy E
b is subtracted, and the subtraction result is sent to the discrimination circuit 2e.

【0060】そして、判別回路2eは、入力された減算
結果と閾値を比較して、減算結果が閾値より大きければ
フレーム入力信号は音声区間であると判別し、そうでな
ければ非音声区間であると判別する。
Then, the discriminating circuit 2e compares the input subtraction result with the threshold value and discriminates that the frame input signal is in the voice section if the subtraction result is larger than the threshold value, and is in the non-voice section otherwise. To determine.

【0061】図1に戻って、サブフレーム分割器7は、
フレームの入力信号を予め定められたサブフレーム間隔
(例えば5ms、つまり40サンプル)に分割する。す
なわち、1フレームの入力信号から、第1サブフレーム
から第4サブフレームまでの4つのサブフレーム信号が
作成される。
Returning to FIG. 1, the subframe divider 7 is
The input signal of the frame is divided into predetermined subframe intervals (for example, 5 ms, that is, 40 samples). That is, four subframe signals from the first subframe to the fourth subframe are created from the input signal of one frame.

【0062】LPC分析器5は、入力信号に対して線形
予測分析(LPC分析)を行って、スペクトル特性を表
すスペクトルパラメータたる線形予測パラメータαを抽
出し、合成フィルタ6およびマルチプレクサ18に送出
する。
The LPC analyzer 5 performs a linear prediction analysis (LPC analysis) on the input signal, extracts a linear prediction parameter α which is a spectral parameter representing a spectral characteristic, and sends it to the synthesis filter 6 and the multiplexer 18.

【0063】次に、上記スイッチ制御回路3の動作を図
4のフローチャートを参照して説明する。図4は音声符
号化装置の動作を示すフローチャートである。
Next, the operation of the switch control circuit 3 will be described with reference to the flowchart of FIG. FIG. 4 is a flowchart showing the operation of the speech coding apparatus.

【0064】符号化が開始されると、非音声フレーム連
続数を示す変数iを0にセットする(ステップS1)。
When encoding is started, a variable i indicating the number of consecutive non-voice frames is set to 0 (step S1).

【0065】次に、音声判別器2における判別結果が音
声(v)であるか非音声(uv)であるかを判定する
(ステップS2)。
Next, it is determined whether the discrimination result by the voice discriminator 2 is voice (v) or non-voice (uv) (step S2).

【0066】このステップS2における判別結果が非音
声である場合には、変数iを1増分して(ステップS
3)、変数iが所定数R(例えば10)より大きいか否
かを判定する(ステップS4)。
If the determination result in step S2 is non-voice, the variable i is incremented by 1 (step S2).
3), it is determined whether the variable i is larger than a predetermined number R (for example, 10) (step S4).

【0067】このステップS4において変数iが所定数
R(例えば10)より大きい場合には、切替スイッチ4
の端子をa側に閉じて(ステップS5)、先行フレーム
のスペクトルパラメータを継続して使用する(ステップ
S6)。その後、次のフレームの処理を待つ(ステップ
S7)。
If the variable i is larger than the predetermined number R (eg, 10) in step S4, the changeover switch 4
Is closed to the side a (step S5), and the spectrum parameter of the preceding frame is continuously used (step S6). After that, the process waits for the next frame (step S7).

【0068】一方、上記ステップS2における判別結果
が音声である場合には、非音声フレーム連続数を示す変
数iを0にリセットした後に(ステップS8)、切替ス
イッチ4の端子をb側に閉じて(ステップS9)、LP
C分析器5によりLPC分析を行ってスペクトルパラメ
ータを更新する(ステップS10)。その後、上記ステ
ップS7に進んで次のフレームの処理を待つ。
On the other hand, when the discrimination result in the above step S2 is voice, after the variable i indicating the number of consecutive non-voice frames is reset to 0 (step S8), the terminal of the changeover switch 4 is closed to the side b. (Step S9), LP
The C analyzer 5 performs LPC analysis to update the spectrum parameter (step S10). Then, the process proceeds to step S7 and waits for the processing of the next frame.

【0069】また、上記ステップS4において変数iが
所定数R(例えば10)よりも大きくない場合には、上
記ステップS8に進む。
If the variable i is not larger than the predetermined number R (for example, 10) in step S4, the process proceeds to step S8.

【0070】再び図1の説明に戻って、適応コードブッ
ク12の遅れLとゲインβ、確率コードブックのインデ
ックスiとゲインγは、上記従来例において説明した方
法と同様の方法により決定される。
Returning to the explanation of FIG. 1, the delay L and the gain β of the adaptive codebook 12 and the index i and the gain γ of the probability codebook are determined by the same method as the method described in the conventional example.

【0071】すなわち、まず、適応コードブック12の
遅延Lとゲインβは、以下の処理によって決定される。
That is, first, the delay L and the gain β of the adaptive codebook 12 are determined by the following processing.

【0072】遅延回路11において、先行サブフレーム
における合成フィルタ6の入力信号すなわち駆動音源信
号に、ピッチ周期に相当する遅延を与えて適応コードベ
クトルとして作成する。
In the delay circuit 11, the input signal of the synthesizing filter 6 in the preceding sub-frame, that is, the driving sound source signal, is delayed by a pitch period to create an adaptive code vector.

【0073】例えば、想定するピッチ周期を40〜16
7サンプルとすると、40〜167サンプル遅れの12
8種類の信号が適応コードベクトルとして作成され、適
応コードブック12に格納される。
For example, the assumed pitch period is 40 to 16
Assuming 7 samples, 12 samples with a delay of 40 to 167 samples
Eight types of signals are created as adaptive code vectors and stored in the adaptive codebook 12.

【0074】このときスイッチ16は開いた状態となっ
ていて、各適応コードベクトルは乗算器13でゲイン値
を可変して乗じた後に、加算器17を通過してそのまま
合成フィルタ6に入力される。
At this time, the switch 16 is in an open state, and each adaptive code vector is multiplied by the gain value varied by the multiplier 13, and then passed through the adder 17 to be input to the synthesis filter 6 as it is. .

【0075】この合成フィルタ6は、線形予測パラメー
タαを用いて合成処理を行い、合成ベクトルを減算器8
に送出する。この減算器8は、原音声ベクトルと合成ベ
クトルとの減算を行うことにより誤差ベクトルを生成
し、得られた誤差ベクトルを聴感重み付けフィルタ9に
送出する。
The synthesizing filter 6 performs the synthesizing process using the linear prediction parameter α, and subtracts the synthesized vector from the subtractor 8
To send to. The subtracter 8 generates an error vector by subtracting the original speech vector from the synthesized vector, and sends the obtained error vector to the auditory weighting filter 9.

【0076】この聴感重み付けフィルタ9は、誤差ベク
トルに対して聴感特性を考慮した重み付け処理を行い、
誤差評価器10に送出する。
The perceptual weighting filter 9 performs weighting processing on the error vector in consideration of perceptual characteristics,
It is sent to the error evaluator 10.

【0077】誤差評価器10は、誤差ベクトルの2乗平
均を計算し、その2乗平均値が最小となる適応コードベ
クトルを検索して、その遅れLとゲインβをマルチプレ
クサ18に送出する。このようにして、適応コードブッ
ク12の遅延Lとゲインβが決定される。
The error evaluator 10 calculates the mean square of the error vector, searches for an adaptive code vector having the smallest mean square value, and sends the delay L and the gain β to the multiplexer 18. Thus, the delay L and the gain β of the adaptive codebook 12 are determined.

【0078】続いて、確率コードブック14のインデッ
クスiとゲインγは、以下の処理によって決定される。
Subsequently, the index i and the gain γ of the probability codebook 14 are determined by the following processing.

【0079】確率コードブック14は、サブフレーム長
に対応する次元数(すなわち、上述の例では40次元)
の確率コードベクトルが、例えば512種類予め格納さ
れており、各々にインデックスが付与されている。な
お、このときにはスイッチ16は閉じた状態となってい
る。
The probability codebook 14 has the number of dimensions corresponding to the subframe length (that is, 40 dimensions in the above example).
Are stored in advance, for example, in the form of 512 types, and each is assigned an index. At this time, the switch 16 is in a closed state.

【0080】まず、上記処理によって決定された最適な
適応コードベクトルを、乗算器13で最適ゲインβを乗
じた後に、加算器17に送出する。
First, the optimum adaptive code vector determined by the above processing is multiplied by the optimum gain β in the multiplier 13, and then sent to the adder 17.

【0081】次に、各確率コードベクトルを乗算器15
でゲイン値を可変して乗じた後に、加算器17に入力す
る。加算器17は上記最適ゲインβを乗じた最適な適応
コードベクトルと各確率コードベクトルの加算を行い、
その結果が合成フィルタ6に入力される。
Next, each probability code vector is multiplied by the multiplier 15
The variable is multiplied by the gain value and input to the adder 17. The adder 17 adds the optimal adaptive code vector multiplied by the optimal gain β and each probability code vector,
The result is input to the synthesis filter 6.

【0082】この後の処理は、上記適応コードブックパ
ラメータの決定処理と同様に行われる。すなわち、合成
フィルタ6は線形予測パラメータαを用いて合成処理を
行い、合成ベクトルを減算器8に送出する。
Subsequent processing is performed in the same manner as the adaptive codebook parameter determination processing. That is, the synthesis filter 6 performs the synthesis process using the linear prediction parameter α, and sends the synthesized vector to the subtractor 8.

【0083】減算器8は原音声ベクトルと合成ベクトル
との減算を行うことにより誤差ベクトルを生成し、得ら
れた誤差ベクトルを聴感重み付けフィルタ9に送出す
る。
The subtracter 8 generates an error vector by subtracting the original speech vector and the synthetic vector, and sends the obtained error vector to the perceptual weighting filter 9.

【0084】聴感重み付けフィルタ9は、誤差ベクトル
に対して聴感特性を考慮した重み付け処理を行い、誤差
評価器10に送出する。
The perceptual weighting filter 9 performs a weighting process on the error vector in consideration of the perceptual characteristic, and sends it to the error evaluator 10.

【0085】誤差評価器10は、誤差ベクトルの2乗平
均を計算して、その2乗平均値が最小となる確率コード
ベクトルを検索して、そのインデックスiとゲインγを
マルチプレクサ18に送出する。このようにして、確率
コードブック14のインデックスiとゲインγが決定さ
れる。
The error evaluator 10 calculates the mean square of the error vector, searches for the probability code vector having the smallest mean square value, and sends the index i and the gain γ to the multiplexer 18. Thus, the index i and the gain γ of the probability codebook 14 are determined.

【0086】上記マルチプレクサ18は、量子化された
線形予測パラメータα、適応コードブックの遅れLとゲ
インβ、確率コードブックのインデックスiとゲインγ
の各々をマルチプレクスして伝送する。
The multiplexer 18 quantizes the linear prediction parameter α, the adaptive codebook delay L and gain β, the probability codebook index i and gain γ.
Are multiplexed and transmitted.

【0087】なお、上述したような音声符号化装置に対
応する音声復号化装置の復号化動作は、上記従来例にお
いて説明したものと同様である。
The decoding operation of the speech decoding apparatus corresponding to the speech coding apparatus as described above is the same as that described in the conventional example.

【0088】また、音声判別器2からマルチプレクサ1
8に音声/非音声の判別結果v/uvを出力して、伝送
する符号化パラメータにv/uvの情報も入れるように
し、これに対応する復号化装置に、この符号化装置と同
様のスイッチ制御回路および切替スイッチを設けて、v
/uvの情報に基づいて切替スイッチの制御を行うよう
にすれば、より高効率に符号化可能な可変ビットレート
符号化装置/復号化装置を構成することができる。
From the voice discriminator 2 to the multiplexer 1
The voice / non-voice discrimination result v / uv is output to 8 so that the v / uv information is also included in the encoding parameter to be transmitted, and the corresponding decoding device is provided with the same switch as this encoding device. With a control circuit and changeover switch,
By controlling the changeover switch based on the information of / uv, it is possible to configure a variable bit rate coding device / decoding device capable of coding with higher efficiency.

【0089】このような第1の実施形態によれば、入力
信号が音声信号であるか否かを判別して、非音声信号が
所定フレーム数にわたって連続した場合に、LPC分析
器に所定の先行フレームにおける線形予測パラメータを
継続して出力させることにより、非音声信号における線
形予測パラメータの切り替えに起因する符号化音声の歪
みが減少するために、背景雑音等の非音声信号が混入し
ても、良好に音声信号を符号化することができる高品質
な音声符号化装置となる。
According to the first embodiment as described above, it is determined whether or not the input signal is a voice signal, and when the non-voice signal continues for a predetermined number of frames, the LPC analyzer is given a predetermined lead. By continuously outputting the linear prediction parameter in the frame, the distortion of the coded speech due to the switching of the linear prediction parameter in the non-voice signal is reduced, even if a non-voice signal such as background noise is mixed, It becomes a high-quality speech coder that can satisfactorily encode a speech signal.

【0090】図5,図6は本発明の第2の実施形態を示
したものであり、図5は音声符号化装置の構成を示すブ
ロック図である。この第2の実施形態において、上述の
第1の実施形態と同様である部分については説明を省略
し、主として異なる点についてのみ説明する。
FIG. 5 and FIG. 6 show the second embodiment of the present invention, and FIG. 5 is a block diagram showing the configuration of the speech coding apparatus. In the second embodiment, a description of the same parts as those in the first embodiment will be omitted, and only different points will be mainly described.

【0091】この第2実施形態の音声符号化装置は、上
記図1に示したものとほぼ同様であるが、図5に示すよ
うに、入力端子には上記バッファメモリ1と同様の機能
を果たす第1バッファメモリ21が接続されている。
The speech coding apparatus of the second embodiment is almost the same as that shown in FIG. 1, but as shown in FIG. 5, the input terminal has the same function as that of the buffer memory 1. The first buffer memory 21 is connected.

【0092】この第1バッファメモリ21の出力端は3
つに分岐されていて、第1の出力端はサブフレーム分割
器7を介して減算器8に接続され、第2の出力端は第2
バッファメモリ23に接続され、第3の出力端は音声判
別手段たる音声判別器2を介して上記第2バッファメモ
リ23の制御を行う制御手段たるバッファ制御回路22
に接続されている。
The output end of the first buffer memory 21 is 3
The first output end is connected to the subtractor 8 via the subframe divider 7, and the second output end is connected to the second
The buffer control circuit 22 is connected to the buffer memory 23, and the third output end is the control means for controlling the second buffer memory 23 via the voice discriminator 2 which is the voice discrimination means.
It is connected to the.

【0093】上記第2バッファメモリ23は、線形予測
分析手段たるLPC分析器5を介して合成フィルタ6に
接続されている。
The second buffer memory 23 is connected to the synthesis filter 6 via the LPC analyzer 5 which is a linear predictive analysis means.

【0094】その他の部分は上記図1と同様である。The other parts are the same as in FIG.

【0095】次に、上記図5に示したような構成におけ
る信号の流れを説明する。
Next, the signal flow in the configuration shown in FIG. 5 will be described.

【0096】入力端子から例えば8kHz(すなわち、
1サンプル当たり1/8ms)でサンプリングされた原
音声信号を入力して、予め定められたフレーム間隔(例
えば20ms、すなわち160サンプル)の音声信号を
第1バッファメモリ21に格納する。
From the input terminal, for example, 8 kHz (that is,
An original audio signal sampled at 1/8 ms per sample is input, and an audio signal having a predetermined frame interval (for example, 20 ms, that is, 160 samples) is stored in the first buffer memory 21.

【0097】第1バッファメモリ21は、フレーム単位
で入力信号をサブフレーム分割器7と音声判別器2に送
出する。この音声判別器2は、フレームの入力信号が音
声か非音声かを、例えば上記第1の実施形態に説明した
ような方法で判別する。
The first buffer memory 21 sends the input signal to the subframe divider 7 and the voice discriminator 2 in frame units. The voice discriminator 2 discriminates whether the input signal of the frame is voice or non-voice by, for example, the method described in the first embodiment.

【0098】サブフレーム分割器7は、フレームの入力
信号を予め定められたサブフレーム間隔(例えば5m
s、つまり40サンプル)に分割する。すなわち、1フ
レームの入力信号から、第1サブフレームから第4サブ
フレームまでの4つのサブフレーム信号が作成される。
The subframe divider 7 inputs the input signal of the frame at a predetermined subframe interval (for example, 5 m).
s, that is, 40 samples). That is, four subframe signals from the first subframe to the fourth subframe are created from the input signal of one frame.

【0099】LPC分析器5は、入力信号に対して線形
予測分析(LPC分析)を行って、スペクトル特性を表
す線形予測パラメータαを抽出し、合成フィルタ6およ
びマルチプレクサ18に送出する。
The LPC analyzer 5 performs a linear prediction analysis (LPC analysis) on the input signal, extracts a linear prediction parameter α representing a spectral characteristic, and sends it to the synthesis filter 6 and the multiplexer 18.

【0100】次に、上記バッファ制御回路22の動作を
図6を参照して説明する。図6は音声符号化装置の動作
を示すフローチャートである。
Next, the operation of the buffer control circuit 22 will be described with reference to FIG. FIG. 6 is a flowchart showing the operation of the speech coding apparatus.

【0101】符号化が開始されると、非音声フレーム連
続数を示す変数iを0にセットする(ステップS2
1)。
When encoding is started, a variable i indicating the number of continuous non-voice frames is set to 0 (step S2).
1).

【0102】次に、音声判別器2における判別結果が音
声(v)であるか非音声(uv)であるかを判定する
(ステップS22)。
Next, it is determined whether the discrimination result by the voice discriminator 2 is voice (v) or non-voice (uv) (step S22).

【0103】このステップS22における判別結果が非
音声である場合には、第2バッファメモリ23にバッフ
ァリングを行い(ステップS23)、変数iを1増分し
て(ステップS24)、変数iが所定数R(例えば1
0)より小さいか否かを判定する(ステップS25)。
If the determination result in step S22 is non-voice, buffering is performed in the second buffer memory 23 (step S23), the variable i is incremented by 1 (step S24), and the variable i is set to a predetermined number. R (eg 1
0) is smaller than 0 (step S25).

【0104】このステップS25において変数iが所定
数R(例えば10)より小さい場合には、第2バッファ
メモリ23の内容を一括してLPC分析して(ステップ
S26)、その後次のフレームの処理を待ち(ステップ
S27)、一方、ステップS25において変数iが所定
数R以上である場合には、上記ステップS26を行うこ
となく上記ステップS27へ行く。
If the variable i is smaller than the predetermined number R (for example, 10) in step S25, the contents of the second buffer memory 23 are collectively LPC analyzed (step S26), and then the next frame is processed. On the other hand, when the variable i is equal to or more than the predetermined number R in step S25, the process goes to step S27 without performing step S26.

【0105】一方、上記ステップS22における判別結
果が音声である場合には、非音声フレーム連続数を示す
変数iを0にリセットした後に(ステップS28)、L
PC分析器5によりLPC分析を行ってスペクトルパラ
メータを更新する(ステップS29)。その後、上記ス
テップS27に進んで次のフレームの処理を待つ。
On the other hand, when the discrimination result in the above step S22 is voice, after resetting the variable i indicating the number of continuous non-voice frames to 0 (step S28), L
The LPC analysis is performed by the PC analyzer 5 to update the spectrum parameter (step S29). Then, the process proceeds to step S27 and waits for the processing of the next frame.

【0106】適応コードブック12の遅れL、ゲイン
β、確率コードブックのインデックスi、ゲインγは、
上記従来例において説明した方法と同様に決定される。
The delay L of the adaptive codebook 12, the gain β, the index i of the probability codebook, and the gain γ are
It is determined in the same manner as the method described in the above conventional example.

【0107】マルチプレクサ18は、量子化された線形
予測パラメータα、適応コードブックの遅れL、ゲイン
β、確率コードブックのインデックスi、ゲインγの各
々をマルチプレクスして伝送する。
The multiplexer 18 multiplexes and transmits the quantized linear prediction parameter α, the adaptive codebook delay L, the gain β, the probability codebook index i, and the gain γ.

【0108】なお、上述したような音声符号化装置に対
応する音声復号化装置の復号化動作は、上記従来例にお
いて説明したものと同様である。
The decoding operation of the speech decoding apparatus corresponding to the speech coding apparatus as described above is the same as that described in the conventional example.

【0109】また、この実施形態においても、伝送する
符号化パラメータにv/uvの情報も入れるようにし
て、復号化装置もこれに対応した構成としても良い。
Also in this embodiment, the v / uv information may be included in the coding parameter to be transmitted, and the decoding device may have a structure corresponding thereto.

【0110】このような第2の実施形態によれば、バッ
ファメモリを用いることで、上述の第1の実施形態と同
様に、良好に音声信号を符号化することができる高品質
な音声符号化装置となる。
According to the second embodiment as described above, by using the buffer memory, as in the first embodiment described above, a high-quality voice encoding capable of properly encoding a voice signal can be performed. It becomes a device.

【0111】なお、上記第1,第2の実施形態の音声判
別器における音声判別方法は、一例として述べたもので
あって、上述した手段に限るものではない。
The voice discrimination methods in the voice discriminators of the first and second embodiments are described as an example, and are not limited to the above-mentioned means.

【0112】また、上記第1,第2の実施形態において
は、コード駆動線形予測符号化装置を一例として取り上
げて説明したが、線形予測パラメータと、線形予測残差
信号に相当する駆動音源信号のパラメータとで表現する
符号化装置であれば、当然にして、何れのものにも適用
することが可能である。
In the first and second embodiments, the code-driven linear predictive coding apparatus has been described as an example. However, the linear predictive parameter and the drive excitation signal corresponding to the linear predictive residual signal are used. As long as the encoding device is expressed by parameters, it can be applied to any of them.

【0113】[付記]以上詳述したような本発明の上記
実施形態によれば、以下のごとき構成を得ることができ
る。
[Additional Notes] According to the above-described embodiment of the present invention as described in detail above, the following configuration can be obtained.

【0114】(1) 予め定められたフレーム間隔に分
割された入力信号が、音声信号か非音声信号かを判別す
る音声判別手段と、上記入力信号のスペクトルパラメー
タを出力する線形予測分析手段と、上記音声判別手段に
よる判別結果が非音声信号であることが所定フレーム数
にわたって連続した場合に、上記入力信号のスペクトル
パラメータとして、上記線形予測分析手段に所定の先行
フレームにおけるスペクトルパラメータを継続して出力
させる制御手段と、線形予測残差信号に相当する駆動音
源信号を生成する駆動音源信号生成手段と、上記スペク
トルパラメータに基づいて上記駆動音源信号から音声を
合成する合成フィルタと、を具備したことを特徴とする
音声符号化装置。
(1) A voice discriminating means for discriminating whether the input signal divided into a predetermined frame interval is a voice signal or a non-voice signal, and a linear prediction analysis means for outputting a spectrum parameter of the input signal. When the result of the discrimination by the speech discriminating means is a non-speech signal continuously for a predetermined number of frames, the spectral parameter in the predetermined preceding frame is continuously output to the linear prediction analysis means as the spectral parameter of the input signal. Control means, a driving sound source signal generating means for generating a driving sound source signal corresponding to the linear prediction residual signal, and a synthesis filter for synthesizing voice from the driving sound source signal based on the spectral parameter. Characteristic speech encoding device.

【0115】(2) 予め定められたフレーム間隔に分
割された入力信号が、音声信号か非音声信号かを判別す
る音声判別手段と、上記入力信号のスペクトルパラメー
タを出力する線形予測分析手段と、上記音声判別手段に
よる判別結果が非音声信号である場合には、所定フレー
ム数を越えない範囲で次に音声信号であると判別される
までその入力信号をバッファリングして、上記線形予測
分析手段にその入力信号を一括して線形予測分析させる
制御手段と、線形予測残差信号に相当する駆動音源信号
を生成する駆動音源信号生成手段と、上記スペクトルパ
ラメータに基づいて上記駆動音源信号から音声を合成す
る合成フィルタと、を具備したことを特徴とする音声符
号化装置。
(2) A voice discriminating means for discriminating whether the input signal divided into a predetermined frame interval is a voice signal or a non-voice signal, and a linear predictive analyzing means for outputting the spectrum parameter of the input signal. When the discrimination result by the voice discriminating means is a non-voice signal, the input signal is buffered until the next voice signal is discriminated within a range not exceeding a predetermined number of frames, and the linear predictive analyzing means is provided. Control means for collectively performing linear prediction analysis of the input signal, driving source signal generation means for generating a driving source signal corresponding to the linear prediction residual signal, and voice from the driving source signal based on the spectral parameter. A speech coding apparatus comprising: a synthesizing filter for synthesizing.

【0116】(3) 上記駆動音源信号生成手段は、遅
延回路と、適応コードブックと、確率コードブックとを
具備してなることを特徴とする上記(1)または(2)
に記載の音声符号化装置。
(3) The driving sound source signal generating means comprises a delay circuit, an adaptive codebook, and a probability codebook, wherein (1) or (2) above.
3. The speech encoding device according to claim 1.

【0117】(4) 上記音声判別手段は、上記フレー
ム間隔に分割された入力信号のフレームエネルギーを算
出するフレームエネルギー分析手段と、符号化を開始し
たときの上記入力信号のフレームエネルギーを算出する
初期フレームエネルギー分析手段と、非音声信号のエネ
ルギーの大きさに応じて閾値を決定する閾値決定手段
と、上記フレームエネルギー分析手段により算出された
フレームエネルギーと上記初期フレームエネルギー分析
手段により算出された初期フレームエネルギーを符号を
互いに逆にして加算することにより実質的に減算を行う
加算器と、この加算器による減算結果と上記閾値決定手
段により決定された閾値とを比較して、減算結果が閾値
より大きければフレーム入力信号は音声区間であると判
別し、そうでなければ非音声区間であると判別する判別
手段と、を具備してなることを特徴とする上記(1)ま
たは(2)に記載の音声符号化装置。
(4) The voice discriminating means calculates the frame energy of the input signal divided into the frame intervals, and the initial stage of calculating the frame energy of the input signal when the encoding is started. Frame energy analysis means, threshold value determination means for determining a threshold value according to the energy level of the non-voice signal, frame energy calculated by the frame energy analysis means, and initial frame calculated by the initial frame energy analysis means If the result of subtraction is greater than the threshold value by comparing the result of the subtraction by the adder and the threshold value determined by the threshold value determining means with each other, the adder that performs the subtraction by adding the energy with the signs opposite to each other is added. If the frame input signal is in the voice section, The speech coding apparatus according to (1) or (2) above, further comprising: a discriminating unit that discriminates a non-speech section.

【0118】上記(1)に記載の発明によれば、非音声
信号が入力しても良好に符号化することができる音質の
良い音声符号化装置となる。
According to the invention described in (1) above, a speech coding apparatus with good sound quality can be obtained which can be well coded even if a non-speech signal is input.

【0119】上記(2)に記載の発明によれば、次に音
声信号であると判別されるまで入力信号をバッファリン
グすることにより、上記(1)に記載の発明と同様の効
果を奏することができる。
According to the invention described in (2) above, the same effect as that of the invention described in (1) above can be obtained by buffering the input signal until it is determined that the audio signal is the next audio signal. You can

【0120】上記(3)に記載の発明によれば、上記
(1)または(2)に記載の発明と同様の効果を奏する
とともに、CELP(Code Excited Linear Predictive Codi
ng)方式を用いることにより、より良好な音質を得るこ
とができる。
According to the invention described in (3) above, the same effect as that of the invention described in (1) or (2) above can be obtained, and the CELP (Code Excited Linear Predictive Codi
ng) method, it is possible to obtain better sound quality.

【0121】上記(4)に記載の発明によれば、上記
(1)または(2)に記載の発明と同様の効果を奏する
とともに、非音声信号のエネルギーの大きさに応じて、
入力信号が音声信号か非音声信号かを良好に判別するこ
とができる。
According to the invention described in (4) above, the same effect as that of the invention described in (1) or (2) above can be obtained, and according to the magnitude of the energy of the non-voice signal,
It is possible to favorably determine whether the input signal is a voice signal or a non-voice signal.

【0122】[0122]

【発明の効果】以上説明したように請求項1に記載の発
明によれば、非音声信号が入力しても良好に符号化する
ことができる音質の良い音声符号化装置となる。
As described above, according to the invention as set forth in claim 1, it becomes a speech coding apparatus with good sound quality which can be well coded even if a non-speech signal is inputted.

【0123】また、請求項2に記載の発明によれば、次
に音声信号であると判別されるまで入力信号をバッファ
リングすることにより、請求項1に記載の発明と同様の
効果を奏することができる。
According to the second aspect of the invention, the same effect as that of the first aspect of the invention can be obtained by buffering the input signal until it is determined that it is the next audio signal. You can

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施形態の音声符号化装置の構
成を示すブロック図。
FIG. 1 is a block diagram showing a configuration of a speech encoding apparatus according to a first embodiment of the present invention.

【図2】上記第1の実施形態の音声符号化装置における
音声判別器の構成を示すブロック図。
FIG. 2 is a block diagram showing a configuration of a voice discriminator in the voice encoding device according to the first embodiment.

【図3】上記第1の実施形態において、音声判別器の閾
値決定回路により決定される閾値の背景雑音エネルギー
との関係の一例を示す線図。
FIG. 3 is a diagram showing an example of a relationship between a threshold value determined by a threshold value determination circuit of the voice discriminator and background noise energy in the first embodiment.

【図4】上記第1の実施形態の音声符号化装置の動作を
示すフローチャート。
FIG. 4 is a flowchart showing the operation of the speech encoding apparatus according to the first embodiment.

【図5】本発明の第2の実施形態の音声符号化装置の構
成を示すブロック図。
FIG. 5 is a block diagram showing a configuration of a speech encoding apparatus according to a second embodiment of the present invention.

【図6】上記第2の実施形態の音声符号化装置の動作を
示すフローチャート。
FIG. 6 is a flowchart showing the operation of the speech encoding apparatus according to the second embodiment.

【図7】従来の音声符号化装置の構成を示すブロック
図。
FIG. 7 is a block diagram showing a configuration of a conventional speech encoding device.

【図8】上記図7の音声符号化装置に対応する音声復号
化装置の構成を示すブロック図。
8 is a block diagram showing a configuration of a speech decoding apparatus corresponding to the speech encoding apparatus of FIG. 7.

【符号の説明】[Explanation of symbols]

2…音声判別器(音声判別手段) 3…スイッチ制御回路(制御手段) 5…LPC分析器(線形予測分析手段) 6…合成フィルタ 10…誤差評価器 11…遅延回路(駆動音源信号生成手段の一部) 12…適応コードブック(駆動音源信号生成手段の一
部) 14…確率コードブック(駆動音源信号生成手段の一
部) 18…マルチプレクサ 22…バッファ制御回路(制御手段) α…線形予測パラメータ(スペクトルパラメータ)
2 ... Voice discriminator (voice discriminating means) 3 ... Switch control circuit (control means) 5 ... LPC analyzer (linear prediction analyzing means) 6 ... Synthesis filter 10 ... Error evaluator 11 ... Delay circuit (driving source signal generating means) Part: 12 ... Adaptive codebook (part of driving sound source signal generating means) 14 ... Stochastic codebook (part of driving sound source signal generating means) 18 ... Multiplexer 22 ... Buffer control circuit (control means) α ... Linear prediction parameter (Spectral parameter)

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 H03M 7/42 9382−5K H03M 7/42 ─────────────────────────────────────────────────── ─── Continuation of the front page (51) Int.Cl. 6 Identification number Office reference number FI technical display location H03M 7/42 9382-5K H03M 7/42

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】 予め定められたフレーム間隔に分割され
た入力信号が、音声信号か非音声信号かを判別する音声
判別手段と、 上記入力信号のスペクトルパラメータを出力する線形予
測分析手段と、 上記音声判別手段による判別結果が非音声信号であるこ
とが所定フレーム数にわたって連続した場合に、上記入
力信号のスペクトルパラメータとして、上記線形予測分
析手段に所定の先行フレームにおけるスペクトルパラメ
ータを継続して出力させる制御手段と、 線形予測残差信号に相当する駆動音源信号を生成する駆
動音源信号生成手段と、 上記スペクトルパラメータに基づいて上記駆動音源信号
から音声を合成する合成フィルタと、 を具備したことを特徴とする音声符号化装置。
1. A voice discriminating means for discriminating whether an input signal divided into a predetermined frame interval is a voice signal or a non-voice signal, a linear prediction analysis means for outputting a spectrum parameter of the input signal, and When the discrimination result by the voice discriminating means is a non-voice signal continuously for a predetermined number of frames, the linear predictive analyzing means continuously outputs the spectrum parameter in a predetermined preceding frame as the spectrum parameter of the input signal. Control means, drive source signal generation means for generating a drive source signal corresponding to the linear prediction residual signal, and a synthesis filter for synthesizing voice from the drive source signal based on the spectral parameter. Speech coding device.
【請求項2】 予め定められたフレーム間隔に分割され
た入力信号が、音声信号か非音声信号かを判別する音声
判別手段と、 上記入力信号のスペクトルパラメータを出力する線形予
測分析手段と、 上記音声判別手段による判別結果が非音声信号である場
合には、所定フレーム数を越えない範囲で次に音声信号
であると判別されるまでその入力信号をバッファリング
して、上記線形予測分析手段にその入力信号を一括して
線形予測分析させる制御手段と、 線形予測残差信号に相当する駆動音源信号を生成する駆
動音源信号生成手段と、 上記スペクトルパラメータに基づいて上記駆動音源信号
から音声を合成する合成フィルタと、 を具備したことを特徴とする音声符号化装置。
2. A voice discriminating means for discriminating whether an input signal divided into predetermined frame intervals is a voice signal or a non-voice signal, a linear prediction analysis means for outputting a spectrum parameter of the input signal, and If the discrimination result by the voice discriminating means is a non-voice signal, the input signal is buffered until it is discriminated as the next voice signal in a range not exceeding the predetermined number of frames, and then the linear predictive analyzing means is provided. Control means for collectively performing linear prediction analysis of the input signals, driving sound source signal generation means for generating a driving sound source signal corresponding to the linear prediction residual signal, and speech synthesis from the driving sound source signal based on the spectrum parameter. A speech coding apparatus, comprising:
JP7268756A 1995-10-17 1995-10-17 Speech encoding device Withdrawn JPH09114498A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7268756A JPH09114498A (en) 1995-10-17 1995-10-17 Speech encoding device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7268756A JPH09114498A (en) 1995-10-17 1995-10-17 Speech encoding device

Publications (1)

Publication Number Publication Date
JPH09114498A true JPH09114498A (en) 1997-05-02

Family

ID=17462896

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7268756A Withdrawn JPH09114498A (en) 1995-10-17 1995-10-17 Speech encoding device

Country Status (1)

Country Link
JP (1) JPH09114498A (en)

Similar Documents

Publication Publication Date Title
KR20070028373A (en) Audio/music decoding device and audio/music decoding method
US5659659A (en) Speech compressor using trellis encoding and linear prediction
KR100218214B1 (en) Apparatus for encoding voice and apparatus for encoding and decoding voice
EP1096476B1 (en) Speech signal decoding
JP3357795B2 (en) Voice coding method and apparatus
EP1073039B1 (en) Speech signal decoding
JPH09152896A (en) Sound path prediction coefficient encoding/decoding circuit, sound path prediction coefficient encoding circuit, sound path prediction coefficient decoding circuit, sound encoding device and sound decoding device
EP0856185B1 (en) Repetitive sound compression system
JP3266178B2 (en) Audio coding device
JPH08305398A (en) Voice decoding device
JPH09185397A (en) Speech information recording device
JP3329216B2 (en) Audio encoding device and audio decoding device
JP3417362B2 (en) Audio signal decoding method and audio signal encoding / decoding method
JP3050978B2 (en) Audio coding method
JP3496618B2 (en) Apparatus and method for speech encoding / decoding including speechless encoding operating at multiple rates
JP3607774B2 (en) Speech encoding device
JPH09114498A (en) Speech encoding device
JP4597360B2 (en) Speech decoding apparatus and speech decoding method
JPH10149200A (en) Linear predictive encoder
JPH09185396A (en) Speech encoding device
JPH0990997A (en) Speech coding device, speech decoding device, speech coding/decoding method and composite digital filter
JP3006790B2 (en) Voice encoding / decoding method and apparatus
JP3063087B2 (en) Audio encoding / decoding device, audio encoding device, and audio decoding device
JP2000089797A (en) Speech encoding apparatus
JPH09281997A (en) Voice coding device

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20030107