JP2007212637A - Voice coding device, voice decoding device, voice coding method and voice decoding method - Google Patents

Voice coding device, voice decoding device, voice coding method and voice decoding method Download PDF

Info

Publication number
JP2007212637A
JP2007212637A JP2006030957A JP2006030957A JP2007212637A JP 2007212637 A JP2007212637 A JP 2007212637A JP 2006030957 A JP2006030957 A JP 2006030957A JP 2006030957 A JP2006030957 A JP 2006030957A JP 2007212637 A JP2007212637 A JP 2007212637A
Authority
JP
Japan
Prior art keywords
linear prediction
prediction coefficient
speech
coefficient
coefficients
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006030957A
Other languages
Japanese (ja)
Other versions
JP4816115B2 (en
Inventor
Hiroyasu Ide
博康 井手
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2006030957A priority Critical patent/JP4816115B2/en
Publication of JP2007212637A publication Critical patent/JP2007212637A/en
Application granted granted Critical
Publication of JP4816115B2 publication Critical patent/JP4816115B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To minimize sound quality deterioration and to reduce an amount of generated codes. <P>SOLUTION: A voice coding device 100 comprises: a linear prediction analysis section 1 for calculating a linear prediction coefficient from an input voice signal by a predetermined minute unit; and a representative linear prediction coefficient calculation section 2 in which similarity of each linear prediction coefficient is judged based on distance between linear prediction coefficients, and a representative linear prediction coefficient which is a representative of a plurality of linear prediction coefficients having continuous similar values is calculated, and the plurality of similar linear prediction coefficients are replaced with the representative linear prediction coefficient. An excitation signal is selected so that an error between a synthesized voice calculated by inputting the excitation signal as a driving signal to a linear prediction filter which is generated from the obtained linear prediction coefficient, and the input voice signal, may become a minimum. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法に関する。   The present invention relates to a speech encoding device, speech decoding device, speech encoding method, and speech decoding method.

携帯電話等で利用されている音声圧縮方法の多くは、入力された音声信号から線形予測係数を算出し、当該音声信号に近い励起信号を探し、当該励起信号と線形予測係数の双方のパラメータを圧縮符号(符号化信号)として出力する方式に基づいている(例えば、非特許文献1参照。)。   Many speech compression methods used in mobile phones, etc., calculate linear prediction coefficients from input speech signals, search for excitation signals close to the speech signals, and set parameters for both the excitation signals and the linear prediction coefficients. This is based on a method of outputting as a compressed code (encoded signal) (for example, see Non-Patent Document 1).

図7に、従来の音声符号化装置300の構成を示す。線形予測分析部30では、入力された音声信号の線形予測分析を行うことにより線形予測係数が算出される。ここで、音声信号の時間軸上における一定の長さをひとまとめとして、当該一定長の単位で線形予測係数が算出される。音声符号化装置300の生成符号量を減らすために、前記一定長をひとまとめとして、一つおきに線形予測係数を符号化するため、補間部31では、間引いた線形予測係数が、その前後の線形予測係数から補間して生成される。   FIG. 7 shows the configuration of a conventional speech encoding apparatus 300. The linear prediction analysis unit 30 calculates a linear prediction coefficient by performing linear prediction analysis of the input speech signal. Here, a certain length of the audio signal on the time axis is grouped and a linear prediction coefficient is calculated in the unit of the certain length. In order to reduce the amount of generated code of the speech encoding apparatus 300, the linear prediction coefficients are encoded with every other fixed length as a whole, so that the interpolating unit 31 uses the linear prediction coefficients thinned out before and after the linear prediction coefficients. It is generated by interpolation from the prediction coefficient.

線形予測フィルタ部32では、補間後の線形予測係数から線形予測フィルタが生成される。適応符号帳探索部34の適応符号帳から取り出された適応符号と、雑音符号帳探索部35の雑音符号帳から取り出された雑音符号は、それぞれ、アンプ36、37で増幅後、合成部38で合成され、合成後の信号が、上記生成された線形予測フィルタによりフィルタリングされる。   The linear prediction filter unit 32 generates a linear prediction filter from the linear prediction coefficient after interpolation. The adaptive code extracted from the adaptive codebook of the adaptive codebook search unit 34 and the noise code extracted from the noise codebook of the noise codebook search unit 35 are amplified by the amplifiers 36 and 37, respectively, and then combined by the combining unit 38. The synthesized signal is filtered by the generated linear prediction filter.

誤差算出部33では、フィルタリング後の信号と、入力された音声信号との誤差が算出される。誤差算出部33で算出された誤差が最小となるときの雑音符号及び適応符号を表すインデックスと、一つおきの線形予測係数が、符号として音声符号化装置300から出力される。一般に線形予測係数は、5〜7ms程度の間隔で算出されるが、伝送符号中の線形予測係数は、10〜15msの間隔で送信され、受信側で補間処理を行う場合が多い。
音声圧縮規格ITU−T G.729
The error calculator 33 calculates an error between the filtered signal and the input audio signal. The speech encoding apparatus 300 outputs an index representing a noise code and an adaptive code when the error calculated by the error calculation unit 33 is minimized, and every other linear prediction coefficient as a code. In general, linear prediction coefficients are calculated at intervals of about 5 to 7 ms, but linear prediction coefficients in transmission codes are transmitted at intervals of 10 to 15 ms, and interpolation processing is often performed on the receiving side.
Audio compression standard ITU-T G. 729

しかしながら、上述の従来の音声符号化方法では、入力音声の特徴に関らず、一定長の単位で線形予測係数を算出して補間処理を行っているため、補間処理によって生成される線形予測係数が、入力音声に対して適切でない場合(特に過渡期)があり、音質の低下を招いていた。   However, in the conventional speech coding method described above, the linear prediction coefficient generated by the interpolation process is calculated because the linear prediction coefficient is calculated in a unit of a fixed length and the interpolation process is performed regardless of the characteristics of the input speech. However, there are cases where it is not appropriate for the input voice (particularly during the transition period), leading to a reduction in sound quality.

本発明の課題は、音質の低下を最小限に抑制し、生成される符号量を低減させることを可能とすることである。   An object of the present invention is to suppress a decrease in sound quality to a minimum and to reduce the amount of generated codes.

上記課題を解決するため、請求項1に記載の発明は、線形予測フィルタと励起信号によって入力音声を符号化する音声符号化装置であって、入力された音声信号から所定の微小単位で線形予測係数を算出する線形予測係数算出手段と、前記線形予測係数算出手段により算出された線形予測係数間の距離を算出する距離算出手段と、前記距離算出手段により算出された線形予測係数間の距離に基づいて各線形予測係数の類似性を判断し、連続して類似した値を有する複数の線形予測係数がある場合、当該複数の線形予測係数の代表となる代表線形予測係数を算出し、当該複数の線形予測係数を前記算出された代表線形予測係数に置き換える処理を行う代表線形予測係数算出手段と、前記線形予測係数算出手段及び前記代表線形予測係数算出手段で得られた線形予測係数を用いて線形予測フィルタを生成する生成手段と、前記生成手段により生成された線形予測フィルタに励起信号を駆動信号として入力して算出された合成音声と、前記入力された音声信号との誤差が最小となるような励起信号を選択する選択手段と、を備えることを特徴としている。   In order to solve the above-mentioned problem, the invention described in claim 1 is a speech encoding apparatus that encodes input speech using a linear prediction filter and an excitation signal, and linear prediction is performed in predetermined minute units from the input speech signal. A linear prediction coefficient calculation means for calculating a coefficient, a distance calculation means for calculating a distance between the linear prediction coefficients calculated by the linear prediction coefficient calculation means, and a distance between the linear prediction coefficients calculated by the distance calculation means. If there are a plurality of linear prediction coefficients having similar values in succession, a representative linear prediction coefficient that is representative of the plurality of linear prediction coefficients is calculated. Representative linear prediction coefficient calculating means for performing a process of replacing the linear prediction coefficient of the representative prediction coefficient with the calculated representative linear prediction coefficient, the linear prediction coefficient calculating means, and the representative linear prediction coefficient calculating means Generation means for generating a linear prediction filter using the obtained linear prediction coefficient, synthesized speech calculated by inputting an excitation signal as a drive signal to the linear prediction filter generated by the generation means, and the input Selecting means for selecting an excitation signal that minimizes an error from the audio signal.

請求項2に記載の発明は、請求項1に記載の音声符号化装置において、前記距離算出手段は、前記線形予測係数算出手段により算出された線形予測係数をLSP係数に変換し、LSP係数間の距離を用いて前記線形予測係数間の距離を算出することを特徴としている。   According to a second aspect of the present invention, in the speech coding apparatus according to the first aspect, the distance calculation unit converts the linear prediction coefficient calculated by the linear prediction coefficient calculation unit into an LSP coefficient, and The distance between the linear prediction coefficients is calculated using the distance.

請求項3に記載の発明は、請求項1又は2に記載の音声符号化装置において、前記代表線形予測係数算出手段は、線形予測係数間の距離が予め設定された固定値よりも小さい場合に、類似した値を有するものとして判断することを特徴としている。   According to a third aspect of the present invention, in the speech coding apparatus according to the first or second aspect, the representative linear prediction coefficient calculation unit is configured to perform a case where the distance between the linear prediction coefficients is smaller than a preset fixed value. It is characterized in that it is judged as having a similar value.

請求項4に記載の発明は、請求項1又は2に記載の音声符号化装置において、前記代表線形予測係数算出手段は、特定の線形予測係数に対し、線形予測係数間の距離が予め設定された比率よりも小さい場合に、類似した値を有するものとして判断することを特徴としている。   According to a fourth aspect of the present invention, in the speech coding apparatus according to the first or second aspect, the representative linear prediction coefficient calculation means sets a distance between the linear prediction coefficients in advance for a specific linear prediction coefficient. It is characterized in that it is judged as having a similar value when it is smaller than the ratio.

請求項5に記載の発明は、請求項1〜4の何れか一項に記載の音声符号化装置において、前記線形予測係数算出手段及び前記代表線形予測係数算出手段で得られた線形予測係数の時間軸における変化が所定値より大きいか否かを判定する判定手段と、前記判定手段により、前記線形予測係数の変化が所定値以下であると判定された場合、所定間隔で間引いた線形予測係数の補間処理を行う補間手段と、を備え、前記判定手段により、前記線形予測係数の変化が所定値より大きいと判定された場合、線形予測係数の間引き処理及び前記補間手段による補間処理を行わないことを特徴としている。   According to a fifth aspect of the present invention, in the speech coding apparatus according to any one of the first to fourth aspects, the linear prediction coefficient obtained by the linear prediction coefficient calculating means and the representative linear prediction coefficient calculating means A determination unit that determines whether or not a change in the time axis is greater than a predetermined value, and a linear prediction coefficient that is thinned out at a predetermined interval when the determination unit determines that the change in the linear prediction coefficient is equal to or less than a predetermined value. Interpolating means for performing the interpolating process, and when the determining means determines that the change in the linear prediction coefficient is greater than a predetermined value, the linear predictive coefficient thinning process and the interpolating process by the interpolating means are not performed. It is characterized by that.

請求項6に記載の音声復号装置は、音声信号から所定の微小単位で算出された線形予測係数のうち、連続して類似した値を有する複数の線形予測係数を代表線形予測係数で置き換えて得られる新たな線形予測係数から線形予測フィルタを生成する生成手段と、前記生成手段により生成された線形予測フィルタに、符号化された音声信号から生成された励起信号を入力して合成音声を出力する出力手段と、を備えることを特徴としている。   The speech decoding apparatus according to claim 6 is obtained by replacing a plurality of linear prediction coefficients having similar values in succession with a representative linear prediction coefficient among linear prediction coefficients calculated in a predetermined minute unit from a speech signal. Generating a linear prediction filter from the generated new linear prediction coefficient, and inputting the excitation signal generated from the encoded speech signal to the linear prediction filter generated by the generating unit and outputting the synthesized speech And an output means.

請求項7に記載の音声符号化方法は、線形予測フィルタと励起信号によって音声信号を符号化する音声符号化方法であって、前記音声信号から所定の微小単位で線形予測係数を算出し、前記算出された線形予測係数間の距離を算出し、前記算出された線形予測係数間の距離に基づいて各線形予測係数の類似性を判断し、連続して類似した値を有する複数の線形予測係数がある場合、当該複数の線形予測係数の代表となる代表線形予測係数を算出し、当該複数の線形予測係数を前記算出された代表線形予測係数に置き換える処理を行い、前記算出された線形予測係数及び前記代表線形予測係数に置き換えられた線形予測係数を用いて線形予測フィルタを生成し、前記生成された線形予測フィルタに励起信号を駆動信号として入力して算出された合成音声と、前記音声信号との誤差が最小となるような励起信号を選択することを特徴としている。   The speech encoding method according to claim 7, wherein the speech encoding method encodes a speech signal with a linear prediction filter and an excitation signal, and calculates a linear prediction coefficient in a predetermined minute unit from the speech signal, A distance between the calculated linear prediction coefficients is calculated, a similarity between each linear prediction coefficient is determined based on the calculated distance between the linear prediction coefficients, and a plurality of linear prediction coefficients having consecutively similar values If there is, a representative linear prediction coefficient that is representative of the plurality of linear prediction coefficients is calculated, a process of replacing the plurality of linear prediction coefficients with the calculated representative linear prediction coefficient, and the calculated linear prediction coefficient And a linear prediction filter generated using the linear prediction coefficient replaced with the representative linear prediction coefficient, and an excitation signal is input to the generated linear prediction filter as a drive signal. And forming the voice, it is characterized in that error between the speech signal to select an excitation signal that minimizes.

請求項8に記載の音声復号方法は、音声信号から所定の微小単位で算出された線形予測係数のうち、連続して類似した値を有する複数の線形予測係数を代表線形予測係数で置き換えて得られる新たな線形予測係数から線形予測フィルタを生成し、当該線形予測フィルタに、符号化された音声信号から生成された励起信号を入力して合成音声を出力することを特徴としている。   The speech decoding method according to claim 8 is obtained by replacing a plurality of linear prediction coefficients having similar values in succession with linear representative prediction coefficients among linear prediction coefficients calculated in a predetermined minute unit from a speech signal. A linear prediction filter is generated from the generated new linear prediction coefficient, an excitation signal generated from the encoded speech signal is input to the linear prediction filter, and a synthesized speech is output.

本発明によれば、連続して類似した値を有する線形予測係数を代表線形予測係数に置き換えることにより、音質に与える影響を最小限に抑制し、生成符号量を低減させることが可能となる。   According to the present invention, it is possible to minimize the influence on sound quality and reduce the amount of generated codes by replacing linear prediction coefficients having similar values in succession with representative linear prediction coefficients.

また、線形予測係数の類似性を判断する際に、線形予測係数をLSP係数に変換してから線形予測係数間の距離を算出することにより、線形予測係数間の距離をより高精度に算出することが可能となる。   Further, when determining the similarity of the linear prediction coefficients, the distance between the linear prediction coefficients is calculated with higher accuracy by calculating the distance between the linear prediction coefficients after converting the linear prediction coefficient into the LSP coefficient. It becomes possible.

更に、線形予測係数の時間軸における変化(時間変化)が急激である場合には、線形予測係数の間引き処理及び補間処理を行わずにそのまま出力することにより、劣化が激しい場所を効率的に発見し、音質を向上させることが可能となる。   Furthermore, when the change in the time axis of the linear prediction coefficient (temporal change) is abrupt, it is output as it is without performing the thinning process and the interpolation process of the linear prediction coefficient, thereby efficiently finding a place where deterioration is severe. As a result, the sound quality can be improved.

以下、図面を参照して、本発明の実施形態について説明する。
まず、本実施形態における構成について説明する。
Embodiments of the present invention will be described below with reference to the drawings.
First, the configuration in the present embodiment will be described.

図1に、本実施形態に係る音声符号化装置100の構成を示す。音声符号化装置100は、図1に示すように、線形予測分析部1、代表線形予測係数算出部2、補間部3、線形予測フィルタ部4、誤差算出部5、適応符号帳探索部6、雑音符号帳探索部7、アンプ8、9、合成部10により構成される。   FIG. 1 shows the configuration of a speech encoding apparatus 100 according to this embodiment. As shown in FIG. 1, the speech encoding apparatus 100 includes a linear prediction analysis unit 1, a representative linear prediction coefficient calculation unit 2, an interpolation unit 3, a linear prediction filter unit 4, an error calculation unit 5, an adaptive codebook search unit 6, A noise codebook search unit 7, amplifiers 8 and 9, and a synthesis unit 10 are included.

線形予測分析部1は、入力された音声信号から、所定の微小単位(例えば、5ms毎など)で線形予測分析を行い、線形予測係数を算出する。n次の線形予測フィルタは式(1)のように表される。

Figure 2007212637
ここで、{ai|i=1,…,n}が線形予測係数である。 The linear prediction analysis unit 1 performs linear prediction analysis in a predetermined minute unit (for example, every 5 ms) from the input speech signal, and calculates a linear prediction coefficient. The nth-order linear prediction filter is expressed as shown in Equation (1).
Figure 2007212637
Here, {a i | i = 1,..., N} is a linear prediction coefficient.

線形予測分析の1手法として自己相関法がある。自己相関法では、例えば、線形予測分析に用いるm個の入力信号のサンプルを{si|i=0,…,m-1}とすると、自己相関係数{
i|i=0,…,n}を式(2)のように算出し、式(3)が成立する線形予測係数{ai|i=1,…,n}を算出する。

Figure 2007212637
Figure 2007212637
式(3)は、レビンソン・ダービンアルゴリズムを用いて解くことが可能である。このようにして得られたj番目の線形予測係数をAj={aji|i=1,…,n}とする。 One method of linear prediction analysis is an autocorrelation method. In the autocorrelation method, for example, if m samples of input signals used for linear prediction analysis are {s i | i = 0,..., M−1}, the autocorrelation coefficient {
r i | i = 0,..., n} is calculated as shown in equation (2), and a linear prediction coefficient {a i | i = 1,..., n} that satisfies equation (3) is calculated.
Figure 2007212637
Figure 2007212637
Equation (3) can be solved using the Levinson-Durbin algorithm. The j-th linear prediction coefficient obtained in this way is assumed to be A j = {a ji | i = 1,..., N}.

代表線形予測係数算出部2は、線形予測分析部1で得られた線形予測係数列{Aj|j=1,…,m}のうち、連続して類似した値を有する複数の線形予測係数がある場合、その複数の線形予測係数から代表線形予測係数を算出し、当該複数の線形予測係数の各々を代表線形予測係数で置き換える処理を行う。線形予測係数同士が類似しているか否かを判断する方法として、線形予測係数間のユークリッド距離を測る方法がある。ユークリッド距離の算出や、代表線形予測係数の算出においては、補間しても安定しているLSP(Line Spectrum Pair)係数に変換して行う。線形予測係数{ai|i=1,…,n}を変換して得られたLSP係数を{bi|i=1,…,n}とする。この変換は代数方程式を解くことによって求められる(非特許文献1参照)。 The representative linear prediction coefficient calculation unit 2 includes a plurality of linear prediction coefficients having consecutively similar values in the linear prediction coefficient sequence {A j | j = 1,..., M} obtained by the linear prediction analysis unit 1. If there is, a representative linear prediction coefficient is calculated from the plurality of linear prediction coefficients, and each of the plurality of linear prediction coefficients is replaced with the representative linear prediction coefficient. As a method for determining whether or not the linear prediction coefficients are similar, there is a method of measuring the Euclidean distance between the linear prediction coefficients. The calculation of the Euclidean distance and the calculation of the representative linear prediction coefficient are performed by converting them into LSP (Line Spectrum Pair) coefficients that are stable even after interpolation. Let Lbi coefficients obtained by converting the linear prediction coefficients {a i | i = 1,..., N} be {b i | i = 1,. This conversion is obtained by solving an algebraic equation (see Non-Patent Document 1).

LSP係数Bj={bji|i=1,…,n}とBk={bki|i=1,…,n}とのユークリッド距離dは式(4)のように算出される。

Figure 2007212637
式(4)のdが、予め設定された固定値よりも小さい場合に、線形予測係数AjとAkは類似していると判断される。LSP係数列{Bj|j=1,…,m}の中で、Bp={bpi|i=1,…,n}〜Bq={bqi|i=1,…,n}(p<q)が類似していると判断された場合、これらを代表するLSP係数BT={bTi|i=1,…,n}は式(5)のように算出される。
Figure 2007212637
これにより、連続して類似した値を有する複数の線形予測係数Ap〜Aqが代表線形予測係数ATに置き換えられる。 The Euclidean distance d between the LSP coefficient B j = {b ji | i = 1,..., N} and B k = {b ki | i = 1,..., N} is calculated as in equation (4).
Figure 2007212637
When d in Expression (4) is smaller than a preset fixed value, it is determined that the linear prediction coefficients A j and A k are similar. In the LSP coefficient sequence {B j | j = 1,..., M}, B p = {b pi | i = 1,..., N} to B q = {b qi | i = 1 ,. When it is determined that (p <q) are similar, LSP coefficients B T = {b Ti | i = 1,..., N} representing them are calculated as shown in Equation (5).
Figure 2007212637
Thereby, a plurality of linear prediction coefficients A p to A q having similar values in succession are replaced with the representative linear prediction coefficient A T.

なお、上述では、2つのLSP係数間のユークリッド距離が予め設定された固定値より小さければ、対応する2つの線形予測係数は類似していると判断する場合を示したが、このユークリッド距離が一定の比率を超えているか否かによって類似性を判断するようにしてもよい。例えば、式(6)に示すように、LSP係数Bj={bji|i=1,…,n}に対し、BjとBk={bki|i=1,…,n}との距離が、予め設定された比率rより小さい場合に、線形予測係数AjとAkは類似していると判断される。

Figure 2007212637
In the above description, when the Euclidean distance between the two LSP coefficients is smaller than a preset fixed value, it is determined that the corresponding two linear prediction coefficients are similar. However, the Euclidean distance is constant. Similarity may be determined based on whether or not the ratio is exceeded. For example, as shown in Equation (6), for LSP coefficient B j = {b ji | i = 1,..., N}, B j and B k = {b ki | i = 1 ,. Is smaller than a preset ratio r, it is determined that the linear prediction coefficients A j and A k are similar.
Figure 2007212637

本実施形態では、生成符号量を減らすため、一つおきに線形予測係数を符号化(即ち、Aj-1、Aj+1、Aj+3、…を符号化)するので、補間部3は、間引く対象となる線形予測係数を、その前後の線形予測係数から補間して生成し、補間処理後の線形予測係数を線形予測フィルタ部4に出力する。補間方法としては、例えば、間引く対象となる線形予測係数の前後の線形予測係数をLSP係数に変換し、変換後の前後の係数を加算して2で除算した後、線形予測係数に戻す処理を行う。 In this embodiment, every other linear prediction coefficient is encoded (that is, A j−1 , A j + 1 , A j + 3 ,...) Is encoded in order to reduce the amount of generated code. 3 generates a linear prediction coefficient to be thinned out by interpolating from the preceding and subsequent linear prediction coefficients, and outputs the linear prediction coefficient after the interpolation processing to the linear prediction filter unit 4. As an interpolation method, for example, the linear prediction coefficients before and after the linear prediction coefficient to be thinned out are converted into LSP coefficients, the coefficients before and after the conversion are added, divided by 2, and then returned to the linear prediction coefficient. Do.

このとき、補間部3は、間引き対象の線形予測係数Apと、時間的に前の線形予測係数Ap-1とのユークリッド距離を算出するとともに、間引き対象の線形予測係数Apと、時間的に後の線形予測係数Ap+1とのユークリッド距離を算出し、算出された双方の距離の差が予め設定された一定値を超えているか否かを判定し、当該一定値以下である場合には間引き処理を行い、当該一定値を超えていた場合には間引きを行わないようにする。ユークリッド距離の算出方法は、式(4)と同様である。 In this case, the interpolation unit 3, the linear prediction coefficients A p of thinning-out object, calculates the Euclidean distance between the linear prediction coefficients A p-1 of the previous time, and the linear prediction coefficients of the thinning-out object A p, time Specifically, the Euclidean distance with the subsequent linear prediction coefficient A p + 1 is calculated, and it is determined whether or not the difference between the calculated distances exceeds a predetermined value, and is equal to or less than the predetermined value. In such a case, a thinning process is performed. If the predetermined value is exceeded, thinning is not performed. The calculation method of the Euclidean distance is the same as that in Equation (4).

線形予測フィルタ部4は、代表線形予測係数への置き換えや、線形予測係数の補間によって最終的に得られた線形予測係数から、式(1)に従って線形予測フィルタを合成(生成)する。また、線形予測フィルタ部4は、適応符号帳探索処理(図4参照)において、適応符号帳の適応符号に対し、上記線形予測フィルタによるフィルタリング処理を施し、誤差算出部5に出力する。また、線形予測フィルタ部4は、雑音符号帳探索処理(図5参照)において、雑音符号帳の雑音符号と、適応符号帳探索処理(図4参照)で最終的に得られた励起信号を合成した信号に対し、上記線形予測フィルタによるフィルタリング処理を施し、誤差算出部5に出力する。線形予測フィルタ部4の出力は、線形予測フィルタに励起信号を駆動信号として入力して算出された合成音声である。   The linear prediction filter unit 4 synthesizes (generates) a linear prediction filter according to the equation (1) from the linear prediction coefficient finally obtained by replacement with the representative linear prediction coefficient or interpolation of the linear prediction coefficient. In addition, the linear prediction filter unit 4 performs filtering processing by the linear prediction filter on the adaptive code of the adaptive codebook in the adaptive codebook search processing (see FIG. 4), and outputs the result to the error calculation unit 5. The linear prediction filter unit 4 combines the noise code of the noise codebook and the excitation signal finally obtained by the adaptive codebook search process (see FIG. 4) in the noise codebook search process (see FIG. 5). The processed signal is filtered by the linear prediction filter and output to the error calculation unit 5. The output of the linear prediction filter unit 4 is a synthesized speech calculated by inputting an excitation signal as a drive signal to the linear prediction filter.

誤差算出部5は、音声符号化装置100に入力された音声信号と、線形予測フィルタ部4でのフィルタリング処理後の信号との誤差を算出し、適応符号帳探索部6及び雑音符号帳探索部7に出力する。   The error calculation unit 5 calculates an error between the speech signal input to the speech encoding apparatus 100 and the signal after the filtering process in the linear prediction filter unit 4, and the adaptive codebook search unit 6 and the noise codebook search unit 7 is output.

適応符号帳探索部6は、これまでに利用した励起信号を格納した適応符号帳を有し、適応符号帳から適応符号を取り出し、誤差算出部5で算出された、線形予測フィルタ部4でフィルタリング処理された当該適応符号と入力された音声信号との誤差が、それまで得られた誤差の中で最小となるような適応符号を選択する(図4参照)。また、適応符号帳探索部6は、適応符号帳探索処理(図4参照)及び雑音符号帳探索処理(図5参照)の後、最終的に得られた励起信号を適応符号帳に追加することで、適応符号帳を更新する。   The adaptive codebook search unit 6 has an adaptive codebook storing the excitation signals used so far, takes out the adaptive code from the adaptive codebook, and performs filtering by the linear prediction filter unit 4 calculated by the error calculation unit 5 An adaptive code is selected such that the error between the processed adaptive code and the input speech signal is the smallest among the errors obtained so far (see FIG. 4). The adaptive codebook search unit 6 adds the finally obtained excitation signal to the adaptive codebook after the adaptive codebook search process (see FIG. 4) and the noise codebook search process (see FIG. 5). Then, the adaptive codebook is updated.

雑音符号帳探索部7は、白色雑音信号(雑音符号)を格納した雑音符号帳を有し、雑音符号帳から雑音符号を取り出し、誤差算出部5で算出された、線形予測フィルタ部4でフィルタリング処理された信号と、入力された音声信号との誤差が、それまで得られた誤差の中で最小となるような雑音信号を選択する(図5参照)。ここで、線形予測フィルタ部4でのフィルタリングの対象となる信号は、雑音符号帳から取り出された雑音符号に、適応符号帳探索処理において決定された励起信号を加えた信号である。   The noise codebook search unit 7 has a noise codebook storing a white noise signal (noise code), extracts a noise code from the noise codebook, and performs filtering by the linear prediction filter unit 4 calculated by the error calculation unit 5 A noise signal is selected such that the error between the processed signal and the input audio signal is the smallest among the errors obtained so far (see FIG. 5). Here, the signal to be filtered by the linear prediction filter unit 4 is a signal obtained by adding the excitation signal determined in the adaptive codebook search process to the noise code extracted from the noise codebook.

アンプ8、9は、それぞれ、適応符号帳から取り出された適応符号、雑音符号帳から取り出された雑音符号の振幅値を所定の増幅率で増幅(調整)する。   The amplifiers 8 and 9 amplify (adjust) the amplitude values of the adaptive code extracted from the adaptive codebook and the noise code extracted from the noise codebook, respectively, with a predetermined amplification factor.

合成部10は、雑音符号帳から取り出された増幅後の雑音符号と、適応符号帳探索処理において励起信号として決定した増幅後の適応符号を合成する。   The synthesizer 10 synthesizes the amplified noise code extracted from the noise codebook and the amplified adaptive code determined as the excitation signal in the adaptive codebook search process.

このように構成された音声符号化装置100は、適応符号帳探索処理及び雑音符号帳探索処理において励起信号として最終的に得られた適応符号帳のインデックス及び雑音符号帳のインデックスと、一つおきに間引かれた線形予測係数と、アンプ8、9における増幅率を表す信号を符号化信号として出力する。   The speech coding apparatus 100 configured as described above includes the adaptive codebook index and the noise codebook index that are finally obtained as excitation signals in the adaptive codebook search process and the noise codebook search process. A signal representing the linear prediction coefficient thinned out and the amplification factor in the amplifiers 8 and 9 is output as an encoded signal.

図2に、本発明の実施形態に係る音声復号装置200の構成を示す。音声復号装置200は、音声符号化装置100で符号化された信号を復号するための装置であり、図2に示すように、適応符号帳探索部21、雑音符号帳探索部22、アンプ23、24、合成部25、補間部26、線形予測フィルタ部27により構成される。   FIG. 2 shows a configuration of speech decoding apparatus 200 according to the embodiment of the present invention. Speech decoding apparatus 200 is an apparatus for decoding the signal encoded by speech encoding apparatus 100. As shown in FIG. 2, adaptive codebook search unit 21, noise codebook search unit 22, amplifier 23, 24, a synthesis unit 25, an interpolation unit 26, and a linear prediction filter unit 27.

適応符号帳探索部21は、適応符号帳の中から、入力された適応符号帳のインデックスに対応する適応符号を探索して取り出し、アンプ23に出力する。   The adaptive codebook search unit 21 searches and extracts an adaptive code corresponding to the index of the input adaptive codebook from the adaptive codebook, and outputs it to the amplifier 23.

雑音符号帳探索部22は、雑音符号帳の中から、入力された雑音符号帳のインデックスに対応する雑音符号を取り出し、アンプ24に出力する。   The noise codebook search unit 22 extracts a noise code corresponding to the input index of the noise codebook from the noise codebook and outputs it to the amplifier 24.

アンプ23、24は、それぞれ、入力された適応符号、雑音符号を増幅し、合成部25に出力する。合成部25は、アンプ23、24からそれぞれ入力された適応符号及び雑音符号を合成する。   The amplifiers 23 and 24 amplify the input adaptive code and noise code, respectively, and output them to the synthesis unit 25. The synthesizer 25 synthesizes the adaptive code and the noise code input from the amplifiers 23 and 24, respectively.

補間部26は、符号化信号として入力されなかった線形予測係数がある場合、線形予測係数の補間処理を行い、補間処理後の線形予測係数を線形予測フィルタ部27に出力する。補間部26での補間処理は、音声符号化装置100の補間部3における補間方法と同様の方法を適用することができる。   When there is a linear prediction coefficient that has not been input as an encoded signal, the interpolation unit 26 performs interpolation processing on the linear prediction coefficient, and outputs the linear prediction coefficient after the interpolation processing to the linear prediction filter unit 27. For the interpolation processing in the interpolation unit 26, a method similar to the interpolation method in the interpolation unit 3 of the speech encoding apparatus 100 can be applied.

線形予測フィルタ部27は、入力された線形予測係数から、式(1)に従って線形予測フィルタを合成(生成)し、入力された励起信号に対して、その生成された線形予測フィルタによるフィルタリング処理を施すことによって合成音声を生成し、出力する。   The linear prediction filter unit 27 synthesizes (generates) a linear prediction filter from the input linear prediction coefficient according to Expression (1), and performs filtering processing on the input excitation signal using the generated linear prediction filter. To generate and output a synthesized speech.

次に、本実施形態における動作について説明する。
まず、図3のフローチャートを参照して、音声符号化装置100において実行される音声符号化処理について説明する。
Next, the operation in this embodiment will be described.
First, with reference to the flowchart of FIG. 3, a speech encoding process executed in the speech encoding apparatus 100 will be described.

まず、音声符号化装置100に入力された音声信号の線形予測分析が行われ、線形予測係数が算出される(ステップS1)。次いで、ステップS1で算出された線形予測係数のうち、連続して類似した値を有する複数の線形予測係数がある場合、その複数の線形予測係数から式(5)に従って代表線形予測係数が算出され、当該複数の線形予測係数の各々が、その代表線形予測係数に置き換えられることによって新たな線形予測係数が得られる(ステップS2)。   First, a linear prediction analysis is performed on a speech signal input to the speech coding apparatus 100, and a linear prediction coefficient is calculated (step S1). Next, in the case where there are a plurality of linear prediction coefficients having consecutively similar values among the linear prediction coefficients calculated in step S1, a representative linear prediction coefficient is calculated from the plurality of linear prediction coefficients according to Equation (5). Each of the plurality of linear prediction coefficients is replaced with the representative linear prediction coefficient to obtain a new linear prediction coefficient (step S2).

次いで、間引き対象の線形予測係数が、その前後の線形予測係数から補間して生成される(ステップS3)。次いで、ステップS1〜S3の処理によって最終的に得られた線形予測係数から、式(1)に従って線形予測フィルタが合成される(ステップS4)。   Next, a linear prediction coefficient to be thinned out is generated by interpolation from the preceding and subsequent linear prediction coefficients (step S3). Next, a linear prediction filter is synthesized according to the equation (1) from the linear prediction coefficients finally obtained by the processes of steps S1 to S3 (step S4).

次いで、音声符号化装置100に入力された音声信号との誤差が最も小さくなるような励起信号を適応符号帳及び雑音符号帳から探索する適応符号帳探索処理及び雑音符号帳探索処理が行われる(ステップS5、S6)。ステップS5の適応符号帳探索処理、ステップS6の雑音符号帳探索処理については、後に、それぞれ図4、図5を参照して詳細に説明する。   Next, adaptive codebook search processing and noise codebook search processing are performed in which an excitation signal that minimizes an error from the speech signal input to speech coding apparatus 100 is searched from the adaptive codebook and noise codebook ( Steps S5 and S6). The adaptive codebook search process in step S5 and the noise codebook search process in step S6 will be described later in detail with reference to FIGS. 4 and 5, respectively.

適応符号帳探索処理及び雑音符号帳探索処理が終了すると、これらの処理によって得られた励起信号を適応符号帳に追加することによって適応符号帳が更新され(ステップS7)、当該励起信号を表す適応符号帳のインデックス及び雑音符号帳のインデックスと、一つおきに間引かれた線形予測係数が符号化信号として出力され、本音声符号化処理が終了する。   When the adaptive codebook search process and the noise codebook search process are completed, the adaptive codebook is updated by adding the excitation signal obtained by these processes to the adaptive codebook (step S7), and the adaptation representing the excitation signal The codebook index, the noise codebook index, and every other linear prediction coefficient thinned out are output as encoded signals, and the speech encoding process ends.

次に、図4のフローチャートを参照して、適応符号帳探索処理(図3のステップS5)について説明する。   Next, the adaptive codebook search process (step S5 in FIG. 3) will be described with reference to the flowchart in FIG.

まず、適応符号帳から最初の適応符号が取り出され、処理対象の適応符号として設定される(ステップS11)。次いで、適応符号帳の全ての適応符号についての処理が終了したか否かが判定される(ステップS12)。ステップS12において、当該処理が終了していないと判定された場合(ステップS12;NO)、現在の処理対象の適応符号に対し、ステップS4で合成された線形予測フィルタによるフィルタリング処理が施される(ステップS13)。   First, the first adaptive code is extracted from the adaptive codebook and set as the processing target adaptive code (step S11). Next, it is determined whether or not the processing for all adaptive codes in the adaptive codebook has been completed (step S12). If it is determined in step S12 that the process has not been completed (step S12; NO), the current processing target adaptive code is subjected to a filtering process using the linear prediction filter synthesized in step S4 ( Step S13).

次いで、フィルタリング後の信号と、入力された音声信号との誤差が算出され(ステップS14)、その算出された誤差が、本探索処理開始以降に得られた誤差の中で最小であるか否かが判定される(ステップS15)。   Next, an error between the filtered signal and the input audio signal is calculated (step S14), and whether or not the calculated error is the smallest among the errors obtained after the start of the search process. Is determined (step S15).

ステップS15において、誤差が最小ではないと判定された場合(ステップS15;NO)、適応符号帳の次の適応符号が処理対象として設定され(ステップS17)、当該適応符号に対して、ステップS12〜S16の処理が繰り返される。   If it is determined in step S15 that the error is not the minimum (step S15; NO), the next adaptive code in the adaptive codebook is set as a processing target (step S17), and steps S12 to S12 are performed on the adaptive code. The process of S16 is repeated.

ステップS15において、誤差が最小であると判定された場合(ステップS15;YES)、現在の処理対象の適応符号が、励起信号候補として設定される(ステップS16)。次いで、適応符号帳の次の適応符号が処理対象として設定され(ステップS17)、当該適応符号に対して、ステップS12〜S16の処理が繰り返される。   If it is determined in step S15 that the error is the minimum (step S15; YES), the current adaptive code to be processed is set as an excitation signal candidate (step S16). Next, the next adaptive code in the adaptive codebook is set as a processing target (step S17), and the processes of steps S12 to S16 are repeated for the adaptive code.

適応符号帳の全ての適応符号についてステップS13〜S16の処理が終了すると(ステップS12;YES)、本適応符号帳探索処理が終了し、最終的に励起信号候補として残った適応符号のインデックスが符号化信号のデータとして選択されることになる。   When the processing in steps S13 to S16 is completed for all the adaptive codes in the adaptive codebook (step S12; YES), the adaptive codebook search process is terminated, and finally the index of the adaptive code remaining as the excitation signal candidate is code. Is selected as the data of the digitized signal.

次に、図5のフローチャートを参照して、雑音符号帳探索処理(図3のステップS6)について説明する。   Next, the noise codebook search process (step S6 in FIG. 3) will be described with reference to the flowchart in FIG.

まず、雑音符号帳から最初の雑音符号が取り出され、処理対象の雑音符号として設定される(ステップS21)。次いで、雑音符号帳の全ての雑音符号についての処理が終了したか否かが判定される(ステップS22)。ステップS22において、当該処理が終了していないと判定された場合(ステップS22;NO)、図4の適応符号帳探索処理で最終的に励起信号として設定された適応符号と、現在処理対象の雑音符号が合成され(ステップS23)、合成後の信号に対し、ステップS4で合成された線形予測フィルタによるフィルタリング処理が施される(ステップS24)。   First, the first noise code is extracted from the noise code book and set as a noise code to be processed (step S21). Next, it is determined whether or not the processing for all the noise codes in the noise codebook has been completed (step S22). If it is determined in step S22 that the process has not been completed (step S22; NO), the adaptive code finally set as the excitation signal in the adaptive codebook search process of FIG. The codes are synthesized (step S23), and the combined signal is subjected to filtering processing by the linear prediction filter synthesized in step S4 (step S24).

次いで、フィルタリング後の信号と、音声符号化装置100に入力された音声信号との誤差が算出され(ステップS25)、その算出された誤差が、本探索処理開始以降に得られた誤差の中で最小であるか否かが判定される(ステップS26)。   Next, an error between the filtered signal and the speech signal input to speech encoding apparatus 100 is calculated (step S25), and the calculated error is among the errors obtained after the start of the search process. It is determined whether or not it is minimum (step S26).

ステップS26において、誤差が最小ではないと判定された場合(ステップS26;NO)、雑音符号帳の次の雑音符号が処理対象として設定され(ステップS28)、当該雑音符号に対して、ステップS22〜S27の処理が繰り返される。   If it is determined in step S26 that the error is not minimum (step S26; NO), the next noise code in the noise codebook is set as a processing target (step S28), and steps S22 to S22 are performed on the noise code. The process of S27 is repeated.

ステップS26において、誤差が最小であると判定された場合(ステップS26;YES)、現在の処理対象の雑音符号が、励起信号候補として設定される(ステップS27)。次いで、雑音符号帳の次の雑音符号が処理対象として設定され(ステップS28)、当該雑音符号に対して、ステップS22〜S27の処理が繰り返される。   If it is determined in step S26 that the error is minimum (step S26; YES), the current noise code to be processed is set as an excitation signal candidate (step S27). Next, the next noise code of the noise codebook is set as a processing target (step S28), and the processing of steps S22 to S27 is repeated for the noise code.

雑音符号帳の全ての雑音符号についてステップS23〜S27の処理が終了すると(ステップS22;YES)、本雑音符号帳探索処理が終了し、最終的に励起信号候補として残った雑音符号のインデックスが符号化信号のデータとして選択されることになる。   When the processing of steps S23 to S27 is completed for all the noise codes in the noise codebook (step S22; YES), the present noise codebook search process is terminated, and finally the noise code index remaining as the excitation signal candidate is encoded. Is selected as the data of the digitized signal.

次に、図6のフローチャートを参照して、音声復号装置200において実行される音声復号処理について説明する。   Next, speech decoding processing executed in the speech decoding apparatus 200 will be described with reference to the flowchart of FIG.

まず、適応符号帳から、入力された符号化信号に含まれる適応符号帳のインデックスに対応する適応符号が取り出されるとともに(ステップT1)、雑音符号帳から、当該符号化信号に含まれる雑音符号帳のインデックスに対応する雑音符号が取り出され(ステップT2)、その取り出された適応符号及び雑音符号から励起信号が生成される。   First, an adaptive code corresponding to the index of the adaptive codebook included in the input encoded signal is extracted from the adaptive codebook (step T1), and the noise codebook included in the encoded signal is extracted from the noise codebook. Is extracted (step T2), and an excitation signal is generated from the extracted adaptive code and noise code.

次いで、その生成された励起信号を適応符号帳に追加することによって適応符号帳が更新される(ステップT3)。次いで、符号化信号として入力されなかった線形予測係数がある場合は、その線形予測係数の補間処理が行われる(ステップT4)。次いで、ステップT4までに得られた線形予測係数から式(1)に従って線形予測フィルタが合成される(ステップT5)。   Next, the adaptive codebook is updated by adding the generated excitation signal to the adaptive codebook (step T3). Next, when there is a linear prediction coefficient that has not been input as an encoded signal, interpolation processing of the linear prediction coefficient is performed (step T4). Next, a linear prediction filter is synthesized according to the equation (1) from the linear prediction coefficients obtained up to step T4 (step T5).

次いで、上記生成された励起信号に対し、ステップT5で合成された線形予測フィルタを用いてフィルタリング処理を施すことによって再生音声が合成され(ステップT6)、本音声復号処理が終了する。   Next, the reproduced speech is synthesized by performing filtering processing on the generated excitation signal using the linear prediction filter synthesized in step T5 (step T6), and the speech decoding processing is completed.

以上のように、本実施形態の音声符号化装置100及び音声復号装置200によれば、連続して類似した値を有する線形予測係数を代表線形予測係数に置き換えることにより、音質に与える影響を最小限に抑制し、生成符号量を低減させることが可能となる。   As described above, according to the speech encoding apparatus 100 and the speech decoding apparatus 200 of the present embodiment, the influence on the sound quality is minimized by replacing the linear prediction coefficient having continuously similar values with the representative linear prediction coefficient. It is possible to reduce the generated code amount.

また、線形予測係数の類似性の判断や、間引き処理及び補間処理の有無を決定する際に、線形予測係数をLSP係数に変換してから線形予測係数間のユークリッド距離を算出することにより、線形予測係数間のユークリッド距離をより高精度に算出することが可能となる。   Further, when determining the similarity of linear prediction coefficients and determining the presence or absence of thinning processing and interpolation processing, linear prediction coefficients are converted into LSP coefficients, and then the Euclidean distance between the linear prediction coefficients is calculated. It becomes possible to calculate the Euclidean distance between the prediction coefficients with higher accuracy.

更に、線形予測係数の時間軸における変化(時間変化)が急激である場合には、線形予測係数の間引き処理及び補間処理を行わずにそのまま出力することにより、劣化が激しい場所を効率的に発見し、音質を向上させることが可能となる。   Furthermore, when the change in the time axis of the linear prediction coefficient (temporal change) is abrupt, it is output as it is without performing the thinning process and the interpolation process of the linear prediction coefficient, thereby efficiently finding a place where deterioration is severe. As a result, the sound quality can be improved.

本発明の実施形態に係る音声符号化装置の構成を示すブロック図。The block diagram which shows the structure of the audio | voice coding apparatus which concerns on embodiment of this invention. 本発明の実施形態に係る音声復号装置の構成を示すブロック図。The block diagram which shows the structure of the audio | voice decoding apparatus which concerns on embodiment of this invention. 本実施形態の音声符号化装置において実行される音声符号化処理を示すフローチャート。The flowchart which shows the audio | voice encoding process performed in the audio | voice encoding apparatus of this embodiment. 適応符号帳探索処理を示すフローチャート。The flowchart which shows an adaptive codebook search process. 雑音符号帳探索処理を示すフローチャート。The flowchart which shows a noise codebook search process. 本実施形態の音声復号装置において実行される音声復号処理を示すフローチャート。The flowchart which shows the audio | voice decoding process performed in the audio | voice decoding apparatus of this embodiment. 従来の音声符号化装置の構成を示すブロック図。The block diagram which shows the structure of the conventional audio | voice encoding apparatus.

符号の説明Explanation of symbols

1 線形予測分析部
2 代表線形予測係数算出部
3 補間部
4 線形予測フィルタ部
5 誤差算出部
6 適応符号帳探索部
7 雑音符号帳探索部
8、9、23、24 アンプ
10 合成部
21 適応符号帳探索部
22 雑音符号帳探索部
25 合成部
26 補間部
27 線形予測フィルタ部
100 音声符号化装置
200 音声復号装置
DESCRIPTION OF SYMBOLS 1 Linear prediction analysis part 2 Representative linear prediction coefficient calculation part 3 Interpolation part 4 Linear prediction filter part 5 Error calculation part 6 Adaptive codebook search part 7 Noise codebook search part 8, 9, 23, 24 Amplifier 10 Synthesis | combination part 21 Adaptive code Book search unit 22 Noise codebook search unit 25 Synthesis unit 26 Interpolation unit 27 Linear prediction filter unit 100 Speech encoding device 200 Speech decoding device

Claims (8)

線形予測フィルタと励起信号によって入力音声を符号化する音声符号化装置であって、
入力された音声信号から所定の微小単位で線形予測係数を算出する線形予測係数算出手段と、
前記線形予測係数算出手段により算出された線形予測係数間の距離を算出する距離算出手段と、
前記距離算出手段により算出された線形予測係数間の距離に基づいて各線形予測係数の類似性を判断し、連続して類似した値を有する複数の線形予測係数がある場合、当該複数の線形予測係数の代表となる代表線形予測係数を算出し、当該複数の線形予測係数を前記算出された代表線形予測係数に置き換える処理を行う代表線形予測係数算出手段と、
前記線形予測係数算出手段及び前記代表線形予測係数算出手段で得られた線形予測係数を用いて線形予測フィルタを生成する生成手段と、
前記生成手段により生成された線形予測フィルタに励起信号を駆動信号として入力して算出された合成音声と、前記入力された音声信号との誤差が最小となるような励起信号を選択する選択手段と、
を備えることを特徴とする音声符号化装置。
A speech encoding device that encodes input speech using a linear prediction filter and an excitation signal,
Linear prediction coefficient calculating means for calculating a linear prediction coefficient in a predetermined minute unit from the input speech signal;
Distance calculating means for calculating a distance between the linear prediction coefficients calculated by the linear prediction coefficient calculating means;
The similarity between the linear prediction coefficients is determined based on the distance between the linear prediction coefficients calculated by the distance calculation means, and when there are a plurality of linear prediction coefficients having similar values in succession, the plurality of linear prediction coefficients Representative linear prediction coefficient calculating means for calculating a representative linear prediction coefficient that represents a coefficient, and performing processing for replacing the plurality of linear prediction coefficients with the calculated representative linear prediction coefficient;
Generating means for generating a linear prediction filter using the linear prediction coefficients obtained by the linear prediction coefficient calculating means and the representative linear prediction coefficient calculating means;
Selecting means for selecting an excitation signal that minimizes an error between the synthesized speech calculated by inputting the excitation signal as a drive signal to the linear prediction filter generated by the generating means and the input speech signal; ,
A speech encoding apparatus comprising:
前記距離算出手段は、前記線形予測係数算出手段により算出された線形予測係数をLSP係数に変換し、LSP係数間の距離を用いて前記線形予測係数間の距離を算出することを特徴とする請求項1に記載の音声符号化装置。   The distance calculation unit converts the linear prediction coefficient calculated by the linear prediction coefficient calculation unit into an LSP coefficient, and calculates a distance between the linear prediction coefficients using a distance between the LSP coefficients. Item 2. The speech encoding device according to Item 1. 前記代表線形予測係数算出手段は、線形予測係数間の距離が予め設定された固定値よりも小さい場合に、類似した値を有するものとして判断することを特徴とする請求項1又は2に記載の音声符号化装置。   The said representative linear prediction coefficient calculation means determines as having a similar value, when the distance between linear prediction coefficients is smaller than the preset fixed value, The characteristic of Claim 1 or 2 characterized by the above-mentioned. Speech encoding device. 前記代表線形予測係数算出手段は、特定の線形予測係数に対し、線形予測係数間の距離が予め設定された比率よりも小さい場合に、類似した値を有するものとして判断することを特徴とする請求項1又は2に記載の音声符号化装置。   The representative linear prediction coefficient calculation means determines that the specific linear prediction coefficient has a similar value when the distance between the linear prediction coefficients is smaller than a preset ratio. Item 3. The speech encoding device according to Item 1 or 2. 前記線形予測係数算出手段及び前記代表線形予測係数算出手段で得られた線形予測係数の時間軸における変化が所定値より大きいか否かを判定する判定手段と、
前記判定手段により、前記線形予測係数の変化が所定値以下であると判定された場合、所定間隔で間引いた線形予測係数の補間処理を行う補間手段と、を備え、
前記判定手段により、前記線形予測係数の変化が所定値より大きいと判定された場合、線形予測係数の間引き処理及び前記補間手段による補間処理を行わないことを特徴とする請求項1〜4の何れか一項に記載の音声符号化装置。
A determination unit that determines whether or not a change in a time axis of the linear prediction coefficient obtained by the linear prediction coefficient calculation unit and the representative linear prediction coefficient calculation unit is larger than a predetermined value;
Interpolating means for interpolating the linear prediction coefficient thinned out at a predetermined interval when the determination means determines that the change in the linear prediction coefficient is equal to or less than a predetermined value;
5. The linear prediction coefficient thinning-out process and the interpolation process by the interpolation unit are not performed when the determination unit determines that the change in the linear prediction coefficient is larger than a predetermined value. The speech encoding device according to claim 1.
音声信号から所定の微小単位で算出された線形予測係数のうち、連続して類似した値を有する複数の線形予測係数を代表線形予測係数で置き換えて得られる新たな線形予測係数から線形予測フィルタを生成する生成手段と、
前記生成手段により生成された線形予測フィルタに、符号化された音声信号から生成された励起信号を入力して合成音声を出力する出力手段と、
を備えることを特徴とする音声復号装置。
Among the linear prediction coefficients calculated from a speech signal in a predetermined minute unit, a linear prediction filter is obtained from a new linear prediction coefficient obtained by replacing a plurality of linear prediction coefficients having similar values in succession with a representative linear prediction coefficient. Generating means for generating;
Output means for inputting the excitation signal generated from the encoded speech signal to the linear prediction filter generated by the generating means and outputting the synthesized speech;
A speech decoding apparatus comprising:
線形予測フィルタと励起信号によって音声信号を符号化する音声符号化方法であって、
前記音声信号から所定の微小単位で線形予測係数を算出し、
前記算出された線形予測係数間の距離を算出し、
前記算出された線形予測係数間の距離に基づいて各線形予測係数の類似性を判断し、連続して類似した値を有する複数の線形予測係数がある場合、当該複数の線形予測係数の代表となる代表線形予測係数を算出し、当該複数の線形予測係数を前記算出された代表線形予測係数に置き換える処理を行い、
前記算出された線形予測係数及び前記代表線形予測係数に置き換えられた線形予測係数を用いて線形予測フィルタを生成し、
前記生成された線形予測フィルタに励起信号を駆動信号として入力して算出された合成音声と、前記音声信号との誤差が最小となるような励起信号を選択することを特徴とする音声符号化方法。
A speech encoding method for encoding a speech signal with a linear prediction filter and an excitation signal,
Calculating a linear prediction coefficient in a predetermined minute unit from the speech signal;
Calculating the distance between the calculated linear prediction coefficients;
Based on the distance between the calculated linear prediction coefficients, the similarity of each linear prediction coefficient is determined, and when there are a plurality of linear prediction coefficients having similar values in succession, a representative of the plurality of linear prediction coefficients and A representative linear prediction coefficient is calculated, and the plurality of linear prediction coefficients are replaced with the calculated representative linear prediction coefficient.
Generating a linear prediction filter using the calculated linear prediction coefficient and the linear prediction coefficient replaced with the representative linear prediction coefficient;
A speech encoding method, wherein an excitation signal that minimizes an error between a synthesized speech calculated by inputting an excitation signal as a drive signal to the generated linear prediction filter and the speech signal is selected. .
音声信号から所定の微小単位で算出された線形予測係数のうち、連続して類似した値を有する複数の線形予測係数を代表線形予測係数で置き換えて得られる新たな線形予測係数から線形予測フィルタを生成し、
前記生成された線形予測フィルタに、符号化された音声信号から生成された励起信号を入力して合成音声を出力することを特徴とする音声復号方法。
Among the linear prediction coefficients calculated from a speech signal in a predetermined minute unit, a linear prediction filter is obtained from a new linear prediction coefficient obtained by replacing a plurality of linear prediction coefficients having similar values in succession with a representative linear prediction coefficient. Generate
A speech decoding method, wherein an excitation signal generated from an encoded speech signal is input to the generated linear prediction filter and a synthesized speech is output.
JP2006030957A 2006-02-08 2006-02-08 Speech coding apparatus and speech coding method Active JP4816115B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006030957A JP4816115B2 (en) 2006-02-08 2006-02-08 Speech coding apparatus and speech coding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006030957A JP4816115B2 (en) 2006-02-08 2006-02-08 Speech coding apparatus and speech coding method

Publications (2)

Publication Number Publication Date
JP2007212637A true JP2007212637A (en) 2007-08-23
JP4816115B2 JP4816115B2 (en) 2011-11-16

Family

ID=38491153

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006030957A Active JP4816115B2 (en) 2006-02-08 2006-02-08 Speech coding apparatus and speech coding method

Country Status (1)

Country Link
JP (1) JP4816115B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9214158B2 (en) 2012-07-24 2015-12-15 Fujitsu Limited Audio decoding device and audio decoding method
JP2017524164A (en) * 2014-06-27 2017-08-24 華為技術有限公司Huawei Technologies Co.,Ltd. Audio coding method and apparatus

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08179796A (en) * 1994-12-21 1996-07-12 Sony Corp Voice coding method
JPH1049200A (en) * 1996-08-08 1998-02-20 Fujitsu Ltd Method and device for voice information compression and accumulation
JP2000132193A (en) * 1998-10-22 2000-05-12 Sony Corp Signal encoding device and method therefor, and signal decoding device and method therefor
JP2002023796A (en) * 1991-06-11 2002-01-25 Qualcomm Inc Variable speed vocoder
JP2002366195A (en) * 2001-06-04 2002-12-20 Yrp Kokino Idotai Tsushin Kenkyusho:Kk Method and device for encoding voice and parameter

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002023796A (en) * 1991-06-11 2002-01-25 Qualcomm Inc Variable speed vocoder
JPH08179796A (en) * 1994-12-21 1996-07-12 Sony Corp Voice coding method
JPH1049200A (en) * 1996-08-08 1998-02-20 Fujitsu Ltd Method and device for voice information compression and accumulation
JP2000132193A (en) * 1998-10-22 2000-05-12 Sony Corp Signal encoding device and method therefor, and signal decoding device and method therefor
JP2002366195A (en) * 2001-06-04 2002-12-20 Yrp Kokino Idotai Tsushin Kenkyusho:Kk Method and device for encoding voice and parameter

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9214158B2 (en) 2012-07-24 2015-12-15 Fujitsu Limited Audio decoding device and audio decoding method
JP2017524164A (en) * 2014-06-27 2017-08-24 華為技術有限公司Huawei Technologies Co.,Ltd. Audio coding method and apparatus
US10460741B2 (en) 2014-06-27 2019-10-29 Huawei Technologies Co., Ltd. Audio coding method and apparatus
US11133016B2 (en) 2014-06-27 2021-09-28 Huawei Technologies Co., Ltd. Audio coding method and apparatus

Also Published As

Publication number Publication date
JP4816115B2 (en) 2011-11-16

Similar Documents

Publication Publication Date Title
JP3134817B2 (en) Audio encoding / decoding device
JP4771674B2 (en) Speech coding apparatus, speech decoding apparatus, and methods thereof
WO1998006091A1 (en) Voice encoder, voice decoder, recording medium on which program for realizing voice encoding/decoding is recorded and mobile communication apparatus
JP4304360B2 (en) Code conversion method and apparatus between speech coding and decoding methods and storage medium thereof
JP4108317B2 (en) Code conversion method and apparatus, program, and storage medium
EP2557566B1 (en) Method and apparatus for processing an audio signal
JPWO2006075605A1 (en) Long-term predictive encoding method, long-term predictive decoding method, these devices, program thereof, and recording medium
WO2002071394A1 (en) Sound encoding apparatus and method, and sound decoding apparatus and method
JP4816115B2 (en) Speech coding apparatus and speech coding method
CN108053830B (en) Decoding method, decoding device, and computer-readable recording medium
US7505899B2 (en) Speech code sequence converting device and method in which coding is performed by two types of speech coding systems
JP3888097B2 (en) Pitch cycle search range setting device, pitch cycle search device, decoding adaptive excitation vector generation device, speech coding device, speech decoding device, speech signal transmission device, speech signal reception device, mobile station device, and base station device
JP3905706B2 (en) Speech coding apparatus, speech processing apparatus, and speech processing method
JP4816107B2 (en) Speech coding apparatus and speech coding method
JPH113098A (en) Method and device of encoding speech
JP4238535B2 (en) Code conversion method and apparatus between speech coding and decoding systems and storage medium thereof
JP4438654B2 (en) Encoding device, decoding device, encoding method, and decoding method
JP3002299B2 (en) Audio coding device
JPH05289700A (en) Voice encoding device
EP1560201B1 (en) Code conversion method and device for code conversion
JP2000029499A (en) Voice coder and voice encoding and decoding apparatus
JPH0990997A (en) Speech coding device, speech decoding device, speech coding/decoding method and composite digital filter
KR100550002B1 (en) Apparatus for searching an adaptive codebook in speech coder and method thereof
JPH04301900A (en) Audio encoding device
JP2013101212A (en) Pitch analysis device, voice encoding device, pitch analysis method and voice encoding method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081118

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110415

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110707

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110802

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110815

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140909

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4816115

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150