JP4816107B2 - Speech coding apparatus and speech coding method - Google Patents

Speech coding apparatus and speech coding method Download PDF

Info

Publication number
JP4816107B2
JP4816107B2 JP2006019310A JP2006019310A JP4816107B2 JP 4816107 B2 JP4816107 B2 JP 4816107B2 JP 2006019310 A JP2006019310 A JP 2006019310A JP 2006019310 A JP2006019310 A JP 2006019310A JP 4816107 B2 JP4816107 B2 JP 4816107B2
Authority
JP
Japan
Prior art keywords
linear prediction
pitch
speech
signal
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006019310A
Other languages
Japanese (ja)
Other versions
JP2007199515A (en
Inventor
博康 井手
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2006019310A priority Critical patent/JP4816107B2/en
Publication of JP2007199515A publication Critical patent/JP2007199515A/en
Application granted granted Critical
Publication of JP4816107B2 publication Critical patent/JP4816107B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、音声符号化装置及び音声符号化方法に関する。 The present invention relates to a speech encoding apparatus and speech encoding how.

携帯電話等で利用されている音声符号化方法の多くは、入力された音声信号から線形予測フィルタを算出し、当該音声信号に近い励起信号を探し、当該励起信号と線形予測係数の双方のパラメータを符号として出力する方式に基づいている(例えば、非特許文献1参照。)。   Many speech coding methods used in mobile phones, etc., calculate a linear prediction filter from an input speech signal, search for an excitation signal close to the speech signal, and parameters for both the excitation signal and the linear prediction coefficient Is output as a code (for example, see Non-Patent Document 1).

図9に、従来の音声符号化装置300の構成を示す。線形予測分析部30では、入力された音声信号の線形予測分析を行うことにより線形予測係数が算出される。ここで、音声信号の時間軸上における一定の長さをひとまとめとして、当該一定長の単位で線形予測係数が算出される。音声符号化装置300の生成符号量を減らすために、前記一定長をひとまとめとして、一つおきに線形予測係数を符号化するため、補間部31では、間引いた線形予測係数が、その前後の線形予測係数から補間して生成される。   FIG. 9 shows the configuration of a conventional speech encoding apparatus 300. The linear prediction analysis unit 30 calculates a linear prediction coefficient by performing linear prediction analysis of the input speech signal. Here, a certain length of the audio signal on the time axis is grouped and a linear prediction coefficient is calculated in the unit of the certain length. In order to reduce the amount of generated code of the speech encoding apparatus 300, the linear prediction coefficients are encoded with every other fixed length as a whole, so that the interpolating unit 31 uses the linear prediction coefficients thinned out before and after the linear prediction coefficients. It is generated by interpolation from the prediction coefficient.

線形予測フィルタ部32では、補間後の線形予測係数から線形予測フィルタが生成される。適応符号帳探索部34の適応符号帳から取り出された適応符号と、雑音符号帳探索部35の雑音符号帳から取り出された雑音符号は、それぞれ、アンプ36、37で増幅後、合成部38で合成され、合成後の信号が、上記生成された線形予測フィルタによりフィルタリングされる。   The linear prediction filter unit 32 generates a linear prediction filter from the linear prediction coefficient after interpolation. The adaptive code extracted from the adaptive codebook of the adaptive codebook search unit 34 and the noise code extracted from the noise codebook of the noise codebook search unit 35 are amplified by the amplifiers 36 and 37, respectively, and then combined by the combining unit 38. The synthesized signal is filtered by the generated linear prediction filter.

誤差算出部33では、フィルタリング後の信号と、入力された音声信号との誤差が算出される。誤差算出部33で算出された誤差が最小となるときの雑音符号及び適応符号を表すインデックスと、一つおきの線形予測係数が、符号として音声符号化装置300から出力される。一般に線形予測係数は、5〜7ms程度の間隔で算出されるが、伝送符号中の線形予測係数は、10〜15msの間隔で送信され、受信側で補間処理を行う場合が多い。
音声符号化規格JT−G729
The error calculator 33 calculates an error between the filtered signal and the input audio signal. The speech encoding apparatus 300 outputs an index representing a noise code and an adaptive code when the error calculated by the error calculation unit 33 is minimized, and every other linear prediction coefficient as a code. In general, linear prediction coefficients are calculated at intervals of about 5 to 7 ms, but linear prediction coefficients in transmission codes are transmitted at intervals of 10 to 15 ms, and interpolation processing is often performed on the receiving side.
Speech coding standard JT-G729

しかしながら、上述の従来の音声符号化方法では、入力音声の特徴に関らず、一定長の単位で線形予測係数を算出して補間処理を行っているため、補間処理によって生成される線形予測係数が、入力音声に対して適切でない場合(特に過渡期)があり、音質の低下を招いていた。   However, in the conventional speech coding method described above, the linear prediction coefficient generated by the interpolation process is calculated because the linear prediction coefficient is calculated in a unit of a fixed length and the interpolation process is performed regardless of the characteristics of the input speech. However, there are cases where it is not appropriate for the input voice (particularly during the transition period), leading to a reduction in sound quality.

本発明の課題は、ピッチ波形の単位で音声信号の線形予測係数を算出することにより、音質の向上を図ることである。   An object of the present invention is to improve sound quality by calculating a linear prediction coefficient of an audio signal in units of pitch waveforms.

上記課題を解決するため、請求項1に記載の発明は、線形予測フィルタと励起信号によって入力音声を符号化する音声符号化装置であって、入力された音声信号からピッチ波形を抽出する抽出手段と、前記抽出手段により抽出されたピッチ波形の単位で前記入力された音声信号から線形予測係数を算出すると共に、前記ピッチ波形のピッチ長が予め指定された値よりも短い場合、複数のピッチ波形をまとめた単位で前記線形予測係数を算出する算出手段と、前記算出手段により算出された線形予測係数を用いて前記線形予測フィルタを生成する生成手段と、前記算出手段が複数のピッチ波形をまとめた場合、前記線形予測フィルタに入力される励起信号を、前記複数のピッチ波形の各々のピッチ長に合わせて繰り返して取り出す繰り返し手段と、前記生成手段により生成された線形予測フィルタに励起信号を駆動信号として入力して算出された合成音声と前記入力された音声信号との誤差が最小となるような励起信号を選択する選択手段と、を備えることを特徴としている。 In order to solve the above-mentioned problem, the invention described in claim 1 is a speech coding apparatus that encodes input speech using a linear prediction filter and an excitation signal, and extracts the pitch waveform from the input speech signal. And calculating a linear prediction coefficient from the input speech signal in units of the pitch waveform extracted by the extracting means, and when the pitch length of the pitch waveform is shorter than a predetermined value, a plurality of pitch waveforms Calculation means for calculating the linear prediction coefficient in a unit in which the linear prediction coefficients are calculated, generation means for generating the linear prediction filter using the linear prediction coefficient calculated by the calculation means, and the calculation means collects a plurality of pitch waveforms. Means for repeatedly extracting the excitation signal input to the linear prediction filter in accordance with the pitch length of each of the plurality of pitch waveforms. A selecting means for error between the speech signal excitation signal to a linear prediction filter that is generated is the the input synthesized speech which is calculated by the input as a driving signal by the generating means to select an excitation signal that minimizes the It is characterized by providing.

請求項に記載の発明は、請求項に記載の音声符号化装置において、前記算出手段は、前記ピッチ長が予め指定された値よりも短い場合、予め指定された個数のピッチ波形をまとめることを特徴としている。 According to a second aspect of the invention, the speech coding apparatus according to claim 1, wherein the calculating means, when the pitch length is less than a pre-specified value, summarized pitch waveforms of a pre-specified number It is characterized by that.

請求項に記載の発明は、請求項に記載の音声符号化装置において、前記算出手段は、前記ピッチ長が予め指定された値よりも短い場合、予め指定された固定長を超えない最大長までピッチ波形をまとめることを特徴としている。 Maximum The invention according to claim 3, in the speech coding apparatus according to claim 1, wherein the calculating means, when the pitch length is less than a pre-specified value, which does not exceed the fixed length specified in advance It is characterized by collecting pitch waveforms to a long length.

請求項に記載の発明は、請求項1〜の何れか一項に記載の音声符号化装置において、前記ピッチ波形のピッチ長の時間軸における変化が所定値より大きいか否かを判定する判定手段と、前記判定手段により、前記ピッチ長の変化が所定値以下であると判定された場合、所定間隔で間引いた線形予測係数の補間処理を行う補間手段と、を備え、前記判定手段により、前記ピッチ長の変化が所定値より大きいと判定された場合、線形予測係数の間引き及び前記補間手段による補間処理を行わないことを特徴としている。 According to a fourth aspect of the present invention, in the speech coding apparatus according to any one of the first to third aspects, it is determined whether or not a change in the time axis of the pitch length of the pitch waveform is greater than a predetermined value. A determination means; and an interpolation means for performing interpolation processing of linear prediction coefficients thinned out at a predetermined interval when the change in the pitch length is determined to be equal to or less than a predetermined value by the determination means. When it is determined that the change in pitch length is larger than a predetermined value, linear prediction coefficient thinning and interpolation processing by the interpolation means are not performed.

請求項に記載の発明は、請求項に記載の音声符号化装置において、前記判定手段は、ピッチ長間に予め指定された固定値以上の差があるか否かを判定することを特徴としている。 According to a fifth aspect of the present invention, in the speech coding apparatus according to the fourth aspect , the determination unit determines whether or not there is a difference greater than a fixed value specified in advance between pitch lengths. It is said.

請求項に記載の発明は、請求項に記載の音声符号化装置において、前記判定手段は、ピッチ長間に、特定のピッチ長に予め指定された比率を乗算した値以上の差があるか否かを判定することを特徴としている。 According to a sixth aspect of the present invention, in the speech coding apparatus according to the fourth aspect , the determination means has a difference between pitch lengths equal to or greater than a value obtained by multiplying a specific pitch length by a predetermined ratio. It is characterized by determining whether or not.

請求項に記載の音声符号化方法は、線形予測フィルタと励起信号によって音声信号を符号化する音声符号化方法であって、前記音声信号からピッチ波形を抽出し、前記抽出されたピッチ波形の単位で前記音声信号から線形予測係数を算出すると共に、前記ピッチ波形のピッチ長が予め指定された値よりも短い場合、複数のピッチ波形をまとめた単位で前記線形予測係数を算出し、前記算出された線形予測係数を用いて前記線形予測フィルタを生成し、複数のピッチ波形をまとめた場合、前記線形予測フィルタに入力される励起信号を、前記複数のピッチ波形の各々のピッチ長に合わせて繰り返し取り出し、前記生成された線形予測フィルタに励起信号を駆動信号として入力して算出された合成音声と前記音声信号との誤差が最小となるような励起信号を選択することを特徴としている。 The speech encoding method according to claim 7 is a speech encoding method for encoding a speech signal using a linear prediction filter and an excitation signal, wherein a pitch waveform is extracted from the speech signal, and the extracted pitch waveform is extracted. The linear prediction coefficient is calculated from the speech signal in units, and when the pitch length of the pitch waveform is shorter than a predetermined value, the linear prediction coefficient is calculated in a unit of a plurality of pitch waveforms, and the calculation is performed. When the linear prediction filter is generated using the generated linear prediction coefficients and a plurality of pitch waveforms are collected, the excitation signal input to the linear prediction filter is matched with the pitch length of each of the plurality of pitch waveforms. Repeatedly extract and input the excitation signal as a drive signal to the generated linear prediction filter so that the error between the synthesized speech and the speech signal is minimized. It is characterized by selecting the excitation signal.

本発明によれば、ピッチ波形の単位で音声信号から線形予測係数を算出することにより、線形予測を行う波形から過渡期の波形が分離されやすくなり、線形予測の精度と音質の向上を図ることが可能となり、ピッチ長が予め指定された値より短い場合、複数のピッチ波形を一つにまとめてから線形予測分析を行い、各々のピッチ長に応じて励起信号の繰り返し処理を行うことにより、符号化効率の向上を図ることができる。 According to the present invention, by calculating a linear prediction coefficient from a speech signal in units of pitch waveforms, a transient waveform can be easily separated from a waveform for which linear prediction is performed, thereby improving the accuracy and sound quality of linear prediction. Ri is possible and do, the pitch length is less than a pre-specified value, performs a linear prediction analysis from together multiple pitch waveforms into one, and iterates the excitation signal in accordance with the pitch length of each Thus, the encoding efficiency can be improved.

更に、ピッチ長の急激な変化があるところでは、線形予測係数の間引き及び補間処理を行わずにそのまま出力することにより、劣化が激しい場所を効率的に発見し、音質を向上させることが可能となる。   Furthermore, where there is a sudden change in pitch length, it is possible to efficiently find a place where deterioration is severe and improve sound quality by outputting the linear prediction coefficient without performing thinning and interpolation processing as it is. Become.

以下、図面を参照して、本発明の実施形態について説明する。
まず、本実施形態における構成について説明する。
Embodiments of the present invention will be described below with reference to the drawings.
First, the configuration in the present embodiment will be described.

図1に、本実施形態に係る音声符号化装置100の構成を示す。音声符号化装置100は、図1に示すように、ピッチ抽出部1、算出位置決定部2、線形予測分析部3、補間部4、線形予測フィルタ部5、誤差算出部6、適応符号帳探索部7、雑音符号帳探索部8、アンプ9、10、合成部11、繰り返し処理部12により構成される。   FIG. 1 shows the configuration of a speech encoding apparatus 100 according to this embodiment. As shown in FIG. 1, the speech coding apparatus 100 includes a pitch extraction unit 1, a calculation position determination unit 2, a linear prediction analysis unit 3, an interpolation unit 4, a linear prediction filter unit 5, an error calculation unit 6, an adaptive codebook search. A unit 7, a noise codebook search unit 8, amplifiers 9 and 10, a synthesis unit 11, and an iterative processing unit 12.

ピッチ抽出部1は、入力された音声信号からピッチ波形を抽出する。ピッチとは、図3に示すような波形の繰り返しの単位である。人間の音声波形を分析すると、ある周期(ピッチ周期)で繰り返しの波形が連続的に存在することが多い。ピッチの抽出とは、入力された音声信号からピッチ周期を検出し、そのピッチ周期毎に音声信号を時間軸上で区切っていく処理のことである。図3では、p0〜p3がピッチ長として抽出された場合を示している。 The pitch extraction unit 1 extracts a pitch waveform from the input audio signal. The pitch is a unit for repeating a waveform as shown in FIG. When human speech waveforms are analyzed, repeated waveforms often exist continuously at a certain period (pitch period). Pitch extraction is a process of detecting a pitch period from an input audio signal and dividing the audio signal on the time axis for each pitch period. FIG. 3 shows a case where p 0 to p 3 are extracted as pitch lengths.

ピッチ周期の検出方法は特に限定されないが、例えば、特開平11−45098号公報に記載された方法を利用することができる。この方法では、入力された音声信号から有音声区間を抽出し、抽出した有音声区間を処理対象音声波形とし、その処理対象音声波形の時間軸上における既に決定済みの区切り点を基点に、予め定めた区間の音声波形をコピーし、コピー区間の音声波形を前記時間軸上の既に決定済みの区切り点を基点に所定サンプリング点ずつ平行移動し、平行移動ごとにそれぞれの平行移動点におけるコピー区間の音声波形と処理対象音声波形との相関を求め、相関の最も大きくなる平行移動点を次の区切り点として求める。そして、求められたそれぞれの区切り点間を処理対象音声波形のピッチ周期とする。   The method for detecting the pitch period is not particularly limited. For example, the method described in JP-A-11-45098 can be used. In this method, a voiced segment is extracted from an input voice signal, the extracted voiced segment is set as a processing target speech waveform, and a predetermined breakpoint on the time axis of the processing target speech waveform is used as a base point in advance. Copy the voice waveform of the defined section, translate the voice waveform of the copy section by a predetermined sampling point from the already determined breakpoint on the time axis, and copy section at each translation point for each translation Then, the correlation between the speech waveform and the processing target speech waveform is obtained, and the parallel movement point having the largest correlation is obtained as the next breakpoint. Then, the interval between the obtained break points is set as the pitch period of the processing target speech waveform.

算出位置決定部2は、ピッチ単位で線形予測係数を算出するために、線形予測係数の算出位置を決定する。   The calculation position determination unit 2 determines the calculation position of the linear prediction coefficient in order to calculate the linear prediction coefficient in pitch units.

線形予測分析部3は、算出位置決定部2で算出された算出位置で、入力された音声信号の線形予測分析を行い、線形予測係数を算出する。n次の線形予測フィルタは式(1)のように表される。

Figure 0004816107
ここで、{ai|i=1,…,n}が線形予測係数である。 The linear prediction analysis unit 3 performs linear prediction analysis of the input speech signal at the calculation position calculated by the calculation position determination unit 2 and calculates a linear prediction coefficient. The nth-order linear prediction filter is expressed as shown in Equation (1).
Figure 0004816107
Here, {a i | i = 1,..., N} is a linear prediction coefficient.

線形予測分析の1手法として自己相関法がある。自己相関法では、例えば、線形予測分析に用いるm個の入力信号のサンプルを{si|i=0,…,m-1}とすると、自己相関係数{ri|i=0,…,n}を式(2)のように算出し、式(3)が成立する線形予測係数{ai|i=1,…,n}を算出する。

Figure 0004816107
Figure 0004816107
式(3)は、レビンソン・ダービンアルゴリズムを用いて解くことが可能である(非特許文献1参照)。 One method of linear prediction analysis is an autocorrelation method. In the autocorrelation method, for example, if m input signal samples used for linear prediction analysis are {s i | i = 0,..., M−1}, the autocorrelation coefficient {r i | i = 0,. , n} is calculated as shown in equation (2), and linear prediction coefficients {a i | i = 1,..., n} that satisfy equation (3) are calculated.
Figure 0004816107
Figure 0004816107
Equation (3) can be solved using the Levinson-Durbin algorithm (see Non-Patent Document 1).

ピッチ長が予め指定された値よりも短い場合、符号化効率を向上させるために、複数のピッチ波形を一つにまとめてから線形予測分析を行う。複数のピッチ波形をまとめる簡単な方法として、予め決められた個数のピッチ波形を一つにまとめる方法がある。この場合、例えば、ピッチ長が3ms未満であれば、2ピッチをまとめるものとする。また、予め指定された固定長を超えない最大長分のピッチ波形をまとめるようにしてもよい。即ち、予め指定された固定長をcとしたとき、c以下で最大長となる分だけピッチ波形をまとめる。   When the pitch length is shorter than a predetermined value, linear prediction analysis is performed after combining a plurality of pitch waveforms into one in order to improve coding efficiency. As a simple method for combining a plurality of pitch waveforms, there is a method for combining a predetermined number of pitch waveforms into one. In this case, for example, if the pitch length is less than 3 ms, two pitches are combined. Further, pitch waveforms for a maximum length not exceeding a predetermined fixed length may be collected. That is, assuming that a fixed length designated in advance is c, the pitch waveforms are gathered by the maximum length below c.

本実施形態では、生成符号量を減らすため、ピッチ一つおきに線形予測係数を符号化するので、補間部4は、間引く対象となる線形予測係数を、その前後の線形予測係数から補間して生成し、補間処理後の線形予測係数を線形予測フィルタ部5に出力する。補間方法としては、例えば、間引く対象となる線形予測係数の前後の線形予測係数をLSP(Line Spectrum Pair)係数に変換し、変換後の前後の係数を加算して2で除算した後、線形予測係数に戻す処理を行う。   In this embodiment, in order to reduce the amount of generated code, linear prediction coefficients are encoded every other pitch. Therefore, the interpolation unit 4 interpolates the linear prediction coefficients to be thinned out from the preceding and following linear prediction coefficients. The linear prediction coefficient generated and interpolated is output to the linear prediction filter unit 5. As an interpolation method, for example, linear prediction coefficients before and after the linear prediction coefficient to be thinned out are converted into LSP (Line Spectrum Pair) coefficients, and the coefficients before and after the conversion are added and divided by 2, followed by linear prediction. Perform processing to return to coefficients.

このとき、補間部4は、間引く対象となる線形予測係数の前後の線形予測係数のピッチ長を比較し、その差が予め指定された固定値を超えているか否かを判定し、当該固定値を超えていた場合には間引きを行わないようにする。例えば、間引き対象のピッチ波形の時間的に前のピッチ長をpm-1とし、時間的に後のピッチ長をpm+1とし、予め指定された固定値をαとすると、|pm-1−pm+1|>αの場合に間引きを行わないようにする。 At this time, the interpolation unit 4 compares the pitch lengths of the linear prediction coefficients before and after the linear prediction coefficient to be thinned out, determines whether the difference exceeds a predetermined fixed value, and determines the fixed value. If it exceeds, do not perform decimation. For example, the pitch length of the temporally previous pitch waveform thinning-out object and p m-1, and the pitch length after temporally and p m + 1, when a pre-designated fixed value is alpha, | p m When −1− p m + 1 |> α, the thinning is not performed.

また、間引く対象となる線形予測係数の前後の線形予測係数のピッチ長の差が、特定のピッチ長の一定比率(特定のピッチ長に、予め指定された比率を乗算した値)を超えているか否かを判定し、当該一定比率を超えている場合に間引きを行わないようにしてもよい。例えば、間引き対象のピッチ波形の時間的に前のピッチ長をpm-1とし、時間的に後のピッチ長をpm+1とし、予め指定された比率をβ(0〜1の値)とすると、|pm-1−pm+1|>pm-1・βの場合に間引きを行わないようにする。 Whether the difference between the pitch lengths of the linear prediction coefficients before and after the linear prediction coefficient to be thinned out exceeds a specific ratio of a specific pitch length (a value obtained by multiplying a specific pitch length by a predetermined ratio). It may be determined whether or not thinning is performed when the predetermined ratio is exceeded. For example, the pitch length before the pitch waveform of the thinning target pitch waveform is set to pm-1 , the pitch length after the time is set to pm + 1 , and a predetermined ratio is β (value of 0 to 1). Then, when | p m-1 −p m + 1 |> p m−1 · β, the thinning is not performed.

線形予測フィルタ部5は、式(1)に従って線形予測係数から線形予測フィルタを合成(生成)する。また、線形予測フィルタ部5は、適応符号帳探索処理(図6参照)において、適応符号帳の適応符号に対し、上記線形予測フィルタによるフィルタリング処理を施し、誤差算出部6に出力する。また、線形予測フィルタ部5は、雑音符号帳探索処理(図7参照)において、雑音符号帳の雑音符号と、適応符号帳探索処理(図6参照)で最終的に得られた励起信号を合成した信号に対し、上記線形予測フィルタによるフィルタリング処理を施し、誤差算出部6に出力する。   The linear prediction filter unit 5 synthesizes (generates) a linear prediction filter from the linear prediction coefficient according to the equation (1). In addition, the linear prediction filter unit 5 performs filtering processing by the linear prediction filter on the adaptive code of the adaptive codebook in the adaptive codebook search processing (see FIG. 6), and outputs it to the error calculation unit 6. Further, the linear prediction filter unit 5 synthesizes the noise code of the noise codebook and the excitation signal finally obtained by the adaptive codebook search process (see FIG. 6) in the noise codebook search process (see FIG. 7). The processed signal is filtered by the linear prediction filter and output to the error calculation unit 6.

誤差算出部6は、音声符号化装置100に入力された音声信号と、線形予測フィルタ部5でのフィルタリング処理後の信号との誤差を算出し、適応符号帳探索部7及び雑音符号帳探索部8に出力する。   The error calculation unit 6 calculates an error between the speech signal input to the speech encoding apparatus 100 and the signal after filtering processing in the linear prediction filter unit 5, and the adaptive codebook search unit 7 and the noise codebook search unit 8 is output.

適応符号帳探索部7は、これまでに利用した励起信号を格納した適応符号帳を有し、適応符号帳から適応符号を取り出し、誤差算出部6で算出された、線形予測フィルタ部5でフィルタリング処理された当該適応符号と入力された音声信号との誤差が、それまで得られた誤差の中で最小となるような適応符号を選択する(図6参照)。また、適応符号帳探索部7は、適応符号帳探索処理(図6参照)及び雑音符号帳探索処理(図7参照)の後、最終的に得られた励起信号を適応符号帳に追加することで、適応符号帳を更新する。   The adaptive codebook search unit 7 has an adaptive codebook storing the excitation signals used so far, takes out the adaptive code from the adaptive codebook, and performs filtering by the linear prediction filter unit 5 calculated by the error calculation unit 6 An adaptive code is selected such that the error between the processed adaptive code and the input speech signal is the smallest among the errors obtained so far (see FIG. 6). The adaptive codebook search unit 7 adds the finally obtained excitation signal to the adaptive codebook after the adaptive codebook search process (see FIG. 6) and the noise codebook search process (see FIG. 7). Then, the adaptive codebook is updated.

雑音符号帳探索部8は、白色雑音信号(雑音符号)を格納した雑音符号帳を有し、雑音符号帳から雑音符号を取り出し、誤差算出部6で算出された、線形予測フィルタ部5でフィルタリング処理された信号と、入力された音声信号との誤差が、それまで得られた誤差の中で最小となるような雑音信号を選択する(図7参照)。ここで、線形予測フィルタ部5でのフィルタリングの対象となる信号は、雑音符号帳から取り出された雑音符号に、適応符号帳探索処理において決定された励起信号を加えた信号である。   The noise codebook search unit 8 has a noise codebook storing a white noise signal (noise code), extracts a noise code from the noise codebook, and performs filtering by the linear prediction filter unit 5 calculated by the error calculation unit 6. A noise signal is selected such that the error between the processed signal and the input voice signal is the smallest among the errors obtained so far (see FIG. 7). Here, the signal to be filtered by the linear prediction filter unit 5 is a signal obtained by adding the excitation signal determined in the adaptive codebook search process to the noise code extracted from the noise codebook.

アンプ9、10は、それぞれ、適応符号帳から取り出された適応符号、雑音符号帳から取り出された雑音符号の振幅値を所定の増幅率で増幅(調整)する。   The amplifiers 9 and 10 amplify (adjust) the amplitude values of the adaptive code extracted from the adaptive codebook and the noise code extracted from the noise codebook, respectively, with a predetermined amplification factor.

合成部11は、雑音符号帳から取り出された増幅後の雑音符号と、適応符号帳探索処理において励起信号として決定した増幅後の適応符号を合成する。   The synthesizer 11 synthesizes the amplified noise code extracted from the noise codebook and the amplified adaptive code determined as the excitation signal in the adaptive codebook search process.

繰り返し処理部12は、上述のように、複数のピッチ波形が一つにまとめられた場合、図4に示すように、入力された励起信号を、複数のピッチ波形の各々のピッチ長に合わせて繰り返す処理を行い、繰り返し処理後の励起信号を線形予測フィルタ部5に出力する。図4では、ピッチ長1のピッチ波形と、ピッチ長2のピッチ波形が一つにまとめられた場合、各々のピッチ長に合わせて励起信号を繰り返す例を示している。   When the plurality of pitch waveforms are combined into one as described above, the iterative processing unit 12 adjusts the input excitation signal to the pitch length of each of the plurality of pitch waveforms as shown in FIG. The iterative process is performed, and the excitation signal after the iterative process is output to the linear prediction filter unit 5. FIG. 4 shows an example in which the excitation signal is repeated in accordance with each pitch length when the pitch waveform with the pitch length 1 and the pitch waveform with the pitch length 2 are combined into one.

このように構成された音声符号化装置100は、適応符号帳探索処理及び雑音符号帳探索処理において励起信号として最終的に得られた適応符号帳のインデックス及び雑音符号帳のインデックスと、ピッチ一つおきに間引かれた線形予測係数と、ピッチ長を表す信号と、アンプ9、10における増幅率を表す信号を符号化信号として出力する。   The speech coding apparatus 100 configured as described above has an adaptive codebook index and a noise codebook index finally obtained as excitation signals in the adaptive codebook search process and the noise codebook search process, and one pitch. Every other thinned linear prediction coefficient, a signal representing the pitch length, and a signal representing the amplification factor in the amplifiers 9 and 10 are output as encoded signals.

図2に、本発明の実施形態に係る音声復号装置200の構成を示す。音声復号装置200は、音声符号化装置100で符号化された信号を復号するための装置であり、図2に示すように、適応符号帳探索部21、雑音符号帳探索部22、アンプ23、24、合成部25、繰り返し処理部26、補間部27、線形予測フィルタ部28により構成される。   FIG. 2 shows a configuration of speech decoding apparatus 200 according to the embodiment of the present invention. Speech decoding apparatus 200 is an apparatus for decoding the signal encoded by speech encoding apparatus 100. As shown in FIG. 2, adaptive codebook search unit 21, noise codebook search unit 22, amplifier 23, 24, a synthesis unit 25, an iterative processing unit 26, an interpolation unit 27, and a linear prediction filter unit 28.

適応符号帳探索部21は、適応符号帳の中から、入力された適応符号帳のインデックスに対応する適応符号を探索して取り出し、アンプ23に出力する。   The adaptive codebook search unit 21 searches and extracts an adaptive code corresponding to the index of the input adaptive codebook from the adaptive codebook, and outputs it to the amplifier 23.

雑音符号帳探索部22は、雑音符号帳の中から、入力された雑音符号帳のインデックスに対応する雑音符号を取り出し、アンプ24に出力する。   The noise codebook search unit 22 extracts a noise code corresponding to the input index of the noise codebook from the noise codebook and outputs it to the amplifier 24.

アンプ23、24は、それぞれ、入力された適応符号、雑音符号を増幅し、合成部25に出力する。合成部25は、アンプ23、24からそれぞれ入力された適応符号及び雑音符号を合成する。   The amplifiers 23 and 24 amplify the input adaptive code and noise code, respectively, and output them to the synthesis unit 25. The synthesizer 25 synthesizes the adaptive code and the noise code input from the amplifiers 23 and 24, respectively.

繰り返し処理部26は、入力されたピッチ長に応じて、入力された適応符号及び雑音符号の繰り返し処理を行うことによって励起信号を生成し、当該励起信号を線形予測フィルタ部28に出力する。   The iterative processing unit 26 generates an excitation signal by repeating the input adaptive code and noise code according to the input pitch length, and outputs the excitation signal to the linear prediction filter unit 28.

補間部27は、符号化信号として入力されなかった線形予測係数がある場合、線形予測係数の補間処理を行い、補間処理後の線形予測係数を線形予測フィルタ部28に出力する。補間部27での補間処理は、補間部4における補間方法と同様の方法を適用することができる。   When there is a linear prediction coefficient that has not been input as an encoded signal, the interpolation unit 27 performs interpolation processing on the linear prediction coefficient, and outputs the linear prediction coefficient after the interpolation processing to the linear prediction filter unit 28. For the interpolation processing in the interpolation unit 27, a method similar to the interpolation method in the interpolation unit 4 can be applied.

線形予測フィルタ部28は、入力された線形予測係数から、式(1)に従って線形予測フィルタを合成(生成)し、入力された励起信号に対して、その生成された線形予測フィルタによるフィルタリング処理を施すことによって合成音声を生成し、出力する。   The linear prediction filter unit 28 synthesizes (generates) a linear prediction filter from the input linear prediction coefficient according to Equation (1), and performs filtering processing on the input excitation signal using the generated linear prediction filter. To generate and output a synthesized speech.

次に、本実施形態における動作について説明する。
まず、図5のフローチャートを参照して、音声符号化装置100において実行される音声符号化処理について説明する。
Next, the operation in this embodiment will be described.
First, with reference to the flowchart of FIG. 5, the speech encoding process executed in speech encoding apparatus 100 will be described.

まず、音声符号化装置100に入力された音声信号からピッチ波形が抽出され(ステップS1)、抽出されたピッチ波形に基づいて、線形予測係数の算出位置が決定される(ステップS2)。このときピッチ長が指定された値よりも短い場合、複数のピッチ波形が1つにまとめられる。次いで、ステップS2で算出された算出位置で、入力された音声信号の線形予測分析が行われ、線形予測係数が算出される(ステップS3)。次いで、間引き対象の線形予測係数が、その前後の線形予測係数から補間して生成される(ステップS4)。次いで、式(1)に従って、線形予測係数から線形予測フィルタが合成される(ステップS5)。   First, a pitch waveform is extracted from the speech signal input to speech coding apparatus 100 (step S1), and a calculation position of a linear prediction coefficient is determined based on the extracted pitch waveform (step S2). At this time, if the pitch length is shorter than the specified value, a plurality of pitch waveforms are combined into one. Next, linear prediction analysis is performed on the input speech signal at the calculation position calculated in step S2, and a linear prediction coefficient is calculated (step S3). Next, a linear prediction coefficient to be thinned out is generated by interpolating from the preceding and subsequent linear prediction coefficients (step S4). Next, a linear prediction filter is synthesized from the linear prediction coefficients according to equation (1) (step S5).

次いで、入力された音声信号との誤差が最も小さくなるような励起信号を適応符号帳及び雑音符号帳から探索する適応符号帳探索処理及び雑音符号帳探索処理が行われる(ステップS6、S7)。ステップS6の適応符号帳探索処理、ステップS7の雑音符号帳探索処理については、後に、それぞれ図6、図7を参照して詳細に説明する。   Next, adaptive codebook search processing and noise codebook search processing for searching for an excitation signal that minimizes an error from the input speech signal from the adaptive codebook and noise codebook are performed (steps S6 and S7). The adaptive codebook search process in step S6 and the noise codebook search process in step S7 will be described in detail later with reference to FIGS. 6 and 7, respectively.

適応符号帳探索処理及び雑音符号帳探索処理が終了すると、これらの処理によって得られた励起信号が適応符号帳に追加することによって適応符号帳が更新され(ステップS8)、当該励起信号を表す適応符号帳のインデックス及び雑音符号帳のインデックスと、ピッチ一つおきに間引かれた線形予測係数と、ピッチ長を表す信号が符号化信号として出力され、本音声符号化処理が終了する。   When the adaptive codebook search process and the noise codebook search process are completed, the excitation signal obtained by these processes is added to the adaptive codebook to update the adaptive codebook (step S8), and the adaptation representing the excitation signal The codebook index, the noise codebook index, the linear prediction coefficient thinned out every other pitch, and a signal representing the pitch length are output as encoded signals, and the speech encoding process ends.

次に、図6のフローチャートを参照して、適応符号帳探索処理(図5のステップS6)について説明する。   Next, the adaptive codebook search process (step S6 in FIG. 5) will be described with reference to the flowchart in FIG.

まず、適応符号帳から最初の適応符号が取り出され、処理対象の適応符号として設定される(ステップS11)。次いで、適応符号帳の全ての適応符号についての処理が終了したか否かが判定される(ステップS12)。ステップS12において、当該処理が終了していないと判定された場合(ステップS12;NO)、複数のピッチが一つにまとめられているときに、各々のピッチ長に合わせて現在の適応符号を繰り返して取り出す繰り返し処理が行われる(ステップS13)。   First, the first adaptive code is extracted from the adaptive codebook and set as the processing target adaptive code (step S11). Next, it is determined whether or not the processing for all adaptive codes in the adaptive codebook has been completed (step S12). If it is determined in step S12 that the process has not been completed (step S12; NO), when a plurality of pitches are combined into one, the current adaptive code is repeated according to each pitch length. The repetitive process of taking out is performed (step S13).

次いで、現在の処理対象の適応符号に対し、ステップS5で合成された線形予測フィルタによるフィルタリング処理が施され(ステップS14)、フィルタリング後の信号と、入力された音声信号との誤差が算出される(ステップS15)。次いで、ステップS15で算出された誤差が、本探索処理開始以降に得られた誤差の中で最小であるか否かが判定される(ステップS16)。   Next, a filtering process using the linear prediction filter synthesized in step S5 is performed on the current adaptive code to be processed (step S14), and an error between the filtered signal and the input speech signal is calculated. (Step S15). Next, it is determined whether or not the error calculated in step S15 is the smallest among the errors obtained after the start of the main search process (step S16).

ステップS16において、誤差が最小ではないと判定された場合(ステップS16;NO)、適応符号帳の次の適応符号が処理対象として設定され(ステップS18)、当該適応符号に対して、ステップS12〜S17の処理が繰り返される。   If it is determined in step S16 that the error is not minimum (step S16; NO), the next adaptive code in the adaptive codebook is set as a processing target (step S18), and steps S12 to S12 are performed for the adaptive code. The process of S17 is repeated.

ステップS16において、誤差が最小であると判定された場合(ステップS16;YES)、現在の処理対象の適応符号が、励起信号候補として設定される(ステップS17)。次いで、適応符号帳の次の適応符号が処理対象として設定され(ステップS18)、当該適応符号に対して、ステップS12〜S17の処理が繰り返される。   If it is determined in step S16 that the error is the minimum (step S16; YES), the adaptive code to be processed is set as an excitation signal candidate (step S17). Next, the next adaptive code in the adaptive codebook is set as a processing target (step S18), and the processes of steps S12 to S17 are repeated for the adaptive code.

適応符号帳の全ての適応符号についてステップS13〜S17の処理が終了すると(ステップS12;YES)、本適応符号帳探索処理が終了し、最終的に励起信号候補として残った適応符号のインデックスが符号化信号のデータとして選択されることになる。   When the processing of steps S13 to S17 is completed for all the adaptive codes in the adaptive codebook (step S12; YES), the adaptive codebook search process is terminated, and finally the index of the adaptive code remaining as the excitation signal candidate is code. Is selected as the data of the digitized signal.

次に、図7のフローチャートを参照して、雑音符号帳探索処理(図5のステップS7)について説明する。   Next, the noise codebook search process (step S7 in FIG. 5) will be described with reference to the flowchart in FIG.

まず、雑音符号帳から最初の雑音符号が取り出され、処理対象の雑音符号として設定される(ステップS21)。次いで、雑音符号帳の全ての雑音符号についての処理が終了したか否かが判定される(ステップS22)。ステップS22において、当該処理が終了していないと判定された場合(ステップS22;NO)、複数のピッチが一つにまとめられているときに、各々のピッチ長に合わせて現在の雑音符号を繰り返す繰り返し処理が行われる(ステップS23)。   First, the first noise code is extracted from the noise code book and set as a noise code to be processed (step S21). Next, it is determined whether or not the processing for all noise codes in the noise codebook has been completed (step S22). If it is determined in step S22 that the process has not been completed (step S22; NO), when a plurality of pitches are combined into one, the current noise code is repeated according to each pitch length. An iterative process is performed (step S23).

次いで、図6の適応符号帳探索処理で最終的に励起信号として設定された適応符号と、現在処理対象の雑音符号が合成され(ステップS24)、合成後の信号に対し、ステップS5で合成された線形予測フィルタによるフィルタリング処理が施される(ステップS25)。そして、フィルタリング後の信号と、入力された音声信号との誤差が算出される(ステップS26)。次いで、ステップS26で算出された誤差が、本探索処理開始以降に得られた誤差の中で最小であるか否かが判定される(ステップS27)。   Next, the adaptive code finally set as the excitation signal in the adaptive codebook search process of FIG. 6 and the current noise code to be processed are synthesized (step S24), and the synthesized signal is synthesized in step S5. A filtering process using the linear prediction filter is performed (step S25). Then, an error between the filtered signal and the input audio signal is calculated (step S26). Next, it is determined whether or not the error calculated in step S26 is the smallest among the errors obtained after the start of the main search process (step S27).

ステップS27において、誤差が最小ではないと判定された場合(ステップS27;NO)、雑音符号帳の次の雑音符号が処理対象として設定され(ステップS29)、当該雑音符号に対して、ステップS22〜S28の処理が繰り返される。   If it is determined in step S27 that the error is not minimum (step S27; NO), the next noise code in the noise codebook is set as a processing target (step S29), and steps S22 to S22 are performed on the noise code. The process of S28 is repeated.

ステップS27において、誤差が最小であると判定された場合(ステップS27;YES)、現在の処理対象の雑音符号が、励起信号候補として設定される(ステップS28)。次いで、雑音符号帳の次の雑音符号が処理対象として設定され(ステップS29)、当該雑音符号に対して、ステップS22〜S28の処理が繰り返される。   If it is determined in step S27 that the error is minimum (step S27; YES), the current noise code to be processed is set as an excitation signal candidate (step S28). Next, the next noise code of the noise code book is set as a processing target (step S29), and the processes of steps S22 to S28 are repeated for the noise code.

雑音符号帳の全ての雑音符号についてステップS23〜S28の処理が終了すると(ステップS22;YES)、本雑音符号帳探索処理が終了し、最終的に励起信号候補として残った雑音符号のインデックスが符号化信号のデータとして選択されることになる。   When the processing of steps S23 to S28 is completed for all the noise codes of the noise codebook (step S22; YES), the noise codebook search process is terminated, and finally the noise code index remaining as the excitation signal candidate is encoded. Is selected as the data of the digitized signal.

次に、図8のフローチャートを参照して、音声復号装置200において実行される音声復号処理について説明する。   Next, speech decoding processing executed in the speech decoding apparatus 200 will be described with reference to the flowchart of FIG.

まず、適応符号帳から、入力された符号化信号に含まれる適応符号帳のインデックスに対応する適応符号が取り出されるとともに(ステップT1)、雑音符号帳から、当該符号化信号に含まれる雑音符号帳のインデックスに対応する雑音符号が取り出される(ステップT2)。   First, an adaptive code corresponding to the index of the adaptive codebook included in the input encoded signal is extracted from the adaptive codebook (step T1), and the noise codebook included in the encoded signal is extracted from the noise codebook. Is extracted (step T2).

次いで、入力されたピッチ長に応じて、適応符号及び雑音符号の繰り返し処理を行うことによって励起信号が作成され(ステップT3)、その生成された励起信号を適応符号帳に追加することによって適応符号帳が更新される(ステップT4)。   Next, an excitation signal is generated by repeating an adaptive code and a noise code according to the input pitch length (step T3), and the generated excitation signal is added to the adaptive codebook. The book is updated (step T4).

次いで、符号化信号として入力されなかった線形予測係数がある場合は、その線形予測係数の補間処理が行われる(ステップT5)。次いで、線形予測係数から式(1)に従って線形予測フィルタが合成される(ステップT6)。   Next, when there is a linear prediction coefficient that has not been input as an encoded signal, interpolation processing of the linear prediction coefficient is performed (step T5). Next, a linear prediction filter is synthesized from the linear prediction coefficient according to the equation (1) (step T6).

次いで、上記作成された励起信号に対し、ステップT6で合成された線形予測フィルタを用いてフィルタリング処理を施すことによって再生音声が合成され(ステップT7)、本音声復号処理が終了する。   Next, the reproduced speech is synthesized by applying filtering processing to the created excitation signal using the linear prediction filter synthesized in step T6 (step T7), and the speech decoding processing is completed.

以上のように、本実施形態の音声符号化装置100及び音声復号装置200によれば、ピッチ波形の単位で音声信号の線形予測係数を算出することにより、線形予測を行う波形から過渡期の波形が分離されやすくなり、線形予測の精度と音質の向上を図ることが可能となる。   As described above, according to the speech coding apparatus 100 and the speech decoding apparatus 200 of the present embodiment, by calculating the linear prediction coefficient of the speech signal in units of pitch waveforms, the waveform in the transient period is calculated from the waveform in which linear prediction is performed. Can be easily separated, and the accuracy and sound quality of linear prediction can be improved.

また、ピッチ長が予め指定された値より短い場合、複数のピッチ波形を一つのピッチ波形としてまとめてから線形予測分析を行い、各々のピッチ長に応じて励起信号の繰り返し処理を行うことにより、符号化効率の向上を図ることができる。   In addition, when the pitch length is shorter than a predesignated value, a plurality of pitch waveforms are collected as one pitch waveform and then linear prediction analysis is performed, and by repeating the excitation signal according to each pitch length, Encoding efficiency can be improved.

更に、ピッチ長の急激な変化があるところでは、線形予測係数の間引き及び補間処理を行わずにそのまま符号化することにより、劣化が激しい場所を効率的に発見し、音質を向上させることが可能となる。   Furthermore, where there is a sudden change in the pitch length, it is possible to efficiently find a place where deterioration is severe and improve the sound quality by encoding as it is without performing thinning and interpolation processing of the linear prediction coefficient. It becomes.

本発明の実施形態に係る音声符号化装置の構成を示すブロック図。The block diagram which shows the structure of the audio | voice coding apparatus which concerns on embodiment of this invention. 本発明の実施形態に係る音声復号装置の構成を示すブロック図。The block diagram which shows the structure of the audio | voice decoding apparatus which concerns on embodiment of this invention. 音声信号の波形と、音声信号から抽出されるピッチを示す図。The figure which shows the waveform of an audio | voice signal, and the pitch extracted from an audio | voice signal. 励起信号と、ピッチ長で繰り返す励起信号を示す図。The figure which shows an excitation signal and the excitation signal repeated with pitch length. 本実施形態の音声符号化装置において実行される音声符号化処理を示すフローチャート。The flowchart which shows the audio | voice encoding process performed in the audio | voice encoding apparatus of this embodiment. 適応符号帳探索処理を示すフローチャート。The flowchart which shows an adaptive codebook search process. 雑音符号帳探索処理を示すフローチャート。The flowchart which shows a noise codebook search process. 本実施形態の音声復号装置において実行される音声復号処理を示すフローチャート。The flowchart which shows the audio | voice decoding process performed in the audio | voice decoding apparatus of this embodiment. 従来の音声符号化装置の構成を示すブロック図。The block diagram which shows the structure of the conventional audio | voice encoding apparatus.

符号の説明Explanation of symbols

1 ピッチ抽出部(抽出手段)
2 算出位置決定部
3 線形予測分析部(算出手段)
4 補間部(判定手段)
5 線形予測フィルタ部(生成手段)
6 誤差算出部
7 適応符号帳探索部(選択手段)
8 雑音符号帳探索部(選択手段)
9、10、23、24 アンプ
11 合成部
12 繰り返し処理部(繰り返し手段)
21 適応符号帳探索部
22 雑音符号帳探索部
25 合成部
26 繰り返し処理部
27 補間部
28 線形予測フィルタ部(出力手段)
100 音声符号化装置
200 音声復号装置
1 Pitch extraction unit (extraction means)
2 Calculation position determination unit 3 Linear prediction analysis unit (calculation means)
4 Interpolation section (judgment means)
5 Linear prediction filter section (generation means)
6 Error calculation unit 7 Adaptive codebook search unit (selection means)
8 Noise codebook search section (selection means)
9, 10, 23, 24 Amplifier 11 Combining unit 12 Repetition processing unit (repetition means)
21 Adaptive Codebook Search Unit 22 Noise Codebook Search Unit 25 Synthesis Unit 26 Iterative Processing Unit 27 Interpolation Unit 28 Linear Prediction Filter Unit (Output Unit)
100 Speech coding apparatus 200 Speech decoding apparatus

Claims (7)

線形予測フィルタと励起信号によって入力音声を符号化する音声符号化装置であって、
入力された音声信号からピッチ波形を抽出する抽出手段と、
前記抽出手段により抽出されたピッチ波形の単位で前記入力された音声信号から線形予測係数を算出すると共に、前記ピッチ波形のピッチ長が予め指定された値よりも短い場合、複数のピッチ波形をまとめた単位で前記線形予測係数を算出する算出手段と、
前記算出手段により算出された線形予測係数を用いて前記線形予測フィルタを生成する生成手段と、
前記算出手段が複数のピッチ波形をまとめた場合、前記線形予測フィルタに入力される励起信号を、前記複数のピッチ波形の各々のピッチ長に合わせて繰り返して取り出す繰り返し手段と、
前記生成手段により生成された線形予測フィルタに励起信号を駆動信号として入力して算出された合成音声と前記入力された音声信号との誤差が最小となるような励起信号を選択する選択手段と、
を備えることを特徴とする音声符号化装置。
A speech encoding device that encodes input speech using a linear prediction filter and an excitation signal,
Extraction means for extracting a pitch waveform from the input audio signal;
A linear prediction coefficient is calculated from the input speech signal in units of the pitch waveform extracted by the extracting means, and when the pitch length of the pitch waveform is shorter than a predetermined value, a plurality of pitch waveforms are combined. Calculating means for calculating the linear prediction coefficient in units of
Generating means for generating the linear prediction filter using the linear prediction coefficient calculated by the calculating means;
When the calculation unit summarizes a plurality of pitch waveforms, a repetition unit that repeatedly extracts the excitation signal input to the linear prediction filter in accordance with the pitch length of each of the plurality of pitch waveforms;
A selection means for selecting an excitation signal that minimizes an error between the synthesized speech calculated by inputting the excitation signal as a drive signal to the linear prediction filter generated by the generation means and the input speech signal;
A speech encoding apparatus comprising:
前記算出手段は、前記ピッチ長が予め指定された値よりも短い場合、予め指定された個数のピッチ波形をまとめることを特徴とする請求項1に記載の音声符号化装置。   2. The speech encoding apparatus according to claim 1, wherein, when the pitch length is shorter than a predetermined value, the calculating unit collects a predetermined number of pitch waveforms. 3. 前記算出手段は、前記ピッチ長が予め指定された値よりも短い場合、予め指定された固定長を超えない最大長までピッチ波形をまとめることを特徴とする請求項1に記載の音声符号化装置。   2. The speech encoding apparatus according to claim 1, wherein, when the pitch length is shorter than a predesignated value, the calculation unit summarizes the pitch waveform up to a maximum length not exceeding a predesignated fixed length. . 前記ピッチ波形のピッチ長の時間軸における変化が所定値より大きいか否かを判定する判定手段と、
前記判定手段により、前記ピッチ長の変化が所定値以下であると判定された場合、所定間隔で間引いた線形予測係数の補間処理を行う補間手段と、を備え、
前記判定手段により、前記ピッチ長の変化が所定値より大きいと判定された場合、線形予測係数の間引き及び前記補間手段による補間処理を行わないことを特徴とする請求項1〜3の何れか一項に記載の音声符号化装置。
Determination means for determining whether or not a change in the time axis of the pitch length of the pitch waveform is greater than a predetermined value;
Interpolating means for performing interpolation processing of linear prediction coefficients thinned out at predetermined intervals when the determining means determines that the change in pitch length is equal to or less than a predetermined value;
4. If the determination means determines that the change in pitch length is greater than a predetermined value, linear prediction coefficient thinning and interpolation processing by the interpolation means are not performed. The speech encoding device according to item.
前記判定手段は、ピッチ長間に予め指定された固定値以上の差があるか否かを判定することを特徴とする請求項4に記載の音声符号化装置。   5. The speech encoding apparatus according to claim 4, wherein the determination unit determines whether there is a difference equal to or greater than a predetermined fixed value between pitch lengths. 前記判定手段は、ピッチ長間に、特定のピッチ長に予め指定された比率を乗算した値以上の差があるか否かを判定することを特徴とする請求項4に記載の音声符号化装置。   5. The speech encoding apparatus according to claim 4, wherein the determination unit determines whether there is a difference between pitch lengths that is equal to or greater than a value obtained by multiplying a specific pitch length by a predetermined ratio. . 線形予測フィルタと励起信号によって音声信号を符号化する音声符号化方法であって、
前記音声信号からピッチ波形を抽出し、
前記抽出されたピッチ波形の単位で前記音声信号から線形予測係数を算出すると共に、前記ピッチ波形のピッチ長が予め指定された値よりも短い場合、複数のピッチ波形をまとめた単位で前記線形予測係数を算出し、
前記算出された線形予測係数を用いて前記線形予測フィルタを生成し、
複数のピッチ波形をまとめた場合、前記線形予測フィルタに入力される励起信号を、前記複数のピッチ波形の各々のピッチ長に合わせて繰り返し取り出し、
前記生成された線形予測フィルタに励起信号を駆動信号として入力して算出された合成音声と前記音声信号との誤差が最小となるような励起信号を選択することを特徴とする音声符号化方法。
A speech encoding method for encoding a speech signal with a linear prediction filter and an excitation signal,
Extracting a pitch waveform from the audio signal;
A linear prediction coefficient is calculated from the speech signal in units of the extracted pitch waveform, and when the pitch length of the pitch waveform is shorter than a predetermined value, the linear prediction is in units of a plurality of pitch waveforms. Calculate the coefficient,
Generating the linear prediction filter using the calculated linear prediction coefficient;
When collecting a plurality of pitch waveforms, the excitation signal input to the linear prediction filter is repeatedly extracted according to the pitch length of each of the plurality of pitch waveforms,
A speech encoding method, wherein an excitation signal that minimizes an error between a synthesized speech calculated by inputting an excitation signal as a drive signal to the generated linear prediction filter and the speech signal is selected.
JP2006019310A 2006-01-27 2006-01-27 Speech coding apparatus and speech coding method Active JP4816107B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006019310A JP4816107B2 (en) 2006-01-27 2006-01-27 Speech coding apparatus and speech coding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006019310A JP4816107B2 (en) 2006-01-27 2006-01-27 Speech coding apparatus and speech coding method

Publications (2)

Publication Number Publication Date
JP2007199515A JP2007199515A (en) 2007-08-09
JP4816107B2 true JP4816107B2 (en) 2011-11-16

Family

ID=38454175

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006019310A Active JP4816107B2 (en) 2006-01-27 2006-01-27 Speech coding apparatus and speech coding method

Country Status (1)

Country Link
JP (1) JP4816107B2 (en)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02153400A (en) * 1988-12-06 1990-06-13 Nec Corp Voice encoding system
JP3148920B2 (en) * 1995-03-08 2001-03-26 移動通信システム開発株式会社 Audio encoding / decoding device

Also Published As

Publication number Publication date
JP2007199515A (en) 2007-08-09

Similar Documents

Publication Publication Date Title
US7630883B2 (en) Apparatus and method for creating pitch wave signals and apparatus and method compressing, expanding and synthesizing speech signals using these pitch wave signals
KR100615480B1 (en) Speech bandwidth extension apparatus and speech bandwidth extension method
US7664650B2 (en) Speech speed converting device and speech speed converting method
JPH06222797A (en) Voice encoding system
JP4304360B2 (en) Code conversion method and apparatus between speech coding and decoding methods and storage medium thereof
US20040111257A1 (en) Transcoding apparatus and method between CELP-based codecs using bandwidth extension
JPH09319396A (en) Speech encoding device, and speech encoding and decoding device
JP4108317B2 (en) Code conversion method and apparatus, program, and storage medium
JP3891309B2 (en) Audio playback speed converter
JP3888097B2 (en) Pitch cycle search range setting device, pitch cycle search device, decoding adaptive excitation vector generation device, speech coding device, speech decoding device, speech signal transmission device, speech signal reception device, mobile station device, and base station device
JP4816107B2 (en) Speech coding apparatus and speech coding method
JP4816115B2 (en) Speech coding apparatus and speech coding method
JP3559485B2 (en) Post-processing method and device for audio signal and recording medium recording program
JP4438280B2 (en) Transcoder and code conversion method
JP4580622B2 (en) Wideband speech coding method and wideband speech coding apparatus
JP4348322B2 (en) Multi-channel signal encoding method, multi-channel signal decoding method, apparatus using the methods, program, and recording medium
US6856955B1 (en) Voice encoding/decoding device
JP4438654B2 (en) Encoding device, decoding device, encoding method, and decoding method
JP2004348120A (en) Voice encoding device and voice decoding device, and method thereof
JP5002642B2 (en) Wideband speech coding method and wideband speech coding apparatus
JP3471542B2 (en) Audio coding device
JPH07177031A (en) Voice coding control system
JP4293005B2 (en) Speech and music signal encoding apparatus and decoding apparatus
JP2013101212A (en) Pitch analysis device, voice encoding device, pitch analysis method and voice encoding method
JP2004061558A (en) Method and device for code conversion between speed encoding and decoding systems and storage medium therefor

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081118

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110412

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110412

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110711

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110802

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110815

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140909

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4816107

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150