JP5084360B2 - Speech coding apparatus and speech decoding apparatus - Google Patents
Speech coding apparatus and speech decoding apparatus Download PDFInfo
- Publication number
- JP5084360B2 JP5084360B2 JP2007156589A JP2007156589A JP5084360B2 JP 5084360 B2 JP5084360 B2 JP 5084360B2 JP 2007156589 A JP2007156589 A JP 2007156589A JP 2007156589 A JP2007156589 A JP 2007156589A JP 5084360 B2 JP5084360 B2 JP 5084360B2
- Authority
- JP
- Japan
- Prior art keywords
- subframe
- excitation
- speech
- codebook
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
この発明は、入力音声を高能率符号化する音声符号化装置と、音声符号化装置により符号化された音声を復号する音声復号装置とに関するものである。 The present invention relates to a speech encoding apparatus that performs high-efficiency encoding on input speech, and a speech decoding apparatus that decodes speech encoded by the speech encoding apparatus.
符号励振線形予測(CELP)を用いて、音声信号を高能率符号化する方式としては、単位パルスで構成される代数符号帳を用いて、励振信号の雑音成分を表現する方式(代数的符号励振線形予測:Algebraic Code―Excited Linear Prediction:ACELP)があり、この方式が各種の標準方式に採用されている(例えば、非特許文献1,2,3を参照)。
As a method for highly efficient coding of a speech signal using code excitation linear prediction (CELP), a method of expressing a noise component of an excitation signal using an algebraic codebook composed of unit pulses (algebraic code excitation). There is linear prediction: Algebraic Code-Excited Linear Prediction (ACELP), and this method is adopted in various standard methods (see, for example, Non-Patent
図31は例えば以下の非特許文献2に開示されている従来の音声符号化装置を示す構成図である。
従来の音声符号化装置による音声の符号化処理の概略は下記の通りである。
(1)音声符号化装置は、図33に示すような音声信号を入力すると、入力音声を一定のフレーム長(通常、5msec〜50msec程度、AMR方式では20msec)に区切る。
(2)前処理部が帯域制限フィルタリングを行うことにより、入力音声から符号化の対象とならない帯域の信号を除去する。
(3)線形予測分析部が入力音声のフレーム毎に、音声のスペクトル分析(LPC分析)を実施して、合成フィルタの係数に用いる線形予測係数LPCを算出するとともに、その線形予測係数LPCを線スペクトル対LSPに変換する。
FIG. 31 is a block diagram showing a conventional speech coding apparatus disclosed in Non-Patent
The outline of the speech encoding process by the conventional speech encoding apparatus is as follows.
(1) When a speech signal as shown in FIG. 33 is input, the speech encoding apparatus divides the input speech into a certain frame length (usually about 5 msec to 50 msec, 20 msec in the AMR system).
(2) The pre-processing unit performs band-limiting filtering to remove a signal in a band not to be encoded from the input speech.
(3) The linear prediction analysis unit performs speech spectrum analysis (LPC analysis) for each frame of the input speech to calculate a linear prediction coefficient LPC to be used as a coefficient of the synthesis filter. Convert to spectrum versus LSP.
(4)LSP量子化・逆量子化部がLSP符号帳を参照してベクトル量子化を行う。
即ち、LSP符号帳に記録されているLSP係数の中で、線スペクトル対LSPに最も近似しているLSP係数を特定し、LSP符号帳から当該LSP係数のインデックスを抽出する。
また、LSP量子化・逆量子化部が当該LSP係数のインデックスをスペクトル情報として多重化部に出力する。
(5)LSP/LPC変換部が当該LSP係数を線形予測係数LPCに変換し、その線形予測係数LPCに応じて合成フィルタを形成する。
(4) The LSP quantization / inverse quantization unit performs vector quantization with reference to the LSP codebook.
That is, among the LSP coefficients recorded in the LSP codebook, the LSP coefficient closest to the line spectrum pair LSP is specified, and the index of the LSP coefficient is extracted from the LSP codebook.
Further, the LSP quantization / inverse quantization unit outputs the index of the LSP coefficient as spectrum information to the multiplexing unit.
(5) The LSP / LPC converter converts the LSP coefficient into a linear prediction coefficient LPC, and forms a synthesis filter in accordance with the linear prediction coefficient LPC.
(6)駆動音源生成部が適応符号帳及び固定音源符号帳から出力されるサブフレーム単位(1つのフレームが時間軸上で複数に分割(AMR方式では4分割、1サブフレーム=5msec)された区間)の励振音源信号を組み合わせて、複数の駆動音源を生成する。
(7)駆動音源生成部により生成された複数の駆動音源を合成フィルタに通して、複数の合成音声を生成する。
(6) The sub-frame unit (one frame is divided into a plurality of parts on the time axis (four divisions in the AMR method, one sub-frame = 5 msec)) output from the adaptive excitation codebook and the fixed excitation codebook by the driving excitation generator A plurality of driving sound sources are generated by combining the excitation sound source signals of (section).
(7) A plurality of driving sound sources generated by the driving sound source generation unit are passed through a synthesis filter to generate a plurality of synthesized sounds.
(8)最小誤差探索部が適応符号帳及び固定音源符号帳から出力される励振音源信号や、利得符号帳から出力される利得を制御しながら、複数の合成音声と入力音声の量子化誤差を評価し、複数の合成音声の中で量子化誤差が最小の合成音声を探索する。
(9)多重化部がLPC量子化・逆量子化部から出力されたスペクトル情報と、量子化誤差が最小の合成音声が得られる際に適応符号帳から出力される励振音源信号のピッチ情報と、量子化誤差が最小の合成音声が得られる際に固定音源符号帳から出力される励振音源信号のパルス情報と、量子化誤差が最小の合成音声が得られる際に利得符号帳から出力される利得を示す利得情報とを多重化して、その多重化信号を音声復号装置に送信する。
(8) The minimum error search unit controls quantization errors between a plurality of synthesized speech and input speech while controlling the excitation excitation signal output from the adaptive codebook and the fixed excitation codebook and the gain output from the gain codebook. Evaluate and search for a synthesized speech with a minimum quantization error among a plurality of synthesized speech.
(9) Spectrum information output from the LPC quantization / inverse quantization unit by the multiplexing unit, pitch information of the excitation sound source signal output from the adaptive codebook when a synthesized speech with a minimum quantization error is obtained, The pulse information of the excitation excitation signal output from the fixed excitation codebook when the synthesized speech with the minimum quantization error is obtained, and the gain codebook output when the synthesized speech with the minimum quantization error is obtained. The gain information indicating the gain is multiplexed and the multiplexed signal is transmitted to the speech decoding apparatus.
ここで、音声符号化装置の適応符号帳は、過去に生成した駆動音源を蓄積したものである。
また、固定音源符号帳は、例えば、AMR方式では、図34に示すように、複数本の単位パルスで構成されているパルス音源符号帳(代数符号帳)が用いられている。
また、パルス音源符号帳の後段にピッチ強調フィルタが設置され、適応符号帳から出力される励振音源信号のピット周期に応じてピッチ周波数成分を強調することにより、母音部の音質を改善する手法がとられている。
なお、利得符号帳には、複数の利得値の候補が格納されており、それぞれの利得値にインデックスが付されている。
駆動音源は、これらの符号帳の要素を適宜組み合わせることによって生成される。
Here, the adaptive codebook of the speech coding apparatus is an accumulation of drive excitations generated in the past.
As the fixed excitation codebook, for example, in the AMR system, as shown in FIG. 34, a pulse excitation codebook (algebraic codebook) composed of a plurality of unit pulses is used.
In addition, there is a method for improving the sound quality of the vowel part by installing a pitch emphasis filter after the pulse excitation codebook and enhancing the pitch frequency component according to the pit period of the excitation excitation signal output from the adaptive codebook. It has been taken.
The gain codebook stores a plurality of gain value candidates, and each gain value is indexed.
The driving sound source is generated by appropriately combining these codebook elements.
図32は例えば以下の非特許文献2に開示されている従来の音声復号装置を示す構成図である。
従来の音声復号装置による音声の復号処理の概略は下記の通りである。
(1)多重分離部が音声符号化装置から送信された多重化信号を受信して、その多重化信号を分離し、スペクトル情報、ピッチ情報、パルス情報及び利得情報を出力する。
(2)多重分離部から出力されたスペクトル情報が示すLSP係数のインデックスにしたがって合成フィルタを形成する。
(3)適応符号帳からピッチ情報に対応する当該サブフレームにおける励振音源信号(適応符号帳成分信号)を取得するとともに、固定音源符号帳からパルス情報に対応する当該サブフレームにおける励振音源信号(パルス音源符号帳成分信号)を取得する。
FIG. 32 is a block diagram showing a conventional speech decoding apparatus disclosed in Non-Patent
The outline of the speech decoding process by the conventional speech decoding apparatus is as follows.
(1) The demultiplexing unit receives the multiplexed signal transmitted from the speech coding apparatus, demultiplexes the multiplexed signal, and outputs spectrum information, pitch information, pulse information, and gain information.
(2) A synthesis filter is formed according to the index of the LSP coefficient indicated by the spectrum information output from the demultiplexing unit.
(3) An excitation excitation signal (adaptive codebook component signal) in the subframe corresponding to the pitch information is acquired from the adaptive codebook, and an excitation excitation signal (pulse) in the subframe corresponding to the pulse information from the fixed excitation codebook A sound source codebook component signal) is acquired.
(4)利得符号帳から利得情報が示す利得を取得する。
(5)利得乗算器が利得符号帳から取得した利得を適応符号帳成分信号及びパルス音源符号帳成分信号に乗じ、加算器が利得乗算後の適応符号帳成分信号とパルス音源符号帳成分信号を加算する。
(6)加算器による加算後の励振音源信号(適応符号帳成分信号+パルス音源符号帳成分信号)を合成フィルタに通して合成音声を復号する。
(4) The gain indicated by the gain information is acquired from the gain codebook.
(5) The gain obtained from the gain codebook by the gain multiplier is multiplied by the adaptive codebook component signal and the pulse excitation codebook component signal, and the adder obtains the adaptive codebook component signal and the pulse excitation codebook component signal after gain multiplication. to add.
(6) Pass the excitation excitation signal (adaptive codebook component signal + pulse excitation codebook component signal) after addition by the adder through the synthesis filter to decode the synthesized speech.
上記のCELP型符号化方式の枠組みを用いて、低ビットレートを維持しながら、さらに符号化音声品質を向上させて、ユーザが自然で聞き取りやすい音声を伝送させる例が、以下の特許文献1に開示されている。
即ち、以下の特許文献1には、ITU―T勧告G.729 Annex Dに示されているパルス拡散符号帳を用いる技術が開示されている。
図35はパルス拡散符号帳を用いる固定音源符号帳を示す構成図であり、図35の固定音源符号帳は、パルス音源に拡散パタン(固定波形)を畳み込んで固定音源ベクトルを生成するものである。
The following
That is, in the following
FIG. 35 is a block diagram showing a fixed excitation codebook using a pulse spreading codebook. The fixed excitation codebook in FIG. 35 generates a fixed excitation vector by convolving a spreading pattern (fixed waveform) with a pulse excitation. is there.
また、パルス音源から所望の周波数帯域の信号を抽出し、当該周波数帯域の信号を強調させるため、図36に示すように、低域通過フィルタ(LPF)や高域通過フィルタ(HPF)を後置することもある。 Further, in order to extract a signal of a desired frequency band from the pulse sound source and emphasize the signal of the frequency band, as shown in FIG. 36, a low-pass filter (LPF) or a high-pass filter (HPF) is placed after the signal. Sometimes.
以上より、上記のCELP型符号化方式を用いれば、音声信号の符号化において、低ビットレート化を図ることができる。
しかしながら、パルス音源符号帳の後段に、拡散フィルタやHPFなどの各種フィルタを設置する場合、通常、フィルタのインパルス応答によって、所定の時間長を有する波束形状となることが知られている。
図37は所定の時間長を有する波束形状を示す説明図である。
図37の上段には、パルス音源符号帳の出力波形(図35及び図36の(1)に相当する波形)を示し、下段には、後置フィルタの出力波形(図35及び図36の(2)に相当する波形)を示している。ただし、図を見やすくするために、(2)の波形については、波形の包絡線を示している。
As described above, if the CELP coding method is used, it is possible to reduce the bit rate in encoding the audio signal.
However, when various filters such as a diffusion filter and an HPF are installed at the subsequent stage of the pulse excitation codebook, it is generally known that a wave packet shape having a predetermined time length is obtained due to the impulse response of the filter.
FIG. 37 is an explanatory view showing a wave packet shape having a predetermined time length.
The upper part of FIG. 37 shows the output waveform of the pulse excitation codebook (the waveform corresponding to (1) in FIGS. 35 and 36), and the lower part shows the output waveform of the post filter (in FIGS. 35 and 36). 2). However, in order to make the figure easy to see, the waveform of (2) shows an envelope of the waveform.
固定音源符号帳の励振音源信号として、所定の時間長を有する波束を用いて、CELP符号化処理を実行する場合、以下に示すような問題を生じる。
図38は所定の時間長を有する波束を用いて、CELP符号化処理を実行する場合の問題を説明する説明図である。
図38の上段は、上記の(1)の波形に相当するパルスの位置及び波束が、符号化処理対象である当該サブフレーム区間に存在する理想的な例を示している。このときは、波束成分の全てが、固定音源符号帳の量子化誤差評価の対象となるため、正確な誤差評価が可能である。
When CELP encoding processing is executed using a wave packet having a predetermined time length as an excitation excitation signal of a fixed excitation codebook, the following problems occur.
FIG. 38 is an explanatory diagram for explaining a problem when the CELP encoding process is executed using a wave packet having a predetermined time length.
The upper part of FIG. 38 shows an ideal example in which the pulse position and wave packet corresponding to the waveform of (1) above exist in the subframe section to be encoded. At this time, since all of the wave packet components are subjected to quantization error evaluation of the fixed excitation codebook, accurate error evaluation is possible.
しかしながら、図38の下段に示すように、パルス位置が当該サブフレーム区間内にあっても、波束がサブフレーム間を跨がる場合があり、波束の一部が固定音源符号帳の量子化誤差評価の対象とならないことがある。
即ち、パルス音源が、符号化処理が行われている当該サブフレーム(ここでは、説明の便宜上、第Nサブフレームと表記する)の末尾付近(図38の例では、パルスB)にある場合、図38の下段に示すように、波束の一部が第(N+1)サブフレームに跨ることがある。
このとき、図33に示すフレーム構成で符号化を実行すると、実際に誤差評価の対象となるのは、区間Bのみである(図38の下段を参照)。
However, as shown in the lower part of FIG. 38, even if the pulse position is within the subframe section, the wave packet may straddle between the sub frames, and a part of the wave packet is a quantization error of the fixed excitation codebook. May not be subject to evaluation.
That is, when the pulse sound source is near the end (pulse B in the example of FIG. 38) of the subframe where the encoding process is performed (here, for convenience of description, expressed as the Nth subframe), As shown in the lower part of FIG. 38, a part of the wave packet may straddle the (N + 1) th subframe.
At this time, when encoding is performed with the frame configuration shown in FIG. 33, only the section B is actually subject to error evaluation (see the lower part of FIG. 38).
パルスBは、波束の一部(区間B)でしか、誤差評価がなされていないため、波束全体で評価された場合には、選択から漏れていた可能性がある。
このように、本来、選択されないパルス(波束位置)を誤って選択してしまうことがある。
また、符号化ビットレートは有限であるため、誤って選択されてしまったパルスの代わりに、本来選択されるべきパルスが選択されない(機会損失)ということも考えられる。
Since the error evaluation of the pulse B is performed only in a part of the wave packet (section B), there is a possibility that the pulse B has been omitted from the selection when the entire wave packet is evaluated.
Thus, a pulse (wave packet position) that is not originally selected may be selected by mistake.
In addition, since the encoding bit rate is finite, it is conceivable that a pulse to be originally selected is not selected (opportunity loss) instead of a pulse that has been selected by mistake.
さらに、当該サブフレームの直前のサブフレーム(第(N―1)サブフレーム)で選択されたパルスのインパルス応答成分は、第Nサブフレームには繰り越されないため、図38の区間Aの信号はないものとして、量子化処理がなされる。
そのため、例えば、図38のパルスDのように、本来なら選択する必要のない区間A内のパルスが選択されやすくなることがある。その結果、パルスDの代わりに、本来選択されるべきパルス(例えば、パルスC)が選択されない(機会損失)ことも考えられる。
Furthermore, since the impulse response component of the pulse selected in the subframe immediately before the subframe ((N−1) th subframe) is not carried over to the Nth subframe, the signal in section A in FIG. Quantization processing is performed as if there is no.
Therefore, for example, a pulse in the section A that does not need to be selected as in the case of the pulse D in FIG. 38 may be easily selected. As a result, instead of the pulse D, a pulse (for example, the pulse C) that should be originally selected is not selected (loss of opportunity).
音声復号装置側では、区間Aに相当するインパルス応答成分を繰越再生する機能を備えていないため、波束形状が崩れてしまい、畳み込んだフィルタの効果が減じられるなどの弊害が発生することも考えられる。 Since the speech decoding apparatus does not have a function to carry forward the impulse response component corresponding to the section A, the wave packet shape is collapsed, and there is a possibility that the effect of the convolved filter is reduced. It is done.
従来の音声符号化装置は以上のように構成されているので、CELP型符号化方式を用いれば、音声信号の符号化において、低ビットレート化を図ることができる。しかし、パルス音源符号帳の後段に、拡散フィルタやHPFなどの各種フィルタを設置すると、フィルタのインパルス応答によって、固定音源符号帳の励振音源信号が所定の時間長を有する波束形状となるため、最適な符号帳を選択することができず、音声復号装置で復号される音声の品質が劣化してしまうなどの課題があった。 Since the conventional speech coding apparatus is configured as described above, if the CELP coding method is used, a low bit rate can be achieved in speech signal coding. However, if various filters such as diffusion filters and HPFs are installed after the pulse excitation codebook, the excitation excitation signal of the fixed excitation codebook has a wave packet shape having a predetermined time length due to the impulse response of the filter. There is a problem that a correct codebook cannot be selected, and the quality of speech decoded by the speech decoding apparatus deteriorates.
この発明は上記のような課題を解決するためになされたもので、固定音源符号帳を構成するパルス音源符号帳の後段に設置されるフィルタのインパルス応答によって、固定音源符号帳の励振音源信号が所定の時間長を有する波束形状となっても、最適な符号帳を選択することができる音声符号化装置を得ることを目的とする。 The present invention has been made to solve the above-described problems, and the excitation excitation signal of the fixed excitation codebook is generated by the impulse response of the filter installed at the subsequent stage of the pulse excitation codebook constituting the fixed excitation codebook. An object of the present invention is to obtain a speech coding apparatus capable of selecting an optimum codebook even when the wave packet shape has a predetermined time length.
この発明に係る音声符号化装置は、適応符号帳及び固定音源符号帳が当該サブフレームの励振音源信号だけでなく、次サブフレームの励振音源信号を出力し、パラメータ探索手段が当該サブフレームの入力音声だけでなく、次サブフレームの入力音声を量子化誤差の評価対象に含めるようにしたものである。 In the speech coding apparatus according to the present invention, the adaptive codebook and the fixed excitation codebook output not only the excitation excitation signal of the subframe but also the excitation excitation signal of the next subframe, and the parameter search means inputs the subframe. In addition to the speech, the input speech of the next subframe is included in the quantization error evaluation target.
この発明によれば、適応符号帳及び固定音源符号帳が当該サブフレームの励振音源信号だけでなく、次サブフレームの励振音源信号を出力し、パラメータ探索手段が当該サブフレームの入力音声だけでなく、次サブフレームの入力音声を量子化誤差の評価対象に含めるように構成したので、固定音源符号帳を構成するパルス音源符号帳の後段に設置されるフィルタのインパルス応答によって、固定音源符号帳の励振音源信号が所定の時間長を有する波束形状となっても、最適な符号帳を選択することができる効果がある。 According to this invention, the adaptive codebook and the fixed excitation codebook output not only the excitation excitation signal of the subframe but also the excitation excitation signal of the next subframe, and the parameter search means not only the input speech of the subframe. Since the input speech of the next subframe is included in the evaluation target of the quantization error, the fixed excitation codebook of the fixed excitation codebook is determined by the impulse response of the filter installed after the pulse excitation codebook constituting the fixed excitation codebook. Even if the excitation sound source signal has a wave packet shape having a predetermined time length, there is an effect that an optimal codebook can be selected.
実施の形態1.
図1はこの発明の実施の形態1による音声符号化装置を示す構成図であり、図において、バッファ1は入力音声である音声信号を格納するメモリである。
前処理部2はバッファ1に格納されている音声信号を一定のフレーム長(通常、5msec〜50msec程度、AMR方式では20msec)に区切り、帯域制限フィルタリングを行うことにより、音声信号の各フレームから符号化の対象とならない不要な低周波数成分を除去する処理を実施する。前処理部2は例えばカットオフ周波数が140Hzの極零フィルタなどから構成される。
FIG. 1 is a block diagram showing a speech coding apparatus according to
The
スペクトル分析部3は線形予測分析部4、LSP符号帳5及びLSP量子化・逆量子化部6から構成されており、前処理部2から出力された音声信号のフレーム毎に、音声のスペクトル分析(LPC分析)を実施する。なお、スペクトル分析部3はスペクトル分析手段を構成している。
線形予測分析部4は音声信号のフレーム毎に、音声のスペクトル分析(LPC分析)を実施して、合成フィルタ16の係数に用いる線形予測係数LPCを算出するとともに、その線形予測係数LPCを線スペクトル対LSPに変換する処理を実施する。
The
The linear
LSP符号帳5は複数のLSP係数を記録している符号帳であり、各LSP係数にはインデックスが付与されている。
LSP量子化・逆量子化部6はLSP符号帳5に記録されているLSP係数の中で、線スペクトル対LSPに最も近似しているLSP係数を特定し、LSP符号帳5から当該LSP係数のインデックスを抽出するとともに、そのLSP係数のインデックスをスペクトル情報として多重化部21に出力する処理を実施する。
The
The LSP quantization /
駆動音源生成部7は最小誤差探索部20の指示の下、適応符号帳8及び固定音源符号帳9から出力されるサブフレーム単位(1つのフレームが時間軸上で複数に分割(AMR方式では4分割、1サブフレーム=5msec)された区間)の励振音源信号を組み合わせて、複数の駆動音源を生成する処理を実施する。なお、駆動音源生成部7は駆動音源生成手段を構成している。
適応符号帳8は過去に生成した駆動音源である励振音源信号(適応符号帳成分信号)を蓄積している符号帳であり、最小誤差探索部20が指示する当該サブフレーム及び次サブフレームの適応符号帳成分信号を出力する。
Under the instruction of the minimum
The
固定音源符号帳9は例えばAMR方式では、複数本の単位パルスで構成されているパルス音源符号帳(代数符号帳)が用いられる符号帳であり、最小誤差探索部20が指示する当該サブフレーム及び次サブフレームの励振音源信号(パルス音源符号帳成分信号)を出力する。なお、パルス音源符号帳の後段にピッチ強調フィルタが設置され、適応符号帳8から出力される励振音源信号のピット周期に応じてピッチ周波数成分を強調することにより、母音部の音質を改善する手法がとられることがある。
利得符号帳10は複数の利得を格納している符号帳であり、最小誤差探索部20が指示する利得を出力する。
The fixed
The
利得乗算器11は適応符号帳8から出力された当該サブフレーム及び次サブフレームにおける励振音源信号(適応符号帳成分信号)に、利得符号帳10から出力された利得を乗算する処理を実施する。
利得乗算器12は固定音源符号帳9から出力された当該サブフレーム及び次サブフレームにおける励振音源信号(パルス音源符号帳成分信号)に、利得符号帳10から出力された利得を乗算する処理を実施する。
加算器13は利得乗算器11により利得が乗算された励振音源信号(適応符号帳成分信号)と利得乗算器12により利得が乗算された励振音源信号(パルス音源符号帳成分信号)を加算する処理を実施する。
The
The
The
合成音声生成部14はLSP量子化・逆量子化部6により特定されたLSP係数に応じて合成フィルタ16を形成し、駆動音源生成部7により生成された複数の駆動音源を合成フィルタ16に通して、複数の合成音声を生成する処理を実施する。なお、合成音声生成部14は合成音声生成手段を構成している。
LSP/LPC変換部15はLSP量子化・逆量子化部6により特定されたLSP係数を線形予測係数LPCに変換し、その線形予測係数LPCに応じて合成フィルタ16を形成する処理を実施する。
合成フィルタ16は駆動音源生成部7により生成された駆動音源を入力して、合成音声を減算器18に出力するフィルタである。
The synthesized
The LSP /
The
参照ベクトル組立バッファ17は前処理部2から出力されたフレーム単位の音声信号の中から、当該サブフレームの音声信号と次サブフレームの音声信号を抽出し、当該サブフレーム及び次サブフレームの音声信号を、量子化誤差が最小の合成音声を探索するに使用する参照信号として減算器18に出力する。
減算器18は合成音声生成部14により生成された複数の合成音声と参照ベクトル組立バッファ17から出力された参照信号の差分(量子化誤差)を算出する処理を実施する。
The reference
The
聴覚重み付けフィルタ19は減算器18により算出された量子化誤差に対して聴覚重み付けを与える処理を実施する。
最小誤差探索部20は聴覚重み付けフィルタ19から出力される聴覚重み付け量子化誤差が小さくなるように、適応符号帳8及び固定音源符号帳9から出力される励振音源信号や、利得符号帳10から出力される利得を制御して、複数の合成音声の中で量子化誤差が最小の合成音声に係る符号化パラメータ(ピッチ情報、利得情報、パルス情報)を探索する処理を実施する。
なお、参照ベクトル組立バッファ17、減算器18、聴覚重み付けフィルタ19及び最小誤差探索部20からパラメータ探索手段が構成されている。
The
The minimum
The reference
多重化部21はLPC量子化・逆量子化部6から出力されたスペクトル情報と、量子化誤差が最小の合成音声が得られる際に適応符号帳8から出力される励振音源信号のピッチ情報と、量子化誤差が最小の合成音声が得られる際に固定音源符号帳9から出力される励振音源信号のパルス情報と、量子化誤差が最小の合成音声が得られる際に利得符号帳10から出力される利得を示す利得情報とを多重化して、その多重化信号を音声復号装置に送信する処理を実施する。
The multiplexing
図2はこの発明の実施の形態1による音声復号装置を示す構成図であり、図において、多重分離部31は音声符号化装置から送信された多重化信号を受信して、その多重化信号を分離し、スペクトル情報、ピッチ情報、パルス情報及び利得情報を出力する。なお、多重分離部31は情報受信手段を構成している。
適応符号帳32は図1の音声符号化装置における適応符号帳8に相当する符号帳であり、多重分離部31から出力されたピッチ情報に対応する当該サブフレームの励振音源信号(適応符号帳成分信号)を出力する。
FIG. 2 is a block diagram showing a speech decoding apparatus according to
The
固定音源符号帳33は図1の音声符号化装置における固定音源符号帳9に相当する符号帳であり、多重分離部31から出力されたパルス情報に対応する当該サブフレームの励振音源信号(パルス音源符号帳成分信号)を出力する。
利得符号帳34は図1の音声符号化装置における利得符号帳10に相当する符号帳であり、多重分離部31から出力された利得情報に対応する利得を利得乗算器35,36に出力する。
The fixed
The
利得乗算器35は適応符号帳32から出力された当該サブフレームにおける励振音源信号(適応符号帳成分信号)に、利得符号帳34から出力された利得を乗算する処理を実施する。
利得乗算器36は固定音源符号帳33から出力された当該サブフレームにおける励振音源信号(パルス音源符号帳成分信号)に、利得符号帳34から出力された利得を乗算する処理を実施する。
加算器37は利得乗算器35により利得が乗算された励振音源信号(適応符号帳成分信号)と利得乗算器36により利得が乗算された励振音源信号(パルス音源符号帳成分信号)を加算して駆動音源を生成する処理を実施する。
なお、適応符号帳32、固定音源符号帳33、利得符号帳34、利得乗算器35,36及び加算器37から駆動音源生成手段が構成されている。
The
The
The
The
LSP符号帳38は図1の音声符号化装置におけるLSP符号帳5に相当する符号帳であり、多重分離部31から出力されたスペクトル情報に対応するLSP係数を出力する。
LSP/LPC変換部39はLSP符号帳38から出力されたLSP係数を線形予測係数LPCに変換し、その線形予測係数LPCに応じて合成フィルタ40を形成する処理を実施する。
合成フィルタ40は加算器37から出力された駆動音源を入力して、合成音声をポストフィルタ41に出力するフィルタである。
ポストフィルタ41は、合成フィルタ40から出力された合成音声に対して品質を改善する処理を実施する。
なお、LSP符号帳38、LSP/LPC変換部39、合成フィルタ40及びポストフィルタ41から合成音声復号手段が構成されている。
The
The LSP /
The
The
The
次に動作について説明する。
音声符号化装置の前処理部2は、バッファ1が入力音声である音声信号を格納すると、図3に示すように、その音声信号を一定のフレーム長(通常、5msec〜50msec程度、AMR方式では20msec)に区切り、帯域制限フィルタリングを行うことにより、音声信号の各フレームから符号化の対象とならない不要な低周波数成分を除去する。
Next, the operation will be described.
When the
スペクトル分析部3は、前処理部2から前処理が施された音声信号を受けると、その音声信号のフレーム毎に、音声の線形予測分析(LPC分析)を実施して、合成フィルタ16の係数に用いる線形予測係数(LPC)を算出する。
ここで、合成フィルタ16は、下記の式(1)で定義される。
ただし、Aハット(z)は合成フィルタ16の係数、aiハットは量子化された線形予測係数である。
Here, the
However, A hat (z) is a coefficient of the
以下、スペクトル分析部3の処理内容を具体的に説明する。
スペクトル分析部3の線形予測分析部4は、例えば、30ms幅の非対称窓による自己相関法を用いて、1フレーム毎に1回線形予測分析を実行する。
即ち、160サンプル(20ms)毎に、窓かけされた音声の自己相関係数を計算し、レビンソンアルゴリズムを用いて、その自己相関係数を線形予測係数に変換する。
また、線形予測分析部4は、後段のLSP量子化・逆量子化部6が線形予測係数の量子化や補間を効率よく行えるようにするため、その線形予測係数を線スペクトル対(LSP)に変換する。
Hereinafter, the processing content of the
The linear
That is, the autocorrelation coefficient of the windowed speech is calculated every 160 samples (20 ms), and the autocorrelation coefficient is converted into a linear prediction coefficient using the Levinson algorithm.
Also, the linear
LSP量子化・逆量子化部6は、線形予測分析部4から線スペクトル対LSPを受けると、LSP符号帳5を参照してベクトル量子化を行う。
即ち、LSP量子化・逆量子化部6は、LSP符号帳5に記録されているLSP係数の中で、線スペクトル対LSPに最も近似しているLSP係数を特定し、LSP符号帳5から当該LSP係数のインデックスを抽出する。
また、LSP量子化・逆量子化部6は、そのLSP係数のインデックスをスペクトル情報として多重化部21に出力する。
なお、ここで量子化されたLSP係数は、第4サブフレームの合成フィルタ16で使用される。また、第1、第2、第3サブフレームで使用される線形予測係数を計算するため、直前のフレームで量子化されたLSP係数と、上記量子化LSPとを用いて補間処理が行われる。
When receiving the line spectrum pair LSP from the linear
That is, the LSP quantization /
Further, the LSP quantization /
The LSP coefficient quantized here is used in the
駆動音源生成部7は、最小誤差探索部20の指示の下、適応符号帳8及び固定音源符号帳9から出力されるサブフレーム単位の励振音源信号を組み合わせて、複数の駆動音源を生成する。
以下、駆動音源生成部7の処理内容を具体的に説明する。
The driving
Hereinafter, the processing content of the drive sound
駆動音源生成部7の適応符号帳8は、過去に生成した駆動音源である励振音源信号(適応符号帳成分信号)を蓄積しており、それらの励振音源信号(適応符号帳成分信号)の中から最小誤差探索部20が指示する励振音源信号(適応符号帳成分信号)を出力する。
また、固定音源符号帳9は、複数本の単位パルスで構成されているパルス音源符号帳(代数符号帳)が用いられており、最小誤差探索部20が指示する励振音源信号(パルス音源符号帳成分信号)を出力する。
ただし、適応符号帳8及び固定音源符号帳9は、当該サブフレームの励振音源信号(適応符号帳成分信号、パルス音源符号帳成分信号)だけでなく、次サブフレームに跨る励振音源信号(適応符号帳成分信号、パルス音源符号帳成分信号)も出力する。
The
The fixed
However, the
即ち、従来の音声符号化装置の場合、現在の符号化対象のフレームが第Mフレームであるとき、第Mフレームの第1サブフレームでは、第1サブフレームの励振音源信号(適応符号帳成分信号、パルス音源符号帳成分信号)だけを出力して駆動音源を生成するようにしているが、上述したように、固定音源符号帳を構成するパルス音源符号帳の後段に、拡散フィルタやHPFなどの各種フィルタを設置すると(図35及び図36を参照)、フィルタのインパルス応答によって、固定音源符号帳の励振音源信号が所定の時間長を有する波束形状となるため(図37を参照)、当該サブフレームの励振音源信号から生成した合成音声と、当該サブフレームの参照信号との量子化誤差を評価しても、最適な符号帳を選択することができなくなることがある。 That is, in the case of the conventional speech encoding apparatus, when the current encoding target frame is the Mth frame, the excitation signal (adaptive codebook component signal) of the first subframe is used in the first subframe of the Mth frame. , Only a pulse excitation codebook component signal) is output to generate a driving excitation. As described above, a diffusion filter, an HPF, or the like is provided after the pulse excitation codebook constituting the fixed excitation codebook. When various filters are installed (see FIG. 35 and FIG. 36), the excitation excitation signal of the fixed excitation codebook has a wave packet shape having a predetermined time length due to the impulse response of the filter (see FIG. 37). Even if the quantization error between the synthesized speech generated from the excitation signal of the frame and the reference signal of the subframe is evaluated, it is not possible to select the optimum codebook A.
そこで、この実施の形態1では、適応符号帳8及び固定音源符号帳9が、当該サブフレームの励振音源信号(適応符号帳成分信号、パルス音源符号帳成分信号)だけでなく、次サブフレームに跨る励振音源信号(適応符号帳成分信号、パルス音源符号帳成分信号)も出力するようにしている。
具体的には、第Mフレームの第1サブフレームでは、第1サブフレームの励振音源信号(適応符号帳成分信号、パルス音源符号帳成分信号)と、第1サブフレームから第2サブフレームに跨る励振音源信号(適応符号帳成分信号、パルス音源符号帳成分信号)を出力する。
同様に、第Mフレームの第N(N=2,3)サブフレームでは、第Nサブフレームの励振音源信号(適応符号帳成分信号、パルス音源符号帳成分信号)と第(N+1)サブフレームの励振音源信号(適応符号帳成分信号、パルス音源符号帳成分信号)を出力する。
また、第Mフレームの第4サブフレームでは、第Mフレームの第4サブフレームの励振音源信号(適応符号帳成分信号、パルス音源符号帳成分信号)と第(M+1)フレームの第1サブフレームの励振音源信号(適応符号帳成分信号、パルス音源符号帳成分信号)を出力する。
Therefore, in the first embodiment, the
Specifically, in the first subframe of the Mth frame, the excitation signal (adaptive codebook component signal, pulse excitation codebook component signal) of the first subframe and the first subframe to the second subframe are straddled. Excitation excitation signal (adaptive codebook component signal, pulse excitation codebook component signal) is output.
Similarly, in the Nth (N = 2, 3) subframe of the Mth frame, the excitation excitation signal (adaptive codebook component signal, pulse excitation codebook component signal) of the Nth subframe and the (N + 1) th subframe of the Nth subframe. Excitation excitation signal (adaptive codebook component signal, pulse excitation codebook component signal) is output.
Also, in the fourth subframe of the Mth frame, the excitation excitation signal (adaptive codebook component signal, pulse excitation codebook component signal) of the fourth subframe of the Mth frame and the first subframe of the (M + 1) th frame. Excitation excitation signal (adaptive codebook component signal, pulse excitation codebook component signal) is output.
利得符号帳10は、複数の利得を格納している符号帳であり、複数の利得の中から最小誤差探索部20が指示する利得を出力する。
利得乗算器11は、適応符号帳8から出力された当該サブフレーム及び次サブフレームにおける励振音源信号(適応符号帳成分信号)に、利得符号帳10から出力された利得を乗算する。
また、利得乗算器12は、固定音源符号帳9から出力された当該サブフレーム及び次サブフレームにおける励振音源信号(パルス音源符号帳成分信号)に、利得符号帳10から出力された利得を乗算する。
加算器13は、利得乗算器11により利得が乗算された励振音源信号(適応符号帳成分信号)と利得乗算器12により利得が乗算された励振音源信号(パルス音源符号帳成分信号)を加算して、駆動音源を生成する。
The
The
The
The
合成音声生成部14のLSP/LPC変換部15は、LSP量子化・逆量子化部6がLSP係数を特定すると、そのLSP係数を線形予測係数LPCに変換し、その線形予測係数LPCに応じて合成フィルタ16を形成する。
合成音声生成部14の合成フィルタ16は、駆動音源生成部7が複数の駆動音源を生成すると、複数の駆動音源を入力して、それらの駆動音源から複数の合成音声を生成し、複数の合成音声を減算器18に出力する。
When the LSP quantization /
When the driving
参照ベクトル組立バッファ17は、前処理部2からフレーム単位の音声信号を受けると、そのフレーム単位の音声信号の中から、当該サブフレームの音声信号と次サブフレームの音声信号を抽出し、当該サブフレーム及び次サブフレームの音声信号を、量子化誤差が最小の合成音声を探索するに使用する参照信号として減算器18に出力する。
具体的には、第Mフレームの第1サブフレームでは、図3に示すように、第1サブフレームの音声信号と第2サブフレームの音声信号を参照信号として出力する。
同様に、第Mフレームの第N(N=2,3)サブフレームでは、第Nサブフレームの音声信号と第(N+1)サブフレームの音声信号を参照信号として出力する。
また、第Mフレームの第4サブフレームでは、第Mフレームの第4サブフレームの音声信号と第(M+1)フレームの第1サブフレームの音声信号を参照信号として出力する。
When receiving the frame unit audio signal from the
Specifically, in the first subframe of the Mth frame, as shown in FIG. 3, the audio signal of the first subframe and the audio signal of the second subframe are output as reference signals.
Similarly, in the Nth (N = 2, 3) subframe of the Mth frame, the audio signal of the Nth subframe and the audio signal of the (N + 1) th subframe are output as reference signals.
Also, in the fourth subframe of the Mth frame, the audio signal of the fourth subframe of the Mth frame and the audio signal of the first subframe of the (M + 1) th frame are output as reference signals.
減算器18は、合成音声生成部14により生成された複数の合成音声と参照ベクトル組立バッファ17から出力された参照信号の差分(量子化誤差)を算出し、その量子化誤差を聴覚重み付けフィルタ19に出力する。
聴覚重み付けフィルタ19は、減算器18で得られた量子化誤差信号について、平坦な送話周波数応答を持つ量子化誤差に対して聴覚重みを付加することにより、音声信号の性能を改善する。
The
The
最小誤差探索部20は、聴覚重み付けフィルタ19から出力される量子化誤差が小さくなるように、適応符号帳8及び固定音源符号帳9から出力される励振音源信号や、利得符号帳10から出力される利得を制御して、合成フィルタ16から出力される複数の合成音声の中で、量子化誤差が最小の合成音声を探索する。
The minimum
多重化部21は、最小誤差探索部20が、量子化誤差が最小の合成音声を探索すると、LPC量子化・逆量子化部6から出力されたスペクトル情報と、量子化誤差が最小の合成音声が得られる際に適応符号帳8から出力される当該サブフレームの励振音源信号のピッチ情報と、量子化誤差が最小の合成音声が得られる際に固定音源符号帳9から出力される当該サブフレームの励振音源信号のパルス情報と、量子化誤差が最小の合成音声が得られる際に利得符号帳10から出力される利得を示す利得情報とを多重化して、その多重化信号を音声復号装置に送信する。
When the minimum
音声復号装置の多重分離部31は、音声符号化装置から送信された多重化信号を受信して、その多重化信号を分離し、スペクトル情報、ピッチ情報、パルス情報及び利得情報を出力する。
適応符号帳32は、多重分離部31からピッチ情報を受けると、そのピッチ情報に対応する当該サブフレームの励振音源信号(適応符号帳成分信号)を出力する。
The
When
固定音源符号帳33は、多重分離部31からパルス情報を受けると、そのパルス情報に対応する当該サブフレームの励振音源信号(パルス音源符号帳成分信号)を出力する。
利得符号帳34は、多重分離部31から利得情報を受けると、その利得情報に対応する利得を利得乗算器35,36に出力する。
When fixed
When gain codebook 34 receives gain information from
利得乗算器35は、適応符号帳32から出力された当該サブフレームにおける励振音源信号(適応符号帳成分信号)に、利得符号帳34から出力された利得を乗算する。
利得乗算器36は、固定音源符号帳33から出力された当該サブフレームにおける励振音源信号(パルス音源符号帳成分信号)に、利得符号帳34から出力された利得を乗算する。
加算器37は、利得乗算器35により利得が乗算された励振音源信号(適応符号帳成分信号)と利得乗算器36により利得が乗算された励振音源信号(パルス音源符号帳成分信号)を加算して、駆動音源を生成する。
The
The
The
LSP符号帳38は、多重分離部31からスペクトル情報を受けると、そのスペクトル情報に対応するLSP係数を出力する。
LSP/LPC変換部39は、LSP符号帳38からLSP係数を受けると、そのLSP係数を線形予測係数LPCに変換し、その線形予測係数LPCに応じて合成フィルタ40を形成する。
合成フィルタ40は、加算器37から出力された駆動音源を入力して、その駆動音源から合成音声を復号する。
ポストフィルタ41は、合成フィルタ40から合成音声を受けると、その合成音声に対して品質を改善する処理を実施する。
When receiving the spectrum information from the
When receiving the LSP coefficient from the
The
When the
以上で明らかなように、この実施の形態1によれば、適応符号帳8及び固定音源符号帳9が当該サブフレームの励振音源信号だけでなく、次サブフレームの励振音源信号を出力し、当該サブフレームの音声信号だけでなく、次サブフレームの音声信号を量子化誤差の評価対象に含めるように構成したので、固定音源符号帳9を構成するパルス音源符号帳の後段に設置されるフィルタのインパルス応答によって、固定音源符号帳9の励振音源信号が所定の時間長を有する波束形状となっても、最適な符号帳を選択することができる効果を奏する。
As apparent from the above, according to the first embodiment, the
即ち、この実施の形態1によれば、図4に示すように、パルスが存在する区間を当該サブフレームの区間内に限定したとしても、次サブフレームまでインパルス応答成分が及ぶ区間(図4の例では、区間C)まで量子化誤差の評価が行われるため、本来選択されないパルス(波束位置)を誤って選択することがなくなる。
また、符号化ビットレートは有限であるが、誤ってパルスが選択されてしまっても、そのパルスの代わりに、本来選択されるべきパルスが選択されない(機会損失)ということも少なくなる。
このように、波束位置をより適所に配置することができるため、同一ビットレートで音声品質の改善を図ることができる。
That is, according to the first embodiment, as shown in FIG. 4, even if the section where the pulse exists is limited to the section of the subframe, the section where the impulse response component extends to the next subframe (see FIG. 4). In the example, since the quantization error is evaluated until section C), a pulse (wave packet position) that is not originally selected is not erroneously selected.
In addition, although the encoding bit rate is finite, even if a pulse is selected by mistake, a pulse that should be originally selected is not selected (opportunity loss) instead of the pulse.
As described above, since the wave packet position can be arranged at a more appropriate position, the voice quality can be improved at the same bit rate.
実施の形態2.
図5はこの発明の実施の形態2による音声符号化装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
重み付け最小誤差探索部22は図1の最小誤差探索部20と同様に、複数の合成音声の中で量子化誤差が最小の合成音声に係る符号化パラメータを探索する処理を実施するが、重み付け最小誤差探索部22は量子化誤差が最小の合成音声に係る符号化パラメータを探索する際、当該サブフレームの音声信号に係る量子化誤差の評価と比べて、次サブフレームの音声信号に係る量子化誤差の評価を相対的に減らすため、図6に示すように、当該サブフレームの音声信号に係る量子化誤差に対する重み付けを、次サブフレームの音声信号に係る量子化誤差に対する重み付けより大きくするようにする。
なお、参照ベクトル組立バッファ17、減算器18、聴覚重み付けフィルタ19及び重み付け最小誤差探索部22からパラメータ探索手段が構成されている。
FIG. 5 is a block diagram showing a speech encoding apparatus according to
Similar to the minimum
The reference
次に動作について説明する。
重み付け最小誤差探索部22以外の動作は、上記実施の形態1と同様であるため、重み付け最小誤差探索部22の動作についてのみ説明する。
Next, the operation will be described.
Since the operations other than the weighted minimum
例えば、第Nサブフレームと第(N+1)サブフレームとでは、通常、合成フィルタ16の係数が異なる。
第Nサブフレームにおける合成フィルタ16の係数と、第(N+1)サブフレームにおける合成フィルタ16の係数との変動(スペクトル包絡情報の変動)が小さければ、上記実施の形態1のような方法を用いても支障はないが、スペクトル包絡情報の変動が大きい場合(例えば、音声信号が雑音的である場合)、第Nサブフレームのスペクトル包絡情報を用いて、第(N+1)サブフレームまで跨って量子化誤差の評価を行うと、その評価値が本来のものと相違し、本来選択されるべきパルスが選択されなかったり、本来選択されないパルスを誤って選択してしまったりすることがある。
そこで、この実施の形態2では、次サブフレームの音声信号に係る量子化誤差の評価を相対的に減らすことで、スペクトル包絡情報の変動分を吸収することを目的としている。
For example, the coefficients of the
If the variation (coefficient of spectrum envelope information) between the coefficient of
Therefore, the second embodiment aims to absorb the fluctuation of the spectrum envelope information by relatively reducing the evaluation of the quantization error related to the audio signal of the next subframe.
重み付け最小誤差探索部22は、量子化誤差が最小の合成音声を探索する際、当該サブフレームの音声信号に係る量子化誤差の評価と比べて、次サブフレームの音声信号に係る量子化誤差の評価を相対的に減らすため、当該サブフレームの音声信号に係る量子化誤差に対する重み付けを、次サブフレームの音声信号に係る量子化誤差に対する重み付けより大きくするようにする。
以下、重み付け最小誤差探索部22の具体的な処理内容を説明する。
When searching for a synthesized speech with the smallest quantization error, the weighted minimum
Hereinafter, specific processing contents of the weighted minimum
CELP符号化における誤差評価は、通常、演算量を軽減することを目的として、参照信号ベクトルと合成信号ベクトルとの正規化された内積値と等価な下記の式(2)のR(k)を用いる。
即ち、重み付け最小誤差探索部22は、誤差評価R(k)を最大にするkの値を探索することによって、符号帳の探索(量子化誤差が最小の合成音声の探索)を実現する。
That is, the weighted minimum
ここで、ターゲットベクトルxは、第Nサブフレーム区間に相当するxcurrentと、第(N+1)サブフレーム区間に相当するxnextに分離することができる。
xcurrent
=(x0 ,x1 ,・・・,xM-2,xM-1,0,0,・・・,0)
(4)
xnext
=(0,0,・・・,0,0,xM ,xM+1,・・・,xM+P-2,xM+P-1)
(5)
Here, the target vector x can be separated into x current corresponding to the Nth subframe interval and x next corresponding to the (N + 1) th subframe interval.
x current
= (X 0 , x 1 ,..., X M−2 , x M−1 , 0, 0,..., 0)
(4)
x next
= (0, 0, ..., 0, 0, x M , x M + 1 , ..., x M + P-2 , x M + P-1 )
(5)
ターゲットベクトルxの要素を式(4)(5)のように書き表すことにより、R(k)の分子成分C(k)は、第Nサブフレームの量子化誤差評価パラメータに相当する下記の式(6)のCcurrent(k)と、第(N+1)サブフレームの量子化誤差評価パラメータに相当する下記の式(7)のCnext(k)との和に分離することができる。
次サブフレーム以降の区間における量子化誤差に対する重み付けを相対的に軽くする場合、下記の式(8)に示すように、Cnext(k)に重み付け係数αを乗ずることにより実現することができる。ただし、αの条件は、下記の式(9)に示す通りである。
以上で明らかなように、この実施の形態2によれば、重み付け最小誤差探索部22が、量子化誤差が最小の合成音声を探索する際、当該サブフレームの音声信号に係る量子化誤差に対する重み付けを、次サブフレームの音声信号に係る量子化誤差に対する重み付けより大きくするように構成したので、スペクトル包絡が急激に変動しても、良好な音声品質を維持することができる効果を奏する。また、合成フィルタ16の係数の変動幅を評価して、適応的にαの値を決めても同様の効果が得られる。
As is apparent from the above, according to the second embodiment, when the weighted minimum
実施の形態3.
上記実施の形態1,2では、当該サブフレームの音声信号だけでなく、次サブフレームの音声信号を量子化誤差の評価対象に含めるものについて示したが、次サブフレームが当該サブフレームと異なるフレームに属している場合、次サブフレームの音声信号を量子化誤差の評価対象から除外するようにしてもよい。
ここで、図7は入力音声の波形、入力音声のフレーム及びサブフレーム、参照信号などを示す説明図である。
第1〜第3サブフレームに対する誤差評価区間は、上記実施の形態1と同じであるが(図3を参照)、第4サブフレームに対する誤差評価区間が、第4サブフレーム区間そのものに限定される点で、上記実施の形態1と相違している。
In
Here, FIG. 7 is an explanatory diagram showing the waveform of the input sound, the frame and subframe of the input sound, the reference signal, and the like.
The error evaluation interval for the first to third subframes is the same as in the first embodiment (see FIG. 3), but the error evaluation interval for the fourth subframe is limited to the fourth subframe interval itself. This is different from the first embodiment.
上記実施の形態2では、スペクトル包絡の変動によるパルスの誤選択を回避する方法を説明したが、同一フレーム内のサブフレーム間の合成フィルタの係数は、フレーム間の合成フィルタ係数の線形補間により求めているため、変動幅は比較的緩やかなものと考えられる。
しかし、フレームについては、それぞれ音声信号から改めて線形予測分析を実施して、計算し直しているため、変動幅がより大きくなる。
そこで、この実施の形態3では、フレームを跨ぐ区間での量子化誤差評価は行わないようにすることで、より大きな耐性を持たせ、スペクトル包絡が急激に変動しても、良好な音声品質を維持することができるようにしている。
In the second embodiment, the method for avoiding erroneous selection of pulses due to fluctuations in the spectral envelope has been described. However, the coefficients of the synthesis filter between subframes in the same frame are obtained by linear interpolation of the synthesis filter coefficients between frames. Therefore, the fluctuation range is considered to be relatively moderate.
However, since the frame is recalculated by performing linear prediction analysis again from each speech signal, the fluctuation range becomes larger.
Therefore, in this third embodiment, by not performing the quantization error evaluation in the section across the frames, it has a higher tolerance, and even if the spectrum envelope fluctuates rapidly, a good voice quality is obtained. So that it can be maintained.
実施の形態4.
図8はこの発明の実施の形態4による音声符号化装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
繰越成分記憶用メモリ23は前サブフレームにおける固定音源符号帳9のインパルス応答成分を記憶するメモリである。
加算器24は固定音源符号帳9から出力される当該サブフレームの励振音源信号に、繰越成分記憶用メモリ23に記憶されている前サブフレームにおける固定音源符号帳9のインパルス応答成分を加算する処理を実施する。
なお、繰越成分記憶用メモリ23及び加算器24から加算手段が構成されている。
8 is a block diagram showing a speech encoding apparatus according to
The carry
The
The carry
図9はこの発明の実施の形態4による音声復号装置を示す構成図であり、図において、図2と同一符号は同一または相当部分を示すので説明を省略する。
繰越成分記憶用メモリ42は前サブフレームにおける固定音源符号帳33のインパルス応答成分を記憶するメモリである。
加算器43は固定音源符号帳33から出力される当該サブフレームの励振音源信号に、繰越成分記憶用メモリ42に記憶されている前サブフレームにおける固定音源符号帳33のインパルス応答成分を加算する処理を実施する。
なお、繰越成分記憶用メモリ42及び加算器43から加算手段が構成されている。
FIG. 9 is a block diagram showing a speech decoding apparatus according to
The carry
The
The carry
次に動作について説明する。
この実施の形態4では、前サブフレームにおける固定音源符号帳33のインパルス応答成分を固定音源符号帳33から出力される当該サブフレームの励振音源信号に加算するようにしている点で、上記実施の形態1と相違している。
Next, the operation will be described.
In the fourth embodiment, the impulse response component of the fixed
音声符号化装置では、繰越成分記憶用メモリ23が前サブフレームにおける固定音源符号帳9のインパルス応答成分を記憶し、加算器24が固定音源符号帳9から出力される当該サブフレームの励振音源信号に、繰越成分記憶用メモリ23に記憶されている前サブフレームにおける固定音源符号帳9のインパルス応答成分を加算するようにしている。
例えば、第(N−1)サブフレームで選択されたパルスAの場合(図10を参照)、第Nサブフレームに繰り越されるインパルス応答成分(図10の区間A=Cprevious)は、第(N−1)サブフレームの処理中にパルスAが選択された時点で判明するので、繰越成分記憶用メモリ23が信号Cpreviousを記憶する。
In the speech coding apparatus, the carry
For example, in the case of the pulse A selected in the (N−1) th subframe (see FIG. 10), the impulse response component (section A = C previous in FIG. 10) carried over to the Nth subframe is the (N -1) Since the pulse A is determined when the subframe is processed, the carry
第(N−1)サブフレームから第Nサブフレームの処理に移行すると、加算器24が繰越成分記憶用メモリ23から信号Cpreviousを取り出し、その信号Cpreviousを固定音源符号帳9から出力される当該サブフレームの励振音源信号に加算し、その加算結果を固定音源符号帳の探索に用いるようにする。
この実施の形態4では、最小誤差探索部20が式(2)の誤差評価R(k)を最大にするkの値を探索する際、誤差評価R(k)の分子成分C(k)は、下記の式(10)を使用する。
In the fourth embodiment, when the minimum
音声復号装置では、第(N−1)サブフレームの処理において、音声符号化装置からパルスAの位置を示すパルス情報が送信されてくるが、固定音源符号帳33は、音声符号化装置の固定音源符号帳9と同じフィルタ(固定音源符号帳9と同じ内部フィルタのインパルス応答情報)を持っているため、自動的に、第Nサブフレームに繰り越すインパルス応答成分を得ることができるので、繰越成分記憶用メモリ42がインパルス応答成分である信号Cpreviousを記憶する。
第(N−1)サブフレームから第Nサブフレームの処理に移行すると、加算器43が繰越成分記憶用メモリ42から信号Cpreviousを取り出し、その信号Cpreviousを固定音源符号帳33から出力される当該サブフレームの励振音源信号に加算し、その加算結果を利得乗算器36に出力する。
In the speech decoding apparatus, in the processing of the (N−1) th subframe, pulse information indicating the position of the pulse A is transmitted from the speech encoding apparatus, but the fixed
When the process proceeds from the (N−1) th subframe to the Nth subframe, the
以上で明らかなように、この実施の形態4によれば、固定音源符号帳9,33から出力される当該サブフレームの励振音源信号に、前サブフレームにおける固定音源符号帳9,33のインパルス応答成分を加算するように構成したので、上記実施の形態1よりも更に音声品質を高めることができる効果を奏する。
例えば、図10のパルスDのように、本来なら選択する必要のない区間A内のパルスが選択され難くなり、本来選択されるべきパルス(例えば、パルスC)が選択されるようになるため、音質の向上に貢献する。
音声復号装置では、区間Aに相当するインパルス応答成分を繰越再生する機能を備えたことにより、波束形状が崩れて、畳み込んだフィルタの効果が減じられる等の弊害が発生することがなくなり、音質品質が向上する。
As is apparent from the above, according to the fourth embodiment, the impulse response of the fixed
For example, as in the pulse D in FIG. 10, it is difficult to select a pulse in the section A that does not need to be selected, and a pulse to be originally selected (for example, the pulse C) is selected. Contributes to improving sound quality.
In the speech decoding apparatus, since the impulse response component corresponding to the section A is provided with the function of carrying over and reproducing, the wave packet shape is not lost, and the adverse effects such as reducing the effect of the convoluted filter are not generated. Quality is improved.
実施の形態5.
図11はこの発明の実施の形態5による音声符号化装置の一部を示す構成図であり、図において、図8と同一符号は同一または相当部分を示すので説明を省略する。
利得乗算器25は繰越成分記憶用メモリ23に記憶されている前サブフレームにおける固定音源符号帳9のインパルス応答成分である信号Cpreviousに0以上1未満の固定の利得、または、時間の経過に伴って徐々に1から0に低下する利得を乗算し、利得乗算後の信号Cpreviousを加算器24に出力する処理を実施する。なお、利得乗算器25は加算手段を構成している。
FIG. 11 is a block diagram showing a part of a speech encoding apparatus according to
The
図12はこの発明の実施の形態5による音声復号装置の一部を示す構成図であり、図において、図9と同一符号は同一または相当部分を示すので説明を省略する。
利得乗算器44は繰越成分記憶用メモリ42に記憶されている前サブフレームにおける固定音源符号帳9のインパルス応答成分である信号Cpreviousに0以上1未満の固定の利得、または、時間の経過に伴って徐々に1から0に低下する利得を乗算し、利得乗算後の信号Cpreviousを加算器24に出力する処理を実施する。なお、利得乗算器44は加算手段を構成している。
FIG. 12 is a block diagram showing a part of a speech decoding apparatus according to
The
上記実施の形態4では、固定音源符号帳9,33から出力される当該サブフレームの励振音源信号に、前サブフレームにおける固定音源符号帳9,33のインパルス応答成分を加算するものについて示したが、音声符号化装置及び音声復号装置の利得乗算器25,44が前サブフレームにおける固定音源符号帳9,33のインパルス応答成分である信号Cpreviousに0以上1未満の利得を乗算することにより、前サブフレームにおける固定音源符号帳9,33のインパルス応答成分の重み付けを軽くするようにしてもよい。
In
このような構成とすることで、スペクトル包絡の急激な変動に対して耐性を持たせることが可能になる。
また、合成音声を復号する際、前サブフレームからの繰越成分のウエイトが相対的に軽くなるため、仮に、前サブフレームが損失して、当該サブフレームの繰越成分が失われたとしてもダメージが軽くなり、フレーム損失に対する耐性を高めることができる。
By adopting such a configuration, it becomes possible to withstand a sudden fluctuation in the spectrum envelope.
Also, when decoding synthesized speech, the weight of the carry-over component from the previous subframe becomes relatively light, so that even if the previous subframe is lost and the carry-over component of the subframe is lost, damage is caused. It becomes lighter and can withstand frame loss.
実施の形態6.
図13はこの発明の実施の形態6による音声符号化装置の一部を示す構成図であり、図において、図8と同一符号は同一または相当部分を示すので説明を省略する。
スイッチ26は前サブフレームが当該サブフレームと同じフレームに属していれば、繰越成分記憶用メモリ23に記憶されている前サブフレームにおける固定音源符号帳9のインパルス応答成分である信号Cpreviousを加算器24に与えるが、前サブフレームが当該サブフレームと異なるフレームに属している場合、その信号Cpreviousを加算器24に与えないようにする機能を備えている。なお、スイッチ26は加算手段を構成している。
FIG. 13 is a block diagram showing a part of a speech encoding apparatus according to
If the previous subframe belongs to the same frame as the subframe, the
図14はこの発明の実施の形態6による音声復号装置の一部を示す構成図であり、図において、図9と同一符号は同一または相当部分を示すので説明を省略する。
スイッチ45は前サブフレームが当該サブフレームと同じフレームに属していれば、繰越成分記憶用メモリ42に記憶されている前サブフレームにおける固定音源符号帳33のインパルス応答成分である信号Cpreviousを加算器43に与えるが、前サブフレームが当該サブフレームと異なるフレームに属している場合、その信号Cpreviousを加算器43に与えないようにする機能を備えている。なお、スイッチ45は加算手段を構成している。
FIG. 14 is a block diagram showing a part of a speech decoding apparatus according to
If the previous subframe belongs to the same frame as the subframe, the
上記実施の形態4では、固定音源符号帳9,33から出力される当該サブフレームの励振音源信号に、前サブフレームにおける固定音源符号帳9,33のインパルス応答成分を加算するものについて示したが、この実施の形態6では、前サブフレームが当該サブフレームと異なるフレームに属している場合、固定音源符号帳9,33から出力される当該サブフレームの励振音源信号に、前サブフレームにおける固定音源符号帳9,33のインパルス応答成分を加算しないようにしている。
In
即ち、音声符号化装置及び音声復号装置のスイッチ26,45は、図15に示すように、当該サブフレームが第2〜4サブフレームであれば、スイッチ状態をONにして、前サブフレームにおける固定音源符号帳33のインパルス応答成分である信号Cpreviousを加算器43に与えるが、当該サブフレームが前フレームの直後のサブフレームである第1サブフレームであれば、スイッチ状態をOFFにして、前サブフレームにおける固定音源符号帳33のインパルス応答成分である信号Cpreviousを加算器43に与えないようにしている。
That is, as shown in FIG. 15, the
このような構成とすることで、スペクトル包絡の急激な変動に対して耐性を持たせることが可能になる。
また、合成音声を復号する際、前サブフレームからの繰越成分のウエイトが相対的に軽くなるため、仮に、前サブフレームが損失して、当該サブフレームの繰越成分が失われたとしてもダメージが軽くなり、フレーム損失に対する耐性を高めることができる。
By adopting such a configuration, it becomes possible to withstand a sudden fluctuation in the spectrum envelope.
Also, when decoding synthesized speech, the weight of the carry-over component from the previous subframe becomes relatively light, so that even if the previous subframe is lost and the carry-over component of the subframe is lost, damage is caused. It becomes lighter and can withstand frame loss.
なお、この実施の形態6では、スイッチ26,45がスイッチ状態をON/OFFして、加算器24,43に対する信号Cpreviousの出力を制御するものについて示したが、スイッチ26,45の代わりに、図11及び図12の利得乗算器25,44を使用し、利得乗算器25,44の利得を0又は1に切り替えるようにしてもよい。
In the sixth embodiment, the
実施の形態7.
図16はこの発明の実施の形態7による音声符号化装置を示す構成図であり、図において、図8と同一符号は同一または相当部分を示すので説明を省略する。
モード選択機能付最小誤差探索部27は図1や図8の最小誤差探索部20と同様に、聴覚重み付けフィルタ19から出力される量子化誤差が小さくなるように、適応符号帳8及び固定音源符号帳9から出力される励振音源信号や、利得符号帳10から出力される利得を制御して、合成フィルタ16から出力される複数の合成音声の中で、量子化誤差が最小の合成音声に係る符号化パラメータを探索する処理を実施するほか、その量子化誤差の評価結果に基づいて、前サブフレームにおける固定音源符号帳9のインパルス応答成分を加算するか否かを判定し、その判定結果を示すモード情報をスイッチ28及び多重化部29に出力する処理を実施する。なお、モード選択機能付最小誤差探索部27はパラメータ探索手段を構成している。
FIG. 16 is a block diagram showing a speech encoding apparatus according to
Similar to the minimum
スイッチ28はモード選択機能付最小誤差探索部27から出力されたモード情報が加算する旨を示していれば、スイッチ状態をONにして、繰越成分記憶用メモリ23に記憶されている前サブフレームにおける固定音源符号帳9のインパルス応答成分である信号Cpreviousを加算器24に与える処理を実施する。なお、スイッチ28は加算手段を構成している。
多重化部29は図1や図8の多重化部21と同様に、スペクトル情報、ピッチ情報、パルス情報及び利得情報を多重化するとともに、モード選択機能付最小誤差探索部27から出力されたモード情報も一緒に多重化し、その多重化信号を音声復号装置に送信する処理を実施する。
図18はこの発明の実施の形態7による音声符号化装置の処理内容の概略を示すフローチャートである。
If the
The multiplexing
FIG. 18 is a flowchart showing an outline of the processing contents of the speech coding apparatus according to
図17はこの発明の実施の形態7による音声復号装置を示す構成図であり、図において、図9と同一符号は同一または相当部分を示すので説明を省略する。
多重分離部46は音声符号化装置から送信された多重化信号を受信して、その多重化信号を分離し、スペクトル情報、ピッチ情報、パルス情報、利得情報及びモード情報を出力する。なお、多重分離部46は情報受信手段を構成している。
スイッチ47は多重分離部46から出力されたモード情報が前サブフレームにおける固定音源符号帳のインパルス応答成分を加算する旨を示していれば、繰越成分記憶用メモリ42に記憶されている前サブフレームにおける固定音源符号帳33のインパルス応答成分である信号Cpreviousを加算器43に与える処理を実施する。なお、スイッチ47は加算手段を構成している。
FIG. 17 is a block diagram showing a speech decoding apparatus according to
The
If the mode information output from the
上記実施の形態4では、固定音源符号帳9,33から出力される当該サブフレームの励振音源信号に、前サブフレームにおける固定音源符号帳9,33のインパルス応答成分を加算するものについて示したが、量子化誤差の評価結果に基づいて、前サブフレームにおける固定音源符号帳9,33のインパルス応答成分を加算するか否かを判定するようにしてもよい。
具体的には、以下の通りである。
In
Specifically, it is as follows.
音声符号化装置のモード選択機能付最小誤差探索部27は、量子化誤差が最小の合成音声を探索する際、前サブフレームにおける固定音源符号帳42のインパルス応答成分である信号Cpreviousを計算する(ステップST1)。
モード選択機能付最小誤差探索部27は、インパルス応答成分である信号Cpreviousを計算すると、その信号Cpreviousを所定の閾値と比較し(ステップST2)、その信号Cpreviousが所定の閾値より大きい場合、繰越成分の寄与が大きいので、そのインパルス応答成分を加算するものと判断し、そのインパルス応答成分を加算する旨を示すモード情報をスイッチ28及び多重化部21に出力する(ステップST3)。
また、式(10)を使用して、誤差評価R(k)の分子成分C(k)を計算する(ステップST4)。
The minimum
When calculating the signal C previous which is an impulse response component, the mode selection function-equipped minimum
Further, the molecular component C (k) of the error evaluation R (k) is calculated using the equation (10) (step ST4).
モード選択機能付最小誤差探索部27は、信号Cpreviousが所定の閾値より小さい場合、繰越成分の寄与が小さく、その繰越成分が劣化要因になる可能性があるので、そのインパルス応答成分を加算しないものと判断し、そのインパルス応答成分を加算しない旨を示すモード情報をスイッチ28及び多重化部21に出力する(ステップST5)。
また、当該サブフレームの量子化誤差評価パラメータに相当する式(6)のCcurrent(k)が、誤差評価R(k)の分子成分C(k)であるとして、式(6)のCcurrent(k)を計算する(ステップST6)。
When the signal C previous is smaller than the predetermined threshold value, the mode selection function-equipped minimum
Also, assuming that C current (k) in equation (6) corresponding to the quantization error evaluation parameter of the subframe is the molecular component C (k) of error evaluation R (k), C current in equation (6) (K) is calculated (step ST6).
音声符号化装置のスイッチ28は、モード選択機能付最小誤差探索部27から出力されたモード情報が加算する旨を示していれば、スイッチ状態をONにして、繰越成分記憶用メモリ23に記憶されている前サブフレームにおける固定音源符号帳9のインパルス応答成分である信号Cpreviousを加算器24に与え、そのモード情報が加算しない旨を示していれば、スイッチ状態をOFFにして、前サブフレームにおける固定音源符号帳9のインパルス応答成分である信号Cpreviousを加算器24に与えないようにする。
If the
次に、モード選択機能付最小誤差探索部27は、式(2)を使用して、すべてのkについて、誤差評価R(k)を計算し(ステップST7)、誤差評価R(k)を最大にするkの値を探索する(ステップST8)。
モード選択機能付最小誤差探索部27は、誤差評価R(k)を最大にするkの値を探索すると、kの値に対応するインデックス(ピッチ情報、パルス情報、利得情報)を多重化部29に出力する(ステップST9)。
多重化部29は、スペクトル情報、ピッチ情報、パルス情報及び利得情報を多重化するとともに、モード選択機能付最小誤差探索部27から出力されたモード情報も一緒に多重化し、その多重化信号を音声復号装置に送信する。
Next, the mode selection function-equipped minimum
When the minimum
The multiplexing
音声復号装置の多重分離部46は、音声符号化装置から送信された多重化信号を受信して、その多重化信号を分離し、スペクトル情報、ピッチ情報、パルス情報、利得情報及びモード情報を出力する。
スイッチ47は、多重分離部46から出力されたモード情報が前サブフレームにおける固定音源符号帳のインパルス応答成分を加算する旨を示していれば、スイッチ状態をONにして、繰越成分記憶用メモリ42に記憶されている前サブフレームにおける固定音源符号帳33のインパルス応答成分である信号Cpreviousを加算器43に与え、そのモード情報が加算しない旨を示していれば、スイッチ状態をOFFにして、前サブフレームにおける固定音源符号帳33のインパルス応答成分である信号Cpreviousを加算器43に与えないようにする。
The
If the mode information output from the
この実施の形態7によれば、繰越成分の寄与度を評価した結果を以て、繰越成分を加算するか否かを判断するようにしているので、モード情報を送信する分だけ、伝送ビットレートが若干増えるが、固定音源符号帳9,33の量子化誤差を効果的に減じることができるようになり、音声品質の向上を図ることができる効果を奏する。
According to the seventh embodiment, since it is determined whether or not the carry-over component is added based on the result of evaluating the contribution degree of the carry-over component, the transmission bit rate is slightly increased by the amount of transmission of the mode information. Although it increases, the quantization error of the fixed
実施の形態8.
図19はこの発明の実施の形態8による音声符号化装置の一部を示す構成図であり、図において、図8と同一符号は同一または相当部分を示すので説明を省略する。
ピッチ安定度評価部61は過去のサブフレームにおけるピッチ周期の変動を監視し、そのピッチ周期の変動に応じてピッチ強調フィルタ63のフィルタ係数を調整する処理を実施する。
ピッチ強調フィルタ62は適応符号帳8から出力される励振音源信号のピッチ周期に応じたフィルタ係数が設定され、固定音源符号帳9から出力される励振音源信号のピッチ周波数成分を強調するフィルタである。
ピッチ強調フィルタ63はピッチ安定度評価部61によりフィルタ係数が設定され、繰越成分記憶用メモリ23に記憶されている前サブフレームにおける固定音源符号帳9のインパルス応答成分のピッチ周波数成分を強調するフィルタである。
なお、ピッチ安定度評価部61及びピッチ強調フィルタ62,63は加算手段を構成している。
FIG. 19 is a block diagram showing a part of a speech encoding apparatus according to
The pitch
The
The
Note that the pitch
図20はこの発明の実施の形態8による音声復号装置の一部を示す構成図であり、図において、図9と同一符号は同一または相当部分を示すので説明を省略する。
ピッチ安定度評価部81は過去のサブフレームにおけるピッチ周期の変動を監視し、そのピッチ周期の変動に応じてピッチ強調フィルタ83のフィルタ係数を調整する処理を実施する。
ピッチ強調フィルタ82は適応符号帳32から出力される励振音源信号のピッチ周期に応じたフィルタ係数が設定され、固定音源符号帳33から出力される励振音源信号のピッチ周波数成分を強調するフィルタである。
ピッチ強調フィルタ83はピッチ安定度評価部81によりフィルタ係数が設定され、繰越成分記憶用メモリ42に記憶されている前サブフレームにおける固定音源符号帳33のインパルス応答成分のピッチ周波数成分を強調するフィルタである。
なお、ピッチ安定度評価部81及びピッチ強調フィルタ82,83は加算手段を構成している。
20 is a block diagram showing a part of a speech decoding apparatus according to
The pitch
The
The
Note that the pitch
図21は図19のピッチ強調フィルタ63の内部構成例を示す構成図である。図21の例では、ピッチ強調フィルタ63は加算器63aと逆フィルタ63bとフィルタ係数乗算器63cから構成されている。
なお、図21は図19のピッチ強調フィルタ63の内部構成例を示しているが、図20のピッチ強調フィルタ83の内部構成も同様である。
FIG. 21 is a block diagram showing an internal configuration example of the
FIG. 21 shows an example of the internal configuration of the
次に動作について説明する。
音声符号化装置及び音声復号装置のピッチ安定度評価部61,81は、過去のサブフレームにおけるピッチ周期の変動を監視する。
即ち、ピッチ安定度評価部61,81は、適応符号帳8又は多重分離部31から出力されるピッチ情報を参照して、例えば、過去Nサブフレームにおけるピッチ周期の平均と分散を計算する。
Next, the operation will be described.
The pitch
That is, the pitch
ピッチ安定度評価部61,81は、ピッチ周期の分散が小さい場合(ピッチ変動が小さく、安定している場合)、ピッチ強調フィルタ63,83のフィルタ係数を重くして、ピッチ強調フィルタ63,83のフィルタ効果を強くするようにする。
一方、ピッチ周期の分散が大きい場合(ピッチ変動が大きく、不安定である場合)、ピッチ強調フィルタ63,83のフィルタ係数を軽くして、ピッチ強調フィルタ63,83のフィルタ効果を無効、または、フィルタ効果を弱めるようにする。
When the variance of the pitch period is small (when the pitch fluctuation is small and stable), the pitch
On the other hand, when the variance of the pitch period is large (when the pitch fluctuation is large and unstable), the filter coefficients of the pitch enhancement filters 63 and 83 are reduced, and the filter effect of the pitch enhancement filters 63 and 83 is invalidated, or Reduce the filter effect.
この実施の形態8によれば、ピッチ安定度評価部61,81が過去のサブフレームにおけるピッチ周期の変動を監視し、そのピッチ周期の変動に応じてピッチ強調フィルタ63,83のフィルタ係数を調整するように構成したので、音声符号化装置がモード情報を音声復号装置に送信することなく、伝送ビットレートを維持したまま、固定音源符号帳の量子化誤差を減じて、音声品質の向上を図ることができる効果を奏する。
According to the eighth embodiment, the pitch
実施の形態9.
図22はこの発明の実施の形態9による音声符号化装置を示す構成図であり、図において、図16及び図19と同一符号は同一または相当部分を示すので説明を省略する。
モード選択機能付最小誤差探索部64は図1や図8の最小誤差探索部20と同様に、聴覚重み付けフィルタ19から出力される量子化誤差が小さくなるように、適応符号帳8及び固定音源符号帳9から出力される励振音源信号や、利得符号帳10から出力される利得を制御して、合成フィルタ16から出力される複数の合成音声の中で、量子化誤差が最小の合成音声に係る符号化パラメータを探索する処理を実施するが、適応符号帳8及び固定音源符号帳9から出力される励振音源信号等を制御する際、ピッチ強調フィルタ84のフィルタ係数も制御するようにする。なお、モード選択機能付最小誤差探索部64はパラメータ探索手段を構成している。
ピッチ強調フィルタ65はモード選択機能付最小誤差探索部64によりフィルタ係数が設定され、繰越成分記憶用メモリ23に記憶されている前サブフレームにおける固定音源符号帳9のインパルス応答成分のピッチ周波数成分を強調するフィルタである。なお、ピッチ強調フィルタ65は加算手段を構成している。
FIG. 22 is a block diagram showing a speech encoding apparatus according to
Similar to the minimum
The
図23はこの発明の実施の形態9による音声復号装置を示す構成図であり、図において、図17及び図20と同一符号は同一または相当部分を示すので説明を省略する。
ピッチ強調フィルタ84は多重分離部46から出力されたモード情報が示す利得インデックスに応じたフィルタ係数が設定され、繰越成分記憶用メモリ42に記憶されている前サブフレームにおける固定音源符号帳33のインパルス応答成分のピッチ周波数成分を強調するフィルタである。なお、ピッチ強調フィルタ84は加算手段を構成している。
FIG. 23 is a block diagram showing a speech decoding apparatus according to
The
図24は図22のピッチ強調フィルタ65の内部構成例を示す構成図である。図24の例では、ピッチ強調フィルタ65は加算器65a、逆フィルタ65b、利得符号帳65c及びフィルタ係数乗算器65dから構成されている。
なお、図24は図12のピッチ強調フィルタ65の内部構成例を示しているが、図23のピッチ強調フィルタ84の内部構成も同様である。
FIG. 24 is a block diagram showing an example of the internal configuration of the
24 shows an example of the internal configuration of the
上記実施の形態1では、最小誤差探索部20が、聴覚重み付けフィルタ19から出力される量子化誤差が小さくなるように、適応符号帳8及び固定音源符号帳9から出力される励振音源信号や、利得符号帳10から出力される利得を制御して、合成フィルタ16から出力される複数の合成音声の中で、量子化誤差が最小の合成音声を探索するものについて示したが、さらに、ピッチ強調フィルタ84のフィルタ係数を制御しながら、量子化誤差が最小の合成音声を探索するようにしてもよい。
具体的には、以下の通りである。
In the first embodiment, the minimum
Specifically, it is as follows.
モード選択機能付最小誤差探索部64は、適応符号帳8から出力される励振音源信号と、固定音源符号帳9から出力される励振音源信号と、利得符号帳10から出力される利得と、ピッチ強調フィルタ84のフィルタ係数とを適宜組み合わせて、複数の駆動音源を生成させるようにする。
そして、モード選択機能付最小誤差探索部64は、駆動音源生成部5により生成された複数の駆動音源が合成フィルタ16を通されて、合成フィルタ16から出力された複数の合成音声の中で、量子化誤差が最小の合成音声を探索するようにする。
The mode selection function-equipped minimum
The minimum
モード選択機能付最小誤差探索部64は、量子化誤差が最小の合成音声を探索すると、その合成音声が得られた際のピッチ強調フィルタ65の利得インデックス(フィルタ係数に対応するインデックス)を示すモード情報を多重化部29に出力する。
多重化部29は、スペクトル情報、ピッチ情報、パルス情報及び利得情報を多重化するとともに、モード選択機能付最小誤差探索部64から出力されたモード情報も一緒に多重化し、その多重化信号を音声復号装置に送信する。
When the minimum error search unit with
The multiplexing
音声復号装置の多重分離部46は、音声符号化装置から送信された多重化信号を受信して、その多重化信号を分離し、スペクトル情報、ピッチ情報、パルス情報、利得情報及びモード情報を出力する。
ピッチ強調フィルタ84は、多重分離部46から出力されたモード情報を受けると、そのモード情報が示す利得インデックスに応じたフィルタ係数が設定され、繰越成分記憶用メモリ42に記憶されている前サブフレームにおける固定音源符号帳33のインパルス応答成分のピッチ周波数成分を強調する。
The
When the
この実施の形態9によれば、ピッチ強調フィルタ84のフィルタ係数を制御しながら、量子化誤差が最小の合成音声を探索するように構成したので、ピッチ強調フィルタ65の利得インデックスを示すモード情報を送信する分だけ、伝送ビットレートが若干増えるが、固定音源符号帳9,33の量子化誤差を効果的に減じることができるようになり、音声品質の向上を図ることができる効果を奏する。
According to the ninth embodiment, since it is configured to search for the synthesized speech with the minimum quantization error while controlling the filter coefficient of the
実施の形態10.
図25はこの発明の実施の形態10による音声符号化装置を示す構成図であり、図において、図16と同一符号は同一または相当部分を示すので説明を省略する。
モード選択機能付最小誤差探索部66は図1や図8の最小誤差探索部20と同様に、聴覚重み付けフィルタ19から出力される量子化誤差が小さくなるように、適応符号帳8及び固定音源符号帳9から出力される励振音源信号や、利得符号帳10から出力される利得を制御して、合成フィルタ16から出力される複数の合成音声の中で、量子化誤差が最小の合成音声に係る符号化パラメータを探索する処理を実施するほか、当該サブフレームの入力音声だけでなく、次サブフレームの入力音声を量子化誤差の評価対象に含めるか否かを判定し、次サブフレームの入力音声を量子化誤差の評価対象に含める場合には、前サブフレームにおける固定音源符号帳のインパルス応答成分を加算する旨を示すモード情報をスイッチ28及び多重化部29に出力する処理を実施する。なお、モード選択機能付最小誤差探索部66はパラメータ探索手段を構成している。
25 is a block diagram showing a speech coding apparatus according to
Similar to the minimum
図26はこの発明の実施の形態10による音声符号化装置の処理内容の概略を示すフローチャートである。
この発明の実施の形態10による音声復号装置の構成は、例えば、図17の音声復号装置と同一である。
FIG. 26 is a flowchart showing an outline of the processing contents of the speech coding apparatus according to
The configuration of the speech decoding apparatus according to
次に動作について説明する。
モード選択機能付最小誤差探索部66は、前サブフレームが「繰越モード」であったか否かを判定する(ステップST11)。
即ち、前サブフレームでは、スイッチ28のスイッチ状態がONになって、繰越成分記憶用メモリ23に記憶されている固定音源符号帳9のインパルス応答成分である信号Cpreviousが加算器24に与えられているか否かを判定する。
Next, the operation will be described.
The mode selection function-equipped minimum
That is, in the previous subframe, the switch state of the
モード選択機能付最小誤差探索部66は、前サブフレームが「繰越モード」である場合、上記の式(11)を使用して、繰越成分記憶用メモリ23に記憶される信号Cpreviousを計算し(ステップST12)、その信号Cpreviousを誤差評価R(k)の分子成分C(k)に加算する(式(10)を参照)。
一方、前サブフレームが「繰越モード」でない場合、信号Cprevious=0として(ステップST13)、誤差評価R(k)の分子成分C(k)には信号Cpreviousを加算しない。
When the previous subframe is the “carry forward mode”, the mode selection function-equipped minimum
On the other hand, when the previous subframe is not the “carry-over mode”, the signal C previous = 0 (step ST13), and the signal C previous is not added to the numerator component C (k) of the error evaluation R (k).
次に、モード選択機能付最小誤差探索部66は、次サブフレームの量子化誤差評価パラメータに相当する式(7)のCnext(k)を計算し(ステップST14)、そのCnext(k)を所定の閾値と比較する(ステップST15)。
モード選択機能付最小誤差探索部66は、Cnext(k)が所定の閾値より大きい場合、上記実施の形態1と同様に、当該サブフレームの入力音声だけでなく、次サブフレームの入力音声を量子化誤差の評価対象に含めるようにし、また、前サブフレームにおける固定音源符号帳のインパルス応答成分を加算する旨を示すモード情報をスイッチ28及び多重化部29に出力する(ステップST16)。
また、モード選択機能付最小誤差探索部66は、下記の式(12)に示すように、誤差評価R(k)の分子成分C(k)を計算する(ステップST17)。
C(k)=Cprevious+Ccurrent(k)+Cnext(k) (12)
Next, the mode selection function-equipped minimum
When C next (k) is larger than a predetermined threshold, the mode selection function-equipped minimum
Further, the minimum error search unit with
C (k) = C previous + C current (k) + C next (k) (12)
モード選択機能付最小誤差探索部66は、Cnext(k)が所定の閾値より小さい場合、量子化誤差の評価対象を拡張せずに、評価対象を当該サブフレームの入力音声だけに限定するようにし、また、前サブフレームにおける固定音源符号帳のインパルス応答成分を加算しない旨を示すモード情報をスイッチ28及び多重化部29に出力する(ステップST18)。
また、モード選択機能付最小誤差探索部66は、式(10)を使用して、誤差評価R(k)の分子成分C(k)を計算する(ステップST19)。
When C next (k) is smaller than a predetermined threshold, the mode selection function-equipped minimum
Further, the mode selection function-equipped minimum
音声符号化装置のスイッチ28は、モード選択機能付最小誤差探索部66から出力されたモード情報が加算する旨を示していれば、スイッチ状態をONにして、繰越成分記憶用メモリ23に記憶されている前サブフレームにおける固定音源符号帳9のインパルス応答成分である信号Cpreviousを加算器24に与え、そのモード情報が加算しない旨を示していれば、スイッチ状態をOFFにして、前サブフレームにおける固定音源符号帳9のインパルス応答成分である信号Cpreviousを加算器24に与えないようにする。
If the
次に、モード選択機能付最小誤差探索部66は、式(2)を使用して、誤差評価R(k)を計算し(ステップST20)、すべてのkの中で、誤差評価R(k)を最大にするkの値を探索する(ステップST21)。
モード選択機能付最小誤差探索部66は、誤差評価R(k)を最大にするkの値を探索すると、kの値に対応するインデックス(ピッチ情報、パルス情報、利得情報)を多重化部29に出力する(ステップST22)。
多重化部29は、スペクトル情報、ピッチ情報、パルス情報及び利得情報を多重化するとともに、モード選択機能付最小誤差探索部66から出力されたモード情報も一緒に多重化し、その多重化信号を音声復号装置に送信する。
Next, the mode selection function-equipped minimum
When searching for the value of k that maximizes the error evaluation R (k), the mode selection function-equipped minimum
The multiplexing
図17の音声復号装置の多重分離部46は、音声符号化装置から送信された多重化信号を受信して、その多重化信号を分離し、スペクトル情報、ピッチ情報、パルス情報、利得情報及びモード情報を出力する。
スイッチ47は、多重分離部46から出力されたモード情報が前サブフレームにおける固定音源符号帳のインパルス応答成分を加算する旨を示していれば、スイッチ状態をONにして、繰越成分記憶用メモリ42に記憶されている前サブフレームにおける固定音源符号帳33のインパルス応答成分である信号Cpreviousを加算器43に与え、そのモード情報が加算しない旨を示していれば、スイッチ状態をOFFにして、前サブフレームにおける固定音源符号帳33のインパルス応答成分である信号Cpreviousを加算器43に与えないようにする。
17 receives the multiplexed signal transmitted from the speech coding apparatus, separates the multiplexed signal, and obtains spectrum information, pitch information, pulse information, gain information, and mode. Output information.
If the mode information output from the
この実施の形態10によれば、誤差評価の拡張区間の寄与度に応じて、当該サブフレームの直後のサブフレーム(第(N+1)サブフレーム)に繰り越すか否かを決めるように構成したので、拡張の可否と繰越の可否とがミスマッチを起こすことがなくなり、音質の向上を図ることができる効果を奏する。 According to the tenth embodiment, since it is configured to determine whether to carry over to the subframe immediately after the subframe ((N + 1) th subframe) according to the contribution of the extended section of error evaluation, There is no mismatch between the availability of expansion and the availability of carry-over, and the sound quality can be improved.
実施の形態11.
図27はこの発明の実施の形態11による音声符号化装置を示す構成図であり、図において、図25と同一符号は同一または相当部分を示すので説明を省略する。
モード別最小誤差探索部67は図25のモード選択機能付最小誤差探索部66と同様に、当該サブフレームの入力音声だけでなく、次サブフレームの入力音声を量子化誤差の評価対象に含めるか否かを判定し、次サブフレームの入力音声を量子化誤差の評価対象に含める場合には、前サブフレームにおける固定音源符号帳のインパルス応答成分を加算する旨を示すモード情報をスイッチ28に出力するが、図25のモード選択機能付最小誤差探索部66と異なり、スイッチ28に出力するモード情報は、モード情報候補(最終的には決定されていないモード情報)としてスイッチ28及び繰越成分誤差評価モード決定部71に出力する。
FIG. 27 is a block diagram showing a speech encoding apparatus according to
As with the minimum error search unit with
多重化部68はLPC量子化・逆量子化部6から出力されたスペクトル情報と、量子化誤差が最小の合成音声が得られる際に適応符号帳8から出力される励振音源信号のピッチ情報と、量子化誤差が最小の合成音声が得られる際に利得符号帳10から出力される利得を示す利得情報とを多重化して、その多重化信号をバッファ69に出力する処理を実施する。
バッファ69は多重化部68から出力された多重化信号を一時的に格納するメモリである。
バッファ70はモード別最小誤差探索部67から出力されたモード情報候補を一時的に格納するとともに、量子化誤差が最小の合成音声が得られる際に固定音源符号帳9から出力される励振音源信号のパルス情報をパルス情報候補(最終的には決定されていないパルス情報)として一時的に格納するメモリである。
The multiplexing
The
The
繰越成分誤差評価モード決定部71は次サブフレームでの量子化誤差の評価結果に基づいて、次サブフレームの入力音声を量子化誤差の評価対象に含めるか否かを判定して、パルス情報とモード情報を最終的に決定する処理を実施する。
なお、モード別最小誤差探索部67、多重化部68、バッファ69,70及び繰越成分誤差評価モード決定部71はパラメータ探索手段を構成している。
多重化部72は繰越成分誤差評価モード決定部71により決定されたパルス情報及びモード情報と、バッファ69から出力された多重化信号とを多重化して、その多重化信号を音声復号装置に送信する処理を実施する。
Based on the evaluation result of the quantization error in the next subframe, the carry-over component error evaluation
The mode-specific minimum
The multiplexing
図28はこの発明の実施の形態11による音声符号化装置の処理内容の概略を示すフローチャートである。
この発明の実施の形態11による音声復号装置の構成は、例えば、図17の音声復号装置と同一である。
FIG. 28 is a flowchart showing an outline of the processing contents of the speech coding apparatus according to
The configuration of the speech decoding apparatus according to
次に動作について説明する。
最初に、第Nサブフレームにおける処理について説明する。
モード別最小誤差探索部67は、前サブフレームである第(N−1)サブフレームが「繰越モード」であったか否かを判定する(ステップST31)。
即ち、前サブフレームでは、スイッチ28のスイッチ状態がONになって、繰越成分記憶用メモリ23に記憶されている固定音源符号帳9のインパルス応答成分である信号Cpreviousが加算器24に与えられているか否かを判定する。
Next, the operation will be described.
First, processing in the Nth subframe will be described.
The mode-specific minimum
That is, in the previous subframe, the switch state of the
モード別最小誤差探索部67は、前サブフレームが「繰越モード」である場合、上記の式(11)を使用して、繰越成分記憶用メモリ23に記憶される信号Cpreviousを計算し(ステップST32)、その信号Cpreviousを誤差評価R(k)の分子成分C(k)に加算する(式(10)を参照)。
一方、前サブフレームが「繰越モード」でない場合、信号Cprevious=0として(ステップST33)、誤差評価R(k)の分子成分C(k)には信号Cpreviousを加算しない。
When the previous subframe is the “carry forward mode”, the mode-specific minimum
On the other hand, when the previous subframe is not the “carry-over mode”, the signal C previous = 0 (step ST33), and the signal C previous is not added to the numerator component C (k) of the error evaluation R (k).
次に、モード別最小誤差探索部67は、次サブフレームである第(N+1)サブフレームの量子化誤差評価パラメータに相当する式(7)のCnext(k)を計算する(ステップST34)。
モード別最小誤差探索部67は、式(7)のCnext(k)を計算すると、前サブフレームにおける固定音源符号帳のインパルス応答成分を加算する旨を示すモード情報候補をスイッチ28に出力するとともに、そのモード情報候補をバッファ70に格納し(ステップST35)、そのCnext(k)を式(12)に代入して、誤差評価R(k)の分子成分C(k)を計算する(ステップST36)。
スイッチ28は、モード別最小誤差探索部67から加算する旨を示すモード情報候補を受けると、スイッチ状態をONにして、繰越成分記憶用メモリ23に記憶されている前サブフレームにおける固定音源符号帳9のインパルス応答成分である信号Cpreviousを加算器24に与えるようにする。
Next, the mode-specific minimum
When the mode-specific minimum
When the
次に、モード別最小誤差探索部67は、式(2)を使用して、誤差評価R(k)を計算し(ステップST37)、すべてのkの中で、誤差評価R(k)を最大にするkの値を探索する(ステップST38)。
モード別最小誤差探索部67は、誤差評価R(k)を最大にするkの値を探索すると、そのkの値をk0として、インデックスk0を保存する(ステップST39)。
なお、誤差評価R(k)が最大になる際に固定音源符号帳9から出力される励振音源信号のパルス情報がパルス情報候補としてバッファ70に格納される。
Next, the mode-specific minimum
When searching for the value of k that maximizes the error evaluation R (k), the mode-specific minimum
The pulse information of the excitation excitation signal output from the fixed
次に、モード別最小誤差探索部67は、前サブフレームにおける固定音源符号帳のインパルス応答成分を加算しない旨を示すモード情報候補をスイッチ28に出力するとともに、そのモード情報候補をバッファ70に格納し(ステップST40)、そのCnext(k)を式(10)に代入して、誤差評価R(k)の分子成分C(k)を計算する(ステップST41)。
スイッチ28は、モード別最小誤差探索部67から加算しない旨を示すモード情報候補を受けると、スイッチ状態をOFFにして、繰越成分記憶用メモリ23に記憶されている前サブフレームにおける固定音源符号帳9のインパルス応答成分である信号Cpreviousを加算器24に与えないようにする。
Next, the mode-specific minimum
When the
次に、モード別最小誤差探索部67は、式(2)を使用して、誤差評価R(k)を計算し(ステップST42)、すべてのkの中で、誤差評価R(k)を最大にするkの値を探索する(ステップST43)。
モード別最小誤差探索部67は、誤差評価R(k)を最大にするkの値を探索すると、そのkの値をk1として、インデックスk1を保存する(ステップST44)。
なお、誤差評価R(k)が最大になる際に固定音源符号帳9から出力される励振音源信号のパルス情報がパルス情報候補としてバッファ70に格納される。
Next, the mode-specific minimum
When searching for the value of k that maximizes the error evaluation R (k), the mode-specific minimum
The pulse information of the excitation excitation signal output from the fixed
次に、第(N+1)サブフレームにおける処理について説明する。
モード別最小誤差探索部67は、繰越成分記憶用メモリ23に記憶される信号Cpreviousを計算し(ステップST51)、その信号Cpreviousを所定の閾値と比較する(ステップST52)。
モード別最小誤差探索部67は、信号Cpreviousが所定の閾値より大きい場合、第Nサブフレームにおける固定音源符号帳のインパルス応答成分を「繰り越しする」旨を示す第NSFのモード情報を繰越成分誤差評価モード決定部71に出力するとともに(ステップST53)、先に保存しているインデックスk0を繰越成分誤差評価モード決定部71に出力する(ステップST54)。
Next, processing in the (N + 1) th subframe will be described.
The mode-specific minimum
When the signal C previous is larger than a predetermined threshold, the mode-specific minimum
モード別最小誤差探索部67は、信号Cpreviousが所定の閾値より小さい場合、第Nサブフレームにおける固定音源符号帳のインパルス応答成分を「繰り越ししない」旨を示す第NSFのモード情報を繰越成分誤差評価モード決定部71に出力するとともに(ステップST55)、先に保存しているインデックスk1を繰越成分誤差評価モード決定部71に出力する(ステップST56)。
When the signal C previous is smaller than a predetermined threshold, the mode-specific minimum
繰越成分誤差評価モード決定部71は、モード別最小誤差探索部67から「繰り越しする」旨を示す第NSFのモード情報を受けると、バッファ70から固定音源符号帳のインパルス応答成分を加算する旨を示すモード情報(決定値)と、インデックスk0が示すkの値に対応するパルス情報(決定値)とを取得し、そのモード情報(決定値)とパルス情報(決定値)を多重化部72に出力する。
また、モード別最小誤差探索部67から「繰り越ししない」旨を示す第NSFのモード情報を受けると、バッファ70から固定音源符号帳のインパルス応答成分を加算しない旨を示すモード情報(決定値)と、インデックスk1が示すkの値に対応するパルス情報(決定値)とを取得し、そのモード情報(決定値)とパルス情報(決定値)を多重化部72に出力する。
When the carry-over component error evaluation
Further, when mode information of the NSF indicating “no carryover” is received from the mode-specific minimum
多重化部72は、繰越成分誤差評価モード決定部71から出力されたモード情報(決定値)及びパルス情報(決定値)と、バッファ69から出力された多重化信号とを多重化して、その多重化信号を音声復号装置に送信する。
The multiplexing
この実施の形態11によれば、当該サブフレームの直後のサブフレーム(第(N+1)サブフレーム)に繰り越すか否かを、第(N+1)サブフレームの処理に委ねる(ディレイドディシジョン)ように構成したので、評価区間拡張の可否と繰越の可否のミスマッチを起こすことがなくなり、また、繰越成分の評価を実施した後に、繰越の要/不要を判断することができるため、音質の向上を高めることが可能になる。 According to the eleventh embodiment, whether to carry over to the subframe immediately after the subframe ((N + 1) th subframe) is left to the processing of the (N + 1) th subframe (delayed decision). As a result, there is no mismatch between whether or not the evaluation section can be extended and whether or not carryover is possible, and it is possible to determine the necessity / unnecessity of carryover after the evaluation of the carryover component, thereby improving the sound quality. It becomes possible.
実施の形態12.
図29はこの発明の実施の形態12による音声符号化装置の一部を示す構成図であり、図において、図8と同一符号は同一または相当部分を示すので説明を省略する。
利得記憶用メモリ73は利得符号帳10から出力された利得(固定音源符号帳10の励振音源信号に対する利得)を記憶するメモリである。
利得乗算器74は繰越成分記憶用メモリ23に記憶されている前サブフレームにおける固定音源符号帳9のインパルス応答成分である信号Cpreviousに、利得記憶用メモリ73に記憶されている利得を乗算する処理を実施する。
なお、利得記憶用メモリ73及び利得乗算器74は加算手段を構成している。
FIG. 29 is a block diagram showing a part of a speech encoding apparatus according to
The
The
The
図30はこの発明の実施の形態12による音声復号装置の一部を示す構成図であり、図において、図9と同一符号は同一または相当部分を示すので説明を省略する。
利得記憶用メモリ85は利得符号帳34から出力された利得(固定音源符号帳33の励振音源信号に対する利得)を記憶するメモリである。
利得乗算器86は繰越成分記憶用メモリ42に記憶されている前サブフレームにおける固定音源符号帳33のインパルス応答成分である信号Cpreviousに、利得記憶用メモリ85に記憶されている利得を乗算する処理を実施する。
なお、利得記憶用メモリ85及び利得乗算器86は加算手段を構成している。
30 is a block diagram showing a part of a speech decoding apparatus according to
The
The
The
次に動作について説明する。
音声符号化装置では、上記実施の形態4と同様に、繰越成分記憶用メモリ23が前サブフレームにおける固定音源符号帳9のインパルス応答成分を記憶する。
例えば、第(N−1)サブフレームで選択されたパルスAの場合(図10を参照)、第Nサブフレームに繰り越されるインパルス応答成分(図10の区間A=Cprevious)は、第(N−1)サブフレームの処理中にパルスAが選択された時点で判明するので、繰越成分記憶用メモリ23が信号Cpreviousを記憶する。
また、利得記憶用メモリ73が利得符号帳10から利得乗算器12に出力される利得(固定音源符号帳10の励振音源信号に対する利得)を記憶する。
Next, the operation will be described.
In the speech coding apparatus, as in the fourth embodiment, the carry
For example, in the case of the pulse A selected in the (N−1) th subframe (see FIG. 10), the impulse response component (section A = C previous in FIG. 10) carried over to the Nth subframe is the (N -1) Since the pulse A is determined when the subframe is processed, the carry
The
第(N−1)サブフレームから第Nサブフレームの処理に移行すると、利得乗算器74が繰越成分記憶用メモリ23から信号Cpreviousを取り出し、その信号Cpreviousに対して利得記憶用メモリ73に記憶されている利得を乗算して、その乗算結果を加算器24に出力する。
When the processing shifts from the (N−1) th subframe to the Nth subframe, the
この実施の形態12では、最小誤差探索部20が式(2)の誤差評価R(k)を最大にするkの値を探索する際、下記の式(12)を使用して、誤差評価R(k)の分子成分C(k)を計算する。
C(k)の第2項であるCpreviousは式(11)を用いて求めることができる。
Cpreviousは第(N−1)サブフレームの固定音源符号帳ベクトル9の繰越成分であり、繰越成分記憶用メモリ23に記憶された信号である。
また、gprevハットは、前フレームの固定音源符号帳9の利得(量子化利得)であり、利得記憶用メモリ73に記憶された信号である。
また、gcurrハットは、現フレームの固定音源符号帳9の利得(量子化利得)であり、ck と共に符号帳探索の対象となる信号である。
C previous, which is the second term of C (k), can be obtained using Equation (11).
C previous is a carry component of the fixed
Further, g prev hat is a gain (quantization gain) of the fixed
Further, g curr hat is a gain (quantization gain) of the fixed
音声復号装置では、第(N−1)サブフレームの処理において、音声符号化装置からパルスAの位置を示すパルス情報が送信されてくるが、固定音源符号帳33は、音声符号化装置の固定音源符号帳9と同じフィルタ(固定音源符号帳9と同じ内部フィルタのインパルス応答情報)を持っているため、自動的に、第Nサブフレームに繰り越すインパルス応答成分を得ることができるので、繰越成分記憶用メモリ42がインパルス応答成分である信号Cpreviousを記憶する。
また、同時に、利得記憶用メモリ85が利得符号帳34で復号された固定音源符号帳33の励振音源信号に対する利得を記憶する。
In the speech decoding apparatus, in the processing of the (N−1) th subframe, pulse information indicating the position of the pulse A is transmitted from the speech encoding apparatus, but the fixed
At the same time, the
第(N−1)サブフレームから第Nサブフレームの処理に移行すると、利得乗算器86が繰越成分記憶用メモリ42から信号Cpreviousを取り出し、その信号Cpreviousに対して利得記憶用メモリ85に記憶されている利得を乗算して、その乗算結果を加算器43に出力する。
When the processing shifts from the (N−1) th subframe to the Nth subframe, the
上記の構成とすることにより、繰越成分の利得は、前サブフレームからの残存インパルス応答成分を正確に反映したものとなるから、当該サブフレームの直前のサブフレーム(第(N−1)サブフレーム)から、当該サブフレームに掛けて、特に利得が急激に変化した場合に、前サブフレームからの繰越成分に現サブフレームの利得が掛かることによるミスマッチの影響を回避することができるため、音質の向上を図ることができる。 With the above configuration, the gain of the carry-over component accurately reflects the remaining impulse response component from the previous subframe, so the subframe immediately before the subframe ((N−1) th subframe). ), The effect of mismatch due to the gain of the current subframe being applied to the carry-over component from the previous subframe can be avoided, especially when the gain changes rapidly over the subframe. Improvements can be made.
ただし、この実施の形態12は、固定音源(波形)の量子化と、利得の量子化とを同時進行させねばならず、探索処理が膨大となる恐れがあるが、例えば、下記の式(13)のように、現サブフレームの量子化利得の代わりに、近似値として、入力信号によって決まる量子化前の固定音源成分の利得gcurrを用いて、固定音源符号帳の探索を行うようにすれば、若干の音質劣化を伴うが、固定音源符号帳の探索と、利得符号帳の探索とを分離して、探索処理を軽減することができる。
1 バッファ、2 前処理部、3 スペクトル分析部(スペクトル分析手段)、4 線形予測分析部、5 LSP符号帳、6 LSP量子化・逆量子化部、7 駆動音源生成部(駆動音源生成手段)、8 適応符号帳、9 固定音源符号帳、10,65c 利得符号帳、11,12 利得乗算器、13,63a,65a 加算器、14 合成音声生成部(合成音声生成手段)、15 LSP/LPC変換部、16 合成フィルタ、17 参照ベクトル組立バッファ(パラメータ探索手段)、18 減算器(パラメータ探索手段)、19 聴覚重み付けフィルタ(パラメータ探索手段)、20 最小誤差探索部(パラメータ探索手段)、21,29,72 多重化部、22 重み付け最小誤差探索部(パラメータ探索手段)、23,42 繰越成分記憶用メモリ(加算手段)、24,43 加算器(加算手段)、25,44,74,86 利得乗算器(加算手段)、26,28,45,47 スイッチ(加算手段)、27,64,66 モード選択機能付最小誤差探索部(パラメータ探索手段)、31,46 多重分離部(情報受信手段)、32 適応符号帳(駆動音源生成手段)、33 固定音源符号帳(駆動音源生成手段)、34 利得符号帳(駆動音源生成手段)、35,36 利得乗算器(駆動音源生成手段)、37 加算器(駆動音源生成手段)、38 LSP符号帳(合成音声復号手段)、39 LSP/LPC変換部(合成音声復号手段)、40 合成フィルタ(合成音声復号手段)、41 ポストフィルタ(合成音声復号手段)、61,81 ピッチ安定度評価部(加算手段)、62,63,65,82,83,84 ピッチ強調フィルタ(加算手段)、63b,65b 逆フィルタ、63c,65d フィルタ係数乗算器、67 モード別最小誤差探索部(パラメータ探索手段)、68 多重化部(パラメータ探索手段)、69,70 バッファ(パラメータ探索手段)、71 繰越成分誤差評価モード決定部(パラメータ探索手段)、73,85 利得記憶用メモリ(加算手段)。 1 buffer, 2 preprocessing unit, 3 spectrum analysis unit (spectrum analysis unit), 4 linear prediction analysis unit, 5 LSP codebook, 6 LSP quantization / inverse quantization unit, 7 drive excitation generation unit (drive excitation generation unit) 8 adaptive codebook, 9 fixed excitation codebook, 10, 65c gain codebook, 11, 12 gain multiplier, 13, 63a, 65a adder, 14 synthesized speech generation unit (synthesized speech generation means), 15 LSP / LPC Conversion unit, 16 synthesis filter, 17 reference vector assembly buffer (parameter search unit), 18 subtractor (parameter search unit), 19 auditory weighting filter (parameter search unit), 20 minimum error search unit (parameter search unit), 21, 29, 72 Multiplexing unit, 22 Weighted minimum error searching unit (parameter searching means), 23, 42 Carrying forward component storage memo (Adding means), 24, 43 Adder (adding means), 25, 44, 74, 86 Gain multiplier (adding means), 26, 28, 45, 47 Switch (adding means), 27, 64, 66 Mode selection Minimum error search section with function (parameter search means), 31, 46 Demultiplexing section (information receiving means), 32 Adaptive codebook (drive excitation generator), 33 Fixed excitation codebook (drive excitation generator), 34 Gain code Book (driving excitation generating means), 35, 36 Gain multiplier (driving excitation generating means), 37 Adder (driving excitation generating means), 38 LSP codebook (synthesized speech decoding means), 39 LSP / LPC converter (synthesis) Speech decoding unit), 40 synthesis filter (synthetic speech decoding unit), 41 post filter (synthetic speech decoding unit), 61, 81 pitch stability evaluation unit (adding unit), 62, 63, 6 5, 82, 83, 84 Pitch emphasis filter (adding means), 63b, 65b Inverse filter, 63c, 65d Filter coefficient multiplier, 67 Mode-specific minimum error searching section (parameter searching means), 68 Multiplexing section (parameter searching means) ), 69, 70 buffer (parameter search means), 71 carry-over component error evaluation mode determination section (parameter search means), 73, 85 gain storage memory (addition means).
Claims (20)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007156589A JP5084360B2 (en) | 2007-06-13 | 2007-06-13 | Speech coding apparatus and speech decoding apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007156589A JP5084360B2 (en) | 2007-06-13 | 2007-06-13 | Speech coding apparatus and speech decoding apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008309956A JP2008309956A (en) | 2008-12-25 |
JP5084360B2 true JP5084360B2 (en) | 2012-11-28 |
Family
ID=40237624
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007156589A Expired - Fee Related JP5084360B2 (en) | 2007-06-13 | 2007-06-13 | Speech coding apparatus and speech decoding apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5084360B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2980798A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Harmonicity-dependent controlling of a harmonic filter tool |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3557255B2 (en) * | 1994-10-18 | 2004-08-25 | 松下電器産業株式会社 | LSP parameter decoding apparatus and decoding method |
JP3174733B2 (en) * | 1996-08-22 | 2001-06-11 | 松下電器産業株式会社 | CELP-type speech decoding apparatus and CELP-type speech decoding method |
JP3410931B2 (en) * | 1997-03-17 | 2003-05-26 | 株式会社東芝 | Audio encoding method and apparatus |
JP2001134298A (en) * | 1999-08-24 | 2001-05-18 | Matsushita Electric Ind Co Ltd | Speech encoding device and speech decoding device, and speech encoding/decoding system |
JP2001265393A (en) * | 2000-03-17 | 2001-09-28 | Oki Electric Ind Co Ltd | Voice recording and reproducing device |
JP4857468B2 (en) * | 2001-01-25 | 2012-01-18 | ソニー株式会社 | Data processing apparatus, data processing method, program, and recording medium |
-
2007
- 2007-06-13 JP JP2007156589A patent/JP5084360B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008309956A (en) | 2008-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6427135B1 (en) | Method for encoding speech wherein pitch periods are changed based upon input speech signal | |
US8856012B2 (en) | Apparatus and method of encoding and decoding signals | |
US7577567B2 (en) | Multimode speech coding apparatus and decoding apparatus | |
EP2229677B1 (en) | A method and an apparatus for processing an audio signal | |
EP2506253A2 (en) | Audio signal processing method and device | |
WO2004090870A1 (en) | Method and apparatus for encoding or decoding wide-band audio | |
JP2003044098A (en) | Device and method for expanding voice band | |
JPH1063297A (en) | Method and device for voice coding | |
JPH08305398A (en) | Voice decoding device | |
JP2002268686A (en) | Voice coder and voice decoder | |
JP4727413B2 (en) | Speech encoding / decoding device | |
JP5084360B2 (en) | Speech coding apparatus and speech decoding apparatus | |
JP3329216B2 (en) | Audio encoding device and audio decoding device | |
JPH113099A (en) | Speech encoding/decoding system, speech encoding device, and speech decoding device | |
JP3232701B2 (en) | Audio coding method | |
JP3319396B2 (en) | Speech encoder and speech encoder / decoder | |
JP3552201B2 (en) | Voice encoding method and apparatus | |
JP3754819B2 (en) | Voice communication method and voice communication apparatus | |
JP3232728B2 (en) | Audio coding method | |
JP2001147700A (en) | Method and device for sound signal postprocessing and recording medium with program recorded | |
WO2004040552A1 (en) | Transcoder and coder conversion method | |
JP3845316B2 (en) | Speech coding apparatus and speech decoding apparatus | |
JP2004020676A (en) | Speech coding/decoding method, and speech coding/decoding apparatus | |
JP6001451B2 (en) | Encoding apparatus and encoding method | |
JP4179232B2 (en) | Speech coding apparatus and speech decoding apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100324 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120807 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120904 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5084360 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150914 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |