JP2007226253A - Voice coding device and voice decoding device - Google Patents
Voice coding device and voice decoding device Download PDFInfo
- Publication number
- JP2007226253A JP2007226253A JP2007080962A JP2007080962A JP2007226253A JP 2007226253 A JP2007226253 A JP 2007226253A JP 2007080962 A JP2007080962 A JP 2007080962A JP 2007080962 A JP2007080962 A JP 2007080962A JP 2007226253 A JP2007226253 A JP 2007226253A
- Authority
- JP
- Japan
- Prior art keywords
- vector
- unit
- sound source
- lsp
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、少ないメモリ量で音声信号を符号化/復号化するための音声符号化装置および音声復号化装置に関する。 The present invention relates to an audio encoding device and an audio decoding device for encoding / decoding an audio signal with a small amount of memory.
ディジタル携帯電話等の移動体通信の分野においては、加入者の増加に対処するため、低ビットレートの音声の圧縮符号化法が求められている。日本国内では、VSELP およびPSI−CELPという音声符号化方式が、フルレートおよびハーフレートのディジタル携帯電話の音声符号化標準方式として、それぞれ採用・実用化されている。これらの方式はいずれもCELP(Code Excited Linear Prediction:非特許文献1参照)という方式を改良したものである。CELP型の音声符号化装置は、音声情報を音源情報と声道情報とに分離して符号化する方式で、音源情報については符号帳に格納された複数のコードベクトルのインデクスによって符号化し、声道情報についてはLPC(線形予測係数)を符号化するということと、音源情報符号化の際には声道情報を加味して入力音声と比較を行う方法(A−b−S: Analysis by Synthesis)を採用していることに特徴を有している。なおCELPでは一般に、入力音声をある時間間隔で区間(フレームと呼ばれる)ごとに分けてLPC分析を行い、フレームをさらに細かく分けた区間(サブフレームと呼ばれる)ごとに適応符号帳/固定符号帳と確率的符号帳の音源探索が行われる。 In the field of mobile communications such as digital cellular phones, a low bit rate speech compression coding method is required to cope with the increase in subscribers. In Japan, VSELP and PSI-CELP speech coding schemes have been adopted and put into practical use as full-rate and half-rate digital cellular phone speech coding standards. Each of these methods is an improvement on a method called CELP (Code Excited Linear Prediction: see Non-Patent Document 1). The CELP type speech encoding apparatus is a method of encoding speech information into sound source information and vocal tract information separately. The sound source information is encoded by an index of a plurality of code vectors stored in a codebook, For road information, LPC (Linear Prediction Coefficient) is encoded, and at the time of sound source information encoding, a method of comparing with input speech in consideration of vocal tract information (A-B-S: Analysis by Synthesis) ) Is adopted. In CELP, the input speech is generally divided into sections (called frames) at certain time intervals and subjected to LPC analysis, and the adaptive codebook / fixed codebook is divided into sections (called subframes) that are further divided into frames. A sound source search of the stochastic codebook is performed.
ここではまず、日本国内のハーフレートディジタル携帯電話における音声符号化/復号化標準方式であるPSI−CELP(非特許文献2参照)をベースに開発したCELP型音声符号化装置の機能ブロック図(図11)を用いて、CELP型の音声符号化装置について詳しく説明する。 Here, first, a functional block diagram of a CELP speech coding apparatus developed based on PSI-CELP (see Non-Patent Document 2), which is a speech coding / decoding standard system for half-rate digital cellular phones in Japan (see FIG. 11) will be used to explain the CELP speech coding apparatus in detail.
図11において、ディジタルの入力音声データ110は、フレーム単位(フレーム長Nf=104)でバッファ111へ供給される。この時、バッファ111内の古いデータは、供給される新しいデータによって更新されることになる。フレームパワ量子化・復号部112は、まず、バッファ111から長さNf(=104)の処理フレームs(i)(0≦i≦Nf−1)を読み出し、その処理フレーム内サンプルの平均パワampを(数1)により求める。
In FIG. 11, digital
LSP量子化・復号化部116は、まず、LSP量子化テーブル格納部117に格納したLSPのベクトル量子化用テーブルを参照して、LPC分析部114から受けたLSPをベクトル量子化して最適インデクスを選び、選んだインデクスをLSP符号Ilspとしてパラメータ符号化部141へ出力する。次に、LSP量子化テーブル格納部117からLSP符号に対応するセントロイドを復号化LSPωq(i)(1≦i≦Np)として読み出し、読み出した復号化LSPをLSP補間部121へ出力する。さらに、復号化LSPをLPCに変換することで復号化LPCαq(i)(1≦i≦Np)を得、得られた復号化LPCをスペクトル重み付けフィルタ係数算出部122および聴感重み付けLPC合成フィルタ係数算出部124へ出力する。LSP量子化テーブル格納部117は、LSP量子化・復号化部116がLSPをベクトル量子化する時に参照するLSPベクトル量子化テーブルを格納している。
The LSP quantization /
ピッチ予備選択部118は、まず、バッファ111から読み出した処理フレームデータs(i)(0≦i≦Nf−1)に対し、LPC分析部114より受けたLPCα(i)(1≦i≦Np)によって構成した線形予測逆フィルタリングを施し、線形予測残差信号res(i)(0≦i≦Nf−1)を得、得られた線形予測残差信号res(i)のパワを計算し、計算した残差信号のパワを処理サブフレームの音声サンプルのパワで正規化した値である正規化予測残差パワresidを求めてパラメータ符号化部141へ出力する。次に、線形予測残差信号res(i)に長さNw(=256)のハミング窓を乗じてハミング窓掛け済み線形予測残差信号resw(i)(0≦i≦Nw−1)を生成し、生成したresw(i)の自己相関関数φint(i)をLmin−2≦i≦Lmax+2(ただし、Lminは長期予測係数の最短分析区間で16、Lmaxは長期予測係数の最長分析区間で128とする)の範囲で求める。求めた自己相関関数φint(i)にポリフェーズ係数格納部119に格納された28wordsのポリフェーズフィルタの係数Cppf(表3)を畳み込んで、整数ラグintにおける自己相関φint(i)、整数ラグintより−1/4ずれた分数位置における自己相関φdq(i)、整数ラグintより+1/4ずれた分数位置における自己相関φaq(i)、整数ラグintより+1/2ずれた分数位置における自己相関φah(i)をそれぞれ求める。
The pitch
ポリフェーズ係数格納部119は、ピッチ予備選択部118が線形予測残差信号の自己相関を分数ラグ精度で求める時、および、適応ベクトル生成部129が適応ベクトルを分数精度で生成する時に参照するポリフェーズフィルタの係数を格納している。
The polyphase coefficient storage unit 119 is a poly reference that is referred to when the pitch
ピッチ強調フィルタ係数算出部120は、ピッチ予備選択部118で求めた線形予測残差res(i)とピッチ第一候補psel(0)から3次のピッチ予測係数cov(i)(0≦i≦2)を求める。求めたピッチ予測係数cov(i)(0≦i≦2)を用いた(数4)により、ピッチ強調フィルタQ(z)のインパルス応答を求めて、スペクトル重み付けフィルタ係数算出部122および聴感重み付けフィルタ係数算出部123へ出力する。
The pitch enhancement filter
スペクトル重み付けフィルタ係数算出部122は、(数6)のMA型スペクトル重み付けフィルタI(z)を構成し、そのインパルス応答を聴感重み付けフィルタ係数算出部123へ出力する。
The spectrum weighting filter
(=11)項までで打ち切ったものである。
(= 11) Terminate to the end.
聴感重み付けLPC合成フィルタ係数算出部124は、LSP補間部121から受けた復号化補間LPCαq(n,i)と聴感重み付けフィルタ係数算出部123から受けた聴感重み付けフィルタW(z)によって、聴感重み付けLPC合成フィルタH(z)を(数8)によって構成する。
The perceptual weighting LPC synthesis filter
聴感重み付け部125は、バッファ111から読み出したサブフレーム信号をゼロ状態の聴感重み付きLPC合成フィルタH(z)に入力し、その出力を聴感重み付き残差spw(i)(0≦i≦Ns−1)としてターゲット生成部A126へ出力する。
The
ターゲット生成部A126は、聴感重み付け部125において求めた聴感重み付き残差spw(i)(0≦i≦Ns−1)から、聴感重み付けLPC合成フィルタ係数算出部1
24において求めた聴感重み付きLPC合成フィルタH(z)にゼロ系列を入力した時の出力であるゼロ入力応答Zres(i)(0≦i≦Ns−1)を減算し、減算結果を音源選択用のターゲットベクトルr(i)(0≦i≦Ns−1)として聴感重み付けLPC逆順合成部A127およびターゲット生成部B135へ出力する。
The target generation unit A126 uses the perceptual weighted residual spw (i) (0 ≦ i ≦ Ns−1) obtained by the
Subtract the zero input response Zres (i) (0 ≦ i ≦ Ns−1), which is the output when the zero sequence is input to the audible weighted LPC synthesis filter H (z) obtained in 24, and select the sound source as the subtraction result Output to the perceptual weighting LPC reverse order synthesis unit A127 and the target generation unit B135 as the target vector r (i) (0 ≦ i ≦ Ns−1).
聴感重み付けLPC逆順合成部A127は、ターゲット生成部A126から受けたターゲットベクトルr(i)(0≦i≦Ns−1)を時間逆順に並べ換え、並べ換えて得られたベクトルを初期状態がゼロの聴感重み付けLPC合成フィルタH(z)に入力し、その出力を再度時間逆順に並べ換えることでターゲットベクトルの時間逆合成ベクトルrh(k)(0≦i≦Ns−1)を得て比較部A132に出力する。 The perceptual weighting LPC reverse order synthesizing unit A127 rearranges the target vectors r (i) (0 ≦ i ≦ Ns−1) received from the target generation unit A126 in the reverse time order, and the perceived initial value of the perceived vector is zero. By inputting the weighted LPC synthesis filter H (z) and rearranging its output again in the reverse time order, the time inverse synthesis vector rh (k) (0 ≦ i ≦ Ns−1) of the target vector is obtained, and the comparison unit A132 receives it. Output.
適応符号帳128は、適応ベクトル生成部129が適応ベクトルを生成する際に参照する過去の駆動音源を格納している。適応ベクトル生成部129は、ピッチ予備選択部118から受けた6個のピッチ候補psel(j)(0≦j≦5)をもとに、Nac個の適応ベクトルPacb(i,k)(0≦i≦Nac−1,0≦k≦Ns−1,6≦Nac≦24)を生成して適応/固定選択部130へ出力する。具体的には、(表4)に示すように、16≦psel(j)≦44の場合には、一つの整数ラグ位置あたり4種類の分数ラグ位置について適応ベクトルを生成し、45≦psel(j)≦64の場合には、一つの整数ラグ位置あたり2種類の分数ラグ位置について適応ベクトルを生成し、65≦psel(j)≦128の場合には、整数ラグ位置に対して適応ベクトルを生成する。これより、psel(j)(0≦j≦5)の値によって適応ベクトルの候補数Nacは最少で6候補、最多で24候補になる。
The
ここで、lagf(i)の値に対応する補間とは、lagf(i)=0の場合は整数ラグ位置、lagf(i)=1の場合は整数ラグ位置から−1/2ずれた分数ラグ位置、lagf(i)=2の場合は整数ラグ位置より+1/4ずれた分数ラグ位置、lagf(i)=3の場合は整数ラグ位置より−1/4ずれた分数ラグ位置に対応した補間を行うことである。 Here, the interpolation corresponding to the value of lagf (i) is an integer lag position when lagf (i) = 0, and a fractional lag shifted by -1/2 from the integer lag position when lagf (i) = 1. Position, when lagf (i) = 2, interpolation corresponding to a fractional lag position deviating +1/4 from the integer lag position, and when lagf (i) = 3, interpolation corresponding to a fractional lag position deviating -1/4 from the integer lag position Is to do.
適応/固定選択部130は、まず、適応ベクトル生成部が生成したNac(6〜24)候補の適応ベクトルを受け、聴感重み付けLPC合成部A131および比較部A132へ出力する。
The adaptation / fixed
比較部A132は、まず始めに、適応ベクトル生成部129が生成した適応ベクトルPacb(i,k)(0≦i≦Nac−1,0≦k≦Ns−1,6≦Nac≦24)をNa
c(6〜24)候補からNacb(=4)候補に予備選択するため、聴感重み付けLPC逆順合成部A127より受けたターゲットベクトルの時間逆合成ベクトルrh(k)(0≦k≦Ns−1)と適応ベクトルPacb(i,k)との内積prac(i)を(数9)により求める。
First, the comparison unit A132 converts the adaptive vector Pacb (i, k) (0 ≦ i ≦ Nac−1, 0 ≦ k ≦ Ns−1, 6 ≦ Nac ≦ 24) generated by the adaptive
In order to make a preliminary selection from the c (6-24) candidates to the Nacb (= 4) candidates, the temporal inverse synthesis vector rh (k) (0 ≦ k ≦ Ns−1) of the target vector received from the perceptual weighting LPC reverse order synthesis unit A127. And the adaptive product Pacb (i, k) is obtained by (Equation 9).
聴感重み付けLPC合成部A131は、適応ベクトル生成部129において生成され適応/固定選択部130を通過した予備選択後適応ベクトルPacb(apsel(j),k)に対して聴感重み付けLPC合成を施して合成適応ベクトルSYNacb(apsel(j),k)を生成し、比較部A132へ出力する。比較部A132は、次に、比較部A132自身において予備選択したNacb(=4)個の予備選択後適応ベクトルPacb(apsel(j),k)を本選択するために、適応ベクトル本選択基準値sacbr(j)を(数10)により求める。
The perceptual weighting LPC synthesis unit A131 performs perceptual weighting LPC synthesis on the pre-selected adaptive vector Pacb (apsel (j), k) generated by the adaptive
数10)の値をそれぞれ、適応ベクトル本選択後インデクスASELおよび適応ベクトル本選択後基準値sacbr(ASEL)として適応/固定選択部130へ出力する。
The values of Equation 10) are output to the adaptive / fixed
固定符号帳133は、固定ベクトル読み出し部134が読み出すベクトルをNfc(=16)候補格納している。比較部A132は、ここで、固定ベクトル読み出し部134が読み出した固定ベクトルPfcb(i,k)(0≦i≦Nfc−1,0≦k≦Ns−1)を、Nfc(=16)候補からNfcb(=2)候補に予備選択するため、聴感重み付けLPC逆順合成部A127より受けたターゲットベクトルの時間逆合成ベクトルrh(k)(0≦k≦Ns−1)と固定ベクトルPfcb(i,k)との内積の絶対値|prfc(i)|を(数11)により求める。
聴感重み付けLPC合成部A131は、固定ベクトル読み出し部134において読み出され適応/固定選択部130を通過した予備選択後固定ベクトルPfcb(fpsel(j),k)に対して聴感重み付けLPC合成を施して合成固定ベクトルSYNfcb(fpsel(j),k)を生成し、比較部A132へ出力する。
The perceptual weighting LPC synthesis unit A131 performs perceptual weighting LPC synthesis on the fixed vector Pfcb (fpsel (j), k) after preliminary selection read by the fixed
比較部A132は、さらに、比較部A132自身において予備選択したNfcb(=2)個の予備選択後固定ベクトルPfcb(fpsel(j),k)から最適な固定ベクトルを本選択するために、固定ベクトル本選択基準値sfcbr(j)を(数12)により求める。 Further, the comparison unit A132 further selects a fixed vector in order to fully select an optimal fixed vector from the Nfcb (= 2) pre-selected fixed vectors Pfcb (fpsel (j), k) preliminarily selected by the comparison unit A132 itself. This selection reference value sfcbr (j) is obtained by (Equation 12).
適応/固定選択部130は、比較部A132より受けたprac(ASEL)、sacbr(ASEL)、|prfc(FSEL)|およびsfcbr(FSEL)の大小および正負関係により((数13)に記載)、本選択後適応ベクトルと本選択後固定ベクトルのどちらか一方を適応/固定ベクトルAF(k)(0≦k≦Ns−1)として選択する。
The adaptive / fixed
は、適応ベクトルと固定ベクトルの総ベクトル数が255個になるように設計しているので(表4参照)、適応/固定インデクスAFSELは8bits符号になっている。
聴感重み付きLPC合成フィルタ部A131は、適応/固定選択部130において選択された適応/固定ベクトルAF(k)に対して聴感重み付けLPC合成フィルタリングを施して合成適応/固定ベクトルSYNaf(k)(0≦k≦Ns−1)を生成し、比較部A132へ出力する。
The perceptually weighted LPC synthesis filter unit A131 performs perceptual weighting LPC synthesis filtering on the adaptive / fixed vector AF (k) selected by the adaptive / fixed
比較部A132は、ここで、まず、聴感重み付けLPC合成部A131より受けた合成適応/固定ベクトルSYNaf(k)(0≦k≦Ns−1)のパワpowpを(数14)により求める。 Here, the comparison unit A132 first obtains the power of the synthesis adaptive / fixed vector SYNaf (k) (0 ≦ k ≦ Ns−1) received from the perceptual weighting LPC synthesis unit A131 by (Equation 14).
ターゲット生成部B135は、ターゲット生成部A126より受けた音源選択用のターゲットベクトルr(i)(0≦i≦Ns−1)から、比較部A132より受けた合成適応/固定ベクトルSYNaf(k)(0≦k≦Ns−1)を減算して新ターゲットベクトルを生成し、生成した新ターゲットベクトルを聴感重み付けLPC逆順合成部B136へ出力する。 The target generation unit B135 receives the synthesized adaptive / fixed vector SYNaf (k) (received from the comparison unit A132 from the target vector r (i) (0 ≦ i ≦ Ns−1) for sound source selection received from the target generation unit A126. 0 ≦ k ≦ Ns−1) is subtracted to generate a new target vector, and the generated new target vector is output to the perceptual weighting LPC reverse order synthesis unit B136.
聴感重み付けLPC逆順合成部B136は、ターゲット生成部B135において生成した新ターゲットベクトルを時間逆順に並べ換え、並べ換えたベクトルをゼロ状態の聴感重み付けLPC合成フィルタに入力し、その出力ベクトルを再度時間逆順に並べ換えることで新ターゲットベクトルの時間逆合成ベクトルph(k)(0≦k≦Ns−1)を生成して比較部B140へ出力する。 The perceptual weighting LPC reverse order synthesis unit B136 rearranges the new target vectors generated by the target generation unit B135 in reverse time order, inputs the rearranged vectors to the perceptual weighting LPC synthesis filter in the zero state, and rearranges the output vectors again in reverse time order. As a result, the time inverse composite vector ph (k) (0 ≦ k ≦ Ns−1) of the new target vector is generated and output to the comparison unit B140.
確率的符号帳137は、確率的ベクトル読み出し部138が参照する1段目確率的ベクトルと2段目確率的ベクトルをそれぞれNst(=64)本ずつ格納した1段目符号帳と2段目符号帳によって構成されている。確率的ベクトル読み出し部138は、まず、確率的符号帳137内の1段目符号帳から1段目確率的ベクトルPstb1(i1,k)(0≦i1≦Nst−1,0≦k≦Ns−1)を読み出して聴感重み付けLPC合成部B139および比較部B140へ出力する。次に、確率的符号帳137内の2段目符号帳から2段目確率的ベクトルPstb2(i2,k)(0≦i2≦Nst−1,0≦k≦Ns−1)を読み出して聴感重み付けLPC合成部B139および比較部B140へ出力する。
The
比較部B140は、まず始めに、確率的ベクトル読み出し部138が読み出した1段目確率的ベクトルPstb1(i1,k)(0≦i≦Nst−1,0≦k≦Ns−1)をNst(=64)候補からNstb(=6)候補に予備選択するため、1段目確率的ベクトル予備選択基準値cr(i1)(0≦i1≦Nstb1−1)を(数16)により求める。
First, the comparison unit B140 converts the first-stage stochastic vector Pstb1 (i1, k) (0 ≦ i ≦ Nst−1, 0 ≦ k ≦ Ns−1) read by the stochastic
聴感重み付けLPC合成部B139は、まず、確率的ベクトル読み出し部138において読み出された予備選択後1段目確率的ベクトルPstb1(s1psel(j1),k)に対して聴感重み付けLPC合成を施して合成1段目確率的ベクトルSYNstb1(s1psel(j1),k)を生成して比較部B140へ出力する。次に、確率的ベクトル読み出し部138において読み出された予備選択後2段目確率的ベクトルPstb2(s2psel(j2),k)に対して聴感重み付けLPC合成を施して合成2段目確率的ベクトルSYNstb2(s2psel(j2),k)を生成して比較部B140へ出力する。
The perceptual weighting LPC synthesis unit B139 first performs perceptual weighting LPC synthesis on the first stage stochastic vector Pstb1 (s1psel (j1), k) after the preliminary selection read out by the stochastic
比較部B140は、比較部B140自身において予備選択した予備選択後1段目確率的ベクトルと予備選択後2段目確率的ベクトルの本選択を行うために、聴感重み付けLPC合成部B139において計算した合成1段目確率的ベクトルSYNstb1(s1psel(j1),k)に対して(数17)の計算を行う。 The comparison unit B140 performs the synthesis calculated in the perceptual weighting LPC synthesis unit B139 in order to perform the main selection of the first-stage stochastic vector after the preliminary selection and the second-stage stochastic vector after the preliminary selection preliminarily selected in the comparison unit B140 itself. The calculation of (Expression 17) is performed on the first-stage stochastic vector SYNstb1 (s1psel (j1), k).
同様に、scrが得られた時に参照していたs2psel(j2)の値を2段目確率的ベクトル本選択後インデクスSSEL2としてパラメータ符号化部141へ出力し、SSEL2に対応した確率ベクトルを本選択後2段目確率的ベクトルPstb2(SSEL2,k)として保存し、Pstb2(SSEL2,k)に対応した本選択後合成2段目確率的ベクトルSYNstb2(SSEL2,k)(0≦k≦Ns−1)を求めてパラメータ符号化部141へ出力する。
Similarly, the value of s2psel (j2) that was referenced when scr was obtained is output to the
比較部B140は、さらに、Pstb1(SSEL1,k)とPstb2(SSEL2,k)それぞれに乗じる符号S1とS2を(数22)によって求め、求めたS1とS2の正負情報をゲイン正負インデクスIs1s2(2bits情報)としてパラメータ符号化部141へ出力する。
Further, the comparison unit B140 obtains signs S1 and S2 to be multiplied by Pstb1 (SSEL1, k) and Pstb2 (SSEL2, k), respectively, according to (Equation 22), and obtains the positive / negative information of S1 and S2 by gain gain / negative index Is1s2 (2 bits Information) to the
適応符号帳更新部143は、比較部A132において求めた適応/固定ベクトルAF(k)と比較部B140において求めた確率的ベクトルST(k)に、パラメータ符号化部141で求めた適応/固定ベクトル側本ゲインGafと確率的ベクトル側本ゲインGstをそれぞれ乗じた後に加算する(数28)の処理を行って駆動音源ex(k)(0≦k≦Ns−1)を生成し、生成した駆動音源ex(k)(0≦k≦Ns−1)を適応符号帳128に出力する。
The adaptive
ここでは次に、日本国内のハーフレートディジタル携帯電話における音声符号化/復号化標準方式であるPSI−CELP開発した音声復号化装置(この復号化装置は、前述の符号化装置と対を成す装置である)の機能ブロック図(図12)を用いて、CELP型の音声復号化装置についてさらに詳しく説明する。 Here, next, a speech decoding apparatus developed by PSI-CELP, which is a speech encoding / decoding standard system for half-rate digital cellular phones in Japan (this decoding apparatus is a device that forms a pair with the above-described encoding apparatus) The CELP speech decoding apparatus will be described in more detail with reference to a functional block diagram (FIG. 12).
図12において、パラメータ復号化部502は、図11に記載した従来のCELP型音声符号化装置から送られた音声符号(パワインデクスIpow、LSP符号Ilsp、適応/固定インデクスAFSEL、1段目確率的ベクトル本選択後インデクスSSEL1、2段目確率的ベクトル本選択後インデクスSSEL2、ゲイン量子化インデクスIg、ゲイン正負インデクスIs1s2)を伝送部501を通して獲得する。
In FIG. 12, the
次に、パワ量子化テーブル格納部505に格納されたパワ量子化用テーブル(表1参照)からパワインデクスIpowの示すスカラー値を読み出し復号化フレームパワspowとしてパワ復元部517へ出力し、LSP量子化テーブル格納部504に格納されたLSP量子化用テーブルからLSP符号Ilspの示すベクトルを読み出し復号化LSPとしてLSP補間部506へ出力する。適応/固定インデクスAFSELを適応ベクトル生成部508と固定ベクトル読み出し部511と適応/固定選択部512へ出力し、1段目確率的ベクトル本選択後インデクスSSEL1と2段目確率的ベクトル本選択後インデクスSSEL2を確率的ベクトル読み出し部515へ出力する。ゲイン量子化テーブル格納部503に格納されたゲイン量子化用テーブル(表5参照)からゲイン量子化インデクスIgの示すベクトル(CAaf(Ig),CGst(Ig))を読み出し、符号化装置側と同様、(数27)によりAF(k)に実際に適用する適応/固定ベクトル側本ゲインGafおよびST(k)に実際に適用する確率的ベクトル側本ゲインGstを求め、求めた適応/固定ベクトル側本ゲインGafと確率的ベクトル側本ゲインGstをゲイン正負インデクスIs1s2とともに駆動音源生成部513へ出力する。
Next, the scalar value indicated by the power distribution Ipow is read from the power quantization table (see Table 1) stored in the power quantization
LSP補間部506は、符号化装置と同じ方法で、パラメータ復号化部502より受けた復号化LSPから復号化補間LSPωintp(n,i)(1≦i≦Np)をサブフレーム毎に求め、求めたωintp(n,i)をLPCに変換することで復号化補間LPC
を得、得られた復号化補間LPCをLPC合成フィルタ部516へ出力する。
The
And the obtained decoded interpolation LPC is output to the LPC
適応ベクトル生成部508は、パラメータ復号化部502より受けた適応/固定インデクスAFSELに基づき、適応符号帳507から読み出したベクトルにポリフェーズ係数格納部509に格納されたポリフェーズ係数(表3参照)の一部を畳みこんで分数ラグ精度の適応ベクトルを生成し、適応/固定選択部512へ出力する。固定ベクトル読み出し部511は、パラメータ復号化部502より受けた適応/固定インデクスAFSELに基づき、固定符号帳510から固定ベクトルを読み出して適応/固定選択部512へ出力する。
Based on the adaptive / fixed index AFSEL received from the
適応/固定選択部512は、パラメータ復号化部502より受けた適応/固定インデクスAFSELに基づき、適応ベクトル生成部508から入力された適応ベクトルと固定ベクトル読み出し部511から入力された固定ベクトルのどちらか一方のベクトルを選択して適応/固定ベクトルAF(k)とし、選択した適応/固定ベクトルAF(k)を駆動音源生成部513へ出力する。確率的読み出し部は、パラメータ復号化部502より受けた1段目確率的ベクトル本選択後インデクスSSEL1と2段目確率的ベクトル本選択後インデクスSSEL2に基づき、確率的符号帳514から1段目確率的ベクトルと2段目確率的ベクトルをそれぞれ読み出し、読み出した1段目確率的ベクトルと2段目確率的ベクトルそれぞれにゲイン正負インデクスの1段目情報S1と2段目情報S2を乗じて確率的ベクトルをST(k)を生成し、生成した確率的ベクトルを駆動音源生成部513へ出力する。
Based on the adaptive / fixed index AFSEL received from the
駆動音源生成部513は、適応/固定選択部512から受けた適応/固定ベクトルAF(k)と確率的ベクトル読み出し部515から受けた確率的ベクトルST(k)に、パラメータ復号化部502で求めた適応/固定ベクトル側本ゲインGafと確率的ベクトル側本ゲインGstをそれぞれ乗じ、ゲイン正負インデクスIs1s2に基づき加算もしくは減算して駆動音源ex(k)を得、得られた駆動音源をLPC合成フィルタ部516と適応符号帳507へ出力する。ここで、適応符号帳507内の古い駆動音源は、駆動音源生成部513から入力された新しい駆動音源で更新される。
The driving sound
LPC合成フィルタ部516は、駆動音源生成部513で生成した駆動音源に対し、LSP補間部506より受けた復号化補間LPCで構成した合成フィルタを用いてLPC合成を行い、フィルタの出力をパワ復元部517へ出力する。パワ復元部517は、まず、LPC合成フィルタ部516で求めた駆動音源の合成ベクトルの平均パワを求め、次に、パラメータ復号化部502より受けた復号化パワspowを求めた平均パワで除算し、除算結果を駆動音源の合成ベクトルに乗じて合成音を生成し部位518へ出力する。
The LPC
図11に記載した音声符号化装置や図12に記載した音声復号化装置は、符号帳に格納ベクトルを音源とする音声分析および音声合成を行うものであり、符号化装置と復号化装置それぞれが同じ符号帳を保持しておく必要がある。また、符号帳内に格納しておく複数の代表ベクトルは、LBGアルゴリズム(非特許文献3参照)等によって作成するのが一般的である。
この音声符号化装置/復号化装置においては、以下のような問題がある。 This speech encoding / decoding device has the following problems.
(課題) 確率的符号帳を備えることを特徴とする音声符号化装置/復号化装置においては、複数の確率的ベクトルをそのまま確率的符号帳(ROM)に格納しておく必要があるために、メモリ容量が大きくなってしまう。 (Problem) In a speech coder / decoder having a stochastic codebook, it is necessary to store a plurality of stochastic vectors as they are in a stochastic codebook (ROM). The memory capacity becomes large.
本発明は、メモリ容量が少なくて済む音声符号化装置および音声復号化装置を提供することを目的とする。 An object of the present invention is to provide a speech encoding device and a speech decoding device that require a small memory capacity.
上記課題を解決するために本発明は、従来のCELP型音声符号化装置/音声復号化装置の適応符号帳として、過去の音源ベクトルを格納する音源格納部を用い、さらに従来の確率的ベクトル読み出し部を、過去の音源ベクトルに変換を施して新たなベクトルを生成する音源加算ベクトル生成部に置き換え、音源加算ベクトル生成部において生成された音源ベクトルを確率的ベクトルとして用いる。これにより、確率的ベクトルを生成するために必要なROM情報がなくなるので、確率的符号帳が不要となり、メモリ容量を大幅に削減できる。 In order to solve the above-described problems, the present invention uses a sound source storage unit that stores past sound source vectors as an adaptive codebook of a conventional CELP speech coding apparatus / speech decoding apparatus, and further performs conventional stochastic vector reading. Is replaced with a sound source addition vector generation unit that converts a past sound source vector to generate a new vector, and uses the sound source vector generated in the sound source addition vector generation unit as a stochastic vector. This eliminates the need for ROM information for generating a stochastic vector, eliminating the need for a stochastic codebook and greatly reducing the memory capacity.
以上のように本発明によれば、適応符号帳に格納された過去の音源信号に数種の処理を施して生成した音源加算ベクトルを固定ベクトルもしくは確率的ベクトルとして用いることで、メモリ容量を大幅に低減できるという有利な効果が得られる。 As described above, according to the present invention, it is possible to greatly increase the memory capacity by using the excitation addition vector generated by performing several types of processing on the past excitation signal stored in the adaptive codebook as a fixed vector or a stochastic vector. The advantageous effect of being able to be reduced is obtained.
本発明は、過去の音源ベクトルを格納する音源格納部と、前記過去の音源ベクトルと生成ベクトル特定番号とを入力して音源加算ベクトルを生成する音源加算ベクトル生成部と、前記音源加算ベクトルを入力してLPC合成し、合成音を生成するLPC合成フィルタ部とを備えることを特徴とする音声符号化装置/復号化装置であり、確率的ベクトルをそのまま確率的符号帳(ROM)に格納しておく必要がなくなるため、メモリ容量を大幅に削減するという作用を有する。 The present invention provides a sound source storage unit that stores past sound source vectors, a sound source addition vector generation unit that generates a sound source addition vector by inputting the past sound source vector and a generation vector identification number, and inputs the sound source addition vector A speech encoding device / decoding device comprising an LPC synthesis filter unit that performs LPC synthesis and generates synthesized speech, and stores a stochastic vector in a stochastic codebook (ROM) as it is Therefore, the memory capacity is greatly reduced.
そして、より具体的には、音源加算ベクトル生成部が、音源格納部の異なる位置から異なる長さの要素ベクトルを複数個読み出す処理を行う読み出し処理部と、読み出し処理後の複数個のベクトルを逆順に並べ換える処理を行う逆順化処理部と、逆順化処理後の複数個のベクトルにそれぞれ異なるゲインを乗じる処理を行う乗算処理部と、乗算処理後の複数個のベクトルのベクトル長を短くする処理を行う間引き処理部と、間引き処理後の複数個のベクトルのベクトル長を長くする処理を行う内挿処理部と、内挿処理後の複数個のベクトルを加算する処理を行う加算処理部と、生成ベクトル特定番号を入力し、前記生成ベクトル特定番号に応じた具体的な処理方法を決定し各処理部に指示し、その具体的処理内容を決定する際に参照する番号変換対応マップを保持する機能を併せ持つ処理決定・指示部とにより構成されるものが好適である。 More specifically, the sound source addition vector generation unit performs a process of reading a plurality of element vectors having different lengths from different positions in the sound source storage unit, and a plurality of vectors after the read process in reverse order. A reordering processing unit that performs processing for rearranging, a multiplication processing unit that performs processing for multiplying a plurality of vectors after the reverse ordering processing by different gains, and processing for shortening the vector lengths of the plurality of vectors after multiplication processing A decimation processing unit that performs processing, an interpolation processing unit that performs processing to increase the vector length of a plurality of vectors after decimation processing, an addition processing unit that performs processing to add a plurality of vectors after interpolation processing, Enter a generation vector identification number, determine a specific processing method according to the generation vector identification number, instruct each processing unit, and refer to a number when determining the specific processing content It shall consist of a processing decision-instruction unit that combines the function of retaining conversion correspondence map is preferred.
なお、本願においては、以下の異なる態様の発明も含みうる。 In addition, in this application, the invention of the following different aspects may also be included.
(課題1) 固定符号帳を備えることを特徴に有する音声符号化装置/復号化装置においては、複数の固定ベクトルをそのまま固定符号帳(ROM)に格納しておく必要があるため、メモリ容量が大きくなってしまう。 (Problem 1) In a speech coder / decoder having a fixed codebook, it is necessary to store a plurality of fixed vectors as they are in a fixed codebook (ROM). It gets bigger.
上記課題1を解決するための発明として、従来のCELP型音声符号化装置の固定ベクトル読み出し部および固定符号帳を、あるいは、確率的ベクトル読み出し部および確率的符号帳を、入力されるシードの値に応じて異なるベクトル系列を出力する発振器および複数個のシード(発振器の種)を格納するシード格納部にそれぞれ置き換える。これにより、固定ベクトルあるいは確率的ベクトルをそのまま固定符号帳/確率的符号帳(ROM)に格納しておく必要がなくなり、メモリ容量を大幅に削減できる。すなわち、発振器から出力されるベクトル系列を、固定ベクトルもしくは確率的ベクトルとして用いることでメモリ容量を大幅に低減できる。
As an invention for solving the above-mentioned
具体的には、複数個のシードを格納するシード格納部と、前記シード格納部が格納するシードの値に応じて異なるベクトル系列を出力する発振器と、前記ベクトル系列を音源ベクトルとして入力し且つLPC合成して合成音を得るLPC合成フィルタ部とを備えたことを特徴とする音声符号化装置/復号化装置であり、固定ベクトルをそのまま固定符号帳(ROM)に格納しておく必要がなくなるため、メモリ容量を大幅に削減するという作用を有する。 Specifically, a seed storage unit that stores a plurality of seeds, an oscillator that outputs a different vector sequence according to the value of the seed stored in the seed storage unit, the vector sequence as a sound source vector, and an LPC A speech encoding device / decoding device including an LPC synthesis filter unit that synthesizes and obtains a synthesized sound, since it is not necessary to store a fixed vector in a fixed codebook (ROM) as it is. The memory capacity is greatly reduced.
ここで、発振器が、非線形発振器であっても、同様の作用を呈する。 Here, even if the oscillator is a nonlinear oscillator, the same effect is exhibited.
また、非線形発振器が、非線形ディジタルフィルタであっても、同様の作用を呈する。 Even if the nonlinear oscillator is a nonlinear digital filter, the same effect is exhibited.
そして、非線形ディジタルフィルタは、状態変数にゲインを乗ずる乗算器と、入力ベクトル及び前記乗算器の出力を入力し且つ非線形加算特性を有する加算器とを有し、更に前記非線形ディジタルフィルタは、シード格納部から前記状態変数の初期値を入力するとともに、極がZ平面における単位円外に存在するべく前記乗算器の係数を固定し、前記入力ベクトルがゼロ系列である再帰構造のディジタルフィルタであることが好適である。 The nonlinear digital filter includes a multiplier that multiplies a state variable by a gain, an adder that inputs an input vector and an output of the multiplier and has nonlinear addition characteristics, and the nonlinear digital filter further stores a seed. A digital filter having a recursive structure in which the initial value of the state variable is input from the unit, the coefficient of the multiplier is fixed so that the pole exists outside the unit circle in the Z plane, and the input vector is a zero sequence. Is preferred.
そして、非線形ディジタルフィルタは、構造が2次直接II型構造であるとともに、加算器の非線形加算特性が2の補数特性であっても、同様の作用を呈する。 The non-linear digital filter has a second-order direct II-type structure and exhibits the same function even when the non-linear addition characteristic of the adder is a two's complement characteristic.
さらに、本願においては、以下のさらに異なる態様の発明をも含みうる。 Further, the present application may include the following aspects of the invention.
(課題2) 線形予測分析して得られた音声の線形予測係数(LPC)の量子化は、一般にLPCを線スペクトル対(LSP)に変換した後に行われる。しかし、立ち上がり部など音声の特徴が大きく変化するフレーム付近ではLSPの量子化特性が不十分になることがあり、その結果、合成音に異音が含まれることがある。 (Problem 2) Quantization of a linear prediction coefficient (LPC) of speech obtained by linear prediction analysis is generally performed after converting LPC into a line spectrum pair (LSP). However, the LSP quantization characteristics may be insufficient in the vicinity of a frame such as a rising portion where the voice characteristics greatly change, and as a result, the synthesized sound may include abnormal sounds.
上記課題2を解決するための発明として、従来のCELP型の音声符号化装置内のLSP量子化・復号化部を、生成した複数の復号化LSPを比較し、最も異音が少なくなる復号化LSPをクローズドループで1つ選択し、選択した復号化LSPを処理フレームに対する復号化LSPとして新たに採用する機能を有するLSP量子化誤差比較部を備えたLSP量子化・符号化部に置き換える。これにより、生成した複数個の量子化対象LSPを全て量子化し、最も異音が少なくなるLSPを処理フレームのLSPとして選択して量子化・復号化するため、合成音の音質を向上することができる。すなわち、LSP量子化において、量子化対象LSPを複数個用意した上で全て量子化・復号化し、合成音の異音が最も少なくなる量子化対象LSPを選択するため、合成音中に含まれる異音を低減することができる。 As an invention for solving the above-mentioned problem 2, an LSP quantizing / decoding unit in a conventional CELP type speech coding apparatus compares a plurality of generated decoding LSPs, and performs decoding with the least noise One LSP is selected in a closed loop, and the selected decoded LSP is replaced with an LSP quantization / encoding unit including an LSP quantization error comparison unit having a function newly adopted as a decoded LSP for a processing frame. As a result, all of the generated plurality of quantization target LSPs are quantized, and the LSP with the least abnormal sound is selected as the LSP of the processing frame and is quantized / decoded, so that the sound quality of the synthesized sound can be improved. it can. That is, in LSP quantization, a plurality of quantization target LSPs are prepared, and all of them are quantized and decoded to select a quantization target LSP with the least noise of the synthesized sound. Sound can be reduced.
具体的には、バッファ内の処理フレームに対して線形予測分析を行って線形予測係数を得、前記線形予測係数を変換して量子化対象LSPを生成するLPC分析部と、前記量子化対象LSPを入力し、前記LPC分析部において前記線形予測係数を変換して得られた前記量子化対象LSP以外に、複数の量子化対象LSPを生成する量子化対象LSP追加部と、量子化テーブルを格納するLSP量子化テーブル格納部と、生成された全ての量子化対象LSPを量子化・復号化し、前記量子化テーブルを参照してそれぞれの量子化対象LSPに対する復号化LSPを生成するLSP量子化・復号化部と、前記復号化LSPを比較し、最も異音が少なくなる復号化LSPをクローズドループで1つ選択し、選択した復号化LSPを処理フレームに対する復号化LSPとして新たに採用するLSP量子化誤差比較部とを備えることを特徴とする音声符号化装置/復号化装置であり、LSPの量子化特性が不十分になった場合に生じる可能のある合成音中の異音を低減するという作用を有する。 Specifically, an LPC analysis unit that performs linear prediction analysis on the processing frame in the buffer to obtain a linear prediction coefficient, converts the linear prediction coefficient to generate a quantization target LSP, and the quantization target LSP In addition to the quantization target LSP obtained by converting the linear prediction coefficient in the LPC analysis unit, a quantization target LSP adding unit that generates a plurality of quantization target LSPs and a quantization table are stored An LSP quantization table storage unit that performs quantization and decoding of all generated quantization target LSPs, and generates a decoding LSP for each quantization target LSP with reference to the quantization table. The decoding unit and the decoded LSP are compared, one decoded LSP with the least noise is selected in a closed loop, and the selected decoded LSP is used as a processing frame. This is a speech encoding device / decoding device including an LSP quantization error comparison unit newly employed as a decoding LSP to be performed, and may occur when the LSP quantization characteristics become insufficient It has the effect of reducing abnormal sounds in a certain synthesized sound.
ここで、LPC分析部が、バッファ内の先読み区間に対して線形予測分析を行って前記先読み区間に対する線形予測係数を得、前記線形予測係数を変換して前記先読み区間に対するLSPを生成して量子化対象LSP追加部へ出力する機能を併せ持ち、前記量子化対象LSP追加部が、前記LPC分析部において求めた処理フレームの量子化対象LSPを記憶する現フレームLSP記憶部と、前記LPC分析部において求めた前記先読み区間に対するLSPを記憶する先読み区間LSP記憶部と、前処理フレームの復号化LSPを記憶する前フレームLSP記憶部と、これら3つの記憶部から読み出したLSPを用いた線形補間計算により量子化対象LSPを複数個追加する機能を有する線形補間部とによって構成されるものであっても、同様の作用を呈する。 Here, the LPC analysis unit performs linear prediction analysis on the prefetch section in the buffer to obtain a linear prediction coefficient for the prefetch section, converts the linear prediction coefficient to generate an LSP for the prefetch section, and In addition, the quantization target LSP addition unit has a function of outputting to the quantization target LSP addition unit, and the quantization target LSP addition unit stores a current frame LSP storage unit that stores the quantization target LSP of the processing frame obtained by the LPC analysis unit, and the LPC analysis unit By pre-reading interval LSP storage unit for storing the LSP for the obtained pre-reading interval, a previous frame LSP storage unit for storing the decoding LSP of the preprocessing frame, and linear interpolation calculation using the LSP read from these three storage units Even if it is configured with a linear interpolation unit having a function of adding a plurality of quantization target LSPs, Exhibiting the action of.
また、LSP量子化・復号化部が、複数のゲイン候補を格納するゲイン情報格納部と、前記複数のゲイン候補を参照して適応ゲインを選択する適応ゲイン選択部と、LSP量子化テーブル格納部より読み出したコードベクトルに、前記適応ゲインを乗じるゲイン乗算部と、前記適応ゲインを乗じたコードベクトルにより量子化対象LSPをベクトル量子化してベクトル量子化LSPを生成するLSP量子化部と、前記ベクトル量子化LSPと前記量子化対象LSPを入力し、前記ベクトル量子化LSPを復号化して復号化LSPを生成・出力するとともに、前記ベクトル量子化LSPと前記量子化対象LSPとの差分であるLSP量子化誤差を算出して前記適応ゲイン選択部へ出力するLSP復号化部とを有し、前記適応ゲイン選択部が、前処理フレームにおける適応ゲインの大きさ及びLSP量子化誤差の大きさを基準にして、処理フレームにおける適応ゲインを、前記ゲイン情報格納部に格納された前記複数のゲイン候補をもとに適応的に調節しながら求めることにより、前記LSP量子化・復号化部が前記量子化対象LSPをベクトル量子化するものであっても、同様な作用を呈する。 The LSP quantization / decoding unit includes a gain information storage unit that stores a plurality of gain candidates, an adaptive gain selection unit that selects an adaptive gain with reference to the plurality of gain candidates, and an LSP quantization table storage unit A gain multiplication unit that multiplies the read-out code vector by the adaptive gain; an LSP quantization unit that vector-quantizes the quantization target LSP by the code vector multiplied by the adaptive gain; The quantization LSP and the quantization target LSP are input, the vector quantization LSP is decoded to generate and output a decoded LSP, and an LSP quantum that is a difference between the vector quantization LSP and the quantization target LSP And an LSP decoding unit that calculates a conversion error and outputs the error to the adaptive gain selection unit. The adaptive gain in the processing frame is adaptively adjusted based on the plurality of gain candidates stored in the gain information storage unit based on the adaptive gain size in the physical frame and the LSP quantization error. Thus, even if the LSP quantization / decoding unit performs vector quantization on the quantization target LSP, the same effect is exhibited.
以下、本発明の実施の形態について、図1から図10を用いて説明する。 Hereinafter, embodiments of the present invention will be described with reference to FIGS.
(実施の形態1)
図1は、本実施の形態による音声符号化装置/復号化装置の主要部のブロック図である。図1において、11はシード格納部、12は発振器、13はLPC合成フィルタ部であり、14はシード格納部11から出力されて発振器12に入力されるシード(発振の種)、15は発振器12から出力されたベクトル系列である音源ベクトル、16はLPC合成フィルタ部13から出力される合成音である。
(Embodiment 1)
FIG. 1 is a block diagram of a main part of a speech encoding / decoding device according to the present embodiment. In FIG. 1, 11 is a seed storage unit, 12 is an oscillator, 13 is an LPC synthesis filter unit, 14 is a seed (oscillation seed) output from the seed storage unit 11 and input to the
発振器12は、入力されるシードの値に応じて異なるベクトル系列を出力するもので、LPC合成フィルタ部13は、入力された音源ベクトル15をLPC合成して合成音16を出力する。
The
本実施の形態は、図11に示す従来のCELP型音声符号化装置の固定ベクトル読み出し部134および固定符号帳133を、あるいは、図12に示す従来のCELP型音声復号化装置の固定ベクトル読み出し部511および固定符号帳510を、発振器12およびシード格納部11でそれぞれ置き換えたもので、固定ベクトルをそのまま固定符号帳(ROM)に格納しておく必要がなくなるため、メモリ容量を大幅に削減することができる。
In the present embodiment, fixed
(実施の形態2)
図2は、本実施の形態による音声符号化装置/復号化装置の主要部のブロック図である。図2において、21はシード格納部、22は非線形発振器、23はLPC合成フィルタ部であり、24はシード格納部21から出力されて非線形発振器22に入力されるシード(発振の種)、25は非線形発振器22から出力されたベクトル系列である音源ベクトル、26はLPC合成フィルタ部23から出力される合成音である。
(Embodiment 2)
FIG. 2 is a block diagram of a main part of the speech encoding apparatus / decoding apparatus according to the present embodiment. In FIG. 2, 21 is a seed storage unit, 22 is a nonlinear oscillator, 23 is an LPC synthesis filter unit, 24 is a seed (oscillation seed) output from the
非線形発振器22は、入力されるシードの値に応じて異なるベクトル系列を出力するもので、LPC合成フィルタ部23は、入力された音源ベクトル25をLPC合成して合成音26を出力する。
The
本実施の形態は、図11に示す従来のCELP型音声符号化装置の固定ベクトル読み出し部134および固定符号帳133を、あるいは、図12に示す従来のCELP型音声復号化装置の固定ベクトル読み出し部511および固定符号帳510を、非線形発振器22およびシード格納部21でそれぞれ置き換えたもので、固定ベクトルをそのまま固定符号帳(ROM)に格納しておく必要がなくなるため、メモリ容量を大幅に削減することができる。
In the present embodiment, fixed
(実施の形態3)
図3は、本実施の形態による音声符号化装置/復号化装置の主要部のブロック図である。図3において、31はシード格納部、32は非線形ディジタルフィルタ、33はLPC合成フィルタ部であり、34はシード格納部31から出力されて非線形ディジタルフィルタ32に入力されるシード(発振の種)、35は非線形ディジタルフィルタ32から出力されたベクトル系列である音源ベクトル、36はLPC合成フィルタ部33から出力される合成音である。
(Embodiment 3)
FIG. 3 is a block diagram of a main part of the speech encoding apparatus / decoding apparatus according to the present embodiment. In FIG. 3, 31 is a seed storage unit, 32 is a nonlinear digital filter, 33 is an LPC synthesis filter unit, 34 is a seed (oscillation seed) output from the
非線形ディジタルフィルタ32は、入力されるシードの値に応じて異なるベクトル系列を出力するもので、LPC合成フィルタ部33は、入力された音源ベクトル25をLPC合成して合成音36を出力する。
The non-linear
本実施の形態は、図11に示す従来のCELP型音声符号化装置の固定ベクトル読み出し部134および固定符号帳133を、あるいは、図12に示す従来のCELP型音声復号化装置の固定ベクトル読み出し部511および固定符号帳510を、非線形ディジタルフィルタ32およびシード格納部31でそれぞれ置き換えたもので、固定ベクトルをそのまま固定符号帳(ROM)に格納しておく必要がなくなるため、メモリ容量を大幅に削減することができる。
In the present embodiment, fixed
(実施の形態4)
図4は、本実施の形態による非線形ディジタルフィルタのブロック図である。図4において、40は非線形ディジタルフィルタ、41は加算器、42〜43は状態変数1〜N、44〜45は乗算器1〜Nの係数、46はシード(発振の種)、47は入力ベクトル、48は音源ベクトルである。
(Embodiment 4)
FIG. 4 is a block diagram of the nonlinear digital filter according to this embodiment. In FIG. 4, 40 is a nonlinear digital filter, 41 is an adder, 42 to 43 are
図4において、非線形ディジタルフィルタ40は、入力ベクトル47からゼロが入力される毎に、1サンプル(y(k))ずつ出力する作用を行うもので、非線形加算特性を有する加算器41、ディジタルフィルタの状態(y(k−1)〜y(k−N)の値)を保存する作用を有する状態変数1〜N(42〜43)、状態変数に保存された値にゲインを乗ずる作用を有する乗算器1〜N(44〜45)から構成されていて、乗算器1〜N(44〜45)はディジタルフィルタの極がZ平面における単位円外に存在するようにゲインの値が固定されていて、状態変数の初期値はシードによって設定される。
In FIG. 4, a non-linear
本実施の形態は、非線形ディジタルフィルタとして、特に、極がZ平面における単位円外に存在するべく乗算器1〜Nの係数44〜45を固定すること、加算器41が非線形加算特性を有すること、状態変数1〜N(42〜43)の初期値となるシード46がシード格納部から与えられること、入力ベクトルがゼロ系列である再帰構造のディジタルフィルタを用いることに特徴を有し、図11に示す従来のCELP型音声符号化装置の固定ベクトル読み出し部134および固定符号帳133を、あるいは、図12に示す従来のCELP型音声復号化装置の固定ベクトル読み出し部511および固定符号帳510を、非線形ディジタルフィルタ40およびシード格納部でそれぞれ置き換えたもので、固定ベクトルをそのまま固定符号帳(ROM)に格納しておく必要がなくなるため、メモリ容量を大幅に削減することができる。
In the present embodiment, as the nonlinear digital filter, in particular, the coefficients 44 to 45 of the
なお、図5は、図4の非線形ディジタルフィルタ40の加算器41の特性の概念図であり、2の補数特性を有する加算器41の入出力関係を表した図である。加算器41は、まず、加算器41への入力値の総和である加算器入力和55を求め、次に、その入力に対する加算器出力56を算出するために用いる特性である。非線形ディジタルフィルタ40として、特に、構造を2次直接II型構造とし、加算器41の非線形加算特性を2の補数特性とすることを特徴とする非線形ディジタルフィルタ40を用い、さらにシード格納部が、特に、(表6)に記載した32wordsのシードベクトルを格納している。
FIG. 5 is a conceptual diagram of the characteristics of the
図6は、本実施の形態による音声符号化装置/復号化装置の主要部のブロック図である。図6において、61は音源格納部、62は音源加算ベクトル生成部、63はLPC合成フィルタ部であり、64は音源格納部61に格納された過去の音源ベクトル64、65は音源加算ベクトル生成部62から出力される音源ベクトル、66はLPC合成フィルタ部63から出力される合成音、67は音源加算ベクトル生成部に入力される生成ベクトル特定番号である。
FIG. 6 is a block diagram of a main part of the speech encoding apparatus / decoding apparatus according to the present embodiment. In FIG. 6, 61 is a sound source storage unit, 62 is a sound source addition vector generation unit, 63 is an LPC synthesis filter unit, 64 is past sound source vectors 64 and 65 stored in the sound
音源加算ベクトル生成部62は、過去の音源ベクトル64に、入力された生成ベクトル特定番号67の値によって異なる処理を行い、異なる音源加算ベクトルを生成し、LPC合成フィルタ部63は入力された音源ベクトル65をLPC合成して合成音66を出力する。
The sound source addition
本実施の形態は、図11に示す従来のCELP型音声符号化装置の確率的ベクトル読み出し部138および確率的符号帳137を、あるいは、図12に示す従来のCELP型音声復号化装置の確率的ベクトル読み出し部515および確率的符号帳514を、音源加算ベクトル生成部62および音源格納部61でそれぞれ置き換えたもので、確率的ベクトルをそのまま確率的符号帳(ROM)に格納しておく必要がなくなるため、メモリ容量を大幅に削減することができる。
In the present embodiment, the stochastic
(実施の形態6)
図7は、本実施の形態による音源加算ベクトル生成部のブロック図である。図7において、68は音源格納部、69は音源加算ベクトル生成部、70は読み出し処理部、71は逆順化処理部、72は乗算処理部、73は間引き処理部、74は内挿処理部、75は加算処理部、76は処理決定・指示部、77は加算処理部75から出力される音源加算ベクトル、78は音源加算ベクトル77が音源加算ベクトル生成部69から出力された音源ベクトルである。
(Embodiment 6)
FIG. 7 is a block diagram of a sound source addition vector generation unit according to this embodiment. In FIG. 7, 68 is a sound source storage unit, 69 is a sound source addition vector generation unit, 70 is a read processing unit, 71 is a deacceleration processing unit, 72 is a multiplication processing unit, 73 is a thinning processing unit, 74 is an interpolation processing unit, 75 is an addition processing unit, 76 is a process determination / instruction unit, 77 is a sound source addition vector output from the
音源加算ベクトル生成部69は、音源格納部68の異なる位置から異なる長さの要素ベクトルを複数個読み出す処理を行う読み出し処理部70と、読み出し処理後の複数個の要素ベクトルを逆順に並べ換える処理を行う逆順化処理部71と、逆順化処理後の複数個のベクトルにそれぞれ異なるゲインを乗じる処理を行う乗算処理部72と、乗算処理後の複数個のベクトルのベクトル長を短くする処理を行う間引き処理部73と、間引き処理後の複数個のベクトルのベクトル長を長くする処理を行う内挿処理部74と、内挿処理後の複数個のベクトルをたしあわせる処理を行う加算処理部75と、入力された生成ベクトル特定番号の値に応じた具体的な処理方法を決定し各処理部に指示する機能およびその具体的処理内容を決定する際に参照する番号変換対応マップ(表7)を保持する機能を併せ持つ処理決定・指示部76とによって構成される。
The sound source addition vector generation unit 69 performs a process of reading a plurality of element vectors having different lengths from different positions in the sound
力する。
読み出し処理部73は、まず、入力された生成ベクトル特定番号の下位の4ビット列(n1:0から15の整数値)に注目し、音源格納部68の端からn1の位置まで長さ100の要素ベクトル1(V1)を切り出す。次に、入力された生成ベクトル特定番号の下位の2ビット列と上位3ビット列を結合した5ビット列(n2:0から31の整数値)に注目し、音源格納部68の端からn2+14(14から45の整数値)の位置まで長さ78の要素ベクトル2(V2)を切り出す。さらに、入力された生成ベクトル特定番号の上位の5ビット列(n3:0から31の整数値)に注目し、音源格納部68の端からn3+46(46から77の整数値)の位置から長さNs(=52)の要素ベクトル3(V3)を切り出して、V1、V2、V3を逆順化処理部へ出力する処理を行う。
First, the
逆順化処理部74は、生成ベクトル特定番号の最下位1ビットが’0’なら、V1とV2とV3を逆順に並べ変えたベクトルを新たにV1、V2、V3として乗算処理部72へ出力し、’1’ならV1とV2とV3をそのまま乗算処理部72へ出力する処理を行う。
If the least significant 1 bit of the generated vector identification number is “0”, the reverse
乗算処理部75は、生成ベクトル特定番号の上位7ビット目と上位6ビット目を結合した2ビット列に注目し、そのビット列が、’00’ならV2の振幅を−2倍し、’01’ならV3の振幅を−2倍し、’10’ならV1の振幅を−2倍し、’11’ならV2の振幅を2倍したベクトルを、新たなV1、V2、V3として間引き部76へ出力する。
The
間引き処理部76は、入力された生成ベクトル特定番号の上位4ビット目と上位3ビット目を結合した2ビット列に注目し、そのビット列が、’00’ならV1、V2、V3から1サンプル置きに26サンプル取り出したベクトルを新たなV1、V2、V3として内挿処理部74へ出力し、’01’ならV1、V3からは1サンプル置きに、V2からは2サンプル置きに26サンプル取り出したベクトルを、新たなV1、V3、V2として内挿処理部74へ出力し、’10’ならV1からは3サンプル置きに、V2、V3からは1サンプル置きに26サンプル取り出したベクトルを新たなV1、V2、V3として内挿処理部77へ出力し、’11’ならV1からは3サンプル置きに、V2からは2サンプル置きに、V3からは1サンプル置きに26サンプル取り出したベクトルを新たなV1、V2、V3として内挿処理部77へ出力する。
The thinning
内挿処理部77は、生成ベクトル特定番号の上位3ビット目に注目し、その値が、’0’ならV1、V2、V3をそれぞれ長さNs(=52)のゼロベクトルの偶数番目サンプルに代入したベクトルを新たなV1、V2、V3として加算処理部75へ出力し、’1’ならV1、V2、V3をそれぞれ長さNs(=52)のゼロベクトルの奇数数番目サンプルに代入したベクトルを新たなV1、V2、V3として加算処理部75へ出力する。
The interpolation processing unit 77 pays attention to the upper 3 bits of the generated vector identification number. If the value is “0”, V1, V2, and V3 are respectively converted into even-numbered samples of the zero vector of length Ns (= 52). The substituted vectors are output to the
加算処理部75は、内挿処理部74より生成された3つのベクトル(V1,V2,3)を加算して音源加算ベクトル77を生成して出力する。
The
本実施の形態は、図11に示す従来のCELP型音声符号化装置の確率的ベクトル読み出し部138および確率的符号帳137を、あるいは、図12に示す従来のCELP型音声復号化装置の確率的ベクトル読み出し部515および確率的符号帳514を、音源加算ベクトル生成部72および音源格納部71でそれぞれ置き換えたもので、確率的ベクトルをそのまま確率的符号帳(ROM)に格納しておく必要がなくなるため、メモリ容量を大幅に削減することができる。
In the present embodiment, the stochastic
(実施の形態7)
図8は、本実施の形態による音声符号化装置/復号化装置の主要部のブロック図である
。図8において、80はバッファ、81はLPC分析部、82は量子化対象LSP追加部、83はLSP量子化テーブル格納部、84はLSP量子化・復号化部、85はLSP量子化誤差比較部であり、86は量子化対象LSP追加部から出力される量子化対象LSP、87はLSP量子化・復号化部から出力される復号化LSPである。
(Embodiment 7)
FIG. 8 is a block diagram of a main part of the speech encoding apparatus / decoding apparatus according to the present embodiment. In FIG. 8, 80 is a buffer, 81 is an LPC analysis unit, 82 is a quantization target LSP addition unit, 83 is an LSP quantization table storage unit, 84 is an LSP quantization / decoding unit, and 85 is an LSP quantization error comparison unit. 86 is a quantization target LSP output from the quantization target LSP adding unit, and 87 is a decoding LSP output from the LSP quantization / decoding unit.
LPC分析部81は、バッファ80内の処理フレームに対して線形予測分析を行ってLPCを得、得たLPCを変換して量子化対象LSPを生成し、生成した量子化対象LSPを量子化対象LSP追加部へ出力する。
The
量子化対象LSP追加部82は、LPC分析部81において処理フレームのLPCを変換することで直接的に得られた量子化対象LSP以外に、複数の量子化対象LSPを生成する。
The quantization target LSP adding unit 82 generates a plurality of quantization target LSPs in addition to the quantization target LSP obtained directly by converting the LPC of the processing frame in the
LSP量子化テーブル格納部83は、LSP量子化・復号化部84が参照する量子化テーブルを格納し、LSP量子化・復号化部84は、生成された量子化対象LSP86を量子化・復号化し、それぞれの復号化LSPを生成する。
The LSP quantization
LSP量子化誤差比較部85は、生成した複数の復号化LSPを比較し、最も異音が少なくなる復号化LSPをクローズドループで1つ選択し、選択した復号化LSPを処理フレームに対する復号化LSPとして新たに採用するものである。
The LSP quantization
本実施の形態により、LSPの量子化特性が不十分になった場合に生じる可能のある合成音中の異音を低減することができる。 According to the present embodiment, it is possible to reduce abnormal sounds in the synthesized sound that may occur when the quantization characteristics of the LSP are insufficient.
(実施の形態8)
図9は、本実施の形態による量子化対象LSP追加部のブロック図である。図9において、90はLPC分析部、91は量子化対象LSP追加部、92は現フレームLSP記憶部、93は先読み区間LSP記憶部、94は前フレームLSP記憶部、95は線形補間部、96はLSP量子化・復号化部、97はLSP量子化・復号化部96から出力される復号化LSPである。
(Embodiment 8)
FIG. 9 is a block diagram of the quantization target LSP adding unit according to this embodiment. In FIG. 9, 90 is an LPC analysis unit, 91 is a quantization target LSP addition unit, 92 is a current frame LSP storage unit, 93 is a prefetch section LSP storage unit, 94 is a previous frame LSP storage unit, 95 is a linear interpolation unit, 96 Is an LSP quantization / decoding unit, and 97 is a decoding LSP output from the LSP quantization /
LPC分析部90は、バッファ内の先読み区間に対して線形予測分析を行って先読み区間に対するLPCを得、得られたLPCを変換して先読み区間に対するLSPを生成して量子化対象LSP追加部91へ出力する機能を併せ持つ。
The
量子化対象LSP追加部91は、LPC分析部90において求めた処理フレームの量子化対象LSPを記憶する現フレームLSP記憶部92と、LPC分析部90において求めた先読み区間のLSPを記憶する先読み区間LSP記憶部93と、前処理フレームの復号化LSPを記憶する前フレームLSP記憶部94と、上記3つの記憶部から読み出したLSPに対して線形補間計算を行い量子化対象LSPを複数個追加する線形補間部95によって構成されている。処理フレームの量子化対象LSPと先読み区間のLSPと前処理フレームの復号化LSPに対して線形補間計算を行うことで、量子化対象LSPを複数個追加生成し、生成した量子化対象LSPを全てLSP量子化・復号化部96へ出力する。
The quantization target LSP adding unit 91 stores the current frame
ここで、量子化対象LSP追加部91について、さらに詳しく説明する。LPC分析部90が、バッファ内の処理フレームに対して線形予測分析を行い予測次数Np(=10)次のLPCα(i)(1≦i≦Np)を得、得られたLPCを変換して量子化対象LSPω(i)(1≦i≦Np)を生成し、生成した量子化対象LSPω(i)(1≦i≦Np)を量子化対象LSP追加部91内の現フレームLSP記憶部92へ格納する。さらにバッファ内の先読み区間に対して線形予測分析を行って先読み区間に対するLPCを得、得
られたLPCを変換して先読み区間に対するLSPωf(i)(1≦i≦Np)を生成し、生成した先読み区間に対するLSPωf(i)(1≦i≦Np)を量子化対象LSP追加部91内の先読み区間LSP記憶部93へ格納する。
Here, the quantization target LSP adding unit 91 will be described in more detail. The
次に、線形補間部95が、現フレームLSP記憶部92から処理フレームに対する量子化対象LSPω(i)(1≦i≦Np)を、先読み区間LSP記憶部93から先読み区間に対するLSPωf(i)(1≦i≦Np)を、前フレームLSP記憶部94から前処理フレームに対する復号化LSPωqp(i)(1≦i≦Np)をそれぞれ読み出し、(数29)に示した変換を行うことによって、量子化対象追加第1LSPω1(i)(1≦i≦Np)、量子化対象追加第2LSPω2(i)(1≦i≦Np)、量子化対象追加第3LSPω3(i)(1≦i≦Np)をそれぞれ生成する。
Next, the
本実施の形態は、LSPの有する補間特性の高さ(補間したLSPを用いて合成しても、異音が起こらない)を有効に利用し、語頭のようにスペクトルが大きく変動する区間に対しても異音が生じないようにLSPをベクトル量子化できるようにするもので、LSPの量子化特性が不十分になった場合に生じる可能のある合成音中の異音を低減することができる。 This embodiment effectively uses the height of the interpolation characteristics of the LSP (no abnormal noise occurs even if synthesized using the interpolated LSP), and for the section where the spectrum fluctuates greatly like the beginning of a word. However, the LSP can be vector-quantized so that no abnormal sound is generated, and the abnormal sound in the synthesized sound that may be generated when the quantization characteristic of the LSP becomes insufficient can be reduced. .
(実施の形態9)
図10は、本実施の形態によるLSP量子化・復号化部のブロック図である。図10において、100はLSP量子化テーブル格納部、101はLSP量子化・復号化部、102はゲイン情報格納部、103は適応ゲイン選択部、104はゲイン乗算部、105はLSP量子化部、106はLSP復号化部であり、107はLSP量子化・復号化部101に入力される量子化対象LSP、108は適応ゲイン選択部から出力される適応ゲイン、109はLSP復号化部106から出力されて適応ゲイン選択部103に入力されるLSP量子化誤差、110はLSP復号化部から出力されてLSP量子化・復号化部101から出力される復号化LSPである。
(Embodiment 9)
FIG. 10 is a block diagram of the LSP quantization / decoding unit according to the present embodiment. In FIG. 10, 100 is an LSP quantization table storage unit, 101 is an LSP quantization / decoding unit, 102 is a gain information storage unit, 103 is an adaptive gain selection unit, 104 is a gain multiplication unit, 105 is an LSP quantization unit, 106 is an LSP decoding unit, 107 is a quantization target LSP input to the LSP quantization / decoding unit 101, 108 is an adaptive gain output from the adaptive gain selection unit, and 109 is output from the
LSP量子化・復号化部101は、適応ゲイン選択部103において適応ゲインを選択する際に参照する複数のゲイン候補を格納するゲイン情報格納部102、LSP量子化テーブル格納部100より読み出したコードベクトルに、適応ゲイン選択部103において選択した適応ゲインを乗じるゲイン乗算部104、適応ゲインを乗じたコードベクトルを用いて量子化対象LSPをベクトル量子化するLSP量子化部105、ベクトル量子化したLSPを復号化して復号化LSP110を生成・出力する機能と、量子化対象LSPと復号化LSPの差分であるLSP量子化誤差109を求めて適応ゲイン選択部103へ出力する機能とを有するLSP復号化部106、前処理フレームのLSPをベクトル量子化した時にコードベクトルに乗じた適応ゲインの大きさと前フレームに対するLSP量子化誤差109の大きさを基準にして、処理フレームの量子化対象LSPをベクトル量子化する時にコードベクトルに乗じる適応ゲインを、ゲイン格納部102に格納されたゲイン生
成情報をもとに適応的に調節しながら求め、求めた適応ゲインをゲイン乗算部104に出力する適応ゲイン選択部103によって構成されており、コードベクトルに乗じる適応ゲインを適応的に調節しながら、量子化対象LSPをベクトル量子化および復号化するものである。
The LSP quantization / decoding unit 101 includes a gain
ここで、LSP量子化・復号化部101について、さらに詳しく説明する。ゲイン情報格納部102は、適応ゲイン選択部103が参照する4つのゲイン候補(0.9,1.0,1.1,1.2)を格納しており、適応ゲイン選択部103は、前フレームの量子化対象LSPを量子化した際に生じたパワERpowを、前処理フレームの量子化対象LSPをベクトル量子化した時に選択した適応ゲインGqlspの2乗で除算する(数31)式により、適応ゲイン選択基準値Slspを求める。
Here, the LSP quantization / decoding unit 101 will be described in more detail. The gain
ゲイン乗算部104は、LSP量子化テーブル格納部100より読み出したコードベクトルに適応ゲイン選択部103において選択した適応ゲインGlsp108を乗じてLSP量子化部105へ出力し、LSP量子化部105は、適応ゲインを乗じたコードベクトルを用いて量子化対象LSP107をベクトル量子化し、LSP復号化部106は、LSP量子化部105で量子化したLSPを復号化して復号化LSPを得、得られた復号化LSP110を出力するとともに、得られた復号化LSPを量子化対象LSPから減算してLSP量子化誤差109を求め、求めたLSP量子化誤差109のパワERpowを計算して適応ゲイン選択部103へ出力する。
The
本実施の形態は、LSPの量子化特性が不十分になった場合に生じる可能のある合成音中の異音を低減することができる。 The present embodiment can reduce abnormal sounds in the synthesized sound that may occur when the quantization characteristics of the LSP are insufficient.
本発明による音声符号化装置および音声復号化装置は、メモリ容量が少なく、また、合成音中の異音を低減することができるという効果を有し、移動体通信分野におけるディジタル携帯電話等に有用である。 INDUSTRIAL APPLICABILITY The speech encoding device and speech decoding device according to the present invention have the effect that the memory capacity is small and abnormal noise in the synthesized sound can be reduced, and are useful for digital mobile phones and the like in the mobile communication field It is.
11 シード格納部
12 発振器
13 LPC合成フィルタ部
21 シード格納部
22 非線形発振器
23 LPC合成フィルタ部
31 シード格納部
32 非線形ディジタルフィルタ
33 LPC合成フィルタ部
40 非線形ディジタルフィルタ
41 加算器
61 音源格納部
62 音源加算ベクトル生成部
63 LPC合成フィルタ部
68 音源格納部
69 音源加算ベクトル生成部
70 読み出し処理部
71 逆順化処理部
72 乗算処理部
73 間引き処理部
74 内挿処理部
75 加算処理部
76 処理決定・指示部
80 バッファ
81 LPC分析部
82 量子化対象LSP追加部
83 LSP量子化テーブル格納部
84 LSP量子化・復号化部
85 LSP量子化誤差比較部
90 LPC分析部
91 量子化対象LSP追加部
92 現フレームLSP記憶部
93 先読み区間LSP記憶部
94 前フレームLSP記憶部
95 線形補間部
96 LSP量子化・復号化部
100 LSP量子化テーブル格納部
101 LSP量子化・復号化部
102 ゲイン情報格納部
103 適応ゲイン選択部
104 ゲイン乗算部
105 LSP量子化部
106 LSP復号化部
DESCRIPTION OF SYMBOLS 11
Claims (4)
前記過去の音源ベクトルと生成ベクトル特定番号とを入力して音源加算ベクトルを生成する音源加算ベクトル生成部と、
前記音源加算ベクトルを入力してLPC合成し、合成音を生成するLPC合成フィルタ部と、
を具備することを特徴とする音声符号化装置。 A sound source storage unit for storing past sound source vectors;
A sound source addition vector generation unit for generating a sound source addition vector by inputting the past sound source vector and the generation vector identification number;
An LPC synthesis filter unit that inputs the sound source addition vector and performs LPC synthesis to generate a synthesized sound;
A speech encoding apparatus comprising:
音源格納部の異なる位置から異なる長さの要素ベクトルを複数個読み出す処理を行う読み出し処理部と、
読み出し処理後の複数個のベクトルを逆順に並べ換える処理を行う逆順化処理部と、
逆順化処理後の複数個のベクトルにそれぞれ異なるゲインを乗じる処理を行う乗算処理部と、
乗算処理後の複数個のベクトルのベクトル長を短くする処理を行う間引き処理部と、
間引き処理後の複数個のベクトルのベクトル長を長くする処理を行う内挿処理部と、
内挿処理後の複数個のベクトルを加算する処理を行う加算処理部と、
生成ベクトル特定番号を入力し、前記生成ベクトル特定番号に応じた具体的な処理方法を決定し各処理部に指示し、その具体的処理内容を決定する際に参照する番号変換対応マップを保持する機能を併せ持つ処理決定・指示部と、
を用いて構成されることに特徴を有する請求項1記載の音声符号化装置。 The sound source addition vector generation unit
A read processing unit for performing a process of reading a plurality of element vectors having different lengths from different positions in the sound source storage unit;
A reverse order processing unit that performs processing for rearranging a plurality of vectors after read processing in reverse order;
A multiplication processing unit that performs a process of multiplying a plurality of vectors after the deacclimation process by different gains, and
A thinning-out processing unit that performs processing to shorten the vector length of a plurality of vectors after multiplication processing;
An interpolation processing unit that performs processing to increase the vector length of a plurality of vectors after the thinning processing;
An addition processing unit that performs a process of adding a plurality of vectors after the interpolation process;
A generation vector identification number is input, a specific processing method corresponding to the generation vector identification number is determined, each processing unit is instructed, and a number conversion correspondence map to be referred to when determining the specific processing content is held A processing decision / instruction unit that also has functions,
The speech encoding apparatus according to claim 1, wherein the speech encoding apparatus is configured using
前記過去の音源ベクトルと生成ベクトル特定番号とを入力して音源加算ベクトルを生成する音源加算ベクトル生成部と、
前記音源加算ベクトルを入力してLPC合成し、合成音を生成するLPC合成フィルタ部と、
を具備することを特徴とする音声復号化装置。 A sound source storage unit for storing past sound source vectors;
A sound source addition vector generation unit for generating a sound source addition vector by inputting the past sound source vector and the generation vector identification number;
An LPC synthesis filter unit that inputs the sound source addition vector and performs LPC synthesis to generate a synthesized sound;
A speech decoding apparatus comprising:
音源格納部の異なる位置から異なる長さの要素ベクトルを複数個読み出す処理を行う読み出し処理部と、
読み出し処理後の複数個のベクトルを逆順に並べ換える処理を行う逆順化処理部と、
逆順化処理後の複数個のベクトルにそれぞれ異なるゲインを乗じる処理を行う乗算処理部と、
乗算処理後の複数個のベクトルのベクトル長を短くする処理を行う間引き処理部と、
間引き処理後の複数個のベクトルのベクトル長を長くする処理を行う内挿処理部と、
内挿処理後の複数個のベクトルを加算する処理を行う加算処理部と、
生成ベクトル特定番号を入力し、前記生成ベクトル特定番号に応じた具体的な処理方法を決定し各処理部に指示し、その具体的処理内容を決定する際に参照する番号変換対応マップを保持する機能を併せ持つ処理決定・指示部と、
を用いて構成されることに特徴を有する請求項3記載の音声復号化装置。 The sound source addition vector generation unit
A read processing unit for performing a process of reading a plurality of element vectors having different lengths from different positions in the sound source storage unit;
A reverse order processing unit that performs processing for rearranging a plurality of vectors after read processing in reverse order;
A multiplication processing unit that performs a process of multiplying a plurality of vectors after the deacclimation process by different gains, and
A thinning-out processing unit that performs processing to shorten the vector length of a plurality of vectors after multiplication processing;
An interpolation processing unit that performs processing to increase the vector length of a plurality of vectors after the thinning processing;
An addition processing unit that performs a process of adding a plurality of vectors after the interpolation process;
A generation vector identification number is input, a specific processing method corresponding to the generation vector identification number is determined, each processing unit is instructed, and a number conversion correspondence map to be referred to when determining the specific processing content is held A processing decision / instruction unit that also has functions,
The speech decoding apparatus according to claim 3, wherein the speech decoding apparatus is configured using
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007080962A JP4525693B2 (en) | 2007-03-27 | 2007-03-27 | Speech coding apparatus and speech decoding apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007080962A JP4525693B2 (en) | 2007-03-27 | 2007-03-27 | Speech coding apparatus and speech decoding apparatus |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP29473896A Division JP4003240B2 (en) | 1996-11-07 | 1996-11-07 | Speech coding apparatus and speech decoding apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007226253A true JP2007226253A (en) | 2007-09-06 |
JP4525693B2 JP4525693B2 (en) | 2010-08-18 |
Family
ID=38548055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007080962A Expired - Lifetime JP4525693B2 (en) | 2007-03-27 | 2007-03-27 | Speech coding apparatus and speech decoding apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4525693B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116913266A (en) * | 2023-09-13 | 2023-10-20 | 腾讯科技(深圳)有限公司 | Voice detection method, device, equipment and storage medium |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04344699A (en) * | 1991-05-22 | 1992-12-01 | Nippon Telegr & Teleph Corp <Ntt> | Voice encoding and decoding method |
JPH0895599A (en) * | 1994-05-06 | 1996-04-12 | Nippon Telegr & Teleph Corp <Ntt> | Encoding method and decoding method of signal and encoder and decoder using the same |
JPH08146998A (en) * | 1994-11-22 | 1996-06-07 | Oki Electric Ind Co Ltd | Code excited linear prediction encoder and decoder |
JPH08179800A (en) * | 1994-12-26 | 1996-07-12 | Matsushita Electric Ind Co Ltd | Sound coding device |
-
2007
- 2007-03-27 JP JP2007080962A patent/JP4525693B2/en not_active Expired - Lifetime
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04344699A (en) * | 1991-05-22 | 1992-12-01 | Nippon Telegr & Teleph Corp <Ntt> | Voice encoding and decoding method |
JPH0895599A (en) * | 1994-05-06 | 1996-04-12 | Nippon Telegr & Teleph Corp <Ntt> | Encoding method and decoding method of signal and encoder and decoder using the same |
JPH08146998A (en) * | 1994-11-22 | 1996-06-07 | Oki Electric Ind Co Ltd | Code excited linear prediction encoder and decoder |
JPH08179800A (en) * | 1994-12-26 | 1996-07-12 | Matsushita Electric Ind Co Ltd | Sound coding device |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116913266A (en) * | 2023-09-13 | 2023-10-20 | 腾讯科技(深圳)有限公司 | Voice detection method, device, equipment and storage medium |
CN116913266B (en) * | 2023-09-13 | 2024-01-05 | 腾讯科技(深圳)有限公司 | Voice detection method, device, equipment and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP4525693B2 (en) | 2010-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100306814B1 (en) | Celp speech coder or decoder, and celp speech coding or decoding method | |
JP3042886B2 (en) | Vector quantizer method and apparatus | |
US5819213A (en) | Speech encoding and decoding with pitch filter range unrestricted by codebook range and preselecting, then increasing, search candidates from linear overlap codebooks | |
US5359696A (en) | Digital speech coder having improved sub-sample resolution long-term predictor | |
WO2001020595A1 (en) | Voice encoder/decoder | |
JPH08263099A (en) | Encoder | |
JP3268360B2 (en) | Digital speech coder with improved long-term predictor | |
US5659659A (en) | Speech compressor using trellis encoding and linear prediction | |
JP3343082B2 (en) | CELP speech encoder | |
JPH08272395A (en) | Voice encoding device | |
JPWO2006009075A1 (en) | Speech coding apparatus and speech coding method | |
JP5923517B2 (en) | Improved coding of improved stages in hierarchical encoders. | |
JP4003240B2 (en) | Speech coding apparatus and speech decoding apparatus | |
JP6644848B2 (en) | Vector quantization device, speech encoding device, vector quantization method, and speech encoding method | |
JP4525693B2 (en) | Speech coding apparatus and speech decoding apparatus | |
JP3905706B2 (en) | Speech coding apparatus, speech processing apparatus, and speech processing method | |
JP2003044099A (en) | Pitch cycle search range setting device and pitch cycle searching device | |
JP4525694B2 (en) | Speech encoding device | |
US6842732B2 (en) | Speech encoding and decoding method and electronic apparatus for synthesizing speech signals using excitation signals | |
JPWO2008072732A1 (en) | Speech coding apparatus and speech coding method | |
JP3283152B2 (en) | Speech parameter quantization device and vector quantization device | |
JPH06282298A (en) | Voice coding method | |
JP3490325B2 (en) | Audio signal encoding method and decoding method, and encoder and decoder thereof | |
JPH113098A (en) | Method and device of encoding speech | |
JP3874851B2 (en) | Speech encoding device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20091127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100412 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100511 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100524 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130611 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130611 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |