JP4003240B2 - Speech coding apparatus and speech decoding apparatus - Google Patents

Speech coding apparatus and speech decoding apparatus Download PDF

Info

Publication number
JP4003240B2
JP4003240B2 JP29473896A JP29473896A JP4003240B2 JP 4003240 B2 JP4003240 B2 JP 4003240B2 JP 29473896 A JP29473896 A JP 29473896A JP 29473896 A JP29473896 A JP 29473896A JP 4003240 B2 JP4003240 B2 JP 4003240B2
Authority
JP
Japan
Prior art keywords
vector
unit
lsp
sound source
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP29473896A
Other languages
Japanese (ja)
Other versions
JPH10143198A (en
Inventor
和敏 安永
利幸 森井
泰助 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP29473896A priority Critical patent/JP4003240B2/en
Priority to KR1020017001046A priority patent/KR100339168B1/en
Priority to CA2614625A priority patent/CA2614625C/en
Priority to CNB011324198A priority patent/CN1170267C/en
Priority to EP00121467A priority patent/EP1071082B1/en
Priority to EP00126851A priority patent/EP1094447B1/en
Priority to EP99126129A priority patent/EP0994462B1/en
Priority to DE69711715T priority patent/DE69711715T2/en
Priority to EP00121447A priority patent/EP1071078B1/en
Priority to EP00121458A priority patent/EP1074978B1/en
Priority to CA002355973A priority patent/CA2355973C/en
Priority to CNB011324236A priority patent/CN1178204C/en
Priority to DE69723324T priority patent/DE69723324T2/en
Priority to DE69712537T priority patent/DE69712537T2/en
Priority to US09/101,186 priority patent/US6453288B1/en
Priority to EP99126130A priority patent/EP0992981B1/en
Priority to EP00121466A priority patent/EP1071081B1/en
Priority to DE69715478T priority patent/DE69715478T2/en
Priority to CNB031603556A priority patent/CN1262994C/en
Priority to DE69712539T priority patent/DE69712539T2/en
Priority to PCT/JP1997/004033 priority patent/WO1998020483A1/en
Priority to EP02000123A priority patent/EP1217614A1/en
Priority to AU48842/97A priority patent/AU4884297A/en
Priority to CNA2005100714801A priority patent/CN1677489A/en
Priority to EP00121445A priority patent/EP1074977B1/en
Priority to CNB200310114349XA priority patent/CN1223994C/en
Priority to EP00121446A priority patent/EP1071077B1/en
Priority to CNB011324244A priority patent/CN1170269C/en
Priority to DE69712535T priority patent/DE69712535T2/en
Priority to CN2006100799202A priority patent/CN1845239B/en
Priority to CA002355978A priority patent/CA2355978C/en
Priority to DE69708693.3T priority patent/DE69708693C5/en
Priority to CNB011324201A priority patent/CN1169117C/en
Priority to KR1020017010774A priority patent/KR20030096444A/en
Priority to CNB97191558XA priority patent/CN1167047C/en
Priority to CA2551458A priority patent/CA2551458C/en
Priority to EP00126299A priority patent/EP1136985B1/en
Priority to CA002356049A priority patent/CA2356049C/en
Priority to EP00126875A priority patent/EP1085504B1/en
Priority to EP00121460A priority patent/EP1071079B1/en
Priority to CNB011324228A priority patent/CN1188833C/en
Priority to DE69708697T priority patent/DE69708697T2/en
Priority to EP97911460A priority patent/EP0883107B9/en
Priority to DE69710505T priority patent/DE69710505T2/en
Priority to DE69712538T priority patent/DE69712538T2/en
Priority to CN2011100659405A priority patent/CN102129862B/en
Priority to DE69710794T priority patent/DE69710794T2/en
Priority to CN2006101007075A priority patent/CN1877698B/en
Priority to KR10-2003-7012052A priority patent/KR20040000406A/en
Priority to DE69713633T priority patent/DE69713633T2/en
Priority to CA002356051A priority patent/CA2356051C/en
Priority to CA002242345A priority patent/CA2242345C/en
Priority to EP99126131A priority patent/EP0992982B1/en
Priority to KR1019980705215A priority patent/KR100306817B1/en
Priority to EP00121464A priority patent/EP1071080B1/en
Priority to EP01108523A priority patent/EP1132894B1/en
Priority to KR1020017001044A priority patent/KR100326777B1/en
Priority to DE69708696T priority patent/DE69708696T2/en
Priority to DE69721595T priority patent/DE69721595T2/en
Priority to DE69712928T priority patent/DE69712928T2/en
Priority to CNB01132421XA priority patent/CN1170268C/en
Priority to DE69712927T priority patent/DE69712927T2/en
Priority to CA2483280A priority patent/CA2483280C/en
Priority to CA002355975A priority patent/CA2355975C/en
Priority to EP99126132A priority patent/EP0991054B1/en
Priority to CA002356041A priority patent/CA2356041C/en
Priority to DE69730316T priority patent/DE69730316T2/en
Publication of JPH10143198A publication Critical patent/JPH10143198A/en
Priority to HK04107704A priority patent/HK1064788A1/en
Priority to HK02103542A priority patent/HK1041967A1/en
Priority to HK02103546.1A priority patent/HK1041971B/en
Priority to HK07101568.3A priority patent/HK1096761A1/en
Priority to HK02103545.2A priority patent/HK1041970B/en
Priority to HK02103543A priority patent/HK1041968A1/en
Priority to HK02103541A priority patent/HK1041966A1/en
Priority to HK04107703A priority patent/HK1064787A1/en
Priority to HK02103544A priority patent/HK1041969A1/en
Priority to HK99102382A priority patent/HK1017472A1/en
Priority to US09/440,083 priority patent/US6421639B1/en
Priority to US09/440,199 priority patent/US6345247B1/en
Priority to US09/440,093 priority patent/US6910008B1/en
Priority to US09/440,092 priority patent/US6330535B1/en
Priority to US09/440,087 priority patent/US6330534B1/en
Priority to KR1020017001038A priority patent/KR100306814B1/en
Priority to KR1020017001040A priority patent/KR100306816B1/en
Priority to KR1020017001039A priority patent/KR100306815B1/en
Priority to KR1020017001045A priority patent/KR100304391B1/en
Priority to US09/843,939 priority patent/US6947889B2/en
Priority to US09/843,877 priority patent/US6799160B2/en
Priority to US09/843,938 priority patent/US6772115B2/en
Priority to US09/849,398 priority patent/US7289952B2/en
Priority to US09/855,708 priority patent/US6757650B2/en
Priority to US10/036,451 priority patent/US20020099540A1/en
Priority to US11/126,171 priority patent/US7587316B2/en
Priority to US11/421,932 priority patent/US7398205B2/en
Priority to US11/508,852 priority patent/US20070100613A1/en
Priority to HK07103753.4A priority patent/HK1097945A1/en
Application granted granted Critical
Publication of JP4003240B2 publication Critical patent/JP4003240B2/en
Priority to US12/134,256 priority patent/US7809557B2/en
Priority to US12/198,734 priority patent/US20090012781A1/en
Priority to US12/781,049 priority patent/US8036887B2/en
Priority to US12/870,122 priority patent/US8086450B2/en
Priority to US13/302,677 priority patent/US8370137B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、少ないメモリ量かつ低ビットレートかつ高品質に音声信号を符号化/復号化するための音声符号化装置/復号化装置に関する。
【0002】
【従来の技術】
ディジタル携帯電話等の移動体通信の分野においては、加入者の増加に対処するため、低ビットレートの音声の圧縮符号化法が求められている。日本国内では、VSELP およびPSI−CELPという音声符号化方式が、フルレートおよびハーフレートのディジタル携帯電話の音声符号化標準方式として、それぞれ採用・実用化されている。これらの方式はいずれもCELP(Code Excited Linear Prediction: ”High Quality Speech at Low Bit Rate” M.R Schroeder Proc.ICASSP’85 pp.937−940に記載)という方式を改良したものである。CELP型の音声符号化装置は、音声情報を音源情報と声道情報とに分離して符号化する方式で、音源情報については符号帳に格納された複数のコードベクトルのインデクスによって符号化し、声道情報についてはLPC(線形予測係数)を符号化するということと、音源情報符号化の際には声道情報を加味して入力音声と比較を行う方法(A−b−S: Analysis by Synthesis)を採用していることに特徴を有している。なおCELPでは一般に、入力音声をある時間間隔で区間(フレームと呼ばれる)ごとに分けてLPC分析を行い、フレームをさらに細かく分けた区間(サブフレームと呼ばれる)ごとに適応符号帳/固定符号帳と確率的符号帳の音源探索が行われる。
【0003】
ここではまず、日本国内のハーフレートディジタル携帯電話における音声符号化/復号化標準方式であるPSI−CELP(「ピッチ同期雑音励振源をもつCELP符号化(PSI−CELP)」,三木聡,守谷健弘,間野一則,大室仲,電子情報通信学会論文誌 A,Vol.J77−A,No.3,pp.314−324に記載)をベースに開発したCELP型音声符号化装置の機能ブロック図(図11)を用いて、CELP型の音声符号化装置について詳しく説明する。
【0004】
図11において、ディジタルの入力音声データ110は、フレーム単位(フレーム長Nf=104)でバッファ111へ供給される。この時、バッファ111内の古いデータは、供給される新しいデータによって更新されることになる。フレームパワ量子化・復号部112は、まず、バッファ111から長さNf(=104)の処理フレームs(i)(0≦i≦Nf−1)を読み出し、その処理フレーム内サンプルの平均パワampを(数1)により求める。
【0005】
【数1】

Figure 0004003240
【0006】
求めた処理フレーム内サンプルの平均パワampを(数2)により対数変換値amplogに変換する。
【0007】
【数2】
Figure 0004003240
【0008】
求めたamplogをパワ量子化テーブル格納部113に格納された(表1)に示すような10wordsのスカラー量子化用テーブルCpowを用いてスカラー量子化することで4bitsのパワインデクスIpowを得、得られたパワインデクスIpowから復号化フレームパワspowを求め、パワインデクスIpowと復号化フレームパワspowをパラメータ符号化部141へ出力する。パワ量子化テーブル格納部113は、16wordsのパワスカラー量子化テーブル(表1)を格納していて、このテーブルは、フレームパワ量子化・復号部112が処理フレーム内サンプルの平均パワの対数変換値をスカラー量子化する時に参照される。
【0009】
【表1】
Figure 0004003240
【0010】
LPC分析部114は、まず、バッファ111から分析区間長Nw(=256)の分析区間データを読み出し、読み出した分析区間データに窓長Nw(=256)のハミング窓Wh256を乗じてハミング窓掛け済み分析区間データを得、得られたハミング窓掛け済み分析区間データの自己相関関数を予測次数Np(=10)次まで求める。求めた自己相関関数にラグ窓格納部115に格納した10wordsのラグ窓テーブル(表2)を乗じてラグ窓掛け済み自己相関関数を得、得られたラグ窓掛け済み自己相関関数に対して線形予測分析を行うことでLPCパラメータα(i)(1≦i≦Np)を算出してピッチ予備選択部118に出力する。
【0011】
【表2】
Figure 0004003240
【0012】
次に、求めたLPCパラメータα(i)をLSP(線スペクトル対)ω(i)(1≦i≦Np)に変換してLSP量子化・復号化部116に出力する。ラグ窓格納部115は、LPC分析部が参照するラグ窓テーブルを格納している。
【0013】
LSP量子化・復号化部116は、まず、LSP量子化テーブル格納部117に格納したLSPのベクトル量子化用テーブルを参照して、LPC分析部114から受けたLSPをベクトル量子化して最適インデクスを選び、選んだインデクスをLSP符号Ilspとしてパラメータ符号化部141へ出力する。次に、LSP量子化テーブル格納部117からLSP符号に対応するセントロイドを復号化LSPωq(i)(1≦i≦Np)として読み出し、読み出した復号化LSPをLSP補間部121へ出力する。さらに、復号化LSPをLPCに変換することで復号化LPCαq(i)(1≦i≦Np)を得、得られた復号化LPCをスペクトル重み付けフィルタ係数算出部122および聴感重み付けLPC合成フィルタ係数算出部124へ出力する。LSP量子化テーブル格納部117は、LSP量子化・復号化部116がLSPをベクトル量子化する時に参照するLSPベクトル量子化テーブルを格納している。
【0014】
ピッチ予備選択部118は、まず、バッファ111から読み出した処理フレームデータs(i)(0≦i≦Nf−1)に対し、LPC分析部114より受けたLPCα(i)(1≦i≦Np)によって構成した線形予測逆フィルタリングを施し、線形予測残差信号res(i)(0≦i≦Nf−1)を得、得られた線形予測残差信号res(i)のパワを計算し、計算した残差信号のパワを処理サブフレームの音声サンプルのパワで正規化した値である正規化予測残差パワresidを求めてパラメータ符号化部141へ出力する。次に、線形予測残差信号res(i)に長さNw(=256)のハミング窓を乗じてハミング窓掛け済み線形予測残差信号resw(i)(0≦i≦Nw−1)を生成し、生成したresw(i)の自己相関関数φint(i)をLmin−2≦i≦Lmax+2(ただし、Lminは長期予測係数の最短分析区間で16、Lmaxは長期予測係数の最長分析区間で128とする)の範囲で求める。求めた自己相関関数φint(i)にポリフェーズ係数格納部119に格納された28wordsのポリフェーズフィルタの係数Cppf(表3)を畳み込んで、整数ラグintにおける自己相関φint(i)、整数ラグintより−1/4ずれた分数位置における自己相関φdq(i)、整数ラグintより+1/4ずれた分数位置における自己相関φaq(i)、整数ラグintより+1/2ずれた分数位置における自己相関φah(i)をそれぞれ求める。
【0015】
【表3】
Figure 0004003240
【0016】
さらに、Lmin−2≦i≦Lmax+2の範囲内にある引数iそれぞれについてφint(i)、φdq(i)、φaq(i)、φah(i)の中から最大のものをφmax(i)に代入する、(数3)の処理を行うことで(Lmax−Lmin+1)個のφmax(i)を求める。
【0017】
【数3】
Figure 0004003240
【0018】
求めた(Lmax−Lmin+1)個のφmax(i)のから、値が大きいものを上位から順に6個選び出してピッチ候補psel(i)(0≦i≦5)として保存し、線形予測残差信号res(i)とピッチ第一候補psel(0)をピッチ強調フィルタ係数算出部120へ、psel(i)(0≦i≦5)を適応ベクトル生成部129へ出力する。
【0019】
ポリフェーズ係数格納部119は、ピッチ予備選択部118が線形予測残差信号の自己相関を分数ラグ精度で求める時、および、適応ベクトル生成部129が適応ベクトルを分数精度で生成する時に参照するポリフェーズフィルタの係数を格納している。
【0020】
ピッチ強調フィルタ係数算出部120は、ピッチ予備選択部118で求めた線形予測残差res(i)とピッチ第一候補psel(0)から3次のピッチ予測係数cov(i)(0≦i≦2)を求める。求めたピッチ予測係数cov(i)(0≦i≦2)を用いた(数4)により、ピッチ強調フィルタQ(z)のインパルス応答を求めて、スペクトル重み付けフィルタ係数算出部122および聴感重み付けフィルタ係数算出部123へ出力する。
【0021】
【数4】
Figure 0004003240
【0022】
LSP補間部121は、まず、LSP量子化・復号化部116において求めた現処理フレームに対する復号化LSPωq(i)と以前に求め保持しておいた前処理フレームの復号化LSPωqp(i)を用いた(数5)により、復号化補間LSPωintp(n,i)(1≦i≦Np)をサブフレーム毎に求める。
【0023】
【数5】
Figure 0004003240
【0024】
求めたωintp(n,i)をLPCに変換することで復号化補間LPCαq(n,i)(1≦i≦Np)を得、得られた復号化補間LPCαq(n,i)(1≦i≦Np)をスペクトル重み付けフィルタ係数算出部122および聴感重み付けLPC合成フィルタ係数算出部124に出力する。
【0025】
スペクトル重み付けフィルタ係数算出部122は、(数6)のMA型スペクトル重み付けフィルタI(z)を構成し、そのインパルス応答を聴感重み付けフィルタ係数算出部123へ出力する。
【0026】
【数6】
Figure 0004003240
【0027】
ただし、(数6)中のインパルス応答αfir(i)(1≦i≦Nfir)は、(数7)で与えられるARMA型スペクトル強調フィルタG(z)のインパルス応答をNfir(=11)項までで打ち切ったものである。
【0028】
【数7】
Figure 0004003240
【0029】
聴感重み付けフィルタ係数算出部123は、まず、スペクトル重み付けフィルタ係数算出部122から受けたスペクトル重み付けフィルタI(z)のインパルス応答とピッチ強調フィルタ係数算出部120から受けたピッチ強調フィルタQ(z)のインパルス応答を畳み込んだ結果をインパルス応答として持つ聴感重み付けフィルタW(z)を構成し、構成した聴感重み付けフィルタW(z)のインパルス応答を聴感重み付けLPC合成フィルタ係数算出部124および聴感重み付け部125へ出力する。
【0030】
聴感重み付けLPC合成フィルタ係数算出部124は、LSP補間部121から受けた復号化補間LPCαq(n,i)と聴感重み付けフィルタ係数算出部123から受けた聴感重み付けフィルタW(z)によって、聴感重み付けLPC合成フィルタH(z)を(数8)によって構成する。
【0031】
【数8】
Figure 0004003240
【0032】
構成した聴感重み付きLPC合成フィルタH(z)の係数を、ターゲット生成部A126、聴感重み付けLPC逆順合成部A127、聴感重み付けLPC合成部A131、聴感重み付けLPC逆順合成部B136および聴感重み付けLPC合成部B139へ出力する。
【0033】
聴感重み付け部125は、バッファ111から読み出したサブフレーム信号をゼロ状態の聴感重み付きLPC合成フィルタH(z)に入力し、その出力を聴感重み付き残差spw(i)(0≦i≦Ns−1)としてターゲット生成部A126へ出力する。
【0034】
ターゲット生成部A126は、聴感重み付け部125において求めた聴感重み付き残差spw(i)(0≦i≦Ns−1)から、聴感重み付けLPC合成フィルタ係数算出部124において求めた聴感重み付きLPC合成フィルタH(z)にゼロ系列を入力した時の出力であるゼロ入力応答Zres(i)(0≦i≦Ns−1)を減算し、減算結果を音源選択用のターゲットベクトルr(i)(0≦i≦Ns−1)として聴感重み付けLPC逆順合成部A127およびターゲット生成部B135へ出力する。
【0035】
聴感重み付けLPC逆順合成部A127は、ターゲット生成部A126から受けたターゲットベクトルr(i)(0≦i≦Ns−1)を時間逆順に並べ換え、並べ換えて得られたベクトルを初期状態がゼロの聴感重み付けLPC合成フィルタH(z)に入力し、その出力を再度時間逆順に並べ換えることでターゲットベクトルの時間逆合成ベクトルrh(k)(0≦i≦Ns−1)を得て比較部A132に出力する。
【0036】
適応符号帳128は、適応ベクトル生成部129が適応ベクトルを生成する際に参照する過去の駆動音源を格納している。適応ベクトル生成部129は、ピッチ予備選択部118から受けた6個のピッチ候補psel(j)(0≦j≦5)をもとに、Nac個の適応ベクトルPacb(i,k)(0≦i≦Nac−1,0≦k≦Ns−1,6≦Nac≦24)を生成して適応/固定選択部130へ出力する。具体的には、(表4)に示すように、16≦psel(j)≦44の場合には、一つの整数ラグ位置あたり4種類の分数ラグ位置について適応ベクトルを生成し、45≦psel(j)≦64の場合には、一つの整数ラグ位置あたり2種類の分数ラグ位置について適応ベクトルを生成し、65≦psel(j)≦128の場合には、整数ラグ位置に対して適応ベクトルを生成する。これより、psel(j)(0≦j≦5)の値によって適応ベクトルの候補数Nacは最少で6候補、最多で24候補になる。
【0037】
【表4】
Figure 0004003240
【0038】
なお、分数精度の適応ベクトルを生成する際には、適応符号帳128から整数精度で読み出した過去の音源ベクトルに、ポリフェーズ係数格納部119に格納されているポリフェーズフィルタの係数を畳み込む補間処理により行っている。
【0039】
ここで、lagf(i)の値に対応する補間とは、lagf(i)=0の場合は整数ラグ位置、lagf(i)=1の場合は整数ラグ位置から−1/2ずれた分数ラグ位置、lagf(i)=2の場合は整数ラグ位置より+1/4ずれた分数ラグ位置、lagf(i)=3の場合は整数ラグ位置より−1/4ずれた分数ラグ位置に対応した補間を行うことである。
【0040】
適応/固定選択部130は、まず、適応ベクトル生成部が生成したNac(6〜24)候補の適応ベクトルを受け、聴感重み付けLPC合成部A131および比較部A132へ出力する。
【0041】
比較部A132は、まず始めに、適応ベクトル生成部129が生成した適応ベクトルPacb(i,k)(0≦i≦Nac−1,0≦k≦Ns−1,6≦Nac≦24)をNac(6〜24)候補からNacb(=4)候補に予備選択するため、聴感重み付けLPC逆順合成部A127より受けたターゲットベクトルの時間逆合成ベクトルrh(k)(0≦k≦Ns−1)と適応ベクトルPacb(i,k)との内積prac(i)を(数9)により求める。
【0042】
【数9】
Figure 0004003240
【0043】
求めた内積prac(i)を比較して、その値が大きくなる時のインデクスおよびそのインデクスを引数とした時の内積を上位Nacb(=4)番目まで選択し、適応ベクトル予備選択後インデクスapsel(j)(0≦j≦Nacb−1)および適応ベクトル予備選択後基準値prac(apsel(j))としてそれぞれ保存していき、適応ベクトル予備選択後インデクスapsel(j)(0≦j≦Nacb−1)を適応/固定選択部130へ出力する。
【0044】
聴感重み付けLPC合成部A131は、適応ベクトル生成部129において生成され適応/固定選択部130を通過した予備選択後適応ベクトルPacb(apsel(j),k)に対して聴感重み付けLPC合成を施して合成適応ベクトルSYNacb(apsel(j),k)を生成し、比較部A132へ出力する。比較部A132は、次に、比較部A132自身において予備選択したNacb(=4)個の予備選択後適応ベクトルPacb(apsel(j),k)を本選択するために、適応ベクトル本選択基準値sacbr(j)を(数10)により求める。
【0045】
【数10】
Figure 0004003240
【0046】
(数10)の値が大きくなる時のインデクスおよびそのインデクスを引数とした時の(数10)の値をそれぞれ、適応ベクトル本選択後インデクスASELおよび適応ベクトル本選択後基準値sacbr(ASEL)として適応/固定選択部130へ出力する。
【0047】
固定符号帳133は、固定ベクトル読み出し部134が読み出すベクトルをNfc(=16)候補格納している。比較部A132は、ここで、固定ベクトル読み出し部134が読み出した固定ベクトルPfcb(i,k)(0≦i≦Nfc−1,0≦k≦Ns−1)を、Nfc(=16)候補からNfcb(=2)候補に予備選択するため、聴感重み付けLPC逆順合成部A127より受けたターゲットベクトルの時間逆合成ベクトルrh(k)(0≦k≦Ns−1)と固定ベクトルPfcb(i,k)との内積の絶対値|prfc(i)|を(数11)により求める。
【0048】
【数11】
Figure 0004003240
【0049】
(数11)の値|prac(i)|を比較して、その値が大きくなる時のインデクスおよびそのインデクスを引数とした時の内積の絶対値を上位Nfcb(=2)番目まで選択し、固定ベクトル予備選択後インデクスfpsel(j)(0≦j≦Nfcb−1)および固定ベクトル予備選択後基準値|prfc(fpsel(j))|としてそれぞれ保存していき、固定ベクトル予備選択後インデクスfpsel(j)(0≦j≦Nfcb−1)を適応/固定選択部130へ出力する。
【0050】
聴感重み付けLPC合成部A131は、固定ベクトル読み出し部134において読み出され適応/固定選択部130を通過した予備選択後固定ベクトルPfcb(fpsel(j),k)に対して聴感重み付けLPC合成を施して合成固定ベクトルSYNfcb(fpsel(j),k)を生成し、比較部A132へ出力する。
【0051】
比較部A132は、さらに、比較部A132自身において予備選択したNfcb(=2)個の予備選択後固定ベクトルPfcb(fpsel(j),k)から最適な固定ベクトルを本選択するために、固定ベクトル本選択基準値sfcbr(j)を(数12)により求める。
【0052】
【数12】
Figure 0004003240
【0053】
(数12)の値が大きくなる時のインデクスおよびそのインデクスを引数とした時の(数12)の値をそれぞれ、固定ベクトル本選択後インデクスFSELおよび固定ベクトル本選択後基準値sacbr(FSEL)として適応/固定選択部130へ出力する。
【0054】
適応/固定選択部130は、比較部A132より受けたprac(ASEL)、sacbr(ASEL)、|prfc(FSEL)|およびsfcbr(FSEL)の大小および正負関係により((数13)に記載)、本選択後適応ベクトルと本選択後固定ベクトルのどちらか一方を適応/固定ベクトルAF(k)(0≦k≦Ns−1)として選択する。
【0055】
【数13】
Figure 0004003240
【0056】
選択した適応/固定ベクトルAF(k)を聴感重み付けLPC合成フィルタ部A131に出力し、選択した適応/固定ベクトルAF(k)を生成した番号を表すインデクスを適応/固定インデクスAFSELとしてパラメータ符号化部141へ出力する。なおここでは、適応ベクトルと固定ベクトルの総ベクトル数が255個になるように設計しているので(表4参照)、適応/固定インデクスAFSELは8bits符号になっている。
【0057】
聴感重み付きLPC合成フィルタ部A131は、適応/固定選択部130において選択された適応/固定ベクトルAF(k)に対して聴感重み付けLPC合成フィルタリングを施して合成適応/固定ベクトルSYNaf(k)(0≦k≦Ns−1)を生成し、比較部A132へ出力する。
【0058】
比較部A132は、ここで、まず、聴感重み付けLPC合成部A131より受けた合成適応/固定ベクトルSYNaf(k)(0≦k≦Ns−1)のパワpowpを(数14)により求める。
【0059】
【数14】
Figure 0004003240
【0060】
次に、ターゲット生成部A126から受けたターゲットベクトルと合成適応/固定ベクトルSYNaf(k)の内積prを(数15)により求める。
【0061】
【数15】
Figure 0004003240
【0062】
さらに、適応/固定選択部130より受けた適応/固定ベクトルAF(k)を適応符号帳更新部143へ出力し、AF(k)のパワPOWafを計算し、合成適応/固定ベクトルSYNaf(k)とPOWafをパラメータ符号化部141へ出力し、powpとprとr(k)とrh(k)を比較部B140へ出力する。
【0063】
ターゲット生成部B135は、ターゲット生成部A126より受けた音源選択用のターゲットベクトルr(i)(0≦i≦Ns−1)から、比較部A132より受けた合成適応/固定ベクトルSYNaf(k)(0≦k≦Ns−1)を減算して新ターゲットベクトルを生成し、生成した新ターゲットベクトルを聴感重み付けLPC逆順合成部B136へ出力する。
【0064】
聴感重み付けLPC逆順合成部B136は、ターゲット生成部B135において生成した新ターゲットベクトルを時間逆順に並べ換え、並べ換えたベクトルをゼロ状態の聴感重み付けLPC合成フィルタに入力し、その出力ベクトルを再度時間逆順に並べ換えることで新ターゲットベクトルの時間逆合成ベクトルph(k)(0≦k≦Ns−1)を生成して比較部B140へ出力する。
【0065】
確率的符号帳137は、確率的ベクトル読み出し部138が参照する1段目確率的ベクトルと2段目確率的ベクトルをそれぞれNst(=64)本ずつ格納した1段目符号帳と2段目符号帳によって構成されている。確率的ベクトル読み出し部138は、まず、確率的符号帳137内の1段目符号帳から1段目確率的ベクトルPstb1(i1,k)(0≦i1≦Nst−1,0≦k≦Ns−1)を読み出して聴感重み付けLPC合成部B139および比較部B140へ出力する。次に、確率的符号帳137内の2段目符号帳から2段目確率的ベクトルPstb2(i2,k)(0≦i2≦Nst−1,0≦k≦Ns−1)を読み出して聴感重み付けLPC合成部B139および比較部B140へ出力する。
【0066】
比較部B140は、まず始めに、確率的ベクトル読み出し部138が読み出した1段目確率的ベクトルPstb1(i1,k)(0≦i≦Nst−1,0≦k≦Ns−1)をNst(=64)候補からNstb(=6)候補に予備選択するため、1段目確率的ベクトル予備選択基準値cr(i1)(0≦i1≦Nstb1−1)を(数16)により求める。
【0067】
【数16】
Figure 0004003240
【0068】
求めたcr(i1)の値を比較して、その値が大きくなる時のインデクスおよびそのインデクスを引数とした時の(数16)の値を上位Nstb(=6)番目まで選択し、1段目確率的ベクトル予備選択後インデクスs1psel(j1)(0≦j1≦Nstb−1)および予備選択後1段目確率的ベクトルPstb1(s1psel(j1),k)(0≦j1≦Nstb−1,0≦k≦Ns−1)としてそれぞれ保存していく。次に、2段目確率的ベクトルについても1段目と同様の処理を行い2段目確率的ベクトル予備選択後インデクスs2psel(j2)(0≦j2≦Nstb−1)および予備選択後2段目確率的ベクトルPstb2(s2psel(j2),k)(0≦j2≦Nstb−1,0≦k≦Ns−1)としてそれぞれ保存していく。
【0069】
聴感重み付けLPC合成部B139は、まず、確率的ベクトル読み出し部138において読み出された予備選択後1段目確率的ベクトルPstb1(s1psel(j1),k)に対して聴感重み付けLPC合成を施して合成1段目確率的ベクトルSYNstb1(s1psel(j1),k)を生成して比較部B140へ出力する。次に、確率的ベクトル読み出し部138において読み出された予備選択後2段目確率的ベクトルPstb2(s2psel(j2),k)に対して聴感重み付けLPC合成を施して合成2段目確率的ベクトルSYNstb2(s2psel(j2),k)を生成して比較部B140へ出力する。
【0070】
比較部B140は、比較部B140自身において予備選択した予備選択後1段目確率的ベクトルと予備選択後2段目確率的ベクトルの本選択を行うために、聴感重み付けLPC合成部B139において計算した合成1段目確率的ベクトルSYNstb1(s1psel(j1),k)に対して(数17)の計算を行う。
【0071】
【数17】
Figure 0004003240
【0072】
直交化合成1段目確率的ベクトルSYNOstb1(s1psel(j1),k)を求め、合成2段目確率的ベクトルSYNstb2(s2psel(j2),k)に対しても同様の計算を行って直交化合成2段目確率的ベクトルSYNOstb2(s2psel(j2),k)を求め、1段目確率的ベクトル本選択基準値s1crと2段目確率的ベクトル本選択基準値s2crをそれぞれ(数18)と(数19)を用いて、(s1psel(j1),s2psel(j2))の全組み合わせ(36通り)についてクローズドループで計算する。
【0073】
【数18】
Figure 0004003240
【0074】
【数19】
Figure 0004003240
【0075】
ただし、(数18)中のcs1crおよび(数19)中のcs2crは、それぞれ(数20)および(数21)によりあらかじめ計算しておいた定数である。
【0076】
【数20】
Figure 0004003240
【0077】
【数21】
Figure 0004003240
【0078】
比較部B140は、さらに、s1crの最大値をMAXs1crに代入し、s2crの最大値をMAXs2crに代入し、MAXs1crとMAXs2crの大きい方をscrとし、scrが得られた時に参照していたs1psel(j1)の値を1段目確率的ベクトル本選択後インデクスSSEL1としてパラメータ符号化部141へ出力する。SSEL1に対応した確率ベクトルを本選択後1段目確率的ベクトルPstb1(SSEL1,k)として保存し、Pstb1(SSEL1,k)に対応した本選択後合成1段目確率的ベクトルSYNstb1(SSEL1,k)(0≦k≦Ns−1)を求めてパラメータ符号化部141へ出力する。
【0079】
同様に、scrが得られた時に参照していたs2psel(j2)の値を2段目確率的ベクトル本選択後インデクスSSEL2としてパラメータ符号化部141へ出力し、SSEL2に対応した確率ベクトルを本選択後2段目確率的ベクトルPstb2(SSEL2,k)として保存し、Pstb2(SSEL2,k)に対応した本選択後合成2段目確率的ベクトルSYNstb2(SSEL2,k)(0≦k≦Ns−1)を求めてパラメータ符号化部141へ出力する。
【0080】
比較部B140は、さらに、Pstb1(SSEL1,k)とPstb2(SSEL2,k)それぞれに乗じる符号S1とS2を(数22)によって求め、求めたS1とS2の正負情報をゲイン正負インデクスIs1s2(2bits情報)としてパラメータ符号化部141へ出力する。
【0081】
【数22】
Figure 0004003240
【0082】
(数23)によって確率的ベクトルST(k)(0≦k≦Ns−1)を生成して適応符号帳更新部143へ出力するとともに、そのパワPOWsfを求めてパラメータ符号化部141へ出力する。
【0083】
【数23】
Figure 0004003240
【0084】
(数24)によって合成確率的ベクトルSYNst(k)(0≦k≦Ns−1)を生成してパラメータ符号化部141へ出力する。
【0085】
【数24】
Figure 0004003240
【0086】
パラメータ符号化部141は、まず、フレームパワ量子化・復号部112において求めた復号化フレームパワspow、ピッチ予備選択部118において求めた正規化予測残差パワresidを用いた(数25)によりサブフレーム推定残差パワrsを求める。
【0087】
【数25】
Figure 0004003240
【0088】
求めたサブフレーム推定残差パワrs、比較部A132において計算した適応/固定ベクトルのパワPOWaf、比較部B140において求めた確率的ベクトルのパワPOWst、(表5)に示すゲイン量子化テーブル格納部142に格納された256wordsのゲイン量子化用テーブル(CGaf[i],CGst[i])(0≦i≦127)などを用いて、(数26)により量子化ゲイン選択基準値STDgを求める。
【0089】
【表5】
Figure 0004003240
【0090】
【数26】
Figure 0004003240
【0091】
求めた量子化ゲイン選択基準値STDgが最小となる時のインデクスをゲイン量子化インデクスIgとして1つ選択し、選択したゲイン量子化インデクスIgをもとにゲイン量子化用テーブルから読み出した適応/固定ベクトル側選択後ゲインCGaf(Ig)、選択したゲイン量子化インデクスIgをもとにゲイン量子化用テーブルから読み出した確率的ベクトル側選択後ゲインCGst(Ig)、などを用いた(数27)により、AF(k)に実際に適用する適応/固定ベクトル側本ゲインGafおよびST(k)に実際に適用する確率的ベクトル側本ゲインGstを求めて適応符号帳更新部143へ出力する。
【0092】
【数27】
Figure 0004003240
【0093】
パラメータ符号化部141は、フレームパワ量子化・復号部112において求めたパワインデクスIpow、LSP量子化・復号化部116において求めたLSP符号Ilsp、適応/固定選択部130において求めた適応/固定インデクスAFSEL、比較部B140において求めた1段目確率的ベクトル本選択後インデクスSSEL1と2段目確率的ベクトル本選択後インデクスSSEL2とゲイン正負インデクスIs1s2、パラメータ符号化部141自身において求めたゲイン量子化インデクスIgをまとめて音声符号とし、まとめた音声符号を伝送部144へ出力する。
【0094】
適応符号帳更新部143は、比較部A132において求めた適応/固定ベクトルAF(k)と比較部B140において求めた確率的ベクトルST(k)に、パラメータ符号化部141で求めた適応/固定ベクトル側本ゲインGafと確率的ベクトル側本ゲインGstをそれぞれ乗じた後に加算する(数28)の処理を行って駆動音源ex(k)(0≦k≦Ns−1)を生成し、生成した駆動音源ex(k)(0≦k≦Ns−1)を適応符号帳128に出力する。
【0095】
【数28】
Figure 0004003240
【0096】
この時、適応符号帳128内の古い駆動音源は破棄され、適応符号帳更新部143より受けた新しい駆動音源ex(k)で更新されることになる。
【0097】
ここでは次に、日本国内のハーフレートディジタル携帯電話における音声符号化/復号化標準方式であるPSI−CELP開発した音声復号化装置(この復号化装置は、前述の符号化装置と対を成す装置である)の機能ブロック図(図12)を用いて、CELP型の音声復号化装置についてさらに詳しく説明する。
【0098】
図12において、パラメータ復号化部502は、図11に記載した従来のCELP型音声符号化装置から送られた音声符号(パワインデクスIpow、LSP符号Ilsp、適応/固定インデクスAFSEL、1段目確率的ベクトル本選択後インデクスSSEL1、2段目確率的ベクトル本選択後インデクスSSEL2、ゲイン量子化インデクスIg、ゲイン正負インデクスIs1s2)を伝送部501を通して獲得する。
【0099】
次に、パワ量子化テーブル格納部505に格納されたパワ量子化用テーブル(表1参照)からパワインデクスIpowの示すスカラー値を読み出し復号化フレームパワspowとしてパワ復元部517へ出力し、LSP量子化テーブル格納部504に格納されたLSP量子化用テーブルからLSP符号Ilspの示すベクトルを読み出し復号化LSPとしてLSP補間部506へ出力する。適応/固定インデクスAFSELを適応ベクトル生成部508と固定ベクトル読み出し部511と適応/固定選択部512へ出力し、1段目確率的ベクトル本選択後インデクスSSEL1と2段目確率的ベクトル本選択後インデクスSSEL2を確率的ベクトル読み出し部515へ出力する。ゲイン量子化テーブル格納部503に格納されたゲイン量子化用テーブル(表5参照)からゲイン量子化インデクスIgの示すベクトル(CAaf(Ig),CGst(Ig))を読み出し、符号化装置側と同様、(数27)によりAF(k)に実際に適用する適応/固定ベクトル側本ゲインGafおよびST(k)に実際に適用する確率的ベクトル側本ゲインGstを求め、求めた適応/固定ベクトル側本ゲインGafと確率的ベクトル側本ゲインGstをゲイン正負インデクスIs1s2とともに駆動音源生成部513へ出力する。
【0100】
LSP補間部506は、符号化装置と同じ方法で、パラメータ復号化部502より受けた復号化LSPから復号化補間LSPωintp(n,i)(1≦i≦Np)をサブフレーム毎に求め、求めたωintp(n,i)をLPCに変換することで復号化補間LPCを得、得られた復号化補間LPCをLPC合成フィルタ部516へ出力する。
【0101】
適応ベクトル生成部508は、パラメータ復号化部502より受けた適応/固定インデクスAFSELに基づき、適応符号帳507から読み出したベクトルにポリフェーズ係数格納部509に格納されたポリフェーズ係数(表3参照)の一部を畳みこんで分数ラグ精度の適応ベクトルを生成し、適応/固定選択部512へ出力する。固定ベクトル読み出し部511は、パラメータ復号化部502より受けた適応/固定インデクスAFSELに基づき、固定符号帳510から固定ベクトルを読み出して適応/固定選択部512へ出力する。
【0102】
適応/固定選択部512は、パラメータ復号化部502より受けた適応/固定インデクスAFSELに基づき、適応ベクトル生成部508から入力された適応ベクトルと固定ベクトル読み出し部511から入力された固定ベクトルのどちらか一方のベクトルを選択して適応/固定ベクトルAF(k)とし、選択した適応/固定ベクトルAF(k)を駆動音源生成部513へ出力する。確率的読み出し部は、パラメータ復号化部502より受けた1段目確率的ベクトル本選択後インデクスSSEL1と2段目確率的ベクトル本選択後インデクスSSEL2に基づき、確率的符号帳514から1段目確率的ベクトルと2段目確率的ベクトルをそれぞれ読み出し、読み出した1段目確率的ベクトルと2段目確率的ベクトルそれぞれにゲイン正負インデクスの1段目情報S1と2段目情報S2を乗じて確率的ベクトルをST(k)を生成し、生成した確率的ベクトルを駆動音源生成部513へ出力する。
【0103】
駆動音源生成部513は、適応/固定選択部512から受けた適応/固定ベクトルAF(k)と確率的ベクトル読み出し部515から受けた確率的ベクトルST(k)に、パラメータ復号化部502で求めた適応/固定ベクトル側本ゲインGafと確率的ベクトル側本ゲインGstをそれぞれ乗じ、ゲイン正負インデクスIs1s2に基づき加算もしくは減算して駆動音源ex(k)を得、得られた駆動音源をLPC合成フィルタ部516と適応符号帳507へ出力する。ここで、適応符号帳507内の古い駆動音源は、駆動音源生成部513から入力された新しい駆動音源で更新される。
【0104】
LPC合成フィルタ部516は、駆動音源生成部513で生成した駆動音源に対し、LSP補間部506より受けた復号化補間LPCで構成した合成フィルタを用いてLPC合成を行い、フィルタの出力をパワ復元部517へ出力する。パワ復元部517は、まず、LPC合成フィルタ部516で求めた駆動音源の合成ベクトルの平均パワを求め、次に、パラメータ復号化部502より受けた復号化パワspowを求めた平均パワで除算し、除算結果を駆動音源の合成ベクトルに乗じて合成音を生成し部位518へ出力する。
【0105】
図11に記載した音声符号化装置や図12に記載した音声復号化装置は、符号帳に格納ベクトルを音源とする音声分析および音声合成を行うものであり、符号化装置と復号化装置それぞれが同じ符号帳を保持しておく必要がある。また、符号帳内に格納しておく複数の代表ベクトルは、LBGアルゴリズム(”An Algorithm for Vector Quantizer Design,”YOSEPH LINDE,ANDRES BUZO,ROBERT M.GRAY,IEEE TRANSACTIONS ON COMMUNICATIONS,VOL.COM−28,NO.1,JANUARY 1980,pp.84−95)等によって作成するのが一般的である。
【0106】
【発明が解決しようとする課題】
この音声符号化装置/復号化装置においては、以下のような問題がある。
【0107】
(課題1) 確率的符号帳を備えることを特徴とする音声符号化装置/復号化装置においては、複数の確率的ベクトルをそのまま確率的符号帳(ROM)に格納しておく必要があるために、メモリ容量が大きくなってしまう。
【0108】
(課題2) 固定符号帳を備えることを特徴に有する音声符号化装置/復号化装置においては、複数の固定ベクトルをそのまま固定符号帳( ROM )に格納しておく必要があるため、メモリ容量が大きくなってしまう。
【0109】
(課題3) 線形予測分析して得られた音声の線形予測係数(LPC)の量子化は、一般にLPCを線スペクトル対(LSP)に変換した後に行われる。しかし、立ち上がり部など音声の特徴が大きく変化するフレーム付近ではLSPの量子化特性が不十分になることがあり、その結果、合成音に異音が含まれることがある。
【0110】
本発明は、メモリ容量が少なく、また、合成音に異音が含まれない音声符号化装置/復号化装置を提供することを目的とする。
【0111】
【課題を解決するための手段】
本発明は、課題1を解決するため、従来のCELP型音声符号化装置の固定ベクトル読み出し部および固定符号帳を、入力されるシードの値に応じて異なるベクトル系列を出力する発振器および複数個のシード(発振器の種)を格納するシード格納部にそれぞれ置き換える。これにより、固定ベクトルをそのまま固定符号帳(ROM)に格納しておく必要がなくなり、メモリ容量を大幅に削減できる。
【0112】
また、本発明は、課題2を解決するため、従来のCELP型音声符号化装置の確率的ベクトル読み出し部および確率的符号帳を、発振器およびシード格納部に置き換える。これにより、確率的ベクトルをそのまま確率的符号帳(ROM)に格納しておく必要がなくなり、メモリ容量を大幅に削減できる。
【0113】
また、本発明は、課題2を解決するため、従来のCELP型音声符号化装置の適応符号帳として、過去の音源ベクトルを格納する音源格納部を用い、さらに従来の確率的ベクトル読み出し部を、過去の音源ベクトルに変換を施して新たなベクトルを生成する音源加算ベクトル生成部に置き換え、音源加算ベクトル生成部において生成された音源ベクトルを確率的ベクトルとして用いる。これにより、確率的ベクトルを生成するために必要なROM情報がなくなるので、確率的符号帳133が不要となり、メモリ容量を大幅に削減できる。
【0114】
さらに、本発明は、課題3を解決するため、従来のCELP型の音声符号化装置内のLSP量子化・復号化部を、生成した複数の復号化LSPを比較し、最も異音が少なくなる復号化LSPをクローズドループで1つ選択し、選択した復号化LSPを処理フレームに対する復号化LSPとして新たに採用する機能を有するLSP量子化誤差比較部を備えたLSP量子化・符号化部に置き換える。これにより、生成した複数個の量子化対象LSPを全て量子化し、最も異音が少なくなるLSPを処理フレームのLSPとして選択して量子化・復号化するため、合成音の音質を向上することができる。
【0115】
【発明の実施の形態】
本発明は、CELP型の音声符号化装置及び音声復号化装置であって、発振の初期状態として用いる複数個のシードを格納するシード格納部と、前記シード格納部が格納するシードの値に応じて異なるベクトル系列を生成し音源ベクトルとして出力する発振器と、前記音源ベクトルを入力し且つLPC合成して合成音を出力するLPC合成フィルタ部と、を具備することを特徴とする音声符号化装置及び音声復号化装置であり、固定ベクトルをそのまま固定符号帳(ROM)に格納しておく必要がなくなるため、メモリ容量を大幅に削減するという作用を有する。
【0116】
ここで、前記発振器が、非線形発振器であっても、同様の作用を呈する。
【0117】
また、前記非線形発振器が、非線形ディジタルフィルタであっても、同様の作用を呈する。
【0118】
そして、前記非線形ディジタルフィルタは、状態変数にゲインを乗ずる乗算器を有し、且つ、前記シード格納部から前記状態変数の初期値を入力するとともに、極がZ平面における単位円外に存在するべく前記乗算器の係数を固定し、前記入力ベクトルがゼロ系列である再帰構造のディジタルフィルタであることが好適である。
【0119】
そして、前記非線形ディジタルフィルタの非線形特性が2の補数加算特性により与えら
れるものであっても、同様の作用を呈する。
【0125】
以下、本発明の実施の形態について、図1から図10を用いて説明する。
(実施の形態1)
図1は、本実施の形態による音声符号化装置/復号化装置の主要部のブロック図である。図1において、11はシード格納部、12は発振器、13はLPC合成フィルタ部であり、14はシード格納部11から出力されて発振器12に入力されるシード(発振の種)、15は発振器12から出力されたベクトル系列である音源ベクトル、16はLPC合成フィルタ部13から出力される合成音である。
【0126】
発振器12は、入力されるシードの値に応じて異なるベクトル系列を出力するもので、LPC合成フィルタ部13は、入力された音源ベクトル15をLPC合成して合成音16を出力する。
【0127】
本実施の形態は、図11に示す従来のCELP型音声符号化装置の固定ベクトル読み出し部134および固定符号帳133を、あるいは、図12に示す従来のCELP型音声復号化装置の固定ベクトル読み出し部511および固定符号帳510を、発振器12およびシード格納部11でそれぞれ置き換えたもので、固定ベクトルをそのまま固定符号帳(ROM)に格納しておく必要がなくなるため、メモリ容量を大幅に削減することができる。
【0128】
(実施の形態2)
図2は、本実施の形態による音声符号化装置/復号化装置の主要部のブロック図である。図2において、21はシード格納部、22は非線形発振器、23はLPC合成フィルタ部であり、24はシード格納部21から出力されて非線形発振器22に入力されるシード(発振の種)、25は非線形発振器22から出力されたベクトル系列である音源ベクトル、26はLPC合成フィルタ部23から出力される合成音である。
【0129】
非線形発振器22は、入力されるシードの値に応じて異なるベクトル系列を出力するもので、LPC合成フィルタ部23は、入力された音源ベクトル25をLPC合成して合成音26を出力する。
【0130】
本実施の形態は、図11に示す従来のCELP型音声符号化装置の固定ベクトル読み出し部134および固定符号帳133を、あるいは、図12に示す従来のCELP型音声復号化装置の固定ベクトル読み出し部511および固定符号帳510を、非線形発振器22およびシード格納部21でそれぞれ置き換えたもので、固定ベクトルをそのまま固定符号帳(ROM)に格納しておく必要がなくなるため、メモリ容量を大幅に削減することができる。
【0131】
(実施の形態3)
図3は、本実施の形態による音声符号化装置/復号化装置の主要部のブロック図である。図3において、31はシード格納部、32は非線形ディジタルフィルタ、33はLPC合成フィルタ部であり、34はシード格納部31から出力されて非線形ディジタルフィルタ32に入力されるシード(発振の種)、35は非線形ディジタルフィルタ32から出力されたベクトル系列である音源ベクトル、36はLPC合成フィルタ部33から出力される合成音である。
【0132】
非線形ディジタルフィルタ32は、入力されるシードの値に応じて異なるベクトル系列を出力するもので、LPC合成フィルタ部33は、入力された音源ベクトル25をLPC合成して合成音36を出力する。
【0133】
本実施の形態は、図11に示す従来のCELP型音声符号化装置の固定ベクトル読み出し部134および固定符号帳133を、あるいは、図12に示す従来のCELP型音声復号化装置の固定ベクトル読み出し部511および固定符号帳510を、非線形ディジタルフィルタ32およびシード格納部31でそれぞれ置き換えたもので、固定ベクトルをそのまま固定符号帳(ROM)に格納しておく必要がなくなるため、メモリ容量を大幅に削減することができる。
【0134】
(実施の形態4)
図4は、本実施の形態による非線形ディジタルフィルタのブロック図である。図4において、40は非線形ディジタルフィルタ、41は加算器、42〜43は状態変数1〜N、44〜45は乗算器1〜Nの係数、46はシード(発振の種)、47は入力ベクトル、48は音源ベクトルである。
【0135】
図4において、非線形ディジタルフィルタ40は、入力ベクトル47からゼロが入力される毎に、1サンプル(y(k))ずつ出力する作用を行うもので、非線形加算特性を有する加算器41、ディジタルフィルタの状態(y(k−1)〜y(k−N)の値)を保存する作用を有する状態変数1〜N(42〜43)、状態変数に保存された値にゲインを乗ずる作用を有する乗算器1〜N(44〜45)から構成されていて、乗算器1〜N(44〜45)はディジタルフィルタの極がZ平面における単位円外に存在するようにゲインの値が固定されていて、状態変数の初期値はシードによって設定される。
【0136】
本実施の形態は、非線形ディジタルフィルタとして、特に、極がZ平面における単位円外に存在するべく乗算器1〜Nの係数44〜45を固定すること、加算器41が非線形加算特性を有すること、状態変数1〜N(42〜43)の初期値となるシード46がシード格納部から与えられること、入力ベクトルがゼロ系列である再帰構造のディジタルフィルタを用いることに特徴を有し、図11に示す従来のCELP型音声符号化装置の固定ベクトル読み出し部134および固定符号帳133を、あるいは、図12に示す従来のCELP型音声復号化装置の固定ベクトル読み出し部511および固定符号帳510を、非線形ディジタルフィルタ40およびシード格納部でそれぞれ置き換えたもので、固定ベクトルをそのまま固定符号帳(ROM)に格納しておく必要がなくなるため、メモリ容量を大幅に削減することができる。
【0137】
なお、図5は、図4の非線形ディジタルフィルタ40の加算器41の特性の概念図であり、2の補数特性を有する加算器41の入出力関係を表した図である。加算器41は、まず、加算器41への入力値の総和である加算器入力和55を求め、次に、その入力に対する加算器出力56を算出するために用いる特性である。非線形ディジタルフィルタ40として、特に、構造を2次直接II型構造とし、加算器41の非線形加算特性を2の補数特性とすることを特徴とする非線形ディジタルフィルタ40を用い、さらにシード格納部が、特に、(表6)に記載した32wordsのシードベクトルを格納している。
【0138】
【表6】
Figure 0004003240
【0139】
(実施の形態5)
図6は、本実施の形態による音声符号化装置/復号化装置の主要部のブロック図である。図6において、61は音源格納部、62は音源加算ベクトル生成部、63はLPC合成フィルタ部であり、64は音源格納部61に格納された過去の音源ベクトル64、65は音源加算ベクトル生成部62から出力される音源ベクトル、66はLPC合成フィルタ部63から出力される合成音、67は音源加算ベクトル生成部に入力される生成ベクトル特定番号である。
【0140】
音源加算ベクトル生成部62は、過去の音源ベクトル64に、入力された生成ベクトル特定番号67の値によって異なる処理を行い、異なる音源加算ベクトルを生成し、LPC合成フィルタ部63は入力された音源ベクトル65をLPC合成して合成音66を出力する。
【0141】
本実施の形態は、図11に示す従来のCELP型音声符号化装置の確率的ベクトル読み出し部138および確率的符号帳120を、あるいは、図12に示す従来のCELP型音声復号化装置の確率的ベクトル読み出し部515および確率的符号帳514を、音源加算ベクトル生成部62および音源格納部61でそれぞれ置き換えたもので、確率的ベクトルをそのまま確率的符号帳(ROM)に格納しておく必要がなくなるため、メモリ容量を大幅に削減することができる。
【0142】
(実施の形態6)
図7は、本実施の形態による音源加算ベクトル生成部のブロック図である。図7において、68は音源格納部、69は音源加算ベクトル生成部、70は読み出し処理部、71は逆順化処理部、72は乗算処理部、73は間引き処理部、74は内挿処理部、75は加算処理部、76は処理決定・指示部、77は加算処理部75から出力される音源加算ベクトル、78は音源加算ベクトル77が音源加算ベクトル生成部69から出力された音源ベクトルである。
【0143】
音源加算ベクトル生成部69は、音源格納部68の異なる位置から異なる長さの要素ベクトルを複数個読み出す処理を行う読み出し処理部70と、読み出し処理後の複数個の要素ベクトルを逆順に並べ換える処理を行う逆順化処理部71と、逆順化処理後の複数個のベクトルにそれぞれ異なるゲインを乗じる処理を行う乗算処理部72と、乗算処理後の複数個のベクトルのベクトル長を短くする処理を行う間引き処理部73と、間引き処理後の複数個のベクトルのベクトル長を長くする処理を行う内挿処理部74と、内挿処理後の複数個のベクトルをたしあわせる処理を行う加算処理部75と、入力された生成ベクトル特定番号の値に応じた具体的な処理方法を決定し各処理部に指示する機能およびその具体的処理内容を決定する際に参照する番号変換対応マップ(表7)を保持する機能を併せ持つ処理決定・指示部76とによって構成される。
【0144】
【表7】
Figure 0004003240
【0145】
ここで、音源加算ベクトル生成部69について、さらに詳しく説明する。音源加算ベクトル生成部69は、読み出し処理部70、逆順化処理部71、乗算処理部72、間引き処理部73、内挿処理部74、加算処理部75のそれぞれの具体的処理方法を、入力された生成ベクトル特定番号79(7bitsのビット列で0から127の整数値をとる)と、番号変換対応マップ(表7参照)を比較して決定し、その具体的処理方法を各処理部へ出力する。
【0146】
読み出し処理部73は、まず、入力された生成ベクトル特定番号の下位の4ビット列(n1:0から15の整数値)に注目し、音源格納部68の端からn1の位置まで長さ100の要素ベクトル1(V1)を切り出す。次に、入力された生成ベクトル特定番号の下位の2ビット列と上位3ビット列を結合した5ビット列(n2:0から31の整数値)に注目し、音源格納部68の端からn2+14(14から45の整数値)の位置まで長さ78の要素ベクトル2(V2)を切り出す。さらに、入力された生成ベクトル特定番号の上位の5ビット列(n3:0から31の整数値)に注目し、音源格納部68の端からn3+46(46から77の整数値)の位置から長さNs(=52)の要素ベクトル3(V3)を切り出して、V1、V2、V3を逆順化処理部へ出力する処理を行う。
【0147】
逆順化処理部74は、生成ベクトル特定番号の最下位1ビットが’0’なら、V1とV2とV3を逆順に並べ変えたベクトルを新たにV1、V2、V3として乗算処理部72へ出力し、’1’ならV1とV2とV3をそのまま乗算処理部72へ出力する処理を行う。
【0148】
乗算処理部75は、生成ベクトル特定番号の上位7ビット目と上位6ビット目を結合した2ビット列に注目し、そのビット列が、’00’ならV2の振幅を−2倍し、’01’ならV3の振幅を−2倍し、’10’ならV1の振幅を−2倍し、’11’ならV2の振幅を2倍したベクトルを、新たなV1、V2、V3として間引き部76へ出力する。
【0149】
間引き処理部76は、入力された生成ベクトル特定番号の上位4ビット目と上位3ビット目を結合した2ビット列に注目し、そのビット列が、’00’ならV1、V2、V3から1サンプル置きに26サンプル取り出したベクトルを新たなV1、V2、V3として内挿処理部74へ出力し、’01’ならV1、V3からは1サンプル置きに、V2からは2サンプル置きに26サンプル取り出したベクトルを、新たなV1、V3、V2として内挿処理部74へ出力し、’10’ならV1からは3サンプル置きに、V2、V3からは1サンプル置きに26サンプル取り出したベクトルを新たなV1、V2、V3として内挿処理部77へ出力し、’11’ならV1からは3サンプル置きに、V2からは2サンプル置きに、V3からは1サンプル置きに26サンプル取り出したベクトルを新たなV1、V2、V3として内挿処理部77へ出力する。
【0150】
内挿処理部77は、生成ベクトル特定番号の上位3ビット目に注目し、その値が、’0’ならV1、V2、V3をそれぞれ長さNs(=52)のゼロベクトルの偶数番目サンプルに代入したベクトルを新たなV1、V2、V3として加算処理部75へ出力し、’1’ならV1、V2、V3をそれぞれ長さNs(=52)のゼロベクトルの奇数数番目サンプルに代入したベクトルを新たなV1、V2、V3として加算処理部75へ出力する。
【0151】
加算処理部75は、内挿処理部74より生成された3つのベクトル(V1,V2,3)を加算して音源加算ベクトル77を生成して出力する。
【0152】
本実施の形態は、図11に示す従来のCELP型音声符号化装置の確率的ベクトル読み出し部138および確率的符号帳120を、あるいは、図12に示す従来のCELP型音声復号化装置の確率的ベクトル読み出し部515および確率的符号帳514を、音源加算ベクトル生成部72および音源格納部71でそれぞれ置き換えたもので、確率的ベクトルをそのまま確率的符号帳(ROM)に格納しておく必要がなくなるため、メモリ容量を大幅に削減することができる。
【0153】
(実施の形態7)
図8は、本実施の形態による音声符号化装置/復号化装置の主要部のブロック図である。図8において、80はバッファ、81はLPC分析部、82は量子化対象LSP追加部、83はLSP量子化テーブル格納部、84はLSP量子化・復号化部、85はLSP量子化誤差比較部であり、86は量子化対象LSP追加部から出力される量子化対象LSP、87はLSP量子化・復号化部から出力される復号化LSPである。
【0154】
LPC分析部81は、バッファ80内の処理フレームに対して線形予測分析を行ってLPCを得、得たLPCを変換して量子化対象LSPを生成し、生成した量子化対象LSPを量子化対象LSP追加部へ出力する。
【0155】
量子化対象LSP追加部82は、LPC分析部81において処理フレームのLPCを変換することで直接的に得られた量子化対象LSP以外に、複数の量子化対象LSPを生成する。
【0156】
LSP量子化テーブル格納部83は、LSP量子化・復号化部84が参照する量子化テーブルを格納し、LSP量子化・復号化部84は、生成された量子化対象LSP86を量子化・復号化し、それぞれの復号化LSPを生成する。
【0157】
LSP量子化誤差比較部85は、生成した複数の復号化LSPを比較し、最も異音が少なくなる復号化LSPをクローズドループで1つ選択し、選択した復号化LSPを処理フレームに対する復号化LSPとして新たに採用するものである。
【0158】
本実施の形態により、LSPの量子化特性が不十分になった場合に生じる可能のある合成音中の異音を低減することができる。
【0159】
(実施の形態8)
図9は、本実施の形態による量子化対象LSP追加部のブロック図である。図9において、90はLPC分析部、91は量子化対象LSP追加部、92は現フレームLSP記憶部、93は先読み区間LSP記憶部、94は前フレームLSP記憶部、95は線形補間部、96はLSP量子化・復号化部、97はLSP量子化・復号化部96から出力される復号化LSPである。
【0160】
LPC分析部90は、バッファ内の先読み区間に対して線形予測分析を行って先読み区間に対するLPCを得、得られたLPCを変換して先読み区間に対するLSPを生成して量子化対象LSP追加部91へ出力する機能を併せ持つ。
【0161】
量子化対象LSP追加部91は、LPC分析部90において求めた処理フレームの量子化対象LSPを記憶する現フレームLSP記憶部92と、LPC分析部90において求めた先読み区間のLSPを記憶する先読み区間LSP記憶部93と、前処理フレームの復号化LSPを記憶する前フレームLSP記憶部94と、上記3つの記憶部から読み出したLSPに対して線形補間計算を行い量子化対象LSPを複数個追加する線形補間部95によって構成されている。処理フレームの量子化対象LSPと先読み区間のLSPと前処理フレームの復号化LSPに対して線形補間計算を行うことで、量子化対象LSPを複数個追加生成し、生成した量子化対象LSPを全てLSP量子化・復号化部96へ出力する。
【0162】
ここで、量子化対象LSP追加部91について、さらに詳しく説明する。LPC分析部90が、バッファ内の処理フレームに対して線形予測分析を行い予測次数Np(=10)次のLPCα(i)(1≦i≦Np)を得、得られたLPCを変換して量子化対象LSPω(i)(1≦i≦Np)を生成し、生成した量子化対象LSPω(i)(1≦i≦Np)を量子化対象LSP追加部91内の現フレームLSP記憶部92へ格納する。さらにバッファ内の先読み区間に対して線形予測分析を行って先読み区間に対するLPCを得、得られたLPCを変換して先読み区間に対するLSPωf(i)(1≦i≦Np)を生成し、生成した先読み区間に対するLSPωf(i)(1≦i≦Np)を量子化対象LSP追加部91内の先読み区間LSP記憶部93へ格納する。
【0163】
次に、線形補間部95が、現フレームLSP記憶部92から処理フレームに対する量子化対象LSPω(i)(1≦i≦Np)を、先読み区間LSP記憶部93から先読み区間に対するLSPωf(i)(1≦i≦Np)を、前フレームLSP記憶部94から前処理フレームに対する復号化LSPωqp(i)(1≦i≦Np)をそれぞれ読み出し、(数29)に示した変換を行うことによって、量子化対象追加第1LSPω1(i)(1≦i≦Np)、量子化対象追加第2LSPω2(i)(1≦i≦Np)、量子化対象追加第3LSPω3(i)(1≦i≦Np)をそれぞれ生成する。
【0164】
【数29】
Figure 0004003240
【0165】
生成したω1(i)、ω2(i)、ω3(i)をLSP量子化・復号化部96へ出力し、LSP量子化・復号化部96が、4つの量子化対象LSPω(i),ω1(i),ω2(i),ω3(i)を全てベクトル量子化・復号化した後に、ω(i)に対する量子化誤差のパワEpow(ω)、ω1(i)に対する量子化誤差のパワEpow(ω1)、ω2(i)に対する量子化誤差のパワEpow(ω2)、およびω3(i)に対する量子化誤差のパワEpow(ω3)をそれぞれ求め、求めたそれぞれの量子化誤差パワに対して(数30)の変換を施して復号化LSP選択基準値STDlsp(ω),STDlsp(ω1),STDlsp(ω2),およびSTDlsp(ω3)を求める。
【0166】
【数30】
Figure 0004003240
【0167】
求めた復号化LSP選択基準値を比較して、その値が最小となるような量子化対象LSPに対する復号化LSPを処理フレームに対する復号化LSPωq(i)(1≦i≦Np)として選択・出力するとともに、次フレームのLSPをベクトル量子化する際に参照できるよう、前フレームLSP記憶部94に格納する。
【0168】
本実施の形態は、LSPの有する補間特性の高さ(補間したLSPを用いて合成しても、異音が起こらない)を有効に利用し、語頭のようにスペクトルが大きく変動する区間に対しても異音が生じないようにLSPをベクトル量子化できるようにするもので、LSPの量子化特性が不十分になった場合に生じる可能のある合成音中の異音を低減することができる。
【0169】
(実施の形態9)
図10は、本実施の形態によるLSP量子化・復号化部のブロック図である。図10において、100はLSP量子化テーブル格納部、101はLSP量子化・復号化部、102はゲイン情報格納部、103は適応ゲイン選択部、104はゲイン乗算部、105はLSP量子化部、106はLSP復号化部であり、107はLSP量子化・復号化部101に入力される量子化対象LSP、108は適応ゲイン選択部から出力される適応ゲイン、109はLSP復号化部106から出力されて適応ゲイン選択部103に入力されるLSP量子化誤差、110はLSP復号化部から出力されてLSP量子化・復号化部101から出力される復号化LSPである。
【0170】
LSP量子化・復号化部101は、適応ゲイン選択部103において適応ゲインを選択する際に参照する複数のゲイン候補を格納するゲイン情報格納部102、LSP量子化テーブル格納部100より読み出したコードベクトルに、適応ゲイン選択部103において選択した適応ゲインを乗じるゲイン乗算部104、適応ゲインを乗じたコードベクトルを用いて量子化対象LSPをベクトル量子化するLSP量子化部105、ベクトル量子化したLSPを復号化して復号化LSP110を生成・出力する機能と、量子化対象LSPと復号化LSPの差分であるLSP量子化誤差109を求めて適応ゲイン選択部103へ出力する機能とを有するLSP復号化部106、前処理フレームのLSPをベクトル量子化した時にコードベクトルに乗じた適応ゲインの大きさと前フレームに対するLSP量子化誤差109の大きさを基準にして、処理フレームの量子化対象LSPをベクトル量子化する時にコードベクトルに乗じる適応ゲインを、ゲイン格納部102に格納されたゲイン生成情報をもとに適応的に調節しながら求め、求めた適応ゲインをゲイン乗算部104に出力する適応ゲイン選択部103によって構成されており、コードベクトルに乗じる適応ゲインを適応的に調節しながら、量子化対象LSPをベクトル量子化および復号化するものである。
【0171】
ここで、LSP量子化・復号化部101について、さらに詳しく説明する。ゲイン情報格納部102は、適応ゲイン選択部103が参照する4つのゲイン候補(0.9,1.0,1.1,1.2)を格納しており、適応ゲイン選択部103は、前フレームの量子化対象LSPを量子化した際に生じたパワERpowを、前処理フレームの量子化対象LSPをベクトル量子化した時に選択した適応ゲインGqlspの2乗で除算する(数31)式により、適応ゲイン選択基準値Slspを求める。
【0172】
【数31】
Figure 0004003240
【0173】
求めた適応ゲイン選択の基準値Slspを用いた(数32)によって、ゲイン情報格納部102より読み出した4つのゲイン候補(0.9,1.0,1.1,1.2)から1つのゲインを選択して、適応ゲインGlspとしてゲイン乗算部104へ出力する。
【0174】
【数32】
Figure 0004003240
【0175】
選択した適応ゲインGlspおよび量子化に伴い生じた誤差を、次フレームの量子化対象LSPをベクトル量子化する時まで、変数Gqlspおよび変数ERpowに保存しておく。
【0176】
ゲイン乗算部104は、LSP量子化テーブル格納部100より読み出したコードベクトルに適応ゲイン選択部103において選択した適応ゲインGlsp108を乗じてLSP量子化部105へ出力し、LSP量子化部105は、適応ゲインを乗じたコードベクトルを用いて量子化対象LSP107をベクトル量子化し、LSP復号化部106は、LSP量子化部105で量子化したLSPを復号化して復号化LSPを得、得られた復号化LSP110を出力するとともに、得られた復号化LSPを量子化対象LSPから減算してLSP量子化誤差109を求め、求めたLSP量子化誤差109のパワERpowを計算して適応ゲイン選択部103へ出力する。
【0177】
本実施の形態は、LSPの量子化特性が不十分になった場合に生じる可能のある合成音中の異音を低減することができる。
【0178】
【発明の効果】
以上のように本発明によれば、以下の3つの有利な効果が得られる。
(1)発振器から出力されるベクトル系列を、固定ベクトルもしくは確率的ベクトルとして用いることでメモリ容量を大幅に低減できる。
(2)適応符号帳に格納された過去の音源信号に数種の処理を施して生成した音源加算ベクトルを固定ベクトルもしくは確率的ベクトルとして用いることでメモリ容量を大幅に低減できる。
(3)LSP量子化において、量子化対象LSPを複数個用意した上で全て量子化・復号化し、合成音の異音が最も少なくなる量子化対象LSPを選択するため、合成音中に含まれる異音を低減することができる。
【図面の簡単な説明】
【図1】本発明の一実施の形態による音声符号化装置/復号化装置の主要部のブロック図
【図2】本発明の一実施の形態による音声符号化装置/復号化装置の主要部のブロック図
【図3】本発明の一実施の形態による音声符号化装置/復号化装置の主要部のブロック図
【図4】本発明の一実施の形態による非線形ディジタルフィルタのブロック図
【図5】本発明の一実施の形態による非線形ディジタルフィルタの加算器特性の概念図
【図6】本発明の一実施の形態による音声符号化装置/復号化装置の主要部のブロック図
【図7】本発明の一実施の形態による音源加算ベクトル生成部のブロック図
【図8】本発明の一実施の形態による音声符号化装置/復号化装置の主要部のブロック図
【図9】本発明の一実施の形態による量子化対象LSP追加部のブロック図
【図10】本発明の一実施の形態によるLSP量子化・復号化部のブロック図
【図11】従来のCELP型音声符号化装置を示すブロック図
【図12】従来のCELP型音声符号化装置を示すブロック図
【符号の説明】
11 シード格納部
12 発振器
13 LPC合成フィルタ部
21 シード格納部
22 非線形発振器
23 LPC合成フィルタ部
31 シード格納部
32 非線形ディジタルフィルタ
33 LPC合成フィルタ部
40 非線形ディジタルフィルタ
41 加算器
61 音源格納部
62 音源加算ベクトル生成部
63 LPC合成フィルタ部
68 音源格納部
69 音源加算ベクトル生成部
70 読み出し処理部
71 逆順化処理部
72 乗算処理部
73 間引き処理部
74 内挿処理部
75 加算処理部
76 処理決定・指示部
80 バッファ
81 LPC分析部
82 量子化対象LSP追加部
83 LSP量子化テーブル格納部
84 LSP量子化・復号化部
85 LSP量子化誤差比較部
90 LPC分析部
91 量子化対象LSP追加部
92 現フレームLSP記憶部
93 先読み区間LSP記憶部
94 前フレームLSP記憶部
95 線形補間部
96 LSP量子化・復号化部
100 LSP量子化テーブル格納部
101 LSP量子化・復号化部
102 ゲイン情報格納部
103 適応ゲイン選択部
104 ゲイン乗算部
105 LSP量子化部
106 LSP復号化部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a speech encoding / decoding device for encoding / decoding speech signals with a small memory amount, a low bit rate, and high quality.
[0002]
[Prior art]
In the field of mobile communications such as digital cellular phones, a low bit rate speech compression coding method is required to cope with the increase in subscribers. In Japan, VSELP and PSI-CELP speech coding schemes have been adopted and put into practical use as full-rate and half-rate digital cellular phone speech coding standards. Each of these methods is an improvement of CELP (Code Excited Linear Prediction: “High Quality Speech at Low Bit Rate” described in MR Schroeder Proc. ICAS SP'85 pp. 937-940). The CELP type speech encoding apparatus is a method of encoding speech information into sound source information and vocal tract information separately. The sound source information is encoded by an index of a plurality of code vectors stored in a codebook, For road information, LPC (Linear Prediction Coefficient) is encoded, and at the time of sound source information encoding, a method of comparing with input speech in consideration of vocal tract information (A-B-S: Analysis by Synthesis) ) Is adopted. In CELP, the input speech is generally divided into sections (called frames) at certain time intervals and subjected to LPC analysis, and the adaptive codebook / fixed codebook is divided into sections (called subframes) that are further divided into frames. A sound source search of the stochastic codebook is performed.
[0003]
Here, first, PSI-CELP ("CELP coding with a pitch-synchronized noise excitation source (PSI-CELP)", Ken Miki, Ken Moriya, which is a speech coding / decoding standard system for half-rate digital cellular phones in Japan. Functional block diagram of a CELP type speech coding apparatus developed based on Hiroshi, Kazunori Mano, Nakamichi Omuro, IEICE Transactions A, Vol. J77-A, No. 3, pp. 314-324) The CELP speech encoding apparatus will be described in detail with reference to FIG.
[0004]
In FIG. 11, digital input audio data 110 is supplied to a buffer 111 in units of frames (frame length Nf = 104). At this time, the old data in the buffer 111 is updated with the new data supplied. The frame power quantization / decoding unit 112 first reads a processing frame s (i) (0 ≦ i ≦ Nf−1) of length Nf (= 104) from the buffer 111, and averages the power of the samples in the processing frame amp Is obtained by (Equation 1).
[0005]
[Expression 1]
Figure 0004003240
[0006]
The obtained average power amp of the samples in the processing frame is converted into a logarithmic conversion value amplog by (Equation 2).
[0007]
[Expression 2]
Figure 0004003240
[0008]
The obtained amplog is scalar quantized using a 10-words scalar quantization table Cpow as shown in (Table 1) stored in the power quantization table storage unit 113 to obtain a 4-bit powerwound index Ipow. Then, the decoded frame power spow is obtained from the above-mentioned power index Ipow, and the power code Ipow and the decoded frame power power are output to the parameter encoding unit 141. The power quantization table storage unit 113 stores a 16-words power color quantization table (Table 1). This table is used to calculate the logarithm conversion value of the average power of the samples in the processing frame by the frame power quantization / decoding unit 112. Referenced when scalar quantization.
[0009]
[Table 1]
Figure 0004003240
[0010]
First, the LPC analysis unit 114 reads the analysis section data of the analysis section length Nw (= 256) from the buffer 111, and multiplies the read analysis section data by the Hamming window Wh256 of the window length Nw (= 256). Analysis interval data is obtained, and the autocorrelation function of the obtained Hamming windowed analysis interval data is obtained up to the predicted order Np (= 10). The obtained autocorrelation function is multiplied by a 10 words lag window table (Table 2) stored in the lag window storage unit 115 to obtain a lag windowed autocorrelation function, and is linear with respect to the obtained lag windowed autocorrelation function. By performing the prediction analysis, the LPC parameter α (i) (1 ≦ i ≦ Np) is calculated and output to the pitch preliminary selection unit 118.
[0011]
[Table 2]
Figure 0004003240
[0012]
Next, the obtained LPC parameter α (i) is converted into LSP (line spectrum pair) ω (i) (1 ≦ i ≦ Np) and output to the LSP quantization / decoding unit 116. The lag window storage unit 115 stores a lag window table referred to by the LPC analysis unit.
[0013]
The LSP quantization / decoding unit 116 first refers to the LSP vector quantization table stored in the LSP quantization table storage unit 117, performs vector quantization on the LSP received from the LPC analysis unit 114, and calculates an optimal index. The selected index is output to the parameter encoding unit 141 as the LSP code Ilsp. Next, the centroid corresponding to the LSP code is read from the LSP quantization table storage unit 117 as the decoded LSPωq (i) (1 ≦ i ≦ Np), and the read decoded LSP is output to the LSP interpolation unit 121. Furthermore, decoding LPCαq (i) (1 ≦ i ≦ Np) is obtained by converting the decoding LSP into LPC, and the obtained decoding LPC is calculated as a spectrum weighting filter coefficient calculation unit 122 and an auditory weighting LPC synthesis filter coefficient. To the unit 124. The LSP quantization table storage unit 117 stores an LSP vector quantization table that is referred to when the LSP quantization / decoding unit 116 performs vector quantization on the LSP.
[0014]
The pitch preliminary selection unit 118 first receives the LPCα (i) (1 ≦ i ≦ Np) received from the LPC analysis unit 114 for the processing frame data s (i) (0 ≦ i ≦ Nf−1) read from the buffer 111. ) To obtain a linear prediction residual signal res (i) (0 ≦ i ≦ Nf−1), calculate the power of the obtained linear prediction residual signal res (i), A normalized prediction residual power resid, which is a value obtained by normalizing the calculated power of the residual signal with the power of the audio sample of the processing subframe, is obtained and output to the parameter encoding unit 141. Next, a linear prediction residual signal resw (i) (0 ≦ i ≦ Nw−1) is generated by multiplying the linear prediction residual signal res (i) by a Hamming window of length Nw (= 256). Then, the autocorrelation function φint (i) of the generated resw (i) is Lmin−2 ≦ i ≦ Lmax + 2 (where Lmin is 16 in the shortest analysis interval of the long-term prediction coefficient, and Lmax is 128 in the longest analysis interval of the long-term prediction coefficient. )). The obtained autocorrelation function φint (i) is convolved with the 28 words polyphase filter coefficient Cppf (Table 3) stored in the polyphase coefficient storage unit 119, and the autocorrelation φint (i) and integer lag in the integer lag int autocorrelation φdq (i) at a fractional position shifted by ¼ from int, autocorrelation φaq (i) at a fractional position shifted by ¼ from an integer lag int, self at a fractional position shifted by +1/2 from an integer lag int Correlation φah (i) is obtained.
[0015]
[Table 3]
Figure 0004003240
[0016]
Further, for each argument i within the range of Lmin−2 ≦ i ≦ Lmax + 2, the largest one of φint (i), φdq (i), φaq (i), and φah (i) is substituted into φmax (i). Then, (Lmax−Lmin + 1) pieces of φmax (i) are obtained by performing the processing of (Equation 3).
[0017]
[Equation 3]
Figure 0004003240
[0018]
From the obtained (Lmax−Lmin + 1) φmax (i), six of the largest values are selected in order from the top and stored as pitch candidates psel (i) (0 ≦ i ≦ 5), and a linear prediction residual signal is obtained. Res (i) and the first pitch candidate psel (0) are output to the pitch enhancement filter coefficient calculation unit 120, and psel (i) (0 ≦ i ≦ 5) is output to the adaptive vector generation unit 129.
[0019]
The polyphase coefficient storage unit 119 is a poly reference that is referred to when the pitch preliminary selection unit 118 obtains the autocorrelation of the linear prediction residual signal with fractional lag accuracy and when the adaptive vector generation unit 129 generates the adaptive vector with fractional accuracy. Stores the coefficients of the phase filter.
[0020]
The pitch enhancement filter coefficient calculation unit 120 calculates the third-order pitch prediction coefficient cov (i) (0 ≦ i ≦) from the linear prediction residual res (i) obtained by the pitch preliminary selection unit 118 and the pitch first candidate psel (0). 2). The impulse response of the pitch emphasis filter Q (z) is obtained by (Expression 4) using the obtained pitch prediction coefficient cov (i) (0 ≦ i ≦ 2), and the spectrum weighting filter coefficient calculation unit 122 and the auditory weighting filter It outputs to the coefficient calculation part 123.
[0021]
[Expression 4]
Figure 0004003240
[0022]
The LSP interpolation unit 121 first uses the decoded LSPωq (i) for the current processing frame obtained by the LSP quantization / decoding unit 116 and the decoded LSPωqp (i) for the preprocessing frame that has been obtained and held previously. Thus, the decoding interpolation LSPωintp (n, i) (1 ≦ i ≦ Np) is obtained for each subframe.
[0023]
[Equation 5]
Figure 0004003240
[0024]
Decoding interpolation LPCαq (n, i) (1 ≦ i ≦ Np) is obtained by converting the obtained ωintp (n, i) into LPC, and the obtained decoding interpolation LPCαq (n, i) (1 ≦ i) ≦ Np) is output to the spectrum weighting filter coefficient calculation unit 122 and the auditory weighting LPC synthesis filter coefficient calculation unit 124.
[0025]
The spectrum weighting filter coefficient calculation unit 122 constitutes the MA type spectrum weighting filter I (z) of (Expression 6), and outputs the impulse response to the auditory weighting filter coefficient calculation unit 123.
[0026]
[Formula 6]
Figure 0004003240
[0027]
However, the impulse response αfir (i) (1 ≦ i ≦ Nfir) in (Equation 6) is the impulse response of the ARMA type spectrum enhancement filter G (z) given by (Equation 7) up to the Nfir (= 11) term. It was cut off.
[0028]
[Expression 7]
Figure 0004003240
[0029]
The perceptual weighting filter coefficient calculation unit 123 first receives the impulse response of the spectrum weighting filter I (z) received from the spectrum weighting filter coefficient calculation unit 122 and the pitch emphasis filter Q (z) received from the pitch emphasis filter coefficient calculation unit 120. An auditory weighting filter W (z) having the result of convolution of the impulse response as an impulse response is configured, and the impulse response of the configured auditory weighting filter W (z) is an auditory weighting LPC synthesis filter coefficient calculation unit 124 and an auditory weighting unit 125. Output to.
[0030]
The perceptual weighting LPC synthesis filter coefficient calculation unit 124 uses the decoded interpolation LPCαq (n, i) received from the LSP interpolation unit 121 and the perceptual weighting filter W (z) received from the perceptual weighting filter coefficient calculation unit 123 to perceptual weighting LPC. The synthesis filter H (z) is configured by (Equation 8).
[0031]
[Equation 8]
Figure 0004003240
[0032]
The coefficients of the configured perceptual weighted LPC synthesis filter H (z) are converted into the target generation unit A126, perceptual weighting LPC reverse order synthesis unit A127, perceptual weighting LPC synthesis unit A131, perceptual weighting LPC reverse order synthesis unit B136, and perceptual weighting LPC synthesis unit B139. Output to.
[0033]
The perceptual weighting unit 125 inputs the subframe signal read from the buffer 111 to the perceptual weighted LPC synthesis filter H (z) in the zero state, and outputs the perceptual weighted residual spw (i) (0 ≦ i ≦ Ns). -1) to the target generator A126.
[0034]
The target generation unit A126 uses the perceptual weighted residual spw (i) (0 ≦ i ≦ Ns−1) obtained by the perceptual weighting unit 125 to obtain the perceptual weighted LPC synthesis obtained by the perceptual weighting LPC synthesis filter coefficient calculation unit 124. A zero input response Zres (i) (0 ≦ i ≦ Ns−1), which is an output when a zero series is input to the filter H (z), is subtracted, and the subtraction result is used as a target vector r (i) ( 0 ≦ i ≦ Ns−1) is output to the perceptual weighting LPC reverse order synthesis unit A127 and the target generation unit B135.
[0035]
The perceptual weighting LPC reverse order synthesizing unit A127 rearranges the target vectors r (i) (0 ≦ i ≦ Ns−1) received from the target generation unit A126 in the reverse time order, and the perceived initial value of the perceived vector is zero. By inputting the weighted LPC synthesis filter H (z) and rearranging its output again in the reverse time order, the time inverse synthesis vector rh (k) (0 ≦ i ≦ Ns−1) of the target vector is obtained, and the comparison unit A132 receives it. Output.
[0036]
The adaptive codebook 128 stores past driving sound sources that are referred to when the adaptive vector generation unit 129 generates adaptive vectors. Based on the six pitch candidates psel (j) (0 ≦ j ≦ 5) received from the pitch preliminary selection unit 118, the adaptive vector generation unit 129 generates Nac adaptive vectors Pacb (i, k) (0 ≦ i ≦ Nac−1, 0 ≦ k ≦ Ns−1, 6 ≦ Nac ≦ 24) are generated and output to the adaptive / fixed selection unit 130. Specifically, as shown in (Table 4), when 16 ≦ psel (j) ≦ 44, adaptive vectors are generated for four types of fractional lag positions per integer lag position, and 45 ≦ psel ( j) If ≦ 64, generate adaptive vectors for two types of fractional lag positions per integer lag position; if 65 ≦ psel (j) ≦ 128, apply adaptive vectors for integer lag positions. Generate. Accordingly, the number of adaptive vector candidates Nac is a minimum of 6 candidates and a maximum of 24 candidates depending on the value of psel (j) (0 ≦ j ≦ 5).
[0037]
[Table 4]
Figure 0004003240
[0038]
Note that when generating an adaptive vector with fractional precision, an interpolation process for convolving the polyphase filter coefficient stored in the polyphase coefficient storage unit 119 with the past excitation vector read out from the adaptive codebook 128 with integer precision. It is done by.
[0039]
Here, the interpolation corresponding to the value of lagf (i) is an integer lag position when lagf (i) = 0, and a fractional lag shifted by -1/2 from the integer lag position when lagf (i) = 1. Position, when lagf (i) = 2, interpolation corresponding to a fractional lag position deviating +1/4 from the integer lag position, and when lagf (i) = 3, interpolation corresponding to a fractional lag position deviating -1/4 from the integer lag position Is to do.
[0040]
The adaptation / fixed selection unit 130 first receives the adaptation vector of the Nac (6-24) candidate generated by the adaptation vector generation unit, and outputs it to the perceptual weighting LPC synthesis unit A131 and the comparison unit A132.
[0041]
First, the comparison unit A132 converts the adaptive vector Pacb (i, k) (0 ≦ i ≦ Nac−1, 0 ≦ k ≦ Ns−1, 6 ≦ Nac ≦ 24) generated by the adaptive vector generation unit 129 into Nac. (6 to 24) In order to preliminarily select from candidates to Nacb (= 4) candidates, the temporal reverse synthesis vector rh (k) (0 ≦ k ≦ Ns−1) of the target vector received from the perceptual weighting LPC reverse order synthesis unit A127 and The inner product prac (i) with the adaptive vector Pacb (i, k) is obtained by (Equation 9).
[0042]
[Equation 9]
Figure 0004003240
[0043]
The calculated inner product pra (i) is compared, and the index when the value increases and the inner product when the index is used as an argument are selected up to the higher Nacb (= 4) th, and the index apsel ( j) (0.ltoreq.j.ltoreq.Nacb-1) and the adaptive vector preliminary selection post-selection reference value proc (apsel (j)), respectively, and the adaptive vector preliminary selection index apsel (j) (0.ltoreq.j.ltoreq.Nacb-). 1) is output to the adaptive / fixed selection unit 130.
[0044]
The perceptual weighting LPC synthesis unit A131 performs perceptual weighting LPC synthesis on the pre-selected adaptive vector Pacb (apsel (j), k) generated by the adaptive vector generation unit 129 and passed through the adaptation / fixed selection unit 130. An adaptive vector SYNacb (apsel (j), k) is generated and output to the comparison unit A132. Next, the comparison unit A132 selects the adaptive vector main selection reference value in order to perform the main selection of the Nacb (= 4) pre-selected adaptive vectors Pacb (apsel (j), k) preliminarily selected in the comparison unit A132 itself. sacbr (j) is obtained by (Equation 10).
[0045]
[Expression 10]
Figure 0004003240
[0046]
The index when the value of (Equation 10) increases and the value of (Equation 10) when the index is used as an argument are the index ASEL after adaptive vector main selection and the reference value sacbr (ASEL) after adaptive vector main selection, respectively. The data is output to the adaptation / fixed selection unit 130.
[0047]
Fixed codebook 133 stores Nfc (= 16) candidates for vectors read by fixed vector reading unit 134. Here, the comparison unit A132 determines the fixed vector Pfcb (i, k) (0 ≦ i ≦ Nfc−1, 0 ≦ k ≦ Ns−1) read by the fixed vector reading unit 134 from the Nfc (= 16) candidates. In order to make a preliminary selection as an Nfcb (= 2) candidate, the temporal inverse synthesis vector rh (k) (0 ≦ k ≦ Ns−1) of the target vector received from the perceptual weighting LPC reverse order synthesis unit A127 and the fixed vector Pfcb (i, k) The absolute value | prfc (i) | of the inner product with) is obtained by (Equation 11).
[0048]
## EQU11 ##
Figure 0004003240
[0049]
Compare the value | prac (i) | of (Equation 11) and select the absolute value of the index when the value is large and the inner product when the index is the argument to the upper Nfcb (= 2) th, Index fpsel (j) after fixed vector preliminary selection (0 ≦ j ≦ Nfcb−1) and reference value after preliminary vector preliminary selection | prfc (fpsel (j)) | are stored respectively, and index fpsel after fixed vector preliminary selection. (J) Output (0 ≦ j ≦ Nfcb−1) to the adaptive / fixed selection unit 130.
[0050]
The perceptual weighting LPC synthesis unit A131 performs perceptual weighting LPC synthesis on the fixed vector Pfcb (fpsel (j), k) after preliminary selection read by the fixed vector reading unit 134 and passed through the adaptive / fixed selection unit 130. A combined fixed vector SYNfcb (fpsel (j), k) is generated and output to the comparison unit A132.
[0051]
Further, the comparison unit A132 further selects a fixed vector in order to fully select an optimal fixed vector from the Nfcb (= 2) pre-selected fixed vectors Pfcb (fpsel (j), k) preliminarily selected by the comparison unit A132 itself. This selection reference value sfcbr (j) is obtained by (Equation 12).
[0052]
[Expression 12]
Figure 0004003240
[0053]
The index when the value of (Equation 12) increases and the value of (Equation 12) when the index is used as an argument are the fixed vector main selection index FSEL and the fixed vector main selection post-selection reference value sacbr (FSEL), respectively. The data is output to the adaptation / fixed selection unit 130.
[0054]
The adaptive / fixed selection unit 130 is based on the magnitude and positive / negative relationship of rac (ASEL), sacbr (ASEL), | prfc (FSEL) |, and sfcbr (FSEL) received from the comparison unit A132 (described in (Expression 13)). Either the adaptive vector after the main selection or the fixed vector after the main selection is selected as the adaptive / fixed vector AF (k) (0 ≦ k ≦ Ns−1).
[0055]
[Formula 13]
Figure 0004003240
[0056]
The selected adaptive / fixed vector AF (k) is output to the perceptual weighting LPC synthesis filter unit A131, and the parameter encoding unit is set as an adaptive / fixed index AFSEL that represents the number that generated the selected adaptive / fixed vector AF (k). 141 is output. Here, since the total number of adaptive vectors and fixed vectors is designed to be 255 (see Table 4), the adaptive / fixed index AFSEL is an 8-bit code.
[0057]
The perceptually weighted LPC synthesis filter unit A131 performs perceptual weighting LPC synthesis filtering on the adaptive / fixed vector AF (k) selected by the adaptive / fixed selection unit 130 to generate a synthesized adaptive / fixed vector SYNaf (k) (0). ≦ k ≦ Ns−1) is generated and output to the comparison unit A132.
[0058]
Here, the comparison unit A132 first obtains the power of the synthesis adaptive / fixed vector SYNaf (k) (0 ≦ k ≦ Ns−1) received from the perceptual weighting LPC synthesis unit A131 by (Equation 14).
[0059]
[Expression 14]
Figure 0004003240
[0060]
Next, the inner product pr of the target vector received from the target generation unit A126 and the combined adaptive / fixed vector SYNaf (k) is obtained by (Equation 15).
[0061]
[Expression 15]
Figure 0004003240
[0062]
Further, the adaptive / fixed vector AF (k) received from the adaptive / fixed selection unit 130 is output to the adaptive codebook updating unit 143, the power POWaf of AF (k) is calculated, and the combined adaptive / fixed vector SYNaf (k) And POWaf are output to the parameter encoding unit 141, and powp, pr, r (k), and rh (k) are output to the comparison unit B140.
[0063]
The target generation unit B135 receives the synthesized adaptive / fixed vector SYNaf (k) (received from the comparison unit A132 from the target vector r (i) (0 ≦ i ≦ Ns−1) for sound source selection received from the target generation unit A126. 0 ≦ k ≦ Ns−1) is subtracted to generate a new target vector, and the generated new target vector is output to the perceptual weighting LPC reverse order synthesis unit B136.
[0064]
The perceptual weighting LPC reverse order synthesis unit B136 rearranges the new target vectors generated by the target generation unit B135 in reverse time order, inputs the rearranged vectors to the perceptual weighting LPC synthesis filter in the zero state, and rearranges the output vectors again in reverse time order. As a result, the time inverse composite vector ph (k) (0 ≦ k ≦ Ns−1) of the new target vector is generated and output to the comparison unit B140.
[0065]
The probabilistic codebook 137 includes a first-stage codebook and a second-stage code that store Nst (= 64) first-stage stochastic vectors and second-stage stochastic vectors that are referenced by the probabilistic vector reading unit 138, respectively. It consists of a book. First, the stochastic vector reading unit 138 starts with the first stage stochastic vector Pstb1 (i1, k) (0 ≦ i1 ≦ Nst−1, 0 ≦ k ≦ Ns−) from the first stage codebook in the stochastic codebook 137. 1) is read and output to the perceptual weighting LPC synthesis unit B139 and the comparison unit B140. Next, the second-stage stochastic vector Pstb2 (i2, k) (0 ≦ i2 ≦ Nst−1, 0 ≦ k ≦ Ns−1) is read from the second-stage codebook in the probabilistic codebook 137, and perceptual weighting is performed. The data is output to the LPC synthesis unit B139 and the comparison unit B140.
[0066]
First, the comparison unit B140 converts the first-stage stochastic vector Pstb1 (i1, k) (0 ≦ i ≦ Nst−1, 0 ≦ k ≦ Ns−1) read by the stochastic vector reading unit 138 to Nst ( = 64) In order to perform preliminary selection from candidates to Nstb (= 6) candidates, a first-stage stochastic vector preliminary selection reference value cr (i1) (0 ≦ i1 ≦ Nstb1-1) is obtained by (Equation 16).
[0067]
[Expression 16]
Figure 0004003240
[0068]
The obtained cr (i1) values are compared, and the index when the value increases and the value of (Equation 16) when the index is used as an argument are selected up to the upper Nstb (= 6) th, Index s1psel (j1) (0 ≦ j1 ≦ Nstb−1) after the preliminary selection of the eye stochastic vector and the first stage stochastic vector Pstb1 (s1psel (j1), k) (0 ≦ j1 ≦ Nstb−1,0) after the preliminary selection .Ltoreq.k.ltoreq.Ns-1). Next, the second stage stochastic vector is processed in the same manner as the first stage, and the second stage stochastic vector pre-selected index s2psel (j2) (0 ≦ j2 ≦ Nstb−1) and the second stage after the pre-selection. The probabilistic vectors Pstb2 (s2psel (j2), k) (0 ≦ j2 ≦ Nstb−1, 0 ≦ k ≦ Ns−1) are stored.
[0069]
The perceptual weighting LPC synthesis unit B139 first performs perceptual weighting LPC synthesis on the first stage stochastic vector Pstb1 (s1psel (j1), k) after the preliminary selection read out by the stochastic vector reading unit 138. A first-stage stochastic vector SYNstb1 (s1psel (j1), k) is generated and output to the comparison unit B140. Next, the second-stage stochastic vector Pstb2 (s2psel (j2), k) after the preliminary selection read by the stochastic vector reading unit 138 is subjected to auditory weighting LPC synthesis to be a synthesized second-stage stochastic vector SYNstb2. (S2psel (j2), k) is generated and output to the comparison unit B140.
[0070]
The comparison unit B140 performs the synthesis calculated in the perceptual weighting LPC synthesis unit B139 in order to perform the main selection of the first-stage stochastic vector after the preliminary selection and the second-stage stochastic vector after the preliminary selection preliminarily selected in the comparison unit B140 itself. The calculation of (Expression 17) is performed on the first-stage stochastic vector SYNstb1 (s1psel (j1), k).
[0071]
[Expression 17]
Figure 0004003240
[0072]
The orthogonal synthesis first stage stochastic vector SYNOstb1 (s1psel (j1), k) is obtained, and the same calculation is performed for the synthesis second stage stochastic vector SYNstb2 (s2psel (j2), k) to perform orthogonal synthesis. The second-stage stochastic vector SYNOstb2 (s2psel (j2), k) is obtained, and the first-stage stochastic vector main selection reference value s1cr and the second-stage stochastic vector main selection reference value s2cr are respectively expressed by (Equation 18) and (Equation 18). 19), all combinations (36 patterns) of (s1psel (j1), s2psel (j2)) are calculated in a closed loop.
[0073]
[Expression 18]
Figure 0004003240
[0074]
[Equation 19]
Figure 0004003240
[0075]
However, cs1cr in (Equation 18) and cs2cr in (Equation 19) are constants calculated in advance by (Equation 20) and (Equation 21), respectively.
[0076]
[Expression 20]
Figure 0004003240
[0077]
[Expression 21]
Figure 0004003240
[0078]
The comparison unit B140 further substitutes the maximum value of s1cr into MAXs1cr, substitutes the maximum value of s2cr into MAXs2cr, sets the larger of MAXs1cr and MAXs2cr as scr, and refers to s1psel (j1 ) Is output to the parameter encoding unit 141 as the first-stage stochastic vector main-selected index SSEL1. The probability vector corresponding to SSEL1 is stored as a first-stage stochastic vector Pstb1 (SSEL1, k) after the main selection, and the post-main-selection synthesized first-stage stochastic vector SYNstb1 (SSEL1, k) corresponding to Pstb1 (SSEL1, k). ) (0 ≦ k ≦ Ns−1) is obtained and output to the parameter encoding unit 141.
[0079]
Similarly, the value of s2psel (j2) that was referenced when scr was obtained is output to the parameter encoding unit 141 as the second-stage stochastic vector main selection index SSEL2, and the probability vector corresponding to SSEL2 is finally selected. The second-stage stochastic vector Pstb2 (SSEL2, k) is stored, and the post-selection synthesized second-stage stochastic vector SYNstb2 (SSEL2, k) corresponding to Pstb2 (SSEL2, k) (0 ≦ k ≦ Ns−1). ) And output to the parameter encoding unit 141.
[0080]
Further, the comparison unit B140 obtains signs S1 and S2 to be multiplied by Pstb1 (SSEL1, k) and Pstb2 (SSEL2, k), respectively, according to (Equation 22), and obtains the positive / negative information of S1 and S2 by gain gain / negative index Is1s2 (2 bits Information) to the parameter encoder 141.
[0081]
[Expression 22]
Figure 0004003240
[0082]
A stochastic vector ST (k) (0 ≦ k ≦ Ns−1) is generated by (Equation 23) and output to the adaptive codebook updating unit 143, and the power POWsf is obtained and output to the parameter encoding unit 141. .
[0083]
[Expression 23]
Figure 0004003240
[0084]
A synthesis probabilistic vector SYNst (k) (0 ≦ k ≦ Ns−1) is generated by (Expression 24) and output to the parameter encoding unit 141.
[0085]
[Expression 24]
Figure 0004003240
[0086]
First, the parameter encoding unit 141 uses the decoded frame power spow obtained by the frame power quantization / decoding unit 112 and the normalized prediction residual power resid obtained by the pitch preliminary selection unit 118 to obtain a sub The frame estimation residual power rs is obtained.
[0087]
[Expression 25]
Figure 0004003240
[0088]
The obtained subframe estimation residual power rs, the adaptive / fixed vector power POWaf calculated in the comparison unit A132, the stochastic vector power POWst calculated in the comparison unit B140, and the gain quantization table storage unit 142 shown in Table 5 The quantization gain selection reference value STDg is obtained by (Equation 26) using the 256words gain quantization table (CGaf [i], CGst [i]) (0 ≦ i ≦ 127) stored in FIG.
[0089]
[Table 5]
Figure 0004003240
[0090]
[Equation 26]
Figure 0004003240
[0091]
An index at which the obtained quantization gain selection reference value STDg is minimized is selected as a gain quantization index Ig, and adaptive / fixed read from the gain quantization table based on the selected gain quantization index Ig Using the vector side selected gain CGaf (Ig), the stochastic vector side selected gain CGst (Ig) read from the gain quantization table based on the selected gain quantization index Ig, and the like (Equation 27) , The adaptive / fixed vector side real gain Gf actually applied to AF (k) and the stochastic vector side real gain Gst actually applied to ST (k) are obtained and output to the adaptive codebook updating unit 143.
[0092]
[Expression 27]
Figure 0004003240
[0093]
The parameter encoding unit 141 includes a power distribution index Ipow obtained by the frame power quantization / decoding unit 112, an LSP code Ilsp obtained by the LSP quantization / decoding unit 116, and an adaptation / fixed index obtained by the adaptation / fixed selection unit 130. AFSEL, first-stage stochastic vector post-selection index SSEL1, second-stage stochastic vector main-selection index SSEL2, gain positive / negative index Is1s2, and gain quantization index obtained by parameter encoding unit 141 itself The Igs are collectively set as a voice code, and the collected voice code is output to the transmission unit 144.
[0094]
The adaptive codebook updating unit 143 uses the adaptive / fixed vector AF (k) obtained by the comparison unit A132 and the stochastic vector ST (k) obtained by the comparison unit B140 to determine the adaptive / fixed vector obtained by the parameter coding unit 141. A drive sound source ex (k) (0 ≦ k ≦ Ns−1) is generated by multiplying the side gain Gaf and the stochastic vector side gain Gst, respectively, and then adding (Formula 28), and the generated drive The sound source ex (k) (0 ≦ k ≦ Ns−1) is output to the adaptive codebook 128.
[0095]
[Expression 28]
Figure 0004003240
[0096]
At this time, the old driving sound source in the adaptive codebook 128 is discarded and updated with the new driving sound source ex (k) received from the adaptive codebook update unit 143.
[0097]
Here, next, a speech decoding apparatus developed by PSI-CELP, which is a speech encoding / decoding standard system for half-rate digital cellular phones in Japan (this decoding apparatus is a device that forms a pair with the above-described encoding apparatus) The CELP speech decoding apparatus will be described in more detail with reference to a functional block diagram (FIG. 12).
[0098]
In FIG. 12, the parameter decoding unit 502 includes a speech code (Pawawine index Ipow, LSP code Ilsp, adaptive / fixed index AFSEL, first stage stochastic) sent from the conventional CELP speech coding apparatus shown in FIG. The index SSEL after vector main selection, the first stage stochastic vector index SSEL2, the gain quantization index Ig, and the gain positive / negative index Is1s2) are obtained through the transmission unit 501.
[0099]
Next, the scalar value indicated by the power distribution Ipow is read from the power quantization table (see Table 1) stored in the power quantization table storage unit 505, and is output to the power restoration unit 517 as a decoded frame power spow. The vector indicated by the LSP code Ilsp is read from the LSP quantization table stored in the quantization table storage unit 504 and output to the LSP interpolation unit 506 as a decoded LSP. The adaptive / fixed index AFSEL is output to the adaptive vector generation unit 508, the fixed vector reading unit 511, and the adaptive / fixed selection unit 512, and the first stage stochastic vector main selection index SSEL1 and the second stage stochastic vector main selection index. SSEL2 is output to the probabilistic vector reading unit 515. A vector (CAaf (Ig), CGst (Ig)) indicated by the gain quantization index Ig is read from the gain quantization table (see Table 5) stored in the gain quantization table storage unit 503, and is the same as the encoding device side. , (Expression 27), the adaptive / fixed vector side main gain Gf actually applied to AF (k) and the stochastic vector side main gain Gst actually applied to ST (k) are obtained, and the obtained adaptive / fixed vector side The main gain Gaf and the probabilistic vector side main gain Gst are output to the drive sound source generation unit 513 together with the gain positive / negative index Is1s2.
[0100]
The LSP interpolation unit 506 obtains the decoding interpolation LSPωintp (n, i) (1 ≦ i ≦ Np) for each subframe from the decoding LSP received from the parameter decoding unit 502 in the same manner as the encoding device. The decoded interpolation LPC is obtained by converting ωintp (n, i) into LPC, and the obtained decoded interpolation LPC is output to the LPC synthesis filter unit 516.
[0101]
Based on the adaptive / fixed index AFSEL received from the parameter decoding unit 502, the adaptive vector generation unit 508 stores the polyphase coefficient stored in the polyphase coefficient storage unit 509 in the vector read from the adaptive codebook 507 (see Table 3). Are partially convolved to generate an adaptive vector with fractional lag accuracy and output to the adaptive / fixed selection unit 512. Fixed vector reading unit 511 reads a fixed vector from fixed codebook 510 based on adaptive / fixed index AFSEL received from parameter decoding unit 502 and outputs the fixed vector to adaptive / fixed selection unit 512.
[0102]
Based on the adaptive / fixed index AFSEL received from the parameter decoding unit 502, the adaptive / fixed selection unit 512 is either an adaptive vector input from the adaptive vector generation unit 508 or a fixed vector input from the fixed vector reading unit 511. One vector is selected as an adaptive / fixed vector AF (k), and the selected adaptive / fixed vector AF (k) is output to the drive sound source generator 513. The probabilistic read-out unit receives the first-stage probability from the stochastic codebook 514 based on the first-stage stochastic vector main-selection index SSEL1 and the second-stage stochastic vector main-selection index SSEL2 received from the parameter decoding unit 502. The first stage stochastic vector and the second stage stochastic vector are respectively read out, and the read first stage stochastic vector and second stage stochastic vector are respectively multiplied by the first stage information S1 and the second stage information S2 of the gain positive / negative index. ST (k) is generated as a vector, and the generated probabilistic vector is output to the drive sound source generation unit 513.
[0103]
The driving sound source generation unit 513 obtains the adaptive / fixed vector AF (k) received from the adaptive / fixed selection unit 512 and the stochastic vector ST (k) received from the stochastic vector reading unit 515 by the parameter decoding unit 502. The adaptive / fixed vector side real gain Gf and the stochastic vector side real gain Gst are respectively multiplied and added or subtracted based on the gain positive / negative index Is1s2 to obtain the driving sound source ex (k), and the obtained driving sound source is converted to the LPC synthesis filter. The data is output to the unit 516 and the adaptive codebook 507. Here, the old driving sound source in the adaptive codebook 507 is updated with a new driving sound source input from the driving sound source generation unit 513.
[0104]
The LPC synthesis filter unit 516 performs LPC synthesis on the driving sound source generated by the driving sound source generation unit 513 using a synthesis filter configured by the decoding interpolation LPC received from the LSP interpolation unit 506, and restores the output of the filter to power To the unit 517. The power restoration unit 517 first obtains the average power of the driving excitation synthesized vector obtained by the LPC synthesis filter unit 516, and then divides the decoded power power received from the parameter decoding unit 502 by the obtained average power. Then, the division result is multiplied by the synthesized vector of the driving sound source to generate a synthesized sound and output it to the part 518.
[0105]
The speech encoding device described in FIG. 11 and the speech decoding device described in FIG. 12 perform speech analysis and speech synthesis using a storage vector as a sound source in a codebook. Each of the encoding device and the decoding device It is necessary to keep the same codebook. In addition, a plurality of representative vectors stored in the codebook are the LBG algorithm (“An Algorithm for Vector Quantizer Design,” “YOSEPH LINDE, ANDRES BUZO, ROBERT M. GRAY, IEEE TRANSITION MON 28”. No. 1, JANUARY 1980, pp. 84-95).
[0106]
[Problems to be solved by the invention]
This speech encoding / decoding device has the following problems.
[0107]
(Problem 1) In a speech coder / decoder having a stochastic codebook, it is necessary to store a plurality of stochastic vectors in a stochastic codebook (ROM) as they are. The memory capacity becomes large.
[0108]
(Problem 2) In a speech encoding / decoding device characterized by comprising a fixed codebook, it is necessary to store a plurality of fixed vectors as they are in a fixed codebook (ROM). It gets bigger.
[0109]
(Problem 3) Quantization of a linear prediction coefficient (LPC) of speech obtained by linear prediction analysis is generally performed after converting LPC to a line spectrum pair (LSP). However, the LSP quantization characteristics may be insufficient in the vicinity of a frame such as a rising portion where the voice characteristics greatly change, and as a result, the synthesized sound may include abnormal sounds.
[0110]
An object of the present invention is to provide a speech encoding / decoding device that has a small memory capacity and does not include abnormal sounds in synthesized speech.
[0111]
[Means for Solving the Problems]
In order to solve the problem 1, the present invention provides a fixed vector reading unit and a fixed codebook of a conventional CELP speech coding apparatus by using an oscillator that outputs different vector sequences according to an input seed value, Each is replaced with a seed storage unit for storing seeds (oscillator seeds). As a result, it is not necessary to store the fixed vector in the fixed codebook (ROM) as it is, and the memory capacity can be greatly reduced.
[0112]
In order to solve the problem 2, the present invention replaces the stochastic vector reading unit and the stochastic codebook of the conventional CELP speech coding apparatus with an oscillator and a seed storage unit. Thereby, it is not necessary to store the stochastic vector in the stochastic codebook (ROM) as it is, and the memory capacity can be greatly reduced.
[0113]
In order to solve the problem 2, the present invention uses a sound source storage unit that stores past sound source vectors as an adaptive codebook of a conventional CELP speech coding apparatus, and further includes a conventional stochastic vector reading unit, A sound source addition vector generation unit that converts a past sound source vector and generates a new vector is replaced, and the sound source vector generated in the sound source addition vector generation unit is used as a stochastic vector. This eliminates the ROM information necessary for generating the probabilistic vector, eliminating the need for the probabilistic codebook 133 and greatly reducing the memory capacity.
[0114]
Furthermore, in order to solve the problem 3, the present invention compares a plurality of generated decoded LSPs with the LSP quantizing / decoding unit in the conventional CELP speech coding apparatus, and the noise is minimized. One decoding LSP is selected in a closed loop, and the selected decoding LSP is replaced with an LSP quantization / encoding unit having an LSP quantization error comparison unit having a function newly adopted as a decoding LSP for a processing frame. . As a result, all of the generated plurality of quantization target LSPs are quantized, and the LSP with the least abnormal sound is selected as the LSP of the processing frame and is quantized / decoded, so that the sound quality of the synthesized sound can be improved. it can.
[0115]
DETAILED DESCRIPTION OF THE INVENTION
  The present inventionCELP type speech encoding apparatus and speech decoding apparatus used as an initial state of oscillationA seed storage unit that stores a plurality of seeds, and a vector sequence that differs depending on the seed value stored in the seed storage unit.Generate as sound source vectorAn output oscillator; andSound source vectorInput and LPC synthesis to produce synthesized soundOutputA speech encoding device and a speech decoding device characterized by comprising an LPC synthesis filter unit, which eliminates the need to store a fixed vector in a fixed codebook (ROM) as it is. It has the effect of greatly reducing.
[0116]
  hereThe aboveEven if the oscillator is a nonlinear oscillator, the same effect is exhibited.
[0117]
  AlsoThe aboveEven if the nonlinear oscillator is a nonlinear digital filter, the same effect is exhibited.
[0118]
  AndThe aboveA nonlinear digital filter is a multiplier that multiplies a state variable by a gain.And saidAn initial value of the state variable is input from the seed storage unit, the coefficient of the multiplier is fixed so that the pole is outside the unit circle in the Z plane, and the digital vector has a recursive structure in which the input vector is a zero sequence. Preferably it is.
[0119]
  AndSaidNonlinear digital filterThe nonlinear characteristic ofTwo's complementAdditionCharacteristicGiven by
WhatEven so, the same effect is exhibited.
[0125]
Hereinafter, embodiments of the present invention will be described with reference to FIGS.
(Embodiment 1)
FIG. 1 is a block diagram of a main part of a speech encoding / decoding device according to the present embodiment. In FIG. 1, 11 is a seed storage unit, 12 is an oscillator, 13 is an LPC synthesis filter unit, 14 is a seed (oscillation seed) output from the seed storage unit 11 and input to the oscillator 12, and 15 is an oscillator 12. A sound source vector 16 that is a vector series output from the LPC synthesis filter unit 13 is a synthesized sound.
[0126]
The oscillator 12 outputs different vector sequences according to the input seed value, and the LPC synthesis filter unit 13 performs LPC synthesis of the input sound source vector 15 and outputs a synthesized sound 16.
[0127]
In the present embodiment, fixed vector reading unit 134 and fixed codebook 133 of the conventional CELP speech coding apparatus shown in FIG. 11 or fixed vector reading unit of the conventional CELP speech decoding apparatus shown in FIG. 511 and the fixed codebook 510 are replaced with the oscillator 12 and the seed storage unit 11, respectively, and it is not necessary to store the fixed vector in the fixed codebook (ROM) as it is, so that the memory capacity is greatly reduced. Can do.
[0128]
(Embodiment 2)
FIG. 2 is a block diagram of a main part of the speech encoding apparatus / decoding apparatus according to the present embodiment. In FIG. 2, 21 is a seed storage unit, 22 is a nonlinear oscillator, 23 is an LPC synthesis filter unit, 24 is a seed (oscillation seed) output from the seed storage unit 21 and input to the nonlinear oscillator 22, and 25 is A sound source vector 26, which is a vector sequence output from the nonlinear oscillator 22, is a synthesized sound output from the LPC synthesis filter unit 23.
[0129]
The non-linear oscillator 22 outputs different vector sequences according to the input seed value, and the LPC synthesis filter unit 23 LPC synthesizes the input sound source vector 25 and outputs a synthesized sound 26.
[0130]
In the present embodiment, fixed vector reading unit 134 and fixed codebook 133 of the conventional CELP speech coding apparatus shown in FIG. 11 or fixed vector reading unit of the conventional CELP speech decoding apparatus shown in FIG. 511 and the fixed codebook 510 are replaced by the nonlinear oscillator 22 and the seed storage unit 21, respectively, and it is not necessary to store the fixed vector in the fixed codebook (ROM) as it is, so that the memory capacity is greatly reduced. be able to.
[0131]
(Embodiment 3)
FIG. 3 is a block diagram of a main part of the speech encoding apparatus / decoding apparatus according to the present embodiment. In FIG. 3, 31 is a seed storage unit, 32 is a nonlinear digital filter, 33 is an LPC synthesis filter unit, 34 is a seed (oscillation seed) output from the seed storage unit 31 and input to the nonlinear digital filter 32, Reference numeral 35 denotes a sound source vector that is a vector series output from the nonlinear digital filter 32, and reference numeral 36 denotes a synthesized sound output from the LPC synthesis filter unit 33.
[0132]
The non-linear digital filter 32 outputs different vector sequences according to the input seed value, and the LPC synthesis filter unit 33 performs LPC synthesis of the input sound source vector 25 and outputs a synthesized sound 36.
[0133]
In the present embodiment, fixed vector reading unit 134 and fixed codebook 133 of the conventional CELP speech coding apparatus shown in FIG. 11 or fixed vector reading unit of the conventional CELP speech decoding apparatus shown in FIG. 511 and the fixed codebook 510 are replaced with the nonlinear digital filter 32 and the seed storage unit 31, respectively, and it is not necessary to store the fixed vector in the fixed codebook (ROM) as it is, so that the memory capacity is greatly reduced. can do.
[0134]
(Embodiment 4)
FIG. 4 is a block diagram of the nonlinear digital filter according to this embodiment. In FIG. 4, 40 is a nonlinear digital filter, 41 is an adder, 42 to 43 are state variables 1 to N, 44 to 45 are coefficients of multipliers 1 to N, 46 is a seed (oscillation seed), and 47 is an input vector. , 48 are sound source vectors.
[0135]
In FIG. 4, a non-linear digital filter 40 performs an operation of outputting one sample (y (k)) every time zero is input from an input vector 47. An adder 41 having a non-linear addition characteristic, a digital filter State variables 1 to N (42 to 43) having an action of storing the states (values of y (k−1) to y (k−N)), and having an action of multiplying a value stored in the state variable by a gain. The multipliers 1 to N (44 to 45) are configured such that the gain values of the multipliers 1 to N (44 to 45) are fixed so that the poles of the digital filter exist outside the unit circle in the Z plane. Thus, the initial value of the state variable is set by the seed.
[0136]
In the present embodiment, as the nonlinear digital filter, in particular, the coefficients 44 to 45 of the multipliers 1 to N are fixed so that the pole is outside the unit circle in the Z plane, and the adder 41 has a nonlinear addition characteristic. 11 is characterized in that a seed 46 serving as an initial value of the state variables 1 to N (42 to 43) is given from the seed storage unit, and a digital filter having a recursive structure whose input vector is a zero sequence is used. The fixed vector reading unit 134 and the fixed codebook 133 of the conventional CELP type speech encoding device shown in FIG. 12 or the fixed vector reading unit 511 and the fixed codebook 510 of the conventional CELP type speech decoding device shown in FIG. Replaced by the non-linear digital filter 40 and the seed storage unit, the fixed vector is directly used as a fixed codebook (ROM Since it is not necessary to store, it is possible to significantly reduce the memory capacity.
[0137]
FIG. 5 is a conceptual diagram of the characteristics of the adder 41 of the nonlinear digital filter 40 of FIG. 4, and shows the input / output relationship of the adder 41 having a 2's complement characteristic. The adder 41 is a characteristic used to first obtain an adder input sum 55 that is a sum of input values to the adder 41, and then to calculate an adder output 56 for the input. As the non-linear digital filter 40, in particular, a non-linear digital filter 40 characterized in that the structure is a secondary direct II type structure, and the non-linear addition characteristic of the adder 41 is a two's complement characteristic, and the seed storage unit further includes: In particular, the 32words seed vector described in (Table 6) is stored.
[0138]
[Table 6]
Figure 0004003240
[0139]
(Embodiment 5)
FIG. 6 is a block diagram of a main part of the speech encoding apparatus / decoding apparatus according to the present embodiment. In FIG. 6, 61 is a sound source storage unit, 62 is a sound source addition vector generation unit, 63 is an LPC synthesis filter unit, 64 is past sound source vectors 64 and 65 stored in the sound source storage unit 61, and sound source addition vector generation unit A sound source vector output from 62, 66 a synthesized sound output from the LPC synthesis filter unit 63, and 67 a generated vector identification number input to the sound source addition vector generation unit.
[0140]
The sound source addition vector generation unit 62 performs different processing on the past sound source vector 64 depending on the value of the input generation vector identification number 67 to generate a different sound source addition vector, and the LPC synthesis filter unit 63 receives the input sound source vector. 65 is LPC synthesized and a synthesized sound 66 is output.
[0141]
In the present embodiment, the stochastic vector reading unit 138 and the stochastic codebook 120 of the conventional CELP speech encoder shown in FIG. 11 or the stochastic codebook 120 of the conventional CELP speech decoder shown in FIG. The vector reading unit 515 and the probabilistic codebook 514 are replaced with the excitation addition vector generation unit 62 and the excitation storage unit 61, respectively, so that it is not necessary to store the probabilistic vector in the probabilistic codebook (ROM) as it is. Therefore, the memory capacity can be greatly reduced.
[0142]
(Embodiment 6)
FIG. 7 is a block diagram of a sound source addition vector generation unit according to this embodiment. In FIG. 7, 68 is a sound source storage unit, 69 is a sound source addition vector generation unit, 70 is a read processing unit, 71 is a deacceleration processing unit, 72 is a multiplication processing unit, 73 is a thinning processing unit, 74 is an interpolation processing unit, 75 is an addition processing unit, 76 is a process determination / instruction unit, 77 is a sound source addition vector output from the addition processing unit 75, and 78 is a sound source vector output from the sound source addition vector generation unit 69.
[0143]
The sound source addition vector generation unit 69 performs a process of reading a plurality of element vectors having different lengths from different positions in the sound source storage unit 68, and a process of rearranging the plurality of element vectors after the read process in reverse order A reverse-acceleration processing unit 71 for performing the processing, a multiplication processing unit 72 for performing processing for multiplying the plurality of vectors after the reverse-adaptation processing by different gains, and a processing for reducing the vector length of the plurality of vectors after the multiplication processing. A thinning processing unit 73, an interpolation processing unit 74 that performs processing for increasing the vector length of a plurality of vectors after the thinning processing, and an addition processing unit 75 that performs processing for adding a plurality of vectors after the interpolation processing. And determine the specific processing method according to the value of the generated generation vector identification number and refer to it when determining the function to instruct each processing unit and the specific processing content. It constituted by a processing determination and instruction unit 76 having both the function of retaining number conversion correspondence map (Table 7).
[0144]
[Table 7]
Figure 0004003240
[0145]
Here, the sound source addition vector generation unit 69 will be described in more detail. The sound source addition vector generation unit 69 receives the specific processing methods of the read processing unit 70, the reverse order processing unit 71, the multiplication processing unit 72, the decimation processing unit 73, the interpolation processing unit 74, and the addition processing unit 75. The generated vector identification number 79 (which takes an integer value of 0 to 127 in a 7-bit bit string) is compared with the number conversion correspondence map (see Table 7), and the specific processing method is output to each processing unit. .
[0146]
First, the read processing unit 73 pays attention to the lower 4 bit string (n1 to integer value from n1: 0) of the input generation vector identification number, and has an element of length 100 from the end of the sound source storage unit 68 to the position n1. Cut out vector 1 (V1). Next, paying attention to a 5-bit sequence (an integer value from n2: 0 to 31) obtained by combining the lower 2-bit sequence and the upper 3-bit sequence of the generated generation vector identification number, n2 + 14 (14 to 45) from the end of the sound source storage unit 68. The element vector 2 (V2) having a length of 78 is cut out to the position of (integer value). Further, paying attention to the upper 5-bit string (n3: 0 to 31 integer value) of the generated generation vector identification number, the length Ns from the position of n3 + 46 (46 to 77 integer value) from the end of the sound source storage unit 68. The element vector 3 (V3) of (= 52) is cut out, and the process of outputting V1, V2, and V3 to the reverse order processing unit is performed.
[0147]
If the least significant 1 bit of the generated vector identification number is “0”, the reverse order processing unit 74 newly outputs vectors obtained by rearranging V1, V2, and V3 in reverse order to the multiplication processing unit 72 as V1, V2, and V3. If “1”, V1, V2 and V3 are output to the multiplication processing unit 72 as they are.
[0148]
The multiplication processing unit 75 pays attention to the 2-bit string obtained by combining the upper 7 bits and the upper 6 bits of the generated vector identification number. If the bit string is “00”, the amplitude of V2 is multiplied by −2, and if it is “01”. V3 amplitude is multiplied by -2, if it is '10', the amplitude of V1 is multiplied by -2 and if it is '11', a vector obtained by doubling the amplitude of V2 is output to the thinning unit 76 as new V1, V2, and V3. .
[0149]
The thinning processing unit 76 pays attention to the 2-bit string obtained by combining the upper 4 bits and the upper 3 bits of the generated generation vector identification number, and if the bit string is “00”, every other sample from V1, V2, and V3. 26 vectors taken out are output to the interpolation processing unit 74 as new V1, V2, and V3. If '01', 26 samples are taken every other sample from V1 and V3, and every two samples from V2. Are output to the interpolation processing unit 74 as new V1, V3, and V2, and if “10”, vectors obtained by extracting 26 samples from V1 every other sample and every other sample from V2 and V3 are newly obtained as V1, V2. , V3 and output to the interpolation processing unit 77. If '11', every 3 samples from V1, every 2 samples from V2, and every other sample from V3 And outputs it to the interpolation processing unit 77 of the 26 samples extracted vector as a new V1, V2, V3.
[0150]
The interpolation processing unit 77 pays attention to the upper 3 bits of the generated vector identification number. If the value is “0”, V1, V2, and V3 are respectively converted into even-numbered samples of the zero vector of length Ns (= 52). The substituted vectors are output to the addition processing unit 75 as new V1, V2, and V3. If “1”, V1, V2, and V3 are respectively substituted into odd-numbered samples of zero vectors of length Ns (= 52). Are output to the addition processing unit 75 as new V1, V2, and V3.
[0151]
The addition processing unit 75 adds the three vectors (V1, V2, 3) generated by the interpolation processing unit 74 to generate and output a sound source addition vector 77.
[0152]
In the present embodiment, the stochastic vector reading unit 138 and the stochastic codebook 120 of the conventional CELP speech encoder shown in FIG. 11 or the stochastic codebook 120 of the conventional CELP speech decoder shown in FIG. The vector reading unit 515 and the probabilistic codebook 514 are replaced with the excitation addition vector generation unit 72 and the excitation storage unit 71, respectively, so that it is not necessary to store the probabilistic vector in the probabilistic codebook (ROM) as it is. Therefore, the memory capacity can be greatly reduced.
[0153]
(Embodiment 7)
FIG. 8 is a block diagram of a main part of the speech encoding apparatus / decoding apparatus according to the present embodiment. In FIG. 8, 80 is a buffer, 81 is an LPC analysis unit, 82 is a quantization target LSP addition unit, 83 is an LSP quantization table storage unit, 84 is an LSP quantization / decoding unit, and 85 is an LSP quantization error comparison unit. 86 is a quantization target LSP output from the quantization target LSP adding unit, and 87 is a decoding LSP output from the LSP quantization / decoding unit.
[0154]
The LPC analysis unit 81 performs linear prediction analysis on the processing frame in the buffer 80 to obtain LPC, converts the obtained LPC to generate a quantization target LSP, and converts the generated quantization target LSP into a quantization target Output to LSP adder.
[0155]
The quantization target LSP adding unit 82 generates a plurality of quantization target LSPs in addition to the quantization target LSP obtained directly by converting the LPC of the processing frame in the LPC analysis unit 81.
[0156]
The LSP quantization table storage unit 83 stores the quantization table referred to by the LSP quantization / decoding unit 84, and the LSP quantization / decoding unit 84 quantizes / decodes the generated quantization target LSP 86. , Each decryption LSP is generated.
[0157]
The LSP quantization error comparison unit 85 compares the plurality of generated decoded LSPs, selects one decoded LSP with the least abnormal noise in a closed loop, and selects the selected decoded LSP for the processing frame. As a new adoption.
[0158]
According to the present embodiment, it is possible to reduce abnormal sounds in the synthesized sound that may occur when the quantization characteristics of the LSP are insufficient.
[0159]
(Embodiment 8)
FIG. 9 is a block diagram of the quantization target LSP adding unit according to this embodiment. In FIG. 9, 90 is an LPC analysis unit, 91 is a quantization target LSP addition unit, 92 is a current frame LSP storage unit, 93 is a prefetch section LSP storage unit, 94 is a previous frame LSP storage unit, 95 is a linear interpolation unit, 96 Is an LSP quantization / decoding unit, and 97 is a decoding LSP output from the LSP quantization / decoding unit 96.
[0160]
The LPC analysis unit 90 performs linear prediction analysis on the prefetched section in the buffer to obtain LPC for the prefetched section, converts the obtained LPC to generate an LSP for the prefetched section, and adds the quantization target LSP adding unit 91. It also has a function to output to.
[0161]
The quantization target LSP adding unit 91 stores the current frame LSP storage unit 92 that stores the quantization target LSP of the processing frame obtained by the LPC analysis unit 90, and the prefetch section that stores the LSP of the prefetch section obtained by the LPC analysis unit 90. The LSP storage unit 93, the previous frame LSP storage unit 94 that stores the decoded LSP of the preprocessed frame, and the LSP read from the three storage units are subjected to linear interpolation calculation to add a plurality of quantization target LSPs. The linear interpolation unit 95 is used. By performing linear interpolation calculation on the quantization target LSP of the processing frame, the LSP of the prefetch section, and the decoding LSP of the preprocessing frame, a plurality of quantization target LSPs are additionally generated, and all the generated quantization target LSPs are The data is output to the LSP quantization / decoding unit 96.
[0162]
Here, the quantization target LSP adding unit 91 will be described in more detail. The LPC analysis unit 90 performs linear prediction analysis on the processing frame in the buffer to obtain a prediction order Np (= 10) -order LPCα (i) (1 ≦ i ≦ Np), and converts the obtained LPC The quantization target LSPω (i) (1 ≦ i ≦ Np) is generated, and the generated quantization target LSPω (i) (1 ≦ i ≦ Np) is converted into the current frame LSP storage unit 92 in the quantization target LSP adding unit 91. To store. Further, linear prediction analysis is performed on the prefetch section in the buffer to obtain LPC for the prefetch section, and the obtained LPC is converted to generate LSPωf (i) (1 ≦ i ≦ Np) for the prefetch section. LSPωf (i) (1 ≦ i ≦ Np) for the prefetch section is stored in the prefetch section LSP storage section 93 in the quantization target LSP adding section 91.
[0163]
Next, the linear interpolation unit 95 sends the quantization target LSPω (i) (1 ≦ i ≦ Np) for the processing frame from the current frame LSP storage unit 92, and the LSPωf (i) for the prefetch interval from the prefetch section LSP storage unit 93 ( 1 ≦ i ≦ Np), the decoded LSP ωqp (i) (1 ≦ i ≦ Np) for the preprocessed frame is read from the previous frame LSP storage unit 94, respectively, and the conversion shown in (Equation 29) is performed. The quantization target addition first LSPω1 (i) (1 ≦ i ≦ Np), the quantization target addition second LSPω2 (i) (1 ≦ i ≦ Np), and the quantization target addition third LSPω3 (i) (1 ≦ i ≦ Np). Generate each.
[0164]
[Expression 29]
Figure 0004003240
[0165]
The generated ω1 (i), ω2 (i), and ω3 (i) are output to the LSP quantization / decoding unit 96, and the LSP quantization / decoding unit 96 outputs four quantization targets LSPω (i), ω1. After vector quantization and decoding of (i), ω2 (i), and ω3 (i), the quantization error power E ow (ω) for ω (i) and the quantization error power E ow for ω1 (i) The quantization error power E pow (ω 2) for (ω 1) and ω 2 (i) and the quantization error power E pow (ω 3) for ω 3 (i) are respectively determined, and for each calculated quantization error power ( Decoding LSP selection reference values STDlsp (ω), STDlsp (ω1), STDlsp (ω2), and STDlsp (ω3) are obtained by performing transformation of Equation 30).
[0166]
[30]
Figure 0004003240
[0167]
The obtained decoding LSP selection reference values are compared, and the decoding LSP for the quantization target LSP whose value is minimized is selected and output as the decoding LSPωq (i) (1 ≦ i ≦ Np) for the processing frame. At the same time, it is stored in the previous frame LSP storage unit 94 so that it can be referred to when the LSP of the next frame is vector quantized.
[0168]
This embodiment effectively uses the height of the interpolation characteristics of the LSP (no abnormal noise occurs even if synthesized using the interpolated LSP), and for the section where the spectrum fluctuates greatly like the beginning of a word. However, the LSP can be vector-quantized so that no abnormal sound is generated, and the abnormal sound in the synthesized sound that may be generated when the quantization characteristic of the LSP becomes insufficient can be reduced. .
[0169]
(Embodiment 9)
FIG. 10 is a block diagram of the LSP quantization / decoding unit according to the present embodiment. In FIG. 10, 100 is an LSP quantization table storage unit, 101 is an LSP quantization / decoding unit, 102 is a gain information storage unit, 103 is an adaptive gain selection unit, 104 is a gain multiplication unit, 105 is an LSP quantization unit, 106 is an LSP decoding unit, 107 is a quantization target LSP input to the LSP quantization / decoding unit 101, 108 is an adaptive gain output from the adaptive gain selection unit, and 109 is output from the LSP decoding unit 106 The LSP quantization error 110 is input to the adaptive gain selection unit 103 and 110 is a decoded LSP output from the LSP decoding unit and output from the LSP quantization / decoding unit 101.
[0170]
The LSP quantization / decoding unit 101 includes a gain information storage unit 102 that stores a plurality of gain candidates to be referred to when the adaptive gain selection unit 103 selects an adaptive gain, and a code vector read from the LSP quantization table storage unit 100 In addition, a gain multiplier 104 that multiplies the adaptive gain selected by the adaptive gain selector 103, an LSP quantizer 105 that vector-quantizes the quantization target LSP using a code vector multiplied by the adaptive gain, and a vector-quantized LSP. LSP decoding unit having a function of decoding and generating and outputting decoded LSP 110, and a function of obtaining LSP quantization error 109, which is a difference between quantization target LSP and decoded LSP, and outputting the result to adaptive gain selecting unit 103 106, multiply the code vector when the LSP of the preprocessing frame is vector quantized Based on the magnitude of the adaptive gain and the magnitude of the LSP quantization error 109 for the previous frame, the adaptive gain to be multiplied by the code vector when vector quantization is performed on the quantization target LSP of the processing frame is stored in the gain storage unit 102 The adaptive gain selection unit 103 outputs the obtained adaptive gain to the gain multiplication unit 104 while adaptively adjusting based on the gain generation information, and adaptively adjusts the adaptive gain multiplied by the code vector. However, the quantization target LSP is subjected to vector quantization and decoding.
[0171]
Here, the LSP quantization / decoding unit 101 will be described in more detail. The gain information storage unit 102 stores four gain candidates (0.9, 1.0, 1.1, 1.2) referred to by the adaptive gain selection unit 103. The adaptive gain selection unit 103 The power ERpow generated when the quantization target LSP of the frame is quantized is divided by the square of the adaptive gain Gqlsp selected when the quantization target LSP of the preprocessing frame is vector-quantized (Equation 31), An adaptive gain selection reference value Slsp is obtained.
[0172]
[31]
Figure 0004003240
[0173]
One of the four gain candidates (0.9, 1.0, 1.1, 1.2) read from the gain information storage unit 102 by using the obtained reference value S1sp for adaptive gain selection (Formula 32). A gain is selected and output to the gain multiplier 104 as an adaptive gain Glsp.
[0174]
[Expression 32]
Figure 0004003240
[0175]
The selected adaptive gain Glsp and the error caused by the quantization are stored in the variable Gqlsp and the variable ERpow until the quantization target LSP of the next frame is vector quantized.
[0176]
The gain multiplication unit 104 multiplies the code vector read from the LSP quantization table storage unit 100 by the adaptive gain Glsp 108 selected by the adaptive gain selection unit 103 and outputs the result to the LSP quantization unit 105. The LSP quantization unit 105 The quantization target LSP 107 is vector-quantized using the code vector multiplied by the gain, and the LSP decoding unit 106 decodes the LSP quantized by the LSP quantization unit 105 to obtain a decoded LSP, and the obtained decoding The LSP 110 is output, and the obtained decoded LSP is subtracted from the quantization target LSP to obtain the LSP quantization error 109. The power ERpow of the obtained LSP quantization error 109 is calculated and output to the adaptive gain selection unit 103. To do.
[0177]
The present embodiment can reduce abnormal sounds in the synthesized sound that may occur when the quantization characteristics of the LSP are insufficient.
[0178]
【The invention's effect】
As described above, according to the present invention, the following three advantageous effects can be obtained.
(1) The memory capacity can be significantly reduced by using the vector series output from the oscillator as a fixed vector or a stochastic vector.
(2) The memory capacity can be greatly reduced by using the excitation addition vector generated by performing several types of processing on the past excitation signal stored in the adaptive codebook as a fixed vector or a stochastic vector.
(3) In LSP quantization, a plurality of quantization target LSPs are prepared, and all of them are quantized and decoded to select a quantization target LSP with the smallest noise of the synthesized sound. Abnormal noise can be reduced.
[Brief description of the drawings]
FIG. 1 is a block diagram of a main part of a speech encoding / decoding device according to an embodiment of the present invention.
FIG. 2 is a block diagram of main parts of a speech encoding / decoding device according to an embodiment of the present invention.
FIG. 3 is a block diagram of a main part of a speech encoding / decoding device according to an embodiment of the present invention.
FIG. 4 is a block diagram of a nonlinear digital filter according to an embodiment of the present invention.
FIG. 5 is a conceptual diagram of an adder characteristic of a nonlinear digital filter according to an embodiment of the present invention.
FIG. 6 is a block diagram of a main part of a speech encoding / decoding device according to an embodiment of the present invention.
FIG. 7 is a block diagram of a sound source addition vector generation unit according to an embodiment of the present invention.
FIG. 8 is a block diagram of a main part of a speech encoding / decoding device according to an embodiment of the present invention.
FIG. 9 is a block diagram of a quantization target LSP adding unit according to an embodiment of the present invention;
FIG. 10 is a block diagram of an LSP quantization / decoding unit according to an embodiment of the present invention.
FIG. 11 is a block diagram showing a conventional CELP speech coding apparatus.
FIG. 12 is a block diagram showing a conventional CELP speech coding apparatus.
[Explanation of symbols]
11 Seed storage
12 Oscillator
13 LPC synthesis filter section
21 Seed storage
22 Nonlinear oscillator
23 LPC synthesis filter
31 Seed storage
32 Nonlinear digital filter
33 LPC synthesis filter section
40 Nonlinear digital filter
41 Adder
61 Sound source storage
62 Sound source addition vector generation unit
63 LPC synthesis filter section
68 Sound source storage
69 Sound Source Addition Vector Generator
70 Read processing unit
71 Inverse acclimatization processing unit
72 Multiplication processor
73 Thinning processing unit
74 Interpolation processing unit
75 Addition processing part
76 Processing decision / instruction part
80 buffers
81 LPC analyzer
82 LSP adder for quantization
83 LSP quantization table storage
84 LSP quantization / decoding unit
85 LSP quantization error comparator
90 LPC Analysis Department
91 LSP addition unit for quantization
92 Current frame LSP storage unit
93 Look-ahead section LSP storage unit
94 Previous frame LSP storage
95 Linear interpolation unit
96 LSP quantization / decoding part
100 LSP quantization table storage unit
101 LSP quantization / decoding unit
102 Gain information storage unit
103 Adaptive gain selector
104 Gain multiplier
105 LSP quantizer
106 LSP decoder

Claims (10)

CELP型の音声符号化装置であって、
発振の初期状態として用いる複数個のシードを格納するシード格納部と、
前記シード格納部が格納するシードの値に応じて異なるベクトル系列を生成し音源ベクトルとして出力する発振器と、
前記シードの値に応じて生成されたベクトル系列である前記音源ベクトルを入力し且つ前記音源ベクトルをLPC合成して合成音を出力するLPC合成フィルタ部と、
を具備し、
前記シード格納部は、
前記発振器において生成されるベクトル系列が前記LPC合成フィルタ部に入力された場合に合成音を生成しうる有効な音源ベクトルとして機能するべく前記発振の初期状態として予め用意された複数個のシードを格納し、
前記発振器は、
前記シード格納部から前記シードを入力し、入力された前記シードを用いて、前記LPC合成フィルタ部にて合成音を生成しうる前記音源ベクトルとして有効に機能するベクトル系列を生成して出力する
ことを特徴とする音声符号化装置。
A CELP type speech encoding apparatus,
A seed storage unit for storing a plurality of seeds used as an initial state of oscillation;
An oscillator that generates a different vector sequence according to a seed value stored in the seed storage unit and outputs it as a sound source vector;
An LPC synthesis filter unit that inputs the sound source vector that is a vector sequence generated according to the value of the seed and outputs the synthesized sound by LPC synthesis of the sound source vector ;
Equipped with,
The seed storage unit
Stores a plurality of seeds prepared in advance as an initial state of the oscillation to function as an effective sound source vector that can generate a synthesized sound when a vector sequence generated in the oscillator is input to the LPC synthesis filter unit And
The oscillator is
The seed is input from the seed storage unit, and using the input seed, a vector sequence that functions effectively as the sound source vector that can generate a synthesized sound in the LPC synthesis filter unit is generated and output . A speech encoding apparatus characterized by the above.
前記発振器が、非線形発振器であることを特徴とする請求項1記載の音声符号化装置。  2. The speech encoding apparatus according to claim 1, wherein the oscillator is a nonlinear oscillator. 前記非線形発振器が、非線形ディジタルフィルタであることを特徴とする請求項2記載の音声符号化装置。  The speech coding apparatus according to claim 2, wherein the nonlinear oscillator is a nonlinear digital filter. 前記非線形ディジタルフィルタは、状態変数にゲインを乗ずる乗算器を有し、且つ、前記シード格納部から前記状態変数の初期値を入力するとともに、極がZ平面における単位円外に存在するべく前記乗算器の係数を固定し、前記入力ベクトルがゼロ系列である再帰構造のディジタルフィルタであることを特徴とする請求項3記載の音声符号化装置。  The non-linear digital filter has a multiplier for multiplying a state variable by a gain, inputs an initial value of the state variable from the seed storage unit, and multiplies the pole so that the pole is outside the unit circle in the Z plane. 4. The speech encoding apparatus according to claim 3, wherein the coefficient is a recursive digital filter with a fixed coefficient and the input vector being a zero sequence. 前記非線形ディジタルフィルタの非線形特性が2の補数加算特性により与えられることを特徴とする請求項4記載の音声符号化装置。  5. The speech coding apparatus according to claim 4, wherein the nonlinear characteristic of the nonlinear digital filter is given by a two's complement addition characteristic. CELP型の音声復号化装置であって、
発振の初期状態として用いる複数個のシードを格納するシード格納部と、
前記シード格納部が格納するシードの値に応じて異なるベクトル系列を生成し音源ベク
トルとして出力する発振器と、
前記シードの値に応じて生成されたベクトル系列である前記音源ベクトルを入力し且つ前記音源ベクトルをLPC合成して合成音を出力するLPC合成フィルタ部と、
を具備し、
前記シード格納部は、
前記発振器において生成されるベクトル系列が前記LPC合成フィルタ部に入力された場合に合成音を生成しうる有効な音源ベクトルとして機能するべく前記発振の初期状態として予め用意された複数個のシードを格納し、
前記発振器は、
前記シード格納部から前記シードを入力し、入力された前記シードを用いて、前記LPC合成フィルタ部にて合成音を生成しうる前記音源ベクトルとして有効に機能するベクトル系列を生成して出力する
ことを特徴とする音声復号化装置。
A CELP-type speech decoding apparatus,
A seed storage unit for storing a plurality of seeds used as an initial state of oscillation;
An oscillator that generates a different vector sequence according to a seed value stored in the seed storage unit and outputs it as a sound source vector;
An LPC synthesis filter unit that inputs the sound source vector that is a vector sequence generated according to the value of the seed and outputs the synthesized sound by LPC synthesis of the sound source vector ;
Equipped with,
The seed storage unit
Stores a plurality of seeds prepared in advance as an initial state of the oscillation to function as an effective sound source vector that can generate a synthesized sound when a vector sequence generated in the oscillator is input to the LPC synthesis filter unit And
The oscillator is
The seed is input from the seed storage unit, and using the input seed, a vector sequence that functions effectively as the sound source vector that can generate a synthesized sound in the LPC synthesis filter unit is generated and output . A speech decoding apparatus characterized by the above.
前記発振器が、非線形発振器であることを特徴とする請求項6記載の音声復号化装置。The speech decoding apparatus according to claim 6, wherein the oscillator is a non-linear oscillator. 前記非線形発振器が、非線形ディジタルフィルタであることを特徴とする請求項7記載の音声復号化装置。  8. The speech decoding apparatus according to claim 7, wherein the nonlinear oscillator is a nonlinear digital filter. 前記非線形ディジタルフィルタは、状態変数にゲインを乗ずる乗算器を有し、且つ、前記シード格納部から前記状態変数の初期値を入力するとともに、極がZ平面における単位円外に存在するべく前記乗算器の係数を固定し、前記入力ベクトルがゼロ系列である再帰構造のディジタルフィルタであることを特徴とする請求項8記載の音声復号化装置。  The non-linear digital filter has a multiplier for multiplying a state variable by a gain, inputs an initial value of the state variable from the seed storage unit, and multiplies the pole so that the pole is outside the unit circle in the Z plane. 9. The speech decoding apparatus according to claim 8, wherein the apparatus is a digital filter having a recursive structure in which a coefficient of a filter is fixed and the input vector is a zero sequence. 前記非線形ディジタルフィルタの非線形特性が2の補数加算特性により与えられることを特徴とする請求項9記載の音声復号化装置。  10. The speech decoding apparatus according to claim 9, wherein the nonlinear characteristic of the nonlinear digital filter is given by a two's complement addition characteristic.
JP29473896A 1996-11-07 1996-11-07 Speech coding apparatus and speech decoding apparatus Expired - Lifetime JP4003240B2 (en)

Priority Applications (101)

Application Number Priority Date Filing Date Title
JP29473896A JP4003240B2 (en) 1996-11-07 1996-11-07 Speech coding apparatus and speech decoding apparatus
KR1020017001046A KR100339168B1 (en) 1996-11-07 1997-11-06 Excitation vector generator, speech coder, and speech decoder
CA2614625A CA2614625C (en) 1996-11-07 1997-11-06 A noise canceller for removing a noise component from an input speech signal
CNB011324198A CN1170267C (en) 1996-11-07 1997-11-06 Acoustic vector generator, and acoustic encoding and decoding device
EP00121467A EP1071082B1 (en) 1996-11-07 1997-11-06 Vector quantization codebook generation method and generator
EP00126851A EP1094447B1 (en) 1996-11-07 1997-11-06 Vector quantization codebook generation method
EP99126129A EP0994462B1 (en) 1996-11-07 1997-11-06 Excitation vector generation
DE69711715T DE69711715T2 (en) 1996-11-07 1997-11-06 Excitation vector generation
EP00121447A EP1071078B1 (en) 1996-11-07 1997-11-06 Vector quantization codebook generation method and apparatus
EP00121458A EP1074978B1 (en) 1996-11-07 1997-11-06 Vector quantization codebook generation apparatus
CA002355973A CA2355973C (en) 1996-11-07 1997-11-06 Excitation vector generator, speech coder and speech decoder
CNB011324236A CN1178204C (en) 1996-11-07 1997-11-06 Acoustic vector, and acoustic encoding and decoding device
DE69723324T DE69723324T2 (en) 1996-11-07 1997-11-06 Method for generating a vector quantization code book
DE69712537T DE69712537T2 (en) 1996-11-07 1997-11-06 Method for generating a vector quantization code book
US09/101,186 US6453288B1 (en) 1996-11-07 1997-11-06 Method and apparatus for producing component of excitation vector
EP99126130A EP0992981B1 (en) 1996-11-07 1997-11-06 Excitation Method Generator and Excitation Vector Generating Method
EP00121466A EP1071081B1 (en) 1996-11-07 1997-11-06 Vector quantization codebook generation method
DE69715478T DE69715478T2 (en) 1996-11-07 1997-11-06 Method and device for CELP speech coding and decoding
CNB031603556A CN1262994C (en) 1996-11-07 1997-11-06 Sound source vector generator and sound coding device and sound decoding device
DE69712539T DE69712539T2 (en) 1996-11-07 1997-11-06 Method and apparatus for generating a vector quantization code book
PCT/JP1997/004033 WO1998020483A1 (en) 1996-11-07 1997-11-06 Sound source vector generator, voice encoder, and voice decoder
EP02000123A EP1217614A1 (en) 1996-11-07 1997-11-06 Vector quantization codebook generation method
AU48842/97A AU4884297A (en) 1996-11-07 1997-11-06 Sound source vector generator, voice encoder, and voice decoder
CNA2005100714801A CN1677489A (en) 1996-11-07 1997-11-06 Sound source vector generator, voice encoder, and voice decoder
EP00121445A EP1074977B1 (en) 1996-11-07 1997-11-06 Vector quantization codebook generation method
CNB200310114349XA CN1223994C (en) 1996-11-07 1997-11-06 Sound source vector generator, voice encoder, and voice decoder
EP00121446A EP1071077B1 (en) 1996-11-07 1997-11-06 Vector quantization codebook generator
CNB011324244A CN1170269C (en) 1996-11-07 1997-11-06 Acoustic vector generator, and acoustic encoding and decoding device
DE69712535T DE69712535T2 (en) 1996-11-07 1997-11-06 Device for generating a vector quantization code book
CN2006100799202A CN1845239B (en) 1996-11-07 1997-11-06 Excitation vector generator, speech coder and speech decoder
CA002355978A CA2355978C (en) 1996-11-07 1997-11-06 Excitation vector generator, speech coder and speech decoder
DE69708693.3T DE69708693C5 (en) 1996-11-07 1997-11-06 Method and apparatus for CELP speech coding or decoding
CNB011324201A CN1169117C (en) 1996-11-07 1997-11-06 Acoustic vector generator, and acoustic encoding and decoding apparatus
KR1020017010774A KR20030096444A (en) 1996-11-07 1997-11-06 Excitation vector generator and method for generating an excitation vector
CNB97191558XA CN1167047C (en) 1996-11-07 1997-11-06 Sound source vector generator, voice encoder, and voice decoder
CA2551458A CA2551458C (en) 1996-11-07 1997-11-06 A vector quantization apparatus
EP00126299A EP1136985B1 (en) 1996-11-07 1997-11-06 Apparatus and method for CELP speech coding and decoding
CA002356049A CA2356049C (en) 1996-11-07 1997-11-06 Excitation vector generator, speech coder and speech decoder
EP00126875A EP1085504B1 (en) 1996-11-07 1997-11-06 CELP-Codec
EP00121460A EP1071079B1 (en) 1996-11-07 1997-11-06 Vector quantization codebook generation method
CNB011324228A CN1188833C (en) 1996-11-07 1997-11-06 Acoustic vector generator, and acoustic encoding and decoding device
DE69708697T DE69708697T2 (en) 1996-11-07 1997-11-06 Method for generating a vector quantization codebook, and apparatus and method for speech coding / decoding
EP97911460A EP0883107B9 (en) 1996-11-07 1997-11-06 Sound source vector generator, voice encoder, and voice decoder
DE69710505T DE69710505T2 (en) 1996-11-07 1997-11-06 Method and apparatus for generating a vector quantization code book
DE69712538T DE69712538T2 (en) 1996-11-07 1997-11-06 Method for generating a vector quantization code book
CN2011100659405A CN102129862B (en) 1996-11-07 1997-11-06 Noise reduction device and voice coding device with the same
DE69710794T DE69710794T2 (en) 1996-11-07 1997-11-06 Device for generating a vector quantization codebook
CN2006101007075A CN1877698B (en) 1996-11-07 1997-11-06 Acoustic source vector generator and method
KR10-2003-7012052A KR20040000406A (en) 1996-11-07 1997-11-06 Modified vector generator
DE69713633T DE69713633T2 (en) 1996-11-07 1997-11-06 Method for generating a vector quantization code book
CA002356051A CA2356051C (en) 1996-11-07 1997-11-06 Excitation vector generator, speech coder and speech decoder
CA002242345A CA2242345C (en) 1996-11-07 1997-11-06 Excitation vector generator, speech coder and speech decoder
EP99126131A EP0992982B1 (en) 1996-11-07 1997-11-06 Vector quantization codebook generation method, and speech coding/decoding method and apparatus using the same
KR1019980705215A KR100306817B1 (en) 1996-11-07 1997-11-06 Sound source vector generator, voice encoder, and voice decoder
EP00121464A EP1071080B1 (en) 1996-11-07 1997-11-06 Vector quantization codebook generation method
EP01108523A EP1132894B1 (en) 1996-11-07 1997-11-06 Vector quantisation codebook generation method
KR1020017001044A KR100326777B1 (en) 1996-11-07 1997-11-06 Generator used with a speech codec and method for generating excitation vector component
DE69708696T DE69708696T2 (en) 1996-11-07 1997-11-06 Method and apparatus for generating a vector quantization code book
DE69721595T DE69721595T2 (en) 1996-11-07 1997-11-06 Method of generating a vector quantization code book
DE69712928T DE69712928T2 (en) 1996-11-07 1997-11-06 Method for generating a vector quantization code book
CNB01132421XA CN1170268C (en) 1996-11-07 1997-11-06 Acoustic vector generator, and acoustic encoding and decoding device
DE69712927T DE69712927T2 (en) 1996-11-07 1997-11-06 CELP codec
CA2483280A CA2483280C (en) 1996-11-07 1997-11-06 Excitation vector generator, speech coder and speech decoder
CA002355975A CA2355975C (en) 1996-11-07 1997-11-06 Excitation vector generator, speech coder and speech decoder
EP99126132A EP0991054B1 (en) 1996-11-07 1997-11-06 A CELP Speech Coder or Decoder, and a Method for CELP Speech Coding or Decoding
CA002356041A CA2356041C (en) 1996-11-07 1997-11-06 Excitation vector generator, speech coder and speech decoder
DE69730316T DE69730316T2 (en) 1996-11-07 1997-11-06 SOUND SOURCE GENERATOR, LANGUAGE CODIER AND LANGUAGE DECODER
HK04107704A HK1064788A1 (en) 1996-11-07 1999-05-27 Noise cancellator
HK02103542A HK1041967A1 (en) 1996-11-07 1999-05-27 Speech coder or decoder and speech coding or decoding method.
HK02103546.1A HK1041971B (en) 1996-11-07 1999-05-27 Sound source vector generator, voice encoder and voice decoder
HK07101568.3A HK1096761A1 (en) 1996-11-07 1999-05-27 Apparatus and method for generating sound source vector
HK02103545.2A HK1041970B (en) 1996-11-07 1999-05-27 Sound source vector generator and generation method
HK02103543A HK1041968A1 (en) 1996-11-07 1999-05-27 Sound source vector generator, voice encoder and voice decoder.
HK02103541A HK1041966A1 (en) 1996-11-07 1999-05-27 Sound source vector generator, voice encoder and voice decoder.
HK04107703A HK1064787A1 (en) 1996-11-07 1999-05-27 Sound source vector generator, voice encoder, and voice decoder
HK02103544A HK1041969A1 (en) 1996-11-07 1999-05-27 Sound source vector generator, voice encoder and voice decoder.
HK99102382A HK1017472A1 (en) 1996-11-07 1999-05-27 Sound source vector generator and method for generating a sound source vector.
US09/440,083 US6421639B1 (en) 1996-11-07 1999-11-15 Apparatus and method for providing an excitation vector
US09/440,199 US6345247B1 (en) 1996-11-07 1999-11-15 Excitation vector generator, speech coder and speech decoder
US09/440,093 US6910008B1 (en) 1996-11-07 1999-11-15 Excitation vector generator, speech coder and speech decoder
US09/440,092 US6330535B1 (en) 1996-11-07 1999-11-15 Method for providing excitation vector
US09/440,087 US6330534B1 (en) 1996-11-07 1999-11-15 Excitation vector generator, speech coder and speech decoder
KR1020017001038A KR100306814B1 (en) 1996-11-07 2001-01-22 Celp speech coder or decoder, and celp speech coding or decoding method
KR1020017001040A KR100306816B1 (en) 1996-11-07 2001-01-22 Celp speech coder or decoder, and celp speech coding or decoding method
KR1020017001039A KR100306815B1 (en) 1996-11-07 2001-01-22 Celp speech coder or decoder, and celp speech coding or decoding method
KR1020017001045A KR100304391B1 (en) 1996-11-07 2001-01-22 Excitation vector generator and excitation vector generating method
US09/843,939 US6947889B2 (en) 1996-11-07 2001-04-30 Excitation vector generator and a method for generating an excitation vector including a convolution system
US09/843,877 US6799160B2 (en) 1996-11-07 2001-04-30 Noise canceller
US09/843,938 US6772115B2 (en) 1996-11-07 2001-04-30 LSP quantizer
US09/849,398 US7289952B2 (en) 1996-11-07 2001-05-07 Excitation vector generator, speech coder and speech decoder
US09/855,708 US6757650B2 (en) 1996-11-07 2001-05-16 Excitation vector generator, speech coder and speech decoder
US10/036,451 US20020099540A1 (en) 1996-11-07 2002-01-07 Modified vector generator
US11/126,171 US7587316B2 (en) 1996-11-07 2005-05-11 Noise canceller
US11/421,932 US7398205B2 (en) 1996-11-07 2006-06-02 Code excited linear prediction speech decoder and method thereof
US11/508,852 US20070100613A1 (en) 1996-11-07 2006-08-24 Excitation vector generator, speech coder and speech decoder
HK07103753.4A HK1097945A1 (en) 1996-11-07 2007-04-11 Sound source vector generator, voice encoder, and voice decoder
US12/134,256 US7809557B2 (en) 1996-11-07 2008-06-06 Vector quantization apparatus and method for updating decoded vector storage
US12/198,734 US20090012781A1 (en) 1996-11-07 2008-08-26 Speech coder and speech decoder
US12/781,049 US8036887B2 (en) 1996-11-07 2010-05-17 CELP speech decoder modifying an input vector with a fixed waveform to transform a waveform of the input vector
US12/870,122 US8086450B2 (en) 1996-11-07 2010-08-27 Excitation vector generator, speech coder and speech decoder
US13/302,677 US8370137B2 (en) 1996-11-07 2011-11-22 Noise estimating apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP29473896A JP4003240B2 (en) 1996-11-07 1996-11-07 Speech coding apparatus and speech decoding apparatus

Related Child Applications (2)

Application Number Title Priority Date Filing Date
JP2007080962A Division JP4525693B2 (en) 2007-03-27 2007-03-27 Speech coding apparatus and speech decoding apparatus
JP2007080963A Division JP4525694B2 (en) 2007-03-27 2007-03-27 Speech encoding device

Publications (2)

Publication Number Publication Date
JPH10143198A JPH10143198A (en) 1998-05-29
JP4003240B2 true JP4003240B2 (en) 2007-11-07

Family

ID=17811673

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29473896A Expired - Lifetime JP4003240B2 (en) 1996-11-07 1996-11-07 Speech coding apparatus and speech decoding apparatus

Country Status (2)

Country Link
JP (1) JP4003240B2 (en)
CN (2) CN1877698B (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
ES2474915T3 (en) * 2006-12-13 2014-07-09 Panasonic Intellectual Property Corporation Of America Encoding device, decoding device and corresponding methods
CN101286320B (en) * 2006-12-26 2013-04-17 华为技术有限公司 Method for gain quantization system for improving speech packet loss repairing quality
US8688437B2 (en) 2006-12-26 2014-04-01 Huawei Technologies Co., Ltd. Packet loss concealment for speech coding
EP2645368B1 (en) * 2010-11-24 2019-05-08 Nec Corporation Signal processing device, signal processing method and signal processing program

Also Published As

Publication number Publication date
JPH10143198A (en) 1998-05-29
CN1845239A (en) 2006-10-11
CN1877698B (en) 2011-11-09
CN1877698A (en) 2006-12-13
CN1845239B (en) 2010-08-25

Similar Documents

Publication Publication Date Title
JP5519334B2 (en) Open-loop pitch processing for speech coding
JP3042886B2 (en) Vector quantizer method and apparatus
JP3432082B2 (en) Pitch delay correction method during frame loss
US5359696A (en) Digital speech coder having improved sub-sample resolution long-term predictor
EP0770989B1 (en) Speech encoding method and apparatus
EP0772186B1 (en) Speech encoding method and apparatus
WO1998020483A1 (en) Sound source vector generator, voice encoder, and voice decoder
JPH09120298A (en) Sorting of vocalization from nonvocalization of voice used for decoding of voice during frame during frame vanishment
JPH09120299A (en) Voice compression system based on adaptive code book
JPH08263099A (en) Encoder
WO2001020595A1 (en) Voice encoder/decoder
US5659659A (en) Speech compressor using trellis encoding and linear prediction
JP3268360B2 (en) Digital speech coder with improved long-term predictor
JP3343082B2 (en) CELP speech encoder
JPH09120297A (en) Gain attenuation for code book during frame vanishment
JP4003240B2 (en) Speech coding apparatus and speech decoding apparatus
JP4525693B2 (en) Speech coding apparatus and speech decoding apparatus
JP4525694B2 (en) Speech encoding device
US6842732B2 (en) Speech encoding and decoding method and electronic apparatus for synthesizing speech signals using excitation signals
WO2000063878A1 (en) Speech coder, speech processor, and speech processing method
JP3283152B2 (en) Speech parameter quantization device and vector quantization device
JPH06282298A (en) Voice coding method
JP3490325B2 (en) Audio signal encoding method and decoding method, and encoder and decoder thereof
JP3232701B2 (en) Audio coding method
JPH113098A (en) Method and device of encoding speech

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20050623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070330

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070625

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070704

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070731

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070813

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100831

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110831

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110831

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120831

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130831

Year of fee payment: 6

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term