JP3180786B2 - 音声符号化方法及び音声符号化装置 - Google Patents

音声符号化方法及び音声符号化装置

Info

Publication number
JP3180786B2
JP3180786B2 JP33780598A JP33780598A JP3180786B2 JP 3180786 B2 JP3180786 B2 JP 3180786B2 JP 33780598 A JP33780598 A JP 33780598A JP 33780598 A JP33780598 A JP 33780598A JP 3180786 B2 JP3180786 B2 JP 3180786B2
Authority
JP
Japan
Prior art keywords
gain
signal
pitch
delay
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP33780598A
Other languages
English (en)
Other versions
JP2000163096A (ja
Inventor
伊藤  博紀
一範 小澤
芹沢  昌宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP33780598A priority Critical patent/JP3180786B2/ja
Priority to CA002290859A priority patent/CA2290859C/en
Priority to CA002435224A priority patent/CA2435224A1/en
Priority to DE69921066T priority patent/DE69921066T2/de
Priority to US09/450,305 priority patent/US6581031B1/en
Priority to EP99123694A priority patent/EP1005022B1/en
Publication of JP2000163096A publication Critical patent/JP2000163096A/ja
Application granted granted Critical
Publication of JP3180786B2 publication Critical patent/JP3180786B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声信号を低いビ
ットレートで高品質に符号化するための音声符号化方法
及び音声符号化装置に関するものである。
【0002】
【従来の技術】音声信号を高能率に符号化する方式とし
ては、例えば、M. Schroeder and B.Atal氏による"Code
-excited linear prediction: High quality speech at
verylow bit rates" (Proc. ICASSP, pp.937-940, 198
5年)と題した論文(文献1)や、Kleijn氏らによる"Im
proved speech quality and efficient vector quantiz
ation in SELP" (Proc. ICASSP, pp.155-158, 1988年)
と題した論文(文献2)などに記載されているCELP
(Code Excited Linear Predictive Coding)が知られ
ている。
【0003】CELPでは、送信側では、フレーム毎
(例えば20ms)に音声信号から線形予測(LPC:
Linear Predictive Coding)分析を用いて、音声信号の
スペクトル特性を表すスペクトルパラメータを抽出す
る。フレームをさらにサブフレーム(例えば5ms)に
分割し、サブフレーム毎に過去の音源信号を基に適応コ
ードブックにおけるパラメータ(ピッチ周期に対応する
遅延パラメータとゲインパラメータ)を抽出し、適応コ
ードブックにより前記サブフレームの音声信号をピッチ
予測する。ピッチ予測して求めた音源信号に対して、予
め定められた種類の雑音信号からなる音源コードブック
(ベクトル量子化コードブック)から最適な音源コード
ベクトルを選択し、最適なゲインを計算することによ
り、音源信号を量子化する。音源コードベクトルの選択
の仕方は、選択した雑音信号により合成した信号と、前
記残差信号との誤差電力を最小化するように行う。そし
て、選択されたコードベクトルの種類を表すインデクス
とゲインならびに、前記スペクトルパラメータと適応コ
ードブックのパラメータをマルチプレクサ部により組み
合わせて伝送する。
【0004】
【発明が解決しようとする課題】しかしながら、上述し
たCELPでは、現サブフレームで抽出される適応コー
ドブックの遅延が、前サブフレームで計算された適応コ
ードブックの遅延に対し、整数倍以上あるいは整数の逆
数倍以下となった場合(ここで整数は2以上のある整
数)、前サブフレームと現サブフレームで適応コードブ
ックの遅延が不連続となり、音質が劣化するという問題
点があった。その理由は、現サブフレームで抽出される
適応コードブックの遅延は、ピッチ計算部により音声信
号から計算したピッチ周期付近で探索されるが、このピ
ッチ周期が前サブフレームで計算された適応コードブッ
クの遅延に対し、整数倍以上あるいは整数の逆数倍以下
となった場合、現サブフレームに対する適応コードブッ
クの探索範囲が、前サブフレームの適応コードブックの
遅延付近を含まないので、前サブフレームと現サブフレ
ームで適応コードブックの遅延が時間的に不連続になる
ことである。
【0005】本発明の目的は、上述の問題を解決し、音
質の劣化の少ない音声符号化方法及び装置を提供するこ
とにある。
【0006】
【課題を解決するための手段】本発明の音声符号化方法
は、入力された音声信号からスペクトルパラメータを求
めて量子化する工程と、ピッチ周期に基づき、過去に量
子化された音源信号から適応コードブックにより遅延と
ゲインを求めるとともに音声信号を予測して残差を求め
る工程と、スペクトルパラメータを用いて音声信号の音
源信号を量子化する工程と、音源信号のゲインを量子化
する工程と、過去に求めた適応コードブックの遅延をも
とにピッチ周期の探索の際の探索範囲を制限して、音声
信号からピッチ周期を探索する工程と、を有する。
【0007】本発明の音声符号化方法では、音声信号か
ら特徴量を抽出してモードを判別する工程をさらに設
け、判別されたモードがあらかじめ定められたモードの
場合にのみピッチ周期の探索の際の探索範囲が制限され
るようにしてもよい。
【0008】本発明の音声符号化装置は、音声信号を入
力しスペクトルパラメータを求めて量子化し出力するス
ペクトルパラメータ計算部と、音声信号からピッチ周期
を求め出力するピッチ計算部と、ピッチ計算部の出力を
もとに過去に量子化された音源信号から適応コードブッ
クにより遅延とゲインを求め音声信号を予測して残差を
求め遅延とゲインを出力する適応コードブック部と、ス
ペクトルパラメータを用いて音声信号の音源信号を量子
化し出力する音源量子化部と、音源信号のゲインを量子
化し出力するゲイン量子化部と、ピッチ周期を探索する
際に、過去に求めた適応コードブックの遅延をもとに探
索範囲を制限する制限部とを有し、制限部の出力をもと
にピッチ計算部がピッチ周期を探索し出力する。
【0009】本発明の音声符号化装置では、適応コード
ブック部が複数の遅延とゲインを求めるようにし、音源
量子化部が、複数の遅延の各々に対し音声信号の音源信
号を量子化し歪の小さい方を選択し出力するようにして
もよい。さらに、音声信号から特徴量を抽出してモード
を判別し出力する判別部を設け、あらかじめ定められた
モードの場合に、ピッチ周期を探索する際の探索範囲が
制限されるようにしてもよい。
【0010】(作用)本発明では、制限部で、前サブフ
レームで求めた適応コードブックの遅延を入力し、前サ
ブフレームで求めた適応コードブックの遅延と現在求め
る適応コードブックの遅延が不連続にならないようにピ
ッチ周期探索範囲を制限し、そのピッチ周期探索範囲を
ピッチ計算部に出力する。ピッチ計算部では、聴感重み
付け出力信号と制限部から出力されるピッチ周期探索範
囲を入力し、ピッチ周期を計算し、適応コードブック部
に少なくとも1つのピッチ周期を出力する。適応コード
ブック部では、聴感重み付け信号とゲイン量子化部から
出力される過去の音源信号とインパルス応答計算回路か
ら出力される聴感重み付けインパルス応答とピッチ計算
部から出力されるピッチ周期を入力し、このピッチ周期
近傍を探索して、適応コードブックの遅延を求める。こ
れらの構成により、サブフレーム毎に求められる適応コ
ードブックの遅延が時間的に不連続になることを避ける
ことができる。
【0011】
【発明の実施の形態】次に、本発明の好ましい実施の形
態について、図面を参照して説明する。
【0012】《第1の実施形態》図1は、本発明の第1
の実施形態の音声符号化装置の構成を示すブロック図で
ある。この音声符号化装置は、本件出願人による特開平
8−320700号公報(文献3)に示す音声符号化装
置とほぼ同様の構成の音声符号化装置に、ピッチ計算回
路400、遅延回路410及び制限回路411を付加し
た構成のものである(なお、特開平8−320800号
公報に記載のものでは、ゲインコードブックが2組設け
られているが、ここでは、ゲインコードブックは1つ設
けられている)。
【0013】この音声符号化装置では、入力端子100
から入力した音声信号をフレーム(例えば20ms)ご
とに分割するフレーム分割回路110が設けられ、フレ
ームは、サブフレーム分割回路120とスペクトルパラ
メータ計算回路200に出力される。サブフレーム分割
回路120は、フレームの音声信号をフレームよりも短
いサブフレーム(例えば5ms)に分割する。
【0014】スペクトルパラメータ計算回路200は、
少なくとも一つのサブフレームの音声信号に対して、サ
ブフレーム長よりも長い窓(例えば24ms)をかけて
音声を切り出し、スペクトルパラメータをあらかじめ定
められた次数(例えばP=10次)で計算する。ここで
スペクトルパラメータの計算には、周知のLPC分析
や、Burg分析等を用いることができる。ここでは、
Burg分析を用いることとする。Burg分析の詳細
については、中溝著による“信号解析とシステム同定”
と題した単行本(コロナ社1988年刊)の82〜87頁(文献
4)等に記載されているので、その説明は省略する。さ
らにスペクトルパラメータ計算回路200では、Bur
g法により計算された線形予測係数αi(i=1,…,1
0)が量子化や補間に適したLSP(線スペクトル対:
line spectrum pair)パラメータに変換される。ここ
で、線形予測係数からLSPへの変換は、菅村他による
“線スペクトル対(LSP)音声分析合成方式による音
声情報圧縮”と題した論文(電子通信学会論文誌,J64-
A, pp.599-606, 1981年)(文献5)を参照することが
できる。例えば、第2,4サブフレームでBurg法に
より求めた線形予測係数をLSPパラメータに変換し、
それによって第1,3サブフレームのLSPを直線補間
により求め、補間によって求めたLSPを逆変換して線
形予測係数に戻し、第1〜4サブフレームの線形予測係
数αil(i=1,…,10,l=1,…,5)を聴感重み付
け回路230に出力する。また、第4サブフレームのL
SPをスペクトルパラメータ量子化回路210へ出力す
る。
【0015】スペクトルパラメータ量子化回路210
は、LSPコードブック211を参照することにより、
あらかじめ定められたサブフレームのLSPパラメータ
を効率的に量子化し、下式の歪みDjを最小化する量子
化値を出力する。
【0016】
【数1】 ここで、LSP(i),QLSP(i)j,W(i) は、それ
ぞれ、量子化前のi次目のLSP、量子化後のj番目の
結果及び重み係数である。
【0017】以下では、量子化法として、ベクトル量子
化を用いるものとし、第4サブフレームのLSPパラメ
ータを量子化するものとする。LSPパラメータのベク
トル量子化の手法は周知の手法を用いることができる。
具体的な方法は例えば、特開平4−171500号公報
(文献6)、特開平4−363000号公報(文献
7)、特開平5−6199号公報(文献8)や、T. Nom
ura氏らによる“LSP Coding Using VQ-SVQ With Interp
olation in 4.075 kbps M-LCELP Speech Coder"と題し
た論文(Proc. Mobile Multimedia Communications, pp.
B.2.5, 1993) (文献9)等を参照できるので、ここで
は説明は省略する。
【0018】また、スペクトルパラメータ量子化回路2
10は、第4サブフレームで量子化したLSPパラメー
タをもとに、第1〜第4サブフレームのLSPパラメー
タを復元する。ここでは、現フレームの第4サブフレー
ムの量子化LSPパラメータと1つ過去のフレームの第
4サブフレームの量子化LSPパラメータとを用いて直
線補間を行い、(現フレームの)第1〜第3サブフレー
ムのLSPを復元する。ここで、量子化前のLSPと量
子化後のLSPとの誤差電力を最小化するコードベクト
ルを1種類選択した後に、直線補間により第1〜第4サ
ブフレームのLSPを復元することできる。さらに性能
を向上させるためには、前記誤差電力を最小化するコー
ドベクトルを複数候補選択したのちに、各々の候補につ
いて、累積歪を評価し、累積歪を最小化する候補と補間
LSPの組を選択するようにすることができる。詳細
は、例えば、特開平6−222797号公報(文献1
0)を参照すればよい。
【0019】スペクトルパラメータ量子化回路210
は、以上により復元した第1〜3サブフレームのLSP
と第4サブフレームの量子化LSPをサブフレームごと
に線形予測係数α'il(i=1,…,10,l=1,…,
5)に変換し、インパルス応答計算回路310へ出力す
る。また、第4サブフレームの量子化LSPのコードベ
クトルを表すインデクスをマルチプレクサ600に出力
する。
【0020】スペクトルパラメータ計算回路200、ス
ペクトルパラメータ量子化回路210及びLSPコード
ブック211によって、入力音声信号のスペクトルパラ
メータを求めて量子化し出力するスペクトルパラメータ
計算部が構成されている。
【0021】また、この音声符号化装置には、聴感重み
付けを行うための聴感重み付け回路230が設けられて
いる。聴感重み付け回路230は、スペクトルパラメー
タ計算回路200から、各サブフレーム毎に量子化前の
線形予測係数αil(i=1,…,10,l=1,…,5)を
入力し、前記文献1にもとづき、サブフレームの音声信
号に対して聴感重み付けを行い、聴感重み付け信号X
w(n)を出力する。
【0022】ピッチ計算回路400は、聴感重み付け回
路230の出力信号Xw(n)と制限回路411から出力
されるピッチ周期探索範囲とを入力とし、このピッチ周
期探索範囲内でピッチ周期Topを計算し、適応コードブ
ック回路500に少なくとも1つのピッチ周期を出力す
る。ピッチ周期Topは、前記探索範囲において、以下の
式を最大化するものが選択される。
【0023】
【数2】 ここで、Lはピッチ分析長を示す。ここでピッチ計算回
路400は、音声信号からピッチ周期を求めて出力する
ピッチ計算部であり、制限回路411は、ピッチ周期を
探索する際に、過去に求めた適応コードブックの遅延を
もとに探索範囲を制限する制限部である。
【0024】遅延回路410が適応コードブック回路5
00と制限回路411との間に設けられており、この遅
延回路410は、適応コードブック回路500から現サ
ブフレームの適応コードブックの遅延を入力し、その値
を次のサブフレームの処理まで保存し、1つ前のサブフ
レームの適応コードブックの遅延を制限回路411に出
力する。
【0025】制限回路411は、遅延回路410から出
力される、前サブフレームで求めた適応コードブックの
遅延を入力とし、ピッチ周期探索範囲を出力する。この
制限は、例えば、以下のように行う。
【0026】まず、探索するピッチ周期の範囲を表1で
示すような3つの区間に分割したテーブルを用意する。
【0027】
【表1】 例えば、前サブフレームで求められた適応コードブック
の遅延が区間1に属しているならば、探索区間は、区間
1と区間2に制限される。ここで、ピッチ周期探索範囲
の分割テーブルとして表1以外のものを用いること、あ
るいは、テーブルを時間的に変更させることも可能であ
る。
【0028】応答信号を計算するための応答信号計算回
路240は、スペクトルパラメータ計算回路200から
各サブフレームごとに線形予測係数αilを入力し、スペ
クトルパラメータ量子化回路210から、量子化、補間
して復元した線形予測係数α'ilをサブフレームごとに
入力し、保存されているフィルタメモリの値を用いて、
入力信号を零[d(n)=0]とした応答信号を1サブフ
レーム分計算し、減算器235へ出力する。ここで、応
答信号xz(n)は下式で表される。
【0029】
【数3】 ここでNはサブフレーム長を示す。γは聴感重み付け量
を制御する重み係数であり、下記の式(8)と同一の値で
ある。sw(n),p(n)は、それぞれ、重み付け信号計算
回路360の出力信号、後述の式(7)における右辺第1
項のフィルタの分母の項の出力信号をそれぞれ示す。重
み付け信号計算回路360については後述する。
【0030】減算器235は、下式により、聴感重み付
け回路230が出力する聴感重み付け信号Xw(n)から
応答信号xz(n)を1サブフレーム分減算し、x'w(n)
を適応コードブック回路500へ出力する。
【0031】
【数4】 さらに、量子化されたスペクトルパラメータからインパ
ルス応答を計算するインパルス応答計算回路310が設
けられている。インパルス応答計算回路310は、z変
換が下式で表される聴感重み付けフィルタのインパルス
応答hw(n)をあらかじめ定められた点数Lだけ計算
し、適応コードブック回路500及び音源量子化回路3
50へ出力する。
【0032】
【数5】 適応コードブック回路500は、ピッチ計算回路400
の出力をもとに、過去に量子化された音源信号から適応
コードブックをにより遅延Tとゲインβを求め、音声信
号を予測して残差(予測残差信号ew(n))を求め、遅
延T、ゲインβ及び予測残差信号ew(n)を出力するも
のである。適応コードブック回路500には、後述する
ゲイン量子化回路365から過去の音源信号v(n)が、
減算器235から出力信号x'w(n)が、インパルス応答
計算回路310から聴感重み付けインパルス応答h
w(n)が、ピッチ計算回路400からピッチ周期Top
それぞれ入力する。そして適応コードブック回路500
は、このピッチ周期Top近傍を探索して、下式の歪みを
最小化するように適応コードブックの遅延Tを求め、適
応コードブックの遅延を表すインデクスをマルチプレク
サ600に出力する。さらに、適応コードブックの遅延
の値を遅延回路410にも出力する。
【0033】
【数6】 式(9)において、記号*は畳み込み演算を表す。次に、適
応コードブック回路500は、ゲインβを下式に従い求
める。
【0034】
【数7】 ここで、女性音や、子供の声に対して、適応コードブッ
クの遅延の抽出精度を向上させるために、適応コードブ
ックの遅延を整数サンプルではなく、小数サンプル値で
求めてもよい。具体的な方法は、例えば、P.Kroon氏ら
による、"Pitchpre-dictors with high temporal resol
ution"と題した論文(Proc. ICASSP, pp.661-664, 1990
年)(文献11)等を参照することができる。
【0035】さらに、適応コードブック回路500は、
式(10)に従いピッチ予測を行ない、予測残差信号e
w(n)を音源量子化回路350へ出力する。
【0036】
【数8】 音源量子化回路350は、スペクトルパラメータを用い
て音声信号の音源信号を量子化し出力するものであっ
て、音源信号としてM個のパルスをたてる。また、音源
量子化回路350は、パルスの振幅をMパルス分まとめ
て量子化するための、Bビットの振幅コードブック、も
しくは極性コードブックを有している。以下では、極性
コードブックを用いる場合の説明を行なう。この極性コ
ードブックは、音源コードブック352に格納されてい
る。
【0037】音源量子化回路350は、音源コードブッ
ク352に格納された各極性コードベクトルを読み出
し、各コードベクトルに対して位置をあてはめ、式(12)
を最小化するコードベクトルと位置の組合せを複数セッ
ト選択する。
【0038】
【数9】 ここで、hw(n)は、聴感重み付けインパルス応答であ
る。式(12)を最小化するには、式(13)を最大化する極性
コードベクトルgikと位置miの組合せを求めればよ
い。
【0039】
【数10】 または、式(14)を最大化するように選択してもよい。こ
の方が、式中の分子の計算に要する演算量が低減化され
る。
【0040】
【数11】 ここで、各パルスのとり得る位置は、演算量削減のた
め、文献4に示すように、拘束することができる。一例
として、N=40,M=5とすると、各パルスのとり得
る位置は表2のようになる。
【0041】
【表2】 極性コードベクトルの探索終了後、音源量子化回路35
0は、選択された複数セットの極性コードベクトルと位
置の組み合わせをゲイン量子化回路365に出力する。
【0042】ゲイン量子化回路365は、音源信号のゲ
インを量子化して出力するものであり、音源量子化回路
350から、複数セットの極性コードベクトルとパルス
位置の組み合わせが入力する。ゲイン量子化回路365
は、ゲインコードブック380からゲインコードベクト
ルを読み出し、選択された複数セットの極性コードベク
トルと位置の組み合わせに対して、式(16)を最小化する
ようにゲインコードベクトルを探索し、歪みを最小化す
るゲインコードベクトル、極性コードベクトルと位置の
組み合わせを1種類選択する。
【0043】
【数12】 ここでは、ゲイン量子化回路365において、適応コー
ドブックのゲインとパルスで表した音源のゲインの両者
を同時にベクトル量子化する例について示した。ゲイン
量子化回路365は、ゲイン選択された極性コードベク
トルを表すインデクス、位置を表す符号、ゲインコード
ベクトルを表すインデクスをマルチプレクサ600に出
力する。
【0044】なお、複数パルスの振幅を量子化するため
のコードブックを、音声信号を用いてあらかじめ学習し
て格納しておくこともできる。コードブックの学習法
は、例えば、Linde氏らによる"An algorithm for vecto
r quantization design," と題した論文(IEEE Trans. C
ommun., pp.84-95, January, 1980)(文献12)等を参
照できる。
【0045】ここで重み付け信号計算回路360につい
て説明する。重み付け信号計算回路360は、それぞれ
のインデクスを入力し、インデクスからそれに対応する
コードベクトルを読み出した後、式(17)にもとづき駆動
音源信号v(n)を求める。
【0046】
【数13】 この駆動音源信号v(n)は、適応コードブック回路50
0に出力される。次に、重み付け信号計算回路360
は、スペクトルパラメータ計算回路200の出力パラメ
ータ、スペクトルパラメータ量子化回路210の出力パ
ラメータを用いて式(18)により、応答信号sw(n)をサ
ブフレーム毎に計算し、応答信号計算回路240へ出力
する。
【0047】
【数14】 マルチプレクサ600には、スペクトルパラメータ量子
化回路210から第4サブフレームの量子化LSPのコ
ードベクトルを表すインデクスが入力し、音源量子化回
路350から極性コードベクトルと位置との組み合わせ
が入力し、ゲイン量子化回路365から極性コードベク
トルを表すインデクス、位置を表す符号、ゲインコード
ベクトルを表すインデクスが入力する。マルチプレクサ
600は、これらの入力に基づいて、サブフレームに分
割された音声信号に対する符号を組み立てて出力する。
以上により、入力音声信号の音声符号化がなされたこと
になる。
【0048】この音声符号化装置では、制限回路411
が、前サブフレームで求めた適応コードブックの遅延を
入力として、前サブフレームで求めた適応コードブック
の遅延と現在求める適応コードブックの遅延が不連続に
ならないようにピッチ周期探索範囲を制限し、そのピッ
チ周期探索範囲をピッチ計算回路400に出力する。ピ
ッチ計算回路400は、聴感重み付け回路230の出力
信号Xw(n)と制限回路411から出力されるピッチ周
期探索範囲を入力として、ピッチ周期Topを計算し、適
応コードブック回路500に少なくとも1つのピッチ周
期Topを出力する。適応コードブック回路500は、聴
感重み付け信号x'w(n)と、ゲイン量子化回路365か
ら出力される過去の音源信号v(n)と、インパルス応答
計算回路310から出力される聴感重み付けインパルス
応答hw(n)と、ピッチ計算回路400から出力される
ピッチ周期Topとを入力として、このピッチ周期近傍を
探索して、適応コードブックの遅延を求める。これらの
構成により、サブフレーム毎に求められる適応コードブ
ックの遅延が時間的に不連続になることを避けることが
できる。
【0049】《第2の実施形態》次に、本発明の第2の
実施形態の音声符号化装置について、図2を参照して説
明する。この音声符号化装置は、図1に示す装置と比較
して、適応コードブック回路と音源量子化回路の動作が
異なっている。図2において図1と同一の番号を付した
ものは、図1に示したものと同一の構成要素である。
【0050】適応コードブック回路511は、適応コー
ドブックの遅延を式(8)を最小化するようにして求め、
複数の候補を音源量子化回路351に出力する。これら
の候補に対して、音源量子化回路351とゲイン量子化
回路365において、第1の実施形態と同様に音源とゲ
インの量子化が行なわれ、最終的にすべての候補の中
で、式(16)を最小化する組み合わせが1種類選択され
る。他の動作は、第1の実施形態の場合と同様である。
【0051】この音声符号化装置においても、過去に求
めた適応コードブックの遅延に基づいてピッチ周期の探
索範囲が制限されるので、サブフレーム毎に求められる
適応コードブックの遅延が時間的に不連続になることを
避けることができる。
【0052】《第3の実施形態》次に、本発明の第3の
実施形態の音声符号化装置について、図3を参照して説
明する。この音声符号化装置は、図1に示す装置と比較
して、モード判定回路800が付加されており、また、
制限回路の動作が異なっている。図3において図1と同
一の番号を付したものは、図1に示したものと同一の構
成要素である。モード判別回路800を設けて複数のモ
ードを設定することにより、ここでは図示していないが
モードに応じて適応コードブック回路500の動作条件
を変えることなどが可能になり、モードごとに最適な符
号化を設定できるようになって、低ビットレートでより
高品質な音声符号化を行うことができる。
【0053】モード判別回路800は、聴感重み付け回
路230の出力信号を用いて、特徴量を抽出し、フレー
ム毎にモードの判別を行う。ここで、特徴量としては、
ピッチ予測ゲインを用いることができる。サブフレーム
毎に求めたピッチ予測ゲインをフレーム全体で平均し、
この値とあらかじめ定められた複数のしきい値を比較
し、あらかじめ定められた複数のモードに分類する。こ
こでは、一例として、モードの種類が4種類であるとす
る。この場合、モード0,1,2,3は、それぞれ、無
声区間、過渡区間、弱い有声区間、強い有声区間にほぼ
対応するものとする。このモードに従って、制限回路4
12は、例えば、モード0では、ピッチ周期探索範囲の
制限を行わず、モード1,2,3では、ピッチ周期探索
範囲の制限を行うというような探索範囲の切り替えを行
う。なお、判別されたモードを示す情報は、モード判別
回路800からマルチプレクサ600にも出力されてい
る。他の動作は、第1の実施形態の場合と同様である。
【0054】《第4の実施形態》次に、本発明の第4の
実施形態の音声符号化装置について、図を参照して説明
する。この音声符号化装置は、図2に示す装置と比較し
て、モード判定回路800が付加されており、また、制
限回路の動作が異なっている。図4において図2と同一
の番号を付したものは、図2に示したものと同一の構成
要素である。第3の実施形態と同様にモード判別回路8
00を設けて複数のモードを設定することにより、低ビ
ットレートでより高品質な音声符号化を行うことができ
る。
【0055】モード判別回路800は、聴感重み付け回
路230の出力信号を用いて、特徴量を抽出し、フレー
ム毎にモードの判別を行う。ここで、特徴量としては、
ピッチ予測ゲインを用いることができる。サブフレーム
毎に求めたピッチ予測ゲインをフレーム全体で平均し、
この値とあらかじめ定められた複数のしきい値を比較
し、あらかじめ定められた複数のモードに分類する。こ
こでは、一例として、モードの種類が4種類であるとす
る。この場合、モード0,1,2,3は、それぞれ、無
声区間、過渡区間、弱い有声区間、強い有声区間にほぼ
対応するものとする。このモードに従って、制限回路4
12は、例えば、モード0では、ピッチ周期探索範囲の
制限を行わず、モード1,2,3では、ピッチ周期探索
範囲の制限を行うというような探索範囲の切り替えを行
う。なお、判別されたモードを示す情報は、モード判別
回路800からマルチプレクサ600にも出力されてい
る。他の動作は、第2の実施形態の場合と同様である。
【0056】
【発明の効果】以上説明したように本発明は、前サブフ
レームの適応コードブックの遅延に基づいてピッチ計算
部でのピッチ周期探索範囲を制限することにより、サブ
フレームごとに求められる適応コードブックの遅延が時
間的に不連続になることが避けられ、従来よりも良好な
音質で符号化できるようになる、という効果がある。
【図面の簡単な説明】
【図1】本発明の第1の実施形態の音声符号化装置の構
成を示すブロック図である。
【図2】本発明の第2の実施形態の音声符号化装置の構
成を示すブロック図である。
【図3】本発明の第3の実施形態の音声符号化装置の構
成を示すブロック図である。
【図4】本発明の第4の実施形態の音声符号化装置の構
成を示すブロック図である。
【符号の説明】
100 入力端子 110 フレーム分割回路 120 サブフレーム分割回路 200 スペクトルパラメータ計算回路 210 スペクトルパラメータ量子化回路 211 LSPコードブック 230 聴感重み付け回路 235 減算器 240 応答信号計算回路 310 インパルス応答計算回路 350,351 音源量子化回路 352 音源コードブック 360 重み付け信号計算回路 365 ゲイン量子化回路 380 ゲインコードブック 410 遅延回路 411,412 制限回路 500,511 適応コードブック回路 600 マルチプレクサ 800 モード判別回路
フロントページの続き (56)参考文献 特許3003531(JP,B2) 特許2746039(JP,B2) 特許3089967(JP,B2) 欧州特許出願公開1005022(EP,A 1) 欧州特許出願公開877355(EP,A 2) 欧州特許出願公開749110(EP,A 2) 米国特許5737484(US,A) Proceedings of 1999 IEEE Internationa l Conference on Ac oustics,Speech and Signal Processin g,Vol.1,K.Ozawa,”4 KB/s Multi−Pulse b ased CELP Speech C oding Using Excita tion Switching”,p. 189−192 (58)調査した分野(Int.Cl.7,DB名) G10L 19/12 JICSTファイル(JOIS) IEEE/IEE Electroni c Library Online

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力された音声信号からスペクトルパラ
    メータを求めて量子化する工程と、 ピッチ周期に基づき、過去に量子化された音源信号から
    適応コードブックにより遅延とゲインを求めるとともに
    音声信号を予測して残差を求める工程と、 前記スペクトルパラメータを用いて前記音声信号の音源
    信号を量子化する工程と、 前記音源信号のゲインを量子化する工程と、 過去に求めた適応コードブックの遅延をもとに前記ピッ
    チ周期の探索の際の探索範囲を制限して、前記音声信号
    から前記ピッチ周期を探索する工程と、を有する音声符
    号化方法。
  2. 【請求項2】 入力された音声信号からスペクトルパラ
    メータを求めて量子化する工程と、 ピッチ周期に基づき、過去に量子化された音源信号から
    適応コードブックにより遅延とゲインを求めるとともに
    音声信号を予測して残差を求める工程と、 前記スペクトルパラメータを用いて前記音声信号の音源
    信号を量子化する工程と、 前記音源信号のゲインを量子化する工程と、 前記音声信号から特徴量を抽出してモードを判別する工
    程と、 判別されたモードがあらかじめ定められたモードの場合
    には過去に求めた適応コードブックの遅延をもとに前記
    ピッチ周期の探索の際の探索範囲を制限して、前記音声
    信号から前記ピッチ周期を探索する工程と、を有する音
    声符号化方法。
  3. 【請求項3】 音声信号を入力しスペクトルパラメータ
    を求めて量子化し出力するスペクトルパラメータ計算部
    と、 前記音声信号からピッチ周期を求め出力するピッチ計算
    部と、 前記ピッチ計算部の出力をもとに過去に量子化された音
    源信号から適応コードブックにより遅延とゲインを求め
    音声信号を予測して残差を求め遅延とゲインを出力する
    適応コードブック部と、 前記スペクトルパラメータを用いて前記音声信号の音源
    信号を量子化し出力する音源量子化部と、 前記音源信号のゲインを量子化し出力するゲイン量子化
    部と、 ピッチ周期を探索する際に、過去に求めた適応コードブ
    ックの遅延をもとに探索範囲を制限する制限部とを有
    し、 前記制限部の出力をもとに前記ピッチ計算部がピッチ周
    期を探索し出力する音声符号化装置。
  4. 【請求項4】 音声信号を入力しスペクトルパラメータ
    を求めて量子化し出力するスペクトルパラメータ計算部
    と、 前記音声信号からピッチ周期を求め出力するピッチ計算
    部と、 前記ピッチ計算部の出力をもとに過去に量子化された音
    源信号から適応コードブックにより複数の遅延とゲイン
    を求め音声信号を予測して残差を求め遅延とゲインを出
    力する適応コードブック部と、 前記スペクトルパラメータを用いて前記複数の遅延の各
    々に対し前記音声信号の音源信号を量子化し歪の小さい
    方を選択し出力する音源量子化部と、 前記音源信号のゲインを量子化し出力するゲイン量子化
    部と、 ピッチ周期を探索する際に、過去に求めた適応コードブ
    ックの遅延をもとに探索範囲を制限する制限部とを有
    し、 前記制限部の出力をもとに前記ピッチ計算部がピッチ周
    期を探索し出力する音声符号化装置。
  5. 【請求項5】 音声信号を入力しスペクトルパラメータ
    を求めて量子化し出力するスペクトルパラメータ計算部
    と、 前記音声信号からピッチ周期を求め出力するピッチ計算
    部と、 前記ピッチ計算部の出力をもとに過去に量子化された音
    源信号から適応コードブックにより遅延とゲインを求め
    音声信号を予測して残差を求め遅延とゲインを出力する
    適応コードブック部と、 前記スペクトルパラメータを用いて前記音声信号の音源
    信号を量子化し出力する音源量子化部と、 前記音声信号から特徴量を抽出してモードを判別し出力
    する判別部と、 前記音源信号のゲインを量子化し出力するゲイン量子化
    部と、 前期判別部の出力があらかじめ定められたモードの場合
    に、過去に求めた適応コードブックの遅延をもとに、ピ
    ッチ周期を探索する際の探索範囲を制限する制限部と、
    を有し、 前記あらかじめ定められたモードの場合に、前記ピッチ
    計算部が、前記制限部の出力をもとにピッチ周期を探索
    し出力する音声符号化装置。
  6. 【請求項6】 音声信号を入力しスペクトルパラメータ
    を求めて量子化し出力するスペクトルパラメータ計算部
    と、 前記音声信号からピッチ周期を求め出力するピッチ計算
    部と、 前記ピッチ計算部の出力をもとに過去に量子化された音
    源信号から適応コードブックにより複数の遅延とゲイン
    を求め音声信号を予測して残差を求め遅延とゲインを出
    力する適応コードブック部と、 前記スペクトルパラメータを用いて前記複数の遅延の各
    々に対し前記音声信号の音源信号を量子化して歪の小さ
    い方を選択し出力する音源量子化部と、 前記音声信号から特徴量を抽出してモードを判別し出力
    する判別部と、 前記音源信号のゲインを量子化し出力するゲイン量子化
    部と、 前記判別部の出力があらかじめ定められたモードの場合
    に、過去に求めた適応コードブックの遅延をもとに、ピ
    ッチ周期を探索する際の探索範囲を制限する制限部と、
    を有し、 前記あらかじめ定められたモードの場合に、前記ピッチ
    計算部が、前記制限部の出力をもとにピッチ周期を探索
    し出力する音声符号化装置。
JP33780598A 1998-11-27 1998-11-27 音声符号化方法及び音声符号化装置 Expired - Lifetime JP3180786B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP33780598A JP3180786B2 (ja) 1998-11-27 1998-11-27 音声符号化方法及び音声符号化装置
CA002290859A CA2290859C (en) 1998-11-27 1999-11-25 Speech encoding method and speech encoding system
CA002435224A CA2435224A1 (en) 1998-11-27 1999-11-25 Speech encoding method and speech encoding system
DE69921066T DE69921066T2 (de) 1998-11-27 1999-11-29 Verfahren und Vorrichtung zur Sprachkodierung
US09/450,305 US6581031B1 (en) 1998-11-27 1999-11-29 Speech encoding method and speech encoding system
EP99123694A EP1005022B1 (en) 1998-11-27 1999-11-29 Speech encoding method and speech encoding system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33780598A JP3180786B2 (ja) 1998-11-27 1998-11-27 音声符号化方法及び音声符号化装置

Publications (2)

Publication Number Publication Date
JP2000163096A JP2000163096A (ja) 2000-06-16
JP3180786B2 true JP3180786B2 (ja) 2001-06-25

Family

ID=18312144

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33780598A Expired - Lifetime JP3180786B2 (ja) 1998-11-27 1998-11-27 音声符号化方法及び音声符号化装置

Country Status (5)

Country Link
US (1) US6581031B1 (ja)
EP (1) EP1005022B1 (ja)
JP (1) JP3180786B2 (ja)
CA (1) CA2290859C (ja)
DE (1) DE69921066T2 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030096444A (ko) * 1996-11-07 2003-12-31 마쯔시다덴기산교 가부시키가이샤 음원 벡터 생성 장치 및 방법
JP3180786B2 (ja) 1998-11-27 2001-06-25 日本電気株式会社 音声符号化方法及び音声符号化装置
CN1187735C (zh) 2000-01-11 2005-02-02 松下电器产业株式会社 多模式话音编码装置和解码装置
US6879955B2 (en) * 2001-06-29 2005-04-12 Microsoft Corporation Signal modification based on continuous time warping for low bit rate CELP coding
JP3888097B2 (ja) * 2001-08-02 2007-02-28 松下電器産業株式会社 ピッチ周期探索範囲設定装置、ピッチ周期探索装置、復号化適応音源ベクトル生成装置、音声符号化装置、音声復号化装置、音声信号送信装置、音声信号受信装置、移動局装置、及び基地局装置
US7792670B2 (en) * 2003-12-19 2010-09-07 Motorola, Inc. Method and apparatus for speech coding
US7643414B1 (en) * 2004-02-10 2010-01-05 Avaya Inc. WAN keeper efficient bandwidth management
US9058812B2 (en) * 2005-07-27 2015-06-16 Google Technology Holdings LLC Method and system for coding an information signal using pitch delay contour adjustment
US20090240494A1 (en) * 2006-06-29 2009-09-24 Panasonic Corporation Voice encoding device and voice encoding method
ATE512437T1 (de) * 2006-11-29 2011-06-15 Loquendo Spa Quellenabhängige codierung und decodierung mit mehreren codebüchern
CN101622664B (zh) * 2007-03-02 2012-02-01 松下电器产业株式会社 自适应激励矢量量化装置和自适应激励矢量量化方法
KR101414341B1 (ko) * 2007-03-02 2014-07-22 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 부호화 장치 및 부호화 방법
US20100185442A1 (en) * 2007-06-21 2010-07-22 Panasonic Corporation Adaptive sound source vector quantizing device and adaptive sound source vector quantizing method
CN100578619C (zh) * 2007-11-05 2010-01-06 华为技术有限公司 编码方法和编码器
US8862465B2 (en) * 2010-09-17 2014-10-14 Qualcomm Incorporated Determining pitch cycle energy and scaling an excitation signal
US10657983B2 (en) * 2016-06-15 2020-05-19 Intel Corporation Automatic gain control for speech recognition

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5737484A (en) 1993-01-22 1998-04-07 Nec Corporation Multistage low bit-rate CELP speech coder with switching code books depending on degree of pitch periodicity
JP3003531B2 (ja) 1995-01-05 2000-01-31 日本電気株式会社 音声符号化装置
EP1005022A1 (en) 1998-11-27 2000-05-31 Nec Corporation Speech encoding method and speech encoding system
JP3089967B2 (ja) 1995-01-17 2000-09-18 日本電気株式会社 音声符号化装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3114197B2 (ja) 1990-11-02 2000-12-04 日本電気株式会社 音声パラメータ符号化方法
JP3254687B2 (ja) * 1991-02-26 2002-02-12 日本電気株式会社 音声符号化方式
JP3151874B2 (ja) 1991-02-26 2001-04-03 日本電気株式会社 音声パラメータ符号化方式および装置
JP3143956B2 (ja) 1991-06-27 2001-03-07 日本電気株式会社 音声パラメータ符号化方式
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
IT1270438B (it) * 1993-06-10 1997-05-05 Sip Procedimento e dispositivo per la determinazione del periodo del tono fondamentale e la classificazione del segnale vocale in codificatori numerici della voce
JPH08320700A (ja) 1995-05-26 1996-12-03 Nec Corp 音声符号化装置
US5664055A (en) 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
EP0788091A3 (en) * 1996-01-31 1999-02-24 Kabushiki Kaisha Toshiba Speech encoding and decoding method and apparatus therefor
DE69737012T2 (de) * 1996-08-02 2007-06-06 Matsushita Electric Industrial Co., Ltd., Kadoma Sprachkodierer, sprachdekodierer und aufzeichnungsmedium dafür
FI113903B (fi) * 1997-05-07 2004-06-30 Nokia Corp Puheen koodaus
US6073092A (en) * 1997-06-26 2000-06-06 Telogy Networks, Inc. Method for speech coding based on a code excited linear prediction (CELP) model

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5737484A (en) 1993-01-22 1998-04-07 Nec Corporation Multistage low bit-rate CELP speech coder with switching code books depending on degree of pitch periodicity
JP2746039B2 (ja) 1993-01-22 1998-04-28 日本電気株式会社 音声符号化方式
JP3003531B2 (ja) 1995-01-05 2000-01-31 日本電気株式会社 音声符号化装置
JP3089967B2 (ja) 1995-01-17 2000-09-18 日本電気株式会社 音声符号化装置
EP1005022A1 (en) 1998-11-27 2000-05-31 Nec Corporation Speech encoding method and speech encoding system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Proceedings of 1999 IEEE International Conference on Acoustics,Speech and Signal Processing,Vol.1,K.Ozawa,"4KB/s Multi−Pulse based CELP Speech Coding Using Excitation Switching",p.189−192

Also Published As

Publication number Publication date
US6581031B1 (en) 2003-06-17
DE69921066D1 (de) 2004-11-18
CA2290859C (en) 2005-01-11
DE69921066T2 (de) 2005-11-10
EP1005022B1 (en) 2004-10-13
JP2000163096A (ja) 2000-06-16
CA2290859A1 (en) 2000-05-27
EP1005022A1 (en) 2000-05-31

Similar Documents

Publication Publication Date Title
JP3094908B2 (ja) 音声符号化装置
JP3196595B2 (ja) 音声符号化装置
JP3180762B2 (ja) 音声符号化装置及び音声復号化装置
JP3180786B2 (ja) 音声符号化方法及び音声符号化装置
JP3335841B2 (ja) 信号符号化装置
JP3582589B2 (ja) 音声符号化装置及び音声復号化装置
JP2624130B2 (ja) 音声符号化方式
JPH10177398A (ja) 音声符号化装置
JP2970407B2 (ja) 音声の励振信号符号化装置
JP3308764B2 (ja) 音声符号化装置
JP3148778B2 (ja) 音声の符号化方法
JP3003531B2 (ja) 音声符号化装置
JP3360545B2 (ja) 音声符号化装置
JP3319396B2 (ja) 音声符号化装置ならびに音声符号化復号化装置
JP3153075B2 (ja) 音声符号化装置
JP3299099B2 (ja) 音声符号化装置
JP3144284B2 (ja) 音声符号化装置
JP2001318698A (ja) 音声符号化装置及び音声復号化装置
JP3192051B2 (ja) 音声符号化装置
JP3089967B2 (ja) 音声符号化装置
JP2001142499A (ja) 音声符号化装置ならびに音声復号化装置
JPH08320700A (ja) 音声符号化装置
JP3024467B2 (ja) 音声符号化装置
JP3471542B2 (ja) 音声符号化装置
JP2907019B2 (ja) 音声符号化装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080420

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090420

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100420

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110420

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120420

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120420

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130420

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130420

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140420

Year of fee payment: 13

EXPY Cancellation because of completion of term