JPH0863195A - 音声符号化装置 - Google Patents
音声符号化装置Info
- Publication number
- JPH0863195A JPH0863195A JP6320237A JP32023794A JPH0863195A JP H0863195 A JPH0863195 A JP H0863195A JP 6320237 A JP6320237 A JP 6320237A JP 32023794 A JP32023794 A JP 32023794A JP H0863195 A JPH0863195 A JP H0863195A
- Authority
- JP
- Japan
- Prior art keywords
- codebook
- signal
- source signal
- sound source
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005284 excitation Effects 0.000 claims description 48
- 230000006866 deterioration Effects 0.000 claims description 15
- 230000001186 cumulative effect Effects 0.000 claims 2
- 238000004364 calculation method Methods 0.000 abstract description 4
- 230000015572 biosynthetic process Effects 0.000 description 17
- 238000003786 synthesis reaction Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 6
- 238000000034 method Methods 0.000 description 6
- 239000000872 buffer Substances 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 4
- 230000003111 delayed effect Effects 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0004—Design or structure of the codebook
- G10L2019/0005—Multi-stage vector quantisation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
(57)【要約】
【目的】 4〜8kbps程度のビットレートの音声符
号化装置において、入力音声信号の性質により、コード
ブックおよび音源信号選択の周期を切り換えることによ
って、音声品質を向上させる。 【構成】 相互相関算出手段109は、第1のコードブ
ック103に蓄えられた音源信号122と予測残差信号
123との相互相関を算出し、この相互相関の大きさに
より第1のコードブック103の機能低下を検出したと
きは、第1のコードブック103および第2のコードブ
ック104からそれぞれ選択した音源信号の線形和によ
り生成した音源信号117と、音声サブフレームをさら
に小区間に分割した音声マイクロフレームについて予め
定められた形状の音源を格納した第3のコードブック1
11から選択した音源信号を音声サブフレーム長に接続
した音源信号124とをスイッチ110により切り換え
る。
号化装置において、入力音声信号の性質により、コード
ブックおよび音源信号選択の周期を切り換えることによ
って、音声品質を向上させる。 【構成】 相互相関算出手段109は、第1のコードブ
ック103に蓄えられた音源信号122と予測残差信号
123との相互相関を算出し、この相互相関の大きさに
より第1のコードブック103の機能低下を検出したと
きは、第1のコードブック103および第2のコードブ
ック104からそれぞれ選択した音源信号の線形和によ
り生成した音源信号117と、音声サブフレームをさら
に小区間に分割した音声マイクロフレームについて予め
定められた形状の音源を格納した第3のコードブック1
11から選択した音源信号を音声サブフレーム長に接続
した音源信号124とをスイッチ110により切り換え
る。
Description
【0001】
【産業上の利用分野】本発明は、4〜8kbps程度の
ビットレートの音声符号化装置において、入力音声の性
質によって、コードブックと音源信号選択の周期を切り
換えることにより、音声品質を向上させる音声符号化装
置に関するものである。
ビットレートの音声符号化装置において、入力音声の性
質によって、コードブックと音源信号選択の周期を切り
換えることにより、音声品質を向上させる音声符号化装
置に関するものである。
【0002】
【従来の技術】従来、4〜8kbps程度のビットレー
トの音声符号化装置として、入力音声信号を予め定めら
れた時間長の音声フレームに分割し、各音声フレームを
分析してスペクトルパラメータを算出し、このスペクト
ルパラメータを係数とする合成フィルタを、第1および
第2のコードブックから選択した音源信号により励振す
ることによって合成音声信号を得る装置が知られてい
る。このような音声符号化方法は、一般にCELP(Co
de Excited Linear Prediction coding:符号励振線形予
測符号化)と呼ばれる。CELPは、一般に、音声フレ
ームをさらに小区間に分割した音声サブフレームを使用
し、この音声サブフレームの過去の音源信号を蓄えてお
き、これを入力音声信号のピッチ周期に応じて切り出し
て用いる第1のコードブックと、予め定められた形状の
音源信号を格納してあり、その中から音源信号として最
もふさわしいものを取り出して用いる第2のコードブッ
クとを持ち、合成フィルタの入力となる音源信号(以
下、これを励振音源信号とする。)は、これら2つのコ
ードブックから選択した音源信号の線形和として生成さ
れる。
トの音声符号化装置として、入力音声信号を予め定めら
れた時間長の音声フレームに分割し、各音声フレームを
分析してスペクトルパラメータを算出し、このスペクト
ルパラメータを係数とする合成フィルタを、第1および
第2のコードブックから選択した音源信号により励振す
ることによって合成音声信号を得る装置が知られてい
る。このような音声符号化方法は、一般にCELP(Co
de Excited Linear Prediction coding:符号励振線形予
測符号化)と呼ばれる。CELPは、一般に、音声フレ
ームをさらに小区間に分割した音声サブフレームを使用
し、この音声サブフレームの過去の音源信号を蓄えてお
き、これを入力音声信号のピッチ周期に応じて切り出し
て用いる第1のコードブックと、予め定められた形状の
音源信号を格納してあり、その中から音源信号として最
もふさわしいものを取り出して用いる第2のコードブッ
クとを持ち、合成フィルタの入力となる音源信号(以
下、これを励振音源信号とする。)は、これら2つのコ
ードブックから選択した音源信号の線形和として生成さ
れる。
【0003】以下、従来の音声符号化装置について説明
する。図5は従来の音声符号化装置の構成を示すもので
あり、501はピッチ周期分析手段、502は線形予測
分析手段、503は第1のコードブック、504は第2
のコードブック、505は合成フィルタ、506は聴覚
重み付け手段、507は誤差最小化手段、508はコー
ドブック切り換えのための判定手段、509は切り換え
スイッチ、510は第3のコードブックである。513
は入力音声信号、514はピッチ周期、515は第1の
コードブック503または第3のコードブック510の
出力音源信号、516は第2のコードブック504の出
力音源信号、517は励振音源信号、518は合成音声
信号、519は線形予測係数、520はコードブックお
よびゲインに対するフィードバック、521は1音声サ
ブフレーム遅延された励振音源信号である。
する。図5は従来の音声符号化装置の構成を示すもので
あり、501はピッチ周期分析手段、502は線形予測
分析手段、503は第1のコードブック、504は第2
のコードブック、505は合成フィルタ、506は聴覚
重み付け手段、507は誤差最小化手段、508はコー
ドブック切り換えのための判定手段、509は切り換え
スイッチ、510は第3のコードブックである。513
は入力音声信号、514はピッチ周期、515は第1の
コードブック503または第3のコードブック510の
出力音源信号、516は第2のコードブック504の出
力音源信号、517は励振音源信号、518は合成音声
信号、519は線形予測係数、520はコードブックお
よびゲインに対するフィードバック、521は1音声サ
ブフレーム遅延された励振音源信号である。
【0004】以上のように構成された従来の音声符号化
装置について、以下その動作を説明する。図5におい
て、ピッチ周期分析手段501は、入力音声信号513
からピッチ周期514を抽出する。このときピッチ周期
抽出誤りを考慮して、複数のピッチ周期を候補として抽
出しておく。第1のコードブック503に蓄えられた過
去の音源信号から、ピッチ周期514に応じて音源信号
を切り出す。このとき、ピッチ周期514が音声サブフ
レーム長より短い場合には、切り出した音源信号を繰り
返して接続し、音声サブフレーム長と同じ長さそろえて
用いる。また、第1のコードブック503に蓄えられた
音源信号をアップサンプリングしておくことにより、整
数サンプル点間の補間点を利用した、より高い精度の分
数ピッチ周期での切り出しが行なえる。次に、第1のコ
ードブック503から切り出された出力音源信号515
と、第2のコードブック504の出力音源信号516と
の線形和により励振音源信号517を生成し、合成フィ
ルタ505を励振することによって合成音声信号518
を得る。そして合成音声信号518と入力音声信号51
3の差をとり、聴覚重み付け手段506によって重み付
けを行なった後、誤差最小化手段507によって誤差を
最小化するように、第1のコードブック503および第
2のコードブック504の出力およびゲインにフィード
バック520をかけ、最適な励振音源信号とそのゲイン
を決定する。 このにように、上記従来の装置でも、入
力音声信号が定常に近い状態では、入力音声信号と合成
音声信号の差を十分に小さくする励振音源信号が得ら
れ、高い音声品質を得ることができる。
装置について、以下その動作を説明する。図5におい
て、ピッチ周期分析手段501は、入力音声信号513
からピッチ周期514を抽出する。このときピッチ周期
抽出誤りを考慮して、複数のピッチ周期を候補として抽
出しておく。第1のコードブック503に蓄えられた過
去の音源信号から、ピッチ周期514に応じて音源信号
を切り出す。このとき、ピッチ周期514が音声サブフ
レーム長より短い場合には、切り出した音源信号を繰り
返して接続し、音声サブフレーム長と同じ長さそろえて
用いる。また、第1のコードブック503に蓄えられた
音源信号をアップサンプリングしておくことにより、整
数サンプル点間の補間点を利用した、より高い精度の分
数ピッチ周期での切り出しが行なえる。次に、第1のコ
ードブック503から切り出された出力音源信号515
と、第2のコードブック504の出力音源信号516と
の線形和により励振音源信号517を生成し、合成フィ
ルタ505を励振することによって合成音声信号518
を得る。そして合成音声信号518と入力音声信号51
3の差をとり、聴覚重み付け手段506によって重み付
けを行なった後、誤差最小化手段507によって誤差を
最小化するように、第1のコードブック503および第
2のコードブック504の出力およびゲインにフィード
バック520をかけ、最適な励振音源信号とそのゲイン
を決定する。 このにように、上記従来の装置でも、入
力音声信号が定常に近い状態では、入力音声信号と合成
音声信号の差を十分に小さくする励振音源信号が得ら
れ、高い音声品質を得ることができる。
【0005】
【発明が解決しようとする課題】しかしながら、上記従
来の装置では、入力音声信号が急激に変化する場合、特
に有声音の立上がり等では、励振音源信号も大きく変化
し、局所的なピークを持つ形状に変化する。このような
部分では第1のコードブック503の機能が低下し、励
振音源信号を精度良く表すことができなくなるため、音
声品質の劣化につながっていた。この問題に対応するた
め、予め定められた形状の音源信号を格納した第3のコ
ードブック510と、第1のコードブック503の機能
の低下を判定するための判定手段508と、コードブッ
クの切り換えスイッチ509とを設け、第1のコードブ
ック503の機能が低下した時に、第3のコードブック
510に切り換えているが、40〜80サンプル程度の
長さである音声サブフレーム内で音源信号を選択するた
め、局所的なピークを持つ励振音源信号を精度良く生成
することは難しかった。
来の装置では、入力音声信号が急激に変化する場合、特
に有声音の立上がり等では、励振音源信号も大きく変化
し、局所的なピークを持つ形状に変化する。このような
部分では第1のコードブック503の機能が低下し、励
振音源信号を精度良く表すことができなくなるため、音
声品質の劣化につながっていた。この問題に対応するた
め、予め定められた形状の音源信号を格納した第3のコ
ードブック510と、第1のコードブック503の機能
の低下を判定するための判定手段508と、コードブッ
クの切り換えスイッチ509とを設け、第1のコードブ
ック503の機能が低下した時に、第3のコードブック
510に切り換えているが、40〜80サンプル程度の
長さである音声サブフレーム内で音源信号を選択するた
め、局所的なピークを持つ励振音源信号を精度良く生成
することは難しかった。
【0006】本発明は、上記従来の問題を解決するもの
で、第1のコードブックの機能の低下した時でも、局所
的なピークを持つ励振音源信号を精度良く表現し、音声
品質を向上させることのできる音声符号化装置を提供す
ることを目的とする。
で、第1のコードブックの機能の低下した時でも、局所
的なピークを持つ励振音源信号を精度良く表現し、音声
品質を向上させることのできる音声符号化装置を提供す
ることを目的とする。
【0007】
【課題を解決するための手段】本発明は、上記目的を達
成するため、入力音声信号の予測残差信号と第1のコー
ドブックに蓄えられた音源信号との相互相関の大きさに
より第1のコードブックの機能の低下を検出する手段
と、第1のコードブックの機能の低下が検出されたとき
に、使用するコードブックおよび音源信号選択の周期を
より小さなものに切り換える手段とを備えたものであ
る。
成するため、入力音声信号の予測残差信号と第1のコー
ドブックに蓄えられた音源信号との相互相関の大きさに
より第1のコードブックの機能の低下を検出する手段
と、第1のコードブックの機能の低下が検出されたとき
に、使用するコードブックおよび音源信号選択の周期を
より小さなものに切り換える手段とを備えたものであ
る。
【0008】
【作用】本発明は、上記構成により、第1のコードブッ
クの機能が低下したために入力音声信号が急激に変化
し、局所的なピークを持つ音源信号が必要とされる場合
に、コードブックと音源信号選択の周期を切り換えるこ
とにより、局所的なピークを持つ励振音源信号を精度良
く表現し、合成音声信号の品質を向上させることができ
る。
クの機能が低下したために入力音声信号が急激に変化
し、局所的なピークを持つ音源信号が必要とされる場合
に、コードブックと音源信号選択の周期を切り換えるこ
とにより、局所的なピークを持つ励振音源信号を精度良
く表現し、合成音声信号の品質を向上させることができ
る。
【0009】
【実施例】以下、本発明の一実施例について、図面を参
照しながら説明する。図1は本発明の一実施例における
音声符号化装置の構成を示すものである。図1におい
て、101はピッチ周期分析手段、102は線形予測分
析手段、103は第1のコードブック、104は第2の
コードブック、105は合成フィルタ、106は聴覚重
み付け手段、107は誤差最小化手段、108は予測残
差信号算出手段、109は相互相関算出手段、110は
音源信号を切り換えるスイッチ、111は第3のコード
ブック、112は第3のコードブック111の出力音源
信号を接続する音源信号接続手段である。113は入力
音声信号、114はピッチ周期、115は第1のコード
ブック103の出力音源信号、116は第2のコードブ
ックの出力信号、117は励振音源信号、118は合成
音声信号、119は線形予測係数、120はコードブッ
クおよびゲインに対するフィードバック、121は1音
声サブフレーム遅延された励振音源信号、122は第1
のコードブック103に蓄えられた過去の音源信号、1
23は予測残差信号、124は接続された第3のコード
ブックの出力音源信号である。
照しながら説明する。図1は本発明の一実施例における
音声符号化装置の構成を示すものである。図1におい
て、101はピッチ周期分析手段、102は線形予測分
析手段、103は第1のコードブック、104は第2の
コードブック、105は合成フィルタ、106は聴覚重
み付け手段、107は誤差最小化手段、108は予測残
差信号算出手段、109は相互相関算出手段、110は
音源信号を切り換えるスイッチ、111は第3のコード
ブック、112は第3のコードブック111の出力音源
信号を接続する音源信号接続手段である。113は入力
音声信号、114はピッチ周期、115は第1のコード
ブック103の出力音源信号、116は第2のコードブ
ックの出力信号、117は励振音源信号、118は合成
音声信号、119は線形予測係数、120はコードブッ
クおよびゲインに対するフィードバック、121は1音
声サブフレーム遅延された励振音源信号、122は第1
のコードブック103に蓄えられた過去の音源信号、1
23は予測残差信号、124は接続された第3のコード
ブックの出力音源信号である。
【0010】以上のように構成された音声符号化装置に
ついて、以下その動作を説明する。図1において、ピッ
チ周期分析手段101は、入力音声信号113からピッ
チ周期114を抽出する。予測残差信号算出手段108
は、線形予測分析手段102により算出された線形予測
係数119を用いて、入力音声信号113の予測残差信
号123を算出する。ピッチ周期114に応じて切り出
された第1のコードブック103に蓄えられた過去の音
源信号122と予測残差信号123とを、第1のコード
ブックの機能の低下を検出する手段である相互相関算出
手段109に入力し、その結果に応じてスイッチ110
を切り換える。第1のコードブック103が十分に機能
している場合には、音声サブフレーム単位で、第1のコ
ードブック103の音源信号からピッチ周期114に応
じて切り出された出力音源信号115と第2のコードブ
ック104の出力音源信号116との線形和が加算器A
により算出されて励振音源信号117が生成される。第
1のコードブック103の機能が低下している場合に
は、音声マイクロフレーム単位で、第3のコードブック
111から音源信号を選択し、音源信号接続手段112
によって音源信号をつなぎ合わせ、音声サブフレーム長
の励振音源信号124を生成する。スイッチ110によ
り選択された励振音源信号117または124を合成フ
ィルタ105に入力して得た合成音声信号118と入力
音声信号113との差が加算器Bにより算出され、聴覚
重み付け手段106で重み付けを行なった後、誤差最小
化手段107によって誤差を最小化するように、第1の
コードブック103および第2のコードブック104の
出力およびそのゲイン、または第3のコードブック11
1の出力とそのゲインにフィードバック120をかけ、
最適な励振音源信号とそのゲインを決定する。
ついて、以下その動作を説明する。図1において、ピッ
チ周期分析手段101は、入力音声信号113からピッ
チ周期114を抽出する。予測残差信号算出手段108
は、線形予測分析手段102により算出された線形予測
係数119を用いて、入力音声信号113の予測残差信
号123を算出する。ピッチ周期114に応じて切り出
された第1のコードブック103に蓄えられた過去の音
源信号122と予測残差信号123とを、第1のコード
ブックの機能の低下を検出する手段である相互相関算出
手段109に入力し、その結果に応じてスイッチ110
を切り換える。第1のコードブック103が十分に機能
している場合には、音声サブフレーム単位で、第1のコ
ードブック103の音源信号からピッチ周期114に応
じて切り出された出力音源信号115と第2のコードブ
ック104の出力音源信号116との線形和が加算器A
により算出されて励振音源信号117が生成される。第
1のコードブック103の機能が低下している場合に
は、音声マイクロフレーム単位で、第3のコードブック
111から音源信号を選択し、音源信号接続手段112
によって音源信号をつなぎ合わせ、音声サブフレーム長
の励振音源信号124を生成する。スイッチ110によ
り選択された励振音源信号117または124を合成フ
ィルタ105に入力して得た合成音声信号118と入力
音声信号113との差が加算器Bにより算出され、聴覚
重み付け手段106で重み付けを行なった後、誤差最小
化手段107によって誤差を最小化するように、第1の
コードブック103および第2のコードブック104の
出力およびそのゲイン、または第3のコードブック11
1の出力とそのゲインにフィードバック120をかけ、
最適な励振音源信号とそのゲインを決定する。
【0011】上記実施例において、第1のコードブック
103の機能低下を検出する際に、励振音源信号117
または124の生成においてターゲットとなるのは予測
残差信号123である。したがって、合成音声の品質
は、第1のコードブック103内の音源信号が予測残差
信号123をどれだけ精度よく表現できるかに依存する
ので、第1のコードブック103の音源信号122と予
測残差信号123の相互相関を計算し、その大きさを監
視することによって第1のコードブック103の機能低
下を検出することが可能となる。
103の機能低下を検出する際に、励振音源信号117
または124の生成においてターゲットとなるのは予測
残差信号123である。したがって、合成音声の品質
は、第1のコードブック103内の音源信号が予測残差
信号123をどれだけ精度よく表現できるかに依存する
ので、第1のコードブック103の音源信号122と予
測残差信号123の相互相関を計算し、その大きさを監
視することによって第1のコードブック103の機能低
下を検出することが可能となる。
【0012】ここで、第1のコードブック103の機能
が低下した場合に、第3のコードブック111の出力音
源信号を接続することによって生成される励振音源信号
124について、図2を参照しながら説明する。図2に
おいて、201はターゲットとなる予測残差信号、20
2は従来例による励振音源信号、203は本実施例によ
り第3のコードブック111の出力音源信号を接続して
生成した励振音源信号、204は音声マイクロフレー
ム、205は音声サブフレームである。音声サブフレー
ム205単位で音源信号の選択およびゲインの適正化を
行なった従来の励振音源信号202では、局所的なピー
クを持つターゲットとなる予測残差信号201を精度良
く表現できないのに対して、音声マイクロフレーム20
4単位で音源信号の選択およびゲインの適正化を行なっ
た本実施例の励振音源信号203では、局所的なピーク
に対しても精度良く表現できていることが分かる。
が低下した場合に、第3のコードブック111の出力音
源信号を接続することによって生成される励振音源信号
124について、図2を参照しながら説明する。図2に
おいて、201はターゲットとなる予測残差信号、20
2は従来例による励振音源信号、203は本実施例によ
り第3のコードブック111の出力音源信号を接続して
生成した励振音源信号、204は音声マイクロフレー
ム、205は音声サブフレームである。音声サブフレー
ム205単位で音源信号の選択およびゲインの適正化を
行なった従来の励振音源信号202では、局所的なピー
クを持つターゲットとなる予測残差信号201を精度良
く表現できないのに対して、音声マイクロフレーム20
4単位で音源信号の選択およびゲインの適正化を行なっ
た本実施例の励振音源信号203では、局所的なピーク
に対しても精度良く表現できていることが分かる。
【0013】なお、第1のコードブックの機能の低下を
検出する手段については、入力音声信号を分析し、分析
結果に基づいて第1のコードブックの機能の低下を検出
または予測するものであり、例えば、入力音声信号を分
析して得られる複数のパラメータから、統計的手法によ
って定められた規則に従って第1のコードブックの機能
の低下を予測する構成であっても、同一の効果が得られ
る。
検出する手段については、入力音声信号を分析し、分析
結果に基づいて第1のコードブックの機能の低下を検出
または予測するものであり、例えば、入力音声信号を分
析して得られる複数のパラメータから、統計的手法によ
って定められた規則に従って第1のコードブックの機能
の低下を予測する構成であっても、同一の効果が得られ
る。
【0014】なお、第3のコードブック111の音源信
号数は、信号長が短いため、従来例で用いる第2および
第3のコードブックの音源信号数と比較して、相対的に
少ない数でも高い表現力が期待できる。したがって、第
3のコードブック111の音源信号数を相対的に少なく
し、各音声マイクロフレームに対するゲインをベクトル
量子化等の方法で情報圧縮することにより、従来法のコ
ードブックの出力音源信号の線形和による励振音源生成
法と同程度の伝送情報量を実現できる。
号数は、信号長が短いため、従来例で用いる第2および
第3のコードブックの音源信号数と比較して、相対的に
少ない数でも高い表現力が期待できる。したがって、第
3のコードブック111の音源信号数を相対的に少なく
し、各音声マイクロフレームに対するゲインをベクトル
量子化等の方法で情報圧縮することにより、従来法のコ
ードブックの出力音源信号の線形和による励振音源生成
法と同程度の伝送情報量を実現できる。
【0015】図3は上記実施例における第3のコードブ
ックからの音源信号を生成する装置の構成を示すブロッ
ク図である。301は入力音声信号を小区間に分割する
フレーミング手段、302は第3のコードブック、30
3、304、305は音源信号選択手段、306は合成
フィルタの状態を保持するバッファ、307は音源信号
接続手段、308は入力音声信号、309は音声マイク
ロフレームに分割された入力音声信号、310は音源信
号、311は各音声マイクロフレームに対する候補のイ
ンデクス、312は先頭から選択を行うフレームまでの
積算誤差、313、314は合成フィルタ状態、315
は音源選択手段によって選択された音源信号、316は
出力されるサブフレーム長の音源信号である。
ックからの音源信号を生成する装置の構成を示すブロッ
ク図である。301は入力音声信号を小区間に分割する
フレーミング手段、302は第3のコードブック、30
3、304、305は音源信号選択手段、306は合成
フィルタの状態を保持するバッファ、307は音源信号
接続手段、308は入力音声信号、309は音声マイク
ロフレームに分割された入力音声信号、310は音源信
号、311は各音声マイクロフレームに対する候補のイ
ンデクス、312は先頭から選択を行うフレームまでの
積算誤差、313、314は合成フィルタ状態、315
は音源選択手段によって選択された音源信号、316は
出力されるサブフレーム長の音源信号である。
【0016】以上のように構成された第3のコードブッ
クの音源信号生成装置について、例として、1つの音声
サブフレームがn個の音声マイクロフレームに分割さ
れ、各音声マイクロフレームにおいてm個の候補が選択
されるとして、以下にその動作を説明する。積算誤差3
12と合成フィルタ状態313は、インデクス311と
1対1に対応しており、かつ、インデクス311はn個
のバッファによって構成されており、第1番目から第n
番目の各音声マイクロフレームに対する候補を記憶する
ことができるものである。フレーミング手段301は入
力音声信号308を音声マイクロフレームに分割し、第
1番目の音声マイクロフレームが第1番目の音源信号選
択手段303に、以下、第n番目の音声マイクロフレー
ムが第n番目の音源信号選択手段305に入力される。
第1番目の音源信号選択手段303は入力音声309か
らバッファ306に保持されている合成フィルタ状態の
影響を取り除いた後、入力音声信号と合成音声信号の誤
差を小さくするm個の音源信号を候補として選択する。
入力音声信号とコードブックの第j番目の音源信号によ
る合成音声信号の誤差Djは下式で表される
クの音源信号生成装置について、例として、1つの音声
サブフレームがn個の音声マイクロフレームに分割さ
れ、各音声マイクロフレームにおいてm個の候補が選択
されるとして、以下にその動作を説明する。積算誤差3
12と合成フィルタ状態313は、インデクス311と
1対1に対応しており、かつ、インデクス311はn個
のバッファによって構成されており、第1番目から第n
番目の各音声マイクロフレームに対する候補を記憶する
ことができるものである。フレーミング手段301は入
力音声信号308を音声マイクロフレームに分割し、第
1番目の音声マイクロフレームが第1番目の音源信号選
択手段303に、以下、第n番目の音声マイクロフレー
ムが第n番目の音源信号選択手段305に入力される。
第1番目の音源信号選択手段303は入力音声309か
らバッファ306に保持されている合成フィルタ状態の
影響を取り除いた後、入力音声信号と合成音声信号の誤
差を小さくするm個の音源信号を候補として選択する。
入力音声信号とコードブックの第j番目の音源信号によ
る合成音声信号の誤差Djは下式で表される
【0017】
【数1】
【0018】ただし、x(i)は入力音声信号、szir
(i)は合成フィルタの零入力応答、yj(i)はコードブ
ックの第j番目の音源信号による合成フィルタの零状態
応答、γjは最適ゲイン、Nは音声マイクロフレームの
長さである。
(i)は合成フィルタの零入力応答、yj(i)はコードブ
ックの第j番目の音源信号による合成フィルタの零状態
応答、γjは最適ゲイン、Nは音声マイクロフレームの
長さである。
【0019】第2番目の音源信号選択手段304は、第
1番目の音源信号選択手段303から、m個の候補に対
応するインデクス311と積算誤差312と合成フィル
タ状態313を受け取る。第2番目の音源信号選択手段
304は、受け取ったm個の候補それぞれに対してDj
を計算し、積算誤差を求め、すべての組み合わせの中か
ら、新たに積算誤差を小さくするm個の候補を選択す
る。以降、この操作を第n番目の音声マイクロフレーム
まで繰り返す。最終的に第n番目の音声マイクロフレー
ムにおいて選択されたm個の候補から、積算誤差を最小
にする1個が選択され、n個の各音声マイクロフレーム
に対する音源信号が決定される。決定された音源信号に
対する合成フィルタ状態は再びバッファ306に保存す
る。音源信号接続手段307は各音声マイクロフレーム
に対する音源信号を接続し、音声サブフレーム長の音源
信号316として出力する。
1番目の音源信号選択手段303から、m個の候補に対
応するインデクス311と積算誤差312と合成フィル
タ状態313を受け取る。第2番目の音源信号選択手段
304は、受け取ったm個の候補それぞれに対してDj
を計算し、積算誤差を求め、すべての組み合わせの中か
ら、新たに積算誤差を小さくするm個の候補を選択す
る。以降、この操作を第n番目の音声マイクロフレーム
まで繰り返す。最終的に第n番目の音声マイクロフレー
ムにおいて選択されたm個の候補から、積算誤差を最小
にする1個が選択され、n個の各音声マイクロフレーム
に対する音源信号が決定される。決定された音源信号に
対する合成フィルタ状態は再びバッファ306に保存す
る。音源信号接続手段307は各音声マイクロフレーム
に対する音源信号を接続し、音声サブフレーム長の音源
信号316として出力する。
【0020】選択過程の1例を、n=4、m=2として
図4を参照しながら説明する。401は各音声マイクロ
フレームにおいて選択された候補、402は最終的に決
定された音源信号の組み合わせである。
図4を参照しながら説明する。401は各音声マイクロ
フレームにおいて選択された候補、402は最終的に決
定された音源信号の組み合わせである。
【0021】第1番目の音声マイクロフレームにおいて
a、bの2個の候補が選択されたものとする。
a、bの2個の候補が選択されたものとする。
【0022】第2番目の音声マイクロフレームにおいて
は、a、bに対するすべての組み合わせから積算誤差を
小さくする2個の候補c、dが選択される。同様にし
て、第3番目の音声マイクロフレームにおいてはe、
f、第4番目の音声マイクロフレームにおいてはg,h
が選択される。各音声マイクロフレームにおいて候補の
組み合わせは常に2通りに制限されているため、必要と
されるバッファおよび演算量は、基本的な音声マイクロ
フレーム毎に音源信号を1つに決める構成と比較して、
約2倍に抑えられる。最終的にgとhの積算誤差を比較
し、誤差の小さいgが選択され、gが選択されるまでに
通った軌跡b−d−f−gが各音声マイクロフレームに
対する音源信号の組み合わせとなる。
は、a、bに対するすべての組み合わせから積算誤差を
小さくする2個の候補c、dが選択される。同様にし
て、第3番目の音声マイクロフレームにおいてはe、
f、第4番目の音声マイクロフレームにおいてはg,h
が選択される。各音声マイクロフレームにおいて候補の
組み合わせは常に2通りに制限されているため、必要と
されるバッファおよび演算量は、基本的な音声マイクロ
フレーム毎に音源信号を1つに決める構成と比較して、
約2倍に抑えられる。最終的にgとhの積算誤差を比較
し、誤差の小さいgが選択され、gが選択されるまでに
通った軌跡b−d−f−gが各音声マイクロフレームに
対する音源信号の組み合わせとなる。
【0023】以上のような構成によって、第3のコード
ブックの音源信号を生成することにより、合成フィルタ
状態が音源信号選択に与える影響を抑え、音声サブフレ
ーム内での誤差をより小さくする音源信号を生成するこ
とができる。特に、音声マイクロフレーム長が20サン
プル程度以下と短い場合には、合成フィルタ状態が次の
音声マイクロフレームに及ぼす影響が大きくなるため、
高い効果が得られる。
ブックの音源信号を生成することにより、合成フィルタ
状態が音源信号選択に与える影響を抑え、音声サブフレ
ーム内での誤差をより小さくする音源信号を生成するこ
とができる。特に、音声マイクロフレーム長が20サン
プル程度以下と短い場合には、合成フィルタ状態が次の
音声マイクロフレームに及ぼす影響が大きくなるため、
高い効果が得られる。
【0024】
【発明の効果】本発明は、上記実施例から明らかなよう
に、入力音声信号の予測残差信号と第1のコードブック
に蓄えられた音源信号との相互相関の大きさにより第1
のコードブックの機能の低下を検出し、第1のコードブ
ックの機能の低下が検出されたときに、使用するコード
ブックおよび音源信号選択の周期をより小さなものに切
り換えるようにしたので、局所的なピークを持つ励振音
源信号を精度良く表すことができ、音声品質を向上させ
ることができる。
に、入力音声信号の予測残差信号と第1のコードブック
に蓄えられた音源信号との相互相関の大きさにより第1
のコードブックの機能の低下を検出し、第1のコードブ
ックの機能の低下が検出されたときに、使用するコード
ブックおよび音源信号選択の周期をより小さなものに切
り換えるようにしたので、局所的なピークを持つ励振音
源信号を精度良く表すことができ、音声品質を向上させ
ることができる。
【図1】本発明の一実施例における音声符号化装置の構
成を示すブロック図
成を示すブロック図
【図2】本発明の一実施例において生成される音源信号
を示す特性図
を示す特性図
【図3】本発明の一実施例において、第3のコードブッ
クから音源信号を生成する装置の構成を示すブロック図
クから音源信号を生成する装置の構成を示すブロック図
【図4】本発明の一実施例において、第3のコードブッ
クから音源信号が選択される過程を示す図
クから音源信号が選択される過程を示す図
【図5】従来の音源符号化装置の構成を示す図
101 ピッチ周期分析手段 102 線形予測分析手段 103 第1のコードブック 104 第2のコードブック 105 合成フィルタ 106 聴覚重み付け手段 107 誤差最小化手段 108 予測残差信号算出手段 109 相互相関算出手段 110 音源信号を切り換えるスイッチ、 111 第3のコードブック 112 第3のコードブックの出力音源信号を接続する
手段 113 入力音声信号 114 ピッチ周期 115 第1のコードブックの出力音源信号 116 第2のコードブックの出力音源信号 117 励振音源信号 118 合成音声信号 119 線形予測係数 120 コードブックおよびゲインに対するフィードバ
ック 121 1音声サブフレーム遅延された励振音源信号 122 第1のコードブックに蓄えられた音源信号 123 予測残差信号 124 接続された第3のコードブックの音源信号
手段 113 入力音声信号 114 ピッチ周期 115 第1のコードブックの出力音源信号 116 第2のコードブックの出力音源信号 117 励振音源信号 118 合成音声信号 119 線形予測係数 120 コードブックおよびゲインに対するフィードバ
ック 121 1音声サブフレーム遅延された励振音源信号 122 第1のコードブックに蓄えられた音源信号 123 予測残差信号 124 接続された第3のコードブックの音源信号
Claims (4)
- 【請求項1】 入力音声信号を分析し、分析結果から第
1のコードブックの機能の低下を検出する手段と、第1
のコードブックの機能の低下が検出されたときに、使用
するコードブックおよび音源信号選択の周期をより小さ
なものに切り換える手段とを備えた音声符号化装置。 - 【請求項2】 入力音声信号の予測残差信号と第1のコ
ードブックに蓄えられた音源信号との相互相関の大きさ
により第1のコードブックの機能の低下を検出する手段
と、第1のコードブックの機能の低下が検出されたとき
に、使用するコードブックおよび音源信号選択の周期を
より小さなものに切り換える手段とを備えた音声符号化
装置。 - 【請求項3】 入力音声信号の予測残差信号を算出する
手段と、第1のコードブックに蓄えられた過去の音源信
号と予測残差信号との相互相関を算出して第1のコード
ブックの機能の低下を検出する手段と、前記第1のコー
ドブックおよび第2のコードブックからそれぞれ選択し
た音源符号の線形和により音源信号を生成する手段と、
音声サブフレームをさらに小区間に分割した音声マイク
ロフレーム長について予め定められた形状の音源信号を
格納する第3のコードブックと、前記生成された音源信
号と前記第3のコードブックからの音源信号とを前記算
出された相互相関の大きさにより切り換える手段と、前
記第3のコードブックから選択された音源信号を接続し
て音声サブフレーム長の音源信号を生成する手段とを備
えた音声符号化装置。 - 【請求項4】 第3のコードブックから音源信号を選択
する手段において、各音声マイクロフレーム毎に複数の
候補を選択し、候補選択の尺度として、先頭から候補の
選択を行う音声マイクロフレームまでの各候補に対する
積算誤差を用い、前記積算誤差の大きさにより各音声マ
イクロフレームに対する候補の組み合わせの数を制限す
ることを特徴とする請求項3記載の音声符号化装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP32023794A JP3183074B2 (ja) | 1994-06-14 | 1994-12-22 | 音声符号化装置 |
DE69520982T DE69520982T2 (de) | 1994-06-14 | 1995-06-13 | Vorrichtung zur Kodierung von ein lokales Maximum enthaltender Sprache |
EP95109096A EP0688013B1 (en) | 1994-06-14 | 1995-06-13 | Apparatus for coding speech having a local peak |
US08/490,253 US5699483A (en) | 1994-06-14 | 1995-06-14 | Code excited linear prediction coder with a short-length codebook for modeling speech having local peak |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6-131889 | 1994-06-14 | ||
JP13188994 | 1994-06-14 | ||
JP32023794A JP3183074B2 (ja) | 1994-06-14 | 1994-12-22 | 音声符号化装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0863195A true JPH0863195A (ja) | 1996-03-08 |
JP3183074B2 JP3183074B2 (ja) | 2001-07-03 |
Family
ID=26466608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP32023794A Expired - Fee Related JP3183074B2 (ja) | 1994-06-14 | 1994-12-22 | 音声符号化装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5699483A (ja) |
EP (1) | EP0688013B1 (ja) |
JP (1) | JP3183074B2 (ja) |
DE (1) | DE69520982T2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW307960B (en) * | 1996-02-15 | 1997-06-11 | Philips Electronics Nv | Reduced complexity signal transmission system |
JP3878254B2 (ja) * | 1996-06-21 | 2007-02-07 | 株式会社リコー | 音声圧縮符号化方法および音声圧縮符号化装置 |
US6493665B1 (en) * | 1998-08-24 | 2002-12-10 | Conexant Systems, Inc. | Speech classification and parameter weighting used in codebook search |
JP2001143385A (ja) * | 1999-11-16 | 2001-05-25 | Nippon Columbia Co Ltd | ディジタル・オーディオ・ディスク・レコーダ |
US6356213B1 (en) * | 2000-05-31 | 2002-03-12 | Lucent Technologies Inc. | System and method for prediction-based lossless encoding |
KR101116363B1 (ko) * | 2005-08-11 | 2012-03-09 | 삼성전자주식회사 | 음성신호 분류방법 및 장치, 및 이를 이용한 음성신호부호화방법 및 장치 |
JP4736632B2 (ja) * | 2005-08-31 | 2011-07-27 | 株式会社国際電気通信基礎技術研究所 | ボーカル・フライ検出装置及びコンピュータプログラム |
JP2008058667A (ja) * | 2006-08-31 | 2008-03-13 | Sony Corp | 信号処理装置および方法、記録媒体、並びにプログラム |
DK2898064T3 (en) | 2012-09-19 | 2019-03-04 | Microvascular Tissues Inc | COMPOSITIONS FOR TREATMENT AND PREVENTION OF TISSUE DAMAGE AND DISEASE |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4852179A (en) * | 1987-10-05 | 1989-07-25 | Motorola, Inc. | Variable frame rate, fixed bit rate vocoding method |
US5194950A (en) * | 1988-02-29 | 1993-03-16 | Mitsubishi Denki Kabushiki Kaisha | Vector quantizer |
KR930004311B1 (ko) * | 1989-04-18 | 1993-05-22 | 미쯔비시덴끼 가부시끼가이샤 | 동화상 부호화 복호화장치 |
EP0443548B1 (en) * | 1990-02-22 | 2003-07-23 | Nec Corporation | Speech coder |
-
1994
- 1994-12-22 JP JP32023794A patent/JP3183074B2/ja not_active Expired - Fee Related
-
1995
- 1995-06-13 DE DE69520982T patent/DE69520982T2/de not_active Expired - Fee Related
- 1995-06-13 EP EP95109096A patent/EP0688013B1/en not_active Expired - Lifetime
- 1995-06-14 US US08/490,253 patent/US5699483A/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
DE69520982T2 (de) | 2001-10-31 |
EP0688013A2 (en) | 1995-12-20 |
EP0688013B1 (en) | 2001-05-23 |
DE69520982D1 (de) | 2001-06-28 |
JP3183074B2 (ja) | 2001-07-03 |
US5699483A (en) | 1997-12-16 |
EP0688013A3 (en) | 1997-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3196595B2 (ja) | 音声符号化装置 | |
JP3180762B2 (ja) | 音声符号化装置及び音声復号化装置 | |
KR100497788B1 (ko) | Celp 코더내의 여기 코드북을 검색하기 위한 방법 및 장치 | |
JPH09281998A (ja) | 音声符号化装置 | |
JPWO2008072736A1 (ja) | 適応音源ベクトル量子化装置および適応音源ベクトル量子化方法 | |
JP3180786B2 (ja) | 音声符号化方法及び音声符号化装置 | |
JP3183074B2 (ja) | 音声符号化装置 | |
JPH09160596A (ja) | 音声符号化装置 | |
JP2002268686A (ja) | 音声符号化装置及び音声復号化装置 | |
KR100465316B1 (ko) | 음성 부호화기 및 이를 이용한 음성 부호화 방법 | |
JP3095133B2 (ja) | 音響信号符号化方法 | |
EP0745972A2 (en) | Method of and apparatus for coding speech signal | |
JPH07225599A (ja) | 音声の符号化方法 | |
JP3003531B2 (ja) | 音声符号化装置 | |
JPH06282298A (ja) | 音声の符号化方法 | |
JP3088204B2 (ja) | コード励振線形予測符号化装置及び復号化装置 | |
JP3319396B2 (ja) | 音声符号化装置ならびに音声符号化復号化装置 | |
JP3153075B2 (ja) | 音声符号化装置 | |
JP3192051B2 (ja) | 音声符号化装置 | |
JPH08320700A (ja) | 音声符号化装置 | |
JP2001222298A (ja) | 音声符号化方法および音声復号化方法とその装置 | |
JPH08211895A (ja) | ピッチラグを評価するためのシステムおよび方法、ならびに音声符号化装置および方法 | |
JP3230380B2 (ja) | 音声符号化装置 | |
JP3071800B2 (ja) | 適応ポストフィルタ | |
JPH07334193A (ja) | 音声符号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |