JPH1020890A - 音声符号化装置および情報記録媒体 - Google Patents

音声符号化装置および情報記録媒体

Info

Publication number
JPH1020890A
JPH1020890A JP8171483A JP17148396A JPH1020890A JP H1020890 A JPH1020890 A JP H1020890A JP 8171483 A JP8171483 A JP 8171483A JP 17148396 A JP17148396 A JP 17148396A JP H1020890 A JPH1020890 A JP H1020890A
Authority
JP
Japan
Prior art keywords
sound source
speech
error
candidates
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8171483A
Other languages
English (en)
Inventor
Naoya Tanaka
中 直 也 田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP8171483A priority Critical patent/JPH1020890A/ja
Publication of JPH1020890A publication Critical patent/JPH1020890A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

(57)【要約】 【課題】 複数のコードブックから選択したコードベク
トルの組み合わせにより、音源情報を符号化する音声符
号化装置において、音源の符号化により適するコードベ
クトルの組み合わせを選択し、音声品質を向上させる。 【解決手段】 複数のコードブックから、逐次的に音源
コードベクトルの組み合わせを選択する構成の駆動音源
生成部において、コードベクトル選択を2つの段階に分
け、第1 段階では、逆フィルタ103により算出された
予測残差118に対して誤差を小さくするような音源コ
ードベクトルの組を多数の候補を残すディレイドデシジ
ョンを用いて複数組選択する。第2段階では、第1段階
で選択された音源コードベクトル候補についてのみ合成
フィルタリングを行い、その合成音声120と入力音声
112との誤差に、聴覚的な重み付けを行った誤差12
2を最小化する1組の音源コードベクトルを決定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力音声信号を4
〜8kbps程度のビットレートで符号化する音声符号
化装置およびそれをソフトウェアで実現するためのプロ
グラムを記憶した情報記憶媒体に関する。
【0002】
【従来の技術】4〜8kbps程度のビットレートの音
声符号化方法として、入力音声信号をあらかじめ定めら
れた時間長の音声フレームに分割し、各音声フレームを
分析してスペクトルパラメータを算出し、このスペクト
ルパラメータを係数とする合成フィルタを、コードブッ
クから選択した音源信号により励振することによって合
成音声信号を得る方法がある。この音声符号化方法は、
一般にCELP(Code Excited Liner Prediction codi
ng:符号励振線形予測符号化)と呼ばれている。CEL
Pは一般に、過去の音源信号を蓄えておき、入力音声信
号のピッチ周期に応じて切り出して用いる適応コードブ
ックと、あらかじめ定められた形状の音源信号を格納し
てあり、その中から音源信号として最もふさわしいもの
を取り出して用いる雑音コードブックを持ち、合成フィ
ルタの入力となる音源信号(以下、これを励振音源信号
という)は、2つのコードブックから選択した音源信号
の線形和として生成される。
【0003】以下、従来の励振音源信号の生成手段につ
いて図5を参照して説明する。図5において、まずピッ
チ周期分析手段501は入力音声511からピッチ候補
512を抽出する。次に適応コードブック503に蓄え
られた過去の音源信号から、ピッチ候補512に応じて
音源信号を切り出す。適応コードブック503から切り
出された適応コードベクトル候補513と、雑音コード
ブック505から切り出された雑音コードブックベクト
ル候補514との線形和により駆動音源候補515を生
成する。一方、線形予測分析手段502は、入力音声5
11から線形予測係数516を算出し、線形予測合成フ
ィルタ507は、駆動音源候補515と線形予測係数5
16とから合成音声517を得る。この合成音声517
と入力音声511との差をとり、聴覚重み付けフィルタ
508によって重み付けを行った後、誤差最小化手段5
09によって聴覚重み付き誤差519を最小化するよう
な、適応コードベクトル、雑音コードベクトルおよびゲ
インコードブック506からのゲインコードの組み合わ
せを決定する。また、適応コードブックと切り替えて使
用できる固定形状コードブック504を設けることもで
きる。最終的に、各音源コードベクトル、ゲイン、およ
び別に符号化した線形予測係数に対応するインデクス
が、マルチプレクサ510で多重化され、符号化出力5
21として出力される。このような構成を持つCELP
方式の音声符号化装置としては、例えば、PDCハーフ
レート標準PSI−CELP方式(財団法人電波システ
ム開発センター、デジタル方式自動車電話システム標準
規格RCR STD−27C)などが知られている。
【0004】入力音声と合成音声の重み付けされた誤差
を、全コードブックのすべての組み合わせについて評価
するには膨大な演算が必要なため、各コードブックにつ
いて逐次的に最適なコードベクトル候補を選択する方法
がとられる。例えば、第1ステップとして適応コードベ
クトル単独で誤差を最小化する適応コードベクトル候補
を選択し、次のステップとして、第1ステップで選択さ
れた適応コードベクトル候補に対する組み合わせとして
雑音コードベクトルを選択し、最終ステップとして、ゲ
インコードを選択するものである。
【0005】
【発明が解決しようとする課題】しかしながら、このよ
うな逐次的な選択方法では、最適なコードベクトルの組
み合わせは得られない。この問題を解決する方法の1つ
として、各ステップにおいて複数の候補を残して行き、
最終ステップでそれぞれの候補の組み合わせによる誤差
を比較し、誤差を最小にする組み合わせを選択するディ
レイドデシジョン法があるが、例えば、2つのコードブ
ックから逐次的に候補を選択するとき、第1ステップで
k個の候補を残すと、第2ステップの演算量はk倍とな
る。したがって演算量の制約により、例えば第1ステッ
プのコードベクトル候補として残すことができる候補の
数は2つ程度の少数に制限されていた。
【0006】本発明は、上記従来の問題を解決するもの
で、コードベクトル候補選択における誤差算出および評
価を2段階に分けて行うことにより、コードベクトル選
択に必要な演算量を削減し、多数のコードベクトル候補
を残してディレイドデシジョンを行うことによって、音
源情報を符号化するのにより適するコードベクトルの組
み合わせを選択し、符号化音声の品質を向上させること
を目的とするものである。
【0007】
【課題を解決するための手段】上記目的を達成するため
に、本発明の音声符号化装置は、従来のCELPを用い
た符号化装置に、線形予測係数を用いて、入力音声から
音源情報を表す予測残差を算出する逆フィルタと、予測
残差とコードベクトルとの誤差を最小化する誤差最小化
手段を設けたものであり、コードベクトル選択の過程
を、予測残差とコードベクトルとの誤差を最小化する第
1の誤差最小化手段を用いたコードベクトル選択と、入
力音声と合成音声との重み付き誤差を最小化する従来と
同様の第2の誤差最小化手段を用いたコードベクトル選
択の2段階に分けたものである。まず第1段階として、
第1の誤差最小化手段を用いて、予測残差とコードベク
トルとの誤差を小さくするコードベクトル候補の組み合
わせを、複数のコードブックについて逐次的に選択す
る。このとき、第1の誤差最小化手段は、第2の誤差最
小化手段と比較して演算量が少ないため、多数の候補を
残してのディレイドデシジョンが可能である。第1段階
では、コードベクトル候補の組み合わせを誤差を小さく
する方から複数組選択しておく。続いて第2段階では、
第1の誤差最小化手段を用いて選択したコードベクトル
の組み合わせについてのみ、第2の誤差最小化手段をも
ちいて評価を行い、入力音声と合成音声との聴覚的重み
付き誤差を最小にする1組のコードベクトルの組み合わ
せを決定する。以上により、音源情報を符号化するのに
より適するコードベクトルの組み合わせを選択すること
ができ、符号化音声の品質を向上させることができる。
【0008】
【発明の実施の形態】本発明の請求項1に記載の発明
は、入力音声信号をスペクトル情報と音源情報に分離
し、音源情報を表す駆動音源信号を複数の音源コードブ
ックを参照して生成し、スペクトル情報を表す合成フィ
ルタを用いて駆動音源信号から合成音声信号を再生し、
その合成音声信号と入力音声信号との間の聴覚的に重み
付けされた誤差を最小化するコードをコードブックから
選択することによって、音声信号を符号化する装置にお
いて、誤差最小化に基づくコードベクトルの選択が、逆
フィルタにより算出された予測残差に対する駆動音源信
号の誤差を最小化する複数の候補を選択する第1の段階
と、第1段階において選択された複数の駆動音源候補に
対して合成フィルタリングを行って合成音声信号を生成
し、その合成音声信号と入力音声信号との間の聴覚的に
重み付けされた誤差を最小にする1組の候補を選択する
第2の段階からなるものであり、第1段階において、従
来法よりも多数の候補を残してディレイドデシジョン法
を適用することができることから、音源情報を符号化す
るのにより適するコードベクトルの組み合わせを選択す
ることができ、符号化音声の品質を向上させることがで
きる。
【0009】また、請求項2に記載の発明は、請求項1
に記載の誤差最小化に基づくコード選択の第1段階が、
切り替えて使用できる複数の音源コードブックから駆動
音源候補を逐次的に選択する手段を有し、各音源コード
ブックからそれぞれ複数個の候補を選択して、そのすべ
ての組み合わせについて音源信号を生成するようにした
ものであり、誤差を小さくするコードベクトルの組み合
わせを選択することによって、音源情報を符号化するの
により適するコードベクトルの組み合わせを選択するこ
とができ、符号化音声の品質を向上させることができ
る。
【0010】また、請求項3に記載の発明は、請求項1
に記載の誤差最小化に基づくコード選択の第1段階が、
切り替えて使用できる複数の音源コードブックから駆動
音源候補を逐次的に選択する手段を有する音源コードブ
ックの組を複数備え、各音源コードブックの組ごとに独
立して音源信号を生成するようにしたものであり、各音
源コードブックの組は各組毎にあらかじめ定められてい
る数のコードベクトル候補の組を出力するとともに、各
音源コードブックの組を、ある特徴づけられる音声の音
源として適するように調整しておくことにより、コード
選択の第2段階において、種々の特徴づけられた駆動音
源候補から合成音声を生成し、誤差を評価することがで
きる。したがって、音源情報を符号化するのにより適す
るコードベクトルの組み合わせを選択することができ、
符号化音声の品質を向上させることができる。
【0011】また、請求項4に記載の発明は、請求項3
に記載の誤差最小化に基づくコード選択の第1段階が、
入力音声信号を分析して音声的特徴量を抽出する手段
と、その特徴量に基づいて、複数備えた音源コードブッ
クの組の中から入力音声信号に適する音源音源コードブ
ックの組を少なくとも1つ選択する判定手段と備えたも
のであり、誤差評価を行う音源コードプックの組を制限
することによって演算量を削減することができ、また、
入力音声の特徴に適した駆動音源信号を使用することに
よって、聴感的な音声品質を向上させることができる。
【0012】また、請求項5に記載の発明は、本発明に
よる音声符号化装置を、信号処理プロセッサを用いてソ
フトウェアで実現するためのプログラムを記憶させたフ
ロッピディスクなどの記憶媒体であり、例えば、パーソ
ナルコンピュータなどの汎用信号処理装置上でソフトウ
ェアにより本発明による音声符号化装置を実現できるも
のである。
【0013】以下、本発明の実施の形態について、図1
から図4を用いて説明する。 (実施の形態1)図1は本発明の第1の実施の形態にお
ける音声符号化装置の構成を示すものである。図1にお
いて、101は入力音声112からピッチ候補113を
算出するピッチ周期分析手段、102は入力音声112
から線形予測係数を算出する線形予測分析手段、103
は入力音声112から音源情報を表す予測残差118を
算出する逆フィルタ、104は適応コードブック、10
5は雑音コードブック、106はゲインコードブック、
107は適応コードブック104から切り出された適応
コードベクトル候補114と雑音コードブック105か
ら切り出された雑音コードベクトル115との線形和に
より生成された駆動音源候補116と線形予測分析手段
102からの線形予測係数117とを合成して合成音声
120を生成する線形予測合成フィルタ、108は合成
音声120と入力音声112との差をとった誤差121
を重み付けして聴覚重み付き誤差122を出力する聴覚
重み付けフィルタ、109は予測残差118と駆動音源
候補116との誤差を最小化する第1の誤差最小化手
段、110は聴覚重み付き誤差122を最小化する第2
の誤差最小化手段、111は各誤差最小化手段109、
110からのフィードバック123、124により組み
合わせを決定された適応コードブック104と雑音コー
ドブック105とゲインコードブック106の出力符号
と線形予測分析手段102からの出力符号とを多重化し
て符号化出力125を出力するマルチプレクサである。
【0014】本実施の形態は、図5に示した従来のCE
LPを用いた符号化装置に、線形予測係数を用いて入力
音声から音源情報を表す予測残差を算出する逆フィルタ
103と、予測残差とコードベクトルとの誤差を最小化
する誤差最小化手段109とを追加し、コードベクトル
の選択を、この追加した誤差最小化手段109と従来か
らある誤差最小化手段110とで2段階で行うようにし
たものであり、他の構成および動作は従来例と同じなの
で、以下には従来例と異なる部分の動作についてのみ説
明する。
【0015】図1において、線形予測分析手段102は
入力音声を分析し、線形予測係数117を算出する。こ
の線形予測係数117を用いた逆フィルタ103の伝達
関数は次式によって定義される。
【0016】
【数1】 ここで、αi は線形予測係数、iは時間軸上のサンプル
点を表す添え字、NPは線形予測分析の次数である。ま
た、線形予測係数117を用いた合成フィルタ107の
伝達関数は次式で定義される。
【0017】
【数2】 予測残差118eは入力音声112xと逆フィルタ10
3を用いて、
【0018】
【数3】 で表される。eを駆動音源とすれば、合成フィルタ10
7を用いて、 X(z)=A(z)E(z) ・・・(4) であるから、予測残差118eを正確に符号化できれ
ば、入力音声112xは再現できることになる。したが
って、音源コードベクトルを組み合わせることによっ
て、予測残差118との誤差を最小にするような駆動音
源を生成すればよい。予測残差e と音源コードベクトル
j の誤差をとして、誤差119Er を最小化するため
の評価式は、
【0019】
【数4】 ここで、jは音源コードベクトルにつけられたインデク
ス、gr は理想的なゲインである。
【0020】しかしながら、予測残差上の符号化に伴う
誤差(符号化歪み)の大きさと、合成音声の聴感上の音
声品質は必ずしも一致しないため、CELP方式では、
コードベクトルから生成した駆動音源から合成音声を生
成し、入力音声との誤差に聴覚重み付けフィルタ108
W(z)を用いて聴感的な重み付けをしてから誤差の評
価を行い、誤差を最小にするコードベクトルの組み合わ
せを決定する。このとき、評価尺度となる聴覚的に重み
付けされた誤差122Ew は、
【0021】
【数5】 ただし、tは入力音声xを聴覚重み付けフィルタW
(z)によって重み付けしたターゲットベクトル、gc
は理想的なゲイン、Hは(8)式で与えられる、合成フ
ィルタと聴覚重み付けフィルタを縦続接続したフィルタ
A(z)W(z)のインパルス応答行列である。
【0022】
【数6】 ただし、h(i)はフィルタA(z)W(z)のインパ
ルス応答、kはインパルス応答の長さである。(7)式
のEw を最小化するための評価式は、
【0023】
【数7】 と表され、(9)式を満たすコードベクトルが求めるコ
ードベクトルである。複数のコードブックから逐次的に
コードベクトルを選択するには、ターゲットベクトルt
から前のステップで決定したコードベクトルの影響を引
き算するか、あるいは、選択しようとするコードブック
のコードベクトルを、前のステップで選択したコードベ
クトルに対して直交化させてから、(9)式を適用すれ
ばよい。
【0024】しかしながら、すべてのコードベクトルcj
に対して、(9)式を適用すると演算量が非常に大きく
なるため、まず(9)式の分子部分だけを用いて評価を
行って、候補となるコードベクトルの数を少なくする予
備選択を行ってから、改めて(9)式を用いて評価を行
うことが多い。ただし、予備選択では(9)式の分母部
分を無視するため、予備選択で残す候補を少なくする
と、最適なコードベクトルが選択されない可能性が高く
なり、音声品質が劣化する。したがって、予備選択にお
いて、例えば1つのコードブックについて4から6候補
程度を残すとすると、多数の候補を残してのディレイド
デシジョンの実行は演算量が非常に大きくなるために難
しくなる。
【0025】これに対して、本実施の形態におけるの音
声符号化装置によれば、音源コードベクトル選択の第1
段階は、誤差最小化手段109により、評価式(6)を
用いて行われる。評価式(6)はインパルス行列H を含
まないため、評価式(9)と比較して演算量は少ない。
さらに、音源コードベクトルcj のエネルギ|cj 2
が正規化されているコードブックに対しては、(6)式
の分子部分の演算だけで評価ができる利点があり、演算
量はさらに削減される。したがって(6)式を用いた評
価においては、多数の候補を残してのディレイドデシジ
ョンが容易となる。多数候補によるディレイドデシジョ
ンの実行により、予測残差118をより正確に符号化す
る音源コードベクトルの組み合わせが選択できることに
なるが、その結果として、入力音声と合成音声との誤差
が減少することは(4)式より明らかである。ただし、
上記したように、予測残差上の符号化歪みの大きさと聴
感上の音声品質は必ずしも一致しないため、第1段階で
は、複数の音源コードベクトルの組み合わせを候補とし
て残しておき、第2段階では誤差最小化手段110が、
第1段階で選択された候補に対してのみ、従来のCEL
P方式と同様に(9)式を用いて評価を行い、聴覚的に
重み付けされた誤差Ewを最小化する一組の音源コードベ
クトルの組み合わせを決定する。決定されたコードベク
トルの組み合わせに対するゲインはゲインコードブック
106を用いて量子化される。最終的に、各音源コード
ベクトル、ゲイン、および別に符号化した線形予測係数
に対応するインデクスが、マルチプレクサ111で多重
化され、符号化出力125として出力される。
【0026】なお、ゲインコードブックを含めたディレ
イドデシジョンを行うことも可能であり、第2段階の選
択においても候補を複数残しておき、ゲインの量子化を
行ってから、誤差を最小にするコードベクトルとゲイン
の組を決定すればよい。
【0027】(実施の形態2)図2は本発明の第2の実
施の形態における音声符号化装置の構成を示すものであ
る。図2において、201は入力音声212からピッチ
候補213を算出するピッチ周期分析手段、202は入
力音声212から線形予測係数を算出する線形予測分析
手段、203は入力音声212から音源情報を表す予測
残差218を算出する逆フィルタ、204は適応コード
ブック204aおよび固定形状コードブック204bと
これらのコードブックから駆動音源候補を逐次的に選択
するスイッチ204cとからなる音源コードブックの第
1グループ、205は2つの雑音コードブック205
a、205bとこれら雑音コードブックから駆動音源候
補を逐次的に選択するスイッチ205cとからなる音源
コードブックの第2グループ、206はゲインコードブ
ック、207は第1グループ204から切り出されたコ
ードベクトル候補114と第2グループ205から切り
出されたコードベクトル候補215との線形和により生
成された駆動音源候補216と線形予測分析手段202
からの線形予測係数217とを合成して合成音声220
を生成する線形予測合成フィルタ、208は合成音声2
20と入力音声212との差をとった誤差221を重み
付けして聴覚重み付き誤差222を出力する聴覚重み付
けフィルタ、209は予測残差218と駆動音源候補2
16との誤差を最小化する第1の誤差最小化手段、21
0は聴覚重み付き誤差222を最小化する第2の誤差最
小化手段、211は各誤差最小化手段209、210か
らのフィードバック223、224により組み合わせを
決定された第1グループ204と第2グループ205と
ゲインコードブック206の出力符号と線形予測分析手
段202からの出力符号とを多重化して符号化出力22
5を出力するマルチプレクサである。
【0028】本実施の形態は、図1に示した第1の実施
の形態における符号化装置の音源コードブックである適
応コードブック104と雑音コードブック105を変更
して、逐次選択の第1ステップで使用する第1グループ
204と第2ステップで使用する第2グループ205と
に分け、各グループ内のコードブックをスイッチにより
切り替えて選択するようにしたものであり、他の構成お
よび動作は第1の実施の形態と同じなので、以下には第
1の実施の形態と異なる部分の動作についてのみ説明す
る。
【0029】各グループに属する音源コードブックは、
それぞれある特徴づけられる入力音声に適するように調
整されている。まず、第1段階の誤差最小化手段209
は、逐次選択の第1ステップで使用する第1グループ2
04に属するすべての音源コードブックに対して誤差評
価を行い、誤差219を小さくする複数の音源コードベ
クトルを候補として選択する。続いて、逐次選択の第2
ステップで使用する第2グループ205に属するすべて
の音源コードブックについて、第1ステップで選択され
た候補との組み合わせにおいて、誤差219を小さくす
る複数の候補を選択する。第1段階で選択された候補に
対しては、第2段階の誤差最小化手段210が誤差評価
を行い、最終的に聴覚的重み付き誤差222を最小にす
る1組の音源コードベクトルを決定する。このような構
成によって、より入力音声の特徴に合った音源を生成す
ることができ、符号化した音声の品質を向上することが
できる。
【0030】(実施の形態3)
【0031】図3は本発明の第3の実施の形態における
音声符号化装置の構成を示すものである。図3におい
て、301は入力音声312からピッチ候補313を算
出するピッチ周期分析手段、302は入力音声312か
ら線形予測係数を算出する線形予測分析手段、303は
入力音声312から音源情報を表す予測残差318を算
出する逆フィルタ、304は適応コードブックからなる
音源コードブックの第1グループ、305は2つの雑音
コードブック305a、305bとこれら雑音コードブ
ックから駆動音源候補を逐次的に選択するスイッチ30
5cとからなる音源コードブックの第2グループであ
り、これら第1および第2グループを1組として第1組
326と第2組327との2つの組が設けられている。
306は第1組326および第2組327からそれぞれ
出力された音源コードベクトルを増幅する増幅器32
8、329の増幅度を決定するためのゲインコードブッ
ク、307は第1組326から選択されたコードベクト
ル候補の線形和である駆動音源候補314と、第2組3
27から選択されたコードベクトル候補の線形和である
駆動音源候補315とをスイッチ330により選択した
結果である駆動音源候補316と、線形予測分析手段3
02からの線形予測係数317とを合成して合成音声3
20を生成する線形予測合成フィルタ、308は合成音
声320と入力音声312との差をとった誤差321を
重み付けして聴覚重み付き誤差322を出力する聴覚重
み付けフィルタ、309は予測残差318と駆動音源候
補316との誤差を最小化する第1の誤差最小化手段、
310は聴覚重み付き誤差322を最小化する第2の誤
差最小化手段、311は各誤差最小化手段309、31
0からのフィードバック323、324により組み合わ
せを決定された第1組326と第2組327とゲインコ
ードブック306の出力符号と、線形予測分析手段30
2からの出力符号とを多重化して符号化出力325を出
力するマルチプレクサである。
【0032】本実施の形態は、図2に示した第2の実施
の形態における符号化装置の音源コードブックである第
1グループ204と第2グループ205を変更して、逐
次選択の第1ステップで使用するグループから選んだ少
なくとも1つの音源コードブックと、第2ステップで使
用するグループから選んだ少なくとも1つの音源コード
ブックとを組として、その音源コードブックの組を複数
用意し、それぞれをスイッチにより切り替えて選択する
ようにしたものであり、他の構成および動作は第2の実
施の形態と同じなので、以下には第2の実施の形態と異
なる部分の動作についてのみ説明する。
【0033】各組に属する音源コードブックは、それぞ
れある特徴づけられる入力音声に適するように調整され
ている。まず、第1段階の誤差最小化手段309は、逐
次選択の第1ステップで使用する第1グループ304に
属する音源コードブックのうち、第1組に含まれる音源
コードブックに対して誤差評価を行い、誤差319を小
さくする複数の音源コードベクトルを候補として選択す
る。続いて、逐次選択の第2ステップで使用する第2グ
ループ305に属する音源コードブックのうち、第1組
に含まれる音源コードブックについて、第1ステップで
選択された候補との組み合わせにおいて、誤差319を
小さくする複数の候補を選択し、第1組の駆動音源候補
314とする。同様にして、第2組からも誤差319を
小さくする複数の候補を選択し、第2組の駆動音源候補
315とする。第1段階で選択された候補314、31
5に対しては、第2段階の誤差最小化手段310が誤差
評価を行い、最終的に聴覚的重み付き誤差322を最小
にする1組の音源コードベクトルを決定する。このよう
に、逐次選択によって駆動音源候補を生成する複数のコ
ードブックの組を設けることにより、コードブックの組
毎に、ある特徴づけられる音声の音源として適する駆動
音源候補を生成することができ、符号化した音声の品質
を向上することができる。
【0034】(実施の形態4)図4は本発明の第4の実
施の形態における音声符号化装置の構成を示すものであ
る。図4において、401は入力音声412からピッチ
候補413を算出するピッチ周期分析手段、402は入
力音声412から線形予測係数を算出する線形予測分析
手段、403は入力音声412から音源情報を表す予測
残差418を算出する逆フィルタ、404は適応コード
ブックからなる音源コードブックの第1グループ、40
5は2つの雑音コードブック405a、405bとこれ
ら雑音コードブックから駆動音源候補を逐次的に選択す
るスイッチ405cとからなる音源コードブックの第2
グループであり、これら第1および第2グループを1組
として第1組426と第2組427との2つの組が設け
られている。406は第1組426および第2組427
からそれぞれ出力された音源コードベクトルを増幅する
増幅器428、429の増幅度を決定するためのゲイン
コードブック、407は第1組426から選択されたコ
ードベクトル候補の線形和である駆動音源候補414
と、第2組427から選択されたコードベクトル候補の
線形和である駆動音源候補415とをスイッチ430に
より選択した結果である駆動音源候補416と、線形予
測分析手段402からの線形予測係数417とを合成し
て合成音声420を生成する線形予測合成フィルタ、4
08は合成音声420と入力音声412との差をとった
誤差421を重み付けして聴覚重み付き誤差422を出
力する聴覚重み付けフィルタ、409は予測残差418
と駆動音源候補416との誤差を最小化する第1の誤差
最小化手段、410は聴覚重み付き誤差422を最小化
する第2の誤差最小化手段、411は各誤差最小化手段
409、410からのフィードバック423、424に
より組み合わせを決定された第1組426と第2組42
7とゲインコードブック406の出力符号と、線形予測
分析手段402からの出力符号とを多重化して符号化出
力425を出力するマルチプレクサである。
【0035】本実施の形態は、図3に示した第3の実施
の形態における符号化装置の構成に、入力音声を分析し
て特徴量を抽出する手段431と、その特徴量に基づい
て、複数ある音源コードブックの組の中から入力音声信
号に適する音源コードブックの組を少なくとも1つ選択
する判定手段432とを追加したものであり、他の構成
および動作は第3の実施の形態と同じなので、以下には
第3の実施の形態と異なる部分の動作についてのみ説明
する。
【0036】特徴量抽出手段431は、入力音声412
を分析して、入力音声の性質を表す特徴量を抽出する。
判定手段432は、抽出された特徴量を基に、入力音声
の音源として適する音源コードブックの組を少なくとも
1つ選択する。第1段階の誤差最小化手段409は、判
定手段432によって選択された音源コードブックの組
についてのみ、音源コードベクトルの選択を行い、複数
の駆動音源候補416を生成する。第2段階の誤差最小
化手段は、駆動音源候補416の中から、聴覚重み付き
誤差422を最小にする1組の音源コードベクトルを決
定する。このような構成によって、コードベクトルの選
択を行うコードブックの数を制限することにより、演算
量の削減が可能となる。さらに、入力音声の性質に適し
た音源コードブックから駆動音源を生成するため、予測
残差上の誤差および聴覚重み付き誤差での評価尺度と一
致しない部分の聴感上の音声品質を向上させることがで
きる。
【0037】(実施の形態5)本発明の第5の実施の形
態は、上記各実施の形態における音声符号化装置の処理
アルゴリズムをプログラミング言語によって記述し、ソ
フトウェアとして実現したものである。プログラムをフ
ロッピディスク等の記憶媒体に記録しておき、パーソナ
ルコンピュータ等の汎用信号処理装置に記憶媒体を接続
してプログラムを実行させることにより、パーソナルコ
ンピュータ等においても本発明の音声符号化装置の機能
を実現することができる。
【0038】
【発明の効果】以上のように、本発明は、従来のCEL
Pを用いた符号化装置に、入力音声から音源情報を表す
予測残差を算出する逆フィルタと、この逆フィルタから
の予測残差とコードベクトルとの誤差を最小化する追加
の誤差最小化手段を設け、誤差最小化に基づくコードベ
クトルの選択を、予測残差に対する駆動音源信号の誤差
を最小化する複数の候補を選択する第1の段階と、第1
段階において選択された複数の駆動音源候補に対して合
成フィルタリングを行って合成音声信号を生成し、その
合成音声信号と入力音声信号との間の聴覚的に重み付け
された誤差を最小にする1組の候補を選択する第2の段
階から構成することにより、音源情報を符号化するのに
より適するコードベクトルの組み合わせを選択すること
ができ、符号化音声の品質を向上させることができると
いう効果が得られる。
【図面の簡単な説明】
【図1】本発明の実施の形態1における音声符号化装置
のブロック図
【図2】本発明の実施の形態2における音声符号化装置
のブロック図
【図3】本発明の実施の形態3における音声符号化装置
のブロック図
【図4】本発明の実施の形態4における音声符号化装置
のブロック図
【図5】従来のCELP方式による音声符号化装置のブ
ロック図
【符号の説明】
101、201、301、401 ピッチ周期分析手段 102、202、302、402 線形予測分析手段 103、203、303、403 逆フィルタ 104 適応コードブック 105 雑音コードブック 106、206、306、406 ゲインコードブック 107、207、307、407 合成フィルタ 108、208、308、408 聴覚重み付けフィル
タ 109、209、309、409 第1の誤差最小化手
段 110、210、310、410 第2の誤差最小化手
段 111、211、311、411 マルチプレクサ 112、212、312、412 入力音声 113、213、313、413 ピッチ候補 114 適応コードベクトル候補 115 雑音コードベクトル候補 116、216、316、416 駆動音源候補 117、217、317、417 線形予測係数 118、218、318、418 予測残差 119、219、319、419 予測残差と駆動音源
候補の誤差 120、220、320、420 合成音声 121、221、321、421 入力音声と合成音声
の誤差 122、222、322、422 聴覚重み付き誤差 123、223、323、423 第1の誤差最小化手
段によるコードブックに対するフィードバック 124、224、324、424 第2の誤差最小化手
段によるコードブックに対するフィードバック 125、225、325、425 符号化出力 204、304、404 音源コードブックの第1グル
ープ 205、305、405 音源コードブックの第2グル
ープ 326、426 音源コードブックの第1組 327、427 音源コードブックの第2組 328、428、329、429 増幅器 330、430 スイッチ 431 特徴量抽出手段 432 判定手段

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 入力音声信号をスペクトル情報と音源情
    報に分離し、音源情報を表す駆動音源信号を複数の音源
    コードブックを参照して生成し、スペクトル情報を表す
    合成フィルタを用いて駆動音源信号から合成音声信号を
    再生し、その合成音声信号と入力音声信号との間の聴覚
    的に重み付けされた誤差を最小化するコードをコードブ
    ックから選択することによって、音声信号を符号化する
    装置において、誤差最小化に基づくコードの選択が、逆
    フィルタより算出された予測残差に対する駆動音源信号
    の誤差を最小化する複数の候補を選択する第1の段階
    と、第1段階において選択された複数の駆動音源候補に
    対して合成フィルタリングを行って合成音声信号を生成
    し、その合成音声信号と入力音声信号との間の聴覚的に
    重み付けされた誤差を最小にする1組の候補を選択する
    第2の段階からなることを特徴とする音声符号化装置。
  2. 【請求項2】 誤差最小化に基づくコード選択の第1段
    階が、切り替えて使用できる複数の音源コードブックか
    ら駆動音源候補を逐次的に選択する手段を有し、各音源
    コードブックからそれぞれ複数個の候補を選択して、そ
    のすべての組み合わせについて音源信号を生成すること
    を特徴とする請求項1記載の音声符号化装置。
  3. 【請求項3】 誤差最小化に基づくコード選択の第1段
    階が、切り替えて使用できる複数の音源コードブックか
    ら駆動音源候補を逐次的に選択する手段を有するコード
    ブックの組を複数備え、各音源コードブックの組ごとに
    独立して音源信号を生成することを特徴とする請求項1
    記載の音声符号化装置。
  4. 【請求項4】 誤差最小化に基づくコード選択の第1段
    階が、入力音声信号を分析して音声的特徴量を抽出する
    手段と、その特徴量に基づいて、複数備えた音源コード
    ブックの組の中から入力音声信号に適する音源コードブ
    ックの組を少なくとも1つ選択する判定手段とを備えた
    ことを特徴とする請求項3記載の音声符号化装置。
  5. 【請求項5】 請求項1から4のいずれかに記載の音声
    符号化装置を、信号処理プロセッサを用いてソフトウェ
    アで実現するためのプログラムを記憶した情報記憶媒
    体。
JP8171483A 1996-07-01 1996-07-01 音声符号化装置および情報記録媒体 Pending JPH1020890A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8171483A JPH1020890A (ja) 1996-07-01 1996-07-01 音声符号化装置および情報記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8171483A JPH1020890A (ja) 1996-07-01 1996-07-01 音声符号化装置および情報記録媒体

Publications (1)

Publication Number Publication Date
JPH1020890A true JPH1020890A (ja) 1998-01-23

Family

ID=15923948

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8171483A Pending JPH1020890A (ja) 1996-07-01 1996-07-01 音声符号化装置および情報記録媒体

Country Status (1)

Country Link
JP (1) JPH1020890A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002035522A1 (fr) * 2000-10-26 2002-05-02 Mitsubishi Denki Kabushiki Kaisha Procede et appareil de codage vocal

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002035522A1 (fr) * 2000-10-26 2002-05-02 Mitsubishi Denki Kabushiki Kaisha Procede et appareil de codage vocal
US7203641B2 (en) 2000-10-26 2007-04-10 Mitsubishi Denki Kabushiki Kaisha Voice encoding method and apparatus

Similar Documents

Publication Publication Date Title
JP3346765B2 (ja) 音声復号化方法及び音声復号化装置
KR100566713B1 (ko) 음향 파라미터 부호화, 복호화 방법, 장치 및 프로그램, 음성 부호화, 복호화 방법, 장치 및 프로그램
JP3094908B2 (ja) 音声符号化装置
JP3628268B2 (ja) 音響信号符号化方法、復号化方法及び装置並びにプログラム及び記録媒体
JP3357795B2 (ja) 音声符号化方法および装置
JP3063668B2 (ja) 音声符号化装置及び復号装置
JP2002268686A (ja) 音声符号化装置及び音声復号化装置
JPH10268898A (ja) 音声・楽音符号化及び復号化装置
JP3531780B2 (ja) 音声符号化方法および復号化方法
JP3095133B2 (ja) 音響信号符号化方法
JP3353852B2 (ja) 音声の符号化方法
JP3148778B2 (ja) 音声の符号化方法
JP3329216B2 (ja) 音声符号化装置及び音声復号装置
JP3050978B2 (ja) 音声符号化方法
JP3088163B2 (ja) Lsp係数の量子化方法
JP2796408B2 (ja) 音声情報圧縮装置
JPH1020890A (ja) 音声符号化装置および情報記録媒体
JP3916934B2 (ja) 音響パラメータ符号化、復号化方法、装置及びプログラム、音響信号符号化、復号化方法、装置及びプログラム、音響信号送信装置、音響信号受信装置
JPH0764599A (ja) 線スペクトル対パラメータのベクトル量子化方法とクラスタリング方法および音声符号化方法並びにそれらの装置
JP4510977B2 (ja) 音声符号化方法および音声復号化方法とその装置
JP3144284B2 (ja) 音声符号化装置
JP3192999B2 (ja) 音声符号化方法および音声符号化方法
JP3192051B2 (ja) 音声符号化装置
JPH05232996A (ja) 音声符号化装置
JP3845316B2 (ja) 音声符号化装置及び音声復号装置