JPH11133999A - 音声符号化・復号化装置 - Google Patents

音声符号化・復号化装置

Info

Publication number
JPH11133999A
JPH11133999A JP9311607A JP31160797A JPH11133999A JP H11133999 A JPH11133999 A JP H11133999A JP 9311607 A JP9311607 A JP 9311607A JP 31160797 A JP31160797 A JP 31160797A JP H11133999 A JPH11133999 A JP H11133999A
Authority
JP
Japan
Prior art keywords
encoding
spectrum
information
bits
audio waveform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9311607A
Other languages
English (en)
Inventor
Hiroki Uchiyama
博喜 内山
Atsushi Yamane
淳 山根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP9311607A priority Critical patent/JPH11133999A/ja
Publication of JPH11133999A publication Critical patent/JPH11133999A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

(57)【要約】 【課題】 N個の二次誤差信号を表現するパラメータか
らM個の二次誤差信号を表現するパラメータを選択・送
信し,メモリ量・演算量を削減し,かつM個の二次誤差
信号からN個の元のスペクトル列を生成して音声合成
し,音質向上を図る。 【解決手段】 二次誤差信号を周波数領域に変換する周
波数領域変換部401と,周波数領域からN個のスペク
トル列を生成し,符号化する係数符号化器402と,係
数符号化器402で符号化されたN個のスペクトル列か
ら任意のM個(N>M)のスペクトル列を選択し,M個
のスペクトル列を二次誤差信号の周波数表現として符号
化する係数選択器403と,符号化されたM個のスペク
トル列を蓄積する蓄積部403と,音声再生時に,M個
のスペクトル列からN個のスペクトル列を生成し,実時
間波形に逆変換する補間器405とを備えた。

Description

【発明の詳細な説明】
【0001】
【発明が属する技術分野】本発明は,留守番電話や,音
声応答システム,ボイスメールなどに適用される音声符
号化・復号化装置に関し,より詳細には,アナログ音声
波形を入力してデジタル音声波形に変換した後,該デジ
タル音声波形を所定の符号化方式で符号化して低メモリ
量と演算時間の削減を図ると共に,復号の際にM個のス
ペクル列(あるいは圧縮したビット数)からN個のスペ
クトルを生成して合成音の音質を向上させる音声符号化
・復号化装置に関する。
【0002】
【従来の技術】近年,自動車電話などの移動体通信にお
けるチャンネル容量の拡大や,マルチメディア通信にお
ける膨大な情報の蓄積・伝送を行う必要があるため,実
用的な低ビットレート音声符号化に対する要求が高まっ
ている。また,ファクシミリ・モデムの付加機能とし
て,留守番電話のための音声符号化手法の実用化も期待
されている。
【0003】現在,10kbps以下の低ビットレート
音声符号化方式では.CELP(Code Excit
ed Linear Prediction codi
ngsystem:AT&T,Bell Labora
toriesが開発した音声コーディックの一種)方式
が主流となっている。このCELP方式は,線形予測に
基づく音声のAR(Auto Regressive:
自己回帰)モデルに基づいた符号方式である。
【0004】具体的には,符号化側において,音声をフ
レームあるいはサブフレームと呼ばれる単位に分割し,
それぞれの単位についてスペクトル包絡を表すLPC
(Linear Prediction Codin
g:線形予測)係数と,そのピッチ情報を表すピッチラ
グと,音源情報である雑音情報と,利得とを抽出し,そ
れぞれ符号化して格納または伝送するものである。
【0005】また,復号側では,符号化された各情報を
復元し,雑音情報にピッチ情報を加えることによって励
振源信号を生成し,この励振源信号をLPC係数で構成
される線形予測合成フィルタを通し,合成音声を得るも
のである。
【0006】
【発明が解決しようとする課題】しかしながら,上記に
示されるような従来のCELP方式にあっては,10k
bpsの低ビットレートにおいて,良好な音声を得るこ
とができるという利点を有する反面,それぞれのパラメ
ータの符号化過程(CELP方式による符号化過程)に
おける演算量が多いという問題点があった。
【0007】特に,ピッチラグの符号化や雑音励振源の
符号化については,符号化された励振源信号を線形予測
合成フィルタに通した合成音声を生成し,原音声と比較
する必要がある。このフィルタ演算には多くの演算が必
要となるので,すべての励振源信号をフィルタに通すこ
とは現実的ではない。このため,最近ではさまざな演算
量削減の手法が提案されている。
【0008】その手法の1つとして,たとえば,フィル
タ演算を行って比較せずに,近似によって原音声との比
較を行うことのできるパラメータによって絞り込むとい
う予備選択手法が提案されている。
【0009】また,雑音源は,与えられたビット数に相
当する数の雑音ベクトルを蓄えているのが一般的であ
る。そして,その構成を工夫することによって演算量を
削減する手法も提案されている。たとえば,雑音ベクト
ルをビット数だけ有し,それらの和や差で雑音源を表す
VSELP(Vector Sum ExcitedL
inear Prediction Coding:日
米デジタル携帯電話の音声コーディック方式の1つ)が
その一例である。
【0010】ところが,実用的な低ビットレート音声符
号化に対する要求から,従来のCELP方式における演
算量を削減する方法(予備選択手法,VSELP方式な
ど)の他にも,それらとは異なる方法で演算量を削減,
しかも高品質な音声合成が可能なものも要望されてい
る。
【0011】本発明は,上記に鑑みてなされたものであ
って,N個の二次誤差信号を表現するパラメータからM
個の二次誤差信号を表現するパラメータを選択・送信す
ることによりメモリ量および演算量を削減し,かつM個
の二次誤差信号からN個の元のスペクトル系列を生成し
て音声合成を行うことにより,音質の向上を図ることを
目的とする。
【0012】
【課題を解決するための手段】上記の目的を達成するた
めに,請求項1に係る音声符号化・復号化装置にあって
は,アナログ音声波形を入力し,デジタル音声波形に変
換するA/D変換手段と,前記デジタル音声波形から,
フレームあるいはサブフレームと呼ばれる単位に分割す
るフレーム分割手段と,雑音源情報を抽出・符号化する
際に,前記フレームあるいはサブフームからピッチ情報
およびスペクトル包絡情報から生成されるピッチ成分音
声を除去した成分である二次誤差信号を抽出・符号化す
ることにより前記雑音源情報の符号化を行う抽出・符号
化手段とを有し,前記デジタル音声波形を所定の符号化
方式で符号化する音声符号化手段と,前記符号化された
デジタル音声波形を蓄積する蓄積手段と,符号化された
前記スペクトル包絡情報,ピッチ情報および雑音情報を
復元し,前記復元したスペクトル包絡情報,ピッチ情報
および雑音情報から励振源信号を生成し,前記励振源信
号と前記復元したスペクトル包絡情報から合成音声を生
成する際に,前記蓄積手段から前記符号化されたデジタ
ル音声波形を取り出し,復号化する音声復号化手段と,
前記復号化されたデジタル音声波形をアナログ音声波形
に変換するD/A変換手段と,を備えた音声符号化・復
号化装置において,前記二次誤差信号を周波数領域に変
換する周波数領域変換手段と,前記周波数領域からN個
のスペクトル列を生成し,符号化する係数符号化手段
と,前記係数符号化手段で符号化されたN個のスペクト
ル列から任意のM個(N>M)のスペクトル列を選択
し,該M個のスペクトル列を二次誤差信号の周波数表現
として符号化する係数選択手段と,前記係数選択手段で
符号化されたM個のスペクトル列を蓄積するスペクトル
列蓄積手段と,音声再生時に,前記M個のスペクトル列
からN個のスペクトル列を生成し,実時間波形に逆変換
する係数補間・復元手段と,を備えたものである。
【0013】すなわち,請求項1に係る音声符号化・復
号化装置によれば,たとえばCELP符号化に属する音
声符号化手法を用いて二次誤差信号を直接符号化するこ
とにより,符号帳およびフィルタ計算による符号帳探索
を不要とし,そのメモリ量および演算量を削減し,かつ
二次誤差信号を符号化する際にN個のスペクトル列から
M個(N>M)のスペクトル列を選択し,復号の際にM
個のスペクトル列からN個のスペクトル列を生成するこ
とにより,より品質の高い合成音声を再現する。
【0014】また,請求項2に係る音声符号化・復号化
装置にあっては,前記係数補間・復元手段は,ニューラ
ルネットワークに基づいて,M個のスペクトル列からN
個のスペクトル列を生成するものである。
【0015】すなわち,請求項2に係る音声符号化・復
号化装置によれば,請求項1において,ニューラルネッ
トワークに基づいて,M個のスペクトル列からN個のス
ペクトル列を生成することにより,単純な処理で実現
し,かつより品質の高い合成音声を再現する。
【0016】また,請求項3に係る音声符号化・復号化
装置にあっては,アナログ音声波形を入力し,デジタル
音声波形に変換するA/D変換手段と,前記デジタル音
声波形から,フレームあるいはサブフレームと呼ばれる
単位に分割するフレーム分割手段と,雑音源情報を抽出
・符号化する際に,前記フレームあるいはサブフームか
らピッチ情報およびスペクトル包絡情報から生成される
ピッチ成分音声を除去した成分である二次誤差信号を抽
出・符号化することにより前記雑音源情報の符号化を行
う抽出・符号化手段とを有し,前記デジタル音声波形を
所定の符号化方式で符号化する音声符号化手段と,前記
符号化されたデジタル音声波形を蓄積する蓄積手段と,
符号化された前記スペクトル包絡情報,ピッチ情報およ
び雑音情報を復元し,前記復元したスペクトル包絡情
報,ピッチ情報および雑音情報から励振源信号を生成
し,前記励振源信号と前記復元したスペクトル包絡情報
から合成音声を生成する際に,前記蓄積手段から前記符
号化されたデジタル音声波形を取り出し,復号化する音
声復号化手段と,前記復号化されたデジタル音声波形を
アナログ音声波形に変換するD/A変換手段と,を備え
た音声符号化・復号化装置において,前記二次誤差信号
を周波数領域に変換する周波数領域変換手段と,前記周
波数領域からN個のスペクトル列の各要素を表現してい
るビット数をBnとし,さらにN個からM個の選択され
たスペクトル列の表現もビット数Bnとし,該ビット数
BnをBr(Bn>Br)に圧縮するビット圧縮手段
と,前記ビット圧縮手段で圧縮されたビット数Brを蓄
積するビット数蓄積手段と,音声再生時に,前記ビット
数蓄積手段の前記ビット数Brからビット数Bnを伸長
・生成し,実時間波形に逆変換する係数補間・復元手段
と,を備えたものである。
【0017】すなわち,請求項3に係る音声符号化・復
号化装置によれば,たとえばCELP符号化に属する音
声符号化手法を用いて二次誤差信号を直接符号化するこ
とにより,符号帳およびフィルタ計算による符号帳探索
を不要とし,そのメモリ量および演算量を削減し,かつ
二次誤差信号を符号化する際にN個のスペクトル列を表
現するビット数BnからM個(N>M)のスペクトル列
を表現するビット数Bnを選択し,さらに該ビット数B
nをビット数Br(Bn>Br)に圧縮して蓄積するM
個のスペクトルを表現するビット数を削減して低ビット
レートを可能にし,復号の際にビット数Brを用いてN
個のビット数Bnを再生することにより,より品質の高
い音声を再現する。
【0018】また,請求項4に係る音声符号化・復号化
装置にあっては,請求項3において,前記係数補間・復
元手段は,ニューラルネットワークに基づいて,M個の
スペクトル列を表現するビット数BrからN個のスペク
トル列を表現するビット数Bnを生成するものである。
【0019】すなわち,請求項4に係る音声符号化・復
号化装置によれば,請求項3において,ニューラルネッ
トワークに基づいて,M個のスペクトル列を表現するビ
ット数BrからN個のスペクトル列を表現するビット数
Bnを生成することにより,単純な処理で実現し,かつ
より品質の高い音声を再現する。
【0020】また,請求項5に係る音声符号化・復号化
装置にあっては,請求項3または4において,ビット数
Bnからビット数Brに圧縮後・生成する場合,最小量
子化ビットLSBから所定のビット数qをマスクするも
のである。
【0021】すなわち,請求項5に係る音声符号化・復
号化装置によれば,請求項3または4において,ビット
数Bnからビット数Brに圧縮後・生成する場合,最小
量子化ビットLSBから所定のビット数qをマスクする
ことにより,蓄積するM個のスペクトルを表現するビッ
ト数を削減して低ビットレートを可能にし,復号の際に
ビット数Brを用いてN個のビット数Bnを再生するこ
とにより,より品質の高い音声を再現する。
【0022】
【発明の実施の形態】以下,本発明の音声符号化・復号
化装置について添付図面を参照し,詳細に説明する。
【0023】図1は,実施の形態に係る音声圧縮符号化
装置100の概略構成を示すブロック図である。音声圧
縮符号化装置100は,アナログ信号(アナログ音声波
形)を入力してデジタル信号(デジタル音声波形)に変
換するA/D変換手段としてのA/D変換部101と,
A/D変換部101からデジタル信号を入力し,圧縮符
号化する音声符号化手段としての音声符号化部102
と,音声符号化部102で圧縮符号化された圧縮符号化
信号(量子化信号)を蓄積する蓄積手段としての蓄積部
103と,蓄積部103に蓄積してある圧縮符号化信号
(量子化信号)を伸長復号化する音声復号化手段として
の音声復号部104と,音声復号部104で伸長復号化
されたデジタル信号をアナログ信号に変換するD/A変
換手段としてのD/A変換部105と,から構成され
る。
【0024】図2は,図1における音声符号化部102
の内部構成を示すブロック図である。音声符号化部10
2は,入力したデジタル信号をあらかじめ定められたサ
ンプル数のフレーム単位に分割し,フレーム信号を出力
するフレーム分割手段としてのフレーム分割器201
と,フレーム分割器201で分割したフレーム(フレー
ム信号)から,フレーム単位でスペクトル包絡を表すス
ペクトル包絡情報を抽出して符号化するスペクトル包絡
抽出器202と,フレーム分割器201で分割したフレ
ームをさらにあらかじめ定められたサンプル数のサブフ
レーム単位に分割し,サブフレーム信号を出力するサブ
フレーム分割器203と,スペクトル包絡器202で抽
出したスペクトル包絡情報を用い,サブフレーム分割器
203で分割したサブフレームからピッチピッチ情報を
抽出して符号化するピッチ情報抽出器204と,ピッチ
情報とサブフレーム信号とを入力し,二次誤差信号を算
出する二次誤差信号算出器205と,二次誤差信号とス
ペクトル包絡情報とから音源情報である雑音源情報を抽
出して符号化する雑音源抽出器206と,とから構成さ
れる。なお,スペクトル包絡抽出器202,ピッチ情報
抽出器204,および二次誤差信号算出器205が抽出
・符号化手段に該当する。
【0025】次に,以上のように構成された音声圧縮符
号化装置100の動作について説明する。図1におい
て,アナログ音声入力装置(図示せず)から入力された
アナログ信号(アナログ音声波形)はA/D変換器10
1によってデジタル信号に変換される。ここで,アナロ
グ音声入力装置としては,たとえば,マイクロフォン
や,CDプレーヤ,カセットデッキなどが挙げられる。
【0026】続いて,上記デジタル信号は,音声符号化
部102に送られ,図2に示すように,フレーム分割器
201によってあらかじめ定められたサンプル数(たと
えば,240サンプル)のフレームと呼ばれる単位に分
割される。なお,たとえば音声波形から特徴抽出によっ
て得られる特徴量が,ベクタの時系列で表され,このベ
クタのことをフレームあるいは特徴ベクタという。この
フレームはフレーム信号としてスペクトル包絡抽出器2
02およびサブフレーム分割器203に出力される。
【0027】スペクトル包絡抽出器202は,フレーム
信号からスペクトル包絡情報を抽出して符号化し,ピッ
チ情報抽出器204および二次誤差信号算出器205へ
出力する。このスペクトル包絡情報としては,たとえ
ば,線形予測分析に基づく線形予測係数,PARCOR
係数,LSP係数が挙げられる。また,スペクトル包絡
情報の符号化には,ベクトル量子化や,スカラー量子
化,分割ベクトル量子化,多段ベクトル量子化,予測量
子化,あるいはそれらの複数の量子化の組み合わせが挙
げられる。
【0028】一方,サブフレーム分割器203は,フレ
ーム分割器201からフレーム信号を入力し,該フレー
ム信号をあらかじめ定められたサンプル数(たとえば,
60サンプル)に分割し,サブフレーム信号として出力
する。
【0029】各サブフレームは,ピッチ情報抽出器20
4において,スペクトル包絡抽出器202によって抽出
されたスペクトル包絡情報を用い,ピッチ情報が抽出さ
れ,符号化される。ピッチ情報の抽出には,CELP方
式で用いられる適応符号帳探索,あるいはフーリエ変
換,ウェーブレット変換などのスペクトル包絡情報から
求める方法を適用することができる。また,上記適応符
号帳探索には,聴覚重みつけフィルタを用いる場合もあ
る。なお,聴覚重みつけフィルタは,先に述べた線形予
測係数から構成することができる。
【0030】二次誤差信号算出部205では,サブフレ
ーム信号から,ピッチ情報抽出器204で抽出したピッ
チ成分(ピッチ情報)の影響を取り除いた成分(これを
二次誤差信号という)を算出し,雑音源抽出器206へ
出力する。
【0031】雑音源抽出器206では,二次誤差信号を
入力すると,該二次誤差信号を直接符号化し,符号化し
た二次誤差信号(量子化二次誤差信号という)を雑音源
情報として出力する。ここで,雑音源抽出器206で二
次誤差信号を符号化する方法としては,二次誤差信号の
最大強度のものからあらかじめ定められた数のサンプル
位置を選定し,選定したサンプル位置および選定された
サンプル位置の強度を符号化することにより,二次誤差
信号を符号化する方法を適用する。これにより,演算量
を比較的少なくすることができる。
【0032】なお,この実施の形態に用いている音声符
号化方法は,CELP音声符号化に属する符号化方法で
ある。従来のCELP方式では.二次誤差信号の符号帳
をもち,該符号帳に属する各符号ベクトルとスペクトル
包絡情報とから二次誤差信号を合成し,入力信号から得
られた二次誤差信号と比較し,そのひずみが最小となる
符号を選択することによって符号化を行っている。ちな
みに,この探索においては聴覚重みづけフィルタを用い
ることができる。
【0033】ところが,CELP方式は,低ビットレー
トで高品質の音声圧縮符号化技術であるものの,符号帳
探索のための演算量および符号帳を蓄えるためのメモリ
量の多さが問題となっている。これに対してこの実施の
形態では,二次誤差信号そのものを符号化するため,演
算量を削減することが可能となる。また,符号帳を記憶
する必要がないので,低メモリ量のCELP方式が実現
する。
【0034】このようにして音声符号化部102は,デ
ジタル信号からスペクトル包絡情報,ピッチ情報および
雑音源情報を抽出して符号化し,これらを量子化信号と
て出力する。これらの量子化信号は,圧縮符号化信号と
して蓄積部103によって蓄積される。
【0035】蓄積部103に蓄積された圧縮符号化信号
(量子化信号)は,必要に応じて音声復号化部104に
よって読み出されて復号(復元)され,D/A変換部1
05でアナログ信号(アナログ音声波形)に変換され
る。
【0036】このとき,音声復号化部104は,符号化
されたスペクトル包絡情報,ピッチ情報および雑音源情
報を復元し,復元した雑音源情報およびピッチ情報から
励振源信号を生成し,該励振源信号と復元したスペクト
ル包絡情報とから復号音声(合成音声)を生成し,D/
A変換部105に出力する。
【0037】このように,符号帳を備えていないので,
符号帳に必要なメモリ量を削減することができ,さらに
フィルタ計算を用いた符号帳探索を行わないため,演算
量も削減することができる。
【0038】図3は,図2における雑音源抽出器206
の内部構成を示すブロック図である。雑音源抽出器20
6は,二次誤差信号算出器205から入力した二次誤差
信号を離散コサイン変換によって周波数領域に変換する
離散コサイン変換部301と,離散コサイン変換部30
1からの周波数領域の係数(DCT係数)を入力し,該
係数を符号化する係数符号化器302と,係数符号化器
302から入力したDCT係数を復元する係数復元器3
03と,周波数領域から時間領域に戻し,二次誤差信号
に変換する逆離散コサイン変換部304と,から構成さ
れる。
【0039】なお,係数符号化器302は,変換領域に
おける係数(周波数領域の強度)を符号化する際に,二
次誤差信号の周波数領域におけるスペクトル強度最大の
ものをあらかじめ定められた数(たとえばM)の周波数
を選択し,選択した周波数を符号化すると共に,その周
波数のスペクトル係数(強度)も量子化強度として符号
化する。符号化(量子化)の方法としては,たとえば,
振幅を対数変換し,その大きさ(強度)に対応させてあ
らかじめ設定した範囲に相当する符号を与える。この場
合,選択された周波数に与えられた番号,強度に属する
範囲に与えられた符号である量子化強度,および係数の
符号(+/−)が二次誤差信号に対応する符号(すなわ
ち,雑音源情報)となる。
【0040】図4は,実施の形態に係る音声符号化・復
号化装置400の構成を示すブロック図である。この音
声符号化・復号化装置400は,二次誤差信号を周波数
領域に変換する周波数変換手段としての周波数変換部4
01と,N個のスペクトル列を出力する係数符号化手段
としての係数符号化器402と,係数符号化器402で
供給されるN個のスペクトル列から任意の数M個のスペ
クトル列要素(N>M)を選択する係数選択手段として
の係数選択器403と,係数選択器403で選択したM
個のスペクトル列要素を蓄積するスペクトル列蓄積手段
としての蓄積部404と,音声再生時にM個のスペクト
ル列要素からN個のスペクトル列要素を生成する補間器
(係数復元器)405(請求項1の係数補間・復元手段
に該当する)と,から構成されている。
【0041】次に,以上のように構成された音声符号化
・復号化装置400の動作について説明する。二次誤差
信号を復号化する際には,まず,二次誤差信号を周波数
領域変換部401により周波数領域に変換し,さらにそ
の周波数領域から係数復号化器402において二次誤差
信号の周波数表現として符号化し,N個のスペクトル列
要素を得る。続いて,係数選択器403によってN個の
スペクトル列要素からM個のスペクトル列要素を選択
し,選択したM個のスペクトル列要素を蓄積部404に
蓄積する。なお,選択方法としては,たとえば,先の係
数符号化器302で述べたものを用いる。
【0042】復号処理の際に,上記蓄積部404に蓄積
してあるMのスペクトル列要素を補間器(係数復元器)
405に入力し,M個のスペクトル列要素をそのN個の
スペクトル空間上に配置し,実時間波形に逆変換するこ
とにより,二次誤差信号を生成して音声波形を合成す
る。ここで,情報のないスペクトルは0として取り扱う
ものとする。さら,情報のないスペクトル列要素を求
め,N個のスペクトル列要素を復元する。すなわち,音
声再生時に,M個のスペクトル系列からN個のスペクト
ル系列を生成する。
【0043】なお,上記復号処理において,補間器(係
数復元器)405において,M個のスペクトル列要素か
らN個のスペクトル列要素を生成する際に,ニューラル
ネットワークを用いてもよい。補間器(係数復元器)4
05としてニューラルネットワークを用いることで,M
個のスペクトル列要素からN個のスペクトル列要素を単
純な処理で得ることが可能となり,より高音質な音声再
現が実現する。
【0044】次に,選択したM個のスペクトル列の各要
素を表現しているビット数をさらに圧縮し,復号化の際
に補間器(係数復元器)を用い,その圧縮ビットも再現
する例について説明する。
【0045】図5は,実施の形態に係る他の音声符号化
・復号化装置500の構成を示すブロック図である。こ
の音声符号化・復号化装置500は,二次誤差信号を周
波数領域に変換する周波数変換部401と,N個のスペ
クトル列の各要素を表現しているBnビットを出力する
係数符号化手段としての係数符号化器501と,係数符
号化器501で供給されるBnビットから任意のM個の
スペクトル列要素を表現するBnビットを選択する係数
選択手段としての係数選択器502と,係数選択器50
2により得られたM個のBnに対して,たとえば,Bn
からBrを生成する際に最小量子化ビットLSBから所
定のビット数qをマスクするビット圧縮処理を施し,ビ
ット数Brを出力するビット圧縮手段としてのビット圧
縮部503と,ビット圧縮部503から供給されるM個
のビット数Brを蓄積するビット数蓄積手段としての蓄
積部504と,音声再生時にM個のビット数BrからN
個のBnビットに再生・補間する補間器(係数復元器)
505(請求項3の係数補間・復元手段に該当する)
と,から構成されている。
【0046】次に,以上のように構成された音声符号化
・復号化装置500の動作について説明する。二次誤差
信号を復号化する際には,まず,二次誤差信号を周波数
領域変換部401により周波数領域に変換し,さらにそ
の周波数領域から係数復号化器501において二次誤差
信号の周波数表現として符号化し,N個のBnビットを
得る。続いて,係数選択器502によってN個のBnビ
ットからM個のBnビットを選択し,選択したM個のB
nビット,ビット圧縮部503でBr(Bn>Br)に
圧縮し,そのBrを蓄積部504に蓄積する。
【0047】復号処理の際に,上記蓄積部504に蓄積
してあるM個のBnビットを補間器(係数復元器)50
5に入力し,M個のビット数BrをそのN個のスペクト
ル空間上に配置し,実時間波形に逆変換することによ
り,二次誤差信号を生成して音声波形を合成する。
【0048】なお,上記復号処理では,補間器(係数復
元器)505において,M個のBrビットをN個のBn
ビットを生成する際に,ニューラルネットワークを用い
てもよい。補間器(係数復元器)505としてニューラ
ルネットワークを用いることで,M個のBrビットから
N個のBnビットを単純な処理で得ることが可能とな
り,より高音質な音声再現が実現する。
【0049】
【発明の効果】以上説明したように,本発明に係る音声
符号化・復号化装置(請求項1)によれば,たとえばC
ELP符号化に属する音声符号化手法を用いて二次誤差
信号を直接符号化するため,符号帳およびフィルタ計算
による符号帳探索が不要となり,そのメモリ量および演
算量が削減され,かつ二次誤差信号を符号化する際にN
個のスペクトル列からM個(N>M)のスペクトル列を
選択し,復号の際にM個のスペクトル列からN個のスペ
クトル列を生成するため,より品質の高い音声を再現す
ることができる。
【0050】また,本発明に係る音声符号化・復号化装
置(請求項2)によれば,請求項1において,ニューラ
ルネットワークに基づいて,M個のスペクトル列からN
個のスペクトル列を生成するため,単純な処理で実現
し,かつより品質の高い音声を再現することができる。
【0051】また,本発明に係る音声符号化・復号化装
置(請求項3)によれば,たとえばCELP符号化に属
する音声符号化手法を用いて二次誤差信号を直接符号化
するため,符号帳およびフィルタ計算による符号帳探索
が不要となり,そのメモリ量および演算量が削減され,
かつ二次誤差信号を符号化する際にN個のスペクトル列
を表現するビット数BnからM個(N>M)のスペクト
ル列を表現するビット数Bnを選択し,さらに該ビット
数Bnをビット数Br(Bn>Br)に圧縮して蓄積す
るM個のスペクトルを表現するビット数が削減されるの
で,低ビットレートを可能にし,復号の際にビット数B
rを用いてN個のビット数Bnを再生するため,より品
質の高い音声を再現することができる。
【0052】また,本発明に係る音声符号化・復号化装
置(請求項4)によれば,請求項3において,ニューラ
ルネットワークに基づいて,M個のスペクトル列を表現
するビット数BrからN個のスペクトル列を表現するビ
ット数Bnを生成するため,単純な処理で実現し,かつ
より品質の高い音声を再現することができる。
【0053】また,本発明に係る音声符号化・復号化装
置(請求項5)によれば,請求項3または4において,
ビット数Bnからビット数Brに圧縮後・生成する場
合,最小量子化ビットLSBから所定のビット数qをマ
スクすることにより,蓄積するM個のスペクトルを表現
するビット数が削減されるので,低ビットレートを可能
にし,復号の際にビット数Brを用いてN個のビット数
Bnを再生するため,より品質の高い音声を再現するこ
とができる。
【図面の簡単な説明】
【図1】実施の形態に係る音声圧縮符号化装置の概略構
成を示すブロック図である。
【図2】図1における音声符号化部の内部構成を示すブ
ロック図である。
【図3】図2における雑音源抽出器の内部構成を示すブ
ロック図である。
【図4】実施の形態に係る音声符号化・復号化装置の構
成を示すブロック図である。
【図5】実施の形態に係る他の音声符号化・復号化装置
の構成を示すブロック図である。
【符号の説明】
100 音声圧縮符号化装置 101 A/D変換部 102 音声符号化部 103 404 蓄積部 104 音声復号化部 105 D/A変換部 201 フレーム分離器 202 スペクトル包絡抽出器 203 サブフレーム分割器 204 ピッチ情報抽出器 205 二次誤差信号算出器 206 雑音源情報抽出器 301 離散コサイン変換部 302 402 501 係数符号化器 303 係数復元器 304 逆離散コサイン変換部 400 500 音声符号化・復号化装置 401 周波数領域変換部 403 502 係数選択器 405 505 補間器 503 ビット圧縮部

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 アナログ音声波形を入力し,デジタル音
    声波形に変換するA/D変換手段と,前記デジタル音声
    波形から,フレームあるいはサブフレームと呼ばれる単
    位に分割するフレーム分割手段と,雑音源情報を抽出・
    符号化する際に,前記フレームあるいはサブフームから
    ピッチ情報およびスペクトル包絡情報から生成されるピ
    ッチ成分音声を除去した成分である二次誤差信号を抽出
    ・符号化することにより前記雑音源情報の符号化を行う
    抽出・符号化手段とを有し,前記デジタル音声波形を所
    定の符号化方式で符号化する音声符号化手段と,前記符
    号化されたデジタル音声波形を蓄積する蓄積手段と,符
    号化された前記スペクトル包絡情報,ピッチ情報および
    雑音情報を復元し,前記復元したスペクトル包絡情報,
    ピッチ情報および雑音情報から励振源信号を生成し,前
    記励振源信号と前記復元したスペクトル包絡情報から合
    成音声を生成する際に,前記蓄積手段から前記符号化さ
    れたデジタル音声波形を取り出し,復号化する音声復号
    化手段と,前記復号化されたデジタル音声波形をアナロ
    グ音声波形に変換するD/A変換手段と,を備えた音声
    符号化・復号化装置において,前記二次誤差信号を周波
    数領域に変換する周波数領域変換手段と,前記周波数領
    域からN個のスペクトル列を生成し,符号化する係数符
    号化手段と,前記係数符号化手段で符号化されたN個の
    スペクトル列から任意のM個(N>M)のスペクトル列
    を選択し,該M個のスペクトル列を二次誤差信号の周波
    数表現として符号化する係数選択手段と,前記係数選択
    手段で符号化されたM個のスペクトル列を蓄積するスペ
    クトル列蓄積手段と,音声再生時に,前記M個のスペク
    トル列からN個のスペクトル列を生成し,実時間波形に
    逆変換する係数補間・復元手段と,を備えたことを特徴
    とする音声符号化・復号化装置。
  2. 【請求項2】 前記係数補間・復元手段は,ニューラル
    ネットワークに基づいて,M個のスペクトル列からN個
    のスペクトル列を生成することを特徴とする請求項1に
    記載の音声符号化・復号化装置。
  3. 【請求項3】 アナログ音声波形を入力し,デジタル音
    声波形に変換するA/D変換手段と,前記デジタル音声
    波形から,フレームあるいはサブフレームと呼ばれる単
    位に分割するフレーム分割手段と,雑音源情報を抽出・
    符号化する際に,前記フレームあるいはサブフームから
    ピッチ情報およびスペクトル包絡情報から生成されるピ
    ッチ成分音声を除去した成分である二次誤差信号を抽出
    ・符号化することにより前記雑音源情報の符号化を行う
    抽出・符号化手段とを有し,前記デジタル音声波形を所
    定の符号化方式で符号化する音声符号化手段と,前記符
    号化されたデジタル音声波形を蓄積する蓄積手段と,符
    号化された前記スペクトル包絡情報,ピッチ情報および
    雑音情報を復元し,前記復元したスペクトル包絡情報,
    ピッチ情報および雑音情報から励振源信号を生成し,前
    記励振源信号と前記復元したスペクトル包絡情報から合
    成音声を生成する際に,前記蓄積手段から前記符号化さ
    れたデジタル音声波形を取り出し,復号化する音声復号
    化手段と,前記復号化されたデジタル音声波形をアナロ
    グ音声波形に変換するD/A変換手段と,を備えた音声
    符号化・復号化装置において,前記二次誤差信号を周波
    数領域に変換する周波数領域変換手段と,前記周波数領
    域からN個のスペクトル列の各要素を表現しているビッ
    ト数をBnとし,さらにN個からM個の選択されたスペ
    クトル列の表現もビット数Bnとし,該ビット数Bnを
    Br(Bn>Br)に圧縮するビット圧縮手段と,前記
    ビット圧縮手段で圧縮されたビット数Brを蓄積するビ
    ット数蓄積手段と,音声再生時に,前記ビット数蓄積手
    段の前記ビット数Brからビット数Bnを伸長・生成
    し,実時間波形に逆変換する係数補間・復元手段と,を
    備えたことを特徴とする音声符号化・復号化装置。
  4. 【請求項4】 前記係数補間・復元手段は,ニューラル
    ネットワークに基づいて,M個のスペクトル列を表現す
    るビット数BrからN個のスペクトル列を表現するビッ
    ト数Bnを生成することを特徴とする請求項3に記載の
    音声符号化・復号化装置。
  5. 【請求項5】 ビット数Bnからビット数Brに圧縮後
    ・生成する場合,最小量子化ビットLSBから所定のビ
    ット数qをマスクすることを特徴とする請求項3または
    4に記載の音声符号化・復号化装置。
JP9311607A 1997-10-29 1997-10-29 音声符号化・復号化装置 Pending JPH11133999A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9311607A JPH11133999A (ja) 1997-10-29 1997-10-29 音声符号化・復号化装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9311607A JPH11133999A (ja) 1997-10-29 1997-10-29 音声符号化・復号化装置

Publications (1)

Publication Number Publication Date
JPH11133999A true JPH11133999A (ja) 1999-05-21

Family

ID=18019295

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9311607A Pending JPH11133999A (ja) 1997-10-29 1997-10-29 音声符号化・復号化装置

Country Status (1)

Country Link
JP (1) JPH11133999A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023197809A1 (zh) * 2022-04-15 2023-10-19 腾讯科技(深圳)有限公司 一种高频音频信号的编解码方法和相关装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023197809A1 (zh) * 2022-04-15 2023-10-19 腾讯科技(深圳)有限公司 一种高频音频信号的编解码方法和相关装置

Similar Documents

Publication Publication Date Title
JP3747492B2 (ja) 音声信号の再生方法及び再生装置
JP5343098B2 (ja) スーパーフレーム構造のlpcハーモニックボコーダ
JP4132109B2 (ja) 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置
KR0169020B1 (ko) 음성부호화장치, 음성복호화장치, 음성부호화복호화방법 및 이들에 사용가능한 위상진폭특성 도출장치
CA2430111C (en) Speech parameter coding and decoding methods, coder and decoder, and programs, and speech coding and decoding methods, coder and decoder, and programs
US20040111257A1 (en) Transcoding apparatus and method between CELP-based codecs using bandwidth extension
JP3357795B2 (ja) 音声符号化方法および装置
JP2002372996A (ja) 音響信号符号化方法及び装置、音響信号復号化方法及び装置、並びに記録媒体
JP2001507822A (ja) スピーチ信号のエンコード方法
JP3237178B2 (ja) 符号化方法及び復号化方法
JP3878254B2 (ja) 音声圧縮符号化方法および音声圧縮符号化装置
JP2000132193A (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
JP4578145B2 (ja) 音声符号化装置、音声復号化装置及びこれらの方法
JP4373693B2 (ja) 音響信号の階層符号化方法および階層復号化方法
JP2796408B2 (ja) 音声情報圧縮装置
JPH09127987A (ja) 信号符号化方法及び装置
JPH11133999A (ja) 音声符号化・復号化装置
JPH08234795A (ja) 音声符号化装置
JP3715417B2 (ja) 音声圧縮符号化装置,音声圧縮符号化方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3010655B2 (ja) 圧縮符号化装置及び方法、並びに復号装置及び方法
JPH08129400A (ja) 音声符号化方式
JP3063087B2 (ja) 音声符号化復号化装置及び音声符号化装置ならびに音声復号化装置
JPH11352999A (ja) 音声圧縮符号化装置
JPH10124093A (ja) 音声圧縮符号化方法および装置
JPH11305798A (ja) 音声圧縮符号化装置