JP3736801B2 - 音声復号化方法及び音声復号化装置 - Google Patents
音声復号化方法及び音声復号化装置 Download PDFInfo
- Publication number
- JP3736801B2 JP3736801B2 JP2002202211A JP2002202211A JP3736801B2 JP 3736801 B2 JP3736801 B2 JP 3736801B2 JP 2002202211 A JP2002202211 A JP 2002202211A JP 2002202211 A JP2002202211 A JP 2002202211A JP 3736801 B2 JP3736801 B2 JP 3736801B2
- Authority
- JP
- Japan
- Prior art keywords
- time series
- speech
- codebook
- series vector
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Description
【発明の属する技術分野】
この発明は音声信号をディジタル信号に圧縮符号化復号化する際に使用する音声符号化・復号化方法及び音声符号化・復号化装置に関し、特に低ビットレートで品質の高い音声を再生するための音声符号化方法及び音声復号化方法並びに音声符号化装置及び音声復号化装置に関する。
【0002】
【従来の技術】
従来、高能率音声符号化方法としては、符号駆動線形予測(Code-Excited Linear Prediction:CELP)符号化が代表的であり、その技術については、「Code-excited linear prediction(CELP):High-quality speech at very low bit rates」(M.R.Shroeder and B.S.Atal著、ICASSP '85, pp.937-940, 1985)に述べられている。
【0003】
図6は、CELP音声符号化復号化方法の全体構成の一例を示すもので、図中101は符号化部、102は復号化部、103は多重化手段、104は分離手段である。符号化部101は線形予測パラメータ分析手段105、線形予測パラメータ符号化手段106、合成フィルタ107、適応符号帳108、駆動符号帳109、ゲイン符号化手段110、距離計算手段111、重み付け加算手段138より構成されている。また、復号化部102は線形予測パラメータ復号化手段112、合成フィルタ113、適応符号帳114、駆動符号帳115、ゲイン復号化手段116、重み付け加算手段139より構成されている。
【0004】
CELP音声符号化では、5〜50ms程度を1フレームとして、そのフレームの音声をスペクトル情報と音源情報に分けて符号化する。まず、CELP音声符号化方法の動作について説明する。符号化部101において、線形予測パラメータ分析手段105は入力音声S101を分析し、音声のスペクトル情報である線形予測パラメータを抽出する。線形予測パラメータ符号化手段106はその線形予測パラメータを符号化し、符号化した線形予測パラメータを合成フィルタ107の係数として設定する。
【0005】
次に音源情報の符号化について説明する。適応符号帳108には、過去の駆動音源信号が記憶されており、距離計算手段111から入力される適応符号に対応して過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力する。駆動符号帳109には、例えば学習用音声とその符号化音声との歪みが小さくなるように学習して構成された複数の時系列ベクトルが記憶されており、距離計算手段111から入力される駆動符号に対応した時系列ベクトルを出力する。
適応符号帳108、駆動符号帳109からの各時系列ベクトルはゲイン符号化手段110から与えられるそれぞれのゲインに応じて重み付け加算手段138で重み付けして加算され、その加算結果を駆動音源信号として合成フィルタ107へ供給し符号化音声を得る。距離計算手段111は符号化音声と入力音声S101との距離を求め、距離が最小となる適応符号、駆動符号、ゲインを探索する。上記符号化が終了した後、線形予測パラメータの符号、入力音声と符号化音声との歪みを最小にする適応符号、駆動符号、ゲインの符号を符号化結果として出力する。
【0006】
次にCPEL音声復号化方法の動作について説明する。
一方復号化部102において、線形予測パラメータ復号化手段112は線形予測パラメータの符号から線形予測パラメータを復号化し、合成フィルタ113の係数として設定する。次に、適応符号帳114は、適応符号に対応して、過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力し、また駆動符号帳115は駆動符号に対応した時系列ベクトルを出力する。これらの時系列ベクトルは、ゲイン復号化手段116でゲインの符号から復号化したそれぞれのゲインに応じて重み付け加算手段139で重み付けして加算され、その加算結果が駆動音源信号として合成フィルタ113へ供給され出力音声S103が得られる。
【0007】
またCELP音声符号化復号化方法で再生音声品質の向上を目的として改良された従来の音声符号化復号化方法として、「Phonetically-based vector excitation coding of speech at 3.6kbps」(S.Wang and A.Gersho著、ICASSP '89, pp.49-52, 1989)に示されたものがある。図6との対応手段分に同一符号を付けた図7は、この従来の音声符号化復号化方法の全体構成の一例を示し、図中符号化部101において117は音声状態判定手段、118駆動符号帳切替手段、119は第1の駆動符号帳、120は第2の駆動符号帳である。また図中復号化手段102において121は駆動符号帳切替手段、122は第1の駆動符号帳、123は第2の駆動符号帳である。このような構成による符号化復号化方法の動作を説明する。まず符号化手段101において、音声状態判定手段117は入力音声S101を分析し、音声の状態を例えば有声/無声の2つの状態のうちどちらであるかを判定する。駆動符号帳切替手段118はその音声状態判定結果に応じて、例えば有声であれば第1の駆動符号帳119を、無声であれば第2の駆動符号帳120を用いるとして符号化に用いる駆動符号帳を切り替え、また、どちらの駆動符号帳を用いたかを符号化する。
【0008】
次に復号化手段102において、駆動符号帳切替手段121は符号化手段101でどちらの駆動符号帳を用いたかの符号に応じて、符号化手段101で用いたのと同じ駆動符号帳を用いるとして第1の駆動符号帳122と第2の駆動符号帳123とを切り替える。このように構成することにより、音声の各状態毎に符号化に適した駆動符号帳を用意し、入力された音声の状態に応じて駆動符号帳を切り替えて用いることで再生音声の品質を向上することができる。
【0009】
また送出ビット数を増加することなく、複数の駆動符号帳を切り替える従来の音声符号化復号化方法として特開平8−185198号公報に開示されたものがある。これは、適応符号帳で選択したピッチ周期に応じて、複数個の駆動符号帳を切り替えて用いるものである。これにより、伝送情報を増やさずに入力音声の特徴に適応した駆動符号帳を用いることができる。
【0010】
【発明が解決しようとする課題】
上述したように図6に示す従来の音声符号化復号化方法では、単一の駆動符号帳を用いて合成音声を生成している。低ビットレートでも品質の高い符号化音声を得るためには、駆動符号帳に格納する時系列ベクトルはパルスを多く含む非雑音的なものとなる。このため、背景雑音や摩擦性子音など雑音的な音声を符号化、合成した場合、符号化音声はジリジリ、チリチリといった不自然な音を発するという問題があった。駆動符号帳を雑音的な時系列ベクトルからのみ構成すればこの問題は解決するが、符号化音声全体としての品質が劣化する。
【0011】
また改良された図7に示す従来の音声符号化復号化方法では、入力音声の状態に応じて複数の駆動符号帳を切り替えて符号化音声を生成している。これにより例えば入力音声が雑音的な無声部分では雑音的な時系列ベクトルから構成された駆動符号帳を、またそれ以外の有声部分では非雑音的な時系列ベクトルから構成された駆動符号帳を用いることができ、雑音的な音声を符号化、合成しても不自然なジリジリした音を発することはなくなる。しかし、復号化側でも符号化側と同じ駆動符号帳を用いるために、新たにどの駆動符号帳を使用したかの情報を符号化、伝送する必要が生じ、これが低ビットレート化の妨げになるという問題があった。
【0012】
また送出ビット数を増加することなく、複数の駆動符号帳を切り替える従来の音声符号化復号化方法では、適応符号帳で選択されるピッチ周期に応じて駆動符号帳を切り替えている。しかし、適応符号帳で選択されるピッチ周期は実際の音声のピッチ周期とは異なり、その値からだけでは入力音声の状態が雑音的か非雑音的かを判定できないので、音声の雑音的な部分の符号化音声が不自然であるという課題は解決されない。
【0013】
この発明はかかる課題を解決するためになされたものであり、低ビットレートでも品質の高い音声を再生する音声符号化復号化方法及び装置を提供するものである。
【0014】
【課題を解決するための手段】
上述の課題を解決するためにこの発明の音声符号化方法は、スペクトル情報、パワー情報、ピッチ情報のうち少なくとも1つの符号または符号化結果を用いて該符号化区間における音声の雑音性の度合いを評価し、評価結果に応じて複数の駆動符号帳のうち1つを選択するようにした。
【0015】
さらに次の発明の音声符号化方法は、格納している時系列ベクトルの雑音性の度合いが異なる複数の駆動符号帳を備え、音声の雑音性の度合いの評価結果に応じて、複数の駆動符号帳を切り替えるようにした。
【0016】
さらに次の発明の音声符号化方法は、音声の雑音性の度合いの評価結果に応じて、駆動符号帳に格納している時系列ベクトルの雑音性の度合いを変化させるようにした。
【0017】
さらに次の発明の音声符号化方法は、雑音的な時系列ベクトルを格納している駆動符号帳を備え、音声の雑音性の度合いの評価結果に応じて、駆動音源の信号サンプルを間引くことにより雑音性の度合いが低い時系列ベクトルを生成するようにした。
【0018】
さらに次の発明の音声符号化方法は、雑音的な時系列ベクトルを格納している第1の駆動符号帳と、非雑音的なの時系列ベクトルを格納している第2の駆動符号帳とを備え、音声の雑音性の度合いの評価結果に応じて、第1の駆動符号帳の時系列ベクトルと第2の駆動符号帳の時系列ベクトルを重み付けし加算した時系列ベクトルを生成するようにした。
【0019】
また次の発明の音声復号化方法は、スペクトル情報、パワー情報、ピッチ情報のうち少なくとも1つの符号または復号化結果を用いて該復号化区間における音声の雑音性の度合いを評価し、評価結果に応じて複数の駆動符号帳のうちの1つを選択するようにした。
【0020】
さらに次の発明の音声復号化方法は、格納している時系列ベクトルの雑音性の度合いが異なる複数の駆動符号帳を備え、音声の雑音性の度合いの評価結果に応じて、複数の駆動符号帳を切り替えるようにした。
【0021】
さらに次の発明の音声復号化方法は、音声の雑音性の度合いの評価結果に応じて、駆動符号帳に格納している時系列ベクトルの雑音性の度合いを変化させるようにした。
【0022】
さらに次の発明の音声復号化方法は、雑音的な時系列ベクトルを格納している駆動符号帳を備え、音声の雑音性の度合いの評価結果に応じて、駆動音源の信号サンプルを間引くことにより雑音性の度合いが低い時系列ベクトルを生成するようにした。
【0023】
さらに次の発明の音声復号化方法は、雑音的な時系列ベクトルを格納している第1の駆動符号帳と、非雑音的な時系列ベクトルを格納している第2の駆動符号帳とを備え、音声の雑音性の度合いの評価結果に応じて、第1の駆動符号帳の時系列ベクトルと第2の駆動符号帳の時系列ベクトルを重み付けし加算した時系列ベクトルを生成するようにした。
【0024】
さらに次の発明の音声符号化装置は、入力音声のスペクトル情報を符号化し、符号化結果の1要素として出力するスペクトル情報符号化部と、このスペクトル情報符号化部からの符号化されたスペクトル情報から得られるスペクトル情報、パワー情報のうち少なくとも1つの符号または符号化結果を用いて該符号化区間における音声の雑音性の度合いを評価し、評価結果を出力する雑音度評価部と、非雑音的な複数の時系列ベクトルが記憶された第1の駆動符号帳と、雑音的な複数の時系列ベクトルが記憶された第2の駆動符号帳と、前記雑音度評価部の評価結果により、第1の駆動符号帳と第2の駆動符号帳とを切り替える駆動符号帳切替部と、前記第1の駆動符号帳または第2の駆動符号帳からの時系列ベクトルをそれぞれの時系列ベクトルのゲインに応じて重み付けし加算する重み付け加算部と、この重み付けされた時系列ベクトルを駆動音源信号とし、この駆動音源信号と前記スペクトル情報符号化部からの符号化されたスペクトル情報とに基づいて符号化音声を得る合成フィルタと、この符号化音声と前記入力音声との距離を求め、距離が最小となる駆動符号、ゲインを探索し、その結果を駆動符号,ゲインの符号を符号化結果として出力する距離計算部とを備えた。
【0025】
さらに次の発明の音声復号化装置は、スペクトル情報の符号からスペクトル情報を復号化するスペクトル情報復号化部と、このスペクトル情報復号化部からの復号化されたスペクトル情報から得られるスペクトル情報、パワー情報のうち少なくとも1つの復号化結果または前記スペクトル情報の符号を用いて該復号化区間における音声の雑音性の度合いを評価し、評価結果を出力する雑音度評価部と、非雑音的な複数の時系列ベクトルが記憶された第1の駆動符号帳と、雑音的な複数の時系列ベクトルが記憶された第2の駆動符号帳と、前記雑音度評価部の評価結果により、第1の駆動符号帳と第2の駆動符号帳とを切り替える駆動符号帳切替部と、前記第1の駆動符号帳または第2の駆動符号帳からの時系列ベクトルをそれぞれの時系列ベクトルのゲインに応じて重み付けし加算する重み付け加算部と、この重み付けされた時系列ベクトルを駆動音源信号とし、この駆動音源信号と前記スペクトル情報復号化部からの復号化されたスペクトル情報とに基づいて復号化音声を得る合成フィルタとを備えた。
【0026】
この発明に係る音声符号化装置は、符号駆動線形予測(CELP)音声符号化装置において、スペクトル情報、パワー情報、ピッチ情報のうち少なくとも1つの符号または符号化結果を用いて該符号化区間における音声の雑音性の度合いを評価する雑音度評価部と、上記雑音度評価部の評価結果に応じて複数の駆動符号帳を切り替える駆動符号帳切替部とを備えたことを特徴とする。
【0027】
この発明に係る音声復号化装置は、符号駆動線形予測(CELP)音声復号化装置において、スペクトル情報、パワー情報、ピッチ情報のうち少なくとも1つの符号または復号化結果を用いて該復号化区間における音声の雑音性の度合いを評価する雑音度評価部と、上記雑音度評価部の評価結果に応じて複数の駆動符号帳を切り替える駆動符号帳切替部とを備えたことを特徴とする。
【0028】
【発明の実施の形態】
以下図面を参照しながら、この発明の実施の形態について説明する。
【0029】
実施の形態1.
図1は、この発明による音声符号化方法及び音声復号化方法の実施の形態1の全体構成を示す。図中、1は符号化部、2は復号化部、3は多重化部、4は分離部である。符号化部1は、線形予測パラメータ分析部5、線形予測パラメータ符号化部6、合成フィルタ7、適応符号帳8、ゲイン符号化部10、距離計算部11、第1の駆動符号帳19、第2の駆動符号帳20、雑音度評価部24、駆動符号帳切替部25、重み付け加算部38より構成されている。また、復号化部2は線形予測パラメータ復号化部12、合成フィルタ13、適応符号帳14、第1の駆動符号帳22、第2の駆動符号帳23、雑音度評価部26、駆動符号帳切替部27、ゲイン復号化部16、重み付け加算部39より構成されている。図1中5は入力音声S1を分析し、音声のスペクトル情報である線形予測パラメータを抽出するスペクトル情報分析部としての線形予測パラメータ分析部、6はスペクトル情報であるその線形予測パラメータを符号化し、符号化した線形予測パラメータを合成フィルタ7の係数として設定するスペクトル情報符号化部としての線形予測パラメータ符号化部、19、22は非雑音的な複数の時系列ベクトルが記憶された第1の駆動符号帳、20、23は雑音的な複数の時系列ベクトルが記憶された第2の駆動符号帳、24、26は雑音の度合いを評価する雑音度評価部、25、27は雑音の度合いにより駆動符号帳を切り替える駆動符号帳切替部である。
【0030】
以下、動作を説明する。まず、符号化部1において、線形予測パラメータ分析部5は入力音声S1を分析し、音声のスペクトル情報である線形予測パラメータを抽出する。線形予測パラメータ符号化部6はその線形予測パラメータを符号化し、符号化した線形予測パラメータを合成フィルタ7の係数として設定するとともに、雑音度評価部24へ出力する。次に、音源情報の符号化について説明する。適応符号帳8には、過去の駆動音源信号が記憶されており、距離計算部11から入力される適応符号に対応して過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力する。雑音度評価部24は、前記線形予測パラメータ符号化部6から入力された符号化した線形予測パラメータと適応符号とから、例えば図2に示すようにスペクトルの傾斜、短期予測利得、ピッチ変動から該符号化区間の雑音の度合いを評価し、評価結果を駆動符号帳切替部25に出力する。駆動符号帳切替部25は前記雑音度の評価結果に応じて、例えば雑音度が低ければ第1の駆動符号帳19を、雑音度が高ければ第2の駆動符号帳20を用いるとして符号化に用いる駆動符号帳を切り替える。
【0031】
第1の駆動符号帳19には、非雑音的な複数の時系列ベクトル、例えば学習用音声とその符号化音声との歪みが小さくなるように学習して構成された複数の時系列ベクトルが記憶されている。また、第2の駆動符号帳20には、雑音的な複数の時系列ベクトル、例えばランダム雑音から生成した複数の時系列ベクトルが記憶されており、距離計算部11から入力されるそれぞれ駆動符号に対応した時系列ベクトルを出力する。適応符号帳8、第1の駆動音源符号帳19または第2の駆動符号帳20からの各時系列ベクトルは、ゲイン符号化部10から与えられるそれぞれのゲインに応じて重み付け加算部38で重み付けして加算され、その加算結果を駆動音源信号として合成フィルタ7へ供給され符号化音声を得る。距離計算部11は符号化音声と入力音声S1との距離を求め、距離が最小となる適応符号、駆動符号、ゲインを探索する。以上符号化が終了した後、線形予測パラメータの符号、入力音声と符号化音声との歪みを最小にする適応符号、駆動符号,ゲインの符号を符号化結果S2として出力する。以上がこの実施の形態1の音声符号化方法に特徴的な動作である。
【0032】
次に復号化部2について説明する。復号化部2では、線形予測パラメータ復号化部12は線形予測パラメータの符号から線形予測パラメータを復号化し、合成フィルタ13の係数として設定するとともに、雑音度評価部26へ出力する。次に、音源情報の復号化について説明する。適応符号帳14は、適応符号に対応して、過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力する。雑音度評価部26は、前記線形予測パラメータ復号化部12から入力された復号化した線形予測パラメータと適応符号とから符号化部1の雑音度評価部24と同様の方法で雑音の度合いを評価し、評価結果を駆動符号帳切替部27に出力する。駆動符号帳切替部27は前記雑音度の評価結果に応じて、符号化部1の駆動符号帳切替部25と同様に第1の駆動符号帳22と第2の駆動符号帳23とを切り替える。
【0033】
第1の駆動符号帳22には非雑音的な複数の時系列ベクトル、例えば学習用音声とその符号化音声との歪みが小さくなるように学習して構成された複数の時系列ベクトルが、第2の駆動符号帳23には雑音的な複数の時系列ベクトル、例えばランダム雑音から生成した複数の時系列ベクトルが記憶されており、それぞれ駆動符号に対応した時系列ベクトルを出力する。適応符号帳14と第1の駆動符号帳22または第2の駆動符号帳23からの時系列ベクトルは、ゲイン復号化部16でゲインの符号から復号化したそれぞれのゲインに応じて重み付け加算部39で重み付けして加算され、その加算結果を駆動音源信号として合成フィルタ13へ供給され出力音声S3が得られる。以上がこの実施の形態1の音声復号化方法に特徴的な動作である。
【0034】
この実施の形態1によれば、入力音声の雑音の度合いを符号および符号化結果から評価し、評価結果に応じて異なる駆動符号帳を用いることにより、少ない情報量で、品質の高い音声を再生することができる。
【0035】
また、上記実施の形態では、駆動符号帳19,20,22,23には、複数の時系列ベクトルが記憶されている場合を説明したが、少なくとも1つの時系列ベクトルが記憶されていれば、実施可能である。
【0036】
実施の形態2.
上述の実施の形態1では、2つの駆動符号帳を切り替えて用いているが、これに代え、3つ以上の駆動符号帳を備え、雑音の度合いに応じて切り替えて用いるとしても良い。この実施の形態2によれば、音声を雑音/非雑音の2通りだけでなく、やや雑音的であるなどの中間的な音声に対してもそれに適した駆動符号帳を用いることができるので、品質の高い音声を再生することができる。
【0037】
実施の形態3.
図1との対応部分に同一符号を付けた図3は、この発明の音声符号化方法及び音声復号化方法の実施の形態3の全体構成を示し、図中28、30は雑音的な時系列ベクトルを格納した駆動符号帳、29、31は時系列ベクトルの低振幅なサンプルの振幅値を零にするサンプル間引き部である。
【0038】
以下、動作を説明する。まず、符号化部1において、線形予測パラメータ分析部5は入力音声S1を分析し、音声のスペクトル情報である線形予測パラメータを抽出する。線形予測パラメータ符号化部6はその線形予測パラメータを符号化し、符号化した線形予測パラメータを合成フィルタ7の係数として設定するとともに、雑音度評価部24へ出力する。次に、音源情報の符号化について説明する。適応符号帳8には、過去の駆動音源信号が記憶されており、距離計算部11から入力される適応符号に対応して過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力する。雑音度評価部24は、前記線形予測パラメータ符号化部6から入力された符号化した線形予測パラメータと適応符号とから、例えばスペクトルの傾斜、短期予測利得、ピッチ変動から該符号化区間の雑音の度合いを評価し、評価結果をサンプル間引き部29に出力する。
【0039】
駆動符号帳28には、例えばランダム雑音から生成した複数の時系列ベクトルが記憶されており、距離計算部11から入力される駆動符号に対応した時系列ベクトルを出力する。サンプル間引き部29は、前記雑音度の評価結果に応じて、雑音度が低ければ前記駆動符号帳28から入力された時系列ベクトルに対して、例えば所定の振幅値に満たないサンプルの振幅値を零にした時系列ベクトルを出力し、また、雑音度が高ければ前記駆動符号帳28から入力された時系列ベクトルをそのまま出力する。適応符号帳8、サンプル間引き部29からの各時系列ベクトルは、ゲイン符号化部10から与えられるそれぞれのゲインに応じて重み付け加算部38で重み付けして加算され、その加算結果を駆動音源信号として合成フィルタ7へ供給され符号化音声を得る。距離計算部11は符号化音声と入力音声S1との距離を求め、距離が最小となる適応符号、駆動符号、ゲインを探索する。以上符号化が終了した後、線形予測パラメータの符号、入力音声と符号化音声との歪みを最小にする適応符号、駆動符号,ゲインの符号を符号化結果S2として出力する。以上がこの実施の形態3の音声符号化方法に特徴的な動作である。
【0040】
次に復号化部2について説明する。復号化部2では、線形予測パラメータ復号化部12は線形予測パラメータの符号から線形予測パラメータを復号化し、合成フィルタ13の係数として設定するとともに、雑音度評価部26へ出力する。次に、音源情報の復号化について説明する。適応符号帳14は、適応符号に対応して、過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力する。雑音度評価部26は、前記線形予測パラメータ復号化部12から入力された復号化した線形予測パラメータと適応符号とから符号化部1の雑音度評価部24と同様の方法で雑音の度合いを評価し、評価結果をサンプル間引き部31に出力する。
【0041】
駆動符号帳30は駆動符号に対応した時系列ベクトルを出力する。サンプル間引き部31は、前記雑音度評価結果に応じて、前記符号化部1のサンプル間引き部29と同様の処理により時系列ベクトルを出力する。適応符号帳14、サンプル間引き部31からの各時系列ベクトルは、ゲイン復号化部16から与えられるそれぞれのゲインに応じて重み付け加算部39で重み付けして加算され、その加算結果を駆動音源信号として合成フィルタ13へ供給され出力音声S3が得られる。
【0042】
この実施の形態3によれば、雑音的な時系列ベクトルを格納している駆動符号帳を備え、音声の雑音性の度合いの評価結果に応じて、駆動音源の信号サンプルを間引くことにより雑音性の度合いが低い駆動音源を生成することにより、少ない情報量で、品質の高い音声を再生することができる。また、複数の駆動符号帳を備える必要がないので、駆動符号帳の記憶に要するメモリ量を少なくする効果もある。
【0043】
実施の形態4.
上述の実施の形態3では、時系列ベクトルのサンプルを間引く/間引かないの2通りとしているが、これに代え、雑音の度合いに応じてサンプルを間引く際の振幅閾値を変更するとしても良い。この実施の形態4によれば、音声を雑音/非雑音の2通りだけでなく、やや雑音的であるなどの中間的な音声に対してもそれに適した時系列ベクトルを生成し、用いることができるので、品質の高い音声を再生することができる。
【0044】
実施の形態5.
図1との対応部分に同一符号を付けた図4は、この発明の音声符号化方法及び音声復号化方法の実施の形態5の全体構成を示し、図中32、35は雑音的な時系列ベクトルを記憶している第1の駆動符号帳、33、36は非雑音的な時系列ベクトルを記憶している第2の駆動符号帳、34、37は重み決定部である。
【0045】
以下、動作を説明する。まず、符号化部1において、線形予測パラメータ分析部5は入力音声S1を分析し、音声のスペクトル情報である線形予測パラメータを抽出する。線形予測パラメータ符号化部6はその線形予測パラメータを符号化し、符号化した線形予測パラメータを合成フィルタ7の係数として設定するとともに、雑音度評価部24へ出力する。次に、音源情報の符号化について説明する。適応符号帳8には、過去の駆動音源信号が記憶されており、距離計算部11から入力される適応符号に対応して過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力する。雑音度評価部24は、前記線形予測パラメータ符号化部6から入力された符号化した線形予測パラメータと適応符号とから、例えばスペクトルの傾斜、短期予測利得、ピッチ変動から該符号化区間の雑音の度合いを評価し、評価結果を重み決定部34に出力する。
【0046】
第1の駆動符号帳32には、例えばランダム雑音から生成した複数の雑音的な時系列ベクトルが記憶されており、駆動符号に対応した時系列ベクトルを出力する。第2の駆動符号帳33には、例えば学習用音声とその符号化音声との歪みが小さくなるように学習して構成された複数の時系列ベクトルが記憶されており、距離計算部11から入力される駆動符号に対応した時系列ベクトルを出力する。重み決定部34は前記雑音度評価部24から入力された雑音度の評価結果に応じて、例えば図5に従って、第1の駆動符号帳32からの時系列ベクトルと第2の駆動符号帳33からの時系列ベクトルに与える重みを決定する。第1の駆動符号帳32、第2の駆動符号帳33からの各時系列ベクトルは上記重み決定部34から与えられる重みに応じて重み付けして加算される。適応符号帳8から出力された時系列ベクトルと、前記重み付け加算して生成された時系列ベクトルはゲイン符号化部10から与えられるそれぞれのゲインに応じて重み付け加算部38で重み付けして加算され、その加算結果を駆動音源信号として合成フィルタ7へ供給し符号化音声を得る。距離計算部11は符号化音声と入力音声S1との距離を求め、距離が最小となる適応符号、駆動符号、ゲインを探索する。この符号化が終了した後、線形予測パラメータの符号、入力音声と符号化音声との歪みを最小にする適応符号、駆動符号、ゲインの符号を符号化結果として出力する。
【0047】
次に復号化部2について説明する。復号化部2では、線形予測パラメータ復号化部12は線形予測パラメータの符号から線形予測パラメータを復号化し、合成フィルタ13の係数として設定するとともに、雑音度評価部26へ出力する。次に、音源情報の復号化について説明する。適応符号帳14は、適応符号に対応して、過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力する。雑音度評価部26は、前記線形予測パラメータ復号化部12から入力された復号化した線形予測パラメータと適応符号とから符号化部1の雑音度評価部24と同様の方法で雑音の度合いを評価し、評価結果を重み決定部37に出力する。
【0048】
第1の駆動符号帳35および第2の駆動符号帳36は駆動符号に対応した時系列ベクトルを出力する。重み決定部37は前記雑音度評価部26から入力された雑音度評価結果に応じて、符号化部1の重み決定部34と同様に重みを与えるとする。第1の駆動符号帳35、第2の駆動符号帳36からの各時系列ベクトルは上記重み決定部37から与えれるそれぞれの重みに応じて重み付けして加算される。適応符号帳14から出力された時系列ベクトルと、前記重み付け加算して生成された時系列ベクトルは、ゲイン復号化部16でゲインの符号から復号化したそれぞれのゲインに応じて重み付け加算部39で重み付けして加算され、その加算結果が駆動音源信号として合成フィルタ13へ供給され出力音声S3が得られる。
【0049】
この実施の形態5によれば、音声の雑音の度合いを符号および符号化結果から評価し、評価結果に応じて雑音的な時系列ベクトルと非雑音的な時系列ベクトルを重み付き加算して用いることにより、少ない情報量で、品質の高い音声を再生することができる。
【0050】
実施の形態6.
上述の実施の形態1〜5でさらに、雑音の度合いの評価結果に応じてゲインの符号帳を変更するとしても良い。この実施の形態6によれば、駆動符号帳に応じて最適なゲインの符号帳を用いることができるので、品質の高い音声を再生することができる。
【0051】
実施の形態7.
上述の実施の形態1〜6では、音声の雑音の度合いを評価し、その評価結果に応じて駆動符号帳を切り替えているが、有声の立ち上がりや破裂性の子音などをそれぞれ判定、評価し、その評価結果に応じて駆動符号帳を切り替えても良い。この実施の形態7によれば、音声の雑音的な状態だけでなく、有声の立ち上がりや破裂性子音などさらに細かく分類し、それぞれに適した駆動符号帳を用いることができるので、品質の高い音声を再生することができる。
【0052】
実施の形態8.
上述の実施の形態1〜6では、図2に示すスペクトル傾斜、短期予測利得、ピッチ変動から、符号化区間の雑音の度合いを評価しているが、適応符号帳出力に対するゲイン値の大小を用いて評価しても良い。
【0053】
【発明の効果】
請求項1、請求項2の発明に係る音声復号化方法及び請求項3、請求項4の発明に係る音声復号化装置によれば、駆動符号帳が出力する時系列ベクトルに加え、この時系列ベクトルを変更してこの時系列ベクトルとは振幅値がゼロのサンプルの数が異なる他の時系列ベクトルを生成することとしたので、複数の駆動符号帳を備える必要がなくなり、駆動符号帳の記憶に要するメモリ量を少なくする効果がある。
【図面の簡単な説明】
【図1】 この発明による音声符号化及び音声復号化装置の実施の形態1の全体構成を示すブロック図である。
【図2】 図1の実施の形態1における雑音の度合い評価の説明に供する表である。
【図3】 この発明による音声符号化及び音声復号化装置の実施の形態3の全体構成を示すブロック図である。
【図4】 この発明による音声符号化及び音声復号化装置の実施の形態5の全体構成を示すブロック図である。
【図5】 図4の実施の形態5における重み付け決定処理の説明に供する略線図である。
【図6】 従来のCELP音声符号化復号化装置の全体構成を示すブロック図である。
【図7】 従来の改良されたCELP音声符号化復号化装置の全体構成を示すブロック図である。
Claims (4)
- 少なくとも駆動符号帳を用い、入力音声符号に基づいて音声を合成する符号駆動線形予測(Code-Excited Linear Prediction : CELP)音声復号化方法において、
上記駆動符号帳から第1の時系列ベクトルを取得するステップと、
上記第1の時系列ベクトルの変更が必要か否かを判断するステップと、
上記第1の時系列ベクトルの変更が必要と判断された場合に、上記第1の時系列ベクトルを変更して振幅値がゼロのサンプルの数が上記第1の時系列ベクトルとは異なる第2の時系列ベクトルを生成するステップと、
上記第1の時系列ベクトルと上記第2の時系列ベクトルの何れか一方の時系列ベクトルを用いて音声を合成するステップと、
を有することを特徴とする音声復号化方法。 - 駆動符号帳と適応符号帳とを用い、入力音声符号に基づいて音声を合成する符号駆動線形予測(Code-Excited Linear Prediction : CELP)音声復号化方法において、
上記駆動符号帳から第1の時系列ベクトルを取得するステップと、
上記第1の時系列ベクトルの変更が必要か否かを判断するステップと、
上記第1の時系列ベクトルの変更が必要と判断された場合に、上記第1の時系列ベクトルを変更して振幅値がゼロのサンプルの数が上記第1の時系列ベクトルとは異なる第2の時系列ベクトルを生成するステップと、
上記第1の時系列ベクトルと上記第2の時系列ベクトルの何れか一方の時系列ベクトルと上記適応符号帳が出力する時系列ベクトルとを加算しその加算結果に基づいて音声を合成するステップと、
を有することを特徴とする音声復号化方法。 - 少なくとも駆動符号帳を用い、入力音声符号に基づいて音声を合成する符号駆動線形予測(Code-Excited Linear Prediction : CELP)音声復号化装置において、
上記駆動符号帳から第1の時系列ベクトルを取得する手段と、
上記第1の時系列ベクトルの変更が必要か否かを判断する手段と、
上記第1の時系列ベクトルの変更が必要と判断された場合に、上記第1の時系列ベクトルを変更して振幅値がゼロのサンプルの数が上記第1の時系列ベクトルとは異なる第2の時系列ベクトルを生成する手段と、
上記第1の時系列ベクトルと上記第2の時系列ベクトルの何れか一方の時系列ベクトルを用いて音声を合成する手段と、
を有することを特徴とする音声復号化装置。 - 駆動符号帳と適応符号帳とを用い、入力音声符号に基づいて音声を合成する符号駆動線形予測(Code-Excited Linear Prediction : CELP)音声復号化装置において、
上記駆動符号帳から第1の時系列ベクトルを取得する手段と、
上記第1の時系列ベクトルの変更が必要か否かを判断する手段と、
上記第1の時系列ベクトルの変更が必要と判断された場合に、上記第1の時系列ベクトルを変更して振幅値がゼロのサンプルの数が上記第1の時系列ベクトルとは異なる第2の時系列ベクトルを生成する手段と、
上記第1の時系列ベクトルと上記第2の時系列ベクトルの何れか一方の時系列ベクトルと上記適応符号帳が出力する時系列ベクトルとを加算しその加算結果に基づいて音声を合成する手段と、
を備えることを特徴とする音声復号化装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002202211A JP3736801B2 (ja) | 1997-12-24 | 2002-07-11 | 音声復号化方法及び音声復号化装置 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP35475497 | 1997-12-24 | ||
JP9-354754 | 1997-12-24 | ||
JP2002202211A JP3736801B2 (ja) | 1997-12-24 | 2002-07-11 | 音声復号化方法及び音声復号化装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000526920A Division JP3346765B2 (ja) | 1997-12-24 | 1998-12-07 | 音声復号化方法及び音声復号化装置 |
Related Child Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003312063A Division JP3563400B2 (ja) | 1997-12-24 | 2003-09-04 | 音声復号化装置及び音声復号化方法 |
JP2004372545A Division JP4170288B2 (ja) | 1997-12-24 | 2004-12-24 | 音声符号化方法及び音声符号化装置 |
JP2005175020A Division JP3746067B2 (ja) | 1997-12-24 | 2005-06-15 | 音声復号化方法及び音声復号化装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2003036099A JP2003036099A (ja) | 2003-02-07 |
JP2003036099A5 JP2003036099A5 (ja) | 2005-08-25 |
JP3736801B2 true JP3736801B2 (ja) | 2006-01-18 |
Family
ID=26580127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002202211A Expired - Lifetime JP3736801B2 (ja) | 1997-12-24 | 2002-07-11 | 音声復号化方法及び音声復号化装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3736801B2 (ja) |
-
2002
- 2002-07-11 JP JP2002202211A patent/JP3736801B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2003036099A (ja) | 2003-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4916521B2 (ja) | 音声復号化方法及び音声符号化方法及び音声復号化装置及び音声符号化装置 | |
JPH1091194A (ja) | 音声復号化方法及び装置 | |
JPH11327597A (ja) | 音声符号化装置及び音声復号化装置 | |
JP3746067B2 (ja) | 音声復号化方法及び音声復号化装置 | |
JP3582589B2 (ja) | 音声符号化装置及び音声復号化装置 | |
JP4800285B2 (ja) | 音声復号化方法及び音声復号化装置 | |
JP2001075600A (ja) | 音声符号化装置および音声復号化装置 | |
JP3736801B2 (ja) | 音声復号化方法及び音声復号化装置 | |
JP4510977B2 (ja) | 音声符号化方法および音声復号化方法とその装置 | |
JP4170288B2 (ja) | 音声符号化方法及び音声符号化装置 | |
JP3144284B2 (ja) | 音声符号化装置 | |
JP3490325B2 (ja) | 音声信号符号化方法、復号方法およびその符号化器、復号器 | |
JP3232701B2 (ja) | 音声符号化方法 | |
JP3319396B2 (ja) | 音声符号化装置ならびに音声符号化復号化装置 | |
JP3563400B2 (ja) | 音声復号化装置及び音声復号化方法 | |
JP3006790B2 (ja) | 音声符号化復号化方法及びその装置 | |
JPH043878B2 (ja) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20041018 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050218 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050218 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20050218 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20050411 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050419 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050615 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050620 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050920 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050929 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20051011 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20051018 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20051021 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081104 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091104 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091104 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101104 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111104 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121104 Year of fee payment: 7 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121104 Year of fee payment: 7 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121104 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131104 Year of fee payment: 8 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |