JP4916521B2

JP4916521B2 - 音声復号化方法及び音声符号化方法及び音声復号化装置及び音声符号化装置

Info

Publication number: JP4916521B2
Application number: JP2009018916A
Authority: JP
Inventors: 正山浦
Original assignee: Research in Motion Ltd
Current assignee: BlackBerry Ltd
Priority date: 1997-12-24
Filing date: 2009-01-30
Publication date: 2012-04-11
Anticipated expiration: 2018-12-07
Also published as: CN100583242C; EP1052620A1; JP3346765B2; US20130204615A1; US20070118379A1; US20080071525A1; CN1494055A; US7363220B2; CA2636684C; NO20003321L; CN1737903A; NO20040046L; CA2722196A1; US20080065385A1; EP1596367A3; CN1790485A; US20110172995A1; US20080071526A1; CN1658282A; US20090094025A1

Description

この発明は音声信号をディジタル信号に圧縮符号化復号化する際に使用する音声符号化・復号化方法及び音声符号化・復号化装置に関し、特に低ビットレートで品質の高い音声を再生するための音声符号化方法及び音声復号化方法並びに音声符号化装置及び音声復号化装置に関する。

従来、高能率音声符号化方法としては、符号駆動線形予測（Code-Excited Linear Prediction：ＣＥＬＰ）符号化が代表的であり、その技術については、「Code-excited linear prediction（ＣＥＬＰ）：High-quality speech at very low bit rates」（M.R.Shroeder and B.S.Atal著、ICASSP '85, pp.937-940, 1985）に述べられている。

図６は、ＣＥＬＰ音声符号化復号化方法の全体構成の一例を示すもので、図中１０１は符号化部、１０２は復号化部、１０３は多重化手段、１０４は分離手段である。符号化部１０１は線形予測パラメータ分析手段１０５、線形予測パラメータ符号化手段１０６、合成フィルタ１０７、適応符号帳１０８、駆動符号帳１０９、ゲイン符号化手段１１０、距離計算手段１１１、重み付け加算手段１３８より構成されている。また、復号化部１０２は線形予測パラメータ復号化手段１１２、合成フィルタ１１３、適応符号帳１１４、駆動符号帳１１５、ゲイン復号化手段１１６、重み付け加算手段１３９より構成されている。

ＣＥＬＰ音声符号化では、5〜50ms程度を１フレームとして、そのフレームの音声をスペクトル情報と音源情報に分けて符号化する。まず、ＣＥＬＰ音声符号化方法の動作について説明する。符号化部１０１において、線形予測パラメータ分析手段１０５は入力音声Ｓ１０１を分析し、音声のスペクトル情報である線形予測パラメータを抽出する。線形予測パラメータ符号化手段１０６はその線形予測パラメータを符号化し、符号化した線形予測パラメータを合成フィルタ１０７の係数として設定する。

次に音源情報の符号化について説明する。適応符号帳１０８には、過去の駆動音源信号が記憶されており、距離計算手段１１１から入力される適応符号に対応して過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力する。駆動符号帳１０９には、例えば学習用音声とその符号化音声との歪みが小さくなるように学習して構成された複数の時系列ベクトルが記憶されており、距離計算手段１１１から入力される駆動符号に対応した時系列ベクトルを出力する。

適応符号帳１０８、駆動符号帳１０９からの各時系列ベクトルはゲイン符号化手段１１０から与えられるそれぞれのゲインに応じて重み付け加算手段１３８で重み付けして加算され、その加算結果を駆動音源信号として合成フィルタ１０７へ供給し符号化音声を得る。距離計算手段１１１は符号化音声と入力音声Ｓ１０１との距離を求め、距離が最小となる適応符号、駆動符号、ゲインを探索する。上記符号化が終了した後、線形予測パラメータの符号、入力音声と符号化音声との歪みを最小にする適応符号、駆動符号、ゲインの符号を符号化結果として出力する。

次にＣＰＥＬ音声復号化方法の動作について説明する。

一方復号化部１０２において、線形予測パラメータ復号化手段１１２は線形予測パラメータの符号から線形予測パラメータを復号化し、合成フィルタ１１３の係数として設定する。次に、適応符号帳１１４は、適応符号に対応して、過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力し、また駆動符号帳１１５は駆動符号に対応した時系列ベクトルを出力する。これらの時系列ベクトルは、ゲイン復号化手段１１６でゲインの符号から復号化したそれぞれのゲインに応じて重み付け加算手段１３９で重み付けして加算され、その加算結果が駆動音源信号として合成フィルタ１１３へ供給され出力音声Ｓ１０３が得られる。

またＣＥＬＰ音声符号化復号化方法で再生音声品質の向上を目的として改良された従来の音声符号化復号化方法として、「Phonetically-based vector excitation coding of speech at 3.6kbps」（S.Wang and A.Gersho著、ICASSP '89, pp.49-52, 1989）に示されたものがある。図６との対応手段分に同一符号を付けた図７は、この従来の音声符号化復号化方法の全体構成の一例を示し、図中符号化部１０１において１１７は音声状態判定手段、１１８駆動符号帳切替手段、１１９は第１の駆動符号帳、１２０は第２の駆動符号帳である。また図中復号化手段１０２において１２１は駆動符号帳切替手段、１２２は第１の駆動符号帳、１２３は第２の駆動符号帳である。このような構成による符号化復号化方法の動作を説明する。まず符号化手段１０１において、音声状態判定手段１１７は入力音声Ｓ１０１を分析し、音声の状態を例えば有声／無声の２つの状態のうちどちらであるかを判定する。駆動符号帳切替手段１１８はその音声状態判定結果に応じて、例えば有声であれば第１の駆動符号帳１１９を、無声であれば第２の駆動符号帳１２０を用いるとして符号化に用いる駆動符号帳を切り替え、また、どちらの駆動符号帳を用いたかを符号化する。

次に復号化手段１０２において、駆動符号帳切替手段１２１は符号化手段１０１でどちらの駆動符号帳を用いたかの符号に応じて、符号化手段１０１で用いたのと同じ駆動符号帳を用いるとして第１の駆動符号帳１２２と第２の駆動符号帳１２３とを切り替える。このように構成することにより、音声の各状態毎に符号化に適した駆動符号帳を用意し、入力された音声の状態に応じて駆動符号帳を切り替えて用いることで再生音声の品質を向上することができる。

また送出ビット数を増加することなく、複数の駆動符号帳を切り替える従来の音声符号化復号化方法として特開平８−１８５１９８号公報に開示されたものがある。これは、適応符号帳で選択したピッチ周期に応じて、複数個の駆動符号帳を切り替えて用いるものである。これにより、伝送情報を増やさずに入力音声の特徴に適応した駆動符号帳を用いることができる。

特開平８−１８５１９８号公報

「Code-excited linear prediction（ＣＥＬＰ）：High-quality speech at very low bit rates」（M.R.Shroeder and B.S.Atal著、ICASSP '85, pp.937-940, 1985）「Phonetically-based vector excitation coding of speech at 3.6kbps」（S.Wang and A.Gersho著、ICASSP '89, pp.49-52, 1989）

上述したように図６に示す従来の音声符号化復号化方法では、単一の駆動符号帳を用いて合成音声を生成している。低ビットレートでも品質の高い符号化音声を得るためには、駆動符号帳に格納する時系列ベクトルはパルスを多く含む非雑音的なものとなる。このため、背景雑音や摩擦性子音など雑音的な音声を符号化、合成した場合、符号化音声はジリジリ、チリチリといった不自然な音を発するという問題があった。駆動符号帳を雑音的な時系列ベクトルからのみ構成すればこの問題は解決するが、符号化音声全体としての品質が劣化する。

また改良された図７に示す従来の音声符号化復号化方法では、入力音声の状態に応じて複数の駆動符号帳を切り替えて符号化音声を生成している。これにより例えば入力音声が雑音的な無声部分では雑音的な時系列ベクトルから構成された駆動符号帳を、またそれ以外の有声部分では非雑音的な時系列ベクトルから構成された駆動符号帳を用いることができ、雑音的な音声を符号化、合成しても不自然なジリジリした音を発することはなくなる。しかし、復号化側でも符号化側と同じ駆動符号帳を用いるために、新たにどの駆動符号帳を使用したかの情報を符号化、伝送する必要が生じ、これが低ビットレート化の妨げになるという問題があった。

また送出ビット数を増加することなく、複数の駆動符号帳を切り替える従来の音声符号化復号化方法では、適応符号帳で選択されるピッチ周期に応じて駆動符号帳を切り替えている。しかし、適応符号帳で選択されるピッチ周期は実際の音声のピッチ周期とは異なり、その値からだけでは入力音声の状態が雑音的か非雑音的かを判定できないので、音声の雑音的な部分の符号化音声が不自然であるという課題は解決されない。

この発明はかかる課題を解決するためになされたものであり、低ビットレートでも品質の高い音声を再生する音声符号化復号化方法及び装置を提供するものである。

上述の課題を解決するために、この発明は、符号駆動線形予測（Ｃｏｄｅ−ＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ：ＣＥＬＰ）によって、線形予測パラメータ符号、適応符号およびゲイン符号を含む音声符号を復号する音声復号化方法において、
前記線形予測パラメータ符号を復号して線形予測パラメータを得るステップと、
適応符号帳から前記適応符号に対応する適応符号ベクトルを復号区間について得るステップと、
前記ゲイン符号を復号して、前記適応符号ベクトルおよび駆動符号ベクトルのゲインを得るステップと、
前記適応符号に基づいて、前記復号区間について前記音声符号に関する雑音の度合いを評価するステップと、
当該評価された雑音の度合いと駆動符号帳とに基づいて駆動符号ベクトルを得るステップと、
前記適応符号ベクトルと前記駆動符号ベクトルとを前記復号された適応符号ベクトルのゲインおよび駆動符号ベクトルのゲインを用いてそれぞれ重みづけるステップと、
前記重みづけられた適応符号ベクトルと駆動符号ベクトルとを加算して駆動音源信号を得るステップと、
前記駆動音源信号と前記線形予測パラメータとを用いて音声を合成するステップと
を有することを特徴とする。

本発明に係る音声復号化方法によれば、少ない情報量で品質の高い音声を再生することができる。

この発明による音声符号化及び音声復号化装置の実施の形態１の全体構成を示すブロック図である。図１の実施の形態１における雑音の度合い評価の説明に供する表である。この発明による音声符号化及び音声復号化装置の実施の形態３の全体構成を示すブロック図である。この発明による音声符号化及び音声復号化装置の実施の形態５の全体構成を示すブロック図である。図４の実施の形態５における重み付け決定処理の説明に供する略線図である。従来のＣＥＬＰ音声符号化復号化装置の全体構成を示すブロック図である。従来の改良されたＣＥＬＰ音声符号化復号化装置の全体構成を示すブロック図である。

以下図面を参照しながら、この発明の実施の形態について説明する。

実施の形態１．
図１は、この発明による音声符号化方法及び音声復号化方法の実施の形態１の全体構成を示す。図中、１は符号化部、２は復号化部、３は多重化部、４は分離部である。符号化部１は、線形予測パラメータ分析部５、線形予測パラメータ符号化部６、合成フィルタ７、適応符号帳８、ゲイン符号化部１０、距離計算部１１、第１の駆動符号帳１９、第２の駆動符号帳２０、雑音度評価部２４、駆動符号帳切替部２５、重み付け加算部３８より構成されている。また、復号化部２は線形予測パラメータ復号化部１２、合成フィルタ１３、適応符号帳１４、第１の駆動符号帳２２、第２の駆動符号帳２３、雑音度評価部２６、駆動符号帳切替部２７、ゲイン復号化部１６、重み付け加算部３９より構成されている。図１中５は入力音声Ｓ１を分析し、音声のスペクトル情報である線形予測パラメータを抽出するスペクトル情報分析部としての線形予測パラメータ分析部、６はスペクトル情報であるその線形予測パラメータを符号化し、符号化した線形予測パラメータを合成フィルタ７の係数として設定するスペクトル情報符号化部としての線形予測パラメータ符号化部、１９、２２は非雑音的な複数の時系列ベクトルが記憶された第１の駆動符号帳、２０、２３は雑音的な複数の時系列ベクトルが記憶された第２の駆動符号帳、２４、２６は雑音の度合いを評価する雑音度評価部、２５、２７は雑音の度合いにより駆動符号帳を切り替える駆動符号帳切替部である。

以下、動作を説明する。まず、符号化部１において、線形予測パラメータ分析部５は入力音声Ｓ１を分析し、音声のスペクトル情報である線形予測パラメータを抽出する。線形予測パラメータ符号化部６はその線形予測パラメータを符号化し、符号化した線形予測パラメータを合成フィルタ７の係数として設定するとともに、雑音度評価部２４へ出力する。次に、音源情報の符号化について説明する。適応符号帳８には、過去の駆動音源信号が記憶されており、距離計算部１１から入力される適応符号に対応して過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力する。雑音度評価部２４は、前記線形予測パラメータ符号化部６から入力された符号化した線形予測パラメータと適応符号とから、例えば図２に示すようにスペクトルの傾斜、短期予測利得、ピッチ変動から該符号化区間の雑音の度合いを評価し、評価結果を駆動符号帳切替部２５に出力する。駆動符号帳切替部２５は前記雑音度の評価結果に応じて、例えば雑音度が低ければ第１の駆動符号帳１９を、雑音度が高ければ第２の駆動符号帳２０を用いるとして符号化に用いる駆動符号帳を切り替える。

第１の駆動符号帳１９には、非雑音的な複数の時系列ベクトル、例えば学習用音声とその符号化音声との歪みが小さくなるように学習して構成された複数の時系列ベクトルが記憶されている。また、第２の駆動符号帳２０には、雑音的な複数の時系列ベクトル、例えばランダム雑音から生成した複数の時系列ベクトルが記憶されており、距離計算部１１から入力されるそれぞれ駆動符号に対応した時系列ベクトルを出力する。適応符号帳８、第１の駆動音源符号帳１９または第２の駆動符号帳２０からの各時系列ベクトルは、ゲイン符号化部１０から与えられるそれぞれのゲインに応じて重み付け加算部３８で重み付けして加算され、その加算結果を駆動音源信号として合成フィルタ７へ供給され符号化音声を得る。距離計算部１１は符号化音声と入力音声Ｓ１との距離を求め、距離が最小となる適応符号、駆動符号、ゲインを探索する。以上符号化が終了した後、線形予測パラメータの符号、入力音声と符号化音声との歪みを最小にする適応符号、駆動符号，ゲインの符号を符号化結果Ｓ２として出力する。以上がこの実施の形態１の音声符号化方法に特徴的な動作である。

次に復号化部２について説明する。復号化部２では、線形予測パラメータ復号化部１２は線形予測パラメータの符号から線形予測パラメータを復号化し、合成フィルタ１３の係数として設定するとともに、雑音度評価部２６へ出力する。次に、音源情報の復号化について説明する。適応符号帳１４は、適応符号に対応して、過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力する。雑音度評価部２６は、前記線形予測パラメータ復号化部１２から入力された復号化した線形予測パラメータと適応符号とから符号化部１の雑音度評価部２４と同様の方法で雑音の度合いを評価し、評価結果を駆動符号帳切替部２７に出力する。駆動符号帳切替部２７は前記雑音度の評価結果に応じて、符号化部１の駆動符号帳切替部２５と同様に第１の駆動符号帳２２と第２の駆動符号帳２３とを切り替える。

第１の駆動符号帳２２には非雑音的な複数の時系列ベクトル、例えば学習用音声とその符号化音声との歪みが小さくなるように学習して構成された複数の時系列ベクトルが、第２の駆動符号帳２３には雑音的な複数の時系列ベクトル、例えばランダム雑音から生成した複数の時系列ベクトルが記憶されており、それぞれ駆動符号に対応した時系列ベクトルを出力する。適応符号帳１４と第１の駆動符号帳２２または第２の駆動符号帳２３からの時系列ベクトルは、ゲイン復号化部１６でゲインの符号から復号化したそれぞれのゲインに応じて重み付け加算部３９で重み付けして加算され、その加算結果を駆動音源信号として合成フィルタ１３へ供給され出力音声Ｓ３が得られる。以上がこの実施の形態１の音声復号化方法に特徴的な動作である。

この実施の形態１によれば、入力音声の雑音の度合いを符号および符号化結果から評価し、評価結果に応じて異なる駆動符号帳を用いることにより、少ない情報量で、品質の高い音声を再生することができる。

また、上記実施の形態では、駆動符号帳１９，２０，２２，２３には、複数の時系列ベクトルが記憶されている場合を説明したが、少なくとも１つの時系列ベクトルが記憶されていれば、実施可能である。

実施の形態２．
上述の実施の形態１では、２つの駆動符号帳を切り替えて用いているが、これに代え、３つ以上の駆動符号帳を備え、雑音の度合いに応じて切り替えて用いるとしても良い。この実施の形態２によれば、音声を雑音／非雑音の２通りだけでなく、やや雑音的であるなどの中間的な音声に対してもそれに適した駆動符号帳を用いることができるので、品質の高い音声を再生することができる。

実施の形態３．
図１との対応部分に同一符号を付けた図３は、この発明の音声符号化方法及び音声復号化方法の実施の形態３の全体構成を示し、図中２８、３０は雑音的な時系列ベクトルを格納した駆動符号帳、２９、３１は時系列ベクトルの低振幅なサンプルの振幅値を零にするサンプル間引き部である。

以下、動作を説明する。まず、符号化部１において、線形予測パラメータ分析部５は入力音声Ｓ１を分析し、音声のスペクトル情報である線形予測パラメータを抽出する。線形予測パラメータ符号化部６はその線形予測パラメータを符号化し、符号化した線形予測パラメータを合成フィルタ７の係数として設定するとともに、雑音度評価部２４へ出力する。次に、音源情報の符号化について説明する。適応符号帳８には、過去の駆動音源信号が記憶されており、距離計算部１１から入力される適応符号に対応して過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力する。雑音度評価部２４は、前記線形予測パラメータ符号化部６から入力された符号化した線形予測パラメータと適応符号とから、例えばスペクトルの傾斜、短期予測利得、ピッチ変動から該符号化区間の雑音の度合いを評価し、評価結果をサンプル間引き部２９に出力する。

駆動符号帳２８には、例えばランダム雑音から生成した複数の時系列ベクトルが記憶されており、距離計算部１１から入力される駆動符号に対応した時系列ベクトルを出力する。サンプル間引き部２９は、前記雑音度の評価結果に応じて、雑音度が低ければ前記駆動符号帳２８から入力された時系列ベクトルに対して、例えば所定の振幅値に満たないサンプルの振幅値を零にした時系列ベクトルを出力し、また、雑音度が高ければ前記駆動符号帳２８から入力された時系列ベクトルをそのまま出力する。適応符号帳８、サンプル間引き部２９からの各時系列ベクトルは、ゲイン符号化部１０から与えられるそれぞれのゲインに応じて重み付け加算部３８で重み付けして加算され、その加算結果を駆動音源信号として合成フィルタ７へ供給され符号化音声を得る。距離計算部１１は符号化音声と入力音声Ｓ１との距離を求め、距離が最小となる適応符号、駆動符号、ゲインを探索する。以上符号化が終了した後、線形予測パラメータの符号、入力音声と符号化音声との歪みを最小にする適応符号、駆動符号，ゲインの符号を符号化結果Ｓ２として出力する。以上がこの実施の形態３の音声符号化方法に特徴的な動作である。

次に復号化部２について説明する。復号化部２では、線形予測パラメータ復号化部１２は線形予測パラメータの符号から線形予測パラメータを復号化し、合成フィルタ１３の係数として設定するとともに、雑音度評価部２６へ出力する。次に、音源情報の復号化について説明する。適応符号帳１４は、適応符号に対応して、過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力する。雑音度評価部２６は、前記線形予測パラメータ復号化部１２から入力された復号化した線形予測パラメータと適応符号とから符号化部１の雑音度評価部２４と同様の方法で雑音の度合いを評価し、評価結果をサンプル間引き部３１に出力する。

駆動符号帳３０は駆動符号に対応した時系列ベクトルを出力する。サンプル間引き部３１は、前記雑音度評価結果に応じて、前記符号化部１のサンプル間引き部２９と同様の処理により時系列ベクトルを出力する。適応符号帳１４、サンプル間引き部３１からの各時系列ベクトルは、ゲイン復号化部１６から与えられるそれぞれのゲインに応じて重み付け加算部３９で重み付けして加算され、その加算結果を駆動音源信号として合成フィルタ１３へ供給され出力音声Ｓ３が得られる。

この実施の形態３によれば、雑音的な時系列ベクトルを格納している駆動符号帳を備え、音声の雑音性の度合いの評価結果に応じて、駆動音源の信号サンプルを間引くことにより雑音性の度合いが低い駆動音源を生成することにより、少ない情報量で、品質の高い音声を再生することができる。また、複数の駆動符号帳を備える必要がないので、駆動符号帳の記憶に要するメモリ量を少なくする効果もある。

実施の形態４．
上述の実施の形態３では、時系列ベクトルのサンプルを間引く／間引かないの２通りとしているが、これに代え、雑音の度合いに応じてサンプルを間引く際の振幅閾値を変更するとしても良い。この実施の形態４によれば、音声を雑音／非雑音の２通りだけでなく、やや雑音的であるなどの中間的な音声に対してもそれに適した時系列ベクトルを生成し、用いることができるので、品質の高い音声を再生することができる。

実施の形態５．
図１との対応部分に同一符号を付けた図４は、この発明の音声符号化方法及び音声復号化方法の実施の形態５の全体構成を示し、図中３２、３５は雑音的な時系列ベクトルを記憶している第１の駆動符号帳、３３、３６は非雑音的な時系列ベクトルを記憶している第２の駆動符号帳、３４、３７は重み決定部である。

以下、動作を説明する。まず、符号化部１において、線形予測パラメータ分析部５は入力音声Ｓ１を分析し、音声のスペクトル情報である線形予測パラメータを抽出する。線形予測パラメータ符号化部６はその線形予測パラメータを符号化し、符号化した線形予測パラメータを合成フィルタ７の係数として設定するとともに、雑音度評価部２４へ出力する。次に、音源情報の符号化について説明する。適応符号帳８には、過去の駆動音源信号が記憶されており、距離計算部１１から入力される適応符号に対応して過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力する。雑音度評価部２４は、前記線形予測パラメータ符号化部６から入力された符号化した線形予測パラメータと適応符号とから、例えばスペクトルの傾斜、短期予測利得、ピッチ変動から該符号化区間の雑音の度合いを評価し、評価結果を重み決定部３４に出力する。

第１の駆動符号帳３２には、例えばランダム雑音から生成した複数の雑音的な時系列ベクトルが記憶されており、駆動符号に対応した時系列ベクトルを出力する。第２の駆動符号帳３３には、例えば学習用音声とその符号化音声との歪みが小さくなるように学習して構成された複数の時系列ベクトルが記憶されており、距離計算部１１から入力される駆動符号に対応した時系列ベクトルを出力する。重み決定部３４は前記雑音度評価部２４から入力された雑音度の評価結果に応じて、例えば図５に従って、第１の駆動符号帳３２からの時系列ベクトルと第２の駆動符号帳３３からの時系列ベクトルに与える重みを決定する。第１の駆動符号帳３２、第２の駆動符号帳３３からの各時系列ベクトルは上記重み決定部３４から与えられる重みに応じて重み付けして加算される。適応符号帳８から出力された時系列ベクトルと、前記重み付け加算して生成された時系列ベクトルはゲイン符号化部１０から与えられるそれぞれのゲインに応じて重み付け加算部３８で重み付けして加算され、その加算結果を駆動音源信号として合成フィルタ７へ供給し符号化音声を得る。距離計算部１１は符号化音声と入力音声Ｓ１との距離を求め、距離が最小となる適応符号、駆動符号、ゲインを探索する。この符号化が終了した後、線形予測パラメータの符号、入力音声と符号化音声との歪みを最小にする適応符号、駆動符号、ゲインの符号を符号化結果として出力する。

次に復号化部２について説明する。復号化部２では、線形予測パラメータ復号化部１２は線形予測パラメータの符号から線形予測パラメータを復号化し、合成フィルタ１３の係数として設定するとともに、雑音度評価部２６へ出力する。次に、音源情報の復号化について説明する。適応符号帳１４は、適応符号に対応して、過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力する。雑音度評価部２６は、前記線形予測パラメータ復号化部１２から入力された復号化した線形予測パラメータと適応符号とから符号化部１の雑音度評価部２４と同様の方法で雑音の度合いを評価し、評価結果を重み決定部３７に出力する。

第１の駆動符号帳３５および第２の駆動符号帳３６は駆動符号に対応した時系列ベクトルを出力する。重み決定部３７は前記雑音度評価部２６から入力された雑音度評価結果に応じて、符号化部１の重み決定部３４と同様に重みを与えるとする。第１の駆動符号帳３５、第２の駆動符号帳３６からの各時系列ベクトルは上記重み決定部３７から与えれるそれぞれの重みに応じて重み付けして加算される。適応符号帳１４から出力された時系列ベクトルと、前記重み付け加算して生成された時系列ベクトルは、ゲイン復号化部１６でゲインの符号から復号化したそれぞれのゲインに応じて重み付け加算部３９で重み付けして加算され、その加算結果が駆動音源信号として合成フィルタ１３へ供給され出力音声Ｓ３が得られる。

この実施の形態５によれば、音声の雑音の度合いを符号および符号化結果から評価し、評価結果に応じて雑音的な時系列ベクトルと非雑音的な時系列ベクトルを重み付き加算して用いることにより、少ない情報量で、品質の高い音声を再生することができる。

実施の形態６．
上述の実施の形態１〜５でさらに、雑音の度合いの評価結果に応じてゲインの符号帳を変更するとしても良い。この実施の形態６によれば、駆動符号帳に応じて最適なゲインの符号帳を用いることができるので、品質の高い音声を再生することができる。

実施の形態７．
上述の実施の形態１〜６では、音声の雑音の度合いを評価し、その評価結果に応じて駆動符号帳を切り替えているが、有声の立ち上がりや破裂性の子音などをそれぞれ判定、評価し、その評価結果に応じて駆動符号帳を切り替えても良い。この実施の形態７によれば、音声の雑音的な状態だけでなく、有声の立ち上がりや破裂性子音などさらに細かく分類し、それぞれに適した駆動符号帳を用いることができるので、品質の高い音声を再生することができる。

実施の形態８．
上述の実施の形態１〜６では、図２に示すスペクトル傾斜、短期予測利得、ピッチ変動から、符号化区間の雑音の度合いを評価しているが、適応符号帳出力に対するゲイン値の大小を用いて評価しても良い。

Claims

符号駆動線形予測（Ｃｏｄｅ−ＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ：ＣＥＬＰ）によって、線形予測パラメータ符号、適応符号およびゲイン符号を含む音声符号を復号する音声復号化方法において、
前記線形予測パラメータ符号を復号して線形予測パラメータを得るステップと、
適応符号帳から前記適応符号に対応する適応符号ベクトルを復号区間について得るステップと、
前記ゲイン符号を復号して、前記適応符号ベクトルおよび駆動符号ベクトルのゲインを得るステップと、
前記適応符号に基づいて、前記復号区間について前記音声符号に関する雑音の度合いを評価するステップと、
当該評価された雑音の度合いと駆動符号帳とに基づいて駆動符号ベクトルを得るステップと、
前記適応符号ベクトルと前記駆動符号ベクトルとを前記復号された適応符号ベクトルのゲインおよび駆動符号ベクトルのゲインを用いてそれぞれ重みづけるステップと、
前記重みづけられた適応符号ベクトルと駆動符号ベクトルとを加算して駆動音源信号を得るステップと、
前記駆動音源信号と前記線形予測パラメータとを用いて音声を合成するステップと
を有することを特徴とする音声復号化方法。
符号駆動線形予測（Ｃｏｄｅ−ＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ：ＣＥＬＰ）によって、音声を符号化する音声符号化方法において、
線形予測パラメータを得るために前記音声を分析するステップと、
前記線形予測パラメータを符号化して線形予測パラメータ符号を得るステップと、
適応符号帳から適応符号に対応する適応符号ベクトルを得るステップと、
前記適応符号に対応するピッチ情報を得るステップと、
前記ピッチ情報に基づいて前記音声の雑音の度合いを評価するステップと、
前記評価された雑音の度合いに基づいて重みを得るステップと、
駆動符号帳から得られた時系列ベクトルと前記重みとを用いて駆動符号ベクトルを得るステップと、
前記駆動符号ベクトルと前記適応符号ベクトルとを用いて符号化音声を得るステップと、
前記符号化音声と前記音声とを比較することによって駆動符号を得るステップと、
前記適応符号と前記線形予測パラメータ符号と前記駆動符号とを含む音声符号を出力するステップと
を有することを特徴とする音声符号化方法。
符号駆動線形予測（Ｃｏｄｅ−ＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ：ＣＥＬＰ）によって、音声を符号化する音声符号化方法において、
線形予測パラメータを得るために前記音声を分析するステップと、
前記線形予測パラメータを符号化して線形予測パラメータ符号を得るステップと、
適応符号帳から適応符号に対応する適応符号ベクトルを得るステップと、
前記適応符号ベクトルに対応するゲイン値を得るステップと、
前記ゲイン値に基づいて前記音声の雑音の度合いを評価するステップと、
前記評価された雑音の度合いに基づいて重みを得るステップと、
駆動符号帳から得られた時系列ベクトルと前記重みとを用いて駆動符号ベクトルを得るステップと、
前記駆動符号ベクトルと前記適応符号ベクトルとを用いて符号化音声を得るステップと、
前記符号化音声と前記音声とを比較することによって駆動符号を得るステップと、
前記適応符号と前記線形予測パラメータ符号と前記駆動符号とを含む音声符号を出力するステップと
を有することを特徴とする音声符号化方法。
符号駆動線形予測（Ｃｏｄｅ−ＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ：ＣＥＬＰ）によって、線形予測パラメータ符号、適応符号およびゲイン符号を含む音声符号を復号する音声復号化装置において、
前記線形予測パラメータ符号を復号して線形予測パラメータを得る手段と、
適応符号帳から前記適応符号に対応する適応符号ベクトルを復号区間について得る手段と、
前記ゲイン符号を復号して、前記適応符号ベクトルおよび駆動符号ベクトルのゲインを得る手段と、
前記適応符号に基づいて、前記復号期間について前記音声符号に関する雑音の度合いを評価する手段と、
当該評価された雑音の度合いと駆動符号帳とに基づいて駆動符号ベクトルを得る手段と、
前記適応符号ベクトルと前記駆動符号ベクトルとを前記復号された適応符号ベクトルのゲインおよび駆動符号ベクトルのゲインを用いてそれぞれ重みづける手段と、
前記重みづけられた適応符号ベクトルと駆動符号ベクトルとを加算して駆動音源信号を得る手段と、
前記駆動音源信号と前記線形予測パラメータとを用いて音声を合成する手段と
を有することを特徴とする音声復号化装置。
符号駆動線形予測（Ｃｏｄｅ−ＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ：ＣＥＬＰ）によって、音声を符号化する音声符号化装置において、
線形予測パラメータを得るために前記音声を分析する手段と、
前記線形予測パラメータを符号化して線形予測パラメータ符号を得る手段と、
適応符号帳から適応符号に対応する適応符号ベクトルを得る手段と、
前記適応符号に対応するピッチ情報を得る手段と、
前記ピッチ情報に基づいて前記音声の雑音の度合いを評価する手段と、
前記評価された雑音の度合いに基づいて重みを得る手段と、
駆動符号帳から得られた時系列ベクトルと前記重みとを用いて駆動符号ベクトルを得る手段と、
前記駆動符号ベクトルと前記適応符号ベクトルとを用いて符号化音声を得る手段と、
前記符号化音声と前記音声とを比較することによって駆動符号を得る手段と、
前記適応符号と前記線形予測パラメータ符号と前記駆動符号とを含む音声符号を出力する手段と
を有することを特徴とする音声符号化装置。
符号駆動線形予測（Ｃｏｄｅ−ＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ：ＣＥＬＰ）によって、音声を符号化する音声符号化装置において、
線形予測パラメータを得るために前記音声を分析する手段と、
前記線形予測パラメータを符号化して線形予測パラメータ符号を得る手段と、
適応符号帳から適応符号に対応する適応符号ベクトルを得る手段と、
前記適応符号ベクトルに対応するゲイン値を得る手段と、
前記ゲイン値に基づいて前記音声の雑音の度合いを評価する手段と、
前記評価された雑音の度合いに基づいて重みを得る手段と、
駆動符号帳から得られた時系列ベクトルと前記重みとを用いて駆動符号ベクトルを得る手段と、
前記駆動符号ベクトルと前記適応符号ベクトルとを用いて符号化音声を得る手段と、
前記符号化音声と前記音声とを比較することによって駆動符号を得る手段と、
前記適応符号と前記線形予測パラメータ符号と前記駆動符号とを含む音声符号を出力する手段と
を有することを特徴とする音声符号化装置。