JP3612260B2 - Speech encoding method and apparatus, and speech decoding method and apparatus - Google Patents
Speech encoding method and apparatus, and speech decoding method and apparatus Download PDFInfo
- Publication number
- JP3612260B2 JP3612260B2 JP2000054994A JP2000054994A JP3612260B2 JP 3612260 B2 JP3612260 B2 JP 3612260B2 JP 2000054994 A JP2000054994 A JP 2000054994A JP 2000054994 A JP2000054994 A JP 2000054994A JP 3612260 B2 JP3612260 B2 JP 3612260B2
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- speech
- signal
- degree
- weighting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、電話帯域の音声、広帯域音声及びオーディオ信号等の音声信号の圧縮符号化方法及び装置並びに復号方法及び装置に関する。
【0002】
【従来の技術】
低ビットレートでも比較的高音質の音声を再生できる音声符号化方式として、CELP(Code Excited Linear Prediction)方式が知られている。CELP方式の詳細は例えばM.R.Schroeder and Ata1. ”Code−Exited Linear Prediction(CELP):high quq1ity speech a very 1ow bit rates”、in Proc. ICASSP‘85. pp.937−939,1985(文献1)に示されている。CELP方式の構成を図15に示す。図15に示されるように、CELP方式では聴覚重みフィルタを用いて符号化による音声に混入する雑音(符号化雑音)の評価を行い、符号化雑音が現フレームの音声のスペクトルから決まる形状のマスキング特性にマスクされる原理(同時マスキング)を用いて雑音が聞こえにくくなるような音源の符号を選択することを特徴としている。一般に、CELPに用いる聴覚重みフィルタはホルマント重みフィルタとピッチ重みフィルタの縦続接続で構成される。ホルマント重みフィルタは入力音声のホルマントによるマスキング特性を利用し、ピッチ重みフィルタは入力音声の調和構造(ハーモニクス)によるマスキング特性を利用している。聴覚重みフィルタの伝達関数w(z)は、ホルマント重みフィルタの伝達関数Ws(z)及びピッチ重みフィルタの伝達関数Wp(z)を用いて
【0003】
【数1】
【0004】
と表される。ピッチ重みフィルタはピッチ調和周波数成分に小さな重み、調和周波数間の成分に大きな重みをそれぞれかけることにより、符号化雑音のスペクトルを入力音声と同じピッチの調和構造に整形する働きをする。ここで、ピッチ重みフィルタの伝達関数Wp(z)はピッチ周期T0及びピッチ予測により求められたピッチ予測係数βiを用いて
【0005】
【数2】
【0006】
と表される。ただし、Mはピッチ予測次数を制御する定数、γは雑音整形の度合を制御する定数である。
【0007】
このようにして求めたピッチ重みフィルタの周波数特性を図16に示す。図16において、ピッチ重みフィルタの周波数特性はW(f)、音声の周波数特性はS(f)で表される。この図からも分かるように、ピッチ重みフィルタはピッチ調和周波数では谷の特性を持ち、調和周波数間では山の特性を持つ。従って、符号化雑音をピッチ重みフィルタで重み付けを行うことにより、音声のピッチ調和周波数では小さな重みを付け、逆に調和周波数間では大きな重みを付けて評価することができる。
【0008】
このようにフレーム内で周波数毎の相対的な重み付けを用いて、音源の符号選択を行うことにより、符号化により生じる符号化雑音のスペクトルを図16のE(f)に示すように音声と同じピッチ周期の調和構造にすることができる。こうすると、符号化雑音は音声のスペクトルの凹凸にマスクされて聞こえにくいものとなる。このようにピッチ重みフィルタは比較的簡単な分析により得られ、かつ、主観的な符号化雑音を抑えた音声符号化を行うことができるため、CELPで用いられてきた。
【0009】
また、CELP方式では復号音声の主観品質を向上させるために、音声を復号した後にポストフィルタが用いられることが多い。一般に、CELPに用いるポストフィルタはホルマント強調フィルタとピッチ強調フィルタの縦続接続で構成される。ポストフィルタ伝達関数Hpf(z)は、ホルマント強調フィルタの伝達関数Hs(z)及びピッチ強調フィルタの伝達関数Hp(z)を用いて
【0010】
【数3】
【0011】
と表される。ここで、ピッチ強調フィルタの伝達関数Hp(z)はピッチ周期T0及びピッチ予測係数λを用いて、
【0012】
【数4】
【0013】
と表される。ただし、λはピッチ強調の度合を制御する定数である。
【0014】
【発明が解決しようとする課題】
しかし、実際の音声は帯域によって調和構造の強さが異なっており、図17のS(f)のように調和構造が弱い帯域が存在することもある。従来のピッチ重みフィルタを用いたピッチ重み付けでは、図17のW(f)のように全帯域で整形の強さが同じであるピッチ重みフィルタを使用するためにE(f)に示される符号化雑音の調和構造と入力音声の調和構造とが異なり、復号音声の音質が劣化するという問題があった。
【0015】
また、ポストフィルタ処理におけるピッチ強調においても同様で、式5に示す伝達関数のフィルタを用いた従来のピッチ強調では、全帯域でピッチ強調の強さが同じであるためピッチ強調の不要な帯域に対してもピッチ強調が行われ、復号音声の音質が劣化するという問題があった。
【0016】
本発明は、このような問題点を解消し、図18に示すように、符号化雑音の調和構造を入力音声の調和構造に近づけることで復号音声の音質を向上させる音声符号化及び復号方法並びに音声符号化及び復号化装置を提供することを目的とする。
【0017】
【課題を解決するための手段】
第1の本発明は、入力音声情報信号とこの入力音声情報信号に対応する合成音声情報信号との差を表す誤差信号を生成し、周波数に従って前記誤差信号に対するピッチ重み付けの度合いを変えて重み付け信号を生成し、この重み付け信号に基づきインデックス情報を生成することを特徴とする音声符号化方法を提供する。
【0018】
このようにピッチ重み付けの度合を周波数によって変化させることにより、各周波数に適したピッチ重み付けを行い、符号化雑音の調和構造を各周波数で制御することが可能となり、復号音声の音質を向上させることができる。
【0019】
また、第2の発明は、第1の発明に係る音声符号化方法おいて、入力音声の特性に従って各周波数のピッチ重み付けの度合を変化させることを特徴とする音声符号化方法を提供する。
【0020】
このように、各周波数のピッチ重み付けの度合を入力信号の特性に従って変化させることにより、符号化雑音の調和構造を入力音声の調和構造に対応して変化させることが可能となり、復号音声の音質を向上させることができる。
【0021】
また、第3の発明は、第2の発明に係る音声符号化方法おいて、入力音声を分析して各周波数の有声度を求め、有声度に従って各周波数のピッチ重み付けの度合を変化させることを特徴とする音声符号化方法を提供する。
【0022】
このように、各周波数のピッチ重み付けの度合を入力信号の各周波数の有声度に従って変化させることにより、符号化雑音の調和構造を入力音声の調和構造に対応して変化させることが可能となり、復号音声の音質を向上させることができる。
【0023】
また、第4の発明は、第3の発明に係るに係る音声符号化方法において、有声度が高い周波数ではピッチ重み付けの度合を強くし、有声度が低い周波数ではピッチ重み付けの度合を弱くすることを特徴とする音声符号化方法を提供する。
【0024】
このような重み付けを行うことで、符号化雑音の調和構造を入力音声の調和構造に近づけることができ、復号音声の音質を向上させることができる。
【0025】
また、第5の発明は、入力音声情報信号とこの入力音声情報信号に対応する合成音声情報信号との差を表す誤差信号を生成し、前記入力音声情報信号を少なくとも2つの周波数帯域に分割し、該周波数帯域毎に前記誤差信号に対するピッチ重み付けの度合いを変えて重み付け信号を生成し、この重み付け信号に基づきインデックス情報を生成することを特徴とする音声符号化方法を提供する。
【0026】
このように、ピッチ重み付けの度合を帯域毎に変化させることにより、各帯域に適したピッチ重み付けを行うことができ、符号化雑音の調和構造を帯域毎に制御し、復号音声の音質を向上させることができる。
【0027】
また、第6の発明は、第5の発明に係る方法おいて、入力音声を分析して各帯域の有声度を求め、有声度に従って各帯域のピッチ重み付けの度合を変化させることを特徴とする音声符号化方法を提供する。
【0028】
このように、各帯域のピッチ重み付けの度合を入力信号の各帯域の有声度に従って変化させることにより、符号化雑音の調和構造を入力音声の調和構造に対応して変化させることができ、復号音声の音質を向上させることができる。
【0029】
また、第7の発明は、第6の発明に係る音声符号化方法において、有声度が高い帯域ではピッチ重み付けの度合を強くし、有声度が低い帯域ではピッチ重み付けの度合を弱くすることを特徴とする音声符号化方法を提供する。
【0030】
このような重み付けを行うことで、符号化雑音の調和構造を入力音声の調和構造に近づけることができ、復号音声の音質を向上させることができる。
【0031】
また、第8の発明は、第5の発明に係る音声符号化方法において、入力音声を分析して各帯域の有声/無声判定を行い、有声と判定された帯域に対してはピッチ重み付けを行い、無声と判定された帯域に対してはピッチ重み付けを行わないことを特徴とする音声符号化方法を提供する。
【0032】
このように、帯域によってピッチ重み付けの度合を変化させることによって符号化雑音の調和構造を入力音声の調和構造に近づけることができるようになり、復号音声の品質を向上させることができる。
【0033】
ここで、ピッチ重み付けの度合とは、雑音のピッチ整形の強さを指し、雑音のピッチ整形の強さは、例えば、ピッチ重みフィルタのフィルタ係数によって制御することができる。
【0034】
また、第9の発明は、符号化音声情報からインデックス情報を抽出し、このインデックス情報に基づき復号音声信号を生成し、周波数に応じてピッチ強調の度合を変化させて前記復号音声信号にピッチ強調処理を行うことを特徴とする音声復号方法を提供する。
【0035】
このように、ポストフィルタのピッチ強調の度合を周波数によって変化させることにより、各周波数に適したピッチ強調を行うことができ、復号音声の品質を向上させることができる。
【0036】
また、第10の発明は、第9の発明に係る音声復号方法において、復号音声の特性に従って各周波数のピッチ強調の度合を変化させることを特徴とする音声復号方法を提供する。
【0037】
このように、復号音声の特性に従って各周波数のピッチ強調の度合を変化させることで、復号音声にあったピッチ強調を行うことができる。
【0038】
また、第11の発明は、第10の発明に係る音声復号方法において、復号音声の各周波数の有声度に従って各周波数のピッチ強調の度合を変化させることを特徴とする音声復号方法を提供する。
【0039】
また、第12の発明は、第11の発明に係る音声復号方法において、有声度が高い周波数ではピッチ強調の度合を強くし、有声度が低い周波数ではピッチ強調の度合を弱くすることを特徴とする音声復号方法を提供する。
【0040】
また、第13の発明は、符号化音声情報からインデックス情報を抽出し、このインデックス情報に基づき復号音声信号を生成し、前記復号音声信号を少なくとも2つの周波数帯域に分割し、周波数帯域毎にピッチ強調の度合を変化させて前記復号音声信号にピッチ強調処理を行うことを特徴とする音声復号方法を提供する。
【0041】
また、第14の発明は、第13の発明に係る音声復号方法において、復号音声の各帯域の有声度に従って各帯域のピッチ強調の度合を変化させることを特徴とする音声復号方法を提供する。
【0042】
また、第15の発明は、第14の発明に係る音声復号方法において、有声度が高い帯域ではピッチ強調の度合を強くし、有声度が弱い帯域ではピッチ強調の度合を弱くすることを特徴とする音声復号方法を提供する。
【0043】
また、第16の発明は、第13の発明に係る音声復号方法において、復号音声の各帯域の有声/無声判定を行い、有声と判定された帯域に対してはピッチ強調を行い、無声と判定された帯域に対してはピッチ強調を行わないことを特徴とする音声復号方法を提供する。
【0044】
この第16の発明によれば、必要な帯域に対してのみピッチ強調を行うことができるので、復号音声の品質を向上させることができる。
【0045】
ここで、ピッチ強調の度合とは、復号音声のピッチ整形の強さを指し、ピッチ整形の強さは、例えば、ピッチ強調フィルタのフィルタ係数によって制御することができる。
【0046】
また、第17の発明は、入力音声情報信号とこの入力音声情報信号に対応する合成音声情報信号との差を表す誤差信号を生成する合成フィルタ手段と、周波数に従って前記誤差信号に対するピッチ重み付けの度合いを変えて重み付け信号を生成する重み付けフィルタ手段と、この重み付け信号に基づきインデックス情報を生成するインデックス情報発生手段とにより構成されることを特徴とする音声符号化装置を提供する。
【0047】
また、第18の発明は、入力音声情報信号とこの入力音声情報信号に対応する合成音声情報信号との差を表す誤差信号を生成する合成フィルタ手段と、前記入力音声情報信号を少なくとも2つの周波数帯域に分割する帯域分割手段と、該周波数帯域毎に前記誤差信号に対するピッチ重み付けの度合いを変えて重み付け信号を生成する重み付けフィルタ手段と、この重み付け信号に基づきインデックス情報を生成するインデックス情報発生手段とにより構成されることを特徴とする音声符号化装置を提供する。
【0048】
また、第19の発明は、符号化音声情報からインデックス情報を抽出する分離手段と、このインデックス情報に基づき復号音声信号を生成する合成フィルタ手段と、周波数に応じてピッチ強調の度合を変化させて前記復号音声信号にピッチ強調処理を行うポストフィルタ手段とで構成されることを特徴とする音声復号装置を提供する。
【0049】
また、第20の発明は、符号化音声情報からインデックス情報を抽出し、このインデックス情報に基づき復号音声信号を生成する合成フィルタ手段と、前記復号音声信号を少なくとも2つの周波数帯域に分割し、周波数帯域毎にピッチ強調の度合を変化させて前記復号音声信号にピッチ強調処理を行うポストフィルタ手段とにより構成されることを特徴とする音声復号装置を提供する。
【0050】
【発明の実施の形態】
(第1の実施形態)
本発明の音声符号化法をCELP方式に適用した第1の実施形態について説明する。CELP方式の符号化は、音声のスペクトル包絡情報の符号化と音源信号の符号化に大きく分けることができる。聴覚重みフィルタは音源信号の符号化に用いる。CELP方式ではフレーム単位に音声の分析・符号化を行う。方式によっては、フレームをさらに小さなサブフレームに分割し、サブフレーム毎に音源信号の符号化を行う方法もあるが、ここでは説明の簡単のために音源信号の符号化もフレーム単位で行うことにする。
【0051】
図1に、本実施形態に係る音声符号化方法を適用した音声符号化システムの構成を示す。この音声符号化システムによると、入力音声100の線形予測係数101を計算する線形予測分析部10及び帯域分割部の広域通過フィルタ20及び低域通過フィルタ21に入力される。広域通過フィルタ20及び低域通過フィルタ21の出力は各帯域のピッチ重みフィルタ係数112、113を求めるピッチ重みフィルタ係数算出部22,23にそれぞれ接続される。 ピッチ重みフィルタ係数算出部22,23の出力は聴覚重み付けフィルタ33のピッチ重みフィルタ29,30にそれぞれ接続される。
【0052】
線形予測分析部10の出力は線形予測係数101を符号化する線形予測係数符号化部17及び入力音声100と復号音声107の差信号108にホルマント重み付けを行うホルマント重みフィルタ25に接続される。線形予測係数符号化部17の出力は駆動音源105から復号音声107を生成する合成フィルタ18及びマルチプレクサ34に接続される。ホルマント重みフィルタ25の出力は広域通過フィルタ26及び低域通過フィルタ27を介してピッチ重みフィルタ29,30にそれぞれ接続される。帯域分割されたホルマント重み付きの差信号115、116にピッチ重み付けを行うピッチ重みフィルタ29,30の出力は加算器31に入力され、この加算器31の出力は歪み計算部32に接続される。この歪み計算部32の出力は音声のピッチ周期成分を符号化するための適応符号帳11,音声のピッチ周期以外の成分を符号化するための雑音符号帳12及び適応符号帳11から出力された適応符号ベクトル102及び雑音符号帳12から出力された雑音符号ベクトル103のクインを符号化するためのゲイン符号帳13に接続されると共にマルチプレクサ34に接続される。
【0053】
適応符号帳11及び雑音符号帳12の出力はゲイン符号帳13の出力と共にゲイン乗算器14,15にそれぞれ接続される。ゲイン乗算器14,15の出力は加算器16に接続され、この加算器16の出力は線形予測係数符号化部17の出力と共に合成フィルタ18に接続される。この合成フィルタ18の出力は入力音声と共に加算器19に入力される。加算器19の出力はホルマント重みフィルタ25に接続される。
【0054】
即ち、この実施形態では、図15に示す従来の音声符号化システムに対して更に高域成分を求める高域通過フィルタ20及び26、低域成分を求める低域通過フィルタ21及び27が追加されている。この構成において、帯域毎に算出されたピッチ重み係数112及び113を用いてピッチ重み付けを行う点が大きく異る。
【0055】
この音声符号化システムでは、まず入力音声100が5〜20ms程度の一定間隔のフレーム単位に分割されて入力される。フレーム単位の入力音声は線形予測分析部10に入力され、その周波数スペクトルの包絡形状を表す線形予測係数101が計算される。線形予測係数101は線形予測係数符号化部17で符号化された後、合成フィルタ18にフィルタ係数106として与えられる。また、線形予測係数101はホルマント重み付けを行うためにホルマント重みフィルタ25にも供給される。
【0056】
線形予測係数101の符号化の後、音源信号の符号化が行われる。音源信号の符号化では、適応符号帳11から選択された適応符号ベクトル102と雑音符号帳12から選択された雑音符号ベクトル103の各々にゲイン符号帳13から選択されたゲイン104が乗じられて足し合わされることによって駆動音源105が生成される。このようにして生成された駆動音源105は、線形予測係数符号化部17の出力により特徴づけられた合成フィルタ18に入力され復号音声107が生成される。
【0057】
入力音声100と復号音声107の差信号108が計算される。差信号108は、先ず、ホルマント重みフィルタ25に入力され、ホルマント重み付けが行われる。ホルマント重みフィルタ25は、線形予測分析部10で求められた線形予測係数101から算出されるホルマント重みフィルタ係数により特徴づけられる。例えば、ホルマント重みフィルタの伝達関数Ws(z)は、線形予測分析部10で求められたLPC係数から構成される予測フィルタの伝達関数A(z)を用いて
【0058】
【数5】
【0059】
と表される。定数γ1,γ2の値としては、例えばr1=0.9、r2=0.4を用いることができる。なお、γ1,γ2はこの値に限定される必要はなく、異なる値を用いても良い。
【0060】
次に、ホルマント重み付けされた差信号114は高域通過フィルタ26及び低域通過フィルタ27に入力され、2つの帯域に分割された後、各帯域のピッチ重みフィルタ24、30に入力される。一方、入力音声100も高域通過フィルタ20及び低域通過フィルタ21に入力され、2つの帯域に分割された後、各帯域成分110、111はそれぞれピッチ重みフィルタ係数算出部22、23に入力される。ピッチ重みフィルタ係数算出部22、23では、入力された信号をピッチ予測して、ピッチ予測係数112、113が算出される。算出されたピッチ予測係数112、113はピッチ重みフィルタ24、30に供給される。
【0061】
ピッチ重みフィルタでは、各帯域成分に対してそれぞれ異るピッチ重み付けが行われる。ピッチ重みフィルタはピッチ重みフィルタ係数算出部で求められたピッチ重みフィルタ係数によって特徴づけられる。例えば、高域のピッチ重みフィルタの伝達関数WHp、及び低域のピッチ重みフィルタの伝達関数WLpは、ピッチ周期及びピッチ予測係数βHi,βLiを用いて、
【0062】
【数6】
【0063】
と表される。ただし、Mはピッチ予測次数を制御する定数、γは雑音整形の度合を制御する定数である。定数γH,γLの値としては、例えばγH=γL=0.4を用いることができる。なお、γH,γLは別々の値を設定しても構わないし、γH,γLを各帯域のピッチ強度SH,SLの関数として定義し、ピッチ強度を用いて各帯域毎に制御することもできる。例えば、
【0064】
【数7】
【0065】
と定義することができる。ただし、ζH,ζLは定数である。また、ピッチ強度SH,SLは予測係数βHi,βLiを用いて
【0066】
【数8】
【0067】
と定義することができる。ただし、ピッチ強度SH,SLは上式に限定されず、信号のピッチ周期の強さを示すパラメータであれば良い。
【0068】
次に、ピッチ重み付けされた高域成分117及び低域成分118は加算部31で加算され、歪み計算部32に入力される。歪み計算部32では、歪みが最小となる適応符号ベクトル、雑音符号ベクトル及びゲインベクトルが選択され、これらのベクトルを表すインデックスがマルチプレクサ34に入力される。また、マルチプレクサ34には歪み計算部32から入力されるインデックスとともに、線形予測係数符号化部17からも線形予測係数を符号化して得られるインデックスが入力される。マルチプレクサ34では、入力されたインデックスから符号化ビットストリーム122が生成され、この符号化ビットストリーム122が伝送路または蓄積媒体を経て復号側に伝送される。
【0069】
上述したように、本実施形態では帯域毎にピッチ重み付けの度合を制御できるので、入力音声が図2のS(f)に示す周波数特性を持つ場合でも、低域ではピッチ重み付けの度合を強くし、高域ではピッチ重み付けの度合を弱くすることで、符号化雑音の周波数特性を図2のE(f)のような形にすることができる。このように、符号化雑音の調和構造を入力音声の調和構造に近づけることが可能となり、復号音声の音質を向上させることができる。
【0070】
(第2の実施形態)
本発明の音声符号化法をCELP方式に適用した第2の実施形態について説明する。図3に本実施形態に係る音声符号化方法を適用した音声符号化システムの構成を示す。図3に示される本実施形態の音声符号化システムは、図1に示した第1の実施形態の音声符号化システムに有声/無声判定部40、41と切り替え部44、45が追加された構成となっている。図3において図1と同一の番号が付されている部分は同じ動作をするものとして、ここでは本実施形態の特徴的な部分を中心に説明する。
【0071】
本実施形態では、高域と低域に分割された入力音声は、それぞれ各帯域の有声/無声判定部40、41とピッチ重みフィルタ係数算出部22、23に入力され、有声/無声判定部40、41では入力された帯域制限された信号110、111を分析して、その帯域の信号が有声であるか無声であるかを判定する。有声/無声の判定は、例えばIMBE(Improved Mu1ti=Band Excitation vocoder)で用いられているアルゴリズムを使用することで実現できる。なお、IMBEの詳細は、例えばD.W.Griffin and J.S.Lim ”Multiband Exctation Vocoder”, IEEE Trans. Acoust., Speech, Signal Processing,vo1.ASSP−36, pp.1223−1235,Aug.1988(文献2)に示されている。有声/無声の判定結果はピッチ重みフィルタ係数算出部22、23と切り替え部44、45に送られる。
【0072】
有声/無声の判定結果140、141が有声の場合、ピッチ重みフィルタ係数算出部22、23では入力信号を分析して、ピッチ重みフィルタ係数112、113が算出され、ピッチ重みフィルタ係数がピッチ重みフィルタに入力される。逆に、有声/無声の判定結果140、141が無声の場合、ピッチ重みフィルタ係数算出部22、23ではピッチ重みフィルタ係数112、113の算出は行われない。
【0073】
一方、切り替え部44、45では有声/無声の判定結果142、143に従って、出力の切り替えが行われる。有声/無声の判定結果が有声の場合、切り替え部の出力はピッチ重みフィルタ24,30に入力される。逆に、有声/無声の判定結果が無声の場合、切り替え部の出力はそのまま加算部46、47に入力される。このようにして各帯域でピッチ重み付けの有/無が制御される。
【0074】
ピッチ重み付けされた高域成分及び低域成分は加算部31で加算され、歪み計算部32に入力される。歪み計算部32では、歪みが最小となる適応符号ベクトル、雑音符号ベクトル及びゲインベクトルが選択され、これらのベクトルを表すインデックスがマルチプレクサ34に入力される。
【0075】
また、マルチプレクサ34には歪み計算部32から入力されるインデックスとともに、線形予測係数符号化部17からも線形予測係数を符号化して得られるインデックスが入力される。マルチプレクサ34では、入力されたインデックスから符号化ビットストリーム122が生成され、この符号化ビットストリーム122が伝送路または蓄積媒体を経て符号化側に伝送される。
【0076】
上述したように、本実施形態では帯域毎にピッチ重み付けの有/無を制御できるので、入力音声が図4のS(f)に示す周波数特性を持つ場合でも、低域のみピッチ重み付けを行い、高域ではピッチ重み付けを行わないようにすることで、符号化雑音の周波数特性を図4のE(f)のような形にすることができる。このように、符号化雑音の調和構造を入力音声の調和構造に近づけることが可能となり、復号音声の音質を向上させることができる。
【0077】
なお、本発明の第2の実施形態は帯域毎にピッチ重み付けの有/無の制御を行う部分が特徴的な部分であり、帯域毎にピッチ重み付けの有/無の制御が行えるような構成であれば良く、図3の構成に限定されない。例えば、図5に示すように、図3から切り替え部44、45を取り除いた構成で、ピッチ重みフィルタ係数算出部22,23において、有声/無声判定結果に基づいてピッチ重みフィルタ係数を求めるように変更することもできる。
【0078】
ここで、無声の場合はピッチ重み付けを行わないピッチ重みフィルタ係数を出力するようにしておくことで、ピッチ重み付けの有/無の切り替えと同様の操作を行うことができる。
【0079】
(第3の実施形態)
本発明の音声符号化法をCELP方式に適用した第3の実施形態について説明する。図6に本実施形態に係る音声符号化方法を適用した音声符号化システムの構成を示す。この音声符号化システムは、図15に示す従来のCELP方式と異なって、聴覚重み付け部分にピッチ重み制御フィルタ60、61、加算部62及び減算部63が追加された構成となっている。なお、ここでは本実施形態の特徴的な部分を中心に説明する。
【0080】
ホルマント重み付けされた差信号114はピッチ重みフィルタ50、ピッチ重み制御フィルタ61及び減算部63に入力される。ピッチ重みフィルタ50ではホルマント重み付けされた差信号114に対してピッチ重み付けが行われ、処理された信号151がピッチ重み制御フィルタ60に入力される。ピッチ重み制御フィルタ60では入力された信号151をフィルタ処理した後、信号152として加算部62に供給する。
【0081】
一方、減算部63では、ホルマント重み付けされた差信号114とホルマント重み付けされた差信号114をピッチ重み制御フィルタ61でフィルタ処理した信号153の差信号154が求められ、この信号154が加算部62に入力される。加算部62では入力された2つの信号が加算され、加算された信号155が歪み計算部32に入力される。歪み計算部32では、歪みが最小となる適応符号ベクトル、雑音符号ベクトル及びゲインベクトルが選択され、これらのベクトルを表すインデックスがマルチプレクサ34に入力される。また、マルチプレクサ34には歪み計算部32から入力されるインデックスとともに、線形予測係数符号化部17からも線形予測係数を符号化して得られるインデックスが入力される。マルチプレクサ34では、入力されたインデックスから符号化ビットストリーム122が生成され、この符号化ビットストリーム122が伝送路または蓄積媒体を経て符号化側に伝送される。
【0082】
第3の本実施形態では、ピッチ重み制御フィルタ60、61は周波数に対してピッチの重み付けの度合を滑らかに変化させる役割をしている。例えば、ピッチ重みフィルタの周波数特性が図7のWp(f)で表され、ピッチ重み制御フィルタの周波数特性が図8のH(f)で表されるような低域通過特性となるとき、変形ピッチ重み付けフィルタの周波数特性は図9のW(f)のように周波数が高くなるに従ってピッチ重み付けの度合が弱くなっている。このような重み付けを行った場合、符号化により生じる符号化雑音のスペクトルは図9のE(f)に示すように周波数が高くなるに従って調和構造が弱くなる。また、ピッチ重みフィルタの周波数特性が図7のWp(f)で表され、ピッチ制御フィルタの周波数特性が図10のH(f)で表されるような特性となるとき、変形ピッチ重み付けフィルタの周波数特性は図11のW(f)のように中域の周波数でピッチ重み付けの度合が弱くなっている。このような重み付けを行った場合、符号化により生じる符号化雑音のスペクトルは図11のE(f)に示すように中域の周波数で調和構造が弱くなる。
【0083】
このように、ピッチ重み制御フィルタを用いることで、変形ピッチ重み付けフィルタのピッチ重み付けの度合を周波数で滑らかに変化させることができる。また、入力音声の特性に応じてピッチ重み制御フィルタの特性を変化させることもできる。例えば、入力音声を分析して周波数に対する調和構造の強さを求め、周波数に対する調和構造の強さを基にピッチ重み制御フィルタの特性を決定する。ピッチ制御フィルタの特性を調和構造が弱い周波数を減衰させるような特性にすることで、符号化雑音の調和構造を入力音声の調和構造に近づけることが可能となり、復号音声の音質を更に向上させることができる。
【0084】
(第4の実施形態)
本発明の音声復号方法をCELP方式に適用した実施形態を説明する。図12には、第4の実施形態に係る音声復号方法を適用した音声復号システムの構成が示されている。この音声復号システムでは、デマルチプレクサ70の出力が、適応符号帳11、雑音符号帳12及びゲイン符号帳13並びに線形予測係数復号部71に接続される。
【0085】
適応符号帳11及び雑音符号帳12の出力はゲイン符号帳13の出力と共にゲイン乗算部14、15にそれぞれ接続される。ゲイン乗算部14,15の出力は加算部16に接続される。この加算部16の出力は適合符号帳11に帰還され、更に線形予測係数復号部71の出力と共に合成フィルタ18に接続される。線形予測係数復号部71の出力はポストフィルタ78に接続される。
【0086】
ポストフィルタ78は、ホルマント強調フィルタ72及び変形ピッチ強調フィルタ77から構成されており、変形ピッチ強調フィルタ47はピッチ強調制御フィルタ73、ピッチ強調フィルタ74、75及び加算部76から構成されている。
【0087】
この音声復号システムでは、先ず、伝送路または蓄積媒体から得られたビットストリーム170がデマルチプレクサ70に入力される。デマルチプレクサ70では、入力されたビットストリーム170から線形予測係数を表す線形予測係数インデックス171、適応符号ベクトルを表す適応符号ベクトルインデックス172、雑音符号ベクトルを表す雑音符号ベクトルインデックス173、及びゲインベクトルを表すインデックス174が分離生成される。これらのインデックスのうち、線形予測係数インデックス171は線形予測係数復号部71に、適応符号ベクトルインデックス172は適応符号帳11に、雑音符号ベクトルインデックス173は雑音符号帳12に、ゲインインデックス174はゲイン符号帳13にそれぞれ入力される。
【0088】
線形予測係数復号部71では、入力された線形予測係数インデックス171から線形予測係数が復号され、これが合成フィルタ18にフィルタ係数として与えられる。また、適応符号ベクトルインデックス172に従って適応符号帳11から適応符号ベクトル102が選択され出力される。また、雑音符号ベクトルインデックス173に従って雑音符号帳12から雑音符号ベクトル103が選択され出力される。
【0089】
さらに、ゲインインデックス174に従ってゲイン符号帳13から適応符号ベクトル及び雑音符号ベクトルに乗じるべきゲイン104が選択され出力される。このゲインが乗算部14、15で適応符号ベクトル102及び雑音符号ベクトル103に乗じられた後、これら2つのベクトルが加算部16で足し合わされることによって復号残差波形信号105が生成され、この信号が駆動音源信号として合成フィルタ18及び適応符号帳11に入力される。
【0090】
線形予測係数復号部71で復号された線形予測係数により決定された合成フィルタ18が駆動音源信号により駆動され、復号音声信号107が生成される。その後、復号音声107の主観品質を向上させるために復号音声107に対してポストフィルタ処理が行われる。従来のポストフィルタはホルマント強調フィルタとピッチ強調フィルタの従属接続で構成されているが、本実施形態におけるポストフィルタ48はホルマント強調フィルタ72と変形ピッチ強調フィルタ73の従属接続で構成されている。変形ピッチ強調フィルタ73は図12に示されるように、ピッチ強調の度合を周波数毎に制御できるように、ピッチ強調フィルタ73、ピッチ強調制御フィルタ74、75及び加算部76から構成されている。この場合、変形ピッチ強調フィルタ77の伝達関数H’p(z)は、ピッチ強調フィルタ73の伝達関数H’p(z)、ピッチ強調制御フィルタ74、75の伝達関数H(z)を用いて、
【0091】
【数9】
【0092】
と表される。なお、ホルマント強調フィルタ72は公知の技術を用いて構成できる。
【0093】
ここで、ピッチ強調フィルタ73の伝達関数は式5で表され、その特性が図13であり、また、ピッチ制御フィルタ74、75の特性が図8に示されるような低域通過の特性であるとき、変形ピッチ強調フィルタ47の周波数特性は、図14のH’p(z)に示されるような、高域ほど山谷の小さいものになる。このような変形ピッチ強調フィルタを用いれば、低域で強く高域で弱いピッチ強調を行うことができ、強いピッチ強調を行っても高域のスペクトルが変形しにくくなり、高域の品質の劣化を抑えたピッチ強調を行うことができる。
【0094】
図12に戻りポストフィルタ78の動作を説明する。合成フィルタ18から出力された復号音声107はホルマント強調フィルタ72に入力され、ホルマント強調フィルタ72でホルマント強調された復号音声175は加算部76、ピッチ強調制御フィルタ73及びピッチ強調フィルタ74に入力される。ピッチ強調フィルタ73に入力されたホルマント強調され本復号音声175は、ピッチ強調フィルタ73でピシチ強調された後、ピッチ強調制御フィルタ75で処理され加算部76に入力される。
【0095】
また、ピッチ強調制御フィルタ74に入力されたホルマント強調された復号音声175はピッチ強調制御フィルタ処理され、加算部76に入力される。加算部76では供給された3つの信号175、176、178が加算され、その結果が最終的な復号音声179となって出力される。
【0096】
上述したように、本実施形態におけるポストフィルタ78は、従来のポストフィルタにピッチ強調制御フィルタ74を追加することでピッチ強調の度合を周波数毎に制御できるようにしたものである。ピッチ強調制御フィルタ74はその特性を変化させることでピッチ強調の度合を自由に変化させることができ、復号音声の特性に従いピッチ強調制御フィルタの特性を変化させれば、復号音声の周波数にあった強さのピッチ強調を行うことができ、復号音声の品質を更に向上させることができる。
【0097】
なお、本発明の特徴的な部分はポストフィルタのピッチ強調に関する部分であって、音声復号方式はCELP方式に限定される必要はなく、他の復号方式を用いても構わない。
【0098】
また、ここで述べたピッチ強調方法を音声符号化の駆動音源信号を生成する部分に適用することも可能である。
【0099】
以上、本発明の実施形態を幾つか説明したが、本発明は上述した実施形態に限定される必要はなく、種々変形して実施が可能である。
【0100】
例えば、上述した第1の実施形態及び第2の実施形態では簡単のため高域と低域の2つの帯域に分割しているが、分割される帯域の数は2つに限定される必要はなく、2つ以上であれば構わない。また、帯域分割部は図1〜図5に示した構成に限定されない。帯域分割する方法として、信号を一旦FFTして、FFT上で周波数分割した後に逆FFTする方法や、QMFフィルタを用いて帯域分割する方法などを用でも構わない。
【0101】
さらに、本実施形態では入力音声と再生音声の差信号に対して聴覚重み付けフィルタ処理を行い聴覚重み付け歪みを求めているが、入力音声及び再生音声それぞれに聴覚重み付けを行った後に差信号を求め、聴覚重み付け歪みを求めるような構成に変形することも可能である。
【0102】
【発明の効果】
以上詳述したように、本発明によれば符号化雑音の調和構造を入力音声に類似させることができるようにになり、再生音声の品質を向上させることができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態における音声符号化方法を用いた音声符号化システムの構成を示す図。
【図2】本発明の第1の実施形態における符号化雑音の周波数特性を示す図。
【図3】本発明の第2の実施形態における音声符号化方法を用いた音声符号化システムの構成を示す図。
【図4】本発明の第2の実施形態における符号化雑音の周波数特性を示す図。
【図5】本発明の第2の実施形態における音声符号化方法を用いた他の音声符号化システムの構成を示す図。
【図6】本発明の第3の実施形態における音声符号化方法を用いた音声符号化システムの構成を示す図。
【図7】本発明の第3の実施形態におけるピッチ重みフィルタの周波数特性を示す図。
【図8】本発明の第3の実施形態におけるピッチ重み制御フィルタの周波数特性を示す図。
【図9】本発明の第3の実施形態における符号化雑音の周波数特性を示す図。
【図10】本発明の第3の実施形態におけるピッチ重み制御フィルタの周波数特性を示す図。
【図11】本発明の第3の実施形態における符号化雑音の周波数特性を示す図。
【図12】本発明の第4の実施形態における音声復号方法を用いた音声復号化システムの構成を示す図。
【図13】本発明の第4の実施形態におけるピッチ強調フィルタの周波数特性を示す図。
【図14】本発明の第4の実施形態における変形ピッチ強調フィルタの周波数特性を示す図。
【図15】従来の音声符号化の構成を示す図である。
【図16】従来の音声符号化における符号化雑音の周波数特性を示す第1の図。
【図17】従来の音声符号化における符号化雑音の他の周波数特性を示す図。
【図18】本発明の音声符号化における符号化雑音の周波数時性を示す図。
【符号の説明】
10…線形予測分析部
11…適応符号帳
12…雑音符号帳
13…ゲイン符号帳
14、15…ゲイン乗算部
16…加算器
17…線形予測係数符号化部
18…合成フィルタ
19…加算器
20…広域通過フィルタ
21…低域通過フィルタ
22、23…ピッチ重みフィルタ係数算出部
24…帯域分割部
25…ホルマント重みフィルタ
26…広域通過フィルタ
27…低域通過フィルタ
28…帯域分割部
29、30…ピッチ重みフィルタ
31…加算器
32…歪み計算部
33…聴覚重み付けフィルタ
34…マルチプレクサ
40、41…有声/無声判定部
44,45…切り替え部
71…線形予測係数復号部
72…ホルマント強調フィルタ
73…ピッチ強調フィルタ
74…ピッチ強調制御フィルタ
75…ピッチ強調制御フィルタ
76…加算器
77…変形ピッチ強調フィルタ
78…ポストフィルタ[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a compression encoding method and apparatus, and a decoding method and apparatus for speech signals such as telephone band speech, broadband speech, and audio signals.
[0002]
[Prior art]
A CELP (Code Excited Linear Prediction) method is known as a speech coding method capable of reproducing relatively high-quality sound even at a low bit rate. Details of the CELP method are described in, for example, R. Schroeder and Ata1. "Code-Exited Linear Prediction (CELP): high quq1ity speech avery bit rates", Proc. ICASSP '85. pp. 937-939, 1985 (Reference 1). The configuration of the CELP system is shown in FIG. As shown in FIG. 15, in the CELP method, noise (encoding noise) mixed in the speech by encoding is evaluated using an auditory weight filter, and the masking of a shape in which the encoding noise is determined from the speech spectrum of the current frame. It is characterized by selecting a code of a sound source that makes it difficult to hear noise using a principle masked by characteristics (simultaneous masking). In general, an auditory weight filter used for CELP is composed of a cascade connection of a formant weight filter and a pitch weight filter. The formant weight filter uses a masking characteristic due to the formant of the input voice, and the pitch weight filter uses a masking characteristic due to the harmonic structure (harmonics) of the input voice. The transfer function w (z) of the auditory weight filter uses the transfer function Ws (z) of the formant weight filter and the transfer function Wp (z) of the pitch weight filter.
[0003]
[Expression 1]
[0004]
It is expressed. The pitch weight filter functions to shape the spectrum of the coding noise into a harmonic structure having the same pitch as the input speech by applying a small weight to the pitch harmonic frequency components and a large weight to the components between the harmonic frequencies. Here, the transfer function Wp (z) of the pitch weight filter uses the pitch period T0 and the pitch prediction coefficient βi obtained by pitch prediction.
[0005]
[Expression 2]
[0006]
It is expressed. Here, M is a constant that controls the pitch prediction order, and γ is a constant that controls the degree of noise shaping.
[0007]
FIG. 16 shows the frequency characteristics of the pitch weight filter thus obtained. In FIG. 16, the frequency characteristic of the pitch weight filter is represented by W (f), and the frequency characteristic of speech is represented by S (f). As can be seen from this figure, the pitch weight filter has a valley characteristic at the pitch harmonic frequency and has a peak characteristic between the harmonic frequencies. Therefore, by weighting the coding noise with the pitch weight filter, it is possible to evaluate by assigning a small weight to the pitch harmonic frequency of the speech and vice versa.
[0008]
Thus, by selecting the code of the sound source using relative weighting for each frequency in the frame, the spectrum of the coding noise generated by the coding is the same as that of the voice as shown in E (f) of FIG. A harmonic structure with a pitch period can be obtained. In this case, the coding noise is masked by the unevenness of the spectrum of the speech and becomes difficult to hear. As described above, the pitch weight filter has been used in CELP because it can be obtained by relatively simple analysis and can perform speech coding while suppressing subjective coding noise.
[0009]
In the CELP system, a post filter is often used after decoding the speech in order to improve the subjective quality of the decoded speech. In general, a post filter used for CELP is composed of a cascade connection of a formant emphasis filter and a pitch emphasis filter. The post-filter transfer function Hpf (z) is obtained by using the transfer function Hs (z) of the formant enhancement filter and the transfer function Hp (z) of the pitch enhancement filter.
[0010]
[Equation 3]
[0011]
It is expressed. Here, the transfer function Hp (z) of the pitch enhancement filter uses the pitch period T0 and the pitch prediction coefficient λ,
[0012]
[Expression 4]
[0013]
It is expressed. Here, λ is a constant that controls the degree of pitch emphasis.
[0014]
[Problems to be solved by the invention]
However, the strength of the harmonic structure of actual speech differs depending on the band, and there may be a band with a weak harmonic structure as shown in S (f) of FIG. In the pitch weighting using the conventional pitch weighting filter, the encoding shown in E (f) is used in order to use the pitch weighting filter whose shaping strength is the same in all bands as in W (f) of FIG. There is a problem that the harmony structure of noise and the harmony structure of input speech are different, and the sound quality of decoded speech deteriorates.
[0015]
The same applies to pitch emphasis in post-filter processing. In the conventional pitch emphasis using the transfer function filter shown in Equation 5, the pitch emphasis is the same in all bands, so that the pitch emphasis is unnecessary. On the other hand, there is a problem that pitch emphasis is performed and the sound quality of decoded speech deteriorates.
[0016]
The present invention eliminates such problems and, as shown in FIG. 18, a speech encoding and decoding method for improving the quality of decoded speech by bringing the harmony structure of encoding noise closer to the harmonic structure of input speech, and An object is to provide a speech encoding and decoding apparatus.
[0017]
[Means for Solving the Problems]
According to a first aspect of the present invention, an error signal representing a difference between an input audio information signal and a synthesized audio information signal corresponding to the input audio information signal is generated, and a weighting signal is generated by changing a degree of pitch weighting for the error signal according to a frequency. And a speech encoding method characterized by generating index information based on the weighted signal.
[0018]
By changing the degree of pitch weighting according to the frequency in this way, it is possible to perform pitch weighting suitable for each frequency, and to control the harmonic structure of the coding noise at each frequency, thereby improving the sound quality of the decoded speech Can do.
[0019]
According to a second aspect of the present invention, there is provided a speech encoding method according to the first aspect, wherein the degree of pitch weighting of each frequency is changed according to the characteristics of the input speech.
[0020]
In this way, by changing the pitch weighting degree of each frequency according to the characteristics of the input signal, it becomes possible to change the harmonic structure of the coding noise in accordance with the harmonic structure of the input voice, and to improve the sound quality of the decoded voice. Can be improved.
[0021]
Further, the third invention is the speech coding method according to the second invention, wherein the input speech is analyzed to obtain the voicing degree of each frequency, and the pitch weighting degree of each frequency is changed according to the voicing degree. A featured speech encoding method is provided.
[0022]
In this way, by changing the pitch weighting degree of each frequency according to the voicing degree of each frequency of the input signal, it becomes possible to change the harmonic structure of the coding noise corresponding to the harmonic structure of the input speech. The sound quality of voice can be improved.
[0023]
According to a fourth aspect of the present invention, in the speech coding method according to the third aspect of the present invention, the degree of pitch weighting is increased at a high voiced frequency, and the degree of pitch weighting is decreased at a low voiced frequency. A speech encoding method characterized by the above is provided.
[0024]
By performing such weighting, the harmony structure of the coding noise can be brought close to the harmony structure of the input speech, and the sound quality of the decoded speech can be improved.
[0025]
According to a fifth aspect of the present invention, an error signal representing a difference between an input voice information signal and a synthesized voice information signal corresponding to the input voice information signal is generated, and the input voice information signal is divided into at least two frequency bands. A speech encoding method is provided, wherein a weighting signal is generated by changing a degree of pitch weighting for the error signal for each frequency band, and index information is generated based on the weighting signal.
[0026]
In this way, by changing the degree of pitch weighting for each band, it is possible to perform pitch weighting suitable for each band, control the harmonic structure of encoding noise for each band, and improve the sound quality of decoded speech be able to.
[0027]
The sixth invention is characterized in that, in the method according to the fifth invention, the input voice is analyzed to obtain the voicing degree of each band, and the pitch weighting degree of each band is changed according to the voicing degree. A speech encoding method is provided.
[0028]
In this way, by changing the pitch weighting degree of each band according to the voicing degree of each band of the input signal, the harmonic structure of the coding noise can be changed corresponding to the harmonic structure of the input voice, and the decoded voice Can improve the sound quality.
[0029]
According to a seventh aspect, in the speech coding method according to the sixth aspect, the degree of pitch weighting is increased in a band with high voicedness, and the degree of pitch weighting is reduced in a band with low voicedness. A speech encoding method is provided.
[0030]
By performing such weighting, the harmony structure of the coding noise can be brought close to the harmony structure of the input speech, and the sound quality of the decoded speech can be improved.
[0031]
The eighth invention is the speech coding method according to the fifth invention, wherein the input speech is analyzed to perform voiced / unvoiced determination of each band, and pitch weighting is performed on the band determined to be voiced. A speech encoding method is provided in which pitch weighting is not performed on a band determined to be unvoiced.
[0032]
Thus, by changing the degree of pitch weighting according to the band, the harmonic structure of the coding noise can be brought close to the harmonic structure of the input speech, and the quality of the decoded speech can be improved.
[0033]
Here, the degree of pitch weighting refers to the strength of noise pitch shaping, and the strength of noise pitch shaping can be controlled by the filter coefficient of a pitch weight filter, for example.
[0034]
The ninth invention extracts index information from the encoded speech information, generates a decoded speech signal based on the index information, changes the degree of pitch enhancement according to the frequency, and pitch-enhances the decoded speech signal. Provided is a speech decoding method characterized by performing processing.
[0035]
Thus, by changing the degree of pitch emphasis of the post filter depending on the frequency, pitch emphasis suitable for each frequency can be performed, and the quality of the decoded speech can be improved.
[0036]
The tenth invention provides a speech decoding method according to the ninth invention, wherein the degree of pitch emphasis of each frequency is changed according to the characteristics of the decoded speech.
[0037]
Thus, by changing the degree of pitch emphasis of each frequency according to the characteristics of the decoded speech, it is possible to perform pitch enhancement suitable for the decoded speech.
[0038]
The eleventh invention provides the speech decoding method according to the tenth invention, wherein the degree of pitch emphasis of each frequency is changed according to the voicing degree of each frequency of the decoded speech.
[0039]
The twelfth invention is characterized in that in the speech decoding method according to the eleventh invention, the degree of pitch emphasis is increased at a high voiced frequency, and the degree of pitch emphasis is reduced at a low voiced frequency. A speech decoding method is provided.
[0040]
The thirteenth invention extracts index information from the encoded speech information, generates a decoded speech signal based on the index information, divides the decoded speech signal into at least two frequency bands, and generates a pitch for each frequency band. Provided is a speech decoding method characterized in that pitch enhancement processing is performed on the decoded speech signal while changing the degree of enhancement.
[0041]
The fourteenth invention provides the speech decoding method according to the thirteenth invention, wherein the degree of pitch emphasis of each band is changed according to the voicing degree of each band of the decoded speech.
[0042]
The fifteenth invention is characterized in that, in the speech decoding method according to the fourteenth invention, the degree of pitch enhancement is increased in a band with high voicedness, and the degree of pitch enhancement is reduced in a band with low voicedness. A speech decoding method is provided.
[0043]
The sixteenth invention is the speech decoding method according to the thirteenth invention, wherein voiced / unvoiced determination is performed for each band of decoded speech, pitch emphasis is performed on the band determined to be voiced, and determination is made as unvoiced. There is provided a speech decoding method characterized in that pitch emphasis is not performed for a given band.
[0044]
According to the sixteenth aspect, pitch emphasis can be performed only on a necessary band, so that the quality of decoded speech can be improved.
[0045]
Here, the degree of pitch enhancement refers to the strength of pitch shaping of decoded speech, and the strength of pitch shaping can be controlled by, for example, the filter coefficient of the pitch enhancement filter.
[0046]
According to a seventeenth aspect of the present invention, there is provided synthesis filter means for generating an error signal representing a difference between an input voice information signal and a synthesized voice information signal corresponding to the input voice information signal, and a degree of pitch weighting for the error signal according to frequency. There is provided a speech coding apparatus characterized by comprising weighting filter means for generating weighting signals by changing the above and index information generating means for generating index information based on the weighting signals.
[0047]
According to an eighteenth aspect of the present invention, there is provided synthesis filter means for generating an error signal representing a difference between an input voice information signal and a synthesized voice information signal corresponding to the input voice information signal; Band dividing means for dividing into bands, weighting filter means for generating a weighted signal by changing the degree of pitch weighting for the error signal for each frequency band, and index information generating means for generating index information based on the weighted signal A speech encoding device characterized by comprising:
[0048]
According to a nineteenth aspect of the present invention, separation means for extracting index information from encoded speech information, synthesis filter means for generating a decoded speech signal based on the index information, and the degree of pitch enhancement according to frequency are changed. There is provided a speech decoding apparatus comprising post-filter means for performing pitch emphasis processing on the decoded speech signal.
[0049]
According to a twentieth aspect of the present invention, index information is extracted from the encoded speech information, a synthesis filter means for generating a decoded speech signal based on the index information, and the decoded speech signal is divided into at least two frequency bands. There is provided a speech decoding apparatus comprising post-filter means for performing pitch enhancement processing on the decoded speech signal by changing the degree of pitch enhancement for each band.
[0050]
DETAILED DESCRIPTION OF THE INVENTION
(First embodiment)
A first embodiment in which the speech coding method of the present invention is applied to the CELP system will be described. CELP coding can be broadly divided into coding of speech spectral envelope information and coding of sound source signals. The auditory weight filter is used for encoding a sound source signal. In the CELP method, speech analysis / encoding is performed in units of frames. Depending on the method, there is a method of dividing the frame into smaller subframes and encoding the sound source signal for each subframe, but here, for the sake of simplicity, the sound source signal is also encoded in units of frames. To do.
[0051]
FIG. 1 shows the configuration of a speech encoding system to which the speech encoding method according to this embodiment is applied. According to this speech coding system, the
[0052]
The output of the linear
[0053]
The outputs of
[0054]
That is, in this embodiment, high-
[0055]
In this speech coding system, first, the
[0056]
After encoding the
[0057]
A
[0058]
[Equation 5]
[0059]
It is expressed. As the values of the constants γ1 and γ2, for example, r1 = 0.9 and r2 = 0.4 can be used. Note that γ1 and γ2 need not be limited to these values, and different values may be used.
[0060]
Next, the formant-weighted
[0061]
In the pitch weight filter, different pitch weights are applied to the respective band components. The pitch weight filter is characterized by the pitch weight filter coefficient obtained by the pitch weight filter coefficient calculation unit. For example, the transfer function WHp of the high-frequency pitch weight filter and the transfer function WLp of the low-frequency pitch weight filter are represented by the pitch period and the pitch prediction coefficient β. Hi , Β Li Using,
[0062]
[Formula 6]
[0063]
It is expressed. Here, M is a constant that controls the pitch prediction order, and γ is a constant that controls the degree of noise shaping. Constant γ H , Γ L For example, γ H = Γ L = 0.4 can be used. Γ H , Γ L May be set to different values, γ H , Γ L Pitch strength S of each band H , S L And can be controlled for each band using the pitch intensity. For example,
[0064]
[Expression 7]
[0065]
Can be defined as However, ζ H , Ζ L Is a constant. Also, pitch strength S H , S L Is the prediction coefficient β Hi , Β Li Using
[0066]
[Equation 8]
[0067]
Can be defined as However, pitch strength S H , S L Is not limited to the above equation, and may be a parameter indicating the strength of the pitch period of the signal.
[0068]
Next, the pitch-weighted
[0069]
As described above, since the degree of pitch weighting can be controlled for each band in this embodiment, even when the input sound has the frequency characteristics shown in S (f) of FIG. 2, the degree of pitch weighting is increased in the low frequency range. By reducing the degree of pitch weighting in the high range, the frequency characteristics of the coding noise can be made as shown in E (f) of FIG. In this way, the harmonic structure of the coding noise can be brought close to the harmonic structure of the input speech, and the sound quality of the decoded speech can be improved.
[0070]
(Second Embodiment)
A second embodiment in which the speech coding method of the present invention is applied to the CELP system will be described. FIG. 3 shows the configuration of a speech coding system to which the speech coding method according to this embodiment is applied. The speech coding system of the present embodiment shown in FIG. 3 has a configuration in which voiced /
[0071]
In the present embodiment, the input speech divided into the high frequency band and the low frequency band is input to the voiced /
[0072]
When the voiced / unvoiced determination results 140 and 141 are voiced, the pitch weight filter
[0073]
On the other hand, the switching
[0074]
The pitch-weighted high frequency component and low frequency component are added by the
[0075]
The
[0076]
As described above, in this embodiment, the presence / absence of pitch weighting can be controlled for each band. Therefore, even when the input voice has the frequency characteristics shown in S (f) of FIG. By not performing pitch weighting in the high frequency range, the frequency characteristics of the coding noise can be made as shown in E (f) of FIG. In this way, the harmonic structure of the coding noise can be brought close to the harmonic structure of the input speech, and the sound quality of the decoded speech can be improved.
[0077]
Note that the second embodiment of the present invention is characterized by a portion that performs control with / without pitch weighting for each band, and has a configuration that allows control with / without pitch weighting for each band. There is no limitation to the configuration shown in FIG. For example, as shown in FIG. 5, with the configuration in which the switching
[0078]
Here, in the case of voicelessness, by outputting a pitch weight filter coefficient that does not perform pitch weighting, an operation similar to switching of pitch weighting on / off can be performed.
[0079]
(Third embodiment)
A third embodiment in which the speech coding method of the present invention is applied to the CELP system will be described. FIG. 6 shows the configuration of a speech encoding system to which the speech encoding method according to this embodiment is applied. Unlike the conventional CELP system shown in FIG. 15, this speech coding system has a configuration in which pitch weight control filters 60 and 61, an
[0080]
The formant
[0081]
On the other hand, the subtractor 63 obtains a difference signal 154 between the formant-weighted
[0082]
In the third embodiment, the pitch weight control filters 60 and 61 play a role of smoothly changing the degree of pitch weighting with respect to the frequency. For example, when the frequency characteristic of the pitch weight filter is represented by Wp (f) in FIG. 7 and the frequency characteristic of the pitch weight control filter is a low-pass characteristic as represented by H (f) in FIG. In the frequency characteristics of the pitch weighting filter, the degree of pitch weighting decreases as the frequency increases as shown by W (f) in FIG. When such weighting is performed, the harmonic structure of the encoding noise spectrum generated by encoding becomes weaker as the frequency increases as shown in E (f) of FIG. When the frequency characteristic of the pitch weight filter is represented by Wp (f) in FIG. 7 and the frequency characteristic of the pitch control filter is a characteristic represented by H (f) in FIG. In the frequency characteristics, the degree of pitch weighting is weak at a middle frequency as shown by W (f) in FIG. When such weighting is performed, the harmonic structure of the encoding noise spectrum generated by encoding becomes weak at the mid-range frequency as shown in E (f) of FIG.
[0083]
Thus, by using the pitch weight control filter, the degree of pitch weighting of the modified pitch weighting filter can be changed smoothly with frequency. Also, the characteristics of the pitch weight control filter can be changed according to the characteristics of the input voice. For example, the input speech is analyzed to determine the strength of the harmonic structure with respect to the frequency, and the characteristics of the pitch weight control filter are determined based on the strength of the harmonic structure with respect to the frequency. By making the characteristics of the pitch control filter attenuate frequencies where the harmonic structure is weak, the harmonic structure of the coding noise can be brought closer to the harmonic structure of the input speech, and the sound quality of the decoded speech can be further improved. Can do.
[0084]
(Fourth embodiment)
An embodiment in which the speech decoding method of the present invention is applied to the CELP system will be described. FIG. 12 shows the configuration of a speech decoding system to which the speech decoding method according to the fourth embodiment is applied. In this speech decoding system, the output of the demultiplexer 70 is connected to the
[0085]
The outputs of
[0086]
The post filter 78 includes a
[0087]
In this speech decoding system, first, the
[0088]
The linear prediction
[0089]
Further, the
[0090]
The
[0091]
[Equation 9]
[0092]
It is expressed. The
[0093]
Here, the transfer function of the
[0094]
Returning to FIG. 12, the operation of the post filter 78 will be described. The decoded
[0095]
The formant-enhanced
[0096]
As described above, the post filter 78 according to this embodiment is configured such that the pitch
[0097]
The characteristic part of the present invention is a part related to pitch enhancement of the post filter, and the speech decoding method is not necessarily limited to the CELP method, and other decoding methods may be used.
[0098]
It is also possible to apply the pitch emphasis method described here to a portion that generates a driving excitation signal for speech encoding.
[0099]
Although several embodiments of the present invention have been described above, the present invention is not limited to the above-described embodiments, and various modifications can be made.
[0100]
For example, although the first embodiment and the second embodiment described above are divided into two bands, a high band and a low band, for simplicity, the number of bands to be divided needs to be limited to two. There are two or more. Further, the band dividing unit is not limited to the configuration shown in FIGS. As a method of performing band division, a method in which a signal is once FFTed and frequency-divided on the FFT and then inverse FFT, a method of band-dividing using a QMF filter, or the like may be used.
[0101]
Furthermore, in the present embodiment, the perceptual weighting filter processing is performed on the difference signal between the input sound and the reproduced sound to obtain the perceptual weighting distortion, but the difference signal is obtained after performing the perceptual weighting on the input sound and the reproduced sound, It is also possible to modify the configuration so as to obtain the auditory weighting distortion.
[0102]
【The invention's effect】
As described above in detail, according to the present invention, the harmonic structure of the coding noise can be made similar to the input voice, and the quality of the reproduced voice can be improved.
[Brief description of the drawings]
FIG. 1 is a diagram showing a configuration of a speech coding system using a speech coding method according to a first embodiment of the present invention.
FIG. 2 is a diagram showing frequency characteristics of coding noise in the first embodiment of the present invention.
FIG. 3 is a diagram showing a configuration of a speech encoding system using a speech encoding method according to a second embodiment of the present invention.
FIG. 4 is a diagram showing frequency characteristics of coding noise in the second embodiment of the present invention.
FIG. 5 is a diagram showing the configuration of another speech coding system using the speech coding method according to the second embodiment of the present invention.
FIG. 6 is a diagram showing a configuration of a speech encoding system using a speech encoding method according to a third embodiment of the present invention.
FIG. 7 is a diagram illustrating frequency characteristics of a pitch weight filter according to a third embodiment of the present invention.
FIG. 8 is a diagram showing frequency characteristics of a pitch weight control filter according to a third embodiment of the present invention.
FIG. 9 is a diagram showing frequency characteristics of coding noise in the third embodiment of the present invention.
FIG. 10 is a diagram illustrating frequency characteristics of a pitch weight control filter according to a third embodiment of the present invention.
FIG. 11 is a diagram showing the frequency characteristics of coding noise in the third embodiment of the present invention.
FIG. 12 is a diagram showing a configuration of a speech decoding system using a speech decoding method according to a fourth embodiment of the present invention.
FIG. 13 is a diagram showing frequency characteristics of a pitch enhancement filter according to a fourth embodiment of the present invention.
FIG. 14 is a diagram showing frequency characteristics of a modified pitch enhancement filter according to a fourth embodiment of the present invention.
FIG. 15 is a diagram illustrating a configuration of conventional speech encoding.
FIG. 16 is a first diagram showing frequency characteristics of coding noise in conventional speech coding.
FIG. 17 is a diagram showing another frequency characteristic of coding noise in conventional speech coding.
FIG. 18 is a diagram showing frequency temporality of coding noise in speech coding according to the present invention.
[Explanation of symbols]
10 ... Linear prediction analysis section
11 ... Adaptive codebook
12 ... Noise codebook
13 ... Gain codebook
14, 15 ... Gain multiplier
16 ... Adder
17: Linear prediction coefficient encoding unit
18 ... Synthesis filter
19 ... Adder
20 ... Wide-pass filter
21 ... Low-pass filter
22, 23 ... Pitch weight filter coefficient calculation unit
24. Band division unit
25 ... Formant weight filter
26 ... Wide-pass filter
27 ... Low-pass filter
28: Band division unit
29, 30 ... pitch weight filter
31 ... Adder
32 ... Strain calculator
33 ... Auditory weighting filter
34 ... Multiplexer
40, 41 ... voiced / unvoiced determination section
44, 45 ... switching unit
71: Linear prediction coefficient decoding unit
72 ... Formant emphasis filter
73 ... Pitch emphasis filter
74: Pitch emphasis control filter
75 ... Pitch emphasis control filter
76 ... Adder
77 ... Deformation pitch enhancement filter
78 ... Post filter
Claims (18)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000054994A JP3612260B2 (en) | 2000-02-29 | 2000-02-29 | Speech encoding method and apparatus, and speech decoding method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000054994A JP3612260B2 (en) | 2000-02-29 | 2000-02-29 | Speech encoding method and apparatus, and speech decoding method and apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001242899A JP2001242899A (en) | 2001-09-07 |
JP3612260B2 true JP3612260B2 (en) | 2005-01-19 |
Family
ID=18576182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000054994A Expired - Lifetime JP3612260B2 (en) | 2000-02-29 | 2000-02-29 | Speech encoding method and apparatus, and speech decoding method and apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3612260B2 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2388352A1 (en) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for frequency-selective pitch enhancement of synthesized speed |
JP4786183B2 (en) | 2003-05-01 | 2011-10-05 | 富士通株式会社 | Speech decoding apparatus, speech decoding method, program, and recording medium |
US6983241B2 (en) * | 2003-10-30 | 2006-01-03 | Motorola, Inc. | Method and apparatus for performing harmonic noise weighting in digital speech coders |
KR100571824B1 (en) | 2003-11-26 | 2006-04-17 | 삼성전자주식회사 | Method for encoding/decoding of embedding the ancillary data in MPEG-4 BSAC audio bitstream and apparatus using thereof |
BRPI0612579A2 (en) * | 2005-06-17 | 2012-01-03 | Matsushita Electric Ind Co Ltd | After-filter, decoder and after-filtration method |
ES2770704T3 (en) * | 2014-07-28 | 2020-07-02 | Nippon Telegraph & Telephone | Coding an acoustic signal |
CN110390953B (en) * | 2019-07-25 | 2023-11-17 | 腾讯科技(深圳)有限公司 | Method, device, terminal and storage medium for detecting howling voice signal |
-
2000
- 2000-02-29 JP JP2000054994A patent/JP3612260B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2001242899A (en) | 2001-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3678519B2 (en) | Audio frequency signal linear prediction analysis method and audio frequency signal coding and decoding method including application thereof | |
JP3653826B2 (en) | Speech decoding method and apparatus | |
JP4843124B2 (en) | Codec and method for encoding and decoding audio signals | |
JP4740260B2 (en) | Method and apparatus for artificially expanding the bandwidth of an audio signal | |
EP2491555B1 (en) | Multi-mode audio codec | |
JP5602769B2 (en) | Encoding device, decoding device, encoding method, and decoding method | |
WO2013168414A1 (en) | Hybrid audio signal encoder, hybrid audio signal decoder, method for encoding audio signal, and method for decoding audio signal | |
JP4040126B2 (en) | Speech decoding method and apparatus | |
HUE031761T2 (en) | Systems and methods of performing noise modulation and gain adjustment | |
JPH07160296A (en) | Voice decoding device | |
JP3612260B2 (en) | Speech encoding method and apparatus, and speech decoding method and apparatus | |
JP6400801B2 (en) | Vector quantization apparatus and vector quantization method | |
JP4438280B2 (en) | Transcoder and code conversion method | |
JP3785363B2 (en) | Audio signal encoding apparatus, audio signal decoding apparatus, and audio signal encoding method | |
JP3510168B2 (en) | Audio encoding method and audio decoding method | |
JP4820954B2 (en) | Harmonic noise weighting in digital speech encoders | |
JP2000235400A (en) | Acoustic signal coding device, decoding device, method for these and program recording medium | |
JP2004151423A (en) | Band extending device and method | |
JP3598111B2 (en) | Broadband audio restoration device | |
JP3468862B2 (en) | Audio coding device | |
JPH09138697A (en) | Formant emphasis method | |
JP3560964B2 (en) | Broadband audio restoration apparatus, wideband audio restoration method, audio transmission system, and audio transmission method | |
JP3598112B2 (en) | Broadband audio restoration method and wideband audio restoration apparatus | |
JPH08221098A (en) | Speech coding and decoding device | |
JP3773509B2 (en) | Broadband speech restoration apparatus and broadband speech restoration method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040625 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040706 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040906 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20041019 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041022 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 3612260 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081029 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081029 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091029 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101029 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111029 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111029 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121029 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131029 Year of fee payment: 9 |
|
EXPY | Cancellation because of completion of term |