JPH10107641A - 聴覚特性を利用した音声符号化方法、ゲイン制御方法およびゲイン符号化/復号化方法 - Google Patents
聴覚特性を利用した音声符号化方法、ゲイン制御方法およびゲイン符号化/復号化方法Info
- Publication number
- JPH10107641A JPH10107641A JP8254499A JP25449996A JPH10107641A JP H10107641 A JPH10107641 A JP H10107641A JP 8254499 A JP8254499 A JP 8254499A JP 25449996 A JP25449996 A JP 25449996A JP H10107641 A JPH10107641 A JP H10107641A
- Authority
- JP
- Japan
- Prior art keywords
- gain
- vector
- encoding
- frame
- synthesis filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
(57)【要約】
【課題】簡易な方法で順向・同時・逆行のマスキング効
果を用いて符号化雑音の低減ができる音声符号化方法を
提供する。 【解決手段】聴覚重みフィルタを用いて所定のフレーム
単位で音源信号を符号化する処理を含む音声符号化方法
において、フレーム毎の音声信号のゲイン値と聴覚重み
フィルタの特性を求め、ゲイン値に時間的な減衰処理を
適用し、聴覚重みフィルタの特性に時間的なバンド幅拡
張処理を適用し、過去のフレームのゲイン値および聴覚
重みフィルタの特性と、現フレームのゲイン値および聴
覚重みフィルタの特性を用いて累積聴覚重みフィルタの
特性を求め、この累積聴覚重みフィルタを用いて現フレ
ームの音源信号の符号化を行う。
果を用いて符号化雑音の低減ができる音声符号化方法を
提供する。 【解決手段】聴覚重みフィルタを用いて所定のフレーム
単位で音源信号を符号化する処理を含む音声符号化方法
において、フレーム毎の音声信号のゲイン値と聴覚重み
フィルタの特性を求め、ゲイン値に時間的な減衰処理を
適用し、聴覚重みフィルタの特性に時間的なバンド幅拡
張処理を適用し、過去のフレームのゲイン値および聴覚
重みフィルタの特性と、現フレームのゲイン値および聴
覚重みフィルタの特性を用いて累積聴覚重みフィルタの
特性を求め、この累積聴覚重みフィルタを用いて現フレ
ームの音源信号の符号化を行う。
Description
【0001】
【発明の属する技術分野】本発明は、電話帯域の音声、
高帯域音声およびオーディオ信号等の音声信号の圧縮符
号化/復号化技術に関する。
高帯域音声およびオーディオ信号等の音声信号の圧縮符
号化/復号化技術に関する。
【0002】
(1)低ビットレートでも比較的高品質の音声を再生で
きる音声符号化方式として、CELP(Code Excited L
inear Prediction)方式が知られている。CELP方式
の詳細は、例えば M.R.Schroeder and Atal,“Code-Exc
ited Linear Prediction(CELP):high quality speech a
t very low bit rates”,in Proc.ICASSP′85,pp.937-
939,1985(文献1)に示されている。
きる音声符号化方式として、CELP(Code Excited L
inear Prediction)方式が知られている。CELP方式
の詳細は、例えば M.R.Schroeder and Atal,“Code-Exc
ited Linear Prediction(CELP):high quality speech a
t very low bit rates”,in Proc.ICASSP′85,pp.937-
939,1985(文献1)に示されている。
【0003】CELP方式では、聴覚重みフィルタを用
いて符号化により音声に混入する雑音の評価を行い、符
号化雑音が現フレームの音声のスペクトルから決まる形
状のマスキング特性にマスクされる原理(同時マスキン
グ)を用いて雑音が聞こえにくくなるような音源の符号
を選択することを特徴としている。
いて符号化により音声に混入する雑音の評価を行い、符
号化雑音が現フレームの音声のスペクトルから決まる形
状のマスキング特性にマスクされる原理(同時マスキン
グ)を用いて雑音が聞こえにくくなるような音源の符号
を選択することを特徴としている。
【0004】CELPに用いる聴覚重みフィルタの伝達
関数W(z)は、現フレームの入力音声から、LP(線
形予測)分析(またはLPC分析とも呼ばれる)により
求められたLPC係数から構成される予測フィルタ(通
常、10次程度のフィルタ)の伝達関数A(z)を用い
て、z変換領域の表現で W(z)=A(z/γ1 )/A(z/γ2 ) (1) 0<γ2 <γ1 <1 A(z)=1+Σαi z-i (i=1〜10) (2) αi はLPC係数 と表される。
関数W(z)は、現フレームの入力音声から、LP(線
形予測)分析(またはLPC分析とも呼ばれる)により
求められたLPC係数から構成される予測フィルタ(通
常、10次程度のフィルタ)の伝達関数A(z)を用い
て、z変換領域の表現で W(z)=A(z/γ1 )/A(z/γ2 ) (1) 0<γ2 <γ1 <1 A(z)=1+Σαi z-i (i=1〜10) (2) αi はLPC係数 と表される。
【0005】このようにして求めた聴覚重みフィルタと
音声のスペクトルの概形であるスペクトル包絡の周波数
特性の関係を図22に示す。図22において、音声のス
ペクトル包絡はS(f)、聴覚重みフィルタの特性はW
(f)で表される。この図から分かるように、聴覚重み
フィルタは入力音声のスペクトル包絡の山の部分は谷の
特性を持ち、谷の部分は山の特性を持つ。従って、符号
化雑音を聴覚重みフィルタで重み付けることにより、音
声スペクトルの谷の部分の周波数では大きな重みを付け
られ、逆に山の部分の周波数では小さな重みを付けて評
価することができる。
音声のスペクトルの概形であるスペクトル包絡の周波数
特性の関係を図22に示す。図22において、音声のス
ペクトル包絡はS(f)、聴覚重みフィルタの特性はW
(f)で表される。この図から分かるように、聴覚重み
フィルタは入力音声のスペクトル包絡の山の部分は谷の
特性を持ち、谷の部分は山の特性を持つ。従って、符号
化雑音を聴覚重みフィルタで重み付けることにより、音
声スペクトルの谷の部分の周波数では大きな重みを付け
られ、逆に山の部分の周波数では小さな重みを付けて評
価することができる。
【0006】このようにフレーム内で周波数毎の相対的
な重み付けを用いて、音源の符号選択を行うことによ
り、符号化により生じる符号化雑音のスペクトルを図2
2のE(f)に示すように音声のスペクトル包絡を鈍ら
せたような形状にすることができる。こうすると、符号
化雑音は音声のスペクトルの凹凸にマスクされて聞こえ
にくいものとなる。
な重み付けを用いて、音源の符号選択を行うことによ
り、符号化により生じる符号化雑音のスペクトルを図2
2のE(f)に示すように音声のスペクトル包絡を鈍ら
せたような形状にすることができる。こうすると、符号
化雑音は音声のスペクトルの凹凸にマスクされて聞こえ
にくいものとなる。
【0007】このようにマスクされて聞こえないスペク
トルの形状と、マスクできる音のレベルを表す特性をマ
スキング特性と呼ぶことにする。CELPで用いる聴覚
重みフィルタは、マスキング特性のスペクトル形状の逆
特性を模擬するフィルタであるといえる。
トルの形状と、マスクできる音のレベルを表す特性をマ
スキング特性と呼ぶことにする。CELPで用いる聴覚
重みフィルタは、マスキング特性のスペクトル形状の逆
特性を模擬するフィルタであるといえる。
【0008】このように聴覚重みフィルタは比較的簡単
な分析により得られ、かつ、主観的な符号化雑音を抑え
た音声符号化を行うことができるため、CELPで用い
られてきた。しかし、さらに符号化のビットレートを低
くして(例えば6kbit/s以下)符号化の圧縮率を
上げると、符号化雑音自体のレベルが上がるため、雑音
が聞こえるようになり、音質に関して実用上問題が出て
くる。
な分析により得られ、かつ、主観的な符号化雑音を抑え
た音声符号化を行うことができるため、CELPで用い
られてきた。しかし、さらに符号化のビットレートを低
くして(例えば6kbit/s以下)符号化の圧縮率を
上げると、符号化雑音自体のレベルが上がるため、雑音
が聞こえるようになり、音質に関して実用上問題が出て
くる。
【0009】別の従来法として、近年、CELP方式で
用いていたようなLPC分析から得られる聴覚重みフィ
ルタを使用しない方法がある。これは、順向・同時・逆
行の3種の時間方向のマスキングの最大のしきい値レベ
ルを周波数軸上で求め、これをマスキング特性として符
号化に利用する試みである。同時マスキングが現在の主
音が現在の音をマスクして聞こえにくくする現象である
のに対し、順向マスキングは過去の主音が現在の音を、
逆行マスキングは未来の主音が現在の音をそれぞれマス
クして聞こえにくくする現象である。
用いていたようなLPC分析から得られる聴覚重みフィ
ルタを使用しない方法がある。これは、順向・同時・逆
行の3種の時間方向のマスキングの最大のしきい値レベ
ルを周波数軸上で求め、これをマスキング特性として符
号化に利用する試みである。同時マスキングが現在の主
音が現在の音をマスクして聞こえにくくする現象である
のに対し、順向マスキングは過去の主音が現在の音を、
逆行マスキングは未来の主音が現在の音をそれぞれマス
クして聞こえにくくする現象である。
【0010】瀧澤氏らは、1994年電子情報通信学会
春季大会A−282(ページ1−284)「4kb/s
音声符号化における音質改善」(文献2)で、音声信号
を十数の周波数帯域に分割し、順向・同時・逆行の3種
のマスキングのレベルを比較して最大となるマスキング
のしきい値を帯域毎に求め、これらのしきい値から形成
される周波数軸上の凹凸の特性を時間軸上の重みフィル
タに変換し、これをCELP方式の聴覚重みフィルタの
代わりに用いて音源探索を行う方法を提案している。
春季大会A−282(ページ1−284)「4kb/s
音声符号化における音質改善」(文献2)で、音声信号
を十数の周波数帯域に分割し、順向・同時・逆行の3種
のマスキングのレベルを比較して最大となるマスキング
のしきい値を帯域毎に求め、これらのしきい値から形成
される周波数軸上の凹凸の特性を時間軸上の重みフィル
タに変換し、これをCELP方式の聴覚重みフィルタの
代わりに用いて音源探索を行う方法を提案している。
【0011】この方法は、各帯域別のマスキングのしき
い値を求める必要上、符号化以外の処理としてFFTま
たは帯域分割フィルタリング、マスキングのしきい値計
算等の複雑な処理が必要となる。また、帯域毎のしきい
値で決まるスペクトル特性を的確に重みフィルタの特性
に反映させるには、非常に高い次数の重みフィルタが必
要となり(帯域分割数個の凹凸を表すためには帯域分割
数の2倍以上の次数が必要となる)、この重みフィルタ
を求めるための計算量や、重みフィルタを用いたときの
音源符号化の計算量が増加するという問題がある。
い値を求める必要上、符号化以外の処理としてFFTま
たは帯域分割フィルタリング、マスキングのしきい値計
算等の複雑な処理が必要となる。また、帯域毎のしきい
値で決まるスペクトル特性を的確に重みフィルタの特性
に反映させるには、非常に高い次数の重みフィルタが必
要となり(帯域分割数個の凹凸を表すためには帯域分割
数の2倍以上の次数が必要となる)、この重みフィルタ
を求めるための計算量や、重みフィルタを用いたときの
音源符号化の計算量が増加するという問題がある。
【0012】(2)音声信号をLサンプルの短時間に区
切り、これをL次元の音声ベクトルとすると、音声ベク
トルは駆動ベクトルと合成フィルタとゲインを縦続接続
した合成モデルで表すことができる。このモデルにおい
て、特に合成フィルタに全極型のフィルタを用いるもの
は、音声符号化や音声合成の分野でLPC(線形予測分
析符号化)合成モデルと呼ばれる。このモデルを音声の
発生機構に当てはめると、駆動ベクトルは声帯の音源信
号に相当し、合成フィルタは音韻の変化を表す声道特性
を表し、ゲインは音声の大きさを調節する役割を持つ。
人間の音声は、一般に短かい時間(5〜10msec)
の区間内では音源・声道・ゲインの情報に変化が少ない
ため、区間毎に音源・声道・ゲインの情報を更新させる
ことにより、LPCモデルを用いて比較的効率よく音声
を表現することができる。このため圧縮率の高い音声符
号化方式では、音声波形のサンプルデータを逐一量子化
するような符号化はせずに、上記の合成モデルを用い
て、駆動ベクトルの形状・合成フィルタ特性・ゲインの
大きさといった合成モデルのパラメータの符号化を行う
方法を採用している。
切り、これをL次元の音声ベクトルとすると、音声ベク
トルは駆動ベクトルと合成フィルタとゲインを縦続接続
した合成モデルで表すことができる。このモデルにおい
て、特に合成フィルタに全極型のフィルタを用いるもの
は、音声符号化や音声合成の分野でLPC(線形予測分
析符号化)合成モデルと呼ばれる。このモデルを音声の
発生機構に当てはめると、駆動ベクトルは声帯の音源信
号に相当し、合成フィルタは音韻の変化を表す声道特性
を表し、ゲインは音声の大きさを調節する役割を持つ。
人間の音声は、一般に短かい時間(5〜10msec)
の区間内では音源・声道・ゲインの情報に変化が少ない
ため、区間毎に音源・声道・ゲインの情報を更新させる
ことにより、LPCモデルを用いて比較的効率よく音声
を表現することができる。このため圧縮率の高い音声符
号化方式では、音声波形のサンプルデータを逐一量子化
するような符号化はせずに、上記の合成モデルを用い
て、駆動ベクトルの形状・合成フィルタ特性・ゲインの
大きさといった合成モデルのパラメータの符号化を行う
方法を採用している。
【0013】上記の合成モデルを利用することにより、
音声信号の大幅な情報圧縮が可能となる一方、高い圧縮
率で符号化を行うと、雑音が混じったり自然性が欠けた
りするといった音質劣化が問題となる。このような音質
劣化を最小限に抑えるには、合成モデルのパラメータに
含まれる冗長性や無駄を出来るだけ排除してから符号化
を行うことが必要である。
音声信号の大幅な情報圧縮が可能となる一方、高い圧縮
率で符号化を行うと、雑音が混じったり自然性が欠けた
りするといった音質劣化が問題となる。このような音質
劣化を最小限に抑えるには、合成モデルのパラメータに
含まれる冗長性や無駄を出来るだけ排除してから符号化
を行うことが必要である。
【0014】このような無駄の排除ということは、音声
信号の大きさを制御するゲイン符号化についても十分考
慮すべき問題である。この問題に対して、近年、ゲイン
制御のために、(1)与えられた駆動ベクトルに固有の
パワを吸収する機能、(2)与えられた合成フィルタが
もたらすパワの推定量を吸収する機能、(3)ゲインの
付加機能の3つの機能を持たせたゲイン制御方法が知ら
れている。図23は、従来のゲイン制御部の構成を示す
ブロック図であり、駆動ベクトル生成部900、合成フ
ィルタ情報生成部901、ゲイン設定部902、駆動ベ
クトルパワ計算部903、フィルタパワ計算部904、
ゲイン制御部905および合成フィルタ906からな
る。この従来法の特徴は、上記の(1)と(2)の機能
が分離されていることである。(1)(2)の機能を持
つ目的は、駆動ベクトルと合成フィルタのそれぞれが与
えるパワが出力側に影響を与えにくいようにすることで
ある。また、符号化において付加ゲインに伝送路符号誤
りが無い場合は、駆動ベクトルや合成フィルタが符号誤
りで異なるものに変化してしまったときに、出力される
合成信号のゲインの変動を和らげようとしている。
信号の大きさを制御するゲイン符号化についても十分考
慮すべき問題である。この問題に対して、近年、ゲイン
制御のために、(1)与えられた駆動ベクトルに固有の
パワを吸収する機能、(2)与えられた合成フィルタが
もたらすパワの推定量を吸収する機能、(3)ゲインの
付加機能の3つの機能を持たせたゲイン制御方法が知ら
れている。図23は、従来のゲイン制御部の構成を示す
ブロック図であり、駆動ベクトル生成部900、合成フ
ィルタ情報生成部901、ゲイン設定部902、駆動ベ
クトルパワ計算部903、フィルタパワ計算部904、
ゲイン制御部905および合成フィルタ906からな
る。この従来法の特徴は、上記の(1)と(2)の機能
が分離されていることである。(1)(2)の機能を持
つ目的は、駆動ベクトルと合成フィルタのそれぞれが与
えるパワが出力側に影響を与えにくいようにすることで
ある。また、符号化において付加ゲインに伝送路符号誤
りが無い場合は、駆動ベクトルや合成フィルタが符号誤
りで異なるものに変化してしまったときに、出力される
合成信号のゲインの変動を和らげようとしている。
【0015】従来法のゲイン制御では、駆動ベクトルの
ゲインの寄与と合成フィルタのゲインの寄与をそれぞれ
別個に求め、2つの寄与を合わせて駆動ベクトルと合成
フィルタのトータルの寄与とし、これをゲイン吸収の推
定値に用いている。このようにすると、ゲインの吸収量
が推定値であるため、推定誤差が大きくなる場合が多
く、この分を付加ゲインが補う形で音声信号を形成する
仕組みとなり、結果としてゲイン制御部で用いる付加ゲ
インのダイナミックレンジが大きくなる。これをゲイン
符号化に用いると、ゲイン制御に大きなビット数が必要
となり、結果として符号化効率が悪くなってしまうとい
う問題がある。
ゲインの寄与と合成フィルタのゲインの寄与をそれぞれ
別個に求め、2つの寄与を合わせて駆動ベクトルと合成
フィルタのトータルの寄与とし、これをゲイン吸収の推
定値に用いている。このようにすると、ゲインの吸収量
が推定値であるため、推定誤差が大きくなる場合が多
く、この分を付加ゲインが補う形で音声信号を形成する
仕組みとなり、結果としてゲイン制御部で用いる付加ゲ
インのダイナミックレンジが大きくなる。これをゲイン
符号化に用いると、ゲイン制御に大きなビット数が必要
となり、結果として符号化効率が悪くなってしまうとい
う問題がある。
【0016】
【発明が解決しようとする課題】上述したように従来の
技術では、同時マスキングしか用いていないため、低ビ
ットレートではマスキングによる符号化雑音の抑圧を十
分に行うことができなくなるという音質上の問題があっ
た。また、従来の別の技術では、帯域別のマスキングの
しきい値計算や、重みフィルタを求めて音源符号化を行
うための計算コストが非常に大きいという現実上の問題
があった。
技術では、同時マスキングしか用いていないため、低ビ
ットレートではマスキングによる符号化雑音の抑圧を十
分に行うことができなくなるという音質上の問題があっ
た。また、従来の別の技術では、帯域別のマスキングの
しきい値計算や、重みフィルタを求めて音源符号化を行
うための計算コストが非常に大きいという現実上の問題
があった。
【0017】さらに、従来技術によるゲイン制御では、
ゲインの寄与の推定値を用いていたため、推定誤差を補
償するためにゲイン制御に大きな負担がかかり、合成信
号が劣化するという問題があった。
ゲインの寄与の推定値を用いていたため、推定誤差を補
償するためにゲイン制御に大きな負担がかかり、合成信
号が劣化するという問題があった。
【0018】本発明の第1の目的は、簡易な方法で順向
・同時・逆行のマスキング効果を用いて符号化雑音の低
減ができる音声符号化方法を提供することにある。
・同時・逆行のマスキング効果を用いて符号化雑音の低
減ができる音声符号化方法を提供することにある。
【0019】本発明の第2の目的は、ゲイン制御に対す
る負担が少なくより少ないビット数で効率的にゲインの
制御ができるゲイン制御方法およびこれを用いた符号化
/復号化方法を提供することにある。
る負担が少なくより少ないビット数で効率的にゲインの
制御ができるゲイン制御方法およびこれを用いた符号化
/復号化方法を提供することにある。
【0020】
【課題を解決するための手段1】 (1)第1の目的を達成するため、第1の発明はマスキ
ング特性を用いて所定のフレーム単位で音源信号を符号
化する処理を含む音声符号化方法において、現フレーム
とその近傍のフレームの音声信号のゲイン値の大きさに
基づいて、マスキング特性を抽出するフレームを選択
し、この選択したフレームの音声信号から求められた同
時マスキング特性を現フレームの音源信号の符号化に用
いることを特徴とする。
ング特性を用いて所定のフレーム単位で音源信号を符号
化する処理を含む音声符号化方法において、現フレーム
とその近傍のフレームの音声信号のゲイン値の大きさに
基づいて、マスキング特性を抽出するフレームを選択
し、この選択したフレームの音声信号から求められた同
時マスキング特性を現フレームの音源信号の符号化に用
いることを特徴とする。
【0021】より具体的には、フレーム毎の音声信号の
ゲイン値を求めるとともに、現フレームとその近傍のフ
レームのゲイン値を加重して加重ゲインを求め、この加
重ゲインが最大となるフレームを選択して、この選択し
たフレームの音声信号から求められた同時マスキング特
性を現フレームの音源信号の符号化に用いることを特徴
とする。
ゲイン値を求めるとともに、現フレームとその近傍のフ
レームのゲイン値を加重して加重ゲインを求め、この加
重ゲインが最大となるフレームを選択して、この選択し
たフレームの音声信号から求められた同時マスキング特
性を現フレームの音源信号の符号化に用いることを特徴
とする。
【0022】また、第1の発明は聴覚重みフィルタを用
いて所定のフレーム単位で音源信号を符号化する処理を
含む音声符号化方法において、フレーム毎の音声信号の
ゲイン値を求め、現フレームとその近傍のフレームのゲ
イン値を加重して加重ゲインを求め、この加重ゲインが
最大となるフレームを選択し、この選択したフレームの
音声信号から求められた特性の聴覚重みフィルタを現フ
レームの音源信号の符号化に用いることを特徴とする。
いて所定のフレーム単位で音源信号を符号化する処理を
含む音声符号化方法において、フレーム毎の音声信号の
ゲイン値を求め、現フレームとその近傍のフレームのゲ
イン値を加重して加重ゲインを求め、この加重ゲインが
最大となるフレームを選択し、この選択したフレームの
音声信号から求められた特性の聴覚重みフィルタを現フ
レームの音源信号の符号化に用いることを特徴とする。
【0023】ここで、前記近傍のフレームから求められ
た特性の聴覚重みフィルタを現フレームの音源信号の符
号化に用いるときは、聴覚重みフィルタのバンド幅を拡
張することが望ましい。
た特性の聴覚重みフィルタを現フレームの音源信号の符
号化に用いるときは、聴覚重みフィルタのバンド幅を拡
張することが望ましい。
【0024】また、加重ゲインを求める際、現フレーム
から離れたフレームほど小さい値を用いて加重を行うこ
とが望ましい。
から離れたフレームほど小さい値を用いて加重を行うこ
とが望ましい。
【0025】また、前記近傍のフレームとして、現フレ
ームより過去のフレームだけを用いることが望ましい。
ームより過去のフレームだけを用いることが望ましい。
【0026】さらに、第1の発明は聴覚重みフィルタを
用いて所定のフレーム単位で音源信号を符号化する処理
を含む音声符号化方法において、フレーム毎の音声信号
のゲイン値と聴覚重みフィルタの特性を求め、ゲイン値
に時間的な減衰処理を適用し、聴覚重みフィルタの特性
に時間的なバンド幅拡張処理を適用して、過去のフレー
ムのゲイン値および聴覚重みフィルタの特性と、現フレ
ームのゲイン値および聴覚重みフィルタの特性を用いて
累積聴覚重みフィルタの特性を求め、この累積聴覚重み
フィルタを用いて現フレームの音源信号の符号化を行う
ことを特徴とする。
用いて所定のフレーム単位で音源信号を符号化する処理
を含む音声符号化方法において、フレーム毎の音声信号
のゲイン値と聴覚重みフィルタの特性を求め、ゲイン値
に時間的な減衰処理を適用し、聴覚重みフィルタの特性
に時間的なバンド幅拡張処理を適用して、過去のフレー
ムのゲイン値および聴覚重みフィルタの特性と、現フレ
ームのゲイン値および聴覚重みフィルタの特性を用いて
累積聴覚重みフィルタの特性を求め、この累積聴覚重み
フィルタを用いて現フレームの音源信号の符号化を行う
ことを特徴とする。
【0027】この場合、累積聴覚重みフィルタの特性の
計算を再帰的に行うことが好ましい。
計算を再帰的に行うことが好ましい。
【0028】このような第1の発明により符号化雑音を
低減できる原理を図1を用いて説明する。図1(a)
は、第m−1フレームと第mフレームという時間的に連
続する2つのフレームの音声信号のパワも含めたスペク
トル包絡Sm-1 (f)、Sm (f)を表している。この
図では現フレームを第mフレームとし、現フレームの音
声パワ(包絡の面積に相当)がその近傍のフレームであ
る1フレーム前の第m−1フレームの音声パワに比べて
ある程度以上小さく、スペクトルの形状も大きく変化し
ている例を示している。
低減できる原理を図1を用いて説明する。図1(a)
は、第m−1フレームと第mフレームという時間的に連
続する2つのフレームの音声信号のパワも含めたスペク
トル包絡Sm-1 (f)、Sm (f)を表している。この
図では現フレームを第mフレームとし、現フレームの音
声パワ(包絡の面積に相当)がその近傍のフレームであ
る1フレーム前の第m−1フレームの音声パワに比べて
ある程度以上小さく、スペクトルの形状も大きく変化し
ている例を示している。
【0029】このような音声信号に対して、フレーム毎
に独立に雑音が聞こえない最大レベルの周波数特性(同
時マスキング特性)を求めると、図1(b)のD
m-1 (f)、Dm (f)のようになる。この同時マスキン
グ特性は、それぞれのフレームの音声のスペクトルの形
状と音声パワ(またはゲイン)の大きさから決まる。
に独立に雑音が聞こえない最大レベルの周波数特性(同
時マスキング特性)を求めると、図1(b)のD
m-1 (f)、Dm (f)のようになる。この同時マスキン
グ特性は、それぞれのフレームの音声のスペクトルの形
状と音声パワ(またはゲイン)の大きさから決まる。
【0030】CELP方式で用いられる従来の聴覚重み
フィルタでは、符号化雑音の形状をDm (f)に近づけ
ることで雑音をマスクしようとしていた。これに対し
て、本発明では図1(c)に示す点線のスペクトル包絡
Jm (m-1) (f)の形に符号化雑音を近づけようとする
点が従来と大きく異なる。ここで、Jm (m-1) (f)は
第m−1フレームの同時マスキング特性Dm-1 (f)が
第mフレームに影響を及ぼすマスキング特性(順向マス
キング特性)を表している。フレームの時間間隔が短い
場合、Jm (m-1) (f)の形状はDm-1 (f)の形状に
非常に近いため、Dm-1 (f)で代用することもでき
る。
フィルタでは、符号化雑音の形状をDm (f)に近づけ
ることで雑音をマスクしようとしていた。これに対し
て、本発明では図1(c)に示す点線のスペクトル包絡
Jm (m-1) (f)の形に符号化雑音を近づけようとする
点が従来と大きく異なる。ここで、Jm (m-1) (f)は
第m−1フレームの同時マスキング特性Dm-1 (f)が
第mフレームに影響を及ぼすマスキング特性(順向マス
キング特性)を表している。フレームの時間間隔が短い
場合、Jm (m-1) (f)の形状はDm-1 (f)の形状に
非常に近いため、Dm-1 (f)で代用することもでき
る。
【0031】図1(b)(c)から分かるように、過去
のフレームのパワ(またはゲイン)が現在よりもある程
度以上大きいときは、現在のマスキング特性でマスクで
きる雑音の量(Dm (f)の面積)よりも、過去のマス
キング特性で現フレームをマスクできる雑音の量(Jm
(m-1) (f)の面積)の方が大きい。そのようなとき
は、マスキングの特性として過去のフレームからマスキ
ング特性(Dm-1 (f)またはJm (m-1) (f))の形
状を用いた方がより大きな符号化雑音までマスクできる
符号化を実現できる。同様に、未来のフレームを使用す
る逆行マスキングに対しても、本発明の効果が期待でき
る。
のフレームのパワ(またはゲイン)が現在よりもある程
度以上大きいときは、現在のマスキング特性でマスクで
きる雑音の量(Dm (f)の面積)よりも、過去のマス
キング特性で現フレームをマスクできる雑音の量(Jm
(m-1) (f)の面積)の方が大きい。そのようなとき
は、マスキングの特性として過去のフレームからマスキ
ング特性(Dm-1 (f)またはJm (m-1) (f))の形
状を用いた方がより大きな符号化雑音までマスクできる
符号化を実現できる。同様に、未来のフレームを使用す
る逆行マスキングに対しても、本発明の効果が期待でき
る。
【0032】第1の発明は、このような原理に基づき、
現フレームの音声を符号化するために用いる聴覚重みフ
ィルタの特性を、図2に示すように第mフレームの符号
化に用いる聴覚重みフィルタの特性を加重ゲインの最も
大きいフレームから求めたものとする。図2の例では、
現フレームの音声を符号化するために用いる聴覚重みフ
ィルタの特性として、第m−1フレームから求めたW
m-1 (z)を用いる(因みに、従来のCELP方式では
第mフレームから求めたWm (z)を使用していた)。
現フレームの音声を符号化するために用いる聴覚重みフ
ィルタの特性を、図2に示すように第mフレームの符号
化に用いる聴覚重みフィルタの特性を加重ゲインの最も
大きいフレームから求めたものとする。図2の例では、
現フレームの音声を符号化するために用いる聴覚重みフ
ィルタの特性として、第m−1フレームから求めたW
m-1 (z)を用いる(因みに、従来のCELP方式では
第mフレームから求めたWm (z)を使用していた)。
【0033】このようにすると、上述したように音の大
きなフレーム(第m−1フレーム)からのマスキング特
性に関係する聴覚重みフィルタの特性Wm-1 (z)を使
用してマスクできる符号化雑音の量は、現フレームのマ
スキング特性に関係する聴覚重みフィルタの特性W
m (z)を使用した場合より多くできる。従って、CE
LP方式よりも多い量の符号化雑音を主観的に聞こえな
くすることが可能となる。
きなフレーム(第m−1フレーム)からのマスキング特
性に関係する聴覚重みフィルタの特性Wm-1 (z)を使
用してマスクできる符号化雑音の量は、現フレームのマ
スキング特性に関係する聴覚重みフィルタの特性W
m (z)を使用した場合より多くできる。従って、CE
LP方式よりも多い量の符号化雑音を主観的に聞こえな
くすることが可能となる。
【0034】また、簡単なゲイン計算とその比較に基づ
いてフレームを選択することによって、選択されたフレ
ームの聴覚重みフィルタを現フレームの符号化に用いる
だけで符号化雑音を低減できるため、非常に安価なコス
トで実現できるという効果がある。
いてフレームを選択することによって、選択されたフレ
ームの聴覚重みフィルタを現フレームの符号化に用いる
だけで符号化雑音を低減できるため、非常に安価なコス
トで実現できるという効果がある。
【0035】さらに、聴覚重みフィルタを使用する構成
では、周りのフレームから特性が決定される聴覚重みフ
ィルタを現フレームの符号化に用いるときは、聴覚重み
フィルタのバンド幅を拡張してから現フレームの聴覚重
みフィルタとするよにうすることが望ましい。このよう
なバンド幅拡張により、聴覚重みフィルタの特性は平坦
化する。こうすると、「マスクできるスペクトルのピー
クが時間変化と共に平滑化する」(“順向マスキングの
時間周波数特性を模擬した動的ケプストラムを用いた音
韻認識”、電子情報通信学会論文誌A,Vol.J76-A,No.11,
pp.1514-1521,1993年11月、相川氏他)という聴覚心理
学実験から得られたマスキング特性の性質を聴覚重みフ
ィルタに簡単に取り入れることができる効果がある。こ
れにより、より正確に人間の聴覚のマスキングの特性を
反映できるので、主観的な符号化雑音をさらに低減でき
ることになる。
では、周りのフレームから特性が決定される聴覚重みフ
ィルタを現フレームの符号化に用いるときは、聴覚重み
フィルタのバンド幅を拡張してから現フレームの聴覚重
みフィルタとするよにうすることが望ましい。このよう
なバンド幅拡張により、聴覚重みフィルタの特性は平坦
化する。こうすると、「マスクできるスペクトルのピー
クが時間変化と共に平滑化する」(“順向マスキングの
時間周波数特性を模擬した動的ケプストラムを用いた音
韻認識”、電子情報通信学会論文誌A,Vol.J76-A,No.11,
pp.1514-1521,1993年11月、相川氏他)という聴覚心理
学実験から得られたマスキング特性の性質を聴覚重みフ
ィルタに簡単に取り入れることができる効果がある。こ
れにより、より正確に人間の聴覚のマスキングの特性を
反映できるので、主観的な符号化雑音をさらに低減でき
ることになる。
【0036】また、ゲイン値に用いる加重は、現フレー
ムから離れたフレームほど小さくすることが望ましい。
こうすることで、マスキング効果でマスクすることので
きる音のレベルが時間的に離れるほど減少するという人
間のマスキング特性を模擬することができる効果があ
る。
ムから離れたフレームほど小さくすることが望ましい。
こうすることで、マスキング効果でマスクすることので
きる音のレベルが時間的に離れるほど減少するという人
間のマスキング特性を模擬することができる効果があ
る。
【0037】さらに、本発明で現フレームの近傍のフレ
ームとして、現フレームより過去のフレームだけを用い
るようにすると、フレームの先読みをする必要が無くな
り、符号化の遅延を小さくできる効果がある。順向マス
キングの効果の方が逆行マスキングの効果より大きいた
め、このように現フレームと過去のフレームだけを用い
る構成にしても、十分な大きなマスキング効果が得られ
る。
ームとして、現フレームより過去のフレームだけを用い
るようにすると、フレームの先読みをする必要が無くな
り、符号化の遅延を小さくできる効果がある。順向マス
キングの効果の方が逆行マスキングの効果より大きいた
め、このように現フレームと過去のフレームだけを用い
る構成にしても、十分な大きなマスキング効果が得られ
る。
【0038】このように本発明による音声符号化方法
は、簡易な方法で順向・同時・逆行マスキング効果を利
用して符号化雑音を大幅に低減することが可能である。
は、簡易な方法で順向・同時・逆行マスキング効果を利
用して符号化雑音を大幅に低減することが可能である。
【0039】(2)第2の目的を達成するため、第2の
発明は、駆動ベクトルと該駆動ベクトルによって駆動さ
れる合成フィルタおよびゲインにより合成信号を表すシ
ステムにおける該ゲインを制御するためのゲイン制御方
法において、合成信号を生成するために用いるゲイン制
御処理が、合成フィルタ通過後の駆動ベクトルのパワを
用いたベクトル正規化処理と、合成信号または駆動ベク
トルに対し所定の方法により得られるゲインを付加する
ゲイン付加処理を含むことを特徴とする。すなわち、第
2の発明ではゲインを少なくとも(a) 合成フィルタの特
性を示す情報から得られるパラメータ系列と前記駆動ベ
クトルとによって得られる該合成フィルタ通過後の駆動
ベクトルの実パワ、および(b) 所定の方法により与えら
れる付加ゲインを用いて制御することを特徴とする。こ
こで、合成フィルタ通過後の駆動ベクトルの実パワは、
合成フィルタによるフィルタリングを行列H、駆動ベク
トルをcとしたとき、ct Ht Hc(tは行列の転置を
表す)に相当する値から求められる。
発明は、駆動ベクトルと該駆動ベクトルによって駆動さ
れる合成フィルタおよびゲインにより合成信号を表すシ
ステムにおける該ゲインを制御するためのゲイン制御方
法において、合成信号を生成するために用いるゲイン制
御処理が、合成フィルタ通過後の駆動ベクトルのパワを
用いたベクトル正規化処理と、合成信号または駆動ベク
トルに対し所定の方法により得られるゲインを付加する
ゲイン付加処理を含むことを特徴とする。すなわち、第
2の発明ではゲインを少なくとも(a) 合成フィルタの特
性を示す情報から得られるパラメータ系列と前記駆動ベ
クトルとによって得られる該合成フィルタ通過後の駆動
ベクトルの実パワ、および(b) 所定の方法により与えら
れる付加ゲインを用いて制御することを特徴とする。こ
こで、合成フィルタ通過後の駆動ベクトルの実パワは、
合成フィルタによるフィルタリングを行列H、駆動ベク
トルをcとしたとき、ct Ht Hc(tは行列の転置を
表す)に相当する値から求められる。
【0040】このように、第2の発明では駆動ベクトル
cを伝達関数Hの合成フィルタで合成したときに得られ
るベクトル(Hc)の実パワに相当する値(ct Ht H
c)を求めることにより、ベクトルHcのゲインを完全
に吸収するようにする。このようにすると、駆動ベクト
ルと合成フィルタからのトータルのゲインの寄与を理想
的にキャンセルできるので、後は所定の方法で付加する
付加ゲインによって合成信号のトータルのゲインを正確
にコントロールできるようになる。
cを伝達関数Hの合成フィルタで合成したときに得られ
るベクトル(Hc)の実パワに相当する値(ct Ht H
c)を求めることにより、ベクトルHcのゲインを完全
に吸収するようにする。このようにすると、駆動ベクト
ルと合成フィルタからのトータルのゲインの寄与を理想
的にキャンセルできるので、後は所定の方法で付加する
付加ゲインによって合成信号のトータルのゲインを正確
にコントロールできるようになる。
【0041】しかも、駆動ベクトルと合成フィルタから
のゲインの寄与量が正確にキャンセルされるため、ゲイ
ン制御部で必要なゲインのダイナミックレンジを従来法
より小さくすることができる。これをゲイン符号化に用
いると、ゲイン制御に必要なビット数を削減できるか、
または、同じビット数であれば符号化による品質劣化を
小さくすることができる。従って、本発明は符号化の圧
縮率向上や、音質劣化の防止に役立つ。
のゲインの寄与量が正確にキャンセルされるため、ゲイ
ン制御部で必要なゲインのダイナミックレンジを従来法
より小さくすることができる。これをゲイン符号化に用
いると、ゲイン制御に必要なビット数を削減できるか、
または、同じビット数であれば符号化による品質劣化を
小さくすることができる。従って、本発明は符号化の圧
縮率向上や、音質劣化の防止に役立つ。
【0042】また、駆動ベクトルがピッチベクトルと雑
音ベクトルによって構成される場合は、ゲインを(a) 合
成フィルタの特性を示す情報から得られるパラメータ系
列と前記ピッチベクトルによって得られる該合成フィル
タ通過後のピッチベクトルの実パワ、および(b) 合成フ
ィルタの特性を示す情報から得られるパラメータ系列と
雑音ベクトルとによって得られる該合成フィルタ通過後
の雑音ベクトルの実パワの少なくとも一方と、(c) ピッ
チベクトルおよび雑音ベクトルの少なくとも一方に与え
る付加ゲインを用いて制御する構成とする。この場合、
合成フィルタ通過後の駆動ベクトルの実パワは、合成フ
ィルタによるフィルタリングを行列H、ピッチベクトル
をc0 、雑音ベクトルをc1 としたとき、ピッチベクト
ルの実パワはc0 t Ht Hc0 (tは行列の転置を表
す)に相当する値から求められ、雑音ベクトルの実パワ
はc1 t Ht Hc1 (tは行列の転置を表す)に相当す
る値から求められる。
音ベクトルによって構成される場合は、ゲインを(a) 合
成フィルタの特性を示す情報から得られるパラメータ系
列と前記ピッチベクトルによって得られる該合成フィル
タ通過後のピッチベクトルの実パワ、および(b) 合成フ
ィルタの特性を示す情報から得られるパラメータ系列と
雑音ベクトルとによって得られる該合成フィルタ通過後
の雑音ベクトルの実パワの少なくとも一方と、(c) ピッ
チベクトルおよび雑音ベクトルの少なくとも一方に与え
る付加ゲインを用いて制御する構成とする。この場合、
合成フィルタ通過後の駆動ベクトルの実パワは、合成フ
ィルタによるフィルタリングを行列H、ピッチベクトル
をc0 、雑音ベクトルをc1 としたとき、ピッチベクト
ルの実パワはc0 t Ht Hc0 (tは行列の転置を表
す)に相当する値から求められ、雑音ベクトルの実パワ
はc1 t Ht Hc1 (tは行列の転置を表す)に相当す
る値から求められる。
【0043】また、第2の発明において付加ゲインはゲ
イン推定処理により得られた推定ゲインを用いて生成さ
れ、より具体的には少なくとも(a) ゲイン推定処理によ
り得られた推定ゲイン、(b) 該推定ゲインを補うデルタ
ゲインの2種類のゲインを用いて表される。
イン推定処理により得られた推定ゲインを用いて生成さ
れ、より具体的には少なくとも(a) ゲイン推定処理によ
り得られた推定ゲイン、(b) 該推定ゲインを補うデルタ
ゲインの2種類のゲインを用いて表される。
【0044】さらに、第2の発明に係るゲイン制御方法
を符号化/復号化システムに適用する場合には、付加ゲ
インに関する情報を符号化側から復号化側に伝送するよ
うにする。
を符号化/復号化システムに適用する場合には、付加ゲ
インに関する情報を符号化側から復号化側に伝送するよ
うにする。
【0045】
【発明の実施の形態】以下、図面を参照して本発明の実
施形態を説明する。
施形態を説明する。
【0046】[第1の発明の実施形態] (第1の実施形態)図3に示すフローチャートを用い
て、第1の実施形態に係る音声符号化方法の処理手順を
説明する。ここでは、CELP方式に本発明を適用した
場合の例にとり説明する。
て、第1の実施形態に係る音声符号化方法の処理手順を
説明する。ここでは、CELP方式に本発明を適用した
場合の例にとり説明する。
【0047】CELP方式の符号化は、音声のスペクト
ル包絡情報の符号化と、音源信号の符号化に大きく分け
ることができる。聴覚重みフィルタは、音源信号の符号
化に用いる。CELP方式では、フレーム単位に音声の
分析・符号化を行う。方式によっては、フレームをさら
に小さなサブフレームに分割し、サブフレーム毎に音源
信号の符号化を行う方法もあるが、ここでは説明の簡単
のために音源信号の符号化もフレーム単位で行うことに
する。
ル包絡情報の符号化と、音源信号の符号化に大きく分け
ることができる。聴覚重みフィルタは、音源信号の符号
化に用いる。CELP方式では、フレーム単位に音声の
分析・符号化を行う。方式によっては、フレームをさら
に小さなサブフレームに分割し、サブフレーム毎に音源
信号の符号化を行う方法もあるが、ここでは説明の簡単
のために音源信号の符号化もフレーム単位で行うことに
する。
【0048】図3において、mはフレーム番号を表す。
LP分析部でフレーム単位に音声のスペクトル包絡を表
す情報を抽出し(ステップS101)、これをスペクト
ル包絡情報符号化部で符号化する(ステップS10
2)。次に、聴覚重みフィルタの特性を求め(ステップ
S103)、加重ゲインの比較から現フレームに用いる
聴覚重みフィルタの特性を生成するフレームを選択する
(ステップS105〜S107)。こうして選択された
フレームから特性が求められた聴覚重みフィルタを現フ
レームの音源の符号化探索用に設定する(ステップS1
04)。そして、設定された聴覚重みフィルタを用いて
音源の符号化を行う(ステップS108)。この符号化
により得られたフレーム内の音源の符号を出力する(ス
テップS109)。以上の処理をスペクトル包絡情報の
符号化とともにフレーム単位で繰り返すことにより、音
声の符号化が完了する。
LP分析部でフレーム単位に音声のスペクトル包絡を表
す情報を抽出し(ステップS101)、これをスペクト
ル包絡情報符号化部で符号化する(ステップS10
2)。次に、聴覚重みフィルタの特性を求め(ステップ
S103)、加重ゲインの比較から現フレームに用いる
聴覚重みフィルタの特性を生成するフレームを選択する
(ステップS105〜S107)。こうして選択された
フレームから特性が求められた聴覚重みフィルタを現フ
レームの音源の符号化探索用に設定する(ステップS1
04)。そして、設定された聴覚重みフィルタを用いて
音源の符号化を行う(ステップS108)。この符号化
により得られたフレーム内の音源の符号を出力する(ス
テップS109)。以上の処理をスペクトル包絡情報の
符号化とともにフレーム単位で繰り返すことにより、音
声の符号化が完了する。
【0049】次に、各処理をさらに詳細に説明する。L
P分析ステップS101では、現フレームの音声を分析
して音声のスペクトルの包絡を表すLPC係数を分析し
て抽出する。この分析法としては、例えば公知の線形予
測分析法(Linear Prediction Coding:LPC)を用い
ることができる。
P分析ステップS101では、現フレームの音声を分析
して音声のスペクトルの包絡を表すLPC係数を分析し
て抽出する。この分析法としては、例えば公知の線形予
測分析法(Linear Prediction Coding:LPC)を用い
ることができる。
【0050】スペクトル包絡情報符号化ステップS10
2では、LPC係数を量子化に適したパラメータに変換
してスペクトル包絡情報の符号化を行う。
2では、LPC係数を量子化に適したパラメータに変換
してスペクトル包絡情報の符号化を行う。
【0051】聴覚重みフィルタ候補算出ステップS10
3では、例えばLP分析ステップS101で得られたL
PC係数を基に、式(1)の特性、または、音声にピッ
チ周期の繰り返しがある時は、これを考慮に入れて、
W(z)=C(z)P(z)A(z/γ1 )/A
(z/γ2 )(3)の特性を持つ聴覚重みフィルタのフ
ィルタ係数を求める。ここで、P(z)はピッチ重みフ
ィルタの特性、C(z)は重みフィルタのスペクトルの
不要な傾きを調整するフィルタの特性を表す。実現の簡
単化のために、C(z)=1としてもよい。また係数γ
1 、γ2 の値としては、例えばγ1 =0.9、γ2 =
0.4を用いることができる。A(z)は式(2)で定
義される。ここでは、現フレーム(第mフレーム)の音
声から求められた聴覚重みフィルタの特性をWm (z)
と表すことにする。未来のフレームからの逆向マスキン
グも利用する場合には、現フレームの処理の時点で先の
フレームから聴覚重みフィルタを求める必要がある。も
し、逆向マスキングを用いない場合は、現フレームで先
のフレームを分析する必要が無いので、符号化遅延を少
なくできる。また、現フレームの音声から求めた聴覚重
みフィルタの特性(またはそれを構成する基になるLP
C係数やピッチ重みフィルタ情報)の特性は、次のフレ
ーム処理のために保存しておけばよい。従って、本発明
を用いても聴覚重みフィルタの特性を求める計算量が増
えることはない。
3では、例えばLP分析ステップS101で得られたL
PC係数を基に、式(1)の特性、または、音声にピッ
チ周期の繰り返しがある時は、これを考慮に入れて、
W(z)=C(z)P(z)A(z/γ1 )/A
(z/γ2 )(3)の特性を持つ聴覚重みフィルタのフ
ィルタ係数を求める。ここで、P(z)はピッチ重みフ
ィルタの特性、C(z)は重みフィルタのスペクトルの
不要な傾きを調整するフィルタの特性を表す。実現の簡
単化のために、C(z)=1としてもよい。また係数γ
1 、γ2 の値としては、例えばγ1 =0.9、γ2 =
0.4を用いることができる。A(z)は式(2)で定
義される。ここでは、現フレーム(第mフレーム)の音
声から求められた聴覚重みフィルタの特性をWm (z)
と表すことにする。未来のフレームからの逆向マスキン
グも利用する場合には、現フレームの処理の時点で先の
フレームから聴覚重みフィルタを求める必要がある。も
し、逆向マスキングを用いない場合は、現フレームで先
のフレームを分析する必要が無いので、符号化遅延を少
なくできる。また、現フレームの音声から求めた聴覚重
みフィルタの特性(またはそれを構成する基になるLP
C係数やピッチ重みフィルタ情報)の特性は、次のフレ
ーム処理のために保存しておけばよい。従って、本発明
を用いても聴覚重みフィルタの特性を求める計算量が増
えることはない。
【0052】ゲイン値算出ステップS105からフレー
ム選択ステップS107までの処理は、上述のステップ
S101〜S103と独立に行うことができる。図3の
フローチャートでは、S105〜S107の処理がS1
01〜S103の処理と並列的に記述されているが、こ
れは処理の実現方法の一例であり、S105〜S107
の処理は後で述べる聴覚重みフィルタ設定ステップS1
04の前であれば、どの段階でも実行することができ
る。
ム選択ステップS107までの処理は、上述のステップ
S101〜S103と独立に行うことができる。図3の
フローチャートでは、S105〜S107の処理がS1
01〜S103の処理と並列的に記述されているが、こ
れは処理の実現方法の一例であり、S105〜S107
の処理は後で述べる聴覚重みフィルタ設定ステップS1
04の前であれば、どの段階でも実行することができ
る。
【0053】ゲイン値算出ステップS105では、マス
キングの影響を参照する範囲に関係する各フレームの音
声からゲイン値を求める。第mフレームの音声のゲイン
値をEm とおく。ゲイン値としては、音声パワ、または
音声パワの平均値の平方根をとったものを用いることが
できる。
キングの影響を参照する範囲に関係する各フレームの音
声からゲイン値を求める。第mフレームの音声のゲイン
値をEm とおく。ゲイン値としては、音声パワ、または
音声パワの平均値の平方根をとったものを用いることが
できる。
【0054】加重ゲイン算出ステップS106では、ゲ
イン値を所定の方法で加重ゲインに変換する。ここでは
第mフレームから見た第kフレームの加重ゲインをPk
(m)と定義する。Pk (m)は例えば次式で表すこと
ができる。
イン値を所定の方法で加重ゲインに変換する。ここでは
第mフレームから見た第kフレームの加重ゲインをPk
(m)と定義する。Pk (m)は例えば次式で表すこと
ができる。
【0055】 Pk (m)=Ek ・G(k−m) (4) ここで、G(x)はゲインへの加重の特性を表すマッピ
ングで、 G(x)=1 (x=0) =Gf (x) (0≦Gf (x)<1) (x<0) =Gb (x) (0≦Gb (x)<1) (x>0) (5) と表すことができる。G(x),Gf (x),G
b (x)は、理想的には図4に示すような特性であるこ
とが望ましい。重要なのは、現フレームのゲインに対し
て加重が最大で、現フレームから離れたフレームほど小
さい値の加重となるようにG(f)を設定することであ
る。また、現フレームからの距離が同じであれば未来よ
り過去のフレームに対して用いる加重を大きくすること
が望ましい。こうすることで、マスクすることのできる
雑音レベルが時間的に離れるほど減少する特性と、順向
マスキングが逆行マスキングより大きな影響を与えると
いう2つの特性を取り入れることができる効果がある。
ングで、 G(x)=1 (x=0) =Gf (x) (0≦Gf (x)<1) (x<0) =Gb (x) (0≦Gb (x)<1) (x>0) (5) と表すことができる。G(x),Gf (x),G
b (x)は、理想的には図4に示すような特性であるこ
とが望ましい。重要なのは、現フレームのゲインに対し
て加重が最大で、現フレームから離れたフレームほど小
さい値の加重となるようにG(f)を設定することであ
る。また、現フレームからの距離が同じであれば未来よ
り過去のフレームに対して用いる加重を大きくすること
が望ましい。こうすることで、マスクすることのできる
雑音レベルが時間的に離れるほど減少する特性と、順向
マスキングが逆行マスキングより大きな影響を与えると
いう2つの特性を取り入れることができる効果がある。
【0056】このようなゲインへの加重計算は、デシベ
ル値を用いた対数のレベルでも同様なことを行うことが
できる。
ル値を用いた対数のレベルでも同様なことを行うことが
できる。
【0057】フレーム選択ステップS107では、加重
ゲイン算出ステップS106で求められた現フレーム
(第mフレーム)から見た第kフレームの加重ゲインP
k (m)が最大となるフレームの番号Kを選択する。
ゲイン算出ステップS106で求められた現フレーム
(第mフレーム)から見た第kフレームの加重ゲインP
k (m)が最大となるフレームの番号Kを選択する。
【0058】聴覚重みフィルタ設定ステップS104で
は、フレーム選択ステップS107で得られたフレーム
番号Kに対応するフレームから求められた聴覚重みフィ
ルタの特性WK (z)を現フレームの符号探索に用いる
聴覚重みフィルタの特性Vm(z)としてセットする。
は、フレーム選択ステップS107で得られたフレーム
番号Kに対応するフレームから求められた聴覚重みフィ
ルタの特性WK (z)を現フレームの符号探索に用いる
聴覚重みフィルタの特性Vm(z)としてセットする。
【0059】 Vm (z)=WK (z) (6) 本実施形態の説明では、現フレーム(第mフレーム)の
音声から求めた聴覚重みフィルタの特性をWm (z)と
表し、現フレームの実際の符号探索で用いる聴覚重みフ
ィルタの特性をVm (z)で表すことにより、2つの聴
覚重みフィルタを区別している。また、符号化に使用す
る聴覚重みフィルタの特性の別の設定方法として、WK
(z)のバンド幅を拡張したものをVm (z)とする方
法がある。具体的なバンド幅の拡張方法の一例を以下に
示す。
音声から求めた聴覚重みフィルタの特性をWm (z)と
表し、現フレームの実際の符号探索で用いる聴覚重みフ
ィルタの特性をVm (z)で表すことにより、2つの聴
覚重みフィルタを区別している。また、符号化に使用す
る聴覚重みフィルタの特性の別の設定方法として、WK
(z)のバンド幅を拡張したものをVm (z)とする方
法がある。具体的なバンド幅の拡張方法の一例を以下に
示す。
【0060】 Vm (z)=WK (z/Q(m−K)) (7) ここで、Q(x)はxの絶対値が大きくなるほど減少す
る特性であることが望ましい。Q(x)の特性の一例
は、 Q(x)=1 (x=0) =λf -x (0≦λf <1) (x<0) =λb x (0≦λb <1) (x>0) (8) である。バンド拡張係数λf とλb の値は、フレーム長
とバンド幅の拡張(フィルタ特性の平滑化)の速さを加
味して、実験的に決めることができる。こうすると、上
述したように「マスクできるスペクトルのピークが時間
変化と共に平滑化する」という聴覚心理学実験から得ら
れる性質を簡易的に聴覚重みフィルタに取り入れること
ができる。この仕組みを加えることで、より正確に人間
の聴覚のマスキング特性が符号探索に反映されるので、
主観的な雑音をさらに低減した音声符号化を行うことが
できるという効果がある。
る特性であることが望ましい。Q(x)の特性の一例
は、 Q(x)=1 (x=0) =λf -x (0≦λf <1) (x<0) =λb x (0≦λb <1) (x>0) (8) である。バンド拡張係数λf とλb の値は、フレーム長
とバンド幅の拡張(フィルタ特性の平滑化)の速さを加
味して、実験的に決めることができる。こうすると、上
述したように「マスクできるスペクトルのピークが時間
変化と共に平滑化する」という聴覚心理学実験から得ら
れる性質を簡易的に聴覚重みフィルタに取り入れること
ができる。この仕組みを加えることで、より正確に人間
の聴覚のマスキング特性が符号探索に反映されるので、
主観的な雑音をさらに低減した音声符号化を行うことが
できるという効果がある。
【0061】音源符号化ステップS108では、V
m (z)なる特性の聴覚重みフィルタを用いて現フレー
ム(第mフレーム)の音源符号化を行う。ここでは、C
ELP方式の音源符号化を用いる例について説明する。
CELP方式は、音源情報を、ピッチ周期性を表す適応
ベクトル、雑音性を表す雑音ベクトル、音の大きさを表
すゲイン符号の3つの情報で表現する。適応ベクトル
は、過去の符号化された音源を適応コードブックに格納
され、ピッチ周期をインデックスとして適応コードブッ
クから再生される構造を持つ。雑音ベクトルは、固定の
雑音コードブックに格納され、対応づけられた雑音イン
デックスを用いて雑音コードブックから再生される構造
を持つ。これらの符号探索に当たっては、聴覚重み付け
を行った音声のレベルで符号化誤差を最小化する符号を
探索する。
m (z)なる特性の聴覚重みフィルタを用いて現フレー
ム(第mフレーム)の音源符号化を行う。ここでは、C
ELP方式の音源符号化を用いる例について説明する。
CELP方式は、音源情報を、ピッチ周期性を表す適応
ベクトル、雑音性を表す雑音ベクトル、音の大きさを表
すゲイン符号の3つの情報で表現する。適応ベクトル
は、過去の符号化された音源を適応コードブックに格納
され、ピッチ周期をインデックスとして適応コードブッ
クから再生される構造を持つ。雑音ベクトルは、固定の
雑音コードブックに格納され、対応づけられた雑音イン
デックスを用いて雑音コードブックから再生される構造
を持つ。これらの符号探索に当たっては、聴覚重み付け
を行った音声のレベルで符号化誤差を最小化する符号を
探索する。
【0062】図5のフローチャートを用いて、音源符号
化ステップS108の処理の詳細を説明する。図5にお
いて、聴覚重み付けステップS200において本発明に
基づく特性Vm (z)の聴覚重みフィルタに現フレーム
の入力音声信号を通過させて重み付けられた音声信号を
求める。
化ステップS108の処理の詳細を説明する。図5にお
いて、聴覚重み付けステップS200において本発明に
基づく特性Vm (z)の聴覚重みフィルタに現フレーム
の入力音声信号を通過させて重み付けられた音声信号を
求める。
【0063】これ以降の処理は従来のCELP方式と同
一である。目標信号生成ステップS201では、重み付
けられた音声のレベルで過去の符号化の影響を引き去
り、これと符号化されたスペクトル包絡情報と聴覚重み
フィルタを用いて、以下で行われる符号化の目標信号を
生成する。
一である。目標信号生成ステップS201では、重み付
けられた音声のレベルで過去の符号化の影響を引き去
り、これと符号化されたスペクトル包絡情報と聴覚重み
フィルタを用いて、以下で行われる符号化の目標信号を
生成する。
【0064】適応コードブック探索ステップS202で
は、公知の適応コードブック探索法により、聴覚重み付
けられた符号化雑音が小さくなるような適応コードブッ
クのインデックスを探索する。
は、公知の適応コードブック探索法により、聴覚重み付
けられた符号化雑音が小さくなるような適応コードブッ
クのインデックスを探索する。
【0065】雑音コードブック探索ステップS203で
は、公知の雑音コードブック探索法により、聴覚重み付
けられた符号化雑音が小さくなるような雑音コードブッ
クの雑音インデックスを探索する。
は、公知の雑音コードブック探索法により、聴覚重み付
けられた符号化雑音が小さくなるような雑音コードブッ
クの雑音インデックスを探索する。
【0066】ゲイン符号探索ステップS204では、公
知のゲイン符号化法により、選択された適応コードベク
トルと雑音ベクトルに乗じるゲインの符号を探索する。
この際、聴覚重み付けられた符号化雑音がより小さくな
るようなゲインの符号を探索する。
知のゲイン符号化法により、選択された適応コードベク
トルと雑音ベクトルに乗じるゲインの符号を探索する。
この際、聴覚重み付けられた符号化雑音がより小さくな
るようなゲインの符号を探索する。
【0067】音源信号再生ステップS205では、符号
化された適応コードベクトル、雑音ベクトル、およびゲ
イン符号を用いて音源信号を再生する処理を行う。
化された適応コードベクトル、雑音ベクトル、およびゲ
イン符号を用いて音源信号を再生する処理を行う。
【0068】最後に、データ更新ステップS206で
は、次のフレームの音源信号符号化に備え、現在のデー
タを過去のデータとして参照できる位置に移動する。
は、次のフレームの音源信号符号化に備え、現在のデー
タを過去のデータとして参照できる位置に移動する。
【0069】図3に示した音声符号化全体のフローチャ
ートに戻って説明を続けると、符号出力ステップS10
9では、スペクトル包絡情報符号化ステップS102か
らのスペクトル包絡情報と、音源符号化ステップS10
8からの適応ベクトルのインデックス情報、雑音ベクト
ルのインデックス情報、およびゲイン符号を組み合わせ
て現フレームの音声の符号化出力として出力する。判断
ステップS110で次のフレームの符号化が必要かどう
かを判断し、次フレームの符号化が必要ならば処理S3
00でフレーム番号をインクリメントして、次のフレー
ムの音声に対し以上の処理を繰り返す。このようにし
て、音声符号化処理を実現できる。
ートに戻って説明を続けると、符号出力ステップS10
9では、スペクトル包絡情報符号化ステップS102か
らのスペクトル包絡情報と、音源符号化ステップS10
8からの適応ベクトルのインデックス情報、雑音ベクト
ルのインデックス情報、およびゲイン符号を組み合わせ
て現フレームの音声の符号化出力として出力する。判断
ステップS110で次のフレームの符号化が必要かどう
かを判断し、次フレームの符号化が必要ならば処理S3
00でフレーム番号をインクリメントして、次のフレー
ムの音声に対し以上の処理を繰り返す。このようにし
て、音声符号化処理を実現できる。
【0070】(第2の実施形態)図6に示すフローチャ
ートを用いて、第2の実施形態に係る音声符号化方法の
処理手順を説明する。本実施形態では、過去からの聴覚
重みフィルタの特性と音声のゲイン値を用いて累積聴覚
重みフィルタの特性を求め、より正確に同時にマスキン
グと順向マスキングの影響を取り入れることのできる符
号化方法について述べる。
ートを用いて、第2の実施形態に係る音声符号化方法の
処理手順を説明する。本実施形態では、過去からの聴覚
重みフィルタの特性と音声のゲイン値を用いて累積聴覚
重みフィルタの特性を求め、より正確に同時にマスキン
グと順向マスキングの影響を取り入れることのできる符
号化方法について述べる。
【0071】まず、累積聴覚重みフィルタの特性を利用
することによる利点を図8を用いて説明する。図8
(a)は、連続する3フレームの音声のパワも加味した
スペクトル包絡の例である。ここでは、第mフレームを
現フレームとする。図8(b)は、(a)のそれぞれの
フレームで求められる同時マスキング特性の模式図であ
る。図8(c)の実線は、過去のフレームからの累積マ
スキング特性に現フレームのマスキング特性を累積する
ことにより求められる累積マスキング特性の形状を示し
ている。この図では、第m−1フレームの特性に第m−
2フレームの特性が加味されて、より高いレベルの低域
雑音までマスクできるような特性になっているだけでな
く、現フレームの情報も加味されて、高域の符号化雑音
もマスクできるような累積マスキングの特性となってい
ることが分かる。
することによる利点を図8を用いて説明する。図8
(a)は、連続する3フレームの音声のパワも加味した
スペクトル包絡の例である。ここでは、第mフレームを
現フレームとする。図8(b)は、(a)のそれぞれの
フレームで求められる同時マスキング特性の模式図であ
る。図8(c)の実線は、過去のフレームからの累積マ
スキング特性に現フレームのマスキング特性を累積する
ことにより求められる累積マスキング特性の形状を示し
ている。この図では、第m−1フレームの特性に第m−
2フレームの特性が加味されて、より高いレベルの低域
雑音までマスクできるような特性になっているだけでな
く、現フレームの情報も加味されて、高域の符号化雑音
もマスクできるような累積マスキングの特性となってい
ることが分かる。
【0072】第1の実施形態で説明した方法では、現フ
レームにマスキングの影響を最も強く与えるフレームと
マスキングの特性を1つ選択することを原理としていた
が、第2の実施形態では現フレームと過去からのマスキ
ング特性の影響を累積することにより、同時マスキング
と順向マスキングの特性を組み合わせた、より的確なマ
スキング特性を表現できるため、符号化に用いると、符
号化雑音を抑える効果が大きくなる。また、マスキング
特性の累積をゲイン値と組み合わせることにより、聴覚
重みフィルタ特性のレベルを実現するところに大きな特
徴がある。
レームにマスキングの影響を最も強く与えるフレームと
マスキングの特性を1つ選択することを原理としていた
が、第2の実施形態では現フレームと過去からのマスキ
ング特性の影響を累積することにより、同時マスキング
と順向マスキングの特性を組み合わせた、より的確なマ
スキング特性を表現できるため、符号化に用いると、符
号化雑音を抑える効果が大きくなる。また、マスキング
特性の累積をゲイン値と組み合わせることにより、聴覚
重みフィルタ特性のレベルを実現するところに大きな特
徴がある。
【0073】ここでは、第1の実施形態と同様にCEL
P方式の重みフィルタを用いた音源の符号化に適用した
例について説明する。また、説明の簡単のため、音源信
号の符号化をフレーム単位で行う構成の符号化とする。
P方式の重みフィルタを用いた音源の符号化に適用した
例について説明する。また、説明の簡単のため、音源信
号の符号化をフレーム単位で行う構成の符号化とする。
【0074】図6において、mはフレーム番号を表す。
まず、LP分析でフレーム単位に音声のスペクトル包絡
を表す情報を抽出し(ステップS301)、これをスペ
クトル包絡情報符号化部で符号化する(ステップS30
2)。次に、現フレームの音声から聴覚重みフィルタの
特性を求める(ステップS303)。次に、現フレーム
の音声から聴覚重みフィルタの特性に用いるゲイン値を
求める(ステップS304)。そして、このゲイン値と
前記聴覚重みフィルタの特性を用いて累積聴覚重みフィ
ルタ特性を求め(ステップS305)、これを現フレー
ムの音源の符号化探索用の重みフィルタの特性として設
定する(ステップS306)。このようにして特性が設
定された重みフィルタを用いた符号化雑音の評価を基に
音源の符号化を行い(ステップS307)、符号化によ
り得られたフレーム内の音声の符号を出力する(ステッ
プS308)。この処理をフレーム単位で繰り返すこと
により音声の符号化が完了する。
まず、LP分析でフレーム単位に音声のスペクトル包絡
を表す情報を抽出し(ステップS301)、これをスペ
クトル包絡情報符号化部で符号化する(ステップS30
2)。次に、現フレームの音声から聴覚重みフィルタの
特性を求める(ステップS303)。次に、現フレーム
の音声から聴覚重みフィルタの特性に用いるゲイン値を
求める(ステップS304)。そして、このゲイン値と
前記聴覚重みフィルタの特性を用いて累積聴覚重みフィ
ルタ特性を求め(ステップS305)、これを現フレー
ムの音源の符号化探索用の重みフィルタの特性として設
定する(ステップS306)。このようにして特性が設
定された重みフィルタを用いた符号化雑音の評価を基に
音源の符号化を行い(ステップS307)、符号化によ
り得られたフレーム内の音声の符号を出力する(ステッ
プS308)。この処理をフレーム単位で繰り返すこと
により音声の符号化が完了する。
【0075】次に、各ステップでの処理をさらに詳細に
説明する。LP分析ステップS301、スペクトル包絡
情報符号化ステップS302は第1の実施形態のS10
1、S102とそれぞれ同じなので、ここでは説明を省
略する。
説明する。LP分析ステップS301、スペクトル包絡
情報符号化ステップS302は第1の実施形態のS10
1、S102とそれぞれ同じなので、ここでは説明を省
略する。
【0076】まず、聴覚重みフィルタ特性算出ステップ
S303では、現フレーム(第mフレーム)の音声から
例えば式(3)の特性を持つ聴覚重みフィルタのインパ
ルス応答wm (n)を求める。このとき、計算量を削減
するためにインパルス応答はフレーム長より短い長さに
窓を掛けて打ち切ることができる。打ち切りに用いる窓
としては方形窓、または窓の中心をn=0にあわせたハ
ミング窓等の減少窓が適当である。
S303では、現フレーム(第mフレーム)の音声から
例えば式(3)の特性を持つ聴覚重みフィルタのインパ
ルス応答wm (n)を求める。このとき、計算量を削減
するためにインパルス応答はフレーム長より短い長さに
窓を掛けて打ち切ることができる。打ち切りに用いる窓
としては方形窓、または窓の中心をn=0にあわせたハ
ミング窓等の減少窓が適当である。
【0077】ゲイン値算出ステップS304では、現フ
レームの音声からゲイン値gm を求める。ゲイン値は、
例えば現フレームの音声パワEm を用いて次式で求める
ことができる。
レームの音声からゲイン値gm を求める。ゲイン値は、
例えば現フレームの音声パワEm を用いて次式で求める
ことができる。
【0078】 gm =sqrt(Em /N) (9) ここで、sqrt(x)はxの平方根を表す。また、N
はEm の計算に用いたデータ数を表す。さらに別の表現
方法として、gm にそのまま音声パワEm を用いること
も可能である。
はEm の計算に用いたデータ数を表す。さらに別の表現
方法として、gm にそのまま音声パワEm を用いること
も可能である。
【0079】このようにして求めたgm を用いて、現フ
レームのゲイン値と過去のゲインの寄与分を比較するこ
とによりgm の値を修正することも可能である。すなわ
ち、現フレームのゲイン値が所定の判定により十分小さ
いと判断されたとき順向マスキングが支配的になるの
で、現フレームの影響を混入させないようにするとマス
キングの効果が現れやすくなる。これを実現する方法の
一例は、gm を強制的に0にすることである。一方、逆
に現フレームのゲイン値が十分大きいと判断されたとき
は、現フレームの同時マスキング効果が支配的となるの
で、過去からの影響を絶つようにすることが望ましい。
これを実現する方法の一例は、過去のgk(k=m−
L,…,m−1)に0を代入することである。
レームのゲイン値と過去のゲインの寄与分を比較するこ
とによりgm の値を修正することも可能である。すなわ
ち、現フレームのゲイン値が所定の判定により十分小さ
いと判断されたとき順向マスキングが支配的になるの
で、現フレームの影響を混入させないようにするとマス
キングの効果が現れやすくなる。これを実現する方法の
一例は、gm を強制的に0にすることである。一方、逆
に現フレームのゲイン値が十分大きいと判断されたとき
は、現フレームの同時マスキング効果が支配的となるの
で、過去からの影響を絶つようにすることが望ましい。
これを実現する方法の一例は、過去のgk(k=m−
L,…,m−1)に0を代入することである。
【0080】累積聴覚重みフィルタ特性算出ステップS
305では、現フレームとLフレーム過去までのゲイン
gk 、および聴覚重みフィルタのインパルス応答w
k (n)(k=m−L,…,m−1,m)を組み合わせ
て、累積聴覚重みフィルタ特性awm (n)を求める。
この求め方の一例として、次式を用いることができる。
305では、現フレームとLフレーム過去までのゲイン
gk 、および聴覚重みフィルタのインパルス応答w
k (n)(k=m−L,…,m−1,m)を組み合わせ
て、累積聴覚重みフィルタ特性awm (n)を求める。
この求め方の一例として、次式を用いることができる。
【0081】
【数1】
【0082】ここで、φは0<φ<1で過去のゲイン値
の漏れの程度を制御する定数、ψは0.9<ψ≦1の値
で、過去の聴覚重みフィルタのバンド幅の拡張の度合い
を制御する定数である。φの値は、大きくするほど過去
のマスキングの影響が現フレームに強く反映されるよう
になる。
の漏れの程度を制御する定数、ψは0.9<ψ≦1の値
で、過去の聴覚重みフィルタのバンド幅の拡張の度合い
を制御する定数である。φの値は、大きくするほど過去
のマスキングの影響が現フレームに強く反映されるよう
になる。
【0083】重みフィルタ設定ステップS306では、
awm (n)をawm (0)で正規化して現フレームの
符号化に用いる重みフィルタVm (z)を設定する。
awm (n)をawm (0)で正規化して現フレームの
符号化に用いる重みフィルタVm (z)を設定する。
【0084】 以下の音源符号化ステップS307、符号化出力ステッ
プS308、判断ステップS309は、第1の実施形態
で述べた音源符号化ステップS108、符号化出力ステ
ップS109、判断ステップS110とそれぞれ同じ処
理であるので、ここでは説明を省略する。
プS308、判断ステップS309は、第1の実施形態
で述べた音源符号化ステップS108、符号化出力ステ
ップS109、判断ステップS110とそれぞれ同じ処
理であるので、ここでは説明を省略する。
【0085】(第3の実施形態)図7に示すフローチャ
ートを用いて、第3の実施形態に係る音声符号化方法の
処理手順を説明する。本実施形態は、過去からの聴覚重
みフィルタの特性とゲイン値を用いて累積聴覚重みフィ
ルタの特性を求める点では、第2の実施形態と共通して
いるが、累積聴覚重みフィルタの特性を求める方法が第
2の実施形態と異なる。すなわち、前フレームで計算し
た累積聴覚重みフィルタの特性を用いて現在の累積聴覚
重みフィルタの特性を再帰的に求める。こうすること
で、再帰式を使わない方法に比べ計算量を節約できるだ
けでなく、過去の特性を保存するために必要なメモリ量
を最小にできる利点がある。
ートを用いて、第3の実施形態に係る音声符号化方法の
処理手順を説明する。本実施形態は、過去からの聴覚重
みフィルタの特性とゲイン値を用いて累積聴覚重みフィ
ルタの特性を求める点では、第2の実施形態と共通して
いるが、累積聴覚重みフィルタの特性を求める方法が第
2の実施形態と異なる。すなわち、前フレームで計算し
た累積聴覚重みフィルタの特性を用いて現在の累積聴覚
重みフィルタの特性を再帰的に求める。こうすること
で、再帰式を使わない方法に比べ計算量を節約できるだ
けでなく、過去の特性を保存するために必要なメモリ量
を最小にできる利点がある。
【0086】本実施形態は、累積聴覚重みフィルタ特性
の求め方以外の部分は第2の実施形態と同じであるの
で、図7のフローチャートにおいて第2の実施形態を示
した図6のフローチャートと同じ処理については同じ参
照符号を付して説明を省略することにする。
の求め方以外の部分は第2の実施形態と同じであるの
で、図7のフローチャートにおいて第2の実施形態を示
した図6のフローチャートと同じ処理については同じ参
照符号を付して説明を省略することにする。
【0087】累積聴覚重みフィルタ特性算出ステップS
405では、現フレーム(第mフレーム)のゲイン値g
m と聴覚重みフィルタのインパルス応答wm (n)およ
び前フレームの累積聴覚重みフィルタ特性rw
m-1 (n)を用いて、次に示す再帰式により現フレーム
の累積聴覚重みフィルタ特性rwm (n)を求める。
405では、現フレーム(第mフレーム)のゲイン値g
m と聴覚重みフィルタのインパルス応答wm (n)およ
び前フレームの累積聴覚重みフィルタ特性rw
m-1 (n)を用いて、次に示す再帰式により現フレーム
の累積聴覚重みフィルタ特性rwm (n)を求める。
【0088】 rwm (n)=gm wm (n)+φψn rwm-1 (n) (12) ここで、φは0<φ<1で過去のゲイン値の漏れの程度
を制御する定数、ψは0.9<ψ≦1の値で、過去の聴
覚重みフィルタのバンド幅の拡張の度合いを制御する定
数である。φの値は、大きくするほど過去のマスキング
の影響が現フレームに強く反映されるようになる。
を制御する定数、ψは0.9<ψ≦1の値で、過去の聴
覚重みフィルタのバンド幅の拡張の度合いを制御する定
数である。φの値は、大きくするほど過去のマスキング
の影響が現フレームに強く反映されるようになる。
【0089】式(12)と式(10)を比べると理解さ
れるように、再帰式を用いることにより累積聴覚重みフ
ィルタ特性を求めるための計算がさらに簡単化されてい
る。式(12)から求められるrwm (n)は、式(1
0)で過去の全てのフレームを使用して(すなわちL=
mとして)求められるawm (n)と理論的に等価であ
る。
れるように、再帰式を用いることにより累積聴覚重みフ
ィルタ特性を求めるための計算がさらに簡単化されてい
る。式(12)から求められるrwm (n)は、式(1
0)で過去の全てのフレームを使用して(すなわちL=
mとして)求められるawm (n)と理論的に等価であ
る。
【0090】重みフィルタ設定ステップS406では、
累積インパルス応答rwm (n)をrwm (0)で正規
化して現フレームの符号化に用いる重みフィルタの特性
Vm(z)を設定する。すなわち、 以上説明したように、第1の発明によれば、簡易な方法
で順向・同時・逆行のマスキング効果を用いて符号化雑
音の低減ができる音声符号化方法を提供することができ
る。
累積インパルス応答rwm (n)をrwm (0)で正規
化して現フレームの符号化に用いる重みフィルタの特性
Vm(z)を設定する。すなわち、 以上説明したように、第1の発明によれば、簡易な方法
で順向・同時・逆行のマスキング効果を用いて符号化雑
音の低減ができる音声符号化方法を提供することができ
る。
【0091】なお、第1の発明でピッチ重みフィルタの
特性P(z)を聴覚重みフィルタの特性の中に組み入れ
るときは、ピッチ重みフィルタの特性だけは常に現フレ
ームのものを用いて現フレームの符号化を行うようにす
る方法も有効であり、この方法も第1の発明に含まれ
る。
特性P(z)を聴覚重みフィルタの特性の中に組み入れ
るときは、ピッチ重みフィルタの特性だけは常に現フレ
ームのものを用いて現フレームの符号化を行うようにす
る方法も有効であり、この方法も第1の発明に含まれ
る。
【0092】次に、第2の発明の実施形態を説明する。 [第2の発明の実施形態] (第1の実施形態)図9に示すフローチャートを用い
て、第1の実施形態に係るゲイン制御方法を説明する。
ゲイン制御処理を行う段階として、駆動ベクトルの処理
の段で施す場合と、合成フィルタリングの処理の後段で
施す場合があるが、ここではゲイン制御を駆動ベクトル
処理の段で施す例について説明する。
て、第1の実施形態に係るゲイン制御方法を説明する。
ゲイン制御処理を行う段階として、駆動ベクトルの処理
の段で施す場合と、合成フィルタリングの処理の後段で
施す場合があるが、ここではゲイン制御を駆動ベクトル
処理の段で施す例について説明する。
【0093】まず、所定の方法で現区間の合成信号を表
すために必要な駆動ベクトルと合成フィルタの情報を得
る(ステップS10)。この処理は、例えば音声合成で
は表現しようとする音声の音韻に合わせて合成フィルタ
の情報を選択し、この区間の音声の有声/無声の程度に
合わせて駆動ベクトルの形状を選ぶことに相当する。
すために必要な駆動ベクトルと合成フィルタの情報を得
る(ステップS10)。この処理は、例えば音声合成で
は表現しようとする音声の音韻に合わせて合成フィルタ
の情報を選択し、この区間の音声の有声/無声の程度に
合わせて駆動ベクトルの形状を選ぶことに相当する。
【0094】次に、駆動ベクトルと合成フィルタの情報
を用いて合成フィルタ通過後の駆動ベクトルの実際のパ
ワ(以下、実パワという)を求める(ステップS1
1)。この方法の一例は、駆動ベクトルc(L×1行
列、Lはベクトルの次元)を入力として計算される合成
フィルタの零状態応答yのパワを求めることである。こ
のパワはyt yとして計算できるが、別の方法として合
成フィルタの畳み込みを表す行列H(M×L行列)を用
いてct Ht Hcとして求めることもできる。ここで、
M=Lとするとct Ht Hcはベクトルの次元分の長さ
の合成に対する実パワとなる。
を用いて合成フィルタ通過後の駆動ベクトルの実際のパ
ワ(以下、実パワという)を求める(ステップS1
1)。この方法の一例は、駆動ベクトルc(L×1行
列、Lはベクトルの次元)を入力として計算される合成
フィルタの零状態応答yのパワを求めることである。こ
のパワはyt yとして計算できるが、別の方法として合
成フィルタの畳み込みを表す行列H(M×L行列)を用
いてct Ht Hcとして求めることもできる。ここで、
M=Lとするとct Ht Hcはベクトルの次元分の長さ
の合成に対する実パワとなる。
【0095】次に、実パワと現区間の合成信号の大きさ
を表現するために必要な所定の方法で得られた付加ゲイ
ンgを用いて駆動ベクトルのゲインを制御する(ステッ
プS12)。より具体的には、例えば実パワを用いたス
ケール値1/sqrt(ctHt Hc)とgが結果とし
て駆動ベクトルに乗じられるようにする。こうすること
で、合成後の駆動ベクトルが持つパワをスケール値の乗
算によって精度良く吸収できるため、付加ゲインgによ
るゲイン制御がより正確なものになる。
を表現するために必要な所定の方法で得られた付加ゲイ
ンgを用いて駆動ベクトルのゲインを制御する(ステッ
プS12)。より具体的には、例えば実パワを用いたス
ケール値1/sqrt(ctHt Hc)とgが結果とし
て駆動ベクトルに乗じられるようにする。こうすること
で、合成後の駆動ベクトルが持つパワをスケール値の乗
算によって精度良く吸収できるため、付加ゲインgによ
るゲイン制御がより正確なものになる。
【0096】最後に、ゲイン制御された駆動ベクトルを
合成フィルタで合成して合成信号を生成する(ステップ
S13)。このような時間区間毎の処理を連続的に行
い、各区間毎に生成された合成信号が時間的に滑らかに
接続されるようにすることで、時間的に連続する長い信
号(例えば音声信号)を表現することができる。
合成フィルタで合成して合成信号を生成する(ステップ
S13)。このような時間区間毎の処理を連続的に行
い、各区間毎に生成された合成信号が時間的に滑らかに
接続されるようにすることで、時間的に連続する長い信
号(例えば音声信号)を表現することができる。
【0097】ここで強調しておきたいのは、上述の実パ
ワct Ht Hcやスケール値1/sqrt(ct Ht H
c)は推奨式であって、これ以外の計算方法がないとい
うことではないということである。重要なのは、付加ゲ
インを与える前の駆動ベクトルが合成フィルタを通過し
た後にどれだけのパワを持つかを、推定によるのではな
く実測によって求め、この影響を吸収する仕組みをゲイ
ン制御に導入することである。このことにより、付加ゲ
インによって効率的かつ安定的にゲイン制御を行うこと
ができるようになる。
ワct Ht Hcやスケール値1/sqrt(ct Ht H
c)は推奨式であって、これ以外の計算方法がないとい
うことではないということである。重要なのは、付加ゲ
インを与える前の駆動ベクトルが合成フィルタを通過し
た後にどれだけのパワを持つかを、推定によるのではな
く実測によって求め、この影響を吸収する仕組みをゲイ
ン制御に導入することである。このことにより、付加ゲ
インによって効率的かつ安定的にゲイン制御を行うこと
ができるようになる。
【0098】図10は、図9を用いて説明した処理をブ
ロック図で表したものである。端子100から駆動ベク
トルを指定する情報を入力し、これに基づき駆動ベクト
ル生成部103で駆動ベクトルを生成する。端子101
には合成フィルタを指定する情報を入力し、これに基づ
き合成フィルタ情報生成部104において合成フィルタ
を表す情報を求める。端子102から付加ゲインを指定
するための情報を入力し、これに基づきゲイン設定部1
05で付加ゲインを求める。
ロック図で表したものである。端子100から駆動ベク
トルを指定する情報を入力し、これに基づき駆動ベクト
ル生成部103で駆動ベクトルを生成する。端子101
には合成フィルタを指定する情報を入力し、これに基づ
き合成フィルタ情報生成部104において合成フィルタ
を表す情報を求める。端子102から付加ゲインを指定
するための情報を入力し、これに基づきゲイン設定部1
05で付加ゲインを求める。
【0099】実パワ計算部106は、駆動ベクトルの情
報と合成フィルタの情報を用いて上述した方法で実パワ
を求める。ゲイン制御部107は、実パワと付加ゲイン
を用いて駆動ベクトルのゲインを調節し、ゲイン制御さ
れた駆動ベクトルを合成フィルタ部108に入力する。
合成フィルタ部108は、合成フィルタ情報生成部10
4からの情報を基に駆動ベクトルを入力として合成フィ
ルタリングを行い、滑らかに接続されて合成された合成
信号を端子109へ出力する。
報と合成フィルタの情報を用いて上述した方法で実パワ
を求める。ゲイン制御部107は、実パワと付加ゲイン
を用いて駆動ベクトルのゲインを調節し、ゲイン制御さ
れた駆動ベクトルを合成フィルタ部108に入力する。
合成フィルタ部108は、合成フィルタ情報生成部10
4からの情報を基に駆動ベクトルを入力として合成フィ
ルタリングを行い、滑らかに接続されて合成された合成
信号を端子109へ出力する。
【0100】図11は、実パワの計算部を実現する一例
として書かれたさらに詳細なブロック図である。同図に
おいて、合成フィルタ情報から得られるフィルタ係数を
用いた合成フィルタ110にフィルタの内部状態が零の
条件で駆動ベクトルを通過させて合成された駆動ベクト
ルを生成し、パワ計算部111で合成さたれ駆動ベクト
ルのパワを計算することにより実パワを得る。これが実
パワ計算部106の出力となる。
として書かれたさらに詳細なブロック図である。同図に
おいて、合成フィルタ情報から得られるフィルタ係数を
用いた合成フィルタ110にフィルタの内部状態が零の
条件で駆動ベクトルを通過させて合成された駆動ベクト
ルを生成し、パワ計算部111で合成さたれ駆動ベクト
ルのパワを計算することにより実パワを得る。これが実
パワ計算部106の出力となる。
【0101】(第2の実施形態)図12に示すフローチ
ャートを用いて、第2の実施形態に係るゲイン制御方法
を説明する。ここでは、推定したゲインとそれを補うた
めのゲイン(デルタゲインと呼ぶことにする)を用いて
付加ゲインを表現する構成のゲイン制御方法について説
明する。なお、本実施形態はゲイン処理以外の処理につ
いては第1の実施形態で説明したものと同じであるの
で、このような処理部分については説明を省略すること
にする。
ャートを用いて、第2の実施形態に係るゲイン制御方法
を説明する。ここでは、推定したゲインとそれを補うた
めのゲイン(デルタゲインと呼ぶことにする)を用いて
付加ゲインを表現する構成のゲイン制御方法について説
明する。なお、本実施形態はゲイン処理以外の処理につ
いては第1の実施形態で説明したものと同じであるの
で、このような処理部分については説明を省略すること
にする。
【0102】図12において、ステップS30,S31
の処理は図9におけるステップS10,S11と同じで
ある。ステップS31の処理の後、現区間に対し合成信
号の好ましい大きさを推定するために所定の方法のゲイ
ン推定処理により、ゲイン推定値g*を得る(ステップ
S32)。
の処理は図9におけるステップS10,S11と同じで
ある。ステップS31の処理の後、現区間に対し合成信
号の好ましい大きさを推定するために所定の方法のゲイ
ン推定処理により、ゲイン推定値g*を得る(ステップ
S32)。
【0103】次に、より好ましい付加ゲインを得るた
め、推定ゲインを補う役割をするデルタゲインδを複数
候補の中から所定の方法で得る(ステップS33)。
め、推定ゲインを補う役割をするデルタゲインδを複数
候補の中から所定の方法で得る(ステップS33)。
【0104】そして、得られた付加ゲイン(例えばg*
×δ)を用いて駆動ベクトルのゲインを制御する(ステ
ップ34)。より具体的には、1/sqrt(ct Ht
Hc)とg*とδが結果として駆動ベクトルに乗じられ
るようにする。
×δ)を用いて駆動ベクトルのゲインを制御する(ステ
ップ34)。より具体的には、1/sqrt(ct Ht
Hc)とg*とδが結果として駆動ベクトルに乗じられ
るようにする。
【0105】最後に、ゲイン制御された駆動ベクトルを
合成フィルタで合成して合成信号を生成する(ステップ
S35)。
合成フィルタで合成して合成信号を生成する(ステップ
S35)。
【0106】ゲイン推定の具体的な方法として、近い過
去に使用したゲイン情報を利用して現区間のゲインを推
定する方法がある。これには学習により設定したゲイン
推定のためのパラメータを用いる必要がある。このパラ
メータと過去のゲイン情報を組み合わせて、現在に用い
るゲインの大きさを推定することができる。パラメータ
は予め学習して決めた値を用いる方法と、予め決められ
たルールに基づいて処理を行いながら逐次的に計算する
方法がある。また、ゲイン推定のための別の方法として
は、合成フィルタの特性や駆動ベクトルの周期特性を基
にゲイン推定値を決める方法が考えられる。例えば、合
成信号が音声信号を表すような応用分野では、合成フィ
ルタは音韻情報を表し、音韻(または音素)の種類やピ
ッチ周期の大きさ等によって音声のパワの大きさに偏り
があるため、これを利用することはゲインの推定に有効
である。また上述の2つのゲイン推定方法を組み合わせ
て使用することも可能である。
去に使用したゲイン情報を利用して現区間のゲインを推
定する方法がある。これには学習により設定したゲイン
推定のためのパラメータを用いる必要がある。このパラ
メータと過去のゲイン情報を組み合わせて、現在に用い
るゲインの大きさを推定することができる。パラメータ
は予め学習して決めた値を用いる方法と、予め決められ
たルールに基づいて処理を行いながら逐次的に計算する
方法がある。また、ゲイン推定のための別の方法として
は、合成フィルタの特性や駆動ベクトルの周期特性を基
にゲイン推定値を決める方法が考えられる。例えば、合
成信号が音声信号を表すような応用分野では、合成フィ
ルタは音韻情報を表し、音韻(または音素)の種類やピ
ッチ周期の大きさ等によって音声のパワの大きさに偏り
があるため、これを利用することはゲインの推定に有効
である。また上述の2つのゲイン推定方法を組み合わせ
て使用することも可能である。
【0107】図13は、図12を用いて説明した処理を
ブロック図で表したものである。端子120から駆動ベ
クトルを指定する情報を入力し、これに基づき駆動ベク
トル生成部124で駆動ベクトルを生成する。端子12
1には合成フィルタを指定する情報を入力し、これに基
づき合成フィルタ情報生成部125において合成フィル
タを表す情報を求める。端子122からデルタゲインを
指定するための情報を入力し、これに基づきデルタゲイ
ン設定部126でデルタゲインを求める。端子123か
らゲイン推定に用いるための情報を入力し、この情報に
基づきゲイン推定部127において推定ゲインを求め
る。
ブロック図で表したものである。端子120から駆動ベ
クトルを指定する情報を入力し、これに基づき駆動ベク
トル生成部124で駆動ベクトルを生成する。端子12
1には合成フィルタを指定する情報を入力し、これに基
づき合成フィルタ情報生成部125において合成フィル
タを表す情報を求める。端子122からデルタゲインを
指定するための情報を入力し、これに基づきデルタゲイ
ン設定部126でデルタゲインを求める。端子123か
らゲイン推定に用いるための情報を入力し、この情報に
基づきゲイン推定部127において推定ゲインを求め
る。
【0108】実パワ計算部128は、駆動ベクトルの情
報と合成フィルタの情報を用いて上述した方法で実パワ
を求める。ゲイン制御部129は、実パワとデルタゲイ
ンと推定ゲインを用いて駆動ベクトルのゲインを調節
し、ゲイン制御された駆動ベクトルを合成フィルタ部1
30に入力する。合成フィルタ部130は、合成フィル
タ情報生成部からの情報をもとに駆動ベクトルを入力と
して合成フィルタリングを行い、滑らかに接続された合
成信号を端子131に出力する。
報と合成フィルタの情報を用いて上述した方法で実パワ
を求める。ゲイン制御部129は、実パワとデルタゲイ
ンと推定ゲインを用いて駆動ベクトルのゲインを調節
し、ゲイン制御された駆動ベクトルを合成フィルタ部1
30に入力する。合成フィルタ部130は、合成フィル
タ情報生成部からの情報をもとに駆動ベクトルを入力と
して合成フィルタリングを行い、滑らかに接続された合
成信号を端子131に出力する。
【0109】(第3の実施形態)図14に示すフローチ
ャートを用いて第3の実施形態に係るゲイン制御方法を
説明する。本実施形態では、駆動ベクトルがピッチベク
トルと雑音ベクトルの結合で表現される構成で合成フィ
ルタとゲイン制御を用いて合成信号を生成する方法につ
いて説明する。このような方法は、音声信号や楽音信号
などのピッチ周期性を有する区間の信号を表現する場合
に特に有効である。ここでは、ゲイン制御をピッチベク
トル用のゲイン制御と雑音ベクトル用のゲイン制御とに
分けて行う方法について説明する。
ャートを用いて第3の実施形態に係るゲイン制御方法を
説明する。本実施形態では、駆動ベクトルがピッチベク
トルと雑音ベクトルの結合で表現される構成で合成フィ
ルタとゲイン制御を用いて合成信号を生成する方法につ
いて説明する。このような方法は、音声信号や楽音信号
などのピッチ周期性を有する区間の信号を表現する場合
に特に有効である。ここでは、ゲイン制御をピッチベク
トル用のゲイン制御と雑音ベクトル用のゲイン制御とに
分けて行う方法について説明する。
【0110】まず、所定の方法で現区間の合成信号を表
すために必要なピッチベクトルc0と雑音ベクトルc1
および合成フィルタの情報を得る(ステップS50)。
すために必要なピッチベクトルc0と雑音ベクトルc1
および合成フィルタの情報を得る(ステップS50)。
【0111】次に、ピッチベクトルと合成フィルタの情
報を用いて合成フィルタ通過後のピッチベクトルの実バ
ワを求め、同様に雑音ベクトルと合成フィルタの情報を
用いて合成フィルタ通過後の雑音ベクトルの実パワを求
める(ステップ51)。
報を用いて合成フィルタ通過後のピッチベクトルの実バ
ワを求め、同様に雑音ベクトルと合成フィルタの情報を
用いて合成フィルタ通過後の雑音ベクトルの実パワを求
める(ステップ51)。
【0112】次に、ピッチベクトルに対して求められた
実パワと所定の方法で得られるピッチベクトル用の付加
ゲインg0 を用いてピッチベクトルのゲインを制御し、
また同様に、雑音ベクトルに対して求められた実パワと
所定の方法で得られる雑音ベクトル用の付加ゲインg1
を用いて雑音ベクトルのゲインを制御する(ステップ5
2)。より具体的には、例えば、ピッチベクトルに対し
てはスケール値1/sqrt(c0 t Ht Hc0 )とg
0 が結果としてピッチベクトルに乗じられるようにす
る。また、雑音ベクトルに対してはスケール値1/sq
rt(c1 t HtHc1 )とg1 が結果として雑音ベク
トルに乗じられるようにする。
実パワと所定の方法で得られるピッチベクトル用の付加
ゲインg0 を用いてピッチベクトルのゲインを制御し、
また同様に、雑音ベクトルに対して求められた実パワと
所定の方法で得られる雑音ベクトル用の付加ゲインg1
を用いて雑音ベクトルのゲインを制御する(ステップ5
2)。より具体的には、例えば、ピッチベクトルに対し
てはスケール値1/sqrt(c0 t Ht Hc0 )とg
0 が結果としてピッチベクトルに乗じられるようにす
る。また、雑音ベクトルに対してはスケール値1/sq
rt(c1 t HtHc1 )とg1 が結果として雑音ベク
トルに乗じられるようにする。
【0113】そして、ゲイン制御された後のピッチベク
トルと雑音ベクトルを結合して駆動ベクトルを生成する
(ステップS53)。
トルと雑音ベクトルを結合して駆動ベクトルを生成する
(ステップS53)。
【0114】最後に、生成された駆動ベクトルを合成フ
ィルタで合成して滑らかに接続された合成信号を生成す
る(ステップS54)。
ィルタで合成して滑らかに接続された合成信号を生成す
る(ステップS54)。
【0115】このような構成で駆動ベクトルを表現する
と、駆動ベクトルがピッチ周期的成分が多く支配してい
るか雑音的な成分が多く支配しているかを付加ゲインg
0 ,g1 の大小比較に基づいて判断することができるよ
うになる。
と、駆動ベクトルがピッチ周期的成分が多く支配してい
るか雑音的な成分が多く支配しているかを付加ゲインg
0 ,g1 の大小比較に基づいて判断することができるよ
うになる。
【0116】すなわち、g0 >g1 のときは雑音性より
もピッチ周期性の寄与が強い合成信号が生成されること
が判る。この判断は従来法でもある程度はできたが、本
発明ではg0 ,g1 の値によって明瞭にピッチと雑音の
成分の寄与度が現れるため、合成信号の周期性の制御を
より正確に行うことができるという効果がある。
もピッチ周期性の寄与が強い合成信号が生成されること
が判る。この判断は従来法でもある程度はできたが、本
発明ではg0 ,g1 の値によって明瞭にピッチと雑音の
成分の寄与度が現れるため、合成信号の周期性の制御を
より正確に行うことができるという効果がある。
【0117】図15は、図14を用いて説明した処理を
ブロック図で表したものである。端子200からピッチ
ベクトルを指定する情報を入力し、これに基づきピッチ
ベクトル生成部204でピッチベクトルを生成する。端
子201から雑音ベクトルを指定する情報を入力し、こ
れに基づき雑音ベクトル生成部205で雑音ベクトルを
生成する。端子202には合成フィルタを求めるための
情報を入力し、これに基づき合成フィルタ情報生成部2
06におてい合成フィルタ情報を求める。端子203か
ら付加ゲインを指定するための情報を入力し、これに基
づきゲイン設定部207で2種類の付加ゲインg0 ,g
1 を求める。ここでg0 はピッチベクトルに用いる付加
ゲイン、g1 は雑音ベクトルに用いる付加ゲインを表
す。
ブロック図で表したものである。端子200からピッチ
ベクトルを指定する情報を入力し、これに基づきピッチ
ベクトル生成部204でピッチベクトルを生成する。端
子201から雑音ベクトルを指定する情報を入力し、こ
れに基づき雑音ベクトル生成部205で雑音ベクトルを
生成する。端子202には合成フィルタを求めるための
情報を入力し、これに基づき合成フィルタ情報生成部2
06におてい合成フィルタ情報を求める。端子203か
ら付加ゲインを指定するための情報を入力し、これに基
づきゲイン設定部207で2種類の付加ゲインg0 ,g
1 を求める。ここでg0 はピッチベクトルに用いる付加
ゲイン、g1 は雑音ベクトルに用いる付加ゲインを表
す。
【0118】実パワ計算部208は、ピッチベクトルの
情報と合成フィルタの情報を用いて上述した方法で実パ
ワを求める。これと同様にして、実パワ計算部209は
さらに雑音ベクトルの情報と合成フィルタの情報を用い
て上述した方法で実パワを求める。ゲイン制御部210
は、ピッチベクトルを用いて求めた実パワとゲイン設定
部からの付加ゲインg0 を用いてピッチベクトルのゲイ
ンを制御する。
情報と合成フィルタの情報を用いて上述した方法で実パ
ワを求める。これと同様にして、実パワ計算部209は
さらに雑音ベクトルの情報と合成フィルタの情報を用い
て上述した方法で実パワを求める。ゲイン制御部210
は、ピッチベクトルを用いて求めた実パワとゲイン設定
部からの付加ゲインg0 を用いてピッチベクトルのゲイ
ンを制御する。
【0119】ゲイン制御部211は、雑音ベクトルを用
いて求めた実パワとゲイン設定部207からの付加ゲイ
ンg1 を用いて雑音ベクトルのゲインを制御する。加算
部214は、ゲイン制御されたピッチベクトルと雑音ベ
クトルのベクトル加算結合により駆動ベクトルを生成
し、これを合成フィルタ部212に入力する。合成フィ
ルタ部212は、合成フィルタ情報生成部からの情報を
基に駆動ベクトルを入力として合成フィルタリングを行
い、滑らかに接続されて合成された合成信号を端子21
3に出力する。
いて求めた実パワとゲイン設定部207からの付加ゲイ
ンg1 を用いて雑音ベクトルのゲインを制御する。加算
部214は、ゲイン制御されたピッチベクトルと雑音ベ
クトルのベクトル加算結合により駆動ベクトルを生成
し、これを合成フィルタ部212に入力する。合成フィ
ルタ部212は、合成フィルタ情報生成部からの情報を
基に駆動ベクトルを入力として合成フィルタリングを行
い、滑らかに接続されて合成された合成信号を端子21
3に出力する。
【0120】(第4の実施形態)図16に示すフローチ
ャートを用いて第4の実施形態に係るゲイン制御方法を
説明する。ここでは、推定したゲインとそれを補うため
のゲイン(デルタゲインと呼ぶことにする)を用いて、
ピッチベクトルと雑音ベクトルとで駆動信号を構成する
場合のゲイン制御方法について説明する。なお、本実施
形態ではゲイン処理以外の処理については第3の実施形
態で説明したものと同じであるので、このような処理部
分については説明を省略することにする。
ャートを用いて第4の実施形態に係るゲイン制御方法を
説明する。ここでは、推定したゲインとそれを補うため
のゲイン(デルタゲインと呼ぶことにする)を用いて、
ピッチベクトルと雑音ベクトルとで駆動信号を構成する
場合のゲイン制御方法について説明する。なお、本実施
形態ではゲイン処理以外の処理については第3の実施形
態で説明したものと同じであるので、このような処理部
分については説明を省略することにする。
【0121】まず、所定の方法で現区間の合成信号を表
すために必要なピッチベクトルc0と雑音ベクトルc1
と合成フィルタの情報を得る(ステップS70)。
すために必要なピッチベクトルc0と雑音ベクトルc1
と合成フィルタの情報を得る(ステップS70)。
【0122】次に、ピッチベクトルと合成フィルタの情
報を用いて合成フィルタ通過後のピッチベクトルの実パ
ワを求め、同様に雑音ベクトルと合成フィルタの情報を
用いて合成フィルタ通過後の雑音ベクトルの実パワを求
める(ステップS71)。
報を用いて合成フィルタ通過後のピッチベクトルの実パ
ワを求め、同様に雑音ベクトルと合成フィルタの情報を
用いて合成フィルタ通過後の雑音ベクトルの実パワを求
める(ステップS71)。
【0123】次に、ピッチベクトルに用いる推定ゲイン
g0 *を所定のゲイン推定法により求める(ステップS
72)。
g0 *を所定のゲイン推定法により求める(ステップS
72)。
【0124】次に、雑音ベクトルを用いる推定ゲインg
1 *を所定のゲイン推定法により求める(ステップS7
2)。ここで用いるゲイン推定法は、第2の実施形態で
述べた方法と同様の原理を用いることができる。また、
過去の駆動信号のピッチ周期性の有無の程度も加味して
ゲインを推定する方法も有効である。
1 *を所定のゲイン推定法により求める(ステップS7
2)。ここで用いるゲイン推定法は、第2の実施形態で
述べた方法と同様の原理を用いることができる。また、
過去の駆動信号のピッチ周期性の有無の程度も加味して
ゲインを推定する方法も有効である。
【0125】次に、より好ましい付加ゲインを得るた
め、推定ゲインを補う役割をするピッチベクトル用のデ
ルタゲインδ0 と雑音ベクトル用のデルタゲインδ1 を
所定の方法で得る(ステップS73)。
め、推定ゲインを補う役割をするピッチベクトル用のデ
ルタゲインδ0 と雑音ベクトル用のデルタゲインδ1 を
所定の方法で得る(ステップS73)。
【0126】次に、ピッチベクトル用の実パワ、推定ゲ
インg0 *、デルタゲインδ0 を用いてピッチベクトル
のゲインを制御し、同様に雑音ベクトル用の実パワ、推
定ゲインg1 *、デルタゲインδ1 を用いて雑音ベクト
ルのゲインを制御する(ステップS74)。より具体的
には、例えば、ピッチベクトルに対してはスケール値1
/sqrt(c0 t Ht Hc0 )とg0 *とδ0 が結果
としてピッチベクトルに乗じられるようにする。また、
雑音ベクトルに対してはスケール値1/sqrt(c1
t Ht Hc1 )とg1 *とδ1 が結果として雑音ベクト
ルに乗じられるようにする。
インg0 *、デルタゲインδ0 を用いてピッチベクトル
のゲインを制御し、同様に雑音ベクトル用の実パワ、推
定ゲインg1 *、デルタゲインδ1 を用いて雑音ベクト
ルのゲインを制御する(ステップS74)。より具体的
には、例えば、ピッチベクトルに対してはスケール値1
/sqrt(c0 t Ht Hc0 )とg0 *とδ0 が結果
としてピッチベクトルに乗じられるようにする。また、
雑音ベクトルに対してはスケール値1/sqrt(c1
t Ht Hc1 )とg1 *とδ1 が結果として雑音ベクト
ルに乗じられるようにする。
【0127】そして、ゲイン制御された後のピッチベク
トルと雑音ベクトルを結合して駆動ベクトルを生成する
(ステップS75)。
トルと雑音ベクトルを結合して駆動ベクトルを生成する
(ステップS75)。
【0128】最後に、生成された駆動ベクトルを合成フ
ィルタで合成して合成信号を生成する(ステップS7
6)。
ィルタで合成して合成信号を生成する(ステップS7
6)。
【0129】図17は、図16を用いて説明した処理を
ブロック図で表したものである。端子300からピッチ
ベクトルを指定する情報を入力し、これに基づきピッチ
ベクトル生成部305でピッチベクトルを生成する。端
子301から雑音ベクトルを指定する情報を入力し、こ
れに基づき雑音ベクトル生成部306で雑音ベクトルを
生成する。端子302には合成フィルタを求めるための
情報を入力し、これに基づき合成フィルタ情報生成部3
07において合成フィルタ情報を求める。端子303か
らデルタゲインを指定するための情報を入力し、これに
基づきデルタゲイン設定部308で上述した2種類のデ
ルタゲインδ0 ,δ1 を求める。端子304からゲイン
推定に用いるための情報を入力し、この情報に基づきゲ
イン推定部309において上述した2種類の推定ゲイン
g0 *,g1 *を求める。
ブロック図で表したものである。端子300からピッチ
ベクトルを指定する情報を入力し、これに基づきピッチ
ベクトル生成部305でピッチベクトルを生成する。端
子301から雑音ベクトルを指定する情報を入力し、こ
れに基づき雑音ベクトル生成部306で雑音ベクトルを
生成する。端子302には合成フィルタを求めるための
情報を入力し、これに基づき合成フィルタ情報生成部3
07において合成フィルタ情報を求める。端子303か
らデルタゲインを指定するための情報を入力し、これに
基づきデルタゲイン設定部308で上述した2種類のデ
ルタゲインδ0 ,δ1 を求める。端子304からゲイン
推定に用いるための情報を入力し、この情報に基づきゲ
イン推定部309において上述した2種類の推定ゲイン
g0 *,g1 *を求める。
【0130】実パワ計算部310は、ピッチベクトルの
情報と合成フィルタの情報を用いて上述した方法で実パ
ワを求める。これと同様にして、実パワ計算部311は
雑音ベクトルの情報と合成フィルタの情報を用いて上述
した方法で実パワを求める。ゲイン制御部312は、ピ
ッチベクトルを用いて求めた実パワ、推定ゲインg
0*,デルタゲインδ0 を用いてピッチベクトルのゲイ
ンを制御する。ゲイン制御部313は、雑音ベクトルを
用いて求めた実パワ、推定ゲインg1 *,デルタゲイン
δ1 を用いて雑音ベクトルのゲインを制御する。
情報と合成フィルタの情報を用いて上述した方法で実パ
ワを求める。これと同様にして、実パワ計算部311は
雑音ベクトルの情報と合成フィルタの情報を用いて上述
した方法で実パワを求める。ゲイン制御部312は、ピ
ッチベクトルを用いて求めた実パワ、推定ゲインg
0*,デルタゲインδ0 を用いてピッチベクトルのゲイ
ンを制御する。ゲイン制御部313は、雑音ベクトルを
用いて求めた実パワ、推定ゲインg1 *,デルタゲイン
δ1 を用いて雑音ベクトルのゲインを制御する。
【0131】加算部316は、ゲイン制御されたピッチ
ベクトルと雑音ベクトルのベクトル加算により駆動ベク
トルを生成し、これを合成フィルタ部314に入力す
る。合成フィルタ部314は、合成フィルタ情報生成部
か307らの情報を基に駆動ベクトルを入力として合成
フィルタリングを行い、滑らかに接続されて合成された
合成信号を端子315に出力する。
ベクトルと雑音ベクトルのベクトル加算により駆動ベク
トルを生成し、これを合成フィルタ部314に入力す
る。合成フィルタ部314は、合成フィルタ情報生成部
か307らの情報を基に駆動ベクトルを入力として合成
フィルタリングを行い、滑らかに接続されて合成された
合成信号を端子315に出力する。
【0132】(第5の実施形態)本実施形態では、第4
の実施形態で説明したゲイン制御をCELP方式の音声
符号化におけるゲイン符号化および復号化に適用した例
について説明する。
の実施形態で説明したゲイン制御をCELP方式の音声
符号化におけるゲイン符号化および復号化に適用した例
について説明する。
【0133】図18は、本実施形態に係るゲイン符号化
/復号化方法を示すフローチャートである。
/復号化方法を示すフローチャートである。
【0134】同図において、まず合成フィルタの特性を
所定の符号化ビット数で表すために合成フィルタ情報を
符号化する(ステップS90)。合成フィルタ情報の符
号化法としては、例えばLPC分析により入力音声信号
からLPC係数を求め、これをLSP係数に変換してL
SP係数のレベルで符号化する方法を用いることができ
る。そして、符号化されたLSP係数から逆変換処理に
より合成フィルタの係数に変換される。
所定の符号化ビット数で表すために合成フィルタ情報を
符号化する(ステップS90)。合成フィルタ情報の符
号化法としては、例えばLPC分析により入力音声信号
からLPC係数を求め、これをLSP係数に変換してL
SP係数のレベルで符号化する方法を用いることができ
る。そして、符号化されたLSP係数から逆変換処理に
より合成フィルタの係数に変換される。
【0135】通常、CELP方式では聞いた感じの音声
品質を上げるために、駆動信号を構成する要素の符号化
処理に、入力音声信号から抽出したスペクトル特性から
得られる聴覚重み特性を用いた歪み尺度を導入する。こ
のため、符号化側では聴覚重み付きの合成フィルタを使
用し、復号化側では重み付けの無い通常の合成フィルタ
を用いる。
品質を上げるために、駆動信号を構成する要素の符号化
処理に、入力音声信号から抽出したスペクトル特性から
得られる聴覚重み特性を用いた歪み尺度を導入する。こ
のため、符号化側では聴覚重み付きの合成フィルタを使
用し、復号化側では重み付けの無い通常の合成フィルタ
を用いる。
【0136】本発明では、このように符号化側と復号化
側で異なる合成フィルタの特性を用いるような場合にお
いても、ピッチベクトルおよび雑音ベクトルの実パワの
計算には符号化側、復号化側共に共通の合成フィルタを
用いるようにすることが望ましい。より具体的には、聴
覚重み付けのない通常の合成フィルタの特性を用いて実
パワの計算を行うようにする。
側で異なる合成フィルタの特性を用いるような場合にお
いても、ピッチベクトルおよび雑音ベクトルの実パワの
計算には符号化側、復号化側共に共通の合成フィルタを
用いるようにすることが望ましい。より具体的には、聴
覚重み付けのない通常の合成フィルタの特性を用いて実
パワの計算を行うようにする。
【0137】次に、ピッチベクトルの符号化を行う(ス
テップS91)。ピッチベクトルの符号化方法として
は、開ループ分析法であるピッチ分析法や閉ループ分析
法である適応コードブック探索法を用いることができ
る。
テップS91)。ピッチベクトルの符号化方法として
は、開ループ分析法であるピッチ分析法や閉ループ分析
法である適応コードブック探索法を用いることができ
る。
【0138】次に、雑音ベクトルの符号化を行う(ステ
ップS92)。雑音ベクトルの符号化法としては、雑音
コードブックを用いたベクトル量子化を利用することが
できる。このベクトル量子化の際には、CELP方式で
通常用いられている聴覚重み付きの合成フィルタを通し
たレベルでの歪み評価基準を用いると、より高品質な音
声を再生できる雑音ベクトルを選ぶことが可能である。
ップS92)。雑音ベクトルの符号化法としては、雑音
コードブックを用いたベクトル量子化を利用することが
できる。このベクトル量子化の際には、CELP方式で
通常用いられている聴覚重み付きの合成フィルタを通し
たレベルでの歪み評価基準を用いると、より高品質な音
声を再生できる雑音ベクトルを選ぶことが可能である。
【0139】次に、本発明の骨子であるゲイン制御方法
を応用したゲイン符号化を行う。
を応用したゲイン符号化を行う。
【0140】まず、ピッチベクトルと合成フィルタの情
報を用いて合成フィルタ通過後のピッチベクトルの実バ
ワを求め、同様に雑音ベクトルと合成フィルタの情報を
用いて合成フィルタ通過後の雑音ベクトルの実パワを求
める(ステップS93)。
報を用いて合成フィルタ通過後のピッチベクトルの実バ
ワを求め、同様に雑音ベクトルと合成フィルタの情報を
用いて合成フィルタ通過後の雑音ベクトルの実パワを求
める(ステップS93)。
【0141】次に、ピッチベクトルに用いる推定ゲイン
g0 *を所定のゲイン推定法により求め、同様に雑音ベ
クトルに用いる推定ゲインg1 *を所定のゲイン推定法
により求める(ステップS94)。ここで用いるゲイン
推定法は、第2の実施形態で述べた方法と同様の原理を
用いることができる。また、過去の駆動信号のピッチ周
期性の有無の程度も加味してゲインを推定する方法も有
効である。
g0 *を所定のゲイン推定法により求め、同様に雑音ベ
クトルに用いる推定ゲインg1 *を所定のゲイン推定法
により求める(ステップS94)。ここで用いるゲイン
推定法は、第2の実施形態で述べた方法と同様の原理を
用いることができる。また、過去の駆動信号のピッチ周
期性の有無の程度も加味してゲインを推定する方法も有
効である。
【0142】次に、より好ましい付加ゲインを得るた
め、推定ゲインを補う役割をするピッチベクトル用のデ
ルタゲインδ0 と雑音ベクトル用のデルタゲインδ1 を
所定の方法の符号化探索により得る(ステップS9
5)。この際、それぞれのデルタゲインの探索は、符号
化により生じる歪みができるだけ少なくなることを基準
に行う。また、符号化ビット数の割り当てによっては探
索候補が非常に多くなるために全探索では計算量的に問
題があるような場合は、符号化歪みだけでなく計算量も
考慮した候補のふるい掛けや木探索などの準最適な探索
法を用いることが有効となる。
め、推定ゲインを補う役割をするピッチベクトル用のデ
ルタゲインδ0 と雑音ベクトル用のデルタゲインδ1 を
所定の方法の符号化探索により得る(ステップS9
5)。この際、それぞれのデルタゲインの探索は、符号
化により生じる歪みができるだけ少なくなることを基準
に行う。また、符号化ビット数の割り当てによっては探
索候補が非常に多くなるために全探索では計算量的に問
題があるような場合は、符号化歪みだけでなく計算量も
考慮した候補のふるい掛けや木探索などの準最適な探索
法を用いることが有効となる。
【0143】次に、デルタゲインのより具体的な探索方
法の一例について説明する。
法の一例について説明する。
【0144】デルタゲインの探索は、次の評価式で表さ
れる符号化歪みが小さくなるようにデルタゲインの符号
を選択することで実現することができる。
れる符号化歪みが小さくなるようにデルタゲインの符号
を選択することで実現することができる。
【0145】
【数2】
【0146】ここで、Xw(n)は入力音声信号と聴覚
重み特性を用いて得られる符号化の目標ベクトル(目標
信号)、Yw0(n)およびYw1(n)は、それぞれ
聴覚重み付き合成されたピッチベクトルおよび聴覚重み
付き合成された雑音ベクトルを表す。また、
重み特性を用いて得られる符号化の目標ベクトル(目標
信号)、Yw0(n)およびYw1(n)は、それぞれ
聴覚重み付き合成されたピッチベクトルおよび聴覚重み
付き合成された雑音ベクトルを表す。また、
【数3】
【0147】は、それぞれピッチベクトルと雑音ベクト
ルに関して求められた実パワであり、Y0 (m)とY1
(m)は聴覚重みを用いないで合成したときのピッチベ
クトルと雑音ベクトルを表す。
ルに関して求められた実パワであり、Y0 (m)とY1
(m)は聴覚重みを用いないで合成したときのピッチベ
クトルと雑音ベクトルを表す。
【0148】また、別の表現方法として、上述の実パワ
値はピッチベクトルc0、雑音ベクトルc1、合成フィ
ルタ処理を表す行列Hを用いて、それぞれc0 tHt H
c0,c1t Ht Hc1と表すことも可能である。音声
符号化の構成によっては、実パワの求め方をさらに別の
形の数式を基に求めることも可能である。重要なのは、
合成フィルタを通過したときのピッチベクトルや雑音ベ
クトルのパワに相当する値を実測することである。イン
デックスi毎のデルタゲインδ0 (i) ,δ1 (i ) を用い
て上式の符号化歪みが小さくなるようなインデックスI
を探索することにより、デルタゲインの符号化を実現す
ることができる。探索されたインデックスIに対応する
デルタゲインをそれぞれδ0 、δ1 とする。
値はピッチベクトルc0、雑音ベクトルc1、合成フィ
ルタ処理を表す行列Hを用いて、それぞれc0 tHt H
c0,c1t Ht Hc1と表すことも可能である。音声
符号化の構成によっては、実パワの求め方をさらに別の
形の数式を基に求めることも可能である。重要なのは、
合成フィルタを通過したときのピッチベクトルや雑音ベ
クトルのパワに相当する値を実測することである。イン
デックスi毎のデルタゲインδ0 (i) ,δ1 (i ) を用い
て上式の符号化歪みが小さくなるようなインデックスI
を探索することにより、デルタゲインの符号化を実現す
ることができる。探索されたインデックスIに対応する
デルタゲインをそれぞれδ0 、δ1 とする。
【0149】次に、ピッチベクトル用の実パワ、推定ゲ
インg0 *、デルタゲインδ0 を用いてピッチベクトル
のゲインを制御し、同様に雑音ベクトル用の実パワ、推
定ゲインg1 *、デルタゲインδ1 を用いて雑音ベクト
ルのゲインを制御する(ステップS96)。より具体的
には、例えば、ピッチベクトルに対してはスケール値1
/sqrt(c0 t Ht Hc0 )または
インg0 *、デルタゲインδ0 を用いてピッチベクトル
のゲインを制御し、同様に雑音ベクトル用の実パワ、推
定ゲインg1 *、デルタゲインδ1 を用いて雑音ベクト
ルのゲインを制御する(ステップS96)。より具体的
には、例えば、ピッチベクトルに対してはスケール値1
/sqrt(c0 t Ht Hc0 )または
【数4】
【0150】とg0 *とδ0 が結果としてピッチベクト
ルに乗じられるようにする。また、雑音ベクトルに対し
てはスケール値1/sqrt(c1 t Ht Hc1 )また
は
ルに乗じられるようにする。また、雑音ベクトルに対し
てはスケール値1/sqrt(c1 t Ht Hc1 )また
は
【数5】
【0151】と、g1 *とδ1 が結果として雑音ベクト
ルに乗じられるようにする。そして、ゲイン制御された
後のピッチベクトルと雑音ベクトルを結合して駆動ベク
トルを生成する(ステップS97)。最後に、生成され
た駆動ベクトルを合成フィルタで合成して合成信号を生
成する(ステップS98)。
ルに乗じられるようにする。そして、ゲイン制御された
後のピッチベクトルと雑音ベクトルを結合して駆動ベク
トルを生成する(ステップS97)。最後に、生成され
た駆動ベクトルを合成フィルタで合成して合成信号を生
成する(ステップS98)。
【0152】図19は、図18を用いて説明した処理を
ブロック図で表したものである。端子400には、符号
化対象となる音声信号を所定の時間区間毎に入力する。
合成フィルタ情報符号化部403は、入力音声を基に音
声スペクトルの概形を表す合成フィルタの情報を符号化
により得る。合成フィルタの符号情報は端子422に出
力される。
ブロック図で表したものである。端子400には、符号
化対象となる音声信号を所定の時間区間毎に入力する。
合成フィルタ情報符号化部403は、入力音声を基に音
声スペクトルの概形を表す合成フィルタの情報を符号化
により得る。合成フィルタの符号情報は端子422に出
力される。
【0153】ピッチベクトル符号化部401は、入力音
声信号を基に音声信号に含まれるピッチの繰り返しを表
すための駆動ベクトル(ピッチベクトル)の情報を抽出
し、これを符号化する。ピッチベクトルの符号情報は端
子420に出力される。
声信号を基に音声信号に含まれるピッチの繰り返しを表
すための駆動ベクトル(ピッチベクトル)の情報を抽出
し、これを符号化する。ピッチベクトルの符号情報は端
子420に出力される。
【0154】雑音ベクトル符号化部402は、入力音声
信号を基に音声信号に含まれる雑音成分を表すためのベ
クトル(雑音ベクトル)の情報を抽出し、これを符号化
する。雑音ベクトルの符号情報は端子421に出力され
る。
信号を基に音声信号に含まれる雑音成分を表すためのベ
クトル(雑音ベクトル)の情報を抽出し、これを符号化
する。雑音ベクトルの符号情報は端子421に出力され
る。
【0155】ピッチベクトル生成部404は、符号化さ
れたピッチベクトルの情報に対応したピッチベクトルを
生成する。また、雑音ベクトル生成部405は符号化さ
れた雑音ベクトルの情報に対応した雑音ベクトルを生成
する。合成フィルタ情報生成部406は、符号化された
合成フィルタの情報に対応した合成フィルタ情報を生成
する。
れたピッチベクトルの情報に対応したピッチベクトルを
生成する。また、雑音ベクトル生成部405は符号化さ
れた雑音ベクトルの情報に対応した雑音ベクトルを生成
する。合成フィルタ情報生成部406は、符号化された
合成フィルタの情報に対応した合成フィルタ情報を生成
する。
【0156】実パワ計算部407は、ピッチベクトルの
情報と合成フィルタの情報を用いて上述した方法で実パ
ワを求める。同様にして、実パワ計算部408は、雑音
ベクトルの情報と合成フィルタの情報を用いて上述した
方法で実パワを求める。
情報と合成フィルタの情報を用いて上述した方法で実パ
ワを求める。同様にして、実パワ計算部408は、雑音
ベクトルの情報と合成フィルタの情報を用いて上述した
方法で実パワを求める。
【0157】ゲイン推定部409では、過去の情報を基
に現区間の合成信号の大きさを表すために用いるゲイン
量を推定する。ここでは一例として、過去に符号化され
たデルタゲインと過去に求められた推定ゲインを用いて
現在のゲイン量の推定値(推定ゲイン)を求める構成の
ブロック図を示している。すなわち、ゲイン推定部40
9はデルタゲイン符号化部410から過去の符号化され
たデルタゲインを入力し、これと過去の推定ゲインを合
わせて過去の付加ゲインを求め、過去の付加ゲインの系
列を用いて予め設計しておいたゲイン推定処理により現
在区間に対する推定ゲインを求める。
に現区間の合成信号の大きさを表すために用いるゲイン
量を推定する。ここでは一例として、過去に符号化され
たデルタゲインと過去に求められた推定ゲインを用いて
現在のゲイン量の推定値(推定ゲイン)を求める構成の
ブロック図を示している。すなわち、ゲイン推定部40
9はデルタゲイン符号化部410から過去の符号化され
たデルタゲインを入力し、これと過去の推定ゲインを合
わせて過去の付加ゲインを求め、過去の付加ゲインの系
列を用いて予め設計しておいたゲイン推定処理により現
在区間に対する推定ゲインを求める。
【0158】デルタゲイン符号化部410は、上で求め
られた推定ゲインの推定誤差分のゲインを補うために用
いるゲイン(デルタゲイン)の符号化を行い、デルタゲ
インの符号情報を端子423に、ピッチベクトル用のデ
ルタゲインδ0をゲイン制御部411に、雑音ベクトル
用のデルタゲインδ1をゲイン制御部412にそれぞれ
出力する。
られた推定ゲインの推定誤差分のゲインを補うために用
いるゲイン(デルタゲイン)の符号化を行い、デルタゲ
インの符号情報を端子423に、ピッチベクトル用のデ
ルタゲインδ0をゲイン制御部411に、雑音ベクトル
用のデルタゲインδ1をゲイン制御部412にそれぞれ
出力する。
【0159】ゲイン制御部411は、ピッチベクトルを
用いて求めた実パワ、推定ゲインg0 *、デルタゲイン
δ0 を用いてピッチベクトルのゲインを制御する。ゲイ
ン制御部412は、雑音ベクトルを用いて求めた実パ
ワ、推定ゲインg1 *、デルタゲインδ1 を用いて雑音
ベクトルのゲインを制御する。
用いて求めた実パワ、推定ゲインg0 *、デルタゲイン
δ0 を用いてピッチベクトルのゲインを制御する。ゲイ
ン制御部412は、雑音ベクトルを用いて求めた実パ
ワ、推定ゲインg1 *、デルタゲインδ1 を用いて雑音
ベクトルのゲインを制御する。
【0160】加算部415は、ゲイン制御されたピッチ
ベクトルと雑音ベクトルのベクトル加算により駆動ベク
トルを生成し、これを合成フィルタ部413に入力す
る。合成フィルタ部413は、合成フィルタ情報生成部
406からの情報を基に駆動ベクトルを入力として合成
フィルタリングを行い、滑らかに接続されて合成された
合成信号を端子414に出力する。
ベクトルと雑音ベクトルのベクトル加算により駆動ベク
トルを生成し、これを合成フィルタ部413に入力す
る。合成フィルタ部413は、合成フィルタ情報生成部
406からの情報を基に駆動ベクトルを入力として合成
フィルタリングを行い、滑らかに接続されて合成された
合成信号を端子414に出力する。
【0161】マルチプレクサ424は端子420、42
1、422、423からの情報を所定の方法でまとめて
符号化データとして端子424から伝送路に出力する。
1、422、423からの情報を所定の方法でまとめて
符号化データとして端子424から伝送路に出力する。
【0162】次に、復号化側の説明を行う。
【0163】伝送路から入力された符号化データは、デ
マルチプレクサでそれぞれ合成フィルタ情報、ピッチベ
クトル情報、雑音ベクトル情報、デルタゲイン情報に分
離され、符号化側で説明した方法と同様の方法で実パワ
を用いてゲイン制御を行うことにより駆動信号が生成さ
れ、これを合成フィルタ情報を用いて生成した合成フィ
ルタを用いて合成音声信号が生成される。
マルチプレクサでそれぞれ合成フィルタ情報、ピッチベ
クトル情報、雑音ベクトル情報、デルタゲイン情報に分
離され、符号化側で説明した方法と同様の方法で実パワ
を用いてゲイン制御を行うことにより駆動信号が生成さ
れ、これを合成フィルタ情報を用いて生成した合成フィ
ルタを用いて合成音声信号が生成される。
【0164】生成された合成信号は、そのまま音声信号
として使用することもできるが、更に音声品質を高める
ためにポストフィルタを通過させることが望ましい。
として使用することもできるが、更に音声品質を高める
ためにポストフィルタを通過させることが望ましい。
【0165】(第6の実施形態)本実施形態では、入力
音声信号のパワを符号化したものを推定ゲインの代わり
に用いてデルタゲインの符号化を行う構成の符号化につ
いて説明する。
音声信号のパワを符号化したものを推定ゲインの代わり
に用いてデルタゲインの符号化を行う構成の符号化につ
いて説明する。
【0166】図20は、第6の実施形態に係るゲイン符
号化/復号化方法を示すフローチャートである。同図に
おいて、まず合成フィルタの特性を所定の符号化ビット
数で表すために合成フィルタ情報を符号化する(ステッ
プS190)。合成フィルタ情報の符号化法としては、
例えばLPC分析により入力音声信号からLPC係数を
求め、これをLSP係数に変換してLSP係数のレベル
で符号化する方法を用いることができる。そして、符号
化されたLSP係数から逆変換処理により合成フィルタ
の係数に変換される。
号化/復号化方法を示すフローチャートである。同図に
おいて、まず合成フィルタの特性を所定の符号化ビット
数で表すために合成フィルタ情報を符号化する(ステッ
プS190)。合成フィルタ情報の符号化法としては、
例えばLPC分析により入力音声信号からLPC係数を
求め、これをLSP係数に変換してLSP係数のレベル
で符号化する方法を用いることができる。そして、符号
化されたLSP係数から逆変換処理により合成フィルタ
の係数に変換される。
【0167】通常、CELP方式では聞いた感じの音声
品質を上げるために、駆動信号を構成する要素の符号化
処理に、入力音声から抽出したスペクトル特性から得ら
れる聴覚重み特性を用いた歪み尺度を導入する。このた
め、符号化側では聴覚重み付きの合成フィルタを使用
し、復号化側では重み付けの無い通常の合成フィルタを
用いる。本発明では、このように符号化側と復号化側で
異なる合成フィルタの特性をもちいるような場合におい
ても、ピッチベクトルおよび雑音ベクトルの実パワの計
算には符号化側復号化側共に共通の合成フィルタを用い
るようにすることが望ましい。より具体的には、聴覚重
み付けのない通常の合成フィルタの特性を用いて実パワ
の計算を行うようにする。
品質を上げるために、駆動信号を構成する要素の符号化
処理に、入力音声から抽出したスペクトル特性から得ら
れる聴覚重み特性を用いた歪み尺度を導入する。このた
め、符号化側では聴覚重み付きの合成フィルタを使用
し、復号化側では重み付けの無い通常の合成フィルタを
用いる。本発明では、このように符号化側と復号化側で
異なる合成フィルタの特性をもちいるような場合におい
ても、ピッチベクトルおよび雑音ベクトルの実パワの計
算には符号化側復号化側共に共通の合成フィルタを用い
るようにすることが望ましい。より具体的には、聴覚重
み付けのない通常の合成フィルタの特性を用いて実パワ
の計算を行うようにする。
【0168】次に、ピッチベクトルの符号化を行う(ス
テップS191)。ピッチベクトルの符号化方法として
は、開ループ分析法であるピッチ分析法や閉ループ分析
法である適応コードブック探索法を用いることができ
る。
テップS191)。ピッチベクトルの符号化方法として
は、開ループ分析法であるピッチ分析法や閉ループ分析
法である適応コードブック探索法を用いることができ
る。
【0169】次に、雑音ベクトルの符号化を行う(ステ
ップS192)。雑音ベクトルの符号化法としては、雑
音コードブックを用いたベクトル量子化を利用すること
ができる。このベクトル量子化の際には、CELP方式
で通常用いられている聴覚重み付きの合成フィルタを通
したレベルでの歪み評価基準を用いることより、高品質
の音声を再生できる雑音ベクトルを選ぶことが可能であ
る。
ップS192)。雑音ベクトルの符号化法としては、雑
音コードブックを用いたベクトル量子化を利用すること
ができる。このベクトル量子化の際には、CELP方式
で通常用いられている聴覚重み付きの合成フィルタを通
したレベルでの歪み評価基準を用いることより、高品質
の音声を再生できる雑音ベクトルを選ぶことが可能であ
る。
【0170】次に、本発明の骨子であるゲイン制御方法
を応用したゲイン符号化を行う。まず、ピッチベクトル
と合成フィルタの情報を用いて合成フィルタ通過後のピ
ッチベクトルの実パワを求め、同様に、雑音ベクトルと
合成フィルタの情報を用いて合成フィルタ通過後の雑音
ベクトルの実パワを求める(ステップS193)。
を応用したゲイン符号化を行う。まず、ピッチベクトル
と合成フィルタの情報を用いて合成フィルタ通過後のピ
ッチベクトルの実パワを求め、同様に、雑音ベクトルと
合成フィルタの情報を用いて合成フィルタ通過後の雑音
ベクトルの実パワを求める(ステップS193)。
【0171】次に、現時間区間の入力音声信号のパワを
符号化して、符号化されたパワ値Rを求める(ステップ
S194)。
符号化して、符号化されたパワ値Rを求める(ステップ
S194)。
【0172】次に、より好ましい付加ゲインを得るた
め、符号化されたパワ値からの変動を表現するピッチベ
クトル用のデルタゲインδ0 と雑音ベクトル用のデルタ
ゲインδ1 を所定の方法の符号化探索により得る(ステ
ップS195)。それぞれのデルタゲインの探索は、符
号化により生じる歪みができるだけ少なくなることを基
準に行う。また、符号化ビット数の割り当てによっては
探索候補が非常に多くなるために全探索では計算量的に
問題があるような場合は、符号化歪みだけでなく計算量
も考慮した候補のふるい掛けや木探索などの準最適な探
索法を用いることが有効となる。
め、符号化されたパワ値からの変動を表現するピッチベ
クトル用のデルタゲインδ0 と雑音ベクトル用のデルタ
ゲインδ1 を所定の方法の符号化探索により得る(ステ
ップS195)。それぞれのデルタゲインの探索は、符
号化により生じる歪みができるだけ少なくなることを基
準に行う。また、符号化ビット数の割り当てによっては
探索候補が非常に多くなるために全探索では計算量的に
問題があるような場合は、符号化歪みだけでなく計算量
も考慮した候補のふるい掛けや木探索などの準最適な探
索法を用いることが有効となる。
【0173】デルタゲインの探索は、次の評価式で表さ
れる符号化歪みが小さくなるようにデルタゲインの符号
を選択することで実現することができる。
れる符号化歪みが小さくなるようにデルタゲインの符号
を選択することで実現することができる。
【0174】
【数6】
【0175】ここで、Rは符号化対象となる音声信号X
(n)のパワを符号化して得られるパワ値、Xw(n)
は入力音声信号と聴覚重み特性を用いて得られる符号化
の目標ベクトル(目標信号)、Yw0(n)およびYw
1(n)は、それぞれ聴覚重み付き合成されたピッチベ
クトルおよび聴覚重み付き合成された雑音ベクトルを表
す。また、
(n)のパワを符号化して得られるパワ値、Xw(n)
は入力音声信号と聴覚重み特性を用いて得られる符号化
の目標ベクトル(目標信号)、Yw0(n)およびYw
1(n)は、それぞれ聴覚重み付き合成されたピッチベ
クトルおよび聴覚重み付き合成された雑音ベクトルを表
す。また、
【数7】
【0176】は、それぞれピッチベクトルと雑音ベクト
ルに関して求められた実パワであり、Y0 (m)とY1
(m)は聴覚重みを用いないで合成したときのピッチベ
クトルと雑音ベクトルを表す。また、別の表現方法とし
て、上述の実パワ値はピッチベクトルc0、雑音ベクト
ルc1、合成フィルタ処理を表す行列Hを用いて、それ
ぞれc0t Ht Hc0、c1t Ht Hc1と表すことも
可能である。音声符号化の構成によっては、実パワの求
め方をさらに別の形の数式を基に求めることも可能であ
る。重要なのは、合成フィルタを通過したときのピッチ
ベクトルや雑音ベクトルのパワに相当する値を実測する
ことである。インデックスi毎のデルタゲイン
δ0 (i) ,δ1 (i) を用いて上式の符号化歪みが小さく
なるようなインデックスIを探索することにより、デル
タゲインの符号化を実現することができる。探索された
インデックスIに対応するデルタゲインをそれぞれ
δ0 ,δ1 とする。
ルに関して求められた実パワであり、Y0 (m)とY1
(m)は聴覚重みを用いないで合成したときのピッチベ
クトルと雑音ベクトルを表す。また、別の表現方法とし
て、上述の実パワ値はピッチベクトルc0、雑音ベクト
ルc1、合成フィルタ処理を表す行列Hを用いて、それ
ぞれc0t Ht Hc0、c1t Ht Hc1と表すことも
可能である。音声符号化の構成によっては、実パワの求
め方をさらに別の形の数式を基に求めることも可能であ
る。重要なのは、合成フィルタを通過したときのピッチ
ベクトルや雑音ベクトルのパワに相当する値を実測する
ことである。インデックスi毎のデルタゲイン
δ0 (i) ,δ1 (i) を用いて上式の符号化歪みが小さく
なるようなインデックスIを探索することにより、デル
タゲインの符号化を実現することができる。探索された
インデックスIに対応するデルタゲインをそれぞれ
δ0 ,δ1 とする。
【0177】次に、ピッチベクトル用の実パワ、符号化
されたパワ値R、デルタゲインδ0を用いてピッチベク
トルのゲインを制御し、同様に雑音ベクトル用の実パ
ワ、符号化されたパワ値R、デルタゲインδ1 を用いて
雑音ベクトルのゲインを制御する(ステップS19
6)。より具体的には、例えば、ピッチベクトルに対し
てはスケール値1/sqrt(c0 t Ht Hc0 )また
は
されたパワ値R、デルタゲインδ0を用いてピッチベク
トルのゲインを制御し、同様に雑音ベクトル用の実パ
ワ、符号化されたパワ値R、デルタゲインδ1 を用いて
雑音ベクトルのゲインを制御する(ステップS19
6)。より具体的には、例えば、ピッチベクトルに対し
てはスケール値1/sqrt(c0 t Ht Hc0 )また
は
【数8】
【0178】と、sqrt(R)とδ0 が結果としてピ
ッチベクトルに乗じられるようにする。また、雑音ベク
トルに対しては、スケール値1/sqrt(c1 t Ht
Hc1)または
ッチベクトルに乗じられるようにする。また、雑音ベク
トルに対しては、スケール値1/sqrt(c1 t Ht
Hc1)または
【数9】
【0179】と、sqrt(R)とδ1 が結果として雑
音ベクトルに乗じられるようにする。そして、ゲイン制
御された後のピッチベクトルと雑音ベクトルを結合して
駆動ベクトルを生成する(ステップS197)。最後
に、生成された駆動ベクトルを合成フィルタで合成して
合成信号を生成する(ステップS198)。
音ベクトルに乗じられるようにする。そして、ゲイン制
御された後のピッチベクトルと雑音ベクトルを結合して
駆動ベクトルを生成する(ステップS197)。最後
に、生成された駆動ベクトルを合成フィルタで合成して
合成信号を生成する(ステップS198)。
【0180】図21は、図20を用いて説明した処理を
ブロック図で表したものである。端子1400は符号化
対象となる音声信号を所定の時間区間毎に入力する。合
成フィルタ情報符号化部1403は、入力音声信号を基
に音声スペクトルの概形を表す合成フィルタの情報を符
号化により得る。合成フィルタの符号情報は端子142
2に出力される。
ブロック図で表したものである。端子1400は符号化
対象となる音声信号を所定の時間区間毎に入力する。合
成フィルタ情報符号化部1403は、入力音声信号を基
に音声スペクトルの概形を表す合成フィルタの情報を符
号化により得る。合成フィルタの符号情報は端子142
2に出力される。
【0181】ピッチベクトル符号化部1401は、入力
音声信号を基に音声信号に含まれるピッチの繰り返しを
表すための駆動ベクトル(ピッチベクトル)の情報を抽
出し、これを符号化する。ピッチベクトルの符号情報は
端子1420に出力される。
音声信号を基に音声信号に含まれるピッチの繰り返しを
表すための駆動ベクトル(ピッチベクトル)の情報を抽
出し、これを符号化する。ピッチベクトルの符号情報は
端子1420に出力される。
【0182】雑音ベクトル符号化部1402は、入力音
声信号を基に音声信号に含まれる雑音成分を表すための
ベクトル(雑音ベクトル)の情報を抽出し、これを符号
化する。雑音ベクトルの符号情報は端子1421に出力
される。
声信号を基に音声信号に含まれる雑音成分を表すための
ベクトル(雑音ベクトル)の情報を抽出し、これを符号
化する。雑音ベクトルの符号情報は端子1421に出力
される。
【0183】ピッチベクトル生成部1404は、符号化
されたピッチベクトルの情報に対応したピッチベクトル
を生成する。また、雑音ベクトル生成部1405は符号
化された雑音ベクトルの情報に対応した雑音ベクトルを
生成する。合成フィルタ情報生成部1406は符号化さ
れた合成フィルタの情報に対応した合成フィルタ情報を
生成する。
されたピッチベクトルの情報に対応したピッチベクトル
を生成する。また、雑音ベクトル生成部1405は符号
化された雑音ベクトルの情報に対応した雑音ベクトルを
生成する。合成フィルタ情報生成部1406は符号化さ
れた合成フィルタの情報に対応した合成フィルタ情報を
生成する。
【0184】実パワ計算部1407は、ピッチベクトル
の情報と合成フィルタの情報を用いて上述した方法で実
パワを求める。同様にして、実パワ計算部1408は雑
音ベクトルの情報と合成フィルタの情報を用いて上述し
た方法で実パワを求める。
の情報と合成フィルタの情報を用いて上述した方法で実
パワを求める。同様にして、実パワ計算部1408は雑
音ベクトルの情報と合成フィルタの情報を用いて上述し
た方法で実パワを求める。
【0185】パワ符号化部1409では、現区間の入力
音声信号のパワを符号化することにより、符号化された
パワ値を求める。また、ここで得られるパワの符号情報
を端子1425に出力する。
音声信号のパワを符号化することにより、符号化された
パワ値を求める。また、ここで得られるパワの符号情報
を端子1425に出力する。
【0186】デルタゲイン符号化部1410は、上で求
められた符号化されたパワ値からの変動分を表現するた
めに用いるゲイン(デルタゲイン)の符号化をピッチベ
クトルと雑音ベクトルのそれぞれに対応し行う。こうし
て得られるデルタゲインの符号情報を端子1423に、
ピッチベクトル用のデルタゲインδ0をゲイン制御部1
411に、雑音ベクトル用のデルタゲインδ1をゲイン
制御部1412にそれぞれ出力する。
められた符号化されたパワ値からの変動分を表現するた
めに用いるゲイン(デルタゲイン)の符号化をピッチベ
クトルと雑音ベクトルのそれぞれに対応し行う。こうし
て得られるデルタゲインの符号情報を端子1423に、
ピッチベクトル用のデルタゲインδ0をゲイン制御部1
411に、雑音ベクトル用のデルタゲインδ1をゲイン
制御部1412にそれぞれ出力する。
【0187】ゲイン制御部1411は、ピッチベクトル
を用いて求めた実パワ、R、デルタゲインδ0 を用いて
ピッチベクトルのゲインを制御する。ゲイン制御部14
12は、雑音ベクトルを用いて求めた実パワ、R、デル
タゲインδ1 を用いて雑音ベクトルのゲインを制御す
る。加算部1415は、ゲイン制御されたピッチベクト
ルと雑音ベクトルのベクトル加算により駆動ベクトルを
生成し、これを合成フィルタ部1413に入力する。合
成フィルタ部1413は、合成フィルタ情報生成部14
06からの情報を基に駆動ベクトルを入力として合成フ
ィルタリングを行い、滑らかに接続されて合成された合
成信号を端子1414に出力する。
を用いて求めた実パワ、R、デルタゲインδ0 を用いて
ピッチベクトルのゲインを制御する。ゲイン制御部14
12は、雑音ベクトルを用いて求めた実パワ、R、デル
タゲインδ1 を用いて雑音ベクトルのゲインを制御す
る。加算部1415は、ゲイン制御されたピッチベクト
ルと雑音ベクトルのベクトル加算により駆動ベクトルを
生成し、これを合成フィルタ部1413に入力する。合
成フィルタ部1413は、合成フィルタ情報生成部14
06からの情報を基に駆動ベクトルを入力として合成フ
ィルタリングを行い、滑らかに接続されて合成された合
成信号を端子1414に出力する。
【0188】マルチプレクサ1424は端子1420、
1421、1422、1423、1425の情報を所定
の方法でまとめて端子1424から伝送路に出力する。
1421、1422、1423、1425の情報を所定
の方法でまとめて端子1424から伝送路に出力する。
【0189】次に、復号化側の説明を行う。
【0190】伝送路から入力された符号化データは、デ
マルチプレクサでそれぞれ合成フィルタ情報、ピッチベ
クトル情報、雑音ベクトル情報、入力音声信号のパワ情
報、デルタゲイン情報に分離され、符号化側で説明した
方法と同様の方法で実パワを用いてゲイン制御を行うこ
とにより駆動信号が生成され、これを合成フィルタ情報
を用いて生成した合成フィルタを用いて合成音声信号が
生成される。
マルチプレクサでそれぞれ合成フィルタ情報、ピッチベ
クトル情報、雑音ベクトル情報、入力音声信号のパワ情
報、デルタゲイン情報に分離され、符号化側で説明した
方法と同様の方法で実パワを用いてゲイン制御を行うこ
とにより駆動信号が生成され、これを合成フィルタ情報
を用いて生成した合成フィルタを用いて合成音声信号が
生成される。
【0191】生成された合成信号は、そのまま音声信号
として使用することもできるが、更に音声品質を高める
ためにポストフィルタを通過させることが望ましい。
として使用することもできるが、更に音声品質を高める
ためにポストフィルタを通過させることが望ましい。
【0192】以上説明したように、第2の発明によれ
ば、ゲイン制御に対する負担が少なくより少ないビット
数で効率的にゲインの制御ができるゲイン制御方法およ
びゲイン符号化/復号化方法を提供することができる。
ば、ゲイン制御に対する負担が少なくより少ないビット
数で効率的にゲインの制御ができるゲイン制御方法およ
びゲイン符号化/復号化方法を提供することができる。
【0193】
【発明の効果】以上説明したように、本発明によれば、
簡易な方法で順向・同時・逆行のマスキング効果を用い
て符号化雑音を効果的に低減できる音声符号化方法を提
供することができる。
簡易な方法で順向・同時・逆行のマスキング効果を用い
て符号化雑音を効果的に低減できる音声符号化方法を提
供することができる。
【0194】また、本発明によれば、ゲイン制御に対す
る負担が少なくより少ないビット数で効率的にゲインの
制御ができるゲイン制御方法およびゲイン符号化/復号
化方法を提供することができる。
る負担が少なくより少ないビット数で効率的にゲインの
制御ができるゲイン制御方法およびゲイン符号化/復号
化方法を提供することができる。
【図1】本発明に基づくマスキングの原理を示す図
【図2】本発明による聴覚重みフィルタの設定法の例を
示す説明図
示す説明図
【図3】本発明による音声符号化方法の第1の実施形態
を説明するためのフローチャート
を説明するためのフローチャート
【図4】同実施形態におけるパワへの加重の特性を表す
図
図
【図5】同実施形態における音源信号符号化処理を示す
フローチャート
フローチャート
【図6】本発明による音声符号化方法の第2の実施形態
を説明するためのフローチャート
を説明するためのフローチャート
【図7】本発明による音声符号化方法の第3の実施形態
を説明するためのフローチャート
を説明するためのフローチャート
【図8】本発明によるマスキングの原理を示す図
【図9】本発明によるゲイン制御方法の第1の実施形態
を説明するためのフローチャート
を説明するためのフローチャート
【図10】同実施形態に係るゲイン制御部の構成を示す
ブロック図
ブロック図
【図11】図10における実パワ計算部の構成を示すブ
ロック図
ロック図
【図12】本発明によるゲイン制御方法の第2の実施形
態を説明するためのフローチャート
態を説明するためのフローチャート
【図13】同実施形態に係るゲイン制御部の構成を示す
ブロック図
ブロック図
【図14】本発明によるゲイン制御方法の第3の実施形
態を説明するためのフローチャート
態を説明するためのフローチャート
【図15】同実施形態に係るゲイン制御部の構成を示す
ブロック図
ブロック図
【図16】本発明によるゲイン制御方法の第4の実施形
態を説明するためのフローチャート
態を説明するためのフローチャート
【図17】同実施形態に係るゲイン制御部の構成を示す
ブロック図
ブロック図
【図18】本発明によるゲイン制御方法の第5の実施形
態であるゲイン符号化/復号化方法を説明するためのフ
ローチャート
態であるゲイン符号化/復号化方法を説明するためのフ
ローチャート
【図19】同実施形態に係るゲイン符号化/復号化シス
テムの構成を示すブロック図
テムの構成を示すブロック図
【図20】本発明によるゲイン制御方法の第6の実施形
態であるゲイン符号化/復号化方法を説明するためのフ
ローチャート
態であるゲイン符号化/復号化方法を説明するためのフ
ローチャート
【図21】同実施形態に係るゲイン符号化/復号化シス
テムの構成を示すブロック図
テムの構成を示すブロック図
【図22】従来のマスキングの原理を示す図
【図23】従来技術によるゲイン制御部の構成を示すブ
ロック図
ロック図
103,124…駆動ベクトル生成部 104,125,206,307,406,1406…
合成フィルタ情報生成部 105,129,207…ゲイン設定部 106,128,208,209,310,311,4
07,408,1407,1408…実パワ計算部 107,210,211,312,313,411,4
12,1411,1412…ゲイン制御部 108,130,212,314,413,1413…
合成フィルタ 126,307…デルタゲイン設定部 127,309,409…ゲイン推定部 204,305,404,1404…ピッチベクトル生
成部 205,306,405,1405…雑音ベクトル生成
部 401,1401…ピッチベクトル符号化部 402,1402…雑音ベクトル符号化部 403,1403…合成フィルタ情報符号化部 410,1410…デルタゲイン符号化部 1409…パワ符号化部
合成フィルタ情報生成部 105,129,207…ゲイン設定部 106,128,208,209,310,311,4
07,408,1407,1408…実パワ計算部 107,210,211,312,313,411,4
12,1411,1412…ゲイン制御部 108,130,212,314,413,1413…
合成フィルタ 126,307…デルタゲイン設定部 127,309,409…ゲイン推定部 204,305,404,1404…ピッチベクトル生
成部 205,306,405,1405…雑音ベクトル生成
部 401,1401…ピッチベクトル符号化部 402,1402…雑音ベクトル符号化部 403,1403…合成フィルタ情報符号化部 410,1410…デルタゲイン符号化部 1409…パワ符号化部
Claims (10)
- 【請求項1】マスキング特性を用いて所定のフレーム単
位で音源信号を符号化する処理を含む音声符号化方法に
おいて、 現フレームとその近傍のフレームの音声信号のゲイン値
の大きさに基づいて、マスキング特性を抽出するフレー
ムを選択し、 この選択したフレームの音声信号から求められた同時マ
スキング特性を現フレームの音源信号の符号化に用いる
ことを特徴とする音声符号化方法。 - 【請求項2】マスキング特性を用いて所定のフレーム単
位で音源信号を符号化する処理を含む音声符号化方法に
おいて、 フレーム毎の音声信号のゲイン値を求め、 現フレームとその近傍のフレームのゲイン値を加重して
加重ゲインを求め、 この加重ゲインが最大となるフレームを選択し、 この選択したフレームの音声信号から求められた同時マ
スキング特性を現フレームの音源信号の符号化に用いる
ことを特徴とする音声符号化方法。 - 【請求項3】聴覚重みフィルタを用いて所定のフレーム
単位で音源信号を符号化する処理を含む音声符号化方法
において、 フレーム毎の音声信号のゲイン値を求め、 現フレームとその近傍のフレームのゲイン値を加重して
加重ゲインを求め、 この加重ゲインが最大となるフレームを選択し、 この選択したフレームの音声信号から求められた特性の
聴覚重みフィルタを現フレームの音源信号の符号化に用
いることを特徴とする音声符号化方法。 - 【請求項4】聴覚重みフィルタを用いて所定のフレーム
単位で音源信号を符号化する処理を含む音声符号化方法
において、 フレーム毎の音声信号のゲイン値と聴覚重みフィルタの
特性を求め、 前記ゲイン値に時間的な減衰処理を適用し、 前記聴覚重みフィルタの特性に時間的なバンド幅拡張処
理を適用し、 過去のフレームのゲイン値および聴覚重みフィルタの特
性と、現フレームのゲイン値および聴覚重みフィルタの
特性を用いて累積聴覚重みフィルタの特性を求め、この
累積聴覚重みフィルタを用いて現フレームの音源信号の
符号化を行うことを特徴とする音声符号化方法。 - 【請求項5】駆動ベクトルと該駆動ベクトルによって駆
動される合成フィルタおよびゲインにより合成信号を表
すシステムにおける該ゲインを制御するためのゲイン制
御方法において、 前記ゲインを少なくとも(a) 前記合成フィルタの特性を
示す情報から得られるパラメータ系列と前記駆動ベクト
ルとによって得られる該合成フィルタ通過後の駆動ベク
トルの実パワ、および(b) 所定の方法により与えられる
付加ゲインを用いて制御することを特徴とするゲイン制
御方法。 - 【請求項6】駆動ベクトルと該駆動ベクトルによって駆
動される合成フィルタおよびゲインにより合成信号を表
す符号化/復号化システムにおいて、 前記ゲインを少なくとも(a) 前記合成フィルタの特性を
示す情報から得られるパラメータ系列と前記駆動ベクト
ルとによって得られる該合成フィルタ通過後の駆動ベク
トルの実パワ、および(b) 所定の方法により与えられる
付加ゲインを用いて制御し、 前記付加ゲインに関連する情報を符号化側から復号化側
に伝送することを特徴とするゲイン符号化/復号化方
法。 - 【請求項7】前記合成フィルタによるフィルタリングを
行列H、前記駆動ベクトルをcとしたとき、前記実パワ
をct Ht Hc(tは行列の転置を表す)に相当する値
から求めることを特徴とする請求項5または6に記載の
方法。 - 【請求項8】ピッチベクトルと雑音ベクトルと該ピッチ
ベクトルと雑音ベクトルによって駆動される合成フィル
タおよびゲインにより合成信号を表すシステムにおける
該ゲインを制御するためのゲイン制御方法において、 前記ゲインを(a) 前記合成フィルタの特性を示す情報か
ら得られるパラメータ系列と前記ピッチベクトルによっ
て得られる該合成フィルタ通過後のピッチベクトルの実
パワ、および(b) 前記合成フィルタの特性を示す情報か
ら得られるパラメータ系列と雑音ベクトルとによって得
られる該合成フィルタ通過後の雑音ベクトルの実パワの
少なくとも一方と、(c) 前記ピッチベクトルおよび雑音
ベクトルの少なくとも一方に与える付加ゲインを用いて
制御することを特徴とするゲイン制御方法。 - 【請求項9】ピッチベクトルと雑音ベクトルと該ピッチ
ベクトルと雑音ベクトルによって駆動される合成フィル
タおよびゲインにより合成信号を表す符号化/復号化シ
ステムにおいて、 前記ゲインを(a) 前記合成フィルタの特性を示す情報か
ら得られるパラメータ系列と前記ピッチベクトルによっ
て得られる該合成フィルタ通過後のピッチベクトルの実
パワ、および(b) 前記合成フィルタの特性を示す情報か
ら得られるパラメータ系列と雑音ベクトルとによって得
られる該合成フィルタ通過後の雑音ベクトルの実パワの
少なくとも一方と、(c) ピッチベクトルおよび雑音ベク
トルの少なくとも一方に与える付加ゲインを用いて制御
し、 前記付加ゲインに関連する情報を符号化側から復号化側
に伝送することを特徴とするゲイン符号化/復号化方
法。 - 【請求項10】前記合成フィルタによるフィルタリング
を行列H、前記ピッチベクトルをc0、前記雑音ベクト
ルをc1 としたとき、前記ピッチベクトルの実パワをc
0 t Ht Hc0 (tは行列の転置を表す)に相当する値
から求め、前記雑音ベクトルの実パワをc1 t Ht Hc
1 (tは行列の転置を表す)に相当する値から求めるこ
とを特徴とする請求項8または9に記載の方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP25449996A JP3335852B2 (ja) | 1996-09-26 | 1996-09-26 | 聴覚特性を利用した音声符号化方法、ゲイン制御方法およびゲイン符号化/復号化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP25449996A JP3335852B2 (ja) | 1996-09-26 | 1996-09-26 | 聴覚特性を利用した音声符号化方法、ゲイン制御方法およびゲイン符号化/復号化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10107641A true JPH10107641A (ja) | 1998-04-24 |
JP3335852B2 JP3335852B2 (ja) | 2002-10-21 |
Family
ID=17265910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP25449996A Expired - Fee Related JP3335852B2 (ja) | 1996-09-26 | 1996-09-26 | 聴覚特性を利用した音声符号化方法、ゲイン制御方法およびゲイン符号化/復号化方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3335852B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002041099A (ja) * | 2000-06-02 | 2002-02-08 | Lucent Technol Inc | マスク済み閾値表現方法、再構成方法、及びそのシステム |
WO2003010752A1 (en) * | 2001-07-26 | 2003-02-06 | Nec Corporation | Speech bandwidth extension apparatus and speech bandwidth extension method |
US7406410B2 (en) | 2002-02-08 | 2008-07-29 | Ntt Docomo, Inc. | Encoding and decoding method and apparatus using rising-transition detection and notification |
-
1996
- 1996-09-26 JP JP25449996A patent/JP3335852B2/ja not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002041099A (ja) * | 2000-06-02 | 2002-02-08 | Lucent Technol Inc | マスク済み閾値表現方法、再構成方法、及びそのシステム |
WO2003010752A1 (en) * | 2001-07-26 | 2003-02-06 | Nec Corporation | Speech bandwidth extension apparatus and speech bandwidth extension method |
US7406410B2 (en) | 2002-02-08 | 2008-07-29 | Ntt Docomo, Inc. | Encoding and decoding method and apparatus using rising-transition detection and notification |
Also Published As
Publication number | Publication date |
---|---|
JP3335852B2 (ja) | 2002-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2257556C2 (ru) | Квантование коэффициентов усиления для речевого кодера линейного прогнозирования с кодовым возбуждением | |
US5790759A (en) | Perceptual noise masking measure based on synthesis filter frequency response | |
US5710863A (en) | Speech signal quantization using human auditory models in predictive coding systems | |
JP4550289B2 (ja) | Celp符号変換 | |
EP0718820B1 (en) | Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus | |
JP4662673B2 (ja) | 広帯域音声及びオーディオ信号復号器における利得平滑化 | |
EP1995723B1 (en) | Neuroevolution training system | |
US6014621A (en) | Synthesis of speech signals in the absence of coded parameters | |
JPH10124088A (ja) | 音声帯域幅拡張装置及び方法 | |
JP3064947B2 (ja) | 音声・楽音符号化及び復号化装置 | |
JP3335852B2 (ja) | 聴覚特性を利用した音声符号化方法、ゲイン制御方法およびゲイン符号化/復号化方法 | |
US7089180B2 (en) | Method and device for coding speech in analysis-by-synthesis speech coders | |
JP3490324B2 (ja) | 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体 | |
JP3163206B2 (ja) | 音響信号符号化装置 | |
JP4489371B2 (ja) | 合成音声を最適化する方法、音声合成フィルタを生成する方法、音声最適化方法及び音声最適化装置 | |
JP3089967B2 (ja) | 音声符号化装置 | |
JP3192999B2 (ja) | 音声符号化方法および音声符号化方法 | |
JP3192051B2 (ja) | 音声符号化装置 | |
JP2853170B2 (ja) | 音声符号化復号化方式 | |
Atal | Speech coding: recognizing what we do not hear in speech | |
JP2946528B2 (ja) | 音声符号化復号化方法及びその装置 | |
JP3350340B2 (ja) | 音声符号化方法および音声復号化方法 | |
JP3144244B2 (ja) | 音声符号化装置 | |
JPH10105200A (ja) | 音声符号化/復号化方法 | |
JPH01258000A (ja) | 音声信号符号化復号化方法並びに音声信号符号化装置及び音声信号復号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070802 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080802 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090802 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |