JP4216364B2

JP4216364B2 - 音声符号化／復号化方法および音声信号の成分分離方法

Info

Publication number: JP4216364B2
Application number: JP12887698A
Authority: JP
Inventors: 公生三関; 正浩押切
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1997-08-29
Filing date: 1998-05-12
Publication date: 2009-01-28
Anticipated expiration: 2018-05-12
Also published as: JPH11242499A

Description

【０００１】
【発明の属する技術分野】
本発明は低ビットレートの音声符号化方法に係り、特に背景雑音も含めて音声信号を原音にできるだけ近い形で高能率に圧縮して符号化する音声符号化／復号化方法および音声信号の成分分離方法に関する。
【０００２】
【従来の技術】
従来の低ビットレート音声符号化は、音声信号を効率よく符号化することを目的とし、音声の発生過程のモデルを取り入れた符号化方法によって行われる。このような音声符号化方法の中で、特に近年ではＣＥＬＰ方式をベースとする音声符号化方法の普及が著しい。このＣＥＬＰベースの音声符号化方法を用いると、背景雑音がほとんど無いような環境下で入力された音声信号は、符号化のモデルと合っているために符号化の効率が良く、音質の劣化を比較的小さく抑えて符号化を行うことができる。
【０００３】
しかし、背景雑音のレベルが大きな条件で入力された音声信号にＣＥＬＰベースの音声符号化方法を用いると、再生された出力信号の背景雑音の感じが大きく変質し、非常に不安定で不快な感じの音となることが知られている。このような傾向は、符号化のビットレートが８ｋｂｐｓ以下になると特に顕著である。
【０００４】
このような問題を軽減するために、背景雑音であると判定された時間区間でより雑音性の高い音源信号を用いてＣＥＬＰ符号化を行うことにより、背景雑音区間での音質劣化を改善させようとする方法も提案されている。このような方法を用いると、背景雑音区間の音質が多少は改善されるが、音源信号を合成フィルタに通して音声を合成するという音声の発生過程のモデルを用いているため、依然として原音の背景雑音と異なった感じの雑音になる傾向に変わりはなく、改善の効果が小さいという問題がある。
【０００５】
【発明が解決しようとする課題】
上述したように、従来の音声符号化方法では背景雑音のレベルが大きな条件で入力された音声信号を符号化すると、再生された出力信号の背景雑音の感じが大きく変質し、非常に不安定で不快な感じの音となるという問題があった。
【０００６】
本発明の主な目的は、背景雑音も含めて音声を原音にできるだけ近い形で再生することのできる低レート音声符号化方法および音声復号化方法を提供することにある。
【０００７】
本発明の他の目的は、できるだけ少ないビット数で背景雑音を符号化できるようにして、背景雑音も含めて音声を原音にできるだけ近い形で再生することのできる低レート音声符号化方法および音声復号化方法を提供することにある。
【０００８】
本発明のさらに別の目的は、このような音声符号化方法に適した音声信号の成分分離方法として、入力音声信号を所定の時間単位毎に音声が主体の第１の成分と背景雑音が主体の第２の成分とに確実に成分分離する方法を提供することにある。
【０００９】
【課題を解決するための手段】
上述した課題を解決するため、本発明に係る音声符号化方法は、入力音声信号を所定の時間単位毎に音声が主体の第１の成分と背景雑音が主体の第２の成分とに成分分離し、第１および第２の成分を基にそれぞれの成分のビット割り当てを予め定められた複数のビット割り当て候補の中から選択し、このビット割り当ての下で第１および第２の成分をそれぞれ異なる所定の符号化方法により符号化し、第１および第２の成分の符号化データおよびビット割り当ての情報を伝送符号化データとして出力することを特徴とする。
【００１０】
ＣＥＬＰ符号化では、前述したように背景雑音のレベルが大きな条件で入力された音声信号を符号化すると、再生音声信号の背景雑音の感じが大きく変化し、非常に不安定で不快な感じの音となってしまう。これは背景雑音がＣＥＬＰが得意とする音声信号と全く異なるモデルを有するためであり、背景雑音を符号化する際にはそれに見合った方法で符号化を行うことが望ましい。
【００１１】
本発明では、所定の時間単位毎に入力音声信号を音声が主体の第１の成分と背景雑音が主体の第２の成分に成分分離することで、音声および背景雑音のそれぞれの成分の性質に合った異なるモデルに基づいた符号化方法を用いることにより、符号化全体の効率が向上する。
【００１２】
また、このとき第１の成分と第２の成分を基に、それぞれの成分をより効率的に符号化できるビット割り当てを所定候補の中から選択して、第１の成分と第２の成分を符号化することにより、全体のビットレートを低く保ちつつ、高能率に入力音声信号を符号化することができる。
【００１３】
本発明に係る音声符号化方法においては、第１の成分については時間領域で符号化し、第２の成分については周波数領域または変換領域で符号化することが望ましい。すなわち、音声は１０〜１５ｍｓ程度の比較的短い時間で速く変動する情報であるため、これを主体とする第１の成分については、ＣＥＬＰ方式の符号化のように時間領域での波形歪みを小さくするような符号化の方が高品質に符号化しやすい。一方、背景雑音は数１０〜数１００ｍｓの比較的長い時間でゆっくりと変動するため、これを主体とする第２の成分については、周波数領域や変換領域のパラメータに変換してから符号化した方が少ないビット数でより容易にその情報を抽出することができる。
【００１４】
また、本発明に係る音声符号化方法では、所定の時間単位に割り当てられる符号化の全ビット数が固定であることが望ましい。このようにすると、入力音声信号を固定のビットレートで符号化することができるので、符号化データがより扱いやすくなる。
【００１５】
さらに、本発明に係る音声符号化方法においては、第２の成分の符号化のために複数の符号化方法を用意しておき、これらの符号化方法の少なくとも一つは、既に符号化された過去の背景雑音のスペクトル形状を利用して現在の背景雑音のスペクトル形状を符号化するようにすることが望ましい。この符号化方法によると、非常に少ないビット数で第２の成分を符号化することができるので、これにより余裕のできた符号化ビット数を第１の成分の符号化に配分することにより、復号音声の品質劣化を防ぐことができる。
【００１６】
入力音声信号の音声が主体の第１の成分と背景雑音が主体の第２の成分をそれぞれに適合したモデルに基づいた符号化方法により符号化すると、不快な音の発生を回避できる反面、音声信号に背景雑音が重畳している場合、つまり入力音声信号を第１の成分と第２の成分に分離した後のそれぞれの成分がいずれも無視できないほどのパワーを有する場合に、第１の成分の符号化ビット数の絶対数が不足してしまい、結果として復号音声の品質が著しく劣化してしまう。
【００１７】
このような場合、上述した既に符号化された過去の背景雑音のスペクトル形状を利用して現在の背景雑音のスペクトル形状を符号化する方法を用いれば、背景雑音が主体の第２の成分を非常に少ない符号化ビット数で符号化でき、余裕の生じた符号化ビット数を音声が主体の第１の成分の符号化に配分して、復号音声の良好な品質が確保される。
【００１８】
ここで、過去の背景雑音のスペクトル形状を利用して現在の背景雑音のスペクトル形状を符号化する方法では、例えば過去の背景雑音のスペクトル形状と現在の背景雑音のスペクトル形状からパワー補正係数を算出した後、量子化を行い、量子化後のパワー補正係数を過去の背景雑音のスペクトル形状に乗じて現在の背景雑音のスペクトル形状を求め、パワー補正係数の量子化時に得られるインデックスを符号化データとする。
【００１９】
背景雑音のスペクトル形状は、例えば車が走行している際の車内騒音や、オフィスにおける事務機器のノイズなどから容易に想像できるように、比較的長い時間でほぼ一定である。このような背景雑音は、スペクトル形状はほとんど変化せずに、パワーだけが変化していると考えることができる。従って、一旦ある背景雑音のスペクトル形状を符号化すれば、次からは背景雑音のスペクトル形状は固定とみなし、パワーの変化量だけを符号化すればよい。こうすることで、非常に少ない符号化ビット数で背景雑音のスペクトル形状を表すことができる。
【００２０】
また、過去の背景雑音のスペクトル形状を利用して現在の背景雑音のスペクトル形状を符号化する方法では、上述の量子化後のパワー補正係数を過去の背景雑音のスペクトル形状に乗じて現在の背景雑音のスペクトル形状を予測し、この予測したスペクトル形状を用いて、予め定められた規則に従って決定された周波数帯における背景雑音のスペクトルを符号化し、パワー補正係数の量子化時に得られるインデックスと、予め定められた規則に従って決定された周波数帯における背景雑音のスペクトルの符号化時に得られるインデックスを符号化データとするようにしてもよい。
【００２１】
上述したように、背景雑音のスペクトル形状は比較的に長い時間でほぼ一定と考えることができるが、数十秒も同一の形状が続くとは考えにくく、そのような長い時間の間には背景雑音のスペクトル形状は徐々に変化していると考えるのが自然である。従って、予め定められた規則に従い周波数帯を決定し、過去の背景雑音のスペクトル形状に係数を乗じて現在の背景雑音について予測したスペクトル形状と現在の背景雑音のスペクトル形状とで、この周波数帯の誤差信号を求めそれを符号化するようにすれば、前述した周波数帯を決定する規則は背景雑音の全周波数帯をある時間をかけて巡回するように決められる。これにより、徐々に変化する背景雑音の形状を効率よく符号化することができる。
【００２２】
一方、本発明に係る音声復号化方法は、上述のようにして符号化を行って得られた伝送符号化データを復号して音声信号を再生するために、入力される伝送符号化データから、音声が主体の第１の成分の符号化データと背景雑音が主体の第２の成分の符号化データおよび第１および第２の成分の符号化データのそれぞれのビット割り当ての情報を分離し、このビット割り当ての情報を復号して第１および第２の成分の符号化データのビット割り当てを求め、このビット割り当ての下で第１および第２の成分の符号化データを復号して第１および第２の成分を再生し、再生した第１および第２の成分を結合して最終的な出力音声信号を生成することを特徴とする。
【００２３】
本発明に係る音声符号化方法は、上述したように入力音声信号を所定の時間単位毎に音声が主体の第１の成分と背景雑音が主体の第２の成分とに成分分離する処理が必要である。本発明では、この成分分離のためにまず入力音声信号について雑音抑圧を行って得られた第１の信号（以下、音声成分抽出信号という）と入力音声信号から第１の信号を減じた第２の信号（以下、雑音成分抽出信号という）を生成し、これら音声成分抽出信号および雑音成分抽出信号から、入力音声信号が音声成分を主とする第１の状態、背景雑音成分を主とする第２の状態、および音声成分と背景雑音成分の両者をほぼ均等に含む第３の状態のいずれの状態かを所定の時間単位毎に判定する。そして、この判定の結果、入力音声信号が第１の状態と判定されたときは、第１の成分として入力音声信号そのまま出力すると共に、第２の成分として予め定められた所定の信号を出力し、入力音声信号が第２の状態と判定されたときは、第１の成分として予め定められた所定の信号を出力すると共に、第２の成分として入力音声信号を出力し、入力音声信号が第３の状態と判定されたときは、第１の成分として音声成分抽出信号を出力すると共に、第２の成分として雑音成分抽出信号を出力する。予め定められた所定の信号とは、例えば全ゼロ信号である。また、入力音声信号が第２の状態と判定されたときは、第１の成分として音声成分抽出信号を出力すると共に、第２の成分として雑音成分抽出信号を出力するようにしてもよい。
【００２４】
さらに、入力音声信号が第１の状態、第２の状態および第３の状態のいずれの状態かを判定する処理に、雑音成分抽出信号のピッチ周期性の大きさを調べる処理を含むことが望ましい。
【００２５】
このような音声信号の成分分離方法によると、入力音声信号が音声成分を主とする第１の状態のときは、入力音声信号が雑音抑圧処理を受けずにそのまま音声成分主体の第１の成分として出力され、これが音声成分に適した符号化方法で符号化されるため、音声成分に対する不要な雑音抑圧処理による復号音声信号の品質劣化が回避される。
【００２６】
また、雑音成分抽出信号のピッチ周期性の大きさを調べ、これがある閾値に満たないときは、入力音声信号が背景雑音成分を主とする第２の状態であるとして背景雑音成分が主体の第２の成分として出力され、これが背景雑音成分に適した符号化方法で符号化される。一方、ピッチ周期性の大きさが閾値以上のときは、入力音声信号が音声成分を主体とする第１の状態であるとみなして、音声成分抽出信号が第１の成分として出力され、これが音声成分に適した符号化方法で符号化される。このように雑音成分抽出信号に大きなピッチ周期性がある場合には、音声成分に適した符号化方法で符号化されることにより、この雑音成分抽出信号が背景雑音成分を主体とする第２の成分に適した符号化方法で符号化されることによる不快な雑音の発生が回避される。
【００２７】
すなわち、背景雑音成分を主体とする第２の成分に適した符号化方法に基づく符号化器は、一般に周期性を効率よく表現できないため、周期性のある信号が入力されると不快な雑音を生成してしまうおそれがあるが、このような場合には入力音声信号を音声成分を主体とする第１の成分に適した符号化方法に基づいた、周期性を正しく表現できる符号化器で符号化することにより、不快な雑音の発生を防ぐことができる。
【００２８】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を説明する。
【００２９】
（第１の実施形態）
［符号化側について］
図１に、本発明の第１の実施形態に係る音声符号化方法を適用した音声符号化装置の構成を示す。この音声符号化装置は、成分分離部１００、ビット割り当て選択部１２０、音声符号化部１３０、雑音符号化部１４０および多重化部１５０によって構成される。
【００３０】
成分分離部１００は、入力される音声信号を所定の時間単位毎に分析し、音声が主体の第１の成分（以下、音声主体成分という）とそれ以外の背景雑音が主体の第２の成分（以下、背景雑音主体成分）とに分離する成分分離を行う。通常、この成分分離時の分析の時間単位は１０〜３０ｍｓ程度が適当であり、音声符号化の単位であるフレーム長とほぼ対応するようにすることが望ましい。この成分分離の具体的な手法は種々考えられるが、通常、背景雑音は音声に比べて時間的にスペクトルの形状がゆっくり変動する性質があるので、このような性質の違いを利用した方法で成分分離を行うことが望ましい。
【００３１】
例えば、スペクトルサブトラクションと呼ばれる技術を用いて、時間的に変動の少ない背景雑音のスペクトルの形状を処理を行いながら推定し、時間的に変動の激しい時間区間では、その区間からそれまでに推定していた雑音のスペクトルの分だけを入力音声のスペクトルから差し引くことで、背景雑音がある条件下で入力音声信号から音声主体成分を良好に分離することができる。一方、背景雑音主体成分については、入力音声信号から求められた音声主体成分を時間領域か周波数領域で差し引くことにより求めることができる。背景雑音主体成分としては、前述の推定した雑音のスペクトルをそのまま用いることも可能である。
【００３２】
ビット割り当て選択部１２０は、成分分離部１００からの音声主体成分と背景雑音主体成分の２種類の成分を基に、後述する音声符号化部１３０と背景雑音符号化部１４０のそれぞれに割り当てる符号化ビット数を予め定められたビット割り当ての組み合わせの中から選択し、それらのビット割り当ての情報を音声符号化部１３０および雑音符号化部１４０に出力する。また、これと共にビット割り当て選択部１２０からビット割り当ての情報が伝送情報として多重化部１５０に出力される。
【００３３】
このビット割り当ては、音声主体成分と背景雑音主体成分のそれぞれの成分の量を比較することによって選択することが望ましいが、それだけに限られるものではなく、例えば、より安定した音質を得るために、ビット割り当ての変化を過去から監視しながら、ビット割り当てに急激な変化が起こりにくくする仕組みと、それぞれの成分の量の比較とを組み合わせてビット割り当てきめる方法も有効である。
【００３４】
ビット割り当て選択部１２０において用意されるビット割り当ての組み合わせとそれを表す符号の一例としては、次の表１に示すものが考えられる。
【００３５】
【表１】

【００３６】
表１では、ビット割り当て用符号に「０」を選択すると、音声符号化部１３０にはフレーム当たり７９ビットが割り当てられ、雑音符号化部１４０にはビット割り当てが無い。これにビット割り当て用符号を１ビット送るため、入力音声信号の符号化に必要な全ビット数は８０ビットとなる。音声主体成分に比べて背景雑音主体成分がほとんど無いようなフレームに対しては、このビット割り当てを選択するようすることが望ましい。こうすることで音声符号化部１３０へのビット割り当てが大きくなり、再生音声の音質が向上する。
【００３７】
一方、ビット割り当て用符号に「１」を選択すると、音声符号化部１３０にはフレーム当たり６９ビットが割り当てられ、雑音符号化部１４０には１０ビットが割り当てられる。これにビット割り当て用符号を１ビット送るため、入力音声信号の符号化に必要な全ビット数はやはり８０ビットとなる。音声主体成分に比べて背景雑音主体成分が無視できないほど大きなフレームに対しては、このビット割り当てを選択するようにすることか望ましい。こうすることで、音声と背景雑音を音声符号化部１３０および雑音符号化部１４０でそれぞれ効率よく符号化を行うことができ、復号側で自然な背景雑音を伴った音声を再生することができる。
【００３８】
フレーム長は、音声符号化部１３０では１０〜３０ｍｓ程度の長さが適当である。この例では、２種類のビット割り当ての組み合わせに対し、符号化データのトータルのフレーム当たりのビット数は８０と固定になっている。このように伝送符号化データのトータルのフレーム当たりのビット数を固定にすると、入力音声信号によらずに固定のビットレートで符号化を行うことができるようになる。また、次の表２に示すようなビット割り当ての組み合わせを用いる構成も可能である。
【００３９】
【表２】

【００４０】
この場合は、背景雑音主体成分がほとんど無いようなフレームでは音声符号化部１３０だけに７９ビットを割り当て、雑音符号化部１４０にビットを割り当てないようにし、伝送符号化データのフレーム当たりのビット数を８０ビットとする。また、背景雑音主体成分が無視できないようなフレームでは、音声符号化部１３０の７９ビットの他に雑音符号化部１４０に１０ビットを割り当て、伝送符号化データのフレーム当たりのビット数が９０に増えるような可変レートの符号化となる。
【００４１】
また、本発明では上記とは別の構成で、ビット割り当ての情報を伝送しなくてもよいような音声符号化も実現可能である。具体的には、過去の符号化された情報を基に、音声符号化部１３０および雑音符号化部１４０のビット割り当てを決めるような符号化の仕組みにすればよい。この場合、復号化側でも過去の符号化された同じ情報を持っているので、ビット割り当ての情報を復号化側に伝送することなく符号化側で決めたビット割り当てと同じビット割り当てを復号化側で再生でき、音声符号化部１３０および雑音符号化部１４０へのビット割り当てを増やして符号化自体の性能を上げることができるという効果がある。ビット割り当ては、過去の符号化された音声主体成分と背景雑音主体成分とのそれぞれの成分の大きさを比較して決めるようにすればよい。
【００４２】
なお、ここでは２種類のビット割り当ての例を説明したが、さらに多数の種類のビット割り当てを用いる構成にしても、本発明を適用することができることは明かである。
【００４３】
音声符号化部１３０は、成分分離部１００からの音声主体成分を入力し、音声信号の特徴を反映した音声符号化により音声主体成分の符号化を行う。音声符号化部１３０には、音声信号を効率よく符号化できるような符号化方法であればどのような方法を用いてもよいことはいうまでもないが、一例としてここではより自然な音声を提供できる方法の一つであるＣＥＬＰ方式を用いることにする。ＣＥＬＰ方式は、周知のように通常、時間領域で符号化を行う方式で、時間領域の合成した波形の歪みが少なくなるように音源信号の符号化を行うことに特徴がある。
【００４４】
雑音符号化部１４０は、成分分離部１００からの背景雑音主体成分を入力し、雑音を良好に符号化できるように構成されている。通常、背景雑音は音声信号に比べるとスペクトルの時間的な変動はゆるやかである。また、波形の位相情報もランダムに近く、人間の耳には位相情報があまり重要ではないという特徴がある。
【００４５】
このような背景雑音成分を効率よく符号化するには、ＣＥＬＰ方式等の波形歪みを小さくするような波形符号化よりも、変換符号化のように時間領域から変換領域に変換して、その変換係数または変換係数から抽出されるパラメータを符号化する方法の法が効率的に符号化を行うことができる。特に、周波数領域に変換して人間の聴覚の特性を考慮した符号化を行うと、さらに符号化の効率を高めることができる。
【００４６】
次に、図２のフローチャートを用いて本実施形態の音声符号化方法の処理手順を説明する。
まず、入力音声信号を所定の時間単位毎に取り込み（ステップＳ１００）、成分分離部１００でこれを分析して音声主体成分とそれ以外の背景雑音主体成分に分離する（ステップＳ１０１）。
【００４７】
次に、ビット割り当て選択部１２０で成分分離部１００からの音声主体成分と背景雑音主体成分の２種類の成分を基に、音声符号化部１３０と背景雑音符号化部１４０のそれぞれに割り当てるビット数を予め定められたビット数の割り当ての組み合わせの中から選択するとともに、そのビット割り当ての情報を音声符号化部１３０および背景雑音符号化部１４０に出力する（ステップＳ１０２）。
【００４８】
そして、ビット割り当て選択部１２０で選択されたそれぞれのビット割り当てに従い、音声符号化部１３０と雑音符号化部１４０で符号化処理を行う（ステップＳ１０３）。具体的には、音声符号化部１３０では成分分離部１００からの音声主体成分を入力し、音声符号化部１３０に対して割り当てられたビット数で符号化を行い、音声を主体とする成分に対する符号化データを求める。
【００４９】
一方、雑音符号化部１４０では成分分離部１００からの背景雑音信号が主体の成分を入力し、雑音符号化部１４０に対して割り当てられたビット数で符号化を行い、背景雑音を主体とする成分に対する符号化データを求める。
【００５０】
次に、多重化部１５０で各符号化部１３０，１４０からの符号化データと各符号化部１３０，１４０へのビット割り当ての情報を多重化して伝送路に伝送符号化データとして出力する（ステップＳ１０４）。これで所定の時間区間内で行う符号化の処理が終る。そして、次の時間区間に対し符号化を続行するか終了するかを判定する（ステップＳ１０５）。
【００５１】
［音声符号化装置の具体例］
図３に、音声符号化部１３０にＣＥＬＰ方式、雑音符号化部１４０に変換符号化をそれぞれ用いた場合の音声符号化装置の具体例を示す。ＣＥＬＰ方式では、音声の生成過程のモデルをとして声帯信号を音源信号に対応させ、声道が表すスペクトル包絡特性を合成フィルタにより表し、音源信号を合成フィルタに入力させ、合成フィルタの出力で音声信号を表現する。この際、ＣＥＬＰ符号化に供される音声信号と、符号化してから再生される音声との波形歪みが聴覚的に小さくなるように音源信号の符号化を行うところにその特徴がある。
【００５２】
音声符号化部１３０は成分分離部１００からの音声主体成分を入力し、この成分を時間領域での波形歪みが小さくなるように符号化する。この際、ビット割り当て選択部１２０からのビット割り当てに応じて予め定められたビット数の割り当ての下で符号化部１３０内の各符号化が行われる。この場合、符号化部１３０中の各符号化部で使用するビット数の和をビット割り当て選択部１２０から符号化部１３０へのビット割り当てに一致させることによって、音声符号化部１３０の性能を最大に生かすことができる。このことは、符号化部１４０についても同様である。
【００５３】
ここで説明するＣＥＬＰ符号化は、スペクトル包絡符号帳探索部３１１、適応符号帳探索部３１２、雑音符号帳探索部３１３、ゲイン符号帳探索部３１４を用いて符号化を行う。各符号帳探索部３１１〜３１４で探索された符号帳のインデックスの情報は符号化データ出力部３１５に入力され、この符号化データ出力部３１５から音声符号化データとして多重化部１５０へ出力される。
【００５４】
次に、音声符号化部１３０の中の各符号帳探索部３１１〜３１４の機能について説明して行く。スペクトル包絡符号帳探索部３１１は、成分分離部１００からの音声主体成分をフレーム毎に入力し、予め用意しているスペクトル包絡符号帳を探索して、入力された信号のスペクトル包絡をより良く表現することのできる符号帳のインデックスを選択して、このインデックスの情報を符号化データ出力部３１５へ出力する。通常、ＣＥＬＰ方式ではスペクトル包絡を符号化する際に用いるパラメータとしてＬＳＰ（Line Spectrum Pair）パラメータを用いるが、これに限られるものではなく、スペクトル包絡を表現できるパラメータであれば他のパラメータも有効である。
【００５５】
適応符号帳探索部３１２は、音源の中のピッチ周期で繰り返す成分を表現するために用いられる。ＣＥＬＰ方式では、符号化された過去の音源信号を所定の長さだけ適応符号帳として格納し、これを音声符号化部と音声復号化部の両方で持つことにより、指定されたピッチ周期に対応して繰り返す信号を適応符号帳から引き出すことができる構造になっている。適応符号帳では符号帳からの出力信号とピッチ周期が一対一に対応するため、ピッチ周期を適応符号帳のインデックスに対応させることができる。このような構造の下、適応符号帳探索部３１２では符号帳からの出力信号を合成フィルタで合成したときの合成信号と目標とする音声信号との歪みを聴覚重み付けしたレベルで評価し、その歪みが小さくなるようなピッチ周期のインデックスを探索する。そして、探索されたインデックスの情報を符号化データ出力部３１５へ出力する。
【００５６】
雑音符号帳探索部３１３は、音源の中の雑音的な成分を表現するために用いられる。ＣＥＬＰ方式では、音源の雑音成分は雑音符号帳を用いて表され、指定された雑音インデックスに対応して雑音符号帳から様々な雑音信号を引き出すことができる構造になっている。このような構造の下、雑音符号帳探索部３１３では符号帳からの出力信号を用いて再生される合成音声信号と、雑音符号帳探索部３１３において目標となる音声信号との歪みを聴覚重み付けしたレベルで評価し、その歪みが小さくなるような雑音インデックスを探索する。そして、探索された雑音インデックスの情報を符号化データ出力部３１５へ出力する。
【００５７】
ゲイン符号帳探索部３１４は、音源のゲイン成分を表現するために用いられる。ＣＥＬＰ方式では、ピッチ成分に用いるゲインと雑音成分に用いるゲインの２種類のゲインをゲイン符号帳探索部３１４で符号化する。符号帳探索においては、符号帳から引き出されるゲイン候補を用いて再生される合成音声信号と目標とする音声信号との歪みを聴覚重み付けしたレベルで評価し、その歪みが小さくなるようなゲインインデックスを探索する。そして、探索されたゲインインデックスを符号化データ出力部３１５へ出力する。符号化データ部３１５は、符号化データを多重化部１５０へ出力する。
【００５８】
次に、成分分離部１００からの背景雑音主体成分を入力し、これを符号化する雑音符号化部１４０の詳細な構成例について図３を用いて説明する。
【００５９】
雑音符号化部１４０は、成分分離部１００からの背景雑音主体成分を入力し、所定の変換を用いてこの成分の変換係数を求め、変換領域でのパラメータの歪みが小さくなるように符号化を行う点が上述した音声符号化部１３０で行う符号化の方法と大きく異なる。変換領域でのパラメータの表現については、様々な方法が考えられるが、ここでは一例として背景雑音成分を変換領域で帯域分割部でし、各帯域別にその帯域を代表するパラメータを求め、そのパラメータを所定の量子化器で量子化し、そのインデックスを送る方法について説明する。
【００６０】
まず、変換係数算出部３２１において所定の変換を用いて背景雑音主体成分の変換係数を求める。変換の方法としては、例えば離散フーリエ変換やＦＦＴ（高速フーリエ変換）を用いることができる。次に、帯域分割部３２２において周波数軸を所定の帯域に分割し、雑音符号化ビット割り当て部３２０からのビット割り当てに応じた量子化ビット数を用いて、第１帯域符号化部３２３、第２帯域符号化部３２４、…、第ｍ帯域符号化部３２５により、ｍ個の帯域別にパラメータの量子化を行う。８ｋＨｚサンプリングにおいては、帯域の個数ｍは４〜１６程度の値が望ましい。
【００６１】
このときのパラメータとしては、変換係数から求められるスペクトル振幅やパワースペクトルをそれぞれの帯域の中で平均した値を用いることができる。各帯域からのパラメータの量子化値を表すインデックスの情報は、符号化データ出力部３２６に入力され、この符号化データ出力部３２６から符号化データとして多重化部１５０へ出力される。
【００６２】
［復号化側について］
図４に、本実施形態に係る音声復号化方法を適用した音声復号化装置の構成を示す。この音声復号化装置は、逆多重化部１６０、ビット割り当て復号化部１７０、音声復号化部１８０、雑音復号化部１９０および結合部１９５からなる。
【００６３】
逆多重化部１６０では、図１の音声符号化装置から前述のようにして所定の時間単位毎に送られてきた伝送符号化データを受け、これをビット割り当ての情報と、音声復号化部１８０に入力するための符号化データと、雑音復号化部１９０に入力するための符号化データに分離して出力する。
【００６４】
ビット割り当て復号部１７０は、ビット割り当ての情報を復号し、音声復号化部１８０と雑音復号化部１９０のそれぞれに割り当てるビット数を符号化側と同じ仕組みで定められたビット数の割り当ての組み合わせの中から出力する。
【００６５】
音声復号化部１８０は、ビット割り当て復号部１７０によるビット割り当てに基づき、符号化データを復号して音声を主体とする成分についての再生信号を生成し、これを結合部１９５へ出力する。
【００６６】
雑音復号化部１９０は、ビット割り当て復号部１７０によるビット割り当てに基づき、符号化データを復号して背景雑音を主体とする成分についての再生信号を生成し、これを結合部１９５へ出力する。
【００６７】
結合部１９５は、音声復号化部１８０で復号再生された音声を主体とする成分の再生信号と、雑音復号化部１９０で復号再生された雑音を主体とする成分の再生信号を結合して、最終的な出力音声信号を生成する。
【００６８】
次に、図５のフローチャートを用いて本実施形態の音声復号化方法の処理手順を説明する。
【００６９】
まず、入力される伝送符号化データを所定の時間単位毎に取り込み（ステップＳ２００）、この符号化データを逆多重化部１６０でビット割り当ての情報と、音声復号化部１８０に入力するための符号化データと、雑音復号化部１９０に入力するための符号化データに分離して出力する（ステップＳ２０１）。
【００７０】
次に、ビット割り当て復号部１７０においてビット割り当ての情報を復号し、音声復号化部１８０と雑音復号化部１９０のそれぞれに割り当てるビット数を音声符号化装置と同じ仕組みで定められたビット数の割り当ての組み合わせの中から出力する（ステップＳ２０２）。そして、ビット割り当て復号部１７０からのビット割り当てに基づき、音声復号化部１８０と雑音復号化部１９０でそれぞれの符号化データからそれぞれの再生信号を生成し、これらを結合部１９５へ出力する（ステップＳ２０３）。
【００７１】
次に、結合部１９５において再生された音声信号を主体とする成分と再生された雑音信号を主体とする成分を結合し（ステップＳ２０４）、最終的な音声信号を生成して出力する（ステップＳ２０５）。
【００７２】
［音声復号化装置の具体例］
図６に、図３の音声符号化装置の構成に対応する音声復号化装置の具体例を示す。逆多重化部１６０は、図３の音声符号化装置から送られてきた所定の時間単位毎の伝送符号化データをビット割り当ての情報と、音声復号化部１８０に入力するための符号化データであるスペクトル包絡のインデックス、適応インデックス、雑音インデックス、ゲインのインデックス情報を出力するとともに、雑音復号化部１９０に入力するための符号化データである各帯域別の量子化インデックスの情報を出力する。ビット割り当て復号部１７０は、ビット割り当ての情報を復号し、音声復号化部１８０と雑音復号化部１９０のそれぞれに割り当てるビット数を符号化と同じ仕組みで定められたビット数の割り当ての組み合わせの中から出力する。
【００７３】
音声復号化部１８０は、ビット割り当て復号部１７０からのビット割り当てに基づき符号化データを復号して音声を主体とする成分についての再生信号を生成し、これを結合部１９５へ出力する。具体的には、スペクトル包絡復号部４１４でスペクトル包絡のインデックスと予め用意しているスペクトル包絡符号帳からスペクトル包絡の情報を再生し、これを合成フィルタ４１６に送る。また、適応音源復号部４１１で適応インデックスの情報を入力し、これに対応するピッチ周期で繰り返す信号を適応符号帳から引き出して音源再生部４１５に出力する。
【００７４】
雑音音源復号部４１２は、雑音インデックスの情報を入力し、これに対応する雑音信号を雑音符号帳から引き出して音源再生部４１５に出力する。
【００７５】
ゲイン復号部４１３は、ゲインインデックスの情報を入力し、これに対応するピッチ成分に用いるゲインと雑音成分に用いるゲインの２種類のゲインをゲイン符号帳から引き出して音源再生部４１５に出力する。
【００７６】
音源再生部４１５は、適応音源復号部４１１からのピッチ周期で繰り返す信号（ベクトル）Ｅｐと、雑音音源復号部４１２からの雑音信号（ベクトル）Ｅｎと、ゲイン復号部４１３からの２種類のゲインＧｐ，Ｇｎを用いて音源信号（ベクトル）Ｅｘを次式（１）に従って再生する。
Ｅｘ＝Ｇｐ・Ｅｐ＋Ｇｎ・Ｅｎ（１）
合成フィルタ４１６は、スペクトル包絡の情報を用いて音声を合成するための合成フィルタのパラメータを設定し、音源再生部４１５からの音源信号を入力することにより合成音声信号を生成する。さらに、ポストフィルタ４１７でこの合成音声信号に含まれる符号化歪みを整形して聞きやすい音となるようにして結合部１９５に出力する。
【００７７】
次に、図６の雑音復号部１９０について説明する。
雑音復号部１９０は、ビット割り当て復号部１７０によるビット割り当てに基づき、雑音復号部１９０に必要な符号化データを入力し、これを復号して背景雑音を主体とする成分の再生信号を生成し、これを結合部１９５へ出力する。具体的には、雑音データ分離部４２０で符号化データを各帯域別の量子化インデックスに分離し、第１帯域復号化部４２１、第２帯域復号化部４２２、…、第ｍ帯域復号化部４２３により、それぞれの帯域でのパラメータを復号し、逆変換部４２４で復号されたパラメータを用いて符号化側で行った変換と逆の変換を行い、背景雑音を主体とする成分を再生信号を生成する。この背景雑音を主体とする成分の再生信号は、結合部１９５に送られる。
【００７８】
結合部１９５では、ポストフィルタで整形された音声を主体とする成分と、再生された背景雑音を主体とする成分の再生信号が隣接するフレーム間で滑らかに接続されるようにして結合し、これを出力音声信号として最終的な復号化部からの出力とする。
【００７９】
（第２の実施形態）
［符号化側について］
図７に、本発明の第２の実施形態に係る音声符号化方法を適用した音声符号化装置の構成を示す。本実施形態が第１の実施形態と異なるのは、雑音符号化部１４０に入力される背景雑音を主体とする成分のゲインを抑圧してから、雑音符号化の処理を行う点である。図７における成分分離部１００、ビット割り当て部１２０、音声符号化部１３０、雑音符号化部１４０および多重化部１５０については図１と同一であるので、ここでは説明を省略し、第１の実施形態との相違点のみを説明する。
【００８０】
ゲイン抑圧部１５５は、成分分離部１００から出力される背景雑音を主体とする成分のゲインを所定の方法で抑圧し、この成分が小さくなるようにして雑音符号化部１４０に入力する。こうすることで、復号化側で音声信号に結合される背景雑音の量が少なくなる。従って、復号化側で出力される最終的な出力音声信号に混じる背景雑音の自然な感じが保たれるだけでなく、音声自体のレベルは変わらずに雑音レベルだけが下がるため、より出力音声が聞きやすいものとなる効果がある。
【００８１】
図８は、図７の構成を若干変形した例である。図８では、ゲイン抑圧部１５６で背景雑音を主体とする成分のゲインを抑圧したものをビット割り当て選択部１１０と雑音符号化部１４０に入力している点が図７と異なっている。こうすることで、音声を主体とする成分とゲイン抑圧された背景雑音を主体とする成分との比較でビット割り当てを選択することができるようになるので、実際に復号化側で出力される音声信号と背景雑音信号のそれぞれの大きさに合ったビット割り当てを行うことが可能となり、復号される音声の再生音質が向上するという効果がある。
【００８２】
次に、図９に示すフローチャートを用いて本実施形態の音声符号化方法の処理手順を説明する。
まず、入力音声信号を所定の時間単位毎に取り込み（ステップＳ３００）、成分分離部２００でこれを分析して、音声主体成分とそれ以外の背景雑音主体成分に分離する（ステップＳ３０１）。
【００８３】
次に、ビット割り当て選択部１１０で成分分離部１００からの音声主体成分と背景雑音主体成分の２種類の成分を基に、音声符号化部１３０と背景雑音符号化部１４０のそれぞれに割り当てるビット数を予め定められたビット数の割り当ての組み合わせの中から選択するとともに、そのビット割り当ての情報をそれぞれの符号化部１３０，１４０に出力する（ステップＳ３０２）。
【００８４】
次に、成分分離部１００から出力される背景雑音を主体とする成分のゲインをゲイン抑圧部１５５によって所定の方法で抑圧し、この成分が小さくなるようにしてから、雑音符号化部１４０に入力する（ステップＳ３１２）。
【００８５】
そして、ビット割り当て選択部１２０で選択されたそれぞれのビット数の割り当てに従い、音声符号化部１３０と雑音符号化部１４０で符号化処理を行う（ステップＳ３０３）。具体的には、音声符号化部１３０では成分分離部１００からの音声主体成分を入力し、音声符号化部１３０に対して割り当てられたビット数で符号化を行い、音声が主体とする成分に対する符号化データを求める。一方、雑音符号化部１４０では成分分離部１００からの背景雑音主体成分を入力し、雑音符号化部１４０に対して割り当てられたビット数で符号化を行い、背景雑音を主体とする成分に対する符号化データを求める。
【００８６】
次に、多重化部１５０で各符号化部１３０，１４０からの符号化データと各符号化部１３０，１４０へのビット割り当ての情報を多重化して伝送路に出力する（ステップＳ３０４）。これで所定の時間区間内で行う符号化の処理が終る。そして、次の時間区間に対し符号化を続行するか終了するかを判定する（ステップＳ３０５）。
【００８７】
（第３の実施形態）
図１０は、本発明の第３の実施形態に係る音声復号化方法を適用した音声符号化装置の構成を示すブロック図である。図１０における逆多重化部１６０、ビット割り当て復号部１７０、音声復号化部１８０、雑音復号化部１９０および結合部１９５は、図４と同一であるので、ここではこれらの説明は省略し、それ以外の構成要素について詳細に説明する。
【００８８】
本実施形態では、雑音復号化部１９０で再生された背景雑音を主体とする成分波形の振幅を振幅制御部１９７から指定した情報に基づいて振幅調整部１９６で調整し、さらに背景雑音を主体とする成分波形を位相が遅れるように遅延させる遅延部１９８を設け、これを音声を主体とする成分波形に結合して出力音声信号を生成する点が第１の実施形態で説明した図４の音声復号化装置と異なる。
【００８９】
本実施形態によると、振幅調整部１９６を設けることによって、ある帯域のパワーが極端に大きいとき不快な雑音となる現象を抑えることができる。また、前フレームの値からパワーが大きく変動しないように振幅調整部１９６で振幅を制御することによって、最終的に出力される音声中の雑音をより聞きやすいものにすることができる。
【００９０】
一方、遅延部１９８による背景雑音を主体とする成分波形を遅延させるのは、音声復号化の処理によって再生される音声波形が遅延して出力されることに基づいており、この遅延部１９８によって背景雑音も音声波形の遅れと同程度に遅延させることで、次の結合部１９５において音声と背景雑音が時間的に合った形で結合させることができるようになる。
【００９１】
音声復号化処理では、通常、再生された音声信号に含まれる量子化雑音を主観的に低減させるため、適応ポストフィルタを用いて再生音声信号のスペクトル形状を調整する。本実施形態では、このような適応ポストフィルタを用いることによって、音声復号化側で生じる遅延量を考慮して、再生された背景雑音を主体とする成分波形にも遅延を与え、より自然な形で音声と背景雑音を結合させることにより、最終的に出力される音声をより高品質なものにできるという効果が得られる。
【００９２】
次に、図１１に示すフローチャートを用いて本実施形態の音声復号化方法の処理手順を説明する。
【００９３】
まず、入力される伝送符号化データを所定の時間単位毎に取り込み（ステップＳ４００）、この符号化データを逆多重化部１６０でビット割り当ての情報と、音声復号化部１８０に入力するための符号化データと、雑音復号化部１９０に入力するための符号化データに分離して出力する（ステップＳ４０１）。
【００９４】
次に、ビット割り当て復号部１７０においてビット割り当ての情報を復号し、音声復号化部１８０と雑音復号化部１９０のそれぞれに割り当てるビット数を符号化側と同じ仕組みで定められたビット数の割り当ての組み合わせの中から出力する（ステップＳ４０２）。
【００９５】
次に、ビット割り当て復号部１７０によるビット割り当てに基づき、音声復号化部１８０と雑音復号化部１９０でそれぞれの符号化データからそれぞれの再生信号を生成する（ステップＳ４０３）。
【００９６】
そして、雑音復号化部１９０で再生された背景雑音を主体とする成分波形の振幅を振幅調整部１９６により調整し（ステップＳ４１４）、さらに背景雑音を主体とする成分波形の位相を遅延部１９８で所定量だけ遅らせる（ステップＳ４１５）。
【００９７】
次に、結合部１９５により音声復号化部１８０で復号再生された音声信号を主体とする成分の再生信号と、遅延部１９８からの復号再生された雑音を主体とする成分の再生信号を結合し（ステップＳ４０４）、最終的な音声信号を生成して出力する（ステップＳ４０５）。
【００９８】
［音声復号化装置の具体例］
図１２に、本実施形態に係る音声復号化装置のさらに詳細な構成を示す。
【００９９】
逆多重化部１６０は符号化部から送られてきた上述した所定の時間単位毎に符号化データを分離し、ビット割り当ての情報と、音声復号化部に入力するための符号化データであるスペクトル包絡のインデックス、適応インデックス、雑音インデックス、ゲインのインデックスの情報を出力するとともに、雑音復号化部に入力するための符号化データである各帯域別の量子化インデックスの情報を出力する。
【０１００】
ビット割り当て復号部１７０は、ビット割り当ての情報を復号し、音声復号化部１８０と雑音復号化部１９０のそれぞれに割り当てるビット数を符号化と同じ仕組みで定められたビット数の割り当ての組み合わせの中から出力する。
【０１０１】
音声復号化部１８０は、ビット割り当て復号部１７０によるビット割り当てに基づき符号化データを復号して音声を主体とする成分の再生信号を生成し、これを結合部１９５へ出力する。具体的には、スペクトル包絡復号部４１４でスペクトル包絡のインデックスの情報と予め用意しているスペクトル包絡符号帳からスペクトル包絡の情報を再生し、これを合成フィルタ４１６に送る。また、適応音源復号部４１１で適応インデックスの情報を入力し、これに対応するピッチ周期で繰り返す信号を適応符号帳から引き出して音源再生部４１５に出力する。
【０１０２】
雑音源復号部４１２は、雑音インデックスを入力し、これに対応する雑音信号を雑音符号帳から引き出して音源再生部４１５に出力する。
【０１０３】
ゲイン復号部４１３は、ゲインインデックスの情報を入力し、これに対応するピッチ成分に用いるゲインと雑音成分に用いるゲインの２種類のゲインをゲイン符号帳から引き出して音源再生部４１５に出力する。
【０１０４】
音源再生部４１５は、適応音源復号部４１１からのピッチ周期で繰り返す信号（ベクトル）Ｅｐと、雑音音源復号部４１２からの雑音信号（ベクトル）Ｅｎとゲイン復号部４１３からの２種類のゲインＧｐ、Ｇｎを用いて前述の式（１）の関係により音源信号（ベクトル）Ｅｘを再生する。
【０１０５】
合成フィルタ４１６は、スペクトル包絡の情報を用いて音声を合成するための合成フィルタのパラメータを設定し、音源再生部４１５からの音源信号を入力することにより合成音声信号を生成する。さらに、ポストフィルタ４１７でこの合成音声信号に含まれる符号化歪みを整形して聞きやすい音となるようにしてから結合部１９５に出力する。
【０１０６】
次に、図１２の雑音復号部１９０について説明する。
雑音復号部１９０は、ビット割り当て復号部１７０からのビット割り当てに基づき、雑音復号部１９０に必要な符号化データを入力し、これを復号して背景雑音を主体とする成分の再生信号を生成し、これを結合部１９５へ出力する。具体的には、雑音データ分離部４２０で符号化データを各帯域別の量子化インデックスに分離し、第１帯域復号化部４２１、第２帯域復号化部４２２、…、第ｍ帯域復号化部４２３でそれぞれの帯域でのパラメータを復号し、逆変換部４２４で復号されたパラメータを用いて符号化側で行った変換と逆の変換を行い、背景雑音を主体とする成分を再生する。
【０１０７】
再生された背景雑音を主体とする成分波形の振幅は、振幅制御部１９７から指定した情報に基づいて振幅調整部１９６で調整され、この背景雑音を主体とする成分波形を位相が遅れるように遅延部１９８にて遅延させ、結合部１９５に出力してポストフィルタによって整形された音声主体成分と結合させることにより、出力音声信号を生成する。
【０１０８】
［音声復号化装置の別の具体例］
図１３に、本実施形態に係る音声復号化装置の詳細な別の構成を示す。図１３において、図１２と同一部分に同一符号を付して説明すると、本実施形態は背景雑音復号化部１９０において振幅制御を帯域別に行う点が異なっている。
【０１０９】
すなわち、本実施形態では背景雑音復号化部１９０に新たに振幅調整部４２８，４２９，４３０が設けられている。これらの振幅調整部４２８，４２９，４３０は、それぞれ振幅制御部１９７から指定された情報に基づいて特定の帯域でパワーが極端に大きい時の不快な雑音を抑える機能を持つ。これによって、より聞きやすい背景雑音を生成することができる。なお、この場合には図１２に示したような逆変換部４２４による逆変換後の振幅制御は不要となる。
【０１１０】
（第４の実施形態）
図１４に、本発明の第４の実施形態に係る音声符号化方法を適用した音声符号化装置の構成を示す。この音声符号化装置は、成分分離部２００、ビット割り当て選択部２２０、音声符号化部２３０、雑音符号化部２４０および多重化部２５０によって構成される。
【０１１１】
成分分離部２００は、入力される音声信号を所定の時間単位毎に分析し、音声主体成分（第１の成分）とそれ以外の背景雑音主体成分（第２の成分）とに分離する成分分離を行う。通常、この成分分離時の分析の時間単位は１０〜３０ｍｓ程度が適当であり、音声符号化の単位であるフレーム長とほぼ対応するようにすることが望ましい。この成分分離の具体的な手法は種々考えられるが、通常、背景雑音は音声に比べて時間的にスペクトル形状がゆっくり変動する性質があるので、このような性質の違いを利用した方法で成分分離を行うことが望ましい。
【０１１２】
例えば、スペクトルサブトラクションと呼ばれる技術を用いて、時間的に変動の少ない背景雑音のスペクトル形状を処理を行いながら推定し、時間的に変動の激しい時間区間では、その区間からそれまでに推定していた雑音のスペクトルの分だけを入力音声のスペクトルから差し引くことで、背景雑音がある条件下で入力音声信号から音声主体成分を良好に分離することができる。一方、背景雑音主体成分については、入力音声信号から求められた音声主体成分を時間領域か周波数領域で差し引くことにより求めることができる。背景雑音主体成分としては、前述の推定した雑音のスペクトルをそのまま用いることも可能である。
【０１１３】
ビット割り当て選択部２２０は、成分分離部２００からの音声主体成分と背景雑音主体成分の２種類の成分を基に、後述する音声符号化部２３０と背景雑音符号化部２４０のそれぞれに割り当てる符号化ビット数を予め定められたビット割り当ての組み合わせの中から選択し、それらのビット割り当ての情報を音声符号化部２３０および雑音符号化部２４０に出力する。また、これと共にビット割り当て選択部２２０からビット割り当ての情報が伝送情報として多重化部２５０に出力される。
【０１１４】
このビット割り当ては、音声主体成分と背景雑音主体成分のそれぞれの成分の量を比較することによって選択することが望ましいが、それだけに限られるものではなく、例えば、より安定した音質を得るために、ビット割り当ての変化を過去から監視しながら、ビット割り当てに急激な変化が起こりにくくする仕組みと、それぞれの成分の量の比較とを組み合わせてビット割り当てきめる方法も有効である。
【０１１５】
ビット割り当て選択部２２０において用意されるビット割り当ての組み合わせとそれを表す符号の一例としては、次の表３に示すものが考えられる。
【０１１６】
【表３】

【０１１７】
表３によると、モード「０」を選択すると、音声符号化部２３０にはフレーム当たり７８ビットが割り当てられ、雑音符号化部２４０にはビット割り当てが無い。これにビット割り当て用符号を２ビット送るため、入力音声信号の符号化に必要な全ビット数は８０ビットとなる。音声主体成分に比べて背景雑音主体成分がほとんど無いようなフレームに対しては、このモード「０」のビット割り当てを選択するようすることが望ましい。こうすることで音声符号化部へのビット割り当てが大きくなり、再生音声の音質が良くなる。
【０１１８】
一方、モード「１」を選択すると、音声符号化部２３０にはビット割り当てが無く、雑音符号化部２４０には７８ビットが割り当てられる。これにビット割り当て用符号を２ビット送るため、入力音声信号の符号化に必要な全ビット数は８０ビットとなる。背景雑音主体成分に対して、音声主体成分が無視できる程度のフレームでは、このモード「２」のビット割り当てを選択することが望ましい。
【０１１９】
また、モード「２」を選択すると、音声符号化部２３０には７８−Ｙビットが割り当てられ、雑音符号化部２４０にはＹビットが割り当てられる。ここで、Ｙは十分小さな正の整数を表わす。ここではＹ＝８を用いて説明するが、この値に限定されるわけではない。モード「２」では、これに加えてビット割り当て用符号を２ビット送るため、入力音声信号の符号化に必要な全ビット数は８０ビットとなる。
【０１２０】
音声主体成分と背景雑音主体成分の両者が共存するフレームに対しては、このモード「２」のようなビット割り当てを選択することが望ましい。この場合、聴感的には音声主体成分の方が明らかに重要であるため、雑音符号化部２４０に割り振るビット数を前述したように非常に小さくし、その減少分だけ音声符号化部２３０に割り振るビット数を大きくして、音声主体成分を正確に符号化できるようにする。このとき、雑音符号化部２４０において少ないビット数でいかに効率良く背景雑音主体成分を符号化することができるかがポイントとなるが、その具体的な実現法は後で詳しく説明する。
【０１２１】
このようにすることで、音声と背景雑音がそれぞれの符号化部で効率よく符号化することができ、自然な背景雑音を伴った音声を再生することができる。フレーム長としては音声符号化では１０〜３０ｍｓ程度の長さが適当である。この例では、２種類のビット割り当ての組み合わせに対し、トータルのフレーム当たりのビット数は８０と固定になっている。このように、トータルのフレーム当たりのビット数を固定にすると、入力音声によらずに、固定のビットレートで符号化を行えるようになる。
【０１２２】
音声符号化部２３０は、成分分離部２００からの音声信号が主体の成分を入力し、音声信号の特徴を反映した音声符号化により音声信号が主体の成分の符号化を行う。音声信号を効率よく符号化できるような符号化方法であれば、音声符号化部２３０にはどのような符号化方法を用いてもよいことはいうまでもないが、一例としてここではより自然な音声を提供できる方法として、ＣＥＬＰ方式を用いることにする。ＣＥＬＰ方式は、通常時間領域で符号化を行う方式で、時間領域の合成した波形の歪みが少なくなるように音源信号の符号化を行うことに特徴がある。
【０１２３】
雑音符号化部２４０は、成分分離部２００からの背景雑音主体成分を入力し、雑音を適切に符号化できるように構成されている。通常、背景雑音信号は音声信号に比べるとスペクトルの時間的な変動はゆるやかである。また、波形の位相情報もランダムに近く、人間の耳には位相情報があまり重要ではないという特徴がある。このような背景雑音成分を効率よく符号化するには、ＣＥＬＰ方式等の波形歪みを小さくするような波形符号化よりも、変換符号化のように時間領域から変換領域に変換して、その変換係数または変換係数から抽出されるパラメータを符号化することで効率的に符号化できる。特に、周波数領域に変換して人間の聴覚の特性を考慮した符号化を行うと、さらに符号化の効率を高めることができる。
【０１２４】
本実施形態による音声符号化方法の基本的な処理の流れは第１の実施形態と同様、図２のフローチャートに示した通りであるので、説明を省略する。
【０１２５】
［音声符号化装置の具体例］
図１５に、本実施形態において音声符号化部２３０にＣＥＬＰ方式、雑音符号化部２４０に変換符号化方式をそれぞれ用いた場合の音声符号化装置の具体例を示す。
音声符号化部２３０は、成分分離部２００からの音声主体成分を入力し、この成分を時間領域での波形歪みが小さくなるように符号化する。この際、ビット割り当て選択部２２０からのモード情報が音声符号化ビット割り当て部３１０に与えられ、モード情報に応じて予め定められたビット割り当てで各符号化部の符号化が行われる。まず、ビット割り当ての大きいモード「０」のときの説明を行い、その後にモード「１」およびモード「２」のときの説明を行う。
【０１２６】
モード「０」のときの音声符号化部２３０の動作は第１の実施形態と基本的に同様であり、スペクトル包絡符号帳探索部３１１、適応符号帳探索部３１２、雑音符号帳探索部３１３、ゲイン符号帳探索部３１４を用いてＣＥＬＰ符号化を行う。各符号帳探索部３１１〜３１４で探索された符号帳のインデックスの情報は符号化データ出力部３１５に入力され、この符号化データ出力部３１５から音声符号化データとして多重化部１５０へ出力される。
【０１２７】
次に、モード「１」のときは音声符号化部２３０に与えられるビット数は０ビットとなる。従って、音声符号化部２３０は何も動かさないようにして符号を多重化部２５０へ出力しないようにする。このとき、音声符号化で用いられるフィルタの内部状態が問題になるが、これは後述する復号部と同期させて初期状態に戻す、復号音声信号が不連続にならないように内部状態を更新する、またはゼロクリアするなどの処理を行う必要がある。
【０１２８】
次に、モード「２」のときは音声符号化部３０では７８−Ｙビットだけ用いることができる。このモード「２」では、基本的にモード「０」の場合と同様の処理を行うが、全体の品質に与える影響が比較的に少ないと考えられる雑音符号帳３１３もしくはゲイン符号帳３１４の大きさをＹビット分だけ小さくして符号化を行うようにする。当然のことながら、このときの各符号帳３１１，３１２，３１３，３１４は、後で説明する音声復号化部における符号帳と同一のものにしなければならない。
【０１２９】
次に、雑音符号化部２４０の詳細について説明する。
雑音符号化部２４０は、ビット割り当て選択部２２０からのモード情報が与えられ、モード「１」のときは第１雑音符号化部５０１、モード「２」のときは第２雑音符号化部５０２が用いられる。
【０１３０】
第１雑音符号化部５０１は、雑音符号化に用いられるビット数が７８ビットと大きく、背景雑音成分の形状を正確に符号化するために用いられる。一方、第２雑音符号化部５０２は、雑音符号化に用いられるビット数がＹビットと非常に小さく、背景雑音成分を少ないビット数で効率よく表現する必要があるときに用いられる。モード「０」のときは雑音符号化部２４０に与えられるビット数は０ビットとなるので、このときは何も符号化せず多重化部２５０に何も出力しない。このとき、雑音符号化部２４０にあるバッファやフィルタの内部状態に対し適切な処理、例えばゼロクリアを行う、復号雑音信号が不連続とならならないように内部状態を更新する、もしくは初期状態に戻すなどの処理を行う必要がある。この内部状態は、後述する雑音復号部と内部状態を同期させて同一とする必要がある。
【０１３１】
［第１雑音符号化部５０１について］
次に、図１６を用いて第１雑音符号化部５０１について詳細に説明する。
第１雑音符号化部５０１は、モード「１」のとき入力端子５１１にビット割り当て選択部２２０から与えられる信号によってアクティブとなり、入力端子５１２に成分分離部２００からの背景雑音主体成分を入力し、所定の変換を用いて該成分の変換係数を求め、変換領域でのパラメータの歪みが小さくなるように符号化する点が音声符号化部２３０における符号化方法と大きく異なる。
【０１３２】
変換領域でのパラメータの表現については、様々な方法が考えられるが、ここでは一例として背景雑音成分を変換領域で帯域分割し、各帯域別にその帯域を代表するパラメータを求め、それらのパラメータを量子化し、そのインデックスを送る方法について説明する。
【０１３３】
まず、変換係数算出部５２１において所定の変換を用いて、背景雑音主体成分の変換係数を求める。変換の方法としては、離散フーリエ変換を用いることができる。次に、帯域分割部５２２において周波数軸を所定の帯域に分割し、入力端子５１１に入力される雑音符号化ビット割り当て部５２０からのビット割り当てに応じた量子化ビット数を用いて、第１帯域符号化部５２３、第２帯域符号化部５２４、…、第ｍ帯域符号化部５２５のｍ個の帯域別に、パラメータの量子化を行う。パラメータとしては、変換係数から求められるスペクトル振幅やパワースペクトルをそれぞれの帯域の中で平均した値を用いることができる。各帯域からのパラメータの量子化値を表すインデックスは符号化データ出力部５２６にまとめられ、符号化データは多重化部２５０へ出力される。
【０１３４】
［第２雑音符号化部５０２について］
次に、図１７および図１８を用いて第２雑音符号化部５０２について詳細に説明する。第２雑音符号化部５０２は前述したようにモード「２」のとき、つまり雑音符号化で使用できるビット数が非常に小さいときに用いられ、背景雑音成分を少ないビット数で効率よく表現する必要がある。
【０１３５】
図１７は、第２雑音符号化部５０２の基本動作を説明するための図である。図１７において、（ａ）は背景雑音を主たる成分とする信号波形、（ｂ）は前フレームで符号化された結果得られたスペクトル形状、（ｃ）は現フレームで求められたスペクトル形状をそれぞれ表す。背景雑音成分は比較的長い時間で特性がほぼ一定とみなすことができるので、前フレームで符号化された背景雑音成分のスペクトル形状を予測に用い、この予測パラメータを符号化データとして出力すると共に、この予測したスペクトル形状（ｄ）と現フレームで求められた背景雑音成分のスペクトル形状（ｃ）との差分をとり、その差分を量子化すれば効率よく背景雑音成分を符号化することができる。
【０１３６】
図１８は、この原理に基づく第２雑音符号化部５０２の実現例を示すブロック図であり、図１９は第２雑音符号化部５０２の構成と処理手順を示すフローチャートである。
【０１３７】
第２雑音符号化部５０２は、モード「２」のとき入力端子５２１にビット割り当て選択部２２０から与えられる信号によってアクティブとなり、入力端子５３２から背景雑音を主たる成分とする信号を取り込み（ステップＳ５００）、図１６と同様に変換係数算出部５４１で変換係数を算出し（ステップＳ５０１）、さらに帯域分割部５４２で帯域分割を行って（ステップＳ５０２）、現フレームのスペクトル形状を算出する。
【０１３８】
変換係数算出部５４１および帯域分割部５４２は、第１雑音符号化部５０１における図１６中の変換係数算出部５２１および帯域分割部５２２と別のものを用いても構わないが、変換係数算出部５２１および帯域分割部５２２と同一のものを用いてもよい。また、これらに同一のものを用いる場合、それぞれ別個に持つ必要はなく、共有しても構わない。このことは、以下で説明する他の実施形態についても同様である。
【０１３９】
次に、予測部５４７で過去のフレームスペクトル形状から現フレームのスペクトル形状を推定し、現フレームのスペクトル形状との差分信号を加算部５４３で求める（ステップＳ５０３）。この差分信号を量子化部５４４で量子化し（ステップＳ５０４）、その量子化値を表わすインデックスを符号化データとして出力端子５３３より出力し（ステップＳ５０５）、同時に逆量子化部５４５で逆量子化を行って差分信号を復号する（ステップＳ５０６）。そして、この復号値に予測部５４７からの予測値を加算部５４６で加算し（ステップＳ５０７）、その加算結果を予測部５４７に与えて予測部５４７内のバッファを更新し（ステップＳ５０８）、次フレームのスペクトル形状の入力に備える。以上の一連の処理をステップＳ５０９で処理終了と判断されるまで繰り返す。
【０１４０】
予測部５４７に入力する背景雑音のスペクトル形状には、常に最新の復号値を与える必要があり、仮に第１雑音符号化部５０１が選択された場合でも、そのとき得られる背景雑音のスペクトル形状の復号値を予測部５４７に与えるようにする。
【０１４１】
また、ここでは１次のＡＲ予測について説明を行ったが、これに限定されるものではない。例えば、予測次数を２以上にして予測効率を上げることも可能である。また、予測の方法もＭＡ予測、またはＡＲＭＡ予測を用いることができる。さらに、予測係数の情報についても、復号化装置へ伝送するフィードフォワード型の予測を行い、予測効率を向上させることも可能である。このことは、以下で説明する他の実施形態についても同様である。
【０１４２】
図１８では、表記の都合上により簡略化しているが、予測は各帯域毎に行われる。また、量子化は各帯域毎にスカラー量子化が行われるか、または複数の帯域がまとめてベクトル化され、ベクトル量子化が行われることになる。
【０１４３】
このように符号化を行うことにより、背景雑音成分のスペクトル形状を少ない符号化データで効率的に表わすことができるようになる。
【０１４４】
［復号化側について］
図２０に、本実施形態に係る音声復号化方法を適用した音声復号化装置の構成を示す。この音声復号化装置は逆多重化部２６０、ビット割り当て復号化部２７０、音声復号化部２８０、雑音復号化部２９０および結合部２９５からなる。
【０１４５】
逆多重化部２６０では、図１４の音声符号化装置から前述のようにして所定の時間単位毎に送られてきた伝送符号化データを受け、これをビット割り当ての情報と、音声復号化部２８０に入力するための符号化データと、雑音復号化部２９０に入力するための符号化データに分離して出力する。
【０１４６】
ビット割り当て復号部２７０は、ビット割り当ての情報を復号し、音声復号化部２８０と雑音復号化部２９０のそれぞれに割り当てるビット数を符号化側と同じ仕組みで定められたビット数の割り当ての組み合わせの中から出力する。
【０１４７】
音声復号化部２８０は、ビット割り当て復号部２７０によるビット割り当てに基づき、符号化データを復号して音声を主体とする成分についての再生信号を生成し、これを結合部２９５へ出力する。
【０１４８】
雑音復号化部２９０は、ビット割り当て復号部２７０によるビット割り当てに基づき、符号化データを復号して背景雑音を主体とする成分についての再生信号を生成し、これを結合部２９５へ出力する。
【０１４９】
結合部２９５は、音声復号化部２８０で復号再生された音声を主体とする成分の再生信号と、雑音復号化部２９０で復号再生された雑音を主体とする成分の再生信号を結合して、最終的な出力音声信号を生成する。
【０１５０】
本実施形態による音声復号化方法の基本的な処理の流れは第１の実施形態と同様、図５のフローチャートに示した通りであるので、説明を省略する。
【０１５１】
［音声復号化装置の具体例］
図２１に、図１４の音声符号化装置の構成に対応する音声復号化装置の具体例を示す。逆多重化部２６０は、図１４の音声符号化装置から送られてきた所定の時間単位毎の伝送符号化データをビット割り当ての情報と、音声復号化部２８０に入力するための符号化データであるスペクトル包絡のインデックス、適応インデックス、雑音インデックス、ゲインのインデックス情報を出力するとともに、雑音復号化部２９０に入力するための符号化データである各帯域別の量子化インデックスの情報を出力する。ビット割り当て復号部２７０は、ビット割り当ての情報を復号し、音声復号化部２８０と雑音復号化部２９０のそれぞれに割り当てるビット数を符号化と同じ仕組みで定められたビット数の割り当ての組み合わせの中から出力する。
【０１５２】
モード「０」のとき、音声復号化部２８０には時間単位毎にビット割り当ての情報が入力される。ここでは、ビット割り当ての情報としてモード「０」を表わす情報が入力された場合について説明する。モード「０」は、音声符号化に割り振られるビット数が７８ビットと大きく、音声成分を主とする信号が雑音成分を主とする信号を無視できるほど大きい時に選択されるモードである。モード「１」またはモード「２」を表わす情報が与えられた場合については、後述する。
【０１５３】
モード「０」のときは、音声復号化部２８０の動作は第１の実施形態における音声復号化部１８０の動作と同様であり、ビット割り当て復号部２７０からのビット割り当てに基づき符号化データを復号して、音声を主体とする成分についての再生信号を生成し、これを結合部２９５へ出力する。
【０１５４】
すなわち、スペクトル包絡復号部４１４でスペクトル包絡のインデックスと予め用意しているスペクトル包絡符号帳からスペクトル包絡の情報を再生し、これを合成フィルタ４１６に送り、また適応音源復号部４１１で適応インデックスの情報を入力し、これに対応するピッチ周期で繰り返す信号を適応符号帳から引き出して音源再生部４１５に出力する。雑音音源復号部４１２は、雑音インデックスの情報を入力し、これに対応する雑音信号を雑音符号帳から引き出して音源再生部４１５に出力する。ゲイン復号部４１３は、ゲインインデックスの情報を入力し、これに対応するピッチ成分に用いるゲインと雑音成分に用いるゲインの２種類のゲインをゲイン符号帳から引き出して音源再生部４１５に出力する。音源再生部４１５は、適応音源復号部４１１からのピッチ周期で繰り返す信号（ベクトル）Ｅｐと、雑音音源復号部４１２からの雑音信号（ベクトル）Ｅｎと、ゲイン復号部４１３からの２種類のゲインＧｐ，Ｇｎを用いて音源信号（ベクトル）Ｅｘを先の式（１）に従って再生する。
合成フィルタ４１６は、スペクトル包絡の情報を用いて音声を合成するための合成フィルタのパラメータを設定し、音源再生部４１５からの音源信号を入力することにより合成音声信号を生成する。さらに、ポストフィルタ４１７でこの合成音声信号に含まれる符号化歪みを整形して聞きやすい音となるようにして結合部２９５に出力する。
【０１５５】
次に、モード「１」のときは、音声復号化部２８０に与えられるビット数は０ビットとなる。従って、音声復号化部２８０は何も動かさないようにして、符号を結合部２９５へ出力しないようにする。このとき、音声復号化部２８０で用いられるフィルタの内部状態が問題になるが、これは前述した音声符号化部と同期させて初期状態に戻すか、復号音声信号が不連続とならないように内部状態を更新する、またはゼロクリアするなどの処理を行えばよい。
【０１５６】
次に、モード「２」のときは、音声復号化部２８０では７８−Ｙ（０＜Ｙ＜＜７８）ビットだけ用いることができる。このモード「２」では、基本的にモード「０」の場合と同様の処理を行うが、全体の品質に与える影響が比較的に少ないと考えられる雑音符号帳もしくはゲイン符号帳の大きさをＹビット分だけ小さくしたものに対して、復号を行うようにする。当然のことながら、このときの各種符号帳は前述した音声符号化部における各符号帳と同一のものにしなければならない。
【０１５７】
次に、雑音復号化部２９０について説明する。
雑音復号化部２９０は、モード「１」のときに用いられる第１雑音復号化部６０１、モード「２」のときに用いられる第２雑音復号化部６０２より構成される。第１雑音復号化部６０１は、背景雑音の符号化データに用いられるビット数が７８ビットと大きく、背景雑音成分の形状を正確に復号するために用いられる。第２雑音復号化部６０２は、背景雑音の符号化データに用いられるビット数がＹビットと非常に小さく、背景雑音成分を少ないビット数で効率よく表現する必要があるときに用いられる。
【０１５８】
一方、モード「０」のときは、雑音復号化部２９０に与えられるビット数は０ビットとなるので、このときは何も復号せず、結合部２９５へは何も出力しない。このとき、雑音復号化部２９０にあるバッファやフィルタの内部状態に対して適切な処理、例えばゼロクリアを行う、復号雑音信号が不連続にならないように内部状態を更新する、もしくは初期状態に戻すなどの処理を行う必要がある。この内部状態は、前述した雑音符号化部２４０と同期させて同一になるようにする必要がある。
【０１５９】
次に、図２２を用いて第１雑音復号化部６０１について詳細に説明する。
第１雑音復号化部６０１は、入力端子６１１からビット割り当てを表わすモード情報が与えられ、入力端子６１２からは雑音復号化部に必要な符号化データが与えられ、これを復号して背景雑音成分を主体とする再生信号を生成し、これを出力端子６１３へ出力する。具体的には、雑音データ分離部６２０で符号化データを各帯域別の量子化インデックスに分離し、第１帯域復号化部６２１、第２帯域復号化部６２２、…、第ｍ帯域復号化部６２３でそれぞれの帯域でのパラメータを復号し、逆変換部６２４で復号されたパラメータを用いて符号化側で行った変換と逆の変換を行い、背景雑音を主体とする成分を再生する。再生された背景雑音を主体とする成分は、出力端子６１３に送られる。
【０１６０】
次に、図２３、図２４を用いて第２雑音復号化部６０２について詳細に説明する。図２３は、第２雑音復号化部６０２の構成を示すブロック図であり、図１８に示した第２雑音符号化部５０２に対応している。図２４は、第２雑音復号化部６０２の処理手順を示すフローチャートである。
【０１６１】
第２雑音復号化部６０２は、モード「２」のとき入力端子６３１にビット割り当て復号部２７０から与えられる信号によってアクティブとなり、入力端子６３２から雑音復号化に必要な符号化データを逆量子化部６４１に取り込み（ステップＳ６００）、差分信号を復号する（ステップＳ６０１）。
【０１６２】
次に、予測部６５３で過去のフレームのスペクトル形状から現フレームのスペクトル形状を予測し、この予測値と復号した差分信号とを加算部６４２で加算し（ステップＳ６０２）、この結果を用いて逆変換部６４４で逆変換を行って（ステップＳ６０３）、背景雑音を主とする信号を生成して出力端子６３３より出力し（ステップＳ６０４）、同時に加算部６５２の出力信号を予測部６４３に与えて予測部６４３内のバッファの内容を更新し（ステップＳ６０５）、次フレームの入力に備える。以上の一連の処理をステップＳ６０６で処理終了と判断されるまで繰り返す。
【０１６３】
予測部６４３に入力する背景雑音のスペクトル形状には、常に最新の復号値を与える必要があり、仮に第１雑音復号化部６０１が選択された場合でも、そのとき得られる背景雑音のスペクトル形状の復号値を予測部６４３に与えるようにする。
【０１６４】
逆変換部６４４は、第１雑音復号化部６０１における逆変換部６２４と別のものを用いても構わないが、逆変換部６２４と同一のものを用いてもよい。また、逆変換部６４４を逆変換部６２４と同一のものを用いる場合、それぞれ別個に持つ必要はなく、共有しても構わない。このことは、以下で説明する他の実施形態についても同様である。
【０１６５】
また、図２３では表記上の都合により簡略化しているが、予測は帯域別に行われる。また、逆量子化は図１８における量子化法に応じて各帯域毎にスカラー逆量子化、または複数帯域を一度に復号するベクトル逆量子化が行われることになる。
【０１６６】
このように復号を行うことにより、背景雑音成分のスペクトル形状を少ない符号化データから効率的に復元することができるようになる。
【０１６７】
（第５の実施形態）
本実施形態では、図１５中の第２雑音符号化部５０２とこれに対応する図２１中の第２雑音復号化部６０２の他の構成法について説明する。
【０１６８】
［第２雑音復号化部５０２について］
本実施形態における第２雑音符号化部５０２の特徴は、一つのパラメータ（パワー変動量）を用いて背景雑音成分のスペクトル形状を符号化できるようにした点にある。
【０１６９】
まず、図２５を用いて本実施形態における第２雑音符号化部５０２の基本動作を説明する。図２５において、（ａ）は背景雑音を主たる成分とする信号波形、（ｂ）は前フレームで符号化された結果得られたスペクトル形状、（ｃ）は現フレームで求められたスペクトル形状をそれぞれ表す。本実施形態では背景雑音成分のスペクトル形状を一定と仮定して、パワーの変動量のみを符号化データとして出力する。すなわち、スペクトル形状（ｂ）とスペクトル形状（ｃ）からパワーの変動量αを算出し、このαを符号化データとして出力する。後に説明する第２雑音復号化部６０２では、スペクトル形状（ｂ）にαを乗じてスペクトル形状（ｄ）を算出し、この形状を基に背景雑音成分を復号する。
【０１７０】
なお、ここでは理解しやすいように周波数領域で説明を行ったが、実際には時間領域でパワー変動量αを求めることも可能である。
【０１７１】
ここで、パワー変動量αを量子化するには４〜８ビットもあれば十分である。従って、このように少ない量子化ビット数で背景雑音成分を表現することができるために、前述した音声符号化部２３０に多くの符号化ビット数を配分することができ、結果として音声品質を向上させることができる。
【０１７２】
図２６は、この原理に基づく第２雑音符号化部５０２の実現例を示すブロック図であり、図２７は第２雑音符号化部５０２の処理手順を示すフローチャートである。
【０１７３】
第２雑音符号化部５０２は、モード「２」のとき入力端子５３１にビット割り当て選択部２２０から与えられる信号によってアクティブとなり、入力端子５３２から背景雑音を主たる成分とする信号を取り込み（ステップＳ７００）、変換係数算出部５５１で変換係数を算出して、スペクトル形状を求める（ステップＳ７０１）、バッファ５２６には、前フレームで符号化された結果得られるスペクトル形状が格納されており、このスペクトル形状と現フレームで求めたスペクトル形状からパワー変動量算出部５５２でパワー変動量を求める（ステップＳ７０２）。｛ａ（ｎ）；ｎ＝０〜Ｎ−１｝を前フレームで符号化された結果得られるスペクトル形状の振幅（バッファ５５６の出力）を表わし、｛ｂ（ｎ）；ｎ＝０〜Ｎ−１｝を現フレームで求めたスペクトル形状の振幅（変換係数算出部５５１の出力）を表わすものとすると、パワー変動量αは次式で表すことができる。
【０１７４】
【数１】

【０１７５】
このパワー変動量αを量子化部５５３で量子化し（ステップＳ７０３）、その量子化値を表わすインデックスを符号化データとして出力端子５３３より出力し（ステップＳ７０４）、同時に逆量子化部５５４で逆量子化してパワー変動量αを復号し（ステップＳ７０５）、この復号値にバッファ５５６に格納されている前フレームで符号化した結果得られるスペクトル形状｛ａ（ｎ）；ｎ＝０〜Ｎ−１｝を乗算部５５５で乗じる（ステップＳ７０６）。乗算部５５５の出力ａ′ （ｎ）は、次式で表される。
ａ′（ｎ）＝α・ａ（ｎ）
このａ′（ｎ）をバッファ５５６に格納して更新し（ステップＳ７０７）、次フレームのスペクトル形状の入力に備える。以上の一連の処理をステップＳ７０８で処理終了と判断されるまで繰り返す。
【０１７６】
バッファ５５６に与える背景雑音のスペクトル形状には、常に最新の復号値を与える必要があり、仮に第１雑音符号化部５０１が選択された場合でも、そのとき得られる背景雑音のスペクトル形状の復号値をバッファ５５６に与えるようにする。
【０１７７】
図２６では表記上の都合により簡略化しているが、帯域分割部５７５の出力とバッファ５５６の出力のそれぞれは、各周波数帯のスペクトル振幅を表すベクトルである。また、説明の都合上、図２６では帯域分割部５７５を用いているが、これを用いずに変換係数算出部５５１の出力からパワー変動量を求めることもできる。
【０１７８】
［第２雑音復号化部６０２について］
次に、本実施形態における第２雑音復号化部６０２について説明する。
本実施形態における第２雑音復号化部６０２の特徴は、一つのパラメータ（パワー変動量α）のみで背景雑音成分のスペクトル形状を復号できる点にある。図２８は、第２雑音復号化部６０２の構成を示すブロック図であり、図２６に示した第２雑音符号化部５０２に対応している。図２９は、この第２雑音復号化部６０２の処理手順を示すフローチャートである。
【０１７９】
第２雑音復号化部６０２は、モード「２」のとき入力端子６３１にビット割り当て復号部２７０から与えられる信号によってアクティブとなり、入力端子６３２からパワー変動量を表わす符号化データを逆量子化部６５１に取り込み（ステップＳ８００）、逆量子化を行ってパワー変動量を復号する（ステップＳ８０１）。バッファ６５３には、前フレームのスペクトル形状が格納されており、このスペクトル形状に前述した復号されたパワー変動量を乗算部６５２で乗じて現フレームのスペクトル形状を復元する（ステップＳ８０２）。この復元されたスペクトル形状を逆変換部６５４に与えて逆変換し（ステップＳ８０３）、背景雑音を主とする信号を生成して出力端子６３３より出力し（ステップＳ８０４）、同時に乗算部６５２の出力信号をバッファ６５３に与えてバッファ６５３の内容を更新し（ステップＳ８０５）、次フレームの入力に備える。以上の一連の処理をステップＳ８０６で処理終了と判断されるまで繰り返す。
【０１８０】
バッファ６５３に与える背景雑音のスペクトル形状には、常に最新の復号値を与える必要があり、仮に第１雑音復号化部６０１が選択された場合でも、そのとき得られる背景雑音のスペクトル形状の復号値をバッファ６５３に与えるようにする。
【０１８１】
本実施形態によると、符号化側において背景雑音成分のスペクトル形状を８ビット程度の非常に少ない符号化データで効率的に表わすことができ、また復号化側において背景雑音成分のスペクトル形状を非常に少ない符号化データで効率的に復元することができる。
【０１８２】
（第６の実施形態）
本実施形態では、図１５中の第２雑音符号化部５０２とこれに対応する図２１中の第２雑音復号化部６０２の別の構成法について説明する。
【０１８３】
［第２雑音符号化部５０２について］
本実施形態における第２雑音符号化部５０２の特徴は、予め定められた規則に従い周波数帯を決定し、この周波数帯におけるスペクトル形状を符号化する点にある。図３０を用いてその基本動作を説明する。
【０１８４】
図３０において、（ａ）は背景雑音を主たる成分とする信号波形、（ｂ）は前フレームで符号化された結果得られたスペクトル形状、（ｃ）は現フレームで求められたスペクトル形状をそれぞれ表す。本実施形態では背景雑音成分のスペクトル形状をほぼ一定と仮定して、パワーの変動量を符号化データとして出力すると同時に、ある規則に従い選択された周波数帯における振幅を現フレームの振幅と一致させるように量子化を行う点に特徴がある。
【０１８５】
本実施形態では、次のような利点がある。すなわち、背景雑音成分のスペクトル形状は比較的長い時間一定と考えることができるが、いつまでも同じ形状で推移するわけではなく、ある長い時間離れた区間同士のスペトルの形状を観察すると変化している。本実施形態は、このように徐々に変化する背景雑音成分のスペクトル形状を効率的に符号化することを目的としている。すなわち、スペクトル形状（ｂ）とスペクトル形状（ｃ）からパワーの変動量αを算出し、このパワーの変動量αを量子化してそのインデックスを符号化データとして出力する。これは前述した第５の実施形態と同じである。次に、量子化後のパワーの変動量αをスペクトル形状（ｂ）に乗じた後に、予め定められた規則に従い決定された周波数帯の現フレームのスペクトル形状（ｄ）に対する差信号を求め、これを量子化する。
【０１８６】
ここでいう周波数帯を決定する規則とは、例えば全ての周波数帯を一定時間内に巡回するように決定する方法が考えられる。図３１にその一例を示す。ここでは、図３１（ａ）に示されるように全帯域が５つの周波数帯に分割されている。そして、各フレームｋにおいては図３１（ｂ）に示されるように各周波数帯が巡回して選択される。このようにすることで、ある程度長い時間（この例では５フレーム）が必要であるが、一つの周波数帯のみを符号化していけば良いので、スペクトル形状の変化を少ないビット数で符号化ことができる。従って、この方法は背景雑音のように変化のスピードが遅い信号であるがために可能な処理である。また、予め定められた規則に従い符号化する周波数帯を決定するので、どの周波数帯を符号化したかという付加情報は必要ない。
【０１８７】
図３２は、この原理に基づく第２雑音符号化部５０２の実現例を示すブロック図であり、図３３は、この第２雑音符号化部５０２の処理手順を示すフローチャートである。
【０１８８】
第２雑音符号化部５０２は、モード２のとき入力端子５３１にビット割り当て選択部２２０から与えられる信号によってアクティブとなり、入力端子５３２から背景雑音を主たる成分とする信号を取り込み（ステップＳ９００）、変換係数算出部５６０で変換係数を算出し（ステップＳ９０１）、帯域分割部５６１で帯域分割を行ってスペクトル形状を求める（ステップＳ９０２）、バッファ５６６には前フレームで符号化された結果得られるスペクトル形状が格納されており、このスペクトル形状と現フレームで求めたスペクトル形状からパワー変動量算出部５６２でパワー変動量を求める（ステップＳ９０３）。｛ａ（ｎ）；ｎ＝０〜Ｎ−１｝を前フレームで符号化された結果得られるスペクトル形状の振幅を表わし、｛ｂ（ｎ）；ｎ＝０〜Ｎ−１｝を現フレームで求めたスペクトル形状の振幅を表わすものとすると、パワー変動量αは先に示した［数１］のように表すことができる。
【０１８９】
次に、パワー変動量αを量子化部５６３で量子化し（ステップＳ９０４）、その量子化値を表わすインデックスを符号化データとして出力し（ステップＳ９０５）、同時に逆量子化部５６４で逆量子化してパワー変動量αを復号し（ステップＳ９０６）、この復号値にバッファ５６６に格納されている前フレームで符号化した結果得られるスペクトル形状｛ａ（ｎ）；ｎ＝０〜Ｎ−１｝を乗算部５６５で乗じる（ステップＳ９０７）。乗算部５６５の出力ａ′（ｎ）は、先と同様にａ′（ｎ）＝α・ａ（ｎ）で表すことができる。
【０１９０】
次に、本実施形態固有の処理について説明する。
まず、周波数帯決定部５７２では、図３１で説明したように複数個の周波数帯に分割されているうちの一つの周波数帯をフレーム毎に巡回して選択し、決定する（ステップＳ９０８）。周波数帯決定部５７２の実現例の一つによれば、帯域分割数をＮとし、フレームカウンタをｆｃとすると、周波数帯決定部５７２の出力は、（ｆｃｍｏｄＮ）と表わすことができる。ここで、ｍｏｄは剰余演算を表わす。説明のため、周波数帯決定部５７２では周波数帯ｋが選択され決定されたものとする。
【０１９１】
現フレームの帯域分割されたスペクトル形状を｛ｂ（ｎ）；ｎ＝０〜Ｎ−１｝と表わし、乗算部５６５でパワー補正されたスペクトル形状を｛ａ′（ｎ）；ｎ＝０〜Ｎ−１｝とすると、差分演算部５７１ではｂ（ｋ）とａ′（ｋ）との差分値を算出する（ステップＳ９０９）。この差分演算部５７１で得られた差分値を量子化部５７３で量子化し（ステップＳ９１０）、そのインデックスを符号化データとして出力端子５３３より出力する（ステップＳ９１１）。従って、本実施形態では量子化部５６３から出力されるインデックスと量子化部５７３から出力されるインデックスが符号化データとして出力されることになる。
【０１９２】
量子化部５７３のインデックスは逆量子化部５７４にも与えられ、ここで差分値を復号する（ステップＳ９１２）。復号部５７５では、パワー補正されたスペクトル形状｛ａ′（ｎ）；ｎ＝０〜Ｎ−１｝の周波数帯ｋに、復号された差分値を加算してスペクトル形状｛ａ″（ｎ）；ｎ＝０〜Ｎ−１｝を復号し（ステップＳ９１３）、これをバッファ５６６に格納して次フレームの入力に備える（ステップＳ９１４）。以上の一連の処理をステップＳ９１５で処理終了と判断されるまで繰り返す。
【０１９３】
図３２では表記上の都合により簡略化しているが、帯域分割部５６１の出力、バッファ５６６の出力、乗算器５６５の出力、復号部５７５の出力は各周波数帯のスペクトル振幅を表すベクトルである。
【０１９４】
バッファ５６６に与える背景雑音のスペクトル形状には、常に最新の復号値を与える必要があり、仮に第１雑音符号化部５０１が選択された場合でも、そのとき得られる背景雑音のスペクトル形状の復号値をバッファ５６６に与えるようにする。
【０１９５】
［第２雑音復号化部６０２について］
本実施形態における第２雑音復号化部６０２の特徴は、予め定められた規則に従い周波数帯を決定し、この周波数帯におけるスペクトル形状を復号する点にある。
【０１９６】
図３４は、本実施形態における第２雑音復号化部６０２の実現例を示すブロック図であり、図３５は、この第２雑音復号化部６０２の処理手順を示すフローチャートである。
【０１９７】
第２雑音復号化部６０２は、モード２のとき入力端子６３１にビット割り当て復号部２７０から与えられる信号によってアクティブとなり、入力端子６３２からパワー変動量を表わす符号化データを逆量子化部６６１に取り込み（ステップＳ１０００）、逆量子化を行ってパワー変動量を復号する（ステップＳ１００１）。バッファ６６３には前フレームのスペクトル形状が格納されており、このスペクトル形状に前述した復号されたパワー変動量を乗算部１９０２で乗じる（ステップＳ１００２）。
【０１９８】
一方、入力端子６３４には一つの周波数帯の差分信号を表わす符号化データを取り込み、逆量子化部６６５によって一つの周波数帯の差分値を復号する（ステップＳ１００４）。このとき周波数帯決定部６６７では、図３２で説明した第２雑音符号化部５０２における周波数帯決定部５７２と同期して同じ周波数帯を選択し決定する（ステップＳ１００３）。
【０１９９】
次に、復号部６６６で図３２における復号部５７５と同じ処理によって乗算部６６２の出力信号、逆量子化部６６５からの一つの周波数帯の復号差分信号および周波数帯決定部６６７で決定された周波数帯の情報に基づき現フレームの背景雑音成分のスペクトル形状を復号する（ステップＳ１００５）。この復号されたスペクトル形状を逆変換部６６４に与えて逆変換し（ステップＳ１００６）、背景雑音を主とする信号を生成して出力端子６０３より出力し（ステップＳ１００７）、同時に、復元された背景雑音成分のスペクトル形状をバッファ６６３に与えてバッファ６６３の内容を更新し（ステップＳ１００８）、次フレームの入力に備える。以上の一連の処理をステップＳ１００９で処理終了と判断されるまで繰り返す。
【０２００】
バッファ６６３に与える背景雑音のスペクトル形状には、常に最新の復号値を与える必要があり、仮に第１雑音復号化部６０１が選択された場合でも、そのとき得られる背景雑音のスペクトル形状の復号値をバッファ６６３に与えるようにする。
【０２０１】
本実施形態によれば、符号化側において背景雑音成分のスペクトル形状をパワーの変動量と一つの帯域の差分信号で符号化データを表わすことができ、非常に効率よく背景雑音のスペクトル形状を表わすことができるようになり、また復号化側においては背景雑音成分のスペクトル形状をパワーの変動量と一つの帯域の差分信号で背景雑音のスペクトル形状を復元できるようになる。
【０２０２】
（第７の実施形態）
第６の実施形態では、一つの周波数帯を符号化し、一つの周波数帯を復号するする方法について説明を行ったが、ある定められた規則に従い複数の周波数帯を量子化し、ある定められた規則に従い複数の周波数帯を復号する構成も同様に実現可能である。
【０２０３】
この具体例を図３６を用いて説明する。図３６（ａ）に示すされるように、この例では全帯域が５つの周波数帯に分割され、フレーム毎に図３６（ｂ）に示されるように２つの周波数帯が選択され、それぞれが量子化される。
【０２０４】
既に説明したように、フレームカウンタをｆｃ、帯域分割数をＮとすると、量子化のために選択される周波数帯＃１は（ｆｃｍｏｄＮ）表わされ、巡回して選択される。ここで、ｍｏｄは剰余演算を表わす。同様に、量子化のために選択される周波数帯＃２は((ｆｃ＋２）ｍｏｄＮ）と表わされ、巡回して選択される。量子化される周波数帯が３以上となっても、同様に拡張して実現可能である。しかしながら、本実施形態では規則に従い量子化される周波数帯を決定することが重要であり、周波数帯を決定する規則は上述したものに限定されるわけではない。
【０２０５】
また、量子化する周波数帯を規則に従って選択するのではなく、差分値の大きな周波数帯を量子化して符号化し、その周波数帯を復号する方法も実現可能である。但し、この場合には、どの周波数帯を量子化したかを示す付加情報、どの周波数帯を復号するかを示す付加情報が必要になる。
【０２０６】
（第８の実施形態）
本実施形態では、図１５における雑音符号化部２４０および図２９における雑音復号化部２９０の代表的な構成を図３７および図３９を用いてそれぞれ説明する。また、図３７に対応するフローチャートを図３８に、図３９に対応するフローチャートを図４０にそれぞれ示す。以下、雑音符号化部２４０における第１雑音符号化部５０１と第２雑音符号化部５０２の関係、および雑音復号化部２９０における第１雑音復号化部６０１と第２雑音復号化部６０２の関係について説明する。
【０２０７】
［雑音符号化部２４０について］
図３７と図３８を用いて雑音符号化部２４０の説明を行う。まず、雑音成分が主体の成分が入力端子７０２から変換係数算出部７０４に与えられる（ステップＳ１１０１）。変換係数算出部７０４では、雑音成分が主体の成分に対し離散フーリエ変換などの処理を施して変換係数を出力する（ステップＳ１１０２）。入力端子７０３からモード情報が与えられ、モード「１」のときスイッチ７０５、スイッチ７１０およびスイッチ７１８が第１雑音符号化部がアクティブになるよう切り替えられ、モード「２」のときスイッチ７０５、スイッチ７１０およびスイッチ７１８が第２雑音符号化部がアクティブになるよう切り替えられる（ステップＳ１１０３）。
【０２０８】
第１雑音符号化部５０１がアクティブとなる場合、帯域分割部７０７で帯域分割が行われ（ステップＳ１１０４）、雑音符号化ビット割り当て部７０６で各周波数帯毎のビット数の割り当てを行い（Ｓ１１０５）、帯域符号化部７０８で各周波数帯毎に符号化を行う（ステップＳ１１０６）。表記上の都合により簡略化してあるが、帯域符号化部７０８は図１６における第１帯域符号化５２３、第２帯域符号化５２４および第ｍ帯域符号化５２５をーつのブロックにまとめたものであり、機能的には同等のものを表している。
【０２０９】
帯域符号化部７０８で得られる量子化インデックスを符号化データ出力部７０９を経由して出力端子７２０から出力し（ステップＳ１１０７）、この符号化データを用いて帯域復号化部７１１でスペクトル形状を復号し（ステップＳ１１０８）、この値をバッファ７１９に与えてバッファ７１９の内容を更新する（ステップＳ１１１４）。表記上の都合により簡略化してあるが、帯域復号化部７１１は図２２における第１帯域復号化６２１、第２帯域復号化部６２２および第ｍ帯域復号部６２３をーつのブロックにまとめたものであり、機能的には同等のものを表している。
【０２１０】
一方、第２雑音符号化部５０２がアクティブとなる場合は、変換係数算出部７０４の出力をパワー変化量算出部７１２に与え、パワー変化量が求める（ステップＳ１１０９）。このパワ−変化量を量子化部７１３で量子化し（ステップＳ１１１０）、そのとき得られるインデックスを出力端子７２０より出力する（ステップＳ１１１１）。これと同時に、インデックスを逆量子化部７１４に与てパワー変化量を復号する（ステップＳ１１１２）。この復号パワー変化量とバッファ７１９から得られる前フレームのスペクトル形状を乗算器７１５で乗算し（ステップＳ１１１３）、その結果をバッファ７１９に与えてバッファ７１９の内容を更新して次フレームの入力に備える（ステップＳ１１１４）。以上の一連の処理をステップＳ１１１５処理終了と判断されるまで繰り返す。
【０２１１】
［雑音復号化部２９０について］
図３９と図４０を用いて雑音復号化部２９０の説明を行う。符号化データが入力端子８０２から与えられる（ステップＳ１２０１）。これと同時に入力端子８０３からモード情報が与えられ、モード「１」のときスイッチ８０４、スイッチ８０７およびスイッチ８１２が第１雑音復号化部がアクティブになるよう切り替えられ、モード「２」のときスイッチ８０４、スイッチ８０７およびスイッチ８１２が第２雑音復号化部がアクティブになるよう切り替えられる（ステップＳ１２０２）。
【０２１２】
第１雑音復号化部がアクティブとなる場合、雑音データ分離部８０５で符号化データを各帯域別の量子化インデックスに分離し（ステップＳ１２０３）、この情報を基に帯域復号化部８０６で各周波数帯の振幅を復号する（ステップＳ１２０４）。表記上の都合により簡略化してあるが、帯域復号化部８０６は図２２における第１帯域復号化部６２１、第２帯域復号化部６２２および第ｍ帯域復号部６２３をーつのブロックにまとめたものであり、機能的には同等のものを表している。
【０２１３】
逆変換部８０８では、復号パラメータを用いて符号化側で行った変換と逆の変換を行って背景雑音を主体とする成分を再生し（ステップＳ１２０７）、出力端子８１３より出力する（ステップＳ１２０８）。これと並行して復号された各周波数帯の振幅情報をスイッチ８１２を経由してバッファ８１１に与え、バッファ８１１の内容を更新する（ステップＳ１２０９）。
【０２１４】
一方、第２雑音復号化部がアクティブとなる場合、前記符号化データを逆量子化部８０９に与えてパワー変化量を復号し（ステップＳ１２０５）、この復号パワ−変化量とバッファ８１１から与えられる前フレームのスペクトル形状を乗算器８１０で乗算する（ステップＳ１２０６）。その結果得られる復号パラメータをスイッチ８０７を経由して逆変換部８０８に与え、逆変換部８０８で符号化側で行った変換と逆の変換を行い、背景雑音を主体とする成分を再生し（ステップＳ１２０７）、出力端子８１３より出力する（ステップＳ１２０８）。これと並行して、前記復号パラメータをスイッチ８１２を経由してバッファ８１１に与えバッファ８１１の内容を更新する（ステップＳ１２０９）。以上の一連の処理をステップＳ１２１０で処理終了と判断されるまで繰り返す。
【０２１５】
（第９の実施形態）
本実施形態では、図１５における雑音符号化部２４０および図２９における雑音復号化部２９０の別の構成を図４１および図４３を用いてそれぞれ説明する。また、図４１に対応するフローチャートを図４２に、図４３に対応するフローチャートを図４４にそれぞれ示す。本実施形態は、第２雑音符号化部および第２雑音復号化部の構成が第８の実施形態と異なる。
【０２１６】
すなわち、第８の実施形態では前フレームのスペクトル形状に対する相対的なパワーの大きさをパワー変化量と呼び、これを量子化の対象としていた。これに対し、本実施形態では現フレームで算出した変換係数の絶対的なパワーを量子化の対象とし、これにより雑音符号化部の構成を簡易化している。
【０２１７】
［雑音符号化部２４０について］
図４１において、図３７と同一の名称を有する構成要素は同一の機能を有するものであり、ここでは説明を省略する。変換係数算出部９０４より出力される変換係数をパワ−算出部９１１に与え、変換係数を用いてフレームのパワーを求める（ステップＳ１３０８）。パワーは時間領域で算出することもでき、入力端子９０２から与えられる背景雑音を主体とする入力信号から直接求めることも可能である。このパワー情報を量子化部９１２で量子化し（ステップＳ１３０９）、そのときのインデックスをスイッチ９１０を経由して出力端子９１３より出力する（ステップＳ１３１０）。
【０２１８】
［雑音復号化部２９０について］
図４３において、図３９と同一の名称を有する構成要素は同一の機能を有するものであり、ここでは説明を省略する。入力端子１００２から取り込まれた符号化データは、スイッチ１００４を経由して逆量子化部１００８に与えられる。逆量子化部１００８では、逆量子化を行ってパワーを復号する（ステップＳ１４０５）。バッファ１０１１より出力される前フレームのスペクトル形状はパワー正規化部１０１２に与えられ、形状は保持したままパワーが１になるよう正規化が行われる（ステップＳ１４０６）。乗算器１００９では、前述したパワー正規化後の前フレームのスペクトル形状と前述した復号パワーとの乗算を行い（ステップＳ１４０７）、その出力をスイッチ１００７を経由して逆変換部１０１３に与える。
【０２１９】
逆変換部１０１３では、符号化側で行った変換と逆の変換を行い、背景雑音を主体とする成分を再生し（ステップＳ１４０８）、出力端子１０１４より出力する（ステップＳ１４０９）。これと並行して、乗算器１００９の出力信号をスイッチ１０１０を経由してバッファ１０１１に与え、バッファ１０１１の内容を更新する（ステップＳ１４１０）。以上の一連の処理をステップＳ１４１１で処理終了と判断されるまで繰り返す。
【０２２０】
（第１０の実施形態）
次に、本発明の第１０の実施形態として、本発明における音声信号の成分分離法の好ましい実施形態を説明する。
これまで説明した実施形態において、成分分離部１００で入力音声信号を音声主体成分と背景雑音主体成分とに成分分離する場合に、分離性能が悪いと復号音声信号の品質劣化が生じてしまう。例えば、この成分分離を行うために入力音声信号をノイズキャンセラに通して雑音抑圧を行うと、たとえ入力音声信号に背景雑音が存在しない場合でも、不要な雑音抑圧動作により音声主体成分に歪みを発生させてしまい、これが音声符号化部１３０に入力されることにより、復号音声信号の品質劣化の原因となる。
【０２２１】
一方、背景雑音は通常は周期性を持たないが、例えば遠くで人が話しているような背景雑音では、周期性が存在する。このような場合、成分分離後に得られる背景雑音主体成分に周期性が残っていると、これをそのまま雑音符号化部１４０に入力すると、音声符号化部１３０と異なり、雑音符号化部１４０は構造上、周期性（ピッチ周期）効率よく表現することができないため、ピッチ周期性の強い背景雑音主体成分（話者妨害、バブルノイズなど）に対して、不快な雑音を生成してしまう可能性がある。
本実施形態による音声信号の成分分離方法によれば、このような問題を伴うことなく、成分分離を的確に行うことが可能である。
【０２２２】
図４５に、本発明の実施形態による音声信号の成分分離方法を適用した成分分離部１００の詳細な構成を示す。この成分分離部１００は、雑音抑圧部１０１と減算器１０２と状態判定部１０３および選択部１０４からなる。
【０２２３】
状態判定部１０３は、図４６に示すようにＳＮＲ判定部１１１と周期性判定部１１２と推定エネルギー判定部１１３およびこれらの各判定部１１１、１１２、１１３の判定結果から総合判定を行って入力音声信号の状態判定結果を出力する総合判定部１１４から構成されている。
【０２２４】
次に、図４７に示すフローチャートを用いて成分分離部１００の処理手順を説明する。この処理は、入力音声信号のフレーム毎に行われる。
成分分離部１００における雑音抑圧部１０１には、既存の技術を用いることができるが、ここでは前述したスペクトルサブトラクション法を用いた場合について説明する。スペクトルサブトラクション法は、帯域毎に雑音成分の大きさを推定し、入力音声信号から雑音成分の推定値を各帯域毎に減衰させることにより、雑音を抑圧する技術である。
【０２２５】
このスペクトルサブトラクション法を用いて、雑音抑圧部１０１で入力音声信号について雑音抑圧を行うことにより、音声成分抽出信号（第１の信号）Ｓ１を生成した後、さらに減算器１０２で入力音声信号から音声成分抽出信号Ｓ１を減じることにより、雑音成分抽出信号（第２の信号）Ｓ２を生成する（ステップＳ１５０１）。
【０２２６】
次に、状態判定部１０３で音声成分抽出信号Ｓ１および雑音成分抽出信号Ｓ２から入力音声信号の状態、すなわち入力音声信号が音声成分を主とする第１の状態、背景雑音成分を主とする第２の状態、および音声成分と背景雑音成分の両者をほぼ均等に含む第３の状態のいずれの状態かを所定の時間単位毎、つまりフレーム毎に判定する（ステップＳ１５０２）。
【０２２７】
そして、この判定結果に基づいて選択部１０４で音声主体成分と背景雑音が主体成分の選択を行う。すなわち、入力音声信号が第１の状態の場合には、音声主体成分として入力音声信号をそのまま出力し、背景雑音主体成分として全ゼロ信号Ｓ３を出力する（ステップＳ１５０３）。また、入力音声信号が第２の状態の場合には、音声主体成分として全ゼロ信号Ｓ３を出力し、背景雑音主体成分として入力音声信号をそのまま出力する（ステップＳ１５０４）。さらに、入力音声信号が第３の状態の場合には、音声主体成分として音声成分抽出信号Ｓ１を出力し、背景雑音主体成分として雑音成分抽出信号Ｓ２を出力する（ステップＳ１５０５）。こうして出力される音声主体成分および背景雑音主体成分は、それぞれ音声符号化部１３０および雑音符号化部１４０で符号化される。
【０２２８】
このように本実施形態によると、入力音声信号が音声を主体とする第１の状態のときは、入力音声信号が雑音抑圧処理を受けずにそのまま音声主体成分として出力され、これが音声符号化部１３０において音声に適した符号化方法で符号化されるため、音声成分に対する不要な雑音抑圧処理による復号音声信号の品質劣化を避けることができる。
【０２２９】
図４８に示すフローチャートは、成分分離部１００の他の処理手順を示しており、図４７におけるステップＳ１５０４がステップＳ１５０６に変更されている点以外は、図４７と同様である。このステップＳ１５０６では、入力音声信号が第２の状態の場合、第３の状態の場合と同様に、音声主体成分として音声成分抽出信号Ｓ１を出力し、背景雑音主体成分として雑音成分抽出信号Ｓ２を出力するようにしており、このようにしても結果はほぼ同じである。
【０２３０】
次に、図４９に示すフローチャートを用いて図４６に示した状態判定部１０３の処理手順を説明する。なお、この処理も入力音声信号のフレーム毎に行われるものとする。
まず、次式（２）により雑音成分抽出信号Ｓ２の推定エネルギーＥest を算出する（ステップＳ１６０１）。
Ｅest(ｍ) ＝α・Ｅno＋（１−α）・Ｅest(ｍ−１) （２）
ここで、αは更新係数、ｍは入力音声信号のフレーム番号を表す。
【０２３１】
次に、音声成分抽出信号Ｓ１と雑音成分抽出信号Ｓ２のＳＮＲ（Ｓ／Ｎ比）、つまり両信号Ｓ１，Ｓ２のエネルギー比を以下のようにして算出する（ステップＳ１６０２）。
まず、音声成分抽出信号Ｓ１のエネルギーＥ_spおよび雑音成分抽出信号Ｓ２のエネルギーＥ_noを次式（３）（４）により算出する。
【０２３２】
【数２】

【０２３３】
ここで、ｓｐ（ｎ）は音声成分抽出信号Ｓ１、ｎｏ（ｎ）は雑音成分抽出信号Ｓ２を表し、ＦＬＮはフレーム長（＝１６０）を表す。
これら算出された音声成分抽出信号Ｓ１のエネルギーＥ_spおよび雑音成分抽出信号Ｓ２のエネルギーＥ_noはｌｏｇ領域の信号であるため、両者の差Ｅ_sp−Ｅ_noが信号Ｓ１，Ｓ２のエネルギー比であるＳＮＲを表すことになる。
【０２３４】
次に、このＳＮＲ（＝Ｅ_sp−Ｅ_no）を次式（５）のように閾値ＴＨ１と比較する（ステップＳ１６０３）。
ＳＮＲ（＝Ｅ_sp−Ｅ_no）≧ＴＨ１（５）
ここで、式（５）を満足する場合には、入力音声信号は音声主体成分の候補とする。一方、式（５）を満足しない場合には、雑音成分抽出信号Ｓ２についてピッチ分析を行い、次式（６）（７）によりピッチ周期性の大きさＧ_noを算出する（ステップＳ１６０３）。
【０２３５】
【数３】

【０２３６】
ここで、ＴＭＩＮはピッチ周期の最小値、ＴＭＡＸはピッチ周期の最大値をそれぞれ表し、ＮＡＮＡはピッチ分析長を表す。
【０２３７】
次に、このようにして算出されたピッチ周期性の大きさＧ_noを次式（８）のように閾値ＴＨ２と比較する（ステップＳ１６０４）。
Ｇ_no≧ＴＨ２（８）
ここで、式（８）を満足する場合には、入力音声信号は音声成分を主体とする信号であるとして第１の状態を選択し（ステップＳ１６０７）、式（８）を満足しない場合には、入力音声信号は雑音成分を主体とする信号であるとして第２の状態を選択する（ステップＳ１６０８）。
【０２３８】
一方、ステップＳ１６０３で式（５）を満足し、入力音声信号が音声主体成分の候補であるとした場合には、引き続きステップＳ１６０６において、式（２）により算出された雑音成分抽出信号Ｓ２の推定エネルギーＥest を次式（９）のように閾値ＴＨ３と比較する。
Ｅest(ｍ) ≧ＴＨ３（９）
ここで、式（９）を満足する場合には、入力音声信号は音声成分が比較的大きく、背景雑音成分も比較的大きい、つまり音声成分および背景雑音成分の両者をほぼ均等に含むものとして、第３の状態を選択する（ステップＳ１６０９）。一方、式（９）を満足しない場合には、入力音声信号中の背景雑音成分は無視できると判断できるので、第１の状態を選択する（ステップＳ１６０７）。
【０２３９】
このように本実施形態では、入力音声信号の状態判定に際し、特にステップＳ１６０４〜Ｓ１６０５で雑音成分抽出信号Ｓ２のピッチ周期性の大きさＧ_noを求め、その大きさＧ_noが閾値ＴＨ２以上かどうかを調べて、Ｇ_noが閾値ＴＨ２以上の場合には第２の状態を選択せず、第１の状態を選択して音声主体成分と同様に扱い、音声符号化部１３０で符号化することによって、周期性を効率よく表現できない雑音符号化部１４０で周期性の大きな雑音成分抽出信号Ｓ２を符号化することによる不快な雑音の生成という問題を回避することができる。
【０２４０】
なお、本実施形態で説明した音声信号の成分分離方法は、音声符号化以外の用途にも適用が可能であり、例えば音声主体成分と背景雑音主体成分を別々に記録するなど、両成分に異なった処理を施すような用途に広く応用できる。
【０２４１】
（第１１の実施形態）
図５０は、第１０の実施形態で説明した成分分離部１００を用いた本発明の第１１の実施形態に係る音声符号化装置の構成を示している。図１に示した第１の実施形態と比較すると、成分分離部１００内の状態判定部１０３からの状態判定結果がビット割り当て選択部１２０と多重化部１５０に入力されている点が異なっている。
【０２４２】
第１０の実施形態で説明したように、状態判定部１０３では入力音声信号が第１、第２および第３の状態のいずれの状態にあるかの判定を行うので、ビット割り当て選択部１２０では入力音声信号が音声を主体とする第１の状態のときは音声符号化部１３０に多くのビットを割り当て、また入力音声信号が背景雑音を主体とする第２の状態のときは雑音符号化部１４０に多くのビットを割り当て、さらに入力音声信号が音声と背景雑音を共に多く含む第３の状態のときは音声符号化部１３０および背景雑音符号化部１４０にほぼ均等にビットを割り当てるようにする。
【０２４３】
また、これにより状態判定部１０３の判定結果はビット割り当て選択部１２０でのビット割り当ての情報を示すことになるので、これをビット割り当て符号として多重化部１５０で音声符号化部１３０および雑音符号化部１４０からの符号化データと多重化すればよい。
【０２４４】
【発明の効果】
以上説明したように、本発明によれば背景雑音も含めて音声を原音にできるだけ近い形で再生することが可能な低レート音声符号化方法および音声復号化方法を提供することができる。
【０２４５】
また、本発明によればこのような音声符号化を実現するのに必要な入力音声信号から音声主体成分と背景雑音主体成分との成分分離を正確に行うことが可能な音声信号の成分分離方法を提供することができる。
【図面の簡単な説明】
【図１】第１の実施形態に係る音声符号化装置の概略構成を示すブロック図
【図２】第１の実施形態に係る音声符号化方法の処理手順を示すフローチャート
【図３】第１の実施形態に係る音声符号化装置のより詳細な構成を示すブロック図
【図４】第１の実施形態に係る音声復号化装置の概略構成を示すブロック図
【図５】第１の実施形態に係る音声復号化方法の処理手順を示すフローチャート
【図６】第１の実施形態に係る音声復号化装置のより詳細な構成を示すブロック図
【図７】第２の実施形態に係る音声符号化装置の概略構成を示すブロック図
【図８】第２の実施形態に係る他の音声符号化装置の概略構成を示すブロック図
【図９】第２の実施形態に係る音声符号化方法の処理手順を示すフローチャート
【図１０】第３の実施形態に係る音声復号化装置の概略構成を示すブロック図
【図１１】第３の実施形態に係る音声復号化方法の処理手順を示すフローチャート
【図１２】第３の実施形態に係る音声復号化装置のより詳細な構成を示すブロック図
【図１３】第３の実施形態に係る音声復号化装置のより詳細な別の構成を示すブロック図
【図１４】第４の実施形態に係る音声符号化装置の概略構成を示す機能ブロック図
【図１５】第４の実施形態に係る音声符号化装置のより詳細な構成を示すブロック図
【図１６】図１５における第１雑音符号化部の内部構成を示すブロック図
【図１７】図１５における第２雑音符号化部の作用を説明するための図
【図１８】図１５における第２雑音符号化部の内部構成を示すブロック図
【図１９】図１５における第２雑音符号化部の処理手順を示すフローチャート
【図２０】第４の実施形態に係る音声復号化装置の概略構成を示す機能ブロック図
【図２１】第４の実施形態に係る音声符号化装置のより詳細な構成を示すブロック図
【図２２】図２１における第１雑音復号化部の内部構成を示すブロック図
【図２３】図２１における第２雑音復号化部の内部構成を示すブロック図
【図２４】第４の実施形態に係る音声復号化方法の処理手順を示すフローチャート
【図２５】第５の実施形態における第２雑音符号化部の作用を説明するための図
【図２６】第５の実施形態における第２雑音符号化部の内部構成を示すブロック図
【図２７】図２６の第２雑音符号化部の処理手順を示すフローチャート
【図２８】第５の実施形態における第２雑音復号化部の内部構成を示すブロック図
【図２９】第５の実施形態に係る音声復号化方法の処理手順を示すフローチャート
【図３０】第６の実施形態における第２雑音符号化部の作用を説明するための図
【図３１】第６の実施形態における第２雑音符号化部での周波数帯決定規則を説明するための図
【図３２】第６の実施形態における第２雑音符号化部の内部構成を示すブロック図
【図３３】図３２の第２雑音符号化部の処理手順を示すフローチャート
【図３４】第６の実施形態における第２雑音復号化部の内部構成を示すブロック図
【図３５】第６の実施形態に係る音声復号化方法の処理手順を示すフローチャート
【図３６】第７の実施形態における第２雑音符号化部での周波数帯決定規則を説明するための図
【図３７】第８の実施形態における雑音符号化部の構成を示すブロック図
【図３８】図３７の雑音符号化部の処理手順を示すフローチャート
【図３９】第８の実施形態における雑音復号化部の構成を示すブロック図
【図４０】図３９の雑音復号化部の処理手順を示すフローチャート
【図４１】第９の実施形態における雑音符号化部の構成を示すブロック図
【図４２】図４１の雑音符号化部の処理手順を示すフローチャート
【図４３】第９の実施形態における雑音復号化部の構成を示すブロック図
【図４４】図４３の雑音復号化部の処理手順を示すフローチャート
【図４５】本発明の第１０の実施形態に係る成分分離部の構成を示すブロック図
【図４６】図４５における状態判定部の構成を示すブロック図
【図４７】同実施形態に係る成分分離部の処理手順の例を示すフローチャート
【図４８】同実施形態に係る成分分離部の処理手順の他の例を示すフローチャート
【図４９】図４６の状態判定部の処理手順を示すフローチャート
【図５０】同実施形態に係る成分分離部を用いた本発明の第１１の実施形態に係る音声符号化装置の概略構成を示すブロック図
【符号の説明】
１００…成分分離部
１０１…雑音抑圧部
１０２…減算器
１０３…状態判定部
１０４…選択部
１１１…ＳＮＲ判定部
１１２…周期性判定部
１１３…推定エネルギー判定部
１２０…ビット割り当て選択部
１３０…音声符号化部
１４０…雑音符号化部
１５０…多重化部
１５５…ゲイン抑圧部
１５６…ゲイン抑圧部
１６０…逆多重化部
１７０…ビット割り当て復号部
１８０…音声復号化部
１９０…雑音復号化部
１９５…結合部
１９６…振幅調整部
１９７…振幅制御部
１９８…遅延部
２００…成分分離部
２１０…ビット割り当て選択部
２２０…音声符号化部
２４０…雑音符号化部
２５０…多重化部
２６０…逆多重化部
２７０…ビット割り当て復号部
２８０…音声復号化部
２９０…雑音復号化部
２９５…結合部

Claims

入力音声信号をフレーム単位で分析することにより、音声が主体の第１の成分と背景雑音が主体の第２の成分とに成分分離し、
前記第１および第２の成分に基づいて、前記第１および第２の成分に割り当てる第１および第２符号化ビット数を予め定められた複数の割り当て候補から選択し、
前記第１符号化ビット数に従って前記第１の成分を時間領域で第１の符号化方法により符号化し、
前記第２符号化ビット数に従って前記第２の成分を変換領域および周波数領域のいずれか一方で第２の符号化方法により符号化し、
前記第１および第２の成分の符号化データと前記第１および第２符号化ビット数を示す割り当て情報を多重化した伝送符号化データを出力することを特徴とする音声符号化方法。
前記第２の成分は、前記第１の成分に比比べて時間的な変動の少ない成分であることを特徴とする請求項１記載の音声符号化方法。
前記第１の符号化ビット数および前記第２の符号化ビット数の和は、固定値であることを特徴とする請求項１または２のいずれか１項記載の音声符号化方法。
前記第２の符号化方法として選択可能な複数の符号化方法を用意しておき、これらの符号化方法の少なくとも一つは、既に符号化された過去の背景雑音のスペクトル形状を利用して現在の背景雑音のスペクトル形状を符号化することを特徴とする請求項１乃至３のいずれか１項記載の音声符号化方法。
前記過去の背景雑音のスペクトル形状を利用して前記現在の背景雑音のスペクトル形状を符号化するために、
前記過去の背景雑音のスペクトル形状と前記現在の背景雑音のスペクトル形状からパワー補正係数を算出した後、量子化を行い、量子化後のパワー補正係数を前記過去の背景雑音のスペクトル形状に乗じて前記現在の背景雑音のスペクトル形状を求め、前記パワー補正係数の量子化時に得られるインデックスを符号化データとすることを特徴とする請求項４記載の音声符号化方法。
前記過去の背景雑音のスペクトル形状を利用して前記現在の背景雑音のスペクトル形状を符号化するために、
前記過去の背景雑音のスペクトル形状と前記現在の背景雑音のスペクトル形状からパワー補正係数を算出した後、量子化を行い、量子化後のパワー補正係数を前記過去の背景雑音のスペクトル形状に乗じて前記現在の背景雑音のスペクトル形状を予測し、この予測したスペクトル形状を用いて、予め定められた規則に従って決定された周波数帯における背景雑音のスペクトル形状を符号化し、前記パワー補正係数の量子化時に得られるインデックスと、前記周波数帯における背景雑音のスペクトル形状の符号化時に得られるインデックスを符号化データとすることを特徴とする請求項４記載の音声符号化方法。
入力される伝送符号化データから、音声が主体の第１の成分が時間領域で第１の符号化方法により符号化された第１符号化データと背景雑音が主体の第２の成分が変換領域および周波数領域のいずれか一方で第２の符号化方法により符号化された第２符号化データと、前記第１および第２符号化データの第１および第２符号化ビット数を示す割り当て情報とを分離し、
前記割り当て情報を復号して前記第１および第２符号化ビット数を求め、
前記第１および第２符号化ビット数に従って前記第１および第２符号化データを復号して前記第１および第２の成分を再生し、
再生した第１および第２の成分を結合して最終的な出力音声信号を生成することを特徴とする音声復号化方法。
前記第２の成分は、前記第１の成分に比比べて時間的な変動の少ない成分であることを特徴とする請求項７記載の音声復号化方法。
入力音声信号をフレーム単位で分析することにより、音声が主体の第１の成分と背景雑音が主体の第２の成分とに成分分離する音声信号の成分分離方法において、
前記入力音声信号について雑音抑圧を行って得られた第１の信号と該入力音声信号から該第１の信号を減じた第２の信号を生成し、
前記第１および第２の信号から、前記入力音声信号が音声成分を主とする第１の状態、背景雑音成分を主とする第２の状態、および音声成分と背景雑音成分の両者をほぼ均等に含む第３の状態のいずれの状態かをフレーム単位で判定し、
前記入力音声信号が前記第１の状態と判定されたときは、前記第１の成分として前記入力音声信号そのまま出力すると共に、前記第２の成分として予め定められた所定の信号を出力し、
前記入力音声信号が前記第２の状態と判定されたときは、前記第１の成分として予め定められた所定の信号を出力すると共に、前記第２の成分として前記入力音声信号を出力し、
前記入力音声信号が前記第３の状態と判定されたときは、前記第１の成分として前記第１の信号を出力すると共に、前記第２の成分として前記第２の信号を出力することを特徴とする音声信号の成分分離方法。
入力音声信号をフレーム単位で分析することにより、音声が主体の第１の成分と背景雑音が主体の第２の成分とに成分分離する音声信号の成分分離方法において、
前記入力音声信号について雑音抑圧を行って得られた第１の信号と該入力音声信号から該第１の信号を減じた第２の信号を生成し、
前記第１および第２の信号から、前記入力音声信号が音声成分を主とする第１の状態、背景雑音成分を主とする第２の状態、および音声成分と背景雑音成分の両者をほぼ均等に含む第３の状態のいずれの状態かをフレーム単位で判定し、
前記入力音声信号が前記第１の状態と判定されたときは、前記第１の成分として前記入力音声信号をそのまま出力すると共に、前記第２の成分として予め定められた所定の信号を出力し、
前記入力音声信号が前記第２の状態と判定されたときは、前記第１の成分として前記第１の信号を出力すると共に、前記第２の成分として前記第２の信号を出力し、
前記入力音声信号が前記第３の状態と判定されたときは、前記第１の成分として前記第１の信号を出力すると共に、前記第２の成分として前記第２の信号を出力することを特徴とする音声信号の成分分離方法。
前記第２の成分は、前記第１の成分に比比べて時間的な変動の少ない成分であることを特徴とする請求項９または１０のいずれか１項記載の音声信号の成分分離方法。
前記入力音声信号が前記第１の状態、第２の状態および第３の状態のいずれの状態かを判定する処理に、前記第２の信号のピッチ周期性の大きさを調べる処理を含むことを特徴とする請求項９乃至１１のいずれか１項記載の音声信号の成分分離方法。
入力音声信号をフレーム単位で分析することにより、音声が主体の第１の成分と背景雑音が主体の第２の成分とに成分分離し、
前記第１および第２の成分に基づいて、前記第１および第２成分に割り当てる第１および第２符号化ビット数を予め定められた複数の割り当て候補から選択し、
前記第１符号化ビット数に従って前記第１の成分を時間領域で第１の符号化方法により符号化し、
前記第２符号化ビット数に従って前記第２の成分を変換領域および周波数領域のいずれか一方で第２の符号化方法により符号化し、
前記第１および第２の成分の符号化データと前記第１および第２符号化ビット数を示す割り当て情報を多重化した伝送符号化データを出力する音声符号化方法であって、
前記成分分離に際して、
前記入力音声信号について雑音抑圧を行って得られた第１の信号と該入力音声信号から第１の信号を減じた第２の信号を生成し、
前記第１および第２の信号から、前記入力音声信号が音声成分を主とする第１の状態、背景雑音成分を主とする第２の状態、および音声成分と背景雑音成分の両者をほぼ均等に含む第３の状態のいずれの状態かをフレーム単位で判定し、
前記入力音声信号が前記第１の状態と判定されたときは、前記第１の成分として前記入力音声信号そのまま出力すると共に、前記第２の成分として予め定められた所定の信号を出力し、
前記入力音声信号が前記第２の状態と判定されたときは、前記第１の成分として予め定められた所定の信号を出力すると共に、前記第２の成分として前記入力音声信号を出力し、
前記入力音声信号が前記第３の状態と判定されたときは、前記第１の成分として前記第１の信号を出力すると共に、前記第２の成分として前記第２の信号を出力することを特徴とする音声符号化方法。
入力音声信号をフレーム単位で分析することにより、音声が主体の第１の成分と背景雑音が主体の第２の成分とに成分分離し、
前記第１および第２の成分に基づいて、前記第１および第２成分に割り当てる第１および第２符号化ビット数を予め定められた複数の割り当て候補から選択し、
前記１符号化ビット数に従って前記第１の成分を時間領域で第１の符号化方法により符号化し、
前記第２符号化ビット数に従って前記第２の成分を変換領域及び周波数領域のいずれか一方で第２の符号化方法により符号化し、
前記第１および第２の成分の符号化データと前記第１および第２符号化ビット数を示す割り当て情報を多重化した伝送符号化データを出力する音声符号化方法であって、
前記成分分離に際して、
前記入力音声信号について雑音抑圧を行って得られた第１の信号と該入力音声信号から第１の信号を減じた第２の信号を生成し、
前記第１および第２の信号から、前記入力音声信号が音声成分を主とする第１の状態、背景雑音成分を主とする第２の状態、および音声成分と背景雑音成分の両者をほぼ均等に含む第３の状態のいずれの状態かをフレーム単位で判定し、
前記入力音声信号が前記第１の状態と判定されたときは、前記第１の成分として前記入力音声信号をそのまま出力すると共に、前記第２の成分として予め定められた所定の信号を出力し、
前記入力音声信号が前記第２の状態と判定されたときは、前記第１の成分として前記第１の信号を出力すると共に、前記第２の成分として前記第２の信号を出力し、
前記入力音声信号が前記第３の状態と判定されたときは、前記第１の成分として前記第１の信号を出力すると共に、前記第２の成分として前記第２の信号を出力することを特徴とする音声符号化方法。