JP3670217B2

JP3670217B2 - 雑音符号化装置、雑音復号装置、雑音符号化方法および雑音復号方法

Info

Publication number: JP3670217B2
Application number: JP2001070148A
Authority: JP
Inventors: 文忠板倉; 幸司吉田
Original assignee: Nagoya University NUC; Matsushita Communication Industrial Co Ltd; Tokai National Higher Education and Research System NUC
Current assignee: Nagoya University NUC; Panasonic Mobile Communications Co Ltd; Tokai National Higher Education and Research System NUC
Priority date: 2000-09-06
Filing date: 2001-03-13
Publication date: 2005-07-13
Anticipated expiration: 2021-03-13
Also published as: EP1258715A4; US6934650B2; EP1258715A1; US20020165681A1; JP2002156999A; AU2001282616A1; WO2002021091A1; EP1258715B1

Description

【０００１】
【発明の属する技術分野】
本発明は、音声信号に重畳されている背景雑音信号の分析および合成を行う雑音信号の分析・合成装置に関し、また、この分析・合成装置を用いて雑音信号の符号化を行う雑音符号化装置および音声信号の符号化を行う音声符号化装置に関する。
【０００２】
【従来の技術】
ディジタル移動通信や音声蓄積の分野においては、電波や記憶媒体の有効利用のために、音声情報を圧縮して低いビットレートで符号化する音声符号化装置が用いられている。このような音声符号化装置における従来の技術として、ITU-T勧告のＧ.７２９ AnnexB（"A silence compression scheme for G.729 optimized for terminals conforming to Recommendation V.70"）のＤＴＸ(Discontinuous Transmission)制御付きのＣＳ−ＡＣＥＬＰ符号化方式がある。
【０００３】
図１９は、従来のＤＴＸ制御付きＣＳ−ＡＣＥＬＰ符号化方式を採用した符号化装置の構成を示すブロック図である。図１９において、入力音声信号は、有音／無音判定器１１、ＣＳ−ＡＣＥＬＰ音声符号器１２および無音区間符号器１３に入力される。まず、有音／無音判定器１１において、入力音声信号が有音区間か無音区間（背景雑音のみの区間）かの判定が行われる。
【０００４】
有音／無音判定器１１により有音と判定された場合には、ＣＳ−ＡＣＥＬＰ音声符号器１２では、有音区間に対する音声符号化が行われる。有音区間の符号化データは、ＤＴＸ制御および多重化器１４に出力される。
【０００５】
一方、有音／無音判定器１１により無音と判定された場合には、無音区間符号器１３では、無音区間に対する雑音信号の符号化が行われる。この無音区間符号器１３においては、入力音声信号を用いて、有音区間の符号化におけるものと同様のＬＰＣ係数、および、入力音声信号のＬＰＣ予測残差エネルギーが算出され、これらが無音区間の符号化データとしてＤＴＸ制御および多重化器１４に出力される。ただし、無音区間の符号化データは、入力信号の特性（ＬＰＣ係数やエネルギー）に所定の変化が検出された区間において間欠的に送信されるものである。
【０００６】
ＤＴＸ制御および多重化器１４では、有音／無音判定器１１、ＣＳ−ＡＣＥＬＰ音声符号器１２および無音区間符号器１３の出力を用いて、送信データとして送信すべきデータが、制御および多重化された後、送信データとして出力される。
【０００７】
上記のような従来の音声符号化装置においては、入力音声信号における有音区間についてのみ、ＣＳ−ＡＣＥＬＰ音声符号器を用いて符号化を行い、入力音声信号における無音区間（雑音のみの区間）については、専用の無音区間符号器を用いて音声符号器より少ないビット数でかつ間欠的に符号化を行うことにより、伝送する信号の平均ビットレートを低減できる効果がある。
【０００８】
【発明が解決しようとする課題】
しかしながら、上記従来の音声符号化方式においては、以下に示すような要因により、送信側装置により符号化されたデータを受信する受信側装置では、無音区間中の雑音信号に対する復号信号の品質が劣化するという問題がある。すなわち、まず第１の要因として、送信側装置における無音区間符号器（雑音信号の分析・符号化部）が、音声符号器と同様な信号モデル（短区間（10〜50ms程度）毎にＡＲ型の合成フィルタ（ＬＰＣ合成フィルタ）を雑音信号で駆動することで復号信号を生成する）により符号化を行っていることが挙げられる。
【０００９】
第２の要因として、受信側装置は、送信側装置において入力雑音信号を間欠的に分析することにより得られた符号化データを用いて、雑音を合成（生成）していることが挙げられる。
【００１０】
本発明は、かかる点に鑑みてなされたものであり、背景雑音信号を聴感的に高い品質で合成できる装置を提供することを目的とする。
【００１１】
【課題を解決するための手段】
本発明の雑音符号化装置は、音声信号の無音区間のスペクトルをモデル化して複数の雑音スペクトルモデルを取得するモデル取得手段と、複数の前記雑音スペクトルモデルのうちの任意の雑音スペクトルモデルから他の雑音スペクトルモデルへの遷移確率を、前記他の雑音スペクトルモデルの全てについて取得する遷移確率取得手段と、前記雑音スペクトルモデルを継続使用する時間を示す継続時間情報を、前記雑音スペクトルモデルの全てについて取得する継続時間情報取得手段と、前記雑音スペクトルモデル、前記遷移確率、および前記継続時間情報を符号化する符号化手段と、を具備する構成を採る。
【００１３】
この構成によれば、雑音信号を統計的モデルで表現した信号に変換することにより、聴感的に劣化の少ない雑音信号を合成することができる。
【００３６】
【発明の実施の形態】
本発明の骨子は、雑音信号を統計的モデルで表現することである。具体的には、雑音信号を用いて、振幅スペクトル時系列に関する統計的情報および前記振幅スペクトル時系列の継続時間長に関する統計的情報を含む定常雑音モデルに関する統計的情報と、前記定常雑音モデル間の遷移に関する統計的情報と、を生成することである。
【００３７】
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
【００３８】
（実施の形態１）
本発明においては、雑音信号を統計的なモデルで表現する。すなわち、ある統計的分布に従う継続時間長からなる別の統計的分布に従う振幅スペクトル時系列で表された複数の定常雑音モデルを用いて、その定常雑音モデル間を統計的に遷移するスペクトル系列として雑音信号を表現する。
【００３９】
より具体的には、定常雑音スペクトルは、ある継続時間長（フレーム数）LiからなるM個の振幅スペクトル時系列[Si(n)] (n=1,．．．,Li, i=1,．．．,M)で表現し、かつ[Ｓｉ(n)]およびLiは各々正規分布に従うものとする。そして、そのスペクトル時系列モデル[Ｓｉ(n)]間を遷移確率p(i,j) (i,j=1,．．．,M)で遷移するスペクトル系列として背景雑音を表現する。
【００４０】
図１は、本発明の実施の形態１にかかる雑音信号分析装置の構成を示すブロック図である。図１に示す雑音信号分析装置において、窓かけ部１０１は、一定区間（以下「フレーム」という。）毎に入力された第mフレーム(m=0,1,2,．．．)に対する入力雑音信号ｘ(j)（j=0,．．．,N-1; N:分析長）に対して、ハニング窓等による窓かけを行う。ＦＦＴ（高速フーリエ変換）部１０２は、窓かけがなされた入力雑音信号を周波数スペクトルに変換して、第mフレームの入力振幅スペクトルX(m)を算出する。
【００４１】
スペクトルモデル系列算出部１０４は、スペクトルモデル記憶部１０３に蓄えられているスペクトルモデルＳｉ (i=1,．．．,M)に関するモデル情報を用いて、入力雑音信号の振幅スペクトル系列[X(m)] (m=0,1,2,．．．)に対応するスペクトルモデル番号系列[index(m)]（1≦index(m)≦M, m=0,1,2,．．．）を算出する。ここで、スペクトルモデルＳｉ (i=1,．．．,M)に関するモデル情報は、Ｓｉの統計パラメータである平均振幅Sav#iおよび標準偏差Sdv#iを含むものである。これらは、予め学習により用意しておくことが可能である。また、対応するスペクトルモデル番号系列の算出は、入力振幅スペクトルX(m)からの距離が最も小さい平均振幅Sav#iを有するスペクトルモデルＳｉの番号iを求めることにより、なされる。
【００４２】
継続長モデル・遷移確率算出部１０５は、スペクトルモデル系列算出部１０４により得られたスペクトルモデル番号系列[index(m)]を用いて、Ｓｉ各々に対する継続フレーム数Liに関する統計パラメータ（Liの平均値Lav#iおよび標準偏差値Ldv#i）およびＳｉ間の遷移確率p(i,j)を算出し、それらを入力雑音信号に対するモデルパラメータとして出力する。なお、これらのモデルパラメータは、ある一定期間毎あるいは任意の間隔で算出・伝送される。
【００４３】
図２は、本発明の実施の形態１にかかる雑音信号合成装置の構成を示すブロック図である。図２に示す雑音信号合成装置において、遷移系列生成部２０１は、図１に示した雑音信号分析装置により得られたモデルパラメータ（Liの平均値Lav#i，標準偏差値Ldv#iおよびＳｉ間の遷移確率p(i,j)）のうちＳｉ間の遷移確率p(i,j)を用いて、スペクトルモデルＳｉの遷移がその与えられた遷移確率p(i,j)となるようなスペクトルモデル番号遷移系列[index'(l)]（1≦index'(l)≦M, l=0,1,2,．．．）を生起させる。
【００４４】
スペクトル生成部２０５は、遷移系列生成部２０１により得られたモデル番号index'(l)、および、スペクトルモデル記憶部２０２に保持されているスペクトルモデルＳｉ (i=1,．．．,M)に関するモデル情報（Ｓｉの平均振幅Sav#iおよび標準偏差Sdv#i）用いて、次式で示されるindex'(l)に対するスペクトル振幅時系列[X'(n)]を生成する。
【００４５】
｛X'(n)]＝[S _index'(l)(n)], n=1,2,．．．,L −(1)
ここで、S _index'(l)は、i=index'(l)に対する平均振幅Sav#i、標準偏差Sdv#iを有する正規分布に従うものとし、また継続フレーム数Lは、継続長制御部２０３において、雑音信号分析装置から出力されたスペクトルモデルＳｉに対する継続フレーム数Liの統計モデルパラメータ（Liの平均値Lav#i，標準偏差値Ldv#i）を用いて、i=index'(l)に対する平均値Lav#i、標準偏差Ldv#iを有する正規分布に従うように制御されたものである。
【００４６】
さらに、スペクトル生成部２０５は、上記の方法により、遷移系列[index'(l)]に沿って生成した所定の時間長（フレーム数）のスペクトル振幅時系列に対して、乱数位相生成部２０４により生成された乱数位相を与えて、スペクトル時系列を作成する。なお、スペクトル生成部２０５において、生成された振幅スペクトル時系列に対してスペクトルが滑らかに変化するよう平滑化を行ってもよい。
【００４７】
ＩＦＦＴ（逆高速フーリエ変換）部２０６は、スペクトル生成部２０５により作成されたスペクトル時系列を時間領域の波形に変換する。重ね合わせ加算部２０７は、フレーム間の信号の重ね合わせ加算を行うことにより、最終的な合成雑音信号を出力する。
【００４８】
次いで、上記構成を有する雑音信号分析装置および雑音信号合成装置の動作について、さらに図３および図４を参照して説明する。図３は、本発明の実施の形態１にかかる雑音信号分析装置の動作を示すフロー図である。図４は、本発明の実施の形態１にかかる雑音信号合成装置の動作を示すフロー図である。
【００４９】
まず、本実施の形態にかかる雑音信号分析装置の動作について、図３を参照して説明する。まず、工程（以下「ＳＴ」という。）３０１において、フレーム毎の雑音信号x(j)（j=0,．．．,N-1; N:分析長）が、窓かけ部１０１に入力される。ＳＴ３０２において、第mフレーム(m=0,1,2,．．．)に対する入力雑音信号に対してハニング窓等による窓かけが、窓かけ部１０１によりなされる。ＳＴ３０３において、窓かけがなされた入力雑音信号は、ＦＦＴ部１０２により、ＦＦＴ（高速フーリエ変換）がなされて、周波数スペクトルに変換される。これにより、第mフレームの入力振幅スペクトルX(m)が算出される。
【００５０】
ＳＴ３０４において、スペクトルモデル系列算出部１０４により、スペクトルモデルＳｉ (i=1,．．．,M)に関するモデル情報を用いて、入力雑音信号の振幅スペクトル系列[X(m)] (m=0,1,2,．．．)に対応するスペクトルモデル番号系列[index(m)]（1≦index(m)≦M, m=0,1,2,．．．）が算出される。
【００５１】
ここで、スペクトルモデルＳｉ (i=1,．．．,M)に関するモデル情報は、Ｓｉの統計パラメータである平均振幅Sav#iおよび標準偏差Sdv#iを含むものである。これらは、予め学習により用意しておくことが可能なものである。また、対応するスペクトルモデル番号系列の算出は、入力振幅スペクトルX(m)からの距離が最も小さい平均振幅Sav#iを有するスペクトルモデルＳｉの番号iを求めることにより、なされる。以上のＳＴ３０１〜ＳＴ３０４の処理がフレーム単位で行われる。
【００５２】
ＳＴ３０５では、ＳＴ３０４で得られたスペクトルモデル番号系列[index(m)]を用いて、継続長モデル・遷移確率算出部１０５により、Ｓｉ各々に対する継続フレーム数Liに関する統計パラメータ（Liの平均値Lav#iおよび標準偏差値Ldv#i）およびＳｉ間の遷移確率p(i,j)が算出される。ＳＴ３０６において、これらは、入力雑音信号に対するモデルパラメータとして出力される。なお、これらのモデルパラメータは、ある一定期間毎あるいは任意の間隔で算出・伝送される。
【００５３】
本実施の形態にかかる雑音信号合成装置の動作について、図４を参照して説明する。まず、ＳＴ４０１において、雑音信号分析装置により得られたモデルパラメータ（Liの平均値Lav#i，標準偏差値Ldv#iおよびＳｉ間の遷移確率p(i,j)）が、遷移系列生成部２０１および継続長制御部２０３に入力される。
【００５４】
ＳＴ４０２において、入力されたモデルパラメータのうちＳｉ間の遷移確率p(i,j)を用いて、遷移系列生成部２０１により、スペクトルモデルＳｉの遷移がその与えられた遷移確率p(i,j)となるようなスペクトルモデル番号遷移系列[index'(l)]（1≦index'(l)≦M, l=0,1,2,．．．）が生起される。
【００５５】
次に、ＳＴ４０３において、入力されたモデルパラメータのうちスペクトルモデルＳｉに対する継続フレーム数Liの統計モデルパラメータ（Liの平均値Lav#i，標準偏差値Ldv#i）を用いて、i=index'(l)に対して平均値Lav#i、標準偏差Ldv#iを有する正規分布に従うように制御された継続フレーム数Lが、継続長制御部２０３により生成される。また、ＳＴ４０４において、乱数位相生成部２０４により乱数位相が生成される。
【００５６】
ＳＴ４０５において、ＳＴ４０２で得られたモデル番号index'(l)および予め用意されているスペクトルモデルＳｉ (i=1,．．．,M)に関するモデル情報（Ｓｉの平均振幅Sav#iおよび標準偏差Sdv#i）を用いて、スペクトル生成部２０５により、▲１▼式で示したindex'(l)に対するスペクトル振幅時系列[X'(n)]が生成される。なお、生成された振幅スペクトル時系列に対してスペクトルが滑らかに変化するよう平滑化を行っても良い。
【００５７】
ここで、S _index'(l)は、i=index'(l)に対する平均振幅Sav#i、標準偏差Sdv#iを有する正規分布に従うものとし、継続フレーム数Lは、ＳＴ４０４において生成されたものである。
【００５８】
さらに、遷移系列[index'(l)]に沿って生成した所定の時間長（フレーム数）のスペクトル振幅時系列に対して、ＳＴ４０４により生成された乱数位相が与えられて、スペクトル時系列が作成される。
【００５９】
ＳＴ４０６において、作成されたスペクトル時系列は、ＩＦＦＴ部２０６により時間領域の波形に変換された後、ＳＴ４０７において、重ね合わせ加算部２０７によりフレーム間の信号の重ねあわせ加算が行われる。ＳＴ４０８において、重ね合わせ加算された信号が最終的な合成雑音信号として出力される。
【００６０】
このように、本実施の形態においては、背景雑音信号を統計的モデルで表現している。すなわち、雑音信号分析装置（送信側装置）において、雑音信号を用いて、雑音信号スペクトルのスペクトル変化を含めた統計的情報（統計モデルパラメータ）を生成し、生成した情報を雑音信号合成装置（受信側装置）に送信している。また、雑音信号合成装置（受信側装置）においては、雑音信号分析装置（送信側装置）から送信された上記情報（統計モデルパラメータ）を用いて、雑音信号を合成している。これにより、雑音信号合成装置（受信側装置）においては、間欠的に分析された雑音信号のスペクトルではなく、雑音信号スペクトルのスペクトル変化を含めた統計的情報を用いて、雑音信号を合成することができるので、聴感的に劣化の少ない雑音信号を合成することができる。
【００６１】
なお、本実施の形態では、図１および図２に示す構成の雑音信号分析装置・合成装置、および図３および図４に示す雑音信号分析方法・合成方法を用いて、上記に示した内容で説明したが、本発明の主旨に逸脱することなく別の実現手段にて実現することも可能である。たとえば、上記実施の形態では、スペクトルモデル情報として、スペクトルSの統計モデル（Sの平均と標準偏差）は予め学習により用意したものとして説明したが、入力雑音信号に対して実時間的に学習する、またはＬＰＣ係数等別のスペクトル表現パラメータで量子化して合成側に伝送する形態にすることもできる。また、スペクトル継続長の統計パラメータ（Lの平均Lav，標準偏差Ldv）やスペクトルモデルＳｉ間の統計遷移パラメータを予めパターン化しておき、その中から適切なものを、ある一定期間中の入力雑音信号に対して選択して伝送し、それに基づき合成することも可能である。
【００６２】
（実施の形態２）
本実施の形態では、実施の形態１で説明した雑音信号分析装置を用いて音声符号化装置を実現し、また、実施の形態１で説明した雑音信号合成装置を用いて音声復号装置を実現する場合について説明する。
【００６３】
まず、本実施の形態にかかる音声符号化装置について、図５を参照して説明する。図５は、本発明の実施の形態２にかかる音声符号化装置の構成を示すブロック図である。図５において、入力音声信号は、有音／無音判定器５０１、音声符号器５０２および雑音信号符号器５０３に入力される。
【００６４】
有音／無音判定器５０１は、入力音声信号に対して有音区間か無音区間（雑音のみの区間）かを判定しその判定結果を出力する。有音／無音判定器５０１は、任意のものでよく、一般には、入力信号のパワー、スペクトルやピッチ周期などの複数のパラメータの瞬時量または変化量等を用いて判定を行うものである。
【００６５】
音声符号器５０２は、有音／無音判定器５０１による判定結果が有音である場合に、入力音声信号に対して音声符号化を行いその符号化データを、ＤＴＸ制御および多重化器５０４に出力する。この音声符号器５０２は、有音区間用の符号器であり、音声を高能率に符号化する任意の符号器である。
【００６６】
雑音信号符号器５０３は、有音／無音判定器５０１による判定結果が無音である場合に、入力音声信号に対して雑音信号の符号化を行い入力雑音信号に対するモデルパラメータを出力する。この雑音信号符号器５０３は、実施の形態１で説明した雑音信号分析装置（図１参照）に対して、出力モデルパラメータを量子化・符号化して符号化パラメータとして出力する構成を付加したものである。
【００６７】
ＤＴＸ制御および多重化器５０４は、有音／無音判定器５０１、音声符号器５０２および雑音信号符号器５０３からの出力を用いて送信データとして送信すべき情報の制御と送信情報の多重化を行い、送信データを出力する。
【００６８】
次に、本発明の実施の形態２にかかる音声復号装置について、図６を参照して説明する。図６は、本発明の実施の形態２にかかる音声復号装置の構成を示すブロック図である。図６において、図５に示した音声符号化装置により送信された送信データは、受信データとして分離およびＤＴＸ制御器６０１に入力される。
【００６９】
分離およびＤＴＸ制御器６０１は、受信データを、音声復号および雑音生成に必要な、音声符号化データまたは雑音モデル符号化パラメータおよび有音／無音判定フラグに分離する。
【００７０】
音声復号器６０２は、前記有音／無音判定フラグが有音区間を示す場合に、前記音声符号化データを用いて音声復号を行い復号音声を出力する。雑音信号復号器６０３は、前記有音/無音判定フラグが無音区間を示す場合に、前記雑音モデル符号化パラメータを用いて雑音信号の生成を行い、雑音信号を出力する。この雑音信号復号器６０３は、実施の形態１で説明した雑音信号合成装置（図２）に対して、入力されたモデル符号化パラメータを各々のモデルパラメータに復号する構成を付加したものである。
【００７１】
出力切り替え器６０４は、音声復号器６０２の出力と雑音信号復号器６０３の出力を、有音／無音判定フラグの結果に応じて切り替えて出力し、出力信号とする。
【００７２】
次に、上記構成を有する音声符号化装置および音声復号装置の動作について説明する。まず、音声符号化装置の動作について、図７を参照して説明する。図７は、本発明の実施の形態２にかかる音声符号化装置の動作を示すフロー図である。
【００７３】
まず、ＳＴ７０１において、フレーム毎の音声信号が入力され、ＳＴ７０２において、入力音声信号に対して有音区間か無音区間（雑音のみの区間）かが判定されその判定結果が出力される。この有音／無音判定は任意の方法でよく、一般には、入力信号のパワー、スペクトルやピッチ周期などの複数のパラメータの瞬時量または変化量等を用いて判定が行われる。
【００７４】
ＳＴ７０２における有音／無音判定結果が有音である場合には、ＳＴ７０４において入力音声信号に対する音声符号化が行われ、その符号化データが出力される。この音声符号化処理は有音区間用の符号化で、音声を高能率に符号化する任意の方法でよい。
【００７５】
一方、前記有音／無音判定結果が無音である場合には、ＳＴ７０５において、入力音声信号に対する雑音信号の符号化が行われ、入力雑音信号に対するモデルパラメータが出力される。この雑音信号符号化は、実施の形態１にて説明した雑音信号の分析方法に対して、出力モデルパラメータを量子化・符号化して符号化パラメータとして出力する工程を追加したものである。
【００７６】
ＳＴ７０６において、前記有音／無音判定結果、音声符号化および雑音信号符号化からの出力を用いて送信データとして送信すべき情報の制御（ＤＴＸ制御）と送信情報の多重化が行われ、ＳＴ７０７において送信データとして出力される。
【００７７】
次に、音声復号装置の動作について、図８を参照して説明する。図８は、本発明の実施の形態２にかかる音声復号装置の動作を示すフロー図である。
【００７８】
まず、ＳＴ８０１において、符号化側で入力信号に対して符号化され送信された送信データが受信データとして受信される。ＳＴ８０２において、受信データは、音声復号および雑音生成に必要な、音声符号化データまたは雑音モデル符号化パラメータおよび有音／無音判定フラグに分離される。
【００７９】
前記有音／無音判定フラグが有音区間を示す場合には、ＳＴ８０４において前記音声符号化データを用いて音声復号が行われ、復号音声が出力される。一方、前記有音／無音判定フラグが無音区間を示す場合には、ＳＴ８０５において前記雑音モデル符号化パラメータを用いて雑音信号の生成が行われ、雑音信号が出力される。この雑音信号復号処理は、実施の形態１で説明した雑音信号の合成方法に対して、入力されたモデル符号化パラメータを各々のモデルパラメータに復号する工程を追加したものである。
【００８０】
ＳＴ８０６において、有音／無音判定フラグの結果に応じてＳＴ８０４における音声復号またはＳＴ８０５における雑音信号復号の出力が、復号信号として出力される。
【００８１】
このように、本実施の形態によれば、有音区間では音声信号を高品質で符号化できる音声符号化で、無音区間では聴感的に劣化が少ない雑音信号分析装置および合成装置を用いて雑音信号の符号化および復号を行うことにより、背景雑音環境下においても高品質な符号化を行える。また、実際の周囲騒音下での雑音信号の統計的な特性は比較的長期間（例えば数秒〜十数秒）に渡り一定であることが想定されることから、モデルパラメータの伝送周期もその程度の長期間周期で良いため、復号側に伝送すべき雑音信号のモデルパラメータの情報量は少なくて済み、効率的な伝送を実現できる。
【００８２】
（実施の形態３）
図９は、本発明の実施の形態３にかかる雑音信号分析装置の構成を示すブロック図である。
【００８３】
本実施の形態においても、実施の形態１と同様、定常雑音スペクトルをある継続時間長（フレーム数）LiからなるM個の振幅スペクトル時系列[Ｓｉ(n)] (n=1,．．．,Li, i=1,．．．,M)で表現（[Ｓｉ(n)]およびLiは各々正規分布に従うものとする）し、そのスペクトル時系列モデル[Ｓｉ(n)]間を遷移確率p(i,j) (i,j=1,．．．,M)で遷移するスペクトル系列として背景雑音を表現する。
【００８４】
図９に示す雑音信号分析装置において、窓かけ部９０１は、一定区間（以下「フレーム」という。）毎に入力された第mフレーム(m=0,1,2,．．．)に対する入力雑音信号x(j)（j=0,．．．,N-1; N:分析長）に対して、ハニング窓等による窓かけを行う。ＦＦＴ（高速フーリエ変換）部９０２は、窓かけがなされた入力雑音信号を周波数スペクトルに変換して、第mフレームの入力振幅スペクトルX(m)を算出する。スペクトルモデルパラメータ算出・量子化部９０３は、入力雑音信号の振幅スペクトル系列[X(m)] (m=0,1,2,．．．)を一定フレーム数の区間、または何らかの指標により適応的に定められたフレーム数からなる区間をモデル化を行う単位区間（モデル化区間）として区切り、そのモデル化区間におけるスペクトルモデルパラメータの算出および量子化を行い、スペクトルモデルパラメータの量子化インデクスを出力すると共に、入力雑音信号の振幅スペクトル系列[X(m)]に対応するスペクトルモデル番号系列[index(m)]（1≦index(m)≦M, m=mk,mk+1,mk+2,．．．,mk+NFRM-1; mkは当該モデル化区間の先頭フレーム番号、NFRMはモデル化区間のフレーム数）を出力する。ここで、スペクトルモデルパラメータとは、スペクトルモデルＳｉ (i=1,．．．,M)の統計パラメータである平均振幅Sav#iおよび標準偏差Sdv#iを含むものである。このスペクトルモデルパラメータ算出・量子化部９０３の構成については、図１０により詳細に説明する。
【００８５】
継続長モデル・遷移確率算出・量子化部９０４は、スペクトルモデルパラメータ算出・量子化部９０３により得られたモデル化区間のスペクトルモデル番号系列[index(m)]を用いて、Ｓｉ各々に対する継続フレーム数Liに関する統計パラメータ（継続長モデルパラメータ）（Liの平均値Lav#iおよび標準偏差値Ldv#i）およびＳｉ-Sj間の遷移確率p(i,j)を算出・量子化し、それらの量子化インデクスを出力する。量子化方法は任意であるが、Lav#i、Ldv#i、およびp(i,j)の各要素を各々スカラ量子化してもよい。
【００８６】
以上の、スペクトルモデルパラメータ、継続長モデルパラメータおよび遷移確率パラメータの量子化インデクスを、モデル化区間の入力雑音信号の統計モデルパラメータ量子化インデクスとして出力する。
【００８７】
図１０は、図９のスペクトルモデルパラメータ算出・量子化部９０３の詳細構成を示すブロック図である。本実施例におけるスペクトルモデルパラメータ算出・量子化部９０３は、予め用意した雑音信号を表す振幅スペクトルの代表ベクトル集合の中から、入力雑音のモデル化区間における入力振幅スペクトル時系列を表すのに適切な代表ベクトルをモデル数（=Ｍ）個選択し、それをベースにスペクトルモデルパラメータを算出・量子化する。
【００８８】
まず、モデル化区間内のフレーム単位の入力振幅スペクトルX(m) (m=mk,mk+1,mk+2,．．．,mk+NFRM-1)に対して、パワ算出部１００１で算出されたパワ値を用いて、パワ正規化部１００２でパワの正規化を行う。そして、そのパワ正規化された入力振幅スペクトルに対して、クラスタ化部１００４において、雑音スペクトル代表ベクトル記憶部１００３の各代表ベクトルをクラスタ中心とするクラスタ化（ベクトル量子化）を行い、各入力スペクトルがどのクラスタに所属するかの情報を出力する。ここで、雑音スペクトル代表ベクトル記憶部１００３には、代表的な雑音信号の振幅スペクトルを代表ベクトルとして予め学習により作成し、記憶しているもので、代表ベクトルの数は雑音モデル数(M)以上とする。そして、クラスタ別平均スペクトル算出部１００５において、クラスタ化部１００４で得られた所属するクラスタ（代表ベクトル）番号の系列に対して、モデル化区間で所属頻度の高い上位Ｍ個のクラスタ（対応する代表ベクトルをCi(i=1,2,…,M)とする）を選択し、その各クラスタに所属する入力雑音振幅スペクトルの平均スペクトルをクラスタ毎に算出し、それらをスペクトルモデルの平均振幅スペクトルSav#i(i=1,2,…,M)とする。また、入力雑音信号の振幅スペクトル系列[X(m)]に対するスペクトルモデル番号系列[index(m)]（1≦index(m)≦M, m=mk,mk+1,mk+2,．．．,mk+NFRM-1）をあわせて出力する。この番号系列は、クラスタ化部１００４で得られた所属するクラスタ（代表ベクトル）番号の系列をベースに，上位Ｍ個のクラスタに属す番号系列として生成する。すなわち、上位Ｍ個のクラスタに属さないフレームに対しては、任意の方法（例えば、再度のクラスタ化や前フレームのクラスタ番号に置換するなど）で上記Ｍ個のクラスタの番号に対応付けるか、またはそのフレームは系列から削除するなどを行う。次に、モデル化区間平均パワ量子化部１００６において、パワ算出部１００１で算出されたフレーム毎のパワ値を、モデル化区間全体で平均し、その平均パワに対してスカラ量子化など任意の方法で量子化を行い、パワインデクスおよびモデル化区間平均パワ値（量子化値）Ｅを出力する。そして、誤差スペクトル・パワ補正値量子化部１００７において、Sav#iを(2)式のように、対応する代表ベクトルCi，Ciからの誤差スペクトルdi，モデル化区間平均パワＥおよび各スペクトルモデル別のＥに対するパワ補正値eiで表し、di, eiをスカラ量子化等任意の方法で量子化する。
【００８９】
Sav#i = sqrt(E)・ei・(Ci+di) (i=1,…,M) −(2)
ここで、誤差スペクトルdiの量子化は、diを複数の帯域に分割し、帯域毎に各帯域の平均値のスカラ量子化を行う構成としてもよい。以上、クラスタ別平均スペクトル算出部１００５で得られたＭ個の代表ベクトルインデクス、誤差スペクトル・パワ補正値量子化部１００７で得られた、誤差スペクトル量子化インデクスおよびパワ補正値量子化インデクス、モデル区間平均パワ量子化部１００６で得られたパワ量子化インデクスを、スペクトルモデルパラメータの量子化インデクスとして出力する。
【００９０】
なお、スペクトルモデルパラメータのうち標準偏差Sdv#iは、雑音スペクトル代表ベクトル学習時に得られるCiに対するクラスタ内標準偏差値をそのまま使用する。この値に関しては雑音スペクトル代表ベクトル記憶部に予め記憶させておくことで、量子化インデクスの出力は不要である。また、クラスタ別平均スペクトル算出部１００５で、平均スペクトル算出時に、クラスタ内の標準偏差も算出し、その量子化を行ってもよい。この場合は、その量子化インデクスをスペクトルモデルパラメータの量子化インデクスの一部として出力する。
【００９１】
なお、上記実施の形態では、誤差スペクトルの量子化を帯域別のスカラ量子化により説明したが、全帯域のベクトル量子化等他の方法で量子化することも可能である。また、パワ情報をモデル化区間の平均パワとモデル別の平均パワに対する補正値により表現した構成を説明したが、モデル別のパワのみでの表現や、モデル化区間の平均パワで全モデルのパワを代表するようにしてもよい。
【００９２】
次に、図１１は、本発明の実施の形態３にかかる雑音信号合成装置の構成を示すブロック図である。図１１に示す雑音信号合成装置において、まず遷移系列生成部１１０１にて、図９に示した雑音信号分析装置により得られた統計モデルパラメータ量子化インデクスのうち、Si-Sj間の遷移確率p(i,j)の量子化インデクスを用いて遷移確率p(i,j)を復号し、スペクトルモデルＳｉの遷移が与えられた遷移確率p(i,j)となるようなスペクトルモデル番号遷移系列[index'(l)]（1≦index'(l)≦M, l=0,1,2,．．．）を生起させる。次に、スペクトルモデルパラメータ復号部１１０３においてスペクトルモデルパラメータの量子化インデクスからスペクトルモデルＳｉの統計パラメータである平均振幅Sav#iおよび標準偏差Sdv#i(i=1,．．．,M)を復号する。ここで、平均振幅Sav#iの復号は、符号化装置のスペクトルパラメータ算出・量子化部９０３で得られた量子化インデクスおよび、スペクトルモデルパラメータ復号部１１０３内に備えられた符号化側と同一の雑音スペクトル代表ベクトル記憶部内の代表ベクトルを用い、(2)式に基き復号する。また、標準偏差Sdv#iに関しては、符号化装置にて雑音スペクトル代表ベクトル学習時に得られるCiに対するクラスタ内標準偏差値をそのまま使用した場合には、該当する値を雑音スペクトル代表ベクトル記憶部１００３から得ることで復号する。そして、スペクトル生成部１１０５は、遷移系列生成部１１０１により得られたモデル番号index'(l)、および、スペクトルモデルパラメータ復号部１１０３で得られたスペクトルモデルＳｉ (i=1,．．．,M)に関するモデル情報（Ｓｉの平均振幅Sav#iおよび標準偏差Sdv#i）用いて、次式で示されるindex'(l)に対するスペクトル振幅時系列[X'(n)]を生成する。
【００９３】
｛X'(n)｝＝[S _index'(l)(n)], n=1,2,．．．,L −(3)
ここで、S _index'(l)は、i=index'(l)に対する平均振幅Sav#i、標準偏差Sdv#iを有する正規分布に従うものとし、また継続フレーム数Lは、継続長制御部１１０２において、雑音信号分析装置から出力されたスペクトルモデルＳｉに対する継続フレーム数Liの統計モデルパラメータの量子化インデクスからの復号値（Liの平均値Lav#i，標準偏差値Ldv#i）を用いて、i=index'(l)に対する平均値Lav#i、標準偏差Ldv#iを有する正規分布に従うように制御されたものである。
【００９４】
さらに、スペクトル生成部１１０５は、上記の方法により、遷移系列[index'(l)]に沿って生成した所定の時間長（＝当該モデル化区間のフレーム数NFRM）のスペクトル振幅時系列に対して、乱数位相生成部１１０４により生成された乱数位相を与えて、スペクトル時系列を作成する。なお、スペクトル生成部１１０５において、生成された振幅スペクトル時系列に対してスペクトルが滑らかに変化するよう平滑化を行ってもよい。
【００９５】
ＩＦＦＴ（逆高速フーリエ変換）部１１０６は、スペクトル生成部１１０５により作成されたスペクトル時系列を時間領域の波形に変換する。重ね合わせ加算部１１０７は、フレーム間の信号の重ね合わせ加算を行うことにより、最終的な合成雑音信号を出力する。
【００９６】
次いで、上記構成を有する雑音信号分析装置および雑音信号合成装置の動作について、さらに図１２〜図１４を参照して説明する。
【００９７】
まず、本実施の形態にかかる雑音信号分析装置の動作について、図１２を参照して説明する。まず、工程（以下「ＳＴ」という。）１２０１において、フレーム毎の雑音信号x(j)（j=0,．．．,N-1; N:分析長）が、窓かけ部９０１に入力される。ＳＴ１２０２において、第mフレーム(m=0,1,2,．．．)に対する入力雑音信号に対してハニング窓等による窓かけが、窓かけ部９０１によりなされる。次に、ＳＴ１２０３において、窓かけがなされた入力雑音信号に対して、ＦＦＴ部９０２によりＦＦＴ（高速フーリエ変換）がなされて周波数スペクトルに変換される。これにより第mフレームの入力振幅スペクトルX(m)が算出される。ＳＴ１２０４において、スペクトルモデルパラメータ算出・量子化部９０３により、入力雑音信号の振幅スペクトル系列[X(m)] (m=0,1,2,．．．)を一定フレーム数の区間、または何らかの指標により適応的に定められたフレーム数からなる区間をモデル化を行う単位区間（モデル化区間）として区切り、そのモデル化区間におけるスペクトルモデルパラメータの算出および量子化が行われ、スペクトルモデルパラメータの量子化インデクスが出力されると共に、入力雑音信号の振幅スペクトル系列[X(m)]に対応するスペクトルモデル番号系列[index(m)]（1≦index(m)≦M, m= mk,mk+1,mk+2,．．．,mk+NFRM-1; mkは当該モデル化区間の先頭フレーム番号、NFRMはモデル化区間のフレーム数）が出力される。ここで、スペクトルモデルパラメータとは、スペクトルモデルＳｉ (i=1,．．．,M)の統計パラメータである平均振幅Sav#iおよび標準偏差Sdv#iを含むものである。このＳＴ１２０４におけるスペクトルモデルパラメータ算出・量子化部９０３の動作については、図１３により詳細に説明する。
【００９８】
次に、ＳＴ１２０５において、継続長モデル・遷移確率算出・量子化部９０４により、ＳＴ１２０４にて得られたモデル化区間のスペクトルモデル番号系列[index(m)]を用いて、Ｓｉ各々に対する継続フレーム数Liに関する統計パラメータ（継続長モデルパラメータ）（Liの平均値Lav#iおよび標準偏差値Ldv#i）およびSi-Sj間の遷移確率p(i,j)が算出・量子化され、それらの量子化インデクスが出力される。量子化方法は任意であるが、Lav#i、Ldv#i、およびp(i,j)の各要素を各々スカラ量子化してもよい。
【００９９】
そして、ＳＴ１２０６において、以上の、スペクトルモデルパラメータ、継続長モデルパラメータおよび遷移確率パラメータの量子化インデクスが、モデル化区間の入力雑音信号の統計モデルパラメータ量子化インデクスとして出力される。
【０１００】
図１３は、図１２のＳＴ１２０４におけるスペクトルモデルパラメータ算出・量子化部９０３の詳細動作を示すフロー図である。本実施例におけるスペクトルモデルパラメータ算出・量子化部９０３は、予め用意した雑音信号を表す振幅スペクトルの代表ベクトル集合の中から、入力雑音のモデル化区間における入力振幅スペクトル時系列を表すのに適切な代表ベクトルをモデル数（=Ｍ）個選択し、それをベースにスペクトルモデルパラメータを算出・量子化する。
【０１０１】
まず、ＳＴ１３０１において、モデル化区間内のフレーム単位の入力振幅スペクトルX(m) (m= mk,mk+1,mk+2,．．．,mk+NFRM-1)が入力される。そして、ＳＴ１３０２において、入力振幅スペクトルに対して、パワ算出部１００１により当該フレームのパワが算出され、ＳＴ１３０３において、パワ算出部１００１で算出されたパワ値を用いて、パワ正規化部１００２によりパワの正規化が行われる。次に、ＳＴ１３０４において、そのパワ正規化された入力振幅スペクトルに対して、クラスタ化部１００４により、雑音スペクトル代表ベクトル記憶部１００３の各代表ベクトルをクラスタ中心とするクラスタ化（ベクトル量子化）が行われ、各入力スペクトルがどのクラスタに所属するかの情報が出力される。そして、ＳＴ１３０５において、クラスタ別平均スペクトル算出部１００５により、クラスタ化部１００４で得られた所属するクラスタ（代表ベクトル）番号の系列に対して、モデル化区間で所属頻度の高い上位Ｍ個のクラスタ（対応する代表ベクトルをCi(i=1,2,…,M)とする）が選択される。その各クラスタに所属する入力雑音振幅スペクトルの平均スペクトルがクラスタ毎に算出され、それらをスペクトルモデルの平均振幅スペクトルSav#i(i=1,2,…,M)とする。また、入力雑音信号の振幅スペクトル系列[X(m)]に対するスペクトルモデル番号系列[index(m)]（1≦index(m)≦M, m= mk,mk+1,mk+2,．．．,mk+NFRM-1）があわせて出力される。この番号系列は、クラスタ化部１００４で得られた所属するクラスタ（代表ベクトル）番号の系列をベースに、上位Ｍ個のクラスタに属す番号系列として生成される。すなわち、上位Ｍ個のクラスタに属さないフレームに対しては、任意の方法（例えば、再度のクラスタ化や前フレームのクラスタ番号に置換するなど）で上記Ｍ個のクラスタの番号に対応付けるか、またはそのフレームは系列から削除するなどが行われる。次に、ＳＴ１３０６において、モデル化区間平均パワ量子化部１００６により、１００１で算出されたフレーム毎のパワ値が、モデル化区間全体で平均され、その平均パワに対してスカラ量子化など任意の方法で量子化が行われ、パワインデクスおよびモデル化区間平均パワ値（量子化値）Ｅが出力される。そして、ＳＴ１３０７において、誤差スペクトル・パワ補正値量子化部１００７により、(2)式に示すように、対応する代表ベクトルCi，Ciからの誤差スペクトルdi、モデル化区間平均パワＥおよび各スペクトルモデル別のＥに対するパワ補正値eiで表されたSav#iに対して、di, eiがスカラ量子化等任意の方法で量子化される。
【０１０２】
ここで、誤差スペクトルdiの量子化は、diを複数の帯域に分割し、帯域毎に各帯域の平均値をスカラ量子化を行うようにしてもよい。そして、ＳＴ１３０８において、上記、ＳＴ１３０５にて得られたＭ個の代表ベクトルインデクス、ＳＴ１３０７にて得られた誤差スペクトル量子化インデクス、および、パワ補正値量子化インデクス、ＳＴ１３０６にて得られたパワ量子化インデクスが、スペクトルモデルパラメータの量子化インデクスとして出力される。
【０１０３】
なお、スペクトルモデルパラメータのうち標準偏差Sdv#iは、雑音スペクトル代表ベクトル学習時に得られるCiに対するクラスタ内標準偏差値がそのまま使用される。この値に関しては雑音スペクトル代表ベクトル記憶部に予め記憶させておくことで、量子化インデクスの出力は不要である。また、ＳＴ１３０５において、クラスタ別平均スペクトル算出部１００５による平均スペクトル算出時にクラスタ内の標準偏差も算出し、その量子化を行ってもよい。この場合は、その量子化インデクスが、スペクトルモデルパラメータの量子化インデクスの一部として出力される。
【０１０４】
なお、上記実施の形態では、誤差スペクトルの量子化を帯域別のスカラ量子化により説明したが、全帯域のベクトル量子化等他の方法で量子化することも可能である。また、パワ情報をモデル化区間の平均パワとモデル別の平均パワに対する補正値により表現した構成を説明したが、モデル別のパワのみでの表現や、モデル化区間の平均パワで全モデルのパワを代表するようにしてもよい。
【０１０５】
次に、本実施の形態にかかる雑音信号合成装置の動作について、図１４を参照して説明する。まず、ＳＴ１４０１において、雑音信号分析装置により得られた統計モデルパラメータの各量子化インデクスが入力される。そして、ＳＴ１４０２において、スペクトルモデルパラメータ復号部１１０３によりスペクトルモデルパラメータの量子化インデクスからスペクトルモデルＳｉの統計パラメータである平均振幅Sav#iおよび標準偏差Sdv#i(i=1,．．．,M)を復号する。次に、ＳＴ１４０３において、遷移系列生成部１１０１により、Si-Sj間の遷移確率p(i,j)の量子化インデクスを用いて遷移確率p(i,j)が復号され、スペクトルモデルＳｉの遷移が与えられた遷移確率p(i,j)となるようなスペクトルモデル番号遷移系列[index'(l)]（1≦index'(l)≦M, l=0,1,2,．．．）が生起される。
【０１０６】
次に、ＳＴ１４０４において、スペクトルモデルＳｉに対する継続フレーム数Liの統計モデルパラメータの量子化インデクスからの復号値（Liの平均値Lav#i，標準偏差値Ldv#i）を用いて、i=index'(l)に対して平均値Lav#i、標準偏差Ldv#iを有する正規分布に従うように制御された継続フレーム数Lが、継続長制御部１１０２により生成される。また、ＳＴ１４０５において、乱数位相生成部１１０４により乱数位相が生成される。
【０１０７】
そして、ＳＴ１４０６において、スペクトル生成部１１０５により、ＳＴ１４０３において得られたモデル番号index'(l)、および、ＳＴ１４０２において得られたスペクトルモデルＳｉ (i=1,．．．,M)に関するモデル情報（Ｓｉの平均振幅Sav#iおよび標準偏差Sdv#i）を用いて、(3)式で示されるindex'(l)に対するスペクトル振幅時系列[X'(n)]が生成される。
【０１０８】
ここで、S _index'(l)は、i=index'(l)に対する平均振幅Sav#i、標準偏差Sdv#iを有する正規分布に従うものとし、また継続フレーム数Lは、ＳＴ１４０４において生成されたものである。なお、生成された振幅スペクトル時系列に対してスペクトルが滑らかに変化するよう平滑化を行ってもよい。さらに、遷移系列[index'(l)]に沿って生成した所定の時間長（＝当該モデル化区間のフレーム数NFRM）のスペクトル振幅時系列に対して、ＳＴ１４０５において生成された乱数位相を与えて、スペクトル時系列を作成する。
【０１０９】
ＳＴ１４０７において、ＩＦＦＴ部１１０６により、作成されたスペクトル時系列が時間領域の波形に変換された後、ＳＴ１４０８において、重ね合わせ加算部１１０７によりフレーム間の信号の重ね合わせ加算が行なわれる。ＳＴ１４０９において、重ね合わせ加算された信号が最終的な合成雑音信号として出力される。
【０１１０】
このように、本実施の形態においては、背景雑音信号を統計的モデルで表現している。すなわち、雑音信号分析装置（送信側装置）において、雑音信号を用いて、雑音信号スペクトルのスペクトル変化を含めた統計的情報（統計モデルパラメータ）を生成し、生成した情報を雑音信号合成装置（受信側装置）に送信している。また、雑音信号合成装置（受信側装置）においては、雑音信号分析装置（送信側装置）から送信された上記情報（統計モデルパラメータ）を用いて、雑音信号を合成している。これにより、雑音信号合成装置（受信側装置）においては、間欠的に分析された雑音信号のスペクトルではなく、雑音信号スペクトルのスペクトル変化を含めた統計的情報を用いて、雑音信号を合成することができるので、聴感的に劣化の少ない雑音信号を合成することができる。また、実際の周囲騒音下での雑音信号の統計的な特性は比較的長期間（例えば数秒〜十数秒）に渡り一定であることが想定されることから、モデルパラメータの伝送周期もその程度の長期間周期で良いため、復号側に伝送すべき雑音信号のモデルパラメータの情報量は少なくて済み、効率的な伝送を実現できる。
【０１１１】
（実施の形態４）
本実施の形態では、実施の形態３で説明した雑音信号分析装置を用いて音声符号化装置を実現し、また、実施の形態３で説明した雑音信号合成装置を用いて音声復号装置を実現する場合について説明する。
【０１１２】
まず、本実施の形態にかかる音声符号化装置について、図１５を参照して説明する。図１５は、本発明の実施の形態４にかかる音声符号化装置の構成を示すブロック図である。図１５において、入力音声信号は、有音／無音判定器１５０１、音声符号器１５０２および雑音信号符号器１５０３に入力される。
【０１１３】
有音／無音判定器１５０１は、入力音声信号に対して有音区間か無音区間（雑音のみの区間）かを判定しその判定結果を出力する。有音／無音判定器１５０１は、任意のものでよく、一般には、入力信号のパワー、スペクトルやピッチ周期などの複数のパラメータの瞬時量または変化量等を用いて判定を行うものである。
【０１１４】
音声符号器１５０２は、有音／無音判定器１５０１による判定結果が有音である場合に、入力音声信号に対して音声符号化を行い、その符号化データをＤＴＸ制御および多重化器１５０４に出力する。この音声符号器１５０２は、有音区間用の符号器であり、音声を高能率に符号化する任意の符号器である。
【０１１５】
雑音信号符号器１５０３は、有音／無音判定器１５０１による判定結果が無音である場合に、入力音声信号に対して雑音信号の符号化を行い入力雑音信号に対する統計モデルパラメータの量子化インデクスを符号化データとして出力する。この雑音符号器１５０３として、実施の形態３で説明した雑音分析装置(図９)を用いる。
【０１１６】
ＤＴＸ制御および多重化器１５０４は、有音／無音判定器１５０１、音声符号器１５０２および雑音信号符号器１５０３からの出力を用いて送信データとして送信すべき情報の制御と送信情報の多重化を行い、送信データを出力する。
【０１１７】
次に、本発明の実施の形態４にかかる音声復号装置について、図１６を参照して説明する。図１６は、本発明の実施の形態４にかかる音声復号装置の構成を示すブロック図である。図１６において、図１５に示した音声符号化装置により送信された送信データは、受信データとして分離およびＤＴＸ制御器１６０１に入力される。
【０１１８】
分離およびＤＴＸ制御器１６０１は、受信データを音声復号および雑音生成に必要な音声符号化データ、または雑音モデル符号化データ、および有音／無音判定フラグに分離する。
【０１１９】
音声復号器１６０２は、前記有音／無音判定フラグが有音区間を示す場合に、前記音声符号化データを用いて音声復号を行い復号音声を出力する。雑音信号復号器１６０３は、前記有音/無音判定フラグが無音区間を示す場合に、前記雑音モデル符号化データを用いて雑音信号の生成を行い、雑音信号を出力する。この雑音信号復号器１６０３として、実施の形態３で説明した雑音信号合成装置（図１１）を用いる。
【０１２０】
出力切り替え器１６０４は、音声復号器１６０２の出力と雑音信号復号器１６０３の出力を、有音／無音判定フラグの結果に応じて切り替えて出力し、出力信号とする。
【０１２１】
次に、上記構成を有する音声符号化装置および音声復号装置の動作について説明する。まず、音声符号化装置の動作について、図１７を参照して説明する。図１７は、本発明の実施の形態４にかかる音声符号化装置の動作を示すフロー図である。
【０１２２】
まず、ＳＴ１７０１において、フレーム毎の音声信号が入力され、ＳＴ１７０２、ＳＴ１７０３において、入力音声信号に対して有音区間か無音区間（雑音のみの区間）かが判定されその判定結果が出力される。この有音／無音判定は任意の方法でよく、一般には、入力信号のパワー、スペクトルやピッチ周期などの複数のパラメータの瞬時量または変化量等を用いて判定が行われる。
【０１２３】
ＳＴ１７０２における有音／無音判定結果が有音である場合には、ＳＴ１７０４において入力音声信号に対する音声符号化が行われ、その符号化データが出力される。この音声符号化処理は有音区間用の符号化で、音声を高能率に符号化する任意の方法でよい。
【０１２４】
一方、前記有音／無音判定結果が無音である場合には、ＳＴ１７０５において、入力音声信号に対する雑音信号の符号化が行われ、入力雑音信号に対するモデルパラメータが出力される。この雑音信号符号化として、実施の形態３にて説明した雑音信号の分析方法を用いる。
【０１２５】
ＳＴ１７０６において、前記有音／無音判定結果、音声符号化および雑音信号符号化からの出力を用いて送信データとして送信すべき情報の制御（ＤＴＸ制御）と送信情報の多重化が行われ、ＳＴ１７０７において送信データとして出力される。
【０１２６】
次に、音声復号装置の動作について、図１８を参照して説明する。図１８は、本発明の実施の形態４にかかる音声復号装置の動作を示すフロー図である。
【０１２７】
まず、ＳＴ１８０１において、符号化側で入力信号に対して符号化され送信されたデータが受信データとして受信される。ＳＴ１８０２において、受信データは、音声復号および雑音生成に必要な音声符号化データ、または雑音モデル符号化パラメータ、および有音／無音判定フラグに分離される。
【０１２８】
前記有音／無音判定フラグが有音区間を示す場合には、ＳＴ１８０４において前記音声符号化データを用いて音声復号が行われ、復号音声が出力される。一方、前記有音／無音判定フラグが無音区間を示す場合には、ＳＴ１８０５において前記雑音モデル符号化パラメータを用いて雑音信号の生成が行われ、雑音信号が出力される。この雑音信号復号処理として、実施の形態４で説明した雑音信号の合成方法を用いる。
【０１２９】
ＳＴ１８０６において、有音／無音判定フラグの結果に応じてＳＴ１８０４における音声復号またはＳＴ１８０５における雑音信号復号の出力が、復号信号として出力される。
【０１３０】
なお、上記実施の形態においては、復号信号の出力を有音区間と無音区間で復号音声信号と合成雑音信号の切り替えで出力されるものとして説明したが、別の形態として、無音区間で合成した雑音信号を有音区間においても復号音声信号に加算して出力するようにしてもよい。さらに、音声符号化側で雑音信号を含む入力音声信号を、雑音信号と雑音を含まない音声信号とに分離する手段を設けて、分離後の音声信号および雑音信号を符号化したデータを用いて、復号側で無音区間で合成した雑音信号を、上記と同様に有音区間においても復号音声信号に加算して出力するようにしてもよい。
【０１３１】
このように、本実施の形態によれば、有音区間では音声信号を高品質で符号化できる音声符号化を、無音区間では聴感的に劣化が少ない雑音信号分析装置および合成装置を用いて雑音信号の符号化および復号を行うことにより、背景雑音環境下においても高品質な符号化を行える。また、実際の周囲騒音下での雑音信号の統計的な特性は比較的長期間（例えば数秒〜十数秒）に渡り一定であることが想定されることから、モデルパラメータの伝送周期もその程度の長期間周期で良いため、復号側に伝送すべき雑音信号のモデルパラメータの情報量は少なくて済み、効率的な伝送を実現できる。
【０１３２】
なお、上記実施の形態１および３で説明した雑音信号分析装置および雑音信号合成装置によりなされる処理、ならびに、上記実施の形態２および４で説明した音声符号化装置および音声復号装置によりなされる処理をソフトウェア（プログラム）により実現し、このソフトウェア（プログラム）を、コンピュータにより読み取ることが可能な記録媒体に格納することが可能である。
【０１３３】
【発明の効果】
以上説明したように、本発明によれば、雑音信号を統計的モデルで表現することにより、聴感的に劣化の少ない雑音信号を合成することができる。
【図面の簡単な説明】
【図１】本発明の実施の形態１にかかる雑音信号分析装置の構成を示すブロック図
【図２】本発明の実施の形態１にかかる雑音信号合成装置の構成を示すブロック図
【図３】本発明の実施の形態１にかかる雑音信号分析装置の動作を示すフロー図
【図４】本発明の実施の形態１にかかる雑音信号合成装置の動作を示すフロー図
【図５】本発明の実施の形態２にかかる音声符号化装置の構成を示すブロック図
【図６】本発明の実施の形態２にかかる音声復号装置の構成を示すブロック図
【図７】本発明の実施の形態２にかかる音声符号化装置の動作を示すフロー図
【図８】本発明の実施の形態２にかかる音声復号装置の動作を示すフロー図
【図９】本発明の実施の形態３にかかる雑音信号分析装置の構成を示すブロック図
【図１０】本発明の実施の形態３にかかるスペクトルモデルパラメータ算出・量子化部の構成を示すブロック図
【図１１】本発明の実施の形態３にかかる雑音信号合成装置の構成を示すブロック図
【図１２】本発明の実施の形態３にかかる雑音信号分析装置の動作を示すフロー図
【図１３】本発明の実施の形態３にかかるスペクトルモデルパラメータ算出・量子化部の動作を示すフロー図
【図１４】本発明の実施の形態３にかかる雑音信号合成装置の動作を示すフロー図
【図１５】本発明の実施の形態４にかかる音声符号化装置の構成を示すブロック図
【図１６】本発明の実施の形態４にかかる音声復号装置の構成を示すブロック図
【図１７】本発明の実施の形態４にかかる音声符号化装置の動作を示すフロー図
【図１８】本発明の実施の形態４にかかる音声復号装置の動作を示すフロー図
【図１９】従来のＤＴＸ制御付きＣＳ−ＡＣＥＬＰ符号化方式を採用した符号化装置の構成を示すブロック図
【符号の説明】
１０１窓かけ部
１０２ＦＦＴ部
１０３スペクトルモデル記憶部
１０４スペクトルモデル系列算出部
１０５継続長モデル・遷移確率算出部
２０１遷移系列生成部
２０２スペクトルモデル記憶部
２０３継続長制御部
２０４乱数位相生成部
２０５スペクトル生成部
２０６ＩＦＦＴ部
２０７重ね合わせ加算部

Claims

音声信号の無音区間のスペクトルをモデル化して複数の雑音スペクトルモデルを取得するモデル取得手段と、
複数の前記雑音スペクトルモデルのうちの任意の雑音スペクトルモデルから他の雑音スペクトルモデルへの遷移確率を、前記他の雑音スペクトルモデルの全てについて取得する遷移確率取得手段と、
前記雑音スペクトルモデルを継続使用する時間を示す継続時間情報を、前記雑音スペクトルモデルの全てについて取得する継続時間情報取得手段と、
前記雑音スペクトルモデル、前記遷移確率、および前記継続時間情報を符号化する符号化手段と、
を具備することを特徴とする雑音符号化装置。
前記符号化手段は、
前記継続時間情報として、当該継続時間情報に関する統計パラメータを符号化する、
ことを特徴とする請求項１記載の雑音符号化装置。
前記符号化手段は、
前記雑音スペクトルモデルの振幅として、当該振幅が従う統計分布を示す統計パラメータを符号化する、
ことを特徴とする請求項１記載の雑音符号化装置。
音声信号の有音区間に対し音声信号用の符号化を行う音声符号化手段と、
前記音声信号の無音区間に対し雑音信号用の符号化を行う雑音符号化手段と、
を具備し、
前記雑音符号化手段は、
前記音声信号の無音区間のスペクトルをモデル化して複数の雑音スペクトルモデルを取得するモデル取得手段と、複数の前記雑音スペクトルモデルのうちの任意の雑音スペクトルモデルから他の雑音スペクトルモデルへの遷移確率を、前記他の雑音スペクトルモデルの全てについて取得する遷移確率取得手段と、前記雑音スペクトルモデルを継続使用する時間を示す継続時間情報を、前記雑音スペクトルモデルの全てについて取得する継続時間情報取得手段と、前記雑音スペクトルモデル、前記遷移確率、および前記継続時間情報を符号化する符号化手段と、を具備する、
ことを特徴とする音声符号化装置。
前記音声符号化手段は、前記有音区間において第１区間ごとに符号化を行い、
前記雑音符号化手段は、前記無音区間において第２区間ごとに符号化を行い、
前記第２区間は、前記第１区間よりも長い、
ことを特徴とする請求項４記載の音声符号化装置。
音声信号の無音区間の符号化パラメータを復号する雑音復号装置であって、
前記符号化パラメータから、前記音声信号の無音区間のスペクトルをモデル化して得られる複数の雑音スペクトルモデルを取得するモデル取得手段と、
前記符号化パラメータから、複数の前記雑音スペクトルモデルのうちの任意の雑音スペクトルモデルから他の雑音スペクトルモデルへの遷移確率を、前記他の雑音スペクトルモデルの全てについて取得する遷移確率取得手段と、
前記符号化パラメータから、前記雑音スペクトルモデルを継続使用する時間を示す継続時間情報を、前記雑音スペクトルモデルの全てについて取得する継続時間情報取得手段と、
前記雑音スペクトルモデル、前記遷移確率、および前記継続時間情報を用いて前記音声信号の無音区間を復号する復号手段と、
を具備することを特徴とする雑音復号装置。
前記継続時間情報取得手段は、
前記継続時間情報として、当該継続時間情報に関する統計パラメータを取得する、
ことを特徴とする請求項６記載の雑音復号装置。
前記モデル取得手段は、
前記雑音スペクトルモデルの振幅として、当該振幅が従う統計分布を示す統計パラメータを取得する、
ことを特徴とする請求項６記載の雑音復号装置。
音声信号の有音区間の符号化パラメータに対し音声信号用の復号を行う音声復号手段と、
前記音声信号の無音区間の符号化パラメータに対し雑音信号用の復号を行う雑音復号手段と、
を具備し、
前記雑音復号手段は、
前記符号化パラメータから、前記音声信号の無音区間のスペクトルをモデル化して得られる複数の雑音スペクトルモデルを取得するモデル取得手段と、前記符号化パラメータから、複数の前記雑音スペクトルモデルのうちの任意の雑音スペクトルモデルから他の雑音スペクトルモデルへの遷移確率を、前記他の雑音スペクトルモデルの全てについて取得する遷移確率取得手段と、前記符号化パラメータから、前記雑音スペクトルモデルを継続使用する時間を示す継続時間情報を、前記雑音スペクトルモデルの全てについて取得する継続時間情報取得手段と、前記雑音スペクトルモデル、前記遷移確率、および前記継続時間情報を用いて前記音声信号の無音区間を復号する復号手段と、を具備する、
ことを特徴とする音声復号装置。
前記音声復号手段は、前記有音区間の符号化パラメータに対し第１区間ごとに復号を行い、
前記雑音復号手段は、前記無音区間の符号化パラメータに対し第２区間ごとに復号を行い、
前記第２区間は、前記第１区間よりも長い、
ことを特徴とする請求項９記載の音声復号装置。
音声信号の無音区間のスペクトルをモデル化して複数の雑音スペクトルモデルを取得するモデル取得ステップと、
複数の前記雑音スペクトルモデルのうちの任意の雑音スペクトルモデルから他の雑音スペクトルモデルへの遷移確率を、前記他の雑音スペクトルモデルの全てについて取得する遷移確率取得ステップと、
前記雑音スペクトルモデルを継続使用する時間を示す継続時間情報を、前記雑音スペクトルモデルの全てについて取得する継続時間情報取得ステップと、
前記雑音スペクトルモデル、前記遷移確率、および前記継続時間情報を符号化する符号化ステップと、
を具備することを特徴とする雑音符号化方法。
音声信号の無音区間の符号化パラメータを復号する雑音復号方法であって、
前記符号化パラメータから、前記音声信号の無音区間のスペクトルをモデル化して得られる複数の雑音スペクトルモデルを取得するモデル取得ステップと、
前記符号化パラメータから、複数の前記雑音スペクトルモデルのうちの任意の雑音スペクトルモデルから他の雑音スペクトルモデルへの遷移確率を、前記他の雑音スペクトルモデルの全てについて取得する遷移確率取得ステップと、
前記符号化パラメータから、前記雑音スペクトルモデルを継続使用する時間を示す継続時間情報を、前記雑音スペクトルモデルの全てについて取得する継続時間情報取得ステップと、
前記雑音スペクトルモデル、前記遷移確率、および前記継続時間情報を用いて前記音声信号の無音区間を復号する復号ステップと、
を具備することを特徴とする雑音復号方法。
音声信号の無音区間のスペクトルをモデル化して複数の雑音スペクトルモデルを取得するモデル取得ステップと、
複数の前記雑音スペクトルモデルのうちの任意の雑音スペクトルモデルから他の雑音スペクトルモデルへの遷移確率を、前記他の雑音スペクトルモデルの全てについて取得する遷移確率取得ステップと、
前記雑音スペクトルモデルを継続使用する時間を示す継続時間情報を、前記雑音スペクトルモデルの全てについて取得する継続時間情報取得ステップと、
前記雑音スペクトルモデル、前記遷移確率、および前記継続時間情報を符号化する符号化ステップと、
をコンピュータに実行させることを特徴とする雑音符号化プログラム。
音声信号の無音区間の符号化パラメータを復号する雑音復号プログラムであって、
前記符号化パラメータから、前記音声信号の無音区間のスペクトルをモデル化して得られる複数の雑音スペクトルモデルを取得するモデル取得ステップと、
前記符号化パラメータから、複数の前記雑音スペクトルモデルのうちの任意の雑音スペクトルモデルから他の雑音スペクトルモデルへの遷移確率を、前記他の雑音スペクトルモデルの全てについて取得する遷移確率取得ステップと、
前記符号化パラメータから、前記雑音スペクトルモデルを継続使用する時間を示す継続時間情報を、前記雑音スペクトルモデルの全てについて取得する継続時間情報取得ステップと、
前記雑音スペクトルモデル、前記遷移確率、および前記継続時間情報を用いて前記音声信号の無音区間を復号する復号ステップと、
をコンピュータに実行させることを特徴とする雑音復号プログラム。