JP4527175B2

JP4527175B2 - スペクトルパラメータ平滑化装置及びスペクトルパラメータ平滑化方法

Info

Publication number: JP4527175B2
Application number: JP2009055573A
Authority: JP
Inventors: 宏幸江原
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 1998-08-21
Filing date: 2009-03-09
Publication date: 2010-08-18
Anticipated expiration: 2018-09-21
Also published as: JP2009122710A; JP4954310B2; JP2010186190A

Description

本発明は、音声信号を符号化して伝送する移動通信システム等における低ビットレート音声符号化装置、特に音声信号を声道情報と音源情報とに分離して表現するようなＣＥＬＰ（Code Excited Linear Prediction）型音声符号化装置等に関するものである。特に、本発明は、音声区間を検出するために用いられるパラメータを平滑化するスペクトルパラメータ平滑化装置及びスペクトルパラメータ平滑化方法に関するものである。

ディジタル移動通信や音声蓄積の分野においては、電波や記憶媒体の有効利用のために音声情報を圧縮し、高能率で符号化するための音声符号化装置が用いられている。中でもＣＥＬＰ（Code Excited Linear Prediction：符号励振線形予測符号化）方式をベースにした方式が中・低ビットレートにおいて広く実用化されている。ＣＥＬＰの技術については、M.R.Schroeder and B.S.Atal："Code-Excited Linear Prediction (CELP)：High-quality Speech at Very Low Bit Rates"，Proc．ICASSP-85, 25.1.1, pp.937-940, 1985" に示されている。

ＣＥＬＰ型音声符号化方式は、音声をある一定のフレーム長（５ｍｓ〜５０ｍｓ程度）に区切り、各フレーム毎に音声の線形予測を行い、フレーム毎の線形予測による予測残差（励振信号）を既知の波形からなる適応符号ベクトルと雑音符号ベクトルを用いて符号化するものである。適応符号ベクトルは過去に生成した駆動音源ベクトルを格納している適応符号帳から、雑音符号ベクトルは予め用意された定められた数の定められた形状を有するベクトルを格納している雑音符号帳から選択されて使用される。雑音符号帳に格納される雑音符号ベクトルには、ランダムな雑音系列のベクトルや何本かのパルスを異なる位置に配置することによって生成されるベクトルなどが用いられる。

図１３に従来のＣＥＬＰ符号化装置の基本ブロックの構成例を示す。このＣＥＬＰ符号化装置では、入力されたディジタル信号を用いてＬＰＣの分析・量子化とピッチ探索と雑音符号帳探索と利得符号帳探索とが行われ、量子化ＬＰＣ符号（Ｌ）とピッチ周期（Ｐ）と雑音符号帳インデックス（Ｓ）と利得符号帳インデックス（Ｇ）とが復号器に伝送される。

しかしながら、上記従来の音声符号化装置においては、１種類の雑音符号帳で有声音声や無声音声さらには背景雑音等についても対応しなければならず、これら全ての入力信号を高品質で符号化することは困難であった。

本発明は、以上のような実情に鑑みてなされたものであり、モード情報を新たに伝送することなしに音源符号化のマルチモード化を図ることができ、特に有声区間／無声区間の判定に加えて音声区間／非音声区間の判定を行うことも可能で、マルチモード化による符号化／復号化性能の改善度をより高めることを可能としたマルチモード音声符号化装置および音声復号化装置を提供することを目的とする。また、本発明は、入力信号の定常雑音区間検出を精度良く行い、定常雑音区間を平滑化することができるスペクトルパラメータ平滑化装置及びスペクトルパラメータ平滑化方法を提供することを目的とする。

本発明は、スペクトル特性を表す量子化パラメータの静的／動的特徴を用いたモード判定を行い、音声区間／非音声区間、有声区間／無声区間を示すモード判定結果に基づいて駆動音源の符号化に用いる各種符号帳のモードを切替えるようにした。また符号化の際に使用したモード情報を復号化時に用いて復号化に用いる各種符号帳のモードを切替えるようにした。また、本発明は、過去に定常雑音区間と判定された回数が所定の閾値を超える場合に、スペクトル変動量を用いて定常雑音区間を検出するようにした。

本発明によればスペクトル特性を表すパラメータの量子化データにおける静的および動的特徴を用いて音源符号化および／または復号後処理のモード切替を行う構成なので、モード情報を新たに伝送することなしに音源符号化のマルチモード化が図れる。特に有声区間／無声区間の判定に加えて音声区間／非音声区間の判定を行うことも可能なので、マルチモード化による符号化性能の改善度をより高めることを可能とした音声符号化装置および音声復号化装置を提供できる。また、本発明によれば、入力信号の定常雑音区間検出を精度良く行い、定常雑音区間を平滑化することができるスペクトルパラメータ平滑化装置及びスペクトルパラメータ平滑化方法を提供できる。

本発明の第１の態様は、音声信号に含まれる声道情報を表す少なくとも１種類以上のパラメータを符号化する第１符号化手段と、前記音声信号に含まれる音源情報を表す少なくとも１種類以上のパラメータを幾つかのモードで符号化可能な第２符号化手段と、前記第１符号化手段で符号化された特定パラメータの動的特徴に基づいて前記第２符号化手段のモード切替を行うモード切替手段と、前記第１、第２符号化手段によって符号化された複数種類のパラメータ情報によって入力音声信号を合成する合成手段と、を具備する構成を採る。

この構成によれば、第１符号化手段の符号化結果を用いて、第２符号化手段の符号化モードを決定するため、モードを示すための新たな情報を付加することなく第２符号化手段のマルチモード化ができ、符号化性能を向上できる。

本発明の第２の態様は、第１の態様において、モード切替手段が、音声のスペクトル特性を表す量子化パラメータを用いて、駆動音源を符号化する第２符号化手段のモード切替を行う構成を採る。

この構成によれば、スペクトル特性を表すパラメータと駆動音源を表すパラメータとを独立的に符号化する形態の音声符号化装置において、新たな伝送情報を増やすことなく駆動音源の符号化をマルチモード化ができ、符号化性能を向上できる。

本発明の第３の態様は、第２の態様において、モード切替手段が、音声のスペクトル特性を表す量子化パラメータの静的および動的特徴を用いて、駆動音源を符号化する手段のモード切替を行う構成を採る。

この構成によれば、動的特徴を用いることによって定常雑音部の検出ができるようになるので、駆動音源符号化のマルチモード化によって定常雑音部に対する符号化性能を改善できる。

本発明の第４の態様は、第２，３の態様において、モード切替手段が、量子化ＬＳＰパラメータを用いて駆動音源を符号化する手段のモード切替を行う構成を採る。

この構成によれば、スペクトル特性を表すパラメータとしてＬＳＰパラメータを用いているＣＥＬＰ方式に容易に適用できる。

本発明の第５の態様は、第４の態様において、モード切替手段が、量子化ＬＳＰパラメータの静的および動的特徴を用いて、駆動音源を符号化する手段のモード切替を行う構成を採る。

この構成によれば、スペクトル特性を表すパラメータとしてＬＳＰパラメータを用いているＣＥＬＰ方式に簡単に適用でき、また、周波数領域のパラメータであるＬＳＰパラメータを用いるためスペクトルの定常性の判定が良好に行うことができ、定常雑音に対する符号化性能を改善できる。

本発明の第６の態様は、第４，５の態様において、モード切替手段が、量子化ＬＳＰの定常性を過去および現在の量子化ＬＳＰパラメータを用いて判定する手段と、現在の量子化ＬＳＰを用いて有声性を判定する手段と、を備え、判定結果に基づいて駆動音源を符号化する手段のモード切替を行う構成を採る。

この構成によれば、駆動音源の符号化を定常雑音部と無声音声部と有声音声部とで切替えて行うことができるので、各部に対応した駆動音源の符号化モードを準備することによって符号化性能を改善できる。

本発明の第７の態様は、音声信号に含まれる声道情報を表す少なくとも1種類以上のパラメータを復号化する手段と、前記音声信号に含まれる音源情報を表す少なくとも１種類以上のパラメータを復号化する第２復号化手段と、前記第１復号化手段で復号化された特定パラメータの動的特徴に基づいて前記第２復号化手段のモード切替を行うモード切替手段と、前記第１、第２復号化手段によって復号化された複数種類のパラメータ情報によって音声信号を音声信号を復号する合成手段と、を具備する構成をとる。

この構成によれば、第１の態様の音声符号化装置で符号化された信号を復号できる。

本発明の第８の態様は、第７の態様において、モード切替手段が、音声のスペクトル特性を表す量子化パラメータを用いて、駆動音源を復号化する第２復号化手段のモード切替を行う構成を採る。

この構成によれば、第２の態様の音声符号化装置で符号化された信号を復号できる。

本発明の第９の態様は、第７の態様において、モード切替手段が、音声のスペクトル特性を表す量子化パラメータの静的および動的特徴を用いて、駆動音源を復号化する手段のモード切替を行う構成をとる。

この構成によれば、第３の態様の音声符号化装置で符号化された信号を復号できる。

本発明の第１０の態様は、第７の態様において、モード切替手段が、量子化ＬＳＰパラメータを用いて、駆動音源を復号化する手段のモード切替を行う構成を採る。

この構成によれば、第４の態様の音声符号化装置で符号化された信号を復号できる。

本発明の第１１の態様は、第７の態様において、モード切替手段が、量子化ＬＳＰパラメータの静的および動的特徴を用いて、駆動音源を復号化する手段のモード切替を行う構成を採る。

この構成によれば、第５の態様の音声符号化装置で符号化された信号を復号できる。

本発明の第１２の態様は、第７の態様において、モード切替手段が、量子化ＬＳＰの定常性を過去および現在の量子化ＬＳＰパラメータを用いて判定する手段と、現在の量子化ＬＳＰを用いて有声性を判定する手段とを備え、判定結果に基づいて駆動音源を復号化する手段のモード切替を行う構成を採る。

この構成によれば、第６の態様の音声符号化装置で符号化された信号を復号できる。

本発明の第１３の態様は、第７〜第１２の態様のいずれかにおいて、判定手段の判定結果に基づいて復号信号に対する後処理の切替えを行う構成を採る。

この構成によれば、第１〜第６の態様のいずれかのマルチモード音声符号化装置で符号化された信号を復号でき、さらに後処理によって定常的な背景雑音環境下の音声信号に対する符号化性能を改善できる。

本発明の第１４の態様は、量子化ＬＳＰパラメータのフレーム間変化を算出する手段と、量子化ＬＳＰパラメータが定常的であるフレームにおける平均的量子化ＬＳＰパラメータを算出する手段と、前記平均的量子化ＬＳＰパラメータと現在の量子化ＬＳＰパラメータとの距離を算出する手段と、を備える構成を採る。

この構成によれば、入力信号の音声区間検出を精度良く行うための動的特徴を抽出することができる。

本発明の第１５の態様は、量子化ＬＳＰパラメータから線形予測残差パワを算出する手段と、隣接する次数の量子化ＬＳＰパラメータの間隔を算出する手段と、を備える構成を採る。

この構成によれば、入力信号のスペクトル包絡の山谷の特徴を抽出することができ、音声区間である可能性が高い区間を検出するための静的特徴を抽出することができる。

本発明の第１６の態様は、第１４の態様の動的特徴抽出器と、第１５の態様の静的特徴抽出器とを備え、前記動的特徴抽出器によって抽出された量子化ＬＳＰパラメータの動的特徴と、前記静的特徴抽出器によって抽出された量子化ＬＳＰパラメータの静的特徴との少なくとも一方を用いて音声区間の検出を行う構成を採る。

この構成によれば、精度良く音声区間と定常雑音区間との切り分けを行うことができる。

本発明の第１７の態様は、第１６の態様の音声区間検出器と、有声無声判定手段とを備え、前記音声区間検出器の検出結果と、前記有声無声判定手段の判定結果との少なくとも一方の情報を用いてモード判定を行う構成を採る。

この構成によれば、音声区間／雑音区間と有声区間／無声区間との切り分け情報を用いたマルチモード構成を実現することができる。

本発明の第１８の態様は、前記有声無声判定手段が、量子化ＬＳＰパラメータから反射係数を算出する手段と、量子化ＬＳＰパラメータから線形予測残差パワを算出する手段と、を備える量子化ＬＳＰパラメータの静的特徴抽出器によって抽出される情報を利用する構成を採る。

この構成によれば、有声／無声の判定を精度よく行うことができる。

本発明の第１９の態様は、第１の態様において、前記モード選択器によりモード切替手段を構成する。

この構成によれば、入力音声の特徴に応じて音源符号化をマルチモードで行うことができる。

本発明の第２０の態様は、第７の態様において、前記モード選択器によりモード切替手段を構成する。

この構成によれば、第１９の態様の符号化装置を用いて符号化された音声信号を復号できる。

本発明の第２１の態様は、復号ＬＳＰパラメータを用いて音声区間か否かの判定を行う判定手段と、信号のＦＦＴ処理を行うＦＦＴ処理手段と、前記ＦＦＴ処理によって得られた位相スペクトルを前記判定手段の判定結果に応じてランダム化する位相スペクトルランダム化手段と、前記FFT処理によって得られた振幅スペクトルを前記判定結果に応じて平滑化する振幅スペクトル平滑化手段と、前記位相スペクトルランダム化手段によってランダム化された位相スペクトルと前記振幅スペクトル平滑化手段によって平滑化された位相スペクトルとの逆ＦＦＴ処理を行うＩＦＦＴ処理手段と、を備える構成を採る。

この構成によれば、マルチモードで後処理を行うことができ、特に定常雑音区間の主観品質を改善できる。

本発明の第２２の態様は、第２１の態様において、音声区間においては過去の非音声区間における平均的振幅スペクトルを用いてランダム化する位相スペクトルの周波数を決定し、非音声区間においては聴覚重みづけ領域における全周波数の振幅スペクトルの平均値を用いてランダム化する位相スペクトルと平滑化する振幅スペクトルの周波数を決定する構成を採る。

この構成によれば、音声区間と雑音区間の後処理を適応的に行うことができる。

本発明の第２３の態様は、第２１の態様において、音声区間においては過去の非音声区間における平均的振幅スペクトルを用いて生成した雑音を重畳する構成を採る。

この構成によれば、定常的な背景雑音のある復号音声信号の聴感的品質を改善できる。

本発明の第２４の態様は、第２１の態様において、前記音声区間か否かの判定を第１６の態様における音声区間検出手段と、過去の非音声区間における平均的振幅スペクトルと現在の振幅スペクトルとの差の大きさと、を用いて行う構成を採る。

この構成によれば、復号信号のパワが急に大きくなるような場合を検出できるので、第１６の態様における音声区間検出手段による検出誤りが生じた場合に対応することができる。

本発明の第２５の態様は、第１３の態様において、後処理を第２１の態様におけるマルチモード後処理器を用いて行う構成を採る。

この構成によれば、マルチモードで後処理を行うことによって特に定常雑音区間の主観品質を改善できる音声復号化装置を実現できる。

本発明の第２６の態様は、第１の態様の音声符号化装置と、第７の態様の音声復号化装置と、を備える構成を採る。

この構成によれば、第１の態様の音声符号化装置と第７の態様の音声復号化装置とを備え音声符号化復号化装置を実現できる。

本発明の第２７の態様は、音声信号を電気的信号に変換する音声入力装置と、この音声入力装置から出力される信号をディジタル信号に変換するＡ／Ｄ変換器と、このＡ／Ｄ変換器から出力されるディジタル信号の符号化を行う第１〜第６の態様のいずれかの音声符号化装置と、この音声符号化装置から出力される符号化情報に対して変調処理等を行うＲＦ変調器と、このＲＦ変調器から出力された信号を電波に変換して送信する送信アンテナと、を具備する構成を採る。

この構成によれば、第１〜第６の態様のいずれかの音声符号化装置を備えた音声信号送信装置を実現でき、品質の高い低ビットレート音声符号化が可能となる。

本発明の第２８の態様は、受信電波を受信する受信アンテナと、この受信アンテナで受信した信号の復調処理を行うＲＦ復調器と、このＲＦ復調器によって得られた情報の復号化を行う第７〜第１３の態様のいずれかの音声復号化装置と、この音声復号化装置によって復号されたディジタル音声信号をＤ／Ａ変換するＤ／Ａ変換器と、このＤ／Ａ変換器によって出力される電気的信号を音声信号に変換する音声出力装置と、を具備する構成をとる。

この構成によれば、第７〜第１３の態様のいずれかの音声復号化装置を備えた音声信号受信装置を実現でき、第２７の態様の音声信号送信装置から送信された信号を受信し復号化できる。

本発明の第２９の態様は、第２７の態様の音声信号送信装置および第２８の態様の音声信号受信装置の少なくとも一方を備える構成を採る。

この構成によれば、第２７の態様の音声信号送信装置および／または第２８の態様の音声信号受信装置を備えた移動局装置を実現でき、高音質の移動局装置を実現できる。

本発明の第３０の態様は、第２７の態様の音声信号送信装置および第２８の態様の音声信号受信装置の少なくとも一方を備える構成を採る。

この構成によれば、第２７の態様の音声信号送信装置および／または第２８の態様の音声信号受信装置を備えた基地局装置を実現でき、高音質の基地局装置を実現できる。

本発明の第３１の態様は、コンピュータに、量子化ＬＳＰの定常性を過去および現在の量子化ＬＳＰパラメータを用いて判定する手順と、現在の量子化ＬＳＰを用いて有声性を判定する手順と、前記手順によって判定された結果に基づいて駆動音源を符号化する手順のモード切替を行う手順と、を実行させるためのプログラムを記録した機械読み取り可能な記録媒体である。

この記録媒体によれば、記録されたプログラムをコンピュータにインストールすることにより第６の態様の音声符号化装置と同等の機能を持たせることができる。

本発明の第３２の態様は、コンピュータに、量子化ＬＳＰの定常性を過去および現在の量子化ＬＳＰパラメータを用いて判定する手順と、現在の量子化ＬＳＰを用いて有声性を判定する手順と、前記手順によって判定された結果に基づいて駆動音源を復号化する手順のモード切替を行う手順と、前記手順によって判定された結果に基づいて復号信号に対する後処理手順の切替えを行う手順と、を実行させるためのプログラムを記録した機械読み取り可能な記録媒体である。

この記録媒体によれば、記録されたプログラムをコンピュータにインストールすることにより第１３の態様の音声復号化装置と同等の機能を持たせることができる。

本発明の第３３の態様は、音声のスペクトル特性を表す量子化パラメータの静的および動的特徴を用いて駆動音源を符号化するモードのモード切替を行う構成を採る。

本発明の第３４の態様は、音声のスペクトル特性を表す量子化パラメータの静的および動的特徴を用いて駆動音源を復号化するモードのモード切替を行う構成を採る。

この構成によれば、第３３の態様の音声符号化方法によって符号化した信号を復号可能な復号化方法を提供できる。

本発明の第３５の態様は、第３４の態様の音声復号化方法において、復号信号に対する後処理を行う工程と、モード情報に基づいて前記後処理工程の切替えを行う工程と、を具備する構成を採る。

この構成によれば、第３４の態様の音声復号化方法を用いて復号化した信号の定常雑音品質をさらに改善できる音声復号化方法を提供できる。

本発明の第３６の態様は、量子化ＬＳＰパラメータのフレーム間変化を算出する工程と、量子化ＬＳＰパラメータが定常的であるフレームにおける平均的量子化ＬＳＰパラメータを算出する工程と、前記平均的量子化ＬＳＰパラメータと現在の量子化ＬＳＰパラメータとの距離を算出する工程と、を具備する構成を採る。

本発明の第３７の態様は、量子化ＬＳＰパラメータから線形予測残差パワを算出する工程と、隣接する次数の量子化ＬＳＰパラメータの間隔を算出する工程と、を具備する構成を採る。

本発明の第３８の態様は、第３６の態様における動的特徴抽出工程と、第３７の態様における静的特徴抽出工程と、を具備し、前記動的特徴抽出工程において抽出された量子化ＬＳＰパラメータの動的特徴と、前記静的特徴抽出工程において抽出された量子化ＬＳＰパラメータの静的特徴と、の少なくとも一方を用いて音声区間の検出を行う構成を採る。

本発明の第３９の態様は、第３８の態様における音声区間検出方法によって得られる音声検出結果を用いてモード判定を行う構成を採る。

本発明の第４０の態様は、復号ＬＳＰパラメータを用いて音声区間か否かの判定を行う判定工程と、信号のＦＦＴ処理を行うＦＦＴ処理工程と、前記ＦＦＴ処理によって得られた位相スペクトルを前記判定工程における判定結果に応じてランダム化する位相スペクトルランダム化工程と、前記ＦＦＴ処理によって得られた振幅スペクトルを前記判定結果に応じて平滑化する振幅スペクトル平滑化工程と、前記位相スペクトルランダム化工程においてランダム化された位相スペクトルと前記振幅スペクトル平滑化工程において平滑化された位相スペクトルとの逆ＦＦＴ処理を行うＩＦＦＴ処理工程と、を具備する構成を採る。

以下、本発明の実施の形態における音声符号化装置等について、図１から図９を用いて説明する。

（実施の形態１）
図１に本発明の実施の形態１にかかる音声符号化装置の構成を示す。

ディジタル化された音声信号等からなる入力データが前処理器１０１に入力される。前処理器１０１は、ハイパスフィルタやバンドパスフィルタ等を用いて直流成分のカットや入力データの帯域制限等を行ってＬＰＣ分析器１０２と加算器１０５とに出力する。なお、この前処理器１０１において何も処理を行わなくても後続する符号化処理は可能であるが、前述したような処理を行った方が符号化性能は向上する。

ＬＰＣ分析器１０２は、線形予測分析を行って線形予測係数（ＬＰＣ）を算出してＬＰＣ量子化器１０３へ出力する。

ＬＰＣ量子化器１０３は、入力したＬＰＣを量子化し、量子化後のＬＰＣを合成フィルタ１０４とモード選択器１０５に、また、量子化ＬＰＣを表現する符号Ｌを復号器に夫々出力する。なお、ＬＰＣの量子化は補間特性の良いＬＳＰ（Line Spectrum Pair：線スペクトル対）に変換して行うのが一般的である。

合成フィルタ１０４は、入力した量子化ＬＰＣを用いてＬＰＣ合成フィルタを構築する。この合成フィルタに対して加算器１１４から出力される駆動音源信号を入力としてフィルタ処理を行って合成信号を加算器１０６に出力する。

モード選択器１０５は、ＬＰＣ量子化器１０３から入力した量子化ＬＰＣを用いて雑音符号帳１０９のモードを決定する。

ここで、モード選択器１０５は、過去に入力した量子化ＬＰＣの情報も蓄積しており、フレーム間における量子化ＬＰＣの変動の特徴と現フレームにおける量子化ＬＰＣの特徴の双方を用いてモードの選択を行う。このモードは少なくとも２種類以上あり、例えば有声音声部に対応するモードと無声音声部および定常雑音部等に対応するモードから成る。また、モードの選択に用いる情報は量子化ＬＰＣそのものである必要はなく、量子化ＬＳＰや反射係数や線形予測残差パワなどのパラメータに変換したものを用いた方が効果的である。

加算器１０６は、前処理器１０１から入力される前処理後の入力データと合成信号との誤差を算出し、聴覚重みづけフィルタ１０７へ出力する。

聴覚重み付けフィルタ１０７は、加算器１０６において算出された誤差に対して聴覚的な重み付けを行って誤差最小化器１０８へ出力する。

誤差最小化器１０８は、雑音符号帳インデックスＳｉと適応符号帳インデックス（ピッチ周期）Ｐｉとゲイン符号帳インデックスＧｉとを調整しながら夫々雑音符号帳１０９と適応符号帳１１０とゲイン符号帳１１１とに出力し、聴覚重み付けフィルタ１０７から入力される聴覚的重み付けされた誤差が最小となるように雑音符号帳１０９と適応符号帳１１０とゲイン符号帳１１１とが生成する雑音符号ベクトルと適応符号ベクトルと雑音符号帳利得および適応符号帳利得とを夫々決定し、雑音符号ベクトルを表現する符号Ｓと適応符号ベクトルを表現するＰとゲイン情報を表現する符号Ｇを夫々復号器に出力する。

雑音符号帳１０９は、予め定められた個数の形状の異なる雑音符号ベクトルが格納されており、誤差最小化器１０８から入力される雑音符号ベクトルのインデックスＳｉによって指定される雑音符号ベクトルを出力する。また、この雑音符号帳１０９は少なくとも２種類以上のモードを有しており、例えば有声音声部に対応するモードではよりパルス的な雑音符号ベクトルを生成し、無声音声部や定常雑音部等に対応するモードではより雑音的な雑音符号ベクトルを生成するような構造となっている。雑音符号帳１０９から出力される雑音符号ベクトルは前記２種類以上のモードのうちモード選択器１０５で選択された１つのモードから生成され、乗算器１１２で雑音符号帳利得Ｇｓが乗じられた後に加算器１１４に出力される。

適応符号帳１１０は、過去に生成した駆動音源信号を逐次更新しながらバッファリングしており、誤差最小化器１０８から入力される適応符号帳インデックス（ピッチ周期（ピッチラグ））Ｐｉを用いて適応符号ベクトルを生成する。適応符号帳１１０にて生成された適応符号ベクトルは乗算器１１３で適応符号帳利得Ｇaが乗じられた後に加算器１１４に出力される。

ゲイン符号帳１１１は、適応符号帳利得Ｇａと雑音符号帳利得Ｇｓのセット（ゲインベクトル）を予め定められた個数だけ格納しており、誤差最小化器１０８から入力されるゲイン符号帳インデックスＧｉによって指定されるゲインベクトルの適応符号帳利得成分Ｇａを乗算器１１３に、雑音符号帳利得成分Ｇｓを乗算器１１２に夫々出力する。なお、ゲイン符号帳は多段構成とすればゲイン符号帳に要するメモリ量やゲイン符号帳探索に要する演算量の削減が可能である。また、ゲイン符号帳に割り当てられるビット数が十分であれば、適応符号帳利得と雑音符号帳利得とを独立してスカラ量子化することもできる。

加算器１１４は、乗算器１１２および１１３から入力される雑音符号ベクトルと適応符号ベクトルの加算を行って駆動音源信号を生成し、合成フィルタ１０４および適応符号帳１１０に出力する。

なお、本実施の形態においては、マルチモード化されているのは雑音符号帳１０９のみであるが、適応符号帳１１０およびゲイン符号帳１１１をマルチモード化することによってさらに品質改善を行うことも可能である。

次に図３を参照して上記実施の形態における音声符号化方法の処理の流れを示す。本説明においては、音声符号化処理を予め定められた時間長の処理単位（フレーム：時間長にして数十ミリ秒程度）毎に処理を行い、１フレームをさら整数個の短い処理単位（サブフレーム）毎に処理を行う例を示す。

ステップ３０１において、適応符号帳の内容、合成フィルタメモリ、入力バッファ等の全てのメモリをクリアする。

次に、ステップ３０２においてディジタル化された音声信号等の入力データを１フレーム分入力し、ハイパスフィルタまたはバンドパスフィルタ等をかけることによって入力データのオフセット除去や帯域制限を行う。前処理後の入力データは入力バッファにバッファリングされ、以降の符号化処理に用いられる。

次に、ステップ３０３において、ＬＰＣ分析（線形予測分析）が行われ、ＬＰＣ係数（線形予測係数）が算出される。

次に、ステップ３０４において、ステップ３０３にて算出されたＬＰＣ係数の量子化が行われる。ＬＰＣ係数の量子化方法は種々提案されているが、補間特性の良いＬＳＰパラメータに変換して多段ベクトル量子化やフレーム間相関を利用した予測量子化を適用すると効率的に量子化できる。また、例えば１フレームが２つのサブフレームに分割されて処理される場合には、第２サブフレームのＬＰＣ係数を量子化して、第１サブフレームのＬＰＣ係数は直前フレームにおける第２サブフレームの量子化ＬＰＣ係数と現フレームにおける第２サブフレームの量子化ＬＰＣ係数とを用いて補間処理によって決定する。

次に、ステップ３０５において、前処理後の入力データに聴覚重みづけを行う聴覚重みづけフィルタを構築する。

次に、ステップ３０６において、駆動音源信号から聴覚重み付け領域の合成信号を生成する聴覚重み付け合成フィルタを構築する。このフィルタは、合成フィルタと聴覚重み付けフィルタとを従属接続したフィルタであり、合成フィルタはステップ３０４にて量子化された量子化ＬＰＣ係数を用いて構築され、聴覚重み付けフィルタはステップ３０３において算出されたＬＰＣ係数を用いて構築される。

次に、ステップ３０７において、モードの選択が行われる。モードの選択はステップ３０４において量子化された量子化ＬＰＣ係数の動的および静的特徴を用いて行われる。具体的には、量子化ＬＳＰの変動や量子化ＬＰＣ係数から算出される反射係数や予測残差パワ等を用いる。本ステップにおいて選択されたモードに従って雑音符号帳の探索が行われる。本ステップにおいて選択されるモードは少なくとも２種類以上あり、例えば有声音声モードと無声音声および定常雑音モードの２モード構成等が考えられる。

次に、ステップ３０８において、適応符号帳の探索が行われる。適応符号帳の探索は、前処理後の入力データに聴覚重みづけを行った波形に最も近くなるような聴覚重みづけ合成波形が生成される適応符号ベクトルを探索することであり、前処理後の入力データをステップ３０５で構築された聴覚重み付けフィルタでフィルタリングした信号と適応符号帳から切り出した適応符号ベクトルを駆動音源信号としてステップ３０６で構築された聴覚重み付け合成フィルタでフィルタリングした信号との誤差が最小となるように、適応符号ベクトルを切り出す位置を決定する。

次に、ステップ３０９において、雑音符号帳の探索が行われる。雑音符号帳の探索は、前処理後の入力データに聴覚重みづけを行った波形に最も近くなるような聴覚重みづけ合成波形が生成される駆動音源信号を生成する雑音符号ベクトルを選択することであり、駆動音源信号が適応符号ベクトルと雑音符号ベクトルとを加算して生成されることを考慮した探索が行われる。したがって、既にステップ３０８にて決定された適応符号ベクトルと雑音符号帳に格納されている雑音符号ベクトルとを加算して駆動音源信号を生成し、生成された駆動音源信号をステップ３０６で構築された聴覚重みづけ合成フィルタでフィルタリングした信号と前処理後の入力データをステップ３０５で構築された聴覚重みづけフィルタでフィルタリングした信号との誤差が最小となるように、雑音符号帳の中から雑音符号ベクトルを選択する。なお、雑音符号ベクトルに対してピッチ周期化等の処理を行う場合は、その処理も考慮した探索が行われる。また、この雑音符号帳は少なくとも２種類以上のモードを有しており、例えば有声音声部に対応するモードではよりパルス的な雑音符号ベクトルを格納している雑音符号帳を用いて探索が行われ、無声音声部や定常雑音部等に対応するモードではより雑音的な雑音符号ベクトルを格納している雑音符号帳を用いて探索が行われる。探索時にどのモードの雑音符号帳を用いるかは、ステップ３０７にて選択される。

次に、ステップ３１０において、ゲイン符号帳の探索が行われる。ゲイン符号帳の探索は、既にステップ３０８にて決定された適応符号ベクトルとステップ３０９にて決定された雑音符号ベクトルのそれぞれに対して乗じる適応符号帳利得と雑音符号帳利得の組をゲイン符号帳の中から選択することであり、適応符号帳利得乗算後の適応符号ベクトルと雑音符号利得乗算後の雑音符号ベクトルとを加算して駆動音源信号を生成し、生成した駆動音源信号をステップ３０６にて構築された聴覚重みづけ合成フィルタでフィルタリングした信号と前処理後の入力データをステップ３０５で構築された聴覚重みづけフィルタでフィルタリングした信号との誤差が最小となるような適応符号帳利得と雑音符号帳利得の組をゲイン符号帳の中から選択する。

次に、ステップ３１１において、駆動音源信号が生成される。駆動音源信号は、ステップ３０８にて選択された適応符号ベクトルにステップ３１０にて選択された適応符号帳利得を乗じたベクトルと、ステップ３０９にて選択された雑音符号ベクトルにステップ３１０において選択された雑音符号帳利得を乗じたベクトルと、を加算して生成される。

次に、ステップ３１２において、サブフレーム処理のループで用いられるメモリの更新が行われる。具体的には、適応符号帳の更新や聴覚重みづけフィルタおよび聴覚重みづけ合成フィルタの状態更新等が行われる。

上記ステップ３０５〜３１２はサブフレーム単位の処理である。

次に、ステップ３１３において、フレーム処理のループで用いられるメモリの更新が行われる。具体的には、前処理器で用いられるフィルタの状態更新や量子化ＬＰＣ係数バッファの更新や入力データバッファの更新等が行われる。

次に、ステップ３１４において、符号化データの出力が行われる。符号化データは伝送される形態に応じてビットストリーム化や多重化処理等が行われて伝送路に送出される。

上記ステップ３０２〜３０４および３１３〜３１４がフレーム単位の処理である。また、フレーム単位およびサブフレーム単位の処理は入力データがなくなるまで繰り返し行われる。

（実施の形態２）
図２に本発明の実施の形態２にかかる音声復号化装置の構成を示す。

符号器から伝送された、量子化ＬＰＣを表現する符号Ｌと雑音符号ベクトルを表現する符号Ｓと適応符号ベクトルを表現する符号Ｐとゲイン情報を表現する符号Ｇとが、それぞれＬＰＣ復号器２０１と雑音符号帳２０３と適応符号帳２０４とゲイン符号帳２０５とに入力される。

ＬＰＣ復号器２０１は、符号Ｌから量子化ＬＰＣを復号し、モード選択器２０２と合成フィルタ２０９に夫々出力する。

モード選択器２０２は、ＬＰＣ復号器２０１から入力した量子化ＬＰＣを用いて雑音符号帳２０３および後処理器２１１のモードを決定し、モード情報Ｍを雑音符号帳２０３および後処理器２１１とに夫々出力する。なお、モード選択器２０２は過去に入力した量子化ＬＰＣの情報も蓄積しており、フレーム間における量子化ＬＰＣの変動の特徴と現フレームにおける量子化ＬＰＣの特徴の双方を用いてモードの選択を行う。このモードは少なくとも２種類以上あり、例えば有声音声部に対応するモードと無声音声部に対応するモードと定常雑音部等に対応するモードから成る。また、モードの選択に用いる情報は量子化ＬＰＣそのものである必要はなく、量子化ＬＳＰや反射係数や線形予測残差パワなどのパラメータに変換したものを用いた方が効果的である。

雑音符号帳２０３は、予め定められた個数の形状の異なる雑音符号ベクトルが格納されており、入力した符号Ｓを復号して得られる雑音符号帳インデックスによって指定される雑音符号ベクトルを出力する。また、この雑音符号帳２０３は少なくとも２種類以上のモードを有しており、例えば有声音声部に対応するモードではよりパルス的な雑音符号ベクトルを生成し、無声音声部や定常雑音部等に対応するモードではより雑音的な雑音符号ベクトルを生成するような構造となっている。雑音符号帳２０３から出力される雑音符号ベクトルは前記２種類以上のモードのうちモード選択器２０２で選択された１つのモードから生成され、乗算器２０６で雑音符号帳利得Ｇｓが乗じられた後に加算器２０８に出力される。

適応符号帳２０４は、過去に生成した駆動音源信号を逐次更新しながらバッファリングしており、入力した符号Ｐを復号して得られる適応符号帳インデックス（ピッチ周期（ピッチラグ））を用いて適応符号ベクトルを生成する。適応符号帳２０４にて生成された適応符号ベクトルは乗算器２０７で適応符号帳利得Ｇａが乗じられた後に加算器２０８に出力される。

ゲイン符号帳２０５は、適応符号帳利得Ｇａと雑音符号帳利得Ｇｓのセット（ゲインベクトル）を予め定められた個数だけ格納しており、入力した符号Ｇを復号して得られるゲイン符号帳インデックスによって指定されるゲインベクトルの適応符号帳利得成分Ｇａを乗算器２０７に、雑音符号帳利得成分Ｇｓを乗算器２０６に夫々出力する。

加算器２０８は、乗算器２０６および２０７から入力される雑音符号ベクトルと適応符号ベクトルの加算を行って駆動音源信号を生成し、合成フィルタ２０９および適応符号帳２０４に出力する。

合成フィルタ２０９は、入力した量子化ＬＰＣを用いてＬＰＣ合成フィルタを構築する。この合成フィルタに対して加算器２０８から出力される駆動音源信号を入力としてフィルタ処理を行って合成信号をポストフィルタ２１０に出力する。

ポストフィルタ２１０は、合成フィルタ２０９から入力した合成信号に対して、ピッチ強調、ホルマント強調、スペクトル傾斜補正、利得調整等の音声信号の主観的品質を改善させるための処理を行い、後処理器２１１に出力する。

後処理器２１１は、ポストフィルタ２１０から入力した信号に対して、振幅スペクトルのフレーム間平滑化処理、位相スペクトルのランダマイズ処理等の定常雑音部の主観品質の改善させるための処理を、モード選択器２０２から入力されるモード情報Ｍを利用して適応的に行う。例えば有声音声部や無声音声部に対応するモードでは前記平滑化処理やランダマイズ処理はほとんど行わず、定常雑音部等に対応するモードでは前記平滑化処理やランダマイズ処理を適応的に行う。後処理後の信号はディジタル化された復号音声信号等の出力データとして出力される。

なお、本実施の形態においては、モード選択器２０２から出力されるモード情報Ｍは、雑音符号帳２０３のモード切替と後処理器２１１のモード切替の双方で用いられる構成としたが、どちらか一方のみのモード切替に用いても効果が得られる。この場合、どちらか一方のみがマルチモード処理となる。

次に図４を参照して上記実施の形態における音声復号化方法の処理の流れを示す。本説明においては、音声符号化処理を予め定められた時間長の処理単位（フレーム：時間長にして数十ミリ秒程度）毎に処理を行い、１フレームをさら整数個の短い処理単位（サブフレーム）毎に処理を行う例を示す。

ステップ４０１において、適応符号帳の内容、合成フィルタメモリ、出力バッファ等の全てのメモリをクリアする。

次に、ステップ４０２において、符号化データが復号される。具体的には、多重化されている受信信号の分離化やビットストリーム化されている受信信号を量子化ＬＰＣ係数と適応符号ベクトルと雑音符号ベクトルとゲイン情報とを夫々表現する符号に夫々変換する。

次に、ステップ４０３において、ＬＰＣ係数を復号する。ＬＰＣ係数は、ステップ４０２にて得られた量子化ＬＰＣ係数を表現する符号から、実施の形態１に示したＬＰＣ係数の量子化方法の逆の手順によって復号される。

次に、ステップ４０４において、ステップ４０３にて復号されたＬＰＣ係数を用いて合成フィルタが構築される。

次に、ステップ４０５において、ステップ４０３にて復号されたＬＰＣ係数の静的および動的特徴を用いて、雑音符号帳および後処理のモード選択が行われる。具体的には、量子化ＬＳＰの変動や量子化ＬＰＣ係数から算出される反射係数や予測残差パワ等を用いる。本ステップにおいて選択されたモードに従って雑音符号帳の復号および後処理が行われる。このモードは少なくとも２種類以上あり、例えば有声音声部に対応するモードと無声音声部に対応するモードと定常雑音部等に対応するモードとから成る。

次に、ステップ４０６において、適応符号ベクトルが復号される。適応符号ベクトルは、適応符号ベクトルを表現する符号から適応符号ベクトルを適応符号帳から切り出す位置を復号してその位置から適応符号ベクトルを切り出すことによって、復号される。

次に、ステップ４０７において、雑音符号ベクトルが復号される。雑音符号ベクトルは、雑音符号ベクトルを表現する符号から雑音符号帳インデックスを復号してそのインデックスに対応する雑音符号ベクトルを雑音符号帳から取り出すことによって、復号される。雑音符号ベクトルのピッチ周期化等を適用する際は、さらにピッチ周期化等を行った後のものが復号雑音符号ベクトルとなる。また、この雑音符号帳は少なくとも２種類以上のモードを有しており、例えば有声音声部に対応するモードではよりパルス的な雑音符号ベクトルを生成し、無声音声部や定常雑音部等に対応するモードではより雑音的な雑音符号ベクトルを生成するようになっている。

次に、ステップ４０８において、適応符号帳利得と雑音符号帳利得が復号される。ゲイン情報を表す符号からゲイン符号帳インデックスを復号してこのインデックスで示される適応符号帳利得と雑音符号帳利得の組をゲイン符号帳の中から取り出すことによって、ゲイン情報が復号される。

次に、ステップ４０９において、駆動音源信号が生成される。駆動音源信号は、ステップ４０６にて選択された適応符号ベクトルにステップ４０８にて選択された適応符号帳利得を乗じたベクトルと、ステップ４０７にて選択された雑音符号ベクトルにステップ４０８において選択された雑音符号帳利得を乗じたベクトルと、を加算して生成される。

次に、ステップ４１０において、復号信号が合成される。ステップ４０９にて生成された駆動音源信号を、ステップ４０４にて構築された合成フィルタでフィルタリングすることによって、復号信号が合成される。

次に、ステップ４１１において、復号信号に対してポストフィルタ処理が行われる。ポストフィルタ処理は、ピッチ強調処理やホルマント強調処理やスペクトル傾斜補正処理や利得調整処理等の復号信号特に復号音声信号の主観的品質を改善するための処理から成っている。

次に、ステップ４１２において、ポストフィルタ処理後の復号信号に対して最終的な後処理が行われる。この後処理は、主に振幅スペクトルの（サブ）フレーム間平滑化処理や位相スペクトルのランダマイズ処理等の復号信号における定常雑音部分の主観的品質を改善するための処理から成っており、ステップ４０５にて選択されたモードに対応した処理を行う。例えば有声音声部や無声音声部に対応するモードでは前記平滑化処理やランダマイズ処理はほとんど行われず、定常雑音部等に対応するモードでは前記平滑化処理やランダマイズ処理が適応的に行われるようになっている。本ステップで生成される信号が出力データとなる。

次に、ステップ４１３において、サブフレーム処理のループで用いられるメモリの更新が行われる。具体的には、適応符号帳の更新やポストフィルタ処理に含まれる各フィルタの状態更新等が行われる。

上記ステップ４０４〜４１３はサブフレーム単位の処理である。

次に、ステップ４１４において、フレーム処理のループで用いられるメモリの更新が行われる。具体的には、量子化（復号）ＬＰＣ係数バッファの更新や出力データバッファの更新等が行われる。

上記ステップ４０２〜４０３および４１４はフレーム単位の処理である。また、フレーム単位の処理は符号化データがなくなるまで繰り返し行われる。

（実施の形態３）
図５は実施の形態１の音声符号化装置または実施の形態２の音声復号化装置を備えた音声信号送信機および受信機を示したブロック図である。図５（ａ）は送信機、図５（ｂ）は受信機を示す。

図５（ａ）の音声信号送信機では、音声が音声入力装置５０１によって電気的アナログ信号に変換され、Ａ／Ｄ変換器５０２に出力される。アナログ音声信号はＡ／Ｄ変換器５０２によってディジタル音声信号に変換され、音声符号化器５０３に出力される。音声符号化器５０３は音声符号化処理を行い、符号化した情報をＲＦ変調器５０４に出力する。ＲＦ変調器は符号化された音声信号の情報を変調・増幅・符号拡散等の電波として送出するための操作を行い、送信アンテナ５０５に出力する。最後に送信アンテナ５０５から電波（ＲＦ信号）５０６が送出される。

一方、図５（ｂ）の受信機においては、電波（ＲＦ信号）５０６を受信アンテナ５０７で受信し、受信信号はＲＦ復調器５０８に送られる。ＲＦ復調器５０８は符号逆拡散・復調等電波信号を符号化情報に変換するための処理を行い、符号化情報を音声復号化器５０９に出力する。音声復号化器５０９は、符号化情報の復号処理を行ってディジタル復号音声信号をＤ／Ａ変換器５１０へ出力する。Ｄ／Ａ変換器５１０は音声復号化器５０９から出力されたディジタル復号音声信号をアナログ復号音声信号に変換して音声出力装置５１１に出力する。最後に音声出力装置５１１が電気的アナログ復号音声信号を復号音声に変換して出力する。

上記送信装置および受信装置は携帯電話等の移動通信機器の移動機または基地局装置として利用することが可能である。なお、情報を伝送する媒体は本実施の形態に示したような電波に限らず、光信号などを利用することも可能であり、さらには有線の伝送路を使用することも可能である。

なお、上記実施の形態１に示した音声符号化装置および上記実施の形態２に示した音声復号化装置および上記実施の形態３に示した送信装置および送受信装置は、磁気ディスク、光磁気ディスク、ＲＯＭカートリッジ等の記録媒体にソフトウェアとして記録して実現することも可能であり、その記録媒体を使用することにより、このような記録媒体を使用するパーソナルコンピュータ等により音声符号化装置／復号化装置および送信装置／受信装置を実現することができる。

（実施の形態４）
実施の形態４は、上述した実施の形態１、２におけるモード選択器１０５、２０２の構成例を示した例である。

図６に実施の形態４にかかるモード選択器の構成を示す。

本実施の形態にかかるモード選択器は、量子化ＬＳＰパラメータの動的特徴を抽出する動的特徴抽出部６０１と、量子化ＬＳＰパラメータの静的特徴を抽出する第１、第２の静的特徴抽出部６０２、６０３とを備える。

動的特徴抽出部６０１は、ＡＲ型平滑化手段６０４に量子化ＬＳＰパラメータを入力して平滑化処理を行う。ＡＲ型平滑化手段６０４では、処理単位時間毎に入力される各次の量子化ＬＳＰパラメータを時系列データとして（１）式に示す平滑化処理を行う。

Ｌｓ[i]=(1-α)×Ｌｓ[i]+α×Ｌ[i], i=1,2,…,M、 0<α<1 …（１）
Ｌｓ[i]:ｉ次の平滑化量子化ＬＳＰパラメータ
Ｌ[i]：ｉ次の量子化ＬＳＰパラメータ
α：平滑化係数
Ｍ：ＬＳＰ分析次数
なお、（１）式において、αの値は0.7程度に設定し、それほど強い平滑化にならないようにする。上記（１）式で求めた平滑化した量子化ＬＳＰパラメータは遅延手段６０５を経由して加算器６０６へ入力されるものと直接加算器６０６へ入力されるものとに分岐される。

遅延手段６０５は、入力した平滑化した量子化ＬＳＰパラメータを１処理単位時間だけ遅延させて加算器６０６に出力する。

加算器６０６は、現在の処理単位時間における平滑化された量子化ＬＳＰパラメータと１つ前の処理単位時間における平滑化された量子化ＬＳＰパラメータとが入力される。この加算器６０６において、現在の処理単位時間における平滑化量子化ＬＳＰパラメータと１つ前の処理単位時間における平滑化量子化ＬＳＰパラメータとの差を算出する。この差はＬＳＰパラメータの各次数毎に算出される。加算器６０６による算出結果は２乗和算出手段６０７に出力する。

２乗和算出手段６０７は、現在の処理単位時間における平滑化された量子化ＬＳＰパラメータと１つ前の処理単位時間における平滑化された量子化ＬＳＰパラメータとの次数毎の差の２乗和を計算する。

動的特徴抽出部６０１では、ＡＲ型平滑化手段６０４と並列に遅延手段６０８にも量子化ＬＳＰパラメータを入力している。遅延手段６０８では、１処理単位時間だけ遅延させて、スイッチ６０９を介してＡＲ型平均値算出手段６１１に出力する。

スイッチ６０９は、遅延手段６１０から出力されるモード情報が雑音モードであった場合に閉じて、遅延手段６０８から出力される量子化ＬＳＰパラメータをＡＲ型平均値算出手段６１１へ入力するように動作する。

遅延手段６１０は、モード判定手段６２１から出力されるモード情報を入力し、１処理単位時間だけ遅延させて、スイッチ６０９へ出力する。

ＡＲ型平均値算出手段６１１は、ＡＲ型平滑化手段６０４と同様に（１）式に基づいて雑音区間における平均的ＬＳＰパラメータを算出し、加算器６１２に出力する。ただし、（１）式におけるαの値は、0.05程度とし、極めて強い平滑化処理を行うことによって、平均的なＬＳＰパラメータを算出する。

加算器６１２は、現在の処理単位時間における量子化ＬＳＰパラメータと、ＡＲ型平均値算出手段６１１によって算出された雑音区間における平均的量子化ＬＳＰパラメータとの差を各次数毎に算出し、２乗和算出手段６１３に出力する。

２乗和算出手段６１３は、加算器６１２から出力された量子化ＬＳＰパラメータの差分情報を入力し、各次数の２乗和を算出して、音声区間検出手段６１９に出力する。

以上の６０４から６１３までの要素によって、量子化ＬＳＰパラメータの動的特徴抽出部６０１が構成される。

第１の静的特徴抽出部６０２は、線形予測残差パワ算出手段６１４において量子化ＬＳＰパラメータから線形予測残差パワを算出する。また、隣接ＬＳＰ間隔算出手段６１５において、（２）式に示すように量子化ＬＳＰパラメータの隣接する次数毎に間隔を算出する。

Ｌd[i]=L[i+1]-L[i], i=1,2,…M-1 …（２）
L[i]：ｉ次の量子化ＬＳＰパラメータ
隣接ＬＳＰ間隔算出手段６１５の算出値は分散値算出手段６１６へ与えられる。分散値算出手段６１６は、隣接ＬＳＰ間隔算出手段６１５から出力された量子化ＬＳＰパラメータ間隔の分散値をする。分散値を算出する際、全てのＬＳＰパラメータ間隔データを用いずに、低域端（Ld[1]）のデータを除くことによって、最低域以外の部分に存在するスペクトルの山谷の特徴を反映することができる。低域が持ち上がっているような特性をもつ定常雑音に対して、ハイパスフィルタを通した場合、フィルタの遮断周波数付近にスペクトルの山が常にできるので、この様なスペクトルの山の情報を取り除く効果がある。

以上の６１４、６１５、６１６の要素によって、量子化ＬＳＰパラメータの第１の静的特徴抽出部６０２が構成される。

また、第２の静的特徴抽出部６０３では、反射係数算出手段６１７が量子化ＬＳＰパラメータを反射係数に変換して、有声／無声判定手段６２０に出力する。これとともに線形予測残差パワ算出手段６１８が、量子化ＬＳＰパラメータから線形予測残差パワを算出して、有声／無声判定手段６２０に出力する。

なお、線形予測残差パワ算出手段６１８は、線形予測残差パワ算出手段６１４と同じものなので、６１４と６１８は共用させることが可能である。

以上の６１７と６１８の要素によって、量子化ＬＳＰパラメータの第２の静的特徴抽出部６０３が構成される。

動的特徴抽出部６０１及び第１の静的特徴抽出部６０２の出力は音声区間検出手段６１９へ与えられる。音声区間検出手段６１９は、２乗和算出手段６０７から平滑化量子化ＬＳＰパラメータの変動量を入力し、２乗和算出手段６１３から雑音区間の平均的量子化ＬＳＰパラメータと現在の量子化ＬＳＰパラメータとの距離を入力し、線形予測残差パワ算出手段６１４から量子化線形予測残差パワを入力し、分散値算出手段６１６から隣接ＬＳＰ間隔データの分散情報を入力する。そして、これらの情報を用いて、現在の処理単位時間における入力信号（または復号信号）が音声区間であるか否かの判定を行い、判定結果をモード判定手段６２１に出力する。より具体的な音声区間か否かの判定方法は、図８を用いて後述する。

一方、第２の静的特徴抽出部６０３の出力は有声／無声判定手段６２０へ与えられる。有声／無声判定手段６２０は、反射係数算出手段６１７から入力した反射係数と、線形予測残差パワ算出手段６１８から入力した量子化線形予測残差パワとをそれぞれ入力する。そして、これらの情報を用いて、現在の処理単位時間における入力信号（または復号信号）が有声区間であるか無声区間であるかの判定を行い、判定結果をモード判定手段６２１に出力する。より具体的な有音／無音判定方法は、図９を用いて後述する。

モード判定手段６２１は、音声区間検出手段６１９から出力される判定結果と、有声／無声判定手段６２０から出力される判定結果とをそれぞれ入力し、これらの情報を用いて現在の処理単位時間における入力信号（または復号信号）のモードを決定して出力する。より具体的なモードの分類方法は図１０を用いて後述する。

なお、本実施の形態においては、平滑化手段や平均値算出手段にＡＲ型のものを用いたが、それ以外の方法を用いて平滑化や平均値算出を行うことも可能である。

次に、図８を参照して、上記実施の形態における音声区間判定方法の詳細について説明する。

まず、ステップ８０１において、第１の動的パラメータ（Para1）を算出する。第１の動的パラメータの具体的内容は、処理単位時間毎の量子化ＬＳＰパラメータの変動量であり、
（３）式に示されるものである。

次に、ステップ８０２において、第１の動的パラメータが予め定めてある閾値Ｔｈ１より大きいかどうかをチェックする。閾値Ｔｈ１を越えている場合は、量子化ＬＳＰパラメータの変動量が大きいので、音声区間であると判定する。一方、閾値Ｔｈ１以下の場合は、量子化ＬＳＰパラメータの変動量が小さいので、ステップ８０３に進み、さらに別のパラメータを用いた判定処理のステップに進んでゆく。

ステップ８０２において、第１の動的パラメータが閾値Ｔｈ１以下の場合は、ステップ８０３に進んで、過去にどれだけ定常雑音区間と判定されたかを示すカウンターの数をチェックする。カウンターは初期値が０で、本モード判定方法によって定常雑音区間であると判定された処理単位時間毎に１ずつインクリメントされる。ステップ８０３において、カウンターの数が、予め設定されている閾値ＴｈＣ以下の場合は、ステップ８０４に進み、静的パラメータを用いて音声区間か否かの判定を行う。一方、閾値ＴｈＣを越えている場合は、ステップ８０６に進み、第２の動的パラメータを用いて音声区間か否かの判定を行う。

ステップ８０４では２種類のパラメータを算出する。一つは量子化ＬＳＰパラメータから算出される線形予測残差パワであり（Para3）、もう一つは量子化ＬＳＰパラメータの隣接次数の差分情報の分散である（Para4）。線形予測残差パワは、量子化ＬＳＰパラメータを線形予測係数に変換し、Levinson-Durbinのアルゴリズムにある関係式を用いることにより、求めることができる。線形予測残差パワは有声部より無声部の方が大きくなる傾向が知られているので、有声／無声の判定基準として利用できる。量子化ＬＳＰパラメータの隣接次数の差分情報は（２）式に示したもので、これらのデータの分散を求める。ただし、雑音の種類や帯域制限のかけかたによっては、低域にスペクトルの山（ピーク）が存在するので、低域端の隣接次数の差分情報（（２）式において、ｉ＝１）は用いずに、（２）式において、ｉ＝２からＭ−１（Ｍは分析次数）までのデータを用いて分散を求める方が良い。音声信号においては、電話帯域（２００Ｈｚ〜３．４ｋＨｚ）内に３つ程度のホルマントを持つため、ＬＳＰの間隔が狭い部分と広い部分がいくつかあり、間隔のデータの分散が大きくなる傾向がある。一方、定常ノイズでは、ホルマント構造を持たないため、ＬＳＰの間隔は比較的等間隔であることが多く、前記分散は小さくなる傾向がある。この性質を利用して、音声区間か否かの判定を行うことが可能である。ただし、前述のように雑音の種類等によっては、低域にスペクトルの山（ピーク）をもつ場合があり、この様な場合は最も低域側のＬＳＰ間隔が狭くなるので、全ての隣接ＬＳＰ差分データを用いて分散を求めると、ホルマント構造の有無による差が小さくなり、判定精度が低くなる。したがって、低域端の隣接ＬＳＰ差分情報を除いて分散を求めることによって、この様な精度劣化を回避する。ただし、この様な静的パラメータは、動的パラメータに比べると判定能力が低いので、補助的な情報として用いるのが良い。ステップ８０４にて算出された２種類のパラメータはステップ８０５で用いられる。

次に、ステップ８０５において、ステップ８０４にて算出された２種類のパラメータを用いた閾値処理が行われる。具体的には線形予測残差パワ（Para3）が閾値Th3より小さく、かつ、隣接ＬＳＰ間隔データの分散（Para4）が閾値Th4より大きい場合に、音声区間と判定する。それ以外の場合は、定常雑音区間（非音声区間）と判定する。定常雑音区間と判定された場合は、カウンターの値を１増やす。

ステップ８０６においては、第２の動的パラメータ（Para2）が算出される。第２の動的パラメータは過去の定常雑音区間における平均的な量子化ＬＳＰパラメータと現在の処理単位時間における量子化ＬＳＰパラメータとの類似度を示すパラメータであり、具体的には（４）式に示したように、前記２種類の量子化ＬＳＰパラメータを用いて各次数毎に差分値を求め、２乗和を求めたものである。求められた第２の動的パラメータは、ステップ８０７にて閾値処理に用いられる。

次に、ステップ８０７において、第２の動的パラメータが閾値Th2を越えているかどうかの判定が行われる。閾値Th2を越えていれば、過去の定常雑音区間における平均的な量子化ＬＳＰパラメータとの類似度が低いので、音声区間と判定し、閾値Th2以下であれば、過去の定常雑音区間における平均的な量子化ＬＳＰパラメータとの類似度が高いので、定常雑音区間と判定する。定常雑音区間と判定された場合は、カウンターの値を１増やす。

次に、図９を参照して上記実施の形態における有声無声区間判定方法の詳細について説明する。

まず、ステップ９０１において、現在の処理単位時間における量子化ＬＳＰパラメータから１次の反射係数を算出する。反射係数は、ＬＳＰパラメータを線形予測係数に変換して算出される。

次に、ステップ９０２において、前記反射係数が第１の閾値Th1を越えているかどうかの判定が行われる。閾値Th1を越えていれば、現在の処理単位時間は無声区間であると判定して有声無声判定処理を終了し、閾値Th1以下であれば、さらに有声無声判定の処理を続ける。

ステップ９０２において無声と判定されなかった場合は、ステップ９０３において、前記反射係数が第２の閾値Th2を越えているかどうかの判定が行われる。閾値Th2を越えていれば、ステップ９０５に進み、閾値Th2以下であれば、ステップ９０４に進む。

ステップ９０３において、前記反射係数が第２の閾値Th2以下だった場合は、ステップ９０４において、前記反射係数が第３の閾値Th3を越えているかどうかの判定が行われる。閾値Th3を越えていれば、ステップ９０７に進み、閾値Th3以下であれば、有声区間と判定して有声無声判定処理を終了する。

ステップ９０３において、前記反射係数が第２の閾値Th2を越えた場合は、ステップ９０５において、線形予測残差パワが算出される。線形予測残差パワは、量子化ＬＳＰを線形予測係数に変換してから算出される。

ステップ９０５に続いて、ステップ９０６において、前記線形予測残差パワが閾値Th4を越えているかどうかの判定が行われる。閾値Th4を越えていれば、無声区間と判定して有声無声判定処理を終了し、閾値Th4以下であれば、有声区間と判定して有声無声判定処理を終了する。

ステップ９０４において、前記反射係数が第３の閾値Th3を越えた場合は、ステップ９０７において、線形予測残差パワが算出される。

ステップ９０７に続いて、ステップ９０８において、前記線形予測残差パワが閾値Th5を越えているかどうかの判定が行われる。閾値Th5を越えていれば、無声区間と判定して有声無声判定処理を終了し、閾値Th5以下であれば、有声区間と判定して有声無声判定処理を終了する。

次に図１０を参照して、モード判定手段６２１に用いられる、モード判定方法について説明する。

まず、ステップ１００１において、音声区間検出結果が入力される。本ステップは音声区間検出処理を行うブロックそのものであっても良い。

次に、ステップ１００２において、音声区間であるか否かの判定結果に基づいて定常雑音モードと判定するか否かが決定される。音声区間である場合は、ステップ１００３に進み、音声区間でない（定常雑音区間である）場合には、定常雑音モードであるというモード判定結果を出力して、モード判定処理を終了する。

ステップ１００２において、定常雑音区間モードではないと判定された場合は、続いてステップ１００３において、有声無声判定結果の入力が行われる。本ステップは有声無声判定処理を行うブロックそのものであっても良い。

ステップ１００３に続いて、ステップ１００４において、有声無声判定結果に基づいて有声区間モードであるか、無声区間モードであるか、のモード判定が行われる。有声区間である場合には、有声区間モードであるというモード判定結果を出力してモード判定処理を終了し、無声区間である場合には、無声区間モードであるというモード判定結果を出力してモード判定処理を終了する。以上のように、音声区間検出結果と有声無声判定結果とを用いて、現在の処理単位ブロックにおける入力信号（または復号信号）のモードを３つのモードに分類する。

（実施の形態５）
図７に本発明の実施の形態５にかかる後処理器の構成を示す。本後処理器は、実施の形態４に示したモード判定器と組合わせて、実施の形態２に示した音声信号復号装置にて使用するものである。同図に示す後処理器は、モード切替スイッチ７０５、７０８、７０７、７１１、振幅スペクトル平滑化手段７０６、位相スペクトルランダム化手段７０９、７１０、閾値設定手段７０３、７１６をそれぞれ備える。

重み付け合成フィルタ７０１は、前記音声復号装置のＬＰＣ復号器２０１から出力される復号ＬＰＣを入力して聴覚重み付け合成フィルタを構築し、を前記音声復号装置の合成フィルタ２０９またはポストフィルタ２１０から出力される合成音声信号に対して重み付けフィルタ処理を行い、ＦＦＴ処理手段７０２に出力する。

ＦＦＴ処理手段７０２は、重み付け合成フィルタ７０１から出力された重み付け処理後の復号信号のＦＦＴ処理を行い、振幅スペクトルWSAiを第１の閾値設定手段７０３と第１の振幅スペクトル平滑化手段７０６と第１の位相スペクトルランダム化手段７０９とに、それぞれ出力する。

第１の閾値設定手段７０３は、ＦＦＴ処理手段７０２にて算出された振幅スペクトルの平均値を全周波数成分を用いて算出し、この平均値を基準として閾値Th1を、第1の振幅スペクトル平滑化手段７０６と第１の位相スペクトルランダム化手段７０９とに、それぞれ出力する。

ＦＦＴ処理手段７０４は、前記音声復号装置の合成フィルタ２０９またはポストフィルタ２１０から出力される合成音声信号のＦＦＴ処理を行い、振幅スペクトルを、モード切換スイッチ７０５、７１２、加算器７１５、第２の位相スペクトルランダム化手段７１０に、位相スペクトルを、モード切換スイッチ７０８に、それぞれ出力する。

モード切替スイッチ７０５は、前記音声復号装置のモード選択器２０２から出力されるモード情報（Mode）と、前記加算器７１５から出力される差分情報（Diff）と、を入力して、現在の処理単位時間における復号信号が音声区間か定常雑音区間かの判定を行い、音声区間と判定した場合は、モード切換スイッチ７０７に接続し、定常雑音区間と判定した場合は、第１の振幅スペクトル平滑化手段７０６に接続する。

第１の振幅スペクトル平滑化手段７０６は、モード切換スイッチ７０５を介して、ＦＦＴ処理手段７０４から振幅スペクトルSAiを入力し、別途入力した第１の閾値Th1と重み付け振幅スペクトルWSAiとによって決定される周波数成分に対して平滑化処理を行い、モード切換スイッチ７０７に出力する。平滑化する周波数成分の決定方法は、重み付け振幅スペクトルWSAiが第１の閾値Th1以下であるかどうかによって、決定される。即ち、WSAiがTh1以下である周波数成分iに対してのみ平滑化処理が行われる。この平滑化処理によって、定常雑音区間における、符号化歪みに起因する振幅スペクトルの時間的不連続性が緩和される。この平滑化処理を、例えば（１）式の様なＡＲ型で行った場合の係数αは、ＦＦＴ点数１２８点、処理単位時間１０ｍｓの場合で、0.1程度に設定できる。

モード切換スイッチ７０７は、モード切換スイッチ７０５と同様にして、前記音声復号装置のモード選択器２０２から出力されるモード情報（Mode）と、前記加算器７１５から出力される差分情報（Diff）と、を入力して、現在の処理単位時間における復号信号が音声区間か定常雑音区間かの判定を行い、音声区間と判定した場合は、モード切換スイッチ７０５に接続し、定常雑音区間と判定した場合は、第１の振幅スペクトル平滑化手段７０６に接続する。前記判定結果は、モード切換スイッチ７０５の判定結果と同一である。モード切換スイッチ７０７の他端はＩＦＦＴ処理手段７２０に接続されている。

モード切換スイッチ７０８は、モード切換スイッチ７０５と連動して切り替わるスイッチであり、前記音声復号装置のモード選択器２０２から出力されるモード情報（Mode）と、前記加算器７１５から出力される差分情報（Diff）と、を入力して、現在の処理単位時間における復号信号が音声区間か定常雑音区間かの判定を行い、音声区間と判定した場合は、第２の位相スペクトルランダム化手段７１０に接続し、定常雑音区間と判定した場合は、第１の位相スペクトルランダム化手段７０９に接続する。前記判定結果は、モード切換スイッチ７０５の判定結果と同一である。即ち、モード切換スイッチ７０５が第１の振幅スペクトル平滑化手段７０６に接続されている場合は、モード切換スイッチ７０８は第１の位相スペクトルランダム化手段７０９に接続されており、モード切換スイッチ７０５がモード切換スイッチ７０７に接続されている場合は、モード切換スイッチ７０８は第２の位相スペクトルランダム化手段７１０に接続されている。

第１の位相ランダム化手段７０９は、モード切換スイッチ７０８を介して、ＦＦＴ処理手段７０４から出力される位相スペクトルSPiを入力し、別途入力した第１の閾値Th1と重み付け振幅スペクトルWSAiとによって決定される周波数成分に対してランダム化処理を行い、モード切換スイッチ７１１に出力する。ランダム化する周波数成分の決定方法は、前記第１の振幅スペクトルの平滑化手段７０６において平滑化を行う周波数成分を決定する方法と同一である。即ち、WSAiがTh1以下である周波数成分iに対してのみ位相スペクトルSPiのランダム化処理が行われる。

第２の位相スペクトルランダム化手段７１０は、モード切換スイッチ７０８を介して、ＦＦＴ処理手段７０４から出力される位相スペクトルSPiを入力し、別途入力した第２の閾値Th2iと振幅スペクトルSAiとによって決定される周波数成分に対してランダム化処理を行い、モード切換スイッチ７１１に出力する。ランダム化する周波数成分の決定方法は、前記第１の位相スペクトルランダム化手段７０９と同様である。即ち、SAiがTh2i以下である周波数成分iに対してのみ位相スペクトルSPiのランダム化処理が行われる。

モード切換スイッチ７１１は、モード切換スイッチ７０７と連動しており、モード切換スイッチ７０７と同様にして、前記音声復号装置のモード選択器２０２から出力されるモード情報（Mode）と、前記加算器７１５から出力される差分情報（Diff）と、を入力して、現在の処理単位時間における復号信号が音声区間か定常雑音区間かの判定を行い、音声区間と判定した場合は、第２の位相スペクトルランダム化手段７１０に接続し、定常雑音区間と判定した場合は、第１の位相スペクトルランダム化手段７０９に接続する。前記判定結果は、モード切換スイッチ７０８の判定結果と同一である。モード切換スイッチ７１１の他端はＩＦＦＴ処理手段７２０に接続されている。

モード切換スイッチ７１２は、モード切換スイッチ７０５と同様にして、前記音声復号装置のモード選択器２０２から出力されるモード情報（Mode）と、前記加算器７１５から出力される差分情報（Diff）と、を入力して、現在の処理単位時間における復号信号が音声区間か定常雑音区間かの判定を行い、音声区間でない（定常雑音区間である）と判定した場合は、スイッチを接続して、第２の振幅スペクトル平滑化手段７１３に、ＦＦＴ処理手段７０４から出力される振幅スペクトルSAiを出力する。音声区間と判定した場合は、モード切換スイッチ７１２は、開放され、第２の振幅スペクトル平滑化手段７１３に、振幅スペクトルSAiは出力されない。

第２の振幅スペクトル平滑化手段７１３は、モード切替スイッチ７１２を介して、ＦＦＴ処理手段７０４から出力される振幅スペクトルSAiを入力し、全周波数帯域成分について平滑化処理を行う。この平滑化処理によって、定常雑音区間における平均的な振幅スペクトルが得られる。この平滑化処理は、第１の振幅スペクトル平滑化手段７０６で行われる処理と同様である。また、モード切換スイッチ７１２が開放されている時は、本手段において処理は行われず、最後に処理が行われたときの定常雑音区間の平滑化振幅スペクトルSSAiが出力される。第２の振幅スペクトル平滑化処理手段７１３によって平滑化された振幅スペクトルSSAiは遅延手段７１４、第２の閾値設定手段７１６、モード切換スイッチ７１８、にそれぞれ出力される。

遅延手段７１４は、第２の振幅スペクトル平滑化手段７１３から出力されるSSAiを入力し、１処理単位時間だけ遅延させて、加算器７１５に出力する。

加算器７１５は、１処理単位時間前の定常雑音区間平滑化振幅スペクトルSSAiと現在の処理単位時間における振幅スペクトルSAiとの距離Diffを算出し、モード切換スイッチ７０５、７０７、７０８、７１１、７１２、７１８、７１９、にそれぞれ出力する。

第２の閾値設定手段７１６は、第２の振幅スペクトル平滑化手段７１３から出力される、定常雑音区間平滑化振幅スペクトルSSAiを基準として閾値Th2iを設定して、第２の位相スペクトルランダム化手段７１０に出力する。

ランダム位相スペクトル生成手段７１７は、ランダムに生成した位相スペクトルを、モード切換スイッチ７１９に出力する。

モード切換スイッチ７１８は、モード切換スイッチ７１２と同様にして、前記音声復号装置のモード選択器２０２から出力されるモード情報（Mode）と、前記加算器７１５から出力される差分情報（Diff）と、を入力して、現在の処理単位時間における復号信号が音声区間か定常雑音区間かの判定を行い、音声区間であると判定した場合は、スイッチを接続して、第２の振幅スペクトル平滑化手段７１３の出力を、ＩＦＦＴ処理手段７２０に出力する。音声区間でない（定常雑音区間である）と判定した場合は、モード切換スイッチ７１８は、開放され、第２の振幅スペクトル平滑化手段７１３の出力は、ＩＦＦＴ処理手段７２０に出力されない。

モード切換スイッチ７１９は、モード切換スイッチ７１８と連動して切り替わり、モード切換スイッチ７１８と同様にして、前記音声復号装置のモード選択器２０２から出力されるモード情報（Mode）と、前記加算器７１５から出力される差分情報（Diff）と、を入力して、現在の処理単位時間における復号信号が音声区間か定常雑音区間かの判定を行い、音声区間であると判定した場合は、スイッチを接続して、ランダム位相生成手段７１７の出力を、ＩＦＦＴ処理手段７２０に出力する。音声区間でない（定常雑音区間である）と判定した場合は、モード切換スイッチ７１９は、開放され、ランダム位相生成手段７１７の出力は、ＩＦＦＴ処理手段７２０に出力されない。

ＩＦＦＴ処理手段７２０は、モード切換スイッチ７０７から出力される振幅スペクトルと、モード切換スイッチ７１１から出力される位相スペクトルと、モード切換スイッチ７１８から出力される振幅スペクトルと、モード切換スイッチ７１９から出力される位相スペクトルと、を夫々入力して、逆ＦＦＴ処理を行い、後処理後の信号を出力する。モード切換スイッチ７１８、７１９が開放されている場合は、モード切換スイッチ７０７から入力される振幅スペクトルと、モード切換スイッチ７１１から入力される位相スペクトルとを、ＦＦＴの実部スペクトルと虚部スペクトルとに変換し、逆ＦＦＴ処理を行い、結果の実部を時間信号として出力する。一方、モード切換スイッチ７１８、７１７が接続されている場合は、モード切換スイッチ７０７から入力される振幅スペクトルと、モード切換スイッチ７１１から入力される位相スペクトルとを、第１の実部スペクトルと第１の虚部スペクトルに変換したものに加えて、モード切換スイッチ７１８から入力される振幅スペクトルと、モード切換スイッチ７１９から入力される位相スペクトルとを、第２の実部スペクトルと第２の虚部スペクトルとに変換したものを加算して、逆ＦＦＴ処理を行う。即ち、第１の実部スペクトルと第２の実部スペクトルとを加算したものを第３の実部スペクトルとし、第１の虚部スペクトルと第２の虚部スペクトルとを加算したものを第３の虚部スペクトルとすると、第３の実部スペクトルと第３の虚部スペクトルとを用いて逆ＦＦＴ処理を行う。前記スペクトルの加算時には、第２の実部スペクトルおよび第２の虚部スペクトルは、定数倍あるいは適応的に制御される変数によって減衰される。例えば、前記スペクトルの加算において、第２の実部スペクトルは0.25倍された後に、第１の実部スペクトルと加算され、第２の虚部スペクトルは0.25倍された後に、第１の虚部スペクトルと加算されて、第３の実部スペクトルおよび第３の虚部スペクトルが夫々得られる。

次に、図１１及び図１２を用いて前記後処理方法について説明する。図１１は本実施の形態における後処理方法の具体的処理を示した流れ図を示している。

まず、ステップ１１０１において、聴覚重み付けをした入力信号（復号音声信号）のＦＦＴ対数振幅スペクトル（WSAi）を計算する。

次に、ステップ１１０２において、第１の閾値Th1を計算する。Th1は、WSAiの平均値に定数ｋ１を加えたものである。ｋ１の値は経験的に決定し、例えば、常用対数領域で0.4程度である。ＦＦＴ点数をＮとし、ＦＦＴ振幅スペクトルをWSAi（ｉ＝1,2,...Ｎ）とすると、WSAiはｉ＝Ｎ／２とｉ＝Ｎ／２＋１を境に対称となるので、Ｎ／２本のWSAiの平均値を計算すれば、WSAiの平均値を求められる。

次に、ステップ１１０３において、聴覚重み付けをしない入力信号（復号音声信号）のＦＦＴ対数振幅スペクトル（SAi）とＦＦＴ位相スペクトル（SPi）を計算する。

次に、ステップ１１０４において、スペクトル変動（Diff）を計算する。スペクトル変動は、過去に定常雑音区間と判定された区間における平均的なＦＦＴ対数振幅スペクトル（SSAi）を現在のＦＦＴ対数振幅スペクトル（SAi）から減じて、得られた残差スペクトルの総和である。本ステップにおいて求められるスペクトル変動（Diff）は、現在のパワが定常雑音区間の平均的なパワと比較して大きくなっていないかどうかを判定するためのパラメータで、大きくなっていれば、定常雑音成分とは異なる信号が存在する区間であり、定常雑音区間ではないと判断できる。

次に、ステップ１１０５において、過去に定常雑音区間と判定された回数を示すカウンタをチェックする。カウンタの数が、一定値以上、即ち過去にある程度安定して定常雑音区間であると判定されている場合は、ステップ１１０７に進み、そうでない場合、即ち過去に定常雑音区間であると判定されたことがあまりない場合は、ステップ１１０６に進む。ステップ１１０６とステップ１１０７との違いは、スペクトル変動（Diff）を判定基準に用いるか用いないかの違いである。スペクトル変動（Diff）は過去に定常雑音区間と判定された区間における平均的なＦＦＴ対数振幅スペクトル（SSAi）を用いて算出される。この様な平均的なＦＦＴ対数振幅スペクトル（SSAi）を求めるには、過去にある程度十分な時間長の定常的雑音区間が必要となるため、ステップ１１０５を設けて、過去に十分な時間長の定常的雑音区間がない場合は、雑音区間の平均的ＦＦＴ対数振幅スペクトル（SSAi）が十分平均化されていないと考えられるため、スペクトル変動（Diff）を用いないステップ１１０６に進むようにしている。カウンタの初期値は０である。

次に、ステップ１１０６またはステップ１１０７において、定常雑音区間か否かの判定が行われる。ステップ１１０６では、音声復号装置においてすでに決定されている音源モードが定常雑音区間モードである場合を定常雑音区間と判定し、ステップ１１０７では、音声復号装置において既に決定されている音源モードが定常雑音区間モードでかつ、ステップ１１０４で計算された振幅スペクトル変動（Diff）が閾値ｋ３以下である場合を定常雑音区間と判定する。ステップ１１０６またはステップ１１０７において、定常雑音区間であると判定された場合は、ステップ１１０８へ進み、定常雑音区間でない、即ち音声区間であると判定された場合は、ステップ１１１３へ進む。

定常雑音区間であると判定された場合は、次に、ステップ１１０８において、定常雑音区間の平均的ＦＦＴ対数スペクトル（SSAi）を求めるための平滑化処理が行われる。ステップ１１０８の式において、βは0.0〜1.0の範囲の平滑化の強さを示す定数で、ＦＦＴ点数１２８点、処理単位時間１０ｍｓ（８ｋＨｚサンプリングで８０点）の場合には、β=0.1程度で良い。この平滑化処理は、全ての対数振幅スペクトル（SAi，ｉ＝1,…N，NはＦＦＴ点数）について行われる。

次に、ステップ１１０９において、定常雑音区間の振幅スペクトルの変動を滑らかにするためのＦＦＴ対数振幅スペクトルの平滑化処理が行われる。この平滑化処理は、ステップ１１０８の平滑化処理と同様だが、全ての対数振幅スペクトル（SAi）について行うのではなく、聴覚重み付け対数振幅スペクトル（WSAi）が閾値Ｔｈ１より小さい周波数成分ｉについてのみ行われる。ステップ１１０９の式におけるγは、ステップ１１０８におけるβと同様であり、同じ値でも良い。ステップ１１０９にて、部分的に平滑化された対数振幅スペクトルSSA2iが得られる。

次に、ステップ１１１０おいて、ＦＦＴ位相スペクトルのランダム化処理が行われる。このランダム化処理は、ステップ１１０９の平滑化処理と同様に、周波数選択的に行われる。即ち、ステップ１１０９と同様に、聴覚重み付け対数振幅スペクトル（WSAi）が閾値Th1より小さい周波数成分ｉについてのみ行われる。ここで、Th1はステップ１１０９と同じ値で良いが、より良い主観品質が得られるように調整された異なる値に設定しても良い。また、ステップ１１１０におけるrandom(i)は乱数的に生成した−２π〜＋２πの範囲の数値である。random(i)の生成は、毎回新たに乱数を生成しても良いが、演算量を節約する場合は、予め生成した乱数をテーブルに保持しておき、処理単位時間毎に、テーブルの内容を巡回させて利用することも可能である。この場合、テーブルの内容をそのまま利用する場合と、テーブルの内容をオリジナルのＦＦＴ位相スペクトルに加算して用いる場合とが考えられる。

次に、ステップ１１１１において、ＦＦＴ対数振幅スペクトルとＦＦＴ位相スペクトルとから、複素ＦＦＴスペクトルを生成する。実部はＦＦＴ対数振幅スペクトルSSA2iを対数領域から線形領域に戻した後に、位相スペクトルRSP2iの余弦を乗じて求められる。虚部はＦＦＴ対数振幅スペクトルSSA2iを対数領域から線形領域に戻した後に、位相スペクトルRSP2iの正弦を乗じて求められる。

次に、ステップ１１１２において、定常雑音区間と判定された区間のカウンタを１増やす。

一方、ステップ１１０６または１１０７において、音声区間（定常雑音区間ではない）と判定された場合は、次に、ステップ１１１３において、ＦＦＴ対数振幅スペクトルSAiが平滑化対数スペクトルSSA2iにコピーされる。即ち、対数振幅スペクトルの平滑化処理は行わない。

次に、ステップ１１１４において、ＦＦＴ位相スペクトルのランダム化処理が行われる。このランダム化処理は、ステップ１１１０の場合と同様にして、周波数選択的に行われる。ただし、周波数選択に用いる閾値はTh1ではなく、過去にステップ１１０８で求められているSSAiに定数ｋ４を加えたものを用いる。この閾値は図７における第２の閾値Th2iに相当する。即ち、定常雑音区間における平均的な振幅スペクトルより小さい振幅スペクトルになっている周波数成分のみ、位相スペクトルのランダム化を行う。

次に、ステップ１１１５において、ＦＦＴ対数振幅スペクトルとＦＦＴ位相スペクトルとから、複素ＦＦＴスペクトルを生成する。実部はＦＦＴ対数振幅スペクトルSSA2iを対数領域から線形領域に戻した後に、位相スペクトルRSP2iの余弦を乗じたものと、ＦＦＴ対数振幅スペクトルSSAiを対数領域から線形領域に戻した後に、位相スペクトルrandom2(i)の余弦を乗じたものに、定数ｋ５を乗じたものと、を加算して求められる。虚部はＦＦＴ対数振幅スペクトルSSA2iを対数領域から線形領域に戻した後に、位相スペクトルRSP2iの正弦を乗じたものと、ＦＦＴ対数振幅スペクトルSSAiを対数領域から線形領域に戻した後に、位相スペクトルrandom2(i)の正弦を乗じたものに、定数ｋ５を乗じたものと、を加算して求められる。定数ｋ５は0.0〜1.0の範囲で、より具体的には、0.25程度に設定される。なお、ｋ５は適応的に制御された変数でも良い。ｋ５倍した、平均的な定常雑音を重畳することによって、音声区間における背景定常雑音の主観的品質が向上できる。random2(i)は、random(i)と同様の乱数である。

次に、ステップ１１１６において、ステップ１１１１または１１１５にて生成された複素ＦＦＴスペクトル（Re(S2)i、Im(S2)i）の逆ＦＦＴを行い、複素数（Re(s2)i、Im(s2)i）を得る。

最後に、ステップ１１１７において、逆ＦＦＴによって得られた複素数の実部Re(s2)iを出力信号として出力する。

本発明の実施の形態１における音声符号化装置の構成を示すブロック図本発明の実施の形態２における音声復号化装置の構成を示すブロック図本発明の実施の形態１における音声符号化処理の流れを示す流れ図本発明の実施の形態２における音声復号化処理の流れを示す流れ図本発明の実施の形態３における音声信号送信装置および受信装置の構成を示すブロック図本発明の実施の形態４におけるモード選択器の構成を示すブロック図本発明の実施の形態５におけるマルチモード後処理器の構成を示すブロック図本発明の実施の形態４における前段のモード選択処理の流れを示す流れ図本発明の実施の形態４における後段のモード選択処理の流れを示す流れ図本発明の実施の形態４におけるモード選択処理の全体の流れを示す流れ図本発明の実施の形態５における前段のモード選択処理の流れを示す流れ図本発明の実施の形態５における後段のモード選択処理の流れを示す流れ図従来の音声符号化装置の構成を示すブロック図

１０３ＬＰＣ量子化器
１０４合成フィルタ
１０５モード選択器
１０９雑音符号帳
１１０適応符号帳
１１１ゲイン符号帳
２０１ＬＰＣ復号器
２０２モード選択器
２０９合成フィルタ
２１０ポストフィルタ
５０１音声入力装置
５０３音声符号化器
５０９音声復号化器
５１１音声出力装置
６０１動的特徴抽出部
６０２静的特徴抽出部
６０４ＡＲ型平滑化手段
６０９スイッチ
６１１ＡＲ型平均値算出手段
６１４線形予測残差パワ算出手段
６１５隣接ＬＳＰ間隔算出手段
６１６分散値算出手段
６１７反射係数算出手段
６１８線形予測残差パワ算出手段
６１９音声区間検出手段
６２０有声／無声判定手段
６２１モード判定手段
７０２ＦＦＴ処理手段
７０３第１の閾値設定手段
７０５モード切換スイッチ
７０６第１の振幅スペクトル平滑化手段
７０７、７０８モード切換スイッチ
７０９第１の位相スペクトルランダム化手段
７１０第２の位相スペクトルランダム化手段
７１１、７１２モード切換スイッチ
７１３第２の振幅スペクトル平滑化手段
７１６第２の閾値設定手段
７１７ランダム位相スペクトル生成手段
７１８、７１９モード切換スイッチ
７２０逆ＦＦＴ処理手段

Claims

過去に定常雑音区間と判定された区間におけるＦＦＴ対数振幅スペクトルの平均値を現在のＦＦＴ対数振幅スペクトルから減じて得られた残差スペクトルの総和であるスペクトル変動量を算出するスペクトル変動算出手段と、
入力信号が定常雑音区間か否かを判定するモード判定手段と、
前記モード判定手段において定常雑音区間と判定された区間について、前記現在のＦＦＴ対数振幅スペクトルと、前記過去に定常雑音区間と判定された区間におけるＦＦＴ対数振幅スペクトルの平均値に基づいて、現在のＦＦＴ対数振幅スペクトルの平均値を算出するスペクトル平滑化手段と、
前記モード判定手段において定常雑音区間と判定された回数を保持するカウンターと、
を備え、
前記モード判定手段は、
前記カウンターの値が所定の値を超える場合には、前記スペクトル変動量を判定基準に用い、音声復号装置においてすでに決定されている音源モードが定常雑音区間モードで、かつ、前記スペクトル変動量が所定の閾値以下である場合を定常雑音区間と判定し、
前記カウンターの値が前記所定の値以下の場合には、前記スペクトル変動量を判定基準に用いず、前記音声復号装置においてすでに決定されている音源モードが定常雑音区間モードである場合を定常雑音区間と判定する、
スペクトルパラメータ平滑化装置。
過去に定常雑音区間と判定された区間におけるＦＦＴ対数振幅スペクトルの平均値を現在のＦＦＴ対数振幅スペクトルから減じて得られた残差スペクトルの総和であるスペクトル変動量を算出するスペクトル変動算出ステップと、
入力信号が定常雑音区間か否かを判定するモード判定ステップと、
前記モード判定ステップにおいて定常雑音区間と判定された区間について、前記現在のＦＦＴ対数振幅スペクトルと、前記過去に定常雑音区間と判定された区間におけるＦＦＴ対数振幅スペクトルの平均値に基づいて、現在のＦＦＴ対数振幅スペクトルの平均値を算出するスペクトル平滑化ステップと、
前記モード判定ステップにおいて定常雑音区間と判定された回数をカウンターに保持するカウントステップと、
を備え、
前記モード判定ステップでは、前記カウンターの値が所定の値を超える場合には前記スペクトル変動量を判定基準に用い、音声復号装置においてすでに決定されている音源モードが定常雑音区間モードで、かつ、前記スペクトル変動量が所定の閾値以下である場合を定常雑音区間と判定し、
前記カウンターの値が前記所定の値以下の場合には前記スペクトル変動量を判定基準に用いず、前記音声復号装置においてすでに決定されている音源モードが定常雑音区間モードである場合を定常雑音区間と判定する、
スペクトルパラメータ平滑化方法。