JP2001083996A

JP2001083996A - 音声信号復号方法及び音声信号符号化復号方法

Info

Publication number: JP2001083996A
Application number: JP25707599A
Authority: JP
Inventors: Atsushi Murashima; 淳村島
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1999-09-10
Filing date: 1999-09-10
Publication date: 2001-03-30
Anticipated expiration: 2019-09-10
Also published as: DE60028310D1; US7031913B1; JP3417362B2; EP1083548A2; EP1083548B1; EP1083548A3; CA2317969C; EP1688918A1; CA2317969A1; DE60028310T2

Abstract

(57)【要約】【課題】励振信号により線形予測係数で構成するフィ
ルタを駆動することによって音声信号を生成する音声信
号復号装置において、背景雑音音声に対する再生音声品
質を改善する。【解決手段】励振信号正規化回路２５１０は、励振ベ
クトルからノルムを計算し、前記励振ベクトルを前記ノ
ルムにより除算する。平滑化回路１３２０は、雑音区間
において前記ノルムを過去に得られた前記ノルムを用い
て平滑化する。励振信号復元回路２６１０は、前記ノル
ムにより除算された前記励振ベクトルと、平滑化された
前記ノルムと、を乗算し、短時間平均パワーが平滑化さ
れた励振ベクトルを生成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声信号を低ビッ
トレートでするための符号化および復号方法に関し、特
に、雑音区間での音質を改善する音声信号復号方法、音
声信号符号化復号方法に関する。

【０００２】

【従来の技術】音声信号を中低ビットレートで高能率に
符号化する方法として、音声信号を線形予測フィルタと
その駆動励振信号（励振信号、励振ベクトル）に分離し
て符号化する方法が広く用いられている。その代表的な
方法の一つにCELP（Code Excited Linear Prediction）
がある。CELPでは、入力音声の周波数特性を表す線形予
測係数が設定された線形予測フィルタを、音声のピッチ
周期を表すピッチ信号（ピッチベクトル）と乱数やパル
スから成る音源信号（音源ベクトル）との和で表される
励振信号（励振ベクトル）により駆動することで、合成
音声信号（再生信号、再生ベクトル）が得られる。この
とき、前記ピッチ信号と前記音源信号には各々ゲイン
（ピッチゲインと音源ゲイン）を乗ずる。CELPに関して
はM. Schroederらによる「Code excited linear predic
tion: High quality speech at verylow bit rates」
（Proc. of IEEE Int. Conf. on Acoust., Speech and
SignalProcessing, pp.937-940, 1985）（文献１）を参
照できる。

【０００３】携帯電話などの移動体通信技術では、繁華
街の雑踏や走行中の自動車内に代表される雑音環境下で
の良好な通話品質が要求される。しかしながら、CELPを
ベースとした音声符号化技術では、雑音が重畳した音声
（背景雑音音声）に対する音質が著しく劣化することが
問題となっている。

【０００４】背景雑音音声の符号化音声品質改善に関し
ては、復号器において音源ゲインを平滑化する方法が提
案されている。この方法では、音源ゲインの平滑化によ
って、前記音源ゲインを乗じた音源信号の短時間平均パ
ワーの時間変化が滑らかになり、その結果、励振信号の
短時間平均パワーの時間変化も平滑化される。これによ
り、劣化要因のひとつである、復号された雑音における
短時間平均パワーの著しい変動が軽減され、音質の改善
がなされる。

【０００５】音源信号のゲインを平滑化する方法に関し
ては、「Digital Cellular Telecommunication System;
Adaptive Multi-Rate Speech Transcoding」 (ETSI Te
chnical Report, GSM 06.90 version 2.0.0)（文献２）
の6.1節を参照できる。

【０００６】図５は、従来の音声信号復号装置の一例を
示すブロック図であり、音源信号のゲインを平滑化する
ことで背景雑音音声の符号化品質を改善する技術を例示
している。ビット系列の入力は、Ｔ_frmsec（例えば、20
msec）のフレーム周期で行われるものとし、再生ベク
トルの計算は、Ｎ_sfrを整数（例えば、4）として、（Ｔ
_fr／Ｎ_sfr）msec（例えば、5 msec）のサブフレーム周
期で行われるものとする。フレーム長をサンプル（例え
ば、320サンプル）、サブフレーム長をサンプル（例え
ば、80サンプル）とする。これらのサンプル数は、入力
信号のサンプリング周波数16 kHzの場合である。以下、
図３を説明する。

【０００７】入力端子１０からは、符号化されたデータ
のビット系列が供給される。符号入力回路１０１０は、
入力端子１０から入力されたビット系列を分割し、複数
の復号パラメータに対応するインデックスに変換する。
そして、符号入力回路は、入力信号の周波数特性を表す
線スペクトル対（Line Spectrum Pair, LSP）に対応す
るインデックスをLSP復号回路１０２０へ供給し、入力
信号のピッチ周期を表す遅延に対応するインデックスを
ピッチ信号復号回路１２１０へ供給し、乱数やパルスか
ら成る音源ベクトルに対応するインデックスを音源信号
復号回路１１１０に供給し、第１のゲインに対応するイ
ンデックスを第１のゲイン復号回路１２２０に供給し、
第２のゲインに対応するインデックスを第２のゲイン復
号回路１１２０に供給する。

【０００８】ＬＳＰ復号回路１０２０は、複数セットの
LSPが格納されたテーブルを内蔵している。LSP復号回路
１０２０は、符号入力回路１０１０から出力されたイン
デックスが入力され、このインデックスに対応するLSP
を内蔵されたテーブルより読み出し、現フレーム（第ｎ
フレーム）の第Ｎ_sfrサブフレームにおけるLSP

【０００９】

【数１】とする。ここで、Ｎ_pは線形予測次数である。第１から
第（Ｎ_sfr−１）サブフレームのLSPは、

【００１０】

【数２】と

【００１１】

【数３】とを線形補間して求める。前記LSP

【００１２】

【数４】を線形予測係数変換回路１０３０および平滑化係数計算
回路１３１０へ出力する。

【００１３】線形予測係数変換回路１０３０は、LSP復
号回路１０２０から出力されたLSP

【数５】が入力され、入力されたLSPを線形予測係数

【００１４】

【数６】に変換し、合成フィルタ１０４０へ出力する。ここで、
LSPから線形予測係数への変換に関しては周知の方法、
例えば、文献２の5.2.4節に記述されている方法を使用
できる。

【００１５】音源信号復号回路１１１０は、複数個の音
源ベクトルが格納されたテーブルを内蔵している。音源
信号復号回路１１１０は、符号入力回路１０１０から出
力されたインデックスを受け、このインデックスに対応
する音源ベクトルを、内蔵されたテーブルから読み出
し、第２のゲイン回路１１３０へ出力する。

【００１６】第２のゲイン復号回路１１２０は、複数個
のゲインが格納されたテーブルを内蔵している。第２の
ゲイン復号回路１１２０は、符号入力回路１０１０から
インデックスが入力され、このインデックスに対応する
第２のゲインをテーブルより読み出し、平滑化回路１３
２０へ出力する。

【００１７】第２のゲイン回路１１３０は、音源信号復
号回路１１１０からの第１の音源ベクトルと、平滑化回
路１３２０からの第２のゲインとを入力され、これら第
１の音源ベクトルと第２のゲインとを乗算して第２の音
源ベクトルを生成し、生成した前記第２の音源ベクトル
を加算器１０５０へ出力する。

【００１８】記憶回路１２４０は、加算器１０５０から
励振ベクトルが入力されて、これを保持する。記憶回路
１２４０は、過去に入力され保持している励振ベクトル
を、ピッチ信号復号回路１２１０へ出力する。

【００１９】ピッチ信号復号回路１２１０には、記憶回
路１２４０に保持されている過去の励振ベクトルと符号
入力回路１０１０からのインデックスが入力される。こ
のインデックスは、遅延Ｌ_pdを指定する。そして、過去
の励振ベクトルにおいて、現フレームの始点よりＬ_pdサ
ンプル過去の点から、ベクトル長に相当するＬ_sfrサン
プル分のベクトルを切り出し、第１のピッチ信号(ベク
トル)を生成する。ここで、Ｌ_pd＜Ｌ_sfrの場合にはＬ_pd
サンプル分のベクトルを切り出し、この切り出したＬ_pd
サンプルを繰り返し接続して、ベクトル長がＬ_sfrサン
プルである第１のピッチベクトルを生成する。ピッチ信
号復号回路１２１０は、前記第１のピッチベクトルを第
１のゲイン回路１２３０へ出力する。

【００２０】第１のゲイン復号回路１２２０は、複数個
のゲインが格納されたテーブルを備えている。第１のゲ
イン復号回路１２２０は、符号入力回路１０１０から出
力されるインデックスを入力し、前記インデックスに対
応する第１のゲインを前記テーブルより読み出し、第１
のゲイン回路１２３０へ出力する。

【００２１】第１のゲイン回路１２３０は、ピッチ信号
復号回路１２１０から出力される第１のピッチベクトル
と、第１のゲイン復号回路１２２０から出力される第１
のゲインとを入力とし、第１のピッチベクトルと第１の
ゲインとを乗算して第２のピッチベクトルを生成し、生
成した第２のピッチベクトルを加算器１０５０へ出力す
る。

【００２２】加算器１０５０は、第１のゲイン回路１２
３０からの第２のピッチベクトルと、第２のゲイン回路
１１３０からの第２の音源ベクトルとの和を計算し、加
算結果を励振ベクトルとして、合成フィルタ１０４０へ
出力する。

【００２３】平滑化係数計算回路１３１０は、LSP復号
回路１０２０から出力されるLSP

【００２４】

【数７】を入力し、第ｎフレームにおける平均LSP

【００２５】

【数８】を次式により計算する。

【００２６】

【数９】

【００２７】次に、各サブフレームｍに対して、LSPの
変動量ｄ₀（ｍ）を次式により計算する。

【００２８】

【数１０】サブフレームｍにおける平滑化係数ｋ₀（ｍ）は、次式
で計算される。

【００２９】ｋ₀（ｍ）＝ｍｉｎ（０．２５、ｍａｘ
（０，ｄ₀（ｍ）−０．４）／０．２５ここで、ｍｉｎ（ｘ、ｙ）はｘとｙとのうち小さい方
を、ｍａｘ（ｘ、ｙ）はｘとｙとのうち大きい方を値と
してとる関数である。最後に、前記平滑化係数ｋ
₀（ｍ）を平滑化回路１３２０へ出力する。

【００３０】平滑化回路１３２０には、平滑化係数計算
回路１３１０から平滑化係数ｋ₀（ｍ）が、第２のゲイ
ン復号回路１１２０から第２のゲインが入力される。サ
ブフレームｍにおける第２のゲイン

【００３１】

【数１１】ら平均ゲイン

【００３２】

【数１２】を次式により計算する。

【００３３】

【数１３】

【００３４】次に、次式により第２のゲインは置き換え
られる。

【００３５】

【数１４】

【００３６】最後に、前記第２のゲインを第２のゲイン
回路１１３０に出力する。

【００３７】合成フィルタ１０４０へは、加算器１０５
０からの励振ベクトルと、線形予測係数変換回路１０３
０からの線形予測係数

【数１５】とが入力される。線形予測係数が設定された合成フィル
タ（１／Ａ（ｚ））を、励振ベクトルにより駆動するこ
とで、再生ベクトルを計算し、出力端子２０から出力す
る。

【００３８】ここで、合成フィルタの伝達関数は、線形
予測係数を

【数１６】とすると、

【００３９】

【数１７】と表される。

【００４０】図６は、従来例による音声信号符号化復号
装置における、音声信号符号化装置の構成を示すブロッ
ク図である。なお、第１のゲイン回路１２３０、第２の
ゲイン回路１１３０、加算器１０５０および記憶回路１
２４０の動作は、図５の従来例における音声信号復号装
置で説明した各ブロックと同じであるので、ここでは説
明を省略する。

【００４１】図４において、音声信号をサンプリング
し、この複数サンプルを１フレームとして一つのベクト
ルにまとめることにより生成された入力信号（入力ベク
トル）が、入力端子３０から入力される。

【００４２】線形予測係数計算回路５５１０は、入力端
子３０から供給された入力ベクトルに対して線形予測分
析を行い、線形予測係数を求める。線形予測分析に関し
ては、周知の方法、例えば、L. R. Rabinerらによる「D
igital Processing of Speech Signals」（Prentice-Ha
ll, 1978）（文献３）の第8章「Linear Predictive Cod
ing of Speech」を参照できる。線形予測係数計算回路
５５１０は、前記線形予測係数を、LSP変換/量子化回路
５５２０へ出力する。

【００４３】LSP変換/量子化回路５５２０は、線形予測
係数計算回路５５１０から線形予測係数が入力され、こ
の前記線形予測係数をLSPへ変換し、このLSPを量子化し
て量子化LSPを得る。ここで、線形予測係数からLSPへの
変換に関しては、周知の方法、例えば、文献２の5.2.4
節に記述されている方法を参照できる。また、LSPの量
子化に関しては、文献２の5.2.5節に記述されている方
法を参照できる。

【００４４】また、前記量子化LSPは、図３（従来例）
のLSP復号回路で説明したように、現フレーム（第ｎフ
レーム）の第Ｎ_sfrサブフレームにおける量子化LSP

【数１８】とする。

【００４５】そして、第１から第（Ｎ_sfr−１）サブフ
レームの量子化LSPは、

【数１９】と

【００４６】

【数２０】とを線形補間して求める。さらに、前記LSPは、現フレ
ーム（第ｎフレーム）の第（Ｎ_sfr−１）サブフレーム
におけるLSPとする。そして、第１から第（Ｎ_sfr−１）
サブフレームのLSPは、

【００４７】

【数２１】と

【００４８】

【数２２】とを線形補間して求める。

【００４９】LSP変換/量子化回路５５２０は、前記LSP

【数２３】と、前記量子化LSP

【００５０】

【数２４】と、を線形予測係数変換回路５０３０へ出力し、前記量
子化LSP

【００５１】

【数２５】に対応するインデックスを符号出力回路６０１０へ出力
する。

【００５２】線形予測係数変換回路５０３０は、LSP変
換/量子化回路５５２０からのＬＳＰ（ｑ^(m) _j（ｎ）、
ｊ＝１、…、Ｎ_sfr））と量子化LSP

【数２６】とが入力され、このＬＳＰ（ｑ^(m) _j（ｎ））を、線形予
測係数［α^(m) _j（ｎ）、ｊ＝１，…、Ｎ_p、ｍ＝１，
…、Ｎ_sfr］に変換し、

【００５３】

【数２７】を量子化線形予測係数

【００５４】

【数２８】に変換し、α^(m) _j（ｎ）を重み付けフィルタ５０５０と
重み付け合成フィルタ５０４０とへ出力し、前記

【００５５】

【数２９】を重み付け合成フィルタ５０４０へ出力する。ここで、
LSPから線形予測係数への変換および量子化LSPから量子
化線形予測係数への変換に関しては周知の方法、例え
ば、文献２の5.2.4節に記述されている方法を参照でき
る。

【００５６】重み付けフィルタ５０５０は、入力端子３
０から入力ベクトルが、線形予測係数変換回路５０３０
から線形予測係数が入力され、この線形予測係数を用い
て、人間の聴覚特性に対応した重みづけフィルタの伝達
関数Ｗ（ｚ）を生成し、この重みづけフィルタを入力ベ
クトルで駆動することで、重みづけ入力ベクトルが得ら
れる。そして重みづけフィルタは、重みづけ入力ベクト
ルを、差分器５０６０へと出力する。ここで、重みづけ
フィルタの伝達関数は、Ｗ（ｚ）＝Ｑ（ｚ／γ₁）／
Ｑ（ｚ／γ₂）と表される。

【００５７】ただし、

【数３０】

【００５８】

【数３１】である。γ₁およびγ₂は定数であり、例えば、γ₁＝
０．９、γ₂＝０．６である。また、重みづけフィルタ
の詳細に関しては、（文献１）を参照できる。

【００５９】重み付け合成フィルタ５０４０は、加算器
１０５０から出力される励振ベクトルと、線形予測係数
変換回路５０３０から出力される線形予測係数［α^(m) _j
（ｎ）、ｊ＝１，…、Ｎ_p、ｍ＝１，…、Ｎ_sfr］と、量
子化線形予測係数とを入力する。これらが設定された重
み付け合成フィルタＨ（ｚ）Ｗ（ｚ）＝Ｑ（ｚ／γ₁）
／［Ａ（ｚ）Ｑ（ｚ／γ₂）］を、励振ベクトルにより
駆動することで、重み付け再生ベクトルを得る。ここ
で、合成フィルタの伝達関数Ｈ（ｚ）＝１／Ａ（ｚ）
は、

【００６０】

【数３２】と表される。

【００６１】差分器５０６０は、重み付けフィルタ５０
５０から重み付け入力ベクトルが、重み付け合成フィル
タ５０４０から重み付け再生ベクトル入力されて、それ
らの差分を計算し、これを差分ベクトルとして、最小化
回路５０７０へ出力する。

【００６２】最小化回路５０７０は、音源信号生成回路
５１１０に格納されている音源ベクトル全てに対応する
インデックスを、音源信号生成回路５１１０へ順次出力
し、ピッチ信号生成回路５２１０において規定された範
囲内の遅延Ｌ_pd全てに対応するインデックスを、前記ピ
ッチ信号生成回路５２１０へ順次出力し、第１のゲイン
生成回路６２２０に格納されている第１のゲイン全てに
対応するインデックスを、前記第１のゲイン生成回路６
２２０へ順次出力し、第２のゲイン生成回路６１２０に
格納されている第２のゲイン全てに対応するインデック
スを、前記第２のゲイン生成回路６１２０へ順次出力す
る。また、最小化回路５０７０は、差分器５０６０から
出力される差分ベクトルのノルムを計算し、ノルムが最
小となるような、前記音源ベクトル、前記遅延、前記第
１のゲインおよび前記第２のゲインを選択し、これらに
対応するインデックスを符号出力回路６０１０へ出力す
る。

【００６３】ピッチ信号生成回路５２１０、音源信号生
成回路５１１０、第１のゲイン生成回路６２２０および
第２のゲイン生成回路６１２０は、各々、最小化回路５
０７０から出力されるインデックスを順次入力する。こ
れら、ピッチ信号生成回路５２１０、音源信号生成回路
５１１０、第１のゲイン生成回路６２２０および第２の
ゲイン生成回路６１２０は、各々、入出力に関する結線
を除けば、図３のピッチ信号復号回路１２１０、音源信
号復号回路１１１０、第１のゲイン復号回路１２２０お
よび第２のゲイン復号回路１１２０と同じであるので、
これら各ブロックの詳細な説明は省略する。

【００６４】符号出力回路６０１０は、LSP変換/量子化
回路５５２０から出力される量子化LSPに対応するイン
デックスを入力し、最小化回路５０７０から出力され
る、音源ベクトル、遅延、第１のゲインおよび第２のゲ
インの各々に対応するインデックスを入力し、各インデ
ックスをビット系列の符号に変換し、出力端子４０を介
して出力する。

【００６５】

【発明が解決しようとする課題】問題点は、雑音区間に
おける音源ゲイン（第２のゲイン）の平滑化では、励振
ベクトルから計算される短時間平均パワーの時間変化が
十分滑らかではないため、雑音区間における復号音質の
劣化を十分には改善できないことである。その理由は、
音源ゲインのみを平滑化しているため、音源ベクトル
（ゲイン乗算後の第２の音源ベクトル）とピッチベクト
ル（ゲイン乗算後の第２のピッチベクトル）を加算して
得られる励振ベクトルの短時間平均パワーが十分に滑ら
かになるとは限らないからである。

【００６６】雑音区間において従来例による音源ゲイン
平滑化を行った、励振信号（励振ベクトル）の短時間平
均パワーと、前記平滑化を行わない励振信号の短時間平
均パワーとを各々図７と図８に示す。ここで、横軸がフ
レーム番号を、縦軸がパワーを表す。ただし、短時間平
均パワーの計算は80 msec毎に行っている。図７と図８
とから、従来例による音源ゲイン平滑化後の励振信号に
おける短時間平均パワーが時間的に必ずしも十分に滑ら
かではないことがわかる。

【００６７】

【課題を解決するための手段】本願の第１の発明は、受
信した信号から励振信号と線形予測係数の情報を復号
し、前記復号した情報から前記励振信号と前記線形予測
係数とを生成し、前記線形予測係数で構成するフィルタ
を前記励振信号により駆動することによって音声信号を
復号する音声信号復号方法において、前記励振信号のノ
ルムを一定区間毎に計算し、前記ノルムをそれ以前の区
間において得られた前記ノルムを用いて平滑化し、前記
ノルムと前記平滑化したノルムとを用いて該区間におけ
る前記励振信号の振幅を変更し、前記振幅を変更した励
振信号により前記フィルタを駆動することを特徴とす
る。

【００６８】本願の第２の発明は、受信した信号から励
振信号と線形予測係数の情報を復号し、前記復号した情
報から前記励振信号と前記線形予測係数とを生成し、前
記線形予測係数で構成するフィルタを前記励振信号によ
り駆動することによって音声信号を復号する音声信号復
号方法において、前記復号した情報を用いて前記受信し
た信号について有音区間と雑音区間との識別を行ない、
前記雑音区間において、前記励振信号のノルムを一定区
間毎に計算し、前記ノルムをそれ以前の区間において得
られた前記ノルムを用いて平滑化し、前記ノルムと前記
平滑化したノルムとを用いて該区間における前記励振信
号の振幅を変更し、前記振幅を変更した励振信号により
前記フィルタを駆動することを特徴とする。

【００６９】本願の第３の発明は、第１または第２の発
明において、該区間における前記励振信号を前記ノルム
で除算し、該区間における前記平滑化したノルムを乗算
することにより、前記励振信号の振幅を変更することを
特徴とする。

【００７０】本願の第４の発明は、第１、第２または第
３の発明において、入力された切替制御信号に従って、
前記振幅を変更した励振信号と前記励振信号とを切り替
えることを特徴とする。

【００７１】本願の第５の発明は、入力音声信号を励振
信号と線形予測係数とで表現することにより符号化を行
い、請求項１、２、３または４記載の音声信号復号方法
で復号を行うことを特徴とする。

【００７２】本願の第６の発明は、受信した信号から励
振信号と線形予測係数の情報を復号し、前記復号した情
報から前記励振信号と前記線形予測係数を生成し、前記
線形予測係数で構成するフィルタを前記励振信号により
駆動することによって音声信号を復号する音声信号復号
装置において、前記励振信号のノルムを一定区間毎に計
算し、前記励振信号を前記ノルムで除算する励振信号正
規化回路と、前記ノルムをそれ以前の区間において得ら
れた前記ノルムを用いて平滑化する平滑化回路と、前記
平滑化したノルムを前記励振信号に乗算することによ
り、該区間における前記励振信号の振幅を変更する励振
信号復元回路とを含んで構成されることを特徴とする。

【００７３】本願の第７の発明は、受信した信号から励
振信号と線形予測係数の情報を復号し、前記復号した情
報から前記励振信号と前記線形予測係数を生成し、前記
線形予測係数で構成するフィルタを前記励振信号により
駆動することによって音声信号を復号する音声信号復号
装置において、前記復号した情報を用いて前記受信した
信号について有音区間と雑音区間との識別を行なう有音
／無音識別回路と、前記雑音区間において、前記励振信
号のノルムを一定区間毎に計算し、前記励振信号を前記
ノルムで除算する励振信号正規化回路と、前記ノルムを
それ以前の区間において得られた前記ノルムを用いて平
滑化する平滑化回路と、前記平滑化したノルムを前記励
振信号に乗算することにより、該区間における前記励振
信号の振幅を変更する励振信号復元回路とを含んで構成
されることを特徴とする。

【００７４】本願の第８の発明は、第６の発明または第
７の発明において、入力された切替信号に従って、前記
振幅を変更した励振信号と前記励振信号とを切り替える
ことを特徴とする。

【００７５】本願の第９の発明は、入力音声信号を励振
信号と線形予測係数とで表現することにより符号化を行
う音声信号符号化装置と、請求項６、７または８記載の
音声信号復号装置を含んで構成されることを特徴とす
る。

【００７６】

【作用】本発明では、音源ベクトル（ゲイン乗算後の第
２の音源ベクトル）とピッチベクトル（ゲイン乗算後の
第２のピッチベクトル）とを加算して得られる励振ベク
トルから計算されるノルムを雑音区間において平滑化す
るため、前記励振ベクトルにおける短時間平均パワーが
時間的に滑らかになる。したがって、雑音区間における
復号音質の劣化を改善できる。

【００７７】次に、本発明では、励振ベクトルから求め
たノルムに対して、単一の処理ではなく、入力信号の特
性を考慮して複数個用意した処理方法を選択的に用いて
前記ノルムの平滑化を雑音区間において行う。例えば、
過去の限られた区間の復号パラメータから計算する移動
平均(Moving Average)処理、長い過去の影響を考慮可能
な自己回帰(Auto-Regressive)処理、あるいは、平均を
計算した後に予め設定した値を上限や下限で制限する非
線形処理等がある。

【００７８】

【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して詳細に説明する。図１は、本発明の音
声信号復号装置の第１の実施の形態を示すブロック図で
ある。

【００７９】なお、入力端子１０、出力端子２０、符号
入力回路１０１０、LSP復号回路１０２０、線形予測係
数変換回路１０３０、音源信号復号回路１１１０、記憶
回路１２４０、ピッチ信号復号回路１２１０、第１のゲ
イン復号回路１２２０、第２のゲイン復号回路１１２
０、第１のゲイン回路１２３０、第２のゲイン回路１１
３０、加算器１０５０、平滑化係数計算回路１３１０、
平滑化回路１３２０および合成フィルタ１０４０は、図
５の従来例で説明した各ブロックと同じであるので、こ
こでは説明を省略する。以下では、励振信号正規化回路
２５１０、励振信号復元回路２６１０について説明す
る。

【００８０】ここで、従来例と同様に、ビット系列の入
力は、Ｔ_frmsec（例えば、20 msec）のフレーム周期で
行われるものとし、再生ベクトルの計算は、Ｎ_sfrを整
数（例えば、4）として、Ｔ_fr／Ｎ_sfr msec（例えば、
5 msec）周期（サブフレーム）で行われるものとする。
フレーム長をＬ_frサンプル（例えば、320サンプル）、
サブフレーム長をＬ_sfrサンプル（例えば、80サンプ
ル）とする。これは、入力信号のサンプリング周波数
が、１６ｋＨｚの場合の例である。以下、各ブロックを
説明する。

【００８１】励振信号正規化回路２５１０は、加算器１
０５０から第ｍサブフレームにおける励振ベクトル［ｘ
^(m) _exc（ｉ）；ｉ＝０，…、Ｌ_sfr−１；ｍ＝０，…、
Ｎ_sfr−１］が入力され、サブフレーム毎に、あるいは
サブフレームを分割したサブサブフレーム毎に、励振ベ
クトル［ｘ^(m) _exc（ｉ）］からゲインと形状ベクトルと
を計算し、ゲインを平滑化回路１３２０へ出力し、形状
ベクトルを励振信号復元回路２６１０へ出力する。ここ
で、ゲインとしては、次式で表されるノルムを用いるこ
とにする。

【００８２】

【数３３】ただし、Ｎ_ssfrはサブフレームの分割数（サブフレーム
中のサブサブフレーム数）である（例えば、２）。この
とき、励振ベクトル［ｘ^(m) _exc（ｉ）］をゲイン［ｇｅ
ｘｃ（ｊ）；ｊ＝０、…、（Ｎ_sfr・Ｎ_ssfr−１）］に
より除算して得られる形状ベクトルを次式により計算す
る。

【００８３】

【数３４】励振信号復元回路２６１０は、平滑化回路からゲイン
［ｇ_exc（ｊ）；ｊ＝０、…、（Ｎ_sfr・Ｎ_ssfr−１）］
が、励振信号正規化回路２５１０から形状ベクトル［ｅ
^(m) _exc(ｉ)；ｉ＝０、…、（Ｌ_sfr／Ｎ_ssfr―１）；ｊ
＝０、…、（Ｎ_sfr・Ｎ_ssfr−１）］とが入力され、次
式により（平滑化された）励振ベクトルを計算し、励振
ベクトルを記憶回路１２４０と合成フィルタ１０４０と
へ出力する。

【００８４】

【数３５】

【００８５】図２は、本発明の音声信号復号装置の第２
の実施の形態を示すブロック図である。

【００８６】なお、入力端子１０、出力端子２０、符号
入力回路１０１０、LSP復号回路１０２０、線形予測係
数変換回路１０３０、音源信号復号回路１１１０、記憶
回路１２４０、ピッチ信号復号回路１２１０、第１のゲ
イン復号回路１２２０、第２のゲイン復号回路１１２
０、第１のゲイン回路１２３０、第２のゲイン回路１１
３０、加算器１０５０、平滑化係数計算回路１３１０、
平滑化回路１３２０および合成フィルタ１０４０は、図
３の従来例で説明した各ブロックと同じであり、励振信
号正規化回路２５１０、励振信号復元回路２６１０は、
図１の第1の実施例で説明した各ブロックと同じである
ので、ここでは説明を省略する。以下では、パワー計算
回路３０４０、音声モード決定回路３０５０、有音/無
音識別回路２０２０、雑音分類回路２０３０、第１の切
替回路２１１０、第１のフィルタ２１５０、第２のフィ
ルタ２１６０および第３のフィルタ２１７０について説
明する。

【００８７】パワー計算回路３０４０は、合成フィルタ
１０４０から再生ベクトルが供給され、再生ベクトルの
自乗和から、パワーを計算し、計算結果を、有音/無音
識別回路２０２０へ出力する。ここでは、サブフレーム
毎にパワーを計算するものとし、第ｍサブフレームにお
けるパワーの計算には、第（ｍ−１）サブフレームにお
いて前記合成フィルタ１０４０から出力された前記再生
ベクトルを用いる。再生ベクトルを［Ｓ_syn（ｉ）；ｉ
＝０、…、Ｌ_sfr］とすると、パワー（Ｅ_pow）は、次式
で計算される。

【００８８】

【数３６】ここで、前式の代りに、例えば、次式で表される再生ベ
クトルのノルムを用いることもできる。

【００８９】

【数３７】

【００９０】音声モード決定回路３０５０には、記憶回
路１２４０に保持されている過去の励振ベクトル［ｅ
_mem（ｉ）；ｉ＝０、…、（Ｌ_mem―１）］が供給され、
また、符号入力回路１０１０からインデックスが供給さ
れる。このインデックスは、遅延Ｌ_pdを指定する。ここ
で、Ｌ_memは、Ｌ_pdの最大値により決定される定数であ
る。第ｍサブフレームにおいて、過去の励振ベクトルｅ
_mem（ｉ）と、遅延Ｌ_pdとから、ピッチ予測ゲイン［Ｇ
_emem（ｍ）；ｍ＝１、…、Ｎ_sfr］を計算する。

【００９１】Ｇ_emem（ｍ）＝１０ｌｏｇ₁₀（ｇ_emem（ｍ））

【００９２】ここで、

【数３８】

【００９３】

【数３９】

【００９４】

【数４０】

【００９５】

【数４１】である。ピッチ予測ゲインＧ_emem（ｍ）あるいは、Ｇ
_emem（ｍ）の第ｎフレームにおけるフレーム内平均値

【００９６】

【数４２】に対し次の閾値処理を行なうことにより、音声モードＳ
_modeを設定する。

【００９７】

【数４３】音声モード決定回路３０５０は、音声モードを、有音/
無音識別回路２０２０へ出力する。

【００９８】有音/無音識別回路２０２０は、LSP復号回
路１０２０から出力されるLSP

【数４４】と、音声モード決定回路２０５０から出力される音声モ
ードと、パワー計算回路３０４０から出力されるパワー
とを入力する。スペクトルパラメータの変動量を求める
手順を以下に示す。スペクトルパラメータとしてLSP

【００９９】

【数４５】を用いる。第フレームにおいて、LSPの長時間平均

【０１００】

【数４６】を次式により計算する。

【０１０１】

【数４７】

【０１０２】ここで、β₀＝０．９である。第フレーム
におけるLSPの変動量を次式により定義する。

【０１０３】

【数４８】ここで、Ｄ^(m) _q _、 _jは、

【０１０４】

【数４９】と

【０１０５】

【数５０】との距離に相当する。例えば、

【０１０６】

【数５１】または、

【０１０７】

【数５２】とできる。ここでは、後者とする。変動量ｄ_q（ｎ）が
大きい区間を有音区間に、小さい区間を無音区間（雑音
区間）に概ね対応させることができる。しかし、この変
動量は、時間的な変動が大きく、有音区間におけるの変
動量の値域と、無音区間における変動量の値域は、互い
に重複するため、有音区間と無音区間とを識別するため
の閾値の設定が容易ではないという問題がある。そこ
で、変動量ｄ _q（ｎ）の長時間平均を有音区間と無音区
間との識別に用いる。線形フィルタまたは非線型フィル
タを用いての長時間平均

【０１０８】

【数５３】を求める。これには、例えば、変動量ｄ_q（ｎ）の平均
値、中央値、最頻値などが適用できる。ここでは、次式
を用いる。

【０１０９】

【数５４】ここで、β１＝０．９である。

【０１１０】この平均値に対する閾値処理により、識別
フラグＳ_vsを決定する。

【０１１１】

【数５５】ここで、Ｃ_th1はある定数（例えば、2.2）であり、Ｓ_vs
＝１は、有音区間に、Ｓ _vs＝０は、無音区間に対応す
る。有音区間でも定常性が高い区間では、が小さいた
め、無音区間と誤る場合がある。そのため、フレームの
パワーが大きく、かつピッチ予測ゲインが大きい場合に
は有音区間とみなすこととする。のとき、次の追加判定
により、Ｓ_vsの修正を行う。

【０１１２】

【数５６】ここで、Ｃ_rmsはある定数（例えば、10000）である。
は、ピッチ予測ゲインのフレーム内平均値

【０１１３】

【数５７】が3.5 dB以上であることに対応する。有音/無音識別回
路２０２０は、識別フラグＳ_vsを、雑音分類回路２０３
０と第１の切替回路２１１０へ出力し、

【０１１４】

【数５８】を雑音分類回路２０３０へ出力する。

【０１１５】雑音分類回路２０３０には、有音/無音識
別回路２０２０から出力される

【数５９】と識別フラグＳ_vsとが入力される。無音区間（雑音区
間）において、線形フィルタまたは非線型フィルタを用
いて

【０１１６】

【数６０】の平均的な挙動を反映した値

【０１１７】

【数６１】を求める。Ｓ_vs＝０のとき次式を計算する。

【０１１８】

【数６２】ここで、β２＝０．９４である。

【０１１９】

【数６３】に対する閾値処理により、雑音の分類を行い、分類フラ
グＳ_vsを決定する。

【０１２０】

【数６４】ここで、Ｃ_th2はある定数（例えば、1.7）であり、Ｓ_nz
＝１は周波数特性の時間変化が非定常的である雑音に、
Ｓ_nz＝０は周波数特性の時間変化が定常的である雑音に
対応する。雑音分類回路２０３０は、Ｓ_nzを第１の切替
回路２１１０へ出力する。

【０１２１】第１の切替回路２１１０は、励振信号正規
化回路２５１０から出力されるゲイン［ｇ_exc（ｊ）；
ｊ＝０、…、（Ｎｓｓｆｒ・Ｎｓｆｒ−１）］と、有音
/無音識別回路２０２０からの識別フラグＳ_vsと、雑音
分類回路２０３０からの分類フラグＳ_nzとが入力され、
識別フラグの値とフラグの値とに応じてスイッチを切り
替えることで、ゲインｇ_exc（ｊ）を、Ｓ_vs＝Ｓ_nz＝０
のときは第１のフィルタ２１５０へ、Ｓ_vs＝０かつＳ_nz
＝１のときは第２のフィルタ２１６０へ、Ｓ_vs＝１のと
きは第３のフィルタ２１７０へ出力する。

【０１２２】第１のフィルタ２１５０は、第１の切替回
路２１１０からゲイン［ｇ_exc（ｊ）；ｊ＝０、…、
（Ｎｓｓｆｒ・Ｎｓｆｒ−１）］が入力され、線形フィ
ルタまたは非線型フィルタを用いて平滑化し、これを第
１の平滑化ゲイン

【０１２３】

【数６５】とし、励振信号復元回路２６１０へ出力する。ここで
は、次式で表されるフィルタを用いる。

【０１２４】

【数６６】ただし、

【０１２５】

【数６７】は、前フレームにおけるに

【０１２６】

【数６８】対応する。また、γ₂₁＝０．９４とする。

【０１２７】第２のフィルタ２１６０は、第１の切替回
路２１１０から出力されるゲインを、線形フィルタまた
は非線型フィルタを用いて平滑化し、これを第２の平滑
化ゲイン

【０１２８】

【数６９】とし、励振信号復元回路２６１０へ出力する。ここで
は、次式で表されるフィルタを用いる。

【０１２９】

【数７０】ただし、

【０１３０】

【数７１】は、前フレームにおける

【０１３１】

【数７２】に対応する。また、γ₂₂＝０．９とする。

【０１３２】第３のフィルタ２１７０は、第１の切替回
路２１１０から出力されるゲインを入力し、線形フィル
タまたは非線型フィルタを用いて平滑化し、これを第３
の平滑化ゲイン

【０１３３】

【数７３】とし、励振信号復元回路２６１０へ出力する。ここで
は、

【０１３４】

【数７４】とする。

【０１３５】図３は、本発明の音声信号復号装置の第３
の実施の形態を示すブロック図である。図３は、図１に
入力端子５０と第２の切替回路７１１０とを付加し、結
線を変更しただけであるので、入力端子５０と第２の切
替回路７１１０についてのみ説明する。入力端子５０か
らは、切替制御信号が供給される。切替回路７１１０
は、加算器１０５０から出力される励振ベクトルを入力
し、この切替制御信号に従って、励振ベクトルを、合成
フィルタ１０４０、あるいは、励振信号正規化回路２５
１０のいずれかへと出力する。

【０１３６】図４は、本発明の音声信号復号装置の第４
の実施の形態を示すブロック図である。図４は、図２に
入力端子５０と第２の切替回路７１１０とを付加し、結
線を変更しただけであり、入力端子５０と第２の切替回
路７１１０は、図３の第３の実施例で説明した各ブロッ
クと同じであるので、ここでは説明を省略する。

【０１３７】本発明の第５の実施例の音声信号符号化復
号装置における音声信号符号化装置の構成は、従来例に
よる、音声信号符号化復号装置における音声信号符号化
装置の構成と同じである。したがって、説明を省略す
る。

【０１３８】

【発明の効果】本発明による第１の効果は、雑音区間に
おいて、励振ベクトルにおける短時間平均パワーが時間
的に滑らかになることにより、雑音区間における復号音
質の劣化が改善されることである。その理由は、音源ベ
クトル（ゲイン乗算後の第２の音源ベクトル）とピッチ
ベクトル（ゲイン乗算後の第２のピッチベクトル）とを
加算して得られる励振ベクトルから計算されるノルムを
平滑化しているからである。

【０１３９】雑音区間において本実施例による励振信号
（励振ベクトル）から計算されるノルムに対する平滑化
を行った励振信号の短時間平均パワーを図９に示す。こ
こで、横軸がフレーム番号を、縦軸がパワーを表す。た
だし、短時間平均パワーの計算は80 msec毎に行ってい
る。図９から、本実施例による前記平滑化によって、励
振信号における短時間平均パワーが時間的に滑らかにな
っていることがわかる。

【０１４０】本発明による第２の効果は、背景雑音の種
類に応じて励振信号の平滑化処理を選択できることであ
り、その結果、復号音質を改善できることである。その
理由は、雑音区間において、複数個用意した処理方法を
入力信号の特性に合わせて選択し、励振信号の平滑化を
行うからである。

【図面の簡単な説明】

【図１】本発明の音声信号復号装置の第１の実施の形態
を示すブロック図である。

【図２】本発明の音声信号復号装置の第２の実施の形態
を示すブロック図である。

【図３】本発明の音声信号復号装置の第３の実施の形態
を示すブロック図である。

【図４】本発明の音声信号復号装置の第４の実施の形態
を示すブロック図である。

【図５】従来の音声信号復号装置を説明するブロック図
である。

【図６】従来の音声信号符号化装置を説明するブロック
図である。

【図７】従来例による音源ゲイン平滑化を行った励振信
号（励振ベクトル）の短時間平均パワーを表す図であ
る。

【図８】平滑化を行わない励振信号（励振ベクトル）の
短時間平均パワーを表す図である。

【図９】本発明による励振ベクトルから計算されるノル
ムに対する平滑化を行った励振信号（励振ベクトル）の
短時間平均パワーを表す図である。

【符号の説明】

10,30,50 入力端子 20,40 出力端子 1010 符号入力回路 1020 LSP復号回路 1030,5030 線形予測係数変換回路 1040 合成フィルタ 1050 加算器 1110 音源信号復号回路 1210 ピッチ信号復号回路 1120 第２のゲイン復号回路 1220 第１のゲイン復号回路 1130 第２のゲイン回路 1230 第１のゲイン回路 1240 記憶回路 1310 平滑化係数計算回路 1320 平滑化回路 2020 有音/無音識別回路 2030 雑音分類回路 2110 第１の切替回路 7110 第2の切替回路 2150 第１のフィルタ 2160 第2のフィルタ 2170 第３のフィルタ 3040 パワー計算回路 3050 音声モード決定回路 5510 線形予測係数計算回路 5520 LSP変換/量子化回路 5040 重み付け合成フィルタ 5050 重み付けフィルタ 5060 差分器 5070 最小化回路 5210 ピッチ信号生成回路 5110 音源信号生成回路 6220 第1のゲイン生成回路 6120 第2のゲイン生成回路 6010 符号出力回路

Claims

【特許請求の範囲】

【請求項１】受信した信号から励振信号と線形予測係数
の情報を復号し、前記復号した情報から前記励振信号と
前記線形予測係数を生成し、前記線形予測係数で構成す
るフィルタを前記励振信号により駆動することによって
音声信号を復号する音声信号復号方法において、前記励
振信号のノルムを一定区間毎に計算し、前記ノルムをそ
れ以前の区間において得られた前記ノルムを用いて平滑
化し、前記ノルムと前記平滑したノルムとを用いて該区
間における前記励振信号の振幅を変更し、前記振幅を変
更した励振信号により前記フィルタを駆動することを特
徴とする音声信号復号方法。
【請求項２】受信した信号から励振信号と線形予測係数
の情報を復号し、前記復号した情報から前記励振信号と
前記線形予測係数を生成し、前記線形予測係数で構成す
るフィルタを前記励振信号により駆動することによって
音声信号を復号する音声信号復号方法において、前記復
号した情報を用いて前記受信した信号について有音区間
と雑音区間との識別を行ない、前記雑音区間において、
前記励振信号のノルムを一定区間毎に計算し、前記ノル
ムをそれ以前の区間において得られた前記ノルムを用い
て平滑化し、前記ノルムと前記平滑化したノルムとを用
いて該区間における前記励振信号の振幅を変更し、前記
振幅を変更した励振信号により前記フィルタを駆動する
ことを特徴とする音声信号復号方法。
【請求項３】該区間における前記励振信号を前記ノルム
で除算し、該区間における前記平滑化したノルムを乗算
することにより、前記励振信号の振幅を変更することを
特徴とする請求項１または２記載の音声信号復号方法。
【請求項４】入力された切替信号に従って、前記振幅を
変更した励振信号と前記励振信号とを切り替えることを
特徴とする請求項１、２または３記載の音声信号復号方
法。
【請求項５】入力音声信号を励振信号と線形予測係数と
で表現することにより符号化を行い、請求項１、２、３
または４記載の音声信号復号方法で復号を行う音声信号
符号化復号方法。
【請求項６】受信した信号から励振信号と線形予測係数
の情報を復号し、前記復号した情報から前記励振信号と
前記線形予測係数を生成し、前記線形予測係数で構成す
るフィルタを前記励振信号により駆動することによって
音声信号を復号する音声信号復号装置において、前記励
振信号のノルムを一定区間毎に計算し、前記励振信号を
前記ノルムで除算する励振信号正規化回路と、前記ノル
ムをそれ以前の区間において得られた前記ノルムを用い
て平滑化する平滑化回路と、前記平滑化したノルムを前
記励振信号に乗算することにより、該区間における前記
励振信号の振幅を変更する励振信号復元回路とを含んで
構成されることを特徴とする音声信号復号装置。
【請求項７】受信した信号から励振信号と線形予測係数
の情報を復号し、前記復号した情報から前記励振信号と
前記線形予測係数を生成し、前記線形予測係数で構成す
るフィルタを前記励振信号により駆動することによって
音声信号を復号する音声信号復号装置において、前記復
号した情報を用いて前記受信した信号について有音区間
と雑音区間との識別を行なう有音／無音識別回路と、前
記雑音区間において、前記励振信号のノルムを一定区間
毎に計算し、前記励振信号を前記ノルムで除算する励振
信号正規化回路と、前記ノルムをそれ以前の区間におい
て得られた前記ノルムを用いて平滑化する平滑化回路
と、前記平滑化したノルムを前記励振信号に乗算するこ
とにより、該区間における前記励振信号の振幅を変更す
る励振信号復元回路とを含んで構成されることを特徴と
する音声信号復号装置。
【請求項８】入力された切替信号に従って、前記振幅を
変更した励振信号と前記励振信号とを切り替えることを
特徴とする請求項６または７記載の音声信号復号装置。
【請求項９】入力音声信号を励振信号と線形予測係数と
で表現することにより符号化を行う音声信号符号化装置
と、請求項６、７または８記載の音声信号復号装置を含
んで構成されることを特徴とする音声信号符号化復号装
置。