JP3785363B2 - Audio signal encoding apparatus, audio signal decoding apparatus, and audio signal encoding method - Google Patents

Audio signal encoding apparatus, audio signal decoding apparatus, and audio signal encoding method Download PDF

Info

Publication number
JP3785363B2
JP3785363B2 JP2001396474A JP2001396474A JP3785363B2 JP 3785363 B2 JP3785363 B2 JP 3785363B2 JP 2001396474 A JP2001396474 A JP 2001396474A JP 2001396474 A JP2001396474 A JP 2001396474A JP 3785363 B2 JP3785363 B2 JP 3785363B2
Authority
JP
Japan
Prior art keywords
noise
input
signal
sound source
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001396474A
Other languages
Japanese (ja)
Other versions
JP2003195900A (en
Inventor
幸司 吉田
正 米崎
拓也 河嶋
茂明 佐々木
一則 間野
章俊 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Nippon Telegraph and Telephone Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Nippon Telegraph and Telephone Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Nippon Telegraph and Telephone Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2001396474A priority Critical patent/JP3785363B2/en
Publication of JP2003195900A publication Critical patent/JP2003195900A/en
Application granted granted Critical
Publication of JP3785363B2 publication Critical patent/JP3785363B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は音声信号符号化装置、音声信号復号装置及び音声信号符号化方法に関し、特に音声信号を符号励振線形予測(CELP:Code-Excited Linear Prediction)符号化する場合に適用して好適なものである。
【0002】
【従来の技術】
従来、有線通信、移動体通信、ディジタル記録メモ等に用いられる音声の圧縮展開を行う音声符号化のうち、中低ビットレートの音声符号化では、音声の生成過程をモデル化し、入力信号情報を声帯を模した音源情報と声道を模した合成フィルタ情報に分離して符号化する手法が一般的に用いられている。特に、音源情報として音源ベクトルを符号帳から選択し、合成フィルタ情報を線形予測分析により抽出するCELP型音声符号化が広く使用されている。
【0003】
CELP型音声符号化方式は、音声をある一定のフレーム長(5ms〜50ms程度)に区切り、各フレーム毎に音声の線形予測分析を行い、フレーム毎の線形予測分析による予測残差(励振信号)を既知の波形からなる適応符号ベクトルと雑音符号ベクトルを用いて符号化するものである。適応符号ベクトルは過去に生成した駆動音源ベクトルを格納している適応符号帳から、雑音符号ベクトルは予め用意され定められた形状を有するベクトルを格納している雑音符号帳から選択されて使用される。
【0004】
従来のこの種の音声信号符号化装置の構成を、図8に示す。先ず、音声信号符号化装置30では、入力音声信号が線形予測分析器1に入力され、当該線形予測分析器1により入力音声が線形予測分析される。聴覚重みフィルタ生成器2は、分析された線形予測係数を用いて聴覚重みフィルタ11を生成する。聴覚重みフィルタHp(Z)は、分析された線形予測係数{αi|i=1,………,P}(Pは分析次数)で、次式を用いて表される。
【0005】
【数1】

Figure 0003785363
ここで、γZ、γPはフォルマント強調係数で0<γP<γZ<1を満たす定数である。
【0006】
適応符号帳5は過去に生成した音源信号を蓄えている。乗算器6は適応符号帳5から選択された適応音源ベクトルにゲイン定数を乗じて適応音源信号を求める。雑音符号帳7には予め定められた音源ベクトルが蓄えられている。乗算器8は雑音符号帳7から選択された雑音音源ベクトルにゲイン定数を乗じて雑音音源信号を求める。加算器9は適応音源信号と雑音音源信号を加算し音源信号を得る。
【0007】
合成フィルタ10は、加算器9により得られた音源信号を、線形予測係数で構成されるフィルタでフィルタリングすることで合成音声を得る。聴覚重みフィルタ11は、合成音声に対する聴覚的な信号強調を、聴覚重みフィルタ生成器2で生成されたフィルタを用いて行う。聴覚重みフィルタ12は入力信号に対して聴覚的な信号強調を行う。
【0008】
減算器13は聴覚的に重み付けされた入力音声と合成音声の誤差信号を求める。二乗誤差最小化器14は誤差信号のエネルギーを算出し、エネルギーが最小となる音源ベクトルとゲイン定数の組み合わせを求める。そして二乗誤差最小化器14により求められた音源ベクトル、ゲイン定数とそのときの線形予測係数が多重化器15により多重化されて音声符号化データが形成される。
【0009】
このようにして形成された音声符号化データを復号する音声信号復号装置40の構成を、図9に示す。音声符号化データは分離器17に入力され、当該分離器17により音声符号化データが線形予測係数、音源ベクトル及びゲイン定数に分離される。適応符号帳18は過去に生成した音源信号を蓄えている。乗算器19は適応符号帳18から選択された適応音源ベクトルにゲイン定数を乗じて適応音源信号を求める。雑音符号帳20は予め定められた音源ベクトルが蓄えられている。
【0010】
乗算器21は雑音符号帳20から選択された雑音音源ベクトルにゲイン定数を乗じて雑音音源信号を求める。加算器22は適応音源信号と雑音音源信号を加算し音源信号を生成する。合成フィルタ23は、生成された音源ベクトルを、入力した線形予測係数で構成する合成フィルタ23でフィルタリングし復号音声を合成する。
【0011】
このように符号励振線形予測符号化技術を用いれば、聴感上量子化誤差の影響を受け易い周波数帯域に重みを付けて算出した誤差を最小化する音源を選択することができるため、主観的な量子化歪が少ない復号音声を得ることができる音声信号符号化装置30及び音声信号復号装置40を実現することができる。
【0012】
【発明が解決しようとする課題】
しかしながら、特に入力音声として背景雑音が重畳された広周波数帯域信号が与えられたとき主観的な音声品質が劣化する問題がある。
【0013】
この問題点について図10を用いて説明する。人の聴覚は4〜5kHzを境に信号に対する感度が大きく変化する。図10ではこの聴覚特性を破線で示しており、ここでの説明では破線以下の振幅値の信号に対して感度が0、つまり、その信号を検知できないと仮定する。
【0014】
また図中の一点鎖線は聴覚重みフィルタ処理前の雑音振幅周波数特性を示し、図中細線は聴覚重みフィルタ処理後の雑音振幅周波数特性を示す。このとき、図中、一点鎖線と細線で示す2つの雑音振幅周波数特性の主観品質を比較したとき、聴覚特性を示す破線を超える振幅値の周波数帯域のみが主観的な品質に影響するため、一点鎖線(聴覚重みフィルタ処理前の雑音振幅周波数特性)の方がSN比が高く、主観的な品質が良いと考えられる。すなわちこの例では聴覚重みフィルタを用いることで主観的な品質が劣化してしまう。
【0015】
このことは音声信号のみであれば、低周波数帯域にエネルギが偏っているため大きな問題とはならないが、音声信号に高周波数帯域にもエネルギを有するような背景雑音が重畳されたとき、聴感上さほど重要でない高周波数帯域の信号の量子化誤差を少なくする音源が選択されることとなり、復号音声の品質が劣化する要因となる。
【0016】
本発明はかかる点に鑑みてなされたものであり、背景雑音が重畳された音声信号が入力された場合でも、主観的な品質の劣化を抑制し得る音声信号符号化装置、音声信号復号装置及び音声信号符号化方法を提供することを目的とする。
【0017】
【課題を解決するための手段】
かかる課題を解決するため本発明は、以下の構成を採る。
【0018】
(1)本発明の音声信号符号化装置は、入力音声信号に対して処理フレーム単位で線形予測分析処理を施すことにより線形予測係数を算出する線形予測分析手段と、適応符号帳及び雑音符号帳に格納された適応音源及び雑音音源に対して前記線形予測係数を用いたフィルタリング処理を施すことにより符号化合成音を得る合成フィルタと、適応音源及び雑音音源のゲインを求め、さらにゲインを用いて得られる合成音と入力音声信号との間の符号化歪みが最小となる適応音源及び雑音音源の符号及びゲインを探索する演算手段と、入力音声信号及び合成音に対して聴覚重み付け処理を施す聴覚重みフィルタと、入力音声信号の処理フレームが、音声信号が支配的である有音区間か、又は非音声信号が支配的である無音区間かを判定する有音無音判定手段と、有音無音判定手段により無音区間であると判定された処理フレームが入力音声信号として入力された際、聴覚重みフィルタのフィルタ特性を、高周波数帯域を抑圧するように変換するフィルタ特性変換手段と、を具備する構成を採る。
【0019】
この構成によれば、聴感上重要な低域をより正確に表現できる音源候補を選択し易くすることができるので、聴感上の劣化の少ない音声符号化データを形成することができる。
【0020】
(2)本発明の音声信号符号化装置は、(1)に加えて、さらに、有音無音判定手段により無音区間であると判定された処理フレームが入力音声信号として入力された際、音源情報を生成するために設けられた適応符号帳及び雑音符号帳のうち、雑音符号帳から出力される雑音音源ベクトルの高周波数帯域を抑圧する周波数特性変換手段を具備する構成を採る。
【0021】
(3)本発明の音声信号復号装置は、(2)の音声信号符号化装置から得られる情報を用いて音声信号を復号する符号励振線形予測型の音声信号復号装置であって、(2)の音声信号符号化装置から得られる情報を用いて、処理フレームが音声信号が支配的である有音区間か、又は非音声信号が支配的である無音区間かを判定する有音無音判定手段と、無音区間において雑音符号帳から得られる雑音音源ベクトルの高周波数帯域を抑圧する特性変換手段と、無音区間において雑音音源ベクトルに対して抑圧した周波数帯域の信号エネルギを補完する特性を有する雑音ベクトルを生成する雑音生成手段と、(2)の音声信号符号化装置から得られる情報を用いて生成した雑音ベクトルのゲインを推定し、雑音ベクトルに乗ずる乗算手段と、生成した雑音を音源信号に加算する加算手段と、を具備する構成を採る。
【0022】
(2)及び(3)の構成によれば、音声信号復号装置側で、雑音が重畳された入力信号に対して量子化雑音が顕著となる高周波成分信号を定常雑音で置換することができるので、量子化雑音に起因する耳障りな雑音感を抑え、安定した背景雑音を復号して出力することができる。
【0023】
(4)本発明の音声信号符号化方法は、入力音声信号に対して処理フレーム単位で線形予測分析処理を施すことにより線形予測係数を算出するステップと、適応符号帳及び雑音符号帳に格納された適応音源及び雑音音源に対して前記線形予測係数を用いたフィルタリング処理を施すことにより符号化合成音を得るステップと、適応音源及び雑音音源のゲインを求め、このゲインを用いて得られる合成音と入力音声信号との間の符号化歪みが最小となる適応音源及び雑音音源の符号及びゲインを探索するステップと、入力音声信号及び合成音に対して聴覚重み付け処理を施すステップと、入力音声信号の処理フレームが、音声信号が支配的である有音区間か、又は非音声信号が支配的である無音区間かを判定するステップと、無音区間であると判定された処理フレームが入力音声信号として入力された際、聴覚重みフィルタのフィルタ特性を、高周波数帯域を抑圧するように変換するステップと、を有するようにする。
【0024】
この方法によれば、聴感上重要な低域をより正確に表現できる音源候補を選択し易くすることができるので、聴感上の劣化の少ない音声符号化データを形成することができる。
【0025】
(5)本発明のプログラムは、コンピュータに、入力音声信号に対して処理フレーム単位で線形予測分析処理を施すことにより線形予測係数を算出する手順と、適応符号帳及び雑音符号帳に格納された適応音源及び雑音音源に対して前記線形予測係数を用いたフィルタリング処理を施すことにより符号化合成音を得る手順と、適応音源及び前記雑音音源のゲインを求め、このゲインを用いて得られる合成音と入力音声信号との間の符号化歪みが最小となる適応音源及び雑音音源の符号及びゲインを探索する手順と、入力音声信号及び合成音に対して聴覚重み付け処理を施す手順と、入力音声信号の処理フレームが、音声信号が支配的である有音区間か、又は非音声信号が支配的である無音区間かを判定する手順と、無音区間であると判定された処理フレームが入力音声信号として入力された際、聴覚重みフィルタのフィルタ特性を、高周波数帯域を抑圧するように変換する手順と、を実行させる構成を採る。
【0026】
この構成によれば、コンピュータが、聴感上重要な低域をより正確に表現できる音源候補を選択して、聴感上の劣化の少ない音声符号化データを形成することができる。
【0027】
【発明の実施の形態】
本発明者らは、入力音声として背景雑音が重畳された広周波数帯域信号が与えられたときに主観的な音声品質が劣化するのは、聴覚重みフィルタの生成において静的な聴覚特性を考慮していないためであると考えることで本発明に至った。
【0028】
本発明の骨子は、入力信号を、音声信号が支配的である有音区間と、背景雑音が支配的である無音区間とに分類し、当該有音区間と無音区間とでそれぞれ異なる聴覚重みフィルタ特性を使って符号励振線形予測符号化処理を行うようにしたことである。
【0029】
以下、本発明の実施の形態について図面を参照して詳細に説明する。
【0030】
(実施の形態1)
図1において、100は全体として、本発明による実施の形態1に係る音声信号符号化装置の構成を示す。音声信号符号化装置100は、入力音声信号を線形予測分析器101に入力する。線形予測分析器101は入力音声を線形予測分析する。これにより線形予測分析器101は線形予測係数{αi|i=1,………,P}を得る。ここでPは分析次数である。
【0031】
聴覚重みフィルタ生成器102は分析された線形予測係数を用いて聴覚重みフィルタを生成する。具体的には、聴覚重みフィルタ生成器102は抽出された線形予測係数から、次式を用いてフィルタの振幅周波数特性の谷部を強調した聴覚重みフィルタHP(Z)を生成する。
【0032】
【数2】
Figure 0003785363
ここで、γZ、γPはフォルマント強調係数で0<γP<γZ<1を満たす定数である。図2に、このように構成された聴覚重みフィルタの振幅周波数特性の一例を示す。
【0033】
また音声信号符号化装置100は有音無音判定器104を有し、当該有音無音判定器104に入力音声信号を入力させる。有音無音判定器104は入力音声信号から処理フレームが有音区間であるか無音区間であるかを判定する。ここで有音区間とは音声信号が支配的な区間であり、無音区間とは背景雑音が支配的な区間である。
【0034】
このような有音区間と無音区間の判定は、音声信号と背景雑音それぞれにより異なる周波数特性や規則性を基に容易に行うことができる。有音無音判定器104は判定結果をフィルタ変換器105に送出する。
【0035】
フィルタ変換器105は有音無音判定器104から入力音声信号が有音区間であることを示す判定結果が入力された場合には、聴覚重みフィルタ生成器102から出力される聴覚重みフィルタ特性をそのまま聴覚重みフィルタ106に送出する。これに対して有音無音判定器104から入力音声信号が無音区間であることを示す判定結果が入力された場合には、聴覚重みフィルタ生成器102から出力される聴覚重みフィルタ特性の高周波数帯域を抑圧するように周波数特性を変換した後、聴覚重みフィルタ106に送出する。
【0036】
適応符号帳107は過去に生成した音源信号を蓄えている。つまり適応符号帳107は過去に生成された音源信号によって更新される動的な符号帳である。乗算器108は適応符号帳107により選択された適応音源ベクトルにゲイン定数を乗じて適応音源信号を求める。雑音符号帳109は予め定められた音源ベクトルが蓄えられている。乗算器110は雑音符号帳109により選択された雑音音源ベクトルにゲイン定数を乗じて雑音音源信号を求める。加算器111は適応音源信号と雑音音源信号を加算し音源信号を得る。
【0037】
このように音声信号符号化装置100においては、適応符号帳107、雑音符号帳109、乗算器108、110及び加算器111により音源が形成され、適応符号帳107及び雑音符号帳109により選択された音源ベクトルが、それぞれ乗算器108と乗算器110により定数倍され、加算器111で加算されることで音源信号が生成される。
【0038】
合成フィルタ112は加算器111から出力される音源信号に対して線形予測係数で構成されるフィルタでフィルタリングすることで合成音声を得る。具体的には、合成フィルタ112では、線形予測係数{αi|i=1,………,P}で構成され、次式で表されるフィルタH(Z)を用いて音源信号をフィルタリングして合成音声を得る。
【0039】
【数3】
Figure 0003785363
聴覚重みフィルタ106は、合成音声に対する聴覚的な信号強調を、フィルタ変換器105で生成されたフィルタを用いて行う。聴覚重みフィルタ113は入力音声信号に対して聴覚的な信号強調を行う。この際、聴覚重みフィルタ113はフィルタ変換器105で生成されたフィルタを用いて聴覚的な信号強調を行う。
【0040】
ここで上述したようにフィルタ変換器105は、無音区間において聴覚重みフィルタの高周波数帯域を抑圧する。この実施の形態の場合、この処理を実現するため、聴覚重みフィルタHP(Z)のインパルス応答をhp(t)とすると、このhp(t)に対して低域通過フィルタのインパルス応答hlpf(t)を畳み込むことで周波数特性を変換した合成フィルタFP(Z)を得るようになされている。このときフィルタ変換器105は出力する合成フィルタFP(Z)のインパルス応答fp(t)を、次式に従って決定する。
【0041】
【数4】
Figure 0003785363
聴覚重みフィルタ106及び聴覚重みフィルタ113では、このように決定されたフィルタを用いて、合成音声及び入力音声をフィルタリングすることで聴覚的に重み付けされた入力音声及び合成音声とを得る。減算器114は聴覚的に重み付けされた入力音声と合成音声の誤差信号を求める。
【0042】
二乗誤差最小化器115は誤差信号のエネルギを算出し、エネルギが最小となる音源ベクトルとゲイン定数の組み合わせを求める。そして二乗誤差最小化器115により求められた音源ベクトル、ゲイン定数とそのときの線形予測係数が多重化器116により多重化されて音声符号化データが形成される。
【0043】
次に図2〜図5を用いて、この実施の形態の音声信号符号化装置100の動作について説明する。図4は、入力音声信号が音声信号が支配的である場合、すなわち処理フレームが有音区間である場合について着目したものである。一方、図5は、入力音声信号が非音声信号(背景雑音)が支配的である場合、つまり処理フレームが無音区間である場合について着目したものである。
【0044】
まず有音区間について説明する。有音無音判定器104により現在の処理フレームが有音区間であることを示す判定結果が得られ、聴覚重みフィルタ106、113は、図2の点線で示すような聴覚重みフィルタ生成器102により生成された聴覚重みフィルタ特性とされる。このようなフィルタ特性の聴覚重みフィルタ106、113を用いることにより、小さな振幅の周波数帯域を強調した信号間で誤差を最小化することができる。例えば図3の一点鎖線のような振幅周波数特性をもつ量子化雑音を、図4に示す振幅周波数特性とすることができる。
【0045】
ここで図3及び図4の斜線部の面積は量子化雑音エネルギを示しており、この量子化雑音エネルギはコーデックの構成とビットレートにより決定される。ところで、聴感に対応する雑音の客観尺度としてSN比があり、SN比が同じならば主観的に感じる雑音の大きさは等しい。このことは雑音エネルギが同じならば、信号の振幅周波数特性に合わせて、大きな振幅の周波数帯域の振幅が大きくなるように雑音の振幅周波数特性をシェービングすることで主観的な品質を向上させることができることを意味している。
【0046】
このことから図4に示す量子化雑音の振幅周波数特性は、図3に示す量子化雑音よりも主観的に感じる雑音が小さいということができ、聴覚重みフィルタ106、113により主観的な品質が向上することを示している。
【0047】
これに対して、処理フレームとして、背景雑音が支配的である無音区間が入力された場合、有音無音判定器104により現在の処理フレームが無音区間であることを示す判定結果が得られ、聴覚重みフィルタ106、113はフィルタ変換器105により、図5の破線で示すような高周波数帯域を抑圧するような聴覚重みフィルタ特性とされる。
【0048】
この結果、高周波数帯域にもエネルギを有するような背景雑音が重畳された入力音声が符号化対象となった場合でも、聴覚重みフィルタ106、113により高周波数帯域成分が抑制されるので、二乗誤差最小化器115では例えば4〜5[kHz]までの聴覚上重要となる低周波数帯域の量子化誤差を少なくする音源が選択される。つまり聴感上重要な低周波数帯域に重み付けした誤差尺度に基づいて音源探索することになり、主観的な音声品質を向上させることができる。
【0049】
具体的には、上述したように、二乗誤差最小化器115では、減算器114から出力される差分信号のエネルギが最小となる音源を選択することで、量子化誤差を小さくしている。このため差分信号において高周波数帯域のエネルギを抑制することで、二乗誤差最小化器115は、低周波数帯域の量子化誤差を小さくするような音源を選択するように動作するので、実際上重要となる低周波数帯域の量子化誤差の低減効果が生じる。
【0050】
因みに、音声信号が支配的である有音区間では、音声信号が低周波数帯域に大きなエネルギをもっているので、高周波数帯域をそれほど抑制しなくても、二乗誤差最小化器115により低周波数帯域の量子化誤差を重点的に小さくするような音源が選択されるので、この実施の形態では、有音区間の処理フレームが入力された場合には、聴覚重みフィルタ106、113に高周波数帯域を抑制する特性を持たせないようにしている。
【0051】
以上の構成によれば、入力音声信号を声帯を模した音源情報と声道を模した合成フィルタ情報に分離して符号化する場合に、入力音声信号が有音区間か無音区間かを判定し、音声信号が殆ど含まれず背景雑音が支配的である無音区間であった場合に聴覚重みフィルタ106、113のフィルタ特性を高周波数帯域成分を抑制するように設定したことにより、背景雑音における低周波数帯域での量子化歪みを低減することができる。この結果、聴感上重要な低域をより正確に表現できる音源候補を選択し易くできるので、聴感上の劣化が少ない音声符号化装置100を実現できる。
【0052】
(実施の形態2)
図1との対応部分に同一符号を付して示す図6において、200は全体として本発明の実施の形態2に係る音声信号符号化装置の構成を示す。この実施の形態の音声信号符号化装置200は、雑音符号帳109から出力された雑音音源ベクトルの特性を有音無音判定器104の判定結果に応じて変換する特性変換器201を有すること、及び有音無音判定器104の判定結果の情報を多重化器116に出力することを除いて、実施の形態1の音声信号符号化装置100と同様の構成でなる。
【0053】
特性変換器201はフィルタ変換器105と同様の特性を有する。特性変換器201は有音無音判定器104からの判定結果に応じてフィルタ変換器105に同期して雑音音源ベクトルの周波数特性を変更する。すなわち特性変換器201は、有音無音判定器104から入力処理フレームが無音区間である判定結果が入力されると、雑音符号帳109から入力される雑音音源ベクトルνS(t)に対して、フィルタ変換器105と同じ低域通過フィルタ特性hlpf(t)を用いて、次式で示すフィルタリング処理を施すことにより、特性変換器出力ψS(t)を得る。
【0054】
【数5】
Figure 0003785363
ここで雑音符号帳109には一般に周波数特性が平坦な雑音音源ベクトルが蓄積されているので、特性変換器201は、フィルタ変換器105に同期して無音区間においてこの平坦な周波数特性の雑音音源ベクトルの高周波数帯域を抑制するように周波数特性を変更する。
【0055】
図7に、音声信号符号化装置200により得られた符号化データを復号する音声信号復号装置300の構成を示す。音声信号復号装置300は、分離器301で音声信号符号化装置200から受信した符号化データを線形予測係数、有音無音判定情報、音源ベクトル情報(適応音源ベクトル情報、雑音音源ベクトル情報)及びゲイン定数(適応音源ゲイン定数、雑音音源ゲイン定数)に分離する。そして線形予測係数を合成フィルタ312に、適応音源ベクトル情報を適応符号帳302に、雑音音源ベクトル情報を雑音符号帳304に、適応音源ゲイン定数、雑音音源ゲイン定数をそれぞれ適応符号帳302、雑音符号帳304に対応する乗算器303、307に、有音無音判定情報を有音無音判定器305に送出する。適応符号帳302は過去に生成した音源信号を蓄えている。乗算器303は適応符号帳302から出力された適応音源ベクトルに適応音源ゲイン定数を乗じて適応音源信号を求める。雑音符号帳304は予め定められた音源ベクトルが蓄えられている。
【0056】
有音無音判定器305は音声信号符号化装置200からの有音無音判定情報を用いて処理フレームが有音区間であるか無音区間であるか判定する。特性変換器306は雑音符号帳304から選択された雑音音源ベクトルの特性を有音無音情報に応じて変換する。実際上、特性変換器306は、音声信号符号化装置200の特性変換器201と同様のフィルタ特性を有し、(5)式に基づいて雑音符号帳304から入力された雑音音源ベクトルをフィルタリングする。
【0057】
乗算器307は特性変換器306から出力されたベクトルに雑音音源ゲイン定数を乗じて雑音音源信号を求める。加算器308は適応音源信号と雑音音源信号を加算し音源信号を生成する。
【0058】
雑音生成器309は特性変換器306で変換した雑音音源の周波数領域でのエネルギ分布特性を補完する自励雑音ベクトルを生成する。実際上、雑音生成器309は有音無音情報に基づいて次式により自励雑音ベクトルνr(t)を生成する。
【0059】
【数6】
Figure 0003785363
ここでr(t)は例えば発振器を用いて音声信号符号化装置200と独立して音声信号復号装置300で生成する白色雑音であり、hhpfは特性変換器306で用いたhlpfと相補して全域通過型フィルタを構成する高域通過型フィルタである。
【0060】
乗算器310は有音無音情報及び雑音音源ゲイン定数を利用して決定したゲインを自励雑音ベクトルに乗じ自励雑音信号を出力する。加算器311は音源信号と自励雑音信号を加算し、補正音源信号を生成する。合成フィルタ312は生成された補正音源信号をフィルタリングし復号音声を合成する。
【0061】
以上の構成によれば、音声信号符号化装置200により、誤差算出対象外の周波数帯域で生じる量子化雑音を抑制し、音声信号復号装置300により、定常的な雑音に置換するようにしたことにより、主観的な音声品質を向上させることができる。
【0062】
なお、上述の実施の形態では、有音無音判定情報は符号化装置から送信される構成として説明したが、符号化装置から送信する構成とせず、復号装置で受信した他の情報を用いて判定する構成としても良い。
【0063】
【発明の効果】
以上説明したように、本発明によれば、入力音声信号の処理フレームが、音声信号が支配的である有音区間か、又は非音声信号が支配的である無音区間かを判定し、無音区間である処理フレームが入力音声信号として入力された際、聴覚重みフィルタのフィルタ特性を、高周波数帯域を抑圧するようにしたことにより、背景雑音が重畳された音声信号が入力された場合でも、主観的な品質の劣化を抑制し得る音声信号符号化装置を実現できる。
【図面の簡単な説明】
【図1】本発明の実施の形態1に係る音声信号符号化装置の構成を示すブロック図
【図2】実施の形態での有音区間における聴覚重みフィルタ特性の説明に供する特性曲線図
【図3】聴覚重みフィルタ特性の説明に供する特性曲線図
【図4】実施の形態での有音区間における量子化雑音特性を示す特性曲線図
【図5】実施の形態での無音区間における聴覚重みフィルタ特性の説明に供する特性曲線図
【図6】実施の形態2の音声信号符号化装置の構成を示すブロック図
【図7】実施の形態2の音声信号復号装置の構成を示すブロック図
【図8】符号励振線形予測符号化を行う従来の音声信号符号化装置の構成を示すブロック図
【図9】従来の音声信号復号装置の構成を示すブロック図
【図10】量子化雑音と主観特性の関係を示す特性曲線図
【符号の説明】
100、200 音声信号符号化装置
101 線形予測分析器
102 聴覚重みフィルタ生成器
104、305 有音無音判定器
105 フィルタ変換器
106、113 聴覚重みフィルタ
107、302 適応符号帳
109、304 雑音符号帳
201 特性変換器
300 音声信号復号装置[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a speech signal encoding device, a speech signal decoding device, and a speech signal encoding method, and is particularly suitable for application to code-excited linear prediction (CELP) encoding of a speech signal. is there.
[0002]
[Prior art]
Conventionally, among speech coding that compresses and expands speech used for wired communication, mobile communications, digital recording memos, etc., medium and low bit rate speech coding models the speech generation process and inputs signal information. A method of separating and encoding sound source information imitating a vocal cord and synthesis filter information imitating a vocal tract is generally used. In particular, CELP speech coding, in which a sound source vector is selected from a codebook as sound source information and synthesis filter information is extracted by linear prediction analysis, is widely used.
[0003]
The CELP speech coding method divides speech into a certain frame length (about 5 ms to 50 ms), performs speech linear prediction analysis for each frame, and predicts residual (excitation signal) by linear prediction analysis for each frame. Is encoded using an adaptive code vector having a known waveform and a noise code vector. The adaptive code vector is selected from the adaptive code book that stores the drive excitation vector generated in the past, and the noise code vector is selected from the noise code book that stores a vector having a predetermined shape. .
[0004]
FIG. 8 shows the configuration of a conventional audio signal encoding apparatus of this type. First, in the speech signal encoding device 30, an input speech signal is input to the linear prediction analyzer 1, and the input speech is subjected to linear prediction analysis by the linear prediction analyzer 1. The auditory weight filter generator 2 generates the auditory weight filter 11 using the analyzed linear prediction coefficient. Auditory weight filter H p (Z) is the analyzed linear prediction coefficient {αi | i = 1,..., P} (P is the analysis order), and is expressed using the following equation.
[0005]
[Expression 1]
Figure 0003785363
Where γ Z , Γ P Is the formant emphasis coefficient 0 <γ PZ It is a constant that satisfies <1.
[0006]
The adaptive codebook 5 stores sound source signals generated in the past. A multiplier 6 multiplies the adaptive excitation vector selected from the adaptive codebook 5 by a gain constant to obtain an adaptive excitation signal. The noise codebook 7 stores a predetermined excitation vector. The multiplier 8 multiplies the noise source vector selected from the noise codebook 7 by a gain constant to obtain a noise source signal. The adder 9 adds the adaptive sound source signal and the noise sound source signal to obtain a sound source signal.
[0007]
The synthesis filter 10 obtains synthesized speech by filtering the sound source signal obtained by the adder 9 with a filter composed of linear prediction coefficients. The auditory weight filter 11 performs auditory signal enhancement on the synthesized speech using the filter generated by the auditory weight filter generator 2. The auditory weight filter 12 performs auditory signal enhancement on the input signal.
[0008]
The subtractor 13 obtains an error signal between the input sound and the synthesized sound that are weighted auditorily. The square error minimizer 14 calculates the energy of the error signal and obtains a combination of a sound source vector and a gain constant that minimizes the energy. Then, the sound source vector and gain constant obtained by the square error minimizer 14 and the linear prediction coefficient at that time are multiplexed by the multiplexer 15 to form speech encoded data.
[0009]
FIG. 9 shows the configuration of a speech signal decoding apparatus 40 that decodes the speech encoded data formed in this way. The speech encoded data is input to the separator 17, and the separator 17 separates the speech encoded data into linear prediction coefficients, excitation vectors, and gain constants. The adaptive codebook 18 stores sound source signals generated in the past. The multiplier 19 multiplies the adaptive excitation vector selected from the adaptive codebook 18 by a gain constant to obtain an adaptive excitation signal. The noise codebook 20 stores predetermined excitation vectors.
[0010]
The multiplier 21 multiplies the noise source vector selected from the noise codebook 20 by a gain constant to obtain a noise source signal. The adder 22 adds the adaptive sound source signal and the noise sound source signal to generate a sound source signal. The synthesis filter 23 synthesizes the decoded speech by filtering the generated excitation vector with the synthesis filter 23 configured with the input linear prediction coefficient.
[0011]
By using the code-excited linear predictive coding technique in this way, it is possible to select a sound source that minimizes an error calculated by weighting a frequency band that is easily affected by a quantization error. The audio signal encoding device 30 and the audio signal decoding device 40 that can obtain decoded speech with less quantization distortion can be realized.
[0012]
[Problems to be solved by the invention]
However, there is a problem that subjective voice quality deteriorates particularly when a wide frequency band signal on which background noise is superimposed is given as input voice.
[0013]
This problem will be described with reference to FIG. Human sensitivity changes greatly with respect to the signal at 4 to 5 kHz. In FIG. 10, this auditory characteristic is indicated by a broken line, and in the description here, it is assumed that the sensitivity is 0 with respect to a signal having an amplitude value below the broken line, that is, the signal cannot be detected.
[0014]
Also, the alternate long and short dash line in the figure indicates the noise amplitude frequency characteristic before the auditory weight filter processing, and the thin line in the figure indicates the noise amplitude frequency characteristic after the auditory weight filter processing. At this time, when comparing the subjective quality of the two noise amplitude frequency characteristics indicated by the one-dot chain line and the thin line in the figure, only the frequency band of the amplitude value exceeding the broken line indicating the auditory characteristics affects the subjective quality. The chain line (noise amplitude frequency characteristic before auditory weight filter processing) has a higher SN ratio and is considered to have better subjective quality. That is, in this example, the subjective quality is deteriorated by using the auditory weight filter.
[0015]
This is not a big problem if only the audio signal is used, because the energy is biased toward the low frequency band, but when background noise that has energy in the high frequency band is superimposed on the audio signal, A sound source that reduces a quantization error of a signal in a high frequency band that is not so important is selected, which causes degradation of the quality of decoded speech.
[0016]
The present invention has been made in view of such a point, and even when an audio signal on which background noise is superimposed is input, an audio signal encoding device, an audio signal decoding device, and an audio signal encoding device that can suppress subjective quality degradation, and An object of the present invention is to provide an audio signal encoding method.
[0017]
[Means for Solving the Problems]
In order to solve this problem, the present invention adopts the following configuration.
[0018]
(1) A speech signal encoding apparatus according to the present invention includes linear prediction analysis means for calculating a linear prediction coefficient by performing linear prediction analysis processing on an input speech signal in units of processing frames, an adaptive codebook, and a noise codebook. A synthesis filter that obtains an encoded synthesized sound by performing a filtering process using the linear prediction coefficient on the adaptive sound source and the noise sound source stored in the sound source, obtains the gain of the adaptive sound source and the noise sound source, and further uses the gain. An arithmetic means for searching for codes and gains of an adaptive sound source and a noise sound source that minimize the coding distortion between the obtained synthesized sound and the input sound signal, and an auditory weighting process for the input sound signal and the synthesized sound. The voice filter determines whether the weighting filter and the processing frame of the input audio signal are a sound segment in which the audio signal is dominant or a silence interval in which the non-voice signal is dominant A filter characteristic for converting the filter characteristic of the auditory weight filter so as to suppress a high frequency band when a processing frame determined to be a silent section by the determination unit and the sound / silence determination unit is input as an input audio signal And a conversion means.
[0019]
According to this configuration, it is possible to easily select a sound source candidate that can accurately express a low frequency range that is important for auditory perception, and thus it is possible to form speech encoded data with little perceptual degradation.
[0020]
(2) In addition to (1), the speech signal encoding apparatus according to the present invention further includes sound source information when a processing frame determined to be a silent section by a voiced / silent determination unit is input as an input voice signal. Among the adaptive codebook and the noise codebook provided to generate the signal, the frequency characteristic conversion means for suppressing the high frequency band of the noise source vector output from the noise codebook is employed.
[0021]
(3) The speech signal decoding device of the present invention is a code-excited linear prediction speech signal decoding device that decodes a speech signal using information obtained from the speech signal encoding device of (2), and (2) Using the information obtained from the speech signal encoding apparatus, the sound / silence determination means for determining whether the processing frame is a sound section in which the speech signal is dominant or a silence section in which the non-speech signal is dominant; A characteristic converting means for suppressing a high frequency band of a noise source vector obtained from a noise codebook in a silent section, and a noise vector having a characteristic for complementing a signal energy in a frequency band suppressed with respect to the noise source vector in a silent section. A noise generating means for generating, a multiplying means for estimating a gain of a noise vector generated using the information obtained from the audio signal encoding apparatus of (2) and multiplying the noise vector, and generating The noise employs a configuration which comprises adding means for adding the source signal.
[0022]
According to the configurations of (2) and (3), the high-frequency component signal in which the quantization noise becomes significant with respect to the input signal on which the noise is superimposed can be replaced with stationary noise on the audio signal decoding device side. It is possible to suppress annoying noise caused by quantization noise and to decode and output stable background noise.
[0023]
(4) In the speech signal encoding method of the present invention, a linear prediction coefficient is calculated by subjecting an input speech signal to a linear prediction analysis process in units of processing frames, and stored in an adaptive codebook and a noise codebook. Obtaining a coded synthesized sound by performing filtering processing using the linear prediction coefficient on the adaptive sound source and the noise sound source, obtaining gains of the adaptive sound source and the noise sound source, and obtaining the synthesized sound using the gains. Searching for codes and gains of adaptive sound sources and noise sound sources that minimize coding distortion between the input sound signal and the input sound signal, applying auditory weighting processing to the input sound signal and the synthesized sound, and the input sound signal Determining whether the processing frame is a voiced segment in which the audio signal is dominant or a silent segment in which the non-voice signal is dominant; When the constant is a processing frame is input as an input audio signal, the filter characteristic of the perceptually weighted filter, so as to have a step of converting to suppress the high frequency band, a.
[0024]
According to this method, it is possible to easily select a sound source candidate that can accurately express a low frequency range that is important for auditory perception, and thus speech encoded data with little perceptual degradation can be formed.
[0025]
(5) The program of the present invention is stored in the adaptive codebook and the noise codebook, and the procedure for calculating the linear prediction coefficient by performing linear prediction analysis processing on the input speech signal in units of processing frames for the input speech signal. A procedure for obtaining a coded synthesized sound by performing filtering processing using the linear prediction coefficient on an adaptive sound source and a noise sound source, and obtaining gains of the adaptive sound source and the noise sound source, and a synthesized sound obtained using the gains A procedure for searching for codes and gains of an adaptive sound source and a noise sound source that minimize the coding distortion between the input sound signal and the input sound signal, a procedure for performing auditory weighting processing on the input sound signal and the synthesized sound, and an input sound signal And a procedure for determining whether the processing frame is a voiced section in which the audio signal is dominant or a silent section in which the non-voice signal is dominant, and is determined to be a silent section. When the processing frame is input as an input audio signal, the filter characteristic of the perceptually weighted filter, a configuration to execute a procedure for converting to suppress the high frequency band, a.
[0026]
According to this configuration, the computer can select sound source candidates that can more accurately represent a low frequency range that is important for auditory sense, and can form speech encoded data with little auditory degradation.
[0027]
DETAILED DESCRIPTION OF THE INVENTION
The present inventors consider that static auditory characteristics are considered in the generation of an auditory weighting filter when subjective speech quality deteriorates when a wide frequency band signal superimposed with background noise is given as input speech. Therefore, the present invention has been reached.
[0028]
The essence of the present invention is that the input signal is classified into a voiced section in which the audio signal is dominant and a silent section in which the background noise is dominant, and the auditory weight filter is different in the voiced section and the silent section. That is, the code-excited linear predictive encoding process is performed using the characteristics.
[0029]
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
[0030]
(Embodiment 1)
In FIG. 1, reference numeral 100 generally indicates the configuration of a speech signal encoding apparatus according to Embodiment 1 of the present invention. The speech signal encoding apparatus 100 inputs an input speech signal to the linear prediction analyzer 101. The linear prediction analyzer 101 performs linear prediction analysis on the input speech. Thereby, the linear prediction analyzer 101 obtains linear prediction coefficients {αi | i = 1,..., P}. Here, P is the analysis order.
[0031]
The auditory weight filter generator 102 generates an auditory weight filter using the analyzed linear prediction coefficient. Specifically, the auditory weight filter generator 102 emphasizes the valley of the amplitude frequency characteristic of the filter from the extracted linear prediction coefficient using the following equation: P (Z) is generated.
[0032]
[Expression 2]
Figure 0003785363
Where γ Z , Γ P Is the formant emphasis coefficient 0 <γ PZ It is a constant that satisfies <1. FIG. 2 shows an example of the amplitude frequency characteristic of the auditory weighting filter configured as described above.
[0033]
The speech signal encoding apparatus 100 includes a sound / silence determination unit 104, and causes the sound / silence determination unit 104 to input an input speech signal. The voice / silence determination unit 104 determines whether the processing frame is a voiced section or a silent section from the input voice signal. Here, the voiced section is a section where the audio signal is dominant, and the silent section is a section where the background noise is dominant.
[0034]
Such determination of the voiced section and the silent section can be easily performed based on frequency characteristics and regularity that differ depending on the voice signal and background noise. The sound / silence determination unit 104 sends the determination result to the filter converter 105.
[0035]
When the determination result indicating that the input speech signal is a sound section is input from the sound / silence determination unit 104, the filter converter 105 uses the auditory weight filter characteristic output from the auditory weight filter generator 102 as it is. This is sent to the auditory weight filter 106. On the other hand, when a determination result indicating that the input speech signal is a silent section is input from the sound / silence determination unit 104, the high frequency band of the auditory weight filter characteristic output from the auditory weight filter generator 102 Then, the frequency characteristic is converted so as to suppress the signal, and the result is sent to the auditory weight filter 106.
[0036]
The adaptive codebook 107 stores sound source signals generated in the past. That is, the adaptive codebook 107 is a dynamic codebook that is updated by a sound source signal generated in the past. Multiplier 108 obtains an adaptive excitation signal by multiplying the adaptive excitation vector selected by adaptive codebook 107 by a gain constant. The noise codebook 109 stores predetermined excitation vectors. Multiplier 110 multiplies the noise source vector selected by noise codebook 109 by a gain constant to obtain a noise source signal. The adder 111 adds the adaptive sound source signal and the noise sound source signal to obtain a sound source signal.
[0037]
As described above, in speech signal encoding apparatus 100, a sound source is formed by adaptive codebook 107, noise codebook 109, multipliers 108 and 110, and adder 111, and is selected by adaptive codebook 107 and noise codebook 109. The sound source vectors are multiplied by a constant by multiplier 108 and multiplier 110, respectively, and added by adder 111 to generate a sound source signal.
[0038]
The synthesis filter 112 obtains synthesized speech by filtering the sound source signal output from the adder 111 with a filter composed of linear prediction coefficients. Specifically, the synthesis filter 112 is configured with linear prediction coefficients {αi | i = 1,..., P}, and filters the sound source signal using a filter H (Z) represented by the following equation. Get synthesized speech.
[0039]
[Equation 3]
Figure 0003785363
The auditory weight filter 106 performs auditory signal enhancement on the synthesized speech using the filter generated by the filter converter 105. The auditory weight filter 113 performs auditory signal enhancement on the input voice signal. At this time, the auditory weight filter 113 performs auditory signal enhancement using the filter generated by the filter converter 105.
[0040]
Here, as described above, the filter converter 105 suppresses the high frequency band of the auditory weight filter in the silent period. In this embodiment, the auditory weight filter H is used to realize this process. P The impulse response of (Z) is h p If (t), this h p The impulse response h of the low-pass filter with respect to (t) lpf Synthetic filter F whose frequency characteristic is converted by convolving (t) P (Z) is obtained. At this time, the filter converter 105 outputs the synthesis filter F to be output. P Impulse response f of (Z) p (T) is determined according to the following equation.
[0041]
[Expression 4]
Figure 0003785363
In the auditory weight filter 106 and the auditory weight filter 113, the synthesized speech and the input speech are filtered using the filter determined in this manner, thereby obtaining the input speech and the synthesized speech that are aurally weighted. The subtracter 114 obtains an error signal between the input sound and the synthesized sound that are aurally weighted.
[0042]
The square error minimizer 115 calculates the energy of the error signal and obtains a combination of a sound source vector and a gain constant that minimizes the energy. Then, the sound source vector and gain constant obtained by the square error minimizer 115 and the linear prediction coefficient at that time are multiplexed by the multiplexer 116 to form speech encoded data.
[0043]
Next, the operation of the speech signal encoding apparatus 100 according to this embodiment will be described with reference to FIGS. FIG. 4 focuses on the case where the input audio signal is dominant in the audio signal, that is, the case where the processing frame is a sound section. On the other hand, FIG. 5 focuses on the case where the non-voice signal (background noise) is dominant in the input voice signal, that is, the case where the processing frame is a silent section.
[0044]
First, the sound section will be described. The sound / silence determination unit 104 obtains a determination result indicating that the current processing frame is a sound section, and the auditory weight filters 106 and 113 are generated by the auditory weight filter generator 102 as indicated by a dotted line in FIG. Auditory weight filter characteristics. By using the auditory weight filters 106 and 113 having such filter characteristics, an error can be minimized between signals in which a frequency band with a small amplitude is emphasized. For example, quantization noise having an amplitude frequency characteristic such as a one-dot chain line in FIG. 3 can be used as the amplitude frequency characteristic shown in FIG.
[0045]
Here, the hatched area in FIGS. 3 and 4 indicates the quantization noise energy, and this quantization noise energy is determined by the codec configuration and the bit rate. By the way, there is an SN ratio as an objective measure of noise corresponding to hearing. This means that, if the noise energy is the same, the subjective quality can be improved by shaving the noise amplitude frequency characteristic so that the amplitude of the large frequency band is increased in accordance with the amplitude frequency characteristic of the signal. It means you can do it.
[0046]
Therefore, it can be said that the amplitude frequency characteristic of the quantization noise shown in FIG. 4 is less subjectively felt than the quantization noise shown in FIG. 3, and the subjective quality is improved by the auditory weight filters 106 and 113. It shows that
[0047]
On the other hand, when a silent section in which background noise is dominant is input as a processing frame, the utterance / silence determination unit 104 obtains a determination result indicating that the current processing frame is a silent section. The weighting filters 106 and 113 are set to auditory weighting filter characteristics that suppress high frequency bands as indicated by broken lines in FIG.
[0048]
As a result, even if the input speech on which background noise having energy also in the high frequency band is superimposed becomes the target of encoding, the high frequency band components are suppressed by the auditory weighting filters 106 and 113, so that the square error In the minimizer 115, for example, a sound source that reduces a quantization error in a low frequency band that is important in hearing from 4 to 5 [kHz] is selected. That is, the sound source search is performed based on the error scale weighted to the low frequency band important for hearing, and the subjective voice quality can be improved.
[0049]
Specifically, as described above, the square error minimizer 115 reduces the quantization error by selecting a sound source that minimizes the energy of the difference signal output from the subtractor 114. For this reason, by suppressing the energy in the high frequency band in the difference signal, the square error minimizer 115 operates to select a sound source that reduces the quantization error in the low frequency band. This produces an effect of reducing the quantization error in the low frequency band.
[0050]
Incidentally, in a sound section where the audio signal is dominant, the audio signal has a large energy in the low frequency band. Therefore, even if the high frequency band is not suppressed so much, the square error minimizer 115 can reduce the quantum in the low frequency band. In this embodiment, when a processing frame in a sound section is input, the high-frequency band is suppressed in the auditory weighting filters 106 and 113. I try not to have the characteristics.
[0051]
According to the above configuration, when the input speech signal is separated and encoded into sound source information simulating a vocal cord and synthesis filter information simulating a vocal tract, it is determined whether the input speech signal is a sound segment or a silent segment. By setting the filter characteristics of the auditory weighting filters 106 and 113 so as to suppress the high frequency band component when the sound signal is hardly included and the background noise is dominant, the low frequency in the background noise is set. The quantization distortion in the band can be reduced. As a result, it is possible to easily select a sound source candidate that can more accurately represent a low frequency range that is important for auditory sense, and thus the speech encoding apparatus 100 with little auditory degradation can be realized.
[0052]
(Embodiment 2)
In FIG. 6, in which parts corresponding to those in FIG. 1 are assigned the same reference numerals, 200 indicates the overall configuration of the speech signal encoding apparatus according to Embodiment 2 of the present invention. The audio signal encoding apparatus 200 according to this embodiment includes a characteristic converter 201 that converts the characteristic of the noise source vector output from the noise codebook 109 according to the determination result of the utterance / non-utterance determination unit 104, and The configuration is the same as that of the speech signal encoding apparatus 100 of Embodiment 1 except that the information of the determination result of the sound / silence determination unit 104 is output to the multiplexer 116.
[0053]
The characteristic converter 201 has the same characteristics as the filter converter 105. The characteristic converter 201 changes the frequency characteristic of the noise source vector in synchronization with the filter converter 105 according to the determination result from the utterance / non-utterance determination unit 104. That is, when the determination result that the input processing frame is a silent section is input from the sound / silence determination unit 104, the characteristic converter 201 receives the noise excitation vector ν input from the noise codebook 109. S For (t), the same low-pass filter characteristic h as the filter converter 105 lpf Using (t), the characteristic converter output ψ is obtained by performing a filtering process represented by the following equation: S (T) is obtained.
[0054]
[Equation 5]
Figure 0003785363
Here, since the noise codebook 109 generally stores a noise source vector having a flat frequency characteristic, the characteristic converter 201 synchronizes with the filter converter 105 and the noise source vector having the flat frequency characteristic in the silent period. The frequency characteristics are changed so as to suppress the high frequency band.
[0055]
FIG. 7 shows a configuration of audio signal decoding apparatus 300 that decodes encoded data obtained by audio signal encoding apparatus 200. The audio signal decoding apparatus 300 converts the encoded data received from the audio signal encoding apparatus 200 by the separator 301 into linear prediction coefficients, sound / silence determination information, excitation vector information (adaptive excitation vector information, noise excitation vector information), and gain. Separated into constants (adaptive sound source gain constant, noise sound source gain constant). Then, the linear prediction coefficient is set in the synthesis filter 312, the adaptive excitation vector information in the adaptive codebook 302, the noise excitation vector information in the noise codebook 304, the adaptive excitation gain constant and the noise excitation gain constant in the adaptive codebook 302, and the noise code, respectively. The sound / silence determination information is sent to the sound / silence determination unit 305 to the multipliers 303 and 307 corresponding to the book 304. Adaptive codebook 302 stores sound source signals generated in the past. Multiplier 303 multiplies the adaptive excitation vector output from adaptive codebook 302 by an adaptive excitation gain constant to obtain an adaptive excitation signal. The noise codebook 304 stores predetermined excitation vectors.
[0056]
The sound / silence determination unit 305 determines whether the processing frame is a sound section or a silence section using the sound / silence determination information from the speech signal encoding device 200. The characteristic converter 306 converts the characteristic of the noise source vector selected from the noise codebook 304 according to the voiced / silent information. In practice, the characteristic converter 306 has the same filter characteristics as the characteristic converter 201 of the speech signal encoding apparatus 200, and filters the noise source vector input from the noise codebook 304 based on the equation (5). .
[0057]
Multiplier 307 multiplies the vector output from characteristic converter 306 by a noise source gain constant to obtain a noise source signal. The adder 308 adds the adaptive sound source signal and the noise sound source signal to generate a sound source signal.
[0058]
The noise generator 309 generates a self-excited noise vector that complements the energy distribution characteristic in the frequency domain of the noise source converted by the characteristic converter 306. In practice, the noise generator 309 generates a self-excited noise vector v r (T) is generated.
[0059]
[Formula 6]
Figure 0003785363
Here, r (t) is white noise generated by the audio signal decoding device 300 independently of the audio signal encoding device 200 using an oscillator, for example, h hpf H used in the characteristic converter 306 lpf Is a high-pass filter constituting an all-pass filter.
[0060]
The multiplier 310 multiplies the self-excited noise vector by the gain determined using the sound / silent information and the noise source gain constant, and outputs a self-excited noise signal. The adder 311 adds the sound source signal and the self-excited noise signal to generate a corrected sound source signal. The synthesis filter 312 filters the generated corrected excitation signal and synthesizes decoded speech.
[0061]
According to the above configuration, the speech signal encoding device 200 suppresses quantization noise generated in a frequency band that is not subject to error calculation, and the speech signal decoding device 300 replaces the noise with stationary noise. , Subjective voice quality can be improved.
[0062]
In the above-described embodiment, the sound / silence determination information has been described as being configured to be transmitted from the encoding device, but is not configured to be transmitted from the encoding device, and is determined using other information received by the decoding device. It is good also as composition to do.
[0063]
【The invention's effect】
As described above, according to the present invention, it is determined whether the processing frame of the input sound signal is a sound period in which the sound signal is dominant or a silence period in which the non-speech signal is dominant. When a processing frame is input as an input audio signal, the filter characteristics of the auditory weighting filter are suppressed in the high frequency band, so that even if an audio signal with background noise superimposed is input, Therefore, it is possible to realize a speech signal encoding device that can suppress the deterioration of quality.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a speech signal encoding apparatus according to Embodiment 1 of the present invention.
FIG. 2 is a characteristic curve diagram for explaining auditory weight filter characteristics in a voiced section in the embodiment.
FIG. 3 is a characteristic curve diagram for explaining auditory weight filter characteristics.
FIG. 4 is a characteristic curve diagram showing quantization noise characteristics in a sound section in the embodiment.
FIG. 5 is a characteristic curve diagram for explaining auditory weight filter characteristics in a silent section in the embodiment.
6 is a block diagram showing a configuration of a speech signal encoding apparatus according to Embodiment 2. FIG.
7 is a block diagram showing a configuration of an audio signal decoding apparatus according to Embodiment 2. FIG.
FIG. 8 is a block diagram showing a configuration of a conventional speech signal encoding apparatus that performs code excitation linear prediction encoding;
FIG. 9 is a block diagram showing a configuration of a conventional audio signal decoding apparatus.
FIG. 10 is a characteristic curve diagram showing the relationship between quantization noise and subjective characteristics.
[Explanation of symbols]
100, 200 Audio signal encoding apparatus
101 Linear prediction analyzer
102 Auditory weight filter generator
104, 305 Sound / silence determination device
105 Filter converter
106,113 Auditory weight filter
107, 302 Adaptive codebook
109, 304 Noise codebook
201 Characteristic converter
300 Audio signal decoding device

Claims (4)

入力音声信号に対して処理フレーム単位で線形予測分析処理を施すことにより線形予測係数を算出する線形予測分析手段と、
適応符号帳及び雑音符号帳に格納された適応音源及び雑音音源に対して前記線形予測係数を用いたフィルタリング処理を施すことにより符号化合成音を得る合成フィルタと、
前記適応音源及び前記雑音音源のゲインを求め、さらに前記ゲインを用いて得られる前記合成音と前記入力音声信号との間の符号化歪みが最小となる前記適応音源及び前記雑音音源の符号及び前記ゲインを探索する演算手段と、
前記入力音声信号及び前記合成音に対して聴覚重み付け処理を施す聴覚重みフィルタと、
前記入力音声信号の処理フレームが、音声信号が支配的である有音区間か、又は非音声信号が支配的である無音区間かを判定する有音無音判定手段と、
前記有音無音判定手段により無音区間であると判定された処理フレームが前記入力音声信号として入力された際、前記聴覚重みフィルタのフィルタ特性を、高周波数帯域を抑圧するように変換するフィルタ特性変換手段と
前記有音無音判定手段により無音区間であると判定された処理フレームが前記入力音声信号として入力された際、音源情報を生成するために設けられた適応符号帳及び雑音符号帳のうち、雑音符号帳から出力される雑音音源ベクトルの高周波数帯域を抑圧する周波数特性変換手段と
を具備することを特徴とする音声信号符号化装置。
Linear prediction analysis means for calculating a linear prediction coefficient by applying linear prediction analysis processing to the input speech signal in units of processing frames;
A synthesis filter that obtains a coded synthesized sound by performing a filtering process using the linear prediction coefficient on the adaptive sound source and the noise sound source stored in the adaptive code book and the noise code book;
Obtaining the gains of the adaptive sound source and the noise sound source, and further, the adaptive sound source and the noise sound source code that minimize the coding distortion between the synthesized sound and the input speech signal obtained using the gain, and Computing means for searching for gain;
An auditory weighting filter that applies auditory weighting processing to the input voice signal and the synthesized sound;
Voiced / silent determination means for determining whether the processing frame of the input voice signal is a voiced section in which the voice signal is dominant or a silent section in which the non-voice signal is dominant;
Filter characteristic conversion for converting a filter characteristic of the auditory weight filter so as to suppress a high frequency band when a processing frame determined to be a silent section by the voiced / silent determination unit is input as the input voice signal Means ,
Among the adaptive codebook and noise codebook provided to generate sound source information when the processing frame determined to be a silent section by the voiced / silent determination means is input as the input voice signal, a noise code An audio signal encoding apparatus comprising: frequency characteristic conversion means for suppressing a high frequency band of a noise source vector output from a book .
請求項に記載の音声信号符号化装置から得られる情報を用いて音声信号を復号する符号励振線形予測型の音声信号復号装置であって、
請求項の音声信号符号化装置から得られる情報を用いて、処理フレームが音声信号が支配的である有音区間か、又は非音声信号が支配的である無音区間かを判定する有音無音判定手段と、
無音区間において雑音符号帳から得られる雑音音源ベクトルの高周波数帯域を抑圧する特性変換手段と、
無音区間において雑音音源ベクトルに対して抑圧した周波数帯域の信号エネルギを補完する特性を有する雑音ベクトルを生成する雑音生成手段と、
請求項の音声信号符号化装置から得られる情報を用いて生成した雑音ベクトルのゲインを推定し、雑音ベクトルに乗ずる乗算手段と、
生成した雑音を音源信号に加算する加算手段と
を具備することを特徴とする音声信号復号装置。
A code-excited linear prediction type speech signal decoding device that decodes a speech signal using information obtained from the speech signal encoding device according to claim 1 ,
Using the information obtained from the speech signal encoding apparatus according to claim 1, the sound and silence for determining whether the processing frame is a sound segment in which the speech signal is dominant or a silence segment in which the non-speech signal is dominant A determination means;
Characteristic conversion means for suppressing a high frequency band of a noise source vector obtained from a noise codebook in a silent section;
Noise generating means for generating a noise vector having a characteristic of complementing signal energy in a frequency band suppressed with respect to a noise source vector in a silent section;
Multiplication means for estimating a gain of a noise vector generated using information obtained from the speech signal encoding device of claim 1 and multiplying the noise vector;
An audio signal decoding apparatus comprising: addition means for adding generated noise to a sound source signal.
入力音声信号に対して処理フレーム単位で線形予測分析処理を施すことにより線形予測係数を算出するステップと、適応符号帳及び雑音符号帳に格納された適応音源及び雑音音源に対して前記線形予測係数を用いたフィルタリング処理を施すことにより符号化合成音を得るステップと、前記適応音源及び前記雑音音源のゲインを求め、このゲインを用いて得られる前記合成音と前記入力音声信号との間の符号化歪みが最小となる前記適応音源及び前記雑音音源の符号及び前記ゲインを探索するステップと、前記入力音声信号及び前記合成音に対して聴覚重み付け処理を施すステップと、前記入力音声信号の処理フレームが、音声信号が支配的である有音区間か、又は非音声信号が支配的である無音区間かを判定するステップと、無音区間であると判定された処理フレームが前記入力音声信号として入力された際、前記聴覚重みフィルタのフィルタ特性を、高周波数帯域を抑圧するように変換するステップと、無音区間であると判定された処理フレームが入力音声信号として入力された際、音源情報を生成するために設けられた適応符号帳及び雑音符号帳のうち、雑音符号帳から出力される雑音音源ベクトルの高周波数帯域を抑圧するステップと、を有することを特徴とする音声信号符号化方法。A step of calculating a linear prediction coefficient by performing a linear prediction analysis process on the input speech signal in units of processing frames; and the linear prediction coefficient for the adaptive sound source and the noise sound source stored in the adaptive code book and the noise code book Obtaining a coded synthesized sound by performing a filtering process using, obtaining gains of the adaptive sound source and the noise sound source, and a code between the synthesized sound and the input speech signal obtained using the gains Searching for codes and gains of the adaptive sound source and the noise sound source that minimize the quantization distortion, applying an auditory weighting process to the input sound signal and the synthesized sound, and processing frames of the input sound signal Determining whether the voice signal is dominant or the non-voice signal is silent. When the determination has been processed frame that is input as the input audio signal, the filter characteristic of the auditory weighting filter, and converting to suppress the high frequency band, the processing frame which is determined to be silent section A step of suppressing a high frequency band of a noise excitation vector output from the noise codebook among the adaptive codebook and noise codebook provided to generate excitation information when input as an input speech signal; An audio signal encoding method comprising: コンピュータに、入力音声信号に対して処理フレーム単位で線形予測分析処理を施すことにより線形予測係数を算出する手順と、適応符号帳及び雑音符号帳に格納された適応音源及び雑音音源に対して前記線形予測係数を用いたフィルタリング処理を施すことにより符号化合成音を得る手順と、前記適応音源及び前記雑音音源のゲインを求め、このゲインを用いて得られる前記合成音と前記入力音声信号との間の符号化歪みが最小となる前記適応音源及び前記雑音音源の符号及び前記ゲインを探索する手順と、前記入力音声信号及び前記合成音に対して聴覚重み付け処理を施す手順と、前記入力音声信号の処理フレームが、音声信号が支配的である有音区間か、又は非音声信号が支配的である無音区間かを判定する手順と、無音区間であると判定された処理フレームが前記入力音声信号として入力された際、前記聴覚重みフィルタのフィルタ特性を、高周波数帯域を抑圧するように変換する手順と、無音区間であると判定された処理フレームが入力音声信号として入力された際、音源情報を生成するために設けられた適応符号帳及び雑音符号帳のうち、雑音符号帳から出力される雑音音源ベクトルの高周波数帯域を抑圧する手順と、を実行させるためのプログラム。A procedure for calculating a linear prediction coefficient by performing linear prediction analysis processing on the input speech signal in units of processing frames for an input speech signal, and the adaptive sound source and the noise sound source stored in the adaptive code book and the noise code book A procedure for obtaining a coded synthesized sound by performing a filtering process using a linear prediction coefficient, obtaining gains of the adaptive sound source and the noise sound source, and obtaining the synthesized sound obtained using the gain and the input speech signal A procedure for searching for codes and gains of the adaptive sound source and the noise sound source that minimize the coding distortion between them, a procedure for performing auditory weighting processing on the input sound signal and the synthesized sound, and the input sound signal A procedure for determining whether the processing frame is a voiced section in which the audio signal is dominant or a silent section in which the non-voice signal is dominant, and a silent section When the constant is a processing frame is input as said input audio signal, the filter characteristic of the auditory weighting filter, and the procedure for converting to suppress the high frequency band, the processing frame which is determined to be silent section input A step of suppressing a high frequency band of a noise excitation vector output from a noise codebook among adaptive codebooks and noise codebooks provided for generating excitation information when input as a speech signal Program to let you.
JP2001396474A 2001-12-27 2001-12-27 Audio signal encoding apparatus, audio signal decoding apparatus, and audio signal encoding method Expired - Fee Related JP3785363B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001396474A JP3785363B2 (en) 2001-12-27 2001-12-27 Audio signal encoding apparatus, audio signal decoding apparatus, and audio signal encoding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001396474A JP3785363B2 (en) 2001-12-27 2001-12-27 Audio signal encoding apparatus, audio signal decoding apparatus, and audio signal encoding method

Publications (2)

Publication Number Publication Date
JP2003195900A JP2003195900A (en) 2003-07-09
JP3785363B2 true JP3785363B2 (en) 2006-06-14

Family

ID=27602558

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001396474A Expired - Fee Related JP3785363B2 (en) 2001-12-27 2001-12-27 Audio signal encoding apparatus, audio signal decoding apparatus, and audio signal encoding method

Country Status (1)

Country Link
JP (1) JP3785363B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2063418A4 (en) 2006-09-15 2010-12-15 Panasonic Corp Audio encoding device and audio encoding method
JP4905262B2 (en) * 2007-06-08 2012-03-28 カシオ計算機株式会社 Speech coding apparatus, speech decoding apparatus, speech coding method, speech decoding method, and program
CN102800317B (en) * 2011-05-25 2014-09-17 华为技术有限公司 Signal classification method and equipment, and encoding and decoding methods and equipment

Also Published As

Publication number Publication date
JP2003195900A (en) 2003-07-09

Similar Documents

Publication Publication Date Title
JP3653826B2 (en) Speech decoding method and apparatus
RU2262748C2 (en) Multi-mode encoding device
JP4308345B2 (en) Multi-mode speech encoding apparatus and decoding apparatus
JP4040126B2 (en) Speech decoding method and apparatus
JPWO2006120931A1 (en) Encoding device, decoding device and methods thereof
EP1096476B1 (en) Speech signal decoding
JP3357795B2 (en) Voice coding method and apparatus
JPH09152896A (en) Sound path prediction coefficient encoding/decoding circuit, sound path prediction coefficient encoding circuit, sound path prediction coefficient decoding circuit, sound encoding device and sound decoding device
EP1619666B1 (en) Speech decoder, speech decoding method, program, recording medium
CN108053830B (en) Decoding method, decoding device, and computer-readable recording medium
JP3785363B2 (en) Audio signal encoding apparatus, audio signal decoding apparatus, and audio signal encoding method
JP3612260B2 (en) Speech encoding method and apparatus, and speech decoding method and apparatus
JP2003044099A (en) Pitch cycle search range setting device and pitch cycle searching device
JP2004302259A (en) Hierarchical encoding method and hierarchical decoding method for sound signal
JP3490324B2 (en) Acoustic signal encoding device, decoding device, these methods, and program recording medium
JP4438280B2 (en) Transcoder and code conversion method
JP4343302B2 (en) Pitch emphasis method and apparatus
JP4820954B2 (en) Harmonic noise weighting in digital speech encoders
JP2004151423A (en) Band extending device and method
JP3192051B2 (en) Audio coding device
JP3468862B2 (en) Audio coding device
JP2010186190A (en) Quantized lsp parameter dynamic feature extractor and quantized lsp parameter dynamic feature extracting method
WO2012053146A1 (en) Encoding device and encoding method
JP3390923B2 (en) Audio processing method
JPH08221098A (en) Speech coding and decoding device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040301

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060307

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060317

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090324

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100324

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110324

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110324

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120324

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130324

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130324

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees