JP2008139447A - 音声符号化装置及び音声復号装置 - Google Patents

音声符号化装置及び音声復号装置 Download PDF

Info

Publication number
JP2008139447A
JP2008139447A JP2006324134A JP2006324134A JP2008139447A JP 2008139447 A JP2008139447 A JP 2008139447A JP 2006324134 A JP2006324134 A JP 2006324134A JP 2006324134 A JP2006324134 A JP 2006324134A JP 2008139447 A JP2008139447 A JP 2008139447A
Authority
JP
Japan
Prior art keywords
lsp
unit
speech
quantization
codebook
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006324134A
Other languages
English (en)
Inventor
Hisashi Yajima
久 矢島
Tadashi Yamaura
正 山浦
Satoshi Furuta
訓 古田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2006324134A priority Critical patent/JP2008139447A/ja
Publication of JP2008139447A publication Critical patent/JP2008139447A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】低いビットレートで符号化伝送し、かつ高域周波数帯の再現性がよい音声符号化装置及び音声復号装置を提供する。
【解決手段】狭帯域のLSP情報を格納する狭帯域LSP符号帳16と、狭帯域LSP符号帳16の狭帯域のスペクトル包絡を外挿して全帯域のスペクトル包絡情報を求める高域スペクトル外挿部18とを備え、符号化対象音声のスペクトル包絡情報を量子化するにあたり、該符号化対象音声のスペクトル包絡情報と比較する量子化データとして、高域スペクトル外挿部18により求められた全帯域のスペクトル包絡情報を用いて量子化誤差を評価する。
【選択図】図2

Description

この発明は、音声信号を符号化、復号する音声符号化装置及び音声復号装置に関するものである。
符号励振線形予測(CELP:Code Excited Linear Prediction)による、音声信号を対象とした高能率音声符号化方式のうち、単位パルスで構成される代数符号帳を用いて、励振信号の雑音成分を表現する代数的符号励振線形予測(ACELP:Algebraic Code-Excited Linear Prediction)が、各種標準方式として採用されている。このACELP符号化方式については、非特許文献1〜3に記載されている。また、狭帯域音声符号から広帯域音声信号を復元する技術としては、例えば特許文献1及び特許文献2に開示されるものがある。
ITU-T Recommendation G.729, "Coding of Speech at 8kbit/s using Conjugate-Structure Algebraic-Code-Excited Linear-Prediction(CS-ACELP)" (TTC標準JT-G729、「8kbit/s CS-ACELPを用いた音声符号化方式」(社)情報通信技術委員会、1999年制定) ITU-T Recommendation G.722.2, "Wideband coding of speech at around 16kbit/s using Adaptive Multi-Rate Wideband(AMR-WB)" (TTC標準JT-G722.2、「適応マルチレート広帯域(AMR-WB)方式を用いた16kbit/s程度の広帯域音声符号化」(社)情報通信技術委員会、2004年制定) 3rd Generation Partnership Project(3GPP), Technical Specification(TS) 26.090, "AMR speech codec; Transcoding functions", Version 4.0.0 (2001-03) 特開平6−118995号公報 特開平8−123495号公報
従来のCELP方式による広帯域音声信号の符号化では、符号化音声品質をできるだけ維持しつつ、低ビットレート(電話帯域で8kbit/s以下、主に4kbit/s程度、7kHz帯域でおよそ16kbit/s以下、主に8kbit/s程度)で符号化伝送される。このため、音声信号において比較的重要な情報を含まない高周波数帯域の信号成分(高域成分)を、特許文献1、2に開示されるような広帯域音声信号の復元手法を用いて疑似的に復元することにより伝送情報量を削減している。
例えば、非特許文献2に記載されるAMR−WB方式の符号化では、符号化の対象とする信号を低周波数帯域の信号成分(低域成分)のみとし、高域成分については低域成分から推定した信号を疑似的に付与する。また、音声復号装置において、乱数発生器で生成した擬似的な励振信号を用いて復号処理を行っている。
このように、従来の符号化方式は、音声符号化方式に依存することなく、高域成分を復元再生することが可能であるが、高域成分を擬似的に生成するため、低域成分から推定しきれないスペクトル形状は正確に復元できない。また、励振信号を乱数に置き換えるため、励振信号が本来持っている位相情報等の復元も不可能である。このため、音声品質の劣化が避けられないという課題があった。
例えば、高域信号のスペクトル成分が実際の音声信号のスペクトル成分に一致あるいは似通ったスペクトル包絡に外挿されれば、復号音声にこもりや違和感などは発生しない。しかしながら、低域信号のスペクトル成分によっては、音声復号装置で実際の音声信号のスペクトル包絡から大きく外れた高域信号のスペクトル外挿がなされることもある。この場合、音声復号装置では、実際の音声信号のスペクトル成分に関する情報が完全に失われてしまっているため、誤差検証や誤差評価によりスペクトル外挿を補正できず、復号音声がこもったり、違和感を伴う場合がある。
この発明は、上記のような課題を解決するためになされたもので、低いビットレートで符号化伝送し、かつ高域周波数帯の再現性がよい音声符号化装置及び音声復号装置を得ることを目的とする。
この発明に係る音声符号化装置は、符号化対象音声のスペクトル包絡情報を量子化するにあたり、該符号化対象音声のスペクトル包絡情報と比較する量子化データとして狭帯域のスペクトル包絡を外挿してなる全帯域のスペクトル包絡情報を用いて量子化誤差を評価するものである。
この発明によれば、符号化対象の音声信号のスペクトル包絡情報を量子化するにあたり、該符号化対象音声のスペクトル包絡情報と比較する量子化データとして狭帯域のスペクトル包絡を外挿してなる全帯域のスペクトル包絡情報を用いて量子化誤差を評価するので、低いビットレートで符号化データを伝送することができ、かつ予測する周波数帯の音声信号の再現性を向上させることができるという効果がある。
実施の形態1.
図1は、この発明の実施の形態1で符号化の対象とする周波数帯域を説明するための図であり、音声信号のスペクトルを示しており、横軸は周波数、縦軸はスペクトルのパワーを示している。また、図1では、入力信号のサンプリング周波数を16kHz、ダウンサンプリング後のサンプリング周波数を12.8kHz、符号化フレーム長を20ms(ミリ秒)とし、符号化サブフレーム長を5ms(1サブフレームのサンプル数が64サンプル)と仮定している。
図1において、低域信号のスペクトル候補Alの情報に基づいて高域信号のスペクトル概形を外挿すると、実際のスペクトル包絡から大きく外れたスペクトル概形Ahが外挿される。また、低域信号のスペクトル候補Blの情報に基づく処理では、実際のスペクトル包絡に一致あるは似通った高域信号のスペクトル概形Bhが外挿される。
上述したように、従来の符号化方式では、符号化対象の音声信号を低域成分のみとし、高域成分については低域成分から推定した信号を疑似的に付与する。このため、音声復号装置で、低域信号におけるスペクトル候補としてスペクトル候補Blが選ばれる場合もあるが、スペクトル候補Alが選択される可能性も否めない。
一方、実施の形態1による音声符号化装置では、音声復号装置と同様の高域スペクトル外挿機能を有し、音声信号の高域成分のスペクトル概形も外挿されたスペクトル包絡(例えば、LSP)を用いて符号化データを得る。すなわち、スペクトル包絡情報を量子化(例えば、LSP量子化)するにあたり、高域信号成分も量子化誤差の評価対象に加えて擬似広帯域拡張を行う。これにより、実際のスペクトル包絡から大きく外れた高域成分が復元されることがなくなり、高域成分の再現性を改善することが可能となる。
例えば、図1に示す高域信号もスペクトル量子化の誤差評価対象に加わるため、音声復号装置でスペクトル候補Alが選ばれる確率は著しく低下し、実際のスペクトル包絡に一致するスペクトル概形Bhが外挿される。これにより、音声復号装置で再生される高域成分の音声品質の劣化を防ぐことができる。
図2は、この発明の実施の形態1による音声符号化装置の構成を示す図である。実施の形態1による音声符号化装置は、ダウンサンプリング部1、合成フィルタ8、減算器9、聴覚重み付けフィルタ10、最小誤差探索部11、多重化部12、駆動音源生成部13、スペクトル分析部19及び高域信号利得量子化部20を備える。
ダウンサンプリング部1は、入力された音声信号をダウンサンプリングする。図2の例では、サンプリング周波数を16kHzから12.8kHzにダウンサンプリングする。合成フィルタ8は、スペクトル分析部19のスペクトル分析結果であるフィルタパラメータを用いて、駆動音源生成部13から入力した駆動音源信号(励振信号)に合成フィルタ処理を施して合成音声を生成する。
減算器9は、ダウンサンプリング部1でサンプリングされた入力音声から合成フィルタ8で生成された合成音声を減算して歪み成分を求める。聴覚重み付けフィルタ10は、減算器9で算出された歪み成分に対し、入力音声のスペクトルに基づいて重み付け(人間の聴覚の特性に基づいた重み付け)を行う。
最小誤差探索部11は、聴覚重み付けフィルタ10から出力された歪み成分のパワーを比較し、歪み成分が最小となる合成音声が生成された駆動音源信号を選択する。多重化部12は、最小誤差探索部11で選択された駆動音源信号についての適応符号帳2、代数符号帳3及び利得符号帳4のインデックス、高域信号利得量子化部20からの高域信号の利得(高域利得)、及びLSP量子化部15aからのスペクトル情報を多重化する。
駆動音源生成部13は、適応符号帳2、代数符号帳3、利得符号帳4、利得乗算器5,6及び加算器7を備える。適応符号帳2は、過去に生成した駆動音源信号を蓄積する。代数符号帳3は、振幅が一定の所定本数の単位パルスで構成され、該単位パルスの位置情報で駆動音源信号が表現される。利得符号帳4には、適応符号帳2と代数符号帳3に対する利得値の候補が格納されており、各利得値の候補にはインデックスが付されている。
なお、適応符号帳2のインデックスは、駆動音声信号のピッチ周期で表現される(以下、ピッチ情報と称す)。また、代数符号帳3のインデックスは、各単位パルスの位置情報と極性(正負)で表現される。駆動音源信号は、これら符号帳2〜4の要素を適宜組み合わせることによって構成され、音声信号の1フレーム長分若しくは1フレームを時間軸上で分割したサブフレーム長単位に生成される。
利得乗算器5は、適応符号帳2からの駆動音源信号に対し、利得符号帳4から入力した該駆動音源信号に対応する利得値を乗算する。利得乗算器6は、代数符号帳3からの単位パルスに対し、利得符号帳4から入力した該単位パルスに対応する利得値を乗算する。加算器7は、利得が乗算された適応符号帳2の出力信号と代数符号帳3の出力信号とを加算し、駆動音源信号として出力する。
駆動音源生成部13では、適応符号帳2、代数符号帳3、利得符号帳4の各要素の組み合わせの一部あるいは組み合わせの全てについて駆動音源信号を生成する。このようにして生成された駆動音源信号の全ては、合成フィルタ8によってそれぞれ合成音声とされ、入力音声と比較される。歪みが最小となる合成音声を生成する駆動音源信号が最小誤差探索部11によって選択されると、該駆動音源信号を生成する、適応符号帳2、代数符号帳3及び利得符号帳4の各要素のインデックスがそれぞれ多重化部12へ送られる。
スペクトル分析部19は、LPC分析部14、LSP量子化部15a、LSP逆量子化部15b、狭帯域LSP符号帳16、LSP−LPC変換部17及び高域スペクトル外挿部18を備える。LPC分析部14は、所定長のフレームごとに区切った音声信号に対して全帯域線形予測(LPC分析)を行い、LPC(linear predictor coefficients)を求める。なお、LPC分析部14は、従来の音声符号化方式と異なり、ダウンサンプリング部1でダウンサンプリングされる前の音声信号をLPC分析する。また、LPC分析部14は、後述するダウンサンプリング部1に内蔵される低域通過FIRフィルタの遅延分を補償するための、遅延バッファを内蔵する。
LSP量子化部15aは、LPC分析部14が入力音声から求めたLSPベクトルと、高域スペクトル外挿部18によって高域成分のスペクトル概形が外挿されたLSP候補ベクトルとを入力して量子化処理を行う。LSP逆量子化部15bでは、LSP量子化部15aで選択されたLSP候補ベクトルのインデックス(スペクトル情報)に基づいて、狭帯域LSP符号帳16を探索し、対応する量子化LSPベクトルを抽出する。
狭帯域LSP符号帳16は、狭帯域の周波数成分(0Hz〜6.4kHz)をもつLSPの集合体である。なお、上限値は6.4kHzに限定されないが、符号化の対象となる帯域の上限周波数(ナイキスト周波数)を超えない範囲であるものとする。LSP−LPC変換部17は、LSP逆量子化部15bで復号された量子化LSP(低域成分のみ)をLPCに変換し、スペクトル分析結果のフィルタパラメータとして合成フィルタ8に出力する。例えば、非特許文献1に開示される手法を用いてLSPをLPCに変換する。
高域スペクトル外挿部18は、後述する音声復号装置に設けた高域スペクトル外挿部27と同等の機能を有し、狭帯域LSP符号帳16の各LSP候補ベクトルに対して高域信号のスペクトル概形を外挿する。高域信号利得量子化部20は、入力された音声信号の高域成分の利得を量子化する。
図3は、この発明の実施の形態1による音声復号装置の構成を示す図である。この実施の形態1による音声復号装置は、図2と同様の機能を有する適応符号帳2、代数符号帳3、利得符号帳4、利得乗算器5,6、加算器7、合成フィルタ8、狭帯域LSP符号帳16及びLSP−LPC変換部17を備え、さらに多重分離部21、高域信号利得復号部22、乱数発生器23、利得乗算器24、合成フィルタ25、LSP−LPC変換部26、高域スペクトル外挿部27、バンドパスフィルタ28、アップサンプリング部29及び加算器30を備える。
多重分離部21は、図1に示した音声符号化装置から受信した符号化データを、各符号化パラメータ(高域利得、スペクトル情報(スペクトル包絡情報)、ピッチ情報、パルス情報)に分離する。高域信号利得復号部22は、符号化データから分離された高域利得を逆量子化して高域成分の利得値を求める。
乱数発生器23は、周期性を持たない乱数で励振信号に相当する信号(擬似的な励振信号)を生成する。図3の例では、サンプリング周波数Fs=16kHzで乱数を利得乗算器24に出力する。利得乗算器24は、乱数発生器23からの励振信号に相当する乱数と高域信号利得復号部22により復号された高域利得値とを乗算する。
合成フィルタ25は、LSP−LPC変換部26から入力したフィルタパラメータを用いて、利得乗算器24から入力した音声信号(駆動音源信号)に対して合成フィルタ処理を施して合成音声を生成する。LSP−LPC変換部26は、高域スペクトル外挿部27により高域成分のスペクトル概形が外挿されたLSPをLPCに変換する。
高域スペクトル外挿部27は、狭帯域LSP符号帳16で選択された低域信号のLSPに高域信号のスペクトル概形を外挿する。バンドパスフィルタ28は、合成フィルタ25で生成された合成音声から所定周波数帯域の信号成分のみを通過させる。
アップサンプリング部29は、合成フィルタ8から入力した合成信号をアップサンプリングする。図3の例では、サンプリング周波数を12.8kHzから16kHzにアップサンプリングする。加算器30は、バンドパスフィルタ28の通過信号とアップサンプリング部29でサンプリングされた合成信号を加算する。
次に動作について説明する。
(1)符号化処理
実施の形態1による音声符号化装置は、所定音声フレーム長ごとに音声信号を入力し、ダウンサンプリング部1、スペクトル分析部19、及び高域信号利得量子化部20に入力される。ここで、非特許文献2等に記載される従来の符号化方式は、ダウンサンプリングされた音声信号をスペクトル分析するのに対して、この実施の形態1による音声符号化装置では、ダウンサンプリングされていない音声信号をスペクトル分析する。なお、以降の説明では、サンプリング周波数が16kHzで、フレーム長が20msの音声信号を入力するものと仮定する。
ダウンサンプリング部1は、上記フレーム長単位に入力した音声信号をダウンサンプリングして減算器9に出力する。ここでは、ダウンサンプリング周波数が16kHzから12.8kHzになるように入力音声信号を間引きする。この間引き処理は、例えば最初に4倍にアップサンプルし、その出力を6.4kHzの遮断周波数を持つ低域通過FIRフィルタでフィルタリングすることにより行われ、出力信号が1/5にダウンサンプルされる。
また、高域信号利得量子化部20では、上記フレーム長単位に入力した音声信号の高域有声強度を算出し、該音声信号と高域有声強度から高域成分の利得を求め、この高域成分の利得値を量子化して多重化部12に出力する。
スペクトル分析部19では、LPC分析部14が、ダウンサンプリング部1を介さずに入力した全帯域の音声信号に対して1音声フレームごとに1回のLPC分析を実行する。例えば、160サンプル(20ms)ごとに、窓かけされた音声の自己相関係数を計算し、レビンソンアルゴリズムを用いてLPCに変換され、このLPCをLSPに変換する。LPC分析部14によって入力音声信号から求められたLSPは、LSP量子化部15aに出力される。
一方、高域スペクトル外挿部18は、狭帯域LSP符号帳16に格納された低域成分のLSP候補ベクトルを次々と読み込んで、高域信号のスペクトル概形を外挿したLSPを算出する。LSP量子化部15aでは、高域スペクトル外挿部18によって高域成分のスペクトル概形が外挿されたLSPを逐次入力して量子化処理を行う。ここでは、高域スペクトル外挿部18から入力されたLSPと、LPC分析部14から入力されたLSPとの自乗誤差が計算され、自乗誤差の値が最小となるLSP候補ベクトルが選択される。このようにして選択されたLSP候補ベクトルのインデックスは、LSP逆量子化部15bへ出力されると共に、スペクトル情報(スペクトル包絡情報)として多重化部12へ出力される。
LSP逆量子化部15bでは、LSP量子化部15aにより選択されたLSP候補ベクトルのインデックスに基づいて狭帯域LSP符号帳16を探索し、狭帯域LSP符号帳16から対応する低域成分の量子化LSPベクトルを抽出する。LSP逆量子化部15bにより抽出されたLSPは、LSP−LPC変換部17に出力される。LSP−LPC変換部17では、LSP逆量子化部15bから入力した低域成分のLSPをLPCに変換し、スペクトル分析結果のフィルタパラメータとして合成フィルタ8に出力する。
また、駆動音源生成部13では、適応符号帳2で探索された過去の駆動音源信号と利得符号帳4で探索された適応符号帳2に対する利得値候補とが利得乗算器5によって乗算され、代数符号帳3で探索された単位パルスと利得符号帳4で探索された代数符号帳3に対する複数の利得値候補とが利得乗算器6によって乗算される。これら利得乗算器5,6の出力は加算器7により加算され、駆動音源信号として合成フィルタ8に出力される。
合成フィルタ8では、駆動音源生成部13から入力した駆動音源信号に対して、スペクトル分析部19からのフィルタパラメータを用いて合成フィルタ処理をすることによって合成音声を生成し、減算器9に出力する。減算器9では、ダウンサンプリング部1でサンプリングされた入力音声から合成フィルタ8で生成した合成音声を減算して歪み成分を求め、聴覚重み付けフィルタ10に出力する。聴覚重み付けフィルタ10は、減算器9で算出された歪み成分について入力音声のスペクトルに基づいた重み付けを実行し、最小誤差探索部11に出力する。
なお、駆動音源生成部13は、適応符号帳2、代数符号帳3及び利得符号帳4の要素を所定の探索範囲内で探索して駆動音源信号(励振信号)を合成フィルタ8に逐次出力する。これにより、減算器9及び聴覚重み付けフィルタ10を介して、駆動音源生成部13で生成された各駆動音源信号について重み付け歪み成分が算出され、最小誤差探索部11に出力される。
最小誤差探索部11では、各重み付き歪み成分のパワーを比較して歪み成分が最小となる合成音声が生成された駆動音源信号を選択し、駆動音源生成部13に通知する。駆動音源生成部13は、最小誤差探索部11から最小誤差となる駆動音源信号が通知されると、該駆動音源信号を構成する、ピッチ情報、パルス情報、利得情報を多重化部12に出力する。
多重化部12は、歪み成分が最小の合成音声が生成された駆動音源信号に関するピッチ情報、パルス情報、利得情報、高域信号利得量子化部20からの高域利得、及びLSP量子化部15aからのスペクトル情報を多重化して伝送路へ出力する。このようにして、高域成分も外挿されたLSPを用いて量子化された符号化データが生成され、伝送路を経由して図3に示す音声復号装置に出力される。
(2)復号処理
音声符号化装置で生成された符号化データは、伝送路を介して図3に示す音声復号装置に受信され、該音声復号装置内の多重分離部21に入力される。多重分離部21では、音声符号化装置から受信した符号化データを、高域利得、スペクトル情報、ピッチ情報、パルス情報、利得情報に分離する。
この後、多重分離部21は、高域利得を高域信号利得復号部22に出力し、スペクトル情報を狭帯域LSP符号帳16に出力し、ピッチ情報を適応符号帳2に出力し、パルス情報を代数符号帳3に出力し、利得情報を利得符号帳4に出力する。
狭帯域LSP符号帳16では、符号化データから分離されたスペクトル情報に基づいて、対応する低域成分のLSPが抽出され、LSP−LPC変換部17及び高域スペクトル外挿部27に出力される。また、LSP−LPC変換部17では、狭帯域LSP符号帳16から入力したLSPをLPCに変換し、スペクトル分析結果のフィルタパラメータとして合成フィルタ8に出力する。
一方、高域スペクトル外挿部27は、狭帯域LSP符号帳16から入力した低域成分のLSPに高域成分のスペクトル概形を外挿し、LSP−LPC変換部26に出力する。LSP−LPC変換部26では、高域スペクトル外挿部27により高域成分のスペクトル概形が外挿されたLSPをLPCに変換し、スペクトル分析結果のフィルタパラメータとして合成フィルタ25に出力する。
また、高域信号利得復号部22は、多重分離部21により符号化データから分離された高域利得を逆量子化して高域利得情報に対応する利得値を求めて利得乗算器24に出力する。利得乗算器24では、高域信号利得復号部22で復号された高域成分の利得値を、乱数発生器23から入力した励振信号に相当する信号に乗算する。なお、この乗算処理は、ダウンサンプリングされる前のサンプリング周波数で行われる。つまり、図3の例では、サンプリング周波数Fsが16kHzで擬似的な励振信号と高域利得値とが乗算され、サンプリング周波数が16kHzの駆動音源信号として合成フィルタ25に出力される。
合成フィルタ25では、LSP−LPC変換部26から入力したフィルタパラメータを用いて、利得乗算器24から入力した音声信号(駆動音源信号)を合成フィルタ処理することにより合成音声を生成し、該合成音声をバンドパスフィルタ28に出力する。バンドパスフィルタ28では、合成フィルタ25で生成された合成音声から所定帯域の信号成分のみを通過させて加算器30に出力する。
また、適応符号帳2では、多重分離部21により符号化データから分離されたピッチ情報に基づいて、対応する過去の駆動音源信号を抽出して利得乗算器5に出力する。また、代数符号帳3は、多重分離部21により符号化データから分離されたパルス情報に基づいて、対応する単位パルスを抽出して利得乗算器6に出力する。利得符号帳4では、多重分離部21により符号化データから分離された利得情報に基づいて、対応する適応符号帳2の利得値と代数符号帳3の利得値とを抽出し、利得乗算器5,6にそれぞれ出力する。
利得乗算器5では、適応符号帳2からの駆動音源信号に対し、利得符号帳4からの利得値を乗算して加算器7に出力する。また、利得乗算器6は、代数符号帳3からの単位パルスに対し、利得符号帳4からの利得値を乗算して加算器7に出力する。加算器7は、利得の乗ぜられた適応符号帳2の出力信号と代数符号帳3の出力信号を加算し、駆動音源信号として合成フィルタ8に出力する。
合成フィルタ8は、LSP−LPC変換部17から入力したフィルタパラメータを用いて、加算器7からの駆動音源信号を合成フィルタ処理することにより合成音声を生成し、該合成音声をアップサンプリング部29に出力する。アップサンプリング部29では、合成フィルタ8から入力した合成信号をアップサンプリングして加算器30に出力する。ここでは、12.8kHzにダウンサンプリングされたサンプリング周波数を16kHzにアップサンプリングする。加算器30は、バンドパスフィルタ28の通過信号とアップサンプリング部29でサンプリングされた合成信号とを加算して復号後の音声信号を生成し、再生音声として出力する。
以上のように、この実施の形態1によれば、音声復号装置における高域スペクトル外挿部と同様の機能を有する高域スペクトル外挿部を音声符号化装置に設け、入力された音声信号の全帯域を用いてLSP量子化を評価するので、音声復号装置で符号化データを復号するにあたり、入力音声信号の周期性に合致した良好なスペクトル概形が外挿され、再生される高域成分の音声品質の劣化を防ぐことができる。
なお、音声復号装置としては、高域スペクトル外挿部を有した従来の方式の装置を用いることが可能なため、既存のシステムで送信側(音声符号化装置側)を改良するのみで本発明の効果を実現できるという利点もある。
実施の形態2.
図4は、この発明の実施の形態2による音声符号化装置の構成を示す図であり、図5は、この発明の実施の形態2による音声復号装置の構成を示す図である。図4及び図5に示すように、実施の形態2による音声符号化装置及び音声復号装置は、上記実施の形態1と異なり、狭帯域LSP符号帳16のLSPを入力して高域成分のスペクトル概形の外挿処理を実行する高域スペクトル外挿部を有さず、代わりに全帯域LSP符号帳31a,31bを備える。全帯域LSP符号帳31a,31bは、狭帯域LSP符号帳16の各LSPに対し高域成分のスペクトル概形を外挿してなる全帯域成分のLSPをテーブルデータとして有する。
また、全帯域LSP符号帳31a,31bと狭帯域LSP符号帳16は互いの要素が1対1に対応しており、全帯域LSP符号帳31a,31bの要素の低域成分は、狭帯域LSP符号帳16における対応する要素と同一のスペクトル概形を有する。例えば、全帯域LSP符号帳31a,31bの要素Xのスペクトル概形が、図1中のスペクトル概形Bl,Bhを結合したものである場合、これに対応する狭帯域LSP符号帳16の要素Xのスペクトル概形は、図1中の低域成分のスペクトル概形Blに一致する。なお、全帯域LSP符号帳31a,31bは、全く同一の要素を持つベクトル量子化符号帳である。
次に動作について説明する。
(1)符号化処理
LPC分析部14は、ダウンサンプリング部1を介さずに入力した全帯域の音声信号に対して1音声フレーム毎に1回のLPC分析を実行し、LPCをLSPに変換する。LPC分析部14によって音声信号から求められたLSPは、LSP量子化部15aに出力される。
狭帯域LSP符号帳16は、処理対象となる低域成分のLSP候補ベクトルを特定するインデックスを全帯域LSP符号帳31aに出力する。全帯域LSP符号帳31aでは、該インデックスに対応する低域成分に高域成分のスペクトル概形が外挿された全帯域成分のLSPが読み出され、LSP候補としてLSP量子化部15aに出力される。
LSP量子化部15aは、全帯域LSP符号帳31aから入力した全帯域成分のLSPに対して量子化処理を行う。ここでは、全帯域LSP符号帳31aから入力されたLSPとLPC分析部14から入力されたLSPとの自乗誤差の値が最小となるLSP候補ベクトルが選択される。このLSP候補ベクトルのインデックスは、LSP逆量子化部15b及び多重化部12へ出力される。多重化部12を経由することにより、該LSP候補ベクトルのインデックスが音声復号装置に伝送される。
LSP逆量子化部15bは、LSP量子化部15aにより選択されたLSP候補ベクトルのインデックスに基づいて狭帯域LSP符号帳16を探索し、狭帯域LSP符号帳16から対応する低域成分の量子化LSPベクトルを抽出してLSP−LPC変換部17に出力する。LSP−LPC変換部17では、LSP逆量子化部15bから入力した低域成分のLSPをLPCに変換し、スペクトル分析結果のフィルタパラメータとして合成フィルタ8に出力する。以降の処理は、上記実施の形態1と同様である。
(2)復号処理
図5に示す音声復号装置は、音声符号化装置から受信した符号化データを多重分離部21に入力する。多重分離部21では、音声符号化装置から受信した符号化データを、高域利得、スペクトル情報、ピッチ情報、パルス情報、利得情報に分離して、高域利得を高域信号利得復号部22に出力し、スペクトル情報を狭帯域LSP符号帳16及び全帯域LSP符号帳31bに出力し、ピッチ情報を適応符号帳2に出力し、パルス情報を代数符号帳3に出力し、利得情報を利得符号帳4に出力する。
狭帯域LSP符号帳16では、多重分離部21により符号化データから分離されたスペクトル情報に基づいて、対応する低域成分のLSPが抽出され、LSP−LPC変換部17に出力される。LSP−LPC変換部17では、狭帯域LSP符号帳16から入力した低域成分のLSPをLPCに変換し、スペクトル分析結果のフィルタパラメータとして合成フィルタ8に出力する。
また、全帯域LSP符号帳31bでは、多重分離部21により符号化データから分離されたスペクトル情報に基づいて、対応する全帯域成分のLSP(高域スペクトル概形が外挿されたもの)が抽出され、LSP−LPC変換部26に出力される。
LSP−LPC変換部26は、全帯域LSP符号帳31bから入力した全帯域成分のLSPをLPCに変換し、スペクトル分析結果のフィルタパラメータとして合成フィルタ25に出力する。これ以外の処理は、上記実施の形態1と同様である。このようにして、多重分離部21で分離されたスペクトル情報を用いて、狭帯域LSP符号帳16からの狭帯域LSPベクトルを復号すると同時に、全帯域LSP符号帳111が参照されて全帯域LSPベクトルが復号される。
以上のように、この実施の形態2によれば、低域成分に高域成分のスペクトル概形が外挿された全帯域成分のLSPをテーブルとして格納する全帯域LSP符号帳31a,31bを設けたので、高域成分のスペクトル概形を外挿する構成及び外挿処理が不要となり、上記実施の形態1の場合と比較して処理に要する演算量を削減できる。また、低域成分から予測することが困難な高域成分に特徴のある音声信号に対しても全帯域LSP符号帳31a,31bを用意することで対応が可能である。これにより、多様なスペクトル包絡成分を持つ音声信号にも対応することができる利点がある。
実施の形態3.
図6は、この発明の実施の形態3による音声符号化装置の構成を示す図である。図6において、ダウンサンプリング部1、スペクトル分析部19B、合成フィルタ8及び加算器9以外の構成は記載を省略している。なお、記載を省略した構成は、上記実施の形態2で示したもの(図4参照)と同様である。
図6に示すように、この実施の形態3による音声符号化装置のスペクトル分析部19Bは、上記実施の形態で示したLPC分析部14、LSP逆量子化部15b、狭帯域LSP符号帳16、LSP−LPC変換部17及び全帯域LSP符号帳31aに加え、セグメント分割部32、低域セグメント誤差重み付け部33、高域セグメント誤差重み付け部34及びLSP量子化部35を備える。
セグメント分割部32は、LPC分析部14により入力音声信号の全帯域から求められたLSPの値に基づいて、該LSPを所定帯域ごとのセグメントに分割する。図6の例では、低域成分と高域成分に分割している。低域セグメント誤差重み付け部33は、入力音声信号から求めたLSPと全帯域LSP符号帳31aの各LSPとの自乗誤差を計算するにあたり、低域成分に対して予め設定された重み付け係数を低域成分の自乗誤差に乗じて重み付け誤差とする。
高域セグメント誤差重み付け部34は、全帯域LSP符号帳31aの各LSPとの自乗誤差を計算するにあたり、高域成分に対して予め設定された誤差評価用重み付け係数を高域成分の自乗誤差に乗じて重み付け誤差とする。LSP量子化部35は、低域セグメント誤差重み付け部33及び高域セグメント誤差重み付け部34からの重み付け誤差を足し合わせて量子化誤差とし、量子化誤差が最小となるLSP候補を選択する。
次に動作について説明する。
LPC分析部14は、ダウンサンプリング部1を介さずに入力した全帯域の音声信号に対して1音声フレーム毎に1回のLPC分析を実行し、LPCをLSPに変換する。LPC分析部14によって音声信号から求められたLSPは、セグメント分割部32に出力される。
また、狭帯域LSP符号帳16は、処理対象となる低域成分のLSP候補ベクトルを特定するインデックスを全帯域LSP符号帳31aに出力する。全帯域LSP符号帳31aでは、該インデックスに対応する低域成分のLSPに高域成分のスペクトル概形が外挿された全帯域成分のLSPが読み出され、LSP候補として低域セグメント誤差重み付け部33及び高域セグメント誤差重み付け部34にそれぞれ出力される。
セグメント分割部32では、LPC分析部14から入力したLSPの値に基づいて、予め設定された所定の周波数帯域(図6の例では、低域成分と高域成分)のセグメントにLSPを分割する。例えば、LPC分析部14からのLSPの全帯域を所定の基準周波数で低域成分と高域成分に2分割する。
低域セグメント誤差重み付け部33では、セグメント分割部32からLSPの低域成分を入力すると共に、全帯域LSP符号帳31aからの処理対象の各LSPを逐次入力し、セグメント分割部32からの低域成分のLSPと全帯域LSP符号帳31aからのLSPとの自乗誤差を計算する。このとき、低域セグメント誤差重み付け部33に登録された重み付け係数を自乗誤差に乗じ、重み付け誤差としてLSP量子化部35に出力する。
一方、高域セグメント誤差重み付け部34も同様に、セグメント分割部32からLSPの高域成分を入力すると共に、全帯域LSP符号帳31aからの処理対象の各LSPを逐次入力して、セグメント分割部32からの高域成分のLSPと全帯域LSP符号帳31aからのLSPとの自乗誤差を計算する。このとき、高域セグメント誤差重み付け部34に登録された重み付け係数を自乗誤差に乗じ、重み付け誤差としてLSP量子化部35に出力する。
LSP量子化部35は、低域セグメント誤差重み付け部33及び高域セグメント誤差重み付け部34から入力した重み付け誤差を足し合わせて量子化誤差とし、処理対象の各LSP候補について得られた量子化誤差を比較して量子化誤差の値が最小となるLSP候補を選択する。LSP量子化部35は、量子化誤差が最小となるLSP候補を選択すると、該LSP候補のインデックスを全帯域LSP符号帳31aから抽出し、LSP逆量子化部15bに出力すると共に、スペクトル情報として多重化部12へ出力する。このスペクトル情報は多重化部12を経由することにより、音声復号装置に伝送される。
LSP逆量子化部15bでは、LSP量子化部35により選択されたLSP候補(LSP候補ベクトル)のインデックスに基づいて狭帯域LSP符号帳16を探索し、狭帯域LSP符号帳16から対応する低域成分のLSP(量子化LSPベクトル)を抽出し、LSP−LPC変換部17に出力する。LSP−LPC変換部17では、LSP逆量子化部15bから入力した低域成分のLSPをLPCに変換し、スペクトル分析結果のフィルタパラメータとして合成フィルタ8に出力する。以降の処理は、上記実施の形態1と同様である。
なお、実施の形態3による音声復号装置は、上記実施の形態2で示した音声復号装置(図5参照)と同一構成で実現可能なため説明を省略する。
上述では、自乗誤差の重み付けのためにLSPを低域成分と高域成分に2分割する場合を説明したが、3以上に分割することも可能である。
図7は、この発明の実施の形態3による音声符号化装置の他の構成を示す図である。図7において、図6と同様にダウンサンプリング部1、スペクトル分析部19C、合成フィルタ8及び加算器9以外の構成は記載を省略している。なお、記載を省略した構成は、上記実施の形態2の図4で示した構成と同様である。
図7に示す例では、上記実施の形態で示したLPC分析部14、LSP逆量子化部15b、狭帯域LSP符号帳16、LSP−LPC変換部17及び全帯域LSP符号帳31aに加え、セグメント分割部32a、低域セグメント誤差重み付け部33、高域セグメント誤差重み付け部34、LSP量子化部35a及び中域セグメント誤差重み付け部36を備える。
セグメント分割部32aは、LPC分析部14により入力音声信号の全帯域から求められたLSPの値に基づいて、該LSPを低域、中域、高域の各セグメントに分割する。中域セグメント誤差重み付け部36は、入力音声信号から求めたLSPと全帯域LSP符号帳31aの各LSPとの自乗誤差を計算するにあたり、中域成分に対して予め設定された重み付け係数を中域成分の自乗誤差に乗じて重み付け誤差とする。LSP量子化部35aは、低域セグメント誤差重み付け部33、中域セグメント誤差重み付け部36、及び高域セグメント誤差重み付け部34からの重み付け誤差を足し合わせて量子化誤差とし、該量子化誤差が最小となるLSPを選択する。
次に動作について説明する。
LPC分析部14は、ダウンサンプリング部1を介さずに入力した全帯域の音声信号に対して1音声フレーム毎に1回のLPC分析を実行し、LPCをLSPに変換する。LPC分析部14によって音声信号から求められたLSPは、セグメント分割部32aに出力される。
また、狭帯域LSP符号帳16では、処理対象となる低域成分のLSP候補ベクトルを特定するインデックスが全帯域LSP符号帳31aに出力される。全帯域LSP符号帳31aでは、該インデックスに対応する低域成分のLSPに高域成分のスペクトル概形が外挿された全帯域成分のLSPが読み出され、LSP候補として低域セグメント誤差重み付け部33、中域セグメント誤差重み付け部36、及び高域セグメント誤差重み付け部34にそれぞれ出力される。
セグメント分割部32aでは、LPC分析部14から入力したLSPの値に基づいて、LPC分析部14からのLSPを低域成分、中域成分、高域成分に3分割し、対応する成分のLSPを低域セグメント誤差重み付け部33、中域セグメント誤差重み付け部36、及び高域セグメント誤差重み付け部34にそれぞれ出力する。
低域セグメント誤差重み付け部33では、上記と同様に、セグメント分割部32aからLSPの低域成分を入力すると共に、全帯域LSP符号帳31aから処理対象の各LSPを逐次入力して、セグメント分割部32aからの低域成分のLSPと全帯域LSP符号帳31aからのLSPとの自乗誤差を計算する。このとき、低域セグメント誤差重み付け部33に登録された重み付け係数を自乗誤差に乗じ、重み付け誤差としてLSP量子化部35aに出力する。
一方、中域セグメント誤差重み付け部36では、セグメント分割部32aからLSPの中域成分を入力すると共に、全帯域LSP符号帳31aから処理対象の各LSPを逐次入力して、セグメント分割部32aからの中域成分のLSPと全帯域LSP符号帳31aからのLSPとの自乗誤差を計算する。このとき、中域セグメント誤差重み付け部36に登録された重み付け係数を自乗誤差に乗じ、重み付け誤差としてLSP量子化部35aに出力する。
また、高域セグメント誤差重み付け部34も同様に、セグメント分割部32aからLSPの高域成分を入力すると共に、全帯域LSP符号帳31aから処理対象の各LSPを逐次入力して、セグメント分割部32aからの高域成分のLSPと全帯域LSP符号帳31aからのLSPとの自乗誤差を計算する。このとき、高域セグメント誤差重み付け部34に登録された重み付け係数を自乗誤差に乗じ、重み付け誤差としてLSP量子化部35aに出力する。
LSP量子化部35aは、低域セグメント誤差重み付け部33、中域セグメント誤差重み付け部36、及び高域セグメント誤差重み付け部34から入力した重み付け誤差を足し合わせて量子化誤差とし、処理対象の各LSP候補について得られた量子化誤差を比較して量子化誤差の値が最小となるLSP候補を選択する。LSP量子化部35aは、量子化誤差が最小となるLSP候補を選択すると、該LSP候補のインデックスを全帯域LSP符号帳31aから抽出し、LSP逆量子化部15bに出力すると共に、スペクトル情報として多重化部12へ出力する。このスペクトル情報は多重化部12を経由することにより、音声復号装置に伝送される。
LSP逆量子化部15bでは、LSP量子化部35aにより選択されたLSP候補(LSP候補ベクトル)のインデックスに基づいて狭帯域LSP符号帳16を探索し、狭帯域LSP符号帳16から対応する低域成分の量子化LSPベクトルを抽出し、LSP−LPC変換部17に出力する。LSP−LPC変換部17では、LSP逆量子化部15bから入力した低域成分のLSPをLPCに変換し、スペクトル分析結果のフィルタパラメータとして合成フィルタ8に出力する。以降の処理は、図6の場合と同様である。
図7に示す音声符号化装置の符号化データを復号する音声復号装置についても、上記実施の形態2で示した音声復号装置(図5参照)と同一構成で実現可能なため、説明を省略する。
以上のように、この実施の形態3によれば、入力音声信号のLSPを所定の周波数帯域ごとのセグメントに分割し、各周波数帯域に応じた重み付けを行って量子化誤差を評価するので、各周波数帯域の特徴を考慮した音声符号化及び復号が可能である。例えば、低域の重み付けを大きくすることで高域雑音の少ない安定した音声を得ることができる。
なお、上記実施の形態3では、上記実施の形態2で示した構成(図4参照)にセグメント分割部32等を設ける場合を説明したが、上記実施の形態1で示した構成(図2参照)に適用しても構わない。つまり、全帯域LSP符号帳31aの代わりに高域スペクトル外挿部18を備えたスペクトル分析部19にセグメント分割部32等を設ける。この場合、音声復号装置としては、上記実施の形態1で示した音声復号装置(図3参照)と同一構成で実現可能である。
実施の形態4.
図8は、この発明の実施の形態4による音声符号化装置の構成を示す図である。この実施の形態4による音声符号化装置のスペクトル分析部19Dは、上記実施の形態3で示した構成(図6参照)に加え、スペクトル傾き評価部37及び重み付け係数算出部38を備える。
スペクトル傾き評価部37は、入力音声信号のスペクトル傾きを評価し、スペクトル分布の偏りを特定する低域成分と全帯域成分との信号エネルギーの比を算出する。重み付け係数算出部38は、スペクトル傾き評価部37の評価結果に基づいて、入力音声のLSPを分割した各周波数帯域に対する誤差の重み付け係数を算出する。なお、他の構成は、上記実施の形態で示したものと同様である。
図9は、図8中のスペクトル傾き評価部の構成を示す図である。図9に示すように、スペクトル傾き評価部37は、低域通過フィルタ(以下、LPFとする)39、全域エネルギー計算部40、低域エネルギー計算部41、及びエネルギー比計算部42を備える。LPF39は、入力音声信号の低域成分を通過させるフィルタであり、2次程度のFIRフィルタを用いて実現できる。
全域エネルギー計算部40は、入力音声信号の全帯域成分の信号エネルギーを算出する。低域エネルギー計算部41は、入力音声信号における低域成分の信号エネルギーを算出する。エネルギー比計算部42は、全域エネルギー計算部40により算出された全帯域成分の信号エネルギーと低域エネルギー計算部41により算出された低域成分の信号エネルギーとの比を算出する。
次に動作について説明する。
以降では、入力音声信号のスペクトル傾きの評価及びその評価結果に応じた誤差重み付け係数の算出処理について主に説明する。
図10は、音声信号のスペクトルを示すグラフであり、図10(a)は有声音のスペクトルを示しており、図10(b)は無声音のスペクトルを示している。図10(a)に示すように、有声音では低域側に信号エネルギーが偏り、スペクトル包絡が右肩下がりになる。一方、無声音では、図10(b)に示すように、高域側に信号エネルギーが偏ってスペクトル包絡が右肩上がりになるか、信号エネルギーの偏りがあまりなくスペクトル包絡がフラットになる。
そこで、この実施の形態4によるスペクトル傾き評価部37では、全域での信号エネルギーにおいて低域に信号エネルギーが偏っているか否かに基づいて、入力音声信号のスペクトル傾きを評価する。
LPC分析部14は、ダウンサンプリング部1を介さずに入力した全帯域成分の音声信号からLSPを求め、スペクトル傾き評価部37に出力する。スペクトル傾き評価部37では、LPF39においてLSPの低域成分のみが通過されて低域エネルギー計算部41に出力される。また、全域エネルギー計算部40では、入力音声信号のLSPにおける全帯域成分の信号エネルギー値が計算され、エネルギー比計算部42に出力される。
一方、低域エネルギー計算部41は、LPF39を通過した低域成分の信号エネルギー値を計算して、エネルギー比計算部42に出力する。エネルギー比計算部42では、全帯域成分の信号エネルギーに対する低域成分の信号エネルギーの割合をエネルギー比として算出する。例えば、下記式(1)に基づいてエネルギー比を算出する。
エネルギー比=(低域の信号エネルギー)/(全域の信号エネルギー) ・・・(1)
このエネルギー比の値が1に近ければ、全帯域成分の信号エネルギーに対して低域成分の信号エネルギーの割合が大きく、低域側に信号エネルギーが偏ってスペクトル包絡が右肩下がりであると評価できる(有声傾向)。また、エネルギー比の値が0に近ければ、入力音声信号のスペクトルが、信号エネルギーの偏りがあまりなくスペクトル包絡がフラットであるか、高域側に信号エネルギーが偏ってスペクトル包絡が右肩上がりであると評価できる(無声傾向)。
重み付け係数算出部38は、スペクトル傾き評価部37による入力音声信号のスペクトル傾きの評価結果に基づいて各帯域における誤差の重み付け係数を算出する。例えば、入力音声信号が有声傾向にあり、低域成分の誤差評価を厳密に行いたい場合、高域成分の重み付け係数が小さくなるように値を決定する。また、入力音声信号が無声傾向にあり、高域成分の再現性を良くしたい場合であれば、低域成分と比べて高域成分の重み付け係数が大きくなるように値を決定する。重み付け係数算出部38により算出された低域成分及び高域成分の各重み付け係数は、低域セグメント誤差重み付け部33及び高域セグメント誤差重み付け部34にそれぞれ出力される。
低域セグメント誤差重み付け部33では、セグメント分割部32からLSPの低域成分を入力すると共に、全帯域LSP符号帳31aからの処理対象の各LSPを逐次入力し、セグメント分割部32からの低域成分のLSPと全帯域LSP符号帳31aからのLSPとの自乗誤差を計算する。このとき、重み付け係数算出部38から入力した低域成分の重み付け係数を自乗誤差に乗じ、重み付け誤差としてLSP量子化部35に出力する。
一方、高域セグメント誤差重み付け部34も同様に、セグメント分割部32からLSPの高域成分を入力すると共に、全帯域LSP符号帳31aからの処理対象の各LSPを逐次入力して、セグメント分割部32からの高域成分のLSPと全帯域LSP符号帳31aからのLSPとの自乗誤差を計算する。このとき、重み付け係数算出部38から入力した高域成分の重み付け係数を自乗誤差に乗じ、重み付け誤差としてLSP量子化部35に出力する。
LSP量子化部35は、低域セグメント誤差重み付け部33及び高域セグメント誤差重み付け部34から入力した重み付け誤差を足し合わせて量子化誤差とし、処理対象の各LSP候補について得られた量子化誤差を比較して量子化誤差の値が最小となるLSP候補を選択する。このようにして、入力音声信号のスペクトル傾きに従って計算された重み付け係数を用いて誤差評価が実行される。
LSP量子化部35は、量子化誤差が最小となるLSP候補を選択すると、該LSP候補のインデックスを全帯域LSP符号帳31aから抽出し、LSP逆量子化部15bに出力すると共に、スペクトル情報として多重化部12へ出力する。このスペクトル情報は多重化部12を経由することにより、音声復号装置に伝送される。
なお、図8に示す音声符号化装置の符号化データを復号する音声復号装置についても、上記実施の形態2で示した音声復号装置(図5参照)と同一構成で実現可能なため、説明を省略する。
以上のように、この実施の形態4によれば、入力音声信号のLSPを所定の周波数帯域ごとのセグメントに分割し、各周波数帯域に応じた重み付けを行って量子化誤差を評価するにあたり、入力音声信号のスペクトル傾きの評価結果に基づいて各周波数帯域の誤差評価用重み付け係数を決定するので、入力音声に適応した誤差評価が可能であり、音声品質を改善することができる。
例えば、低域に信号エネルギーの偏りがある音声信号が入力された際は、高域成分の誤差重み付け係数を小さくして、低域成分の誤差評価を厳密に行うことができる。これにより、安定した音声を得ることができる。また、信号エネルギーが全帯域でフラット又は高域に信号エネルギーの偏りがある音声信号に対して、高域成分の重み付け係数を大きくすることで、高域信号の再現性を良くすることができる。このようにすることで、こもり感のない音声を再生できるなど、再生音声の品質を改善することができる。
なお、上記実施の形態4では、上記実施の形態3で示した図6の構成にスペクトル傾き評価部37及び重み付け係数算出部38を設ける場合を説明したが、図7に示した構成にスペクトル傾き評価部37及び重み付け係数算出部38を設けてもよい。
また、これらの構成において全帯域LSP符号帳31aの代わりに高域スペクトル外挿部18を設けてもよい。この場合、音声復号装置としては、上記実施の形態1で示した音声復号装置(図3参照)と同一構成で実現可能である。
実施の形態5.
図11は、この発明の実施の形態5による音声符号化装置の構成を示す図である。この実施の形態5による音声符号化装置のスペクトル分析部19Eは、上記実施の形態3で示した構成(図6参照)に加え、重み付け係数算出部38a、逆合成フィルタ43、利得比計算部44、及び遅延バッファ45を備える。なお、他の構成は、上記実施の形態で示したものと同様である。
重み付け係数算出部38aは、利得比計算部44により算出された低域成分と全帯域成分との信号エネルギー比に基づいて、入力音声のLSPを分割した各周波数帯域に対する誤差の重み付け係数を算出する。逆合成フィルタ43は、遅延バッファ45から入力した音声信号から該音声信号のLSP情報を除去して残差信号を算出する。利得比計算部44は、残差信号と励振信号(駆動音源信号)とのエネルギー比の平方根である利得比を算出する。遅延バッファ45は、音声信号を一時記憶する。
次に動作について説明する。
以降では、入力音声信号の低域成分と全帯域成分との信号エネルギー比に基づく利得の算出及び該利得に応じた誤差重み付け係数の算出処理について説明する。
逆合成フィルタ43には、LPC分析部14によってダウンサンプリングされていない全帯域成分の音声信号から求められたLSPが入力され、さらに遅延バッファ45から該LSPに対応する音声信号が入力される。
逆合成フィルタ43では、遅延バッファ45より読み込まれた音声信号から該音声信号のLSP情報を除去して残差信号を求め、利得比計算部44に出力する。この残差信号は全帯域の信号エネルギーを有する。なお、残差信号の算出方法は、例えば非特許文献1に開示される手法を用いる。
また、利得比計算部44には、駆動音源生成部13の加算器7からの出力である励振信号(駆動音源信号)が入力される。この励振信号は低域(0〜6.4kHz)の信号エネルギーを有する。利得比計算部44は、加算器7から入力した励振信号と逆合成フィルタ43から入力した残差信号との信号のエネルギー比(低域成分と全帯域成分のエネルギー比)を求め、この平方根を利得比として算出し、重み付け係数算出部38aに出力する。
この利得比の値が1に近ければ、全帯域成分の信号エネルギーに対して低域成分の信号エネルギーの割合が大きく、図10(a)で示したような低域側に信号エネルギーが偏ってスペクトル包絡が右肩下がりであると判断できる(有声傾向)。また、利得比の値が0に近ければ、図10(b)で示したように、入力音声信号のスペクトルが、信号エネルギーの偏りがあまりなくスペクトル包絡がフラットであるか、若しくは高域側に信号エネルギーが偏ってスペクトル包絡が右肩上がりであると判断できる(無声傾向)。
重み付け係数算出部38aは、利得比計算部44により算出された利得比に基づいて、各帯域における誤差の重み付け係数を算出する。例えば、入力音声信号が有声傾向にあり、低域成分の誤差評価を厳密に行いたい場合、高域成分の重み付け係数が小さくなるように値を決定する。また、入力音声信号が無声傾向にあり、高域成分の再現性を良くしたい場合であれば、低域成分と比べて高域成分の重み付け係数が大きくなるように値を決定する。
重み付け係数算出部38aにより算出された低域成分及び高域成分の各重み付け係数は、低域セグメント誤差重み付け部33及び高域セグメント誤差重み付け部34にそれぞれ出力される。以降の動作は、上記実施の形態4と同様である。
なお、図11に示す音声符号化装置の符号化データを復号する音声復号装置についても、上記実施の形態2で示した音声復号装置(図5参照)と同一構成で実現可能なため、説明を省略する。
以上のように、この実施の形態5によれば、入力音声信号のLSPを所定の周波数帯域ごとのセグメントに分割し、各周波数帯域に応じた重み付けを行って量子化誤差を評価するにあたり、入力音声信号の低域成分と全帯域成分との信号エネルギー比に基づいて各周波数帯域に対する誤差評価用重み付け係数を決定するので、入力音声に適応した誤差評価が可能であり、音声品質を改善することができる。
例えば、低域成分と全帯域成分のエネルギー比が小さい(1.0を遙かに下回る)場合は、高域に信号エネルギーの偏りがあると見なせるため、高域スペクトル評価用の重み付け係数を低域に対して大きく(重く)する。逆に低域成分と全帯域成分のエネルギー比が大きい(1.0に近づく)場合は、低域にエネルギーの偏りがあると見なせるため、高域スペクトル評価用の重み付け係数を低域に対して小さく(軽く)する。
また、図11に示すように、利得比計算部44が、適応符号帳2で選択されたピッチ情報(駆動音源信号のピッチ周期)を入力し、該ピッチ情報を補助的に用いて重み付け係数算出部38aによる重み付け係数の算出を制御するようにしてもよい。例えば、ピッチ情報で特定される駆動音源信号の音の性質(有声音か無声音か、若しくは男声か女声か等)に基づいて、重み付け係数算出部38aにより算出される低域成分や高域成分に対する誤差評価用重み付け係数の値を変更する。
なお、上記実施の形態5では、上記実施の形態3で示した図6の構成に重み付け係数算出部38a、逆合成フィルタ43、利得比計算部44及び遅延バッファ45を設ける場合を説明したが、これらを図7に示した構成に設けてもよい。
また、これらの構成において全帯域LSP符号帳31aの代わりに高域スペクトル外挿部18を設けてもよい。この場合、音声復号装置としては、上記実施の形態1で示した音声復号装置(図3参照)と同一構成で実現可能である。
実施の形態6.
図12は、この発明の実施の形態6による音声符号化装置の構成を示す図である。図12において、ダウンサンプリング部1、スペクトル分析部19F、合成フィルタ8及び加算器9以外の構成は記載を省略している。なお、記載を省略した構成は、上記実施の形態2で示したもの(図4参照)と同様である。
図12に示すように、この実施の形態3による音声符号化装置のスペクトル分析部19Fは、上記実施の形態3で示したスペクトル分析部19の構成に加え、重み付け係数符号帳46を備える。重み付け係数符号帳46は、全帯域LSP符号帳31aにおける全帯域の各LSPに対応して、低域成分の誤差評価用重み付け係数と高域成分の誤差評価用重み付け係数とを格納する。
なお、重み付け係数符号帳46は、全帯域LSP符号帳31a及び狭帯域LSP符号帳16の各要素と1対1に対応している。例えば、重み付け係数符号帳46には、全帯域LSP符号帳31aのある要素Xに対応して低域成分の誤差重み付け係数WL(X)及び高域成分の誤差重み付け係数WH(X)が格納される。
また、全帯域LSP符号帳31aの要素Xのスペクトル傾斜が緩やか(全帯域に均等に分布)であれば、重み付け係数符号帳46には、WL(X)に対してWH(X)を大きく(重く)した係数を格納しておく。さらに、全帯域LSP符号帳31aの要素Xのスペクトル傾斜が急峻(低域に偏る)であれば、WL(X)に対してWH(X)を小さく(軽く)した係数を格納しておく。
次に動作について説明する。
LPC分析部14は、ダウンサンプリング部1を介さずに入力した全帯域の音声信号に対して1音声フレーム毎に1回のLPC分析を実行し、LPCをLSPに変換する。LPC分析部14によって音声信号から変換されたLSPは、セグメント分割部32に出力される。
また、狭帯域LSP符号帳16は、処理対象となる低域成分のLSP候補ベクトルを特定するインデックスを全帯域LSP符号帳31aに出力する。全帯域LSP符号帳31aでは、該インデックスに対応する低域成分のLSPに高域成分のスペクトル概形が外挿された全帯域成分のLSPが読み出され、LSP候補として低域セグメント誤差重み付け部33及び高域セグメント誤差重み付け部34にそれぞれ出力される。
セグメント分割部32では、LPC分析部14から入力したLSPの値に基づいて、予め設定された所定の周波数帯域(図6の例では、低域成分と高域成分)のセグメントにLSPを分割する。例えば、LPC分析部14からのLSPの全帯域を所定の基準周波数で低域成分と高域成分に2分割する。
低域セグメント誤差重み付け部33では、セグメント分割部32からLSPの低域成分を入力すると共に、全帯域LSP符号帳31aからの処理対象の各LSPを逐次入力し、セグメント分割部32からの低域成分のLSPと全帯域LSP符号帳31aからのLSPとの自乗誤差を計算する。
また、高域セグメント誤差重み付け部34も同様に、セグメント分割部32からLSPの高域成分を入力すると共に、全帯域LSP符号帳31aからの処理対象の各LSPを逐次入力して、セグメント分割部32からの高域成分のLSPと全帯域LSP符号帳31aからのLSPとの自乗誤差を計算する。
上述のLSPベクトルXiと入力音声信号LSPベクトルとの誤差計算処理は、例えば全帯域LSP符号帳31aにm(i=1〜mは正の整数)個の要素X1,X2,・・・,Xmがある場合、全ての要素に対して行われる。
また、低域セグメント誤差重み付け部33及び高域セグメント誤差重み付け部34は、LSPベクトルXiと入力音声信号LSPベクトルとの誤差計算処理において、重み付け係数符号帳46からWH(Xi)及びWL(Xi)をそれぞれ読み出す。
低域セグメント誤差重み付け部33は、重み付け係数符号帳46からの重み付け係数WL(Xi)を自乗誤差に乗じ、重み付け誤差としてLSP量子化部35に出力する。また、高域セグメント誤差重み付け部34は、重み付け係数符号帳46からの重み付け係数WH(Xi)を自乗誤差に乗じ、重み付け誤差としてLSP量子化部35に出力する。以降の処理は、上記実施の形態5と同様である。
なお、実施の形態6による音声復号装置は、上記実施の形態2で示した音声復号装置(図5参照)と同一構成で実現可能なため説明を省略する。
以上のように、この実施の形態6によれば、入力音声信号から得られたLSPを所定の周波数帯域ごとのセグメントに分割し、各周波数帯域に応じた重み付けを行って量子化誤差を評価するにあたり、低域成分の誤差評価用重み付け係数と高域成分の誤差評価用重み付け係数とが予め登録された重み付け係数符号帳46を用いて各周波数帯域に対する誤差評価用重み付け係数を決定するので、入力音声に適応した誤差評価が可能であり、音声品質を改善することができる。
また、この実施の形態6によれば、誤差評価用重み付け係数のテーブルである重み付け係数符号帳46を参照するだけで所望の重み付け係数を設定できるため、量子化処理の負荷を低減することも可能である。
上記実施の形態6では、上記実施の形態3で示した図6の構成に重み付け係数符号帳46を設ける場合を説明したが、図7に示した構成に対し、中域成分の誤差評価用重み付け係数を予め登録した重み付け係数符号帳を設けた構成であってもよい。
実施の形態7.
図13は、この発明の実施の形態7による音声符号化装置の構成を示す図である。この実施の形態7による音声符号化装置のスペクトル分析部19Gは、上記実施の形態3で示したLPC分析部14、セグメント分割部32、低域セグメント誤差重み付け部33、高域セグメント誤差重み付け部34、狭帯域LSP符号帳16及び全帯域LSP符号帳31aに加え、重み付け係数蓄積部47、LSP量子化部35b、LSP逆量子化部48、LSP−LPC変換部49を備える。
重み付け係数蓄積部47には、低域成分と高域成分の誤差評価用重み付け係数の組み合わせについて複数の候補が蓄積される。また、LSP逆量子化部48、LSP−LPC変換部49、合成フィルタ50、アップサンプリング部51、加算器52、減算器53、最小誤差探索部54、LSP逆量子化部55、LSP−LPC変換部56、乱数発生器57、利得乗算器58、合成フィルタ59及びバンドパスフィルタ60が、LSPの閉ループ探索を実行する。
次に動作について説明する。
以降では、説明の簡単のため、重み付け係数蓄積部47に3組の誤差評価用重み付け係数の組み合わせがあるものと仮定する。
LPC分析部14は、ダウンサンプリング部1を介さずに入力した全帯域の音声信号に対して1音声フレーム毎に1回のLPC分析を実行し、LPCをLSPに変換する。LPC分析部14によって音声信号から変換されたLSPは、セグメント分割部32に出力される。
また、狭帯域LSP符号帳16は、処理対象となる低域成分のLSP候補ベクトルを特定する符号帳のインデックスを全帯域LSP符号帳31aに出力する。全帯域LSP符号帳31aでは、該インデックスに対応する低域成分のLSPに高域成分のスペクトル概形が外挿された全帯域成分のLSPが読み出され、LSP候補として低域セグメント誤差重み付け部33及び高域セグメント誤差重み付け部34にそれぞれ出力される。
セグメント分割部32では、LPC分析部14から入力したLSPの値に基づいて低域成分と高域成分のセグメントにLSPを分割し、対応するセグメントを低域セグメント誤差重み付け部33及び高域セグメント誤差重み付け部34にそれぞれ出力する。
低域セグメント誤差重み付け部33では、セグメント分割部32からLSPの低域成分を入力すると、全帯域LSP符号帳31aからの処理対象の各LSPを逐次入力し、セグメント分割部32からの低域成分のLSPと全帯域LSP符号帳31aからのLSPとの自乗誤差を計算する。
また、高域セグメント誤差重み付け部34も同様に、セグメント分割部32からLSPの高域成分を入力すると共に、全帯域LSP符号帳31aからの処理対象の各LSPを逐次入力して、セグメント分割部32からの高域成分のLSPと全帯域LSP符号帳31aからのLSPとの自乗誤差を計算する。
重み付け係数蓄積部47に蓄積される誤差評価用重み付け係数の組み合わせは、低域セグメント誤差重み付け部33及び高域セグメント誤差重み付け部34により1組ずつ読み出される。これにより、低域セグメント誤差重み付け部33は、重み付け係数蓄積部47から読み出した低域成分の重み付け係数を自乗誤差に乗じ、重み付け誤差としてLSP量子化部35bに出力する。また、高域セグメント誤差重み付け部34も同様に、重み付け係数蓄積部47から読み出した高域成分の重み付け係数を自乗誤差に乗じ、重み付け誤差としてLSP量子化部35bに出力する。
LSP量子化部35bは、低域セグメント誤差重み付け部33及び高域セグメント誤差重み付け部34から入力した重み付け誤差を足し合わせて量子化誤差とし、処理対象の各LSP候補について得られた量子化誤差を比較して量子化誤差の値が最小となるLSP候補を選択する。この量子化誤差の値が最小となるLSP候補を特定する最適量子化インデックスをXとする。
この後、重み付け係数蓄積部47における誤差評価用重み付け係数の他の組み合わせ(残りの2組)についても、上記と同様にLSP量子化処理を実行することにより、最適量子化インデックスX,Y,Zが選択されたものとする。この場合、最適量子化インデックスX,Y,Zがそれぞれ異なる値であれば、最大3つのLSP候補が選択されることになる。そこで、この実施の形態7では、これらLSP候補について閉ループ探索を行って最適量子化インデックスを選択する。以下に詳細な動作を説明する。
先ず、LSP量子化部35bは、量子化誤差が最小となるLSP候補のインデックス(最大3つX,Y,Z)を全帯域LSP符号帳31aからそれぞれ抽出し、LSP逆量子化部48に出力する。LSP逆量子化部48では、LSP量子化部35bにより選択されたLSP候補のインデックスに基づいて狭帯域LSP符号帳16を探索し、狭帯域LSP符号帳16から対応する低域成分の量子化LSPベクトルを抽出し、LSP−LPC変換部49に出力する。
LSP−LPC変換部49では、LSP逆量子化部49から入力したインデックス(最大3つX,Y,Z)に対応する低域成分のLSPをLPCに変換し、スペクトル分析結果のフィルタパラメータとして合成フィルタ50に出力する。これにより、最適量子化インデックスX,Y,Zがそれぞれ異なる値であれば、3種類の合成フィルタが構成される。
合成フィルタ50では、上記実施の形態1と同様に、駆動音源生成部13から入力した駆動音源信号に対して、スペクトル分析部19Gからのフィルタパラメータ(最大3種類の合成フィルタを構成する)を用いて合成フィルタ処理することにより合成音声を生成し、減算器9及びアップサンプリング部51にそれぞれに出力する。
減算器9では、ダウンサンプリング部1でサンプリングされた入力音声から合成フィルタ50で生成された合成音声を減算して歪み成分を求め、聴覚重み付けフィルタ10に出力する。聴覚重み付けフィルタ10は、減算器9で算出された歪み成分について入力音声のスペクトルに基づいた重み付けを実行し、最小誤差探索部11に出力する。
なお、駆動音源生成部13は、適応符号帳2、代数符号帳3及び利得符号帳4の要素を所定の探索範囲内で探索して駆動音源を合成フィルタ50に逐次出力する。これにより、減算器9及び聴覚重み付けフィルタ10を介して、駆動音源生成部13で生成された各駆動音源信号について重み付け歪み成分がそれぞれ算出され、最小誤差探索部11に出力される。
最小誤差探索部11では、各重み付き歪み成分のパワーを比較して歪み成分が最小となる合成音声が生成された駆動音源信号を選択し、駆動音源生成部13及びLSP量子化部35bに通知する。このようにして、最大3種類のフィルタパラメータで駆動する合成フィルタ50により、駆動音源生成部13の適応符号帳2、代数符号帳3、利得符号帳4の各要素が探索され、適応符号帳2、代数符号帳3、利得符号帳4の各要素について最大3組のインデックスの組み合わせが抽出される。
この後、歪み成分が最小となる最大3組のインデックスの組み合わせによる合成音声は、アップサンプリング部51によりそれぞれアップサンプリングされ、音声信号(低域信号)に変換される。ここでは、サンプリング周波数が12.8kHzから16kHzにアップサンプリングされる。
LSP量子化部35bは、最小誤差探索部11により選択された歪み成分が最小となるLSP候補のインデックス(最大3つX,Y,Z)を、全帯域LSP符号帳31aからそれぞれ選択し、LSP逆量子化部55に出力する。LSP逆量子化部55では、LSP量子化部35bにより選択されたLSP候補のインデックス(最大3つX,Y,Z)に対応する全帯域の量子化LSP候補を、LSP−LPC変換部56にそれぞれ出力する。
LSP−LPC変換部56では、LSP逆量子化部55から入力した全帯域のLSP(最大3つのインデックスX,Y,Zに対応するLSP)をLPCに変換し、スペクトル分析結果のフィルタパラメータとして合成フィルタ59に出力する。これにより、合成フィルタ59についても、最適量子化インデックスX,Y,Zがそれぞれ異なる値であれば、3種類の合成フィルタが構成される。
高域信号利得量子化部20では、入力した音声信号の高域有声強度を算出し、該音声信号と高域有声強度から高域成分の利得を求めて利得乗算器58に出力すると共に、この高域成分の利得値を量子化して多重化部12に出力する。利得乗算器58では、高域信号利得量子化部20から入力した高域成分の利得値を、乱数発生器57から入力した励振信号に相当する信号に乗算する。なお、この乗算処理は、ダウンサンプリングされる前のサンプリング周波数(Fs=16kHz)で行われる。
合成フィルタ59では、LSP−LPC変換部56から入力したフィルタパラメータ(最大3種類の合成フィルタを構成する)を用いて、利得乗算器58で高域利得が乗算された音声信号(駆動音源信号)を合成フィルタ処理することにより合成音声(擬似高域信号)を生成し、該合成音声をバンドパスフィルタ60に出力する。バンドパスフィルタ60では、合成フィルタ59で生成された合成音声から高域成分のみを通過させて加算器52に出力する。これにより、最大3種類の高域信号が加算器52にそれぞれ出力される。
加算器52では、バンドパスフィルタ60からの高域信号とアップサンプリング部51により先に生成された低域信号とを加算して音声信号を生成し、再生音声として減算器53に出力する。減算器53では、加算器52の出力である再生音声と入力音声信号とを減算し、差分値(誤差)を最小誤差探索部54に出力する。最小誤差探索部54では、各インデックスによる音声信号と入力音声信号との差分値を比較して該差分値が最小となる音声信号を選択し、駆動音源生成部13及びLSP量子化部35bに通知する。
駆動音源生成部13では、最小誤差探索部54から最小誤差となる音声信号が選択された旨の通知がされると、該音声信号を生成した駆動音源信号を構成する、適応符号帳2における過去の駆動音源信号を特定するピッチ情報、代数符号帳3における単位パルスを特定するパルス情報、利得符号帳4における適応符号帳2の該要素及び代数符号帳3の該要素に対応する利得を特定する利得情報を多重化部12に出力する。また、LSP量子化部35bも同様に、最小誤差探索部54から最小誤差となる音声信号が選択された旨の通知がされると、該音声信号を生成した駆動音源信号を構成するスペクトル情報を多重化部12に出力する。
多重化部12では、最小誤差の音声信号が生成された駆動音源信号を構成する、適応符号帳2からのピッチ情報、代数符号帳3からのパルス情報、利得符号帳4からの利得情報、高域信号利得量子化部20からの高域信号の利得(高域利得)、及びLSP量子化部35bからのスペクトル情報を多重化して伝送路へ出力する。このようにして、高域成分も外挿されたLSPを用いて量子化された符号化データが生成され、伝送路を経由して音声復号装置に出力される。
なお、図13に示す音声符号化装置の符号化データを復号する音声復号装置は、上記実施の形態2で示した音声復号装置(図5参照)と同一構成で実現可能なため、説明を省略する。
以上のように、この実施の形態7によれば、入力音声信号のLSPを所定の周波数帯域ごとのセグメントに分割し、各周波数帯域に応じた重み付けを行って量子化誤差を評価するにあたり、低域成分の誤差評価用重み付け係数と高域成分の誤差評価用重み付け係数の組み合わせを蓄積する重み付け係数蓄積部47を用いて各周波数帯域に対する誤差評価用重み付け係数を決定するので、入力音声に適応した誤差評価が可能であり、音声品質を改善することができる。また、重み付け係数蓄積部47から読み出した重み付け係数を設定できるため、量子化処理の負荷を低減することも可能である。
また、この実施の形態7によれば、閉ループ探索を行う構成を設けたので、より実際の音声信号に近い符号化(合成)音声を選択できるため、良好な符号化音を再生することができる。
なお、上記実施の形態7では、上記実施の形態3で示した図6の構成に重み付け係数蓄積部47等を設ける場合を説明したが、これらを図7に示した構成に設けたものも本発明に含まれる。また、これらの構成において全帯域LSP符号帳31aの代わりに高域スペクトル外挿部18を設けてもよい。この場合、音声復号装置としては、上記実施の形態1で示した音声復号装置(図3参照)と同一構成で実現可能である。
実施の形態8.
図14は、この発明の実施の形態8による音声符号化装置の構成を示す図である。この実施の形態8による音声符号化装置のスペクトル分析部19Hは、LPC分析部14a,14b、LSP量子化部61,62、狭帯域LSP符号帳16、全帯域LSP符号帳31a、誤差評価セレクタ63、LSP逆量子化部15b、及びLSP−LPC変換部17を備える。
LPC分析部14aは、ダウンサンプリング部1によるダウンサンプリング後の音声信号を入力し、低域成分についてLPC分析を行う。また、LPC分析部14bは、ダウンサンプリング部1を介さずダウンサンプリング前の音声信号を入力し、全帯域成分についてLPC分析を行う。なお、LPC分析部14bは、ダウンサンプリング部1に内蔵される低域通過FIRフィルタの遅延分を補償するための、遅延バッファを内蔵する。
LSP量子化部61は、LPC分析部14aが求めたLSPと狭帯域LSP符号帳16からの低域成分のLSPとを入力して量子化処理を行う。LSP量子化部62は、LPC分析部14bが求めたLSPと全帯域LSP符号帳31aからの全帯域成分のLSPとを入力して量子化処理を行う。誤差評価セレクタ63は、LSP量子化部61,62により求められたLSP候補のインデックスうちのいずれかを選択する。なお、上記以外の構成は、上記実施の形態3で示したもの(図6参照)と同様である。
次に動作について説明する。
LPC分析部14bは、ダウンサンプリング部1を介さずに入力した全帯域の音声信号に対して1音声フレームごとに1回のLPC分析を実行する。例えば、160サンプル(20ms)ごとに、窓かけされた音声の自己相関係数を計算し、レビンソンアルゴリズムを用いてLPCに変換され、該LPCを量子化および補間のためにLSPに変換する。LPC分析部14bによって入力音声信号から求められたLSPは、LSP量子化部62に出力される。
LSP量子化部62では、全帯域LSP符号帳31aから高域成分のスペクトル概形が外挿された全帯域成分のLSPを逐次入力して量子化処理を行う。ここで、全帯域LSP符号帳31aから入力されたLSPとLPC分析部14bから入力されたLSPとの自乗誤差が計算され、自乗誤差の値が最小となるLSP候補ベクトルが選択される。このようにして選択されたLSP候補ベクトルのインデックスは、誤差評価セレクタ63へ出力される。
一方、LPC分析部14aは、ダウンサンプリング部1を介してダウンサンプリングされた狭帯域の音声信号(低域信号)に対して1音声フレームごとに1回のLPC分析を実行して低域成分のLSPを求める。LPC分析部14aによって求められた低域成分のLSPは、LSP量子化部61に出力される。
LSP量子化部61では、狭帯域LSP符号帳16から低域成分のLSPを逐次入力して量子化処理を行う。ここで、狭帯域LSP符号帳16から入力されたLSPとLPC分析部14aから入力されたLSPとの自乗誤差が計算され、自乗誤差の値が最小となるLSP候補ベクトルが選択される。このようにして選択されたLSP候補ベクトルのインデックスは、誤差評価セレクタ63へ出力される。
誤差評価セレクタ63では、LSP量子化部61,62により求められたLSP候補のインデックスうちのいずれかを選択する。例えば、入力音声信号が有声傾向にあり、低域成分の誤差評価を厳密に行いたい場合、LSP量子化部61により求められた低域成分のLSP候補のインデックスを選択する。また、入力音声信号が無声傾向にあり、高域成分の再現性を良くしたい場合であれば、LSP量子化部62により求められた全帯域成分のLSP候補のインデックスを選択する。
このように、誤差評価セレクタ63によって全帯域成分又は低域成分のいずれかのLSP候補のインデックスを選択することで、上記実施の形態3において、高域成分の誤差評価用重み付け係数を0又は1(低域成分の誤差評価用重み付け係数が1の場合)とした場合と同様の効果を得ることができる。誤差評価セレクタ63により選択されたLSP候補のインデックスは、LSP逆量子化部15bに出力される。また、選択したLSP候補のインデックスのうち、適応符号帳2のスペクトル情報を多重化部12に出力する。以降の動作は、上記実施の形態3と同様である。
なお、この実施の形態8による音声符号化装置の符号化データを復号する音声復号装置は、上記実施の形態2で示した音声復号装置(図5参照)と同一構成で実現可能なため、説明を省略する。
以上のように、この実施の形態8によれば、ダウンサンプリング前の全帯域信号についてLSP量子化すると共に、これと並行してダウンサンプリング後の低域信号についてLSP量子化し、これらのうちいずれかの量子化値を選択するので、入力音声に適応した誤差評価が可能であり、音声品質を改善することができる。
上記実施の形態8では、上記実施の形態2で示した図4の構成にLPC分析部14a,14b等を設ける場合を説明したが、全帯域LSP符号帳31aの代わりに高域スペクトル外挿部18を設けてもよい。この場合、音声復号装置としては、上記実施の形態1で示した音声復号装置(図3参照)と同一構成で実現可能である。
実施の形態9.
図15は、この発明の実施の形態9による音声符号化装置の構成を示す図である。図15において、ダウンサンプリング部1、スペクトル分析部19I及び合成フィルタ8以外の構成は記載を省略している。なお、記載を省略した構成は、上記実施の形態2の図4で示した構成と同様である。この実施の形態9による音声符号化装置のスペクトル分析部19Iは、上記実施の形態8で示した構成に加え、スペクトル傾き評価部37a及び適応閾値算出部64を有し、誤差評価セレクタ63の代わりにセレクタ65を備える。
スペクトル傾き評価部37aは、ダウンサンプリング前の音声信号についてのLSPを入力し、該LSPのスペクトル傾きを評価し、スペクトル分布の偏りを特定する低域成分と全帯域成分との信号エネルギーの比を算出する。例えば、図9と同様に構成される。適応閾値算出部64は、スペクトル傾き評価部37aによる評価結果に基づいて、LSP量子化部61,62による量子化誤差を比較するための閾値を算出する。
セレクタ65は、LSP量子化部61,62により求められた量子化誤差と適応閾値算出部64により算出された閾値との比較結果に基づいてLSP量子化部61,62のうちのいずれかの量子化インデックス(自乗誤差が最小となるLSP候補の符号帳インデックス)を選択する。なお、上記以外の構成は、上記実施の形態8で示したもの(図14参照)と同様である。
次に動作について説明する。
LPC分析部14bは、ダウンサンプリング部1を介さずに入力した全帯域の音声信号に対して1音声フレームごとに1回のLPC分析を実行する。このLPC分析によって入力音声信号から求められたLSPは、スペクトル傾き評価部37a及びLSP量子化部62に出力される。
狭帯域LSP符号帳16は、処理対象となる低域成分のLSP候補ベクトルを特定するインデックスを全帯域LSP符号帳31aに出力する。全帯域LSP符号帳31aでは、該インデックスに対応する低域成分のLSPに高域成分のスペクトル概形が外挿された全帯域成分のLSPが読み出され、LSP候補としてLSP量子化部62に出力される。
LSP量子化部62では、全帯域LSP符号帳31aから高域成分のスペクトル概形が外挿された全帯域成分のLSPを逐次入力し、これとLPC分析部14bから入力したLSPを用いて量子化処理を行う。ここで、全帯域LSP符号帳31aから入力されたLSPとLPC分析部14bから入力されたLSPの自乗誤差が計算され、自乗誤差の値が最小となるLSP候補ベクトルが選択される。このようにして選択されたLSP候補ベクトルのインデックス及びその自乗誤差(量子化誤差)は、セレクタ65へ出力される。
一方、LPC分析部14aは、ダウンサンプリング部1によってダウンサンプリングされた狭帯域の音声信号(低域信号)に対して1音声フレームごとに1回のLPC分析を実行して低域成分のLSPを求める。LPC分析部14aによって求められた低域成分のLSPは、LSP量子化部63に出力される。
LSP量子化部62では、狭帯域LSP符号帳16から低域成分のLSPを逐次入力して量子化処理を行う。ここで、狭帯域LSP符号帳16から入力されたLSPと、LPC分析部14aから入力されたLSPとの自乗誤差が計算され、自乗誤差の値が最小となるLSP候補ベクトルが選択される。このようにして選択されたLSP候補ベクトルのインデックス及びその自乗誤差も、セレクタ65へ出力される。
また、スペクトル傾き評価部37aは、上記実施の形態4と同様にして、LPC分析部14bから入力したLSPにおける、全帯域成分の信号エネルギーに対する低域成分の信号エネルギーの割合をエネルギー比として算出する。適応閾値算出部64は、スペクトル傾き評価部37aにより求められたエネルギー比に基づいて、LSP量子化部61,62による量子化誤差を比較するための閾値を算出し、セレクタ65に出力する。
例えば、エネルギー比が小さく、入力音声信号のスペクトル包絡がフラットであるか、高域側に信号エネルギーが偏ってスペクトル包絡が右肩上がりである場合、高域成分が音声品質に寄与する割合が大きいものと判断し、LSP量子化部62による全帯域LSPを選択しやすくなるように適応閾値を大きくする。一方、エネルギー比が大きく、低域側に信号エネルギーが偏ってスペクトル包絡が右肩下がりである場合(低域成分優勢)、高域成分が音声品質にあまり寄与しないものと判断し、LSP量子化部61による狭帯域LSP(低域LSP)を選択しやすくなるように適応閾値を小さくする。
セレクタ65では、LSP量子化部61,62から入力した量子化誤差と適応閾値算出部64により算出された適応閾値とを比較する。このとき、量子化誤差が適応閾値未満であれば、LSP量子化部62による全帯域LSPを特定する符号帳インデックス(量子化インデックス)を選択する。また、量子化誤差が適応閾値以上であれば、LSP量子化部61による狭帯域LSPを特定する符号帳インデックス(量子化インデックス)を選択する。
このように、セレクタ65によって全帯域成分又は低域成分のいずれかのLSP候補のインデックスを選択することで、上記実施の形態3において、高域成分の誤差評価用重み付け係数を0又は1(低域成分の誤差評価用重み付け係数が1の場合)とした場合と同様の効果を得ることができる。
LSP候補の符号帳インデックスを選択すると、セレクタ65は、該インデックスをLSP逆量子化部15bに出力すると共に、該インデックスのうちの適応符号帳2のスペクトル情報を多重化部12に出力する。以降の処理は、上記実施の形態4と同様である。
なお、この実施の形態9による音声符号化装置の符号化データを復号する音声復号装置は、上記実施の形態2で示した音声復号装置(図5参照)と同一構成で実現可能なため、説明を省略する。
以上のように、この実施の形態9によれば、ダウンサンプリング前の全帯域信号についてLSP量子化すると共に、これと並行してダウンサンプリング後の低域信号についてLSP量子化し、入力音声信号のスペクトル傾きの評価結果に基づいていずれかの量子化値を選択するので、入力音声に適応した誤差評価が可能であり、音声品質を改善することができる。
また、上記実施の形態9では、上記実施の形態8で示した構成にスペクトル傾き評価部37a及び適応閾値算出部64等を設ける場合を説明したが、全帯域LSP符号帳31aの代わりに高域スペクトル外挿部18を設けてもよい。この場合、音声復号装置としては、上記実施の形態1で示した音声復号装置(図3参照)と同一構成で実現可能である。
実施の形態10.
図16は、この発明の実施の形態10による音声符号化装置の構成を示す図である。実施の形態10による音声符号化装置のスペクトル分析部19Jは、上記実施の形態8で示した構成に加えて、逆合成フィルタ43、利得比計算部44、遅延バッファ45、及び適応閾値算出部64aを備え、誤差評価セレクタ63の代わりにセレクタ65aを備える。なお、上記以外の構成は、上記実施の形態8で示したもの(図14参照)と同様である。
逆合成フィルタ43は、遅延バッファ45から入力した音声信号から該音声信号のLSP情報を除去して残差信号を算出する。利得比計算部44は、残差信号と励振信号(駆動音源信号)とのエネルギー比の平方根である利得比を算出する。遅延バッファ45は、逆合成フィルタ43にて入力音声信号の残差信号を算出するにあたり、該音声信号のLPC分析結果が得られるまで該音声信号を一時記憶する。
適応閾値算出部64aは、利得比計算部44により算出された利得比に基づいて、LSP量子化部61,62による量子化誤差を比較するための閾値を算出する。セレクタ65aは、LSP量子化部61,62により求められた量子化誤差と適応閾値算出部64aにより算出された閾値との比較結果に基づいてLSP量子化部61,62のうちのいずれかの量子化インデックス(自乗誤差が最小となるLSP候補の符号帳インデックス)を選択する。
次に動作について説明する。
LPC分析部14bは、ダウンサンプリング部1を介さずに入力した全帯域の音声信号に対して1音声フレームごとに1回のLPC分析を実行して低域成分のLSPを求める。また、LPC分析部14bは、ダウンサンプリング部1に内蔵される低域通過FIRフィルタの遅延分を補償するための、遅延バッファを内蔵する。LPC分析部14aによって求められた低域成分のLSPは、逆合成フィルタ43及びLSP量子化部62に出力される。また、遅延バッファ45には、該LSPを求めた音声信号が入力され、LPC分析により該LSPが生成されるまで一時記憶される。
一方、LPC分析部14aは、ダウンサンプリング部1によってダウンサンプリングされた狭帯域の音声信号(低域信号)に対して1音声フレームごとに1回のLPC分析を実行して低域成分のLSPを求める。LPC分析部14aによって求められた低域成分のLSPは、LSP量子化部61に出力される。
LSP量子化部61では、狭帯域LSP符号帳16から低域成分のLSPを逐次入力して量子化処理を行う。ここで、狭帯域LSP符号帳16から入力されたLSPとLPC分析部14aから入力されたLSPの自乗誤差が計算され、自乗誤差の値が最小となるLSP候補ベクトルが選択される。このようにして選択されたLSP候補ベクトルのインデックス及びその自乗誤差は、セレクタ65aへ出力される。
また、LSP量子化部62は、全帯域LSP符号帳31aから高域成分のスペクトル概形が外挿された全帯域成分のLSPを逐次入力して量子化処理を行う。ここで、全帯域LSP符号帳31aから入力されたLSPとLPC分析部14bから入力されたLSPの自乗誤差が計算され、自乗誤差の値が最小となるLSP候補ベクトルが選択される。このようにして選択されたLSP候補ベクトルのインデックス及びその自乗誤差は、セレクタ65aへ出力される。
逆合成フィルタ43では、ダウンサンプリング部1を介さずにLPC分析部14bで求められた音声信号のLSPが入力され、さらに遅延バッファ45から該LSPに対応する音声信号が入力されると、遅延バッファ45より読み込まれた音声信号から該音声信号のLSP情報を除去して残差信号を求め、利得比計算部44に出力する。この残差信号は全帯域の信号エネルギーを有する。
また、利得比計算部44には、駆動音源生成部13の加算器7からの出力である励振信号(駆動音源信号)が入力される。この励振信号は低域(〜6.4kHz)の信号エネルギーを有する。この後、利得比計算部44は、加算器7から入力した励振信号と逆合成フィルタ43から入力した残差信号との信号のエネルギー比(低域成分と全帯域成分のエネルギー比)を求めて、この平方根を利得比として算出し、適応閾値算出部64aに出力する。
適応閾値算出部64aでは、利得比計算部44にて算出された利得比の値に基づいて、LSP量子化部61,62による量子化誤差を比較するための閾値を算出してセレクタ65aに出力する。例えば、利得比の値が1に近ければ、全帯域成分の信号エネルギーに対して低域成分の信号エネルギーの割合が大きく(低域成分優勢)、高域成分が音声品質にあまり寄与しないものと判断し、LSP量子化部61による狭帯域LSP(低域LSP)を選択しやすくなるように適応閾値を小さくする。また、利得比の値が0に近ければ、高域成分が音声品質に寄与する割合が大きいものと判断し、LSP量子化部62による全帯域LSPを選択しやすくなるように適応閾値を大きくする。
セレクタ65aでは、LSP量子化部61,62から入力した量子化誤差と適応閾値算出部64aにより算出された適応閾値とを比較する。このとき、量子化誤差が適応閾値未満であれば、LSP量子化部62による全帯域LSPを特定する符号帳インデックス(量子化インデックス)を選択する。また、量子化誤差が適応閾値以上であれば、LSP量子化部61による狭帯域LSPを特定する符号帳インデックス(量子化インデックス)を選択する。
このように、セレクタ65aによって全帯域成分又は低域成分のいずれかのLSP候補のインデックスを選択することで、上記実施の形態3において、高域成分の誤差評価用重み付け係数を0又は1(低域成分の誤差評価用重み付け係数が1の場合)とした場合と同様の効果を得ることができる。
LSP候補の符号帳インデックスを選択すると、セレクタ65aは、該インデックスをLSP逆量子化部15bに出力すると共に、該インデックスのうちの適応符号帳2のスペクトル情報を多重化部12に出力する。以降の処理は、上記実施の形態4と同様である。
なお、この実施の形態10による音声符号化装置の符号化データを復号する音声復号装置は、上記実施の形態2で示した音声復号装置(図5参照)と同一構成で実現可能なため、説明を省略する。
以上のように、この実施の形態10によれば、ダウンサンプリング前の全帯域信号についてLSP量子化すると共に、これと並行してダウンサンプリング後の低域信号についてLSP量子化し、入力音声信号における低域成分と全帯域成分との信号エネルギー比に基づいていずれかの量子化値を選択するので、入力音声に適応した誤差評価が可能であり、音声品質を改善することができる。
また、図16に示すように、利得比計算部44が、適応符号帳2で選択されたピッチ情報(駆動音源信号のピッチ周期)を入力し、該ピッチ情報を補助的に用いて適応閾値算出部64aによる閾値の算出を制御するようにしてもよい。例えば、ピッチ情報で特定される駆動音源信号の音の性質(有声音か無声音か、若しくは男声か女声か等)に基づいて、適応閾値算出部64aにより算出される低域成分や高域成分に対する閾値を変更する。
また、上記実施の形態10では、上記実施の形態8で示した構成に逆合成フィルタ43、利得比計算部44、遅延バッファ45、適応閾値算出部64a及びセレクタ65aを設ける場合を説明したが、全帯域LSP符号帳31aの代わりに高域スペクトル外挿部18を設けてもよい。この場合、音声復号装置としては、上記実施の形態1で示した音声復号装置(図3参照)と同一構成で実現可能である。
実施の形態11.
図17は、この発明の実施の形態11による音声符号化装置の構成を示す図である。図17において、ダウンサンプリング部1、スペクトル分析部19K及び合成フィルタ8以外の構成は記載を省略している。なお、記載を省略した構成は、上記実施の形態2で示したもの(図4参照)と同様である。
この実施の形態11による音声符号化装置のスペクトル分析部19Kは、上記実施の形態8で示したスペクトル分析部19Hの構成に加えて、重み付け係数符号帳46a及び適応閾値算出部64bを備え、誤差評価セレクタ63の代わりにセレクタ65bを備える。重み付け係数符号帳46aは、全帯域LSP符号帳31aにおける全帯域の各LSPに対応して、低域成分の誤差評価用重み付け係数と高域成分の誤差評価用重み付け係数とを格納する。
なお、重み付け係数符号帳46aは、上記実施の形態3と同様に、全帯域LSP符号帳31a及び狭帯域LSP符号帳16の各要素と1対1に対応している。例えば、重み付け係数符号帳46aには、全帯域LSP符号帳31aのある要素Xに対応して低域成分の誤差重み付け係数WL(X)及び高域成分の誤差重み付け係数WH(X)が格納される。
適応閾値算出部64bは、重み付け係数符号帳46aから読み出された低域成分と高域成分の各誤差評価用重み付け係数に基づいて、LSP量子化部61,62による量子化誤差を比較するための閾値を算出する。セレクタ65bは、LSP量子化部61,62により求められた量子化誤差と適応閾値算出部64bにより算出された閾値との比較結果に基づいてLSP量子化部61,62のうちのいずれかの量子化インデックス(自乗誤差が最小となるLSP候補の符号帳インデックス)を選択する。
次に動作について説明する。
LPC分析部14bは、ダウンサンプリング部1を介さずに入力した全帯域の音声信号に対して1音声フレームごとに1回のLPC分析を実行する。このLPC分析によって入力音声信号から全帯域成分のLSPが求められ、LSP量子化部62に出力される。
一方、LPC分析部14aは、ダウンサンプリング部1によりダウンサンプリングされた狭帯域の音声信号(低域信号)に対して1音声フレームごとに1回のLPC分析を実行して低域成分のLSPを求める。LPC分析部14aによって求められた低域成分のLSPは、LSP量子化部61に出力される。
LSP量子化部61では、狭帯域LSP符号帳16から低域成分のLSPを逐次入力して量子化処理を行う。ここで、狭帯域LSP符号帳16から入力されたLSPとLPC分析部14aから入力されたLSPの自乗誤差が計算され、自乗誤差の値が最小となるLSP候補ベクトルが選択される。このようにして選択されたLSP候補ベクトルのインデックス及びその自乗誤差は、セレクタ65bへ出力される。
また、LSP量子化部62は、全帯域LSP符号帳31aから高域成分のスペクトル概形が外挿された全帯域成分のLSPを逐次入力して量子化処理を行う。ここで、全帯域LSP符号帳31aから入力されたLSPとLPC分析部14bから入力されたLSPの自乗誤差が計算され、自乗誤差の値が最小となるLSP候補ベクトルが選択される。このようにして選択されたLSP候補ベクトルのインデックス及びその自乗誤差は、セレクタ65bへ出力される。
重み付け係数符号帳46aには、LSP量子化部61,62から量子化に用いた符号帳のLSPが入力され、このLSPの特性に基づいて対応する重み付け係数が適応閾値算出部64bに出力される。例えば、全帯域LSP符号帳31aのあるLSPが全帯域に均等に分布していれば、高域成分の重み付け係数を低域成分より大きくした重み付け係数の組み合わせを適応閾値算出部64bに出力する。反対に全帯域LSP符号帳31aのあるLSPが急峻(低域に偏る)であれば、高域成分の重み付け係数を低域成分より小さくした重み付け係数の組み合わせを適応閾値算出部64bに出力する。
適応閾値算出部64bでは、重み付け係数符号帳46aから入力した重み付け係数の値に基づいて、LSP量子化部61,62による量子化誤差を比較するための閾値を算出してセレクタ65bに出力する。例えば、重み付け係数の値から全帯域成分の信号エネルギーに対して低域成分の信号エネルギーの割合が大きく(低域成分優勢)、高域成分が音声品質にあまり寄与しないものと判断される場合、LSP量子化部61による狭帯域LSP(低域LSP)を選択しやすくなるように適応閾値を小さくする。また、重み付け係数の値から高域成分が音声品質に寄与する割合が大きいものと判断される場合、LSP量子化部62による全帯域LSPを選択しやすくなるように適応閾値を大きくする。
セレクタ65bでは、LSP量子化部61,62から入力した量子化誤差と適応閾値算出部64bにより算出された適応閾値とを比較する。このとき、量子化誤差が適応閾値未満であれば、LSP量子化部62による全帯域LSPを特定する符号帳インデックス(量子化インデックス)を選択する。また、量子化誤差が適応閾値以上であれば、LSP量子化部61による狭帯域LSPを特定する符号帳インデックス(量子化インデックス)を選択する。
このように、セレクタ65bによって全帯域成分又は低域成分のいずれかのLSP候補のインデックスを選択することで、上記実施の形態3において、高域成分の誤差評価用重み付け係数を0又は1(低域成分の誤差評価用重み付け係数が1の場合)とした場合と同様の効果を得ることができる。
LSP候補の符号帳インデックスを選択すると、セレクタ65bは、該インデックスをLSP逆量子化部15bに出力すると共に、該インデックスのうちの適応符号帳2のスペクトル情報を多重化部12に出力する。以降の処理は、上記実施の形態4と同様である。
なお、この実施の形態11による音声符号化装置の符号化データを復号する音声復号装置は、上記実施の形態2で示した音声復号装置(図5参照)と同一構成で実現可能なため、説明を省略する。
以上のように、この実施の形態11によれば、ダウンサンプリング前の全帯域信号についてLSP量子化すると共に、これと並行してダウンサンプリング後の低域信号についてLSP量子化し、低域成分の誤差評価用重み付け係数と高域成分の誤差評価用重み付け係数とを予め設定した重み付け係数符号帳を用いて、いずれかの量子化値を選択するので、入力音声に適応した誤差評価が可能であり、音声品質を改善することができる。
また、上記実施の形態11では、上記実施の形態8で示した構成に重み付け係数符号帳46a、適応閾値算出部64b及びセレクタ65bを設ける場合を説明したが、全帯域LSP符号帳31aの代わりに高域スペクトル外挿部18を設けてもよい。この場合、音声復号装置としては、上記実施の形態1で示した音声復号装置(図3参照)と同一構成で実現可能である。
実施の形態12.
図18は、この発明の実施の形態12による音声符号化装置の構成を示す図である。この実施の形態12による音声符号化装置のスペクトル分析部19Lは、上記実施の形態8で示したスペクトル分析部19Hにおいて誤差評価セレクタ63を除いた構成を有する。また、アップサンプリング部51、加算器52、減算器53、最小誤差探索部54、LSP逆量子化部55a、LSP−LPC変換部56a、乱数発生器57、利得乗算器58、合成フィルタ59a、バンドパスフィルタ60及びセレクタ66が、LSPの閉ループ探索を実行する。
次に動作について説明する。
先ず、スペクトル分析部19LのLPC分析部14bは、ダウンサンプリング部1を介さずに入力した全帯域の音声信号に対して1音声フレームごとに1回のLPC分析を実行する。このLPC分析によって入力音声信号から全帯域成分のLSPが求められ、LSP量子化部62に出力される。
一方、LPC分析部14aは、ダウンサンプリング部1によりダウンサンプリングされた狭帯域の音声信号(低域信号)に対して1音声フレームごとに1回のLPC分析を実行して低域成分のLSPを求める。LPC分析部14aによって求められた低域成分のLSPは、LSP量子化部61に出力される。
狭帯域LSP符号帳16は、処理対象となる低域成分のLSP候補ベクトルを特定する符号帳のインデックスを全帯域LSP符号帳31aに出力する。全帯域LSP符号帳31aでは、該インデックスに対応する低域成分のLSPに高域成分のスペクトル概形が外挿された全帯域成分のLSPが読み出され、LSP候補としてLSP量子化部61,62にそれぞれ出力される。
LSP量子化部61では、狭帯域LSP符号帳16から低域成分のLSPを逐次入力して量子化処理を行う。ここで、狭帯域LSP符号帳16から入力されたLSPとLPC分析部14aから入力されたLSPの自乗誤差が計算され、自乗誤差の値が最小となるLSP候補ベクトルが選択される。このようにして選択されたLSP候補ベクトルのインデックスは、LSP逆量子化部15b,55a及びセレクタ66へ出力される。
また、LSP量子化部62は、全帯域LSP符号帳31aから高域成分のスペクトル概形が外挿された全帯域成分のLSPを逐次入力して量子化処理を行う。ここで、全帯域LSP符号帳31aから入力されたLSPとLPC分析部14bから入力されたLSPの自乗誤差が計算され、自乗誤差の値が最小となるLSP候補ベクトルが選択される。このようにして選択されたLSP候補ベクトルのインデックスは、LSP逆量子化部15b及びセレクタ66へ出力される。
LSP逆量子化部15bは、LSP量子化部61,62により選択された各LSP候補のインデックスに基づいて狭帯域LSP符号帳16を探索し、狭帯域LSP符号帳16から対応する低域成分の量子化LSPベクトルをそれぞれ抽出し、LSP−LPC変換部17に出力する。
LSP−LPC変換部17では、LSP逆量子化部15bから入力した低域成分のLSPをLPCに変換し、スペクトル分析結果のフィルタパラメータとして合成フィルタ8に出力する。このようにして、LSP量子化部61,62により選択された各インデックスに対応する2種類の合成フィルタが構成される。
合成フィルタ8では、上記実施の形態1と同様に、駆動音源生成部13から入力した駆動音源信号に対して、スペクトル分析部19Lからのフィルタパラメータを用いて合成フィルタ処理することにより合成音声を生成し、減算器9及びアップサンプリング部51にそれぞれに出力する。
減算器9では、ダウンサンプリング部1でサンプリングされた入力音声から合成フィルタ8で生成された合成音声を減算して歪み成分を求め、聴覚重み付けフィルタ10に出力する。聴覚重み付けフィルタ10は、減算器9で算出された歪み成分について入力音声のスペクトルに基づいた重み付けを実行し、最小誤差探索部11に出力する。
なお、駆動音源生成部13は、適応符号帳2、代数符号帳3及び利得符号帳4の要素を所定の探索範囲内で探索して駆動音源を合成フィルタ8に逐次出力する。これにより、減算器9及び聴覚重み付けフィルタ10を介して、駆動音源生成部13で生成された各駆動音源信号について重み付け歪み成分がそれぞれ算出され、最小誤差探索部11に出力される。最小誤差探索部11では、各重み付き歪み成分のパワーを比較して歪み成分が最小となる合成音声が生成された駆動音源信号を選択し、駆動音源生成部13に通知する。
このようにして、LSP量子化部61,62により選択された各LSP候補のインデックスに対応する2種類のフィルタパラメータで駆動する合成フィルタ8により、駆動音源生成部13の適応符号帳2、代数符号帳3、利得符号帳4の各要素が探索され、適応符号帳2、代数符号帳3、利得符号帳4の各要素について2組の最適量子化インデックスの組み合わせが抽出される。
この後、歪み成分が最小となる2組の最適量子化インデックスの組み合わせによる各合成音声は、アップサンプリング部51によりそれぞれアップサンプリングされ、音声信号(低域信号)に変換される。ここでは、サンプリング周波数が12.8kHzから16kHzにアップサンプリングされる。
一方、LSP逆量子化部55aは、LSP量子化部61,62により選択された各LSP候補のインデックスに対応する全帯域の量子化LSP候補(全帯域LSP)を全帯域LSP符号帳31aから読み出し、LSP−LPC変換部56aにそれぞれ出力する。LSP−LPC変換部56aでは、LSP逆量子化部55aから入力した各全帯域LSPをLPCに変換し、スペクトル分析結果のフィルタパラメータとして合成フィルタ59aに出力する。これにより、合成フィルタ59aも2種類の合成フィルタが構成される。
また、高域信号利得量子化部20は、所定フレーム長単位に入力した音声信号の高域有声強度を算出し、該音声信号と高域有声強度から高域成分の利得を求めて利得乗算器58に出力すると共に、この高域成分の利得値を量子化して多重化部12に出力する。利得乗算器58では、高域信号利得量子化部20から入力した高域成分の利得値を、乱数発生器57から入力した励振信号に相当する信号に乗算する。なお、この乗算処理は、ダウンサンプリングされる前のサンプリング周波数(Fs=16kHz)で行われる。
合成フィルタ59aでは、LSP−LPC変換部56aから入力した各フィルタパラメータを用いて、利得乗算器58で高域利得が乗算された音声信号(駆動音源信号)を合成フィルタ処理することにより合成音声(擬似高域信号)を生成し、該合成音声をバンドパスフィルタ60に出力する。バンドパスフィルタ60では、合成フィルタ59aで生成された合成音声から高域成分のみを通過させて加算器52に出力する。これにより、LSP量子化部61,62により選択された各LSP候補のインデックスに対応する各高域信号が加算器52にそれぞれ出力される。
加算器52では、バンドパスフィルタ60からの高域信号とアップサンプリング部51により先に生成された低域信号とを加算して音声信号を生成し、再生音声として減算器53に出力する。減算器53では、加算器52の出力である再生音声と入力音声信号とを減算し、差分値(誤差)を最小誤差探索部54に出力する。
最小誤差探索部54では、LSP量子化部61,62により選択された各LSP候補のインデックスに対応する音声信号と入力音声信号との差分値を比較して該差分値が最小となる音声信号を選択し、駆動音源生成部13及びセレクタ66に通知する。
駆動音源生成部13では、最小誤差探索部54から最小誤差となる音声信号が選択された旨の通知がされると、該音声信号を生成した駆動音源信号を構成する、適応符号帳2における過去の駆動音源信号を特定するピッチ情報、代数符号帳3における単位パルスを特定するパルス情報、利得符号帳4における適応符号帳2の該要素及び代数符号帳3の該要素に対応する利得を特定する利得情報を多重化部12に出力する。
また、セレクタ66は、最小誤差探索部54から最小誤差となる音声信号が選択された旨の通知がされると、LSP量子化部61,62から入力したLSP候補のインデックスのうち、該音声信号を生成した駆動音源信号を構成するスペクトル情報(スペクトル包絡情報)を選択して多重化部12に出力する。
多重化部12では、最小誤差の音声信号が生成された駆動音源信号を構成する、適応符号帳2からのピッチ情報、代数符号帳3からのパルス情報、利得符号帳4からの利得情報、高域信号利得量子化部20からの高域信号の利得(高域利得)、及びセレクタ66からのスペクトル情報を多重化して伝送路へ出力する。このようにして、高域成分も外挿されたLSPを用いて量子化された符号化データが生成され、伝送路を経由して音声復号装置に出力される。
なお、図18に示す音声符号化装置の符号化データを復号する音声復号装置は、上記実施の形態2で示した音声復号装置(図5参照)と同一構成で実現可能なため、説明を省略する。
以上のように、この実施の形態12によれば、ダウンサンプリング前の全帯域信号についてLSP量子化すると共に、これと並行してダウンサンプリング後の低域信号についてLSP量子化し、これら量子化結果から閉ループ探索によりLSP候補を決定するので、より実際の音声信号に近い符号化(合成)音声を選択できるため、良好な符号化音を再生することができる。例えば、上記実施の形態7で示した構成において、高域成分の誤差評価用重み付け係数を0又は1(低域成分の誤差評価用重み付け係数を1とした場合)とし、2つのLSP候補についての閉ループ探索を行った場合と同様の効果が得られる。
なお、上記実施の形態12において、全帯域LSP符号帳31aの代わりに高域スペクトル外挿部18を設けてもよい。この場合、音声復号装置としては、上記実施の形態1で示した音声復号装置(図3参照)と同一構成で実現可能である。
実施の形態13.
図19は、この発明の実施の形態13による音声符号化装置の構成を示す図である。実施の形態13による音声符号化装置のスペクトル分析部19Mは、図14で示したスペクトル分析部19Hにおいて全帯域LSP符号帳31aの代わりに高域スペクトル外挿部18aを設け、誤差評価セレクタ63の代わりにタイマ67のカウント値に応じて出力を切り換えるセレクタ65cを備える。
高域スペクトル外挿部18aは、LSP量子化部62による量子化処理にあたり、狭帯域LSP符号帳16の各LSP候補に高域信号のスペクトル概形を外挿する。タイマ67は、N(Nは2以上の整数)フレーム周期でタイマ値をセレクタ65cに出力する。セレクタ65cは、タイマ67から入力したタイマ値に応じて出力を切り換える。なお、この他の構成は、上記実施の形態8で示したもの(図14参照)と同様である。
図20は、実施の形態13による音声復号装置の構成を示す図である。この実施の形態13による音声復号装置では、上記実施の形態1で示した構成(図3参照)において、高域スペクトル外挿部18aと同一機能を有する高域スペクトル外挿部27aを備え、高域LSPフレーム間予測部68、タイマ69、該タイマ69からのタイマ値に応じて出力を切り換えるセレクタ70を備える。
高域スペクトル外挿部27aは、図19に示す音声符号化装置の高域スペクトル外挿部18aと同一機能を有し、狭帯域LSP符号帳16で復号された狭帯域LSP(低域信号のLSP)に高域信号のスペクトル概形を外挿する。高域LSPフレーム間予測部68は、高域スペクトル外挿部27aの出力である全帯域LSPの高域成分(6.4kHz〜8kHz)から予測される高域成分を算出し、狭帯域LSP符号帳16から入力した狭帯域LSPを付加する。
タイマ69は、図19に示す音声符号化装置のタイマ67と同期して周期的にタイマ値をセレクタ70に出力する。セレクタ70は、タイマ69から入力したタイマ値に応じて出力を切り換える。これにより、フレーム間予測により予測されたLSPと狭帯域LSPに高域成分のスペクトル概形を外挿したLSPとを切り換えて音声信号を復号することができる。なお、この他の構成は、上記実施の形態1で示したもの(図3参照)と同様である。
次に動作について説明する。
(1)符号化処理
スペクトル分析部19Mでは、タイマ67がLSPの全帯域誤差評価をNフレーム周期に行うため、周期的に0,1のデジタル値を交互にタイマ値としてセレクタ65cに出力する。セレクタ65cでは、タイマ67から入力したタイマ値に応じて、LSP量子化部61側か、LSP量子化部62側に出力を切り換える。
例えば、タイマ67をN=2、つまり周期2をカウントするカウンタで構成した場合、セレクタ65cは、タイマ値=0を入力すると、LSP量子化部62に接続する経路を出力に切り換える。このとき、LPC分析部14bは、ダウンサンプリング部1を介さない音声信号(ダウンサンプルされていない音声信号)を入力し、全帯域の音声信号に対して1音声フレームごとに1回のLPC分析を実行する。このLPC分析によって入力音声信号から全帯域成分のLSPが求められ、LSP量子化部62に出力される。
高域スペクトル外挿部18aでは、狭帯域LSP符号帳16から狭帯域成分(0〜6.4kHz)(低域成分)のLSP候補を読み込んで、高域成分(6.4〜8kHz)のスペクトル概形を外挿した全帯域LSP(0〜8kHz)を算出する。
LSP量子化部62は、高域スペクトル外挿部18aによって高域成分のスペクトル概形が外挿された全帯域成分のLSPを逐次入力し、これとLPC分析部14bから入力したLSPを用いて量子化処理を行う。ここで、高域スペクトル外挿部18aから入力されたLSPとLPC分析部14bから入力されたLSPとの自乗誤差が計算され、自乗誤差の値が最小となるLSP候補ベクトルが選択される。このようにして選択されたLSP候補ベクトルのインデックスは、セレクタ65cを介してLSP逆量子化部15bに出力されると共に、該インデックスのうちのスペクトル情報が多重化部12に出力される。
一方、セレクタ65cは、タイマ67からタイマ値=1を入力すると、LSP量子化部61に接続する経路を出力に切り換える。このとき、LPC分析部14aが、ダウンサンプリング部1によりダウンサンプルされた音声信号を入力し、低域(0〜6.4kHz)の音声信号に対して1音声フレームごとに1回のLPC分析を実行し、低域成分のLSPを求める。LPC分析部14aによって求められた低域成分のLSPは、LSP量子化部61に出力される。
LSP量子化部61では、狭帯域LSP符号帳16から低域成分のLSPを逐次入力して量子化処理を行う。ここで、狭帯域LSP符号帳16から入力されたLSPと、LPC分析部14aから入力されたLSPとの自乗誤差が計算され、自乗誤差の値が最小となるLSP候補ベクトルが選択される。このようにして選択されたLSP候補ベクトルのインデックスは、セレクタ65cを介してLSP逆量子化部15bに出力されると共に、該インデックスのうちのスペクトル情報が多重化部12に出力される。
LSP逆量子化部15bでは、LSP量子化部61又はLSP量子化部62により選択されたLSP候補ベクトルのインデックスに基づいて狭帯域LSP符号帳16を探索し、狭帯域LSP符号帳16から対応する低域成分の量子化LSPベクトルを抽出する。LSP−LPC変換部17では、LSP逆量子化部15bから低域成分のLSPを入力し、該LSPをLPCに変換してスペクトル分析結果のフィルタパラメータとして合成フィルタ8に出力する。以降の処理は、上記実施の形態1と同様である。
このようにして、この実施の形態13による音声符号化装置では、2フレームに1回、LSPの全帯域誤差評価が行われる(符号化フレームごとに全帯域誤差評価と狭帯域誤差評価とが交互に行われる)。
(2)復号処理
図20に示す音声復号装置は、音声符号化装置から受信された符号化データを多重分離部21に入力する。多重分離部21では、音声符号化装置から受信した符号化データを、高域利得、スペクトル情報、ピッチ情報、パルス情報、利得情報に分離する。そして、多重分離部21は、高域利得を高域信号利得復号部22に出力し、スペクトル情報を狭帯域LSP符号帳16に出力し、ピッチ情報を適応符号帳2に出力し、パルス情報を代数符号帳3に出力し、利得情報を利得符号帳4に出力する。
また、狭帯域LSP符号帳16では、多重分離部21により符号化データから分離されたスペクトル情報に基づいて、対応する低域成分のLSPが抽出され、LSP−LPC変換部17、高域スペクトル外挿部27a及び高域LSPフレーム間予測部68に出力される。LSP−LPC変換部17は、狭帯域LSP符号帳16から入力した低域成分のLSPをLPCに変換し、スペクトル分析結果のフィルタパラメータとして合成フィルタ8に出力する。
一方、高域スペクトル外挿部27aは、狭帯域LSP符号帳16から入力した低域成分のLSPに高域成分のスペクトル概形を外挿してセレクタ70に出力する。高域LSPフレーム間予測部68は、高域スペクトル外挿部27aの出力である、前フレーム(タイマ69による直近のタイマ値が0のとき)及びそれより過去の全帯域LSPの高域成分(6.4〜8kHz)から予測される高域成分を算出し、狭帯域LSP符号帳16から入力した低域成分LSPに付加してセレクタ70に出力する。
ここで、この実施の形態13による音声復号装置では、タイマ69が、図19に示した音声符号化装置のタイマ67と同期して動作する。つまり、タイマ67でタイマ値=0となったとき、タイマ69においてもタイマ値=0を出力し、タイマ67でタイマ値=1となったとき、タイマ69もタイマ値=1を出力する。
セレクタ70では、タイマ69から入力したタイマ値に応じて、高域スペクトル外挿部27a側か、高域LSPフレーム間予測部68側に出力を切り換える。例えば、図19に示した音声符号化装置においてタイマ値=0であると、全帯域誤差評価が行われているので、セレクタ70は、高域スペクトル外挿部27a側に出力を切り換える。このとき、符号化データから分離されたスペクトル情報に基づいて狭帯域LSP符号帳16から抽出された低域成分LSPに高域成分のスペクトル概形を外挿した全帯域LSPが、高域スペクトル外挿部27aからセレクタ70を介してLSP−LPC変換部26に出力される。
また、タイマ値=1であると、図19に示した音声符号化装置において狭帯域誤差評価が行われているので、セレクタ70は、高域LSPフレーム間予測部68側に出力を切り換える。このとき、高域LSPフレーム間予測部68が、高域スペクトル外挿部27aから入力した前フレームとそれより過去のフレームとの間における全帯域LSPの高域成分から現フレームにおける高域成分を予測する。このようにして予測された高域成分は、狭帯域LSP符号帳16から抽出された低域成分LSPに付加され、セレクタ70を介して全帯域LSPとしてLSP−LPC変換部26に出力される。
LSP−LPC変換部26では、セレクタ70を介して入力したLSPをLPCに変換し、スペクトル分析結果のフィルタパラメータとして合成フィルタ25に出力する。以降の処理は、上記実施の形態1と同様である。
以上のように、この実施の形態13によれば、LSPの全帯域誤差評価を周期的(例えば、Nフレームに1回)に行い、それ以外のフレームはLSPのフレーム間予測により予測されたスペクトル情報を用いて擬似広帯域拡張を行うので、処理を効率良く行うことができる。例えば、音声信号が定常的である部分はLSPの時間変化が少ないので、LSPの高域成分が評価されていないフレームについても、フレーム間予測によって高域成分をある程度正確に見積もることができ、効率良く高域成分を拡張可能である。
実施の形態14.
図21は、この発明の実施の形態14による音声復号装置の構成を示す図である。この実施の形態14による音声復号装置は、図20に示した上記実施の形態13による音声復号装置においてセレクタ70の代わりにLSP重み付け平均計算部71を備えたものである。LSP重み付け平均計算部71は、タイマ69から入力したタイマ値に基づいて、高域スペクトル外挿部27aから出力されるLSPと高域LSPフレーム間予測部68から出力されるLSPに対して重み付けを加算する。なお、実施の形態14における音声符号化装置は、上記実施の形態13で示した音声符号化装置(図19参照)と同一構成で実現可能なため、説明を省略する。
次に動作について説明する。
上記実施の形態13と同様にして、高域スペクトル外挿部27aが、狭帯域LSP符号帳16から入力した低域成分のLSPに高域成分のスペクトル概形を外挿し、該全帯域LSPをLSP重み付け平均計算部71に出力する。また、高域LSPフレーム間予測部68は、高域スペクトル外挿部27aの出力である、前フレーム(タイマ69による直近のタイマ値が0のとき)及びそれより過去の全帯域LSPの高域成分(6.4〜8kHz)から予測される高域成分を算出し、狭帯域LSP符号帳16から入力した低域成分LSPに付加してLSP重み付け平均計算部71に出力する。
LSP重み付け平均計算部71では、タイマ69から入力したタイマ値に応じて、高域スペクトル外挿部27aからの出力LSPと高域LSPフレーム間予測部68からの出力LSPに重み付けを設定する。例えば、タイマ値=0のとき、図19に示した音声符号化装置で全帯域誤差評価が行われている場合、LSP重み付け平均計算部71には、音声符号化装置における高域スペクトル外挿部18aと同一の機能を有する高域スペクトル外挿部27aからの全帯域LSPが入力されている。このため、該全帯域LSPは、図19に示した音声符号化装置のLSP量子化部62で選択されたLSPと同一なものとなる。
従って、タイマ値=0のとき、LSP重み付け平均計算部71は、高域スペクトル外挿部27aからの出力LSP(以降、LSP2とする)に設定する重み付け係数を高域LSPフレーム間予測部68からの出力LSP(以降、LSP1とする)に設定するものより大きくする。具体的には、重み付け係数をLSP1:LSP2=0:100とし、LSP2をそのままLSP−LPC変換部26に出力し、LSP1を出力しない。
また、タイマ値=1のときは、図19に示した音声符号化装置で狭帯域誤差評価が行われているので、例えば重み付け係数をLSP1:LSP2=50:50とし、LSP1とLSP2を重み付け平均したLSPを算出し、LSP−LPC変換部26に出力する。
LSP−LPC変換部26では、LSP重み付け平均計算部71から入力したLSPの量子化と補間を行ってLPCに変換し、スペクトル分析結果のフィルタパラメータとして合成フィルタ25に出力する。以降の処理は、上記実施の形態1と同様である。
以上のように、この実施の形態14によれば、疑似広帯域拡張を行うにあたり、低域成分のLSPに高域成分のスペクトル概形を外挿したLSPとフレーム間予測によるLSPとを併用するので、上記実施の形態13と同様に復号処理を効率良く行うことができる。
実施の形態15.
図22は、この発明の実施の形態15で符号化の対象とする周波数帯域を説明するための図であり、音声信号のスペクトルを示している。この実施の形態15では、7.0kHzの音声信号を対象とした符号化であり、図22に示すように、後述する広帯域LSP符号帳に格納されるLSPの周波数帯域は0〜6.0kHzである。つまり、該周波数帯域の信号成分をLSP量子化の対象とし、0〜6.0kHzの信号成分が誤差評価対象となる。なお、実際には若干周波数帯域が狭く、50Hz〜6.0kHzとなる。
また、0〜4.0kHz(実際には、50Hz〜4.0kHz)の周波数帯の低域信号についてCELP型の符号化及び復号処理を行い、4.0〜7.0kHzの周波数帯である高域信号は擬似広帯域拡張の対象となる。つまり、量子化されたスペクトル情報(スペクトル包絡情報)として4.0〜6.0kHzの周波数帯の信号成分を求め、広帯域信号に外挿するスペクトル情報として6.0〜7.0kHzの周波数帯の信号成分を求め、これら信号成分を合成して高域成分とする。
図23は、この発明の実施の形態15による音声符号化装置の構成を示す図である。図23において、この実施の形態15による音声符号化装置は、ダウンサンプリング部1a,1b、合成フィルタ8、減算器9、聴覚重み付けフィルタ10、最小誤差探索部11、多重化部12、駆動音源生成部13、スペクトル分析部19N及び高域信号利得量子化部20を備える。
ダウンサンプリング部1a,1bは、入力音声信号をダウンサンプリングする。図23の例では、ダウンサンプリング部1aがサンプリング周波数を16kHzから8kHzにダウンサンプリングし、ダウンサンプリング部1bが16kHzから12.8kHzにダウンサンプリングする。なお、ダウンサンプリング部1a,1bはそれぞれ低域通過フィルタを有するが、それぞれの低域通過フィルタは遮断周波数が異なるため、フィルタ次数、ひいてはフィルタリングによる遅延時間が異なる。例えば、それぞれの低域通過フィルタをFIRフィルタで構成した場合、通常はダウンサンプリング部1bのフィルタ次数が長くなる(即ち、遅延時間が長くなる)傾向がある。この場合、遅延差を補償する遅延バッファを、ダウンサンプリング部1aに内蔵させる。合成フィルタ8、減算器9、聴覚重み付けフィルタ10、最小誤差探索部11、多重化部12、駆動音源生成部13、及び高域信号利得量子化部20は、上記実施の形態1で示したもの(図2参照)と同様である。
スペクトル分析部19Nは、LPC分析部14c、LSP量子化部72、LSP逆量子化部15b、狭帯域LSP符号帳16、LSP−LPC変換部17及び広帯域LSP符号帳73を備える。LPC分析部14cは、ダウンサンプリング部1aによりダウンサンプリングされた音声信号を所定長のフレームごとに入力して全帯域線形予測を行う。LSP量子化部72は、LPC分析部14cが求めたLSPと、広帯域LSP符号帳73から読み込んだ広帯域のLSPとを入力して量子化処理を行う。
広帯域LSP符号帳73は、狭帯域LSP符号帳16の各LSPに対し、図22で示した4〜6kHzの信号成分のスペクトル概形を外挿したLSPをテーブルデータとして有する。また、広帯域LSP符号帳73と狭帯域LSP符号帳16は、互いの要素が1対1に対応しており、広帯域LSP符号帳73の要素の低域成分は、狭帯域LSP符号帳16における対応する要素と同一のスペクトル概形を有する。なお、図23において、LSP逆量子化部15b、狭帯域LSP符号帳16、及びLSP−LPC変換部17は、上記実施の形態1で示したもの(図2参照)と同様である。
図24は、実施の形態15による音声復号装置の構成を示す図である。図24において、この実施の形態15による音声符号化装置は、適応符号帳2、代数符号帳3、利得符号帳4、利得乗算器5,6、加算器7、合成フィルタ8、狭帯域LSP符号帳16、広帯域LSP符号帳73及びLSP−LPC変換部17を備え、さらに多重分離部21、高域信号利得復号部22、乱数発生器23、利得乗算器24、合成フィルタ25、LSP−LPC変換部26、高域スペクトル外挿部27b、バンドパスフィルタ28、アップサンプリング部29及び加算器30を備える。
高域スペクトル外挿部27bは、符号化データから分離されたスペクトル情報に基づいて広帯域LSP符号帳73から抽出された広帯域信号のLSPに高域成分のスペクトル概形を外挿したLSPを生成する。広帯域LSP符号帳73は、図23で示した音声符号化装置に設けたものと同一内容を格納する。なお、この他の構成については、上記実施の形態1で示したもの(図3参照)と同様である。
次に動作について説明する。
(1)符号化処理
ダウンサンプリング部1aは、所定フレーム長単位に入力した音声信号をサンプリング周波数16kHzから8kHzにダウンサンプリングして減算器9に出力する。一方、ダウンサンプリング部1bは、所定フレーム長単位に入力した音声信号をサンプリング周波数16kHzから12.8kHzにダウンサンプリングし、LPC分析部14cに出力する。
LPC分析部14cでは、ダウンサンプリング部1bを介してダウンサンプリングされた音声信号を入力し、図22で示した広帯域の音声信号に対して1音声フレームごとに1回のLPC分析を実行する。LPC分析部14bにより求められた広帯域LSPは、LSP量子化部72に出力される。
LSP量子化部72は、広帯域LSP符号帳73から広帯域成分のLSP候補を逐次入力し、これとLPC分析部14bからの広帯域LSPを用いて量子化処理を行う。ここで、広帯域LSP符号帳73から広帯域成分のLSPとLPC分析部14bから入力された広帯域LSPの自乗誤差が計算され、自乗誤差の値が最小となるLSP候補ベクトルが選択される。このようにして選択されたLSP候補ベクトルのインデックスは、LSP逆量子化部15bへ出力されると共に、スペクトル情報(スペクトル包絡情報)として多重化部12へ出力される。
LSP逆量子化部15bでは、上記実施の形態1と同様に、LSP量子化部72により選択されたLSP候補ベクトルのインデックスに基づいて狭帯域LSP符号帳16を探索し、狭帯域LSP符号帳16から対応する低域成分の量子化LSPベクトルを抽出する。LSP逆量子化部15bにより抽出されたLSPは、LSP−LPC変換部17に出力される。LSP−LPC変換部17では、LSP逆量子化部15bから入力した低域成分のLSPをLPCに変換し、スペクトル分析結果のフィルタパラメータとして合成フィルタ8に出力する。
また、駆動音源生成部13では、利得乗算器5において適応符号帳2で探索された過去の駆動音源信号と利得符号帳4で探索された適応符号帳2に対する利得値候補との乗算が行われ、利得乗算器6において代数符号帳3で探索された単位パルスと利得符号帳4で探索された代数符号帳3に対する複数の利得値候補との乗算が行われる。これら利得乗算器5,6の出力は加算器7により加算され、駆動音源信号として合成フィルタ8に出力される。
合成フィルタ8では、上述したように、駆動音源生成部13から入力した駆動音源信号に対して、スペクトル分析部19Nからのフィルタパラメータを用いて合成フィルタ処理することによって合成音声を生成し、減算器9に出力する。
減算器9では、ダウンサンプリング部1aでサンプリングされた入力音声から合成フィルタ8で生成した合成音声を減算して歪み成分を求め、聴覚重み付けフィルタ10に出力する。聴覚重み付けフィルタ10は、減算器9で算出された歪み成分について入力音声のスペクトルに基づいた重み付けを実行し、最小誤差探索部11に出力する。
なお、駆動音源生成部13は、適応符号帳2、代数符号帳3及び利得符号帳4の要素を所定の探索範囲内で探索して駆動音源信号を合成フィルタ8に逐次出力する。これにより、減算器9及び聴覚重み付けフィルタ10を介して、駆動音源生成部13で生成された各駆動音源信号について重み付け歪み成分がそれぞれ算出され、最小誤差探索部11に出力される。最小誤差探索部11では、各重み付き歪み成分のパワーを比較して歪み成分が最小となる合成音声が生成された駆動音源信号を選択し、駆動音源生成部13に通知する。
駆動音源生成部13では、最小誤差探索部11から最小誤差となる駆動音源信号が通知されると、該駆動音源信号を構成する、適応符号帳2における過去の駆動音源信号を特定するピッチ情報、代数符号帳3における単位パルスを特定するパルス情報、利得符号帳4における適応符号帳2の該要素及び代数符号帳3の該要素に対応する利得を特定する利得情報を多重化部12に出力する。
多重化部12は、歪み成分が最小の合成音声が生成された駆動音源信号に関する、適応符号帳2からのピッチ情報、代数符号帳3からのパルス情報、利得符号帳4からの利得情報、高域信号利得量子化部20からの高域信号の利得(高域利得)、及びLSP量子化部72からのスペクトル情報を多重化して伝送路へ出力する。このようにして、高域成分も外挿されたLSPを用いて量子化された符号化データが生成され、伝送路を経由して図24に示す音声復号装置に出力される。
(2)復号処理
多重分離部21が、音声符号化装置から受信した符号化データを、高域利得、スペクトル情報、ピッチ情報、パルス情報、利得情報に分離する。そして、高域利得は高域信号利得復号部22に、スペクトル情報は狭帯域LSP符号帳16及び広帯域LSP符号帳73に、ピッチ情報は適応符号帳2に、パルス情報は代数符号帳3に、利得情報は利得符号帳4に出力される。
狭帯域LSP符号帳16では、多重分離部21により符号化データから分離されたスペクトル情報に基づいて、対応する低域成分のLSPが抽出され、LSP−LPC変換部17に出力される。また、LSP−LPC変換部17では、狭帯域LSP符号帳16から入力した低域成分のLSPをLPCに変換し、スペクトル分析結果のフィルタパラメータとして合成フィルタ8に出力する。
一方、広帯域LSP符号帳73では、多重分離部21により符号化データから分離されたスペクトル情報に基づいて、対応する広帯域成分のLSPが抽出され、高域スペクトル外挿部27bに出力される。高域スペクトル外挿部27bは、広帯域LSP符号帳73から入力した広帯域成分(例えば、0〜6kHz)のLSPに高域成分(例えば、6〜7kHz)のスペクトル概形を外挿し、LSP−LPC変換部26に出力する。LSP−LPC変換部26では、高域スペクトル外挿部27bにより得られた全帯域LSPの量子化と補間を行ってLPCに変換し、スペクトル分析結果のフィルタパラメータとして合成フィルタ25に出力する。
また、高域信号利得復号部22は、多重分離部21により符号化データから分離された高域利得を逆量子化して高域利得に相当する利得値を求めて利得乗算器24に出力する。利得乗算器24では、高域信号利得復号部22で復号された高域成分の利得値を、乱数発生器23から入力した励振信号に相当する信号に乗算する。なお、図24の例では、サンプリング周波数Fsが16kHzで擬似的な励振信号と高域利得値とが乗算され、サンプリング周波数が16kHzの駆動音源として合成フィルタ25に出力される。
合成フィルタ25では、LSP−LPC変換部26から入力したフィルタパラメータを用いて、利得乗算器24から入力した音声信号(駆動音源信号)を合成フィルタ処理することにより合成音声を生成し、該合成音声をバンドパスフィルタ28に出力する。バンドパスフィルタ28では、合成フィルタ25で生成された合成音声から所定帯域の信号成分のみを通過させて加算器30に出力する。図24の例では、バンドパスフィルタ28により4〜7kHzの高域成分のみが通過する。
また、適応符号帳2では、多重分離部21により符号化データから分離されたピッチ情報に基づいて、対応する過去の駆動音源信号を抽出して利得乗算器5に出力する。また、代数符号帳3は、多重分離部21により符号化データから分離されたパルス情報に基づいて、対応する単位パルスを抽出して利得乗算器6に出力する。利得符号帳4では、多重分離部21により符号化データから分離された利得情報に基づいて、対応する適応符号帳2の利得値と代数符号帳3の利得値とを抽出し、利得乗算器5,6にそれぞれ出力する。
利得乗算器5は、適応符号帳2からの駆動音源信号に対し、利得符号帳4からの利得値を乗算して加算器7に出力する。また、利得乗算器6は、代数符号帳3からの単位パルスに対し、利得符号帳4からの利得値を乗算して加算器7に出力する。加算器7は、利得の乗ぜられた適応符号帳2の出力信号と代数符号帳3の出力信号を加算し、駆動音源信号として合成フィルタ8に出力する。
合成フィルタ8では、LSP−LPC変換部17から入力したフィルタパラメータを用いて、加算器7からの駆動音源信号を合成フィルタ処理することにより低域成分の合成音声を生成し、該合成音声をアップサンプリング部29に出力する。アップサンプリング部29では、合成フィルタ8から入力した合成信号をアップサンプリングして加算器30に出力する。ここでは、12.8kHzにダウンサンプリングされたサンプリング周波数を16kHzにアップサンプリングする。加算器30は、バンドパスフィルタ28を通過した高域信号とアップサンプリング部29でサンプリングされた低域信号とを加算して復号後の音声信号を生成し、再生音声として出力する。
以上のように、この実施の形態15によれば、擬似広帯域拡張を行う周波数帯域の一部をLSP量子化の対象とするので、処理負荷の増加を抑制しつつ、再生音声の品質を向上させることができる。
実施の形態16.
図25は、この発明の実施の形態16による音声符号化装置の構成を示す図である。この実施の形態16による音声符号化装置は、レート可変励振信号生成部74、レート可変ダウンサンプリング部79、合成フィルタ8、減算器9、聴覚重み付けフィルタ10、最小誤差探索部11、多重化部12、励振音源量子化モード制御部80、スペクトル分析部19O及び高域信号利得量子化部20aを備える。
スペクトル分析部19Oは、LSP−LPC変換部17a、マルチモード線形予測分析部75、マルチモードLSP量子化部76、マルチモードLSP逆量子化部77及びLSP量子化モード制御部78を備える。LSP−LPC変換部17aは、マルチモードLSP逆量子化部77で復号されたLSPの量子化と補間を行ってLPCに変換し、スペクトル分析結果のフィルタパラメータとして合成フィルタ8に出力する。
マルチモード線形予測分析部75は、LSP量子化モード制御部78によって指定されたLSP量子化モードに対応するサンプリング周波数で入力音声信号をダウンサンプリングしてLPC分析とLPCのLSPへの変換を行う。マルチモードLSP量子化部76は、LSP量子化モード制御部78によって指定されたLSP量子化モードに対応する周波数帯域のLSPの量子化処理を行う。
マルチモードLSP逆量子化部77は、複数の周波数帯のLSP符号帳を有しており、マルチモードLSP量子化部76で選択されたLSP候補の符号帳インデックスに基づいて、励振音源量子化モード制御部80により指定された励振音源量子化モードに応じた周波数帯域のLSP符号帳からLSPを取得する。LSP量子化モード制御部78は、マルチモード線形予測分析部75及びマルチモードLSP量子化部76に対するLSP量子化モードの設定を制御する。
高域信号利得量子化部20aは、励振音源量子化モード制御部80により励振音源量子化モードが指定され、入力音声信号における該励振音源量子化モードに応じた周波数帯の高域成分の利得を求め、これを量子化し高域利得として多重化部12に出力する。
レート可変励振信号生成部74は、励振音源量子化モード制御部80により励振音源量子化モードが指定され、該励振音源量子化モードに応じた周波数帯の励振信号(駆動音源信号)を生成する。レート可変ダウンサンプリング部79は、励振音源量子化モード制御部80により励振音源量子化モードが指定され、該励振音源量子化モードに応じたサンプリング周波数で入力音声信号をダウンサンプリングする。
励振音源量子化モード制御部80は、レート可変励振信号生成部74、マルチモードLSP逆量子化部77、レート可変ダウンサンプリング部79及び高域信号利得量子化部20aに対する励振音源量子化モードの設定を制御する。なお、他の構成は、上記実施の形態1で示したもの(図2参照)と同様である。
次にレート可変励振信号生成部74の詳細な構成を説明する。
図26は、図25中のレート可変励振信号生成部の構成を示す図であり、低域の励振信号を生成する構成を抜粋して示している。図26において、低域サブバンド適応符号帳2aは、過去に生成した低域成分(0〜4.0kHz)の励振信号(駆動音源信号)を蓄積する。低域サブバンド代数符号帳3aは、低域(0〜4.0kHz)における振幅が一定の所定本数の単位パルスが格納される。低域サブバンド利得符号帳4aは、低域サブバンド適応符号帳2aと低域サブバンド代数符号帳3aにそれぞれ対応する利得値の候補を格納する。
利得乗算器5aは、低域サブバンド適応符号帳2aからの低域成分の励振信号に対し、低域サブバンド利得符号帳4aから入力した該励振信号に対応する利得値を乗算する。利得乗算器6aは、低域サブバンド代数符号帳3aからの単位パルスに対し、低域サブバンド利得符号帳4aから入力した該単位パルスに対応する利得値を乗算する。加算器7aは、利得が乗算された低域サブバンド適応符号帳2aの出力信号と低域サブバンド代数符号帳3aの出力信号とを加算し、励振信号として合成フィルタ8に出力する。
図27は、図25中のレート可変励振信号生成部の構成を示す図であり、低域及び中帯域の励振信号を生成する構成を抜粋して示している。なお、図26と同一の構成要素には同一符号を付してその説明を省略する。図27において、中帯域サブバンド適応符号帳2bでは、過去に生成した中帯域(4.0kHz〜6.4kHz)の周波数成分を含む励振信号を蓄積する。中帯域サブバンド代数符号帳3bは、中帯域(4.0kHz〜6.4kHz)における振幅が一定の所定本数の単位パルスが格納される。中帯域サブバンド利得符号帳4bには、中帯域サブバンド適応符号帳2bと中帯域サブバンド代数符号帳3bに対する複数の利得値の候補を格納する。
利得乗算器5bは、中帯域サブバンド適応符号帳2bからの励振信号に対し、中帯域サブバンド利得符号帳4bから入力した該励振信号に対応する利得値を乗算する。利得乗算器6bは、中帯域サブバンド代数符号帳3bからの単位パルスに対し、中帯域サブバンド利得符号帳4bから入力した該単位パルスに対応する利得値を乗算する。加算器7bは、利得が乗算された中帯域サブバンド適応符号帳2bの出力信号と中帯域サブバンド代数符号帳3bの出力信号とを加算する。
帯域分割部81aは、帯域合成部81bの出力である低域及び中帯域(0〜6.4kHz)の励振信号(駆動音源信号)を低域(0〜4.0kHz)の励振信号と中帯域(4.0kHz〜6.4kHz)の励振信号に分割し、低域サブバンド適応符号帳2a及び中帯域サブバンド適応符号帳2bの要素としてそれぞれ登録する。帯域合成部81bは、加算器7a,7bの出力である低域の励振信号と中帯域の励振信号を合成し、低域及び中帯域(0〜6.4kHz)の励振信号として合成フィルタ8に出力する。
図28は、図25中のレート可変励振信号生成部の構成を示す図であり、全帯域の励振信号を生成する構成を示している。図26において、なお、図26と同一の構成要素には同一符号を付してその説明を省略する。図28において、高域サブバンド適応符号帳2cでは、過去に生成した高域(6.4〜7.0kHz)の周波数成分を含む励振信号を蓄積する。高域サブバンド代数符号帳3cは、高域(6.4kHz〜7.0kHz)における振幅が一定の所定本数の単位パルスが格納される。高域サブバンド利得符号帳4cには、高域サブバンド適応符号帳2cと高域サブバンド代数符号帳3cに対する複数の利得値の候補を格納する。
利得乗算器5cは、高域サブバンド適応符号帳2cからの励振信号に対し、高域サブバンド利得符号帳4cから入力した該励振信号に対応する利得値を乗算する。利得乗算器6cは、高域サブバンド代数符号帳3cからの単位パルスに対し、高域サブバンド利得符号帳4cから入力した該単位パルスに対応する利得値を乗算する。加算器7cは、利得が乗算された高域サブバンド適応符号帳2cの出力信号と高域サブバンド代数符号帳3cの出力信号とを加算する。
図28における帯域分割部81aでは、帯域合成部81bの出力である全帯域(0〜7.0kHz)の励振信号を低域(0〜4.0kHz)の励振信号、中帯域(4.0〜6.4kHz)の励振信号、及び高域(6.4〜7.0kHz)の励振信号に分割し、低域サブバンド適応符号帳2a、中帯域サブバンド適応符号帳2b及び高域サブバンド適応符号帳2cの要素としてそれぞれ登録する。また、帯域合成部81bは、加算器7a,7b,7cの出力である低域の励振信号、中帯域の励振信号及び高域の励振信号を合成し、全帯域(0〜7.0kHz)の励振信号として合成フィルタ8に出力する。
なお、レート可変励振信号生成部74を図28で示した構成とし、励振音源量子化モード制御部80からの制御信号に応じて、図26から図28までのいずれかに示した構成に切り換えても良く、図26から図28までのいずれかの構成を動作可に設定した場合、他の構成を動作不可に設定してもよい。
次に、マルチモード線形予測分析部75の構成を詳細に説明する。
図29は、図25中のマルチモード線形予測分析部の構成を示す図である。LPC分析部82は、ダウンサンプルされていない音声信号を入力し、全帯域の音声信号に対して1音声フレームごとに1回のLPC分析を実行する。図29では、サンプリング周波数Fs=16kHzの音声信号がLPC分析の対象となる。LPC−LSP変換部83は、LPC分析部82で求められたLPCをLSPに変換する。このときのLSPの周波数帯域は、理論的には0〜8.0kHzであるが、帯域制限フィルタの設計上の都合から若干狭くなる。例えば、ITU−T勧告G.722では50Hz〜7.0kHzに制限される。
ダウンサンプリング部84は、入力音声信号を中帯域までの周波数帯域に対応するサンプリング周波数Fs=12.8kHzにダウンサンプリングする。LPC分析部85は、ダウンサンプリング部84によりダウンサンプルされた音声信号を入力し、中帯域までの音声信号に対して1音声フレームごとに1回のLPC分析を実行する。LPC−LSP変換部86は、LPC分析部85で求められたLPCをLSPに変換する。このときのLSPの周波数帯域は中帯域までであり、理論的には0〜6.4kHzである。
ダウンサンプリング部87は、入力音声信号を低周波数帯域に対応するサンプリング周波数Fs=8kHzにダウンサンプリングする。LPC分析部88は、ダウンサンプリング部87によりダウンサンプルされた音声信号を入力し、低域までの音声信号に対して1音声フレームごとに1回のLPC分析を実行する。LPC−LSP変換部89は、LPC分析部88で求められたLPCをLSPに変換する。このときのLSPの周波数帯域は、理論的には0〜4.0kHzである。
セレクタ90は、LSP量子化モード制御部78からの制御信号で指定されるLSP量子化モードに応じて入力音声信号の出力先をLPC分析部82、ダウンサンプリング部84及びダウンサンプリング部87のいずれかに切り換える。セレクタ91は、LSP量子化モード制御部78からの制御信号で指定されるLSP量子化モードに応じて出力元をLPC−LSP変換部83,86,89のいずれかに切り換えてLSPを出力する。
次にマルチモードLSP量子化部76の構成を詳細に説明する。
図30は、図25中のマルチモードLSP量子化部の構成を示す図である。狭帯域LSP符号帳92aは、狭帯域の周波数成分をもつLSPの集合体である。LSP量子化モード制御部78によりサンプリング周波数Fs=8kHzのLSP量子化モードが指定されると、LSP量子化部93cが狭帯域LSP符号帳92aを用いて狭帯域成分のLSP量子化処理を行う。
中帯域LSP符号帳92bは、中帯域までの周波数成分をもつLSPの集合体である。LSP量子化モード制御部78によりサンプリング周波数Fs=12.8kHzのLSP量子化モードが指定されると、LSP量子化部93bが中帯域LSP符号帳92bを用いて中帯域までの信号成分のLSP量子化処理を行う。
全帯域LSP符号帳92cは、全帯域の周波数成分をもつLSPの集合体である。LSP量子化モード制御部78によりサンプリング周波数Fs=16kHzのLSP量子化モードが指定されると、LSP量子化部93aが全帯域LSP符号帳92cを用いて全帯域成分のLSP量子化処理を行う。
セレクタ94aは、LSP量子化モード制御部78からの制御信号で指定されるLSP量子化モードに応じてマルチモード線形予測分析部75からのLSPの出力先をLSP量子化部93a,93b,93cのいずれかに切り換える。セレクタ94bは、LSP量子化モード制御部78により指定されたLSP量子化モードに応じて出力元をLSP量子化部93a,93b,93cのいずれかに切り換えて量子化インデックスを出力する。
次にマルチモードLSP逆量子化部77の構成を詳細に説明する。
図31は、図25中のマルチモードLSP逆量子化部の構成を示す図である。LSP逆量子化部95aは、LSP量子化部93aで選択されたLSP候補ベクトルのインデックスに基づいて全帯域LSP符号帳92cを探索し、対応する量子化LSPベクトルを抽出する。LSP逆量子化部95bは、LSP量子化部93bで選択されたLSP候補ベクトルのインデックスに基づいて中帯域LSP符号帳92bを探索し、対応する量子化LSPベクトルを抽出する。LSP逆量子化部95cは、LSP量子化部93aで選択されたLSP候補ベクトルのインデックスに基づいて狭帯域LSP符号帳92aを探索し、対応する量子化LSPベクトルを抽出する。
セレクタ96aは、励振音源量子化モード制御部80からの制御信号で指定された励振音源量子化モードに応じてマルチモードLSP量子化部76からの量子化インデックスの出力先をLSP逆量子化部95a,95b,95cのいずれかに切り換える。セレクタ96bは、励振音源量子化モード制御部80により指定された励振音源量子化モードに応じて出力元をLSP逆量子化部95a,95b,95cのいずれかに切り換えてLSPを出力する。
なお、マルチモードLSP量子化部76及びマルチモードLSP逆量子化部77に搭載された、狭帯域LSP符号帳92a、中帯域LSP符号帳92b、全帯域LSP符号帳92cに格納されるLSPは、各符号帳に該当する周波数帯域においてスペクトル形状が一致したものになる。
図32は、ある量子化インデックスAに対応する量子化LSPのスペクトル概形を示す図であり、図32(a)は全帯域のスペクトル、図32(b)は中帯域までのスペクトルを示し、図32(c)は狭帯域のスペクトルを示している。なお、図32(b)及び図32(c)には、破線で全帯域のスペクトルを併記している。
図32(a)(b)に示すように、中帯域LSP符号帳92bに格納されるLSPに対応する中帯域までのスペクトルでは、0〜6.4kHzの周波数帯域でスペクトル形状が全帯域と一致している。つまり、中帯域LSP符号帳92bと全帯域LSP符号帳92cでは、対応する周波数帯域におけるLSPのスペクトル形状が一致したものになる。
また、図32(a)(c)に示すように、狭帯域LSP符号帳92aに格納されるLSPに対応する狭帯域のスペクトルでは、0〜4.0kHzの周波数帯域でスペクトル形状が全帯域と一致している。従って、上記と同様に、狭帯域LSP符号帳92aと全帯域LSP符号帳92cでは、対応する周波数帯域におけるLSPのスペクトル形状が一致したものになる。
次に高域信号利得量子化部20aの構成について詳細に説明する。
図33は、図25中の高域信号利得量子化部の構成を示す図である。通過帯域可変バンドパスフィルタ97は、入力音声信号のうち、励振音源量子化モード制御部80の制御信号で指定された周波数帯域の信号成分のみを通過させる。例えば、励振音源量子化モード制御部80の制御信号でサンプリング周波数Fs=8kHzの励振音源量子化モードが指定されると、高域信号の周波数帯域は、4.0kHz〜8.0kHzとなる。これにより、通過帯域可変バンドパスフィルタ97は、通過帯域が4.0kHz〜8.0kHz(実際には、3.4kHz〜7.0kHz程度)に設定される。
また、励振音源量子化モード制御部80の制御信号でサンプリング周波数Fs=12.8kHzの励振音源量子化モードが指定されると、高域信号の周波数帯域は6.4kHz〜8.0kHzとなる。これにより、通過帯域可変バンドパスフィルタ97では、通過帯域が6.4kHz〜8.0kHz(実際には、6.0kHz〜7.0kHz程度)に設定される。
なお、励振音源量子化モード制御部80からの制御信号でサンプリング周波数Fs=16kHzの励振音源量子化モードが指定された場合、擬似広帯域拡張を行わないので、高域信号利得量子化部20aは、高域利得を出力せず、動作を停止する。
信号エネルギー計算部98は、通過帯域可変バンドパスフィルタ97の通過信号の信号エネルギーを算出する。量子化符号帳99は、通過帯域可変バンドパスフィルタ97の通過帯域に対応する高域励振信号によって得られた高域合成音声の信号エネルギーを格納する。利得量子化部100は、量子化符号帳99を参照して、通過帯域可変バンドパスフィルタ97の通過信号の信号エネルギーをスカラー量子化し、量子化符号帳99の対応するインデックスを高域利得として出力する。
図34は、実施の形態16による音声復号装置の構成を示す図である。この実施の形態16による音声復号装置は、図25で示した構成と同様の機能を有する合成フィルタ8、LSP−LPC変換部17a、レート可変励振信号生成部74、マルチモードLSP逆量子化部77a,77b、LSP量子化モード制御部78、及び励振音源量子化モード制御部80を備え、さらに多重分離部21、高域信号利得復号部22、乱数発生器23、利得乗算器24、合成フィルタ25、LSP−LPC変換部26、高域スペクトル外挿部27、通過帯域可変バンドパスフィルタ60a、レート可変アップサンプリング部51a及び加算器30を備える。
マルチモードLSP逆量子化部77a,77bは、図31で示したものと同一構成を有し、符号化データから分離されたLSP情報であるLSP候補ベクトルのインデックスに基づいて、符号化データから分離されたLSP量子化モードに応じた周波数帯のLSP符号帳を探索し、対応する量子化LSPベクトルを抽出する。LSP量子化モード制御部78は、多重分離部21で符号化データから分離されたLSP量子化モードを入力し、該LSP量子化モードをマルチモードLSP逆量子化部77a,77b及び高域スペクトル外挿部27に設定する。
レート可変アップサンプリング部51aは、励振音源量子化モード制御部80の制御信号で指定された励振音源量子化モードに応じたサンプリング周波数Fsで、合成フィルタ25からの出力信号をアップサンプリングする。通過帯域可変バンドパスフィルタ60aは、図33に示した高域信号利得量子化部20aの通過帯域可変バンドパスフィルタ97と同一機能を有し、合成フィルタ25の出力信号のうち、励振音源量子化モード制御部80の制御信号で指定された励振音源量子化モードに応じた周波数帯域の信号成分のみを通過させる。なお、この他の構成は、図3及び図25で示した構成と同一である。
次に動作について説明する。
(1)符号化処理
実施の形態16による音声符号化装置は、所定音声フレーム長ごとに全帯域の音声信号を入力し、スペクトル分析部19O、レート可変ダウンサンプリング部79、及び高域信号利得量子化部20aに入力される。
スペクトル分析部19OのLSP量子化モード制御部78は、制御信号をマルチモード線形予測分析部75及びマルチモードLSP量子化部76に出力してLSP量子化モードを設定する。また、励振音源量子化モード制御部80は、高域信号利得量子化部20a、レート可変励振信号生成部74、マルチモードLSP逆量子化部77及びレート可変ダウンサンプリング部79に制御信号を出力して励振音源量子化モードを設定する。
図35は、実施の形態16による音声符号化装置における量子化モードの組み合わせを示す表である。実施の形態16による音声符号化装置では、LSP量子化モードと励振音源量子化モードによる6つの動作モードの組み合わせについて総当たりで誤差評価が行われ、入力音声信号と合成音声との誤差が最小となるLSP候補のインデックス(量子価値)及び該インデックスを選択したときの量子化モードが抽出される。
なお、図35中の×記号は、その励振音源量子化モードに対応するLSP量子化モードの処理を行わないことを示しており、例えばサンプリング周波数Fs=12.8kHzに対応する動作モード2の励振音源量子化モードでは、スペクトル分析部19Oによって、サンプリング周波数Fs=8kHz(低域成分)のLSP量子化モードでの処理は行われない。
従って、図35に示すように、サンプリング周波数Fs=8.0kHzの励振音源量子化モード(以下、モード1aとする)では、スペクトル分析部19Oによって、サンプリング周波数Fs=8kHzのLSP量子化モード(以下、モード1bとする)、サンプリング周波数Fs=12.8kHzのLSP量子化モード(以下、モード2bとする)、サンプリング周波数Fs=16kHzのLSP量子化モード(以下、モード3bとする)の処理が行われる。
また、サンプリング周波数Fs=12.8kHzの励振音源量子化モード(以下、モード2aとする)では、スペクトル分析部19Oによって、モード2b,3bのLSP量子化モードの処理が行われる。さらに、サンプリング周波数Fs=16kHzの励振音源量子化モード(以下、モード3aとする)では、スペクトル分析部19Oによって、モード3bのLSP量子化モードの処理が行われる。
以降、LSP量子化モード制御部78及び励振音源量子化モード制御部80によって、サンプリング周波数Fs=8kHzのLSP量子化モード(モード1b)及び励振音源量子化モード(モード1a)が指定されたものとして説明する。この場合、低域成分(0〜4.0kHz)の音声信号に対して処理が行われ、続いてスペクトル分析部19Oがモード2b,3bの各LSP量子化モードで処理を行う。
レート可変ダウンサンプリング部79は、所定フレーム長単位に入力した音声信号を、モード1aに応じたサンプリング周波数Fs=8kHzにダウンサンプリングしてダウンサンプリングして減算器9に出力する。また、高域信号利得量子化部20aでは、入力した音声信号の高域有声強度を算出し、図33に示した構成によって該音声信号と高域有声強度から高域成分の利得を求め、この高域成分の利得値を量子化して多重化部12に出力する。
スペクトル分析部19Oのマルチモード線形予測分析部75では、ダウンサンプリングされていない全帯域の音声信号を入力すると、図29で示したように、モード1bに応じたサンプリング周波数Fs=8kHzに入力音声信号をダウンサンプリングしてLPC分析を実行し、得られたLPCをLSPに変換してマルチモードLSP量子化部76に出力する。
また、マルチモードLSP量子化部76は、マルチモード線形予測分析部75から入力したLSPに対し、モード1bに応じた周波数帯域(低域成分)である0〜4.0kHzのLSP量子化処理を実行する。ここで、図30で示したLSP量子化部93cによって狭帯域LSP符号帳92aから入力されたLSPとマルチモード線形予測分析部75から入力したLSPの自乗誤差の値が最小となるLSP候補ベクトルが選択される。このLSP候補ベクトルのインデックスは、マルチモードLSP逆量子化部77及び多重化部12へ出力される。
マルチモードLSP逆量子化部77は、マルチモードLSP量子化部76で選択されたLSP候補の符号帳インデックスを入力すると、該インデックスに基づいて、励振音源量子化モード制御部80により指定されたモード1aに応じた周波数帯のLSP符号帳からLSPを取得する。ここでは、図31に示した狭帯域LSP符号帳92aからインデックスに対応する狭帯域LSPが取得され、LSP−LPC変換部17aに出力される。LSP−LPC変換部17aは、マルチモードLSP逆量子化部77から入力した狭帯域LSPをLPCに変換し、スペクトル分析結果のフィルタパラメータとして合成フィルタ8に出力する。
一方、レート可変励振信号生成部74は、励振音源量子化モード制御部80からの制御信号によりモード1aが指定されると、図26で示した構成により低域成分(0〜4.0kHz)の励振信号(駆動音源信号)を生成して合成フィルタ8に出力する。なお、モード2aが指定された場合、図27で示した構成により低域及び中帯域(0〜6.4kHz)の励振信号を生成して合成フィルタ8に出力する。さらに、モード3aが指定されると、図28で示した構成により全帯域(0〜7.0kHz)の励振信号が生成されて合成フィルタ8に出力される。
合成フィルタ8では、レート可変励振信号生成部74から入力した励振信号に対して、スペクトル分析部19Oからのフィルタパラメータを用いて合成フィルタ処理することによって合成音声を生成し、減算器9に出力する。減算器9では、レート可変ダウンサンプリング部79でサンプリングされた入力音声から合成フィルタ8で生成した合成音声を減算して歪み成分を求め、聴覚重み付けフィルタ10に出力する。聴覚重み付けフィルタ10は、減算器9で算出された歪み成分について入力音声のスペクトルに基づいた重み付けを実行し、最小誤差探索部11に出力する。
なお、レート可変励振信号生成部74は、低域サブバンド適応符号帳2a、低域サブバンド代数符号帳3a及び低域サブバンド利得符号帳4aの要素を所定の探索範囲内で探索して励振信号を合成フィルタ8に逐次出力する。これにより、減算器9及び聴覚重み付けフィルタ10を介して、レート可変励振信号生成部74で生成された低域成分についての各励振信号について重み付け歪み成分がそれぞれ算出され、最小誤差探索部11に出力される。
最小誤差探索部11では、LSP量子化モードと励振音源量子化モードの各組み合わせにおける重み付き歪み成分のパワーを比較して歪み成分が最小となる合成音声が生成された励振信号を選択し、レート可変励振信号生成部74、LSP量子化モード制御部78及び励振音源量子化モード制御部80に通知する。
レート可変励振信号生成部74では、最小誤差探索部11から最小誤差となる励振信号が通知されると、該励振信号を構成する、低域サブバンド適応符号帳2aにおける過去の励振信号を特定するピッチ情報、低域サブバンド代数符号帳3aにおける単位パルスを特定するパルス情報、低域サブバンド利得符号帳4aにおける低域サブバンド適応符号帳2aの該要素及び低域サブバンド代数符号帳3aの該要素に対応する利得を特定する利得情報を多重化部12に出力する。
また、LSP量子化モード制御部78は、最小誤差探索部11から最小誤差となる励振信号が通知されると、該励振信号についてのLSP量子化モードを特定する情報を多重化部12及びマルチモードLSP量子化部76に出力する。マルチモードLSP量子化部76は、該励振信号に対応するLSP候補のインデックスをLSP情報として多重化部12に出力する。励振音源量子化モード制御部80では、最小誤差探索部11から最小誤差となる励振信号が通知されると、該励振信号についての励振音源量子化モードを特定する情報を多重化部12に出力する。
この後、実施の形態16による音声符号化装置では、図35に示す量子化モードの組み合わせについて総当たりで誤差評価が行われ、入力音声信号と合成音声との誤差が最小となるLSP候補のインデックス(量子化値)及び該インデックスを選択したときの量子化モードが抽出される。
多重化部12は、歪み成分が最小の合成音声が生成された励振信号に関する、レート可変励振信号生成部74からのピッチ情報、パルス情報、利得情報、高域信号利得量子化部20aからの高域信号の利得情報(高域利得)、マルチモードLSP量子化部76からのLSP情報、LSP量子化モード制御部78からのLSP量子化モード、及び励振音源量子化モード制御部80からの励振音源量子化モードを多重化して伝送路へ出力する。この符号化データは、伝送路を経由して図34に示す音声復号装置に出力される。
このように、実施の形態16による音声符号化装置では、入力音声信号の全帯域成分をLSPの量子化誤差評価の対象とし、該誤差評価以外のパラメータ、例えば適応符号帳、代数符号帳、利得符号帳で符号化対象とする帯域幅を励振音源量子化モードに応じて可変とする。複数の量子化モードについての各誤差評価により最適な量子化モード(符号化モード)を選択し、該量子化モードを特定する情報を含む符号化データを伝送する。例えば、複数の量子化モードで最も量子化誤差を小さくするモードを選択する。
(2)復号処理
上述のようにして音声符号化装置で生成された符号化データは、伝送路を介して図34に示す音声復号装置に受信されると、該音声復号装置内の多重分離部21に入力される。多重分離部21では、音声符号化装置から受信した符号化データを、高域利得、LSP情報、ピッチ情報、パルス情報、利得情報、LSP量子化モード、励振音源量子化モードに分離する。
この後、多重分離部21は、高域利得を高域信号利得復号部22に出力し、LSP情報をマルチモードLSP逆量子化部77a,77bに出力し、ピッチ情報、パルス情報及び利得情報をレート可変励振信号生成部74に出力し、LSP量子化モードをLSP量子化モード制御部78に出力し、励振音源量子化モードを励振音源量子化モード制御部80に出力する。
LSP量子化モード制御部78は、多重分離部21により符号化データから分離されたLSP量子化モードを入力すると、該LSP量子化モードを高域スペクトル外挿部27及びマルチモードLSP逆量子化部77a,77bに設定する。また、励振音源量子化モード制御部80は、多重分離部21により符号化データから分離された励振音源量子化モードを入力すると、該励振音源量子化モードをレート可変アップサンプリング部51a、通過帯域可変バンドパスフィルタ60a及びレート可変励振信号生成部74に設定する。
マルチモードLSP逆量子化部77a,77bでは、多重分離部21により符号化データから分離されたLSP情報であるLSP候補ベクトルのインデックスに基づいて、LSP量子化モード制御部78から指定されたLSP量子化モードに応じた周波数帯のLSP符号帳を探索し、対応する量子化LSPベクトルを抽出する。マルチモードLSP逆量子化部77aにより抽出されたLSPは、高域スペクトル外挿部27に出力される。
また、マルチモードLSP逆量子化部77bにより抽出されたLSPは、LSP−LPC変換部17aに出力される。LSP−LPC変換部17aでは、マルチモードLSP逆量子化部77bから入力したLSPをLPCに変換し、スペクトル分析結果のフィルタパラメータとして合成フィルタ8に出力する。
一方、高域スペクトル外挿部27は、マルチモードLSP逆量子化部77aから入力したLSPに対し、LSP量子化モード制御部78から指定されたLSP量子化モードに応じた周波数帯域における高域成分のスペクトル概形を外挿し、LSP−LPC変換部26に出力する。例えば、低域及び中帯域成分(0〜6kHz)のLSPに対しては、高域成分(6〜7kHz)のスペクトル概形を外挿し、LSP−LPC変換部26に出力する。このようにして、適応符号帳、代数符号帳、利得符号帳で符号化対象にされなかった周波数帯域について疑似広帯域拡張でスペクトル概形を外挿する。
LSP−LPC変換部26では、高域スペクトル外挿部27により高域成分のスペクトル概形が外挿されたLSPの量子化と補間を行ってLPCに変換し、スペクトル分析結果のフィルタパラメータとして合成フィルタ25に出力する。
高域信号利得復号部22は、多重分離部21により符号化データから分離された高域利得を逆量子化して高域利得情報に対応する利得値を求めて利得乗算器24に出力する。利得乗算器24では、高域信号利得復号部22で復号された高域成分の利得値を、乱数発生器23から入力した励振信号に相当する信号に乗算し、駆動音源信号として合成フィルタ25に出力する。
合成フィルタ25では、LSP−LPC変換部26から入力したフィルタパラメータを用いて、利得乗算器24から入力した音声信号を合成フィルタ処理することにより合成音声を生成し、該合成音声を通過帯域可変バンドパスフィルタ60aに出力する。通過帯域可変バンドパスフィルタ60aでは、合成フィルタ25で生成された合成音声のうち、励振音源量子化モード制御部80により設定された励振音源量子化モードに応じた周波数帯域の信号成分のみを通過させて加算器30に出力する。
また、レート可変励振信号生成部74は、多重分離部21により符号化データから分離されたピッチ情報、パルス情報及び利得情報に基づいて、励振音源量子化モード制御部80により設定された励振音源量子化モードに応じた適応符号帳、代数符号帳及び利得符号帳から過去の駆動音源信号、単位パルス及び利得値を抽出して励振信号を生成し、合成フィルタ8の駆動音源信号として出力する。
合成フィルタ8では、LSP−LPC変換部17aから入力したフィルタパラメータを用いて、レート可変励振信号生成部74からの駆動音源信号を合成フィルタ処理することにより合成音声を生成し、該合成音声をレート可変アップサンプリング部51aに出力する。
レート可変アップサンプリング部51aでは、励振音源量子化モード制御部80により設定された励振音源量子化モードに応じたサンプリング周波数で合成フィルタ8から入力した合成信号をアップサンプリングして加算器30に出力する。例えば、励振音源量子化モードがモード1bである場合、8kHzにダウンサンプリングされたサンプリング周波数を16kHzにアップサンプリングする。また、励振音源量子化モードがモード2bである場合、12.8kHzにダウンサンプリングされたサンプリング周波数を16kHzにアップサンプリングする。さらに、励振音源量子化モードがモード3bである場合、合成フィルタ8から入力した合成信号をそのまま加算器30に出力する。
加算器30は、通過帯域可変バンドパスフィルタ60aの通過信号とレート可変アップサンプリング部51aから入力した合成信号とを加算して復号後の音声信号を生成し、再生音声として出力する。
以上のように、この実施の形態16によれば、LSP量子化モードと励振音源量子化モードによる6つの動作モードの組み合わせについて総当たりでLSPの誤差評価を行い、入力音声信号と合成音声との誤差が最小となるLSP候補のインデックス(量子価値)及び該インデックスを選択したときの量子化モードを抽出して符号化データとするので、入力音声に適応した誤差評価が可能であり、再生音声の品質を改善することができる。
実施の形態17.
図36は、この発明の実施の形態17による音声符号化装置の構成を示す図である。この実施の形態17による音声符号化装置では、スペクトル分析部19Pが上記実施の形態16で示したスペクトル分析部19OにおけるマルチモードLSP逆量子化部77の代わりにマルチモードLSP逆量子化部77cを備える。マルチモードLSP逆量子化部77cは、複数の周波数帯のLSP符号帳を有し、マルチモードLSP量子化部76で選択されたLSP候補の符号帳インデックスに基づいて、LSP量子化モード制御部78aにより指定された励振音源量子化モードに応じた周波数帯域のLSP符号帳からLSPを取得する。
また、この実施の形態17による音声符号化装置には、高域信号利得量子化部20b、全帯域LSP符号帳31a、レート可変アップサンプリング部51b、加算器52、減算器53、最小誤差探索部54a、LSP逆量子化部55b、LSP−LPC変換部56b、乱数発生器57、利得乗算器58、合成フィルタ59b、通過帯域可変バンドパスフィルタ60b及びセレクタ66が、全帯域成分のLSPで閉ループ探索を実行して量子化誤差を評価する。
次に動作について説明する。
実施の形態17による音声符号化装置は、所定音声フレーム長ごとに全帯域の音声信号を入力し、スペクトル分析部19P、高域信号利得量子化部20b、レート可変ダウンサンプリング部79、及び減算器53に入力される。
スペクトル分析部19PのLSP量子化モード制御部78aは、制御信号を通過帯域可変バンドパスフィルタ60b、マルチモード線形予測分析部75、マルチモードLSP量子化部76及びマルチモードLSP逆量子化部77cに出力してLSP量子化モードを設定する。また、励振音源量子化モード制御部80は、高域信号利得量子化部20b、レート可変励振信号生成部74、マルチモードLSP逆量子化部77及びレート可変ダウンサンプリング部79に制御信号を出力して励振音源量子化モードを設定する。
この実施の形態17による音声符号化装置における量子化モードの組み合わせは、上記実施の形態16で示した図35と同様である。つまり、実施の形態17による音声符号化装置においても、LSP量子化モードと励振音源量子化モードによる6つの動作モードの組み合わせについて総当たりで誤差評価が行われ、入力音声信号と合成音声との誤差が最小となるLSP候補のインデックス(量子化値)及び該インデックスを選択したときの量子化モードが抽出される。
従って、サンプリング周波数Fs=8.0kHzの励振音源量子化モード(以下、モード1aと称す)では、スペクトル分析部19Pによって、サンプリング周波数Fs=8kHzのLSP量子化モード(以下、モード1bと称す)、サンプリング周波数Fs=12.8kHzのLSP量子化モード(以下、モード2bと称す)、サンプリング周波数Fs=16kHzのLSP量子化モード(以下、モード3bと称す)の処理が行われる。
また、サンプリング周波数Fs=12.8kHzの励振音源量子化モード(以下、モード2aと称す)では、スペクトル分析部19Pによって、モード2b,3bのLSP量子化モードの処理が行われる。さらに、サンプリング周波数Fs=16kHzの励振音源量子化モード(以下、モード3aと称す)では、スペクトル分析部19Pによって、モード3bのLSP量子化モードの処理が行われる。
レート可変ダウンサンプリング部79は、所定フレーム長単位に入力した音声信号を、励振音源量子化モード制御部80により指定された励振音源量子化モードに応じたサンプリング周波数にダウンサンプリングしてダウンサンプリングして減算器9に出力する。また、高域信号利得量子化部20bでは、入力した音声信号の高域有声強度を算出し、例えば図33に示した構成によって該音声信号と高域有声強度から高域成分の利得を求め、この高域成分の利得値を量子化して多重化部12及び利得乗算器58に出力する。
スペクトル分析部19Pのマルチモード線形予測分析部75では、ダウンサンプリングされていない全帯域の音声信号を入力すると、上記実施の形態16の図29で示したように、LSP量子化モード制御部78aにより指定されたLSP量子化モードに応じたサンプリング周波数に入力音声信号をダウンサンプリングしてLPC分析を実行し、得られたLPCをLSPに変換してマルチモードLSP量子化部76に出力する。
また、マルチモードLSP量子化部76は、マルチモード線形予測分析部75から入力したLSPに対し、LSP量子化モード制御部78aにより指定されたLSP量子化モードに応じた周波数帯域のLSP量子化処理を実行する。ここで、上記実施の形態16の図30に示した構成によって、LSP量子化モードに応じた周波数帯域のLSP符号帳から取得されたLSPとマルチモード線形予測分析部75から入力したLSPとの自乗誤差の値が最小となるLSP候補ベクトルが選択される。このLSP候補ベクトルのインデックスは、マルチモードLSP逆量子化部77cに出力される。
マルチモードLSP逆量子化部77cは、マルチモードLSP量子化部76で選択されたLSP候補の符号帳インデックスを入力すると、該インデックスに基づいて、LSP量子化モード制御部78aにより指定されたLSP量子化モードに応じた周波数帯域のLSP符号帳からLSPを取得する。
LSP−LPC変換部17aは、マルチモードLSP逆量子化部77cから入力したLSPをLPCに変換し、スペクトル分析結果のフィルタパラメータとして合成フィルタ8に出力する。これにより、LSP量子化モードと励振音源量子化モードの各組み合わせのインデックスに対応する複数種類の合成フィルタが構成される。
一方、レート可変励振信号生成部74は、励振音源量子化モード制御部80により励振音源量子化モードが指定されると、上記実施の形態16の図26で示した構成によって該励振音源量子化モードに応じた周波数帯域の励振信号(駆動音源信号)を生成し、合成フィルタ8に出力する。
合成フィルタ8では、レート可変励振信号生成部74から入力した励振信号に対して、スペクトル分析部19Pからのフィルタパラメータを用いて合成フィルタ処理することによって合成音声を生成し、減算器9に出力する。減算器9では、レート可変ダウンサンプリング部79でサンプリングされた入力音声から合成フィルタ8で生成した合成音声を減算して歪み成分を求め、聴覚重み付けフィルタ10に出力する。聴覚重み付けフィルタ10は、減算器9で算出された歪み成分について入力音声のスペクトルに基づいた重み付けを実行し、最小誤差探索部11に出力する。
なお、レート可変励振信号生成部74は、LSP量子化モードと励振音源量子化モードの各組み合わせにおいて、適応符号帳、代数符号帳及び利得符号帳の要素を所定の探索範囲内で探索して励振信号を合成フィルタ8に逐次出力する。これにより、減算器9及び聴覚重み付けフィルタ10を介して、レート可変励振信号生成部74で生成された低域成分についての各励振信号について重み付け歪み成分がそれぞれ算出され、最小誤差探索部11に出力される。
最小誤差探索部11では、LSP量子化モードと励振音源量子化モードの各組み合わせごとに重み付き歪み成分のパワーを比較して歪み成分が最小となる合成音声が生成された励振信号を選択し、レート可変励振信号生成部74、LSP量子化モード制御部78a及び励振音源量子化モード制御部80に通知する。
このようにして、LSP量子化モードと励振音源量子化モードの各組み合わせで選択されたLSP候補のインデックスに対応するフィルタパラメータで駆動する合成フィルタ8により、レート可変励振信号生成部74の適応符号帳、代数符号帳、利得符号帳の各要素が探索され、これら符号帳の各要素について最適量子化インデックスの組み合わせが抽出される。
この後、LSP量子化モードと励振音源量子化モードの各組み合わせにおける歪み成分が最小となる最適量子化インデックスについての合成音声は、レート可変アップサンプリング部51bにより、対応する量子化モードでのサンプリング周波数でそれぞれアップサンプリングされ、全帯域の音声信号に変換される。
一方、LSP逆量子化部55bは、マルチモードLSP量子化部76により選択された各LSP候補のインデックスに対応する全帯域の量子化LSP候補(全帯域LSP)を全帯域LSP符号帳31aから読み出し、LSP−LPC変換部56bに出力する。LSP−LPC変換部56bでは、LSP逆量子化部55bから入力した各全帯域LSPをLPCに変換し、スペクトル分析結果のフィルタパラメータとして合成フィルタ59bに出力する。これにより、合成フィルタ59bは、LSP量子化モードと励振音源量子化モードの各組み合わせに対応した合成フィルタが構成される。
また、高域信号利得量子化部20bは、所定フレーム長単位に入力した音声信号の高域有声強度を算出し、該音声信号と高域有声強度から高域成分の利得を求めて利得乗算器58に出力すると共に、この高域成分の利得値を量子化して多重化部12に出力する。利得乗算器58では、高域信号利得量子化部20bから入力した高域成分の利得値を、乱数発生器57から入力した励振信号に相当する信号に乗算する。なお、この乗算処理は、ダウンサンプリングされる前のサンプリング周波数(Fs=16kHz)で行われる。
合成フィルタ59bでは、LSP−LPC変換部56bから入力した各フィルタパラメータを用いて、利得乗算器58で高域利得が乗算された音声信号(駆動音源信号)を合成フィルタ処理することにより合成音声(擬似高域信号)を生成し、該合成音声を通過帯域可変バンドパスフィルタ60bに出力する。通過帯域可変バンドパスフィルタ60bは、合成フィルタ59bで生成された合成音声から、LSP量子化モード制御部78aにより設定されたLSP量子化モードに応じた周波数帯域の信号成分のみを通過させて加算器52に出力する。これにより、LSP量子化モードと励振音源量子化モードの各組み合わせで量子化誤差評価の対象とされなかった周波数帯域の信号成分が加算器52にそれぞれ出力される。
加算器52では、通過帯域可変バンドパスフィルタ60bからの信号成分とレート可変アップサンプリング部51bにより先に生成された信号成分とを加算して全帯域の音声信号を生成し、再生音声として減算器53に出力する。減算器53では、加算器52の出力である再生音声と入力音声信号とを減算し、差分値(誤差)を最小誤差探索部54aに出力する。
最小誤差探索部54aでは、LSP量子化モードと励振音源量子化モードの各組み合わせで選択されたLSP候補のインデックスに対応する音声信号と入力音声信号との差分値を比較して該差分値が最小となる音声信号を選択し、レート可変励振信号生成部74、LSP量子化モード制御部78a及び励振音源量子化モード制御部80に通知する。
レート可変励振信号生成部74では、最小誤差探索部54aから最小誤差となる励振信号が通知されると、該励振信号を構成するピッチ情報、パルス情報、利得情報を多重化部12に出力する。また、LSP量子化モード制御部78aは、最小誤差探索部54から最小誤差となる励振信号が通知されると、該励振信号についてのLSP量子化モードを特定する情報を多重化部12及びマルチモードLSP量子化部76に出力する。
マルチモードLSP量子化部76は、該励振信号に対応するLSP候補のインデックスをLSP情報として多重化部12に出力する。励振音源量子化モード制御部80では、最小誤差探索部11から最小誤差となる励振信号が通知されると、該励振信号についての励振音源量子化モードを特定する情報を多重化部12に出力する。
多重化部12では、歪み成分が最小の合成音声が生成された励振信号に関する、レート可変励振信号生成部74からのピッチ情報、パルス情報、利得情報、高域信号利得量子化部20aからの高域信号の利得情報(高域利得)、マルチモードLSP量子化部76からのLSP情報、LSP量子化モード制御部78aからのLSP量子化モード、及び励振音源量子化モード制御部80からの励振音源量子化モードを多重化して伝送路へ出力する。
このようにして、LSPの量子化誤差評価以外の符号化パラメータである適応符号帳、代数符号帳、利得符号帳の各要素の量子化においても、誤差評価を全帯域信号で行うことができる。
なお、図36に示す音声符号化装置の符号化データを復号する音声復号装置は、上記実施の形態16で示した音声復号装置(図34参照)と同一構成で実現可能なため、説明を省略する。
以上のように、この実施の形態17によれば、LSPの量子化誤差評価以外の符号化パラメータである適応符号帳、代数符号帳、利得符号帳の各要素の量子化における誤差評価を全帯域信号で行うので、より実際の音声信号に近い符号化(合成)音声を選択できるため、良好な符号化音を再生することができる。
この発明の実施の形態1で符号化の対象とする周波数帯域を説明するための図である。 この発明の実施の形態1による音声符号化装置の構成を示す図である。 実施の形態1による音声復号装置の構成を示す図である。 この発明の実施の形態2による音声符号化装置の構成を示す図である。 この発明の実施の形態2による音声復号装置の構成を示す図である。 この発明の実施の形態3による音声符号化装置の構成を示す図である。 この発明の実施の形態3による音声符号化装置の他の構成を示す図である。 この発明の実施の形態4による音声符号化装置の構成を示す図である。 図8中のスペクトル傾き評価部の構成を示す図である。 音声信号のスペクトルを示すグラフである。 この発明の実施の形態5による音声符号化装置の構成を示す図である。 この発明の実施の形態6による音声符号化装置の構成を示す図である。 この発明の実施の形態7による音声符号化装置の構成を示す図である。 この発明の実施の形態8による音声符号化装置の構成を示す図である。 この発明の実施の形態9による音声符号化装置の構成を示す図である。 この発明の実施の形態10による音声符号化装置の構成を示す図である。 この発明の実施の形態11による音声符号化装置の構成を示す図である。 この発明の実施の形態12による音声符号化装置の構成を示す図である。 この発明の実施の形態13による音声符号化装置の構成を示す図である。 実施の形態13による音声復号装置の構成を示す図である。 この発明の実施の形態14による音声復号装置の構成を示す図である。 この発明の実施の形態15で符号化の対象とする周波数帯域を説明するための図である。 この発明の実施の形態15による音声符号化装置の構成を示す図である。 実施の形態15による音声復号装置の構成を示す図である。 この発明の実施の形態16による音声符号化装置の構成を示す図である。 図25中のレート可変励振信号生成部の構成を示す図である。 図25中のレート可変励振信号生成部の構成を示す図である。 図25中のレート可変励振信号生成部の構成を示す図である。 図25中のマルチモード線形予測分析部の構成を示す図である。 図25中のマルチモードLSP量子化部の構成を示す図である。 図25中のマルチモードLSP逆量子化部の構成を示す図である。 量子化LSPのスペクトル概形を示す図である。 図25中の高域信号利得量子化部の構成を示す図である。 実施の形態16による音声復号装置の構成を示す図である。 実施の形態16による音声符号化装置における量子化モードの組み合わせを示す表である。 この発明の実施の形態17による音声符号化装置の構成を示す図である。
符号の説明
1,1a,84,87 ダウンサンプリング部、2 適応符号帳、2a 低域サブバンド適応符号帳、2b 中帯域サブバンド適応符号帳、2c 高域サブバンド適応符号帳、3 代数符号帳、3a 低域サブバンド代数符号帳、3b 中帯域サブバンド代数符号帳、3c 高域サブバンド代数符号帳、4 利得符号帳、4a 低域サブバンド利得符号帳、4b 中帯域サブバンド利得符号帳、4c 高域サブバンド利得符号帳、5,6,5a〜5c,6a〜6c 利得乗算器、7,7a〜7c,30,52 加算器、8,25,50,59,59a,59b 合成フィルタ、9,53 減算器、10 聴覚重み付けフィルタ、11,54,54a 最小誤差探索部、12 多重化部、13 駆動音源生成部、14,14a〜14c,82,85,88 LPC分析部、15a,35,35a,61,62,72,93a〜93c LSP量子化部、15b,48,55,55a,55b,95a〜95c LSP逆量子化部、16,92a 狭帯域LSP符号帳、17,17a,26,49,56,56a,56b,83,86,89 LSP−LPC変換部、18,18a,27,27a,27b 高域スペクトル外挿部、19,19A〜19P スペクトル分析部、20,20a,20b 高域信号利得量子化部、21 多重分離部、22 高域信号利得復号部、23,57 乱数発生器、24,58 利得乗算器、28,60 バンドパスフィルタ、29,51 アップサンプリング部、51a,51b レート可変アップサンプリング部、31a,31b 全帯域LSP符号帳、32,32a セグメント分割部、33 低域セグメント誤差重み付け部、34 高域セグメント誤差重み付け部、36 中域セグメント誤差重み付け部、37,37a スペクトル傾き評価部、38,38a 重み付け係数算出部、39 LPF、40 全域エネルギー計算部、41 低域エネルギー計算部、42 エネルギー比計算部、43 逆合成フィルタ、44 利得比計算部、45 遅延バッファ、46,46a 重み付け係数符号帳、47 重み付け係数蓄積部、63 誤差評価セレクタ、64,64a 適応閾値算出部、65,65a〜65c,66,70,90,91,94a,94b,96a,96b セレクタ、67,69 タイマ、68 高域LSPフレーム間予測部、71 LSP重み付け平均計算部、73 広帯域LSP符号帳、74 レート可変励振信号生成部、75 マルチモード線形予測分析部、76 マルチモードLSP量子化部、77,77a〜77c マルチモードLSP逆量子化部、78,78a LSP量子化モード制御部、79 レート可変ダウンサンプリング部、80 励振音源量子化モード制御部、81a 帯域分割部、81b 帯域合成部、92b 中帯域LSP符号帳、92c 全帯域LSP符号帳、60a,97 通過帯域可変バンドパスフィルタ、98 信号エネルギー計算部、99 量子化符号帳、100 利得量子化部。

Claims (25)

  1. 符号化対象音声のスペクトル包絡情報を量子化するにあたり、該符号化対象音声のスペクトル包絡情報と比較する量子化データとして狭帯域のスペクトル包絡を外挿してなる全帯域のスペクトル包絡情報を用いて量子化誤差を評価する音声符号化装置。
  2. 量子化データとして狭帯域のスペクトル包絡情報を格納する狭帯域スペクトル情報符号帳と、
    前記狭帯域スペクトル情報符号帳のスペクトル包絡を外挿して全帯域のスペクトル包絡情報を求めるスペクトル外挿部とを備え、
    符号化対象音声のスペクトル包絡情報を量子化するにあたり、該符号化対象音声の全帯域のスペクトル包絡情報と比較する量子化データとして、前記スペクトル外挿部により求められた全帯域のスペクトル包絡情報を用いて量子化誤差を評価することを特徴とする請求項1記載の音声符号化装置。
  3. 量子化データとして狭帯域のスペクトル包絡情報を格納する狭帯域スペクトル情報符号帳と、
    前記狭帯域スペクトル情報符号帳のスペクトル包絡を外挿してなる全帯域のスペクトル包絡情報を格納する全帯域スペクトル情報符号帳とを備え、
    符号化対象音声のスペクトル包絡情報を量子化するにあたり、該符号化対象音声のスペクトル包絡情報と比較する量子化データとして、前記全帯域スペクトル情報符号帳の全帯域のスペクトル包絡情報を用いて量子化誤差を評価することを特徴とする請求項1記載の音声符号化装置。
  4. 符号化対象音声のスペクトル包絡情報について量子化誤差を評価するにあたり、前記符号化対象音声のスペクトル包絡情報を所定の周波数帯域ごとの成分に分割し、各周波数帯域ごとの成分に量子化誤差評価に関する重み付けを行うことを特徴とする請求項1記載の音声符号化装置。
  5. 符号化対象音声のスペクトル分布に応じて各周波数帯域の成分に付与する重み付け係数を決定することを特徴とする請求項4記載の音声符号化装置。
  6. 符号化対象音声の各周波数帯域間の信号エネルギー比に応じて各周波数帯域の成分に付与する重み付け係数を決定することを特徴とする請求項4記載の音声符号化装置。
  7. 符号化対象音声のスペクトル包絡情報の各周波数帯域の成分と比較する量子化データとして、前記各周波数帯域ごとのスペクトル包絡情報を各々格納する複数のスペクトル情報符号帳と、
    前記複数のスペクトル情報符号帳の各周波数帯域ごとのスペクトル包絡情報に付与すべき量子化誤差評価用の重み付け係数を予め格納する重み付け係数符号帳とを備え、
    前記重み付け係数符号帳を用いて前記各周波数帯域の成分に重み付け係数を付与することを特徴とする請求項4記載の音声符号化装置。
  8. 符号化対象音声の量子化に用いる過去の励振信号の音の性質に応じて各周波数帯域の成分に付与する重み付け係数を決定することを特徴とする請求項4記載の音声符号化装置。
  9. 符号化対象音声の量子化に用いる過去の励振信号を格納する適応符号帳の該励振信号を特定するピッチ周期情報を基準として各周波数帯域の量子化誤差評価を切り換えることを特徴とする請求項4記載の音声符号化装置。
  10. 重み付け係数を変えて選択された複数の量子化値の候補から閉ループ探索により符号化音声データを構成する量子化値を選択することを特徴とする請求項4記載の音声符号化装置。
  11. 符号化対象音声の全帯域成分についての量子化に並行して狭帯域成分を量子化し、全帯域及び狭帯域の量子化で得られた量子化誤差と所定の閾値との比較結果に応じて、全帯域又は狭帯域の量子化で得られた量子化値を選択することを特徴とする請求項1記載の音声符号化装置。
  12. 閾値は、可変であることを特徴とする請求項11記載の音声符号化装置。
  13. 符号化対象音声のスペクトル分布に応じて閾値を決定することを特徴とする請求項12記載の音声符号化装置。
  14. 符号化対象音声の各周波数帯域間の信号エネルギー比に応じて閾値を決定することを特徴とする請求項12記載の音声符号化装置。
  15. 符号化対象音声の量子化に用いる過去の励振信号の音の性質に応じて閾値を決定することを特徴とする請求項12記載の音声符号化装置。
  16. 符号化対象音声の量子化に用いる過去の励振信号を格納する適応符号帳の該励振信号を特定するピッチ周期情報を基準として閾値を切り換えることを特徴とする請求項15記載の音声符号化装置。
  17. 量子化データとして狭帯域のスペクトル包絡情報を格納する狭帯域スペクトル情報符号帳と、
    前記狭帯域スペクトル情報符号帳のスペクトル包絡を外挿してなる全帯域のスペクトル包絡情報を格納する全帯域スペクトル情報符号帳と、
    前記狭帯域スペクトル情報符号帳及び前記全帯域スペクトル情報符号帳の各スペクトル包絡情報ごとに付与すべき量子化誤差評価用に関する重み付け係数を予め格納する重み付け係数符号帳とを備え、
    前記符号化対象音声の全帯域成分についての量子化に並行して狭帯域成分を量子化し、全帯域及び狭帯域の量子化で得られた量子化誤差と所定の閾値との比較結果に応じて、全帯域又は狭帯域の量子化で得られた量子化値を選択するにあたり、前記重み付け係数符号帳の重み付け係数に応じて閾値を決定することを特徴とする請求項12記載の音声符号化装置。
  18. 閾値を変えて選択された複数の量子化値の候補から閉ループ探索によって符号化音声データを構成する量子化値を選択することを特徴とする請求項12記載の音声符号化装置。
  19. 符号化対象音声のスペクトル包絡情報を量子化するにあたり、該符号化対象音声の全帯域の量子化誤差評価を周期的に行い、全帯域成分の量子化誤差評価を行わない音声フレームの符号化対象音声には狭帯域の量子化誤差評価を行うことを特徴とする請求項1記載の音声符号化装置。
  20. 全帯域の量子化誤差評価には、狭帯域のスペクトル包絡を外挿してなる全帯域のスペクトル包絡情報を用いることを特徴とする請求項19記載の音声符号化装置。
  21. 符号化対象音声の狭帯域のスペクトル包絡情報から拡張した周波数帯域の一部を、該符号化対象音声のスペクトル包絡情報の量子化対象とすることを特徴とする請求項1記載の音声符号化装置。
  22. 符号化対象音声の全帯域のスペクトル包絡情報を量子化の対象とし、スペクトル包絡情報以外のパラメータに関する量子化は、量子化対象となる周波数帯域を可変とすることを特徴とする請求項1記載の音声符号化装置。
  23. スペクトル包絡情報以外のパラメータに関する量子化を、全帯域を量子化対象として行うことを特徴とする請求項22記載の音声符号化装置。
  24. 請求項3に記載の音声符号化装置により生成された符号化音声データから音声信号を復号する音声復号装置において、
    狭帯域のスペクトル包絡情報を格納する狭帯域スペクトル情報符号帳と、
    前記狭帯域スペクトル情報符号帳のスペクトル包絡情報を外挿してなる全帯域のスペクトル包絡情報を格納する全帯域スペクトル情報符号帳とを備え、
    前記符号化音声データから分離した量子化値に基づいて前記符号化対象音声の特性に合致したスペクトル包絡情報を前記狭帯域スペクトル情報符号帳及び前記全帯域スペクトル情報符号帳から探索し、該探索結果のスペクトル包絡情報を用いて音声信号を復号することを特徴とする音声復号装置。
  25. 請求項18に記載の音声符号化装置により生成された符号化音声データから音声信号を復号する音声復号装置において、
    狭帯域のスペクトル包絡情報を格納する狭帯域スペクトル情報符号帳を備え、
    前記符号化音声データから分離した量子化値に基づいて前記符号化対象音声の特性に合致した前記狭帯域スペクトル情報符号帳のスペクトル包絡情報を抽出し、前記音声符号化装置で符号化対象音声の全帯域成分について量子化誤差評価を行った周期では、該狭帯域のスペクトル包絡を外挿してなる全帯域のスペクトル包絡情報を用い、狭帯域成分について量子化誤差評価を行った音声フレームでは、前記狭帯域のスペクトル包絡を外挿してなる全帯域のスペクトル包絡情報についてフレーム間予測により予測したスペクトル包絡情報を用いて、音声信号を復号することを特徴とする音声復号装置。
JP2006324134A 2006-11-30 2006-11-30 音声符号化装置及び音声復号装置 Pending JP2008139447A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006324134A JP2008139447A (ja) 2006-11-30 2006-11-30 音声符号化装置及び音声復号装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006324134A JP2008139447A (ja) 2006-11-30 2006-11-30 音声符号化装置及び音声復号装置

Publications (1)

Publication Number Publication Date
JP2008139447A true JP2008139447A (ja) 2008-06-19

Family

ID=39601000

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006324134A Pending JP2008139447A (ja) 2006-11-30 2006-11-30 音声符号化装置及び音声復号装置

Country Status (1)

Country Link
JP (1) JP2008139447A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015507764A (ja) * 2011-12-30 2015-03-12 華為技術有限公司Huawei Technologies Co.,Ltd. オーディオ・データを処理するための方法、装置、及びシステム
JP2016541004A (ja) * 2013-09-30 2016-12-28 オランジュ 低遅延符号化/復号のための音声信号のリサンプリング
CN113710162A (zh) * 2019-04-16 2021-11-26 因泰克医疗公司 生物声学信号的增强检测和分析
CN113865695A (zh) * 2021-09-08 2021-12-31 杭州安脉盛智能技术有限公司 一种集成故障判断算法的无线振动传感器
US12100406B2 (en) 2011-12-30 2024-09-24 Huawei Technologies Co., Ltd. Method, apparatus, and system for processing audio data

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10529345B2 (en) 2011-12-30 2020-01-07 Huawei Technologies Co., Ltd. Method, apparatus, and system for processing audio data
US9406304B2 (en) 2011-12-30 2016-08-02 Huawei Technologies Co., Ltd. Method, apparatus, and system for processing audio data
JP2017062512A (ja) * 2011-12-30 2017-03-30 華為技術有限公司Huawei Technologies Co.,Ltd. オーディオ・データを処理するための方法、装置、及びシステム
US9892738B2 (en) 2011-12-30 2018-02-13 Huawei Technologies Co., Ltd. Method, apparatus, and system for processing audio data
JP2015507764A (ja) * 2011-12-30 2015-03-12 華為技術有限公司Huawei Technologies Co.,Ltd. オーディオ・データを処理するための方法、装置、及びシステム
US11183197B2 (en) 2011-12-30 2021-11-23 Huawei Technologies Co., Ltd. Method, apparatus, and system for processing audio data
US11727946B2 (en) 2011-12-30 2023-08-15 Huawei Technologies Co., Ltd. Method, apparatus, and system for processing audio data
US12100406B2 (en) 2011-12-30 2024-09-24 Huawei Technologies Co., Ltd. Method, apparatus, and system for processing audio data
JP2016541004A (ja) * 2013-09-30 2016-12-28 オランジュ 低遅延符号化/復号のための音声信号のリサンプリング
JP2018025783A (ja) * 2013-09-30 2018-02-15 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 低遅延符号化/復号のための音声信号のリサンプリング
CN113710162A (zh) * 2019-04-16 2021-11-26 因泰克医疗公司 生物声学信号的增强检测和分析
US11918408B2 (en) 2019-04-16 2024-03-05 Entac Medical, Inc. Enhanced detection and analysis of biological acoustic signals
CN113865695A (zh) * 2021-09-08 2021-12-31 杭州安脉盛智能技术有限公司 一种集成故障判断算法的无线振动传感器

Similar Documents

Publication Publication Date Title
JP5404418B2 (ja) 符号化装置、復号装置および符号化方法
CN101023471B (zh) 可伸缩性编码装置、可伸缩性解码装置、可伸缩性编码方法、可伸缩性解码方法、通信终端装置以及基站装置
JP4731775B2 (ja) スーパーフレーム構造のlpcハーモニックボコーダ
JP5688852B2 (ja) オーディオコーデックポストフィルタ
KR100873836B1 (ko) Celp 트랜스코딩
US8271272B2 (en) Scalable encoding device, scalable decoding device, and method thereof
KR100837451B1 (ko) 향상된 품질의 음성 변환부호화를 위한 방법 및 장치
KR101244310B1 (ko) 광대역 부호화 및 복호화 방법 및 장치
JP5058152B2 (ja) 符号化装置および符号化方法
US20080249766A1 (en) Scalable Decoder And Expanded Layer Disappearance Hiding Method
WO2009084221A1 (ja) 符号化装置、復号装置およびこれらの方法
KR20070002068A (ko) 음성 신호 코딩
JP2009042734A (ja) 符号化装置および符号化方法
KR20140027519A (ko) 오디오 코딩 및 디코딩을 위한 방법 및 장치
KR20160144978A (ko) 다른 샘플링 레이트들을 가진 프레임들간의 전환시 사운드 신호의 선형 예측 인코딩 및 디코딩을 위한 방법, 인코더 및 디코더
WO2008053970A1 (fr) Dispositif de codage de la voix, dispositif de décodage de la voix et leurs procédés
JP5403949B2 (ja) 符号化装置および符号化方法
JP5457171B2 (ja) オーディオデコーダ内で信号を後処理する方法
JP2008139447A (ja) 音声符号化装置及び音声復号装置
JPWO2008018464A1 (ja) 音声符号化装置および音声符号化方法
KR100718487B1 (ko) 디지털 음성 코더들에서의 고조파 잡음 가중

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080704