JP2008015281A - 広帯域オーディオ信号符号化装置および広帯域オーディオ信号復号装置 - Google Patents

広帯域オーディオ信号符号化装置および広帯域オーディオ信号復号装置 Download PDF

Info

Publication number
JP2008015281A
JP2008015281A JP2006187123A JP2006187123A JP2008015281A JP 2008015281 A JP2008015281 A JP 2008015281A JP 2006187123 A JP2006187123 A JP 2006187123A JP 2006187123 A JP2006187123 A JP 2006187123A JP 2008015281 A JP2008015281 A JP 2008015281A
Authority
JP
Japan
Prior art keywords
encoding
band
code amount
frame
frequency band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006187123A
Other languages
English (en)
Other versions
JP4810335B2 (ja
Inventor
Hirokazu Takeuchi
広和 竹内
Kimio Miseki
公生 三関
Shiyouko Osada
将高 長田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2006187123A priority Critical patent/JP4810335B2/ja
Priority to US11/825,636 priority patent/US8041563B2/en
Publication of JP2008015281A publication Critical patent/JP2008015281A/ja
Application granted granted Critical
Publication of JP4810335B2 publication Critical patent/JP4810335B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation

Abstract

【課題】 広帯域オーディオ信号に対して効率的な帯域利用を行い、符号量を更に減らすことができる広帯域オーディオ信号符号化装置を提供する。
【解決手段】 符号化フレームのバンド毎に、アクティビティを判定し(S1)、当該バンドの過去のフレームについて規定回数以上連続して判定がオフでなければ(S2でN)、通常符号化処理を行う(S3)。規定回数以上連続して判定がオフであれば(S2でY)、他の条件S4、S6により、分割帯域DTX制御情報符号化を行う(S5)。以上を全帯域行い、1フレーム分終了する(S7でY)。次に、1フレーム全体のトータルパワーと前記分割帯域DTX制御情報符号化が適用された帯域のパワーを算出し(S11、12)、Ptotに対するPdtxの比率に応じて1フレームあたりの割当て符号量を規定割当て符号量から削減補正し(S13)、ビットリザーバ容量の更新は補正前の規定割当て符号量を適用する(S14)。
【選択図】 図3

Description

本発明は、広帯域オーディオ信号の符号量を減らすことができる符号化装置および復号装置に関する。
(背景技術1)
信号のアクティビティを検出し、それに基づいて符号化ビットレートをフレーム単位で切り替えることができる音声圧縮符号化方式として、例えば、AMR(Adaptive Multi−Rate)方式がある(非特許文献1および非特許文献2参照。)。
AMR方式では、送信電力節約のため、符号化するフレーム単位で音声信号か否かのアクティビティを検出し(VAD制御)、その判定結果に基づいて音声信号であれば通常の音声符号化フレームとして送出し、非音声信号であればコンフォートノイズフレームとしてフレームの基本的な情報のみの間欠送信(DTX制御)を行っている。しかしながら、DTX制御する単位がフレームであるため、オーディオ信号のような広帯域信号へ適用した場合、全帯域を通じて信号のアクティビティがあるか否かを判定してDTX制御することになる。
図8は、例えば、AMR方式のDTX制御を広帯域オーディオ信号に適用した場合の出力ビットレートの遷移を示した図である。(a)は、音声信号の時間軸上の各フレーム単位で周波数帯域毎のパワーを表わしている。アクティビティのない帯域をハッチングで図示する。例として、フレームF1は全帯域がアクティビティのある信号である。フレームF2は全帯域がアクティビティのない信号である。フレームF3は帯域の一部がアクティビティのない信号である。フレームF4も帯域の一部がアクティビティのない信号である。この場合、全帯域に渡ってアクティビティのないフレームF2のみがDTX制御対象のフレームと認識され、コンフォートノイズフレームとして間欠送信(DTX制御)により出力ビットレートを低く抑えることができる。しかし、フレームF3、F4は、帯域の一部にアクティビティのない帯域があっても、全帯域でアクティビティがない(AMRの場合非音声信号)とは判断されないために、通常の音声フレームの符号化が同様の処理が行われ、間欠送信(DTX制御)により出力ビットレートを低く抑える処理が行われない。
(背景技術2)
MPEG2オーディオ規格として、時間周波数変換符号化を用いるAAC(Advanced Audio Coding)方式がある。
図9は、AAC方式のビットレートを説明する図である。(a)は、図8と同様である。AAC方式では、間欠送信を行う機能は組み込まれていないが、フレーム毎の信号特性に応じて1フレームあたりの符号量を変えられる可変長フレーム方式であり、フレーム毎の瞬間的な符号化レートは可変である(図9の実線に相当)。1フレームあたりの符号量は、外部から設定されるターゲットレートに基づく符号量を基準にして、信号の特性やバッファモデル(過去のフレームで使用した符号量とターゲットレートに基づく平均符号量との累積的な差分を管理するためのバッファであるbit reservoir)の状態を考慮して決められるが、平均的にはターゲットレートになるよう符号化レートが制御される(図9の点線に相当)。
例えば、フレームF2のように全帯域に渡ってアクティビティのない信号(符号量をあまり必要としない)の場合、そのフレームでは符号量を下げても、白抜きの矢印で示したように、余剰符号量は別のフレームで使用されることになる。また、フレームF3、F4のように帯域の一部にアクティビティのない帯域がある信号の場合、その帯域やそれを含むフレームに対する符号量を下げたとしても、やはり、白抜きの矢印で示したように、それ以外の帯域や別のフレームに符号が割当てられる。従って、(b)に示すように、あまり符号量の必要のない(アクティビティの少ない)信号が多かったとしても、予め定められたターゲットレートに基づいた符号量となり、トータルの符号化レートを下げることにならず効率的でない。
(背景技術3)
フレーム単位で符号化ビットレートを制御する可変レート符号化方式がある(特許文献1参照。)。この符号化方式の主眼は、SNR(音質)が一定となるように可変レート制御を行うことである。また、音声等の信号系列を複数の帯域に分割し、帯域毎の信号電力を基に帯域毎に符号量を制御している。ただし、有音無音の判定は全帯域に渡って行い、フレーム全体の総和の符号量を制御しており、帯域毎に制御しているわけではない。これは、背景技術1に記載のAMR方式と同様である。
「3GPP TS 26.093; 3rd Generation Partnership Project; Technical Specification Group Services and System Aspects; Mandatory Speech Codec speech processing functions AMR Speech Codec; Source Controlled Rate operation(Release 4)」V4.0.0、2000年12月 「3GPP TS 26.094; 3rd Generation Partnership Project; Technical Specification Group Services and System Aspects; Mandatory Speech Codec speech processing functions; AMR speech codec; Voice Activity Detector (VAD)(Release 4)」V4.0.0、2001年3月 特開平3−191618号公報(第1頁、第1図)
従来の符号化方式では、きめ細やかなレート制御や効率的な帯域利用が行えないという問題がある。本発明は、上記の問題点を解決するためになされたもので、広帯域オーディオ信号に対して効率的な帯域利用を行い、符号量を更に減らすことができる広帯域オーディオ信号符号化装置および広帯域オーディオ信号復号装置を提供することを目的とする。
上記目的を達成するために、本発明の広帯域オーディオ信号符号化装置は、広帯域オーディオ信号を所定のサンプル数から成るフレーム構成とし、複数の周波数帯域信号に分割する周波数帯域分割手段と、前記周波数帯域毎に信号のノイズ性に基づくアクティビティを検出するアクティビティ検出手段と、前記周波数帯域毎に量子化処理および符号化処理を行う第1符号化手段と、前記周波数帯域毎に間欠送信制御対象であることを示す間欠送信制御情報と間欠送信制御対象となる信号の符号化を行う第2符号化手段と、予め定められたターゲットレートに基づく1フレームあたりの規定割り当て符号量と符号化に必要な符号量との差分を吸収する余剰符合容量の管理を行うビットリザーブ手段と、前記周波数帯域毎に、過去のフレームで所定回数以上前記アクティビティの非検出が連続しなかった場合は、前記第1符号化手段を選択実行し、過去のフレームで所定回数以上前記アクティビティの非検出が連続し、かつ間欠送信制御中でない場合は、前記第2符号化手段を選択実行し、当該選択実行を前記フレームの前記複数の周波数帯域について行う符号化制御手段と、前記フレーム毎に、フレーム全体の第1パワーと前記第2符号化手段が適用された帯域の第2パワーを算出し、前記第1パワーに対する前記第2パワーの比率に応じて、当該フレームあたりの前記第1符号化手段への第1の割り当て符号量を、前記規定割り当て符号量と前記余剰符号容量と前記広帯域オーディオ信号の特性とから導かれる当該フレームあたりの第2の割り当て符号量から削減補正し、加えて、前記ビットリザーブ手段の前記余剰符号量の管理を更新する符号量として前記補正前の第2の割り当て符号量を適用するレート制御手段とを具備することを特徴とする。
本発明によれば、帯域毎にアクティビティを検出し、その判定結果に基づいて帯域毎に間欠送信、かつ該当帯域の符号量を削減するようレート制御することにより、広帯域オーディオ信号に対して効率的な帯域利用と、符号量の削減を行うことができる。
図1は、本発明の実施例に係る符号化処理部のブロック図である。広帯域信号の符号化処理部100は、フィルタバンク1、心理聴覚モデル部2、量子化部3、ノイズレス符号化部4、フォーマッタ5、分割帯域DTX制御部6などにより構成されている。更に、分割帯域DTX制御部6は、3つのAAD(Audio Activity Detection)制御部7、8、9、DTX符号化部10などを有する。これらのAAD制御部(アクティビティ検出手段)は、分割帯域分の個数分設けられる。また、レート制御部11は、過去のフレームで使用した符号量とターゲットレートに基づく平均符号量との累積的な差分を管理するためのバッファでフレーム毎の余剰ビットを蓄積しておくためのビットリザーバ12などを有する。
フィルタバンク1は、符号化する時間域PCM信号を周波数領域のスペクトル係数に変換する処理を行う。心理聴覚モデル部2は、入力信号を周波数領域信号に変換し、そのスペクトル係数と聴覚特性とから、聴感上等間隔となるように分割された帯域毎に知覚エントロピー(PE:Perceptual Entropy)やマスク比(SMR:Signal to Mask Ratio)を算出する。これらは、量子化時やフィルタバンク処理時に行うプリエコーを抑制するための適応ブロック切替えに使用される。この一連の処理は、ISO/IEC 13818-7 MPEG-2 AAC規格のANNEX BのEncoder部に記述されている。
量子化部3は、レート制御情報から得られる1フレームあたりの符号量とSMRに基づいて、帯域毎の量子化ステップサイズを算出し、その量子化ステップサイズに基づいて各スペクトル係数を量子化する。ノイズレス符号化部4は、量子化されたスペクトル係数の信号に対して情報理論的冗長度を削減するため、ハフマン符号化等のエントロピー符号化やセクショニングを行う。フォーマッタ5は、ノイズレス符号化されたスペクトル係数や量子化ステップサイズ等の情報を、予め定められたフォーマットに従った多重化によりフレーム化する。
分割帯域DTX制御部6は、周波数変換されたスペクトル信号が聴覚の周波数解像度(バーク尺度等)上で等間隔となるようにバンド(帯域)f0、バンドf1、・・バンドfnに分割する(周波数帯域分割手段)。分割帯域DTX制御部6のAAD制御部7は、バンド(帯域)f0のオーディオ・アクティビティ検出を行う。これは、例えば、バンドf0について心理聴覚モデル部6からの予測不能度(unpredictability measure)情報と閾値判定を行い、バンドf0がノイズライクな信号であるかを判定することで実現する。そして、AAD制御部7は、このAAD判定結果をバンドf0のAADフラグ情報(通常信号:ON、ノイズライクな信号:OFF)として保存する。
AAD制御部8は、同様に、バンドf1のオーディオ・アクティビティ検出を行い、バンドf1のAADフラグ情報として保存する。AAD制御部9は、同様に、バンドfnのオーディオ・アクティビティ検出を行い、バンドfnのAADフラグ情報として保存する。
分割帯域DTX制御部6のDTX符号化部10は、まず、AAD制御部8〜10のAADフラグ情報に基づいて、バンド毎に、通常符号化処理か分割帯域DTX制御情報符号化か又は符号化を行わない処理のいずれかを選択して実行する。この分割帯域DTX制御情報は、該当バンドが分割帯域DTX制御であることを示す分割帯域DTX制御フラグおよび対象バンドのスペクトラムをパラメータ化した情報である。
全バンドについて以上の処理を行うと、次に、レート制御部11は、上記した各バンドの分割帯域DTX制御情報符号化の適用度合いに応じて、レート制御の補正を行う。
図2は、本発明の実施例に係る復号処理部のブロック図である。広帯域信号の復号処理部200は、ストリーム解析分解部51、ノイズレス復号部52、逆量子化部53、フィルタバンク54、分割帯域DTX復号補間処理部55などにより構成されている。更に、分割帯域DTX復号補間処理部55は、周波数領域補間部56、フレーム補間部57などを有する。
ストリーム解析分解部51は、エンコーダにて符号化されたデータを、ファーマットに従って解析および分解して、量子化ステップサイズや量子化スペクトル係数等の各種パラメータを抽出する。ノイズレス復号部52は、ハフマン符号化等で符号化された符号語を復号し、量子化スペクトル係数等の物理量に復号する。逆量子化部53は、量子化スペクトル係数と量子化ステップサイズとから、量子化時と逆の処理を行うことで、本来のスケールの信号に戻す。フィルタバンク54は、逆量子化されたスペクトル係数を時間域PCM信号に周波数時間変換する処理を行う。
分割帯域DTX復号補間処理部55は、バンド毎に、分割帯域DTX制御フラグ判定にて分割帯域DTX制御帯域か否かを判定する。そして、バンド毎に、通常復号処理か周波数領域補間処理か又はフレーム補間処理のいずれかを選択して実行する。周波数領域補間部56は、この周波数領域補間処理を行う。フレーム補間部57は、このフレーム補間処理を行う。そして、全バンドについて以上の処理を行う。
図3は、本発明の実施例(方式1)に係る符号化処理部のエンコーダ分割帯域DTX処理のフローチャートである。符号化処理部100は、まず、バンドf0について、AAD判定によりアクティビティ検出を行い、AADフラグを設定する。AADフラグは、アクティビティのある信号であればON、ノイズライクな信号であればOFFに設定される(ステップS1)。
次に、AADフラグを基に、分割帯域DTX制御情報対象か通常符号化処理対象かの判定を行う。これは、上記AAD判定結果が過去のフレームについて規定回数以上連続してAADオフであったか否かで行い、規定回数以上連続してAADオフであれば分割帯域DTX制御対象と判断し、規定回数以下であれば通常符号化処理対象と判断する(ステップS2)。ステップS2でAAD判定結果が規定回数以下であれば(NO)、スケーリング処理による通常符号化処理(第1符号化手段)を行う(ステップS3)。
ステップS2でAAD判定結果が過去規定回数以上連続してAADオフであれば(YES)、分割帯域DTX制御対象であり、まず、既に分割帯域DTX制御中か否かの判断を行う(ステップS4)。ステップS4で分割帯域DTX制御中でなければ(NO)、対象バンド(バンドf0)に対して分割帯域DTX制御情報(間欠送信制御情報)の符号化(第2符号化手段)を行う(ステップS5)。分割帯域DTX制御情報としては、分割帯域DTX制御であることを示す分割帯域DTX制御フラグおよび対象バンド(バンドf0)のスペクトラムをパラメータ化した情報である。このスペクトラムをパラメータ化した情報は、例えば、平均パワー情報が挙げられる。
ステップS4で既に分割帯域DTX制御中である場合には(YES)、現フレームが既定の間欠送信周期またはAAD判定結果に応じて既定周期であるかの判定を行う(ステップS6)。これが既定周期であれば(YES)、分割帯域DTX制御情報を更新するため、新たに分割帯域DTX制御情報の符号化を行う(ステップS5)。ステップS6で既定周期でない場合には(NO)、情報を符号化しない。以上でバンドf0についての処理が終わる。ここで、分割帯域DTX制御情報を送信する周期は、上述のように既定周期であってもよいし、信号特性に応じて適応的に変えてもよい。
以上の処理をバンド毎に行い、全てのバンドについて処理を完了するまで行う(ステップS7)。
次に、各バンドの上記分割帯域DTX制御の適用度合いに応じてレート制御の補正(方式1)を行う。レート制御の補正(方式1)は、フレーム毎のトータルパワーとDTX適用帯域のパワーとの比に応じて符号量を削減補正する方式である。まず、スペクトラム情報から1フレーム全体のパワーPtotを算出する(ステップS11)。更に分割帯域DTX制御が適用された帯域の信号のパワーPdtxを算出する(ステップS12)。
一般に、フレーム毎の割り当て符号量Bfrmは、心理聴覚モデル部2からのパラメータやビットリザーバ12の容量等から予め算出される。しかし、分割帯域DTX制御の場合には、間欠送信により効率的な帯域利用を行うために、DTX制御により送信されない帯域信号成分だけ符号化レート(フレーム毎の符号量)を下げるように制御する。これは、帯域毎のパワー情報に基づいて符号量の重み付けを行い、DTX制御適用分だけ符号量を差し引く意味で、上記パラメータPtot、Pdtxを用いて、通常符号化(第1符号化手段)に割当てる補正後のフレーム毎の割当て符号量(ターゲット)=Bfrm×(1−Pdtx/Ptot)と補正する(ステップS13)。
また、ビットリザーバ12容量の更新については、補正前の割当て符号量Bfrmを適用する(ステップS14)。これは、補正により符号量が下げられてビットリザーバ12の容量が増えることにより、次フレーム以降で過剰に情報ビットが使われ、効率的な帯域利用ができないおそれがあるためである。
(方式1)によれば、分割帯域DTX制御が適用された帯域の信号のパワーに応じた割当て符号量(ターゲット)とすることができ、符号量を削減することができる。
図4は、本発明の実施例(方式2)に係る符号化処理部のエンコーダ分割帯域DTX処理のフローチャートである。実施例(方式1)の図3のフローチャートのレート制御の補正(方式1)の部分をレート制御の補正(方式2)に置き換えたものであり、それ以外の部分は同等である。レート制御の補正(方式2)の部分のみを図示し説明する。
レート制御の補正(方式2)は、心理聴覚モデルに基づいて、フレーム毎のトータルPE(Perceptual Entropy)とDTX適用帯域のPEとの比に応じて符号量を削減補正する。分割帯域DTX制御部6は、まず、心理聴覚モデル部6から得られるフレーム全体のPE値PEtotを算出する(ステップS21)。更に分割帯域DTX制御が適用された帯域のPE値PEdtxを算出する(ステップS22)。次に、フレーム毎の割当て符号量Bfrmを補正する。これは、帯域毎のPE値に基づいて符号量の重み付けを行い、DTX制御適用分だけPE値を差し引く意味で、上記パラメータPEtot、PEdtxを用いて、通常符号化(第1符号化手段)に割当てる補正後のフレーム毎の割当て符号量(ターゲット)=Bfrm×(1−PEdtx/PEtot)と補正する(ステップS23)。
また、ビットリザーバ12容量の更新については、補正前の割当て符号量Bfrmを適用する(ステップS24)。これは、方式1と同様、補正により符号量が下げられてビットリザーバ12容量が増えることにより、次フレーム以降で過剰に情報ビットが使われ、効率的な帯域利用ができないおそれがあるためである。
(方式2)によれば、分割帯域DTX制御が適用された帯域の信号のPE(Perceptual Entropy)に応じた割当て符号量(ターゲット)とすることができ、符号量を削減することができる。
図5は、本発明の実施例(方式3)に係る符号化処理部のエンコーダ分割帯域DTX処理のフローチャートである。実施例(方式1)の図3の符号化処理のフローチャートのレート制御の補正(方式1)の部分をレート制御の補正(方式3)に置き換えたものであり、それ以外の部分は同等である。レート制御の補正(方式3)の部分のみを図示し説明する。
レート制御の補正(方式3)は、実際に全帯域を通常符号化した後に、DTX適用帯域の符号量を差し引いて、量子化値はそのままで再符号化を行う方式である。分割帯域DTX制御部6は、まず、最初に割当てられた符号量Bfrmで一度符号化を行う(ステップS31)。次に、その内のDTX制御が適用された帯域に割当てられた符号量Bdtxを算出する(ステップS32)。次に、通常符号化(第1符号化手段)に割当てる符号量をBfrmからBdtxを差し引くことで補正する(ステップS33)。補正された割り当て符号量で、再符号化することになるが、量子化値は再利用可能であり、ノイズレス符号化のみを再度行うようにする。
また、ビットリザーバ12容量の更新については、補正前の割当て符号量Bfrmを適用する(ステップS34)。これは、方式1と同様、補正により符号量が下げられてビットリザーバ12容量が増えることにより、次フレーム以降で過剰に情報ビットが使われ、効率的な帯域利用ができないおそれがあるためである。
(方式3)によれば、DTX制御が適用された帯域に割当てられた符号量Bdtxを差し引いた符号量とすることができ、符号量を削減することができる。
図6は、本発明の実施例に係る復号処理部のデコーダ分割帯域DTX処理のフローチャートである。符号化処理の(方式1)、(方式2)、(方式3)に関して共通のデコーダ分割帯域DTX処理である。復号処理部200は、まず、バンドf0について、分割帯域DTX制御フラグ判定により、分割帯域DTX制御帯域か否かを判定する(ステップS51)。ステップS51で分割帯域DTX制御帯域でなければ(NO)、受信スペクトラム情報に基づいてノイズレス復号処理から通常通りの復号処理を行う(ステップS52)。
ステップS51で分割帯域DTX制御帯域であれば(YES)、分割帯域DTX制御対象であり、まず、現フレームで分割帯域DTX情報を受信しているか否か、すなわち、既定周期の間欠送信タイミングか否かの判定を行う(ステップS53)。これが分割帯域DTX情報を受信している場合は(YES)、分割帯域DTX情報に基づいて該当帯域(バンドf0)のスペクトラムを補間/復元する(ステップS54)。例えば分割帯域DTX情報がパワー情報であれば、ランダム信号をベースとして分割帯域のトータルパワーを受信情報に合わせた信号にして復元する。
ステップS53で分割帯域DTX情報受信タイミングでない場合は(NO)、フレーム間補間処理を行う(ステップS55)。例えば、直前のフレームと同じパワー値のままベースとするランダム信号のみを更新する方法や過去のパワー情報に基づいて線形予測する方法により行う。以上の処理をバンド毎に行い、全てのバンドについて処理を完了するまで行う(ステップS56)。
図7は、本発明の実施例に係る分割帯域DTX処理のビットレートを説明する図である。(a)は、従来例の図8(a)、図9(a)と同様であり、広帯域オーディオ信号の時間軸上の各フレーム単位で周波数帯域毎のパワーを表わしている。アクティビティのない帯域をハッチングで図示する。例として、フレームF1は全帯域がアクティビティのある信号である。フレームF2は全帯域がアクティビティのない場合である。フレームF3は帯域の一部がアクティビティのない場合である。フレームF4も帯域の一部がアクティビティのない場合である。
(b)は、本発明の分割帯域DTX制御符号化のビットレートである。各フレーム毎に、補正後のフレーム毎の割当て目標符号量を点線で示す。以下、代表して(方式1)で説明する。フレームF1は、帯域全てがアクティビティのある信号であり、ハッチングで表示されるアクティビティのない帯域(AAD制御でオフ判定される)はなく、分割帯域DTX制御が適用された帯域の信号のパワーPdtx=0である。従って、補正後のフレームF1の通常符号化(第1符号化手段)に割当てる符号量(ターゲットF1)は、Bfrm(F1)×(1−Pdtx/Ptot)=Bfrm(F1)×(1−0/Ptot)=Bfrm(F1)、すなわち、ターゲットレートに基づく1フレームあたりの符号量と心理聴覚モデル部6からのパラメータやビットリザーバ12の容量等から予め算出された符号量Bfrmとなる。
フレームF2は、帯域全てがアクティビティのない帯域(ハッチング部)であり、分割帯域DTX制御が適用された帯域の信号のパワーPdtx=Ptotである。従って、補正後のフレームF2の通常符号化(第1符号化手段)に割当てる符号量(ターゲットF2)は、Bfrm(F2)×(1−Pdtx/Ptot)=Bfrm(F2)×(1−Ptot/Ptot)=0となる。実際は、制御ビットなどが必要であり、最低限のビットレートとなる。
フレームF3は、アクティビティのある信号の帯域とアクティビティのない帯域(ハッチング部)が混在する。アクティビティのある帯域とアクティビティのない帯域(ハッチング部)のパワー比率を0.4とすると、補正後のフレームF3の通常符号化(第1符号化手段)に割当てる符号量(ターゲットF3)は、Bfrm(F3)×(1−Pdtx/Ptot)=Bfrm(F3)×(1−0.4)=0.6Bfrm(F3)となる。
同じく、フレームF4は、アクティビティのある信号の帯域とアクティビティのない帯域(ハッチング部)が混在する。アクティビティのある帯域とアクティビティのない帯域(ハッチング部)のパワー比率を0.2とすると、補正後のフレームF4の通常符号化(第1符号化手段)に割当てる符号量(ターゲットF4)は、Bfrm(F4)×(1−Pdtx/Ptot)=Bfrm(F4)×(1−0.2/1)=0.8Bfrm(F4)となる。
本発明の実施例によれば、分割帯域DTX制御が適用された帯域の信号のパワーなどに応じた割当て符号量をレート制御することができ、符号量を削減することができる。
本発明の実施例に係る符号化処理部のブロック図。 本発明の実施例に係る復号処理部のブロック図。 本発明の実施例(方式1)に係る符号化処理部のエンコーダ分割帯域DTX処理のフローチャート。 本発明の実施例(方式2)に係る符号化処理部のエンコーダ分割帯域DTX処理のフローチャート。 本発明の実施例(方式3)に係る符号化処理部のエンコーダ分割帯域DTX処理のフローチャート。 本発明の実施例に係る復号処理部のデコーダ分割帯域DTX処理のフローチャート。 本発明の実施例に係る分割帯域DTX処理のビットレートを説明する図。 従来のAMR方式のDTX制御を広帯域オーディオ信号に適用した場合の出力ビットレートの遷移を示した図。 従来のAAC方式のビットレートを説明する図。
符号の説明
1 フィルタバンク
2 心理聴覚モデル部
3 量子化部
4 ノイズレス符号化部
5 フォーマッタ
6 分割帯域DTX制御部
7、8、9 AAD(Audio Activity Detection)制御部
10 DTX符号化部
11 レート制御部
12 ビットリザーバ
51 ストリーム解析分解部
52 ノイズレス復号部
53 逆量子化部
54 フィルタバンク
55 分割帯域DTX復号補間処理部
56 周波数領域補間部
57 フレーム補間部
100 符号化処理部
200 復号処理部

Claims (4)

  1. 広帯域オーディオ信号を所定のサンプル数から成るフレーム構成とし、複数の周波数帯域信号に分割する周波数帯域分割手段と、
    前記周波数帯域毎に信号のノイズ性に基づくアクティビティを検出するアクティビティ検出手段と、
    前記周波数帯域毎に量子化処理および符号化処理を行う第1符号化手段と、
    前記周波数帯域毎に間欠送信制御対象であることを示す間欠送信制御情報と間欠送信制御対象となる信号の符号化を行う第2符号化手段と、
    予め定められたターゲットレートに基づく1フレームあたりの規定割り当て符号量と符号化に必要な符号量との差分を吸収する余剰符合容量の管理を行うビットリザーブ手段と、
    前記周波数帯域毎に、過去のフレームで所定回数以上前記アクティビティの非検出が連続しなかった場合は、前記第1符号化手段を選択実行し、過去のフレームで所定回数以上前記アクティビティの非検出が連続し、かつ間欠送信制御中でない場合は、前記第2符号化手段を選択実行し、当該選択実行を前記フレームの前記複数の周波数帯域について行う符号化制御手段と、
    前記フレーム毎に、フレーム全体の第1パワーと前記第2符号化手段が適用された帯域の第2パワーを算出し、前記第1パワーに対する前記第2パワーの比率に応じて、当該フレームあたりの前記第1符号化手段への第1の割り当て符号量を、前記規定割り当て符号量と前記余剰符号容量と前記広帯域オーディオ信号の特性とから導かれる当該フレームあたりの第2の割り当て符号量から削減補正し、加えて、前記ビットリザーブ手段の前記余剰符号量の管理を更新する符号量として前記補正前の第2の割り当て符号量を適用するレート制御手段とを
    具備することを特徴とする広帯域オーディオ信号符号化装置。
  2. 広帯域オーディオ信号を所定のサンプル数から成るフレーム構成とし、複数の周波数帯域信号に分割する周波数帯域分割手段と、
    前記周波数帯域毎に信号のノイズ性に基づくアクティビティを検出するアクティビティ検出手段と、
    前記周波数帯域毎に量子化処理および符号化処理を行う第1符号化手段と、
    前記周波数帯域毎に間欠送信制御対象であることを示す間欠送信制御情報と間欠送信制御対象となる信号の符号化を行う第2符号化手段と、
    予め定められたターゲットレートに基づく1フレームあたりの規定割り当て符号量と符号化に必要な符号量との差分を吸収する余剰符合容量の管理を行うビットリザーブ手段と、
    前記周波数帯域毎に、過去のフレームで所定回数以上前記アクティビティの非検出が連続しなかった場合は、前記第1符号化手段を選択実行し、過去のフレームで所定回数以上前記アクティビティの非検出が連続し、かつ間欠送信制御中でない場合は、前記第2符号化手段を選択実行し、当該選択実行を前記フレームの前記複数の周波数帯域について行う符号化制御手段と、
    前記フレーム毎に、フレーム全体の第1の知覚エントロピー値と前記第2符号化手段が適用された帯域の第2の知覚エントロピー値を算出し、前記第1の知覚エントロピー値に対する前記第2の知覚エントロピー値の比率に応じて、当該フレームあたりの前記第1符号化手段への第1の割り当て符号量を、前記規定割り当て符号量と前記余剰符号容量と前記広帯域オーディオ信号の特性とから導かれる当該フレームあたりの第2の割り当て符号量から削減補正し、加えて、前記ビットリザーブ手段の前記余剰符号量の管理を更新する符号量として前記補正前の第2の割り当て符号量を適用するレート制御手段とを
    具備することを特徴とする広帯域オーディオ信号符号化装置。
  3. 広帯域オーディオ信号を所定のサンプル数から成るフレーム構成とし、複数の周波数帯域信号に分割する周波数帯域分割手段と、
    前記周波数帯域毎に信号のノイズ性に基づくアクティビティを検出するアクティビティ検出手段と、
    前記周波数帯域毎に量子化処理および符号化処理を行う第1符号化手段と、
    前記周波数帯域毎に間欠送信制御対象であることを示す間欠送信制御情報と間欠送信制御対象となる信号の符号化を行う第2符号化手段と、
    予め定められたターゲットレートに基づく1フレームあたりの規定割り当て符号量と符号化に必要な符号量との差分を吸収する余剰符合容量の管理を行うビットリザーブ手段と、
    前記周波数帯域毎に、過去のフレームで所定回数以上前記アクティビティの非検出が連続しなかった場合は、前記第1符号化手段を選択実行し、過去のフレームで所定回数以上前記アクティビティの非検出が連続し、かつ間欠送信制御中でない場合は、前記第2符号化手段を選択実行し、当該選択実行を前記フレームの前記複数の周波数帯域について行う符号化制御手段と、
    前記フレーム毎に、当該フレームあたりの前記第1符号化手段への第1の割り当て符号量を、前記規定割り当て符号量と前記余剰符号容量と前記広帯域オーディオ信号の特性とから導かれる当該フレームあたりの第2の割り当て符号量を目標符号量として第1の符号化手段で符号化した場合の発生符合量から前記間欠送信対象となる帯域信号に対する符号量を削減補正して再度第1符号化手段にて符号化し、加えて、前記ビットリザーブ手段の前記余剰符号量の管理を更新する符号量として前記補正前の第2の割り当て符号量を適用するレート制御手段とを
    具備することを特徴とする広帯域オーディオ信号符号化装置。
  4. 周波数帯域毎の間欠送信制御対象であることを示す間欠送信制御情報を含む広帯域オーディオ信号符号化データを受信する受信手段と、
    前記広帯域オーディオ信号符号化データを復号する復号手段と、
    前記周波数帯域毎の間欠送信制御情報をチェックして間欠送信制御が適用された帯域であるかを判定し、間欠送信制御が適用された帯域でない場合は、前記復号手段を選択実行し、間欠送信制御が適用された帯域の場合は、更に現フレームでの間欠送信制御情報を受信しているかをチェックし、間欠送信制御情報を受信していれば間欠送信信号符号化情報から当該周波数帯域のスペクトラムを補間復元し、間欠送信制御情報を受信していなければ当該周波数帯域の過去の符号化情報に基づいてフレーム間補間を行う復号制御手段とを
    具備することを特徴とする広帯域オーディオ信号復号装置。
JP2006187123A 2006-07-06 2006-07-06 広帯域オーディオ信号符号化装置および広帯域オーディオ信号復号装置 Expired - Fee Related JP4810335B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006187123A JP4810335B2 (ja) 2006-07-06 2006-07-06 広帯域オーディオ信号符号化装置および広帯域オーディオ信号復号装置
US11/825,636 US8041563B2 (en) 2006-07-06 2007-07-05 Apparatus for coding a wideband audio signal and a method for coding a wideband audio signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006187123A JP4810335B2 (ja) 2006-07-06 2006-07-06 広帯域オーディオ信号符号化装置および広帯域オーディオ信号復号装置

Publications (2)

Publication Number Publication Date
JP2008015281A true JP2008015281A (ja) 2008-01-24
JP4810335B2 JP4810335B2 (ja) 2011-11-09

Family

ID=38920083

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006187123A Expired - Fee Related JP4810335B2 (ja) 2006-07-06 2006-07-06 広帯域オーディオ信号符号化装置および広帯域オーディオ信号復号装置

Country Status (2)

Country Link
US (1) US8041563B2 (ja)
JP (1) JP4810335B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013531820A (ja) * 2011-02-14 2013-08-08 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 重複変換を使用した情報信号表記
US8825496B2 (en) 2011-02-14 2014-09-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Noise generation in audio codecs
US9047859B2 (en) 2011-02-14 2015-06-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion
US9153236B2 (en) 2011-02-14 2015-10-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio codec using noise synthesis during inactive phases
US9384739B2 (en) 2011-02-14 2016-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for error concealment in low-delay unified speech and audio coding
US9583110B2 (en) 2011-02-14 2017-02-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing a decoded audio signal in a spectral domain
US9595262B2 (en) 2011-02-14 2017-03-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Linear prediction based coding scheme using spectral domain noise shaping
US9595263B2 (en) 2011-02-14 2017-03-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding and decoding of pulse positions of tracks of an audio signal
US9620129B2 (en) 2011-02-14 2017-04-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246688B (zh) * 2007-02-14 2011-01-12 华为技术有限公司 一种对背景噪声信号进行编解码的方法、系统和装置
US8090588B2 (en) * 2007-08-31 2012-01-03 Nokia Corporation System and method for providing AMR-WB DTX synchronization
CN100555414C (zh) * 2007-11-02 2009-10-28 华为技术有限公司 一种dtx判决方法和装置
JP2011523291A (ja) * 2008-06-09 2011-08-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ/ビジュアルデータストリームのサマリを生成するための方法及び装置
KR20100067447A (ko) * 2008-12-11 2010-06-21 한국전자통신연구원 광대역 음성 코덱을 적용한 유무선 통합 통신 장치
JP5446258B2 (ja) * 2008-12-26 2014-03-19 富士通株式会社 オーディオ符号化装置
EP2363852B1 (en) * 2010-03-04 2012-05-16 Deutsche Telekom AG Computer-based method and system of assessing intelligibility of speech represented by a speech signal
WO2012037515A1 (en) * 2010-09-17 2012-03-22 Xiph. Org. Methods and systems for adaptive time-frequency resolution in digital data coding
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
WO2012122297A1 (en) 2011-03-07 2012-09-13 Xiph. Org. Methods and systems for avoiding partial collapse in multi-block audio coding
WO2012122299A1 (en) 2011-03-07 2012-09-13 Xiph. Org. Bit allocation and partitioning in gain-shape vector quantization for audio coding
US8838442B2 (en) 2011-03-07 2014-09-16 Xiph.org Foundation Method and system for two-step spreading for tonal artifact avoidance in audio coding
JP5853758B2 (ja) * 2012-02-21 2016-02-09 富士通株式会社 通信装置及び帯域制御方法
CN104934034B (zh) 2014-03-19 2016-11-16 华为技术有限公司 用于信号处理的方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005165183A (ja) * 2003-12-05 2005-06-23 Matsushita Electric Ind Co Ltd 無線通信装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3004664B2 (ja) 1989-12-21 2000-01-31 株式会社東芝 可変レート符号化方法
US5150387A (en) * 1989-12-21 1992-09-22 Kabushiki Kaisha Toshiba Variable rate encoding and communicating apparatus
US20040024596A1 (en) * 2002-07-31 2004-02-05 Carney Laurel H. Noise reduction system
US7657427B2 (en) * 2002-10-11 2010-02-02 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005165183A (ja) * 2003-12-05 2005-06-23 Matsushita Electric Ind Co Ltd 無線通信装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013531820A (ja) * 2011-02-14 2013-08-08 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 重複変換を使用した情報信号表記
US8825496B2 (en) 2011-02-14 2014-09-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Noise generation in audio codecs
US9047859B2 (en) 2011-02-14 2015-06-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion
US9153236B2 (en) 2011-02-14 2015-10-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio codec using noise synthesis during inactive phases
US9384739B2 (en) 2011-02-14 2016-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for error concealment in low-delay unified speech and audio coding
US9536530B2 (en) 2011-02-14 2017-01-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Information signal representation using lapped transform
US9583110B2 (en) 2011-02-14 2017-02-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing a decoded audio signal in a spectral domain
US9595262B2 (en) 2011-02-14 2017-03-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Linear prediction based coding scheme using spectral domain noise shaping
US9595263B2 (en) 2011-02-14 2017-03-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding and decoding of pulse positions of tracks of an audio signal
US9620129B2 (en) 2011-02-14 2017-04-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result

Also Published As

Publication number Publication date
US8041563B2 (en) 2011-10-18
US20080010064A1 (en) 2008-01-10
JP4810335B2 (ja) 2011-11-09

Similar Documents

Publication Publication Date Title
JP4810335B2 (ja) 広帯域オーディオ信号符号化装置および広帯域オーディオ信号復号装置
JP6937877B2 (ja) 信号符号化及び復号化方法及び装置
JP6849619B2 (ja) 低ビットレートで背景ノイズをモデル化するためのコンフォートノイズ付加
KR101162275B1 (ko) 오디오 신호 처리 방법 및 장치
RU2469420C2 (ru) Способ и устройство для формирования шумов
JP2004522198A (ja) 音声符号化方法
US10607624B2 (en) Signal codec device and method in communication system
CN114550732B (zh) 一种高频音频信号的编解码方法和相关装置
KR101100280B1 (ko) 오디오 양자화
JP6584431B2 (ja) 音声情報を用いる改善されたフレーム消失補正
US20190348055A1 (en) Audio paramenter quantization
KR102380642B1 (ko) 스테레오 신호 인코딩 방법 및 인코딩 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090630

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110726

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110822

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140826

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees