JP2013502619A - 周波数帯信号エネルギーに基づいた、音声符号化における周波数帯スケール・ファクタ測定 - Google Patents

周波数帯信号エネルギーに基づいた、音声符号化における周波数帯スケール・ファクタ測定 Download PDF

Info

Publication number
JP2013502619A
JP2013502619A JP2012526186A JP2012526186A JP2013502619A JP 2013502619 A JP2013502619 A JP 2013502619A JP 2012526186 A JP2012526186 A JP 2012526186A JP 2012526186 A JP2012526186 A JP 2012526186A JP 2013502619 A JP2013502619 A JP 2013502619A
Authority
JP
Japan
Prior art keywords
frequency band
scale factor
energy
frequency
coefficients
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012526186A
Other languages
English (en)
Inventor
エム. ダリンバ,ラックスミナラヤナ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dish Network Technologies India Pvt Ltd
Original Assignee
Sling Media Pvt Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sling Media Pvt Ltd filed Critical Sling Media Pvt Ltd
Publication of JP2013502619A publication Critical patent/JP2013502619A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

時間ドメイン音声信号を符号化する方法を提供する。この方法では、電子デバイスが、時間ドメイン音声信号を受け取る。この時間ドメイン音声信号は、複数の周波数それぞれについて係数を有する周波数ドメイン信号に変換され、これら係数は、複数の周波数帯毎に分類されている。周波数帯毎に、その帯域のエネルギーが求められ、その帯域に対するスケール・ファクタが、その帯域のエネルギーに基づいて求められ、その帯域の係数が、関連するスケール・ファクタに基づいて量子化される。量子化された係数およびスケール・ファクタに基づいて、符号化済音声信号が生成される。
【選択図】図1

Description

(本文中に技術分野に該当する記載なし)
音声情報を効率的に圧縮することにより、この音声情報を記憶するのに必要なメモリ容量と、この情報を送信するのに必要な通信帯域とが共に低減される。こうした圧縮を可能にするために、ユビキタスMP3(MPEG-1 Audio Layer 3)フォーマットや更に新規なアドバンスト・オーディオ・コーディング(AAC)規格等の様々な音声符号化スキームでは、少なくとも1つの心理音響モデル(PAM)が用いられているが、基本的にこうしたモデルは、音声情報を受け取り処理する際の人間の耳の限界を記述したものである。たとえば、人間の音声系は、(特定の周波数の音声が、一定の音量レベルを下回るこの周波数に近い周波数の音声をマスクする)周波数ドメインと(特定の周波数の音声トーンが、これがなくなった後のいくらかの時間は同一のトーンをマスクする)時間ドメインとの両方における音響マスキング原理を示す。圧縮をもたらす音声符号化スキームでは、本来の音声情報のうち人間の音声系によりマスクされるはずの部分を除去することにより、これら音声マスキング原理が利用される。
本来の音声信号のどの部分を取り除くべきかを決定するために、音声符号化システムでは、一般に、この本来の信号が処理されてマスキング・スレッショルドが作られ、これにより、音声忠実度が目立ってロスすることなく、このスレッショルドより下の音声信号を除去することができる。こうした処理では、計算量が非常に集中するので、音声信号のリアルタイムでの符号化が困難になる。さらに、こうした計算を行うことは、多くがこのような集中処理向けに特に設計されていない固定小数点デジタル信号プロセッサ(DSP)を用いる家庭用電子デバイスの場合には、通常は面倒で時間を浪費してしまうものである。
本開示内容の多くの態様は、以下の図面を参照することにより更に理解することができる。図面中の構成部品は必ずしも原寸に比例して描かれていないが、これは、そうするかわりに、開示内容の原理の明瞭な図解に強調を加えているからである。さらに、様々な図を通して、対応する部品を同様の参照番号で表している。また、いくつかの実施形態をこれらの図面に関連して説明しているが、開示内容は、本明細書で開示する実施形態に限定されない。これとは反対に、その意図は、全ての代替形態、修正形態、および均等物を包含することである。
本発明の一実施形態に係る、時間ドメイン音声信号を符号化するように構成された電子デバイスの簡略ブロック図である。 本発明の一実施形態に係る、時間ドメイン音声信号を符号化するように図1の電子デバイスを動作させる方法の流れ図である。 本発明の他の実施形態に係る電子デバイスのブロック図である。 本発明の一実施形態に係る音声符号化システムのブロック図である。 本発明の一実施形態に係る、周波数帯を処理する周波数ドメイン信号のグラフ図である。
添付の図面および以下の説明では、本発明の最良の形態(best mode)をどのように作製および使用するのかを当業者に教示するために本発明の具体的実施形態を示している。発明原理を教示するために、従来技術に関連する側面は、簡略化または省略していることもある。当業者であれば、本発明の範囲に含まれるこれら実施形態の変形形態を理解するであろう。また、当業者であれば、以下で説明する特徴を様々な方法で組み合わせて、本発明の複数の実施形態を形成することができることを理解するであろう。したがって、本発明は、以下に説明する具体的実施形態に限定されず、特許請求の範囲およびその均等物によってのみ限定される。
図1は、本発明の一実施形態に係る、時間ドメイン音声信号110を符号化済音声信号120に符号化するように構成された電子デバイス100の簡略ブロック図を示す。一実装例では、この符号化はアドバンスト・オーディオ・コーディング(AAC)規格に従って実行されるが、時間ドメイン信号の符号化済音声信号への変換を伴う他の符号化スキームでは、後に議論するコンセプトを有効に利用することができる。さらに、電子デバイス100は、こうした符号化を実行することの可能な任意のデバイスとすることができ、これには、パーソナル・デスクトップ・コンピュータ、パーソナル・ラップトップ・コンピュータ、音声/映像符号化システム、CDプレーヤ、DVDプレーヤ、テレビ・セットトップ・ボックス、音声レシーバ、携帯電話、PDA、Sling Media社の様々な型のSlingBox(登録商標)等の音声/映像プレースシフティング(place-shifting)・デバイスが含まれるが、これらに限定されない。
図2は、時間ドメイン音声信号110を符号化して符号化済音声信号120を生成するように、図1の電子デバイス100を動作させる方法200の流れ図を示す。方法200では、電子デバイス100が、時間ドメイン音声信号110を受け取る(オペレーション202)。次いで、デバイス100は、時間ドメイン音声信号110を複数の周波数を有する周波数ドメイン信号に変換し、各周波数は、自体の大きさを示す係数に関連付いている(オペレーション204)。次いで、これらの係数は、複数の周波数帯に分類される(オペレーション206)。周波数帯はそれぞれ、これら係数のうちの少なくとも1つを含む。周波数帯ごとに(オペレーション208)、電子デバイス100は、その周波数帯のエネルギーを求め(オペレーション210)、周波数帯のエネルギーに基づいてその帯域に対するスケール・ファクタを求め(オペレーション212)、周波数帯の係数を、その帯域に関連するスケール・ファクタに基づいて量子化する(オペレーション214)。デバイス100は、量子化された係数およびスケール・ファクタに基づいて符号化済音声信号120を生成する(オペレーション216)。
図2のオペレーションは、特定の順序で実行されるように図示されているが、2つ以上のオペレーションの同時の実行を含めた他の実行順序も可能である。たとえば、図2のオペレーションは、実行パイプラインの一種として実行することができるが、こうした実行パイプラインでは、各オペレーションが、パイプラインに入る際に時間ドメイン信号110の互いに異なる部分で実行される。他の実施形態では、方法200を実行するために、コンピュータ読取り可能記憶媒体上で、この媒体により、図1の電子デバイス100の少なくとも1つのプロセッサまたは他の制御回路に対する命令が符号化されることがある。
方法200の少なくともいくつかの実施形態により、各周波数帯に対して利用されて、その帯域の係数を量子化するスケール・ファクタが、帯域の周波数のエネルギーの測定に基づいたものとなる。ほとんどのAAC実装で一般に行われているように、通常、こうした測定は、マスキング・スレッショルドの算出よりも計算量の集中が大いに軽減される。これにより、廉価なデジタル信号処理構成部品を利用する小型デバイスを含むいかなるクラスの電子デバイスでもリアルタイムの音声符号化が可能になる。下記でより詳細に議論する本発明の様々な実装例から、他の利点も理解することができる。
図3は、本発明の他の実施形態に係る電子デバイス300のブロック図である。デバイス300は、制御回路302およびデータ・ストレージ304を有する。いくつかの実装例では、デバイス300はまた、通信インタフェース306およびユーザ・インタフェース308のどちらか一方またはその両方を有することがある。電源およびデバイス・エンクロージャを含めた(ただしこれらに限定されない)他の構成部品も電子デバイス300に含まれることがあるが、こうした構成部品は、後の議論を簡略化するために、明確に図3に示してもおらず、後でこれらについて議論も行っていない。
制御回路302は、時間ドメイン音声信号310を符号化済音声信号320に符号化するために電子デバイス300の様々な側面を制御するように構成される。一実施形態では、制御回路302は、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP)等の少なくとも1つのプロセッサを有しており、こうしたプロセッサは、後により詳細に議論する様々なオペレーションを実行するように自体に指示を与える命令を実行するように構成される。他の例では、制御回路302が、後に説明するタスクまたはオペレーションのうちの1つまたは複数を実行するように構成された1つまたは複数のハードウェア構成部品を有することも、ハードウェア処理エレメントとソフトウェア処理エレメントとの何らかの組合せを組み込むこともできる。
データ・ストレージ304は、符号化する時間ドメイン音声信号310およびその結果得られる符号化済音声信号320のいくらかまたは全てを格納するように構成される。データ・ストレージ304は、符号化処理に関係する中間データおよび制御情報等を格納することもできる。データ・ストレージ304は、制御回路302のプロセッサに実行される命令、ならびにこれら命令の実行に関する任意のプログラム・データまたは制御情報を含むこともできる。データ・ストレージ304は、(DRAMやSRAM等の)任意の揮発性メモリ構成部品、(リムーバブル式または固定式(captive)のフラッシュ・メモリ、磁気ディスク・ドライブ、光ディスク・ドライブ等の)任意の不揮発性メモリ・デバイス、およびこれらの要素の組み合わせを含むことがある。
電子デバイス300は、時間ドメイン音声信号310を受け取り、かつ/または通信リンクを介して符号化済音声信号320を送信するように構成された通信インタフェース306を有することができる。通信インタフェース306の例は、DSL(デジタル加入者回線)やインターネットに対するケーブル・インタフェース等のワイドエリア・ネットワーク(WAN)インタフェース、Wi-Fiやイーサーネット等のローカルエリア・ネットワーク(LAN)、有線、ワイヤレスもしくは光学的接続または通信リンクを介した通信を行うように構成された他の通信インタフェースとすることができる。
他の例では、通信インタフェース306は、音声信号310、320を音声/映像プログラミングの一部分として、テレビ、映像モニタ、音声/映像レシーバ等の出力デバイス(図3に示さず)に送信するように構成することができる。たとえば、この音声/映像プログラミングの映像部分は、変調された映像のケーブル接続、コンポジットまたはコンポーネント映像RCA(ラジオ・コーポレーション・オブ・アメリカ)型接続、およびDVI(デジタル・ビデオ・インタフェース)接続またはHDMI(高精細度マルチメディア・インタフェース)接続を介して送達させることができる。プログラミングの音声部分は、モノラルもしくはステレオ音声RCA型接続、TOSLINK接続、またはHDMI接続を介して伝送することができる。他の実施形態では、他の音声/映像フォーマットおよび関連接続を用いることができる。
さらに、電子デバイス300は、音声マイクと、増幅器、アナログ-デジタル変換器(ADC)等を含めた関連回路とを介するなどして、時間ドメイン音声信号310に代表される音響信号311を1または複数のユーザから受け取るように構成されたユーザ・インタフェース308を含んでもよい。同様に、ユーザ・インタフェース308は、符号化済音声信号320に代表される音響信号321をユーザに再生するための増幅器回路および1つまたは複数の音声スピーカを含んでもよい。実装例に応じて、ユーザ・インタフェース308は、キーボード、キーパッド、タッチパッド、マウス、ジョイスティック、または他のユーザ入力デバイス等でユーザが電子デバイス300を制御することを可能にする手段を含むこともある。同様に、ユーザ・インタフェース308は、モニタや他の表示デバイス等の視覚出力手段を提供することができ、これにより、ユーザが、電子デバイス300から視覚情報を受け取ることが可能になる。
図4は、電子デバイス300により提供され、時間ドメイン音声信号310を図3の符号化済音声信号320に符号化するための音声符号化システム400の一例を示す。図3の制御回路302は、ハードウェア回路、ソフトウェアもしくはハードウェア命令を実行するプロセッサ、またはこれらの何らかの組合せを用いて音声符号化システム400の各部分を実行することができる。
図4のこの特定のシステム400は、AACの具体的な実装例を示すが、他の実施形態では、他の音声符号化スキームを利用することができる。一般に、AACは、音声符号化に対してモジュール的アプローチを示し、これにより、図4の各機能ブロック450〜472ならびに図4には具体的に示していない機能ブロックを、独立したハードウェア、ソフトウェアまたはファームウェア・モジュールまたは「ツール」内に実装することができ、こうすることで、様々な開発ソースから作り出されたモジュールを、所望の音声符号化を実行するための単一の符号化システム400に一体化することが可能になる。したがって、様々な数のモジュールを使用すること、様々な種類のモジュールを使用することで、任意の数の符号器「プロファイル」を形成することができ、これら「プロファイル」はそれぞれ、個々の符号化環境に関連する特定の制約に対処することが可能である。こうした制約には、デバイス300の計算能力、時間ドメイン音声信号310の複雑さ、出力ビットレートや歪みレベル等の符号化済音声信号320の所望の特性が含まれることがある。AAC規格は通常、低複雑度(LC)プロファイル、メイン(MAIN)プロファイル、サンプルレート・スケーラブル(SRS)・プロファイル、長期予測(LTP)プロファイルを含めた4つのデフォルト・プロファイルを示す。図4のシステム400は、主としてメイン・プロファイルに対応しているが、他のプロファイルで、後に説明する知覚モデル450、スケール・ファクタ・ジェネレータ466、および/またはレート/歪み制御ブロック464を強化することもできる。
図4では、音声データの流れの概略を実線の矢印で示しており、考えられる制御パスのいくつかを破線の矢印で示している。他の構成では、モジュール450〜472間での制御情報の譲り渡しについての図4では具体的に示していない他の実現可能性が考えられる。
図4では、時間ドメイン音声信号310が、システム400への入力として受け取られる。一般に、時間ドメイン音声信号310は、時間変動音声信号の一連のデジタル・サンプルとしてフォーマットされた音声情報の1つまたは複数のチャネルを含む。いくつかの実施形態では、時間ドメイン音声信号310は、アナログ音声信号の形態を最初はとることがあり、このアナログ音声信号は後に、符号化システム400に転送される前に、制御回路302による実行に従って、ユーザ・インタフェース308のADCを用いるなどして規定のレートでデジタル化される。
図4に示すように、音声符号化システム400のモジュールには、時間ドメイン音声信号310を入力として受け取る処理パイプラインの一部分として構成された、ゲイン制御ブロック452、フィルタ・バンク454、テンポラルノイズ・シェーピング(TNS)・ブロック456、インテンシティ/カップリング・ブロック458、後方予測(backward prediction)ツール460、mid/sideステレオ・ブロック462が含まれることがある。これら機能ブロック452〜462は、AACの他の実装例でよく見られる機能ブロックと同一のものに対応することがある。時間ドメイン音声信号310は、知覚モデル450にも転送され、知覚モデル450は、先で述べた機能ブロック452〜462のいずれかに制御情報を供給することができる。典型的なAACシステムでは、この制御情報は、時間ドメイン音声信号310のどの部分が心理音響モデル(PAM)のもとで余分であるかを示し、これにより、時間ドメイン音声信号310内の音声情報のそれらの部分を捨てて、符号化済音声信号320内で実現される圧縮を容易にすることが可能になる。
これを達成するために、典型的なAACシステムでは、知覚モデル450が、時間ドメイン音声信号310の高速フーリエ変換(FFT)の出力からマスキング・スレッショルドを算出して、音声信号310のどの部分を捨てることができるかを示す。しかし、図4の例では、知覚モデル450は、周波数ドメイン信号474を提供するフィルタ・バンク454の出力を受け取る。1つの具体例では、AACシステムでは通常そうであるように、フィルタ・バンク454は、修正離散コサイン変換(MDCT)機能ブロックである。
図5に示すように、MDCTブロック454に生成される周波数ドメイン信号474は、符号化することとなる音声情報のチャネル毎にいくつかの周波数502を含み、各周波数502は、周波数ドメイン信号474内のその周波数502の大きさまたは強度を示す係数で表されている。図5では、各周波数502を垂直ベクトルで表しており、このベクトルの高さは、その周波数502に関連する係数値を表す。
さらに、典型的なAACスキーム同様に、これら周波数502は、連続した周波数グループすなわち「帯域」504A〜504Eに論理的にまとめられている。図4では、各周波数帯504が同一の周波数レンジを利用し、フィルタ・バンク454に作り出される個別の周波数502を同じ数だけ含んでいるが、AACシステムではよくそうされているように、周波数502の数およびレンジ・サイズは、各帯域504間で変動するものを用いることもできる。
周波数帯504は、周波数502の帯域504の各周波数502の係数を、図4のスケール・ファクタ・ジェネレータ466により作られたスケール・ファクタを用いて変倍または除算することを可能にするように形成される。こうした変倍(scaling)により、符号化済音声信号320内の周波数502の係数を表すデータの量が減少し、したがって、このデータは圧縮され、この結果、符号化済音声信号320に対する送信ビットレートが低くなる。また、この変倍により音声情報が量子化されるが、この量子化においては、周波数502のそれぞれの係数が個別の所定値に分けられ、したがって、場合によっては、いくらかの歪みが、復号後の符号化済音声信号320にもたらされる。一般に、変倍ファクタ(scaling factor)が高いほど、量子化が粗くなり、したがって、音声歪みレベルがより高くなり、符号化済信号320のビットレートが低くなる。
従来のAACシステムでは、符号化済音声信号320に対する所定の歪みレベルおよびビットレートを満たすために、知覚モデル450が、上で述べたマスキング・スレッショルドを算出して、符号化済音声信号320のサンプル・ブロック毎に許容可能なスケール・ファクタを求める。しかし、本明細書で議論する実施形態ではそうする代わりに、知覚モデル450は、各周波数帯504の周波数502に関連するエネルギーを求め、次いで、そのエネルギーに基づいて所望のスケール・ファクタをバンド504毎に算出する。一例では、周波数帯504内の周波数502のエネルギーは、帯域504内の周波数502のMDCT係数の「絶対和」、すなわちその係数の絶対値の和で算出され、この和は、絶対スペクトル係数の和(SASC)と称されることがある。
帯域504に対するエネルギーを求めると、10を底とする対数等の帯域504のエネルギーの対数をとり、一定値を加算し、次いでその項を所定の乗数で乗算して、帯域504に対する少なくとも最初のスケール・ファクタを提供することにより、帯域504に関連するスケール・ファクタを算出することができる。従来周知の音響心理学モデルによる音声符号化の実験では、1.75に近似する定数および10のイールド・スケール・ファクタの乗数が、大量のマスキング・スレッショルド計算で得られるものに相当することが示されている。したがって、この特定の例では、スケール・ファクタに対する以下の式が得られる。
Figure 2013502619
他の構成では、定数に対して1.75以外の値を用いることもできる。
時間ドメイン音声信号310を符号化するために、MDCTフィルタ・バンク454は、周波数ドメイン信号474に対する周波数サンプルの一連のブロックを作り出し、これらブロックはそれぞれ、時間ドメイン音声信号310の特定の期間に関連している。したがって、上で述べたスケール・ファクタ計算は、周波数ドメイン信号474内に作られる周波数サンプルの各チャネルのブロック毎に行うことができ、したがって、各周波数帯504のブロック毎に異なるスケール・ファクタが潜在的に提供される。含まれるデータ量を考えると、上の計算をスケール・ファクタ毎に使用すれば、周波数サンプルの同じブロックに対するマスキング・スレッショルドを推定することと比較して、スケール・ファクタを求めるのに必要な処理量が著しく減少する。
パイプライン中でスケール・ファクタ・ジェネレータ466に続く量子化器468は、スケール・ファクタ・ジェネレータ466により作られた(かつ、場合によっては、下記で説明するようにレート/歪み制御ブロック464で調整された)スケール・ファクタを周波数帯504毎に用いて、その帯域504内の様々な周波数502の係数を除算する。係数を除算することにより、これら係数の大きさが低減または圧縮され、したがって、符号化済音声信号320の全体的なビットレートが低減される。こうした除算により、これら係数は、規定の数の個別値のうちの1つの値に量子化される。
一実施形態では、スケール・ファクタを作るのに上で挙げた量子化を使用するのは、符号化済音声信号320の目標とするビットレートまたは所望のビットレートが、所定のレベルまたは値を超えていない状況に限られることがある。目標とするビットレートが所定のレベルを超えるという状況に対処するために、レート/歪み制御ブロック464は、各周波数帯504のどの係数がその帯域504に対して最高または最大の係数であるかを判定し、次いで、量子化器468で作られたその係数の量子化された値が0にならないように帯域504に対するスケール・ファクタを選択することができる。こうしたやり方でスケール・ファクタを作ることにより、ある周波数帯504全体が符号化済音声信号320から複数の期間失われ、したがってこのことが聞き手に気づかれる場合がある音声「ホール」が存在してしまうことを回避することができる。一実施形態では、レート/歪み制御ブロック464は、帯域504の最大係数を量子化後に0以外の値にする最大のスケール・ファクタを選択することがある。
量子化後、ノイズレス・コード化ブロック470は、結果として得られる量子化された係数をノイズレス・コード化スキームに従ってコード化する。一実施形態では、このコード化スキームは、AACに用いられる無損失性ハフマン・コーディング・スキーム(lossless Huffman coding scheme)とすることができる。
図4に示すレート/歪み制御ブロック464は、スケール・ファクタ・ジェネレータ466内で作られていれるスケール・ファクタのうちの1つまたは複数を、符号化済音声信号320に対する所定のビットレート要求および歪みレベル要求を満たすように調整することができる。たとえば、レート/歪み制御ブロック464は、算出されたスケール・ファクタが、達成すべき平均ビットレートと比較して著しく高い、符号化済音声信号320に対する出力ビットレートをもたらす可能性があると判断することがあり、したがって、それに応じてスケール・ファクタを増大させることができる。
他の実装例では、レート/歪み制御モジュール464は、符号化済音声信号320の許容可能な平均ビットレートを維持し、より高含量のデータを含む時間ドメイン音声信号310の期間に適応するようにビットレートを適宜増大させるようにスケール・ファクタを調整するための、ビット・リザーバ・モデル、すなわち「リーキーバケット」モデルを用いる。より具体的には、符号化済音声信号320の必要なビットレートに関連するいくらかの期間の容量を有する実際のまたは仮想のビット・リザーバまたはバッファは、初めは空であると推測される。一例では、バッファのサイズは、符号化済音声信号320の場合約5秒間のデータに対応するが、他の実装例では、これよりも短い期間または長い期間が使用されることがある。
スケール・ファクタ・ジェネレータ466で作られるスケール・ファクタにより、出力音声信号320の実ビットレートが所望のビットレートと一致する理想的なデータ転送状態の間は、バッファは、当初からの空状態にとどまる。しかし、符号化済音声信号320の複数のブロックの一部分が、所望の歪みレベルを維持するためにより高いビットレートの使用を一時的に要求する場合、より高いビットレートが適用されて、バッファまたはリザーバのいくらかが消費されることがある。次いで、バッファの満たされ具合が所定のスレッショルドを超えると、作られているスケール・ファクタを増大させて出力ビットレートを低減させることができる。同様に、出力ビットレートが落ちて、バッファが空の状態にとどまる場合、レート/歪み制御ブロック464は、スケール・ファクタ・ジェネレータ466に供給されているスケール・ファクタを低減させて、出力ビットレートを上昇させることができる。本実施形態に従って、レート/歪み制御ブロック464は、全ての周波数帯504のスケール・ファクタを増大または低減すること、元のスケール・ファクタ、係数、および他の特性に応じて、調整向けの特定のスケール・ファクタを選択することができる。
一構成例では、作られているビットレートに基づいてスケール・ファクタを調整するというレート/歪み制御ユニット・ブロック464の能力を、上で説明したビット・リザーバ・モデルの適用前に用いて、所定のビットレートを固守するとともに、符号化済音声信号320中に最小量の歪みをもたらすスケール・ファクタにそのモデルがすぐに集中することを可能にすることができる。
スケール・ファクタおよび係数がコード化ブロック470で符号化された後、その結果として得られるデータが、ビットストリーム・マルチプレクサ472に転送され、ビットストリーム・マルチプレクサ472は、係数およびスケール・ファクタを含む符号化済音声信号320を出力する。このデータは、他の制御情報、および(タイトル、符号化済音声信号320に関係する関係情報を含む)テキスト・データ等のメタデータ、ならびに使用されている特定の符号化スキームについての情報と更に混合されることがあり、したがって、音声信号320を受け取る復号器は、信号320を正確に復号することができる。
本明細書で議論する少なくともいくつかの実施形態は、音声信号の各周波数帯内の音声周波数で示されるエネルギーを用いて、音声情報の符号化および圧縮に有用なスケール・ファクタを比較的少ない計算で算出することのできる音声符号化方法を提供する。このようにしてスケール・ファクタを作ることで、たとえば、音声信号のリアルタイムでの符号化をプレースシフティング・デバイス内で行って、通信ネットワークを介して音声を送信することができ、音声信号のリアルタイムでの符号化を実現することをより簡単にすることができる。さらに、このようにしてスケール・ファクタを作ることで、従来では音声信号の符号化、圧縮が行えなかった、廉価なデジタル信号処理回路を処理する多くの携帯型デバイスおよび他の家庭用デバイスが、こうした能力を実現することを可能にすることができる。
本発明のいくつかの実施形態について本明細書で議論してきたが、本発明の範囲に包含される他の実装例も考えられる。たとえば、本明細書で開示する少なくとも1つの実施形態はプレースシフティング・デバイスのコンテキスト内で説明しているが、汎用コンピューティング・システム、テレビ受像機またはテレビ・セットトップ・ボックス(衛星伝送、有線伝送、地上波テレビジョン信号伝送に関連するものを含む)、衛星音声レシーバ、地上波音声レシーバ、ゲーム機、DVR、CDプレーヤ、DVDプレーヤ等の他のデジタル処理デバイスが、先に説明した概念の応用例から恩恵を得ることができる。さらに、本明細書に開示する1つの実施形態の特徴を、代替実施形態の特徴と組み合わせて、本発明の更なる実装例を作ることができる。したがって、特定の実施形態のコンテキストで本発明を記載しているが、こうした記載は、限定ではなく例証のために提供されるものである。したがって、本発明の正確な範囲は、添付の特許請求の範囲およびその均等物によってのみ定められる。

Claims (20)

  1. 時間ドメイン音声信号を符号化する方法であって、
    前記時間ドメイン音声信号を電子デバイスにおいて受け取るステップと、
    前記時間ドメイン音声信号を、複数の周波数のそれぞれについて係数を有する周波数ドメイン信号に変換するステップと、
    前記係数を複数の周波数帯に分類するステップであって、前記周波数帯のそれぞれが、前記係数のうち少なくとも1つの係数を含む、ステップと、
    前記周波数帯のエネルギーを周波数帯毎に求めるステップと、
    前記周波数帯の前記エネルギーに基づいて、周波数帯毎にスケール・ファクタを求めるステップと、
    前記周波数帯の前記係数を、関連する前記スケール・ファクタに基づいて周波数帯毎に量子化するステップと、
    前記量子化された係数および前記スケール・ファクタに基づいて、符号化済音声信号を生成するステップと
    を含む方法。
  2. 前記符号化済信号を生成するステップが、量子化された前記係数を符号化するステップを含み、
    前記符号化済音声信号が、前記符号化された係数および前記スケール・ファクタに基づく、
    請求項1に記載の方法。
  3. 前記周波数帯の前記エネルギーを求めるステップが、前記周波数帯の前記係数の絶対和を算出するステップを含む、
    請求項1に記載の方法。
  4. 前記スケール・ファクタを求めるステップが、
    前記周波数帯の前記エネルギーの10を底とする対数を算出するステップと、
    初項を求めるために、前記周波数帯の前記エネルギーの前記10を底とする対数に定数を加算するステップと、
    前記スケール・ファクタを求めるために、前記初項をある乗数で乗算するステップと
    を含む、請求項3に記載の方法。
  5. 前記定数が約1.75で、
    前記乗数が10である、
    請求項4に記載の方法。
  6. 前記周波数帯の前記エネルギーを求めるステップおよび前記周波数帯の前記エネルギーに基づいて前記スケール・ファクタを求めるステップが、前記符号化済音声信号の目標とするビットレートが所定のレベルを超えていない場合に実行され、
    前記方法が、
    前記符号化済音声信号の前記目標とするビットレートが所定のレベルを超えている場合、
    前記複数の周波数帯それぞれについて、その周波数帯の前記係数のうち最大の係数を求めるステップと、
    前記複数の周波数帯それぞれについて、前記最大の係数に関連する前記量子化された係数が0にならないようなスケール・ファクタを選択するステップと
    を更に含む請求項1に記載の方法。
  7. 前記符号化済音声信号に対する所定のビットレートに基づいて、前記スケール・ファクタを周波数帯毎に調整するステップであって、前記スケール・ファクタが、前記所定のビットレートに反比例する、ステップ
    を更に含む請求項1に記載の方法。
  8. 前記符号化済音声信号に対する所定のビットレートを維持するためのビット・リザーバ・モデルに基づいて、前記スケール・ファクタを周波数帯毎に調整するステップ
    を更に含む請求項1に記載の方法。
  9. 前記ビット・リザーバ・モデルが、前記所定のビットレートにおける5秒間の前記符号化済音声信号に対応する、
    請求項8に記載の方法。
  10. 量子化された出力信号を生成するための周波数ドメイン音声信号の周波数帯の周波数係数についてのスケール・ファクタを作る方法であって、
    所定のレベルを超えない、前記量子化された出力信号に対するビットレートの場合、
    前記周波数帯のエネルギーを求めるステップと、
    前記周波数帯の前記エネルギーに基づいて、スケール・ファクタを求めるステップと
    を含み、
    前記所定のレベルを超える、前記量子化された出力信号に対するビットレートの場合、
    前記周波数帯の最大の周波数係数を求めるステップと、
    量子化後の対応する前記係数が0にならないようなスケール・ファクタを選択するステップと
    を含み、
    前記周波数係数の量子化が、前記スケール・ファクタに基づく、
    方法。
  11. 前記周波数帯の前記エネルギーを求めるステップが、前記周波数帯の前記係数の絶対和を算出するステップを含む、
    請求項10に記載の方法。
  12. 前記周波数帯の前記エネルギーに基づいて前記スケール・ファクタを求めるステップが、
    前記周波数帯の前記エネルギーの対数を算出するステップと、
    初項を求めるために、前記周波数帯の前記エネルギーの前記対数に定数を加算するステップと、
    前記スケール・ファクタを求めるために、前記初項をある乗数で乗算するステップと
    を含む、
    請求項10に記載の方法。
  13. 前記定数が約1.75で、
    前記乗数が10である、
    請求項12に記載の方法。
  14. 前記量子化された出力信号に対する前記ビットレートに基づいて、前記スケール・ファクタを周波数帯毎に調整するステップであって、前記スケール・ファクタが、前記量子化された出力信号に対する前記ビットレートに反比例する、ステップ
    を更に含む請求項10に記載の方法。
  15. 時間ドメイン音声信号、および前記時間ドメイン音声信号を表す符号化済音声信号を格納するように構成されたデータ・ストレージと、
    制御回路と
    を備える電子デバイスであって、
    前記制御回路が、
    前記データ・ストレージから前記時間ドメイン音声信号を取り出し、
    前記時間ドメイン音声信号を、複数の周波数それぞれについて係数を有する周波数ドメイン信号に変換し、
    前記係数を、複数の周波数帯に分類する
    ように構成され、
    前記周波数帯のそれぞれが、前記係数のうち少なくとも1つの係数を含み、
    前記制御回路が更に、
    前記周波数帯のエネルギーを周波数帯毎に求め、
    前記周波数帯の前記エネルギーに基づいて、周波数帯毎にスケール・ファクタを求め、
    前記周波数帯の前記係数を、関連する前記スケール・ファクタに基づいて周波数帯毎に量子化し、
    前記量子化された係数および前記スケール・ファクタに基づいて、前記符号化済音声信号を生成する
    ように構成された、電子デバイス。
  16. 前記制御回路が、前記符号化済音声信号を前記データ・ストレージ中に格納するように構成された、
    請求項15に記載の電子デバイス。
  17. 前記周波数帯の前記エネルギーを求めるために、前記制御回路が、前記周波数帯の前記係数の絶対値を合計するように構成された、
    請求項15に記載の電子デバイス。
  18. 前記周波数帯に対する前記スケール・ファクタを求めるために、前記制御回路が、
    前記周波数帯の前記エネルギーの対数を求め、
    前記周波数帯の前記エネルギーの前記対数に定数を加算して、初項を求め、
    前記初項をある乗数で乗算して、前記スケール・ファクタを作るように構成された、
    請求項17に記載の電子デバイス。
  19. 前記定数が約1.75で、
    前記乗数が10である、
    請求項18に記載の電子デバイス。
  20. 前記制御回路が、前記符号化済音声信号の目標とするビットレートが所定のレベルを超えていない場合に、前記周波数帯の前記エネルギーを求めるとともに、前記周波数帯の前記エネルギーに基づいて前記スケール・ファクタを求めるように構成され、
    前記制御回路が、前記符号化済音声信号の前記目標とするビットレートが前記所定のレベルを超えている場合に、前記周波数帯の最大の周波数係数を求めるとともに、量子化後の対応する前記係数が0にならないようなスケール・ファクタを選択するように構成された、
    請求項15に記載の電子デバイス。
JP2012526186A 2009-08-24 2010-08-24 周波数帯信号エネルギーに基づいた、音声符号化における周波数帯スケール・ファクタ測定 Pending JP2013502619A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/546,428 2009-08-24
US12/546,428 US8311843B2 (en) 2009-08-24 2009-08-24 Frequency band scale factor determination in audio encoding based upon frequency band signal energy
PCT/IN2010/000557 WO2011024198A2 (en) 2009-08-24 2010-08-24 Frequency band scale factor determination in audio encoding based upon frequency band signal energy

Publications (1)

Publication Number Publication Date
JP2013502619A true JP2013502619A (ja) 2013-01-24

Family

ID=43302938

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012526186A Pending JP2013502619A (ja) 2009-08-24 2010-08-24 周波数帯信号エネルギーに基づいた、音声符号化における周波数帯スケール・ファクタ測定

Country Status (13)

Country Link
US (1) US8311843B2 (ja)
EP (1) EP2471062B1 (ja)
JP (1) JP2013502619A (ja)
KR (1) KR101361933B1 (ja)
CN (1) CN102483923B (ja)
AU (1) AU2010288103B8 (ja)
BR (1) BR112012003364A2 (ja)
CA (1) CA2770622C (ja)
IL (1) IL217958A (ja)
MX (1) MX2012002182A (ja)
SG (1) SG178364A1 (ja)
TW (1) TWI450267B (ja)
WO (1) WO2011024198A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013167852A (ja) * 2012-02-17 2013-08-29 Fujitsu Semiconductor Ltd オーディオ信号符号化装置およびオーディオ信号符号化方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
CN106409305B (zh) * 2010-12-29 2019-12-10 三星电子株式会社 用于针对高频带宽扩展进行编码/解码的设备和方法
US9225310B1 (en) * 2012-11-08 2015-12-29 iZotope, Inc. Audio limiter system and method
EP2830058A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frequency-domain audio coding supporting transform length switching
US10573324B2 (en) * 2016-02-24 2020-02-25 Dolby International Ab Method and system for bit reservoir control in case of varying metadata
DE102016206327A1 (de) * 2016-04-14 2017-10-19 Sivantos Pte. Ltd. Verfahren zum Übertragen eines Audiosignals von einem Sender zu einem Empfänger
DE102016206985A1 (de) 2016-04-25 2017-10-26 Sivantos Pte. Ltd. Verfahren zum Übertragen eines Audiosignals

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001148632A (ja) * 1999-09-07 2001-05-29 Matsushita Electric Ind Co Ltd 符号化装置、符号化方法、及びその記録媒体

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995013660A1 (fr) * 1993-11-09 1995-05-18 Sony Corporation Appareil de quantification, procede de quantification, codeur a haute efficacite, procede de codage a haute efficacite, decodeur, supports d'enregistrement et de codage a haute efficacite
US6678653B1 (en) * 1999-09-07 2004-01-13 Matsushita Electric Industrial Co., Ltd. Apparatus and method for coding audio data at high speed using precision information
JP2002196792A (ja) * 2000-12-25 2002-07-12 Matsushita Electric Ind Co Ltd 音声符号化方式、音声符号化方法およびそれを用いる音声符号化装置、記録媒体、ならびに音楽配信システム
DE60204039T2 (de) * 2001-11-02 2006-03-02 Matsushita Electric Industrial Co., Ltd., Kadoma Vorrichtung zur kodierung und dekodierung von audiosignalen
JP4317355B2 (ja) * 2001-11-30 2009-08-19 パナソニック株式会社 符号化装置、符号化方法、復号化装置、復号化方法および音響データ配信システム
US7027982B2 (en) * 2001-12-14 2006-04-11 Microsoft Corporation Quality and rate control strategy for digital audio
DE102004059979B4 (de) * 2004-12-13 2007-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Berechnung einer Signalenergie eines Informationssignals
US20070094035A1 (en) * 2005-10-21 2007-04-26 Nokia Corporation Audio coding
US8032371B2 (en) * 2006-07-28 2011-10-04 Apple Inc. Determining scale factor values in encoding audio data with AAC
JP4823001B2 (ja) * 2006-09-27 2011-11-24 富士通セミコンダクター株式会社 オーディオ符号化装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001148632A (ja) * 1999-09-07 2001-05-29 Matsushita Electric Ind Co Ltd 符号化装置、符号化方法、及びその記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013167852A (ja) * 2012-02-17 2013-08-29 Fujitsu Semiconductor Ltd オーディオ信号符号化装置およびオーディオ信号符号化方法

Also Published As

Publication number Publication date
SG178364A1 (en) 2012-04-27
AU2010288103A1 (en) 2012-03-01
CN102483923A (zh) 2012-05-30
EP2471062A2 (en) 2012-07-04
BR112012003364A2 (pt) 2016-02-16
CA2770622C (en) 2015-06-23
CN102483923B (zh) 2014-10-08
KR101361933B1 (ko) 2014-02-12
IL217958A0 (en) 2012-03-29
EP2471062B1 (en) 2018-06-27
MX2012002182A (es) 2012-09-07
IL217958A (en) 2014-12-31
AU2010288103B8 (en) 2014-02-20
WO2011024198A3 (en) 2011-07-28
AU2010288103A8 (en) 2014-02-20
US20110046966A1 (en) 2011-02-24
WO2011024198A2 (en) 2011-03-03
TWI450267B (zh) 2014-08-21
CA2770622A1 (en) 2011-03-03
KR20120048694A (ko) 2012-05-15
TW201123173A (en) 2011-07-01
US8311843B2 (en) 2012-11-13
AU2010288103B2 (en) 2014-01-30

Similar Documents

Publication Publication Date Title
JP2013502619A (ja) 周波数帯信号エネルギーに基づいた、音声符号化における周波数帯スケール・ファクタ測定
CN105723454B (zh) 能量无损编码方法和设备、信号编码方法和设备、能量无损解码方法和设备及信号解码方法和设备
JP2010538316A (ja) 改良された音声及びオーディオ信号の変換符号化
US9646615B2 (en) Audio signal encoding employing interchannel and temporal redundancy reduction
KR102401002B1 (ko) 에너지 무손실 부호화방법 및 장치, 신호 부호화방법 및 장치, 에너지 무손실 복호화방법 및 장치, 및 신호 복호화방법 및 장치
KR20210089184A (ko) 공간적 오디오 파라미터 인코딩 및 연관된 디코딩의 결정
CN115472171A (zh) 编解码方法、装置、设备、存储介质及计算机程序
JP2009103974A (ja) マスキングレベル算出装置、符号化装置、マスキングレベル算出方法およびマスキングレベル算出プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130613

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130613

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130709

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20131011

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20131011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20131024

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131024

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20131101

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20131129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20140529

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20140627