JP2013504781A - チャネル間及び一時的冗長度抑圧を用いた音声信号符号化 - Google Patents

チャネル間及び一時的冗長度抑圧を用いた音声信号符号化 Download PDF

Info

Publication number
JP2013504781A
JP2013504781A JP2012528505A JP2012528505A JP2013504781A JP 2013504781 A JP2013504781 A JP 2013504781A JP 2012528505 A JP2012528505 A JP 2012528505A JP 2012528505 A JP2012528505 A JP 2012528505A JP 2013504781 A JP2013504781 A JP 2013504781A
Authority
JP
Japan
Prior art keywords
sample block
frequency band
energy
scale factor
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012528505A
Other languages
English (en)
Other versions
JP5201375B2 (ja
Inventor
ブイ. キショア,ナンドゥーリ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dish Network Technologies India Pvt Ltd
Original Assignee
Sling Media Pvt Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sling Media Pvt Ltd filed Critical Sling Media Pvt Ltd
Publication of JP2013504781A publication Critical patent/JP2013504781A/ja
Application granted granted Critical
Publication of JP5201375B2 publication Critical patent/JP5201375B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

時間領域音声信号を符号化する方法が提供される。装置は、時間領域信号を、各ブロックが複数の周波数のそれぞれに対して1つの係数を含む一連のサンプルブロックを含む周波数領域信号に変換する。各ブロックの係数は、周波数バンドにまとめられる。各ブロックに対する各周波数バンドに対して、バンドのスケールファクターが推定され、ブロックのバンドのエネルギーが、ブロックがチャネル間及び一時的な意味合いのどちらかまたは両方において互いに隣接し得る、隣接するサンプルブロックのバンドのエネルギーと比較される。隣接するブロックのバンドエネルギーに対する第1ブロックのバンドエネルギーの比率がある値未満である場合は、第1ブロックのバンドのスケールファクターが増加される。各ブロックのバンドの係数は、結果として得られたスケールファクターに基づいて量子化される。符号化された音声信号が、量子化された係数及びスケールファクターに基づいて生成される。
【選択図】図1

Description

(本文中に技術分野に該当する記載なし。)
音声情報を効率的に圧縮すると、音声情報を保存するための記憶容量要件と、情報の伝送に必要な通信バンド幅との両方が低減される。この圧縮を可能にするために、ユビキタスMotion Picture Experts Group1(MPEG−1)Audio Layer−3(MP3)フォーマットや、より最新のアドバンスト・オーディオ・コーディング(AAC)標準などの様々な音声符号化方式が、少なくとも1つの心理音響モデル(PAM)を利用する。この心理音響モデルは、基本的に音声情報を受信して処理する人間の耳の限界について記載する。例えば、人間の音声システムは、(特定の周波数の音声が、特定の音量レベル未満の近傍の周波数の音声を遮蔽する)周波数領域と(特定の周波数の音程が、除去後の一定期間の間、同一の音程を遮蔽する)時間領域の両方において、音声の遮蔽(masking)原理を示す。圧縮を提供する音声符号化方式は、人間の音声システムによって遮蔽される元の音声情報のこれらの部分を除去することによって、こうした音声の遮蔽原理を利用するものである。
元の音声信号の、どの部分を除去するかを決定するために、音声符号化システムは、一般的に、元の信号を処理して、マスキング閾値を生成し、この閾値の下にある音声信号を、音声の忠実度を顕著に損なうことなく除去し得るようにする。こうした処理は、極めて計算集約的であり、音声信号のリアルタイムな符号化を困難にしている。さらに、家庭用電子機器の多くが、かかる集約的な処理用に特化して構成されていない固定少数点型デジタル信号プロセッサ(DSP)を採用しているため、こうした計算は、通常多くの労力と時間を要する。
本発明の多くの実施態様が、以下の図面を参照することで、よりよく理解される。本明細書で開示する内容の本質を明示することに重点がおかれているため、図面中の構成要素は、必ずしも一定の縮尺で描かれていない。さらに、かかる図面において、類似の符号は、複数図面を通して対応する部分を示す。また、これらの図面に関連していくつかの実施形態が記載されているが、本発明の内容は、本明細書に記載した実施形態に限定されない。そうではなく、全ての代替、修正、及び均等物を網羅することが意図されている。
図1は、本発明の実施形態による時間領域音声信号を符号化するように構成された電子装置の簡略化されたブロック図である。 図2は、本発明の実施形態による時間領域音声信号を符号化するための、図1に記載した電子装置の動作方法の流れ図である。 図3は、本発明のその他の実施形態による電子装置のブロック図である。 図4は、本発明の実施形態による音声符号化システムのブロック図である。 図5は、本発明の実施形態による周波数領域信号処理周波数バンドのサンプルブロックをグラフ表示した図である。 図6は、本発明の実施形態による周波数領域信号の2つの音声チャネルのサンプルブロックをグラフ表示した図である。 図7は、本発明の実施形態による比率と、これに関連する増加値とを複数個記載した、スケールファクターの増加表である。
添付の図面及び以下の記載は、当業者に本発明の最良の形態を作成及び使用する方法を教示するために、本発明の具体的な実施形態について記載する。発明の本質を教示する目的上、いくつかの従来の態様は、簡略化され、または省略されている。当業者は、本発明の範囲内にある、これらの実施形態の様々な変更形式を理解するだろう。また、当業者は、以下に記載する特徴が、様々な方法で組み合わされて、本発明の複数の実施形態を形成することを理解するだろう。その結果、本発明は、以下の具体的な実施形態に限定されず、特許請求の範囲とその均等物によってのみ、限定される。
図1は、本発明の実施形態による符号化された音声信号120として、時間領域音声信号110を符号化するように構成された電子装置100の簡略化されたブロック図を提供する。時間領域信号を符号化された音声信号に変換することを含む、その他の符号化方式が、以下で説明する考え方を有利に利用し得るものの、1つの実装において、符号化は、アドバンスト・オーディオ・コーディング(AAC)基準により行われる。さらに、電子装置100は、かかる符号化を行い得る、パーソナル・デスクトップ、ラップトップコンピュータ、音声/ビデオ符号化システム、コンパクトディスク(CD)、デジタルビデオディスク(DVD)プレーヤー、テレビ・セット・トップ・ボックス、音声受信器、携帯電話、携帯端末(PDA)、及び、Sling Media社が提供するSlingbox(登録商標)の様々なモデルなどの音声/ビデオ位置シフト装置(audio/video place-shifting devices)などを含むが、これらに限定されない、任意の装置であってよい。
図2は、時間領域音声信号110を符号化して、符号化された音声信号120を生成するための、図1の電子装置100を動作させる方法200の流れ図を示す。方法200において、電子装置100は、時間領域音声信号110を受信する(動作202)。その後、装置100は、時間領域音声信号110を、少なくとも1つの音声チャネルのそれぞれに対する一連のサンプルブロックを有する周波数領域信号へ変換する(動作204)。各サンプルブロックは、複数の周波数のそれぞれに対する1つの係数を含む。各サンプルブロックの係数は、周波数バンドにまとめられ、または編成される(動作206)。各サンプルブロックの各周波数バンドに対して(動作208)、電子装置100は、バンドのスケールファクターを決定し、または推定し(動作210)、周波数バンドのエネルギーを決定し(動作212)、サンプルブロックのバンドエネルギーと、隣接するサンプルブロックのバンドエネルギーとを比較する(動作214)。隣接するサンプルブロックの例としては、同一音声チャネルの直接先行するブロックや、元のサンプルブロックと同一期間と認定された別の音声チャネルのサンプルブロックが含まれ得る。隣接するサンプルブロックの周波数バンドエネルギーに対するサンプルブロックの周波数バンドエネルギーの比率が、所定値未満である場合、装置100は、サンプルブロックの周波数バンドのスケールファクターを増加させる(動作216)。各ブロックの各周波数バンドについて、装置100は、そのバンドに関連するスケールファクターに基づいて、周波数バンドの係数を量子化する(動作218)。装置100は、量子化された係数とスケールファクターとに基づいて、符号化された音声信号120を生成する(動作220)。
図2の動作は特定の順序で実行されるように記載されているが、2つ以上の動作を同時に実行することを含むその他の実行順序も可能である。例えば、図2の動作は、各動作がパイプラインに入力されたときに、時間領域音声信号110の異なる部分やサンプルブロックについて行われる「パイプライン」実行の形式の1つとして実行され得る。その他の実施形態において、コンピュータで読み取り可能な記憶媒体は、方法200を実装するために、図1の電子装置100の少なくとも1つのプロセッサまたはその他の制御回路に対する命令がそのコンピュータで読み取り可能な記憶媒体に符号化され得る。
方法200の少なくともいくつかの実施形態の結果として、各周波数バンドに用いられるそのバンドの係数を量子化するためのスケールファクターは、同一音声チャネルにおける連続した周波数サンプルブロック間及び異なるチャネル内で同時に存在するブロック間の周波数バンドにおける音声エネルギーの相違にしたがって調整される。一般的に、このような決定は、多くのAACの実装において一般的に行われているような全体のマスキング閾値の計算と比較して、遥かに計算集約的でない。その結果、安価なデジタル信号処理の構成要素を用いた小型装置を含む任意の種類の電子装置によるリアルタイムの音声符号化が可能となり得る。その他の有利な点が、以下でより詳細に記載した本発明の様々な実装から認定され得る。
図3は、本発明のその他の実施形態に基づく電子装置300のブロック図である。装置300は、制御回路302とデータストレージ304とを含む。いくつかの実装において、装置300は、通信インターフェース306とユーザ・インターフェース308のいずれかまたは両方も含み得る。電源及び装置の筐体などを含むが、これらに限定されないその他の構成要素も電子装置300に含められ得るが、以下の説明を簡単にするために、かかる構成要素は図3に明示されないし、以下で説明されることもない。
制御回路302は、電子装置300の様々な態様を制御して、符号化された音声信号320として時間領域音声信号310を符号化するように構成される。一実施形態において、制御回路302は、以下でより詳細に説明する様々な動作を行うよう、プロセッサに指示する命令を実行するように構成されたマイクロプロセッサ、マイクロコントローラまたはデジタル信号プロセッサ(DSP)などの少なくとも1つのプロセッサを含む。その他の実施例において、制御回路302は、以下で説明する1若しくは複数のタスクまたは動作を行うように構成された1または複数のハードウェア構成要素を含み得、またはハードウェアとソフトウェア処理のエレメントのいくつかの組合せを包含し得る。
データストレージ304は、符号化されるべき時間領域音声信号310のいくつかまたは全部と、結果として符号化された音声信号320とを記憶するように構成される。データストレージ304は、符号化処理に関連する中間データ、制御情報なども記憶し得る。データストレージ304は、命令の実行に関する任意のプログラムデータまたは制御情報のみならず、制御回路302のプロセッサによって実行される命令も含み得る。データストレージ304は、任意の揮発性メモリ構成要素(ダイナミックRAM(DRAM)、スタティックRAM(SRAM)など)、不揮発性メモリ装置(フラッシュメモリ、磁気ディスクドライブ、光ディスクドライブなどであって、取り外し可能なものと固定のものとを含む)、ならびにこれらの組合せを含み得る。
電子装置300は、通信リンク上で、時間領域音声信号310を受信し、及び/または符号化された音声信号320を送信するように構成された通信インターフェース306も含み得る。通信インターフェース306の例としては、デジタル加入者回線(DSL)若しくはインターネットへのケーブル・インターフェースなどの広域ネットワーク(WAN)インターフェース、Wi−Fi若しくはイーサネットなどのローカル・エリア・ネットワーク(LAN)、または通信リンク上または有線、無線若しくは光方式での接続で通信するように構成されたその他の任意の通信インターフェースがある。
その他の実施例において、通信インターフェース306は、音声/ビデオプログラミングの一部として、音声信号310、320をテレビ、ビデオモニタ、または音声/ビデオ受信器などの出力装置(図3で示していない)へ送信するように構成され得る。例えば、音声/ビデオプログラミングのビデオ部分は、変調されたビデオケーブル接続、コンポジットまたはコンポーネントビデオRCA(ラジオ・コーポレーション・オブ・アメリカ)式接続、デジタル・ビデオ・インターフェース(DVI)または高解像度マルチメディアインターフェース(HDMI)接続を介して伝送され得る。プログラミングの音声部分は、モノラル若しくはステレオ音声RCA式接続、TOSLINK接続、またはHDMI接続によって伝送され得る。その他の音声/ビデオフォーマット及び関連する接続が、他の実施形態において採用され得る。
さらに、電子装置300は、例えば増幅器、アナログ・デジタル変換器(ADC)などの音声マイクロホン及びこれに関連する回路によって、1人または複数のユーザから、時間領域音声信号310で表される音響信号311を受信するように構成されたユーザ・インターフェース308を含み得る。同様に、ユーザ・インターフェース308は、符号化された音声信号320によって表される音響信号321をユーザに提示するための増幅回路と1つまたは複数の音声スピーカとを含み得る。実装に応じて、ユーザ・インターフェース308は、例えば、キーボード、キーパッド、タッチパッド、マウス、ジョイスティック、またはその他のユーザ入力装置によってなどのユーザが電子装置300を制御するための手段も含み得る。同様に、ユーザ・インターフェース308は、モニタやその他の視認可能な表示装置などの視認可能な出力手段を提供し、ユーザが電子装置300から視認可能な情報を受信できるようにする。
図4は、図3の符号化された音声信号320として時間領域音声信号310を符号化するための、電子装置300によって提供される音声符号化システム400の1つの例を示す。図3の制御回路302は、ハードウェア回路、ソフトウェア若しくはファームウェアの命令を実行するプロセッサまたはそれらのいくつかの組合せによって、音声符号化システム400の各部分を実装し得る。
その他の実施形態において、その他の音声符号化方式が利用され得るが、図4の具体的なシステム400は、AACの特定の実装を示す。一般的に、AACは、音声符号化に対するモジュール方式を表し、それにより、図4の各機能ブロック450〜472ならびに本明細書で具体的に記載されていない機能ブロックが個別のハードウェア、ソフトウェア若しくはファームウェアモジュールまたは「ツール」に実装され得、それゆえ、様々な発生源を起源とするモジュールを単一の符号化システム400に統合し、所望の音声符号化を行わせることができる。その結果、異なる数と種類のモジュールの利用により、任意数のエンコーダ「プロファイル」が形成され、その各々が特定の符号化環境に関連する具体的な制約に対処することが可能になる。かかる制約は、装置300の計算能力、時間領域音声信号310の複雑度及び、出力ビットレート及び歪みレベルなどの符号化された音声信号320の所望の特徴を含み得る。一般的にAAC基準は、低複雑度(LC)プロファイル、メイン(MAIN)プロファイル、サンプリングレートスケーラブル(SRS)プロファイル、長期予測(LTP)プロファイルを含む、4つのデフォルトプロファイルを提供する。その他のプロファイルが、以後、より詳細に説明する一時的/チャネル間・スケールファクター調整機能ブロック466を含む、以下で詳細に説明する増加を包含し得るが、図4のシステム400は、主に強度/結合モジュールがないメインプロファイルに対応する。
図4にて、可能性がある制御パスのいくつかを破線矢印で図示し、一方、音声データの一般的な流れを実線矢印にて示す。その他の変形形式において、図4で具体的に示されていないモジュール450〜472間の制御情報の通過に関するその他の可能性があり得る。
図4において、時間領域音声信号310が、システム400への入力として受信される。一般的に、時間領域音声信号310は、時間的に変化する音声信号の一連のデジタルサンプルブロックとして初期化された、音声情報の1つまたは複数のチャネルを含む。いくつかの実施形態において、時間領域音声信号310は、最初、アナログ音声信号の形式をとり、その後、制御回路302によって実装されるように、符号化システム400に送信される前に、例えばユーザ・インターフェース308のADCによって、規定の速度でデジタル化される。
図4に記載するように、音声符号化システム400のモジュールは、時間領域音声信号310を入力として受信する、プロセシングパイプラインの一部として構成された利得制御ブロック452、フィルターバンク454、時間領域雑音整形(TNS)ブロック456、後方予測ツール458、及びミッド/サイドステレオブロック460とを含み得る。これらの機能ブロック452〜460は、AACのその他の実装においてしばしば見られる同一の機能ブロックに対応し得る。時間領域音声信号310は、知覚モデル450へも送信され得るが、かかる知覚モデル450は、上記の機能ブロック452〜460のいずれかへと制御情報を提供し得る。一般的なAACシステムにおいて、この制御情報は、心理音響モデル(PAM)の下で、時間領域音声信号310のどの部分が余剰かを示し、これにより、時間領域音声信号310の音声情報の余剰部分が除去され得、符号化された音声信号320において実現される圧縮が容易になる。
この目的のために、一般的なAACシステムにおいて、知覚モデル450は、時間領域音声信号310の高速フーリエ変換(FFT)の出力からマスキング閾値を計算し、音声信号310のどの部分が除去されるべきかを示す。しかしながら、図4の実施例において、知覚モデル450は、フィルターバンク454の出力を受信し、かかるフィルターバンク454が、周波数領域信号474を提供する。1つの特別な実施例において、フィルターバンク454は、AACシステムにおいて通常提供される、修正離散コサイン変換(MDCT)関数ブロックである。
MDCT関数454によって生成された周波数領域信号474は、図5でグラフ表示したブロックなどであって、各ブロックが、符号化されるべき音声情報の各チャネルの複数の周波数502を有する一連のサンプルブロックを含む。さらに、各周波数502が、周波数領域信号474ブロックにおけるその周波数502の大きさ、又は強度を示す係数によって表される。図5において、各周波数502は、その高さが周波数502に関連する係数値を表す垂直ベクトルとして示されている。
加えて、周波数502は、一般的なAAC方式において行われるように、ロジカルに編成されて、隣接周波数グループまたは「バンド」504A〜504Eとなる。図4は、各周波数バンド504(即ち、周波数バンド504A〜504Eのそれぞれ)が同一周波数レンジを用いることを示し、フィルターバンク454によって生成される同一数の離散周波数502を含むが、一方で、AACシステムによくあるように、バンド504の間で様々な数の周波数502と様々な大きさの周波数502レンジとが採用され得る。
周波数バンド504が形成されて、周波数502のバンド504の各周波数502の係数が、図4のスケールファクター発生器464によって生成されるスケールファクターにより、スケーリングまたは分割されることが可能になる。かかるスケーリングは、符号化された音声信号320において周波数502の係数を示すデータ量を低減させて、これによりデータを圧縮し、その結果、符号化された音声信号320に対する送信ビットレートを低下させる。このスケーリングは、音声情報の量子化にもつながり、そのなかで周波数502係数は、離散所定値をとらざるを得ず、これにより、復号化後、符号化された音声信号320になんらかの歪みが発生し得る。一般的に言って、スケールファクターが大きいほど、より粗い量子化を引き起こし、結果として音声歪みレベルが高まり、及び符号化された音声信号320ビットレートが低下する。
従前のAACシステムにおいて、符号化された音声信号320に対する所定の歪みレベルとビットレートとを達成するために、知覚モデル450は、上記のマスキング閾値を計算して、スケールファクター発生器464が、符号化された音声信号320の各サンプルブロックに対して受容可能なスケールファクターを決定できるようにする。本明細書において、かかるマスキング閾値の生成は、スケールファクター発生器464が、周波数領域信号474の各サンプルブロックの各周波数バンドに対して初期のスケールファクターを決定できるようにするためにも用いられ得る。しかしながら、他の実装において、知覚モデル450が、各周波数バンド504の周波数502と関連するエネルギーを代わりに決定し、これがその後スケールファクター発生器464に用いられ得、かかるエネルギーに基づいて各バンド504における所望のスケールファクターを計算する。1つの実施例において、周波数バンド504における周波数502のエネルギーは、ときに絶対スペクトル係数の和(SASC)と呼ばれる、バンド504における周波数502のMDCT係数の「絶対和」即ち絶対値の和によって計算される。
バンド504のエネルギーが決定されると、各サンプルブロックのバンド504に関連するスケールファクターが、バンド504のエネルギーの、10を底とする対数などの対数をとり、一定値を加算した後、その項を所定の乗数で乗算することによって計算され得、バンド504の初期のスケールファクターを少なくとも1つ算出する。従前知られた心理音響モデルに基づく音声符号化の実験によれば、定数が約1.75で、かつ乗数が10であると、広範なマスキング閾値の計算の結果生成されるスケールファクターに相当するスケールファクターが得られる。こうして、この特定の実施例に対するスケールファクターを求めるために、下記の方程式が形成される。
その他の実施形態においては、1.75以外の定数値も採用され得る。
時間領域音声信号310を符号化するために、MDCTフィルターバンク454は、各ブロックが時間領域音声信号310の特定の期間に関連する周波数領域信号474の一連の周波数サンプルのブロックを生成する。したがって、上記のスケールファクターの計算は、周波数領域信号474において生成された周波数サンプルの各チャネルの各ブロックに対して行われ得、これにより、各周波数バンド504の各ブロックに対する異なるスケールファクターを潜在的に提供する。関連するデータ量を所与とすると、各スケールファクターに関して、上記計算を用いれば、周波数サンプルの同一ブロックに対するマスキング閾値を推定することと比較すると、スケールファクターを決定するのに必要な処理量が大幅に低下する。その他の実装において、マスキング閾値の計算の有無を問わず、スケールファクター発生器464において初期のスケールファクターが推測され得るその他の方法が利用され得る。
2つの別個の音声チャネルA及びB(602A及び602B)を含む周波数領域信号474の一例が、図6にグラフ表示されている。各音声チャネル602の音声は、各ブロック601が、元の時間領域音声信号310の特定期間に関連する、周波数サンプルの一連のブロック601として表される。いくつかの実施形態において、同一音声チャネルの2つの連続したサンプルブロックに関連する期間が重複し得る。例えば、フィルターバンク454に対してMDCTを採用して利用することで、各ブロックに関連する期間は、次のブロックの期間の50%分と重複する。
本明細書で説明する実装において、スケールファクター発生器464によって提供される各サンプルブロック601の各周波数バンド504に対する、従前に生成され、または推定されたスケールファクターは、サンプルブロック601の「隣接する」ブロックに存在する一時的な、及び/またはチャネル間の冗長度を考慮すると、さらに増加され得る。図6に示すように、同一チャネル602の2つのブロック606において、一方が他方の直後に並ぶ場合には、これらは、一時的な意味合いにおいて隣接していると言える。チャネル間ブロックは、図6に示す、隣接するチャネル間ブロック604の実施例が示すように、両者が同一期間において関連している場合には、このチャネル間ブロック604は隣接していると言える。
いずれの場合においても、サンプルブロック601の1対の隣接するブロックの1つにおけるなんらかの音声情報は、隣接するブロックのエネルギーが、第1ブロックのエネルギーと比較して十分に高い場合に除去され得る。図6の隣接する一時的なブロック606を一例として用いると、1対である606のk−1番目のブロックの周波数バンド504のエネルギーが、k番目のブロックの同一バンド504のエネルギーよりも、幾分かの量または数%大きい場合には、周波数バンド504に対するスケールファクター発生器464によって従前に決定されたスケールファクターが増加され得、これにより、そのブロック601の周波数バンド504に対する量子化レベルの数を減少させ、また、これにより、符号化された音声信号320におけるブロック601を表すのに必要なデータ量を減少させる。このようにして、スケールファクターを増加させると、関連する音声が、先行するブロック601の周波数バンド504と関連するより高いエネルギーにより、幾分か遮蔽されるため、符号化された音声信号320における追加的な顕著な歪みは僅かしか存在しなくなるか、全く存在しなくなる。
同様に、2つの隣接するチャネル間ブロック604のうちの1つの周波数バンド504のエネルギーが、他方のブロックの対応するバンド504のエネルギーと比較して十分に高い場合は、他方のブロックのバンド504に対するスケールファクターは、音声の忠実度を大幅に損なうことなく、幾分かの量または数%増加され得る。一時的な場合とチャネル間の場合の両方において、周波数領域信号474の各チャネル602の各サンプルブロック601の各周波数バンド504は、スケールファクターの増加の可否を決定するやり方でチェックされ得る。
図4の制御回路466は、スケールファクター調整機能ブロック466における図4のシステム400において、かかる機能を提供する。1つの実装において、各サンプルブロック601の各周波数バンド504のエネルギーは、周波数バンド504の全ての周波数係数の絶対値を合計することにより、または上記のようにバンド504のSASCを計算することにより、計算され得る。エネルギーのその他の測定方法が、その他の実施例において採用され得る。
1つの変更形式において、2つの隣接するサンプルブロック601のエネルギー値が比率によって比較される。例えば、隣接する一時的ブロック606における一時的冗長度に対処するために、装置300の制御回路302は、隣接する一時的ブロック606のうち後者のブロック601(例えば、音声チャネル602のk番目のブロック)のバンド504のエネルギーの、直接先行するブロック601(例えば、音声チャネル602のk−1番目のブロック)のバンド504のエネルギーに対する比率を計算し得る。この比率は、その後、例えば、0.5%または50%などの所定値または所定百分率と比較され得る。かかる比率が所定値未満の場合、後者のブロック601のバンド504に関連するスケールファクターが増加され得る。この増加は、漸進的であり(例えば1つずつ)、所定量毎(例えば1つずつ、2つずつ、3つずつ)、割合毎(例えば10%)、またはその他の量毎になされ得る。かかる処理は、各音声チャネル602の各サンプルブロック601の各周波数バンド504に対して行われ得る。
チャネル間冗長度に関しては、装置300の制御回路302が、隣接するチャネル間ブロック604(音声チャネルA 602Aのk番目のブロックなど)の1つのバンド504のエネルギーの、隣接するチャネル間ブロック604のその他のブロック(即ち、音声チャネルB 602Bのk番目のブロック)の同一バンド504のエネルギーに対するエネルギー比率を計算し得る。一時的冗長度の比較の場合と同様に、この比率は、その後、なんらかの所定値または百分率と比較され得る。かかる比率が、所定値未満である場合、第1ブロック601(即ち、音声チャネルA602Aのk番目のブロック)のバンド504のスケールファクターが、数値または百分率などの幾ばくかの量分で増加され得る。同様に、第2ブロック601(即ち、音声チャネルB 602Bのk番目のブロック)の同一バンド504のエネルギーを、第1ブロック601(即ち、音声チャネルA 602Aのk番目のブロック)のバンド504のエネルギーの上に置く、かかる比率の逆数も、同所定値または所定百分率と比較され得る。かかる比率が所定値または所定百分率未満の場合は、第2ブロック601(即ち、音声チャネルB 602Bのk番目のブロック)のバンド504に対するスケールファクターが、上記と類似の方法で増加され得る。かかる処理は、各音声チャネル602の各サンプルブロック601の各バンド504に対して行われ得る。
状況によっては、5.1ステレオシステム、7.1ステレオシステムなどにおいて、2を超える音声チャネル602が提供され得る。チャネル間の冗長度が、かかるシステムにおいて対処され得、各サンプルブロック502の各バンド504が、その他の複数の音声チャネル602にてもう一方と比較され得るようにする。他のシステム400において、特定の音声チャネル602は、音声方式におけるそれらの役割に基づいて組み合わされ得る。例えば、1つの前方中央チャネル、2つの前側チャネル、2つの後側チャネル、及び1つのサブウーファーチャネルを含む、5.1ステレオ音声において、2つの前側チャネルの同時期に発生したブロック601は、2つの後側チャネルのブロック601同様に互いに比較され得る。その他の実施例において、前チャネルのそれぞれ(左、右、中央チャネル)のブロック601は、チャネル間冗長度を有効に利用するために互いに比較され得る。
上記で説明した各実施例において、周波数バンド504に関連するエネルギー比率は、単一の所定値または所定百分率と比較される。その他の実装において、制御回路302は、それぞれ計算された比率と複数の所定の閾値とを比較し得る。かかる比率が比較値のどこに位置するかによって、関連するスケールファクターが異なる百分率または数値によって調整され得る。この目的のために、図7は、上記の計算された比率と比較すべきいくつかの異なる比率比較値702を含むスケールファクター増加表(enhancement table)700の1つの可能な実施例を提供する。かかる表700において、比率R1は、比率R2より大きく、比率R2は、比率R3より大きく、以下、比率RNまで同様となる。各比率700と関連するのは、F1、F2、F3、・・・FNとして記載されている増加値(enhancement value)704であり、F1はF2より大きく、F2はF3より大きく、以下同様である。演算処理において、計算された比率がR1より大きい場合は、関連するスケールファクターは調整されない。かかる比率がR1未満であるが、R2以上である場合は、スケールファクターは増加値F1分増加される。同様に、計算された比率がR2未満であるが、少なくともR3と同じである場合は、増加値F2が適用される。このようにして継続していくと、RN未満の比率は、スケールファクターを増加値FNで調整または増加させる。複数の所定比率値702ならびにこれに対応するスケールファクター増加値704を採用するその他の方法がその他の実施形態において採用され得る。
比率比較値702などの所定の比較値及び表700のスケールファクター増加値704などのスケールファクターの調整は、ともに、様々なシステム特異的な要因に依存し得る。したがって、特定の用途のため、受容可能な歪みレベルを過度に妥協することなく符号化された音声信号320のビットレート低減に関して最良の結果を得るために、特定システム400のための様々な比較値及び調整ファクターが、実験によって最良の形態で決定される。
スケールファクター調整機能ブロック466が図4の上記機能性を提示する一方で、その他の実装は、システム400のその他の部分における機能性を包含し得る。例えば、先に説明した比率計算、数値比較及びスケールファクター調整を行うために、フィルターバンド454からのMDCT情報と、スケールファクター発生器464からのスケールファクターの初期推定値の両方を知覚モデル450またはスケールファクター発生器464のいずれかが受信し得る。
パイプラインにおいてスケールファクター調整機能466に続く量子化器468は、スケールファクター発生器466によって生成された状態で(かつ、場合によっては、以下で説明するように比率/歪み制御ブロック462によって再調整された状態で)、各周波数バンド504の調整されたスケールファクターを使用して、そのバンド504における様々な周波数502の係数を分割する。係数を分割することにより、係数の大きさが縮小または圧縮され、これにより、符号化された音声信号320の全体のビットレートを低減させる。かかる分割により、係数は、離散値のいくつかの定数のうちの1つへと量子化される。
量子化後、無雑音符号化ブロック470は、得られた量子化された係数を無雑音の符号化方式に従って符号化する。一実施形態において、かかる符号化方式は、AACが採用するハフマン可逆符号化方式であり得る。
比率/歪み制御ブロック462は、図4に示すように、スケールファクター発生器466にて生成され、スケールファクター調整モジュール466にて調整された1つまたは複数スケールファクターを再調整し得、符号化された音声信号320に対する所定のビットレート及び歪みレベルの要件を満たす。例えば、比率/歪み制御ブロック464は、計算されたスケールファクターが、達成されるべき平均的なビットレートと比較して非常に高い符号化された音声信号320の出力ビットレートとなり得ることを決定し得、従って、スケールファクターを増加させ得る。
スケールファクター及び係数が、符号化ブロック470に符号化された後、結果のデータは、ビットストリーム・マルチプレクサ472へと送信される。かかるビットストリーム・マルチプレクサ472は符号化された音声信号320を出力し、符号化された音声信号320には係数とスケールファクターが含まれる。このデータは、さらに、(表題ならびに符号化された音声信号320に関連する関連情報を含む)テキストデータ及び音声信号320を受信した複号器が信号320を正確に複号できるようにするために用いられる特定の符号化方式に関する情報などのその他の制御情報及びメタデータと混合され得る。
本明細書に記載される少なくともいくつかの実施形態は音声符号化の方法を提供する。この方法では、音声信号のサンプルブロックの各周波数バンド内の音声周波数が示すエネルギーを隣接するブロックのエネルギーと対比することで、かかるブロックが音声の忠実度を大幅に損なうことなく、より粗い量子化が行なわれ得る音声情報を伝送するか否かを決定し得る。隣接するサンプルブロックは、単一の音声チャネルの連続するブロック、または異なる音声チャネルにおいて同時期に発生したブロックとすることができる。異なるブロックにおける特定周波数バンド内の周波数のエネルギーを比較することによって、要求される計算能力は、マスキング閾値が計算される一般的なAACシステムと比較して、最小限ですむ。したがって、本明細書に記載する方法と装置を使用すれば、そうでない場合と比較して、リアルタイムの音声符号化をより多様な環境において、より安価な処理回路にて実行することができる。
本発明のいくつかの実施形態が本明細書に記載されているが、本発明の保護の範囲に包含されるその他の実装も可能である。例えば、本明細書に開示される少なくとも1つの実施形態が、位置シフト装置(place-shifting devices)に関して記載されたが、汎用計算システム、(衛星、有線、地上波テレビ信号送信に関するものを含む)テレビ受信器またはセット・トップ・ボックス、衛星及び地上波の音声受信器、ゲーム機、DVR、CD及びDVDプレーヤーなどのその他のデジタル処理装置も、上記詳説した発明の概念の応用からの利益を得ることができる。加えて、本明細書に開示した一実施形態の態様は、その他の実施形態のものと組み合わされ得、本発明のさらなる実装を創作する。したがって、本発明は、特定の実施形態について記載されているが、かかる記載は例示する目的で提供されており、限定する目的で提供されているのではない。したがって、本発明の適切な保護の範囲は、添付の請求の範囲とその均等物によってのみ限定される。

Claims (20)

  1. 時間領域音声信号を符号化する方法であって:
    電子装置にて、少なくとも1つの音声チャネルを含む前記時間領域音声信号を受信することと;
    前記時間領域音声信号を、少なくとも1つの音声チャネルのそれぞれに対する一連のサンプルブロックを含む周波数領域信号へ変換することであって、各サンプルブロックが複数の周波数のそれぞれに対して1つの係数を含む、変換することと;
    各サンプルブロックの前記係数を周波数バンドへまとめることと;
    各サンプルブロックの各周波数バンド毎に、前記周波数バンドに対するスケールファクターを決定することと;
    各サンプルブロックの各周波数バンド毎に、前記周波数バンドのエネルギーを決定することと;
    各サンプルブロックの各周波数バンド毎に、前記サンプルブロックに対する前記周波数バンドのエネルギーと、隣接するサンプルブロックの周波数バンドのエネルギーとを比較することと;
    各サンプルブロックの各周波数バンド毎に、前記隣接するサンプルブロックの周波数バンドのエネルギーに対する前記サンプルブロックの周波数バンドのエネルギーの比率が所定値未満である場合は、前記サンプルブロックに対する周波数バンドの前記スケールファクターを増加させることと;
    各サンプルブロックの各周波数バンド毎に、前記周波数バンドの前記スケールファクターに基づいて、前記周波数バンドの前記係数を量子化することと;
    前記量子化された係数と前記スケールファクターとに基づいて、符号化された音声信号を生成することと;を
    含むことを特徴とする、時間領域音声信号を符号化する方法。
  2. 前記符号化された音声信号を生成することが、量子化された係数を符号化することを含み、前記符号化された音声信号が、前記符号化された係数と前記スケールファクターとに基づくことを特徴とする、請求項1に記載の方法。
  3. 前記時間領域音声信号を前記周波数領域信号へ変換することが、前記時間領域音声信号に修正離散コサイン変換関数を行うことを含むこと特徴とする、請求項1に記載の方法。
  4. 前記周波数バンドのエネルギーを決定することが、前記サンプルブロックの前記周波数バンドの各前記係数の絶対和を計算することを含むことを特徴とする、請求項1に記載の方法。
  5. 第1サンプルブロックの前記隣接するサンプルブロックが、前記第1サンプルブロックに時間的に直接先行する、前記第1サンプルブロックと同一の音声チャネルのサンプルブロックを含むことを特徴とする、請求項1に記載の方法。
  6. 前記隣接するサンプルブロックによって表される期間が、前記第1サンプルブロックによって表される期間と重複することを特徴とする、請求項5に記載の方法。
  7. 第1サンプルブロックの前記隣接するサンプルブロックが、前記第1サンプルブロックと関連する期間と同一期間で特定される異なる音声チャネルのサンプルブロックを含むことを特徴とする、請求項1に記載の方法。
  8. 各サンプルブロックの各周波数バンド毎に、前記サンプルブロックの前記周波数バンドのエネルギーと、第2の隣接するサンプルブロックの周波数バンドのエネルギーとを比較することと;
    各サンプルブロックの各周波数バンド毎に、前記第2の隣接するサンプルブロックの周波数バンドのエネルギーに対する前記サンプルブロックの周波数バンドのエネルギーの比率が前記所定値未満である場合は、前記サンプルブロックの周波数バンドのスケールファクターを増加させることと;
    をさらに含み、
    第1サンプルブロックの前記第2の隣接するサンプルブロックが、前記第1サンプルブロックと関連する期間と同一期間で特定される第2の異なる音声チャネルのサンプルブロックを含むことを特徴とする、請求項7に記載の方法。
  9. 各サンプルブロックの各周波数バンド毎に、前記隣接するサンプルブロックの周波数バンドのエネルギーに対する前記サンプルブロックの周波数バンドのエネルギーの比率が第2の所定値未満である場合は、前記サンプルブロックの周波数バンドの前記スケールファクターを増加させること;
    をさらに含み、
    前記第2の所定値が前記第1の所定値未満であり、
    前記第2の所定値に関する前記スケールファクターにおける前記増加が、前記第1の所定値に関する前記スケールファクターにおける前記増加よりも大きいことを特徴とする、請求項1に記載の方法。
  10. 量子化された出力信号を生成するための周波数領域音声信号の周波数バンドに対するスケールファクターを調整する方法であって、前記周波数領域信号が少なくとも1つの音声チャネルそれぞれに対する一連のサンプルブロックを含み、それぞれのサンプルブロックが、前記周波数バンド内の複数の周波数のそれぞれに対して1つの係数を含む、前記方法が:
    各サンプルブロック毎に、前記周波数バンドのエネルギーを決定することと;
    各サンプルブロック毎に、前記サンプルブロックの前記周波数バンドのエネルギーと、隣接するサンプルブロックの周波数バンドのエネルギーとを比較することと;
    各サンプルブロック毎に、前記隣接するサンプルブロックの周波数バンドのエネルギーに対する前記サンプルブロックの周波数バンドのエネルギーの比率が所定値未満である場合は、前記サンプルブロックの周波数バンドの前記スケールファクターを増加させることと;
    を含み、
    前記周波数の係数の量子化が前記スケールファクターに基づくことを特徴とする、
    方法。
  11. 係数が、修正離散コサイン変換の係数を含むことを特徴とする、請求項10に記載の方法。
  12. 前記周波数バンドのエネルギーを決定することが、前記サンプルブロックの前記周波数バンドの前記係数の絶対和を計算することを含むことを特徴とする、請求項10に記載の方法。
  13. 第1サンプルブロックの前記隣接するサンプルブロックが、前記第1サンプルブロックと同一の音声チャネルの直接先行するサンプルブロックを含むことを特徴とする、請求項10に記載の方法。
  14. 第1サンプルブロックの前記隣接するサンプルブロックが、前記第1サンプルブロックと同一の期間で特定される異なる音声チャネルのサンプルブロックを含むことを特徴とする、請求項10に記載の方法。
  15. 時間領域音声信号を記憶するように構成されたデータストレージと;
    制御回路であって、
    前記データストレージから、少なくとも1つの音声チャネルを含む前記時間領域音声信号を読み出すことと;
    前記時間領域音声信号を、少なくとも1つの音声チャネルのそれぞれに対する一連のサンプルブロックを含む周波数領域信号に変換することであって、各サンプルブロックが複数の周波数のそれぞれに対する1つの係数を含む、変換することと;
    各サンプルブロックの前記係数を周波数バンドへと編成することと;
    各サンプルブロックの各周波数バンド毎に、前記周波数バンドのスケールファクターを推定することと;
    各サンプルブロックの各周波数バンド毎に、前記周波数バンドのエネルギーを決定することと;
    各サンプルブロックの各周波数バンド毎に、前記サンプルブロックに対する前記周波数バンドのエネルギーと、隣接するサンプルブロックの周波数バンドのエネルギーとを比較することと;
    各サンプルブロックの各周波数バンド毎に、前記隣接するサンプルブロックの周波数バンドのエネルギーに対する前記サンプルブロックの周波数バンドのエネルギーの比率が所定値未満である場合は、前記サンプルブロックの周波数バンドに対する前記スケールファクターを増加させることと;
    各サンプルブロックの各周波数バンド毎に、前記周波数バンドに対する前記スケールファクターに基づいて、前記周波数バンドの前記係数を量子化することと;
    前記量子化された係数と前記スケールファクターとに基づいて、符号化された音声信号を生成することと;
    を行うように構成された制御回路と;
    を含むことを特徴とする、電子装置。
  16. 前記周波数バンドのエネルギーを決定するために、制御回路が、前記サンプルブロックの前記周波数バンドの各前記係数の絶対値を合計するように構成されることを特徴とする、請求項15に記載の電子装置。
  17. 第1サンプルブロックの前記隣接するサンプルブロックが、前記第1サンプルブロックに直接先行する、前記第1サンプルブロックと同一の音声チャネルのサンプルブロックを含むことを特徴とする、請求項15に記載の電子装置。
  18. 第1サンプルブロックの前記隣接するサンプルブロックが、前記第1サンプルブロックと同一期間を示す異なる音声チャネルのサンプルブロックを含むことを特徴とする、請求項15に記載の電子装置。
  19. 前記制御回路が:
    各サンプルブロックの各周波数バンド毎に、前記サンプルブロックの前記周波数バンドのエネルギーと、第2の隣接するサンプルブロックの周波数バンドのエネルギーとを比較し;
    各サンプルブロックの各周波数バンド毎に、前記第2の隣接するサンプルブロックの周波数バンドのエネルギーに対する前記サンプルブロックの周波数バンドのエネルギーの比率が前記所定値未満である場合は、前記サンプルブロックの周波数バンドに対する前記スケールファクターを増加させる;
    ように構成され、
    第1のサンプルブロックの前記第2の隣接するサンプルブロックが、前記第1のサンプルブロックと同一期間を示す第2の異なる音声チャネルのサンプルブロックを含むことを特徴とする、請求項15に記載の電子装置。
  20. 前記制御回路が:
    各サンプルブロックの各周波数バンド毎に、前記隣接するサンプルブロックの周波数バンドのエネルギーに対する前記サンプルブロックの周波数バンドのエネルギーの比率が第2の所定値未満である場合は、前記サンプルブロックの周波数バンドに対する前記スケールファクターを増加させる;
    ように構成され、
    前記第2の所定値が第1の前記所定値未満であり、前記第2の所定値に関する前記スケールファクターの前記増加が、前記第1の所定値に関する前記スケールファクターの前記増加より大きいことを特徴とする、請求項15に記載の電子装置。
JP2012528505A 2009-09-11 2010-09-07 チャネル間及び一時的冗長度抑圧を用いた音声信号符号化 Active JP5201375B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/558,048 2009-09-11
US12/558,048 US8498874B2 (en) 2009-09-11 2009-09-11 Audio signal encoding employing interchannel and temporal redundancy reduction
PCT/IN2010/000595 WO2011030354A2 (en) 2009-09-11 2010-09-07 Audio signal encoding employing interchannel and temporal redundancy reduction

Publications (2)

Publication Number Publication Date
JP2013504781A true JP2013504781A (ja) 2013-02-07
JP5201375B2 JP5201375B2 (ja) 2013-06-05

Family

ID=43568372

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012528505A Active JP5201375B2 (ja) 2009-09-11 2010-09-07 チャネル間及び一時的冗長度抑圧を用いた音声信号符号化

Country Status (13)

Country Link
US (2) US8498874B2 (ja)
EP (1) EP2476114B1 (ja)
JP (1) JP5201375B2 (ja)
KR (1) KR101363206B1 (ja)
CN (1) CN102483924B (ja)
AU (1) AU2010293792B2 (ja)
BR (1) BR112012005014B1 (ja)
CA (1) CA2771886C (ja)
IL (1) IL218409A (ja)
MX (1) MX2012002741A (ja)
SG (1) SG178851A1 (ja)
TW (1) TWI438770B (ja)
WO (1) WO2011030354A2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8498874B2 (en) 2009-09-11 2013-07-30 Sling Media Pvt Ltd Audio signal encoding employing interchannel and temporal redundancy reduction
GB2487399B (en) * 2011-01-20 2014-06-11 Canon Kk Acoustical synthesis
EP2709106A1 (en) 2012-09-17 2014-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal
CN105074818B (zh) 2013-02-21 2019-08-13 杜比国际公司 音频编码系统、用于产生比特流的方法以及音频解码器
AU2014360038B2 (en) 2013-12-02 2017-11-02 Huawei Technologies Co., Ltd. Encoding method and apparatus
CN105096957B (zh) 2014-04-29 2016-09-14 华为技术有限公司 处理信号的方法及设备
CN106448688B (zh) 2014-07-28 2019-11-05 华为技术有限公司 音频编码方法及相关装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5388181A (en) * 1990-05-29 1995-02-07 Anderson; David J. Digital audio compression system
JP2005338637A (ja) * 2004-05-28 2005-12-08 Sony Corp オーディオ信号符号化装置及び方法
JP2007240902A (ja) * 2006-03-09 2007-09-20 Sharp Corp デジタルデータ復号化装置
WO2009029035A1 (en) * 2007-08-27 2009-03-05 Telefonaktiebolaget Lm Ericsson (Publ) Improved transform coding of speech and audio signals
WO2009084918A1 (en) * 2007-12-31 2009-07-09 Lg Electronics Inc. A method and an apparatus for processing an audio signal

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100368854B1 (ko) * 1993-06-30 2003-05-17 소니 가부시끼 가이샤 디지털신호의부호화장치,그의복호화장치및기록매체
WO1995012920A1 (fr) * 1993-11-04 1995-05-11 Sony Corporation Codeur de signaux, decodeur de signaux, support d'enregistrement et procede de codage de signaux
JP3186412B2 (ja) * 1994-04-01 2001-07-11 ソニー株式会社 情報符号化方法、情報復号化方法、及び情報伝送方法
JP4152192B2 (ja) 2001-04-13 2008-09-17 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション オーディオ信号の高品質タイムスケーリング及びピッチスケーリング
US8019598B2 (en) * 2002-11-15 2011-09-13 Texas Instruments Incorporated Phase locking method for frequency domain time scale modification based on a bark-scale spectral partition
WO2007026821A1 (ja) 2005-09-02 2007-03-08 Matsushita Electric Industrial Co., Ltd. エネルギー整形装置及びエネルギー整形方法
CN100459436C (zh) * 2005-09-16 2009-02-04 北京中星微电子有限公司 一种音频编码中比特分配的方法
JPWO2007088853A1 (ja) 2006-01-31 2009-06-25 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法
KR101317813B1 (ko) * 2008-03-31 2013-10-15 (주)트란소노 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
US8498874B2 (en) 2009-09-11 2013-07-30 Sling Media Pvt Ltd Audio signal encoding employing interchannel and temporal redundancy reduction

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5388181A (en) * 1990-05-29 1995-02-07 Anderson; David J. Digital audio compression system
JP2005338637A (ja) * 2004-05-28 2005-12-08 Sony Corp オーディオ信号符号化装置及び方法
JP2007240902A (ja) * 2006-03-09 2007-09-20 Sharp Corp デジタルデータ復号化装置
WO2009029035A1 (en) * 2007-08-27 2009-03-05 Telefonaktiebolaget Lm Ericsson (Publ) Improved transform coding of speech and audio signals
WO2009084918A1 (en) * 2007-12-31 2009-07-09 Lg Electronics Inc. A method and an apparatus for processing an audio signal

Also Published As

Publication number Publication date
BR112012005014A2 (pt) 2016-05-03
JP5201375B2 (ja) 2013-06-05
US8498874B2 (en) 2013-07-30
US9646615B2 (en) 2017-05-09
TWI438770B (zh) 2014-05-21
AU2010293792B2 (en) 2014-03-06
KR20120070578A (ko) 2012-06-29
EP2476114A2 (en) 2012-07-18
CA2771886A1 (en) 2011-03-17
AU2010293792A1 (en) 2012-03-29
EP2476114B1 (en) 2013-06-19
CN102483924A (zh) 2012-05-30
BR112012005014B1 (pt) 2021-04-13
WO2011030354A3 (en) 2011-05-05
CA2771886C (en) 2015-07-07
CN102483924B (zh) 2014-05-28
IL218409A (en) 2016-08-31
IL218409A0 (en) 2012-04-30
US20130318010A1 (en) 2013-11-28
SG178851A1 (en) 2012-04-27
WO2011030354A2 (en) 2011-03-17
MX2012002741A (es) 2012-05-08
TW201137863A (en) 2011-11-01
US20110066440A1 (en) 2011-03-17
KR101363206B1 (ko) 2014-02-12

Similar Documents

Publication Publication Date Title
JP5201375B2 (ja) チャネル間及び一時的冗長度抑圧を用いた音声信号符号化
JP4579273B2 (ja) ステレオ音響信号の処理方法と装置
CA2770622C (en) Frequency band scale factor determination in audio encoding based upon frequency band signal energy
JP2024510205A (ja) ダウンミックスされた信号の適応利得制御を有するオーディオコーデック
US20200402522A1 (en) Quantizing spatial components based on bit allocations determined for psychoacoustic audio coding
JP2007004050A (ja) ステレオ信号の符号化装置及び符号化プログラム
JP2009103974A (ja) マスキングレベル算出装置、符号化装置、マスキングレベル算出方法およびマスキングレベル算出プログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130129

R150 Certificate of patent or registration of utility model

Ref document number: 5201375

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160222

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250