JP5267362B2 - オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置 - Google Patents

オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置 Download PDF

Info

Publication number
JP5267362B2
JP5267362B2 JP2009158991A JP2009158991A JP5267362B2 JP 5267362 B2 JP5267362 B2 JP 5267362B2 JP 2009158991 A JP2009158991 A JP 2009158991A JP 2009158991 A JP2009158991 A JP 2009158991A JP 5267362 B2 JP5267362 B2 JP 5267362B2
Authority
JP
Japan
Prior art keywords
spatial information
frequency
code
unit
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009158991A
Other languages
English (en)
Other versions
JP2011013560A (ja
Inventor
政直 鈴木
美由紀 白川
義照 土永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2009158991A priority Critical patent/JP5267362B2/ja
Priority to US12/829,650 priority patent/US8818539B2/en
Publication of JP2011013560A publication Critical patent/JP2011013560A/ja
Application granted granted Critical
Publication of JP5267362B2 publication Critical patent/JP5267362B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

ここに開示される実施形態は、オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置に関する。
近年、圧縮効率が高いオーディオ信号の符号化方式として、パラメトリックステレオ符号化方式が開発されている(例えば、特許文献1を参照)。パラメトリックステレオ符号化方式は、例えば、ステレオ信号から、音の広がりまたは定位を表す空間情報を抽出し、抽出された空間情報を符号化する。パラメトリックステレオ符号化方式は、例えば、Moving Picture Experts Group phase 4 (MPEG-4)のHigh-Efficiency Advanced Audio Coding version.2 (HE-AAC ver.2)において採用されている。
HE-AAC ver.2では、符号化対象となるステレオ信号が時間周波数変換され、その時間周波数変換により得られた周波数信号がダウンミックスされることにより、モノラル音声に対応する周波数信号が算出される。そしてモノラル音声に対応する周波数信号は、Advanced Audio Coding(AAC)符号化方式及びSpectral Band Replication(SBR)符号化方式により符号化される。一方、左右の周波数信号の類似度あるいは強度差が空間情報として算出され、この類似度及び強度差がそれぞれ量子化されることにより符号化される。このように、HE-AAC ver.2では、ステレオ信号から算出されたモノラル信号とデータ量の比較的少ない空間情報を符号化することで、ステレオ信号に対して高い圧縮効率が得られる。
特表2007−524124号公報
しかしながら、周波数ごとの周波数信号値が大きく異なる場合など、空間情報のデータ量が多い場合、空間情報に対する符号化データ量が多くなってしまうことがある。特に、オーディオ符号化装置が固定ビットレートでステレオ信号を符号化する場合、空間情報の符号化データ量が多いほど、モノラル信号に対して割当可能な符号化データ量が減少してしまう。そのため、場合によっては、モノラル信号に対して割当られた符号化データ量が、AAC及びSBRによって符号化されたモノラル信号の符号化データ量よりも少なくなり、モノラル信号の符号の一部が廃棄されてしまう。そしてモノラル信号の符号の一部が廃棄されてしまうと、符号化されたステレオ信号を復号することにより再生されたステレオ信号の音質が劣化する。
そこで、本明細書は、再生されるオーディオ信号の音質を劣化させることなく、オーディオ信号の符号化データ量を削減可能なオーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置を提供することを目的とする。
一つの実施形態によれば、オーディオ符号化装置が提供される。このオーディオ符号化装置は、第1のチャネル数を持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、各チャネルの信号をそれぞれ周波数信号に変換する時間周波数変換部と、各チャネルの周波数信号をダウンミックスすることにより、第1のチャネル数よりも少ない第2のチャネル数を持つオーディオ周波数信号を生成するダウンミックス部と、オーディオ周波数信号を符号化することにより、低チャネルオーディオ符号を生成する低チャネル符号部と、各チャネルの周波数信号から音の空間的な情報を表す空間情報を抽出する空間情報抽出部と、空間情報に基づいて、空間情報が人の聴覚に与える影響の度合いを表す重要度を周波数ごとに算出する重要度算出部と、重要度が所定の閾値よりも小さい周波数について、空間情報を周波数方向に平滑化するように空間情報を補正する空間情報補正部と、補正された空間情報を周波数方向に差分することにより得られた差分空間情報を符号化することにより、空間情報符号を生成する空間情報符号化部と、低チャネルオーディオ符号と空間情報符号を多重化することにより、符号化されたオーディオ信号を生成する多重化部とを有する。
また他の実施形態によれば、オーディオ符号化方法が提供される。このオーディオ符号化方法は、第1のチャネル数を持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより各チャネルの信号をそれぞれ周波数信号に変換し、各チャネルの周波数信号をダウンミックスすることにより、第1のチャネル数よりも少ない第2のチャネル数を持つオーディオ周波数信号を生成し、オーディオ周波数信号を符号化することにより、低チャネルオーディオ符号を生成し、各チャネルの周波数信号から音の空間的な情報を表す空間情報を抽出し、空間情報に基づいて、空間情報が人の聴覚に与える影響の度合いを表す重要度を周波数ごとに算出し、重要度が所定の閾値よりも小さい周波数について、空間情報を周波数方向に平滑化するように空間情報を補正し、補正された空間情報を周波数方向に差分することにより得られた差分空間情報を符号化することにより空間情報符号を生成し、低チャネルオーディオ符号と空間情報符号を多重化することにより、符号化されたオーディオ信号を生成することを含む。
さらに他の実施形態によれば、コンピュータに入力されたオーディオ信号を符号化させるオーディ符号化用コンピュータプログラムが提供される。このコンピュータプログラムは、第1のチャネル数を持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、各チャネルの信号をそれぞれ周波数信号に変換し、各チャネルの周波数信号をダウンミックスすることにより、第1のチャネル数よりも少ない第2のチャネル数を持つオーディオ周波数信号を生成し、オーディオ周波数信号を符号化することにより低チャネルオーディオ符号を生成し、各チャネルの周波数信号から音の空間的な情報を表す空間情報を抽出し、空間情報に基づいて、空間情報が人の聴覚に与える影響の度合いを表す重要度を周波数ごとに算出し、重要度が所定の閾値よりも小さい周波数について、空間情報を周波数方向に平滑化するように空間情報を補正し、補正された空間情報を周波数方向に差分することにより得られた差分空間情報を符号化することにより空間情報符号を生成し、低チャネルオーディオ符号と空間情報符号を多重化することにより、符号化されたオーディオ信号を生成することをコンピュータに実行させる命令を有する。
さらに他の実施形態によれば、映像伝送装置が提供される。この映像伝送装置は、入力された動画像信号を符号化する動画像符号化部と、入力された第1のチャネル数を持つオーディオ信号を符号化するオーディオ符号化部と、動画像符号化部により符号化された動画像信号とオーディオ符号化部により符号化されたオーディオ信号を多重化することにより映像ストリームを生成する多重化部とを有する。またオーディオ符号化部は、オーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより各チャネルの信号をそれぞれ周波数信号に変換し、各チャネルの周波数信号をダウンミックスすることにより、第1のチャネル数よりも少ない第2のチャネル数を持つオーディオ周波数信号を生成し、オーディオ周波数信号を符号化することにより、低チャネルオーディオ符号を生成し、各チャネルの周波数信号から音の空間的な情報を表す空間情報を抽出し、空間情報に基づいて、空間情報が人の聴覚に与える影響の度合いを表す重要度を周波数ごとに算出し、重要度が所定の閾値よりも小さい周波数について、空間情報を周波数方向に平滑化するように空間情報を補正し、補正された空間情報を周波数方向に差分することにより得られた差分空間情報を符号化することにより、空間情報符号を生成し、低チャネルオーディオ符号と空間情報符号を多重化することにより、符号化されたオーディオ信号を生成する。
本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
本明細書に開示されたオーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置は、再生されるオーディオ信号の音質を劣化させることなく、オーディオ信号の符号化データ量を削減することができる。
一つの実施形態に係るオーディオ符号化装置の概略構成図である。 重要度と平滑化される類似度の関係を説明する図である。 類似度に対する量子化テーブルの一例を示す図である。 インデックスの差分値と類似度符号の関係を示すテーブルの一例を示す図である。 強度差に対する量子化テーブルの一例を示す図である。 閾値を変化させたときの重要度と平滑化される類似度の関係を説明する図である。 PS符号生成処理の動作を示すフローチャートである。 符号化されたステレオ信号が格納されたデータ形式の一例を示す図である。 オーディオ符号化処理の動作を示すフローチャートである。 (a)はオリジナルのオーディオ信号の波形の一例を示す図であり、(b)は従来技術のパラメトリックステレオ符号化方式により符号化されたオーディオ信号を再生した波形の一例を示す図であり、(c)は本実施形態に係るオーディオ符号化装置により符号化されたオーディオ信号を再生した波形の一例を示す図である。 他の実施形態に係るオーディオ符号化装置の概略構成図である。 何れかの実施形態に係るオーディオ符号化装置が組み込まれた映像伝送装置の概略構成図である。
以下、図を参照しつつ、一つの実施形態による、オーディオ符号化装置について説明する。
このオーディオ符号化装置は、パラメトリックステレオ符号化方式に従って、ステレオ信号を符号化する。その際、このオーディオ符号化装置は、人の聴覚的に重要でない周波数帯域の空間情報を周波数方向に平滑化することにより、ステレオ信号の符号化データ量を削減する。
図1は、一つの実施形態によるオーディオ符号化装置1の概略構成図である。図1に示すように、オーディオ符号化装置1は、時間周波数変換部11a、11bと、ダウンミックス部12と、周波数時間変換部13と、SBR符号化部14と、AAC符号化部15と、PS符号化部16と、多重化部17とを有する。
オーディオ符号化装置1が有するこれらの各部は、それぞれ別個の回路として形成される。あるいはオーディオ符号化装置1が有するこれらの各部は、その各部に対応する回路が集積された一つの集積回路としてオーディオ符号化装置1に実装されてもよい。さらに、オーディオ符号化装置1が有するこれらの各部は、オーディオ符号化装置1が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。
時間周波数変換部11aは、オーディオ符号化装置1に入力された時間領域のステレオ信号のうち、左側ステレオ信号をフレーム単位で時間周波数変換することにより、左側ステレオ信号を左側周波数信号に変換する。一方、時間周波数変換部11bは、右側ステレオ信号をフレーム単位で時間周波数変換することにより、右側ステレオ信号を右側周波数信号に変換する。
本実施形態では、時間周波数変換部11aは、次式のQuadrature Mirror Filter(QMF)フィルタバンクを用いて、左側ステレオ信号L[n]を左側周波数信号L[k][n]に変換する。同様に、時間周波数変換部11bは、QMFフィルタバンクを用いて、右側ステレオ信号R[n]を右側周波数信号R[k][n]に変換する。
ここでnは時間を表す変数であり、1フレームのステレオ信号を時間方向に128等分したときのn番目の時間を表す。なお、フレーム長は、例えば、10〜80msecの何れかとすることができる。またkは周波数帯域を表す変数であり、周波数信号が有する周波数帯域を64等分したときのk番目の周波数帯域を表す。またQMF[k][n]は、時間n、周波数kの周波数信号を出力するためのQMFである。
なお、時間周波数変換部11a、11bは、高速フーリエ変換、離散コサイン変換、修正離散コサイン変換など、他の時間周波数変換処理を用いて、左側ステレオ信号及び右側ステレオ信号を、それぞれ、左側周波数信号及び右側周波数信号に変換してもよい。
時間周波数変換部11aは、フレーム単位で左側周波数信号を算出する度に、左側周波数信号をダウンミックス部12及びPS符号化部16へ出力する。同様に、時間周波数変換部11bは、フレーム単位で右側周波数信号を算出する度に、右側周波数信号をダウンミックス部12及びPS符号化部16へ出力する。
ダウンミックス部12は、左側周波数信号と右側周波数信号を受け取る度に、左側周波数信号と右側周波数信号をダウンミックスすることにより、モノラル周波数信号を生成する。例えば、ダウンミックス部12は、次式に従ってモノラル周波数信号M[k][n]を算出する。
ここでLRe[k][n]は、左側周波数信号のうちの実部を表し、LIm[k][n]は、左側周波数信号のうちの虚部を表す。またRRe[k][n]は、右側周波数信号のうちの実部を表し、RIm[k][n]は、右側周波数信号のうちの虚部を表す。
ダウンミックス部12は、モノラル周波数信号を生成する度に、そのモノラル周波数信号を周波数時間変換部13及びSBR符号化部14へ出力する。
周波数時間変換部13は、モノラル周波数信号を受け取る度に、モノラル周波数信号を時間領域のモノラル信号に変換する。例えば、時間周波数変換部11a、11bがQMFフィルタバンクを用いる場合、周波数時間変換部13は、次式に示す複素型のQMFフィルタバンクを用いてモノラル周波数信号M[k][n]を周波数時間変換する。
ここでIQMF[k][n]は、時間n、周波数kを変数とする複素型のQMFである。
なお、左側周波数信号及び右側周波数信号が、高速フーリエ変換、離散コサイン変換、修正離散コサイン変換など、他の時間周波数変換処理により生成されている場合、周波数時間変換部13は、左右の周波数信号を算出するために使用された時間周波数変換処理の逆変換を使用する。
周波数時間変換部13は、モノラル周波数信号M[k][n]を周波数時間変換することにより得られたモノラル信号Mt[n]をAAC符号化部15へ出力する。
SBR符号化部14は、低チャネル符号化部の一例であり、モノラル周波数信号を受け取る度に、モノラル周波数信号のうち、高周波数帯域に含まれる成分である高域成分を、SBR符号化方式にしたがって符号化する。これにより、SBR符号化部14は、低チャネルオーディオ符号の一例であるSBR符号を生成する。
例えば、SBR符号化部14は、特開2008−224902号公報に開示されているように、SBR符号化の対象となる高域成分と強い相関のあるモノラル周波数信号の低域成分を複製する。なお、低域成分は、SBR符号化部14が符号化対象とする高域成分が含まれる高周波数帯域よりも低い低周波数帯域に含まれるモノラル周波数信号の成分であり、後述するAAC符号化部15により符号化される。そしてSBR符号化部14は、複製された高域成分の電力を、元の高域成分の電力と一致するように調整する。またSBR符号化部14は、元の高域成分のうち、低域成分との差異が大きく、低域成分を複写しても、高域成分を近似できない成分を補助情報とする。そしてSBR符号化部14は、複製に利用された低域成分と対応する高域成分の位置関係を表す情報と、電力調整量と補助情報を量子化することにより符号化する。
SBR符号化部14は、上記の符号化された情報であるSBR符号を多重化部17へ出力する。
AAC符号化部15は、低チャネル符号化部の一例であり、モノラル信号を受け取る度に、低域成分をAAC符号化方式にしたがって符号化することにより、低チャネルオーディオ符号の一例であるAAC符号を生成する。そこで、AAC符号化部15は、例えば、特開2007−183528号公報に開示されている技術を利用できる。具体的には、AAC符号化部15は、受け取ったモノラル信号を離散コサイン変換することにより、再度モノラル周波数信号を生成する。そしてAAC符号化部15は、再生成したモノラル周波数信号から心理聴覚エントロピー(Perceptual Entropy、PE)を算出する。PEは、リスナーが雑音を知覚することがないようにそのブロックを量子化するために必要な情報量を表す。そしてこのPEは、打楽器が発する音のようなアタック音など、信号レベルが短時間で変化する音に対して大きな値となる特性を持つ。そこで、AAC符号化部15は、PEの値が比較的大きくなるフレームに対しては、窓を短くし、PEの値が比較的小さくなるブロックに対しては、窓を長くする。例えば、短い窓は、256個のサンプルを含み、長い窓は、2048個のサンプルを含む。AAC符号化部15は、決定された長さを持つ窓を用いてモノラル信号に対して修正離散コサイン変換(Modified Discrete Cosine Transform、MDCT)を実行することにより、モノラル信号をMDCT係数の組に変換する。
そしてAAC符号化部15は、MDCT係数の組を量子化し、その量子化されたMDCT係数の組を可変長符号化する。
AAC符号化部15は、可変長符号化されたMDCT係数の組と、量子化係数など関連する情報を、AAC符号として多重化部17へ出力する。
PS符号化部16は、フレーム単位で算出された左側周波数信号及び右側周波数信号を受け取る度に、左側周波数信号及び右側周波数信号から空間情報を算出し、その空間情報を符号化することによりPS符号を生成する。そのために、PS符号化部16は、空間情報抽出部21と、重要度算出部22と、類似度補正部23と、強度差補正部24と、類似度量子化部25と、強度差量子化部26と、補正幅制御部27と、PS符号生成部28を有する。
空間情報抽出部21は、空間情報として、音の広がりを表す情報である左側周波数信号及び右側周波数信号の類似度と、音の定位を表す情報である左側周波数信号と右側周波数信号の強度差を算出する。例えば、空間情報抽出部21は、次式に従って類似度ICC(k)及び強度差IID(k)を算出する。
ただしNは、1フレームに含まれる時間方向のサンプル点数であり、本実施形態では、Nは128である。
空間情報抽出部21は、算出した類似度を重要度算出部22及び類似度補正部23へ出力する。また空間情報抽出部21は、算出した強度差を重要度算出部22及び強度差補正部24へ出力する。
重要度算出部22は、類似度と強度差から、各周波数に対する重要度を算出する。重要度は、空間情報が人の聴覚に与える影響の度合いを表し、重要度が高い空間情報ほど、再生されたステレオ信号の音質に影響する。そのため、類似度が大きいほど、また強度差の絶対値が大きいほど、重要度は高くなる。
例えば、重要度算出部22は、次式にしたがって周波数kに対する重要度w(k)を算出する。
ここでICCnorm(k)は、類似度ICC(k)を正規化した正規化類似度であり、0〜1の何れかの値を有する。またIIDnorm(k)は、強度差IDD(k)を正規化した正規化強度差であり、0〜1の何れかの値を有する。ただし、強度差IDD(k)は、-50dB〜+50dBの何れかの値を有するものとする。さらに、α及びβは、それぞれ、重み付け係数である。例えば、α=1、β=1とすることができる。
重要度算出部22は、各周波数に対する重要度を類似度補正部23及び強度差補正部24へ出力する。
類似度補正部23は、空間情報補正部の一例であり、補正幅制御部27から入力された所定の閾値以下の周波数に対する類似度及を周波数方向に平滑化する。また強度差補正部24も、空間情報補正部の一例であり、補正幅制御部27から入力された所定の閾値以下の周波数に対する強度差を周波数方向に平滑化する。
何れかの周波数に対する類似度が平滑化されると、その周波数に対する類似度と、その周波数の近傍の周波数に対する類似度との差が小さくなる。そのため、類似度が平滑化された周波数では、周波数方向に類似度を差分することにより得られる類似度の差分値が小さくなる。類似度の差分値が小さければ、その類似度の差分値に割り当てられる符号化ビット数も少なくて済む。したがって、類似度補正部23は、重要度が所定の閾値以下の周波数に対する類似度を周波数方向に平滑化することにより、空間情報の符号化データ量を削減することができる。
同様に、強度差補正部24も、重要度が所定の閾値以下の周波数に対する強度差を周波数方向に平滑化することにより、空間情報の符号化データ量を削減することができる。
図2は、重要度と平滑化される類似度の関係を説明する図である。図2において、上のグラフ及び下のグラフの横軸は、それぞれ周波数を表す。また上のグラフの縦軸は類似度を表す。一方、下のグラフの縦軸は重要度を表す。また上のグラフにおいて、折線201は、平滑化される前の元の類似度ICC(k)を表し、折線202は、平滑化された後の類似度ICC'(k)を表す。また下のグラフにおいて、折線203は、周波数kに対する重要度w(k)を表す。さらに一点鎖線204は、閾値Thwを表す。
図2に示されるように、周波数帯域kwにおいて、重要度w(k)は閾値Thwより低くなっている。そこで、類似度補正部24は、周波数帯域kwに含まれる各周波数に対する類似度ICC(k)を周波数方向に平滑化する。このため、周波数帯域kwでは、周波数の変化に対する平滑化された類似度ICC'(k)の変化は、補正前の類似度ICC(k)の変化よりも小さい。
類似度補正部23は、例えば、次式にしたがって類似度ICC(k)を周波数方向に平均化することにより、平滑化された類似度ICC'(k)を算出する。
ただし、k1は、平滑化される周波数帯域の下限値を表し、k2は、平滑化される周波数帯域の上限値を表す。また、重要度w(k)が閾値Thw未満となる周波数帯域が複数存在する場合、類似度補正部23は、それら複数の周波数について、(7)式を用いて類似度ICC(k)をそれぞれ平滑化する。
あるいは、類似度補正部23は、k1〜k2の周波数帯域について、次式にしたがって類似度ICC(k)に対してローパスフィルタリング処理を行うことにより、類似度ICC(k)を平滑化してもよい。
ただし、γは重み係数であり、例えば、γは0.9に設定される。
さらに、類似度補正部23は、(8)式の代わりに、次式のような2次以上のローパスフィルタを用いてもよい。
ただし、η、ζは、それぞれ重み係数であり、例えば、η=0.5、ζ=0.4に設定される。
類似度補正部23は、平滑化された類似度を類似度量子化部25へ出力する。
強度差補正部24は、類似度補正部23と同様に、重要度が所定の閾値となる周波数帯域において、周波数方向に強度差を平均するか、または強度差に対してローパスフィルタ処理を実行することにより、強度差を周波数方向に平滑化できる。
そのために、強度差補正部24は、例えば、上記の(7)〜(9)式の何れかにおいて、類似度ICC(k)を強度差IIC(k)で置換することにより、平滑化された強度差IID’(k)を算出できる。
強度差補正部24は、平滑化された強度差を強度差量子化部26へ出力する。
類似度量子化部25は、空間情報符号化部の一例であり、平滑化された類似度を空間情報符号の一つとして符号化する。そのために、類似度量子化部25は、類似度の値とインデックス値の対応を示した量子化テーブルを参照する。そして類似度量子化部25は、量子化テーブルを参照することにより、各周波数について平滑化された類似度ICC'(k)と最も値が近いインデックス値を決定する。なお、量子化テーブルは、予め、類似度量子化部25が有するメモリに格納される。
図3は、類似度に対する量子化テーブルの一例を示す図である。図3に示す量子化テーブル300において、上側の行310の各欄はインデックス値を表し、下側の行320の各欄は、同じ列のインデックス値に対応する類似度の代表値を表す。また、類似度が取りうる値の範囲は-1〜+1である。例えば、周波数kに対する類似度が0.6である場合、量子化テーブル300では、インデックス値3に対応する類似度の代表値が、周波数kに対する類似度に最も近い。そこで、類似度量子化部25は、周波数kに対するインデックス値を3に設定する。
次に、類似度量子化部25は、各周波数について、周波数方向に沿ってインデックス間の差分値を求める。例えば、周波数kに対するインデックス値が3であり、周波数(k-1)に対するインデックス値が0であれば、類似度量子化部25は、周波数kに対するインデックスの差分値を3とする。
類似度量子化部25は、インデックス値の差分値と類似度符号の対応を示した符号化テーブルを参照する。そして類似度量子化部25は、符号化テーブルを参照することにより、各周波数についてインデックス間の差分値に対する類似度符号idxicc(k)を決定する。なお、符号化テーブルは、予め、類似度量子化部25が有するメモリに格納される。また、類似度符号は、例えば、ハフマン符号あるいは算術符号など、出現頻度が高い差分値ほど符号長が短くなる可変長符号とすることができる。
図4は、インデックスの差分値と類似度符号の関係を示すテーブルの一例を示す図である。この例では、類似度符号はハフマン符号である。図4に示す符号化テーブル400において、左側の列の各欄はインデックスの差分値を表し、右側の列の各欄は、同じ行のインデックスの差分値に対応する類似度符号を表す。例えば、周波数kに対するインデックスの差分値が3である場合、類似度量子化部25は、符号化テーブル400を参照することにより、周波数kに対する類似度符号idxicc(k)を"111110"に設定する。
類似度量子化部25は、各周波数について求めた類似度符号を、補正幅制御部27へ出力する。
強度差量子化部26は、空間情報符号化部の一例であり、平滑化された強度差を空間情報符号の他の一つとして符号化する。そのために、強度差量子化部26は、強度差の値とインデックス値との対応関係を示した量子化テーブルを参照する。そして強度差量子化部26は、量子化テーブルを参照することにより、各周波数について平滑化された強度差IID'(k)と最も値が近いインデックス値を決定する。強度差量子化部26は、各周波数について、周波数方向に沿ってインデックス間の差分値を求める。例えば、周波数kに対するインデックス値が2であり、周波数(k-1)に対するインデックス値が4であれば、強度差量子化部26は、周波数kに対するインデックスの差分値を-2とする。
強度差量子化部26は、インデックス間の差分値と強度差符号の対応を示した符号化テーブルを参照する。そして強度差量子化部26は、符号化テーブルを参照することにより、各周波数kの差分値に対する強度差符号idxiid(k)を決定する。強度差符号は、類似度符号と同様に、例えば、ハフマン符号あるいは算術符号など、出現頻度が高い差分値ほど符号長が短くなる可変長符号とすることができる。
なお、量子化テーブル及び符号化テーブルは、予め、強度差量子化部26が有するメモリに格納される。
図5は、強度差に対する量子化テーブルの一例を示す図である。図5に示す量子化テーブル500において、行510及び530の各欄はインデックス値を表し、行520及び540の各欄は、それぞれ、同じ列の行510及び530の各欄に示されたインデックス値に対応する強度差の代表値を表す。
例えば、周波数kに対する強度差が10.8dBである場合、量子化テーブル500では、インデックス値4に対応する強度差の代表値が、周波数kに対する強度差に最も近い。そこで、強度差量子化部26は、周波数kに対するインデックス値を4に設定する。
強度差量子化部26は、各周波数について求めた強度差符号を、補正幅制御部27へ出力する。
補正幅制御部27は、PS符号化部16により生成されるPS符号のビットレートが所定の範囲に収まるように、類似度補正部23及び強度差補正部24で使用される、重要度に対する閾値を調整する。
図6(a)及び図6(b)は、閾値を変化させたときの重要度と平滑化される類似度の関係を説明する図である。図6(a)及び図6(b)において、上のグラフ及び下のグラフの横軸は、それぞれ周波数を表す。また上のグラフの縦軸は類似度を表す。一方、下のグラフの縦軸は重要度を表す。また図6(a)及び図6(b)の上のグラフにおいて、折線601は、平滑化される前の元の類似度ICC(k)を表し、折線602及び603は、それぞれ、平滑化された後の類似度ICC'(k)を表す。また図6(a)及び図6(b)の下のグラフにおいて、折線604は、各周波数kに対する重要度w(k)を表す。さらに一点鎖線605及び606は、それぞれ閾値を表す。
図6(a)に示されるように、閾値がThw1に設定されている場合、周波数帯域kw1において、重要度w(k)は閾値Thw1より低くなっている。この場合、周波数帯域kw1に含まれる各周波数に対する類似度ICC(k)のみが平滑化される。しかし、平滑化される類似度の範囲が狭いため、類似度符号のデータ量が多すぎる可能性がある。一方、図6(b)に示されるように、閾値がThw1よりも高いThw2に設定されている場合、周波数帯域kw1よりも広い周波数帯域kw2において、重要度w(k)は閾値Thw2よりも低くなる。このため、類似度が平滑化される周波数帯域も広くなる。このように、閾値が高くなるほど、類似度が平滑化される周波数帯域も広くなるので、類似度符号のデータ量も少なくなる。なお、強度差に関しても、重要度に対する閾値が高くなるほど、強度差が平滑化される周波数帯域も広くなるので、強度差符号のデータ量も少なくなる。
そこで、補正幅制御部27は、類似度量子化部25から受け取った類似度符号と強度差量子化部26から受け取った強度差符号の合計ビットレートを算出する。
その際、補正幅制御部27は、類似度符号及び強度差符号のそれぞれのビット長を計算し、そのビット長を合計することにより、合計ビットレートを算出する。
あるいは、補正幅制御部27は、あらかじめ類似度符号及び強度差符号のビット長を示したテーブルを参照することで各符号のビット長を求めることにより、合計ビットレートを算出してもよい。
補正幅制御部27は、合計ビットレートが所定の上限値よりも大きい場合、重要度に対する閾値Thwを高く修正する。例えば、補正幅制御部27は、閾値Thwに1.1を乗じた値を、改めて閾値Thwとする。そして補正幅制御部27は、類似度補正部23及び強度差補正部24にその修正された閾値Thwを渡す。また補正幅制御部27は、類似度符号及び強度差符号を廃棄する。そしてPS符号化部16は、類似度補正部23及び強度差補正部24に、修正された閾値Thwを用いて類似度及び強度差を再度平滑化させ、かつ、類似度量子化部25及び強度差量子化部26に類似度符号及び強度差符号を再度求めさせる。
逆に、類似度符号と強度差符号の合計ビットレートが小さすぎると、空間情報が過度に失われている可能性がある。この場合、オーディオ符号化装置1により符号化されたステレオ信号を再生したときの音質が過度に劣化してしまうおそれがある。そこで、類似度符号と強度差符号の合計ビットレートが所定の下限値よりも小さい場合、補正幅制御部27は、重要度に対する閾値を低く修正する。例えば、補正幅制御部27は、閾値Thwに0.95を乗じた値を、改めて閾値Thwとする。この場合も、補正幅制御部27は、類似度補正部23及び強度差補正部24にその修正された閾値Thwを渡す。また補正幅制御部27は、類似度符号及び強度差符号を廃棄する。そしてPS符号化部16は、類似度補正部23及び強度差補正部24に、修正された閾値Thwを用いて類似度及び強度差を再度平滑化させ、かつ、類似度量子化部25及び強度差量子化部26に類似度符号及び強度差符号を再度求めさせる。
なお、所定の上限値は、SBR符号及びAAC符号が全て伝送される場合に、PS符号に割当可能なビットレートの上限値とすることが好ましい。また所定の下限値は、リスナーが、オーディオ符号化装置1により符号化されたステレオ信号を再生した音声の劣化に気付かない許容最低限度のビットレートに設定されることが好ましい。
例えば、オーディオ符号化装置1が、HE-AAC ver.2方式に従って48kHzの帯域を有するステレオ信号を32kbpsのビットレートで符号化する場合、上限値は、3〜5kbpsの何れか、例えば、4kbpsに設定される。一方、下限値は、0〜1kbpsの何れか、例えば、0.1kbpsに設定される。
類似度符号と強度差符号の合計ビットレートが所定の下限値から所定の上限値の範囲に含まれる場合、補正幅制御部27は、類似度符号と強度差符号をPS符号生成部28へ出力する。
PS符号生成部28は、補正幅制御部27から受け取った、類似度符号idxicc(k)と強度差符号idxiid(k)を用いてPS符号を生成する。例えば、PS符号生成部28は、類似度符号idxicc(k)及び強度差符号idxiid(k)を所定の順序に従って配列することにより、PS符号を生成する。この所定の順序については、例えば、ISO/IEC 14496-3:2005、8.4章 “Payloads for the audio object type SSC”に記述されている。
PS符号生成部28は、生成したPS符号を多重化部17へ出力する。
図7は、PS符号生成処理の動作フローチャートを示す。なお、図7に示されたフローチャートは、1フレーム分のステレオ周波数信号に対する処理を表す。PS符号化部16は、左側ステレオ周波数信号及び右側ステレオ周波数信号が入力される度に、図7に示されたPS符号生成処理を実行する。
先ず、空間情報抽出部21は、空間情報として各周波数に対する左右の周波数信号間の類似度ICC(k)及び強度差IID(k)を算出する(ステップS101)。そして空間情報抽出部21は、算出した類似度を重要度算出部22及び類似度補正部23へ出力する。また空間情報抽出部21は、算出した強度差を重要度算出部22及び強度差補正部24へ出力する。
次に、重要度算出部22は、類似度ICC(k)及び強度差IID(k)に基づいて、各周波数に対する重要度w(k)を算出する(ステップS102)。重要度算出部22は、各周波数に対する重要度を類似度補正部23及び強度差補正部24へ出力する。
類似度補正部23は、重要度w(k)が閾値Thw未満となる周波数klの類似度ICC(kl)を周波数方向に平滑化する。同様に、強度差補正部24は、重要度w(k)が閾値Thw未満となる周波数klの強度差IID(kl)を周波数方向に平滑化する(ステップS103)。類似度補正部23は、平滑化された類似度ICC'(k)を類似度量子化部25へ出力する。また強度差補正部24は、平滑化された強度差IID'(k)を強度差量子化部26へ出力する。
類似度量子化部25は、平滑化された類似度ICC'(k)を符号化することにより類似度符号idxicc(k)を決定する。また強度差量子化部26は、平滑化された強度差IID'(k)を符号化することにより強度差符号idxiid(k)を決定する(ステップS104)。類似度量子化部25は、各周波数について求めた類似度符号idxicc(k)を、補正幅制御部27へ出力する。また強度差量子化部26は、各周波数について求めた強度差符号idxiid(k)を、補正幅制御部27へ出力する。
その後、補正幅制御部27は、類似度符号idxicc(k)と強度差符号idxiid(k)の合計ビットレートSumBRを算出する(ステップS105)。そして補正幅制御部27は、合計ビットレートSumBRが上限値ThBH以下か否か判定する(ステップS106)。合計ビットレートSumBRが上限値ThBHよりも高い場合(ステップS106−No)、補正幅制御部27は、閾値Thwを高く修正する(ステップS107)。そして補正幅制御部27は、修正された閾値Thwを類似度補正部23及び強度差補正部24へ渡す。そしてPS符号化部16は、合計ビットレートSumBRが上限値ThBH以下となるまで、ステップS103〜S107の処理を繰り返す。
一方、ステップS106において、合計ビットレートSumBRが上限値ThBH以下である場合(ステップS106−Yes)、補正幅制御部27は、合計ビットレートSumBRが下限値ThBL以上か否か判定する(ステップS108)。合計ビットレートSumBRが下限値ThBLよりも低い場合(ステップS108−No)、補正幅制御部27は、閾値Thwを低く修正する(ステップS109)。ただしこの場合、補正幅制御部27は、処理が無限ループに入ることを避けるため、ステップS107において閾値Thwを調節する量よりも少ない量だけ、閾値Thwを調節することが好ましい。そして補正幅制御部27は、修正された閾値Thwを類似度補正部23と強度差補正部24へ渡す。そしてPS符号化部16は、合計ビットレートSumBRが下限値ThBL以上となるまで、ステップS103〜S109の処理を繰り返す。
一方、ステップS108において、合計ビットレートSumBRが下限値ThBL以上である場合(ステップS108−Yes)、補正幅制御部27は、類似度符号idxicc(k)と強度差符号idxiid(k)をPS符号生成部28へ出力する。
PS符号生成部28は、類似度符号idxicc(k)と強度差符号idxiid(k)を所定の順序に従って配列することによりPS符号を生成する(ステップS110)。
PS符号生成部28は、PS符号を多重化部17へ出力する。そしてPS符号化部16は、PS符号生成処理を終了する。
なお、下限値ThBLは0に設定されてもよい。この場合、ステップS108及びS109の処理は省略される。
多重化部17は、AAC符号、SBR符号及びPS符号を所定の順序に従って配列することにより多重化する。そして多重化部17は、その多重化により生成された符号化ステレオ信号を出力する。
図8は、符号化されたステレオ信号が格納されたデータ形式の一例を示す図である。この例では、符号化されたステレオ信号は、MPEG-4 ADTS(Audio Data Transport Stream)形式に従って作成される。
図8に示される符号化データ列800において、データブロック810にAAC符号は格納される。またADTS形式のFILLエレメントが格納されるブロック820の一部領域にSBR符号及びPS符号が格納される。特にPS符号は、SBR符号の中のSBR拡張領域830に格納される。
図9は、オーディオ符号化処理の動作フローチャートを示す。なお、図9に示されたフローチャートは、1フレーム分のステレオ信号に対する処理を表す。オーディオ符号化装置1は、ステレオ信号を受信し続けている間、フレームごとに図9に示されたオーディオ符号化処理の手順を繰り返し実行する。
時間周波数変換部11aは、入力されたステレオ信号のうち、左側ステレオ信号を時間周波数変換することにより、左側周波数信号に変換する。また時間周波数変換部11bは、入力されたステレオ信号のうち、右側ステレオ信号を時間周波数変換することにより右側周波数信号に変換する(ステップS201)。時間周波数変換部11aは、左側周波数信号をダウンミックス部12及びPS符号化部16へ出力する。同様に、時間周波数変換部11bは、右側周波数信号をダウンミックス部12及びPS符号化部16へ出力する。
次に、ダウンミックス部12は、左側周波数信号及び右側周波数信号をダウンミックスすることにより、ステレオ信号よりもチャネル数の少ないモノラル周波数信号を生成する(ステップS202)。ダウンミックス部12は、モノラル周波数信号を周波数時間変換部13及びSBR符号化部14へ出力する。
SBR符号化部14は、モノラル周波数信号のうち、高域成分をSBR符号化する(ステップS203)。そしてSBR符号化部14は、複製に利用された低域成分と対応する高域成分の位置関係を表す情報などのSBR符号を多重化部17へ出力する。
また、周波数時間変換部13は、モノラル周波数信号を周波数時間変換することによりモノラル信号に変換する(ステップS204)。そして周波数時間変換部13は、モノラル信号をAAC符号化部15へ出力する。
AAC符号化部15は、モノラル信号のうち、SBR符号化部14によりSBR符号化されない低域成分をAAC符号化する(ステップS205)。そしてAAC符号化部15は、AAC符号を多重化部17へ出力する。
また、PS符号化部16は、左側周波数信号及び右側周波数信号から空間情報を算出する。そしてPS符号化部16は、算出された空間情報をPS符号化する(ステップS206)。そしてPS符号化部16は、PS符号を多重化部17へ出力する。
最後に、多重化部17は、生成されたSBR符号、AAC符号及びPS符号を多重化することにより、符号化されたステレオ信号を生成する(ステップS207)。
多重化部17は、符号化されたステレオ信号を出力する。そしてオーディオ符号化装置1は、符号化処理を終了する。
なお、オーディオ符号化装置1は、ステップS202〜S205の処理とステップS206の処理を並列に実行してもよい。あるいは、オーディオ符号化装置1は、ステップS202〜S205の処理を行う前にステップS206の処理を実行してもよい。
図10(a)は、鉄琴の音を録音したオリジナルのステレオ信号の波形の一例を示す図である。また図10(b)は、従来技術のパラメトリックステレオ符号化方式により、固定ビットレート32kbpsで符号化されたステレオ信号を再生した波形の一例を示す図である。そして図10(c)は、本実施形態に係るオーディオ符号化装置1により、固定ビットレート32kbpsで符号化されたステレオ信号を再生した波形の一例を示す図である。
図10(a)〜図10(c)において、横軸は時間を表し、縦軸は振幅を表す。また、図10(a)において、上側の波形1010は、オリジナルの左側ステレオ信号の波形であり、下側の波形1020は、オリジナルの右側ステレオ信号の波形である。また図10(b)において、上側の波形1110は、従来技術のパラメトリックステレオ符号化方式により符号化されたステレオ信号を再生した左側ステレオ信号の波形である。一方、下側の波形1120は、従来技術のパラメトリックステレオ符号化方式により符号化されたステレオ信号を再生した右側ステレオ信号の波形である。さらに、図10(c)において、上側の波形1210は、オーディオ符号化装置1により符号化されたステレオ信号を再生した左側ステレオ信号の波形である。一方、下側の波形1220は、オーディオ符号化装置1により符号化されたステレオ信号を再生した右側ステレオ信号の波形である。
図10(a)では、波形1010及び1020は時間的に連続してある程度の振幅を有している。すなわち、オリジナルのステレオ信号は、連続的な音である。しかし、図10(b)では、時間帯1130において、波形1110及び1120は、振幅がほぼ0になっている。すなわち、時間帯1130において音が途切れてしまう。このように、従来技術のパラメトリックステレオ符号化方式により符号化されたステレオ信号では、一部のデータが失われてしまっている。
これに対し、図10(c)では、波形1210及び1220は、波形1010及び1020と同様に、時間的に連続してある程度の振幅を有している。このように、オーディオ符号化装置1により符号化されたステレオ信号を復号することにより、オリジナルのステレオ信号を良好に再現できることが分かる。
以上に説明してきたように、このオーディオ符号化装置は、空間情報が小さく、人の聴覚的に重要でない周波数帯域の空間情報を周波数方向に平滑化することにより、PS符号のビットレートを低減する。そのため、このオーディオ符号化装置は、AAC符号及びSBR符号に割当可能なビットレートを増やすことができる。したがって、このオーディオ符号化装置は、再生されるステレオ信号の音質を劣化させることなく、ステレオ信号の符号化データ量を削減することができる。
なお、本発明は上記の実施形態に限定されるものではない。他の実施形態によれば、オーディオ符号化装置は、モノラル周波数信号を他の符号化方式に従って符号化してもよい。例えば、オーディオ符号化装置は、モノラル周波数信号全体をAAC符号化方式にしたがって符号化してもよい。この場合、図1に示されたオーディオ符号化装置において、SBR符号化部は省略される。
また、重要度に対する閾値Thwの値は固定されてもよい。この場合、補正幅制御部は省略される。そして、類似度量子化部は類似度符号を直接PS符号生成部へ出力する。同様に、強度差量子化部も強度差符号を直接PS符号生成部へ出力する。
さらに他の実施形態によれば、PS符号化部の重要度算出部は、重要度を求めるために、着目するフレームよりも前のフレームについての類似度符号及び強度差符号のデータ量に基づいて、着目するフレームの類似度及び強度差に対する重み係数を変更してもよい。
図11は、他の実施形態に係るオーディオ符号化装置の概略構成図である。図11に示されるオーディオ符号化装置2の各構成要素には、図1に示されたオーディオ符号化装置1の対応する構成要素と同一の参照番号を付した。オーディオ符号化装置2は、オーディオ符号化装置1と比較して、重要度を算出するために使用される重み係数を決定するためのバッファ31及び重み決定部32を有する点で異なる。そこで、以下では、重要度算出に関連する各部について説明する。オーディオ符号化装置2のその他の点については、上述したオーディオ符号化装置1の説明を参照されたい。
バッファ31は、補正幅制御部27が各フレームについて類似度符号及び強度差符号を出力する度に、その類似度符号のビットレートBRICCi及び強度差符号のビットレートBRIIDiを受け取る。ただし、iはフレーム番号である。そしてバッファ31は、類似度符号のビットレート及び強度差符号のビットレートを記憶する。
重み決定部32は、上記の(6)式において重要度を算出するために使用される重み係数α、βを、過去のフレームに対して算出された類似度符号のビットレート及び強度差符号のビットレートに基づいて決定する。そこで重み決定部32は、現在のフレームに対する左右の周波数信号が入力されたことを空間情報抽出部21から通知されると、バッファ31から、PS符号化対象である現在のフレームtよりも一つ前のフレーム(t-1)に対して算出された類似度符号のビットレートBRICCt-1及び強度差符号のビットレートBRIIDt-1をバッファ31から読み出す。
一般に、空間情報の性質は、時間的に緩やかに変化する。そのため、過去の空間情報と現在の空間情報にはある程度相関があると想定される。そこで、現在のフレームよりも一つ前のフレームにおける類似度符号のデータ量が強度差符号のデータ量よりも多ければ、現在のフレームにおいて強度差より類似度の方が聴覚的に重要である可能性が高い。逆に、現在のフレームよりも一つ前のフレームにおける類似度符号のデータ量が強度差符号のデータ量よりも少なければ、現在のフレームにおいて類似度より強度差の方が聴覚的に重要である可能性が高い。
そこで、重み決定部32は、類似度と強度差のうち、一つ前のフレームにおいて符号化後のデータ量が多い方の重み係数を他方の重み係数よりも大きくする。
例えば、類似度符号のビットレートBRICCt-1が強度差符号のビットレートBRIIDt-1よりも大きい場合、重み決定部32は、類似度に対する重み係数である類似度重みαを1よりも大きな値、例えば1.2とし、強度差に対する重み係数である強度差重みβを1よりも小さな値、例えば0.8とする。
逆に、類似度符号のビットレートBRICCt-1が強度差符号のビットレートBRIIDt-1よりも小さい場合、重み決定部32は、類似度重みαを1よりも小さな値、例えば0.8とし、強度差重みβを1よりも大きな値、例えば1.2とする。
また、類似度符号のビットレートBRICCt-1が強度差符号のビットレートBRIIDt-1と等しい場合、重み決定部32は、類似度重みα、強度差重みβとも1とする。
なお、重み決定部32は、類似度符号のビットレートBRICCt-1と強度差符号のビットレートBRIIDt-1との差が大きくなるほど、類似度重みαと強度差重みβの差も大きくなるように、類似度重みαと強度差重みβを決定してもよい。ただし、重要度w(k)の値を正規化するため、αとβの合計は、常に一定の値、例えば2となることが好ましい。
重み決定部32は、類似度重みα及び強度差重みβを重要度算出部22へ出力する。
重要度算出部22は、重み決定部32から受け取った類似度重みα及び強度差重みβを(6)式に代入することにより、各周波数に対する重要度w(k)を算出する。
このように、オーディオ符号化装置2は、重要度を算出する際、類似度と強度差のうち、過去のフレームにおいて符号化されたデータ量が多い方に対する重み係数を他方よりも大きくする。これにより、類似度重みが大きくなるほど重要度に対する類似度の寄与が大きくなり、かつ強度差重みが大きくなるほど重要度に対する強度差の寄与が大きくなる。そのため、オーディオ符号化装置2は、聴覚的な重要度をより適切に評価できるので、平滑化される空間情報の周波数帯域をより適切に設定できる。したがって、オーディオ符号化装置2は、ステレオ信号を符号化することによる音質の劣化度合いをより低減できる。
さらに、上記の各実施形態において、PS符号化部は、重要度が所定の閾値未満となる周波数における類似度あるいは強度差の何れか一方のみを平滑化してもよい。
また、上記の各実施形態において、補正幅制御部は、SBR符号とAAC符号の合計ビットレートと最大転送ビットレートの差を、類似度符号と強度差符号の合計ビットレートに対する上限値としてもよい。この場合、オーディオ符号化装置は、同一フレームのステレオ信号に対して、SBR符号化部によるSBR符号化処理及びAAC符号化部によるAAC符号化処理を先に実行する。そして補正幅制御部は、SBR符号化部からSBR符号のビットレートを通知されるとともに、AAC符号化部からAAC符号のビットレートを通知された後、上限値を決定する。
あるいは、補正幅制御部は、同一フレームのSBR符号とAAC符号の合計ビットレートを用いる代わりに、一つ前のフレームのSBR符号とAAC符号の合計ビットレートを用いて上限値を決定してもよい。
また、符号化の対象となるオーディオ信号は、ステレオ信号に限られない。例えば、符号化の対象となるオーディオ信号は、3.1chまたは5.1chなど、複数のチャネルを持つオーディオ信号であってもよい。この場合も、オーディオ符号化装置は、各チャネルのオーディオ信号を時間周波数変換することにより、各チャネルの周波数信号を算出する。そしてオーディオ符号化装置は、各チャネルの周波数信号をダウンミックスすることにより、元のオーディオ信号よりもチャネル数が少ない周波数信号を生成する。その後、オーディオ符号化装置は、そのダウンミックスされた周波数信号を、例えば、AAC符号化方式及びSBR符号化方式に従って符号化する。一方、オーディオ符号化装置は、各チャネル間の類似度及び強度差を空間情報としてそれぞれ算出し、それら空間情報の重要度を上記と同様に算出する。そしてオーディオ符号化装置は、上記の実施形態と同様に、重要度が所定の閾値よりも低い周波数に対する空間情報を、周波数方向に平滑化した後、その空間情報をPS符号化する。
また、上記の実施形態におけるオーディオ符号化装置は、コンピュータ、ビデオ信号の録画機または映像伝送装置など、オーディオ信号を伝送または記録するために利用される各種の機器に実装される。
図12は、上記の何れかの実施形態に係るオーディオ符号化装置が組み込まれた映像伝送装置の概略構成図である。映像伝送装置100は、映像取得部101と、音声取得部102と、映像符号化部103と、音声符号化部104と、多重化部105と、通信処理部106と、出力部107とを有する。
映像取得部101は、動画像信号をビデオカメラなどの他の装置から取得するためのインターフェース回路を有する。そして映像取得部101は、映像伝送装置100に入力された動画像信号を映像符号化部103へ渡す。
音声取得部102は、ステレオ音声信号をマイクロフォンなどの他の装置から取得するためのインターフェース回路を有する。そして音声取得部102は、映像伝送装置100に入力されたステレオ音声信号を音声符号化部104へ渡す。
映像符号化部103は、動画像信号のデータ量を圧縮するために、動画像信号を符号化する。そのために、映像符号化部103は、例えば、MPEG-2、MPEG-4、H.264 MPEG-4 Advanced Video Coding(H.264 MPEG-4 AVC)などの動画像符号化規格に従って動画像信号を符号化する。そして映像符号化部103は、符号化動画像データを多重化部105へ出力する。
音声符号化部104は、上記の何れかの実施形態のオーディオ符号化装置を有する。そして音声符号化部104は、ステレオ音声信号からモノラル信号と空間情報を生成する。音声符号化部104は、そのモノラル信号をAAC符号化処理及びSBR符号化処理によって符号化する。また音声符号化部104は、空間情報をPS符号化処理によって符号化する。音声符号化部104は、生成されたAAC符号、SBR符号及びPS符号を多重化することにより、符号化オーディオデータを生成する。そして音声符号化部104は、符号化オーディオデータを多重化部105へ出力する。
多重化部105は、符号化動画像データと符号化オーディオデータを多重化する。そして多重化部105は、MPEG-2トランスポートストリームなどの映像データの伝送用の所定の形式に従ったストリームを作成する。
多重化部105は、符号化動画像データと符号化オーディオデータが多重化されたストリームを通信処理部106へ出力する。
通信処理部106は、符号化動画像データと符号化オーディオデータが多重化されたストリームを、TCP/IPなどの所定の通信規格にしたがったパケットに分割する。また通信処理部106は、各パケットに、宛先情報などが格納された所定のヘッダを付す。そして通信処理部106は、パケットを出力部107へ渡す。
出力部107は、映像伝送装置100を通信回線に接続するためのインターフェース回路を有する。そして出力部107は、通信処理部106から受け取ったパケットを通信回線へ出力する。
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
第1のチャネル数を持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換する時間周波数変換部と、
前記各チャネルの周波数信号をダウンミックスすることにより、前記第1のチャネル数よりも少ない第2のチャネル数を持つオーディオ周波数信号を生成するダウンミックス部と、
前記オーディオ周波数信号を符号化することにより、低チャネルオーディオ符号を生成する低チャネル符号部と、
前記各チャネルの周波数信号から、音の空間的な情報を表す空間情報を抽出する空間情報抽出部と、
前記空間情報に基づいて、前記空間情報が人の聴覚に対する影響の度合いを表す重要度を周波数ごとに算出する重要度算出部と、
前記重要度が所定の閾値よりも小さい周波数について、前記空間情報を周波数方向に平滑化するように、前記空間情報を補正する空間情報補正部と、
前記補正された空間情報を、周波数方向に差分することにより得られた差分空間情報を符号化することにより、空間情報符号を生成する空間情報符号化部と、
前記低チャネルオーディオ符号と前記空間情報符号を多重化することにより、符号化されたオーディオ信号を生成する多重化部と、
を有するオーディオ符号化装置。
(付記2)
前記空間情報符号化部により生成された前記空間情報符号のデータ量が、あらかじめ決められた上限値よりも多い場合、前記所定の閾値を高く修正する補正幅制御部をさらに有し、
前記空間情報補正部は、前記修正された所定の閾値よりも前記重要度が小さい周波数について、前記空間情報を周波数方向に平滑化するように、前記空間情報を再補正し、
前記空間情報符号化部は、前記再補正された空間情報に基づいて前記空間情報符号を再生成し、
前記多重化部は、前記低チャネルオーディオ符号と前記再生成された空間情報符号を多重化することにより、前記符号化されたオーディオ信号を生成する、付記1に記載のオーディオ符号化装置。
(付記3)
前記補正幅制御部は、前記低チャネルオーディオ符号のデータ量を予め設定された最大転送データ量から減算することにより、前記上限値を決定する、付記2に記載のオーディオ符号化装置。
(付記4)
前記補正幅制御部は、前記空間情報符号化部により生成された前記空間情報符号のデータ量が所定の下限値よりも少ない場合、前記所定の閾値を低く修正し、
前記空間情報補正部は、前記修正された所定の閾値よりも前記重要度が小さい周波数について、前記空間情報を周波数方向に平滑化するように、前記空間情報を再補正し、
前記空間情報符号化部は、前記再補正された空間情報に基づいて前記空間情報符号を再生成し、
前記多重化部は、前記低チャネルオーディオ符号と前記再生成された空間情報符号を多重化することにより、前記符号化されたオーディオ信号を生成する、付記2または3に記載のオーディオ符号化装置。
(付記5)
前記空間情報抽出部は、前記各チャネルの周波数信号間の類似度及び強度差を前記空間情報として抽出し、
前記空間情報補正部は、前記重要度が所定の閾値よりも小さい周波数について、前記類似度または前記強度差の少なくとも何れか一方を周波数方向に平滑化し、
前記空間情報符号化部は、前記補正された類似度及び強度差を、それぞれ周波数方向に差分することにより得られた差分類似度及び差分強度差を符号化することにより、前記空間情報符号を生成する、付記1〜4の何れか一項に記載のオーディオ符号化装置。
(付記6)
第1のフレームについて算出された差分類似度の符号データ量である類似度符号量と、差分強度差の符号データ量である強度差符号量を記憶する記憶部と、
前記類似度符号量が前記強度差符号量よりも多い場合、前記類似度に対する重み係数である類似度重みを、前記強度差に対する重み係数である強度差重みよりも大きく設定し、一方、前記類似度符号量が前記強度差符号量よりも少ない場合、前記類似度重みを、前記強度差重みよりも小さく設定する重み決定部をさらに有し、
前記重要度算出部は、前記第1のフレームよりも後の第2のフレームに対する重要度を、前記類似度重みが大きくなるほど前記重要度に対する前記第2のフレームおいて算出された前記類似度の寄与が大きくなり、かつ前記強度差重みが大きくなるほど前記重要度に対する前記第2のフレームおいて算出された前記強度差の寄与が大きくなるように決定する、付記5に記載のオーディオ符号化装置。
(付記7)
第1のチャネル数を持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換し、
前記各チャネルの周波数信号をダウンミックスすることにより、前記第1のチャネル数よりも少ない第2のチャネル数を持つオーディオ周波数信号を生成し、
前記オーディオ周波数信号を符号化することにより、低チャネルオーディオ符号を生成し、
前記各チャネルの周波数信号から、音の空間的な情報を表す空間情報を抽出し、
前記空間情報に基づいて、前記空間情報が人の聴覚に対する影響の度合いを表す重要度を周波数ごとに算出し、
前記重要度が所定の閾値よりも小さい周波数について、前記空間情報を周波数方向に平滑化するように、前記空間情報を補正し、
前記補正された空間情報を、周波数方向に差分することにより得られた差分空間情報を符号化することにより、空間情報符号を生成し、
前記低チャネルオーディオ符号と前記空間情報符号を多重化することにより、符号化されたオーディオ信号を生成する、
ことを含むオーディオ符号化方法。
(付記8)
第1のチャネル数を持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換し、
前記各チャネルの周波数信号をダウンミックスすることにより、前記第1のチャネル数よりも少ない第2のチャネル数を持つオーディオ周波数信号を生成し、
前記オーディオ周波数信号を符号化することにより、低チャネルオーディオ符号を生成し、
前記各チャネルの周波数信号から、音の空間的な情報を表す空間情報を抽出し、
前記空間情報に基づいて、前記空間情報が人の聴覚に対する影響の度合いを表す重要度を周波数ごとに算出し、
前記重要度が所定の閾値よりも小さい周波数について、前記空間情報を周波数方向に平滑化するように、前記空間情報を補正し、
前記補正された空間情報を、周波数方向に差分することにより得られた差分空間情報を符号化することにより、空間情報符号を生成し、
前記低チャネルオーディオ符号と前記空間情報符号を多重化することにより、符号化されたオーディオ信号を生成する、
ことをコンピュータに実行させるオーディオ符号化用コンピュータプログラム。
(付記9)
入力された動画像信号を符号化する動画像符号化部と、
入力された第1のチャネル数を持つオーディオ信号を符号化するオーディオ符号化部であって、
前記オーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換し、
前記各チャネルの周波数信号をダウンミックスすることにより、前記第1のチャネル数よりも少ない第2のチャネル数を持つオーディオ周波数信号を生成し、
前記オーディオ周波数信号を符号化することにより、低チャネルオーディオ符号を生成し、
前記各チャネルの周波数信号から、音の空間的な情報を表す空間情報を抽出し、
前記空間情報に基づいて、前記空間情報が人の聴覚に対する影響の度合いを表す重要度を周波数ごとに算出し、
前記重要度が所定の閾値よりも小さい周波数について、前記空間情報を周波数方向に平滑化するように、前記空間情報を補正し、
前記補正された空間情報を周波数方向に差分することにより得られた差分空間情報を符号化することにより、空間情報符号を生成し、
前記低チャネルオーディオ符号と前記空間情報符号を多重化することにより、符号化されたオーディオ信号を生成する、オーディオ符号化部と、
前記動画像符号化部により符号化された動画像信号と前記オーディオ符号化部により符号化されたオーディオ信号を多重化することにより映像ストリームを生成する多重化部と、
を有する映像伝送装置。
1、2 オーディオ符号化装置
11a、11b 時間周波数変換部
12 ダウンミックス部
13 周波数時間変換部
14 SBR符号化部
15 AAC符号化部
16 PS符号化部
17 多重化部
21 空間情報抽出部
22 重要度算出部
23 類似度補正部
24 強度差補正部
25 類似度量子化部
26 強度差量子化部
27 補正幅制御部
28 PS符号生成部
31 バッファ
32 重み決定部
100 映像伝送装置
101 映像取得部
102 音声取得部
103 映像符号化部
104 音声符号化部
105 多重化部
106 通信処理部
107 出力部

Claims (8)

  1. 第1のチャネル数を持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換する時間周波数変換部と、
    前記各チャネルの周波数信号をダウンミックスすることにより、前記第1のチャネル数よりも少ない第2のチャネル数を持つオーディオ周波数信号を生成するダウンミックス部と、
    前記オーディオ周波数信号を符号化することにより、低チャネルオーディオ符号を生成する低チャネル符号部と、
    前記各チャネルの周波数信号から、音の空間的な情報を表す空間情報を抽出する空間情報抽出部と、
    前記空間情報に基づいて、前記空間情報が人の聴覚に対する影響の度合いを表す重要度を周波数ごとに算出する重要度算出部と、
    前記重要度が所定の閾値よりも小さい周波数について、前記空間情報を周波数方向に平滑化するように、前記空間情報を補正する空間情報補正部と、
    前記補正された空間情報を、周波数方向に差分することにより得られた差分空間情報を符号化することにより、空間情報符号を生成する空間情報符号化部と、
    前記低チャネルオーディオ符号と前記空間情報符号を多重化することにより、符号化されたオーディオ信号を生成する多重化部と、
    を有するオーディオ符号化装置。
  2. 前記空間情報符号化部により生成された前記空間情報符号のデータ量が、あらかじめ決められた上限値よりも多い場合、前記所定の閾値を高く修正する補正幅制御部をさらに有し、
    前記空間情報補正部は、前記修正された所定の閾値よりも前記重要度が小さい周波数について、前記空間情報を周波数方向に平滑化するように、前記空間情報を再補正し、
    前記空間情報符号化部は、前記再補正された空間情報に基づいて前記空間情報符号を再生成し、
    前記多重化部は、前記低チャネルオーディオ符号と前記再生成された空間情報符号を多重化することにより、前記符号化されたオーディオ信号を生成する、請求項1に記載のオーディオ符号化装置。
  3. 前記補正幅制御部は、前記空間情報符号化部により生成された前記空間情報符号のデータ量が所定の下限値よりも少ない場合、前記所定の閾値を低く修正し、
    前記空間情報補正部は、前記修正された所定の閾値よりも前記重要度が小さい周波数について、前記空間情報を周波数方向に平滑化するように、前記空間情報を再補正し、
    前記空間情報符号化部は、前記再補正された空間情報に基づいて前記空間情報符号を再生成し、
    前記多重化部は、前記低チャネルオーディオ符号と前記再生成された空間情報符号を多重化することにより、前記符号化されたオーディオ信号を生成する、請求項2に記載のオーディオ符号化装置。
  4. 前記空間情報抽出部は、前記各チャネルの周波数信号間の類似度及び強度差を前記空間情報として抽出し、
    前記空間情報補正部は、前記重要度が所定の閾値よりも小さい周波数について、前記類似度または前記強度差の少なくとも何れか一方を周波数方向に平滑化し、
    前記空間情報符号化部は、前記補正された類似度及び強度差を、それぞれ周波数方向に差分することにより得られた差分類似度及び差分強度差を符号化することにより、前記空間情報符号を生成する、請求項1〜3の何れか一項に記載のオーディオ符号化装置。
  5. 第1のフレームについて算出された差分類似度の符号データ量である類似度符号量と、差分強度差の符号データ量である強度差符号量を記憶する記憶部と、
    前記類似度符号量が前記強度差符号量よりも多い場合、前記類似度に対する重み係数である類似度重みを、前記強度差に対する重み係数である強度差重みよりも大きく設定し、一方、前記類似度符号量が前記強度差符号量よりも少ない場合、前記類似度重みを、前記強度差重みよりも小さく設定する重み決定部をさらに有し、
    前記重要度算出部は、前記第1のフレームよりも後の第2のフレームに対する重要度を、前記類似度重みが大きくなるほど前記重要度に対する前記第2のフレームおいて算出された前記類似度の寄与が大きくなり、かつ前記強度差重みが大きくなるほど前記重要度に対する前記第2のフレームおいて算出された前記強度差の寄与が大きくなるように決定する、請求項4に記載のオーディオ符号化装置。
  6. 第1のチャネル数を持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換し、
    前記各チャネルの周波数信号をダウンミックスすることにより、前記第1のチャネル数よりも少ない第2のチャネル数を持つオーディオ周波数信号を生成し、
    前記オーディオ周波数信号を符号化することにより、低チャネルオーディオ符号を生成し、
    前記各チャネルの周波数信号から、音の空間的な情報を表す空間情報を抽出し、
    前記空間情報に基づいて、前記空間情報が人の聴覚に対する影響の度合いを表す重要度を周波数ごとに算出し、
    前記重要度が所定の閾値よりも小さい周波数について、前記空間情報を周波数方向に平滑化するように、前記空間情報を補正し、
    前記補正された空間情報を、周波数方向に差分することにより得られた差分空間情報を符号化することにより、空間情報符号を生成し、
    前記低チャネルオーディオ符号と前記空間情報符号を多重化することにより、符号化されたオーディオ信号を生成する、
    ことを含むオーディオ符号化方法。
  7. 第1のチャネル数を持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換し、
    前記各チャネルの周波数信号をダウンミックスすることにより、前記第1のチャネル数よりも少ない第2のチャネル数を持つオーディオ周波数信号を生成し、
    前記オーディオ周波数信号を符号化することにより、低チャネルオーディオ符号を生成し、
    前記各チャネルの周波数信号から、音の空間的な情報を表す空間情報を抽出し、
    前記空間情報に基づいて、前記空間情報が人の聴覚に対する影響の度合いを表す重要度を周波数ごとに算出し、
    前記重要度が所定の閾値よりも小さい周波数について、前記空間情報を周波数方向に平滑化するように、前記空間情報を補正し、
    前記補正された空間情報を、周波数方向に差分することにより得られた差分空間情報を符号化することにより、空間情報符号を生成し、
    前記低チャネルオーディオ符号と前記空間情報符号を多重化することにより、符号化されたオーディオ信号を生成する、
    ことをコンピュータに実行させるオーディオ符号化用コンピュータプログラム。
  8. 入力された動画像信号を符号化する動画像符号化部と、
    入力された第1のチャネル数を持つオーディオ信号を符号化するオーディオ符号化部であって、
    前記オーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換し、
    前記各チャネルの周波数信号をダウンミックスすることにより、前記第1のチャネル数よりも少ない第2のチャネル数を持つオーディオ周波数信号を生成し、
    前記オーディオ周波数信号を符号化することにより、低チャネルオーディオ符号を生成し、
    前記各チャネルの周波数信号から、音の空間的な情報を表す空間情報を抽出し、
    前記空間情報に基づいて、前記空間情報が人の聴覚に対する影響の度合いを表す重要度を周波数ごとに算出し、
    前記重要度が所定の閾値よりも小さい周波数について、前記空間情報を周波数方向に平滑化するように、前記空間情報を補正し、
    前記補正された空間情報を周波数方向に差分することにより得られた差分空間情報を符号化することにより、空間情報符号を生成し、
    前記低チャネルオーディオ符号と前記空間情報符号を多重化することにより、符号化されたオーディオ信号を生成する、オーディオ符号化部と、
    前記動画像符号化部により符号化された動画像信号と前記オーディオ符号化部により符号化されたオーディオ信号を多重化することにより映像ストリームを生成する多重化部と、
    を有する映像伝送装置。
JP2009158991A 2009-07-03 2009-07-03 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置 Expired - Fee Related JP5267362B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009158991A JP5267362B2 (ja) 2009-07-03 2009-07-03 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置
US12/829,650 US8818539B2 (en) 2009-07-03 2010-07-02 Audio encoding device, audio encoding method, and video transmission device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009158991A JP5267362B2 (ja) 2009-07-03 2009-07-03 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置

Publications (2)

Publication Number Publication Date
JP2011013560A JP2011013560A (ja) 2011-01-20
JP5267362B2 true JP5267362B2 (ja) 2013-08-21

Family

ID=43412657

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009158991A Expired - Fee Related JP5267362B2 (ja) 2009-07-03 2009-07-03 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置

Country Status (2)

Country Link
US (1) US8818539B2 (ja)
JP (1) JP5267362B2 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8639605B2 (en) * 2006-04-21 2014-01-28 Thomson Reuters Global Resources Systems and methods for the identification and messaging of trading parties
CA2827266C (en) * 2011-02-14 2017-02-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result
ES2529025T3 (es) 2011-02-14 2015-02-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para procesar una señal de audio decodificada en un dominio espectral
MX2013009346A (es) 2011-02-14 2013-10-01 Fraunhofer Ges Forschung Prediccion lineal basada en esquema de codificacion utilizando conformacion de ruido de dominio espectral.
MX2013009345A (es) 2011-02-14 2013-10-01 Fraunhofer Ges Forschung Codificacion y decodificacion de posiciones de los pulsos de las pistas de una señal de audio.
CN104203824B (zh) 2011-11-25 2017-10-17 UniZeo株式会社 沸石及所述沸石的制造方法以及石蜡的接触分解催化剂
KR20130093783A (ko) * 2011-12-30 2013-08-23 한국전자통신연구원 오디오 객체 전송 장치 및 방법
KR101662681B1 (ko) * 2012-04-05 2016-10-05 후아웨이 테크놀러지 컴퍼니 리미티드 멀티채널 오디오 인코더 및 멀티채널 오디오 신호 인코딩 방법
JP6250071B2 (ja) * 2013-02-21 2017-12-20 ドルビー・インターナショナル・アーベー パラメトリック・マルチチャネル・エンコードのための方法
CN105103230B (zh) * 2013-04-11 2020-01-03 日本电气株式会社 信号处理装置、信号处理方法、信号处理程序
US9437236B2 (en) * 2013-11-04 2016-09-06 Michael Hugh Harrington Encoding data
JP6303435B2 (ja) * 2013-11-22 2018-04-04 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化用プログラム、オーディオ復号装置
US9774974B2 (en) 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
WO2016049905A1 (zh) 2014-09-30 2016-04-07 深圳市大疆创新科技有限公司 一种飞行任务处理方法、装置及系统
CN107818790B (zh) * 2017-11-16 2020-08-11 苏州麦迪斯顿医疗科技股份有限公司 一种多路音频混音方法及装置
CN108550369B (zh) * 2018-04-14 2020-08-11 全景声科技南京有限公司 一种可变长度的全景声信号编解码方法
GB2587196A (en) * 2019-09-13 2021-03-24 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
US20220366918A1 (en) * 2019-09-17 2022-11-17 Nokia Technologies Oy Spatial audio parameter encoding and associated decoding
CN112435675B (zh) * 2020-09-30 2024-02-27 福建星网智慧科技有限公司 一种基于fec的音频编码方法、装置、设备和介质
CN117643073A (zh) * 2022-06-30 2024-03-01 北京小米移动软件有限公司 音频信号的编码方法、装置、电子设备和存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003255973A (ja) * 2002-02-28 2003-09-10 Nec Corp 音声帯域拡張システムおよび方法
JP2004325633A (ja) * 2003-04-23 2004-11-18 Matsushita Electric Ind Co Ltd 信号符号化方法、信号符号化プログラム及びその記録媒体
EP1719117A1 (en) * 2004-02-16 2006-11-08 Koninklijke Philips Electronics N.V. A transcoder and method of transcoding therefore
KR101177677B1 (ko) * 2004-10-28 2012-08-27 디티에스 워싱턴, 엘엘씨 오디오 공간 환경 엔진
TWI396188B (zh) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
WO2007040353A1 (en) * 2005-10-05 2007-04-12 Lg Electronics Inc. Method and apparatus for signal processing
JP2007183528A (ja) 2005-12-06 2007-07-19 Fujitsu Ltd 符号化装置、符号化方法、および符号化プログラム
US7734053B2 (en) * 2005-12-06 2010-06-08 Fujitsu Limited Encoding apparatus, encoding method, and computer product
EP1994796A1 (en) * 2006-03-15 2008-11-26 Dolby Laboratories Licensing Corporation Binaural rendering using subband filters
JP4918841B2 (ja) * 2006-10-23 2012-04-18 富士通株式会社 符号化システム
JP4984983B2 (ja) 2007-03-09 2012-07-25 富士通株式会社 符号化装置および符号化方法
JP5219499B2 (ja) * 2007-08-01 2013-06-26 三洋電機株式会社 風雑音低減装置

Also Published As

Publication number Publication date
US20110002393A1 (en) 2011-01-06
JP2011013560A (ja) 2011-01-20
US8818539B2 (en) 2014-08-26

Similar Documents

Publication Publication Date Title
JP5267362B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置
JP5485909B2 (ja) オーディオ信号処理方法及び装置
JP5539203B2 (ja) 改良された音声及びオーディオ信号の変換符号化
JP6704037B2 (ja) 音声符号化装置および方法
JP5737077B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
KR102200643B1 (ko) 음성 음향 부호화 장치, 음성 음향 복호 장치, 음성 음향 부호화 방법 및 음성 음향 복호 방법
JP5533502B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
JP5326465B2 (ja) オーディオ復号方法、装置、及びプログラム
JPWO2006003891A1 (ja) 音声信号復号化装置及び音声信号符号化装置
WO2006041055A1 (ja) スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法
US20190198033A1 (en) Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
WO2010016270A1 (ja) 量子化装置、符号化装置、量子化方法及び符号化方法
JP5609591B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
EP3550563B1 (en) Encoder, decoder, encoding method, decoding method, and associated programs
KR20160120713A (ko) 복호 장치, 부호화 장치, 복호 방법, 부호화 방법, 단말 장치, 및 기지국 장치
EP2264698A1 (en) Stereo signal converter, stereo signal reverse converter, and methods for both
US11176954B2 (en) Encoding and decoding of multichannel or stereo audio signals
KR101259120B1 (ko) 오디오 신호 처리 방법 및 장치
EP3252763A1 (en) Low-delay audio coding

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130313

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130409

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130422

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5267362

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees