JP2011013560A - オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置 - Google Patents
オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置 Download PDFInfo
- Publication number
- JP2011013560A JP2011013560A JP2009158991A JP2009158991A JP2011013560A JP 2011013560 A JP2011013560 A JP 2011013560A JP 2009158991 A JP2009158991 A JP 2009158991A JP 2009158991 A JP2009158991 A JP 2009158991A JP 2011013560 A JP2011013560 A JP 2011013560A
- Authority
- JP
- Japan
- Prior art keywords
- spatial information
- frequency
- code
- audio
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000005540 biological transmission Effects 0.000 title claims description 17
- 238000004590 computer program Methods 0.000 title claims description 9
- 230000005236 sound signal Effects 0.000 claims abstract description 55
- 239000000284 extract Substances 0.000 claims abstract description 8
- 238000012937 correction Methods 0.000 claims description 99
- 238000003079 width control Methods 0.000 claims description 41
- 238000006243 chemical reaction Methods 0.000 claims description 38
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 15
- 230000000593 degrading effect Effects 0.000 abstract 1
- 230000000694 effects Effects 0.000 abstract 1
- 238000013139 quantization Methods 0.000 description 57
- 238000010586 diagram Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 10
- 238000009499 grossing Methods 0.000 description 7
- 230000002542 deteriorative effect Effects 0.000 description 3
- 230000010076 replication Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
【解決手段】オーディオ符号化装置1は、第1のチャネル数を持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、各チャネルの信号をそれぞれ周波数信号に変換し、各チャネルの周波数信号から音の空間的な情報を表す空間情報を抽出し、空間情報が人の聴覚に与える影響の度合いを表す重要度を周波数ごとに算出し、重要度が所定の閾値よりも小さい周波数について、空間情報を周波数方向に平滑化するように空間情報を補正し、補正された空間情報を周波数方向に差分することにより得られた差分空間情報を符号化することにより、空間情報符号を生成する。
【選択図】図1
Description
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
このオーディオ符号化装置は、パラメトリックステレオ符号化方式に従って、ステレオ信号を符号化する。その際、このオーディオ符号化装置は、人の聴覚的に重要でない周波数帯域の空間情報を周波数方向に平滑化することにより、ステレオ信号の符号化データ量を削減する。
本実施形態では、時間周波数変換部11aは、次式のQuadrature Mirror Filter(QMF)フィルタバンクを用いて、左側ステレオ信号L[n]を左側周波数信号L[k][n]に変換する。同様に、時間周波数変換部11bは、QMFフィルタバンクを用いて、右側ステレオ信号R[n]を右側周波数信号R[k][n]に変換する。
なお、時間周波数変換部11a、11bは、高速フーリエ変換、離散コサイン変換、修正離散コサイン変換など、他の時間周波数変換処理を用いて、左側ステレオ信号及び右側ステレオ信号を、それぞれ、左側周波数信号及び右側周波数信号に変換してもよい。
ダウンミックス部12は、モノラル周波数信号を生成する度に、そのモノラル周波数信号を周波数時間変換部13及びSBR符号化部14へ出力する。
周波数時間変換部13は、モノラル周波数信号M[k][n]を周波数時間変換することにより得られたモノラル信号Mt[n]をAAC符号化部15へ出力する。
例えば、SBR符号化部14は、特開2008−224902号公報に開示されているように、SBR符号化の対象となる高域成分と強い相関のあるモノラル周波数信号の低域成分を複製する。なお、低域成分は、SBR符号化部14が符号化対象とする高域成分が含まれる高周波数帯域よりも低い低周波数帯域に含まれるモノラル周波数信号の成分であり、後述するAAC符号化部15により符号化される。そしてSBR符号化部14は、複製された高域成分の電力を、元の高域成分の電力と一致するように調整する。またSBR符号化部14は、元の高域成分のうち、低域成分との差異が大きく、低域成分を複写しても、高域成分を近似できない成分を補助情報とする。そしてSBR符号化部14は、複製に利用された低域成分と対応する高域成分の位置関係を表す情報と、電力調整量と補助情報を量子化することにより符号化する。
SBR符号化部14は、上記の符号化された情報であるSBR符号を多重化部17へ出力する。
そしてAAC符号化部15は、MDCT係数の組を量子化し、その量子化されたMDCT係数の組を可変長符号化する。
AAC符号化部15は、可変長符号化されたMDCT係数の組と、量子化係数など関連する情報を、AAC符号として多重化部17へ出力する。
空間情報抽出部21は、算出した類似度を重要度算出部22及び類似度補正部23へ出力する。また空間情報抽出部21は、算出した強度差を重要度算出部22及び強度差補正部24へ出力する。
例えば、重要度算出部22は、次式にしたがって周波数kに対する重要度w(k)を算出する。
重要度算出部22は、各周波数に対する重要度を類似度補正部23及び強度差補正部24へ出力する。
同様に、強度差補正部24も、重要度が所定の閾値以下の周波数に対する強度差を周波数方向に平滑化することにより、空間情報の符号化データ量を削減することができる。
図2に示されるように、周波数帯域kwにおいて、重要度w(k)は閾値Thwより低くなっている。そこで、類似度補正部24は、周波数帯域kwに含まれる各周波数に対する類似度ICC(k)を周波数方向に平滑化する。このため、周波数帯域kwでは、周波数の変化に対する平滑化された類似度ICC'(k)の変化は、補正前の類似度ICC(k)の変化よりも小さい。
さらに、類似度補正部23は、(8)式の代わりに、次式のような2次以上のローパスフィルタを用いてもよい。
類似度補正部23は、平滑化された類似度を類似度量子化部25へ出力する。
そのために、強度差補正部24は、例えば、上記の(7)〜(9)式の何れかにおいて、類似度ICC(k)を強度差IIC(k)で置換することにより、平滑化された強度差IID’(k)を算出できる。
強度差補正部24は、平滑化された強度差を強度差量子化部26へ出力する。
図4は、インデックスの差分値と類似度符号の関係を示すテーブルの一例を示す図である。この例では、類似度符号はハフマン符号である。図4に示す符号化テーブル400において、左側の列の各欄はインデックスの差分値を表し、右側の列の各欄は、同じ行のインデックスの差分値に対応する類似度符号を表す。例えば、周波数kに対するインデックスの差分値が3である場合、類似度量子化部25は、符号化テーブル400を参照することにより、周波数kに対する類似度符号idxicc(k)を"111110"に設定する。
類似度量子化部25は、各周波数について求めた類似度符号を、補正幅制御部27へ出力する。
なお、量子化テーブル及び符号化テーブルは、予め、強度差量子化部26が有するメモリに格納される。
例えば、周波数kに対する強度差が10.8dBである場合、量子化テーブル500では、インデックス値4に対応する強度差の代表値が、周波数kに対する強度差に最も近い。そこで、強度差量子化部26は、周波数kに対するインデックス値を4に設定する。
強度差量子化部26は、各周波数について求めた強度差符号を、補正幅制御部27へ出力する。
その際、補正幅制御部27は、類似度符号及び強度差符号のそれぞれのビット長を計算し、そのビット長を合計することにより、合計ビットレートを算出する。
あるいは、補正幅制御部27は、あらかじめ類似度符号及び強度差符号のビット長を示したテーブルを参照することで各符号のビット長を求めることにより、合計ビットレートを算出してもよい。
例えば、オーディオ符号化装置1が、HE-AAC ver.2方式に従って48kHzの帯域を有するステレオ信号を32kbpsのビットレートで符号化する場合、上限値は、3〜5kbpsの何れか、例えば、4kbpsに設定される。一方、下限値は、0〜1kbpsの何れか、例えば、0.1kbpsに設定される。
PS符号生成部28は、生成したPS符号を多重化部17へ出力する。
次に、重要度算出部22は、類似度ICC(k)及び強度差IID(k)に基づいて、各周波数に対する重要度w(k)を算出する(ステップS102)。重要度算出部22は、各周波数に対する重要度を類似度補正部23及び強度差補正部24へ出力する。
類似度補正部23は、重要度w(k)が閾値Thw未満となる周波数klの類似度ICC(kl)を周波数方向に平滑化する。同様に、強度差補正部24は、重要度w(k)が閾値Thw未満となる周波数klの強度差IID(kl)を周波数方向に平滑化する(ステップS103)。類似度補正部23は、平滑化された類似度ICC'(k)を類似度量子化部25へ出力する。また強度差補正部24は、平滑化された強度差IID'(k)を強度差量子化部26へ出力する。
PS符号生成部28は、類似度符号idxicc(k)と強度差符号idxiid(k)を所定の順序に従って配列することによりPS符号を生成する(ステップS110)。
PS符号生成部28は、PS符号を多重化部17へ出力する。そしてPS符号化部16は、PS符号生成処理を終了する。
なお、下限値ThBLは0に設定されてもよい。この場合、ステップS108及びS109の処理は省略される。
図8は、符号化されたステレオ信号が格納されたデータ形式の一例を示す図である。この例では、符号化されたステレオ信号は、MPEG-4 ADTS(Audio Data Transport Stream)形式に従って作成される。
図8に示される符号化データ列800において、データブロック810にAAC符号は格納される。またADTS形式のFILLエレメントが格納されるブロック820の一部領域にSBR符号及びPS符号が格納される。特にPS符号は、SBR符号の中のSBR拡張領域830に格納される。
SBR符号化部14は、モノラル周波数信号のうち、高域成分をSBR符号化する(ステップS203)。そしてSBR符号化部14は、複製に利用された低域成分と対応する高域成分の位置関係を表す情報などのSBR符号を多重化部17へ出力する。
AAC符号化部15は、モノラル信号のうち、SBR符号化部14によりSBR符号化されない低域成分をAAC符号化する(ステップS205)。そしてAAC符号化部15は、AAC符号を多重化部17へ出力する。
多重化部17は、符号化されたステレオ信号を出力する。そしてオーディオ符号化装置1は、符号化処理を終了する。
なお、オーディオ符号化装置1は、ステップS202〜S205の処理とステップS206の処理を並列に実行してもよい。あるいは、オーディオ符号化装置1は、ステップS202〜S205の処理を行う前にステップS206の処理を実行してもよい。
図10(a)〜図10(c)において、横軸は時間を表し、縦軸は振幅を表す。また、図10(a)において、上側の波形1010は、オリジナルの左側ステレオ信号の波形であり、下側の波形1020は、オリジナルの右側ステレオ信号の波形である。また図10(b)において、上側の波形1110は、従来技術のパラメトリックステレオ符号化方式により符号化されたステレオ信号を再生した左側ステレオ信号の波形である。一方、下側の波形1120は、従来技術のパラメトリックステレオ符号化方式により符号化されたステレオ信号を再生した右側ステレオ信号の波形である。さらに、図10(c)において、上側の波形1210は、オーディオ符号化装置1により符号化されたステレオ信号を再生した左側ステレオ信号の波形である。一方、下側の波形1220は、オーディオ符号化装置1により符号化されたステレオ信号を再生した右側ステレオ信号の波形である。
これに対し、図10(c)では、波形1210及び1220は、波形1010及び1020と同様に、時間的に連続してある程度の振幅を有している。このように、オーディオ符号化装置1により符号化されたステレオ信号を復号することにより、オリジナルのステレオ信号を良好に再現できることが分かる。
また、重要度に対する閾値Thwの値は固定されてもよい。この場合、補正幅制御部は省略される。そして、類似度量子化部は類似度符号を直接PS符号生成部へ出力する。同様に、強度差量子化部も強度差符号を直接PS符号生成部へ出力する。
そこで、重み決定部32は、類似度と強度差のうち、一つ前のフレームにおいて符号化後のデータ量が多い方の重み係数を他方の重み係数よりも大きくする。
逆に、類似度符号のビットレートBRICCt-1が強度差符号のビットレートBRIIDt-1よりも小さい場合、重み決定部32は、類似度重みαを1よりも小さな値、例えば0.8とし、強度差重みβを1よりも大きな値、例えば1.2とする。
また、類似度符号のビットレートBRICCt-1が強度差符号のビットレートBRIIDt-1と等しい場合、重み決定部32は、類似度重みα、強度差重みβとも1とする。
なお、重み決定部32は、類似度符号のビットレートBRICCt-1と強度差符号のビットレートBRIIDt-1との差が大きくなるほど、類似度重みαと強度差重みβの差も大きくなるように、類似度重みαと強度差重みβを決定してもよい。ただし、重要度w(k)の値を正規化するため、αとβの合計は、常に一定の値、例えば2となることが好ましい。
重み決定部32は、類似度重みα及び強度差重みβを重要度算出部22へ出力する。
このように、オーディオ符号化装置2は、重要度を算出する際、類似度と強度差のうち、過去のフレームにおいて符号化されたデータ量が多い方に対する重み係数を他方よりも大きくする。これにより、類似度重みが大きくなるほど重要度に対する類似度の寄与が大きくなり、かつ強度差重みが大きくなるほど重要度に対する強度差の寄与が大きくなる。そのため、オーディオ符号化装置2は、聴覚的な重要度をより適切に評価できるので、平滑化される空間情報の周波数帯域をより適切に設定できる。したがって、オーディオ符号化装置2は、ステレオ信号を符号化することによる音質の劣化度合いをより低減できる。
あるいは、補正幅制御部は、同一フレームのSBR符号とAAC符号の合計ビットレートを用いる代わりに、一つ前のフレームのSBR符号とAAC符号の合計ビットレートを用いて上限値を決定してもよい。
多重化部105は、符号化動画像データと符号化オーディオデータが多重化されたストリームを通信処理部106へ出力する。
(付記1)
第1のチャネル数を持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換する時間周波数変換部と、
前記各チャネルの周波数信号をダウンミックスすることにより、前記第1のチャネル数よりも少ない第2のチャネル数を持つオーディオ周波数信号を生成するダウンミックス部と、
前記オーディオ周波数信号を符号化することにより、低チャネルオーディオ符号を生成する低チャネル符号部と、
前記各チャネルの周波数信号から、音の空間的な情報を表す空間情報を抽出する空間情報抽出部と、
前記空間情報に基づいて、前記空間情報が人の聴覚に対する影響の度合いを表す重要度を周波数ごとに算出する重要度算出部と、
前記重要度が所定の閾値よりも小さい周波数について、前記空間情報を周波数方向に平滑化するように、前記空間情報を補正する空間情報補正部と、
前記補正された空間情報を、周波数方向に差分することにより得られた差分空間情報を符号化することにより、空間情報符号を生成する空間情報符号化部と、
前記低チャネルオーディオ符号と前記空間情報符号を多重化することにより、符号化されたオーディオ信号を生成する多重化部と、
を有するオーディオ符号化装置。
(付記2)
前記空間情報符号化部により生成された前記空間情報符号のデータ量が、あらかじめ決められた上限値よりも多い場合、前記所定の閾値を高く修正する補正幅制御部をさらに有し、
前記空間情報補正部は、前記修正された所定の閾値よりも前記重要度が小さい周波数について、前記空間情報を周波数方向に平滑化するように、前記空間情報を再補正し、
前記空間情報符号化部は、前記再補正された空間情報に基づいて前記空間情報符号を再生成し、
前記多重化部は、前記低チャネルオーディオ符号と前記再生成された空間情報符号を多重化することにより、前記符号化されたオーディオ信号を生成する、付記1に記載のオーディオ符号化装置。
(付記3)
前記補正幅制御部は、前記低チャネルオーディオ符号のデータ量を予め設定された最大転送データ量から減算することにより、前記上限値を決定する、付記2に記載のオーディオ符号化装置。
(付記4)
前記補正幅制御部は、前記空間情報符号化部により生成された前記空間情報符号のデータ量が所定の下限値よりも少ない場合、前記所定の閾値を低く修正し、
前記空間情報補正部は、前記修正された所定の閾値よりも前記重要度が小さい周波数について、前記空間情報を周波数方向に平滑化するように、前記空間情報を再補正し、
前記空間情報符号化部は、前記再補正された空間情報に基づいて前記空間情報符号を再生成し、
前記多重化部は、前記低チャネルオーディオ符号と前記再生成された空間情報符号を多重化することにより、前記符号化されたオーディオ信号を生成する、付記2または3に記載のオーディオ符号化装置。
(付記5)
前記空間情報抽出部は、前記各チャネルの周波数信号間の類似度及び強度差を前記空間情報として抽出し、
前記空間情報補正部は、前記重要度が所定の閾値よりも小さい周波数について、前記類似度または前記強度差の少なくとも何れか一方を周波数方向に平滑化し、
前記空間情報符号化部は、前記補正された類似度及び強度差を、それぞれ周波数方向に差分することにより得られた差分類似度及び差分強度差を符号化することにより、前記空間情報符号を生成する、付記1〜4の何れか一項に記載のオーディオ符号化装置。
(付記6)
第1のフレームについて算出された差分類似度の符号データ量である類似度符号量と、差分強度差の符号データ量である強度差符号量を記憶する記憶部と、
前記類似度符号量が前記強度差符号量よりも多い場合、前記類似度に対する重み係数である類似度重みを、前記強度差に対する重み係数である強度差重みよりも大きく設定し、一方、前記類似度符号量が前記強度差符号量よりも少ない場合、前記類似度重みを、前記強度差重みよりも小さく設定する重み決定部をさらに有し、
前記重要度算出部は、前記第1のフレームよりも後の第2のフレームに対する重要度を、前記類似度重みが大きくなるほど前記重要度に対する前記第2のフレームおいて算出された前記類似度の寄与が大きくなり、かつ前記強度差重みが大きくなるほど前記重要度に対する前記第2のフレームおいて算出された前記強度差の寄与が大きくなるように決定する、付記5に記載のオーディオ符号化装置。
(付記7)
第1のチャネル数を持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換し、
前記各チャネルの周波数信号をダウンミックスすることにより、前記第1のチャネル数よりも少ない第2のチャネル数を持つオーディオ周波数信号を生成し、
前記オーディオ周波数信号を符号化することにより、低チャネルオーディオ符号を生成し、
前記各チャネルの周波数信号から、音の空間的な情報を表す空間情報を抽出し、
前記空間情報に基づいて、前記空間情報が人の聴覚に対する影響の度合いを表す重要度を周波数ごとに算出し、
前記重要度が所定の閾値よりも小さい周波数について、前記空間情報を周波数方向に平滑化するように、前記空間情報を補正し、
前記補正された空間情報を、周波数方向に差分することにより得られた差分空間情報を符号化することにより、空間情報符号を生成し、
前記低チャネルオーディオ符号と前記空間情報符号を多重化することにより、符号化されたオーディオ信号を生成する、
ことを含むオーディオ符号化方法。
(付記8)
第1のチャネル数を持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換し、
前記各チャネルの周波数信号をダウンミックスすることにより、前記第1のチャネル数よりも少ない第2のチャネル数を持つオーディオ周波数信号を生成し、
前記オーディオ周波数信号を符号化することにより、低チャネルオーディオ符号を生成し、
前記各チャネルの周波数信号から、音の空間的な情報を表す空間情報を抽出し、
前記空間情報に基づいて、前記空間情報が人の聴覚に対する影響の度合いを表す重要度を周波数ごとに算出し、
前記重要度が所定の閾値よりも小さい周波数について、前記空間情報を周波数方向に平滑化するように、前記空間情報を補正し、
前記補正された空間情報を、周波数方向に差分することにより得られた差分空間情報を符号化することにより、空間情報符号を生成し、
前記低チャネルオーディオ符号と前記空間情報符号を多重化することにより、符号化されたオーディオ信号を生成する、
ことをコンピュータに実行させるオーディオ符号化用コンピュータプログラム。
(付記9)
入力された動画像信号を符号化する動画像符号化部と、
入力された第1のチャネル数を持つオーディオ信号を符号化するオーディオ符号化部であって、
前記オーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換し、
前記各チャネルの周波数信号をダウンミックスすることにより、前記第1のチャネル数よりも少ない第2のチャネル数を持つオーディオ周波数信号を生成し、
前記オーディオ周波数信号を符号化することにより、低チャネルオーディオ符号を生成し、
前記各チャネルの周波数信号から、音の空間的な情報を表す空間情報を抽出し、
前記空間情報に基づいて、前記空間情報が人の聴覚に対する影響の度合いを表す重要度を周波数ごとに算出し、
前記重要度が所定の閾値よりも小さい周波数について、前記空間情報を周波数方向に平滑化するように、前記空間情報を補正し、
前記補正された空間情報を周波数方向に差分することにより得られた差分空間情報を符号化することにより、空間情報符号を生成し、
前記低チャネルオーディオ符号と前記空間情報符号を多重化することにより、符号化されたオーディオ信号を生成する、オーディオ符号化部と、
前記動画像符号化部により符号化された動画像信号と前記オーディオ符号化部により符号化されたオーディオ信号を多重化することにより映像ストリームを生成する多重化部と、
を有する映像伝送装置。
11a、11b 時間周波数変換部
12 ダウンミックス部
13 周波数時間変換部
14 SBR符号化部
15 AAC符号化部
16 PS符号化部
17 多重化部
21 空間情報抽出部
22 重要度算出部
23 類似度補正部
24 強度差補正部
25 類似度量子化部
26 強度差量子化部
27 補正幅制御部
28 PS符号生成部
31 バッファ
32 重み決定部
100 映像伝送装置
101 映像取得部
102 音声取得部
103 映像符号化部
104 音声符号化部
105 多重化部
106 通信処理部
107 出力部
Claims (8)
- 第1のチャネル数を持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換する時間周波数変換部と、
前記各チャネルの周波数信号をダウンミックスすることにより、前記第1のチャネル数よりも少ない第2のチャネル数を持つオーディオ周波数信号を生成するダウンミックス部と、
前記オーディオ周波数信号を符号化することにより、低チャネルオーディオ符号を生成する低チャネル符号部と、
前記各チャネルの周波数信号から、音の空間的な情報を表す空間情報を抽出する空間情報抽出部と、
前記空間情報に基づいて、前記空間情報が人の聴覚に対する影響の度合いを表す重要度を周波数ごとに算出する重要度算出部と、
前記重要度が所定の閾値よりも小さい周波数について、前記空間情報を周波数方向に平滑化するように、前記空間情報を補正する空間情報補正部と、
前記補正された空間情報を、周波数方向に差分することにより得られた差分空間情報を符号化することにより、空間情報符号を生成する空間情報符号化部と、
前記低チャネルオーディオ符号と前記空間情報符号を多重化することにより、符号化されたオーディオ信号を生成する多重化部と、
を有するオーディオ符号化装置。 - 前記空間情報符号化部により生成された前記空間情報符号のデータ量が、あらかじめ決められた上限値よりも多い場合、前記所定の閾値を高く修正する補正幅制御部をさらに有し、
前記空間情報補正部は、前記修正された所定の閾値よりも前記重要度が小さい周波数について、前記空間情報を周波数方向に平滑化するように、前記空間情報を再補正し、
前記空間情報符号化部は、前記再補正された空間情報に基づいて前記空間情報符号を再生成し、
前記多重化部は、前記低チャネルオーディオ符号と前記再生成された空間情報符号を多重化することにより、前記符号化されたオーディオ信号を生成する、請求項1に記載のオーディオ符号化装置。 - 前記補正幅制御部は、前記空間情報符号化部により生成された前記空間情報符号のデータ量が所定の下限値よりも少ない場合、前記所定の閾値を低く修正し、
前記空間情報補正部は、前記修正された所定の閾値よりも前記重要度が小さい周波数について、前記空間情報を周波数方向に平滑化するように、前記空間情報を再補正し、
前記空間情報符号化部は、前記再補正された空間情報に基づいて前記空間情報符号を再生成し、
前記多重化部は、前記低チャネルオーディオ符号と前記再生成された空間情報符号を多重化することにより、前記符号化されたオーディオ信号を生成する、請求項2に記載のオーディオ符号化装置。 - 前記空間情報抽出部は、前記各チャネルの周波数信号間の類似度及び強度差を前記空間情報として抽出し、
前記空間情報補正部は、前記重要度が所定の閾値よりも小さい周波数について、前記類似度または前記強度差の少なくとも何れか一方を周波数方向に平滑化し、
前記空間情報符号化部は、前記補正された類似度及び強度差を、それぞれ周波数方向に差分することにより得られた差分類似度及び差分強度差を符号化することにより、前記空間情報符号を生成する、請求項1〜3の何れか一項に記載のオーディオ符号化装置。 - 第1のフレームについて算出された差分類似度の符号データ量である類似度符号量と、差分強度差の符号データ量である強度差符号量を記憶する記憶部と、
前記類似度符号量が前記強度差符号量よりも多い場合、前記類似度に対する重み係数である類似度重みを、前記強度差に対する重み係数である強度差重みよりも大きく設定し、一方、前記類似度符号量が前記強度差符号量よりも少ない場合、前記類似度重みを、前記強度差重みよりも小さく設定する重み決定部をさらに有し、
前記重要度算出部は、前記第1のフレームよりも後の第2のフレームに対する重要度を、前記類似度重みが大きくなるほど前記重要度に対する前記第2のフレームおいて算出された前記類似度の寄与が大きくなり、かつ前記強度差重みが大きくなるほど前記重要度に対する前記第2のフレームおいて算出された前記強度差の寄与が大きくなるように決定する、請求項4に記載のオーディオ符号化装置。 - 第1のチャネル数を持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換し、
前記各チャネルの周波数信号をダウンミックスすることにより、前記第1のチャネル数よりも少ない第2のチャネル数を持つオーディオ周波数信号を生成し、
前記オーディオ周波数信号を符号化することにより、低チャネルオーディオ符号を生成し、
前記各チャネルの周波数信号から、音の空間的な情報を表す空間情報を抽出し、
前記空間情報に基づいて、前記空間情報が人の聴覚に対する影響の度合いを表す重要度を周波数ごとに算出し、
前記重要度が所定の閾値よりも小さい周波数について、前記空間情報を周波数方向に平滑化するように、前記空間情報を補正し、
前記補正された空間情報を、周波数方向に差分することにより得られた差分空間情報を符号化することにより、空間情報符号を生成し、
前記低チャネルオーディオ符号と前記空間情報符号を多重化することにより、符号化されたオーディオ信号を生成する、
ことを含むオーディオ符号化方法。 - 第1のチャネル数を持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換し、
前記各チャネルの周波数信号をダウンミックスすることにより、前記第1のチャネル数よりも少ない第2のチャネル数を持つオーディオ周波数信号を生成し、
前記オーディオ周波数信号を符号化することにより、低チャネルオーディオ符号を生成し、
前記各チャネルの周波数信号から、音の空間的な情報を表す空間情報を抽出し、
前記空間情報に基づいて、前記空間情報が人の聴覚に対する影響の度合いを表す重要度を周波数ごとに算出し、
前記重要度が所定の閾値よりも小さい周波数について、前記空間情報を周波数方向に平滑化するように、前記空間情報を補正し、
前記補正された空間情報を、周波数方向に差分することにより得られた差分空間情報を符号化することにより、空間情報符号を生成し、
前記低チャネルオーディオ符号と前記空間情報符号を多重化することにより、符号化されたオーディオ信号を生成する、
ことをコンピュータに実行させるオーディオ符号化用コンピュータプログラム。 - 入力された動画像信号を符号化する動画像符号化部と、
入力された第1のチャネル数を持つオーディオ信号を符号化するオーディオ符号化部であって、
前記オーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換し、
前記各チャネルの周波数信号をダウンミックスすることにより、前記第1のチャネル数よりも少ない第2のチャネル数を持つオーディオ周波数信号を生成し、
前記オーディオ周波数信号を符号化することにより、低チャネルオーディオ符号を生成し、
前記各チャネルの周波数信号から、音の空間的な情報を表す空間情報を抽出し、
前記空間情報に基づいて、前記空間情報が人の聴覚に対する影響の度合いを表す重要度を周波数ごとに算出し、
前記重要度が所定の閾値よりも小さい周波数について、前記空間情報を周波数方向に平滑化するように、前記空間情報を補正し、
前記補正された空間情報を周波数方向に差分することにより得られた差分空間情報を符号化することにより、空間情報符号を生成し、
前記低チャネルオーディオ符号と前記空間情報符号を多重化することにより、符号化されたオーディオ信号を生成する、オーディオ符号化部と、
前記動画像符号化部により符号化された動画像信号と前記オーディオ符号化部により符号化されたオーディオ信号を多重化することにより映像ストリームを生成する多重化部と、
を有する映像伝送装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009158991A JP5267362B2 (ja) | 2009-07-03 | 2009-07-03 | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置 |
US12/829,650 US8818539B2 (en) | 2009-07-03 | 2010-07-02 | Audio encoding device, audio encoding method, and video transmission device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009158991A JP5267362B2 (ja) | 2009-07-03 | 2009-07-03 | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011013560A true JP2011013560A (ja) | 2011-01-20 |
JP5267362B2 JP5267362B2 (ja) | 2013-08-21 |
Family
ID=43412657
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009158991A Expired - Fee Related JP5267362B2 (ja) | 2009-07-03 | 2009-07-03 | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8818539B2 (ja) |
JP (1) | JP5267362B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013077404A1 (ja) | 2011-11-25 | 2013-05-30 | 日本化学工業株式会社 | ゼオライト及びその製造方法並びにパラフィンの接触分解触媒 |
JP2015514234A (ja) * | 2012-04-05 | 2015-05-18 | 華為技術有限公司Huawei Technologies Co.,Ltd. | マルチチャネルオーディオエンコーダ及びマルチチャネルオーディオ信号を符号化する方法 |
JP2015102611A (ja) * | 2013-11-22 | 2015-06-04 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化用プログラム、オーディオ復号装置 |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8639605B2 (en) * | 2006-04-21 | 2014-01-28 | Thomson Reuters Global Resources | Systems and methods for the identification and messaging of trading parties |
CN103477387B (zh) | 2011-02-14 | 2015-11-25 | 弗兰霍菲尔运输应用研究公司 | 使用频谱域噪声整形的基于线性预测的编码方案 |
BR112013020482B1 (pt) | 2011-02-14 | 2021-02-23 | Fraunhofer Ges Forschung | aparelho e método para processar um sinal de áudio decodificado em um domínio espectral |
ES2639646T3 (es) | 2011-02-14 | 2017-10-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificación y decodificación de posiciones de impulso de pistas de una señal de audio |
KR101525185B1 (ko) * | 2011-02-14 | 2015-06-02 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 트랜지언트 검출 및 품질 결과를 사용하여 일부분의 오디오 신호를 코딩하기 위한 장치 및 방법 |
KR20130093783A (ko) * | 2011-12-30 | 2013-08-23 | 한국전자통신연구원 | 오디오 객체 전송 장치 및 방법 |
CN116665683A (zh) | 2013-02-21 | 2023-08-29 | 杜比国际公司 | 用于参数化多声道编码的方法 |
WO2014168022A1 (ja) * | 2013-04-11 | 2014-10-16 | 日本電気株式会社 | 信号処理装置、信号処理方法および信号処理プログラム |
US9437236B2 (en) * | 2013-11-04 | 2016-09-06 | Michael Hugh Harrington | Encoding data |
US9774974B2 (en) | 2014-09-24 | 2017-09-26 | Electronics And Telecommunications Research Institute | Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion |
WO2016049905A1 (zh) * | 2014-09-30 | 2016-04-07 | 深圳市大疆创新科技有限公司 | 一种飞行任务处理方法、装置及系统 |
CN110537373B (zh) * | 2017-04-25 | 2021-09-28 | 索尼公司 | 信号处理装置和方法以及存储介质 |
CN107818790B (zh) * | 2017-11-16 | 2020-08-11 | 苏州麦迪斯顿医疗科技股份有限公司 | 一种多路音频混音方法及装置 |
CN108550369B (zh) * | 2018-04-14 | 2020-08-11 | 全景声科技南京有限公司 | 一种可变长度的全景声信号编解码方法 |
GB2587196A (en) * | 2019-09-13 | 2021-03-24 | Nokia Technologies Oy | Determination of spatial audio parameter encoding and associated decoding |
KR20220062621A (ko) * | 2019-09-17 | 2022-05-17 | 노키아 테크놀로지스 오와이 | 공간적 오디오 파라미터 인코딩 및 관련 디코딩 |
CN112435675B (zh) * | 2020-09-30 | 2024-02-27 | 福建星网智慧科技有限公司 | 一种基于fec的音频编码方法、装置、设备和介质 |
CN117643073A (zh) * | 2022-06-30 | 2024-03-01 | 北京小米移动软件有限公司 | 音频信号的编码方法、装置、电子设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003255973A (ja) * | 2002-02-28 | 2003-09-10 | Nec Corp | 音声帯域拡張システムおよび方法 |
JP2004325633A (ja) * | 2003-04-23 | 2004-11-18 | Matsushita Electric Ind Co Ltd | 信号符号化方法、信号符号化プログラム及びその記録媒体 |
JP2008519491A (ja) * | 2004-10-28 | 2008-06-05 | ニューラル オーディオ コーポレイション | 音響空間環境エンジン |
JP2009055583A (ja) * | 2007-08-01 | 2009-03-12 | Sanyo Electric Co Ltd | 風雑音低減装置 |
JP2009530916A (ja) * | 2006-03-15 | 2009-08-27 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | サブフィルタを用いたバイノーラル表現 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1719117A1 (en) * | 2004-02-16 | 2006-11-08 | Koninklijke Philips Electronics N.V. | A transcoder and method of transcoding therefore |
TWI396188B (zh) * | 2005-08-02 | 2013-05-11 | Dolby Lab Licensing Corp | 依聆聽事件之函數控制空間音訊編碼參數的技術 |
ES2478004T3 (es) * | 2005-10-05 | 2014-07-18 | Lg Electronics Inc. | Método y aparato para decodificar una señal de audio |
JP2007183528A (ja) | 2005-12-06 | 2007-07-19 | Fujitsu Ltd | 符号化装置、符号化方法、および符号化プログラム |
US7734053B2 (en) * | 2005-12-06 | 2010-06-08 | Fujitsu Limited | Encoding apparatus, encoding method, and computer product |
JP4918841B2 (ja) * | 2006-10-23 | 2012-04-18 | 富士通株式会社 | 符号化システム |
JP4984983B2 (ja) | 2007-03-09 | 2012-07-25 | 富士通株式会社 | 符号化装置および符号化方法 |
-
2009
- 2009-07-03 JP JP2009158991A patent/JP5267362B2/ja not_active Expired - Fee Related
-
2010
- 2010-07-02 US US12/829,650 patent/US8818539B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003255973A (ja) * | 2002-02-28 | 2003-09-10 | Nec Corp | 音声帯域拡張システムおよび方法 |
JP2004325633A (ja) * | 2003-04-23 | 2004-11-18 | Matsushita Electric Ind Co Ltd | 信号符号化方法、信号符号化プログラム及びその記録媒体 |
JP2008519491A (ja) * | 2004-10-28 | 2008-06-05 | ニューラル オーディオ コーポレイション | 音響空間環境エンジン |
JP2009530916A (ja) * | 2006-03-15 | 2009-08-27 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | サブフィルタを用いたバイノーラル表現 |
JP2009055583A (ja) * | 2007-08-01 | 2009-03-12 | Sanyo Electric Co Ltd | 風雑音低減装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013077404A1 (ja) | 2011-11-25 | 2013-05-30 | 日本化学工業株式会社 | ゼオライト及びその製造方法並びにパラフィンの接触分解触媒 |
JP2015514234A (ja) * | 2012-04-05 | 2015-05-18 | 華為技術有限公司Huawei Technologies Co.,Ltd. | マルチチャネルオーディオエンコーダ及びマルチチャネルオーディオ信号を符号化する方法 |
US9449603B2 (en) | 2012-04-05 | 2016-09-20 | Huawei Technologies Co., Ltd. | Multi-channel audio encoder and method for encoding a multi-channel audio signal |
JP2015102611A (ja) * | 2013-11-22 | 2015-06-04 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化用プログラム、オーディオ復号装置 |
Also Published As
Publication number | Publication date |
---|---|
US8818539B2 (en) | 2014-08-26 |
US20110002393A1 (en) | 2011-01-06 |
JP5267362B2 (ja) | 2013-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5267362B2 (ja) | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置 | |
JP5485909B2 (ja) | オーディオ信号処理方法及び装置 | |
JP5539203B2 (ja) | 改良された音声及びオーディオ信号の変換符号化 | |
JP6704037B2 (ja) | 音声符号化装置および方法 | |
JP5737077B2 (ja) | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム | |
KR101253699B1 (ko) | 주파수 영역 위너 필터링을 사용한 공간 오디오 코딩을위한 시간적 엔벨로프 정형화 | |
KR102200643B1 (ko) | 음성 음향 부호화 장치, 음성 음향 복호 장치, 음성 음향 부호화 방법 및 음성 음향 복호 방법 | |
US9355645B2 (en) | Method and apparatus for encoding/decoding stereo audio | |
JP5533502B2 (ja) | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム | |
JP5326465B2 (ja) | オーディオ復号方法、装置、及びプログラム | |
WO2006041055A1 (ja) | スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法 | |
US20190198033A1 (en) | Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals | |
JP5609591B2 (ja) | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム | |
EP3550563B1 (en) | Encoder, decoder, encoding method, decoding method, and associated programs | |
KR20160120713A (ko) | 복호 장치, 부호화 장치, 복호 방법, 부호화 방법, 단말 장치, 및 기지국 장치 | |
EP2264698A1 (en) | Stereo signal converter, stereo signal reverse converter, and methods for both | |
US11176954B2 (en) | Encoding and decoding of multichannel or stereo audio signals | |
JP5379871B2 (ja) | オーディオ符号化のための量子化 | |
KR101259120B1 (ko) | 오디오 신호 처리 방법 및 장치 | |
EP3252763A1 (en) | Low-delay audio coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120309 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130313 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130409 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130422 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5267362 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |