JP5633431B2 - オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム - Google Patents

オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム Download PDF

Info

Publication number
JP5633431B2
JP5633431B2 JP2011045171A JP2011045171A JP5633431B2 JP 5633431 B2 JP5633431 B2 JP 5633431B2 JP 2011045171 A JP2011045171 A JP 2011045171A JP 2011045171 A JP2011045171 A JP 2011045171A JP 5633431 B2 JP5633431 B2 JP 5633431B2
Authority
JP
Japan
Prior art keywords
transient
time
channel
detection
grid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011045171A
Other languages
English (en)
Other versions
JP2012181429A (ja
Inventor
洋平 岸
洋平 岸
美由紀 白川
美由紀 白川
鈴木 政直
政直 鈴木
土永 義照
義照 土永
俊輔 武内
俊輔 武内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011045171A priority Critical patent/JP5633431B2/ja
Priority to US13/362,317 priority patent/US9131290B2/en
Publication of JP2012181429A publication Critical patent/JP2012181429A/ja
Application granted granted Critical
Publication of JP5633431B2 publication Critical patent/JP5633431B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching

Description

本発明は、例えば、オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムに関する。
従来より、オーディオ信号のデータ量を圧縮するためのオーディオ信号の符号化方式が開発されている。そのような符号化方式の一つとして、High-Efficiency Advanced Audio Coding(HE-AAC)が知られている。この符号化方式は、Moving Picture Experts Group (MPEG)により、MPEG-2 HE-AAC及びMPEG-4 HE-AACとして標準化されている。HE-AACでは、入力されたオーディオ信号の低周波数帯域(低域成分)がAdvanced Audio Coding(AAC)方式により符号化され、一方、オーディオ信号の高周波数帯域(高域成分)はSpectral Band Replication(SBR)方式により符号化される。SBR方式では、オーディオ信号の各フレームが複数の時間周波数領域に分割され、各時間周波数領域内の信号パワーに基づいて、高域成分を、対応する低域成分を複製することにより再現するための補助情報などがSBRデータとして算出される。そしてSBRパラメータが符号化される。なお、この時間周波数領域はグリッドと呼ばれる。
SBR方式では、グリッドの時間長がオーディオ信号の時間変化に対して長過ぎると、グリッド内でオーディオ信号の電力が平均化されることにより、その時間変化を表す情報が失われてしまう。その結果として、符号化されたオーディオ信号の再生音質が劣化してしまう。特に、ある時間帯の音がそれより後の音の影響を受けることにより、本来とは異なる音になることがある。このような現象はプリエコーと呼ばれる。そこで、オーディオ信号の各チャネルについて、アタック音などの過渡性の高い音を検出し、過渡性の高い音に対して時間分解能が高くなるようにグリッドを設定する技術が提案されている(例えば、特許文献1を参照)。なお、このような音の過渡的な部分はトランジェントと呼ばれる。
また、オーディオ信号の複数のチャネルの類似度が高いと判定すると、オーディオ信号を周波数変換した周波数データの時間方向または周波数方向のグループ分けを複数のチャネルに対して共通に行う技術が提案されている(例えば、特許文献2を参照)。
特表2003−529787号公報 特開2006−3580号公報
しかしながら、例えば、一つの音源から発した音に含まれるトランジェントであるにも関わらず、チャネルごとに、そのトランジェントが検出される時間が異なることがある。このような場合、上記の特許文献1または2に開示された技術では、トランジェントの検出時刻が遅い方のチャネルでは、トランジェント後の過渡的な音がトランジェントが発生するよりも前の音と同じグリッドに含まれるようにグリッドが設定されてしまう。その結果、過渡的な音がそのグリッドの信号パワーに影響するので、プリエコーが生じてしまう。
そこで、本明細書は、複数のチャネルにおいて同一の音に起因するトランジェントが含まれるオーディオ信号についてプリエコーが生じることを抑制するオーディオ符号化装置を提供することを目的とする。
一つの実施形態によれば、オーディオ符号化装置が提供される。このオーディオ符号化装置は、オーディオ信号が有する複数のチャネルのそれぞれについて、そのチャネルの信号を時間周波数変換することにより時刻ごとの周波数成分を表す時間周波数信号を生成する時間周波数変換部と、複数のチャネルのそれぞれについてトランジェントを検出し、そのトランジェント検出時刻を求めるトランジェント検出部と、複数のチャネルのうち、トランジェント検出時刻が最も早い先検出チャネルと、先検出チャネル以外のチャネルである後検出チャネル間でのトランジェント検出時刻の差が同一の音に起因するトランジェントとみなせる範囲内である場合、後検出チャネルのトランジェント検出時刻を先検出チャネルのトランジェント検出時刻に一致させるよう補正するトランジェント時刻補正部と、複数のチャネルのそれぞれについて、トランジェントが検出されていない区間に非過渡音用グリッドを設定し、トランジェントが検出されている区間には、非過渡音用グリッドよりも短い時間長の過渡音用グリッドを設定するグリッド決定部と、過渡音用グリッドまたは非過渡音用グリッドごとに、オーディオ信号を符号化する符号化部とを有する。
本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
本明細書に開示されたオーディオ符号化装置は、複数のチャネルにおいて同一の音に起因するトランジェントが含まれるオーディオ信号についてプリエコーが生じることを抑制できる。
(a)は、トランジェントが含まれる、左側及び右側のチャネルのパワーの時間変化の一例である。(b)は、(a)に示された各チャネルのパワーの移動累積値を示す図である。(c)は、(a)に示された各チャネルのオーディオ信号に対して従来技術により設定されるグリッドの一例を示す図である。 一つの実施形態によるオーディオ符号化装置の概略構成図である。 トランジェント検出処理の動作フローチャートである。 (a)は、同一の音に起因するトランジェントについて各チャネルの検出時刻が異なる場合の左側チャネルと右側チャネルのパワーの時間変化を表す。(b)は、右側チャネルのトランジェントと左側チャネルのトランジェントが異なる音に起因する場合の左側チャネルと右側チャネルのパワーの時間変化を表す。 トランジェント検出時刻補正処理の動作フローチャートである。 グリッドの一例を示す図である。 符号化されたオーディオ信号が格納されたデータ形式の一例を示す図である。 オーディオ符号化処理の動作フローチャートである。 (a)〜(d)は、従来技術により符号化されたオーディオ信号を再生したオーディオ信号と本実施形態によるオーディオ符号化装置により符号化されたオーディオ信号を再生したオーディオ信号との比較結果を表す図である。 本明細書に開示されたオーディオ符号化装置が組み込まれた映像伝送装置の概略構成図である。
以下、図を参照しつつ、一つの実施形態による、オーディオ符号化装置について説明する。先ず、図1を参照しつつ、従来技術において、本来全てのチャネルにおいて同時刻に発生するトランジェントの検出時刻がチャネルごとに異なる原因を説明する。
図1(a)は、トランジェントが含まれる、ステレオオーディオ信号の左側及び右側のチャネルのパワーの時間変化の一例である。図1(b)は、図1(a)に示された各チャネルのパワーの移動累積値を示す図である。そして図1(c)は、図1(a)に示された各チャネルのオーディオ信号に対して従来技術により設定されるグリッドの一例を示す図である。
図1(a)及び図1(b)において、横軸は時間を表し、縦軸はパワーを表す。そして図1(a)において、グラフ101は、左側チャネルの信号のパワーの時間変化を表し、グラフ102は、右側チャネルの信号のパワーの時間変化を表す。またグラフ上の各ドットは、それぞれ、サンプリング点を表す。図1(a)に示されるように、左側、右側の何れのチャネルについても、時刻t0においてトランジェントが発生し、急激にパワーが大きくなる。しかし、左側チャネルのトランジェント発生後のパワーは右側チャネルのトランジェント発生後のパワーよりも大きい。このような現象は、例えば、音源が、何れか一方のチャネルに対応するマイクロホンに対して、他方のチャネルに対応するマイクロホンよりも近い場合に生じる。
図1(b)において、グラフ111は、左側チャネルの信号のパワーの移動累積値の時間変化を表し、グラフ112は、右側チャネルの信号のパワーの移動累積値の時間変化を表す。この例では、移動累積値は、3個の連続するサンプリング点を含む時間軸に沿って設定される区間における、各サンプリング点の信号のパワーの累積値である。上記のように、この例では、トランジェント発生直後において、左側のチャネルの信号のパワーは右側のチャネルの信号のパワーよりも大きい。そのため、グラフ111及び112に示されるように、左側チャネルの移動累積値の方が右側チャネルの移動累積値よりも急激に大きくなる。
従来技術によるオーディオ符号化装置は、例えば、各チャネルの信号のパワーの移動累積値を所定の閾値と比較し、その移動累積値が所定の閾値よりも大きくなった時刻においてトランジェントが発生したと判断する。例えば、その閾値Thが図1(b)において点線113で示される値である場合、左側チャネルの移動累積値が閾値Thよりも大きくなる時刻t1は、右側チャネルの移動累積値が閾値Thよりも大きくなる時刻t2よりも早い。そのため、従来技術によるオーディオ符号化装置は、左側チャネルに対して時刻t1をトランジェント発生時刻と判定し、一方、右側チャネルに対して時刻t2をトランジェント発生時刻と判定する。
図1(c)において、横軸は時間を表し、縦軸は周波数を表す。また各ブロックは、それぞれ、設定されるグリッドを表す。左側チャネルでは、実際のトランジェント発生時刻に近い時刻t1が、そのトランジェントに対応するグリッド121の開始時刻として設定される。そのため、左側チャネルではプリエコーは殆ど発生しない。一方、右側のチャネルでは、時刻t2を境界として、時刻t2よりも前の信号と時刻t2以降の信号に対して、それぞれ異なるグリッド122及び123が設定される。しかし、実際のトランジェントの発生時刻は、時刻t2よりも前であるため、グリッド122ではトランジェント発生前と発生後の信号のパワーが平均化されてしまう。その結果、右側チャネルでは、グリッド122に相当する期間においてプリエコーが生じてしまう。
そこで、本明細書で開示されるオーディオ符号化装置は、複数のチャネル間のトランジェント検出時刻の差、及びトランジェントの検出時刻における信号のパワーに基づいて各チャネルで検出されたトランジェントが同一の音に起因するものか否か判定する。そしてこのオーディオ符号化装置は、各チャネルで検出されたトランジェントが同一の音に起因する場合、全てのチャネルに対するSBR符号化用のグリッドの開始時刻を、複数のチャネルのトランジェントの検出時間のうち、最も早い時間に統一する。
本実施形態では、符号化対象となるオーディオ信号は、左側のチャネルと右側のチャネルを持つステレオオーディオ信号である。
図2は、一つの実施形態によるオーディオ符号化装置の概略構成図である。図2に示すように、オーディオ符号化装置1は、ダウンサンプリング部11と、AAC符号化器12と、SBR符号化器13と、ビットストリーム生成部14とを有する。
オーディオ符号化装置1が有するこれらの各部は、それぞれ別個の回路として形成される。あるいはオーディオ符号化装置1が有するこれらの各部は、その各部に対応する回路が集積された一つの集積回路としてオーディオ符号化装置1に実装されてもよい。さらに、オーディオ符号化装置1が有するこれらの各部は、オーディオ符号化装置1が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。
ダウンサンプリング部11は、AAC符号化器12により符号化される、入力されたオーディオ信号の各チャネルの低域成分を求める。この低域成分の上限の周波数は、例えば、入力されたオーディオ信号の最高周波数の1/2に設定される。ダウンサンプリング部11は、各チャネルの時間領域の信号に対して、ローパスフィルタを用いてフィルタリングする。そのようなローパスフィルタは、有限インパルス応答または無限インパルス応答のデジタルフィルタとすることができる。ダウンサンプリング部11は、例えば、標準化プロジェクト3GPPにより公開されているHE-AACエンコーダ標準(TS26.410)に示されている次式の無限インパルス応答型フィルタを用いて各チャネルの時間領域の信号をフィルタリングする。
ここでak、bk(k=1,2,...,13)は、フィルタ係数である。なお、ak、bkの値として、例えば、TS26.410に示されている値が用いられる。またz-kは、このフィルタにk回目に入力される信号である。
また、ダウンサンプリング部11は、各チャネルの信号を、例えばフレームごとに時間周波数変換し、その結果得られる周波数信号に対してローパスフィルタを適用することにより、各チャネルの信号の低域成分を抽出してもよい。この場合、ダウンサンプリング部11は、時間周波数変換として、例えば、高速フーリエ変換、離散コサイン変換、あるいは修正離散コサイン変換を用いることができる。
ダウンサンプリング部11は、抽出した各チャネルの信号の低域成分をAAC符号化器12へ出力する。
AAC符号化器12は、ダウンサンプリング部11から受け取った各チャネルの信号の低域成分をAAC符号化方式に従って符号化する。AAC符号化器12は、例えば、特開2007−183528号公報に開示されている技術を利用できる。具体的には、AAC符号化器12は、心理聴覚エントロピー(Perceptual Entropy、PE)値を算出する。PE値は、打楽器が発する音のようなアタック音など、信号レベルが短時間で変化する音に対して大きな値となる特性を持つ。そこで、AAC符号化器12は、PEの値が比較的大きくなるフレームに対しては、時間軸に沿って設定される窓を短くし、PEの値が比較的小さくなるフレームに対しては、窓を長くする。例えば、短い窓は、256個のサンプルを含み、長い窓は、2048個のサンプルを含む。AAC符号化器12は、決定された長さを持つ窓を用いて各チャネルの信号の低域成分に対して修正離散コサイン変換(Modified Discrete Cosine Transform、MDCT)を実行することにより、各チャネルの信号の低域成分をMDCT係数の組に変換する。AAC符号化器12は、MDCT係数の組を、所定の量子化幅で量子化し、その量子化されたMDCT係数の組、その量子化幅を決定するために用いた量子化係数を、算術符号化あるいはハフマン符号化といった可変長符号化方式に従って符号化する。
AAC符号化器12は、可変長符号化されたMDCT係数の組及び量子化係数をビットストリーム生成部14へ出力する。
SBR符号化器13は、チャネルごとに信号の高域成分を、Spectral Band Replication(SBR)符号化方式にしたがって符号化する。なお、この高域成分は、各チャネルの信号のうちのAAC符号化器12により符号化される低域成分を除いた成分である。
SBR符号化器13は、時間周波数変換部21と、グリッド生成部22と、グリッドパワー算出部23と、パワー量子化部24と、補助情報算出部25と、補助情報量子化部26と、多重化部27とを有する。
時間周波数変換部21は、オーディオ符号化装置1に入力されたオーディオ信号の各チャネルの時間領域の信号を、それぞれ時間周波数信号に変換する。
本実施形態では、時間周波数変換部21は、時間周波数信号を求めるためにQuadrature Mirror Filter(QMF)フィルタバンクを用いる。QMFフィルタバンクは次式のように表される。
ここでkは周波数帯域を表す変数であり、この例では、周波数帯域全体を64個に等分したときのk番目の周波数帯域を表す。またnは、フィルタバンクに入力される128個のサンプリング点の時間順を表す。
なお、時間周波数変換部21は、所定の区間ごとにウェーブレット変換または高速フーリエ変換など、他の時間周波数変換処理を行うことで、各チャネルの時間周波数信号を算出してもよい。
時間周波数変換部21は、各チャネルの時間周波数信号を算出する度に、その時間周波数信号をグリッド生成部22、グリッドパワー算出部23及び補助情報算出部25へ出力する。
グリッド生成部22は、各チャネルに対するグリッドを設定する。そのために、グリッド生成部22は、パワー算出部31と、トランジェント検出部32と、トランジェント時刻補正部33と、グリッド決定部34とを有する。
パワー算出部31は、各チャネルについて、時刻ごとのパワー、すなわち、時間周波数信号の時間軸におけるサンプリング点ごとのパワーを算出する。例えば、パワー算出部31は、次式に従ってパワーを算出する。
ここでL(k,n)は、左側チャネルの周波数帯域kにおけるn番目のサンプリング点の時間周波数信号であり、R(k,n)は、右側チャネルの周波数帯域kにおけるn番目のサンプリング点の時間周波数信号である。そしてPL(n)、PR(n)は、それぞれ、左側チャネル及び右側チャネルのn番目のサンプリング点のパワーである。
パワー算出部31は、各チャネルについてのサンプリング点ごとのパワーPL(n)、PR(n)をトランジェント検出部32及びトランジェント時刻補正部33へ出力する。
トランジェント検出部32は、チャネルごとにトランジェントを検出する。そのために、トランジェント検出部32は、チャネルごとに、時間軸に沿って連続する複数のサンプリング点を含む区間のパワーの移動累積値を算出する。例えば、トランジェント検出部32は、左側チャネル及び右側チャネルのそれぞれについて、連続する3個のサンプリング点のパワーの合計値を移動累積値とする。
トランジェント検出部32は、チャネルごとに、移動累積値を検出閾値Thと比較する。そしてトランジェント検出部32は、現サンプリング点の移動累積値が検出閾値Thよりも大きく、かつ、直前のサンプリング点における移動累積値が検出閾値Th以下である場合、現サンプリング点をトランジェントとして検出する。なお、検出閾値Thは、例えば、実験的に、トランジェントの前後のパワーの差に基づいて予め決定される。トランジェントの前後のパワーの差が-30dBovであり、移動累積値が連続する3個のサンプリング点のパワーの合計値である場合には、検出閾値Thは-10dBovとすることができる。
トランジェント検出部32は、移動累積値をトランジェントの検出に用いることで、ノイズがオーディオ信号に重畳されることによって特定のサンプリング点でパワーが非常に大きくなっても、そのようなサンプリング点をトランジェントとして誤検出することを抑制できる。
図3は、トランジェント検出部32により実行される、トランジェント検出処理の動作フローチャートである。トランジェント検出部32は、チャネルごとに、かつ1フレームごとにこのフローチャートに示される処理を実行する。
トランジェント検出部32は、注目時刻tをフレーム中の最初の時刻'1'に設定する(ステップS101)。次に、トランジェント検出部32は、時刻(t-m)から時刻tまでのパワーの移動累積値ΣPを算出する(ステップS102)。mは、移動累積値を算出する区間を表す。例えば、時間方向に連続する3個のサンプリング点に基づいて移動累積値ΣPが算出される場合、m=2である。また(t-j)(j=1,2,..,m)が0以下となる場合には、前フレームの時刻(N-j)(ただしNは1フレームに含まれる時間軸におけるサンプリング点の総数)のパワーが移動累積値ΣPの算出に利用される。
トランジェント検出部32は,移動累積値ΣPが検出閾値Thよりも大きいか否か判定する(ステップS103)。移動累積値ΣPが検出閾値Thよりも大きい場合(ステップS103−Yes)、トランジェント検出部32はトランジェントを検出する(ステップS104)。そしてトランジェント検出部32は、時刻tをトランジェント検出時刻としてトランジェント時刻補正部33へ通知する。
一方、移動累積値ΣPが検出閾値Th以下である場合(ステップS103−No)、あるいはステップS104の後、トランジェント検出部32は、注目時刻tが1フレームに含まれる時間軸におけるサンプリング点の総数N以上か否か判定する(ステップS105)。tがNより小さければ(ステップS105−No)、トランジェント検出部32は、時刻tを1インクリメントする(ステップS106)。そしてトランジェント検出部32は、ステップS101以降の処理を繰り返す。
一方、tがN以上であれば(ステップS105−Yes)、トランジェント検出部32は、トランジェント検出処理を終了する。
なお、トランジェント検出部32は、パワーの移動累積値の代わりに、パワーの移動平均値を算出してもよい。この場合、検出閾値は、移動累積値用の検出閾値を一つの移動平均値の算出に利用される区間に含まれるサンプリング点の数で割った値とすることができる。パワーの移動累積値及びパワーの移動平均値は、何れも、パワーの統計値の一例である。
トランジェント検出部32は、各チャネルについて、トランジェントが検出される度に、そのトランジェントの検出時刻(すなわち、トランジェントとして検出されたサンプリング点の番号)をトランジェント時刻補正部33へ通知する。
上記のように、同一の音、例えば一つの音源から発したアタック音に起因して、各チャネルでトランジェントが生じているにもかかわらず、各チャネルのトランジェントの検出時刻が異なることがある。このような場合に、トランジェントの検出時刻が遅い方のチャネルにおいて、プリエコーが生じるおそれがある。そこでトランジェント時刻補正部33は、各チャネル間のトランジェント検出時刻の差が同一の音に起因するトランジェントとみなせる範囲内であるか否か判定する。その検出時刻の差が同一の音に起因するトランジェントとみなせる範囲内である場合、トランジェント時刻補正部33は、トランジェントの検出時刻が遅い方のチャネルについて、その検出時刻を補正して、他方のチャネルのトランジェントの検出時刻に一致させる。そのために、トランジェント時刻補正部33は、トランジェント検出部32から通知された各チャネルのトランジェント検出時刻及びパワー算出部31から受け取った時刻ごと(すなわち、時間軸のサンプリング点ごと)のパワーを内蔵するメモリに一時的に記憶する。
図4(a)及び図4(b)を参照しつつ、トランジェント時刻補正部33の処理の概要について説明する。なお、一例として、右側チャネルのトランジェント検出時刻が左側チャネルのトランジェント検出時刻よりも遅いものとする。図4(a)は、同一の音に起因するトランジェントについて各チャネルの検出時刻が異なる場合の左側チャネルと右側チャネルのパワーの時間変化を表す。一方、図4(b)は、右側チャネルのトランジェントと左側チャネルのトランジェントが異なる音に起因する場合の左側チャネルと右側チャネルのパワーの時間変化を表す。
図4(a)及び図4(b)において、横軸は時間を表し、縦軸はパワーを表す。図4(a)におけるグラフ401は、左側チャネルのパワーの時間変化を表し、グラフ402は、右側チャネルのパワーの時間変化を表す。同様に、図4(b)におけるグラフ411は、左側チャネルのパワーの時間変化を表し、グラフ412は、右側チャネルのパワーの時間変化を表す。
図4(a)に示されるように、入力されたオーディオ信号において実際にトランジェントが発生した時刻Tt直後において、左側チャネルのパワーよりも右側チャネルのパワーが小さい。そのため、左側チャネルのトランジェントの検出時刻TrLは、トランジェント発生時刻Ttに近い。しかし、右側チャネルのトランジェントの検出時刻TrRは、トランジェント発生時刻Tt、左側チャネルのトランジェントの検出時刻TrLよりも遅い。この時間差は、移動累積値といった複数のサンプリング点を含む区間に基づいて算出される値がトランジェントの検出に用いられることに起因している。そのため、左右のチャネルのトランジェントが同一の音に起因していれば、左右のチャネルのトランジェントの検出時刻間の差の絶対値ΔTR(=|TrR-TrL|)は、上記の区間以下といった比較的小さい値となる。また、丸印403で示される、左側チャネルのトランジェントの検出時刻TrLにおける右側チャネルのパワーは、ある程度の大きさを持つ閾値Thp以上となる。このような場合、トランジェント時刻補正部33は、各チャネルにおいて検出されたトランジェントは同一の音に起因するものと判定する。そしてトランジェント時刻補正部33は、検出時刻が遅い方の右側チャネルのトランジェント検出時刻TrRを、左側チャネルのトランジェント検出時刻TrLと一致させるよう補正する。したがって、補正後の右側チャネルのトランジェント検出時刻TrR'は、左側チャネルのトランジェント検出時刻TrLと等しい。
一方、図4(b)に示されるように、左側チャネルのトランジェントと、右側チャネルのトランジェントが異なる音に起因している場合、左右のチャネルのトランジェントの検出時刻間の差の絶対値ΔTRは比較的大きくなることがある。また、左側チャネルのトランジェント検出時刻TrLの時点では、右側チャネルではまだトランジェントが生じていないので、右側チャネルのパワーは小さい。そこでトランジェント時刻補正部33は、左右のチャネルのトランジェントの検出時刻間の差の絶対値ΔTRが所定の閾値Thdよりも大きい場合、トランジェント検出時刻を補正しない。または、トランジェント時刻補正部33は、トランジェント検出時刻が遅い方のチャネルについて、他方のチャネルのトランジェント検出時刻におけるパワーが所定の閾値Thp未満である場合も、トランジェント検出時刻を補正しない。
図5は、トランジェント時刻補正部33により実行される、トランジェント検出時刻補正処理の動作フローチャートである。
トランジェント時刻補正部33は、トランジェント検出部32から何れかのチャネルについてトランジェント検出時刻が通知されたか否か判定する(ステップS201)。トランジェント検出時刻が通知されていなければ(ステップS201−No)、トランジェント時刻補正部33は、ステップS201の処理を繰り返す。
一方、何れかのチャネルについてトランジェント検出時刻が通知されると(ステップS201−Yes)、トランジェント時刻補正部33は、そのトランジェント検出時刻及びチャネルを、トランジェント時刻補正部33が有するメモリに一時的に記憶する。またトランジェント時刻補正部33は、他方のチャネルのトランジェント検出時刻がメモリに記憶されていれば、二つのチャネルのトランジェント検出時刻間の差の絶対値ΔTRを算出する(ステップS202)。便宜上、ステップS201にてトランジェント検出時刻が通知されたチャネルを後検出チャネルと呼び、後検出チャネルのトランジェント検出時刻よりも前にトランジェントが検出されているチャネルを先検出チャネルと呼ぶ。そしてトランジェント時刻補正部33は、その差の絶対値ΔTRが所定の閾値Thd以下か否か判定する(ステップS203)。閾値Thdは、例えば、同一の音に起因するチャネルごとのトランジェント検出時刻間の差の最大値に設定される。例えば、トランジェント検出部32がパワーの移動累積値を連続する3個のサンプリング点を含む区間に基づいて算出している場合、閾値Thdはその区間の時間長に相当する値に設定される。
二つのチャネルのトランジェント検出時刻間の差の絶対値ΔTRが所定の閾値Thdより大きいか、または他方のチャネルでトランジェントが検出されていない場合(ステップS203−No)、トランジェント時刻補正部33は、トランジェント検出時刻を補正しない。そしてトランジェント時刻補正部33は、各チャネルのトランジェント検出時刻をグリッド決定部34へ通知する。またトランジェント時刻補正部33は、メモリから先検出チャネルのトランジェント検出時刻及び先検出チャネルのトランジェント検出時刻以前の各チャネルのサンプリング点のパワーを消去する。その後、トランジェント時刻補正部33はトランジェント検出時刻補正処理を終了する。
一方、トランジェント検出時刻間の差の絶対値ΔTRが所定の閾値Thd以下である場合(ステップS203−Yes)、トランジェント時刻補正部33は、先検出チャネルのトランジェント検出時刻における、後検出チャネルのパワーPtrpを閾値Thpよりも大きいか否か判定する(ステップS204)。なお、閾値Thpは、過渡音のパワーに対応する値であり、例えば、トランジェント検出用の閾値Thを、移動累積値を算出する区間に含まれるサンプリング点の数で割った数に設定される。
先検出チャネルのトランジェント検出時刻における、後検出チャネルのパワーPtrpが閾値Thp以下である場合(ステップS204−No)、トランジェント時刻補正部33は、トランジェント検出時刻を補正しない。そしてトランジェント時刻補正部33は、各チャネルのトランジェント検出時刻をグリッド決定部34へ通知する。またトランジェント時刻補正部33は、メモリから先検出チャネルのトランジェント検出時刻及び先検出チャネルのトランジェント検出時刻以前の各チャネルのサンプリング点のパワーを消去する。その後、トランジェント検出時刻補正処理を終了する。
一方、先検出チャネルのトランジェント検出時刻における、後検出チャネルのパワーPtrpが閾値Thpより大きい場合(ステップS204−Yes)、トランジェント時刻補正部33は、後検出チャネルのトランジェント検出時刻を先検出チャネルのトランジェント検出時刻と一致させるように補正する(ステップS205)。そしてトランジェント時刻補正部33は、各チャネルのトランジェント検出時刻をグリッド決定部34へ通知する。そしてトランジェント時刻補正部33は、メモリから先検出チャネル及び後検出チャネルのトランジェント検出時刻を消去する。またトランジェント時刻補正部33は、ステップS101にて通知された後検出チャネルのトランジェント検出時刻以前の各チャネルのサンプリング点のパワーを消去する。その後、トランジェント検出時刻補正処理を終了する。
なお、何れか一方のチャネルについてトランジェント検出時刻が通知されてから、閾値Thdを経過しても他方のチャネルについてトランジェント検出時刻が通知されなかった場合、トランジェント時刻補正部33は、その一方のチャネルにのみトランジェントが生じたと判定する。そしてトランジェント時刻補正部33は、その一方のチャネルのトランジェント検出時刻をグリッド決定部34へ通知する。そしてトランジェント時刻補正部33は、その一方のチャネルについて通知されたトランジェント検出時刻及びその時刻以前の各チャネルのサンプリング点のパワーをメモリから消去する。
グリッド決定部34は、フレームごとに、SBR符号化器13にて符号化対象となる高域成分、及びAAC符号化器12にて符号化対象となる低域成分について、それぞれグリッドを決定する。本実施形態では、どのタイミングにおいても高域成分のグリッドの期間と低域成分のグリッドの期間が同一となるように各グリッドを設定する。グリッド決定部34は、注目するフレームにおいて、トランジェントが検出されていない区間に対して、予め設定された期間の非過渡音用グリッドを設定する。非過渡音用グリッドの時間長は、例えば、約50msecである。
また、グリッド決定部34は、注目するフレームにおいてトランジェントが検出されている場合、トランジェント検出時刻を時間軸に沿って連続する二つのグリッドの境界に設定する。そしてグリッド決定部34は、トランジェント検出時刻を開始時刻とする過渡音用グリッドを設定する。過渡音用グリッドの時間長は、非過渡音用グリッドの時間長よりも短い。例えば、グリッド決定部34は、過渡音用グリッドの時間長を、約5msec〜約20msecに設定する。なお、トランジェント検出時刻の直前のグリッドは、その検出時刻以前よりも前にトランジェントが検出されているか否かによって異なる。例えば、注目するトランジェント検出時刻の前の所定の期間内に、別のトランジェントが検出されていれば、注目するトランジェント検出時刻の直前のグリッドも過渡音用のグリッドとなる。なお、所定の期間は、例えば、過渡音用グリッドの時間長と等しい。一方、注目するトランジェント検出時刻の前の所定の期間内に別のトランジェントが検出されていなければ、注目するトランジェント検出時刻の直前のグリッドは非過渡音用のグリッドとなる。
グリッドは、チャネルごとに設定される。ただし、トランジェント時刻補正部33にて何れかのチャネルのトランジェント検出時刻が補正されている場合には、左右のチャネルのトランジェント検出時刻が一致している。そのため、何れのチャネルについても同一のトランジェント検出時刻から過渡音用グリッドが開始される。
図6は、一つのチャネルについて設定されるグリッドの一例を示す図である。図6において、横軸は時間を表し、縦軸は周波数を表す。また時刻trは、トランジェント検出時刻である。この例では6個のグリッド601〜606が設定されている。このうち、グリッド601〜603は、SBR符号化器13にて符号化される高域成分に設定されるグリッドであり、グリッド604〜606は、AAC符号化器12にて符号化される低域成分に設定されるグリッドである。またグリッド601と604は、同一の期間に設定される。同様に、グリッド602と605、及びグリッド603と606も、それぞれ、同一の期間に設定される。そしてトランジェント検出時刻trから開始される期間に設定されるグリッド602、604は、過渡音用のグリッドであり、非過渡音用のグリッドであるその他のグリッドよりも短い期間に設定される。
グリッド決定部34は、チャネルごとの高域成分及び低域成分のグリッドの期間及び開始時刻を表すグリッド情報を、グリッドパワー算出部23、補助情報算出部25及び多重化部27へ通知する。
グリッドパワー算出部23は、各チャネルについてグリッドごとのパワーを算出する。例えば、図6に示されるように、周波数帯域全体が周波数方向に2個に分割された場合には、グリッドパワー算出部23は、次式に従ってグリッドごとのパワーを算出する。
ここでL(k,n)は、左側チャネルの周波数帯域kにおけるn番目のサンプリング点の時間周波数信号であり、R(k,n)は、右側チャネルの周波数帯域kにおけるn番目のサンプリング点の時間周波数信号である。またtgs、tgeは、それぞれ、グリッドの開始時刻に対応する最初のサンプリング点及びグリッドの終了時刻に対応する最後のサンプリング点である。またfsは、SBR符号化器13が符号化対象とする高域成分の最小周波数に相当する周波数方向のサンプリング点である。そしてPgLl(n)及びPgLh(n)は、それぞれ、左側チャネルの低域成分及び高域成分のグリッドのパワーである。同様に、PgRl(n)及びPgRh(n)は、それぞれ、右側チャネルの低域成分及び高域成分のグリッドのパワーである。
グリッドパワー算出部23は、各チャネルについてのグリッドごとのパワーPgLl(n)、PgLh(n)、PgRl(n)及びPgRh(n)をパワー量子化部24及び補助情報算出部25へ出力する。
パワー量子化部24は、グリッドパワー算出部23から受け取った低域成分のグリッドのパワーPgLl(n)及びPgRl(n)を、例えば、伝送ビットレートに従って定められる目標符号量に応じて決定される量子化係数を用いて量子化する。パワー量子化部24は、例えば、量子化係数が大きいほど広くなる量子化幅を設定し、その量子化幅でグリッドごとのパワーを量子化する。そしてパワー量子化部24は、量子化されたグリッドごとのパワーを多重化部27へ出力する。
補助情報算出部25は、各チャネルの低域成分のグリッド及び高域成分のグリッドのパワー及び時間周波数信号に基づいて、低域成分から高域成分を複製するために利用される補助情報を算出する。補助情報には、例えば、高域成分のグリッドに含まれる各周波数帯域及び各時間帯について、複製元となる低域成分の周波数帯域及び時間帯を表す位置情報、高域成分の電力を調整するための電力調整パラメータが含まれる。さらに、補助情報には、低域成分から複製できない高域成分中の周波数帯域及び時間帯を表す情報とその周波数帯域及び時間帯のパワーを表す情報が含まれる。
補助情報算出部25は、例えば、特開2008−224902号公報に開示されているように、SBR符号化方式に従って補助情報を算出する。例えば、補助情報算出部25は、各チャネルの高域成分の注目するグリッドについて、そのグリッド内の各周波数帯域及び時間帯の時間周波数信号を、その注目するグリッドの期間と同一の期間に設定される低域成分のグリッド内の時間周波数信号と比較する。そして補助情報算出部25は、その比較結果に基づいて、高域成分の周波数帯域及び時間帯と強い相関のある低域成分の周波数帯域及び時間帯に基づいて位置情報を決定する。また補助情報算出部25は、低域成分から複製できない周波数帯域及び時間帯を求める。さらに補助情報算出部25は、各チャネルの高域成分の注目するグリッドのパワーと、複製元となる低域成分のグリッドのパワーの比を求め、その比に応じて電力調整パラメータを算出する。
補助情報算出部25は、補助情報を補助情報量子化部26へ出力する。
補助情報量子化部26は、例えば、伝送ビットレートに従って定められる目標符号量に応じて決定される量子化係数を用いて、補助情報を量子化する。補助情報量子化部26は、例えば、量子化係数が大きいほど広くなる量子化幅を設定し、その量子化幅で補助情報を量子化する。そして補助情報量子化部26は、量子化された補助情報を多重化部27へ出力する。
多重化部27は、グリッド情報、量子化された各グリッドのパワー及び量子化された補助情報を、算術符号化あるいはハフマン符号化といった可変長符号化方式に従って符号化する。そして多重化部27は、可変長符号化されたそれらの情報を、所定のデータ出力形式に従って配列することによって多重化する。この多重化されたデータをSBRデータと呼ぶ。なお、所定のデータ出力形式は、例えば、後述するMPEG-4 ADTS(Audio Data Transport Stream)形式であり、MPEG-4 ADTSにおいて定められたSBRデータの配列にしたがって可変長符号化された情報は配列される。
多重化部27は、SBRデータをビットストリーム生成部14へ出力する。
ビットストリーム生成部14は、AAC符号化器12から受け取ったAACデータ及びSBR符号化器13から受け取ったSBRデータを所定の順序に従って配列することにより多重化する。そしてビットストリーム生成部14は、その多重化により生成されたビットストリームを出力する。
図7は、符号化されたオーディオ信号が格納されたビットストリームの一例を示す図である。この例では、ビットストリームは、MPEG-4 ADTS形式に従って作成され、HE-AACデータとして出力される。図7に示されるビットストリーム700は、ヘッダブロック710と、AACデータブロック720と、FILエレメント730とを含む。このうち、ヘッダブロック710には、ADTS形式のヘッダ情報が格納される。またAACデータブロック720にはAACデータが格納される。そしてFILエレメント730内の所定の位置にSBRデータ740が格納される。
図8は、オーディオ符号化処理の動作フローチャートである。なお、図8に示されたフローチャートは、1フレーム分のオーディオ信号に対する処理を表す。オーディオ符号化装置1は、フレームごとに図8に示されたオーディオ符号化処理の手順を繰り返し実行する。
ダウンサンプリング部11は、各チャネルの信号をダウンサンプリングすることにより低域成分を抽出する(ステップS301)。ダウンサンプリング部11は、各チャネルの低域成分をAAC符号化器12へ出力する。AAC符号化器12は、各チャネルの低域成分をAAC符号化方式に従って符号化する(ステップS302)。そしてAAC符号化器12は、その符号化によって得られたAACデータをビットストリーム生成部14へ出力する。
一方、オーディオ信号の各チャネルの信号はSBR符号化器13にも入力される。そしてSBR符号化器13の時間周波数変換部21は、各チャネルの時間領域の信号を時間周波数変換する(ステップS303)。時間周波数変換部21は、その時間周波数変換により得られた各チャネルの時間周波数信号をグリッド生成部22、グリッドパワー算出部23及び補助情報算出部25へ出力する。
グリッド生成部22のパワー算出部31は、各チャネルについて、時刻ごとのパワーを算出する(ステップS304)。そしてパワー算出部31は、各チャネルの時刻ごとのパワーをグリッド生成部22のトランジェント検出部32及びトランジェント時刻補正部33へ出力する。トランジェント検出部32は、チャネルごとにトランジェント検出処理を実行する(ステップS305)。そしてトランジェント検出部32は、トランジェントを検出すると、そのトランジェント検出時刻をトランジェント時刻補正部33へ通知する。
トランジェント時刻補正部33は、トランジェント検出時刻補正処理を実行する(ステップS306)。そしてトランジェント時刻補正部33は、何れかのチャネルについてトランジェント検出時刻が補正されれば、補正後のトランジェント検出時刻をグリッド生成部22のグリッド決定部34へ通知する。またトランジェント時刻補正部33は、トランジェント検出時刻が補正されていないチャネルについては、トランジェント検出部32により検出されたトランジェント検出時刻をグリッド決定部34へ通知する。
グリッド決定部34は、各チャネルのグリッドを決定する(ステップS307)。その際、グリッド決定部34は、フレーム内でトランジェントが検出されていない区間については、非過渡音用のグリッドを設定する。一方、トランジェントが検出されていれば、グリッド決定部34は、トランジェント検出時刻を開始時刻として、非過渡音用のグリッドよりも短い過渡音用のグリッドを設定する。グリッド決定部34は、設定されたグリッドを表すグリッド情報を、グリッドパワー算出部23、補助情報算出部25及び多重化部27へ通知する。
グリッドパワー算出部23は、グリッド情報が通知されるとグリッドごとのパワーを算出し、パワー量子化部24は、そのグリッドごとのパワーを量子化する(ステップS308)。そしてパワー量子化部24は、量子化されたグリッドごとのパワーを多重化部27へ出力する。また補助情報算出部25は、グリッド情報が通知されると補助情報を算出し、補助情報量子化部26は、その補助情報を量子化する(ステップS309)。そして補助情報量子化部26は、量子化された補助情報を多重化部27へ出力する。多重化部27は、グリッド情報、グリッドごとの量子化パワー及び量子化補助情報を多重化してSBRデータを生成する(ステップS310)。そして多重化部27は、そのSBRデータをビットストリーム生成部14へ出力する。
ビットストリーム生成部14は、SBRデータ及びAACデータを多重化することにより、符号化されたオーディオデータが格納されたビットストリームを生成する(ステップS311)。その後、オーディオ符号化装置1は、符号化処理を終了する。
なお、ステップS301、S302の処理と、ステップS303〜S310の処理は、並列に実行されてもよい。
なお、オーディオ符号化装置1により符号化されたオーディオ信号は、SBR符号化方法に対応したオーディオ復号装置、例えば、MPEG-4 HE-AACに準拠したオーディオ復号装置により再生できる。
図9(a)〜図9(d)を参照しつつ、この実施形態によるオーディオ符号化装置により符号化されたステレオオーディオ信号でのプリエコーの抑制効果について説明する。図9(a)の上側のグラフ901は、符号化される前のオーディオ信号の左側チャネルの時間及び周波数ごとの信号強度を表し、下側のグラフ902は、符号化される前のオーディオ信号の右側チャネルの時間及び周波数ごとの信号強度を表す。また図9(b)の上側のグラフ911及び下側のグラフ912は、それぞれ、特表2003−529787号公報に開示された方法により図9(a)に示されたオーディオ信号を符号化した後にその符号化信号を再生した左側及び右側チャネルの信号強度を表す。同様に、図9(c)の上側のグラフ921及び下側のグラフ922は、それぞれ、特開2006−3580号公報に開示された方法により図9(a)に示されたオーディオ信号を符号化した後にその符号化信号を再生した左側及び右側チャネルの信号強度を表す。そして図9(d)の上側のグラフ931及び下側のグラフ932は、それぞれ、オーディオ符号化装置1により図9(a)に示されたオーディオ信号を符号化した後にその符号化信号を再生した左側及び右側チャネルの信号強度を表す。図9(a)〜図9(d)において、横軸は時間を表し、縦軸は周波数を表す。そして各点の濃度がその点に対応する時間及び周波数での信号強度を表し、濃度が濃いほど信号強度が強い。
グラフ901及び902に示されるように、時刻trにおいて、左側チャネル、右側チャネルの両方とも同一の音に起因するトランジェントが生じている。これに対し、特表2003−529787号公報に開示された方法により符号化されたオーディオ信号の再生信号では、右側チャネルにおいて時刻trよりも前の時間周波数領域913内の信号強度が原音よりも強くなっている。すなわち、時間周波数領域913でプリエコーが生じている。また、特開2006−3580号公報に開示された方法により符号化されたオーディオ信号の再生信号では、左側チャネル及び右側チャネルにおいて時刻trよりも前の時間周波数領域923、924内の信号強度が原音よりも強くなっている。すなわち、時間周波数領域923、924でプリエコーが生じている。このように、従来技術によるオーディオ符号化方法では、プリエコーが生じ、その結果として再生音質が劣化する。
これに対し、オーディオ符号化装置1により符号化されたオーディオ信号の再生信号では、時刻tr直前の各周波数の信号強度は、原音における時刻tr直前の各周波数の信号強度とほぼ等しく、プリエコーが生じていないことが分かる。
以上に説明してきたように、このオーディオ符号化装置は、チャネルごとのトランジェントの検出時刻が異なっている場合に、各チャネルのトランジェントが同一の音に起因するか否か判定する。そしてこのオーディオ符号化装置は、各チャネルのトランジェントが同一の音に起因すると判定した場合には、後検出チャネルのトランジェント検出時刻を先検出チャネルのトランジェント検出時刻と一致させるよう補正する。そのため、このオーディオ符号化装置は、各チャネルについて最も早い時刻に検出されたトランジェントを基準として、過渡音用のグリッドを設定できるので、検出時刻の遅いチャネルでプリエコーが生じることを抑制できる。その結果、このオーディオ符号化装置は、再生音質を向上できる。
なお、本発明は上記の実施形態に限られるものではない。変形例によれば、トランジェント時刻補正部は、後検出チャネルのパワーに関わらず、チャネル間のトランジェントの検出時刻の差のみに基づいて、後検出チャネルのトランジェント検出時刻を補正するか否か判定してもよい。例えば、トランジェント時刻補正部は、チャネル間のトランジェント検出時刻の差の絶対値が所定時間未満であれば、後検出チャネルのトランジェント検出時刻を先検出チャネルのトランジェント検出時刻と一致させるよう補正してもよい。この所定時間は、各チャネルのトランジェントが同一の音に起因するとみなせるトランジェント検出時刻の差の最大値であり、例えば、上記の実施形態における閾値Thdに設定される。
他の変形例によれば、トランジェント時刻補正部は、図5に示されたトランジェント検出時刻補正処理の動作フローチャートにおけるステップS204における閾値Thpを、先検出チャネルのトランジェント検出時刻におけるパワーに基づいて決定してもよい。この場合、閾値Thpは、例えば、先検出チャネルのトランジェント検出時刻におけるパワーの1/4〜1/2に設定される。
あるいは、トランジェント時刻補正部は、ステップS204において、先検出チャネルのトランジェント検出時刻における後検出チャネルのパワーを閾値Thpと比較する代わりに、各チャネルのトランジェント検出時刻におけるパワー同士を比較してもよい。この場合、トランジェント時刻補正部は、例えば、先検出チャネルのトランジェント検出時刻に対する後検出チャネルのトランジェント検出時刻におけるパワーの比が、1/4〜1/2よりも大きければ、後検出チャネルのトランジェント検出時刻を補正すればよい。
これらの変形例により、トランジェント時刻補正部は、両方のチャネルのパワーの比較によりトランジェント検出時刻を補正できるので、チャネル間のトランジェント検出時刻の差が同一の音に起因するか否かをより正確に判定できる。
なお、符号化対象となるオーディオ信号はステレオオーディオ信号に限られず、複数のチャネルを持つオーディオ信号であればよい。例えば、符号化対象となるオーディオ信号は、3.1chまたは5.1chオーディオ信号とすることができる。符号化対象となるオーディオ信号のチャネル数が3以上である場合、オーディオ符号化装置は、各チャネルのトランジェント検出時刻のうち、最も早い時刻を求める。そしてオーディオ符号化装置は、その最も早いトランジェント検出時刻に対応するチャネルと、その他のチャネルとの間で上記のトランジェント検出時刻補正処理を行えばよい。
上記の実施形態または変形例によるオーディオ符号化装置が有する各部の機能をコンピュータに実現させるコンピュータプログラムは、半導体メモリ、磁気記録媒体または光記録媒体などの記録媒体に記憶された形で提供されてもよい。
また、上記の実施形態または変形例によるオーディオ符号化装置は、コンピュータ、ビデオ信号の録画機または映像伝送装置など、オーディオ信号を伝送または記録するために利用される各種の機器に実装される。
図10は、上記の実施形態または変形例によるオーディオ符号化装置が組み込まれた映像伝送装置の概略構成図である。映像伝送装置100は、映像取得部101と、音声取得部102と、映像符号化部103と、音声符号化部104と、多重化部105と、通信処理部106と、出力部107とを有する。
映像取得部101は、動画像信号をビデオカメラなどの他の装置から取得するためのインターフェース回路を有する。そして映像取得部101は、映像伝送装置100に入力された動画像信号を映像符号化部103へ渡す。
音声取得部102は、オーディオ音声信号をマイクロホンなどの他の装置から取得するためのインターフェース回路を有する。そして音声取得部102は、映像伝送装置100に入力されたオーディオ音声信号を音声符号化部104へ渡す。
映像符号化部103は、動画像信号のデータ量を圧縮するために、動画像信号を符号化する。そのために、映像符号化部103は、例えば、MPEG-2、MPEG-4、H.264 MPEG-4 Advanced Video Coding(H.264 MPEG-4 AVC)などの動画像符号化規格に従って動画像信号を符号化する。そして映像符号化部103は、符号化動画像データを多重化部105へ出力する。
音声符号化部104は、上記の実施形態またはその変形例によるオーディオ符号化装置を有する。そして音声符号化部104は、上記の実施形態またはその変形例に従って、オーディオ信号を符号化する。そして音声符号化部104は、符号化オーディオデータを多重化部105へ出力する。
多重化部105は、符号化動画像データと符号化オーディオデータを多重化する。そして多重化部105は、MPEG-2トランスポートストリームなどの映像データの伝送用の所定の形式に従ったストリームを作成する。
多重化部105は、符号化動画像データと符号化オーディオデータが多重化されたストリームを通信処理部106へ出力する。
通信処理部106は、符号化動画像データと符号化オーディオデータが多重化されたストリームを、TCP/IPなどの所定の通信規格にしたがったパケットに分割する。また通信処理部106は、各パケットに、宛先情報などが格納された所定のヘッダを付す。そして通信処理部106は、パケットを出力部107へ渡す。
出力部107は、映像伝送装置100を通信回線に接続するためのインターフェース回路を有する。そして出力部107は、通信処理部106から受け取ったパケットを通信回線へ出力する。
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
オーディオ信号が有する複数のチャネルのそれぞれについて、当該チャネルの信号を時間周波数変換することにより時刻ごとの周波数成分を表す時間周波数信号を生成する時間周波数変換部と、
前記複数のチャネルのそれぞれについてトランジェントを検出し、トランジェント検出時刻を求めるトランジェント検出部と、
前記複数のチャネルのうち、前記トランジェント検出時刻が最も早い先検出チャネルと、当該先検出チャネル以外のチャネルである後検出チャネル間での前記トランジェント検出時刻の差が同一の音に起因するトランジェントとみなせる範囲内である場合、前記後検出チャネルのトランジェント検出時刻を前記先検出チャネルのトランジェント検出時刻に一致させるよう補正するトランジェント時刻補正部と、
前記複数のチャネルのそれぞれについて、前記トランジェントが検出されていない区間に非過渡音用グリッドを設定し、前記トランジェントが検出されている区間には、前記非過渡音用グリッドよりも短い時間長の過渡音用グリッドを設定するグリッド決定部と、
前記過渡音用グリッドまたは前記非過渡音用グリッドごとに、前記オーディオ信号を符号化する符号化部と、
を有するオーディオ符号化装置。
(付記2)
前記複数のチャネルのそれぞれについて、前記時間周波数信号に基づいて時刻ごとのパワーを算出するパワー算出部をさらに有し、
前記トランジェント検出部は、前記複数のチャネルのそれぞれについて、複数の時刻を含む所定の区間を設定するとともに、当該所定の区間を時間軸に沿って移動させつつ、当該所定の区間内の時刻の前記パワーの統計値を求め、該統計値が第1の閾値を超えた場合に当該チャネルについて前記トランジェントを検出し、当該所定の区間に含まれる何れかの時刻を前記トランジェント検出時刻とする、付記1に記載のオーディオ符号化装置。
(付記3)
前記トランジェント時刻補正部は、前記先検出チャネルのトランジェント検出時刻と前記後検出チャネルのトランジェント検出時刻の差が前記所定の区間よりも短い場合、当該検出時刻の差は同一の音に起因するトランジェントとみなせる範囲内であると判定する、付記2に記載のオーディオ符号化装置。
(付記4)
前記トランジェント時刻補正部は、前記先検出チャネルのトランジェント検出時刻における前記後検出チャネルのパワーが過渡音のパワーに対応する第2の閾値よりも大きい場合に限り、前記後検出チャネルのトランジェント検出時刻を前記先検出チャネルのトランジェント検出時刻に一致させるよう補正する付記1〜3の何れか一項に記載のオーディオ符号化装置。
(付記5)
前記トランジェント時刻補正部は、前記先検出チャネルのトランジェント検出時刻におけるパワーに対する前記後検出チャネルのトランジェント検出時刻におけるパワーの比が所定値よりも大きい場合に限り、前記後検出チャネルのトランジェント検出時刻を前記先検出チャネルのトランジェント検出時刻に一致させるよう補正する付記1〜3の何れか一項に記載のオーディオ符号化装置。
(付記6)
前記複数のチャネルのそれぞれの信号から、第1の周波数よりも低い周波数を持つ低域成分を抽出するダウンサンプリング部と、
前記低域成分を所定の符号化方式に従って符号化する低域符号化部とをさらに有し、
前記グリッド決定部は、前記複数のチャネルのそれぞれについて、前記低域成分と前記第1の周波数以上の周波数を持つ高域成分とに対して同一の期間となるように前記非過渡音用グリッドまたは前記過渡音用グリッドを別個に設定し、
前記符号化部は、同一の期間に設定された前記低域成分のグリッド内の前記時間周波数信号を対応する前記高域成分として複製するために利用する補助情報を求め、当該補助情報及び前記低域成分のグリッドのパワーを符号化する、付記1〜5の何れか一項に記載のオーディオ符号化装置。
(付記7)
オーディオ信号が有する複数のチャネルのそれぞれについて、当該チャネルの信号を時間周波数変換することにより時刻ごとの周波数成分を表す時間周波数信号を生成し、
前記複数のチャネルのそれぞれについてトランジェントを検出し、トランジェント検出時刻を求め、
前記複数のチャネルのうち、前記トランジェント検出時刻が最も早い先検出チャネルと、当該先検出チャネル以外のチャネルである後検出チャネル間での前記トランジェント検出時刻の差が同一の音に起因するトランジェントとみなせる範囲内である場合、前記後検出チャネルのトランジェント検出時刻を前記先検出チャネルのトランジェント検出時刻に一致させるよう補正し、
前記複数のチャネルのそれぞれについて、前記トランジェントが検出されていない区間に非過渡音用グリッドを設定し、前記トランジェントが検出されている区間には、前記非過渡音用グリッドよりも短い時間長の過渡音用グリッドを設定し、
前記過渡音用グリッドまたは前記非過渡音用グリッドごとに、前記オーディオ信号を符号化する、
ことを含むオーディオ符号化方法。
(付記8)
オーディオ信号が有する複数のチャネルのそれぞれについて、当該チャネルの信号を時間周波数変換することにより時刻ごとの周波数成分を表す時間周波数信号を生成し、
前記複数のチャネルのそれぞれについてトランジェントを検出し、トランジェント検出時刻を求め、
前記複数のチャネルのうち、前記トランジェント検出時刻が最も早い先検出チャネルと、当該先検出チャネル以外のチャネルである後検出チャネル間での前記トランジェント検出時刻の差が同一の音に起因するトランジェントとみなせる範囲内である場合、前記後検出チャネルのトランジェント検出時刻を前記先検出チャネルのトランジェント検出時刻に一致させるよう補正し、
前記複数のチャネルのそれぞれについて、前記トランジェントが検出されていない区間に非過渡音用グリッドを設定し、前記トランジェントが検出されている区間には、前記非過渡音用グリッドよりも短い時間長の過渡音用グリッドを設定し、
前記過渡音用グリッドまたは前記非過渡音用グリッドごとに、前記オーディオ信号を符号化する、
ことをコンピュータに実行させるオーディオ符号化用コンピュータプログラム。
(付記9)
入力された動画像信号を符号化する動画像符号化部と、
入力された複数のチャネルを持つオーディオ信号を符号化するオーディオ符号化部であって、
前記複数のチャネルのそれぞれについて、当該チャネルの信号を時間周波数変換することにより時刻ごとの周波数成分を表す時間周波数信号を生成する時間周波数変換部と、
前記複数のチャネルのそれぞれについてトランジェントを検出し、トランジェント検出時刻を求めるトランジェント検出部と、
前記複数のチャネルのうち、前記トランジェント検出時刻が最も早い先検出チャネルと、当該先検出チャネル以外のチャネルである後検出チャネル間での前記トランジェント検出時刻の差が同一の音に起因するトランジェントとみなせる範囲内である場合、前記後検出チャネルのトランジェント検出時刻を前記先検出チャネルのトランジェント検出時刻に一致させるよう補正するトランジェント時刻補正部と、
前記複数のチャネルのそれぞれについて、前記トランジェントが検出されていない区間に非過渡音用グリッドを設定し、前記トランジェントが検出されている区間には、前記非過渡音用グリッドよりも短い時間長の過渡音用グリッドを設定するグリッド決定部と、
前記過渡音用グリッドまたは前記非過渡音用グリッドごとに、前記オーディオ信号を符号化する符号化部と、
を有するオーディオ符号化部と、
前記動画像符号化部により符号化された動画像信号と前記オーディオ符号化部により符号化されたオーディオ信号を多重化することにより映像ストリームを生成する多重化部と、
を有する映像伝送装置。
1 オーディオ符号化装置
11 ダウンサンプリング部
12 AAC符号化器
13 SBR符号化器
14 ビットストリーム生成部
21 時間周波数変換部
22 グリッド生成部
23 グリッドパワー算出部
24 パワー量子化部
25 補助情報算出部
26 補助情報量子化部
27 多重化部
31 パワー算出部
32 トランジェント検出部
33 トランジェント時刻補正部
34 グリッド決定部
100 映像伝送装置
101 映像取得部
102 音声取得部
103 映像符号化部
104 音声符号化部
105 多重化部
106 通信処理部
107 出力部

Claims (7)

  1. オーディオ信号が有する複数のチャネルのそれぞれについて、当該チャネルの信号を時間周波数変換することにより時刻ごとの周波数成分を表す時間周波数信号を生成する時間周波数変換部と、
    前記複数のチャネルのそれぞれについてトランジェントを検出し、トランジェント検出時刻を求めるトランジェント検出部と、
    前記複数のチャネルのうち、前記トランジェント検出時刻が最も早い先検出チャネルと、当該先検出チャネル以外のチャネルである後検出チャネル間での前記トランジェント検出時刻の差が同一の音に起因するトランジェントとみなせる範囲内である場合、前記後検出チャネルのトランジェント検出時刻を前記先検出チャネルのトランジェント検出時刻に一致させるよう補正するトランジェント時刻補正部と、
    前記複数のチャネルのそれぞれについて、前記トランジェントが検出されていない区間に非過渡音用グリッドを設定し、前記トランジェントが検出されている区間には、前記非過渡音用グリッドよりも短い時間長の過渡音用グリッドを設定するグリッド決定部と、
    前記過渡音用グリッドまたは前記非過渡音用グリッドごとに、前記オーディオ信号を符号化する符号化部と、
    を有するオーディオ符号化装置。
  2. 前記複数のチャネルのそれぞれについて、前記時間周波数信号に基づいて時刻ごとのパワーを算出するパワー算出部をさらに有し、
    前記トランジェント検出部は、前記複数のチャネルのそれぞれについて、複数の時刻を含む所定の区間を設定するとともに、当該所定の区間を時間軸に沿って移動させつつ、当該所定の区間内の時刻の前記パワーの統計値を求め、該統計値が第1の閾値を超えた場合に当該チャネルについて前記トランジェントを検出し、当該所定の区間に含まれる何れかの時刻を前記トランジェント検出時刻とする、請求項1に記載のオーディオ符号化装置。
  3. 前記トランジェント時刻補正部は、前記先検出チャネルのトランジェント検出時刻と前記後検出チャネルのトランジェント検出時刻の差が前記所定の区間よりも短い場合、当該検出時刻の差は同一の音に起因するトランジェントとみなせる範囲内であると判定する、請求項2に記載のオーディオ符号化装置。
  4. 前記トランジェント時刻補正部は、前記先検出チャネルのトランジェント検出時刻における前記後検出チャネルのパワーが過渡音のパワーに対応する第2の閾値よりも大きい場合に限り、前記後検出チャネルのトランジェント検出時刻を前記先検出チャネルのトランジェント検出時刻に一致させるよう補正する請求項1〜3の何れか一項に記載のオーディオ符号化装置。
  5. 前記トランジェント時刻補正部は、前記先検出チャネルのトランジェント検出時刻におけるパワーに対する前記後検出チャネルのトランジェント検出時刻におけるパワーの比が所定値よりも大きい場合に限り、前記後検出チャネルのトランジェント検出時刻を前記先検出チャネルのトランジェント検出時刻に一致させるよう補正する請求項1〜3の何れか一項に記載のオーディオ符号化装置。
  6. オーディオ信号が有する複数のチャネルのそれぞれについて、当該チャネルの信号を時間周波数変換することにより時刻ごとの周波数成分を表す時間周波数信号を生成し、
    前記複数のチャネルのそれぞれについてトランジェントを検出し、トランジェント検出時刻を求め、
    前記複数のチャネルのうち、前記トランジェント検出時刻が最も早い先検出チャネルと、当該先検出チャネル以外のチャネルである後検出チャネル間での前記トランジェント検出時刻の差が同一の音に起因するトランジェントとみなせる範囲内である場合、前記後検出チャネルのトランジェント検出時刻を前記先検出チャネルのトランジェント検出時刻に一致させるよう補正し、
    前記複数のチャネルのそれぞれについて、前記トランジェントが検出されていない区間に非過渡音用グリッドを設定し、前記トランジェントが検出されている区間には、前記非過渡音用グリッドよりも短い時間長の過渡音用グリッドを設定し、
    前記過渡音用グリッドまたは前記非過渡音用グリッドごとに、前記オーディオ信号を符号化する、
    ことを含むオーディオ符号化方法。
  7. オーディオ信号が有する複数のチャネルのそれぞれについて、当該チャネルの信号を時間周波数変換することにより時刻ごとの周波数成分を表す時間周波数信号を生成し、
    前記複数のチャネルのそれぞれについてトランジェントを検出し、トランジェント検出時刻を求め、
    前記複数のチャネルのうち、前記トランジェント検出時刻が最も早い先検出チャネルと、当該先検出チャネル以外のチャネルである後検出チャネル間での前記トランジェント検出時刻の差が同一の音に起因するトランジェントとみなせる範囲内である場合、前記後検出チャネルのトランジェント検出時刻を前記先検出チャネルのトランジェント検出時刻に一致させるよう補正し、
    前記複数のチャネルのそれぞれについて、前記トランジェントが検出されていない区間に非過渡音用グリッドを設定し、前記トランジェントが検出されている区間には、前記非過渡音用グリッドよりも短い時間長の過渡音用グリッドを設定し、
    前記過渡音用グリッドまたは前記非過渡音用グリッドごとに、前記オーディオ信号を符号化する、
    ことをコンピュータに実行させるオーディオ符号化用コンピュータプログラム。
JP2011045171A 2011-03-02 2011-03-02 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム Expired - Fee Related JP5633431B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011045171A JP5633431B2 (ja) 2011-03-02 2011-03-02 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
US13/362,317 US9131290B2 (en) 2011-03-02 2012-01-31 Audio coding device, audio coding method, and computer-readable recording medium storing audio coding computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011045171A JP5633431B2 (ja) 2011-03-02 2011-03-02 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2012181429A JP2012181429A (ja) 2012-09-20
JP5633431B2 true JP5633431B2 (ja) 2014-12-03

Family

ID=46753306

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011045171A Expired - Fee Related JP5633431B2 (ja) 2011-03-02 2011-03-02 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム

Country Status (2)

Country Link
US (1) US9131290B2 (ja)
JP (1) JP5633431B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5609591B2 (ja) * 2010-11-30 2014-10-22 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
JP5633431B2 (ja) * 2011-03-02 2014-12-03 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
CN105280190B (zh) * 2015-09-16 2018-11-23 深圳广晟信源技术有限公司 带宽扩展编码和解码方法以及装置
US10339947B2 (en) 2017-03-22 2019-07-02 Immersion Networks, Inc. System and method for processing audio data
EP3382701A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
EP3382700A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
CN110998722B (zh) * 2017-07-03 2023-11-10 杜比国际公司 低复杂性密集瞬态事件检测和译码
JP7318645B2 (ja) * 2018-06-21 2023-08-01 ソニーグループ株式会社 符号化装置および方法、復号装置および方法、並びにプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3546755B2 (ja) * 1999-05-06 2004-07-28 ヤマハ株式会社 リズム音源信号の時間軸圧伸方法及び装置
JP3430974B2 (ja) * 1999-06-22 2003-07-28 ヤマハ株式会社 ステレオ信号の時間軸圧伸方法及び装置
US6978236B1 (en) 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
WO2002037688A1 (en) * 2000-11-03 2002-05-10 Koninklijke Philips Electronics N.V. Parametric coding of audio signals
JP4347634B2 (ja) * 2003-08-08 2009-10-21 富士通株式会社 符号化装置及び符号化方法
WO2005036527A1 (ja) * 2003-10-07 2005-04-21 Matsushita Electric Industrial Co., Ltd. スペクトル包絡線符号化のための時間境界及び周波数分解能の決定方法
JP2006003580A (ja) 2004-06-17 2006-01-05 Matsushita Electric Ind Co Ltd オーディオ信号符号化装置及びオーディオ信号符号化方法
SE0402651D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling
US7546240B2 (en) * 2005-07-15 2009-06-09 Microsoft Corporation Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition
US8417532B2 (en) * 2006-10-18 2013-04-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
JP4984983B2 (ja) * 2007-03-09 2012-07-25 富士通株式会社 符号化装置および符号化方法
RU2488896C2 (ru) * 2008-03-04 2013-07-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Микширование входящих информационных потоков и генерация выходящего информационного потока
EP2301027B1 (en) * 2008-07-11 2015-04-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus and a method for generating bandwidth extension output data
EP2214165A3 (en) * 2009-01-30 2010-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for manipulating an audio signal comprising a transient event
JP5633431B2 (ja) * 2011-03-02 2014-12-03 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム

Also Published As

Publication number Publication date
US20120224703A1 (en) 2012-09-06
JP2012181429A (ja) 2012-09-20
US9131290B2 (en) 2015-09-08

Similar Documents

Publication Publication Date Title
JP5633431B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
KR101428608B1 (ko) 대역폭 확장을 위한 스펙트럼 평탄도 제어
JP4918841B2 (ja) 符号化システム
JP5267362B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置
KR101220621B1 (ko) 부호화 장치 및 부호화 방법
KR100814673B1 (ko) 오디오 부호화
KR20160018497A (ko) 음향 신호의 대역폭 확장을 행하는 장치 및 방법
JP4767687B2 (ja) スペクトル包絡線符号化のための時間境界及び周波数分解能の決定方法
JP3999807B2 (ja) 改良された周波数領域におけるエラー隠蔽技術
KR100970446B1 (ko) 주파수 확장을 위한 가변 잡음레벨 결정 장치 및 그 방법
US10762912B2 (en) Estimating noise in an audio signal in the LOG2-domain
KR20150096494A (ko) 오디오 신호의 불연속 전송에서 높은 스펙트럼-시간 해상도를 가진 편안한 잡음의 생성
JP5609591B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
KR20160120713A (ko) 복호 장치, 부호화 장치, 복호 방법, 부호화 방법, 단말 장치, 및 기지국 장치
JP2008261999A (ja) オーディオ復号装置
US11176954B2 (en) Encoding and decoding of multichannel or stereo audio signals
JP5379871B2 (ja) オーディオ符号化のための量子化
KR102231756B1 (ko) 오디오 신호의 부호화, 복호화 방법 및 장치
US9928841B2 (en) Method of packet loss concealment in ADPCM codec and ADPCM decoder with PLC circuit
TW201443884A (zh) 用以處理編碼信號之裝置及方法和用以產生編碼信號之編碼器及方法
KR102243217B1 (ko) 오디오 신호 부호화 방법 및 장치
US8818818B2 (en) Audio encoding device, method, and program which controls the number of time groups in a frame using three successive time group energies
KR101421256B1 (ko) 휴대용 단말기의 대역 확장 기법을 이용한 부호화 장치 및방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140812

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140916

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140929

LAPS Cancellation because of no payment of annual fees