JP6520937B2 - オーディオ信号処理装置および方法、符号化装置および方法、並びにプログラム - Google Patents

オーディオ信号処理装置および方法、符号化装置および方法、並びにプログラム Download PDF

Info

Publication number
JP6520937B2
JP6520937B2 JP2016525768A JP2016525768A JP6520937B2 JP 6520937 B2 JP6520937 B2 JP 6520937B2 JP 2016525768 A JP2016525768 A JP 2016525768A JP 2016525768 A JP2016525768 A JP 2016525768A JP 6520937 B2 JP6520937 B2 JP 6520937B2
Authority
JP
Japan
Prior art keywords
channel
audio signal
unit
dialog
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016525768A
Other languages
English (en)
Other versions
JPWO2015186535A1 (ja
Inventor
光行 畠中
光行 畠中
徹 知念
徹 知念
辻 実
実 辻
本間 弘幸
弘幸 本間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2015186535A1 publication Critical patent/JPWO2015186535A1/ja
Application granted granted Critical
Publication of JP6520937B2 publication Critical patent/JP6520937B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/02Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/09Electronic reduction of distortion of stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Description

本技術はオーディオ信号処理装置および方法、符号化装置および方法、並びにプログラムに関し、特に、より高品質な音声を得ることができるようにしたオーディオ信号処理装置および方法、符号化装置および方法、並びにプログラムに関する。
従来、マルチチャンネルデータのオーディオ再生において、実際の再生環境が元のコンテンツが必要とする再生環境と同等以上ではない場合には、一般的にダウンミックス処理によって、より少ないチャンネル構成のオーディオ信号への変換が行われ、再生される方法が用いられている(例えば、非特許文献1参照)。
ISO/IEC 14496-3:2009/AMD 4:2013 Information technology-Coding of audio-visual objects-Part 3: Audio
そうしたマルチチャンネルデータには、主に人の声からなる音声であるダイアログ音声など、他の背景音に対して支配的で、かつ重要な意味を持つチャンネルが含まれる場合があるが、ダウンミックス処理によりダイアログ音声のチャンネルの信号はダウンミックス後のいくつかのチャンネルに分散される。また、ダウンミックス処理における複数チャンネルの信号の加算に起因するクリップを抑制するためのゲイン抑制補正により、加算前の各チャンネルの信号のゲインが小さくなってしまう。
これらの原因により、ダウンミックス処理後のダイアログ音声の音像定位がはっきりしなくなったり、ダイアログ音声の再生音量も小さくなったりして、結果としてダイアログ音声が聞き取りづらくなってしまう。
以上のように、上述した技術ではマルチチャンネルデータのオーディオ再生時にダウンミックス処理を行うと、ダイアログ音声が聞き取りづらくなり、再生音声の品質が低下してしまう。
本技術は、このような状況に鑑みてなされたものであり、より高品質な音声を得ることができるようにするものである。
本技術の第1の側面のオーディオ信号処理装置は、マルチチャンネルのオーディオ信号の各チャンネルに関する情報に基づいて、前記マルチチャンネルのオーディオ信号のなかから、ダイアログ音声のチャンネルのオーディオ信号と、ダウンミックス対象の複数のチャンネルのオーディオ信号とを選択する選択部と、前記ダウンミックス対象とされた複数のチャンネルのオーディオ信号を1または複数のチャンネルのオーディオ信号にダウンミックスするダウンミックス部と、前記ダウンミックスにより得られた1または複数のチャンネルのオーディオ信号のうちの所定のチャンネルのオーディオ信号に、前記ダイアログ音声のチャンネルのオーディオ信号を加算する加算部とを備える。
前記加算部には、前記ダイアログ音声のチャンネルのオーディオ信号の加算先を示す加算先情報により指定されたチャンネルを前記所定のチャンネルとして、前記ダイアログ音声のチャンネルのオーディオ信号の加算を行わせることができる。
前記ダイアログ音声のチャンネルのオーディオ信号の前記所定のチャンネルのオーディオ信号への加算時のゲインを示すゲイン情報に基づいて、前記ダイアログ音声のチャンネルのオーディオ信号をゲイン補正するゲイン補正部をさらに設け、前記加算部には、前記ゲイン補正部によりゲイン補正されたオーディオ信号を、前記所定のチャンネルのオーディオ信号に加算させることができる。
オーディオ信号処理装置には、ビットストリームから前記各チャンネルに関する情報、前記加算先情報、および前記ゲイン情報を抽出する抽出部をさらに設けることができる。
前記抽出部には、前記ビットストリームから符号化された前記マルチチャンネルのオーディオ信号をさらに抽出させ、前記符号化された前記マルチチャンネルのオーディオ信号を復号して前記選択部に出力する復号部をさらに設けることができる。
前記ダウンミックス部には、前記ダウンミックス対象とされた複数のチャンネルのオーディオ信号に対して多段階のダウンミックスを行わせ、前記加算部には、前記多段階のダウンミックスにより得られた前記1または複数のチャンネルのオーディオ信号のうちの前記所定のチャンネルのオーディオ信号に、前記ダイアログ音声のチャンネルのオーディオ信号を加算させることができる。
本技術の第1の側面のオーディオ信号処理方法またはプログラムは、マルチチャンネルのオーディオ信号の各チャンネルに関する情報に基づいて、前記マルチチャンネルのオーディオ信号のなかから、ダイアログ音声のチャンネルのオーディオ信号と、ダウンミックス対象の複数のチャンネルのオーディオ信号とを選択し、前記ダウンミックス対象とされた複数のチャンネルのオーディオ信号を1または複数のチャンネルのオーディオ信号にダウンミックスし、前記ダウンミックスにより得られた1または複数のチャンネルのオーディオ信号のうちの所定のチャンネルのオーディオ信号に、前記ダイアログ音声のチャンネルのオーディオ信号を加算するステップを含む。
本技術の第1の側面においては、マルチチャンネルのオーディオ信号の各チャンネルに関する情報に基づいて、前記マルチチャンネルのオーディオ信号のなかから、ダイアログ音声のチャンネルのオーディオ信号と、ダウンミックス対象の複数のチャンネルのオーディオ信号とが選択され、前記ダウンミックス対象とされた複数のチャンネルのオーディオ信号が1または複数のチャンネルのオーディオ信号にダウンミックスされ、前記ダウンミックスにより得られた1または複数のチャンネルのオーディオ信号のうちの所定のチャンネルのオーディオ信号に、前記ダイアログ音声のチャンネルのオーディオ信号が加算される。
本技術の第2の側面の符号化装置は、マルチチャンネルのオーディオ信号を符号化する符号化部と、前記マルチチャンネルのオーディオ信号の各チャンネルが、ダイアログ音声のチャンネルであるか否かを示す識別情報を生成する生成部と、符号化された前記マルチチャンネルのオーディオ信号と、前記識別情報とを含むビットストリームを生成するパッキング部とを備える。
前記生成部には、前記マルチチャンネルのオーディオ信号がダウンミックスされた場合に、前記ダウンミックスにより得られる1または複数のチャンネルのオーディオ信号のうちの、前記ダイアログ音声のチャンネルのオーディオ信号の加算先となるオーディオ信号のチャンネルを示す加算先情報をさらに生成させ、前記パッキング部には、符号化された前記マルチチャンネルのオーディオ信号、前記識別情報、および前記加算先情報を含む前記ビットストリームを生成させることができる。
前記生成部には、前記ダイアログ音声のチャンネルのオーディオ信号の前記加算先情報により示されるチャンネルへの加算時のゲイン情報をさらに生成させ、前記パッキング部には、符号化された前記マルチチャンネルのオーディオ信号、前記識別情報、前記加算先情報、および前記ゲイン情報を含む前記ビットストリームを生成させることができる。
本技術の第2の側面の符号化方法またはプログラムは、マルチチャンネルのオーディオ信号を符号化し、前記マルチチャンネルのオーディオ信号の各チャンネルが、ダイアログ音声のチャンネルであるか否かを示す識別情報を生成し、符号化された前記マルチチャンネルのオーディオ信号と、前記識別情報とを含むビットストリームを生成するステップを含む。
本技術の第2の側面においては、マルチチャンネルのオーディオ信号が符号化され、前記マルチチャンネルのオーディオ信号の各チャンネルが、ダイアログ音声のチャンネルであるか否かを示す識別情報が生成され、符号化された前記マルチチャンネルのオーディオ信号と、前記識別情報とを含むビットストリームが生成される。
本技術の第1の側面および第2の側面によれば、より高品質な音声を得ることができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。
ビットストリームについて説明する図である。 ダイアログチャンネル情報について説明する図である。 各チャンネルのマッピングについて説明する図である。 ゲイン係数について説明する図である。 エンコーダの構成例を示す図である。 ダイアログチャンネル情報の符号化について説明する図である。 符号化処理を説明するフローチャートである。 デコーダの構成例を示す図である。 ダウンミックス処理部の構成例を示す図である。 ダウンミックス処理部のより具体的な構成例を示す図である。 復号処理を説明するフローチャートである。 ダウンミックス処理を説明するフローチャートである。 ダウンミックス処理部のより具体的な構成例を示す図である。 コンピュータの構成例を示す図である。
以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術の概要について〉
本技術は、マルチチャンネルのオーディオ信号においてダイアログ音声が含まれるチャンネルのオーディオ信号はダウンミックス処理の対象とせずに別途指定したチャンネルから出力することで、ダイアログ音声が聞き取りづらくなることを防止し、より高品質な音声を得ることができるようにするものである。また、本技術によれば、複数のダイアログ音声が含まれるマルチチャンネルのオーディオ信号において、複数のダイアログ音声のチャンネルを識別することで、選択的にダイアログ音声を再生することができる。
なお、ここではダウンミックス処理の対象外とするチャンネルがダイアログ音声のチャンネルである場合を例として説明するが、ダイアログ音声に限らず、背景音等に対して支配的で、重要な意味を持つ他の音声のチャンネルがダウンミックスの対象外とされ、ダウンミックス後の所定のチャンネルに加算されてもよい。また、以下では、マルチチャンネルのオーディオ信号がAAC(Advanced Audio Coding)規格に従って符号化される場合について説明するが、他の方式で符号化される場合にも同様の処理が行なわれる。
例えば、マルチチャンネルのオーディオ信号がAAC規格に従って符号化され、伝送される場合、各チャンネルのオーディオ信号がフレームごとに符号化されて伝送される。
具体的には図1に示すように、符号化されたオーディオ信号や、オーディオ信号の復号等に必要な情報が複数のエレメント(ビットストリームエレメント)に格納され、それらのエレメントからなるビットストリームが伝送されることになる。
この例では、1フレーム分のビットストリームには、先頭から順番にn個のエレメントEL1乃至エレメントELnが配置され、最後に当該フレームの情報に関する終端位置であることを示す識別子TERMが配置されている。
例えば、先頭に配置されたエレメントEL1は、DSE(Data Stream Element)と呼ばれるアンシラリデータ領域であり、DSEにはオーディオ信号のダウンミックスに関する情報や、ダイアログ音声に関する情報であるダイアログチャンネル情報など、複数の各チャンネルに関する情報が記述される。
エレメントEL1の後に続くエレメントEL2乃至エレメントELnには、符号化されたオーディオ信号が格納される。特に、シングルチャンネルのオーディオ信号が格納されているエレメントはSCEと呼ばれており、ペアとなる2つのチャンネルのオーディオ信号が格納されているエレメントはCPEと呼ばれている。
本技術では、マルチチャンネルのオーディオ信号がダウンミックスされる場合、ダイアログ音声のチャンネルのオーディオ信号はダウンミックスの対象外とされる。そこで、本技術では、ビットストリームの受信側において簡単にダイアログ音声のチャンネルを特定することができるように、ダイアログチャンネル情報が生成されてDSEに格納される。
このようなダイアログチャンネル情報のシンタックスは、例えば図2に示すものとされる。
図2において「ext_diag_status」は、このext_diag_status以下において、ダイアログ音声に関する情報が存在するか否かを示すフラグである。具体的にはext_diag_statusの値が「1」である場合、ダイアログ音声に関する情報が存在し、ext_diag_statusの値が「0」である場合には、ダイアログ音声に関する情報は存在しない。ext_diag_statusの値が「0」である場合には、ext_diag_status以下には「0000000」がセットされる。
また、「get_main_audio_chans()」は、ビットストリームに含まれるオーディオチャンネル数を取得するための補助関数であり、この補助関数を用いた演算により得られるチャンネル数分の情報がget_main_audio_chans()以下に格納されている。
但し、get_main_audio_chans()による演算では、LFEチャンネルを除くチャンネル数、つまりメインオーディオチャンネルの数が演算結果として得られるようになされている。これは、ダイアログチャンネル情報にはLFEチャンネルに関する情報が格納されないからである。
「init_data(chans)」は、オーディオ信号の再生側において、すなわちビットストリームの復号側において引数で指定されたチャンネル数「chans」分のダイアログ音声チャンネルに関する各種のパラメータを初期化させるための補助関数である。具体的には、補助関数の演算により「diag_tag_idx[i]」、「num_of_dest_chans5[i]」、「diag_dest5[i][j-1]」、「diag_mix_gain5[i][j-1]」、「num_of_dest_chans2[i]」、「diag_dest2[i][j-1]」、「diag_mix_gain2[i][j-1]」、「num_of_dest_chans1[i]」、および「diag_mix_gain1[i]」の合計9個の情報の値が0とされる。
「ceil(log(chans+1)/log(2))」は、引数で与えられた小数値よりも大きい、最も小さい整数値を出力として返す補助関数であり、この補助関数によりダイアログ音声のチャンネルの属性、つまり後述するdiag_tag_idx[i]を表現するのに何ビット必要であるかが計算される。
「diag_present_flag[i]」は、ビットストリームに含まれる複数のチャンネルのうちのインデックスi(但し0≦i≦chans-1)で示されるチャンネル、つまりチャンネル番号iのチャンネルがダイアログ音声のチャンネルであるか否かを示す識別情報である。
具体的にはdiag_present_flag[i]の値が「1」である場合、チャンネル番号iのチャンネルがダイアログ音声のチャンネルであることを示しており、diag_present_flag[i]の値が「0」である場合、チャンネル番号iのチャンネルはダイアログ音声のチャンネルではないことを示している。なお、この例ではget_main_audio_chans()により得られたチャンネル数分だけ、diag_present_flag[i]を持つものとなっているが、ダイアログ音声のチャンネルの数の情報と、それらのダイアログ音声のチャンネルの数の分の各ダイアログ音声のチャンネルが対応するスピーカマッピングを示す識別情報とを伝送するという方法が用いられてもよい。
また、オーディオチャンネルのスピーカマッピング、つまり各チャンネル番号iがどのスピーカに対応するチャンネルとされるかのマッピングは、例えば図3に示すように符号化モードごとに定義されたものが用いられる。
図3では図中、左側の欄は符号化モード、つまりスピーカシステムが何チャンネルの構成となっているかを示しており、図中、右側の欄は対応する符号化モードの各チャンネルに対して付されたチャンネル番号を示している。
なお、図3で示されるチャンネル番号とスピーカに対応するチャンネルとのマッピングは、ビットストリームに格納されているマルチチャンネルのオーディオ信号に対してだけでなく、ビットストリームの受信側でのダウンミックス後のオーディオ信号に対しても同じものが用いられる。すなわち、図3に示すマッピングは、チャンネル番号i、後述するdiag_dest5[i][j-1]により示されるチャンネル番号、または後述するdiag_dest2[i][j-1]により示されるチャンネル番号とスピーカに対応するチャンネルとの対応関係を示している。
例えば2チャンネル(ステレオ)の符号化モードでは、チャンネル番号0はFLチャンネルを示しており、チャンネル番号1はFRチャンネルを示している。
また、例えば5.1チャンネルの符号化モードでは、チャンネル番号0,1,2,3,4は、それぞれFCチャンネル、FLチャンネル、FRチャンネル、LSチャンネル、およびRSチャンネルを示している。
したがって、例えばget_main_audio_chans()により求まるチャンネル数、つまりビットストリームに格納されているオーディオ信号のチャンネル数が2チャンネルである場合、チャンネル番号i=1は、FRチャンネルを示していることになる。なお、以下、チャンネル番号iのチャンネルを単にチャンネルiとも称することとする。
図2の説明に戻り、diag_present_flag[i]によりダイアログ音声のチャンネルであるとされているチャンネルiについては、diag_present_flag[i]以降に、「diag_tag_idx[i]」、「num_of_dest_chans5[i]」、「diag_dest5[i][j-1]」、「diag_mix_gain5[i][j-1]」、「num_of_dest_chans2[i]」、「diag_dest2[i][j-1]」、「diag_mix_gain2[i][j-1]」、「num_of_dest_chans1[i]」、および「diag_mix_gain1[i]」の合計9個の情報が格納されている。
「diag_tag_idx[i]」は、チャンネルiの属性を識別する情報である。すなわち、チャンネルiの音声が、複数のダイアログ音声のなかのどのようなものであるかを示している。
具体的には、例えばチャンネルiが日本語音声のチャンネルであるか、英語音声のチャンネルであるかなどの属性を示している。なお、ダイアログ音声の属性は、言語などに限らず、演者を識別するものやオブジェクトを識別するものなど、どのようなものであってもよい。本技術では、各ダイアログ音声のチャンネルをdiag_tag_idx[i]により識別することで、例えばオーディオ信号の再生時に特定の属性のダイアログ音声のチャンネルのオーディオ信号を選択して再生するなど、より自由度の高いオーディオ再生を実現することができる。
「num_of_dest_chans5[i]」は、オーディオ信号が5.1チャンネル(以下、5.1chとも称する)にダウンミックスされたときに、チャンネルiのオーディオ信号が加算される、ダウンミックス後のチャンネルの数を示している。
「diag_dest5[i][j-1]」には、5.1chへのダウンミックス後に、ダイアログ音声であるチャンネルiのオーディオ信号が加算されるチャンネルを示すチャンネル情報が格納される。例えばdiag_dest5[i][j-1]=2である場合には、図3に示したマッピングから、ダウンミックス後のFRチャンネルがチャンネルiのオーディオ信号の加算先となることが分かる。
「diag_mix_gain5[i][j-1]」には、diag_dest5[i][j-1]に格納されている情報(チャンネル番号)により特定(指定)されるチャンネルへとチャンネルiのオーディオ信号を加算するときのゲイン係数を示すインデックスが格納される。
これらのdiag_dest5[i][j-1]とdiag_mix_gain5[i][j-1]は、num_of_dest_chans5[i]により示される数だけダイアログチャンネル情報に格納される。なお、diag_dest5[i][j-1]およびdiag_mix_gain5[i][j-1]における変数jは、1からnum_of_dest_chans5[i]までの値をとる。
diag_mix_gain5[i][j-1]の値により定まるゲイン係数は、例えば図4に示すように関数facが適用されて求められる。すなわち、図4では図中、左側の欄にdiag_mix_gain5[i][j-1]の値が示されており、図中、右側の欄にはdiag_mix_gain5[i][j-1]の値に対して予め定められたゲイン係数(ゲイン値)が示されている。例えばdiag_mix_gain5[i][j-1]の値が「000」である場合には、ゲイン係数は「1.0」(0dB)とされる。
図2の説明に戻り、「num_of_dest_chans2[i]」は、オーディオ信号が2チャンネル(2ch)にダウンミックスされたときに、チャンネルiのオーディオ信号が加算される、ダウンミックス後のチャンネルの数を示している。
「diag_dest2[i][j-1]」には、2chへのダウンミックス後に、ダイアログ音声であるチャンネルiのオーディオ信号が加算されるチャンネルを示すチャンネル情報(チャンネル番号)が格納される。また、「diag_mix_gain2[i][j-1]」には、diag_dest2[i][j-1]に格納されている情報により特定されるチャンネルへとチャンネルiのオーディオ信号を加算するときのゲイン係数を示すインデックスが格納される。なお、diag_mix_gain2[i][j-1]の値とゲイン係数との対応関係は、図4に示した関係となる。
また、diag_dest2[i][j-1]とdiag_mix_gain2[i][j-1]のセットは、num_of_dest_chans2[i]により示される数だけダイアログチャンネル情報に格納される。なお、diag_dest2[i][j-1]およびdiag_mix_gain2[i][j-1]における変数jは、1からnum_of_dest_chans2[i]までの値をとる。
「num_of_dest_chans1[i]」は、オーディオ信号がモノラルチャンネル、つまり1チャンネル(1ch)にダウンミックスされたときに、チャンネルiのオーディオ信号が加算される、ダウンミックス後のチャンネルの数を示している。「diag_mix_gain1[i]」には、ダウンミックス後のオーディオ信号へとチャンネルiのオーディオ信号を加算するときのゲイン係数を示すインデックスが格納される。なお、diag_mix_gain1[i]の値とゲイン係数との対応関係は、図4に示した関係となる。
〈エンコーダの構成例〉
次に、本技術を適用したエンコーダの具体的な実施の形態について説明する。
図5は、本技術を適用したエンコーダの構成例を示す図である。
エンコーダ11は、ダイアログチャンネル情報生成部21、符号化部22、パッキング部23、および出力部24から構成される。
ダイアログチャンネル情報生成部21は、外部から供給されたマルチチャンネルのオーディオ信号、およびダイアログ音声に関する各種の情報に基づいてダイアログチャンネル情報を生成し、パッキング部23に供給する。
符号化部22は、外部から供給されたマルチチャンネルのオーディオ信号を符号化し、符号化されたオーディオ信号(以下、符号化データとも称する)をパッキング部23に供給する。また、符号化部22は、オーディオ信号を時間周波数変換する時間周波数変換部31を備えている。
パッキング部23は、ダイアログチャンネル情報生成部21から供給されたダイアログチャンネル情報と、符号化部22から供給された符号化データとをパッキングしてビットストリームを生成し、出力部24に供給する。出力部24は、パッキング部23から供給されたビットストリームをデコーダに出力する。
〈符号化処理の説明〉
続いて、エンコーダ11の動作について説明する。
エンコーダ11では、外部からマルチチャンネルのオーディオ信号が供給されると、オーディオ信号のフレームごとに符号化を行い、ビットストリームを出力する。その際、例えば図6に示すようにマルチチャンネルを構成する各チャンネルについて、フレームごとにダイアログ音声チャンネルの識別情報としてdiag_present_flag[i]が生成され、符号化される。
この例ではFC、FL、FR、LS、RS、TpFL、TpFRは、7.1chを構成するFCチャンネル、FLチャンネル、FRチャンネル、LSチャンネル、RSチャンネル、TpFLチャンネル、およびTpFRチャンネルを表しており、それらのチャンネルごとに識別情報が生成されている。
ここでは、各四角形が各フレームにおける各チャンネルの識別情報を表しており、それらの四角形内の数値「1」または「0」は識別情報の値を示している。したがって、この例ではFCチャンネルとLSチャンネルがダイアログ音声のチャンネルであり、他のチャンネルはダイアログ音声ではないチャンネルであることが分かる。
エンコーダ11は、オーディオ信号のフレームごとに、各チャンネルの識別情報を含むダイアログチャンネル情報を生成し、ダイアログチャンネル情報と符号化データとを含むビットストリームを出力する。
以下、図7のフローチャートを参照して、エンコーダ11がオーディオ信号を符号化してビットストリームを出力する処理である符号化処理について説明する。なお、この符号化処理はオーディオ信号のフレームごとに行われる。
ステップS11において、ダイアログチャンネル情報生成部21は、外部から供給されたマルチチャンネルのオーディオ信号に基づいて、マルチチャンネルを構成する各チャンネルがダイアログ音声のチャンネルであるか否かを判定し、その判定結果から識別情報を生成する。
例えばダイアログチャンネル情報生成部21は、所定のチャンネルのオーディオ信号として供給されたPCM(Pulse Code Modulation)データから特徴量を抽出し、その特徴量に基づいて、そのチャンネルのオーディオ信号がダイアログ音声の信号であるか否かを判定する。そして、ダイアログチャンネル情報生成部21は、その判定結果に基づいて識別情報を生成する。これにより、識別情報として図2に示したdiag_present_flag[i]が得られる。
なお、各チャンネルがダイアログ音声のチャンネルであるか否かを示す情報が外部からダイアログチャンネル情報生成部21に供給されるようにしてもよい。
ステップS12において、ダイアログチャンネル情報生成部21は、外部から供給されたダイアログ音声に関する情報と、ステップS11で生成した識別情報とに基づいて、ダイアログチャンネル情報を生成し、パッキング部23に供給する。すなわち、ダイアログチャンネル情報生成部21は、外部から供給されたダイアログ音声に関する情報に基づいて、ダイアログ音声のチャンネルの加算先を示す情報であるdiag_dest5[i][j-1]や、ダイアログ音声のチャンネルの加算時のゲインを示すゲイン情報であるdiag_mix_gain5[i][j-1]などを生成する。そして、ダイアログチャンネル情報生成部21は、それらの情報と識別情報とを符号化してダイアログチャンネル情報を得る。これにより、例えば図2に示したダイアログチャンネル情報が得られる。
ステップS13において、符号化部22は、外部から供給されたマルチチャンネルのオーディオ信号を符号化する。
具体的には、時間周波数変換部31は、オーディオ信号に対してMDCT(Modified Discrete Cosine Transform)(修正離散コサイン変換)を行なうことで、オーディオ信号を時間信号から周波数信号に変換する。
また、符号化部22は、オーディオ信号に対するMDCTにより得られたMDCT係数を符号化し、スケールファクタ、サイド情報、および量子化スペクトルを得る。そして、符号化部22は、得られたスケールファクタ、サイド情報、および量子化スペクトルを、オーディオ信号を符号化して得られた符号化データとしてパッキング部23に供給する。
ステップS14において、パッキング部23は、ダイアログチャンネル情報生成部21から供給されたダイアログチャンネル情報と、符号化部22から供給された符号化データとのパッキングを行い、ビットストリームを生成する。
すなわち、パッキング部23は、処理対象となっているフレームについて、符号化データが格納されたSCEおよびCPEと、ダイアログチャンネル情報等が含まれたDSEとからなるビットストリームを生成し、出力部24に供給する。
ステップS15において、出力部24は、パッキング部23から供給されたビットストリームをデコーダに出力し、符号化処理は終了する。そして、その後、次のフレームの符号化が行われる。
以上のようにしてエンコーダ11は、オーディオ信号の符号化時に、オーディオ信号に基づいて識別情報を生成するとともに、その識別情報を含むダイアログチャンネル情報を生成し、ビットストリームに格納する。これにより、ビットストリームの受信側では、どのチャンネルのオーディオ信号がダイアログ音声のオーディオ信号であるかを特定することができる。その結果、ダイアログ音声のオーディオ信号をダウンミックス処理から除外して、ダウンミックス後の信号に足し込むことができ、高品質な音声を得ることができるようになる。
〈デコーダの構成例〉
次に、エンコーダ11から出力されたビットストリームを受信してオーディオ信号の復号を行なうデコーダについて説明する。
図8は、本技術を適用したデコーダの構成例を示す図である。
図8のデコーダ51は、取得部61、抽出部62、復号部63、ダウンミックス処理部64、および出力部65から構成される。
取得部61は、エンコーダ11からビットストリームを取得して抽出部62に供給する。抽出部62は、取得部61から供給されたビットストリームからダイアログチャンネル情報を抽出してダウンミックス処理部64に供給するとともに、ビットストリームから符号化データを抽出して復号部63に供給する。
復号部63は、抽出部62から供給された符号化データを復号する。また、復号部63は周波数時間変換部71を備えている。周波数時間変換部71は、復号部63が符号化データを復号して得られたMDCT係数に基づいて、IMDCT(Inverse Modified Discrete Cosine Transform)(逆修正離散コサイン変換)を行なう。復号部63は、IMDCTにより得られたオーディオ信号であるPCMデータをダウンミックス処理部64に供給する。
ダウンミックス処理部64は、抽出部62から供給されたダイアログチャンネル情報に基づいて、復号部63から供給されたオーディオ信号のなかから、ダウンミックス処理の対象とするオーディオ信号と、ダウンミックス処理の対象としないオーディオ信号とを選択する。また、ダウンミックス処理部64は、選択したオーディオ信号に対してダウンミックス処理を行う。
さらにダウンミックス処理部64は、ダウンミックス処理で得られた所定チャンネル数のオーディオ信号のうちの、ダイアログチャンネル情報により指定されたチャンネルのオーディオ信号に対して、ダウンミックス処理の対象としなかったオーディオ信号を加算して、最終的なマルチチャンネルまたはモノラルチャンネルのオーディオ信号を得る。ダウンミックス処理部64は、得られたオーディオ信号を出力部65に供給する。
出力部65は、ダウンミックス処理部64から供給された各フレームのオーディオ信号を、図示せぬ後段の再生装置等に出力する。
〈ダウンミックス処理部の構成例〉
また、図8に示したダウンミックス処理部64は、例えば図9に示すように構成される。
図9に示すダウンミックス処理部64は、選択部111、ダウンミックス部112、ゲイン補正部113、および加算部114を有している。
このダウンミックス処理部64では、ダウンミックス処理部64が抽出部62から供給されたダイアログチャンネル情報から各種の情報を読み出して、ダウンミックス処理部64の各部に適宜、供給する。
選択部111は、ダイアログチャンネル情報から読み出された識別情報であるdiag_present_flag[i]に基づいて、復号部63から供給された各チャンネルiのオーディオ信号からダウンミックスの対象とするものと、ダウンミックスの対象としないものとを選択する。すなわち、マルチチャンネルのオーディオ信号が、ダイアログ音声のオーディオ信号と、ダイアログ音声ではないオーディオ信号とに選別され、その選別結果に応じてオーディオ信号の供給先が定められる。
具体的には選択部111は、diag_present_flag[i]が1であるオーディオ信号、つまりダイアログ音声のオーディオ信号を、ダウンミックスの対象外としてゲイン補正部113に供給する。これに対して、選択部111はdiag_present_flag[i]が0であるオーディオ信号、つまりダイアログ音声でないオーディオ信号をダウンミックスの対象としてダウンミックス部112に供給する。なお、より詳細にはダイアログ音声のオーディオ信号は、その信号値が0とされてダウンミックス部112にも供給される。
ダウンミックス部112は、選択部111から供給されたオーディオ信号に対してダウンミックス処理を行い、選択部111から入力されたマルチチャンネルのオーディオ信号を、より少ないチャンネル構成のオーディオ信号へと変換し、加算部114に供給する。なお、ダウンミックス処理にあたっては、適宜、ビットストリームから読み出されたダウンミックス係数が用いられる。
ゲイン補正部113は、選択部111から供給されたダイアログ音声のオーディオ信号に対して、ダイアログチャンネル情報から読み出されたdiag_mix_gain5[i][j-1]、diag_mix_gain2[i][j-1]、またはdiag_mix_gain1[i]から定まるゲイン係数を乗算することでゲイン補正を行い、ゲイン補正されたオーディオ信号を加算部114に供給する。
加算部114は、ダウンミックス部112から供給されたオーディオ信号のうちの所定のチャンネルに、ゲイン補正部113から供給されたダイアログ音声のオーディオ信号を加算し、その結果得られたオーディオ信号を出力部65に供給する。
このときダイアログ音声のオーディオ信号の加算先のチャンネルは、ダイアログチャンネル情報から読み出されたdiag_dest5[i][j-1]やdiag_dest2[i][j-1]により特定される。
ところで、ダウンミックス処理部64への入力が7.1chのオーディオ信号であり、ダウンミックス処理部64からの出力が5.1chのオーディオ信号である場合、つまり7.1chから5.1chへのダウンミックスが行われる場合、ダウンミックス処理部64は、より具体的には例えば図10に示す構成とされる。なお、図10において図9における場合と対応する部分には同一の符号を付してあり、その説明は省略する。
図10では、図9に示したダウンミックス処理部64の各部のより詳細な構成が示されている。
すなわち、選択部111には、出力選択部141およびスイッチ処理部142−1乃至スイッチ処理部142−7が設けられている。
出力選択部141には、スイッチ151−1乃至スイッチ151−7が設けられており、これらのスイッチ151−1乃至スイッチ151−7には、それぞれ復号部63からFCチャンネル、FLチャンネル、FRチャンネル、LSチャンネル、RSチャンネル、TpFLチャンネル、およびTpFRチャンネルのオーディオ信号が供給される。
ここでは、チャンネル番号i=0乃至6のそれぞれがFC、FL、FR、LS、RS、TpFL、およびTpFRの各チャンネルに対応している。
スイッチ151−I(但しI=1,2,…,7)は、出力端子152−I(但しI=1,2,…,7)および出力端子153−I(但しI=1,2,…,7)を有しており、復号部63から供給されたオーディオ信号を出力端子152−Iまたは出力端子153−Iの何れかへと供給する。
具体的には、スイッチ151−I(I=i+1)は識別情報であるdiag_present_flag[i]の値が0である場合、供給されたオーディオ信号を、出力端子152−Iを介してダウンミックス部112に供給する。
また、スイッチ151−Iはdiag_present_flag[i]の値が1である場合、供給されたオーディオ信号を出力端子153−Iに出力する。出力端子153−Iから出力されたオーディオ信号は2つに分岐され、一方のオーディオ信号はそのままスイッチ処理部142−Iに供給され、他方のオーディオ信号は、その値が0とされてダウンミックス部112に供給される。これにより、実質的にダイアログ音声のオーディオ信号はダウンミックス部112には供給されないことになる。
なお、オーディオ信号の値を0とする手法は、どのような手法であってもよく、例えばオーディオ信号の値を0に書き換えるようにしてもよいし、0倍のゲイン値を掛け合わせるようにしてもよい。
また、以下、スイッチ151−1乃至スイッチ151−7を特に区別する必要のない場合、単にスイッチ151とも称する。同様に以下、出力端子152−1乃至出力端子152−7を特に区別する必要のない場合、単に出力端子152とも称し、出力端子153−1乃至出力端子153−7を特に区別する必要のない場合、単に出力端子153とも称することとする。
スイッチ処理部142−I(但しI=1,2,…,7)は、diag_dest5[i][j-1]によって入り切りが制御されるスイッチ161−I−1乃至スイッチ161−I−5(但しI=1,2,…,7)を有している。スイッチ処理部142−Iは、スイッチ151−Iから供給されたオーディオ信号を、スイッチ161−I−1乃至スイッチ161−I−5(但しI=1,2,…,7)を介して、適宜、ゲイン補正部113を構成する乗算部171−I−1乃至乗算部171−I−5(但しI=1,2,…,7)に供給する。
具体的にはdiag_dest5[i][j-1]によって、チャンネル番号iのオーディオ信号の加算先のチャンネルとしてFC、FL、FR、LS、RSのそれぞれが指定された場合、スイッチ161−I−1乃至スイッチ161−I−5(但しI=i+1)のそれぞれがオンされ、オーディオ信号が乗算部171−I−1乃至乗算部171−I−5(但しI=i+1)に供給される。
例えばdiag_dest5[i][j-1]によって、チャンネル番号i=0であるFCチャンネルのオーディオ信号の加算先のチャンネルとして、ダウンミックス後のFCチャンネルが指定された場合、スイッチ161−1−1がオンされ、出力端子153−1からのオーディオ信号が乗算部171−1−1に供給される。
なお、以下、スイッチ処理部142−1乃至スイッチ処理部142−7を特に区別する必要のない場合、単にスイッチ処理部142とも称することとする。
また以下、スイッチ161−I−1乃至スイッチ161−I−5(但しI=1,2,…,7)を特に区別する必要のない場合、単にスイッチ161−Iとも称し、スイッチ161−1乃至スイッチ161−7を特に区別する必要のない場合、単にスイッチ161とも称する。
さらに以下、乗算部171−I−1乃至乗算部171−I−5(但しI=1,2,…,7)を特に区別する必要のない場合、単に乗算部171−Iとも称し、乗算部171−1乃至乗算部171−7を特に区別する必要のない場合、単に乗算部171とも称する。
ゲイン補正部113は、乗算部171−1−1乃至乗算部171−7−5を有しており、これらの乗算部171には、diag_mix_gain5[i][j-1]によって定まるゲイン係数がセットされる。
具体的にはdiag_dest5[i][j-1]により、チャンネル番号iのオーディオ信号の加算先のチャンネルとしてFC、FL、FR、LS、RSのそれぞれが指定された場合、乗算部171−I−1乃至乗算部171−I−5(但しI=i+1)のそれぞれにdiag_mix_gain5[i][j-1]によって定まるゲイン係数がセットされる。
乗算部171−I−1乃至乗算部171−I−5(但しI=1,2,…,7)は、スイッチ161−I−1乃至スイッチ161−I−5から供給されたオーディオ信号に対して、セットされたゲイン係数を乗算し、加算部114の加算器181−1乃至加算器181−5に供給する。これにより、ダウンミックスの対象外とされた、ダイアログ音声の各チャンネルiのオーディオ信号がゲイン補正され、加算部114に供給されることになる。
加算部114は加算器181−1乃至加算器181−5を有しており、これらの加算器181−1乃至加算器181−5のそれぞれには、ダウンミックス部112からダウンミックス後のFC、FL、FR、LS、RSの各チャンネルのそれぞれのオーディオ信号が供給される。
加算器181−1乃至加算器181−5は、ダウンミックス部112から供給されたオーディオ信号に対して、乗算部171から供給されたダイアログ音声のオーディオ信号を加算して出力部65に供給する。
なお、以下、加算器181−1乃至加算器181−5を特に区別する必要のない場合、単に加算器181とも称することとする。
〈復号処理の説明〉
次に、デコーダ51の動作について説明する。なお、以下では、ダウンミックス処理部64の構成が図10に示した構成であり、オーディオ信号が7.1chから5.1chへとダウンミックスされるものとして説明を続ける。
デコーダ51は、エンコーダ11からビットストリームが送信されてくると、そのビットストリームを受信して復号する復号処理を開始する。
以下、図11のフローチャートを参照して、デコーダ51により行なわれる復号処理について説明する。この復号処理はオーディオ信号のフレームごとに行われる。
ステップS41において、取得部61はエンコーダ11から送信されてきたビットストリームを受信して抽出部62に供給する。
ステップS42において、抽出部62は、取得部61から供給されたビットストリームのDSEからダイアログチャンネル情報を抽出してダウンミックス処理部64に供給する。また、抽出部62は、必要に応じてDSEからダウンミックス係数等の情報も適宜抽出して、ダウンミックス処理部64に供給する。
ステップS43において、抽出部62は、取得部61から供給されたビットストリームから各チャンネルの符号化データを抽出して、復号部63に供給する。
ステップS44において、復号部63は、抽出部62から供給された各チャンネルの符号化データを復号する。
すなわち、復号部63は符号化データを復号してMDCT係数を求める。具体的には、復号部63は符号化データとして供給されたスケールファクタ、サイド情報、および量子化スペクトルに基づいてMDCT係数を算出する。そして、周波数時間変換部71は、MDCT係数に基づいてIMDCT処理を行い、その結果得られたオーディオ信号をダウンミックス処理部64のスイッチ151に供給する。すなわち、オーディオ信号の周波数時間変換が行なわれて、時間信号であるオーディオ信号が得られる。
ステップS45において、ダウンミックス処理部64は、復号部63から供給されたオーディオ信号、および抽出部62から供給されたダイアログチャンネル情報に基づいてダウンミックス処理を行い、その結果得られたオーディオ信号を出力部65に供給する。出力部65は、ダウンミックス処理部64から供給されたオーディオ信号を後段の再生装置等に出力し、復号処理は終了する。
なお、ダウンミックス処理の詳細は後述するが、ダウンミックス処理においては、ダイアログ音声ではないオーディオ信号のみがダウンミックスされ、ダウンミックス後のオーディオ信号に対して、ダイアログ音声のオーディオ信号が加算される。また、出力部65から出力されたオーディオ信号は、再生装置等により各チャンネルに対応するスピーカに供給されて音声が再生される。
以上のようにしてデコーダ51は、符号化データを復号してオーディオ信号を得るとともに、ダイアログチャンネル情報を用いてダイアログ音声ではないオーディオ信号のみをダウンミックスし、ダウンミックス後のオーディオ信号にダイアログ音声のオーディオ信号を加算する。これにより、ダイアログ音声が聞き取りづらくなることを防止し、より高品質な音声を得ることができる。
〈ダウンミックス処理の説明〉
続いて、図12のフローチャートを参照して、図11のステップS45の処理に対応するダウンミックス処理について説明する。
ステップS71においてダウンミックス処理部64は、抽出部62から供給されたダイアログチャンネル情報からget_main_audio_chans()を読み出して演算を行い、ビットストリームに格納されているオーディオ信号のチャンネル数を求める。
また、ダウンミックス処理部64は、ダイアログチャンネル情報からinit_data(chans)も読み出して演算を行い、パラメータとして保持しているdiag_tag_idx[i]等の値を初期化する。つまり、各チャンネルiのdiag_tag_idx[i]等の値を0とする。
ステップS72において、ダウンミックス処理部64は、処理対象とするチャンネルのチャンネル番号を示すカウンタの値、すなわちカウンタにより示されるチャンネルiの値をi=0とする。以下、処理対象のチャンネル番号を示すカウンタをカウンタiとも称することとする。
ステップS73において、ダウンミックス処理部64は、カウンタiの値が、ステップS71で求めたチャンネル数未満であるか否かを判定する。すなわち、全てのチャンネルを処理対象のチャンネルとして処理したか否かを判定する。
ステップS73においてカウンタiの値がチャンネル数未満であると判定された場合、ダウンミックス処理部64はダイアログチャンネル情報から、処理対象のチャンネルiの識別情報であるdiag_present_flag[i]を読み出して出力選択部141に供給し、処理はステップS74へと進む。
ステップS74において、出力選択部141は、処理対象のチャンネルiがダイアログ音声のチャンネルであるか否かを判定する。例えば、出力選択部141は処理対象のチャンネルiのdiag_present_flag[i]の値が1である場合、ダイアログ音声のチャンネルであると判定する。
ステップS74においてダイアログ音声のチャンネルではないと判定された場合、ステップS75において、出力選択部141は、復号部63から供給されるチャンネルiのオーディオ信号がそのままダウンミックス部112に供給されるようにする。すなわち、出力選択部141は、チャンネルiに対応するスイッチ151を制御して、そのスイッチ151の入力端子を出力端子152に接続する。これにより、チャンネルiのオーディオ信号がそのままダウンミックス部112へと供給されるようになる。
スイッチ151の制御によりオーディオ信号の供給先が選択されると、ダウンミックス処理部64は、保持しているカウンタiの値を1だけインクリメントする。そして処理はステップS73へと戻り、上述した処理が繰り返し行われる。
一方、ステップS74においてダイアログ音声のチャンネルであると判定された場合、ステップS76において、出力選択部141は、復号部63から供給されたチャンネルiのオーディオ信号がそのままスイッチ処理部142に供給されるとともに、復号部63から供給されたオーディオ信号が0値とされてダウンミックス部112に供給されるようにする。
すなわち、出力選択部141は、チャンネルiに対応するスイッチ151を制御して、そのスイッチ151の入力端子を出力端子153に接続する。すると、復号部63からのオーディオ信号は、出力端子153から出力された後に2つに分岐され、一方のオーディオ信号は、その信号値(振幅)が0とされてダウンミックス部112へと供給されるようになる。つまり、ダウンミックス部112へは実質的にオーディオ信号が供給されないようになる。また、分岐された他方のオーディオ信号は、チャンネルiに対応するスイッチ処理部142へとそのまま供給されるようになる。
ステップS77においてダウンミックス処理部64は、処理対象のチャンネルiについてゲイン係数をセットする。
すなわち、ダウンミックス処理部64は、ダイアログチャンネル情報に格納されているnum_of_dest_chans5[i]に示される数だけ、ダイアログチャンネル情報から処理対象のチャンネルiのdiag_dest5[i][j-1]およびdiag_mix_gain5[i][j-1]を読み出す。
そして選択部111は、各diag_dest5[i][j-1]の値から、ダウンミックス後のオーディオ信号に対する処理対象のチャンネルiのオーディオ信号の加算先を特定し、その特定結果に応じてスイッチ処理部142の動作を制御する。
具体的には、選択部111はチャンネルiのオーディオ信号が供給されるスイッチ処理部142−(i+1)を制御し、5つのスイッチ161−(i+1)のうち、チャンネルiのオーディオ信号の加算先に対応するスイッチ161−(i+1)のみオンさせ、他のスイッチ161−(i+1)はオフさせる。
このようにしてスイッチ処理部142を制御することにより、処理対象のチャンネルiのオーディオ信号が、そのオーディオ信号の加算先のチャンネルに対応する乗算部171へと供給されるようになる。
また、ダウンミックス処理部64は、ダイアログチャンネル情報から読み出したdiag_mix_gain5[i][j-1]に基づいて、チャンネルiのオーディオ信号の加算先のチャンネルごとのゲイン係数を取得し、ゲイン補正部113に供給する。具体的には、例えばダウンミックス処理部64は関数fac、つまりfac[diag_mix_gain5[i][j-1]]を演算することでゲイン係数を得る。
ゲイン補正部113は、5つの乗算部171−(i+1)のうちのチャンネルiのオーディオ信号の加算先に対応する乗算部171−(i+1)へとゲイン係数を供給し、セットする。
例えば各diag_dest5[0][j-1]の値から、チャンネルi=0であるFCチャンネルのオーディオ信号の加算先が、ダウンミックス後のチャンネルFC、FL、FRであると特定された場合、スイッチ161−1−1乃至スイッチ161−1−3がオンされ、残りのスイッチ161−1−4とスイッチ161−1−5はオフされる。
そしてdiag_mix_gain5[0][j-1]に基づいて、ダウンミックス前のFCチャンネルのダウンミックス後のチャンネルFC、FL、FRの各チャンネルへの加算時のゲイン係数が読み出され、それらのゲイン係数が乗算部171−1−1乃至乗算部171−1−3に供給されてセットされる。なお、乗算部171−1−4と乗算部171−1−5にはオーディオ信号は供給されないので、ゲイン係数はセットされない。
このようにしてスイッチ処理部142によるオーディオ信号の出力先の選択とゲイン係数のセットとが行われると、ダウンミックス処理部64は、保持しているカウンタiの値を1だけインクリメントする。そして処理はステップS73へと戻り、上述した処理が繰り返し行われる。
また、ステップS73においてカウンタiの値が、ステップS71で求めたチャンネル数未満でないと判定された場合、つまり全てのチャンネルを処理した場合、ダウンミックス処理部64は、復号部63から供給されたオーディオ信号をスイッチ151へと入力し、処理はステップS78へと進む。これにより、ダイアログ音声ではないオーディオ信号がダウンミックス部112へと供給され、ダイアログ音声のオーディオ信号がスイッチ161を介して乗算部171に供給されることになる。
ステップS78において、ダウンミックス部112は、出力選択部141のスイッチ151から供給された7.1chのオーディオ信号に対してダウンミックス処理を行い、その結果得られた5.1chの各チャンネルのオーディオ信号を加算器181に供給する。このとき、ダウンミックス処理部64は、必要に応じてDSE等からインデックスを取得してダウンミックス係数を得てダウンミックス部112に供給し、ダウンミックス部112では、供給されたダウンミックス係数が用いられてダウンミックスが行われる。
ステップS79において、ゲイン補正部113はスイッチ161から供給された、ダイアログ音声のオーディオ信号のゲイン補正を行い、加算器181に供給する。すなわち、スイッチ161からオーディオ信号が供給された各乗算部171は、そのオーディオ信号に、セットされたゲイン係数を乗算してゲイン補正を行い、ゲイン補正されたオーディオ信号を加算器181に供給する。
ステップS80において、加算器181は、ダウンミックス部112から供給されたオーディオ信号に対して、乗算部171から供給されたダイアログ音声のオーディオ信号を加算し、出力部65に供給する。出力部65によりオーディオ信号が出力されると、ダウンミックス処理は終了し、これにより図11の復号処理も終了する。
以上のようにしてダウンミックス処理部64は、識別情報としてのdiag_present_flag[i]に基づいて、各チャンネルのオーディオ信号がダイアログ音声の信号であるか否かを特定し、ダイアログ音声のオーディオ信号をダウンミックス処理の対象から除外して、ダウンミックス後のオーディオ信号に加算する。
これにより、より高品質な音声を得ることができる。すなわち、ダイアログ音声のオーディオ信号を含む全チャンネルのオーディオ信号をダウンミックスすると、ダイアログ音声はダウンミックス後のチャンネル全体に広がり、ゲインも小さくなってダイアログ音声が聞き取りづらくなってしまう。これに対して、デコーダ51によれば、ダイアログ音声はダウンミックスの影響を受けることなく、所望のチャンネルで再生されるようになるので、ダイアログ音声をより聞き取りやすくすることができる。
ここで、図12を参照して説明したダウンミックス処理で行われる計算の具体的な例について説明する。ここでは、num_of_dest_chans5[0]=1、num_of_dest_chans5[1]=1であり、diag_dest5[0][0]=0、diag_dest5[1][0]=0であるとする。
すなわち、ダウンミックス前のFCチャンネルおよびFLチャンネルがダイアログ音声のチャンネルであり、それらのダイアログ音声のダウンミックス後の加算先がFCチャンネルであるとする。
そのような場合、出力選択部141は、次式(1)を計算することでダウンミックスの入力とする信号を求める。
Figure 0006520937
なお、式(1)においてFC、FL、FR、LS、RS、TpFL、およびTpFRは、復号部63から供給されたFC、FL、FR、LS、RS、TpFL、およびTpFRの各チャンネルのオーディオ信号の値を示している。また、inv()は、inv(1)=0,inv(0)=1とする関数、つまり入力値を反転させる関数である。
さらに、式(1)においてFC_dmin、FL_dmin、FR_dmin、LS_dmin、RS_dmin、TpFL_dmin、およびTpFR_dminは、それぞれダウンミックス部112への入力とされるFC、FL、FR、LS、RS、TpFL、およびTpFRの各チャンネルのオーディオ信号を示している。
したがって式(1)の計算では、復号部63から供給された各チャンネルのオーディオ信号がdiag_present_flag[i]の値に応じてそのままの値とされるか、または0とされてダウンミックス部112への入力とされる。
また、ダウンミックス部112は、入力とされたFC_dmin、FL_dmin、FR_dmin、LS_dmin、RS_dmin、TpFL_dmin、およびTpFR_dminに基づいて次式(2)の計算を行い、加算器181への入力とする、ダウンミックス後のFC、FL、FR、LS、およびRSの各チャンネルのオーディオ信号を得る。
Figure 0006520937
なお、式(2)においてFC’、FL’、FR’、LS’、およびRS’は、それぞれ加算器181−1乃至加算器181−5への入力とされるFC、FL、FR、LS、およびRSの各チャンネルのオーディオ信号を示している。また、dmx_f1およびdmx_f2はダウンミックス係数を示している。
さらに、乗算部171および加算器181により、最終的なFC、FL、FR、LS、およびRSの各チャンネルのオーディオ信号が得られる。この例ではFL、FR、LS、およびRSの各チャンネルについては、ダイアログ音声の加算が行われないのでFL’、FR’、LS’、およびRS’がそのまま出力部65へと出力される。
これに対してFCチャンネルに対しては次式(3)の計算が行われ、その結果得られたFC’’が最終的なFCチャンネルのオーディオ信号とされて出力される。
Figure 0006520937
なお、式(3)において、FCおよびFLは出力選択部141を介して乗算部171に供給されたFCチャンネルおよびFLチャンネルのオーディオ信号を示している。また、fac[diag_mix_gain5[0][0]]は関数facにdiag_mix_gain5[0][0]を代入して得られるゲイン係数を示しており、fac[diag_mix_gain5[1][0]]は関数facにdiag_mix_gain5[1][0]を代入して得られるゲイン係数を示している。
〈ダウンミックス処理部の他の構成例〉
なお、以上においては、オーディオ信号が7.1chから5.1chにダウンミックスされる場合を例として説明したが、ダウンミックス前後のオーディオ信号のチャンネル構成はどのような構成であってもよい。
例えばオーディオ信号が7.1chから2chにダウンミックスされる場合、図9に示したダウンミックス処理部64の各部は、より詳細には例えば図13に示すように構成される。なお、図13において図9または図10における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図13に示すダウンミックス処理部64では、選択部111には、出力選択部141およびスイッチ処理部211−1乃至スイッチ処理部211−7が設けられている。
出力選択部141には、図10における場合と同様にスイッチ151−1乃至スイッチ151−7が設けられており、スイッチ処理部211−I(但しI=1,2,…,7)には、スイッチ221−I−1とスイッチ221−I−2(但しI=1,2,…,7)が設けられている。
また、ダウンミックス部112には、ダウンミックス部231およびダウンミックス部232が設けられており、ゲイン補正部113には、乗算部241−1−1乃至乗算部241−7−2が設けられている。さらに加算部114には、加算器251−1および加算器251−2が設けられている。
この例では、スイッチ151−1乃至スイッチ151−7には、それぞれ復号部63からFCチャンネル、FLチャンネル、FRチャンネル、LSチャンネル、RSチャンネル、TpFLチャンネル、およびTpFRチャンネルのオーディオ信号が供給される。
スイッチ151−I(但しI=i+1)は識別情報であるdiag_present_flag[i]の値が0である場合、供給されたオーディオ信号を、出力端子152−Iを介してダウンミックス部231に供給する。
また、スイッチ151−Iはdiag_present_flag[i]の値が1である場合、供給されたオーディオ信号を出力端子153−Iに出力する。出力端子153−Iから出力されたオーディオ信号は2つに分岐され、一方のオーディオ信号はそのままスイッチ処理部211−Iに供給され、他方のオーディオ信号は、その値が0とされてダウンミックス部231に供給される。
スイッチ処理部211−I(但しI=1,2,…,7)は、スイッチ151−Iから供給されたオーディオ信号を、スイッチ221−I−1およびスイッチ221−I−2(但しI=1,2,…,7)を介して、適宜、ゲイン補正部113を構成する乗算部241−I−1および乗算部241−I−2(但しI=1,2,…,7)に供給する。
具体的にはdiag_dest2[i][j-1]によって、チャンネル番号iのオーディオ信号の加算先のチャンネルとしてFLおよびFRのそれぞれが指定された場合、スイッチ221−I−1およびスイッチ221−I−2(但しI=i+1)のそれぞれがオンされ、オーディオ信号が乗算部241−I−1および乗算部241−I−2(但しI=i+1)に供給される。
なお、以下、スイッチ処理部211−1乃至スイッチ処理部211−7を特に区別する必要のない場合、単にスイッチ処理部211とも称することとする。
また以下、スイッチ221−I−1およびスイッチ221−I−2(但しI=1,2,…,7)を特に区別する必要のない場合、単にスイッチ221−Iとも称し、スイッチ221−1乃至スイッチ221−7を特に区別する必要のない場合、単にスイッチ221とも称する。
さらに以下、乗算部241−I−1および乗算部241−I−2(但しI=1,2,…,7)を特に区別する必要のない場合、単に乗算部241−Iとも称し、乗算部241−1乃至乗算部241−7を特に区別する必要のない場合、単に乗算部241とも称する。
ゲイン補正部113では、diag_dest2[i][j-1]により、チャンネル番号iのオーディオ信号の加算先のチャンネルとしてFLおよびFRのそれぞれが指定された場合、乗算部241−I−1および乗算部241−I−2(但しI=i+1)のそれぞれにdiag_mix_gain2[i][j-1]によって定まるゲイン係数がセットされる。
乗算部241−I−1および乗算部241−I−2(但しI=1,2,…,7)は、スイッチ221−I−1およびスイッチ221−I−2から供給されたオーディオ信号に対して、セットされたゲイン係数を乗算し、加算部114の加算器251−1および加算器251−2に供給する。これにより、ダウンミックスの対象外とされた各チャンネルiのオーディオ信号がゲイン補正され、加算部114に供給されることになる。
ダウンミックス部231は、出力選択部141から供給された7.1chのオーディオ信号を5.1chのオーディオ信号へとダウンミックスし、ダウンミックス部232に供給する。ダウンミックス部231から出力される5.1chのオーディオ信号はFC、FL、FR、LS、およびRSの各チャンネルからなる。
ダウンミックス部232は、ダウンミックス部231から供給された5.1chのオーディオ信号を、さらに2chのオーディオ信号へとダウンミックスし、加算部114に供給する。ダウンミックス部232から出力される2chのオーディオ信号はFLおよびFRの各チャンネルからなる。
加算部114の加算器251−1および加算器251−2のそれぞれには、ダウンミックス部232からダウンミックス後のFLおよびFRの各チャンネルのそれぞれのオーディオ信号が供給される。
加算器251−1および加算器251−2は、ダウンミックス部232から供給されたオーディオ信号に対して、乗算部241から供給されたダイアログ音声のオーディオ信号を加算して出力部65に供給する。
なお、以下、加算器251−1および加算器251−2を特に区別する必要のない場合、単に加算器251とも称することとする。
図13に示すダウンミックス処理部64では、7.1chから5.1chへ、さらには5.1chから2chへと多段階のダウンミックスが行われる。このような図13に示すダウンミックス処理部64で7.1chから2chへのダウンミックスが行われる場合、例えば以下のような計算が行われる。
ここでは、num_of_dest_chans2[0]=2、num_of_dest_chans2[1]=2であり、diag_dest2[0][0]=0、diag_dest2[0][1]=1、diag_dest2[1][0]=0、diag_dest2[1][1]=1であるとする。
すなわち、ダウンミックス前のFCチャンネルおよびFLチャンネルがダイアログ音声のチャンネルであり、それらのダイアログ音声のダウンミックス後の加算先がFLチャンネルおよびFRチャンネルであるとする。
そのような場合、出力選択部141は、次式(4)を計算することでダウンミックスの入力とする信号を求める。
Figure 0006520937
すなわち、式(4)では上述した式(1)と同様の計算が行われる。
また、ダウンミックス部231は、入力とされたFC_dmin、FL_dmin、FR_dmin、LS_dmin、RS_dmin、TpFL_dmin、およびTpFR_dminに基づいて次式(5)の計算を行い、ダウンミックス部232への入力とする、ダウンミックス後のFC、FL、FR、LS、およびRSの各チャンネルのオーディオ信号を得る。
Figure 0006520937
すなわち、式(5)では上述した式(2)と同様の計算が行われる。
さらに、ダウンミックス部232は、入力とされたFC’、FL’、FR’、LS’、およびRS’と、LFEチャンネルのオーディオ信号であるLFE’とに基づいて、次式(6)の計算を行い、加算部114への入力とする、ダウンミックス後のFLおよびFRの各チャンネルのオーディオ信号を得る。
Figure 0006520937
なお、式(6)においてFL’’およびFR’’は、それぞれ加算器251−1および加算器251−2への入力とされるFLおよびFRの各チャンネルのオーディオ信号を示している。またdmx_a、dmx_b、およびdmx_cはダウンミックス係数を示している。
さらに、乗算部241および加算器251により、最終的なFLおよびFRの各チャンネルのオーディオ信号が得られる。この例では次式(7)の計算によりFL’’およびFR’’に対してダイアログ音声が加算されて、加算器251の最終的な出力であるFLチャンネルおよびFRチャンネルのオーディオ信号とされる。
Figure 0006520937
なお、式(7)において、FL’’’およびFR’’’は加算器251の最終的な出力であるFLチャンネルおよびFRチャンネルのオーディオ信号を示している。また、diag_mix1およびdiag_mix2は、次式(8)により得られるものとされる。
Figure 0006520937
なお、式(8)において、FCおよびFLは出力選択部141を介して乗算部241に供給されたFCチャンネルおよびFLチャンネルのオーディオ信号を示している。
また、fac[diag_mix_gain2[0][0]]は関数facにdiag_mix_gain2[0][0]を代入して得られるゲイン係数を示しており、fac[diag_mix_gain2[1][0]]は関数facにdiag_mix_gain2[1][0]を代入して得られるゲイン係数を示している。同様に、fac[diag_mix_gain2[0][1]]は関数facにdiag_mix_gain2[0][1]を代入して得られるゲイン係数を示しており、fac[diag_mix_gain2[1][1]]は関数facにdiag_mix_gain2[1][1]を代入して得られるゲイン係数を示している。
また、ダウンミックス処理部64において、7.1chから5.1chへのダウンミックスが行われ、さらに5.1chから2chへのダウンミックスが行われた後、2chから1chへのダウンミックスが行われるようにしてもよい。そのような場合、例えば以下のような計算が行われる。
なお、ここでは、num_of_dest_chans1[0]=1、num_of_dest_chans1[1]=1であるとする。すなわち、ダウンミックス前のFCチャンネルおよびFLチャンネルがダイアログ音声のチャンネルであり、それらのダイアログ音声のダウンミックス後の加算先がFCチャンネルであるとする。
そのような場合、選択部111は、次式(9)を計算することでダウンミックスの入力とする信号を求める。
Figure 0006520937
すなわち、式(9)では上述した式(1)と同様の計算が行われる。
また、ダウンミックス部112は、入力とされたFC_dmin、FL_dmin、FR_dmin、LS_dmin、RS_dmin、TpFL_dmin、およびTpFR_dminに基づいて次式(10)の計算を行うことで、7.1chから5.1chへのダウンミックスを行う。
Figure 0006520937
すなわち、式(10)では上述した式(2)と同様の計算が行われる。
さらに、ダウンミックス部112はFC’、FL’、FR’、LS’、およびRS’と、LFEチャンネルのオーディオ信号であるLFE’とに基づいて、次式(11)の計算を行うことで、5.1chから2chへのダウンミックスを行う。
Figure 0006520937
すなわち、式(11)では上述した式(6)と同様の計算が行われる。
最後に、ゲイン補正部113と加算部114により次式(12)の計算が行われて、最終的なFCチャンネルのオーディオ信号が得られる。
Figure 0006520937
なお、式(12)においてFC’’’は最終的なFCチャンネルのオーディオ信号を示しており、diag_mixは、次式(13)により得られるものとされる。
Figure 0006520937
式(13)において、FCおよびFLは選択部111を介してゲイン補正部113に供給されたFCチャンネルおよびFLチャンネルのオーディオ信号を示している。
また、fac[diag_mix_gain1[0]]は関数facにdiag_mix_gain1[0]を代入して得られるゲイン係数を示しており、fac[diag_mix_gain1[1]]は関数facにdiag_mix_gain1[1]を代入して得られるゲイン係数を示している。
なお、以上においてはダイアログ音声のチャンネルをダウンミックス処理に使用しない(対象としない)という目的のために、ダウンミックスの入力とする、ダイアログ音声のオーディオ信号を0値化する例について説明したが、ダウンミックス係数が0とされるようにしてもよい。そのような場合、ダウンミックス処理部64は、diag_present_flag[i]の値が1であるチャンネルiのダウンミックス係数を0とする。これにより、実質的にダイアログ音声のチャンネルがダウンミックス処理の対象外となる。
さらに、ダイアログチャンネル情報にはダイアログ音声のチャンネルの属性を示すdiag_tag_idx[i]が含まれているので、このdiag_tag_idx[i]を利用して複数のダイアログ音声のなかから、いくつかの適切なダイアログ音声のみを選択して再生させることもできる。
具体的には、複数のダイアログ音声が切り替え用途で利用される場合、ダウンミックス処理部64の選択部111は、diag_tag_idx[i]に基づいて、複数のダイアログ音声のチャンネルのなかから、上位の装置等から指定された1または複数のダイアログ音声のチャンネルを選択し、ダウンミックス部112およびゲイン補正部113に供給する。このとき、ダウンミックス部112に供給されるダイアログ音声のチャンネルのオーディオ信号は0値化される。また、選択部111は、選択されなかった他のダイアログ音声のチャンネルについては、それらのチャンネルのオーディオ信号を破棄する。これにより、言語などの切り替えを容易に行うことができる。
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図14は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア511を駆動する。
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブルメディア511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、本技術は、以下の構成とすることも可能である。
(1)
マルチチャンネルのオーディオ信号の各チャンネルに関する情報に基づいて、前記マルチチャンネルのオーディオ信号のなかから、ダイアログ音声のチャンネルのオーディオ信号と、ダウンミックス対象の複数のチャンネルのオーディオ信号とを選択する選択部と、
前記ダウンミックス対象とされた複数のチャンネルのオーディオ信号を1または複数のチャンネルのオーディオ信号にダウンミックスするダウンミックス部と、
前記ダウンミックスにより得られた1または複数のチャンネルのオーディオ信号のうちの所定のチャンネルのオーディオ信号に、前記ダイアログ音声のチャンネルのオーディオ信号を加算する加算部と
を備えるオーディオ信号処理装置。
(2)
前記加算部は、前記ダイアログ音声のチャンネルのオーディオ信号の加算先を示す加算先情報により指定されたチャンネルを前記所定のチャンネルとして、前記ダイアログ音声のチャンネルのオーディオ信号の加算を行う
(1)に記載のオーディオ信号処理装置。
(3)
前記ダイアログ音声のチャンネルのオーディオ信号の前記所定のチャンネルのオーディオ信号への加算時のゲインを示すゲイン情報に基づいて、前記ダイアログ音声のチャンネルのオーディオ信号をゲイン補正するゲイン補正部をさらに備え、
前記加算部は、前記ゲイン補正部によりゲイン補正されたオーディオ信号を、前記所定のチャンネルのオーディオ信号に加算する
(2)に記載のオーディオ信号処理装置。
(4)
ビットストリームから前記各チャンネルに関する情報、前記加算先情報、および前記ゲイン情報を抽出する抽出部をさらに備える
(3)に記載のオーディオ信号処理装置。
(5)
前記抽出部は、前記ビットストリームから符号化された前記マルチチャンネルのオーディオ信号をさらに抽出し、
前記符号化された前記マルチチャンネルのオーディオ信号を復号して前記選択部に出力する復号部をさらに備える
(4)に記載のオーディオ信号処理装置。
(6)
前記ダウンミックス部は、前記ダウンミックス対象とされた複数のチャンネルのオーディオ信号に対して多段階のダウンミックスを行い、
前記加算部は、前記多段階のダウンミックスにより得られた前記1または複数のチャンネルのオーディオ信号のうちの前記所定のチャンネルのオーディオ信号に、前記ダイアログ音声のチャンネルのオーディオ信号を加算する
(1)乃至(5)の何れか一項に記載のオーディオ信号処理装置。
(7)
マルチチャンネルのオーディオ信号の各チャンネルに関する情報に基づいて、前記マルチチャンネルのオーディオ信号のなかから、ダイアログ音声のチャンネルのオーディオ信号と、ダウンミックス対象の複数のチャンネルのオーディオ信号とを選択し、
前記ダウンミックス対象とされた複数のチャンネルのオーディオ信号を1または複数のチャンネルのオーディオ信号にダウンミックスし、
前記ダウンミックスにより得られた1または複数のチャンネルのオーディオ信号のうちの所定のチャンネルのオーディオ信号に、前記ダイアログ音声のチャンネルのオーディオ信号を加算する
ステップを含むオーディオ信号処理方法。
(8)
マルチチャンネルのオーディオ信号の各チャンネルに関する情報に基づいて、前記マルチチャンネルのオーディオ信号のなかから、ダイアログ音声のチャンネルのオーディオ信号と、ダウンミックス対象の複数のチャンネルのオーディオ信号とを選択し、
前記ダウンミックス対象とされた複数のチャンネルのオーディオ信号を1または複数のチャンネルのオーディオ信号にダウンミックスし、
前記ダウンミックスにより得られた1または複数のチャンネルのオーディオ信号のうちの所定のチャンネルのオーディオ信号に、前記ダイアログ音声のチャンネルのオーディオ信号を加算する
ステップを含む処理をコンピュータに実行させるプログラム。
(9)
マルチチャンネルのオーディオ信号を符号化する符号化部と、
前記マルチチャンネルのオーディオ信号の各チャンネルが、ダイアログ音声のチャンネルであるか否かを示す識別情報を生成する生成部と、
符号化された前記マルチチャンネルのオーディオ信号と、前記識別情報とを含むビットストリームを生成するパッキング部と
を備える符号化装置。
(10)
前記生成部は、前記マルチチャンネルのオーディオ信号がダウンミックスされた場合に、前記ダウンミックスにより得られる1または複数のチャンネルのオーディオ信号のうちの、前記ダイアログ音声のチャンネルのオーディオ信号の加算先となるオーディオ信号のチャンネルを示す加算先情報をさらに生成し、
前記パッキング部は、符号化された前記マルチチャンネルのオーディオ信号、前記識別情報、および前記加算先情報を含む前記ビットストリームを生成する
(9)に記載の符号化装置。
(11)
前記生成部は、前記ダイアログ音声のチャンネルのオーディオ信号の前記加算先情報により示されるチャンネルへの加算時のゲイン情報をさらに生成し、
前記パッキング部は、符号化された前記マルチチャンネルのオーディオ信号、前記識別情報、前記加算先情報、および前記ゲイン情報を含む前記ビットストリームを生成する
(10)に記載の符号化装置。
(12)
マルチチャンネルのオーディオ信号を符号化し、
前記マルチチャンネルのオーディオ信号の各チャンネルが、ダイアログ音声のチャンネルであるか否かを示す識別情報を生成し、
符号化された前記マルチチャンネルのオーディオ信号と、前記識別情報とを含むビットストリームを生成する
ステップを含む符号化方法。
(13)
マルチチャンネルのオーディオ信号を符号化し、
前記マルチチャンネルのオーディオ信号の各チャンネルが、ダイアログ音声のチャンネルであるか否かを示す識別情報を生成し、
符号化された前記マルチチャンネルのオーディオ信号と、前記識別情報とを含むビットストリームを生成する
ステップを含む処理をコンピュータに実行させるプログラム。
11 エンコーダ, 21 ダイアログチャンネル情報生成部, 22 符号化部, 23 パッキング部, 51 デコーダ, 63 復号部, 64 ダウンミックス処理部, 111 選択部, 112 ダウンミックス部, 113 ゲイン補正部, 114 加算部

Claims (13)

  1. マルチチャンネルのオーディオ信号の各チャンネルに関する情報に基づいて、前記マルチチャンネルのオーディオ信号のなかから、ダイアログ音声のチャンネルのオーディオ信号と、ダウンミックス対象の複数のチャンネルのオーディオ信号とを選択する選択部と、
    前記ダウンミックス対象とされた複数のチャンネルのオーディオ信号を1または複数のチャンネルのオーディオ信号にダウンミックスするダウンミックス部と、
    前記ダウンミックスにより得られた1または複数のチャンネルのオーディオ信号のうちの所定のチャンネルのオーディオ信号に、前記ダイアログ音声のチャンネルのオーディオ信号を加算する加算部と
    を備えるオーディオ信号処理装置。
  2. 前記加算部は、前記ダイアログ音声のチャンネルのオーディオ信号の加算先を示す加算先情報により指定されたチャンネルを前記所定のチャンネルとして、前記ダイアログ音声のチャンネルのオーディオ信号の加算を行う
    請求項1に記載のオーディオ信号処理装置。
  3. 前記ダイアログ音声のチャンネルのオーディオ信号の前記所定のチャンネルのオーディオ信号への加算時のゲインを示すゲイン情報に基づいて、前記ダイアログ音声のチャンネルのオーディオ信号をゲイン補正するゲイン補正部をさらに備え、
    前記加算部は、前記ゲイン補正部によりゲイン補正されたオーディオ信号を、前記所定のチャンネルのオーディオ信号に加算する
    請求項2に記載のオーディオ信号処理装置。
  4. ビットストリームから前記各チャンネルに関する情報、前記加算先情報、および前記ゲイン情報を抽出する抽出部をさらに備える
    請求項3に記載のオーディオ信号処理装置。
  5. 前記抽出部は、前記ビットストリームから符号化された前記マルチチャンネルのオーディオ信号をさらに抽出し、
    前記符号化された前記マルチチャンネルのオーディオ信号を復号して前記選択部に出力する復号部をさらに備える
    請求項4に記載のオーディオ信号処理装置。
  6. 前記ダウンミックス部は、前記ダウンミックス対象とされた複数のチャンネルのオーディオ信号に対して多段階のダウンミックスを行い、
    前記加算部は、前記多段階のダウンミックスにより得られた前記1または複数のチャンネルのオーディオ信号のうちの前記所定のチャンネルのオーディオ信号に、前記ダイアログ音声のチャンネルのオーディオ信号を加算する
    請求項1乃至請求項5の何れか一項に記載のオーディオ信号処理装置。
  7. マルチチャンネルのオーディオ信号の各チャンネルに関する情報に基づいて、前記マルチチャンネルのオーディオ信号のなかから、ダイアログ音声のチャンネルのオーディオ信号と、ダウンミックス対象の複数のチャンネルのオーディオ信号とを選択し、
    前記ダウンミックス対象とされた複数のチャンネルのオーディオ信号を1または複数のチャンネルのオーディオ信号にダウンミックスし、
    前記ダウンミックスにより得られた1または複数のチャンネルのオーディオ信号のうちの所定のチャンネルのオーディオ信号に、前記ダイアログ音声のチャンネルのオーディオ信号を加算する
    ステップを含むオーディオ信号処理方法。
  8. マルチチャンネルのオーディオ信号の各チャンネルに関する情報に基づいて、前記マルチチャンネルのオーディオ信号のなかから、ダイアログ音声のチャンネルのオーディオ信号と、ダウンミックス対象の複数のチャンネルのオーディオ信号とを選択し、
    前記ダウンミックス対象とされた複数のチャンネルのオーディオ信号を1または複数のチャンネルのオーディオ信号にダウンミックスし、
    前記ダウンミックスにより得られた1または複数のチャンネルのオーディオ信号のうちの所定のチャンネルのオーディオ信号に、前記ダイアログ音声のチャンネルのオーディオ信号を加算する
    ステップを含む処理をコンピュータに実行させるプログラム。
  9. マルチチャンネルのオーディオ信号を符号化する符号化部と、
    前記マルチチャンネルのオーディオ信号の各チャンネルが、ダイアログ音声のチャンネルであるか否かを示す識別情報を生成する生成部と、
    符号化された前記マルチチャンネルのオーディオ信号と、前記識別情報とを含むビットストリームを生成するパッキング部と
    を備える符号化装置。
  10. 前記生成部は、前記マルチチャンネルのオーディオ信号がダウンミックスされた場合に、前記ダウンミックスにより得られる1または複数のチャンネルのオーディオ信号のうちの、前記ダイアログ音声のチャンネルのオーディオ信号の加算先となるオーディオ信号のチャンネルを示す加算先情報をさらに生成し、
    前記パッキング部は、符号化された前記マルチチャンネルのオーディオ信号、前記識別情報、および前記加算先情報を含む前記ビットストリームを生成する
    請求項9に記載の符号化装置。
  11. 前記生成部は、前記ダイアログ音声のチャンネルのオーディオ信号の前記加算先情報により示されるチャンネルへの加算時のゲイン情報をさらに生成し、
    前記パッキング部は、符号化された前記マルチチャンネルのオーディオ信号、前記識別情報、前記加算先情報、および前記ゲイン情報を含む前記ビットストリームを生成する
    請求項10に記載の符号化装置。
  12. マルチチャンネルのオーディオ信号を符号化し、
    前記マルチチャンネルのオーディオ信号の各チャンネルが、ダイアログ音声のチャンネルであるか否かを示す識別情報を生成し、
    符号化された前記マルチチャンネルのオーディオ信号と、前記識別情報とを含むビットストリームを生成する
    ステップを含む符号化方法。
  13. マルチチャンネルのオーディオ信号を符号化し、
    前記マルチチャンネルのオーディオ信号の各チャンネルが、ダイアログ音声のチャンネルであるか否かを示す識別情報を生成し、
    符号化された前記マルチチャンネルのオーディオ信号と、前記識別情報とを含むビットストリームを生成する
    ステップを含む処理をコンピュータに実行させるプログラム。
JP2016525768A 2014-06-06 2015-05-22 オーディオ信号処理装置および方法、符号化装置および方法、並びにプログラム Active JP6520937B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014117331 2014-06-06
JP2014117331 2014-06-06
PCT/JP2015/064677 WO2015186535A1 (ja) 2014-06-06 2015-05-22 オーディオ信号処理装置および方法、符号化装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JPWO2015186535A1 JPWO2015186535A1 (ja) 2017-04-20
JP6520937B2 true JP6520937B2 (ja) 2019-05-29

Family

ID=54766610

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016525768A Active JP6520937B2 (ja) 2014-06-06 2015-05-22 オーディオ信号処理装置および方法、符号化装置および方法、並びにプログラム

Country Status (6)

Country Link
US (1) US10621994B2 (ja)
EP (1) EP3154279A4 (ja)
JP (1) JP6520937B2 (ja)
KR (1) KR20170017873A (ja)
CN (1) CN106465028B (ja)
WO (1) WO2015186535A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102482162B1 (ko) * 2014-10-01 2022-12-29 돌비 인터네셔널 에이비 오디오 인코더 및 디코더
JP6436573B2 (ja) * 2015-03-27 2018-12-12 シャープ株式会社 受信装置、受信方法、及びプログラム
JP7039985B2 (ja) * 2017-12-15 2022-03-23 ヤマハ株式会社 ミキサ、ミキサの制御方法およびプログラム
EP3573059B1 (en) * 2018-05-25 2021-03-31 Dolby Laboratories Licensing Corporation Dialogue enhancement based on synthesized speech
CN110956973A (zh) * 2018-09-27 2020-04-03 深圳市冠旭电子股份有限公司 一种回声消除方法、装置及智能终端

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6311155B1 (en) * 2000-02-04 2001-10-30 Hearing Enhancement Company Llc Use of voice-to-remaining audio (VRA) in consumer applications
CN1116737C (zh) * 1998-04-14 2003-07-30 听觉增强有限公司 用户可调节的适应听力的音量控制
US6442278B1 (en) * 1999-06-15 2002-08-27 Hearing Enhancement Company, Llc Voice-to-remaining audio (VRA) interactive center channel downmix
US20040096065A1 (en) * 2000-05-26 2004-05-20 Vaudrey Michael A. Voice-to-remaining audio (VRA) interactive center channel downmix
JP2004023549A (ja) * 2002-06-18 2004-01-22 Denon Ltd マルチチャンネル再生装置及びマルチチャンネル再生用スピーカ装置
CN102833665B (zh) * 2004-10-28 2015-03-04 Dts(英属维尔京群岛)有限公司 音频空间环境引擎
WO2007080212A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Controlling the decoding of binaural audio signals
EP1999745B1 (en) * 2006-03-30 2016-08-31 LG Electronics Inc. Apparatuses and methods for processing an audio signal
US8027479B2 (en) * 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
JP5394931B2 (ja) * 2006-11-24 2014-01-22 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号の復号化方法及びその装置
JP5140684B2 (ja) * 2007-02-12 2013-02-06 ドルビー ラボラトリーズ ライセンシング コーポレイション 高齢又は聴覚障害聴取者のための非スピーチオーディオに対するスピーチオーディオの改善された比率
CN101542595B (zh) * 2007-02-14 2016-04-13 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
CA2645915C (en) * 2007-02-14 2012-10-23 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
JP2010136236A (ja) * 2008-12-08 2010-06-17 Panasonic Corp オーディオ信号処理装置、オーディオ信号処理方法およびプログラム
JP5604933B2 (ja) 2010-03-30 2014-10-15 富士通株式会社 ダウンミクス装置およびダウンミクス方法
TWI462087B (zh) 2010-11-12 2014-11-21 Dolby Lab Licensing Corp 複數音頻信號之降混方法、編解碼方法及混合系統
KR101845226B1 (ko) * 2011-07-01 2018-05-18 돌비 레버러토리즈 라이쎈싱 코오포레이션 적응형 오디오 신호 생성, 코딩 및 렌더링을 위한 시스템 및 방법
JP2013179570A (ja) * 2012-02-03 2013-09-09 Panasonic Corp 再生装置

Also Published As

Publication number Publication date
CN106465028A (zh) 2017-02-22
US10621994B2 (en) 2020-04-14
CN106465028B (zh) 2019-02-15
WO2015186535A1 (ja) 2015-12-10
EP3154279A4 (en) 2017-11-01
US20170194009A1 (en) 2017-07-06
JPWO2015186535A1 (ja) 2017-04-20
KR20170017873A (ko) 2017-02-15
EP3154279A1 (en) 2017-04-12

Similar Documents

Publication Publication Date Title
KR102230727B1 (ko) 광대역 정렬 파라미터 및 복수의 협대역 정렬 파라미터들을 사용하여 다채널 신호를 인코딩 또는 디코딩하기 위한 장치 및 방법
JP4616349B2 (ja) ステレオ互換性のあるマルチチャネルオーディオ符号化
US9478225B2 (en) Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
KR101271069B1 (ko) 다중채널 오디오 인코더 및 디코더와, 인코딩 및 디코딩 방법
JP6039516B2 (ja) 多チャンネルオーディオ信号処理装置、多チャンネルオーディオ信号処理方法、圧縮効率向上方法及び多チャンネルオーディオ信号処理システム
US7961890B2 (en) Multi-channel hierarchical audio coding with compact side information
KR101056325B1 (ko) 복수의 파라미터적으로 코딩된 오디오 소스들을 결합하는 장치 및 방법
JP4521032B2 (ja) 空間音声パラメータの効率的符号化のためのエネルギー対応量子化
JP4601669B2 (ja) マルチチャネル信号またはパラメータデータセットを生成する装置および方法
US9966080B2 (en) Audio object encoding and decoding
RU2576476C2 (ru) Декодер аудиосигнала, кодер аудиосигнала, способ формирования представления сигнала повышающего микширования, способ формирования представления сигнала понижающего микширования, компьютерная программа и бистрим, использующий значение общего параметра межобъектной корреляции
RU2672174C2 (ru) Декодер, кодер и способ информированной оценки громкости в системах основывающегося на объектах кодирования аудио
US8817991B2 (en) Advanced encoding of multi-channel digital audio signals
JP6520937B2 (ja) オーディオ信号処理装置および方法、符号化装置および方法、並びにプログラム
JP2010507115A (ja) 多チャネルダウンミックスされたオブジェクト符号化における強化された符号化及びパラメータ表現
CN101410889A (zh) 对作为听觉事件的函数的空间音频编码参数进行控制
MX2012005781A (es) Aparato para proporcionar una representacion de señal de mezcla ascendente con base en la representacion de señal de mezcla descendente, aparato para proporcionar un flujo de bits que representa una señal de audio multicanal, metodos, programas informaticos y flujo de bits que representan una señal de audio multicanal usando un parametro de combinacion lineal.
JP2016530788A (ja) 符号化表現に基づいて少なくとも4つのオーディオチャネル信号を提供するためのオーディオデコーダ、オーディオエンコーダ、方法、帯域幅拡張を用いた少なくとも4つのオーディオチャネル信号に基づいて符号化表現を提供するための方法およびコンピュータプログラム
TW201642248A (zh) 編碼或解碼一多聲道訊號之裝置與方法
RU2696952C2 (ru) Аудиокодировщик и декодер
JP6686015B2 (ja) オーディオ信号のパラメトリック混合
CN112823534B (zh) 信号处理设备和方法以及程序
JP4997781B2 (ja) ミックスダウン方法およびミックスダウン装置

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180426

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190415

R151 Written notification of patent or utility model registration

Ref document number: 6520937

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151