JP7380835B2 - 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム及び記録媒体 - Google Patents

音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム及び記録媒体 Download PDF

Info

Publication number
JP7380835B2
JP7380835B2 JP2022505844A JP2022505844A JP7380835B2 JP 7380835 B2 JP7380835 B2 JP 7380835B2 JP 2022505844 A JP2022505844 A JP 2022505844A JP 2022505844 A JP2022505844 A JP 2022505844A JP 7380835 B2 JP7380835 B2 JP 7380835B2
Authority
JP
Japan
Prior art keywords
channel
channels
inter
sound signal
rearranged
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022505844A
Other languages
English (en)
Other versions
JPWO2021181976A1 (ja
Inventor
亮介 杉浦
健弘 守谷
優 鎌本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from PCT/JP2020/010080 external-priority patent/WO2021181472A1/ja
Priority claimed from PCT/JP2020/010081 external-priority patent/WO2021181473A1/ja
Priority claimed from PCT/JP2020/041216 external-priority patent/WO2021181746A1/ja
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021181976A1 publication Critical patent/JPWO2021181976A1/ja
Application granted granted Critical
Publication of JP7380835B2 publication Critical patent/JP7380835B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)

Description

本発明は、音信号をモノラルで符号化したり、モノラル符号化とステレオ符号化を併用して音信号を符号化したり、音信号をモノラルで信号処理したり、ステレオの音信号にモノラルの音信号を用いた信号処理をしたりするために、複数チャネルの音信号からモノラルの音信号を得る技術に関する。
2チャネルの音信号からモノラルの音信号を得て、2チャネルの音信号とモノラルの音信号をエンベデッド符号化/復号する技術として、特許文献1の技術がある。特許文献1には、入力された左チャネルの音信号と入力された右チャネルの音信号を対応するサンプルごとに平均することでモノラル信号を得て、モノラル信号を符号化(モノラル符号化)してモノラル符号を得て、モノラル符号を復号(モノラル復号)してモノラル局部復号信号を得て、左チャネルと右チャネルのそれぞれについて、入力された音信号と、モノラル局部復号信号から得た予測信号と、の差分(予測残差信号)を符号化する技術が開示されている。特許文献1の技術では、それぞれのチャネルについて、モノラル局部復号信号に遅延を与えて振幅比を与えた信号を予測信号として、入力された音信号と予測信号の誤差が最小となる遅延と振幅比を有する予測信号を選択するか、または、入力された音信号とモノラル局部復号信号との間の相互相関を最大にする遅延差と振幅比を有する予測信号を用いて、入力された音信号から予測信号を減算して予測残差信号を得て、予測残差信号を符号化/復号の対象とすることで、各チャネルの復号音信号の音質劣化を抑えている。
国際公開第2006/070751号
特許文献1の技術では、予測信号を得る際にモノラル局部復号信号に与える遅延と振幅比を最適化することで、各チャネルの符号化効率を高めることができる。しかし、特許文献1の技術では、モノラル局部復号信号は左チャネルの音信号と右チャネルの音信号を平均して得たモノラル信号を符号化・復号して得たものである。すなわち、特許文献1の技術には、複数チャネルの音信号から符号化処理などの信号処理に有用なモノラル信号を得る工夫がされていないという課題がある。
本発明では、複数チャネルの音信号から符号化処理などの信号処理に有用なモノラル信号を得る技術を提供することを目的とする。
本発明の一態様は、N個(Nは3以上の整数)のチャネルの入力音信号からモノラルの音信号であるダウンミックス信号を得る音信号ダウンミックス方法であって、N個のチャネルに含まれる2個のチャネルによる組合せのそれぞれについての、2個のチャネルの入力音信号間の相関の大きさを表す値であるチャネル間相関値と、2個のチャネルの入力音信号のどちらが先行しているかを表す情報である先行チャネル情報と、を得るチャネル間関係情報取得ステップと、チャネル間相関値と先行チャネル情報とに基づき、各チャネルの入力音信号に、当該チャネルより先行している各チャネルの入力音信号との相関が大きいほど小さく、当該チャネルより後行している各チャネルの入力音信号との相関が大きいほど大きい重みを与えて、N個のチャネルの入力音信号を重み付け加算してダウンミックス信号を得るダウンミックスステップと、を有し、チャネル間関係情報取得ステップは、第1チャネルから順に、残りのチャネルのうちの入力音信号が最も類似するチャネルが隣接するチャネルとなるように、逐次的に並び替えを行って、N個のチャネルの並び替え後の信号である第1並び替え済入力音信号から第N並び替え済入力音信号と、各並び替え済入力音信号のN個のチャネルの入力音信号におけるチャネル番号である第1原チャネル情報から第N原チャネル情報と、を得るチャネル並び替えステップと、第1並び替え済入力音信号から第N並び替え済入力音信号のうちの並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれについての、チャネル間相関値とチャネル間時間差を得る隣接チャネル間関係情報推定ステップと、並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれについてのチャネル間相関値から、並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについてのチャネル間相関値を得て、並び替え後のチャネルによる組合せのそれぞれについてのチャネル間相関値を、原チャネル情報を用いてN個のチャネルの入力音信号におけるチャネルの組合せに対応付けることで、N個のチャネルに含まれる2個のチャネルによる組合せそれぞれについての、入力音信号間のチャネル間相関値を得て、並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれについてのチャネル間時間差から、並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについてのチャネル間時間差を得て、並び替え後のチャネルによる組合せのそれぞれについてのチャネル間時間差から、原チャネル情報を用いてN個のチャネルの入力音信号におけるチャネルの組合せに対応付けることと、チャネル間時間差が正であるか負であるか0であるかに基づいて先行チャネル情報を得ることと、によって、N個のチャネルに含まれる2個のチャネルによる組合せそれぞれについての先行チャネル情報を得るチャネル間関係情報補完ステップを有し、並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれにおける2個のチャネル番号をi(iは1以上N-1以下の各整数)とi+1とし、並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれについてのチャネル間相関値をγ'i(i+1)とし、並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれについてのチャネル間時間差をτ'i(i+1)とし、並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれにおける2個のチャネル番号をn(nは1以上N-2以下の各整数)とm(mはn+2以上N以下の各整数)とし、並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについてのチャネル間相関値をγ'nmとし、並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについてのチャネル間時間差をτ'nmとして、並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについてのチャネル間相関値γ'nmは、iがn以上m-1以下である並び替え後のチャネル番号が隣接する2個のチャネルによる組合せそれぞれについてのチャネル間相関値γ'i(i+1)のうちの最小値を含む1個以上のチャネル間相関値γ'i(i+1)のそれぞれと単調非減少の関係にある値であり、並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについてのチャネル間時間差τ'nmは、iがn以上m-1以下である並び替え後のチャネル番号が隣接する2個のチャネルによる組合せそれぞれについてのチャネル間時間差τ'i(i+1)の全てを加算した値であることを特徴とする。
本発明の一態様は、音信号符号化方法であって、前記音信号ダウンミックス方法を音信号ダウンミックスステップとして有し、ダウンミックスステップが得たダウンミックス信号を符号化してモノラル符号を得るモノラル符号化ステップと、N個チャネルの入力音信号を符号化してステレオ符号を得るステレオ符号化ステップと、を更に有することを特徴とする。
本発明によれば、複数チャネルの音信号から符号化処理などの信号処理に有用なモノラル信号を得ることができる。
第1実施形態の第1例の音信号ダウンミックス装置を示すブロック図である。 第1実施形態の第1例の音信号ダウンミックス装置の処理を示す流れ図である。 第1実施形態の第2例の音信号ダウンミックス装置の例を示すブロック図である。 第1実施形態の第2例の音信号ダウンミックス装置の処理の例を示す流れ図である。 第2実施形態の第1例と第3実施形態の第1例の音信号ダウンミックス装置の例を示すブロック図である。 第2実施形態の第1例と第3実施形態の第1例の音信号ダウンミックス装置の処理の例を示す流れ図である。 第2実施形態の第2例と第3実施形態の第2例の音信号ダウンミックス装置の例を示すブロック図である。 第2実施形態の第2例と第3実施形態の第2例の音信号ダウンミックス装置の処理の例を示す流れ図である。 音信号ダウンミックス装置に入力される6チャネルの入力音信号を模式的に示す図である。 音信号ダウンミックス装置に入力される6チャネルの入力音信号を模式的に示す図である。 第3実施形態のチャネル間関係情報推定部の例を示すブロック図である。 第3実施形態のチャネル間関係情報推定部の処理の例を示す流れ図である。 第4実施形態の音信号符号化装置の例を示すブロック図である。 第4実施形態の音信号符号化装置の処理の例を示す流れ図である。 第5実施形態の音信号処理装置の例を示すブロック図である。 第5実施形態の音信号処理装置の処理の例を示す流れ図である。 本発明の実施形態における各装置を実現するコンピュータの機能構成の一例を示す図である。
<第1実施形態>
符号化処理などの信号処理の対象となる2チャネルの音信号は、ある空間に配置された左チャネル用のマイクロホンと右チャネル用のマイクロホンのそれぞれで収音した音をAD変換して得られたディジタルの音信号であることが多い。この場合には、符号化処理などの信号処理をする装置に入力されるのは、当該空間に配置した左チャネル用のマイクロホンで収音した音をAD変換して得られたディジタルの音信号である左チャネル入力音信号と、当該空間に配置した右チャネル用のマイクロホンで収音した音をAD変換して得られたディジタルの音信号である右チャネル入力音信号である。この左チャネル入力音信号と右チャネル入力音信号には、当該空間に存在する各音源が発した音が、音源から左チャネル用のマイクロホンへの到達時間と、音源から右チャネル用のマイクロホンへの到達時間と、の差(いわゆる到来時間差)が与えられた状態で含まれている。
上述した特許文献1の技術では、モノラル局部復号信号に遅延を与えて振幅比を与えた信号を予測信号として、入力された音信号から予測信号を減算して予測残差信号を得て、予測残差信号を符号化/復号の対象としている。すなわち、それぞれのチャネルについて、入力された音信号とモノラル局部復号信号とが類似しているほど効率よく符号化できる。しかしながら、例えば、ある空間に存在する1つの音源が発した音のみが左チャネル入力音信号と右チャネル入力音信号に到来時間差が与えられた状態で含まれているとすると、モノラル局部復号信号が左チャネル音信号と右チャネル音信号を平均して得たモノラル信号を符号化・復号して得たものである場合には、左チャネル音信号にも右チャネル音信号にもモノラル局部復号信号にも同じ1つの音源が発した音のみが含まれているにもかかわらず、左チャネル音信号とモノラル局部復号信号の類似の度合いは極めて高くはなく、右チャネル音信号とモノラル局部復号信号の類似の度合いも極めて高くはない。このように、左チャネル音信号と右チャネル音信号をただ平均してモノラル信号を得るのでは、符号化処理などの信号処理に有用なモノラル信号を得られないことがある。
そこで、符号化処理などの信号処理に有用なモノラル信号を得られるように、左チャネル入力音信号と右チャネル入力音信号の関係を考慮したダウンミックス処理を行うのが第1実施形態の音信号ダウンミックス装置である。以下、第1実施形態の音信号ダウンミックス装置について説明する。
≪第1例≫
まず、第1実施形態の第1例の音信号ダウンミックス装置について説明する。第1例の音信号ダウンミックス装置401は、図1に示す通り、左右関係情報推定部183とダウンミックス部112を含む。音信号ダウンミックス装置401は、例えば20msの所定の時間長のフレーム単位で、入力された2チャネルステレオの時間領域の音信号から、後述するダウンミックス信号を得て出力する。音信号ダウンミックス装置401に入力されるのは2チャネルステレオの時間領域の音信号であり、例えば、音声や音楽などの音を2個のマイクロホンそれぞれで収音してAD変換して得られたディジタルの音信号、前述したディジタルの音信号を符号化/復号して得たディジタルの復号音信号、前述したディジタルの音信号を信号処理して得たディジタルの信号処理済みの音信号、であり、左チャネル入力音信号と右チャネル入力音信号から成る。音信号ダウンミックス装置401が得た時間領域のモノラルの音信号であるダウンミックス信号は、少なくともダウンミックス信号を符号化する符号化装置や少なくともダウンミックス信号を信号処理する信号処理装置に入力される。フレーム当たりのサンプル数をTとすると、音信号ダウンミックス装置401にはフレーム単位で左チャネル入力音信号xL(1), xL(2), ..., xL(T)と右チャネル入力音信号xR(1), xR(2), ..., xR(T)が入力され、音信号ダウンミックス装置401はフレーム単位でダウンミックス信号xM(1), xM(2), ..., xM(T)を得て出力する。ここで、Tは正の整数であり、例えば、フレーム長が20msであり、サンプリング周波数が32kHzであれば、Tは640である。第1例の音信号ダウンミックス装置401は、各フレームについて、図2に例示するステップS183とステップS112の処理を行う。
[左右関係情報推定部183]
左右関係情報推定部183には、音信号ダウンミックス装置401に入力された左チャネル入力音信号と、音信号ダウンミックス装置401に入力された右チャネル入力音信号と、が入力される。左右関係情報推定部183は、左チャネル入力音信号と右チャネル入力音信号から、左右相関値γと、先行チャネル情報と、を得て出力する(ステップS183)。
先行チャネル情報は、ある空間の主な音源が発した音が、当該空間に配置した左チャネル用のマイクロホンと当該空間に配置した右チャネル用のマイクロホンのどちらに早く到達しているかに相当する情報である。すなわち、先行チャネル情報は、同じ音信号が左チャネル入力音信号と右チャネル入力音信号のどちらに先に含まれているかを表す情報である。同じ音信号が左チャネル入力音信号に先に含まれている場合には左チャネルが先行しているまたは右チャネルが後行しているといい、同じ音信号が右チャネル入力音信号に先に含まれている場合には右チャネルが先行しているまたは左チャネルが後行しているというとすると、先行チャネル情報は、左チャネルと右チャネルのどちらのチャネルが先行しているかを表す情報である。左右相関値γは、左チャネル入力音信号と右チャネル入力音信号の時間差を考慮した相関値である。すなわち、左右相関値γは、先行しているチャネルの入力音信号のサンプル列と、τサンプルだけ当該サンプル列より後にずれた位置にある後行しているチャネルの入力音信号のサンプル列と、の相関の大きさを表す値である。このτのことを以下では左右時間差ともいう。先行チャネル情報と左右相関値γは、左チャネル入力音信号と右チャネル入力音信号の関係を表す情報であるので、左右関係情報であるともいえる。
例えば、相関の大きさを表す値として相関係数の絶対値を用いるのであれば、左右関係情報推定部183は、予め定めたτmaxからτminまで(例えば、τmaxは正の数、τminは負の数)の各候補サンプル数τcandについて、左チャネル入力音信号のサンプル列と、各候補サンプル数τcand分だけ当該サンプル列より後にずれた位置にある右チャネル入力音信号のサンプル列と、の相関係数の絶対値γcandのうちの最大値を左右相関値γとして得て出力し、相関係数の絶対値が最大値のときのτcandが正の値である場合には、左チャネルが先行していることを表す情報を先行チャネル情報として得て出力し、相関係数の絶対値が最大値のときのτcandが負の値である場合には、右チャネルが先行していることを表す情報を先行チャネル情報として得て出力する。左右関係情報推定部183は、相関係数の絶対値が最大値のときのτcandが0である場合には、左チャネルが先行していることを表す情報を先行チャネル情報として得て出力してもよいし、右チャネルが先行していることを表す情報を先行チャネル情報として得て出力してもよいが、何れのチャネルも先行していないことを表す情報を先行チャネル情報として得て出力するとよい。
予め定めた各候補サンプル数は、τmaxからτminまでの各整数値であってもよいし、τmaxからτminまでの間にある分数値や小数値を含んでいてもよいし、τmaxからτminまでの間にある何れかの整数値を含まないでもよい。また、τmax=-τminであってもよいし、そうでなくてもよい。何れかのチャネルが先行しているか分からない入力音信号を対象とすることを想定すると、τmaxを正の数とし、τminを負の数とするのがよいが、何れかのチャネルが必ず先行しているような特殊な入力音信号を対象とする場合には、τmaxもτminも正の数としたり、τmaxもτminも負の数としたりしてもよい。なお、相関係数の絶対値γcandを計算するために現在のフレームの入力音信号のサンプル列に連続する過去の入力音信号の1個以上のサンプルも用いてもよく、この場合には過去のフレームの入力音信号のサンプル列を予め定めたフレーム数分だけ左右関係情報推定部183内の図示しない記憶部に記憶しておくようにすればよい。
また例えば、相関係数の絶対値に代えて、以下のように信号の位相の情報を用いた相関値をγcandとしてもよい。この例においては、左右関係情報推定部183は、まず左チャネル入力音信号xL(1), xL(2), ..., xL(T)及び右チャネル入力音信号xR(1), xR(2), ..., xR(T)のそれぞれを、下記の式(1-1)及び式(1-2)のようにフーリエ変換することにより、0からT-1の各周波数kにおける周波数スペクトルXL(k)及びXR(k)を得る。
Figure 0007380835000001

Figure 0007380835000002
左右関係情報推定部183は、次に、式(1-1)及び式(1-2)で得られた各周波数kにおける周波数スペクトルXL(k)及びXR(k)を用いて、下記の式(1-3)により、各周波数kにおける位相差のスペクトルφ(k)を得る。
Figure 0007380835000003
左右関係情報推定部183は、次に、式(1-3)で得られた位相差のスペクトルを逆フーリエ変換することにより、下記の式(1-4)のようにτmaxからτminまでの各候補サンプル数τcandについて位相差信号ψ(τcand)を得る。
Figure 0007380835000004
式(1-4)で得られた位相差信号ψ(τcand)の絶対値は、左チャネル入力音信号xL(1), xL(2), ..., xL(T)及び右チャネル入力音信号xR(1), xR(2), ..., xR(T)の時間差の尤もらしさに対応したある種の相関を表すものであるので、左右関係情報推定部183は、各候補サンプル数τcandに対するこの位相差信号ψ(τcand)の絶対値を相関値γcandとして用いる。すなわち、左右関係情報推定部183は、この位相差信号ψ(τcand)の絶対値である相関値γcandの最大値を左右相関値γとして得て出力し、相関値が最大値のときのτcandが正の値である場合には、左チャネルが先行していることを表す情報を先行チャネル情報として得て出力し、相関値が最大値のときのτcandが負の値である場合には、右チャネルが先行していることを表す情報を先行チャネル情報として得て出力する。左右関係情報推定部183は、相関値が最大値のときのτcandが0である場合には、左チャネルが先行していることを表す情報を先行チャネル情報として得て出力してもよいし、右チャネルが先行していることを表す情報を先行チャネル情報として得て出力してもよいが、何れのチャネルも先行していないことを表す情報を先行チャネル情報として得て出力するとよい。なお、左右関係情報推定部183は、相関値γcandとして位相差信号ψ(τcand)の絶対値をそのまま用いることに代えて、例えば各τcandについて位相差信号ψ(τcand)の絶対値に対するτcand前後にある複数個の候補サンプル数それぞれについて得られた位相差信号の絶対値の平均との相対差のような、正規化された値を用いてもよい。つまり、左右関係情報推定部183は、各τcandについて、予め定めた正の数τrangeを用いて、下記の式(1-5)により平均値を得て、得られた平均値ψccand)と位相差信号ψ(τcand)を用いて下記の式(1-6)により得られる正規化された相関値をγcandとして用いてもよい。
Figure 0007380835000005

Figure 0007380835000006
なお、式(1-6)により得られる正規化された相関値は、0以上1以下の値であり、τcandが左右時間差として尤もらしいほど1に近く、τcandが左右時間差として尤もらしくないほど0に近い性質を示す値である。
[ダウンミックス部112]
ダウンミックス部112には、音信号ダウンミックス装置401に入力された左チャネル入力音信号と、音信号ダウンミックス装置401に入力された右チャネル入力音信号と、左右関係情報推定部183が出力した左右相関値γと、左右関係情報推定部183が出力した先行チャネル情報と、が入力される。ダウンミックス部112は、ダウンミックス信号に、左チャネル入力音信号と右チャネル入力音信号のうちの先行しているチャネルの入力音信号のほうが、左右相関値γが大きいほど大きく含まれるように、左チャネル入力音信号と右チャネル入力音信号を重み付け平均してダウンミックス信号を得て出力する(ステップS112)。
例えば、左右関係情報推定部183の説明箇所で上述した例のように相関値に相関係数の絶対値や正規化された値を用いているのであれば、左右関係情報推定部183から入力された左右相関値γは0以上1以下の値であるため、ダウンミックス部112は、対応する各サンプル番号tに対して、左右相関値γで定まる重みを用いて左チャネル入力音信号xL(t)と右チャネル入力音信号xR(t)を重み付け加算したものをダウンミックス信号xM(t)とすればよい。具体的には、ダウンミックス部112は、先行チャネル情報が左チャネルが先行していることを表す情報である場合、すなわち、左チャネルが先行している場合には、xM(t)=((1+γ)/2)×xL(t)+((1-γ)/2)×xR(t)、先行チャネル情報が右チャネルが先行していることを表す情報である場合、すなわち、右チャネルが先行している場合には、xM(t)=((1-γ)/2)×xL(t)+((1+γ)/2)×xR(t)、としてダウンミックス信号xM(t)を得ればよい。ダウンミックス部112がこのようにダウンミックス信号を得ると、当該ダウンミックス信号は、左右相関値γが小さいほど、つまり左チャネル入力音信号と右チャネル入力音信号の相関が小さいほど、左チャネル入力音信号と右チャネル入力音信号の平均により得られる信号に近く、左右相関値γが大きいほど、つまり左チャネル入力音信号と右チャネル入力音信号の相関が大きいほど、左チャネル入力音信号と右チャネル入力音信号のうちの先行しているチャネルの入力音信号に近い。
なお、ダウンミックス部112は、何れのチャネルも先行していない場合には、左チャネル入力音信号と右チャネル入力音信号が同じ重みでダウンミックス信号に含まれるように、左チャネル入力音信号と右チャネル入力音信号を平均してダウンミックス信号を得て出力するのがよい。すなわち、ダウンミックス部112は、先行チャネル情報が何れのチャネルも先行していないことを表す場合には、各サンプル番号tについて、左チャネル入力音信号xL(t)と右チャネル入力音信号xR(t)を平均したxM(t)=(xL(t)+xR(t))/2をダウンミックス信号xM(t)とするとよい。
≪第2例≫
例えば、音信号ダウンミックス装置とは別の装置が左チャネル入力音信号と右チャネル入力音信号をステレオ符号化処理する場合、左チャネル入力音信号と右チャネル入力音信号が音信号ダウンミックス装置とは別の装置によるステレオ復号処理により得られた信号である場合、などにおいては、左右関係情報推定部183が得るのと同じ左右相関値γと先行チャネル情報の何れか一方または両方が音信号ダウンミックス装置とは別装置で得られている場合がある。左右相関値γと先行チャネル情報の何れか一方または両方が別装置で得られている場合は、音信号ダウンミックス装置には、別装置で得た左右相関値γと先行チャネル情報の何れか一方または両方が入力されるようにして、左右関係情報推定部183は、音信号ダウンミックス装置に入力されなかった左右相関値γまたは先行チャネル情報を得るようにすればよい。以下、左右相関値γと先行チャネル情報の何れか一方または両方が外部から入力されることを想定した音信号ダウンミックス装置の例を第2例として、第1例と異なる点を中心に説明する。
第2例の音信号ダウンミックス装置405は、図3に示す通り、左右関係情報取得部185とダウンミックス部112を含む。音信号ダウンミックス装置405には、左チャネル入力音信号と右チャネル入力音信号に加えて、図3に一点鎖線で示す通り、別装置で得た左右相関値γと先行チャネル情報の何れか一方または両方が入力されてもよい。第2例の音信号ダウンミックス装置405は、各フレームについて、図4に例示するステップS185とステップS112の処理を行う。ダウンミックス部112とステップS112は第1例と同じであるので、以下では左右関係情報取得部185とステップS185について説明する。
[左右関係情報取得部185]
左右関係情報取得部185は、左チャネル入力音信号と右チャネル入力音信号の相関の大きさを表す値である左右相関値γと、左チャネル入力音信号と右チャネル入力音信号のどちらが先行しているかを表す情報である先行チャネル情報と、を得て出力する(ステップS185)。
左右相関値γと先行チャネル情報の両方が別装置から音信号ダウンミックス装置405に入力された場合には、図3に一点鎖線で示すように、左右関係情報取得部185は音信号ダウンミックス装置405に入力された左右相関値γと先行チャネル情報を得てダウンミックス部112に対して出力する。
左右相関値γと先行チャネル情報の何れか一方が別装置から音信号ダウンミックス装置405に入力されていない場合には、図3に破線で示すように、左右関係情報取得部185は、左右関係情報推定部183を備える。左右関係情報取得部185の左右関係情報推定部183は、音信号ダウンミックス装置405に入力されていない左右相関値γまたは音信号ダウンミックス装置405に入力されていない先行チャネル情報を、第1例の左右関係情報推定部183と同様に左チャネル入力音信号と右チャネル入力音信号から得て、ダウンミックス部112に対して出力する。音信号ダウンミックス装置405に入力された左右相関値γまたは音信号ダウンミックス装置405に入力された先行チャネル情報については、左右関係情報取得部185は、図3に一点鎖線で示すように、音信号ダウンミックス装置405に入力された左右相関値γまたは音信号ダウンミックス装置405に入力された先行チャネル情報をダウンミックス部112に対して出力する。
左右相関値γと先行チャネル情報の両方が別装置から音信号ダウンミックス装置405に入力されていない場合には、図3に破線で示すように、左右関係情報取得部185は左右関係情報推定部183を備える。左右関係情報推定部183は、左右相関値γと先行チャネル情報を、第1例の左右関係情報推定部183と同様に左チャネル入力音信号と右チャネル入力音信号から得て、ダウンミックス部112に対して出力する。すなわち、第1例の左右関係情報推定部183とステップS183のそれぞれは、左右関係情報取得部185とステップS185の範疇であるといえる。
<第2実施形態>
チャネル数が3以上の場合であっても、各チャネルの入力音信号とダウンミックス信号との関係を第1実施形態の音信号ダウンミックス装置401、405と同様にすることで、符号化処理などの信号処理に有用なモノラル信号を得ることができる。この形態を第2実施形態として説明する。
第1実施形態の音信号ダウンミックス装置401、405におけるあるチャネルの入力音信号のダウンミックス信号への含め方を左チャネルと右チャネルのそれぞれのチャネル番号をnとして説明すると、第1実施形態の音信号ダウンミックス装置401、405は、各第nチャネルについて、第nチャネルより後行しているチャネルの入力音信号と第nチャネルの入力音信号の相関が大きいほど、第nチャネルの入力音信号に大きな重みを与えたものをダウンミックス信号に含めており、第nチャネルより先行しているチャネルの入力音信号と第nチャネルの入力音信号の相関が大きいほど、第nチャネルの入力音信号に小さな重みを与えたものをダウンミックス信号に含めている。この入力音信号とダウンミックス信号との関係を、先行しているチャネルが複数個ある場合、後行しているチャネルが複数個ある場合、先行しているチャネルと後行しているチャネルの両方がある場合、に対応できるように拡張したのが第2実施形態の音信号ダウンミックス装置である。以下、第2実施形態の音信号ダウンミックス装置について説明する。なお、第2実施形態の音信号ダウンミックス装置は、第1実施形態の音信号ダウンミックス装置をチャネル数が3以上である場合に対応できるように拡張したものであり、チャネル数が2の場合には第1実施形態の音信号ダウンミックス装置と同様に動作する。
なお、第1実施形態では、音信号ダウンミックス装置401、405が、入力音信号のチャネル間の相関が小さいほど、全ての入力音信号の平均により得られる信号に近いダウンミックス信号を得る例を説明したが、この入力音信号とダウンミックス信号との関係もチャネル数が3以上の場合であっても実現できるので、第2実施形態の音信号ダウンミックス装置の一例として説明する。
≪第1例≫
まず、第2実施形態の第1例の音信号ダウンミックス装置について説明する。第1例の音信号ダウンミックス装置406は、図5に示す通り、チャネル間関係情報推定部186とダウンミックス部116を含む。音信号ダウンミックス装置406は、例えば20msの所定の時間長のフレーム単位で、入力されたNチャネルステレオの時間領域の音信号から、後述するダウンミックス信号を得て出力する。チャネル数Nは2以上の整数である。ただし、チャネル数が2の場合には第1実施形態の音信号ダウンミックス装置を用いればよいので、第2実施形態の音信号ダウンミックス装置が特に有用なのはNが3以上の整数の場合である。音信号ダウンミックス装置406に入力されるのはN個のチャネルの時間領域の音信号であり、例えば、音声や音楽などの音をN個のマイクロホンそれぞれで収音してAD変換して得られたディジタルの音信号、複数の地点それぞれで収音してAD変換して得られた1チャネルまたは複数個のチャネルのディジタルの音信号をそのまままたは適宜混合してN個のチャネルにしたディジタルの音信号、前述した各ディジタルの音信号を符号化・復号して得たディジタルの復号音信号、前述した各ディジタルの音信号を信号処理して得たディジタルの信号処理済みの音信号、である。音信号ダウンミックス装置406が得た時間領域のモノラルの音信号であるダウンミックス信号は、少なくともダウンミックス信号を符号化する符号化装置や少なくともダウンミックス信号を信号処理する信号処理装置に入力される。音信号ダウンミックス装置406には、フレーム単位でN個のチャネルの入力音信号が入力され、音信号ダウンミックス装置406は、フレーム単位でダウンミックス信号を得て出力する。以下では、フレーム当たりのサンプル数をTとして説明する。Tは正の整数であり、例えば、フレーム長が20msであり、サンプリング周波数が32kHzであれば、Tは640である。第1例の音信号ダウンミックス装置406は、各フレームについて、図6に例示するステップS186とステップS116の処理を行う。
[チャネル間関係情報推定部186]
チャネル間関係情報推定部186には、音信号ダウンミックス装置406に入力されたN個のチャネルの入力音信号が入力される。チャネル間関係情報推定部186は、入力されたN個のチャネルの入力音信号から、チャネル間相関値と、先行チャネル情報と、を得て出力する(ステップS186)。チャネル間相関値と先行チャネル情報は、N個のチャネルの入力音信号におけるチャネル間の関係を表す情報であるので、チャネル間関係情報であるともいえる。
チャネル間相関値は、N個のチャネルに含まれる2個のチャネルによる組合せ(pair)それぞれについての、入力音信号間の時間差を考慮した相関の大きさを表す値である。N個のチャネルに含まれる2個のチャネルによる組合せは、(N×(N-1))/2通りある。nを1以上N以下の各整数とし、mをnより大きくN以下の各整数とし、第nチャネル入力音信号と第mチャネル入力音信号との間のチャネル間相関値をγnmとすると、チャネル間関係情報推定部186は、(N×(N-1))/2通りのnとmの組合せのそれぞれについてのチャネル間相関値γnmを得る。
先行チャネル情報は、N個のチャネルに含まれる2個のチャネルによる組合せそれぞれについての、同じ音信号が2個のチャネルの入力音信号のどちらに先に含まれているかを表す情報であり、2個のチャネルのどちらのチャネルが先行しているかを表す情報である。第nチャネル入力音信号と第mチャネル入力音信号との間の先行チャネル情報をINFOnmとすると、チャネル間関係情報推定部186は、上述した(N×(N-1))/2通りのnとmの組合せそれぞれについての先行チャネル情報INFOnmを得る。なお、以下では、nとmの組合せについて、同じ音信号が第mチャネル入力音信号よりも第nチャネル入力音信号に先に含まれている場合には、第nチャネルが第mチャネルに対して先行している、第nチャネルが第mチャネルより先行している、第mチャネルが第nチャネルに対して後行している、第mチャネルが第nチャネルより後行している、などということがある。同様に、以下では、nとmの組合せについて、同じ音信号が第nチャネル入力音信号よりも第mチャネル入力音信号に先に含まれている場合には、第mチャネルが第nチャネルに対して先行している、第mチャネルが第nチャネルより先行している、第nチャネルが第mチャネルに対して後行している、第nチャネルが第mチャネルより後行している、などということがある。
チャネル間関係情報推定部186は、上述した(N×(N-1))/2通りの第nチャネルと第mチャネルの組合せそれぞれについて、チャネル間相関値γnmと先行チャネル情報INFOnmを第1実施形態の左右関係情報推定部183と同様に得ればよい。すなわち、チャネル間関係情報推定部186は、例えば、第1実施形態の左右関係情報推定部183の説明箇所の各例における左チャネルを第nチャネルと読み替え、右チャネルを第mチャネルと読み替え、Lをnと読み替え、Rをmと読み替え、先行チャネル情報を先行チャネル情報INFOnmと読み替え、左右相関値γをチャネル間相関値γnmと読み替えて、第1実施形態の左右関係情報推定部183の各例と同様の動作を上述した(N×(N-1))/2通りの第nチャネルと第mチャネルの組合せそれぞれについて行うことで、第nチャネルと第mチャネルの組合せそれぞれについてのチャネル間相関値γnmと先行チャネル情報INFOnmを得ることができる。
例えば、相関の大きさを表す値として相関係数の絶対値を用いるのであれば、チャネル間関係情報推定部186は、上述した(N×(N-1))/2通りの第nチャネルと第mチャネルの組合せそれぞれについて、予め定めたτmaxからτminまでの各候補サンプル数τcandについての、第nチャネル入力音信号のサンプル列と、各候補サンプル数τcand分だけ当該サンプル列より後にずれた位置にある第mチャネル入力音信号のサンプル列と、の相関係数の絶対値γcand、のうちの最大値をチャネル間相関係数γnmとして得て出力し、相関係数の絶対値が最大値のときのτcandが正の値である場合には、第nチャネルが先行していることを表す情報を先行チャネル情報INFOnmとして得て出力し、相関係数の絶対値が最大値のときのτcandが負の値である場合には、第mチャネルが先行していることを表す情報を先行チャネル情報INFOnmとして得て出力する。チャネル間関係情報推定部186は、第nチャネルと第mチャネルの組合せのそれぞれについて、相関係数の絶対値が最大値のときのτcandが0である場合には、第nチャネルが先行していることを表す情報を先行チャネル情報INFOnmとして得て出力してもよいし、第mチャネルが先行していることを表す情報を先行チャネル情報INFOnmとして得て出力してもよい。なお、τmaxとτminについては第1実施形態と同様である。
また例えば、相関係数の絶対値に代えて、以下のように信号の位相の情報を用いた相関値をγcandとしてもよい。この例においては、チャネル間関係情報推定部186は、まず、第1チャネル入力音信号から第Nチャネル入力音信号までの各チャネルiについて、入力音信号xi(1), xi(2), ..., xi(T)を下記の式(2-1)のようにフーリエ変換することにより、0からT-1の各周波数kにおける周波数スペクトルXi(k)を得る。
Figure 0007380835000007
チャネル間関係情報推定部186は、次に、上述した(N×(N-1))/2通りの第nチャネルと第mチャネルの組合せそれぞれについて以降の処理を行う。チャネル間関係情報推定部186は、まず、式(2-1)で得られた各周波数kにおける第nチャネルの周波数スペクトルXn(k)及び第mチャネルの周波数スペクトルXm(k)を用いて、下記の式(2-2)により、各周波数kにおける位相差のスペクトルφ(k)を得る。
Figure 0007380835000008
チャネル間関係情報推定部186は、次に、式(2-2)で得られた位相差のスペクトルを逆フーリエ変換することにより、式(1-4)のようにτmaxからτminまでの各候補サンプル数τcandについて位相差信号ψ(τcand)を得る。チャネル間関係情報推定部186は、次に、位相差信号ψ(τcand)の絶対値である相関値γcandの最大値をチャネル間相関値γnmとして得て出力し、相関値が最大値のときのτcandが正の値である場合には、第nチャネルが先行していることを表す情報を先行チャネル情報INFOnmとして得て出力し、相関値が最大値のときのτcandが負の値である場合には、第mチャネルが先行していることを表す情報を先行チャネル情報INFOnmとして得て出力する。チャネル間関係情報推定部186は、相関値が最大値のときのτcandが0である場合には、第nチャネルが先行していることを表す情報を先行チャネル情報INFOnmとして得て出力してもよいし、第mチャネルが先行していることを表す情報を先行チャネル情報INFOnmとして得て出力してもよい。
なお、チャネル間関係情報推定部186は、左右関係情報推定部183と同様に、相関値γcandとして位相差信号ψ(τcand)の絶対値をそのまま用いることに代えて、例えば各τcandについて位相差信号ψ(τcand)の絶対値に対するτcand前後にある複数個の候補サンプル数それぞれについて得られた位相差信号の絶対値の平均との相対差のような、正規化された値を用いてもよい。つまり、チャネル間関係情報推定部186は、各τcandについて、予め定めた正の数τrangeを用いて、式(1-5)により平均値を得て、得られた平均値ψccand)と位相差信号ψ(τcand)を用いて式(1-6)により得られる正規化された相関値をγcandとして用いてもよい。
[ダウンミックス部116]
ダウンミックス部116には、音信号ダウンミックス装置406に入力されたN個のチャネルの入力音信号と、チャネル間関係情報推定部186が出力した上述した(N×(N-1))/2通りのnとmの組合せそれぞれについてのチャネル間相関値γnm(すなわち、N個のチャネルに含まれる2個のチャネルによる組合せそれぞれについてのチャネル間相関値)と、チャネル間関係情報推定部186が出力した上述した(N×(N-1))/2通りのnとmの組合せそれぞれについての先行チャネル情報INFOnm(すなわち、N個のチャネルに含まれる2個のチャネルによる組合せそれぞれについての先行チャネル情報)と、が入力される。ダウンミックス部116は、各チャネルの入力音信号に、当該チャネルより先行している各チャネルの入力音信号との相関が大きいほど小さく、当該チャネルより後行している各チャネルの入力音信号との相関が大きいほど大きい重みを与えて、N個のチャネルの入力音信号を重み付け加算してダウンミックス信号を得て出力する(ステップS116)。
[[ダウンミックス部116の具体例1]]
各チャネルのチャネル番号(チャネルのインデックス)をiとし、第iチャネルの入力音信号をxi(1), xi(2), ..., xi(T)とし、ダウンミックス信号をxM(1), xM(2), ..., xM(T)として、ダウンミックス部116の具体例1を説明する。具体例1では、チャネル間相関値は、チャネル間関係情報推定部186の説明箇所で上述した例の相関係数の絶対値や正規化された値のように、0以上1以下の値であるとする。またここで、Mはチャネルの番号ではなく、ダウンミックス信号がモノラルの信号であることを意図した添え字である。ダウンミックス部116は、例えば下記のステップS116-1からステップS116-3の処理を行うことにより、ダウンミックス信号を得る。ダウンミックス部116は、まず、各第iチャネルについて、ダウンミックス部116に入力された先行チャネル情報INFOnmのうちの当該第iチャネルを含む(N-1)通りの2個のチャネルによる組合せの先行チャネル情報から、当該第iチャネルに対して先行しているチャネルのチャネル番号の集合ILiと、当該第iチャネルに対して後行しているチャネルのチャネル番号の集合IFiと、を得る(ステップS116-1)。ダウンミックス部116は、次に、各第iチャネルについて、ダウンミックス部116に入力されたチャネル間相関値γnmのうちの当該第iチャネルを含む(N-1)通りの2個のチャネルによる組合せのチャネル間相関値と、当該第iチャネルに対して先行しているチャネルのチャネル番号の集合ILiと、当該第iチャネルに対して後行しているチャネルのチャネル番号の集合IFiと、を用いて下記の式(2-3)により当該第iチャネルの重みwiを得る(ステップS116-2)。
Figure 0007380835000009
なお、上述したnとmの組合せそれぞれについて、チャネル間相関値γmnはチャネル間相関値γnmと同じ値であるので、iがjより大きい値であるときのチャネル間相関値γijも、iがkより大きい値であるときのチャネル間相関値γikも、ダウンミックス部116に入力されたチャネル間相関値γnmに含まれている。
ダウンミックス部116は、次に、iが1からNまでの各第iチャネルの入力音信号xi(1), xi(2), ..., xi(T)、iが1からNまでの各第iチャネルの重みwiと、を用いて、サンプル番号t(サンプルのインデックスt)ごとに下記の式(2-4)によりダウンミックス信号サンプルxM(t)を得ることで、ダウンミックス信号xM(1), xM(2), ..., xM(T)を得る(ステップS116-3)。
Figure 0007380835000010
なお、ダウンミックス部116は、ステップS116-2とステップS116-3を順に行うのではなく、式(2-4)の重みwiを式(2-3)の右辺に置き換えた式を用いてダウンミックス信号を得てもよい。すなわち、ダウンミックス部116は、各第iチャネルについての、当該第iチャネルに対して先行しているチャネルのチャネル番号の集合をILiとし、各第iチャネルについての、当該第iチャネルに対して後行しているチャネルのチャネル番号の集合をIFiとし、各第iチャネルについての、当該第iチャネルと当該第iチャネルに対して先行している各チャネルjとの組合せそれぞれについてのチャネル間相関値をγijとし、各第iチャネルについての、当該第iチャネルと当該第iチャネルに対して後行している各チャネルkとの組合せそれぞれについてのチャネル間相関値をγikとし、各第iチャネルについての重みを式(2-3)により表されるwiとして、式(2-4)によりダウンミックス信号の各サンプルxM(t)を得ればよい。
式(2-4)はN個のチャネルの入力音信号を重み付け加算してダウンミックス信号を得る式であり、その重み付け加算において各第iチャネルの入力音信号に与える各第iチャネルの重みwiを得るのが式(2-3)である。式(2-3)のうちの下記の式(2-3-A)の部分は、第iチャネルの入力音信号が第iチャネルに対して先行している各チャネルの入力音信号との相関が大きいほど重みwiが小さな値になるようにするものであり、第iチャネルに対して先行しているチャネルの中に、第iチャネルの入力音信号と先行しているチャネルの入力音信号との相関が非常に大きいチャネルが1つでもあれば、重みwiが0に近い値となるようにするものである。
Figure 0007380835000011
式(2-3)のうちの下記の式(2-3-B)の部分は、第iチャネルに対して後行している各チャネルの入力音信号との相関が大きいほど重みwiが1より大きな値となるようにするものである。
Figure 0007380835000012
全てのチャネルの入力音信号が独立している場合、すなわち、何れのチャネル間にも相関がない場合には、全チャネルの入力音信号の単純な加算平均をダウンミックス信号とするのが望ましい。そこで、式(2-3)では、式(2-3-A)の部分の最大値を1となるようにして、式(2-3-B)の部分の最小値が1となるようにして、式(2-3-A)と式(2-3-B)と1/Nを乗算したものを重みwiとすることで、チャネル間の相関が全て小さな値であるときには、全てのチャネルの重みwiが1/Nに近い値となるようにしている。
[[ダウンミックス部116の具体例2]]
具体例1のステップS116-1でダウンミックス部116が得た重みwiの全チャネルの合計値は1とならないことあるので、ダウンミックス部116は、重みの全チャネルの合計値が1となるように各第iチャネルの重みwiを正規化して得た値を式(2-4)の重みwiに代えて用いたり、重みの全チャネルの合計値が1となるように重みwiを正規化することを含むように式(2-4)を変形した式を用いたりすることにより、ダウンミックス信号を得るようにしてもよい。この例をダウンミックス部116の具体例2として、具体例1と異なる点を説明する。
例えば、ダウンミックス部116は、各第iチャネルについての重みwiを式(2-3)により得て、各第iチャネルについての重みwiを全チャネルの合計値が1となるように正規化して正規化済重みw'iを得て(すなわち、各第iチャネルについて下記の式(2-5)により正規化済重みw'iを得て)、iが1からNまでの各第iチャネルの入力音信号xi(1), xi(2), ..., xi(T)と正規化済重みw'iを用いて、サンプル番号tごとに下記の式(2-6)によりダウンミックス信号サンプルxM(t)を得ることで、ダウンミックス信号xM(1), xM(2), ..., xM(T)を得てもよい。
Figure 0007380835000013

Figure 0007380835000014
すなわち、ダウンミックス部116は、各第iチャネルについての、当該第iチャネルに対して先行しているチャネルのチャネル番号の集合をILiとし、各第iチャネルについての、当該第iチャネルに対して後行しているチャネルのチャネル番号の集合をIFiとし、各第iチャネルについての、当該第iチャネルと当該第iチャネルに対して先行している各チャネルjとの組合せそれぞれについてのチャネル間相関値をγijとし、各第iチャネルについての、当該第iチャネルと当該第iチャネルに対して後行している各チャネルkとの組合せそれぞれについてのチャネル間相関値をγikとし、各第iチャネルについての重みを式(2-3)により表されるwiとし、各第iチャネルについての正規化された重みを式(2-5)により表されるw'iとして、式(2-6)によりダウンミックス信号の各サンプルxM(t)を得ればよい。
≪第2例≫
例えば、音信号ダウンミックス装置とは別の装置がN個のチャネルの入力音信号をステレオ符号化処理する場合、N個のチャネルの入力音信号が音信号ダウンミックス装置とは別の装置によるステレオ復号処理により得られた信号である場合、などにおいては、チャネル間関係情報推定部186が得るのと同じチャネル間相関値γnmと先行チャネル情報INFOnmの何れかまたは全てが音信号ダウンミックス装置とは別装置で得られている場合がある。チャネル間相関値γnmと先行チャネル情報INFOnmの何れかまたは全てが別装置で得られている場合は、音信号ダウンミックス装置には、別装置で得たチャネル間相関値γnmと先行チャネル情報INFOnmの何れかまたは全てが入力されるようにして、チャネル間関係情報推定部186は、音信号ダウンミックス装置に入力されなかったチャネル間相関値γnmや先行チャネル情報INFOnmを得るようにすればよい。以下、チャネル間相関値γnmと先行チャネル情報INFOnmの何れかまたは全てが外部から入力されることを想定した音信号ダウンミックス装置の例を第2例として、第1例と異なる点を中心に説明する。
第2例の音信号ダウンミックス装置407は、図7に示す通り、チャネル間関係情報取得部187とダウンミックス部116を含む。音信号ダウンミックス装置407には、N個のチャネルの入力音信号に加えて、図7に一点鎖線で示す通り、別装置で得たチャネル間相関値γnmと先行チャネル情報INFOnmの何れかまたは全てが入力されてもよい。第2例の音信号ダウンミックス装置407は、各フレームについて、図8に例示するステップS187とステップS116の処理を行う。ダウンミックス部116とステップS116は第1例と同じであるので、以下ではチャネル間関係情報取得部187とステップS187について説明する。
[チャネル間関係情報取得部187]
チャネル間関係情報取得部187は、N個のチャネルに含まれる2個のチャネルによる組合せそれぞれについての相関の大きさを表す値であるチャネル間相関値γnmと、N個のチャネルに含まれる2個のチャネルによる組合せそれぞれについての、同じ音信号が2個のチャネルの入力音信号のどちらに先に含まれているかを表す情報である先行チャネル情報INFOnmと、を得て出力する(ステップS187)。
チャネル間相関値γnmと先行チャネル情報INFOnmの全てが別装置から音信号ダウンミックス装置407に入力された場合には、図7に一点鎖線で示すように、チャネル間関係情報取得部187は音信号ダウンミックス装置407に入力されたチャネル間相関値γnmと先行チャネル情報INFOnmを得てダウンミックス部116に対して出力する。
チャネル間相関値γnmと先行チャネル情報INFOnmの何れか一方が別装置から音信号ダウンミックス装置407に入力されていない場合には、図7に破線で示すように、チャネル間関係情報取得部187は、チャネル間関係情報推定部186を備える。チャネル間関係情報取得部187のチャネル間関係情報推定部186は、音信号ダウンミックス装置407に入力されていないチャネル間相関値γnmまたは音信号ダウンミックス装置407に入力されていない先行チャネル情報INFOnmを、第1例のチャネル間関係情報推定部186と同様にN個のチャネルの入力音信号から得て、ダウンミックス部116に対して出力する。音信号ダウンミックス装置407に入力されたチャネル間相関値γnmまたは音信号ダウンミックス装置407に入力された先行チャネル情報INFOnmについては、チャネル間関係情報取得部187は、図7に一点鎖線で示すように、音信号ダウンミックス装置407に入力されたチャネル間相関値γnmまたは音信号ダウンミックス装置407に入力された先行チャネル情報INFOnmをダウンミックス部116に対して出力する。
チャネル間相関値γnmと先行チャネル情報INFOnmの全てが別装置から音信号ダウンミックス装置407に入力されていない場合には、図7に破線で示すように、チャネル間関係情報取得部187はチャネル間関係情報推定部186を備える。チャネル間関係情報推定部186は、チャネル間相関値γnmと先行チャネル情報INFOnmを、第1例のチャネル間関係情報推定部186と同様にN個のチャネルの入力音信号から得て、ダウンミックス部116に対して出力する。すなわち、第1例のチャネル間関係情報推定部186とステップS186のそれぞれは、チャネル間関係情報取得部187とステップS187の範疇であるといえる。
なお、チャネル間相関値γnmの一部が他装置で得られているもののチャネル間相関値γnmの残りが他装置で得られていない場合、先行チャネル情報INFOnmの一部が他装置で得られているものの先行チャネル情報INFOnmの残りが他装置で得られていない場合、なども有り得るが、これらの場合も、チャネル間関係情報取得部187はチャネル間関係情報推定部186を備えるようにして、上記と同様に、他装置で得られて音信号ダウンミックス装置407に入力されたものは、チャネル間関係情報取得部187がダウンミックス部116に対して出力し、他装置で得られておらず音信号ダウンミックス装置407に入力されないものは、チャネル間関係情報推定部186が第1例のチャネル間関係情報推定部186と同様にN個のチャネルの入力音信号から得て、ダウンミックス部116に対して出力すればよい。
<第3実施形態>
第2実施形態のチャネル間関係情報推定部186は、N個のチャネルに含まれる2個のチャネルによる組合せそれぞれについてチャネル間相関値γnmと先行チャネル情報INFOnmを得る必要がある。N個のチャネルに含まれる2個のチャネルによる組合せは、(N×(N-1))/2通りあることから、第2実施形態のチャネル間関係情報推定部186の説明箇所で例示した方法でチャネル間相関値γnmと先行チャネル情報INFOnmを得ると、チャネル数が多い場合には演算処理量が課題となることがある。第3実施形態では、チャネル間関係情報推定部186よりも演算処理量が少ない方法で近似的にチャネル間相関値γnmと先行チャネル情報INFOnmを得るチャネル間関係情報推定処理を含む音信号ダウンミックス装置について説明する。第3実施形態のダウンミックス処理は第2実施形態と同様である。
第2実施形態のダウンミックス部116が行うダウンミックス処理は、例えば、ある音源が発した同じ音のみが時間差が与えられた状態で複数個のチャネルの信号に含まれている場合には、当該複数個のチャネルの入力音信号のうちの最も早く含まれているチャネルの入力音信号をダウンミックス信号に含めるようにする処理である。この処理を、チャネル数が6であり、第1チャネル(1ch)から第6チャネル(6ch)の入力音信号が図9に模式的に示す信号である例で説明する。この例では、第1チャネル入力音信号と第2チャネル入力音信号は第1の音源が発した同じ第1の音信号のみが時間差が与えられた状態で含まれた信号であり、第1の音信号は第2チャネル入力音信号に最も早く含まれている。この例では、また、第3チャネル入力音信号から第6チャネル入力音信号は第2の音源が発した同じ第2の音信号のみが時間差が与えられた状態で含まれた信号であり、第2の音信号は第6チャネル入力音信号に最も早く含まれている。この例であれば、ダウンミックス部116は、第1の音信号が最も早く含まれる第2チャネル入力音信号と第2の音信号が最も早く含まれる第6チャネル入力音信号を含み、第1チャネル入力音信号及び第3チャネル入力音信号から第5チャネル入力音信号を含まないダウンミックス信号を得る。このようなダウンミックス信号を得るのであれば、隣接しないチャネル間のチャネル間相関値γnmを、チャネル間相関値が0以上1以下の値であるとしたときの隣接するチャネル間のチャネル間相関値γ12=1、γ23=0、γ34=1、γ45=1、γ56=1を用いて下記の各式により近似的に得ても問題は生じない。
γ13 = γ12×γ23 = 1×0 = 0
γ14 = γ12×γ23×γ34 = 1×0×1 = 0
γ15 = γ12×γ23×γ34×γ45 = 1×0×1×1 = 0
γ16 = γ12×γ23×γ34×γ45×γ56 = 1×0×1×1×1 = 0
γ24 = γ23×γ34 = 0×1 = 0
γ25 = γ23×γ34×γ45 = 0×1×1 = 0
γ26 = γ23×γ34×γ45×γ56 = 0×1×1×1 = 0
γ35 = γ34×γ45 = 1×1 = 1
γ36 = γ34×γ45×γ56 = 1×1×1 = 1
γ46 = γ45×γ56 = 1×1 = 1
同様に、隣接しないチャネル間の時間差を、隣接するチャネル間の時間差τ12、τ23、τ34、τ45、τ56を用いて下記の各式により近似的に得て、得たチャネル間の時間差が正であるか負であるか0であるかによって先行チャネル情報INFOnmを近似的に得ても問題は生じない。
τ13 = τ12+τ23
τ14 = τ12+τ23+τ34
τ15 = τ12+τ23+τ34+τ45
τ16 = τ12+τ23+τ34+τ45+τ56
τ24 = τ23+τ34
τ25 = τ23+τ34+τ45
τ26 = τ23+τ34+τ45+τ56
τ35 = τ34+τ45
τ36 = τ34+τ45+τ56
τ46 = τ45+τ56
ただし、チャネル間相関値γnmと先行チャネル情報INFOnmを上記の各式を用いて近似的に得ることができるのは、図9に例示したように同一または類似する波形の入力音信号が連続したチャネルに配置されている場合に限られ、図10に例示するように、入力音信号の波形が同一または類似するチャネルの間に入力音信号の波形が大きく異なるチャネルが存在する場合には、チャネル間相関値γnmと先行チャネル情報INFOnmを上記の各式を用いて近似的に得ることはできない。そこで、第3実施形態の音信号ダウンミックス装置では、N個のチャネルの入力音信号を、入力音信号の波形が同一または類似するチャネルの間に入力音信号の波形が大きく異なるチャネルが存在しないように並び替えて、並び替え後の隣接するチャネル間についてチャネル間相関値γnmと先行チャネル情報INFOnmを得て、並び替え後の隣接するチャネル間のチャネル間相関値γnmと先行チャネル情報INFOnmを用いて、その他のチャネル間相関値γnmと先行チャネル情報INFOnmを近似的に得る。
≪第1例≫
第3実施形態の第1例の音信号ダウンミックス装置について説明する。第1例の音信号ダウンミックス装置408は、図5に示す通り、チャネル間関係情報推定部188とダウンミックス部116を含む。第1例の音信号ダウンミックス装置408は、各フレームについて、図6に例示するステップS188とステップS116の処理を行う。ダウンミックス部116とステップS116は第2実施形態の第1例と同じであるので、以下では、第2実施形態の第1例と異なるチャネル間関係情報推定部188とステップS188について説明する。音信号ダウンミックス装置408に入力されるのは第2実施形態の第1例の音信号ダウンミックス装置408と同様にN個のチャネルの時間領域の音信号であり、音信号ダウンミックス装置408が得て出力するのは第2実施形態の第1例の音信号ダウンミックス装置406と同様に時間領域のモノラルの音信号であるダウンミックス信号である。
[チャネル間関係情報推定部188]
チャネル間関係情報推定部188には、音信号ダウンミックス装置408に入力されたN個のチャネルの入力音信号が入力される。第2実施形態ではチャネル数Nは2以上の整数であったが、チャネル数Nが2である場合には入力音信号の波形が同一または類似するチャネルの間に入力音信号の波形が大きく異なるチャネルが存在することはないので、第3実施形態ではチャネル数Nは3以上の整数である。チャネル間関係情報推定部188は、例えば、図11に示す通り、チャネル並び替え部1881と隣接チャネル間関係情報推定部1882とチャネル間関係情報補完部1883を含む。チャネル間関係情報推定部188は、チャネル間関係情報推定部188は、例えば、各フレームについて、図12に例示するステップS1881とステップS1882とステップS1883の処理を行う(ステップS188)。
[[チャネル並び替え部1881]]
チャネル並び替え部1881は、例えば、第1チャネルから順に、残りのチャネルのうちの時間差を揃えたときに入力音信号の波形の類似の度合いが最も高いチャネルが隣接するチャネルとなるように、逐次的に並び替えを行って、N個のチャネルの並び替え後の信号である第1並び替え済入力音信号から第N並び替え済入力音信号と、各並び替え済入力音信号が音信号ダウンミックス装置408に入力されたときのチャネル番号(すなわち、入力音信号のチャネル番号)である第1原チャネル情報c1から第N原チャネル情報cNと、を得て出力する(ステップS1881A)。チャネル並び替え部1881は、時間差を揃えたときの波形の類似の度合いとしては、時間差を揃えたときの2つのチャネルの入力音信号間の距離の近さを表す値、時間差を揃えたときの2つのチャネルの入力音信号の内積を2つのチャネルの入力音信号のエネルギーの相乗平均で除算値などの相関の大きさを表す値、などを用いればよい。
例えば、時間差を揃えたときの波形の類似の度合いとして、時間差を揃えたときの2つのチャネルの入力音信号間の距離の近さを表す値を用いるのであれば、チャネル並び替え部1881は、以下のステップS1881A-1からステップS1881A-Nを行う。チャネル並び替え部1881は、まず、第1チャネル入力音信号を第1並び替え済入力音信号として得て、第1チャネルのチャネル番号である"1"を第1原チャネル情報c1として得る(ステップS1881A-1)。
次に、チャネル並び替え部1881は、第2チャネルから第Nチャネルの各チャネルmについての予め定めたτmaxからτminまで(例えば、τmaxは正の数、τminは負の数)の各候補サンプル数τcandについて、第1並び替え済入力音信号のサンプル列と、各候補サンプル数τcand分だけ当該サンプル列より後にずれた位置にある第mチャネル入力音信号のサンプル列と、の距離を得て、距離が最小値であるチャネルmの入力音信号を第2並び替え済入力音信号として得て、距離が最小値であるチャネルmのチャネル番号を第2原チャネル情報c2として得る(ステップS1881A-2)。
次に、チャネル並び替え部1881は、第2チャネルから第Nチャネルのうちのまだ並び替え済入力音信号としていない各チャネルmについてのτmaxからτminまでの各候補サンプル数τcandについて、第2並び替え済入力音信号のサンプル列と、各候補サンプル数τcand分だけ当該サンプル列より後にずれた位置にある第mチャネル入力音信号のサンプル列と、の距離を得て、距離が最小値であるチャネルmの入力音信号を第3並び替え済入力音信号として得て、距離が最小値であるチャネルmのチャネル番号を第3原チャネル情報c3として得る(ステップS1881A-3)。以降、まだ並び替え済入力音信号としていないチャネルが残り1つになるまで同様の処理を繰り返して、第4並び替え済入力音信号から第(N-1)並び替え済入力音信号までと、第4原チャネル情報c4から第(N-1)原チャネル情報c(N-1)までと、を得る(ステップS1881A-4からステップS1881A-(N-1))。
最後に、チャネル並び替え部1881は、まだ並び替え済入力音信号としていない残り1つのチャネルの入力音信号を第N並び替え済入力音信号として得て、まだ並び替え済入力音信号としていない残り1つのチャネルのチャネル番号を第N原チャネル情報cNとして得る(ステップS1881A-N)。なお、以下では、1以上N以下の各nについての第n並び替え済入力音信号のことを並び替え後の第nチャネルの入力音信号ともいい、第n並び替え済入力音信号のnのことを並び替え後のチャネル番号ともいう。
なお、チャネル並び替え部1881は、入力音信号の波形が同一または類似するチャネルの間に入力音信号の波形が大きく異なるチャネルが存在しないようにN個のチャネルの入力音信号を並び替えることが目的であること、並び替えの処理に要する演算処理量は少ないほうがよいこと、などを考慮して、時間差を揃えずに類似の度合いを評価して並び替えを行ってもよい。例えば、チャネル並び替え部1881は、以下のステップS1881B-1からステップS1881B-Nを行ってもよい。チャネル並び替え部1881は、まず、第1チャネル入力音信号を第1並び替え済入力音信号として得て、第1チャネルのチャネル番号である"1"を第1原チャネル情報c1として得る(ステップS1881B-1)。
次に、チャネル並び替え部1881は、第2チャネルから第Nチャネルの各チャネルmについて、第1並び替え済入力音信号のサンプル列と第mチャネル入力音信号のサンプル列との距離を得て、距離が最小値であるチャネルmの入力音信号を第2並び替え済入力音信号として得て、距離が最小値であるチャネルmのチャネル番号を第2原チャネル情報c2として得る(ステップS1881B-2)。
次に、チャネル並び替え部1881は、第2チャネルから第Nチャネルのうちのまだ並び替え済入力音信号としていない各チャネルmについて、第2並び替え済入力音信号のサンプル列と第mチャネル入力音信号のサンプル列との距離を得て、距離が最小値であるチャネルmの入力音信号を第3並び替え済入力音信号として得て、距離が最小値であるチャネルmのチャネル番号を第3原チャネル情報c3として得る(ステップS1881B-3)。以降、まだ並び替え済入力音信号としていないチャネルが残り1つになるまで同様の処理を繰り返して、第4並び替え済入力音信号から第(N-1)並び替え済入力音信号までと、第4原チャネル情報c4から第(N-1)原チャネル情報c(N-1)までと、を得る(ステップS1881B-4からステップS1881B-(N-1))。
最後に、チャネル並び替え部1881は、まだ並び替え済入力音信号としていない残り1つのチャネルの入力音信号を第N並び替え済入力音信号として得て、まだ並び替え済入力音信号としていない残り1つのチャネルのチャネル番号を第N原チャネル情報cNとして得る(ステップS1881B-N)。
要するに、チャネル並び替え部1881は、時間差を揃えるか否かや、信号間の類似の度合いにどのような値を用いるかに関わらず、第1チャネルから順に、残りのチャネルのうちの入力音信号が最も類似するチャネルが隣接するチャネルとなるように、逐次的に並び替えを行って、N個のチャネルの並び替え後の信号である第1並び替え済入力音信号から第N並び替え済入力音信号と、各並び替え済入力音信号が音信号ダウンミックス装置408に入力されたときのチャネル番号(すなわち、入力音信号のチャネル番号)である第1原チャネル情報c1から第N原チャネル情報cNと、を得て出力すればよい(ステップS1881)。
[隣接チャネル間関係情報推定部1882]
隣接チャネル間関係情報推定部1882には、第1並び替え済入力音信号から第N並び替え済入力音信号までのN個の並び替え済入力音信号が入力される。隣接チャネル間関係情報推定部1882は、N個の並び替え済入力音信号のうちの並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれについてのチャネル間相関値とチャネル間時間差と、を得て出力する(ステップS1882)。
ステップS1882で得るチャネル間相関値は、並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれについての、並び替え済入力音信号間の時間差を考慮した相関値、すなわち、並び替え済入力音信号間の時間差を考慮した相関の大きさを表す値、である。N個のチャネルに含まれる2個のチャネルによる組合せは(N-1)通りある。nを1以上N-1以下の各整数とし、第n並び替え済入力音信号と第(n+1)並び替え済チャネル入力音信号との間のチャネル間相関値をγ'n(n+1)とすると、隣接チャネル間関係情報推定部1882は、並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せ(N-1)通りのそれぞれについてのチャネル間相関値γ'n(n+1)を得る。
ステップS1882で得るチャネル間時間差は、並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれについての、同じ音信号が2個の並び替え済入力音信号のどちらにどれくらい先に含まれているかを表す情報である。第n並び替え済入力音信号と第(n+1)並び替え済入力音信号との間のチャネル間時間差をτ'n(n+1)とすると、隣接チャネル間関係情報推定部1882は、並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せ(N-1)通りのそれぞれについてのチャネル間時間差をτ'n(n+1)を得る。
例えば、相関の大きさを表す値として相関係数の絶対値を用いるのであれば、隣接チャネル間関係情報推定部1882は、1以上N-1以下の各nについて(すなわち、並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せのそれぞれについて)、予め定めたτmaxからτminまでの各候補サンプル数τcandについての、第n並び替え済入力音信号のサンプル列と、各候補サンプル数τcand分だけ当該サンプル列より後にずれた位置にある第(n+1)並び替え済入力音信号のサンプル列と、の相関係数の絶対値γcand、のうちの最大値をチャネル間相関値γ'n(n+1)として得て出力し、相関係数の絶対値が最大値のときのτcandをチャネル間時間差τ'n(n+1)として得て出力する。
また例えば、相関係数の絶対値に代えて、以下のように信号の位相の情報を用いた相関値をγcandとしてもよい。この例においては、隣接チャネル間関係情報推定部1882は、まず、第1チャネル入力音信号から第Nチャネル入力音信号までの各チャネルiについて、入力音信号xi(1), xi(2), ..., xi(T)を式(2-1)のようにフーリエ変換することにより、0からT-1の各周波数kにおける周波数スペクトルXi(k)を得る。
隣接チャネル間関係情報推定部1882は、次に、1以上N-1以下の各nについて、すなわち、並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せのそれぞれについて、以降の処理を行う。隣接チャネル間関係情報推定部1882は、まず、式(2-1)で得られた各周波数kにおける第nチャネルの周波数スペクトルXn(k)及び第(n+1)チャネルの周波数スペクトルX(n+1)(k)を用いて、下記の式(3-1)により、各周波数kにおける位相差のスペクトルφ(k)を得る。
Figure 0007380835000015
隣接チャネル間関係情報推定部1882は、次に、式(3-1)で得られた位相差のスペクトルを逆フーリエ変換することにより、式(1-4)のようにτmaxからτminまでの各候補サンプル数τcandについて位相差信号ψ(τcand)を得る。隣接チャネル間関係情報推定部1882は、次に、位相差信号ψ(τcand)の絶対値である相関値γcandの最大値をチャネル間相関値γ'n(n+1)として得て出力し、相関値が最大値のときのτcandをチャネル間時間差τ'n(n+1)として得て出力する。
なお、隣接チャネル間関係情報推定部1882は、左右関係情報推定部183やチャネル間関係情報推定部186と同様に、相関値γcandとして位相差信号ψ(τcand)の絶対値をそのまま用いることに代えて、例えば各τcandについて位相差信号ψ(τcand)の絶対値に対するτcand前後にある複数個の候補サンプル数それぞれについて得られた位相差信号の絶対値の平均との相対差のような、正規化された値を用いてもよい。つまり、隣接チャネル間関係情報推定部1882は、各τcandについて、予め定めた正の数τrangeを用いて、式(1-5)により平均値を得て、得られた平均値ψccand)と位相差信号ψ(τcand)を用いて式(1-6)により得られる正規化された相関値をγcandとして用いてもよい。
[チャネル間関係情報補完部1883]
チャネル間関係情報補完部1883には、隣接チャネル間関係情報推定部1882が出力した、並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれについての、チャネル間相関値とチャネル間時間差と、チャネル並び替え部1881が出力した、並び替え後の各チャネルについての原チャネル情報と、が入力される。チャネル間関係情報補完部1883は、下記のステップS1883-1からステップS1883-5の処理を行うことで、2個のチャネルによる組合せ全て(すなわち、並び替え元の2個のチャネルによる組合せ全て)についてのチャネル間相関値と先行チャネル情報を得て出力する(ステップS1883)。
チャネル間関係情報補完部1883は、まず、並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれについてのチャネル間相関値から、並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについてのチャネル間相関値を得る(ステップS1883-1)。nを1以上N-2以下の各整数とし、mをn+2以上N以下の各整数とし、第n並び替え済入力音信号と第m並び替え済入力音信号との間のチャネル間相関値をγ'nmとすると、チャネル間関係情報補完部1883は、並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについてのチャネル間相関値γ'nmを得る。
並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれにおける2個のチャネル番号をi(iは1以上N-1以下の各整数)とi+1とし、並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれについてのチャネル間相関値をγ'i(i+1)とすると、例えば、チャネル間関係情報補完部1883は、nとmの組合せそれぞれについて(すなわち、並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについて)、iがn以上m-1以下である並び替え後のチャネル番号が隣接する2個のチャネルによる組合せそれぞれについてのチャネル間相関値γ'i(i+1)の全てを乗算した値を、チャネル間相関値γ'nmとして得る。すなわち、チャネル間関係情報補完部1883は、チャネル間相関値γ'nmを下記の式(3-2)によって得る。
Figure 0007380835000016
なお、チャネル間関係情報補完部1883は、nとmの組合せそれぞれについて(すなわち、並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについて)、iがn以上m-1以下である並び替え後のチャネル番号が隣接する2個のチャネルによる組合せそれぞれについてのチャネル間相関値γ'i(i+1)の全ての相乗平均を、チャネル間相関値γ'nmとして得てもよい。すなわち、チャネル間関係情報補完部1883は、チャネル間相関値γ'nmを下記の式(3-3)によって得てもよい。
Figure 0007380835000017
ただし、チャネル間相関値が相関係数の絶対値や正規化された値のような上限が1ではない値である場合には、並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについてのチャネル間相関値が、当該チャネル間相関値が本来取り得る値の上限を超えないように、チャネル間関係情報補完部1883は、式(3-2)で表される乗算値ではなく式(3-3)で表される相乗平均をチャネル間相関値γ'nmとして得るほうがよい。
なお、例えば、nとmの組合せそれぞれについて(すなわち、並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについて)、iがn以上m-1以下である並び替え後のチャネル番号が隣接する2個のチャネルによる組合せの中に、組合せを構成する2つの入力音信号が異なる音信号を含むことにより相関が非常に小さい組合せがあった場合に、チャネル間相関値γ'nmをその組合せのチャネル間相関値γ'i(i+1)に依存する値とするようにしてもよい。例えば、チャネル間関係情報補完部1883は、nとmの組合せそれぞれについて(すなわち、並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについて)、iがn以上m-1以下である並び替え後のチャネル番号が隣接する2個のチャネルによる組合せそれぞれについてのチャネル間相関値γ'i(i+1)のうちの最小値を、チャネル間相関値γ'nmとして得るようにしてもよい。また例えば、チャネル間関係情報補完部1883は、nとmの組合せそれぞれについて(すなわち、並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについて)、iがn以上m-1以下である並び替え後のチャネル番号が隣接する2個のチャネルによる組合せそれぞれについてのチャネル間相関値γ'i(i+1)のうちの、最小値を含む複数個のチャネル間相関値γ'i(i+1)の乗算値または相乗平均を、チャネル間相関値γ'nmとして得るようにしてもよい。ただし、チャネル間相関値が相関係数の絶対値や正規化された値のような上限が1ではない値である場合には、並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについてのチャネル間相関値が、当該チャネル間相関値が本来取り得る値の上限を超えないように、チャネル間関係情報補完部1883は、乗算値ではなく相乗平均をチャネル間相関値γ'nmとして得るほうがよい。
要するに、並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれにおける2個のチャネル番号をi(iは1以上N-1以下の各整数)とi+1とし、並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれについてのチャネル間相関値をγ'i(i+1)とし、nを1以上N-2以下の各整数とし、mをn+2以上N以下の各整数とし、第n並び替え済入力音信号と第m並び替え済入力音信号との間のチャネル間相関値をγ'nmとすると、チャネル間関係情報補完部1883は、nとmの組合せそれぞれについて(すなわち、並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについて)、iがn以上m-1以下である並び替え後のチャネル番号が隣接する2個のチャネルによる組合せそれぞれについてのチャネル間相関値γ'i(i+1)のうちの最小値を含む1個以上のチャネル間相関値γ'i(i+1)のそれぞれと単調非減少の関係にある値をチャネル間相関値γ'nmとして得ればよい。更には、並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれにおける2個のチャネル番号をi(iは1以上N-1以下の各整数)とi+1とし、並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれについてのチャネル間相関値をγ'i(i+1)とし、nを1以上N-2以下の各整数とし、mをn+2以上N以下の各整数とし、第n並び替え済入力音信号と第m並び替え済入力音信号との間のチャネル間相関値をγ'nmとすると、チャネル間関係情報補完部1883は、nとmの組合せそれぞれについて(すなわち、並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについて)、iがn以上m-1以下である並び替え後のチャネル番号が隣接する2個のチャネルによる組合せそれぞれについてのチャネル間相関値γ'i(i+1)のうちの最小値を含む1個以上のチャネル間相関値γ'i(i+1)のそれぞれと、チャネル間相関値が取り得る値の範囲内で、単調非減少の関係にある値をチャネル間相関値γ'nmとして得ればよい。
並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれについてのチャネル間相関値は、隣接チャネル間関係情報推定部1882が得たものが入力されており、並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについてのチャネル間相関値は、ステップS1883-1により得られるので、ステップS1883-1を行った時点で、チャネル間関係情報補完部1883には、N個の並び替え後のチャネルに含まれる2個の並び替え後のチャネルによる(N×(N-1))/2通りの組合せそれぞれについてのチャネル間相関値が全て存在する状態となる。すなわち、nを1以上N以下の各整数として、mをnより大きくN以下の各整数とし、第n並び替え済み入力音信号と第m並び替え済入力音信号との間のチャネル間相関値をγ'nmとすると、ステップS1883-1を行った時点で、チャネル間関係情報補完部1883には、(N×(N-1))/2通りの2個の並び替え後のチャネルによる組合せのそれぞれについてのチャネル間相関値γ'nmが存在している。
チャネル間関係情報補完部1883は、ステップS1883-1の後に、(N×(N-1))/2通りの2個の並び替え後のチャネルによる組合せのそれぞれについてのチャネル間相関値γ'nmを、並び替え後の各チャネルについての原チャネル情報c1からcNを用いて、N個のチャネルの入力音信号におけるチャネルの組合せ(すなわち、並び替え元のチャネルの組合せ)に対応付けることで、N個のチャネルに含まれる2個のチャネルによる組合せそれぞれについての、入力音信号間のチャネル間相関値を得る(ステップS1883-2)。nを1以上N以下の各整数とし、mをnより大きくN以下の各整数とし、第nチャネル入力音信号と第mチャネル入力音信号との間のチャネル間相関値をγnmとすると、チャネル間関係情報補完部1883は、(N×(N-1))/2通りの2個のチャネルによる組合せのそれぞれについてのチャネル間相関値γnmを得る。
チャネル間関係情報補完部1883は、また、並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれについてのチャネル間時間差から、並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについてのチャネル間時間差を得る(ステップS1883-3)。nを1以上N-2以下の各整数とし、mをn+2以上N以下の各整数とし、第nチャネル並び替え済入力音信号と第mチャネル並び替え済入力音信号との間のチャネル間時間差をτ'nmとすると、チャネル間関係情報補完部1883は、並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについてのチャネル間時間差τ'nmを得る。並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれにおける2個のチャネル番号をi(iは1以上N-1以下の各整数)とi+1とし、並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれについてのチャネル間時間差をτ'i(i+1)とすると、チャネル間関係情報補完部1883は、nとmの組合せそれぞれについて(すなわち、並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについて)、iがn以上m-1以下である並び替え後のチャネル番号が隣接する2個のチャネルによる組合せそれぞれについてのチャネル間時間差τ'i(i+1)の全てを加算した値を、チャネル間時間差τ'nmとして得る。すなわち、チャネル間関係情報補完部1883は、チャネル間時間差τ'nmを下記の式(3-4)によって得る。
Figure 0007380835000018
並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれについてのチャネル間時間差は、隣接チャネル間関係情報推定部1882が得たものが入力されており、並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについてのチャネル間時間差は、ステップS1883-3により得られるので、ステップS1883-3を行った時点で、チャネル間関係情報補完部1883には、N個の並び替え後のチャネルに含まれる2個の並び替え後のチャネルによる(N×(N-1))/2通りの組合せそれぞれについてのチャネル間時間差が全て存在する状態となる。すなわち、nを1以上N以下の各整数とし、mをnより大きくN以下の各整数とし、並び替え後の第nチャネルと並び替え後の第mチャネルによる組合せについてのチャネル間時間差をτ'nmとすると、ステップS1883-3を行った時点で、チャネル間関係情報補完部1883には、(N×(N-1))/2通りの2個の並び替え後のチャネルによる組合せのそれぞれについてのチャネル間時間差τ'nmが存在している。
チャネル間関係情報補完部1883は、ステップS1883-3の後に、(N×(N-1))/2通りの2個の並び替え後のチャネルによる組合せのそれぞれについてチャネル間時間差τ'nmを、並び替え後の各チャネルについての原チャネル情報c1からcNを用いて、N個のチャネルの入力音信号におけるチャネルの組合せ(すなわち、並び替え元のチャネルの組合せ)に対応付けることで、N個のチャネルに含まれる2個のチャネルによる組合せそれぞれについての、入力音信号間のチャネル間時間差を得る(ステップS1883-4)。nを1以上N以下の各整数として、mをnより大きくN以下の各整数とし、第nチャネル入力音信号と第mチャネル入力音信号との間のチャネル間時間差をτnmとすると、チャネル間関係情報補完部1883は、(N×(N-1))/2通りの2個のチャネルによる組合せのそれぞれについてのチャネル間時間差τnmを得る。
チャネル間関係情報補完部1883は、ステップS1883-4の後に、(N×(N-1))/2通りの2個のチャネルによる組合せのそれぞれについてのチャネル間時間差τnmから、(N×(N-1))/2通りの2個のチャネルによる組合せのそれぞれについての先行チャネル情報INFOnmを得る(ステップS1883-5)。チャネル間関係情報補完部1883は、チャネル間時間差τnmが正の値である場合には、第nチャネルが先行していることを表す情報を先行チャネル情報INFOnmとして得て、チャネル間時間差τnmが負の値である場合には、第mチャネルが先行していることを表す情報を先行チャネル情報INFOnmとして得る。チャネル間関係情報補完部1883は、2個のチャネルによる組合せのそれぞれについて、チャネル間時間差τnmが0である場合には、第nチャネルが先行していることを表す情報を先行チャネル情報INFOnmとして得てもよいし、第mチャネルが先行していることを表す情報を先行チャネル情報INFOnmとして得てもよい。
なお、チャネル間関係情報補完部1883は、ステップS1883-4とステップS1883-5に代えて、(N×(N-1))/2通りの2個の並び替え後のチャネルによる組合せのそれぞれについて、チャネル間時間差τ'nmからステップS1883-5と同様にして先行チャネル情報INFO'nmを得るステップS1883-4’と、ステップS1883-4’で得た(N×(N-1))/2通りの2個の並び替え後のチャネルによる組合せのそれぞれについて先行チャネル情報INFO'nmを、並び替え後の各チャネルについての原チャネル情報c1からcNを用いて、N個のチャネルの入力音信号におけるチャネルの組合せ(すなわち、並び替え元のチャネルの組合せ)に対応付けることで、N個のチャネルに含まれる2個のチャネルによる組合せそれぞれについての先行チャネル情報INFOnmを得るステップS1883-5’と、を行ってもよい。すなわち、チャネル間関係情報補完部1883は、(N×(N-1))/2通りの2個の並び替え後のチャネルによる組合せのそれぞれについてのチャネル間時間差τ'nmから、原チャネル情報c1からcNを用いてN個のチャネルの入力音信号におけるチャネルの組合せに対応付けることと、チャネル間時間差が正であるか負であるか0であるかに基づいて先行チャネル情報を得ることと、によって、N個のチャネルに含まれる2個のチャネルによる組合せそれぞれについての先行チャネル情報INFOnmを得ればよい。
≪第2例≫
第2実施形態の第2例のチャネル間関係情報推定部186に代えて、第3実施形態の第1例のチャネル間関係情報推定部188を用いてもよい。この場合には、音信号ダウンミックス装置407のチャネル間関係情報取得部187はチャネル間関係情報推定部186に代えてチャネル間関係情報推定部188を備えて、チャネル間関係情報取得部187は、チャネル間関係情報推定部186をチャネル間関係情報推定部188と読み替えた動作をすればよい。この場合の音信号ダウンミックス装置407の装置構成は図7に例示する通りであり、音信号ダウンミックス装置407の処理の流れは図8に例示する通りである。
<第4実施形態>
音信号を符号化する符号化装置に上述した第2実施形態と第3実施形態の音信号ダウンミックス装置を音信号ダウンミックス部として含んでもよく、この形態を第4実施形態として説明する。
≪音信号符号化装置106≫
第4実施形態の音信号符号化装置106は、図13に示す通り、音信号ダウンミックス部407と符号化部196を含む。第4実施形態の音信号符号化装置106は、例えば20msの所定の時間長のフレーム単位で、入力されたNチャネルステレオの時間領域の音信号を符号化して、音信号符号を得て出力する。音信号符号化装置106に入力されるNチャネルステレオの時間領域の音信号は、例えば、音声や音楽などの音をN個のマイクロホンそれぞれで収音してAD変換して得られたディジタルの音声信号又は音響信号であり、第1チャネル入力音信号から第Nチャネル入力音信号のN個の入力音信号からなる。符号化装置が出力する音信号符号は復号装置へ入力される。第4実施形態の音信号符号化装置105は、各フレームについて、図14に例示するステップS407とステップS196の処理を行う。以下、第4実施形態の音信号符号化装置106について、第2実施形態と第3実施形態の説明を適宜参照して説明する。
[音信号ダウンミックス部407]
音信号ダウンミックス部407は、音信号符号化装置106に入力された第1チャネル入力音信号から第Nチャネル入力音信号のN個の入力音信号からダウンミックス信号を得て出力する(ステップS407)。音信号ダウンミックス部407は、第2実施形態または第3実施形態の音信号ダウンミックス装置407と同様であり、チャネル間関係情報取得部187とダウンミックス部116を含む。チャネル間関係情報取得部187は上述したステップS187を行い、ダウンミックス部116は上述したステップS116を行う。すなわち、音信号符号化装置106は、第2実施形態または第3実施形態の音信号ダウンミックス装置407を音信号ダウンミックス部407として含んでおり、第2実施形態または第3実施形態の音信号ダウンミックス装置407の処理をステップS407として行う。
[符号化部196]
符号化部196には、音信号ダウンミックス部407が出力したダウンミックス信号が少なくとも入力される。符号化部196は、入力されたダウンミックス信号を少なくとも符号化して音信号符号を得て出力する(ステップS196)。符号化部196は、第1チャネル入力音信号から第Nチャネル入力音信号のN個の入力音信号も符号化してもよく、この符号化で得た符号も音信号符号に含めて出力してもよい。この場合には、図13に破線で示すように、符号化部196には第1チャネル入力音信号から第Nチャネル入力音信号のN個の入力音信号も入力される。
符号化部196が行う符号化処理はどのような符号化処理であってもよい。例えば、入力されたTサンプルのダウンミックス信号xM(1), xM(2), ..., xM(T)を3GPP EVS規格のようなモノラル符号化方式で符号化して音信号符号を得てもよい。また例えば、ダウンミックス信号を符号化してモノラル符号を得ることに加えて、第1チャネル入力音信号から第Nチャネル入力音信号のN個の入力音信号をMPEG-4 AAC規格のステレオ復号方式に対応するステレオ符号化方式で符号化してステレオ符号を得て、モノラル符号とステレオ符号を合わせたものを音信号符号として出力してもよい。また例えば、ダウンミックス信号を符号化してモノラル符号を得ることに加えて、第1チャネル入力音信号から第Nチャネル入力音信号のN個の入力音信号について、チャネルごとにダウンミックス信号との差分や重み付き差分を符号化することでステレオ符号を得て、モノラル符号とステレオ符号を合わせたものを音信号符号として出力してもよい。
<第5実施形態>
音信号を信号処理する信号処理装置に上述した第2実施形態と第3実施形態の音信号ダウンミックス装置を音信号ダウンミックス部として含んでもよく、この形態を第5実施形態として説明する。
≪音信号処理装置306≫
第5実施形態の音信号処理装置306は、図15に示す通り、音信号ダウンミックス部407と信号処理部316を含む。第5実施形態の音信号処理装置306は、例えば20msの所定の時間長のフレーム単位で、入力されたNチャネルステレオの時間領域の音信号を信号処理して、信号処理結果を得て出力する。音信号処理装置306に入力されるNチャネルステレオの時間領域の音信号は、例えば、音声や音楽などの音をN個のマイクロホンそれぞれで収音してAD変換して得られたディジタルの音声信号又は音響信号であり、また例えば、当該ディジタルの音声信号又は音響信号を加工して得たディジタルの音声信号又は音響信号であり、また例えば、ステレオ復号装置がステレオ符号を復号して得たディジタルの復号音声信号又は復号音響信号であり、第1チャネル入力音信号から第Nチャネル入力音信号のN個の入力音信号からなる。第5実施形態の音信号処理装置306は、各フレームについて、図16に例示するステップS407とステップS316の処理を行う。以下、第5実施形態の音信号処理装置306について、第2実施形態と第3実施形態の説明を適宜参照して説明する。
[音信号ダウンミックス部407]
音信号ダウンミックス部407は、音信号処理装置306に入力された第1チャネル入力音信号から第Nチャネル入力音信号のN個の入力音信号からダウンミックス信号を得て出力する(ステップS407)。音信号ダウンミックス部407は、第2実施形態または第3実施形態の音信号ダウンミックス装置407と同様であり、チャネル間関係情報取得部187とダウンミックス部116を含む。チャネル間関係情報取得部187は上述したステップS187を行い、ダウンミックス部116は上述したステップS116を行う。すなわち、音信号処理装置306は、第2実施形態または第3実施形態の音信号ダウンミックス装置407を音信号ダウンミックス部407として含んでおり、第2実施形態または第3実施形態の音信号ダウンミックス装置407の処理をステップS407として行う。
[信号処理部316]
信号処理部316には、音信号ダウンミックス部407が出力したダウンミックス信号が少なくとも入力される。信号処理部316は、入力されたダウンミックス信号を少なくとも信号処理して信号処理結果を得て出力する(ステップS316)。信号処理部316は、第1チャネル入力音信号から第Nチャネル入力音信号のN個の入力音信号も信号処理して信号処理結果を得てもよく、この場合には、図15に破線で示すように、信号処理部316には第1チャネル入力音信号から第Nチャネル入力音信号のN個の入力音信号も入力され、信号処理部316は、例えば、各チャネルの入力音信号に対してダウンミックス信号を用いた信号処理を行って各チャネルの出力音信号を信号処理結果として得る。
<プログラム及び記録媒体>
上述した各音信号ダウンミックス装置と音信号符号化装置と音信号処理装置との各部の処理をコンピュータにより実現してもよく、この場合は各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図17に示すコンピュータ1000の記憶部1020に読み込ませ、演算処理部1010、入力部1030、出力部1040などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、例えば、非一時的な記録媒体であり、具体的には、磁気記録装置、光ディスク、等である。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の非一時的な記憶装置である補助記録部1050に格納する。そして、処理の実行時、このコンピュータは、自己の非一時的な記憶装置である補助記録部1050に格納されたプログラムを記憶部1020に読み込み、読み込んだプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを記憶部1020に読み込み、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

Claims (10)

  1. N個(Nは3以上の整数)のチャネルの入力音信号からモノラルの音信号であるダウンミックス信号を得る音信号ダウンミックス方法であって、
    前記N個のチャネルに含まれる2個のチャネルによる組合せのそれぞれについての、2個のチャネルの入力音信号間の相関の大きさを表す値であるチャネル間相関値と、2個のチャネルの入力音信号のどちらが先行しているかを表す情報である先行チャネル情報と、を得るチャネル間関係情報取得ステップと、
    前記チャネル間相関値と前記先行チャネル情報とに基づき、前記各チャネルの入力音信号に、当該チャネルより先行している各チャネルの入力音信号との相関が大きいほど小さく、当該チャネルより後行している各チャネルの入力音信号との相関が大きいほど大きい重みを与えて、前記N個のチャネルの入力音信号を重み付け加算して前記ダウンミックス信号を得るダウンミックスステップと、
    を含み、
    前記チャネル間関係情報取得ステップは、
    第1チャネルから順に、残りのチャネルのうちの入力音信号が最も類似するチャネルが隣接するチャネルとなるように、逐次的に並び替えを行って、N個のチャネルの並び替え後の信号である第1並び替え済入力音信号から第N並び替え済入力音信号と、前記各並び替え済入力音信号の前記N個のチャネルの前記入力音信号におけるチャネル番号である第1原チャネル情報から第N原チャネル情報と、を得るチャネル並び替えステップと、
    前記第1並び替え済入力音信号から前記第N並び替え済入力音信号のうちの前記の並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれについての、チャネル間相関値とチャネル間時間差を得る隣接チャネル間関係情報推定ステップと、
    前記並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれについての前記チャネル間相関値から、前記並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについてのチャネル間相関値を得て、
    前記並び替え後のチャネルによる組合せのそれぞれについての前記チャネル間相関値を、前記原チャネル情報を用いてN個のチャネルの前記入力音信号におけるチャネルの組合せに対応付けることで、N個のチャネルに含まれる2個のチャネルによる組合せそれぞれについての、前記入力音信号間の前記チャネル間相関値を得て、
    前記並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれについての前記チャネル間時間差から、前記並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについてのチャネル間時間差を得て、
    前記並び替え後のチャネルによる組合せのそれぞれについての前記チャネル間時間差から、前記原チャネル情報を用いてN個のチャネルの前記入力音信号におけるチャネルの組合せに対応付けることと、前記チャネル間時間差が正であるか負であるか0であるかに基づいて先行チャネル情報を得ることと、によって、N個のチャネルに含まれる2個のチャネルによる組合せそれぞれについての前記先行チャネル情報を得る
    チャネル間関係情報補完ステップを含み、
    前記並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれにおける2個のチャネル番号をi(iは1以上N-1以下の各整数)とi+1とし、
    前記並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれについての前記チャネル間相関値をγ'i(i+1)とし、
    前記並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれについての前記チャネル間時間差をτ'i(i+1)とし、
    前記並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれにおける2個のチャネル番号をn(nは1以上N-2以下の各整数)とm(mはn+2以上N以下の各整数)とし、
    前記並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについての前記チャネル間相関値をγ'nmとし、
    前記並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについての前記チャネル間時間差をτ'nmとして、
    前記並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについての前記チャネル間相関値γ'nmは、iがn以上m-1以下である並び替え後のチャネル番号が隣接する2個のチャネルによる組合せそれぞれについての前記チャネル間相関値γ'i(i+1)のうちの最小値を含む1個以上の前記チャネル間相関値γ'i(i+1)のそれぞれと単調非減少の関係にある値であり、
    前記並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについての前記チャネル間時間差τ'nmは、iがn以上m-1以下である並び替え後のチャネル番号が隣接する2個のチャネルによる組合せそれぞれについての前記チャネル間時間差τ'i(i+1)の全てを加算した値である
    ことを特徴とする音信号ダウンミックス方法。
  2. 請求項1に記載の音信号ダウンミックス方法であって、
    前記並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについての前記チャネル間相関値γ'nmは、iがn以上m-1以下である並び替え後のチャネル番号が隣接する2個のチャネルによる組合せそれぞれについての前記チャネル間相関値γ'i(i+1)のうちの最小値である
    ことを特徴とする音信号ダウンミックス方法。
  3. 請求項1または2に記載の音信号ダウンミックス方法を音信号ダウンミックスステップとして含み、
    前記ダウンミックスステップが得た前記ダウンミックス信号を符号化してモノラル符号を得るモノラル符号化ステップと、
    前記N個チャネルの入力音信号を符号化してステレオ符号を得るステレオ符号化ステップと、
    を更に含む
    ことを特徴とする音信号符号化方法。
  4. N個(Nは3以上の整数)のチャネルの入力音信号からモノラルの音信号であるダウンミックス信号を得る音信号ダウンミックス装置であって、
    前記N個のチャネルに含まれる2個のチャネルによる組合せのそれぞれについての、2個のチャネルの入力音信号間の相関の大きさを表す値であるチャネル間相関値と、2個のチャネルの入力音信号のどちらが先行しているかを表す情報である先行チャネル情報と、を得るチャネル間関係情報取得部と、
    前記チャネル間相関値と前記先行チャネル情報とに基づき、前記各チャネルの入力音信号に、当該チャネルより先行している各チャネルの入力音信号との相関が大きいほど小さく、当該チャネルより後行している各チャネルの入力音信号との相関が大きいほど大きい重みを与えて、前記N個のチャネルの入力音信号を重み付け加算して前記ダウンミックス信号を得るダウンミックス部と、
    を含み、
    前記チャネル間関係情報取得部は、
    第1チャネルから順に、残りのチャネルのうちの入力音信号が最も類似するチャネルが隣接するチャネルとなるように、逐次的に並び替えを行って、N個のチャネルの並び替え後の信号である第1並び替え済入力音信号から第N並び替え済入力音信号と、前記各並び替え済入力音信号の前記N個のチャネルの前記入力音信号におけるチャネル番号である第1原チャネル情報から第N原チャネル情報と、を得るチャネル並び替え部と、
    前記第1並び替え済入力音信号から前記第N並び替え済入力音信号のうちの前記の並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれについての、チャネル間相関値とチャネル間時間差を得る隣接チャネル間関係情報推定部と、
    前記並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれについての前記チャネル間相関値から、前記並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについてのチャネル間相関値を得て、
    前記並び替え後のチャネルによる組合せのそれぞれについての前記チャネル間相関値を、前記原チャネル情報を用いてN個のチャネルの前記入力音信号におけるチャネルの組合せに対応付けることで、N個のチャネルに含まれる2個のチャネルによる組合せそれぞれについての、前記入力音信号間の前記チャネル間相関値を得て、
    前記並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれについての前記チャネル間時間差から、前記並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについてのチャネル間時間差を得て、
    前記並び替え後のチャネルによる組合せのそれぞれについての前記チャネル間時間差から、前記原チャネル情報を用いてN個のチャネルの前記入力音信号におけるチャネルの組合せに対応付けることと、前記チャネル間時間差が正であるか負であるか0であるかに基づいて先行チャネル情報を得ることと、によって、N個のチャネルに含まれる2個のチャネルによる組合せそれぞれについての前記先行チャネル情報を得る
    チャネル間関係情報補完部を含み、
    前記並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれにおける2個のチャネル番号をi(iは1以上N-1以下の各整数)とi+1とし、
    前記並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれについての前記チャネル間相関値をγ'i(i+1)とし、
    前記並び替え後のチャネル番号が隣接する2個の並び替え後のチャネルによる組合せそれぞれについての前記チャネル間時間差をτ'i(i+1)とし、
    前記並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれにおける2個のチャネル番号をn(nは1以上N-2以下の各整数)とm(mはn+2以上N以下の各整数)とし、
    前記並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについての前記チャネル間相関値をγ'nmとし、
    前記並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについての前記チャネル間時間差をτ'nmとして、
    前記並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについての前記チャネル間相関値γ'nmは、iがn以上m-1以下である並び替え後のチャネル番号が隣接する2個のチャネルによる組合せそれぞれについての前記チャネル間相関値γ'i(i+1)のうちの最小値を含む1個以上の前記チャネル間相関値γ'i(i+1)のそれぞれと単調非減少の関係にある値であり、
    前記並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについての前記チャネル間時間差τ'nmは、iがn以上m-1以下である並び替え後のチャネル番号が隣接する2個のチャネルによる組合せそれぞれについての前記チャネル間時間差τ'i(i+1)の全てを加算した値である
    ことを特徴とする音信号ダウンミックス装置。
  5. 請求項4に記載の音信号ダウンミックス装置であって、
    前記並び替え後のチャネル番号が隣接しない2個の並び替え後のチャネルによる組合せそれぞれについての前記チャネル間相関値γ'nmは、iがn以上m-1以下である並び替え後のチャネル番号が隣接する2個のチャネルによる組合せそれぞれについての前記チャネル間相関値γ'i(i+1)のうちの最小値である
    ことを特徴とする音信号ダウンミックス装置。
  6. 請求項4または5に記載の音信号ダウンミックス装置を音信号ダウンミックス部として含み、
    前記ダウンミックス部が得た前記ダウンミックス信号を符号化してモノラル符号を得るモノラル符号化部と、
    前記N個チャネルの入力音信号を符号化してステレオ符号を得るステレオ符号化部と、
    を更に含む
    ことを特徴とする音信号符号化装置。
  7. 請求項1または2に記載の音信号ダウンミックス方法の各ステップの処理をコンピュータに実行させるためのプログラム。
  8. 請求項3に記載の音信号符号化方法の各ステップの処理をコンピュータに実行させるためのプログラム。
  9. 請求項1または2に記載の音信号ダウンミックス方法の各ステップの処理をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
  10. 請求項3に記載の音信号符号化方法の各ステップの処理をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2022505844A 2020-03-09 2021-02-08 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム及び記録媒体 Active JP7380835B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
PCT/JP2020/010080 WO2021181472A1 (ja) 2020-03-09 2020-03-09 音信号符号化方法、音信号復号方法、音信号符号化装置、音信号復号装置、プログラム及び記録媒体
JPPCT/JP2020/010080 2020-03-09
JPPCT/JP2020/010081 2020-03-09
PCT/JP2020/010081 WO2021181473A1 (ja) 2020-03-09 2020-03-09 音信号符号化方法、音信号復号方法、音信号符号化装置、音信号復号装置、プログラム及び記録媒体
PCT/JP2020/041216 WO2021181746A1 (ja) 2020-03-09 2020-11-04 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム及び記録媒体
JPPCT/JP2020/041216 2020-11-04
PCT/JP2021/004641 WO2021181976A1 (ja) 2020-03-09 2021-02-08 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JPWO2021181976A1 JPWO2021181976A1 (ja) 2021-09-16
JP7380835B2 true JP7380835B2 (ja) 2023-11-15

Family

ID=77671479

Family Applications (6)

Application Number Title Priority Date Filing Date
JP2022505754A Active JP7396459B2 (ja) 2020-03-09 2020-11-04 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム及び記録媒体
JP2022505845A Active JP7380836B2 (ja) 2020-03-09 2021-02-08 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム及び記録媒体
JP2022505842A Active JP7380833B2 (ja) 2020-03-09 2021-02-08 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム及び記録媒体
JP2022505844A Active JP7380835B2 (ja) 2020-03-09 2021-02-08 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム及び記録媒体
JP2022505843A Active JP7380834B2 (ja) 2020-03-09 2021-02-08 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム及び記録媒体
JP2023203361A Pending JP2024023484A (ja) 2020-03-09 2023-11-30 音信号ダウンミックス方法、音信号ダウンミックス装置及びプログラム

Family Applications Before (3)

Application Number Title Priority Date Filing Date
JP2022505754A Active JP7396459B2 (ja) 2020-03-09 2020-11-04 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム及び記録媒体
JP2022505845A Active JP7380836B2 (ja) 2020-03-09 2021-02-08 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム及び記録媒体
JP2022505842A Active JP7380833B2 (ja) 2020-03-09 2021-02-08 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム及び記録媒体

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2022505843A Active JP7380834B2 (ja) 2020-03-09 2021-02-08 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム及び記録媒体
JP2023203361A Pending JP2024023484A (ja) 2020-03-09 2023-11-30 音信号ダウンミックス方法、音信号ダウンミックス装置及びプログラム

Country Status (5)

Country Link
US (5) US20230319498A1 (ja)
EP (1) EP4120250A4 (ja)
JP (6) JP7396459B2 (ja)
CN (1) CN115280411A (ja)
WO (1) WO2021181974A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023157159A1 (ja) * 2022-02-17 2023-08-24 日本電信電話株式会社 位相差スペクトル推定方法、チャネル間関係情報推定方法、信号符号化方法、信号処理方法、これらの装置、プログラム
CN115188394A (zh) * 2022-06-20 2022-10-14 安徽听见科技有限公司 混音方法、装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010525403A (ja) 2007-04-26 2010-07-22 ドルビー インターナショナル アクチボラゲット 出力信号の合成装置及び合成方法
WO2010097748A1 (en) 2009-02-27 2010-09-02 Koninklijke Philips Electronics N.V. Parametric stereo encoding and decoding
WO2010140350A1 (ja) 2009-06-02 2010-12-09 パナソニック株式会社 ダウンミックス装置、符号化装置、及びこれらの方法
JP2011522472A (ja) 2008-05-23 2011-07-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ パラメトリックステレオアップミクス装置、パラメトリックステレオデコーダ、パラメトリックステレオダウンミクス装置、及びパラメトリックステレオエンコーダ
JP2018533056A (ja) 2015-09-25 2018-11-08 ヴォイスエイジ・コーポレーション ステレオ音声信号をプライマリチャンネルおよびセカンダリチャンネルに時間領域ダウンミックスするために左チャンネルと右チャンネルとの間の長期相関差を使用する方法およびシステム
JP2019536112A (ja) 2016-11-08 2019-12-12 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. サイドゲインおよび残余ゲインを使用してマルチチャネル信号を符号化または復号するための装置および方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101406074B (zh) * 2006-03-24 2012-07-18 杜比国际公司 解码器及相应方法、双耳解码器、包括该解码器的接收机或音频播放器及相应方法
CN103262158B (zh) * 2010-09-28 2015-07-29 华为技术有限公司 对解码的多声道音频信号或立体声信号进行后处理的装置和方法
EP2830050A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2840811A1 (en) * 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder
EP2830043A3 (en) * 2013-07-22 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for Processing an Audio Signal in accordance with a Room Impulse Response, Signal Processing Unit, Audio Encoder, Audio Decoder, and Binaural Renderer
FR3045915A1 (fr) * 2015-12-16 2017-06-23 Orange Traitement de reduction de canaux adaptatif pour le codage d'un signal audio multicanal

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010525403A (ja) 2007-04-26 2010-07-22 ドルビー インターナショナル アクチボラゲット 出力信号の合成装置及び合成方法
JP2011522472A (ja) 2008-05-23 2011-07-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ パラメトリックステレオアップミクス装置、パラメトリックステレオデコーダ、パラメトリックステレオダウンミクス装置、及びパラメトリックステレオエンコーダ
WO2010097748A1 (en) 2009-02-27 2010-09-02 Koninklijke Philips Electronics N.V. Parametric stereo encoding and decoding
WO2010140350A1 (ja) 2009-06-02 2010-12-09 パナソニック株式会社 ダウンミックス装置、符号化装置、及びこれらの方法
JP2018533056A (ja) 2015-09-25 2018-11-08 ヴォイスエイジ・コーポレーション ステレオ音声信号をプライマリチャンネルおよびセカンダリチャンネルに時間領域ダウンミックスするために左チャンネルと右チャンネルとの間の長期相関差を使用する方法およびシステム
JP2019536112A (ja) 2016-11-08 2019-12-12 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. サイドゲインおよび残余ゲインを使用してマルチチャネル信号を符号化または復号するための装置および方法

Also Published As

Publication number Publication date
EP4120250A4 (en) 2024-03-27
US20230319498A1 (en) 2023-10-05
JPWO2021181746A1 (ja) 2021-09-16
JPWO2021181975A1 (ja) 2021-09-16
CN115280411A (zh) 2022-11-01
JPWO2021181976A1 (ja) 2021-09-16
EP4120250A1 (en) 2023-01-18
WO2021181974A1 (ja) 2021-09-16
US20230106764A1 (en) 2023-04-06
JP7380836B2 (ja) 2023-11-15
US20230107976A1 (en) 2023-04-06
JP7380833B2 (ja) 2023-11-15
JP7396459B2 (ja) 2023-12-12
JPWO2021181977A1 (ja) 2021-09-16
JP7380834B2 (ja) 2023-11-15
US20230106832A1 (en) 2023-04-06
JP2024023484A (ja) 2024-02-21
JPWO2021181974A1 (ja) 2021-09-16
US20230108927A1 (en) 2023-04-06

Similar Documents

Publication Publication Date Title
JP6789365B2 (ja) 音声符号化装置および方法
JP7380835B2 (ja) 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム及び記録媒体
KR20090083070A (ko) 적응적 lpc 계수 보간을 이용한 오디오 신호의 부호화,복호화 방법 및 장치
CN102770913B (zh) 稀疏音频
CN107408390A (zh) 线性预测编码装置、线性预测解码装置、它们的方法、程序以及记录介质
WO2021181976A1 (ja) 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム及び記録媒体
WO2015162979A1 (ja) 周波数領域パラメータ列生成方法、符号化方法、復号方法、周波数領域パラメータ列生成装置、符号化装置、復号装置、プログラム及び記録媒体
WO2023032065A1 (ja) 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム
WO2022097237A1 (ja) 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体
WO2022097236A1 (ja) 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体
WO2022097238A1 (ja) 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体
WO2022097239A1 (ja) 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体
WO2022097241A1 (ja) 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体
WO2022097235A1 (ja) 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体
WO2022097244A1 (ja) 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体
WO2022097240A1 (ja) 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体
WO2022097243A1 (ja) 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体
WO2022097234A1 (ja) 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体
JP7380837B2 (ja) 音信号符号化方法、音信号復号方法、音信号符号化装置、音信号復号装置、プログラム及び記録媒体
WO2022097233A1 (ja) 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体
WO2022097242A1 (ja) 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体
JP7380838B2 (ja) 音信号符号化方法、音信号復号方法、音信号符号化装置、音信号復号装置、プログラム及び記録媒体
WO2013129439A1 (ja) 符号化装置、この方法、プログラム及び記録媒体
JPH04271400A (ja) 音声符号化方式

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231016

R150 Certificate of patent or registration of utility model

Ref document number: 7380835

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150