CN104541326A - 一种设备和方法,用于处理音频信号 - Google Patents

一种设备和方法,用于处理音频信号 Download PDF

Info

Publication number
CN104541326A
CN104541326A CN201380039780.4A CN201380039780A CN104541326A CN 104541326 A CN104541326 A CN 104541326A CN 201380039780 A CN201380039780 A CN 201380039780A CN 104541326 A CN104541326 A CN 104541326A
Authority
CN
China
Prior art keywords
audio signal
signal
transmission
audio
expansion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201380039780.4A
Other languages
English (en)
Inventor
吴贤午
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEO LAB CONVERGENCE Inc
Intellectual Discovery Co Ltd
Original Assignee
NEO LAB CONVERGENCE Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEO LAB CONVERGENCE Inc filed Critical NEO LAB CONVERGENCE Inc
Publication of CN104541326A publication Critical patent/CN104541326A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/1752Masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)

Abstract

本发明通常涉及一种方法和设备,用于处理一个音频信号,尤其是涉及一种方法和设备,通过以一种扩展的形式,在两个或更多通道中通过通信信号接收的音频信号间,使用相加的和相减的信号,解码一个音频信号。一种方法,用于编码至少两个通道的音频信号,包括的步骤如下:接收一个第一音频信号和一个第二音频信号;在第一音频信号和第二音频信号间获得一个相关性值;判定是否相关性值大于等于一个参考值;如果判定结果为真,使用第一音频信号和第二音频信号计算一个第一增益值和一个第二增益值;并使用第一音频信号,第二音频信号,第一增益值,第二增益值产生一个第一传输音频信号和一个第二传输音频信号,其中第一传输音频信号和第二传输音频信号使用一个感知编码技术进行编码。

Description

一种设备和方法,用于处理音频信号
技术领域
本发明通常涉及一种方法和设备,可用于处理音频信号,尤其是涉及一种方法和设备,通过在两个或更多通道的音频信号间使用求和和差异信号,解码音频信号。其中两个或更多通道的音频信号通过数字媒体,或者广播,或者通信信号来接收。
背景技术
传统的高质量音频编码方法,是根据使用一种听觉心理学模型,检测一个对于人耳造成听觉掩蔽的信号波段,并在编码程序中在一个掩蔽波段上进行时集中量化噪声,从而产生高压缩率,而当在聆听音频信号时,获得同原始音频信号相同质量的声音信号成为了可能。这种高质量的音频编码方法被称为“感知编码”。
MPEG-1/2 Layer-III (MP3),先进音频编码(AAC),等,都是代表性的感知编码方法。它们偶尔使用中侧的立体声编码,它是一个连接的立体声编码法,以便于有效的压缩立体声音频信号。一种独立的编码双通道,而非进行连接的立体声编码的方法,被称为“双重单声道”。
发明内容
技术问题
通过传统的双重单声道编码和中侧的立体声编码方法,需掩蔽的量化噪声并不是与音频信号完全的一致和在空间上的一致。因此会出现一个问题,即遮蔽现象并不能被最大化的利用。也就是说,可能存在一致情况,感知编码的压缩效率是受限的。因而,为了最大化利用遮蔽现象,需要一种可以转换音频信号的编码方法。
技术方案
本发明的目的是,提供一种音频信号处理方法,此方法编码至少双通道的音频信号,包括接收一个第一音频信号和一个第二音频信号,获取在所述第一音频信号和一个第二音频信号之间对的相关性,判定是否所述相关性大于等于一个参考值,如果判定结果为真,使用第一音频信号和第二音频信号计算一个第一增益值和一个第二增益值,并使用第一音频信号,第二音频信号,第一增益值,第二增益值产生一个第一传输音频信号和一个第二传输音频信号,其中第一传输音频信号和第二传输音频信号使用一个感知编码技术进行编码。
本发明的另一个目的是提供一个音频信号处理设备,包括接收一个第一传输音频信号,一个第二传输音频信号,以及一个扩展中侧的矩阵使用信息。根据此使用信息判定是否收到通道增益信息,如果判定收到通道增益信息,使用此信息计算第一增益值和第二增益值。使用第一传输音频信号,第二传输音频信号,第一增益值和第二增益值,产生第一输出音频信号和第二输出音频信号。其中如果判定通道增益信息未被收到,那么第一输出音频信号等于第一传输音频信号,第二输出音频信号等于第一传输音频信号。
有益效果
根据本发明,基于一种听觉心理学模型的听觉掩蔽可以被最大化的利用,而无论音源的空间位置如何,从而通过高质量的音频编码提高声音质量是可期待的。
本发明的优点并不仅限于上述效果,那些未描述的效果可被那些本领域的技术人员从本文和附图中清晰的了解。
附图说明
图1是一个示意图,显示了在一个传统的双重单声道编码方法中的信号和量化噪声的空间位置;
图2是一个示意图,显示了在一个传统的中侧立体声编码方法中的信号和量化噪声的空间位置;
图3是一个示意图,显示了在传统的双重单声道编码方法中,当左右声道的信号电平不同时,信号和量化噪声的空间位置;
图4是一个示意图,显示了在传统的中侧立体声编码方法中,当左右声道的信号电平不同时,信号和量化噪声的空间位置;
图5是本发明的一个典型的配置图,显示了扩展的中侧立体声编码方法使用的一个音频编码器;
图6是本发明实施例的一个示意图,显示了一个第一信号处理步骤,其中通过使用一个输入信号,扩展的中侧矩阵处理单元产生了一个传输音频信号;
图7是本发明的一个示意图,说明了由于处理一个扩展的中侧矩阵的影响导致的量化噪声的遮蔽;
根据本发明的另一个实施例,图8是一个示意图,显示了一个第二信号处理过程,其中扩展的中侧矩阵处理单元使用一个输入信号产生了一个传输音频信号;
根据本发明的一个实施例,图9是一个流程示意图,显示了一个扩展的中侧立体声编码过程;
图10是本发明的一个典型的配置图,显示了一个扩展的中侧立体声解码方法使用的一个音频解码器;
图11是本发明的一个典型的配置图,显示了处理一个扩展的中侧逆矩阵过程;
图12是本发明的一个典型的配置图,显示了一个扩展的中侧逆矩阵未被使用的情形;以及
根据本发明的另一个实施例,图13是一个流程图,显示了处理一个扩展的中侧逆矩阵的过程。
具体实施例
本发明的目的是提供一种音频处理方法,用于编码至少两个通道的音频信号,包括接收第一音频信号和第二音频信号,获得第一音频信号和第二音频信号间的相关性,判定是否此相关性等于或大于参考值,如果结果为真,使用第一音频信号和第二音频信号,计算第一增益值和第二增益值,并使用第一音频信号,第二音频信号,第一增益值,第二增益值产生第一传输音频信号和第二传输音频信号,其中第一传输音频信号和第二传输音频信号使用感知编码技术编码。
本发明中,在音频信号处理方法的感知编码技术可进一步包括,计算第一掩蔽阀值,用于第一传输音频信号,计算第二掩蔽阀值,用于第二传输音频信号。
本发明中,音频信号处理方法可使用第一掩蔽阀值感知的编码第一传输音频信号。
本发明中,音频信号处理方法可进一步包括,当相关性小于参考值时,产生了传输音频信号,以便于第一传输音频信号等于第一音频信号,第二传输音频信号等于第二音频信号。
本发明中,音频信号处理方法可配置成使用一个通道电平差的值计算第一增益值和第二增益值。
这里,第一传输音频信号可包括至少比第一音频信号和第二音频信号的音源更多的主音源。
进一步的,第二传输音频信号可包括至少比第一音频信号和第二音频信号的音源更少的主音源;
本发明的另一个目的是提供一个音频信号处理设备,包括接收第一传输音频信号,第二传输音频信号,和一扩展中侧矩阵使用信息。根据此使用信息判定是否收到通道增益信息,如果判定收到通道增益信息,使用此信息计算第一增益值和第二增益值。使用第一传输音频信号,第二传输音频信号,第一增益值和第二增益值,产生第一输出音频信号和第二输出音频信号。其中如果判定通道增益信息未被收到,那么第一输出音频信号等于第一传输音频信号,第二输出音频信号等于第一传输音频信号。
这里,当扩展中侧矩阵使用信息为1时,音频信号处理方法可接收通道增益信息。
进一步的,音频信号处理方法可如此配置,如果通道增益信息已被接收,第一输出音频信号由第一增益值乘以第一传输音频信号和第二传输音频信号之和而得到,第二输出音频信号由第二增益值乘以第一传输音频信号和第二传输音频信号之差而得到。
进一步的,在音频信号处理方法中,第一传输音频信号和第二传输音频信号是感知编码的信号。
这里,第一增益值与一值成正比,此值等于常量1和通道增益信息的平方之和的平方根,第二增益值与一值成正比,此值等于常量1和通道增益信息的平方之和的平方根除以通道增益信息。
这里,第一输出音频信号和第二输出音频信号可以是各自输出至两对扬声器的音频信号。
在下文中,本发明的优选的实施例将会结合附图进行详细的描述。在此之前,应当注意文中使用的术语和单词及权利要求不应当翻译成限定于普通的含义或词典的定义,并且应当理解,本发明具有的含义和概念中的技术精髓,是基于发明者能恰当的定义术语的概念原则的基础上的,以便更好的描述他或她的发明。因而,文中描述的实施例和附图中说明的配置并不是优选的例子,并且没有完全的展现本发明的技术精神。因此,在本发明申请的同时,还会有不同的等同物和修改替代此实施例和配置。
本发明的术语可以基于以下标准翻译,并且即使未在本文中描述的术语,也可以根据下述要点翻译。根据语境,代码可翻译成编码或解码,而信息是一个术语,包含值,参数,系数,元素等,并可依据语境翻译,但是本发明并不仅限于上述含义。
在使用两个左/右扬声器的音频再现方法的编码立体声音频方法中,使用了一种中侧的立体声编码方法,它被设计基于已知的一种听觉心理学实验特别的解决双耳掩蔽级差(BMLD)。换言之,BMLD是一种听觉心理学掩蔽现象,这意味着在一空间的相同方向,可能出现掩蔽者引起掩蔽而被掩蔽者被掩蔽。
图1说明了在一个传统的双重单声道编码方法中,信号S和量化噪声N1和N2的空间位置,图2说明了在一个传统的中侧(和-差)立体声编码方法中,信号S和量化噪声N1和N2的空间位置。
当立体声音频信号的双通道音频信号间的相关性很高,并且信号的量级互相一致时,声音的图像(声像)在两个扬声器的中间形成。当其中的相关性未出现时,从各自的扬声器中输出独立的声音,随后它们的声像分别在扬声器上形成。如图1中的例子所示,当各自的通道独立的为输入信号编码(双重单声道方式)时,其中输入信号具有最大相关性,音频信号S的声图在中间形成,并且量化噪声N1和N2的声图分别在各自的扬声器上形成。换言之,既然在各自通道内的量化噪声N1和N2没有相关性,它们的声像分别在各自的扬声器上形成。因而,量化噪声N1和N2意在成为被掩蔽者,由于空间差异而未被掩蔽,因而出现了一个问题,即人们听到相应的噪音失真问题。为解决此问题,图2中显示的中侧的立体声编码意在产生一个中间(和)信号,它由双通道信号和侧(差)信号相加而得,其中侧(差)信号由两个通道信号之差所得。中间(和)信号使用中间信号和侧信号进行听觉心理学建模,并使用此建成的听觉心理学模型进行量化。根据本方法,产生于图2中的量化噪声N1和N2的声图同音频信号S的声图形成于相同位置。同时,在已存的方式中,优选的,在双通道音频信号间无相关性的情况下,以一种双重的单声道编码方式编码了独立的信号。因而,根据输入信号的特征,这种中侧(MS)编码方法可以进行多种使用。
图3和图4说明了当左声道L和右声道R的信号电平不同时,信号S和量化噪声N1和N2的空间位置。图3说明了一种传统的双重的单声道编码方式,图4说明了一种传统的中侧立体声编码方式。
图3和图4说明了左右声道的电平差为10dB时的情况(左声道比右声道大10dB)。如图3和图4中所示,当输入立体声音频信号间的相关性很高时,左右声道的信号电平时不同的,音源S 110出现在除声场内的扬声器的中间,或者左侧,或者右侧以外的其它位置。在此情况下出现了一个问题,即使图4中显示的中侧立体声编码方法同图3中使用的传统的双重单声道方式一致,排列源S 110的位置与量化噪声N1 120a或N2 120b或130b的位置是困难的,其中S 110为掩蔽者,N1 120a或N2 120b或130b为被掩蔽者。为解决此问题,本发明提供了一种扩展的中侧立体声编码方法。
图5说明了一种扩展的中侧立体声编码方法应用于一个音频解码器500的实施例。参考图5,双通道音频信号CH1和CH2中的每个信号被输入相关计算单元510,一个增益信息计算单元520,以及一扩展的中侧矩阵处理单元530。在此情况下,CH1和CH2可以是音频数据块,对应于预设的立体声音频信号的时间片段;或是信号,对应于从音频块中转换来的滤波器中频域的部分或所有信号。同时,本发明表示了通过一个通道(例如:通道1,通道2)的单个独立音频信号,其中术语“通道”表示了一个单个信号通过一个单个扬声器的重现过程。然而,本发明并不仅限于这样一个术语,并且本发明的通道可包括一个单个独立的音频对象信号,一个可混合或重现多重音频信号的单个信号,等。
相关计算单元510计算输入通道CH1和CH2的给定片段的相关性水平。当一个对应于CH1的输入信号为x,而一个对应于CH2的输入信号为y时,本发明可使用通道间干涉(相关性)(ICC)的值作为一个实施例的相关性,并由以下方程式表示。
[方程式1]
根据本发明的一个实施例,除了方程式1中计算ICC的方法,相关性还可使用不同的方法获得,并且本发明并不限于特定的方法。在本发明中,是否进行扩展的中侧矩阵处理可以基于已计算的相关性判定。然而,本发明的实施例并不仅限于此,也可使用其它的方法判定是否进行扩展的中侧矩阵处理。
通过使用本发明的输入通道CH1和CH2,增益信息计算单元520计算增益g1和g2,用于扩展的中侧矩阵处理。需要一个通道电平差c,以获得一个扩展的中侧矩阵,可以通过以下的方程式得到电平差c:
[方程式2]
换言之,通道电平差系数c表示了CH1和CH2的信号量级(功率或能量)的比率。一个使用通道电平差c计算扩展的中侧矩阵增益g1和g2的实施例由下列的方程式可得:
[方程式3]
根据本发明的另一个实施例,可进一步通过乘上附加的增益而获得增益g1和g2,以补偿输入信号的能量损失。本发明的扩展的中间层矩阵处理单元530接收输入信号CH1和CH2,并使用矩阵运算产生了扩展的中侧信号TCH1和TCH2。
图6说明了第一信号处理过程600,其中根据本发明的一个实施例,扩展的中间层矩阵处理单元530使用输入信号CH1和CH2,产生了传输音频信号TCH1和TCH2。此过程由下列的方程式表示:
[方程式4]
换言之,根据本发明的一个实施例,扩展的中间层矩阵处理单元530使用输入信号CH1和CH2,以及增益g1和g2,产生了扩展的中侧信号TCH1和TCH2。根据本发明的一个实施例,产生的扩展的中侧信号TCH1和TCH2,可传输音频信号。
根据本发明的一个实施例,使用相关性信息可判定是否进行第一信号处理过程600。例如,当方程式1中获得的相关性值(ICC)大于一个预设的门限值时,扩展的中间层矩阵处理单元530可进行第一信号处理过程600。因而,扩展的中间层矩阵处理单元530可请求相关性信息和扩展的中侧矩阵增益信息与输入信号CH1和CH2一起,产生扩展的中侧信号TCH1和TCH2。
根据本发明的一个实施例,图7说明了由于扩展的中侧矩阵处理的影响,量化噪声被掩蔽的现象。换言之,根据图3和图4的实施例,图7显示了输入音频信号通过第一信号处理过程600输入扩展的中侧信号并随后输出的情况。根据本发明的一个实施例,当扩展的中侧矩阵处理被执行时,信号TCH1和TCH2被传输,以便于扩展的中侧信号TCH1和TCH2的图像位于主音源S 110坐落的位置周围,其中主音源S 110坐落于双通道间的声域内。因而,如图7所示,量化噪声N1 140a和N2 140b产生的传输信号TCH1和TCH2的感知编码的结果是令人满意的,并由音源S 110在空间掩蔽的,从而获得了减少音质中的失真的效果。
根据本发明的另一个实施例,图8说明了第二信号处理过程800,其中扩展的中侧矩阵处理单元530使用输入信号CH1和CH2,产生了传输音频信号TCH1和TCH2。如上所述,根据第一信号处理过程600,扩展的中侧矩阵处理单元530可基于相关性信息和/或一个通道电平差系数,判定是否进行扩展的中侧矩阵处理。例如,当ICC的值小于等于一个预设的门限值时,扩展的中侧矩阵处理单元530在传统的方式的情况下,可独立的编码各自的通道,而无需处理扩展的中侧立体声编码。换言之,如图8和下列的方程式5所示,扩展的中侧矩阵处理单元530可立即输出输入信号CH1和CH2,分别作为传输音频信号TCH1和TCH2。
[方程式5]
返回至图5,一个听觉心理学模型单元550,收到扩展的中侧矩阵处理单元530的输出信号TCH1和TCH2,执行了每个通道的听觉心理学建模,并输出了各自通道的掩蔽阀值。例如,一个信掩比(SMR)指示了信号功率在掩蔽数量中的每个信号分量的比率,它可用于计算在一个特别的分析区域中的通道信号。因而,本发明可依据扩展的中侧矩阵处理单元530的处理结果,被SMR计算的目标信号变化。
量化单元560接收扩展的中侧矩阵处理单元530的输出信号TCH1和TCH2,通过听觉心理学模型单元560接收掩蔽阀值SMR,并随后执行量化。在此情况下,基于SMR,量化单元560判定了一个量化步骤,因而防止了听众听到再现的量化噪音,因为它被信号掩蔽了。这同使用感知编码的方法类型,例如传统的ACC。
熵编码单元570,在传输音频信号qTCH1和qTCH2上执行熵编码,完成了额外的数据压缩,比如Huffman编码或算术编码,其中传输音频信号qTCH1和qTCH2是由量子单元560量化的。根据实现方法,量化单元560和熵编码单元570可以通过执行一个单环路的运算被重复的优化。
同时,相关性值ICC为相关性计算单元510的输出,而通道电平差系数c为增益信息计算单元520的输出,它们可以输入至一个扩展的中侧附加信息编码单元540,并可编码。例如,扩展的中侧使用信息ems_flag,根据相关性值,指出了是否执行了一个扩展的中侧矩阵运算,并且通道电平值系数c可能被编码。在此情况下,如果使用了扩展的中侧矩阵运算,ems_flag可被编码成ems_flag=1,然而当它未被使用,ems_flag=0。此附加的信息编码可被传送的解码器。
同时,为最小化在编码器和解码器中使用的增益值的错误,优选的,甚至编码器使用通道电平差系数c和增益g1和g2的量化值进行传输。
多路器(MUX)单元580通过混合扩展的中侧附加信息编码单元540的输出,熵编码单元570的输出和听觉心理学模型单元550,产生了一个输出比特流。如上所述,扩展的中侧附加信息编码单元540的输出可包括相关性值ICC,通道电平差系数c,扩展的中侧使用信息ems_flag,等。进一步的,熵编码单元570的输出了包括量化的传输音频信号qTCH1和qTCH2的熵编码信号。此外,听觉心理学模型单元550的输出可包括各自通道的掩蔽阀值,例如SMR值。MUX单元580通过多路复用至少上述的一个输出,产生了一个输出比特流。
根据本发明的一个实施例,图9是一个流程图,显示了一个扩展的中侧立体声编码过程。图9的单个步骤可由本发明的音频编码器500执行,音频编码器500已在图5中有所描述。
首先,本发明的音频编码器可接收音频信号CH1和CH2,并使用收到的信号计算通道间相干性(相关性)值(ICC)。其次,音频编码器判定通道间相关性值(ICC)是否大于一个预设的门限值。
如果相关性值(ICC)大于预设的门限值,音频编码器计算在收到的音频信号CH1和CH2之间的输入电平差系数c。进一步的,根据上述的实施例,音频编码器计算扩展的中侧矩阵增益g1和g2。接着,本发明的音频编码器通过在输入的音频信号CH1和CH2上执行扩展的中侧矩阵处理,产生了传输音频信号TCH1和TCH2。音频编码器设置扩展的中侧使用信息ems_flag=1。
相反的,如果相关性值ICC没有大于预设的门限值,音频信号CH1和CH2可设置为传输音频信号TCH1和TCH2而无需改变。在此情况下,音频编码器设置扩展的中侧使用信息ems_flag=0。本发明的音频编码器可以此种方法产生输出的传输音频信号TCH1和TCH2。在一个典型的实施例中,音频编码器可产生各自的传输音频信号TCH1和TCH2的量化信号qTCH1和qTCH2。在另一个实施例中,音频编码器可通过在传输音频信号TCH1和TCH2上进行量化和熵编码而获得输出信号。  
图10说明了本发明的音频解码器1000的实施例,用于通过扩展的中侧立体声编码方法解码比特流编码。参考图10,一个音频解码过程可以通过图5中描述的编码过程的逆过程实现。首先,音频解码器1000收到一个比特流,并通过一个信号分离器(DEMUX)分离此比特流为需要的信息片段,用于各自的解码步骤。
一个熵解码单元1030重建熵编码的数据为量化信号。一个逆量化单元1040通过在重建的信号上进行逆转的量化,获取qTCH1和qTCH2,也就是传输音频信号。在此情况下,逆量化单元1040可基于分离的附加信息判定一个逆转的量化步骤。此附加信息可以基于图5中描述的掩蔽阀值SMR进行判定。通过逆量化单元1040获取的传输音频信号qTCH1和qTCH2被发送至一个扩展的中侧逆矩阵处理单元1050。
一个反转的增益信息计算单元1020通过下列方程式,使用传输的通道电平差系数c,计算了逆矩阵增益值h1和h2,以用于扩展的中侧逆矩阵处理:
[方程式6]
同时,根据本发明的另一个实施例,如图3中的描述,当能量补偿增益包括增益g1和g2时,与能量补偿增益相应的分离的增益甚至可以额外的乘以方程式6中的增益值。
一个扩展的中侧逆矩阵处理单元1050收到了传输音频信号qTCH1和qTCH2,以及预先计算的增益值h1和h2,并执行输出音频信号qTCH1和qTCH2的运算。一个由扩展的中侧逆矩阵处理单元1050执行的逆矩阵运算过程可以如任何一个图11中显示的第三信号处理过程1100,以及图12中显示的第四信号处理过程1200那样处理。第三信号处理过程1100是一个中侧逆矩阵运算,对应于图6中显示的第一信号处理过程600。第四信号处理过程1200是一个中侧逆矩阵运算,对应于图8中显示的第二信号处理过程800。
根据本发明的实施例,音频解码器1000基于从比特流中获取的扩展的中侧附加信息(例如,扩展的中侧使用信息ems_flag),通过使用第三信号处理过程1100或者第四信号处理过程1200,产生了输出音频信号qTCH1和qTCH2。如果期望获取的扩展的中侧使用信息ems_flag=1时,扩展的中侧逆矩阵处理单元1050可使用第三信号处理过程1100产生输出音频信号qTCH1和qTCH2,如下列的方程式7所示:
[方程式7]
然而,当期望获取的扩展的中侧使用信息ems_flag=0时,扩展的中侧逆矩阵处理单元1050可根据第四信号处理过程1200,绕过传输音频信号qTCH1和qTCH2,产生输出音频信号qTCH1和qTCH2。根据本发明的一个实施例,当期望扩展的中侧使用信息ems_flag=0时,通道电平差系数c可以不传输至音频解码器1000,并且音频解码器1000的反转的增益信息计算单元1020也可不进行运算。
当扩展的中侧逆矩阵处理单元1050的输出音频信号qTCH1和qTCH2为时域信号时,它们可以立即通过扬声器再现成输出音频信号。然而,当输出音频信号qTCH1和qTCH2为频域信号时,可进行一个逆滤波器组的运算(例如,逆改进型离散余弦变换:IMDCT,未显示),并且随后的输出音频信号可以作为最终的音频信号输出。
根据本发明的一个实施例,图13是一个流程图,显示了一个扩展的中侧逆矩阵处理过程。如本发明的图10中描述的那样,音频解码器1000执行图13中单独的步骤。
首先,根据本发明的实施例,音频解码器收到一个比特流。在本发明的实施例中,比特流可包括量化信号qTCH1和qTCH2,一个通道电平差系数c,扩展的中侧使用信息ems_flag,等。然而,本发明的信息并不仅限于如此,通过音频解码器收到的比特流可包括音频信号和附加的信息,它们已经被混合,以通过图5中MUX单元580产生的比特流。
随后,根据本发明的实施例,音频解码器判定扩展的中侧使用信息ems_flag是否包含接收的比特流1(ems_flag=1)。如果期望ems_flag=1,音频解码器计算扩展的中侧逆矩阵增益h1和h2。进一步的,扩展的中侧逆矩阵处理在信号qTCH1和qTCH2上使用已计算的增益h1和h2进行运算,并因而产生了输出音频信号qTCH1和qTCH2。
然而,如果ems_flag不为1(例如,ems_flag=0),音频编码器可把信号qTCH1和qTCH2设置为输出音频信号qCH1和qCH2而无需改变。
通过以上步骤,根据本发明的实施例,虽然扩展的中侧矩阵处理方法,以及作为音频信号编码和解码的方法的实施例描述过了,它们也可基于本发明的精神使用两个或更多的通道。例如,当通过基于矢量的振幅平移(VBAP)提出的通道信号输入时,(VBAP是一种用于在一个3D空间内三个扬声器输出信号中定位音源的方法),可以进行编码,以便于用于各自通道信号和通道信号引起的量化噪声的掩蔽阀值,在空间上掩蔽更多的想要的信号,这是通过使用已提出的通道信号的类似的中侧技术完成的,以取代用于各自通道的独立的编码三通道的输入信号技术。  
进一步的,除了用于音频信号各自通道的编码/解码过程外,本发明的扩展中侧矩阵处理也可应用于参数编码。换言之,在下述情况下,即一个参数立体声技术被普遍的认为是一种编码方法,用于缩混立体声信号为单声道信号并使用分离的附加信号产生立体声信号,如本发明中提出的方法所述,如果产生了增益值并缩混了信号,与其进行普通缩混,还不如在感知编码中掩蔽编码信号来的更有效率,并且因而提高了总体的声音质量。
进一步的,除了音频编码,或一个过程,其中两个或更多的信号,在图像或视频信号或生物学信息信号而非音频信号具有类似的必须被传输的情况下,本发明可进行扩展并应用于一个信号处理过程,用于缩混音频信号。
根据本发明的一个实施例,图14是一个示意图,显示了声频信号处理设备产品间的运行关系。参考图14,一个有线/无线通信单元310以一种有线/无线通信方式接收比特流。更具体的说,有线/无线通信单元310可包括一个或多个有线通信单元310A,一个红外单元310B,一个蓝牙单元310C,以及一个无线的局域网(LAN)通信单元310D。
一个用户鉴权单元320接收了用户信息并鉴定一个用户,并可包括一个或多个指纹识别单元320A,一个虹膜识别单元320B,一个脸部识别单元320C,以及一个语音识别单元320D,它们分别接收指纹信息,虹膜信息,脸部轮廓信息和语音信息,把这些信息转换为用户信息,并判定用户是否匹配之前注册的用户数据,因而执行用户鉴权。
输入单元330是一个输入设备,用户允许用户输入不同类型的命令,并可包括,但不仅限于一个或多个小型按键单元330A,一个触摸板单元330B,和一个远端控制单元330C。
信号编码单元340通过有线/无线通信单元310接收,在音频信号和/或视频信号上执行编码或解码功能,并以时域方式输出音频信号。信号编码单元340可包括一个音频信号处理设备345。在此情况下,音频信号处理设备345对应于上面描述的实施例(根据一个实施例为解码器500,根据另一个实施例为解码器1000),并且如此一个音频信号处理设备345和信号编码单元340包括使用一个或多个处理器的设备。
控制单元350从输入设备接收输入信号,并控制信号编码单元340和输出单元360的所有处理。输出单元360是一个组件,用于输出通过信号编码单元340产生的输出信号,并可包括一个扬声器单元360A和一个显示单元360B。当输出信号为音频信号时,它们通过扬声器单元输出,反之当输出信号为视频信号时,它们通过显示器单元输出。
本发明的音频信号处理方法可产生于一个程序,用于在一个计算机上运行,并存储于一个计算机可读的存储媒介。本发明的具有一个数据结构的多媒体数据也可存储于一个计算机可读的存储媒介。计算机可读的记录媒介包括所有类型的依赖计算机系统的可读存储设备。计算机可读的存储媒介的实例包括只读存储器(ROM),随机存储器(RAM),光盘(CD-ROM),磁带,软盘,光数据存储设备等,并可包括载波形式的存储(例如,通过Internet的传输)。进一步的,编码方法产生的比特流可存储在计算机可读的媒体中或可通过有线/无线通信网络传输。
如上所述,虽然本发明描述了有限的实施例和附图,显而易见的是,本发明并不仅限于这些实施例和附图,并且本发明可被本领域的技术人员以不同的方式进行修改和改变,这些修改和改变并不背离本发明技术精神和附属权利要求的相等属性。
发明模式
如上所述,实行本发明的相关内容的最佳模式已经被详述过了。
工业应用
本发明可应用于音频信号的编码或解码过程,或对音频信号进行不同类型的处理。

Claims (6)

1.一种音频信号处理方法,包括:
接收一比特流,包括一第一传输音频信号,一第二传输音频信号和一扩展的中侧使用信息;
接收一通道电平差系数,所述电平差系数对应于第一传输音频信号和第二传输音频信号;以及
基于扩展的中侧使用信息,从第一传输音频信号和第二传输音频信号中,产生一第一输出音频信号和一第二输出音频信号;
其特征在于,当扩展的中侧使用信息值为1时,所述产生的结果包括;
使用所述通道电平差系数,计算一第一增益值和一第二增益值;以及
使用所述第一传输音频信号和所述第二传输音频信号,以及所述第一增益值和所述第二增益值,产生所述第一输出音频信号和所述第二输出音频信号。
2.如权利要求1所述的音频信号处理方法,其特征在于,所述接收端包括,当所述扩展的中侧使用信息值为1时,接收所述通道电平差系数。
3.如权利要求1所述的音频信号处理方法,其特征在于,所述第一输出音频信号由所述第一增益值乘以所述第一传输音频信号和所述第二传输音频信号之和而得到,而所述第二输出音频信号由所述第二增益值乘以所述第一传输音频信号和所述第二传输音频信号之差而得到。
4.如权利要求1所述的音频信号处理方法,其特征在于,所述第一传输音频信号和所述第二传输音频信号是感知编码信号。
5.如权利要求1所述的音频信号处理方法,其特征在于,所述第一增益值与一值的平方根成正比,此值等于常量1和通道电平差系数的平方之和,所述第二增益值与一值的平方根除以通道电平差系数所得成正比,此值等于常量1和通道电平差系数的平方之和。
6.如权利要求1所述的音频信号处理方法,其特征在于,所述第一输出音频信号和所述第二输出音频信号为立体声音频信号,用于分别的输出至两扬声器。
CN201380039780.4A 2012-07-31 2013-07-26 一种设备和方法,用于处理音频信号 Pending CN104541326A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2012-0084207 2012-07-31
KR1020120084207A KR20140017338A (ko) 2012-07-31 2012-07-31 오디오 신호 처리 장치 및 방법
PCT/KR2013/006730 WO2014021587A1 (ko) 2012-07-31 2013-07-26 오디오 신호 처리 장치 및 방법

Publications (1)

Publication Number Publication Date
CN104541326A true CN104541326A (zh) 2015-04-22

Family

ID=50028214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380039780.4A Pending CN104541326A (zh) 2012-07-31 2013-07-26 一种设备和方法,用于处理音频信号

Country Status (6)

Country Link
US (1) US20150213790A1 (zh)
EP (1) EP2863387A4 (zh)
JP (1) JP2015528925A (zh)
KR (1) KR20140017338A (zh)
CN (1) CN104541326A (zh)
WO (1) WO2014021587A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI690920B (zh) * 2018-01-10 2020-04-11 盛微先進科技股份有限公司 音訊處理方法、音訊處理裝置及用於音訊處理之非暫時性電腦可讀媒體
CN114731459A (zh) * 2019-11-20 2022-07-08 杜比国际公司 用于个性化音频内容的方法和设备

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107731238B (zh) 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
ES2830954T3 (es) * 2016-11-08 2021-06-07 Fraunhofer Ges Forschung Mezclador descendente y método para la mezcla descendente de al menos dos canales y codificador multicanal y decodificador multicanal
KR102468799B1 (ko) * 2017-08-11 2022-11-18 삼성전자 주식회사 전자장치, 그 제어방법 및 그 컴퓨터프로그램제품
JP7024794B2 (ja) * 2017-09-06 2022-02-24 ヤマハ株式会社 オーディオシステム、オーディオ機器、及びオーディオ機器の制御方法
JP7205546B2 (ja) * 2018-10-25 2023-01-17 日本電気株式会社 音声処理装置、音声処理方法、及びプログラム
WO2020166072A1 (ja) * 2019-02-15 2020-08-20 日本電気株式会社 時系列データ処理方法
EP3719799A1 (en) * 2019-04-04 2020-10-07 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. A multi-channel audio encoder, decoder, methods and computer program for switching between a parametric multi-channel operation and an individual channel operation
WO2023114862A1 (en) * 2021-12-15 2023-06-22 Atieva, Inc. Signal processing approximating a standardized studio experience in a vehicle audio system having non-standard speaker locations

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002244698A (ja) * 2000-12-14 2002-08-30 Sony Corp 符号化装置および方法、復号装置および方法、並びに記録媒体
JP2004325633A (ja) * 2003-04-23 2004-11-18 Matsushita Electric Ind Co Ltd 信号符号化方法、信号符号化プログラム及びその記録媒体
CN1973320A (zh) * 2004-04-05 2007-05-30 皇家飞利浦电子股份有限公司 立体声编码和解码的方法及其设备
CN101069232A (zh) * 2004-11-30 2007-11-07 松下电器产业株式会社 立体声编码装置、立体声解码装置及其方法
CN101120615A (zh) * 2005-02-22 2008-02-06 弗劳恩霍夫应用研究促进协会 近透明或透明的多声道编码器/解码器方案
CN101133680A (zh) * 2005-03-04 2008-02-27 弗劳恩霍夫应用研究促进协会 用于产生音频片段或音频数据流的已编码立体声信号的装置及方法
CN101160619A (zh) * 2005-04-15 2008-04-09 科丁技术公司 适应性残余音频编码
JP2008203315A (ja) * 2007-02-16 2008-09-04 Matsushita Electric Ind Co Ltd オーディオ符号化・復号化装置、方法、及びソフトウェア
CN101652810A (zh) * 2006-09-29 2010-02-17 Lg电子株式会社 用于处理混合信号的装置及其方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6499010B1 (en) * 2000-01-04 2002-12-24 Agere Systems Inc. Perceptual audio coder bit allocation scheme providing improved perceptual quality consistency
US7406412B2 (en) * 2004-04-20 2008-07-29 Dolby Laboratories Licensing Corporation Reduced computational complexity of bit allocation for perceptual coding
JPWO2006059567A1 (ja) * 2004-11-30 2008-06-05 松下電器産業株式会社 ステレオ符号化装置、ステレオ復号装置、およびこれらの方法
US7835904B2 (en) * 2006-03-03 2010-11-16 Microsoft Corp. Perceptual, scalable audio compression
US20080004873A1 (en) * 2006-06-28 2008-01-03 Chi-Min Liu Perceptual coding of audio signals by spectrum uncertainty
US20080091415A1 (en) * 2006-10-12 2008-04-17 Schafer Ronald W System and method for canceling acoustic echoes in audio-conference communication systems
WO2008069596A1 (en) * 2006-12-07 2008-06-12 Lg Electronics Inc. A method and an apparatus for processing an audio signal

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002244698A (ja) * 2000-12-14 2002-08-30 Sony Corp 符号化装置および方法、復号装置および方法、並びに記録媒体
JP2004325633A (ja) * 2003-04-23 2004-11-18 Matsushita Electric Ind Co Ltd 信号符号化方法、信号符号化プログラム及びその記録媒体
CN1973320A (zh) * 2004-04-05 2007-05-30 皇家飞利浦电子股份有限公司 立体声编码和解码的方法及其设备
CN101069232A (zh) * 2004-11-30 2007-11-07 松下电器产业株式会社 立体声编码装置、立体声解码装置及其方法
CN101120615A (zh) * 2005-02-22 2008-02-06 弗劳恩霍夫应用研究促进协会 近透明或透明的多声道编码器/解码器方案
CN101133680A (zh) * 2005-03-04 2008-02-27 弗劳恩霍夫应用研究促进协会 用于产生音频片段或音频数据流的已编码立体声信号的装置及方法
CN101160619A (zh) * 2005-04-15 2008-04-09 科丁技术公司 适应性残余音频编码
CN101652810A (zh) * 2006-09-29 2010-02-17 Lg电子株式会社 用于处理混合信号的装置及其方法
JP2008203315A (ja) * 2007-02-16 2008-09-04 Matsushita Electric Ind Co Ltd オーディオ符号化・復号化装置、方法、及びソフトウェア

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PAINTER T: ""Perceptual coding of digital audio"", 《PROCEEDING OF THE IEEE》 *
姜晔: ""感知音频编码中预回声的产生"", 《电声技术》 *
李琳琳: ""数字音频感知编码的心理声学模型"", 《中国新通信》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI690920B (zh) * 2018-01-10 2020-04-11 盛微先進科技股份有限公司 音訊處理方法、音訊處理裝置及用於音訊處理之非暫時性電腦可讀媒體
US10650834B2 (en) 2018-01-10 2020-05-12 Savitech Corp. Audio processing method and non-transitory computer readable medium
CN114731459A (zh) * 2019-11-20 2022-07-08 杜比国际公司 用于个性化音频内容的方法和设备

Also Published As

Publication number Publication date
EP2863387A1 (en) 2015-04-22
WO2014021587A1 (ko) 2014-02-06
US20150213790A1 (en) 2015-07-30
JP2015528925A (ja) 2015-10-01
KR20140017338A (ko) 2014-02-11
EP2863387A4 (en) 2016-03-30

Similar Documents

Publication Publication Date Title
CN104541326A (zh) 一种设备和方法,用于处理音频信号
JP7342091B2 (ja) 二次元または三次元音場のアンビソニックス表現の一連のフレームをエンコードおよびデコードする方法および装置
JP4685925B2 (ja) 適応残差オーディオ符号化
EP3327721B1 (en) Data rate compression of higher order ambisonics audio based on decorrelation by adaptive discrete spherical transform
JP5032977B2 (ja) マルチチャンネル・エンコーダ
KR101315077B1 (ko) 멀티-채널 오디오 데이터를 인코딩 및 디코딩하기 위한 방법, 및 인코더들 및 디코더들
JP5883561B2 (ja) アップミックスを使用した音声符号器
KR100928311B1 (ko) 오디오 피스 또는 오디오 데이터스트림의 인코딩된스테레오 신호를 생성하는 장치 및 방법
TWI550598B (zh) 使用聯合編碼殘餘信號之音訊編碼器、音訊解碼器、方法及電腦程式
TWI404429B (zh) 用於將多頻道音訊信號編碼/解碼之方法與裝置
KR101444102B1 (ko) 스테레오 오디오의 부호화, 복호화 방법 및 장치
US20070269063A1 (en) Spatial audio coding based on universal spatial cues
KR101777626B1 (ko) 조인트 멀티채널 코딩을 위한 방법들 및 장치들
WO2005112002A1 (ja) オーディオ信号符号化装置及びオーディオ信号復号化装置
CN101401151A (zh) 根据主分量分析的多通道音频信号的可分级编码的设备和方法
JP4685165B2 (ja) 仮想音源位置情報に基づいたチャネル間レベル差量子化及び逆量子化方法
US8041041B1 (en) Method and system for providing stereo-channel based multi-channel audio coding
CN101313355B (zh) 编码/解码多声道音频信号的方法和装置
CN105164749A (zh) 多声道音频的混合编码
GB2550459A (en) Encoding apparatus for processing an input signal and decoding apparatus for processing an encoded signal
CN117136406A (zh) 组合空间音频流
EP2863658A1 (en) Method and device for processing audio signal
KR20110018108A (ko) 레지듀얼 신호 인코딩 및 디코딩 방법 및 장치
EP2489036B1 (en) Method, apparatus and computer program for processing multi-channel audio signals
JP2007187749A (ja) マルチチャンネル符号化における頭部伝達関数をサポートするための新装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150422

WD01 Invention patent application deemed withdrawn after publication