CN104509131A - 一种用于处理音频信号的方法和设备 - Google Patents
一种用于处理音频信号的方法和设备 Download PDFInfo
- Publication number
- CN104509131A CN104509131A CN201380038930.XA CN201380038930A CN104509131A CN 104509131 A CN104509131 A CN 104509131A CN 201380038930 A CN201380038930 A CN 201380038930A CN 104509131 A CN104509131 A CN 104509131A
- Authority
- CN
- China
- Prior art keywords
- phase
- weight
- channel
- signal
- passage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 title abstract description 10
- 238000012545 processing Methods 0.000 title abstract description 7
- 238000003672 processing method Methods 0.000 claims description 15
- 238000010586 diagram Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 11
- 239000000203 mixture Substances 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 238000005267 amalgamation Methods 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- 230000001066 destructive effect Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000000712 assembly Effects 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000035807 sensation Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000005669 field effect Effects 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- VIKNJXKGJWUCNN-XGXHKTLJSA-N norethisterone Chemical compound O=C1CC[C@@H]2[C@H]3CC[C@](C)([C@](CC4)(O)C#C)[C@@H]4[C@@H]3CCC2=C1 VIKNJXKGJWUCNN-XGXHKTLJSA-N 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
- H04S5/005—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation of the pseudo five- or more-channel type, e.g. virtual surround
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
Abstract
本发明通常涉及一种音频信号处理方法和装置,用于处理一音频信号,并且此方法包括的步骤如下:接收一缩混(DMX)信号;接收通道间相位差(IPD)信息,通道间相位差信息对应于第一相位通道和第二相位通道间的相位差;接收一通道电平差,通道电平差对应于第一相位通道和第二相位通道间的电平差;判定基于通道电平差的第一权重和第二权重的定义;根据判定的定义,使用IPD计算第一权重和第二权重;产生总的相位差(OPD)信息,基于第一权重和第二权重,总的相位差信息对应于第一相位通道和DMX信号间的相位差。
Description
技术领域
本发明通常涉及一种音频信号处理方法和装置,可用于处理音频信号,尤其是涉及一种音频信号处理方法和设备,可用于编码或解码音频信号。
背景技术
通常,随着大规模视频图像的使用,需要向听众提供一种具有沉浸感的音频,类似声音环绕于聆听着的周围。为了提高环绕立体声的临场感受和身临其境的环绕感觉,声频通道的数量可大于2个通道或5.1个通道。音频信号可处理的通道数量(例如,22.2个通道)最多可至数十个。
发明内容
技术问题
多个通道的最多可至数十个的信号,可通过一编码器进行缩混,这个缩混信号可传输至一解码器。缩混信号必须被解码器分离,以便使之接近于原始的通道信号。
技术方案
本发明关注上述的问题,因此本发明的目的是提供一种音频信号处理方法和设备,可通过使用一从编码器接收的上混参数(例如,一通道间相位差),上混一或多个缩混的通道信号为两个或多个通道信号。
本发明的另一目的是提供一音频信号处理方法和设备,它是如此配置,即当通道间相位差(IPD)从编码器收到相应的第一相位通道和第二相位通道间的相位差时,可使用IPD产生一总的相位差(OPD),总的相位差对应于第一相位通道和缩混信号间的相位差。
本发明的进一步目的是提供一音频信号处理方法和设备,可以应用权重,从一通道间相位差(IPD)中产生一总的相位差(OPD),以防止在第一相位通道(例如,左声道)和第二相位通道间(例如,右声道)间的相位差约为180°时,产生一错误。
本发明的另一目的是提供一音频信号处理方法和设备,可根据第一相位通道使用权重的水平,改变第一相位通道(例如,左声道)使用的第一权重的定义。
本发明的另一目的是提供一音频信号处理方法和设备,它在从一编码器中接收上混参数和一上混残余信号时,有选择的在一缩混信号上使用此上混参数和上混残余信号,因而通过差异化设置输出信号的信道数量,进行了可扩展的音频上混。
为了完成上述目标,本发明提供了一种音频信号处理方法,包括接收一缩混信号,接收通道间相位差(IPD)信息,通道间相位差信息对应于第一相位通道和第二相位通道间的相位差;接收一通道电平差(CLD),通道电平差对应于第一相位通道和第二相位通道间的电平差;判定了基于CLD的第一权重和第二权重的定义;基于已判定的定义,使用IPD计算第一权重和第二权重;以及产生总的相位差(OPD)信息,基于第一权重和第二权重,总的相位差信息对应于第一相位通道和缩混信号间的相位差。
本发明的音频信号处理方法可进一步包括:使用总的相位差(OPD)和缩混信号产生第一相位通道和第二相位通道。
本发明的定义包括一第一定义和一第二定义,其中根据IPD,当第一相位通道的电平值大于第二相位通道的电平值时,第一权重可大于第二权重。而根据IPD,当第二相位通道的电平值大于第一相位通道的电平值时,第二权重可大于第一权重。
本发明的另一目的是提供一音频信号处理设备,包括一多路分解单元,用于接收一缩混信号,接收一通道间相位差(IPD),通道间相位差对应于第一相位通道和第二相位通道间的相位差,以及接收一通道电平差(CLD),通道电平差对应于第一相位通道和第二相位通道间的电平差;一权重定义判定单元,用于判定基于通道电平差的第一权重和第二权重间的定义;一权重产生单元,用于基于定义使用IPD计算第一权重和第二权重;以及一总的相位差(OPD)产生单元,用于基于第一权重和第二权重,产生OPD信息,OPD信息对应于第一相位通道和缩混信号间的相位差。
本发明的装置可进一步包括一OPD应用单元,用于使用OPD和缩混信号,产生第一相位通道和第二相位通道。
本发明的定义包括一第一定义和一第二定义,其中根据IPD,当第一相位通道的电平值大于第二相位通道的电平值时,第一权重可大于第二权重。而根据IPD,当第二相位通道的电平值大于第一相位通道的电平值时,第二权重可大于第一权重。
本发明的另一目的是提供一音频信号处理方法,包括接收一缩混信号,接收一通道间相位差(IPD),通道间相位差对应于第一相位通道和第二相位通道间的相位差;接收一通道电平差,通道电平差对应于第一相位通道和第二相位通道间的电平差;计算一应用于第一相位通道的第一权重,以及计算一应用于第二相位通道的第二权重;基于通道电平差,判定一第一相位通道和缩混信号之和的定义;以及产生总的相位差(OPD)信息,根据之前总和的定义,基于第一权重和第二权重,总的相位差信息对应于第一相位通道和缩混信号间的相位差。
本发明的方法可进一步包括,使用OPD和缩混信号,产生第一相位通道和第二相位通道。
本发明的总和定义可包括一第一总和定义和一第二总和定义,其中根据IPD,当第一相位通道的电平值大于第二相位通道的电平值时,在第一总和定义中的第一权重可大于第二权重。而根据IPD,当第二相位通道的电平值大于第一相位通道的电平值时,在第二总和定义中的第二权重可大于第一权重。
本发明的另一目的是提供一音频信号处理方法,包括接收一缩混信号,接收一或多个上混参数和一上混残余信号;当收到上混参数是,对缩混信号使用此上混参数,因而产生了M参数输出通道;当收到上混参数和一上混残余信号时,对缩混信号使用此上混参数和上混残余信号,因而产生了N离散输出通道。
有益效果
本发明提供了以下的有益效果。
首先,既然一缩混信号可以通过使用上混参数,上混为5.1通道或更多通道的多通道信号,因而相对于多通道信号编码没有变化,此方法的比特效率提高了。
其次,既然扬声器设置为单声道或立体声格式,当缩混信号在不需一上混步骤时,没有必要在一5.1通道或更多通道的信号被重建后缩混一重建的多通道信号,因而减少了计算负荷和复杂性。
第三,既然基于一通道间相位差(IPD),可计算总的相位差(OPD),因此不需要单独的传输OPD,因而减少了比特数量。
第四,在为了上混而产生一OPD时,使用了权重,因而当在第一相位通道和第二相位通道间间的相位差约为180°时,减少了发生的破坏性的干涉效果。
第五,如果在第一相位通道的电平较低的情况下使用较高的权重,可防止增加的失真的现象。
第六,一解码单元具有一可扩展结构,因此根据独立设备的扬声器设置,比特流的解码电平为差异化的设置,因而不仅增加了比特效率,而且减少了计算负荷和复杂性。
附图说明
图1是一示意图,根据图像(UHDTV和HDTV)的尺寸,显示了在相同的视距内的视角;
图2是一示意图,作为一多通道实例显示了22.2个通道的扬声器的分配;
图3是一示意图,显示了一缩混多通道信号的步骤;
根据本发明的一实施例,图4是一示意图,显示了解码器的配置。
图5说明了图4的输出通道产生单元120的第一实施例;
图6说明了图4的输出通道产生单元120的第二实施例;
图7说明了图4的输出通道产生单元120的第三实施例;
图8是一详细的示意图,显示了图5至图7的上混单元122的实施例;
图9是一示意图,显示了由相位差引起的失真现象;
根据本发明的另一实施例,图10是一示意图,显示了一编码器和解码器的配置;以及
根据本发明的一实施例,图11是一产品的示意配置图,其中使用了一音频信号处理设备。
具体实施例
在下文中,本发明的优选的实施例将会结合附图进行详细的描述。在此之前,应当注意文中使用的术语和单词及权利要求不应当翻译成限定于普通的含义或词典的定义,并且应当理解,本发明具有的含义和概念中的技术精髓,是基于发明者能恰当的定义术语的概念原则的基础上的,以便更好的描述他或她的发明。因而,文中描述的实施例和附图中说明的配置并不是优选的例子,并且没有完全的展现本发明的技术精神。因此,在本发明申请的同时,还会有不同的等同物和修改替代此实施例和配置。
本发明的术语可以基于以下标准翻译,并且即使未在本文中描述的术语,也可以根据下述要点翻译。根据语境,代码可翻译成编码或解码,而信息是一术语,包含值,参数,系数,元素等,并可依据语境翻译,但是本发明并不仅限于上述含义。
图1是一示意图,根据图像(例如,超高清电视(UHDTV)和高清晰度电视(HDTV))的尺寸,显示了在相同的视距内的视角。随着显示器的产品技术的发展和消费者需求的增加,图像的尺寸呈一增长趋势。如图1所示,一幅UHDTV图像(7680*4320像素图像)的尺寸比一幅HDTV图像(1920*1080像素图像)的尺寸大约大16倍。当一HDTV安装于起居室的墙面上,而观看者以一预设的视距坐在沙发上时,视角可以为30°。然而,当一UHDTV以相同视距安装时,视角可达到100°。这样,当安装一高质量的和高分辨率的屏幕时,优选的提供高真实感的和高还原性的声音,以便与大尺寸的视频相一致。为提供这样一种环境,以便让观察者有身临其境的感觉,只提供一或两个环绕的通道扬声器时不够的。因而,需要一种多通道音频环境,具有大量的扬声器和通道。
如上所述,除了一家庭影院外,可能的环境还有,一个人3D TV,一智能电话TV,一22.2通道音频程序,一传播媒介,一3D视频,一远程呈现室,基于云的游戏,等。
图2是一示意图,显示了一多通道环境实例,其中说明了22.2通道扬声器的配置。22.2通道可以是一多通道环境的实例,用于提高声场效果,并且本发明并不仅限于特定数据的通道或特定的扬声器分配。参考图2,可以为顶层提供总共9条通道。也就是,可看到总共设置了9个扬声器,3个设置于顶部前端,3个设置于顶部中间,3个设置于顶部后端。在中间层,5个扬声器可设置于前端,2个设置侧边位置,3个设置于后端。在前端的5个扬声器中间,中间3个扬声器可以包括在TV显示屏内。在底层,在前部位置可安装3个通道和2个低频效果(LFE)通道。
这样,在传输和再生产一至多数十个通道的多通道信号时,可能需要一高计算负荷。进一步的,考虑到通信环境等,也可能需要高压缩率。此外,在标准的家庭中,一多通道的(例如,22.2通道)扬声器环境并不是经常拥有的,并且许多听众具有2通道或5.1通道设备。因而,在信号被各自的解码为一多通道信号后,以普通方式传输至所有用户的信号被发送出去的情况下,当多通道信号必须被转换回2通道和5.1通道信号时,无效的通信发生了。此外,22.2通道脉冲编码调制(PCM)信号必须被存储,因而可能进行了无效的内存管理。
因而,在一缩混步骤执行后(M-N缩混),而非各自的编码和传输多通道的信号后(总共M个通道,代表输入的通道数),可以传输一缩混信号至一解码器。缩混步骤用于把通道的数量减少至更小的数量(N个通道,代表输入的通道数)。解码器可以接收缩混信号,并毫无改变的再生缩混信号,或者可使用从缩混步骤中抽取的信息,从缩混信号中产生一些通道信号,其中通道信号的数量同原始信号的数量相同。
图3是一示意图,显示了一步骤,用于缩混一多通道信号。根据由编码器定义的树形结构,多通道信号可以缩混。一缩混步骤可以在5.1通道信号为一多通道信号例子的情况下使用。然而,本发明并不仅限于一特定的树形结构或特定的输入通道数量,并且一多通道信号可以是一22.2通道信号。进一步的,虽然缩混信号的通道(N通道)可以作为一单声道或立体声信号的例子在图3中使用,应当注意,只要通道的N数目小于输入通道的M数目,通道可以在任何情况下自由使用(5.1通道或诸如此类)。
参考图3,一左声道,一右声道,一中央声道,一环绕左声道,以及一环绕右声道,可以成为一多通道配置或是其中的一部分。中央声道被测量权重,并且随后被单独的分配给左声道和右声道。此外,当环绕左声道和环绕右声道出现时,它们可能被测量权重并随后被分别的纳入左声道和右声道。其结果是,产生一总的左声道(Lt/Lo)和一总的右声道(Rt/Ro),并且它们可以互相混合以产生一单声道信号。
同时,在缩混步骤中,由于反相信号间的相消干扰,可能产生信号质量恶化的问题。具体的,当缩混以简单获得临近通道的总和的方式进行时,具有不同相位的相同信号很有可能被随之求和。在此步骤中,放大效应或衰减效应在一些信号中发生,因此会产生相关的失真结果。进一步的,当缩混只是简单的通过在顶层或底层添加通道至中间层来进行时,实际上无法达到需要的声音的场景。
这样的话,信号缩混入一单声道或立体声信号或类似信号可以通过一解码器上混至一5.1通道或更多通道的多通道信号。如上所述,虽然在缩混步骤中声音质量可以由于相消干扰效果而恶化,此类恶化可以在上混步骤中进行处理。这个步骤将会在有关图4中描述。
根据本发明的实施例,图4显示了一解码器的配置。参考图4,解码器包括一信号分离器110和一输出通道产生单元120。信号分离器110从解码器接收一音频比特流,并从比特流中抽取一缩混信号DMX和一上混参数UP。当然,缩混信号和上混参数可以通过分开的独立音频信号比特流,而非单个比特流接收。
输出通道产生单元120可以通过对接收的缩混信号DMX使用上混参数UP,产生一多通道信号(对应于N个通道)。如上所述,多通道信号具有比缩混信号的M个通道更多的通道,并可以是一5.1通道或22.2通道的信号。多通道信号的N个通道数可以等于编码器的输入通道数,但根据情况,也可能不相等。
这里,上混参数UP可包括一空间参数和通道间相位差(IPD)信息。空间参数可包括通道电平差(CLD),并可进一步的包括通道间相干性(相关性)(ICC)。当两个通道(第一通道和第二通道)通过一单个一拖二(OTT)盒子缩混成一单通道(第一输出通道)时,通道电平差(CLD)为第一输入通道和第二输入通道间的电平差,并且ICC为第一输入通道和第二输入通道间的相关性。
同时,通道间相位差(IPD)信息可以是一IPD本身,或者是一通过量化或编码IPD所得的数值。信号分离器110从接收的IPD信息中获取一IPD。这里,IPD对应于第一输入通道和第二输入通道间的相位差。第一输入通道和第二输入通道也可以视为第一相位通道和第二相位通道。
这样,通过一或多个上混单元对缩混信号使用上混参数UP,输出通道产生单元120可产生多通道的输出通道信号。输出通道产生单元120不同的实施例120A,120B,120C将会在下面相关的图5至图7中描述。
图5至图7说明了图4的输出通道产生单元120的第一实施例120A至第三实施例120B。首先,参考图5,第一实施例的输出通道产生单元120A包括一单个上混单元122。通过对一单个输入信号使用一上混参数UP,上混单元122产生一第一相位通道P1和一第二相位通道P2。这里,输入信号可以是一接收的缩混信号本身,或是一涵盖在一缩混信号内的单个通道信号。这里,上混参数UP可包含一通道间相位差(IPD)和一通道电平差(CLD)。同时,如120A.1中的实施例所示,一输入信号可以被一去相关器D去相关,并且随后输入信号和去相关信号可被输入上混单元122。
同时,上混单元122可把通道间相位差(IPD)转换为总的相位差(OPD),并对输入信号使用此OPD。这里,OPD对应于第一相位通道和缩混信号间的相位差(或是第一相位通道和输入信号间的相位差)。上混单元122的详细描述将会在之后的相关图8中描述。
参考图6,根据第二实施例,可知晓输出通道产生单元120B的配置。输出通道产生单元120B包括两个上混单元122,它们以平行配置。通过对输入信号1使用一上混参数UP,第一上混单元122.1产生一第一相位通道P1和一第二相位通道P2,其中输入信号1可以是缩混信号的一部分。例如,当缩混信号是一立体声信号,输入信号1可以是一左声道信号。通过对输入信号2使用一上混参数UP,第二上混单元122.2产生一第三相位通道P3和一第四相位通道P4。当缩混信号是一立体声信号时,输入信号2可以是一右声道信号。
类似的,第一上混单元122.1和第二上混单元122.2的详细配置可以在之后的关于图8中描述。
参考图7,根据第三实施例,可知晓输出通道产生单元120C的配置。在输出通道产生单元120C中,三个上混单元122可分层排列。第一上混单元122.1输出的第一相位通道P1和第二相位通道P2分别作为输入通道作用于第二上混单元122.2和第三上混单元122.3。第一上混单元122.1可执行几乎同第一实施例中的上混单元相同的功能。通过对第一相位通道P1使用上混参数UP,第二上混单元122.2产生一第三相位通道P3和一第四相位通道P4,并且通过对第二相位通道P2使用上混参数UP,第三上混单元122.3产生一第五相位通道P5和一第六相位通道P6。
除了第一至第三实施例中的输出通道产生单元120A至120C,多个上混单元122可进行并联或串联,并可配置成不同的树形结构,但本发明并不仅限于特定的树形结构。
以下,将会描述实施例中的一或多个上混单元122的详细配置。
图8是一详细的配置图,显示了图5至图7的上混单元122的实施例。上混单元122把通道间相位差(IPD)信息转换为总的相位差(OPD),对OPD使用一空间参数,并随后从一或多个通道中产生两个或更多的通道信号。参考图8,上混单元122包括一权重定义判定单元122a,一权重产生单元122b,一OPD产生单元122c,以及一IPD应用单元122d。
图9中描述了由一相位差引起的有害的失真现象。参考图9,图中说明了在一单声道信号和左声道和右声道间的相位。图9(A)显示了当一左声道信号和一右声道信号只是简单的求和,以产生一单声道信号时的相位差,如下列方程式1所示:
[方程式1]
其中s表示一单声道信号,l表示一左声道信号,r表示一右声道信号。
如图9(A)所示,在一单声道信号s的矢量指示和一左声道信号l的矢量指示间的角度为总的相位差(OPD)。一左声道信号l的矢量指示和一右声道信号r的矢量指示间的角度为通道间相位差(IPD)。在图9A中,虽然IPD小于90°,单声道信号(s=1/2*(l+f))放大效应发生了,因此可看到单声道信号的量级变得比那些原始的左声道和右声道大。然而,通道间相位差(IPD)为大约180°时,会产生一衰减效应,使得单声道信号的s的量级大约为0,而无论原始的左声道和右声道的量级如何。其中单声道信号s为左声道信号和右声道信号的矢量之和。
为了解决此项问题,如图9(B)所示,通过向各自的信号使用权重w1和w2,使用了生成一总和信号的定义,以替代方程式1的定义。此定义如下所示:
[方程式2]
s=w1l+w2r
其中s表示一缩混信号(或是一输入通道信号),l表示一第一相位通道信号(或是一左声道信号),r表示一第二相位通道信号(或是一右声道信号),w1表示适用于第一相位通道信号的第一权重,w2表示适用于第二相位通道信号的第二权重。
第一权重w1和第二权重w2是用于有选择的增加第一相位通道l和第二相位通道信号r的数值。更具体的说,考虑到基于一通道电平差(CLD)的第一相位通道l和第二相位通道信号r的相对电平,第一权重和第二权重是如此使用,以便于更高的权重被分配至一具有更高电平的信号。
这样,有选择的增加第一相位通道l和第二相位通道信号r的理由为,如果一较高的权重被应用于一信号,此信号具有第一相位通道l和第二相位通道r的一低电平,与权重被使用之前相比较,错误被大大的增加了。因而,一较高的权重被应用于一信号,此信号具有第一相位通道和第二相位通道的一高电平。
第一权重和第二权重可以以下方程式表达:
[方程式3]
第一定义:
第二定义:
其中
其中第一权重w1和第二权重w2是第一定义和第二定义。
参考方程式3,权重的定义需要分别衡量第一相位通道和第二相位通道,并包括第一定义和第二定义,它们根据通道电平差(CLD)被有选择的使用。根据本发明的一实施例,当第一相位通道的通道电平值大于(或大于等于)第二相位通道的通道电平值时,第一定义可以被使用,然而当第一相位通道的通道电平值小于等于(或小于)第二相位通道的通道电平值时,第二定义可以被使用。也就是说,在上述方程式中定义的CLD大于(或大于等于)0时,第一定义可以被使用,然而当CLD小于等于(或小于)0时,第二定义可以被使用。同时,根据本发明的另一实施例,当第一相位通道的通道电平值大于预设值时,第一定义可以被使用,然而第一相位通道的通道电平值小于等于预设值时,第二定义可以被使用。
基于上述的定语,图8中显示的上混单元122的详细配置将会在如下描述。
权重定义判定单元122a选择了一定义,用于基于在上混参数UP的空间参数中的一通道电平差(CLD),判定第一相位通道P1的第一权重w1和第二相位通道P2的第二权重w2。更具体的说,通道电平差(CLD)表示了第一相位通道和第二相位通道间的电平差。因而,如果考虑CLD的话,可判定第一和第二相位通道中的哪个信号具有一高电平。如果第一相位通道具有更高的电平值,权重定义判定单元122a可选择第一定义,以便于第一权重w1的值高于第二权重w2的值。相反的,当第二相位通道的能量更高时,权重定义判定单元122a可选择第二定义,以便于第二权重w2的值高于第一权重w1的值。
当权重定义判定单元122a选择第一定义时,根据第一定义,权重产生单元122b可计算第一权重和第二权重。也就是说,根据方程式3的第一定义,可以计算第一权重和第二权重。同时,当权重定义判定单元122a选择第二定义时,根据第二定义,权重产生单元122b可计算第一权重和第二权重。也就是说,根据方程式3的第二定义,可以计算第一权重和第二权重。如方程式3所示,可使用一通道间相关性(ICC)和一通道间相位差(IPD)。
当第一权重和第二权重依据第一定义计算时,随着IPD的值靠近180°,第一权重的值可增加。相反的,当第一权重和第二权重依据第二定义计算时,随着IPD的值靠近180°,第二权重的值可增加。
如上所述,根据CLD的值,可有选择的使用第一定义和第二定义,以便于一更高的权重应用于一通道,通道具有第一相位通道和第二相位通道的更高的电平值。根据本发明的实施例,随着IPD的值靠近180°,权重值对应的一信号可被设置一较高值,其中信号具有第一相位通道和第二相位通道的更高的电平值。
这样,当第一权重和第二权重通过重量产生单元122b产生时,基于第一权重和第二权重,OPD产生单元122c把IPD转换成OPD。一旦判定了第一权重和第二权重,基于方程式2,缩混信号和第一相位通道信号的关系就确定了。随后,虽然OPD是缩混信号和第一相位通道间的相位差,IPD可转换为OPD。
更具体的说,IPD和OPD间的关系表达的例子如以下方程式所示:
[方程式3]
其中
根据等式4,CLD和IPD可以额外的用于计算OPD。
随后,基于OPD,OPD应用单元122d从一输入信号(或一缩混信号)产生了第一相位通道P1和第二相位通道P2。既然通过对一信号使用OPD产生了两个通道,执行了一上混步骤,用于增加通道数量。
同时,根据本发明的另一实施例,如上面的方程式3所述,替代判定第一权重和第二权重的定义的是,总和信号s(缩混信号)和相位信号间的关系定义可由下列方程式判定:
[方程式5]
第一总和:s=w1l+w2r
第二总和:s=w2l+w1r
其中
也就是说,根据方程式5的实施例,虽然第一权重w1和第二权重w2等于方程式3的那些权重,任何一第一总和和第二总和可以根据CLD判定为总和信号s。根据本发明的实施例,当第一相位通道l的通道电平值大于(或大于等于)第二相位通道r的通道电平值时,第一总和可以判定为总和信号s。然而,当第一相位通道l的通道电平值小于等于(或小于)第二相位通道r的通道电平值时,第二总和可以判定为总和信号s。同时,根据本发明的另一实施例,当第一相位通道l的通道电平值大于预设值时,第一总和可以判定为总和信号s。然而,当第一相位通道l的通道电平值小于等于预设值时,第二总和可以判定为总和信号s。因而,即使在方程式5的实施例中,当第一相位通道的电平值大于第二相位通道的电平值时,第一相位通道可应用一更高的权重。而当第二相位通道的电平值大于第一相位通道的电平值时,第二相位通道可应用一更高的权重。
如之前所述,本发明的一种方法,基于已判定的总和信号s,上混单元122产生了第一相位通道和第二相位通道。也就是说,基于方程式5和第一和第二权重w1和w2中确定的总和定义,上混单元122可产生总的相位差(OPD)信息。进一步的,通过使用OPD,上混单元122可从缩混信号s中产生第一相位通道和第二相位通道,而完成上混。
根据本发明的实施例,当上混单元产生需要的OPD以增加通道数时,在通道间的相位差接近180°时发生的有害干涉效应可能会减少。此外,当一高权重应用至一信号,信号具有第一相位通道和第二相位通道的低通道电平时发生的失真现象可能会减少。
根据本发明的另一实施例,图10是一示意图,显示了编码器和解码器的配置。图10说明了在解码器的扬声器设置不同时,可扩展编码的结构。
一编码器包括一缩混单元210,一解码器包括一或多个第一至第三解码单元230至250,以及一多路分解单元220。
通过下混一对应于一多通道信号的输入信号CH_N,缩混单元210产生了一缩混信号DMX。在此步骤中,产生了一或多个缩混参数UP和上混残留信号UR。随后,缩混信号DMX和上混参数UP(和上混残留信号UR)被多路复用,因而产生了一或多个比特流,比特流被传送至解码器。
这里,上混参数UP是一需要上混一或多个通道至两个或更多通道的参数,如上面的本发明的实施例所述,它可以包括一空间参数,一通道间相位差(IPD)等。
进一步的,上混残留信号UR是一残留信号,它是输入信号CH_N间的偏差,其中输入信号是一原始信号和一重建信号。这里,重建信号可以是通过对缩混信号使用上混参数UP而得的上混信号,也可以是通过编码一通道而得的信号,其中通道并未以离散编码方式通过缩混单元210缩混而得。
解码器的多路分解单元220可从一或多个比特流中抽取缩混信号DMX和上混参数UP,并可进一步抽取上混残留信号UR。
根据扬声器的设置环境,解码器可有选择的包括一(或是一或多个)第一解码单元230至第三解码单元250。根据设备的类型(智能电话,立体声电视,5.1通道家庭影院,22.2通道家庭影院等),扬声器的设置环境可有所不同。尽管环境不同,除非比特流和解码器有选择的产生一多通道信号,比如一22.2通道信号,所有的对应22.2通道的信号被重建,并随后依据扬声器的运行环境进行缩混。在此情况下,不仅需要高计算负荷的重建和缩混,也会引起一延迟。
然而,根据本发明的一实施例,根据每个设备的设置环境,解码器有选择的包括一(一或多个)第一至第三解码单元,因而克服了上述缺点。
第一解码单元230是一组件,只是用于解码一缩混信号DMX,并不随着通道数量而增加。也就是说,当一缩混信号是一单声道信号时,第一解码单元230输出一单声道信号,而当一缩混信号是一立体声信号时,输出一立体声信号。第一解码单元230可适合于一设备,一智能手机,或电视,只要它们装备了扬声器通道为一或两个的耳机。
同时,第二解码单元240收到了缩混信号DMX和上混参数UP,并产生了M个参数通道(PM)。相对于第一解码单元230,第二解码单元240增加了输出的通道数。然而,当上混参数UP只包含对应上混一总共M个通道的参数时,第二解码单元240可输出M个通道信号,其中通道数目M不会达到原始通道N的数目。例如,当原始的解码器输入信号为22.2通道信号时,M个通道可以被5.1通道,7.1通道,等。
第三解码单元250不仅只收到一缩混信号DMX和一上混参数UP,也收到一上混残留信号UR。和第二解码单元240产生M个参数通道不同,除了参数通道外,第三解码单元250额外的使用了上混残留信号UR,因而输出了N个通道的重建信号。
每个设备有选择的包括一或多个第一至第三解码单元,并有选择的从比特流中解析一上混参数UP和一上混残留信号UR,以便于立即产生适合于各种扬声器环境的信号,因而减少了复杂度和计算负荷。
根据本发明的一实施例,图11是一示意图,显示了声频信号处理设备产品间的运行关系。参考图11,一有线/无线通信单元310以一种有线/无线通信方式接收比特流。更具体的说,有线/无线通信单元310可包括一或多个有线通信单元310A,一红外通信单元310B,一蓝牙单元310C,以及一无线的局域网(LAN)通信单元310D。
一用户鉴权单元320接收了用户信息并鉴定一用户,并可包括一或多个指纹识别单元320A,一虹膜识别单元320B,一脸部识别单元320C,以及一语音识别单元320D,它们分别接收指纹信息,虹膜信息,脸部轮廓信息和语音信息,把这些信息转换为用户信息,并判定用户是否匹配之前注册的用户数据,因而执行用户鉴权。
输入单元330是一输入设备,用户允许用户输入不同类型的命令,并可包括,但不仅限于一或多个小型按键单元330A,一触摸板单元330B,和一远端控制单元330C。
信号编码单元340通过有线/无线通信单元310接收,在音频信号和/或视频信号上执行编码或解码功能,并以时域方式输出音频信号。信号编码单元340可包括一音频信号处理设备345。在此情况下,音频信号处理设备345对应于上面描述的实施例(根据一实施例为解码器100,根据另一实施例为编码器/解码器200),并且如此一音频信号处理设备345和信号编码单元340包括使用一或多个处理器的设备。
控制单元350从输入设备接收输入信号,并控制信号编码单元340和输出单元360的所有处理。输出单元360是一组件,用于输出通过信号编码单元340产生的输出信号,并可包括一扬声器单元360A和一显示单元360B。当输出信号为音频信号时,它们通过扬声器单元输出,反之当输出信号为视频信号时,它们通过显示器单元输出。
本发明的音频信号处理方法可产生于一程序,用于在一计算机上运行,并存储于一计算机可读的存储媒介。本发明的具有一数据结构的多媒体数据也可存储于一计算机可读的存储媒介。计算机可读的记录媒介包括所有类型的依赖计算机系统的可读存储设备。计算机可读的存储媒介的实例包括只读存储器(ROM),随机存储器(RAM),光盘(CD-ROM),磁带,软盘,光数据存储设备等,并可包括载波形式的存储(例如,通过Internet的传输)。进一步的,编码方法产生的比特流可存储在计算机可读的媒体中或可通过有线/无线通信网络传输。
如上所述,虽然本发明描述了有限的实施例和附图,显而易见的是,本发明并不仅限于这些实施例和附图,并且本发明可被本领域的技术人员以不同的方式进行修改和改变,这些修改和改变并不背离本发明技术精神和附属权利要求的相等属性。
发明模式
如上所述,实行本发明的相关内容的最佳模式已经被详述过了。
工业应用
本发明可用于音频信号的编码和解码。
Claims (4)
1.一种音频信号处理方法,包括:
接收一缩混信号;
接收通道间相位差(IPD)信息,所述通道间相位差信息对应于第一相位通道和第二相位通道间的相位差;
接收一通道电平差(CLD),所述通道电平差对应于第一相位通道和第二相位通道间的电平差;
判定基于CLD的第一权重和第二权重的定义,其中所述第一权重应用于第一相位通道,所述第二权重应用于第二相位通道;
使用已判定的定义和IPD,计算第一权重和第二权重;
产生总的相位差(OPD)信息,基于第一权重和第二权重,总的相位差信息对应于第一相位通道和缩混信号间的相位差。
2.如权利要求1所述的音频信号处理方法,进一步包括,使用总的相位差(OPD)信息和缩混信号,产生第一相位通道和第二相位通道间。
3.如权利要求1所述的音频信号处理方法,其特征在于:
所述定义包括一第一定义,其中所述第一权重大于等于所述第二权重,以及一第二定义,其中所述第一权重小于等于所述第二权重,以及
基于所述CLD,所述判定设置成:
当所述第一相位通道的电平值大于所述第二相位通道的电平值时,选择所述第一定义,以及
当所述第二相位通道的电平值大于所述第一相位通道的电平值时,选择所述第二定义。
4.一种音频信号处理装置,包括:
一多路分解单元,用于接收一缩混信号,接收一通道间相位差(IPD)信息,所述通道间相位差信息对应于第一相位通道和第二相位通道间的相位差,以及接收一通道电平差(CLD),所述通道电平差对应于第一相位通道和第二相位通道间的电平差;
一权重定义判定单元,用于基于CLD判定第一权重和第二权重的定义,其中第一权重应用于第一相位通道,第二权重应用于第二相位通道;
一权重产生单元,用于使用判定的定义和IPD,计算第一权重和第二权重;以及
一总的相位差(OPD)产生单元,用于基于第一权重和第二权重产生OPD信息,其中OPD信息对应于第一相位通道和缩混信号间的相位差。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2012-0084206 | 2012-07-31 | ||
KR20120084206A KR20140016780A (ko) | 2012-07-31 | 2012-07-31 | 오디오 신호 처리 방법 및 장치 |
PCT/KR2013/006729 WO2014021586A1 (ko) | 2012-07-31 | 2013-07-26 | 오디오 신호 처리 방법 및 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104509131A true CN104509131A (zh) | 2015-04-08 |
Family
ID=50028213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380038930.XA Pending CN104509131A (zh) | 2012-07-31 | 2013-07-26 | 一种用于处理音频信号的方法和设备 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20150179180A1 (zh) |
EP (1) | EP2863658A4 (zh) |
JP (1) | JP2015529046A (zh) |
KR (1) | KR20140016780A (zh) |
CN (1) | CN104509131A (zh) |
WO (1) | WO2014021586A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105407443A (zh) * | 2015-10-29 | 2016-03-16 | 小米科技有限责任公司 | 录音方法及装置 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9679571B2 (en) | 2013-04-10 | 2017-06-13 | Electronics And Telecommunications Research Institute | Encoder and encoding method for multi-channel signal, and decoder and decoding method for multi-channel signal |
JP2015152437A (ja) * | 2014-02-14 | 2015-08-24 | 株式会社デンソー | 車両用ナビゲーション装置 |
US20180098150A1 (en) * | 2016-10-03 | 2018-04-05 | Blackfire Research Corporation | Multichannel audio interception and redirection for multimedia devices |
US9820073B1 (en) | 2017-05-10 | 2017-11-14 | Tls Corp. | Extracting a common signal from multiple audio signals |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006113294A (ja) * | 2004-10-14 | 2006-04-27 | Matsushita Electric Ind Co Ltd | 音響信号符号化装置及び音響信号復号装置 |
US20120035940A1 (en) * | 2010-08-06 | 2012-02-09 | Samsung Electronics Co., Ltd. | Audio signal processing method, encoding apparatus therefor, and decoding apparatus therefor |
CN102577384A (zh) * | 2009-10-23 | 2012-07-11 | 三星电子株式会社 | 用相位信息和残差信息进行编码/解码的设备和方法 |
CN102598122A (zh) * | 2009-11-12 | 2012-07-18 | 皇家飞利浦电子股份有限公司 | 参量编码和解码 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7006636B2 (en) * | 2002-05-24 | 2006-02-28 | Agere Systems Inc. | Coherence-based audio coding and synthesis |
CN102122509B (zh) * | 2004-04-05 | 2016-03-23 | 皇家飞利浦电子股份有限公司 | 多信道解码器和多信道解码方法 |
US8666752B2 (en) * | 2009-03-18 | 2014-03-04 | Samsung Electronics Co., Ltd. | Apparatus and method for encoding and decoding multi-channel signal |
KR101613975B1 (ko) * | 2009-08-18 | 2016-05-02 | 삼성전자주식회사 | 멀티 채널 오디오 신호의 부호화 방법 및 장치, 그 복호화 방법 및 장치 |
KR20110022252A (ko) * | 2009-08-27 | 2011-03-07 | 삼성전자주식회사 | 스테레오 오디오의 부호화, 복호화 방법 및 장치 |
CN103262159B (zh) * | 2010-10-05 | 2016-06-08 | 华为技术有限公司 | 用于对多声道音频信号进行编码/解码的方法和装置 |
-
2012
- 2012-07-31 KR KR20120084206A patent/KR20140016780A/ko not_active Application Discontinuation
-
2013
- 2013-07-26 JP JP2015523020A patent/JP2015529046A/ja not_active Ceased
- 2013-07-26 EP EP13826300.9A patent/EP2863658A4/en not_active Withdrawn
- 2013-07-26 US US14/414,934 patent/US20150179180A1/en not_active Abandoned
- 2013-07-26 WO PCT/KR2013/006729 patent/WO2014021586A1/ko active Application Filing
- 2013-07-26 CN CN201380038930.XA patent/CN104509131A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006113294A (ja) * | 2004-10-14 | 2006-04-27 | Matsushita Electric Ind Co Ltd | 音響信号符号化装置及び音響信号復号装置 |
CN102577384A (zh) * | 2009-10-23 | 2012-07-11 | 三星电子株式会社 | 用相位信息和残差信息进行编码/解码的设备和方法 |
CN102598122A (zh) * | 2009-11-12 | 2012-07-18 | 皇家飞利浦电子股份有限公司 | 参量编码和解码 |
US20120035940A1 (en) * | 2010-08-06 | 2012-02-09 | Samsung Electronics Co., Ltd. | Audio signal processing method, encoding apparatus therefor, and decoding apparatus therefor |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105407443A (zh) * | 2015-10-29 | 2016-03-16 | 小米科技有限责任公司 | 录音方法及装置 |
US9930467B2 (en) | 2015-10-29 | 2018-03-27 | Xiaomi Inc. | Sound recording method and device |
Also Published As
Publication number | Publication date |
---|---|
WO2014021586A1 (ko) | 2014-02-06 |
EP2863658A1 (en) | 2015-04-22 |
KR20140016780A (ko) | 2014-02-10 |
JP2015529046A (ja) | 2015-10-01 |
US20150179180A1 (en) | 2015-06-25 |
EP2863658A4 (en) | 2016-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112262585B (zh) | 环境立体声深度提取 | |
US10820134B2 (en) | Near-field binaural rendering | |
RU2431940C2 (ru) | Аппаратура и метод многоканального параметрического преобразования | |
CN102100088B (zh) | 用于使用基于对象的元数据产生音频输出信号的装置和方法 | |
EP2863657B1 (en) | Method and device for processing audio signal | |
CN105075293B (zh) | 音频设备及其音频提供方法 | |
Herre et al. | MPEG-H audio—the new standard for universal spatial/3D audio coding | |
Gerzon | General metatheory of auditory localisation | |
CN101356573B (zh) | 对双耳音频信号的解码的控制 | |
CN104054126A (zh) | 空间音频渲染和编码 | |
CN108683984B (zh) | 用于渲染声学信号的方法和设备 | |
CN104509131A (zh) | 一种用于处理音频信号的方法和设备 | |
Goodwin et al. | A frequency-domain framework for spatial audio coding based on universal spatial cues | |
US8041041B1 (en) | Method and system for providing stereo-channel based multi-channel audio coding | |
CN106105270A (zh) | 用于处理音频信号的系统和方法 | |
KR20140128567A (ko) | 위치기반 오디오 신호처리 방법 | |
Howie et al. | Subjective and objective evaluation of 9ch three-dimensional acoustic music recording techniques | |
KR101949756B1 (ko) | 오디오 신호 처리 방법 및 장치 | |
KR102059846B1 (ko) | 오디오 신호 처리 방법 및 장치 | |
Jot | Two-Channel Matrix Surround Encoding for Flexible Interactive 3-D Audio Reproduction | |
Schmele et al. | Layout remapping tool for multichannel audio productions | |
KR101949755B1 (ko) | 오디오 신호 처리 방법 및 장치 | |
Rumsey | Ambisonics comes of age | |
Cabrito | Subjective Evaluation of the Localization Performance of the Spherical Wavelet Format Compared to Ambisonics | |
KR20150111114A (ko) | 오디오 신호 처리 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150408 |