CN102550048A - 一种装置 - Google Patents
一种装置 Download PDFInfo
- Publication number
- CN102550048A CN102550048A CN2010800441131A CN201080044113A CN102550048A CN 102550048 A CN102550048 A CN 102550048A CN 2010800441131 A CN2010800441131 A CN 2010800441131A CN 201080044113 A CN201080044113 A CN 201080044113A CN 102550048 A CN102550048 A CN 102550048A
- Authority
- CN
- China
- Prior art keywords
- group
- audio
- difference
- audio signal
- audio signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/05—Generation or adaptation of centre channel in multi-channel audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/07—Synergistic effects of band splitting and sub-band processing
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Stereophonic System (AREA)
Abstract
一种装置,其包括至少一个处理器和至少一个存储器,所述存储器包括计算机程序代码。所述至少一个存储器和所述计算机程序代码被配置成,连同所述至少一个处理器,使得所述装置至少执行:对至少两个音频信号进行滤波以对每个音频信号生成至少两组音频分量;针对每组音频分量确定所述至少两个音频信号之间的差;以及,取决于针对每组音频分量的所述至少两个音频信号之间的所述差,通过选择性地组合针对每组音频分量的所述至少两个音频信号生成另外的音频信号。
Description
技术领域
本发明涉及用于处理音频信号的装置。本发明还涉及,但不限于,用于处理音频回放设备中的音频和语音信号的装置。
背景技术
近年来,音频渲染和声音虚拟化已成为了不断发展的领域。存在不同的回放技术,其中包括单声道、立体声回放,环绕5.1,多声道模拟立体声等。除回放技术之外,已设计出了装置或集成在装置内的信号处理或在最终回放装置之前执行的信号处理以允许在许多应用中创建虚拟声像,这些应用诸如音乐回放、电影声道、3D音频和游戏应用。
直到最近,用于音乐或电影的商业音频内容的标准为立体声音频信号生成。将来自不同的乐器、语音或话音以及创建声音场景的其它音频源的信号进行组合以形成立体声信号。市场上可购得的回放设备通常具有以适当的距离放置在收听者前方的两个扬声器。立体声渲染的目的限于在两个扬声器之间的位置处创建幻象声像,其被称为移位立体声(panned stereo)。同样的内容也可在便携式回放设备上播放,因为其依赖于头戴式耳机或使用2声道的耳塞。此外,尤其对于具有音频回放能力的便携式设备,对立体声拓展和3D音频应用的使用最近已变得更为流行。存在用于向用户提供空间感和3D音频内容的这些应用的各种技术。这些技术采用各种信号处理算法和滤波器。众所周知,空间音频的效果强于头戴式耳机回放。
现今,商业音频以5.1、7.1和10.1多声道内容自夸,其中使用5、7或10个声道生成环绕音频布景。图2中示出5.1多声道系统的示例,其中用户211被左前声道扬声器251、右前声道扬声器253、中央声道扬声器255、左环绕声道扬声器257和右环绕声道扬声器259环绕。可使用位于如图2中所示的圆周271上任意处的此类型的设置创建幻象声像。此外,多声道音频中的声道未必是唯一的。用于频率相关相移和量值修改之后的一个声道的音频信号可成为用于不同声道的音频信号。这在某种程度上有助于在收听者周围创建幻象音频源,从而产生环绕声体验。然而,这种装备较为昂贵,并且许多终端用户不具有用于重放多声道音频内容的多扬声器装备。为了能够在前代立体声回放系统上播放多声道音频信号,对多声道音频信号进行矩阵下混合(matrix downmix)。
下混合之后,不能再以其分量形式(每个分量为5.1中的每个声道)获得初始的多声道内容。来自5.1的所有声道存在于下混合立体声中。当通过头戴式耳机直接回放此类立体声信号时,幻象声像位于接合左耳和右耳的假想线上。此线被称为耳间轴,并且所述体验通常被称为头内感觉或偏侧性。
然而,在现实生活中,用户不能体验定位于其头内的音频源。作为这种不自然的回放方法的结果,通过头戴式耳机长时间地收听此形式的立体声音频将导致收听者疲劳。此外,即使将一些立体声拓展应用于移位立体声的两个声道,用户也只能感觉到有限的环绕感觉。
为了克服这种问题,首先对来自立体声信号的多声道信号进行再合成。这种再合成通常涉及立体声信号的上混合以提取附加的声道音频信号。特别地,中央声道提取较为重要,因为中央声道可能是语音/声音音频信号、特定乐器或其两者。
继而,可将这些提取的音频信号中的每个音频信号虚拟化为不同的虚拟位置。虚拟器通常在信号被发送到头戴式耳机扬声器之前向其引入频率相关相对延时和放大或衰减。对典型虚拟化的引入将使某些源从中平面移出,其中在所述中平面内,用户丝毫不能控制这些源的音量的高低。
例如,用户可能对歌手所在的中央舞台、而不是观众所在的非中央舞台感兴趣,并且由于来自观众的背景噪声,立体声音频信号可能很容易掩盖歌手的关键部分。
相对于音频场景中其余的源,看起来源自中央的源通常可处于较高或较低的音频电平。收听者通常丝毫不能控制此电平,并且取决于其知觉偏好,通常希望放大或衰减这些中央源。此特点的缺乏通常导致较差的音频体验。
发明内容
本发明出自对于中央声道提取的现有技术解决方案无法产生优质的中央声道音频信号这一问题的考虑。因此,对中央声道音频信号的收听产生较差的收听体验。此外,当被虚拟化时,劣质的中央声道音频信号产生劣质的收听体验。
本发明的实施例旨在解决上述问题。
根据本发明的第一方面,提供了一种方法,其包括:对至少两个音频信号进行滤波以对每个音频信号生成至少两组音频分量;针对每组音频分量确定所述至少两个音频信号之间的差;以及取决于针对每组音频分量的所述至少两个音频信号之间的所述差,通过选择性地组合针对每组音频分量的所述至少两个音频信号生成另外的音频信号。
对所述至少两个音频信号进行滤波可包括将所述至少两个音频信号滤波成下列各项中的至少一个:重叠频率范围组;邻接频率范围组;线性间隔频率范围组;以及非线性间隔频率范围组。
确定所述至少两个音频信号之间的所述差可包括:确定针对频率范围低于频率阈值的第一组的第一差;以及确定针对频率范围高于所述频率阈值的第二组的第二差。
所述差可包括下列各项中的至少一个:耳间电平差值;耳间相位差值;以及耳间时间差值。
选择性地组合针对每组音频分量的所述至少两个音频信号可进一步包括:
通过将针对所述音频分量组的所述至少两个音频信号之间的所述差与针对所述组的至少一个差阈进行比较,为每组音频分量关联增益函数;将针对所述组的每个音频信号乘以针对所述组的关联的增益值;以及将针对所述组的所述音频信号与针对所述组的所述关联的增益值的乘积进行组合。
关联增益函数可进一步包括:将针对每组音频分量的第一增益函数与小于第一差阈的差进行关联;将针对每组音频分量的第二增益函数与大于或等于第一差阈且小于第二差阈的差进行关联;将针对每组音频分量的第三增益函数与大于或等于第二差阈的差进行关联。
所述方法可进一步包括取决于下列各项中的至少一个来确定所述至少一个差阈:测量的头部相关传递函数;测量的头部相关脉冲响应;选择的头部相关传递函数;选择的头部相关脉冲响应;修改的头部相关传递函数;以及修改的头部相关脉冲响应。
根据本发明的第二方面,提供了一种装置,其包括至少一个处理器和至少一个存储器,所述存储器包括计算机程序代码,所述至少一个存储器和所述计算机程序代码被配置成,连同所述至少一个处理器,使得所述装置至少执行:对至少两个音频信号进行滤波以对每个音频信号生成至少两组音频分量;针对每组音频分量确定所述至少两个音频信号之间的差;以及取决于针对每组音频分量的所述至少两个音频信号之间的所述差,通过选择性地组合针对每组音频分量的所述至少两个音频信号生成另外的音频信号。
对所述至少两个音频信号进行滤波可使得所述装置至少执行将所述至少两个音频信号滤波成下列各项中的至少一个:重叠频率范围组;邻接频率范围组;线性间隔频率范围组;以及非线性间隔频率范围组。
确定所述至少两个音频信号之间的差可使得所述装置至少执行:确定针对频率范围低于频率阈值的第一组的第一差;以及确定针对频率范围高于所述频率阈值的第二组的第二差。
所述差可包括下列各项中的至少一个:耳间电平差值;耳间相位差值;以及耳间时间差值。
选择性地组合针对每组音频分量的所述至少两个音频信号可使得所述装置至少执行:通过将针对所述音频分量组的所述至少两个音频信号之间的所述差与针对所述组的至少一个差阈进行比较,为每组音频分量关联增益函数;将针对所述组的每个音频信号乘以针对所述组的关联的增益值;以及将针对所述组的所述音频信号与针对所述组的所述关联的增益值的乘积进行组合。
关联增益函数可进一步使得所述装置至少执行:将针对每组音频分量的第一增益函数与小于第一差阈的差进行关联;将针对每组音频分量的第二增益函数与大于或等于第一差阈且小于第二差阈的差进行关联;以及将针对每组音频分量的第三增益函数与大于或等于第二差阈的差进行关联。
所述至少一个处理器和至少一个存储器可进一步使得所述装置至少执行取决于下列各项中的至少一个来确定所述至少一个差阈:测量的头部相关传递函数;测量的头部相关脉冲响应;选择的头部相关传递函数;选择的头部相关脉冲响应;修改的头部相关传递函数;以及修改的头部相关脉冲响应。
根据本发明的第三方面,提供了一种装置,其包括:至少一个滤波器,其被配置成对至少两个音频信号进行滤波以对每个音频信号生成至少两组音频分量;比较器,其被配置成确定针对每组音频分量的所述至少两个音频信号之间的差;以及信号组合器,其被配置成取决于针对每组音频分量的所述至少两个音频信号之间的所述差,通过选择性地组合针对每组音频分量的所述至少两个音频信号生成另外的音频信号。
所述至少一个滤波器可进一步被配置成将所述至少两个音频信号滤波成下列各项中的至少一个:重叠频率范围组;邻接频率范围组;线性间隔频率范围组;以及非线性间隔频率范围组。
所述比较器可进一步被配置成:确定针对频率范围低于频率阈值的第一组的第一差;以及确定针对频率范围高于所述频率阈值的第二组的第二差。
所述差可包括下列各项中的至少一个:耳间电平差值;耳间相位差值;以及耳间时间差值。
所述信号组合器可进一步包括:增益确定器,其被配置成通过将针对所述音频分量组的所述至少两个音频信号之间的所述差与针对所述组的至少一个差阈进行比较来确定针对每组音频分量的增益;至少一个放大器,其被配置成将针对所述组的每个音频信号乘以针对所述组的关联的增益值;以及至少一个加法器,其被配置成将针对所述组的所述音频信号与针对所述组的所述关联的增益值的乘积进行组合。
所述增益确定器可进一步被配置成:将针对每组音频分量的第一增益函数与小于第一差阈的差进行关联;将针对每组音频分量的第二增益函数与大于或等于第一差阈且小于第二差阈的差进行关联;以及将针对每组音频分量的第三增益函数与大于或等于第二差阈的差进行关联。
所述装置可进一步包括阈值确定器,其被配置成取决于下列各项中的至少一个确定所述至少一个差阈:测量的头部相关传递函数;测量的头部相关脉冲响应;选择的头部相关传递函数;选择的头部相关脉冲响应;修改的头部相关传递函数;以及修改的头部相关脉冲响应。
根据本发明的第四方面,提供了一种编码有指令的计算机可读介质,其中当由计算机执行所述指令时,执行:对至少两个音频信号进行滤波以对每个音频信号生成至少两组音频分量;针对每组音频分量确定所述至少两个音频信号之间的差;以及取决于针对每组音频分量的所述至少两个音频信号之间的所述差,通过选择性地组合针对每组音频分量的所述至少两个音频信号生成另外的音频信号。
根据本发明的第五方面,提供了一种装置,其包括:滤波装置,用于对至少两个音频信号进行滤波以对每个音频信号生成至少两组音频分量;比较器装置,用于针对每组音频分量确定所述至少两个音频信号之间的差;以及组合装置,用于取决于针对每组音频分量的所述至少两个音频信号之间的所述差,通过选择性地组合针对每组音频分量的所述至少两个音频信号生成另外的音频信号。
一种电子设备可包括上述装置。
一种芯片组可包括上述装置。
附图说明
为了更好地理解本发明,现在将通过示例的方式参考附图,其中:
图1示意性地示出了采用本申请的实施例的电子设备;
图2示意性地示出了5声道音频系统配置;
图3示意性地示出了根据本申请的一些实施例的立体声到多声道上混合器;
图4示意性地示出了根据本申请的一些实施例的如图3中所示的中央声道提取器;
图5更具体地示意性地示出了如图3和图4中所示的中央声道提取器;
图6示出了图示了根据本申请的实施例的中央声道提取器的操作的流程图;
图7示意性地示出了欧几里德差距离,其示出了如本中请的实施例中所使用的第一阈值距离和第二阈值距离;
图8a和8b图示了根据一些实施例的用于在确定第一阈值和第二阈值时使用的特定方位角的跨频率的头部相关传递函数;
图9a和9b图示了根据一些实施例的用于在确定第一阈值和第二阈值使用的特定频率的跨方位角位置的头部相关传递函数;
图10a和10b图示了根据一些实施例的对频率的知觉波束确定;
图11示意性地示出了根据本申请的一些实施例的对左声道音频信号的预处理阶段;以及
图12示意性地示出用于一些其它实施例的中央声道提取器的部分。
具体实施方式
下文描述了用于提供增强中央声道提取的装置和方法。在此方面,首先参考图1中的示例性电子设备10或可并入中央声道提取器的装置的示意性框图。在一些实施例中,通过中央声道提取器提取的中央声道适用于上混合器。
电子设备10可以是例如用于无线通信系统的移动终端或用户装备。在其它实施例中,电子设备可以是电视(TV)接收器、便携式数字多功能盘(DVD)播放器,或音频播放器(诸如ipod)。
电子设备10包括处理器21,其可通过数-模转换器32链接到用于接收头戴式耳机或头戴受话器33的头戴式耳机连接器。处理器21进一步链接到收发器(TX/RX)13、用户接口(UI)15和存储器22。
处理器21可被配置成执行各种程序代码。所实施的程序代码包括用于从立体声音频信号提取中央声道音频信号的声道提取器。可将所实施的程序代码23存储在例如存储器22中以在需要时供处理器21获取。存储器22还可提供用于存储数据(例如,已根据实施例进行处理的数据)的部分24。
在实施例中,可在硬件或固件中实施声道提取代码。
用户接口15使得用户能够例如经由小键盘向电子设备10输入命令,和/或例如通过显示器从电子设备10获得信息。收发器13支持例如经由无线通信网络的与其它电子设备的通信。
同样应理解,电子设备10的结构可以按照许多方式进行补充和变化。
在一些实施例中,装置10可进一步包括至少两个麦克风,其用于输入将根据本申请的实施例进行处理或传输到一些其它电子设备或存储在存储器22的数据部分24中的音频或语音。为此,用户可以经由用户接口15激活用于使用所述至少两个麦克风来捕获立体声音频信号的对应应用。在此类实施例中,装置10可进一步包括模-数转换器,其被配置成将输入的模拟音频信号转换成数字音频信号并且将所述数字音频信号提供给处理器21。
在一些实施例中,装置10还可经由收发器13从另一个电子设备接收具有对应编码的立体声音频数据的位流。在这些实施例中,处理器21可执行存储在存储器22中的声道提取程序代码。在这些实施例中,处理器21可对接收的立体声音频信号数据进行处理,并且输出所提取的声道数据。
在一些实施例中,头戴式耳机连接器33可被配置成与头戴受话器或耳塞无线地(例如,通过蓝牙规范)或使用传统的有线连接来通信。
在一些实施例中,还可将所接收的立体声音频数据存储在存储器22的数据部分24中,而不是立即进行处理,例如,用于支持稍后的处理和呈现或转发到另一个电子设备。
将理解,图3、图4、图5和图11中所描述的示意性结构以及图6中的方法步骤仅表示完整的音频处理链的操作的一部分,所述完整的音频处理链包括如示例性地示出为在图1中示出的电子设备中实施的一些实施例。
图3更具体地示出了适用于本申请的一些实施例的实现方式的上混合器106。所述上混合器被配置成接收立体声音频信号并生成左声道音频信号L″、中央声道音频信号C′和右声道音频信号R″。
上混合器106被配置成在左输入端451接收左声道音频信号并且在右输入端453接收右声道音频信号。上混合器106还包括中央声道提取器455,其接收左声道音频信号L和右声道音频信号R并且生成中央声道音频信号C。尽管上文和下文描述了左声道音频信号和右声道音频信号的输入以及左声道音频信号、中央声道音频信号和右声道音频信号的上混合输出,但是应理解,所述输入可为任意一对输入音频信号声道,诸如第一输入声道音频信号和第二输入声道音频信号,并且输出端为上混合的第一输出声道、第二输出声道和第三输出声道,其中三个输出声道中的至少一个是对第一输入声道和第二输入声道的提取。
在一些实施例中,还将中央声道音频信号C传送到第一放大器461,其将增益A1施加到所述信号并且将放大的信号输出至左声道修改器465。
将左声道音频信号L进一步传送到左声道滤波器454,其向音频信号施加延时,其中所述延时大体上等于生成中央声道音频信号C所需的时间。在一些实施例中,可由全通滤波器实现左声道滤波器454。将经滤波的左声道音频信号传送到左声道修改器465。
左声道修改器465被配置成从经滤波的左声道音频信号中减去放大的中央声道音频信号A1C以生成修改的左声道音频信号L′。在一些实施例中,将修改的左声道音频信号传送到左声道放大器487。
在一些实施例中,还将中央声道音频信号C传送到第二放大器463,其向信号施加增益A2并且将放大的信号输出到右声道修改器467。
还将右声道音频信号R传送到右声道滤波器456,其向音频信号施加延时,所述延时大体上等于生成中央声道音频信号C所需的时间。在一些实施例中,可由全通滤波器实现右声道滤波器456。将经滤波的右声道音频信号传送到右声道修改器467。
右声道修改器467被配置成从经滤波的右声道音频信号中减去放大的中央声道音频信号A2C以生成修改的左声道音频信号R′。在一些实施例中,将修改的右声道音频信号传送到右声道放大器491。
在一些实施例中,左声道放大器487被配置成接收修改的左声道音频信号L′,放大修改的左声道音频信号并输出放大的左声道信号L″。在一些实施例中,上混合器106还被配置成包括中央声道放大器489,其被配置成接收中央声道音频信号C、放大中央声道音频信号并输出放大的中央声道信号C′。在同样的实施例中,上混合器106包括右声道放大器491,其被配置成接收修改的右声道音频信号R′、放大修改的右声道音频信号并输出放大的右声道信号R″。
在一些实施例中,用户可例如使用用户接口15来确定左声道放大器487、中央声道放大器489和右声道放大器491的增益,以便关于′左′和′右′舞台音频分量控制′中央′舞台音频分量的重要性。换言之,用户可控制′中央′的增益高于′左′和′右′分量,从而使得用户可根据早先的示例着重强调歌手以使其突出于乐器或观众音频分量。在一些其它实施例中,可自动或半自动地控制或确定增益。例如,可以针对诸如卡拉OK(Karaoke)之类的应用实施此类实施例。
关于图4和图5,更具体地示出了关于本申请的一些实施例的中央声道提取器455的示意图;此外,关于图6,描述了根据本申请的一些实施例的中央声道提取器455的操作。
在一些实施例中,如下文更具体地描述的,中央声道的提取针对较低频率分量使用量值和相位信息两者,而针对较高频率仅使用量值信息。更具体地,在一些实施例中,中央声道提取器455使用立体声信号之间的频率相关量值和相位差信息,并且将此信息与用户耳间电平差(ILD)和耳间相位差(IPD)进行比较以判定所述信号是否位于中央,即正中面(穿过两耳和鼻之间的中点的垂直面)。在一些实施例中,可根据用户自身的头部相关传递函数定制所提议的方法。在一些其它实施例中,其可用于提取针对双耳记录的信号的正中面中的源。
然而,将理解,下文描述的方法和装置可使用下列各项中的至少一个来提取中央声道:耳间电平差(ILD)、耳间相位差(IPD)和耳间时间差(ITD)。此外,可理解,在一些实施例中,对所使用的至少一个差的选择可根据被分析的频率而不同。作为上文和下文所描述的示例,存在用于第一频率范围的第一选择,其中在低频率范围内使用耳间电平差和耳间相位差,以及在高频率范围内仅使用耳间电平差的第二选择。
例如,对于从下混合立体声系统提取中央声道的情况,中央声道音频信号分量存在于左立体声音频信号和右立体声音频信号两者中,其中所述分量具有相同的强度和零延时,即,无相位差。当通过头戴式耳机收听时,收听者将感觉到此声音位于正中面(穿过两耳和鼻的中点的垂直面)。更精细的频率专用提示(cue)的缺乏意味着收听者通常感觉到此信号处于头部中央。换言之,收听者可能不能确定信号是位于所述平面的前还是后,或上还是下。
现在,考虑最初来自左前音频声道的信号下混合入左声道立体声音频和右声道立体声音频的情况。如预期,立体声右声道音频信号不包含左前音频声道信号的任何或显著分量。因此,用户感觉此信号位于左耳。
如何识别用于从此种下混合立体声音频信号中提取的中央声道分量的原理为:确定对下列各项中的至少一个的选择:立体声信号中的ITD、IPD和ILD;以及将ITD值、IPD值和ILD值与通常的ILD值、IPD值和ITD值进行比较,以便估计方向。此方法在下文中可被称为知觉基础。
因此,对于正中面内的单一源(乐器、单个歌手等),整体电平差最小,耳间时延应最小(换言之,ITD较小);此外,耳间相位延迟最小(换言之,IPD较小)。
将理解,可基于时域(例如,其中ITD为所选择的差)以及在一些其它实施例中基于谱域执行所述分析。例如,在存在多个声道的情况下,在一些实施例中,可基于子频带完成空间分析。在一些实施例中,所述分析可采用时域分析,从而使得在这些其它实施例中,不是计算相对相位,而是计算时域中的信号对的包络之间的时间差。
在一些实施例中,基于子频带的分析是基于来自该给定频带内的所有源的信号的叠加。在一些实施例中,所述提取使用不同的子频带内的差(诸如电平差、时间差或相位差,或差的选择或组合)以估算该子频带内的源的方向。将净差与对于特殊的收听者为唯一的差(ILD、IPD和ITD提示)进行比较。可从针对该特殊的收听者的头部相关传递函数(HRTF)获得这些值。此外,在一些实施例中,可使用一个以上的提示(ILD、IPD、ITD)来估算低频率范围(<1.5KHz)内的源方向,而单一提示(例如,ILD,或在其它实施例中为ITD)可为高频率范围(>1.5KHz)的主导提示。对主导提示的使用(诸如在一些实施例中,对于高频率范围的ILD的使用)的确定,是因为高频源信号在到达对侧耳之前可经历多个相位环绕(phase wraparound)。
用于中央声道的粗略或基本估计量为0.5*(L(n)+R(n))。时域内样本的此平均值可理想地保持初始的中央声道,但是所有的剩余声道也可泄漏到所提取的中央声道内。在一些实施例中,可通过施加特殊频率选通或增益来控制此泄漏。
因此,在实施例中,例如其中耳间相位差和耳间电平差为所选择的差,则对于其中用于所述频带或子频带的IPD和/或ILD对与用于用户中央方向的IPD和/或ILD对不能很好地匹配的每个频带或子频带,则可将加权应用于所述频带或子频带的分量以防止非中央分量泄漏到所提取的中央声道音频信号中。换言之,通过将立体声信号的IPD和ILD对与用于中央声道的提示进行比较,可形成波束图案以选通或滤波来自其它声道的不需要的泄漏。可认为这形成知觉波束图案以实现定位于正中面内的信号。
中央声道提取器455可接收左声道音频信号L和右声道音频信号R。可关于时间来描述音频信号,因此在时间n,可将左声道音频信号标记为L(n),并且可将右声道音频信号标记为R(n)。
可关于图6在步骤651中示出接收左声道音频信号和右声道音频信号的操作。
中央声道提取器455可包括子频带生成器601,其被配置成接收左声道音频信号和右声道音频信号并针对每个声道输出若干子频带信号。在一些实施例中,子频带的数量可为N+1,并且因此子频带生成器601的输出包括N+1个左声道子频带音频信号L0(n),...,LN(n)和N+1个右声道子频带音频信号R0(n),...,RN(n)。针对每个子频带的频率范围可为任何适当的分频设计。例如,在一些实施例中,子频带可为等分的;而在一些其它实施例中,可根据心理声学原理确定子频带。在本申请的一些实施例中,子频带可具有重叠频率范围;在一些其它实施例中,至少一些子频带可具有邻接或分离的频率范围。
关于图5中示出的中央声道提取器455,将子频带生成器示出为滤波器组,其包括截止频率为150Hz的一对第一滤波器603(一个左声道低通滤波器603L和一个右声道低通滤波器603R),中央频率为200Hz且带宽为150Hz的一对第二滤波器605(一个左声道带通滤波器605L和一个右声道带通滤波器605R),中央频率为400Hz且带宽为200Hz的一对第三滤波器607(一个左声道带通滤波器607L和一个右声道带通滤波器607R),直到中央频率为2500Hz且带宽为500Hz的一对第N+1滤波器609(一个左声道带通滤波器609L和一个右声道带通滤波器609R)。出于清晰的原因,图5中未示出用于生成针对其它频率范围的子频带信号的更多的滤波器。
在本申请的实施例中,可使用任何适当的滤波器设计来实施所述滤波器。因此,在一些实施例中,可存在具有用于所选的滤波器组滤波器的适当特征的不同滤波器组设计。
例如,可使用gammatone或gammachirp滤波器组模型,其为针对人类听觉系统的特别适合的滤波器组的模型。在一些其它实施例中,可使用适当的有限脉冲响应(FIR)滤波器设计来生成子频带。
此外,在一些实施例中,可将滤波过程配置成在频域中执行,并且因此在这些实施例中,子频带生成器601可包括时域到频域转换器、频域滤波和频域到时域转换器。
在图6中通过步骤653示出生成子频带的操作。
在一些实施例中,中央声道提取器455可进一步包括增益确定器604。在一些实施例中,增益确定器604被配置成从子频带生成器601接收左声道子频带音频信号和右声道子频带音频信号并且确定将被传送到组合信号放大器610的增益函数值。
关于图5,出于清晰的原因,将增益确定器604部分地示出为用于第一子频带的单独的增益确定器装置(第一子频带增益确定器6040)和用于第N+1子频带的单独的增益确定器装置(第N+1子频带增益确定器604N)。将增益确定分离到子频带装置中允许并行地或大体上并行地执行增益确定。然而,将理解,在本申请的一些实施例中,可连续地针对每个子频带执行同样的操作,并且同样地,可采用数量少于子频带数量的若干单独的子频带增益确定器装置。
在一些实施例中,增益确定器604可包括增益估计器633和阈值确定器614。在一些实施例中,增益估计器633接收左声道子频带音频信号值和右声道子频带音频信号值和来自阈值确定器614的针对每个子频带的阈值,并且确定针对每个子频带的增益函数值。
在一些实施例中,阈值确定器614被配置成针对每个子频带生成阈值。在一些实施例中,阈值确定器生成或存储针对每个子频带的两个阈值:下阈值阈值1和上阈值阈值2。可基于收听者头部相关传递函数(HRTF)生成针对每个子频带生成的阈值,诸如阈值1和阈值2。在一些实施例中,可使用用于确定HRTF的任何适当的方法来确定特定收听者的HRTF。例如,在一些实施例中,可通过从图像处理和集成计算中心(CIPIC)数据库或任何适当的HRTF数据库选择适当的HRTF来生成HRTF。在一些其它实施例中,可从针对使用HRTF测量设备确定的用户早先确定的HRTF中获取适当的HRTF。在一些其它实施例中,阈值确定器614依赖于理想化或模型化HRTF函数(诸如仿真头模型HRTF)生成子频带阈值。
关于图8a、图8b、图9a和图9b,示出了样本信号电平HRTF。图8a示出针对左耳和右耳的针对20Hz至20kHz的频率以及0度方位角的样本HRTF;换言之,具有直接位于收听者前方的源的样本HRTF。从上述绘图可看出,对于高达约5KHz的大多数频率,耳间电平差(ILD)小于6dB。这对于直接位于收听者前方的源都成立。图8b示出了用于同一收听者的左耳和右耳的样本HRTF,其中频率为20Hz至20kHz且源方位角为-65度。在本示例中,在较高频率下,电平差现在大得多。
图9a和图9b示出了针对样本收听者周围不同方位角处的针对200Hz和2KHz信号的该收听者的左耳和右耳的信号电平HRTF。
因此,为了确定适当的阈值从而使得中央声道提取器可感觉到信号处于正中面(0、180度),阈值确定器614可能必须确定其中立体声信号的左电平和右电平(换言之,针对该方位角的两个迹线(trace)之间的差)在较低以及较高频率下都非常接近的阈值。此接近度量为频率和围绕预期方位角的容差(例如,距0度方位角+/-15度)的函数。类似地,在一些实施例中,也可在较低频率下检验相位差并且可建立界限。因此,由阈值确定器生成的阈值指定左声道和右声道之间的允许的差,以支持针对每个频带的中央声道的提取。
在本申请的一些实施例中,所选择或生成的HRTF可与针对每个子频带的若干的预定阈值相关联。在一些进一步的实施例中,可通过确定针对距中央+/-15度范围内的用户的左HRTF和右HRTF之间的ILD来确定阈值。
在一些进一步的实施例中,可通过检查频带或子频带内的总功率(例如,在一些实施例中,此可为指示的或选择的临界频带)来确定阈值。类似地,在一些实施例中,频带滤波的头部相关脉冲响应(HRIR)可互相关以依据相位/时间差来确定左耳响应和右耳响应之间的差。
继而,在这些实施例中,阈值确定器614相应地可使用这些耳间电平差(ILD)值、耳间时间差(ITD)值和/或耳间相位差(IPD)值来针对每个频带/子频带设定阈值。例如,在其中基于耳间电平差(ILD)值和耳间相位差(IPD)值的选择而选择的差是用于低频率范围的上述实施例中,继而可使用针对耳间电平差(ILD)和耳间相位差(IPD)的HRTF值或HRIR值来设定针对低频率范围的阈值。类似地,在其中为高频率范围选择的差仅基于耳间电平差(ILD)值的这些实施例中,继而可使用针对耳间电平差(ILD)的HRTF值或HRIR值来设定用于高频率范围的阈值。换言之,取决于差选择,基于在HRTF或HRIR中示出的所选择的一个或多个差设定阈值。
在图6中通过步骤656示出用于确定针对子频带的阈值的操作。
在一些实施例中,如图4中所示,增益估计器633包括离散傅里叶变换器(DFT)计算块606和系数比较器608。在一些实施例中,DFT计算块606接收左声道子频带音频信号值和右声道子频带音频信号值。DFT计算块606为左声道和右声道两者针对每个子频带生成复频域值。在其它实施例中,可使用任何适当的时间到频域变换器来生成复频域值,诸如离散余弦变换(DCT)、快速傅里叶变换(FFT)或小波变换。
在一些实施例中,DFT计算块606可使用Goertzel算法针对每个子频带生成复系数:
因此,在这些实施例中,DFT计算块606可计算针对每个新输入样本的vk(n)。
在已计算出M个样本之后,DFT计算块606通过对方程式的左侧估算一次计算DFT系数:
在一些实施例中,可针对每个子频带独立地选择M和k的值以近似地捕获给定子频带滤波器的频率范围。WM k和cos(2*pi*k/M)为常数。
在这些实施例中,DFT计算块606最初将vk(n-2)和vk(n-1)的值设定为零,并且还在每M个样本后进行复位。在对M个样本进行上述处理之后,yk(n)为所需的DFT系数。DFT针对左声道信号和右声道信号两者的所有子频带计算这些系数。
通过DFT计算块606确定的DFT系数为复数。将左声道DFT系数表示为HL(k),并且将右声道DFT系数表示为HR(k),其中k表示子频带编号。
将DFT系数传送到系数比较器608。在图6中通过步骤655示出生成DFT系数的操作。
系数比较器608接收来自DFT计算块606的DFT系数和来自阈值确定器614的针对每个子频带的阈值以确定针对每个子频带的增益函数值。
在一些实施例中,系数比较器608被配置成确定子频带耳间差(例如,耳间电平差-ILD、耳间时间差ITD和耳间相位差-IPD中的至少一个)值与针对头部中央(前或后)定位的ILD值、IPD值和ITD值如何接近。换言之,当信号分量为初始中央声道的一部分时,实际上不存在耳间差(换言之,期望ILD值、IPD值和ITD值接近零)。因此,系数比较器608试图找到HL(k)值和HR(k)值中的接近度。由于对于左声道和右声道的每个子频带的DFT值为复数,可通过确定复平面上的HL(k)点和HR(k)点之间的欧几里得距离来测量此′接近度′。在其它实施例中,可应用其它距离度量。
在一些实施例中,可通过计算针对子频带的最小相位脉冲响应来确定纯相位差值、IPD。例如,若确定了针对左声道信号和右声道信号的头部相关脉冲响应并且将其转换成最小相位脉冲响应形式,则可将最小相位脉冲响应的相位响应之间的相位差作为IPD值来处理。
关于图7,可示出针对一些实施例的差和阈值的选择的图形表示,其中所述实施例已选择所述差作为电平和相位差,其中示出了距实平面的方位为L的标准化HL(k)值HL(k)/(max(HL(k),HR(k)))711和距实平面的方位为R的标准化HR(k)值HR(k)/(max(HL(k),HR(k)))713的示例。此外,还示出了矢量差距离705。将理解,在一些其它实施例中,可确定非标准化差和值。
在一些实施例中,系数比较器608可确定针对子频带的差矢量(或标量)705的距离,并且将所述距离与定义/生成的针对子频带的阈值进行比较。例如,在上述实施例中,当基于对耳间电平差(ILD)值和耳间相位差(IPD)值的选择而选择的差是用于低频率范围时,则所述差为矢量差,将该矢量差与矢量阈值进行比较,其中所述矢量阈值可由来自图7中的一个矢量的末端的圆周来表示。
类似地,在这些实施例中,当选择用于高频率范围的差是仅基于耳间电平差(ILD)值时,则所述差为通过将左标准化矢量或右标准化矢量之一旋转到另一矢量上而产生的标量差。尽管将矢量差与标量阈值进行比较,将理解,所述一个或多个阈值本身在本质上可进一步为矢量(换言之,电平差比相位差更为显著)。
在上述的一些实施例中,确定/生成两个阈值并将其传送到系数比较器608以根据子频带差矢量距离进行检验。然而,在一些其它实施例中,仅确定/生成一个阈值并对其进行检验,或者在一些其它实施例中,可使用两个以上的阈值。
在每个子频带具有两个阈值的实施例中,系数比较器608可确定针对特定子频带k的两个DFT矢量HL(k)和HR(k)是否接近,换言之,是否小于较小的阈值(阈值1),或者在数学上
差矢量距离<阈值1
继而,将1或0dB的增益gk分配给所述子频带。这可由图7中的第一区域721表示。因此,比较器608已确定出两个声道之间的差值(诸如ILD、IPD和ITD中的一个的选择,并且例如用于基于对耳间电平差(ILD)值和耳间相位差(IPD)值的选择的低频率范围,并且用于仅基于耳间电平差(ILD)值的高频率范围)较小,于是该子频带包括以高置信度等级初始地为中央声道音频信号的音频信息。
在图6中通过步骤657示出与第一阈值的比较操作。此外,在步骤659中示出其中差小于阈值的值为1的增益gk的分配操作。在步骤659之后,所述方法进入对左声道音频信号和右声道音频信号进行组合的操作。
此外,在同样的实施例中,系数比较器608确定在图7中作为两个DFT矢量HL(k)和HR(k)示出的用于特定子频带k的矢量(用于IPD和ILD低频率范围)或标量(用于仅有ILD的高频率范围)之间的差是否大于下阈值(阈值1)但是小于上阈值(阈值2),继而,将小于1但是大于0的增益gk分配给该子频带。在图7中通过第二区域723表示此区域。因此,比较器608已确定出由于两个声道之间的差值(诸如对ILD、IPD和ITD中的至少一个的选择,如从左声道子矢量值HL和右声道子矢量值HR之间的矢量或标量距离可看出)适中,于是该子频带包括以适中置信度等级初始地为中央声道音频信号的部分的音频信息。在一些实施例中,分配的增益为差距离和阈值的函数。例如,在一些实施例中,分配的增益可为0与1之间的值的插值,其中分配的增益越高,则差值越接近下阈值。在一些实施例中,该插值可为线性插值;而在一些其它实施例中,该插值可为非线性插值。
此外,在同样的一些实施例中,系数比较器608还确定如果矢量的距离(用于IPD和ILD低频率范围)或标量的距离(用于仅有ILD的高频率范围)大于上阈值(阈值2),则分配给子频带的增益gk为0。这在图7中由第三区域725来表示。因此,比较器608已确定出由于两个声道之间的差值(诸如ILD、IPD和ITD中的至少一个)较大,于是该子频带包括以低置信度等级或无置信度等级为初始中央声道音频信号的音频信息。
在图6中通过步骤661示出与第二或上阈值(阈值2)的比较操作。此外,在步骤665中示出1和0之间的增益的分配操作,其中所述差小于上阈值(但是隐含地大于下阈值)。在步骤665之后,所述方法进入对左声道音频信号和右声道音频信号进行组合的操作。
此外,在步骤663中示出增益0的分配操作,其中差大于上阈值(且隐含地大于下阈值)。在步骤663之后,所述方法进入对左声道音频信号和右声道音频信号进行组合的操作。
在一些实施例中,对于一些子频带,系数比较器608可将非矢量(标量)差距离与一个或多个阈值进行比较。在此类实施例中,非矢量差为量值|HL(k)|和|HR(k)|之间的差,而不考虑相位(并且因此,与频率和时间相关)差。在此类实施例中,将量值或电平(ILD)差与阈值进行比较,如同上文所述。
在一些实施例中,系数比较器608确定矢量差和标量差两者,并且取决于被分析的子频带选择结果。因此,在实施例的示例中,可针对较高子频带确定和比较量值(标量)差,而可以针对较低子频带确定矢量(相位和电平)差值。例如,在一些实施例中,系数比较器608可将量值差与针对频率范围>1500Hz的子频带的阈值进行比较,并且将矢量差与针对频率范围<1500Hz的子频带的阈值进行比较。
尽管上述实施例使用由IPD和ILD定义的差阈或′提示′值,但是应理解,在一些其它实施例中,可使用其它提示(诸如相位差或耳间时间差(ITD)),其中确定右信号和左信号之间的相对时间差并且将其与一个或多个时间阈值进行比较。例如,在一些实施例中,在低频率范围或子频带内可采用对矢量差进行描述的ILD差和ITD差,并且在高频率范围或子频带内仅采用对标量差进行描述的ILD差。此外,在一些其它实施例中,所选择的差可为定义了三维矢量的差IPD、ILD和ITD中的所有三个。继而,左声道和右声道之间的距离可定义三维空间并关于至少一个三维阈值进行测试。在进一步的实施例中,可将ILD用于所分析的整个频率范围,并且IPD和ITD取决于被分析的频率范围而选择。
关于图12,示出了被配置成基于对ILD和ITD的选择来确定增益的增益确定器604的示意图。
将针对左声道和右声道的子频带信号传送到互相关器1201和电平差计算器。
互相关器1201可确定滤波器组对之间的互相关性,例如,可在左声道音频信号的第一频带或子频带的输出端与右信号的第一频带或子频带的输出端之间确定针对第一频带或子频带的互相关性。在这些实施例中,互相关性将显示将出现在两个信号之间的时延中的最高峰值,或者换言之,生成与传送到系数比较器608的ITD类似的结果。
在一些其它实施例中,可计算每个经滤波的信号的组延迟,并且可从这些组延迟值确定滤波器组之后的右信号和左信号之间的ITD。
此外,电平差计算器1203可确定子频带分量的量值,并且可进一步确定分量的量值之间的差;此外,将这些值传送到系数比较器608。
在这些实施例中,阈值确定器614可确定针对ILD值和ITD值中的每一个值的至少一个阈值。换言之,确定接收或生成两组阈值,一个用于延时,一个用于定时。
继而,系数比较器608可将确定的ITD值和ILD值与相关联的阈值集合进行比较以生成关联的增益或传递值。
尽管上述实施例将系数比较器608描述为根据算法函数生成关联的增益值,但是将理解,在一些实施例中,系数比较器608可通过使用查找表生成阈值。例如,在其中差为ITD值和ILD值的选择的实施例中,使用二维查找表,其中一个轴为延时而另一个轴为电平差。继而,基于针对该子频带的输入延时值和电平差值,从查表读出增益。
如先前在一些实施例中所描述的,可将一个差或提示用于一个频率范围(或子频带),并且将第二差或提示用于不同的频率范围(或子频带)。例如,在一些实施例中,可将ITD提示用于较高频率信号,因为ITD在较高频率有效,而将IPD用于较低频率。可将ITD看作信号对的包络之间的时间差,而将IPD看作信号内容之间的差(换言之,位于包络内)。在一些进一步的实施例中,可在较低频率下确定IPD和ITD。
在一些进一步的实施例中,可使用IPD、ITD和/或ILD提示的任何适当的组合来通过将差值与一个或多个阈值进行比较而确定或标识可用于生成中央声道音频信号的子频带分量。
上述描述已从使用差的不同选择的一系列频率范围并根据各种阈值进行测试的观点呈现了其中使用差的不同选择的实施例。然而,可从差的观点呈现同样的实施例,换言之,每个差(例如IPD、ITD、ILD)对子频带的不同范围具有影响。例如,在一些实施例中,可在1500Hz以上分析的子频带上使用ILD,可在1500Hz以下分析的子频带上使用IPD,而针对在0至5000Hz分析的子频带使用ITD(例如,这将出于以下观点:频率范围可被视为其中选择IPD和ITD差的低频率范围<1500Hz,以及其中选择ILD和ITD的高频率范围>1500Hz)。
在一些实施例中,可将每个差用于不同的分析范围,其中所述分析范围可重叠或邻接或分离。因此,此类实施例的又一个示例将为:针对从0Hz至500Hz的第一频率范围选择IPD,针对从501Hz至1500Hz的第二频率范围选择ITD,并且针对从1501Hz至5000Hz的第三频率范围选择ILD。
尽管参考每个子频带具有两个阈值以及定义三个区域(具有单位增益的第一区域721、具有亚单位增益的第二区域723和具有零增益的第三区域)来描述上述实施例,但是将理解,可将两个或两个以上的区域定义为具有不同的增益值。例如,通过一个阈值,可将两个区域定义为具有作为通过区(即,开关接通或增益等于1)的一个区域,其中提示值小于阈值,以及作为阻断区的第二区域(即,开关断开或增益为零),其中提示值大于阈值。在其它实施例中,两个以上的阈值将产生三个以上的区域。
在一些进一步的实施例中,由于增益的随时间变化的性质,比较器608应用附加的一阶低通平滑函数来减小任何可感觉到的失真。在数学上,可使用以下方程式实现这种低通滤波器:
gk(n)=(1-α)×gk(n-1)+α×gk
其中,gk(n-1)值为针对第k个子频带的之前的瞬时输出增益值,gk为通过比较器608确定的值,而gk(n)为针对第k个子频带的当前瞬时的输出增益值。在本申请的一些其它实施例中,比较器608可将较高阶平滑函数或任何适当的平滑函数应用于输出增益值,以便尝试减小可感觉到的失真。
在一些实施例中,将增益值输出至放大器610。
在一些实施例中,中央声道提取器455包括子频带组合器602,其接收左声道子频带音频信号和右声道子频带音频信号并且输出组合的左子频带音频信号和右子频带音频信号。在图5中,示出的子频带组合器602包括加法器阵列。在一些实施例中,示出的每个加法器接收一个子频带左声道音频信号和相同的子频带右声道音频信号,并且输出针对该子频带的组合的信号。因此,在此类实施例中,示出了用于对针对子频带0的左声道音频信号和右声道音频信号进行相加的第一加法器623、用于对针对子频带1的左声道音频信号和右声道音频信号进行相加的第二加法器625、用于对针对子频带2的左声道音频信号和右声道音频信号进行相加的第三加法器627,以及用于对针对子频带N的左声道音频信号和右声道音频信号进行相加的第N+1加法器629。出于清晰的原因,在图5中未示出第四至第N加法器。
在一些实施例中,组合为针对特定子频带的左声道音频信号和右声道音频信号的平均。因此,在这些实施例中,子频带组合器可产生下列结果:
B0(n)=0.5*(L0(n)+R0(n))
B1(n)=0.5*(L1(n)+R1(n))
以此类推,直到
BN(n)=0.5*(LN(n)+RN(n))
将这些组合的值传送到放大器610。
在图6中通过步骤667示出了对子频带左声道音频信号和右声道音频信号进行组合的处理。
在一些实施例中,中央声道提取器455可进一步包括放大器610,其用于通过针对子频带的分配的增益值放大针对每个子频带的组合的左声道音频信号和右声道音频信号,并且将组合音频信号的放大的值输出至子频带组合器612。
在一些实施例中,如图5中所示,放大器610可包括可变增益放大器阵列,其中从来自增益确定器604的控制信号设定增益。在此类实施例中,可存在:第一可变增益放大器633,其用于通过子频带0分配增益值g0放大子频带0组合音频信号B0;第二可变增益放大器635,其用于通过子频带1分配增益值g1放大子频带1组合音频信号B1;第三可变增益放大器637,其用于通过子频带2分配增益值g2放大子频带2组合音频信号B2;以及第N+1可变增益放大器639,其用于通过子频带N分配增益值gN放大子频带N组合音频信号BN。出于清晰的原因,在图5中未示出第四至第N可变增益放大器。
继而,在一些实施例中,如上所述,将这些放大的值传送到子频带组合器612。
在图6中通过步骤669示出通过分配的增益放大组合的值的操作。
在一些实施例中,中央声道提取器455可进一步包括子频带组合器612。在一些实施例中,子频带组合器612针对每个子频带接收放大的组合的子频带音频信号值,并且将它们组合以生成提取的中央声道音频信号。
在一些实施例中,如图6中所示,子频带组合器612包括加法器651,其用于对放大的组合的子频带音频信号执行求和。可将该求平均表示为下列方程式:
在图6中通过步骤673示出对子频带进行组合的操作。
在图10a和图10b中示出了组合的左声道信号和右声道信号和根据一些实施例提取的中央声道信号的基本平均之间的差。如所期望的,左声道信号和右声道信号的基本平均不检测其中信号明显处于左声道和右声道内的音频分量,并且因此起源于右声音舞台或左声音舞台的音频源“渗入”提取的中央声道信号。然而,如图10a和图10b中所示,其中将分配的增益应用于左声道信号和右声道信号的组合的示例实施例产生提取的中央声道信号,其远远较不易受到源自其它声道的音频信号的影响。
因此,上述本申请的实施例可实现更为自然和精确的中央声道提取处理。在进一步的实施例中,这种中央声道提取可提供进一步的使用案例,从而使得用户可取决于用户偏好对中央声道进行控制。
尽管已关于针对头戴式耳机的虚拟化过程和上混合描述了中央声道提取器,但是中央声道提取装置和方法适用于许多不同的音频信号处理操作。因此,将理解,可采用所述装置在成对的声道的各个方向上从所述成对的声道中提取音频信号。例如,可使用相同的中央声道提取过程来提取所谓的未知源。例如,具有安装在对侧的用于记录立体声声音的麦克风的诸如摄像机之类的设备可产生一对音频信号,其中使用声道提取装置或方法可继而产生用于呈现的中央声道音频信号。换言之,当使用立体声麦克风记录声音舞台时,可确定中央声道信号以便隔离位于′中央′的音频源。例如,当歌手位于中央舞台位置、伴随的乐器位于一侧且观众位于另一侧时,可从包含乐器分量信号和观众分量信号的信号中提取歌手音频分量。在本申请案的实施的另一个使用中,可从左L′声道音频信号和右R′声道音频信号中减去所提取的中央声道以生成修改的左L″声道音频信号和右R″声道音频信号。因此,该输出的立体声信号将按照传统方式从音频信号中去除歌手,从而渲染适用于卡拉OK的结果立体声音频信号。
此外,在一些实施例中,可通过电子设备(诸如移动电话)或通过服务器/数据库来实施过程和装置。
在一些实施例中,中央声道提取器455进一步包括预处理器。关于图11,示出了左声道音频信号预处理器部分1151。将理解,预处理器将进一步包括镜像右声道音频信号预处理器部分,为了使附图清晰,未示出该镜像右声道音频信号预处理器部分。在子频带生成器601之前实施该预处理器,并且在此类实施例中,将预处理器的输出输入至子频带生成器601。预处理器被配置成向信号施加预处理以去除左声道和右声道中的一些不相关信号。因此,在一些实施例中,预处理器试图在生成子频带音频信号之前从左声道音频信号和右声道音频信号中去除这些不相关信号。
可将左声道音频信号表示为两个分量的组合。这些两个分量为与右声道音频信号相干的分量S(n)和不相关分量N1(n)。类似地,也可将右声道信号表示为两个分量,相干分量S(n)和不相关分量N2(n),的组合。
在一些实施例中,左声道音频信号预处理器部分1151包括最小均方(LMS)处理器1109以估算不相关分量。在此类实施例中,将左声道音频信号输入长度为T+1的延时1101,并且继而将其传送到第一预处理器组合器1105和第二预处理器组合器1107。在这些实施例中,将右声道音频信号输入长度为2T+1的滤波器W1103,并且其中滤波器参数由LMS处理器1109控制。此外,在这些实施例中,将滤波器的输出传送到第一预处理组合器1105以生成对不相关分量的估算N1′,其中将所述估算N1′传送到第二预处理组合器1107以从延迟的左声道音频信号中将其减去,以试图去除不相关信息。诸如这些的实施例中的LMS处理器1109接收对不相关信息的n1′估算和右声道音频信号两者以选择滤波器参数,从而使得输出相关信息以在第一预处理组合器1105中将其减去。
在一些进一步的实施例中,当信号已显著扩散且由此影响收听者的定位准确性时,比较器608可将声道间相干性用作另一个度量,以作为计算无关性或扩散的方法。如果信号理想地相关(ICC=1)。在一些实施例中,可将作为此度量的函数的单独的增益项进一步分配给子频带增益,并且因此乘以组合信号以对高度扩散的信号进行选通以防止其泄漏到提取的中央声道中。
因此,综上所述,本申请的实施例执行一种方法,其包括:对至少两个音频信号进行滤波以针对每个音频信号生成至少两组音频分量;针对每组音频分量确定所述至少两个音频信号之间的差;以及取决于针对每组音频分量的所述至少两个音频信号之间的所述差,通过选择性地组合针对每组音频分量的所述至少两个音频信号生成另外的音频信号。
尽管上述示例描述了在电子设备10或装置内运行的本发明的实施例,但是将理解,下文所描述的本发明可作为任何音频处理器的部分来实施。因此,例如,本发明的实施例可实施于音频处理器中,其中所述音频处理器可在固定或有线通信路径上实施音频处理。
因此,用户装备可包括音频处理器,诸如上述本发明的实施例中所描述的那些音频处理器。
应理解,术语电子设备和用户装备只在涵盖任何适当类型的无线用户装备,诸如移动电话、便携式数据处理设备或便携式web浏览器。
通常,本发明的各种实施例可实施于硬件或专用电路、软件、逻辑或其任意组合中。例如,一些方面可实施于硬件中,而其它方面可实施于能够通过控制器、微处理器或其它计算设备来执行的固件或软件中,尽管本发明并非局限于此。尽管本发明的各个方面可被说明和描述为框图、流程图或使用一些其它图形表示进行说明和描述,但是应理解,作为非限制性示例,在此所描述的这些块、装置、系统、技术或方法可实施于硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备,或其组合中。
因此,至少一些实施例可以是装置,所述装置包括:至少一个滤波器,其被配置成对至少两个音频信号进行滤波以针对每个音频信号生成至少两组音频分量;比较器,其被配置成针对每组音频分量确定所述至少两个音频信号之间的差;以及信号组合器,其被配置成取决于针对每组音频分量的所述至少两个音频信号之间的所述差,通过选择性地组合针对每组音频分量的所述至少两个音频信号生成另外的音频信号。
可通过由移动设备的数据处理器(诸如在处理器实体中),或通过硬件,或通过软件和硬件的组合可执行的计算机软件来实施本发明的实施例。此外,在此方面,应注意,如附图中的逻辑流的任意块可表示程序步骤、或互连的逻辑电路、块和功能,或程序步骤与逻辑电路、块和功能的组合。所述软件可存储在物理介质(诸如存储器芯片),或在处理器内实施的存储器块,诸如硬盘或软盘之类的磁性介质,以及诸如例如DVD及其数据变体CD等光学介质中。
因此,至少一些实施例可以是编码有指令的计算机可读介质,其中当由计算机执行所述指令时,可执行:对至少两个音频信号进行滤波以针对每个音频信号生成至少两组音频分量;针对每组音频分量确定所述至少两个音频信号之间的差;以及取决于针对每组音频分量的所述至少两个音频信号之间的所述差,通过选择性地组合针对每组音频分量的所述至少两个音频信号生成另外的音频信号。
存储器可以是适用于当地技术环境的任何类型,并且可使用任何适当的数据存储技术来实施,诸如基于半导体的存储器设备、磁性存储器设备和系统、光学存储器设备和系统、固定存储器和可移动存储器。数据处理器可以是适用于当地技术环境的任何类型,并且作为非限制性示例,可包括下列类型中的一个或多个:通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门电平电路和基于多核处理器架构的处理器。
可在诸如集成电路模块之类的各种组件中实施本发明的实施例。集成电路的设计大体上是高度自动化的过程。可利用复杂且强大的软件工具将逻辑级设计转换成随时可在半导体衬底上蚀刻并形成的半导体电路设计。
诸如由加利福尼亚Mountain View的Synopsys Inc.和加利福尼亚San Jose的Cadence Design提供的程序可自动布线并使用制定完善的设计规则以及预存储的设计模块库在半导体芯片上定位组件。一旦完成半导体电路的设计,就能够将呈标准化电子格式(例如,Opus、GDSII等)的结果设计传输到半导体制造工厂或制造商以供制造。
如本申请中所使用的,术语“电路”表示所有下列各项:
a)仅硬件电路实现方式(诸如仅按照模拟和/或数字电路的实现方式);以及
b)电路和软件(和/或固件)的组合,诸如:(i)处理器的组合,或(ii)处理器/软件(包括数字信号处理器)的部分,软件,以及存储器,其一起工作以使诸如移动电话或服务器之类的装置执行各种功能;以及
c)电路,诸如微处理器或微处理器的一部分,其操作需要软件或固件,即使软件或固件并非物理存在的。
“电路”的定义应用于本申请中所有的对此术语的使用,包括任何权利要求。作为另一个示例,如本申请中所使用的,术语“电路”还将涵盖仅一个处理器(或多个处理器)或处理器的一部分及其伴随的软件和/或固件的实现方式。术语“电路”还将涵盖,例如且若适用于特殊的权利要求元素,用于移动电话的基带集成电路或应用处理器集成电路,或服务器、蜂窝网络设备或其它网络设备中的类似集成电路。
以上描述已通过示例性且非限制性示例的方式提供了对本发明的示例性实施例的全面且有教益的描述。然而,鉴于上述描述,相关领域的技术人员在结合附图和所附权利要求进行阅读时易于做出各种修改和适应。然而,对本发明的技术的所有这些和类似的修改仍将属于所附权利要求中所定义的本发明的范围。
Claims (15)
1.一种方法,其包括:
对至少两个音频信号进行滤波以对每个音频信号生成至少两组音频分量;
针对每组音频分量确定所述至少两个音频信号之间的差;以及
取决于针对每组音频分量的所述至少两个音频信号之间的所述差,通过选择性地组合针对每组音频分量的所述至少两个音频信号生成另外的音频信号。
2.如权利要求1所述的方法,其中对所述至少两个音频信号进行滤波包括将所述至少两个音频信号滤波成下列各项中的至少一个:
重叠频率范围组;
邻接频率范围组;
线性间隔频率范围组;以及
非线性间隔频率范围组。
3.如权利要求1和2所述的方法,其中确定所述至少两个音频信号之间的所述差包括:
确定针对频率范围低于频率阈值的第一组的第一差;以及
确定针对频率范围高于所述频率阈值的第二组的第二差。
4.如权利要求1至3所述的方法,其中所述差包括下列各项中的至少一个:
耳间电平差值;
耳间相位差值;以及
耳间时间差值。
5.如权利要求1至4所述的方法,其中选择性地组合针对每组音频分量的所述至少两个音频信号进一步包括:
通过将针对所述音频分量组的所述至少两个音频信号之间的所述差与针对所述组的至少一个差阈进行比较,为每组音频分量关联增益函数;
将针对所述组的每个音频信号乘以针对所述组的关联的增益值;以及
将针对所述组的所述音频信号与针对所述组的所述关联的增益值的乘积进行组合。
6.如权利要求5所述的方法,其中关联增益函数进一步包括:
将针对每组音频分量的第一增益函数与小于第一差阈的差进行关联;
将针对每组音频分量的第二增益函数与大于或等于第一差阈且小于第二差阈的差进行关联;
将针对每组音频分量的第三增益函数与大于或等于第二差阈的差进行关联。
7.如权利要求5和6所述的方法,进一步包括取决于下列各项中的至少一个来确定所述至少一个差阈:
测量的头部相关传递函数;
测量的头部相关脉冲响应;
选择的头部相关传递函数;
选择的头部相关脉冲响应;
修改的头部相关传递函数;以及
修改的头部相关脉冲响应。
8.一种装置,其包括至少一个处理器和至少一个存储器,所述存储器包括计算机程序代码,所述至少一个存储器和所述计算机程序代码被配置成,连同所述至少一个处理器,使得所述装置至少执行:
对至少两个音频信号进行滤波以对每个音频信号生成至少两组音频分量;
针对每组音频分量确定所述至少两个音频信号之间的差;以及
取决于针对每组音频分量的所述至少两个音频信号之间的所述差,通过选择性地组合针对每组音频分量的所述至少两个音频信号,生成另外的音频信号。
9.如权利要求8所述的装置,其中所述对所述至少两个音频信号进行滤波使得所述装置至少执行将所述至少两个音频信号滤波成下列各项中的至少一个:
重叠频率范围组;
邻接频率范围组;
线性间隔频率范围组;以及
非线性间隔频率范围组。
10.如权利要求8和9所述的装置,其中确定所述至少两个音频信号之间的所述差使得所述装置至少执行:
确定针对频率范围低于频率阈值的第一组的第一差;以及
确定针对频率范围高于所述频率阈值的第二组的第二差。
11.如权利要求8至10所述的装置,其中所述差包括下列各项中的至少一个:
耳间电平差值;
耳间相位差值;以及
耳间时间差值。
12.如权利要求8至11所述的装置,其中选择性地组合针对每组音频分量的所述至少两个音频信号使得所述装置至少执行:
通过将针对所述音频分量组的所述至少两个音频信号之间的所述差与针对所述组的至少一个差阈进行比较,为每组音频分量关联增益函数;
将针对所述组的每个音频信号乘以针对所述组的关联的增益值;以及
将针对所述组的所述音频信号与针对所述组的所述关联的增益值的乘积进行组合。
13.如权利要求12所述的装置,其中关联增益函数进一步使得所述装置至少执行:
将针对每组音频分量的第一增益函数与小于第一差阈的差进行关联;
将针对每组音频分量的第二增益函数与大于或等于第一差阈且小于第二差阈的差进行关联;以及
将针对每组音频分量的第三增益函数与大于或等于第二差阈的差进行关联。
14.如权利要求12和13所述的装置,其中所述至少一个处理器和至少一个存储器进一步使得所述装置至少执行取决于下列各项中的至少一个来确定所述至少一个差阈:
测量的头部相关传递函数;
测量的头部相关脉冲响应;
选择的头部相关传递函数;
选择的头部相关脉冲响应;
修改的头部相关传递函数;以及
修改的头部相关脉冲响应。
15.一种装置,其包括:
至少一个滤波器,其被配置成对至少两个音频信号进行滤波以对每个音频信号生成至少两组音频分量;
比较器,其被配置成确定针对每组音频分量的所述至少两个音频信号之间的差;以及
信号组合器,其被配置成取决于针对每组音频分量的所述至少两个音频信号之间的所述差,通过选择性地组合针对每组音频分量的所述至少两个音频信号生成另外的音频信号。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IN2055DE2009 | 2009-09-30 | ||
IN2055/DEL/2009 | 2009-09-30 | ||
PCT/FI2010/050709 WO2011039413A1 (en) | 2009-09-30 | 2010-09-15 | An apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102550048A true CN102550048A (zh) | 2012-07-04 |
CN102550048B CN102550048B (zh) | 2015-03-25 |
Family
ID=43825606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201080044113.1A Active CN102550048B (zh) | 2009-09-30 | 2010-09-15 | 一种用于处理音频信号的方法和装置 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP2484127B1 (zh) |
CN (1) | CN102550048B (zh) |
WO (1) | WO2011039413A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109951785A (zh) * | 2017-12-13 | 2019-06-28 | 奥迪康有限公司 | 听力装置及包括双耳降噪系统的双耳听力系统 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014164361A1 (en) * | 2013-03-13 | 2014-10-09 | Dts Llc | System and methods for processing stereo audio content |
DE102013217367A1 (de) * | 2013-05-31 | 2014-12-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und verfahren zur raumselektiven audiowiedergabe |
CN104468991A (zh) * | 2014-11-24 | 2015-03-25 | 广东欧珀移动通信有限公司 | 一种移动终端及其音频收发方法 |
EP3373595A1 (en) | 2017-03-07 | 2018-09-12 | Thomson Licensing | Sound rendering with home cinema system and television |
KR102531634B1 (ko) * | 2018-08-10 | 2023-05-11 | 삼성전자주식회사 | 오디오 장치 및 그 제어방법 |
CN108989688B (zh) * | 2018-09-14 | 2019-05-31 | 成都数字天空科技有限公司 | 虚拟相机防抖方法、装置、电子设备及可读存储介质 |
KR102613035B1 (ko) * | 2022-03-23 | 2023-12-18 | 주식회사 알머스 | 위치보정 기능의 이어폰 및 이를 이용하는 녹음방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1960582A (zh) * | 2005-11-02 | 2007-05-09 | 索尼株式会社 | 信号处理设备和方法 |
CN101065797A (zh) * | 2004-10-28 | 2007-10-31 | 诺伊拉尔音频公司 | 音频空间环境引擎 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0593128B1 (en) * | 1992-10-15 | 1999-01-07 | Koninklijke Philips Electronics N.V. | Deriving system for deriving a centre channel signal from a stereophonic audio signal |
US6853732B2 (en) * | 1994-03-08 | 2005-02-08 | Sonics Associates, Inc. | Center channel enhancement of virtual sound images |
JP3670562B2 (ja) * | 2000-09-05 | 2005-07-13 | 日本電信電話株式会社 | ステレオ音響信号処理方法及び装置並びにステレオ音響信号処理プログラムを記録した記録媒体 |
US7929708B2 (en) | 2004-01-12 | 2011-04-19 | Dts, Inc. | Audio spatial environment engine |
JP4887420B2 (ja) * | 2006-03-13 | 2012-02-29 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 中央チャンネルオーディオのレンダリング |
BRPI0716521A2 (pt) * | 2006-09-14 | 2013-09-24 | Lg Electronics Inc | tÉcnicas de melhoria de diÁlogo |
US8180062B2 (en) * | 2007-05-30 | 2012-05-15 | Nokia Corporation | Spatial sound zooming |
KR20130010893A (ko) * | 2010-03-26 | 2013-01-29 | 방 앤드 오루프센 에이/에스 | 멀티채널 사운드 재생 방법 및 장치 |
-
2010
- 2010-09-15 EP EP10819956.3A patent/EP2484127B1/en active Active
- 2010-09-15 WO PCT/FI2010/050709 patent/WO2011039413A1/en active Application Filing
- 2010-09-15 CN CN201080044113.1A patent/CN102550048B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101065797A (zh) * | 2004-10-28 | 2007-10-31 | 诺伊拉尔音频公司 | 音频空间环境引擎 |
CN1960582A (zh) * | 2005-11-02 | 2007-05-09 | 索尼株式会社 | 信号处理设备和方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109951785A (zh) * | 2017-12-13 | 2019-06-28 | 奥迪康有限公司 | 听力装置及包括双耳降噪系统的双耳听力系统 |
CN109951785B (zh) * | 2017-12-13 | 2022-07-15 | 奥迪康有限公司 | 听力装置及包括双耳降噪系统的双耳听力系统 |
Also Published As
Publication number | Publication date |
---|---|
EP2484127A1 (en) | 2012-08-08 |
CN102550048B (zh) | 2015-03-25 |
EP2484127B1 (en) | 2020-02-12 |
WO2011039413A1 (en) | 2011-04-07 |
EP2484127A4 (en) | 2013-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zotter et al. | Ambisonics: A practical 3D audio theory for recording, studio production, sound reinforcement, and virtual reality | |
CN102550048B (zh) | 一种用于处理音频信号的方法和装置 | |
KR100626233B1 (ko) | 스테레오 확장 네트워크에서의 출력의 등화 | |
JP4588945B2 (ja) | 2チャネル・ステレオ・フォーマットの左及び右のチャネル入力信号を左及び右のチャネル出力信号に変換する方法及び信号処理装置 | |
CN101527875B (zh) | 声音信号输出装置和方法 | |
JP5813082B2 (ja) | モノラル信号を立体音響化するための装置及び方法 | |
US8335331B2 (en) | Multichannel sound rendering via virtualization in a stereo loudspeaker system | |
KR20080060640A (ko) | 개인 청각 특성을 고려한 2채널 입체 음향 재생 방법 및장치 | |
CN107925835B (zh) | 头外定位处理装置以及头外定位处理方法 | |
EP2191462A2 (en) | A method and an apparatus of decoding an audio signal | |
WO2017009653A1 (en) | Synchronising an audio signal | |
EP3323214A1 (en) | Personal audio mixer | |
WO2018193163A1 (en) | Enhancing loudspeaker playback using a spatial extent processed audio signal | |
US20120109645A1 (en) | Dsp-based device for auditory segregation of multiple sound inputs | |
US20200059750A1 (en) | Sound spatialization method | |
JP2005157278A (ja) | 全周囲音場創生装置、全周囲音場創生方法、及び全周囲音場創生プログラム | |
US20210297802A1 (en) | Signal processing device, signal processing method, and program | |
CN109923877A (zh) | 对立体声音频信号进行加权的装置和方法 | |
KR101038574B1 (ko) | 3차원 오디오 음상 정위 방법과 장치 및 이와 같은 방법을 구현하는 프로그램이 기록되는 기록매체 | |
KR101725952B1 (ko) | 사용자의 hrtf 정보를 이용하여 n채널의 음원을 사용자에 최적화된 바이노럴 음원으로 다운 믹스하는 방법 및 시스템 | |
KR100802339B1 (ko) | 스테레오 스피커 환경에서 가상 스피커 기술을 사용한입체음향 재생 장치 및 방법 | |
KR20080031709A (ko) | 복수 채널 스피커 환경에서 가상 스피커 기술을 사용한입체음향 재생 장치 | |
US20240056735A1 (en) | Stereo headphone psychoacoustic sound localization system and method for reconstructing stereo psychoacoustic sound signals using same | |
JP3288519B2 (ja) | 音像位置の上下方向への制御方法 | |
WO2018193161A1 (en) | Spatially extending in the elevation domain by spectral extension |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20160121 Address after: Espoo, Finland Patentee after: Technology Co., Ltd. of Nokia Address before: Espoo, Finland Patentee before: Nokia Oyj |