CN105340299A - 用于生成环绕立体声声场的方法及其装置和程序产品 - Google Patents

用于生成环绕立体声声场的方法及其装置和程序产品 Download PDF

Info

Publication number
CN105340299A
CN105340299A CN201480034420.XA CN201480034420A CN105340299A CN 105340299 A CN105340299 A CN 105340299A CN 201480034420 A CN201480034420 A CN 201480034420A CN 105340299 A CN105340299 A CN 105340299A
Authority
CN
China
Prior art keywords
sound field
surround sound
capturing equipment
audio signal
audio capturing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480034420.XA
Other languages
English (en)
Other versions
CN105340299B (zh
Inventor
孙学京
程斌
徐森
双志伟
王珺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Priority to CN201480034420.XA priority Critical patent/CN105340299B/zh
Publication of CN105340299A publication Critical patent/CN105340299A/zh
Application granted granted Critical
Publication of CN105340299B publication Critical patent/CN105340299B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/001Monitoring arrangements; Testing arrangements for loudspeakers
    • H04R29/002Loudspeaker arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • H04R29/005Microphone arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection

Abstract

本申请涉及生成环绕立体声声场。具体地,提出一种用于生成环绕立体声声场的方法、装置和计算机程序产品。该方法包括:接收由多个音频捕获设备捕获的音频信号;估计多个音频捕获设备的拓扑;并且至少部分地基于估计的拓扑从接收的音频信号生成环绕立体声声场。

Description

用于生成环绕立体声声场的方法及其装置和程序产品
相关申请交叉引用
本申请要求2013年6月18日提交的中国专利申请号201310246729.2和2013年6月26日提交的美国临时专利申请号61/839,474的优先权,在此通过引用并入二者的全部内容。
技术领域
本发明涉及信号处理。更具体地,本发明的实施例涉及生成环绕立体声声场。
背景技术
传统上,环绕立体声声场或是由专用的环绕立体声声场记录设备装置创建,或者由专业的混音工程师或软件应用将声源平推到不同的声道而生成。这两种办法对终端用户来说都无法轻易实现。在过去的数十年中,诸如移动电话、平板电脑、媒体播放器和游戏机等越来越多的普适移动设备已经配备有音频捕获和/或处理功能。然而,多数移动设备(移动电话、平板电脑、媒体播放器、游戏机)仅被用于实现单声道音频捕获。
已经提出了多种方法用于使用移动设备来创建环绕立体声声场。然而,这些方法或者严格依赖接入点,或者没有将日常使用的非专业移动设备的特性纳入考虑。例如,在使用异质用户设备的自组织(adhoc)网络生成环绕立体声声场时,不同移动设备的记录时间可能是不同步的,并且移动设备的位置和拓扑可能是未知的。而且,音频捕获设备的增益及频率响应可能不同。因此,目前,无法通过日常用户所使用音频捕获设备而有效且高效地生成环绕立体声声场。
有鉴于此,在本领域中需要一种能够以有效且高效的方式生成环绕立体声声场的解决方案。
发明内容
为了解决上述和其他潜在问题,本发明的实施例提出一种用于生成环绕立体声声场的方法、装置和计算机程序产品。
在一个方面,本发明的实施例提供一种生成环绕立体声声场的方法。该方法包括:接收由多个音频捕获设备捕获的音频信号;估计多个音频捕获设备的拓扑;以及至少部分地基于估计的拓扑从接收的音频信号生成环绕立体声声场。该方面的实施例还包括相应的计算机程序产品,该计算机程序产品包括有形地包含于机器可读介质上的用于执行该方法的计算机程序。
在另一方面,本发明的实施例提供一种生成环绕立体声声场的装置。该装置包含:接收单元,被配置为接收由多个音频捕获设备捕获的音频信号;拓扑估计单元,被配置为估计多个音频捕获设备的拓扑;以及生成单元,被配置为至少部分地基于估计的拓扑生成环绕立体声声场。
可以实现本发明的这些实施例以实现以下一个或多个优点。根据本发明的实施例,环绕立体声声场可以通过使用终端用户的音频捕获设备(诸如装备在移动电话上的麦克风)的自组织网络而生成。由此,可以不再需要昂贵且复杂的专业设备和/或人类专家。此外,通过基于对音频捕获设备的拓扑估计而动态地生成环绕立体声声场,可以将环绕立体声声场的品质维持在较高水平。
通过连同附图阅读下列具体实施方式,还将理解本发明的实施例的其他特征和优势,附图以示例方式图示了本发明的精神和原理。
附图说明
本发明的一个或多个实施例的细节在下列附图和描述中阐明。本发明的其他特征、方面和优势将从描述、附图和权利要求中变得明显,其中:
图1示出了本发明的示例实施例可实现于其中的系统的框图;
图2A-图2C示出了根据本发明示例实施例的音频捕获设备的拓扑的若干示例的示意图;
图3示出了根据本发明示例实施例的用于生成环绕立体声声场的方法的流程图;
图4A-图4C分别示出了在使用一个示例映射矩阵时针对各种频率的B-格式处理中的W、X和Y声道的极性图(polarpattern)的示意图;
图5A-图5C分别示出了在使用另一示例映射矩阵时针对各种频率的B-格式处理中的W、X和Y声道的极性图的示意图;
图6示出了根据本发明示例实施例的用于生成环绕立体声声场的装置的框图;
图7示出了用于实现本发明的示例实施例的用户终端的框图;以及
图8示出了用于实施本发明的示例实施例的系统的框图。
贯穿所有附图,相同或相似的参考标号指示相同或相似的元素。
具体实施方式
总体上,本发明的实施例提供用于生成环绕立体声声场的方法、装置和计算机程序产品。根据本发明的实施例,环绕立体声声场可以通过使用音频捕获设备(诸如终端用户的移动电话)的自组织网络而被有效和准确地生成。下面将详细描述本发明的某些实施例。
首先参考图1,其示出了本发明的实施例可实现于其中的系统100的框图。在图1中,系统100包括多个音频捕获设备101以及服务器102。根据本发明的实施例,除了其他功能之外,音频捕获设备101,能够捕获、记录和/或处理音频信号。音频捕获设备101的示例可以包括但不限于移动电话、个人数字助理(PDA)、膝上型计算机、平板式计算机、个人计算机(PC)或任何配备有音频捕获功能的其他适当的用户终端。例如,可以购得的移动电话通常都配备至少一个麦克风,因此可以充当音频捕获设备101。
根据本发明的实施例,音频捕获设备101可以被布置在一个或多个自组织网络或组103中,每个自组织网络103可以包括一个或多个音频捕获设备。音频捕获设备可以按照预定义的策略被分组,或者被动态地分组,将在下文详述。不同组可以位于相同或不同的物理位置。在每个组内,音频捕获设备位于相同的物理位置并且可以彼此接近地放置。
图2A-图2C示出了包括三个音频捕获设备的组的某些示例。在图2A-图2C中示出的示例实施例中,音频捕获设备101可以是移动电话、PDA或任何其他的便携式用户终端,其配备了用于捕获音频信号的音频捕获元件201,诸如一个或多个麦克风。特别地,在图2C中示出的示例实施例中,音频捕获设备101还配备有视频捕获元件202,诸如照相机,以使得音频捕获设备101可以被配置为在捕获音频信号的同时捕获视频和/或图像。
应当注意,一个组内的音频捕获设备的数目不限于三个。相反,任何合适数目的音频捕获设备都可以被安排进组。此外,在一个组内,多个音频捕获设备可以被安排成任何期望的拓扑。在某些实施例中,组内的音频捕获设备可以借助于计算机网络、蓝牙、红外线、电信等彼此通信,这里仅仅是几个例子。
继续参考图1,如图所示,服务器102经由网络连接可通信地连接至音频捕获设备101的组。音频捕获设备101和服务器102例如可以通过计算机网络,诸如局域网(“LAN”)、广域网(“WAN”)或因特网、通信网络、近场通信连接或其任何组合而彼此通信。本发明的范围在此方面不受限制。
在操作中,环绕立体声声场的生成可以由音频捕获设备101或者由服务器102发起。特别地,在某些实施例中,音频捕获设备101可以登录到服务器102并且请求服务器102生成环绕立体声声场。然后,发送请求的音频捕获设备101将变成主设备,它向其他捕获设备发送邀请,以邀请其他捕获设备加入音频捕获会话。在此方面,可能存在主设备所属的预定的组。在这些实施例中,该组内的其他音频捕获设备接收来自主设备的邀请并且加入音频捕获会话。备选地或附加地,另外一个或多个音频捕获设备可以被动态地识别并且与主设备分组在一起。例如,在GPS(全球定位服务)之类的定位服务可用于音频捕获设备101的情况下,可以自动地邀请与主设备邻近的一个或多个音频捕获设备加入音频捕获组。在某些备选实施例中,对音频捕获设备的发现和分组也可以由服务器102执行。
在形成音频捕获设备的组之后,服务器102向该组内的所有音频捕获设备发送捕获命令。备选地,捕获命令可以由组内的音频捕获设备101之一发送,例如由主设备发送。在接收到捕获命令之后,组内的每个音频捕获设备将立即开始捕获并且记录音频信号。当任何捕获设备停止捕获时,音频捕获会话将结束。在音频捕获期间,音频信号可以被本地记录在音频捕获设备101上,并且在捕获会话完成之后被发送至服务器102。备选地,所捕获的音频信号可以实时地传输至服务器102。
根据本发明的实施例,被一个组的音频捕获设备101捕获的音频信号被分配相同的组标识(ID),使得服务器102能够识别传入的音频信号是否属于相同的组。另外,除音频信号之外,可以向服务器102发送与音频捕获会话有关的任何信息,包括组内的音频捕获设备101的数目、一个或多个音频捕获设备101的参数,等等。
基于由多个捕获设备101的组捕获的音频信号,服务器102执行一系列操作以处理音频信号从而生成环绕立体声声场。在此方面,图3示出了用于根据多个捕获设备101所捕获的音频信号生成环绕立体声声场的方法的流程图。
如图3所示,当在步骤S301处接收到由一组音频捕获设备101捕获的音频信号之后,在步骤S302处估计这些音频捕获设备的拓扑。估计组内的音频捕获设备101的位置的拓扑对于随后的空间处理而言是重要的,其对于重现声场具有直接的影响。根据本发明的实施例,音频捕获设备的拓扑可以通过各种方式来估计。例如,在某些实施例中,音频捕获设备101的拓扑可以是预定的并且因此是服务器102所知道的。在这种情况下,服务器102可以使用组ID来确定音频信号发送自哪个组,继而获取与所确定的组相关联的预定拓扑作为拓扑估计。
备选地或附加地,音频捕获设备101的拓扑可以基于组内的多个音频捕获设备101的每个配对之间的距离来估计。存在多种可能方式能够获取音频捕获设备101的每个配对之间的距离。例如,在那些音频捕获设备能够回放音频的实施例中,每个音频捕获设备101都可以被配置为各自同时回放一段音频,并且接收来自组内其他设备的音频信号。也即,每个音频捕获设备101向组内的其他成员广播一个唯一的音频信号。作为示例,每个音频捕获设备可以回放跨唯一频率范围的和/或具有任何其他特殊声学特征的线性调频信号(linearchirpsignal)。通过记录线性调频信号被收到时的时刻,可以通过声学测距处理来计算每对音频捕获设备101之间的距离,这是本领域技术人员所知道的,并且不再在此详述。
这种距离计算例如可以在服务器102执行。备选地,如果音频捕获设备可以直接地彼此通信,这种距离计算也可以在客户端执行。在服务器102处,如果组内仅存在两个音频捕获设备101,则无需附加的处理。当存在多于两个音频捕获设备101时,在某些实施例中,可以在已获取的距离上执行多维定标(MultidimensionalScaling,MDS)分析或类似处理以估计音频捕获设备的拓扑。特别地,利用指示音频捕获设备101的配对之间距离的输入矩阵,MDS可被应用以生成音频捕获设备101在二维空间中的坐标。例如,假设在包括三个设备的组内的测量到的距离矩阵是:
0 0.1 0.1 0.1 0 0.15 0.1 0.15 0
则指示音频捕获设备101的拓扑的二维(2D)MDS的输出是M1(0,-0.0441),M2(-0.0750,0.0220)和M3(0.0750,0.0220)。
应当注意,本发明的范围不限于以上说明的示例。能够估计音频捕获设备配对之间距离的任何适当方式均可与本发明的实施例结合使用,无论是目前已知的还是将来开发的。例如,音频捕获设备101可以被配置为相互广播电信号和/或光信号以支持距离估计,而不是回放音频信号。
接下来,方法300继续到步骤S303,在此对步骤S301处接收的音频信号执行时间对齐,使得由不同捕获设备101捕获的音频信号在时间上彼此对齐。根据本发明的实施例,音频信号的时间对齐可以通过多种可行方式来实现。在某些实施例中,服务器102可以实现基于协议的时钟同步处理。例如,网络时间协议(NTP)跨因特网提供准确且同步的时间。当连接至因特网时,每个音频捕获设备101可被配置为在执行音频捕获的同时分别执行与NTP服务器的同步。本地时钟无需调整,而是可以计算本地时钟与NTP服务器之间的偏移并将它存储为元数据。一旦音频捕获终止,本地时间及其偏移就随通音频信号一起被发送至服务器102。服务器102继而基于此类时间信息来对齐所接收的音频信号。
备选地或附加地,步骤S303处的时间对齐可以由端对端(peer-to-peer)时钟同步处理来实现。在这些实施例中,音频捕获设备可以端对端地彼此通信,例如通过蓝牙或红外线连接之类的协议。音频捕获设备之一可以被选择为同步主,并且可以计算所有其他捕获设备的时钟相对于该同步主的偏移。
另一可能的实施是基于互相关(cross-correlation)的时间对齐。已知的是,一对输入信号x(i)和y(i)之间的一系列互相关系数可以通过如下公式计算:
r ( d ) = Σ i = 0 N - 1 [ ( x ( i ) - x ‾ ) · ( y ( i - d ) - y ‾ ) ] ( x ( i ) - x ‾ ) 2 ( y ( i - d ) - y ‾ ) 2
其中表示x(i)和y(i)的平均值,N表示x(i)和y(i)的长度,并且d表示两个系列之间的时滞。两个信号之间的时延可以如下计算:
D = arg m a x d { r ( d ) }
然后使用x(i)作为参考,信号y(i)可以通过如下公式与x(i)时间对齐:
y(k)=y(i-D)
应当理解,尽管时间对齐可以通过应用互相关处理来实现,但如果搜索范围过大,该操作可能是耗时的并且是易错的。然而,实践中搜索范围不得不相当长,以便于适应较大的网络时延变化。为了解决该问题,可以收集关于音频捕获设备101所发出的校准信号的信息并且将其发送至服务器102,以用于缩小互相关处理的搜索范围。如上所述,在本发明的某些实施例中,在开始音频捕获时,音频捕获设备101可以向组内的其他成员广播音频信号,由此支持对每对音频捕获设备101之间距离的计算。在这些实施例中,广播音频信号还可以被用作校准信号,用以减小信号相关所耗费的时间。特别地,考虑组内的两个音频捕获设备A和B,假设:
SA是设备A发出播放校准信号的命令的时刻;
SB是设备B发出播放校准信号的命令的时刻;
RAA是设备A接收到由设备A发送的信号的时刻;
RBA是设备A接收到由设备B发送的信号的时刻;
RBB是设备B接收到由设备B发送的信号的时刻;
RAB是设备B接收到由设备A发送的信号的时刻。
这些时刻中的一个或多个可以被音频捕获设备101记录并且被发送至服务器102以用于互相关处理。
一般而言,从设备A到设备B的声传播时延小于网络时延差异。即SB-SA>RAB-SA。因此,时刻RBA和RBB可被用于启动基于互相关的时间对齐处理。换言之,仅在时刻RBA和RBB之后的音频信号样本才将被包括到互相关计算中。以此方式,搜索范围可得以减小并且因此提高了时间对齐的效率。
然而,网络时延差异也可能小于声音传播时延差异。这可能在网络具有极低抖动或两个设备被放置相隔较远或二者都存在的情况下发生。在这种情况下,SB和SA可被用作互相关处理的起始点。特别地,因为SB和SA之后的音频信号可能包含校准信号,因此RBA可被用作针对设备A的相关的起始点,而SB+(RBA-SA)可被用作针对设备B相关的起始点。
将会理解,用于时间对齐的上述机制可以通过任何适当的方式结合。例如,在本发明的某些实施例中,时间对齐可以分为三步处理。首先,可以在音频捕获设备101和服务器102之间执行粗略时间同步。接下来,上文讨论的校准信号可被用于精确同步。最后,互相关分析被应用,以完成音频信号的时间对齐。
应当注意,步骤S303处的时间对齐是可选的。例如,如果通信和/或设备条件足够好的话,有理由认为所有的音频捕获设备101几乎在相同的时间接收到捕获命令,并且因此同时开始进行音频捕获。此外,将会容易地理解,在某些对环绕立体声声场的品质不是很敏感的应用中,可以容许或忽略一定程度的音频捕获起始时间的未对齐。在这些情形中,可以省略步骤S303处的时间对齐。
特别地,应当注意,步骤S302并非一定要在步骤S303之前执行。在某些备选地实施例中,音频信号的时间对齐可以先于或甚至并行于拓扑估计而被执行。例如,诸如NTP同步或端对端同步的时钟同步处理可以在拓扑估计之前被执行。取决于声学测距方法,这种时钟同步处理可能有益于拓扑估计中的声学测距。
继续参考图3,在步骤S304,至少部分地基于步骤S302处的拓扑估计,从接收到的音频信号(可能已在时间上对齐)生成环绕立体声声场。为此目的,根据某些实施例,可以基于音频捕获设备的数目来选择用于处理音频信号的模式。例如,如果组内仅存在两个音频捕获设备101,则可以简单地结合两个音频信号以生成立体声输出。可选地,还可以执行某些后处理,包括但不限于立体声声像加宽、多声道混合,等等。另一方面,当组内存在不止两个音频捕获设备101时,可以应用Ambisonics处理或称B-格式(B-format)处理来生成环绕立体声声场。应当注意,对处理模式的自适应选择并非一定是必需的。例如,即使仅存在两个音频捕获设备,也可以通过由B-格式处理来处理捕获的音频信号从而生成环绕立体声声场。
接下来,将参考Ambisonics处理来描述本发明的如何生成环绕立体声声场的实施例。然而应该注意,本发明的范围在此方面不受限制。能够基于所估计的拓扑而从接收到的音频信号生成环绕立体声声场的任何适当技术都可以与本发明的实施例结合使用。例如,也可以使用双声道或5.1声道环绕声生成技术。
对于Ambisonics,它被认为是用于提供声场和声源定位可恢复性的灵活的空间音频处理技术。在Ambisonics中,3D环绕立体声声场被记录为四声道信号,称为具有W-X-Y-Z声道的B-格式。W声道包含全向声压信息,而剩下的三个声道X、Y和Z表示3D卡迪尔坐标系中的三个相应坐标轴上测量的声速信息。特别地,给出定位在方位角和仰角θ的声源S,环绕立体声声场的理想B-格式表示为:
W = 2 2 S
Z=sinθ·S
为简化目的,在下文对用于B-格式信号的指向性图(directivitypattern)的讨论中,仅考虑水平的W、X和Y声道,而仰角轴Z将被忽略。这是一个合理的假设,因为对于根据本发明实施例的音频捕获设备101捕获音频信号的方式而言,通常不存在仰角信息。
对于一个平面波,离散阵列的指向性可以表示如下:
D ( f , α ) = Σ n = - N - 1 2 N - 1 2 A n ( f , r ) e j 2 π α · r
其中表示距离中心的距离为R并且角度的音频捕获设备的空间位置,α表示角度处的声源位置:
此外,An(f,r)表示音频捕获设备的权重,其可以被定义为用户定义的权重与音频捕获设备在特定频率和角度处的增益的乘积:
其中β=0.5表示心形(cardioid)极性图,β=0.7表示亚心形(subcardioid)极性图,β=1表示全指向性。
可以看到,一旦确定了音频捕获设备的极性图和拓扑位置,针对捕获的各音频信号的权重Wn(f)将影响所生成的声场的品质。不同的权重Wn(f)将生成不同品质的B-格式信号。针对不同音频信号的权重可以被表示为映射矩阵。考虑图2A中所示的拓扑作为示例,从音频信号M1、M2和M3到W、X和Y声道的映射矩阵(W)可以被定义如下:
W = 1 3 1 3 1 3 1 2 1 2 - 1 1 - 1 0
W X Y = W × M 1 M 2 M 3
传统B-格式信号通过使用专门设计的(往往相当昂贵)诸如专业声场麦克风的麦克风阵列生成。在这种情况下,映射矩阵可以被提前设计并且在操作中保持不变。然而,根据本发明的实施例,音频信号是由可能具有变化拓扑的、动态分组的音频捕获设备的自组织网络所捕获的。因此,现有的解决方案可无法用于从由这类不是专门设计和放置的用户设备捕获的未加工音频信号生成W、X和Y声道。例如,假设一个组包含三个音频捕获设备101,它们具有π/2,3π/4,和3π/2的角度和距离中心相同的4cm的距离。图4A-图4C分别示出了在使用如上所述的原始映射矩阵时分别针对各个频率的W、X和Y声道的极性图。可以看到,X和Y声道的输出不正确,因为它们不再相互正交。而且,W声道变得有问题,甚至低至1000Hz。因此,期望映射矩阵能够灵活地调整,以便确保所生成的环绕立体声声场的高品质。
为此目的,根据本发明的实施例,被表示为映射矩阵的用于各音频信号的权重可以基于在步骤S303处估计的音频捕获设备的拓扑而被动态地调整。仍考虑上述示例拓扑,其中三个音频捕获设备101具有角度π/2、3π/4和3π/2以及相同的距中心的4cm的距离,如果映射矩阵根据该特定拓扑而被调整为例如:
W = 1 2 1 2 0 1 0 - 1 6 7 - 1 1 7
则可以达到比较理想的结果,这可以从图5A-图5C看出,其分别示出了该情形中针对各频率的W、X和Y声道的极性图。
根据某些实施例,可以基于所估计的音频捕获设备的拓扑来实时地选择音频信号的权重。附加地或备选地,可以基于预定义的模板来实现对映射矩阵的调整。在这些实施例中,服务器102可以维护一个存储库,其存储有一系列预定义的拓扑模板,其中的每个拓扑模板中对应于一个经过预先调配的映射矩阵。例如,拓扑模板可以由音频捕获设备的坐标系和/或位置关系来表示。对于给定的估计拓扑,可以确定与该估计拓扑相匹配的模板。存在多种方式来定位匹配的拓扑模板。作为示例,在一个实施例中,计算所估计的音频捕获设备坐标与模板中的坐标之间的欧氏距离。具有最小距离的拓扑模板被确定为匹配的模板。由此,对应于所确定的匹配拓扑模板的预调的映射矩阵被选则,以用于生成B-格式信号形式的环绕立体声声场。
在某些实施例中,除了所确定的拓扑模板之外,用于各个设备所捕获的音频信号的权重还可以基于这些音频信号的频率来选择。特别地,观察到:对于较高的频率而言,空间混淆现象(aliasing)由于音频捕获设备之间相对较大的间隔而开始出现。为了进一步提高性能,对B-格式处理中的映射矩阵的选择还可以基于音频频率而实现。例如,在某些实施例中,每个拓扑模板可以对应于至少两个映射矩阵。在确定了位置拓扑模板之后,将接收到的音频信号的频率与预定阈值进行比较,并且可以基于该比较来选择并且使用与所确定的拓扑模板相对应的映射矩阵之一。如上文所述,使用选择的映射矩阵,B-格式处理可被应用于所接收的音频信号以生成环绕立体声声场。
应当注意,尽管环绕立体声声场被示为基于拓扑估计而生成,但本发明在此方面并不受到限制。例如,在时钟同步和距离/拓扑估计不可用或者是已知的某些备选实施例中,可以直接从应用于所捕获音频信号的互相关处理而生成声场。例如,在音频捕获设备的拓扑已知的情况下,可以执行互相关处理以实现音频信号的一定的时间对齐,继而可以只通过在B-格式处理中应用固定的映射矩阵来生成声场。以此方式,可以基本上移除不同声道之中针对主要声源的时间延迟差异。由此,减少了音频捕获设备阵列的传感器距离,从而创建了一致的阵列。
可选择地,方法300继续至步骤S305,以估计所生成的环绕立体声声场相对于渲染设备的波达方向(DOA)。然后在步骤S306处,至少部分地基于所估计的DOA来旋转环绕立体声声场。根据DOA旋转所生成的环绕立体声声场的主要目的是改善环绕立体声声场的空间渲染。当执行基于B-格式的空间渲染时,在左边的和右边的音频捕获设备之间存在名义上的正面,即0度方位角。在双声道回放期间,来自该方向的声源将被认为是来自正面的。期望让目标声源来自正面,因为这是最自然的听音状态。然而,由于音频捕获设备被放置在自组织网络中的性质,不可能总是要求用户将左边和右边的设备指向主要目标声源方向,例如表演舞台。为了解决该问题,可以使用多声道输入来执行DOA估计,以根据所估计的角度θ来旋转立体声声场。在此方面,诸如相位变换加权广义互相关(GCC-PHAT)、联合可控响应功率和相位变换(SRP-PHAT)、多信号分级(MUSIC)的DOA算法或者任何其他适当DOA估计算法都可以与本发明的实施例结合使用。继而,可以利用如下标准旋转矩阵而容易地对于B-格式信号实现声场旋转:
在某些实施例中,除DOA之外,还可以基于所生成声场的能量来旋转声场。换言之,可能依据能量和持续时间这二者来发现最主要的声源。目标就是为声场中的用户找到最佳的听音角度。以θn和En分别表示针对所生成声场的帧n的短期估计的DOA和能量,并且所生成的整个声场的总帧数为N。进一步假设内侧面(medialplane)为0度,并且角度是逆时针方向测量的。由此,一个帧对应于使用极坐标表示的一个点(θn,En)。在一个实施例中,例如可以通过使如下目标函数最大化来确定旋转角θ’:
接下来,方法300继续至可选的步骤S307,在此可以将生成的声场转换为合适于在渲染设备上回放的任何目标格式。继续考虑环绕立体声声场被生成为B-格式信号的示例。容易理解,一旦B-格式信号被生成,W、X、Y声道可以被转换为适合于空间渲染的各种格式。对Ambisonics的解码和重放取决于用于空间渲染的扬声器系统。一般而言,将Ambisonics信号解码成一系列扬声器信号是基于这样的假设:如果被解码的扬声器信号正在被回放,则在扬声器阵列的几何中心处被录制的“虚拟”Ambisonics信号应该与用于解码的Ambisonics信号相同。这可以表达为:
C·L=B
其中,L={L1,L2,...,Ln}T表示一组扬声器信号,B={W,X,Y,Z}T表示被假设为与用于解码的Ambisonics信号相同的“虚拟”Ambisonics信号,并且C被已知为“重编码”矩阵,它由扬声器阵列的几何定义(即由每个扬声器的方位角、仰角)来定义。例如,给出扬声器阵列,其中扬声器被水平地置于方位角{45°,-45°,135°,-135°}和仰角{0°,0°,0°,0°},这将C定义为:
基于此,扬声器信号可被导出为:
L=D·B
其中D表示通常被定义为C的伪逆矩阵的解码矩阵。
根据某些实施例,因为用户可能会在移动设备上收听音频文件,因此可能期望双声道渲染,其中音频通过一对耳机或头戴式耳机被回放。B-格式到双声道格式的转换可以这样来近似地实现:将扬声器阵列馈送相加,每个扬声器阵列馈送由与扬声器位置相匹配的头部相关传递函数(HRTF)过滤。在空间听觉中,定向声源在两个不同的传播路径上传播分别到达左耳和右耳。这导致了两耳入口信号之间的到达时间和强度的不同,这继而被人类听觉系统用来产生本地化听觉。这两个传播路径可以通过被称为头部相关传递函数的一对依赖于方向的声学滤波器而建模。例如,给出位于方向的声源S,耳入口信号Sleft和Sright可以被建模为:
其中表示方向的HRTF。在实践中,给定方向的HRTF可以这样来测量:通过使用插入在对象(人或者仿真头部)耳朵处的探针麦克风拾取来自定位在该方向的脉冲或已知刺激的响应。
这些HRTF测量值可被用于从单声道声源合成虚拟耳朵入口信号。通过使用一对与特定方向对应的HRTF来过滤该声源并且将得到的左右信号经由头戴式耳机或耳机呈现给听者,可以模拟如下声场,该声场具有在期望的方向被空间化(spatialized)的虚拟声源。使用上述的四扬声器阵列,可以如下这样将W、X和Y通道转换为双声道信号:
S l e f t S r i g h t = H l e f t , 1 H l e f t , 2 H l e f t , 3 H l e f t , 4 H r i g h t , 1 H r i g h t , 2 H r i g h t , 3 H r i g h t , 4 · L 1 L 2 L 3 L 4
其中Hleft,n表示从第n个扬声器到左耳的转换函数,且Hright,n表示从第n个扬声器到右耳的转换函数。这可以扩展到更多的扬声器:
s l e f t s r i g h t = H l e f t , 1 H l e f t , 2 ... H l e f t , n H r i g h t , 1 H r i g h t , 2 ... H r i g h t , n . L 1 L 2 ... L n
其中n代表扬声器的总数。
在将所生成的环绕立体声声场转换为适当格式的信号之后,服务器102可以将该信号发送给渲染设备以用于呈现。在某些实施例中,渲染设备和音频捕获设备可以共同定位在相同的物理终端上。
方法300在步骤S307之后结束。
现在参考图6,其示出了根据本发明实施例的用于生成环绕立体声声场的装置的框图。根据本发明的实施例,装置600可以位于图1示出的服务器102中或以其他方式与服务器102相关联,并且可以被配置为执行上述参考图3描述的方法300。
如图所示,根据本发明的实施例,装置600包括接收单元601,被配置为接收由多个音频捕获设备捕获的音频信号。装置600还包括拓扑估计单元602,被配置为估计多个音频捕获设备的拓扑。此外,装置600包括生成单元603,被配置为从至少部分地基于估计的拓扑而从所接收的音频信号生成环绕立体声声场。
在某些示例实施例中,估计单元602可以包括:距离获取单元,被配置为获取多个音频捕获设备中的每对音频捕获设备之间的距离;以及MDS单元,被配置为通过对所获取的距离执行多维标度(MDS)分析来估计拓扑。
在某些示例实施例中,生成单元603可以包括模式选择单元,被配置为基于多个音频捕获设备的数目来选择用于处理音频信号的模式。备选地或附加地,在某些示例实施例中,生成单元603可以包括:模板确定单元,被配置为确定与多个音频捕获设备的估计拓扑相匹配的拓扑模板;权重选择单元,被配置为至少部分地基于所确定的拓扑模板来选择用于音频信号的权重;以及信号处理单元,被配置为使用所选的权重处理音频信号,以生成环绕立体声声场。在某些示例实施例中,权重选择单元可以包括被配置为基于所确定的拓扑模板和音频信号的频率来选择权重的单元。
在某些示例实施例中,装置600还可以包括时间对齐单元604,被配置为在音频信号上执行时间对齐。在某些示例实施例中,时间对齐单元604被配置为应用基于协议的时钟同步处理、端对端时钟同步处理和互相关处理中的至少一个。
在某些示例实施例中,装置600还可以包括:DOA估计单元605,被配置为估计所生成的环绕立体声声场相对于渲染设备的波达方向(DOA);以及旋转单元606,被配置为至少部分地基于所估计的DOA旋转所生成的环绕立体声声场。在某些实施例中,旋转单元可以包括被配置为基于所估计的DOA和所生成的环绕立体声声场的能量来旋转所生成的环绕立体声声场的单元。
在某些示例实施例中,装置600还可以包括:转换单元607,被配置为将所生成的环绕立体声声场转换为用于在渲染设备上回放的目标格式。例如,B-格式信号可以被转换为双声道信号或5.1-声道环绕声信号。
应当注意,装置600中的各种单元分别对应于参考图3的上述方法300的步骤。因此,所有参考图3描述的特征也适用于装置600,此处不再详述。
图7是图示用于实施本发明的实施例的用户终端700的框图。用户终端700可以操作为在此讨论的音频捕获设备101。在某些实施例中,用户终端700可以实现为移动电话。然而,应当理解,移动电话仅仅是能够从本发明的实施例获益的装置类型之一,不应被用来限制本发明实施例的范围。
如图所示,用户终端700包括一个或多个天线712,与发射器714和接收器716进行可操作的通信。用户终端700还包括至少一个处理器或控制器720。例如,控制器720可以由数字信号处理器、微处理器以及各种模拟到数字转换器、数字到模拟转换器和其他支持电路组成。用户终端700的控制和信息处理功能根据这些设备各自的性能在它们之间进行分配。用户终端700还包括用户接口,该用户接口包括输出设备诸如振铃器722、耳机或扬声器724、用于音频捕获的一个或多个麦克风726、显示器728,以及用户输入设备诸如小键盘730、控制杆或其他用户输入接口,所有这些设备与控制器720耦合。用户终端700还包括电池734,诸如震动电池组,用于向各种被要求操作用户终端700的电路供能,并且可选地提供作为可检测的输出的机械振动。
在某些实施例中,用户终端700包括与控制器720通信的媒体捕获元件,诸如照相机、视频和/或音频模块。媒体捕获元件可以是任何用于捕获图像、视频和/或音频以进行存储、显示或传输的装置。例如,在媒体捕获元件是照相机模块736的示例实施例中,照相机模块736可以包括能够从捕获的图像中形成数字图像文件的数字照相机。当实现为移动终端时,用户终端700可以还包括通用识别模块(UIM)738。UIM738通常是带有内置处理器的存储设备。UIM738可以例如包括用户识别模块(SIM)、通用集成电路卡(UICC)、通用用户识别模块(SUIM)、可移动用户识别模块(R-UIM)等等。UIM738通常存储与用户相关的信息元素。
用户终端700可以配备有至少一个存储器。例如,用户终端700可以包括易失存储器740,诸如包括用于临时存储数据的缓存区域的易失随机存取存储器(RAM)。用户终端700还可以包括其他的非易失存储器742,其能够被嵌入和/或可以是可拆卸的。非易失存储器742能够附加地或备选地包括EEPROM、闪存等等。存储器能够存储被用户终端700用于实施用户终端700功能的任意数目的信息、程序和数据。
参见图8,其示出了用于实施本发明实施例的示例计算机系统800的框图。例如,计算机系统800可操作为上文描述的服务器102。如图所示,中央处理单元(CPU)801根据存储在只读存储器(ROM)802的程序或从存储部分808加载至随机存储存取器(RAM)803的程序来执行各种处理。在RAM803中,当CPU801执行各种处理时需要的数据等也根据需要存储。CPU801、ROM802和RAM803经由总线804互相连接。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可移动介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
在上文描述的步骤和操作(例如,方法300)由软件实施的情况下,构成软件的程序从诸如因特网的网络或诸如可移动介质811的存储介质中安装。
一般而言,本发明的各种示例实施例可以在硬件或专用电路、软件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本发明的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或其某些组合中实施。
例如,上述装置600可以实施为硬件、软件/固件,或其任何组合。在某些实施例中,装置600中的一个或多个单元可以实施为软件模块。备选地或附加地,单元中的某些或全部可以用如集成电路(IC)、专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等的硬件模块实施。在这一点上本发明的范围不受限制。
而且,图3中示出的各框可以被看作是方法步骤,和/或计算机程序代码的操作生成的操作,和/或理解为执行相关功能的多个耦合的逻辑电路元件。例如,本发明的实施例包括计算机程序产品,该计算机程序产品包括有形地实现在机器可读介质上的计算机程序,该计算机程序包含被配置为实现上述方法300的程序代码。
在公开的上下文内,机器可读介质可以是包含或存储用于或有关于指令执行系统、装置或设备的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备,或其任意合适的组合。机器可读存储介质的更详细示例包括带有一根或多根导线的电气连接、便携式计算机磁盘、硬盘、随机存储存取器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光存储设备、磁存储设备,或其任意合适的组合。
用于实现本发明的方法的计算机程序代码可以用一种或多种编程语言编写。这些计算机程序代码可以提供给通用计算机、专用计算机或其他可编程的数据处理装置的处理器,使得程序代码在被计算机或其他可编程的数据处理装置执行的时候,引起在流程图和/或框图中规定的功能/操作被实施。程序代码可以完全在计算机上、部分在计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上执行。
另外,尽管操作以特定顺序被描绘,但这并不应该理解为要求此类操作以示出的特定顺序或以相继顺序完成,或者执行所有图示的操作以获取期望结果。在某些情况下,多任务或并行处理会是有益的。同样地,尽管上述讨论包含了某些特定的实施细节,但这并不应解释为限制任何发明或权利要求的范围,而应解释为对可以针对特定发明的特定实施例的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以整合实施在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以分离地在多个实施例或在任意合适的子组合中实施。
针对前述本发明的示例实施例的各种修改、改变将在连同附图查看前述描述时对相关技术领域的技术人员变得明显。任何及所有修改将仍落入非限制的和本发明的示例实施例范围。此外,前述说明书和附图存在启发的益处,涉及本发明的这些实施例的技术领域的技术人员将会想到此处阐明的本发明的其他实施例。
因此,本发明可以实现为此处描述的任何形式。例如,以下枚举示例实施例(EEE)描述了本发明的某些方面的某些结构、特征和功能。
EEE1.一种用于生成环绕立体声声场的方法,该方法包括:接收由多个音频捕获设备捕获的音频信号;通过对接收到的音频信号应用互相关处理而对接收到的音频信号执行时间对齐;以及从时间对齐的音频信号生成环绕立体声声场。
EEE2.根据EEE1的方法,还包括:接收关于由多个音频捕获设备发出的校准信号的信息;以及基于所接收的关于校准信号的信息来减小互相关处理的搜索范围。
EEE3.根据任意前述EEE的方法,其中生成环绕立体声声场包括:基于多个音频捕获设备的预定义拓扑估计来生成环绕立体声声场。
EEE4.根据任意前述EEE的方法,其中生成环绕立体声声场包括:基于多个音频捕获设备的数目来选择用于处理音频信号的模式。
EEE5.根据任意前述EEE的方法,还包括:估计所生成的环绕立体声声场相对于渲染设备的波达方向(DOA);以及至少部分地基于所估计的DOA旋转所生成的环绕立体声声场。
EEE6.根据EEE5的方法,其中旋转所生成的环绕立体声声场包括:基于所估计的DOA和所生成的环绕立体声声场的能量旋转所生成的环绕立体声声场。
EEE7.根据任意前述EEE的方法,还包括:将所生成的环绕立体声声场转换为用于在渲染设备上回放的目标格式。
EEE8.一种用于生成环绕立体声声场的装置,该装置包括:第一接收单元,被配置为接收由多个音频捕获设备捕获的音频信号;时间对齐单元,被配置为通过对所接收的音频信号应用互相关处理来对所接收的音频信号执行时间对齐;以及生成单元,被配置为从时间对齐的音频信号生成环绕立体声声场。
EEE9.根据EEE8的装置,还包括:第二接收单元,被配置为接收关于由多个音频捕获设备发出的校准信号的信息;以及减小单元,被配置为基于关于校准信号的信息减小互相关处理的搜索范围。
EEE10.根据EEE8至EEE9任一项的装置,其中生成单元包括:被配置为基于多个音频捕获设备的预定义拓扑估计来生成环绕立体声声场的单元。
EEE11.根据EEE8至EEE10任一项的装置,其中生成单元包括:模式选择单元,被配置为基于多个音频捕获设备的数目来选择用于处理音频信号的模式。
EEE12.根据任意EEE8至EEE11的装置,还包括:DOA估计单元,被配置为估计所生成的环绕立体声声场相对于渲染设备的波达方向(DOA);以及旋转单元,被配置为至少部分地基于所估计的DOA旋转所生成的环绕立体声声场。
EEE13.根据EEE12的装置,其中旋转单元包括:被配置为基于所估计的DOA和所生成的环绕立体声声场的能量旋转所生成的环绕立体声声场的单元。
EEE14.根据EEE8至EEE13任一项的装置,还包括:转换单元,被配置为将所生成的环绕立体声声场转换为用于在渲染设备上回放的目标格式。
将会理解,本法明的实施例不限于公开的特定实施例,并且修改和其他实施例都应包含于所附的权利要求范围内。尽管此处使用了特定的术语,但是它们仅在通用和描述的意义上使用,而并不用于限制目的。

Claims (21)

1.一种用于生成环绕立体声声场的方法,所述方法包括:
接收由多个音频捕获设备捕获的音频信号;
估计所述多个音频捕获设备的拓扑;以及
至少部分地基于估计的所述拓扑,从接收的所述音频信号生成所述环绕立体声声场。
2.根据权利要求1所述的方法,其中估计所述多个音频捕获设备的所述拓扑包括:
获取所述多个音频捕获设备中的每对音频捕获设备之间的距离;以及
通过对获取的所述距离执行多维定标MDS分析来估计所述拓扑。
3.根据任意前述权利要求所述的方法,其中生成所述环绕立体声声场包括:
基于所述多个音频捕获设备的数目来选择用于处理所述音频信号的模式。
4.根据任意前述权利要求所述的方法,其中生成所述环绕立体声声场包括:
确定与所述多个音频捕获设备的估计的所述拓扑相匹配的拓扑模板;
至少部分地基于确定的所述拓扑模板来选择用于所述音频信号的权重;以及
使用选择的所述权重来处理所述音频信号以生成所述环绕立体声声场。
5.根据权利要求4所述的方法,其中选择所述权重包括:
基于确定的所述拓扑模板和所述音频信号的频率来选择所述权重。
6.根据任意前述权利要求所述的方法,还包括:
对接收的所述音频信号执行时间对齐。
7.根据权利要求6所述的方法,其中执行所述时间对齐包括应用基于协议的时钟同步处理、端对端时钟同步处理和互相关处理中的至少一个。
8.根据任意前述权利要求所述的方法,还包括:
估计生成的所述环绕立体声声场相对于渲染设备的波达方向DOA;以及
至少部分地基于估计的所述DOA来旋转生成的所述环绕立体声声场。
9.根据权利要求8所述的方法,其中旋转生成的所述环绕立体声声场包括:
基于估计的所述DOA和生成的所述环绕立体声声场的能量,旋转生成的所述环绕立体声声场。
10.根据任意前述权利要求所述的方法,还包括:
将生成的所述环绕立体声声场转换为用于在渲染设备上回放的目标格式。
11.一种用于生成环绕立体声声场的装置,所述装置包括:
接收单元,被配置为接收由多个音频捕获设备捕获的音频信号;
拓扑估计单元,被配置为估计所述多个音频捕获设备的拓扑;以及
生成单元,被配置为至少部分地基于估计的所述拓扑而从接收的所述音频信号生成所述环绕立体声声场。
12.根据权利要求11所述的装置,其中所述估计单元包括:
距离获取单元,被配置为获取所述多个音频捕获设备中的每对音频捕获设备之间的距离;以及
MDS单元,被配置为通过对获取的所述距离执行多维定标MDS分析来估计所述拓扑。
13.根据权利要求11至12任一项所述的装置,其中所述生成单元包括:
模式选择单元,被配置为基于所述多个音频捕获设备的数目来选择用于处理所述音频信号的模式。
14.根据权利要求11至13任一项所述的装置,其中所述生成单元包括:
模板确定单元,被配置为确定与所述多个音频捕获设备的估计的所述拓扑相匹配的拓扑模板;
权重选择单元,被配置为至少部分地基于确定的所述拓扑模板来选择用于所述音频信号的权重;以及
信号处理单元,被配置为使用选择的所述权重来处理所述音频信号以生成所述环绕立体声声场。
15.根据权利要求14所述的装置,其中所述权重选择单元包括:
被配置为基于确定的所述拓扑模板和所述音频信号的频率来选择所述权重的单元。
16.根据权利要求11至15任一项所述的装置,还包括:
时间对齐单元,被配置为对接收的所述音频信号执行时间对齐。
17.根据权利要求16所述的装置,其中所述时间对齐单元被配置为应用基于协议的时钟同步处理、端对端时钟同步处理和互相关处理中的至少一个。
18.根据权利要求11至17任一项所述的装置,还包括:
DOA估计单元,被配置为估计生成的所述环绕立体声声场相对于渲染设备的波达方向DOA;以及
旋转单元,被配置为至少部分地基于估计的所述DOA来旋转生成的所述环绕立体声声场。
19.根据权利要求18所述的装置,其中所述旋转单元包括:
被配置为基于估计的所述DOA和生成的所述环绕立体声声场的能量来旋转生成的所述环绕立体声声场的单元。
20.根据权利要求11至19任一项所述的装置,还包括:
转换单元,被配置为将生成的所述环绕立体声声场转换为用于在渲染设备上回放的目标格式。
21.一种计算机程序产品,包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含被配置为执行根据权利要求1-10任一项所述的方法的程序代码。
CN201480034420.XA 2013-06-18 2014-06-17 用于生成环绕立体声声场的方法及其装置 Active CN105340299B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201480034420.XA CN105340299B (zh) 2013-06-18 2014-06-17 用于生成环绕立体声声场的方法及其装置

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
CN201310246729.2A CN104244164A (zh) 2013-06-18 2013-06-18 生成环绕立体声声场
CN201310246729.2 2013-06-18
US201361839474P 2013-06-26 2013-06-26
US61/839,474 2013-06-26
CN201480034420.XA CN105340299B (zh) 2013-06-18 2014-06-17 用于生成环绕立体声声场的方法及其装置
PCT/US2014/042800 WO2014204999A2 (en) 2013-06-18 2014-06-17 Generating surround sound field

Publications (2)

Publication Number Publication Date
CN105340299A true CN105340299A (zh) 2016-02-17
CN105340299B CN105340299B (zh) 2017-09-12

Family

ID=52105492

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201310246729.2A Pending CN104244164A (zh) 2013-06-18 2013-06-18 生成环绕立体声声场
CN201480034420.XA Active CN105340299B (zh) 2013-06-18 2014-06-17 用于生成环绕立体声声场的方法及其装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201310246729.2A Pending CN104244164A (zh) 2013-06-18 2013-06-18 生成环绕立体声声场

Country Status (6)

Country Link
US (1) US9668080B2 (zh)
EP (1) EP3011763B1 (zh)
JP (2) JP5990345B1 (zh)
CN (2) CN104244164A (zh)
HK (1) HK1220844A1 (zh)
WO (1) WO2014204999A2 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109168125A (zh) * 2018-09-16 2019-01-08 王小玲 一种3d音效系统
CN109691140A (zh) * 2016-09-13 2019-04-26 诺基亚技术有限公司 音频处理
CN110024379A (zh) * 2016-11-30 2019-07-16 萨基姆宽带联合股份公司 用于同步第一音频信号和第二音频信号的方法
CN110574398A (zh) * 2017-07-12 2019-12-13 谷歌有限责任公司 使用定向分解和路径距离估计的环境立体声声场导航
CN112219237A (zh) * 2018-04-09 2021-01-12 诺基亚技术有限公司 空间音频参数的量化
CN113055789A (zh) * 2021-02-09 2021-06-29 安克创新科技股份有限公司 单声道音箱、在单声道音箱中增加环绕效果的方法及系统

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10225814B2 (en) * 2015-04-05 2019-03-05 Qualcomm Incorporated Conference audio management
FR3034892B1 (fr) * 2015-04-10 2018-03-23 Orange Procede de traitement de donnees pour l'estimation de parametres de mixage de signaux audio, procede de mixage, dispositifs, et programmes d'ordinateurs associes
EP3079074A1 (fr) * 2015-04-10 2016-10-12 B<>Com Procédé de traitement de données pour l'estimation de paramètres de mixage de signaux audio, procédé de mixage, dispositifs, et programmes d'ordinateurs associés
GB2540224A (en) * 2015-07-08 2017-01-11 Nokia Technologies Oy Multi-apparatus distributed media capture for playback control
US9769563B2 (en) 2015-07-22 2017-09-19 Harman International Industries, Incorporated Audio enhancement via opportunistic use of microphones
CN105120421B (zh) * 2015-08-21 2017-06-30 北京时代拓灵科技有限公司 一种生成虚拟环绕声的方法和装置
CN108476371A (zh) * 2016-01-04 2018-08-31 哈曼贝克自动系统股份有限公司 声波场生成
EP3188504B1 (en) 2016-01-04 2020-07-29 Harman Becker Automotive Systems GmbH Multi-media reproduction for a multiplicity of recipients
CN106162206A (zh) * 2016-08-03 2016-11-23 北京疯景科技有限公司 全景录制、播放方法及装置
US9986357B2 (en) 2016-09-28 2018-05-29 Nokia Technologies Oy Fitting background ambiance to sound objects
GB2554446A (en) * 2016-09-28 2018-04-04 Nokia Technologies Oy Spatial audio signal format generation from a microphone array using adaptive capture
EP3340648B1 (en) * 2016-12-23 2019-11-27 Nxp B.V. Processing audio signals
CN110447238B (zh) * 2017-01-27 2021-12-03 舒尔获得控股公司 阵列麦克风模块及系统
JP6753329B2 (ja) * 2017-02-15 2020-09-09 株式会社Jvcケンウッド フィルタ生成装置、及びフィルタ生成方法
CN106775572B (zh) * 2017-03-30 2020-07-24 联想(北京)有限公司 具有麦克风阵列的电子设备及其控制方法
US10547936B2 (en) * 2017-06-23 2020-01-28 Abl Ip Holding Llc Lighting centric indoor location based service with speech-based user interface
RU2740703C1 (ru) 2017-07-14 2021-01-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Принцип формирования улучшенного описания звукового поля или модифицированного описания звукового поля с использованием многослойного описания
WO2019012131A1 (en) 2017-07-14 2019-01-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. CONCEPT FOR GENERATING AN ENHANCED AUDIO FIELD DESCRIPTION OR A MODIFIED AUDIO FIELD DESCRIPTION USING A MULTIPOINT SOUND FIELD DESCRIPTION
CN111201784B (zh) 2017-10-17 2021-09-07 惠普发展公司,有限责任合伙企业 通信系统、用于通信的方法和视频会议系统
CN109756683A (zh) * 2017-11-02 2019-05-14 深圳市裂石影音科技有限公司 全景音视频录制方法、装置、存储介质和计算机设备
US10354655B1 (en) * 2018-01-10 2019-07-16 Abl Ip Holding Llc Occupancy counting by sound
US11109133B2 (en) 2018-09-21 2021-08-31 Shure Acquisition Holdings, Inc. Array microphone module and system
GB2577698A (en) * 2018-10-02 2020-04-08 Nokia Technologies Oy Selection of quantisation schemes for spatial audio parameter encoding
CN109618274B (zh) * 2018-11-23 2021-02-19 华南理工大学 一种基于角度映射表的虚拟声重放方法、电子设备及介质
CN110751956B (zh) * 2019-09-17 2022-04-26 北京时代拓灵科技有限公司 一种沉浸式音频渲染方法及系统
FR3101725B1 (fr) * 2019-10-04 2022-07-22 Orange Procédé de détection de la position de participants à une réunion à l’aide des terminaux personnels des participants, programme d’ordinateur correspondant.
CN112817683A (zh) * 2021-03-02 2021-05-18 深圳市东微智能科技股份有限公司 拓扑结构配置界面的控制方法、控制设备及介质
CN112804043B (zh) * 2021-04-12 2021-07-09 广州迈聆信息科技有限公司 时钟不同步的检测方法、装置及设备
US11716569B2 (en) 2021-12-30 2023-08-01 Google Llc Methods, systems, and media for identifying a plurality of sets of coordinates for a plurality of devices

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1256851A (zh) * 1998-02-13 2000-06-14 皇家菲利浦电子有限公司 环绕声重放系统、声音/图象重放系统、环绕声处理装置和输入环绕声信号的处理方法
CN1898988A (zh) * 2003-12-25 2007-01-17 雅马哈株式会社 声音输出装置
CN1969589A (zh) * 2004-04-16 2007-05-23 斯玛特网络技术Crc有限公司 用于创建音频场景的设备和方法
US20070147634A1 (en) * 2005-12-27 2007-06-28 Polycom, Inc. Cluster of first-order microphones and method of operation for stereo input of videoconferencing system
US20090264114A1 (en) * 2008-04-22 2009-10-22 Jussi Virolainen Method, apparatus and computer program product for utilizing spatial information for audio signal enhancement in a distributed network environment

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5757927A (en) * 1992-03-02 1998-05-26 Trifield Productions Ltd. Surround sound apparatus
US7277692B1 (en) 2002-07-10 2007-10-02 Sprint Spectrum L.P. System and method of collecting audio data for use in establishing surround sound recording
US7693289B2 (en) * 2002-10-03 2010-04-06 Audio-Technica U.S., Inc. Method and apparatus for remote control of an audio source such as a wireless microphone system
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
US20080165949A9 (en) * 2004-01-06 2008-07-10 Hanler Communications Corporation Multi-mode, multi-channel psychoacoustic processing for emergency communications
JP4368210B2 (ja) 2004-01-28 2009-11-18 ソニー株式会社 送受信システム、送信装置およびスピーカ搭載機器
WO2006050353A2 (en) * 2004-10-28 2006-05-11 Verax Technologies Inc. A system and method for generating sound events
WO2006131893A1 (en) * 2005-06-09 2006-12-14 Koninklijke Philips Electronics N.V. Method of and system for determining distances between loudspeakers
US7711443B1 (en) 2005-07-14 2010-05-04 Zaxcom, Inc. Virtual wireless multitrack recording system
WO2007099318A1 (en) 2006-03-01 2007-09-07 The University Of Lancaster Method and apparatus for signal presentation
US20080077261A1 (en) 2006-08-29 2008-03-27 Motorola, Inc. Method and system for sharing an audio experience
RU2420027C2 (ru) * 2006-09-25 2011-05-27 Долби Лэборетериз Лайсенсинг Корпорейшн Улучшенное пространственное разрешение звукового поля для систем многоканального воспроизведения аудио посредством получения сигналов с угловыми членами высокого порядка
US8264934B2 (en) 2007-03-16 2012-09-11 Bby Solutions, Inc. Multitrack recording using multiple digital electronic devices
US7729204B2 (en) 2007-06-08 2010-06-01 Microsoft Corporation Acoustic ranging
US20090017868A1 (en) 2007-07-13 2009-01-15 Joji Ueda Point-to-Point Wireless Audio Transmission
WO2009010832A1 (en) * 2007-07-18 2009-01-22 Bang & Olufsen A/S Loudspeaker position estimation
KR101415026B1 (ko) * 2007-11-19 2014-07-04 삼성전자주식회사 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치
US9445213B2 (en) 2008-06-10 2016-09-13 Qualcomm Incorporated Systems and methods for providing surround sound using speakers and headphones
US8464154B2 (en) 2009-02-25 2013-06-11 Magix Ag System and method for synchronized multi-track editing
EP2249334A1 (en) 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
EP2346028A1 (en) * 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
US8560309B2 (en) 2009-12-29 2013-10-15 Apple Inc. Remote conferencing center
US20130115892A1 (en) 2010-07-16 2013-05-09 T-Mobile International Austria Gmbh Method for mobile communication
US9552840B2 (en) 2010-10-25 2017-01-24 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones
AR084091A1 (es) 2010-12-03 2013-04-17 Fraunhofer Ges Forschung Adquisicion de sonido mediante la extraccion de informacion geometrica de estimativos de direccion de llegada
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
US9313336B2 (en) * 2011-07-21 2016-04-12 Nuance Communications, Inc. Systems and methods for processing audio signals captured using microphones of multiple devices

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1256851A (zh) * 1998-02-13 2000-06-14 皇家菲利浦电子有限公司 环绕声重放系统、声音/图象重放系统、环绕声处理装置和输入环绕声信号的处理方法
CN1898988A (zh) * 2003-12-25 2007-01-17 雅马哈株式会社 声音输出装置
CN1969589A (zh) * 2004-04-16 2007-05-23 斯玛特网络技术Crc有限公司 用于创建音频场景的设备和方法
US20070147634A1 (en) * 2005-12-27 2007-06-28 Polycom, Inc. Cluster of first-order microphones and method of operation for stereo input of videoconferencing system
US20090264114A1 (en) * 2008-04-22 2009-10-22 Jussi Virolainen Method, apparatus and computer program product for utilizing spatial information for audio signal enhancement in a distributed network environment

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109691140A (zh) * 2016-09-13 2019-04-26 诺基亚技术有限公司 音频处理
US10869156B2 (en) 2016-09-13 2020-12-15 Nokia Technologies Oy Audio processing
CN109691140B (zh) * 2016-09-13 2021-04-13 诺基亚技术有限公司 音频处理
CN110024379A (zh) * 2016-11-30 2019-07-16 萨基姆宽带联合股份公司 用于同步第一音频信号和第二音频信号的方法
CN110024379B (zh) * 2016-11-30 2021-06-25 萨基姆宽带联合股份公司 用于同步第一音频信号和第二音频信号的方法
CN110574398A (zh) * 2017-07-12 2019-12-13 谷歌有限责任公司 使用定向分解和路径距离估计的环境立体声声场导航
CN110574398B (zh) * 2017-07-12 2021-07-27 谷歌有限责任公司 使用定向分解和路径距离估计的环境立体声声场导航
CN112219237A (zh) * 2018-04-09 2021-01-12 诺基亚技术有限公司 空间音频参数的量化
CN109168125A (zh) * 2018-09-16 2019-01-08 王小玲 一种3d音效系统
CN113055789A (zh) * 2021-02-09 2021-06-29 安克创新科技股份有限公司 单声道音箱、在单声道音箱中增加环绕效果的方法及系统

Also Published As

Publication number Publication date
JP2016533045A (ja) 2016-10-20
CN105340299B (zh) 2017-09-12
EP3011763B1 (en) 2017-08-09
CN104244164A (zh) 2014-12-24
US20160142851A1 (en) 2016-05-19
US9668080B2 (en) 2017-05-30
HK1220844A1 (zh) 2017-05-12
WO2014204999A2 (en) 2014-12-24
JP5990345B1 (ja) 2016-09-14
WO2014204999A3 (en) 2015-03-26
EP3011763A2 (en) 2016-04-27
JP2017022718A (ja) 2017-01-26

Similar Documents

Publication Publication Date Title
CN105340299A (zh) 用于生成环绕立体声声场的方法及其装置和程序产品
US10397722B2 (en) Distributed audio capture and mixing
EP2926570B1 (en) Image generation for collaborative sound systems
Politis Microphone array processing for parametric spatial audio techniques
US10134416B2 (en) Privacy-preserving energy-efficient speakers for personal sound
CN107211213B (zh) 基于扬声器的位置信息输出音频信号的方法和设备
CN110049428B (zh) 用于实现多声道环绕立体声播放的方法、播放设备及系统
US8693713B2 (en) Virtual audio environment for multidimensional conferencing
US20140050454A1 (en) Multi Device Audio Capture
US20150189455A1 (en) Transformation of multiple sound fields to generate a transformed reproduced sound field including modified reproductions of the multiple sound fields
CN102325298A (zh) 音频信号处理装置和音频信号处理方法
CN103999488A (zh) 自动化用户/传感器定位辨识以在分布式多传感器环境中定制音频性能
US11350213B2 (en) Spatial audio capture
US20210004201A1 (en) Audio capture and rendering for extended reality experiences
US11580213B2 (en) Password-based authorization for audio rendering
CN104853283A (zh) 一种音频信号处理的方法和装置
WO2019129127A1 (zh) 一种多终端协同播放音频文件的方法及终端
CN104935913A (zh) 处理多个装置采集的音频或视频信号
US11743670B2 (en) Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications
CN112492506A (zh) 音频播放方法、装置、计算机可读存储介质及机器人
CN114220454B (zh) 一种音频降噪方法、介质和电子设备
WO2023197646A1 (zh) 一种音频信号处理方法及电子设备
CN110166927B (zh) 一种基于定位修正的虚拟声像重建方法
US11601776B2 (en) Smart hybrid rendering for augmented reality/virtual reality audio
CN115167803A (zh) 一种音效的调节方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant