CN116980818A - 虚拟扬声器集合确定方法和装置 - Google Patents

虚拟扬声器集合确定方法和装置 Download PDF

Info

Publication number
CN116980818A
CN116980818A CN202310964269.0A CN202310964269A CN116980818A CN 116980818 A CN116980818 A CN 116980818A CN 202310964269 A CN202310964269 A CN 202310964269A CN 116980818 A CN116980818 A CN 116980818A
Authority
CN
China
Prior art keywords
virtual
virtual speakers
speakers
speaker
virtual speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310964269.0A
Other languages
English (en)
Inventor
高原
刘帅
王宾
王喆
曲天书
徐佳浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Huawei Technologies Co Ltd
Original Assignee
Peking University
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Huawei Technologies Co Ltd filed Critical Peking University
Priority to CN202310964269.0A priority Critical patent/CN116980818A/zh
Publication of CN116980818A publication Critical patent/CN116980818A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2205/00Details of stereophonic arrangements covered by H04R5/00 but not provided for in any of its subgroups
    • H04R2205/024Positioning of loudspeaker enclosures for spatial sound reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本申请提供一种虚拟扬声器集合确定方法和装置。虚拟扬声器集合确定方法,包括:根据待处理的音频信号从预设的F个虚拟扬声器中确定目标虚拟扬声器,所述F个虚拟扬声器中的每个虚拟扬声器各自对应S个虚拟扬声器,F为正整数,S为大于1的正整数;从预设的虚拟扬声器分布表中获取与所述目标虚拟扬声器对应的S个虚拟扬声器各自的位置信息,所述虚拟扬声器分布表包括K个虚拟扬声器的位置信息,所述位置信息包括俯仰角索引和水平角索引,K为大于1的正整数,F≤K,F×S≥K。本申请可以提升音频信号的回放效果。

Description

虚拟扬声器集合确定方法和装置
本申请是分案申请,原申请的申请号是202110247466.1,原申请日是2021年3月5日,原申请的全部内容通过引用结合在本申请中。
技术领域
本申请涉及音频技术领域,特别涉及虚拟扬声器集合确定方法和装置。
背景技术
三维音频技术是通过计算机、信号处理等方式对真实世界中声音事件和三维声场信息进行获取、处理,传输和渲染回放的音频技术。三维音频技术使声音具有强烈的空间感、包围感及沉浸感,给人以“声临其境”的听觉体验。目前主流的三维音频技术是高阶立体混响(higher order ambisonics,HOA)技术,HOA技术因其在录制和编码中与回放阶段的扬声器布局无关的性质,以及HOA格式数据的可旋转特性,使得HOA技术在三维音频回放时具有更高的灵活性,因而也得到了更为广泛的关注和研究。
HOA技术可以将HOA信号转为虚拟扬声器信号再映射为双耳信号进行回放。在上述过程中,虚拟扬声器均匀分布可以达到最好的采样效果,例如将虚拟扬声器分布于正四面体的顶点上。但由于三维空间中正多面体的数量只有五种,即正四面体、正六面体、正八面体、正十二面体和正二十面体,因此可以设置的虚拟扬声器的数量有限,不能适用于更多数量的虚拟扬声器的分布。
发明内容
本申请提供一种虚拟扬声器集合确定方法和装置,以提升音频信号的回放效果。
第一方面,本申请提供一种虚拟扬声器集合确定方法,包括:根据待处理的音频信号从预设的F个虚拟扬声器中确定目标虚拟扬声器,所述F个虚拟扬声器中的每个虚拟扬声器各自对应S个虚拟扬声器,F为正整数,S为大于1的正整数;从预设的虚拟扬声器分布表中获取与所述目标虚拟扬声器对应的S个虚拟扬声器各自的位置信息,所述虚拟扬声器分布表包括K个虚拟扬声器的位置信息,所述位置信息包括俯仰角索引和水平角索引,K为大于1的正整数,F≤K,F×S≥K。
本申请通过预先设定虚拟扬声器分布表,使得按照该分布表部署虚拟扬声器可以获得较高的HOA重建信号的信噪比(SNR)平均值,进而在基于这种分布的情况下选取与待处理的音频信号HOA系数相关性最高的S个虚拟扬声器,可以达到最优的采样效果,进而提升音频信号的回放效果。
在一种可能的实现方式中,所述根据待处理的音频信号从预设的F个虚拟扬声器中确定目标虚拟扬声器,包括:获取所述音频信号的高阶立体混响HOA系数;获取所述F个虚拟扬声器对应的F组HOA系数,所述F个虚拟扬声器与所述F组HOA系数一一对应;将所述F组HOA系数中与所述音频信号的HOA系数相关性最大的一组HOA系数对应的虚拟扬声器确定为所述目标虚拟扬声器。
对待处理的音频信号进行编码分析,例如分析待处理的音频信号的声场分布,包括音频信号的声源个数、方向性、弥散度等特征,得到该音频信号的HOA系数,作为决定如何选择目标虚拟扬声器的判断条件之一。根据待处理的音频信号的HOA系数和候选的虚拟扬声器(即上述F个虚拟扬声器)的HOA系数,可以选择出与待处理的音频信号匹配的虚拟扬声器,本申请中将该虚拟扬声器称作目标虚拟扬声器。可以将F个虚拟扬声器各自的HOA系数分别与音频信号的HOA系数做内积,选取内积绝对值最大的虚拟扬声器为目标虚拟扬声器。需要说明的是,还可以采用其他方法确定目标虚拟扬声器,本申请对此不做具体限定。
在一种可能的实现方式中,所述与所述目标虚拟扬声器对应的S个虚拟扬声器满足如下条件:所述S个虚拟扬声器包括所述目标虚拟扬声器,以及位于所述目标虚拟扬声器周围的S-1个虚拟扬声器,所述S-1个虚拟扬声器与所述目标虚拟扬声器的S-1个相关性中的任意一个相关性大于所述K个虚拟扬声器中除所述S个虚拟扬声器外的其它K-S个虚拟扬声器与所述目标虚拟扬声器的K-S个相关性中的所有相关性。
在确定目标虚拟扬声器时,该目标虚拟扬声器是与待处理的音频信号HOA系数相关性最高的中心虚拟扬声器。而每个中心虚拟扬声器对应的S个虚拟扬声器是与该中心虚拟扬声器HOA系数相关性最高的S个虚拟扬声器,而因此与目标虚拟扬声器对应的S个虚拟扬声器也是与待处理的音频信号HOA系数相关性最高的S个虚拟扬声器。
在一种可能的实现方式中,所述K个虚拟扬声器满足如下条件:所述K个虚拟扬声器分布于预设球面上;所述预设球面包含L个纬度区域,L>1;其中,所述L个纬度区域中第m个纬度区域包含Tm个纬线圈,所述K个虚拟扬声器中分布于第mi个纬线圈上的相邻虚拟扬声器之间的水平角度差为αm,1≤m≤L,Tm为正整数,1≤mi≤Tm;其中,当Tm>1时,所述第m个纬度区域中的任意两个相邻纬线圈之间的俯仰角度差为αm
在一种可能的实现方式中,所述L个纬度区域中第n个纬度区域包含Tn个纬线圈,所述K个虚拟扬声器中分布于第ni个纬线圈上的相邻虚拟扬声器之间的水平角度差为αn,1≤n≤L,Tn为正整数,1≤ni≤Tn;其中,当Tn>1时,所述第n个纬度区域中的任意两个相邻纬线圈之间的俯仰角度差为αn;其中,αn=αm或者αn≠αm,n≠m。
在一种可能的实现方式中,所述L个纬度区域中第c个纬度区域包含Tc个纬线圈,所述Tc个纬线圈的其中之一为赤道纬线圈,所述K个虚拟扬声器中分布于第ci个纬线圈上的相邻虚拟扬声器之间的水平角度差为αc,1≤c≤L,Tc为正整数,1≤ci≤Tc;其中,当Tc>1时,所述第c个纬度区域中的任意两个相邻纬线圈之间的俯仰角度差为αc;其中,αc<αm,c≠m。
在一种可能的实现方式中,所述F个虚拟扬声器满足如下条件:所述F个虚拟扬声器中分布于所述第mi个纬线圈上的相邻虚拟扬声器之间的水平角度差αmi大于αm
在一种可能的实现方式中,αmi=q×αm,其中,q为大于1的正整数。
在一种可能的实现方式中,所述K个虚拟扬声器中的第k个虚拟扬声器与所述目标虚拟扬声器的相关性Rfk满足如下公式:
Rfk=Bf(θ,φ)·Bk(θ,φ)
其中,θ表示所述目标虚拟扬声器的水平角度,φ表示所述目标虚拟扬声器的俯仰角度,Bf(θ,φ)表示所述目标虚拟扬声器的HOA系数,Bk(θ,φ)表示所述K个虚拟扬声器中的第k个虚拟扬声器的HOA系数。
第二方面,本申请提供一种虚拟扬声器集合确定装置,包括:确定模块,用于根据待处理的音频信号从预设的F个虚拟扬声器中确定目标虚拟扬声器,所述F个虚拟扬声器中的每个虚拟扬声器各自对应S个虚拟扬声器,F为正整数,S为大于1的正整数;获取模块,用于从预设的虚拟扬声器分布表中获取与所述目标虚拟扬声器对应的S个虚拟扬声器各自的位置信息,所述虚拟扬声器分布表包括K个虚拟扬声器的位置信息,所述位置信息包括俯仰角索引和水平角索引,K为大于1的正整数,F≤K,F×S≥K。
在一种可能的实现方式中,所述确定模块,具体用于获取所述音频信号的高阶立体混响HOA系数;获取所述F个虚拟扬声器对应的F组HOA系数,所述F个虚拟扬声器与所述F组HOA系数一一对应;将所述F组HOA系数中与所述音频信号的HOA系数相关性最大的一组HOA系数对应的虚拟扬声器确定为所述目标虚拟扬声器。
在一种可能的实现方式中,所述与所述目标虚拟扬声器对应的S个虚拟扬声器满足如下条件:所述S个虚拟扬声器包括所述目标虚拟扬声器,以及位于所述目标虚拟扬声器周围的S-1个虚拟扬声器,所述S-1个虚拟扬声器与所述目标虚拟扬声器的S-1个相关性中的任意一个相关性大于所述K个虚拟扬声器中除所述S个虚拟扬声器外的其它K-S个虚拟扬声器与所述目标虚拟扬声器的K-S个相关性中的所有相关性。
在一种可能的实现方式中,所述K个虚拟扬声器满足如下条件:所述K个虚拟扬声器分布于预设球面上;所述预设球面包含L个纬度区域,L>1;其中,所述L个纬度区域中第m个纬度区域包含Tm个纬线圈,所述K个虚拟扬声器中分布于第mi个纬线圈上的相邻虚拟扬声器之间的水平角度差为αm,1≤m≤L,Tm为正整数,1≤mi≤Tm;其中,当Tm>1时,所述第m个纬度区域中的任意两个相邻纬线圈之间的俯仰角度差为αm
在一种可能的实现方式中,所述L个纬度区域中第n个纬度区域包含Tn个纬线圈,所述K个虚拟扬声器中分布于第ni个纬线圈上的相邻虚拟扬声器之间的水平角度差为αn,1≤n≤L,Tn为正整数,1≤ni≤Tn;其中,当Tn>1时,所述第n个纬度区域中的任意两个相邻纬线圈之间的俯仰角度差为αn;其中,αn=αm或者αn≠αm,n≠m。
在一种可能的实现方式中,所述L个纬度区域中第c个纬度区域包含Tc个纬线圈,所述Tc个纬线圈的其中之一为赤道纬线圈,所述K个虚拟扬声器中分布于第ci个纬线圈上的相邻虚拟扬声器之间的水平角度差为αc,1≤c≤L,Tc为正整数,1≤ci≤Tc;其中,当Tc>1时,所述第c个纬度区域中的任意两个相邻纬线圈之间的俯仰角度差为αc;其中,αc<αm,c≠m。
在一种可能的实现方式中,所述F个虚拟扬声器满足如下条件:所述F个虚拟扬声器中分布于所述第mi个纬线圈上的相邻虚拟扬声器之间的水平角度差αmi大于αm
在一种可能的实现方式中,αmi=q×αm,其中,q为大于1的正整数。
在一种可能的实现方式中,所述K个虚拟扬声器中的第k个虚拟扬声器与所述目标虚拟扬声器的相关性Rfk满足如下公式:
Rfk=Bf(θ,φ)·Bk(θ,φ)
其中,θ表示所述目标虚拟扬声器的水平角度,φ表示所述目标虚拟扬声器的俯仰角度,Bf(θ,φ)表示所述目标虚拟扬声器的HOA系数,Bk(θ,φ)表示所述K个虚拟扬声器中的第k个虚拟扬声器的HOA系数。
第三方面,本申请提供一种音频处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述第一方面中任一项所述的方法。
第四方面,本申请提供一种计算机可读存储介质,包括计算机程序,所述计算机程序在计算机上被执行时,使得所述计算机执行上述第一方面中任一项所述的方法。
附图说明
图1为本申请音频播放系统的一个示例性的结构图;
图2为本申请音频译码系统10的一个示例性的结构图;
图3为本申请HOA编码装置的一个示例性的结构图;
图4a为本申请预设球面的一个示例性的示意图;
图4b为本申请俯仰角度和水平角度的一个示例性的示意图;
图5a和图5b为K个虚拟扬声器的示例性的分布图;
图6a和图6b为K个虚拟扬声器的示例性的分布图;
图7是本申请虚拟扬声器集合确定方法的一个示例性的流程图;
图8为本申请虚拟扬声器集合确定装置的一个示例性的结构图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获取的所有其他实施例,都属于本申请保护的范围。
本申请的说明书实施例和权利要求书及附图中的术语“第一”、“第二”等仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。字符“~”连接的两个数值一般表示一个取值范围,该取值范围包含“~”连接的两个数值。
本申请涉及到的相关名词解释:
音频帧:音频数据是流式的,在实际应用中,为了便于音频处理和传输,通常取一时长内的音频数据量作为一帧音频,该时长被称为“采样时间”,可以根据编解码器和具体应用的需求确定其值,例如该时长为2.5ms~60ms,ms为毫秒。
音频信号:音频信号是带有语音、音乐和音效的有规律的声波的频率、幅度变化信息载体。音频是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波。音频通过模数转换或计算机生成的数字信号即为音频信号。声波有三个重要参数:频率、幅度和相位,这也就决定了音频信号的特征。
以下是本申请所应用的系统架构。
图1为本申请音频播放系统的一个示例性的结构图,如图1所示,该音频播放系统包括:音频发送设备和音频接收设备,其中,音频发送设备包括例如手机、电脑(笔记本电脑、台式电脑等)、平板(手持平板、车载平板等)等可以进行音频编码并发送音频码流的设备;音频接收设备包括例如真无线立体声(true wireless stereo,TWS)、普通无线耳机、音响、智能手表、智能眼镜等可以接收音频码流、解码音频码流并播放的设备。
音频发送设备和音频接收设备之间可以建立蓝牙连接,二者之间可以支持语音和音乐的传输。音频发送设备和音频接收设备的较为广泛的示例是手机与TWS耳机、无线头戴式耳机或者无线颈圈式耳机之间,或者手机与其他终端设备(例如智能音箱、智能手表、智能眼镜和车载音箱等)之间。可选的,音频发送设备和音频接收设备的示例也可以是平板、笔记本电脑或者台式电脑与TWS耳机、无线头戴式耳机、无线颈圈式耳机或其他终端设备(例如智能音箱、智能手表、智能眼镜和车载音箱)之间。
需要说明的是,音频发送设备和音频接收设备之间除蓝牙连接外,还可以通过其他通信方式连接,例如WiFi连接、有线连接或其他无线连接等,本申请对此不做具体限定。
图2为本申请音频译码系统10的一个示例性的结构图,如图2所示,音频译码系统10可包括源设备12和目的设备14,源设备12可以是图1的音频发送设备,目的设备14可以是图1的音频接收设备。源设备12产生经编码的码流信息,因此,源设备12也可以被称为音频编码设备。目的设备14可对由源设备12所产生的经编码的码流信息进行解码,因此,目的设备14也可以被称为音频解码设备。本申请中,源设备12、音频编码设备可以被统一称作音频发送设备,目的设备14、音频解码设备可以被统一称作音频接收设备。
源设备12包括编码器20,可选地,可包括音频源16、音频预处理器18、通信接口22。
音频源16,可以包括或可以为任何类别的音频捕获设备,例如,捕获现实世界声音,和/或任何类别的音频生成设备,例如,计算机音频处理器,或用于获取和/或提供现实世界音频、计算机动画音频(例如,屏幕内容、虚拟现实(virtual reality,VR)中的音频)的任何类别设备,和/或其任何组合(例如,增强现实(augmented reality,AR)中的音频、混合现实(mixed Reality,MR)中的音频和/或扩展现实(extended Reality,XR)中的音频)。音频源16可以为用于捕获音频的麦克风或者用于存储音频的存储器,音频源16还可以包括存储先前捕获或产生的音频和/或获取或接收音频的任何类别的(内部或外部)接口。当音频源16为麦克风时,音频源16可例如为本地的或集成在源设备中的音频采集装置;当音频源16为存储器时,音频源16可为本地的或例如集成在源设备中的集成存储器。当所述音频源16包括接口时,接口可例如为从外部音频源接收音频的外部接口,外部音频源例如为外部音频捕获设备,比如话筒、麦克风、外部存储器或外部音频生成设备,外部音频生成设备例如为外部计算机音频处理器、计算机或服务器。接口可以为根据任何专有或标准化接口协议的任何类别的接口,例如有线或无线接口、光接口。
本申请中,音频源16获取当前场景音频信号,该当前场景音频信号是指对空间中麦克风所在位置的声场进行采集得到的音频信号,当前场景音频信号也可以称为原始场景音频信号。例如,当前场景音频信号可以是通过高阶立体混响(higher order ambisonics,HOA)技术得到的音频信号。音频源16获取待编码的HOA信号,例如,可以采用实际采集设备获取HOA信号或采用人工音频对象合成HOA信号。可选的,待编码的HOA信号可以是时域HOA信号或者频域HOA信号。
音频预处理器18,用于接收原始音频信号并对原始音频信号执行预处理,以获取经预处理的音频信号。例如,音频预处理器18执行的预处理可以包括整修或去噪。
编码器20,用于接收经预处理的音频信号,对经预处理的音频信号进行处理,从而提供经编码的码流信息。
源设备12中的通信接口22可用于接收码流信息并通过通信信道13向目的设备14发送该码流。通信信道13例如为直接有线或无线连接,任何类别的网络例如为有线或无线网络或其任何组合,或任何类别的私网和公网,或其任何组合。
目的设备14包括解码器30,可选地,可包括通信接口28、音频后处理器32和播放设备34。
目的设备14中的通信接口28用于直接从源设备12接收码流信息,并将码流信息提供给解码器30。通信接口22和通信接口28可用于通过源设备12与目的设备14之间的通信信道13发送或接收码流信息。
通信接口22和通信接口28均可配置为如图2中从源设备12指向目的设备14的对应通信信道13的箭头所指示的单向通信接口,或双向通信接口,并且可用于发送和接收消息等,以建立连接,确认并交换与通信链路和/或编码音频数据等数据传输相关的任何其它信息,等等。
解码器30,用于接收码流信息,并解码码流信息得到经解码的音频数据。
音频后处理器32,用于对解码的音频数据进行后处理,得到后处理后的音频数据。音频后处理器32执行的后处理可以包括例如修剪或重采样等。
播放设备34,用于接收后处理后的音频数据,以向用户或收听者播放音频。播放设备34可以为或包括任意类型的用于播放重建后音频的播放器,例如,集成或外部扬声器。例如,扬声器可包括喇叭、音响等。
图3为本申请HOA编码装置的一个示例性的结构图,如图3所示,HOA编码装置可以应用于上述音频译码系统10的编码器20中。HOA编码装置包括:虚拟扬声器配置单元、编码分析单元、虚拟扬声器集合生成单元、虚拟扬声器选择单元、虚拟扬声器信号生成单元和核心编码器处理单元。其中,
虚拟扬声器配置单元,用于根据编码器配置信息对虚拟扬声器进行配置,以得到虚拟扬声器配置参数。编码器配置信息包括且不限于:HOA阶数,编码比特率,用户自定义信息等,虚拟扬声器配置参数包括且不限于:虚拟扬声器的个数,虚拟扬声器的HOA阶数等。
虚拟扬声器配置单元输出的虚拟扬声器配置参数作为虚拟扬声器集合生成单元的输入。
编码分析单元,用于对待编码HOA信号进行编码分析,例如分析待编码HOA信号的声场分布,包括待编码HOA信号的声源个数、方向性、弥散度等特征,作为决定如何选择目标虚拟扬声器的判断条件之一。
不限定的是,本申请中,HOA编码装置中也可以不包括编码分析单元,即HOA编码装置可以不对输入信号进行分析,则采用一种默认配置决定如何选择目标虚拟扬声器。
其中,HOA编码装置获取待编码HOA信号,例如可以将从实际采集设备记录的HOA信号或采用人工音频对象合成的HOA信号作为编码器的输入,同时编码器输入的待编码HOA信号可以是时域HOA信号也可以是频域HOA信号。
虚拟扬声器集合生成单元,用于生成虚拟扬声器集合,该虚拟扬声器集合中可以包括:多个虚拟扬声器,虚拟扬声器集合中的虚拟扬声器也可以称为“候选虚拟扬声器”。
虚拟扬声器集合生成单元生成指定的候选虚拟扬声器HOA系数。由虚拟扬声器配置单元提供的候选虚拟扬声器的坐标(即位置信息)和候选虚拟扬声器的HOA阶数用于生成候选虚拟扬声器HOA系数。候选虚拟扬声器的坐标确定方法包括且不限于按等距规则产生K个虚拟扬声器、根据听觉感知原理生成非均匀分布的K个候选虚拟扬声器。根据候选虚拟扬声器的个数生成分布均匀的候选虚拟扬声器的坐标。
接下来生成虚拟扬声器的HOA系数:
声波在理想介质中传播,其波速为k=w/c,角频率w=2πf,f表示声波频率,c表示声速。因此声压p满足如下公式(1):
2p+k2p=0 (1)
其中,▽2为拉普拉斯算子。
在球坐标下求解公式(1),声压p可以得到如下公式(2):
其中,r表示球半径,θ表示水平角度(azimuth)(水平角度也可以称作方位角),表示俯仰角度(elevation),k表示波速,s表示理想平面波的幅度,m表示HOA阶数序号,表示球贝塞尔函数,亦称作径向基函数,第一个j是虚数单位,不随角度变化,是θ和对应的球谐函数,是声源方向的球谐函数。
立体混响(Ambisonics)系数为:
因此可以得到声压p的一般展开形式(4):
上述公式(3)可以表明声场可以在球面上按球谐函数展开,其通过Ambisonics系数进行表示。
相应的,已知Ambisonics系数则可以重建声场,将公式(3)截断到第N项,以Ambisonics系数作为对声场的近似描述,则称为N阶的HOA系数,该HOA系数亦称作Ambisonics系数。N阶Ambisonics系数共有(N+1)2个通道。可选的,HOA阶数可以为2阶~10阶,将球谐函数按照HOA信号的一个采样点对应的系数进行叠加,就能实现该采样点对应的时刻空间声场的重构。根据该原理可以生成虚拟扬声器的HOA系数。将公式(3)中的θs分别设置为虚拟扬声器的位置信息,即水平角度和俯仰角度,根据式(3)可以获得该虚拟扬声器的HOA系数,也称作Ambisonics系数。例如,针对3阶HOA信号,假设s=1,其对应的16通道的HOA系数可通过球谐函数得到,3阶HOA信号对应的16通道的HOA系数计算公式具体如表1所示:
表1
表1中θ表示虚拟扬声器在预设球面上的位置信息的水平角度,表示虚拟扬声器在预设球面上的位置信息的俯仰角度,l表示HOA阶数,l=0,1,…,N,m表示每一阶中的方向参数,m=-l,…,l。按照表1中的极坐标的表达式,可以根据虚拟扬声器的位置信息,获得该虚拟扬声器的3阶HOA信号对应的16个通道的HOA系数。
虚拟扬声器集合生成单元输出的候选虚拟扬声器的HOA系数作为虚拟扬声器选择单元的输入。
虚拟扬声器选择单元,用于根据待编码HOA信号从虚拟扬声器集合中的多个候选虚拟扬声器中选择出目标虚拟扬声器,该目标虚拟扬声器可以称为“与待编码HOA信号匹配的虚拟扬声器”,或者简称为匹配虚拟扬声器。
虚拟扬声器选择单元根据待编码HOA信号与虚拟扬声器集合生成单元输出的候选虚拟扬声器HOA系数,选择出指定的匹配虚拟扬声器。
接下来对匹配虚拟扬声器的选择方法进行举例说明:在一种可能的实现方式中,使用候选虚拟扬声器HOA系数匹配与待编码HOA信号做内积,选取内积绝对值最大的候选虚拟扬声器为目标虚拟扬声器,即匹配虚拟扬声器,并将待编码HOA信号在该候选虚拟扬声器的投影叠加到该候选虚拟扬声器HOA系数的线性组合上,然后将投影向量从待编码HOA信号中减去得到差值,对差值重复上述过程实现迭代计算,每迭代一次产生一个匹配虚拟扬声器,输出匹配虚拟扬声器坐标和匹配虚拟扬声器HOA系数。可以理解的是,匹配虚拟扬声器会选取多个,每迭代一次产生一个匹配虚拟扬声器。(除此之外,不限定其他实现方法)
虚拟扬声器选择单元输出的目标虚拟扬声器的坐标和目标虚拟扬声器的HOA系数作为虚拟扬声器信号生成单元的输入。
虚拟扬声器信号生成单元,用于根据待编码HOA信号和目标虚拟扬声器的属性信息生成虚拟扬声器信号,其中当属性信息为位置信息时,根据所述目标虚拟扬声器的位置信息确定所述目标虚拟扬声器的HOA系数,当属性信息包括HOA系数时,从所述属性信息中获取所述目标虚拟扬声器的HOA系数。
虚拟扬声器信号生成单元通过待编码HOA信号和目标虚拟扬声器的HOA系数计算虚拟扬声器信号。
虚拟扬声器的HOA系数用矩阵A表示,用矩阵A可以线性组合出待编码HOA信号,进一步的可以采用最小二乘方法求得理论的最优解w,即为虚拟扬声器信号,例如可以采用如下计算公式:
w=A-1X,
其中,A-1代表矩阵A的逆矩阵,矩阵A的大小为(M×C),C为目标虚拟扬声器个数,M为N阶的HOA系数的通道个数,M=(N+1)2,a表示目标虚拟扬声器的HOA系数,例如,
X代表待编码HOA信号,矩阵X的大小为(M×L),M为N阶的HOA系数的通道个数,L为时域或频域样点个数,x表示待编码HOA信号的系数,例如,
虚拟扬声器信号生成单元输出的虚拟扬声器信号作为核心编码器处理单元的输入。
核心编码器处理单元,用于对虚拟扬声器信号进行核心编码器处理,得到传输码流。
核心编码器处理包括且不限于变换、量化、心理声学模型、码流产生等,可以对频域传输通道进行处理也可以对时域传输通道进行处理,此处不做限定。
基于上述实施例的描述,本申请提供了一种虚拟扬声器集合确定方法。该虚拟扬声器集合确定方法基于以下预先设定:
一、虚拟扬声器分布表
虚拟扬声器分布表包括K个虚拟扬声器的位置信息,该位置信息包括俯仰角索引和水平角索引,K为大于1的正整数。设定K个虚拟扬声器分布于预设球面上。该预设球面可以包括X个纬线圈,Y个经线圈,X和Y可以相同也可以不同,X和Y均为正整数,例如X为512,768或1024等等,Y为512,768或1024等等。虚拟扬声器位于所述X个纬线圈和所述Y个经线圈的交汇点上。其中X和Y的取值越大,虚拟扬声器的候选选择位置越多,最终选择的虚拟扬声器构成的声场的回放效果就越好。
图4a为本申请预设球面的一个示例性的示意图,如图4a所示,预设球面包含L(L>1)个纬度区域,第m个纬度区域包含Tm个纬线圈,K个虚拟扬声器中分布于第mi个纬线圈上的相邻虚拟扬声器之间的水平角度差为αm,1≤m≤L,Tm为正整数,1≤mi≤Tm。当Tm>1时,第m个纬度区域中的任意两个相邻纬线圈的俯仰角度差为αm。图4b为本申请俯仰角度和水平角度的一个示例性的示意图,如图4b所示,虚拟扬声器的位置和球心之间的连线与预设水平面(例如赤道圈所在平面,或者南极点所在的平面,或者北极点所在的平面,其中,南极点所在的平面垂直于南极点和北极点之间的连线,北极点所在的平面垂直于南极点和北极点之间的连线)之间的夹角为虚拟扬声器的俯仰角度;虚拟扬声器的位置和球心之间的连线在水平面上的投影与设定初始方向的夹角为虚拟扬声器的水平角度。
应当理解的是,K个虚拟扬声器分布于各个纬度区域中的一个或多个纬线圈上,位于同一个纬线圈上的相邻虚拟扬声器之间的距离通过水平角度差表示,且同一个纬线圈上的所有相邻虚拟扬声器之间的水平角度差相等。例如,上述第mi个纬线圈上,任意两个相邻虚拟扬声器之间的水平角度差均为αm。而位于同一个纬度区域内的虚拟扬声器,若该纬度区域包含多个纬线圈,则无论在该纬度区域中的哪一个纬线圈上,相邻虚拟扬声器之间的水平角度差全都相等。例如,第m个纬度区域中,第mi个纬线圈上的相邻虚拟扬声器之间的水平角度差和第mi+1个纬线圈上的相邻虚拟扬声器之间的水平角度差均为αm。另外,若某一个纬度区域包含多个纬线圈,则该纬度区域中的纬线圈之间的距离通过俯仰角度差表示,且任意两个相邻纬线圈之间的俯仰角度差和该纬度区域中的相邻虚拟扬声器之间的水平角度差相等。
在一种可能的实现方式中,αn=αm或者αn≠αm,αn为K个虚拟扬声器中分布于第n个纬度区域中的任意一个纬线圈上的相邻虚拟扬声器之间的水平角度差,n≠m。
即,位于不同纬度区域的虚拟扬声器,相邻虚拟扬声器之间的水平角度差可以是相等的,αn=αm,也可以是不相等的,αn≠αm。应当理解的是,本申请并不限定L个纬度区域内的相邻虚拟扬声器之间的水平角度差全部相等,也不限定L个纬度区域内的相邻虚拟扬声器之间的水平角度差全部不相等,甚至L个纬度区域中可以有部分纬度区域内的相邻虚拟扬声器之间的水平角度差相等,而和另一部分纬度区域内的相邻虚拟扬声器之间的水平角度差不相等。
在一种可能的实现方式中,αc<αm,αc为K个虚拟扬声器中分布于第mc个纬线圈上的相邻虚拟扬声器之间的水平角度差,第mc个纬线圈是L个纬度区域中包含赤道纬线圈的纬度区域中的任意一个纬线圈。
即,L个纬度区域中,包含了赤道纬线圈的纬度区域内的相邻虚拟扬声器之间的水平角度差是最小的,亦即,L个纬度区域中,包含了赤道纬线圈的纬度区域内的虚拟扬声器是分布最密集的。
可选的,可以通过索引的方式表示虚拟扬声器分布表中的K个虚拟扬声器的位置,索引可以包括俯仰角索引和水平角索引。例如,在任意一个纬线圈上,将分布其上的其中一个虚拟扬声器的水平角度设置为0,然后根据预设的水平角度与水平角索引之间的转换公式转换获得对应的水平角索引;由于纬线圈上的任意相邻虚拟扬声器之间的水平角差值是相等的,因此可以获得该纬线圈上的其他虚拟扬声器的水平角度,从而根据上述转换公式获得所述其他虚拟扬声器各自的水平角索引。需要说明的是,本申请对将纬线圈上的哪个虚拟扬声器的水平角度设置为0不作具体限定。同理,由于在经线圈方向相邻虚拟扬声器之间的俯仰角差值满足前述的要求,因此在设置了俯仰角度为0的虚拟扬声器后,就可以获得其他虚拟扬声器的俯仰角度,基于预设的俯仰角度和俯仰角索引之间的转换公式就可以获得经线圈上所有虚拟扬声器的俯仰角索引。需要说明的是,本申请对将经线圈上哪个虚拟扬声器的俯仰角度设置为0不作具体限定,例如可以是位于所述赤道圈上的虚拟扬声器,或者所述位于所述南极点上的虚拟扬声器,或者位于所述北极点上的虚拟扬声器。
可选的,上述K个虚拟扬声器中的第k个虚拟扬声器,其俯仰角度和俯仰角索引满足如下公式(即俯仰角度和俯仰角索引的转换公式):
其中,rk表示第k个虚拟扬声器所在经线圈的半径,round()表示取整。
上述K个虚拟扬声器中的第k个虚拟扬声器,其水平角度θk和水平角索引θk’满足如下公式(即水平角度和水平角索引的转换公式):
其中,rk表示第k个虚拟扬声器所在纬线圈的半径,round()表示取整。
图5a和图5b为K个虚拟扬声器的示例性的分布图。如图5a所示,包含了赤道纬线圈的纬度区域内的相邻虚拟扬声器之间的水平角度差小于其他纬度区域内的相邻虚拟扬声器之间的水平角度差,αc<αm。如图5b所示,K个虚拟扬声器在预设球面上随机近似均匀分布。
表1示出了图5a和图5b所示的分布图的比较,假设K=1669,可以看出图5a的分布方法获得的HOA重建信号的信噪比(SNR)的平均值高于图5b的分布方法获得的HOA重建信号的信噪比。
表1
如表1所示,本实施例采用了12个不同类型的测试音频,文件名从1到12分别为单声源语音信号、单声源乐器信号、两声源语音信号、两声源乐器信号、三声源语音乐器混合信号、四声源语音乐器混合信号、两声源噪声信号1、两声源噪声信号2、两声源噪声信号3、两声源噪声信号4、两声源混响信号1、两声源混响信号2。
图6a和图6b为K个虚拟扬声器的示例性的分布图。如图6a所示,L个纬度区域内的相邻虚拟扬声器之间的水平角度差均相等,αn=αm。如图6b所示,K个虚拟扬声器在预设球面上随机近似均匀分布。
表2示出了图6a和图6b所示的分布图的比较,假设K=1669,可以看出图6a的分布方法获得的HOA重建信号的信噪比(SNR)的平均值高于图6b的分布方法获得的HOA重建信号的信噪比。
表2
如表2所示,本实施例采用了12个不同类型的测试音频,文件名从1到12分别为单声源语音信号、单声源乐器信号、两声源语音信号、两声源乐器信号、三声源语音乐器混合信号、四声源语音乐器混合信号、两声源噪声信号1、两声源噪声信号2、两声源噪声信号3、两声源噪声信号4、两声源混响信号1、两声源混响信号2。
示例性的,表3是虚拟扬声器分布表的一个示例,该示例中K为530,即表3描述了序号从0~529的530个虚拟扬声器的具体分布,位置表示对应序号虚拟扬声器的水平角索引和俯仰角索引,表格中位置列中“,”前的数字是水平角索引,“,”后的数字是俯仰角索引。
表3虚拟扬声器分布表
需要说明的是,表3中虚拟扬声器所分布的球面包括了1024个经线圈以及1024个纬线圈(南极点和北极点也分别对应一个纬线圈),所述1024个经线圈和1024个纬线圈对应了1024×1022+2=1046530个交汇点,所述1046530个交汇点分别有各自的俯仰角和水平角,相应地,所述1046530个交汇点分别有各自的俯仰角索引和水平角索引;表3中的530个虚拟扬声器的位置是所述1046530个交汇点中的530个。其中,表3中俯仰角索引是基于赤道的俯仰角度为0进行计算获得的,即除赤道外,其余俯仰角索引所对应的俯仰角度均是相对于赤道所在平面的俯仰角度。
二、预设的F个虚拟扬声器
F个虚拟扬声器满足条件:F个虚拟扬声器中分布于第mi个纬线圈上的相邻虚拟扬声器之间的水平角度差αmi大于αm,第mi个纬线圈是第m个纬度区域内的其中一个纬线圈。
为方便描述,将K个虚拟扬声器中的虚拟扬声器称作候选虚拟扬声器,将F个虚拟扬声器中的任意一个虚拟扬声器称作中心虚拟扬声器(亦可以称作第一轮虚拟扬声器)。即,针对预设球面上的任意一个纬线圈,可以从分布在该纬线圈上的多个候选虚拟扬声器中选取一个或多个虚拟扬声器作为中心虚拟扬声器,加入F个虚拟扬声器中。若是选取多个虚拟扬声器,则相邻中心虚拟扬声器之间的水平角度差αmi大于相邻候选虚拟扬声器之间的水平角度差αm,可以表示为αmi>αm。亦即,针对某一个纬线圈,分布有多个候选虚拟扬声器,中心虚拟扬声器选自该多个候选虚拟扬声器,且密度更小。例如,纬线圈上的相邻候选虚拟扬声器之间的水平角度差αm=5°,相邻中心虚拟扬声器之间的水平角度差αmi=8°。
在一种可能的实现方式中,αmi=q×αm,其中,q为大于1的正整数。可见,相邻中心虚拟扬声器之间的水平角度差和相邻候选虚拟扬声器之间的水平角度差成倍数关系。例如,纬线圈上的相邻候选虚拟扬声器之间的水平角度差αm=5°,相邻中心虚拟扬声器之间的水平角度差αmi=10°。
三、F个虚拟扬声器中的每个虚拟扬声器各自对应S个虚拟扬声器
为方便描述,将S个虚拟扬声器中的虚拟扬声器称作目标虚拟扬声器。即,任意一个中心虚拟扬声器对应的S个虚拟扬声器满足条件:该S个虚拟扬声器包括前述任意一个中心虚拟扬声器,以及位于该任意一个中心虚拟扬声器周围的S-1个虚拟扬声器,该S-1个虚拟扬声器与前述任意一个中心虚拟扬声器的S-1个相关性中的任意一个相关性大于K个虚拟扬声器中除S个虚拟扬声器外的其它K-S个虚拟扬声器与前述任意一个中心虚拟扬声器的K-S个相关性中的所有相关性。
亦即,该S个虚拟扬声器对应的S个Rfk是K个虚拟扬声器对应的K个Rfk中最大的S个。最大的S个表示K个Rfk从大到小排序,排在最前面的S个Rfk即为最大的S个。
Rfk表示上述任意一个中心虚拟扬声器和K个虚拟扬声器中的第k个虚拟扬声器的相关性,Rfk满足如下公式:
Rfk=Bf(θ,φ)·Bk(θ,φ)
其中,θ表示上述任意一个虚拟扬声器的水平角度,φ表示上述任意一个虚拟扬声器的俯仰角度,Bf(θ,φ)表示上述任意一个虚拟扬声器的HOA系数,Bk(θ,φ)表示K个虚拟扬声器中的第k个虚拟扬声器的HOA系数。
通过上述方法即可给每个中心虚拟扬声器确定出S个目标虚拟扬声器。应当理解的是,本申请预先设定的是,来自K个虚拟扬声器的F个虚拟扬声器,因此每个中心虚拟扬声器的位置也可以用俯仰角索引和水平角索引表示;每个中心虚拟扬声器对应S个虚拟扬声器,该S个虚拟扬声器也来源于K个虚拟扬声器,因此每个目标虚拟扬声器的位置也可以用俯仰角索引和水平角索引表示。
图7是本申请虚拟扬声器集合确定方法的一个示例性的流程图。该过程700可由上述实施例中的编码器20或解码器30执行,即由音频发送设备中的编码器20实现音频编码,然后将码流信息发送给音频接收设备,由音频接收设备中的解码器30对码流信息进行解码以获得目标音频帧,进而基于该目标音频帧渲染得到对应于一个或多个虚拟扬声器的声场音频信号。过程700描述为一系列的步骤或操作,应当理解的是,过程700可以以各种顺序执行和/或同时发生,不限于图7所示的执行顺序。如图7所示,该方法包括:
步骤701、根据待处理的音频信号从预设的F个虚拟扬声器中确定目标虚拟扬声器。
如上所述,对待处理的音频信号进行编码分析,例如分析待处理的音频信号的声场分布,包括音频信号的声源个数、方向性、弥散度等特征,得到该音频信号的HOA系数,作为决定如何选择目标虚拟扬声器的判断条件之一。根据待处理的音频信号的HOA系数和候选的虚拟扬声器(即上述F个虚拟扬声器)的HOA系数,可以选择出与待处理的音频信号匹配的虚拟扬声器,本申请中将该虚拟扬声器称作目标虚拟扬声器。
在一种可能的实现方式中,可以先获取音频信号的HOA系数,再获取F个虚拟扬声器对应的F组HOA系数,F个虚拟扬声器与F组HOA系数是一一对应的,然后将F组HOA系数中与音频信号的HOA系数相关性最大的一组HOA系数对应的虚拟扬声器确定为目标虚拟扬声器。
本申请可以将F个虚拟扬声器各自的HOA系数分别与音频信号的HOA系数做内积,选取内积绝对值最大的虚拟扬声器为目标虚拟扬声器。即,F组HOA系数中每一组包含(N+1)2个系数,音频信号的HOA系数包含(N+1)2个系数,N表示音频信号的阶数,因此音频信号的HOA系数与F组HOA系数中的每一组一一对应,基于此对应关系,将音频信号的HOA系数分别与F组HOA系数中每一组做内积,得到音频信号的HOA系数分别与F组HOA系数中每一组之间的相关性。需要说明的是,还可以采用其他方法确定目标虚拟扬声器,本申请对此不做具体限定。
步骤702、从预设的虚拟扬声器分布表中获取与目标虚拟扬声器对应的S个虚拟扬声器各自的位置信息,该位置信息包括俯仰角索引和水平角索引。
基于上述本申请的预先设定,一旦确定了目标虚拟扬声器(亦即中心虚拟扬声器),该目标虚拟扬声器对应的S个虚拟扬声器就可以获取到。而基于最早设定的虚拟扬声器分布表,就可以得到该S个虚拟扬声器的位置信息。与K个虚拟扬声器采用同样的表示方法,S个虚拟扬声器的位置信息用俯仰角索引和水平角索引表示。
由此可见,在确定目标虚拟扬声器时,该目标虚拟扬声器是与待处理的音频信号HOA系数相关性最高的中心虚拟扬声器。而每个中心虚拟扬声器对应的S个虚拟扬声器是与该中心虚拟扬声器HOA系数相关性最高的S个虚拟扬声器,而因此与目标虚拟扬声器对应的S个虚拟扬声器也是与待处理的音频信号HOA系数相关性最高的S个虚拟扬声器。
本申请通过预先设定虚拟扬声器分布表,使得按照该分布表部署虚拟扬声器可以获得较高的HOA重建信号的信噪比(SNR)平均值,进而在基于这种分布的情况下选取与待处理的音频信号HOA系数相关性最高的S个虚拟扬声器,可以达到最优的采样效果,进而提升音频信号的回放效果。
图8为本申请虚拟扬声器集合确定装置的一个示例性的结构图,如图8所示,该装置可以应用于上述实施例中的编码器20或解码器30。本实施例的虚拟扬声器集合确定装置可以包括:确定模块801和获取模块802,其中,确定模块801,用于根据待处理的音频信号从预设的F个虚拟扬声器中确定目标虚拟扬声器,所述F个虚拟扬声器中的每个虚拟扬声器各自对应S个虚拟扬声器,F为正整数,S为大于1的正整数;获取模块802,用于从预设的虚拟扬声器分布表中获取与所述目标虚拟扬声器对应的S个虚拟扬声器各自的位置信息,所述虚拟扬声器分布表包括K个虚拟扬声器的位置信息,所述位置信息包括俯仰角索引和水平角索引,K为大于1的正整数,F≤K,F×S≥K。
在一种可能的实现方式中,所述确定模块801,具体用于获取所述音频信号的高阶立体混响HOA系数;获取所述F个虚拟扬声器对应的F组HOA系数,所述F个虚拟扬声器与所述F组HOA系数一一对应;将所述F组HOA系数中与所述音频信号的HOA系数相关性最大的一组HOA系数对应的虚拟扬声器确定为所述目标虚拟扬声器。
在一种可能的实现方式中,所述与所述目标虚拟扬声器对应的S个虚拟扬声器满足如下条件:所述S个虚拟扬声器包括所述目标虚拟扬声器,以及位于所述目标虚拟扬声器周围的S-1个虚拟扬声器,所述S-1个虚拟扬声器与所述目标虚拟扬声器的S-1个相关性中的任意一个相关性大于所述K个虚拟扬声器中除所述S个虚拟扬声器外的其它K-S个虚拟扬声器与所述目标虚拟扬声器的K-S个相关性中的所有相关性。
在一种可能的实现方式中,所述K个虚拟扬声器满足如下条件:所述K个虚拟扬声器分布于预设球面上;所述预设球面包含L个纬度区域,L>1;其中,所述L个纬度区域中第m个纬度区域包含Tm个纬线圈,所述K个虚拟扬声器中分布于第mi个纬线圈上的相邻虚拟扬声器之间的水平角度差为αm,1≤m≤L,Tm为正整数,1≤mi≤Tm;其中,当Tm>1时,所述第m个纬度区域中的任意两个相邻纬线圈之间的俯仰角度差为αm
在一种可能的实现方式中,所述L个纬度区域中第n个纬度区域包含Tn个纬线圈,所述K个虚拟扬声器中分布于第ni个纬线圈上的相邻虚拟扬声器之间的水平角度差为αn,1≤n≤L,Tn为正整数,1≤ni≤Tn;其中,当Tn>1时,所述第n个纬度区域中的任意两个相邻纬线圈之间的俯仰角度差为αn;其中,αn=αm或者αn≠αm,n≠m。
在一种可能的实现方式中,所述L个纬度区域中第c个纬度区域包含Tc个纬线圈,所述Tc个纬线圈的其中之一为赤道纬线圈,所述K个虚拟扬声器中分布于第ci个纬线圈上的相邻虚拟扬声器之间的水平角度差为αc,1≤c≤L,Tc为正整数,1≤ci≤Tc;其中,当Tc>1时,所述第c个纬度区域中的任意两个相邻纬线圈之间的俯仰角度差为αc;其中,αc<αm,c≠m。
在一种可能的实现方式中,所述F个虚拟扬声器满足如下条件:所述F个虚拟扬声器中分布于所述第mi个纬线圈上的相邻虚拟扬声器之间的水平角度差αmi大于αm
在一种可能的实现方式中,αmi=q×αm,其中,q为大于1的正整数。
在一种可能的实现方式中,所述K个虚拟扬声器中的第k个虚拟扬声器与所述目标虚拟扬声器的相关性Rfk满足如下公式:
Rfk=Bf(θ,φ)·Bk(θ,φ)
其中,θ表示所述目标虚拟扬声器的水平角度,φ表示所述目标虚拟扬声器的俯仰角度,Bf(θ,φ)表示所述目标虚拟扬声器的HOA系数,Bk(θ,φ)表示所述K个虚拟扬声器中的第k个虚拟扬声器的HOA系数。
本实施例的装置,可以用于执行图7所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
在实现过程中,上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。处理器可以是通用处理器、数字信号处理器(digital signalprocessor,DSP)、特定应用集成电路(application-specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。本申请公开的方法的步骤可以直接体现为硬件编码处理器执行完成,或者用编码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
上述各实施例中提及的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-onlymemory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(doubledata rateSDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(directrambus RAM,DR RAM)。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (20)

1.一种音频发送设备实现的虚拟扬声器集合确定方法,其特征在于,包括:
根据待处理的音频信号从预设的F个虚拟扬声器中确定目标虚拟扬声器,所述F个虚拟扬声器中的每个虚拟扬声器各自对应S个虚拟扬声器,F为正整数,S为大于1的正整数;
从预设的虚拟扬声器分布表中,获取与所述目标虚拟扬声器对应的S个虚拟扬声器各自的位置信息,所述虚拟扬声器分布表包括K个虚拟扬声器的位置信息,所述位置信息包括俯仰角索引和水平角索引,K为大于1的正整数,F≤K,F×S≥K;
根据所述位置信息得到经编码的码流信息。
2.根据权利要求1所述的方法,其特征在于,所述根据待处理的音频信号从预设的F个虚拟扬声器中确定目标虚拟扬声器,包括:
获取所述音频信号的高阶立体混响HOA系数;
获取所述F个虚拟扬声器对应的F组HOA系数,所述F个虚拟扬声器与所述F组HOA系数一一对应;
将所述F组HOA系数中与所述音频信号的HOA系数相关性最大的一组HOA系数对应的虚拟扬声器确定为所述目标虚拟扬声器。
3.根据权利要求1或2所述的方法,其特征在于,所述与所述目标虚拟扬声器对应的S个虚拟扬声器满足如下条件:
所述S个虚拟扬声器包括所述目标虚拟扬声器,以及位于所述目标虚拟扬声器周围的S-1个虚拟扬声器,所述S-1个虚拟扬声器与所述目标虚拟扬声器的S-1个相关性中的任意一个相关性大于所述K个虚拟扬声器中除所述S个虚拟扬声器外的其它K-S个虚拟扬声器与所述目标虚拟扬声器的K-S个相关性中的所有相关性。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述K个虚拟扬声器满足如下条件:
所述K个虚拟扬声器分布于预设球面上;所述预设球面包含L个纬度区域,L>1;
其中,所述L个纬度区域中第m个纬度区域包含Tm个纬线圈,所述K个虚拟扬声器中分布于第mi个纬线圈上的相邻虚拟扬声器之间的水平角度差为αm,1≤m≤L,Tm为正整数,1≤mi≤Tm;
其中,当Tm>1时,所述第m个纬度区域中的任意两个相邻纬线圈之间的俯仰角度差为αm
5.根据权利要求4所述的方法,其特征在于,所述L个纬度区域中第n个纬度区域包含Tn个纬线圈,所述K个虚拟扬声器中分布于第ni个纬线圈上的相邻虚拟扬声器之间的水平角度差为αn,1≤n≤L,Tn为正整数,1≤ni≤Tn
其中,当Tn>1时,所述第n个纬度区域中的任意两个相邻纬线圈之间的俯仰角度差为αn
其中,αn=αm或者αn≠αm,n≠m。
6.根据权利要求4所述的方法,其特征在于,所述L个纬度区域中第c个纬度区域包含Tc个纬线圈,所述Tc个纬线圈的其中之一为赤道纬线圈,所述K个虚拟扬声器中分布于第ci个纬线圈上的相邻虚拟扬声器之间的水平角度差为αc,1≤c≤L,Tc为正整数,1≤ci≤Tc
其中,当Tc>1时,所述第c个纬度区域中的任意两个相邻纬线圈之间的俯仰角度差为αc
其中,αc<αm,c≠m。
7.根据权利要求4-6中任一项所述的方法,其特征在于,所述F个虚拟扬声器满足如下条件:
所述F个虚拟扬声器中分布于所述第mi个纬线圈上的相邻虚拟扬声器之间的水平角度差αmi大于αm
8.根据权利要求7所述的方法,其特征在于,αmi=q×αm,其中,q为大于1的正整数。
9.根据权利要求3所述的方法,其特征在于,所述K个虚拟扬声器中的第k个虚拟扬声器与所述目标虚拟扬声器的相关性Rfk满足如下公式:
Rfk=Bf(θ,φ)·Bk(θ,φ)
其中,θ表示所述目标虚拟扬声器的水平角度,φ表示所述目标虚拟扬声器的俯仰角度,Bf(θ,φ)表示所述目标虚拟扬声器的HOA系数,Bk(θ,φ)表示所述第k个虚拟扬声器的HOA系数。
10.一种虚拟扬声器集合确定装置,其特征在于,包括:
确定模块,用于根据待处理的音频信号从预设的F个虚拟扬声器中确定目标虚拟扬声器,所述F个虚拟扬声器中的每个虚拟扬声器各自对应S个虚拟扬声器,F为正整数,S为大于1的正整数;
获取模块,用于从预设的虚拟扬声器分布表中获取与所述目标虚拟扬声器对应的S个虚拟扬声器各自的位置信息,所述虚拟扬声器分布表包括K个虚拟扬声器的位置信息,所述位置信息包括俯仰角索引和水平角索引,K为大于1的正整数,F≤K,F×S≥K;
编码模块,用于根据所述位置信息得到经编码的码流信息。
11.根据权利要求10所述的装置,其特征在于,所述确定模块,具体用于获取所述音频信号的高阶立体混响HOA系数;获取所述F个虚拟扬声器对应的F组HOA系数,所述F个虚拟扬声器与所述F组HOA系数一一对应;将所述F组HOA系数中与所述音频信号的HOA系数相关性最大的一组HOA系数对应的虚拟扬声器确定为所述目标虚拟扬声器。
12.根据权利要求10或11所述的装置,其特征在于,所述与所述目标虚拟扬声器对应的S个虚拟扬声器满足如下条件:
所述S个虚拟扬声器包括所述目标虚拟扬声器,以及位于所述目标虚拟扬声器周围的S-1个虚拟扬声器,所述S-1个虚拟扬声器与所述目标虚拟扬声器的S-1个相关性中的任意一个相关性大于所述K个虚拟扬声器中除所述S个虚拟扬声器外的其它K-S个虚拟扬声器与所述目标虚拟扬声器的K-S个相关性中的所有相关性。
13.根据权利要求10-12中任一项所述的装置,其特征在于,所述K个虚拟扬声器满足如下条件:
所述K个虚拟扬声器分布于预设球面上;所述预设球面包含L个纬度区域,L>1;
其中,所述L个纬度区域中第m个纬度区域包含Tm个纬线圈,所述K个虚拟扬声器中分布于第mi个纬线圈上的相邻虚拟扬声器之间的水平角度差为αm,1≤m≤L,Tm为正整数,1≤mi≤Tm;
其中,当Tm>1时,所述第m个纬度区域中的任意两个相邻纬线圈之间的俯仰角度差为αm
14.根据权利要求13所述的装置,其特征在于,所述L个纬度区域中第n个纬度区域包含Tn个纬线圈,所述K个虚拟扬声器中分布于第ni个纬线圈上的相邻虚拟扬声器之间的水平角度差为αn,1≤n≤L,Tn为正整数,1≤ni≤Tn
其中,当Tn>1时,所述第n个纬度区域中的任意两个相邻纬线圈之间的俯仰角度差为αn
其中,αn=αm或者αn≠αm,n≠m。
15.根据权利要求13所述的装置,其特征在于,所述L个纬度区域中第c个纬度区域包含Tc个纬线圈,所述Tc个纬线圈的其中之一为赤道纬线圈,所述K个虚拟扬声器中分布于第ci个纬线圈上的相邻虚拟扬声器之间的水平角度差为αc,1≤c≤L,Tc为正整数,1≤ci≤Tc
其中,当Tc>1时,所述第c个纬度区域中的任意两个相邻纬线圈之间的俯仰角度差为αc
其中,αc<αm,c≠m。
16.根据权利要求13-15中任一项所述的装置,其特征在于,所述F个虚拟扬声器满足如下条件:
所述F个虚拟扬声器中分布于所述第mi个纬线圈上的相邻虚拟扬声器之间的水平角度差αmi大于αm
17.根据权利要求16所述的装置,其特征在于,αmi=q×αm,其中,q为大于1的正整数。
18.根据权利要求12所述的装置,其特征在于,所述K个虚拟扬声器中的第k个虚拟扬声器与所述目标虚拟扬声器的相关性Rfk满足如下公式:
Rfk=Bf(θ,φ)·Bk(θ,φ)
其中,θ表示所述目标虚拟扬声器的水平角度,φ表示所述目标虚拟扬声器的俯仰角度,Bf(θ,φ)表示所述目标虚拟扬声器的HOA系数,Bk(θ,φ)表示所述第k个虚拟扬声器的HOA系数。
19.一种音频处理设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一项所述的方法。
20.一种计算机可读存储介质,其特征在于,包括计算机程序,所述计算机程序在计算机上被执行时,使得所述计算机执行权利要求1-9中任一项所述的方法。
CN202310964269.0A 2021-03-05 2021-03-05 虚拟扬声器集合确定方法和装置 Pending CN116980818A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310964269.0A CN116980818A (zh) 2021-03-05 2021-03-05 虚拟扬声器集合确定方法和装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110247466.1A CN115038028B (zh) 2021-03-05 2021-03-05 虚拟扬声器集合确定方法和装置
CN202310964269.0A CN116980818A (zh) 2021-03-05 2021-03-05 虚拟扬声器集合确定方法和装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN202110247466.1A Division CN115038028B (zh) 2021-03-05 2021-03-05 虚拟扬声器集合确定方法和装置

Publications (1)

Publication Number Publication Date
CN116980818A true CN116980818A (zh) 2023-10-31

Family

ID=83117702

Family Applications (3)

Application Number Title Priority Date Filing Date
CN202110247466.1A Active CN115038028B (zh) 2021-03-05 2021-03-05 虚拟扬声器集合确定方法和装置
CN202310964269.0A Pending CN116980818A (zh) 2021-03-05 2021-03-05 虚拟扬声器集合确定方法和装置
CN202310963891.XA Pending CN117061983A (zh) 2021-03-05 2021-03-05 虚拟扬声器集合确定方法和装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202110247466.1A Active CN115038028B (zh) 2021-03-05 2021-03-05 虚拟扬声器集合确定方法和装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202310963891.XA Pending CN117061983A (zh) 2021-03-05 2021-03-05 虚拟扬声器集合确定方法和装置

Country Status (9)

Country Link
US (1) US20230412981A1 (zh)
EP (1) EP4294056A4 (zh)
JP (1) JP2024512347A (zh)
KR (1) KR20230154241A (zh)
CN (3) CN115038028B (zh)
AU (1) AU2022230620A1 (zh)
BR (1) BR112023017996A2 (zh)
TW (2) TWI816313B (zh)
WO (1) WO2022184097A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118283485A (zh) * 2022-12-29 2024-07-02 华为技术有限公司 虚拟扬声器的确定方法及相关装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0815362D0 (en) * 2008-08-22 2008-10-01 Queen Mary & Westfield College Music collection navigation
EP2645748A1 (en) * 2012-03-28 2013-10-02 Thomson Licensing Method and apparatus for decoding stereo loudspeaker signals from a higher-order Ambisonics audio signal
CN105637901B (zh) * 2013-10-07 2018-01-23 杜比实验室特许公司 空间音频处理系统和方法
CN103618986B (zh) * 2013-11-19 2015-09-30 深圳市新一代信息技术研究院有限公司 一种3d空间中音源声像体的提取方法及装置
EP3209036A1 (en) * 2016-02-19 2017-08-23 Thomson Licensing Method, computer readable storage medium, and apparatus for determining a target sound scene at a target position from two or more source sound scenes
JP6724830B2 (ja) * 2017-03-16 2020-07-15 ヤマハ株式会社 マイクロフォンアレイ

Also Published As

Publication number Publication date
TWI816313B (zh) 2023-09-21
EP4294056A4 (en) 2024-07-17
AU2022230620A1 (en) 2023-09-21
US20230412981A1 (en) 2023-12-21
KR20230154241A (ko) 2023-11-07
CN117061983A (zh) 2023-11-14
TW202245487A (zh) 2022-11-16
CN115038028A (zh) 2022-09-09
WO2022184097A1 (zh) 2022-09-09
JP2024512347A (ja) 2024-03-19
BR112023017996A2 (pt) 2023-11-14
CN115038028B (zh) 2023-07-28
EP4294056A1 (en) 2023-12-20
TW202410705A (zh) 2024-03-01

Similar Documents

Publication Publication Date Title
KR102654507B1 (ko) 다중-지점 음장 묘사를 이용하여 증강된 음장 묘사 또는 수정된 음장 묘사를 생성하기 위한 개념
CN111183479B (zh) 使用多层描述生成经增强的声场描述的装置及方法
US20080004729A1 (en) Direct encoding into a directional audio coding format
CN111542877B (zh) 空间音频参数编码和相关联的解码的确定
TW201923744A (zh) 用於編碼、解碼、場景處理及與以指向性音訊編碼為基礎之空間音訊編碼有關的其他程序之裝置、方法及電腦程式
JP2023551040A (ja) オーディオの符号化及び復号方法及び装置
WO2010125228A1 (en) Encoding of multiview audio signals
CN114067810A (zh) 音频信号渲染方法和装置
JP2023551016A (ja) オーディオ符号化及び復号方法並びに装置
KR20220157965A (ko) 적응형 네트워크를 이용한 앰비소닉 계수들 변환
CN115038028B (zh) 虚拟扬声器集合确定方法和装置
CN115346537A (zh) 一种音频编码、解码方法及装置
CN115497485A (zh) 三维音频信号编码方法、装置、编码器和系统
CN115038027B (zh) Hoa系数的获取方法和装置
CN115376527A (zh) 三维音频信号编码方法、装置和编码器
CN115938388A (zh) 一种三维音频信号的处理方法和装置
KR101319892B1 (ko) 3차원 가상 음향 구현을 위한 머리전달함수 모델링 방법,및 이를 이용한 3차원 가상 음향 구현 방법 및 장치
CN115376528A (zh) 三维音频信号编码方法、装置和编码器
CN118251722A (zh) 空间音频参数解码
CN115376530A (zh) 三维音频信号编码方法、装置和编码器
CN115376529A (zh) 三维音频信号编码方法、装置和编码器
CN118800255A (zh) 场景音频信号的解码方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination