CN111246345B - 一种远程声场实时虚拟重现的方法与装置 - Google Patents

一种远程声场实时虚拟重现的方法与装置 Download PDF

Info

Publication number
CN111246345B
CN111246345B CN202010019188.XA CN202010019188A CN111246345B CN 111246345 B CN111246345 B CN 111246345B CN 202010019188 A CN202010019188 A CN 202010019188A CN 111246345 B CN111246345 B CN 111246345B
Authority
CN
China
Prior art keywords
hrtf
user
head
ear
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010019188.XA
Other languages
English (en)
Other versions
CN111246345A (zh
Inventor
钟小丽
赖焯威
宋昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010019188.XA priority Critical patent/CN111246345B/zh
Publication of CN111246345A publication Critical patent/CN111246345A/zh
Application granted granted Critical
Publication of CN111246345B publication Critical patent/CN111246345B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Stereophonic System (AREA)

Abstract

本发明公开一种远程声场实时虚拟重现的方法与装置。该方法包括:(1)采用端对端的卷积神经网络,由用户耳部图像推知个性化的仰角定位因素,并以此为依据对通用HRTF进行个性化定制,进一步将定制的个性化HRTF应用于双耳虚拟声信号的合成;(2)基于用户头部位置的实时检测,实现跟踪头部位置的动态双耳虚拟声信号的重放。上述个性化定制和实时动态的虚拟声信号处理方法可以增强用户的现场感和沉浸感。所述装置包括远程声场多通路捡拾模块、云处理模块、用户端模块和5G通讯模块。本发明的实施基于云计算技术和5G网络传输,可有效减轻用户端的运算负荷,满足多用户的并行需求。本发明可视为基于移动便携设备的虚拟现实的声模块方案。

Description

一种远程声场实时虚拟重现的方法与装置
技术领域
本发明涉及3D虚拟声技术领域,具体涉及一种远程声场实时虚拟重现的方法与装置。
背景技术
随着基于移动终端(例如手机、平板)的互联网时代的发展,远程实时3D直播成为大众喜爱的娱乐、学习以及交际的方式。视听信息的交互协调是远程实时3D直播的关键,是用户现场感和沉浸感的重要决定因素。目前,相比于视觉信息的远程实时传输,听觉信息远程实时传输的成熟度和效果都有待提升,主要体现在虚拟声的个性化重放和声场动态调整两个方面。
为了充分涵盖现场的所有声信息,目前主流采用传声器阵列实施多通路捡拾。由于移动用户端主要采用双通路耳机进行声重放,因此需要采用虚拟声技术将多通路捡拾声信号转变为双耳声信号。头相关传输函数(HRTF)是虚拟声技术的核心,它反映了人体的生理结构(例如耳廓、头部、肩部、躯干等)对入射声波的反射及衍射作用。不同用户的生理结构在细节形态和尺寸等方面存在差异,因此它们对声波的作用也存在个体差异。这意味着,HRTF因人而异,是一个具有个性化的参量。现有研究表明,相较于个性化HRTF,采用非个性化HRTF(如通用HRTF)进行虚拟声信号处理,将出现定位精度下降(特别是仰角方向)、前后混乱增多等现象,破坏用户的沉浸感。然而,无论是通过测量还是计算的途径获取个性化HRTF都需要特定的场所或设备,因此现有虚拟声产品中普遍使用通用HRTF进行虚拟声信号处理。
虚拟声技术采用头坐标系统,以听者的头中心为坐标原点。如果希望远程用户获得“身临其境”的现场声感受,就需要根据用户头部的位置实时动态地调整双耳虚拟声信号。然而,现有的主流系统主要还是采用静态重放,即假设在观看直播过程中用户的头保持不动。这主要是受限于两个方面:1)头部跟踪设备比较昂贵,尚未成为移动终端的标配;2)网络传输速度有限。动态虚拟重放的数据量远大于静态虚拟重放;如果强行实施动态重放,将出现声滞后以及视听不匹配等现象。
上述不足制约了远程声场实时虚拟重现技术的发展和相关产品性能的进一步提高。
发明内容
基于移动终端、云处理技术(含神经网络)以及5G网络的发展,本发明为解决上述不足,提供了一种远程声场实时虚拟重现的方法与装置,涉及三维空间虚拟声的个性化定制方法和一种远程声场的动态自适应调整技术。本发明采用端对端的卷积神经网络,由用户耳部图像推知个性化的仰角定位因素,并以此为依据对通用HRTF实施进行个性化定制(即频移),进一步将定制的个性化HRTF应用于双耳虚拟声信号的合成;此外,利用移动终端的外设进行用户头部位置的实时检测,实现跟踪头部位置的动态双耳虚拟声信号的重放。上述HRTF个性化定制和实时动态的虚拟声处理方法可以增强用户的现场感和沉浸感。
本发明的目的通过以下技术方案实现。
一种远程声场实时虚拟重现的方法,其特征是,包括如下步骤:
步骤1、用户将自身的耳部图像上传至云服务器的神经网络模型,获取用户HRTF的特征谷曲线;
步骤2、以特征谷曲线为依据,对通用HRTF进行个性化定制,得到用户的个性化HRTF数据;
步骤3、对远程声场进行实时的多通路声捡拾并将捡拾信号上传至云服务器;
步骤4、将捡拾信号和用户个性化HRTF数据进行卷积和叠加运算,生成多个空间位置的双耳虚拟声信号;
步骤5、根据用户端实时检测并上传的用户头部空间位置,调取相应空间位置的双耳虚拟声信号,发送至用户端的耳机设备进行声重放。
步骤6、按照一定的时间采样间隔,重复步骤3到步骤5,直至远程声场直播结束。
进一步地,步骤1中所述的处于云服务器的神经网络模型已事先训练好,训练步骤包括:
步骤101、选取一个已知的完备HRTF数据库,它包含M名受试者的全空间HRTF数据和受试者的耳部图像;
步骤102:对于其中一个受试者m(m=1,2,…,M),采用头中心坐标系,选取受试者中垂面上沿仰角
Figure BDA0002360079940000031
均匀分布的N个HRTF数据,逐个提取HRTF特征谷的频率位置fm,n(n=1,2,…,N);
步骤103:拟合仰角
Figure BDA0002360079940000032
和特征谷频率位置fm,n的关系,获得该受试者的HRTF的特征谷曲线
Figure BDA0002360079940000033
步骤104:对HRTF数据库中的每个受试者实施步骤102和步骤103,获得所有M名受试者HRTF特征谷曲线的集合
Figure BDA0002360079940000034
步骤105、构建一个端对端的卷积神经网络。将全体受试者的耳部图像作为网络输入,将HRTF特征谷曲线集合
Figure BDA0002360079940000041
作为网络输出,训练网络;
步骤106、保存训练好的网络,即为神经网络模型。
进一步地,步骤101中所述的已知的完备HRTF数据库,可选取美国CIPIC HRTF数据库或奥地利ARI HRTF数据库等;为了增大训练数据量,也可将不同的HRTF数据库联合使用;
进一步地,步骤1中云服务器的神经网络模型已通过训练建立了耳部图像和HRTF的特征谷曲线的映射关系,因此将用户的耳部图像输入神经网络模型,就可以获得其HRTF的特征谷曲线。
进一步地,步骤2中对通用HRTF进行个性化定制,可通过频移实现。假设通用HRTF在仰角方向
Figure BDA0002360079940000042
的特征谷频率位置为
Figure BDA0002360079940000043
通过查询步骤1获取的用户HRTF的特征谷曲线
Figure BDA0002360079940000044
可得到该仰角方向用户的特征谷频率位置为
Figure BDA0002360079940000045
在时间域,将通用HRTF即HGenetic代入
Figure BDA0002360079940000046
即可得到定制的用户个性化HRTF即HIndividual。如果(f1-f0)为正,表明需要将通用HRTF向较f0高的频率方向移动;如果(f1-f0)为负,表明需要将通用HRTF向较f0高的频率方向移动。
进一步地,步骤1和步骤2都涉及双耳信息的处理,包括左耳图像、右耳图像、左耳中垂面HRTF和右耳中垂面HRTF。这里将双耳问题转化为单耳问题。具体的:以左耳为例,将右耳图像进行180°空间翻转即可获得一个新的左耳图像;左耳图像和左耳中垂面HRTF相对应,新的左耳图像和右耳中垂面HRTF相对应。
进一步地,步骤4中选取用户在收看远程直播过程中可能的头部空间区域,如水平方位角-10°≤θ≤10°,仰角
Figure BDA0002360079940000051
按照
Figure BDA0002360079940000052
的网格精度划分空间区域,计算每个网格节点的双耳虚拟声信号。
进一步地,步骤5中根据头动设备捕获的头部实时位置坐标
Figure BDA0002360079940000053
按照最近邻的挑选原则,确定头位置最近邻的空间节点,读取该节点的双耳虚拟声信号。
一种用于实现所述方法的装置,包括:
远程声场多通路捡拾模块,采用传声器阵列捡拾远程的现场声信号,阵列输出为多通路声信号;
云处理模块,包括基于神经网络的个性化HRTF的获取,并将获取的个性化HRTF应用于多个空间位置的双耳虚拟声信号的合成;根据用户实时的头位置信息,挑选合适的双耳虚拟声信号重放;
用户端模块,由拍摄装置、头部跟踪装置和耳机组成。拍摄装置用于拍摄用户的耳部图像,头部跟踪装置用于检测头部的实时位置,耳机用于播放双耳虚拟声信号。
5G通讯模块,采用5G通讯技术实施云处理模块和远程声场多通路捡拾模块、云处理模块和用户端模块之间的通讯。
进一步地,所述的云处理模块包括:
个性化HRTF定制模块,用于事前训练并建立反映耳部图像和HRTF特征谷曲线的映射关系的卷积神经网络;将用户的耳部图像输入神经网络,获取用户的HRTF的特征谷曲线;以用户HRTF的特征谷曲线为依据,对通用HRTF进行频移。
双耳虚拟声信号合成模块,用于将在远程声场实时捡拾的多通路声信号和用户个性化HRTF数据进行卷积和叠加运算,生成对应多个头部空间位置的双耳虚拟声信号
头部位置匹配模块,根据用户端上传的头部位置,匹配出空间最近邻的空间节点,读取相应方位的双耳虚拟声信号。
本发明的原理是:耳廓形态是最具有个性化的生理结构。当声源处于不同的仰角位置,其发出的声波和耳廓的相互作用形成了HRTF的特征谷;HRTF特征谷位置随仰角的变化(即HRTF特征谷曲线)是仰角定位的重要因素,也是个性化HRTF的重要特征。本发明从个性化HRTF的形成入手,借助端对端卷积神经网络强大的非线性拟合能力,建立耳部图像和HRTF特征谷曲线之间的关联,获取了用户个性化的HRTF特征谷曲线,并据此对通用HRTF进行频移,实现个性化HRTF的定制。这里,个性化HRTF特征谷曲线的预测需要借助端对端卷积神经网络,它是一种复杂的神经网络,需要占用较大的计算资源。随着云计算技术的发展,神经网络的训练、存储和预测都可以在云服务器上实施。
另一方面,由于器件的微型化,现在的移动终端集成了越来越多的外设和功能,可以方便地获取用户头部的实时位置。考虑到根据头部实时位置计算双耳虚拟声信号需要消耗较长时间,本发明在云服务器上进行头部可能变化空间的多节点的双耳虚拟声信号计算,然后根据实时的头位置进行调取。这样,在不增加移动终端计算量的同时实现了声重放的低延迟。同时,5G通讯技术的发展,极大提升了网络传输速度(5G的下载速度可达到1Gbps以上),可以实现一个云服务器下的多用户并发。
本发明与现有技术相比,具有如下优点和有益效果:
(1)利用神经网络预测个性化仰角定位信息,并采用频移的方式实现通用HRTF的个性化定制。本发明可提升用户在仰角方位的感知准确性。
(2)基于用户端头动检测设备所实现的双耳虚拟重放信号的动态调整,可更好的实现用户端和现场的同步,提高用户的现场感和沉浸感。
(3)融合云计算技术和5G网络通讯技术,实现远程声场虚拟重现的多用户并发。
附图说明
图1是本发明实施例的原理图;
图2是本发明实施例的端对端卷积神经网络的训练流程图;
图3是本发明实施例的模块连接示意图。
具体实施方式
下面结合附图对本发明作进一步的说明,但本发明要求保护范围并不局限于实施例表示的范围。
图1是本发明的一种远程声场实时虚拟重现的方法的原理方框图。该方法(1)采用端对端的卷积神经网络,由用户耳部图像推知个性化的仰角定位因素,并以此为依据对通用头相关传输函数(HRTF)进行个性化定制,进一步将定制的个性化HRTF应用于双耳虚拟声信号的合成;(2)基于用户头部位置的实时检测,实现跟踪头部位置的动态双耳虚拟声信号的重放。上述个性化定制和实时动态的虚拟声信号处理方法可以增强用户的现场感和沉浸感。
一种远程声场实时虚拟重现的方法,其特征是,包括如下步骤:
步骤1、用户将自身的耳部图像上传至云服务器的神经网络模型,获取用户HRTF的特征谷曲线;
这里,需要指出的是,可以利用现有的移动终端(例如手机)的拍摄功能获取耳部图像。
步骤2、以特征谷曲线为依据,对通用HRTF进行个性化定制,得到用户的个性化HRTF数据;
步骤3、对远程声场进行实时的多通路声捡拾并将捡拾信号上传至云服务器;
步骤4、将捡拾信号和用户个性化HRTF数据进行卷积和叠加运算,生成多个空间位置的双耳虚拟声信号;
步骤5、根据用户端实时检测并上传的用户头部空间位置,调取相应空间位置的双耳虚拟声信号,发送至用户端的耳机设备进行声重放。
这里,需要指出的是,根据生产厂家发布的信息,目前已有两款手机(亚马逊FirePhone,三星Galaxy S5)和一款耳机(Ossic X)具备用户头部检测功能,可以用作本实施例的头部跟踪装置。
步骤6、按照一定的时间采样间隔,重复步骤3到步骤5,直至远程声场直播结束。
具体而言,步骤1中所述的处于云服务器的神经网络模型已事先训练好,训练步骤包括:
步骤101、选取一个已知的完备HRTF数据库,它包含M名受试者的全空间HRTF数据和受试者的耳部图像;
步骤102:对于其中一个受试者m(m=1,2,…,M),采用头中心坐标系,选取受试者中垂面上沿仰角
Figure BDA0002360079940000091
均匀分布的N个HRTF数据,逐个提取HRTF特征谷的频率位置fm,n(n=1,2,…,N);
这里,需要指出的是,HRTF可能包括多个特征谷,这里只需要提取第一个特征谷。大量人群的数据表明,当声源的仰角
Figure BDA0002360079940000092
从-40°变化到60°时,第一特征谷的频率大约从5kHz~6kHz变化到10kHz~12kHz。
例如,选取CIPIC HRTF数据库中受试者中垂面仰角
Figure BDA0002360079940000093
从-45°到230.625°均匀间隔5.625°的50个HRTF数据,对于左耳或者右耳,可以提取50个HRTF特征谷的频率位置。
步骤103:拟合仰角
Figure BDA0002360079940000094
和特征谷频率位置fm,n的关系,获得该受试者的HRTF的特征谷曲线
Figure BDA0002360079940000095
步骤104:对HRTF数据库中的每个受试者实施步骤102和步骤103,获得所有M名受试者HRTF特征谷曲线的集合
Figure BDA0002360079940000096
步骤105、构建一个端对端的卷积神经网络。将全体受试者的耳部图像作为网络输入,将HRTF特征谷曲线集合
Figure BDA0002360079940000097
作为网络输出,训练网络;
步骤106、保存训练好的网络,即为神经网络模型。
具体而言,步骤101中所述的已知的完备HRTF数据库,可选取美国CIPIC HRTF数据库或奥地利ARI HRTF数据库等;为了增大训练数据量,也可将不同的HRTF数据库联合使用。
具体而言,步骤1中云服务器的神经网络模型已通过训练建立了耳部图像和HRTF的特征谷曲线的映射关系,因此将用户的耳部图像输入神经网络模型,就可以获得其HRTF的特征谷曲线。
具体而言,步骤2中对通用HRTF进行个性化定制,可通过频移实现。假设通用HRTF在仰角方向
Figure BDA0002360079940000101
的特征谷频率位置为
Figure BDA0002360079940000102
通过查询步骤1获取的用户HRTF的特征谷曲线
Figure BDA0002360079940000103
可得到该仰角方向用户的特征谷频率位置为
Figure BDA0002360079940000104
在时间域,将通用HRTF即HGenetic代入
Figure BDA0002360079940000105
即可得到定制的用户个性化HRTF即HIndividual。如果(f1-f0)为正,表明需要将通用HRTF向较f0高的频率方向移动;如果(f1-f0)为负,表明需要将通用HRTF向较f0低的频率方向移动。
这里,需要指出的是,原则上公式(1)的频移对左耳和右耳HRTF同时实施。在实际应用中,当声源相对于正前方的偏离角大于±45°时,考虑到声源异侧耳(即远离声源的耳)对定位的贡献较小,可以只对声源同侧耳(即靠近声源的耳)进行上述个性化定制。
具体而言,上述步骤1和步骤2都涉及双耳信息的处理,包括左耳图像、右耳图像、左耳中垂面HRTF和右耳中垂面HRTF。这里将双耳问题转化为单耳问题。具体的:以左耳为例,将右耳图像进行180°空间翻转即可获得一个新的左耳图像;左耳图像和左耳中垂面HRTF相对应,新的左耳图像和右耳中垂面HRTF相对应。
具体而言,步骤4中选取用户在收看远程直播过程中可能的头部空间区域,如水平方位角-10°≤θ≤10°,仰角
Figure BDA0002360079940000106
按照
Figure BDA0002360079940000107
Figure BDA0002360079940000108
的网格精度划分空间区域,计算每个网格节点的双耳虚拟声信号。
具体而言,步骤5中根据头动设备捕获的头部实时位置坐标
Figure BDA0002360079940000109
按照最近邻的挑选原则,确定头位置最近邻的空间节点,读取该节点的双耳虚拟声信号。
其中,步骤1中所述的处于云服务器的神经网络模型的训练步骤如图2所示,其中卷积层和池化层的数目i可以取2。可以通过(1)公开HRTF完备数据库(包括HRTF数据和受试者耳部图像)的联合使用和(2)耳图像翻转的途径扩大数据量,提高网络的预测精度。整个训练过程可以在Google Colab上实施。
如图3所示,一种用于实现所述方法的装置,包括:
远程声场多通路捡拾模块,采用传声器阵列捡拾远程的现场声信号,阵列输出为多通路声信号;
例如,传声器阵列可采用由四个心形指向性传声器根据IRT-cross布置方法构成的正方形阵列,传声器的主轴分别指向左前、右前、左后和右后方向,传声器之间的距离为0.25m。通过上述传声器阵列可以得到四通路声信号。
云处理模块,包括基于神经网络的个性化HRTF的获取,并将其应用于多个空间位置的双耳虚拟声信号的合成;根据用户实时的头位置信息,挑选合适的双耳虚拟声信号重放;
用户端模块,由拍摄装置、头部跟踪装置和耳机组成。拍摄装置用于拍摄用户的耳部图像,头部跟踪装置用于检测头部的实时位置,耳机用于播放双耳虚拟声信号。
这里,需要指出的是,由于采用5G高速传输网络进行模块之间的通讯,可以实现多用户并发。图3中以用户1为例,详细的描述了用户端借助5G网络和云处理模块之间的信息交换。类似的情况可以推广到用户2,…,用户N。为了图例的简约表述,图中仅画出用户2,…,用户N和通讯模块的连接。
5G通讯模块,采用5G通讯技术实施云处理模块和远程声场多通路捡拾模块、云处理模块和用户端模块之间的通讯。
10.根据权利要求9所述的装置,其特征在于,所述的云处理模块包括:
个性化HRTF定制模块,用于事前训练并建立反映耳部图像和HRTF特征谷曲线的映射关系的卷积神经网络;将用户的耳部图像输入神经网络,获取用户的HRTF的特征谷曲线;以用户HRTF的特征谷曲线为依据,对通用HRTF进行频移。
双耳虚拟声信号合成模块,用于将在远程声场实时捡拾的多通路声信号和用户个性化HRTF数据进行卷积和叠加运算,生成对应多个头部空间位置的双耳虚拟声信号
头部位置匹配模块,根据用户端上传的头部位置,匹配出空间最近邻的空间节点,读取相应方位的双耳虚拟声信号。
本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种远程声场实时虚拟重现的方法,其特征是,包括如下步骤:
步骤1、用户将自身的耳部图像上传至云服务器的神经网络模型,获取用户HRTF的特征谷曲线;所述神经网络模型为端对端的卷积神经网络;
步骤2、以特征谷曲线为依据,通过频移实现HRTF个性化定制,得到用户的个性化HRTF数据;
步骤3、对远程声场进行实时的多通路声捡拾并将捡拾信号上传至云服务器;
步骤4、将捡拾信号和用户个性化HRTF数据进行卷积和叠加运算,生成多个空间位置的双耳虚拟声信号;
步骤5、根据用户端实时检测并上传的用户头部空间位置,调取相应空间位置的双耳虚拟声信号,发送至用户端的耳机设备进行声重放;
步骤6、按照设定的时间采样间隔,重复步骤3到步骤5,直至远程声场直播结束。
2.根据权利要求1所述的一种远程声场实时虚拟重现的方法,其特征是:步骤1中所述云服务器的神经网络模型已事先训练好,训练步骤包括:
步骤101、选取一个已知的HRTF数据库,它包含M名受试者的全空间HRTF数据和受试者的耳部图像;
步骤102:对于其中一个受试者m(m=1,2,…,M),采用头中心坐标系,选取受试者中垂面上沿仰角
Figure FDA0003045425540000011
均匀分布的N个HRTF数据,逐个提取HRTF特征谷的频率位置fm,n(n=1,2,…,N);
步骤103:拟合仰角
Figure FDA0003045425540000012
和特征谷频率位置fm,n的关系,获得该受试者的HRTF的特征谷曲线
Figure FDA0003045425540000013
步骤104:对HRTF数据库中的每个受试者实施步骤102和步骤103,获得所有M名受试者HRTF特征谷曲线的集合
Figure FDA0003045425540000014
步骤105、构建一个端对端的卷积神经网络,将全体受试者的耳部图像作为网络输入,将HRTF特征谷曲线集合
Figure FDA0003045425540000015
作为网络输出,训练网络;
步骤106、保存训练好的网络,即为神经网络模型。
3.根据权利要求2所述的一种远程声场实时虚拟重现的方法,其特征是:步骤101中所述的已知的HRTF数据库。
4.根据权利要求1所述的一种远程声场实时虚拟重现的方法,其特征是:步骤1中云服务器的神经网络模型已通过训练建立了耳部图像和HRTF的特征谷曲线的映射关系,将用户的耳部图像输入神经网络模型,就可以获得其HRTF的特征谷曲线。
5.根据权利要求1所述的一种远程声场实时虚拟重现的方法,其特征是,步骤2中对通用HRTF进行个性化定制,能通过频移实现:设通用HRTF在仰角方向
Figure FDA0003045425540000021
的特征谷频率位置为
Figure FDA0003045425540000022
通过查询步骤1获取的用户HRTF的特征谷曲线
Figure FDA0003045425540000023
可得到该仰角方向用户的特征谷频率位置为
Figure FDA0003045425540000024
在时间域,将通用HRTF即HGenetic代入
Figure FDA0003045425540000025
得到定制的用户个性化HRTF即HIndividual;如果(f1-f0)为正,表明需要将通用HRTF向较f0高的频率方向移动;如果(f1-f0)为负,表明需要将通用HRTF向较f0低的频率方向移动。
6.根据权利要求1所述的一种远程声场实时虚拟重现的方法,其特征是:上述步骤1和步骤2都涉及双耳信息的处理,包括左耳图像、右耳图像、左耳中垂面HRTF和右耳中垂面HRTF;将双耳问题转化为单耳问题,以左耳为例,将右耳图像进行180°空间翻转即可获得一个新的左耳图像;左耳图像和左耳中垂面HRTF相对应,新的左耳图像和右耳中垂面HRTF相对应。
7.根据权利要求1所述的一种远程声场实时虚拟重现的方法,其特征是:步骤4中选取用户在收看远程直播过程中的头部空间区域,由头部水平方位角θ和头部仰角
Figure FDA0003045425540000026
确定,按照
Figure FDA0003045425540000027
的网格精度划分空间区域,计算每个网格节点的双耳虚拟声信号。
8.根据权利要求1所述的一种远程声场实时虚拟重现的方法,其特征是:步骤5中根据用户端的头部跟踪装置捕获的头部实时位置坐标
Figure FDA0003045425540000028
按照最近邻的挑选原则,确定头位置最近邻的空间节点,读取该节点的双耳虚拟声信号。
9.一种用于实现权利要求1至权利要求8中任一项所述方法的装置,其特征在于,包括:
远程声场多通路捡拾模块,采用传声器阵列捡拾远程的现场声信号,阵列输出为多通路声信号;
云处理模块,包括基于神经网络的个性化HRTF的获取,并将获取的个性化HRTF应用于多个空间位置的双耳虚拟声信号的合成;根据用户实时的头位置信息,挑选合适的双耳虚拟声信号重放;
用户端模块,包括拍摄装置、头部跟踪装置和耳机;拍摄装置用于拍摄用户的耳部图像,头部跟踪装置用于检测头部的实时位置,耳机用于播放双耳虚拟声信号;
5G通讯模块,采用5G通讯技术实施云处理模块和远程声场多通路捡拾模块、云处理模块和用户端模块之间的通讯。
10.根据权利要求9所述的装置,其特征在于,所述的云处理模块包括:
个性化HRTF定制模块,用于事前训练并建立反映耳部图像和HRTF特征谷曲线的映射关系的卷积神经网络;将用户的耳部图像输入神经网络,获取用户的HRTF的特征谷曲线;以用户HRTF的特征谷曲线为依据,对通用HRTF进行频移;
双耳虚拟声信号合成模块,用于将在远程声场实时捡拾的多通路声信号和用户个性化HRTF数据进行卷积和叠加运算,生成对应多个头部空间位置的双耳虚拟声信号;
头部位置匹配模块,根据用户端上传的头部位置,匹配出空间最近邻的空间节点,读取相应方位的双耳虚拟声信号。
CN202010019188.XA 2020-01-08 2020-01-08 一种远程声场实时虚拟重现的方法与装置 Active CN111246345B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010019188.XA CN111246345B (zh) 2020-01-08 2020-01-08 一种远程声场实时虚拟重现的方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010019188.XA CN111246345B (zh) 2020-01-08 2020-01-08 一种远程声场实时虚拟重现的方法与装置

Publications (2)

Publication Number Publication Date
CN111246345A CN111246345A (zh) 2020-06-05
CN111246345B true CN111246345B (zh) 2021-09-21

Family

ID=70865813

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010019188.XA Active CN111246345B (zh) 2020-01-08 2020-01-08 一种远程声场实时虚拟重现的方法与装置

Country Status (1)

Country Link
CN (1) CN111246345B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2620138A (en) * 2022-06-28 2024-01-03 Sony Interactive Entertainment Europe Ltd Method for generating a head-related transfer function

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106535043A (zh) * 2016-11-18 2017-03-22 华南理工大学 一种基于生理特征的全频段3d虚拟声定制方法及装置
CN107205207A (zh) * 2017-05-17 2017-09-26 华南理工大学 一种基于中垂面特性的虚拟声像近似获取方法
CN107480100A (zh) * 2017-07-04 2017-12-15 中国科学院自动化研究所 基于深层神经网络中间层特征的头相关传输函数建模系统
WO2018084770A1 (en) * 2016-11-04 2018-05-11 Dirac Research Ab Methods and systems for determining and/or using an audio filter based on head-tracking data
CN108596016A (zh) * 2018-03-06 2018-09-28 北京大学 一种基于深度神经网络的个性化头相关传输函数建模方法
CN108805104A (zh) * 2018-06-29 2018-11-13 中国航空无线电电子研究所 个性化hrtf获取系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107105384B (zh) * 2017-05-17 2018-11-02 华南理工大学 一种中垂面上近场虚拟声像的合成方法
CN108616789B (zh) * 2018-04-11 2021-01-01 北京理工大学 基于双耳实时测量的个性化虚拟音频回放方法
CN109618274B (zh) * 2018-11-23 2021-02-19 华南理工大学 一种基于角度映射表的虚拟声重放方法、电子设备及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018084770A1 (en) * 2016-11-04 2018-05-11 Dirac Research Ab Methods and systems for determining and/or using an audio filter based on head-tracking data
CN106535043A (zh) * 2016-11-18 2017-03-22 华南理工大学 一种基于生理特征的全频段3d虚拟声定制方法及装置
CN107205207A (zh) * 2017-05-17 2017-09-26 华南理工大学 一种基于中垂面特性的虚拟声像近似获取方法
CN107480100A (zh) * 2017-07-04 2017-12-15 中国科学院自动化研究所 基于深层神经网络中间层特征的头相关传输函数建模系统
CN108596016A (zh) * 2018-03-06 2018-09-28 北京大学 一种基于深度神经网络的个性化头相关传输函数建模方法
CN108805104A (zh) * 2018-06-29 2018-11-13 中国航空无线电电子研究所 个性化hrtf获取系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
利用神经网络外推中垂面上低仰角HRTF的方法;钟小丽;《华南理工大学学报(自然科学版)》;20070930;第35卷(第09期);20-25 *

Also Published As

Publication number Publication date
CN111246345A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
US10820097B2 (en) Method, systems and apparatus for determining audio representation(s) of one or more audio sources
CN106664501B (zh) 基于所通知的空间滤波的一致声学场景再现的系统、装置和方法
US20150189455A1 (en) Transformation of multiple sound fields to generate a transformed reproduced sound field including modified reproductions of the multiple sound fields
CN113889125B (zh) 音频生成方法、装置、计算机设备和存储介质
US10966046B2 (en) Spatial repositioning of multiple audio streams
JP7210602B2 (ja) オーディオ信号の処理用の方法及び装置
CN103181192A (zh) 利用多麦克风的三维声音捕获和再现
EP3550860A1 (en) Rendering of spatial audio content
US11641561B2 (en) Sharing locations where binaural sound externally localizes
US20210219089A1 (en) Spatial repositioning of multiple audio streams
CN111696513A (zh) 音频信号处理方法及装置、电子设备、存储介质
CN111246345B (zh) 一种远程声场实时虚拟重现的方法与装置
CN110225445A (zh) 一种处理声音信号实现三维声场听觉效果的方法及装置
CN114531640A (zh) 一种音频信号处理方法及装置
CN104735582A (zh) 一种声音信号处理方法、装置及设备
WO2019174442A1 (zh) 拾音设备、声音输出方法、装置、存储介质及电子装置
CN114339582A (zh) 双通道音频处理、方向感滤波器生成方法、装置以及介质
JP2017143406A (ja) バイノーラル音生成装置、マイクロホンアレイ、バイノーラル音生成方法、プログラム
Kyriakakis et al. Video-based head tracking for improvements in multichannel loudspeaker audio
CN110475197B (zh) 一种声场回放方法和装置
CN112911189B (zh) 一种支持无终端用户的智能基站系统及通信方法
Kim et al. Cross‐talk Cancellation Algorithm for 3D Sound Reproduction
Atbas Real-Time Immersive Audio Featuring Facial Recognition and Tracking
CN116148769A (zh) 一种声速矫正方法以及装置
Devallez et al. Method and system of broadcasting a 360 audio signal

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant