CN113849767B - 基于生理参数和人工头数据的个性化hrtf生成方法和系统 - Google Patents
基于生理参数和人工头数据的个性化hrtf生成方法和系统 Download PDFInfo
- Publication number
- CN113849767B CN113849767B CN202111135926.8A CN202111135926A CN113849767B CN 113849767 B CN113849767 B CN 113849767B CN 202111135926 A CN202111135926 A CN 202111135926A CN 113849767 B CN113849767 B CN 113849767B
- Authority
- CN
- China
- Prior art keywords
- hrtf
- physiological parameters
- amplitude spectrum
- time delay
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012546 transfer Methods 0.000 title claims abstract description 21
- 238000001228 spectrum Methods 0.000 claims abstract description 89
- 238000006243 chemical reaction Methods 0.000 claims abstract 3
- 238000012549 training Methods 0.000 claims description 28
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 4
- AOQBFUJPFAJULO-UHFFFAOYSA-N 2-(4-isothiocyanatophenyl)isoindole-1-carbonitrile Chemical compound C1=CC(N=C=S)=CC=C1N1C(C#N)=C2C=CC=CC2=C1 AOQBFUJPFAJULO-UHFFFAOYSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims 1
- 210000003128 head Anatomy 0.000 description 47
- 230000006870 function Effects 0.000 description 17
- 230000006872 improvement Effects 0.000 description 7
- 238000005259 measurement Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000004807 localization Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 2
- 210000000613 ear canal Anatomy 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 210000003477 cochlea Anatomy 0.000 description 1
- 238000002591 computed tomography Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011545 laboratory measurement Methods 0.000 description 1
- 238000002595 magnetic resonance imaging Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005316 response function Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Pure & Applied Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
Abstract
本发明公开了一种基于生理参数和人工头数据的个性化HRTF生成方法和系统,所述方法包括:获取待测试者的生理参数和人工头数据;将预处理后的生理参数与人工头数据输入预先建立和训练好的HRTF生成模型,得到该测试者的头相关传递函数HRTF;所述HRTF生成模型用于分别生成幅度谱和时延部分,对幅度谱经取对数运算和希尔伯特变换得到HRTF的最小相位部分,再与时延部分结合经转换得到头相关传递函数HRTF。本发明基于人体生理参数和人工头HRTF为用户定制属于自己的个性化HRTF,并通过耳机重放使得用户获得沉浸式体验。
Description
技术领域
本发明涉及头相关传递函数(Head-related Transfer Functions,HRTF)的生成方法,尤其涉及基于生理参数和人工头数据的个性化HRTF生成方法和系统。
背景技术
头相关传递函数是描述人体躯干、颈部、头部以及耳廓对声音的综合滤波作用,声音经过人体的反射或散射到达人耳被接收。所以,HRTF表现出因人而异的特性,并且HRTF中包含了声源定位的主要信息(如双耳时间差,双耳声级差等)。但是现有的耳机重放设备中例如沉浸式音乐媒体、虚拟现实、虚拟游戏和飞行训练模拟等大多使用的是人工头HRTF。非个性化的HRTF往往会带来头中效应、前后混淆和垂直定位错误等问题。越来越多的需求表明个性化HRTF是虚拟声重放中关键研究技术之一。
现有的最精确地获取个性化HRTF手段是实验室测量,通常是让受试者在半消或者全消实验室完成HRTF的测量,测量时受试者耳道口或者耳道中某一位置佩戴微型传声器来接收空间不同位置固定扬声器发出的声音。但是实验测量通常比较耗费资金和时间。现有的HRTF数据库有CIPIC、MIT、IRCAM、ARI和HUTUBS等数据库。传统的个性化HRTF获取方法是通过三维激光扫描、MRI或CT扫描获取人体生理参数,在通过边界元(Boundary ElementMethod,BEM)数值计算得到个性化HRTF。由于边界元方法局限于计算力以及计算精度,所以一般只能得到HRTF的低频谱。随着机器学习在科学应用中的快速发展,BEM与机器学习相结合或许有可能成为个性化HRTF快速定制的一个方法。此外,计算机视觉的2D或3D算法可实现自动摄影测量人体生理参数也极大促进了从人体生理参数方便快捷的定制个性化HRTF。
另一类方法是生理参数匹配法,分主观和客观匹配两种类型。主观挑选是通过受试者主观实验反馈调节HRTF模型参数来完成近似个性化HRTF的定制。客观挑选是通过匹配受试者生理参数与数据库中已有的生理参数来将生理参数最接近的数据库HRTF作为受试者的个性化HRTF的近似。但不论是主观还是客观挑选法最终得到的HRTF都是个性化HRTF的近似,并非真正意义上的个性化定制。
生理参数之间的差异与HRTF谱之间的差异是有密切关系的,通过机器学习的方法可以学习从生理参数到HRTF之间的映射关系。并且随着近年来计算机算力的提升机器学习的应用与日俱增,这为从生理参数便捷定制个性化HRTF提供了可能。基于用户生理参数的深度神经网络(Deep Neural Network,DNN)也被用于HRTF定制。DNN网络的输入通常是生理参数,输出是任意一个方向的HRTF频谱。但是DNN网络并没有考虑空间方位之间的关联性,通常是所有方向共享一个网络或者一个方向训练一个网络。
发明内容
本发明的目的在于克服现有技术缺陷,提出了基于生理参数和人工头数据的个性化HRTF生成方法和系统。
为了实现上述目的,本发明提出了一种基于生理参数和人工头数据的个性化HRTF生成方法,所述方法包括:
获取待测试者的生理参数和人工头数据;
将预处理后的生理参数与人工头数据输入预先建立和训练好的HRTF生成模型,得到该测试者的头相关传递函数HRTF;
所述HRTF生成模型,用于分别生成幅度谱和时延部分,对幅度谱经取对数运算和希尔伯特变换得到HRTF的最小相位部分,再与时延部分结合经转换得到头相关传递函数HRTF。
作为上述方法的一种改进,所述生理参数包括:头部、耳廓、颈部和躯干相关生理参数,人工头数据包括:空间上若干个方位的HRIR数据。
作为上述方法的一种改进,所述预处理包括:
对生理参数数据进行归一化处理;
对归一化处理后的生理参数进行非线性特征的提取。
作为上述方法的一种改进,所述HRTF生成模型包括幅度谱生成模块、最小相位计算模块、时延生成模块和输出模块;其中,
所述幅度谱生成模块,用于根据输入的预处理后的生理参数以及人工头数据,输出幅度谱;
所述最小相位计算模块,用于对幅度谱依次进行取对数运算和希尔伯特变换,得到HRTF的最小相位部分;
所述时延生成模块,用于根据输入的预处理后的生理参数,输出HRTF的时延部分;
所述输出模块,用于对HRTF的最小相位部分和时延部分经乘积运算后得到头相关传递函数HRTF。
作为上述方法的一种改进,所述幅度谱生成模块采用U-Net网络,包括卷积层和反卷积层的堆叠结构,激活函数为ELU函数。
作为上述方法的一种改进,所述时延生成模块结合注意力机制采用transformer神经网络。
作为上述方法的一种改进,所述方法还包括幅度谱生成模块和时延生成模块的训练步骤;具体包括:
分别建立带有幅度谱标签的幅度谱训练集以及带有ITD值标签的ITD训练集;
将幅度谱训练集的数据依次输入幅度谱生成模块,调整网络参数,直至输出的幅度谱与幅度谱训练集中对应的幅度谱标签的均方误差小于第一阈值并且稳定,得到训练好的幅度谱生成模块;
将ITD训练集的数据依次输入幅度谱生成模块,调整网络参数,直至输出的ITD值与ITD训练集中对应的ITD值标签的均方误差小于第二阈值并且稳定,得到训练好的时延生成模块。
作为上述方法的一种改进,所述分别建立幅度谱训练集和ITD训练集;具体包括:
从CIPIC数据库中分别提取对应的HRIR、ITD和生理参数数据;
对每一俯仰角每一方位角下的HRIR进行M个点的傅里叶变换,并取前N个点的频谱得到俯仰角-方位角-频率的三维幅度谱;
对所有俯仰角下的所有方位的三维幅度谱以螺旋方式重新排列,得到空间方位-频率的二维幅度谱;
对生理参数数据进行归一化处理;
以三维幅度谱为标签值,和对应的归一化处理后的生理参数数据组成幅度谱训练集;
对所有俯仰角下的所有方位的ITD以螺旋方式重新排列,得到空间方位的ITD;
以空间方位的ITD为标签值,和对应的归一化处理后的生理参数数据组成ITD训练集。
一种基于生理参数和人工头数据的个性化HRTF生成系统,所述系统包括:数据获取模块、预处理模块、结果输出模块和HRTF生成模型;其中,
所述数据获取模块,用于获取待测试者的生理参数和人工头数据;
所述预处理模块,用于对生理参数进行预处理;
所述结果输出模块,用于将预处理后的生理参数与人工头数据输入预先建立和训练好的HRTF生成模型,得到该测试者的头相关传递函数HRTF;
所述HRTF生成模型,用于分别生成幅度谱和时延部分,对幅度谱经取对数运算和希尔伯特变换得到HRTF的最小相位部分,再与时延部分结合经转换得到头相关传递函数HRTF
与现有技术相比,本发明的优势在于:
1、本发明基于人体生理参数和人工头HRTF为用户定制属于自己的个性化HRTF,并通过耳机重放使得用户获得沉浸式体验;
2、本发明相比于在半消或者全消实验室完成HRTF的测量,本发明的方法降低了成本,节省了实验获取的时间;
3、本发明相比于生理参数匹配法,基于生理参数与人工头数据,从幅度谱和最小相位两个维度进行机器学习,实现了真正个性化的HRTF。
附图说明
图1是本发明的基于生理参数和人工头数据的个性化HRTF生成方法流程图;
图2是生理参数测量图;其中,图2(a)是头部和颈部生理参数测量图,图2(b)是耳廓生理参数测量图;
图3是本发明预测幅度谱的神经网络框架;
图4是本发明预测ITD的神经网络框图。
具体实施方式
为了考虑HRTF频谱之间在空间上的关联性我们提出了一种使用全卷积神经网络(Full Convolutional Neural Networks,FCN)预测全空间HRTF频谱的方法。同时我们提出使用transformer网络来预测全空间的双耳时延差(Interaural Time Delay,ITD)。根据最小相位模型将算法恢复的幅度谱和相位谱来得到HRTF。本文的方法可以同时对全空间的HRTF进行预测,并有助于提高虚拟声重放时声源定位的准确度。
本发明利用CNN神经网络研究从人体生理参数到个性化头相关传递函数的映射关系。该方法将生理参数与人工头HRTF作为输入来获得受试者个性化HRTF的幅度谱。本发明用transformer神经网络同时预测全空间的ITD,根据最小相位模型将幅度谱与ITD结合得到时域双耳重放的头相关脉冲响应函数(Head-Related Impulse Response,HRIR)。
步骤一:对CIPIC数据库中HRTF、ITD和生理参数数据进行预处理。
步骤二:分别设计预测幅度谱和时延的神经网络。
步骤三:将预处理的数据放入神经网络分别训练幅度谱和时延的神经网络模型。
步骤四:通过最小相位模型得到个性化HRTF。
步骤五:设计主观定位实验来验证方法在虚拟声重放中重放角度的可靠性。
步骤六:用户输入生理参数得到用户HRTF的个性化定制。
下面结合附图和实施例对本发明的技术方案进行详细的说明。
实施例1
如图1所示,本发明的实施例1提出了基于生理参数和人工头数据的个性化HRTF生成方法。具体包括以下步骤:
步骤一:对每一俯仰角每一方位角下的HRIR进行256点的傅里叶变换,并取前129个点的频谱得到俯仰角-方位角-频率的三维幅度谱。为了保证HRTF幅度谱的连续性,防止数据突变,将所有俯仰角下的所有方位以螺旋方式重新排列,最终得到空间方位-频率的二维幅度谱。对数据库中每位受试者全空间的时延值也是做同样的位置重排。生理参数包括:头部、耳廓、颈部和躯干等共计27个生理参数。其中头部生理参数分别包括:头宽、头高、头深、耳廓向后偏移量、耳廓向下偏移量、颈宽、颈高、颈深、躯干顶部宽度、躯干顶部高度、躯干顶部深度、肩宽、头部向前偏移量、身高、坐高、头围和肩围;分别对应图2(a)中的x1~x17,耳廓生理参数分别包括:耳甲腔高度、外耳艇高度、耳甲腔宽度、耳蜗高度、耳廓高度、耳廓宽度、裂间切口宽度、耳甲腔深度、耳廓旋转角度、耳廓张角,分别对应图2(b)的d1~d8,θ1,θ2。人工头数据包括:空间上1250个方位的HRIR数据,。
步骤二:由于生理参数特征之间差异较大对生理参数进行归一化处理以便加速梯度下降求最优解的速度,归一化方式如公式(1)所示。
步骤三:将数据集划分为两部分,分别是训练集和测试集。将编号为153的受试者作为测试集,其他受试者的数据作为训练集。
步骤四:设计预测幅度谱的神经网络结构。首先将归一化后的生理参数经过两层多层感知网络(Multilayer Perception)进行非线性特征提取,其中激活函数是ELU函数。然后将生理参数的非线性特征与人工头HRTF幅度谱结合输入到U-Net网络中训练得到从生理参数到HRTF幅度谱的神经网络模型。U-Net是一种全卷积神经网络,本文使用卷积层和反卷积层的堆叠结构,以五层卷积层和五层反卷积层为例,卷积层与反卷积层参数如表1所示。预测幅度谱的神经网络具体架构如图3所示。将幅度谱重排成二维图片使用卷积神经网络映射生理参数与幅度谱之间的关系。空间上重排数据为了防止数据在空间上的突变对网络训练带来难度。
表1 U-Net网络参数
步骤五:设计预测ITD的网络,将归一化后的生理参数输入到图4的网络中,训练数据得到从生理参数到ITD的神经网络模型。考虑到空间位置上ITD可能存在的关联性本文对空间位置进行参数化结合注意力机制使用transformer神经网络预测全空间的ITD。将全空间ITD看做整体,使用神经网络直接学习和推断生理参数与全空间ITD的关系。
步骤六:将算法预测的幅度谱与时延按照步骤二中的方式重排回原空间顺序。
步骤七:对预测的幅度谱取对数,利用希尔伯特变换得到HRTF最小相位部分。神经网络预测的ITD作为纯时延部分并结合最小相位部分根据最小相位模型得到双耳脉冲响应函数。
步骤八:用户输入生理参数通过本文的算法模型得到用户个性化的HRTF。
步骤八:设计主观实验来验证本文方法对虚拟声源定位性能的提升能力。实验中重放声采用0.5-15kHz的宽带白噪源,宽带噪声由两组200ms的高斯白噪声组成,中间间隔100ms的静默音。十名听力正常的志愿者参与了本次主观实验,共四个平面上的定位实验,分别是俯仰角为0和33.75°的水平面上以及方位角等于0和-20°的垂直面。分别用原始数据库的HRTF、人工头HRTF和本文方法恢复的HRTF卷积宽带噪声源重放得到三组虚拟源,让志愿者判断人工头和本文方法得到的虚拟源的空间提示方位哪个更接近原始数据库得到的虚拟源空间方位。实验中使用电脑扬声器和头戴式耳机对志愿者进行放音。
实施例2
基于实施例1的方法,本发明的实施例2提出了一种基于生理参数和人工头数据的个性化HRTF生成系统,具体包括:
数据获取模块、预处理模块、结果输出模块和HRTF生成模型;其中,
数据获取模块,用于获取待测试者的生理参数和人工头数据;
预处理模块,用于对生理参数进行预处理;
结果输出模块,用于将预处理后的生理参数与人工头数据输入预先建立和训练好的HRTF生成模型,得到该测试者的头相关传递函数HRTF;
HRTF生成模型,用于分别生成幅度谱和时延部分,对幅度谱经取对数运算和希尔伯特变换得到HRTF的最小相位部分,再与时延部分结合经转换得到头相关传递函数HRTF。
HRTF生成模型包括幅度谱生成模块、最小相位计算模块、时延生成模块和输出模块;其中,
幅度谱生成模块,用于根据输入的预处理后的生理参数以及人工头数据,输出幅度谱;
最小相位计算模块,用于对幅度谱依次进行取对数运算和希尔伯特变换,得到HRTF的最小相位部分;
时延生成模块,用于根据输入的预处理后的生理参数,输出HRTF的时延部分;
输出模块,用于对HRTF的最小相位部分和时延部分经乘积运算后得到头相关传递函数HRTF。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (7)
1.一种基于生理参数和人工头数据的个性化HRTF生成方法,所述方法包括:
获取待测试者的生理参数和人工头数据;
将预处理后的生理参数与人工头数据输入预先建立和训练好的HRTF生成模型,得到该测试者的头相关传递函数HRTF;
所述HRTF生成模型,用于分别生成幅度谱和时延部分,对幅度谱经取对数运算和希尔伯特变换得到HRTF的最小相位部分,再与时延部分结合经转换得到头相关传递函数HRTF;
所述HRTF生成模型包括幅度谱生成模块、最小相位计算模块、时延生成模块和输出模块;其中,
所述幅度谱生成模块,用于根据输入的预处理后的生理参数以及人工头数据,输出幅度谱;
所述最小相位计算模块,用于对幅度谱依次进行取对数运算和希尔伯特变换,得到HRTF的最小相位部分;
所述时延生成模块,用于根据输入的预处理后的生理参数,输出HRTF的时延部分;
所述输出模块,用于对HRTF的最小相位部分和时延部分经乘积运算后得到头相关传递函数HRTF;
所述时延生成模块结合注意力机制采用transformer神经网络。
2.根据权利要求1所述的基于生理参数和人工头数据的个性化HRTF生成方法,其特征在于,所述生理参数包括:头部、耳廓、颈部和躯干相关生理参数,人工头数据包括:空间上若干个方位的HRIR数据。
3.根据权利要求1或2所述的基于生理参数和人工头数据的个性化HRTF生成方法,其特征在于,所述预处理包括:
对生理参数数据进行归一化处理;
对归一化处理后的生理参数进行非线性特征的提取。
4.根据权利要求1所述的基于生理参数和人工头数据的个性化HRTF生成方法,其特征在于,所述幅度谱生成模块采用U-Net网络,包括卷积层和反卷积层的堆叠结构,激活函数为ELU函数。
5.根据权利要求1所述的基于生理参数和人工头数据的个性化HRTF生成方法,其特征在于,所述方法还包括幅度谱生成模块和时延生成模块的训练步骤;具体包括:
分别建立带有幅度谱标签的幅度谱训练集以及带有双耳时延差ITD值标签的ITD训练集;
将幅度谱训练集的数据依次输入幅度谱生成模块,调整网络参数,直至输出的幅度谱与幅度谱训练集中对应的幅度谱标签的均方误差小于第一阈值并且稳定,得到训练好的幅度谱生成模块;
将ITD训练集的数据依次输入幅度谱生成模块,调整网络参数,直至输出的ITD值与ITD训练集中对应的ITD值标签的均方误差小于第二阈值并且稳定,得到训练好的时延生成模块。
6.根据权利要求5所述的基于生理参数和人工头数据的个性化HRTF生成方法,其特征在于,分别建立幅度谱训练集和ITD训练集;具体包括:
从CIPIC数据库中分别提取对应的HRIR、ITD和生理参数数据;
对每一俯仰角每一方位角下的HRIR进行M个点的傅里叶变换,并取前N个点的频谱得到俯仰角-方位角-频率的三维幅度谱;
对所有俯仰角下的所有方位的三维幅度谱以螺旋方式重新排列,得到空间方位-频率的二维幅度谱;
对生理参数数据进行归一化处理;
以三维幅度谱为标签值,和对应的归一化处理后的生理参数数据组成幅度谱训练集;
对所有俯仰角下的所有方位的ITD以螺旋方式重新排列,得到空间方位的ITD;
以空间方位的ITD为标签值,和对应的归一化处理后的生理参数数据组成ITD训练集。
7.一种基于生理参数和人工头数据的个性化HRTF生成系统,其特征在于,所述系统包括:数据获取模块、预处理模块、结果输出模块和HRTF生成模型;其中,
所述数据获取模块,用于获取待测试者的生理参数和人工头数据;
所述预处理模块,用于对生理参数进行预处理;
所述结果输出模块,用于将预处理后的生理参数与人工头数据输入预先建立和训练好的HRTF生成模型,得到该测试者的头相关传递函数HRTF;
所述HRTF生成模型,用于分别生成幅度谱和时延部分,对幅度谱经取对数运算和希尔伯特变换得到HRTF的最小相位部分,再与时延部分结合经转换得到头相关传递函数HRTF;
所述HRTF生成模型包括幅度谱生成模块、最小相位计算模块、时延生成模块和输出模块;其中,
所述幅度谱生成模块,用于根据输入的预处理后的生理参数以及人工头数据,输出幅度谱;
所述最小相位计算模块,用于对幅度谱依次进行取对数运算和希尔伯特变换,得到HRTF的最小相位部分;
所述时延生成模块,用于根据输入的预处理后的生理参数,输出HRTF的时延部分;
所述输出模块,用于对HRTF的最小相位部分和时延部分经乘积运算后得到头相关传递函数HRTF;
所述时延生成模块结合注意力机制采用transformer神经网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111135926.8A CN113849767B (zh) | 2021-09-27 | 2021-09-27 | 基于生理参数和人工头数据的个性化hrtf生成方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111135926.8A CN113849767B (zh) | 2021-09-27 | 2021-09-27 | 基于生理参数和人工头数据的个性化hrtf生成方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113849767A CN113849767A (zh) | 2021-12-28 |
CN113849767B true CN113849767B (zh) | 2022-08-16 |
Family
ID=78979897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111135926.8A Active CN113849767B (zh) | 2021-09-27 | 2021-09-27 | 基于生理参数和人工头数据的个性化hrtf生成方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113849767B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114662663B (zh) * | 2022-03-25 | 2023-04-07 | 华南师范大学 | 虚拟听觉系统的声音播放数据获取方法和计算机设备 |
WO2023207665A1 (zh) * | 2022-04-29 | 2023-11-02 | 华为技术有限公司 | 一种数据处理方法及相关设备 |
CN118363953B (zh) * | 2024-06-19 | 2024-09-17 | 长春理工大学中山研究院 | 一种面向个性化hrtf的时域插值方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108596016A (zh) * | 2018-03-06 | 2018-09-28 | 北京大学 | 一种基于深度神经网络的个性化头相关传输函数建模方法 |
CN112328676A (zh) * | 2020-11-27 | 2021-02-05 | 江汉大学 | 一种估计个性化头相关传输函数的方法及相关设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2351213B (en) * | 1999-05-29 | 2003-08-27 | Central Research Lab Ltd | A method of modifying one or more original head related transfer functions |
SG10201510822YA (en) * | 2015-12-31 | 2017-07-28 | Creative Tech Ltd | A method for generating a customized/personalized head related transfer function |
-
2021
- 2021-09-27 CN CN202111135926.8A patent/CN113849767B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108596016A (zh) * | 2018-03-06 | 2018-09-28 | 北京大学 | 一种基于深度神经网络的个性化头相关传输函数建模方法 |
CN112328676A (zh) * | 2020-11-27 | 2021-02-05 | 江汉大学 | 一种估计个性化头相关传输函数的方法及相关设备 |
Non-Patent Citations (3)
Title |
---|
双耳重放中头外声像和头相关传递函数个性化研究;姜自然;《中国学位论文全文数据库》;20201113;第1.1、1.2、2.1节,第4章,第5章 * |
姜自然.双耳重放中头外声像和头相关传递函数个性化研究.《中国学位论文全文数据库》.2020, * |
最小相位头相关传输函数的相对延迟;钟小丽;《声学技术》;20081021;第27卷(第5期);第2.1节 * |
Also Published As
Publication number | Publication date |
---|---|
CN113849767A (zh) | 2021-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113849767B (zh) | 基于生理参数和人工头数据的个性化hrtf生成方法和系统 | |
US11601775B2 (en) | Method for generating a customized/personalized head related transfer function | |
JP4718559B2 (ja) | モデル化によってhrtfを個別化するための方法および装置 | |
Leng et al. | Binauralgrad: A two-stage conditional diffusion probabilistic model for binaural audio synthesis | |
US9584942B2 (en) | Determination of head-related transfer function data from user vocalization perception | |
CN113889125B (zh) | 音频生成方法、装置、计算机设备和存储介质 | |
CN108596016B (zh) | 一种基于深度神经网络的个性化头相关传输函数建模方法 | |
Geronazzo et al. | Do we need individual head-related transfer functions for vertical localization? The case study of a spectral notch distance metric | |
Gupta et al. | Augmented/mixed reality audio for hearables: Sensing, control, and rendering | |
CN115412808B (zh) | 基于个性化头相关传递函数的虚拟听觉重放方法及系统 | |
Hu et al. | Head related transfer function personalization based on multiple regression analysis | |
WO2019217867A1 (en) | Head-related transfer function personalization using simulation | |
Zhang et al. | Modelling individual head‐related transfer function (HRTF) based on anthropometric parameters and generic HRTF amplitudes | |
Barumerli et al. | Round Robin Comparison of Inter-Laboratory HRTF Measurements–Assessment with an auditory model for elevation | |
CN108038291B (zh) | 一种基于人体参数适配算法的个性化头相关传递函数生成系统及方法 | |
Zandi et al. | Individualizing head-related transfer functions for binaural acoustic applications | |
Hogg et al. | HRTF upsampling with a generative adversarial network using a gnomonic equiangular projection | |
CN113806679B (zh) | 一种基于预训练模型的头相关传输函数的个性化方法 | |
Spagnol et al. | Estimation of spectral notches from pinna meshes: Insights from a simple computational model | |
CN110489470B (zh) | 基于稀疏表示分类的hrtf个人化方法 | |
CN111246363B (zh) | 一种基于听觉匹配的虚拟声定制方法及装置 | |
Lu et al. | Head-related transfer function reconstruction with anthropometric parameters and the direction of the sound source: Deep learning-based head-related transfer function personalization | |
Zhu et al. | End-to-End Paired Ambisonic-Binaural Audio Rendering | |
Qi et al. | Parameter-Transfer Learning for Low-Resource Individualization of Head-Related Transfer Functions. | |
Wen et al. | Mitigating Cross-Database Differences for Learning Unified HRTF Representation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |