CN110751281A - 一种基于卷积自编码器的头相关传输函数建模方法 - Google Patents

一种基于卷积自编码器的头相关传输函数建模方法 Download PDF

Info

Publication number
CN110751281A
CN110751281A CN201910991100.8A CN201910991100A CN110751281A CN 110751281 A CN110751281 A CN 110751281A CN 201910991100 A CN201910991100 A CN 201910991100A CN 110751281 A CN110751281 A CN 110751281A
Authority
CN
China
Prior art keywords
hrtf
information
encoder
data
solving
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910991100.8A
Other languages
English (en)
Other versions
CN110751281B (zh
Inventor
胡瑞敏
陈玮
王晓晨
柯善发
张灵鲲
李罡
张锐
胡晨昊
吴玉林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201910991100.8A priority Critical patent/CN110751281B/zh
Publication of CN110751281A publication Critical patent/CN110751281A/zh
Application granted granted Critical
Publication of CN110751281B publication Critical patent/CN110751281B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • G06F17/156Correlation function computation including computation of convolution operations using a domain transform, e.g. Fourier transform, polynomial transform, number theoretic transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2134Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
    • G06F18/21347Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis using domain transformations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/02Preprocessing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Evolutionary Computation (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Neurology (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Stereophonic System (AREA)

Abstract

本发明提供了一种HRTF的低维表达与重建技术方案,该技术利用卷积神经网络提取HRTF中与听觉定位线索相关的频谱特征,从而建立了基于卷积自编码器的HRTF低维表达方法。在进行HRTF的低维表达时,首先对原始HRTF数据进行移除前端时延、时‑频变换、空间方位插值、数据标准化等预处理操作,然后将数据输入HRTF的卷积自编码器得到包含听觉定位特征的低维表达数据。在进行HRTF的重建时,将听觉定位特征的低维表达输入解码器进行解码,然后对输出数据进行数据反标准化、数据抽样、时‑频变换、补充双耳间时间差等后处理操作实现HRTF的重建。本发明能够有效的提取听觉定位线索特征并对特征之间的复杂非线性关系进行表达,从而提高HRTF的低维表达和重建精度。

Description

一种基于卷积自编码器的头相关传输函数建模方法
技术领域
本发明涉及数字音频信号处理领域中的双耳三维音频技术领域,具体涉及渲染双耳三维音频所需的头相关传输函数的低维表达和重建方法。
背景技术
三维音频技术能够呈现出逼真的三维声场效果,从而灵活表现音源对象的空间方位。传统的基于多声道技术的三维音频技术多应用于大型影院、会议场所等场景,由于该技术是通过大量扬声器实现三维声场的重建,因此具有配置复杂、应用场景固定、具有最佳听音区域的限制等缺点。
双耳三维音频技术是利用人耳的听觉原理实现三维声场呈现的技术,其原理在于人仅通过双耳即可感知音源对象的空间方位,因此如果能够重现人双耳处的声音信息即可实现逼真的三维音频效果。该技术仅需要使用双声道耳机即可呈现三维声效果,具有设备简单、实现方便的特点,尤其适用于手机、VR眼镜等小型设备。
头相关传输函数(Head Related Transfer Function,简称HRTF)描述了声音信号从给定空间位置传输入人双耳过程中受到躯干、头部、耳廓等人体部位的遮挡、反射等声学作用而产生的影响。因此,利用HRTF可以模拟出不同空间方位的音源信号传输到人双耳时的状态,进而模拟出逼真的双耳三维音效果。双耳三维音频技术既是一种利用HRTF实现三维声场呈现的技术。
HRTF中含有大量影响人耳听觉定位的线索信息,如何在保留这些听觉定位线索的同时,对HRTF进行压缩表达是双耳三维音频技术的关键内容。现有的HRTF建模方法多通过使用主成分分析(Principal Component Analysis,PCA)对HRTF中进行主成分的提取,进而利用主成分信息对原始HRTF进行低维表达和重建。然而基于PCA的降维方法本质上属于线性降维方法,即通过低维特征的线性组合实现对原始信号的重建,该类方法对于HRTF中低维特征间的复杂非线性关系难以进行表达,从而导致HRTF的重建效果不理想。
发明内容
本发明提出一种HRTF的高效低维表达与重建的技术方案,该技术利用基于卷积神经网络提取HRTF中听觉定位线索相关的频谱特征,从而建立基于卷积自编码器的HRTF低维表达方法。该方案可以运用于HRTF的压缩存储、多HRTF库融合、HRTF个性化等双耳三维声技术领域。
一种基于卷积自编码器的头相关传输函数建模方法,包括HRTF的降维表达和HRTF的重建两个部分,其中HRTF的降维表达包括以下步骤:
步骤A1:对输入的HRTF信号H进行预处理操作,移除原始HRTF信号的前端时延信息得到
Figure BDA0002238310960000021
步骤A2:对步骤A1得到的
Figure BDA0002238310960000022
数据信号进行时域-频域变化,并通过加窗处理截取得到人耳听觉频谱范围内的HRTF频谱信息
Figure BDA0002238310960000023
步骤A3:对A2得到的信息根据其对应的空间方位进行插值处理,得到连续空间方位的HRTF频谱图信息G;
步骤A4:对步骤A3得到的数据信号G进行数据标准化处理,得到具有一致取值范围区间的HRTF频谱图信息
Figure BDA0002238310960000025
步骤A5:将步骤A4得到的数据信号
Figure BDA0002238310960000026
传入卷积自编码器的编码器模块中,得到HRTF听觉定位线索的低维特征表达结果R;
HRTF的重建包含以下步骤:
步骤B1:将HRTF的低维表达信息输入卷积自编码器的解码器模块中,得到重建后的HRTF频谱图信息
Figure BDA0002238310960000027
步骤B2:将重建后的HRTF频谱图信息
Figure BDA0002238310960000028
进行反标准化处理,得到HRTF频谱图信息G′;
步骤B3:对步骤B2得到的HRTF频谱图信息G′进行抽样,得到所需空间方位对应的HRTF信息
Figure BDA0002238310960000029
步骤B4:对HRTF信息
Figure BDA00022383109600000210
进行时-频变换,还原成时域信号
Figure BDA00022383109600000211
步骤B5:对步骤B4得到的信息补充双耳间时间差信息,从而得到重建的HRTF数据H′;
其中,卷积自编码器包括卷积及池化处理模块、全连接神经网络模块、反向全连接神经网络模块和反卷积及反池化处理模块,前两个模块为编码器模块,后两个模块为解码器模块。
进一步的,所述卷积及池化处理模块包括卷积层、激活层和池化层,用于使用卷积神经网络对HRTF中的内在听觉定位线索特征进行提取,并获得听觉定位线索特征的权重值;
所述全连接神经网络模块包括若干个全连接层,用于对卷积及池化处理模块中提取所得的听觉定位线索特征进行进一步的低维表达处理,得到HRTF听觉定位线索特征的低维表达结果;
所述反向全连接神经网络模块包括若干个全连接层,该模块用于对全连接神经网络模块所得的听觉定位线索特征的低维表达进行解码,重建出HRTF中的内在听觉定位线索特征;
所述反卷积及反池化处理模块包括反池化层、反卷积层和激活层,用于从反向全连接神经网络模块中的HRTF听觉定位线索特征重建HRTF数据。
进一步的,步骤A1的具体实现方式如下,
首先计算输入信号H的最小相位An:
An=-imag(hilbert(log(abs(fft(H)))))
其中,fft()为求解傅里叶变换操作,abs()为求解绝对值操作,log()为求解对数操作,hilbert()为求解希尔伯特变换操作,imag()为求解复数域操作;
然后通过最小相位求解对应的去冗余信号
Figure BDA0002238310960000031
其中,i为单位虚数,exp()为求解指数操作,ifft()为求解逆傅里叶变换操作,real()为求解实数域操作。
进一步的,步骤A2的具体实现方式如下,
将原始信号
Figure BDA0002238310960000033
重采样为48kHz采样率,并使用汉宁窗截取为256个采样点,之后使用快速傅里叶变换进行时域-频域变换,并选取其中频谱范围200Hz~18kHz的频谱成分进行下一步处理。
进一步的,步骤A3中通过线性插值得到连续空间方位的HRTF频谱图信息G,具体实现方式如下,
对于空间位置(x1,y1)的HRTF信息H1以及空间位置(x2,y2)的HRTF信息H2,其在空间位置(x,y)的HRTF信息H计算方式如下:
Figure BDA0002238310960000034
其中,S1和S2分别为待插值HRTF所在空间位置距离已知两个HRTF空间位置的距离,它们的计算方式如下:
Figure BDA0002238310960000041
Figure BDA0002238310960000042
进一步的,步骤A4中标准化的具体实现方式如下,
Figure BDA0002238310960000043
其中x为待处理数据信号G中的数据样点值,min为待处理数据信号G中的数据样点极小值,max为待处理数据信号G中的数据样点极大值,经过标准化之后,HRTF的频谱图取值范围将落于[0,1]区间内。
进一步的,步骤B2中反标准化的具体实现方式如下,
Figure BDA0002238310960000044
其中
Figure BDA0002238310960000045
为重建后HRTF频谱图信息
Figure BDA0002238310960000046
中的数据样点值,min为原始HRTF频谱信号的统计极小值,max为原始HRTF频谱信号的统计极大值。
进一步的,步骤B4的具体实现方式如下,
首先求解HRTF信息
Figure BDA0002238310960000047
的最小相位信息An′:
Figure BDA0002238310960000048
其中,log()为求解对数操作,hilbert()为求解希尔伯特变换操作,imag()为求解复数域操作,然后,利用最小相位近似计算HRTF的时域信息
Figure BDA0002238310960000049
其中,i为单位虚数,exp()为求解指数操作,ifft()为求解逆傅里叶变换操作,real()为求解实数域操作。
进一步的,步骤B5的具体实现方式如下,
其中,ITD为双耳间时间差,a为用户的头部半径的统计值,c为声音的传播速度,θ为声源的水平方位角。
与现有的基于主成分分析(PCA)的HRTF表达方法相比,本发明的性能优势在于:
1.利用了卷积神经网络具有非线性特征表达的能力,能够对HRTF中复杂听觉定位线索特征进行表达,提高了对HRTF的内在特征的表达能力;
2.基于深度神经网络的卷积自编码器具有强健的数据泛化能力,能够同时兼容多种来源的HRTF数据集样本从而获得更理想的HRTF表达能力。
附图说明
为了更清楚地说明本实施例中的技术方案,下面将对实施例描述中所需要使用的附图进行简要介绍。下面描述中的附图是本发明的一个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的卷积自编码器模型结构框图。
图2是本发明实施例的HRTF表达方法编/解码流程图。
图3为本发明实施例中声源的水平方位角示意图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
参照图1,本发明提供一种用于HRTF表达的卷积自编码器模型,该模型包括模块1:编码器的HRTF卷积及池化处理模块、模块2:编码器的HRTF全连接神经网络模块、模块3:解码器的HRTF反向全连接神经网络模块、模块4:解码器的HRTF反卷积及反池化处理模块。
所述模块1:编码器的HRTF卷积及池化处理模块,用于对输入的HRTF数据通过卷积神经网络提取其中内含的听觉定位线索特征以及定位线索特征的权重值(即字典,字典里记录了每种特征应该被如何使用,包括在哪里重建,权重是多少等),并利用池化技术对提取的听觉定位线索特征进行压缩处理,从而实现对HRTF中听觉定位线索特征的提取。在具体实施时,可以串联多个该类型模块实现对HRTF中听觉定位线索特征的多级提取,从而提升模型整体的特征表达效果。在本样例中,采用了2级串联实现听觉定位线索特征的提取。
所述模块2:编码器的HRTF全连接神经网络模块,用于对所得的听觉定位线索特征进行进一步的低维表达处理,从而得到听觉定位线索特征的低维表达。在具体实施中,该全连接网络可以根据需要配置为不同的深度。在本样例中,采用了3层全连接网络进行听觉定位线索特征的低维表达。
所述模块3:解码器的HRTF反向全连接神经网络模块,该模块用于对听觉定位线索特征的低维表达进行解码,重建出HRTF中的内在听觉定位线索特征。该操作可以被认为是模块2的逆向操作,具体实施中该全连接神经网络可以配置为不同的深度,而不一定必须与模块2一致。在本样例中,采用了3层全连接网络对听觉定位线索特征的低维表达进行解码。
所述模块4:解码器的HRTF反卷积及反池化处理模块,该模块用于从HRTF听觉定位线索特征重建HRTF数据。该操作可以被认为是模块1的逆向操作,具体实施中应当根据模块1的数量配置相应数量的该类型模块,在本样例中采用了2级串联实现由听觉定位线索特征重建HRTF数据。
参照图2,本发明提出的一种基于卷积自编码器的头相关传输函数重建方法,其中包含了两大类步骤,一类为头相关传输函数低维表达方法的实施步骤,一类为头相关传输函数的重建方法实施步骤。
步骤A1:对输入的HRTF信号H进行预处理操作,移除原始HRTF信号的前端时延信息得到
Figure BDA0002238310960000061
该预处理操作目的在于移除原始HRTF在采集过程中由于声音传播导致的时延信息。一种典型的处理方案为通过最小相位近似计算移除HRTF的时延冗余信息,具体做法如下:
首先计算输入信号H的最小相位An:
An=-imag(hilbert(log(abs(fft(H)))))
其中,fft()为求解傅里叶变换操作,abs()为求解绝对值操作,log()为求解对数操作,hilbert()为求解希尔伯特变换操作,imag()为求解复数域操作。
然后通过最小相位求解对应的去冗余信号
Figure BDA0002238310960000062
Figure BDA0002238310960000063
其中,i为单位虚数,exp()为求解指数操作,ifft()为求解逆傅里叶变换操作,real()为求解实数域操作。
应该注意的是,此处列举的移除冗余信号的预处理方案只是为了举例说明本发明的具体实施流程,并不用作限定本发明。
步骤A2:对步骤A1得到的
Figure BDA0002238310960000064
数据信号进行时域-频域变化,并加窗截取得到符合人耳听觉频谱范围的HRTF频谱信息
Figure BDA0002238310960000065
在具体实施中,该部分操作可以根据具体情况对输入数据进行升采样或降采样处理,并通过加窗对频谱信息进行修正处理。一种典型配置方案为将原始信号重采样为48kHz采样率,并使用汉宁窗截取为256个采样点,之后使用快速傅里叶变换进行时域-频域变换,并选取其中频谱范围200Hz~18kHz的频谱成分进行下一步处理。
应该注意的是,此处规定的采样率、窗函数类型以及频谱范围只是为了举例说明本发明的具体实施流程,并不用作限定本发明。
步骤A3:对A2得到的信息根据各HRTF的空间方位进行插值处理,得到连续空间方位的HRTF频谱图信息G。
在具体实施中,一种典型的HRTF插值策略为线性插值,具体来说对于空间位置(x1,y1)的HRTF信息H1以及空间位置(x2,y2)的HRTF信息H2,其在空间位置(x,y)的HRTF信息H计算方式如下:
Figure BDA0002238310960000073
其中,S1和S2分别为待插值HRTF所在空间位置距离已知两个HRTF空间位置的距离,它们的计算方式如下:
Figure BDA0002238310960000075
步骤A4:对步骤A3得到的数据信号G进行数据标准化处理,得到具有一致取值范围区间的HRTF频谱图信息
Figure BDA0002238310960000076
在具体实施中,一种典型的标准化方法为:
Figure BDA0002238310960000077
其中x为待处理数据信号G中的数据样点值,min为待处理数据信号G中的数据样点极小值,max为待处理数据信号G中的数据样点极大值。经过标准化之后,HRTF的频谱图取值范围将落于[0,1]区间内。
步骤A5:将骤A4得到的数据信号
Figure BDA0002238310960000078
传入卷积自编码器的编码器模块中,得到HRTF的听觉定位线索低维特征表达结果R。
具体来讲,得到的结果R中含有两部分数据:一部分为HRTF中频谱特征字典数据Rd,一部分为HRTF中听觉定位线索的低维特征压缩数据Rz。在进行HRTF的解码重建时,应当将该两部分数据同时输入到对应解码重建模块。
在进行HRTF的重建时具体的步骤如下,
步骤B1:将HRTF的低维表达信息(包含HRTF中频谱特征字典数据Rd,和HRTF中听觉定位线索的低维特征压缩数据Rz)输入卷积自编码器的解码器模块中,得到重建后的HRTF频谱图信息
Figure BDA0002238310960000081
步骤B2:将重建后的HRTF频谱图信息
Figure BDA0002238310960000082
进行反标准化处理,得到HRTF频谱图信息G′。
在具体实施中,本示例对应于步骤A4的反标准化方法为:
Figure BDA0002238310960000083
其中
Figure BDA0002238310960000084
为重建后HRTF频谱图信息
Figure BDA0002238310960000085
中的数据样点值,min为原始HRTF频谱信号的统计极小值,max为原始HRTF频谱信号的统计极大值。
步骤B3:对步骤B2得到的HRTF频谱图信息G′进行抽样,得到所需空间方位对应的HRTF信息
Figure BDA0002238310960000086
步骤B4:对HRTF信息
Figure BDA0002238310960000087
进行时-频变换,还原成时域信号
具体实施中,一种典型的时-频变换方法为利用HRTF的最小相位特性进行最小相位近似求解其时域信号,具体的计算方法为,首先求解HRTF信息
Figure BDA0002238310960000089
的最小相位信息An′:
Figure BDA00022383109600000810
其中,log()为求解对数操作,hilbert()为求解希尔伯特变换操作,imag()为求解复数域操作。然后,利用最小相位近似计算HRTF的时域信息
Figure BDA00022383109600000811
Figure BDA00022383109600000812
其中,i为单位虚数,exp()为求解指数操作,ifft()为求解逆傅里叶变换操作,real()为求解实数域操作。
步骤B5:对步骤B4得到的
Figure BDA00022383109600000813
信息补充双耳间时间差信息,从而得到重建的HRTF数据H′。
具体实施中,一种典型的计算双耳间时间差信息的方法为:
Figure BDA00022383109600000814
其中,a为用户的头部半径的统计值(0.07m),c为声音的传播速度(340m/s),θ为声源的水平方位角(见图3)。
应该注意的是,此处规定用户头部半径的统计值,以及声音传播速度的取值只是为了举例说明本发明的具体实施流程,并不用作限定本发明。
与现有HRTF低维表达方法相比,本发明具有的积极效果是:
本发明将卷积自编码器用于提取HRTF频谱特征中的听觉定位线索信息,利用卷积网络能够表达特征间非线性关系的特性对HRTF中的定位线索特征进行表达,提高了HRTF的低维表达精度。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (9)

1.一种基于卷积自编码器的头相关传输函数建模方法,其特征在于:包括HRTF的降维表达和HRTF的重建两个部分,其中HRTF的降维表达包括以下步骤:
步骤A1:对输入的HRTF信号H进行预处理操作,移除原始HRTF信号的前端时延信息得到
Figure FDA0002238310950000011
步骤A2:对步骤A1得到的
Figure FDA0002238310950000012
数据信号进行时域-频域变化,并通过加窗处理截取得到人耳听觉频谱范围内的HRTF频谱信息
Figure FDA0002238310950000013
步骤A3:对A2得到的
Figure FDA0002238310950000014
信息根据其对应的空间方位进行插值处理,得到连续空间方位的HRTF频谱图信息G;
步骤A4:对步骤A3得到的数据信号G进行数据标准化处理,得到具有一致取值范围区间的HRTF频谱图信息
Figure FDA0002238310950000015
步骤A5:将步骤A4得到的数据信号
Figure FDA0002238310950000016
传入卷积自编码器的编码器模块中,得到HRTF听觉定位线索的低维特征表达结果R;
HRTF的重建包含以下步骤:
步骤B1:将HRTF的低维表达信息输入卷积自编码器的解码器模块中,得到重建后的HRTF频谱图信息
Figure FDA0002238310950000017
步骤B2:将重建后的HRTF频谱图信息
Figure FDA00022383109500000111
进行反标准化处理,得到HRTF频谱图信息G′;
步骤B3:对步骤B2得到的HRTF频谱图信息G′进行抽样,得到所需空间方位对应的HRTF信息
Figure FDA0002238310950000018
步骤B4:对HRTF信息
Figure FDA0002238310950000019
进行时-频变换,还原成时域信号
Figure FDA00022383109500000112
步骤B5:对步骤B4得到的
Figure FDA00022383109500000110
信息补充双耳间时间差信息,从而得到重建的HRTF数据H′;
其中,卷积自编码器包括卷积及池化处理模块、全连接神经网络模块、反向全连接神经网络模块和反卷积及反池化处理模块,前两个模块为编码器模块,后两个模块为解码器模块。
2.如权利要求1所述的一种基于卷积自编码器的头相关传输函数建模方法,其特征在于:
所述卷积及池化处理模块包括卷积层、激活层和池化层,用于使用卷积神经网络对HRTF中的内在听觉定位线索特征进行提取,并获得听觉定位线索特征的权重值;
所述全连接神经网络模块包括若干个全连接层,用于对卷积及池化处理模块中提取所得的听觉定位线索特征进行进一步的低维表达处理,得到HRTF听觉定位线索特征的低维表达结果;
所述反向全连接神经网络模块包括若干个全连接层,该模块用于对全连接神经网络模块所得的听觉定位线索特征的低维表达进行解码,重建出HRTF中的内在听觉定位线索特征;
所述反卷积及反池化处理模块包括反池化层、反卷积层和激活层,用于从反向全连接神经网络模块中的HRTF听觉定位线索特征重建HRTF数据。
3.如权利要求1所述的一种基于卷积自编码器的头相关传输函数建模方法,其特征在于:步骤A1的具体实现方式如下,
首先计算输入信号H的最小相位An:
An=-imag(hilbert(log(abs(fft(H)))))
其中,fft()为求解傅里叶变换操作,abs()为求解绝对值操作,log()为求解对数操作,hilbert()为求解希尔伯特变换操作,imag()为求解复数域操作;
然后通过最小相位求解对应的去冗余信号
Figure FDA0002238310950000022
其中,i为单位虚数,exp()为求解指数操作,ifft()为求解逆傅里叶变换操作,real()为求解实数域操作。
4.如权利要求1所述的一种基于卷积自编码器的头相关传输函数建模方法,其特征在于:步骤A2的具体实现方式如下,
将原始信号
Figure FDA0002238310950000023
重采样为48kHz采样率,并使用汉宁窗截取为256个采样点,之后使用快速傅里叶变换进行时域-频域变换,并选取其中频谱范围200Hz~18kHz的频谱成分进行下一步处理。
5.如权利要求1所述的一种基于卷积自编码器的头相关传输函数建模方法,其特征在于:步骤A3中通过线性插值得到连续空间方位的HRTF频谱图信息G,具体实现方式如下,
对于空间位置(x1,y1)的HRTF信息H1以及空间位置(x2,y2)的HRTF信息H2,其在空间位置(x,y)的HRTF信息H计算方式如下:
Figure FDA0002238310950000031
其中,S1和S2分别为待插值HRTF所在空间位置距离已知两个HRTF空间位置的距离,它们的计算方式如下:
Figure FDA0002238310950000032
Figure FDA0002238310950000033
6.如权利要求1所述的一种基于卷积自编码器的头相关传输函数建模方法,其特征在于:步骤A4中标准化的具体实现方式如下,
其中x为待处理数据信号G中的数据样点值,min为待处理数据信号G中的数据样点极小值,max为待处理数据信号G中的数据样点极大值,经过标准化之后,HRTF的频谱图取值范围将落于[0,1]区间内。
7.如权利要求1所述的一种基于卷积自编码器的头相关传输函数建模方法,其特征在于:步骤B2中反标准化的具体实现方式如下,
Figure FDA0002238310950000035
其中
Figure FDA0002238310950000038
为重建后HRTF频谱图信息
Figure FDA0002238310950000039
中的数据样点值,min为原始HRTF频谱信号的统计极小值,max为原始HRTF频谱信号的统计极大值。
8.如权利要求1所述的一种基于卷积自编码器的头相关传输函数建模方法,其特征在于:步骤B4的具体实现方式如下,
首先求解HRTF信息
Figure FDA00022383109500000310
的最小相位信息An′:
其中,log()为求解对数操作,hilbert()为求解希尔伯特变换操作,imag()为求解复数域操作,然后,利用最小相位近似计算HRTF的时域信息
Figure FDA0002238310950000037
其中,i为单位虚数,exp()为求解指数操作,ifft()为求解逆傅里叶变换操作,real()为求解实数域操作。
9.如权利要求1所述的一种基于卷积自编码器的头相关传输函数建模方法,其特征在于:步骤B5的具体实现方式如下,
Figure FDA0002238310950000041
其中,ITD为双耳间时间差,a为用户的头部半径的统计值,c为声音的传播速度,θ为声源的水平方位角。
CN201910991100.8A 2019-10-18 2019-10-18 一种基于卷积自编码器的头相关传输函数建模方法 Active CN110751281B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910991100.8A CN110751281B (zh) 2019-10-18 2019-10-18 一种基于卷积自编码器的头相关传输函数建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910991100.8A CN110751281B (zh) 2019-10-18 2019-10-18 一种基于卷积自编码器的头相关传输函数建模方法

Publications (2)

Publication Number Publication Date
CN110751281A true CN110751281A (zh) 2020-02-04
CN110751281B CN110751281B (zh) 2022-04-15

Family

ID=69278755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910991100.8A Active CN110751281B (zh) 2019-10-18 2019-10-18 一种基于卷积自编码器的头相关传输函数建模方法

Country Status (1)

Country Link
CN (1) CN110751281B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115035907A (zh) * 2022-05-30 2022-09-09 中国科学院自动化研究所 一种目标说话人分离系统、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294647A (zh) * 2013-05-10 2013-09-11 上海大学 基于正交张量近邻保持嵌入的头相关传输函数降维方法
CN105933818A (zh) * 2016-07-07 2016-09-07 音曼(北京)科技有限公司 耳机三维声场重建的幻象中置声道的实现方法及系统
CN107820158A (zh) * 2017-07-07 2018-03-20 大连理工大学 一种基于头相关脉冲响应的三维音频生成装置
US20180109900A1 (en) * 2016-10-13 2018-04-19 Philip Scott Lyren Binaural Sound in Visual Entertainment Media
CN108596016A (zh) * 2018-03-06 2018-09-28 北京大学 一种基于深度神经网络的个性化头相关传输函数建模方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294647A (zh) * 2013-05-10 2013-09-11 上海大学 基于正交张量近邻保持嵌入的头相关传输函数降维方法
CN105933818A (zh) * 2016-07-07 2016-09-07 音曼(北京)科技有限公司 耳机三维声场重建的幻象中置声道的实现方法及系统
US20180109900A1 (en) * 2016-10-13 2018-04-19 Philip Scott Lyren Binaural Sound in Visual Entertainment Media
CN107820158A (zh) * 2017-07-07 2018-03-20 大连理工大学 一种基于头相关脉冲响应的三维音频生成装置
CN108596016A (zh) * 2018-03-06 2018-09-28 北京大学 一种基于深度神经网络的个性化头相关传输函数建模方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GEON WOO LEE等: "Personalized HRTF Modeling Based on Deep Neural Network Using Anthropometric Measurements and Images of the Ear", 《APPLIED SCIENCES》 *
YUCHENG SONG等: "An Efficient Method Using the Parameterized HRTFs for 3D Audio Real-Time Rendering on Mobile Devices", 《ADVANCES IN MULTIMEDIA INFORMATION PROCESSING – PCM 2017》 *
涂卫平等: "三维音频实时生成技术及实现", 《计算机科学与探索》 *
王帅: "基于头相关传输函数的三维音源技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115035907A (zh) * 2022-05-30 2022-09-09 中国科学院自动化研究所 一种目标说话人分离系统、设备及存储介质
CN115035907B (zh) * 2022-05-30 2023-03-17 中国科学院自动化研究所 一种目标说话人分离系统、设备及存储介质
US11978470B2 (en) 2022-05-30 2024-05-07 Institute Of Automation, Chinese Academy Of Sciences Target speaker separation system, device and storage medium

Also Published As

Publication number Publication date
CN110751281B (zh) 2022-04-15

Similar Documents

Publication Publication Date Title
US9369818B2 (en) Filtering with binaural room impulse responses with content analysis and weighting
KR101010464B1 (ko) 멀티 채널 신호의 파라메트릭 표현으로부터 공간적 다운믹스 신호의 생성
EP1989920B1 (en) Audio encoding and decoding
CN116312573A (zh) 压缩和解压缩高阶高保真度立体声响复制信号表示的方法及装置
BRPI0709276A2 (pt) processo e dispositivo de espacialização sonora binaural eficaz no domìnio transformado
CN107005778A (zh) 用于双耳渲染的音频信号处理设备和方法
CN116013297A (zh) 一种基于多模态门控提升模型的视听语音降噪方法
CN110751281B (zh) 一种基于卷积自编码器的头相关传输函数建模方法
EP2489036B1 (en) Method, apparatus and computer program for processing multi-channel audio signals
JP2023551016A (ja) オーディオ符号化及び復号方法並びに装置
CN115346537A (zh) 一种音频编码、解码方法及装置
Cheng Spatial squeezing techniques for low bit-rate multichannel audio coding
CN116486822A (zh) 沉浸式音频系统中的自适应音频对象编解码方法及装置
WO2022263710A1 (en) Apparatus, methods and computer programs for obtaining spatial metadata
Junlong et al. Study of Speech Enhancement Based on the Second-Order Differential Microphone Array
CN113449255A (zh) 一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质
Chanda et al. Immersive rendering of coded audio streams using reduced rank models of subband-domain head-related transfer functions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant