CN110751281A - 一种基于卷积自编码器的头相关传输函数建模方法 - Google Patents
一种基于卷积自编码器的头相关传输函数建模方法 Download PDFInfo
- Publication number
- CN110751281A CN110751281A CN201910991100.8A CN201910991100A CN110751281A CN 110751281 A CN110751281 A CN 110751281A CN 201910991100 A CN201910991100 A CN 201910991100A CN 110751281 A CN110751281 A CN 110751281A
- Authority
- CN
- China
- Prior art keywords
- hrtf
- information
- encoder
- data
- solving
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
- G06F17/156—Correlation function computation including computation of convolution operations using a domain transform, e.g. Fourier transform, polynomial transform, number theoretic transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2134—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
- G06F18/21347—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis using domain transformations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
- H04S7/304—For headphones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/02—Preprocessing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Evolutionary Computation (AREA)
- Pure & Applied Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computational Mathematics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Multimedia (AREA)
- Neurology (AREA)
- Computational Linguistics (AREA)
- Algebra (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Stereophonic System (AREA)
Abstract
本发明提供了一种HRTF的低维表达与重建技术方案,该技术利用卷积神经网络提取HRTF中与听觉定位线索相关的频谱特征,从而建立了基于卷积自编码器的HRTF低维表达方法。在进行HRTF的低维表达时,首先对原始HRTF数据进行移除前端时延、时‑频变换、空间方位插值、数据标准化等预处理操作,然后将数据输入HRTF的卷积自编码器得到包含听觉定位特征的低维表达数据。在进行HRTF的重建时,将听觉定位特征的低维表达输入解码器进行解码,然后对输出数据进行数据反标准化、数据抽样、时‑频变换、补充双耳间时间差等后处理操作实现HRTF的重建。本发明能够有效的提取听觉定位线索特征并对特征之间的复杂非线性关系进行表达,从而提高HRTF的低维表达和重建精度。
Description
技术领域
本发明涉及数字音频信号处理领域中的双耳三维音频技术领域,具体涉及渲染双耳三维音频所需的头相关传输函数的低维表达和重建方法。
背景技术
三维音频技术能够呈现出逼真的三维声场效果,从而灵活表现音源对象的空间方位。传统的基于多声道技术的三维音频技术多应用于大型影院、会议场所等场景,由于该技术是通过大量扬声器实现三维声场的重建,因此具有配置复杂、应用场景固定、具有最佳听音区域的限制等缺点。
双耳三维音频技术是利用人耳的听觉原理实现三维声场呈现的技术,其原理在于人仅通过双耳即可感知音源对象的空间方位,因此如果能够重现人双耳处的声音信息即可实现逼真的三维音频效果。该技术仅需要使用双声道耳机即可呈现三维声效果,具有设备简单、实现方便的特点,尤其适用于手机、VR眼镜等小型设备。
头相关传输函数(Head Related Transfer Function,简称HRTF)描述了声音信号从给定空间位置传输入人双耳过程中受到躯干、头部、耳廓等人体部位的遮挡、反射等声学作用而产生的影响。因此,利用HRTF可以模拟出不同空间方位的音源信号传输到人双耳时的状态,进而模拟出逼真的双耳三维音效果。双耳三维音频技术既是一种利用HRTF实现三维声场呈现的技术。
HRTF中含有大量影响人耳听觉定位的线索信息,如何在保留这些听觉定位线索的同时,对HRTF进行压缩表达是双耳三维音频技术的关键内容。现有的HRTF建模方法多通过使用主成分分析(Principal Component Analysis,PCA)对HRTF中进行主成分的提取,进而利用主成分信息对原始HRTF进行低维表达和重建。然而基于PCA的降维方法本质上属于线性降维方法,即通过低维特征的线性组合实现对原始信号的重建,该类方法对于HRTF中低维特征间的复杂非线性关系难以进行表达,从而导致HRTF的重建效果不理想。
发明内容
本发明提出一种HRTF的高效低维表达与重建的技术方案,该技术利用基于卷积神经网络提取HRTF中听觉定位线索相关的频谱特征,从而建立基于卷积自编码器的HRTF低维表达方法。该方案可以运用于HRTF的压缩存储、多HRTF库融合、HRTF个性化等双耳三维声技术领域。
一种基于卷积自编码器的头相关传输函数建模方法,包括HRTF的降维表达和HRTF的重建两个部分,其中HRTF的降维表达包括以下步骤:
步骤A3:对A2得到的信息根据其对应的空间方位进行插值处理,得到连续空间方位的HRTF频谱图信息G;
HRTF的重建包含以下步骤:
步骤B5:对步骤B4得到的信息补充双耳间时间差信息,从而得到重建的HRTF数据H′;
其中,卷积自编码器包括卷积及池化处理模块、全连接神经网络模块、反向全连接神经网络模块和反卷积及反池化处理模块,前两个模块为编码器模块,后两个模块为解码器模块。
进一步的,所述卷积及池化处理模块包括卷积层、激活层和池化层,用于使用卷积神经网络对HRTF中的内在听觉定位线索特征进行提取,并获得听觉定位线索特征的权重值;
所述全连接神经网络模块包括若干个全连接层,用于对卷积及池化处理模块中提取所得的听觉定位线索特征进行进一步的低维表达处理,得到HRTF听觉定位线索特征的低维表达结果;
所述反向全连接神经网络模块包括若干个全连接层,该模块用于对全连接神经网络模块所得的听觉定位线索特征的低维表达进行解码,重建出HRTF中的内在听觉定位线索特征;
所述反卷积及反池化处理模块包括反池化层、反卷积层和激活层,用于从反向全连接神经网络模块中的HRTF听觉定位线索特征重建HRTF数据。
进一步的,步骤A1的具体实现方式如下,
首先计算输入信号H的最小相位An:
An=-imag(hilbert(log(abs(fft(H)))))
其中,fft()为求解傅里叶变换操作,abs()为求解绝对值操作,log()为求解对数操作,hilbert()为求解希尔伯特变换操作,imag()为求解复数域操作;
其中,i为单位虚数,exp()为求解指数操作,ifft()为求解逆傅里叶变换操作,real()为求解实数域操作。
进一步的,步骤A2的具体实现方式如下,
进一步的,步骤A3中通过线性插值得到连续空间方位的HRTF频谱图信息G,具体实现方式如下,
对于空间位置(x1,y1)的HRTF信息H1以及空间位置(x2,y2)的HRTF信息H2,其在空间位置(x,y)的HRTF信息H计算方式如下:
其中,S1和S2分别为待插值HRTF所在空间位置距离已知两个HRTF空间位置的距离,它们的计算方式如下:
进一步的,步骤A4中标准化的具体实现方式如下,
其中x为待处理数据信号G中的数据样点值,min为待处理数据信号G中的数据样点极小值,max为待处理数据信号G中的数据样点极大值,经过标准化之后,HRTF的频谱图取值范围将落于[0,1]区间内。
进一步的,步骤B2中反标准化的具体实现方式如下,
进一步的,步骤B4的具体实现方式如下,
其中,i为单位虚数,exp()为求解指数操作,ifft()为求解逆傅里叶变换操作,real()为求解实数域操作。
进一步的,步骤B5的具体实现方式如下,
其中,ITD为双耳间时间差,a为用户的头部半径的统计值,c为声音的传播速度,θ为声源的水平方位角。
与现有的基于主成分分析(PCA)的HRTF表达方法相比,本发明的性能优势在于:
1.利用了卷积神经网络具有非线性特征表达的能力,能够对HRTF中复杂听觉定位线索特征进行表达,提高了对HRTF的内在特征的表达能力;
2.基于深度神经网络的卷积自编码器具有强健的数据泛化能力,能够同时兼容多种来源的HRTF数据集样本从而获得更理想的HRTF表达能力。
附图说明
为了更清楚地说明本实施例中的技术方案,下面将对实施例描述中所需要使用的附图进行简要介绍。下面描述中的附图是本发明的一个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的卷积自编码器模型结构框图。
图2是本发明实施例的HRTF表达方法编/解码流程图。
图3为本发明实施例中声源的水平方位角示意图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
参照图1,本发明提供一种用于HRTF表达的卷积自编码器模型,该模型包括模块1:编码器的HRTF卷积及池化处理模块、模块2:编码器的HRTF全连接神经网络模块、模块3:解码器的HRTF反向全连接神经网络模块、模块4:解码器的HRTF反卷积及反池化处理模块。
所述模块1:编码器的HRTF卷积及池化处理模块,用于对输入的HRTF数据通过卷积神经网络提取其中内含的听觉定位线索特征以及定位线索特征的权重值(即字典,字典里记录了每种特征应该被如何使用,包括在哪里重建,权重是多少等),并利用池化技术对提取的听觉定位线索特征进行压缩处理,从而实现对HRTF中听觉定位线索特征的提取。在具体实施时,可以串联多个该类型模块实现对HRTF中听觉定位线索特征的多级提取,从而提升模型整体的特征表达效果。在本样例中,采用了2级串联实现听觉定位线索特征的提取。
所述模块2:编码器的HRTF全连接神经网络模块,用于对所得的听觉定位线索特征进行进一步的低维表达处理,从而得到听觉定位线索特征的低维表达。在具体实施中,该全连接网络可以根据需要配置为不同的深度。在本样例中,采用了3层全连接网络进行听觉定位线索特征的低维表达。
所述模块3:解码器的HRTF反向全连接神经网络模块,该模块用于对听觉定位线索特征的低维表达进行解码,重建出HRTF中的内在听觉定位线索特征。该操作可以被认为是模块2的逆向操作,具体实施中该全连接神经网络可以配置为不同的深度,而不一定必须与模块2一致。在本样例中,采用了3层全连接网络对听觉定位线索特征的低维表达进行解码。
所述模块4:解码器的HRTF反卷积及反池化处理模块,该模块用于从HRTF听觉定位线索特征重建HRTF数据。该操作可以被认为是模块1的逆向操作,具体实施中应当根据模块1的数量配置相应数量的该类型模块,在本样例中采用了2级串联实现由听觉定位线索特征重建HRTF数据。
参照图2,本发明提出的一种基于卷积自编码器的头相关传输函数重建方法,其中包含了两大类步骤,一类为头相关传输函数低维表达方法的实施步骤,一类为头相关传输函数的重建方法实施步骤。
该预处理操作目的在于移除原始HRTF在采集过程中由于声音传播导致的时延信息。一种典型的处理方案为通过最小相位近似计算移除HRTF的时延冗余信息,具体做法如下:
首先计算输入信号H的最小相位An:
An=-imag(hilbert(log(abs(fft(H)))))
其中,fft()为求解傅里叶变换操作,abs()为求解绝对值操作,log()为求解对数操作,hilbert()为求解希尔伯特变换操作,imag()为求解复数域操作。
其中,i为单位虚数,exp()为求解指数操作,ifft()为求解逆傅里叶变换操作,real()为求解实数域操作。
应该注意的是,此处列举的移除冗余信号的预处理方案只是为了举例说明本发明的具体实施流程,并不用作限定本发明。
在具体实施中,该部分操作可以根据具体情况对输入数据进行升采样或降采样处理,并通过加窗对频谱信息进行修正处理。一种典型配置方案为将原始信号重采样为48kHz采样率,并使用汉宁窗截取为256个采样点,之后使用快速傅里叶变换进行时域-频域变换,并选取其中频谱范围200Hz~18kHz的频谱成分进行下一步处理。
应该注意的是,此处规定的采样率、窗函数类型以及频谱范围只是为了举例说明本发明的具体实施流程,并不用作限定本发明。
步骤A3:对A2得到的信息根据各HRTF的空间方位进行插值处理,得到连续空间方位的HRTF频谱图信息G。
在具体实施中,一种典型的HRTF插值策略为线性插值,具体来说对于空间位置(x1,y1)的HRTF信息H1以及空间位置(x2,y2)的HRTF信息H2,其在空间位置(x,y)的HRTF信息H计算方式如下:
其中,S1和S2分别为待插值HRTF所在空间位置距离已知两个HRTF空间位置的距离,它们的计算方式如下:
在具体实施中,一种典型的标准化方法为:
其中x为待处理数据信号G中的数据样点值,min为待处理数据信号G中的数据样点极小值,max为待处理数据信号G中的数据样点极大值。经过标准化之后,HRTF的频谱图取值范围将落于[0,1]区间内。
具体来讲,得到的结果R中含有两部分数据:一部分为HRTF中频谱特征字典数据Rd,一部分为HRTF中听觉定位线索的低维特征压缩数据Rz。在进行HRTF的解码重建时,应当将该两部分数据同时输入到对应解码重建模块。
在进行HRTF的重建时具体的步骤如下,
在具体实施中,本示例对应于步骤A4的反标准化方法为:
其中,i为单位虚数,exp()为求解指数操作,ifft()为求解逆傅里叶变换操作,real()为求解实数域操作。
具体实施中,一种典型的计算双耳间时间差信息的方法为:
其中,a为用户的头部半径的统计值(0.07m),c为声音的传播速度(340m/s),θ为声源的水平方位角(见图3)。
应该注意的是,此处规定用户头部半径的统计值,以及声音传播速度的取值只是为了举例说明本发明的具体实施流程,并不用作限定本发明。
与现有HRTF低维表达方法相比,本发明具有的积极效果是:
本发明将卷积自编码器用于提取HRTF频谱特征中的听觉定位线索信息,利用卷积网络能够表达特征间非线性关系的特性对HRTF中的定位线索特征进行表达,提高了HRTF的低维表达精度。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (9)
1.一种基于卷积自编码器的头相关传输函数建模方法,其特征在于:包括HRTF的降维表达和HRTF的重建两个部分,其中HRTF的降维表达包括以下步骤:
HRTF的重建包含以下步骤:
其中,卷积自编码器包括卷积及池化处理模块、全连接神经网络模块、反向全连接神经网络模块和反卷积及反池化处理模块,前两个模块为编码器模块,后两个模块为解码器模块。
2.如权利要求1所述的一种基于卷积自编码器的头相关传输函数建模方法,其特征在于:
所述卷积及池化处理模块包括卷积层、激活层和池化层,用于使用卷积神经网络对HRTF中的内在听觉定位线索特征进行提取,并获得听觉定位线索特征的权重值;
所述全连接神经网络模块包括若干个全连接层,用于对卷积及池化处理模块中提取所得的听觉定位线索特征进行进一步的低维表达处理,得到HRTF听觉定位线索特征的低维表达结果;
所述反向全连接神经网络模块包括若干个全连接层,该模块用于对全连接神经网络模块所得的听觉定位线索特征的低维表达进行解码,重建出HRTF中的内在听觉定位线索特征;
所述反卷积及反池化处理模块包括反池化层、反卷积层和激活层,用于从反向全连接神经网络模块中的HRTF听觉定位线索特征重建HRTF数据。
6.如权利要求1所述的一种基于卷积自编码器的头相关传输函数建模方法,其特征在于:步骤A4中标准化的具体实现方式如下,
其中x为待处理数据信号G中的数据样点值,min为待处理数据信号G中的数据样点极小值,max为待处理数据信号G中的数据样点极大值,经过标准化之后,HRTF的频谱图取值范围将落于[0,1]区间内。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910991100.8A CN110751281B (zh) | 2019-10-18 | 2019-10-18 | 一种基于卷积自编码器的头相关传输函数建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910991100.8A CN110751281B (zh) | 2019-10-18 | 2019-10-18 | 一种基于卷积自编码器的头相关传输函数建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110751281A true CN110751281A (zh) | 2020-02-04 |
CN110751281B CN110751281B (zh) | 2022-04-15 |
Family
ID=69278755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910991100.8A Active CN110751281B (zh) | 2019-10-18 | 2019-10-18 | 一种基于卷积自编码器的头相关传输函数建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110751281B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115035907A (zh) * | 2022-05-30 | 2022-09-09 | 中国科学院自动化研究所 | 一种目标说话人分离系统、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294647A (zh) * | 2013-05-10 | 2013-09-11 | 上海大学 | 基于正交张量近邻保持嵌入的头相关传输函数降维方法 |
CN105933818A (zh) * | 2016-07-07 | 2016-09-07 | 音曼(北京)科技有限公司 | 耳机三维声场重建的幻象中置声道的实现方法及系统 |
CN107820158A (zh) * | 2017-07-07 | 2018-03-20 | 大连理工大学 | 一种基于头相关脉冲响应的三维音频生成装置 |
US20180109900A1 (en) * | 2016-10-13 | 2018-04-19 | Philip Scott Lyren | Binaural Sound in Visual Entertainment Media |
CN108596016A (zh) * | 2018-03-06 | 2018-09-28 | 北京大学 | 一种基于深度神经网络的个性化头相关传输函数建模方法 |
-
2019
- 2019-10-18 CN CN201910991100.8A patent/CN110751281B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294647A (zh) * | 2013-05-10 | 2013-09-11 | 上海大学 | 基于正交张量近邻保持嵌入的头相关传输函数降维方法 |
CN105933818A (zh) * | 2016-07-07 | 2016-09-07 | 音曼(北京)科技有限公司 | 耳机三维声场重建的幻象中置声道的实现方法及系统 |
US20180109900A1 (en) * | 2016-10-13 | 2018-04-19 | Philip Scott Lyren | Binaural Sound in Visual Entertainment Media |
CN107820158A (zh) * | 2017-07-07 | 2018-03-20 | 大连理工大学 | 一种基于头相关脉冲响应的三维音频生成装置 |
CN108596016A (zh) * | 2018-03-06 | 2018-09-28 | 北京大学 | 一种基于深度神经网络的个性化头相关传输函数建模方法 |
Non-Patent Citations (4)
Title |
---|
GEON WOO LEE等: "Personalized HRTF Modeling Based on Deep Neural Network Using Anthropometric Measurements and Images of the Ear", 《APPLIED SCIENCES》 * |
YUCHENG SONG等: "An Efficient Method Using the Parameterized HRTFs for 3D Audio Real-Time Rendering on Mobile Devices", 《ADVANCES IN MULTIMEDIA INFORMATION PROCESSING – PCM 2017》 * |
涂卫平等: "三维音频实时生成技术及实现", 《计算机科学与探索》 * |
王帅: "基于头相关传输函数的三维音源技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115035907A (zh) * | 2022-05-30 | 2022-09-09 | 中国科学院自动化研究所 | 一种目标说话人分离系统、设备及存储介质 |
CN115035907B (zh) * | 2022-05-30 | 2023-03-17 | 中国科学院自动化研究所 | 一种目标说话人分离系统、设备及存储介质 |
US11978470B2 (en) | 2022-05-30 | 2024-05-07 | Institute Of Automation, Chinese Academy Of Sciences | Target speaker separation system, device and storage medium |
Also Published As
Publication number | Publication date |
---|---|
CN110751281B (zh) | 2022-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9369818B2 (en) | Filtering with binaural room impulse responses with content analysis and weighting | |
KR101010464B1 (ko) | 멀티 채널 신호의 파라메트릭 표현으로부터 공간적 다운믹스 신호의 생성 | |
EP1989920B1 (en) | Audio encoding and decoding | |
CN116312573A (zh) | 压缩和解压缩高阶高保真度立体声响复制信号表示的方法及装置 | |
BRPI0709276A2 (pt) | processo e dispositivo de espacialização sonora binaural eficaz no domìnio transformado | |
CN107005778A (zh) | 用于双耳渲染的音频信号处理设备和方法 | |
CN116013297A (zh) | 一种基于多模态门控提升模型的视听语音降噪方法 | |
CN110751281B (zh) | 一种基于卷积自编码器的头相关传输函数建模方法 | |
EP2489036B1 (en) | Method, apparatus and computer program for processing multi-channel audio signals | |
JP2023551016A (ja) | オーディオ符号化及び復号方法並びに装置 | |
CN115346537A (zh) | 一种音频编码、解码方法及装置 | |
Cheng | Spatial squeezing techniques for low bit-rate multichannel audio coding | |
CN116486822A (zh) | 沉浸式音频系统中的自适应音频对象编解码方法及装置 | |
WO2022263710A1 (en) | Apparatus, methods and computer programs for obtaining spatial metadata | |
Junlong et al. | Study of Speech Enhancement Based on the Second-Order Differential Microphone Array | |
CN113449255A (zh) | 一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质 | |
Chanda et al. | Immersive rendering of coded audio streams using reduced rank models of subband-domain head-related transfer functions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |