CN115810364B - 混音环境中的端到端目标声信号提取方法及系统 - Google Patents

混音环境中的端到端目标声信号提取方法及系统 Download PDF

Info

Publication number
CN115810364B
CN115810364B CN202310074334.2A CN202310074334A CN115810364B CN 115810364 B CN115810364 B CN 115810364B CN 202310074334 A CN202310074334 A CN 202310074334A CN 115810364 B CN115810364 B CN 115810364B
Authority
CN
China
Prior art keywords
convolution
sound
acoustic signal
learnable
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310074334.2A
Other languages
English (en)
Other versions
CN115810364A (zh
Inventor
余永升
章林柯
宋鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Haina Kede Hubei Technology Co ltd
Original Assignee
Haina Kede Hubei Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Haina Kede Hubei Technology Co ltd filed Critical Haina Kede Hubei Technology Co ltd
Priority to CN202310074334.2A priority Critical patent/CN115810364B/zh
Publication of CN115810364A publication Critical patent/CN115810364A/zh
Application granted granted Critical
Publication of CN115810364B publication Critical patent/CN115810364B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Abstract

本发明提供一种混音环境中的端到端目标声信号提取方法及系统,包括:S1:构建端到端目标声信号抽取模型,端到端目标声信号抽取模型包括:可学习编码单元、基于因果卷积机制的分离单元和可学习解码单元;S2:获取声信号,将声信号输入可学习编码单元,通过可学习编码单元提取声信号的隐式声音特征图;S3:将隐式声音特征图输入基于因果卷积机制的分离单元进行分离,获得掩码函数;S4:将隐式声音特征图和掩码函数输入可学习解码单元进行编码,获得重构声信号。本发明中端到端目标声信号抽取模型无需预处理、推理时间短,在不同的音频类别时鲁棒性较好。

Description

混音环境中的端到端目标声信号提取方法及系统
技术领域
本发明涉及声音数字信号处理领域,尤其涉及一种混音环境中的端到端目标声信号提取方法及系统。
背景技术
声音分离是信号处理中的一项基础性任务,在现实世界中有着广泛的应用,例如从有噪声的声音信号中分离出干净的声音来提高声音自动识别的准确性。具体来说,这项工作的目的正是要从声音的混合物中分离出特定目标所发出的声音。这项任务对于声音事件检测、对话和会议记录的信号质量提升尤其重要。声音分离的研究跨越了几十年,是声音分离研究中最活跃、最具竞争力的领域。
在深度学习时代之前,许多传统的方法被引入该任务,如非负矩阵分解(NMF),计算听觉场景分析(CASA)和概率模型。然而,这些模型通常只适用于封闭的扬声器,这大大限制了它们的实际应用。
非负矩阵分解(NMF)是一种无监督学习算法,目的在于提取有用的特征,工作原理类似于PCA,可以识别出组合成数据的原始分量,也可以用于降维,通常不用于对数据进行重建或者编码。但该方法的缺点是,NMF生成的分量是没有顺序的,分量顺序和原始信号的顺序的匹配存在偶然性,最终信号分离效果并不稳定,存在一定的失败率。
计算听觉场景分析(CASA)就是利用计算机技术,让计算机模仿人类对听觉信号的处理过程进行建模,从而具备和人类一样从复杂混合声源中感知声音、处理声音、解释声音的能力。目前CASA系统有两种主要的模型,一个是数据驱动型,指的是信息从低级到高级的单向流动过程;另外一种是信息双向流动的图式驱动模型,模型接受信息后可以进行反馈,并且参与预测未来的声音。但是计算听觉场景分析方法普遍难以找到合适的声音分离线索,完成目标声音信号和噪声信号的分离,而且模型尺寸普遍偏大,计算时间较长。
随着深度学习技术在各个领域的成功,研究人员开始设计基于数据的模型来分离未知声源的混合,这克服了传统方法的障碍。一般来说,用于单通道声音分离的深度学习技术可以分为两类:时频域(T-F)域方法和端到端时域方法。
T-F方法基于计算短时傅里叶变换(STFT)生成的T-F特征,分离每个源的T-F特征,然后通过STFT逆重构源波形。它们通常使用混合波的原始相位来合成估计的源波形,并保留有噪声混合波的相位,这分离结果在存在相位上的偏差,最终分离出的声音质量也不稳定。
端到端时域方法利用编解码器框架直接建模混合波形的时域方法,Wave-U-Net通过对时域波形进行连续的卷积编码的下采样操作,然后进行连续的反卷积解码的上采样操作还原波形,期间利用跳跃连接拼接相近尺寸的上下采样信息。这类方法已经可以实现分离质量的稳定性,但较深的神经网络层数和两倍采样频率的输入长度决定了其高计算成本和低实时性。
总体而言,现有的针对声信号的分离提取方法,存在计算成本高、稳定性差、实时性低等缺点。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
为解决上述技术问题,本发明提供一种混音环境中的端到端目标声信号提取方法,包括:
S1:构建端到端目标声信号抽取模型,端到端目标声信号抽取模型包括:可学习编码单元、基于因果卷积机制的分离单元和可学习解码单元;
S2:获取声信号,将声信号输入可学习编码单元,通过可学习编码单元提取声信号的隐式声音特征图;
S3:将隐式声音特征图输入基于因果卷积机制的分离单元进行分离,获得掩码函数;
S4:将隐式声音特征图和掩码函数输入可学习解码单元进行编码,获得重构声信号。
优选的,步骤S2具体为:
S21:获取声信号,声信号的波形信号表达式为:x∈R1×T,T为一维波形中每个通道的信号序列长度,R为实数集;
S22:可学习编码单元将声信号分割为长度为L的无重叠段,通过N个大小同为为L的卷积核对无重叠段进行采样操作,获得N个通道信息;
S23:将N个通道信息拼接为隐式声音特征图W,隐式声音特征图的表达式为:
其中,x为输入的声信号,ReLU为非线性激活函数,ConblD()为一维卷积运算函数。
优选的,步骤S4具体为:
S41:将基于因果卷积机制的分离单元获得的C个掩码函数与隐式声音特征图进行点积乘法,获得掩蔽后的特征图,计算公式为:
其中,W为隐式声音特征图,为Hadamard积,maski为掩码函数,i为掩码函数的编号;Wi为第i个声源估计的掩蔽后的特征图,Wi∈RN×M,N为通道信息的数量,M为掩蔽后的特征图中每个通道的信号序列长度,R为实数集;
S42:可学习解码单元通过转置卷积将掩蔽后的特征图还原为一维波形,计算公式为:
其中,xi为解码单元输出的第i个声源波形序列的一维波形,xi∈R1×T,T为一维波形中每个通道的信号序列长度,ConvlDTranspose()为转置卷积运算函数;
S43:可学习解码单元通过一维转置卷积运算将一维波形重构为重构声信号。
优选的:
基于因果卷积机制的分离单元由上至下共包括8个卷积层,第一卷积层位于最上层,第一卷积层由一维卷积块组成,向下的每一层卷积层的卷积块均比上一层卷积层的卷积块多一维,第八卷积层位于最下层,第八卷积层由八维卷积块组成。
一种混音环境中的端到端目标声信号提取系统,包括:
模型构建模块,用于构建端到端目标声信号抽取模型,端到端目标声信号抽取模型包括:可学习编码单元、基于因果卷积机制的分离单元和可学习解码单元;
特征图提取模块,用于获取声信号,将声信号输入可学习编码单元,通过可学习编码单元提取声信号的隐式声音特征图;
分离模块,用于将隐式声音特征图输入基于因果卷积机制的分离单元进行分离,获得掩码函数;
重构模块,用于将隐式声音特征图和掩码函数输入可学习解码单元进行编码,获得重构声信号。
本发明具有以下有益效果:
1、可学习编码单元和可学习解码单元的架构可以更好的对波形进行特征空间的映射和还原,所需要时间序列长度也更短,避免了时频域方法存在的相位估计问题;
2、分离单元可以从不同时间尺度距离和不同距离的通道间学习权重分布,再对权重分布进行累加操作,可以高效快速地计算出掩码函数;
3、分离单元采用了残差结构,使用跳跃连接实现了恒等映射,不会产生额外参数及增加计算复杂度,可以增强网络的泛化能力,简化训练过程,并且很大程度上缓解了梯度消失和梯度爆炸等问题;
4、端到端目标声信号抽取模型无需预处理、推理时间短,在不同的音频类别时鲁棒性较好。
附图说明
图1为本发明实施例方法流程图;
图2为分离单元中每个卷积层的结构图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,本发明提供一种混音环境中的端到端目标声信号提取方法,包括:
S1:构建端到端目标声信号抽取模型,端到端目标声信号抽取模型包括:可学习编码单元、基于因果卷积机制的分离单元和可学习解码单元;
具体的,端到端目标声信号抽取模型的训练方式为:
收集目标声源的纯净声信号和目标声源的背景信号,将纯净声信号与背景信号进行混响处理生成混合声信号,由纯净声信号及对应的混合声信号为训练样本,得到训练数据集,将训练数据集划分为训练集和测试集;
利用训练集和测试集分别对初始的端到端目标声信号抽取模型进行训练和测试,在训练和测试结束后,获得训练好的端到端目标声信号抽取模型;
S2:获取声信号,将声信号输入可学习编码单元,通过可学习编码单元提取声信号的隐式声音特征图;
S3:将隐式声音特征图输入基于因果卷积机制的分离单元进行分离,获得掩码函数;
具体的,分离单元的每一层都由膨胀因子逐渐增加的一维卷积块组成,膨胀因子呈指数增长,以确保能包含足够大的时间上下文窗口,以利用声音信号的长时依赖性;在分离单元中,8个膨胀因子分别为1,2,4,⋯,2^7的卷积块被重复多次,每个块的输入都进行零填充,以确保输出长度与输入相同;分离单元的输出将被送到核大小为1的卷积块以估计掩码,1×1卷积块与非线性激活函数一起为目标信号估计获得掩码函数;
一维卷积块的设计应用了残差连接和跳跃连接:一个块的残差连接作为下一个块的输入,而所有块的跳跃连接总和作为分离单元的输出;为了进一步减少参数量,使用深度可分离卷积替代每个卷积块中的标准卷积,深度可分离卷积算子将标准卷积运算解耦为两个连续的运算,即深度方向卷积以及跟随其后的逐点卷积;
基于因果卷积机制的分离单元将对输入的隐式声音特征图进行掩蔽函数估计,最后输出特征图与掩蔽函数的点积实现对特征图的掩蔽;
S4:将隐式声音特征图和掩码函数输入可学习解码单元进行编码,获得重构声信号。
本实施例中,可学习编码单元继承了短时傅里叶变换的局部时频分析思想,克服了由于固定窗口导致的时频分辨率不能兼顾等问题;它可以更好地平衡时间分辨率和频率分辨率,获得声音信号中不同成分的信息;可学习解码单元是类似于短时傅里叶逆变换的违逆操作,克服了短时傅里叶逆变换需要相位信息的缺点;这一架构可以更好的对波形进行特征空间的映射和还原,所需要时间序列长度也更短,至少为1024个采样点;
可学习编码单元使用多组卷积核尺寸为16、重叠步长为8的一维卷积核对原始时域的声信号进行时域上的采样,最后经由归一化层和ReLU非线性激活函数形成一组非负的隐式声音特征图;
步骤S2具体为:
S21:获取声信号,声信号的波形信号表达式为:x∈R1×T,T为一维波形中每个通道的信号序列长度,R为实数集;
S22:可学习编码单元将声信号分割为长度为L的无重叠段,通过N个大小同为为L的卷积核对无重叠段进行采样操作,获得N个通道信息;
S23:将N个通道信息拼接为隐式声音特征图W,隐式声音特征图的表达式为:
其中,x为输入的声信号,ReLU为非线性激活函数,ConblD()为一维卷积运算函数;
具体的,用于确保特征向量的非负性,整个获得隐式声音特征图的过程可以由N个步长和卷积核大小同为L的一维卷积核来完成;输入的声信号x是输入长度为T的一维混合信号,所属向量空间表示为R1×T;隐式声音特征图W尺寸为N×M,所属向量空间表示为RN×M
本实施例中,可学习解码单元对经过分离单元处理获得的掩码函数进行卷积核尺寸为16、重叠步长为的8反卷积处理,最终实现目标声信号波形的重构,获得重构声信号;
步骤S4具体为:
S41:将基于因果卷积机制的分离单元获得的C个掩码函数与隐式声音特征图进行点积乘法,获得掩蔽后的特征图,计算公式为:
其中,W为隐式声音特征图,为Hadamard积,maski为掩码函数,i为掩码函数的编号;Wi为第i个声源估计的掩蔽后的特征图,Wi∈RN×M,N为通道信息的数量,M为掩蔽后的特征图中每个通道的信号序列长度,R为实数集;
S42:可学习解码单元通过转置卷积将掩蔽后的特征图还原为一维波形,计算公式为:
其中,xi为解码单元输出的第i个声源波形序列的一维波形,xi∈R1×T,T为一维波形中每个通道的信号序列长度,ConvlDTranspose()为转置卷积运算函数;
S43:可学习解码单元通过一维转置卷积运算将一维波形重构为重构声信号;在实际模型实现中,卷积层和转置卷积层可以更轻松地处理波形信号的分割和上下采样,从而实现更快的训练和更好的收敛性。
本实施例中,基于因果卷积机制的分离单元采用残差结构,具体为:
基于因果卷积机制的分离单元由上至下共包括8个卷积层,第一卷积层位于最上层,第一卷积层由一维卷积块组成,向下的每一层卷积层的卷积块均比上一层卷积层的卷积块多一维,第八卷积层位于最下层,第八卷积层由八维卷积块组成;其中每个卷积层的结构如图2所示。
本发明提供一种混音环境中的端到端目标声信号提取系统,包括:
模型构建模块,用于构建端到端目标声信号抽取模型,端到端目标声信号抽取模型包括:可学习编码单元、基于因果卷积机制的分离单元和可学习解码单元;
特征图提取模块,用于获取声信号,将声信号输入可学习编码单元,通过可学习编码单元提取声信号的隐式声音特征图;
分离模块,用于将隐式声音特征图输入基于因果卷积机制的分离单元进行分离,获得掩码函数;
重构模块,用于将隐式声音特征图和掩码函数输入可学习解码单元进行编码,获得重构声信号。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序,可将这些词语解释为标识。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (4)

1.一种混音环境中的端到端目标声信号提取方法,其特征在于,包括:
S1:构建端到端目标声信号抽取模型,端到端目标声信号抽取模型包括:可学习编码单元、基于因果卷积机制的分离单元和可学习解码单元;
S2:获取声信号,将声信号输入可学习编码单元,通过可学习编码单元提取声信号的隐式声音特征图;
S3:将隐式声音特征图输入基于因果卷积机制的分离单元进行分离,获得掩码函数;
S4:将隐式声音特征图和掩码函数输入可学习解码单元进行编码,获得重构声信号;
基于因果卷积机制的分离单元由上至下共包括8个卷积层,第一卷积层位于最上层,第一卷积层由一维卷积块组成,向下的每一层卷积层的卷积块均比上一层卷积层的卷积块多一维,第八卷积层位于最下层,第八卷积层由八维卷积块组成;
卷积层包括:特征图时域卷积和特征图通道域卷积。
2.根据权利要求1所述的混音环境中的端到端目标声信号提取方法,其特征在于,步骤S2具体为:
S21:获取声信号,声信号的波形信号表达式为:x∈R1×T,T为一维波形中每个通道的信号序列长度,R为实数集;
S22:可学习编码单元将声信号分割为长度为L的无重叠段,通过N个大小同为为L的卷积核对无重叠段进行采样操作,获得N个通道信息;
S23:将N个通道信息拼接为隐式声音特征图W,隐式声音特征图的表达式为:
其中,x为输入的声信号,ReLU为非线性激活函数,ConblD()为一维卷积运算函数。
3.根据权利要求1所述的混音环境中的端到端目标声信号提取方法,其特征在于,步骤S4具体为:
S41:将基于因果卷积机制的分离单元获得的C个掩码函数与隐式声音特征图进行点积乘法,获得掩蔽后的特征图,计算公式为:
其中,W为隐式声音特征图,为Hadamard积,maski为掩码函数,i为掩码函数的编号;Wi为第i个声源估计的掩蔽后的特征图,Wi∈RN×M,N为通道信息的数量,M为掩蔽后的特征图中每个通道的信号序列长度,R为实数集;
S42:可学习解码单元通过转置卷积将掩蔽后的特征图还原为一维波形,计算公式为:
其中,xi为解码单元输出的第i个声源波形序列的一维波形,xi∈R1×T,T为一维波形中每个通道的信号序列长度,ConvlDTranspose()为转置卷积运算函数;
S43:可学习解码单元通过一维转置卷积运算将一维波形重构为重构声信号。
4.一种混音环境中的端到端目标声信号提取系统,其特征在于,包括:
模型构建模块,用于构建端到端目标声信号抽取模型,端到端目标声信号抽取模型包括:可学习编码单元、基于因果卷积机制的分离单元和可学习解码单元;
特征图提取模块,用于获取声信号,将声信号输入可学习编码单元,通过可学习编码单元提取声信号的隐式声音特征图;
分离模块,用于将隐式声音特征图输入基于因果卷积机制的分离单元进行分离,获得掩码函数;
重构模块,用于将隐式声音特征图和掩码函数输入可学习解码单元进行编码,获得重构声信号;
基于因果卷积机制的分离单元由上至下共包括8个卷积层,第一卷积层位于最上层,第一卷积层由一维卷积块组成,向下的每一层卷积层的卷积块均比上一层卷积层的卷积块多一维,第八卷积层位于最下层,第八卷积层由八维卷积块组成;
卷积层包括:特征图时域卷积和特征图通道域卷积。
CN202310074334.2A 2023-02-07 2023-02-07 混音环境中的端到端目标声信号提取方法及系统 Active CN115810364B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310074334.2A CN115810364B (zh) 2023-02-07 2023-02-07 混音环境中的端到端目标声信号提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310074334.2A CN115810364B (zh) 2023-02-07 2023-02-07 混音环境中的端到端目标声信号提取方法及系统

Publications (2)

Publication Number Publication Date
CN115810364A CN115810364A (zh) 2023-03-17
CN115810364B true CN115810364B (zh) 2023-04-28

Family

ID=85487572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310074334.2A Active CN115810364B (zh) 2023-02-07 2023-02-07 混音环境中的端到端目标声信号提取方法及系统

Country Status (1)

Country Link
CN (1) CN115810364B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111326170A (zh) * 2020-02-20 2020-06-23 安徽大学 联合时频域扩张卷积的耳语音向正常音转换方法及其装置
CN111524530A (zh) * 2020-04-23 2020-08-11 广州清音智能科技有限公司 一种基于膨胀因果卷积的语音降噪方法
CN112634928A (zh) * 2020-12-08 2021-04-09 北京有竹居网络技术有限公司 声音信号处理方法、装置和电子设备
WO2022005615A1 (en) * 2020-06-30 2022-01-06 Microsoft Technology Licensing, Llc Speech enhancement
WO2022094293A1 (en) * 2020-10-29 2022-05-05 Dolby Laboratories Licensing Corporation Deep-learning based speech enhancement

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2068308B1 (en) * 2003-09-02 2010-06-16 Nippon Telegraph and Telephone Corporation Signal separation method, signal separation device, and signal separation program
US9460732B2 (en) * 2013-02-13 2016-10-04 Analog Devices, Inc. Signal source separation
US11373672B2 (en) * 2016-06-14 2022-06-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
JP6623376B2 (ja) * 2016-08-26 2019-12-25 日本電信電話株式会社 音源強調装置、その方法、及びプログラム
US10224058B2 (en) * 2016-09-07 2019-03-05 Google Llc Enhanced multi-channel acoustic models
US10672414B2 (en) * 2018-04-13 2020-06-02 Microsoft Technology Licensing, Llc Systems, methods, and computer-readable media for improved real-time audio processing
KR102460676B1 (ko) * 2019-05-07 2022-10-31 한국전자통신연구원 밀집 연결된 하이브리드 뉴럴 네트워크를 이용한 음성 처리 장치 및 방법
TWI718750B (zh) * 2019-11-07 2021-02-11 國立中央大學 來源分離方法、裝置及非暫態電腦可讀取媒體
ES2928295T3 (es) * 2020-02-14 2022-11-16 System One Noc & Dev Solutions S A Método de mejora de las señales de voz telefónica basado en redes neuronales convolucionales
US20210012767A1 (en) * 2020-09-25 2021-01-14 Intel Corporation Real-time dynamic noise reduction using convolutional networks
CN113314140A (zh) * 2021-05-31 2021-08-27 哈尔滨理工大学 一种端到端时域多尺度卷积神经网络的音源分离算法
CN114333852A (zh) * 2022-01-07 2022-04-12 厦门快商通科技股份有限公司 一种多说话人语音人声分离方法、终端设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111326170A (zh) * 2020-02-20 2020-06-23 安徽大学 联合时频域扩张卷积的耳语音向正常音转换方法及其装置
CN111524530A (zh) * 2020-04-23 2020-08-11 广州清音智能科技有限公司 一种基于膨胀因果卷积的语音降噪方法
WO2022005615A1 (en) * 2020-06-30 2022-01-06 Microsoft Technology Licensing, Llc Speech enhancement
WO2022094293A1 (en) * 2020-10-29 2022-05-05 Dolby Laboratories Licensing Corporation Deep-learning based speech enhancement
CN112634928A (zh) * 2020-12-08 2021-04-09 北京有竹居网络技术有限公司 声音信号处理方法、装置和电子设备
WO2022121799A1 (zh) * 2020-12-08 2022-06-16 北京有竹居网络技术有限公司 声音信号处理方法、装置和电子设备

Also Published As

Publication number Publication date
CN115810364A (zh) 2023-03-17

Similar Documents

Publication Publication Date Title
JP7337953B2 (ja) 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム
Huang et al. Singing-Voice Separation from Monaural Recordings using Deep Recurrent Neural Networks.
Liutkus et al. Gaussian processes for underdetermined source separation
CN109841226A (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
Pham et al. Robust acoustic scene classification using a multi-spectrogram encoder-decoder framework
Abouzid et al. Signal speech reconstruction and noise removal using convolutional denoising audioencoders with neural deep learning
CN112633175A (zh) 复杂环境下基于多尺度卷积神经网络单音符实时识别算法
Avci An expert system for speaker identification using adaptive wavelet sure entropy
CN116110405B (zh) 一种基于半监督学习的陆空通话说话人识别方法及设备
EP3392882A1 (en) Method for processing an input audio signal and corresponding electronic device, non-transitory computer readable program product and computer readable storage medium
Zhang et al. Temporal Transformer Networks for Acoustic Scene Classification.
Li et al. U-shaped transformer with frequency-band aware attention for speech enhancement
Şimşekli et al. Non-negative tensor factorization models for Bayesian audio processing
Han et al. Attention-based scaling adaptation for target speech extraction
CN115810364B (zh) 混音环境中的端到端目标声信号提取方法及系统
Reddy et al. Audioslots: A slot-centric generative model for audio separation
CN112289338A (zh) 信号处理方法及装置、计算机设备以及可读存储介质
CN115881156A (zh) 基于多尺度的多模态时域语音分离方法
Bouchakour et al. Noise-robust speech recognition in mobile network based on convolution neural networks
Chowdhury et al. Speech enhancement using k-sparse autoencoder techniques
Luo End-to-end speech separation with neural networks
Aihara et al. Deep clustering-based single-channel speech separation and recent advances
Wang et al. Parallel-Path Transformer Network for Time-Domain Monaural Speech Separation
Niu et al. Underdetermined blind speech source separation based on deep nearest neighbor clustering algorithm
CN114863939B (zh) 一种基于声音的大熊猫属性识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant