CN116403599A - 一种高效的语音分离方法及其模型搭建方法 - Google Patents
一种高效的语音分离方法及其模型搭建方法 Download PDFInfo
- Publication number
- CN116403599A CN116403599A CN202310663961.XA CN202310663961A CN116403599A CN 116403599 A CN116403599 A CN 116403599A CN 202310663961 A CN202310663961 A CN 202310663961A CN 116403599 A CN116403599 A CN 116403599A
- Authority
- CN
- China
- Prior art keywords
- voice
- network
- model
- information
- global
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 35
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 230000000694 effects Effects 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 13
- 230000010365 information processing Effects 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000002779 inactivation Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 3
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 9
- 238000002679 ablation Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 6
- 230000009977 dual effect Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 125000004122 cyclic group Chemical group 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 230000000712 assembly Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种高效的语音分离方法及其模型搭建方法,属于语音处理技术领域,模型搭建方法为:获取若干说话人的语音原始数据;对获取的原始数据进行预处理构建混合语音数据集;基于双路径网络结构,在保持采用双向长短期记忆网络处理局部信息的同时,采用一种全新的多分辨率重构注意力网络去处理全局信息,新构建为全局多分辨率重构局部循环网络模型,并对模型进行训练并选取分离效果最好的模型;模型搭建完成后用于混合语音分离。本发明提出的高效的语音分离模型,与其他先进模型相比,本发明计算效率有了明显提升,在语音分离精度和计算效率之间实现了良好的平衡。
Description
技术领域
本发明属于语音处理技术领域,尤其涉及一种高效的语音分离方法及其模型搭建方法。
背景技术
语音分离起源于著名的鸡尾酒会问题,即从多个说话者的混合语音信号中分离出单个语音信号。随着计算机算力的提升和数据可用性的增加,深度学习技术在语音分离方法上的应用也有了新的突破。目前,语音分离技术已应用于多种人机交互场景,例如:实时字幕显示、帮助听力受损用户听清外界声音的助听器、用户语音自动识别等场景中。虽然已经提出了很多分离效果较好的语音分离方法,但能高效的完成语音分离任务并取得较好的分离结果仍然是一个技术难题。
目前,先进的解决方案之一是基于时域的语音分离网络。它利用编码器-译码器结构,通过置换不变训练,直接从混合语音信号中获得重建的分离语音信号。为了达到良好的分离效果,就要处理好一个完整的长的输入序列。双路径循环网络提供了一个有效的双路径框架,通过将长编码的输入序列划分为较小的块对块内和块间信息进行处理。双路径循环网络由于具有学习长期时间依赖性的能力,在处理长序列时显示出明显高于以往模型的性能优势。目前,几个最先进的时域方法也将双路径框架作为一个外部框架。双路径注意力网络SepFormer模型是双路径循环网络的一个变体。它直接用注意力机制取代了双路径循环网络中的循环神经网络,以更高的计算成本实现了当前最好的分离性能。然而,这些方法的计算复杂性很高,需要的算力支持较大,不利于语音分离技术的实际应用,会阻碍其在多种设备上的广泛应用。
发明内容
针对上述问题,本发明第一方面提供了一种高效的语音分离模型搭建方法,包括以下步骤:
步骤1,获取若干说话人的语音原始数据,所述原始数据由多个说话人录音或下载获取;
步骤2,对步骤1中获取的原始数据进行预处理;随机选取两个不同说话人的语音信号进行处理,得到混合语音信号,构建混合语音数据集,并划分为训练集、验证集和测试集;
步骤3,基于双路径网络结构,在保持采用双向长短期记忆网络处理局部信息的同时,使用一种多分辨率重构注意力网络模块代替原有的循环神经网络模块,用于融合语音信号不同分辨率上的空间信息以充分学习语音信号的全局信息,搭建了一种全局多分辨率重构局部循环网络模型GMRLB;
步骤4,使用步骤2中所述的训练集对步骤3中所搭建的全局多分辨率重构局部循环网络模型进行训练;
步骤5,使用步骤2中所述的测试集对训练后的全局多分辨率重构局部循环网络模型进行测试,选取验证效果最好的模型作为最终模型。
优选的,所述步骤2中进行预处理的具体过程为:从原始数据中随机选取不同的说话人的语音信号,并随机采用在0dB到5dB之间不同信噪比的混合方式混合它们,生成两个说话人的混合语音,构建混合语音数据集,并划分为训练集、验证集和测试集。
优选的,所述搭建的全局多分辨率重构局部循环网络模型GMRLB的具体结构为:基于双路径网络结构进行改进,包括编码器、分离器、译码器;所述编码器包括一维卷积和线性整流单元,用于混合语音信号的特征提取;所述分离器包括分割模块、块处理模块和重叠相加模块,所述分割模块包括归一化层、一维卷积层和分割函数,用于方便后续环节轻松学习语音信号的局部信息和全局信息,所述块处理模块包括6个连续的局部全局信息交替处理模块,用于更充分的学习语音信号的局部信息和全局信息,每个信息交替处理模块包含两个建模视角,第一个建模视角负责对输入信号的局部信息进行循环建模,第二个建模视角旨在通过多分辨率重构注意力网络捕获全局依赖关系,以方便更充分的学习语音信号的局部信息和全局信息,其中,局部信息处理模块采用双向长短期记忆网络学习语音信号的局部信息,全局信息处理模块采用新设计的多分辨率重构注意力网络学习语音信号的全局信息,所述重叠相加模块包括参数修正线性单元、二维卷积层、重叠相加函数、Sigmoid激活函数、Tanh激活函数、一维卷积层和线性整流,用于得到每个说话人的掩码用于混合语音分离;所述译码器采用一个转置卷积层来获得分离后的语音。
优选的,所述多分辨率重构注意力网络模块是指经过调制后的不同分辨率的输入信号的融合模块;
其中不同分辨率的输入信号有两个,包括输入信号和经过对半下采样的输入信号/>;调制信号有两个,一是从融合了不同分辨率的输入信号的信息里提取的注意力信号/>,二是将提取的注意力信号和经过下采样的输入信号融合后依次经过激活函数激活和上采样得到的/>,所述调制信号可由如下公式表示:
所述注意力提取模块包括一个多头注意力层和一个前馈网络层;所述多头注意力层的头数为8,随机失活率dropout设置为0.1;所述前馈网络层包括两个一维卷积层、两个归一化层、一个膨胀卷积层、一个线性整流单元以及一个随机失活dropout层。
优选的,所述步骤2中,训练集和验证集的语音信号音频采样频率为8kHz,采样长度为4s;其中语音长度不足4s的补零,语音长度大于4s的从语音开始截取4s。
优选的,所述局部信息处理模块由双向长短期记忆网络和残差网络构成;所述双向长短期记忆网络的输入通道数为128,隐藏层通道数为128;所处残差网络用于解决梯度消失问题。
本发明第二方面提供了一种高效的语音分离方法,其特征在于,包括以下过程:
获取包含有两个说话人的混合语音;
将混合语音输入到如第一方面所述的搭建方法所搭建的语音分离模型中;
输出分离后的每个说话人对应的干净语音。
本发明第三方面还提供了一种高效的语音分离设备,所述设备包括至少一个处理器和至少一个存储器,所述处理器和存储器相耦合;所述存储器中存储有如第一方面所述的搭建方法所搭建的语音分离模型的计算机执行程序;所述处理器执行存储器中存储的计算机执行程序时,可以使处理器执行一种高效的语音分离方法。
本发明第四方面还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有如第一方面所述搭建方法所搭建的语音分离模型的计算机执行程序,所述计算机执行程序被处理器执行时,可以实现一种高效的语音分离方法。
与现有技术相比,本发明具有如下有益效果:
本发明提出使用全局多分辨率重建局部双向长短期记忆网络模型进行语音分离的实现过程,相比于双路径注意力网络SepFormer模型更充分的结合了语音信号的信道信息和空间信息,充分发挥了循环神经网络对短序列的学习能力以及注意力网络捕获长范围内顺序数据中的上下文信息的学习优势;相比于目前效果最好的双路径时域语音分离模型,本发明在精度和效率之间实现了良好的权衡,在不损失太多分离精度的同时,大幅度提高了模型的训练和推理效率。
附图说明
图1为本发明提出的语音分离模型的整体结构示意图。
图2为语音分离网络编码器模块结构图。
图3为分割模块结构图。
图4为局部信息处理模块结构图。
图5为全局信息处理模块结构图。
图6为注意力提取模块结构图。
图7为注意力提取模块前馈网络结构图。
图8为重叠相加模块结构图。
图9为语音分离网络译码器模块结构图。
图10为本发明提出的语音分离模型处理流程图。
图11为实施例2中语音分离设备的简易结构示意图。
具体实施方式
下面结合具体实施例对发明进行进一步说明。
实施例1:
本发明提出了一种高效的语音分离方法,主要包括以下步骤:
步骤1,获取若干说话人的语音原始数据,所述原始数据由多个说话人录音或下载获取;
步骤2,对步骤1中获取的原始数据进行预处理;随机选取两个不同说话人的语音信号进行处理,得到混合语音信号,构建混合语音数据集,并划分为训练集、验证集和测试集;
步骤3,基于双路径网络结构,在保持采用双向长短期记忆网络处理局部信息的同时,使用一种多分辨率重构注意力网络模块代替原有的循环神经网络模块,用于融合语音信号不同分辨率上的空间信息以充分学习语音信号的全局信息,搭建了一种全局多分辨率重构局部循环网络模型GMRLB;
步骤4,使用步骤2中所述的训练集对步骤3中所搭建的全局多分辨率重构局部循环网络模型进行训练;
步骤5,使用步骤2中所述的测试集对训练后的全局多分辨率重构局部循环网络模型进行测试,选取验证效果最好的模型作为最终模型。
本实施例采用的数据集包含30小时的训练集、10小时的验证集和5小时的测试集,所有混合音频都是通过随机组合来自不同说话人的声音来模拟的,采样率为8kHz,混合信噪比在0dB和5dB之间。
1. 获取原始数据
按照深度聚类语音分离方法中所描述的数据集混合方式,从数据集中随机选择不同说话者的话语,并通过以0dB和5dB之间的各种信噪比混合它们生成所需训练集、验证集以及测试集。
2.数据预处理
3.模型搭建
本发明中,基于双路径网络结构进行改进,搭建了一种全局多分辨率重构局部循环网络模型GMRLB,在保持采用双向长短期记忆网络处理局部信息的同时,使用一种多分辨率重构注意力网络模块代替原有的循环神经网络模块,用于融合语音信号不同分辨率上的空间信息以充分学习语音信号的全局信息,GMRLB模型具体结构如图1所示,包括编码器、分离器和译码器。
编码器由一个输入通道数为1、输出通道数为256的卷积核大小为16、步长为8的一维卷积和线性整流单元(ReLU)激活函数组成,用于混合语音信号的特征提取,具体结构如图2所示;
分离器包括分割模块块处理模块,重叠相加模块;
分割模块由归一化层,一个输入通道数为256、输出通道数为128的卷积核大小为1、步长为1的一维卷积层,块大小为100的分割函数组成,旨在方便后续环节轻松学习语音信号的局部信息和全局信息,具体结构如图3所示;
块处理模块包括6个连续的局部全局信息交替处理模块,用于更充分的学习语音信号的局部信息和全局信息,每个信息交替处理模块包含两个建模视角,第一个建模视角负责对输入信号的局部信息进行循环建模,第二个建模视角旨在通过多分辨率重构注意力网络捕获全局依赖关系,以方便更充分的学习语音信号的局部信息和全局信息,其中,局部信息处理模块采用双向长短期记忆网络学习语音信号的局部信息,全局信息处理模块采用新设计的多分辨率重构注意力网络学习语音信号的全局信息;
局部信息处理模块采用输入通道数为128、隐藏层通道数为128、随机失活dropout为0的双向长短期记忆网络在每个长度为100的块内学习语音信号的局部信息,具体结构如图4所示;
全局信息处理模块采用新设计的多分辨率重构注意力网络学习语音信号的全局信息,它将经过调制后的不同分辨率的输入信号进行融合学习,具体结构如图5所示;不同分辨率的输入信号有两个,包括输入信号和经过输入、输出通道数均为128、卷积核为5,步幅为2的一维卷积下采样得到的输入信号/>;调制信号有两个,一是从融合了不同分辨率的输入信号的信息里提取的注意力信号/>,二是将提取的注意力信号和经过下采样的输入信号融合后依次经过激活函数激活和上采样得到的/>,所述调制信号可由如下公式表示:
注意力提取模块包括一个多头注意力层和一个前馈网络层,具体结构如图6所示;多头注意力层的头数为8,随机失活dropout设置为0.1;前馈网络层包括一个输入通道为128、输出通道为256、卷积核大小为1、步幅为1的一维卷积层,一个归一化层,一个输入、输出通道均为256、卷积核大小为5、步幅为1的卷积层、一个线性整流单元以及一个0.1的随机失活dropout层,一个输入通道数为256、输出通道数为128、卷积核大小为1、步幅为1的一维卷积层,一个归一化层,具体结构见附图7;
重叠相加模块由一个参数修正线性单元(PReLU)激活函数,一个输入通道为128、输出通道为256、卷积核大小为1、步幅为1的二维卷积层,重叠相加函数,一个输入通道数为128、输出通道数为128、卷积核大小为1、步幅为1的一维卷积层后加Sigmoid激活函数,一个输入通道数为128、输出通道数为128、卷积核大小为1、步幅为1的一维卷积层后加Tanh激活函数,一个输入通道数为128、输出通道数为256、卷积核大小为1、步幅为1的一维卷积层和一个线性整流单元组成,旨在得到每个说话人的掩码用于混合语音分离,具体结构见附图8;
译码器采用一个输入通道数为256、输出通道数为1、卷积核大小为16、步幅为8的转置卷积层来获得分离后的语音,具体结构如图9所示。
4.模型训练
本实施例中一种高效的语音分离方法的实现平台基于Linux操作系统,编程语言为Python3.7、深度学习框架是Pytorch1.10.1,CUDA版本为11.1。使用Adam作为优化器,学习率为0.00015,批次大小为1,在第85轮后,如果我们观察到连续两轮的验证性能没有改善,学习率将减半。通过梯度剪裁,梯度的L2准则被限制在5。系统在一个拥有32GB内存的NVIDIA GTX 1080Ti GPU上训练了200轮,每轮大约需要1.5小时。
5.实验结果
本实施例中对比了本发明全局多分辨率重构局部循环网络模型GMRLB与最近表现很好的语音分离模型的分离性能,同时对比了改进模型与基础模型的分离表现,验证本发明所提方案的有效性。本发明给出了尺度不变信噪比提升(SI-SNRi)和信噪比改善(SDRi)作为分离精度的客观衡量标准;用参数数量来衡量模型大小;训练时模型的乘积操作(MACs)的数量展现了模型的复杂度;为了衡量模型的效率,本发明报告了下,模型在实际测试中的每秒钟的处理时间消耗,表示为 "Time",它是通过将模型对测试集的总推理时间除以总测试时间得到的,以及实际测试中GPU的运行内存。分离后语音的评价指标结果如表1所示:
表 1 分离精度及模型大小对比结果
从表1中可以看出,本发明只用了2.9M的参数,SI-SNRi达到18.7dB,SDRi达到19.0dB。与与双路径循环神经网络DPRNN相比,本发明在几乎相同的参数数量下实现了相同的分离精度,而双路径注意力网络SepFormer比本发明取得了更高的SI-SNRi和SDRi值。然而,它们是以更高的计算成本实现的。此外,SepFormer的参数明显多于本发明。模型复杂度及推理效率对比如表2所示:
表 2 模型复杂度及推理效率对比
从复杂度上来看,本发明的计算复杂度大约仅为上述两种方法的11.6%;从模型效率上看,DPRNN使用的GPU内存大约是本发明的3倍;DPRNN消耗的GPU时间大约是本发明的4.5倍;Sepformer在推理过程中使用的GPU内存是本发明的2倍;Sepformer消耗的GPU时间是本发明的2.2倍。
综上所述,与其他先进模型相比,本发明在语音分离精度和计算效率之间实现了良好的平衡,即使在有限的计算资源下也能取得良好的分离效果。
消融实验:
为了明确调制信号在本发明中的贡献,本实施例进行了消融实验,研究如何选择合适的调制信号来构建用于说话人分离任务的语音分离模型。消融实验也是在同一数据集上进行的上进行的。消融结果显示在表3中,它比较了本发明GMRLB的不同变体:1.没有调制信号的GMRLB;2.只有调制信号m1的GMRLB;3.只有调制信号m2的GMRLB。消融实验结果如表3所示:
表 3 消融实验结果
与本发明的完整结构相比,没有调制信号,SI-SNRi的得分下降了1.1dB,SDRi的得分下降了1.2dB。而只有调制信号m1,SI-SNRi的得分下降了0.6dB,SDRi的得分下降了0.7dB。而只有调制信号m2时,SI -SNRi的得分下降了0.8dB,SDRi的得分下降了0.9dB。
可以看出,上述每一个组成部分都对本发明的性能增益做出了贡献。
在不同的应用场景中,可以使用本发明中所搭建的语音分离模型进行语音分离,具体过程如图10所示:
获取包含有两个说话人的混合语音;
将混合语音输入到本实施例的方法所搭建的语音分离模型中;
输出分离后的每个说话人对应的干净语音。
实施例2:
如图11所示,本发明同时提供了一种高效的语音分离设备,设备包括至少一个处理器和至少一个存储器,同时还包括通信接口和内部总线;存储器中存储有计算机执行程序;存储器中存储有如实施例1所述的搭建方法所搭建的语音分离模型的计算机执行程序;所述处理器执行存储器中存储的计算机执行程序时,可以使处理器执行一种高效的语音分离方法。其中内部总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(.XtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。其中存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
设备可以被提供为终端、服务器或其它形态的设备。
图11是为示例性示出的一种设备的框图。设备可以包括以下一个或多个组件:处理组件,存储器,电源组件,多媒体组件,音频组件,输入/输出(I/O)的接口,传感器组件,以及通信组件。处理组件通常控制电子设备的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件可以包括一个或多个处理器来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件可以包括一个或多个模块,便于处理组件和其他组件之间的交互。例如,处理组件可以包括多媒体模块,以方便多媒体组件和处理组件之间的交互。
存储器被配置为存储各种类型的数据以支持在电子设备的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件为电子设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。多媒体组件包括在所述电子设备和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件包括一个前置摄像头和/或后置摄像头。当电子设备处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件被配置为输出和/或输入音频信号。例如,音频组件包括一个麦克风(MIC),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中,音频组件还包括一个扬声器,用于输出音频信号。 I/O接口为处理组件和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件包括一个或多个传感器,用于为电子设备提供各个方面的状态评估。例如,传感器组件可以检测到电子设备的打开/关闭状态,组件的相对定位,例如所述组件为电子设备的显示器和小键盘,传感器组件还可以检测电子设备或电子设备一个组件的位置改变,用户与电子设备接触的存在或不存在,电子设备方位或加速/减速和电子设备的温度变化。传感器组件可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
实施例3:
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有如实施例1所述搭建方法所搭建的轻量化目标检测神经网络模型的计算机执行程序,所述计算机执行程序被处理器执行时,可以实现无人机海洋检测图像的实时在线分析。
具体地,可以提供配有可读存储介质的系统、装置或设备,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统、装置或设备的计算机或处理器读出并执行存储在该可读存储介质中的指令。在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘(如 CD-ROM、CD-R、CD-RW、DVD- 20 ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带等。存储介质可以是通用或专用计算机能够存取的任何可用介质。
应理解,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
应理解存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称:ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于终端或服务器中。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述虽然对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.一种高效的语音分离模型搭建方法,其特征在于,包括以下步骤:
步骤1,获取若干说话人的语音原始数据,所述原始数据由多个说话人录音或下载获取;
步骤2,对步骤1中获取的原始数据进行预处理;随机选取两个不同说话人的语音信号进行处理,得到混合语音信号,构建混合语音数据集,并划分为训练集、验证集和测试集;
步骤3,基于双路径网络结构,在保持采用双向长短期记忆网络处理局部信息的同时,使用一种多分辨率重构注意力网络模块代替原有的循环神经网络模块,用于融合语音信号不同分辨率上的空间信息以充分学习语音信号的全局信息,搭建了一种全局多分辨率重构局部循环网络模型GMRLB;
步骤4,使用步骤2中所述的训练集对步骤3中所搭建的全局多分辨率重构局部循环网络模型进行训练;
步骤5,使用步骤2中所述的测试集对训练后的全局多分辨率重构局部循环网络模型进行测试,选取验证效果最好的模型作为最终模型。
2.如权利要求1所述的一种高效的语音分离模型搭建方法,其特征在于,所述步骤2中进行预处理的具体过程为:从原始数据中随机选取不同的说话人的语音信号,并随机采用在0dB到5dB之间不同信噪比的混合方式混合它们,生成两个说话人的混合语音,构建混合语音数据集,并划分为训练集、验证集和测试集。
3.如权利要求1所述的一种高效的语音分离模型搭建方法,其特征在于,所述搭建的全局多分辨率重构局部循环网络模型GMRLB的具体结构为:基于双路径网络结构进行改进,包括编码器、分离器、译码器;所述编码器包括一维卷积和线性整流单元,用于混合语音信号的特征提取;所述分离器包括分割模块、块处理模块和重叠相加模块,所述分割模块包括归一化层、一维卷积层和分割函数,用于后续环节轻松学习语音信号的局部信息和全局信息,所述块处理模块包括6个连续的局部全局信息交替处理模块,用于更充分的学习语音信号的局部信息和全局信息,每个信息交替处理模块包含两个建模视角,第一个建模视角负责对输入信号的局部信息进行循环建模,第二个建模视角旨在通过多分辨率重构注意力网络捕获全局依赖关系,以方便更充分的学习语音信号的局部信息和全局信息,其中,局部信息处理模块采用双向长短期记忆网络学习语音信号的局部信息,全局信息处理模块采用新设计的多分辨率重构注意力网络学习语音信号的全局信息,所述重叠相加模块包括参数修正线性单元、二维卷积层、重叠相加函数、Sigmoid激活函数、Tanh激活函数、一维卷积层和线性整流,用于得到每个说话人的掩码用于混合语音分离;所述译码器采用一个转置卷积层来获得分离后的语音。
4.如权利要求1所述的一种高效的语音分离模型搭建方法,其特征在于,所述多分辨率重构注意力网络模块是指经过调制后的不同分辨率的输入信号的融合模块;
其中不同分辨率的输入信号有两个,包括输入信号和经过对半下采样的输入信号;调制信号有两个,一是从融合了不同分辨率的输入信号的信息里提取的注意力信号,二是将提取的注意力信号和经过下采样的输入信号融合后依次经过激活函数激活和上采样得到的/>,所述调制信号可由如下公式表示:
所述注意力提取模块包括一个多头注意力层和一个前馈网络层;所述多头注意力层的头数为8,随机失活率dropout设置为0.1;所述前馈网络层包括两个一维卷积层、两个归一化层、一个膨胀卷积层、一个线性整流单元以及一个随机失活dropout层。
6.如权利要求1所述的一种高效的语音分离模型搭建方法,其特征在于:所述步骤2中,训练集和验证集的语音信号音频采样频率为8kHz,采样长度为4s;其中语音长度不足4s的补零,语音长度大于4s的从语音开始截取4s。
7.如权利要求3所述的一种高效的语音分离模型搭建方法,其特征在于:所述局部信息处理模块由双向长短期记忆网络和残差网络构成;所述双向长短期记忆网络的输入通道数为128,隐藏层通道数为128;所述残差网络用于解决梯度消失问题。
8.一种高效的语音分离方法,其特征在于,包括以下过程:
获取包含有两个说话人的混合语音;
将混合语音输入到如权利要求1至7任意一项所述的搭建方法所搭建的语音分离模型中;
输出分离后的每个说话人对应的干净语音。
9.一种高效的语音分离设备,其特征在于:所述设备包括至少一个处理器和至少一个存储器,所述处理器和存储器相耦合;所述存储器中存储有如权利要求1至7任意一项所述的搭建方法所搭建的语音分离模型的计算机执行程序;所述处理器执行存储器中存储的计算机执行程序时,可以使处理器执行一种高效的语音分离方法。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有如权利要求1至7任意一项所述搭建方法所搭建的语音分离模型的计算机执行程序,所述计算机执行程序被处理器执行时,可以实现一种高效的语音分离方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310663961.XA CN116403599B (zh) | 2023-06-07 | 2023-06-07 | 一种高效的语音分离方法及其模型搭建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310663961.XA CN116403599B (zh) | 2023-06-07 | 2023-06-07 | 一种高效的语音分离方法及其模型搭建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116403599A true CN116403599A (zh) | 2023-07-07 |
CN116403599B CN116403599B (zh) | 2023-08-15 |
Family
ID=87016485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310663961.XA Active CN116403599B (zh) | 2023-06-07 | 2023-06-07 | 一种高效的语音分离方法及其模型搭建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116403599B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117877504A (zh) * | 2024-03-11 | 2024-04-12 | 中国海洋大学 | 一种联合语音增强方法及其模型搭建方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6370502B1 (en) * | 1999-05-27 | 2002-04-09 | America Online, Inc. | Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec |
US20150025881A1 (en) * | 2013-07-19 | 2015-01-22 | Audience, Inc. | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
CN111179962A (zh) * | 2020-01-02 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 语音分离模型的训练方法、语音分离方法及装置 |
CN112151040A (zh) * | 2020-09-27 | 2020-12-29 | 湖北工业大学 | 一种基于端到端联合优化及决策的鲁棒性说话人识别方法 |
CN115101085A (zh) * | 2022-06-09 | 2022-09-23 | 重庆理工大学 | 一种卷积增强外部注意力的多说话人时域语音分离方法 |
US20220331550A1 (en) * | 2019-12-31 | 2022-10-20 | Huawei Technologies Co., Ltd. | Intelligent control apparatus and control method therefor, and intelligent wearable device |
CN115641868A (zh) * | 2022-09-09 | 2023-01-24 | 北京达佳互联信息技术有限公司 | 音频分离方法、装置、电子设备及计算机可读存储介质 |
US20230090763A1 (en) * | 2020-02-13 | 2023-03-23 | Muhammed Zahid Ozturk | Method, apparatus, and system for voice activity detection based on radio signals |
CN116168717A (zh) * | 2022-12-28 | 2023-05-26 | 阿里巴巴达摩院(杭州)科技有限公司 | 语音分离方法 |
-
2023
- 2023-06-07 CN CN202310663961.XA patent/CN116403599B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6370502B1 (en) * | 1999-05-27 | 2002-04-09 | America Online, Inc. | Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec |
US20150025881A1 (en) * | 2013-07-19 | 2015-01-22 | Audience, Inc. | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
US20220331550A1 (en) * | 2019-12-31 | 2022-10-20 | Huawei Technologies Co., Ltd. | Intelligent control apparatus and control method therefor, and intelligent wearable device |
CN111179962A (zh) * | 2020-01-02 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 语音分离模型的训练方法、语音分离方法及装置 |
US20230090763A1 (en) * | 2020-02-13 | 2023-03-23 | Muhammed Zahid Ozturk | Method, apparatus, and system for voice activity detection based on radio signals |
CN112151040A (zh) * | 2020-09-27 | 2020-12-29 | 湖北工业大学 | 一种基于端到端联合优化及决策的鲁棒性说话人识别方法 |
CN115101085A (zh) * | 2022-06-09 | 2022-09-23 | 重庆理工大学 | 一种卷积增强外部注意力的多说话人时域语音分离方法 |
CN115641868A (zh) * | 2022-09-09 | 2023-01-24 | 北京达佳互联信息技术有限公司 | 音频分离方法、装置、电子设备及计算机可读存储介质 |
CN116168717A (zh) * | 2022-12-28 | 2023-05-26 | 阿里巴巴达摩院(杭州)科技有限公司 | 语音分离方法 |
Non-Patent Citations (2)
Title |
---|
EFTHYMIOS TZINIS ET AL.: "SUDO RM -RF: EFFICIENT NETWORKS FOR UNIVERSAL AUDIO SOURCE SEPARATION", 《ARXIV》 * |
JINGJING CHEN ET AL.: "Dual-Path Transformer Network: Direct Context-Aware Modeling for End-to-End Monaural Speech Separation", 《ARXIV》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117877504A (zh) * | 2024-03-11 | 2024-04-12 | 中国海洋大学 | 一种联合语音增强方法及其模型搭建方法 |
CN117877504B (zh) * | 2024-03-11 | 2024-05-24 | 中国海洋大学 | 一种联合语音增强方法及其模型搭建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116403599B (zh) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109801644B (zh) | 混合声音信号的分离方法、装置、电子设备和可读介质 | |
Czyzewski et al. | An audio-visual corpus for multimodal automatic speech recognition | |
CN107291690B (zh) | 标点添加方法和装置、用于标点添加的装置 | |
CN103650035B (zh) | 经由社交图谱、语音模型和用户情境识别接近移动装置用户的人 | |
US20190378494A1 (en) | Method and apparatus for outputting information | |
CN111754267B (zh) | 基于区块链的数据处理方法及系统 | |
CN112185389A (zh) | 语音生成方法、装置、存储介质和电子设备 | |
CN113362812B (zh) | 一种语音识别方法、装置和电子设备 | |
CN116403599B (zh) | 一种高效的语音分离方法及其模型搭建方法 | |
CN113707134B (zh) | 一种模型训练方法、装置和用于模型训练的装置 | |
CN112837669B (zh) | 语音合成方法、装置及服务器 | |
CN116129931B (zh) | 一种视听结合的语音分离模型搭建方法及语音分离方法 | |
CN115312068B (zh) | 语音控制方法、设备及存储介质 | |
CN113177538A (zh) | 一种视频循环识别方法、装置、计算机设备及存储介质 | |
CN114401417A (zh) | 直播流对象跟踪方法及其装置、设备、介质 | |
CN108322770A (zh) | 视频节目识别方法、相关装置、设备和系统 | |
CN117593473A (zh) | 动作图像与视频生成方法、设备与存储介质 | |
CN113113040B (zh) | 音频处理方法及装置、终端及存储介质 | |
CN111899747B (zh) | 用于合成音频的方法和装置 | |
CN114694685A (zh) | 语音质量评估方法、装置及存储介质 | |
CN113889070A (zh) | 一种语音合成方法、装置和用于语音合成的装置 | |
CN116074574A (zh) | 一种视频处理方法、装置、设备及存储介质 | |
CN112434714A (zh) | 多媒体识别的方法、装置、存储介质及电子设备 | |
CN117854535B (zh) | 基于交叉注意力的视听语音增强方法及其模型搭建方法 | |
CN116597268B (zh) | 一种高效的多聚焦图像融合方法及其模型搭建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |