CN111370032B - 语音分离方法、系统、移动终端及存储介质 - Google Patents
语音分离方法、系统、移动终端及存储介质 Download PDFInfo
- Publication number
- CN111370032B CN111370032B CN202010106054.1A CN202010106054A CN111370032B CN 111370032 B CN111370032 B CN 111370032B CN 202010106054 A CN202010106054 A CN 202010106054A CN 111370032 B CN111370032 B CN 111370032B
- Authority
- CN
- China
- Prior art keywords
- sample audio
- network
- attention
- decoding
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 94
- 238000001228 spectrum Methods 0.000 claims abstract description 47
- 230000009467 reduction Effects 0.000 claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 230000007246 mechanism Effects 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims description 27
- 230000003595 spectral effect Effects 0.000 claims description 24
- 230000004913 activation Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 8
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 241000288105 Grus Species 0.000 claims description 5
- 238000005538 encapsulation Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 12
- 238000012360 testing method Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种语音分离方法、系统、移动终端及存储介质,该方法包括:获取左声道样本音频和右声道样本音频进行合并,得到组合样本音频;构建编码网络,将组合频谱的频谱特征输入编码网络进行降维编码,得到降维特征;采用注意力机制对降维特征进行注意力计算,得到注意力概率值,将注意力概率值输入解码网络进行解码,得到频谱解码结果;计算频谱解码结果与样本音频的频谱特征之间的损失值,根据损失值对编码网络和解码网络进行模型迭代训练,得到语音分离模型;将待识别语音输入语音分离模型进行语音分离,得到左声道音频文件和右声道音频文件。本发明通过采用端到端模型实现语音数据中的人声分离效果,提高了语音分离的准确性。
Description
技术领域
本发明属于语音分离技术领域,尤其涉及一种语音分离方法、系统、移动终端及存储介质。
背景技术
现在越来越多的人通过电话来进行沟通与交流,但是沟通双方在电话中交流的语音通常是合在同一个音频通道当中,所以需要将两个人的音频从单通道分别提取出来,以方便后续对应的进行语音识别和声纹识别。
现有的语音离方法是通过切分语音中静音段,将当前整段音频切分为多个独立的音频片段,然后对所有的音频片段进行聚类,聚类的类别数量为两类,聚类完成后再将两类音频的对应音频片段拼接成完整的音频,从而进行语音识别或声纹识别。
现有的语音分离方法使用过程中,静音段切分难度较大,通常会受到噪声的干扰导致误判,最终聚类的效果也会收到很大程度的影响,进而导致语音分离效果较差,仅适用于质量较高的电话通话音频。
发明内容
本发明实施例的目的在于提供一种语音分离方法、系统、移动终端及存储介质,旨在解决现有的语音分离过程中语音分离效果差的问题。
本发明实施例是这样实现的,一种语音分离方法,所述方法包括:
获取左声道样本音频和右声道样本音频,并将所述左声道样本音频和所述右声道样本音频进行合并,得到组合样本音频;
构建编码网络,将所述组合样本音频的频谱特征输入所述编码网络进行降维编码,得到降维特征;
采用注意力机制对所述降维特征进行注意力计算,得到注意力概率值,并构建解码网络,将所述注意力概率值输入所述解码网络进行解码,得到频谱解码结果;
计算所述频谱解码结果与所述左声道样本音频和所述右声道样本音频的频谱特征之间的损失值,并根据所述损失值对所述编码网络和所述解码网络进行模型迭代训练,以得到语音分离模型;
将待识别语音输入所述语音分离模型进行语音分离,以得到左声道音频文件和右声道音频文件。
更进一步的,所述构建编码网络的步骤包括:
构建prenet网络,并在所述prenet网络后构建CBHG网络,所述prenet网络包括三个全连接层,所述CBHG网络依序包括第一卷积层、池化层、第二卷积层和第三卷积层,所述第二卷积层和第三卷积层均为一维卷积层,且所述第二卷积层和所述第三卷积层的filter大小为3,stride为1,所述第二卷积层采用的激活函数为ReLu,所述第三卷积层未采用激活函数。
更进一步的,所述将所述组合样本音频的频谱特征输入所述编码网络进行降维编码的步骤包括:
将所述组合样本音频的频谱特征输入所述全连接层进行处理,并将处理结果依序通过所述第一卷积层、所述池化层、所述第二卷积层和所述第三卷积层处理,得到卷积输出结果;
对所述卷积输出结果进行残余连接处理,并将处理结果输入双向RNN网络,以得到所述降维特征。
更进一步的,所述对所述卷积输出结果进行残余连接处理的步骤包括:
对所述卷积输出结果进行序列相加,并将相加结果输入到两个一层的全连接网络中进行处理,所述两个一层的全连接网络的激活函数分别采用了ReLu和sigmoid函数。
更进一步的,所述采用注意力机制对所述降维特征进行注意力计算的步骤包括:
构建GRU循环网络,并根据AttentionWrapper函数对所述GRU循环网络进行自注意力封装;
将所述降维特征输入封装后的所述GRU循环网络进行数据计算,得到注意力概率值。
更进一步的,所述解码网络包括pre-net、Attention-RNN和Decoder-RNN,pre-net用于通过全连接网络对输入数据进行非线性变换;
Attention-RNN的结构为一层包含256个GRU的RNN,Attention-RNN用于将pre-net的输出和Attention的输出作为输入,并将输入经过GRU单元后输出到Decoder-RNN中;
Decoder-RNN为两层residual GRU,Decoder-RNN的输出为输入与经过GRU单元输出之间的和,每层residual GRU均包含256个GRU单元。
更进一步的,所述计算所述频谱解码结果与所述左声道样本音频和所述右声道样本音频的频谱特征之间的损失值的步骤包括:
根据MATLAB函数对所述频谱解码结果进行维度转换,得到左声道预测特征和右声道预测特征;
根据欧式距离公式分别进行所述左声道预测特征与所述左声道样本音频的频谱特征之间、所述右声道预测特征与所述右声道样本音频的频谱特征之间的损失计算,以得到所述损失值。
本发明实施例的另一目的在于提供一种语音分离系统,所述系统包括:
样本音频获取模块,用于获取左声道样本音频和右声道样本音频,并将所述左声道样本音频和所述右声道样本音频进行合并,得到组合样本音频;
特征降维模块,用于构建编码网络,将所述组合样本音频的频谱特征输入所述编码网络进行降维编码,得到降维特征;
特征解码模块,用于采用注意力机制对所述降维特征进行注意力计算,得到注意力概率值,并构建解码网络,将所述注意力概率值输入所述解码网络进行解码,得到频谱解码结果;
迭代训练模块,用于计算所述频谱解码结果与所述左声道样本音频和所述右声道样本音频的频谱特征之间的损失值,并根据所述损失值对所述编码网络和所述解码网络进行模型迭代训练,以得到语音分离模型;
语音分离模块,用于将待识别语音输入所述语音分离模型进行语音分离,以得到左声道音频文件和右声道音频文件。
本发明实施例的另一目的在于提供一种移动终端,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行上述的语音分离方法。
本发明实施例的另一目的在于提供一种存储介质,其存储有上述的移动终端中所使用的计算机程序,该计算机程序被处理器执行时实现上述的语音分离方法的步骤。
本发明实施例,通过基于编码网络-解码网络的设计,以采用端到端模型实现语音数据中的人声分离效果,提高了语音分离的准确性,简化了语音分离的步骤,实现了输入原始语音数据,输出即为分开后的两个声道音频数据的效果,提高了用户的使用体验。
附图说明
图1是本发明第一实施例提供的语音分离方法的流程图;
图2是本发明第二实施例提供的语音分离方法的流程图;
图3是本发明第三实施例提供的语音分离系统的结构示意图;
图4是本发明第四实施例提供的移动终端的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一
请参阅图1,是本发明第一实施例提供的语音分离方法的流程图,包括步骤:
步骤S10,获取左声道样本音频和右声道样本音频,并将所述左声道样本音频和所述右声道样本音频进行合并,得到组合样本音频;
其中,通过采集真实场景中的电话音频以得到左声道样本音频和右声道样本音频,该步骤中,通过电话的录音功能将电话通话音频进行保存,但是要求保存到的通话音频为双声道的,即左声道为一个人的通话,右声道为另一个人的通话,并录制1万条的通话音频,每条通话音频为2分钟左右;
具体的,该步骤中,将所有的双通道通话音频合并为单通道音频,即将两个人的各自的通话合并在一起,将合并后的音频存放到一个目录中,接着将所有的双通道音频的各个通道拆分开进行保存,所有的左通道音频保存到一个目录当中,所有的右通道音频保存到一个目录当中,因此,能够拿到3种音频,分别为双通道合并之后的组合样本音频、通道拆解后保存的左声道样本音频和通道拆解后保存的右声道样本音频,该组合样本音频将会作为模型训练过程中的输入数据,左声道样本音频和右声道样本音频将会作为模型训练过程中的标签数据;
步骤S20,构建编码网络,将所述组合样本音频的频谱特征输入所述编码网络进行降维编码,得到降维特征;
其中,通过对该组合频谱进行频谱特征提取,以得到频谱图特征数据,并将该频谱图特征数据输入编码网络进行降维编码,以得到降维特征,该编码网络的作用在于创建输入数据特征,即对组合样本音频的频谱图特征进行编码的操作,并将原始的组合样本音频的频谱图特征的维度转为特定的低维特征;
具体的,该步骤中,通过使用Python的matplotlib库进行音频频谱图特征的转换,将组合样本音频通过matplotlib库来转为频谱图特征数据,该频谱图特征数据用于进行模型的训练数据;
优选的,该步骤中,通过对组合频谱的频谱图特征数据进行数据集的分类,以得到训练集和测试集,具体的,本实施例中,将1万条频谱图特征数据中随机取80%的特征数据作为训练集,剩下的20%特征数据作为测试集,测试数据集用于作为训练模型完成之后的准确率测试;
步骤S30,采用注意力机制对所述降维特征进行注意力计算,得到注意力概率值,并构建解码网络,将所述注意力概率值输入所述解码网络进行解码,得到频谱解码结果;
其中,通过采用注意力机制对所述降维特征进行注意力计算的设计,以使将计算编码网络中不同的Cell需要的注意力,并且以0-1范围的概率方式进行呈现;
具体的,该步骤中,解码网络用于将编码网络的输出信息解码为需要的结果信息,解码网络的结果为两个特征数据,这两个特征数据分别表征模型网络预测出来的左通道音频特征数据,以及右通道音频特征数据,这两个特征数据用于与之前从电话双通道音频提取出来的左声道样本音频和右声道样本音频进行比较;
步骤S40,计算所述频谱解码结果与所述左声道样本音频和所述右声道样本音频的频谱特征之间的损失值;
其中,通过计算频谱解码结果与左声道样本音频和右声道样本音频的频谱特征之间的损失值设计,以使能有效的对编码网络和解码网络进行参数更新;
即该步骤中,通过分别进行左通道音频特征数据与左声道样本音频中频谱图特征之间,以及右通道音频特征数据与右声道样本音频中频谱图特征之间的损失计算,以得到该损失值;
步骤S50,根据所述损失值对所述编码网络和所述解码网络进行模型迭代训练,以得到语音分离模型;
其中,模型迭代训练过程中的迭代次数可以根据需求进行设置,通过根据所述损失值对所述编码网络和所述解码网络进行模型迭代训练的设计,能有效的对该语音分离模型进行参数更新,直至该语音分离模型收敛;
具体的,该步骤中,当该语音分离模型收敛后,根据测试集对该语音分离模型进行测试,当判断到该语音分离模型的测试结果满足合格条件时,将该语音分离模型进行输出;
优选的,当判断该语音分离模型的测试结果未满足合格条件时,对该语音分离模型进行参数优化;
步骤S60,将待识别语音输入所述语音分离模型进行语音分离,以得到左声道音频文件和右声道音频文件;
其中,当得到训练拟合之后的语音分离模型时,将电话两人声音未分离的待识别语音作为语音分离模型的输入数据,模型的输出结果即为分离后的左通道频谱图特征,以及右通道频谱图特征数据,然后通过转换网络,将预测的两个通道的频谱图转为音频波形文件,至即得到该左声道音频文件和右声道音频文件;
本实施例,通过基于编码网络-解码网络的设计,以采用端到端模型实现语音数据中的人声分离效果,提高了语音分离的准确性,简化了语音分离的步骤,实现了输入原始语音数据,输出即为分开后的两个声道音频数据的效果,提高了用户的使用体验。
实施例二
请参阅图2,是本发明第二实施例提供的语音分离方法的流程图,包括步骤:
步骤S11,获取左声道样本音频和右声道样本音频,并将所述左声道样本音频和所述右声道样本音频进行合并,得到组合样本音频;
步骤S21,构建prenet网络,在所述prenet网络后构建CBHG网络;
其中,所述prenet网络包括三个全连接层,所述CBHG网络依序包括第一卷积层、池化层、第二卷积层和第三卷积层,所述第二卷积层和第三卷积层均为一维卷积层,且所述第二卷积层和所述第三卷积层的filter大小为3,stride为1,所述第二卷积层采用的激活函数为ReLu,所述第三卷积层未采用激活函数;
步骤S31,将所述组合样本音频的频谱特征输入所述全连接层进行处理,并将处理结果依序通过所述第一卷积层、所述池化层、所述第二卷积层和所述第三卷积层处理,得到卷积输出结果;
步骤S41,对所述卷积输出结果进行残余连接处理,并将处理结果输入双向RNN网络,以得到所述降维特征;
其中,所述对所述卷积输出结果进行残余连接处理的步骤包括:
对所述卷积输出结果进行序列相加,并将相加结果输入到两个一层的全连接网络中进行处理,所述两个一层的全连接网络的激活函数分别采用了ReLu和sigmoid函数;
该步骤中,对所述卷积输出结果进行残余连接处理的步骤用于将卷积层输出的和embedding之后序列相加起来,并输入到highwaylayers中,highwaynets的每一层结构为:把输入同时放入到两个一层的全连接网络当中,这两个网络的激活函数分别采用了ReLu和sigmoid函数;
假定输入为input,ReLu的输出为output1,sigmoid的输出为output2,那么highwaylayer的输出为:output=output1*output2+input*(1-output2),该步骤中使用了4层的highwaylayer;
接下来就是双向RNN网络部分,将前面的highwaylayers的输出结果作为双向RNN网络的输入,输出结果将会为正向RNN的结果以及反向RNN的结果;
步骤S51,构建GRU循环网络,并根据AttentionWrapper函数对所述GRU循环网络进行自注意力封装,并将所述降维特征输入封装后的所述GRU循环网络进行数据计算,得到注意力概率值;
步骤S61,构建解码网络,将所述注意力概率值输入所述解码网络进行解码,得到频谱解码结果;
其中,所述解码网络包括pre-net、Attention-RNN和Decoder-RNN,pre-net用于通过全连接网络对输入数据进行非线性变换;
Attention-RNN的结构为一层包含256个GRU的RNN,Attention-RNN用于将pre-net的输出和Attention的输出作为输入,并将输入经过GRU单元后输出到Decoder-RNN中;
Decoder-RNN为两层residual GRU,Decoder-RNN的输出为输入与经过GRU单元输出之间的和,每层residual GRU均包含256个GRU单元;
步骤S71,根据MATLAB函数对所述频谱解码结果进行维度转换,得到左声道预测特征和右声道预测特征;
其中,由于得到的频谱解码结果中的特征数据还是低维的特征数据,需要将其转为高维的频谱图特征数据,接着需要完成的就是将频谱解码结果转为频谱Spectrogram,该步骤可以使用神经网络维度转换的方式或者通过一个RNN将解码网络的输出维度转为Spectrogram的维度;
步骤S81,根据欧式距离公式分别进行所述左声道预测特征与所述左声道样本音频的频谱特征之间、所述右声道预测特征与所述右声道样本音频的频谱特征之间的损失计算,以得到所述损失值;
其中,通过计算频谱解码结果与左声道样本音频和右声道样本音频的频谱特征之间的损失值设计,以使能有效的对编码网络和解码网络进行参数更新;
即该步骤中,通过分别进行左通道音频特征数据与左声道样本音频中频谱图特征之间,以及右通道音频特征数据与右声道样本音频中频谱图特征之间的损失计算,以得到该损失值;
步骤S91,根据所述损失值对所述编码网络和所述解码网络进行模型迭代训练,以得到语音分离模型;
其中,模型迭代训练过程中的迭代次数可以根据需求进行设置,通过根据所述损失值对所述编码网络和所述解码网络进行模型迭代训练的设计,能有效的对该语音分离模型进行参数更新,直至该语音分离模型收敛;
步骤S101,将待识别语音输入所述语音分离模型进行语音分离,以得到左声道音频文件和右声道音频文件;
其中,当得到训练拟合之后的语音分离模型时,将电话两人声音未分离的待识别语音作为语音分离模型的输入数据,模型的输出结果即为分离后的左通道频谱图特征,以及右通道频谱图特征数据,然后通过转换网络,将预测的两个通道的频谱图转为音频波形文件,至即得到该左声道音频文件和右声道音频文件;
本实施例中,通过基于编码网络-解码网络的设计,以采用端到端模型实现语音数据中的人声分离效果,提高了语音分离的准确性,简化了语音分离的步骤,实现了输入原始语音数据,输出即为分开后的两个声道音频数据的效果,提高了用户的使用体验。
实施例三
请参阅图3,是本发明第三实施例提供的语音分离系统100的结构示意图,包括:样本音频获取模块10、特征降维模块11、特征解码模块12、迭代训练模块13和语音分离模块14,其中:
样本音频获取模块10,用于获取左声道样本音频和右声道样本音频,并将所述左声道样本音频和所述右声道样本音频进行合并,得到组合样本音频。
特征降维模块11,用于构建编码网络,将所述组合样本音频的频谱特征输入所述编码网络进行降维编码,得到降维特征。
其中,所述特征降维模块11还用于:构建prenet网络,并在所述prenet网络后构建CBHG网络,所述prenet网络包括三个全连接层,所述CBHG网络依序包括第一卷积层、池化层、第二卷积层和第三卷积层,所述第二卷积层和第三卷积层均为一维卷积层,且所述第二卷积层和所述第三卷积层的filter大小为3,stride为1,所述第二卷积层采用的激活函数为ReLu,所述第三卷积层未采用激活函数。
优选的,所述特征降维模块11还用于:将所述组合样本音频的频谱特征输入所述全连接层进行处理,并将处理结果依序通过所述第一卷积层、所述池化层、所述第二卷积层和所述第三卷积层处理,得到卷积输出结果;
对所述卷积输出结果进行残余连接处理,并将处理结果输入双向RNN网络,以得到所述降维特征。
进一步的,所述特征降维模块11还用于:对所述卷积输出结果进行序列相加,并将相加结果输入到两个一层的全连接网络中进行处理,所述两个一层的全连接网络的激活函数分别采用了ReLu和sigmoid函数。
特征解码模块12,用于采用注意力机制对所述降维特征进行注意力计算,得到注意力概率值,并构建解码网络,将所述注意力概率值输入所述解码网络进行解码,得到频谱解码结果。
更进一步的,所述特征解码模块12还用于:构建GRU循环网络,并根据AttentionWrapper函数对所述GRU循环网络进行自注意力封装;将所述降维特征输入封装后的所述GRU循环网络进行数据计算,得到注意力概率值。
具体的,所述解码网络包括pre-net、Attention-RNN和Decoder-RNN,pre-net用于通过全连接网络对输入数据进行非线性变换;
Attention-RNN的结构为一层包含256个GRU的RNN,Attention-RNN用于将pre-net的输出和Attention的输出作为输入,并将输入经过GRU单元后输出到Decoder-RNN中;
Decoder-RNN为两层residual GRU,Decoder-RNN的输出为输入与经过GRU单元输出之间的和,每层residual GRU均包含256个GRU单元。
迭代训练模块13,用于计算所述频谱解码结果与所述左声道样本音频和所述右声道样本音频的频谱特征之间的损失值,并根据所述损失值对所述编码网络和所述解码网络进行模型迭代训练,以得到语音分离模型。
其中,所述迭代训练模块13还用于:根据MATLAB函数对所述频谱解码结果进行维度转换,得到左声道预测特征和右声道预测特征;
根据欧式距离公式分别进行所述左声道预测特征与所述左声道样本音频的频谱特征之间、所述右声道预测特征与所述右声道样本音频的频谱特征之间的损失计算,以得到所述损失值。
语音分离模块14,用于将待识别语音输入所述语音分离模型进行语音分离,以得到左声道音频文件和右声道音频文件。
本实施例,通过基于编码网络-解码网络的设计,以采用端到端模型实现语音数据中的人声分离效果,提高了语音分离的准确性,简化了语音分离的步骤,实现了输入原始语音数据,输出即为分开后的两个声道音频数据的效果,提高了用户的使用体验。
实施例四
请参阅图4,是本发明第四实施例提供的移动终端101,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端101执行上述的语音分离方法。
本实施例还提供了一种存储介质,其上存储有上述移动终端101中所使用的计算机程序,该程序在执行时,包括如下步骤:
获取左声道样本音频和右声道样本音频,并将所述左声道样本音频和所述右声道样本音频进行合并,得到组合样本音频;
构建编码网络,将所述组合样本音频的频谱特征输入所述编码网络进行降维编码,得到降维特征;
采用注意力机制对所述降维特征进行注意力计算,得到注意力概率值,并构建解码网络,将所述注意力概率值输入所述解码网络进行解码,得到频谱解码结果;
计算所述频谱解码结果与所述左声道样本音频和所述右声道样本音频的频谱特征之间的损失值,并根据所述损失值对所述编码网络和所述解码网络进行模型迭代训练,以得到语音分离模型;
将待识别语音输入所述语音分离模型进行语音分离,以得到左声道音频文件和右声道音频文件。所述的存储介质,如:ROM/RAM、磁碟、光盘等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元或模块完成,即将存储装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
本领域技术人员可以理解,图3中示出的组成结构并不构成对本发明的语音分离系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,而图1-2中的语音分离方法亦采用图3中所示的更多或更少的部件,或者组合某些部件,或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标语音分离系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序,其均可存储于所述目标语音分离系统的存储设备(图未示)内。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种语音分离方法,其特征在于,所述方法包括:
获取左声道样本音频和右声道样本音频,并将所述左声道样本音频和所述右声道样本音频进行合并,得到组合样本音频;
构建编码网络,将所述组合样本音频的频谱特征输入所述编码网络进行降维编码,得到降维特征;
采用注意力机制对所述降维特征进行注意力计算,得到注意力概率值,并构建解码网络,将所述注意力概率值输入所述解码网络进行解码,得到频谱解码结果;
计算所述频谱解码结果与所述左声道样本音频和所述右声道样本音频的频谱特征之间的损失值,并根据所述损失值对所述编码网络和所述解码网络进行模型迭代训练,以得到语音分离模型;
将待识别语音输入所述语音分离模型进行语音分离,以得到左声道音频文件和右声道音频文件;
所述采用注意力机制对所述降维特征进行注意力计算的步骤包括:
构建GRU循环网络,并根据AttentionWrapper函数对所述GRU循环网络进行自注意力封装;
将所述降维特征输入封装后的所述GRU循环网络进行数据计算,得到注意力概率值;
所述计算所述频谱解码结果与所述左声道样本音频和所述右声道样本音频的频谱特征之间的损失值的步骤包括:
根据MATLAB函数对所述频谱解码结果进行维度转换,得到左声道预测特征和右声道预测特征;
根据欧式距离公式分别进行所述左声道预测特征与所述左声道样本音频的频谱特征之间、所述右声道预测特征与所述右声道样本音频的频谱特征之间的损失计算,以得到所述损失值。
2.如权利要求1所述的语音分离方法,其特征在于,所述构建编码网络的步骤包括:
构建prenet网络,并在所述prenet网络后构建CBHG网络,所述prenet网络包括三个全连接层,所述CBHG网络依序包括第一卷积层、池化层、第二卷积层和第三卷积层,所述第二卷积层和第三卷积层均为一维卷积层,且所述第二卷积层和所述第三卷积层的filter大小为3,stride为1,所述第二卷积层采用的激活函数为ReLu,所述第三卷积层未采用激活函数。
3.如权利要求2所述的语音分离方法,其特征在于,所述将所述组合样本音频的频谱特征输入所述编码网络进行降维编码的步骤包括:
将所述组合样本音频的频谱特征输入所述全连接层进行处理,并将处理结果依序通过所述第一卷积层、所述池化层、所述第二卷积层和所述第三卷积层处理,得到卷积输出结果;
对所述卷积输出结果进行残余连接处理,并将处理结果输入双向RNN网络,以得到所述降维特征。
4.如权利要求3所述的语音分离方法,其特征在于,所述对所述卷积输出结果进行残余连接处理的步骤包括:
对所述卷积输出结果进行序列相加,并将相加结果输入到两个一层的全连接网络中进行处理,所述两个一层的全连接网络的激活函数分别采用了ReLu和sigmoid函数。
5.如权利要求1所述的语音分离方法,其特征在于,所述解码网络包括pre-net、Attention-RNN和Decoder-RNN,pre-net用于通过全连接网络对输入数据进行非线性变换;
Attention-RNN的结构为一层包含256个GRU的RNN,Attention-RNN用于将pre-net的输出和Attention的输出作为输入,并将输入经过GRU单元后输出到Decoder-RNN中;
Decoder-RNN为两层residual GRU,Decoder-RNN的输出为输入与经过GRU单元输出之间的和,每层residual GRU均包含256个GRU单元。
6.一种语音分离系统,其特征在于,所述系统包括:
样本音频获取模块,用于获取左声道样本音频和右声道样本音频,并将所述左声道样本音频和所述右声道样本音频进行合并,得到组合样本音频;
特征降维模块,用于构建编码网络,将所述组合样本音频的频谱特征输入所述编码网络进行降维编码,得到降维特征;
特征解码模块,用于采用注意力机制对所述降维特征进行注意力计算,得到注意力概率值,并构建解码网络,将所述注意力概率值输入所述解码网络进行解码,得到频谱解码结果;
迭代训练模块,用于计算所述频谱解码结果与所述左声道样本音频和所述右声道样本音频的频谱特征之间的损失值,并根据所述损失值对所述编码网络和所述解码网络进行模型迭代训练,以得到语音分离模型;
语音分离模块,用于将待识别语音输入所述语音分离模型进行语音分离,以得到左声道音频文件和右声道音频文件;
所述特征解码模块还用于:构建GRU循环网络,并根据AttentionWrapper函数对所述GRU循环网络进行自注意力封装;
将所述降维特征输入封装后的所述GRU循环网络进行数据计算,得到注意力概率值;
所述迭代训练模块还用于:根据MATLAB函数对所述频谱解码结果进行维度转换,得到左声道预测特征和右声道预测特征;
根据欧式距离公式分别进行所述左声道预测特征与所述左声道样本音频的频谱特征之间、所述右声道预测特征与所述右声道样本音频的频谱特征之间的损失计算,以得到所述损失值。
7.一种移动终端,其特征在于,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至5任一项所述的语音分离方法。
8.一种存储介质,其特征在于,其上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1至5任一项所述的语音分离方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010106054.1A CN111370032B (zh) | 2020-02-20 | 2020-02-20 | 语音分离方法、系统、移动终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010106054.1A CN111370032B (zh) | 2020-02-20 | 2020-02-20 | 语音分离方法、系统、移动终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111370032A CN111370032A (zh) | 2020-07-03 |
CN111370032B true CN111370032B (zh) | 2023-02-14 |
Family
ID=71211512
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010106054.1A Active CN111370032B (zh) | 2020-02-20 | 2020-02-20 | 语音分离方法、系统、移动终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111370032B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112071330B (zh) * | 2020-09-16 | 2022-09-20 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、设备以及计算机可读存储介质 |
CN112289338B (zh) * | 2020-10-15 | 2024-03-12 | 腾讯科技(深圳)有限公司 | 信号处理方法及装置、计算机设备以及可读存储介质 |
CN112489675A (zh) * | 2020-11-13 | 2021-03-12 | 北京云从科技有限公司 | 一种多通道盲源分离方法、装置、机器可读介质及设备 |
CN112669820B (zh) * | 2020-12-16 | 2023-08-04 | 平安科技(深圳)有限公司 | 基于语音识别的考试作弊识别方法、装置及计算机设备 |
CN112820297A (zh) * | 2020-12-30 | 2021-05-18 | 平安普惠企业管理有限公司 | 声纹识别方法、装置、计算机设备及存储介质 |
CN112767956B (zh) * | 2021-04-09 | 2021-07-16 | 腾讯科技(深圳)有限公司 | 音频编码方法、装置、计算机设备及介质 |
CN113380270B (zh) * | 2021-05-07 | 2024-03-29 | 普联国际有限公司 | 一种音频音源分离方法、装置、存储介质及电子设备 |
CN113380262B (zh) * | 2021-05-13 | 2022-10-18 | 重庆邮电大学 | 一种基于注意力机制与扰动感知的声音分离方法 |
CN113808613B (zh) * | 2021-08-02 | 2023-12-12 | 中山大学 | 一种轻量化的语音去噪方法、系统、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104123943A (zh) * | 2013-04-28 | 2014-10-29 | 安凯(广州)微电子技术有限公司 | 一种音频信号重采样的方法和装置 |
CN105913863A (zh) * | 2016-03-31 | 2016-08-31 | 乐视控股(北京)有限公司 | 一种音频播放方法、装置和终端设备 |
CN106887235A (zh) * | 2015-12-16 | 2017-06-23 | 芋头科技(杭州)有限公司 | 一种语音降噪方法及智能电子设备 |
CN107680611A (zh) * | 2017-09-13 | 2018-02-09 | 电子科技大学 | 基于卷积神经网络的单通道声音分离方法 |
CN108766440A (zh) * | 2018-05-28 | 2018-11-06 | 平安科技(深圳)有限公司 | 说话人分离模型训练方法、两说话人分离方法及相关设备 |
CN109801644A (zh) * | 2018-12-20 | 2019-05-24 | 北京达佳互联信息技术有限公司 | 混合声音信号的分离方法、装置、电子设备和可读介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19959156C2 (de) * | 1999-12-08 | 2002-01-31 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Verarbeiten eines zu codierenden Stereoaudiosignals |
US10699700B2 (en) * | 2018-07-31 | 2020-06-30 | Tencent Technology (Shenzhen) Company Limited | Monaural multi-talker speech recognition with attention mechanism and gated convolutional networks |
-
2020
- 2020-02-20 CN CN202010106054.1A patent/CN111370032B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104123943A (zh) * | 2013-04-28 | 2014-10-29 | 安凯(广州)微电子技术有限公司 | 一种音频信号重采样的方法和装置 |
CN106887235A (zh) * | 2015-12-16 | 2017-06-23 | 芋头科技(杭州)有限公司 | 一种语音降噪方法及智能电子设备 |
CN105913863A (zh) * | 2016-03-31 | 2016-08-31 | 乐视控股(北京)有限公司 | 一种音频播放方法、装置和终端设备 |
CN107680611A (zh) * | 2017-09-13 | 2018-02-09 | 电子科技大学 | 基于卷积神经网络的单通道声音分离方法 |
CN108766440A (zh) * | 2018-05-28 | 2018-11-06 | 平安科技(深圳)有限公司 | 说话人分离模型训练方法、两说话人分离方法及相关设备 |
CN109801644A (zh) * | 2018-12-20 | 2019-05-24 | 北京达佳互联信息技术有限公司 | 混合声音信号的分离方法、装置、电子设备和可读介质 |
Non-Patent Citations (3)
Title |
---|
TACOTRON:TOWARDS END-TO-END SPEECH SYNTHESIS;Yuxuan Wang et al.;《arXiv》;20170406;第1-10页 * |
基于GRU-Attention的中文文本分类;孙明敏;《现代信息科技》;20190210;第3卷(第3期);第10-12页 * |
基于神经网络的藏语语音合成;都格草 等;《中文信息学报》;20190228;第33卷(第2期);第75-80页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111370032A (zh) | 2020-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111370032B (zh) | 语音分离方法、系统、移动终端及存储介质 | |
US11158324B2 (en) | Speaker separation model training method, two-speaker separation method and computing device | |
Lin et al. | Speech enhancement using multi-stage self-attentive temporal convolutional networks | |
CN108364650A (zh) | 语音识别结果的调整装置及方法 | |
CN111508524B (zh) | 语音来源设备的识别方法和系统 | |
CN113436609B (zh) | 语音转换模型及其训练方法、语音转换方法及系统 | |
CN114333852A (zh) | 一种多说话人语音人声分离方法、终端设备及存储介质 | |
CN111862956B (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN115602165A (zh) | 基于金融系统的数字员工智能系统 | |
Lim et al. | Harmonic and percussive source separation using a convolutional auto encoder | |
CN114822578A (zh) | 语音降噪方法、装置、设备及存储介质 | |
CN111370031B (zh) | 语音分离方法、系统、移动终端及存储介质 | |
CN114141237A (zh) | 语音识别方法、装置、计算机设备和存储介质 | |
CN116665675B (zh) | 语音转写方法、系统、电子设备和存储介质 | |
Soni et al. | State-of-the-art analysis of deep learning-based monaural speech source separation techniques | |
CN115116469B (zh) | 特征表示的提取方法、装置、设备、介质及程序产品 | |
CN113724690A (zh) | Ppg特征的输出方法、目标音频的输出方法及装置 | |
CN106971731B (zh) | 一种声纹识别的修正方法 | |
CN114155883B (zh) | 基于进阶式的语音深度神经网络训练方法、装置 | |
CN116110373B (zh) | 智能会议系统的语音数据采集方法及相关装置 | |
WO2024018429A1 (en) | Audio signal processing method, audio signal processing apparatus, computer device and storage medium | |
CN114078484B (zh) | 语音情绪识别的方法、装置以及存储介质 | |
Prabhakar et al. | Evaluating Feature Importance for Speaker Separation Models | |
CN117238311A (zh) | 一种多声源及噪声环境中的语音分离增强方法及系统 | |
CN117975984A (zh) | 语音处理方法、装置、设备、存储介质和计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |