CN111370031B - 语音分离方法、系统、移动终端及存储介质 - Google Patents
语音分离方法、系统、移动终端及存储介质 Download PDFInfo
- Publication number
- CN111370031B CN111370031B CN202010105157.6A CN202010105157A CN111370031B CN 111370031 B CN111370031 B CN 111370031B CN 202010105157 A CN202010105157 A CN 202010105157A CN 111370031 B CN111370031 B CN 111370031B
- Authority
- CN
- China
- Prior art keywords
- audio
- fusion
- spectrum
- tag
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 140
- 238000001228 spectrum Methods 0.000 claims abstract description 103
- 230000004927 fusion Effects 0.000 claims abstract description 78
- 238000001914 filtration Methods 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000004364 calculation method Methods 0.000 claims abstract description 32
- 238000006243 chemical reaction Methods 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims description 15
- 230000002457 bidirectional effect Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 10
- 210000002569 neuron Anatomy 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 7
- 238000013461 design Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种语音分离方法、系统、移动终端及存储介质,该方法包括:获取样本音频进行音频组合得到标签音频数据;对标签音频数据进行音频融合得到融合音频,对融合音频和标签音频数据进行频谱转换,得到融合频谱图特征和标签频谱图特征;将融合频谱图特征输入LSTM网络和Mask网络进行计算,得到频谱过滤特征;根据频谱过滤特征和融合频谱图特征进行预测计算,得到预测频谱特征;根据预测频谱特征和标签频谱图特征进行损失计算,得到损失值,根据损失值对语音分离模型进行迭代训练,直至语音分离模型收敛;将待识别语音输入语音分离模型进行语音分离,得音频分离文件。本发明通过采用端到端结构实现了多人说话的音频分离,提高了语音识别的准确率。
Description
技术领域
本发明属于语音分离技术领域,尤其涉及一种语音分离方法、系统、移动终端及存储介质。
背景技术
语音识别技术已经越来越多的应用在我们的日常生活当中,通过语音识别可以更加便捷的与智能设备进行交流,例如通过音箱来听取新闻,或者通过语音来操作电视,通过车载语音系统来发出导航指令等。
但是由于人们在发出语音操作指令的时可能是在不同的场景下,而这些场景中可能同时有其他人在说话,此时他人的说话声就有可能会影响到语音识别的效果,因此,语音识别过程中的语音分离方法尤为重要。
现有的语音识别过程中,在处理多人同时说话的音频时,不能有效的进行语音分离,使得无法单独识别指定人的语音,进而容易导致语音识别结果的错误,降低了语音识别的准确性。
发明内容
本发明实施例的目的在于提供一种语音分离方法、系统、移动终端及存储介质,旨在解决现有的语音识别过程中,由于不能有效的进行语音分离所导致的语音识别准确性低下的问题。
本发明实施例是这样实现的,一种语音分离方法,所述方法包括:
获取样本音频,并对所述样本音频进行音频组合,得到标签音频数据;
对所述标签音频数据进行音频融合,得到融合音频,并对所述融合音频和标签音频数据进行频谱转换,得到融合频谱图特征和标签频谱图特征;
构建LSTM网络和Mask网络,得到语音分离模型,并将所述融合频谱图特征输入所述LSTM网络和所述Mask网络进行计算,得到频谱过滤特征;
根据所述频谱过滤特征和所述融合频谱图特征进行预测计算,得到预测频谱特征;
根据所述预测频谱特征和所述标签频谱图特征进行损失计算,得到损失值,并根据所述损失值对所述语音分离模型进行迭代训练,直至所述语音分离模型收敛;
将待识别语音输入所述语音分离模型进行语音分离,以得音频分离文件。
更进一步的,所述构建LSTM网络和Mask网络的步骤包括:
构建Grid-LSTM网络,并在所述Grid-LSTM网络之后构建全连接网络;
在所述全连接网络之后构建一个双向LSTM网络,并构建两个全连接层,两个所述全连接层用于将所述双向LSTM网络的输出结果转为时间帧数*129维度。
更进一步的,所述Grid-LSTM网络包括64个神经元,所述Grid-LSTM网络的输出结果为时间帧数*1408;
所述Bidirection-LSTM双向LSTM网络包括前向LSTM网络和后向LSTM网络,所述前向LSTM网络和所述后向LSTM网络均是3层结构,均包括896个神经元。
更进一步的,所述根据所述频谱过滤特征和所述融合频谱图特征进行预测计算的步骤包括:
将所述频谱过滤特征与对应所述融合频谱图特征进行点对点相乘,以得到所述预测频谱特征。
更进一步的,所述根据所述损失值对所述语音分离模型进行迭代训练的步骤包括:
根据参数优化器对所述损失值进行迭代优化,并根据迭代优化结果对所述语音分离模型中的参数进行更新;
当判断到所述语音分离模型输出的所述损失值在预设损失范围内时,判定所述语音分离模型收敛,停止所述语音分离模型的更新。
更进一步的,所述根据所述预测频谱特征和所述标签频谱图特征进行损失计算的步骤包括:
将所述预测频谱特征与对应所述标签频谱图特征进行点对点的差值运算,以得到所述损失值。
更进一步的,所述对所述标签音频数据进行音频融合的步骤包括:
将所述标签音频数据中的音频点数据根据时间点进行数据相加,以得到所述融合音频。
本发明实施例的另一目的在于提供一种语音分离系统,所述系统包括:
音频组合模块,用于获取样本音频,并对所述样本音频进行音频组合,得到标签音频数据;
音频融合模块,用于对所述标签音频数据进行音频融合,得到融合音频,并对所述融合音频和标签音频数据进行频谱转换,得到融合频谱图特征和标签频谱图特征;
网络构建模块,用于构建LSTM网络和Mask网络,得到语音分离模型,并将所述融合频谱图特征输入所述LSTM网络和所述Mask网络进行计算,得到频谱过滤特征;
预测计算模块,用于根据所述频谱过滤特征和所述融合频谱图特征进行预测计算,得到预测频谱特征;
模型训练模块,用于根据所述预测频谱特征和所述标签频谱图特征进行损失计算,得到损失值,并根据所述损失值对所述语音分离模型进行迭代训练,直至所述语音分离模型收敛;
语音分离模块,用于将待识别语音输入所述语音分离模型进行语音分离,以得音频分离文件。
本发明实施例的另一目的在于提供一种移动终端,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行上述的语音分离方法。
本发明实施例的另一目的在于提供一种存储介质,其存储有上述的移动终端中所使用的计算机程序,该计算机程序被处理器执行时实现上述的语音分离方法的步骤。
本发明实施例,通过采用LSTM网络+Mask网络的端到端结构实现了多人说话的音频分离,提高了语音分离的准确性,降低了环境中其他人声对识别结果的影响,进而提高了语音识别的准确率。
附图说明
图1是本发明第一实施例提供的语音分离方法的流程图;
图2是本发明第二实施例提供的语音分离方法的流程图;
图3是本发明第三实施例提供的语音分离系统的结构示意图;
图4是本发明第四实施例提供的移动终端的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
实施例一
请参阅图1,是本发明第一实施例提供的语音分离方法的流程图,包括步骤:
步骤S10,获取样本音频,并对所述样本音频进行音频组合,得到标签音频数据;
其中,通过收集不同场景之下的真人说话音频,并且该音频仅包含该说话人的声音,不含有其他人的声音,一共收集100个人的说话音频,并且每个音频时长10秒钟,针对每个人均收集1000条音频,以得到该样本音频;
优选的,通过将需要进行不同人之间的说话音频进行两两组合,即将每个人的一条音频与另一个人的一条音频进行组合,然后重复操作,直至完成所有音频的成组组合,以得到该标签音频数据;
步骤S20,对所述标签音频数据进行音频融合,得到融合音频,并对所述融合音频和标签音频数据进行频谱转换,得到融合频谱图特征和标签频谱图特征;
其中,通过对所述标签音频数据进行音频融合的设计,以得到网络模型训练时的输入数据,且通过对所述融合音频和标签音频数据进行频谱转换的设计,以采用频谱图特征作为网络模型训练的特征数据,进而提高了后续网络模型训练的训练效率;
具体的,该步骤中,可以采用Python的matplotlib库来进行音频频谱图特征的转换,将音频通过matplotlib库来转为频谱图特征数据;
步骤S30,构建LSTM网络和Mask网络,得到语音分离模型,并将所述融合频谱图特征输入所述LSTM网络和所述Mask网络进行计算,得到频谱过滤特征;
其中,该LSTM网络用于对输入的频谱图特征进行维度转换,而该Mask网络用于过滤原始频谱图中的非本人的音频频谱数据,留下本人的音频频谱数据,即针对该融合频谱图特征会得到两个频谱过滤特征,例如针对融合频谱图特征ab,会得到滤除a特征后的频谱过滤特征和滤除b特征后的频谱过滤特征;
步骤S40,根据所述频谱过滤特征和所述融合频谱图特征进行预测计算,得到预测频谱特征;
其中,根据所述频谱过滤特征和所述融合频谱图特征进行预测计算的设计,以对应得到针对a特征的预测频谱特征和针对b特征的预测频谱特征;
步骤S50,根据所述预测频谱特征和所述标签频谱图特征进行损失计算,得到损失值,并根据所述损失值对所述语音分离模型进行迭代训练,直至所述语音分离模型收敛;
其中,模型迭代训练过程中的迭代次数可以根据需求进行设置,通过根据所述损失值对所述语音分离模型进行迭代训练的设计,能有效的对该语音分离模型进行参数更新,直至该语音分离模型收敛;
步骤S60,将待识别语音输入所述语音分离模型进行语音分离,以得音频分离文件;
其中,当得到训练收敛之后的语音分离模型时,将待识别语音作为语音分离模型的输入数据,模型的输出结果即为分离后的两个频谱图特征,然后通过转换网络,将预测的两个通道的频谱图转为音频波形文件,即得到两个音频分离文件,并基于该音频分离文件,能单独识别指定人的语音,提高了语音识别的准确性;
本实施例,通过采用LSTM网络+Mask网络的端到端结构实现了多人说话的音频分离,提高了语音分离的准确性,降低了环境中其他人声对识别结果的影响,进而提高了语音识别的准确率。
实施例二
请参阅图2,是本发明第二实施例提供的语音分离方法的流程图,包括步骤:
步骤S11,获取样本音频,并对所述样本音频进行音频组合,得到标签音频数据;
其中,通过收集不同场景之下的真人说话音频,并且该音频仅包含该说话人的声音,不含有其他人的声音,一共收集100个人的说话音频,并且每个音频时长10秒钟,针对每个人均收集1000条音频,以得到该样本音频;
步骤S21,将所述标签音频数据中的音频点数据根据时间点进行数据相加,以得到所述融合音频,并对所述融合音频和标签音频数据进行频谱转换,得到融合频谱图特征和标签频谱图特征;
其中,通过将该标签音频数据两个10秒的音频每个同样时间点的样本音频点数据进行相加,以合成一个10秒的音频,得到该融合音频;
具体的,该步骤中,可以采用Python的matplotlib库来进行音频频谱图特征的转换,将音频通过matplotlib库来转为频谱图特征数据;
优选的,输出该matplotlib库的音频数据分为两种,一种是两两组合的音频的融合音频,一种是组合之中的两个独立音频,因此,得到的频谱特征数据也会有两种,一种是融合音频的融合频谱图特征,一种是组合之中两个独立音频的标签频谱图特征,融合频谱图特征将会作为网络模型训练时的输入数据,而标签频谱图特征将会作为网络输出结果的比对标签数据,本实施例中,将频谱图的维度设置为129,所以每个频谱图的结构为时间帧数*129;
此外,该步骤中,当完成所有音频到频谱图特征的转换之后,在所有音频中随机取90%的频谱图特征作为训练数据集,剩下的10%的频谱图特征作为测试数据集,测试数据集用于作为训练模型完成之后的准确率测试;
步骤S31,构建Grid-LSTM网络,并在所述Grid-LSTM网络之后构建全连接网络;
其中,所述Grid-LSTM网络包括64个神经元,所述Grid-LSTM网络的输出结果为时间帧数*1408,该全连接网络的结构为1408*896,以使将该Grid-LSTM输出的数据转为结构为时间帧数*896;
具体的,所述Bidirection-LSTM双向LSTM网络包括前向LSTM网络和后向LSTM网络,所述前向LSTM网络和所述后向LSTM网络均是3层结构,均包括896个神经元;
步骤S41,在所述全连接网络之后构建一个双向LSTM网络,并构建两个全连接层,以得到语音分离模型;
其中,两个所述全连接层用于将所述双向LSTM网络的输出结果转为时间帧数*129维度,该双向LSTM网络的输出结果结构为时间帧数*1792维度,1792维度是由两个LSTM的896个神经元拼接而成,当得到双向LSTM网络的输出结果之后,将该输出结果输入Mask网络当中;
步骤S51,将所述融合频谱图特征输入所述LSTM网络和所述Mask网络进行计算,得到频谱过滤特征;
其中,全连接层的结构为1792*129的结构,通过这两个全连接层,将LSTM网络输出的时间帧数*1792的数据转为了两个时间帧数*129的数据,这时这两个时间帧数*129的数据就是频谱过滤特征(Mask),Mask的作用在于过滤原始频谱图中的非本人的音频频谱数据,留下本人的音频频谱数据;
步骤S61,将所述频谱过滤特征与对应所述融合频谱图特征进行点对点相乘,以得到所述预测频谱特征;
其中,当得到了两个频谱过滤特征之后,需用这两个频谱过滤特征与原始的融合频谱图特征点对点相乘,由于频谱过滤特征的结构和原始融合频谱图特征结构都相同,都是时间帧数*129的结构,相乘之后的结构就是该语音分离模型中网络预测出来的两个独立的预测频谱特征;
步骤S71,将所述预测频谱特征与对应所述标签频谱图特征进行点对点的差值运算,以得到所述损失值;
步骤S81,根据参数优化器对所述损失值进行迭代优化,并根据迭代优化结果对所述语音分离模型中的参数进行更新;
其中,模型迭代训练过程中的迭代次数可以根据需求进行设置,通过根据所述损失值对所述语音分离模型进行迭代训练的设计,能有效的对该语音分离模型进行参数更新,直至该语音分离模型收敛;
具体的,该步骤中,通过创建AdamOptimizer优化器来迭代优化该损失值,通过循环迭代优化所有的数据,迭代更新语音分离模型中的参数,从而让该语音分离模型的参数预测输出的两个独立的预测频谱特征能够近似原始的两个独立的标签频谱图特征,从而实现将融合的音频频谱图数据分离为两个独立的音频频谱图数据;
步骤S91,当判断到所述语音分离模型输出的所述损失值在预设损失范围内时,判定所述语音分离模型收敛,停止所述语音分离模型的更新;
其中,该预设损失范围可以根据需求进行设置,该步骤中预设损失范围设置为10-50,即当判断到计算得到的损失值在10-50范围内时,则判定所述语音分离模型收敛;
步骤S101,将待识别语音输入所述语音分离模型进行语音分离,以得音频分离文件;
其中,当得到训练收敛之后的语音分离模型时,将待识别语音作为语音分离模型的输入数据,模型的输出结果即为分离后的两个频谱图特征,然后通过转换网络,将预测的两个通道的频谱图转为音频波形文件,即得到两个音频分离文件,并基于该音频分离文件,能单独识别指定人的语音,提高了语音识别的准确性;
本实施例中,通过采用LSTM网络+Mask网络的端到端结构实现了多人说话的音频分离,提高了语音分离的准确性和语音分离速度,降低了环境中其他人声对识别结果的影响,进而提高了语音识别的准确率,通过采用深度学习的技术,实现了准确分离多人说话音频的效果。
实施例三
请参阅图3,是本发明第三实施例提供的语音分离系统100的结构示意图,包括:音频组合模块10、音频融合模块11、网络构建模块12、预测计算模块13、模型训练模块14和语音分离模块15,其中:
音频组合模块10,用于获取样本音频,并对所述样本音频进行音频组合,得到标签音频数据,其中,通过收集不同场景之下的真人说话音频,并且该音频仅包含该说话人的声音,不含有其他人的声音,一共收集100个人的说话音频,并且每个音频时长10秒钟,针对每个人均收集1000条音频,以得到该样本音频。
音频融合模块11,用于对所述标签音频数据进行音频融合,得到融合音频,并对所述融合音频和标签音频数据进行频谱转换,得到融合频谱图特征和标签频谱图特征,其中,通过对所述标签音频数据进行音频融合的设计,以得到网络模型训练时的输入数据,且通过对所述融合音频和标签音频数据进行频谱转换的设计,以采用频谱图特征作为网络模型训练的特征数据,进而提高了后续网络模型训练的训练效率。
优选的,所述音频融合模块11还用于:将所述标签音频数据中的音频点数据根据时间点进行数据相加,以得到所述融合音频。
网络构建模块12,用于构建LSTM网络和Mask网络,得到语音分离模型,并将所述融合频谱图特征输入所述LSTM网络和所述Mask网络进行计算,得到频谱过滤特征,其中,该LSTM网络用于对输入的频谱图特征进行维度转换,而该Mask网络用于过滤原始频谱图中的非本人的音频频谱数据,留下本人的音频频谱数据,即针对该融合频谱图特征会得到两个频谱过滤特征,例如针对融合频谱图特征ab,会得到滤除a特征后的频谱过滤特征和滤除b特征后的频谱过滤特征。
优选的,所述网络构建模块12还用于:构建Grid-LSTM网络,并在所述Grid-LSTM网络之后构建全连接网络;在所述全连接网络之后构建一个双向LSTM网络,并构建两个全连接层,两个所述全连接层用于将所述双向LSTM网络的输出结果转为时间帧数*129维度。
具体的,所述网络构建模块12中,所述Grid-LSTM网络包括64个神经元,所述Grid-LSTM网络的输出结果为时间帧数*1408;所述Bidirection-LSTM双向LSTM网络包括前向LSTM网络和后向LSTM网络,所述前向LSTM网络和所述后向LSTM网络均是3层结构,均包括896个神经元。
预测计算模块13,用于根据所述频谱过滤特征和所述融合频谱图特征进行预测计算,得到预测频谱特征,其中,根据所述频谱过滤特征和所述融合频谱图特征进行预测计算的设计,以对应得到针对a特征的预测频谱特征和针对b特征的预测频谱特征。
优选的,所述预测计算模块13还用于:将所述频谱过滤特征与对应所述融合频谱图特征进行点对点相乘,以得到所述预测频谱特征。
模型训练模块14,用于根据所述预测频谱特征和所述标签频谱图特征进行损失计算,得到损失值,并根据所述损失值对所述语音分离模型进行迭代训练,直至所述语音分离模型收敛,其中,模型迭代训练过程中的迭代次数可以根据需求进行设置,通过根据所述损失值对所述语音分离模型进行迭代训练的设计,能有效的对该语音分离模型进行参数更新,直至该语音分离模型收敛。
优选的,所述模型训练模块14还用于:根据参数优化器对所述损失值进行迭代优化,并根据迭代优化结果对所述语音分离模型中的参数进行更新;当判断到所述语音分离模型输出的所述损失值在预设损失范围内时,判定所述语音分离模型收敛,停止所述语音分离模型的更新。
优选的,所述模型训练模块14还用于:将所述预测频谱特征与对应所述标签频谱图特征进行点对点的差值运算,以得到所述损失值。
语音分离模块15,用于将待识别语音输入所述语音分离模型进行语音分离,以得音频分离文件,其中,当得到训练收敛之后的语音分离模型时,将待识别语音作为语音分离模型的输入数据,模型的输出结果即为分离后的两个频谱图特征,然后通过转换网络,将预测的两个通道的频谱图转为音频波形文件,即得到两个音频分离文件,并基于该音频分离文件,能单独识别指定人的语音,提高了语音识别的准确性。
本实施例,通过采用LSTM网络+Mask网络的端到端结构实现了多人说话的音频分离,提高了语音分离的准确性和语音分离速度,降低了环境中其他人声对识别结果的影响,进而提高了语音识别的准确率,通过采用深度学习的技术,实现了准确分离多人说话音频的效果。
实施例四
请参阅图4,是本发明第四实施例提供的移动终端101,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端101执行上述的语音分离方法。
本实施例还提供了一种存储介质,其上存储有上述移动终端101中所使用的计算机程序,该程序在执行时,包括如下步骤:
获取样本音频,并对所述样本音频进行音频组合,得到标签音频数据;
对所述标签音频数据进行音频融合,得到融合音频,并对所述融合音频和标签音频数据进行频谱转换,得到融合频谱图特征和标签频谱图特征;
构建LSTM网络和Mask网络,得到语音分离模型,并将所述融合频谱图特征输入所述LSTM网络和所述Mask网络进行计算,得到频谱过滤特征;
根据所述频谱过滤特征和所述融合频谱图特征进行预测计算,得到预测频谱特征;
根据所述预测频谱特征和所述标签频谱图特征进行损失计算,得到损失值,并根据所述损失值对所述语音分离模型进行迭代训练,直至所述语音分离模型收敛;
将待识别语音输入所述语音分离模型进行语音分离,以得音频分离文件。所述的存储介质,如:ROM/RAM、磁碟、光盘等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元或模块完成,即将存储装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
本领域技术人员可以理解,图3中示出的组成结构并不构成对本发明的语音分离系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,而图1-2中的语音分离方法亦采用图3中所示的更多或更少的部件,或者组合某些部件,或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标语音分离系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序,其均可存储于所述目标语音分离系统的存储设备(图未示)内。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种语音分离方法,其特征在于,所述方法包括:
获取样本音频,并对所述样本音频进行音频组合,得到标签音频数据;
对所述标签音频数据进行音频融合,得到融合音频,并对所述融合音频和标签音频数据进行频谱转换,得到融合频谱图特征和标签频谱图特征;
构建LSTM网络和Mask网络,得到语音分离模型,并将所述融合频谱图特征输入所述LSTM网络和所述Mask网络进行计算,得到频谱过滤特征;
根据所述频谱过滤特征和所述融合频谱图特征进行预测计算,得到预测频谱特征;
根据所述预测频谱特征和所述标签频谱图特征进行损失计算,得到损失值,并根据所述损失值对所述语音分离模型进行迭代训练,直至所述语音分离模型收敛;
将待识别语音输入所述语音分离模型进行语音分离,以得音频分离文件;
所述构建LSTM网络和Mask网络的步骤包括:构建Grid-LSTM网络,并在所述Grid-LSTM网络之后构建全连接网络;
在所述全连接网络之后构建一个双向LSTM网络,并构建两个全连接层;
所述对所述标签音频数据进行音频融合的步骤包括:将所述标签音频数据中的音频点数据根据时间点进行数据相加,以得到所述融合音频;
所述根据所述预测频谱特征和所述标签频谱图特征进行损失计算的步骤包括:将所述预测频谱特征与对应所述标签频谱图特征进行点对点的差值运算,以得到所述损失值;
所述根据所述频谱过滤特征和所述融合频谱图特征进行预测计算的步骤包括:将所述频谱过滤特征与对应所述融合频谱图特征进行点对点相乘,以得到所述预测频谱特征。
2.如权利要求1所述的语音分离方法,其特征在于,两个所述全连接层用于将所述双向LSTM网络的输出结果转为时间帧数*129维度。
3.如权利要求2所述的语音分离方法,其特征在于,所述Grid-LSTM网络包括64个神经元,所述Grid-LSTM网络的输出结果为时间帧数*1408;
所述双向LSTM网络包括前向LSTM网络和后向LSTM网络,所述前向LSTM网络和所述后向LSTM网络均是3层结构,均包括896个神经元。
4.如权利要求1所述的语音分离方法,其特征在于,所述根据所述损失值对所述语音分离模型进行迭代训练的步骤包括:
根据参数优化器对所述损失值进行迭代优化,并根据迭代优化结果对所述语音分离模型中的参数进行更新;
当判断到所述语音分离模型输出的所述损失值在预设损失范围内时,判定所述语音分离模型收敛,停止所述语音分离模型的更新。
5.一种语音分离系统,其特征在于,所述系统包括:
音频组合模块,用于获取样本音频,并对所述样本音频进行音频组合,得到标签音频数据;
音频融合模块,用于对所述标签音频数据进行音频融合,得到融合音频,并对所述融合音频和标签音频数据进行频谱转换,得到融合频谱图特征和标签频谱图特征;
网络构建模块,用于构建LSTM网络和Mask网络,得到语音分离模型,并将所述融合频谱图特征输入所述LSTM网络和所述Mask网络进行计算,得到频谱过滤特征;
预测计算模块,用于根据所述频谱过滤特征和所述融合频谱图特征进行预测计算,得到预测频谱特征;
模型训练模块,用于根据所述预测频谱特征和所述标签频谱图特征进行损失计算,得到损失值,并根据所述损失值对所述语音分离模型进行迭代训练,直至所述语音分离模型收敛;
语音分离模块,用于将待识别语音输入所述语音分离模型进行语音分离,以得音频分离文件;
所述网络构建模块还用于:构建Grid-LSTM网络,并在所述Grid-LSTM网络之后构建全连接网络;
在所述全连接网络之后构建一个双向LSTM网络,并构建两个全连接层;
所述音频融合模块还用于:将所述标签音频数据中的音频点数据根据时间点进行数据相加,以得到所述融合音频;
所述模型训练模块还用于:将所述预测频谱特征与对应所述标签频谱图特征进行点对点的差值运算,以得到所述损失值;
所述预测计算模块,还用于:将所述频谱过滤特征与对应所述融合频谱图特征进行点对点相乘,以得到所述预测频谱特征。
6.一种移动终端,其特征在于,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至4任一项所述的语音分离方法。
7.一种存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4任一项所述的语音分离方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010105157.6A CN111370031B (zh) | 2020-02-20 | 2020-02-20 | 语音分离方法、系统、移动终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010105157.6A CN111370031B (zh) | 2020-02-20 | 2020-02-20 | 语音分离方法、系统、移动终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111370031A CN111370031A (zh) | 2020-07-03 |
CN111370031B true CN111370031B (zh) | 2023-05-05 |
Family
ID=71206198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010105157.6A Active CN111370031B (zh) | 2020-02-20 | 2020-02-20 | 语音分离方法、系统、移动终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111370031B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113113044B (zh) * | 2021-03-23 | 2023-05-09 | 北京小米松果电子有限公司 | 音频处理方法及装置、终端及存储介质 |
CN113362831A (zh) * | 2021-07-12 | 2021-09-07 | 科大讯飞股份有限公司 | 一种说话人分离方法及其相关设备 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9818431B2 (en) * | 2015-12-21 | 2017-11-14 | Microsoft Technoloogy Licensing, LLC | Multi-speaker speech separation |
US9842609B2 (en) * | 2016-02-16 | 2017-12-12 | Red Pill VR, Inc. | Real-time adaptive audio source separation |
CN106920545B (zh) * | 2017-03-21 | 2020-07-28 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音特征提取方法和装置 |
CN107452389B (zh) * | 2017-07-20 | 2020-09-01 | 大象声科(深圳)科技有限公司 | 一种通用的单声道实时降噪方法 |
US10839822B2 (en) * | 2017-11-06 | 2020-11-17 | Microsoft Technology Licensing, Llc | Multi-channel speech separation |
CN108932950B (zh) * | 2018-05-18 | 2021-07-09 | 华南师范大学 | 一种基于标签扩增与多频谱图融合的声音场景识别方法 |
CN109830245B (zh) * | 2019-01-02 | 2021-03-12 | 北京大学 | 一种基于波束成形的多说话者语音分离方法及系统 |
CN109935243A (zh) * | 2019-02-25 | 2019-06-25 | 重庆大学 | 基于vtlp数据增强及多尺度时频域空洞卷积模型的语音情感识别方法 |
CN110459237B (zh) * | 2019-04-12 | 2020-11-20 | 腾讯科技(深圳)有限公司 | 语音分离方法、语音识别方法及相关设备 |
CN110120224B (zh) * | 2019-05-10 | 2023-01-20 | 平安科技(深圳)有限公司 | 鸟声识别模型的构建方法、装置、计算机设备及存储介质 |
CN110335622B (zh) * | 2019-06-13 | 2024-03-01 | 平安科技(深圳)有限公司 | 音频单音色分离方法、装置、计算机设备及存储介质 |
CN110600018B (zh) * | 2019-09-05 | 2022-04-26 | 腾讯科技(深圳)有限公司 | 语音识别方法及装置、神经网络训练方法及装置 |
-
2020
- 2020-02-20 CN CN202010105157.6A patent/CN111370031B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111370031A (zh) | 2020-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111370032B (zh) | 语音分离方法、系统、移动终端及存储介质 | |
JP2021086154A (ja) | 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
CN110782872A (zh) | 基于深度卷积循环神经网络的语种识别方法及装置 | |
CN108172213B (zh) | 娇喘音频识别方法、装置、设备及计算机可读介质 | |
US8010343B2 (en) | Disambiguation systems and methods for use in generating grammars | |
US8909525B2 (en) | Interactive voice recognition electronic device and method | |
CN104036774A (zh) | 藏语方言识别方法及系统 | |
CN108364650B (zh) | 语音识别结果的调整装置及方法 | |
CN111370031B (zh) | 语音分离方法、系统、移动终端及存储介质 | |
CN108269567A (zh) | 用于生成远场语音数据的方法、装置、计算设备以及计算机可读存储介质 | |
KR101131278B1 (ko) | 대화 로그를 이용한 학습 기반 대화 시스템 성능 향상 방법 및 그 장치 | |
CN108053023A (zh) | 一种自动式意图分类方法及装置 | |
CN110428835A (zh) | 一种语音设备的调节方法、装置、存储介质及语音设备 | |
CN105575402A (zh) | 网络教学实时语音分析方法 | |
CN113436609A (zh) | 语音转换模型及其训练方法、语音转换方法及系统 | |
CN115457938A (zh) | 识别唤醒词的方法、装置、存储介质及电子装置 | |
CN114530156A (zh) | 用于短语音说话人确认的生成对抗网络优化方法及系统 | |
CN110503958A (zh) | 语音识别方法、系统、移动终端及存储介质 | |
US11475876B2 (en) | Semantic recognition method and semantic recognition device | |
CN109271480B (zh) | 一种语音搜题方法及电子设备 | |
CN113225659A (zh) | 设备测试方法及电子设备 | |
CN111968620A (zh) | 算法的测试方法、装置、电子设备及存储介质 | |
CN105551502A (zh) | 网络教学实时语音分析系统 | |
CN112489678A (zh) | 一种基于信道特征的场景识别方法及装置 | |
Saijo et al. | A Single Speech Enhancement Model Unifying Dereverberation, Denoising, Speaker Counting, Separation, and Extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |