CN116665693A - 一种基于人工智能的语音增强方法 - Google Patents
一种基于人工智能的语音增强方法 Download PDFInfo
- Publication number
- CN116665693A CN116665693A CN202310934524.7A CN202310934524A CN116665693A CN 116665693 A CN116665693 A CN 116665693A CN 202310934524 A CN202310934524 A CN 202310934524A CN 116665693 A CN116665693 A CN 116665693A
- Authority
- CN
- China
- Prior art keywords
- voice
- noisy
- clean
- noise
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 26
- 238000001228 spectrum Methods 0.000 claims abstract description 83
- 238000012360 testing method Methods 0.000 claims abstract description 20
- 238000003062 neural network model Methods 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 13
- 239000011159 matrix material Substances 0.000 claims description 24
- 239000003016 pheromone Substances 0.000 claims description 23
- 241000257303 Hymenoptera Species 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 15
- 238000011156 evaluation Methods 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000012805 post-processing Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 6
- 230000009467 reduction Effects 0.000 abstract description 6
- 230000009466 transformation Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001704 evaporation Methods 0.000 description 1
- 230000008020 evaporation Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/0332—Details of processing therefor involving modification of waveforms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Complex Calculations (AREA)
Abstract
本发明涉及语音增强技术领域,公开了一种基于人工智能的语音增强方法,获取纯净语音样本和噪声语音样本,将纯净语音样本和噪声语音样本经过短时傅里叶变换分别得到纯净语音幅度谱和带噪语音幅度谱;分别对纯净语音幅度谱和带噪语音幅度谱进行第一特征提取,得到纯净语音特征和带噪语音特征;将纯净语音特征和带噪语音特征输入神经网络模型中进行训练,得到语音增强模型;获取含噪的待增强语音,对待增强语音进行第二特征提取,得到噪声测试集;将噪声测试集输入语音增强模型中,进行波形重构,并基于含噪的待增强语音的混合相位,得到目标增强语音;本发明达到降噪的效果,有效提升用户体验,同时提高了语音的可懂度及识别准确度。
Description
技术领域
本发明涉及语音增强技术领域,具体涉及一种基于人工智能的语音增强方法。
背景技术
语言是实现人与人之间便捷交流的信息工具,而语音信号是实现这种工具功能的介质。然而在现实生活中,语音信号经常会被各种类型的背景噪声或其他干扰说话人语音,甚至混响、回声等干扰信号所污染。这样的语音,由于添加了干扰成分,一方面会导致人类主观听觉感受质量的下降,另一方面严重影响目标语音内容的可懂度。语音增强的主要目的就是消除语音信号中可能存在的干扰分量,恢复出干净的目标语音信号从而提高语音的质量和可懂度。语音增强在通信领域有重要意义,普通用户的电话通信或视频通信,通常都含有现实生活场景中的各种噪声或干扰说话人语音,此时就需要语音增强技术消除干扰分量,从而保证说话者所说的内容能被远端的听者准确无误地理解;目前语音增强方式降噪效果较差,用户体验差。
发明内容
本发明的目的是为了解决上述问题,设计了一种基于人工智能的语音增强方法。
本发明第一方面提供一种基于人工智能的语音增强方法,该方法包括以下步骤:
获取纯净语音样本和噪声语音样本,将所述纯净语音样本和所述噪声语音样本经过短时傅里叶变换分别得到纯净语音幅度谱和带噪语音幅度谱;
分别对所述纯净语音幅度谱和所述带噪语音幅度谱进行第一特征提取,得到纯净语音特征和带噪语音特征;
将所述纯净语音特征和所述带噪语音特征输入神经网络模型中进行训练,得到语音增强模型;
获取含噪的待增强语音,对所述待增强语音进行第二特征提取,得到噪声测试集;
将所述噪声测试集输入所述语音增强模型中,进行波形重构,并基于含噪的待增强语音的混合相位,得到目标增强语音。
可选的,在本发明第一方面的第一种实现方式中,所述获取纯净语音样本和噪声语音样本,将所述纯净语音样本和所述噪声语音样本经过短时傅里叶变换分别得到纯净语音幅度谱和带噪语音幅度谱,包括:
获取纯净语音样本和噪声语音样本,选择窗函数,根据所述窗函数的重叠因子,对所述噪声语音样本和所述纯净语音样本进行拆分,分别得到多段噪声语音信号和纯净语音信号;
将每段噪声语音信号和纯净语音信号与所述窗函数相乘进行窗口长度点傅里叶,得到初始纯净语音频谱和初始带噪语音频谱;
分别对所述初始纯净语音频谱和所述初始带噪语音频谱进行层次聚类,得到纯净语音簇中心和带噪语音簇中心;
基于所述纯净语音簇中心和所述带噪语音簇中心,得到纯净语音样本对应的纯净语音幅度谱、噪声语音样本对应的带噪语音幅度谱。
可选的,在本发明第一方面的第二种实现方式中,所述分别对所述初始纯净语音频谱和所述初始带噪语音频谱进行层次聚类,得到纯净语音簇中心和带噪语音簇中心,包括:
获取所述初始纯净语音频谱和所述初始带噪语音频谱中的元素,得到纯净语音元素集合和带噪语音集合,将所述纯净语音元素集合和所述带噪语音集合中的每个元素分别确定为簇;
计算所述纯净语音元素集合和所述带噪语音集合中每两个簇之间的簇间距离,并根据簇间距离,得到第一簇间距离矩阵和第二簇间距离矩阵;
基于所述第一簇间距离矩阵和所述第二簇间距离矩阵,分别选取出第一最小元素和第二最小元素;
基于所述第一最小元素和第二最小元素,分别更新所述第一簇间距离矩阵和所述第二簇间距离矩阵;
响应于预先设置的聚类簇数,根据所述聚类簇数,进行下一次聚类,直至不满足聚类条件,分别得到纯净语音簇中心和带噪语音簇中心。
可选的,在本发明第一方面的第三种实现方式中,所述第一簇间距离矩阵与所述纯净语音元素集合对应,所述第二簇间距离矩阵与所述带噪语音集合对应。
可选的,在本发明第一方面的第四种实现方式中,所述分别对所述纯净语音幅度谱和所述带噪语音幅度谱进行第一特征提取,得到纯净语音特征和带噪语音特征,包括:
获取所述纯净语音幅度谱和所述带噪语音幅度谱,将所述纯净语音幅度谱和所述带噪语音幅度谱划分为多个节点;
对所有节点信息素初值和蚂蚁数量进行初始化,蚂蚁开始游走,对所有蚂蚁进行构建解,得到对应的特征数和识别率;
采用适应度函数对所述特征数和识别率的质量进行评估,得到评估结果,并基于所述评估结果,对路径上的信息素值进行更新,计算出各个路径上新的信息素浓度值;
重新构建解,直到到达最大迭代次数后,得到纯净语音特征和带噪语音特征。
可选的,在本发明第一方面的第五种实现方式中,所述将所述纯净语音特征和所述带噪语音特征输入神经网络模型中进行训练,得到语音增强模型,包括:
将所述纯净语音特征和所述带噪语音特征作为输入,得到输入特征数据,建立编码器-解码器网络结构;
采用编码器-解码器网络结构对所述输入特征数据进行处理,得到样本特征数据,并将所述样本特征数据传输至并行循环模块;
采用所述并行循环模块的两个双向门控循环单元层分别对所述输入特征数据和所述样本特征数据进行特征建模,得到神经网络模型;
通过特征融合模块进行后处理,采用均方误差作为损失函数训练神经网络模型,进行参数调整,以构建语音增强模型。
可选的,在本发明第一方面的第六种实现方式中,所述编码器-解码器网络结构中编码器和解码器采用对称方式设置有归一化门控线性单元模块,特征映射的维度在编码器部分逐层加倍,在解码器部分逐层减半,相对应的归一化门控线性单元模块之间通过跳跃连接进行特征共享。
可选的,在本发明第一方面的第七种实现方式中,所述特征融合模块由一个全连接层、两个BiGRU层和一个输出层组成;
采用所述全连接层进行相似度计算,使用softmax函数对相似度权重进行归一化,将归一化处理后的相似度权重和神经网络模型的输出层相乘,得到注意力得分,根据所述注意力得分将相连的两种特征进行融合,得到融合特征数据,将所述融合特征数据传输至所述BiGRU层,提取局部特征,并由所述输出层进行输出。
可选的,在本发明第一方面的第八种实现方式中,所述将所述噪声测试集输入所述语音增强模型中,进行波形重构,包括:
获取所述噪声测试集,确定当前采样样本,并根据所述当前采样样本确定重构的起始点和接收点;
计算所述重构的起始点和接收点之间的距离,得到重构路径,并基于所述重构路径,构建扩展路径;
将所述当前采样样本分别经过所述重构路径和所述扩展路径,并进行合并,完成所述当前采样样本的输出;
对下一个采样样本进行重构并输出,直至所述噪声测试集重构序列完成。
可选的,在本发明第一方面的第九种实现方式中,所述重构路径和所述扩展路径均至少包括三个有效卷积和一个最大池化降采样,所述重构路径每次降采样之后大小降低为原来的1/2,所述扩展路径开始之前通过反卷积将尺寸乘以2,并将个数减少为原来的1/2。
本发明提供的技术方案中,通过获取纯净语音样本和噪声语音样本,将所述纯净语音样本和所述噪声语音样本经过短时傅里叶变换分别得到纯净语音幅度谱和带噪语音幅度谱;分别对所述纯净语音幅度谱和所述带噪语音幅度谱进行第一特征提取,得到纯净语音特征和带噪语音特征;将所述纯净语音特征和所述带噪语音特征输入神经网络模型中进行训练,得到语音增强模型;获取含噪的待增强语音,对所述待增强语音进行第二特征提取,得到噪声测试集;将所述噪声测试集输入所述语音增强模型中,进行波形重构,并基于含噪的待增强语音的混合相位,得到目标增强语音;本发明通过人工智能方法对含噪语音进行增强,使目标语音清晰化,从而达到降噪的效果,有效提升用户体验,同时提高了语音的可懂度及识别准确度。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。
图1为本发明实施例提供的基于人工智能的语音增强方法的第一个实施例示意图;
图2为本发明实施例提供的基于人工智能的语音增强方法的第二个实施例示意图;
图3为本发明实施例提供的基于人工智能的语音增强方法的第三个实施例示意图;
图4为本发明实施例提供的基于人工智能的语音增强方法的第四个实施例示意图。
具体实施方式
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、设备、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1本发明实施例提供的基于人工智能的语音增强方法的第一个实施例示意图,该方法具体包括以下步骤:
步骤101、获取纯净语音样本和噪声语音样本,将纯净语音样本和噪声语音样本经过短时傅里叶变换分别得到纯净语音幅度谱和带噪语音幅度谱;
本实施例中,短时傅里叶变换是线性时频分析中的一种。实现方式是:在时域用窗函数截断,对窗信号做傅里叶变换,即得到该时刻的傅里叶变换,不断地移动窗口的中心位置,即可得到不同时刻的傅里叶变换,这些傅里叶变换的集合就是短时傅里叶变换,得到的图形叫时频图,横坐标是时间,纵坐标是频率,z轴是信号能量/功率。短时傅里叶变换选用短窗口,会有较高的时间分辨率,但频率分辨率较差;选用长窗口,会有较高的频率分辨率,但时间分辨率就差。所以,在应用中要注意时窗和频窗宽度的折衷;短时傅里叶变换就是通过窗内的一段信号来表示某一时刻的信号特征,傅里叶变换就是先把一个函数和窗函数进行相乘,然后再进行一维的傅里叶变换,并通过窗函数的滑动得到一系列的频谱函数,所以最终得到一个二维的时频图。
步骤102、分别对纯净语音幅度谱和带噪语音幅度谱进行第一特征提取,得到纯净语音特征和带噪语音特征;
步骤103、将纯净语音特征和带噪语音特征输入神经网络模型中进行训练,得到语音增强模型;
步骤104、获取含噪的待增强语音,对待增强语音进行第二特征提取,得到噪声测试集;
步骤105、将噪声测试集输入语音增强模型中,进行波形重构,并基于含噪的待增强语音的混合相位,得到目标增强语音。
本实施例中,获取噪声测试集,确定当前采样样本,并根据当前采样样本确定重构的起始点和接收点;计算重构的起始点和接收点之间的距离,得到重构路径,并基于重构路径,构建扩展路径;将当前采样样本分别经过重构路径和扩展路径,并进行合并,完成当前采样样本的输出;对下一个采样样本进行重构并输出,直至噪声测试集重构序列完成。
本实施例中,重构路径和扩展路径均至少包括三个有效卷积和一个最大池化降采样,重构路径每次降采样之后大小降低为原来的1/2,扩展路径开始之前通过反卷积将尺寸乘以2,并将个数减少为原来的1/2。
本发明实施例中,通过获取纯净语音样本和噪声语音样本,将纯净语音样本和噪声语音样本经过短时傅里叶变换分别得到纯净语音幅度谱和带噪语音幅度谱;分别对纯净语音幅度谱和带噪语音幅度谱进行第一特征提取,得到纯净语音特征和带噪语音特征;将纯净语音特征和带噪语音特征输入神经网络模型中进行训练,得到语音增强模型;获取含噪的待增强语音,对待增强语音进行第二特征提取,得到噪声测试集;将噪声测试集输入语音增强模型中,进行波形重构,并基于含噪的待增强语音的混合相位,得到目标增强语音;本发明通过人工智能方法对含噪语音进行增强,使目标语音清晰化,从而达到降噪的效果,有效提升用户体验,同时提高了语音的可懂度及识别准确度。
请参阅图2,本发明实施例提供的基于人工智能的语音增强方法的第二个实施例示意图,该方法包括:
步骤201、获取纯净语音样本和噪声语音样本,选择窗函数,根据窗函数的重叠因子,对噪声语音样本和纯净语音样本进行拆分,分别得到多段噪声语音信号和纯净语音信号;
步骤202、将每段噪声语音信号和纯净语音信号与窗函数相乘进行窗口长度点傅里叶,得到初始纯净语音频谱和初始带噪语音频谱;
步骤203、分别对初始纯净语音频谱和初始带噪语音频谱进行层次聚类,得到纯净语音簇中心和带噪语音簇中心;
本实施例中,获取初始纯净语音频谱和初始带噪语音频谱中的元素,得到纯净语音元素集合和带噪语音集合,将纯净语音元素集合和带噪语音集合中的每个元素分别确定为簇;计算纯净语音元素集合和带噪语音集合中每两个簇之间的簇间距离,并根据簇间距离,得到第一簇间距离矩阵和第二簇间距离矩阵;基于第一簇间距离矩阵和第二簇间距离矩阵,分别选取出第一最小元素和第二最小元素;基于第一最小元素和第二最小元素,分别更新第一簇间距离矩阵和第二簇间距离矩阵;响应于预先设置的聚类簇数,根据聚类簇数,进行下一次聚类,直至不满足聚类条件,分别得到纯净语音簇中心和带噪语音簇中心。
本实施例中,第一簇间距离矩阵与纯净语音元素集合对应,第二簇间距离矩阵与带噪语音集合对应。
步骤204、基于纯净语音簇中心和带噪语音簇中心,得到纯净语音样本对应的纯净语音幅度谱、噪声语音样本对应的带噪语音幅度谱。
本发明实施例中,通过获取纯净语音样本和噪声语音样本,选择窗函数,根据窗函数的重叠因子,对噪声语音样本和纯净语音样本进行拆分,分别得到多段噪声语音信号和纯净语音信号,将每段噪声语音信号和纯净语音信号与窗函数相乘进行窗口长度点傅里叶,得到初始纯净语音频谱和初始带噪语音频谱,分别对初始纯净语音频谱和初始带噪语音频谱进行层次聚类,得到纯净语音簇中心和带噪语音簇中心,基于纯净语音簇中心和带噪语音簇中心,得到纯净语音样本对应的纯净语音幅度谱、噪声语音样本对应的带噪语音幅度谱;本发明提高了纯净语音样本和噪声语音样本进行变换,有利于提高后续语音增强的效率。
请参阅图3,本发明实施例提供的基于人工智能的语音增强方法的第三个实施例示意图,该方法包括:
步骤301、获取纯净语音幅度谱和带噪语音幅度谱,将纯净语音幅度谱和带噪语音幅度谱划分为多个节点;
步骤302、对所有节点信息素初值和蚂蚁数量进行初始化,蚂蚁开始游走,对所有蚂蚁进行构建解,得到对应的特征数和识别率;
步骤303、采用适应度函数对特征数和识别率的质量进行评估,得到评估结果,并基于评估结果,对路径上的信息素值进行更新,计算出各个路径上新的信息素浓度值;
步骤304、重新构建解,直到到达最大迭代次数后,得到纯净语音特征和带噪语音特征。
本实施例中,蚁群算法,又称蚂蚁算法,是一种用来在图中寻找优化路径的机率型算法,蚁群算法是一种模拟进化算法,初步的研究表明该算法具有许多优良的性质;蚂蚁会持续游走直到都构建出一条稳定的路径,这个过程就是解的构建。对路径上的信息素值进行更新,计算出各个路径上新的信息素浓度值,这个时候各个路径上的信息素浓度已经出现了明显的不均匀分布。更新的信息素会指引着后续的蚂蚁选择新的道路,这是从个体到整体的连接;信息素既要有增加也要有减少,不然信息素浓度会持续增大,达到极限值。一方面,蚂蚁在行走的过程中,会自动释放固定值大小的单位信息素浓度,这条路上的信息素会增加,这是信息素的释放。另一方面每次迭代后,路径上的信息素会减少一定量的信息素,这是信息素的蒸发。
本发明实施例中,通过取纯净语音幅度谱和带噪语音幅度谱,将纯净语音幅度谱和带噪语音幅度谱划分为多个节点,对所有节点信息素初值和蚂蚁数量进行初始化,蚂蚁开始游走,对所有蚂蚁进行构建解,得到对应的特征数和识别率;采用适应度函数对特征数和识别率的质量进行评估,得到评估结果,并基于评估结果,对路径上的信息素值进行更新,计算出各个路径上新的信息素浓度值;重新构建解,直到到达最大迭代次数后,得到纯净语音特征和带噪语音特征;本发明采用蚂蚁算法进行特征提取,增加了算法的搜索能力,提高了寻找到全局最优解的可能性,具有很强的鲁棒性。
请参阅图4,本发明实施例提供的基于人工智能的语音增强方法的第四个实施例示意图,该方法包括:
步骤401、将纯净语音特征和带噪语音特征作为输入,得到输入特征数据,建立编码器-解码器网络结构;
本实施例中,编码器-解码器网络结构中编码器和解码器采用对称方式设置有归一化门控线性单元模块,特征映射的维度在编码器部分逐层加倍,在解码器部分逐层减半,相对应的归一化门控线性单元模块之间通过跳跃连接进行特征共享。
步骤402、采用编码器-解码器网络结构对输入特征数据进行处理,得到样本特征数据,并将样本特征数据传输至并行循环模块;
步骤403、采用并行循环模块的两个双向门控循环单元层分别对输入特征数据和样本特征数据进行特征建模,得到神经网络模型;
本实施例中,LSTM通过门控机制使循环神经网络不仅能记忆过去的信息,同时还能选择性地忘记一些不重要的信息而对长期语境等关系进行建模,而 GRU 基于这样的想法在保留长期序列信息下减少梯度消失问题。相比LSTM,使用GRU能够达到相当的效果,并且相比之下更容易进行训练,能够很大程度上提高训练效率;并行循环模块可以对时域上下文信息进行有效建模,传统的循环层只由简单的循环连接和激活函数构成,会带来梯度消失问题。LSTM 层由输入门、遗忘门、输出门构成,通过控制进出单元的信息流来有效解决RNN 中的梯度消失问题但相比普通的循环层,ISTM 层的参数数量提高了约 3倍,计算代价和内存消耗大幅提升,不利于实际应用GRU3作为 LSTM 的替代品,将 LSTM的3 个门简化为重置门和更新门,同时舍弃了二阶非线性输出。
步骤404、通过特征融合模块进行后处理,采用均方误差作为损失函数训练神经网络模型,进行参数调整,以构建语音增强模型。
本实施例中,特征融合模块由一个全连接层、两个BiGRU层和一个输出层组成;采用全连接层进行相似度计算,使用softmax函数对相似度权重进行归一化,将归一化处理后的相似度权重和神经网络模型的输出层相乘,得到注意力得分,根据注意力得分将相连的两种特征进行融合,得到融合特征数据,将融合特征数据传输至BiGRU层,提取局部特征,并由输出层进行输出。
本实施例中,均方误差MSE通过计算预测值和实际值之间距离,即误差的平方来衡量模型优劣。即预测值和真实值越接近,两者的均方差就越小。MSE的值越小,说明预测模型描述实验数据具有更好的精确度。均方误差损失又称为二次损失、L2损失,常用于回归预测任务中;均方误差和方差是高度一致的,只是参与计算的变量(项)不同,所以度量的角度也就不同,方差是用来衡量一组数自身的离散程度,而均方误差是用来衡量观测值(真值)与预测值之间的偏差。
本发明实施例中,通过将纯净语音特征和带噪语音特征作为输入,得到输入特征数据,建立编码器-解码器网络结构,采用编码器-解码器网络结构对输入特征数据进行处理,得到样本特征数据,并将样本特征数据传输至并行循环模块,采用并行循环模块的两个双向门控循环单元层分别对输入特征数据和样本特征数据进行特征建模,得到神经网络模型,通过特征融合模块进行后处理,采用均方误差作为损失函数训练神经网络模型,进行参数调整,以构建语音增强模型;本发明构建语音增强模型,通过语音增强模型进行语音增强,对含噪语音进行增强,使目标语音清晰化,从而达到降噪的效果,有效提升用户体验,同时提高了语音的可懂度及识别准确度。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (10)
1.一种基于人工智能的语音增强方法,其特征在于,该方法包括以下步骤:
获取纯净语音样本和噪声语音样本,将所述纯净语音样本和所述噪声语音样本经过短时傅里叶变换分别得到纯净语音幅度谱和带噪语音幅度谱;
分别对所述纯净语音幅度谱和所述带噪语音幅度谱进行第一特征提取,得到纯净语音特征和带噪语音特征;
将所述纯净语音特征和所述带噪语音特征输入神经网络模型中进行训练,得到语音增强模型;
获取含噪的待增强语音,对所述待增强语音进行第二特征提取,得到噪声测试集;
将所述噪声测试集输入所述语音增强模型中,进行波形重构,并基于含噪的待增强语音的混合相位,得到目标增强语音。
2.如权利要求1所述的一种基于人工智能的语音增强方法,其特征在于,所述获取纯净语音样本和噪声语音样本,将所述纯净语音样本和所述噪声语音样本经过短时傅里叶变换分别得到纯净语音幅度谱和带噪语音幅度谱,包括:
获取纯净语音样本和噪声语音样本,选择窗函数,根据所述窗函数的重叠因子,对所述噪声语音样本和所述纯净语音样本进行拆分,分别得到多段噪声语音信号和纯净语音信号;
将每段噪声语音信号和纯净语音信号与所述窗函数相乘进行窗口长度点傅里叶,得到初始纯净语音频谱和初始带噪语音频谱;
分别对所述初始纯净语音频谱和所述初始带噪语音频谱进行层次聚类,得到纯净语音簇中心和带噪语音簇中心;
基于所述纯净语音簇中心和所述带噪语音簇中心,得到纯净语音样本对应的纯净语音幅度谱、噪声语音样本对应的带噪语音幅度谱。
3.如权利要求2所述的一种基于人工智能的语音增强方法,其特征在于,所述分别对所述初始纯净语音频谱和所述初始带噪语音频谱进行层次聚类,得到纯净语音簇中心和带噪语音簇中心,包括:
获取所述初始纯净语音频谱和所述初始带噪语音频谱中的元素,得到纯净语音元素集合和带噪语音集合,将所述纯净语音元素集合和所述带噪语音集合中的每个元素分别确定为簇;
计算所述纯净语音元素集合和所述带噪语音集合中每两个簇之间的簇间距离,并根据簇间距离,得到第一簇间距离矩阵和第二簇间距离矩阵;
基于所述第一簇间距离矩阵和所述第二簇间距离矩阵,分别选取出第一最小元素和第二最小元素;
基于所述第一最小元素和第二最小元素,分别更新所述第一簇间距离矩阵和所述第二簇间距离矩阵;
响应于预先设置的聚类簇数,根据所述聚类簇数,进行下一次聚类,直至不满足聚类条件,分别得到纯净语音簇中心和带噪语音簇中心。
4.如权利要求3所述的一种基于人工智能的语音增强方法,其特征在于,所述第一簇间距离矩阵与所述纯净语音元素集合对应,所述第二簇间距离矩阵与所述带噪语音集合对应。
5.如权利要求1所述的一种基于人工智能的语音增强方法,其特征在于,所述分别对所述纯净语音幅度谱和所述带噪语音幅度谱进行第一特征提取,得到纯净语音特征和带噪语音特征,包括:
获取所述纯净语音幅度谱和所述带噪语音幅度谱,将所述纯净语音幅度谱和所述带噪语音幅度谱划分为多个节点;
对所有节点信息素初值和蚂蚁数量进行初始化,蚂蚁开始游走,对所有蚂蚁进行构建解,得到对应的特征数和识别率;
采用适应度函数对所述特征数和识别率的质量进行评估,得到评估结果,并基于所述评估结果,对路径上的信息素值进行更新,计算出各个路径上新的信息素浓度值;
重新构建解,直到到达最大迭代次数后,得到纯净语音特征和带噪语音特征。
6.如权利要求1所述的一种基于人工智能的语音增强方法,其特征在于,所述将所述纯净语音特征和所述带噪语音特征输入神经网络模型中进行训练,得到语音增强模型,包括:
将所述纯净语音特征和所述带噪语音特征作为输入,得到输入特征数据,建立编码器-解码器网络结构;
采用编码器-解码器网络结构对所述输入特征数据进行处理,得到样本特征数据,并将所述样本特征数据传输至并行循环模块;
采用所述并行循环模块的两个双向门控循环单元层分别对所述输入特征数据和所述样本特征数据进行特征建模,得到神经网络模型;
通过特征融合模块进行后处理,采用均方误差作为损失函数训练神经网络模型,进行参数调整,以构建语音增强模型。
7.如权利要求6所述的一种基于人工智能的语音增强方法,其特征在于,所述编码器-解码器网络结构中编码器和解码器采用对称方式设置有归一化门控线性单元模块,特征映射的维度在编码器部分逐层加倍,在解码器部分逐层减半,相对应的归一化门控线性单元模块之间通过跳跃连接进行特征共享。
8.如权利要求6所述的一种基于人工智能的语音增强方法,其特征在于,所述特征融合模块由一个全连接层、两个BiGRU层和一个输出层组成;
采用所述全连接层进行相似度计算,使用softmax函数对相似度权重进行归一化,将归一化处理后的相似度权重和神经网络模型的输出层相乘,得到注意力得分,根据所述注意力得分将相连的两种特征进行融合,得到融合特征数据,将所述融合特征数据传输至所述BiGRU层,提取局部特征,并由所述输出层进行输出。
9.如权利要求1所述的一种基于人工智能的语音增强方法,其特征在于,所述将所述噪声测试集输入所述语音增强模型中,进行波形重构,包括:
获取所述噪声测试集,确定当前采样样本,并根据所述当前采样样本确定重构的起始点和接收点;
计算所述重构的起始点和接收点之间的距离,得到重构路径,并基于所述重构路径,构建扩展路径;
将所述当前采样样本分别经过所述重构路径和所述扩展路径,并进行合并,完成所述当前采样样本的输出;
对下一个采样样本进行重构并输出,直至所述噪声测试集重构序列完成。
10.如权利要求9所述的一种基于人工智能的语音增强方法,其特征在于,所述重构路径和所述扩展路径均至少包括三个有效卷积和一个最大池化降采样,所述重构路径每次降采样之后大小降低为原来的1/2,所述扩展路径开始之前通过反卷积将尺寸乘以2,并将个数减少为原来的1/2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310934524.7A CN116665693B (zh) | 2023-07-28 | 2023-07-28 | 一种基于人工智能的语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310934524.7A CN116665693B (zh) | 2023-07-28 | 2023-07-28 | 一种基于人工智能的语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116665693A true CN116665693A (zh) | 2023-08-29 |
CN116665693B CN116665693B (zh) | 2023-10-03 |
Family
ID=87722716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310934524.7A Active CN116665693B (zh) | 2023-07-28 | 2023-07-28 | 一种基于人工智能的语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116665693B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170092268A1 (en) * | 2015-09-28 | 2017-03-30 | Trausti Thor Kristjansson | Methods for speech enhancement and speech recognition using neural networks |
US20200066296A1 (en) * | 2018-08-21 | 2020-02-27 | 2Hz, Inc | Speech Enhancement And Noise Suppression Systems And Methods |
JP2020076907A (ja) * | 2018-11-09 | 2020-05-21 | 沖電気工業株式会社 | 信号処理装置、信号処理プログラム及び信号処理方法 |
CN113823301A (zh) * | 2021-08-23 | 2021-12-21 | 上海闻泰信息技术有限公司 | 语音增强模型的训练方法和装置及语音增强方法和装置 |
CN115171714A (zh) * | 2022-06-21 | 2022-10-11 | 深圳市北科瑞声科技股份有限公司 | 一种语音增强方法、装置、电子设备及存储介质 |
WO2022256577A1 (en) * | 2021-06-02 | 2022-12-08 | Board Of Regents, The University Of Texas System | A method of speech enhancement and a mobile computing device implementing the method |
CN115497496A (zh) * | 2022-09-22 | 2022-12-20 | 东南大学 | 一种基于FirePS卷积神经网络的语音增强方法 |
CN116052706A (zh) * | 2023-03-30 | 2023-05-02 | 苏州清听声学科技有限公司 | 一种基于神经网络的低复杂度语音增强方法 |
CN116110421A (zh) * | 2021-11-11 | 2023-05-12 | 深圳市韶音科技有限公司 | 语音活动检测方法、系统、语音增强方法以及系统 |
-
2023
- 2023-07-28 CN CN202310934524.7A patent/CN116665693B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170092268A1 (en) * | 2015-09-28 | 2017-03-30 | Trausti Thor Kristjansson | Methods for speech enhancement and speech recognition using neural networks |
US20200066296A1 (en) * | 2018-08-21 | 2020-02-27 | 2Hz, Inc | Speech Enhancement And Noise Suppression Systems And Methods |
JP2020076907A (ja) * | 2018-11-09 | 2020-05-21 | 沖電気工業株式会社 | 信号処理装置、信号処理プログラム及び信号処理方法 |
WO2022256577A1 (en) * | 2021-06-02 | 2022-12-08 | Board Of Regents, The University Of Texas System | A method of speech enhancement and a mobile computing device implementing the method |
CN113823301A (zh) * | 2021-08-23 | 2021-12-21 | 上海闻泰信息技术有限公司 | 语音增强模型的训练方法和装置及语音增强方法和装置 |
CN116110421A (zh) * | 2021-11-11 | 2023-05-12 | 深圳市韶音科技有限公司 | 语音活动检测方法、系统、语音增强方法以及系统 |
CN115171714A (zh) * | 2022-06-21 | 2022-10-11 | 深圳市北科瑞声科技股份有限公司 | 一种语音增强方法、装置、电子设备及存储介质 |
CN115497496A (zh) * | 2022-09-22 | 2022-12-20 | 东南大学 | 一种基于FirePS卷积神经网络的语音增强方法 |
CN116052706A (zh) * | 2023-03-30 | 2023-05-02 | 苏州清听声学科技有限公司 | 一种基于神经网络的低复杂度语音增强方法 |
Non-Patent Citations (2)
Title |
---|
MOUNIRA CHAIANI: "Voice disorder classification using speech enhancement and deep learning models", 《BIOCYBERNETICS AND BIOMEDICAL ENGINEERING》, vol. 42, no. 2, pages 463 - 480 * |
郑莉: "基于深度神经网络的语音增强算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 1, pages 136 - 556 * |
Also Published As
Publication number | Publication date |
---|---|
CN116665693B (zh) | 2023-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Heittola et al. | The machine learning approach for analysis of sound scenes and events | |
CN103065629A (zh) | 一种仿人机器人的语音识别系统 | |
CN108922513A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
Drossos et al. | Mad twinnet: Masker-denoiser architecture with twin networks for monaural sound source separation | |
CN111582020A (zh) | 信号处理方法、装置、计算机设备及存储介质 | |
Yuan | A time–frequency smoothing neural network for speech enhancement | |
CN114169645A (zh) | 一种智能电网短期负荷预测方法 | |
CN111883181A (zh) | 音频检测方法、装置、存储介质及电子装置 | |
Wang et al. | Speech enhancement from fused features based on deep neural network and gated recurrent unit network | |
Lim et al. | Harmonic and percussive source separation using a convolutional auto encoder | |
CN113837122B (zh) | 基于Wi-Fi信道状态信息的无接触式人体行为识别方法及系统 | |
Naranjo-Alcazar et al. | On the performance of residual block design alternatives in convolutional neural networks for end-to-end audio classification | |
CN114822578A (zh) | 语音降噪方法、装置、设备及存储介质 | |
Chan et al. | Speech enhancement strategy for speech recognition microcontroller under noisy environments | |
US20230395094A1 (en) | Speech processing method, computer storage medium, and electronic device | |
CN116665693B (zh) | 一种基于人工智能的语音增强方法 | |
CN114387997A (zh) | 一种基于深度学习的语音情感识别方法 | |
Wang et al. | Deep learning approaches for voice activity detection | |
Sofer et al. | CNN self-attention voice activity detector | |
CN112786068B (zh) | 一种音频音源分离方法、装置及存储介质 | |
Oostermeijer et al. | Frequency gating: Improved convolutional neural networks for speech enhancement in the time-frequency domain | |
Li et al. | MDNet: Learning monaural speech enhancement from deep prior gradient | |
CN111354352B (zh) | 一种用于音频检索的模板自动清洗方法及系统 | |
Wang et al. | Multi‐stage attention network for monaural speech enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |