CN111710346A - 音频处理方法、装置、计算机设备以及存储介质 - Google Patents
音频处理方法、装置、计算机设备以及存储介质 Download PDFInfo
- Publication number
- CN111710346A CN111710346A CN202010557991.9A CN202010557991A CN111710346A CN 111710346 A CN111710346 A CN 111710346A CN 202010557991 A CN202010557991 A CN 202010557991A CN 111710346 A CN111710346 A CN 111710346A
- Authority
- CN
- China
- Prior art keywords
- audio
- gain
- sample
- target
- prediction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 230000003595 spectral effect Effects 0.000 claims abstract description 107
- 238000001228 spectrum Methods 0.000 claims abstract description 95
- 238000000034 method Methods 0.000 claims abstract description 62
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 43
- 230000006870 function Effects 0.000 claims description 131
- 238000003062 neural network model Methods 0.000 claims description 32
- 230000000306 recurrent effect Effects 0.000 claims description 31
- 230000001629 suppression Effects 0.000 claims description 29
- 230000014759 maintenance of location Effects 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 22
- 238000010183 spectrum analysis Methods 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 5
- 230000001902 propagating effect Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 12
- 230000001419 dependent effect Effects 0.000 description 10
- 238000013473 artificial intelligence Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000005311 autocorrelation function Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请实施例公开了一种音频处理方法、装置、计算机设备以及存储介质,音频处理方法包括:获取正样本音频的正样本频谱特征,以及获取负样本音频的负样本频谱特征;基于样本增益预测模型和负样本频谱特征确定负样本音频的的预测音频增益,并根据正样本频谱特征和负样本频谱特征确定负样本音频的样本音频增益,根据样本音频增益或预测音频增益调整样本增益预测模型的模型损失函数,根据调整后的模型损失函数训练样本增益预测模型,得到目标增益预测模型;目标增益预测模型用于预测目标音频的目标音频增益。采用本申请,可以提高预测模型的预测准确率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种音频处理方法、装置、计算机设备以及存储介质。
背景技术
随着互联网技术的快速发展及手持录音设备的普及,人们可获取的音频数据呈爆炸式增长,但获取的音频数据的音频质量较低,大量的音频数据中都包含噪声。为了抑制音频数据中的噪声需要对音频数据进行增益,可以采用人工智能的方法训练增益预测模型,该模型用于预测音频数据的增益信息。
增益预测模型的损失函数会直接决定模型的训练效果,目前在模型开始训练前就会确定模型的损失函数,一旦确定了损失函数在整个模型训练过程中损失函数不会发生变化,然而参与模型训练的大量样本之间可能存在较大差异,固定不变的损失函数不能匹配存在较大差异的训练样本,从而造成训练的预测模型的预测准确率低下。
发明内容
本申请实施例提供一种音频处理方法、装置、计算设备以及存储介质,可以提高预测模型的预测准确率。
本申请实施例一方面提供了一种音频处理方法,包括:
获取正样本音频的正样本频谱特征,以及获取负样本音频的负样本频谱特征;所述负样本音频和所述正样本音频具有关联关系,所述正样本音频是包含噪声的音频,所述负样本音频是不包含噪声的音频;
基于样本增益预测模型和所述负样本频谱特征确定所述负样本音频的的预测音频增益,并根据所述正样本频谱特征和所述负样本频谱特征确定所述负样本音频的样本音频增益;
根据所述样本音频增益或所述预测音频增益调整所述样本增益预测模型的模型损失函数,根据调整后的模型损失函数训练所述样本增益预测模型,得到目标增益预测模型;所述目标增益预测模型用于预测目标音频的目标音频增益。
本申请实施例一方面提供了一种音频处理装置,包括:
第一获取模块,用于获取正样本音频的正样本频谱特征;
第二获取模块,用于获取负样本音频的负样本频谱特征;所述负样本音频和所述正样本音频具有关联关系,所述正样本音频是包含噪声的音频,所述负样本音频是不包含噪声的音频;
增益确定模块,用于基于样本增益预测模型和所述负样本频谱特征确定所述负样本音频的的预测音频增益;
所述第二获取模块,还用于根据所述正样本频谱特征和所述负样本频谱特征确定所述负样本音频的样本音频增益;
调整模块,用于根据所述样本音频增益或所述预测音频增益调整所述样本增益预测模型的模型损失函数;
训练模块,用于根据调整后的模型损失函数训练所述样本增益预测模型,得到目标增益预测模型;所述目标增益预测模型用于预测目标音频的目标音频增益。
其中,所述模型损失函数包括:第一损失函数、第二损失函数以及所述第一损失函数和所述第二损失函数的平衡参数;
所述调整模块,包括:
调整单元,用于根据所述样本音频增益或所述预测音频增益调整所述平衡参数;
组合单元,用于根据调整后的平衡参数以及所述第一损失函数生成噪声抑制损失函数,根据调整后的平衡参数以及所述第二损失函数生成语音保留损失函数,将所述噪声抑制损失函数和所述语音保留损失函数组合为调整后的模型损失函数。
其中,所述训练模块,具体用于根据所述噪声抑制损失函数、所述预测音频增益以及所述样本音频增益确定所述负样本音频的噪声抑制误差,根据所述语音保留损失函数、所述预测音频增益以及所述样本音频增益确定所述负样本音频的语音保留误差,将所述噪声抑制误差和所述语音保留误差融合为目标误差,将所述目标误差反向传播至所述样本增益预测模型,以调整所述样本增益预测模型的模型参数,当调整后的样本增益预测模型满足模型收敛条件时,将调整后的样本增益预测模型作为所述目标增益预测模型。
其中,还包括:
收敛确定模块,用于若对样本增益预测模型的调整次数达到次数阈值,则确定调整后的样本增益预测模型满足所述模型收敛条件;或,
所述收敛确定模块,还用于若调整后的样本增益预测模型的模型参数和调整前的样本增益预测模型的模型参数之间的差异量小于差异量阈值,则确定调整后的样本增益预测模型满足所述模型收敛条件。
其中,还包括:
添加模块,用于获取所述正样本音频,向所述正样本音频添加噪声,得到所述负样本音频,为所述正样本音频和所述负样本音频建立关联关系。
其中,所述第一获取模块,具体用于将所述正样本音频转换为正样本时域信号,对所述正样本时域信号进行频谱分析,得到正样本频域信号,对所述正样本频域信号采样,得到所述正样本频谱特征;所述正样本频谱特征的特征类型属于能量谱特征类型或功率谱特征类型,所述正样本频谱特征所属的特征类型和所述负样本频谱特征所属的特征类型相同。
其中,所述样本增益预测模型包括循环神经网络模型,所述负样本频谱特征包括第一单位频谱特征和第二单位频谱特征;
所述增益确定模块,具体用于基于所述循环神经网络模型的隐藏层权重矩阵和所述循环神经网络模型的原始隐藏特征,对所述第一单位频谱特征进行编码处理,得到第一隐藏特征,基于所述循环神经网络模型的隐藏层权重矩阵和所述第一隐藏特征,对所述第二单位频谱特征进行编码处理,得到第二隐藏特征,基于所述循环神经网络模型的输出层权重矩阵对所述第二隐藏特征进行解码处理,得到所述负样本音频的所述预测音频增益。
其中,还包括:
预测模块,用于获取待处理的目标音频,提取所述目标音频的目标频谱特征,基于所述目标增益预测模型和所述目标频谱特征确定所述目标音频的所述目标音频增益,输出所述目标音频增益。
其中,所述目标频谱特征的特征类型包括能量谱特征类型或功率谱特征类型;
所述装置还包括;
输出模块,用于若所述目标频谱特征的特征类型属于所述能量谱特征类型,则根据所述目标音频增益调整所述目标音频的音频能量,输出调整后的目标音频;
所述输出模块,还用于若所述目标频谱特征的特征类型属于所述功率谱特征类型,则根据所述目标音频增益调整所述目标音频的音频功率,输出调整后的目标音频。
其中,还包括:
检测模块,用于检测所述目标音频的音频相关性变化程度,若所述音频相关性变化程度大于或等于变化程度阈值,则通知预测模块执行提取所述目标音频的目标频谱特征。
本申请实施例一方面提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述各实施例中的方法。
本申请实施例一方面提供了一种计算机存储介质,计算机存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行上述各实施例中的方法。
本申请通过提取正样本音频的正样本频谱特征以及提取负样本音频的负样本频谱特征,基于样本增益预测模型和负样本频谱特征确定预测的预测音频增益,根据正样本频谱特征和负样本频谱特征确定真实的样本音频增益,根据预测音频增益或者样本音频增益调整样本增益预测模型的模型损失函数,基于调整后的模型损失函数训练样本增益预测模型。根据预测音频增益或者样本音频增益调整模型损失函数,不同的训练样本对应不同的模型损失函数,相比固定不变的损失函数,动态变化的模型损失函数不仅具有灵活性,更能够匹配不同的训练样本,进而提高预测模型的预测准确率以及后续对音频数据的增益效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种音频处理的系统架构图;
图2a-图2c是本申请实施例提供的一种音频处理的场景示意图;
图3是本申请实施例提供的一种音频处理的流程示意图;
图4是本申请实施例提供的一种音频数据方法的流程图;
图5a-图5b是本申请实施例提供的一种增益效果对比图;
图6是本申请实施例提供的一种音频处理方法的流程示意图;
图7是本申请实施例提供的一种音频处理装置的结构示意图;
图8是本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
本申请所提供的方案属于人工智能领域下属的语音处理技术以及机器学习/深度学习。本申请通过深度学习训练增益预测模型,该增益预测模型可以预测音频数据的增益信息,后续基于该增益信息对音频数据进行增益处理,以抑制音频数据中的噪声。增益预测模型可以具体是深度神经网络模型(DNN,Deep Neural Networks),或者卷积神经网络模型(CNN,Convolutional Neural Networks),或者循环神经神经网络模型(RNN,RecurrentNeural Network)。
云技术(Cloud technology)是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。目前,技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
目前,云技术主要分为云基础技术类以及云应用类;云基础技术类可以进一步细分为:云计算、云储存、数据库以及大数据等;云应用类可以进一步细分为:医疗云、云物联、云安全、云呼叫、私有云、公有云、混合云、云游戏、云教育、云会议、云社交以及人工智能云服务等。
本申请的数据处理方法可以涉及云技术下属的云计算和云储存:
云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
在本申请中,由于模型训练涉及大规模计算,需要巨大的算力和存储空间,因此在本申请中,可以由服务器通过云计算技术获取足够算力和存储空间,进而执行本申请中所涉及的对增益预测模型的训练。
云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。
在本申请中,样本音频的频谱特征以及样本增益预测模型可以存储在“云”上,当需要调整样本增益预测模型的模型参数时,可以从云存储设备中拉取样本音频的频谱特征以及样本增益预测模型,以降低服务器的存储压力。
请参见图1,是本申请实施例提供的一种音频处理的系统架构图。本申请涉及服务器10d以及终端设备集群,终端设备集群可以包括:终端设备10a、终端设备10b、...、终端设备10c等。
服务器10d获取用于模型训练的正样本音频的正样本频谱特征以及负样本音频的负样本频谱特征,基于样本增益预测模型和负样本频谱特征确定负样本音频的预测音频增益,根据正样本频谱特征和负样本频谱特征确定负样本音频的样本音频增益。服务器10d根据样本音频增益或所述预测音频增益调整样本增益预测模型的模型损失函数,根据调整后的模型损失函数训练样本增益预测模型,得到目标增益预测模型;该目标增益预测模型可以预测音频数据的音频增益。
后续,服务器10d可以将目标增益预测模型下发至终端设备集群,终端设备集群中的任意终端设备可以基于目标增益预测模型预测音频数据的音频增益,基于该音频增益对音频数据进行增益处理后既可以抑制音频数据中的噪声,也可以保留音频数据中的语音(即减少语音形变)。
图1所示的服务器10d可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
图1所示的终端设备10a、终端设备10b、终端设备10c等可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(MID,mobile internet device)、可穿戴设备等具有音频处理功能的智能设备。终端设备集群与服务器10d可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
下述图2a对应的实施例主要描述服务器10d如何训练增益预测模型,图2b-图2c对应的实施例主要描述服务器10d如何根据训练好的增益预测模型来预测音频数据的音频增益。
请参见图2a-图2c,是本申请实施例提供的一种音频处理的场景示意图,服务器10d获取包含噪声的音频数据20a以及不包含噪声的音频数据20b,音频数据20a和音频数据20b具有关联关系,此处的关联关系是指音频20a和音频数据20b对应的同一段音频数据,只是一个包含噪声一个不包含噪声。
服务器10d将音频数据20a转换为时域信号,时域信号是指音频数据20a在不同时间下的振幅强度(或者相位),对转换后的时域信号进行频谱分析,以该时域信号转换为频域信号,频域信号是指音频数据20a在不同频率下的能量(或者相位,或者功率,或者振幅等)。服务器10d对该频域信号采样(例如,每间隔10hz采样一次),将采样后的能量(或者相位,或者功率,或者振幅等)组合为音频数据20a的频谱特征20c。
对音频数据20b采用相同的处理方式,即先将音频数据20b转换为时域信号,再将时域信号转换为频域信号,对该频域信号采样以得到音频数据20b的频谱特征20d。
服务器10d将音频数据20a的频谱特征20c输入增益预测模型20f,基于增益预测模型20f中的隐藏层权重矩阵对频谱特征20c进行编码处理,得到频谱特征20c的隐藏特征,基于增益预测模型20f中的输出层权重矩阵对上述隐藏特征进行解码处理,可以得到预测增益信息20g。
可以知道,增益信息20g也是一个向量,该向量中的每一个分量表示在多个频率上的预测增益值,预测增益信息20g即是增益预测模型20f对音频数据20a的预测增益。
服务器10d将音频数据20b的频谱特征20d除以音频数据20a的频谱特征20c所得的商,作为音频数据20a的样本增益信息20e,样本增益信息可以理解为是音频数据20a的真实增益,当然样本增益信息20e也是一个向量,该向量中的每一个分量表示在多个频率上的真实增益值。
服务器10d获取增益预测模型20f的损失函数,该损失可以包括交叉熵损失函数、均方误差损失函数以及动态参数,服务器10d根据预测增益信息20g或者是样本增益信息20e调整该损失函数,调整的具体过程是:将损失函数中的动态参数设置为预测增益信息20g或者是样本增益信息20e。交叉熵损失函数可以保留音频数据中的语音,均方误差损失函数可以抑制音频数据中的噪声,通过动态参数可以自适应地平衡交叉熵损失函数和均方误差损失函数,使得调整后的损失函数既可以保留音频数据中的语音又可以抑制音频数据中的噪声。
服务器10d基于该损失函数、预测增益信息20g以及样本增益信息20e以及梯度下降规则训练增益预测模型20f中的模型参数。
至此,就完成了对增益预测模型20f的一次训练,后续可以继续获取下一组包含噪声的音频数据以及不包含噪声的音频数据作为成对样本,继续训练增益预测模型20f中的模型参数,再一次训练时,损失函数中的动态参数的设置为新的音频数据的预测增益信息或者样本增益信息。换句话说,动态参数随着训练样本的变化而变化。
当模型参数调整后的增益预测模型20f达到模型收敛条件时,服务器10d可以停止训练,说明此时增益预测模型20f训练完成。训练完成的增益预测模型20f可以准确预测出音频数据的增益信息,该增益信息既可以抑制音频数据中的噪声,又可以保留音频数据中的语音。
下面描述训练好的增益预测模型20f的使用过程:请参见图2b,服务器10d获取当前待处理的音频数据30a,同样地,将音频数据30a转换为时域信号,将时域信号转换为频域信号,再对该频域信号采样,即可得到音频数据30a的频谱特征30b。此处,提取频谱特征30b和前述中提取频谱特征20c和提取频谱特征20d的处理过程相同,只是需要将处理对象由音频数据20a、音频数据20b调整为音频数据30a即可。
服务器10d将音频数据30a的频谱特征30b输入训练好的增益预测模型20f,基于该增益预测模型20f中的隐藏层权重矩阵对频谱特征30b进行编码处理,得到频谱特征30b的隐藏特征,基于增益预测模型20f中的输出层权重矩阵对上述隐藏特征进行解码处理,得到预测增益信息30c。
如图2c所示,基于预测增益信息30c对音频数据30a进行增益处理,得到增益后的音频数据30d,输出该增益后的音频数据30d,此时音频数据30d既不存在噪声也保留了语音。
其中,获取正样本频谱特征(如上述实施例中的频谱特征20d)以及负样本频谱特征(如上述实施例中的频谱特征20c),基于样本增益预测模型(如上述实施例中的增益预测模型20f)确定预测音频增益(如上述实施例中的预测增益信息20g),确定样本音频增益(样本增益信息20e)的具体过程可以参见下述图3-图6对应的实施例。
请参见图3,是本申请实施例提供的一种音频处理的流程示意图,本实施例主要描述模型的训练过程,由于模型训练涉及大量的计算,下述实施例以服务器为执行主体进行描述,音频处理方法可以包括如下步骤:
步骤S101,获取正样本音频的正样本频谱特征,以及获取负样本音频的负样本频谱特征;所述负样本音频和所述正样本音频具有关联关系,所述正样本音频是包含噪声的音频,所述负样本音频是不包含噪声的音频。
具体的,服务器(如上述图2a-图2c对应实施例中的服务器10d)获取用于模型训练的正样本音频(如上述图2a-图2c对应实施例中的音频数据20b)和负样本音频(如上述图2a-图2c对应实施例中的音频数据20a),正样本音频和负样本音频是成对音频,即正样本音频和负样本音频具有关联关系。正样本音频是不包含噪声的音频,即正样本音频是纯净音频,负样本音频是包含噪声的音频,负样本样本音频所包含的噪声可以具体是指啸叫噪声,啸叫噪声是声源与扩音设备之间因距离过近等问题导致能量发生自激,啸叫噪声是一种回授音。
服务器如何获取正样本音频和负样本音频的具体过程为:服务器获取纯净音频,作为正样本音频,纯净音频是指不存在噪声的音频。服务器向正样本音频添加噪声即可得到负样本音频,为上述正样本音频和负样本音频建立关联关系,至此服务器就得到一对样本音频。
服务器提取正样本音频的频谱特征(称为正样本频谱特征,如上述图2a-图2c对应实施例中的频谱特征20d),以及提取负样本音频的频谱特征(称为负样本频谱特征,如上述图2a-图2c对应实施例中的频谱特征20c),其中正样本频谱特征是服务器对正样本音频进行频谱分析后所确定的频谱特征,负样本频谱特征是服务器对负样本音频进行频谱分析后所确定的频谱特征。
服务器提取正样本音频的正样本频谱特征的具体过程为:服务器将正样本音频转换为正样本时域信号,正样本时域信号的自变量x是时间,因变量y是振幅(或者相位)。服务器将正样本时域信号进行频谱分析,得到正样本频域信号,正样本频域信号的自变量x是频率,因变量y是能量(或者功率,或者振幅,或者相位等)。
其中,若频谱分析具体是指对正样本时域信号进行傅立叶变换(FourierTransform,FT),再对傅里叶变换后的结果取平方,此时得到的正样本频域信号的自变量x是频率,因变量y是能量,此时的正样本频域信号也称为能量谱。
若频谱分析具体是指对正样本时域信号进行自相关函数的傅里叶变换,此时得到的正样本频域信号的自变量x是频率,因变量y是功率,此时的正样本频域信号也称为功率谱。
服务器间隔固定频率长度对正样本频域信号采样,将采样得到的采样值组合为正样本频谱特征。例如,正样本频域信号的频率上下限是0-F,且频率采样间隔是10hz,那么从该正样本频域信号中可以采样出F/10个能量(或者功率,或者振幅,或者相位等),将采样出的F/10个能量(或者功率,或者振幅,或者相位等)组合为正样本频谱特征。
服务器提取负样本音频的负样本频谱特征的具体过程为:服务器将负样本音频转换为负样本时域信号,负样本时域信号的自变量x是时间,因变量y是振幅(或者相位)。服务器将负样本时域信号进行频谱分析,得到负样本频域信号,负样本频域信号的自变量x是频率,因变量y是能量(或者功率,或者振幅,或者相位等)。
其中,若频谱分析具体是指对负样本时域信号进行傅立叶变换,再对傅里叶变换后的结果取平方,此时得到的负样本频域信号的自变量x是频率,因变量y是能量,此时的负样本频域信号也称为能量谱。
若频谱分析具体是指对负样本时域信号进行自相关函数的傅里叶变换,此时得到的负样本频域信号的自变量x是频率,因变量y是功率,此时的负样本频域信号也称为功率谱。
服务器同样间隔固定频率长度对负样本频域信号采样,将采样得到的采样值组合为负样本频谱特征。例如,负样本频域信号的频率上下限是0-F,且频率采样间隔是10hz,那么从该负样本频域信号中可以采用出F/10个能量(或者功率,或者振幅,或者相位等),将采样出的F/10个能量(或者功率,或者振幅,或者相位等)组合为负样本频谱特征。
上述可知,服务器提取正样本频谱特征和提取负样本频谱特征的过程基本相同,只是处理对象一个是正样本音频,一个是负样本音频。正样本频谱特征的特征类型和负样本音频频谱特征的特征类型相同,该特征类型可以是能量谱特征类型或者是功率谱特征类型。
需要说明的是,服务器提取正样本频谱特征和提取负样本频谱特征的先后顺序没有限定。
步骤S102,基于样本增益预测模型和所述负样本频谱特征确定所述负样本音频的的预测音频增益,并根据所述正样本频谱特征和所述负样本频谱特征确定所述负样本音频的样本音频增益。
具体的,服务器获取样本增益预测模型(如上述图2a-图2c对应实施例中的增益预测模型20f),将负样本频谱特征输入该样本增益预测模型,该样本增益预测模型输出预测音频增益(如上述图2a-图2c对应实施例中的预测增益信息20g)。预测音频增益也是一个向量,预测音频增益的向量维度和正样本频谱特征的向量维度相同,预测音频增益中的每一个分量表示样本增益预测模型所预测的在多个频率上的增益值。
样本增益预测模型可以是深度神经网络模型,可以是循环神经网络模型,循环神经网络模型又可以细分为长短期记忆网络模型以及门控循环模型(Gated RecurrentUnit,GRU)。下述以样本增益预测模型是循环神经网络模型为例说明样本增益预测模型的预测过程:
负样本频谱特征包括第一单位频谱特征和第二单位频谱特征,第一单位频谱特征可以对应一个音频帧,第二单位频谱特征可以对应另一个音频帧,且这两个音频帧相邻,第一单位频谱特征和第二单位频谱特征都表示在在多个频率上的能量或者功率。服务器将第一单位频谱特征输入循环神经网络模型,基于循环神经网络模型中的原始隐藏特征H0以及隐藏层权重矩阵对第一单位频谱特征进行编码,得到第一隐藏特征H1。服务器将第二单位频谱特征输入循环神经网络模型,基于循环神经网络模型的隐藏层权重矩阵以及第一隐藏特征H1对第二单位频谱特征进行编码,得到第二隐藏特征H2。基于循环神经网络模型的输出层权重矩阵对第二隐藏特征H2解码,即可得到负样本音频的预测音频增益。
服务器可以根据下述公式(1)确定负样本音频的样本音频增益g:
其中,Ex表示正样本频谱特征,Ey表示负样本频谱特征,参数a的取值可以为1/2,或者1,或者2。样本音频增益中的每一个分量表示负样本音频在多个频率上的真实增益值。
简单来说,预测音频增益是模型预测的结果,样本音频增益是真实结果。服务器确定预测音频增益以及确定样本音频增益的先后顺序没有限定,
步骤S103,根据所述样本音频增益或所述预测音频增益调整所述样本增益预测模型的模型损失函数。
具体的,服务器获取样本增益预测模型当前的模型损失函数lossold,模型损失函数lossold可以表示为下述公式(2):
服务器调整平衡参数b,即是将平衡参数b调整为预测音频增益或者调整为样本音频增益g。换句换说,平衡参数b不是一个固定的数值(或者向量),而是随着当前样本音频变化而变化的动态变化参数。平衡参数b作为一种时变参数自适应的平衡语音保留误差和噪声抑制误差,从而达到语音保持和噪声收敛抑制的目的。
平衡参数b调整完毕后bold→bnew(调整后平衡参数表示为bnew),服务器根据调整后的平衡参数bnew和第一损失函数生成噪声抑制损失函数噪声抑制损失函数包括第一损失函数以及调整后的平衡参数bnew,基于该噪声抑制损失函数所训练的样本增益预测模型可以抑制音频中的噪声。服务器将调整后的平衡参数bnew和第二损失函数的乘积作为语音保留损失函数基于该语音保留损失函数所训练的样本增益预测模型可以最大程度保留音频中的语音,减少音频形变。
比较公式(2)和公式(5)可以知道,模型损失函数调整前和调整后变化的只是平衡参数b,其余的都未发生变化。
当平衡参数b调整为样本音频增益g时,调整后的模型损失函数lossnew可以表示为下述公式(7):
分析公式(5)可以知道,当调整后的平衡参数bnew较大时,说明当前帧应该为语音帧需要得到较小的能量抑制,即公式(5)的权重倾向于后一项相反,当调整后的平衡参数bnew较小时,说明当前帧应该为啸叫帧需要得到较大的能量抑制,即公式(5)的权重倾向于前一项
进一步地,还可以为第一损失函数和第二损失函数设置固定权重,该权重是固定参数,不论样本音频如何变化,权重都保持不变,为第一损失函数和第二损失函数设置权重后,公式(5)对应的调整后的模型损失函数lossnew可以表示为下述公式(8):
从公式(8)可以看出,为噪声抑制损失函数中的第一损失函数设置的权重为4,为语音保留损失函数中的第一损失函数设置的权重为2,为语音保留损失函数中的第三损失函数设置的权重为4,上述权重是经过多次实验所确定的最优固定参数,当然针对不同的业务需求也可以将权重设置为其他数值。
当平衡参数b调整为样本音频增益g时,新的模型损失函数lossnew可以表示为下述公式(10):
总的来说,本申请将当前的预测音频增益或者样本音频增益g作为平衡参数,再融合第一损失函数和第二损失函数得到用于模型训练的模型损失函数,基于该模型损失函数所训练的样本增益预测模型可以快速有效的抑制音频中的噪声以及保留音频中的语音,减少音频形变。
步骤S104,根据调整后的模型损失函数训练所述样本增益预测模型,得到目标增益预测模型;所述目标增益预测模型用于预测目标音频的目标音频增益。
具体的,从前述可知,调整后的模型损失函数包括噪声抑制损失函数以及语音保留损失函数,服务器将预测音频增益以及样本音频增益代入噪声抑制损失函数中,确定负样本音频的噪声抑制误差;服务器将预测音频增益以及样本音频增益代入语音保留损失函数中,确定负样本音频的语音保留误差,将上述噪声抑制误差以及语音保留误差相加,得到目标误差。采用梯度下降规则将上述目标误差反向传播至样本增益预测模型,以确定样本增益预测模型的模型参数的最新取值,将上述确定的最新取值替换模型参数的原始取值。
采用梯度下降规则反向传播误差的过程为:服务器根据调整后的模型损失函数以及链式求导法则,计算样本增益预测模型中的模型参数的导数,根据学习率以及调整前的模型参数,确定模调整后的模型参数。可以参见下述公式(10):
至此,就完成了对样本增益预测模型的一次更新,服务器可以获取下一组正样本音频以及负样本音频,基于下一组正样本音频和负样本音频继续训练样本增益预测模型的模型参数(当然此时样本增益预测模型的模型参数已经调整过一次了)。基于下一组正样本音频和负样本音频进行训练时,样本增益预测模型的模型损失函数也要对应的调整,即模型损失函数中的平衡参数被设置为新的负样本音频的样本音频增益或者设置为新的负样本音频的预测音频增益,其余的第一损失函数和第二损失函数不变。
不断循环,不断地调整样本增益预测模型的模型参数,当调整次数达到预设的次数阈值,或者当调整后的模型参数和调整前的模型参数之间的差异量下预设的差异量阈值,可以确定当前调整后的样本增益预测模型满足模型收敛条件,进而服务器可将满足模型收敛条件的样本增益预测模型作为目标增益预测模型。
上述可知,根据预测音频增益或者样本音频增益调整模型损失函数,不同的训练样本对应不同的模型损失函数,相比固定不变的损失函数,动态变化的模型损失函数不仅具有灵活性,更能够匹配不同的训练样本,进而提高预测模型的预测准确率以及后续对音频数据的增益效果;再有,本申请通过正样本音频特征和负样本音频特征确定真实的样本音频增益,不需要由专业人士设定增益标签,可以扩大参与模型训练的样本量,可以进一步提高预测模型的预测精度。
请参见图4,是本申请实施例提供的一种音频数据方法的流程图,本实施例主要描述模型的使用过程,下述实施例以终端设备为执行主体进行描述,音频处理方法可以包括如下步骤:
步骤S201,获取待处理的目标音频,提取所述目标音频的目标频谱特征。
具体的,终端设备获取当前待处理的音频(称为目标音频,如上述图2a-图2c对应实施例中的音频数据30a)。
终端设备将目标音频转换为目标时域信号,目标时域信号的自变量x是时间,因变量y是振幅(或者相位)。终端设备将目标时域信号进行频谱分析,得到目标频域信号,目标频域信号的自变量x是频率,因变量y是能量(或者功率,或者振幅,或者相位等)。
其中,若频谱分析具体是指对目标时域信号进行傅立叶变换(FourierTransform,FT),再对傅里叶变换后的结果取平方,此时得到的目标频域信号的自变量x是频率,因变量y是能量,此时的目标频域信号也称为能量谱。
若频谱分析具体是指对目标时域信号进行自相关函数的傅里叶变换,此时得到的目标频域信号的自变量x是频率,因变量y是功率,此时的目标频域信号也称为功率谱。
终端设备间隔固定频率长度对目标频域信号采样,将采样得到的采样值组合为目标频谱特征(如上述图2a-图2c对应实施例中的频谱特征30b)。
上述可知,终端设备提取目标频谱特征和前述服务器提取正样本频谱特征和提取负样本频谱特征的过程基本相同,只是处理对象由样本音频变为了目标音频。同样地,目标频谱特征的特征类型可以是能量谱特征类型或者是功率谱特征类型。
步骤S202,基于所述目标增益预测模型和所述目标频谱特征确定所述目标音频的所述目标音频增益。
具体的,终端设备获取目标增益预测模型,其中目标增益预测模型是由样本增益预测模型训练得到的,且在训练样本增益预测模型的过程中,模型损失函数中的平衡参数是随着样本音频的变化而变化的。
其中,目标增益预测模型的训练过程可以参见上述图3对应实施例中的步骤S101-步骤S104。
终端设备将目标频谱特征输入目标增益预测模型,目标增益预测模型输出音频增益(称为目标音频增益,如上述图2a-图2c对应实施例中的预测增益信息30c),该目标音频增益表示在目标音频的多个频率上的增益信息。
当目标增益预测模型是循环神经网络模型时,确定目标音频增益的具体过为:目标频谱特征包括第一频谱特征和第二频谱特征,第一频谱特征可以对应一个音频帧,第二频谱特征可以对应另一个音频帧,且这两个音频帧相邻,第一频谱特征和第二频谱特征都表示在在多个频率上的能量或者功率。
终端设备将第一频谱特征输入循环神经网络模型,基于循环神经网络模型中的原始隐藏特征H0以及隐藏层权重矩阵(此时隐藏层权重矩阵是经过了训练后的权重矩阵)对第一频谱特征进行编码,得到目标第一隐藏特征。终端设备将第二频谱特征输入循环神经网络模型,基于循环神经网络模型的隐藏层权重矩阵以及目标第一隐藏特征对第二频谱特征进行编码,得到目标第二隐藏特征。基于循环神经网络模型的输出层权重矩阵对目标第二隐藏特征解码,得到目标音频的目标音频增益。
可以知道,此处确定目标音频增益和前述确定预测音频增益的过程相同,不同之处在于循环神经网络模型中的隐藏层权重矩阵的取值不同。
可选的,由于目标增益预测模型是用于预测目标音频的增益信息,该增益信息可以抑制目标音频中的噪声,因此在对目标音频进行预测前可以先检测目标音频中是否存在噪声,检测过程为:终端设备获取目标音频的音频相关性,音频相关性可以是音频在多个频率上的功率,也可以是音频在多个频率上的能量。终端设备根据目标音频的音频相关性计算该音频相关性的变化程度(称为音频相关性变化程度),若音频相关性变化程度大于或等于预设的变化程度阈值,说明目标音频是包含噪声的音频,进而可以执行步骤S202;当然若音频相关性变化程度小于预设的变化程度阈值,说明目标音频是不包含噪声的音频,进而可以结束流程。
步骤S203,输出所述目标音频增益。
可选的,从前述可知,目标频谱特征的特征类型可以是能量谱特征类型或者功率谱特征类型。若目标频谱特征的特征类型是能量谱特征类型,则终端设备根据目标音频增益调整目标音频的音频能量,输出调整后的目标音频。若目标频谱特征的特征类型是功率谱特征类型,则终端设备根据目标音频增益调整目标音频的音频功率,输出调整后的目标音频。
调整后的目标音频不包含噪声且保留了目标音频中的语音,即调整前和调整后语音形变较小。
请参见图5a-图5b,是本申请实施例提供的一种增益效果对比图,图5a是包含啸叫噪声的语音信号示意图,图5b是采用本申请中的目标增益预测模型所预测的音频增益进行增益处理后的语音信号示意图。图5a和图5b的横坐标均表示时间,纵坐标均表示频率,且图像中的亮点表示能量,在横轴方向上多个亮点所组成的横向亮条即是啸叫能量。从图5a可以看出,语音信号中包含大量的啸叫能量,语音质量较低;如图5b所述,经过增益处理后,语音信号中不存在横向亮条,即抑制了语音信号中的啸叫噪声,且保留了正常的语音能量。
请参见图6,是本申请实施例提供的一种音频处理方法的流程示意图,本申请的音频处理方法可以应用于网络会议场景,会议发言者和扩音设备之间的距离过近,扩音设备所发出的语音会包含啸叫噪声,当然麦克风采集的语音也会包含啸叫噪声,导致会议参与者不能听清会议发言者的语音,降低网络会议的会议质量。本申请所训练的目标增益预测模型可以消除音频中的啸叫噪声以及减少音频形变。具体过程如下:
步骤S301,终端麦克风采集语音信号。
具体的,在网络会议场景下,终端麦克风采集会议室内的语音信号。
步骤S302,终端将采集的语音信号发送至服务器。
步骤S303,服务器检测语音信号中是否存在啸叫噪声。
具体的,服务器检测语音信号的相关性变化程度,若语音信号的相关性变化程程度大于或等于变化程度阈值,则说明当前的语音信号中存在啸叫噪声;反之,若语音信号的相关性变化程程度小于变化程度阈值,则说明当前的语音信号中不存在啸叫噪声。
步骤S304,若语音信号中存在啸叫噪声,服务器执行步骤S305-步骤S307;若语音信号中不存在啸叫噪声,服务器执行步骤S306-步骤S307。
步骤S305,对语音信号进行啸叫抑制。
具体的,服务器提取语音信号的频谱特征,将该频谱特征输入目标增益预测模型,目标增益预测模型输出语音信号的增益信息。服务器根据目标增益预测模型所输出的增益信息,对语音信号进行增益处理,得到啸叫抑制后的语音信号。
步骤S306,其他信号处理模块再对啸叫抑制后的语音信号进行处理。
步骤S307,输出处理后的语音信号。
啸叫噪声常出现于会议场景下,而本申请中的增益预测模型所预测的增益信息可以抑制音频中的啸叫噪声以及保留语音,提高音频的质量。因此,本申请所提出的方案应用范围广可拓展性强。
进一步的,请参见图7,是本申请实施例提供的一种音频处理装置的结构示意图。如图7所示,音频处理装置1可以应用于上述图3-图6对应实施例中的服务器。音频处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该音频处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。
音频处理装置1可以包括:第一获取模块11、第二获取模块12、增益确定模块13、调整模块14以及训练模块15。
第一获取模块11,用于获取正样本音频的正样本频谱特征;
第二获取模块12,用于获取负样本音频的负样本频谱特征;所述负样本音频和所述正样本音频具有关联关系,所述正样本音频是包含噪声的音频,所述负样本音频是不包含噪声的音频;
增益确定模块13,用于基于样本增益预测模型和所述负样本频谱特征确定所述负样本音频的的预测音频增益;
所述第二获取模块12,还用于根据所述正样本频谱特征和所述负样本频谱特征确定所述负样本音频的样本音频增益;
调整模块14,用于根据所述样本音频增益或所述预测音频增益调整所述样本增益预测模型的模型损失函数;
训练模块15,用于根据调整后的模型损失函数训练所述样本增益预测模型,得到目标增益预测模型;所述目标增益预测模型用于预测目标音频的目标音频增益。
训练模块15,具体用于根据所述噪声抑制损失函数、所述预测音频增益以及所述样本音频增益确定所述负样本音频的噪声抑制误差,根据所述语音保留损失函数、所述预测音频增益以及所述样本音频增益确定所述负样本音频的语音保留误差,将所述噪声抑制误差和所述语音保留误差融合为目标误差,将所述目标误差反向传播至所述样本增益预测模型,以调整所述样本增益预测模型的模型参数,当调整后的样本增益预测模型满足模型收敛条件时,将调整后的样本增益预测模型作为所述目标增益预测模型。
第一获取模块11,具体用于将所述正样本音频转换为正样本时域信号,对所述正样本时域信号进行频谱分析,得到正样本频域信号,对所述正样本频域信号采样,得到所述正样本频谱特征;所述正样本频谱特征的特征类型属于能量谱特征类型或功率谱特征类型,所述正样本频谱特征所属的特征类型和所述负样本频谱特征所属的特征类型相同。
所述样本增益预测模型包括循环神经网络模型,所述负样本频谱特征包括第一单位频谱特征和第二单位频谱特征;
所述增益确定模块13,具体用于基于所述循环神经网络模型的隐藏层权重矩阵和所述循环神经网络模型的原始隐藏特征,对所述第一单位频谱特征进行编码处理,得到第一隐藏特征,基于所述循环神经网络模型的隐藏层权重矩阵和所述第一隐藏特征,对所述第二单位频谱特征进行编码处理,得到第二隐藏特征,基于所述循环神经网络模型的输出层权重矩阵对所述第二隐藏特征进行解码处理,得到所述负样本音频的所述预测音频增益。
其中,第一获取模块11、第二获取模块12、增益确定模块13、调整模块14以及训练模块15的具体功能实现方式可以参见上述图3对应实施例中的步骤S101-步骤S104,这里不再进行赘述。
请参见图7,所述模型损失函数包括:第一损失函数、第二损失函数以及所述第一损失函数和所述第二损失函数的平衡参数;
调整模块14可以包括:调整单元141以及组合单元142。
调整单元141,用于根据所述样本音频增益或所述预测音频增益调整所述平衡参数;
组合单元142,用于根据调整后的平衡参数以及所述第一损失函数生成噪声抑制损失函数,根据调整后的平衡参数以及所述第二损失函数生成语音保留损失函数,将所述噪声抑制损失函数和所述语音保留损失函数组合为调整后的模型损失函数。
其中,调整单元141以及组合单元142的具体过程可以参见上述图3对应实施例中的步骤S103,此处不再赘述。
请参见图7,音频处理装置1可以包括:第一获取模块11、第二获取模块12、增益确定模块13、调整模块14以及训练模块15;还可以包括:收敛确定模块16以及添加模块17。
收敛确定模块16,用于若对样本增益预测模型的调整次数达到次数阈值,则确定调整后的样本增益预测模型满足所述模型收敛条件;或,
所述收敛确定模块16,还用于若调整后的样本增益预测模型的模型参数和调整前的样本增益预测模型的模型参数之间的差异量小于差异量阈值,则确定调整后的样本增益预测模型满足所述模型收敛条件。
添加模块17,用于获取所述正样本音频,向所述正样本音频添加噪声,得到所述负样本音频,为所述正样本音频和所述负样本音频建立关联关系。
其中,收敛确定模块16以及添加模块17的具体过程可以参见上述图3对应实施例中的步骤S104,此处不再赘述。
请参见图7,音频处理装置1可以包括:第一获取模块11、第二获取模块12、增益确定模块13、调整模块14以及训练模块15;还可以包括:预测模块18、检测模块19以及输出模块20。
预测模块18,用于获取待处理的目标音频,提取所述目标音频的目标频谱特征,基于所述目标增益预测模型和所述目标频谱特征确定所述目标音频的所述目标音频增益,输出所述目标音频增益。
检测模块19,用于检测所述目标音频的音频相关性变化程度,若所述音频相关性变化程度大于或等于变化程度阈值,则通知预测模块执行提取所述目标音频的目标频谱特征。
所述目标频谱特征的特征类型包括能量谱特征类型或功率谱特征类型;
输出模块20,用于若所述目标频谱特征的特征类型属于所述能量谱特征类型,则根据所述目标音频增益调整所述目标音频的音频能量,输出调整后的目标音频;
所述输出模块20,还用于若所述目标频谱特征的特征类型属于所述功率谱特征类型,则根据所述目标音频增益调整所述目标音频的音频功率,输出调整后的目标音频。
其中,预测模块18、检测模块19以及输出模块20的具体过程可以参见上述图4对应实施例中的步骤S201-步骤S203,此处不再赘述。
进一步地,请参见图8,是本发明实施例提供的一种计算机设备的结构示意图。上述图3-图6对应实施例中的服务器可以为计算机设备1000,如图8所示,计算机设备1000可以包括:用户接口1002、处理器1004、编码器1006以及存储器1008。信号接收器1016用于经由蜂窝接口1010、WIFI接口1012、...、或NFC接口1014接收或者发送数据。编码器1006将接收到的数据编码为计算机处理的数据格式。存储器1008中存储有计算机程序,处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。存储器1008可包括易失性存储器(例如,动态随机存取存储器DRAM),还可以包括非易失性存储器(例如,一次性可编程只读存储器OTPROM)。在一些实例中,存储器1008可进一步包括相对于处理器1004远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备1000。用户接口1002可以包括:键盘1018和显示器1020。
在图8所示的计算机设备1000中,处理器1004可以用于调用存储器1008中存储计算机程序,以实现:
获取正样本音频的正样本频谱特征,以及获取负样本音频的负样本频谱特征;所述负样本音频和所述正样本音频具有关联关系,所述正样本音频是包含噪声的音频,所述负样本音频是不包含噪声的音频;
基于样本增益预测模型和所述负样本频谱特征确定所述负样本音频的的预测音频增益,并根据所述正样本频谱特征和所述负样本频谱特征确定所述负样本音频的样本音频增益;
根据所述样本音频增益或所述预测音频增益调整所述样本增益预测模型的模型损失函数,根据调整后的模型损失函数训练所述样本增益预测模型,得到目标增益预测模型;所述目标增益预测模型用于预测目标音频的目标音频增益。
应当理解,本发明实施例中所描述的计算机设备1000可执行前文图3到图6所对应实施例中对音频处理方法的描述,也可执行前文图7所对应实施例中对音频处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本发明实施例还提供了一种计算机存储介质,且计算机存储介质中存储有前文提及的音频处理装置1所执行的计算机程序,且该计算机程序包括程序指令,当处理器执行上述程序指令时,能够执行前文图3到图6所对应实施例中对音频处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述。作为示例,程序指令可以被部署在一个计算机设备上,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (13)
1.一种音频处理方法,其特征在于,包括:
获取正样本音频的正样本频谱特征,以及获取负样本音频的负样本频谱特征;所述负样本音频和所述正样本音频具有关联关系,所述正样本音频是包含噪声的音频,所述负样本音频是不包含噪声的音频;
基于样本增益预测模型和所述负样本频谱特征确定所述负样本音频的的预测音频增益,并根据所述正样本频谱特征和所述负样本频谱特征确定所述负样本音频的样本音频增益;
根据所述样本音频增益或所述预测音频增益调整所述样本增益预测模型的模型损失函数,根据调整后的模型损失函数训练所述样本增益预测模型,得到目标增益预测模型;所述目标增益预测模型用于预测目标音频的目标音频增益。
2.根据权利要求1所述方法,其特征在于,所述模型损失函数包括:第一损失函数、第二损失函数以及所述第一损失函数和所述第二损失函数的平衡参数;
所述根据所述样本音频增益或所述预测音频增益调整所述样本增益预测模型的模型损失函数,包括:
根据所述样本音频增益或所述预测音频增益调整所述平衡参数;
根据调整后的平衡参数以及所述第一损失函数生成噪声抑制损失函数;
根据调整后的平衡参数以及所述第二损失函数生成语音保留损失函数;
将所述噪声抑制损失函数和所述语音保留损失函数组合为调整后的模型损失函数。
3.根据权利要求2所述的方法,其特征在于,所述根据调整后的模型损失函数训练所述样本增益预测模型,得到目标增益预测模型,包括:
根据所述噪声抑制损失函数、所述预测音频增益以及所述样本音频增益确定所述负样本音频的噪声抑制误差;
根据所述语音保留损失函数、所述预测音频增益以及所述样本音频增益确定所述负样本音频的语音保留误差;
将所述噪声抑制误差和所述语音保留误差融合为目标误差,将所述目标误差反向传播至所述样本增益预测模型,以调整所述样本增益预测模型的模型参数;
当调整后的样本增益预测模型满足模型收敛条件时,将调整后的样本增益预测模型作为所述目标增益预测模型。
4.根据权利要求3所述的方法,其特征在于,还包括:
若对样本增益预测模型的调整次数达到次数阈值,则确定调整后的样本增益预测模型满足所述模型收敛条件;或,
若调整后的样本增益预测模型的模型参数和调整前的样本增益预测模型的模型参数之间的差异量小于差异量阈值,则确定调整后的样本增益预测模型满足所述模型收敛条件。
5.根据权利要求1-4任一项所述的方法,其特征在于,还包括:
获取所述正样本音频,向所述正样本音频添加噪声,得到所述负样本音频;
为所述正样本音频和所述负样本音频建立关联关系。
6.根据权利要求1所述的方法,其特征在于,所述获取正样本音频的正样本频谱特征,包括:
将所述正样本音频转换为正样本时域信号,对所述正样本时域信号进行频谱分析,得到正样本频域信号;
对所述正样本频域信号采样,得到所述正样本频谱特征;所述正样本频谱特征的特征类型属于能量谱特征类型或功率谱特征类型,所述正样本频谱特征所属的特征类型和所述负样本频谱特征所属的特征类型相同。
7.根据权利要求1所述的方法,其特征在于,所述样本增益预测模型包括循环神经网络模型,所述负样本频谱特征包括第一单位频谱特征和第二单位频谱特征;
所述基于样本增益预测模型和所述负样本频谱特征确定所述负样本音频的的预测音频增益,包括
基于所述循环神经网络模型的隐藏层权重矩阵和所述循环神经网络模型的原始隐藏特征,对所述第一单位频谱特征进行编码处理,得到第一隐藏特征;
基于所述循环神经网络模型的隐藏层权重矩阵和所述第一隐藏特征,对所述第二单位频谱特征进行编码处理,得到第二隐藏特征;
基于所述循环神经网络模型的输出层权重矩阵对所述第二隐藏特征进行解码处理,得到所述负样本音频的所述预测音频增益。
8.根据权利要求1所述的方法,其特征在于,还包括:
获取待处理的目标音频,提取所述目标音频的目标频谱特征;
基于所述目标增益预测模型和所述目标频谱特征确定所述目标音频的所述目标音频增益;
输出所述目标音频增益。
9.根据权利要求8所述的方法,其特征在于,所述目标频谱特征的特征类型包括能量谱特征类型或功率谱特征类型;
所述方法还包括;
若所述目标频谱特征的特征类型属于所述能量谱特征类型,则根据所述目标音频增益调整所述目标音频的音频能量,输出调整后的目标音频;
若所述目标频谱特征的特征类型属于所述功率谱特征类型,则根据所述目标音频增益调整所述目标音频的音频功率,输出调整后的目标音频。
10.根据权利要求8所述的方法,其特征在于,还包括:
检测所述目标音频的音频相关性变化程度;
若所述音频相关性变化程度大于或等于变化程度阈值,则执行提取所述目标音频的目标频谱特征的步骤。
11.一种音频处理装置,其特征在于,包括:
第一获取模块,用于获取正样本音频的正样本频谱特征;
第二获取模块,用于获取负样本音频的负样本频谱特征;所述负样本音频和所述正样本音频具有关联关系,所述正样本音频是包含噪声的音频,所述负样本音频是不包含噪声的音频;
增益确定模块,用于基于样本增益预测模型和所述负样本频谱特征确定所述负样本音频的的预测音频增益;
所述第二获取模块,还用于根据所述正样本频谱特征和所述负样本频谱特征确定所述负样本音频的样本音频增益;
调整模块,用于根据所述样本音频增益或所述预测音频增益调整所述样本增益预测模型的模型损失函数;
训练模块,用于根据调整后的模型损失函数训练所述样本增益预测模型,得到目标增益预测模型;所述目标增益预测模型用于预测目标音频的目标音频增益。
12.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-10中任一项所述方法的步骤。
13.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-10任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010557991.9A CN111710346B (zh) | 2020-06-18 | 2020-06-18 | 音频处理方法、装置、计算机设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010557991.9A CN111710346B (zh) | 2020-06-18 | 2020-06-18 | 音频处理方法、装置、计算机设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111710346A true CN111710346A (zh) | 2020-09-25 |
CN111710346B CN111710346B (zh) | 2021-07-27 |
Family
ID=72541470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010557991.9A Active CN111710346B (zh) | 2020-06-18 | 2020-06-18 | 音频处理方法、装置、计算机设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111710346B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112259078A (zh) * | 2020-10-15 | 2021-01-22 | 上海依图网络科技有限公司 | 一种音频识别模型的训练和非正常音频识别的方法和装置 |
CN112669868A (zh) * | 2020-12-23 | 2021-04-16 | 广州智讯通信系统有限公司 | 基于指挥调度系统的语音啸叫抑制方法、设备、存储介质 |
CN113223505A (zh) * | 2021-04-30 | 2021-08-06 | 珠海格力电器股份有限公司 | 模型训练、数据处理方法、装置、电子设备及存储介质 |
CN113646833A (zh) * | 2021-07-14 | 2021-11-12 | 东莞理工学院 | 语音对抗样本检测方法、装置、设备及计算机可读存储介质 |
CN113744708A (zh) * | 2021-09-07 | 2021-12-03 | 腾讯音乐娱乐科技(深圳)有限公司 | 模型训练方法、音频评价方法、设备及可读存储介质 |
CN114666706A (zh) * | 2021-11-30 | 2022-06-24 | 北京达佳互联信息技术有限公司 | 音效增强方法、装置及系统 |
CN116758936A (zh) * | 2023-08-18 | 2023-09-15 | 腾讯科技(深圳)有限公司 | 音频指纹特征提取模型的处理方法、装置和计算机设备 |
CN117351925A (zh) * | 2023-12-06 | 2024-01-05 | 科大讯飞(苏州)科技有限公司 | 啸叫抑制方法、装置、电子设备和存储介质 |
CN117440093A (zh) * | 2023-10-31 | 2024-01-23 | 中移互联网有限公司 | 在线会议声音自激消除方法、装置、设备及存储介质 |
WO2024082767A1 (zh) * | 2022-10-21 | 2024-04-25 | 三维通信股份有限公司 | 增益调整方法、装置、计算机设备和存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4297527A (en) * | 1979-05-01 | 1981-10-27 | E-Systems, Inc. | Input gain adjusting apparatus and method |
CN106295242A (zh) * | 2016-08-04 | 2017-01-04 | 上海交通大学 | 基于代价敏感lstm网络的蛋白质域检测方法 |
CN109785850A (zh) * | 2019-01-18 | 2019-05-21 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种噪声检测方法、装置和存储介质 |
CN110009013A (zh) * | 2019-03-21 | 2019-07-12 | 腾讯科技(深圳)有限公司 | 编码器训练及表征信息提取方法和装置 |
CN110660201A (zh) * | 2019-09-23 | 2020-01-07 | Oppo广东移动通信有限公司 | 到站提醒方法、装置、终端及存储介质 |
US10535364B1 (en) * | 2016-09-08 | 2020-01-14 | Amazon Technologies, Inc. | Voice activity detection using air conduction and bone conduction microphones |
CN110706720A (zh) * | 2019-08-16 | 2020-01-17 | 广东省智能制造研究所 | 一种端到端无监督深度支撑网络的声学异常检测方法 |
CN110826634A (zh) * | 2019-11-11 | 2020-02-21 | 北京百度网讯科技有限公司 | 目标检测模型的训练方法、装置、电子设备及存储介质 |
CN111143535A (zh) * | 2019-12-27 | 2020-05-12 | 北京百度网讯科技有限公司 | 用于生成对话模型的方法和装置 |
CN111261183A (zh) * | 2018-12-03 | 2020-06-09 | 珠海格力电器股份有限公司 | 一种语音去噪的方法及装置 |
CN111444382A (zh) * | 2020-03-30 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 一种音频处理方法、装置、计算机设备以及存储介质 |
-
2020
- 2020-06-18 CN CN202010557991.9A patent/CN111710346B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4297527A (en) * | 1979-05-01 | 1981-10-27 | E-Systems, Inc. | Input gain adjusting apparatus and method |
CN106295242A (zh) * | 2016-08-04 | 2017-01-04 | 上海交通大学 | 基于代价敏感lstm网络的蛋白质域检测方法 |
US10535364B1 (en) * | 2016-09-08 | 2020-01-14 | Amazon Technologies, Inc. | Voice activity detection using air conduction and bone conduction microphones |
CN111261183A (zh) * | 2018-12-03 | 2020-06-09 | 珠海格力电器股份有限公司 | 一种语音去噪的方法及装置 |
CN109785850A (zh) * | 2019-01-18 | 2019-05-21 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种噪声检测方法、装置和存储介质 |
CN110009013A (zh) * | 2019-03-21 | 2019-07-12 | 腾讯科技(深圳)有限公司 | 编码器训练及表征信息提取方法和装置 |
CN110706720A (zh) * | 2019-08-16 | 2020-01-17 | 广东省智能制造研究所 | 一种端到端无监督深度支撑网络的声学异常检测方法 |
CN110660201A (zh) * | 2019-09-23 | 2020-01-07 | Oppo广东移动通信有限公司 | 到站提醒方法、装置、终端及存储介质 |
CN110826634A (zh) * | 2019-11-11 | 2020-02-21 | 北京百度网讯科技有限公司 | 目标检测模型的训练方法、装置、电子设备及存储介质 |
CN111143535A (zh) * | 2019-12-27 | 2020-05-12 | 北京百度网讯科技有限公司 | 用于生成对话模型的方法和装置 |
CN111444382A (zh) * | 2020-03-30 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 一种音频处理方法、装置、计算机设备以及存储介质 |
Non-Patent Citations (3)
Title |
---|
ELAD HOFFER: ""Deep metric learning using Triplet network "", 《HTTPS://ARXIV.ORG/ABS/1412.6622》 * |
竺增宝: ""车载音频系统的自动增益补偿设计"", 《电子技术应用》 * |
薛又岷: ""基于深度学习的音频噪声处理系统"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112259078A (zh) * | 2020-10-15 | 2021-01-22 | 上海依图网络科技有限公司 | 一种音频识别模型的训练和非正常音频识别的方法和装置 |
CN112669868A (zh) * | 2020-12-23 | 2021-04-16 | 广州智讯通信系统有限公司 | 基于指挥调度系统的语音啸叫抑制方法、设备、存储介质 |
CN112669868B (zh) * | 2020-12-23 | 2021-11-26 | 广州智讯通信系统有限公司 | 基于指挥调度系统的语音啸叫抑制方法、设备、存储介质 |
CN113223505A (zh) * | 2021-04-30 | 2021-08-06 | 珠海格力电器股份有限公司 | 模型训练、数据处理方法、装置、电子设备及存储介质 |
CN113223505B (zh) * | 2021-04-30 | 2023-12-08 | 珠海格力电器股份有限公司 | 模型训练、数据处理方法、装置、电子设备及存储介质 |
CN113646833A (zh) * | 2021-07-14 | 2021-11-12 | 东莞理工学院 | 语音对抗样本检测方法、装置、设备及计算机可读存储介质 |
CN113744708A (zh) * | 2021-09-07 | 2021-12-03 | 腾讯音乐娱乐科技(深圳)有限公司 | 模型训练方法、音频评价方法、设备及可读存储介质 |
CN113744708B (zh) * | 2021-09-07 | 2024-05-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 模型训练方法、音频评价方法、设备及可读存储介质 |
CN114666706A (zh) * | 2021-11-30 | 2022-06-24 | 北京达佳互联信息技术有限公司 | 音效增强方法、装置及系统 |
CN114666706B (zh) * | 2021-11-30 | 2024-05-14 | 北京达佳互联信息技术有限公司 | 音效增强方法、装置及系统 |
WO2024082767A1 (zh) * | 2022-10-21 | 2024-04-25 | 三维通信股份有限公司 | 增益调整方法、装置、计算机设备和存储介质 |
CN116758936B (zh) * | 2023-08-18 | 2023-11-07 | 腾讯科技(深圳)有限公司 | 音频指纹特征提取模型的处理方法、装置和计算机设备 |
CN116758936A (zh) * | 2023-08-18 | 2023-09-15 | 腾讯科技(深圳)有限公司 | 音频指纹特征提取模型的处理方法、装置和计算机设备 |
CN117440093A (zh) * | 2023-10-31 | 2024-01-23 | 中移互联网有限公司 | 在线会议声音自激消除方法、装置、设备及存储介质 |
CN117351925B (zh) * | 2023-12-06 | 2024-04-12 | 科大讯飞(苏州)科技有限公司 | 啸叫抑制方法、装置、电子设备和存储介质 |
CN117351925A (zh) * | 2023-12-06 | 2024-01-05 | 科大讯飞(苏州)科技有限公司 | 啸叫抑制方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111710346B (zh) | 2021-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111710346B (zh) | 音频处理方法、装置、计算机设备以及存储介质 | |
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
US10373609B2 (en) | Voice recognition method and apparatus | |
CN111768795B (zh) | 语音信号的噪声抑制方法、装置、设备及存储介质 | |
JP2022529641A (ja) | 音声処理方法、装置、電子機器及びコンピュータプログラム | |
Adeel et al. | A novel real-time, lightweight chaotic-encryption scheme for next-generation audio-visual hearing aids | |
CN113539283A (zh) | 基于人工智能的音频处理方法、装置、电子设备及存储介质 | |
CN114338623B (zh) | 音频的处理方法、装置、设备及介质 | |
CN112102846B (zh) | 音频处理方法、装置、电子设备以及存储介质 | |
CN106165015B (zh) | 用于促进基于加水印的回声管理的装置和方法 | |
CN111091835A (zh) | 模型训练的方法、声纹识别的方法、系统、设备及介质 | |
CN112992190B (zh) | 音频信号的处理方法、装置、电子设备和存储介质 | |
CN115223584B (zh) | 音频数据处理方法、装置、设备及存储介质 | |
US20230186943A1 (en) | Voice activity detection method and apparatus, and storage medium | |
CN114974299B (zh) | 语音增强模型的训练、增强方法、装置、设备、介质 | |
WO2024000854A1 (zh) | 语音降噪方法、装置、设备及计算机可读存储介质 | |
CN112084959A (zh) | 一种人群图像处理方法及装置 | |
CN116959471A (zh) | 语音增强方法、语音增强网络的训练方法及电子设备 | |
CN109634554B (zh) | 用于输出信息的方法和装置 | |
CN113571082B (zh) | 语音通话的控制方法、装置、计算机可读介质及电子设备 | |
CN113990347A (zh) | 一种信号处理方法、计算机设备及存储介质 | |
Fime et al. | Audio signal based danger detection using signal processing and deep learning | |
CN113823313A (zh) | 语音处理方法、装置、设备以及存储介质 | |
CN113823303A (zh) | 音频降噪方法、装置及计算机可读存储介质 | |
CN116884402A (zh) | 语音转文本的方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40028596 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |