CN114582352A - 语音增强模型的训练方法、语音增强方法、装置以及设备 - Google Patents
语音增强模型的训练方法、语音增强方法、装置以及设备 Download PDFInfo
- Publication number
- CN114582352A CN114582352A CN202210177493.0A CN202210177493A CN114582352A CN 114582352 A CN114582352 A CN 114582352A CN 202210177493 A CN202210177493 A CN 202210177493A CN 114582352 A CN114582352 A CN 114582352A
- Authority
- CN
- China
- Prior art keywords
- voice
- noise
- speech
- loss value
- predicted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 92
- 238000012549 training Methods 0.000 title claims abstract description 83
- 238000001228 spectrum Methods 0.000 claims abstract description 294
- 238000005457 optimization Methods 0.000 claims abstract description 9
- 201000007201 aphasia Diseases 0.000 claims description 125
- 239000013598 vector Substances 0.000 claims description 65
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 5
- 230000009467 reduction Effects 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 16
- 238000005070 sampling Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000009432 framing Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Telephone Function (AREA)
Abstract
本申请涉及网络直播技术领域,提出一种语音增强模型的训练方法、语音增强方法、装置、计算机设备及存储介质,该方法包括:获取语音增强模型的训练样本数据;根据训练样本数据中带噪语音信号的幅度谱和待训练的语音增强模型,获得预测的纯净语音信号幅度谱、预测的噪声语音信号幅度谱、预测的纯净语音信号、预测的噪声语音信号、预测的纯净语音信号的对数梅尔功率谱以及预测的噪声语音信号的对数梅尔功率谱;根据幅度谱、对数梅尔功率谱以及语音信号,获得语音增强损失值;根据语音增强损失值对语音增强模型进行优化训练,获得训练好的语音增强模型,提高语音增强模型的鲁棒性、使降噪效果明显。
Description
技术领域
本申请实施例涉及语音通信及网络直播技术领域,尤其涉及一种语音增强模型的训练方法、语音增强方法、装置、计算机设备及存储介质。
背景技术
在直播场景,由于环境中存在各种噪音,比如主播敲击键盘的声音、空调噪音、椅子“咔咔”响的噪音等,无法保证直播过程中输入的语音信号是纯净、无噪音的语音信号。为了使得直播间的观众不会听到烦人的噪音,提升观众的音频体验,需要对包含噪音的语音进行语音增强。语音增强技术是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。也即,语音增强技术的目的是通过对包含噪声的语音信号进行处理,输出处理后的纯净语音信号。
目前,随着深度学习技术的发展,基于深度学习的语音增强方法层出不穷,如基于循环神经网络、基于卷积神经网络、基于卷积-循环神经网络以及基于UNET网络的语音增强方法等。然而,现有的语音增强方法对于语音降噪效果差。
发明内容
本申请实施例提供了一种语音增强模型的训练方法、语音增强方法、装置、计算机设备及存储介质,可以解决语音增强方法降噪效果差的技术问题,该技术方案如下:
第一方面,本申请实施例提供了一种语音增强模型的训练方法,包括步骤:
获取语音增强模型的训练样本数据;所述训练样本数据包括带噪语音信号的幅度谱、纯净语音信号的幅度谱、纯净语音信号的对数梅尔功率谱、噪声语音信号的幅度谱以及噪声语音信号的对数梅尔功率谱;其中,所述带噪语音信号由所述纯净语音信号和所述噪声语音信号合成;
根据所述带噪语音信号的幅度谱和待训练的语音增强模型,获得预测的纯净语音信号幅度谱、预测的噪声语音信号幅度谱、预测的纯净语音信号、预测的噪声语音信号、预测的纯净语音信号的对数梅尔功率谱以及预测的噪声语音信号的对数梅尔功率谱;
根据所述纯净语音信号以及预测的所述纯净语音信号,获得第一纯净语音损失值,根据所述噪声语音信号以及预测的所述噪声语音信号,获得第一噪声语音损失值;
根据所述纯净语音信号的幅度谱以及预测的所述纯净语音信号幅度谱,获得第二纯净语音损失值,根据所述噪声语音信号的幅度谱以及预测的所述噪声语音信号幅度谱,获得第二噪声语音损失值;
根据所述纯净语音信号的对数梅尔功率谱以及预测的所述纯净语音信号的对数梅尔功率谱,获得第三纯净语音损失值,根据所述噪声语音信号的对数梅尔功率谱以及预测的所述噪声语音信号的对数梅尔功率谱,获得第三噪声语音损失值;
根据所述第一纯净语音损失值、所述第一噪声语音损失值、所述第二纯净语音损失值、所述第二噪声语音损失值、所述第三纯净语音损失值以及所述第三噪声语音损失值,获得语音增强损失值;
根据所述语音增强损失值对所述语音增强模型进行优化训练,获得训练好的语音增强模型。
第二方面,本申请实施例提供了一种语音增强方法,包括:
将待增强的带噪语音信号的幅度谱输入至训练好的语音增强模型,获得纯净语音增益系数;所述语音增强模型根据所述语音增强模型的训练方法训练得到;
将所述纯净语音增益系数与所述待增强的带噪语音信号的幅度谱相乘,获得增强后的语音信号幅度谱;
将增强后的所述语音信号幅度谱进行快速傅里叶逆变换,获得增强后的语音信号。
第三方面,本申请实施例提供了一种语音增强模型的训练装置,包括:
训练样本数据获取模块,用于获取语音增强模型的训练样本数据;所述训练样本数据包括带噪语音信号的幅度谱、纯净语音信号的幅度谱、纯净语音信号的对数梅尔功率谱、噪声语音信号的幅度谱以及噪声语音信号的对数梅尔功率谱;其中,所述带噪语音信号由所述纯净语音信号和所述噪声语音信号合成;
预测幅度谱获得模块,用于根据所述带噪语音信号的幅度谱和待训练的语音增强模型,获得预测的纯净语音信号幅度谱、预测的噪声语音信号幅度谱、预测的纯净语音信号、预测的噪声语音信号、预测的纯净语音信号的对数梅尔功率谱以及预测的噪声语音信号的对数梅尔功率谱;
第一损失值获得模块,用于根据所述纯净语音信号以及预测的所述纯净语音信号,获得第一纯净语音损失值,根据所述噪声语音信号以及预测的所述噪声语音信号,获得第一噪声语音损失值;
第二损失值获得模块,用于根据所述纯净语音信号的幅度谱以及预测的所述纯净语音信号幅度谱,获得第二纯净语音损失值,根据所述噪声语音信号的幅度谱以及预测的所述噪声语音信号幅度谱,获得第二噪声语音损失值;
第三损失值获得模块,用于根据所述纯净语音信号的对数梅尔功率谱以及预测的所述纯净语音信号的对数梅尔功率谱,获得第三纯净语音损失值,根据所述噪声语音信号的对数梅尔功率谱以及预测的所述噪声语音信号的对数梅尔功率谱,获得第三噪声语音损失值;
语音增强损失值获得模块,用于根据所述第一纯净语音损失值、所述第一噪声语音损失值、所述第二纯净语音损失值、所述第二噪声语音损失值、所述第三纯净语音损失值以及所述第三噪声语音损失值,获得语音增强损失值;
模型训练模块,用于根据所述语音增强损失值对所述语音增强模型进行优化训练,获得训练好的语音增强模型。
第四方面,本申请实施例提供了一种语音增强装置,包括:
语音增益系数获得模块,用于将待增强的带噪语音信号的幅度谱输入至训练好的语音增强模型,获得纯净语音增益系数;所述语音增强模型根据上述所述语音增强模型的训练方法训练得到;
语音信号幅度谱获得模块,用于将所述纯净语音增益系数与所述待增强的带噪语音信号的幅度谱相乘,获得增强后的语音信号幅度谱;
语音信号获得模块,用于将增强后的所述语音信号幅度谱进行快速傅里叶逆变换,获得增强后的语音信号。
第五方面,本申请实施例提供了一种计算机设备,处理器、存储器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述语音增强模型的训练方法或语音增强方法的步骤。
第六方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现如上述语音增强模型的训练方法或语音增强方法的步骤。
本申请实施例通过获取语音增强模型的训练样本数据;所述训练样本数据包括带噪语音信号的幅度谱、纯净语音信号的幅度谱、纯净语音信号的对数梅尔功率谱、噪声语音信号的幅度谱以及噪声语音信号的对数梅尔功率谱;其中,所述带噪语音信号由所述纯净语音信号和所述噪声语音信号合成;根据所述带噪语音信号的幅度谱和待训练的语音增强模型,获得预测的纯净语音信号幅度谱、预测的噪声语音信号幅度谱、预测的纯净语音信号、预测的噪声语音信号、预测的纯净语音信号的对数梅尔功率谱以及预测的噪声语音信号的对数梅尔功率谱;根据所述纯净语音信号以及预测的所述纯净语音信号,获得第一纯净语音损失值,根据所述噪声语音信号以及预测的所述噪声语音信号,获得第一噪声语音损失值;根据所述纯净语音信号的幅度谱以及预测的所述纯净语音信号幅度谱,获得第二纯净语音损失值,根据所述噪声语音信号的幅度谱以及预测的所述噪声语音信号幅度谱,获得第二噪声语音损失值;根据所述纯净语音信号的对数梅尔功率谱以及预测的所述纯净语音信号的对数梅尔功率谱,获得第三纯净语音损失值,根据所述噪声语音信号的对数梅尔功率谱以及预测的所述噪声语音信号的对数梅尔功率谱,获得第三噪声语音损失值;根据所述第一纯净语音损失值、所述第一噪声语音损失值、所述第二纯净语音损失值、所述第二噪声语音损失值、所述第三纯净语音损失值以及所述第三噪声语音损失值,获得语音增强损失值;根据所述语音增强损失值对所述语音增强模型进行优化训练,获得训练好的语音增强模型。本申请实施例通过融合时域、频域以及梅尔域的代价函数来计算语音增强损失值,利用所述语音增强损失值来训练语音增强模型,使得训练好的语音增强模型具有较好的鲁棒性、更佳的降噪效果。
为了更好地理解和实施,下面结合附图详细说明本申请的技术方案。
附图说明
图1为本申请实施例提供的语音增强模型的训练方法的的应用场景示意图;
图2为本申请实施例提供的语音增强模型的训练方法的流程示意图;
图3为本申请实施例提供的语音增强模型的训练方法中S201~S204的流程示意图;
图4为本申请实施例提供的语音增强模型的训练方法中S301~S312的流程示意图;
图5为本申请实施例提供的语音增强模型的训练方法中S61~S63的流程示意图;
图6为本申请实施例提供的语音增强模型的训练方法中S611~S614的流程示意图;
图7为本申请实施例提供的语音增强模型的训练方法中S621~S624的流程示意图;
图8为本申请实施例提供的语音增强方法的流程示意图;
图9为本申请实施例提供的语音增强模型的训练装置的结构示意图;
图10为本申请实施例提供的语音增强装置的结构示意图;
图11为本申请实施例提供的计算机设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本申请的语音增强模型的训练方法可以应用于语音通信系统中,例如视频会议、线上教育、社交聊天、以及网络直播等,下面以网络直播为例说明本申请的具体应用场景。
请参阅图1,图1为本申请实施例提供的语音增强模型的训练方法的应用场景示意图,该应用场景包括本申请实施例提供的主播客户端101、服务器102和观众客户端103,主播客户端101与观众客户端103通过服务器102进行交互。
其中,主播客户端101是指发送网络直播视频的一端,通常来说是网络直播中主播(即,直播主播用户)所采用的客户端。
观众客户端103是指接收和观看网络直播视频的一端,通常来说是网络直播中观看视频的观众(即,直播观众用户)所采用的客户端。
主播客户端101和观众客户端103所指向的硬件,本质上是指计算机设备,具体地,如图1所示,其可以是智能手机、智能交互平板和个人计算机等类型的计算机设备。主播客户端101和观众客户端103均可以通过公知的网络接入方式接入互联网,与服务器102建立数据通信链路。
服务器102作为一个业务服务器,其可以负责进一步连接起相关音频数据服务器、视频流服务器以及其他提供相关支持的服务器等,以此构成逻辑上相关联的服务机群,来为相关的终端设备,例如图1中所示的主播客户端101和观众客户端103提供服务。
本申请实施例中,主播客户端101与观众客户端103可以加入同一个直播间(即直播频道),上述的直播间是指依靠互联网技术实现的一种聊天室,通常具备音视频播控功能。主播用户通过主播客户端101在直播间内进行直播,观众客户端103的观众可以登录服务器102进入直播间观看上直播。
在直播间内,主播与观众之间可通过语音、视频、文字等公知的线上交互方式来实现互动,一般是主播用户以音视频流的形式为观众表演节目,并且在互动过程中还可产生经济交易行为。当然,直播间的应用形态并不局限于在线娱乐,也可推广到其他相关场景中,例如:用户配对互动场景、视频会议场景、产品推介销售场景以及其他任何需要类似互动的场景中。
具体地,观众观看直播的过程如下:观众可以点击访问安装在观众客户端103上的直播应用程序(例如YY),并选择进入任意一个直播间,触发观众客户端103为该观众加载直播间界面,该直播间界面内包括若干交互组件,通过加载这些交互组件可以使观众在直播间内观看直播,并进行多种线上互动。
主播在直播时,主播客户端的麦克风采集的语音信号除了包括主播的语音之外,还包括主播所处环境中的噪音。将麦克风采集的语音信号编码成音频流推送给服务器,服务器再将所述音频流发送给观众客户端时,观众会听到噪音,从而导致直播间的观众体验不佳。
为此,本申请实施例提供了一种语音增强模型的训练方法,可以由主播客户端、观众客户端或者服务器作为执行主体。
实施例1
请参阅图2,图2为本申请第一实施例提供的语音增强模型的训练方法的流程示意图,该方法包括如下步骤:
S10:获取语音增强模型的训练样本数据;所述训练样本数据包括带噪语音信号的幅度谱、纯净语音信号的幅度谱、纯净语音信号的对数梅尔功率谱、噪声语音信号的幅度谱以及噪声语音信号的对数梅尔功率谱;其中,所述带噪语音信号由所述纯净语音信号和所述噪声语音信号合成。
在本申请实施例中,纯净语音信号为不含噪声的语音信号,在所述纯净语音信号加入一定信噪比的噪声语音信号可以获得带噪语音信号。其中,所述信噪比可以按需设置,例如可以将加入的信噪比的范围设置为0dB~30dB。
对所述纯净语音信号、所述噪声语音信号、所述带噪语音信号分别执行从时域到频域的变化,可以获得对应的纯净语音信号的幅度谱、噪声语音信号的幅度谱以及带噪语音信号的幅度谱。具体地,以获得纯净语音信号的幅度谱为例,通过对所述纯净语音信号进行分帧、加窗以及快速傅里叶变换等的时域到频域的变化,获得纯净语音信号的幅度谱。同理,通过对所述噪声语音信号进行分帧、加窗以及快速傅里叶变换等的时域到频域的变化,获得噪声语音信号的幅度谱;通过对所述带噪语音信号进行采样、分帧、加窗以及快速傅里叶变换等的时域到频域的变化,获得带噪语音信号的幅度谱。
对纯净语音信号的幅度谱进行平方,获得纯净语音信号的功率谱。然后,采用梅尔滤波器组对纯净语音信号的功率谱进行处理,获得纯净语音信号的对数梅尔功率谱。具体地,采用4个梅尔滤波器组,每个梅尔滤波器组的大小分别为16、32、64和192。同理,可以采用上述相同的步骤获得噪声语音信号的对数梅尔功率谱。
S20:根据所述带噪语音信号的幅度谱和待训练的语音增强模型,获得预测的纯净语音信号幅度谱、预测的噪声语音信号幅度谱、预测的纯净语音信号、预测的噪声语音信号、预测的纯净语音信号的对数梅尔功率谱以及预测的噪声语音信号的对数梅尔功率谱。
在本申请实施例中,将所述带噪语音信号的幅度谱输入至待训练的语音增强模型,可以获得预测的纯净语音信号幅度谱、预测的噪声语音信号幅度谱、预测的纯净语音信号、预测的噪声语音信号、预测的纯净语音信号的对数梅尔功率谱以及预测的噪声语音信号的对数梅尔功率谱。其中,所述语音增强模型是基于深度神经网络的语音增强模型,深度神经网络的具体网络结构,可以根据计算任务进行按需选取,例如,深度神经网络的具体网络结构可以为BP神经网络或UNET神经网络,本申请对此不作限定。
S30:根据所述纯净语音信号以及预测的所述纯净语音信号,获得第一纯净语音损失值,根据所述噪声语音信号以及预测的所述噪声语音信号,获得第一噪声语音损失值。
在本申请实施例中,采用时域的尺度不变的信噪比(Scale Invariant Source-to-Noise Ratio,简称SI-SNR)代价函数分别计算所述纯净语音信号和预测的所述纯净语音信号之间的损失、所述噪声语音信号和预测的所述噪声语音信号之间的损失,从而获得第一纯净语音损失值和第一噪声语音损失值。
S40:根据所述纯净语音信号的幅度谱以及预测的所述纯净语音信号幅度谱,获得第二纯净语音损失值,根据所述噪声语音信号的幅度谱以及预测的所述噪声语音信号幅度谱,获得第二噪声语音损失值。
在本申请实施例中,采用频域的均方误差(Mean Squard Error,简称MSE)代价函数分别计算所述纯净语音信号的幅度谱和预测的所述纯净语音信号幅度谱之间的损失、所述噪声语音信号的幅度谱和预测的所述噪声语音信号幅度谱之间的损失,从而获得第二纯净语音损失值和第二噪声语音损失值。
S50:根据所述纯净语音信号的对数梅尔功率谱以及预测的所述纯净语音信号的对数梅尔功率谱,获得第三纯净语音损失值,根据所述噪声语音信号的对数梅尔功率谱以及预测的所述噪声语音信号的对数梅尔功率谱,获得第三噪声语音损失值。
在本申请实施例中,采用梅尔域的多梅尔滤波器组感知(Multi Mel FilterbanksPerception,简称MMFP)代价函数分别计算所述纯净语音信号的对数梅尔功率谱和预测的所述纯净语音信号的对数梅尔功率谱之间的损失、所述噪声语音信号的对数梅尔功率谱和预测的所述噪声语音信号的对数梅尔功率谱之间的损失,从而获得第三纯净语音损失值和第三噪声语音损失值。其中,梅尔域表征了人耳对于听觉声音的敏感程度,更加符合人类的声音感知特性。
S60:根据所述第一纯净语音损失值、所述第一噪声语音损失值、所述第二纯净语音损失值、所述第二噪声语音损失值、所述第三纯净语音损失值以及所述第三噪声语音损失值,获得语音增强损失值。
在本申请实施例中,将基于时域的所述第一纯净语音损失值和所述第一噪声语音损失值、基于频域的所述第二纯净语音损失值和所述第二噪声语音损失值、基于梅尔域的所述第三纯净语音损失值以及所述第三噪声语音损失值加权求和,获得语音增强损失值。
S70:根据所述语音增强损失值对所述语音增强模型进行优化训练,获得训练好的语音增强模型。
在本申请实施例中,根据所述语音增强损失值优化所述语音增强模型的模型参数。具体地,先由前向传播计算出语音增强损失值,然后通过反向传播算法和梯度下降算法调整所述语音增强模型的模型参数,再将训练样本输入至调整后的所述语音增强模型,进而再次计算语音增强损失值,直至所述语音增强损失值不再下降,或者达到预设的迭代次数为止,获得训练好的语音增强模型。
本申请实施例通过获取语音增强模型的训练样本数据;所述训练样本数据包括带噪语音信号的幅度谱、纯净语音信号的幅度谱、纯净语音信号的对数梅尔功率谱、噪声语音信号的幅度谱以及噪声语音信号的对数梅尔功率谱;其中,所述带噪语音信号由所述纯净语音信号和所述噪声语音信号合成;根据所述带噪语音信号的幅度谱和待训练的语音增强模型,获得预测的纯净语音信号幅度谱、预测的噪声语音信号幅度谱、预测的纯净语音信号、预测的噪声语音信号、预测的纯净语音信号的对数梅尔功率谱以及预测的噪声语音信号的对数梅尔功率谱;根据所述纯净语音信号以及预测的所述纯净语音信号,获得第一纯净语音损失值,根据所述噪声语音信号以及预测的所述噪声语音信号,获得第一噪声语音损失值;根据所述纯净语音信号的幅度谱以及预测的所述纯净语音信号幅度谱,获得第二纯净语音损失值,根据所述噪声语音信号的幅度谱以及预测的所述噪声语音信号幅度谱,获得第二噪声语音损失值;根据所述纯净语音信号的对数梅尔功率谱以及预测的所述纯净语音信号的对数梅尔功率谱,获得第三纯净语音损失值,根据所述噪声语音信号的对数梅尔功率谱以及预测的所述噪声语音信号的对数梅尔功率谱,获得第三噪声语音损失值;根据所述第一纯净语音损失值、所述第一噪声语音损失值、所述第二纯净语音损失值、所述第二噪声语音损失值、所述第三纯净语音损失值以及所述第三噪声语音损失值,获得语音增强损失值;根据所述语音增强损失值对所述语音增强模型进行优化训练,获得训练好的语音增强模型。本申请实施例通过融合时域、频域以及梅尔域的代价函数来计算语音增强损失值,利用所述语音增强损失值来训练语音增强模型,使得训练好的语音增强模型具有较好的鲁棒性、更佳的降噪效果。
在一个可选的实施例中,请参阅图3,步骤S20包括步骤S201~S204,具体如下:
S201:将所述带噪语音信号的幅度谱输入至待训练的语音增强模型,获得预测的增益系数;其中,预测的所述增益系数包括预测的纯净语音增益系数和预测的噪声语音增益系数;
S202:将预测的所述纯净语音增益系数与所述带噪语音信号的幅度谱相乘,获得预测的纯净语音信号幅度谱,将预测的所述噪声语音增益系数与所述带噪语音信号的幅度谱相乘,获得预测的噪声语音信号幅度谱;
S203:将预测的所述纯净语音信号幅度谱经过快速傅里叶逆变换,获得预测的纯净语音信号,将预测的所述噪声语音信号幅度谱经过快速傅里叶逆变换,获得预测的噪声语音信号;
S204:将预测的所述纯净语音信号幅度谱求平方,获得预测的纯净语音信号功率谱;采用梅尔滤波器组将预测的所述纯净语音信号功率谱转换为预测的纯净语音信号的对数梅尔功率谱,将预测的所述噪声语音信号幅度谱求平方,获得预测的噪声语音信号功率谱;采用梅尔滤波器组将预测的所述噪声语音信号功率谱转换为预测的噪声语音信号的对数梅尔功率谱。
在本申请实施例中,预测的增益系数为一向量,所述向量的维度由带噪语音信号幅度谱一帧的长度决定。例如,带噪语音信号由时域转换为频域时,快速傅里叶变换FFT点数为512,则带噪语音信号幅度谱一帧的长度为512,预测的增益系数维度为1024,前512维为预测的纯净语音增益系数,预测的所述纯净语音增益系数为预测的纯净语音信号的幅度谱与带噪语音信号的幅度谱的比值,后512维为预测的噪声语音增益系数,预测的所述噪声语音增益系数为预测的噪声语音信号的幅度谱与带噪语音信号的幅度谱的比值。以将预测的所述纯净语音信号功率谱转换为预测的纯净语音信号的对数梅尔功率谱为例进行说明,具体为:所述梅尔滤波器组有M个三角滤波器,每个所述三角滤波器的中心频率为f(m)(0≤m<M),每个所述三角滤波器的频率响应Hm(f)为:
其中,f为预测的所述纯净语音信号对应的频率。
其中,fh表示预测的所述纯净语音信号对应的最高频率,y(f)是预测的纯净语音信号的功率谱。
通过将带噪语音信号的幅度谱输入至待训练的语音增强模型,可以自动快捷地获得预测的纯净语音信号幅度谱、预测的噪声语音信号幅度谱、预测的纯净语音信号、预测的噪声语音信号、预测的纯净语音信号的对数梅尔功率谱以及预测的噪声语音信号的对数梅尔功率谱,以便于后续语音增强损失值的计算。
在一个可选的实施例中,请参阅图4,步骤S30包括步骤S301~S303,具体如下:
S301:对所述纯净语音信号、预测的所述纯净语音信号、所述噪声语音信号以及预测的所述噪声语音信号分别进行平均差处理,获得所述纯净语音信号对应的第一向量、预测的所述纯净语音信号对应的第二向量、所述噪声语音信号对应的第三向量以及预测的所述噪声语音信号对应的第四向量;
S302:将所述第一向量与第一尺度因子的乘积作为第一目标向量,将所述第二向量与所述第一目标向量的差作为第一误差向量,根据所述第一目标向量和所述第一误差向量获得第一纯净语音损失值;其中,所述第一尺度因子为所述第一向量与所述第二向量之间的向量内积与所述第一向量的2范数平方的比值;
S303:将所述第三向量与第二尺度因子的乘积作为第二目标向量,将所述第四向量与所述第二目标向量的差作为第二误差向量,根据所述第二目标向量和所述第二误差向量获得第一噪声语音损失值;其中,所述第二尺度因子为所述第三向量与所述第四向量之间的向量内积与所述第三向量的2范数平方的比值。
在本申请实施例中,以获得第一纯净语音损失值为例进行说明,具体为:所述纯净语音信号包括若干个第一采样点以及每个第一采样点对应的振幅,对预测所述的纯净语音信号包括若干个第二采样点以及每个第二采样点对应的振幅,所述第一采样点的数量和所述第二采样点的数量相同。将全部第一采样点的振幅求平均,获得第一平均结果。将每个第一采样点的振幅与所述第一平均结果相减,获得所述纯净语音信号对应的第一向量。同理,将全部第二采样点的振幅求平均,获得第二平均结果。将每个第二采样点的振幅与所述第二平均结果相减,获得预测的所述纯净语音信号对应的第二向量。其中,所述第一向量表示为s=s0-mean(s0),所述第二向量表示为s0表示全部第一采样点的振幅,表示全部第二采样点的振幅,mean(s0)表示所述第一平均结果,表示所述第二平均结果。根据所述第一向量s和所述第二向量可以获得第一目标向量starget,具体如下:
所述第一误差向量可以表示为:
所述第一纯净语音损失值可以表示为:
同理,也可以获得第一噪声语音损失值。
通过采用SI-SNR代价函数,可以自动快捷地计算出第一纯净语音损失值和第一噪声语音损失值,以便于后续语音增强损失值的计算。
在一个可选的实施例中,步骤S40包括步骤S401,具体如下:
S401:将预测的所述纯净语音信号幅度谱以及所述纯净语音信号的幅度谱之间的均方误差作为所述第二纯净语音损失值,将预测的所述噪声语音信号幅度谱以及所述噪声语音信号的幅度谱之间的均方误差作为所述第二噪声语音损失值。
其中,N为纯净语音信号的幅度谱包含的频率个数。
同理,可以计算预测的所述噪声语音信号幅度谱以及所述噪声语音信号的幅度谱之间的均方误差获得所述第二噪声语音损失值。
通过采用均方误差方法,可以自动快捷地获得第二纯净语音损失值和第二噪声语音损失值,以便于后续语音增强损失值的计算。
在一个可选的实施例中,步骤S50包括步骤S501,具体如下:
S501:将预测的所述纯净语音信号的对数梅尔功率谱以及所述纯净语音信号的对数梅尔功率谱之间的均方根误差作为第三纯净语音损失值,将预测的所述噪声语音信号的对数梅尔功率谱以及所述噪声语音信号的对数梅尔功率谱之间的均方根误差作为第三噪声语音损失值。
同理,通过可以计算预测的所述噪声语音信号的对数梅尔功率谱以及所述噪声语音信号的对数梅尔功率谱之间的均方根误差,获得第三噪声语音损失值。
通过采用均方根误差方法,可以自动快捷地获得第三纯净语音损失值和第三噪声语音损失值,以便于后续语音增强损失值的计算。
在一个可选的实施例中,请参阅图5,步骤S60包括步骤S61~S63,具体如下:
S61:根据所述第一纯净语音损失值、所述第二纯净语音损失、所述第三纯净语音损失值以及对应预设的纯净语音信号权重,获得语音增强的纯净语音损失值;
S62:根据所述第一噪声语音损失值、所述第二噪声语音损失、所述第三噪声语音损失值以及对应预设的噪音语音信号权重,获得语音增强的噪音语音损失值;
S63:根据语音增强的所述纯净语音损失值和语音增强的所述噪音语音损失值,获得语音增强损失值。
在本申请实施例中,利用预设的纯净语音信号权重对所述第一纯净语音损失值、所述第二纯净语音损失、所述第三纯净语音损失值进行加权,获得语音增强的纯净语音损失值。利用预设的噪音语音信号权重对所述第一噪声语音损失值、所述第二噪声语音损失、所述第三噪声语音损失值进行加权,获得语音增强的噪音语音损失值。具体地,对语音增强的所述纯净语音损失值预设第一语音增强权重,将语音增强的所述纯净语音损失值与所述第一语音增强权重相乘,获得加权后的语音增强的所述纯净语音损失值。对语音增强的所述噪音语音损失值预设第二语音增强权重,将语音增强的所述噪声语音损失值与所述第二语音增强权重相乘,获得加权后的语音增强的所述噪声语音损失值。将加权后的语音增强的所述纯净语音损失值与加权后的语音增强的所述噪声语音损失值求和,获得语音增强损失值。所述语音增强损失值的具体表达式如下:
ltotal=γ1lspeech+γ2lnoise
其中,ltota1是所述语音增强损失值,lspeech是语音增强的纯净语音损失值,lnoise是语音增强的噪音语音损失值,γ1是所述第一语音增强权重,γ2是所述第二语音增强权重,调整γ1和γ2的值便可以调整语音失真和噪声消除的程度,γ1更大则对语音的保护力度更大,γ2更大则噪声消除得更多。
通过将语音增强的所述纯净语音损失值和语音增强的所述噪音语音损失值混合,获得语音增强损失值,从而提高了训练语音增强模型的鲁棒性。
在一个可选的实施例中,请参阅图6,所述预设的纯净语音信号权重包括第一预设权重、第二预设权重以及第三预设权重,步骤S61包括步骤S611~S614,具体如下:
S611:将所述第一纯净语音损失值与所述第一预设权重相乘,获得加权后的第一纯净语音损失值;
S612:将所述第二纯净语音损失值与所述第二预设权重相乘,获得加权后的第二纯净语音损失值;
S613:将所述第三纯净语音损失值与所述第三预设权重相乘,获得加权后的第三纯净语音损失值;
S614:将所述加权后的第一纯净语音损失值、所述加权后的第二纯净语音损失值以及所述加权后的第三纯净语音损失值之和与所述第一预设权重、所述第二预设权重以及所述第三预设权重之和相除,获得语音增强的纯净语音损失值。
在本申请实施例中,所述第一纯净语音损失值大于所述第二纯净语音损失值,所述第一纯净语音损失值大于所述第三纯净语音损失值,设置所述第二预设权重、所述第三预设权重设大于所述第一预设权重,避免所述第二纯净语音损失值和所述第三纯净语音损失值在语音增强的纯净语音损失值贡献的比重小。具体地,语音增强的纯净语音损失值表示为:
其中,α1是所述第一预设权重,α2是所述第二预设权重,α3是所述第三预设权重,lSI-SNR是所述第一纯净语音损失值,lMSE是所述第二纯净语音损失值,lMMFP是所述第三纯净语音损失值。
在一个可选的实施例中,请参阅图7,所述预设的噪声语音权重包括第四预设权重、第五预设权重以及第六预设权重,步骤S62包括步骤S621~S624,具体如下:
S621:将所述第一噪声语音损失值与所述第四预设权重相乘,获得加权后的第一噪声语音损失值;
S622:将所述第二噪声语音损失值与所述第五预设权重相乘,获得加权后的第二噪声语音损失值;
S623:将所述第三噪声语音损失值与所述第六预设权重相乘,获得加权后的第三噪声语音损失值;
S624:将所述加权后的第一噪声语音损失值、所述加权后的第二噪声语音损失值以及所述加权后的第三噪声语音损失值之和与所述第四预设权重、所述第五预设权重以及所述第六预设权重之和相除,获得语音增强的噪声语音损失值。
在本申请实施例中,所述第一噪声语音损失值大于所述第二噪声语音损失值,所述第一噪声语音损失值大于所述第三噪声语音损失值,设置所述第五预设权重、所述第六预设权重设大于所述第四预设权重,避免所述第二噪声语音损失值和所述第三噪声语音损失值在语音增强的噪声语音损失值贡献的比重小。具体地,语音增强的噪声语音损失值表示为:
其中,β1是所述第四预设权重,β2是所述第五预设权重,β3是所述第六预设权重,l′SI-SNR是所述第一噪声语音损失值,l′MSE是所述第二噪声语音损失值,l′MMFP是所述第三噪声语音损失值。
实施例2
请参阅图8,图8为本申请第二实施例提供的语音增强方法的流程示意图,可以由主播客户端、观众客户端或者服务器作为执行主体,该方法包括如下步骤:
S100:将待增强的带噪语音信号的幅度谱输入至训练好的语音增强模型,获得纯净语音增益系数;所述语音增强模型根据实施例1中任一所述的语音增强模型的训练方法训练得到;
S200:将所述纯净语音增益系数与所述待增强的带噪语音信号的幅度谱相乘,获得增强后的语音信号幅度谱;
S300:将增强后的所述语音信号幅度谱进行快速傅里叶逆变换,获得增强后的语音信号。
在本申请实施例中,通过将待增强的带噪语音信号的幅度谱输入至训练好的语音增强模型,可以获得纯净语音增益系数,将所述纯净语音增益系数与所述待增强的带噪语音信号的幅度谱相乘,可以获得纯净语音信号幅度谱。对所述纯净语音信号幅度谱进行快速傅里叶逆变换,获得增强后的语音信号,所述增强后的语音信号可以用于语音通话,从而提升语音通话的清晰度和流畅度。
实施例3
下述为本申请装置实施例,可以用于执行本申请实施例1中方法的内容。对于本申请装置实施例中未披露的细节,请参照本申请实施例1中方法的内容。
请参见图9,其示出了本申请实施例提供的语音增强模型的训练装置9,包括:
训练样本数据获取模块91,用于获取语音增强模型的训练样本数据;所述训练样本数据包括带噪语音信号的幅度谱、纯净语音信号的幅度谱、纯净语音信号的对数梅尔功率谱、噪声语音信号的幅度谱以及噪声语音信号的对数梅尔功率谱;其中,所述带噪语音信号由所述纯净语音信号和所述噪声语音信号合成;
预测幅度谱获得模块92,用于根据所述带噪语音信号的幅度谱和待训练的语音增强模型,获得预测的纯净语音信号幅度谱、预测的噪声语音信号幅度谱、预测的纯净语音信号、预测的噪声语音信号、预测的纯净语音信号的对数梅尔功率谱以及预测的噪声语音信号的对数梅尔功率谱;
第一损失值获得模块93,用于根据所述纯净语音信号以及预测的所述纯净语音信号,获得第一纯净语音损失值,根据所述噪声语音信号以及预测的所述噪声语音信号,获得第一噪声语音损失值;
第二损失值获得模块94,用于根据所述纯净语音信号的幅度谱以及预测的所述纯净语音信号幅度谱,获得第二纯净语音损失值,根据所述噪声语音信号的幅度谱以及预测的所述噪声语音信号幅度谱,获得第二噪声语音损失值;
第三损失值获得模块95,用于根据所述纯净语音信号的对数梅尔功率谱以及预测的所述纯净语音信号的对数梅尔功率谱,获得第三纯净语音损失值,根据所述噪声语音信号的对数梅尔功率谱以及预测的所述噪声语音信号的对数梅尔功率谱,获得第三噪声语音损失值;
语音增强损失值获得模块96,用于根据所述第一纯净语音损失值、所述第一噪声语音损失值、所述第二纯净语音损失值、所述第二噪声语音损失值、所述第三纯净语音损失值以及所述第三噪声语音损失值,获得语音增强损失值;
模型训练模块97,用于根据所述语音增强损失值对所述语音增强模型进行优化训练,获得训练好的语音增强模型。
需要说明的是,上述实施例提供的语音增强模型的训练装置在执行语音增强模型的训练方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分为不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音增强模型的训练装置与语音增强模型的训练方法属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
实施例4
下述为本申请装置实施例,可以用于执行本申请实施例2中方法的内容。对于本申请装置实施例中未披露的细节,请参照本申请实施例2中方法的内容。
请参见图10,其示出了本申请实施例提供的语音增强装置10,包括:
语音增益系数获得模块101,用于将待增强的带噪语音信号的幅度谱输入至训练好的语音增强模型,获得纯净语音增益系数;所述语音增强模型根据实施例1任一所述的语音增强模型的训练方法训练得到;
语音信号幅度谱获得模块102,用于将所述纯净语音增益系数与所述待增强的带噪语音信号的幅度谱相乘,获得增强后的语音信号幅度谱;
语音信号获得模块103,用于将增强后的所述语音信号幅度谱进行快速傅里叶逆变换,获得语音增强后的语音信号。
需要说明的是,上述实施例提供的语音增强装置在执行语音增强方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分为不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音增强装置与语音增强方法属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
请参阅图11,为本申请提供的计算机设备的结构示意图。如图11所示,该计算机设备21可以包括:处理器210、存储器211以及存储在该存储器211并可以在该处理器210上运行的计算机程序212,例如:语音增强模型的训练程序或语音增强程序;该处理器210执行该计算机程序212时实现上述实施例中的步骤。
其中,该处理器210可以包括一个或多个处理核心。处理器210利用各种接口和线路连接计算机设备21内的各个部分,通过运行或执行存储在存储器211内的指令、程序、代码集或指令集,以及调用存储器211内的数据,执行计算机设备21的各种功能和处理数据,可选的,处理器210可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programble LogicArray,PLA)中的至少一个硬件形式来实现。处理器210可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责触摸显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器210中,单独通过一块芯片进行实现。
其中,存储器211可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器211包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器211可用于存储指令、程序、代码、代码集或指令集。存储器211可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控指令等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器211可选的还可以是至少一个位于远离前述处理器210的存储装置。
本申请实施例还提供了一种计算机存储介质,该计算机存储介质可以存储有多条指令,该指令适用于由处理器加载并执行上述实施例的方法步骤,具体执行过程可以参见上述实施例的具体说明,在此不进行赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。
本发明并不局限于上述实施方式,如果对本发明的各种改动或变形不脱离本发明的精神和范围,倘若这些改动和变形属于本发明的权利要求和等同技术范围之内,则本发明也意图包含这些改动和变形。
Claims (13)
1.一种语音增强模型的训练方法,其特征在于,包括如下步骤:
获取语音增强模型的训练样本数据;所述训练样本数据包括带噪语音信号的幅度谱、纯净语音信号的幅度谱、纯净语音信号的对数梅尔功率谱、噪声语音信号的幅度谱以及噪声语音信号的对数梅尔功率谱;其中,所述带噪语音信号由所述纯净语音信号和所述噪声语音信号合成;
根据所述带噪语音信号的幅度谱和待训练的语音增强模型,获得预测的纯净语音信号幅度谱、预测的噪声语音信号幅度谱、预测的纯净语音信号、预测的噪声语音信号、预测的纯净语音信号的对数梅尔功率谱以及预测的噪声语音信号的对数梅尔功率谱;
根据所述纯净语音信号以及预测的所述纯净语音信号,获得第一纯净语音损失值,根据所述噪声语音信号以及预测的所述噪声语音信号,获得第一噪声语音损失值;
根据所述纯净语音信号的幅度谱以及预测的所述纯净语音信号幅度谱,获得第二纯净语音损失值,根据所述噪声语音信号的幅度谱以及预测的所述噪声语音信号幅度谱,获得第二噪声语音损失值;
根据所述纯净语音信号的对数梅尔功率谱以及预测的所述纯净语音信号的对数梅尔功率谱,获得第三纯净语音损失值,根据所述噪声语音信号的对数梅尔功率谱以及预测的所述噪声语音信号的对数梅尔功率谱,获得第三噪声语音损失值;
根据所述第一纯净语音损失值、所述第一噪声语音损失值、所述第二纯净语音损失值、所述第二噪声语音损失值、所述第三纯净语音损失值以及所述第三噪声语音损失值,获得语音增强损失值;
根据所述语音增强损失值对所述语音增强模型进行优化训练,获得训练好的语音增强模型。
2.根据权利要求1所述的语音增强模型的训练方法,其特征在于:
所述根据所述第一纯净语音损失值、所述第一噪声语音损失值、所述第二纯净语音损失值、所述第二噪声语音损失值、所述第三纯净语音损失值以及所述第三噪声语音损失值,获得语音增强损失值的步骤,包括:
根据所述第一纯净语音损失值、所述第二纯净语音损失、所述第三纯净语音损失值以及对应预设的纯净语音信号权重,获得语音增强的纯净语音损失值;
根据所述第一噪声语音损失值、所述第二噪声语音损失、所述第三噪声语音损失值以及对应预设的噪音语音信号权重,获得语音增强的噪音语音损失值;
根据语音增强的所述纯净语音损失值和语音增强的所述噪音语音损失值,获得语音增强损失值。
3.根据权利要求2所述的语音增强模型的训练方法,其特征在于:
所述预设的纯净语音信号权重包括第一预设权重、第二预设权重以及第三预设权重;
所述根据所述第一纯净语音损失值、所述第二纯净语音损失、所述第三纯净语音损失值以及对应预设的纯净语音信号权重,获得语音增强的纯净语音损失值的步骤,包括:
将所述第一纯净语音损失值与所述第一预设权重相乘,获得加权后的第一纯净语音损失值;
将所述第二纯净语音损失值与所述第二预设权重相乘,获得加权后的第二纯净语音损失值;
将所述第三纯净语音损失值与所述第三预设权重相乘,获得加权后的第三纯净语音损失值;
将所述加权后的第一纯净语音损失值、所述加权后的第二纯净语音损失值以及所述加权后的第三纯净语音损失值之和与所述第一预设权重、所述第二预设权重以及所述第三预设权重之和相除,获得语音增强的纯净语音损失值。
4.根据权利要求2所述的语音增强模型的训练方法,其特征在于:
所述预设的噪声语音权重包括第四预设权重、第五预设权重以及第六预设权重;
所述根据所述第一噪声语音损失值、所述第二噪声语音损失、所述第三噪声语音损失值以及对应预设的噪音语音信号权重,获得语音增强的噪音语音损失值的步骤,包括:
将所述第一噪声语音损失值与所述第四预设权重相乘,获得加权后的第一噪声语音损失值;
将所述第二噪声语音损失值与所述第五预设权重相乘,获得加权后的第二噪声语音损失值;
将所述第三噪声语音损失值与所述第六预设权重相乘,获得加权后的第三噪声语音损失值;
将所述加权后的第一噪声语音损失值、所述加权后的第二噪声语音损失值以及所述加权后的第三噪声语音损失值之和与所述第四预设权重、所述第五预设权重以及所述第六预设权重之和相除,获得语音增强的噪声语音损失值。
5.根据权利要求1至4中任一项权利要求所述的语音增强模型的训练方法,其特征在于:
所述根据所述带噪语音信号的幅度谱和待训练的语音增强模型,获得预测的纯净语音信号幅度谱、预测的噪声语音信号幅度谱、预测的纯净语音信号、预测的噪声语音信号、预测的纯净语音信号的对数梅尔功率谱以及预测的噪声语音信号的对数梅尔功率谱的步骤,包括:
将所述带噪语音信号的幅度谱输入至待训练的语音增强模型,获得预测的增益系数;其中,预测的所述增益系数包括预测的纯净语音增益系数和预测的噪声语音增益系数;
将预测的所述纯净语音增益系数与所述带噪语音信号的幅度谱相乘,获得预测的纯净语音信号幅度谱,将预测的所述噪声语音增益系数与所述带噪语音信号的幅度谱相乘,获得预测的噪声语音信号幅度谱;
将预测的所述纯净语音信号幅度谱经过快速傅里叶逆变换,获得预测的纯净语音信号,将预测的所述噪声语音信号幅度谱经过快速傅里叶逆变换,获得预测的噪声语音信号;
将预测的所述纯净语音信号幅度谱求平方,获得预测的纯净语音信号功率谱;采用梅尔滤波器组将预测的所述纯净语音信号功率谱转换为预测的纯净语音信号的对数梅尔功率谱,将预测的所述噪声语音信号幅度谱求平方,获得预测的噪声语音信号功率谱;采用梅尔滤波器组将预测的所述噪声语音信号功率谱转换为预测的噪声语音信号的对数梅尔功率谱。
6.根据权利要求1至4中任一项权利要求所述的语音增强模型的训练方法,其特征在于:
所述根据所述纯净语音信号以及预测的所述纯净语音信号,获得第一纯净语音损失值,根据所述噪声语音信号以及预测的所述噪声语音信号,获得第一噪声语音损失值的步骤,包括:
对所述纯净语音信号、预测的所述纯净语音信号、所述噪声语音信号以及预测的所述噪声语音信号分别进行平均差处理,获得所述纯净语音信号对应的第一向量、预测的所述纯净语音信号对应的第二向量、所述噪声语音信号对应的第三向量以及预测的所述噪声语音信号对应的第四向量;
将所述第一向量与第一尺度因子的乘积作为第一目标向量,将所述第二向量与所述第一目标向量的差作为第一误差向量,根据所述第一目标向量和所述第一误差向量获得第一纯净语音损失值;其中,所述第一尺度因子为所述第一向量与所述第二向量之间的向量内积与所述第一向量的2范数平方的比值;
将所述第三向量与第二尺度因子的乘积作为第二目标向量,将所述第四向量与所述第二目标向量的差作为第二误差向量,根据所述第二目标向量和所述第二误差向量获得第一噪声语音损失值;其中,所述第二尺度因子为所述第三向量与所述第四向量之间的向量内积与所述第三向量的2范数平方的比值。
7.根据权利要求1至4中任一项权利要求所述的语音增强模型的训练方法,其特征在于:
所述根据所述纯净语音信号的幅度谱以及预测的所述纯净语音信号幅度谱,获得第二纯净语音损失值,根据所述噪声语音信号的幅度谱以及预测的所述噪声语音信号幅度谱,获得第二噪声语音损失值的步骤,包括:
将预测的所述纯净语音信号幅度谱以及所述纯净语音信号的幅度谱之间的均方误差作为所述第二纯净语音损失值,将预测的所述噪声语音信号幅度谱以及所述噪声语音信号的幅度谱之间的均方误差作为所述第二噪声语音损失值。
8.根据权利要求1至4中任一项权利要求所述的语音增强模型的训练方法,其特征在于:
所述根据所述纯净语音信号的对数梅尔功率谱以及预测的所述纯净语音信号的对数梅尔功率谱,获得第三纯净语音损失值,根据所述噪声语音信号的对数梅尔功率谱以及预测的所述噪声语音信号的对数梅尔功率谱,获得第三噪声语音损失值的步骤,包括:
将预测的所述纯净语音信号的对数梅尔功率谱以及所述纯净语音信号的对数梅尔功率谱之间的均方根误差作为第三纯净语音损失值,将预测的所述噪声语音信号的对数梅尔功率谱以及所述噪声语音信号的对数梅尔功率谱之间的均方根误差作为第三噪声语音损失值。
9.一种语音增强方法,其特征在于,方法包括如下步骤:
将待增强的带噪语音信号的幅度谱输入至训练好的语音增强模型,获得纯净语音增益系数;所述语音增强模型根据权利要求1-8任一项所述语音增强模型的训练方法训练得到;
将所述纯净语音增益系数与所述待增强的带噪语音信号的幅度谱相乘,获得增强后的语音信号幅度谱;
将增强后的所述语音信号幅度谱进行快速傅里叶逆变换,获得增强后的语音信号。
10.一种语音增强模型的训练装置,其特征在于,包括:
训练样本数据获取模块,用于获取语音增强模型的训练样本数据;所述训练样本数据包括带噪语音信号的幅度谱、纯净语音信号的幅度谱、纯净语音信号的对数梅尔功率谱、噪声语音信号的幅度谱以及噪声语音信号的对数梅尔功率谱;其中,所述带噪语音信号由所述纯净语音信号和所述噪声语音信号合成;
预测幅度谱获得模块,用于根据所述带噪语音信号的幅度谱和待训练的语音增强模型,获得预测的纯净语音信号幅度谱、预测的噪声语音信号幅度谱、预测的纯净语音信号、预测的噪声语音信号、预测的纯净语音信号的对数梅尔功率谱以及预测的噪声语音信号的对数梅尔功率谱;
第一损失值获得模块,用于根据所述纯净语音信号以及预测的所述纯净语音信号,获得第一纯净语音损失值,根据所述噪声语音信号以及预测的所述噪声语音信号,获得第一噪声语音损失值;
第二损失值获得模块,用于根据所述纯净语音信号的幅度谱以及预测的所述纯净语音信号幅度谱,获得第二纯净语音损失值,根据所述噪声语音信号的幅度谱以及预测的所述噪声语音信号幅度谱,获得第二噪声语音损失值;
第三损失值获得模块,用于根据所述纯净语音信号的对数梅尔功率谱以及预测的所述纯净语音信号的对数梅尔功率谱,获得第三纯净语音损失值,根据所述噪声语音信号的对数梅尔功率谱以及预测的所述噪声语音信号的对数梅尔功率谱,获得第三噪声语音损失值;
语音增强损失值获得模块,用于根据所述第一纯净语音损失值、所述第一噪声语音损失值、所述第二纯净语音损失值、所述第二噪声语音损失值、所述第三纯净语音损失值以及所述第三噪声语音损失值,获得语音增强损失值;
模型训练模块,用于根据所述语音增强损失值对所述语音增强模型进行优化训练,获得训练好的语音增强模型。
11.一种语音增强装置,其特征在于,包括:
语音增益系数获得模块,用于将待增强的带噪语音信号的幅度谱输入至训练好的语音增强模型,获得纯净语音增益系数;所述语音增强模型根据权利要求1-8任一项所述语音增强模型的训练方法训练得到;
语音信号幅度谱获得模块,用于将所述纯净语音增益系数与所述待增强的带噪语音信号的幅度谱相乘,获得增强后的语音信号幅度谱;
语音信号获得模块,用于将增强后的所述语音信号幅度谱进行快速傅里叶逆变换,获得增强后的语音信号。
12.一种计算机设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1-8中任意一项所述的语音增强模型的训练方法或权利要求9所述的语音增强方法。
13.一种计算机可读存储介质,其上储存有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-8中任意一项所述的语音增强模型的训练方法或权利要求9所述的语音增强方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210177493.0A CN114582352A (zh) | 2022-02-24 | 2022-02-24 | 语音增强模型的训练方法、语音增强方法、装置以及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210177493.0A CN114582352A (zh) | 2022-02-24 | 2022-02-24 | 语音增强模型的训练方法、语音增强方法、装置以及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114582352A true CN114582352A (zh) | 2022-06-03 |
Family
ID=81774895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210177493.0A Pending CN114582352A (zh) | 2022-02-24 | 2022-02-24 | 语音增强模型的训练方法、语音增强方法、装置以及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114582352A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114974299A (zh) * | 2022-08-01 | 2022-08-30 | 腾讯科技(深圳)有限公司 | 语音增强模型的训练、增强方法、装置、设备、介质 |
-
2022
- 2022-02-24 CN CN202210177493.0A patent/CN114582352A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114974299A (zh) * | 2022-08-01 | 2022-08-30 | 腾讯科技(深圳)有限公司 | 语音增强模型的训练、增强方法、装置、设备、介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106162427B (zh) | 一种声音获取元件的指向性调整方法和装置 | |
CN112017681B (zh) | 定向语音的增强方法及系统 | |
CN103761063B (zh) | 一种在播放设备中控制音频的输出音量的方法和装置 | |
CN107241616A (zh) | 视频台词提取方法、装置及存储介质 | |
CN107333093A (zh) | 一种声音处理方法、装置、终端及计算机可读存储介质 | |
CN114582352A (zh) | 语音增强模型的训练方法、语音增强方法、装置以及设备 | |
CN110277101A (zh) | 对于超高动态范围的主动声学回声消除 | |
CN114792524B (zh) | 音频数据处理方法、装置、程序产品、计算机设备和介质 | |
CN112750444A (zh) | 混音方法、装置及电子设备 | |
US20240194214A1 (en) | Training method and enhancement method for speech enhancement model, apparatus, electronic device, storage medium and program product | |
CN113963716A (zh) | 通话式门铃的音量均衡方法、装置、设备和可读存储介质 | |
CN105940449A (zh) | 音频信号处理 | |
CN110276404B (zh) | 模型训练方法、装置及存储介质 | |
US11741984B2 (en) | Method and apparatus and telephonic system for acoustic scene conversion | |
CN117079661A (zh) | 一种声源处理方法及相关装置 | |
CN114286278B (zh) | 音频数据处理方法、装置、电子设备及存储介质 | |
JP7143874B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
CN114121032A (zh) | 语音信号增益补偿方法、电子设备和存储介质 | |
CN114449116A (zh) | 回声消除的延时获取方法、装置、计算机设备及存储介质 | |
CN114063965A (zh) | 高解析音频生成方法、电子设备及其训练方法 | |
CN113299310B (zh) | 声音信号处理方法、装置、电子设备及可读存储介质 | |
WO2017171864A1 (en) | Acoustic environment understanding in machine-human speech communication | |
CN111370017A (zh) | 一种语音增强方法、装置、系统 | |
CN113571075B (zh) | 音频处理的方法、装置、电子设备和存储介质 | |
CN117880696B (zh) | 混音方法、装置、计算机设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |