CN114333891A - 一种语音处理方法、装置、电子设备和可读介质 - Google Patents
一种语音处理方法、装置、电子设备和可读介质 Download PDFInfo
- Publication number
- CN114333891A CN114333891A CN202111237541.2A CN202111237541A CN114333891A CN 114333891 A CN114333891 A CN 114333891A CN 202111237541 A CN202111237541 A CN 202111237541A CN 114333891 A CN114333891 A CN 114333891A
- Authority
- CN
- China
- Prior art keywords
- gain
- processed
- voice frame
- neural network
- glottal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephone Function (AREA)
Abstract
本申请涉及一种语音处理方法、装置、电子设备和可读介质。该方法包括:获取待处理语音帧的音频特征向量;根据音频特征向量进行声门增益计算,得到第一增益,第一增益对应于待处理语音帧的声门特征;根据音频特征向量进行激励增益计算,得到第二增益,第二增益对应于待处理语音帧的激励信号;根据第一增益和第二增益,对待处理语音帧进行增益控制,得到目标语音帧。该方法能够降低数据完备性的对降噪结果的影响,并且能够有效处理训练数据中未涵盖的噪声类型和噪声环境所带来的噪声,提升降噪效果。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种语音处理方法、装置、电子设备和可读介质。
背景技术
随着计算机技术的发展,出现了各类语音通信或者语音控制技术。通过此类技术允许用户进行远距离沟通或者可以提高人机互动的效率。在现实环境中,用户在所在的周遭环境中时麦克风等设备会采集到的各类环境噪音,并且对语音交流的质量产生不同程度地影响。因此,语音增强成为一个重要的课题。
在相关的技术中,对含噪声的语音音频采用深度学习的方法学习信号特征,从而预测出语音成分和噪声成分的占比,再根据预测的结果对含噪语音进行增强,来达到降噪的效果。
然而,在上述方案中,需要针对各类噪声收集训练数据来训练模型,从而使得训练出的模型能够处理训练数据中所涵盖的噪声类型,因此模型的处理效果受到训练数据完备性的影响,在面对训练数据中没有的情况时,降噪效果差。
发明内容
基于上述技术问题,本申请提供一种语音处理方法、装置、电子设备和可读介质,以降低了数据完备性的对降噪结果的影响,并且能够有效处理训练数据中未涵盖的噪声类型和噪声环境所带来的噪声,提升降噪效果。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供一种语音处理方法,包括:
获取待处理语音帧的音频特征向量;
根据所述音频特征向量进行声门增益计算,得到第一增益,所述第一增益对应于所述待处理语音帧的声门特征;
根据所述音频特征向量进行激励增益计算,得到第二增益,所述第二增益对应于所述待处理语音帧的激励信号;
根据所述第一增益和所述第二增益,对所述待处理语音帧进行增益控制,得到目标语音帧。
根据本申请实施例的一个方面,提供一种语音处理装置,包括:
向量获取模块,用于获取待处理语音帧的音频特征向量;
声门增益模块,用于根据所述音频特征向量进行声门增益计算,得到第一增益,所述第一增益是根据所述待处理语音帧的声门特征确定的;
激励增益模块,用于根据所述音频特征向量进行激励增益计算,得到第二增益,所述第二增益是根据所述待处理语音帧的激励信号确定的;
增益控制模块,用于根据所述第一增益和所述第二增益,对所述待处理语音帧进行增益控制,得到目标语音帧。
在本申请的一些实施例中,基于以上技术方案,声门增益模块包括:
第一神经网络子模块,用于将所述音频特征向量输入第一神经网络,所述第一神经网络是根据噪声语音帧对应的声门特征和所述噪声语音帧对应的去噪语音帧对应的声门特征进行训练得到的;
声门增益预测子模块,用于通过所述第一神经网络根据所述音频特征向量进行增益预测,得到所述第一增益。
在本申请的一些实施例中,基于以上技术方案,声门增益预测子模块包括:
增益计算单元,用于通过所述第一神经网络对所述音频特征向量进行增益计算,得到所述待处理语音帧中各个子带对应的第一声门增益,其中,所述子带对应于所述待处理语音帧中的至少一个频带;
增益生成单元,用于将所述各个子带对应的第一声门增益合并作为所述第一增益。
在本申请的一些实施例中,基于以上技术方案,语音处理装置包括:
增益分析单元,用于通过所述第一神经网络对所述音频特征向量和所述待处理语音帧待处理语音帧的基音周期进行预测分析,确定第二声门增益,所述第二声门增益对应于所述音频特征向量的长时相关性特征;
增益生成单元包括:
增益合并子单元,用于将所述各个子带对应的第一声门增益和所述第二声门增益合并作为所述第一增益。
在本申请的一些实施例中,基于以上技术方案,声门增益预测子模块包括:
第一参数预测单元,用于通过所述第一神经网络根据所述音频特征向量进行参数预测,得到第一声门参数,所述第一声门参数用于表示所述音频特征向量的短时相关性特征;
第一增益预测单元,用于通过所述第一神经网络根据所述第一声门参数进行增益预测,得到所述第一预测结果;
增益确定单元,用于根据所述第一预测结果确定所述第一增益。
在本申请的一些实施例中,基于以上技术方案,声门增益预测子模块还包括:
第二参数预测单元,用于通过所述第一神经网络根据所述音频特征向量和所述待处理语音帧待处理语音帧的基音周期进行参数预测,得到第二声门参数,所述第二声门参数用于表示所述音频特征向量的长时相关性特征;
第二增益预测单元,用于通过所述第一神经网络根据所述第二声门参数进行增益预测,得到第二预测结果;
增益确定单元包括:
预测结果合并子单元,用于将所述第一预测结果和所述第二预测结果合并确定为所述第一增益。
在本申请的一些实施例中,基于以上技术方案,激励增益模块包括:
第二神经网络子模块,用于将所述音频特征向量输入第二神经网络,所述第二神经网络是根据噪声语音帧的激励信号和所述噪声语音帧对应的去噪语音帧的激励信号进行训练得到的;
激励增益预测子模块,用于通过所述第二神经网络根据所述音频特征向量对应的激励信号进行增益预测,得到所述第二增益。
在本申请的一些实施例中,基于以上技术方案,向量获取模块包括:
频谱系数获取子模块,用于获取所述待处理语音帧的频谱系数;
特征计算子模块,用于将所述待处理语音帧的频谱系数输入到预处理神经网络进行特征计算,得到所述待处理语音帧的音频特征向量,所述预处理神经网络是根据噪声语音帧的频谱系数和所述噪声语音帧对应的去噪语音帧的频谱系数进行训练得到的。
在本申请的一些实施例中,基于以上技术方案,语音处理装置还包括:
历史频谱系数获取模块,用于获取所述待处理语音帧的历史语音帧的频谱系数;
特征计算子模块包括:
特征向量计算单元,用于将所述待处理语音帧的频谱系数和所述历史语音帧的频谱系数输入到所述预处理神经网络进行特征计算,得到所述待处理语音帧的音频特征向量。
在本申请的一些实施例中,基于以上技术方案,增益控制模块包括:
第一增强子模块,用于根据所述第二增益对所述待处理语音帧进行增强,得到第一增强结果;
第二增益子模块,用于根据所述第一增益对所述第一增强结果中的各个子带进行增益运算,得到第二增强结果;
逆时频转换子模块,用于根据所述第二增强结果进行逆时频转换,得到增强后的语音帧作为目标语音帧。
在本申请的一些实施例中,基于以上技术方案,语音处理装置还包括:
幅度谱计算模块,用于根据所述待处理语音帧计算所述待处理语音帧对应的幅度谱和相位谱;
增益控制模块包括:
幅度谱增益子模块,用于根据所述第一增益和所述第二增益,对所述待处理语音帧对应的幅度谱进行增益控制,得到增强后的幅度谱;
幅度谱逆时频转换子模块,用于根据所述增强后的幅度谱以及所述待处理语音帧对应的相位谱进行逆时频转换,得到目标语音帧。
在本申请的一些实施例中,基于以上技术方案,幅度谱增益子模块包括:
幅度谱增强单元,用于根据所述第二增益对所述待处理语音帧的幅度谱进行增强,得到第一幅度谱增强结果;
幅度谱增益单元,用于根据所述第一增益对所述第一幅度谱增强结果中的各个子带进行增益运算,得到增强后的幅度谱。
根据本申请实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,该处理器配置为经由执行可执行指令来执行如以上技术方案中的语音处理方法。
根据本申请实施例的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,当该计算机程序被处理器执行时实现如以上技术方案中的语音处理方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供语音处理方法。
在本申请的实施例中,针对含噪声的语音信号的声门特征和激励信号分别计算第一增益和第二增益,再根据第一增益和第二增益进行增益控制,从而对含噪声的语音信号进行去噪。根据对应于声门特征和激励信号的增益来进行降噪处理能够针对性地对语音信号中的人声部分以外的部分进行降噪,从而使得在降噪过程中不再需要针对各类噪声进行训练,从而降低了数据完备性的对降噪结果的影响,并且能够有效处理训练数据中未涵盖的噪声类型和噪声环境所带来的噪声,提升降噪效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本申请技术方案在一个应用场景中的示例性系统构架示意图;
图2示出了语音信号产生的数字模型的示意图;
图3为本申请实施例中声门滤波器的示例实现的示意图;
图4为本申请实施例中声门滤波器的另一示例实现的示意图;
图5示出了不同信噪比下根据原始语音信号分解出激励信号和声门滤波器的频率响应的示意图;
图6示出了根据本申请的一个实施例示出的语音处理方法的流程图;
图7是根据一具体实施例示出的第一神经网络的结构示意图;
图8是根据一具体实施例示出的第二神经网络的结构示意图;
图9是根据一具体实施例示出的第二神经网络的结构示意图;
图10为本申请实施例中整体流程的示意图;
图11为本申请实施例中另一个整体流程的示意图;
图12示意性地示出了本申请实施例中语音处理装置的组成框图;
图13示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
语音信号中的噪声会极大降低语音质量,影响用户的听觉体验,因此,为了提高语音信号的质量,有必要对语音信号进行增强处理,以尽可能能地除去噪声,并且保留语音信号中的原始语音信息,即得到去噪之后的纯净信号。
本申请的方案可以应用于语音通话的场景中,例如通过即时通讯软件进行语音通话、在游戏应用中进行多人通话等,也可以应用于基于云技术的各类服务中,例如云游戏、云会议、云呼叫和云教育等。其中,可以在语音的发送端、语音的接收端、或者提供语音通信服务的服务端来按照本方案进行语音增强。
云会议是线上办公中一个重要的环节,在云会议中,云会议的参与方的声音采集装置在采集到发言人的语音信号后,需要将所采集到的语音信号发送至其他会议参与方,该过程涉及到语音信号在多个参与方之间的传输和播放,如果不对语音信号中所混有的噪声信号进行处理,会极大影响会议参与方的听觉体验。在该种场景中,可以应用本申请的方案对云会议中的语音信号进行增强,使会议参与方所听到的语音信号是进行增强后的语音信号,提高语音信号的质量。
云会议是基于云计算技术的一种高效、便捷、低成本的会议形式。使用者只需要通过互联网界面,进行简单易用的操作,便可快速高效地与全球各地团队及客户同步分享语音、数据文件及视频,而会议中数据的传输、处理等复杂技术由云会议服务提供方帮助使用者进行操作。
目前国内云会议主要集中在以SaaS(Software as a Service,软件即服务)模式为主体的服务内容,包括电话、网络、视频等服务形式,基于云计算的视频会议就叫云会议。在云会议时代,数据的传输、处理、存储全部由视频会议提供方的计算机资源处理,用户完全无需再购置昂贵的硬件和安装繁琐的软件,只需打开客户端,进入相应界面,就能进行高效的远程会议。
云会议系统支持多服务器动态集群部署,并提供多台高性能服务器,大大提升了会议稳定性、安全性、可用性。近年来,视频会议因能大幅提高沟通效率,持续降低沟通成本,带来内部管理水平升级,而获得众多用户欢迎,已广泛应用在政务、交通、运输、金融、运营商、教育、企业等各个领域。
下面,以网络电话(Voice over Internet Protocol,VoIP)为例介绍本申请实施例的应用场景。请参阅图1,图1为本申请技术方案在一个应用场景中的示例性系统构架示意图。
如图1所示,该系统架构中包括发送端110和接收端120。发送端110与接收端120存在网络连接,发送端110与接收端120可以通过网络连接进行语音通信。
如图1所示,发送端110包括采集模块111、前增强处理模块112和编码模块113,其中,采集模块111用于采集语音信号,其可以将采集到的声学信号转换成数字信号;前增强处理模块112用于对采集到的语音信号进行增强,以除去所采集到语音信号中的噪声,提高语音信号的质量。编码模块113用于对增强后的语音信号进行编码,以提高语音信号在传输过程中的抗干扰性。前增强处理模块112可以按照本申请的方法进行语音增强,对语音进行增强后,再进行编码压缩和传输,这样可以保证接收端接收到的信号不再受噪声影响。
接收端120包括解码模块121、后增强模块122和播放模块123。解码模块121用于对接收到的编码语音进行解码,得到解码信号;后增强模块122用于对解码后的语音信号进行增强处理;播放模块123用于播放增强处理后的语音信号。后增强模块122也可以按照本申请的方法进行语音增强。在一些实施例中,接收端120还可以包括音效调节模块,该音效调节模块用于对增强后的语音信号进行音效调节。
在具体实施例中,可以是仅在接收端120或者仅在发送端110按照本申请的方法进行语音增强,当然,还可以是在发送端110和接收端120均按照本申请的方法进行语音增强。
在一些应用场景中,VoIP系统中的终端设备除了可以支持VoIP通信外,还可以支持其他第三方协议,例如传统PSTN(Public Switched Telephone Network,公用电话交换网)电路域电话,而传统的PSTN服务不能进行语音增强,在该种场景中,可以在作为接收端的终端中按照本申请的方法进行语音增强。
在对本方案进行具体说明之前,首先对基于激励信号的语音生成方法进行介绍。人的发声方式是由气流经过声带时带动声带振动发声。而基于激励信号的语音生成方法的发声过程包括:在气管处,产生一定能量的类噪声的冲击信号,即激励信号,相当于气流;冲击信号冲击声门滤波器(相当于人的声带),产生类周期性的开合,从而发出声音。可见,该过程模拟了人的发声过程。
图2示出了语音信号产生的数字模型的示意图,通过该数字模型可以描述语音信号的产生过程。如图2所示,激励信号冲击声门滤波器输出语音信号,其中,声门滤波器由通常根据声门参数进行配置。声门滤波器可以采用各类采用源-滤波器模型生成语音的方案中的滤波器。具体地,请参阅图3,图3为本申请实施例中声门滤波器的示例实现的示意图。考虑到语音信号的短时相关性,声门滤波器可以用一个线性预测编码(Linear PredictiveCoding,LPC)滤波器来实现,激励信号冲击LPC滤波器,生成语音信号。
另一方面,根据经典的语音信号处理理论,LPC滤波器只反映了发声中的短时相关性,但对于浊音类发音(比如,元音),是具有长时相关性(Long-Term Prediction,LTP)(或者叫准周期性);声门滤波器还可以采用多个滤波器来实现。具体地,请参阅图4,图4为本申请实施例中声门滤波器的另一示例实现的示意图。如图4所示,声门滤波器由LPC滤波器和LTP滤波器两部分组成。其中,LTP滤波器还接收基音周期作为输入。基因周期表示计算第n个样本时,需要第n-p个样本点,其中p就是基因周期。
图5示出了不同信噪比下根据原始语音信号分解出激励信号和声门滤波器的频率响应的示意图,图5a示出了该原始语音信号的频率响应示意图,图5b示出了根据该原始语音信号所分解出声门滤波器的频率响应示意图,图5c示出了根据该原始语音信号所分解出激励信号的频率响应示意图。图5中示出了两个原始语音信号以及所对应的分解结果,分别用实线和虚线表示,其中一个原始信号为30db的信号,另一个信号为0db的信号。原始语音信号的频率响应图中起伏的部分对应于声门滤波器的频率响应图中波峰位置,激励信号相当于对该原始语音信号进行线性预测分析后的残差信号(即激励信号),因此其对应的频率响应较平缓。在图5a中,30db和0db的两个原始语音信号虽然存在一定差异,但差异相对不明显,存在较多相互重合的部分,而进行分解过后,图5b中的声门滤波器的频率响应中,二者之间的差异则相对明显,重合部分明显减少,而在图5c中的激励信号中,两个信号之间的差异则被明显放大,能够明确地区分出两个激励信号。可见,信号分解能够将原始语音信号之间的差异进行更充分的体现,而基于分解结果进行增益控制从而也能够使增益结果准确。
由上可以看出,根据一原始语音信号(即不包含噪声的语音信号)可以分解出激励信号和声门滤波器,所分解出的激励信号和声门滤波器可以用于表达该原始语音信号,其中,声门滤波器可以通过声门参数来表达。反之,如果已知一原始语音信号对应的激励信号和用于确定声门滤波器的声门参数,则可以根据所对应的激励信号和声门滤波器来重构该原始语音信号。
本申请的方案基于该原理,分别计算对应于声门滤波器的增益和对应于激励信号的增益,来对原始的语音信号进行增益控制,从而实现语音增强。
以下对本申请实施例的技术方案的实现细节进行详细阐述。为了便于介绍,请参阅图6,图6示出了根据本申请的一个实施例示出的语音处理方法的流程图。该方法可以由具备处理能力的计算机设备执行,例如终端、服务器等,在此不进行具体限定。如图6所示,该方法至少包括如下的步骤S610至S640:
步骤S610,获取待处理语音帧的音频特征向量。
语音信号是随时间而非平稳随机变化的,但是在短时间内语音信号的特性是强相关的,即语音信号具有短时相关性,因此,在本申请的方案中,以语音帧为单位来进行语音处理。待处理语音帧是当前待进行处理的语音帧,其为原始含噪声的待处理音频中的任意一帧。
在获取待处理语音帧的音频特征向量,可以首先对该待处理语音帧的时域信号进行时频变换获得,时频变换例如短时傅里叶变换(Short-term Fourier transform,STFT)。基于STFT变换得到的待处理语音帧的频域表示,可以进行音频特征提取,从而得到音频特征向量。特征提取的方式可以按照预设的算法来执行,也可以通过训练好的神经网络来执行。音频特征向量的维度通常取决于待处理语音帧的样本点的数量以及STFT变换时所采用的加窗交叠的比例。例如,对于257个样本点的频域表示,音频特征向量可以是128维。
步骤S620,根据音频特征向量进行声门增益计算,得到第一增益,第一增益对应于待处理语音帧的声门特征。
声门增益计算是针对于待处理语音帧所对应的声门滤波器部分计算增益的过程。计算得到的第一增益关联于待处理语音帧的声门特征。取决于对于待处理语音帧所采用的声门模型,第一增益具体包括多个子增益。例如,对于LPC+LTP的声门模型,第一增益则可以包括对应于LPC的子增益和对应于LTP的自增益。
声门增益计算可以采用神经网络的方式来进行。通过训练好的神经网络来根据音频特征向量,从而直接输出对应的第一增益。神经网络采用监督训练的方式进行,训练数据中包括含噪语音以及对于含噪语音计算出每个语音帧对应的数据标注,即去噪语音,根据含噪语音和去噪语音训练出神经网络来输出第一增益。
声门增益计算也可以采用其他方式。例如,首先根据声门模型来对待处理语音帧进行语音分解,得到对应的声门滤波器的声门参数。然后将声门参数和音频特征向量都作为输入到神经网络中进行处理,神经网络则根据声门参数和音频特征向量对去噪语音进行模拟,再通过模拟出的去噪语音与含噪语音来确定第一增益。
步骤S630,根据音频特征向量进行激励增益计算,得到第二增益,第二增益对应于待处理语音帧的激励信号。
激励增益计算是针对于待处理语音帧所对应的激励信号部分计算增益的过程。计算得到的第二增益关联于待处理语音帧的激励信号。具体地,第二增益的维度通常与待处理语音帧的频谱系数相对应。
激励增益计算可以采用神经网络的方式来进行。通过训练好的神经网络来根据音频特征向量,从而直接输出对应的第二增益。神经网络采用监督训练的方式进行,训练数据中包括含噪语音以及对含噪语音对应去噪语音进行语音分解后得到的激励信号,根据含噪语音和去噪语音的激励信号训练出神经网络来输出第二增益。
激励增益计算也可以采用其他方式。例如,首先根据声门模型来对待处理语音帧进行语音分解,得到对应的激励信号。然后将激励信号和音频特征向量都作为输入到神经网络中进行处理,神经网络则利用待处理语音帧进行分解时得到的声门参数来根据激励信号和音频特征向量对去噪语音进行模拟,再通过模拟出的去噪语音与含噪语音来确定第二增益。
步骤S640,根据第一增益和第二增益,对待处理语音帧进行增益控制,得到目标语音帧。
具体地,首先可以根据第二增益对待处理语音帧的频域表示进行增强,之后再根据第一增益对得到的结果进行增益,从而得到增强过后的频域表示。然后根据增强后的频域表示进行STFT反变换,从而能够得到增强后的待处理语音帧。
在本申请的实施例中,针对含噪声的语音信号的声门特征和激励信号分别计算第一增益和第二增益,再根据第一增益和第二增益进行增益控制,从而对含噪声的语音信号进行去噪。根据对应于声门特征和激励信号的增益来进行降噪处理能够针对性地对语音信号中的人声部分以外的部分进行降噪,从而使得在降噪过程中不再需要针对各类噪声进行训练,从而降低了数据完备性的对降噪结果的影响,并且能够有效处理训练数据中未涵盖的噪声类型和噪声环境所带来的噪声,提升降噪效果。
在本申请的一些实施例中,基于上述的技术方案,上述步骤S620,根据音频特征向量进行声门增益计算,得到第一增益,可以包括如下步骤:
将音频特征向量输入第一神经网络,第一神经网络是根据噪声语音帧对应的声门特征和噪声语音帧对应的去噪语音帧对应的声门特征进行训练得到的;
通过第一神经网络根据音频特征向量进行增益预测,得到第一增益。
第一神经网络可以是通过长短时记忆神经网络、卷积神经网络、循环神经网络、全连接神经网络等构建的模型,在此不进行具体限定。
在训练的过程中,首先对训练数据中含有噪声的语音帧进行分解,得到声门模型中声门滤波器对应的频率响应,然后根据含有噪声的语音帧的音频特征向量和分解的到的声门滤波器对应的频率响应来进行训练,通过调整第一神经网络的模型参数,直至第一神经网络所输出的第一增益能够使得含噪语音帧的声门特征与去噪语音帧的声门特征之间的差异满足预设的要求。预设的要求可以通过均方误差的方式来进行计算。通过训练使得输出的第一增益使得含噪语音帧的声门特征与去噪语音帧的声门特征之间的均方误差满足设定的均方误差门限,从而判断训练得到的模型能够达到预期目的。通过该训练过程,可以使得第一神经网络所预测得到的第一增益能够使得待处理语音帧在声门模型(即声门滤波器+激励信号)下的声门滤波器与纯净语音在声门模型下的声门滤波器足够相似,从而具备降噪能力。
通过第一神经网络根据音频特征向量进行增益预测,得到第一增益。图7是根据一具体实施例示出的第一神经网络的结构示意图,如图7所示,第一神经网络包括三个全连接(Full Connected,FC)层。输入的F(n)为128维的音频特征向量。第一个FC层的输出为256维的向量,第二个FC层的输出为128维向量,第三个FC层输出为32维向量,即第一增益g1(n)。当然,图7仅仅是第一神经网络的结构的一种示例性举例,不能认为是对本申请使用范围的限制。
在本申请的实施例中,通过神经网络获得针对于声门特征的第一增益,通过神经网络学到声门特征与第一增益之间的关系,从而能够根据有限的训练数据得到模型来处理实际场景中的各类情况,提升方案的灵活性。
在本申请的一个实施例中,基于上述的技术方案,上述步骤,通过第一神经网络根据音频特征向量进行增益预测,得到第一增益,可以包括如下步骤:
通过第一神经网络对音频特征向量中的子带进行增益计算,得到各个子带对应的第一声门增益,其中,子带对应于待处理语音帧中至少一个频带;
将各个子带对应的第一声门增益合并作为第一增益。
具体地,声门滤波器相关的频谱响应是一种类似低通的平滑效果。因此,虽然待处理语音帧的频域表示的维度是257维,但计算第一增益时,并不需要达到257为的分辨率。因此,在计算第一增益的过程中可以向将相邻几个系数进行合并,共用一个第一增益,每个子带包括音频特征向量中的相邻的至少两个维度中的特征。
根据待处理语音帧的频域表示沿频率进行分带,可以得到该频域表示中的多个子带。对频域表示所进行的分带可以是对频率进行均匀分带(即每个子带对应的频率宽度相同),也可以是非均匀分带,在此不进行具体限定。可以理解的是,每个子带对应一个频率范围,其中包括多个频点。
非均匀分带可以是巴克(Bark)分带。Bark分带是按照Bark频率尺度进行分带的,Bark频率尺度把频率映射到心理声学的多个临界频带上,频带的数量可以根据采样率和实际需要进行设定,例如频点的数量设定为24。Bark分带符合听觉系统的特征,一般地,越是低频,子带包含的系数数量越少、甚至就是单个系数,越是高频,子带包含的系数数量越多。
在一个实施例中,对于257个系数,相邻8个系数合并成一个子带(FFT系数的第一个元素是直流分量,可以忽略)。因此,最后输出的第一增益g1(n)的维度是32维。通过第一神经网络,可以输出对应于各个子带的第一声门增益。将各个子带的第一声门增益合并得到第一增益。即,32个子带对应于第一增益的32维。
在本申请的实施例中,通过子带合并的方式根据音频特征向量计算第一增益,从而能够对计算过程进行降维,从而能够取降低方案的整体计算量,从而提升计算效率。
在本申请的一个实施例中,基于上述的技术方案,该语音处理方法还可以包括如下步骤:
通过第一神经网络对音频特征向量和待处理语音帧待处理语音帧的基音周期进行预测分析,确定第二声门增益,第二声门增益对应于音频特征向量的长时相关性特征;
将各个子带对应的第一声门增益合并作为第一增益,包括:
将各个子带对应的第一声门增益和第二声门增益合并作为第一增益。
在本实施例中,第一增益包括两个部分,对应于语音帧的短时相关性特征的第一声门特征以及对应于语音帧的长时相关性特征的第二声门特征。待处理语音帧的基音周期可以通过预先对待处理语音帧进行语音分解和分析来获得。第一神经网络可以根据音频特征向量和基音周期直接输出第二声门增益。第二声门增益对应于声门滤波器中的LTP滤波的声门参数。因此,在训练的过程中,模型基于含噪语音以及去噪语音分解得到的对应于LTP滤波器的声门参数进行训练,通过调整模型参数,使得最终输出的第一增益与去噪结果所对应的第一增益之间的均方误差相似度达到均方误差阈值,从而完成训练。第一神经网络可以一并输出第一声门增益和第二声门增益。在一个实施例中,第一神经网络可以由两个子网络构成,分别用于输出第一声门特征和第二声门特征。
在本申请的实施例中,在第一增益的计算过程中进一步考虑到语音帧的长时相关性,使得方案对于语音帧中的语音部分的识别更加精细,从而避免增益对原始语音产生影响,提升方案的准确性。
在本申请的一个实施例中,基于上述的技术方案,上述步骤,通过第一神经网络根据音频特征向量进行增益预测,得到第一增益,可以包括如下步骤:
通过第一神经网络根据音频特征向量进行参数预测,得到第一声门参数,第一声门参数用于表示音频特征向量的短时相关性特征;
通过第一神经网络根据第一声门参数进行增益预测,得到第一预测结果;
根据第一预测结果确定第一增益。
在本实施例中,第一神经网络会根据音频特征向量来预测待处理语音帧对应的第一声门参数。第一声门参数用于表示音频特征向量的短时相关性特征。具体地,第一声门参数对应于LPC滤波器。在第一神经网络的训练过程中,通过预先训练数据中含噪语音对应的去噪语音进行分解,可以确定去噪语音的LPC滤波器的配置参数,根据含噪语音的音频特征向量以及去噪语音的LPC滤波器的配置参数,可以对第一神经网络进行训练,使得第一神经网络预测的第一声门参数与去噪语音的LPC滤波器的配置参数之间的均方误差满足设定的精度要求。然后,根据得到第一声门参数,第一神经网络可以预测去噪语音的频谱,并且根据预测的频谱和待处理语音帧的频谱来确定第一预测结果。第一预测结果即第一增益。
在本实施例中,通过第一神经网络预测待处理语音帧的对应的第一声门参数,再根据第一声门参数来预测第一增益,将声门滤波器对应的声门参数预测目标,相较于对待处理语音的每个语音帧进行标注的标注结果,简化了训练数据的复杂度,从而提升计算效率。
在本申请的一个实施例中,基于上述的技术方案,该语音处理方法还包括:
通过第一神经网络根据音频特征向量和待处理语音帧待处理语音帧的基音周期进行参数预测,得到第二声门参数,第二声门参数用于表示音频特征向量的长时相关性特征;
通过第一神经网络根据第二声门参数进行增益预测,得到第二预测结果;
根据第一预测结果确定第一增益,包括:
将第一预测结果和第二预测结果合并确定为第一增益。
具体地,第一神经网络会根据音频特征向量和待处理语音帧待处理语音帧的基音周期预测第二声门参数。第一声门参数用于表示音频特征向量的长时相关性特征。具体地,第二声门参数对应于LTP滤波器。在本实施例中,语音帧的声门模型还包括LTP滤波器。根据第一声门参数配置的LPC滤波器所生成的语音信号通过根据第二声门参数配置的LTP滤波器进行进一步的处理来模拟待处理语音帧中的语音。在训练的过程中,通过预先训练数据中含噪语音对应的去噪语音进行分解,可以确定去噪语音的LTP滤波器的配置参数,根据含噪语音的音频特征向量以及去噪语音的LTP滤波器的配置参数,可以对第一神经网络进行训练,使得第一神经网络预测的第二声门参数与去噪语音的LTP滤波器的配置参数之间的均方误差满足设定的精度要求。然后,根据得到第二声门参数,第一神经网络可以结合第一预测结果来预测去噪语音的频谱,从而得到第二预测结果。第二预测结果也是第一增益的一部分,其使得基于第二预测结果得到的去噪结果中的长时相关性特征与去噪语音中的长时相关性特征相似。将第一预测结果与第二预测结果合并,可以得到第一增益。在后续的应用过程中,根据第一预测结果与第二预测结果依次对待处理语音帧进行增强,从而达到降噪的效果。
在本申请的实施例中,通过预测第二声门参数,在第一增益的预测过程中进一步考虑到语音帧的长时相关性,使得方案对于语音帧中的浊音部分的预测更加准确,从而提升方案的准确性。
在本申请的一个实施例中,基于上述的技术方案,上述步骤S630,根据音频特征向量进行激励增益计算,得到第二增益,包括:
将音频特征向量输入第二神经网络,第二神经网络是根据噪声语音帧的激励信号和噪声语音帧对应的去噪语音帧的激励信号进行训练得到的;
通过第二神经网络根据音频特征向量对应的激励信号进行增益预测,得到第二增益。
第二神经网络是指用于预测激励信号对应的第二增益的神经网络模型,第二神经网络可以是通过长短时记忆神经网络、卷积神经网络、循环神经网络、全连接神经网络等构建的模型,在此不进行具体限定。
在训练的过程中,首先对训练数据中含有噪声的语音帧进行分解,得到声门模型中激励信号对应的频率响应,然后根据含有噪声的语音帧的音频特征向量和分解的到的激励信号对应的频率响应来进行训练,通过调整第二神经网络的模型参数,直至第二神经网络所输出的第二增益能够使得含噪语音帧的激励信号与去噪语音帧的激励信号之间的差异满足预设的要求。其中,预设的要求可以通过均方误差的方式来进行计算。通过训练使得输出的第一增益使得含噪语音帧的激励信号与去噪语音帧的激励信号之间的均方误差满足设定的均方误差门限,从而判断训练得到的模型能够达到预期目的。通过该训练过程,可以使得第二神经网络所预测得到的第二增益能够使得待处理语音帧在声门模型下的激励信号与纯净语音在声门模型下的激励信号足够相似,从而具备降噪能力。
通过第二神经网络根据音频特征向量进行增益预测,得到第二增益。图8是根据一具体实施例示出的第二神经网络的结构示意图,如图8所示,第一神经网络包括三个全连接(Full Connected,FC)层。输入的F(n)为128维的音频特征向量。第一个FC层的输出为1024维的向量,第二个FC层的输出为512维向量,第三个FC层输出为257维向量,即第二增益g2(n)。当然,图8仅仅是第二神经网络的结构的一种示例性举例,不能认为是对本申请使用范围的限制。
在本申请的实施例中,通过神经网络获得针对于激励信号的第二增益,通过神经网络学到激励信号与第二增益之间的关系,从而能够根据声门模型对含噪语音进行降噪而不需要对含噪语音进行语音分解,从而节约计算资源。
在本申请的一个实施例中,基于上述的技术方案,上述步骤S610,获取待处理语音帧的音频特征向量,可以包括如下步骤:
获取待处理语音帧的频谱系数;
将待处理语音帧的频谱系数输入到预处理神经网络进行特征计算,得到待处理语音帧的音频特征向量,预处理神经网络是根据噪声语音帧的频谱系数和噪声语音帧对应的去噪语音帧的频谱系数进行训练得到的。
具体地,通过对待处理语音帧进行STFT变换,可以得到待处理语音帧的频域表示,将频域表示分解为实部和虚部,就可以得到待处理语音帧的频谱系数。
预处理神经网络是指用于将待处理语音帧的频谱系数转换为音频特征向量的神经网络模型,第二神经网络可以是通过长短时记忆神经网络、卷积神经网络、循环神经网络、全连接神经网络等构建的模型,在此不进行具体限定。
预处理神经网络的输入为待处理语音帧的频谱系数,而输出则为待处理语音帧对应的音频特征向量。预处理神经网络的训练过程通常与第一神经网网络以及第二神经网络的过程一同进行,因此,在训练的过程中,该神经网络的网络参数的调整与第一神经网络和第二神经网络的调整过程一起进行。在训练时,将训练数据中噪声语音帧的频谱系数和噪声语音帧对应的去噪语音帧的频谱系数输入到预处理神经网络进行预测,再根据预测出的音频特征向量对第一神经网络和第二神经网络进行训练,根据第一神经网络和第二神经网络输出的结果来调整三个模型的模型参数。通过将预处理神经网络的模型参数与第一神经网络和第二神经网络的模型参数协同调整,使得第一增益和第二增益能够使得增强过后的去噪结果能够与去噪语音之间的差异满足要求。
通过预处理神经网络根据音频特征向量进行特征计算,得到待处理语音帧的音频特征向量。图9是根据一具体实施例示出的第二神经网络的结构示意图,如图9所示,预处理神经网络包括6个卷积层和一个长短期记忆网络(Long Short-Term Memory,LSTM)层。输入的S(n)采用频谱系数表示,因此为[2,257]维的频谱系数。图9中每个卷积层和LSTM层均标注了该层输出的变量的维度,第一卷积层输出[16,257]维的变量,第二卷积层输出[32,54]维的变量,第三卷积层输出[64,29]维的变量,第四卷积层输出[128,13]维的变量,第五卷积层输出[128,5]维的变量,第六卷积层输出[128,1]维的变量,LSTM层输出[128,1]维的变量。LSTM增输出的变量就是音频特征向量F(n)。应理解,图9仅仅是预处理神经网络的结构的一种示例性举例,不能认为是对本申请使用范围的限制。
在本申请的实施例中,通过神经网络对待处理语音帧进行特征提取,从而在特征提取过程中降低噪声对音频特征向量的影响,使得音频特征向量更能体现待处理语音帧中的语音特征,提升方案的准确性。
在本申请的一个实施例中,基于上述的技术方案,该语音处理方法还包括:
获取待处理语音帧的历史语音帧的频谱系数;
将待处理语音帧的频谱系数输入到预处理神经网络进行特征计算,得到待处理语音帧的音频特征向量,包括:
将待处理语音帧的频谱系数和历史语音帧的频谱系数输入到预处理神经网络进行特征计算,得到待处理语音帧的音频特征向量。
具体地,在本实施例中,在进行音频特征向量的特征提取时,还可以将待处理语音帧的历史语音帧作为输入。具体地,首先,获取待处理语音帧的历史语音帧的频谱系数。历史语音帧是在待处理语音帧所在的音频中的其他语音帧,例如,对于第n帧,历史语音帧可以是第n-1帧、第n-2帧等。在进行特征计算时,将待处理语音帧的频谱系数和历史语音帧的频谱系数输入到预处理神经网络进行特征计算。在此实施例中,预处理神经网络的结构与之前参考图9所描述的结构类似,也是采用6个卷积层和一个LSTM层。区别在于,取决于输入的历史语音帧的数量,输入变量的维度增加,例如输入m历史语音帧,则输入变量的维度为[2,257*m]。
相对应地,在预处理神经网络的训练过程中,也会将噪声语音帧的历史语音帧的频谱系数与噪声语音帧的频谱系数和去噪语音帧的频谱系数一起作为输入来进行训练,具体的训练原理与上述实施例中的训练原理相同,此处不再赘述。
在本申请的实施例中,将历史语音帧作为输入,与待处理语音帧一起进行处理,从而在特征提取的过程中能够更加充分地考虑到相邻语音帧之间的联系,从而提升特征提取的准确性。
在本申请的一个实施例中,基于上述的技术方案,上述步骤S640,根据第一增益和第二增益,对待处理语音帧进行增益控制,得到目标语音帧,可以包括如下步骤:
根据第二增益对待处理语音帧进行增强,得到第一增强结果;
根据第一增益对第一增强结果中的各个子带进行增益运算,得到第二增强结果;
根据第二增强结果进行逆时频转换,得到增强后的语音帧作为目标语音帧。
具体地,对于待处理语音帧的频域表示,先按照逐个样本点,根据第二增益中对应的参数进行乘法运算,得到第一增强结果。如上文所描述的,第第二增益的维度与待处理语音帧的频域表示是相对应的,即,若待处理语音帧的频域表示为257维,则第二增益也是257维。因此根据第二增益进行增强时,可以直接按照维度的对应关系进行乘法运算,从而得到第一增强结果。基于第一增强结果,根据第一增益进行增益运算。具体地,在计算第一增益时,根据子带的划分而对第一增益进行了合并。因此,在根据第一增益进行计算时,也根据子带合并的对应关系进行乘法。例如,第一增益结果中,每8个维度对应于一个子带,第一增益为32维的变量,则在根据第一增益进行计算时,第一增益结果中的每8个维度对应于第一增益中的一个维度进行计算,从而得到第二增益结果。根据第二增益结果进行STFT反变换,即可以将频域表示变换为时域信号,从而得到增强后的语音帧,即目标语音帧。
在本申请的实施例中,提供了进行增益控制的具体方式,提升了方案的可实施性。
下面对本申请的语音处理方法的整体流程进行介绍。为了便于介绍,请参阅图10,图10为本申请实施例中整体流程的示意图。如图10所示,方案的输入为待处理语音帧s(n)。对语音帧s(n)使用STFT时频变换,得到频谱系数S(n)。基于频谱系数S(n),调用预处理神经网络,得到音频特征向量F(n),预处理神经网络还可以接收s(n)的历史语音帧的频谱系数S_pre(n)作为输入。基于音频特征向量F(n),调用第一神经网络,得到第一增益g1(n),并且调用第二神经网络得到第二增益g2(n),将第一增益g1(n)和第二增益g2(n)联合用于对频谱系数S(n)进行增益控制,从而输出增强频谱S_e(n)。最后根据增强频谱S_e(n)进行逆时频变换,得到语音帧对应的增强后的信号s_e(n)。
在本申请的一个实施例中,基于上述的技术方案,该语音处理方法还包括如下步骤:
根据待处理语音帧计算待处理语音帧对应的幅度谱和相位谱;
上述步骤S640,根据第一增益和第二增益,对待处理语音帧进行增益控制,得到目标语音帧,可以包括如下步骤:
根据第一增益和第二增益,对待处理语音帧对应的幅度谱进行增益控制,得到增强后的幅度谱;
根据增强后的幅度谱以及待处理语音帧对应的相位谱进行逆时频转换,得到目标语音帧。
在本实施例中,基于待处理语音帧的幅度谱来进行增益控制过程。具体地,执行本方法的装置除了获取待处理语音帧的频谱系数之外,还会计算待处理语音帧的幅度谱和相位谱。并且在得到第一增益和第二增益之后,根据第一增益和第二增益,对待处理语音帧对应的幅度谱进行增益控制,得到增强后的幅度谱。随后复用待处理语音帧的相位谱,与增强后的幅度谱一起进行计算,得到待处理语音帧对应的增强后的频域表示。基于增强后的频域表示进行逆时频变换,即可以得到增强后的目标语音帧。
在一个实施例中,上述步骤,根据第一增益和第二增益,对待处理语音帧对应的幅度谱进行增益控制,得到增强后的幅度谱,包括如下步骤:
根据第二增益对待处理语音帧的幅度谱进行增强,得到第一幅度谱增强结果;
根据第一增益对第一幅度谱增强结果中的各个子带进行增益运算,得到增强后的幅度谱。
具体地,对于待处理语音帧的幅度谱,先按照逐个样本点,根据第二增益中对应的参数进行乘法运算,得到第一幅度谱增强结果。第二增益的维度与幅度谱的维度是对应关系,即二者的维度数是相同并且对应的。因此,根据第二增益进行增强时,可以直接按照维度的对应关系,将对应维度的值进行乘法运算。根据第一增益对第一幅度谱增强结果中的各个子带进行增益运算,得到增强后的幅度谱。幅度谱中的各个频带所对应的子带划分与计算第一增益时对待处理语音帧的频谱系数的频带划分是一致的,因此,第一增益中的每个维度对应于第一幅度谱增强结果中对应子带的维度。例如,第一幅度谱增强结果是257维,而第一增益为32维,并且子带采用均匀划分,则可以知道,忽略第一幅度谱增强结果中的直流分量,其余的256个维度中每8个维度对应于一个子带,即对应于第一增益中的一个维度。因此,将按照子带的对应关系,将第一增益的各个元素与第一幅度谱增强结果中对应的元素计算乘法,从而得到增强后的幅度谱。
下面结合图11来具体介绍本实施例的整体流程。图11为本申请实施例中另一个整体流程的示意图。如图11所示,方案的输入为待处理语音帧s(n)。对语音帧s(n)使用STFT时频变换,得到频谱系数S(n)。基于频谱系数S(n),调用预处理神经网络,得到音频特征向量F(n),预处理神经网络还可以接收s(n)的历史语音帧的频谱系数S_pre(n)作为输入。在计算S(n)时,还会计算待处理语音帧s(n)的幅度谱M(n)和相位谱Ph(n)。基于音频特征向量F(n),调用第一神经网络,得到第一增益g1(n),并且调用第二神经网络得到第二增益g2(n)。在进行增益控制时,将第一增益g1(n)和第二增益g2(n)联合用于对幅度谱M(n)进行增益控制,从而输出增强的幅度谱M_e(n)。最后根据增强频谱M_e(n)以及待处理语音帧的相位谱Ph(n)进行逆时频变换,得到语音帧对应的增强后的信号s_e(n)。
在本申请的实施例中,增强控制过程基于待处理语音帧的幅度谱进行,为增益控制的过程提供了一种具体的实施方案,基于幅度谱进行增益控制可以减少计算过程所涉及的数据量,从而提高了计算效率。
应当注意,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
以下介绍本申请的装置实施,可以用于执行本申请上述实施例中的语音处理方法。图12示意性地示出了本申请实施例中语音处理装置的组成框图。如图12所示,语音处理装置1200主要可以包括:
向量获取模块1210,用于获取待处理语音帧的音频特征向量;
声门增益模块1220,用于根据所述音频特征向量进行声门增益计算,得到第一增益,所述第一增益是根据所述待处理语音帧的声门特征确定的;
激励增益模块1230,用于根据所述音频特征向量进行激励增益计算,得到第二增益,所述第二增益是根据所述待处理语音帧的激励信号确定的;
增益控制模块1240,用于根据所述第一增益和所述第二增益,对所述待处理语音帧进行增益控制,得到目标语音帧。
在本申请的一些实施例中,基于以上技术方案,声门增益模块1210包括:
第一神经网络子模块,用于将所述音频特征向量输入第一神经网络,所述第一神经网络是根据噪声语音帧对应的声门特征和所述噪声语音帧对应的去噪语音帧对应的声门特征进行训练得到的;
声门增益预测子模块,用于通过所述第一神经网络根据所述音频特征向量进行增益预测,得到所述第一增益。
在本申请的一些实施例中,基于以上技术方案,声门增益预测子模块包括:
增益计算单元,用于通过所述第一神经网络对所述音频特征向量进行增益计算,得到所述待处理语音帧中各个子带对应的第一声门增益,其中,所述子带对应于所述处理语音帧中的至少一个频带;
增益生成单元,用于将所述各个子带对应的第一声门增益合并作为所述第一增益。
在本申请的一些实施例中,基于以上技术方案,语音处理装置1200包括:
增益分析单元,用于通过所述第一神经网络对所述音频特征向量和所述待处理语音帧待处理语音帧的基音周期进行预测分析,确定第二声门增益,所述第二声门增益对应于所述音频特征向量的长时相关性特征;
增益生成单元包括:
增益合并子单元,用于将所述各个子带对应的第一声门增益和所述第二声门增益合并作为所述第一增益。
在本申请的一些实施例中,基于以上技术方案,声门增益预测子模块包括:
第一参数预测单元,用于通过所述第一神经网络根据所述音频特征向量进行参数预测,得到第一声门参数,所述第一声门参数用于表示所述音频特征向量的短时相关性特征;
第一增益预测单元,用于通过所述第一神经网络根据所述第一声门参数进行增益预测,得到所述第一预测结果;
增益确定单元,用于根据所述第一预测结果确定所述第一增益。
在本申请的一些实施例中,基于以上技术方案,声门增益预测子模块还包括:
第二参数预测单元,用于通过所述第一神经网络根据所述音频特征向量和所述待处理语音帧待处理语音帧的基音周期进行参数预测,得到第二声门参数,所述第二声门参数用于表示所述音频特征向量的长时相关性特征;
第二增益预测单元,用于通过所述第一神经网络根据所述第二声门参数进行增益预测,得到第二预测结果;
增益确定单元包括:
预测结果合并子单元,用于将所述第一预测结果和所述第二预测结果合并确定为所述第一增益。
在本申请的一些实施例中,基于以上技术方案,激励增益模块1230包括:
第二神经网络子模块,用于将所述音频特征向量输入第二神经网络,所述第二神经网络是根据噪声语音帧的激励信号和所述噪声语音帧对应的去噪语音帧的激励信号进行训练得到的;
激励增益预测子模块,用于通过所述第二神经网络根据所述音频特征向量对应的激励信号进行增益预测,得到所述第二增益。
在本申请的一些实施例中,基于以上技术方案,向量获取模块包括:
频谱系数获取子模块,用于获取所述待处理语音帧的频谱系数;
特征计算子模块,用于将所述待处理语音帧的频谱系数输入到预处理神经网络进行特征计算,得到所述待处理语音帧的音频特征向量,所述预处理神经网络是根据噪声语音帧的频谱系数和所述噪声语音帧对应的去噪语音帧的频谱系数进行训练得到的。
在本申请的一些实施例中,基于以上技术方案,语音处理装置还包括:
历史频谱系数获取模块,用于获取所述待处理语音帧的历史语音帧的频谱系数;
特征计算子模块包括:
特征向量计算单元,用于将所述待处理语音帧的频谱系数和所述历史语音帧的频谱系数输入到所述预处理神经网络进行特征计算,得到所述待处理语音帧的音频特征向量。
在本申请的一些实施例中,基于以上技术方案,增益控制模块1240包括:
第一增强子模块,用于根据所述第二增益对所述待处理语音帧进行增强,得到第一增强结果;
第二增益子模块,用于根据所述第一增益对所述第一增强结果中的各个子带进行增益运算,得到第二增强结果;
逆时频转换子模块,用于根据所述第二增强结果进行逆时频转换,得到增强后的语音帧作为目标语音帧。
在本申请的一些实施例中,基于以上技术方案,语音处理装置还包括:
幅度谱计算模块,用于根据所述待处理语音帧计算所述待处理语音帧对应的幅度谱和相位谱;
增益控制模块1240包括:
幅度谱增益子模块,用于根据所述第一增益和所述第二增益,对所述待处理语音帧对应的幅度谱进行增益控制,得到增强后的幅度谱;
幅度谱逆时频转换子模块,用于根据所述增强后的幅度谱以及所述待处理语音帧对应的相位谱进行逆时频转换,得到目标语音帧。
在本申请的一些实施例中,基于以上技术方案,幅度谱增益子模块包括:
幅度谱增强单元,用于根据所述第二增益对所述待处理语音帧的幅度谱进行增强,得到第一幅度谱增强结果;
幅度谱增益单元,用于根据所述第一增益对所述第一幅度谱增强结果中的各个子带进行增益运算,得到增强后的幅度谱。
需要说明的是,上述实施例所提供的装置与上述实施例所提供的方法属于同一构思,其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。
图13示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图13示出的电子设备的计算机系统1300仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图13所示,计算机系统1300包括中央处理单元(Central Processing Unit,CPU)1301,其可以根据存储在只读存储器(Read-Only Memory,ROM)1302中的程序或者从储存部分1308加载到随机访问存储器(Random Access Memory,RAM)1303中的程序而执行各种适当的动作和处理。在RAM 1303中,还存储有系统操作所需的各种程序和数据。CPU1301、ROM1302以及RAM 1303通过总线1304彼此相连。输入/输出(Input/Output,I/O)接口1305也连接至总线1304。
以下部件连接至I/O接口1305:包括键盘、鼠标等的输入部分1306;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1307;包括硬盘等的储存部分1308;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1310也根据需要连接至I/O接口1305。可拆卸介质1311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1310上,以便于从其上读出的计算机程序根据需要被安装入储存部分1308。
特别地,根据本申请的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1309从网络上被下载和安装,和/或从可拆卸介质1311被安装。在该计算机程序被中央处理单元(CPU)1301执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (15)
1.一种语音处理方法,其特征在于,包括:
获取待处理语音帧的音频特征向量;
根据所述音频特征向量进行声门增益计算,得到第一增益,所述第一增益对应于所述待处理语音帧的声门特征;
根据所述音频特征向量进行激励增益计算,得到第二增益,所述第二增益对应于所述待处理语音帧的激励信号;
根据所述第一增益和所述第二增益,对所述待处理语音帧进行增益控制,得到目标语音帧。
2.根据权利要求1所述的方法,其特征在于,所述对所述音频特征向量进行声门增益计算,得到第一增益,包括:
将所述音频特征向量输入第一神经网络,所述第一神经网络是根据噪声语音帧对应的声门特征和所述噪声语音帧对应的去噪语音帧对应的声门特征进行训练得到的;
通过所述第一神经网络根据所述音频特征向量进行增益预测,得到所述第一增益。
3.根据权利要求2所述的方法,其特征在于,所述通过所述第一神经网络根据所述音频特征向量进行增益预测,得到所述第一增益,包括:
通过所述第一神经网络对所述音频特征向量进行增益计算,得到所述待处理语音帧中各个子带对应的第一声门增益,其中,所述子带对应于所述待处理语音帧中的至少一个频带;
将所述各个子带对应的第一声门增益合并作为所述第一增益。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
通过所述第一神经网络对所述音频特征向量和所述待处理语音帧待处理语音帧的基音周期进行预测分析,确定第二声门增益,所述第二声门增益对应于所述音频特征向量的长时相关性特征;
所述将所述各个子带对应的第一声门增益合并作为所述第一增益,包括:
将所述各个子带对应的第一声门增益和所述第二声门增益合并作为所述第一增益。
5.根据权利要求2所述的方法,其特征在于,所述通过所述第一神经网络根据所述音频特征向量进行增益预测,得到所述第一增益,包括:
通过所述第一神经网络根据所述音频特征向量进行参数预测,得到第一声门参数,所述第一声门参数用于表示所述音频特征向量的短时相关性特征;
通过所述第一神经网络根据所述第一声门参数进行增益预测,得到所述第一预测结果;
根据所述第一预测结果确定所述第一增益。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
通过所述第一神经网络根据所述音频特征向量和所述待处理语音帧待处理语音帧的基音周期进行参数预测,得到第二声门参数,所述第二声门参数用于表示所述音频特征向量的长时相关性特征;
通过所述第一神经网络根据所述第二声门参数进行增益预测,得到第二预测结果;
所述根据所述第一预测结果确定所述第一增益,包括:
将所述第一预测结果和所述第二预测结果合并确定为所述第一增益。
7.根据权利要求1所述的方法,其特征在于,所述根据所述音频特征向量进行激励增益计算,得到第二增益,包括:
将所述音频特征向量输入第二神经网络,所述第二神经网络是根据噪声语音帧的激励信号和所述噪声语音帧对应的去噪语音帧的激励信号进行训练得到的;
通过所述第二神经网络根据所述音频特征向量对应的激励信号进行增益预测,得到所述第二增益。
8.根据权利要求1所述的方法,其特征在于,所述获取待处理语音帧的音频特征向量,包括:
获取所述待处理语音帧的频谱系数;
将所述待处理语音帧的频谱系数输入到预处理神经网络进行特征计算,得到所述待处理语音帧的音频特征向量,所述预处理神经网络是根据噪声语音帧的频谱系数和所述噪声语音帧对应的去噪语音帧的频谱系数进行训练得到的。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
获取所述待处理语音帧的历史语音帧的频谱系数;
所述将所述待处理语音帧的频谱系数输入到预处理神经网络进行特征计算,得到所述待处理语音帧的音频特征向量,包括:
将所述待处理语音帧的频谱系数和所述历史语音帧的频谱系数输入到所述预处理神经网络进行特征计算,得到所述待处理语音帧的音频特征向量。
10.根据权利要求1所述的方法,其特征在于,所述根据所述第一增益和所述第二增益,对所述待处理语音帧进行增益控制,得到目标语音帧,包括:
根据所述第二增益对所述待处理语音帧进行增强,得到第一增强结果;
根据所述第一增益对所述第一增强结果中的各个子带进行增益运算,得到第二增强结果;
根据所述第二增强结果进行逆时频转换,得到增强后的语音帧作为目标语音帧。
11.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述待处理语音帧计算所述待处理语音帧对应的幅度谱和相位谱;
所述根据所述第一增益和所述第二增益,对所述待处理语音帧进行增益控制,得到目标语音帧,包括:
根据所述第一增益和所述第二增益,对所述待处理语音帧对应的幅度谱进行增益控制,得到增强后的幅度谱;
根据所述增强后的幅度谱以及所述待处理语音帧对应的相位谱进行逆时频转换,得到目标语音帧。
12.根据权利要求11所述的方法,其特征在于,所述根据所述第一增益和所述第二增益,对所述待处理语音帧对应的幅度谱进行增益控制,得到增强后的幅度谱,包括:
根据所述第二增益对所述待处理语音帧的幅度谱进行增强,得到第一幅度谱增强结果;
根据所述第一增益对所述第一幅度谱增强结果中的各个子带进行增益运算,得到增强后的幅度谱。
13.一种语音处理装置,其特征在于,包括:
向量获取模块,用于获取待处理语音帧的音频特征向量;
声门增益模块,用于根据所述音频特征向量进行声门增益计算,得到第一增益,所述第一增益是根据所述待处理语音帧的声门特征确定的;
激励增益模块,用于根据所述音频特征向量进行激励增益计算,得到第二增益,所述第二增益是根据所述待处理语音帧的激励信号确定的;
增益控制模块,用于根据所述第一增益和所述第二增益,对所述待处理语音帧进行增益控制,得到目标语音帧。
14.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至12中任意一项所述的语音处理的方法。
15.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至12中任一项所述的语音处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111237541.2A CN114333891A (zh) | 2021-10-22 | 2021-10-22 | 一种语音处理方法、装置、电子设备和可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111237541.2A CN114333891A (zh) | 2021-10-22 | 2021-10-22 | 一种语音处理方法、装置、电子设备和可读介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114333891A true CN114333891A (zh) | 2022-04-12 |
Family
ID=81045264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111237541.2A Pending CN114333891A (zh) | 2021-10-22 | 2021-10-22 | 一种语音处理方法、装置、电子设备和可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114333891A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114582365A (zh) * | 2022-05-05 | 2022-06-03 | 阿里巴巴(中国)有限公司 | 音频处理方法和装置、存储介质和电子设备 |
-
2021
- 2021-10-22 CN CN202111237541.2A patent/CN114333891A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114582365A (zh) * | 2022-05-05 | 2022-06-03 | 阿里巴巴(中国)有限公司 | 音频处理方法和装置、存储介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kolbæk et al. | On loss functions for supervised monaural time-domain speech enhancement | |
US10013975B2 (en) | Systems and methods for speaker dictionary based speech modeling | |
Ganapathy et al. | Robust feature extraction using modulation filtering of autoregressive models | |
US20230097520A1 (en) | Speech enhancement method and apparatus, device, and storage medium | |
CN114333893A (zh) | 一种语音处理方法、装置、电子设备和可读介质 | |
CN113571078B (zh) | 噪声抑制方法、装置、介质以及电子设备 | |
CN113744715A (zh) | 声码器语音合成方法、装置、计算机设备及存储介质 | |
CN114333891A (zh) | 一种语音处理方法、装置、电子设备和可读介质 | |
CN114333892A (zh) | 一种语音处理方法、装置、电子设备和可读介质 | |
US20230050519A1 (en) | Speech enhancement method and apparatus, device, and storage medium | |
Schröter et al. | CLC: complex linear coding for the DNS 2020 challenge | |
CN111326166B (zh) | 语音处理方法及装置、计算机可读存储介质、电子设备 | |
Li et al. | A Two-stage Approach to Quality Restoration of Bone-conducted Speech | |
CN112382268A (zh) | 用于生成音频的方法、装置、设备和介质 | |
CN112382273A (zh) | 用于生成音频的方法、装置、设备和介质 | |
Lee et al. | Speech Enhancement Using Phase‐Dependent A Priori SNR Estimator in Log‐Mel Spectral Domain | |
CN112652292A (zh) | 用于生成音频的方法、装置、设备和介质 | |
CN113571081A (zh) | 语音增强方法、装置、设备及存储介质 | |
WO2024055752A1 (zh) | 语音合成模型的训练方法、语音合成方法和相关装置 | |
Nisa et al. | A Mathematical Approach to Speech Enhancement for Speech Recognition and Speaker Identification Systems | |
CN116741193B (zh) | 语音增强网络的训练方法、装置、存储介质及计算机设备 | |
US20220277754A1 (en) | Multi-lag format for audio coding | |
Saeki et al. | SelfRemaster: Self-Supervised Speech Restoration for Historical Audio Resources | |
CN117334204A (zh) | 信号处理方法、装置、计算机设备、存储介质及程序产品 | |
Wu et al. | Single-Channel Speech Quality Enhancement in Mobile Networks Based on Generative Adversarial Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40070826 Country of ref document: HK |