CN117975984A

CN117975984A - 语音处理方法、装置、设备、存储介质和计算机程序产品

Info

Publication number: CN117975984A
Application number: CN202311182986.4A
Authority: CN
Inventors: 熊雪军
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2023-09-13
Filing date: 2023-09-13
Publication date: 2024-05-03

Abstract

本申请涉及一种语音处理方法、装置、计算机设备、存储介质和计算机程序产品。方法包括：获取目标说话人的第一语音与带噪语音，带噪语音包括目标说话人的第二语音；将第一语音的初始音色特征经过L个级联层级的音色特征编码，得到L个层级的音色编码特征；L为大于或等于2的整数；将带噪语音的初始语音特征与初始音色特征融合得到融合特征；基于融合特征和L个层级的音色编码特征进行L次带噪语音编码，得到第L次的带噪语音编码特征；根据第L次的带噪语音编码特征确定带噪语音对应的增强语音。采用本方法能够提升关于目标说话人的语音增强性能。

Description

语音处理方法、装置、设备、存储介质和计算机程序产品

技术领域

本申请涉及计算机技术领域，特别是涉及一种语音处理方法、装置、计算机设备、存储介质和计算机程序产品，还涉及一种语音增强模型的处理方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着计算机技术与智能终端的快速发展，语音已成为信息传递的常用方式，如语音人机交互指令、即时语音消息、语音会议等等。真实环境中采集到的语音信号通常含有噪声，这些噪声的形式是多种多样的，例如其它说话人的声音、背景噪音等等，其存在严重降低了语音的听觉感知质量和可懂度。

语音增强可以从带噪语音信号中尽可能提取有用的语音信号，同时抑制、降低噪声的干扰。相关技术中，语音增强方案主要侧重于去除背景噪声和混响，无法过滤掉干扰人声，对于个性化语音增强(Personalized Speech Enhancement,PSE)的性能较差。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升个性化语音增强性能的语音处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品，以及语音增强模型的处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种语音处理方法。所述方法包括：

获取目标说话人的第一语音与带噪语音，所述带噪语音包括所述目标说话人的第二语音；

将所述第一语音的初始音色特征经过L个级联层级的音色特征编码，得到L个层级的音色编码特征；L为大于或等于2的整数；

将所述带噪语音的初始语音特征与所述初始音色特征融合得到融合特征；

基于所述融合特征和所述L个层级的音色编码特征进行L次带噪语音编码，得到第L次的带噪语音编码特征；

根据所述第L次的带噪语音编码特征确定所述带噪语音对应的增强语音。

第二方面，本申请还提供了一种语音处理装置。所述装置包括：

获取模块，用于获取目标说话人的第一语音与带噪语音，所述带噪语音包括所述目标说话人的第二语音；

音色特征编码模块，用于将所述第一语音的初始音色特征经过L个级联层级的音色特征编码，得到L个层级的音色编码特征；L为大于或等于2的整数；

带噪语音编码模块，用于将所述带噪语音的初始语音特征与所述初始音色特征融合得到融合特征；基于所述融合特征和所述L个层级的音色编码特征进行L次带噪语音编码，得到第L次的带噪语音编码特征；

增强语音确定模块，用于根据所述第L次的带噪语音编码特征确定所述带噪语音对应的增强语音。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述语音处理方法、装置、计算机设备、存储介质和计算机程序产品，获取第一语音与带噪语音，将该第一语音的初始音色特征经过L个级联层级的音色特征编码，可有效去除第一语音中除音色信息以外的其它信息，得到L个层级的音色编码特征，将该带噪语音的初始语音特征与该初始音色特征融合得到融合特征，基于该融合特征和该L个层级的音色编码特征进行L次带噪语音编码，得到第L次的带噪语音编码特征。该过程中，通过多次的交互融合可增强目标说话人音色信息的表达，有助于个性化语音的增强，根据该第L次的带噪语音编码特征确定该带噪语音对应的增强语音，有效地剔除了带噪语音中的噪音和其它说话人的干扰声音，提升了关于目标说话人的语音增强性能。

附图说明

图1为一个实施例中语音处理方法的应用环境图；

图2为一个实施例中语音处理方法的流程示意图；

图3为一个实施例中基于第一语音的初始音色特征依次进行音色特征编码得到多个层级的音色编码特征的流程示意图；

图4为一个实施例中音色提取网络的网络结构示意图；

图5为一个实施例中音色编码块的结构示意图；

图6为一个实施例中语音编码网络的网络结构示意图；

图7为一个实施例中语音编码网络的输入预处理的结构示意图；

图8为一个实施例中根据末次的带噪语音编码特征输出带噪语音对应的增强语音的流程示意图；

图9为一个实施例中基于语音增强模型的语音处理方法的框架示意图；

图10为一个实施例中语音增强模型的处理方法的流程示意图；

图11为一个实施例中语音处理装置的结构框图；

图12为一个实施例中语音增强模型的处理装置的结构框图；

图13为一个实施例中计算机设备的内部结构图；

图14为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

语音交互在我们的日常生活中变得不可或缺，诸如语音会议、智能语音功能已经成为我们日常使用的高频在线交流工具，智能语音还被应用到各种智能硬件产品里，例如智能家居、可穿戴设备、智能手机、智能汽车、智能音响等。在实际使用情况下，语音质量往往受到背景噪声、混响、无关说话人等干扰的显著影响。语音可懂度取决于语音增强效果,有效的语音增强在语音交互场景中起着至关重要的作用，是现代智能语音技术中不可或缺的部分。

然而，相关技术中的语音增强方案侧重于去除背景噪声和混响，无法过滤掉干扰人声。本申请实施例提供的基于个性化语音增强(Personalized Speech Enhancement,PSE)的语音处理方法和语音增强模型的训练方法，能够从带有干扰(包括噪声、干扰人声)的带噪语音中提取目标说话人的语音，提升个性化语音增强性能。

本申请实施例提供的语音处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他服务器上。在一个实施例中，终端102可以存储或注册第一语音，获取目标说话人的带噪语音，该带噪语音包括该目标说话人的第二语音；将该第一语音的初始音色特征经过L个级联层级的音色特征编码，得到L个层级的音色编码特征；L为大于或等于2的整数；将该带噪语音的初始语音特征与该初始音色特征融合得到融合特征；基于该融合特征和该L个层级的音色编码特征进行L次带噪语音编码，得到第L次的带噪语音编码特征；根据该第L次的带噪语音编码特征确定该带噪语音对应的增强语音，有效地剔除了带噪语音中的噪音和其它说话人的干扰声音，提升了关于目标说话人的语音增强性能。

在一些实施例中，终端还可以对得到的增强语音进行语音识别，得到语音识别结果，根据该语音识别结果生成操作控制指令，并执行该操作控制指令所指示的操作。

可选地，在车辆语音控制的应用场景下，带噪语音为目标说话人说出的车辆控制语音，如“打开车门”、“运动模式”、“播放音乐”等等，终端102还可以进一步对该增强语音进行语音识别，得到语音识别结果，根据语音识别结果生成车辆控制指令。

可选地，在智能家居设备控制的应用场景下，带噪语音为目标说话人说出的家居设备控制语音，如“打开空调”、“播放音乐”等，终端102还可以进一步对该增强语音进行语音识别，得到语音识别结果，根据语音识别结果生成家居设备控制指令。

可选地，在视频直播的应用场景下，带噪语音为主播直播时的说话声音，此种应用场景下，终端102还可以进一步对该增强语音进行语音识别，得到语音识别结果，根据语音识别结果生成用于自动上架产品或下架产品的售货指令。

可选地，在在线语音会议的应用场景下，带噪语音为目标说话人的说话声音，为了达到突出当前终端使用者的说话内容，屏蔽掉其它参会者或环境噪音，终端102利用本申请实施例提供的语音处理方法，对当前终端使用者的说话声音进行语音增强后，再传输至其它参会者所使用的终端，可提升说话人说话声音的清晰度与可懂度，提升在线语音会议的参会体验。

可选地，在机器人控制的应用场景下，带噪语音为目标说话人说出的机器人控制语音，如“打扫卫生”、“送货到第26层”、“播放音乐”等等，机器人还可以进一步对该增强语音进行语音识别，得到语音识别结果，根据语音识别结果生成机器人控制指令，机器人按该控制执行执行所指示的操作。

在一个实施例中，该语音处理方法也可以由服务器执行。例如，终端102将目标说话人的标识信息与带噪语音发送至服务器，服务器接收该标识信息与带噪语音，从存储的注册语音库中查找与该标识信息对应的第一语音，利用训练好的语音增强模型，将该第一语音的初始音色特征经过L个级联层级的音色特征编码，得到L个层级的音色编码特征；L为大于或等于2的整数；将该带噪语音的初始语音特征与该初始音色特征融合得到融合特征；基于该融合特征和该L个层级的音色编码特征进行L次带噪语音编码，得到第L次的带噪语音编码特征；根据该第L次的带噪语音编码特征确定该带噪语音对应的增强语音。可选地，在一些实施例中，服务器进一步对该增强语音进行语音识别，得到语音识别结果，将语音识别结果反馈至终端102，终端102根据语音识别结果生成相应的控制指令。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种语音处理方法，以该方法应用于图1中的终端102为例进行说明，包括以下步骤：

步骤202，获取目标说话人的第一语音与带噪语音，带噪语音包括目标说话人的第二语音。

其中，目标说话人通常为某个真实的个人。第一语音，是目标说话人的一段说话语音，该第一语音较为“纯净”、几乎没有干扰信息。例如，第一语音是目标说话人在安静环境下用于注册目标说话人身份的一段语音片段。

终端可以即刻获取该第一语音，例如，终端通过录音设备采集第一语音，用于注册目标说话人的语音片段。终端还可以获取本地存储的第一语音。终端还可以发送目标说话人的标识信息至服务器，从服务器获取与该标识信息对应的第一语音。

带噪语音，是包括目标说话人的一段说话语音(即第二语音)的语音片段，该带噪语音中还携带了干扰信息，干扰信息例如可以是白噪音、背景噪声、除目标说话人以外的其它人的说话声音。在不同的应用场景下，终端可以根据实际需求以各种各样的方式获取带噪语音，本申请实施例对此不作限制，上述的应用场景前文已经提及过，此处不重复说明。

此外，需要说明的是，第一语音与带噪语音中第二语音是同一个目标说话人的说话声音，第一语音与第二语言的说话内容可以相同，也可以不同。

步骤204，将第一语音的初始音色特征经过L个级联层级的音色特征编码，得到L个层级的音色编码特征，L为大于或等于2的整数。

第一语音是目标说话人的一段干净语音，往往包含了语言内容和副语言信息，副语言信息例如音色、韵律、风格、口音，等等，个性化语音增强需要从带噪语音中提取出目标说话人的说话声音，也就是需要抓住目标说话人声音独特性和个性，显然由于每个人的差异性，音色各不相同，具有独特性。为此，为了实现个性化语音增强，也就是从带噪语音中提取出目标说话人的说话声音，需要借助第一语音的音色信息，对带噪语音的增强过程进行辅助。为了获得目标说话人的准确的音色信息，终端基于第一语音的初始音色特征依次进行L个级联层级的音色特征编码，得到L个层级的音色编码特征，可有效去除第一语音中除音色信息以外的其它信息。

其中，第一语音的初始音色特征反映了目标说话人的原始的音色特征，该初始音色特征携带了部分的非音色信息。可选地，梅尔谱图(Mel Spectrogram，MS)有利于提取到音色信息，终端可以基于第一语音的梅尔谱图生成第一语音的初始音色特征。而后，基于第一语音的初始音色特征进行L个级联层级的音色特征编码，得到L个层级的音色编码特征，从而去除第一语音中潜在的语言内容和副语言信息。L个层级的数量与依次进行音色特征编码的次数相同，每个层级的输出依赖于前一层级的音色编码特征。

步骤206，将带噪语音的初始语音特征与初始音色特征融合得到融合特征，基于融合特征和L个层级的音色编码特征进行L次带噪语音编码，得到第L次的带噪语音编码特征。

其中，带噪语音的初始语音特征，反映了带噪语音的原始的语音特征，该初始语音特征携带了部分的干扰信息。可选地，考虑到干扰信息会大量存在于带噪语音的幅度谱中，终端可以基于带噪语音的幅度谱生成相应的初始语音特征，通过后续的步骤，实现对幅度谱的语音增强。

本实施例中，为了利用第一语音的音色特征对带噪语音进行语音增强，终端可以将第一语音的音色特征与带噪语音的语音特征进行多次的交互融合，通过多次的交互融合可增强目标说话人音色信息的表达，有助于个性化语音的增强。

具体地，终端可以将带噪语音的初始语音特征与初始音色特征进行融合，得到初始融合特征，再进行首次语音特征编码得到首次的带噪语音编码特征，继续交互融合，即依次地将前次语音特征编码得到的带噪语音编码特征与相应层级的音色编码特征融合后进行当次语音特征编码得到当次的带噪语音编码特征。带噪语音编码特征可用于表征带噪语音中与目标说话人相关的说话声音。语音特征编码的次数与上述的音色特征编码次数是一致的，即语音特征编码的次数也是L次，可以通过依次进行L次的语音特征编码，得到L个带噪语音编码特征，每次的输出依赖于前次语音特征编码得到的带噪语音编码特征。

步骤208，根据第L次的带噪语音编码特征确定带噪语音对应的增强语音。

进行第L次的语音特征编码得到的带噪语音编码特征，已实现对带噪语音的初始语音特征中的干扰信息的去除以及目标说话人相关声音信息的增强，终端就可以根据根据第L次的带噪语音编码特征输出带噪语音对应的增强语音。

上述语音处理方法，获取第一语音与带噪语音，将该第一语音的初始音色特征经过L个级联层级的音色特征编码，可有效去除第一语音中除音色信息以外的其它信息，得到L个层级的音色编码特征，将该带噪语音的初始语音特征与该初始音色特征融合得到融合特征，基于该融合特征和该L个层级的音色编码特征进行L次带噪语音编码，得到第L次的带噪语音编码特征。该过程中，通过多次的交互融合可增强目标说话人音色信息的表达，有助于个性化语音的增强，根据该第L次的带噪语音编码特征确定该带噪语音对应的增强语音，有效地剔除了带噪语音中的噪音和其它说话人的干扰声音，提升了关于目标说话人的语音增强性能。

在一个实施例中，如图3所示，将第一语音的初始音色特征经过L个级联层级的音色特征编码，得到L个层级的音色编码特征，包括：

步骤302，利用语音增强模型的音色提取网络，对第一语音的梅尔频谱进行卷积预处理，得到第一语音的初始音色特征；

步骤304，利用音色提取网络的多个堆叠的音色编码块，基于初始音色特征依次进行音色特征编码，得到多个层级的音色编码特征。

本申请实施例提供的语音处理方法，可以通过训练好的、基于深度学习的语音增强模型来实现。语音增强模型包括两个网络：音色提取网络、语音编码网络和语音解码网络，音色提取网络用于提取第一语音的音色特征，语音编码网络用于借助第一语音的音色特征对带噪语音的语音特征进行编码，语音解码网络用于根据最终输出的带噪语音编码特征输出增强后的幅度谱，根据增强后的幅度谱和原始带噪的相位谱，输出最终的增强语音，实现带噪语音的个性化语音增强。

音色提取网络包括卷积预处理(pre-net)、音色特征编码(speaker encoder)两个主要操作，利用卷积预处理，将梅尔频谱的特征维度进行扩展以与带噪语音的语音编码特征的维度保持一致后进行融合。利用音色特征编码操作基于初始音色特征依次进行L次音色特征编码，得到L个层级的音色编码特征。

本实施例中，第一语音的梅尔频谱，可以通过如下方式计算得到：第一语音是一段干净的语音片段，终端可以采用汉明窗进行加窗、分帧操作得到短时语音信号，对每个短时语音信息计算相应的短时功率谱，再经过若干个梅尔滤波器就可以得到梅尔频谱。例如，设置汉明窗的窗长为25ms，帧移为10ms，假设第一语音的采样率为16000Hz，语音时长为1s，则表示第一语音为X∈R^16000×1，进行分帧、加窗后的短时语音信号可以表示为X∈R^100×400，然后求得短时功率谱，接着将其经过80个Mel滤波器组滤波后得到梅尔频谱，记为MS∈R^100×80。

如图4所示，为一个实施例中音色提取网络的网络结构示意图。参照图4，音色提取网络包括卷积预处理、音色特征编码两个主要操作，利用卷积预处理将梅尔频谱的特征维度进行扩展以与带噪语音的语音编码特征的维度保持一致后进行融合。例如，通过卷积预处理将梅尔频谱MS∈R^100×80的特征维度从80扩展到400。该卷积预处理操作可由一个1维卷积(conv 1d)、1维批量归一化(BatchNorm 1d)与激活函数(Relu)依次堆叠而成，输出的特征即为初始音色特征，可记为Xms∈R^100×400。

音色特征编码操作可基于多个堆叠的音色编码块(speaker block)实现，每个音色编码块具有相同的结构、具有不同的参数。如图5所示，为一个实施例中音色编码块的结构示意图。参照图5，音色编码块由1维卷积(conv 1d)、1维批量归一化(BatchNorm 1d)、激活函数(Relu)、1维卷积(conv 1d)、时间维的实例规范化(Time-wise instancenormalization，TIN)、多头注意力机制(Multi-Head Self-Attention，MHSA)依次连接而成。1维卷积的运算的作用是丰富音色信息，前面使用1维卷积的运算是为了丰富音色信息，时间维的实例规范化和多头注意力机制的作用是保留音色信息、去除其他的语言和副语言信息。假设第一个音色编码块的输入为初始音色特征Xms∈R^100×400，经过该音色编码块的每一步骤的计算，均不会改变数据的维度大小，该音色编码块的输出为Xms′∈R^100×400。其中，利用时间维的实例规范化可以提取第一语音的风格也即音色信息，而去掉了主要的语音内容和副语言信息，其计算公式如下：

Z＝z^100×400∈R^100×400；

其中，Z表示时间维的实例规范化操作的输入，μ(Z)表示Z的均值，σ(Z)表示Z的标准差，去掉均值后再除以标准差，即为时间维的实例规范化操作的输出。

在一个实施例中，步骤304，利用音色提取网络的多个堆叠的音色编码块，基于初始音色特征依次进行音色特征编码，得到多个层级的音色编码特征，包括：将第一语音的初始音色特征输入L个级联的音色编码块中的首个音色编码块，利用首个音色编码块基于初始音色特征进行首次的音色特征编码，得到第一个音色编码特征；迭代地将第i个音色编码块输出的音色编码特征，输入与第i个音色编码块连接的第i+1个音色编码块，利用第i+1个音色编码块基于第i个音色编码块输出的音色编码特征进行第i+1次的音色特征编码，得到第i+1个层级的音色编码特征，直至得到第L个层级的音色编码特征时结束迭代。

上述实施例中，通过提取第一语音的梅尔谱图，可利用提取到第一语音的音色信息，基于第一语音的梅尔谱图生成第一语音的初始音色特征，基于第一语音的初始音色特征依次进行音色特征编码，得到多个层级的音色编码特征，从而去除第一语音中潜在的语言内容和副语言信息，有助于帮助语音编码网络从带噪语音中提炼与目标说话人相关的说话声音。

在一个实施例中，将带噪语音的初始语音特征与初始音色特征融合得到融合特征；基于融合特征和L个层级的音色编码特征进行L次带噪语音编码，得到第L次的带噪语音编码特征，包括：当L等于1时，对融合特征进行编码得到第一次的带噪语音编码特征；当L大于1时，将第i-1次的带噪语音编码特征与第i-1个层级的音色编码特征融合后编码，得到第i次的带噪语音编码特征；i大于或等于2，且i小于或等于L。

具体地，利用语音增强模型的语音编码网络，对带噪语音的幅度谱进行输入预处理，得到带噪语音的初始语音特征，将初始语音特征与初始音色特征进行加性融合，得到初始融合特征；语音编码网络还包括多个堆叠的语音编码块；利用语音编码网络的多个堆叠的语音编码块中的首个语音编码块，基于初始融合特征进行首次的语音特征编码，得到首次的带噪语音编码特征。接着，将首次的带噪语音编码特征与音色提取网络中第一个音色编码特征进行加性融合，得到第二个融合特征，通过多个堆叠的语音编码块中的第二个语音编码块，基于第二个融合特征进行第二次的语音特征编码，得到第二次的带噪语音编码特征。以此类推，直至得到第L次的带噪语音编码特征。

可选地，对带噪语音进行傅里叶变换处理，得到带噪语音的时频谱；对时频谱进行分解，得到带噪语音的幅度谱与相位谱；对带噪语音的幅度谱进行输入预处理，得到带噪语音的初始语音特征。

其中，语音编码网络包括输入预处理(input layer)、语音特征编码(hiddenlayer)两个主要操作，利用输入预处理，将带噪语音的幅度谱编码为初始语音特征，利用语音特征编码，基于初始语音特征与初始音色特征依次进行融合、语音特征编码，得到带噪语音编码特征。

本实施例中，带噪语音的幅度谱，可以通过如下方式计算得到：对带噪语音进行分帧、加窗处理后，再针对每帧信号进行离散傅里叶变换(Discrete Fourier Transform,DFT)，得到带噪语音的时频谱，时频谱是一种复数谱，其由实部和虚部组成，根据时频谱可以计算得到带噪语音的幅度谱和相位谱。例如，设置汉明窗的窗长为25ms，帧移为10ms，假设带噪语音的采样率为16000Hz，语音时长为1s，则表示带噪语音为X∈R^16000×1，进行分帧、加窗后的短时语音信号可以表示为X∈R^100×400，然后求得时频谱，进而求得到幅度谱Xamg∈R^100×400和相位谱Xpha∈R^100×400。

如图6所示，为一个实施例中语音编码网络的网络结构示意图。参照图6，语音编码网络包括输入预处理、语音特征编码两个主要操作，利用输入预处理，将带噪语音的幅度谱的特征维度进行扩展。例如，利用输入预处理，将带噪语音的幅度谱进行高层特征表示，编码为初始语音特征，利用语音特征编码，基于初始语音特征与初始音色特征依次进行融合、语音特征编码，得到带噪语音编码特征。

如图7所示，为一个实施例中语音编码网络的输入预处理的结构示意图。参照图7，该输入预处理操作可由一个2维卷积(conv 2d)、2维批量归一化(BatchNorm 2d)、激活函数(Relu)、一维卷积(conv 1d)和4个ResNet Block依次连接而成。参照图5，ResNet Block由两个卷积层和一个跳跃连接(shortcut connection)组成，卷积层用于提取特征，跳跃连接则将输入直接传递到输出上。通过2维卷积对特征图进行过滤，通过一维卷积对特征维D进行过滤，通过ResNet Block进行编码。输入预处理操作的每层计算均不改变数据的维度大小，假设输入数据的维度为(T，D)，令(T，D)＝(100，400)，输出数据的维度为(T，D)＝(100,400)。

参照图6，语音编码网络中的语音特征编码操作由多个堆叠的语音编码块组成，该语音编码块可以是conformer block。语音编码块的数量与前文音色编码网络中的音色编码块的数量一致，例如均为L。将第i个语音编码块的输出和第i个音色编码块的输出进行元素相加，实现目标说话人信息的辅助作用,i属于[0,L]，且为正整数，当i＝0时，其融合的是卷积预处理操作pre-net和输入预处理操作的输出，其输出的即为初始融合特征。整个语音特征编码操作借助目标说话人的辅助信息实现对目标说话人的声学增强。语音编码块可基于transformer与CNNs共同实现，前者可以更好地对内容的全局相关性进行建模，后者可以更好地利用局部特征，两者结合起来，从而可以更好地对语音特征中的局部特征和全局特征统一建模。

在一个实施例中，根据第L次的带噪语音编码特征确定带噪语音对应的增强语音，包括：对第L次的带噪语音编码特征进行输出预处理，得到带噪语音的增强幅度谱；对带噪语音的增强幅度谱和带噪语音的相位谱进行傅里叶逆变换和重叠相加处理，得到带噪语音对应的增强语音。

在一个实施例中，如图8所示，根据第L次的带噪语音编码特征确定带噪语音对应的增强语音，包括：

步骤802，利用语音增强模型的语音解码网络，对末次的带噪语音编码特征进行输出预处理，得到带噪语音对应的增强幅度谱；

步骤804，根据带噪语音对应的增强幅度谱与带噪语音的相位谱，输出带噪语音对应的增强语音。

其中，语音解码网络包括输出预处理(output layer)和波形重建后处理(post-processing)两个操作，输出预处理与输入预处理是相对应的，网络结构也一致。利用输出预处理，将末次的带噪语音编码特征转换为增强幅度谱，利用波形重建操作，根据增强幅度谱与原始的相位谱，采用短时傅里叶逆变换(Inverse Short Time Fourier Transform，ISTFT)和重叠相加(OLA，Overlap-Add)实现语音波形的重构，输出带噪语音对应的增强语音。

如图9所示，为一个实施例中基于语音增强模型实现语音处理方法的整体框架示意图。参照图9，语音增强模型包括音色提取网络、语音编码网络与语音解码网络，音色提取网络包括卷积预处理操作、音色特征编码操作，音色特征编码操作包括多个堆叠的音色编码块；语音编码网络包括输入预处理操作、语音特征编码操作，语音特征编码操作包括多个堆叠的语音编码块；语音解码网络包括输出预处理操作、波形重建操作。输入信息包括第一语音与带噪语音，第一语音经过转换得到相应的梅尔谱图，梅尔谱图经过卷积预处理操作得到初始音色特征，初始音色特征依次经过每个音色编码块的音色特征编码，得到每个层级的音色编码特征。带噪语音经过转换得到相应的幅度谱与相位谱，幅度谱经过输入预处理操作得到初始语音特征，初始语音特征与初始音色特征进行加性融合后得到首个融合特征，首个融合特征经过首个语音编码块进行首次语音特征编码得到首次的带噪语音编码特征。依次地处理，得到末次的带噪语音编码特征。而后，末次的带噪语音编码特征经过输出预处理操作转换为增强幅度谱，增强幅度谱与原始的相位谱经过波形重建操作输出最终的增强语音。

在不同的应用场景下，终端还可以进一步对增强语音进行语音识别，得到语音识别结果，根据语音识别结果进行后续的处理。例如，在语音车辆控制场景下，可以根据带噪语音的语音识别结果生成车辆控制指令。假设在同一时间存在多个人发出来指令，提供提前注册车主语音，可以采用本申请实施例提供的个性化语音增强，把其他干扰说话人的声音去掉，保留车主的说话声音，汽车助手就可以听从车主语音命令了，有助于提升语音识别的准确性，会增加车主的用户体验感。

本申请实施例提供的语音处理方法可以基于语音增强模型实现，在一个实施例中，如图10所示，提供了一种语音增强模型的处理方法，该方法提供了语音增强模型的训练过程，该方法也可以应用于如图1所示的应用环境中。以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

步骤1002，获取训练样本，每个训练样本包括样本对象语音与样本带噪语音，样本带噪语音通过对样本对象语音添加干扰信号得到；

步骤1004，利用语音增强模型对样本带噪语音进行语音增强，得到样本带噪语音对应的增强语音，并根据样本对象语音与增强语音确定目标损失，根据目标损失调整模型参数；其中，语音增强模型用于：将样本对象语音的初始音色特征经过L个级联层级的音色特征编码，得到L个层级的音色编码特征；L为大于或等于2的整数；将样本带噪语音的初始语音特征与初始音色特征融合得到融合特征；基于融合特征和L个层级的音色编码特征进行L次带噪语音编码，得到第L次的带噪语音编码特征；根据第L次的带噪语音编码特征确定带噪语音对应的增强语音。

其中，训练样本是用于训练语音增强模型的样本数据，在产生针对语音进行增强的模型训练需求后，需要先生成用于训练语音增强模型的训练样本。

本实施例中，对语音增强模型进行训练是有监督学习的训练方式，每个训练样本包括样本带噪语音和样本对象语音。样本对象语音用于提供样本对象的音色信息，是一段来自于样本对象的纯净语音片段，样本带噪语音可以通过为该样本对象语音添加干扰信息(如背景噪声、除样本对象以外的其它对象的说话声音)得到，所以该样本对象语音同时又可作为模型训练的监督信息。样本对象语音例如可以是干净人声信号，使用的干净人声语种包括英语、汉语和各地方方言，使用的干扰信息可以是各种不同场景的噪声，例如白噪声、风声、地铁声、键盘声、鼠标声、干扰对象说话声音，等等。在一些实施例中，服务器可以读入样本对象语音与干扰信息后，再按照不同信噪比进行随机混合，获得样本带噪语音，这种可以在一定程度上对训练样本数据进行数据增强，从而提升模型的泛化能力。

具体地，服务器在训练时，将样本对象语音和样本带噪语音作为语音增强模型的输入，并按前文提到的过程进行处理，输出增强语音，将增强语音和样本对象语音来计算目标损失(如信噪比等等)，然后采用梯度下降算法进行模型参数的更新迭代。

需要说明的是，模型训练过程中对样本对象语音的处理与前文对样本对象的样本对象语音的处理一致，对样本带噪语音的处理与前文对带噪语音的处理一致，详细实施例可参考前文的描述，此处不重复说明。

在一个具体的实施例中，本申请实施例提供的语音处理方法包括如下步骤：

1、获取样本对象的样本对象语音与样本带噪语音；

2、提取样本对象的样本对象语音的梅尔频谱；

3、利用语音增强模型的音色提取网络，对样本对象的样本对象语音的梅尔频谱进行卷积预处理，得到样本对象的样本对象语音的初始音色特征，将初始音色特征输入多个堆叠的音色编码块中的首个音色编码块，利用首个音色编码块基于初始音色特征进行首次的音色特征编码，得到第一个音色编码特征；

4、依次地将前一音色编码块输出的音色编码特征，输入与前一音色编码块连接的当前音色编码块，利用当前音色编码块基于前一音色编码块输出的音色编码特征进行当次的音色特征编码，得到当前层级的音色编码特征，直至得到末尾层级的音色编码特征；

5、计算带噪语音的时频谱，根据时频谱确定带噪语音的幅度谱与相位谱；

6、利用语音增强模型的语音编码网络，对带噪语音的幅度谱进行输入预处理，得到带噪语音的初始语音特征，将初始语音特征与初始音色特征进行加性融合，得到初始融合特征；

7、利用语音编码网络的多个堆叠的语音编码块中的首个语音编码块，基于初始融合特征进行首次的语音特征编码，得到首次的带噪语音编码特征；

8、依次地将前次语音特征编码得到的带噪语音编码特征与相应层级的音色编码特征融合后进行当次语音特征编码得到当次的带噪语音编码特征；

9、在得到末次的带噪语音编码特征后，利用语音增强模型的语音解码网络，对末次的带噪语音编码特征进行输出预处理，得到带噪语音对应的增强幅度谱，根据带噪语音对应的增强幅度谱与带噪语音的相位谱，输出带噪语音对应的增强语音；

10、对增强语音进行语音识别，得到语音识别结果，根据语音识别结果生成车辆控制指令。

本申请实施例提供的语音处理方法，针对个性化语音增强模型性能差的问题，设计了一种基于深度学习的端到端个性化语音增强模型；针对样本对象的样本对象语音中除音色以外的其它信息去除效果较差的问题，设计了一个音色提取网络,有利于去除音色以外的其他信息；针对样本对象的样本对象语音对带噪语音辅助增强效果不明显的问题，设计了一个语音编码网络，可增强辅助信息的表达，有助于提升个性化语音增强的效果。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的语音处理方法的语音处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个语音处理装置实施例中的具体限定可以参见上文中对于语音处理方法的限定，在此不再赘述。

在一个实施例中，如图11所示，提供了一种语音处理装置1100，包括：获取模块1102、音色特征编码模块1104、带噪语音编码模块1106和增强语音确定模块1108，其中：

获取模块1102，用于获取目标说话人的第一语音与带噪语音，带噪语音包括目标说话人的第二语音；

音色特征编码模块1104，用于将第一语音的初始音色特征经过L个级联层级的音色特征编码，得到L个层级的音色编码特征；L为大于或等于2的整数；

带噪语音编码模块1106，用于将带噪语音的初始语音特征与初始音色特征融合得到融合特征；基于融合特征和L个层级的音色编码特征进行L次带噪语音编码，得到第L次的带噪语音编码特征；

增强语音确定模块1108，用于根据第L次的带噪语音编码特征确定带噪语音对应的增强语音。

在一个实施例中，带噪语音编码模块1106，还用于当L等于1时，对融合特征进行编码得到第一次的带噪语音编码特征；当L大于1时，将第i-1次的带噪语音编码特征与第i-1个层级的音色编码特征融合后编码，得到第i次的带噪语音编码特征；i大于或等于2，且i小于或等于L。

在一个实施例中，带噪语音编码模块1106，还用于对带噪语音进行傅里叶变换处理，得到带噪语音的时频谱；对时频谱进行分解，得到带噪语音的幅度谱与相位谱；对带噪语音的幅度谱进行输入预处理，得到带噪语音的初始语音特征。

在一个实施例中，增强语音确定模块1108，还用于对第L次的带噪语音编码特征进行输出预处理，得到带噪语音的增强幅度谱；对带噪语音的增强幅度谱和带噪语音的相位谱进行傅里叶逆变换和重叠相加处理，得到带噪语音对应的增强语音。

在一个实施例中，语音处理方法基于语音增强模型实现，语音处理装置1100还包括：

样本获取模块，用于获取训练样本，每个训练样本包括样本对象语音与样本带噪语音，样本带噪语音通过对样本对象语音添加干扰信号得到；

模型更新模块，用于利用语音增强模型对样本带噪语音进行语音增强处理，得到样本带噪语音对应的增强语音，并根据样本对象语音与增强语音确定目标损失，根据目标损失调整语音增强模型的模型参数；

其中，语音增强模型用于将样本对象语音的初始音色特征经过L个级联层级的音色特征编码，得到L个层级的音色编码特征；L为大于或等于2的整数；将样本带噪语音的初始语音特征与初始音色特征融合得到融合特征；基于融合特征和L个层级的音色编码特征进行L次带噪语音编码，得到第L次的带噪语音编码特征；根据第L次的带噪语音编码特征确定带噪语音对应的增强语音。

在一个实施例中，语音处理装置1100还包括：

语音识别模块，用于对增强语音进行语音识别，得到语音识别结果；

控制模块，用于根据语音识别结果生成操作控制指令，并执行操作控制指令所指示的操作。

上述语音处理装置1100，获取第一语音与带噪语音，将该第一语音的初始音色特征经过L个级联层级的音色特征编码，可有效去除第一语音中除音色信息以外的其它信息，得到L个层级的音色编码特征，将该带噪语音的初始语音特征与该初始音色特征融合得到融合特征，基于该融合特征和该L个层级的音色编码特征进行L次带噪语音编码，得到第L次的带噪语音编码特征。该过程中，通过多次的交互融合可增强目标说话人音色信息的表达，有助于个性化语音的增强，根据该第L次的带噪语音编码特征确定该带噪语音对应的增强语音，有效地剔除了带噪语音中的噪音和其它说话人的干扰声音，提升了关于目标说话人的语音增强性能。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的语音增强模型的处理方法的语音增强模型的处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个语音增强模型的处理装置实施例中的具体限定可以参见上文中对于语音增强模型的处理方法的限定，在此不再赘述。

在一个实施例中，如图12所示，提供了一种语音增强模型的处理装置1200，包括：样本获取模块1202和模型更新模块1204，其中：

样本获取模块1202，用于获取训练样本，每个训练样本包括样本对象语音与样本带噪语音，样本带噪语音通过对样本对象语音添加干扰信号得到；

模型更新模块1204，用于利用语音增强模型对样本带噪语音进行语音增强，得到样本带噪语音对应的增强语音，并根据样本对象语音与增强语音确定目标损失，根据目标损失调整模型参数；

上述语音增强模型的处理装置1200，每个训练样本包括样本对象语音与样本带噪语音，样本带噪语音通过对该样本对象语音添加干扰信号得到，利用语音增强模型对该样本带噪语音进行语音增强时，将该样本对象语音的初始音色特征经过L个级联层级的音色特征编码，可有效去除样本对象语音中除音色信息以外的其它信息，得到L个层级的音色编码特征，将该样本带噪语音的初始语音特征与该初始音色特征融合得到融合特征，基于该融合特征和该L个层级的音色编码特征进行L次带噪语音编码，得到第L次的带噪语音编码特征。该过程中，通过多次的交互融合可增强样本对象音色信息的表达，有助于个性化语音的增强，根据该第L次的带噪语音编码特征确定该带噪语音对应的增强语音，有效地剔除了样本带噪语音中的噪音和其它说话人的干扰声音，继而，根据该样本对象语音与该增强语音确定目标损失，根据该目标损失调整模型参数，通过这样的训练过程使得模型能够学习到去除样本对象的样本对象语音中除音色信息以外的其它信息、通过多次的交互融合以增强样本对象音色信息的表达的能力，从而提升模型在个性化语音增强场景的语音增强性能。

上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是图1所示的服务器，其内部结构图可以如图13所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练好的语音增强模型。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现语音处理方法和语音增强模型的处理方法中的至少一种。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是图1所示的终端102，其内部结构图可以如图14所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现语音处理方法和语音增强模型的处理方法中的至少一种。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置，显示屏可以是液晶显示屏或电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图13、图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现本申请实施例提供的语音处理方法和/或语音增强模型的处理方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本申请实施例提供的语音处理方法和/或语音增强模型的处理方法中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本申请实施例提供的语音处理方法和/或语音增强模型的处理方法中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种语音处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述融合特征和所述L个层级的音色编码特征进行L次带噪语音编码，得到第L次的带噪语音编码特征，包括：

当L等于1时，对所述融合特征进行编码得到第一次的带噪语音编码特征；

当L大于1时，将第i-1次的带噪语音编码特征与第i-1个层级的音色编码特征融合后编码，得到第i次的带噪语音编码特征；i大于或等于2，且i小于或等于L。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

对所述带噪语音进行傅里叶变换处理，得到所述带噪语音的时频谱；

对所述时频谱进行分解，得到所述带噪语音的幅度谱与相位谱；

对所述带噪语音的幅度谱进行输入预处理，得到所述带噪语音的初始语音特征。

4.根据权利要求1所述的方法，其特征在于，所述根据所述第L次的带噪语音编码特征确定所述带噪语音对应的增强语音，包括：

对所述第L次的带噪语音编码特征进行输出预处理，得到所述带噪语音的增强幅度谱；

对所述带噪语音的增强幅度谱和所述带噪语音的相位谱进行傅里叶逆变换和重叠相加处理，得到所述带噪语音对应的增强语音。

5.根据权利要求1所述的方法，其特征在于，所述语音处理方法基于语音增强模型实现，所述语音增强模型的训练步骤包括：

获取训练样本，每个训练样本包括样本对象语音与样本带噪语音，所述样本带噪语音通过对所述样本对象语音添加干扰信号得到；

利用语音增强模型对所述样本带噪语音进行语音增强处理，得到所述样本带噪语音对应的增强语音，并根据所述样本对象语音与所述增强语音确定目标损失，根据所述目标损失调整所述语音增强模型的模型参数。

6.根据权利要求1所述的方法，其特征在于，每次进行带噪语音编码的编码块由1维卷积层、1维批量归一化层、激活函数层、1维卷积层、时间维的实例规范化层、多头注意力层依次连接而成，所述时间维的实例规范化层，用于计算输入至所述时间维的实例规范化层的输入特征与所述输入特征的均值的差异，并根据所述输入特征的方差，对所述差异进行归一化处理，得到所述时间维的实例规范化层的输出特征。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述方法还包括：

对所述增强语音进行语音识别，得到语音识别结果；

根据所述语音识别结果生成操作控制指令，并执行所述操作控制指令所指示的操作。

8.一种语音处理装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

11.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。