CN111696532B

CN111696532B - 语音识别方法、装置、电子设备以及存储介质

Info

Publication number: CN111696532B
Application number: CN202010556372.8A
Authority: CN
Inventors: 单亚慧; 李�杰; 王晓瑞
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2023-08-18
Anticipated expiration: 2040-06-17
Also published as: CN111696532A

Abstract

本申请关于一种语音识别方法、装置、电子设备以及存储介质，属于语音识别领域。方法包括：获取原始语音信号；对原始语音信号进行降噪处理，得到第一语音信号；将原始语音信号和第一语音信号进行融合，得到目标语音信号；对目标语音信号进行语音识别，得到与目标语音信号对应的语音信息。通过本申请提供的技术方案，获取原始语音信号之后，服务器可以对原始语音信号进行降噪处理，将降噪处理后的第一语音信号和原始语音信号进行融合，可以通过原始语音信号来弥补第一语音信号中丢失的语音信息。由于所得到的目标语音信号的所携带的信息更加完整，因此，通过上述技术方案进行的语音识别，可以得到较好的语音识别结果。

Description

语音识别方法、装置、电子设备以及存储介质

技术领域

本申请涉及语音识别领域，尤其涉及一种语音识别方法、装置、电子设备以及存储介质。

背景技术

随着语音识别技术的日渐成熟，语音识别功能已经在手机等很多智能设备上实现，在日常生活中使用的也越来越广泛。但是在日常生活中，说话环境多变，噪声种类多样，提升在噪声环境中语音识别的准确性十分重要。

相关技术中，往往在训练语音识别模型时会先对样本语音信号进行人工加噪，再通过降噪模型降噪，将降噪后的样本语音信号送入语音识别模型进行训练，使得语音识别模型可以具有识别降噪后语音信号所携带的带语音信息的能力。

虽然上述方法可以一定程度上提高语音识别的准确性，但是由于降噪后的语音信号会丢失一部分的语音信息，导致语音识别的结果不够准确。

发明内容

本申请提供一种语音识别方法、装置、电子设备以及存储介质，可以提高语音识别的准确性。本申请的技术方案如下：

一方面，提供一种语音识别方法，包括：

获取原始语音信号；

对所述原始语音信号进行降噪处理，得到第一语音信号；

将所述原始语音信号和所述第一语音信号进行融合，得到目标语音信号；

对所述目标语音信号进行语音识别，得到与所述目标语音信号对应的语音信息。

在一种可能的实施方式中，所述对所述原始语音信号进行降噪处理，得到第一语音信号包括：

将所述原始语音信号输入降噪模型，通过所述降噪模型对所述原始语音信号进行语音增强，得到所述第一语音信号。

在一种可能的实施方式中，所述将所述原始语音信号和所述第一语音信号进行融合，得到目标语音信号包括：

将所述原始语音信号和所述第一语音信号进行加权求和，得到所述目标语音信号。

在一种可能的实施方式中，所述将所述原始语音信号和所述第一语音信号进行加权求和，得到所述目标语音信号包括：

将所述原始语音信号和所述第一语音信号分割成至少一段原始语音信号片段和至少一段第一语音信号片段；

将所述至少一段原始语音信号和所述至少一段第一语音信号片段进行加权求和，得到所述目标语音信号。

在一种可能的实施方式中，所述将所述原始语音信号和所述第一语音信号进行加权求和，得到所述目标语音信号之后，所述方法还包括：

根据所述语音信息和所述原始语音信号对应的原始语音信息之间的差异信息，调整所述原始语音信号和所述第一语音信号对应的权重。

在一种可能的实施方式中，所述对所述目标语音信号进行语音识别，得到与所述目标语音信号对应的语音信息包括：

将所述目标语音信号输入语音识别模型，通过所述语音识别模型提取所述目标语音信号的语音特征信息，对所述语音特征信息进行语音识别，得到所述语音信息。

一方面，提供一种语音识别装置，包括：

获取模块，被配置为执行获取原始语音信号；

降噪模块，被配置为执行对所述原始语音信号进行降噪处理，得到第一语音信号；

融合模块，被配置为执行将所述原始语音信号和所述第一语音信号进行融合，得到目标语音信号；

识别模块，被配置为执行对所述目标语音信号进行语音识别，得到与所述目标语音信号对应的语音信息。

在一种可能的实施方式中，所述降噪模块被配置为执行将所述原始语音信号输入降噪模型，通过所述降噪模型对所述原始语音信号进行语音增强，得到所述第一语音信号。

在一种可能的实施方式中，所述融合模块被配置为执行将所述原始语音信号和所述第一语音信号进行加权求和，得到所述目标语音信号。

在一种可能的实施方式中，所述融合模块包括：

分割模块，被配置为执行将所述原始语音信号和所述第一语音信号分割成至少一段原始语音信号片段和至少一段第一语音信号片段；

加权求和模块，被配置为执行将所述至少一段原始语音信号和所述至少一段第一语音信号片段进行加权求和，得到所述目标语音信号。

在一种可能的实施方式中，所述装置还包括：

调整模块，被配置为执行根据所述语音信息和所述原始语音信号对应的原始语音信息之间的差异信息，调整所述原始语音信号和所述第一语音信号对应的权重。

在一种可能的实施方式中，所述识别模块被配置为执行将所述目标语音信号输入语音识别模型，通过所述语音识别模型提取所述目标语音信号的语音特征信息，对所述语音特征信息进行语音识别，得到所述语音信息。

一方面，提供一种电子设备，该电子设备包括：

一个或多个处理器；

用于存储该处理器可执行指令的存储器；

其中，该处理器被配置为执行该指令，以实现上述语音识别方法。

一方面，提供一种存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得服务器能够执行上述语音识别方法。

一方面，提供一种计算机程序产品，该计算机程序产品存储有一条或多条指令，该一条或多条指令可以由电子设备的处理器执行，以完成上述语音识别方法。

本申请的实施例提供的技术方案至少带来以下有益效果：

通过本申请提供的技术方案，获取原始语音信号之后，服务器可以对原始语音信号进行降噪处理，将降噪处理后的第一语音信号和原始语音信号进行融合，可以通过原始语音信号来弥补第一语音信号中丢失的语音信息，这样得到的目标语音信号可以携带更加完整的语音信息。由于所得到的目标语音信号的所携带的信息更加完整，因此，通过上述技术方案进行的语音识别，可以得到较好的语音识别结果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理，并不构成对本申请的不当限定。

图1是根据一示例性实施例示出的一种语音识别方法的实施环境示意图；

图2是根据一示例性实施例示出的一种语音识别方法的流程图；

图3是根据一示例性实施例示出的一种语音识别方法的流程图；

图4是根据一示例性实施例示出的一种语音识别方法的流程图；

图5是根据一示例性实施例示出的一种语音识别装置的结构示意图；

图6是根据一示例性实施例示出的一种终端的结构示意图；

图7是根据一示例性实施例示出的一种服务器的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本申请的技术方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

本申请所涉及的用户信息可以为经用户授权或者经过各方充分授权的信息。

图1是本申请实施例提供的一种语音识别方法的实施环境示意图，参见图1，该实施环境中可以包括终端101和服务器102。

终端101可以为智能手机、智能手表、台式电脑、手提电脑和膝上型便携计算机等设备中的至少一种。终端101上可以安装并运行有支持语音识别的应用程序，用户可以通过终端101登录该应用程序来进行语音识别，例如用户可以向终端101发出语音指令，通过该应用程序来得到语音指令对应的语音信息。终端101可以通过无线网络或有线网络与服务器102相连。

终端101可以泛指多个终端中的一个，本实施例仅以终端101来举例说明。本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端101可以仅为几个，或者上述终端101为几十个或几百个，或者更多数量，本申请实施例对终端101的数量和设备类型均不加以限定。

服务器102可以为一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。服务器102可以用于训练降噪模型和语音识别模型，还可以用于识别终端101发送的语音信号。

可选地，上述服务器102的数量可以更多或更少，本申请实施例对此不加以限定。当然，服务器102还可以包括其他功能服务器，以便提供更全面且多样化的服务。

本申请提供的语音识别方法可以应用于多种场景，为了便于理解，首先对本申请可能涉及到的应用场景进行说明：

1、本申请提供的语音识别方法可以应用于搜索场景，举例来说，用户需要通过终端进行搜索时，可以通过向终端发出语音搜索指令，比如发出“今天天气怎么样”的语音搜索指令。终端接收到语音搜索指令之后，可以基于本申请提供的语音识别方法，对语音搜索指令进行识别，得到语音搜索指令对应的语音信息。终端可以基于语音信息进行搜索，向用户显示搜索的结果。

2、本申请提供的语音识别方法可以应用于智能家居设备的控制场景，举例来说，用户可以通过终端向不同的智能家居设备发出语音控制指令，比如发出“开启热水器”的语音控制指令。终端接收到语音控制指令之后，可以基于本申请提供的语音识别方法，对语音控制指令进行识别，得到语音控制指令对应的语音信息。终端可以基于语音信息，控制对应的智能家居设备执行指定的指令。

3、本申请提供的语音识别方法可以应用于实时翻译的场景，举例来说，当用户需要通过终端来进行实时翻译时，可以通过终端接收其他用户发出的语音信号，比如“Whereare you from”终端接收到语音信号之后，可以基于本申请提供的语音识别方法，对语音信号进行识别，得到语音信号对应的语音信息。终端可以将语音信息转化为目标语言的语音信息，并将目标语言的语音信息展现给用户。

在本申请实施例中，服务器可以通过训练两个模型来实施本申请提供的技术方案，其中，一个模型是用于降噪的降噪模型，另一个是用于语音识别的语音识别模型。为了对本申请提供的技术方案进行更加清楚的说明，首先对降噪模型和语音识别模型的训练方法进行说明：

1、降噪模型的训练方法包括数据准备和模型训练两个过程：

数据准备过程：

服务器可以获取不携带噪音的纯净语音信号和噪音信号，将纯净语音信号和噪音信号进行叠加，得到携带噪音的样本语音信号。其中，纯净语音信号可以为技术人员在无噪音的条件下录制的，也可以是服务器从互联网上获取的纯净语音信号数据集。噪音信号可以为技术人员在噪音环境中录制的，也可以是服务器从互联网上获取的噪音信号数据集，本申请实施例对于纯净语音信号和噪音信号的来源不做限定。

模型训练过程：

在一种可能的实施方式中，响应于样本语音信号为频域信号，服务器可以将样本语音信号输入初始降噪模型，由初始降噪模型基于样本语音信号进行预测，得到样本语音信号对应的掩码(Mask)。服务器可以将样本语音信号和掩码进行相乘，得到降噪后的参考语音信号。服务器可以根据样本语音信号和参考语音信号之间的信号差异，调整初始降噪模型的模型参数，直至初始降噪模型符合降噪模型的迭代截至条件，将此时的初始降噪模型作为降噪模型。

举例来说，服务器可以对初始降噪模型进行初始化，将样本语音信号输入初始降噪模型中，由初始降噪模型对样本语音信号进行特征提取，得到样本语音信号的样本语音特征。初始降噪模型可以基于样本语音特征，确定样本语音信号对应的掩码，比如(1，0，1，1，0，0)，其中1表示保留语音信号，0表示删除语音信号。服务器可以将样本语音信号，比如(x₁，x₂，x₃，x₄，x₅，x₆)与掩码(1，0，1，1，0，0)相乘，得到参考语音信号(x₁，0，x₃，x₄，0，0)。服务器可以根据样本语音信号和参考语音信号之间的信号差异，调整初始降噪模型的模型参数，直至初始降噪模型的损失函数值达到目标函数值或迭代次数达到目标次数时，停止初始降噪模型的训练，将此时的初始降噪模型作为降噪模型。

在一种可能的实施方式中，响应于样本语音信号为时域信号，服务器可以对样本语音信号进行时频变换，将时域的样本语音信号转化为频域的样本语音信号。将频域的样本语音信号输入初始降噪模型，由初始降噪模型基于频域的样本语音信号进行预测，得到频域的样本语音信号对应的掩码(Mask)。服务器可以将频域的样本语音信号和掩码进行相乘，得到降噪后的参考语音信号。服务器可以根据频域的样本语音信号和参考语音信号之间的信号差异，调整初始降噪模型的模型参数，直至初始降噪模型符合降噪模型的迭代截至条件，将此时的初始降噪模型作为降噪模型。

举例来说，服务器可以将时域的样本语音信号进行分帧和加窗，得到参考语音信号片段，对参考语音信号片段进行傅里叶变换，得到参考语音信号片段对应的频域语音信号。服务器可以对初始降噪模型进行初始化，将频域语音信号输入初始降噪模型中，由初始降噪模型对频域语音信号进行特征提取，得到频域语音信号的样本语音特征。初始降噪模型可以基于样本语音特征，确定样本语音信号对应的掩码，比如(1，0，1，1，0，0)，其中1表示保留语音信号，0表示删除语音信号。服务器可以将频域语音信号，比如(x₁，x₂，x₃，x₄，x₅，x₆)与掩码(1，0，1，1，0，0)相乘，得到参考语音信号(x₁，0，x₃，x₄，0，0)。服务器可以根据样本语音信号和参考语音信号之间的信号差异，调整初始降噪模型的模型参数，直至初始降噪模型的损失函数值达到目标函数值或迭代次数达到目标次数时，停止初始降噪模型的训练，将此时的初始降噪模型作为降噪模型。

2、语音识别模型的训练方法包括数据准备和模型训练两个过程：

数据准备过程：

服务器可以获取不携带噪音的纯净语音信号和噪音信号，将纯净语音信号和噪音信号进行叠加，得到携带噪音的样本语音信号。技术人员可以对纯净语音信号进行标注，得到纯净语音信号对应的纯净语音信息，以纯净语音信息为监督来训练语音识别模型。

模型训练过程：

服务器可以将样本语音信号输入初始语音识别模型，由初始语音识别模型基于样本语音信号进行预测，得到样本语音信号对应的样本语音信息。服务器可以样本语音信息和纯净语音信息之间的差异，调整初始语音识别模型的模型参数，直至初始语音识别模型符合语音识别模型的迭代截至条件，将此时的初始语音识别模型作为语音识别模型。

举例来说，服务器可以对初始语音识别模型进行初始化，将样本语音信号输入初始语音识别模型中，由初始语音识别模型对样本语音信号进行特征提取，得到样本语音信号对应的样本语音特征。服务器可以确定该样本语音特征对应的语音信息，比如，初始语音识别模型可以输出一个用于确定语音信息的向量(0.6，0.2，0.1……)，其中数字表示不同语音信息对应的概率。服务器可以将最大数字对应的语音信息进行组合，得到样本语音信号对应的样本语音信息。服务器可以根据样本语音信息和纯净语音信息之间的信息差异，调整初始语音识别模型的模型参数，直至初始语音识别模型的损失函数值达到目标函数值或迭代次数达到目标次数时，停止初始语音识别模型的训练，将此时的初始语音识别模型作为语音识别模型。

需要说明的是，上述说明中均是以采用服务器训练模型为例进行说明的，在其他可能的实现方式中，上述两个模型也可以由终端进行训练，或者通过终端与服务器之间的交互来进行模型训练，例如由终端收集两个模型的样本语音信号，并将两个模型的样本语音信号发送至服务器，由服务器对两个模型进行训练。

除此之外，在训练上述两个模型之前，服务器可以将网络上开源的具有相似功能的模型作为预训练模型，在预训练模型的基础上进行训练，可以提高模型的收敛速度。

图2是根据一示例性实施例示出的一种语音识别方法的流程图，可以于服务器，如图2所示，包括以下步骤：

在步骤S201中，服务器获取原始语音信号。

在步骤S202中，服务器对原始语音信号进行降噪处理，得到第一语音信号。

在步骤S203中，服务器将原始语音信号和第一语音信号进行融合，得到目标语音信号。

在步骤S204中，服务器对目标语音信号进行语音识别，得到与目标语音信号对应的语音信息。

在一种可能的实施方式中，对原始语音信号进行降噪处理，得到第一语音信号包括：

将原始语音信号输入降噪模型，通过降噪模型对原始语音信号进行语音增强，得到第一语音信号。

在一种可能的实施方式中，将原始语音信号和第一语音信号进行融合，得到目标语音信号包括：

将原始语音信号和第一语音信号进行加权求和，得到目标语音信号。

在一种可能的实施方式中，将原始语音信号和第一语音信号进行加权求和，得到目标语音信号包括：

将原始语音信号和第一语音信号分割成至少一段原始语音信号片段和至少一段第一语音信号片段。

将至少一段原始语音信号和至少一段第一语音信号片段进行加权求和，得到目标语音信号。

在一种可能的实施方式中，将原始语音信号和第一语音信号进行加权求和，得到目标语音信号之后，方法还包括：

根据语音信息和原始语音信号对应的原始语音信息之间的差异信息，调整原始语音信号和第一语音信号对应的权重。

在一种可能的实施方式中，对目标语音信号进行语音识别，得到与目标语音信号对应的语音信息包括：

将目标语音信号输入语音识别模型，通过语音识别模型提取目标语音信号的语音特征信息，对语音特征信息进行语音识别，得到语音信息。

上述图2所示仅为本申请的基本流程，下面将结合一些例子，来对本申请提供的技术方案进行进一步阐述。

图3是根据一示例性实施例示出的一种语音识别方法的流程图，图4是根据一示例性实施例示出的另一种语音识别方法的流程图，参见图3和图4，该方法包括：

在步骤S300中，终端向服务器发送原始语音信号。

其中，原始语音信号可以为携带有噪音的语音信号。

在一种可能的实施方式中，终端可以采集原始语音信号，将采集到的原始语音信号发送给服务器。

在步骤S301中，服务器获取原始语音信号。

以搜索场景为例，终端可以通过麦克风采集用户发出的原始语音信号，比如语音搜索指令，将采集到的语音搜索指令发送给服务器，服务器可以接收终端发送的语音搜索指令，并基于语音搜索指令执行后续的步骤。

以智能家居设备控制场景为例，终端可以通过麦克风采集用户发出的原始语音信号，比如语音控制指令，将采集到的语音控制指令发送给服务器，服务器可以接收终端发送的语音控制指令，并基于语音控制指令执行后续的步骤。

以实时翻译场景为例，终端可以通过麦克风采集用户发出的语音信号，将采集到的语音信号发送给服务器，服务器可以接收终端发送的语音信号，并基于语音信号执行后续的步骤。

在步骤S302中，服务器对原始语音信号进行降噪处理，得到第一语音信号。

在一种可能的实施方式中，服务器可以将原始语音信号输入降噪模型，通过降噪模型对原始语音信号进行语音增强，得到第一语音信号，其中，降噪模型可以为服务器采用上述降噪模型训练方法训练得到的降噪模型，也可以是服务器从互联网上获取的降噪模型，本申请实施例对于降噪模型的类型不做限定。

举例来说，服务器可以将原始语音信号x(n)输入降噪模型，其中，n＝1，2，…N，N为语音信号总采样点数。服务器可以通过降噪模型对原始语音信号x(n)进行预测，得到与原始语音信号x(n)对应的掩码m(n)，其中，n＝1，2，…N，N为语音信号总采样点数。服务器可以将原始语音信号x(n)和掩码m(n)进行相乘，得到降噪后的第一语音信号x’(n)。

在一种可能的实施方式中，服务器可以获取终端采集原始语音信号时采集的噪音信号，根据噪音信号对原始语音信号进行降噪处理，得到第一语音信号。

举例来说，终端上可以安装有至少两个麦克风，其中一个麦克风可以接近用户的嘴，另一个麦克风可以远离用户的嘴，终端可以通过一个麦克风来采集原始语音信号，通过另一麦克风来采集噪音信号。终端可以将原始语音信号和噪音信号同时发送给服务器，服务器可以根据噪音信号对原始语音信号进行减谱运算，得到第一语音信号。其中，服务器根据噪音信号对原始语音信号进行减谱运算的方法可以为线性减谱法、非线性减谱法、扩展减谱法、选择减谱法、自适应增益平均的谱减以及基于感知特性的谱减等方法，本申请实施例对此不做限定。

在步骤S303中，服务器将原始语音信号和第一语音信号进行融合，得到目标语音信号。

在一种可能的实施方式中，服务器可以将原始语音信号和第一语音信号进行加权求和，得到目标语音信号。在这种实现方式下，由于原始语音信号携带了完整的语音信息，而降噪后的第一语音信号中会丢失一部分语音信息，通过设置不同的权重将原始语音信号和第一语音信号进行融合，可以在保证语音信息完整的前提下，减少噪音的干扰。

举例来说，服务器可以将原始语音信号和第一语音信号在时间上进行对齐，随后将原始语音信号和第一语音信号分割成至少一段原始语音信号片段和至少一段第一语音信号片段。服务器可以将至少一段原始语音信号和至少一段第一语音信号片段进行加权求和，得到目标语音信号。在这种实现方式下，可以保证加权求和的片段时一一对应的，提高加权求和的准确性。比如，原始语音信号可以由6个采样点采集的语音信号构成，服务器可以根据6个采样点采集语音信号的时间，将原始语音信号分割成6段原始语音信号片段。服务器可以根据6个采样点采集语音信号的时间，将第一语音信号分割成6段第一语音信号片段。服务器可以将对应于相同采样点的原始语音信号片段和第一语音信号片段进行加权求和，得到目标语音信号。服务器加权求和的方法可以参见公式(1)。

y(n)＝a x(n)+(1-a)x’(n) (1)

其中，y(n)为目标语音信号，a为原始语音信号的权重，a的取值范围为(0，1)。

下面对原始语音信号和第一语音信号对应权重的确定方法进行说明：

在一种可能的实施方式中，服务器可以对原始语音信号和第一语音信号对应的权重进行初始化，得到初始化权重，服务器可以根据初始化的权重，对原始语音信号和第一语音信号进行加权求和，得到目标语音信号。服务器可以对目标语音信号进行语音识别，得到与目标语音信号对应的语音信息。服务器可以根据目标语音信号对应的语音信息和原始语音信号对应的原始语音信息之间的差异信息，调整原始语音信号和第一语音信号对应的权重。在这种实现方式下，服务器可以根据对目标语音信号进行识别的结果来调整权重，使得服务器采用调整后的权重对原始语音信号和第一语音信号进行加权求和后得到的目标语音信号可以在减少噪音信号的基础上，提高目标语音信号携带语音信息的数量，提高后续的语音识别的准确性。

在一种可能的实施方式中，服务器可以将原始语音信号和第一语音信号分割成至少一段原始语音信号片段和至少一段第一语音信号片段。服务器可以对原始语音信号和第一语音信号对应的权重进行初始化，得到初始化权重。服务器可以根据初始化权重，将第一语音信号片段和原始语音信号片段进行加权求和，得到目标语音信号片段。服务器可以对目标语音信号片段进行语音识别，得到与目标语音信号片段对应的语音信息。服务器可以根据原始语音信号频段对应的语音信息和目标语音信号片段对应的语音信息之间的差异信息，调整原始语音信号和第一语音信号对应的权重。在这种实现方式下，服务器可以将长度较长的原始语音信号和第一语音信号进行切割，得到至少一段语音信号片段，可以增加确定权重的数据量，提高得到权重的准确性。

在步骤S304中，服务器对目标语音信号进行语音识别，得到与目标语音信号对应的语音信息。

在一种可能的实施方式中，将目标语音信号输入语音识别模型，通过语音识别模型提取目标语音信号的语音特征信息，对语音特征信息进行语音识别，得到语音信息。

举例来说，服务器可以采用向量的形式表示目标语音信号，记作目标语音向量，服务器可以将目标语音向量输入语音识别模型，通过语音识别模型对目标语音向量进行特征提取，得到目标语音向量的语音特征向量。服务器可以通过语音识别模型对语音特征向量进行全连接处理，得到语音特征向量对应语音信息的概率。服务器可以将概率最高的语音信息确定为目标语音信号对应的语音信息。

比如，上述语音识别模型对目标语音信号进行识别的过程可以是基于音素的识别，服务器可以对目标语音信号进行分帧，得到多个目标语音信号片段，服务器可以采用目标语音向量的形式表示目标语音信号片段。服务器可以将目标语音向量输入语音识别模型，语音识别模型可以根据目标语音向量进行预测，得到目标语音信号片段对应的音素。服务器可以将多个目标语音信号对应的音素进行组合，得到目标语音信号对应的语音信息。

可选的，在步骤S304之后，服务器还可以执行步骤S305来提高语音识别的准确性，当然，服务器也可以不执行步骤S305，直接执行步骤S306，本申请实施例对此不做限定。

在步骤S305中，服务器根据目标语音信号对应的语音信息和原始语音信号对应的原始语音信息之间的差异信息，调整原始语音信号和第一语音信号对应的权重。

在一种可能的实施方式中，服务器可以基于语音信息和原始语音信息之间的差异信息构建一个损失函数，响应于损失函数不符合目标条件，服务器可以对原始语音信号和第一语音信号对应的权重进行调整，以使得服务器在下一次融合过程中，可以采用新的权重将原始语音信号和第一语音信号进行融合。在这种实现方式下，由于语音识别的场景多种多样，噪声对语音信号的干扰也不相同，服务器可以在进行语音识别的过程中根据识别的结果动态调整原始语音信号和第一语音信号对应的权重，在保证语音识别准确性的基础上，使得本申请提供的语音识别方法可以应用于更多的类型的噪声环境，扩大了语音识别方法的适用范围。

需要说明的是，上述步骤S301-S305是以服务器作为执行主体为例进行说明的，在其他可能的实施方式中，也可以由终端来执行上述步骤S301-S305，本申请实施例对于执行主体的类型不做限定。当然，若由终端来执行上述步骤S301-S305，那么终端无需执行步骤S306和S307，可以直接展示目标语音信号对应的语音信息，或者基于该语音信息执行相应的操作。

在步骤S306中，服务器将目标语音信号对应的语音信息发送给终端。

在步骤S307中，终端接收并展示目标语音信号对应的语音信息。

需要说明的是，上述步骤S307是以终端展示目标语音信号对应的语音信息为例进行说明的，在其他可能的实施方式中，终端接收到目标语音信号对应的语音信息之后，也可以不展示该语音信息，比如在智能家居设备控制场景下，终端也可以根据接收到的语音信息，直接控制智能家居设备执行实现相应的功能。

需要说明的是，本申请提供的技术方案可以适用于重新训练降噪模型和语音识别模型的场景下，当然也可以适用于已经训练完成的降噪模型和语音识别模型的场景下，举例来说，服务器上已经存在由训练完毕的降噪模型和语音识别模型组成的语音识别系统，那么可以直降在语音识别系统中加入一个加权模块即可实施本申请提供的技术方案。

下面以服务器上已经存在由训练完毕的降噪模型和语音识别模型组成的语音识别系统为例进行说明。参见图4，401是降噪模型，402是特征提取模块，403是语音识别模型，404是加权模块。服务器可以将原始语音信号输入降噪模型401，通过降噪模型401对原始语音信号进行降噪处理，得到第一语音信号。服务器可以将原始语音信号和第一语音信号输入加权模块404，通过加权模块404得到目标语音信号。服务器可以将目标语音信号输入特征提取模块402，通过特征提取模块402得到目标语音信号对应的语音特征信息。服务器可以将语音特征信息输入语音识别模型403，通过语音识别模型403对语音特征信息进行处理，得到与目标语音信号对应的语音信息。在这种实现方式下，可以在原有语音识别系统的基础上增加一个加权模块就可以实施本申请提供的技术方案，无需重新训练降噪模型和语音识别模型，技术方案的扩展性较好。

通过本申请提供的技术方案，获取原始语音信号之后，服务器可以对原始语音信号进行降噪处理，将降噪处理后的第一语音信号和原始语音信号进行融合，可以通过原始语音信号来弥补第一语音信号中丢失的语音信息，这样得到的目标语音信号可以携带更加完整的语音信息。由于所得到的目标语音信号的所携带的信息更加完整，因此，通过上述技术方案进行的语音识别，可以得到较好的语音识别结果。除此之外，服务器还可以根据语音识别结果来对原始语音信号和第一语音信号对应的权重进行调整，使得本申请提供的技术方案可以应用在更多的环境中，扩大了语音识别方法的适用范围。

图5是根据一示例性实施例示出的一种语音识别装置的结构示意图。参照图5，该装置包括获取模块501、降噪模块502、融合模块503和识别模块504。

获取模块501，被配置为执行获取原始语音信号。

降噪模块502，被配置为执行对原始语音信号进行降噪处理，得到第一语音信号。

融合模块503，被配置为执行将原始语音信号和第一语音信号进行融合，得到目标语音信号。

识别模块504，被配置为执行对目标语音信号进行语音识别，得到与目标语音信号对应的语音信息。

在一种可能的实施方式中，降噪模块被配置为执行将原始语音信号输入降噪模型，通过降噪模型对原始语音信号进行语音增强，得到第一语音信号。

在一种可能的实施方式中，融合模块被配置为执行将原始语音信号和第一语音信号进行加权求和，得到目标语音信号。

在一种可能的实施方式中，融合模块包括：

分割模块，被配置为执行将原始语音信号和第一语音信号分割成至少一段原始语音信号片段和至少一段第一语音信号片段。

加权求和模块，被配置为执行将至少一段原始语音信号和至少一段第一语音信号片段进行加权求和，得到目标语音信号。

在一种可能的实施方式中，装置还包括：

调整模块，被配置为执行根据语音信息和原始语音信号对应的原始语音信息之间的差异信息，调整原始语音信号和第一语音信号对应的权重。

在一种可能的实施方式中，识别模块被配置为执行将目标语音信号输入语音识别模型，通过语音识别模型提取目标语音信号的语音特征信息，对语音特征信息进行语音识别，得到语音信息。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在本申请实施例中，电子设备可以实现为终端，首先对终端的结构进行说明：

图6是根据一示例性实施例示出的一种终端框图。该终端图6示出了本申请一个示例性实施例提供的终端600的结构框图，该终端600可以为用户所使用的终端。该终端600可以是：智能手机、平板电脑、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。

在一些实施例中，终端600还可选包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：射频电路604、显示屏605、摄像头组件606、音频电路607、定位组件608和电源609中的至少一种。

外围设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置终端600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在终端600的不同表面或呈折叠设计；在再一些实施例中，显示屏605可以是柔性显示屏，设置在终端600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

定位组件608用于定位终端600的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测终端600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在终端600的侧边框和/或显示屏605的下层。当压力传感器613设置在终端600的侧边框时，可以检测用户对终端600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在显示屏605的下层时，由处理器601根据用户对显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614采集到的指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商Logo时，指纹传感器614可以与物理按键或厂商Logo集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制显示屏605的显示亮度。具体地，当环境光强度较高时，调高显示屏605的显示亮度；当环境光强度较低时，调低显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616，也称距离传感器，通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时，由处理器601控制显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时，由处理器601控制显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在本申请实施例中，电子设备可以实现为服务器，下面对服务器的结构进行说明：

图7是根据一示例性实施例示出的一种服务器700的框图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central ProcessingUnits，CPU)701和一个或一个以上的存储器702。该存储器702中存储有至少一条指令，该至少一条指令由该处理器701加载并执行以实现上述各个方法实施例提供的语音识别方法。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器702，上述指令可由服务器700的处理器701执行以完成上述语音识别方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，包括一条或多条指令，该一条或多条指令可以由电子设备的处理器执行，以完成上述各个实施例提供的语音识别方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种语音识别方法，其特征在于，包括：

获取原始语音信号；

对所述原始语音信号进行降噪处理，得到第一语音信号；

将所述原始语音信号和所述第一语音信号在时间上对齐后，将所述原始语音信号和所述第一语音信号分割成至少一段原始语音信号片段和至少一段第一语音信号片段；

将所述至少一段原始语音信号和所述至少一段第一语音信号片段进行加权求和，得到目标语音信号；

2.根据权利要求1所述的语音识别方法，其特征在于，所述对所述原始语音信号进行降噪处理，得到第一语音信号包括：

3.根据权利要求1所述的语音识别方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的语音识别方法，其特征在于，所述对所述目标语音信号进行语音识别，得到与所述目标语音信号对应的语音信息包括：

5.一种语音识别装置，其特征在于，包括：

获取模块，被配置为执行获取原始语音信号；

融合模块，包括分割模块和加权求和模块；

所述分割模块，被配置为执行将所述原始语音信号和所述第一语音信号在时间上对齐后，将所述原始语音信号和所述第一语音信号分割成至少一段原始语音信号片段和至少一段第一语音信号片段；

所述加权求和模块，被配置为将所述至少一段原始语音信号和所述至少一段第一语音信号片段进行加权求和，得到目标语音信号；

6.根据权利要求5所述的语音识别装置，其特征在于，所述降噪模块被配置为执行将所述原始语音信号输入降噪模型，通过所述降噪模型对所述原始语音信号进行语音增强，得到所述第一语音信号。

7.根据权利要求5所述的语音识别装置，其特征在于，所述装置还包括：

8.根据权利要求5所述的语音识别装置，其特征在于，所述识别模块被配置为执行将所述目标语音信号输入语音识别模型，通过所述语音识别模型提取所述目标语音信号的语音特征信息，对所述语音特征信息进行语音识别，得到所述语音信息。

9.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1-4任一项所述的语音识别方法。

10.一种存储介质，其特征在于，当所述存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行如权利要求1-4任一项所述的语音识别方法。