CN113724713B

CN113724713B - 一种语音识别方法、装置、设备及存储介质

Info

Publication number: CN113724713B
Application number: CN202111042821.8A
Authority: CN
Inventors: 方昕; 刘俊华
Original assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Current assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2024-07-05
Anticipated expiration: 2041-09-07
Also published as: WO2023035397A1; EP4401074A1; CN113724713A; JP2024530353A; KR20240050447A

Abstract

本申请提供了一种语音识别方法、装置、设备及存储介质，其中，方法包括：获取目标混合语音的语音特征以及指定说话人的说话人特征；以趋于目标语音特征为提取方向，根据目标混合语音的语音特征以及目标说话人的说话人特征，从目标混合语音的语音特征中提取目标说话人的语音特征，以得到目标说话人的提取语音特征，其中，目标语音特征为用于获得与目标说话人的真实语音内容一致的语音识别结果的语音特征；根据指定说话人的提取语音特征，获取指定说话人的语音识别结果。经由本申请提供的语音识别方法可从包含指定说话人语音的混合语音中较为准确的识别出指定说话人的语音内容，用户体验较好。

Description

一种语音识别方法、装置、设备及存储介质

技术领域

本申请涉及语音识别技术领域，尤其涉及一种语音识别方法、装置、设备及存储介质。

背景技术

随着人工智能技术的飞速发展，智能设备在人们的生活中扮演着越来越重要的角色，语音交互作为最方便自然的人机交互方式深受用户喜爱。

在用户使用智能设备时，其可能处在一个存在其他人声的复杂环境中，在这种情况下，智能设备采集的语音为混合语音。在进行语音交互时，为了能够获得较好的用户体验，就需要从混合语音中识别出目标说话人的语音内容，而如何从混合语音中识别出目标说话人的语音内容是目前亟需解决的问题。

发明内容

有鉴于此，本申请提供了一种语音识别方法、装置、设备及存储介质，用以从混合语音中较为准确地识别出目标说话人的语音内容，其技术方案如下：

一种语音识别方法，包括：

获取目标混合语音的语音特征以及目标说话人的说话人特征；

以趋于目标语音特征为提取方向，根据所述目标混合语音的语音特征以及所述目标说话人的说话人特征，从所述目标混合语音的语音特征中提取所述目标说话人的语音特征，以得到所述目标说话人的提取语音特征，其中，所述目标语音特征为用于获得与所述目标说话人的真实语音内容一致的语音识别结果的语音特征；

根据所述目标说话人的提取语音特征，获取所述目标说话人的语音识别结果。

可选的，获取所述目标说话人的说话人特征，包括：

获取所述目标说话人的注册语音；

对所述目标说话人的注册语音提取短时声纹特征和长时声纹特征，以得到多尺度声纹特征，作为所述目标说话人的说话人特征。

可选的，所述以趋于目标语音特征为提取方向，根据所述目标混合语音的语音特征以及所述目标说话人的说话人特征，从所述目标混合语音的语音特征中提取所述目标说话人的语音特征，包括：

利用预先建立的特征提取模型，以所述目标混合语音的语音特征以及所述目标说话人的说话人特征为依据，从所述目标混合语音的语音特征中提取所述目标说话人的语音特征；

其中，所述特征提取模型采用包含指定说话人的语音的训练混合语音的语音特征和所述指定说话人的说话人特征，以基于所述指定说话人的提取语音特征获取的语音识别结果为优化目标训练得到，所述指定说话人的提取语音特征为从所述训练混合语音的语音特征中提取的所述指定说话人的语音特征。

可选的，所述特征提取模型同时以所述指定说话人的提取语音特征和基于所述指定说话人的提取语音特征获取的语音识别结果为优化目标训练得到。

可选的，所述利用预先建立的特征提取模型，以所述目标混合语音的语音特征以及所述目标说话人的说话人特征为依据，从所述目标混合语音的语音特征中提取所述目标说话人的语音特征，包括：

将所述目标混合语音的语音特征以及所述目标说话人的说话人特征输入所述特征提取模型，得到所述目标说话人对应的特征掩码；

根据所述目标混合语音的语音特征和所述目标说话人对应的特征掩码，从所述目标混合语音的语音特征中提取所述目标说话人的语音特征。

可选的，所述根据所述目标说话人的提取语音特征，获取所述目标说话人的语音识别结果，包括：

根据所述目标说话人的提取语音特征以及所述目标说话人的注册语音特征，获取所述目标说话人的语音识别结果；

其中，所述目标说话人的注册语音特征为所述目标说话人的注册语音的语音特征。

将至少包括所述目标说话人的提取语音特征的语音识别输入特征输入预先建立的语音识别模型，得到所述目标说话人的语音识别结果；

所述语音识别模型与所述特征提取模型联合训练得到，所述语音识别模型采用所述指定说话人的提取语音特征，以基于所述指定说话人的提取语音特征获得的语音识别结果为优化目标训练得到。

可选的，将所述语音识别输入特征输入所述语音识别模型，得到所述目标说话人的语音识别结果，包括：

基于所述语音识别模型的编码器模块，对所述语音识别输入特征进行编码，以得到编码结果；

基于所述语音识别模型的注意力模块，从所述编码结果中提取解码时刻解码所需的音频相关特征向量；

基于所述语音识别模型的解码器模块，对从所述编码结果中提取的所述音频相关特征向量进行解码，得到所述解码时刻的识别结果。

可选的，所述语音识别模型与所述特征提取模型联合训练的过程包括：

利用特征提取模型，从所述训练混合语音的语音特征中提取所述指定说话人的语音特征，以得到所述指定说话人的提取语音特征；

利用语音识别模型和所述指定说话人的提取语音特征，获取所述指定说话人的语音识别结果；

根据所述指定说话人的提取语音特征和所述指定说话人的语音识别结果对特征提取模型进行参数更新，并根据所述指定说话人的语音识别结果对语音识别模型进行参数更新。

可选的，所述训练混合语音对应有所述指定说话人的语音；

所述根据所述指定说话人的提取语音特征和所述指定说话人的语音识别结果对特征提取模型进行参数更新，并根据所述指定说话人的语音识别结果对语音识别模型进行参数更新，包括：

获取所述指定说话人的语音的标注文本，并获取所述指定说话人的语音的语音特征作为所述指定说话人的标准语音特征；

根据所述指定说话人的提取语音特征和所述指定说话人的标准语音特征确定第一预测损失，并根据所述指定说话人的语音识别结果和所述指定说话人的语音的标注文本，确定第二预测损失；

根据所述第一预测损失和所述第二预测损失对特征提取模型进行参数更新，并根据所述第二预测损失对语音识别模型进行参数更新。

可选的，所述训练混合语音以及所述训练混合语音对应的所述指定说话人的语音从预先构建的训练数据集中获取；

所述训练数据集的构建过程包括：

获取多个说话人的多条语音，其中，每条语音为单一说话人的语音，每条语音具有标注文本；

将所述多条语音中的部分语音或全部语音中的每条语音作为指定说话人的语音：将其它语音中其他说话人的一条或多条语音与该指定说话人的语音进行混合，以得到一条训练混合语音，将该指定说话人的语音与通过混合得到的训练混合语音作为一条训练数据；

由获得的所有训练数据组成所述训练数据集。

一种语音识别装置，包括：特征获取模块、特征提取模块和语音识别模块；

所述特征获取模块，用于获取目标混合语音的语音特征以及目标说话人的说话人特征；

所述特征提取模块，用于以提取趋于目标语音特征为提取方向，根据所述目标混合语音的语音特征以及所述目标说话人的说话人特征，从所述目标混合语音的语音特征中提取所述目标说话人的语音特征，以得到所述目标说话人的提取语音特征，其中，所述目标语音特征为用于获得与所述目标说话人的真实语音内容一致的语音识别结果的语音特征；

所述语音识别模块，用于根据所述目标说话人的提取语音特征，获取所述目标说话人的语音识别结果。

可选的，所述特征获取模块包括：说话人特征获取模块；

所述说话人特征获取模块，用于获取所述目标说话人的注册语音，对所述目标说话人的注册语音提取短时声纹特征和长时声纹特征，以得到多尺度声纹特征，作为所述目标说话人的说话人特征。

可选的，所述特征提取模块具体用于利用预先建立的特征提取模型，以所述目标混合语音的语音特征以及所述目标说话人的说话人特征为依据，从所述目标混合语音的语音特征中提取所述目标说话人的语音特征；

其中，所述特征提取模型采用包含指定说话人的语音的训练混合语音的语音特征和指定说话人的说话人特征，以基于所述指定说话人的提取语音特征获取的语音识别结果为优化目标训练得到，所述指定说话人的提取语音特征为从所述训练混合语音的语音特征中提取的所述指定说话人的语音特征。

可选的，所述语音识别模块，具体用于根据所述目标说话人的提取语音特征以及所述目标说话人的注册语音特征，获取所述目标说话人的语音识别结果；

可选的，所述语音识别模块，具体用于将至少包括所述目标说话人的提取语音特征的语音识别输入特征输入预先建立的语音识别模型，得到所述目标说话人的语音识别结果；

其中，所述语音识别模型与所述特征提取模型联合训练得到，所述语音识别模型采用所述指定说话人的提取语音特征，以基于所述指定说话人的提取语音特征获得的语音识别结果为优化目标训练得到。

一种语音识别设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现上述任一项所述的语音识别方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述任一项所述的语音识别方法的各个步骤。

经由上述方案可知，本申请提供的语音识别方法、装置、设备及存储介质，能够根据目标混合语音的语音特征以及目标说话人的说话人特征，从目标混合语音的语音特征中提取出目标说话人的语音特征，进而能够根据提取出的目标说话人的语音特征，获得目标说话人的语音识别结果，由于本申请在从目标混合语音的语音特征提取目标说话人的语音特征时，以趋于目标语音特征(用于获得与目标目标说话人的真实语音内容一致的语音识别结果的语音特征)为提取方向，因此，提取出的语音特征为目标语音特征或者趋近于目标语音特征的语音特征，可见，经由上述方式提取出的语音特征为有利于语音识别的特征，基于提取出的语音特征进行语音识别，能够获得较好的语音识别效果，即能够获得较为准确的语音识别结果，用户体验较好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的语音识别方法的流程示意图；

图2为本申请实施例提供的特征提取模型与语音识别模型联合训练的流程示意图；

图3为本申请实施例提供的特征提取模型与语音识别模型联合训练的过程示意图；

图4为本申请实施例提供的语音识别装置的结构示意图；

图5为本申请实施例提供的语音识别设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在外界环境中，人们通常被许多不同的声源围绕着，比如，多个人同时说话的声音、交通噪声、自然噪声等，经过研究者的不懈努力，以上描述的背景噪声的分离问题即通常意义上的语音增强问题已经得到了较好的解决，而相比之下，多个人同时说话的情况下，如何识别目标说话人的语音内容，即如何从混合语音中识别目标说话人的语音内容为难度更大的问题，其更具备研究意义。

为了能够从混合语音中识别出目标说话人的语音内容，申请人进行了研究，起初的思路是：先训练一个特征提取模型，再训练一个语音识别模型；获取目标说话人的注册语音，并对目标说话人的注册语音提取d-vector作为目标说话人的说话人特征；基于预先训练得到的特征提取模型，以目标说话人的说话人特征和目标混合语音的语音特征为依据，从目标混合语音的语音特征中提取出目标说话人的语音特征；通过对提取出的目标说话人的语音特征进行一系列的变换处理来获得目标说话人的语音；将目标说话人的语音输入预先训练得到的语音识别模型进行语音识别，从而获得目标说话人的语音识别结果。

申请人通过对上述思路进行研究发现，上述思路存在诸多缺陷，主要包括如下几个方面：其一，对目标说话人的注册语音提取的d-vector所包含的声纹信息不足，影响后续特征提取的效果；其二，特征提取模型与语音识别模型是单独训练的，二者是完全割裂的，不能有效联合优化，级联两个独立训练得到的模型进行语音识别会存在级联误差，进而影响语音识别效果；其三，在前端的特征提取部分提取的特征不佳时，后端的语音识别部分没有任何补救措施，可能导致语音识别效果较差。

申请人在上述思路以及上述思路所存在的缺陷的基础上，进一步进行研究，最终提出了一种能够完美克服上述缺陷的语音识别方法，该语音识别方法能够从混合语音中较为准确地识别出目标说话人的语音内容，该语音识别方法可应用于具有数据处理能力的终端，终端可按本申请提供的语音识别方法从目标混合语音中识别出目标说话人的语音内容，该终端可以包括处理组件、存储器、输入/输出接口和电源组件，可选的，该终端还可以包括多媒体组件、音频组件、传感器组件和通信组件等。其中：

处理组件用于进行数据处理，其可以进行本案的语音合成处理，处理组件可以包括一个或多个处理器，处理组件还可以包括一个或多个模块，便于与其它组件之间的交互。

存储器被配置为存储各种类型的数据，存储器可以有任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘、光盘等中的一种或多种的组合。

电源组件为终端的各种组件提供电力，电源组件可以包括电源管理系统、一个或多个电源等。

多媒体组件可以包括屏幕，优选的，屏幕可以为触摸显示屏，触摸显示屏可接收来自用户的输入信号。多媒体组件还可以包括前置摄像头和/或后置摄像头。

音频组件被配置为输出和/或输入音频信号，如音频组件可以包括麦克风，麦克风被配置为接收外部音频信号，音频组件还可以包括扬声器，扬声器被配置为输出音频信号，终端合成的语音可通过扬声器输出。

输入/输出接口为处理组件与外围接口模块之间的接口，外围接口模块可以为键盘、按钮等，其中，按钮可包括但不限定于主页按钮、音量按钮、启动按钮、锁定按钮等。

传感器组件可以包括一个或多个传感器，用于为终端提供各个方面的状态评估，例如，传感器组件可以检测终端的打开/关闭状态、用户与终端是否接触、装置的方位、速度、温度等。传感器组件可以包括但不限定于图像传感器、加速度传感器、陀螺仪传感器、压力传感器、温度传感器等中的一种或多种的组合。

通信组件被配置为便于终端和其它设备进行有线或无线通信。终端可接入基于通信标准的无线网络，如WiFi、2G、3G、4G、5G中的一种或多种的组合。

可选的，终端可被一个或多个应用专用集成电路(ASIC)、数字信号处理器(ASP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行本申请提供的同传翻译方法。

本申请提供的语音识别方法还可应用于服务器，服务器可按本申请提供的语音识别方法从目标混合语音中识别出目标说话人的语音内容，在一种场景中，服务器可通过网络与终端连接，终端获取目标混合语音，将目标混合语音通过与服务器连接的网络传输至服务器，服务器按本申请提供的语音识别方法从目标混合语音中识别出目标说话人的语音内容，再通过网络将目标说话人的语音内容传输至终端。服务器可以包括一个或一个以上的中央处理器和存储器，其中，存储器被配置为存储各种类型的数据，存储器可以有任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘、光盘等中的一种或多种的组合。服务器还可以包括一个或一个以上电源、一个或一个以上有线网络接口和/或一个或一个以上无线网络接口、一个或一个以上操作系统。

接下来通过下述实施例对本申请提供的语音识别方法进行介绍。

第一实施例

请参阅图1，示出了本申请实施例提供的语音识别方法的流程示意图，该方法可以包括：

步骤S101：获取目标混合语音的语音特征以及目标说话人的说话人特征。

其中，目标混合语音为多个说话人的语音，其除了包括目标说话人的语音外，还包括其他说话人的语音，本申请意在实现，在存在其他说话人的语音的情况下，较为准确地识别出目标说话人的语音内容。

其中，获取目标混合语音的语音特征的过程包括：获取目标混合语音中每个语音帧的特征向量(比如频谱特征)，以得到特征向量序列，将获得的特征向量序列作为目标混合语音的语音特征。假设目标混合语音包括K个语音帧，第k个语音帧的特征向量表示为x_k，则目标混合语音的语音特征可表示为[x₁,x₂,…,x_k,…,x_K]。

其中，获取目标说话人的说话人特征实现方式有多种，本实施例提供如下两种可选的实现方式：在一种可能的实现方式中，可获取目标说话人的注册语音，对目标说话人的注册语音提取d-vector，提取的d-vector作为目标说话人的说话人特征；考虑到d-vector包含的声纹信息较为单一，不够丰富，为了提升后续特征提取的效果，本实施例提供另一种较为优选的实现方式，即，获取目标说话人的注册语音，对目标说话人的注册语音提取短时声纹特征和长时声纹特征，以得到多尺度声纹特征，将多尺度声纹特征作为目标说话人的说话人特征。

相比于经由上述第一种实现方式获得的说话人特征，经由上述第二种实现方式获得的说话人特征含有更为丰富的声纹信息，这使得后续利用经由上述第二种实现方式获得的说话人特征进行特征提取，能够获得更佳的特征提取效果。

接下来对上述的第二种实现方式中，“对指定说话人的注册语音提取短时声纹特征和长时声纹特征”的具体实现过程进行介绍。

对目标说话人的注册语音提取短时声纹特征和长时声纹特征的过程可以包括：利用预先建立的说话人表征提取模型，从目标说话人的注册语音中提取短时声纹特征和长时声纹特征。具体的，获取目标说话人的注册语音的语音特征序列，将目标说话人的注册语音的语音特征序列输入预先建立的说话人表征提取模型，获得目标说话人的短时声纹特征和长时声纹特征。

可选的，说话人表征提取模型可以采用卷积神经网络，将目标说话人的注册语音的语音特征序列输入卷积神经网络进行特征提取，以获得浅层特征和深层特征，其中，浅层特征因感受野较小更能表征短时声纹，因此，将浅层特征作为短时声纹特征，而深层特征因感受野较大更能表征长时声纹，因此，将深层特征作为长时声纹特征。

本实施例中的说话人表征提取模型采用大量带真实说话人标签的训练语音(此处的训练语音优选为单一说话人的语音)训练得到，其中，训练语音的真实说话人标签代表的是训练语音对应的说话人。可选的，可采用交叉熵(Cross Entropy，CE)准则或者度量学习(Metric Learning，ML)准则训练说话人表征提取模型。

步骤S102：以趋于目标语音特征为提取方向，根据目标混合语音的语音特征以及目标说话人的说话人特征，从目标混合语音的语音特征中提取目标说话人的语音特征，以得到目标说话人的提取语音特征。

其中，目标语音特征为用于获得与目标说话人的真实语音内容一致的语音识别结果的语音特征。

以趋于目标语音特征为提取方向，能够从目标混合语音的语音特征中提取出目标语音特征或者趋近于目标语音特征的语音特征，即，以趋于目标语音特征为提取方向能够从目标混合语音的语音特征中提取出有利于后续语音识别的语音特征，根据有利于语音识别的语音特征进行语音识别，能够获得较好的语音识别效果。

可选的，以趋于目标语音特征为提取方向，根据目标混合语音的语音特征以及目标说话人的说话人特征，从目标混合语音的语音特征中提取目标说话人的语音特征，以得到目标说话人的提取语音特征的过程可以包括：利用预先建立的特征提取模型，以目标混合语音特征和目标说话人特征为依据，从目标混合语音特征中提取指定说话人的语音特征，以得到目标说话人的提取语音特征。

其中，特征提取模型采用包含指定说话人的语音的训练混合语音的语音特征和指定说话人的说话人特征，以基于指定说话人的提取语音特征获取的语音识别结果为优化目标训练得到。需要说明的是，在训练阶段，特征提取模型的输入为上述的训练混合语音的语音特征和指定说话人的说话人特征，输出为从训练混合语音特征中提取的指定说话人的语音特征。

在一种可能的实现方式中，特征提取模型训练时，以基于指定说话人的提取语音特征获取的语音识别结果为优化目标。以基于指定说话人的提取语音特征获取的语音识别结果为优化目标训练特征提取模型，使得基于特征提取模型能够从混合语音特征中提取出有利于语音识别的语音特征。

为了提升特征提取效果，在另一种可能的实现方式中，特征提取模型训练时，以指定说话人的提取语音特征以及基于指定说话人的提取语音特征获取的语音识别结果为优化目标。同时以指定说话人的提取语音特征以及基于指定说话人的提取语音特征获取的语音识别结果为优化目标，使得基于特征提取模型能够从混合语音特征中提取出有利于语音识别且趋近于指定说话人的标准语音特征的语音特征。需要说明的是，目标说话人的标准语音特征指的是根据指定说话人的语音(干净语音)获得的语音特征。

步骤S103：根据目标说话人的提取语音特征，获取目标说话人的语音识别结果。

根据目标说话人的提取语音特征，获取目标说话人的语音识别结果的实现方式有多种：在一种可能的实现方式中，可只根据目标说话人的提取语音特征，获取目标说话人的语音识别结果；为了提升语音识别效果，可根据目标说话人的提取语音特征以及目标说话人的注册语音特征(目标说话人的注册语音特征指的是，目标说话人的注册语音的语音特征)，获取目标说话人的语音识别结果，其中，目标说话人的注册语音特征作为识别辅助信息，用以提升语音识别效果。

具体的，可利用预先建立的语音识别模型，获取目标说话人的语音识别结果，更为具体的，将目标说话人的提取语音特征作为语音识别输入特征，或者将目标说话人的提取语音特征以及目标说话人的注册语音特征作为语音识别输入特征，将语音识别输入特征输入预先建立的语音识别模型，以得到目标说话人的语音识别结果。

需要说明的是，在将目标说话人的提取语音特征以及目标说话人的注册语音特征作为语音识别输入特征输入语音识别模型时，目标说话人的注册语音特征能够在目标说话人的提取语音特征不准确的情况下，辅助语音识别模型进行语音识别，从而提升语音识别效果。

优选的，语音识别模型可与特征提取模型联合训练得到，语音识别模型采用上述的“指定说话人的提取语音特征”为训练样本，以基于指定说话人的提取语音特征获得的语音识别结果为优化目标训练得到。将特征提取模型与语音识别模型联合训练，使得特征提取模型能够朝着利于语音识别的方向去优化。

本申请实施例提供的语音识别方法能够从目标混合语音的语音特征中提取出目标说话人的语音特征，进而能够根据提取出的目标说话人的语音特征，获得目标说话人的语音识别结果，由于本申请实施例在从目标混合语音的语音特征提取目标说话人的语音特征时，以趋于目标语音特征(用于获得与目标目标说话人的真实语音内容一致的语音识别结果的语音特征)为提取方向，因此，提取出的语音特征为目标语音特征或者趋近于目标语音特征的语音特征，基于该语音特征进行语音识别，能够获得较好的语音识别效果，即能够获得较为准确的语音识别结果，用户体验较好。

第二实施例

上述实施例提到，用于从目标混合语音的语音特征中提取目标说话人的语音特征的特征提取模型，以及用于根据特征提取模型提取的特征获取目标说话人的语音识别结果的语音识别模型，可通过联合训练方式训练得到。本实施例重点对特征提取模型与语音识别模型的联合训练过程进行介绍。

下面在图2的基础上结合图3对特征提取模型与语音识别模型的联合训练过程进行介绍，特征提取模型与语音识别模型的联合训练过程可以包括：

步骤S201：从预先构建的训练数据集S中获取训练混合语音s_m。

其中，训练数据集S中包括多条训练数据，每条训练数据均包括指定说话人的语音(干净语音)，以及包含该指定说话人的语音的训练混合语音，其中，指定说话人的语音具有标注文本(标注文本为指定说话人的语音的语音内容)。

训练数据集S的构建过程包括：

步骤a1、获取多个说话人的多条语音。

本步骤获取的多条语音中的每条语音为单一说话人的语音，每条语音具有标注文本，假设一说话人的语音为内容为“今天天气不错”的语音，则该语音的标注文本为“<s>，今，填，天，气，不，错，</s>”，其中，“<s>”为句子开始符，“</s>”为句子结束符。

需要说明的是，多条语音的数量与多条语音对应的说话人的数量可以相同，也可以不同，假设步骤a1获取了P个说话人的Q多条语音，则P与Q的关系可以为P＝Q(比如，获取说话人a的一条语音、说话人b的一条语音、说话人c的一条语音)，也可以为P<Q(比如，获取说话人a的两条语音、说话人b的一条语音、说话人c的三条语音)，也就是说，针对每个说话人，可获取一条语音，也可以获取多条语音。

步骤a2、将多条语音中的部分语音或全部语音中的每条语音作为指定说话人的语音：将其它语音中其他说话人的一条或多条语音与该指定说话人的语音进行混合，以得到一条训练混合语音，将该条训练混合语音与该指定说话人的语音作为一条训练数据。

示例性的，获取的多条语音包括说话人a的一条语音、说话人b的一条语音、说话人c的一条语音和说话人d的一条语音，此处的每条语音都是单一说话人的干净语音，可将说话人a的语音作为指定说话人的语音，将其他说话人(一个或多个说话人)的语音与说话人a的语音混合，以得到一条训练混合语音，比如，将说话人b的语音与说话人a语音混合，或者，将说话人b的语音、说话人c的语音与说话人a的语音混合，将说话人a的语音以及通过将说话人a的语音与其他说话人的语音混合得到的训练混合语音作为一条训练数据，同样的，可将说话人b的语音作为指定说话人的语音,将其他说话人(一个或多个说话人)的语音与说话人b的语音混合，以得到一条训练混合语音，将说话人b的语音以及通过将说话人b的语音与其他说话人的语音混合得到的训练混合语音作为一条训练数据，按该方式可获得多条训练数据。

需要说明的是，在将指定说话人的语音与其他说话人的语音混合时，若其他说话人的语音的长度与指定说话人的语音的长度不同，则需要将其他说话人的语音处理成与指定说话人的语音长度相同。假设指定说话人的语音包括K个语音帧，即指定说话人的语音的长度为K，若其他说话人的语音的长度大于K，则可将其他说话人的语音中的第K+1个语音帧以及后面的语音帧删除，即只保留前K个语音帧，若其他说话人的语音的长度小于K，假设为L，则从前面复制K-L个语音帧进行补充。

步骤a3、由获得的所有训练数据组成训练数据集。

步骤S202：获取训练混合语音s_m的语音特征作为训练混合语音特征X_m，，并获取指定说话人的说话人特征作为训练说话人特征。

如第一实施例所述，可预先建立说话人表征提取模型，利用预先建立的说话人表征提取模型对指定说话人的注册语音提取说话人特征，提取的说话人特征作为训练说话人特征。如图3所示，利用说话人表征提取模型300对指定说话人的注册语音提取短时声纹特征和长时声纹特征，提取的短时声纹特征和长时声纹特征作为指定说话人的说话人特征。

需要说明的是，说话人表征提取模型是在对特征提取模型与语音识别模型进行联合训练之前预先训练好的，在特征提取模型与语音识别模型的联合训练阶段，其参数固定，不随特征提取模型与语音识别模型进行参数更新。

步骤S203：利用特征提取模型，以训练混合语音特征X_m和训练说话人特征为依据，从训练混合语音特征X_m中提取指定说话人的语音特征，作为指定说话人的提取语音特征

具体的，首先将训练混合语音特征X_m和训练说话人特征输入特征提取模型，得到指定说话人对应的特征掩码M，然后根据指定说话人对应的特征掩码M，从训练混合语音特征X_m中提取指定说话人的语音特征，作为指定说话人的提取语音特征

如图3所示，将训练混合语音特征X_m和训练说话人特征输入特征提取模型301，特征提取模型301根据输入的训练混合语音特征X_m和训练说话人特征确定指定说话人对应的特征掩码M并输出。本实施例中的特征提取模型301可以但不限为循环神经网络(RecurrentNeural Network，RNN)、卷积神经网络(Convolution Neural Network，CNN)、深度神经网络(Deep Neural Network，DNN)等。

需要说明的是，训练混合语音特征X_m为训练混合语音中各语音帧的特征向量组成的特征向量序列[x_m1,x_m2,…,x_mk,…,x_mK](K为训练混合语音的语音帧的总数量)，在将训练混合语音特征X_m和训练说话人特征输入特征提取模型301时，可将训练说话人特征与训练混合语音中每一语音帧的特征向量拼接，拼接后输入特征提取模型301。示例性的，训练混合语音中每一语音帧的特征向量为40维，训练说话人特征中的短时声纹特征和长时声纹特征均为40维，则在训练混合语音中每一语音帧的特征向量拼接上短时声纹特征和长时声纹特征后，可得到120维的拼接特征向量。在提取指定说话人的语音特征时，结合短时声纹特征和长时声纹特征，增加了输入信息的丰富程度，这使得特征提取模型更好的提取到指定说话人的语音特征。

在本实施例中，指定说话人对应的特征掩码M能够表征指定说话人的语音特征在训练混合语音特征X_m中的占比。若将训练混合语音特征X_m表示为[x_m1,x_m2,…,x_mk,…,x_mK]，将指定说话人对应的特征掩码M表示为[m₁,m₂,……,m_k,……,m_K]，则m₁表示x_m1中指定说话人的语音特征的占比，m₂表示x_m2中指定说话人的语音特征的占比，以此类推，m_K表示x_mK中指定说话人的语音特征的占比，m₁～m_K均为[0,1]之间的值。在获得指定说话人对应的特征掩码M后，将训练混合语音特征X_m与指定说话人对应的特征掩码M逐帧相乘，便可得到从训练混合语音特征X_m中提取出的指定说话人的语音特征

步骤S204：将指定说话人的提取语音特征输入语音识别模型，获得指定说话人的语音识别结果

优选的，为了提升语音识别模型的识别效果，可获取指定说话人的注册语音特征(指定说话人的注册语音特征指的是，指定说话人的注册语音的语音特征)Xe＝[x_e1,x_e2,……,x_ek,……,x_eK]，除了将指定说话人的提取语音特征输入语音识别模型外，将指定说话人的注册语音特征X_e也输入语音识别模型，用指定说话人的注册语音特征X_e辅助语音识别模型进行语音识别。

可选的，本实施例中的语音识别模型可以包括：编码器模块、注意力模块和解码器模块。其中：

编码器模块，用于对指定说话人的提取语音特征进行编码，以得到的编码结果H^x＝[h₁ ^x,h₂ ^x,……,h_K ^x]，以及对指定说话人的注册语音特征X_e进行编码，以得到X_e的编码结果H^e＝[h₁ ^e,h₂ ^e,……,h_K ^e]。需要说明的是，若只将指定说话人的提取语音特征输入语音识别模型，则编码器模块只需要对指定说话人的提取语音特征进行编码即可。

在编码器模块的输入包括指定说话人的提取语音特征和指定说话人的注册语音特征X_e的情况下：在一种可能的实现方式中，编码器模块中可设置两个编码模块，如图3所示，编码器模块中设置第一编码模块3021和第二编码模块3022，其中，第一编码模块3021用于对指定说话人的提取语音特征进行编码，第二编码模块用于对指定说话人的注册语音特征X_e进行编码；在另一种可能的实现方式中，编码器模块中设置一个编码模块，对指定说话人的提取语音特征的编码操作和对指定说话人的注册语音特征X_e的编码操作均由这一个编码模块执行，即两个编码过程共用一个编码模块。在编码器模块的输入只包括指定说话人的提取语音特征的情况下，编码器模块中只需要设置一个编码模块即可。不管编码器模块中设置一个编码模块还是设置两个编码模块，每个编码模块均可以包括一层或多层编码层，编码层可以采用单向或双向长短时记忆神经网络中的长短时记忆层，或者采用卷积神经网络的卷积层。

注意力模块，用于分别从指定说话人的提取语音特征的编码结果H^x和指定说话人的注册语音特征X_e的编码结果中提取解码时刻解码所需的音频相关特征向量。

解码模块，用于对注意力模块提取出的音频相关特征向量进行解码，以得到解码时刻的识别结果。

如图3所示，注意力模块3023基于注意力机制，在每个解码时刻分别从的编码结果H^x＝[h₁ ^x,h₂ ^x,……,h_K ^x]和X_e的编码结果H^e＝[h₁ ^e,h₂ ^e,……,h_K ^e]中提取当前解码时刻所需的音频相关特征向量。对于第t个解码时刻，提取的音频相关特征向量表征的是第t个解码时刻待解码字符的音频内容。

需要说明的是，注意力机制指的是，使用一个向量作为查询项(query)，对一组特征向量序列进行注意力机制操作，选出与查询项最匹配的特征向量作为输出，具体为，将查询项与特征向量序列中每个特征向量计算一个匹配系数，然后将这些匹配系数与对应的特征向量相乘并求和，得到一个新的特征向量即为与查询项最匹配的特征向量。

对于第t个解码时刻：注意力模块3023将解码器模块3024的状态特征向量d_t作为查询项，计算d_t与H^x＝[h₁ ^x,h₂ ^x,……,h_K ^x]中每个特征向量的匹配系数w₁ ^x、w₂ ^x、……、w_K ^x，然后将匹配系数w₁ ^x、w₂ ^x、……、w_K ^x与H^x＝[h₁ ^x,h₂ ^x,……,h_K ^x]中对应的特征向量相乘后求和，求和得到的特征向量作为音频相关特征向量c_t ^x，同样的，注意力模块3023计算d_t与H^e＝[h₁ ^e,h₂ ^e,……,h_K ^e]中每个特征向量的匹配系数w₁ ^e、w₂ ^e、……、w_K ^e，然后将匹配系数w₁ ^e、w₂ ^e、……、w_K ^e与H^e＝[h₁ ^e,h₂ ^e,……,h_K ^e]中对应的特征向量相乘后求和，求和得到的特征向量作为音频相关特征向量c_t ^e，在获得音频相关特征向量c_t ^x和c_t ^e后，将音频相关特征向量c_t ^x和c_t ^e输入解码器模块3024进行解码，以得到第t个解码时刻的识别结果。

其中，解码器模块3024的状态特征向量d_t根据第t-1个解码时刻的识别结果y_t-1和注意力模块输出的c_t-1 ^x和c_t-1 ^e确定。可选的，解码器模块3024可以包括多个神经网络层，比如，两层单向长短时记忆层，在第t个解码时刻，解码器模块3024的第一层长短时记忆层以第t-1个解码时刻的识别结果y_t-1以及注意力模块3023输出的c_t-1 ^x和c_t-1 ^e作为输入，计算得到解码器的状态特征向量d_t，d_t输入注意力模块3023，用于计算第t个解码时刻的c_t ^x和c_t ^e，然后将c_t ^x和c_t ^e拼接，拼接后向量作为解码器模块3024的第二层长短时记忆层的输入(比如，c_t ^x和c_t ^e均为128维向量，将c_t ^x与c_t ^e拼接，可获得256维的拼接向量，256维的拼接向量输入解码器模块3024的第二层长短时记忆层)，计算得到解码器的输出h_t ^d，最终根据h_t ^d计算输出字符的后验概率，从而根据输出字符的后验概率确定第t个解码时刻的识别结果。

步骤S205：根据指定说话人的提取语音特征和指定说话人的语音识别结果对特征提取模型进行参数更新，并根据指定说话人的语音识别结果对语音识别模型进行参数更新。

具体的，步骤S205的实现过程可以包括：

步骤S2051、获取训练混合语音s_m对应的指定说话人语音s_t(指定说话人的语音)的标注文本T_t，并获取指定说话人语音s_t的语音特征作为指定说话人的标准语音特征X_t。

需要说明的是，此处的指定说话人语音s_t与上述指定说话人的注册语音为指定说话人的不同语音。

步骤S2052、根据指定说话人的提取语音特征和指定说话人的标准语音特征X_t确定第一预测损失Loss1，并根据指定说话人的语音识别结果和指定说话人语音s_t的标注文本T_t，确定第二预测损失Loss2。

可选的，可计算指定说话人的提取语音特征与指定说话人的标准语音特征X_t的最小均方误差，作为第一预测损失Loss1，根据指定说话人的语音识别结果和指定说话人语音s_t的标注文本T_t计算交叉熵损失，作为第二预测损失。

步骤S2053、根据第一预测损失Loss1和第二预测损失Loss2对特征提取模型进行参数更新，并根据第二预测损失Loss2对语音识别模型进行参数更新。

根据第一预测损失Loss1和第二预测损失Loss2对特征提取模型进行参数更新使得基于特征提取模型能够从训练混合语音特征中提取出趋近于指定说话人的标准语音特征且有利于语音识别的语音特征，将该语音特征输入语音识别模型进行语音识别，能够获得较好的语音识别效果。

第三实施例

在上述第三实施例的基础上，本实施例对第一实施例中的“利用预先建立的特征提取模型，以目标混合语音特征和目标说话人特征为依据，从目标混合语音特征中提取指定说话人的语音特征，以得到目标说话人的提取语音特征”的过程进行介绍。

利用预先建立的特征提取模型，以目标混合语音特征和目标说话人特征为依据，从目标混合语音特征中提取指定说话人的语音特征，以得到目标说话人的提取语音特征的过程可以包括：

步骤b1、将目标混合语音的语音特征和目标说话人的说话人特征输入特征提取模型，得到目标说话人对应的特征掩码。

其中，目标说话人对应的特征掩码能够表征目标混合语音的语音特征中目标说话人的语音特征的占比。

步骤b2、根据目标说话人对应的特征掩码，从目标混合语音的语音特征中提取目标说话人的语音特征，以得到目标说话人的提取语音特征。

具体的，将目标混合语音的语音特征与目标说话人对应的特征掩码逐帧相乘，从而得到目标说话人的提取语音特征。

在获得目标说话人的提取语音特征后，将目标说话人的提取语音特征和目标说话人的注册语音特征输入语音识别模型，得到目标说话人的语音识别结果，具体的，将目标说话人的提取语音特征和目标说话人的注册语音特征输入语音识别模型，得到目标说话人的语音识别结果的过程可以包括：

步骤c1、基于语音识别模型的编码器模块，分别对目标说话人的提取语音特征和目标说话人的注册语音特征进行编码，以得到两个编码结果。

步骤c2、基于语音识别模型的注意力模块，分别从两个编码结果中提取解码时刻解码所需的音频相关特征向量。

步骤c3、基于语音识别模型的解码器模块，对分别从两个编码结果中提取的音频相关特征向量进行解码，得到解码时刻的识别结果。

需要说明的是，将目标说话人的提取语音特征输入语音识别模型，得到所述目标说话人的语音识别结果的过程，与训练阶段将指定说话人的提取语音特征和指定说话人的注册语音特征输入语音识别模型，得到指定说话人的语音识别结果的实现过程类似，步骤c1～步骤c3的具体实现过程可参见第二实施例中关于编码器模块、注意力模块和解码器模块的介绍，本实施例在此不做赘述。

经由上述第一实施例至第三实施例可知，本申请提供的语音识别方法具有如下几方面的优势：其一，本申请对目标说话人的注册语音提取多尺度声纹特征输入特征提取模型，增加特征提取模型输入信息的丰富程度，提升了特征提取模型的特征提取效果；其二，特征提取模型与语音识别模型进行联合训练，使得语音识别模型预测损失能够作用于特征提取模型，进而使得特征提取模型能够提取有利于语音识别的语音特征，从而能够提升语音识别结果的准确度；其三，将目标说话人的注册语音的语音特征作为语音识别模型的额外输入，以在特征提取模型提取的语音特征不佳时，能够辅助语音识别模型进行语音识别，从而得到较为准确的语音识别结果。综上，本申请提供的语音识别方法能够在复杂人声干扰的情况下，准确地识别出目标说话人的语音内容。

第四实施例

本申请实施例还提供了一种语音识别装置，下面对本申请实施例提供的语音识别装置进行描述，下文描述的语音识别装置与上文描述的语音识别方法可相互对应参照。

请参阅图4，示出了本申请实施例提供的语音识别装置的结构示意图，可以包括：特征获取模块401、特征提取模块402和语音识别模块403。

特征获取模块401，用于获取目标混合语音的语音特征以及目标说话人的说话人特征。

特征提取模块402，用于以趋于目标语音特征为提取方向，根据所述目标混合语音的语音特征以及所述目标说话人的说话人特征，从所述目标混合语音的语音特征中提取所述目标说话人的语音特征，以得到所述目标说话人的提取语音特征，其中，所述目标语音特征为用于获得与所述目标说话人的真实语音内容一致的语音识别结果的语音特征。

语音识别模块403，用于根据所述目标说话人的提取语音特征，获取所述目标说话人的语音识别结果。

可选的，特征获取模块401包括：语音特征获取模块和说话人特征获取模块。

所述语音特征获取模块，用于获取目标混合语音的语音特征。

所述说话人特征获取模块，用于获取目标说话人的说话人特征。

可选的，所述说话人特征获取模块在获取目标说话人的说话人特征时，具体用于获取所述目标说话人的注册语音，对所述目标说话人的注册语音提取短时声纹特征和长时声纹特征，以得到多尺度声纹特征，作为所述目标说话人的说话人特征。

可选的，特征提取模块402具体用于利用预先建立的特征提取模型，以所述目标混合语音的语音特征以及所述目标说话人的说话人特征为依据，从所述目标混合语音的语音特征中提取所述目标说话人的语音特征。

可选的，特征提取模块402可以包括：特征掩码确定子模块和语音特征提取子模块。

所述特征掩码确定子模块，用于将所述目标混合语音的语音特征以及所述目标说话人的说话人特征输入所述特征提取模型，得到所述目标说话人对应的特征掩码，其中，所述特征掩码能够表征对应说话人的语音特征在所述目标混合语音的语音特征中的占比。

所述语音特征提取子模块，用于根据所述目标混合语音的语音特征和所述目标说话人对应的特征掩码，从所述目标混合语音的语音特征中提取所述目标说话人的语音特征。

可选的，语音识别模块403，具体用于根据所述目标说话人的提取语音特征以及所述目标说话人的注册语音特征，获取所述目标说话人的语音识别结果；其中，所述目标说话人的注册语音特征为所述目标说话人的注册语音的语音特征。

可选的，语音识别模块403，具体用于将至少包括所述目标说话人的提取语音特征的语音识别输入特征输入预先建立的语音识别模型，得到所述目标说话人的语音识别结果。

可选的，语音识别模块403在将至少包括所述目标说话人的提取语音特征的语音识别输入特征输入预先建立的语音识别模型，得到所述目标说话人的语音识别结果时，具体用于：

基于所述语音识别模型的编码器模块，对所述语音识别输入特征进行编码，以得到编码结果；基于所述语音识别模型的注意力模块，从所述编码结果中提取解码时刻解码所需的音频相关特征向量；基于所述语音识别模型的解码器模块，对从所述编码结果中提取的所述音频相关特征向量进行解码，得到所述解码时刻的识别结果。

可选的，本申请实施例提供的语音识别装置还可以包括：模型训练模块。模型训练模块可以包括：提取语音特征获取模块、语音识别结果获取模块、参数更新模块。

所述提取语音特征获取模块，用于利用特征提取模型，从所述训练混合语音的语音特征中提取所述指定说话人的语音特征，以得到所述指定说话人的提取语音特征。

所述语音识别结果获取模块，用于利用语音识别模型和所述指定说话人的提取语音特征，获取所述指定说话人的语音识别结果。

所述模型更新模块，用于根据所述指定说话人的提取语音特征和所述指定说话人的语音识别结果对特征提取模型进行参数更新，并根据所述指定说话人的语音识别结果对语音识别模型进行参数更新。

可选的，模型更新模块可以包括：标注文本获取模块、标准语音特征获取模块、预测损失确定模块和参数更新模块。

所述训练混合语音对应有所述指定说话人的语音。

所述标准语音特征获取模块，用于获取获取所述指定说话人的语音的语音特征作为所述指定说话人的标准语音特征。

所述标注文本获取模块，用于获取所述指定说话人的语音的标注文本。

所述预测损失确定模块，用于根据所述指定说话人的提取语音特征和所述指定说话人的标准语音特征确定第一预测损失，并根据所述指定说话人的语音识别结果和所述指定说话人的语音的标注文本，确定第二预测损失。

所述参数更新模块，用于根据所述第一预测损失和所述第二预测损失对特征提取模型进行参数更新，并根据所述第二预测损失对语音识别模型进行参数更新。

可选的，所述训练混合语音以及所述训练混合语音对应的所述指定说话人的语音从预先构建的训练数据集中获取，本申请实施例提供的语音识别装置还可以包括：训练数据集构建模块。

所述训练数据集构建模块用于：

获取多个说话人的多条语音，其中，每条语音为单一说话人的语音，每条语音具有标注文本；将所述多条语音中的部分语音或全部语音中的每条语音作为指定说话人的语音：将其它语音中其他说话人的一条或多条语音与该指定说话人的语音进行混合，以得到一条训练混合语音，将该指定说话人的语音与通过混合得到的训练混合语音作为一条训练数据；由获得的所有训练数据组成所述训练数据集。

本申请实施例提供的语音识别装置能够从目标混合语音的语音特征中提取出目标说话人的语音特征，进而能够根据提取出的目标说话人的语音特征，获得目标说话人的语音识别结果，由于本申请实施例在从目标混合语音的语音特征提取目标说话人的语音特征时，以趋于目标语音特征(用于获得与目标目标说话人的真实语音内容一致的语音识别结果的语音特征)为提取方向，因此，提取出的语音特征为目标语音特征或者趋近于目标语音特征的语音特征，基于该语音特征进行语音识别，能够获得较好的语音识别效果，即能够获得较为准确的语音识别结果，用户体验较好。

第五实施例

本申请实施例还提供了一种语音识别设备，请参阅图5，示出了该语音识别设备的结构示意图，该语音识别设备可以包括：至少一个处理器501，至少一个通信接口502，至少一个存储器503和至少一个通信总线504；

在本申请实施例中，处理器501、通信接口502、存储器503、通信总线504的数量为至少一个，且处理器501、通信接口502、存储器503通过通信总线504完成相互间的通信；

处理器501可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器503可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

以趋于目标语音特征为提取方向，根据目标混合语音的语音特征以及目标说话人的说话人特征，从目标混合语音的语音特征中提取目标说话人的语音特征，以得到目标说话人的提取语音特征，其中，所述目标语音特征为用于获得与目标说话人的真实语音内容一致的语音识别结果的语音特征；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

第六实施例

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音识别方法，其特征在于，包括：

根据所述目标说话人的提取语音特征，获取所述目标说话人的语音识别结果；

所述根据所述目标说话人的提取语音特征，获取所述目标说话人的语音识别结果，包括：

根据所述目标说话人的提取语音特征以及所述目标说话人的注册语音特征，获取所述目标说话人的语音识别结果；其中，所述目标说话人的注册语音特征为所述目标说话人的注册语音的语音特征；

其中，所述根据所述目标说话人的提取语音特征以及所述目标说话人的注册语音特征，获取所述目标说话人的语音识别结果，包括：

针对所述目标说话人的提取语音特征和所述目标说话人的注册语音特征，基于语音识别模型的编码器模块和注意力模块提取解码时刻解码所需的提取语音特征对应的音频相关特征向量，基于语音识别模型的编码器模块和注意力模块提取解码时刻解码所需的注册语音特征对应的音频相关特征向量；

将所述提取语音特征对应的音频相关特征向量和注册语音特征对应的音频相关特征向量拼接，基于所述语音识别模型对拼接后的音频相关特征向量进行解码，得到所述解码时刻的识别结果。

2.根据权利要求1所述的语音识别方法，其特征在于，获取所述目标说话人的说话人特征，包括：

获取所述目标说话人的注册语音；

3.根据权利要求1所述的语音识别方法，其特征在于，所述以趋于目标语音特征为提取方向，根据所述目标混合语音的语音特征以及所述目标说话人的说话人特征，从所述目标混合语音的语音特征中提取所述目标说话人的语音特征，包括：

4.根据权利要求3所述的语音识别方法，其特征在于，所述特征提取模型同时以所述指定说话人的提取语音特征和基于所述指定说话人的提取语音特征获取的语音识别结果为优化目标训练得到。

5.根据权利要求3或4所述的语音识别方法，其特征在于，所述利用预先建立的特征提取模型，以所述目标混合语音的语音特征以及所述目标说话人的说话人特征为依据，从所述目标混合语音的语音特征中提取所述目标说话人的语音特征，包括：

6.根据权利要求3或4所述的语音识别方法，其特征在于，所述根据所述目标说话人的提取语音特征，获取所述目标说话人的语音识别结果，包括：

7.根据权利要求6所述的语音识别方法，其特征在于，将所述语音识别输入特征输入所述语音识别模型，得到所述目标说话人的语音识别结果，包括：

8.根据权利要求6所述的语音识别方法，其特征在于，所述语音识别模型与所述特征提取模型联合训练的过程包括：

9.根据权利要求8所述的语音识别方法，其特征在于，所述训练混合语音对应有所述指定说话人的语音；

10.根据权利要求9所述的语音识别方法，其特征在于，所述训练混合语音以及所述训练混合语音对应的所述指定说话人的语音从预先构建的训练数据集中获取；

所述训练数据集的构建过程包括：

由获得的所有训练数据组成所述训练数据集。

11.一种语音识别装置，其特征在于，包括：特征获取模块、特征提取模块和语音识别模块；

所述特征提取模块，用于以趋于目标语音特征为提取方向，根据所述目标混合语音的语音特征以及所述目标说话人的说话人特征，从所述目标混合语音的语音特征中提取所述目标说话人的语音特征，以得到所述目标说话人的提取语音特征，其中，所述目标语音特征为用于获得与所述目标说话人的真实语音内容一致的语音识别结果的语音特征；

所述语音识别模块，用于根据所述目标说话人的提取语音特征，获取所述目标说话人的语音识别结果；

其中，所述根据所述目标说话人的提取语音特征以及所述目标说话人的注册语音特征，获取所述目标说话人的语音识别结果包括：

12.根据权利要求11所述的语音识别装置，其特征在于，所述特征获取模块包括：说话人特征获取模块；

13.根据权利要求11所述的语音识别装置，其特征在于，所述特征提取模块具体用于利用预先建立的特征提取模型，以所述目标混合语音的语音特征以及所述目标说话人的说话人特征为依据，从所述目标混合语音的语音特征中提取所述目标说话人的语音特征；

14.根据权利要求11所述的语音识别装置，其特征在于，所述语音识别模块，具体用于根据所述目标说话人的提取语音特征以及所述目标说话人的注册语音特征，获取所述目标说话人的语音识别结果；

15.根据权利要求13所述的语音识别装置，其特征在于，所述语音识别模块，用于将至少包括所述目标说话人的提取语音特征的语音识别输入特征输入预先建立的语音识别模型，得到所述目标说话人的语音识别结果；

16.一种语音识别设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1~10中任一项所述的语音识别方法的各个步骤。

17.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1~10中任一项所述的语音识别方法的各个步骤。