CN112017670A

CN112017670A - 一种目标账户音频的识别方法、装置、设备及介质

Info

Publication number: CN112017670A
Application number: CN202010814133.8A
Authority: CN
Inventors: 李美卓; 赵媛媛; 梁先华
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-08-13
Filing date: 2020-08-13
Publication date: 2020-12-01
Anticipated expiration: 2040-08-13
Also published as: CN112017670B

Abstract

本公开关于一种目标账户音频的识别方法、装置、设备及介质，用以识别目标账户的音频，提高语音内容识别的准确性，同时保护账户隐私。本公开的目标账户音频的识别方法，包括：获取待识别音频；利用预先训练的语音检测模型确定所述待识别音频的声纹特征以及所述待识别音频的评价参数，其中，所述语音检测模型是基于预先采集的非目标账户的语音音频、非人类语音音频、目标账户的语音音频、以及预先配置的加权损失函数训练生成的，所述评价参数用于表征所述待识别音频的声纹特征与预先确定的目标账户音频的声纹特征的相似度；在确定所述待识别音频的评价参数大于或等于第一预设阈值时，确定所述待识别音频为所述目标账户的音频。

Description

一种目标账户音频的识别方法、装置、设备及介质

技术领域

本公开涉及人工智能技术领域，尤其涉及一种目标账户音频的识别方法、装置、设备及介质。

背景技术

目前人工智能(Artificial Intelligence，AI)领域的语音识别技术通常都是基于用户的对话应用，并没有对用户的角色进行区分。

举例来说，在线上多人娱乐互动场景或者直播互动场景中，对于用户语音的识别没有办法区分实际参与者与其它用户(不参与互动的用户)的音色或音调，如此，在需要唤醒和语音识别时，一方面，实际参与者与其它用户均可唤醒，无法保护实际参与者的隐私，另一方面，语音识别时不区分实际参与者与其它用户，会因其它用户语音的干扰，导致识别内容和意图紊乱。

综上，现有的语音识别方案，没有对用户的角色进行区分，不利于用户的隐私保护和语音内容的准确识别。

发明内容

本公开提供一种目标账户音频的识别方法、装置、设备及介质，用以识别目标账户的音频，提高语音内容识别的准确性，同时保护账户隐私。

本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种目标账户音频的识别方法，包括：

获取待识别音频；

利用预先训练的语音检测模型确定待识别音频的声纹特征以及待识别音频的评价参数，其中，语音检测模型是基于预先采集的音频和预先配置的加权损失函数训练生成的，评价参数用于表征待识别音频的声纹特征与预先确定的目标账户音频的声纹特征的相似度；

在确定待识别音频的评价参数大于或等于第一预设阈值时，确定待识别音频为目标账户的音频。

一种可能的实施方式中，本公开提供的目标账户音频的识别方法中，预先训练的语音检测模型采用如下步骤训练生成：

基于所述预先配置的加权损失函数，训练所述语音检测模型中的音频确认模型；

将预先采集的包含标注结果的多个音频样本作为训练数据输入第一神经网络模型，所述多个音频样本包括非目标账户的语音音频、无人类语音音频、目标账户的语音音频，其中，所述非目标账户的语音音频包含至少一个语种的语音音频；

针对每一音频样本，确定所述音频样本的音频特征，将所述音频特征输入所述音频确认模型，确定所述音频样本的声纹特征以及所述音频样本的评价参数；

根据每一音频样本的所述音频特征、所述声纹特征、所述评价参数，在所述多个音频样本中检测目标账户的语音音频，以标注结果为目标账户的语音音频的音频样本为输出，对所述第一神经网络模型的参数进行调整，基于调整参数后的所述第一神经网络模型和所述音频确认模型，得到所述语音检测模型。

一种可能的实施方式中，本公开提供的目标账户音频的识别方法中，所述基于所述预先配置的加权损失函数训练所述语音检测模型中的音频确认模型，包括：

将所述多个音频样本的音频特征作为训练数据输入第二神经网络模型；

针对每一音频样本，根据所述音频样本的音频特征，确定所述音频样本的声纹特征；

确定所述声纹特征对应的目标账户语音音频映射、非目标账户语音音频映射、以及非人类语音音频映射，其中，所述声纹特征对应的目标账户语音音频映射表征所述音频样本为目标账户语音音频的概率，所述声纹特征对应的非目标账户语音音频映射表征所述音频样本为非目标账户语音音频的概率，所述声纹特征对应的非人类语音音频映射表征所述音频样本为非人类语音音频的概率；

基于所述声纹特征对应的目标账户语音音频映射、非目标账户语音音频映射、以及非人类语音音频映射，确定所述第二神经网络模型内加权损失函数中第一损失函数的计算结果和第二损失函数的计算结果；

根据所述第二神经网络模型输出的检测结果、所述音频样本携带的标注结果、所述第一损失函数的计算结果和所述第二损失函数的计算结果，对所述加权损失函数中所述第一损失函数的权重参数和所述第二损失函数的权重参数分别进行调整，得到所述音频确认模型。

一种可能的实施方式中，本公开提供的目标账户音频的识别方法中，第一损失函数的计算结果是根据声纹特征对应的目标账户语音音频映射和声纹特征对应的非目标账户语音音频映射确定的；

第二损失函数的计算结果是根据声纹特征的目标账户语音音频映射和声纹特征对应的非人类语音音频映射确定的。

一种可能的实施方式中，本公开提供的目标账户音频的识别方法中，利用预先训练的语音检测模型确定待识别音频的评价参数，包括：

确定待识别音频的声纹特征与目标账户音频的声纹特征的余弦相似度；

根据预先训练的语音检测模型中加权损失函数的参数，以及余弦相似度，确定待识别音频的评价参数。

一种可能的实施方式中，本公开提供的目标账户音频的识别方法，还包括：

在确定待识别音频的评价参数小于第一预设阈值时，将待识别音频发送至服务器，以使所述服务器确定所述待识别音频是否所述目标账户的音频。

利用预先训练的第一音频识别模确定待识别音频的置信度参数，置信度参数表征待识别音频对应文本中的词语与预设唤醒词的相似度；

在确定音频的置信度参数大于或等于第二预设阈值时，确定待识别音频中包含预设唤醒词；

在确定待识别音频中包含预设唤醒词，且待识别音频为目标账户的音频时，确定待识别音频为目标账户的唤醒音频。

在确定待识别音频的置信度参数小于第二预设阈值时，将待识别音频发送至服务器；或者

在确定待识别音频的置信度参数小于第二预设阈值，且待识别音频的评价参数大于或等于第一预设阈值时，将待识别音频发送至服务器。

在确定待识别音频为目标账户的音频时，利用预先训练的第二音频识别模型确定待识别音频对应文本内容。

根据本公开实施例的第二方面，提供一种目标账户音频的识别方法，包括：

接收终端发送的待识别音频，所述待识别音频为所述终端确定出的评价参数小于第一预设阈值的音频，所述评价参数用于表征所述待识别音频的声纹特征与预先确定的目标账户音频的声纹特征的相似度；

利用预先训练的语音检测模型确定所述待识别音频的声纹特征以及所述待识别音频的评价参数，其中，所述语音检测模型是基于预先采集的音频和预先配置的加权损失函数训练生成的；

在确定所述待识别音频的评价参数大于或等于所述第一预设阈值时，通知所述终端所述待识别音频为所述目标账户的音频。

一种可能的实施方式中，本公开提供的目标账户音频的识别方法，所述预先训练的语音检测模型采用如下步骤训练生成：

将预先采集的包含标注结果的多个音频样本作为训练数据输入第一神经网络模型，所述多个音频样本包括非目标账户的语音音频、非人类语音音频、目标账户的语音音频，其中，所述非目标账户的语音音频包含至少一个语种的语音音频；

一种可能的实施方式中，本公开提供的目标账户音频的识别方法，所述基于所述预先配置的加权损失函数训练所述语音检测模型中的音频确认模型，包括：

一种可能的实施方式中，本公开提供的目标账户音频的识别方法，所述第一损失函数的计算结果是根据所述声纹特征对应的目标账户语音音频映射和所述声纹特征对应的非目标账户语音音频映射确定的；

所述第二损失函数的计算结果是根据所述声纹特征的目标账户语音音频映射和所述声纹特征对应的非人类语音音频映射确定的。

一种可能的实施方式中，本公开提供的目标账户音频的识别方法，利用预先训练的语音检测模型确定所述待识别音频的评价参数，包括：

确定所述待识别音频的声纹特征与所述目标账户音频的声纹特征的余弦相似度；

根据所述预先训练的语音检测模型中加权损失函数的参数，以及所述余弦相似度，确定所述待识别音频的评价参数。

在确定所述待识别音频的评价参数小于所述第一预设阈值时，通知所述终端所述待识别音频不是所述目标账户的音频。

利用预先训练的第一音频识别模确定所述待识别音频的置信度参数，所述置信度参数表征所述待识别音频对应文本中的词语与预设唤醒词的相似度；

在确定所述音频的置信度参数大于或等于第二预设阈值时，确定所述待识别音频中包含所述预设唤醒词；

在确定所述待识别音频中包含所述预设唤醒词，且所述待识别音频为所述目标账户的音频时，通知所述终端所述待识别音频为所述目标账户的唤醒音频。

在确定所述待识别音频的置信度参数小于所述第二预设阈值，通知所述终端所述待识别音频为非唤醒音频；或者

在确定所述待识别音频的置信度参数小于所述第二预设阈值，且所述待识别音频的评价参数大于或等于所述第一预设阈值，通知所述终端所述待识别音频为所述目标账户的音频，且为所述目标账户的非唤醒音频。

在确定所述待识别音频为所述目标账户的音频时，利用预先训练的第二音频识别模型确定所述待识别音频对应文本内容，并通知所述终端所述文本内容。

根据本公开实施例的第三方面，提供一种目标账户音频的识别装置，包括：

获取单元，被配置为执行获取待识别音频；

处理单元，被配置为执行利用预先训练的语音检测模型确定待识别音频的声纹特征以及待识别音频的评价参数，其中，语音检测模型是基于预先采集的音频和预先配置的加权损失函数训练生成的，评价参数用于表征待识别音频的声纹特征与预先确定的目标账户音频的声纹特征的相似度；

确定单元，被配置为执行在确定待识别音频的评价参数大于或等于第一预设阈值时，确定待识别音频为目标账户的音频。

一种可能的实施方式中，本公开提供的目标账户音频的识别装置中，处理单元被配置为采用如下步骤训练生成语音检测模型：

一种可能的实施方式中，本公开提供的目标账户音频的识别装置中，处理单元具体被配置为执行：

一种可能的实施方式中，本公开提供的目标账户音频的识别装置中，第一损失函数的计算结果是根据声纹特征对应的目标账户语音音频映射和声纹特征对应的非目标账户语音音频映射确定的；

一种可能的实施方式中，本公开提供的目标账户音频的识别装置，还包括：

发送单元，被配置为执行在确定待识别音频的评价参数小于第一预设阈值时，将待识别音频发送至服务器，以使所述服务器确定所述待识别音频是否所述目标账户的音频。

一种可能的实施方式中，本公开提供的目标账户音频的识别装置中，确定单元还被配置为执行：

利用预先训练的第一音频识别模型确定待识别音频的置信度参数，置信度参数表征待识别音频对应文本中的词语与预设唤醒词的相似度；

一种可能的实施方式中，本公开提供的目标账户音频的识别装置中，发送单元还被配置为执行：

根据本公开实施例的第四方面，提供一种目标账户音频的识别装置，包括：

接收单元，被配置为执行接收终端发送的待识别音频，所述待识别音频为所述终端确定出的评价参数小于第一预设阈值的音频，所述评价参数用于表征所述待识别音频的声纹特征与预先确定的目标账户音频的声纹特征的相似度；

处理单元，被配置为执行利用预先训练的语音检测模型确定所述待识别音频的声纹特征以及所述待识别音频的评价参数，其中，所述语音检测模型是基于预先采集的音频和预先配置的加权损失函数训练生成的；

发送单元，被配置为执行在确定所述待识别音频的评价参数大于或等于所述第一预设阈值时，通知所述终端所述待识别音频为所述目标账户的音频。

一种可能的实施方式中，本公开提供的目标账户音频的识别装置，发送单元，还被配置为执行在确定所述待识别音频的评价参数小于所述第一预设阈值时，通知所述终端所述待识别音频不是所述目标账户的音频。

所述发送单元还被配置为执行：

根据本公开实施例的第五方面，提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为执行指令以实现第一方面中任一项的目标账户音频的识别方法。

根据本公开实施例的第六方面，提供一种服务器，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为执行指令以实现第二方面中任一项的目标账户音频的识别方法。

根据本公开实施例的第七方面，提供一种存储介质，当存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行第一方面和第二方面中任一项的目标账户音频的识别方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

获取待识别音频，利用预先训练的语音检测模型确定待识别音频的声纹特征以及待识别音频的评价参数，其中，语音检测模型是基于预先采集的音频和预先配置的加权损失函数训练生成的，评价参数用于表征待识别音频的声纹特征与预先确定的目标账户音频的声纹特征的相似度，在确定待识别音频的评价参数大于或等于第一预设阈值时，确定待识别音频为目标账户的音频，语音检测模型是基于预先配置的加权损失函数进行训练生成的，有效确定待识别音频与目标账户音频的相似度，进而识别出目标账户的音频，提高语音内容识别的准确性，同时保护账户隐私。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种目标账户音频的识别方法的示意流程图；

图2是根据一示例性实施例示出的一种目标账户音频的识别方法的示意流程图；

图3是根据一示例性实施例示出的一种语音检测模型的功能结构示意图；

图4是根据一示例性实施例示出的一种第二音频识别模型的功能结构示意图；

图5是根据一示例性实施例示出的一种目标账户音频的识别方法的流程示意图；

图6是根据一示例性实施例示出的另一种目标账户音频的识别方法的示意流程图；

图7是根据一示例性实施例示出的一种目标账户音频的识别装置的结构示意图；

图8是根据一示例性实施例示出的另一种目标账户音频的识别装置的结构示意图；

图9是根据一示例性实施例示出的一种电子设备的结构示意图；

图10是根据一示例性实施例示出的一种应用目标账户音频的识别方法的终端的结构示意图；

图11是根据一示例性实施例示出的一种服务器的结构示意图。

具体实施方式

为了使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开作进一步地详细描述，显然，所描述的实施例仅仅是本公开一部份实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

下面对文中出现的一些词语进行解释：

1、本公开实施例中术语“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

2、本公开实施例中术语“终端”可以表示包括如手机、电脑、平板等电子设备，以及包括如智能音响、智能家居、智能助手等人工智能控制设备。

本公开实施例描述的应用场景是为了更加清楚的说明本公开实施例的技术方案，并不构成对于本公开实施例提供的技术方案的限定，本领域普通技术人员可知，随着新应用场景的出现，本公开实施例提供的技术方案对于类似的技术问题，同样适用。其中，在本公开的描述中，除非另有说明，“多个”的含义是两个或两个以上。

图1根据一示例性实施例示出的一种目标账户音频的识别方法的流程示意图，如图1所示，目标账户音频的识别方法，包括以下步骤：

步骤S101，获取待识别音频。

具体实施时，获取的待确定音频可以是目标账户的语音音频，也可以是非目标账户的语音音频，还可以是非人类语音音频。并且，实施目标账户音频的识别方法的主体可以是目标账户所属用户使用的终端。

需要说明的是，本公开实施例中目标账户的语音音频和非目标账户的语音音频用于区分指定说话人的音频和除指定说话人之外其它说话人的音频。其中，目标账户中可以包含一个指定说话人，也可以包含多个指定说话人。当目标账户中包含多个指定说话人时，目标账户的语音音频和非目标账户的语音音频用于区分多个指定说话人中任意一个指定说话人的音频和除该指定说话人之外其它说话人的音频。

步骤S102，利用预先训练的语音检测模型确定待识别音频的声纹特征以及待识别音频的评价参数，其中，语音检测模型是基于预先采集的音频和预先配置的加权损失函数训练生成的，评价参数用于表征待识别音频的声纹特征与预先确定的目标账户音频的声纹特征的相似度。

在实施过程中，预先训练的语音检测模型采用如下步骤训练生成：

将预先采集的包含标注结果的多个音频样本作为训练数据输入第一神经网络模型，多个音频样本包括非目标账户的语音音频、非人类语音音频、目标账户的语音音频，其中，所述非目标账户的语音音频包含至少一个语种的语音音频；

根据每一音频样本的所述音频特征、所述声纹特征、所述评价参数，在所述多个音频样本中检测目标账户的语音音频，以标注结果为目标账户的语音音频的音频样本为输出，对所述第一神经网络模型的参数进行调整，基于调整参数后的所述第一神经网络模型和所述音频确认模型，得到所述语音检测模型。具体实施时，训练时使用的音频样本(训练数据、训练集)，可以包括非目标账户的语音音频、非人类语音音频以及目标账户的语音音频三种类别，使得神经网络模型输出目标账户的语音音频的音频样本，不需要在确定获取的音频为语音音频之后再确定该语音音频为目标账户的语音音频的过程，节约了计算资源以及缩短识别过程。神经网络模型中可以采用长短期记忆网络LSTM、深度神经网络DNN或卷积神经网络CNN中的任一种神经网络结构。

本实施例中提供的语音检测模型中包括音频确认模型。在训练语音检测模型的过程中，首先，基于所述预先配置的加权损失函数，训练所述语音检测模型中的音频确认模型。其次，对训练数据中的每一个音频，都对该音频提取特征表示X，用于表征音频采样点或者一段时间的音频的音频特征(特征表示)，例如，梅尔倒谱系数MFCC特征、感知线性预测PLP特征或者滤波器组件Fbank特征。然后，将音频的特征表示X输入预先训练好的音频确认模型中，利用音频确认模型确定音频的声纹特征embedding以及音频的评价参数。将音频特征、声纹特征以及评价参数，进行拼接或相加处理输入第一神经网络模型中，以标注结果为目标账户的语音音频的音频样本为输出，对所述第一神经网络模型的参数进行调整，调整参数后的所述第一神经网络模型和音频确认模型构成语音检测模型。

需要说明的是，训练数据中非目标账户的语音音频可以是多个非指定说话人的一个或多个音频。在实际应用场景中，为了提升训练后的语音检测模型的鲁棒性，音频样本中的非目标账户的语音音频可以包括不同语种(语言)的语音音频。目标账户的语音音频可以是在目标账户注册时输入的语音音频，也可称为注册语音。目标账户的语音音频在输入音频确认模型模型后，可得到目标账户语音音频的声纹特征embedding。在实际应用场景中，可以将目标账户的声纹特征配置在语音检测模型中。

上述基于预先配置的加权损失函数训练语音检测模型中的音频确认模型时，可以将多个音频样本的音频特征作为训练数据，然后针对每一音频样本，根据所述音频样本的音频特征，确定所述音频样本的声纹特征；确定声纹特征对应的目标账户语音音频映射、非目标账户语音音频映射、以及非人类语音音频映射，其中，声纹特征对应的目标账户语音音频映射表征音频样本为目标账户语音音频的概率，声纹特征对应的非目标账户语音音频映射表征音频样本为非目标账户语音音频的概率，声纹特征对应的非人类语音音频映射表征音频样本为非人类语音音频的概率；基于声纹特征对应的目标账户语音音频映射、非目标账户语音音频映射、以及非人类语音音频映射，确定第二神经网络模型内加权损失函数中第一损失函数的计算结果和第二损失函数的计算结果；根据第二神经网络模型输出的检测结果、音频样本携带的标注结果、第一损失函数的计算结果和第二损失函数的计算结果，对加权损失函数中第一损失函数的权重参数和第二损失函数的权重参数分别进行调整，得到音频确认模型。

具体实施时，确定音频样本中每一个音频样本的声纹特征embedding，第二神经网络模型输出该音频的检测结果(检测类别)，以及该音频的标注结果(真实类别)，对配置在第二神经网络模型中的加权损失函数的参数进行调整，也可以对第二神经网络模型中其它参数进行调整。

在调整加权损失函数的参数过程中，声纹特征embedding在第二神经网络模型中经过softmax层映射，可以得到音频样本分别为三个目标账户语音音频、非目标账户语音音频、以及非人类语音音频映射的概率。根据某一类别的概率z可以确定音频特征的该类别映射exp(z)。

例如，根据音频样本为目标账户的语音音频的概率z₁，确定声纹特征对应的目标账户语音音频映射为exp(z₁)。再例如，根据音频样本为非目标账户语音音频的概率z₂，确定声纹特征的非目标账户的语音音频映射为exp(z₂)。又如，根据音频样本为非人类语音音频的概率z₃，确定声纹特征的非人类语音音频映射为exp(z₃)。

基于声纹特征对应的目标账户语音音频映射exp(z₁)、非目标账户语音音频映射exp(z₂)、以及非人类语音音频映射exp(z₃)，可以确定第二神经网络模型内加权损失函数中第一损失函数的计算结果和第二损失函数的计算结果。

一种可能的实施方式中，第一损失函数的计算结果是根据声纹特征对应的目标账户语音音频映射和声纹特征对应的非目标账户语音音频映射确定的。

第二神经网络模型中的加权损失函数可以包括多个损失函数以及对应权重参数，例如，第一损失函数和第二损失函数。其中，第一损失函数可包括音频样本的声纹特征对应的目标账户语音音频映射和非目标账户的语音音频映射，第二损失函数可包括音频样本的声纹特征对应的目标账户的语音音频映射和非人类语音音频映射。换句话说，加权损失函数可包括该声纹特征对应的目标账户的语音音频映射、非目标账户的语音音频映射、和非人类语音音频映射。

第一损失函数包括该声纹特征对应的目标账户的语音音频映射exp(z₁)和非目标账户的语音音频映射exp(z₂)。在实际应用场景中，可以具体指第一损失函数由声纹特征的目标账户的语音音频映射exp(z₁)和声纹特征的非目标账户的语音音频映射exp(z₂)构成的某种运算关系表示。例如，

与第一损失函数类似，第二损失函数可包括音频样本的声纹特征对应的目标账户的语音音频映射exp(z₁)和非人类语音音频映射exp(z₃)。在实际应用场景中，具体指第二损失函数由该声纹特征对应的目标账户的语音音频映射exp(z₁)和非人类语音音频映射exp(z₃)构成的某种运算关系表示。例如，

加权损失函数可以表示为L＝w₁*L₁+w₂*L₂。在训练的过程中，根据音频的检测结果和所携带的标注结果，以及第一损失函数的计算结果和第二损失函数的计算结果，对加权损失函数中第一损失函数w₁的权重参数和第二损失函数的权重参数w₂分别进行调整。

一种可能的实施方式中，加权损失函数中还包括第三损失函数，并且第三损失函数包括该声纹特征对应的非目标账户的语音音频映射exp(z₂)和非人类语音音频映射exp(z₃)，可由该声纹特征对应的非目标账户的语音音频映射exp(z₂)和非人类语音音频映射exp(z₃)构成的某种运算关系表示，例如，

加权损失函数可表示为L＝w₁*L₁+w₂*L₂+w₃*L₃。在实际应用场景中，第三损失函数的权值参数比第一损失函数的权值参数以及第二损失函数的权值参数小。

在训练音频确认模型过程中采用预先配置的加权损失函数，目的在于重点优化目标账户的语音音频与其它两个类别(非目标账户的语音音频和非人类语音音频)之间的混淆度。着重区分目标账户的语音音频类别与非目标账户的语音音频类别之间的混淆度以及目标账户的语音音频类别与非人类语音音频类别之间的混淆度，以使本申请提供的语音检测模型检测为目标账户的语音音频类别的准确率提升。

在音频确认模型训练过程中，以输出目标账户的语音音频标注结果为目标(检测结果与标注结果均为目标账户的语音音频)，根据训练音频样本的声纹特征对应的目标账户的语音音频映射exp(z₁)、非目标账户的语音音频映射exp(z₂)、非人类语音音频映射exp(z₃)，确定加权损失函数中的第一损失函数L₁的计算结果和第二损失函数L₂的计算结果。并根据该音频的检测结果、该音频的标注结果，分别调整第一损失函数L₁的权重参数w₁和第二损失函数L₂的权重参数w₂。在加权损失函数L计算结果满足要求确定训练结束。

一种可能的实施方式中，利用预先训练的语音检测模型确定待识别音频的评价参数，包括：

具体实施时，调整音频确认模型配置的加权损失函数中的权重参数，用于确定音频的声纹特征的评价参数S，其中，评价参数表征音频的声纹特征与目标账户音频的声纹特征的相似度。本申请提供的语音检测模型可以计算音频的声纹特征与目标账户音频的声纹特征的余弦相似度cos(e,c)，其中e为待确定音频的声纹特征embedding，c为目标账户音频的声纹特征embedding，然后结合加群损失函数的参数和计算出的余弦相似度确定待识别音频的评价参数S，例如，S＝w*cos(e,c)+b，其中，w和b为对语音检测模型训练的过程中参与调整的加权损失函数中的参数。

本公开实施例中采用余弦相似度表示不同音频的声纹特征的相似度。余弦相似度值越大，反映出音频与目标账户音频相似度越大，可以将参数w设置为大于零的数值。以输出目标账户的语音音频标注结果为目标进行神经网络模型的参数调整，调整加权损失函数的权重参数，最大化非线性S以及最小化1-S。通过训练后的神经网络模型，也即语音检测模型，能够确有效定音频类别，并在确定过程中使输入目标账户的语音音频与目标账户的注册音频相似性更高、其它语音音频与目标账户的注册音频相似性更低。

需要说明的是，对语音检测模型训练结束后，用于服务实际应用场景时，计算音频的声纹特征与目标账户音频的声纹特征的相似性矩阵S＝w*cos(e,c)+b中的参数w和b是固定值，并且在训练过程中，参数w和b是可学习。

在实际应用场景中，目标账户包含一个指定说话人时，目标账户的语音音频的声纹特征embedding为c，目标账户包含多个指定说话人时，目标账户的语音音频的声纹特征embedding可为c_i，其中i用于为指定说话人标识。例如，c₁为指定说话人1的声纹特征embedding，c₂为指定说话人2的声纹特征embedding。

步骤S103，在确定待识别音频的评价参数大于或等于第一预设阈值时，确定待识别音频为目标账户的音频。

具体实施时，可以根据实际应用场景确定第一预设阈值，音频的评价参数大于或等于第一预设阈值时，确定待识别的音频为目标账户的音频，也即音频对应的说话人为目标账户的指定说话人。

若目标账户包含多个指定说话人时，待识别音频的声纹特征与目标账户的语音音频的声纹特征c_n的评价参数大于第一预设阈值时，确定该音频为目标账户的音频，且为目标账户的语音音频的特征c_n对应指定说话人的音频。

例如，某一账户包含一个指定说话人(小明)，接收待确定音频可能属于该账户指定说话人，也可能属于其它人(例如，父亲、母亲、爷爷、叔叔等)。当某个人对智能设备发出语音控制指令时，智能设备可以通过本公开实施例中的方法，确定该语音控制指令是否属于该账户指定说话人小明，以使只有小明可以控制该智能设备，保护小明对该智能设备的使用权限，提升隐私性。

再例如，某一账户包含多个家庭成员(父亲、母亲、小明)，也即该账户有三个指定说话人分别是父亲、母亲、小明。接收待确定音频可能属于该账户指定说话人，也可能属于其它人(例如，爷爷、叔叔)。当对智能设备发出语音控制指令时，智能设备可以通过本公开实施例中的方法，确定该语音控制指令是否属于该账户指定说话人(父亲、母亲或者小明)发出的语音控制指令，保护家庭成员对该智能设备的使用权限，以及保护指定说话人(该账户中任一指定说话人)对该智能设备的使用权限，提升该指定说话人的隐私性。例如，父亲可以对智能设备发出语音控制指令，控制父亲的移动终端拨打电话；小明可以对智能设备发出语音控制指令，控制暂停小明的移动终端播放音乐。

又例如，在直播场景中，尤其是多人群聊、连麦、PK等模型中，某一账户包含一个指定说话人(主播A)，接收待确定音频可能属于PK主播，当某个人对智能设备发出语音控制指令时，智能设备可以通过本公开实施例中的方法，确定该语音控制指令是否属于该账户指定说话人主播A，也即开启主播A的语音控制保护，只有所有者主播A可以进行对话和使用。

一种可能的实施方式中，在确定待识别音频的评价参数小于第一预设阈值时，将待识别音频发送至服务器。

具体实施时，本公开上述实施例中目标账户音频的识别方法在终端实施时，确定音频的声纹特征的评价参数小于第一预设阈值时，反映出终端无法确定待识别音频是否为目标账户的音频。

在实际应用场景中，为保证终端对语音控制指令的响应率，可以将终端无法确定为目标账户音频的待识别音频，发送给服务器，服务器可以通过本公开上述实施例中的目标账户音频的识别方法确定接收的音频是否为目标账户的音频。

在实际应用场景中，还可以为实施本公开实施例中目标账户音频的识别方法的终端，配置唤醒词，使用者可以通过带有唤醒词的语音，唤醒终端，便于终端及时响应使用者的语音控制指令，减少因等待带来的损耗。

一种可能的实施方式中，利用预先训练的音频识别模确定待识别音频的置信度参数，置信度参数表征待识别音频对应文本中的词语与预设唤醒词的相似度；

在确定音频的置信度参数大于等于第二预设阈值时，确定待识别音频中包含预设唤醒词；

具体实施时，可以在接收待确定音频之后确定该音频是否为唤醒音频。也可以在确定该音频为目标账户的音频之后确定该音频是否为唤醒音频。利用预先训练的第一音频识别模型，确定待识别音频的置信度参数(音频对应文本中的词与预设唤醒词的相似度)。待识别音频的置信度参数大于或等于第二预设阈值时，反映待识别音频对应文本中包含预设唤醒词，确定该音频为唤醒音频。

在实际应用场景中，在终端上可以采用基于滑动窗的端到端第一音频识别模型(唤醒模型)，确定音频是否为唤醒音频。以在唤醒词上产生较高的似然得分为目标，训练第一音频识别模型。训练过程可以分为两个阶段，训练声学编码器，将声学编码器的输出作为解码器的输入，判断当前时刻预测得到的词是否为唤醒词。其中编码器和解码器可以采用CNN、DNN、LSTM或者自注意力self-attention等可以满足端上实时性要求的网络结构。

需要说明的是，目标账户中一个或多个指定说话人对应的目标词语(唤醒词)可以相同，也可以不同。在实际应用场景中，实施本公开上述实施例中目标账户音频的识别方法的终端，可以先响应唤醒音频，后确定待确定音频是否为目标账户的音频，也可以先不响应唤醒音频，在确定为目标账户的音频，且为唤醒音频后进行相应，还可以设置其它响应方式，本公开实施例对此不作具体限定。

一种可能的实施方式中，在确定待识别音频的置信度参数小于第二预设阈值时，将待识别音频发送至服务器；或者

具体实施时，本公开上述实施例中目标账户音频的识别方法在终端实施时，确定待识别音频的置信度参数小于第二预设阈值时，反映出终端无法确定该音频是否为唤醒音频。在实际应用场景中，为保证终端对语音控制指令的响应率，可以将终端无法确定为唤醒音频，发送给服务器，由服务器确定接收的音频是否为唤醒音频。

为了避免传输资源的消耗，提高响应速度，可以在保证一定召回率的情况下，尽可能提高识别目标账户语音控制指令的准确度。可以将终端无法确定为唤醒音频，并且被确定为目标账户的音频，发送给服务器。由服务器确定接收的音频是否为目标账户的唤醒音频。

在确定音频为目标账户的音频，为识别音频中具体控制命令(指令)，还需将音频转换成文字，通过确定音频的语义，确定使用者具体发出的控制命令。

一种可能的实施方式中，在确定待识别音频为目标账户的音频时，利用预先训练的第二音频识别模型确定待识别音频对应文本内容。

具体实施时，在有唤醒词的应用场景，以及无唤醒词的应用场景中，均可以通过语义识别的方式确定接收的目标账户的音频对应的文本，例如，利用预先训练的第二音频识别模型确定音频对应文本。为其它功能模块提供文本，例如，控制指令确定模块、搜索模块等。

其中，第二音频识别模型可以采用如下过程进行训练：

特征提取模块从语音信号中得到语音特征序列。可以采用40维的梅尔倒谱系数MFCC特征。经过全局倒谱均值方差归一化CMVN、拼帧、降低采样率等操作，获得序列的向量表示。降低采样率的操作可以把拼帧后的特征进行下采样。例如，每6帧取一帧，此时帧率为16.7Hz。

将低帧率的特征序列输入到基于self-attention的编码器中进行编码，得到语音特征序列的隐层表示。

确定标注的文本序列的embedding表示，并计算每个embedding表示和声学序列之间的注意力，与上一时刻的输出，一通输入到self-attention的解码器中进行特征抽取，并给出当前时刻的预测输出。

当前训练准确率达到准确率阈值后，在当前时刻的输出和标注的真实序列中以预设百分比进行采样得到上一时刻的输出，反馈到网络作为下一时刻的输入。这种在网络的输出和真实标注之间进行采样的方法，能有效缓解训练和测试不匹配导致的错误累积问题。

使用交叉熵作为目标函数训练到收敛之后，再使用MWER准则作为目标函数fine-tune网络。该准则的好处是，能够直接优化语音识别系统的评价准则CER。还可以采用建模单元为音节，相比于汉字作为输出单元，建模单元为音节的好处是个数固定，建模粒度和汉字一样，且不会存在OOV，当外加语言模型时，性能的收益远大于汉字。通过上述过程训练得到的音频识别模型，能够有效提高模型的计算效率，以及提升性能。

图2根据一示例性实施例示出的一种目标账户音频的识别方法的流程示意图，如图2所示，目标账户音频的识别方法，包括以下步骤：

步骤S201，获取待识别音频。

具体实施时，可以通过音频采集单元获取音频，音频的形式是数字声信号。将获取音频输入预先训练的语音检测模型时，可以将音频的每一帧输入语音检测模型。

图3示出了一种语音检测模型的功能结构示意图，训练语音检测模型30的过程为，向语音检测模型30中输入音频301，输入音频样本中的目标账户的语音音频、非目标账户的语音音频、非人类语音音频，进行学习。对输入音频301进行提取特征X，经过特征提取变成一个特征序列X，X＝(x1,x2,x3,…,xn)，其中xi是这条音频中的一帧，例如，MFCC特征、PLP特征或Fbank特征等。将每一帧输入至语音检测模型30中的神经网络中，可以得到声纹特征表示embedding 303，此神经网路训练过程中使用本公开实施例中的加权损失函数。根据提取特征X 302和特征表示embedding 303，语音检测模型30中的神经网络可以确定以目标账户音频特征作为标准输入音频301的相似性评价参数304,。将特征X、声纹特征表示embedding、以及相似性评价参数进行拼接305或者相加，可以对音频是否为目标账户音频进行判定306。

步骤S202，提取音频特征。

具体实施时，预先训练的语音检测模型可以从获取的音频中提取音频特征X。

步骤S203，确定音频声纹特征表示。

具体实施时，根据提取的音频特征X，确定音频声纹特征表示embedding。声纹特征表示embedding是一个向量，具体是训练后网络通过学习确定的说话人信息，也即声纹特征便是embedding可以用于表示某个说话人。

步骤S204，确定音频声纹特征的评价参数。

具体实施时，将目标账户音频的声纹特征和输入音频的声纹特征表示embedding送入一个逻辑回归中，对这两个向量进行一定的逻辑运算，例如S＝w*cos(e,c)+b，并且在语音检测模型训练过程中可表示为S＝w*cos(e_ji,c_k)+b。

语音检测模型训练过程中输入N*M条音频，N表示说话人个数，M表示每个说话人的音频条数，e_ji为第j个说话人的第i条音频的音频声纹特征表示embedding，k可以表示第k个目标账户音频声纹特征表示，也可以表示目标账户的第k个指定说话人的音频声纹特征表示。使同一个说话人音频之间的相似度更高，不同说话人音频之间的相似度更低，可使最大非线性S以及最小化1-S，调整语音检测模型中加权损失函数中的权重参数。

步骤S205，判断音频声纹特征的评价参数是否大于等于第一预设阈值，若是，下一步执行步骤S206，若否，下一步执行步骤S207。

具体实施时，音频的声纹特征评价参数大于等于第一预设阈值时，确定该音频为目标账户的语音音频，下一步执行步骤S206，评价参数小于第一预设阈值时，也是语音检测模型无法确定该音频为目标账户的语音音频，可将音频发送给服务器，执行步骤S207。

步骤S206，确定音频为目标账户的音频。

具体实施时，音频声纹特征的评价参数大于等于预设阈值时，可确定输入的音频为语音音频，且为目标账户的语音音频，目标账户中包含多个指定说话人时，可以确定音频属于具体指定说话人的语音音频。

步骤S207，发送音频至服务器。

具体实施时，为保证响应率和召回率，可以将终端上语音检测模型无法确定属于目标账户的音频发送给服务器。由服务器对无法确定为目标账户的语音音频的音频进行二次确定，以提高识别准确率。

在实际应用场景中，使用者发出语音控制命令中可以带有唤醒词，例如，“宝贝宝贝，今天天气如何”、“小宝，播放音乐”。可以在步骤S201和步骤S202之间，增加确定音频是否有唤醒词的步骤S208。

步骤S208，判断音频是否为唤醒音频，若是，下一步执行步骤S202，否则，下一步执行步骤S207。

具体实施时，包含唤醒词的音频为唤醒音频。可以利用预先训练的唤醒模型确定音频中是否包含唤醒词，通过音频中与唤醒词的似然得分，确定音频中包含唤醒词。例如，基于滑动窗的端到端唤醒模型，包含预先训练声学编码器和解码器，其中编码器和解码器可以采用CNN、DNN、LSTM或者self-attention结构。确定音频为唤醒音频，下一步执行步骤S202，开始对音频是否属于目标账户的判定过程，否则，下一步执行步骤S207，将音频发送给服务器，由服务器进行第二阶段确定，确定音频为唤醒音频和/或目标账户的语音音频。

需要说明得是，服务器侧进行唤醒音频和/或目标账户的语音目标账户音频的识别过程，可以使用现有技术基于解码器注意力机制的端到端框架LAS模型。该模型把传统模型的词典模型、声学模型、语言模型、解码模型都融合在一个神经网络模型中，同时学习声学和语言两方面的信息，属于目前为止较有潜力的端到端框架。在英文的语音识别任务上，编解码器均基于循环神经网络的LAS模型已经获得了超过LF-MMI和CTC的性能。

步骤S209，确定音频对应文本。

具体实施时，在识别音频具体控制指令的场景中，确定音频属于目标账户的语音音频之后，可以通过第二音频识别模型，确定音频对应文本，便于确定目标账户中指定说话人具体的意图或者控制意图。

图4示出了第二音频识别模型的功能结构示意图，训练第二音频识别模型40的过程为，向模型输入语音波形401(语音信号)，对语音信号进行提取特征402，得到语音特征序列，例如40维MFCC特征。然后对语音特征系列进行特征处理403，如全局倒谱均值方差归一化、拼帧、降低采样率等操作，获得序列的向量表示。其中，降低采样率的操作是把拼帧后的特征进行下采样，如，每6帧取1帧，帧率为16.7Hz。将低帧率的特征序列输入到基于自注意力编码器中进行编码，得到语音特征序列的隐层表示。向模型输入标注的文本序列405经过embedding变化，确定特征表示embedding406，并计算每个embedding表示和声学序列之间的注意力ai，和上一时刻的输出一起输入到基于自注意力解码器407中进行特征抽取，并给出当前时刻的预测输出文本408。在训练准确率达到一定值后，在当前时刻的输出和标注的真实序列中以一定的概率进行采样得到上一时刻的输出返回到模型作为下一时刻的输入。这种在网络的输出和真实标注之间进行采样的方法，能有效缓解训练和测试不匹配导致的错误积累问题。

利用上述实施例中提供的语音检测模型不仅可以确定音频是否为语音音频，还可以确认语音音频是否为指定说话人的语音音频，避免向服务器侧上传大量的无效语音，减少传输和计算资源的消耗，也提升唤醒和语音识别的效率。

在实际应用场景中，应对终端侧无法识别出待识别音频为目标账户音频的情况，可以由服务器侧对终端侧上传的待识别音频进行二次识别。通过服务器侧对待识别音频的二次识别，能够提升终端侧的响应速度。图5根据一示例性实施例示出的一种目标账户音频的识别方法的流程示意图，如图5所示，目标账户音频的识别方法，包括以下步骤：

步骤S501，接收终端发送的待识别音频，所述待识别音频为所述终端确定出的评价参数小于第一预设阈值的音频，所述评价参数用于表征所述待识别音频的声纹特征与预先确定的目标账户音频的声纹特征的相似度。

具体实施时，服务器侧可以接收任一终端发送的待识别音频，其中服务器侧接收的待识别音频为终端侧确定出的评价参数小于第一预设阈值的音频，本申请实施例中的所述评价参数用于表征所述待识别音频的声纹特征与预先确定的目标账户音频的声纹特征的相似度。换句话说，服务器侧接收到的待识别音频为终端侧未确认为目标账户音频的音频。

步骤S502，利用预先训练的语音检测模型确定所述待识别音频的声纹特征以及所述待识别音频的评价参数，其中，所述语音检测模型是基于预先采集的音频和预先配置的加权损失函数训练生成的。

具体实施时，目标账户的语音音频可以是在目标账户注册时输入的语音音频，也可称为注册语音。目标账户的语音音频和非目标账户的语音音频用于区分指定说话人的音频和除指定说话人之外其它说话人的音频。服务器侧的语音检测模型的训练过程和上述终端侧的语音检测模型的训练过程相同，训练过程中使用的训练数据集的大小，可以比终端侧训练语音检测模型过程中使用的训练数据更大，使得服务器侧的语音检测模型对目标账户音频识别准确率及效率更高。所述预先训练的语音检测模型采用如下步骤训练生成：

基于所述预先配置的加权损失函数，训练所述语音检测模型中的音频确认模型，将预先采集的包含标注结果的多个音频样本作为训练数据输入第一神经网络模型。所述多个音频样本包括非目标账户的语音音频、非人类语音音频、目标账户的语音音频，其中，所述非目标账户的语音音频包含至少一个语种的语音音频。针对每一音频样本，确定所述音频样本的音频特征，将所述音频特征输入所述音频确认模型，确定所述音频样本的声纹特征以及所述音频样本的评价参数。根据每一音频样本的所述音频特征、所述声纹特征、所述评价参数，在所述多个音频样本中检测目标账户的语音音频，以标注结果为目标账户的语音音频的音频样本为输出，对所述第一神经网络模型的参数进行调整，基于调整参数后的所述第一神经网络模型和所述音频确认模型，得到所述语音检测模型。

具体实施时，首先，基于所述预先配置的加权损失函数，训练所述语音检测模型中的音频确认模型。其次，对训练数据中的每一个音频，都对该音频提取特征表示X，用于表征音频采样点或者一段时间的音频的音频特征(特征表示)，例如，梅尔倒谱系数MFCC特征、感知线性预测PLP特征或者滤波器组件Fbank特征。然后，将音频的特征表示X输入预先训练好的音频确认模型中，利用音频确认模型确定音频的声纹特征embedding以及音频的评价参数。将音频特征、声纹特征以及评价参数，进行拼接或相加处理输入第一神经网络模型中，以标注结果为目标账户的语音音频的音频样本为输出，对所述第一神经网络模型的参数进行调整，调整参数后的所述第一神经网络模型和音频确认模型构成语音检测模型。

服务器侧的语音检测模型中的音频确认模型，可以通过如下方式训练生成：

将所述多个音频样本的音频特征作为训练数据输入第二神经网络模型。针对每一音频样本，根据所述音频样本的音频特征，确定所述音频样本的声纹特征。确定所述声纹特征对应的目标账户语音音频映射、非目标账户语音音频映射、以及非人类语音音频映射，其中，所述声纹特征对应的目标账户语音音频映射表征所述音频样本为目标账户语音音频的概率，所述声纹特征对应的非目标账户语音音频映射表征所述音频样本为非目标账户语音音频的概率，所述声纹特征对应的非人类语音音频映射表征所述音频样本为非人类语音音频的概率。基于所述声纹特征对应的目标账户语音音频映射、非目标账户语音音频映射、以及非人类语音音频映射，确定所述第二神经网络模型内加权损失函数中第一损失函数的计算结果和第二损失函数的计算结果。根据所述第二神经网络模型输出的检测结果、所述音频样本携带的标注结果、所述第一损失函数的计算结果和所述第二损失函数的计算结果，对所述加权损失函数中所述第一损失函数的权重参数和所述第二损失函数的权重参数分别进行调整，得到所述音频确认模型。

具体实施时，确定音频样本中每一个音频样本的声纹特征embedding，第二神经网络模型输出该音频的检测结果(检测类别)，以及该音频的标注结果(真实类别)，对配置在第二神经网络模型中的加权损失函数的参数进行调整，也可以对第二神经网络模型中其它参数进行调整。在调整加权损失函数的参数过程中，声纹特征embedding在第二神经网络模型中经过softmax层映射，可以得到音频样本分别为三个目标账户语音音频、非目标账户语音音频、以及非人类语音音频映射的概率。根据某一类别的概率z可以确定音频特征的该类别映射exp(z)。

基于声纹特征对应的目标账户语音音频映射exp(z₁)、非目标账户语音音频映射exp(z₂)、以及非人类语音音频映射exp(z₃)，可以确定第二神经网络模型内加权损失函数中第一损失函数的计算结果和第二损失函数的计算结果。其中，所述第一损失函数的计算结果是根据所述声纹特征对应的目标账户语音音频映射和所述声纹特征对应的非目标账户语音音频映射确定的。所述第二损失函数的计算结果是根据所述声纹特征的目标账户语音音频映射和所述声纹特征对应的非人类语音音频映射确定的。

加权损失函数可以表示为L＝w₁*L₁+w₂*L₂。在训练的过程中，根据音频的检测结果和所携带的标注结果，以及第一损失函数的计算结果和第二损失函数的计算结果，对加权损失函数中第一损失函数w₁的权重参数和第二损失函数的权重参数w₂分别进行调整，在加权损失函数L计算结果满足要求确定训练结束。

服务器侧利用预先训练的语音检测模型确定所述待识别音频的评价参数时，首先，确定所述待识别音频的声纹特征与所述目标账户音频的声纹特征的余弦相似度。然后，根据所述预先训练的语音检测模型中加权损失函数的参数，以及所述余弦相似度，确定所述待识别音频的评价参数。

调整音频确认模型配置的加权损失函数中的权重参数，用于确定音频的声纹特征的评价参数S，其中，评价参数表征音频的声纹特征与目标账户音频的声纹特征的相似度。本申请提供的语音检测模型可以计算音频的声纹特征与目标账户音频的声纹特征的余弦相似度cos(e,c)，其中e为待确定音频的声纹特征embedding，c为目标账户音频的声纹特征embedding，然后结合加群损失函数的参数和计算出的余弦相似度确定待识别音频的评价参数S，例如，S＝w*cos(e,c)+b，其中，w和b为对语音检测模型训练的过程中参与调整的加权损失函数中的参数。

步骤S503，在确定所述待识别音频的评价参数大于或等于第一预设阈值时，通知所述终端所述待识别音频为所述目标账户的音频。

具体实施时，服务器侧将利用语音检测模型确定出的待识别音频的评价参数与第一预设阈值进行比较，若服务器侧确定出的待识别音频的评价参数大于或等于第一预设阈值，则通知上传该待识别音频的终端所上传的待识别音频为目标账户的音频。终端接收到服务器侧通知的待识别音频为目标账户音频，可以将该音频输入终端侧的下游模型，例如输入唤醒模型，进行唤醒词识别，再例如，输入音频识别模型，识别音频对应的文本。

若服务器侧确定所述待识别音频的评价参数小于所述第一预设阈值时，则通知所述终端所述待识别音频不是所述目标账户的音频。终端接收到服务器侧通知的待识别音频不是目标账户的音频，可以不对该音频进行响应。

服务器侧在确定终端发送的待识别音频为目标账户的音频后，可以利用预先训练的第一音频识别模确定所述待识别音频的置信度参数，所述置信度参数表征所述待识别音频对应文本中的词语与预设唤醒词的相似度。在确定所述音频的置信度参数大于或等于第二预设阈值时，确定所述待识别音频中包含所述预设唤醒词。在确定所述待识别音频中包含所述预设唤醒词，且所述待识别音频为所述目标账户的音频时，通知所述终端所述待识别音频为所述目标账户的唤醒音频。

相比于终端而言，服务器具有较强的计算能力，减轻终端计算压力，以及提升唤醒词识别效率。服务器在确定终端侧上传的目标账户的音频后，可以确定该音频是否包含预设唤醒词。利用预先训练的第一音频识别模型确定该音频包含预设唤醒词后，通知终端该音频为目标账户的唤醒音频，以使终端对该音频进行响应。服务器侧若在确定所述待识别音频的置信度参数小于所述第二预设阈值，则通知所述终端所述待识别音频为非唤醒音频。

在服务器侧可以采用端到端的第一音频识别模型，确定音频是否为唤醒音频。例如，基于解编码注意力机制的端到端框架LAS模型。该模型由三部分组成，编码器主要对语音的特征帧进行建模，获取声学的高层信息表示，解码器主要建模语言信息，在给定上一时刻的输出，结合声学表示预测当前时刻的输出。通过注意力机制在语言和声学之间建立联系，从声学表示中抽取和当前语言相关的内容。将词典模型、声学模型、语言模型、解码模型都融合在一个神经网络模型中，同时学习声学和语言两方面的信息，形成较优的端到端框架。尤其处理英文语音识别任务时，编解码器均基于循环神经网络的LAS模型获得了超过无格最大互信息LF-MMI和基于神经网络的时序分类CTC模型的性能。还可以在上述基于解码注意力机制的端到端框架中，去除循环神经网络，采用self-attention加前项网络的结构，实现高计算速度和低资源消耗。

服务器侧确定所述待识别音频的置信度参数小于所述第二预设阈值，且所述待识别音频的评价参数大于或等于所述第一预设阈值，则通知所述终端所述待识别音频为所述目标账户的音频，且为所述目标账户的非唤醒音频。终端侧可以根据用户设置的唤醒模式，若开启唤醒功能，终端可以直接对该音频进行响应。若开启唤醒功能，终端根据服务器通知的该音频为非唤醒音频，不对该音频进行响应。

服务器侧还可以在确定所述待识别音频为所述目标账户的音频后，利用预先训练的第二音频识别模型确定所述待识别音频对应文本内容，并通知所述终端所述文本内容。终端接收到服务器发送的文本内容，对该音频进行响应。

图6根据一示例性实施例示出了一种目标账户音频的识别方法示意流程图，应用于终端和服务器交互场景中，目标账户音频的识别方法包括如下步骤：

步骤S601，终端获取待识别音频。

具体实施时，终端获取到的待识别音频可以是目标账户的语音音频，也可以是非目标账户的语音音频，还可以是非人类语音音频。

步骤S602，终端利用预先训练的语音检测模型确定所述待识别音频的声纹特征以及所述待识别音频的评价参数，其中，所述语音检测模型是基于预先采集的音频和预先配置的加权损失函数训练生成的，所述评价参数用于表征所述待识别音频的声纹特征与预先确定的目标账户音频的声纹特征的相似度。

具体实施时，终端利用预先训练的语音检测模型确定待识别音频的声纹特征，以及确定用于评价待识别音频的声纹特征与目标账户音频声纹特征的相似度的评价参数。

步骤S603，终端判断待识别音频的评价参数是否大于或等于第一预设阈值，若是，下一步执行步骤S604，否则下一步执行步骤S605。

具体实施时，终端比较待识别音频的评价参数与第一预设阈值，若评价参数大于第一预设阈值，下一步执行步骤S604，确定待识别音频为目标账户的音频。否则，下一步执行步骤S605，进行二次识别。

步骤S604，终端确定所述待识别音频为所述目标账户的音频。

具体实施时，终端将大于第一预设阈值的评价参数对应的待识别音频确定为目标账户的音频，实现终端利用语音检测模型直接识别音频是否为指定说话人的语音的功能，简化识别流程。无需相关技术中，先识别待识别音频为语音音频还是非人类语音音频的流程或步骤。

步骤S605，终端将所述待识别音频发送至服务器。

具体实施时，终端的计算能力有限，终端上的语音检测模型的效率可能不及服务器侧。将终端未确定为目标账户音频的待识别音频发送服务器侧，由服务器进行识别，提升识别效率。

步骤S606，服务器利用预先训练的语音检测模型确定接收的待识别音频的声纹特征以及所述待识别音频的评价参数，其中，所述语音检测模型是基于预先采集的音频和预先配置的加权损失函数训练生成的。

具体实施时，服务器侧也配置有预先训练好的语音检测模型。由服务器侧的语音检测模型对终端发送的待识别音频进行二次检测。由于服务器侧具有较强的计算能力。服务器侧的语音检测模型训练时使用的训练数据规模也较大，以提升检测的准确性。

服务器可以接收多个终端发送的待识别音频，对接收的每个待识别音频进行检测。终端向服务器发送待识别音频时，可以携带终端标识等信息，便于服务器确定终端以及终端对应的目标账户信息。服务器侧可以依据终端标识，确定目标账户的声纹特征，然后将确定出的目标账户的声纹特征配置在语音检测模型中，使语音检测模型确定待识别音频的声纹特征以及确定评价待识别音频的声纹特征与目标声纹特征相似度的评价参数。

步骤S607，服务器判断待识别音频的评价参数是否大于或等于第一预设阈值，若是，下一步执行步骤S608，否则，下一步执行步骤S609。

具体实施时，服务器侧的语音检测模型将确定出的待识别音频的评价参数与第一预设阈值比较，若评价参数大于或等于第一预设阈值，下一步执行步骤S608，否则，下一步执行步骤S608。

步骤S608，通知所述终端所述待识别音频为所述目标账户的音频。

具体实施时，服务器侧的语音检测模型将确定出的待识别音频的评价参数与第一预设阈值比较，确定待评价参数大于或等于第一预设阈值，则输出待识音频的检测结果为目标账户的音频。服务器侧依据语音检测模型输出的检测结果，通知终端其上传的待识别音频为目标账户的音频。

步骤S609，通知所述终端所述待识别音频不是所述目标账户的音频。

具体实施时，服务器侧的语音检测模型将确定出的待识别音频的评价参数与第一预设阈值比较，确定待评价参数大于或等于第一预设阈值，则输出待识音频的检测结果为目标账户的音频。服务器侧依据语音检测模型输出的检测结果，通知终端其上传的待识别音频不是目标账户的音频。

图7是根据一示例性实施例示出的一种目标账户音频的识别装置框图，应用于终端侧，如图7所示，该装置包括获取单元701，处理单元702，确定单元703。

获取单元701，被配置为执行获取待识别音频。

处理单元702，被配置为执行利用预先训练的语音检测模型确定待识别音频的声纹特征以及待识别音频的评价参数，其中，语音检测模型是基于预先采集的和预先配置的加权损失函数训练生成的，评价参数用于表征待识别音频的声纹特征与预先确定的目标账户音频的声纹特征的相似度。

确定单元703，被配置为执行在确定待识别音频的评价参数大于或等于第一预设阈值时，确定待识别音频为目标账户的音频。

一种可能的实施方式中，本公开提供的目标账户音频的识别装置中，处理单元702被配置为采用如下步骤训练语音检测模型：

根据每一音频样本的所述音频特征、所述声纹特征、所述评价参数，在所述多个音频样本中检测目标账户的语音音频，以标注结果为目标账户的语音音频的音频样本为输出，对所述第一神经网络模型的参数进行调整，基于调整参数后的所述第一神经网络模型和所述音频确认模型，得到所述语音检测模型。一种可能的实施方式中，本公开提供的目标账户音频的识别装置中，处理单元702具体被配置为执行：

一种可能的实施方式中，本公开提供的目标账户音频的识别装置中，处理单元702具体被配置为执行：

根据预先训练的语音检测模型中加权损失函数的参数，以及余弦相似度，确定待识别音频的评价参数，以使所述服务器确定所述待识别音频是否所述目标账户的音频。

发送单元704，被配置为执行在确定待识别音频的评价参数小于第一预设阈值时，将待识别音频发送至服务器。

一种可能的实施方式中，本公开提供的目标账户音频的识别装置中，确定单元703还被配置为执行：

一种可能的实施方式中，本公开提供的目标账户音频的识别装置中，发送单元704还被配置为执行：

图8是根据一示例性实施例示出的一种目标账户音频的识别装置框图，应用于终端侧，如图8所示，该装置包括接收单元801，处理单元802，发送单元803。

接收单元801，被配置为执行接收终端发送的待识别音频，所述待识别音频为所述终端确定出的评价参数小于第一预设阈值的音频，所述评价参数用于表征所述待识别音频的声纹特征与预先确定的目标账户音频的声纹特征的相似度。

处理单元802，被配置为执行利用预先训练的语音检测模型确定所述待识别音频的声纹特征以及所述待识别音频的评价参数，其中，所述语音检测模型是基于预先采集的音频和预先配置的加权损失函数训练生成的。

发送单元803，被配置为执行在确定所述待识别音频的评价参数大于或等于所述第一预设阈值时，通知所述终端所述待识别音频为所述目标账户的音频。

一种可能的实施方式中，本公开提供的目标账户音频的识别装置中，处理单元802被配置为采用如下步骤训练语音检测模型：

一种可能的实施方式中，本公开提供的目标账户音频的识别装置中，处理单元802具体被配置为执行：

一种可能的实施方式中，本公开提供的目标账户音频的识别装置中，第一损失函数的计算结果是根据声纹特征对应的目标账户语音音频映射和声纹特征对应的非目标账户语音音频映射确定的。

确定待识别音频的声纹特征与目标账户音频的声纹特征的余弦相似度。

一种可能的实施方式中，本公开提供的目标账户音频的识别装置，发送单元803还被配置为执行在确定所述待识别音频的评价参数小于所述第一预设阈值时，通知所述终端所述待识别音频不是所述目标账户的音频。

一种可能的实施方式中，本公开提供的目标账户音频的识别装置中，发送单元803还被配置为执行：

基于上述本公开实施例相同构思，图9是根据一示例性实施例示出的电子设备900的框图，可实施为终端，如图9所示，本公开实施例示出的电子设备900包括：

处理器910；

用于存储处理器910可执行指令的存储器920；

其中，处理器910被配置为执行指令，以实现本公开实施例中在终端侧实施的目标账户音频的识别方法。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器920，上述指令可由目标账户音频的识别装置的处理器910执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在本公开实施例中，如图10所示，本公开实施例给出一种目标账户音频的识别终端1000，包括：射频(Radio Frequency，RF)电路1010、电源1020、处理器1030、存储器1040、输入单元1050、显示单元1060、摄像头1070、通信接口1080、以及无线保真(WirelessFidelity，Wi-Fi)模块1090等部件。本领域技术人员可以理解，图10中示出的终端的结构并不构成对终端的限定，本申请实施例提供的终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图10对终端1000的各个构成部件进行具体的介绍：

RF电路1010可用于通信或通话过程中，数据的接收和发送。特别地，RF电路1010在接收到基站的下行数据后，发送给处理器1030处理；另外，将待发送的上行数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier，LNA)、双工器等。

此外，RF电路1010还可以通过无线通信与网络和其它终端通信。无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobilecommunication，GSM)、通用分组无线服务(General Packet Radio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code DivisionMultiple Access，WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

Wi-Fi技术属于短距离无线传输技术，终端1000通过Wi-Fi模块1090可以连接接入点(Access Point，AP)，从而实现数据网络的访问。Wi-Fi模块1090可用于通信过程中，数据的接收和发送。

终端1000可以通过通信接口1080与其它终端实现物理连接。可选的，通信接口1080与其它终端的通信接口通过电缆连接，实现终端1000和其它终端之间的数据传输。

由于在本申请实施例中，终端1000能够实现通信业务，向其它联系人发送信息，因此终端1000需要具有数据传输功能，即终端1000内部需要包含通信模块。虽然图10示出了RF电路1010、Wi-Fi模块1090、和通信接口1080等通信模块，但是可以理解的是，终端1000中存在上述部件中的至少一个或者其它用于实现通信的通信模块(如蓝牙模块)，以进行数据传输。

例如，当终端1000为手机时，终端1000可以包含RF电路1010，还可以包含Wi-Fi模块1090；当终端1000为计算机时，终端1000可以包含通信接口1080，还可以包含Wi-Fi模块1090；当终端1000为平板电脑时，终端1000可以包含Wi-Fi模块。

存储器1040可用于存储软件程序以及模块。处理器1030通过运行存储在存储器1040的软件程序以及模块，从而执行终端1000的各种功能应用以及数据处理，并且当处理器1030执行存储器1040中的程序代码后，可以实现本公开实施例图1至图4中的部分或全部过程。

可选的，存储器1040可以主要包括存储程序区和存储数据区。其中，存储程序区可存储操作系统、各种应用程序(比如通信应用)以及人脸识别模块等；存储数据区可存储根据终端的使用所创建的数据(比如各种图片、视频文件等多媒体文件，以及人脸信息模板)等。

此外，存储器1040可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其它易失性固态存储器件。

输入单元1050可用于接收用户输入的数字或字符信息，以及产生与终端1000的用户设置以及功能控制有关的键信号输入。

可选的，输入单元1050可包括触控面板1051以及其它输入终端1052。

其中，触控面板1051，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1051上或在触控面板1051附近的操作)，并根据预先设定的程式驱动相应的连接装置。

可选的，触控面板1051可以包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1030，并能接收处理器1030发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1051。

可选的，其它输入终端1052可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1060可用于显示由用户输入的信息或提供给用户的信息以及终端1000的各种菜单。显示单元1060即为终端1000的显示系统，用于呈现界面，实现人机交互。

显示单元1060可以包括显示面板1061。可选的，显示面板1061可以采用液晶显示屏(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置。

进一步的，触控面板1051可覆盖显示面板1061，当触控面板1051检测到在其上或附近的触摸操作后，传送给处理器1030以确定触摸事件的类型，随后处理器1030根据触摸事件的类型在显示面板1061上提供相应的视觉输出。

虽然在图10中，触控面板1051与显示面板1061是作为两个独立的部件来实现终端1000的输入和输入功能，但是在某些实施例中，可以将触控面板1051与显示面板1061集成而实现终端1000的输入和输出功能。

处理器1030是终端1000的控制中心，利用各种接口和线路连接各个部件，通过运行或执行存储在存储器1040内的软件程序和/或模块，以及调用存储在存储器1040内的数据，执行终端1000的各种功能和处理数据，从而实现基于终端的多种业务。

可选的，处理器1030可包括一个或多个处理单元。可选的，处理器1030可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1030中。

摄像头1070，用于实现终端1000的拍摄功能，拍摄图片或视频。摄像头1070还可以用于实现终端1000的扫描功能，对扫描对象(二维码/条形码)进行扫描。

终端1000还包括用于给各个部件供电的电源1020(比如电池)。可选的，电源1020可以通过电源管理系统与处理器1030逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗等功能。

需要说明的是，本公开实施例处理器1030可以执行图9中处理器910的功能，存储器1040存储处理器910中的内容。

图11是根据一示例性实施例示出的服务器1100的框图，可实施为服务器，如图11所示，本公开实施例示出的服务器1100包括：

处理器1110；

用于存储处理器1110可执行指令的存储器1120；

其中，处理器1110被配置为执行指令，以实现本公开实施例中在服务器侧实施的目标账户音频的识别方法。

存储器1102可以包括用于存储数据或指令的大容量存储器。举例来说而非限制，存储器1102可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器1102可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器1102可在数据处理装置的内部或外部。在特定实施例中，存储器1102是非易失性固态存储器。在特定实施例中，存储器1102包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器1101通过读取并执行存储器1102中存储的计算机程序指令，以实现上述实施例中的自由视点视角信息推荐方法。

在一个示例中，该服务器还可包括通信接口1103和总线1110。其中，如图11所示，处理器1101、存储器1102、通信接口1103通过总线1110连接并完成相互间的通信。

通信接口1103，主要用于实现本申请实施例中各模块、装置、单元和/或显示设备102之间的通信。

总线1110包括硬件、软件或两者，将该图像处理终端的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其它图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其它合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线1110可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器1120，上述指令可由目标账户音频的识别装置的处理器1110执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种目标账户音频的识别方法，其特征在于，包括：

获取待识别音频；

利用预先训练的语音检测模型确定所述待识别音频的声纹特征以及所述待识别音频的评价参数，其中，所述语音检测模型是基于预先采集的音频和预先配置的加权损失函数训练生成的，所述评价参数用于表征所述待识别音频的声纹特征与预先确定的目标账户音频的声纹特征的相似度；

在确定所述待识别音频的评价参数大于或等于第一预设阈值时，确定所述待识别音频为所述目标账户的音频。

2.根据权利要求1所述的方法，其特征在于，所述预先训练的语音检测模型采用如下步骤训练生成：

3.根据权利要求2所述的方法，其特征在于，所述基于所述预先配置的加权损失函数训练所述语音检测模型中的音频确认模型，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在确定所述待识别音频的评价参数小于所述第一预设阈值时，将所述待识别音频发送至服务器，以使所述服务器确定所述待识别音频是否所述目标账户的音频。

5.一种目标账户音频的识别方法，其特征在于，包括：

6.一种目标账户音频的识别装置，其特征在于，包括：

获取单元，被配置为执行获取待识别音频；

处理单元，被配置为执行利用预先训练的语音检测模型确定所述待识别音频的声纹特征以及所述待识别音频的评价参数，其中，所述语音检测模型是基于预先采集的和预先配置的加权损失函数训练生成的，所述评价参数用于表征所述待识别音频的声纹特征与预先确定的目标账户音频的声纹特征的相似度；

确定单元，被配置为执行在确定所述待识别音频的评价参数大于或等于第一预设阈值时，确定所述待识别音频为所述目标账户的音频。

7.一种目标账户音频的识别装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令以实现如权利要求1至4中任一项所述的目标账户音频的识别方法。

9.一种服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令以实现如权利要求5中所述的目标账户音频的识别方法。

10.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至5中任一项所述的目标账户音频的识别方法。