CN116486818A

CN116486818A - 基于语音的身份识别方法、装置以及电子设备

Info

Publication number: CN116486818A
Application number: CN202211059763.4A
Authority: CN
Inventors: 吴凯凯; 熊永福; 刘勇; 李凤
Original assignee: Chongqing Ant Consumer Finance Co ltd
Current assignee: Chongqing Ant Consumer Finance Co ltd
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2023-07-25

Abstract

本说明书实施例提供一种基于语音的身份识别方法、基于语音的身份识别装置以及电子设备，该方法包括：对于某次语音通话(待识别通话)，获取需要进行身份识别的一方(待识别用户在)的语音音频，并将其确定为待识别音频。然后，对上述待识别音频进行特征提取，以得到上述待识别用户对应的声纹特征(目标声纹特征)。进一步地，基于上述目标声纹特征与声纹特征库之间的特征比对，来确定上述待识别用户的身份。

Description

基于语音的身份识别方法、装置以及电子设备

技术领域

本说明书涉及音频技术领域，尤其涉及一种基于语音的身份识别方法、基于语音的身份识别装置以及电子设备。

背景技术

某些类型的通话(例如，涉及伪造信息的语音通话等)威胁个人或公司的财产安全，本申请文件中记作“目标类型的通话”。相关技术中需要提供一种准确地确定目标类型的通话的方案。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本说明书的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本说明书的目的在于提供一种基于语音的身份识别方法、基于语音的身份识别装置以及电子设备，至少在一定程度上提升了对目标类型的通话的准确度。

本说明书的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本说明书的实践而习得。

根据本说明书的一个方面，提供一种基于语音的身份识别方法，该方法包括：获取待识别用户在待识别通话中的语音音频，得到待识别音频；对上述待识别音频进行特征提取，得到上述待识别用户对应的目标声纹特征；以及，基于上述目标声纹特征与声纹特征库之间的特征比对，确定上述待识别用户的身份。

根据本说明书的另一个方面，提供一种基于语音的身份识别装置，该装置包括：音频获取模块、特征提取模块，以及身份识别模块。

其中，上述音频获取模块，用于获取待识别用户在待识别通话中的语音音频，得到待识别音频；上述特征提取模块，用于对上述待识别音频进行特征提取，得到上述待识别用户对应的目标声纹特征；以及，上述身份识别模块，用于基于上述目标声纹特征与声纹特征库之间的特征比对，确定上述待识别用户的身份。

根据本说明书的再一个方面，提供一种电子设备，包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时实现如上述实施例中的基于语音的身份识别方法。

根据本说明书的一个方面，提供一种计算机可读存储介质，上述计算机可读存储介质中存储有指令，当上述指令在计算机或处理器上运行时，使得上述计算机或处理器执行如上述实施例中的基于语音的身份识别方法。

根据本说明书的另一个方面，提供一种包含指令的计算机程序产品，当所述计算机程序产品在计算机或处理器上运行时，使得所述计算机或处理器执行如上述实施例中的基于语音的身份识别方法。

本说明书的实施例所提供的基于语音的身份识别方法与装置以及电子设备，具备以下技术效果：

本说明书示例性的实施例提供的方案适用于通话过程中或者通话结束后。具体地，对于某次语音通话(待识别通话)，获取需要进行身份识别的一方(待识别用户在)的语音音频，并将其确定为待识别音频。然后，对上述待识别音频进行特征提取，以得到上述待识别用户对应的声纹特征(目标声纹特征)。进一步地，基于上述目标声纹特征与声纹特征库之间的特征比对，来确定上述待识别用户的身份。本说明书实施例提供的方案通过一通语音通话中待识别用户的音频，来实现该通话中可能存在的目标类型的通话，从而提供了一种快捷准确地识别目标类型的通话的方案。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本说明书的原理。显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施例提供的基于语音的身份识别方案的系统构架示意图。

图2为本说明书一实施例提供的基于语音的身份识别方法的流程示意图。

图3为本说明书实施例提供的声纹特征提取方法的流程示意图。

图4为本说明书另一实施例提供的声纹特征提取方法的流程示意图。

图5为本说明书另一实施例提供的基于语音的身份识别方法的流程示意图。

图6为本说明书一实施例提供的第一声纹特征库的示意图。

图7为本说明书一实施例提供的第二声纹特征库的示意图。

图8为本说明书一实施例提供的基于语音的身份识别装置的结构示意图。

图9为本说明书另一实施例提供的基于语音的身份识别装置的结构示意图。

图10为本说明书实施例提供的电子设备的结构示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合附图对本说明书实施例方式作进一步地详细描述。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本说明书将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本说明书的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本说明书的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本说明书的各方面变得模糊。

此外，附图仅为本说明书的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

目标类型的通话可以是涉及伪造信息的语音通话等。具体的，与上述目标类型的通话相关的人员(记作“目标人员”)通过语音通话的方式传播反催收技巧，以及目标人员代理欠款方恶意对借款方投诉。目标人员还可能通过伪造虚假征信报告或证明材料的方式，使得欠款方逃避金融机构债务。因此目标人员有待被准确快捷地进行识别，从而保证个人或公司的财产安全。

本说明书实施例能够提供一种基于语音的身份识别方法、基于语音的身份识别装置以及电子设备，至少在一定程度上提升了对目标类型的通话的准确度。具体的，以下先通过图1至图9对本说明书提供的基于语音的身份识别方法实施例进行详细阐述：

示例性的，图1为本说明书实施例提供的基于语音的身份识别方案的场景示意图。

如图1所示，用户A与用户B之间进行语音通话，可以在语音通话过程中，获取通话语音数据；还可以是在语音通话结束后再获取通话语音数据。进一步地，将包含双方通话的通话语音根据用户进行区分，从而得到每一个通话方所对应的语音。当然，也可以事先就将各个通话方的语音数据进行单独获取。

进一步地，将通话双方中的任一方输入至电子设备100，也可以将双方的语音数据分别输入至电子设备100。对于接收到的待识别语音11，电子设备100进行特征提取得到待识别用户对应的目标声纹特征12。

一种示例性的实施例中，将目标声纹特征12与第一声纹特征库110之间的特征比对，则根据特征比对结果电子设备100输出待识别用户的身份信息包括：目标身份(目标人员的身份)或潜在目标身份(潜在涉黑人员的身份)。

进一步地，对于身份识别结果为目标身份(目标人员的身份)或潜在目标身份(潜在目标人员的身份)，则计算设备100将生成提醒信息，其中，提醒信息包括：语音通话对应的标识信息，该通语音通话中的待识别用户的标识信息及其身份，以及相关防范的语句。具体地，在用户B与用户A的通话过程中，计算设备100识别到用户B的身份为目标身份(目标人员的身份)，则生成提醒信息至用户A对应的终端。上述提醒信息可以是“标识信息为20220228xxxx的语音通话中用户b属于目标人员，与第一声纹特征库中aaa的声纹特征相似度99％，请注意防范以及采取进一步措施”等。在识别处身份为目标身份(目标人员)的情况下，在发出上述提醒信息的同时，还可以控制用户A对应的终端发出零响，以确保用户A注意到相关提醒信息。

另一种示例性的实施例中，将目标声纹特征12与第二声纹特征库120之间的特征比对，则根据特征比对结果电子设备100输出待识别用户的身份信息可能是非目标身份(正常用户/非目标人员的身份)或无法判断。

进一步地，对于身份识别结果为非目标身份(正常用户/非目标人员的身份)，则计算设备100也可以生成提醒信息，其中，提醒信息包括：语音通话对应的标识信息，以及该通语音通话中的待识别用户的标识信息及其身份。具体地，在用户B与用户A的通话过程中，计算设备100识别到用户B的身份为非目标身份(正常用户/非目标人员的身份)，则可以生成提醒信息至用户A对应的终端。上述提醒信息可以是“标识信息为20220228xxxx的语音通话中用户b属于正常用户，与第二声纹特征库中bbb的声纹特征相似度99％”等。

在无法判断待识别用户身份的情况下，计算设备100也可以生成提醒信息，其中，提醒信息包括：语音通话对应的标识信息，该通语音通话中的待识别用户的标识信息，以及身份暂时无法识别的相关语句。具体地，在用户B与用户A的通话过程中，计算设备100无法识别到用户B的身份，则可以生成提醒信息至用户A对应的终端。上述提醒信息可以是“系统目前无法识别标识信息为20220228xxxx的语音通话中用户的身份”等。

通过本说明书实施例提供的方案，不仅能够快捷准确地识别目标类型的通话有利于及时锁定目标身份的通话方。进一步地在识别相关用户的身份之后，还能够根据所识别的身份的不同生成不同的提醒信息，而通过提醒信息则能够有效引导语音通话中另一方(非待识别用户)的进一步操作，有利于保障用户或公司的财产安全。

示例性的，图2为本说明书实施例提供的基于语音的身份识别方法的流程示意图。参考图2，该实施例所示方法包括：S210-S230。

在S210中，获取待识别用户在待识别通话中的语音音频，得到待识别音频。

在示例性的实施例中，上述通话可以是任一语音通话，例如，座机通话、手机通话、对讲机通话、基于网络的语音通话等。参与语音通话的至少包括双方，可以对语音通话中的任一方的语音音频作为上述待识别音频。

在本实施例提供的目标人员的身份识别过程中，假如待识别用户通过语音通话的方式与借款方的语音客服进行通话。则本实施例中，获取一通语音通话中待识别用户一方的语音音频，并将其作为待识别音频。通过本说明书实施例提供的方案能够有效识别待识别用户的身份为：目标人员、潜在目标人员、正常用户(非目标人员)或者不能识别。

在示例性的实施例中，上述待识别音频可以包括待识别用户的所有原始语音数据并按照原始时间顺序进行存储，包括多个时间长度的语音，不同时间长度的语音之间的停顿时长等。

在S220中，对待识别音频进行特征提取，得到待识别用户对应的目标声纹特征。

在示例性的实施例中，图3为本说明书实施例提供的声纹特征提取方法的流程示意图，具体的，该图所示实施例可以作为S220的一种具体实施方式。参考图3，该图所示实施例包括：S310-S330。

在S310中，根据待识别音频中包含的语音停顿信息以及预设的语音片段长度，对待识别音频进行分片处理，得到具有时序的分片音频表。

示例性的，根据待识别语音中的停顿数据以及预设时间长度，对待识别音频进行分片。参加图4，对待识别音频410进行分片得到具有时序的分片音频表420。具体地，假如预设时间长度为3秒，则对于待识别语音中大于3秒的一段音频，则将该段音频根据预设时间长度进行分片；假如待识别音频小于3秒，则根据待识别语音中的停顿数据得到分片数据。从而，可以得到上述待识别音频对应的具有时序的分片音频表420。

继续参考图3，在S320中，对上述具有时序的分片音频表中的每个分片音频进行特征提取，得到上述具有时序的分片音频表对应的音频特征序列。

示例性的，参考图4所示的待识别音频410和分片音频表420的示意图，具体可以为Waveform(波形格式)的时序数据。示例性的，对于待识别音频410的波形图，横轴代表待识别音频410的时长，纵轴代表待识别音频410的频率。示例性的，对于分片音频表420的波形图，横轴表示分片音频表420中每个分片音频的时长，纵轴表示分片音频表420中每个分片音频的频率。

为了识别音频中的关键信息以使得所提取声纹特征更加准确，则需要丢弃语音中其他不相关的信息，如背景噪声等，因而需要对分片音频表420中每个分片音频进行特征提取(Feature Extractor)处理。

本实施例中所使用的特征提取方法以梅尔频率倒谱系数(Mel-FrequencyCepstral Coefficients，MFCC)为例进行说明。其中，MFCC特征更加符合人类的听觉原理。示例性的，对上述具有时序的分片音频表420中的每个分片音频进短时傅里叶变化(short-time Fourier transform，STFT)，具体将是把一个分片音频信号分成相同长度的更短的段，并在每个更短的段上计算傅里叶变换，即傅里叶频谱。进一步地，计算梅尔频率倒谱系数，以将上述具有时序的分片音频表420转换为机器学习模型识别的特征，参考图4，得到音频特征序列vector1、vector 2……vector m。

继续参考图3，在S330中，将音频特征序列输入深度特征提取模型，并将深度特征提取模型的输出确定为待识别用户对应的目标声纹特征。

示例性的，将音频特征序列vector1、vector 2……vector m输入至深度特征提取模型400，并将深度特征提取模型400的输出确定为待识别用户对应的目标声纹特征。

示例性的，参考图4，深度特征提取模型400包括：卷积层440、编码层450、池化层460以及全连接层470。其中，基于上述深度特征提取模型400对音频特征序列vector1、vector 2……vector m的处理过程如下：

其中，上述卷积层440可以采用卷积神经网络(CNN)，通过CNN获取音频特征序列vector1、vector 2……vector m的深层次特征，得到深层次特征序列。上述编码层450可以采用tansformer的编码部分，以对上述深层次特征序列进行编码处理。进一步地，通过池化(pooling)层和全连接(Fully Connected，FC)层，对编码处理之后的深层次特征序列分别进行池化处理和全连接处理，上述声纹特征序列。

示例性的，上述池化层可以采取self-Attention的形式，上述全连接层可以采取FC×3的形式。示例性的，上述全连接层的输出为声纹特征序列(特征S2)。

在示例性的实施例中，参考图4，深度特征提取模型400还包括：在全连接层470后的嵌入层480。

上述嵌入层480用于对全连接层470输出的声纹特征序列(特征S2)进行压缩处理，得到特征S1。再一实施例中，可以直接将上述声纹特征序列(特征S2)确定为用于进行如S230中所示的特征比对，从而有利于保留较多的待识别用户的特征，以提升特征比对的准确度。在另一实施例中，为了节省识别时长并减少计算量，还可以将声纹特征序列(特征S2)进行一定的特征压缩处理之后的特征S1确定为用于进行如S230中所示的特征比对。

在另一些实施例中，通过上述嵌入层480直接将声纹特征序列(特征S2)进行压缩处理，得到一条关于待识别用户的声纹特征。即一通语音通过对应于一条声纹特征，作为该同语音通话对应的目标声纹特征，并用于如S230中所示的特征比对，该实施例提供的目标声纹特征有利于进行轻量化计算。

通过图3和图4提供的实施例，一种实施例中，可以全连接层输出的包含待识别用户较全面特征的声纹特征序列(特征S2)作为目标声纹特征，从而有利于提升识别精准度；另一实施例中，还可以对全连接层输出的声纹特征序列(特征S2)进行一定的嵌入压缩处理，从而有效缩小计算量；再一实施例中，将一通语音通话对应于一条声纹向量，从而提供身份识别的轻量化计算方式。可见，本说明书实施例能够提供灵活多变的身份识别方案，具有较高的适用性。

在示例性的实施例中，通过上述实施例得到待识别用户对应的目标声纹特征之后，继续参考图2，在S230中，基于目标声纹特征与声纹特征库之间的特征比对，确定待识别用户的身份。

在示例性的实施例中，图5为本说明书另一实施例提供的基于语音的身份识别方法的流程示意图，具体的，该图所示实施例可以作为S230的一种具体实施方式。其中，参考图1，S510-S550用于将目标声纹特征12与第一声纹特征库110进行特征比对并确定待识别用户的身份；S560-S590用于将目标声纹特征12与第二声纹特征库120进行特征比对并确定待识别用户的身份。

参考图5，该图所示实施例包括：

在S510中，分别计算目标声纹特征与第一声纹特征库中多个声纹特征之间的第一相似度。

示例性的，参考图6示出的第一声纹特征库600，其中，第一声纹特征库600中存储有对应于多个用户的声纹特征，多个用户均属于目标身份的用户。本实施例中，上述目标身份的用户为与上述目标类型的通话相关的目标用户。

上述第一声纹特征库600中包括已经积累的目标用户的声纹特征，具体的，其中存储有与多个目标用户分别相关联的种子声纹特征。参考图6，与目标用户第a用户相关联第a种子声纹特征，具体包括通话id1的声纹特征以及通话id2的声纹特征；与目标用户第b用户相关联第b种子声纹特征，具体包括通话idx的声纹特征；与目标用户第c用户相关联第c种子声纹特征，等。

在S520中，判断第一相似度的最大值是否大于或等于第一预设值。

示例性的，通过计算欧氏距离等方式，来确定上述目标声纹特征与上述第一声纹特征库600中种子声纹特征之间的相似度，得到待识别用户O与第a用户之间的声纹特征相似度(第一相似度)S_Oa、待识别用户O与第b用户之间的声纹特征相似度(第一相似度)S_Ob等。一种实施例中，可以同时计算目标声纹特征分别与第一声纹特征库中的所有种子声纹特征之间的相似度；还可以依次计算与种子声纹特征之间的相似度，并在第一相似度大于第一预设值的情况下停止计算。另外，还可以通过聚类处理的方式，来确定待识别用户的目标声纹特征与第一声纹库中种子声纹特征之间的相似程度，以进一步地确定待识别用户的身份。

示例性的，上述第一预设值可以设置为0.95等较接近1的数值。若上述待识别用户的目标声纹数据与第a种子声纹特征之间的第一相似度S_Oa大于或等于上述第一预设值，则可以认为待识别用户与第a用户作为同一个人。则执行S530：确定待识别用户的身份为目标身份。即说明上述待识别用户为上述目标用户，具体与第一声纹特征库中的第a用户为同一人。

示例性的，若上述待识别用户的目标声纹数据与上述第一声纹特征库中任一用户的种子声纹特征之间的第一相似度均小于上述第一预设值，则可以执行S540：判断第一相似度的最大值大于或等于第二预设值。其中，由于上述第一预设值用于判断待识别用户是否为库中某个用户为同一人，上述第二预设值用于判断待识别用户与上述目标类型的通话相关的可能性(即潜在目标用户)，则上述第一预设值的取值需要大于第二预设值，示例性的，上述第二预设值可以取值为0.8。

示例性的，若上述待识别用户的目标声纹数据与第b种子声纹特征之间的第一相似度S_Ob大于或等于上述第二预设值且小于上述第一预设值，则可以认为待识别用户与第b用户具有较高的相似度，可以认为上述待识别用户与目标用户第b用户虽然不是同一人，但是两者之间存在具有较高的相似度，可以认为待识别用户为潜在目标用户。即执行S550：确定待识别用户的身份为潜在目标身份。

示例性的，若上述待识别用户的目标声纹数据与上述第一声纹特征库中任一用户的种子声纹特征之间的第一相似度均小于上述第二预设值，则认为上述识别用户与当前的第一声纹特征库中间各个目标用户之间的相似度较小，但是也不排除其为目标用户的可能性，即需要进一步地对其身份进行判断。在本实施例中，在上述第一相似度小于上述第二预设值的情况下，可以继续S560-S590(对应的实施方式将在下述实施例中进行详细介绍)，以确定上述待识别用户是否为非目标用户(即与上述目标类型的通话无关的用户)，从而进一步地对待识别用户的身份进行识别。

由此也可见，基于上述第一声纹特征库对待识别用户进行身份识别，依赖于声纹特征库是否存储有丰富的目标用户的声纹资源，因此需要对第一声纹特征库的声纹特征进行持续的丰富与积累。示例性的，若通过其他侦测方式确定待识别用户(记作第i用户，i为正整数)的身份为目标身份，则将第i用户的声纹特征作为第i种子声纹特征；进一步地，将第i种子声纹特征与第i用户的身份标识关联后存储，以构建与完善上述第一声纹特征库。

一方面，上述图5中S510-S550所提供的实施例，提供了一种确定待识别用户身份的实施例。另一方面，上述图5中S560-S590所提供的实施例，提供了另一种确定待识别用户身份的实施例。

S560，分别计算目标声纹特征与第二声纹特征库中多个声纹特征之间的第二相似度。

示例性的，参考图7示出的第二声纹特征库700，其中，第二声纹特征库700中存储有对应于多个用户的声纹特征，多个用户均属于非目标身份的用户，即正常用户。本实施例中，上述目标身份的用户为非目标用户。

上述第二声纹特征库700中包括已经积累的正常用户的声纹特征，具体的，其中存储有与多个正常用户分别相关联的种子声纹特征。参考图7，与正常用户第a’用户相关联第a’种子声纹特征，具体包括通话id1’的声纹特征以及通话id2’的声纹特征；与正常用户第b’用户相关联第b’种子声纹特征，具体包括通话idx’的声纹特征；与正常用户第c’用户相关联第c’种子声纹特征，等。

在S530中，判断第二相似度的最大值大于或等于第三预设值。

同前所述，仍然可以通过计算欧氏距离等方式，来确定上述目标声纹特征与上述第二声纹特征库700中种子声纹特征之间的相似度，得到待识别用户O与第a’用户之间的声纹特征相似度(第二相似度)S_Oa’、待识别用户O与第b’用户之间的声纹特征相似度(第二相似度)S_Ob’等。

示例性的，上述第三预设值也可以设置为0.95等较接近1的数值。若上述待识别用户的目标声纹数据与第a’种子声纹特征之间的第二相似度S_Oa’大于或等于上述第三预设值，则可以认为待识别用户与第a’用户作为同一个人。在待识别用户O与第a’用户的种子声纹特征之间第二相似度的最大值大于或等于第三预设值的情况下，则执行S580：确定待识别用户的身份为非目标身份。

示例性的，若上述待识别用户的目标声纹数据与上述第二声纹特征库中任一用户的种子声纹特征之间的第二相似度均小于上述第三预设值，则说明无法通过当前的第二声纹特征库对待识别用户的身份进行识别。则示例性的，若在得到待识别用户的目标声纹特征之后直接执行如图5中S560对用的实施例，则在确定上述第二相似度小于上述第二预设值的情况下，还行继续执行S510，以再通过与第一声纹特征库进行特征比对的方式来识别身份。

由此也可见，基于上述第二声纹特征库对待识别用户进行身份识别，也依赖于声纹特征库是否存储有丰富的正常用户的声纹资源，因此需要对第二声纹特征库的声纹特征进行持续的丰富与积累。示例性的，在非目标身份的用户在进行系统用户注册时，获取非目标身份的第j用户(j取值为正整数)的声纹特征，得到第j种子声纹特征；进一步地，将第j种子声纹特征与第j用户的身份标识关联后存储，以构建第二声纹特征库。

通过持续的丰富上述第一声纹特征库以及上述第二声纹特征库，可以有效地提升声纹识别效率以及身份识别准确度。

在基于上述实施例提供的，将目标声纹特征与声纹特征库之间的特征比对，从而识别出待识别用户的身份。进一步地，同前所述，根据所识别的身份的不同生成不同类型的提醒信息。从而通过不同类型的提醒信息来引导语音通话中另一方(非待识别用户)的进一步操作，有利于保障用户或公司的财产安全。

需要注意的是，上述附图仅是根据本说明书示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本说明书装置实施例，可以用于执行本说明书方法实施例。对于本说明书装置实施例中未披露的细节，请参照本说明书方法实施例。

其中，图8示出了可以应用本说明书一实施例的基于语音的身份识别装置的结构示意图。请参见图8，该图所示的基于语音的身份识别装置可以通过软件、硬件或者两者的结合实现成为电子设备的全部或一部分，还可以作为独立的模块集成于服务器上，还可以作为独立的模块集成于电子设备中。

本说明书实施例中的上述基于语音的身份识别装置800包括：音频获取模块810、特征提取模块820，以及身份识别模块830。

其中，上述音频获取模块810，用于获取待识别用户在待识别通话中的语音音频，得到待识别音频；上述特征提取模块820，用于对上述待识别音频进行特征提取，得到上述待识别用户对应的目标声纹特征；以及，上述身份识别模块830，用于基于上述目标声纹特征与声纹特征库之间的特征比对，确定上述待识别用户的身份。

在示例性的实施例中，图9示意性示出了根据本说明书另一示例性的实施例中基于语音的身份识别装置的结构图。请参见图9：

在示例性的实施例中，基于上述方案，上述声纹特征库为第一声纹特征库，上述第一声纹特征库中存储有对应于多个用户的声纹特征，上述多个用户均属于目标身份的用户；上述身份识别模块830，包括：第一识别单元8301。

其中，上述第一识别单元8301，用于：分别计算上述目标声纹特征与上述第一声纹特征库中多个声纹特征之间的第一相似度；在上述第一相似度的最大值大于或等于第一预设值的情况下，确定上述待识别用户的身份为上述目标身份；在上述第一相似度的最大值大于或等于第二预设值且小于上述第一预设值的情况下，确定上述待识别用户的身份为潜在目标身份，其中，上述第一预设值大于上述第二预设值。

在示例性的实施例中，基于上述方案，上述身份识别模块830，还包括：第一构建单元8302。

其中，上述第一构建单元8302，用于：在上述第一识别单元8301分别计算上述目标声纹特征与上述第一声纹特征库中多个声纹特征之间的第一相似度之后，在上述第一相似度的最大值大于或等于上述第一预设值的情况下，在上述声纹特征库中确定出相对应的声纹特征，上述相对应的声纹特征对应于目标用户；以及，将上述待识别用户对应的目标声纹特征，关联至上述第一声纹特征库中的目标用户。

在示例性的实施例中，基于上述方案，上述第一构建单元8302，还用于：将身份为上述目标身份的第i用户的声纹特征作为第i种子声纹特征，i取值为正整数；以及，将上述第i种子声纹特征与上述第i用户的身份标识关联后存储，以构建上述第一声纹特征库。

在示例性的实施例中，基于上述方案，上述声纹特征库为第二声纹特征库，上述第二声纹特征库中存储有对应于多个用户的声纹特征，上述多个用户均属于非目标身份的用户；上述身份识别模块830，包括：第二识别单元8303。

其中，上述第二识别单元8303，用于：分别计算上述目标声纹特征与上述第二声纹特征库中多个声纹特征之间的第二相似度；以及，在上述第二相似度的最大值大于或等于第三预设值的情况下，确定上述待识别用户的身份为上述非目标身份。

在示例性的实施例中，基于上述方案，上述身份识别模块830，还包括：第二构建单元8304。

其中，上述第二构建单元8304，用于：在非目标身份的用户在进行系统用户注册时，获取上述非目标身份的第j用户的声纹特征，得到第j种子声纹特征，j取值为正整数；以及，将上述第j种子声纹特征与上述第j用户的身份标识关联后存储，以构建上述第二声纹特征库。

在示例性的实施例中，基于前述方案，上述装置还包括：音频分片模块840。

其中，上述音频分片模块840用于：在上述特征提取模块820对上述待识别音频进行特征提取，得到上述待识别用户对应的目标声纹特征之前，根据上述待识别音频中包含的语音停顿信息以及预设的语音片段长度，对上述待识别音频进行分片处理，得到具有时序的分片音频表；

其中，上述具有时序的分片音频表用于进行特征提取。

在示例性的实施例中，基于前述方案，上述特征提取模块820具体用于：对上述具有时序的分片音频表中的每个分片音频进行特征提取，得到上述具有时序的分片音频表对应的音频特征序列；以及，将上述音频特征序列输入深度特征提取模型，并将上述深度特征提取模型的输出确定为上述待识别用户对应的目标声纹特征。

在示例性的实施例中，基于前述方案，上述深度特征提取模型，包括：卷积层、编码层、池化层以及全连接层；其中，

上述卷积层用于获取上述音频特征序列的深层次特征，得到深层次特征序列；上述编码层用于对上述深层次特征序列进行编码处理；上述池化层和全连接层用于：对上述编码处理之后的深层次特征序列分别进行池化处理和全连接处理，得到声纹特征序列；

其中，上述声纹特征序列用于确定上述目标声纹特征。

在示例性的实施例中，基于前述方案，上述深度特征提取模型，还包括：在全连接层后的嵌入层；

上述特征提取模块820，具体还用于：通过上述嵌入层对上述得到声纹特征序列进行压缩处理，得到一条关于上述待识别用户的声纹特征，得到上述目标声纹特征。

在示例性的实施例中，基于前述方案，上述特征提取模块820，具体还用于：将上述声纹特征序列确定为上述目标声纹特征。

需要说明的是，上述实施例提供的基于语音的身份识别装置在执行基于语音的身份识别方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

另外，上述实施例提供的基于语音的身份识别装置与基于语音的身份识别方法实施例属于同一构思，因此对于本说明书装置实施例中未披露的细节，请参照本说明书上述的基于语音的身份识别方法的实施例，这里不再赘述。

上述本说明书实施例序号仅仅为了描述，不代表实施例的优劣。

本说明书实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述任一实施例方法的步骤。

图10示意性示出了根据本说明书一示例性的实施例中电子设备的结构图。请参见图10所示，电子设备100包括有：处理器1001和存储器1002。

本说明书实施例中，处理器1001为计算机系统的控制中心，可以是实体机的处理器，也可以是虚拟机的处理器。处理器1001可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1001可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。

在本说明书实施例中，上述处理器1001具体用于：

获取待识别用户在待识别通话中的语音音频，得到待识别音频；对上述待识别音频进行特征提取，得到上述待识别用户对应的目标声纹特征；以及，基于上述目标声纹特征与声纹特征库之间的特征比对，确定上述待识别用户的身份。

进一步地，上述声纹特征库为第一声纹特征库，上述第一声纹特征库中存储有对应于多个用户的声纹特征，上述多个用户均属于目标身份的用户；

上述基于上述目标声纹特征与声纹特征库之间的特征比对，确定上述待识别用户的身份，包括：分别计算上述目标声纹特征与上述第一声纹特征库中多个声纹特征之间的第一相似度；在上述第一相似度的最大值大于或等于第一预设值的情况下，确定上述待识别用户的身份为上述目标身份；以及，在上述第一相似度的最大值大于或等于第二预设值且小于上述第一预设值的情况下，确定上述待识别用户的身份为潜在目标身份，其中，上述第一预设值大于上述第二预设值。

进一步地，在上述分别计算上述目标声纹特征与上述第一声纹特征库中多个声纹特征之间的第一相似度之后，上述方法还包括：在上述第一相似度的最大值大于或等于上述第一预设值的情况下，在上述声纹特征库中确定出相对应的声纹特征，上述相对应的声纹特征对应于目标用户；以及，将上述待识别用户对应的目标声纹特征，关联至上述第一声纹特征库中的目标用户。

进一步地，上述处理器1001还具体用于：

将身份为上述目标身份的第i用户的声纹特征作为第i种子声纹特征，i取值为正整数；以及，将上述第i种子声纹特征与上述第i用户的身份标识关联后存储，以构建上述第一声纹特征库。

进一步地，上述声纹特征库为第二声纹特征库，上述第二声纹特征库中存储有对应于多个用户的声纹特征，上述多个用户均属于非目标身份的用户；

上述基于上述目标声纹特征与声纹特征库之间的特征比对，确定上述待识别用户的身份，包括：分别计算上述目标声纹特征与上述第二声纹特征库中多个声纹特征之间的第二相似度；以及，在上述第二相似度的最大值大于或等于第三预设值的情况下，确定上述待识别用户的身份为上述非目标身份。

进一步地，上述处理器1001还具体用于：

在非目标身份的用户在进行系统用户注册时，获取上述非目标身份的第j用户的声纹特征，得到第j种子声纹特征，j取值为正整数；以及，将上述第j种子声纹特征与上述第j用户的身份标识关联后存储，以构建上述第二声纹特征库。

进一步地，在上述对上述待识别音频进行特征提取，得到上述待识别用户对应的目标声纹特征之前，上述方法还包括：根据上述待识别音频中包含的语音停顿信息以及预设的语音片段长度，对上述待识别音频进行分片处理，得到具有时序的分片音频表；其中，上述具有时序的分片音频表用于进行特征提取。

进一步地，上述对上述待识别音频进行特征提取，得到上述待识别用户对应的目标声纹特征，包括：对上述具有时序的分片音频表中的每个分片音频进行特征提取，得到上述具有时序的分片音频表对应的音频特征序列；以及，将上述音频特征序列输入深度特征提取模型，并将上述深度特征提取模型的输出确定为上述待识别用户对应的目标声纹特征。

进一步地，上述深度特征提取模型，包括：卷积层、编码层、池化层以及全连接层；其中，

上述卷积层用于获取上述音频特征序列的深层次特征，得到深层次特征序列；上述编码层用于对上述深层次特征序列进行编码处理；上述池化层和全连接层用于：对上述编码处理之后的深层次特征序列分别进行池化处理和全连接处理，得到声纹特征序列；其中，上述声纹特征序列用于确定上述目标声纹特征。

进一步地，上述深度特征提取模型，还包括：在全连接层后的嵌入层；上述待识别音频进行特征提取，得到上述待识别用户对应的目标声纹特征，包括：通过上述嵌入层对上述得到声纹特征序列进行压缩处理，得到一条关于上述待识别用户的声纹特征，得到上述目标声纹特征。

进一步地，上述待识别音频进行特征提取，得到上述待识别用户对应的目标声纹特征，包括：将上述声纹特征序列确定为上述目标声纹特征。

存储器1002可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在本说明书的一些实施例中，存储器1002中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1001所执行以实现本说明书实施例中的方法。

一些实施例中，电子设备100还包括有：外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1003相连。具体地，外围设备包括：显示屏1004、摄像头1005和音频电路1006中的至少一种。

外围设备接口1003可被用于将输入/输出(Input/Output，I/O)相关的至少一个外围设备连接到处理器1001和存储器1002。在本说明书的一些实施例中，处理器1001、存储器1002和外围设备接口1003被集成在同一芯片或电路板上；在本说明书的一些其他实施例中，处理器1001、存储器1002和外围设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现。本说明书实施例对此不作具体限定。

显示屏1004用于显示用户界面(User Interface，UI)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1004是触摸显示屏时，显示屏1004还具有采集在显示屏1004的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1001进行处理。此时，显示屏1004还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在本说明书的一些实施例中，显示屏1004可以为一个，设置电子设备100的前面板；在本说明书的另一些实施例中，显示屏1004可以为至少两个，分别设置在电子设备100的不同表面或呈折叠设计；在本说明书的再一些实施例中，显示屏1004可以是柔性显示屏，设置在电子设备100的弯曲表面上或折叠面上。甚至，显示屏1004还可以设置成非矩形的不规则图形，也即异形屏。显示屏1004可以采用液晶显示屏(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等材质制备。

摄像头1005用于采集图像或视频。可选地，摄像头1005包括前置摄像头和后置摄像头。通常，前置摄像头设置在电子设备的前面板，后置摄像头设置在电子设备的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及虚拟现实(Virtual Reality，VR)拍摄功能或者其它融合拍摄功能。在本说明书的一些实施例中，摄像头1005还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1006可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1001进行处理。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。

电源1007用于为电子设备100中的各个组件进行供电。电源1007可以是交流电、直流电、一次性电池或可充电电池。当电源1007包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

本说明书实施例中示出的电子设备结构框图并不构成对电子设备100的限定，电子设备100可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在本说明书的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本说明书中的具体含义。此外，在本说明书的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本说明书实施例还提供了计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机或处理器上运行时，使得计算机或处理器执行上述实施例中的一个或多个步骤。上述基于语音的身份识别装置的各组成模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。上述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行上述计算机程序指令时，全部或部分地产生按照本说明书实施例上述的流程或功能。上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中，或者通过上述计算机可读存储介质进行传输。上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DigitalSubscriber Line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字多功能光盘(DigitalVersatile Disc，DVD))、或者半导体介质(例如，固态硬盘(Solid State Disk，SSD))等。

需要注意的是，上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述，仅为本说明书的具体实施方式，但本说明书的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本说明书揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本说明书的保护范围之内。因此，依本说明书权利要求所作的等同变化，仍属本说明书所涵盖的范围。

Claims

1.一种基于语音的身份识别方法，其中，所述方法包括：

获取待识别用户在待识别通话中的语音音频，得到待识别音频；

对所述待识别音频进行特征提取，得到所述待识别用户对应的目标声纹特征；

基于所述目标声纹特征与声纹特征库之间的特征比对，确定所述待识别用户的身份。

2.根据权利要求1所述的方法，其中，所述声纹特征库为第一声纹特征库，所述第一声纹特征库中存储有对应于多个用户的声纹特征，所述多个用户均属于目标身份的用户；

所述基于所述目标声纹特征与声纹特征库之间的特征比对，确定所述待识别用户的身份，包括：

分别计算所述目标声纹特征与所述第一声纹特征库中多个声纹特征之间的第一相似度；

在所述第一相似度的最大值大于或等于第一预设值的情况下，确定所述待识别用户的身份为所述目标身份；

在所述第一相似度的最大值大于或等于第二预设值且小于所述第一预设值的情况下，确定所述待识别用户的身份为潜在目标身份，其中，所述第一预设值大于所述第二预设值。

3.根据权利要求2所述的方法，其中，在所述分别计算所述目标声纹特征与所述第一声纹特征库中多个声纹特征之间的第一相似度之后，所述方法还包括：

在所述第一相似度的最大值大于或等于所述第一预设值的情况下，在所述声纹特征库中确定出相对应的声纹特征，所述相对应的声纹特征对应于目标用户；

将所述待识别用户对应的目标声纹特征，关联至所述第一声纹特征库中的目标用户。

4.根据权利要求2所述的方法，其中，所述方法还包括：

将身份为所述目标身份的第i用户的声纹特征作为第i种子声纹特征，i取值为正整数；

将所述第i种子声纹特征与所述第i用户的身份标识关联后存储，以构建所述第一声纹特征库。

5.根据权利要求1所述的方法，其中，所述声纹特征库为第二声纹特征库，所述第二声纹特征库中存储有对应于多个用户的声纹特征，所述多个用户均属于非目标身份的用户；

分别计算所述目标声纹特征与所述第二声纹特征库中多个声纹特征之间的第二相似度；

在所述第二相似度的最大值大于或等于第三预设值的情况下，确定所述待识别用户的身份为所述非目标身份。

6.根据权利要求5所述的方法，其中，所述方法还包括：

在非目标身份的用户在进行系统用户注册时，获取所述非目标身份的第j用户的声纹特征，得到第j种子声纹特征，j取值为正整数；

将所述第j种子声纹特征与所述第j用户的身份标识关联后存储，以构建所述第二声纹特征库。

7.根据权利要求1至5中任意一项所述的方法，其中，在所述对所述待识别音频进行特征提取，得到所述待识别用户对应的目标声纹特征之前，所述方法还包括：

根据所述待识别音频中包含的语音停顿信息以及预设的语音片段长度，对所述待识别音频进行分片处理，得到具有时序的分片音频表；

其中，所述具有时序的分片音频表用于进行特征提取。

8.根据权利要求7所述的方法，其中，所述对所述待识别音频进行特征提取，得到所述待识别用户对应的目标声纹特征，包括：

对所述具有时序的分片音频表中的每个分片音频进行特征提取，得到所述具有时序的分片音频表对应的音频特征序列；

将所述音频特征序列输入深度特征提取模型，并将所述深度特征提取模型的输出确定为所述待识别用户对应的目标声纹特征。

9.根据权利要求8所述的方法，其中，所述深度特征提取模型，包括：卷积层、编码层、池化层以及全连接层；其中，

所述卷积层用于获取所述音频特征序列的深层次特征，得到深层次特征序列；

所述编码层用于对所述深层次特征序列进行编码处理；

所述池化层和全连接层用于：对所述编码处理之后的深层次特征序列分别进行池化处理和全连接处理，得到声纹特征序列；

其中，所述声纹特征序列用于确定所述目标声纹特征。

10.根据权利要求9所述的方法，其中，所述深度特征提取模型，还包括：在全连接层后的嵌入层；

所述待识别音频进行特征提取，得到所述待识别用户对应的目标声纹特征，包括：

通过所述嵌入层对所述得到声纹特征序列进行压缩处理，得到一条关于所述待识别用户的声纹特征，得到所述目标声纹特征。

11.根据权利要求9所述的方法，其中，所述待识别音频进行特征提取，得到所述待识别用户对应的目标声纹特征，包括：

将所述声纹特征序列确定为所述目标声纹特征。

12.一种基于语音的身份识别装置，其中，所述装置包括：

音频获取模块，用于获取待识别用户在待识别通话中的语音音频，得到待识别音频；

特征提取模块，用于对所述待识别音频进行特征提取，得到所述待识别用户对应的目标声纹特征；

身份识别模块，用于基于所述目标声纹特征与声纹特征库之间的特征比对，确定所述待识别用户的身份。

13.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1至11中任一项所述的基于语音的身份识别方法。

14.一种计算机可读存储介质，其中，所述计算机可读存储介质中存储有指令，当所述指令在计算机或处理器上运行时，使得所述计算机或处理器执行如权利要求1至11中任一项所述的基于语音的身份识别方法。

15.一种包含指令的计算机程序产品，其中，当所述计算机程序产品在计算机或处理器上运行时，使得所述计算机或处理器执行如权利要求1至11中任一项所述的基于语音的身份识别方法。