CN109346088A

CN109346088A - 身份识别方法、装置、介质及电子设备

Info

Publication number: CN109346088A
Application number: CN201811490181.5A
Authority: CN
Inventors: 刘兴旺
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2019-02-15

Abstract

本发明实施例涉及数据处理技术领域，提供了一种身份识别方法、身份识别装置、计算机可读介质及电子设备，该身份识别方法包括：对待识别用户的音频片段进行预处理获得第一语音特征数据；基于神经网络模型，根据所述第一语音特征数据确定待识别声纹特征；将所述待识别声纹特征与预先设置的声纹特征库中的标记声纹特征进行比对，并根据比对结果对所述待识别用户进行身份识别。本发明实施例的技术方案基于经过大数据训练后的神经网络模型能够获得对待识别用户的深层表示特征，能够扩展声纹特征维度，有利于增加不同的标记声纹之间的差异度，进而有利于提高对待测试用户进行身份识别的准确性和稳定性。

Description

身份识别方法、装置、介质及电子设备

技术领域

本发明涉及数据处理技术领域，具体而言，涉及一种身份识别方法、身份识别装置、计算机可读介质及电子设备。

背景技术

声纹(Voiceprint)是用电声学仪器显示的携带言语信息的声波频谱。每个人发出的声音是由人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的器官——舌、牙齿、喉头、肺、从测试者的语音中提取短时语音频谱(即基因频率谱及其固有特征)特征作为测试者的声纹特征(记作“待测声纹特征”)，并将提取到的待测声纹特征与已有的声纹模型库中的模板声纹特征进行匹配，鼻腔在尺寸和形态等方面，不同人的声纹之间存在差异性。同时，同一个人在十几岁发育变声之后，其声纹基本保持不变。因此，可以通过声纹进行身份识别被广泛应用。

利用现有的基于声纹的身份识别方法进行身份识别的过程中，进而通过计算待测声纹特征和模板声纹特征的相似度的方式完成对+测试者的身份识别。其中，声纹模型库中的模板声纹特征也可以是利用短时语音频谱方法提取的。

然而，现有的基于声纹的身份识别方法的准确度有待提高。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明实施例的目的在于提供一种身份识别方法、身份识别装置、计算机可读介质及电子设备，进而至少在一定程度上克服现有的基于声纹的身份识别方法的准确度有待提高的缺点。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明实施例的第一方面，提供了一种身份识别方法，包括：

对待识别用户的音频片段进行预处理获得第一语音特征数据；

基于神经网络模型，根据所述第一语音特征数据确定待识别声纹特征；

将所述待识别声纹特征与预先设置的声纹特征库中的标记声纹特征进行比对，并根据比对结果对所述待识别用户进行身份识别。

在本发明的一些实施例中，基于前述方案，对待识别用户的音频片段进行预处理获得第一语音特征数据，包括：

根据对待识别用户的音频片段的频率分析，对所述音频片段分帧处理获得M个音频帧；

获取所述M个音频帧对应的梅尔频率倒谱系数MFCC特征，其中每个音频帧的MFCC特征包含N维；

根据所述MFCC特征确定所述音频片段对应的第一语音特征数据，其中所述第一语音特征数据为M*N维，M、N为正整数。

在本发明的一些实施例中，基于前述方案，在对待识别用户的音频片段进行预处理获得第一语音特征数据之前，还包括：

通过音频采集设备采集所述待测试用户的原始音频片段；

利用频域维纳滤波方法对所述原始音频片段的信道噪声进行去噪处理，得到去噪后的音频片段；

获取符合预设条件的去噪后的音频片段。

在本发明的一些实施例中，基于前述方案，基于神经网络模型，根据所述第一语音特征数据确定待识别声纹特征，包括：

根据所述第一语音特征数据获取测试锚样例和测试正样例，根据不同于所述第一语音特征数据的第二语音特征数据获取测试负样例；

训练神经网络模型，并将所述测试锚样例、所述测试正样例和所述测试负样例输入训练后的神经网络模型；

根据所述训练后的神经网络模型的输出确定待识别声纹特征。

在本发明的一些实施例中，基于前述方案，根据所述第一语音特征数据获取测试锚样例和测试正样例，根据不同于所述第一语音特征数据的第二语音特征数据获取测试负样例，包括：

将所述第一语音特征数据输入第一神经网络模型进行特征融合得到测试锚样例；将所述第一语音特征数据输入第二神经网络模型进行特征融合得到测试正样例；以及，将所述第二语音特征数据输入第三神经网络模型进行特征融合得到测试负样例。

在本发明的一些实施例中，基于前述方案，训练神经网络模型，包括：

根据标记用户的音频片段进行预处理获得第三语音特征数据；

根据所述第三语音特征数据获取训练锚样例和训练正样例，根据不同于所述第三语音特征数据的第四语音特征数据获取训练负样例，其中，所述训练锚样例、训练正样例和所述训练负样例形成训练数据集；

基于误差函数Triplet loss训练所述训练数据集，以获得训练后的神经网络模型。

在本发明的一些实施例中，基于前述方案，基于误差函数Triplet loss训练所述训练数据集，包括：

根据以下公式训练所述训练数据集，

其中,a表示所述训练锚样例，p表示所述训练正样例，n表示所述训练负样例，表示所述训练正样例和所述训练锚样例之间的第一欧式距离,表示所述训练负样例和所述训练锚样例之间的第二欧式距离，α是指所述第二欧式距离和所述第一欧式距离之间的距离之间的最小间隔。

在本发明的一些实施例中，基于前述方案，所述神经网络模型包括密集连接卷积网络模型。

本发明实施例的第二方面，提供了一种身份识别装置，包括：

语言特征数据获取模块，用于对待识别用户的音频片段进行预处理获得第一语音特征数据；

声纹特征确定模块，用于基于神经网络模型，根据所述第一语音特征数据确定待识别声纹特征；

身份识别模块，用于将所述待识别声纹特征与预先设置的声纹特征库中的标记声纹特征进行比对，并根据比对结果对所述待识别用户进行身份识别。

根据本发明实施例的第三方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述实施例中第一方面所述的身份识别方法。

根据本发明实施例的第四方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中第一方面所述的身份识别方法。

本发明实施例提供的技术方案可以包括以下有益效果：

在本发明的一些实施例所提供的技术方案中，通过对待识别用户的音频片段进行预处理获得语音特征数据，以进一步地，将语音特征数据输入训练后的神经网络模型，并根据神经网络模型的输出确定待识别声纹特征。一方面，基于经过大数据训练后的神经网络模型能够获得对待识别用户的深层表示特征，从而扩展声纹特征维度，从而使得待测试声纹特征能够更全面且准确地反映待识别用户的特征，有利于提高身份识别的准确性。另一方面，预先设置的声纹特征库中的标记声纹特征也可以基于上述经过大数据训练后的神经网络模型确定，从而，有利于增加不同的标记声纹之间的差异度，进而有利于提高对待测试用户进行身份识别的准确性和稳定性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了根据本发明的实施例的身份识别方法的流程示意图；

图2示意性示出了根据本发明实施例的另一身份识别方法的流程示意图；

图3示意性示出了根据本发明实施例的再一身份识别方法的流程示意图；

图4示意性示出了根据本发明实施例的又一身份识别方法的流程示意图；

图5示意性示出了根据本发明实施例的声纹特征确定方法的流程示意图；

图6示意性示出了根据本发明实施例的又一身份识别方法的流程示意图；

图7示出了根据本发明的实施例的身份识别装置的结构示意图；

图8示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

声纹识别(Voiceprint Recognition，简称：VPR)，通常也被称为话者识别(Speaker Recognition，简称：SR)。一般可以分为两类，包括：发音人辨认(SpeakerIdentification，简称：SI)和发音人确认(Speaker Verification，简称：SV)。其中，对于SI，具体是判断某段语音片段是若干人(可称作标记用户，即多个标记用户)中的哪位(可称作待识别用户)所说的，从而通过待识别用户的语音实现对待识别用户的身份识别。对于SV，具体是确认某语音片段是否是指定的某人(可称作标记用户，即一个标记用户)所说。不管是SI中解决的辨认问题，还SV中所解决的确认问题，都需要先对说话人(可称作待识别用户)的声纹特征进行提取。

现有的基于声纹的身份识别方法中，利用短时语音频谱特征方法进行声纹特征提取，进而根据提取到的声纹特征对测试者进行身份识别。其中，利用短时语音频谱特征方法进行声纹特征提取可能导致声纹特征维度比较局限，从而造成不同人的声纹之间的差异性不足，进而影响身份识别的准确性和稳定性。

图1示出了根据本发明的实施例的身份识别方法的流程示意图。本实施例提供的身份识别方法至少在一定程度上克服现有的身份识别方法存在的以上缺点。其中，本实施例提供的身份识别方法的执行主体可以是具有计算处理功能的设备，比如服务器等。

步骤S101，对待识别用户的音频片段进行预处理获得第一语音特征数据；

步骤S102，基于神经网络模型，根据所述第一语音特征数据确定待识别声纹特征；以及，

步骤S103，将所述待识别声纹特征与预先设置的声纹特征库中的标记声纹特征进行比对，并根据比对结果对所述待识别用户进行身份识别。

在图1示出的实施例所提供的技术方案中，通过对待识别用户的音频片段进行预处理获得语音特征数据，以进一步地，将语音特征数据输入训练后的神经网络模型，并根据神经网络模型的输出确定待识别声纹特征。一方面，基于经过大数据训练后的神经网络模型能够获得对待识别用户的深层表示特征，从而扩展声纹特征维度，从而使得待测试声纹特征能够更全面且准确地反映待识别用户的特征，有利于提高身份识别的准确性。另一方面，预先设置的声纹特征库中的标记声纹特征也可以基于上述经过大数据训练后的神经网络模型确定，从而，有利于增加不同的标记声纹之间的差异度，进而有利于提高对待测试用户进行身份识别的准确性和稳定性。

以下对图1所示实施例中的各个步骤的具体实施方式进行详细阐述。

以上述SI类问题为例进行说明，即具体是判断某段语音片段是若干人(可称作标记用户，即多个标记用户)中的哪位(可称作待识别用户)所说的，从而通过待识别用户的语音实现对待识别用户的身份识别。其中，“标记用户”为已知身份信息的用户，且标记用户与标记身份特征相对应。例如：标记声纹特征a为根据标记用户A发出的语音片段获取的，标记声纹特征b为根据标记用户B发出的语音片段获取的，等。“待识别用户”的身份信息为未知，通过待识别声纹特征来对“待识别用户”的身份信息进行识别。例如，对于待识别声纹a’，通过与标记声纹特征比对可知，待识别声纹特征a’与标记声纹特征a的相似度大于预设阈值，由于标记声纹特征a与标记用户A相对应，因此，可通过待识别声纹特征a’进行身份识别，识别结果为标记用户A。

在步骤S101中获取第一语音特征数据。在示例性的实施例中，无论是标记声纹特征，还是待识别声纹特征均需进行以下处理：

图2示意性示出了根据本发明实施例的另一身份识别方法的流程示意图。具体涉及获取音频片段以及对音频片段进行去噪的具体实施方式。参考图2，该方法包括步骤S201-步骤S203。

在步骤S201中，通过音频采集设备采集所述待测试用户的原始音频片段。

在示例性的实施例中，上述音频采集设备可以是电话的听筒、录音机、音频采集器等具有获取语音、将获取的语音进行存储的设备。

示例性的，保险领域的某保险公司，可以为公司的客户建立声纹库。则当客户在客户致电保险公司进行咨询自己保单的相关信息(如：保单的状态、保额、预约投保、投诉、理赔及体检信息等)时，根据本实施例提供的方法，可以直接确认客户的身份信息，不需要客户再次提供其他身份信息。从而，此保险公司的业务人员可以根据客户的语言对此客户的身份进行准确识别。进而可以提供沟通效率，为客户提供高效，便捷，准确的服务，提高客户的咨询体验。

其中，此例中通过电话的听筒实时获取待识别用户的语言片段。在示例性的实施例中，还可以将待识别用户的语言片段进行保存，进而通过播放待识别用户的语言片段的方法对其进行身份识别。也就是说，上述语音片段可以是实时的、也可以是非实时的。

在步骤S202中，利用频域维纳滤波方法对所述原始音频片段的信道噪声进行去噪处理，得到去噪后的音频片段。

在示例性的是实例中，音频采集设备在采集音频片段时可能带来信道噪声。若不对音频片段进行去噪处理，将导致提取到的声纹特征纯度低，从而降低身份识别的准确度。本实施例中，采用频域维纳滤波方法对所述原始音频片段的信道噪声进行去噪处理，得到去噪后的音频片段。

在示例性的实施例中，上述频域维纳滤波方法进行去噪处理的过程可以视为在一个线性时不变系统，经过维纳滤波时，在均方误差最小化准则下，使得去噪语音的输出与期望的纯净语音信号达到最接近的过程。

在步骤S203中，获取符合预设条件的去噪后的音频片段。

在示例性的实施例中，可以检测去噪后的音频片段的纯度，并将纯度小于或等于预设阈值的音频片段去除，保留纯度大于预设阈值的音频片段。或者，当去噪后的音频片段的纯度不能达到预设阈值时，将继续对其进行去噪处理，直至去噪后的音频片段达到上述预设阈值。以提高身份识别的准确率。

在示例性的实施例中，无论是标记声纹特征，还是待识别声纹特征，经过上述实施例提供的去噪处理后，还需进行以下处理：

图3示意性示出了根据本发明实施例的再一身份识别方法的流程示意图。具体涉及根据音频片段获取语音特征数据的具体实施方式。参考图3，该方法包括步骤S301-步骤S303。

在步骤S301中，根据对待识别用户的音频片段的频率分析，对所述音频片段分帧处理获得M个音频帧；在步骤S302中，获取所述M个音频帧对应的梅尔频率倒谱系数MFCC特征，其中每个音频帧的MFCC特征包含N维；以及，在步骤S303中，根据所述MFCC特征确定所述音频片段对应的第一语音特征数据，其中所述第一语音特征数据为M*N维，M、N为正整数。

在示例性的实施例中，获取去噪处理后的语音特征数据对应的语谱图进行频率分析，然后以每帧取20ms，每帧之间的间隔为10ms的方式对其进行分帧。分别获取每帧的梅尔频率倒谱系数(Mel-frequency cepstral coefficients，简称：MFCC)特征。其中，每帧获取MFCC的39维的特征，每段语音的特征向量由三部分拼接组成。首先是语音特征序列的平均特征，每一个维度的特征都是获取的该维度语音特征的平均值，对于MFCC来说特征维度是13；其次是所得特征中每一维的标准差，它表示了特征分布的扩展；最后是取相邻特征之间的一介差分的均值，它表示了特征随时间变化的平均值，维度同样为13。然后取一段语音的128帧组合成128*39维的语音特征数据。

需要说明的是，本实施例中以待测试用户对应的第一语言数据为例进行说明的，本文中涉及的第二语音特征数据、第三语音特征数据，以及第四语音特征数据的获取方法均可以使用上述方法确定。

继续参考图1，在获取语音特征数据之后，在步骤S102中，根据语音特征数据确定声纹特征。

在示例性的实施例中，无论是标记声纹特征，还是待识别声纹特征，可以通过以下实施例提供的方法获取。

图4示意性示出了根据本发明实施例的又一身份识别方法的流程示意图。具体涉及根据语音特征数据获取声纹特征的具体实施方式。参考图4，该方法包括步骤S401-步骤S403。

在示例性的实施例中，图5示意性示出了根据本发明实施例的声纹特征确定方法的流程示意图。以下结合图5对图4的各个具体实施方式进行阐述。

在步骤S401中，根据所述第一语音特征数据获取测试锚样例和测试正样例，根据不同于所述第一语音特征数据的第二语音特征数据获取测试负样例。

参考图5，通过第二神经网络模型51获取正样例。具体的，第二神经网络模型51的输入层为第一语音特征数据(None,128,39,1)，第二神经网络模型51的输出层为测试正样例(None,128,39,1)。通过第一神经网络模型52获取测试锚样例。具体的，第一神经网络模型52的输入层为第一语音特征数据(None,128,39,1)，第一神经网络模型52的输出层为测试锚样例(None,128,39,1)。通过第三神经网络模型53获取测试负样例。具体的，第三神经网络模型53的输入层为不同于第一语音特征数据的第二语音特征数据(None,128,39,1)，第三神经网络模型53的输出层为测试负样例(None,128,39,1)。

在步骤S402中，训练神经网络模型，并将所述测试锚样例、所述测试正样例和所述测试负样例输入训练后的神经网络模型；以及，在步骤S403中，根据所述训练后的神经网络模型的输出确定待识别声纹特征。

在示例性的实施例中，参考图5，训练得到的神经网络模型54。步骤S401中获取的锚样例、正样例以及负样例均作为神经网络模型54的输入，且其输出为对应的声纹特征。

在示例性的实施例中，上述神经网络模型54可以是任一通过大数据训练后得到的神经网络模型。一方面，基于经过大数据训练后的神经网络模型能够获得对待识别用户的深层表示特征，从而扩展声纹特征维度，从而使得待测试声纹特征能够更全面且准确地反映待识别用户的特征，有利于提高身份识别的准确性。另一方面，预先设置的声纹特征库中的标记声纹特征也可以基于上述经过大数据训练后的神经网络模型确定，从而，有利于增加不同的标记声纹之间的差异度，进而有利于提高对待测试用户进行身份识别的准确性和稳定性。

本实施例中，以模型密集连接卷积网络(记作Triplet Net)模型为例进行声纹特征的提取，其中，模型Triplet Net的具体结构如下表表1所示：

表1

采用上述深度网络模型，在保证身份识别的准确性和稳定性的基础上，还能够有效解决梯度消失问题，并强化声纹特征传播，以及支持前后特征重用，大幅度减少参数数量提高模型计算效率。

在示例性的实施例中，图6示意性示出了根据本发明实施例的又一身份识别方法的流程示意图。具体包括对于步骤S402中训练神经网络模型的具体实施方式。参考图6，该方法包括步骤S601-步骤S603。

在步骤S601中，根据标记用户的音频片段进行预处理获得第三语音特征数据；以及，在步骤S602中，根据所述第三语音特征数据获取训练锚样例和训练正样例，根据不同于所述第三语音特征数据的第四语音特征数据获取训练负样例，其中，所述训练锚样例、训练正样例和所述训练负样例形成训练数据集。

在示例性的实施例中，上述训练锚样例、训练正样例和训练负样例的获取方法与步骤S401中示出的测试锚样例、测试正样例和测试负样例的获取方法相同，在此不再赘述。

在示例性的实施例中，获取海量标记用户对应的测试锚样例、测试正样例和测试负样例作为训练数据集。

在步骤S603中，基于误差函数Triplet loss训练所述训练数据集，以获得训练后的神经网络模型。

在示例性的实施例中，基于误差函数Triplet loss训练所述训练数据集。具体地，可以根据以下公式训练所述训练数据集，

其中，表示所述训练正样例和所述训练锚样例之间的第一欧式距离,表示所述训练负样例和所述训练锚样例之间的第二欧式距离，α是指所述第二欧式距离和所述第一欧式距离之间的距离之间的最小间隔。

可见，同一组中的训练锚样例、训练正样例、训练负样例共享同一模型TripletNet，通过上述公式对模型Triplet Net进行训练，已达到将同一组中的训练锚样例与训练正样例聚类，同时，训练锚样例远离训练负样例。

对模型Triplet Net的训练目标为：使得上述公式(即损失函数)收敛，即使得同一组中训练锚样例与训练正样例越接近越好，同时训练锚样例与训练负样例越远越好。

可见，一方面，当α值越小时，上述损失函数较易收敛至较小的数值。此时，同一组中训练锚样例与训练正样例不会聚类的很近，且同一组中训练锚样例与训练负样例也不会分离的太远，就能使得上述损失函数收敛于0。导致的结果为，声纹特征之间的差异度较小，则不能明显地区分相似的声音，会较低身份识别的准确性。另一方面，当α越大时，上述损失函数不易收敛至较小的数值，难以趋近于0。

在示例性的实施例中，设置α＝0.2，此时，上述损失函数较易收敛至0.01～0.03附近。当然，α的取值根据实际需求进行设定，不限于上述取值0.2。

以下介绍本发明的装置实施例，可以用于执行本发明上述的身份识别方法。

图7示出了根据本发明的实施例的身份识别装置的结构示意图，参考图7，身份识别装置700，包括：语言特征数据获取模块701、声纹特征确定模块702和声纹特征确定模块703。

其中，语言特征数据获取模块701用于对待识别用户的音频片段进行预处理获得第一语音特征数据；声纹特征确定模块702用于基于神经网络模型，根据所述第一语音特征数据确定待识别声纹特征；以及，身份识别模块703用于将所述待识别声纹特征与预先设置的声纹特征库中的标记声纹特征进行比对，并根据比对结果对所述待识别用户进行身份识别。

在本发明的一些实施例中，基于前述方案，语言特征数据获取模块701，具体用于：

根据对待识别用户的音频片段的频率分析，对所述音频片段分帧处理获得M个音频帧；获取所述M个音频帧对应的梅尔频率倒谱系数MFCC特征，其中每个音频帧的MFCC特征包含N维；以及，根据所述MFCC特征确定所述音频片段对应的第一语音特征数据，其中所述第一语音特征数据为M*N维，M、N为正整数。

在本发明的一些实施例中，基于前述方案，身份识别装置700，还包括：去噪模块。

其中，去噪模块用于：

通过音频采集设备采集所述待测试用户的原始音频片段；利用频域维纳滤波方法对所述原始音频片段的信道噪声进行去噪处理，得到去噪后的音频片段；以及，获取符合预设条件的去噪后的音频片段。

在本发明的一些实施例中，基于前述方案，声纹特征确定模块702，包括：样例获取单元、模型训练单元以及声纹特征确定单元。

其中，样例获取单元用于根据所述第一语音特征数据获取测试锚样例和测试正样例，根据不同于所述第一语音特征数据的第二语音特征数据获取测试负样例；

模型训练单元用于训练神经网络模型，并将所述测试锚样例、所述测试正样例和所述测试负样例输入训练后的神经网络模型；以及，

声纹特征确定单元用于根据所述训练后的神经网络模型的输出确定待识别声纹特征。

在本发明的一些实施例中，基于前述方案样例获取单元，具体用于：

在本发明的一些实施例中，基于前述方案，模型训练单元，具体用于：

根据标记用户的音频片段进行预处理获得第三语音特征数据；根据所述第三语音特征数据获取训练锚样例和训练正样例，根据不同于所述第三语音特征数据的第四语音特征数据获取训练负样例，其中，所述训练锚样例、训练正样例和所述训练负样例形成训练数据集；以及，基于误差函数Triplet loss训练所述训练数据集，以获得训练后的神经网络模型。

在本发明的一些实施例中，基于前述方案，模型训练单元，具体用于：根据以下公式训练所述训练数据集。

由于本发明的示例实施例的身份识别装置的各个功能模块与上述身份识别方法的示例实施例的步骤对应，因此对于本发明装置实施例中未披露的细节，请参照本发明上述的身份识别方法的实施例。

下面参考图8，其示出了适于用来实现本发明实施例的电子设备的计算机系统800的结构示意图。图8示出的电子设备的计算机系统800仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有系统操作所需的各种程序和数据。CPU801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如上述实施例中所述的身份识别方法。

例如，所述的电子设备可以实现如图1中所示的：步骤S101，对待识别用户的音频片段进行预处理获得第一语音特征数据；步骤S102，基于神经网络模型，根据所述第一语音特征数据确定待识别声纹特征；步骤S103，将所述待识别声纹特征与预先设置的声纹特征库中的标记声纹特征进行比对，并根据比对结果对所述待识别用户进行身份识别。

又如，所述的电子设备可以实现如图2至图6任一图所示的各个步骤。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种身份识别方法，其特征在于，包括：

2.根据权利要求1所述的身份识别方法，其特征在于，对待识别用户的音频片段进行预处理获得第一语音特征数据，包括：

3.根据权利要求2所述的身份识别方法，其特征在于，在对待识别用户的音频片段进行预处理获得第一语音特征数据之前，还包括：

通过音频采集设备采集所述待测试用户的原始音频片段；

获取符合预设条件的去噪后的音频片段。

4.根据权利要求1至3任一项所述的身份识别方法，其特征在于，基于神经网络模型，根据所述第一语音特征数据确定待识别声纹特征，包括：

5.根据权利要求4所述的身份识别方法，其特征在于，根据所述第一语音特征数据获取测试锚样例和测试正样例，根据不同于所述第一语音特征数据的第二语音特征数据获取测试负样例，包括：

6.根据权利要求4所述的身份识别方法，其特征在于，训练神经网络模型，包括：

7.根据权利要求6所述的身份识别方法，其特征在于，基于误差函数Triplet loss训练所述训练数据集，包括：

根据以下公式训练所述训练数据集，

其中，a表示所述训练锚样例，p表示所述训练正样例，n表示所述训练负样例，表示所述训练正样例和所述训练锚样例之间的第一欧式距离，表示所述训练负样例和所述训练锚样例之间的第二欧式距离，α是指所述第二欧式距离和所述第一欧式距离之间的距离之间的最小间隔。

8.根据权利要求1至3任一项所述的身份识别方法，其特征在于，所述神经网络模型包括密集连接卷积网络模型。

9.一种身份识别装置，其特征在于，包括：

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至8中任一项所述的身份识别方法。

11.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至8中任一项所述的身份识别方法。