CN108766444A

CN108766444A - 用户身份验证方法、服务器及存储介质

Info

Publication number: CN108766444A
Application number: CN201810311098.0A
Authority: CN
Inventors: 王健宗; 胡秋涵; 李梦迪; 郑斯奇; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-04-09
Filing date: 2018-04-09
Publication date: 2018-11-06
Anticipated expiration: 2038-04-09
Also published as: WO2019196303A1; CN108766444B

Abstract

本发明提出一种用户身份验证方法，包括：接收带有目标用户身份标识的身份验证请求，从客户端获取该目标用户的当前语音数据；将该当前语音数据输入训练好的声纹识别模型中，确定该目标用户的当前声纹特征向量，确定所述目标用户身份标识对应的标准声纹特征向量；计算所述当前声纹特征向量与所述标准声纹特征向量之间的距离；及，根据所述距离分析目标用户是否通过身份验证，将所述身份验证结果发送给该客户端。本发明还提出一种身份验证服务器及计算机可读存储介质。利用本发明，可以避免因语音数据采集渠道不同造成的声纹鉴别向量与实际声纹鉴别向量差异较大的问题，提高身份验证的准确。

Description

用户身份验证方法、服务器及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种用户身份验证方法、服务器及计算机可读存储介质。

背景技术

目前，随着声纹识别技术的不断发展，利用声纹验证技术实现用户身份的验证，已经成为各大客户服务公司(例如，银行、保险公司、游戏公司等)的重要鉴权手段。

传统的利用声纹验证技术实现用户身份验证的业务方案是：现有的声纹识别技术，通常使用的是来自于单一渠道收集的声纹的数据训练的声纹验证模型，然后使用训练的声纹验证模型对来自不同渠道的声纹数据进行声纹验证。

然而，这种传统的声纹验证方案的缺陷在于：在跨设备使用时，因不同类型设备之间的差异容易导致采集的声纹数据的差异较大，识别的准确性无法满足要求。

发明内容

本发明提供一种用户身份验证方法、服务器及计算机可读存储介质，其主要目的在于避免因语音数据采集渠道不同造成的声纹鉴别向量与实际声纹鉴别向量差异较大的问题，提高身份验证的准确性。

为实现上述目的，本发明提供一种用户身份验证方法，该方法包括：

接收带有目标用户身份标识的身份验证请求，从客户端获取该目标用户的当前语音数据；

将该当前语音数据输入训练好的声纹识别模型中，确定该目标用户的当前声纹特征向量，根据预先确定的用户身份标识与标准声纹特征向量的映射关系，确定所述目标用户身份标识对应的标准声纹特征向量；

利用预先确定的距离计算公式计算所述当前声纹特征向量与所述标准声纹特征向量之间的距离；及

根据所述距离分析目标用户是否通过身份验证，将所述身份验证结果发送给该客户端。

此外，为实现上述目的，本发明还提供一种身份验证服务器，该服务器包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的用户身份验证程序，该程序被处理器执行时实现如下步骤：

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有用户身份验证程序，该程序被处理器执行时实现如上所述的用户身份验证方法的任意步骤。

相较于现有技术，本发明提出的用户身份验证方法、服务器及计算机可读存储介质，通过重新定义声纹识别模型，并采用不同渠道收集的声纹数据训练得到的声纹识别模型从当前语音数据中提取出目标用户的当前声纹鉴别向量，在一定程度上避免了因语音数据采集渠道不同造成的声纹鉴别向量与实际声纹鉴别向量差异较大的问题，提高提取声纹鉴别向量的准确性；通过计算当前声纹鉴别向量与预先确定的用户身份标识对应的标准声纹鉴别向量之间的距离，并根据预设数量的最小距离对应的用户身份标识中是否包含目标用户身份标识，分析目标用户身份验证是否通过，在一定程度上提高了用户身份验证的成功率。

附图说明

图1为本发明用户身份验证服务器较佳实施例的示意图；

图2为图1中用户身份验证程序的程序模块示意图；

图3为本发明用户身份验证方法较佳实施例的流程图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种用户身份验证服务器1。参照图1所示，为本发明身份验证服务器1较佳实施例的示意图。

在本实施例中，身份验证服务器1可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器。

该身份验证服务器1包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是所述身份验证服务器1的内部存储单元，例如该身份验证服务器1的硬盘。存储器11在另一些实施例中也可以是所述身份验证服务器1的外部存储设备，例如该身份验证服务器1上配备的插接式硬盘，智能存储卡(SmartMediaCard,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(FlashCard)等。进一步地，存储器11还可以既包括该身份验证服务器1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于该身份验证服务器1的应用软件及各类数据，例如用户身份验证程序10、预先确定的用户身份标识与标准声纹鉴别向量的映射关系等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12可以是一中央处理器(CentralProcessingUnit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如用户身份验证程序10等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该身份验证服务器1与其他电子设备之间建立通信连接，例如，身份验证服务器1通过网络接口14接收用户通过客户端(图中未标识)发送的携带目标身份标识的身份验证请求，并将身份验证结果反馈至客户端。

图1仅示出了具有组件11-14的身份验证服务器1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，该身份验证服务器1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。

可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(OrganicLight-EmittingDiode，OLED)触摸器等。其中，显示器也可以称为显示屏或显示单元，用于显示在身份验证服务器1中处理的信息以及用于显示可视化的用户界面。

在图1所示的实施例中，存储器11中存储有用户身份验证程序10。处理器12执行存储器11中存储的用户身份验证程序10时实现如下步骤：

在本实施例中，客户端为目标用户使用的具备语音采集功能的客户端计算机或者移动终端，目标用户通过客户端发送身份验证请求。当接收到客户端发送来的带有目标用户身份标识(例如，身份证号)的身份验证请求后，为了防止目标用户进行虚假操作，需采集当前发出该身份验证请求的用户的实时语音数据，即利用客户端采集目标用户的当前语音数据，针对采集的当前语音数据，构建出相应的当前声纹鉴别向量。另外，事先为预先确定的用户身份标识设置对应的标准声纹鉴别向量，得到预先确定的用户身份标识与标准声纹鉴别向量的映射关系，并将该映射关系保存至数据库(图中未标识)中，所述预先确定的用户身份标识包含所述目标用户身份标识。例如，用户身份标识M₁对应标准声纹鉴别向量用户身份标识M₂对应标准声纹鉴别向量然后，根据身份验证请求中携带的目标用户身份标识，从数据库中调取用户身份标识与标准声纹鉴别向量的映射关系，并确定与目标用户身份标识对应的标准声纹鉴别向量。

作为一种实施方式，在采集到目标用户的当前语音数据后，将当前语音数据输入预先训练好的声纹识别模型中，以确定当前语音数据对应的当前声纹鉴别向量。

具体地，所述声纹识别模型通过如下步骤获取：预先获取第一预设数量(例如，5000个)的用户的语音样本，每一个用户的语音样本包括第二预设数量(例如，10份)的不同语音段样本，其中，不同的语音段样本分别通过不同的渠道(例如，不同的终端)获取，并利用获取的每一个用户的语音样本训练所述预设类型的声纹识别模型，生成训练好的声纹识别模型。通过利用不同渠道收集的声纹数据训练声纹识别模型，后续利用该声纹识别模型获取来自不同渠道的语音数据的声纹鉴别向量，可在一定程度上避免因语音数据采集渠道不同造成的声纹鉴别向量与实际声纹鉴别向量差异较大的问题，提高识别声纹鉴别向量的准确性。

进一步地，在训练声纹识别模型之前，需对声纹识别模型进行定义。在本实施例中，该声纹识别模型包括代表本征音空间矩阵的说话人空间特征项和代表本征信道空间矩阵的信道空间特征项。需要说明的是，说话人空间特征项只与说话人有关而与说话人具体内容无关，表述了说话人的类间差异，为方便算法计算，将该特征项汇集总结为矩阵的形式，表示为本征音空间矩阵，其中包含的内容定义为说话人特征项，包含了相应说话人独有的信息，每个人之间的该特征项都是不同的；信道空间特征项表示了同一说话人的不同差异，即因信道不同造成的噪音差异，为方便算法计算，将该特征项汇集总结为矩阵的形式，表示为本征信道空间矩阵，其中包含的内容定义为信道空间特征项，包含了同一说话人通过不同的信道而带来的声纹差异信息，也就是说，同一个人的同一段语音经过不同声道后，该特征项是不同的。其中，所述说话人空间特征项包括说话人声纹特征向量，所述信道空间特征项包括信道因素特征向量。

优选地，所述声纹识别模型的模型公式为：

X_ij＝μ+Fh_i+Gw_ij+ε_ij

其中，X_ij表示第i个说话人的第j条语音，μ表示所有语音样本数据的均值，F表示身份空间且包含了用来表示各种身份的基底，F的每一列就相当于类间空间的特征向量，h_i表示第i个说话人的声纹特征向量，G表示误差空间且包含了用来表示同一身份不同变化的基底，G的每一列相当于类内空间的特征向量，w_ij表示第i个说话人的第j条语音的信道因素特征向量，ε_ij表示残留噪声项，用来表示尚未解释的因素，该项可以为零均高斯分布，“μ+Fh_i”表示说话人空间特征项，“Gw_ij+∈_ij”表示信道空间特征项。需要说明的是，同一个说话人的不同语音段对应的声纹特征向量h_i是相同的，通过模型训练，可以训练出Gw_ij+∈_ij因素关系。

利用上述声纹识别模型提取出目标用户的当前语音数据对应的当前声纹鉴别向量后，根据预先确定的距离计算公式计算当前声纹鉴别向量与目标用户身份标识对应的标准声纹鉴别向量之间的距离。作为一种实施方式，预先确定的距离计算公式可以为：

其中，D表示当前声纹鉴别向量与目标用户身份标识对应的标准声纹鉴别向量之间的距离，表示身份验证请求中携带的目标用户身份标识对应的标准声纹鉴别向量，表示从当前语音数据中提取出的当前声纹鉴别向量。

可以理解的是，当前声纹鉴别向量与标准声纹鉴别向量之间的距离越大，说明两个向量对应的说话人越不可能是同一个人。因此，预设一个距离阈值，当计算的距离小于或者等于预设的距离阈值时，确定声纹验证结果为声纹验证通过，即确定目标用户身份验证通过；否则，声纹验证结果为声纹验证失败，即确定目标用户身份验证失败，并将身份验证结果反馈至客户端。

在其他实施例中，在分别确定目标用户的当前语音数据对应的当前声纹鉴别向量、与目标用户身份标识对应的标准声纹鉴别向量后，利用预先确定的距离计算公式计算当前声纹特征向量与目标用户身份标识对应的标准声纹特征向量之间的距离的同时，还计算当前声纹特征向量与各个预先确定的(例如，n个，n为整数，且n＞0)其他用户对应的预存标准声纹特征向量之间的多个距离，也就是说，分别计算当前声纹鉴别向量与上述所有预先确定的用户身份标识对应的标准声纹鉴别向量之间的距离D_i，其中，i为整数，且0＜i≤n，具体计算方式与上述实施例一致，这里不作赘述。

进一步地，按照从大到小的顺序，对所述当前声纹特征向量与各个预先确定的用户身份标识对应的标准声纹特征向量之间的距离进行排序，所述各个预先确定的用户身份标识中包括目标用户身份标识；从n个距离中筛选出排序在前的距离对应的第三预设数量(例如，5个)的用户身份标识，判断该第三预设数量(例如，5个)的用户身份标识中是否包含目标用户身份标识；当所述第三预设数量(例如，5个)的用户身份标识中包含目标用户身份标识时，判断声纹验证结果为声纹验证通过，即目标用户身份验证通过，否则，判断声纹验证结果为声纹验证失败，即目标用户身份验证失败，并将身份验证结果反馈至客户端。需要说明的是，第三预设数量数值越大，声纹识别通过的可能性越大，然而，识别的准确性无法得到保证，因此，为了提高声纹验证的准确性，可以根据实际需求对筛选的排序在前的第三预设数量进行调整(例如，将第三预设数量调整至2个)。

上述实施例提出的服务器1，通过重新定义声纹识别模型，并采用不同渠道收集的声纹数据训练得到的声纹识别模型从当前语音数据中提取出目标用户的当前声纹鉴别向量，在一定程度上避免了因语音数据采集渠道不同造成的声纹鉴别向量与实际声纹鉴别向量差异较大的问题，提高提取声纹鉴别向量的准确性；通过计算当前声纹鉴别向量与预先确定的用户身份标识对应的标准声纹鉴别向量之间的距离，并根据预设数量的最小距离对应的用户身份标识中是否包含目标用户身份标识，分析目标用户身份验证是否通过，在一定程度上提高了用户身份验证的成功率。

可选地，在其他的实施例中，用户身份验证程序10还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行，以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。例如，参照图2所示，为图1中用户身份验证程序10的程序模块示意图，该实施例中，用户身份验证程序10可以被分割为获取模块110、向量提取模块120、计算模块130及分析模块140，所述模块110-140所实现的功能或操作步骤均与上文类似，此处不再详述，示例性地，例如其中：

获取模块110，用于接收带有目标用户身份标识的身份验证请求，从客户端获取该目标用户的当前语音数据；

向量提取模块120，用于将该当前语音数据输入训练好的声纹识别模型中，确定该目标用户的当前声纹特征向量，根据预先确定的用户身份标识与标准声纹特征向量的映射关系，确定所述目标用户身份标识对应的标准声纹特征向量；

计算模块130，用于利用预先确定的距离计算公式计算所述当前声纹特征向量与所述标准声纹特征向量之间的距离；及

分析模块140，用于根据所述距离分析目标用户是否通过身份验证，将所述身份验证结果发送给该客户端。

此外，本发明还提供一种用户身份验证方法。参照图3所示，为本发明用户身份验证方法较佳实施例的流程图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，用户身份验证方法包括步骤S1-S4：

步骤S1，接收带有目标用户身份标识的身份验证请求，从客户端获取该目标用户的当前语音数据；

步骤S2，将该当前语音数据输入训练好的声纹识别模型中，确定该目标用户的当前声纹特征向量，根据预先确定的用户身份标识与标准声纹特征向量的映射关系，确定所述目标用户身份标识对应的标准声纹特征向量；

步骤S3，利用预先确定的距离计算公式计算所述当前声纹特征向量与所述标准声纹特征向量之间的距离；及

步骤S4，根据所述距离分析目标用户是否通过身份验证，将所述身份验证结果发送给该客户端。

优选地，所述声纹识别模型的模型公式为：

X_ij＝μ+Fh_i+Gw_ij+∈_ij

其中，X_ij表示第i个说话人的第j条语音，μ表示所有语音样本数据的均值，F表示身份空间且包含了用来表示各种身份的基底，F的每一列就相当于类间空间的特征向量，h_i表示第i个说话人的声纹特征向量，G表示误差空间且包含了用来表示同一身份不同变化的基底，G的每一列相当于类内空间的特征向量，w_ij表示第i个说话人的第j条语音的信道因素特征向量，∈_ij表示残留噪声项，用来表示尚未解释的因素，该项可以为零均高斯分布，“μ+Fh_i”表示说话人空间特征项，“Gw_ij+∈_ij”表示信道空间特征项。需要说明的是，同一个说话人的不同语音段对应的声纹特征向量h_i是相同的，通过模型训练，可以训练出Gw_ij+∈_ij因素关系。

在其他实施例中，所述步骤S3可以替换为：利用预先确定的距离计算公式计算当前声纹特征向量与所述各个预先确定的用户身份标识对应的标准声纹特征向量之间的距离。

在分别确定目标用户的当前语音数据对应的当前声纹鉴别向量、与目标用户身份标识对应的标准声纹鉴别向量后，利用预先确定的距离计算公式计算当前声纹特征向量与目标用户身份标识对应的标准声纹特征向量之间的距离的同时，还计算当前声纹特征向量与各个预先确定的(例如，n个，n为整数，且n＞0)其他用户对应的预存标准声纹特征向量之间的多个距离，也就是说，分别计算当前声纹鉴别向量与上述所有预先确定的用户身份标识对应的标准声纹鉴别向量之间的距离D_i，其中，i为整数，且0＜i≤n，具体计算方式与上述实施例一致，这里不作赘述。

进一步地，所述步骤S4可以替换为：按照从大到小的顺序，对所述当前声纹特征向量与各个预先确定的用户身份标识对应的标准声纹特征向量之间的距离进行排序，所述各个预先确定的用户身份标识中包括目标用户身份标识；从n个距离中筛选出排序在前的距离对应的第三预设数量(例如，5个)的用户身份标识，判断该第三预设数量(例如，5个)的用户身份标识中是否包含目标用户身份标识；当所述第三预设数量(例如，5个)的用户身份标识中包含目标用户身份标识时，判断声纹验证结果为声纹验证通过，即目标用户身份验证通过，否则，判断声纹验证结果为声纹验证失败，即目标用户身份验证失败，并将身份验证结果反馈至客户端。需要说明的是，第三预设数量数值越大，声纹识别通过的可能性越大，然而，识别的准确性无法得到保证，因此，为了提高声纹验证的准确性，可以根据实际需求对筛选的排序在前的第三预设数量进行调整(例如，将第三预设数量调整至2个)。

上述实施例提出的用户身份验证方法，通过重新定义声纹识别模型，并采用不同渠道收集的声纹数据训练得到的声纹识别模型从当前语音数据中提取出目标用户的当前声纹鉴别向量，在一定程度上避免了因语音数据采集渠道不同造成的声纹鉴别向量与实际声纹鉴别向量差异较大的问题，提高提取声纹鉴别向量的准确性；通过计算当前声纹鉴别向量与预先确定的用户身份标识对应的标准声纹鉴别向量之间的距离，并根据预设数量的最小距离对应的用户身份标识中是否包含目标用户身份标识，分析目标用户身份验证是否通过，在一定程度上提高了用户身份验证的成功率。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有用户身份验证程序10，该程序被处理器执行时实现如下操作：

本发明计算机可读存储介质具体实施方式与上述用户身份验证方法的各实施例基本相同，在此不作累述。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种用户身份验证方法，其特征在于，该方法包括：

2.如权利要求1所述的用户身份验证方法，其特征在于，所述“根据所述距离分析目标用户是否通过身份验证”的步骤包括：

当计算的距离小于或者等于预设阈值时，判断目标用户身份验证通过；或

当计算的距离大于预设阈值时，判断目标用户身份验证失败。

3.如权利要求1或2所述的用户身份验证方法，其特征在于，所述声纹识别模型的训练过程包括：

预先获取第一预设数量的用户的语音样本，每一个所述用户的语音样本包括第二预设数量的不同语音段样本，并利用获取的各个所述用户的语音样本训练所述预设类型的声纹识别模型，生成训练好的声纹识别模型。

4.如权利要求3所述的用户身份验证方法，其特征在于，所述声纹识别模型包括：代表本征音空间矩阵的用户空间特征项和代表本征信道空间矩阵的信道空间特征项，所述用户空间特征项包括用户声纹特征向量，所述信道空间特征项包括信道因素特征向量。

5.如权利要求4所述的用户身份验证方法，其特征在于，所述声纹识别模型的公式为：

X_ij＝μ+Fh_i+Gw_ij+ε_ij

其中，X_ij表示第i个说话人的第j条语音，μ表示所有语音样本数据的均值，F表示身份空间且包含了用来表示各种身份的基底，F的每一列就相当于类间空间的特征向量，h_i表示第i个说话人的声纹特征向量，G表示误差空间且包含了用来表示同一身份不同变化的基底，G的每一列相当于类内空间的特征向量，w_ij表示第i个说话人的第j条语音的信道因素特征向量，ε_ij表示残留噪声项，“μ+Fh_i”表示说话人空间特征项，“Gw_ij+ε_ij”表示信道空间特征项。

6.如权利要求1所述的用户身份验证方法，其特征在于，所述“利用预先确定的距离计算公式计算所述当前声纹特征向量与所述标准声纹特征向量之间的距离”的步骤可以替换为：

利用预先确定的距离计算公式计算当前声纹特征向量与各个预先确定的用户身份标识对应的标准声纹特征向量之间的距离。

7.如权利要求6所述的用户身份验证方法，其特征在于，所述“根据所述距离分析目标用户是否通过身份验证”的步骤包括：

按照从大到小的顺序，对所述当前声纹特征向量与各个预先确定的用户身份标识对应的标准声纹特征向量之间的距离进行排序，所述各个预先确定的用户身份标识中包括目标用户身份标识；

筛选出排序在前的距离对应的第三预设数量的用户身份标识，判断该第三预设数量的用户身份标识中是否包含目标用户身份标识；

当所述第三预设数量的用户身份标识中包含目标用户身份标识时，判断目标用户身份验证通过；或

当所述第三预设数量的用户身份标识中不包含目标用户身份标识时，判断目标用户身份验证失败。

8.一种身份验证服务器，其特征在于，该服务器包括：存储器、处理器，所述存储器上存储有可在所述处理器上运行的用户身份验证程序，该程序被所述处理器执行时实现如下步骤：

9.如权利要求8所述的身份验证服务器，其特征在于，所述“根据所述距离分析目标用户是否通过身份验证”的步骤包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有用户身份验证程序，该程序被处理器执行时实现如权利要求1至7中任一项所述的用户身份验证方法的步骤。