CN113726736B

CN113726736B - 基于个体行为内聚性的身份认证方法及系统

Info

Publication number: CN113726736B
Application number: CN202110838416.0A
Authority: CN
Inventors: 崔纪鹏; 王翔; 杨一峰; 张文彬; 马成; 段晶; 王思洁; 丁杰; 沈佳佳
Original assignee: Zhejiang Jiaxing Digital City Laboratory Co ltd
Current assignee: Zhejiang Jiaxing Digital City Laboratory Co ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2023-04-07
Anticipated expiration: 2041-07-23
Also published as: CN113726736A

Abstract

本发明涉及一种基于个体行为内聚性的身份认证方法及系统。它解决了现有技术中个体行为建模效果不佳的问题。它包括S1、构建数据表；S2、从一体化、智能化公共数据平台上获取个体行为信息，并进行数据采集和存储；S3、对获取的个体行为信息进行预处理，S4、搭建基于个体行为内聚性的身份认证算法中心；S5、对身份认证算法中心进行充分测试、验证和调优，在身份认证算法中心之上搭建应用；S6、进行行为信息输入，身份认证算法中心对行为信息以及存储的个体行为信息进行计算并输出身份认证的合法性概率，通过将输出的身份认证的合法性概率与设定的阈值进行对比。本发明的优点在于：对个体行为的整体进行全面刻画，提高了个体行为建模效果。

Description

基于个体行为内聚性的身份认证方法及系统

技术领域

本发明涉及身份认证技术领域，具体涉及一种基于个体行为内聚性的身份认证方法及系统。

背景技术

身份认证是确保网络环境安全的重要手段之一，现有的用户身份认证方法，无论是单一账号密码方式还是数字证书形式，都有自身难以克服的易复制、易盗取、易传播等缺点，无法满足身份认证的安全性和唯一性的要求。以人体本身固有的诸如声音、虹膜、指纹等生理特征作为身份识别的依据，客观上来说具有较高的准确率，但是需要额外的辅助设备，所以这种方式只能在某些固定场合发挥作用，并不具有普遍性。因此在实际应用中，该类方法的有效性和可靠性难以得到保障。

相对而言，基于行为的身份认证方法具有非侵入性、不可抵赖性和稳定性等优点，越来越成为身份认证的重要手段，它依赖于对个体行为模式的挖掘和刻画，有效的个体行为模型，除了能够在刻画个性化行为模式的同时，还要反应个体之间的共性。在实际应用中，个体行为是由多个不同的属性共同刻画的。

现有的个体行为建模方法，通常是将这些行为属性分开考虑，采用个体行为聚合或特征工程等方法得到依赖于具体属性的统计学分布，以此作为个体行为模式的度量。在这样的建模过程中，个体行为属性之间的整体性无法得到有效保障，从而导致建模的效果不佳。

发明内容

本发明的目的是针对上述问题，提供一种设计合理、使用效果好的基于个体行为内聚性的身份认证方法。

本发明的目的是针对上述问题，提供一种设计合理、操作方便的基于个体行为内聚性的身份认证系统。

为达到上述目的，本发明采用了下列技术方案：本基于个体行为内聚性的身份认证方法，本方法包括以下步骤：

S1、以个体的身份证号作为主键或外键构建用于记录属性字段和属性值类型的数据表；提前构建数据表用于对获取的个体行为信息进行预处理。

S2、从一体化、智能化公共数据平台上获取个体行为信息，采用统一的API接口或数据库对接的方式进行数据采集和存储；对个体行为信息进行采集和存储，便于后期进行数据比对。

S3、对获取的个体行为信息进行预处理，通过预处理形成完整描述个体行为信息的数据表；

S4、搭建基于个体行为内聚性的身份认证算法中心；身份认证算法中心的搭建能够实现对个体行为信息的建模，具体包括构建目标函数和设计训练算法。

S5、对身份认证算法中心进行充分测试、验证和调优，在身份认证算法中心之上搭建应用，对外暴露接口，并集成到一体化、智能化公共数据平台需要身份认证的操作环节中；对身份认证算法中心进行充分测试、验证和调优可以防止算法错误的产生，提高算法准确性。

S6、进行行为信息输入，身份认证算法中心结合个体行为模型对输入的行为信息进行内聚性计算并输出身份认证的合法性概率，进而将输出的身份认证的合法性概率与设定的阈值进行对比得到身份认证结果，若大于设定的阈值则表示身份认证通过，若小于设定的阈值则表示身份认证不通过。通过离线的模型训练和在线的快速阈值判断，提高了认证效率。

在上述的基于个体行为内聚性的身份认证方法中，在步骤S2中，个体行为信息包括登录行为、浏览行为、办事行为和社交行为，其中，

个体行为信息由一系列的属性刻画组成，即τ＝<a₁，a₂，...，a_J>，其中a_j(j＝1，2，...，J)是属性A_j对应的属性值，所有行为的集合记作T，采用嵌入的方法，将所有的行为属性值映射为共享向量空间中的点。

在上述的基于个体行为内聚性的身份认证方法中，在步骤S3中，预处理的内容包括行为数据表连接、数据完整性验证、属性字段归一化处理、连续字段离散化处理、字段缺失值填充和无效数据过滤。这里对个体行为信息进行多样化处理，去除无效信息，留存有效信息并进行数据验证和归类，有利于提高数据的准确度。

在上述的基于个体行为内聚性的身份认证方法中，在步骤S4中，基于个体行为内聚性的身份认证算法中心搭建包括三个算法模块建设和两个数据库建设；三个算法模块分别是个体行为内聚性建模算法模块、行为内聚性概率化算法模块以及基于阈值判断的认证结果输出模块；两个数据库分别是个体行为库和属性嵌入库。

在上述的基于个体行为内聚性的身份认证方法中，个体行为内聚性建模算法模块包括设置嵌入向量空间的维度大小、定义行为内聚性向量、个体行为内聚性、内聚性偏序，并构建个体行为内聚性的最优化目标函数，设计基于随机梯度下降的参数优化方法且进行模型训练，训练得到的个体行为向量存入个体行为库中，训练得到的属性嵌入向量存入到属性嵌入库中，其中，

对于行为属性A_j(j＝1,2,…,J)的任意一个属性值a_j，将其映射为d维向量空间中的一个点，即

一个行为τ可以描述为嵌入矩阵m(τ)＝[a₁，a₂，...，a_J]，利用嵌入矩阵列向量之间的相似性，可定义行为τ的内聚性向量为h(τ)＝(a₁·a₂，a₁·a₃，...，a₁·a_J，a₂·a₃，...，a₂·a_J，...，a_J-1·a_J)，如果描述行为的属性个数为J，则其内聚性向量维度为K＝J·(J-1)/2，相应地，用一个K维向量

描述个体i的行为模式，称为个体的行为向量，在此基础上，定义个体对行为的内聚性如下：

个体i对行为τ的内聚性定义为其行为向量bⁱ与内聚性向量h(τ)的内积，即

对于个体i和行为τ_p，τ_q∈T，内聚性偏序

表示个体i对行为τ_p的内聚性高于其对行为τ_q的内聚性，如果

那么通过行为τ_p认证个体i的合法性高于行为τ_q，则个体对行为的内聚性偏好满足条件：

如果将个体对行为的内聚性偏好看作随机事件，那么对应的内聚性偏好事件集合为：

假设个体i的内聚性偏好事件相互独立，则所有偏好事件的联合概率表示为：

对于偏好事件

其发生的概率可以用以下数学表达式计算：

其中，

其作用是将任意实数转化为区间(0-1)内的值，进一步假设不同个体对应的内聚性偏好事件相互独立，则优化的目标函数表示为：

其中，I为所有个体的集合，用Θ＝{bⁱ，v₁：，v₂：，...，v_J：|i∈I}表示模型的参数集，那么最优参数可通过最大化上述目标函数得到：

在上述的基于个体行为内聚性的身份认证方法中，对于最优化目标函数，将目标函数转化为负对数的形式，即

其中，

为参数的二范数正则项，用于防止训练过程中的过拟合现象发生，参数λ控制正则项的影响程度，在目标函数转化后，最优化参数可通过以下方式获得：

采用随机梯度下降的方法进行模型参数优化，对于任意内聚性偏好

而言，目标函数对模型参数的梯度表示为：

其中，δ＝-(1-σ(bⁱ·(h(τ_p)-h(τ_q))))是依赖于模型当前迭代参数的常量，a_p，s和a_q，s分别是行为τ_p和τ_q嵌入矩阵的第s(s＝1，2，...，J)个列向量，根据梯度公式，训练过程中参数的迭代方法如下：

其中η为学习率，用于控制参数在每一步迭代过程中的跨度。

在上述的基于个体行为内聚性的身份认证方法中，个体行为库的主键为代表个体的身份证号；属性嵌入库的主键为包含字段名和字段值信息在内的统一编码。这样设置便于后续的查询操作。

在上述的基于个体行为内聚性的身份认证方法中，行为内聚性概率化算法模块包括从个体行为库中查询得到个体的行为向量，根据行为的字段名和字段取值从属性嵌入库中查询得到对应的向量表示，并计算该行为的内聚性向量，根据个体对行为的内聚性定义，计算得到个体行为数据并对其进行概率化处理，输出身份认证的合法性概率，其中，

在模型训练完成之后，对于任意个体i，得到表示其行为模式的行为向量bⁱ，对于任意行为τ＝<a₁，a₂，...，a_I>，得到其嵌入矩阵m(τ)，进而得到其内聚性向量h(τ)，相应地，得到个体行为内聚性

作为以行为τ认证个体i的合法性依据，然而，

的值是任意的实数，没有固定的取值范围，所以不能直接使用，需要对其进行归一化处理，即对于个体行为内聚性

将其转化为以行为τ认证个体i的合法性概率：

具体步骤如下：

A、对于除了τ之外的所有行为τ′∈T，分别计算个体i的行为内聚性

并将它们的集合记作Fⁱ；

B、设置计数器C，遍历Fⁱ中的行为内聚性取值

如果

则C值加1；

C、计算以行为τ认证个体i的合法性概率，

在上述的基于个体行为内聚性的身份认证方法中，基于阈值判断的认证结果输出模块包括阈值的设定，根据输出身份认证的合法性概率与阈值进行对比，从而确定是否认证通过，其中，假设设定的阈值为p，如果

则身份认证通过；反之，如果

则身份认证不通过。

根据上述的基于个体行为内聚性的身份认证方法提供一种基于个体行为内聚性的身份认证系统。身份认证系统安全性佳。

与现有的技术相比，本发明的优点在于：设计合理，基于个体行为内聚性的身份认证，安全性更好，且不同个体交易属性之间整体性得到了有效保障，提高了建模效果，对基于行为的身份认证具有重要的理论意义和实用价值。

附图说明

图1是本发明中的身份认证流程图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步详细的说明。

如图1所示，本基于个体行为内聚性的身份认证方法，本方法包括以下步骤：

S1、以个体的身份证号作为主键或外键构建用于记录属性字段和属性值类型的数据表；通过预先构建数据表对采集的个体行为数据进行整理记录并确定行为数据的主要属性字段和属性值类型。

S2、从一体化、智能化公共数据平台上获取个体行为信息，采用统一的API接口或数据库对接的方式进行数据采集和存储；

S4、搭建基于个体行为内聚性的身份认证算法中心；

S5、对身份认证算法中心进行充分测试、验证和调优，在身份认证算法中心之上搭建应用，对外暴露接口，并集成到一体化、智能化公共数据平台需要身份认证的操作环节中；这里的操作环节包括用户登录、数据申请、关键资源访问等，能够提供及时的、精确的、非侵入式的、个性化的身份认证服务。

S6、进行行为信息输入，身份认证算法中心结合个体行为模型对输入的行为信息进行内聚性计算并输出身份认证的合法性概率，通过将输出的身份认证的合法性概率与设定的阈值进行对比得到身份认证结果，若大于设定的阈值则表示身份认证通过，若小于设定的阈值则表示身份认证不通过。

其中，在步骤S2中，个体行为信息包括登录行为、浏览行为、办事行为和社交行为，其中，

个体行为信息由一系列的属性刻画组成，即τ＝<a₁，a₂，...，a_J>，其中a_j＝(j＝1，2，...，J)是属性A_j对应的属性值，所有行为的集合记作T，采用嵌入的方法，将所有的行为属性值映射为共享向量空间中的点。通过数据预处理，形成完整描述个体行为的csv格式文件，该文件应该能够满足后续的机器学习或数据挖掘等数据分析环节的质量需求。

可见地，在步骤S3中，预处理的内容包括行为数据表连接、数据完整性验证、属性字段归一化处理、连续字段离散化处理、字段缺失值填充和无效数据过滤。

显然地，在步骤S4中，基于个体行为内聚性的身份认证算法中心搭建包括三个算法模块建设和两个数据库建设；三个算法模块分别是个体行为内聚性建模算法模块、行为内聚性概率化算法模块以及基于阈值判断的认证结果输出模块；两个数据库分别是个体行为库和属性嵌入库。

进一步地，个体行为内聚性建模算法模块包括设置嵌入向量空间的维度大小、定义行为内聚性向量、个体行为内聚性、内聚性偏序，并构建个体行为内聚性的最优化目标函数，设计基于随机梯度下降的参数优化方法且进行模型训练，训练得到的个体行为向量存入个体行为库中，训练得到的属性嵌入向量存入到属性嵌入库中，其中，

对于个体i和行为τ_p，τ_q∈T，内聚性偏序

对于偏好事件

其发生的概率可以用以下数学表达式计算：

其中，

这里的个体行为内聚性建模算法模块的输入是采集到的个体行为数据，输出是个体行为向量和属性字段值的向量化表示。

具体地，对于最优化目标函数，将目标函数转化为负对数的形式，即

其中，

而言，目标函数对模型参数的梯度表示为：

其中η为学习率，用于控制参数在每一步迭代过程中的跨度。个体行为库中训练得到的行为向量也能够为其他应用或服务提供支撑，比如各类个性化的推荐或预测服务等。

更进一步地，个体行为库的主键为代表个体的身份证号；属性嵌入库的主键为包含字段名和字段值信息在内的统一编码。设置统一编码便于后续的个体行为信息查询。

更具体地，行为内聚性概率化算法模块包括从个体行为库中查询得到个体的行为向量，根据行为的字段名和字段取值从属性嵌入库中查询得到对应的向量表示，并计算该行为的内聚性向量，根据个体对行为的内聚性定义，计算得到个体行为数据并对其进行概率化处理，输出身份认证的合法性概率，其中，

在模型训练完成之后，对于任意个体i，得到表示其行为模式的行为向量bⁱ，对于任意行为τ＝<a₁，a₂，...，a_J>，得到其嵌入矩阵m(τ)，进而得到其内聚性向量h(τ)，相应地，得到个体行为内聚性

作为以行为τ认证个体i的合法性依据，然而，

将其转化为以行为τ认证个体i的合法性概率：

具体步骤如下：

并将它们的集合记作Fⁱ；

B、设置计数器C，遍历Fⁱ中的行为内聚性取值

如果

则C值加1；

C、计算以行为τ认证个体i的合法性概率，

详细地，基于阈值判断的认证结果输出模块包括阈值的设定，根据输出身份认证的合法性概率与阈值进行对比，从而确定是否认证通过，其中，假设设定的阈值为p，如果

则身份认证通过；反之，如果

则身份认证不通过。这里的行为内聚性概率化算法模块的输入是个体i和行为τ′，输出是根据行为τ′对个体i进行身份认证的合法性概率。

一种基于个体行为内聚性的身份认证系统。通过个体行为的内聚性构建目标函数以及求解方法，实现了对个体行为的全面刻画，提高了建模效果，使身份认证更加安全。

综上所述，本实施例的原理在于：通过定义属性嵌入、行为内聚性向量、个体对行为的内聚性、内聚性偏序、构建内聚性最优目标函数及求解方法、设计个体内聚性概率化方法，实现了对个体行为整体的全面刻画，为解决个体行为建模的充分性和行为身份认证的有效性提供了理论支撑和技术实现，提高了建模效果。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

尽管本文较多地使用了内聚性、个体行为等技术术语，但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质；把它们解释成任何一种附加的限制都是与本发明精神相违背的。

Claims

1.一种基于个体行为内聚性的身份认证方法，其特征在于，本方法包括以下步骤：

S1、以个体的身份证号作为主键或外键构建用于记录属性字段和属性值类型的数据表；

S4、搭建基于个体行为内聚性的身份认证算法中心；

S5、对身份认证算法中心进行充分测试、验证和调优，在身份认证算法中心之上搭建应用，对外暴露接口，并集成到一体化、智能化公共数据平台需要身份认证的操作环节中；

S6、进行行为信息输入，身份认证算法中心结合个体行为模型对输入的行为信息进行内聚性计算并输出身份认证的合法性概率，通过将输出的身份认证的合法性概率与设定的阈值进行对比得到身份认证结果，若大于设定的阈值则表示身份认证通过，若小于设定的阈值则表示身份认证不通过；

在步骤S2中，个体行为信息包括登录行为、浏览行为、办事行为和社交行为，其中，

个体行为信息由一系列的属性刻画组成，即τ＝<a₁，a₂，...，a_J>，其中a_j(j＝1，2，...，J)是属性A_j对应的属性值，所有行为的集合记作T，采用嵌入的方法，将所有的行为属性值映射为共享向量空间中的点；

在步骤S3中，预处理的内容包括行为数据表连接、数据完整性验证、属性字段归一化处理、连续字段离散化处理、字段缺失值填充和无效数据过滤；

在步骤S4中，基于个体行为内聚性的身份认证算法中心搭建包括三个算法模块建设和两个数据库建设；所述的三个算法模块分别是个体行为内聚性建模算法模块、行为内聚性概率化算法模块以及基于阈值判断的认证结果输出模块；所述的两个数据库分别是个体行为库和属性嵌入库；所述的个体行为内聚性建模算法模块包括设置嵌入向量空间的维度大小、定义行为内聚性向量、个体行为内聚性、内聚性偏序，并构建个体行为内聚性的最优化目标函数，设计基于随机梯度下降的参数优化方法且进行模型训练，训练得到的个体行为向量存入个体行为库中，训练得到的属性嵌入向量存入到属性嵌入库中，其中：

对于行为属性A_j(j＝1，2，…，J)的任意一个属性值a_j，将其映射为d维向量空间中的一个点，即

对于个体i和行为τ_p，τ_q∈T，内聚性偏序τ_p＞_iτ_q表示个体i对行为τ_p的内聚性高于其对行为τ_q的内聚性，如果τ_p＞_iτ_q，那么通过行为τ_p认证个体i的合法性高于行为τ_q，则个体对行为的内聚性偏好满足条件：

如果将个体对行为的内聚性偏好看作随机事件，那么对应的内聚性偏好事件集合为：Ωⁱ＝{τ_p＞_iτ_q|τ_p，τ_q∈T}，假设个体i的内聚性偏好事件相互独立，则所有偏好事件的联合概率表示为：

对于偏好事件τ_p＞_iτ_q，其发生的概率可以用以下数学表达式计算：

其中，

。

2.根据权利要求1所述的基于个体行为内聚性的身份认证方法，其特征在于，对于最优化目标函数，将目标函数转化为负对数的形式，即

其中，

采用随机梯度下降的方法进行模型参数优化，对于任意内聚性偏好τ_p＞_iτ_q而言，目标函数对模型参数的梯度表示为：

3.根据权利要求2所述的基于个体行为内聚性的身份认证方法，其特征在于，所述的个体行为库的主键为代表个体的身份证号；所述的属性嵌入库的主键为包含字段名和字段值信息在内的统一编码。

4.根据权利要求3所述的基于个体行为内聚性的身份认证方法，其特征在于，所述的行为内聚性概率化算法模块包括从个体行为库中查询得到个体的行为向量，根据行为的字段名和字段取值从属性嵌入库中查询得到对应的向量表示，并计算该行为的内聚性向量，根据个体对行为的内聚性定义，计算得到个体行为数据并对其进行概率化处理，输出身份认证的合法性概率，其中，