CN113536288B

CN113536288B - 数据认证方法、装置、认证设备及存储介质

Info

Publication number: CN113536288B
Application number: CN202110695812.2A
Authority: CN
Inventors: 张毅骏; 谭翔
Original assignee: Shanghai Para Software Co ltd
Current assignee: Shanghai Para Software Co ltd
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2023-10-27
Anticipated expiration: 2041-06-23
Also published as: CN113536288A

Abstract

本发明公开了一种数据认证方法、装置、认证设备及存储介质。该方法包括：获取待认证数据；若模型认证功能已开启，则通过预设的认证模型认证所述待认证数据为异常数据或非异常数据，其中，所述认证模型基于k均值聚类算法、线性支持向量机算法以及无标签样本数据构建；若模型认证功能未开启，则根据多因子认证策略认证所述待认证数据为异常数据或非异常数据。上述技术方案通过构建的认证模型以及多因子认证策略，可全面考虑各种因素对数据进行自动认证，提高了数据认证的安全性，并且具有更广的适用性。

Description

数据认证方法、装置、认证设备及存储介质

技术领域

本发明实施例涉及数据安全技术领域，尤其涉及一种数据认证方法、装置、认证设备及存储介质。

背景技术

近年来，人们对于数据和账号安全、身份信息等的安全意识越来越强烈。基于防火墙或者利用跳板机、网关等类似防火墙的设备，可以将网络拓扑划分为内网和外网，通常默认内网为安全的，外网为有威胁的，以此来检测业务数据是否存在异常，如果存在异常则拒绝相应的业务，以避免信息泄露或者财产损失等。但随着大数据技术的发展，业务复杂多样，这种基于内外网隔离的网络访问控制已经无法满足如今的安全性要求，例如，如果攻击者向内网设备发送带有攻击信息的电子邮件，或者高风险设备接入内网，仍会对数据安全造成威胁。

也有一些方法根据特定的策略来判断数据是否异常，但这些策略往往局限于设定了哪几种考虑因素或者认证规则，而除这些考虑因素和认证规则以外的情况则无法自动认证。目前的数据认证方法安全性低，应用时具有较大的局限性。

发明内容

本发明提供了一种数据认证方法、装置、认证设备及存储介质，以提高数据认证的安全性，具有更广的适用性。

第一方面，本发明实施例提供了一种数据认证方法，包括：

获取待认证数据；

若模型认证功能已开启，则通过预设的认证模型认证所述待认证数据为异常数据或非异常数据，其中，所述认证模型基于k均值聚类算法、线性支持向量机算法以及无标签样本数据构建；

若模型认证功能未开启，则根据多因子认证策略认证所述待认证数据为异常数据或非异常数据。

可选的，在获取待认证数据之前，还包括：

基于k均值聚类算法对无标签的样本数据进行聚类，以为所述无标签的样本数据添加标签；

基于线性支持向量机算法对添加标签后的样本数据进行分类；

根据分类结果构建所述认证模型。

可选的，基于k均值聚类算法对无标签的样本数据进行聚类，以为所述无标签的样本数据添加标签，包括：

计算每个无标签的样本数据与每个聚类中心之间的距离总和；

以最小化所述距离总和为优化目标更新各所述聚类中心，直至所述距离总和低于设定值或者达到最小值；

对于每个无标签的样本数据，将与该样本数据距离最近的更新后的聚类中心作为该样本数据的标签。

可选的，基于线性支持向量机算法对添加标签后的样本数据进行分类，包括：

基于线性支持向量机算法寻找最大白边方程，所述最大白边方程用于将所述添加标签后的样本数据分成正样本和负样本，且使得与所述最大白边方程所在的超平面最近的正样本以及与所述超平面最近的负样本之间的距离达到最大值。

可选的，根据分类结果构建所述认证模型，包括：

计算基于所述最大白边方程对测试数据进行分类的误差率；

若所述误差率小于或等于预设阈值，则将所述最大白边方程作为所述认证模型。

若所述添加标签后的样本数据中存在不可分样本，则丢弃所述不可分样本，或者，根据多因子认证策略确定所述不可分样本的分类。

可选的，根据多因子认证策略认证所述待认证数据为异常数据或非异常数据，包括：

根据以下至少两种因子确定所述待认证数据的风险等级：登录时间、登录设备类型、登录设备的网络环境、客户端版本以及网络地址；

根据所述风险等级确定所述待认证数据为异常数据或非异常数据。

第二方面，本发明实施例提供了一种数据认证装置，包括：

获取模块，用于获取待认证数据；

模型认证模块，用于若模型认证功能已开启，则通过预设的认证模型认证所述待认证数据为异常数据或非异常数据，其中，所述认证模型基于k均值聚类算法、线性支持向量机算法以及无标签样本数据构建；

多因子认证模块，用于若模型认证功能未开启，则根据多因子认证策略认证所述待认证数据为异常数据或非异常数据。

第三方面，本发明实施例提供了一种服务器，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的数据认证方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的数据认证方法。

本发明实施例提供了一种数据认证方法、装置、认证设备及存储介质。该方法包括：获取待认证数据；若模型认证功能已开启，则通过预设的认证模型认证所述待认证数据为异常数据或非异常数据，其中，所述认证模型基于k均值聚类算法、线性支持向量机算法以及无标签样本数据构建；若模型认证功能未开启，则根据多因子认证策略认证所述待认证数据为异常数据或非异常数据。上述技术方案通过构建的认证模型以及多因子认证策略，可全面考虑各种因素对数据进行自动认证，提高了数据认证的安全性，并且具有更广的适用性。

附图说明

图1为本发明实施例一提供的一种数据认证方法的流程图；

图2为本发明实施例二提供的一种数据认证方法的流程图；

图3为本发明实施例二提供的一种数据认证方法的实现流程图；

图4为本发明实施例三提供的一种数据认证装置的结构示意图；

图5为本发明实施例五提供的一种认证设备的硬件结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。此外，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

需要注意，本发明实施例中提及的“第一”、“第二”等概念仅用于对不同的装置、模块、单元或其他对象进行区分，并非用于限定这些装置、模块、单元或其他对象所执行的功能的顺序或者相互依存关系。

为了更好地理解本发明实施例，下面对相关技术进行介绍。

实施例一

图1为本发明实施例一提供的一种数据认证方法的流程图，本实施例可适用于对各类业务数据的安全性进行认证的情况。具体的，该数据认证方法可以由数据认证装置执行，该数据认证装置可以通过软件和/或硬件的方式实现，并集成在认证设备中。进一步的，认证设备包括但不限定于：台式计算机、笔记本电脑、智能手机以及服务器等电子设备。

如图1所示，该方法具体包括如下步骤：

S110、获取待认证数据。

具体的，待认证数据是指需要认证的、安全性未知的业务数据，例如，用户通过客户端登录应用时，需要认证其输入的账号、密码、网络环境、用户身份等是否存在异常，如果存在异常，则判断当前的业务数据安全性低，这种情况下拒绝相应的业务，或者需要询问用户是否确认继续进行相应的业务，也可以要求用户提供进一步的验证信息。除了登录应用，对于请求支付、更改账号信息、请求下载文件等业务都需要对相应的业务数据进行认证，在认证结果为非异常的情况下才能完成相应的业务。本实施例以对登录数据是否异常进行认证的情况为例，待认证数据可以包括登录密码、登录设备、登录的网络地址、登录的应用软件版本等，如果其中任意一种或多种信息与用户的历史信息或者已知安全的默认信息不一致，则可以将该待认证数据判定为异常数据。

S120、模型认证功能是否已开启？若是，则执行S130；否则，执行S140。

具体的，模型认证功能是指利用预设的认证模型对待认证数据进行自动、智能认证的功能。其中，预设的认证模型是基于机器学习算法和大量的样本数据训练得到的，已经学习到判断业务数据异常或非异常的规律，对于输入的待认证数据，可准确高效地输出对应的认证结果。在认证模型构建完成后，模型认证功能开启。

S130、通过预设的认证模型认证所述待认证数据为异常数据或非异常数据，其中，所述认证模型基于k均值聚类算法、线性支持向量机算法以及无标签样本数据构建。

具体的，k均值聚类算法用于为无标签的样本数据添加标签，作为无监督训练和构建认证模型的依据；通过线性支持向量机算法可以找到区分异常数据和非异常数据的界限，从而确定认证模型的关键模型参数。其中，标签可以包括两种：异常数据和非异常数据；或者，标签可以包括至少两种风险等级，例如包括无风险、低风险、中风险、高风险等，可将其中的无风险和低风险对应于非异常数据，中风险和高风险对应于异常数据。

基于k均值聚类算法添加标签的过程举例如下：样本数据是登录数据，包括登录密码、登录设备、登录的网络地址、登录的应用软件版本等多项，样本数据越充足、多样性越高，则认证模型的训练效果越好，认证的安全性和适用性更高。一种最简单的情况是：将各项数据均与已知安全的默认信息一致的样本数据自动聚为一类，且对应的标签为非异常数据；将任意一项数据与已知安全的默认信息不一致的样本数据自动聚为一类，且对应的标签为异常数据。

另一种情况例如是：将各项数据均与已知安全的默认信息一致的样本数据自动聚为一类，且对应的标签为无风险；将只有登录的应用软件版本与已知安全的默认信息不一致、其他各项数据与已知安全的默认信息一致的样本数据自动聚为一类，且对应的标签为低风险(应用软件版本发生了更新，可能会有部分功能不稳定，但通常不会威胁到用户的账号安全)；将登录设备与已知安全的默认信息不一致的样本数据自动聚为一类，且对应的标签为中风险(更换登录设备，有一定的可能性是由于账号信息泄露、被他人窃取等，在一定程度上威胁到用户的账号安全)；将登录设备与已知安全的默认信息不一致、登录密码也与已知安全的默认信息不一致的样本数据自动聚为一类，且对应的标签为高风险。进一步的，对应的标签为无风险或低风险的样本数据可统一认定为非异常数据，对应的标签为中风险或高风险的样本数据统一认定为异常数据。

S140、根据多因子认证策略认证所述待认证数据为异常数据或非异常数据。

具体的，多因子认证策略是指结合多种不同的因子对待认证数据进行认证，从而充分保证业务安全性。以对登录数据是否异常进行认证的情况为例，登录时间为一种因子，分为上班时间登录和下班时间登录两种；登录设备为另一种因子，分为移动端设备和桌面端设备两种，则多因子共包括四种情况：上班时间登录移动端设备、上班时间登录桌面端设备、下班时间登录移动端设备以及下班时间登录桌面端设备。多因子认证策略为所有情况提供了可靠全面的认证依据，例如，用户在上班时间仅可能登录桌面端设备，在下班时间仅可能登录移动端设备，则如果待认证数据的信息表明用户是在上班时间登录桌面端设备或在下班时间登录移动端设备，则认证其为非异常数据，除此以外的情况均认证为异常数据。实际应用中，通常涉及多中因子，多因子认证策略也会更为复杂，具体可根据实际需求设定多因子认证策略。可选的，对考虑多因子的各种情况也可以设定不同的风险等级，再根据待认证数据的风险等级确定其是否异常。

本发明实施例一提供的一种数据认证方法，通过利用构建的认证模型以及多因子认证策略，可全面考虑各种因素对数据进行自动认证，具有更广的适用性；此外，认证模型和多因子认证策略属于零信任准则模型，即，推翻了默认内网数据为安全数据的假设，将网络拓扑上的任何业务访问都视作平等的(都视作外网数据)，对外网数据不授信，而是进行统一的认证，确保了业务安全，提高数据认证的安全性。

实施例二

图2为本发明实施例二提供的一种数据认证方法的流程图，本实施例是在上述实施例的基础上进行优化，对认证模型的构建过程以及数据认证过程进行具体描述。需要说明的是，未在本实施例中详尽描述的技术细节可参见上述任意实施例。

具体的，如图2所示，该方法具体包括如下步骤：

S210、基于k均值聚类算法对无标签的样本数据进行聚类，以为无标签的样本数据添加标签。

具体的，k均值聚类算法用于为无标签的样本数据添加标签，作为无监督训练和构建认证模型的依据。标签可以包括两种：异常数据和非异常数据；或者，标签可以包括至少两种风险等级，例如包括无风险、低风险、中风险、高风险等，其中的无风险和低风险对应于非异常数据，中风险和高风险对应于异常数据。

可选的，基于k均值聚类算法对无标签的样本数据进行聚类，具体包括如下步骤：

S2101、计算每个无标签的样本数据与每个聚类中心之间的距离总和；

S2102、以最小化距离总和为优化目标更新各聚类中心，直至距离总和低于设定值或者达到最小值；

S2103、对于每个无标签的样本数据，将与该样本数据距离最近的更新后的聚类中心作为该样本数据的标签。

本实施例中用于训练的是无标签的样本数据，记为数据集X；聚类的簇的数量为K，随机指定K个聚类中心(即簇中心)，分别记作使K个聚类中心尽量均匀地分散在样本数据的取值范围内，能够使聚类算法快速收敛。在K＝2的情况下，两个簇对应的标签分别为异常数据和非异常数据。第i(i＝1,2,…,n)个样本数据x_i与第k个聚类中心的距离为/>每个无标签的样本数据与每个聚类中心的距离总和为其中，c(i)是包含x_i的簇。以最小化ESS为优化目标为每一个x_i重新指定聚类中心，并在每一轮重新指定数据后，重新计算ESS，反复执行此迭代优化过程，直到ESS低于设定值或者达到最小值(每次迭代的优化增量比较小，接近于0)。经过上述的聚类过程，每个样本数据都对应于一个聚类中心，即对应于一个标签。

S220、基于线性支持向量机算法对添加标签后的样本数据进行分类。

本实施例通过线性支持向量机对上述聚类过程所添加的标签进行进一步的验证，基于线性支持向量机算法可以确定一个超平面，用于对样本数据分类，如果添加标签后的样本数据都可以成功划分至该超平面的两侧，则该超平面即可作为认证模型的关键模型参数，用于自动认证待认证数据为异常数据还是非异常数据。

可选的，基于线性支持向量机算法对添加标签后的样本数据进行分类，具体包括：基于线性支持向量机算法寻找最大白边方程，所述最大白边方程用于将所述添加标签后的样本数据分成正样本和负样本，且使得与所述最大白边方程所在的超平面最近的正样本以及与所述超平面最近的负样本之间的距离达到最大值。

具体的，将第i个样本数据x_i对应的标签(即聚类后对应的簇中心)记为y_i，在k＝2的情况下，两个簇中心对应的标签包括：y_i＝+1表示非异常数据，y_i＝-1表示异常数据。假设y_i可以被一个超平面线性分离，即，存在一个关于x_i的方程f(x)＝β₀+x^Tβ＝0可以将y_i＝+1的样本数据代表的点和y_i＝-1的样本数据代表的点分离在该方程代表的线的左右两边，记d_-为离方程最近的y_i＝-1的样本数据点到该方程的距离，记d₊为离方程最近的y_i＝+1的样本数据点到该方程的距离，则“白边”定义为d＝d_-+d₊。如果能够找到一个超平面方程不但能将y_i＝+1的样本数据代表的点和y_i＝-1的样本数据代表的点分离在该方程代表的线的左右两边，而且能使得d最大，则将该超平面方程作为最大白边方程。

确定最大白边方程的过程实质为拉格朗日优化问题：其中，α为拉格朗日系数，为了使得F_p能够取到最值，将这个拉格朗日问题转化为以下的联立式：/>从而得到：/>据此可以确定最大白边方程。

可选的，基于线性支持向量机算法对添加标签后的样本数据进行分类，还包括：若添加标签后的样本数据中存在不可分样本，则丢弃不可分样本，或者，根据多因子认证策略确定不可分样本的分类。

具体的，如果在添加标签后的样本数据中存在不可分样本，即无法确定该样本数据应作为正样本还是负样本，则可丢弃该不可分样本，保证样本数据都是可分的，这种情况下，认证模型无法学习到对这类不可分样本的分类规律，如果实际应用时的待认证数据恰好是这类不可分的数据，则可以不开启模型认证功能，而是通过多因子认证策略进行认证。或者，也可以在训练过程中就利用多因子认证策略单独确定这类不可分样本的分类，这种情况下，认证模型除了用最大白边方程自动认证，还可以学习到这类不可分样本的分类规律，在实际应用时同样可以自动认证。

S230、根据分类结果构建所述认证模型。

具体的，如果所有添加标签后的样本数据的都可分，则添加标签后的样本数据对应的分类结果即为认证模型学习到的规律，据此构建认证模型。

可选的，根据分类结果构建所述认证模型，包括：计算基于最大白边方程对测试数据进行分类的误差率；若误差率小于或等于预设阈值，则将最大白边方程作为认证模型。

具体的，测试数据是带有标签的，用于测试最大白边方程的分类准确性，测试数据可以是从添加标签后的样本数据中选取的部分数据。误差率是指，在正标签区域内出现的负样本数量与在负标签区域内出现的正样本数量的总和占所有样本的数量的比率。如果利用所确定的最大白边方程对测试数据进行分类的误差率足够小，则认为该最大白边方程具有足够的可靠性，可作为认证模型的关键模型参数；如果误差率大于预设阈值，则测试数据在线性支持向量机算法下线性不可分，这种情况下可以重新执行聚类和分类的过程，直至误差率满足要求，得到可靠的认证模型。

S240、获取待认证数据。

S250、模型认证功能是否已开启？若是，则执行S260；否则，执行

S270根据至少两种因子确定所述待认证数据的风险等级。

示例性的，可以确定待认证数据的风险等级，再确定其对应于异常数据还是非异常数据。其中，多因子认证策略需要考虑的因子包括登录时间、登录设备类型、登录设备的网络环境、客户端版本以及网络地址中的至少两种。

S280、根据风险等级确定所述待认证数据为异常数据或非异常数据。

图3为本发明实施例二提供的一种数据认证方法的实现流程图。如图3所示，将全量的无标签的样本数据用于训练，一个聚类分析视作对样本数据的一种分块，k均值聚类算法自动将样本数据分成若干数据块，这些数据块的全体就是全量数据，为各个数据块添加不同的标签；然后基于线性支持向量机算法对添加标签后的数据进行分类，拉格朗日最优化的过程求解最大白边方程，完成对聚类结果进一步的验证。若没有出现线性不可分情况，则开启模型认证功能，根据K均值聚类与线性支持向量机的组合参数共同构建认证模型；若存在不可分样本的数据，则可以丢弃不可分的样本数据，关闭模型认证功能，或者手动添加相应的标签。K均值聚类算法实质用于对样本数据的内在关系进行充分学习，而线性支持向量机算法对标签的分布要求较高，若K均值聚类算法产出的标签能够被线性支持向量机算法可分，则可充分认为认证模型是可靠的。

本发明实施例二提供的一种数据认证方法，在上述实施例的基础上进行优化，样本数据可以是无标签的，易于获取，通过k均值聚类算法可添加标签；通过确定最大白边方程，一方面对聚类结果进行验证，另一方面为构建认证模型提供可靠的依据；利用测试数据确保误差率较小，提高认证模型的可靠性；通过构建认证模型并结合多因子认证策略，可全面考虑各种因素对数据进行自动认证，提高了数据认证的安全性，并且具有更广的适用性。

实施例三

图4为本发明实施例三提供的一种数据认证装置的结构示意图。如图4所示，本实施例提供的数据认证装置包括：

获取模块310，用于获取待认证数据；

模型认证模块320，用于若模型认证功能已开启，则通过预设的认证模型认证所述待认证数据为异常数据或非异常数据，其中，所述认证模型基于k均值聚类算法、线性支持向量机算法以及无标签样本数据构建；

多因子认证模块330，用于若模型认证功能未开启，则根据多因子认证策略认证所述待认证数据为异常数据或非异常数据。

本发明实施例三提供的一种数据认证装置，通过构建的认证模型以及多因子认证策略，可全面考虑各种因素对数据进行自动认证，提高了数据认证的安全性，并且具有更广的适用性。

在上述实施例的基础上，还包括：

聚类模块，用于在获取待认证数据之前，基于k均值聚类算法对无标签的样本数据进行聚类，以为所述无标签的样本数据添加标签；

分类模块，用于基于线性支持向量机算法对添加标签后的样本数据进行分类；

构建模块，用于根据分类结果构建所述认证模型。

在上述实施例的基础上，聚类模块，包括：

距离计算单元，用于计算每个无标签的样本数据与每个聚类中心之间的距离总和；

优化单元，用于以最小化所述距离总和为优化目标更新各所述聚类中心，直至所述距离总和低于设定值或者达到最小值；

标签添加单元，用于对于每个无标签的样本数据，将与该样本数据距离最近的更新后的聚类中心作为该样本数据的标签。

在上述实施例的基础上，分类模块，具体用于：

在上述实施例的基础上，构建模块，包括：

误差计算单元，用于计算基于所述最大白边方程对测试数据进行分类的误差率；

模型构建单元，用于若所述误差率小于或等于预设阈值，则将所述最大白边方程作为所述认证模型。

在上述实施例的基础上，分类模块，还用于：

在上述实施例的基础上，多因子认证模块330，包括：

风险等级确定单元，用于根据以下至少两种因子确定所述待认证数据的风险等级：登录时间、登录设备类型、登录设备的网络环境、客户端版本以及网络地址；

认证单元，用于根据所述风险等级确定所述待认证数据为异常数据或非异常数据。

本发明实施例三提供的数据认证装置可以用于执行上述任意实施例提供的数据认证方法，具备相应的功能和有益效果。

实施例四

图5为本发明实施例五提供的一种认证设备的硬件结构示意图。认证设备包括但不限定于：台式计算机、笔记本电脑、智能手机以及服务器等电子设备。如图5所示，本申请提供的认证设备，包括存储器42、处理器41以及存储在存储器上并可在处理器上运行的计算机程序，处理器41执行所述程序时实现上述的数据认证方法。

认证设备还可以包括存储器42；该认证设备中的处理器41可以是一个或多个，图5中以一个处理器41为例；存储器42用于存储一个或多个程序；所述一个或多个程序被所述一个或多个处理器41执行，使得所述一个或多个处理器41实现如本申请实施例中所述的数据认证方法。

认证设备还包括：通信装置43、输入装置44和输出装置45。

认证设备中的处理器41、存储器42、通信装置43、输入装置44和输出装置45可以通过总线或其他方式连接，图5中以通过总线连接为例。

输入装置44可用于接收输入的数字或字符信息，以及产生与认证设备的用户设置以及功能控制有关的按键信号输入。输出装置45可包括显示屏等显示设备。

通信装置43可以包括接收器和发送器。通信装置43设置为根据处理器41的控制进行信息收发通信。

存储器42作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序以及模块，如本申请实施例所述数据认证方法对应的程序指令/模块(例如，数据认证装置中的获取模块310、模型认证模块320和多因子认证模块330)。存储器42可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据认证设备的使用所创建的数据等。此外，存储器42可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器42可进一步包括相对于处理器41远程设置的存储器，这些远程存储器可以通过网络连接至认证设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

在上述实施例的基础上，本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被数据认证装置执行时实现本发明上述任意实施例中的数据认证方法，该方法包括：

获取待认证数据；

本发明实施例所提供的一种包含计算机可执行指令的存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(Random Access Memory，RAM)、只读存储器(Read Only Memory，ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于：电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、无线电频率(Radio Frequency，RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的数据认证方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种数据认证方法，其特征在于，包括：

获取待认证数据；

若模型认证功能未开启，则根据多因子认证策略认证所述待认证数据为异常数据或非异常数据；

在获取待认证数据之前，还包括：

根据分类结果构建所述认证模型；

基于k均值聚类算法对无标签的样本数据进行聚类，以为所述无标签的样本数据添加标签，包括：

对于每个无标签的样本数据，将与该样本数据距离最近的更新后的聚类中心作为该样本数据的标签；

所述根据多因子认证策略认证所述待认证数据为异常数据或非异常数据，包括：

2.根据权利要求1所述的方法，其特征在于，基于线性支持向量机算法对添加标签后的样本数据进行分类，包括：

3.根据权利要求2所述的方法，其特征在于，根据分类结果构建所述认证模型，包括：

计算基于所述最大白边方程对测试数据进行分类的误差率；

4.根据权利要求1所述的方法，其特征在于，基于线性支持向量机算法对添加标签后的样本数据进行分类，包括：

5.根据权利要求1所述的方法，其特征在于，所述标签包括两种：异常数据和非异常数据；或者，

所述标签包括至少两种风险等级，其中一部分风险等级对应于异常数据，另一部分风险等级对应于非异常数据。

6.根据权利要求1所述的方法，其特征在于，还包括：

若所述分类结果中不存在不可分样本，则开启模型认证功能；

若所述分类结果中存在不可分样本，则关闭模型认证功能。

7.一种数据认证装置，其特征在于，包括：

获取模块，用于获取待认证数据；

多因子认证模块，用于若模型认证功能未开启，则根据多因子认证策略认证所述待认证数据为异常数据或非异常数据；

构建模块，用于根据分类结果构建所述认证模型；

所述聚类模块，包括：

标签添加单元，用于对于每个无标签的样本数据，将与该样本数据距离最近的更新后的聚类中心作为该样本数据的标签；

所述多因子认证模块，包括：

8.一种认证设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的数据认证方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的数据认证方法。