CN112162993A

CN112162993A - 黑名单的数据更新方法、装置以及计算机设备

Info

Publication number: CN112162993A
Application number: CN202011247743.0A
Authority: CN
Inventors: 袁康
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Ping An Puhui Enterprise Management Co Ltd
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2021-01-01

Abstract

本发明提供了一种黑名单的数据更新方法、装置以及计算机设备，其中方法包括：检测所述访问者的行为信息；将所述访问者的行为信息输入至预训练的风险行为模型中，得到所述访问者的行为信息对应的风险系数；根据所述风险系数判断是否将所述访问者加入所述预设的黑名单数据库内。本发明的有益效果：通过预设的黑名单数据库对访问者进行检测，然后监督访问者的行为信息，并通过预训练的风险行为模型进行计算，当计算结果为该访问者满足黑名单条件时，将该访问者加入对应黑名单数据库中，从而实现对黑名单数据库的自助更新，无需购买第三方接口的昂贵数据，减小了经济支出。

Description

黑名单的数据更新方法、装置以及计算机设备

技术领域

本发明涉及数据更新领域，特别涉及一种黑名单的数据更新方法、装置以及计算机设备。

背景技术

为了防止其他人员恶意获取相关数据，现有技术中都会构建对应的黑名单数据库，但是黑名单数据库的数据来源一般都是通过购买第三方接口的数据，而且无法对黑名单数据进行管理，购买第三方接口的数据会产生昂贵的费用，而且数据来源有限，无法及时更新对应的黑名单数据，因此，亟需一种黑名单的数据更新方法。

发明内容

本发明的主要目的为提供一种黑名单的数据更新方法、装置以及计算机设备，旨在解决无法及时更新对应的黑名单数据的问题。

本发明提供了一种黑名单的数据更新方法，包括：

获取访问者的唯一标识性信息，所述唯一标识性信息至少包括身份信息、IP地址、电话中的一种或多种；

根据所述唯一标识性信息判断所述访问者是否在预设的黑名单数据库内；

若不在预设的黑名单数据库内，则检测所述访问者的行为信息；

将所述访问者的行为信息输入至预训练的风险行为模型中，得到所述访问者的行为信息对应的风险系数；

根据所述风险系数判断是否将所述访问者加入所述预设的黑名单数据库内。

进一步地，所述将所述访问者的行为信息输入至预训练的风险行为模型中，得到所述访问者的行为信息对应的风险系数的步骤之前，还包括：

获取所述黑名单数据库中各黑名人员的行为信息以及对应的风险系数；

按照预设的维度将所述行为信息转化为多维向量；其中，所述多维向量为X_j＝(x_1j，x_2j…x_ij…x_nj)，X_j表示第j个黑名人员的多维向量，x_ij表示第j个黑名人员的第i维向量；

将各所述多维向量以及对应的所述风险系数输入至风险行为初始模型中进行训练，得到所述预训练的风险行为模型；其中所述初始模型为h_w(x)＝w₀+w₁x₁+w₂x₂+w_ix_i…+w_nx_n，其中，h_w(x)为所述风险系数，w₀，w₁，…，w_n均为待训练的参数值，x_i表示所述多维向量中的第i维向量。

进一步地，所述将各所述多维向量以及对应的所述黑名单时间输入至风险行为初始模型中进行训练，得到所述预训练的风险行为模型的步骤，包括：

获取各黑名人员的实际风险系数和所述预训练的风险行为模型的预测风险系数；

根据损失函数公式计算所述预训练的风险行为模型的损失值；其中所述损失函数公式为：

y_j表示第j个黑名人员的实际风险系数，h_w(x_ij)表示第j个黑名人员根据其所述行为信息得到的预测风险系数，n表示所述多维向量的维度，

表示预设的参数值，

表示所述预训练的风险行为模型的损失值；

判断所述损失值是否超过了预设损失值；

若超过了所述预设损失值，则继续训练所述预训练的风险行为模型。

进一步地，所述根据所述风险系数判断是否将所述访问者加入所述预设的黑名单数据库内的步骤之后，还包括：

检测所述黑名单数据库中各所述黑名单数据的时间标签是否达到了黑名单失效时间；

若达到了所述黑名单失效时间，则将对应的黑名单数据移出所述黑名单数据库。

进一步地，根据所述唯一标识性信息判断所述访问者是否在预设的黑名单数据库内的步骤之前，还包括：

通过sqoop脚本获取各平台数据的黑名单中历史访问者的黑名信息，其中，所述黑名信息包括对应访问者的所述唯一标志性信息、黑名原因、以及对应的获取平台；

根据所述黑名信息计算对应所述历史访问者的风险系数，并建立访问者与风险系数的对应关系；

根据各所述历史访问者以及相应的对应关系构建所述黑名单数据库。

进一步地，所述根据所述风险系数判断是否将所述访问者加入所述预设的黑名单数据库内的步骤，包括：

判断所述风险系数是否大于预设的系数值；

若所述风险系数大于所述预设的系数值，则根据公式t＝f(x_i)+b计算所述风险系数对应的黑名单时间；其中，所述t表示黑名单时间，f(x_i)表示风险系数与对应时间的函数关系，b表示黑名单时间的最小值，x_i表示第i个访问者的风险系数，所述黑名单时间为对应的所述访问者在所述黑名单数据库内的时长；

根据所述黑名单时间为所述对应的访问者设置对应的时间标签。

本发明还一种黑名单的数据更新装置，包括：

唯一标识性信息获取模块，用于获取访问者的唯一标识性信息，所述唯一标识性信息至少包括身份信息、IP地址、电话中的一种或多种；

访问者判断模块，用于根据所述唯一标识性信息判断所述访问者是否在预设的黑名单数据库内；

行为信息检测模块，用于若不在预设的黑名单数据库内，则检测所述访问者的行为信息；

风险系数计算模块，用于将所述访问者的行为信息输入至预训练的风险行为模型中，得到所述访问者的行为信息对应的风险系数；

黑名单数据库添加模块，用于根据所述风险系数判断是否将所述访问者加入所述预设的黑名单数据库内。

进一步地，所述黑名单的数据更新装置，还包括：

黑名人员信息获取模块，用于获取所述黑名单数据库中各黑名人员的行为信息以及对应的风险系数；

多维向量转化模块，用于按照预设的维度将所述行为信息转化为多维向量；其中，所述多维向量为X_j＝(x_1j，x_2j…x_ij…x_nj)，X_j表示第j个黑名人员的多维向量，x_ij表示第j个黑名人员的第i维向量；

风险行为初始模型训练模块，用于将各所述多维向量以及对应的所述风险系数输入至风险行为初始模型中进行训练，得到所述预训练的风险行为模型；其中所述初始模型为h_w(x)＝w₀+w₁x₁+w₂x₂+w_ix_i…+w_nx_n，其中，h_w(x)为所述风险系数，w₀，w₁，…，w_n均为待训练的参数值，x_i表示所述多维向量中的第i维向量。

本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本发明的有益效果：通过预设的黑名单数据库对访问者进行检测，然后监督访问者的行为信息，并通过预训练的风险行为模型进行计算，当计算结果为该访问者满足黑名单条件时，将该访问者加入对应黑名单数据库中，从而实现对黑名单数据库的自助更新，无需购买第三方接口的昂贵数据，减小了经济支出。

附图说明

图1是本发明一实施例的一种黑名单的数据更新方法的流程示意图；

图2是本发明一实施例的一种黑名单的数据更新装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变，所述的连接可以是直接连接，也可以是间接连接。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

另外，在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参照图1，本发明提出一种黑名单的数据更新方法，包括：

S1：获取访问者的唯一标识性信息，所述唯一标识性信息至少包括身份信息、IP地址、电话中的一种或多种；

S2：根据所述唯一标识性信息判断所述访问者是否在预设的黑名单数据库内；

S3：若不在预设的黑名单数据库内，则检测所述访问者的行为信息；

S4：将所述访问者的行为信息输入至预训练的风险行为模型中，得到所述访问者的行为信息对应的风险系数；

S5：根据所述风险系数判断是否将所述访问者加入所述预设的黑名单数据库内。

如上述步骤S1所述，获取访问者的唯一标识性信息，所述唯一标识性信息至少包括身份信息、IP地址、电话中的一种或多种。由于每个访问者都有其对应的唯一标志性信息，例如身份信息、IP地址、电话等，可以获取其唯一标识性信息用于标识对应的访问者，以便于快速检测该访问者是否在黑名单数据库内。

如上述步骤S2所述，根据所述唯一标识性信息判断所述访问者是否在预设的黑名单数据库内，由于每个访问者都具有唯一标识性信息，因此，可以根据该唯一标识性信息进行判定。另外，需要说明的是，唯一标识性信息可能会包括多个维度信息，而黑名单数据库中只有一个或者部分维度信息时，则黑名单只根据数据库中所包含的维度信息进行判定。

如上述步骤S3所述，若不在预设的黑名单数据库内，则检测所述访问者的行为信息。即访问者可能不在预设的黑名单数据库内，但是其行为信息已经满足黑名单的预设条件，其中，该行为信息为预先设置的，例如套用密码的次数达到设定次数，或者下载用户的隐私信息等，则认为该行为信息满足黑名单的预设条件。此时可以检测用户的行为信息判断访问者是否为潜在的黑名单用户。

如上述步骤S4所述，将所述访问者的行为信息输入至预训练的风险行为模型中，得到所述访问者的行为信息对应的风险系数。其中，预训练的风险行为模型为事先根据黑名人员及其对应的风险行为训练而成，而不同的行为信息具有不同等级的黑名情况，此时可以根据行为信息计算出对应的风险系数，为访问者进行标记。

如上述步骤S5所述，根据所述风险系数判断是否将所述访问者加入所述预设的黑名单数据库内，每个访问者都会对应一个风险系数，此时可以根据风险系数的大小判定访问者是否满足黑名条件。具体的判断方法可以是设定一个风险系数阈值，当大于该风险系数阈值时，则判定该访问者满足加入预设的黑名单数据库的条件。

在一个实施例中，所述将所述访问者的行为信息输入至预训练的风险行为模型中，得到所述访问者的行为信息对应的风险系数的步骤S4之前，还包括：

S301：获取所述黑名单数据库中各黑名人员的行为信息以及对应的风险系数；

S302：按照预设的维度将所述行为信息转化为多维向量；其中，所述多维向量为X_j＝(x_1j，x_2j…x_ij…x_nj)，X_j表示第j个黑名人员的多维向量，x_ij表示第j个黑名人员的第i维向量；

S303：将各所述多维向量以及对应的所述风险系数输入至风险行为初始模型中进行训练，得到所述预训练的风险行为模型；其中所述初始模型为h_w(x)＝w₀+w₁x₁+w₂x₂+w_ix_i…+w_nx_n，其中，h_w(x)为所述风险系数，w₀，w₁，…，w_n均为待训练的参数值，x_i表示所述多维向量中的第i维向量。

如上述步骤S301-S303所述，实现了预训练的风险行为模型的训练。通过已有的黑名单数据库各黑名人员数据进行训练，将对应的行为信息转化为多维向量，其中，多维向量的维度可以包括黑名人员的身份、各网站的访问次数，访问方式等，将各个多维向量输入至风险行为初始模型中进行训练，以得到风险行为初始模型中的参数数据，使其计算的结果可以接近黑名单数据库中的黑名人员的判断结果，另外，风险行为初始模型的函数可以是h_w(x)＝w₀+w₁x₁+w₂x₂+w_ix_i…+w_nx_n，然后通过线性回归算法以及各多维向量计算参数值w₀，w₁，…，w_n，然后将计算得到的参数值赋予至该函数中，得到预训练的风险行为模型，另外根据风险系数与黑名单时间的对应关系，可以将得到的风险系数换算成对应的黑名单时间。

在一个实施例中，所述将各所述多维向量以及对应的所述黑名单时间输入至风险行为初始模型中进行训练，得到所述预训练的风险行为模型的步骤S303，包括：

S3041：获取各黑名人员的实际风险系数和所述预训练的风险行为模型的预测风险系数；

S3042：根据损失函数公式计算所述预训练的风险行为模型的损失值；其中所述损失函数公式为：

表示预设的参数值，

表示所述预训练的风险行为模型的损失值；

S3043：判断所述损失值是否超过了预设损失值；

S3044：若超过了所述预设损失值，则继续训练所述预训练的风险行为模型。

如上述步骤S3041-S3044所述，实现了对预训练的风险行为模型的参数检测。通过对黑名人员的实际风险系数，以及预训练的风险行为模型的预测风险系数进行损失值计算，计算的损失函数为

需要注意的是w_i为预训练的风险行为模型中与第i维对应的参数值，而非是一个不确定的参数值，然后根据计算得到的损失值判断预训练的风险行为模型是否满足要求，若不满足要求，则继续训练直至预训练的风险行为模型的损失值小于预设损失值。

在一个实施例中，所述根据所述风险系数判断是否将所述访问者加入所述预设的黑名单数据库内的步骤S5之后，还包括：

S601：检测所述黑名单数据库中各所述黑名单数据的时间标签是否达到了黑名单失效时间；

S602：若达到了所述黑名单失效时间，则将对应的黑名单数据移出所述黑名单数据库。

如上述步骤S601-S602所述，实现了实时更新黑名单数据库中的黑名单数据。即周期性检测黑名单数据库的黑名单数据对应的时间标签是否达到了黑名单失效时间，当达到了该对应的失效时间时，将对应的黑名单数据移出，即说明该黑名单数据不能当作黑名单来处理，故将其移出黑名单中，从而实现了黑名单数据库的数据的实时更新。具体地，检测所述黑名单数据库中各所述黑名单数据的时间标签是否达到了黑名单失效时间中的检测方法可以是通过周期性遍历黑名单数据库中所有的黑名单数据，检测各黑名单数据各自对应的失效时间，然后获取当前时间，若当前时间已经达到或超过了失效时间，则说明该黑名单数据可以移出黑名单数据库。

在一个实施例中，根据所述唯一标识性信息判断所述访问者是否在预设的黑名单数据库内的步骤S2之前，还包括：

S101：通过sqoop脚本获取各平台数据的黑名单中历史访问者的黑名信息，其中，所述黑名信息包括对应访问者的所述唯一标志性信息、黑名原因、以及对应的获取平台；

S102：根据所述黑名信息计算对应所述历史访问者的风险系数，并建立访问者与风险系数的对应关系；

S103：根据各所述历史访问者以及相应的对应关系构建所述黑名单数据库。

如上述步骤S101-S103所述，实现了黑名单数据库根据其他平台的黑名单信息的自动扩展。即通过sqoop脚本获取每个平台数据中的黑名单的黑名信息，根据黑名信息获取得到该历史访问者的唯一标识性信息，然后再将黑名信息中的行为信息输入至预训练的风险行为模型中，得到对应的风险系数，将风险系数与历史访问者进行对应，以此构建对应的黑名单数据库。具体地，Sqoop脚本是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库(例如：MySQL，Oracle，Postgres等)中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。即通过Sqoop脚本在各个平台的对应位置处爬取获得对应的黑名信息，计算风险系数的方法可以是将黑名信息转化为多维向量后，导入预训练的风险行为模型获得，然后根据对应的唯一标志性信息、黑名原因、以及对应的获取平台构建对应的黑名单数据库。

在一个实施例中，所述根据所述风险系数判断是否将所述访问者加入所述预设的黑名单数据库内的步骤S5，包括：

S501：判断所述风险系数是否大于预设的系数值；

S502：若所述风险系数大于所述预设的系数值，则根据公式t＝f(x_i)+b计算所述风险系数对应的黑名单时间；其中，所述t表示黑名单时间，f(x_i)表示风险系数与对应时间的函数关系，b表示黑名单时间的最小值，x_i表示第i个访问者的风险系数，所述黑名单时间为对应的所述访问者在所述黑名单数据库内的时长；

S503：根据所述黑名单时间为所述对应的访问者设置对应的时间标签。

如上述步骤S501-S503所述，实现了根据风险系数为每个黑名单对应的访问者设定一个黑名单时间，即根据公式t＝f(x_i)+b进行计算，其中，f(x_i)函数中x_i的取值范围应当设定为大于一定值，即风险系数值没有超过预设的系数值，则不属于黑名单数据，即不应设置黑名单时间，另外，f(x_i)函数可以是一次函数，也可以是二次函数，也可以是复合函数，本申请对此不做限定，应当进行说明的是，该f(x_i)函数应当是随着x_i的数值增加而增加的增函数，即随着风险系数的增大，其对应的黑名单时间的时长也越长。

参照图2，本发明提出一种黑名单的数据更新装置，包括：

唯一标识性信息获取模块10，用于获取访问者的唯一标识性信息，所述唯一标识性信息至少包括身份信息、IP地址、电话中的一种或多种；

访问者判断模块20，用于根据所述唯一标识性信息判断所述访问者是否在预设的黑名单数据库内；

行为信息检测模块30，用于若不在预设的黑名单数据库内，则检测所述访问者的行为信息；

风险系数计算模块40，用于将所述访问者的行为信息输入至预训练的风险行为模型中，得到所述访问者的行为信息对应的风险系数；

黑名单数据库添加模块50，用于根据所述风险系数判断是否将所述访问者加入所述预设的黑名单数据库内。

在一个实施例中，黑名单的数据更新装置，还包括：

在一个实施例中，风险行为初始模型训练模块，包括：

风险系数获取子模块，用于获取各黑名人员的实际风险系数和所述预训练的风险行为模型的预测风险系数；

损失值计算子模块，用于根据损失函数公式计算所述预训练的风险行为模型的损失值；其中所述损失函数公式为：

表示预设的参数值，

表示所述预训练的风险行为模型的损失值；

损失值判断子模块，用于判断所述损失值是否超过了预设损失值；

风险行为模型训练子模块，用于若超过了所述预设损失值，则继续训练所述预训练的风险行为模型。

在一个实施例中，黑名单的数据更新装置，还包括：

失效时间检测模块，用于检测所述黑名单数据库中各所述黑名单数据的时间标签是否达到了黑名单失效时间；

移出模块，用于若达到了所述黑名单失效时间，则将对应的黑名单数据移出所述黑名单数据库。

在一个实施例中，黑名单的数据更新装置，还包括：

黑名信息获取模块，用于通过sqoop脚本获取各平台数据的黑名单中历史访问者的黑名信息，其中，所述黑名信息包括对应访问者的所述唯一标志性信息、黑名原因、以及对应的获取平台；

对应关系建立模块，用于根据所述黑名信息计算对应所述历史访问者的风险系数，并建立访问者与风险系数的对应关系；

数据库构建模块，用于根据各所述历史访问者以及相应的对应关系构建所述黑名单数据库。

在一个实施例中，黑名单数据库添加模块50，包括：

风险系数判断子模块，用于判断所述风险系数是否大于预设的系数值；

黑名单时间计算子模块，用于若所述风险系数大于所述预设的系数值，则根据公式t＝f(x_i)+b计算所述风险系数对应的黑名单时间；其中，所述t表示黑名单时间，f(x_i)表示风险系数与对应时间的函数关系，b表示黑名单时间的最小值，x_i表示第i个访问者的风险系数，所述黑名单时间为对应的所述访问者在所述黑名单数据库内的时长；

时间标签设置子模块，用于根据所述黑名单时间为所述对应的访问者设置对应的时间标签。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储各种黑名单数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时可以实现上述任一实施例所述的黑名单的数据更新方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时可以实现上述任一实施例所述的黑名单的数据更新方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM一多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。