CN110611655B

CN110611655B - 一种黑名单筛选方法和相关产品

Info

Publication number: CN110611655B
Application number: CN201910751706.4A
Authority: CN
Inventors: 郑炳秋
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2022-08-16
Anticipated expiration: 2039-08-15
Also published as: CN110611655A

Abstract

本申请提供了一种黑名单筛选方法和相关产品。所述方法包括：检测并获取目标用户输入的第一用户数据；根据所述第一用户数据从用户数据库中调取所述目标用户的行为数据；根据预设规则从所述目标用户的行为数据中提取出第一预设数量的所述目标用户的行为特征；将所述第一预设数量的所述目标用户的行为特征的数值依次与黑名单平台上对应的风险客户行为特征的阈值进行比对；若比对结果为超出所述对应的风险客户行为特征的阈值的所述目标用户的行为特征的数量大于第二预设数量，则确定所述目标用户为风险客户；截断所述目标用户正在操作的业务流程。通过本申请的技术方案能够自动识别黑名单用户，并截断其业务流程。

Description

一种黑名单筛选方法和相关产品

技术领域

本申请涉及黑名单技术领域，特别涉及一种黑名单筛选方法和相关产品。

背景技术

现有的黑名单技术，一般是在用户的整个网上操作流程结束，并人为检索用户操作发现恶意操作后，相关的部门才采取措施，将用户加入黑名单，限制该黑名单用户将来的网上操作。

但是，由于用户量大和用户操作频繁，需要检索的用户的网上操作的数据量十分庞大，人为检查很容易漏查，效率低。其次，恶意操作发生之后才能采取措施，通过事后获取数据再校验是否目标客户，存在数据后滞带来的收益损失风险，比较被动，无法消除恶意操作带来的恶意影响，主动性差。再次，用户在网站更换注册ID之后又可以重新进行恶意操作，复用性差。

发明内容

本申请实施例提供了一种黑名单筛选方法和相关产品。通过本申请提供的技术方案，根据目标用户的行为数据判断该目标用户是否为黑名单用户，从而能够自动精确识别黑名单用户，实时截断其正在操作的业务流程。

本申请第一方面公开了一种黑名单筛选方法，所述方法包括：

当用户在网上进行业务操作时，检测并获取目标用户输入的第一用户数据；其中，所述第一用户数据包括用户的姓名、电话、身份证号码；

根据所述第一用户数据从用户数据库中调取所述目标用户的行为数据；

根据预设规则从所述目标用户的行为数据中提取出第一预设数量的所述目标用户的行为特征；

将所述第一预设数量的所述目标用户的行为特征的数值依次与黑名单平台上对应的风险客户行为特征的阈值进行比对；其中，所述黑名单平台上的风险客户行为特征按照其向量的TF-IDF值由大到小排序；

若比对结果为超出所述对应的风险客户行为特征的阈值的所述目标用户的行为特征的数量大于第二预设数量，则确定所述目标用户为风险客户；

当确定所述目标用户为风险客户时，截断所述目标用户正在操作的业务流程。

可选地，所述根据所述第一用户数据从用户数据库中调取所述目标用户的行为数据包括：

根据所述第一用户数据从所述用户数据库中调取所述目标用户的网络注册数据；

根据所述目标用户的网络注册数据调取所述目标用户登录网页的记录；

利用网络爬虫爬取所述目标用户登录过的网页，并分析所述网页中的预设字段，得到所述目标用户的网络数据；

对所述目标用户的网络数据进行聚类分类，得到所述目标用户的行为数据。

可选地，所述对所述目标用户的网络数据进行聚类分类，得到所述目标用户的行为数据包括：

对所述目标用户的网络数据进行聚类分类，得到所述目标用户的行为数据；

滤除所述目标用户的行为数据中的噪声数据，得到所述目标用户的有效行为数据。

可选地，若根据所述第一用户数据从所述用户数据库中未调取到所述目标用户的行为数据，所述方法还包括：

检测并获取所述目标用户输入的第二用户数据；其中，所述第二用户数据包括用户的银行卡卡号、信用卡卡号、电子社保电脑号；

根据所述第二用户数据调用第三方平台调取所述目标用户的行为数据。

可选地，所述根据所述第二用户数据调用第三方平台调取所述目标用户的行为数据包括：

获取所述第二用户数据的分类；

根据预先建立的所述第二用户数据的分类与第三方平台集的映射关系调用与所述第二用户数据的分类对应的第三方平台；

根据所述第二用户数据在所述第三方平台上调取所述目标用户的行为数据。

由此可知，当根据所述第一用户数据从用户数据库中未调取到所述目标用户的行为数据时，可以检测并获取所述目标用户输入的第二用户数据，然后根据所述第二用户数据调用第三方平台调取所述目标用户的行为数据，进一步确保了能够调取到所述目标用户的行为数据。

可选地，在将所述第一预设数量的所述目标用户的行为特征的数值与黑名单平台上对应的风险客户行为特征的阈值进行比对之前，所述方法还包括：

调取历史风险客户的行为数据；

对所述历史风险客户的行为数据进行词袋模型统计构建字典；

根据所述构建的字典得到第三预设数量的所述风险客户行为特征；其中，所述第三预设数量大于所述第一预设数量；

对所述第三预设数量的所述风险客户行为特征进行求和，得到风险客户行为特征集；

利用TF-IDF算法分别对所述第三预设数量的所述风险客户行为特征进行向量表示，得到第三预设数量的风险客户行为特征向量；

将所述第三预设数量的风险客户行为特征向量分别在所述风险客户行为特征集上做特征映射，得到所述第三预设数量的风险客户行为特征向量的TF-IDF值；

将TF-IDF值大于预设阈值的所述风险客户行为特征向量输入机器学习算法建模以得到风险客户模型；

将所述风险客户模型输入所述黑名单平台。

可选地，所述方法还包括：

若比对结果为超出所述对应的风险客户行为特征的阈值的所述目标用户的行为特征的数量大于第四预设数量且小于第二预设数量，则确定所述目标用户为预警客户；

若比对结果为超出所述对应的风险客户行为特征的阈值的所述目标用户的行为特征的数量小于第四预设数量，则确定所述目标用户为优质客户。

本申请第二方面公开了一种黑名单筛选装置，所述装置包括：

获取单元，用于当用户在网上进行业务操作时，检测并获取目标用户输入的第一用户数据；其中，所述第一用户数据包括用户的姓名、电话、身份证号码；

调取单元，用于根据所述第一用户数据从用户数据库中调取所述目标用户的行为数据；

提取单元，用于根据预设规则从所述目标用户的行为数据中提取出第一预设数量的所述目标用户的行为特征；

分析单元，用于将所述第一预设数量的所述目标用户的行为特征的数值依次与黑名单平台上对应的风险客户行为特征的阈值进行比对；其中，所述黑名单平台上的风险客户行为特征按照其向量的TF-IDF值由大到小排序；

确定单元，用于若比对结果为超出所述对应的风险客户行为特征的阈值的所述目标用户的行为特征的数量大于第二预设数量，则确定所述目标用户为风险客户；

处理单元，用于当确定所述目标用户为风险客户时，截断所述目标用户正在操作的业务流程。

本申请第三方面公开了一种服务器，所述服务器包括处理器、存储器、通信接口和总线；

所述处理器、所述存储器和所述通信接口通过所述总线连接并完成相互间的通信；

所述存储器存储有程序代码；

所述处理器通过读取所述存储器中存储的程序代码来执行与所述程序代码对应的程序，用于执行本申请第一方面公开的方法。

本申请第四方面公开了一种计算机程序产品，所述计算机程序产品中包含有程序代码；当所述程序代码被运行时，所述第一方面的方法会被执行。

可以看出，本申请提供的技术方案，当用户在网上进行业务操作时，检测并获取目标用户输入的第一用户数据；其中，所述第一用户数据包括用户的姓名、电话、身份证号码；根据所述第一用户数据从用户数据库中调取所述目标用户的行为数据；根据预设规则从所述目标用户的行为数据中提取出第一预设数量的所述目标用户的行为特征；将所述第一预设数量的所述目标用户的行为特征的数值依次与黑名单平台上对应的风险客户行为特征的阈值进行比对；其中，所述黑名单平台上的风险客户行为特征按照其向量的TF-IDF值由大到小排序；若比对结果为超出所述对应的风险客户行为特征的阈值的所述目标用户的行为特征的数量大于第二预设数量，则确定所述目标用户为风险客户；当确定所述目标用户为风险客户时，截断所述目标用户正在操作的业务流程。通过本申请提供的技术方案，检测并获取目标用户在业务操作时输入过的与其有关的用户数据，然后根据所述用户数据去获得所述目标用户的行为特征，再通过所述目标用户的行为特征去识别所述目标用户是否为风险客户，如果所述目标用户是风险客户，则实时截断所述目标用户正在操作的业务流程。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种黑名单筛选系统的示意图；

图2为本申请实施例提供的一种黑名单筛选方法的示意图；

图3为本申请实施例提供的另一种黑名单筛选方法的示意图；

图4为本申请实施例提供的另一种黑名单筛选方法的示意图；

图5为本申请实施例提供的一种黑名单筛选装置的逻辑结构图；

图6为本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本申请说明书、权利要求书和附图中出现的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同的对象，而并非用于描述特定的顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，图1是本申请实施例提供的一种黑名单筛选系统示意图。其中，如图1所示，所述系统包括终端110和服务器120。

其中，可以理解的是，所述终端110可以用于用户进行业务操作，用户可在所述终端110上输入用户数据。

其中，可以理解的是，所述服务器120可以用于当目标用户在所述终端110中输入第一用户数据时，检测并获取所述目标用户输入的第一用户数据其中，所述第一用户数据包括用户的姓名、电话、身份证号码；所述服务器120还可以根据所述第一用户数据从用户数据库中调取所述目标用户的行为数据；所述服务器120还可以根据预设规则从所述目标用户的行为数据中提取出第一预设数量的所述目标用户的行为特征；所述服务器120还可以将所述第一预设数量的所述目标用户的行为特征的数值依次与黑名单平台上对应的风险客户行为特征的阈值进行比对；其中，所述黑名单平台上的风险客户行为特征按照其向量的TF-IDF值由大到小排序；若比对结果为超出所述对应的风险客户行为特征的阈值的所述目标用户的行为特征的数量大于第二预设数量，所述服务器120则确定所述目标用户为风险客户；当确定所述目标用户为风险客户时，所述服务器120还可以截断所述目标用户正在操作的业务流程。

请参阅图2，图2是本申请一个实施例提供的一种黑名单筛选方法的示意图。其中，如图2所示，所述黑名单筛选方法包括以下内容：

S201、当用户在网上进行业务操作时，检测并获取目标用户输入的第一用户数据。

其中，所述目标用户输入的第一用户数据可以包括目标用户的姓名、电话、身份证号码等数据。

S202、根据所述第一用户数据从用户数据库中调取所述目标用户的行为数据。

其中，所述目标用户的网络数据可以包括浏览网页记录、网络消费记录、网络信贷记录等数据。

其中，所述根据所述第一用户数据从用户数据库中调取所述目标用户的行为数据包括：根据所述第一用户数据从所述用户数据库中调取所述目标用户的网络注册数据；根据所述目标用户的网络注册数据调取所述目标用户登录网页的记录；利用网络爬虫爬取所述目标用户登录过的网页，并分析所述网页中的预设字段，得到所述目标用户的网络数据；对所述目标用户的网络数据进行聚类分类，得到所述目标用户的行为数据。

其中，所述目标用户的行为数据包括但不限于用户的信用数据、用户的银行账户数据、数字钱包数据等数据。

其中，所述预设字段可以为系统预先存储的，也可以为用户自定义的。

另外，所述预设字段也可以通过对获取到的用户的网页数据进行词袋模型统计构建字典，基于该字典得到预设字段数据。

其中，所述对所述目标用户的网络数据进行聚类分类，得到所述目标用户的行为数据包括：对所述目标用户的网络数据进行聚类分类，得到所述目标用户的行为数据；滤除所述目标用户的行为数据中的噪声数据，得到所述目标用户的有效行为数据。

其中，所述滤除所述目标用户的网络数据中的噪声数据包括：获取历史用户的行为数据的分类；判断各类簇的所述目标用户的行为数据是否属于所述分类；若不属于所述分类，则将所述不属于所述分类的类簇的所述目标用户的行为数据予以滤除。

其中，所述历史用户的行为数据的分类可以包括历史用户消费记录、历史用户信用记录、历史用户个人情况记录等数据，在此不做限制。

举例来说，例如获取到的所述历史用户的行为数据的分类为用户消费记录、用户信用记录，若得到所述目标用户的行为数据为目标用户的篮球比赛获奖情况，则此行为数据为噪声数据，予以滤除。

S203、根据预设规则从所述目标用户的行为数据中提取出第一预设数量的所述目标用户的行为特征；

其中，需要指出的是，所述目标用户的行为特征可以是：信用度、经济偿还能力、银行流水、银行账户余额、网络交易流水、数字钱包余额等特征。

其中，所述预设规则可以是：由于不同的行为数据对应有不同的多个行为特征，可以将所述不同的行为数据中的所有行为特征都提取出来，也可以是从所述不同的行为数据中提取相同数量的行为特征，或者可以从不同的行为数据中提取不同数量的行为特征。

举例来说，如果是将所有行为数据中的所有行为特征都提取出来时，当调取到的所述目标用户的行为数据有用户的信用数据时，则将所述目标用户的信用度、经济偿还能力等行为特征都提取出来；当调取到的所述目标用户的行为数据有用户的银行账户数据时，则将所述目标用户的银行流水、银行账户余额等行为特征都提取出来；当调取到的所述目标用户的行为数据有用户的数字钱包数据时，则将所述目标用户的网络交易流水、数字钱包余额等特征都提取出来；从而获得第一预设数量的所述目标用户的行为特征。

S204、将所述第一预设数量的所述目标用户的行为特征的数值依次与黑名单平台上对应的风险客户行为特征的阈值进行比对；其中，所述黑名单平台上的风险客户行为特征按照其向量的TF-IDF值由大到小排序。

其中，可以理解的是，所述目标用户的行为特征的数值可以是信用度指数、信用度增加幅度或减小幅度、银行流水变化量、数字钱包余额值等数值。

S205、若比对结果为超出所述对应的风险客户行为特征的阈值的所述目标用户的行为特征的数量大于第二预设数量，则确定所述目标用户为风险客户。

其中，可以理解的是，确定所述目标用户为风险客户，也即所述目标用户为黑名单用户。

其中，若比对结果为超出所述对应的风险客户行为特征的阈值的所述目标用户的行为特征的数量大于第四预设数量且小于第二预设数量，则确定所述目标用户为预警客户；若比对结果为超出所述对应的风险客户行为特征的阈值的所述目标用户的行为特征的数量小于第四预设数量，则确定所述目标用户为优质客户。

S206、当确定所述目标用户为风险客户时，截断所述目标用户正在操作的业务流程。

其中，需要指出的是，当确定所述目标用户为风险客户时，根据比对结果生成分析报告，并将分析报告发送给用户终端，从而截断所述用户的业务流程。当确定所述目标用户为预警客户时，则将该目标用户的数据标注为预警客户数据，并将该目标用户的数据发送给用户终端，同时反馈预警提示数据。当确定所述目标用户为优质客户时，将该目标用户的数据标注为优质客户数据，并将该目标用户的数据发送给用户终端，同时反馈优先处理的提示数据。

可以看出，通过本申请提供的技术方案，检测并获取目标用户在业务操作时输入过的与其有关的用户数据，然后根据所述用户数据去获得所述目标用户的行为特征，再通过所述目标用户的行为特征去识别所述目标用户是否为风险客户，如果所述目标用户是风险客户，则实时截断所述目标用户正在操作的业务流程。

请参阅图3，图3是本申请一个实施例提供的另一种黑名单筛选方法的示意图。其中，如图3所示，所述黑名单筛选方法包括以下内容：

S301、当用户在网上进行业务操作时，检测并获取目标用户输入的第一用户数据。

S302、根据所述第一用户数据从用户数据库中调取所述目标用户的行为数据。

S303、若根据所述第一用户数据从所述用户数据库中未调取到所述目标用户的行为数据，检测并获取所述目标用户输入的第二用户数据。

其中，所述目标用户输入的第二用户数据可以是除第一用户数据之外的，其它能识别所述目标用户的身份的数据，包括用户的银行卡号、信用卡卡号、电子社保电脑号等。

其中，可以理解的是，所述目标用户的第二用户数据可以为系统设定的，也可以为用户自定义的。

S304、根据所述第二用户数据调用第三方平台调取所述目标用户的行为数据。

其中，所述根据所述第二用户数据调用第三方平台调取所述目标用户的行为数据包括：获取所述第二用户数据的分类；根据预先建立的所述第二用户数据的分类与第三方平台集的映射关系调用与所述第二用户数据的分类对应的第三方平台；根据所述第二用户数据在所述第三方平台上调取所述目标用户的行为数据。

举例来说，当目标用户在网上进行业务操作时，可以让目标用户输入常用银行卡卡号、近期使用的信用卡卡号等，通过目标用户提供的常用银行卡卡号、近期使用的信用卡卡号调用该银行卡或信用卡绑定的银行的系统，再从该银行系统中调取到所述目标用户流水数据等数据。又或者可以通过所述目标用户提供的常用银行卡卡号、近期使用的信用卡卡号调用征信中心、贷款机构的系统，再从所述征信中心、贷款机构的系统调取到所述目标用户的信用数据等数据。

其中，在所述根据所述第二用户数据调用第三方平台调取所述目标用户的行为数据之前，所述方法还包括：获取历史用户的第二用户数据的分类；根据所述历史用户的第二用户数据的分类与所述第三方平台集建立映射关系。

S305、根据预设规则从所述目标用户的行为数据中提取出第一预设数量的所述目标用户的行为特征；

S306、将所述第一预设数量的所述目标用户的行为特征的数值依次与黑名单平台上对应的风险客户行为特征的阈值进行比对；其中，所述黑名单平台上的风险客户行为特征按照其向量的TF-IDF值由大到小排序。

S307、若比对结果为超出所述对应的风险客户行为特征的阈值的所述目标用户的行为特征的数量大于第二预设数量，则确定所述目标用户为风险客户。

S308、当确定所述目标用户为风险客户时，截断所述目标用户正在操作的业务流程。

其中，需要指出的是，图3所描述的实施例的具体内容可参考图1或图2所对应的实施例的解释。

可以看出，本申请实施例提供的技术方案，当根据所述第一用户数据从用户数据库中未调取到所述目标用户的行为数据时，可以检测并获取所述目标用户输入的第二用户数据，然后根据所述第二用户数据调用第三方平台调取所述目标用户的行为数据，从所述目标用户的行为数据提取出所述目标用户的行为特征，再通过该目标用户的行为特征去识别该目标用户是否为风险客户，如果该目标用户是风险客户，则实时截断该目标用户正在操作的业务流程。通过本申请实施例提供的技术方案，有利于确保能够调取到所述目标用户的行为数据，从而进一步确保了能识别所述目标用户是否为黑名单用户。

请参阅图4，图4是本申请一个实施例提供的另一种自动筛选黑名单流程的方法的示意图。其中，如图4所示，所述自动筛选黑名单流程的方法包括以下内容：

S401、调取历史风险客户的行为数据，利用机器学习算法建模以得到风险客户模型，将所述风险客户模型输入所黑名单平台。

其中，调取历史风险客户的行为数据，利用机器学习算法建模以得到风险客户模型，将所述风险客户模型输入所黑名单平台具体还包括：调取历史风险客户的行为数据；对所述历史风险客户的行为数据进行词袋模型统计构建字典；根据所述构建的字典得到第三预设数量的所述风险客户行为特征；其中，所述第三预设数量大于所述第一预设数量；对所述第三预设数量的所述风险客户行为特征进行求和，得到风险客户行为特征集；利用TF-IDF算法分别对所述第三预设数量的所述风险客户行为特征进行向量表示，得到第三预设数量的风险客户行为特征向量；将所述第三预设数量的风险客户行为特征向量分别在所述风险客户行为特征集上做特征映射，得到所述第三预设数量的风险客户行为特征向量的TF-IDF值；将TF-IDF值大于预设阈值的所述风险客户行为特征向量输入机器学习算法建模以得到风险客户模型；将所述风险客户模型输入所述黑名单平台。

其中，所述对所述历史风险客户的行为数据进行词袋模型统计构建字典包括对以往风险客户的数据进行去停用词，wordNet过滤，词性过滤，词干提取等过程。

其中，TF-IDF(term frequency–inverse document frequency)是一种用于数据检索与数据挖掘的常用加权技术。TF的意思是词频(Term Frequency)，IDF的意思是逆文本频率指数(Inverse Document Frequency)。TF-IDF是一种统计方法，用于评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。其中，字词的重要性随着它在文件中出现的次数成正比增加。

其中，TF、IDF和TF-IDF的计算公式如下：

TF-IDF＝TF×IDF。

S402、当用户在网上进行业务操作时，检测并获取目标用户输入的第一用户数据。

S403、根据所述第一用户数据从用户数据库中调取所述目标用户的行为数据。

S404、根据预设规则从所述目标用户的行为数据中提取出第一预设数量的所述目标用户的行为特征；

S405、将所述黑名单平台上的风险客户行为特征按照其向量的TF-IDF值由大到小进行排序。

S406、按照所述排序将所述第一预设数量的所述目标用户的行为特征的数值依次与所述黑名单平台上对应的风险客户行为特征的阈值进行比对。

其中，可以理解的是，由于黑名单平台上的风险客户行为特征是按照其向量的TF-IDF值由大到小进行排序的，将所述目标用户的行为特征的数值与黑名单平台上的对应的风险客户行为特征的阈值进行比对，可以是优先与黑名单中排名在第一的风险客户行为特征的阈值进行比对，也即从所述第一预设数量的行为特征中查找出与所述黑名单中排名在第一的风险客户行为特征对应的所述目标用户的行为特征，然后进行二者的比对，若比对得到的结果超过阈值，再一次进行后续排名特征的比对。

举例来说，假设黑名单平台上的风险客户行为特征按照其向量的TF-IDF值由大到小进行排序是：信用度＞银行流水＞数字钱包余额。则在比对时，先将所述目标用户的信用度指数、信用度增加幅度或减小幅度等与信用度有关的数值与黑名单平台上的风险客户的信用度指数、信用度增加幅度或减小幅度等与信用度有关的数值进行比对；然后将所述目标用户的银行流水变化量与黑名单平台上的风险客户的银行流水变化量进行比对；再将所述目标用户的数字钱包余额值与黑名单平台上的风险客户的数字钱包余额值进行比。

S407、若比对结果为超出所述对应的风险客户行为特征的阈值的所述目标用户的行为特征的数量大于第二预设数量，则确定所述目标用户为风险客户。

S408、当确定所述目标用户为风险客户时，截断所述目标用户正在操作的业务流程。

S409、利用预设时间段内比对得到的风险客户的数据和所述机器学习算法对所述黑名单平台上的风险客户模型进行更新。

其中，可以理解的是，通过利用预设时间段内比对得到的风险客户的数据和所述机器学习算法对所述黑名单平台上的风险客户模型进行更新，可以不断对黑名单平台上对应的风险客户行为特征的阈值进行校正，或者增加黑名单平台上的风险客户行为特征的数量。

其中，需要指出的是，图4所描述的实施例的具体内容可参考图1-3所对应的实施例的解释。

可以看出，通过本申请实施例提供的技术方案，将风险客户行为特征按照其向量的TF-IDF值由大到小进行排序，也即将风险客户行为特征按照重要性由高到低进行排序，当将目标用户的行为特征的数值与所述黑名单平台上对应的风险客户行为特征的阈值进行比对时，可以优先比对更重要的特征，若比对得到的结果超过阈值，再一次进行后续排名特征的比对，从而可以减少比对的次数，从而加快比对的速度及精确度，提高识别黑名单用户的效率。

请参阅图5，图5是本申请实施例提供的一种黑名单筛选装置的逻辑结构图。其中，如图5所示，所述装置50包括以下单元：

获取单元501，用于当用户在网上进行业务操作时，检测并获取目标用户输入的第一用户数据；其中，所述第一用户数据包括用户的姓名、电话、身份证号码；

调取单元502，用于根据所述第一用户数据从用户数据库中调取所述目标用户的行为数据；

提取单元503，用于根据预设规则从所述目标用户的行为数据中提取出第一预设数量的所述目标用户的行为特征；

分析单元504，用于将所述第一预设数量的所述目标用户的行为特征的数值依次与黑名单平台上对应的风险客户行为特征的阈值进行比对；其中，所述黑名单平台上的风险客户行为特征按照其向量的TF-IDF值由大到小排序；

确定单元505，用于若比对结果为超出所述对应的风险客户行为特征的阈值的所述目标用户的行为特征的数量大于第二预设数量，则确定所述目标用户为风险客户；

处理单元506，用于当确定所述目标用户为风险客户时，截断所述目标用户正在操作的业务流程。

可选地，所述调取单元502包括：

第一调取子单元，用于根据所述第一用户数据从所述用户数据库中调取所述目标用户的网络注册数据；

第二调取子单元，用于根据所述目标用户的网络注册数据调取所述目标用户登录网页的记录；

爬取子单元，用于利用网络爬虫爬取所述目标用户登录过的网页，并分析所述网页中的预设字段，得到所述目标用户的网络数据；

统计分析子单元，用于对所述目标用户的网络数据进行聚类分类，得到所述目标用户的行为数据。

可选地，所述调取单元502还包括滤除子单元，用于滤除所述目标用户的行为数据中的噪声数据，得到所述目标用户的有效行为数据。

所述统计分析子单元，还用于统计分析所述目标用户的有效网络数据以得到所述目标用户的行为数据。

可选地，所述获取单元501还用于若根据所述第一用户数据从所述用户数据库中未调取到所述目标用户的行为数据，检测并获取所述目标用户输入的第二用户数据；其中，所述第二用户数据包括用户的银行卡卡号、信用卡卡号、电子社保电脑号；

所述调取单元502还用于根据所述第二用户数据调用第三方平台调取所述目标用户的行为数据。

可选地，所述调取单元502包括：

获取子单元，用于获取所述第二用户数据的分类；

调用子单元，用于根据预先建立的所述第二用户数据的分类与第三方平台集的映射关系调用与所述第二用户数据的分类对应的第三方平台；

第三调取子单元，用于根据所述第二用户数据在所述第三方平台上调取所述目标用户的行为数据。

可选地，所述装置50还包括：

建模单元，用于在将所述第一预设数量的所述目标用户的行为特征的数值与黑名单平台上对应的风险客户行为特征的阈值进行比对之前，调取历史风险客户的行为数据；对所述历史风险客户的行为数据进行词袋模型统计构建字典；根据所述构建的字典得到第三预设数量的所述风险客户行为特征；其中，所述第三预设数量大于所述第一预设数量；对所述第三预设数量的所述风险客户行为特征进行求和，得到风险客户行为特征集；利用TF-IDF算法分别对所述第三预设数量的所述风险客户行为特征进行向量表示，得到第三预设数量的风险客户行为特征向量；将所述第三预设数量的风险客户行为特征向量分别在所述风险客户行为特征集上做特征映射，得到所述第三预设数量的风险客户行为特征向量的TF-IDF值；将TF-IDF值大于预设阈值的所述风险客户行为特征向量输入机器学习算法建模以得到风险客户模型。

输入单元，用于将所述风险客户模型输入所述黑名单平台。

可选的，所述分析单元504还用于若比对结果为超出所述对应的风险客户行为特征的阈值的所述目标用户的行为特征的数量大于第四预设数量且小于第二预设数量，则确定所述目标用户为预警客户。

可选的，所述分析单元504还用于若比对结果为超出所述对应的风险客户行为特征的阈值的所述目标用户的行为特征的数量小于第四预设数量，则确定所述目标用户为优质客户。

其中，需要指出的是，本实施例所述的上述逻辑单元可执行方法实施例中所述的方法。

请参阅图6，在本申请的另一个实施例中，提供一种服务器。其中，所述服务器包括总线601、处理器602、存储器603、通信接口604等硬件。上述图5所示的逻辑单元可通过图6所示的服务器实现。

其中，处理器602执行预先存储在存储器603中的服务器程序，该执行过程具体包括：

可选地，所述根据所述第一用户数据从用户数据库中调取所述目标用户的行为数据包括：根据所述第一用户数据从所述用户数据库中调取所述目标用户的网络注册数据；根据所述目标用户的网络注册数据调取所述目标用户登录网页的记录；利用网络爬虫爬取所述目标用户登录过的网页，并分析所述网页中的预设字段，得到所述目标用户的网络数据；对所述目标用户的网络数据进行聚类分类，得到所述目标用户的行为数据。

可选地，所述对所述目标用户的网络数据进行聚类分类，得到所述目标用户的行为数据包括：对所述目标用户的网络数据进行聚类分类，得到所述目标用户的行为数据；滤除所述目标用户的行为数据中的噪声数据，得到所述目标用户的有效行为数据。

可选地，若根据所述第一用户数据从所述用户数据库中未调取到所述目标用户的行为数据，所述方法还包括：检测并获取所述目标用户输入的第二用户数据；其中，所述第二用户数据包括用户的银行卡卡号、信用卡卡号、电子社保电脑号；根据所述第二用户数据调用第三方平台调取所述目标用户的行为数据。

可选地，所述根据所述第二用户数据调用第三方平台调取所述目标用户的行为数据包括：获取所述第二用户数据的分类；根据预先建立的所述第二用户数据的分类与第三方平台集的映射关系调用与所述第二用户数据的分类对应的第三方平台；根据所述第二用户数据在所述第三方平台上调取所述目标用户的行为数据。

可选地，在将所述第一预设数量的所述目标用户的行为特征的数值与黑名单平台上对应的风险客户行为特征的阈值进行比对之前，所述方法还包括：调取历史风险客户的行为数据；对所述历史风险客户的行为数据进行词袋模型统计构建字典；根据所述构建的字典得到第三预设数量的所述风险客户行为特征；其中，所述第三预设数量大于所述第一预设数量；对所述第三预设数量的所述风险客户行为特征进行求和，得到风险客户行为特征集；利用TF-IDF算法分别对所述第三预设数量的所述风险客户行为特征进行向量表示，得到第三预设数量的风险客户行为特征向量；将所述第三预设数量的风险客户行为特征向量分别在所述风险客户行为特征集上做特征映射，得到所述第三预设数量的风险客户行为特征向量的TF-IDF值；将TF-IDF值大于预设阈值的所述风险客户行为特征向量输入机器学习算法建模以得到风险客户模型；将所述风险客户模型输入所述黑名单平台。

可选地，所述方法还包括：若比对结果为超出所述对应的风险客户行为特征的阈值的所述目标用户的行为特征的数量大于第四预设数量且小于第二预设数量，则确定所述目标用户为预警客户；若比对结果为超出所述对应的风险客户行为特征的阈值的所述目标用户的行为特征的数量小于第四预设数量，则确定所述目标用户为优质客户。

在本申请的另一个实施例中，公开了一种计算机程序产品，所述计算机程序产品中包含有程序代码；当所述程序代码被运行时，前述方法实施例中的方法会被执行。

在本申请的另一个实施例中，公开了一种芯片，所述芯片中包含有程序代码；当所述程序代码被运行时，前述方法实施例中的方法会被执行。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种黑名单筛选方法，其特征在于，所述方法包括：

调取历史风险客户的行为数据；对所述历史风险客户的行为数据进行词袋模型统计构建字典；根据所述构建的字典得到第三预设数量的所述风险客户行为特征；其中，所述第三预设数量大于所述第一预设数量；对所述第三预设数量的所述风险客户行为特征进行求和，得到风险客户行为特征集；利用TF-IDF算法分别对所述第三预设数量的所述风险客户行为特征进行向量表示，得到第三预设数量的风险客户行为特征向量；将所述第三预设数量的风险客户行为特征向量分别在所述风险客户行为特征集上做特征映射，得到所述第三预设数量的风险客户行为特征向量的TF-IDF值；将TF-IDF值大于预设阈值的所述风险客户行为特征向量输入机器学习算法建模以得到风险客户模型；将所述风险客户模型输入黑名单平台；将所述黑名单平台上的风险客户行为特征按照其向量的TF-IDF值由大到小进行排序；

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一用户数据从用户数据库中调取所述目标用户的行为数据包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述目标用户的网络数据进行聚类分类，得到所述目标用户的行为数据包括：

4.根据权利要求1所述的方法，其特征在于，若根据所述第一用户数据从所述用户数据库中未调取到所述目标用户的行为数据，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述第二用户数据调用第三方平台调取所述目标用户的行为数据包括：

获取所述第二用户数据的分类；

6.根据权利要求1-5任一所述的方法，其特征在于，所述方法还包括：

7.一种黑名单筛选装置，其特征在于，所述装置包括：

建模单元，用于调取历史风险客户的行为数据；对所述历史风险客户的行为数据进行词袋模型统计构建字典；根据所述构建的字典得到第三预设数量的所述风险客户行为特征；其中，所述第三预设数量大于所述第一预设数量；对所述第三预设数量的所述风险客户行为特征进行求和，得到风险客户行为特征集；利用TF-IDF算法分别对所述第三预设数量的所述风险客户行为特征进行向量表示，得到第三预设数量的风险客户行为特征向量；将所述第三预设数量的风险客户行为特征向量分别在所述风险客户行为特征集上做特征映射，得到所述第三预设数量的风险客户行为特征向量的TF-IDF值；将TF-IDF值大于预设阈值的所述风险客户行为特征向量输入机器学习算法建模以得到风险客户模型；

输入单元，用于将所述风险客户模型输入黑名单平台；

分析单元，用于将所述黑名单平台上的风险客户行为特征按照其向量的TF-IDF值由大到小进行排序；将所述第一预设数量的所述目标用户的行为特征的数值依次与黑名单平台上对应的风险客户行为特征的阈值进行比对；其中，所述黑名单平台上的风险客户行为特征按照其向量的TF-IDF值由大到小排序；

8.一种服务器，其特征在于，所述服务器包括处理器、存储器、通信接口和总线；

所述存储器存储有程序代码；

所述处理器通过读取所述存储器中存储的程序代码来执行与所述程序代码对应的程序，用于执行权利要求1-6任一所述的方法。

9.一种存储介质，其特征在于，所述存储介质中存储有程序代码，当所述程序代码被运行时，权利要求1-6任一所述的方法会被运行。