CN113065943A

CN113065943A - 反欺诈黑产实体识别方法及系统

Info

Publication number: CN113065943A
Application number: CN202110231361.7A
Authority: CN
Inventors: 刘培彬; 熊雷
Original assignee: Suning Financial Technology Nanjing Co Ltd
Current assignee: Suning Financial Technology Nanjing Co Ltd
Priority date: 2021-03-02
Filing date: 2021-03-02
Publication date: 2021-07-02
Also published as: CA3150593A1

Abstract

本发明公开一种反欺诈黑产实体识别方法及系统，涉及互联网金融科技技术领域，能够提升黑产实体的识别准确率和识别效率。该方法包括：采集黑产数据，清洗处理后得到包括黑产实体信息的有效数据；基于黑产分类表对有效数据进行分类打标，得到标签数据；将有效数据中的黑产实体信息与企业客户数据做关联匹配，输出企业客户数据中的黑产识别结果，所述黑产识别结果包括企业客户数据中潜在的风险实体及对应的所述标签数据。该系统应用有上述方案所提的方法。

Description

反欺诈黑产实体识别方法及系统

技术领域

本发明涉及互联网金融科技技术领域，尤其涉及一种反欺诈黑产实体识别方法及系统。

背景技术

互联网金融黑产，来源于那些本身就缺乏足够的信用记录的金融信贷产品客户群，无法在银行等正规渠道获得授信，如农民工，学生等群体。其中很多人信用意识不高，存在占小便宜心理，有动机去用各种手段骗取授信，获取现金，但没有还款意愿。由此，催生了一些互联网金融黑产，专门针对这个客群从事各种套现、套利、参与包装身份等等的恶意行为。黑产往往通过论坛、贴吧、微博、公众号等发布各种套现、套利、包装身份的广告，引来这些客群的关注。所以爬取黑产的最新动态、发布信息，可以对银行金融业务提供预警，对这类群体申请贷款时拒绝以减少不必要损失。因此，如何利用技术手段对黑产实体进行有效甄别，逐渐成为了信贷行业需要解决的问题。

发明内容

本发明的目的在于提供一种反欺诈黑产实体识别方法及系统，能够提升黑产实体的识别准确率和识别效率。

为了实现上述目的，本发明的第一方面提供一种反欺诈黑产实体识别方法，包括：

采集黑产数据，清洗处理后得到包括黑产实体信息的有效数据；

基于黑产分类表对所述有效数据进行分类打标，得到标签数据；

将所述有效数据中的黑产实体信息与企业客户数据做关联匹配，输出企业客户数据中的黑产识别结果，所述黑产识别结果包括企业客户数据中潜在的风险实体及对应的所述标签数据。

优选地，采集黑产数据，清洗处理后得到包括黑产实体信息的有效数据的方法包括：

采集的黑产数据包括用户ID、内容详情、数据来源、链接地址和发表时间，所述内容详情包括黑产实体信息、或者同时包括终端识别号和/或登陆IP地址；

采用预设的正则表达式对所述黑产数据进行清洗，提取出包括黑产实体信息的有效数据。

较佳地，基于黑产分类表对所述有效数据进行分类打标，得到标签数据的方法包括：

所述黑产分类表中包括多个标签数据，以及与每个所述标签数据对应的多个关键词；

将所述有效数据分词后与各所述标签数据对应的关键词一一对应的匹配；

统计所述有效数据的分词与各所述标签数据对应关键词的匹配数量，筛选匹配数量最多的标签数据作为所述有效数据的所述标签数据。

进一步地，将所述有效数据中的黑产实体信息与企业客户数据做关联匹配，输出企业客户数据中的黑产识别结果的方法包括：

利用知识图谱将黑产实体信息与企业客户数据做关联匹配，识别出企业客户数据中的贷款实体与所述黑产实体信息的关联关系，所述关联关系包括关联层级和关联节点个数；

根据所述关联关系匹配出企业客户数据中潜在的风险实体，并将所述风险实体及对应的所述标签数据关联输出，得到黑产识别结果。

优选地，还包括：

构建所述标签数据与风险等级的映射关系，所述风险等级的欺诈概率从低往高依次为灰色账户、高危账户、黑色账户和极黑账户；

在输出所述黑产识别结果时，同时输出对应的所述风险等级。

优选地，还包括：

基于企业客户数据中的贷款实体与黑产实体信息的关联关系采用PageRank算法训练风险评分模型；

在输出所述黑产识别结果时，同时利用风险评分模型进行风险评分。

与现有技术相比，本发明提供的反欺诈黑产实体识别方法具有以下有益效果：

本发明提供的反欺诈黑产实体识别方法中，利用数据采集技术针对主流的论坛、贴吧等社交平台上发布的如主贴、回帖等内容中的各种套现、套利、包装身份的黑产数据进行采集，清洗处理后得到包括黑产实体信息的有效数据，然后通过预先配置的黑产分类表对有效数据进行分类打标，得到对应的标签数据，最终将上述黑产实体信息与企业客户数据做关联匹配，输出企业客户数据中的黑产识别结果。

可见，相比较于现有技术中的人工爬取方案来说，本发明能够自动且实时的采集黑产数据，保证了黑产数据采集的实时性和高效性。另外，通过上述流程可实现对反欺诈黑产实体识别的程序化和自动化，提升了黑产实体识别的准确率和效率。

本发明的第二方面提供一种反欺诈黑产实体识别系统，应用于上述技术方案所述的反欺诈黑产实体识别方法中，所述系统包括：

采集单元，用于采集黑产数据，清洗处理后得到包括黑产实体信息的有效数据；

处理单元，用于基于黑产分类表对所述有效数据进行分类打标，得到标签数据；

识别单元，用于将所述有效数据中的黑产实体信息与企业客户数据做关联匹配，输出企业客户数据中的黑产识别结果，所述黑产识别结果包括企业客户数据中潜在的风险实体及对应的所述标签数据。

优选地，所述处理单元包括：

表构建模块，用于构建黑产分类表，所述黑产分类表中包括多个标签数据，以及与每个所述标签数据对应的多个关键词；

匹配模块，用于将所述有效数据分词后与各所述标签数据对应的关键词一一对应的匹配；

筛选模块，用于统计所述有效数据的分词与各所述标签数据对应关键词的匹配数量，筛选匹配数量最多的标签数据作为所述有效数据的所述标签数据。

较佳地，所述识别单元包括：

管理模块，用于利用知识图谱将黑产实体信息与企业客户数据做关联匹配，识别出企业客户数据中的贷款实体与所述黑产实体信息的关联关系，所述关联关系包括关联层级和关联节点个数；

识别模块，用于根据所述关联关系匹配出企业客户数据中潜在的风险实体，并将所述风险实体及对应的所述标签数据关联输出，得到黑产识别结果。

与现有技术相比，本发明提供的反欺诈黑产实体识别系统的有益效果与上述技术方案提供的反欺诈黑产实体识别方法的有益效果相同，在此不做赘述。

本发明的第三方面提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述反欺诈黑产实体识别方法的步骤。

与现有技术相比，本发明提供的计算机可读存储介质的有益效果与上述技术方案提供的反欺诈黑产实体识别方法的有益效果相同，在此不做赘述。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例中反欺诈黑产实体识别方法的流程示意图；

图2为本发明实施例中反欺诈黑产实体识别方法的处理时序图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例，均属于本发明保护的范围。

实施例一

请参阅图1，本实施例提供一种反欺诈黑产实体识别方法，包括：

采集黑产数据，清洗处理后得到包括黑产实体信息的有效数据；基于黑产分类表对有效数据进行分类打标，得到标签数据；将有效数据中的黑产实体信息与企业客户数据做关联匹配，输出企业客户数据中的黑产识别结果。

本实施例提供的反欺诈黑产实体识别方法中，利用数据采集技术针对主流的论坛、贴吧等社交平台上发布的如主贴、回帖等内容中的各种套现、套利、包装身份的黑产数据进行采集，清洗处理后得到包括黑产实体信息的有效数据，然后通过预先配置的黑产分类表对有效数据进行分类打标，得到对应的标签数据，最终将上述黑产实体信息与企业客户数据做关联匹配，输出企业客户数据中的黑产识别结果，所述黑产识别结果包括企业客户数据中潜在的风险实体及对应的所述标签数据。

可见，相比较于现有技术中的人工爬取方案来说，本实施例能够自动且实时的采集黑产数据，保证了黑产数据采集的实时性和高效性。另外，通过上述流程可实现对反欺诈黑产实体识别的程序化和自动化，提升了黑产实体识别的准确率和效率。

上述实施例中，采集黑产数据，清洗处理后得到包括黑产实体信息的有效数据的方法包括：

采集的黑产数据包括用户ID、内容详情、数据来源、链接地址和发表时间，内容详情包括黑产实体信息、或者同时包括终端识别号和/或登陆IP地址；采用预设的正则表达式对黑产数据进行清洗，提取出包括黑产实体信息的有效数据。

具体实施时，黑产数据源包括主流论坛、贴吧等社交平台上发布的如主贴、回帖等内容，黑产数据的采集应当具有实时性。例如，主流贴吧包括戒赌吧、金融中介吧、精养卡吧、提额技巧吧、试药员吧、网贷吧、薅羊毛吧等；主流论坛包括赚客吧、嘉禾骏论坛、卡神网、51信用卡论坛、卡农论坛等。采集的黑产数据的字段包括用户ID、内容详情、数据来源、链接地址、发表时间、终端识别号、登陆IP地址等，能够体现黑产实体身份和黑产内容数据的有效数据。数据清洗的过程具体为，采用预设的正则表达式对采集的黑产文本数据进行清洗，提取出的黑产实体信息包括手机号、微信号、QQ号、QQ群、邮箱等信息。实际应用中，本实施还提供了业务人员对黑产文本数据的二次编辑加工的功能，使得人工能对算法提取失败或者提取不准确的部分进行修复处理。

上述实施例中，基于黑产分类表对有效数据进行分类打标，得到标签数据的方法包括：

黑产分类表中包括多个标签数据，以及与每个标签数据对应的多个关键词；将有效数据分词后与各标签数据对应的关键词一一对应的匹配；统计有效数据的分词与各标签数据对应关键词的匹配数量，筛选匹配数量最多的标签数据作为有效数据的标签数据。

具体实施时，黑产分类表可由业务人员手动配置，表中包括多个标签数据分类，且每个标签数据分类对应有多个关键词，示例性地，标签数据分类包括“资金饥渴”、“贷款中介”、“养卡中介”、“赌博”、“薅羊毛”等，关键词包括“还了几个”、“征信”、“赌球”、“秒过”、“白户”、“靠岸”、“狗G”、“上征信”、“催收”等，通过将上述关键词分配至相应的标签数据分类构建黑产分类表。除此之外，上述实施例还提供了业务人员对黑产分类表的二次编辑加工的功能，以便对规则判断不准确的标签数据分类和关键词进行修复处理。

上述实施例中，将有效数据中的黑产实体信息与企业客户数据做关联匹配，输出企业客户数据中的黑产识别结果的方法包括：

利用知识图谱将黑产实体信息与企业客户数据做关联匹配，识别出企业客户数据中的贷款实体与黑产实体信息的关联关系，关联关系包括关联层级和关联节点个数；根据关联关系匹配出企业客户数据中潜在的风险实体，并将风险实体及对应的标签数据关联输出，得到黑产识别结果。

具体实施时，将黑产实体信息与企业客户数据利用知识图谱关联匹配，利用知识图谱平台提供的基础分析能力对数据进行梳理整合，打通数据之间的关联关系，常见如微信号、同一设备登录、同一IP登录、同一个手机号码等关联。利用内部的知识图谱平台进行统一的整合，达到将黑产数据关联融合的目的，识别出企业客户数据中的潜在风险客户。

上述实施例中，还包括：构建标签数据与风险等级的映射关系，风险等级的欺诈概率从低往高依次为灰色账户、高危账户、黑色账户和极黑账户；在输出黑产识别结果时，同时输出对应的风险等级。和/或，还包括：基于企业客户数据中的贷款实体与黑产实体信息的关联关系采用PageRank算法训练风险评分模型；在输出黑产识别结果时，同时利用风险评分模型进行风险评分。

请参阅图2，为便于理解，现对上述实施例做如下示例性说明：

步骤1：发起黑产数据的采集，启动爬虫程序将社交平台上发布的如主帖、回帖等内容等信息进行采集，采集的数据包括以下字段：用户ID、内容详情、数据来源、链接地址和发表时间等；

步骤2：数据清洗，针对回帖内容进清洗处理得到包括黑产实体信息的有效数据；

步骤2-1：针对全量的黑产数据文本进行分词处理，并统计词频，按照从高到低的顺序进行排序；

步骤2-2：前台数据服务模块通过微服务接口调用词频统计服务，将上述分词及对应的词频用作数据展示给业务人员，以供业务人员定期更新黑产分类表；

步骤2-3：对内容详情中含有数字和字母等疑似联系方式的帖子进行筛选，并将筛选后的数据同步数据加工模块；

步骤3：利用加工模块对黑产数据加工，先由算法进行黑产实体数据的预处理，再由业务人员对预处理的结果进行核实纠错；

步骤3-1：黑产实体信息的提取，算法对文本中的联系方式进行初步提取，并同步显示在黑产审核页面；

步骤3-2：黑产实体信息身份的预处理，算法对文本中的有效数据进行分类打标，同步显示在黑产审核页面；

步骤3-3：黑产有效数据信息核实，进入系统的黑产实体审核页面，对程序已经提取过的黑产实体信息，如手机号、微信号、QQ号、QQ群、邮箱等进行二次核实确认，若系统提取没有问题，则直接在页面上点击确认，审核通过，若系统提取有误，则可在页面上进行编辑修改；

例如，主贴名：微信小程序搜索侬享贷人人3000；

用户A：有交通银行卡的免费撸100元现金，有资源人脉的来287765737；

用户B：我现在是彻底不会碰这些了，好不容易才上了岸以后一定要好好生活要是再有下次又有谁能够帮你呢如果你们也和我一样遭遇，可以找下洛哥，我把他联系留在这里，9956252希望洛哥能够帮到更多像我这样的人；

用户C：需要毛爷的加v1503391949。

在该案例中，对应的黑产实体信息如下，用户A的联系方式为QQ，号码287765737，对应的标签数据为羊毛党；用户B的联系方式为QQ，号码9956252，对应的标签数据为赌徒；用户C的联系方式为微信/手机号，号码1503391949，对应的标签数据为羊毛党；

步骤4：有效数据关联，将有效数据和已有的企业客户数据进行关联分析处理；

步骤4-1：将有效数据导入知识图谱；

步骤4-2：将有效数据和企业客户数据进行关联；

步骤5：根据已有的数据提供黑产数据服务；

步骤5-1：黑产名单关联，将企业客户数据中用户的三要素如姓名、身份证、手机号等信息和黑产实体信息进行关联，识别出企业客户数据中的潜在风险客户，同时返回关联黑产实体的个数和层级；

步骤5-2：黑产风险分数计算，通过返回关联黑产实体的个数和层级，制定详细算法并计算出黑产风险得分并输出。

综上，本实施具备如下创新点：

1、实现了黑产实体识别的全流程自动化

通过开发了一套黑产监控系统，搭建了一套从公开的数据源获取数据到提供服务的完整链路，实现了黑产实体识别的配置化，标签数据和关键词的配置化，极大的节约了开发成本，提升了系统的使用效率；

2、基于社交关系的关联风险分析

通过知识图谱平台打通黑产数据和企业客户数据，以企业客户数据中用户的三要素为入参，返回用户的关联黑产实体的层级和个数以及风险评分，输出企业客户数据中的黑产识别结果。

实施例二

本实施例提供一种反欺诈黑产实体识别系统，包括：

优选地，所述处理单元包括：

优选地，所述识别单元包括：

与现有技术相比，本发明实施例提供的反欺诈黑产实体识别系统的有益效果与上述实施例一提供的反欺诈黑产实体识别方法的有益效果相同，在此不做赘述。

实施例三

本实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述反欺诈黑产实体识别方法的步骤。

与现有技术相比，本实施例提供的计算机可读存储介质的有益效果与上述技术方案提供的反欺诈黑产实体识别方法的有益效果相同，在此不做赘述。

本领域普通技术人员可以理解，实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，上述程序可以存储于计算机可读取存储介质中，该程序在执行时，包括上述实施例方法的各步骤，而的存储介质可以是：ROM/RAM、磁碟、光盘、存储卡等。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种反欺诈黑产实体识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，采集黑产数据，清洗处理后得到包括黑产实体信息的有效数据的方法包括：

3.根据权利要求1或2所述的方法，其特征在于，基于黑产分类表对所述有效数据进行分类打标，得到标签数据的方法包括：

4.根据权利要求3所述的方法，其特征在于，将所述有效数据中的黑产实体信息与企业客户数据做关联匹配，输出企业客户数据中的黑产识别结果的方法包括：

5.根据权利要求4所述的方法，其特征在于，还包括：

6.根据权利要求4所述的方法，其特征在于，还包括：

7.一种反欺诈黑产实体识别系统，其特征在于，包括：

8.根据权利要求7所述的系统，其特征在于，所述处理单元包括：

9.根据权利要求7所述的系统，其特征在于，所述识别单元包括：

10.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，计算机程序被处理器运行时执行上述权利要求1至7任一项所述方法的步骤。