CN113837885A

CN113837885A - 一种金融反诈业务数据库的构建方法、金融反诈业务系统

Info

Publication number: CN113837885A
Application number: CN202111134493.4A
Authority: CN
Inventors: 陈壹; 丁正; 顾晓东; 贺东海
Original assignee: Shanghai Xinfang Software Co ltd; Shanghai Cintel Intelligent System Co ltd
Current assignee: Shanghai Xinfang Software Co ltd; Shanghai Cintel Intelligent System Co ltd
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2021-12-24

Abstract

本申请公开了一种金融反诈业务数据库的构建方法，该方法包括，利用源反诈数据，构建金融反诈基础数据库，该数据库至少包含与金融数据关联的数据，对金融反诈基础数据库中的数据进行清洗，将清洗后的数据进行分布式集群存储和部署，得到金融反诈大数据，对金融反诈大数据进行联机分析处理，以及利用计算引擎，对金融反诈大数据进行分析，存储分析处理后的数据，得到面向金融反诈业务的金融反诈业务数据库。本申请有利于反诈的系统性联动，提升反诈的科技化和信息化水平。

Description

一种金融反诈业务数据库的构建方法、金融反诈业务系统

技术领域

本发明涉及金融安全领域，特别地，涉及一种金融反诈业务数据库的构建方法。

背景技术

随着移动互联网以及通讯网络的广泛应用，新型电信网络诈骗已经成为破坏社会和谐稳定，危害群众生命财产安全的重要祸因。任何一起诈骗事件的最终目的都是对受害人的财产进行转移和占有。

目前，每日实时新增30-40万条涉诈数据、以及与之映射关联的涉资账户信息，例如，银行账户信息、资金明细、持卡人信息等数据，每日数据量为GB级，由于对于涉诈数据的采集、清洗、加工与存储大都停留在人工干预的阶段，数据质量存疑，数据管控时效性差，在如今电信网络诈骗事件猖獗的状况下，缺乏系统性联动，基于反诈大数据的科技化与信息化水平有待提升。

发明内容

本发明提供了一种金融反诈业务数据库的构建方法，以构建使得涉诈数据与金融数据具有关联性的数据库。

本申请提供一种金融反诈业务数据库的构建方法，该方法包括，

利用源反诈数据，构建金融反诈基础数据库，该数据库至少包含与金融数据关联的数据，

对金融反诈基础数据库中的数据进行清洗，将清洗后的数据进行分布式集群存储和部署，得到金融反诈大数据，

对金融反诈大数据进行联机分析处理，以及利用计算引擎，对金融反诈大数据进行分析，存储分析处理后的数据，得到面向金融反诈业务的金融反诈业务数据库。

较佳地，利用源反诈数据，构建金融反诈基础数据库，包括，

通过网页应用程序测试工具，自主驱动浏览器从源反诈大数据平台中，抽取和下载指定数据，

通过关联关键字段，更新涉诈事件数据信息流和资金数据信息流。

较佳地，对金融反诈大数据进行联机分析处理，包括，

基于金融反诈大数据，以联机分析处理机制进行统计分析操作，

利用涉诈事件数据和情报体系，形成维度表，

将维度表与涉诈事件数据信息进行关联，形成多维度数据模型。

较佳地，利用计算引擎，对金融反诈大数据进行分析，包括，

利用spark工具，解析规则引擎的规则参数，获取spark的数据变量，

根据数据变量，解析配置文件，获取金融反诈大数据平台连接，

读取金融反诈大数据平台中的金融反诈大数据，通过spark的算子与查询引擎，将金融反诈大数据进行聚合、计算、统计之一或其任意组合，得到金融反诈大数据的风险指标，根据风险指标确定待核验数据，

调用待核验数据所关联的通信数据，对待核验数据进行校验，得到多维度指标，

将多维度指标代入规则公式，得到疑似分值，

比较疑似分值与设定的阈值，根据比较结果，对金融反诈大数据进行分类和/或过滤，并存储分类和/或过滤后的金融反诈大数据；

根据分类后的金融反诈大数据，调整规则参数。

较佳地，该方法进一步包括，

基于金融反诈业务数据库，获取金融反诈业务数据，所述业务数据至少获取涉资账户黑/灰/白名单、反诈数据、WEB业务数据管理平台、统计报表、以及态势分析图表之一或其任意组合业务。

较佳地，该方法进一步包括，

所获取的金融反诈业务数据通过接入专网的服务器，以加密传输的方式在不同专网之间进行传输。

本申请还提供一种金融反诈业务系统，该系统包括，

源数据处理层，用于利用源反诈数据，构建金融反诈基础数据库，该数据库至少包含与金融数据关联的数据，

分布式集群层，用于对金融反诈基础数据库中的数据进行清洗，将清洗后的数据进行分布式集群存储和部署，得到金融反诈大数据，

大数据分析层，用于对金融反诈大数据进行联机分析处理，以及利用计算引擎，对金融反诈大数据进行分析，存储分析处理后的数据，得到面向金融反诈业务的金融反诈业务数据库。

较佳地，该系统还包括，

应用平台层，用于基于金融反诈业务数据库，获取金融反诈业务数据，所述业务数据至少获取涉资账户黑/灰/白名单、反诈数据、WEB业务数据管理平台、统计报表、态势分析图表之一或其任意组合业务。

较佳地，所述应用平台层还用于将所获取的金融反诈业务数据通过接入专网的服务器，以加密传输的方式在不同专网之间进行传输。

较佳地，其特征在于，

所述大数据分析层利用spark工具，解析规则引擎的规则参数，获取spark的数据变量，

将多维度指标代入规则公式，得到疑似分值，

根据分类后的金融反诈大数据，调整规则参数。本申请提供的一种金融反诈业务数据库的构建方法，通过对源反诈数据进行批量化、自动化获取，借助计算引擎实现数据分析与加工，从而构建一体化全流程的金融反诈业务数据库。利用金融反诈业务数据库，可锁定涉诈的涉资账户，有利于反诈的系统性联动，提升反诈的科技化和信息化水平。

附图说明

图1为本申请金融反诈业务数据库构建的一种流程示意图。

图2为本申请实施例金融反诈业务数据库构建的一种流程示意图。

图3为多维度的雪花模型的一种示意图。

图4为对2020年某些地区的诈骗行为进行钻取可得出的关系图。

图5为规则引擎对金融反诈大数据进行数据过滤和分类、以及对金融反诈大数据进行联机分析处理的一种示意图。

图6为规则类型的一种示意图。

图7为金融反诈业务系统架构的一种示意图。

图8为金融反诈业务数据构建与传输流程的一种示意图。

具体实施方式

为了使本申请的目的、技术手段和优点更加清楚明白，以下结合附图对本申请做进一步详细说明。

本申请针对源反诈大数据平台中的海量数据，通过网页应用程序测试工具完成自动化的网页数据下载，通过关联关键字段，形成涉案数据信息流与资金流的获取及更新；以源反诈大数据平台获取的数据作为源数据，在完成数据清洗后，以Hadoop作为分布式集群框架，实现大数据的分布式存储与部署。通过特征提取以及数据分析，利用计算引擎对于数据进行精准度识别、和标签处理，通过趋势研判以及规则提炼选取业务分析规则，同时结合外在数据源(如运营商侧通讯行为数据、通管局侧数据等)，完成数据的筛查与分类，建立面向业务侧的数据库/表。

参见图1所示，图1为本申请金融反诈业务数据库构建的一种流程示意图。该方法包括，

步骤101，利用源反诈数据，构建金融反诈基础数据库，该数据库至少包含与金融数据关联的数据，

步骤102，对金融反诈基础数据库中的数据进行清洗，将清洗后的数据进行分布式集群存储和部署，得到金融反诈大数据，

步骤103，对金融反诈大数据进行联机分析处理，以及利用计算引擎，对金融反诈大数据进行分析，存储分析处理后的数据，得到面向金融反诈业务的金融反诈业务数据库。

本申请提供了源反诈数据的获取能力与加工能力，提供了反诈大数据分布式存储能力以及大数据分析能力。针对源反诈大数据提供了智能决策与高效分析的解决方案，从而建立金融反诈业务数据库。基于金融反诈业务数据库，实现数据可视化效果，提升反诈工作效率，完善信息化能力，搭建了涉诈事件与金融业务协作渠道。

以下结合实际应用场景的一种来说明金融反诈业务数据库构建过程。

参见图2所示，图2为本申请实施例金融反诈业务数据库构建的一种流程示意图。该方法包括，

步骤201，利用源反诈数据，构建金融反诈数据基础数据库，该数据库至少包含与金融数据关联的数据，；

在该步骤中，对源反诈大数据平台中的源反诈数据进行处理，其中，源反诈大数据平台为源反诈数据的集合；

源反诈数据处理包括数据收集与数据更新两方面，通过网页应用程序测试工具例如selenium框架，自主驱动浏览器基于源反诈大数据平台执行指定数据的抽取与下载。

其中，

数据收集：基于selenium框架多方式获取网页节点的能力，通过对涉诈事件数据、资金数据、账户数据、以及持卡人主体数据等之一或其任意组合的多维度数据进行关联，自动化收集具有金融属性的源反诈数据；

数据更新：针对涉资账户不定期更新的性质，例如，银行账户数据、以及持卡人主体数据，完成嫌疑人员身份信息、涉诈资金流向信息等之一或其任意组合的数据的补全，形成涉诈事件数据信息流与资金数据信息流的完善及更新。

其次，根据预先设定的数据结构，进行字段定义与数据词典构建，再接入处理后的源数据。

例如，T日的涉诈事件信息数据、持卡主体数据、银行账户数据、资金明细数据被收集，T+n日的持卡主体数据和银行账户数据被更新，所收集的数据和所更新的数据按照设定的数据结构进行存储，从而得到金融反诈数据基础数据库。

该步骤能够实现对源反诈大数据平台中与金融数据关联的数据进行自动化信息采集，通过多线程模式可提升数据下载效率，根据数据更新机制建立数据补全流程，从而实现原始数据的标准化获取。

步骤202，针对金融反诈基础数据库的全量数据采取数据清洗流程，通过去重、空值处理、异常值处理等机制完成数据治理，治理后的数据可采用分布式集群存储和部署，得到金融反诈大数据平台。

步骤203，基于联机分析处理(OLAP)机制下的面向数据统计分析的各类操作，建立反欺诈多维数据模型，以完成数据多维度动态分析与数据钻取。

基于金融反诈大数据平台中集成的、保留历史及不可变更的数据存储，实现OLAP机制下的面向数据统计分析的各类操作，建立反欺诈多维数据模型。

例如，利用涉诈事件数据及情报体系，将分析维度拆分形成维度表，然后与基于涉诈事件交易的记录进行关联，形成多维度模型。这样，在进行数据分析时，可任意选取维度进行统计查询，并且将该维度表与记录简单关联即可，参见图3所示，图3为多维度的雪花模型的一种示意图，根据包括有交易数据的涉诈事件发生事实表，可生成时间维度、地域维度、身份维度、账户维度、行为维度、资金维度之一或其任意组合的维度表。

基于所建立的反欺诈多维数据模型架构，可以实现基于数据的上卷、聚合、下钻、切片以及选钻，进而完成业务报表、趋势视图等数据产品，例如，对2020年某些地区的诈骗行为进行钻取可得出如图4的关系图。

步骤204，按照业务规则，利用计算引擎例如spark对金融反诈大数据平台中的数据进行数据分析和挖掘，得到具有业务价值的结果数据，形成面向业务的金融反诈业务数据库。

由于下发给金融机构进行管控的涉资账户数据例如银行账户数据的精准度和真实性必须得到严格的保障，因此从金融反诈大数据平台中下载清洗后的数据，需要通过设定的业务规则进行筛查过滤，从而完成数据质量的把控。

以spark工具为例。

利用spark工具，解析规则引擎的规则参数，获取spark的数据变量，其中，数据变量包括，spark必要的上下文SparkContext、读取文件路径、日期等数据变量；

根据数据变量，解析配置文件，获取金融反诈大数据平台连接，进一步地，还获取金融反诈大数据平台的用户名、密码等，

读取金融反诈大数据平台中的金融反诈大数据，通过spark的算子与查询引擎(sparksql)，将金融反诈大数据进行聚合、计算、统计之一或其任意组合，得到金融反诈大数据的风险指标，例如，某银行账户的风险指标；

根据风险指标确定待核验数据，

将多维度指标代入规则公式，得到疑似分值，

根据分类后的金融反诈大数据，调整规则参数。

规则引擎作为计算引擎的一种，参见图5所示，图5为规则引擎对金融反诈大数据进行数据过滤和分类、以及对金融反诈大数据进行联机分析处理的一种示意图。金融反诈大数据输入至规则引擎中，利用规则引擎对金融反诈大数据进行过滤、分类、用标签进行标识。

其中，一种规则引擎可以按照如下方式确定：

步骤2041，基于数据维度，以涉诈事件时间、涉诈事件空间、涉及金额、交易流水、发生频率等维度特征制定规则，规则类型包括且不限于：账户异常类、通讯异常类、资金转移类、账户测试类、位置异常类之一或其任意组合；参见附图6所示；

步骤2042，依据各类规则类型、以及规则参数的设置，利用spark实现数据流的汇聚处理，根据评估策略计算涉资账户的风险指标，根据涉资账户的风险指标确定待核验涉资账户信息，例如，涉黑/灰/白银行账户名单等，其中，涉黑/灰/白银行账户名单包括且不限于，开卡异常用户、交易涉诈用户、洗钱用户、盗卡嫌疑、高风险对公用户等。

步骤2043，从外部数据中调用待核验涉资账户所涉及主体的通信行为、位置轨迹及涉诈事件行为数据，进行核验；

其中，外部数据包括且不限于，通信运营商数据、技术侦察数据、网络安全数据等。

进一步地，还可结合金融机构的反馈数据，进行核验，

当核验通过时，对于可以解封的涉资账户，检验涉资账户的风险触发规则、变量特征、以及规则参数范围，进行无效特征去除和部分重点特征的多重衍生，例如，对于自己给自己银行卡转账、支付宝余额宝出入账等进行特征统计识别，同时基于核验未通过的样本挖掘更多有效特征进行补充识别，如开卡后当日出入账行为统计、静默客户首笔交易是否小额测试等。

步骤2044，选取具有代表性的强规则，调试训练好的规则组合，测试完成后进行上线监测。同时，根据涉诈事件复杂多变的特点，及时优化风险变量，动态调整规则参数取值，例如，根据结果反馈，对规则引擎的规则参数进行调整，其中，结果反馈包括，投诉解封情况、人工抽验结果、人行评比结果等。

通过步骤203、204，基于构建数据OLAP机制，通过特征提取以及数据分析，利用Spark计算引擎对于反诈大数据进行精准度识别与标签处理，通过趋势研判、以及规则提炼选取业务分析规则，同时结合附加数据源，例如，运营商侧通讯行为数据、通管局侧数据等，完成数据的筛查与分类，建立面向业务侧的数据库/表。

步骤205，基于金融反诈业务数据库，实现业务服务，包括，银行账户黑/白/灰名单、反诈数据大屏、WEB业务数据管理平台、每日统计报表以及态势分析图表之一或其任意组合。

参见图7所示，图7为金融反诈业务系统架构的一种示意图。包括了源数据处理层、数据存储层、分布式集群层、大数据分析层、应用平台层。其中，在源数据处理层、数据存储层执行步骤201，在分布式集群层执行步骤202，在大数据分析层执行步骤203和步骤204，在应用平台层执行步骤205。

为了便于理解金融反诈业务数据流的传输过程，参见图8所示，图8为金融反诈业务数据构建与传输流程的一种示意图。

在第一专网侧，例如，公安内网，从第一平台获取涉电诈涉诈事件数据源，形成源反诈大数据平台，其中，第一平台可以为所有涉诈事件数据源。

通过步骤201、202、203以及204，依次得到金融反诈基础数据库、金融反诈大数据平台、金融反诈业务数据库，

基于金融反诈业务数据库，可获取所需业务数据，例如，银行账户的黑/白/灰名单文件。

所获取的业务数据存储于第一专网侧的指定目录。

通过第一服务器，实现第一专网和第二专网之间的数据传输，例如，第二专网为公安外网，

通过设置于第二专网中的第二服务器，实现第二专网与第三专网之间的数据传输，例如，第三专网为银行外网，

通过设置于第三专网中的第三服务器，实现第三专网与第四专网之间的数据传输，例如，第四专网为银行内网，

其中，第二服务器、第三服务器为中转服务器；

来自第四专网的数据可被传输至第三服务器中，例如，来自银行大数据平台的数据和/或银行反馈的文件上传至第三服务器中的按照指定目录，第三服务器中的数据可通过接口推送至第二服务器，第二服务器可将数据推送至第一服务器，第一服务器中的数据可以作为外部的反馈信息存入金融反诈基础数据库中。

同样地，来自第一专网的数据通过第一服务器中、第二服务器传输至第三服务器中。

上述数据传输以加密方式传输。

通过各个专网传输路径的数据传输，提高了信息互通的效率，满足了数据管控的时效性要求，充分发挥数据共享、精准预警、联合办案的优势。

本发明与现有技术相比存在以下优势：

从经济效益的角度而言，

在当下诈骗犯罪屡打不尽，犯罪数量依旧处于高位，严重影响公众的财产安全和互联网生态的安全环境的情形下，有利于大幅减轻或免除欺诈案件给社会造成的损害。本申请在跨领域、全流程的协同机制中对电信诈骗严防死守，着眼于反诈防范链，作为打防管控诈骗案件的排头兵，该发明显著地健全了大数据分析与应用能力，作为资金结算底线的守护者，该申请切实加强了金融机构的风险防范能力。本申请建立了群防群治的反诈骗机制，从源头遏制诈骗案件发生概率，从而保障人民群众财产安全，维护社会和谐稳定发展。

有效地减少金融机构的反欺诈投入成本。目前，金融机构往往采购第三方数据完成业务场景中的反欺诈识别，数据的精准性与时效性难以得到保障。通过本申请将金融信息资源与反诈资源进行打通融合，构建对金融机构的实时交易与存量用户的欺诈行为监测、判别、预警及拦截的服务体系，避免为获取同一类数据，多部门重复开发业务应用系统、重复投资基础设施。

加强金融机构风险化解能力，切实维护人民群众资金财产安全，保障可支配收入流向实体经济。通过对诈骗事件分析，以人/卡两个维度进行重点侦查与监测，确保诈骗交易难以发生，诈骗资金难以转移，诈骗财产难以变现，强有力的支撑国家与社会安全顶层设计，间接推动国民物质生活水平，促进市场经济发展活力。

从社会效益的角度而言，

在促进经济社会可持续发展方面，本申请的实施紧密结合断卡行动中的银行卡管控，加强金融机构的诈骗识别与拦截能力，强化跨行业的信息共享机制，显著提高我国在新型电信网络诈骗案件中的防范能力，从而最大程度地预防和减少相关案件及其造成的损害，维护金融市场运行稳定，促进经济社会全面、协调的可持续发展。

在践行金融科技发展规划方面，本申请运用大数据、云计算等科技手段为公安机关赋能、从数据源头开展数据治理工作，打通公安网与金融网的隔离壁垒，从而增强金融机构风险技防能力，致力于将先进信息技术与打击防范电信网络诈骗业务深度融合，通过决策引擎与智能算法支撑、推动金融反欺诈服务向着智能化、精细化、多元化、场景化方向大步迈进。

在构建社会全民反电诈意识方面，本申请有助于全民反电诈工作的展开与推动。目前，新型电信网络诈骗已经成为了危害社会稳定，妨碍经济发展的重要因素，本申请旨在突破各行业间的网络隔离，试水警企合作新模式，从而达到提升全社会共同防范与治理诈骗行为的安全意识，通过创建公安与金融界的联防联控反诈机制，开辟行之有效的一体化管控道路，为社会各行业的反诈深度合作提供借鉴。

本发明实施例还提供了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述金融反诈业务数据库构建方法的步骤。

对于装置/网络侧设备/存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种金融反诈业务数据库的构建方法，其特征在于，该方法包括，

2.如权利要求1所述的构建方法，其特征在于，利用源反诈数据，构建金融反诈基础数据库，包括，

3.如权利要求1所述的构建方法，其特征在于，对金融反诈大数据进行联机分析处理，包括，

利用涉诈事件数据和情报体系，形成维度表，

4.如权利要求1所述的构建方法，其特征在于，利用计算引擎，对金融反诈大数据进行分析，包括，

将多维度指标代入规则公式，得到疑似分值，

根据分类后的金融反诈大数据，调整规则参数。

5.如权利要求1所述的构建方法，其特征在于，该方法进一步包括，

6.如权利要求5所述的构建方法，其特征在于，该方法进一步包括，

7.一种金融反诈业务系统，其特征在于，该系统包括，

8.如权利要求7所述系统，其特征在于，该系统还包括，

9.如权利要求8所述系统，其特征在于，所述应用平台层还用于将所获取的金融反诈业务数据通过接入专网的服务器，以加密传输的方式在不同专网之间进行传输。

10.如权利要求7所述系统，其特征在于，

将多维度指标代入规则公式，得到疑似分值，

根据分类后的金融反诈大数据，调整规则参数。