CN117689474A - 应用于反洗钱的数据处理系统及方法 - Google Patents
应用于反洗钱的数据处理系统及方法 Download PDFInfo
- Publication number
- CN117689474A CN117689474A CN202311720200.XA CN202311720200A CN117689474A CN 117689474 A CN117689474 A CN 117689474A CN 202311720200 A CN202311720200 A CN 202311720200A CN 117689474 A CN117689474 A CN 117689474A
- Authority
- CN
- China
- Prior art keywords
- data
- financial industry
- money laundering
- layer
- indexes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004900 laundering Methods 0.000 title claims abstract description 88
- 238000012545 processing Methods 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000013523 data management Methods 0.000 claims abstract description 36
- 238000004140 cleaning Methods 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000010276 construction Methods 0.000 claims description 10
- 238000013500 data storage Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 5
- 230000010354 integration Effects 0.000 claims description 5
- 230000000737 periodic effect Effects 0.000 claims description 5
- 238000003672 processing method Methods 0.000 claims description 5
- 230000003542 behavioural effect Effects 0.000 claims description 4
- 238000011010 flushing procedure Methods 0.000 claims 3
- 238000011001 backwashing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本申请实施例提供一种应用于反洗钱的数据处理系统及方法。在本申请实施例中,通过数据治理平台从金融行业的数据仓库中获取原始金融行业数据,对所述原始金融行业数据进行数据治理,得到标准化金融行业数据;通过指标加工平台对所述标准化金融行业数据进行特征工程处理,得到多个反洗钱业务风险指标,并基于多个反洗钱业务风险指标生成反洗钱业务风险指标库。由此,能够挖掘出更加全面的反洗钱业务风险指标,构建出高质量的反洗钱业务风险指标库,为提升反洗钱能力提供有力保障。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种应用于反洗钱的数据处理系统及方法。
背景技术
金融行业数据往往存在维度高、结构复杂以及数据量庞大等特点,并且反洗钱业务所覆盖的业务数据范围较为广泛。在反洗钱的前期数据处理中,很有必要构建高质量的反洗钱业务风险指标库,以辅助提升反洗钱能力。
发明内容
本申请的多个方面提供一种应用于反洗钱的数据处理系统及方法,用以构建高质量的反洗钱业务风险指标库,辅助提升反洗钱能力。
本申请实施例提供一种应用于反洗钱的数据处理系统,包括:依次连接的数据治理平台和指标加工平台;数据治理平台,用于从金融行业的数据仓库中获取原始金融行业数据,对原始金融行业数据进行数据治理,得到标准化金融行业数据;指标加工平台,用于对标准化金融行业数据进行特征工程处理,得到多个反洗钱业务风险指标,并基于多个反洗钱业务风险指标生成反洗钱业务风险指标库。
本申请实施例提供一种应用于反洗钱的数据处理方法,应用于反洗钱的数据处理系统,该系统包括:依次连接的数据治理平台和指标加工平台;数据治理平台从金融行业的数据仓库中获取原始金融行业数据,对原始金融行业数据进行数据治理,得到标准化金融行业数据;指标加工平台对标准化金融行业数据进行特征工程处理,得到多个反洗钱业务风险指标,并基于多个反洗钱业务风险指标生成反洗钱业务风险指标库。
在本申请实施例中,通过数据治理平台从金融行业的数据仓库中获取原始金融行业数据,对原始金融行业数据进行数据治理,得到标准化金融行业数据;通过指标加工平台对标准化金融行业数据进行特征工程处理,得到多个反洗钱业务风险指标,并基于多个反洗钱业务风险指标生成反洗钱业务风险指标库。由此,能够挖掘出更加全面的反洗钱业务风险指标,构建出高质量的反洗钱业务风险指标库,为提升反洗钱能力提供有力保障。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种应用于反洗钱的数据处理系统的结构示意图;
图2为本申请实施例提供的一种数据治理平台的结构示意图;
图3为本申请实施例提供的一种应用于反洗钱的数据处理方法的流程图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的访问关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。在本申请的文字描述中,字符“/”一般表示前后关联对象是一种“或”的关系。此外,在本申请实施例中,“第一”、“第二”、“第三”、等只是为了区分不同对象的内容而已,并无其它特殊含义。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1为本申请实施例提供的一种应用于反洗钱的数据处理系统的结构示意图。参见图1,该系统可以包括依次连接的数据治理平台和指标加工平台;
在本实施例中,数据治理平台,用于从金融行业的数据仓库中获取原始金融行业数据,对原始金融行业数据进行数据治理,得到标准化金融行业数据。
具体而言,将从金融行业的数据仓库获取地金融行业数据称作为原始金融行业数据。原始金融行业数据例如包括但不限于:客户信息表、客户交易信息表、网银操作信息表和历史可疑案宗表。表1示出了客户信息表、客户交易信息表、网银操作信息表和历史可疑案宗表包含的数据。
表1
在本实施例中,将经过数据治理平台数据治理后的原始金融行业数据称作为标准化金融行业数据,标准化金融行业数据是符合数据标准规范的数据,例如包括但不限于:标准客户信息表、标准客户交易信息表、标准网银操作信息表和标准历史可疑案宗表。
进一步可选的,为了更好地进行数据治理,参见图2,数据治理平台包括依次连接的客户数据层、数据计算层、数据存储层和统一接口层;客户数据层,用于从数据仓库获取原始金融行业数据;数据计算层,用于对原始金融行业数据进行数据治理,得到标准化金融行业数据;数据存储层,用于存储标准化金融行业数据;统一接口层,用于提供统一接口,以通过统一接口向上层应用提供一致的标准化金融行业数据。
参见图2,客户数据层从客户源数据系统获取的数据包括但不限于:分布式系统中的数据、关系数据库中的数据、XML(Extensible Markup Language,可扩展标记语言)数据和文本文件。在本实施例中,客户源数据系统是指金融行业的数据仓库。客户数据层获取的原始金融行业数据例如包括但不限于:交易数据、日志数据、理财数据和信用卡数据等等。
实际应用中,原始金融行业数据包含不同类型的数据字段,需要进行数据治理,得到标准化数据。进一步可选的,为了较好地进行数据治理,数据计算层具体用于:对原始金融行业数据进行数据清洗、数据加工、数据转换和数据整合中至少一种数据治理,得到标准化金融行业数据。
在本实施例中,数据清洗主要对其中一些数据的字段进行格式化,对其中一些不需要的或不合规范的数据进行检查和过滤。数据清洗例如包括但不限于:缺失值清洗、格式与内容清洗、逻辑错误清洗。
针对缺失值清洗:缺失值是最常见的数据问题,处理办法有很多,常见的缺失值清洗方法如下:
(1)确定缺失值范围
对每个字段计算缺失值比例,然后按照缺失值比例和字段重要性制定不同策略。
(2)去除不需要的字段
直接删除不需要的字段,但要备份。删除操作最好不要直接操作于原始数据,应抽取部分数据进行模型构建,查看模型效果,如果效果可以就推广到所有数据。
(3)填充缺失值内容
该步骤是最重要的一步,一般包含以下几种方式:用同一个字段指标的计算结果填充,比如平均数、中位数等;用不同指标的计算结果进行填充,比如通过身份证号推断年龄等
针对格式与内容清洗,例如对下面几种情况需要进行清洗:(1)时间日期、数值等显示格式不一致(2)内容中有不该存在的字符,比如身份证号中出现了字母,姓名中出现数字等(3)内容与该字段内容不符,如姓名写成了性别,身份证号写成了手机号等
针对逻辑错误清洗,主要进行以下清洗:(1)、数据去重;(2)、去掉不合理的数值,比如年龄为200岁,或者-20岁;(3)、去掉不可靠的字段,比如身份证号出生年月为20000101,年龄填了80岁。
在本实施例中,数据加工例如包括但不限于:数据计算、字段合并、字段分组、行列切换(也即数据表中的行和列进行切换)、数据标准化。数据计算例如根据模型需要对数据进行诸如求和、求均值、求最大值、求最小值、求中位数、求方差、标准差等数据计算。对某些字段进行填充,例如对一些空值、非法值进行填充);对某些字段进行计算,例如,根据原始数据来计算一些新的值,比如:统计值等;数据标准化例如保留小数点位数、百分号、千位分隔符等。
在本实施例中,数据转换例如包括但不限于:将数据从一种形式转换为另一种形式。通常,使用诸如SQL(Structured Query Language,结构化查询语言)等特定语言或诸如Python等脚本语言来转换数据,也可以选择使用ETL(Extract-Transform-Load,抽取-转换-加载)工具,它可以自动化数据转换过程。有不同类型的数据转换,例如在数据库中移动、重命名和组合列,添加、复制和复制数据等。
在本实施例中,数据整合例如包括但不限于:对数据加工过程产生的多个中间结果进行整合,形成一张或多张数据宽表。
在本实施例中,指标加工平台,用于对标准化金融行业数据进行特征工程处理,得到多个反洗钱业务风险指标,并基于多个反洗钱业务风险指标生成反洗钱业务风险指标库。
在本实施例中,通过数据存储层提供的数据存储系统对标准化金融行业数据进行存储。
在本实施例中,统一接口层通过提供统一接口,实现向上层应用提供一致性的数据,实现数据的集中管理。统一接口可以屏蔽客户源数据端所有复杂异构元数据变动对建模的影响,提供可信、标准、完整、一致的数据输出。在本实施例中,上层应用包括指标加工平台,指标加工平台通过统一接口获取标准化金融行业数据。
在本实施例中,指标加工平台,用于对标准化金融行业数据进行特征工程处理,得到多个反洗钱业务风险指标,并基于多个反洗钱业务风险指标生成反洗钱业务风险指标库。
参见图1,指标加工平台对在数据治理平台中存储的标准化金融行业数据进行特征工程处理,将特征工程处理得到的特征数据作为反洗钱业务风险指标,并基于得到的基于多个反洗钱业务风险指标生成反洗钱业务风险指标库,
进一步可选的,为了构建高质量的反洗钱业务风险指标库,指标加工平台具体用于:对标准化金融行业数据进行特征构造、特征选择和特征选择中至少一种特征工程处理,得到多个反洗钱业务风险指标,并基于多个反洗钱业务风险指标生成反洗钱业务风险指标库。
在本实施例中,特征构造指的是从原始数据(在此是指标准化金融行业数据)构造新特征的处理过程,一般需要根据业务分析,对原始数据进行加工、特征组合,生成能更好体现业务特性的新特征。其中,经过特征构造得到的特征包括以下至少一种:统计特征、类别特征和周期特征。
统计特征例如包括但不限于:中位数、平均值、标准差等常用的统计量。
类别特征:是指刻画类型的特征。可以采用one_hot(独热)编码、label_encoder(标签编码)等编码方式处理数据,得到类别特征。例如,数据中经常会遇到一些地区、国家、性别等字符信息,通过特定的编码方式转化为数值型数据,得到对应的类别特征。
周期特征例如包括但不限于:过去几个个周期/天/月/年的周期值、同比、环比。
在本实施例中,特征组合可以将几个不同的特征进行组合,新的特征也许能够更好的表征数据,优先考虑强特征维度。例如将离散特征和离散特征进行特征组合、将离散特征和连续特征进行特征组合和将连续特征和连续特征进行特征组合。
在本实施例中,特征选择的形式又可以将特征选择方法分为3种:
(1)Filter:过滤法,按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数来选择特征。
(2)pper:包装法,根据目标函数(通常是预测效果评分),每次选择若干特征或者排除若干特征。
(3)Embedded:嵌入法,先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。类似于Filter方法,是通过训练来确定特征的优劣。
在本实施例中,反洗钱业务风险指标的类型例如包括但不限于:SQL特征指标、高维特征指标和模型结果指标。
其中,SQL特征指标能够集成和融合金融行业原有的SQL特征指标。高维特征指标能够表征金融行业相关的批量计算的复杂业务特征指标。模型结果指标能够表征金融行业相关的算法模型的输出结果。
在本实施例中,反洗钱业务风险指标包括以下多种:身份信息、资金交易、行为信息和团伙特征。
具体而言,针对反洗钱场景,表2示出了身份信息、资金交易、行为信息和团伙特征等反洗钱业务风险指标的特征信息。
表2
在一些可选的实施例中,还可以从表2所示的特征中,生成业务可解释的特征,有代表性的重要特征,将这些重要特征作为反洗钱业务风险指标,表3示出了有代表性的重要特征。
表3
本申请实施例提出的技术方案,通过数据治理平台从金融行业的数据仓库中获取原始金融行业数据,对原始金融行业数据进行数据治理,得到标准化金融行业数据;通过指标加工平台对标准化金融行业数据进行特征工程处理,得到多个反洗钱业务风险指标,并基于多个反洗钱业务风险指标生成反洗钱业务风险指标库。由此,能够挖掘出更加全面的反洗钱业务风险指标,构建出高质量的反洗钱业务风险指标库,为提升反洗钱能力提供有力保障。
图3为本申请实施例提供的一种应用于反洗钱的数据处理方法的流程图。该方法应用于反洗钱的数据处理系统,该系统包括:依次连接的数据治理平台和指标加工平台。参见图3,该方法可以包括:
301、数据治理平台从金融行业的数据仓库中获取原始金融行业数据,对原始金融行业数据进行数据治理,得到标准化金融行业数据。
302、指标加工平台对标准化金融行业数据进行特征工程处理,得到多个反洗钱业务风险指标,并基于多个反洗钱业务风险指标生成反洗钱业务风险指标库。
进一步可选的,数据治理平台包括依次连接的客户数据层、数据计算层、数据存储层和统一接口层;客户数据层从数据仓库获取原始金融行业数据;数据计算层对原始金融行业数据进行数据治理,得到标准化金融行业数据;数据存储层存储标准化金融行业数据;统一接口层提供统一接口,以通过统一接口向上层应用提供一致的标准化金融行业数据。
进一步可选的,数据计算层对原始金融行业数据进行数据治理,得到标准化金融行业数据,包括:对原始金融行业数据进行数据清洗、数据加工、数据转换和数据整理中至少一种数据治理,得到标准化金融行业数据;数据清洗包括以下至少一种:缺失值清洗、格式与内容清洗、逻辑错误清洗;数据加工包括以下至少一种:数据计算、字段合并、字段分组、行列切换、数据标准化;数据转换包括:将数据从一种形式转换为另一种形式;数据整合包括:对数据加工过程产生的多个中间结果进行整合,形成一张或多张数据宽表。
进一步可选的,指标加工平台对标准化金融行业数据进行特征工程处理,得到多个反洗钱业务风险指标,并基于多个反洗钱业务风险指标生成反洗钱业务风险指标库,包括:对标准化金融行业数据进行特征构造、特征选择和特征选择中至少一种特征工程处理,得到多个反洗钱业务风险指标,并基于多个反洗钱业务风险指标生成反洗钱业务风险指标库;其中,经过特征构造得到的特征包括以下至少一种:统计特征、类别特征和周期特征。
进一步可选的,反洗钱业务风险指标的类型包括:简单SQL特征指标、高维特征指标和模型结果指标;反洗钱业务风险指标包括以下多种:身份信息、资金交易、行为信息和团伙特征。
关于方法实施例中各步骤的实现方式可以参见前述系统实施例中的相关内容,在此不再赘述。
本申请实施例提出的技术方案,通过数据治理平台从金融行业的数据仓库中获取原始金融行业数据,对原始金融行业数据进行数据治理,得到标准化金融行业数据;通过指标加工平台对标准化金融行业数据进行特征工程处理,得到多个反洗钱业务风险指标,并基于多个反洗钱业务风险指标生成反洗钱业务风险指标库。由此,能够挖掘出更加全面的反洗钱业务风险指标,构建出高质量的反洗钱业务风险指标库,为提升反洗钱能力提供有力保障。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种应用于反洗钱的数据处理系统,其特征在于,包括:依次连接的数据治理平台和指标加工平台;
所述数据治理平台,用于从金融行业的数据仓库中获取原始金融行业数据,对所述原始金融行业数据进行数据治理,得到标准化金融行业数据;
所述指标加工平台,用于对所述标准化金融行业数据进行特征工程处理,得到多个反洗钱业务风险指标,并基于多个反洗钱业务风险指标生成反洗钱业务风险指标库。
2.根据权利要求1所述的系统,其特征在于,所述数据治理平台包括依次连接的客户数据层、数据计算层、数据存储层和统一接口层;
所述客户数据层,用于从所述数据仓库获取原始金融行业数据;
所述数据计算层,用于对所述原始金融行业数据进行数据治理,得到标准化金融行业数据;
所述数据存储层,用于存储所述标准化金融行业数据;
所述统一接口层,用于提供统一接口,以通过统一接口向上层应用提供一致的所述标准化金融行业数据。
3.根据权利要求2所述的系统,其特征在于,所述数据计算层具体用于:对所述原始金融行业数据进行数据清洗、数据加工、数据转换和数据整理中至少一种数据治理,得到所述标准化金融行业数据;
所述数据清洗包括以下至少一种:缺失值清洗、格式与内容清洗、逻辑错误清洗;
所述数据加工包括以下至少一种:数据计算、字段合并、字段分组、行列切换、数据标准化;
所述数据转换包括:将数据从一种形式转换为另一种形式;
所述数据整合包括:对数据加工过程产生的多个中间结果进行整合,形成一张或多张数据宽表。
4.根据权利要求1至3任一项所述的系统,其特征在于,所述指标加工平台具体用于:对标准化金融行业数据进行特征构造、特征选择和特征选择中至少一种特征工程处理,得到多个反洗钱业务风险指标,并基于多个反洗钱业务风险指标生成反洗钱业务风险指标库;
其中,经过特征构造得到的特征包括以下至少一种:统计特征、类别特征和周期特征。
5.根据权利要求4所述的系统,其特征在于,所述反洗钱业务风险指标的类型包括:简单SQL特征指标、高维特征指标和模型结果指标;
所述反洗钱业务风险指标包括以下多种:身份信息、资金交易、行为信息和团伙特征。
6.一种应用于反洗钱的数据处理方法,其特征在于,应用于反洗钱的数据处理系统,所述系统包括:依次连接的数据治理平台和指标加工平台;
所述数据治理平台从金融行业的数据仓库中获取原始金融行业数据,对所述原始金融行业数据进行数据治理,得到标准化金融行业数据;
所述指标加工平台对所述标准化金融行业数据进行特征工程处理,得到多个反洗钱业务风险指标,并基于多个反洗钱业务风险指标生成反洗钱业务风险指标库。
7.根据权利要求6所述的方法,其特征在于,所述数据治理平台包括依次连接的客户数据层、数据计算层、数据存储层和统一接口层;
所述客户数据层从所述数据仓库获取原始金融行业数据;
所述数据计算层对所述原始金融行业数据进行数据治理,得到标准化金融行业数据;
所述数据存储层存储所述标准化金融行业数据;
所述统一接口层提供统一接口,以通过统一接口向上层应用提供一致的所述标准化金融行业数据。
8.根据权利要求6所述的方法,其特征在于,所述数据计算层对所述原始金融行业数据进行数据治理,得到标准化金融行业数据,包括:
对所述原始金融行业数据进行数据清洗、数据加工、数据转换和数据整理中至少一种数据治理,得到所述标准化金融行业数据;
所述数据清洗包括以下至少一种:缺失值清洗、格式与内容清洗、逻辑错误清洗;
所述数据加工包括以下至少一种:数据计算、字段合并、字段分组、行列切换、数据标准化;
所述数据转换包括:将数据从一种形式转换为另一种形式;
所述数据整合包括:对数据加工过程产生的多个中间结果进行整合,形成一张或多张数据宽表。
9.根据权利要求6至8任一项所述的方法,其特征在于,所述指标加工平台对所述标准化金融行业数据进行特征工程处理,得到多个反洗钱业务风险指标,并基于多个反洗钱业务风险指标生成反洗钱业务风险指标库,包括:
对标准化金融行业数据进行特征构造、特征选择和特征选择中至少一种特征工程处理,得到多个反洗钱业务风险指标,并基于多个反洗钱业务风险指标生成反洗钱业务风险指标库;
其中,经过特征构造得到的特征包括以下至少一种:统计特征、类别特征和周期特征。
10.根据权利要求9所述的方法,其特征在于,所述反洗钱业务风险指标的类型包括:简单SQL特征指标、高维特征指标和模型结果指标;
所述反洗钱业务风险指标包括以下多种:身份信息、资金交易、行为信息和团伙特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311720200.XA CN117689474A (zh) | 2023-12-14 | 2023-12-14 | 应用于反洗钱的数据处理系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311720200.XA CN117689474A (zh) | 2023-12-14 | 2023-12-14 | 应用于反洗钱的数据处理系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117689474A true CN117689474A (zh) | 2024-03-12 |
Family
ID=90136713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311720200.XA Pending CN117689474A (zh) | 2023-12-14 | 2023-12-14 | 应用于反洗钱的数据处理系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117689474A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112184238A (zh) * | 2020-09-23 | 2021-01-05 | 中国建设银行股份有限公司 | 金融租赁行业的反洗钱监控方法、装置、电子设备及介质 |
CN115422173A (zh) * | 2022-08-17 | 2022-12-02 | 天元大数据信用管理有限公司 | 金融信贷领域的数据治理方法及系统 |
CN116664310A (zh) * | 2023-05-09 | 2023-08-29 | 上海腾梭科技有限公司 | 一种客户风险统一监测及管控方法、装置及系统 |
-
2023
- 2023-12-14 CN CN202311720200.XA patent/CN117689474A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112184238A (zh) * | 2020-09-23 | 2021-01-05 | 中国建设银行股份有限公司 | 金融租赁行业的反洗钱监控方法、装置、电子设备及介质 |
CN115422173A (zh) * | 2022-08-17 | 2022-12-02 | 天元大数据信用管理有限公司 | 金融信贷领域的数据治理方法及系统 |
CN116664310A (zh) * | 2023-05-09 | 2023-08-29 | 上海腾梭科技有限公司 | 一种客户风险统一监测及管控方法、装置及系统 |
Non-Patent Citations (1)
Title |
---|
罗素文等: "机器学习技术在商业银行反洗钱领域的应用", 金融电子化, no. 6, 15 June 2019 (2019-06-15), pages 77 - 78 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cerda et al. | Similarity encoding for learning with dirty categorical variables | |
CN110383319B (zh) | 大规模异构数据摄取和用户解析 | |
Zhao et al. | Distributed feature selection for efficient economic big data analysis | |
CN111339427B (zh) | 一种图书信息推荐方法、装置、系统及存储介质 | |
US8645332B1 (en) | Systems and methods for capturing data refinement actions based on visualized search of information | |
EP2608074A2 (en) | Systems and methods for merging source records in accordance with survivorship rules | |
CN102349050A (zh) | 数据存储的创建 | |
EP3783522A1 (en) | Semantic model instantiation method, system and device | |
CN111581193A (zh) | 数据处理方法、设备、计算机系统及存储介质 | |
CN111899090A (zh) | 企业关联风险预警方法及系统 | |
CN111178005A (zh) | 数据处理系统、方法及存储介质 | |
CN116469500A (zh) | 一种基于医疗文档后结构化的数据质量控制方法及系统 | |
EP3152678B1 (en) | Systems and methods for management of data platforms | |
CN113627997A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
DE112021001743T5 (de) | Vektoreinbettungsmodelle für relationale tabellen mit null- oder äquivalenten werten | |
CN117332023A (zh) | 一种基于数据分类管理的工业数据治理方法 | |
WO2019010277A2 (en) | HIGHLY ATOMIZED INTERVIEWABLE AND SEGMENTED DATA SYSTEMS (HASIDS) | |
CN113033941A (zh) | 客诉案件分配方法、装置、设备及存储介质 | |
CN107798021B (zh) | 数据关联处理方法、系统及电子设备 | |
CA3092332A1 (en) | System and method for machine learning architecture for interdependence detection | |
CN117037990A (zh) | 一种基于病案质量的智能分类存储方法及装置 | |
US11829950B2 (en) | Financial documents examination methods and systems | |
CN117689474A (zh) | 应用于反洗钱的数据处理系统及方法 | |
CN110010231A (zh) | 一种数据处理系统及计算机可读存储介质 | |
CN115034189A (zh) | 表格数据处理方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |