CN112101950B - 可疑交易监测模型特征提取方法及装置 - Google Patents
可疑交易监测模型特征提取方法及装置 Download PDFInfo
- Publication number
- CN112101950B CN112101950B CN202011032077.9A CN202011032077A CN112101950B CN 112101950 B CN112101950 B CN 112101950B CN 202011032077 A CN202011032077 A CN 202011032077A CN 112101950 B CN112101950 B CN 112101950B
- Authority
- CN
- China
- Prior art keywords
- feature
- basic data
- transaction monitoring
- suspicious
- suspicious transaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 103
- 238000000605 extraction Methods 0.000 title claims abstract description 78
- 239000011159 matrix material Substances 0.000 claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000009795 derivation Methods 0.000 claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 41
- 238000001914 filtration Methods 0.000 claims description 38
- 238000011144 upstream manufacturing Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 11
- 238000012217 deletion Methods 0.000 claims description 10
- 230000037430 deletion Effects 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 5
- 238000001212 derivatisation Methods 0.000 claims description 2
- 238000005065 mining Methods 0.000 abstract description 10
- 230000006870 function Effects 0.000 description 30
- 230000008569 process Effects 0.000 description 21
- 238000004891 communication Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 8
- 208000025174 PANDAS Diseases 0.000 description 7
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 7
- 240000004718 Panda Species 0.000 description 7
- 235000016496 Panda oleosa Nutrition 0.000 description 7
- 238000004220 aggregation Methods 0.000 description 7
- 230000002776 aggregation Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 239000000872 buffer Substances 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000011001 backwashing Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000011049 filling Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011010 flushing procedure Methods 0.000 description 2
- 238000004900 laundering Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000009960 carding Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000008140 language development Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
- G06Q20/4014—Identity check for transactions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
- G06Q20/4016—Transaction verification involving fraud or risk level assessment in transaction processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Technology Law (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供一种可疑交易监测模型特征提取方法及装置,所述方法包括:获取多张基础数据表及各所述基础数据表对应的输入参数;根据所述多张基础数据表及各所述基础数据表对应的输入参数对预先生成的训练样本进行自动化特征衍生,得到特征矩阵;对所述特征矩阵进行特征提取。本申请能够实现不同可疑交易场景下的可疑特征挖掘,为可疑特征监测模型的建立提供基础。
Description
技术领域
本申请涉及人工智能领域,具体是一种可疑交易监测模型特征提取方法及装置。
背景技术
为深入实践风险为本、动态管理的反洗钱工作原则,建立健全的金融机构交易监测标准,需从设计、开发、测试、评估等方面较为系统性地对可疑交易监测模型进行建设。
传统的可疑交易监测模型开发流程已经无法应对灵活多变的监管需求及层出不穷的新型犯罪手段,且存在如下缺点:现有可疑交易监测模型在构造可疑交易监测模型特征的过程中,基本依靠人工实现设计及新特征的衍生,过程缓慢且艰难,衍生效率极低且构建效果差;可疑交易监测模型特征衍生的过程依赖反洗钱业务专家的领域知识及直觉,人为主观性大,特征衍生的准确率低。
因此,开发设计一套可疑交易模型自动化特征提取方法,成为金融机构开展反洗钱业务的核心。
发明内容
针对现有技术中的问题,本申请提供一种可疑交易监测模型特征提取方法及装置,能够实现不同可疑交易场景下的可疑特征挖掘,为可疑特征监测模型的建立提供基础。
为解决上述技术问题,本申请提供以下技术方案:
第一方面,本申请提供一种可疑交易监测模型特征提取方法,包括:
获取多张基础数据表及各所述基础数据表对应的输入参数;
根据所述多张基础数据表及各所述基础数据表对应的输入参数对预先生成的训练样本进行自动化特征衍生,得到特征矩阵;
对所述特征矩阵进行特征提取。
进一步地,获取多张基础数据表的步骤,包括:
获取可疑交易监测所应覆盖的客户及对应的业务领域;
根据所述客户及所述业务领域接入对应的上游数据源,生成所述基础数据表。
进一步地,所述输入参数包括:分箱结果;获取所述输入参数的步骤,包括:
根据所述基础数据表中各字段的字段类型对各所述基础数据表中的各字段进行分类;
根据预先设定的k值对分类后的所述基础数据表中的各多码值类别型字段进行分箱,得到分箱结果。
进一步地,所述输入参数包括:特征基元参数;获取所述输入参数的步骤,包括:
根据特征衍生数量及可疑交易监测场景选择特征基元;
根据所述特征基元生成所述特征基元对应的特征基元参数。
进一步地,所述输入参数包括:字典;获取所述输入参数的步骤,包括:
根据所述基础数据表中各字段的字段类型对基础数据表中的各字段进行分类,并将分类后的各所述字段存储为四个字典。
进一步地,所述根据所述多张基础数据表及各所述基础数据表对应的输入参数对预先生成的训练样本进行自动化特征衍生,得到特征矩阵,包括:
根据所述多张基础数据表生成所述训练样本;所述训练样本包括正样本数据、负样本数据及特殊负样本数据;
根据所述训练样本、各所述基础数据表对应的输入参数及特征衍生深度进行自动化特征衍生,得到所述特征矩阵。
进一步地,所述对所述特征矩阵进行特征提取,包括:
过滤掉字段缺失率过高的特征、相关性过高的特征、对模型预测结果无贡献的特征、对模型预测结果贡献过低的特征及仅具有单一值的特征,得到提取后的特征。
进一步地,过滤所述字段缺失率过高的特征,包括:
计算所述特征矩阵中各所述特征的缺失率;
过滤所述缺失率大于预先设定的缺失率阈值的特征。
进一步地,过滤所述相关性过高的特征,包括:
计算所述特征矩阵中各所述特征的相关性;
对于所述相关性大于预先设定的相关性阈值的所述特征,任意保留其中的一个所述特征。
进一步地,过滤所述对模型预测结果无贡献的特征,包括:
利用梯度提升机计算所述特征矩阵中各所述特征的重要性分数;
对所述重要性分数进行归一化处理,得到重要性归一化分数;
过滤所述重要性归一化分数为零的特征。
进一步地,过滤所述对模型预测结果贡献过低的特征,包括:
利用梯度提升机计算所述特征矩阵中各所述特征的重要性分数;
对所述重要性分数进行归一化处理,得到重要性归一化分数;
过滤所述重要性归一化分数低于预先设定的贡献率阈值的特征。
第二方面,本申请提供一种可疑交易监测模型特征提取装置,包括:
获取单元,用于获取多张基础数据表及各所述基础数据表对应的输入参数;
衍生单元,用于根据所述多张基础数据表及各所述基础数据表对应的输入参数对预先生成的训练样本进行自动化特征衍生,得到特征矩阵;
提取单元,用于对所述特征矩阵进行特征提取。
进一步地,所述衍生单元包括:
样本生成模块,用于根据所述多张基础数据表生成所述训练样本;所述训练样本包括正样本数据、负样本数据及特殊负样本数据;
矩阵生成模块,用于根据所述训练样本、各所述基础数据表对应的输入参数及特征衍生深度进行自动化特征衍生,得到所述特征矩阵。
进一步地,所述提取单元包括:
过滤模块,具体用于过滤掉字段缺失率过高的特征、相关性过高的特征、对模型预测结果无贡献的特征、对模型预测结果贡献过低的特征及仅具有单一值的特征,得到提取后的特征。
第三方面,本申请提供一种电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述可疑交易监测模型特征提取方法的步骤。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述可疑交易监测模型特征提取方法的步骤。
针对现有技术中的问题,本申请提供一种可疑交易监测模型特征提取方法及装置,能够根据多张基础数据表及各基础数据表对应的输入参数对预先生成的训练样本进行自动化特征衍生及提取,最终得到特征提取结果,以实现不同可疑交易场景下的可疑特征挖掘,为可疑特征监测模型的建立提供基础。
附图说明
图1为本申请实施例中可疑交易监测模型特征提取方法的流程图;
图2为本申请实施例中获取多张基础数据表的流程图;
图3为本申请实施例中生成分箱结果的流程图;
图4为本申请实施例中生成特征基元参数的流程图;
图5为本申请实施例中得到特征矩阵的流程图;
图6为本申请实施例中过滤所述字段缺失率过高的特征的流程图;
图7为本申请实施例中过滤所述相关性过高的特征的流程图;
图8为本申请实施例中过滤所述对模型预测结果无贡献的特征的流程图;
图9为本申请实施例中过滤所述对模型预测结果贡献过低的特征的流程图;
图10为本申请实施例中可疑交易监测模型特征提取装置的结构图;
图11为本申请实施例中衍生单元的结构图;
图12为本申请实施例中提取单元的结构图;
图13为本申请实施例中的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,为了能够实现不同可疑交易场景下的可疑特征挖掘,本申请提供一种可疑交易监测模型特征提取方法,包括:
S101:获取多张基础数据表及各基础数据表对应的输入参数。
可以理解的是,在银行系统中存在着各种复杂的日常交易,这些交易绝大多数是合法交易,然而这其中仍存在一些可疑交易,可能扰乱正常的交易市场秩序。对此,本申请实施例可以收集银行系统中的日常交易数据,并将这些交易数据存入基础数据表,以便后续根据这些基础数据表中的基础数据,进行可疑交易监测模型特征提取。这些基础数据表可包括但不限于:客户信息表、客户信用表、客户交易表等。这些基础数据表均为二维关系型数据表,各基础数据表的主键为客户身份标识,该客户身份标识具有唯一性,可以标记每一位在银行系统开过户的客户。各基础数据表可根据上述主键使彼此发生关联。
此外,本申请实施例采用以深度特征合成(Deep Feature Synthesis,简称DFS)算法为核心的FeatureTools开源框架进行可疑交易监测模型特征衍生及提取。为此,需预先获取各基础数据表对应的输入参数,以便后续将这些输入参数输入利用Python语言编写的FeatureTools开源框架中实现功能。该算法在进行遍历操作时,通过关系型数据库中所描述的关系路径进行。当采用DFS算法遍历这些路径时,通过应用于数据的操作(包括和、平均值和计数等)衍生出新特征。这些特征是来源于数据集中数据点之间的关系;在数据集中,许多特征都是通过类似的数学运算得到的;新的特征通常是利用原来的特征构成的。
S102:根据多张基础数据表及各基础数据表对应的输入参数对预先生成的训练样本进行自动化特征衍生,得到特征矩阵。
可以理解的是,利用FeatureTools开源框架进行自动化特征衍生所需的输入参数包括:分箱结果、特征基元参数、字典、时间窗口及兴趣值等。各输入参数的计算及设置方法详见下文实施例的阐述。另外,进行自动化特征衍生需要预先准备训练样本,这些训练样本可被分为:正样本数据、负样本数据及特殊负样本数据。以上样本数据均来源于基础数据表,选取样本数据的过程即是对基础数据表各条记录进行分类的过程。一般而言,基础数据表中的一条记录对应基础数据表中的一行。一实施例中,所谓正样本数据是指过去所有经反洗钱甄别人员甄别后上报人民银行反洗钱监管系统的可疑客户在可疑时间段内的所有交易及其客户相关信息;负样本数据是指日常交易中未曾被现有技术中的可疑交易监测模型所命中的客户在过去一段时间的交易数据及其客户相关信息所对应的交易数据,由于此类客户数量较大,可以按预先设定的抽取比例进行样本数据的随机抽取;特殊负样本数据是指命中现有技术中的可疑交易监测模型,但后续被反洗钱甄别人员确定为非可疑人员的客户在非可疑时间段内的所有交易及其客户相关信息。
S103:对特征矩阵进行特征提取。
可以理解的是,为了避免衍生出的可疑特征数量过多,从而导致欲被建立的可疑交易监测模型出现过拟合,造成维度灾难,需在建立可疑交易监测模型之前,对衍生出的数以万计的可疑特征进行高效的可疑特征过滤及筛选,以使可疑交易监测模型生成后具有更好的泛化能力。由于衍生出的可疑特征数量极大,人工挑选非常耗时耗力,因此本申请实施例将基于一个基础的开源特征选择工具FeatureSelector对衍生出的可疑特征进行高效的自动化特征提取。提取的过程即是过滤掉冗余可疑特征的过程,具体的过滤原则详见下文实施例的阐述。
从上述描述可知,本申请提供的可疑交易监测模型特征提取方法,能够根据多张基础数据表及各基础数据表对应的输入参数对预先生成的训练样本进行自动化特征衍生及提取,最终得到特征提取结果,以实现不同可疑交易场景下的可疑特征挖掘,为可疑特征监测模型的建立提供基础。
参见图2,本申请实施例获取多张基础数据表的步骤包括:
S201:获取可疑交易监测所应覆盖的客户及对应的业务领域。
S202:根据客户及业务领域接入对应的上游数据源,生成所述基础数据表。
可以理解的是,在本申请实施例中,一张基础数据表即被视为一个实体,基础数据表的集合即为实体的集合,简称为实体集。在进行可疑特征衍生前,需先创建实体集。实体集可反映所有实体及其之间的关系,同时也反映了所有样本的相关信息,即各客户的全部交易情况,每个客户对应唯一的一个标识符。按照人民银行的可疑交易监管要求,金融机构应构建以客户为基本单位的可疑交易监测体系,因此,实体集的唯一标识符即为客户编号。
实体集中的实体内容即为基础数据表,基础数据表的逻辑维度可分为:交易、客户、账户、产品、参数、员工、外部数据等,具体维度可根据实际应用场景进行设置,本申请不以此为限。根据可疑交易监测所应覆盖的客户及对应的业务领域可以接入上游数据源。接入上游数据源的过程即是生成基础数据,并将这些基础数据填入基础数据表的过程。
具体而言,生成基础数据的过程如下:
第一步,可以梳理预先获取的可疑交易监测所应覆盖的客户及其对应的业务领域。梳理时一般可根据人民银行给出的风险提示文件及相关法律法规等监管要求来进行梳理,例如,可参考可疑交易监测模型所要监测的金融业务条线进行梳理或参考需要着重去关注的可疑交易行为识别点及客户身份特征进行梳理。这些梳理原则对应于具体的业务需求,可以根据具体的应用场景做出适应性的改变。
第二步,根据客户及业务领域去接入对应的上游数据源。以银行系统为例,上游数据源可以包括:对公存款、对公贷款、对私存款、现金交易、信用卡、电子银行、客户信息、员工信息、司法查冻扣数据、征信信息等上游数据。接入这些上游数据的方法一般为:先设计一个统一的数据接口,然后开发数据抽取、转换和加载程序(Extract-Transform-Load,ETL)进行数据加工,最后将加工后的上游数据通过统一的数据接口接入FeatureTools开源框架。一般这些上游数据可以被整合成交易、客户、账户、客户关系、外部数据等多个维度。
一实施例中,可将客户所有的银行交易数据如信用卡业务、对私存款、电子银行、对私贷款等都整合到一张对私交易表中;将涉及客户相关上游数据如上市公司高管信息、内部员工信息、对私客户信息、对公客户基本信息、企业客户基本信息、征信信息、客户风险评级信息等整合到一张客户信息表中;将账户相关的上游数据如对私账户信息、对公账户信息、账户开销户信息等整合到一张账户信息表中;将所有外部数据如税务数据及工商数据等整合到外部信息表中。上游数据的数据维度可以根据实际应用场景不断进行拓展,例如可以增设电子设备信息维度、客户关系维度、客户信用维度等。利用以上方法可以完成多维度的上游数据源接入,最终确定实体集。
从上述描述可知,本申请提供的可疑交易监测模型特征提取方法,能够根据客户及业务领域接入对应的上游数据源,生成基础数据表,并最终确定实体集。
一实施例中,输入参数包括:字典,本申请实施例获取输入参数的步骤包括:
根据基础数据表中各字段的字段类型对基础数据表中的各字段进行分类,并将分类后的各字段存储为四个字典。
可以理解的是,根据基础数据表中各字段的字段类型对各基础数据表中的各字段进行分类,可以分成以下几类:ID类、数值类、类别类及时间类,不同的字段类型将在衍生过程中起到不同的作用。一实施例的分类方法可参见下表。
分类后的结果可通过Python编程语言存储为四个字典,这四个字典分别对应ID类、数值类、类别类及时间类。
从上述描述可知,本申请提供的可疑交易监测模型特征提取方法,能够根据基础数据表中各字段的字段类型对基础数据表中的各字段进行分类,并将分类后的各字段存储为四个字典。
参见图3,输入参数包括:分箱结果,本申请实施例获取输入参数的步骤包括:
S301:根据基础数据表中各字段的字段类型对各基础数据表中的各字段进行分类;
S302:根据预先设定的k值对分类后的基础数据表中的各多码值类别型字段进行分箱,得到分箱结果。
可以理解的是,在对基础数据表中的各字段进行分类后,可以根据各字段所属的分类对各字段进行标注,标注其为ID类、数值类、类别类或时间类。标注时可以在基础数据表中新增一列,用于填写各行记录对应的标记类型。
对于一些字段而言,其数据存在多码值,所谓多码值即是指字段所记载的数据种类超过十种,这样的字段典型的包括:行政区划、国家代码、交易币种类型、账户类型、交易方式、对私客户职业类型、证件类型、交易对手行政区划、交易对手开户地等。有时,有些字段的码值数量甚至达到三千多个,如行政区划代码字段。码值数量过多会导致衍生变量膨胀。为了大幅度降低衍生后可疑特征的冗余度,提升可疑交易监测模型的运算速度,并防止可疑交易监测模型发生训练过拟合的现象,需对这些多码值字段进行分箱处理。分箱即是对这些字段原始的类别进行特征降维,例如将国家类别这一字段中各个国家的名称略去,将其归纳为高风险、中高风险、中风险、中低风险及低风险这五个箱子。
本申请实施例中,分箱方法采用无监督k-means聚类算法实现,将欲被分箱的目标字段中的多码值降维为k类,k的值可取为9。该过程可通过Python编程语言实现,具体步骤如下:
1、通过Python导入sklearn库中的k-means函数
2、通过Python开发自定义函数:k-means分箱函数
3、确定k值,即分箱类别,然后给出k-means函数分箱聚类所需的历史数据及需要分箱的类别所对应的字典,上述字典即为分类后的各字段所对应的四个字典。其中,历史数据来源于各基础数据表。
4、利用自定义函数:k-means分箱函数计算分箱结果,并将分箱结果进行存储。
从上述描述可知,本申请提供的可疑交易监测模型特征提取方法,能够根据预先设定的k值对分类后的基础数据表中的各多码值类别型字段进行分箱,得到分箱结果。
参见图4,输入参数包括:特征基元参数,本申请实施例获取输入参数的步骤包括:
S401:根据特征衍生数量及可疑交易监测场景选择特征基元;
S402:根据特征基元生成特征基元对应的特征基元参数。
可以理解的是,特征基元(Feature primitives)是在进行特征衍生时,数据聚合及转化所必须的衍生参数,它定义了从基础字段衍生出新特征的方法,所有的特征基元可以分为聚合基元(Aggregation)及转换基元(Transform)。
“转换基元”作用于单张基础数据表,对表内的一个或多个数据列完成操作来构造新特征。一实施例中,对客户交易明细表中的单列进行操作的过程如下:客户交易明细表中的交易日期(年月日)这一列,可衍生成新的几列,这新的几列即为衍生出的特征。对交易日期这一列进行特征衍生的结果可为将交易日期转换为是否为周末(is_weekend),也可为将交易日期转换为当年的第几周(week)。一实施例中,对多数据列进行操作的过程如下:在对公客户信息表中,生成新的一列即衍生出一列新特征,这新的一列特征可以为将该表中客户财富值与对应企业的年收入水平做差生成。这新的一列特征是对表中原有两列的处理,即是对一张表中的多列的一个特征衍生。
“聚合基元”通过一对多的关联关系作用于多张基础数据表。根据Featuretools开源框架中的索引分组可以计算各衍生特征的统计量。其中,常用的聚合操作有计数count、求和sum、最大值max等,这些操作的结果即为统计量。例如,交易表与客户表通过客户编号进行关联后,可以衍生出对私客户过去一个月内交易对手国籍个数、对公客户交易对手涉及的不同行业类别数等;又例如,通过聚合操作可以统计每个账户一个月内的交易总额、交易总笔数、账户余额总和、交易额众数等。
Featuretools开源框架已开发出众多比较常用的转换和聚合的特征基元函数,本申请实施例可根据实际应用需求进行直接选取及调用。在Featuretools开源框架中,单独使用或者叠加使用这些特征基元函数可以构造出新的特征。通过Python编程语言调用Featuretools开源框架,可以根据欲生成的可疑交易监测模型的计算能力及可以交易监测场景选择合适的特征基元,调用特征基元函数,完成特征基元的输入。
一实施例中,可以利用Python编程语言自定义地开发特征基元函数,例如可以开发适用于反洗钱场景的账户沉睡期、临近大额笔数、连续交易天数、资金停留时间等Featuretools开源框架内没有的特征基元函数。
具体的自定义开发步骤如下:
(1)根据实际需求,确定自定义基元的类别是转换基元还是聚合基元;
(2)定义自定义基元的输入的数据类型及输出的数据类型;
(3)利用Python编程语言开发自定义基元的计算函数;
(4)导入Python开发包中的Featuretools开源框架,调用make_agg_primitive或make_trans_primitive对应的API接口,将上述计算函数加入特征基元清单,生成特征基元。
从上述描述可知,本申请提供的可疑交易监测模型特征提取方法,能够根据特征衍生数量及可疑交易监测场景选择特征基元,并根据特征基元生成特征基元对应的特征基元参数。
一实施例中,输入参数还包括:预先确定的时间窗口及预先确定的兴趣值。
可以理解的是,定义特征衍生的时间窗口,即是确定特征在计算时所覆盖的历史数据范围,如计算30天内的客户交易笔数或3个月内客户现金交易金额等。时间窗口可参照实际业务的应用场景及人民银行的具体相关标准进行灵活设定。同时,考虑到在欲建立的可疑交易监测模型的算力允许的情况下应尽可能引入更多的交易数据参与特征计算这一原则,时间窗口的设定可以为:30天、60天、90天、180天等。其中,历史数据来源于各基础数据表。
另一方面,兴趣值是进行特征基元自定义的一种方式。兴趣值(Interestingvalues)在特征衍生中可作为特征变量的一种限定条件存在。通过对分箱后的字段进行“多维度组合”,可使新特征更为细化,使新特征更加贴合业务场景。一实施例中,SUM(账户交易金额where收付标识为01)为一新衍生出的特征,即求账户所有收付标识为01的交易金额总和,其中限定条件——“收付标识为01”即是这个特征的兴趣值。
一实施例中,可以从反洗钱监测场景出发来定义一些兴趣值,如:报送业务条线、业务种类、业务条线、借贷标志、交易种类、交易方式、交易渠道、资金用途、账户类型、账户性质、客户类型、交易地区、是否跨境交易、是否异地交易、产品种类、客户性别等。
从上述描述可知,本申请提供的可疑交易监测模型特征提取方法,能够根据多张基础数据表及各基础数据表对应的输入参数对预先生成的训练样本进行自动化特征衍生,其中,输入参数可以包括预先确定的时间窗口及预先确定的兴趣值。
参见图5,本申请实施例得到特征矩阵的步骤包括:
S501:根据多张基础数据表生成训练样本;训练样本包括正样本数据、负样本数据及特殊负样本数据;
S502:根据训练样本、各基础数据表对应的输入参数及特征衍生深度进行自动化特征衍生,得到特征矩阵。
可以理解的是,在分别完成了对上述各输入参数的计算及设置后,即可开始利用Featuretools开源框架并基于深度特征合成算法进行自动化特征衍生,具体衍生过程如下:
(1)生成训练样本:在生成训练样本时,可根据S102中阐述的原则进行生成。生成训练样本的过程即是对正样本数据、负样本数据和特殊负样本数据进行选取的过程。
(2)根据各基础数据表所对应的实体集及各基础数据表之间的实体关系,从数据库中导入训练样本的所有实体,也就是说为训练样本填入具体的基础数据。
(3)导入Python编程语言开发包中的Featuretools开源框架。
(4)获取上述各输入参数及进行特征衍生的最大深度(max_depth),本申请实施例中可将其设定为2。
(5)调用Featuretools开源框架中的深度特征合成函数,即DFS函数,并代入上述输入参数及进行特征衍生的深度,执行代码进行自动化特征衍生,最终将自动化特征衍生的结果存入特征矩阵。
从上述描述可知,本申请提供的可疑交易监测模型特征提取方法,能够根据多张基础数据表生成训练样本,并根据各基础数据表对应的输入参数及特征衍生深度生成特征矩阵。
一实施例中,对特征矩阵进行特征提取包括:
过滤掉字段缺失率过高的特征、相关性过高的特征、对模型预测结果无贡献的特征、对模型预测结果贡献过低的特征及仅具有单一值的特征,得到提取后的特征。具体的过滤原则及方法参见下文阐述。
参见图6,本申请实施例过滤字段缺失率过高的特征的步骤包括:
S601:计算特征矩阵中各特征的缺失率;
S602:过滤缺失率大于预先设定的缺失率阈值的特征。
可以理解的是,本申请实施例可以选择缺失率(Missing value)的百分比大于缺失率阈值的特征。具体方法是通过设置missing_threshold去指定缺失率对应的阈值百分比。Feature-Selector开源框架内部的pandas库可统计特征矩阵中所有特征的缺失率,然后选择出缺失率大于缺失率阈值的特征,将其过滤掉。
从上述描述可知,本申请提供的可疑交易监测模型特征提取方法,能够利用Feature-Selector开源框架内部的pandas库,计算特征矩阵中各特征的缺失率,并过滤掉缺失率大于预先设定的缺失率阈值的特征。
参见图7,本申请实施例过滤相关性过高的特征的步骤包括:
S701:计算特征矩阵中各特征的相关性;
S702:对于相关性大于预先设定的相关性阈值的特征,任意保留其中的一个特征。
可以理解的是,本申请实施例可以选择相关性大于相关性阈值的特征。具体方法是通过设置correlation_threshold去指定相关性对应的阈值百分比。Feature-Selector开源框架内部的pandas库可计算特征两两之间的相关性,然后选择出相关性大于相关性阈值的特征对,每一对中仅随机留下其中的一个特征。
从上述描述可知,本申请提供的可疑交易监测模型特征提取方法,能够利用Feature-Selector开源框架内部的pandas库,计算特征两两之间的相关性,并选择出相关性大于相关性阈值的特征对,使得每一特征对中仅随机留下一个特征。
参见图8,本申请实施例过滤对模型预测结果无贡献的特征的步骤包括:
S801:利用梯度提升机计算特征矩阵中各特征的重要性分数;
S802:对重要性分数进行归一化处理,得到重要性归一化分数;
S803:过滤重要性归一化分数为零的特征。
可以理解的是,本申请实施例可以过滤掉对可疑特征监测模型的预测结果毫无贡献的特征,即Zero importance特征,从特征矩阵中去除或者保留该特征对可疑特征监测模型的训练结果不会有任何影响。
Feature-Selector开源框架内部的pandas库首先利用历史数据训练一个梯度提升机(Gradient Boosting Machine,GBM),然后由梯度提升机得到每一个特征的重要性分数,再对所有特征的重要性分数进行归一化处理,过滤掉上述重要性分数等于零的特征。其中,历史数据来源于各基础数据表。为了使计算得到的各特征的重要性分数的方差保持在较小范围,Feature-Selector开源框架内部的pandas库会对梯度提升机进行多次训练,计算重要性分数,并取多次计算的平均值,得到最终的各特征的重要性分数。同时为了防止可疑特征监测模型的过拟合,Feature-Selector开源框架内部的pandas库会从特征矩阵中抽取一部分特征作为验证集,在训练梯度提升机的时候,可以计算梯度提升机在验证集上的某一矩阵,当上述矩阵满足一定条件时,则停止对梯度提升机的训练。
从上述描述可知,本申请提供的可疑交易监测模型特征提取方法,能够利用梯度提升机,过滤对模型预测结果无贡献的特征。
参见图9,本申请实施例过滤对模型预测结果贡献过低的特征的步骤包括:
S901:利用梯度提升机计算特征矩阵中各特征的重要性分数;
S902:对重要性分数进行归一化处理,得到重要性归一化分数;
S903:过滤重要性归一化分数低于预先设定的贡献率阈值的特征。
可以理解的是,本申请实施例可以利用S801~S803的计算结果,过滤掉对贡献率低于贡献率阈值的特征,即Low importance特征。
从上述描述可知,本申请提供的可疑交易监测模型特征提取方法,能够利用梯度提升机,过滤对模型预测结果低贡献的特征。
一实施例中,本申请提供的可疑交易监测模型特征提取方法还能够过滤上述特征矩阵中仅具有单一值的特征。
可以理解的是,仅具有单一值的特征表示在上述特征矩阵中该特征的取值集合中只包含一个元素。仅具有单一值的特征的方差为零,对于可疑交易监测模型的训练不会有任何作用,从信息熵的角度来看,仅具有单一值的特征的熵为0,因此可以将其过滤掉。
除了以上过滤原则外,根据不同的可疑交易监测场景、不同的监管要求及不同的业务需求还可以增设其他过滤原则。
本申请实施例的可重复性高,能够适用于大多数可疑交易监测模型的样本准备及建立,能够进行不同可疑交易场景下的可疑特征挖掘。本申请实施例改进了传统的手动特征工程的标准流程,其中的自动化流程大幅度减少了特征工程在项目开发过程中所花费的时间成本,具有高可靠性。另外由于减少了人工干预的环节,本申请实施例能够很好地解决可疑交易监测模型建立过程中信息泄露的问题,避免了传统特征工程中在特征构造时容易出错的弊端,缩小了人为主观的局限性。
本申请实施例自动化衍生的特征具有完全的可解释性,并能够兼容现有技术中的各种机器学习及规则模型的模型管道,灵活性高,能够提供多种自定义接口,如自定义兴趣值、自定义特征基元、自定义时间窗口,来满足各种实际业务需求及监管要求。
基于同一发明构思,本申请实施例还提供了一种可疑交易监测模型特征提取装置,可以用于实现上述实施例所描述的方法,如下面的实施例所述。由于可疑交易监测模型特征提取装置解决问题的原理与可疑交易监测模型特征提取方法相似,因此可疑交易监测模型特征提取装置的实施可以参见基于软件性能基准确定方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
参见图10,为了能够实现不同可疑交易场景下的可疑特征挖掘,本申请提供一种可疑交易监测模型特征提取装置,包括:获取单元1001、衍生单元1002及提取单元1003。
获取单元1001,用于获取多张基础数据表及各所述基础数据表对应的输入参数;
衍生单元1002,用于根据所述多张基础数据表及各所述基础数据表对应的输入参数对预先生成的训练样本进行自动化特征衍生,得到特征矩阵;
提取单元1003,用于对所述特征矩阵进行特征提取。
参见图11,所述衍生单元1002包括:样本生成模块1101及矩阵生成模块1102。
样本生成模块1101,用于根据所述多张基础数据表生成所述训练样本;所述训练样本包括正样本数据、负样本数据及特殊负样本数据;
矩阵生成模块1102,用于根据所述训练样本、各所述基础数据表对应的输入参数及特征衍生深度进行自动化特征衍生,得到所述特征矩阵。
参见图12,所述提取单元1003包括:
过滤模块1201,具体用于过滤掉字段缺失率过高的特征、相关性过高的特征、对模型预测结果无贡献的特征、对模型预测结果贡献过低的特征及仅具有单一值的特征,得到提取后的特征。
从硬件层面来说,为了能够实现不同可疑交易场景下的可疑特征挖掘,本申请提供一种可疑交易监测模型特征提取方法中的全部或部分内容的电子设备的实施例,所述电子设备具体包含有如下内容:
处理器(Processor)、存储器(Memory)、通讯接口(Communications Interface)和总线;其中,所述处理器、存储器、通讯接口通过所述总线完成相互间的通讯;所述通讯接口用于实现所述可疑交易监测模型特征提取装置与核心业务系统、用户终端以及相关数据库等相关设备之间的信息传输;该逻辑控制器可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该逻辑控制器可以参照实施例中的可疑交易监测模型特征提取方法的实施例,以及可疑交易监测模型特征提取装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
可以理解的是,所述用户终端可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。
在实际应用中,可疑交易监测模型特征提取方法的部分可以在如上述内容所述的电子设备侧执行,也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器。
上述的客户端设备可以具有通讯模块(即通讯单元),可以与远程的服务器进行通讯连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通讯链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
图13为本申请实施例的电子设备9600的系统构成的示意框图。如图13所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图13是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
一实施例中,可疑交易监测模型特征提取方法功能可以被集成到中央处理器9100中。其中,中央处理器9100可以被配置为进行如下控制:
S101:获取多张基础数据表及各基础数据表对应的输入参数。
S102:根据多张基础数据表及各基础数据表对应的输入参数对预先生成的训练样本进行自动化特征衍生,得到特征矩阵。
S103:对特征矩阵进行特征提取。
从上述描述可知,本申请提供的可疑交易监测模型特征提取方法,能够根据多张基础数据表及各基础数据表对应的输入参数对预先生成的训练样本进行自动化特征衍生及提取,最终得到特征提取结果,以实现不同可疑交易场景下的可疑特征挖掘,为可疑特征监测模型的建立提供基础。
在另一个实施方式中,可疑交易监测模型特征提取装置可以与中央处理器9100分开配置,例如可以将可疑交易监测模型特征提取装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现可疑交易监测模型特征提取方法的功能。
如图13所示,该电子设备9600还可以包括:通讯模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图13中所示的所有部件;此外,电子设备9600还可以包括图13中没有示出的部件,可以参考现有技术。
如图13所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通讯功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通讯模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通讯模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通讯终端的情况相同。
基于不同的通讯技术,在同一电子设备中,可以设置有多个通讯模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通讯模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本申请的实施例还提供能够实现上述实施例中的执行主体为服务器或客户端的可疑交易监测模型特征提取方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的可疑交易监测模型特征提取方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
S101:获取多张基础数据表及各基础数据表对应的输入参数。
S102:根据多张基础数据表及各基础数据表对应的输入参数对预先生成的训练样本进行自动化特征衍生,得到特征矩阵。
S103:对特征矩阵进行特征提取。
从上述描述可知,本申请提供的可疑交易监测模型特征提取方法,能够根据多张基础数据表及各基础数据表对应的输入参数对预先生成的训练样本进行自动化特征衍生及提取,最终得到特征提取结果,以实现不同可疑交易场景下的可疑特征挖掘,为可疑特征监测模型的建立提供基础。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (14)
1.一种可疑交易监测模型特征提取方法,其特征在于,包括:
获取多张基础数据表及各所述基础数据表对应的输入参数;
根据所述多张基础数据表及各所述基础数据表对应的输入参数对预先生成的训练样本进行自动化特征衍生,得到特征矩阵;
对所述特征矩阵进行特征提取;
其中,所述根据所述多张基础数据表及各所述基础数据表对应的输入参数对预先生成的训练样本进行自动化特征衍生,得到特征矩阵,包括:
根据所述多张基础数据表生成所述训练样本;所述训练样本包括正样本数据、负样本数据及特殊负样本数据;
根据所述训练样本、各所述基础数据表对应的输入参数及特征衍生深度进行自动化特征衍生,得到所述特征矩阵;
其中,特殊负样本数据是指命中可疑交易监测模型,但被甄别人员确定为非可疑人员的客户在非可疑时间段内的所有交易及其客户相关信息。
2.根据权利要求1所述的可疑交易监测模型特征提取方法,其特征在于,获取多张基础数据表的步骤,包括:
获取可疑交易监测所应覆盖的客户及对应的业务领域;
根据所述客户及所述业务领域接入对应的上游数据源,生成所述基础数据表。
3.根据权利要求1所述的可疑交易监测模型特征提取方法,其特征在于,所述输入参数包括:分箱结果;获取所述输入参数的步骤,包括:
根据所述基础数据表中各字段的字段类型对各所述基础数据表中的各字段进行分类;
根据预先设定的k值对分类后的所述基础数据表中的各多码值类别型字段进行分箱,得到分箱结果。
4.根据权利要求1所述的可疑交易监测模型特征提取方法,其特征在于,所述输入参数包括:特征基元参数;获取所述输入参数的步骤,包括:
根据特征衍生数量及可疑交易监测场景选择特征基元;
根据所述特征基元生成所述特征基元对应的特征基元参数。
5.根据权利要求1所述的可疑交易监测模型特征提取方法,其特征在于,所述输入参数包括:字典;获取所述输入参数的步骤,包括:
根据所述基础数据表中各字段的字段类型对基础数据表中的各字段进行分类,并将分类后的各所述字段存储为四个字典。
6.根据权利要求1所述的可疑交易监测模型特征提取方法,其特征在于,所述对所述特征矩阵进行特征提取,包括:
过滤掉字段缺失率过高的特征、相关性过高的特征、对模型预测结果无贡献的特征、对模型预测结果贡献过低的特征及仅具有单一值的特征,得到提取后的特征。
7.根据权利要求6所述的可疑交易监测模型特征提取方法,其特征在于,过滤所述字段缺失率过高的特征,包括:
计算所述特征矩阵中各所述特征的缺失率;
过滤所述缺失率大于预先设定的缺失率阈值的特征。
8.根据权利要求6所述的可疑交易监测模型特征提取方法,其特征在于,过滤所述相关性过高的特征,包括:
计算所述特征矩阵中各所述特征的相关性;
对于所述相关性大于预先设定的相关性阈值的所述特征,任意保留其中的一个所述特征。
9.根据权利要求6所述的可疑交易监测模型特征提取方法,其特征在于,过滤所述对模型预测结果无贡献的特征,包括:
利用梯度提升机计算所述特征矩阵中各所述特征的重要性分数;
对所述重要性分数进行归一化处理,得到重要性归一化分数;
过滤所述重要性归一化分数为零的特征。
10.根据权利要求6所述的可疑交易监测模型特征提取方法,其特征在于,过滤所述对模型预测结果贡献过低的特征,包括:
利用梯度提升机计算所述特征矩阵中各所述特征的重要性分数;
对所述重要性分数进行归一化处理,得到重要性归一化分数;
过滤所述重要性归一化分数低于预先设定的贡献率阈值的特征。
11.一种可疑交易监测模型特征提取装置,其特征在于,包括:
获取单元,用于获取多张基础数据表及各所述基础数据表对应的输入参数;
衍生单元,用于根据所述多张基础数据表及各所述基础数据表对应的输入参数对预先生成的训练样本进行自动化特征衍生,得到特征矩阵;
提取单元,用于对所述特征矩阵进行特征提取;
其在,所述衍生单元,包括:
样本生成模块,用于根据所述多张基础数据表生成所述训练样本;所述训练样本包括正样本数据、负样本数据及特殊负样本数据;
矩阵生成模块,用于根据所述训练样本、各所述基础数据表对应的输入参数及特征衍生深度进行自动化特征衍生,得到所述特征矩阵;
其中,特殊负样本数据是指命中可疑交易监测模型,但被甄别人员确定为非可疑人员的客户在非可疑时间段内的所有交易及其客户相关信息。
12.根据权利要求11所述的可疑交易监测模型特征提取装置,其特征在于,所述提取单元包括:
过滤模块,具体用于过滤掉字段缺失率过高的特征、相关性过高的特征、对模型预测结果无贡献的特征、对模型预测结果贡献过低的特征及仅具有单一值的特征,得到提取后的特征。
13.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至10任一项所述的可疑交易监测模型特征提取方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至10任一项所述的可疑交易监测模型特征提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011032077.9A CN112101950B (zh) | 2020-09-27 | 2020-09-27 | 可疑交易监测模型特征提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011032077.9A CN112101950B (zh) | 2020-09-27 | 2020-09-27 | 可疑交易监测模型特征提取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112101950A CN112101950A (zh) | 2020-12-18 |
CN112101950B true CN112101950B (zh) | 2024-05-10 |
Family
ID=73782285
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011032077.9A Active CN112101950B (zh) | 2020-09-27 | 2020-09-27 | 可疑交易监测模型特征提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112101950B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104537067A (zh) * | 2014-12-30 | 2015-04-22 | 广东电网有限责任公司信息中心 | 一种基于k-means聚类的分箱方法 |
CN107622333A (zh) * | 2017-11-02 | 2018-01-23 | 北京百分点信息科技有限公司 | 一种事件预测方法、装置及系统 |
CN107730717A (zh) * | 2017-10-31 | 2018-02-23 | 华中科技大学 | 一种基于特征提取的公共交通可疑卡识别方法 |
CN108897834A (zh) * | 2018-06-22 | 2018-11-27 | 招商信诺人寿保险有限公司 | 数据处理与挖掘方法 |
CN110134839A (zh) * | 2019-03-27 | 2019-08-16 | 平安科技(深圳)有限公司 | 时序数据特征处理方法、装置及计算机可读存储介质 |
CN110232473A (zh) * | 2019-05-22 | 2019-09-13 | 重庆邮电大学 | 一种基于大数据金融的黑产用户预测方法 |
CN110276618A (zh) * | 2019-06-28 | 2019-09-24 | 第四范式(北京)技术有限公司 | 生成洗钱案宗预测模型、预测洗钱案宗的方法及系统 |
CN111079937A (zh) * | 2019-11-15 | 2020-04-28 | 苏州金智渠信息技术有限公司 | 一种快速建模的方法 |
CN111199322A (zh) * | 2020-01-08 | 2020-05-26 | 广西鑫朗通信技术有限公司 | 房价预测方法及计算机可读存储介质 |
CN111709844A (zh) * | 2020-05-13 | 2020-09-25 | 北京明略软件系统有限公司 | 一种保险洗钱人员检测方法、装置和计算机可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI584215B (zh) * | 2015-12-31 | 2017-05-21 | 玉山商業銀行股份有限公司 | 監控可疑交易的方法 |
-
2020
- 2020-09-27 CN CN202011032077.9A patent/CN112101950B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104537067A (zh) * | 2014-12-30 | 2015-04-22 | 广东电网有限责任公司信息中心 | 一种基于k-means聚类的分箱方法 |
CN107730717A (zh) * | 2017-10-31 | 2018-02-23 | 华中科技大学 | 一种基于特征提取的公共交通可疑卡识别方法 |
CN107622333A (zh) * | 2017-11-02 | 2018-01-23 | 北京百分点信息科技有限公司 | 一种事件预测方法、装置及系统 |
CN108897834A (zh) * | 2018-06-22 | 2018-11-27 | 招商信诺人寿保险有限公司 | 数据处理与挖掘方法 |
CN110134839A (zh) * | 2019-03-27 | 2019-08-16 | 平安科技(深圳)有限公司 | 时序数据特征处理方法、装置及计算机可读存储介质 |
CN110232473A (zh) * | 2019-05-22 | 2019-09-13 | 重庆邮电大学 | 一种基于大数据金融的黑产用户预测方法 |
CN110276618A (zh) * | 2019-06-28 | 2019-09-24 | 第四范式(北京)技术有限公司 | 生成洗钱案宗预测模型、预测洗钱案宗的方法及系统 |
CN111079937A (zh) * | 2019-11-15 | 2020-04-28 | 苏州金智渠信息技术有限公司 | 一种快速建模的方法 |
CN111199322A (zh) * | 2020-01-08 | 2020-05-26 | 广西鑫朗通信技术有限公司 | 房价预测方法及计算机可读存储介质 |
CN111709844A (zh) * | 2020-05-13 | 2020-09-25 | 北京明略软件系统有限公司 | 一种保险洗钱人员检测方法、装置和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112101950A (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10482079B2 (en) | Data de-duplication systems and methods | |
US20180260891A1 (en) | Systems and methods for generating and using optimized ensemble models | |
CN112541817A (zh) | 一种个人消费贷款潜在客户的营销响应处理方法及系统 | |
CN111951052B (zh) | 基于知识图谱的获取潜在客户方法及装置 | |
CN110415123B (zh) | 金融产品推荐方法、装置和设备及计算机存储介质 | |
US20090327036A1 (en) | Decision support systems using multi-scale customer and transaction clustering and visualization | |
CN111767319A (zh) | 基于资金流向的客户挖掘方法及装置 | |
CN110796539A (zh) | 一种征信评估方法及装置 | |
CN112232950A (zh) | 针对借贷风险的评估方法及装置、设备、计算机可读存储介质 | |
CN116800831B (zh) | 一种业务数据推送方法、装置、存储介质及处理器 | |
CN112085497A (zh) | 用户账户数据的处理方法及装置 | |
CN112101950B (zh) | 可疑交易监测模型特征提取方法及装置 | |
US8515841B2 (en) | Financial product application pull-through system | |
Cheryshenko et al. | Integration of big data in the decision-making process in the real estate sector | |
WO2023121848A1 (en) | Deduplication of accounts using account data collision detected by machine learning models | |
CN113240513A (zh) | 一种用户授信额度的确定方法和相关装置 | |
CN111932018B (zh) | 银行业务绩效贡献信息预测方法及装置 | |
US11037126B2 (en) | Systems and methods for assessing electronic payment readiness | |
CN115423613A (zh) | 客户画像数据处理方法及装置 | |
CN118296223A (zh) | 一种基于智慧金融的贷款产品智能管理平台 | |
CN114969543B (zh) | 推广方法、系统、电子设备和存储介质 | |
CN117591852A (zh) | 基于特征构建算法自动生成银行风控业务特征的方法 | |
UA139735U (uk) | Апаратно-програмний комплекс для автоматизованого прийняття рішення щодо надання он-лайн кредитів | |
CN112200645A (zh) | 一种医疗费用的数据处理方法、装置、设备和存储介质 | |
CN117710094A (zh) | 用户信用画像生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |