CN114708608A - 一种银行票据全自动化特征工程方法及装置 - Google Patents
一种银行票据全自动化特征工程方法及装置 Download PDFInfo
- Publication number
- CN114708608A CN114708608A CN202210628458.6A CN202210628458A CN114708608A CN 114708608 A CN114708608 A CN 114708608A CN 202210628458 A CN202210628458 A CN 202210628458A CN 114708608 A CN114708608 A CN 114708608A
- Authority
- CN
- China
- Prior art keywords
- feature
- bill
- target value
- data
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012407 engineering method Methods 0.000 title claims description 8
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000010801 machine learning Methods 0.000 claims abstract description 29
- 230000008569 process Effects 0.000 claims abstract description 16
- 238000004140 cleaning Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 62
- 238000012546 transfer Methods 0.000 claims description 42
- 238000012545 processing Methods 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000005295 random walk Methods 0.000 claims description 13
- 238000005315 distribution function Methods 0.000 claims description 5
- 230000035945 sensitivity Effects 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 2
- 238000012804 iterative process Methods 0.000 claims description 2
- 238000002360 preparation method Methods 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000005457 optimization Methods 0.000 abstract description 2
- 238000003860 storage Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 5
- 238000000586 desensitisation Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Finance (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Medical Informatics (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- Technology Law (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Strategic Management (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种银行票据全自动化特征工程方法及装置,该方法包括:自动化票据识别;自动化数据清洗,形成基础数据集;自动化特征生成,根据当前票据的身份数据和下游机器学习分类任务类型,从数据库中读取历史票据数据加入基础数据集,通过构建特征生成树生成新的票据特征;自动化特征选择,通过将特征选择视为二元优化问题,分为靠近目标值和确定目标值两个阶段进行特征选择。本发明只需要在初始时设置可调节参数,后续流程皆可自动完成。本发明使用自动化特征工程能够节省人力、提高效率,有效为后续的银行票据机器学习分类任务提供优质特征。
Description
技术领域
本发明属于特征工程技术领域,具体涉及一种银行票据全自动化特征工程方法及装置。
背景技术
在机器学习任务周期中,越来越多的流程向着自动化代替人力发展,诞生了许多代码库和自动化工具。这些代码库和自动化工具旨在通过寻找匹配数据集的最优模型来简化模型选择和机器学习调优过程,只需要很少的人工操作。特征工程是机器学习流程中极为重要的部分,特征工程的质量限制了机器学习模型所能达到的最佳效果,却几乎完全依靠人工实现。
票据市场是企业获取银行融资和信用支持的重要渠道。对票据数据的合理利用,有利于银行开拓新客户、稳定老客户、吸收存款。票据数据类型多样且复杂,数据量大,使用人力进行特征工程效率低,且也很难根据各类票据和下游任务的具体特点灵活的进行特征生成和特征选择。
发明内容
本发明目的在于针对现有技术的不足,提出一种银行票据全自动化特征工程方法及装置,提高银行票据数据的利用效率,节约人力,缩短项目周期。
本发明的目的是通过以下技术方案来实现的:
根据本说明书的第一方面,提供一种银行票据全自动化特征工程方法,包括以下步骤:
S1,自动化票据识别:收集票据图像,对票据图像进行图像处理和敏感性处理,获得原始票据数据D0,识别票据的业务类型并自动归档;
S2,自动化数据清洗:对原始票据数据D0进行数据清洗,再进行数据脱敏处理,形成基础数据集D1;
S3,自动化特征生成:根据当前票据的身份数据和下游机器学习分类任务类型,从数据库中读取历史票据数据加入基础数据集D1中;根据基础数据集D1构建特征生成树,根据特征生成树生成新的票据特征,构成票据特征集F;
S4,自动化特征选择:将特征选择问题视为二元优化问题,分为靠近目标值和确定目标值两个阶段,所述靠近目标值阶段采用垂直大跨步靠近目标值和螺旋式小跨步靠近目标值两个特征选择策略,所述确定目标值阶段采用垂直向确定目标值和随机游走确定目标值两个特征选择策略,最终得到银行票据机器学习分类任务所需的票据特征集F_SUB。
进一步地,步骤S1中,所述图像处理包括自动去黑边、自动去噪,所述敏感性处理包括敏感信息识别、敏感信息遮挡。
进一步地,步骤S2中,所述数据清洗包括对数据类型分类、异常值处理、文本编码。
进一步地,步骤S3包括:
S31,从基础数据集D1中提取基础特征,形成初始特征集F0;
S32,构建特征转换函数集合
和概率权重集合,其中,t_n为特征转换函数的个数,特征转换
函数transi对应的概率权重为pi;计算每个特征转换函数transi作用于初始特征集F0的时
间消耗ti,归一化时间消耗值,初始化概率权重集合P;将特征转换函数集合Trans和概率权
重集合P依据概率权重值从大到小进行排序;设置构建特征生成树的最大时间消耗限制和
最大空间消耗限制;
S33,构建特征生成树:特征生成树的根节点为初始特征集F0;按照概率权重集合P从特征转换函数集合Trans中随机选择特征转换函数transi,计算被选择特征转换函数transi作用于当前特征生成树中的每个节点的信息增益,结合时间消耗和空间消耗计算被选择特征转换函数transi 作用于特征生成树中每个节点的总收益度;更新本轮被选择特征转换函数transi的概率权重pi,将更新后的概率权重集合P重新归一化并排序;选择总收益度值最高的节点扩展特征生成树;当剩余时间或剩余空间为0时,停止构建特征生成树;将特征生成树的所有叶子节点取并集得到票据特征集F。
其中,|F|为F的样本数,K为银行票据机器学习分类任务类的个数,|Ck|为类Ck的样
本数;根据特征的取值将F划分为Q个子集,第q个子集记为Fq,Fqk为子集Fq中属于类Ck的样本
集合,为Fq的样本数,|Fqk|为Fqk的样本数;定义信息增益阈值MIN_IG,IG值大于等于
MIN_IG的特征为有效特征,舍弃IG值小于MIN_IG的特征;
结合时间消耗和空间消耗计算被选择特征转换函数transi 作用于特征生成树中节点Fj的总收益度PROFITj的计算公式如下:
其中,tj和hj分别为被选择特征转换函数transi 作用于特征生成树中节点Fj的时间消耗和空间消耗,α和β是用来平衡信息增益、时间消耗和空间消耗的可调节参数。
进一步地,步骤S33中,更新本轮被选择特征转换函数transi的概率权重pi的公式如下:
进一步地,步骤S4包括:
S43,设置最大迭代次数为T,对集合S中每个元素si进行更新,元素的更新分为靠近目标值和确定目标值两个阶段;
定义适应度函数Fitness:
前2/3T次迭代为靠近目标值阶段,获取随机数p_rand1;
当p_rand1<p时,选择垂直大跨步靠近目标值特征选择策略;
当p_rand1>=p时,选择螺旋式小跨步靠近目标值特征选择策略;
后1/3T次迭代为确定目标值阶段,获取随机数p_rand2;
当p_rand2<p时,选择垂直向确定目标值特征选择策略;
当p_rand2>=p时,选择随机游走确定目标值特征选择策略;
通过适应度函数Fitness选取T次迭代中的最优解,得到特征选择后的票据特征集F_SUB。
进一步地,所述垂直大跨步靠近目标值特征选择策略的公式如下:
其中,表示垂直大跨步靠近目标值特征选择策略下集合S的第t+1次迭代
的解,表示前t次迭代过程中的最优解,通过适应度函数Fitness计算比较得出,SM
(t)中的每一位元素都是当前解的平均值,rand2是界于(0,1)的随机值;
所述螺旋式小跨步靠近目标值特征选择策略的公式如下:
其中,表示螺旋式小跨步靠近目标值特征选择策略下集合S的第t+1次
迭代的解,Levy是Levy飞行分布函数,是在第t次迭代时的随机解;和分别为服从和的高斯分布随机数,,,rand3是界于(0,1)的随机
值,是伽马函数。
进一步地,所述垂直向确定目标值特征选择策略的公式如下:
其中,表示垂直向确定目标值特征选择策略下集合S的第t+1次迭代的
解,表示前t次迭代过程中的最优解,通过适应度函数Fitness计算比较得出,SM
(t)中的每一位元素都是当前解的平均值,z=0.1,rand4是界于(0,1)的随机值;
所述随机游走确定目标值特征选择策略的公式如下:
其中,表示随机游走确定目标值特征选择策略下集合S的第t+1次迭代
的解,S(t)是第t次迭代的解,rand5、rand6是界于(0,1)的随机值,Levy是Levy飞行分布函
数,表示在第t次迭代时用于平衡搜索策略的质量函数,表示随机游走的速率。
根据本说明书的第二方面,提供一种银行票据全自动化特征工程装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现如第一方面所述的银行票据全自动化特征工程方法。
本发明的有益效果是:本发明利用自动化特征工程,解决了以往银行票据机器学习分类任务特征工程由于数据量大需要耗费大量人力的问题,只需要在初始时设置可调节参数即可自动化完成后续特征选择流程,提高效率,缩短机器学习分类任务周期。另外,本发明通过构建特征生成树和设计特征选择策略,能够有效扩充丰富特征集,并且能够将对下游银行票据机器学习分类任务贡献度高的特征选择出来。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一示例性实施例提供的银行票据全自动化特征工程方法流程图。
图2为一示例性实施例提供的构建特征生成树流程图。
图3为一特征生成树示例图。
图4为一示例性实施例提供的特征选择流程图。
图5为一示例性实施例提供的银行票据全自动化特征工程装置的结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,均属于本发明保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
本发明提供一种银行票据全自动化特征工程方法,如图1所示,该方法包括以下步骤:
S1,自动化票据识别。收集票据图像,对票据图像进行图像处理,包括自动去黑边、自动去噪,再对票据图像进行敏感性处理,包括敏感信息识别、敏感信息遮挡,获得原始票据数据D0,识别票据的业务类型并自动归档;具体地:
S11,使用图像识别技术提取票据图像,对票据图像做基础的图像处理,包括自动去黑边、自动去噪等;
S12,进行票据图像敏感信息识别、敏感信息遮挡,获得原始票据数据D0;
S13,自动区分票据的业务类型,对每一类票据设置统一数据存储模板,将提取的原始票据数据按照存储模板存储;票据的业务类型例如银行进账单、贴现凭证等。
S2,自动化数据清洗。对原始票据数据D0进行数据清洗,包括对数据类型分类、异常值处理、文本编码等基本数据清洗操作,再进行数据脱敏处理,形成基础数据集D1;
银行票据数据主要包括身份数据和涉及汇款等交易数值型数据,对身份数据进行自动脱敏处理。
S3,自动化特征生成。根据当前票据的身份数据和下游机器学习分类任务类型,从数据库中读取历史票据数据加入基础数据集D1中;根据基础数据集D1构建特征生成树,根据特征生成树生成新的票据特征,构成票据特征集F;参照图2的流程,具体包括以下子步骤:
S31,根据当前票据的身份数据和下游机器学习分类任务类型,从数据库中读取历史票据数据加入基础数据集D1中;从基础数据集D1中提取基础特征,形成初始特征集F0;
S32,构建特征转换函数集合
以及概率权重集合,其中,t_n为特征转换函数的个数,特征转
换函数transi对应的概率权重为pi。计算每个特征转换函数transi作用于初始特征集F0的
时间消耗ti,归一化时间消耗值,初始化概率权重集合P:,其中,,为归一化函数。将特征转换函数集合Trans和概率权重集合P
依据pi 的值从大到小进行排序。另外设置构建特征生成树FT的最大时间消耗限制TG和最大
空间消耗限制HG,TG和HG为可调节参数。
表1特征转换函数集合示例
S33,构建特征生成树FT,对于银行票据数据而言,其样本数大,所要消耗的时间和空间大,在自动进行特征生成时,如果不对其特征生成树在时间和空间上进行限制容易造成内存溢出等计算资源不足的问题。本发明通过对时间控制和空间控制参数α和β的调节,以及对新生成特征的舍弃来实现资源利用的最大化,尽可能多的生成有效的新特征。具体构建步骤如下:
特征生成树FT的根节点为初始特征集F0。特征生成树FT添加子节点的方法是:按
照概率权重集合P从特征转换函数集合Trans中随机选择当前一步将要添加至特征生成树
中的特征转换函数transi;计算特征转换函数transi作用于当前特征生成树FT中的每一个
节点的信息增益。参照图3示例,图3中当前特征生成树记为,本次
迭代选中的特征转换函数transi 为乘法。特征转换函数transi 作用于特征生成树FT中节
点Fj的信息增益记为,计算公式如下:
其中,|F|为F的样本数,K为银行票据机器学习分类任务类的个数,|Ck|为类Ck的样
本数;根据此特征的取值将F划分为Q个子集,第q个子集记为Fq,Fqk为子集Fq中属于类Ck的样
本集合,为Fq的样本数,|Fqk|为Fqk的样本数;定义信息增益阈值MIN_IG,当某个特征IG
值小于MIN_IG时,舍弃该特征,IG值大于等于MIN_IG时则为有效特征。
结合时间消耗和空间消耗计算特征转换函数transi 作用于特征生成树FT中节点Fj的总收益度PROFITj:
更新本轮被选择特征转换函数transi的概率权重pi;更新pi后,将概率权重集合P重新归一化并重新排序。更新公式如下:
选择总收益度PROFITj值最高的节点扩展特征生成树。参照图3,本轮计算后PROFIT2值最大,因此将本轮特征转换函数transi作用于节点F2,生成新特征后得到新节点F5。
当剩余时间Tr或剩余空间Hr为0时,停止特征生成树的构建。该特征生成树的每一个叶子节点都是一个新的特征集合,将这些叶子节点取并集即得到票据特征集F。
S4,对于S3中生成的票据特征集F,进行特征选择。将特征选择问题视为二元优化问题,分为靠近目标值和确定目标值两个阶段,靠近目标值阶段采用垂直大跨步靠近目标值和螺旋式小跨步靠近目标值两个特征选择策略,确定目标值阶段采用垂直向确定目标值和随机游走确定目标值两个特征选择策略,最终得到银行票据机器学习分类任务所需的票据特征集F_SUB。参照图4的流程,具体包括以下子步骤:
S43,开始进行S中每个元素si的更新。设置最大迭代次数为T。
元素的更新分为两大阶段,每一阶段又包括两种特征选择策略。
适应度函数Fitness为:
前2/3T次迭代为第一阶段,获取随机数p_rand1;
第一阶段靠近目标值,包括策略一,垂直大跨步靠近目标值;策略二,螺旋式小跨步靠近目标值;具体公式如下:
当p_rand1<p时,选择策略一,公式如下:
其中,表示策略一下集合S的第t+1次迭代的解,表示前t次迭代
过程中的最优解,通过适应度函数Fitness计算比较得出,SM(t)中的每一位元素都是当前
解的平均值(当前解所有元素之和除以N,N代表S的维度大小),rand2是界于(0,1)的随机
值。
当p_rand1>=p时,选择策略二,公式如下:
后1/3T次迭代为第二阶段,获取随机数p_rand2;
第二阶段确定目标值,包括策略三,垂直向确定目标值;策略四,随机游走确定目标值;具体公式如下:
当p_rand2<p时,选择策略三,公式如下:
当p_rand2>=p时,选择策略四,公式如下:
在一个实施例中,现有10000名客户的现金支票票据,下游银行票据机器学习分类
任务为识别是否为风险客户的二分类任务。参照图1,开始时设置可调节参数,,,,,MIN_IG=0.5,,,,。经过自动化票据识别后,得到原始数据集D0,
经过自动化数据清洗后,得到基础数据集D1。从数据库中读取历史票据数据,将付款方历史
平均付款金额和收款方历史平均收款金额加入到D1中。此时D1包括脱敏处理后的10000个样
本,8个特征,包括付款单位编号、收款单位编号、款项金额、款项用途、签发日期、背书日期、
付款方历史平均付款金额和收款方历史平均收款金额。经过构建特征生成树的方法进行特
征生成,特征生成树的构建方法参见图2,在此不再详细赘述。特征生成后得到包含16个特
征的票据特征集F。对F进行特征选择,首先使用随机函数初始化集合S,此时
集合S的大小为16,概率转移参数。开始迭代,前600次迭代为第一阶段,每次迭
代中获取随机数p_rand1,如果p_rand1<p,选择策略一,使用公式S1计算,否则,选择策略二,
使用公式S2计算;后300次迭代为第二阶段,每次迭代中获取随机数p_rand2,如果p_rand2<
p,选择策略三,使用公式S3计算,否则,选择策略四,使用公式S4计算。迭代过程中使用适应
度函数Fitness判断解的好坏,例如,某次迭代后,将集合S离散化后有10个值为1,即16个特
征中有10个特征被选择,下游银行票据机器学习分类任务识别风险客户的分类器为
XGBOOST,准确率ACC=0.85,TIME=5s,此时Fitness=0.0536。在900次迭代结束后取最优解获
得最终特征选择后的票据特征集F_SUB。在自动化特征工程部分的机器学习分类器可设置
结构较为简单的分类器,以节约自动化特征工程的时间,在得到票据特征集F_SUB后根据实
际需求设计高级分类器。
与前述银行票据全自动化特征工程方法的实施例相对应,本发明还提供了银行票据全自动化特征工程装置的实施例。
参见图5,本发明实施例提供的一种银行票据全自动化特征工程装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现上述实施例中的银行票据全自动化特征工程方法。
本发明银行票据全自动化特征工程装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本发明银行票据全自动化特征工程装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的银行票据全自动化特征工程方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。
Claims (10)
1.一种银行票据全自动化特征工程方法,其特征在于,包括以下步骤:
S1,自动化票据识别:收集票据图像,对票据图像进行图像处理和敏感性处理,获得原始票据数据D0,识别票据的业务类型并自动归档;
S2,自动化数据清洗:对原始票据数据D0进行数据清洗,再进行数据脱敏处理,形成基础数据集D1;
S3,自动化特征生成:根据当前票据的身份数据和下游机器学习分类任务类型,从数据库中读取历史票据数据加入基础数据集D1中;根据基础数据集D1构建特征生成树,根据特征生成树生成新的票据特征,构成票据特征集F;
S4,自动化特征选择:将特征选择问题视为二元优化问题,分为靠近目标值和确定目标值两个阶段,所述靠近目标值阶段采用垂直大跨步靠近目标值和螺旋式小跨步靠近目标值两个特征选择策略,所述确定目标值阶段采用垂直向确定目标值和随机游走确定目标值两个特征选择策略,最终得到银行票据机器学习分类任务所需的票据特征集F_SUB。
2.根据权利要求1所述的方法,其特征在于,步骤S1中,所述图像处理包括自动去黑边、自动去噪,所述敏感性处理包括敏感信息识别、敏感信息遮挡。
3.根据权利要求1所述的方法,其特征在于,步骤S2中,所述数据清洗包括对数据类型分类、异常值处理、文本编码。
4.根据权利要求1所述的方法,其特征在于,步骤S3包括:
S31,从基础数据集D1中提取基础特征,形成初始特征集F0;
S32,构建特征转换函数集合和概率权重集合,其中,t_n为特征转换函数的个数,特征转换函数transi对应的概率权重为pi;计算每个特征转换函数transi作用于初始特征集F0的时间消耗ti,归一化时间消耗值,初始化概率权重集合P;将特征转换函数集合Trans和概率权重集合P依据概率权重值从大到小进行排序;设置构建特征生成树的最大时间消耗限制和最大空间消耗限制;
S33,构建特征生成树:特征生成树的根节点为初始特征集F0;按照概率权重集合P从特征转换函数集合Trans中随机选择特征转换函数transi,计算被选择特征转换函数transi作用于当前特征生成树中的每个节点的信息增益,结合时间消耗和空间消耗计算被选择特征转换函数transi 作用于特征生成树中每个节点的总收益度;更新本轮被选择特征转换函数transi的概率权重pi,将更新后的概率权重集合P重新归一化并排序;选择总收益度值最高的节点扩展特征生成树;当剩余时间或剩余空间为0时,停止构建特征生成树;将特征生成树的所有叶子节点取并集得到票据特征集F。
其中,|F|为F的样本数,K为银行票据机器学习分类任务类的个数,|Ck|为类Ck的样本数;根据特征的取值将F划分为Q个子集,第q个子集记为Fq,Fqk为子集Fq中属于类Ck的样本集合,为Fq的样本数,|Fqk|为Fqk的样本数;定义信息增益阈值MIN_IG,IG值大于等于MIN_IG的特征为有效特征,舍弃IG值小于MIN_IG的特征;
结合时间消耗和空间消耗计算被选择特征转换函数transi 作用于特征生成树中节点Fj的总收益度PROFITj的计算公式如下:
其中,tj和hj分别为被选择特征转换函数transi 作用于特征生成树中节点Fj的时间消耗和空间消耗,α和β是用来平衡信息增益、时间消耗和空间消耗的可调节参数。
7.根据权利要求1-6中任一项所述的方法,其特征在于,步骤S4包括:
S43,设置最大迭代次数为T,对集合S中每个元素si进行更新,元素的更新分为靠近目标值和确定目标值两个阶段;
定义适应度函数Fitness:
前2/3T次迭代为靠近目标值阶段,获取随机数p_rand1;
当p_rand1<p时,选择垂直大跨步靠近目标值特征选择策略;
当p_rand1>=p时,选择螺旋式小跨步靠近目标值特征选择策略;
后1/3T次迭代为确定目标值阶段,获取随机数p_rand2;
当p_rand2<p时,选择垂直向确定目标值特征选择策略;
当p_rand2>=p时,选择随机游走确定目标值特征选择策略;
通过适应度函数Fitness选取T次迭代中的最优解,得到特征选择后的票据特征集F_SUB。
9.根据权利要求7所述的方法,其特征在于,所述垂直向确定目标值特征选择策略的公式如下:
其中,表示垂直向确定目标值特征选择策略下集合S的第t+1次迭代的解,表示前t次迭代过程中的最优解,通过适应度函数Fitness计算比较得出,SM(t)中的每一位元素都是当前解的平均值,z=0.1,rand4是界于(0,1)的随机值;
所述随机游走确定目标值特征选择策略的公式如下:
10.一种银行票据全自动化特征工程装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,其特征在于,所述处理器执行所述可执行代码时,用于实现如权利要求1-9中任一项所述的银行票据全自动化特征工程方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210628458.6A CN114708608B (zh) | 2022-06-06 | 2022-06-06 | 一种银行票据全自动化特征工程方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210628458.6A CN114708608B (zh) | 2022-06-06 | 2022-06-06 | 一种银行票据全自动化特征工程方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114708608A true CN114708608A (zh) | 2022-07-05 |
CN114708608B CN114708608B (zh) | 2022-09-16 |
Family
ID=82178158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210628458.6A Active CN114708608B (zh) | 2022-06-06 | 2022-06-06 | 一种银行票据全自动化特征工程方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114708608B (zh) |
Citations (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001325449A (ja) * | 2000-05-18 | 2001-11-22 | Eimu Giken:Kk | 二次元シンボルコード手形処理システム及び処理方法 |
US20020184559A1 (en) * | 2001-06-01 | 2002-12-05 | Farstone Technology Inc. | Backup/recovery system and methods regarding the same |
GB0418523D0 (en) * | 2004-08-19 | 2004-09-22 | Makor Issues & Rights Ltd | Machine learning automatic order transmission system for sending self optimized trading signals |
US20080004865A1 (en) * | 2006-06-30 | 2008-01-03 | Robert Bosch Corporation | Method and apparatus for progressively selecting features from a large feature space in statistical modeling |
CN101320486A (zh) * | 2008-07-16 | 2008-12-10 | 永凯软件技术(上海)有限公司 | 基于线框的曲面体三维边界表示模型重建方法及其装置 |
US20170339187A1 (en) * | 2016-05-19 | 2017-11-23 | Nec Europe Ltd. | Intrusion detection and prevention system and method for generating detection rules and taking countermeasures |
CN107516135A (zh) * | 2017-07-14 | 2017-12-26 | 浙江大学 | 一种支持多源数据的自动化监督性学习方法 |
US20190108560A1 (en) * | 2016-04-15 | 2019-04-11 | Eckehard Stolz | Method for automatically financing bills |
CN109886464A (zh) * | 2019-01-20 | 2019-06-14 | 东北电力大学 | 基于优化奇异值分解生成特征集的低信息损失短期风速预测方法 |
CN110001224A (zh) * | 2019-05-15 | 2019-07-12 | 南京信息工程大学 | 一种用于大规模票据盖章及检验的自动化设备 |
CN110991518A (zh) * | 2019-11-28 | 2020-04-10 | 山东大学 | 一种基于进化多任务的两阶段特征选择方法及系统 |
US20200162312A1 (en) * | 2018-11-19 | 2020-05-21 | Accenture Global Solutions Limited | System And Method For Recommending Automation Solutions For Technology Infrastructure Issues |
CN111275447A (zh) * | 2020-01-17 | 2020-06-12 | 同济大学 | 基于自动化特征工程的在线网络支付欺诈检测系统 |
CN111626279A (zh) * | 2019-10-15 | 2020-09-04 | 西安网算数据科技有限公司 | 一种负样本标注训练方法及高度自动化的票据识别方法 |
US20200311611A1 (en) * | 2019-03-26 | 2020-10-01 | Caseware International Inc. | Feature generation and feature selection for machine learning tool |
CN112396188A (zh) * | 2020-11-19 | 2021-02-23 | 深延科技(北京)有限公司 | 自动化机器学习、训练方法、装置及存储介质 |
CN112749731A (zh) * | 2020-12-10 | 2021-05-04 | 航天信息股份有限公司 | 一种基于深度神经网络的票据数量识别方法及系统 |
CN113139818A (zh) * | 2021-04-30 | 2021-07-20 | 苏宁金融科技(南京)有限公司 | 基于自动化特征工程的反欺诈方法及系统 |
CN113256409A (zh) * | 2021-07-12 | 2021-08-13 | 广州思迈特软件有限公司 | 基于机器学习的银行零售客户流失预测方法 |
CN113269675A (zh) * | 2021-05-18 | 2021-08-17 | 东北师范大学 | 基于深度学习模型的时变体数据时间超分辨率可视化方法 |
US20210271702A1 (en) * | 2018-07-17 | 2021-09-02 | Nippon Telegraph And Telephone Corporation | Feature amount generation method, feature amount generation device, and feature amount generation program |
US20210319560A1 (en) * | 2019-04-01 | 2021-10-14 | Beijing Sensetime Technology Development Co., Ltd. | Image processing method and apparatus, and storage medium |
US11176495B1 (en) * | 2020-06-21 | 2021-11-16 | Liquidity Capital M. C. Ltd. | Machine learning model ensemble for computing likelihood of an entity failing to meet a target parameter |
US20210383407A1 (en) * | 2020-06-04 | 2021-12-09 | Actimize Ltd. | Probabilistic feature engineering technique for anomaly detection |
CN114398995A (zh) * | 2022-01-19 | 2022-04-26 | 吉林大学 | 一种联合分类器参数和特征选择的信息提取方法 |
CN114416707A (zh) * | 2021-12-10 | 2022-04-29 | 浙江蓝卓工业互联网信息技术有限公司 | 工业时序数据的自动化特征工程方法和装置 |
-
2022
- 2022-06-06 CN CN202210628458.6A patent/CN114708608B/zh active Active
Patent Citations (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001325449A (ja) * | 2000-05-18 | 2001-11-22 | Eimu Giken:Kk | 二次元シンボルコード手形処理システム及び処理方法 |
US20020184559A1 (en) * | 2001-06-01 | 2002-12-05 | Farstone Technology Inc. | Backup/recovery system and methods regarding the same |
GB0418523D0 (en) * | 2004-08-19 | 2004-09-22 | Makor Issues & Rights Ltd | Machine learning automatic order transmission system for sending self optimized trading signals |
US20080004865A1 (en) * | 2006-06-30 | 2008-01-03 | Robert Bosch Corporation | Method and apparatus for progressively selecting features from a large feature space in statistical modeling |
CN101320486A (zh) * | 2008-07-16 | 2008-12-10 | 永凯软件技术(上海)有限公司 | 基于线框的曲面体三维边界表示模型重建方法及其装置 |
US20190108560A1 (en) * | 2016-04-15 | 2019-04-11 | Eckehard Stolz | Method for automatically financing bills |
US20170339187A1 (en) * | 2016-05-19 | 2017-11-23 | Nec Europe Ltd. | Intrusion detection and prevention system and method for generating detection rules and taking countermeasures |
CN107516135A (zh) * | 2017-07-14 | 2017-12-26 | 浙江大学 | 一种支持多源数据的自动化监督性学习方法 |
US20210271702A1 (en) * | 2018-07-17 | 2021-09-02 | Nippon Telegraph And Telephone Corporation | Feature amount generation method, feature amount generation device, and feature amount generation program |
US20200162312A1 (en) * | 2018-11-19 | 2020-05-21 | Accenture Global Solutions Limited | System And Method For Recommending Automation Solutions For Technology Infrastructure Issues |
CN109886464A (zh) * | 2019-01-20 | 2019-06-14 | 东北电力大学 | 基于优化奇异值分解生成特征集的低信息损失短期风速预测方法 |
US20200311611A1 (en) * | 2019-03-26 | 2020-10-01 | Caseware International Inc. | Feature generation and feature selection for machine learning tool |
US20210319560A1 (en) * | 2019-04-01 | 2021-10-14 | Beijing Sensetime Technology Development Co., Ltd. | Image processing method and apparatus, and storage medium |
CN110001224A (zh) * | 2019-05-15 | 2019-07-12 | 南京信息工程大学 | 一种用于大规模票据盖章及检验的自动化设备 |
CN111626279A (zh) * | 2019-10-15 | 2020-09-04 | 西安网算数据科技有限公司 | 一种负样本标注训练方法及高度自动化的票据识别方法 |
CN110991518A (zh) * | 2019-11-28 | 2020-04-10 | 山东大学 | 一种基于进化多任务的两阶段特征选择方法及系统 |
CN111275447A (zh) * | 2020-01-17 | 2020-06-12 | 同济大学 | 基于自动化特征工程的在线网络支付欺诈检测系统 |
US20210383407A1 (en) * | 2020-06-04 | 2021-12-09 | Actimize Ltd. | Probabilistic feature engineering technique for anomaly detection |
US11176495B1 (en) * | 2020-06-21 | 2021-11-16 | Liquidity Capital M. C. Ltd. | Machine learning model ensemble for computing likelihood of an entity failing to meet a target parameter |
CN112396188A (zh) * | 2020-11-19 | 2021-02-23 | 深延科技(北京)有限公司 | 自动化机器学习、训练方法、装置及存储介质 |
CN112749731A (zh) * | 2020-12-10 | 2021-05-04 | 航天信息股份有限公司 | 一种基于深度神经网络的票据数量识别方法及系统 |
CN113139818A (zh) * | 2021-04-30 | 2021-07-20 | 苏宁金融科技(南京)有限公司 | 基于自动化特征工程的反欺诈方法及系统 |
CN113269675A (zh) * | 2021-05-18 | 2021-08-17 | 东北师范大学 | 基于深度学习模型的时变体数据时间超分辨率可视化方法 |
CN113256409A (zh) * | 2021-07-12 | 2021-08-13 | 广州思迈特软件有限公司 | 基于机器学习的银行零售客户流失预测方法 |
CN114416707A (zh) * | 2021-12-10 | 2022-04-29 | 浙江蓝卓工业互联网信息技术有限公司 | 工业时序数据的自动化特征工程方法和装置 |
CN114398995A (zh) * | 2022-01-19 | 2022-04-26 | 吉林大学 | 一种联合分类器参数和特征选择的信息提取方法 |
Non-Patent Citations (6)
Title |
---|
BO-YUANFENG: "Automatic recognition of serial numbers in bank notes", 《PATTERN RECOGNITION》 * |
ENGDAW AYALEW TESSFAW 等: "Ethiopian Banknote Recognition and Fake Detection Using Support Vector Machine", 《PROCEEDINGS OF THE 2018 SECOND INTERNATIONAL CONFERENCE ON INVENTIVE COMMUNICATION AND COMPUTATIONAL TECHNOLOGIES (ICICCT)》 * |
WONG, C 等: "CARTMAP: a neural network method for automated feature selection in financial time series forecasting", 《NEURAL COMPUTING & APPLICATIONS》 * |
刘桂雄等: "基于深度学习的机器视觉目标检测算法及在票据检测中应用", 《中国测试》 * |
田航: "财务票据图像处理与智能信息识别研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
金美琳: "征信数据甄别欺诈客户的机器学习方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN114708608B (zh) | 2022-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Stock price prediction using attention-based multi-input LSTM | |
Zhou et al. | Default prediction in P2P lending from high-dimensional data based on machine learning | |
CN108629687B (zh) | 一种反洗钱方法、装置及设备 | |
Benchaji et al. | Using genetic algorithm to improve classification of imbalanced datasets for credit card fraud detection | |
CA3120412C (en) | An automated and dynamic method and system for clustering data records | |
CN110263821B (zh) | 交易特征生成模型的训练、交易特征的生成方法和装置 | |
US20210303970A1 (en) | Processing data using multiple neural networks | |
CN110738564A (zh) | 贷后风险评估方法及装置、存储介质 | |
CN109740642A (zh) | 发票类别识别方法、装置、电子设备及可读存储介质 | |
Nystrup et al. | Feature selection in jump models | |
CN113537960B (zh) | 一种异常资源转移链路的确定方法、装置和设备 | |
CN112884570A (zh) | 一种模型安全性的确定方法、装置和设备 | |
CN116485406A (zh) | 账户的检测方法及装置、存储介质和电子设备 | |
CN112182250A (zh) | 勾稽关系知识图谱的构建方法、财务报表核查方法及装置 | |
Coşkun et al. | Credit risk analysis using boosting methods | |
Tedeschi et al. | On optimizing transaction fees in bitcoin using ai: Investigation on miners inclusion pattern | |
Ramya | Crypto-currency price prediction using machine learning | |
Huber et al. | Bayesian inference in high-dimensional time-varying parameter models using integrated rotated Gaussian approximations | |
WO2019192135A1 (zh) | 电子装置、债券收益率分析方法、系统及存储介质 | |
CN111325344A (zh) | 评估模型解释工具的方法和装置 | |
CN112966728B (zh) | 一种交易监测的方法及装置 | |
CN114708608B (zh) | 一种银行票据全自动化特征工程方法及装置 | |
CN113793210A (zh) | 网络借贷信用的评价方法、相关装置及计算机存储介质 | |
CN113656707A (zh) | 一种理财产品推荐方法、系统、存储介质及设备 | |
CN111275447B (zh) | 基于自动化特征工程的在线网络支付欺诈检测系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |