CN114708608A - 一种银行票据全自动化特征工程方法及装置 - Google Patents

一种银行票据全自动化特征工程方法及装置 Download PDF

Info

Publication number
CN114708608A
CN114708608A CN202210628458.6A CN202210628458A CN114708608A CN 114708608 A CN114708608 A CN 114708608A CN 202210628458 A CN202210628458 A CN 202210628458A CN 114708608 A CN114708608 A CN 114708608A
Authority
CN
China
Prior art keywords
feature
bill
target value
data
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210628458.6A
Other languages
English (en)
Other versions
CN114708608B (zh
Inventor
陈嘉俊
杨国正
吴美学
张敬之
臧铖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yiqiyin Hangzhou Technology Co ltd
China Zheshang Bank Co Ltd
Original Assignee
Yiqiyin Hangzhou Technology Co ltd
China Zheshang Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yiqiyin Hangzhou Technology Co ltd, China Zheshang Bank Co Ltd filed Critical Yiqiyin Hangzhou Technology Co ltd
Priority to CN202210628458.6A priority Critical patent/CN114708608B/zh
Publication of CN114708608A publication Critical patent/CN114708608A/zh
Application granted granted Critical
Publication of CN114708608B publication Critical patent/CN114708608B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Finance (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Medical Informatics (AREA)
  • Development Economics (AREA)
  • Computing Systems (AREA)
  • Technology Law (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种银行票据全自动化特征工程方法及装置,该方法包括:自动化票据识别;自动化数据清洗,形成基础数据集;自动化特征生成,根据当前票据的身份数据和下游机器学习分类任务类型,从数据库中读取历史票据数据加入基础数据集,通过构建特征生成树生成新的票据特征;自动化特征选择,通过将特征选择视为二元优化问题,分为靠近目标值和确定目标值两个阶段进行特征选择。本发明只需要在初始时设置可调节参数,后续流程皆可自动完成。本发明使用自动化特征工程能够节省人力、提高效率,有效为后续的银行票据机器学习分类任务提供优质特征。

Description

一种银行票据全自动化特征工程方法及装置
技术领域
本发明属于特征工程技术领域,具体涉及一种银行票据全自动化特征工程方法及装置。
背景技术
在机器学习任务周期中,越来越多的流程向着自动化代替人力发展,诞生了许多代码库和自动化工具。这些代码库和自动化工具旨在通过寻找匹配数据集的最优模型来简化模型选择和机器学习调优过程,只需要很少的人工操作。特征工程是机器学习流程中极为重要的部分,特征工程的质量限制了机器学习模型所能达到的最佳效果,却几乎完全依靠人工实现。
票据市场是企业获取银行融资和信用支持的重要渠道。对票据数据的合理利用,有利于银行开拓新客户、稳定老客户、吸收存款。票据数据类型多样且复杂,数据量大,使用人力进行特征工程效率低,且也很难根据各类票据和下游任务的具体特点灵活的进行特征生成和特征选择。
发明内容
本发明目的在于针对现有技术的不足,提出一种银行票据全自动化特征工程方法及装置,提高银行票据数据的利用效率,节约人力,缩短项目周期。
本发明的目的是通过以下技术方案来实现的:
根据本说明书的第一方面,提供一种银行票据全自动化特征工程方法,包括以下步骤:
S1,自动化票据识别:收集票据图像,对票据图像进行图像处理和敏感性处理,获得原始票据数据D0,识别票据的业务类型并自动归档;
S2,自动化数据清洗:对原始票据数据D0进行数据清洗,再进行数据脱敏处理,形成基础数据集D1
S3,自动化特征生成:根据当前票据的身份数据和下游机器学习分类任务类型,从数据库中读取历史票据数据加入基础数据集D1中;根据基础数据集D1构建特征生成树,根据特征生成树生成新的票据特征,构成票据特征集F;
S4,自动化特征选择:将特征选择问题视为二元优化问题,分为靠近目标值和确定目标值两个阶段,所述靠近目标值阶段采用垂直大跨步靠近目标值和螺旋式小跨步靠近目标值两个特征选择策略,所述确定目标值阶段采用垂直向确定目标值和随机游走确定目标值两个特征选择策略,最终得到银行票据机器学习分类任务所需的票据特征集F_SUB。
进一步地,步骤S1中,所述图像处理包括自动去黑边、自动去噪,所述敏感性处理包括敏感信息识别、敏感信息遮挡。
进一步地,步骤S2中,所述数据清洗包括对数据类型分类、异常值处理、文本编码。
进一步地,步骤S3包括:
S31,从基础数据集D1中提取基础特征,形成初始特征集F0
S32,构建特征转换函数集合
Figure 420718DEST_PATH_IMAGE001
和概率权重集合
Figure 296270DEST_PATH_IMAGE002
,其中,t_n为特征转换函数的个数,特征转换 函数transi对应的概率权重为pi;计算每个特征转换函数transi作用于初始特征集F0的时 间消耗ti,归一化时间消耗值,初始化概率权重集合P;将特征转换函数集合Trans和概率权 重集合P依据概率权重值从大到小进行排序;设置构建特征生成树的最大时间消耗限制和 最大空间消耗限制;
S33,构建特征生成树:特征生成树的根节点为初始特征集F0;按照概率权重集合P从特征转换函数集合Trans中随机选择特征转换函数transi,计算被选择特征转换函数transi作用于当前特征生成树中的每个节点的信息增益,结合时间消耗和空间消耗计算被选择特征转换函数transi 作用于特征生成树中每个节点的总收益度;更新本轮被选择特征转换函数transi的概率权重pi,将更新后的概率权重集合P重新归一化并排序;选择总收益度值最高的节点扩展特征生成树;当剩余时间或剩余空间为0时,停止构建特征生成树;将特征生成树的所有叶子节点取并集得到票据特征集F。
进一步地,步骤S33中,被选择特征转换函数transi 作用于特征生成树中节点Fj的 信息增益
Figure 76138DEST_PATH_IMAGE003
的计算公式如下:
Figure 113364DEST_PATH_IMAGE004
其中,
Figure 595161DEST_PATH_IMAGE005
为特征m对节点Fj的信息增益,M为新生成的有效特征数;单个特征对特 征集F的信息增益IG的计算公式如下:
Figure 8825DEST_PATH_IMAGE006
其中,|F|为F的样本数,K为银行票据机器学习分类任务类的个数,|Ck|为类Ck的样 本数;根据特征的取值将F划分为Q个子集,第q个子集记为Fq,Fqk为子集Fq中属于类Ck的样本 集合,
Figure 626888DEST_PATH_IMAGE007
为Fq的样本数,|Fqk|为Fqk的样本数;定义信息增益阈值MIN_IG,IG值大于等于 MIN_IG的特征为有效特征,舍弃IG值小于MIN_IG的特征;
结合时间消耗和空间消耗计算被选择特征转换函数transi 作用于特征生成树中节点Fj的总收益度PROFITj的计算公式如下:
Figure 851327DEST_PATH_IMAGE008
其中,tj和hj分别为被选择特征转换函数transi 作用于特征生成树中节点Fj的时间消耗和空间消耗,α和β是用来平衡信息增益、时间消耗和空间消耗的可调节参数。
进一步地,步骤S33中,更新本轮被选择特征转换函数transi的概率权重pi的公式如下:
Figure 820420DEST_PATH_IMAGE009
其中,
Figure 772196DEST_PATH_IMAGE010
为更新后的概率权重。
进一步地,步骤S4包括:
S41,定义集合
Figure 775924DEST_PATH_IMAGE011
,si表示票据特征集F的第i个特征是否被 选择,N为票据特征集F的特征数;
S42,使用随机函数
Figure 171264DEST_PATH_IMAGE012
初始化集合S;
S43,设置最大迭代次数为T,对集合S中每个元素si进行更新,元素的更新分为靠近目标值和确定目标值两个阶段;
定义概率转移参数
Figure 627653DEST_PATH_IMAGE013
,其中
Figure 117540DEST_PATH_IMAGE014
为可调节参数;
定义适应度函数Fitness:
Figure 710196DEST_PATH_IMAGE015
其中,ACC为银行票据机器学习分类任务的准确率,|S|为被选择的特征数量,TIME 为银行票据机器学习分类任务的时间消耗,
Figure 525705DEST_PATH_IMAGE016
Figure 217193DEST_PATH_IMAGE017
为可调节参数;
前2/3T次迭代为靠近目标值阶段,获取随机数p_rand1
当p_rand1<p时,选择垂直大跨步靠近目标值特征选择策略;
当p_rand1>=p时,选择螺旋式小跨步靠近目标值特征选择策略;
后1/3T次迭代为确定目标值阶段,获取随机数p_rand2
当p_rand2<p时,选择垂直向确定目标值特征选择策略;
当p_rand2>=p时,选择随机游走确定目标值特征选择策略;
通过适应度函数Fitness选取T次迭代中的最优解,得到特征选择后的票据特征集F_SUB。
进一步地,所述垂直大跨步靠近目标值特征选择策略的公式如下:
Figure 776350DEST_PATH_IMAGE018
其中,
Figure 489091DEST_PATH_IMAGE019
表示垂直大跨步靠近目标值特征选择策略下集合S的第t+1次迭代 的解,
Figure 209923DEST_PATH_IMAGE020
表示前t次迭代过程中的最优解,通过适应度函数Fitness计算比较得出,SM (t)中的每一位元素都是当前解的平均值,rand2是界于(0,1)的随机值;
所述螺旋式小跨步靠近目标值特征选择策略的公式如下:
Figure 391636DEST_PATH_IMAGE021
其中,
Figure 223326DEST_PATH_IMAGE022
表示螺旋式小跨步靠近目标值特征选择策略下集合S的第t+1次 迭代的解,Levy是Levy飞行分布函数,
Figure 56153DEST_PATH_IMAGE023
是在第t次迭代时的随机解;
Figure 947886DEST_PATH_IMAGE024
Figure 600584DEST_PATH_IMAGE025
分别为服从
Figure 252276DEST_PATH_IMAGE026
Figure 408451DEST_PATH_IMAGE027
的高斯分布随机数,
Figure 736664DEST_PATH_IMAGE028
Figure 876658DEST_PATH_IMAGE029
,rand3是界于(0,1)的随机 值,
Figure 332042DEST_PATH_IMAGE030
是伽马函数。
进一步地,所述垂直向确定目标值特征选择策略的公式如下:
Figure 873882DEST_PATH_IMAGE031
其中,
Figure 372996DEST_PATH_IMAGE032
表示垂直向确定目标值特征选择策略下集合S的第t+1次迭代的 解,
Figure 734707DEST_PATH_IMAGE033
表示前t次迭代过程中的最优解,通过适应度函数Fitness计算比较得出,SM (t)中的每一位元素都是当前解的平均值,z=0.1,rand4是界于(0,1)的随机值;
所述随机游走确定目标值特征选择策略的公式如下:
Figure 977470DEST_PATH_IMAGE034
其中,
Figure 957556DEST_PATH_IMAGE035
表示随机游走确定目标值特征选择策略下集合S的第t+1次迭代 的解,S(t)是第t次迭代的解,rand5、rand6是界于(0,1)的随机值,Levy是Levy飞行分布函 数,
Figure 361993DEST_PATH_IMAGE036
表示在第t次迭代时用于平衡搜索策略的质量函数,
Figure 476579DEST_PATH_IMAGE037
表示随机游走的速率。
根据本说明书的第二方面,提供一种银行票据全自动化特征工程装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现如第一方面所述的银行票据全自动化特征工程方法。
本发明的有益效果是:本发明利用自动化特征工程,解决了以往银行票据机器学习分类任务特征工程由于数据量大需要耗费大量人力的问题,只需要在初始时设置可调节参数即可自动化完成后续特征选择流程,提高效率,缩短机器学习分类任务周期。另外,本发明通过构建特征生成树和设计特征选择策略,能够有效扩充丰富特征集,并且能够将对下游银行票据机器学习分类任务贡献度高的特征选择出来。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一示例性实施例提供的银行票据全自动化特征工程方法流程图。
图2为一示例性实施例提供的构建特征生成树流程图。
图3为一特征生成树示例图。
图4为一示例性实施例提供的特征选择流程图。
图5为一示例性实施例提供的银行票据全自动化特征工程装置的结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,均属于本发明保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
本发明提供一种银行票据全自动化特征工程方法,如图1所示,该方法包括以下步骤:
S1,自动化票据识别。收集票据图像,对票据图像进行图像处理,包括自动去黑边、自动去噪,再对票据图像进行敏感性处理,包括敏感信息识别、敏感信息遮挡,获得原始票据数据D0,识别票据的业务类型并自动归档;具体地:
S11,使用图像识别技术提取票据图像,对票据图像做基础的图像处理,包括自动去黑边、自动去噪等;
S12,进行票据图像敏感信息识别、敏感信息遮挡,获得原始票据数据D0
S13,自动区分票据的业务类型,对每一类票据设置统一数据存储模板,将提取的原始票据数据按照存储模板存储;票据的业务类型例如银行进账单、贴现凭证等。
S2,自动化数据清洗。对原始票据数据D0进行数据清洗,包括对数据类型分类、异常值处理、文本编码等基本数据清洗操作,再进行数据脱敏处理,形成基础数据集D1
银行票据数据主要包括身份数据和涉及汇款等交易数值型数据,对身份数据进行自动脱敏处理。
S3,自动化特征生成。根据当前票据的身份数据和下游机器学习分类任务类型,从数据库中读取历史票据数据加入基础数据集D1中;根据基础数据集D1构建特征生成树,根据特征生成树生成新的票据特征,构成票据特征集F;参照图2的流程,具体包括以下子步骤:
S31,根据当前票据的身份数据和下游机器学习分类任务类型,从数据库中读取历史票据数据加入基础数据集D1中;从基础数据集D1中提取基础特征,形成初始特征集F0
S32,构建特征转换函数集合
Figure 257453DEST_PATH_IMAGE038
以及概率权重集合
Figure 524618DEST_PATH_IMAGE039
,其中,t_n为特征转换函数的个数,特征转 换函数transi对应的概率权重为pi。计算每个特征转换函数transi作用于初始特征集F0的 时间消耗ti,归一化时间消耗值,初始化概率权重集合P:
Figure 365535DEST_PATH_IMAGE040
,其中,
Figure 967418DEST_PATH_IMAGE041
Figure 286403DEST_PATH_IMAGE042
为归一化函数。将特征转换函数集合Trans和概率权重集合P 依据pi 的值从大到小进行排序。另外设置构建特征生成树FT的最大时间消耗限制TG和最大 空间消耗限制HG,TG和HG为可调节参数。
表1特征转换函数集合示例
Figure 657342DEST_PATH_IMAGE043
S33,构建特征生成树FT,对于银行票据数据而言,其样本数大,所要消耗的时间和空间大,在自动进行特征生成时,如果不对其特征生成树在时间和空间上进行限制容易造成内存溢出等计算资源不足的问题。本发明通过对时间控制和空间控制参数α和β的调节,以及对新生成特征的舍弃来实现资源利用的最大化,尽可能多的生成有效的新特征。具体构建步骤如下:
特征生成树FT的根节点为初始特征集F0。特征生成树FT添加子节点的方法是:按 照概率权重集合P从特征转换函数集合Trans中随机选择当前一步将要添加至特征生成树 中的特征转换函数transi;计算特征转换函数transi作用于当前特征生成树FT中的每一个 节点的信息增益。参照图3示例,图3中当前特征生成树记为
Figure 419893DEST_PATH_IMAGE044
,本次 迭代选中的特征转换函数transi 为乘法。特征转换函数transi 作用于特征生成树FT中节 点Fj的信息增益记为
Figure 977913DEST_PATH_IMAGE045
,计算公式如下:
Figure 100590DEST_PATH_IMAGE046
其中,
Figure 591614DEST_PATH_IMAGE047
为特征m对节点Fj的信息增益,M为新生成的有效特征数;单个特征对特 征集F的信息增益IG的计算公式如下:
Figure 525066DEST_PATH_IMAGE048
其中,|F|为F的样本数,K为银行票据机器学习分类任务类的个数,|Ck|为类Ck的样 本数;根据此特征的取值将F划分为Q个子集,第q个子集记为Fq,Fqk为子集Fq中属于类Ck的样 本集合,
Figure 101541DEST_PATH_IMAGE049
为Fq的样本数,|Fqk|为Fqk的样本数;定义信息增益阈值MIN_IG,当某个特征IG 值小于MIN_IG时,舍弃该特征,IG值大于等于MIN_IG时则为有效特征。
结合时间消耗和空间消耗计算特征转换函数transi 作用于特征生成树FT中节点Fj的总收益度PROFITj
Figure 762329DEST_PATH_IMAGE050
其中,tj和hj分别为特征转换函数transi 作用于特征生成树FT中节点Fj的时间消 耗和空间消耗,
Figure 842281DEST_PATH_IMAGE051
Figure 195902DEST_PATH_IMAGE052
,α和β是用来平衡信息增益、时间消耗和空间消 耗的可调节参数。
更新本轮被选择特征转换函数transi的概率权重pi;更新pi后,将概率权重集合P重新归一化并重新排序。更新公式如下:
Figure 741896DEST_PATH_IMAGE053
其中,
Figure 471955DEST_PATH_IMAGE054
为更新后的概率权重,t_n为特征转换函数的个数。
选择总收益度PROFITj值最高的节点扩展特征生成树。参照图3,本轮计算后PROFIT2值最大,因此将本轮特征转换函数transi作用于节点F2,生成新特征后得到新节点F5
当剩余时间Tr或剩余空间Hr为0时,停止特征生成树的构建。该特征生成树的每一个叶子节点都是一个新的特征集合,将这些叶子节点取并集即得到票据特征集F。
S4,对于S3中生成的票据特征集F,进行特征选择。将特征选择问题视为二元优化问题,分为靠近目标值和确定目标值两个阶段,靠近目标值阶段采用垂直大跨步靠近目标值和螺旋式小跨步靠近目标值两个特征选择策略,确定目标值阶段采用垂直向确定目标值和随机游走确定目标值两个特征选择策略,最终得到银行票据机器学习分类任务所需的票据特征集F_SUB。参照图4的流程,具体包括以下子步骤:
S41,将特征选择视为一个二元优化问题,用1表示选择该特征,用0表示不选择该 特征。定义集合
Figure 406413DEST_PATH_IMAGE055
,si表示票据特征集F的第i个特征是否 被选择,N为票据特征集F的特征数;
S42,使用随机函数
Figure 930935DEST_PATH_IMAGE056
初始化集合S,由于后续步骤计算值属于连续 数值,而特征选择的结果为离散值,取值是0或1,在后续步骤中需要离散结果时采用如下公 式对计算结果进行离散化:
Figure 216423DEST_PATH_IMAGE057
其中,si是S中的第i个元素,
Figure 235326DEST_PATH_IMAGE058
是S中元素的最大值;
S43,开始进行S中每个元素si的更新。设置最大迭代次数为T。
元素的更新分为两大阶段,每一阶段又包括两种特征选择策略。
定义概率转移参数
Figure 289869DEST_PATH_IMAGE059
以控制对策略的选择概率倾斜,其中
Figure 250872DEST_PATH_IMAGE060
为正整数,是可调节参数。
适应度函数Fitness为:
Figure 492498DEST_PATH_IMAGE061
其中,ACC为银行票据机器学习分类任务的准确率,|S|为被选择的特征数量,TIME 为银行票据机器学习分类任务的时间消耗,
Figure 315091DEST_PATH_IMAGE062
Figure 489721DEST_PATH_IMAGE063
为用来平衡准确率、特征数量和时间消 耗的可调节参数,
Figure 90466DEST_PATH_IMAGE064
Figure 350546DEST_PATH_IMAGE065
前2/3T次迭代为第一阶段,获取随机数p_rand1
第一阶段靠近目标值,包括策略一,垂直大跨步靠近目标值;策略二,螺旋式小跨步靠近目标值;具体公式如下:
当p_rand1<p时,选择策略一,公式如下:
Figure 960519DEST_PATH_IMAGE066
其中,
Figure 740387DEST_PATH_IMAGE067
表示策略一下集合S的第t+1次迭代的解,
Figure 512034DEST_PATH_IMAGE068
表示前t次迭代 过程中的最优解,通过适应度函数Fitness计算比较得出,SM(t)中的每一位元素都是当前 解的平均值(当前解所有元素之和除以N,N代表S的维度大小),rand2是界于(0,1)的随机 值。
当p_rand1>=p时,选择策略二,公式如下:
Figure 524990DEST_PATH_IMAGE069
Figure 673074DEST_PATH_IMAGE070
其中,
Figure 304519DEST_PATH_IMAGE071
表示策略二下集合S的第t+1次迭代的解,Levy是Levy飞行分布函 数,
Figure 778226DEST_PATH_IMAGE072
是在第t次迭代时的随机解。
Figure 481740DEST_PATH_IMAGE073
Figure 433515DEST_PATH_IMAGE074
分别为服从
Figure 437243DEST_PATH_IMAGE075
Figure 301425DEST_PATH_IMAGE076
的高斯分布随 机数,
Figure 757814DEST_PATH_IMAGE077
Figure 513281DEST_PATH_IMAGE078
,rand3是界于(0,1)的随机值,
Figure 371515DEST_PATH_IMAGE079
是伽马函数。
后1/3T次迭代为第二阶段,获取随机数p_rand2
第二阶段确定目标值,包括策略三,垂直向确定目标值;策略四,随机游走确定目标值;具体公式如下:
当p_rand2<p时,选择策略三,公式如下:
Figure 937757DEST_PATH_IMAGE080
其中,
Figure 881442DEST_PATH_IMAGE081
表示策略三下集合S的第t+1次迭代的解,z=0.1,rand4是界于 (0,1)的随机值。
当p_rand2>=p时,选择策略四,公式如下:
Figure 909441DEST_PATH_IMAGE082
其中,
Figure 622182DEST_PATH_IMAGE083
表示策略四下集合S的第t+1次迭代的解,S(t)是第t次迭代的 解,rand5、rand6是界于(0,1)的随机值,
Figure 343014DEST_PATH_IMAGE084
表示在第t次迭代时用于平衡搜索策略的质量函 数,
Figure 524727DEST_PATH_IMAGE085
表示随机游走的速率。
选取T次迭代中的
Figure 621996DEST_PATH_IMAGE086
作为最终解,得到特征选择后的票据特征集F_SUB,即 银行票据机器学习分类任务所需的票据特征集。
在一个实施例中,现有10000名客户的现金支票票据,下游银行票据机器学习分类 任务为识别是否为风险客户的二分类任务。参照图1,开始时设置可调节参数,
Figure 189244DEST_PATH_IMAGE087
Figure 346556DEST_PATH_IMAGE088
Figure 12636DEST_PATH_IMAGE089
Figure 648017DEST_PATH_IMAGE090
,MIN_IG=0.5,
Figure 335350DEST_PATH_IMAGE091
Figure 397984DEST_PATH_IMAGE092
Figure 537978DEST_PATH_IMAGE093
Figure 727782DEST_PATH_IMAGE094
。经过自动化票据识别后,得到原始数据集D0, 经过自动化数据清洗后,得到基础数据集D1。从数据库中读取历史票据数据,将付款方历史 平均付款金额和收款方历史平均收款金额加入到D1中。此时D1包括脱敏处理后的10000个样 本,8个特征,包括付款单位编号、收款单位编号、款项金额、款项用途、签发日期、背书日期、 付款方历史平均付款金额和收款方历史平均收款金额。经过构建特征生成树的方法进行特 征生成,特征生成树的构建方法参见图2,在此不再详细赘述。特征生成后得到包含16个特 征的票据特征集F。对F进行特征选择,首先使用随机函数
Figure 269622DEST_PATH_IMAGE095
初始化集合S,此时 集合S的大小为16,概率转移参数
Figure 768736DEST_PATH_IMAGE096
。开始迭代,前600次迭代为第一阶段,每次迭 代中获取随机数p_rand1,如果p_rand1<p,选择策略一,使用公式S1计算,否则,选择策略二, 使用公式S2计算;后300次迭代为第二阶段,每次迭代中获取随机数p_rand2,如果p_rand2< p,选择策略三,使用公式S3计算,否则,选择策略四,使用公式S4计算。迭代过程中使用适应 度函数Fitness判断解的好坏,例如,某次迭代后,将集合S离散化后有10个值为1,即16个特 征中有10个特征被选择,下游银行票据机器学习分类任务识别风险客户的分类器为 XGBOOST,准确率ACC=0.85,TIME=5s,此时Fitness=0.0536。在900次迭代结束后取最优解获 得最终特征选择后的票据特征集F_SUB。在自动化特征工程部分的机器学习分类器可设置 结构较为简单的分类器,以节约自动化特征工程的时间,在得到票据特征集F_SUB后根据实 际需求设计高级分类器。
与前述银行票据全自动化特征工程方法的实施例相对应,本发明还提供了银行票据全自动化特征工程装置的实施例。
参见图5,本发明实施例提供的一种银行票据全自动化特征工程装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现上述实施例中的银行票据全自动化特征工程方法。
本发明银行票据全自动化特征工程装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本发明银行票据全自动化特征工程装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的银行票据全自动化特征工程方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。

Claims (10)

1.一种银行票据全自动化特征工程方法,其特征在于,包括以下步骤:
S1,自动化票据识别:收集票据图像,对票据图像进行图像处理和敏感性处理,获得原始票据数据D0,识别票据的业务类型并自动归档;
S2,自动化数据清洗:对原始票据数据D0进行数据清洗,再进行数据脱敏处理,形成基础数据集D1
S3,自动化特征生成:根据当前票据的身份数据和下游机器学习分类任务类型,从数据库中读取历史票据数据加入基础数据集D1中;根据基础数据集D1构建特征生成树,根据特征生成树生成新的票据特征,构成票据特征集F;
S4,自动化特征选择:将特征选择问题视为二元优化问题,分为靠近目标值和确定目标值两个阶段,所述靠近目标值阶段采用垂直大跨步靠近目标值和螺旋式小跨步靠近目标值两个特征选择策略,所述确定目标值阶段采用垂直向确定目标值和随机游走确定目标值两个特征选择策略,最终得到银行票据机器学习分类任务所需的票据特征集F_SUB。
2.根据权利要求1所述的方法,其特征在于,步骤S1中,所述图像处理包括自动去黑边、自动去噪,所述敏感性处理包括敏感信息识别、敏感信息遮挡。
3.根据权利要求1所述的方法,其特征在于,步骤S2中,所述数据清洗包括对数据类型分类、异常值处理、文本编码。
4.根据权利要求1所述的方法,其特征在于,步骤S3包括:
S31,从基础数据集D1中提取基础特征,形成初始特征集F0
S32,构建特征转换函数集合
Figure DEST_PATH_IMAGE001
和概率权重集合
Figure 128246DEST_PATH_IMAGE002
,其中,t_n为特征转换函数的个数,特征转换函数transi对应的概率权重为pi;计算每个特征转换函数transi作用于初始特征集F0的时间消耗ti,归一化时间消耗值,初始化概率权重集合P;将特征转换函数集合Trans和概率权重集合P依据概率权重值从大到小进行排序;设置构建特征生成树的最大时间消耗限制和最大空间消耗限制;
S33,构建特征生成树:特征生成树的根节点为初始特征集F0;按照概率权重集合P从特征转换函数集合Trans中随机选择特征转换函数transi,计算被选择特征转换函数transi作用于当前特征生成树中的每个节点的信息增益,结合时间消耗和空间消耗计算被选择特征转换函数transi 作用于特征生成树中每个节点的总收益度;更新本轮被选择特征转换函数transi的概率权重pi,将更新后的概率权重集合P重新归一化并排序;选择总收益度值最高的节点扩展特征生成树;当剩余时间或剩余空间为0时,停止构建特征生成树;将特征生成树的所有叶子节点取并集得到票据特征集F。
5.根据权利要求4所述的方法,其特征在于,步骤S33中,被选择特征转换函数transi 作用于特征生成树中节点Fj的信息增益
Figure DEST_PATH_IMAGE003
的计算公式如下:
Figure 858436DEST_PATH_IMAGE004
其中,
Figure DEST_PATH_IMAGE005
为特征m对节点Fj的信息增益,M为新生成的有效特征数;单个特征对特征集F的信息增益IG的计算公式如下:
Figure 966070DEST_PATH_IMAGE006
其中,|F|为F的样本数,K为银行票据机器学习分类任务类的个数,|Ck|为类Ck的样本数;根据特征的取值将F划分为Q个子集,第q个子集记为Fq,Fqk为子集Fq中属于类Ck的样本集合,
Figure DEST_PATH_IMAGE007
为Fq的样本数,|Fqk|为Fqk的样本数;定义信息增益阈值MIN_IG,IG值大于等于MIN_IG的特征为有效特征,舍弃IG值小于MIN_IG的特征;
结合时间消耗和空间消耗计算被选择特征转换函数transi 作用于特征生成树中节点Fj的总收益度PROFITj的计算公式如下:
Figure 538494DEST_PATH_IMAGE008
其中,tj和hj分别为被选择特征转换函数transi 作用于特征生成树中节点Fj的时间消耗和空间消耗,α和β是用来平衡信息增益、时间消耗和空间消耗的可调节参数。
6.根据权利要求4所述的方法,其特征在于,步骤S33中,更新本轮被选择特征转换函数transi的概率权重pi的公式如下:
Figure DEST_PATH_IMAGE009
其中,
Figure 962654DEST_PATH_IMAGE010
为更新后的概率权重。
7.根据权利要求1-6中任一项所述的方法,其特征在于,步骤S4包括:
S41,定义集合
Figure DEST_PATH_IMAGE011
,si表示票据特征集F的第i个特征是否被选择,N为票据特征集F的特征数;
S42,使用随机函数
Figure 598165DEST_PATH_IMAGE012
初始化集合S;
S43,设置最大迭代次数为T,对集合S中每个元素si进行更新,元素的更新分为靠近目标值和确定目标值两个阶段;
定义概率转移参数
Figure DEST_PATH_IMAGE013
,其中
Figure DEST_PATH_IMAGE015
为可调节参数;
定义适应度函数Fitness:
Figure 193095DEST_PATH_IMAGE016
其中,ACC为银行票据机器学习分类任务的准确率,|S|为被选择的特征数量,TIME为银行票据机器学习分类任务的时间消耗,
Figure DEST_PATH_IMAGE017
Figure 939465DEST_PATH_IMAGE018
为可调节参数;
前2/3T次迭代为靠近目标值阶段,获取随机数p_rand1
当p_rand1<p时,选择垂直大跨步靠近目标值特征选择策略;
当p_rand1>=p时,选择螺旋式小跨步靠近目标值特征选择策略;
后1/3T次迭代为确定目标值阶段,获取随机数p_rand2
当p_rand2<p时,选择垂直向确定目标值特征选择策略;
当p_rand2>=p时,选择随机游走确定目标值特征选择策略;
通过适应度函数Fitness选取T次迭代中的最优解,得到特征选择后的票据特征集F_SUB。
8.根据权利要求7所述的方法,其特征在于,所述垂直大跨步靠近目标值特征选择策略的公式如下:
Figure DEST_PATH_IMAGE019
其中,
Figure 670661DEST_PATH_IMAGE020
表示垂直大跨步靠近目标值特征选择策略下集合S的第t+1次迭代的解,
Figure DEST_PATH_IMAGE021
表示前t次迭代过程中的最优解,通过适应度函数Fitness计算比较得出,SM(t)中的每一位元素都是当前解的平均值,rand2是界于(0,1)的随机值;
所述螺旋式小跨步靠近目标值特征选择策略的公式如下:
Figure 460762DEST_PATH_IMAGE022
其中,
Figure DEST_PATH_IMAGE023
表示螺旋式小跨步靠近目标值特征选择策略下集合S的第t+1次迭代的解,Levy是Levy飞行分布函数,
Figure 25211DEST_PATH_IMAGE024
是在第t次迭代时的随机解;
Figure DEST_PATH_IMAGE025
Figure 558961DEST_PATH_IMAGE026
分别为服从
Figure DEST_PATH_IMAGE027
Figure 895395DEST_PATH_IMAGE028
的高斯分布随机数,
Figure DEST_PATH_IMAGE029
Figure 121977DEST_PATH_IMAGE030
,rand3是界于(0,1)的随机值,
Figure DEST_PATH_IMAGE031
是伽马函数。
9.根据权利要求7所述的方法,其特征在于,所述垂直向确定目标值特征选择策略的公式如下:
Figure 176652DEST_PATH_IMAGE032
其中,
Figure DEST_PATH_IMAGE033
表示垂直向确定目标值特征选择策略下集合S的第t+1次迭代的解,
Figure 514092DEST_PATH_IMAGE034
表示前t次迭代过程中的最优解,通过适应度函数Fitness计算比较得出,SM(t)中的每一位元素都是当前解的平均值,z=0.1,rand4是界于(0,1)的随机值;
所述随机游走确定目标值特征选择策略的公式如下:
Figure DEST_PATH_IMAGE035
其中,
Figure 705033DEST_PATH_IMAGE036
表示随机游走确定目标值特征选择策略下集合S的第t+1次迭代的解,S(t)是第t次迭代的解,rand5、rand6是界于(0,1)的随机值,Levy是Levy飞行分布函数,
Figure DEST_PATH_IMAGE037
表示在第t次迭代时用于平衡搜索策略的质量函数,
Figure 836938DEST_PATH_IMAGE038
表示随机游走的速率。
10.一种银行票据全自动化特征工程装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,其特征在于,所述处理器执行所述可执行代码时,用于实现如权利要求1-9中任一项所述的银行票据全自动化特征工程方法。
CN202210628458.6A 2022-06-06 2022-06-06 一种银行票据全自动化特征工程方法及装置 Active CN114708608B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210628458.6A CN114708608B (zh) 2022-06-06 2022-06-06 一种银行票据全自动化特征工程方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210628458.6A CN114708608B (zh) 2022-06-06 2022-06-06 一种银行票据全自动化特征工程方法及装置

Publications (2)

Publication Number Publication Date
CN114708608A true CN114708608A (zh) 2022-07-05
CN114708608B CN114708608B (zh) 2022-09-16

Family

ID=82178158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210628458.6A Active CN114708608B (zh) 2022-06-06 2022-06-06 一种银行票据全自动化特征工程方法及装置

Country Status (1)

Country Link
CN (1) CN114708608B (zh)

Citations (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001325449A (ja) * 2000-05-18 2001-11-22 Eimu Giken:Kk 二次元シンボルコード手形処理システム及び処理方法
US20020184559A1 (en) * 2001-06-01 2002-12-05 Farstone Technology Inc. Backup/recovery system and methods regarding the same
GB0418523D0 (en) * 2004-08-19 2004-09-22 Makor Issues & Rights Ltd Machine learning automatic order transmission system for sending self optimized trading signals
US20080004865A1 (en) * 2006-06-30 2008-01-03 Robert Bosch Corporation Method and apparatus for progressively selecting features from a large feature space in statistical modeling
CN101320486A (zh) * 2008-07-16 2008-12-10 永凯软件技术(上海)有限公司 基于线框的曲面体三维边界表示模型重建方法及其装置
US20170339187A1 (en) * 2016-05-19 2017-11-23 Nec Europe Ltd. Intrusion detection and prevention system and method for generating detection rules and taking countermeasures
CN107516135A (zh) * 2017-07-14 2017-12-26 浙江大学 一种支持多源数据的自动化监督性学习方法
US20190108560A1 (en) * 2016-04-15 2019-04-11 Eckehard Stolz Method for automatically financing bills
CN109886464A (zh) * 2019-01-20 2019-06-14 东北电力大学 基于优化奇异值分解生成特征集的低信息损失短期风速预测方法
CN110001224A (zh) * 2019-05-15 2019-07-12 南京信息工程大学 一种用于大规模票据盖章及检验的自动化设备
CN110991518A (zh) * 2019-11-28 2020-04-10 山东大学 一种基于进化多任务的两阶段特征选择方法及系统
US20200162312A1 (en) * 2018-11-19 2020-05-21 Accenture Global Solutions Limited System And Method For Recommending Automation Solutions For Technology Infrastructure Issues
CN111275447A (zh) * 2020-01-17 2020-06-12 同济大学 基于自动化特征工程的在线网络支付欺诈检测系统
CN111626279A (zh) * 2019-10-15 2020-09-04 西安网算数据科技有限公司 一种负样本标注训练方法及高度自动化的票据识别方法
US20200311611A1 (en) * 2019-03-26 2020-10-01 Caseware International Inc. Feature generation and feature selection for machine learning tool
CN112396188A (zh) * 2020-11-19 2021-02-23 深延科技(北京)有限公司 自动化机器学习、训练方法、装置及存储介质
CN112749731A (zh) * 2020-12-10 2021-05-04 航天信息股份有限公司 一种基于深度神经网络的票据数量识别方法及系统
CN113139818A (zh) * 2021-04-30 2021-07-20 苏宁金融科技(南京)有限公司 基于自动化特征工程的反欺诈方法及系统
CN113256409A (zh) * 2021-07-12 2021-08-13 广州思迈特软件有限公司 基于机器学习的银行零售客户流失预测方法
CN113269675A (zh) * 2021-05-18 2021-08-17 东北师范大学 基于深度学习模型的时变体数据时间超分辨率可视化方法
US20210271702A1 (en) * 2018-07-17 2021-09-02 Nippon Telegraph And Telephone Corporation Feature amount generation method, feature amount generation device, and feature amount generation program
US20210319560A1 (en) * 2019-04-01 2021-10-14 Beijing Sensetime Technology Development Co., Ltd. Image processing method and apparatus, and storage medium
US11176495B1 (en) * 2020-06-21 2021-11-16 Liquidity Capital M. C. Ltd. Machine learning model ensemble for computing likelihood of an entity failing to meet a target parameter
US20210383407A1 (en) * 2020-06-04 2021-12-09 Actimize Ltd. Probabilistic feature engineering technique for anomaly detection
CN114398995A (zh) * 2022-01-19 2022-04-26 吉林大学 一种联合分类器参数和特征选择的信息提取方法
CN114416707A (zh) * 2021-12-10 2022-04-29 浙江蓝卓工业互联网信息技术有限公司 工业时序数据的自动化特征工程方法和装置

Patent Citations (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001325449A (ja) * 2000-05-18 2001-11-22 Eimu Giken:Kk 二次元シンボルコード手形処理システム及び処理方法
US20020184559A1 (en) * 2001-06-01 2002-12-05 Farstone Technology Inc. Backup/recovery system and methods regarding the same
GB0418523D0 (en) * 2004-08-19 2004-09-22 Makor Issues & Rights Ltd Machine learning automatic order transmission system for sending self optimized trading signals
US20080004865A1 (en) * 2006-06-30 2008-01-03 Robert Bosch Corporation Method and apparatus for progressively selecting features from a large feature space in statistical modeling
CN101320486A (zh) * 2008-07-16 2008-12-10 永凯软件技术(上海)有限公司 基于线框的曲面体三维边界表示模型重建方法及其装置
US20190108560A1 (en) * 2016-04-15 2019-04-11 Eckehard Stolz Method for automatically financing bills
US20170339187A1 (en) * 2016-05-19 2017-11-23 Nec Europe Ltd. Intrusion detection and prevention system and method for generating detection rules and taking countermeasures
CN107516135A (zh) * 2017-07-14 2017-12-26 浙江大学 一种支持多源数据的自动化监督性学习方法
US20210271702A1 (en) * 2018-07-17 2021-09-02 Nippon Telegraph And Telephone Corporation Feature amount generation method, feature amount generation device, and feature amount generation program
US20200162312A1 (en) * 2018-11-19 2020-05-21 Accenture Global Solutions Limited System And Method For Recommending Automation Solutions For Technology Infrastructure Issues
CN109886464A (zh) * 2019-01-20 2019-06-14 东北电力大学 基于优化奇异值分解生成特征集的低信息损失短期风速预测方法
US20200311611A1 (en) * 2019-03-26 2020-10-01 Caseware International Inc. Feature generation and feature selection for machine learning tool
US20210319560A1 (en) * 2019-04-01 2021-10-14 Beijing Sensetime Technology Development Co., Ltd. Image processing method and apparatus, and storage medium
CN110001224A (zh) * 2019-05-15 2019-07-12 南京信息工程大学 一种用于大规模票据盖章及检验的自动化设备
CN111626279A (zh) * 2019-10-15 2020-09-04 西安网算数据科技有限公司 一种负样本标注训练方法及高度自动化的票据识别方法
CN110991518A (zh) * 2019-11-28 2020-04-10 山东大学 一种基于进化多任务的两阶段特征选择方法及系统
CN111275447A (zh) * 2020-01-17 2020-06-12 同济大学 基于自动化特征工程的在线网络支付欺诈检测系统
US20210383407A1 (en) * 2020-06-04 2021-12-09 Actimize Ltd. Probabilistic feature engineering technique for anomaly detection
US11176495B1 (en) * 2020-06-21 2021-11-16 Liquidity Capital M. C. Ltd. Machine learning model ensemble for computing likelihood of an entity failing to meet a target parameter
CN112396188A (zh) * 2020-11-19 2021-02-23 深延科技(北京)有限公司 自动化机器学习、训练方法、装置及存储介质
CN112749731A (zh) * 2020-12-10 2021-05-04 航天信息股份有限公司 一种基于深度神经网络的票据数量识别方法及系统
CN113139818A (zh) * 2021-04-30 2021-07-20 苏宁金融科技(南京)有限公司 基于自动化特征工程的反欺诈方法及系统
CN113269675A (zh) * 2021-05-18 2021-08-17 东北师范大学 基于深度学习模型的时变体数据时间超分辨率可视化方法
CN113256409A (zh) * 2021-07-12 2021-08-13 广州思迈特软件有限公司 基于机器学习的银行零售客户流失预测方法
CN114416707A (zh) * 2021-12-10 2022-04-29 浙江蓝卓工业互联网信息技术有限公司 工业时序数据的自动化特征工程方法和装置
CN114398995A (zh) * 2022-01-19 2022-04-26 吉林大学 一种联合分类器参数和特征选择的信息提取方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
BO-YUANFENG: "Automatic recognition of serial numbers in bank notes", 《PATTERN RECOGNITION》 *
ENGDAW AYALEW TESSFAW 等: "Ethiopian Banknote Recognition and Fake Detection Using Support Vector Machine", 《PROCEEDINGS OF THE 2018 SECOND INTERNATIONAL CONFERENCE ON INVENTIVE COMMUNICATION AND COMPUTATIONAL TECHNOLOGIES (ICICCT)》 *
WONG, C 等: "CARTMAP: a neural network method for automated feature selection in financial time series forecasting", 《NEURAL COMPUTING & APPLICATIONS》 *
刘桂雄等: "基于深度学习的机器视觉目标检测算法及在票据检测中应用", 《中国测试》 *
田航: "财务票据图像处理与智能信息识别研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
金美琳: "征信数据甄别欺诈客户的机器学习方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Also Published As

Publication number Publication date
CN114708608B (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
Li et al. Stock price prediction using attention-based multi-input LSTM
Zhou et al. Default prediction in P2P lending from high-dimensional data based on machine learning
CN108629687B (zh) 一种反洗钱方法、装置及设备
Benchaji et al. Using genetic algorithm to improve classification of imbalanced datasets for credit card fraud detection
CA3120412C (en) An automated and dynamic method and system for clustering data records
CN110263821B (zh) 交易特征生成模型的训练、交易特征的生成方法和装置
US20210303970A1 (en) Processing data using multiple neural networks
CN110738564A (zh) 贷后风险评估方法及装置、存储介质
CN109740642A (zh) 发票类别识别方法、装置、电子设备及可读存储介质
Nystrup et al. Feature selection in jump models
CN113537960B (zh) 一种异常资源转移链路的确定方法、装置和设备
CN112884570A (zh) 一种模型安全性的确定方法、装置和设备
CN116485406A (zh) 账户的检测方法及装置、存储介质和电子设备
CN112182250A (zh) 勾稽关系知识图谱的构建方法、财务报表核查方法及装置
Coşkun et al. Credit risk analysis using boosting methods
Tedeschi et al. On optimizing transaction fees in bitcoin using ai: Investigation on miners inclusion pattern
Ramya Crypto-currency price prediction using machine learning
Huber et al. Bayesian inference in high-dimensional time-varying parameter models using integrated rotated Gaussian approximations
WO2019192135A1 (zh) 电子装置、债券收益率分析方法、系统及存储介质
CN111325344A (zh) 评估模型解释工具的方法和装置
CN112966728B (zh) 一种交易监测的方法及装置
CN114708608B (zh) 一种银行票据全自动化特征工程方法及装置
CN113793210A (zh) 网络借贷信用的评价方法、相关装置及计算机存储介质
CN113656707A (zh) 一种理财产品推荐方法、系统、存储介质及设备
CN111275447B (zh) 基于自动化特征工程的在线网络支付欺诈检测系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant