CN114219596A - 一种基于决策树模型的数据处理方法及相关设备 - Google Patents
一种基于决策树模型的数据处理方法及相关设备 Download PDFInfo
- Publication number
- CN114219596A CN114219596A CN202111526833.8A CN202111526833A CN114219596A CN 114219596 A CN114219596 A CN 114219596A CN 202111526833 A CN202111526833 A CN 202111526833A CN 114219596 A CN114219596 A CN 114219596A
- Authority
- CN
- China
- Prior art keywords
- information
- transaction
- transaction identifier
- service
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003066 decision tree Methods 0.000 title claims abstract description 99
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 230000005540 biological transmission Effects 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims description 97
- 238000012545 processing Methods 0.000 claims description 83
- 238000013475 authorization Methods 0.000 claims description 55
- 238000000034 method Methods 0.000 claims description 48
- 238000012163 sequencing technique Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 11
- 238000004458 analytical method Methods 0.000 abstract 1
- 230000002159 abnormal effect Effects 0.000 description 16
- 238000004891 communication Methods 0.000 description 11
- 238000007726 management method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 6
- 230000000153 supplemental effect Effects 0.000 description 6
- 230000000295 complement effect Effects 0.000 description 5
- 238000012216 screening Methods 0.000 description 5
- 230000036541 health Effects 0.000 description 4
- 239000003795 chemical substances by application Substances 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 206010013700 Drug hypersensitivity Diseases 0.000 description 2
- 208000026350 Inborn Genetic disease Diseases 0.000 description 2
- 201000005311 drug allergy Diseases 0.000 description 2
- 208000016361 genetic disease Diseases 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/125—Finance or payroll
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/1734—Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本申请实施例公开了一种基于决策树模型的数据处理方法及相关设备,包括:若财务数据库的分布式锁为授权状态,获取财务数据库的第一标识集合;从业务数据库中获取第二标识集合以及第一标识集合和第二标识集合差异比对得到的第一标识对应的包括业务属性的业务信息,将业务属性输入决策树模型,得到类别;若类别为预设类别,根据业务信息确定第一数据,根据财务数据库获取的财务信息确定第二数据;对获取的第一节点设备的操作日志进行解析,根据第一数据和解析得到的传输信息确定第三数据,若第二数据与第三数据不相同,将第二数据更新为第三数据。采用本申请实施例,可以提高核对的效率和准确性。本申请涉及区块链技术,上述标识可存储于区块链中。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于决策树模型的数据处理方法及相关设备。
背景技术
目前,在企业内部存在业务部门和财务部门,业务部门的业务系统在每新增一条业务数据的情况下,会发送至财务部门的财务系统中,由财务系统存储起来并进一步进行核算、汇总,进而可以将相应的资源数据转移至业务人员或者其他人员的账户中。若该企业存在多种不同的业务部门,不同的业务数据由不同的业务系统发送至财务系统,由于部分业务系统自身的原因,可能存在部分业务系统会出现错发、漏发、发送失败等情况。进而财务系统在进行数据汇总的时候无法对相关数据进行汇总,或者计算的资源数据不准确,在一定程度上会影响各个产品线和机构的考核。因此,需要财务部门的财务人员手动进行核对和修改,耗费大量的时间,效率较低,也容易出错。
发明内容
本申请实施例提供一种基于决策树模型的数据处理方法及相关设备,一方面,通过分布式锁在授权状态的情况下,从财务数据库获取交易标识集合,提高共享资源的访问效率,防止在高并发场景下互相干扰。另一方面,可以将财务系统和业务系统存储有差异的交易标识对应的业务信息输入至决策树模型中,从而确定该交易是否为异常交易类别,通过决策树模型进行判断,提高进行交易类型判断的效率,也进一步对异常交易进行筛选。再一方面,在该交易标识对应的交易类别不为异常交易类别的情况下,通过获取操作日志,根据操作日志更新财务系统中的资源数据,从而无需手动对每一个交易数据进行核对并修改,提高核对效率,进而也能提高核对的准确性。
第一方面,本申请实施例提供一种基于决策树模型的数据处理方法,包括:
确定针对财务数据库的分布式锁的状态,在确定上述分布式锁为授权状态的情况下,从上述财务数据库的多个交易标识中获取第一预设时间段内的第一交易标识集合,上述多个交易标识为第一节点设备从业务数据库中获取的;
从上述业务数据库中获取上述第一预设时间段内的第二交易标识集合,对上述第一交易标识集合和上述第二交易标识集合进行差异比对,得到参考交易标识集合;
获取上述参考交易标识集合中第一交易标识对应的第一业务信息,上述第一业务信息包括多个业务属性,将上述业务属性输入至目标决策树模型中,得到上述第一交易标识对应的交易类别;
在上述交易类别为上述预设交易类别的情况下,根据上述第一业务信息确定第一资源数据,从上述财务数据库中获取上述第一交易标识对应的第一财务信息,并根据上述第一财务信息确定第二资源数据;
获取上述第一节点设备的操作日志,并对上述操作日志进行解析,得到上述第一交易标识对应的传输信息,并根据上述第一资源数据和上述传输信息确定上述第一交易标识对应的第三资源数据,在确定上述第二资源数据与上述第三资源数据不相同的情况下,将上述第二资源数据更新为上述第三资源数据。
进一步地,上述确定针对财务数据库的分布式锁的状态,包括:
加载线程锁,通过上述线程锁授权的第一线程获取上述第一交易标识集合;
在确定无法通过上述第一线程获取上述第一交易标识集合的情况下,确定上述分布式锁为释放状态;
向目标节点设备发送上述分布式锁的授权请求;
接收上述目标节点设备针对上述授权请求发送的授权指令,上述授权指令为上述目标节点设备确定上述分布式锁满足预设授权条件的情况下发送的;
响应于上述授权指令,确定上述分布式锁为授权状态。
进一步地,上述向目标节点设备发送上述分布式锁的授权请求之后,上述方法还包括:
接收上述目标节点设备针对上述分布式锁的等待指令,上述等待指令为上述目标节点设备确定上述分布式锁的授权列表中包括持有设备的情况下发送的;
响应于上述等待指令,向上述目标节点设备发送设备标识信息,以使上述目标节点设备在上述分布式锁的等待队列中添加上述设备标识信息;
其中,上述预设授权条件为上述分布式锁的授权列表中不包括持有设备,且上述设备标识信息在上述等待队列中排在首位;
上述将上述第二资源数据更新为上述第三资源数据之后,上述方法还包括:
向上述目标节点设备发送上述分布式锁的释放请求,并将上述分布式锁确定为上述释放状态,上述释放请求用于指示上述分布式锁的授权列表中不包括持有设备,并使上述目标节点设备根据上述释放请求删除上述等待队列中的上述设备标识信息。
进一步地,上述对上述第一交易标识集合和上述第二交易标识集合进行差异比对,得到参考交易标识集合,包括:
对上述第一交易标识集合中各个交易标识按照写入时间从早到晚的顺序进行排序,得到第一排序结果,并对上述第二交易标识集合中各个交易标识按照写入时间从早到晚的顺序进行排序,得到第二排序结果;
将上述第一交易标识集合和上述第一交易标识集合中的交易标识的格式转换为预设信息格式,并按照预设计算方式对转换后的交易标识进行计算,得到所述第一交易标识集合中各个交易标识对应的第一信息值,以及所述第二交易标识集合中各个交易标识对应的第二信息值;
在确定上述第一排序结果中排在目标位置的第一信息值与上述第二排序结果中排在上述目标位置的第二信息值不相等的情况下,将上述第一信息值和上述第二信息值对应的交易标识确定为上述参考交易标识集合中的交易标识。
进一步地,上述将上述业务属性输入至预训练的决策树模型中,得到上述第一交易标识对应的交易类别之前,上述方法还包括:
获取历史业务信息,上述历史业务信息包括多个业务属性;
从上述历史业务信息中提取业务属性对应的业务特征,并根据上述业务特征构建第一训练样本;
在上述第一训练样本对应的历史业务信息属于上述预设交易类别的情况下,确定上述第一训练样本为正样本,在上述第一训练样本对应的历史业务信息不属于上述预设交易类别的情况下,确定上述第一训练样本为负样本;
根据至少一个第一训练样本,构建训练样本集,并根据上述训练样本集构建上述目标决策树模型。
进一步地,上述根据上述训练样本集构建上述目标决策树模型,包括:
确定第一业务特征的正样本个数占总样本个数的第一比例,以及上述第一业务特征的负样本个数占总样本个数的第二比例,上述总样本为上述第一业务特征的训练样本个数,上述第一业务特征为任一业务特征;
根据上述训练样本集中各个第一业务特征的第一比例和第二比例确定上述训练样本集中各个第一业务特征的第一信息熵,并根据上述训练样本集中正样本个数和负样本个数确定上述训练样本集的第二信息熵;
根据上述各个第一业务特征的第一信息熵和上述第二信息熵确定上述第一业务特征的信息增益,并根据上述参考业务特征集合中各个第一业务特征的信息增益构建上述目标决策树模型。
进一步地,上述传输信息包括上述第一节点设备从上述业务数据库中获取的业务信息以及从补充数据库获取的补充信息,上述补充信息携带信息签名数据;上述业务信息包括上述第一业务信息;上述根据上述第一资源数据和上述传输信息确定上述第一交易标识对应的第三资源数据,包括:
获取预设密钥字符串,按照预设信息转化方式将上述补充信息转换为第一字符串,并将上述第一字符串与上述预设密钥字符串进行拼接,得到第二字符串;
按照目标加密算法对上述第二字符串进行运算,得到参考加密数据;
在确定上述参考加密数据与上述信息签名数据相同的情况下,从上述补充信息中获取上述第一交易标识对应的至少一个补充数据,并根据上述至少一个补充数据确定对应的资源数据;
将上述至少一个补充数据对应的资源数据以及上述第一资源数据的和,确定上述第一交易标识对应的第三资源数据。
第二方面,本申请实施例提供了一种基于决策树模型的数据处理装置,包括:
确定单元,用于确定针对财务数据库的分布式锁的状态,在确定上述分布式锁为授权状态的情况下,从上述财务数据库的多个交易标识中获取第一预设时间段内的第一交易标识集合,上述多个交易标识为第一节点设备从业务数据库中获取的;
获取单元,用于从上述业务数据库中获取上述第一预设时间段内的第二交易标识集合,对上述第一交易标识集合和上述第二交易标识集合进行差异比对,得到参考交易标识集合;
上述获取单元,还用于获取上述参考交易标识集合中第一交易标识对应的第一业务信息,上述第一业务信息包括多个业务属性,将上述业务属性输入至目标决策树模型中,得到上述第一交易标识对应的交易类别;
上述确定单元,还用于在上述交易类别为上述预设交易类别的情况下,根据上述第一业务信息确定第一资源数据,从上述财务数据库中获取上述第一交易标识对应的第一财务信息,并根据上述第一财务信息确定第二资源数据;
上述获取单元,还用于获取上述第一节点设备的操作日志,并对上述操作日志进行解析,得到上述第一交易标识对应的传输信息,并根据上述第一资源数据和上述传输信息确定上述第一交易标识对应的第三资源数据,在确定上述第二资源数据与上述第三资源数据不相同的情况下,将上述第二资源数据更新为上述第三资源数据。
另外,该方面中,该基于决策树模型的数据处理装置其他可选的实施方式可参阅上述第一方面的相关内容,此处不再详述。
第三方面,本申请实施例提供一种计算机设备,该计算机设备包括存储器和处理器、收发器;上述处理器分别与上述存储器和上述收发器相连,其中,上述存储器存储有计算机程序代码,上述处理器和上述收发器用于调用上述程序代码,执行上述第一方面和/或第一方面任一种可能的实现方式提供的方法。
第四方面,实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,当该计算机程序被计算机设备运行时,实现如第一方面的任一种可能的实现方式所公开的基于决策树模型的打包方法。
第五方面,本申请提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述基于决策树模型的数据处理方法。
本申请实施例中,通过确定财务数据的分布式锁为授权状态的情况下,在获取预设时间段内的第一交易标识集合,该第一交易标识集合为业务系统发送给财务系统的,采用分布式锁的方式进行访问提高共享资源的访问效率,防止在高并发场景下互相干扰。通过从业务数据库获取预设时间段内的第二交易标识集合,并将第一交易标识集合和第二交易标识集合进行差异比对,得到参考交易标识集合。通过从业务数据库中获取的数据与财务数据获取的数据进行比对,能够筛选出业务系统漏发错发的交易标识。通过将参考标识集合中的标识对应的业务信息的业务属性输入至目标决策树模型中,得到该交易标识对应的交易类别。从而通过决策树模型对确定当前交易是否为异常交易类别,从而对交易数据进行进一步的筛选。进而,在不是异常交易类别的情况下,根据业务信息确定第一资源数据,并根据财务信息确定第二资源数据,以及根据第一节点的操作日志进行解析得到的传输信息,确定财务数据库获取到的信息,即财务接收到的交易数据,进而从传输信息中确定第三资源数据,该第三资源数据为真实的数据,若第三资源数据和第二资源数据不一致,确定财务系统核算错误,则用第三资源数据修正第二资源数据,从而无需手动对每一个交易数据进行核对并修改,提高核对效率,进而也能提高核对的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种基于决策树模型的数据处理系统的结构示意图;
图2是本申请实施例提供的一种基于决策树模型的数据处理方法的流程示意图;
图3是本申请实施例提供的一种基于决策树模型的数据处理方法的另一流程示意图;
图4是本申请实施例提供的一种基于决策树模型的数据处理装置的结构示意图;
图5是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合附图1-附图3对本申请实施例提供的一种基于决策树模型的数据处理方法进行示意性说明。
本申请实施例提供的一种基于决策树模型的数据处理方法可以应用于一种数据处理平台中,该数据处理平台可以承载于基于决策树模型的数据处理系统中或者应用程序中,在某些实施例中,上述数据处理平台是指基于决策树模型进行数据比对以及数据修正的功能的平台,该数据处理平台可以获取财务数据库中的数据以及业务数据库中的数据,并基于决策树模型进行比对,进而对财务数据库中的数据进行核对和修正,以代替财务人员人为进行修正,提高核对效率,也提高财务数据库中的数据的准确性。其中,财务数据库可以对应一个分布式锁的管理节点,即目标节点设备,用于处理财务数据库中的数据的设备也可以为一个节点设备,即第一节点设备。在某些实施例中,数据处理平台可以与第一节点设备和目标节点设备建立通信连接。在某些实施例中,上述通信连接的方式可以包括但不限于无线通信技术(Wireless Fidelity,WIFI)、蓝牙、近场通信(Near FieldCommunication,NFC)等。
具体的,数据处理平台可以通过目标节点设备确定财务数据库的分布式锁的状态,在确定为授权状态的情况下获取第一预设时间段内的第一交易标识集合,并从业务数据库中获取第一预设时间段内的第二交易标识集合,进而对第一交易标识集合和第二交易标识集合进行差异比对,得到参考交易标识集合。从业务数据库中获取参考交易标识集合中的交易标识对应的业务信息,该业务信息包括多个业务属性,将业务属性输入至目标决策树模型中,得到该交易标识的交易类别。在该交易类别为预设交易类别的情况下,根据业务信息确定第一资源数据,并从财务数据库中获取该交易标识对应的财务信息,并根据财务信息确定第二资源数据。进而,获取第一节点设备的操作日志,对该操作日志进行解析,得到该交易标识的传输信息,根据第一资源数据和传输信息确定该交易标识对应的第三资源数据,若该第二资源数据与第三资源数据不相同,则将该第二资源数据更新为第三资源数据。
一方面,通过分布式锁在授权状态的情况下,从财务数据库获取交易标识集合,提高共享资源的访问效率,防止在高并发场景下互相干扰。另一方面,可以将财务系统和业务系统存储有差异的交易标识对应的业务信息输入至预训练的决策树模型中,从而确定该交易是否为异常交易类别,通过决策树模型进行判断,提高进行交易类型判断的效率,也进一步对异常交易进行筛选。再一方面,在该交易标识对应的交易类别不为异常交易类别的情况下,通过获取操作日志,根据操作日志更新财务系统中的资源数据,从而无需手动对每一个交易数据进行核对并修改,提高核对效率,进而也能提高核对的准确性。
本申请实施例提出的基于决策树模型的数据处理方法涉及人工智能、机器学习等技术,其中:人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。机器学习是一门多学科交叉专业,涵盖概率论知识,统计学知识,近似理论知识和复杂算法知识,使用计算机作为工具并致力于真实实时的模拟人类学习方式,并将现有内容进行知识结构划分来有效提高学习效率。
基于上述描述,下面结合附图1对本申请实施例提供的一种基于决策树模型的数据处理系统进行示意性说明。
请参阅图1,图1是本申请实施例提供的一种基于决策树模型的数据处理系统的结构示意图,如图1所示,上述基于决策树模型的数据处理系统包括数据处理平台101、第一节点设备102、目标节点设备103以及模型构建设备104,该基于决策树模型的数据处理系统还可以包括三个数据库:财务数据库10、业务数据库20以及补充数据库30。其中,数据处理平台101可以与第一节点设备101通过有线或无线的方式进行直接或间接的连接;数据处理平台102可以与目标节点设备103通过有线或无线的方式进行直接或间接的连接;数据处理平台101还可以与模型构建设备104通过有线或无线的方式进行直接或间接的连接。
需要说明的是,图1所示的设备数量和形态用于举例,并不构成对本申请实施例的限定,实际应用中该基于决策树模型的数据处理系统可以包括一个以上数据处理平台、一个以上第一节点设备以及一个以上目标节点设备,或者一个以上模型构建设备。其中,该数据处理平台101可以用于构建模型,该数据处理平台101可以与模型构建设备104为同一设备。上述第一节点设备102为用于对财务数据库中的数据进行处理的设备,目标节点设备103为该财务数据库的分布式锁的管理设备,上述第一节点设备102可以用于管理该财务数据库的分布式锁,因此,第一节点设备102与目标节点设备103可以为同一设备。本申请实施例以一个数据处理平台101、第一节点设备102与目标节点设备103为同一设备,数据处理平台101与模型构建设备104为同一设备为例进行讲解。
其中,该财务数据库10用于存储第一节点设备102接收到业务系统中的设备发送的业务数据以及接收到补充系统中的补充设备发送的补充数据。该业务数据可以存储在业务数据库20中,补充数据可以存储在补充数据库30中。在此过程中,有可能第一节点设备102并未接收到业务系统的设备或者补充系统的设备发送的数据,或者接收到发送的错误数据进行存储,则可能导致后续第一节点设备102在计算和核算的过程中发生错误。或者第一节点设备102在接收到业务系统的设备和补充系统的设备发送的数据后,也可能在统计汇总的时候发生错误。因此,数据处理平台可以对财务数据库中的数据进行核算和检查,并进一步的修正。
具体的,数据处理平台101可以在确定财务数据库的分布式锁为授权状态的情况下,从财务数据库中获取第一预设时间段内的第一交易标识集合,其中,财务数据库中的交易标识和交易数据可以是第一节点设备接收到业务系统的设备发送的。进而数据处理平台101可以从业务数据库中获取该第一预设时间段内的第二交易标识结合,对第一交易标识集合和第二交易标识集合进行差异比对,得到参考交易标识结合,即比对出业务数据库和财务数据库中存储的数据的差异。获取有差异的交易标识的业务信息,该业务信息包括多个业务属性,将该业务信息的业务属性输入至目标决策树模型中,得到交易标识对应的交易类别。在该交易类别为预设交易类别的情况下,根据业务信息确定第一数据资源,并根据该交易标识在财务数据库对应的财务信息确定第二资源数据。获取第一节点设备102的操作日志,并根据操作日志确定交易标识对应的传输信息,并根据该第一资源数据和传输信息确定该交易标识对应的第三资源数据,在第二资源数据和第三资源数据不相同的情况下,将第二资源数据修正为第三资源数据。其中,该财务数据库的分布式锁管理设备可以是目标节点设备103,该目标决策树模型可以是模型的构建设备104构建的。
上述数据处理平台101、第一节点设备102、目标节点设备103以及模型构建设备104均可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等等;上述数据处理平台101、第一节点设备102、目标节点设备103以及模型构建设备104还可以是服务器,例如可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器,本申请对此不做限定。可选地,数据处理平台101、第一节点设备102和目标节点设备103可以是分布式系统中的三个节点设备,第一节点设备102和目标节点设备103可以为同一设备。
下面对本申请实施例提供的一种基于决策树模型的数据处理方法进一步进行详细描述,请参阅图2,图2是本申请实施例提供的一种基于决策树模型的数据处理方法的流程示意图。
其中,如图2所示,该基于决策树模型的数据处理方法可以包括:
201、确定针对财务数据库的分布式锁的状态,在确定上述分布式锁为授权状态的情况下,从上述财务数据库的多个交易标识中获取第一预设时间段内的第一交易标识集合。
在本申请实施例中,当业务系统产生一条业务数据后,业务系统的设备将该业务数据存储在业务数据库中,该业务数据包括业务信息,业务系统的设备并将该业务数据发送至第一节点设备,进而第一节点设备可以将该业务数据存储在财务数据库中,该业务系统的设备向第一节点设备发送的业务数据可以包括第一节点设备用于核算和汇总的业务信息,可以是业务数据中的部分数据,后续以业务信息进行描述。其中,第一节点设备可以对财务数据库中的数据进行核对和计算。由于业务系统的设备的原因,可能发送的错发或者漏发,或者第一节点对财务数据库中数据进行计算也可能出现错误,则需要数据处理平台对财务数据库中的数据进行计算。
在一种可能的实现方式中,财务数据库可以由多个设备进行访问,为了防止多个设备同时对财务数据库中的数据进行读写,从而出现并发问题。因此,可以为财务数据库配置一个分布式锁。其中,分布式锁是指在分布式系统中,各个分布式节点设备的进程或线程之间均同时获取同步共享的财务数据库时,只有一个分布式节点设备的进程或者线程在这一时刻对财务数据库中的数据记性读写,从而防止在高并发场景下互相干扰的一种程序。通过一次只有一个被允许的设备对财务数据库中的数据进行读写的方式,保证了系统的稳定性。该被允许的设备即为该分布式锁的状态为授权状态的设备,其余设备的该分布式锁的状态为释放状态,即表示不能访问该财务数据库。
在一种可能的实现方式中,数据处理平台可以确定针对财务数据库的分布式锁的状态,在确定该分布式锁为授权状态的情况下,从财务数据库的中获取第一预设时间段内的第一交易标识集合。具体的,数据处理平台可以通过加载线程锁,通过该线程锁授权的第一线程获取该财务数据库中的交易标识,即尝试获取该第一交易标识集合,在确定无法通过该第一线程获取该第一交易标识集合的情况下,确定该针对财务数据库的分布式锁为释放状态,则需要向该分布式锁的管理设备(目标节点设备)发送该分布式锁的授权请求。若该目标节点设备确定该分布式锁的授权列表中包括持有设备的情况下,即该分布式锁被其他设备所持有,则向该数据处理平台发送针对该分布式锁的等待指令,该等待指令用于指示该数据处理平台等待其他分布式节点设备针对该财务数据库读写完成。
其中,线程锁和分布式锁类似,为了防止出现并发问题,可以一次仅允许部分线程或者一个线程(第一线程)对该财务数据库中的数据进行访问。该第一线程即为线程锁授权的线程。在该第一线程访问完毕后,线程锁可以授权其他线程访问该财务数据库。
进一步地,该数据处理平台响应于该等待指令,向目标节点设备发送设备标识信息,该目标节点设备在接收到数据处理平台的设备标识信息后,可以在分布式锁的等待队列中添加该设备标识信息。若该目标节点设备确定在等待队列中排在该数据处理平台之前的设备均已释放该分布式锁的情况下,即该数据处理平台为该等待队列中排在首位,且该分布式锁目前没有被任何设备持有,即分布式锁的授权列表中不包括任何设备,则可以向数据处理平台发送授权指令,该授权指令可以用于指示该数据处理设备对财务数据库中的数据进行读写。即该数据处理平台接收到目标节点设备针对上述授权请求发送的授权指令,响应该授权指令,确定该分布式锁为授权状态。此时,目标节点设备可以将设备标识信息添加在该分布式锁的授权列表中。
进一步地,数据处理平台在对财务数据库中的数据处理完成后,可以向目标节点设备发送针对该分布式锁的释放请求,该释放请求用于指示该数据处理平台读写财务数据库完成,即可以使下一个分布式节点设备对该财务数据库进行读写,该数据处理平台在发送该释放请求时,也可以将该分布式锁确定为释放状态。目标节点设备可以接收该释放请求,该释放请求用于指示该分布式锁的授权列表中不包括任何持有设备,即从该授权列表中删除设备信息标识,并从等待队列中删除该设备标识信息。可选地,该目标节点设备可以向该目前排在该等待对列中首位的分布式节点设备发送授权指令。
其中,财务数据库中存储有业务系统的设备发送的业务信息以及补充系统发送的数据。为了便于对每一个业务数据进行核对,可以先对交易标识进行核对,即上述从财务数据库中获取至少一个交易标识,得到第一交易标识集合。该交易标识为业务数据的唯一信息标识。第一预设时间段为数据处理平台对财务数据库中的数据进行核对的间隔时长,例如可以是一个月,也可以是三个月,该第一预设时间可以由财务人员或者管理人员设定,本申请对此不做限定。
202、从上述业务数据库中获取上述第一预设时间段内的第二交易标识集合,对上述第一交易标识集合和上述第二交易标识集合进行差异比对,得到参考交易标识集合。
在一个可能的实现方式中,数据处理平台为了确定业务系统的设备是否错发或者漏发,因此可以获取同一时段存储在业务数据库中的交易标识,得到第二交易标识集合,并将第一交易标识集合中的交易标识与第二交易标识集合中的交易标识进行差异比对,得到差异交易标识集合。则该差异标识集合则为业务系统的设备或者第一节点设备之间出现问题后的交易标识。
在一个可能的实现方式中,数据处理平台对上述第一交易标识集合和上述第二交易标识集合进行差异比对,得到参考交易标识集合,可以是直接对交易数据进行一致性校验。由于业务数据库和财务数据库的存储字段和存储规范不同,因此可能很难进行差异比较。数据处理平台则可以按照写入时间从早到晚的顺序对第一交易标识集合和第二交易标识集合中的交易标识分别进行排序,得到第一排序结果和第二排序结果。进而,数据处理平台可以将第一交易标识集合和第二交易标识集合的格式均转化为预设信息格式,并按照预设计算方式对转换后第一交易标识集合和第二交易标识集合中的交易标识进行计算,得到第一交易标识集合中各个交易标识对应的第一信息值,以及第二交易标识集合中各个交易标识对应的第二信息值。数据处理平台若确定第一排序结果中排在目标位置的第一信息值与第二排序结果中排在目标位置的第二信息值不相等的情况下,可以将第一信息值和第二信息值对应的交易标识确定为参考交易标识集合中的交易标识。
其中,该参考交易标识集合中的交易标识可以为业务系统没有存储,财务系统中存储的,也可以为业务系统存储,财务系统中没有存储的。可选地,上述预设信息格式可以是Json格式。预设计算方式可以是信息摘要算法(Message-Digest Algorithm,MD5),则第一信息值和第二信息值则为MD5值,其中,该预设计算方式还可以是其他计算方式,本申请对此不做限定。
203、获取上述参考交易标识集合中第一交易标识对应的第一业务信息,上述第一业务信息包括多个业务属性,将上述业务属性输入至目标决策树模型中,得到上述第一交易标识对应的交易类别。
在一种可能的实现方式中,在获取到参考交易标识集合后,可以获取该参考交易标识集合中各个交易标识的业务信息,该业务信息可以包括多个业务属性。其中,该业务信息可以是从业务数据库中获取的,若该业务数据库中不包括该交易标识,则数据处理平台也可以从其他数据库中获取该交易标识的业务信息。具体的,以该业务信息为补充医疗保险的保险信息为例,则该业务属性可以包括用户的个人信息属性以及身体健康属性。示例性的,该个人信息属性包括:姓名、性别、年龄、常住位置等等。身体健康属性可以包括体检数据的各项指标结果、是否有患XX病史、家族遗传病、药物过敏类型等等。
进一步地,该数据处理平台可以将该业务信息输入至目标决策树模型中,通过该目标决策树模型确定该交易类别。其中,决策树模型是一个分类器,表示对象属性与对象值之间的一种映射关系。在决策树模型中包括多个节点,多个节点分为根节点和叶子节点,根节点可以对应至少两个分叉路径,每个路径对应一个叶子节点,进而可以继续往下分,从而不能再进行划分为止。决策树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶子节点则对应从根节点到该叶子节点所经历的路径所表示的对象的值。
其中,业务系统在产生该业务数据后,业务系统的设备向第一节点设备发送该业务信息,则财务数据库中也添加该数据。需要说明的是,业务系统在向第一节点设备发送时,业务系统的设备同时将该业务数据中所包括的保险信息提交给管理系统,由管理系统确定该保险信息是否能够进行承保,若不能进行承保则输出用于指示该保险信息拒绝承保的提示信息,进而,该业务系统的设备会在业务数据库中删除该交易标识对应的数据,而财务数据库中仍然存储该交易标识对应的业务信息。可选地,管理系统可以通过该目标决策树模型确定该保险信息能否承保,数据处理平台也可以通过该目标决策树确定该保险信息能否承保。若能承保,则该目标决策树模型可以输出能够承保的交易类别,反之则为不能承保的交易类别。
204、在上述交易类别为上述预设交易类别的情况下,根据上述第一业务信息确定第一资源数据,从上述财务数据库中获取上述第一交易标识对应的第一财务信息,并根据上述第一财务信息确定第二资源数据。
其中,预设交易类别为能够承保的交易类别,则该第一交易标识对应的交易类别为能够承保交易类别的情况下,可以根据获取的第一业务信息确定第一资源数据。其中,业务信息除了包括上述保险信息以外,还可以包括保费、手续费比例,该手续费为生成该业务数据的经纪人或者代理人的手续费比例,则可以根据保费和手续费比例以及手续费的计算规则确定第一资源数据,该第一资源数据可以是该经纪人或者代理人的资源数据。在该交易标识的交易类别为能够承保的交易类别为预设交易类别的情况下,则对财务数据库中的计算得到的该交易标识的资源数据进行核对。具体的,可以根据获取该财务数据库中该第一交易标识对应的财务信息,该财务信息包括上述保险信息,以及财务数据库记录的保费、手续费比例,以及第一节点设备计算出的经纪人或者代理人的手续费的资源数据,即第二资源数据。
205、获取上述第一节点设备的操作日志,并对上述操作日志进行解析,得到上述第一交易标识对应的传输信息,并根据上述第一资源数据和上述传输信息确定上述第一交易标识对应的第三资源数据,在确定上述第二资源数据与上述第三资源数据不相同的情况下,将上述第二资源数据更新为上述第三资源数据。
其中,对财务数据库中的第二资源数据进行核对不仅是需要业务数据库中的数据,还可能存在补充数据(补充信息)。以保险产品为例,用户购买了某个保险产品后,可以生成一个业务数据,用户与保险公司签订合同,若该用户(即保险合同当事人)想要修改该保险产品的投保金额的时候,可以对该保险产品的保单费进行修改(批改),例如,可以批增,即增加投保金额。此时,该交易标识不变,该修改的数据会作为补充信息被存储在补充系统的补充数据库中,该补充信息也包括补充费用以及补充的手续费比例等等。进而补充系统的设备可以将该补充信息发送至第一节点设备,由第一节点设备存储在财务数据库中,则上述第二资源数据可以包括两部分数据,一部分是初始保费计算得到的,另一部分为根据补充信息计算得到的。
进一步地,数据处理平台可以对第一节点设备的操作日志进行解析,得到第一交易标识对应的传输信息,该传输信息可以包括第一节点设备接收到来自各个系统的数据,其中,传输信息包括上述第一节点设备从业务数据库中获取的业务信息以及从补充数据库获取的补充信息,该业务信息为各个交易标识的业务信息总和。进而,数据处理平台可以根据补充数据库中的补充数据(补充信息)计算出这部分修改的手续费的资源数据,进而根据第一业务信息计算得到的第一资源数据相加,得到第三资源数据,与根据第一财务信息计算得到的第二资源数据进行比对是否相同。
其中,该补充信息可以携带信息签名数据,用于验证财务数据库中存储的补充信息是否有误。具体的,第一节点设备和数据处理平台以及补充系统的补充设备约定一个预设密钥字符串,补充系统的补充设备按照预设信息转化方式将补充信息转换为第一字符串,并将上述第一字符串与预设密钥字符串进行拼接,得到第二字符串;进而,按照目标加密算法对上述第二字符串进行运算,得到信息签名数据,其中,该补充信息可以是针对该第一交易标识的补充数据。将该补充信息以及该信息签名数据一并发送至第一节点设备,由该第一节点设备存储在财务数据库中。
其中,数据处理平台可以将补充信息中的补充数据按照设定的规则排列,并按照参数的美国信息交换标准代码(American Standard Code for InformationInterchange,ASCII)从小到大进行拼接成第一字符串,在第一字符串拼接上预设密钥字符串,得到第二字符串,并对第二字符串进行运算,具体运算方式可以使用MD5对第二字符串进行运算,也可以使用安全散列算法256(Secure Hash Algorithm 256,SHA256)对第二字符串进行运算,还可以使用其他算法对第二字符串进行运算,本申请对此不做限定,从而得到参考加密数据。
进一步地,数据处理平台可以采用相同的方法确定参考加密数据,在确定参考加密数据和信息签名数据相同的情况下,可以确定该补充信息没有在传输中出错,则可以获取第一交易标识的至少一个补充数据,即该第一交易标识对应的保险数据可以至少被用户修改一次,进而根据每次修改的手续费比例、修改的费用以及手续费的计算规则确定该至少一个补充数据对应的资源数据,进而根据第一资源数据和该至少一个补充数据对应的资源数据之和,确定第三资源数据。可以理解的是,该第三资源数据为该第一交易标识正确的资源数据,若第二资源数据与第三资源数据相同,则确定该数据无误。若第二资源数据和第三资源数据不相同,则数据处理平台可以将上述第二资源数据更新为上述第三资源数据。
可选地,若该第一交易标识对应的交易类别不为预设交易类别的情况下,则确定该保险信息已被拒保。则数据处理平台可以确定第三资源数据为预设值,该预设值可以为0,则将第二资源数据更新为该第三资源数据。
本申请实施例中,通过确定财务数据的分布式锁为授权状态的情况下,在获取预设时间段内的第一交易标识集合,该第一交易标识集合为业务系统发送给财务系统的,采用分布式锁的方式进行访问提高共享资源的访问效率,防止在高并发场景下互相干扰。通过从业务数据库获取预设时间段内的第二交易标识集合,并将第一交易标识集合和第二交易标识集合进行差异比对,得到参考交易标识集合。通过从业务数据库中获取的数据与财务数据获取的数据进行比对,能够筛选出业务系统漏发错发的交易标识。通过将参考标识集合中的标识对应的业务信息的业务属性输入至目标决策树模型中,得到该交易标识对应的交易类别。从而通过决策树模型对确定当前交易是否为异常交易类别,从而对交易数据进行进一步的筛选。进而,在不是异常交易类别的情况下,根据业务信息确定第一资源数据,并根据财务信息确定第二资源数据,以及根据第一节点的操作日志进行解析得到的传输信息,确定财务数据库获取到的信息,即财务接收到的交易数据,进而从传输信息中确定第三资源数据,该第三资源数据为真实的数据,若第三资源数据和第二资源数据不一致,确定财务系统核算错误,则用第三资源数据修正第二资源数据,从而无需手动对每一个交易数据进行核对并修改,提高核对效率,进而也能提高核对的准确性。
请参阅图3,图3是本申请实施例提供的一种基于决策树模型的数据处理方法的流程示意图。其中,需要说明的是,本申请中各个实施例之间相同或相似的部分可以互相参考。在本申请中各个实施例、以及各实施例中的各个实施方式/实施方法/实现方法中,如果没有特殊说明以及逻辑冲突,不同的实施例之间、以及各实施例中的各个实施方式/实施方法/实现方法之间的术语和/或描述具有一致性、且可以相互引用,不同的实施例、以及各实施例中的各个实施方式/实施方法/实现方法中的技术特征根据其内在的逻辑关系可以组合形成新的实施例、实施方式、实施方法、或实现方法。以上上述的本申请实施方式并不构成对本申请保护范围的限定。如图3所示,该基于决策树模型的数据处理方法可以包括:
301、获取历史业务信息,上述历史业务信息包括多个业务属性。
在一种可能的实现方式中,以保险信息为例,历史业务信息可以是历史承保的保险信息。该保险信息用于指示用户承保的信息。该业务信息包括多个业务属性,以上述保险信息为补充医疗保险的保险信息为例,该业务属性可以包括用户的个人信息属性以及身体健康属性。该个人信息属性包括:姓名、性别、年龄、手机号、常住位置。身体健康属性可以包括体检数据的各项指标结果、是否有患XX病史、家族遗传病、药物过敏类型等等。
其中,决策树模型通常可以包括多个树节点,树节点可以包括根节点、中间节点和叶子节点,根节点和中间节点均存在对应的节点特征,而叶子节点用于指示对应的分类结果,例如分类结果可以是该第一交易标识对应的交易类别。即可以根据训练样本集确定决策树模型中所包括的树节点以及树节点对应的节点特征。构建目标决策树模型的过程则是确定目标决策树模型中各个树节点所对应的节点特征的过程,即确定各个节点特征在目标决策树模型中的节点位置,即得到目标决策树模型。
302、从上述历史业务信息中提取业务属性对应的业务特征,并根据上述业务特征构建第一训练样本。
303、在上述第一训练样本对应的历史业务信息属于上述预设交易类别的情况下,确定上述第一训练样本为正样本,在上述第一训练样本对应的历史业务信息不属于上述预设交易类别的情况下,确定上述第一训练样本为负样本。
在一种可能的实现方式中,模型的构建设备(数据处理平台)可以一条历史业务信息构建一个训练样本,即第一训练样本。该模型的构建设备(数据处理平台)可以直接将业务属性作为业务特征,也可以删除部分用于标识个人身份信息的业务属性,将剩下的业务属性作为业务特征。例如,可以将上述个人信息属性中的姓名、手机号等去除,将剩下的业务属性作为业务特征。
其中,这里以补充医疗保险为例,目标决策树模型可以是针对某一个种类的保险产品的保险信息构建的,也可以是根据所有种类的保险信息构建的。若目标决策树模型是针对某一个种类的保险产品的保险信息构建的,则获取该种类的历史保险信息,若目标决策树模型是针对所有种类的保险产品的保险信息构建的,则可以获取该种类的历史保险信息。其中,在历史业务信息中,若构建的第一训练样本对应的业务信息为预设交易类别,则确定为正样本,反之,则确定为负样本,即得到第一训练样本的标签,进而根据至少一个第一训练样本,得到训练样本集。可选地,对于历史业务信息中的第一训练样本来说,可以是管理人员手动确定的是否拒保,得到该第一训练样本的标签。
304、根据至少一个第一训练样本,构建训练样本集,并根据上述训练样本集构建上述目标决策树模型。
在一种可能的实现方式中,可以通过递归的原则构建目标决策树模型。为了得到分类效果最好的决策树模型,则可以根据划分训练样本集中的训练样本的纯度确定,所谓纯度为经过该树节点进行划分后,得到的训练样本属于某一种类别的训练样本的比例。用来评价该分类效果的参数可以是信息增益,信息增益越大,则表示该节点的节点特征分类能力越好,分类后得到的训练样本为同一类别的比例更高。则可以用信息增益来确定决策树模型中各个节点的节点特征。以根节点为例,在选择出信息增益最大的节点特征后,确定该节点特征为根节点的节点特征,进而基于该节点特征对训练样本集进行划分,在第一次划分后,基于划分后的训练样本集确定各个特征的信息增益,同样选择信息增益最大(即分类效果最好)的节点特征作为根节点下一层中间节点的节点特征。依次类推,直至所有业务特征均已在决策树模型中,得到目标决策树模型。
在一种可能的实现方式中,模型构建设备(数据处理平台)可以计算业务特征的信息增益,其中,模型构建设备(数据处理平台)可以针对各个业务特征计算正样本和负样本的比例,进而根据比例计算各个业务特征的信息熵。具体的,模型构建设备(数据处理平台)可以根据第一业务特征的正样本个数占该业务特征的总样本个数的第一比例,该第一业务特征的总样本个数为该第一业务特征的正样本的个数和负样本的个数之和,即为包括该业务特征的训练样本个数的和。进而,根据第一比例和第二比例计算该第一业务特征的第一信息熵,该第一信息熵的公式可以如公式1所示:
其中,Ent(D)表示信息熵,D表示训练样本集,K表示类别个数,pk为当前类别样本所占的比例,即上述第一比例和第二比例中,K表示该业务特征可能有k个取值,在第k类别下的比例。
示例性的,以第一业务特征为是否患XX病为例进行讲解,该特征分别包括两个类别(取值),“是”与“否”。则根据“是”的类别下的正样本的个数占总样本的个数的第一比例,以及根据“是”的类别下的负样本的个数占总样本的个数的第二比例,确定该“是”的类别的信息熵,并根据“否”的类别下的正样本的个数占总样本的个数的第一比例,以及“否”的类别下的负样本的个数占总样本的个数的第二比例,确定该“否”的类别的信息熵。则可以将“是”的类别的信息熵和“否”的类别的信息熵作为该第一业务特征的第一信息熵,并根据第一业务特征的第一信息熵确定该第一业务特征的信息增益。具体的,该信息增益的计算公式可以如公式2所示
其中,Ent(D)表示第二信息熵,即训练样本集的信息熵,D表示训练样本集中训练样本的个数,K表示该第一业务特征a可能有k个类别,Dk表示样本集中在第一业务特征a上取值为ak的样本个数,Ent(Dk)表示该类别(取值)下的第一信息熵。
示例性的,训练样本集的信息熵可以是根据训练样本集中的正样本个数和负样本个数,通过公式1计算出来的,训练样本集包括两个类别,正样本和负样本,即k=2,根据正样本个数占总训练样本个数的第一比例以及负样本个数占总训练样本个数的第二比例可以计算出该训练样本集的第二信息熵。进而,以上述第一业务特征为是否患XX病为例,k可以为“是”,也可以为“否”,则用第二信息熵减去在“是”的类别的信息熵乘以该第一业务特征的样本数占总训练样本数的比例,以及减去在“是”的类别的信息熵乘以该“是”的类别的样本数占总训练样本数的比例的积,并且减去“否”的类别的信息熵乘以该“是”的类别的样本数占总训练样本数的比例的积,得到的值作为该第一业务特征的信息增益。
进而,模型构建设备(数据处理平台)可以根据各个第一业务特征的信息增益选择根节点的节点特征,即将信息增益最大的第一业务特征作为该根节点的节点特征。进一步,确定根节点的节点特征后,可以递归的方式,再次计算各个第一业务特征的信息增益,进而再次选择第一业务特征作为该根节点下层的中间节点的节点特征,直至不能再根据叶子节点对训练样本集进行划分,即该叶子节点下的训练样本均为正样本或者负样本,则得到目标决策树模型,构建完成。
本申请实施例中,通过确定财务数据的分布式锁为授权状态的情况下,在获取预设时间段内的第一交易标识集合,该第一交易标识集合为业务系统发送给财务系统的,采用分布式锁的方式进行访问提高共享资源的访问效率,防止在高并发场景下互相干扰。通过从业务数据库获取预设时间段内的第二交易标识集合,并将第一交易标识集合和第二交易标识集合进行差异比对,得到参考交易标识集合。通过从业务数据库中获取的数据与财务数据获取的数据进行比对,能够筛选出业务系统漏发错发的交易标识。通过将参考标识集合中的标识对应的业务信息的业务属性输入至目标决策树模型中,得到该交易标识对应的交易类别。从而通过决策树模型对确定当前交易是否为异常交易类别,从而对交易数据进行进一步的筛选。进而,在不是异常交易类别的情况下,根据业务信息确定第一资源数据,并根据财务信息确定第二资源数据,以及根据第一节点的操作日志进行解析得到的传输信息,确定财务数据库获取到的信息,即财务接收到的交易数据,进而从传输信息中确定第三资源数据,该第三资源数据为真实的数据,若第三资源数据和第二资源数据不一致,确定财务系统核算错误,则用第三资源数据修正第二资源数据,从而无需手动对每一个交易数据进行核对并修改,提高核对效率,进而也能提高核对的准确性。
请参阅图4,图4是本申请实施例提供的一种基于决策树模型的数据处理装置的结构示意图,上述基于决策树模型的数据处理装置400包括:
确定单元401,用于确定针对财务数据库的分布式锁的状态,在确定上述分布式锁为授权状态的情况下,从上述财务数据库的多个交易标识中获取第一预设时间段内的第一交易标识集合,上述多个交易标识为第一节点设备从业务数据库中获取的;
获取单元402,用于从上述业务数据库中获取上述第一预设时间段内的第二交易标识集合,对上述第一交易标识集合和上述第二交易标识集合进行差异比对,得到参考交易标识集合;
上述获取单元402,还用于获取上述参考交易标识集合中第一交易标识对应的第一业务信息,上述第一业务信息包括多个业务属性,将上述业务属性输入至目标决策树模型中,得到上述第一交易标识对应的交易类别;
上述确定单元401,还用于在上述交易类别为上述预设交易类别的情况下,根据上述第一业务信息确定第一资源数据,从上述财务数据库中获取上述第一交易标识对应的第一财务信息,并根据上述第一财务信息确定第二资源数据;
上述获取单元402,还用于获取上述第一节点设备的操作日志,并对上述操作日志进行解析,得到上述第一交易标识对应的传输信息,并根据上述第一资源数据和上述传输信息确定上述第一交易标识对应的第三资源数据,在确定上述第二资源数据与上述第三资源数据不相同的情况下,将上述第二资源数据更新为上述第三资源数据。
进一步地,上述确定单元401确定针对财务数据库的分布式锁的状态,具体用于:
加载线程锁,通过上述线程锁授权的第一线程获取上述第一交易标识集合;
在确定无法通过上述第一线程获取上述第一交易标识集合的情况下,确定上述分布式锁为释放状态;
向目标节点设备发送上述分布式锁的授权请求;
接收上述目标节点设备针对上述授权请求发送的授权指令,上述授权指令为上述目标节点设备确定上述分布式锁满足预设授权条件的情况下发送的;
响应于上述授权指令,确定上述分布式锁为授权状态。
进一步地,上述基于决策树模型的数据处理装置400还包括:
接收单元403,用于接收上述目标节点设备针对上述分布式锁的等待指令,上述等待指令为上述目标节点设备确定上述分布式锁的授权列表中包括持有设备的情况下发送的;
发送单元404,用于响应于上述等待指令,向上述目标节点设备发送设备标识信息,以使上述目标节点设备在上述分布式锁的等待队列中添加上述设备标识信息;
其中,上述预设授权条件为上述分布式锁的授权列表中不包括持有设备,且上述设备标识信息在上述等待队列中排在首位;
上述发送单元404,还用于向上述目标节点设备发送上述分布式锁的释放请求,并将上述分布式锁确定为上述释放状态,上述释放请求用于指示上述分布式锁的授权列表中不包括持有设备,并使上述目标节点设备根据上述释放请求删除上述等待队列中的上述设备标识信息。
进一步地,上述获取单元402对上述第一交易标识集合和上述第二交易标识集合进行差异比对,得到参考交易标识集合,具体用于:
对上述第一交易标识集合中各个交易标识按照写入时间从早到晚的顺序进行排序,得到第一排序结果,并对上述第二交易标识集合中各个交易标识按照写入时间从早到晚的顺序进行排序,得到第二排序结果;
将上述第一交易标识集合和上述第一交易标识集合中的交易标识的格式转换为预设信息格式,并按照预设计算方式对转换后的交易标识进行计算,得到所述第一交易标识集合中各个交易标识对应的第一信息值,以及所述第二交易标识集合中各个交易标识对应的第二信息值;
在确定上述第一排序结果中排在目标位置的第一信息值与上述第二排序结果中排在上述目标位置的第二信息值不相等的情况下,将上述第一信息值和上述第二信息值对应的交易标识确定为上述参考交易标识集合中的交易标识。
进一步地,上述获取单元402,还用于获取历史业务信息,上述历史业务信息包括多个业务属性;
上述基于决策树模型的数据处理装置400还包括:
提取单元405,用于从上述历史业务信息中提取业务属性对应的业务特征,并根据上述业务特征构建第一训练样本;
上述确定单元401,还用于在上述第一训练样本对应的历史业务信息属于上述预设交易类别的情况下,确定上述第一训练样本为正样本,在上述第一训练样本对应的历史业务信息不属于上述预设交易类别的情况下,确定上述第一训练样本为负样本;
构建单元406,用于根据至少一个第一训练样本,构建训练样本集,并根据上述训练样本集构建上述目标决策树模型。
进一步地,上述构建单元406根据上述训练样本集构建上述目标决策树模型,具体用于:
确定第一业务特征的正样本个数占总样本个数的第一比例,以及上述第一业务特征的负样本个数占总样本个数的第二比例,上述总样本为上述第一业务特征的训练样本个数,上述第一业务特征为任一业务特征;
根据上述训练样本集中各个第一业务特征的第一比例和第二比例确定上述训练样本集中各个第一业务特征的第一信息熵,并根据上述训练样本集中正样本个数和负样本个数确定上述训练样本集的第二信息熵;
根据上述各个第一业务特征的第一信息熵和上述第二信息熵确定上述第一业务特征的信息增益,并根据上述参考业务特征集合中各个第一业务特征的信息增益构建上述目标决策树模型。
进一步地,传输信息包括上述第一节点设备从上述业务数据库中获取的业务信息以及从补充数据库获取的补充信息,上述补充信息携带信息签名数据;上述业务信息包括上述第一业务信息;上述确定单元401,根据上述第一资源数据和上述传输信息确定上述第一交易标识对应的第三资源数据,具体用于:
获取预设密钥字符串,按照预设信息转化方式将上述补充信息转换为第一字符串,并将上述第一字符串与上述预设密钥字符串进行拼接,得到第二字符串;
按照目标加密算法对上述第二字符串进行运算,得到参考加密数据;
在确定上述参考加密数据与上述信息签名数据相同的情况下,从上述补充信息中获取上述第一交易标识对应的至少一个补充数据,并根据上述至少一个补充数据确定对应的资源数据;
将上述至少一个补充数据对应的资源数据以及上述第一资源数据的和,确定上述第一交易标识对应的第三资源数据。
有关上述确定单元401、获取单元402、接收单元403、发送单元404、提取单元405、构建单元406详细的描述可以直接参考上述图2至图3所示的方法实施例中的相关描述直接得到,这里不加赘述。
本申请实施例中,通过确定财务数据的分布式锁为授权状态的情况下,在获取预设时间段内的第一交易标识集合,该第一交易标识集合为业务系统发送给财务系统的,采用分布式锁的方式进行访问提高共享资源的访问效率,防止在高并发场景下互相干扰。通过从业务数据库获取预设时间段内的第二交易标识集合,并将第一交易标识集合和第二交易标识集合进行差异比对,得到参考交易标识集合。通过从业务数据库中获取的数据与财务数据获取的数据进行比对,能够筛选出业务系统漏发错发的交易标识。通过将参考标识集合中的标识对应的业务信息的业务属性输入至目标决策树模型中,得到该交易标识对应的交易类别。从而通过决策树模型对确定当前交易是否为异常交易类别,从而对交易数据进行进一步的筛选。进而,在不是异常交易类别的情况下,根据业务信息确定第一资源数据,并根据财务信息确定第二资源数据,以及根据第一节点的操作日志进行解析得到的传输信息,确定财务数据库获取到的信息,即财务接收到的交易数据,进而从传输信息中确定第三资源数据,该第三资源数据为真实的数据,若第三资源数据和第二资源数据不一致,确定财务系统核算错误,则用第三资源数据修正第二资源数据,从而无需手动对每一个交易数据进行核对并修改,提高核对效率,进而也能提高核对的准确性。
请参阅图5,图5是本申请实施例提供的一种计算机设备的结构示意图,如图5所示,本申请实施例中的计算机设备500可以包括:
处理器501,收发器502和存储器505,此外,上述计算机设备500还可以包括:用户接口504,和至少一个通信总线503。其中,通信总线503用于实现这些组件之间的连接通信。其中,用户接口504可以包括显示屏(Display)、键盘(Keyboard),存储器505可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器505可选的还可以是至少一个位于远离前述处理器501和前述收发器502的存储装置。如图5所示,作为一种计算机存储介质的存储器505中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图5所示的计算机设备500中,收发器502可提供网络通讯功能,以使间可进行通信;而用户接口504主要用于为用户提供输入的接口;而处理器501可以用于调用存储器505中存储的设备控制应用程序,执行如下操作:
确定针对财务数据库的分布式锁的状态,在确定上述分布式锁为授权状态的情况下,从上述财务数据库的多个交易标识中获取第一预设时间段内的第一交易标识集合,上述多个交易标识为第一节点设备从业务数据库中获取的;
从上述业务数据库中获取上述第一预设时间段内的第二交易标识集合,对上述第一交易标识集合和上述第二交易标识集合进行差异比对,得到参考交易标识集合;
获取上述参考交易标识集合中第一交易标识对应的第一业务信息,上述第一业务信息包括多个业务属性,将上述业务属性输入至目标决策树模型中,得到上述第一交易标识对应的交易类别;
在上述交易类别为上述预设交易类别的情况下,根据上述第一业务信息确定第一资源数据,从上述财务数据库中获取上述第一交易标识对应的第一财务信息,并根据上述第一财务信息确定第二资源数据;
获取上述第一节点设备的操作日志,并对上述操作日志进行解析,得到上述第一交易标识对应的传输信息,并根据上述第一资源数据和上述传输信息确定上述第一交易标识对应的第三资源数据,在确定上述第二资源数据与上述第三资源数据不相同的情况下,将上述第二资源数据更新为上述第三资源数据。
在一种可能的实现方式中,上述处理器501确定针对财务数据库的分布式锁的状态,具体用于执行:
加载线程锁,通过上述线程锁授权的第一线程获取上述第一交易标识集合;
在确定无法通过上述第一线程获取上述第一交易标识集合的情况下,确定上述分布式锁为释放状态;
向目标节点设备发送上述分布式锁的授权请求;
接收上述目标节点设备针对上述授权请求发送的授权指令,上述授权指令为上述目标节点设备确定上述分布式锁满足预设授权条件的情况下发送的;
响应于上述授权指令,确定上述分布式锁为授权状态。
在一种可能的实现方式中,上述处理器501向目标节点设备发送上述分布式锁的授权请求之后,上述处理器501还用于执行如下操作:
接收上述目标节点设备针对上述分布式锁的等待指令,上述等待指令为上述目标节点设备确定上述分布式锁的授权列表中包括持有设备的情况下发送的;
响应于上述等待指令,向上述目标节点设备发送设备标识信息,以使上述目标节点设备在上述分布式锁的等待队列中添加上述设备标识信息;
其中,上述预设授权条件为上述分布式锁的授权列表中不包括持有设备,且上述设备标识信息在上述等待队列中排在首位;
上述将上述第二资源数据更新为上述第三资源数据之后,上述方法还包括:
向上述目标节点设备发送上述分布式锁的释放请求,并将上述分布式锁确定为上述释放状态,上述释放请求用于指示上述分布式锁的授权列表中不包括持有设备,并使上述目标节点设备根据上述释放请求删除上述等待队列中的上述设备标识信息。
在一种可能的实现方式中,上述处理器501对上述第一交易标识集合和上述第二交易标识集合进行差异比对,得到参考交易标识集合,具体用于执行:
对上述第一交易标识集合中各个交易标识按照写入时间从早到晚的顺序进行排序,得到第一排序结果,并对上述第二交易标识集合中各个交易标识按照写入时间从早到晚的顺序进行排序,得到第二排序结果;
将上述第一交易标识集合和上述第一交易标识集合中的交易标识的格式转换为预设信息格式,并按照预设计算方式对转换后的交易标识进行计算,得到所述第一交易标识集合中各个交易标识对应的第一信息值,以及所述第二交易标识集合中各个交易标识对应的第二信息值;
在确定上述第一排序结果中排在目标位置的第一信息值与上述第二排序结果中排在上述目标位置的第二信息值不相等的情况下,将上述第一信息值和上述第二信息值对应的交易标识确定为上述参考交易标识集合中的交易标识。
在一种可能的实现方式中,上述处理器501将上述业务属性输入至预训练的决策树模型中,得到上述第一交易标识对应的交易类别之前,上述处理器501还用于执行如下操作:
获取历史业务信息,上述历史业务信息包括多个业务属性;
从上述历史业务信息中提取业务属性对应的业务特征,并根据上述业务特征构建第一训练样本;
在上述第一训练样本对应的历史业务信息属于上述预设交易类别的情况下,确定上述第一训练样本为正样本,在上述第一训练样本对应的历史业务信息不属于上述预设交易类别的情况下,确定上述第一训练样本为负样本;
根据至少一个第一训练样本,构建训练样本集,并根据上述训练样本集构建上述目标决策树模型。
在一种可能的实现方式中,上述处理器501根据上述训练样本集构建上述目标决策树模型,具体用于执行:
确定第一业务特征的正样本个数占总样本个数的第一比例,以及上述第一业务特征的负样本个数占总样本个数的第二比例,上述总样本为上述第一业务特征的训练样本个数,上述第一业务特征为任一业务特征;
根据上述训练样本集中各个第一业务特征的第一比例和第二比例确定上述训练样本集中各个第一业务特征的第一信息熵,并根据上述训练样本集中正样本个数和负样本个数确定上述训练样本集的第二信息熵;
根据上述各个第一业务特征的第一信息熵和上述第二信息熵确定上述第一业务特征的信息增益,并根据上述参考业务特征集合中各个第一业务特征的信息增益构建上述目标决策树模型。
在一种可能的实现方式中,上述传输信息包括上述第一节点设备从上述业务数据库中获取的业务信息以及从补充数据库获取的补充信息,上述补充信息携带信息签名数据;上述业务信息包括上述第一业务信息;上述处理器501根据上述第一资源数据和上述传输信息确定上述第一交易标识对应的第三资源数据,具体用于执行:
获取预设密钥字符串,按照预设信息转化方式将上述补充信息转换为第一字符串,并将上述第一字符串与上述预设密钥字符串进行拼接,得到第二字符串;
按照目标加密算法对上述第二字符串进行运算,得到参考加密数据;
在确定上述参考加密数据与上述信息签名数据相同的情况下,从上述补充信息中获取上述第一交易标识对应的至少一个补充数据,并根据上述至少一个补充数据确定对应的资源数据;
将上述至少一个补充数据对应的资源数据以及上述第一资源数据的和,确定上述第一交易标识对应的第三资源数据。
应当理解,在一些可行的实施方式中,上述处理器501可以是中央处理单元(central processing unit,CPU),该处理器501还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integratedcircuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器505可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器505的一部分还可以包括非易失性随机存取存储器。
具体实现中,上述计算机设备500可通过其内置的各个功能模块执行如上述图2和图3中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
本申请实施例中,通过确定财务数据的分布式锁为授权状态的情况下,在获取预设时间段内的第一交易标识集合,该第一交易标识集合为业务系统发送给财务系统的,采用分布式锁的方式进行访问提高共享资源的访问效率,防止在高并发场景下互相干扰。通过从业务数据库获取预设时间段内的第二交易标识集合,并将第一交易标识集合和第二交易标识集合进行差异比对,得到参考交易标识集合。通过从业务数据库中获取的数据与财务数据获取的数据进行比对,能够筛选出业务系统漏发错发的交易标识。通过将参考标识集合中的标识对应的业务信息的业务属性输入至目标决策树模型中,得到该交易标识对应的交易类别。从而通过决策树模型对确定当前交易是否为异常交易类别,从而对交易数据进行进一步的筛选。进而,在不是异常交易类别的情况下,根据业务信息确定第一资源数据,并根据财务信息确定第二资源数据,以及根据第一节点的操作日志进行解析得到的传输信息,确定财务数据库获取到的信息,即财务接收到的交易数据,进而从传输信息中确定第三资源数据,该第三资源数据为真实的数据,若第三资源数据和第二资源数据不一致,确定财务系统核算错误,则用第三资源数据修正第二资源数据,从而无需手动对每一个交易数据进行核对并修改,提高核对效率,进而也能提高核对的准确性。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且上述计算机可读存储介质中存储有前文提及的计算机设备所执行的计算机程序,且上述计算机程序包括程序指令,当上述处理器执行上述程序指令时,能够执行前文图2或图3任一个所对应实施例中的对任一方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本申请实施例还提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法实施例上述的内存的清理方法。
本申请实施例还提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述内存的清理方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序指令相关的硬件来完成,上述的程序可存储于一计算机可读存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,ROM)或随机存储记忆体(random accessmemory,RAM)等。
需要强调的是,为进一步保证上述数据的私密和安全性,上述数据还可以存储于一区块链的节点中。其中,本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (10)
1.一种基于决策树模型的数据处理方法,其特征在于,包括:
确定针对财务数据库的分布式锁的状态,在确定所述分布式锁为授权状态的情况下,从所述财务数据库的多个交易标识中获取第一预设时间段内的第一交易标识集合,所述多个交易标识为第一节点设备从业务数据库中获取的;
从所述业务数据库中获取所述第一预设时间段内的第二交易标识集合,对所述第一交易标识集合和所述第二交易标识集合进行差异比对,得到参考交易标识集合;
获取所述参考交易标识集合中第一交易标识对应的第一业务信息,所述第一业务信息包括多个业务属性,将所述业务属性输入至目标决策树模型中,得到所述第一交易标识对应的交易类别;
在所述交易类别为所述预设交易类别的情况下,根据所述第一业务信息确定第一资源数据,从所述财务数据库中获取所述第一交易标识对应的第一财务信息,并根据所述第一财务信息确定第二资源数据;
获取所述第一节点设备的操作日志,并对所述操作日志进行解析,得到所述第一交易标识对应的传输信息,并根据所述第一资源数据和所述传输信息确定所述第一交易标识对应的第三资源数据,在确定所述第二资源数据与所述第三资源数据不相同的情况下,将所述第二资源数据更新为所述第三资源数据。
2.根据权利要求1所述的方法,其特征在于,所述确定针对财务数据库的分布式锁的状态,包括:
加载线程锁,通过所述线程锁授权的第一线程获取所述第一交易标识集合;
在确定无法通过所述第一线程获取所述第一交易标识集合的情况下,确定所述分布式锁为释放状态;
向目标节点设备发送所述分布式锁的授权请求;
接收所述目标节点设备针对所述授权请求发送的授权指令,所述授权指令为所述目标节点设备确定所述分布式锁满足预设授权条件的情况下发送的;
响应于所述授权指令,确定所述分布式锁为授权状态。
3.根据权利要求2所述的方法,其特征在于,所述向目标节点设备发送所述分布式锁的授权请求之后,所述方法还包括:
接收所述目标节点设备针对所述分布式锁的等待指令,所述等待指令为所述目标节点设备确定所述分布式锁的授权列表中包括持有设备的情况下发送的;
响应于所述等待指令,向所述目标节点设备发送设备标识信息,以使所述目标节点设备在所述分布式锁的等待队列中添加所述设备标识信息;
其中,所述预设授权条件为所述分布式锁的授权列表中不包括持有设备,且所述设备标识信息在所述等待队列中排在首位;
所述将所述第二资源数据更新为所述第三资源数据之后,所述方法还包括:
向所述目标节点设备发送所述分布式锁的释放请求,并将所述分布式锁确定为所述释放状态,所述释放请求用于指示所述分布式锁的授权列表中不包括持有设备,并使所述目标节点设备根据所述释放请求删除所述等待队列中的所述设备标识信息。
4.根据权利要求1所述的方法,其特征在于,所述对所述第一交易标识集合和所述第二交易标识集合进行差异比对,得到参考交易标识集合,包括:
对所述第一交易标识集合中各个交易标识按照写入时间从早到晚的顺序进行排序,得到第一排序结果,并对所述第二交易标识集合中各个交易标识按照写入时间从早到晚的顺序进行排序,得到第二排序结果;
将所述第一交易标识集合和所述第一交易标识集合中的交易标识的格式转换为预设信息格式,并按照预设计算方式对转换后的交易标识进行计算,得到所述第一交易标识集合中各个交易标识对应的第一信息值,以及所述第二交易标识集合中各个交易标识对应的第二信息值;
在确定所述第一排序结果中排在目标位置的第一信息值与所述第二排序结果中排在所述目标位置的第二信息值不相等的情况下,将所述第一信息值和所述第二信息值对应的交易标识确定为所述参考交易标识集合中的交易标识。
5.根据权利要求1所述的方法,其特征在于,所述将所述业务属性输入至预训练的决策树模型中,得到所述第一交易标识对应的交易类别之前,所述方法还包括:
获取历史业务信息,所述历史业务信息包括多个业务属性;
从所述历史业务信息中提取业务属性对应的业务特征,并根据所述业务特征构建第一训练样本;
在所述第一训练样本对应的历史业务信息属于所述预设交易类别的情况下,确定所述第一训练样本为正样本,在所述第一训练样本对应的历史业务信息不属于所述预设交易类别的情况下,确定所述第一训练样本为负样本;
根据至少一个第一训练样本,构建训练样本集,并根据所述训练样本集构建所述目标决策树模型。
6.根据权利要求5所述的方法,其特征在于,所述根据所述训练样本集构建所述目标决策树模型,包括:
确定第一业务特征的正样本个数占总样本个数的第一比例,以及所述第一业务特征的负样本个数占总样本个数的第二比例,所述总样本为所述第一业务特征的训练样本个数,所述第一业务特征为任一业务特征;
根据所述训练样本集中各个第一业务特征的第一比例和第二比例确定所述训练样本集中各个第一业务特征的第一信息熵,并根据所述训练样本集中正样本个数和负样本个数确定所述训练样本集的第二信息熵;
根据所述各个第一业务特征的第一信息熵和所述第二信息熵确定所述第一业务特征的信息增益,并根据所述参考业务特征集合中各个第一业务特征的信息增益构建所述目标决策树模型。
7.根据权利要求1所述的方法,其特征在于,所述传输信息包括所述第一节点设备从所述业务数据库中获取的业务信息以及从补充数据库获取的补充信息,所述补充信息携带信息签名数据;所述业务信息包括所述第一业务信息;所述根据所述第一资源数据和所述传输信息确定所述第一交易标识对应的第三资源数据,包括:
获取预设密钥字符串,按照预设信息转化方式将所述补充信息转换为第一字符串,并将所述第一字符串与所述预设密钥字符串进行拼接,得到第二字符串;
按照目标加密算法对所述第二字符串进行运算,得到参考加密数据;
在确定所述参考加密数据与所述信息签名数据相同的情况下,从所述补充信息中获取所述第一交易标识对应的至少一个补充数据,并根据所述至少一个补充数据确定对应的资源数据;
将所述至少一个补充数据对应的资源数据以及所述第一资源数据的和,确定所述第一交易标识对应的第三资源数据。
8.一种基于决策树模型的数据处理装置,其特征在于,包括:
确定单元,用于确定针对财务数据库的分布式锁的状态,在确定所述分布式锁为授权状态的情况下,从所述财务数据库的多个交易标识中获取第一预设时间段内的第一交易标识集合,所述多个交易标识为第一节点设备从业务数据库中获取的;
获取单元,用于从所述业务数据库中获取所述第一预设时间段内的第二交易标识集合,对所述第一交易标识集合和所述第二交易标识集合进行差异比对,得到参考交易标识集合;
所述获取单元,还用于获取所述参考交易标识集合中第一交易标识对应的第一业务信息,所述第一业务信息包括多个业务属性,将所述业务属性输入至目标决策树模型中,得到所述第一交易标识对应的交易类别;
所述确定单元,还用于在所述交易类别为所述预设交易类别的情况下,根据所述第一业务信息确定第一资源数据,从所述财务数据库中获取所述第一交易标识对应的第一财务信息,并根据所述第一财务信息确定第二资源数据;
所述获取单元,还用于获取所述第一节点设备的操作日志,并对所述操作日志进行解析,得到所述第一交易标识对应的传输信息,并根据所述第一资源数据和所述传输信息确定所述第一交易标识对应的第三资源数据,在确定所述第二资源数据与所述第三资源数据不相同的情况下,将所述第二资源数据更新为所述第三资源数据。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111526833.8A CN114219596B (zh) | 2021-12-14 | 2021-12-14 | 一种基于决策树模型的数据处理方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111526833.8A CN114219596B (zh) | 2021-12-14 | 2021-12-14 | 一种基于决策树模型的数据处理方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114219596A true CN114219596A (zh) | 2022-03-22 |
CN114219596B CN114219596B (zh) | 2024-04-12 |
Family
ID=80701836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111526833.8A Active CN114219596B (zh) | 2021-12-14 | 2021-12-14 | 一种基于决策树模型的数据处理方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114219596B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115860768A (zh) * | 2023-02-16 | 2023-03-28 | 浙江天演维真网络科技股份有限公司 | 一种基于区块链的溯源方法、装置及其电子设备 |
CN116501434A (zh) * | 2023-06-25 | 2023-07-28 | 梅州客商银行股份有限公司 | 一种基于决策树的手机银行主题自动切换方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156809A (zh) * | 2015-04-24 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 用于更新分类模型的方法及装置 |
CN108876166A (zh) * | 2018-06-27 | 2018-11-23 | 平安科技(深圳)有限公司 | 财务风险验证处理方法、装置、计算机设备及存储介质 |
CN109376995A (zh) * | 2018-09-18 | 2019-02-22 | 平安科技(深圳)有限公司 | 财务数据评分方法、装置、计算机设备和存储介质 |
CN112181767A (zh) * | 2020-09-27 | 2021-01-05 | 深圳前海微众银行股份有限公司 | 软件系统异常的确定方法、装置和存储介质 |
CN112749749A (zh) * | 2021-01-14 | 2021-05-04 | 深圳前海微众银行股份有限公司 | 基于分类决策树模型的分类方法、装置及电子设备 |
CN113220777A (zh) * | 2021-03-12 | 2021-08-06 | 中国平安财产保险股份有限公司 | 业务数据处理方法、装置、计算机设备及存储介质 |
-
2021
- 2021-12-14 CN CN202111526833.8A patent/CN114219596B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156809A (zh) * | 2015-04-24 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 用于更新分类模型的方法及装置 |
CN108876166A (zh) * | 2018-06-27 | 2018-11-23 | 平安科技(深圳)有限公司 | 财务风险验证处理方法、装置、计算机设备及存储介质 |
CN109376995A (zh) * | 2018-09-18 | 2019-02-22 | 平安科技(深圳)有限公司 | 财务数据评分方法、装置、计算机设备和存储介质 |
CN112181767A (zh) * | 2020-09-27 | 2021-01-05 | 深圳前海微众银行股份有限公司 | 软件系统异常的确定方法、装置和存储介质 |
CN112749749A (zh) * | 2021-01-14 | 2021-05-04 | 深圳前海微众银行股份有限公司 | 基于分类决策树模型的分类方法、装置及电子设备 |
CN113220777A (zh) * | 2021-03-12 | 2021-08-06 | 中国平安财产保险股份有限公司 | 业务数据处理方法、装置、计算机设备及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115860768A (zh) * | 2023-02-16 | 2023-03-28 | 浙江天演维真网络科技股份有限公司 | 一种基于区块链的溯源方法、装置及其电子设备 |
CN115860768B (zh) * | 2023-02-16 | 2023-06-02 | 浙江天演维真网络科技股份有限公司 | 一种基于区块链的溯源方法、装置及其电子设备 |
CN116501434A (zh) * | 2023-06-25 | 2023-07-28 | 梅州客商银行股份有限公司 | 一种基于决策树的手机银行主题自动切换方法及系统 |
CN116501434B (zh) * | 2023-06-25 | 2023-12-19 | 梅州客商银行股份有限公司 | 一种基于决策树的手机银行主题自动切换方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114219596B (zh) | 2024-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11853724B2 (en) | Graph outcome determination in domain-specific execution environment | |
CN104391934B (zh) | 数据校验方法和装置 | |
US20240070487A1 (en) | Systems and methods for enriching modeling tools and infrastructure with semantics | |
US20210073282A1 (en) | Graph-manipulation based domain-specific execution environment | |
US10769228B2 (en) | Systems and methods for web analytics testing and web development | |
CN108764674B (zh) | 一种基于规则引擎的风险控制方法和装置 | |
US20180268491A1 (en) | Cognitive regulatory compliance automation of blockchain transactions | |
US8645907B2 (en) | Capturing effort level by task upon check-in to source control management system | |
CN107862425B (zh) | 风控数据采集方法、设备、系统及可读存储介质 | |
CN110309058A (zh) | 业务端测试方法、装置、计算机装置及计算机存储介质 | |
WO2021012904A1 (zh) | 一种数据更新方法及相关设备 | |
CN114219596B (zh) | 一种基于决策树模型的数据处理方法及相关设备 | |
US9691065B2 (en) | Automated transactions clearing system and method | |
CN113268336A (zh) | 一种服务的获取方法、装置、设备以及可读介质 | |
WO2020261074A1 (es) | Sistema y método para la aprobación y desembolso de un crédito | |
WO2021114627A1 (zh) | 基于分布式事务的数据处理方法、装置、终端及存储介质 | |
CN112948275A (zh) | 测试数据生成方法、装置、设备及存储介质 | |
CN115840738A (zh) | 一种数据迁移方法、装置、电子设备及存储介质 | |
CN110489434B (zh) | 一种信息处理方法及相关设备 | |
CN116881898A (zh) | 权限变更方法、系统、装置及存储介质 | |
CN115271933B (zh) | 贷款决策方法及装置、决策设备及计算机可读存储介质 | |
JP5206268B2 (ja) | ルール作成プログラム、ルール作成方法及びルール作成装置 | |
CN111242779A (zh) | 金融数据特征选择和预测方法、装置、设备及存储介质 | |
WO2023035526A1 (zh) | 对象排序方法、相关设备及介质 | |
CN115577983A (zh) | 基于区块链的企业任务匹配方法、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |