CN111882415A - 一种质量检测模型的训练方法和相关装置 - Google Patents
一种质量检测模型的训练方法和相关装置 Download PDFInfo
- Publication number
- CN111882415A CN111882415A CN202010720352.XA CN202010720352A CN111882415A CN 111882415 A CN111882415 A CN 111882415A CN 202010720352 A CN202010720352 A CN 202010720352A CN 111882415 A CN111882415 A CN 111882415A
- Authority
- CN
- China
- Prior art keywords
- financial data
- initial
- field
- data
- financial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 72
- 238000012549 training Methods 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000013507 mapping Methods 0.000 claims abstract description 18
- 230000002159 abnormal effect Effects 0.000 claims description 68
- 238000012545 processing Methods 0.000 claims description 27
- 238000004891 communication Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 4
- 230000002547 anomalous effect Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000013473 artificial intelligence Methods 0.000 abstract 1
- 239000013598 vector Substances 0.000 description 12
- 238000010586 diagram Methods 0.000 description 6
- 238000007689 inspection Methods 0.000 description 5
- 238000004904 shortening Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/125—Finance or payroll
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本申请涉及区块链技术以及人工智能中的检测模型技术,公开了一种质量检测模型的训练方法和相关装置,该方法包括:获取第一财务数据集,所述第一财务数据集包括多个第一字段对应的M条第一财务数据;针对所述第一财务数据集,确定多个第一字段中每个第一字段关联的多条第一财务数据中的最大值和最小值;根据每个第一字段关联的多条第一财务数据中的最大值和最小值,将每个第一字段关联的多条第一财务数据分别映射到预设区间,得到第二财务数据集;采用所述第二财务数据集训练质量检测模型。实施本申请实施例,减短了质量检测模型的训练周期,降低了训练复杂度。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种质量检测模型的训练方法和相关装置。
背景技术
随着新兴技术的高速发展,人们开始利用深度学习、神经网络等实现对财务数据的质量检测,进而分析出不真实的财务数据。比如,通过质量检测模型实现对财务数据的质量检测。一般来说,在通过质量检测模型实现对财务数据的质量检测之前,需要进行质量检测模型的训练。在现有技术中,在训练质量检测模型时,往往会直接采用大量的财务数据。由于用于训练质量检测模型的财务数据的数值过大,导致质量检测模型的训练周期长,训练复杂度高。
发明内容
本申请实施例提供了一种质量检测模型的训练方法和相关装置,实施本申请实施例,减短了质量检测模型的训练周期,降低了训练复杂度。
本申请第一方面提供了一种质量检测模型的训练方法,包括:
获取第一财务数据集,所述第一财务数据集包括多个第一字段对应的M条第一财务数据,所述多个第一字段包括第一字段A和第一字段B,所述第一字段A关联X条第一财务数据,所述第一字段B关联Y条第一财务数据,M=X+Y,其中,所述M、所述X、所述Y均为大于1的整数;
针对所述第一财务数据集,确定所述多个第一字段中每个第一字段关联的多条第一财务数据中的最大值和最小值;
根据所述每个第一字段关联的多条第一财务数据中的最大值和最小值,将所述每个第一字段关联的多条第一财务数据分别映射到预设区间,得到第二财务数据集;
采用所述第二财务数据集训练质量检测模型。
本申请第二方面提供了一种质量检测模型的训练装置,所述装置包括获取模块和处理模块,
所述获取模块,用于获取第一财务数据集,所述第一财务数据集包括多个第一字段对应的M条第一财务数据,所述多个第一字段包括第一字段A和第一字段B,所述第一字段A关联X条第一财务数据,所述第一字段B关联Y条第一财务数据,M=X+Y,其中,所述M、所述X、所述Y均为大于1的整数;
所述处理模块,用于针对所述第一财务数据集,确定所述多个第一字段中每个第一字段关联的多条第一财务数据中的最大值和最小值;根据所述每个第一字段关联的多条第一财务数据中的最大值和最小值,将所述每个第一字段关联的多条第一财务数据分别映射到预设区间,得到第二财务数据集;采用所述第二财务数据集训练质量检测模型。
本申请第三方面提供了一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被生成由所述处理器执行,以执行一种质量检测模型的训练方法任一项方法中的步骤的指令。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述存储计算机程序被所述处理器执行,以实现一种质量检测模型的训练方法任一项所述的方法。
可以看出,上述技术方案中,通过将用于训练质量检测模型的数据映射到预设区间,缩小了用于训练质量检测模型的数据的大小,从而减短了质量检测模型的训练周期,降低了训练复杂度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1是本申请实施例提供的一种质量检测模型的训练系统的示意图;
图2为本申请实施例提供的一种质量检测模型的训练方法的流程示意图;
图3为本申请实施例提供的又一种质量检测模型的训练方法的流程示意图;
图4为本申请实施例提供的一种的字段类型确定流程示意图;
图5为本申请实施例提供的又一种质量检测模型的训练方法的流程示意图;
图6为本申请实施例提供的又一种质量检测模型的训练方法的流程示意图;
图7为本申请实施例提供的一种质量检测模型的训练装置的示意图;
图8为本申请的实施例涉及的硬件运行环境的电子设备结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下分别进行详细说明。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,参见图1,图1是本申请实施例提供的一种质量检测模型的训练系统的示意图,该质量检测模型的训练系统100包括质量检测模型的训练装置110。该质量检测模型的训练装置110用于处理、存储第一财务数据集。该质量检测模型的训练系统100可以包括集成式单体设备或者多设备,为方便描述,本申请将质量检测模型的训练系统100统称为电子设备。显然该电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(UserEquipment,UE),移动台(Mobile Station,MS),终端设备(terminal device)等等。
结合图1,本申请实施例提出一种质量检测模型的训练方法,下面对本申请实施例进行详细介绍。
参见图2,图2为本申请实施例提供的一种质量检测模型的训练方法的流程示意图。该质量检测模型的训练方法可以应用于电子设备,如图2所示,所述方法包括:
201、获取第一财务数据集,所述第一财务数据集包括多个第一字段对应的M条第一财务数据,所述多个第一字段包括第一字段A和第一字段B,所述第一字段A关联X条第一财务数据,所述第一字段B关联Y条第一财务数据,M=X+Y,其中,所述M、所述X、所述Y均为大于1的整数。
其中,第一字段例如可以为财报方面的字段。具体的,第一字段例如可以包括3年内净利润同比增长率、3年内营业收入、5年内利息净收入、3年内净利润三年平均值等,在此不做限定。
其中,第一财务数据例如可以包括:3年内净利润同比增长率、3年内营业收入、5年内利息净收入、3年内净利润三年平均值等,在此不做限定。
举例来说,参见表1,表1为本申请实施例提供的一种第一财务数据集,如表1所示。
表1
可以看出,表1中,一个第一字段为3年内营业收入,一个第一字段为3年内利息净收入,一个第一字段为3年内净利润三年平均值。进一步的,第一字段为3年内营业收入,其对应的第一财务数据包括100000、120000等。第一字段为3年内利息净收入,其对应的第一财务数据包括10000、80000等。第一字段为3年内净利润三年平均值,其对应的第一财务数据包括9000、11000等。
其中,X可以等于Y,也可以不等于Y,具体不做限制。进一步的,所述第一字段A和所述第一字段B为所述多个第一字段中两个不同的字段。
202、针对所述第一财务数据集,确定所述多个第一字段中每个第一字段关联的多条第一财务数据中的最大值和最小值。
结合表1,比如,3年内营业收入这个字段中,120000是该字段关联的多条财务数据中的最大值,100000是该字段关联的多条财务数据中的最小值。
203、根据所述每个第一字段关联的多条第一财务数据中的最大值和最小值,将所述每个第一字段关联的多条第一财务数据分别映射到预设区间,得到第二财务数据集。
其中,预设区间为[-1,1]。进一步的,所述预设区间包括第一预设端点和第二预设端点。可以理解的,第一预设端点为-1,第二预设端点为1。
其中,所述第二财务数据集包括多个第三字段中每个第三字段关联的多条第二财务数据。可以理解的,多个第三字段与多个第一字段相同。
可选的,第二字段为所述多个第一字段中的任意一个字段,所述第二字段关联多条第二财务数据,所述根据所述每个第一字段关联的多条第一财务数据中的最大值和最小值,将所述每个第一字段关联的多条第一财务数据分别映射到预设区间,得到第二财务数据集,包括:
针对第三财务数据,将所述第二预设端点确定为所述第二财务数据集中所述第三财务数据映射到所述预设区间后的数据,所述第三财务数据为所述多条第二财务数据中的最大值;
针对第四财务数据,将所述第一预设端点确定为所述第二财务数据集中所述第四财务数据映射到所述预设区间后的数据,所述第四财务数据为所述多条第二财务数据中的最小值;
针对所述多条第二财务数据中除所述第三财务数据以及所述第四财务数据之外的其他财务数据,根据所述其他财务数据与所述第三财务数据之间的差值,将所述其他财务数据映射到预设区间,得到所述第二财务数据集中所述其他财务数据映射到所述预设区间后的数据;或,根据所述其他财务数据与所述第四财务数据之间的差值,将所述其他财务数据映射到预设区间,得到所述第二财务数据集中所述其他财务数据映射到所述预设区间后的数据。
可以看出,上述技术方案中,通过将用于训练质量检测模型的数据映射到预设区间,缩小了用于训练质量检测模型的数据的大小,从而减短了质量检测模型的训练周期,降低了训练复杂度。
204、采用所述第二财务数据集训练质量检测模型。
可以看出,上述技术方案中,通过将用于训练质量检测模型的数据映射到预设区间,缩小了用于训练质量检测模型的数据的大小,从而减短了质量检测模型的训练周期,降低了训练复杂度。
可选的,在所述采用所述第二财务数据集训练质量检测模型之后,所述方法还包括:针对所述第二财务数据集,将多个第三字段中每个第三字段关联的多条第二财务数据向量化,得到多个向量;将所述多个向量中每两个向量输入预设公式,并确定输入所述预设公式后的结果;根据所述输入所述预设公式后的结果,更新所述质量检测模型。
举例来说,所述多个向量包括第一向量、第二向量、第三向量。将所述多个向量中每两个向量输入预设公式,可以得到:
进一步的,输入所述预设公式后的结果为:V12+V13+V23。
可以看出,上述技术方案中,实现了质量检测模型的更新。
参见图3,图3为本申请实施例提供的又一种质量检测模型的训练方法的流程示意图。该质量检测模型的训练方法可以应用于电子设备,其中,如图3所示,所述获取第一财务数据集,包括:
301、从至少一条区块链上获取初始财务数据集,所述初始财务数据集包括多个初始字段对应的N条初始财务数据,所述多个初始字段包括初始字段A和初始字段B,所述初始字段A关联S条初始财务数据,所述初始字段B关联T条初始财务数据,N=S+T,其中,所述N、所述S、所述T均为大于1的整数。
其中,区块链是一种按照时间顺序将数据区块相连的一种链式数据结构,并以密码学方式保证的不可篡改和不可伪造的分布式账本。该区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
进一步的,区块链的特性有开放、共识、去中心、去信任、透明、双方匿名、不可篡改以及可追溯等。其中,开放与透明意为任何人都可以参与到区块链网络,每一台设备都能作为一个节点,每个节点都允许获得一份完整的数据库拷贝。节点基于一套共识机制,通过竞争计算共同维护整个区块链。任一节点失效,其余节点仍能正常工作。其中,去中心化与去信任意为区块链由众多节点共同组成一个端到端的网络,不存在中心化的设备和管理机构。节点之间数据交换通过数字签名技术进行验证,无需互相信任,只要按照系统既定的规则进行,节点之间不能也无法欺骗其他节点。其中,透明与双方匿名意为区块链的运行规则是公开的,所有的数据信息也是公开的,因此每一笔交易都对所有节点可见。由于节点与节点之间是去信任的,因此节点之间无需公开身份,每个参与的节点都是匿名的。其中,不可篡改和可追溯意为每个甚至多个节点对数据库的修改无法影响其他节点的数据库,除非能控制整个网络中超过51%的节点同时修改,这是几乎不可能发生的。区块链中的,每一笔交易都通过密码学方法与相邻两个区块串联,因此可以追溯到任何一笔交易记录。
具体的,区块链可以利用块链式数据结构来验证与存储数据、利用分布式节点共识算法来生成和更新数据、利用密码学的方式保证数据传输和访问的安全、利用由自动化脚本代码组成的智能合约来编程和操作数据的一种全新的分布式基础架构与计算方式。因此,区块链技术不可篡改的特性从根本上改变了中心化的信用创建方式,有效提高了数据的不可更改性以及安全性。其中,由于智能合约使得所有的条款编写为程序,这些条款可在区块链上自动执行,保证了当存在触发智能合约的条件时,区块链能强制根据智能合约中的内容执行,且不受任何外力阻挡,从而保证了合约的有效性和执行力,不仅能够大大降低成本,也能提高效率。区块链上的各个节点都有相同的账本,能够确保账本记录过程是公开透明的。区块链技术可以实现了一种点对点的、公开透明的直接交互,使得高效率、大规模、无中心化代理的信息交互方式成为了现实。
其中,初始字段例如可以包括财报方面的字段。具体的,初始字段例如可以包括3年内净利润同比增长率、3年内营业收入、5年内利息净收入、3年内净利润三年平均值等,在此不做限定。
其中,初始财务数据例如可以包括:3年内净利润同比增长率、3年内营业收入、5年内利息净收入、3年内净利润三年平均值等,在此不做限定。
其中,S可以等于T,也可以不等于T,在此不做限制。进一步的,所述初始字段A和所述初始字段B为所述多个初始字段中两个不同的字段。
302、获取所述多个初始字段中每个初始字段对应的阈值。
其中,所述获取所述多个初始字段中每个初始字段对应的阈值,包括:在检测到针对阈值设置界面阈值设置操作时,根据所述阈值设置操作,从所述阈值设置界面上获取所述多个初始字段中每个初始字段对应的阈值。
需要说明的,该阈值设置界面可以包括多个输入框,多个输入框与多个初始字段一一对应,用户可以在多个输入框中输入多个初始字段中每个初始字段对应的阈值。进一步的,在检测到针对阈值设置界面阈值设置操作时,根据所述阈值设置操作,从所述多个输入框上获取所述多个初始字段中每个初始字段对应的阈值。当然,该阈值设置界面也可以包括一个输入框,用户可以在一个输入框中输入多个初始字段中每个初始字段对应的阈值。进一步的,在检测到针对阈值设置界面阈值设置操作时,根据所述阈值设置操作,从所述一个输入框上获取所述多个初始字段中每个初始字段对应的阈值。
另外,所述多个初始字段中每个初始字段对应的阈值互不相同。
303、根据所述多个初始字段中每个初始字段对应的阈值,检测每个初始字段关联的多条初始财务数据中是否存在异常数据。
其中,若是,则执行步骤304;若否,则执行步骤305。
可以理解的,第一初始字段为所述多个初始字段中的任意一个字段,所述第一初始字段关联多条第一初始财务数据,所述根据所述多个初始字段中每个初始字段对应的阈值,检测每个初始字段关联的多条初始财务数据中是否存在异常数据,包括:确定所述多条第一初始财务数据中是否存在高于第一初始字段对应的阈值的数据。进一步的,所述多条第一初始财务数据中的异常数据为所述多条第一初始财务数据中高于第一初始字段对应的阈值的数据。
304、更新每个初始字段关联的多条初始财务数据中的异常数据,并将更新后的初始财务数据集确定为所述第一财务数据集。
可选的,在一种可能的实施方式中,所述更新每个初始字段关联的多条初始财务数据中的异常数据,包括:确定所述第一初始字段所属的字段类型;根据所述第一初始字段所属的字段类型,确定所述第一初始字段对应的数据更新策略,所述数据更新策略包括以下任意一种:平均值、加权平均值、方差和中位数;按照所述数据更新策略,更新所述多条第一初始财务数据中的异常数据。
其中,所述确定所述第一初始字段所属的字段类型,包括:获取预设字段集;从所述预设字段集中获取与所述第一初始字段匹配的第一预设字段;确定所述第一预设字段所属的预设字段类型;将所述第一预设字段所属的预设字段类型确定为所述第一初始字段所属的字段类型。
其中,预设字段集包括多个预设字段,多个预设字段中的每个预设字段均有所属的预设字段类型。其中,预设字段集可以从数据库中获取。
举例来说,参见图4,图4为本申请实施例提供的一种的字段类型确定流程示意图。如图4所示,数据库40包括预设字段集41,预设字段集41包括多个预设字段。具体的,多个预设字段为预设字段1至预设字段n。进一步的,先从所述预设字段集中获取与所述第一初始字段匹配的第一预设字段,再确定所述第一预设字段所属的预设字段类型,最后将所述第一预设字段所属的预设字段类型确定为所述第一初始字段所属的字段类型。
可以看出,上述方案中,实现了异常数据的更新,避免了采用异常数据训练质量检测模型,从而避免了为后续应用时质量检测模型无法准确识别财报质量的问题。
305、将所述初始财务数据集确定为所述第一财务数据集。
可以看出,上述技术方案中,实现第一财务数据集的确定。同时,为后续质量检测模型的训练提供更加可靠、科学的训练数据做准备。
参见图5,图5为本申请实施例提供的又一种质量检测模型的训练方法的流程示意图。该质量检测模型的训练方法可以应用于电子设备,其中,如图5所示,第一异常数据为所述多条第一初始财务数据中的异常数据中的任意一个数据,所述按照所述数据更新策略,更新所述多条第一初始财务数据中的异常数据,包括:
501、确定所述第一异常数据对应的第一初始财务数据所属的企业。
其中,所述确定所述第一异常数据对应的第一初始财务数据所属的企业,包括:获取所述多条第一初始财务数据一一对应的多个企业标签;根据所述多个企业标签,确定所述第一异常数据对应的第一初始财务数据所属的企业。
502、获取所述企业在预设时间内所有的初始财务数据,得到第二初始财务数据集,所述第二初始财务数据集与所述第一初始字段关联。
其中,该预设时间可以由管理员配置,也可以配置在电子设备中。
举例来说,可以获取该企业在10年内所有的初始财务数据。
503、采用所述第一初始字段对应的阈值,检测所述第二初始财务数据集中是否存在异常数据。
若是,则执行步骤504;若否,则执行步骤505。
可以理解的,所述采用所述第一初始字段对应的阈值,检测所述第二初始财务数据集中是否存在异常数据,包括:确定所述第二初始财务数据集中是否存在高于所述第一初始字段对应的阈值的数据。进一步的,所述第二初始财务数据集中的异常数据为所述第二初始财务数据集中高于所述第一初始字段对应的阈值的数据。
504、根据所述数据更新策略,对所述第二初始财务数据集中除所述第二初始财务数据集对应的异常数据之外的其他数据进行处理,得到第三初始财务数据,将所述第一异常数据更新为所述第三初始财务数据。
505、根据所述数据更新策略对所述第二初始财务数据集进行处理,并将所述第一异常数据更新为处理后的第二初始财务数据集。
可以看出,上述技术方案中,实现了异常数据的更新,避免了采用异常数据训练质量检测模型,从而避免了为后续应用时质量检测模型无法准确识别财报质量的问题。
参见图6,图6为本申请实施例提供的又一种质量检测模型的训练方法的流程示意图。该质量检测模型的训练方法可以应用于电子设备,其中,如图6所示,第一异常数据为所述多条第一初始财务数据中的异常数据中的任意一个数据,所述按照所述数据更新策略,更新所述多条第一初始财务数据中的异常数据,包括:
601、确定所述第一异常数据对应的第一初始财务数据所属的企业。
其中,所述确定所述第一异常数据对应的第一初始财务数据所属的企业,包括:获取所述多条第一初始财务数据一一对应的多个企业标签;根据所述多个企业标签,确定所述第一异常数据对应的第一初始财务数据所属的企业。
602、确定所述企业关联的其他企业。
603、获取所述其他企业中的任意一个企业在预设时间内所有的初始财务数据,得到第四初始财务数据集,所述第四初始财务数据集与所述第一初始字段关联。
其中,该预设时间可以由管理员配置,也可以配置在电子设备中。
举例来说,可以获取其他企业中的任意一个企业在10年内所有的初始财务数据。
604、采用所述第一初始字段对应的阈值,检测所述第四初始财务数据集中是否存在异常数据。
若是,则执行步骤605;若否,则执行步骤606。
可以理解的,所述采用所述第一初始字段对应的阈值,检测所述第四初始财务数据集中是否存在异常数据,包括:确定所述第四初始财务数据集中是否存在高于所述第一初始字段对应的阈值的数据。进一步的,所述第四初始财务数据集中的异常数据为所述第四初始财务数据集中高于所述第一初始字段对应的阈值的数据。
605、根据所述数据更新策略,对所述第四初始财务数据集中除所述第四初始财务数据集对应的异常数据之外的其他数据进行处理,得到第五初始财务数据,将所述第一异常数据更新为所述第五初始财务数据。
606、根据所述数据更新策略对所述第四初始财务数据集进行处理,并将所述第一异常数据更新为处理后的第四初始财务数据集。
可以看出,上述技术方案中,实现了异常数据的更新,避免了采用异常数据训练质量检测模型,从而避免了为后续应用时质量检测模型无法准确识别财报质量的问题。
参见图7,图7为本申请实施例提供的一种质量检测模型的训练装置的示意图。其中,如图7所示,本申请实施例提供的一种质量检测模型的训练装置700可以包括获取模块701和处理模块702:
所述获取模块701,用于获取第一财务数据集,所述第一财务数据集包括多个第一字段对应的M条第一财务数据,所述多个第一字段包括第一字段A和第一字段B,所述第一字段A关联X条第一财务数据,所述第一字段B关联Y条第一财务数据,M=X+Y,其中,所述M、所述X、所述Y均为大于1的整数;
所述处理模块702,用于针对所述第一财务数据集,确定所述多个第一字段中每个第一字段关联的多条第一财务数据中的最大值和最小值;根据所述每个第一字段关联的多条第一财务数据中的最大值和最小值,将所述每个第一字段关联的多条第一财务数据分别映射到预设区间,得到第二财务数据集;采用所述第二财务数据集训练质量检测模型。
可选的,在获取第一财务数据集时,所述获取模块701,用于从至少一条区块链上获取初始财务数据集,所述初始财务数据集包括多个初始字段对应的N条初始财务数据,所述多个初始字段包括初始字段A和初始字段B,所述初始字段A关联S条初始财务数据,所述初始字段B关联T条初始财务数据,N=S+T,其中,所述N、所述S、所述T均为大于1的整数;获取所述多个初始字段中每个初始字段对应的阈值;
所述处理模块702,用于若是,则更新每个初始字段关联的多条初始财务数据中的异常数据,并将更新后的初始财务数据集确定为所述第一财务数据集;若否,则将所述初始财务数据集确定为所述第一财务数据集。
可选的,第一初始字段为所述多个初始字段中的任意一个字段,所述第一初始字段关联多条第一初始财务数据,在更新每个初始字段关联的多条初始财务数据中的异常数据时,所述处理模块702,用于确定所述第一初始字段所属的字段类型;根据所述第一初始字段所属的字段类型,确定所述第一初始字段对应的数据更新策略,所述数据更新策略包括以下任意一种:平均值、加权平均值、方差和中位数;按照所述数据更新策略,更新所述多条第一初始财务数据中的异常数据。
可选的,第一异常数据为所述多条第一初始财务数据中的异常数据中的任意一个数据,在按照所述数据更新策略,更新所述多条第一初始财务数据中的异常数据时,
所述处理模块702,用于确定所述第一异常数据对应的第一初始财务数据所属的企业;
所述获取模块701,用于获取所述企业在预设时间内所有的初始财务数据,得到第二初始财务数据集,所述第二初始财务数据集与所述第一初始字段关联;
所述处理模块702,用于采用所述第一初始字段对应的阈值,检测所述第二初始财务数据集中是否存在异常数据;若是,则根据所述数据更新策略,对所述第二初始财务数据集中除所述第二初始财务数据集对应的异常数据之外的其他数据进行处理,得到第三初始财务数据,将所述第一异常数据更新为所述第三初始财务数据;若否,则根据所述数据更新策略对所述第二初始财务数据集进行处理,并将所述第一异常数据更新为处理后的第二初始财务数据集。
可选的,第一异常数据为所述多条第一初始财务数据中的异常数据中的任意一个数据,在按照所述数据更新策略,更新所述多条第一初始财务数据中的异常数据时,
所述处理模块702,用于确定所述第一异常数据对应的第一初始财务数据所属的企业;确定所述企业关联的其他企业;
所述获取模块701,用于获取所述其他企业中的任意一个企业在预设时间内所有的初始财务数据,得到第四初始财务数据集,所述第四初始财务数据集与所述第一初始字段关联;
所述处理模块702,用于采用所述第一初始字段对应的阈值,检测所述第四初始财务数据集中是否存在异常数据;若是,则根据所述数据更新策略,对所述第四初始财务数据集中除所述第四初始财务数据集对应的异常数据之外的其他数据进行处理,得到第五初始财务数据,将所述第一异常数据更新为所述第五初始财务数据;若否,则根据所述数据更新策略对所述第四初始财务数据集进行处理,并将所述第一异常数据更新为处理后的第四初始财务数据集。
可选的,第二字段为所述多个第一字段中的任意一个字段,所述第二字段关联多条第二财务数据,所述预设区间包括第一预设端点和第二预设端点,在根据每个第一字段关联的多条第一财务数据中的最大值和最小值,将每个第一字段关联的多条第一财务数据分别映射到预设区间,得到第二财务数据集时,所述处理模块702,用于
针对第三财务数据,将所述第二预设端点确定为所述第二财务数据集中所述第三财务数据映射到所述预设区间后的数据,所述第三财务数据为所述多条第二财务数据中的最大值;
针对第四财务数据,将所述第一预设端点确定为所述第二财务数据集中所述第四财务数据映射到所述预设区间后的数据,所述第四财务数据为所述多条第二财务数据中的最小值;
针对所述多条第二财务数据中除所述第三财务数据以及所述第四财务数据之外的其他财务数据,根据所述其他财务数据与所述第三财务数据之间的差值,将所述其他财务数据映射到预设区间,得到所述第二财务数据集中所述其他财务数据映射到所述预设区间后的数据;或,根据所述其他财务数据与所述第四财务数据之间的差值,将所述其他财务数据映射到预设区间,得到所述第二财务数据集中所述其他财务数据映射到所述预设区间后的数据。
参见图8,图8为本申请的实施例涉及的硬件运行环境的电子设备结构示意图。
本申请实施例提供了一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,以执行包括任一项质量检测模型的训练方法中的步骤的指令。其中,如图8所示,本申请的实施例涉及的硬件运行环境的电子设备可以包括:
处理器801,例如CPU。
存储器802,可选的,存储器可以为高速RAM存储器,也可以是稳定的存储器,例如磁盘存储器。
通信接口803,用于实现处理器801和存储器802之间的连接通信。
本领域技术人员可以理解,图8中示出的电子设备的结构并不构成对其的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图8所示,存储器802中可以包括操作系统、网络通信模块以及一个或多个程序。操作系统是管理和控制服务器硬件和软件资源的程序,支持一个或多个程序的运行。网络通信模块用于实现存储器802内部各组件之间的通信,以及与电子设备内部其他硬件和软件之间通信。
在图8所示的电子设备中,处理器801用于执行存储器802中一个或多个程序,实现以下步骤:获取第一财务数据集,所述第一财务数据集包括多个第一字段对应的M条第一财务数据,所述多个第一字段包括第一字段A和第一字段B,所述第一字段A关联X条第一财务数据,所述第一字段B关联Y条第一财务数据,M=X+Y,其中,所述M、所述X、所述Y均为大于1的整数;针对所述第一财务数据集,确定所述多个第一字段中每个第一字段关联的多条第一财务数据中的最大值和最小值;根据所述每个第一字段关联的多条第一财务数据中的最大值和最小值,将所述每个第一字段关联的多条第一财务数据分别映射到预设区间,得到第二财务数据集;采用所述第二财务数据集训练质量检测模型。
本申请涉及的电子设备的具体实施可参见上述质量检测模型的训练方法的各实施例,在此不做赘述。
本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述存储计算机程序被所述处理器执行,以实现以下步骤:获取第一财务数据集,所述第一财务数据集包括多个第一字段对应的M条第一财务数据,所述多个第一字段包括第一字段A和第一字段B,所述第一字段A关联X条第一财务数据,所述第一字段B关联Y条第一财务数据,M=X+Y,其中,所述M、所述X、所述Y均为大于1的整数;针对所述第一财务数据集,确定所述多个第一字段中每个第一字段关联的多条第一财务数据中的最大值和最小值;根据所述每个第一字段关联的多条第一财务数据中的最大值和最小值,将每个第一字段关联的多条第一财务数据分别映射到预设区间,得到第二财务数据集;采用所述第二财务数据集训练质量检测模型。
本申请涉及的计算机可读存储介质的具体实施可参见上述质量检测模型的训练方法的各实施例,在此不做赘述。
其中,所述计算机可读存储介质可以是非易失性,也可以是易失性。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应所述知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应所述知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (10)
1.一种质量检测模型的训练方法,其特征在于,包括:
获取第一财务数据集,所述第一财务数据集包括多个第一字段对应的M条第一财务数据,所述多个第一字段包括第一字段A和第一字段B,所述第一字段A关联X条第一财务数据,所述第一字段B关联Y条第一财务数据,M=X+Y,其中,所述M、所述X、所述Y均为大于1的整数;
针对所述第一财务数据集,确定所述多个第一字段中每个第一字段关联的多条第一财务数据中的最大值和最小值;
根据所述每个第一字段关联的多条第一财务数据中的最大值和最小值,将所述每个第一字段关联的多条第一财务数据分别映射到预设区间,得到第二财务数据集;
采用所述第二财务数据集训练质量检测模型。
2.根据权利要求1所述的方法,其特征在于,所述获取第一财务数据集,包括:
从至少一条区块链上获取初始财务数据集,所述初始财务数据集包括多个初始字段对应的N条初始财务数据,所述多个初始字段包括初始字段A和初始字段B,所述初始字段A关联S条初始财务数据,所述初始字段B关联T条初始财务数据,N=S+T,其中,所述N、所述S、所述T均为大于1的整数;
获取所述多个初始字段中每个初始字段对应的阈值;
根据所述多个初始字段中每个初始字段对应的阈值,检测每个初始字段关联的多条初始财务数据中是否存在异常数据;
若是,则更新每个初始字段关联的多条初始财务数据中的异常数据,并将更新后的初始财务数据集确定为所述第一财务数据集;
若否,则将所述初始财务数据集确定为所述第一财务数据集。
3.根据权利要求2所述的方法,其特征在于,第一初始字段为所述多个初始字段中的任意一个字段,所述第一初始字段关联多条第一初始财务数据,所述更新每个初始字段关联的多条初始财务数据中的异常数据,包括:
确定所述第一初始字段所属的字段类型;
根据所述第一初始字段所属的字段类型,确定所述第一初始字段对应的数据更新策略,所述数据更新策略包括以下任意一种:平均值、加权平均值、方差和中位数;
按照所述数据更新策略,更新所述多条第一初始财务数据中的异常数据。
4.根据权利要求3所述的方法,其特征在于,第一异常数据为所述多条第一初始财务数据中的异常数据中的任意一个数据,所述按照所述数据更新策略,更新所述多条第一初始财务数据中的异常数据,包括:
确定所述第一异常数据对应的第一初始财务数据所属的企业;
获取所述企业在预设时间内所有的初始财务数据,得到第二初始财务数据集,所述第二初始财务数据集与所述第一初始字段关联;
采用所述第一初始字段对应的阈值,检测所述第二初始财务数据集中是否存在异常数据;
若是,则根据所述数据更新策略,对所述第二初始财务数据集中除所述第二初始财务数据集对应的异常数据之外的其他数据进行处理,得到第三初始财务数据,将所述第一异常数据更新为所述第三初始财务数据;
若否,则根据所述数据更新策略对所述第二初始财务数据集进行处理,并将所述第一异常数据更新为处理后的第二初始财务数据集。
5.根据权利要求3所述的方法,其特征在于,第一异常数据为所述多条第一初始财务数据中的异常数据中的任意一个数据,所述按照所述数据更新策略,更新所述多条第一初始财务数据中的异常数据,包括:
确定所述第一异常数据对应的第一初始财务数据所属的企业;
确定所述企业关联的其他企业;
获取所述其他企业中的任意一个企业在预设时间内所有的初始财务数据,得到第四初始财务数据集,所述第四初始财务数据集与所述第一初始字段关联;
采用所述第一初始字段对应的阈值,检测所述第四初始财务数据集中是否存在异常数据;
若是,则根据所述数据更新策略,对所述第四初始财务数据集中除所述第四初始财务数据集对应的异常数据之外的其他数据进行处理,得到第五初始财务数据,将所述第一异常数据更新为所述第五初始财务数据;
若否,则根据所述数据更新策略对所述第四初始财务数据集进行处理,并将所述第一异常数据更新为处理后的第四初始财务数据集。
6.根据权利要求1-5任意一项所述的方法,其特征在于,第二字段为所述多个第一字段中的任意一个字段,所述第二字段关联多条第二财务数据,所述预设区间包括第一预设端点和第二预设端点,所述根据所述每个第一字段关联的多条第一财务数据中的最大值和最小值,将所述每个第一字段关联的多条第一财务数据分别映射到预设区间,得到第二财务数据集,包括:
针对第三财务数据,将所述第二预设端点确定为所述第二财务数据集中所述第三财务数据映射到所述预设区间后的数据,所述第三财务数据为所述多条第二财务数据中的最大值;
针对第四财务数据,将所述第一预设端点确定为所述第二财务数据集中所述第四财务数据映射到所述预设区间后的数据,所述第四财务数据为所述多条第二财务数据中的最小值;
针对所述多条第二财务数据中除所述第三财务数据以及所述第四财务数据之外的其他财务数据,根据所述其他财务数据与所述第三财务数据之间的差值,将所述其他财务数据映射到预设区间,得到所述第二财务数据集中所述其他财务数据映射到所述预设区间后的数据;或,根据所述其他财务数据与所述第四财务数据之间的差值,将所述其他财务数据映射到预设区间,得到所述第二财务数据集中所述其他财务数据映射到所述预设区间后的数据。
7.一种质量检测模型的训练装置,其特征在于,所述装置包括获取模块和处理模块,
所述获取模块,用于获取第一财务数据集,所述第一财务数据集包括多个第一字段对应的M条第一财务数据,所述多个第一字段包括第一字段A和第一字段B,所述第一字段A关联X条第一财务数据,所述第一字段B关联Y条第一财务数据,M=X+Y,其中,所述M、所述X、所述Y均为大于1的整数;
所述处理模块,用于针对所述第一财务数据集,确定所述多个第一字段中每个第一字段关联的多条第一财务数据中的最大值和最小值;根据所述每个第一字段关联的多条第一财务数据中的最大值和最小值,将所述每个第一字段关联的多条第一财务数据分别映射到预设区间,得到第二财务数据集;采用所述第二财务数据集训练质量检测模型。
8.根据权利要求7所述的装置,其特征在于,在获取第一财务数据集时,所述获取模块,用于从至少一条区块链上获取初始财务数据集,所述初始财务数据集包括多个初始字段对应的N条初始财务数据,所述多个初始字段包括初始字段A和初始字段B,所述初始字段A关联S条初始财务数据,所述初始字段B关联T条初始财务数据,N=S+T,其中,所述N、所述S、所述T均为大于1的整数;获取所述多个初始字段中每个初始字段对应的阈值;
所述处理模块,用于若是,则更新每个初始字段关联的多条初始财务数据中的异常数据,并将更新后的初始财务数据集确定为所述第一财务数据集;若否,则将所述初始财务数据集确定为所述第一财务数据集。
9.一种电子设备,其特征在于,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被生成由所述处理器执行,以执行权利要求1-6任一项方法中的步骤的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述存储计算机程序被所述处理器执行,以实现权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010720352.XA CN111882415A (zh) | 2020-07-24 | 2020-07-24 | 一种质量检测模型的训练方法和相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010720352.XA CN111882415A (zh) | 2020-07-24 | 2020-07-24 | 一种质量检测模型的训练方法和相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111882415A true CN111882415A (zh) | 2020-11-03 |
Family
ID=73200247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010720352.XA Pending CN111882415A (zh) | 2020-07-24 | 2020-07-24 | 一种质量检测模型的训练方法和相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111882415A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487053A (zh) * | 2020-11-27 | 2021-03-12 | 重庆医药高等专科学校 | 海量财务数据异常控制提取工作方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180300806A1 (en) * | 2016-06-21 | 2018-10-18 | Erland Wittkotter | Sample data extraction |
CN109558441A (zh) * | 2018-10-25 | 2019-04-02 | 平安科技(深圳)有限公司 | 财务指标自动监控方法、装置、计算机设备及存储介质 |
CN109948728A (zh) * | 2019-03-28 | 2019-06-28 | 第四范式(北京)技术有限公司 | 异常交易检测模型的训练以及异常交易检测的方法和装置 |
CN110472660A (zh) * | 2019-07-09 | 2019-11-19 | 深圳壹账通智能科技有限公司 | 异常数据检测方法、装置、计算机设备和存储介质 |
CN110895526A (zh) * | 2019-11-29 | 2020-03-20 | 南京信息工程大学 | 一种大气监测系统中数据异常的修正方法 |
CN111222769A (zh) * | 2019-12-30 | 2020-06-02 | 河南拓普计算机网络工程有限公司 | 一种年报数据质量评价方法、装置、电子设备及存储介质 |
CN111275062A (zh) * | 2018-12-04 | 2020-06-12 | 北京嘀嘀无限科技发展有限公司 | 模型训练方法、装置、服务器及计算机可读存储介质 |
-
2020
- 2020-07-24 CN CN202010720352.XA patent/CN111882415A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180300806A1 (en) * | 2016-06-21 | 2018-10-18 | Erland Wittkotter | Sample data extraction |
CN109558441A (zh) * | 2018-10-25 | 2019-04-02 | 平安科技(深圳)有限公司 | 财务指标自动监控方法、装置、计算机设备及存储介质 |
CN111275062A (zh) * | 2018-12-04 | 2020-06-12 | 北京嘀嘀无限科技发展有限公司 | 模型训练方法、装置、服务器及计算机可读存储介质 |
CN109948728A (zh) * | 2019-03-28 | 2019-06-28 | 第四范式(北京)技术有限公司 | 异常交易检测模型的训练以及异常交易检测的方法和装置 |
CN110472660A (zh) * | 2019-07-09 | 2019-11-19 | 深圳壹账通智能科技有限公司 | 异常数据检测方法、装置、计算机设备和存储介质 |
CN110895526A (zh) * | 2019-11-29 | 2020-03-20 | 南京信息工程大学 | 一种大气监测系统中数据异常的修正方法 |
CN111222769A (zh) * | 2019-12-30 | 2020-06-02 | 河南拓普计算机网络工程有限公司 | 一种年报数据质量评价方法、装置、电子设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487053A (zh) * | 2020-11-27 | 2021-03-12 | 重庆医药高等专科学校 | 海量财务数据异常控制提取工作方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111401558A (zh) | 数据处理模型训练方法、数据处理方法、装置、电子设备 | |
CN111739016B (zh) | 目标检测模型训练方法、装置、电子设备及存储介质 | |
CN115485686A (zh) | 用于数据云服务的分布式和基于区块链的账簿 | |
CN111401700A (zh) | 一种数据分析方法、装置、计算机系统及可读存储介质 | |
CN112184012A (zh) | 一种企业风险预警方法、装置、设备及可读存储介质 | |
CN112905187B (zh) | 编译方法、装置、电子设备及存储介质 | |
US10742627B2 (en) | System and method for dynamic network data validation | |
WO2023165271A1 (zh) | 知识图谱的构建、和图计算 | |
CN115237802A (zh) | 基于人工智能的模拟测试方法及相关设备 | |
CN110837653A (zh) | 标签预测方法、装置以及计算机可读存储介质 | |
CN115796229A (zh) | 图节点的嵌入方法、系统、设备及存储介质 | |
CN109711849B (zh) | 以太坊地址画像生成方法、装置、电子设备及存储介质 | |
CN112702410B (zh) | 一种基于区块链网络的评估系统、方法及相关设备 | |
CN114169938A (zh) | 信息推送方法、装置、设备及存储介质 | |
CN113609345A (zh) | 目标对象关联方法和装置、计算设备以及存储介质 | |
CN111882415A (zh) | 一种质量检测模型的训练方法和相关装置 | |
CN110070383B (zh) | 基于大数据分析的异常用户识别方法及装置 | |
CN115713424A (zh) | 风险评估方法、风险评估装置、设备及存储介质 | |
CN113435502B (zh) | 站点流量确定方法、装置、设备及存储介质 | |
CN111882416A (zh) | 一种风险预测模型的训练方法和相关装置 | |
CN113850669A (zh) | 用户分群方法、装置、计算机设备及计算机可读存储介质 | |
CN114925033A (zh) | 信息上链方法、装置、系统及存储介质 | |
La Salle et al. | Joint modeling of hyperledger fabric and sybil attack: petri net approach | |
CN112598132A (zh) | 模型训练方法及装置、存储介质、电子装置 | |
CN110719260B (zh) | 智能网络安全分析方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |