CN111612040A - 基于孤立森林算法的财务数据异常检测方法及相关装置 - Google Patents
基于孤立森林算法的财务数据异常检测方法及相关装置 Download PDFInfo
- Publication number
- CN111612040A CN111612040A CN202010331907.1A CN202010331907A CN111612040A CN 111612040 A CN111612040 A CN 111612040A CN 202010331907 A CN202010331907 A CN 202010331907A CN 111612040 A CN111612040 A CN 111612040A
- Authority
- CN
- China
- Prior art keywords
- data
- data set
- abnormal
- positive
- negative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 69
- 238000001514 detection method Methods 0.000 title claims abstract description 29
- 230000002159 abnormal effect Effects 0.000 claims abstract description 201
- 238000012545 processing Methods 0.000 claims abstract description 44
- 230000009466 transformation Effects 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims description 37
- 230000007246 mechanism Effects 0.000 claims description 35
- 238000010276 construction Methods 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims description 7
- 238000000638 solvent extraction Methods 0.000 claims description 4
- 238000007405 data analysis Methods 0.000 abstract description 12
- 238000004458 analytical method Methods 0.000 description 11
- 230000008520 organization Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 101150117538 Set2 gene Proteins 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 4
- 101150055297 SET1 gene Proteins 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012502 risk assessment Methods 0.000 description 3
- 239000000243 solution Substances 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000002347 injection Methods 0.000 description 2
- 239000007924 injection Substances 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 235000008733 Citrus aurantifolia Nutrition 0.000 description 1
- 235000011941 Tilia x europaea Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004571 lime Substances 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/125—Finance or payroll
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Finance (AREA)
- General Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本申请是关于一种基于孤立森林算法的财务数据异常检测方法及相关装置,属于数据分析技术领域,包括:从数据库中获取预定时间段的财务数据并划分为多类子数据集;将每类子数据集进行数据冲销处理后,拆分为正数据集及负数据集;分别生成正数据集及负数据集的特征宽表,并对正数据集的特征宽表进行群组基线划分;将群组基线变换后的正数据集特征宽表输入孤立森林算法模型,得到第一异常数据;将所述第一异常数据的主体字段与所述负数据集的特征宽表中的主体字段进行比对,以确定所述第一异常数据中的风险数据。本申请的实施例有效提升财务数据风险数据分析的可靠性和准确性。
Description
技术领域
本申请涉及数据分析技术领域,具体而言,涉及一种基于孤立森林算法的财务数据异常检测方法及相关装置。
背景技术
一般地,机器学习算法在金融风控领域得到较广泛应用,但受缺少坏样本标注的限制,导致模型精确率难以达到业务要求。现有异常检测方法中机器学习模型在应用于财务数据稽核中存在问题:财务数据繁杂,不同主体(公司)、不同科目、不同报销事件的财务数据存在巨大的差异,且财务数据普遍存在会计冲销、科目间账目调整等实际情况,以致现有异常检测方法难以区分正常数据与异常(违规)报销数据。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本申请的目的在于提供一种基于孤立森林算法的财务数据异常检测方案,进而至少在一定程度上有效提升财务数据异常检测的可靠性及准确性。
根据本申请的一个方面,提供一种基于孤立森林算法的财务数据异常检测方法,其特征在于,所述方法包括:
从数据库中获取预定时间段的财务数据,并根据预定数据类别字段将所述财务数据划分为多类子数据集;
将每类所述子数据集基于所述子数据集中的业务主体字段进行数据冲销处理后,拆分为正数据集及负数据集;
通过特征构造分别生成所述正数据集及所述负数据集的特征宽表,并对所述正数据集的特征宽表进行群组基线划分,得到群组基线变换后的正数据集特征宽表;
将所述群组基线变换后的正数据集特征宽表输入孤立森林算法模型,得到第一异常数据;
将所述第一异常数据的主体字段与所述负数据集的特征宽表中的主体字段进行比对,以确定所述第一异常数据中的风险数据。
在本申请的一种示例性实施方式中,所述从数据库中获取预定时间段的财务数据,并根据预定数据类别字段将所述财务数据划分为多类子数据集,包括:
从数据库中获取预定时间段的财务数据,并根据不同财务科目代码字段将所述财务数据划分为不同科目的子数据集。
在本申请的一种示例性实施方式中,所述业务主体字段包括贷方原币字段;所述将每类所述子数据集基于所述子数据集中的业务主体字段进行数据冲销处理后,拆分为正数据集及负数据集,包括:
将每类所述子数据集中贷方原币字段中报销单号相同、两报销单的贷方原币字段的金额字段正负值相反且绝对值相同的报销单号对应的数据删除后,得到每类所述子数据集中冲销后的数据集;
将每类所述子数据集中冲销后的数据集,根据贷方原币金额字段的正负值拆分为正数据集及负数据集。
在本申请的一种示例性实施方式中,通过特征构造分别生成所述正数据集及所述负数据集的特征宽表,并对所述正数据集的特征宽表进行群组基线划分,得到群组基线变换后的正数据集特征宽表,包括:
根据预设特征表中财务数据的通用统计特征和业务特征,对所述正数据集及所述负数据集分别进行特征构造,生成所述正数据集及所述负数据集的特征宽表;
对所述正数据集的特征宽表中的机构按照机构规模基线划分为不同层级的机构,并对所述不同层级的机构的数据进行零均值归一化处理得到群组基线变换后的正数据集特征宽表。
在本申请的一种示例性实施方式中,所述将所述第一异常数据的主体字段与所述负数据集的特征宽表中的主体字段进行比对,以确定所述第一异常数据中的风险数据,包括:
将所述第一异常数据的主体字段与所述负数据集的特征宽表中的主体字段进行比对,以确定所述第一异常数据的主体字段中是否存在与所述负数据集的特征宽表中主体字段相同的字段;
如果所述第一异常数据的主体字段中存在与所述负数据集的特征宽表中主体字段相同的字段,则确定所述相同的字段对应的主体为预测异常数据主体;
基于所述预测异常数据主体确定所述第一异常数据中的风险数据;将所述风险数据上传至区块链中。
在本申请的一种示例性实施方式中,所述基于所述预测异常数据主体确定所述第一异常数据中的风险数据,包括:
如果所述预测异常数据主体在所述第一异常数据中对应的时间晚于所述预测异常数据主体在所述负数据集的特征宽表中的对应的时间,则确定所述预测异常数据主体在所述第一异常数据中对应数据为风险数据;
如果所述预测异常数据主体在所述第一异常数据中对应的时间早于所述预测异常数据主体在所述负数据集的特征宽表中的对应的时间,则获取所述预测异常数据主体的数据为负值时的后续时间的财务数据,以在基于所述后续时间的财务数据确定所述预测异常数据主体在所述第一异常数据中对应数据在所述后续时间不能够成功冲销处理时,确定所述预测异常数据主体在所述第一异常数据中对应数据为风险数据。
在本申请的一种示例性实施方式中,所述方法还包括:
扩大所述孤立森林算法模型的异常样本比例阈值;
将所述群组基线变换后的正数据集特征宽表输入扩大异常样本比例阈值后的孤立森林算法模型,得到第二异常数据;
对所述第二异常数据进行聚类,得到多个异常数据簇,以基于所述多个异常数据簇获取异常数据模式。
根据本申请的一个方面,提供一种基于孤立森林算法的财务数据异常检测装置,其特征在于,所述装置包括:
划分模块,用于从数据库中获取预定时间段的财务数据,并根据预定数据类别字段将所述财务数据划分为多类子数据集;
拆分模块,用于将每类所述子数据集基于所述子数据集中的业务主体字段进行数据冲销处理后,拆分为正数据集及负数据集;
构造模块,用于通过特征构造分别生成所述正数据集及所述负数据集的特征宽表,并对所述正数据集的特征宽表进行群组基线划分,得到群组基线变换后的正数据集特征宽表;
预测模块,用于将所述群组基线变换后的正数据集特征宽表输入孤立森林算法模型,得到第一异常数据;
确定模块,用于将所述第一异常数据的主体字段与所述负数据集的特征宽表中的主体字段进行比对,以确定所述第一异常数据中的风险数据。
根据本申请的一个方面,提供一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述任一项所述的方法。
根据本申请的一个方面,提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的计算机可读指令;其中,所述处理器配置为经由执行所述计算机可读指令来执行上述任一项所述的方法。
本申请一种基于孤立森林算法的财务数据异常检测方法及装置,首先,从数据库中获取预定时间段的财务数据,并根据预定数据类别字段将获取的财务数据划分为多类子数据集;可以将财务数据划分为多类子数据集,可以在后续步骤中分别进行每类数据集中数据的分析处理。然后,将每类子数据集基于每类子数据集中数据来源的业务主体进行数据冲销处理后,拆分为正数据集及负数据集;可以通过数据来源的业务主体进行数据冲销处理剔除可以进行冲销处理的正常数据,进而将每类子数据集中剩余的数据通过拆分为可以代表财务数据的不同发生方向的正数据集及负数据集,可以在后续步骤只进行单向数据分析后双向对照验证分析风险数据。然后,通过特征构造分别生成正数据集及负数据集的特征宽表,并对正数据集的特征宽表进行群组基线划分,得到群组基线变换后的正数据集特征宽表;对代表不同财务数据发生方向的数据集构造便于风险分析的特征宽表后,通过群组基线划分得到包括不同基线级别的、具有数据可比较性的群组的特征宽表,保证数据异常分析的准确性。然后,将群组基线变换后的正数据集特征宽表输入孤立森林算法模型,得到第一异常数据;通过无监督的孤立森林算法模型群组基线变换后的正数据集特征宽表进行分析可以可靠地的分析出异常数据,同时包括不同基线级别的、具有数据可比较性的群组的特征宽表可以保证无监督的孤立森林算法模型进行财务数据分析的准确性。最后,通过将第一异常数据的主体字段与负数据集的特征宽表中的主体字段进行比对,以确定第一异常数据中的风险数据,可以对孤立森林算法模型分析得到的正数据集中的第一异常数据中的主体字段,通过与财务数据发生方向相反的负数据集中的主体字段比较,进行确定第一异常数据中包括的主体是否满足正常财务操作下在两个方向的数据集都存在,进而进一步验证确定第一异常数据中的风险数据,进一步有效保证风险数据分析的可靠性和准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出一种基于孤立森林算法的财务数据异常检测方法的流程图。
图2示意性示出一种基于孤立森林算法的财务数据异常检测方法的应用场景示例图。
图3示意性示出又一种基于孤立森林算法的财务数据异常检测方法流程图。
图4示意性示出一种基于孤立森林算法的财务数据异常检测装置的方框图。
图5示意性示出一种用于实现上述基于孤立森林算法的财务数据异常检测方法的电子设备示例框图。
图6示意性示出一种用于实现上述基于孤立森林算法的财务数据异常检测方法的计算机可读存储介质。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本申请的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本申请的各方面变得模糊。
此外,附图仅为本申请的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
本示例实施方式中首先提供了基于孤立森林算法的财务数据异常检测方法,该基于孤立森林算法的财务数据异常检测方法可以运行于服务器,也可以运行于服务器集群或云服务器等,当然,本领域技术人员也可以根据需求在其他平台运行本发明的方法,本示例性实施例中对此不做特殊限定。参考图1所示,该基于孤立森林算法的财务数据异常检测方法可以包括以下步骤:
步骤S110,从数据库中获取预定时间段的财务数据,并根据预定数据类别字段将所述财务数据划分为多类子数据集;
步骤S120,将每类所述子数据集基于所述子数据集中的业务主体字段进行数据冲销处理后,拆分为正数据集及负数据集;
步骤S130,通过特征构造分别生成所述正数据集及所述负数据集的特征宽表,并对所述正数据集的特征宽表进行群组基线划分,得到群组基线变换后的正数据集特征宽表;
步骤S140,将所述群组基线变换后的正数据集特征宽表输入孤立森林算法模型,得到第一异常数据;
步骤S150,将所述第一异常数据的主体字段与所述负数据集的特征宽表中的主体字段进行比对,以确定所述第一异常数据中的风险数据。
上述基于孤立森林算法的财务数据异常检测方法,首先,从数据库中获取预定时间段的财务数据,并根据预定数据类别字段将获取的财务数据划分为多类子数据集;可以将财务数据划分为多类子数据集,可以在后续步骤中分别进行每类数据集中数据的分析处理。然后,将每类子数据集基于每类子数据集中数据来源的业务主体进行数据冲销处理后,拆分为正数据集及负数据集;可以根据子数据集中的业务主体字段进行数据冲销处理,剔除可以进行冲销处理的正常数据,进而将每类子数据集中剩余的数据通过拆分为可以代表财务数据的不同发生方向的正数据集及负数据集,可以在后续步骤只进行单向数据分析后双向对照验证分析风险数据。然后,通过特征构造分别生成正数据集及负数据集的特征宽表,并对正数据集的特征宽表进行群组基线划分,得到群组基线变换后的正数据集特征宽表;对代表不同财务数据发生方向的数据集构造便于风险分析的特征宽表后,通过群组基线划分得到包括不同基线级别的、具有数据可比较性的群组的特征宽表,保证数据异常分析的准确性。然后,将群组基线变换后的正数据集特征宽表输入孤立森林算法模型,得到第一异常数据;通过无监督的孤立森林算法模型群组基线变换后的正数据集特征宽表进行分析可以可靠地的分析出异常数据,同时包括不同基线级别的、具有数据可比较性的群组的特征宽表可以保证无监督的孤立森林算法模型进行财务数据分析的准确性。最后,通过将第一异常数据的主体字段与负数据集的特征宽表中的主体字段进行比对,以确定第一异常数据中的风险数据,可以对孤立森林算法模型分析得到的正数据集中的第一异常数据中的主体字段,通过与财务数据发生方向相反的负数据集中的主体字段比较,可以确定第一异常数据中包括的主体是否满足正常财务操作下在两个方向的数据集都存在,进而进一步验证确定第一异常数据中的风险数据,进一步有效保证风险数据分析的可靠性和准确性。本示例实施方式可以应用于智慧政务如银行交易监管等场景中,从而推动智慧城市的建设。
下面,将结合附图对本示例实施方式中上述基于孤立森林算法的财务数据异常检测方法中的各步骤进行详细的解释以及说明。
在步骤S110中,从数据库中获取预定时间段的财务数据,并根据预定数据类别字段将所述财务数据划分为多类子数据集。
在本示例的实施方式中,参考图2所示,提供了一种可以应用本申请基于孤立森林算法的财务数据异常检测方法的实施例的系统架构图,该系统架构包括:服务器201和服务器202,服务器201可以从服务器202的数据库中获取预定时间段的财务数据,并根据预定数据类别字段将财务数据划分为多类子数据集。可以理解,在后续步骤中,在条件允许的情况下,也可以由服务器202从数据库中获取预定时间段的财务数据,并根据预定数据类别字段将财务数据划分为多类子数据集。其中,服务器201和服务器202可以是任何具有处理能力的设备,例如,电脑、微处理器等,在此不做特殊限定。
数据库中存储各个时间段的财务明细账数据。预定时间段可以根据财务数据异常分析需求设定。预定数据类别字段可以是财务数据中包括的财务科目代码字段(例如,资产类科目、损益类科目或者成本类科目等科目对应的代码字段)或者不同财务报销事件代码字段等。
将财务数据划分为多类子数据集,可以在后续步骤中分别进行每类数据集中数据的分析处理,避免财务数据类别复杂性带来的核查难度。
一种实施例中,从数据库中获取预定时间段的财务数据,并根据预定数据类别字段将所述财务数据划分为多类子数据集,包括:
从数据库中获取预定时间段的财务数据,并根据不同财务科目代码字段将所述财务数据划分为不同科目的子数据集。
财务科目代码字段,例如,资产类科目、损益类科目或者成本类科目等科目对应的代码字段。
不同科目的财务数据具有不同的处理方式,基于不同财务科目代码字段将财务数据划分为不同科目的子数据集,可以分别对不同科目的子数据集进行核查分析。
在步骤S120中,将每类所述子数据集基于所述子数据集中的业务主体字段进行数据冲销处理后,拆分为正数据集及负数据集。
在本示例的实施方式中,业务主体是产生财务数据的业务主体,例如,机构或者公司等。业务主体的类别通常包括贷方(金额出借方)和借方(金额收取方)。
财务数据中可以通过业务主体字段(贷方原币字段和借方原币字段)区分财务数据的发生方向,即可以体现财务数据的报销费用的发生方向,贷方原币字段数据中金额数据为正数代表报销人垫付金额,贷方原币字段数据中金额数据为负数代表企业预付金额、或发生账目冲销、或入账科目调整。借方原币数据则相反。
数据冲销处理即将子数据集中对应于业务主体的正常操作产生的财务数据通过业务主体的双向的数据核销进行剔除的处理方式。可以抵消业务主体中贷方原币中金额数据为负数的报销事件,即同时间(例如,同月份)、相同报销单号的数据可以进行抵消,其冲销逻辑:报销单号相同、金额数据绝对值相同、金额数据发生方向相反(数据金额一正一负),则删除该报销单号的全部数据。进而,对于跨月、不同报销单号,且贷方原币为负数的数据,没有进行抵消。
拆分为正数据集及负数据集是通过业务主体字段中金额数据的正负将每类子数据集中数据冲销处理后剩余的数据拆分为正数据集及负数据集。可以是根据贷方原币字段的金额数据的正负值,将上述冲销处理后剩余的数据区分为正负两个数据集。正数据集可以用于入模(输入孤立森林算法模型),负数据集可以用于验证,即模型输出异常数据后,异常数据先与负数据集比对,判断是否由于准备跨时间段(例如,跨月份)冲销的正常财务操作导致的数据异常。
这样可以根据子数据集中的业务主体字段进行数据冲销处理,剔除可以进行冲销处理的正常数据,进而将每类子数据集中剩余的数据通过拆分为可以代表财务数据的不同发生方向的正数据集及负数据集,可以在后续步骤只进行单向数据分析后双向对照验证分析风险数据。
一种实施例中,所述业务主体字段包括贷方原币字段;所述将每类所述子数据集基于所述子数据集中的业务主体字段进行数据冲销处理后,拆分为正数据集及负数据集,包括:
将每类所述子数据集中贷方原币字段中报销单号相同、两报销单的贷方原币字段的金额字段正负值相反且绝对值相同的报销单号对应的数据删除后,得到每类所述子数据集中冲销后的数据集;
将每类所述子数据集中冲销后的数据集,根据贷方原币金额字段的正负值拆分为正数据集及负数据集。
贷方原币字段数据中金额数据为正数代表报销人垫付金额,贷方原币字段数据中金额数据为负数代表企业预付金额、或发生账目冲销、或入账科目调整。进而,可以通过报销单号相同、金额数据绝对值相同、金额数据发生方向相反(数据金额一正一负)确定为同一报销单的正常财务操作的可核销数据,进而可以删除得到每类子数据集中冲销后的数据集。
根据贷方原币字段的金额数据的正负值,将上述冲销处理后剩余的数据区分为正负两个数据集。正数据集可以用于入模(输入孤立森林算法模型),负数据集可以用于验证,即模型输出异常数据后,异常数据先与负数据集比对,判断是否由于准备跨时间段(例如,跨月份)冲销的正常财务操作导致的数据异常。
在步骤S130中,通过特征构造分别生成所述正数据集及所述负数据集的特征宽表,并对所述正数据集的特征宽表进行群组基线划分,得到群组基线变换后的正数据集特征宽表。
在本示例的实施方式中,可以通过财务数据的通用统计特征和业务特征的构造,生成正数据集及负数据集的特征宽表。可以根据财务明细账数据、发票数据构造主体的报销行为特征(包括通用统计特征和业务特征)。通用统计特征可以包括机构月报销累计金额[sum(x1,x2,…xn)]、机构月报销金额中最大值[max(x1,x2,x3,…、xn)]、机构月报销金额中最小值[min(x1,x2,x3,…、xn)]、机构月报销金额的中位数[median(x1,x2,x3,…、xn)]、机构月报销金额均值[mean(x1,x2,x3,…、xn)]、机构月报销的标准差[std(x1,x2,x3,…、xn)],机构月报销次数累计值[(count(x1,x2,x3,…、xn)]、机构月报销中相同金额的笔数累加[count(a,a,a,b,b,…)]、机构月报销中相同金额的金额累加[sum(a,a,a,b,b…)]、机构月报销中相同金额的次数比月累计报销次数[count(a,a,a,b,b…)/(count(x1,x2,x3,…、xn)]、机构月报销中相同金额的金额比月累计报销金额[sum(a,a,a,b,b…)/(sum(x1,x2,x3,…、xn)]等,x1,x2,x3,…、xn代表不同月份(时间)的报销金额。a,a,a等代表相同金额。业务特征指不同财务科目根据各自科目特点构造有业务含义和风险指向的特征。
对上述正负两个数据集分别进行相关特征构造,生成正负两个数据集的特征宽表。
群组基线可以是财务数据中主体的人数规模或者业务排名等主体规模。对正数据集的特征宽表进行群组基线划分,可以是根据正数据集的特征宽表中主体的不同规模将主体划分为不同层级的主体,例如,将机构根据自身规模划分为不同层级的机构。不同层级的主体的人员、收入、支出存在较大差异,进行直接比较分析会带来很大误差,通过引入群组基线,得到群组基线变换后的正数据集特征宽表,将主体划分为不同层级的主体,可以对相同层级的主体的财务数据进行比较分析,保证分析准确性。
对代表不同财务数据发生方向的数据集构造便于风险分析的特征宽表后,通过群组基线划分得到包括不同基线级别的、具有数据可比较性的群组的特征宽表,保证数据异常分析的准确性。
一种实施例中,通过特征构造分别生成所述正数据集及所述负数据集的特征宽表,并对所述正数据集的特征宽表进行群组基线划分,得到群组基线变换后的正数据集特征宽表,包括:
根据预设特征表中财务数据的通用统计特征和业务特征,对所述正数据集及所述负数据集分别进行特征构造,生成所述正数据集及所述负数据集的特征宽表;
对所述正数据集的特征宽表中的机构按照机构规模基线划分为不同层级的机构,并对所述不同层级的机构的数据进行零均值归一化处理得到群组基线变换后的正数据集特征宽表。
不同机构的人员、收入、支出存在较大差异,无法进行直接比较,由此引入群组基线划分,可以将机构根据自身规模划分为不同层级的机构,不同层级的机构进行零均值归一化处理,得到群组基线变换后的正数据集的特征宽表。零均值归一化的公式为m=(x-μ)/σ,其中,m为归一化得到的数据,x为某个样本的数据,μ为某个层级的机构所有样本数据的均值,σ为某个层级的机构所有样本数据的标准差。经过零均值归一化处理的数据符合标准正态分布,即均值为0,标准差为1。可以取消由于量纲不同、自身变异或者数值相差较大所引起的误差。
在步骤S140中,将所述群组基线变换后的正数据集特征宽表输入孤立森林算法模型,得到第一异常数据。
在本示例的实施方式中,将上述步骤中经过群组基线变换后的正数据集的特征宽表输入到孤立森林算法模型,可以设定较低的异常阈值(可以是异常样本占比低于百分之一),孤立森林算法模型输出第一异常数据。孤立森林算法模型属于机器学习中的无监督学习算法,它不需要坏样本标注,可以可靠地进行财务数据地异常检测。
通过无监督的孤立森林算法模型群组基线变换后的正数据集特征宽表进行分析可以可靠地的分析出异常数据,同时包括不同基线级别的、具有数据可比较性的群组的特征宽表可以保证无监督的孤立森林算法模型进行财务数据分析的准确性。
孤立森林算法模型是基于孤立森林算法的异常检测算法模型,可以通过参数调整及样本数据地输入及异常数据地输出训练孤立森林算法模型。
参数调整及样本数据地输入可以包括:入模特征数据集set1,树的数目n_estimators,异常数据的占比contamination,最大的采样数量max_samples,最大的入模特征数量max_features,随机种子random_state。
异常数据地输出可以包括:异常数据集pre_X。
训练步骤可以包括:
(1)对入模特征数据集set1进行随机采样,直到样本量达到最大的采样数量max_samples,然后根据采样的数据集构造二叉树;
(2)从上一步随机采样的数据集中随机选择一个特征;
(3)随机选择上一步中特征的一个样本的值;
(4)根据上一步中选中的特征及其值,把小于该特征值的样本放置到左节点,把大于该特征值的样本放置到右节点;
(5)重复上述(2)-(4)步骤,构造一棵二叉树,直到满足下列条件中的任意一条;
a.叶子节点只有一个样本或叶子节点上所有样本的特征都相同;
b.树的深度达到限定深度;
(6)重复步骤(1),构造n_estimators棵不同的二叉树,保证树之间的差异;
(7)利用构造完成的二叉树预测样本数据,预测过程对二叉树进行中序遍历,记录从根节点到叶子节点的路径长度Length,计算样本在全部二叉树上的路径长度的期望exp_length;
(8)对上一步中的exp_length进行升序排序,取样本总数前contamination的样本数据作为异常数据输出,得到训练完成的孤立森林算法模型model1。
一种实施例中,还包括利用Lime算法对第一异常数据或者后续步骤得到的第二异常数据进行模型解释。
具体地,对于Lime算法,设置参数及输入:异常样本Xi,入模数据集set1,最重要的特征个数k,特征名称feature_columns,数据异常与否的预测标签pred,数据集中的分类列的列表categorical_features,分类列名称列表categoriesical_names,参数控制诱导模型的线性度kernel_width。
可以从异常样本Xi选择一个异常样本X1,通过随机替换异常样本X1的若干个特征产生新样本,得到新数据集set2;然后,计算新数据集set2中各样本与原始异常样本X1的余弦相似性;
使用上述步骤中得到的孤立森林模型model1对上一步中新数据集set2进行预测,观测新数据集set2的预测结果;
在新数据集set2上训练线性回归模型,并使用最重要的k个特征进行预测,并输出前k个最重要特征的贡献度。最重要的k个特征选择方法可以包括:前线搜索方法、岭回归的特征最高权重排序、lasso_path方法;
然后,对全部异常样本,重复上述步骤,结合业务认知分析k个最重要的特征,找出对模型结果产生正向影响的特征并保留,对产生消极影响的特征予以删除,进而实现模型优化和模型解释。
在步骤S150中,将所述第一异常数据的主体字段与所述负数据集的特征宽表中的主体字段进行比对,以确定所述第一异常数据中的风险数据。
在本示例的实施方式中,将第一异常数据的主体字段与负数据集的特征宽表中的主体字段进行比对,可以确定第一异常数据中包括的主体在负数据集中是否也存在,进而可以判断第一异常数据(来源于正数据集)是否可以与负数据集不同时间地数据成功进行冲销处理,进而确定第一异常数据中包括的主体是否满足正常财务操作下在两个方向的数据集都存在。可以确定第一异常数据中不可以与负数据集中其他时间的负数据成功进行冲销处理的数据(非正常财务操作产生的数据)为风险数据。
这样可以对孤立森林算法模型分析得到的正数据集中的第一异常数据中的主体字段,通过与财务数据发生方向相反的负数据集中的主体字段比较,进行确定第一异常数据中包括的主体是否满足正常财务操作下在两个方向的数据集都存在,进而进一步验证确定第一异常数据中的风险数据,进一步有效保证风险数据分析的可靠性和准确性。
一种实施例中,所述将所述第一异常数据的主体字段与所述负数据集的特征宽表中的主体字段进行比对,以确定所述第一异常数据中的风险数据,参考图3所示,包括:
步骤S310,将所述第一异常数据的主体字段与所述负数据集的特征宽表中的主体字段进行比对,以确定所述第一异常数据的主体字段中是否存在与所述负数据集的特征宽表中主体字段相同的字段;
步骤S320,如果所述第一异常数据的主体字段中存在与所述负数据集的特征宽表中主体字段相同的字段,则确定所述相同的字段对应的主体为预测异常数据主体;
步骤S330,基于所述预测异常数据主体确定所述第一异常数据中的风险数据。
步骤S331,将所述风险数据上传至区块链中。
将第一异常数据的主体字段与负数据集的特征宽表中的主体字段进行比对,例如,将第一异常数据的主体字段与负数数据集的主体字段进行取主体的机构代码部分进行比较;可以确定第一异常数据的主体字段中是否存在与负数据集的特征宽表中主体字段相同的字段,存在相同的字段说明第一异常数据的预测异常数据主体(相同的字段,例如机构代码,对应的异常数据主体)出现在负数据集的特征宽表主体中,则说明该预测异常数据主体的财务数据可能进行过科目金额调整的正常财务操作。通过负数据集体现的发生方向可以判断异常数据主体在某月份进行过大额的科目账目调整,结合原始明细账数据,可以进一步定位和分析异常的原因,可以方便业务人员排查和验证可疑数据,进而,可以基于预测异常数据主体确定第一异常数据中非进行过科目金额调整的正常财务操作的主体对应的风险数据。
基于风险数据得到对应的摘要信息,具体来说,摘要信息由风险数据进行散列处理得到,比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息,以便查证风险数据是否被篡改。
本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
一种实施例中,所述基于所述预测异常数据主体确定所述第一异常数据中的风险数据,包括:
如果所述预测异常数据主体在所述第一异常数据中对应的时间晚于所述预测异常数据主体在所述负数据集的特征宽表中的对应的时间,则确定所述预测异常数据主体在所述第一异常数据中对应数据为风险数据;
如果所述预测异常数据主体在所述第一异常数据中对应的时间早于所述预测异常数据主体在所述负数据集的特征宽表中的对应的时间,则获取所述预测异常数据主体的数据为负值时的后续时间的财务数据,以在基于所述后续时间的财务数据确定所述预测异常数据主体在所述第一异常数据中对应数据在所述后续时间不能够成功冲销处理时,确定所述预测异常数据主体在所述第一异常数据中对应数据为风险数据。
通过比较预测异常数据主体的时间,预测异常数据主体在第一异常数据中对应的时间晚于预测异常数据主体在负数据集的特征宽表中的对应的时间,则确定预测异常数据主体在第一异常数据中对应数据为风险数据,说明异常数据的并非科目调整所致。例如,如果负数数据集中预测异常数据主体的月份小于预测异常数据主体在第一异常数据的月份,则说明异常数据的并非科目调整所致,具有风险,可以进一步输出异常数据至人工稽核查验。
如果预测异常数据主体在第一异常数据中对应的时间早于预测异常数据主体在负数据集的特征宽表中的对应的时间,例如如果预测异常数据主体在负数数集中的月份大于在第一异常数据中对应的月份,则需要判断预测异常数据主体是否由于入账错误或科目调整,导致该月数据出现较大偏离正常值,即,表现在该机构该科目在后续月份出现大额负数金额。此时,则获取预测异常数据主体的数据为负值时的后续时间的财务数据,以在基于后续时间的财务数据确定预测异常数据主体在第一异常数据中对应数据在后续时间不能够成功冲销处理时,确定预测异常数据主体在第一异常数据中对应数据为风险数据。例如,导出为负数月份对应的原始明细账数据,通过财务明细账的摘要字段判断模型输出的预测异常数据主体的异常数据是否在后续月份进行冲销等。如果异常数据与负数数据集相对应(可以成功冲销处理),则可以判断该机构异常数据为科目入账调整所致,无风险。否则,预测异常数据主体的异常数据被认为具有较高风险,可以输出异常数据至人工稽核查验。
一种实施例中,所述方法还包括:
扩大所述孤立森林算法模型的异常样本比例阈值;
将所述群组基线变换后的正数据集特征宽表输入扩大异常样本比例阈值后的孤立森林算法模型,得到第二异常数据;
对所述第二异常数据进行聚类,得到多个异常数据簇,以基于所述多个异常数据簇获取异常数据模式。
扩大孤立森林算法模型的阈值,模型可以输出更多的异常数据,得到第二异常数据,然后,可以使用密度聚类算法对全部异常数据进行聚类,找出业务判断为异常数据的同类样本。可以在当聚类出来的样本数据不符合原来定义的异常数据模式时,停止聚类输出模型结果。通过聚类后异常样本类的特征表现进行分析,可以根据特征值总结出专家规则模型,专家规则模型可对异常检测数据的结果进行筛选,筛选出符合业务定义的异常数据模式。
可以将上述孤立森林算法模型和专家规则模型封装成Python脚本,通过shell脚本,部署到模型发布系统,模型定期运行,输出异常数据发送至地区稽核人员处。
本申请还提供了一种基于孤立森林算法的财务数据异常检测装置。,参考图4所示,该基于孤立森林算法的财务数据异常检测装置包括划分模块410、拆分模块420、构造模块430、预测模块440及确定模块450。其中:
划分模块410可以用于从数据库中获取预定时间段的财务数据,并根据预定数据类别字段将所述财务数据划分为多类子数据集;
拆分模块420可以用于将每类所述子数据集基于所述子数据集中的业务主体字段进行数据冲销处理后,拆分为正数据集及负数据集;
构造模块430可以用于通过特征构造分别生成所述正数据集及所述负数据集的特征宽表,并对所述正数据集的特征宽表进行群组基线划分,得到群组基线变换后的正数据集特征宽表;
预测模块440可以用于将所述群组基线变换后的正数据集特征宽表输入孤立森林算法模型,得到第一异常数据;
确定模块450可以用于将所述第一异常数据的主体字段与所述负数据集的特征宽表中的主体字段进行比对,以确定所述第一异常数据中的风险数据。
上述基于孤立森林算法的财务数据异常检测装置中各模块的具体细节已经在对应的基于孤立森林算法的财务数据异常检测方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本申请实施方式的方法。
在本申请的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图5来描述根据本发明的这种实施方式的电子设备500。图5显示的电子设备500仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于:上述至少一个处理单元510、上述至少一个存储单元520、连接不同系统组件(包括存储单元520和处理单元510)的总线530。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元510执行,使得所述处理单元510执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元510可以执行如图1中所示的步骤,在步骤S110中,从数据库中获取预定时间段的财务数据,并根据预定数据类别字段将所述财务数据划分为多类子数据集;在步骤S120中,将每类所述子数据集基于所述子数据集中的业务主体字段进行数据冲销处理后,拆分为正数据集及负数据集;在步骤S130中,通过特征构造分别生成所述正数据集及所述负数据集的特征宽表,并对所述正数据集的特征宽表进行群组基线划分,得到群组基线变换后的正数据集特征宽表;在步骤S140中,将所述群组基线变换后的正数据集特征宽表输入孤立森林算法模型,得到第一异常数据;在步骤S150中,将所述第一异常数据的主体字段与所述负数据集的特征宽表中的主体字段进行比对,以确定所述第一异常数据中的风险数据。
存储单元520可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)5201和/或高速缓存存储单元5202,还可以进一步包括只读存储单元(ROM)5203。
存储单元520还可以包括具有一组(至少一个)程序模块5205的程序/实用工具5204,这样的程序模块5205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线530可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备500也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得客户能与该电子设备500交互的设备通信,和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口550进行,还可以包括与输入/输出(I/O)接口550连接的显示单元540。并且,电子设备500还可以通过网络适配器560与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器560通过总线530与电子设备500的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本申请实施方式的方法。
在本申请的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
参考图6所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品600,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在客户计算设备上执行、部分地在客户设备上执行、作为一个独立的软件包执行、部分在客户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到客户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其他实施例。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求指出。
Claims (10)
1.一种基于孤立森林算法的财务数据异常检测方法,其特征在于,所述方法包括:
从数据库中获取预定时间段的财务数据,并根据预定数据类别字段将所述财务数据划分为多类子数据集;
将每类所述子数据集基于所述子数据集中的业务主体字段进行数据冲销处理后,拆分为正数据集及负数据集;
通过特征构造分别生成所述正数据集及所述负数据集的特征宽表,并对所述正数据集的特征宽表进行群组基线划分,得到群组基线变换后的正数据集特征宽表;
将所述群组基线变换后的正数据集特征宽表输入孤立森林算法模型,得到第一异常数据;
将所述第一异常数据的主体字段与所述负数据集的特征宽表中的主体字段进行比对,以确定所述第一异常数据中的风险数据。
2.根据权利要求1所述的方法,其特征在于,所述从数据库中获取预定时间段的财务数据,并根据预定数据类别字段将所述财务数据划分为多类子数据集,包括:
从数据库中获取预定时间段的财务数据,并根据不同财务科目代码字段将所述财务数据划分为不同科目的子数据集。
3.根据权利要求1所述的方法,其特征在于,所述业务主体字段包括贷方原币字段;所述将每类所述子数据集基于所述子数据集中的业务主体字段进行数据冲销处理后,拆分为正数据集及负数据集,包括:
将每类所述子数据集中贷方原币字段中报销单号相同、两报销单的贷方原币字段的金额字段正负值相反且绝对值相同的报销单号对应的数据删除后,得到每类所述子数据集中冲销后的数据集;
将每类所述子数据集中冲销后的数据集,根据贷方原币金额字段的正负值拆分为正数据集及负数据集。
4.根据权利要求1所述的方法,其特征在于,通过特征构造分别生成所述正数据集及所述负数据集的特征宽表,并对所述正数据集的特征宽表进行群组基线划分,得到群组基线变换后的正数据集特征宽表,包括:
根据预设特征表中财务数据的通用统计特征和业务特征,对所述正数据集及所述负数据集分别进行特征构造,生成所述正数据集及所述负数据集的特征宽表;
对所述正数据集的特征宽表中的机构按照机构规模基线划分为不同层级的机构,并对所述不同层级的机构的数据进行零均值归一化处理得到群组基线变换后的正数据集特征宽表。
5.根据权利要求1所述的方法,其特征在于,所述将所述第一异常数据的主体字段与所述负数据集的特征宽表中的主体字段进行比对,以确定所述第一异常数据中的风险数据,包括:
将所述第一异常数据的主体字段与所述负数据集的特征宽表中的主体字段进行比对,以确定所述第一异常数据的主体字段中是否存在与所述负数据集的特征宽表中主体字段相同的字段;
如果所述第一异常数据的主体字段中存在与所述负数据集的特征宽表中主体字段相同的字段,则确定所述相同的字段对应的主体为预测异常数据主体;
基于所述预测异常数据主体确定所述第一异常数据中的风险数据,将所述风险数据上传至区块链中。
6.根据权利要求5所述的方法,其特征在于,所述基于所述预测异常数据主体确定所述第一异常数据中的风险数据,包括:
如果所述预测异常数据主体在所述第一异常数据中对应的时间晚于所述预测异常数据主体在所述负数据集的特征宽表中的对应的时间,则确定所述预测异常数据主体在所述第一异常数据中对应数据为风险数据;
如果所述预测异常数据主体在所述第一异常数据中对应的时间早于所述预测异常数据主体在所述负数据集的特征宽表中的对应的时间,则获取所述预测异常数据主体的数据为负值时的后续时间的财务数据,以在基于所述后续时间的财务数据确定所述预测异常数据主体在所述第一异常数据中对应数据在所述后续时间不能够成功冲销处理时,确定所述预测异常数据主体在所述第一异常数据中对应数据为风险数据。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
扩大所述孤立森林算法模型的异常样本比例阈值;
将所述群组基线变换后的正数据集特征宽表输入扩大异常样本比例阈值后的孤立森林算法模型,得到第二异常数据;
对所述第二异常数据进行聚类,得到多个异常数据簇,以基于所述多个异常数据簇获取异常数据模式。
8.一种基于孤立森林算法的财务数据异常检测装置,其特征在于,所述装置包括:
划分模块,用于从数据库中获取预定时间段的财务数据,并根据预定数据类别字段将所述财务数据划分为多类子数据集;
拆分模块,用于将每类所述子数据集基于所述子数据集中的业务主体字段进行数据冲销处理后,拆分为正数据集及负数据集;
构造模块,用于通过特征构造分别生成所述正数据集及所述负数据集的特征宽表,并对所述正数据集的特征宽表进行群组基线划分,得到群组基线变换后的正数据集特征宽表;
预测模块,用于将所述群组基线变换后的正数据集特征宽表输入孤立森林算法模型,得到第一异常数据;
确定模块,用于将所述第一异常数据的主体字段与所述负数据集的特征宽表中的主体字段进行比对,以确定所述第一异常数据中的风险数据。
9.一种计算机可读存储介质,其上存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现权利要求1-7任一项所述的方法。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的计算机可读指令;其中,所述处理器配置为经由执行所述计算机可读指令来执行权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010331907.1A CN111612040B (zh) | 2020-04-24 | 2020-04-24 | 基于孤立森林算法的财务数据异常检测方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010331907.1A CN111612040B (zh) | 2020-04-24 | 2020-04-24 | 基于孤立森林算法的财务数据异常检测方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111612040A true CN111612040A (zh) | 2020-09-01 |
CN111612040B CN111612040B (zh) | 2024-04-30 |
Family
ID=72199645
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010331907.1A Active CN111612040B (zh) | 2020-04-24 | 2020-04-24 | 基于孤立森林算法的财务数据异常检测方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111612040B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487053A (zh) * | 2020-11-27 | 2021-03-12 | 重庆医药高等专科学校 | 海量财务数据异常控制提取工作方法 |
WO2022072231A1 (en) * | 2020-10-02 | 2022-04-07 | Intuit Inc. | Systems and methods providing contextual explanations for document understanding |
CN115150196A (zh) * | 2022-09-01 | 2022-10-04 | 北京金睛云华科技有限公司 | 正态分布下基于密文数据的异常检测方法、装置和设备 |
WO2023000482A1 (zh) * | 2021-07-23 | 2023-01-26 | 广州新科佳都科技有限公司 | 一种基于机理分析的站台门异常检测方法及装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050222929A1 (en) * | 2004-04-06 | 2005-10-06 | Pricewaterhousecoopers Llp | Systems and methods for investigation of financial reporting information |
US20050222928A1 (en) * | 2004-04-06 | 2005-10-06 | Pricewaterhousecoopers Llp | Systems and methods for investigation of financial reporting information |
US20100205076A1 (en) * | 2007-02-13 | 2010-08-12 | Future Route Limited | Methods and Apparatus for Analysing and/or Pre-Processing Financial Accounting Data |
CN104331502A (zh) * | 2014-11-19 | 2015-02-04 | 亚信科技(南京)有限公司 | 针对快递员周边人群营销中快递员数据的识别方法 |
CN109214904A (zh) * | 2018-10-11 | 2019-01-15 | 平安科技(深圳)有限公司 | 财务造假线索的获取方法、装置、计算机设备和存储介质 |
CN109657931A (zh) * | 2018-11-29 | 2019-04-19 | 平安科技(深圳)有限公司 | 风控模型建模、企业风险评估方法、装置和存储介质 |
CN109859029A (zh) * | 2019-01-04 | 2019-06-07 | 深圳壹账通智能科技有限公司 | 异常申请检测方法、装置、计算机设备以及存储介质 |
CN110210959A (zh) * | 2019-06-10 | 2019-09-06 | 广发证券股份有限公司 | 财务数据的分析方法、装置及存储介质 |
CN110365698A (zh) * | 2019-07-29 | 2019-10-22 | 杭州数梦工场科技有限公司 | 风险评估方法与装置 |
CN110472660A (zh) * | 2019-07-09 | 2019-11-19 | 深圳壹账通智能科技有限公司 | 异常数据检测方法、装置、计算机设备和存储介质 |
CN110490720A (zh) * | 2019-07-08 | 2019-11-22 | 深圳壹账通智能科技有限公司 | 财务数据分析预警方法、装置、计算机设备和存储介质 |
-
2020
- 2020-04-24 CN CN202010331907.1A patent/CN111612040B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050222929A1 (en) * | 2004-04-06 | 2005-10-06 | Pricewaterhousecoopers Llp | Systems and methods for investigation of financial reporting information |
US20050222928A1 (en) * | 2004-04-06 | 2005-10-06 | Pricewaterhousecoopers Llp | Systems and methods for investigation of financial reporting information |
US20100205076A1 (en) * | 2007-02-13 | 2010-08-12 | Future Route Limited | Methods and Apparatus for Analysing and/or Pre-Processing Financial Accounting Data |
CN104331502A (zh) * | 2014-11-19 | 2015-02-04 | 亚信科技(南京)有限公司 | 针对快递员周边人群营销中快递员数据的识别方法 |
CN109214904A (zh) * | 2018-10-11 | 2019-01-15 | 平安科技(深圳)有限公司 | 财务造假线索的获取方法、装置、计算机设备和存储介质 |
CN109657931A (zh) * | 2018-11-29 | 2019-04-19 | 平安科技(深圳)有限公司 | 风控模型建模、企业风险评估方法、装置和存储介质 |
CN109859029A (zh) * | 2019-01-04 | 2019-06-07 | 深圳壹账通智能科技有限公司 | 异常申请检测方法、装置、计算机设备以及存储介质 |
CN110210959A (zh) * | 2019-06-10 | 2019-09-06 | 广发证券股份有限公司 | 财务数据的分析方法、装置及存储介质 |
CN110490720A (zh) * | 2019-07-08 | 2019-11-22 | 深圳壹账通智能科技有限公司 | 财务数据分析预警方法、装置、计算机设备和存储介质 |
CN110472660A (zh) * | 2019-07-09 | 2019-11-19 | 深圳壹账通智能科技有限公司 | 异常数据检测方法、装置、计算机设备和存储介质 |
CN110365698A (zh) * | 2019-07-29 | 2019-10-22 | 杭州数梦工场科技有限公司 | 风险评估方法与装置 |
Non-Patent Citations (3)
Title |
---|
LV, BIN, ET AL.: "A Hybrid Model Based on Multi-dimensional Features for Insider Threat Detection", WIRELESS ALGORITHMS, SYSTEMS, AND APPLICATIONS, vol. 10874, pages 333 - 344 * |
薛凯泽: "财务数据异常检测方法研究", 科学与技术, no. 22, pages 1 - 2 * |
邓森林 等: "基于一类支持向量机的财务数据异常模式识别", 信息工程大学学报, vol. 16, no. 2, pages 251 - 256 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022072231A1 (en) * | 2020-10-02 | 2022-04-07 | Intuit Inc. | Systems and methods providing contextual explanations for document understanding |
CN112487053A (zh) * | 2020-11-27 | 2021-03-12 | 重庆医药高等专科学校 | 海量财务数据异常控制提取工作方法 |
WO2023000482A1 (zh) * | 2021-07-23 | 2023-01-26 | 广州新科佳都科技有限公司 | 一种基于机理分析的站台门异常检测方法及装置 |
CN115150196A (zh) * | 2022-09-01 | 2022-10-04 | 北京金睛云华科技有限公司 | 正态分布下基于密文数据的异常检测方法、装置和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111612040B (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111612040B (zh) | 基于孤立森林算法的财务数据异常检测方法及相关装置 | |
US7720751B2 (en) | System and method of continuous assurance for internal control | |
CN111192131A (zh) | 金融风险预测方法、装置和电子设备 | |
CN111127178A (zh) | 数据处理方法与装置、存储介质、电子设备 | |
CN110852878B (zh) | 一种可信度确定方法、装置、设备和存储介质 | |
CN111144697A (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN113034046A (zh) | 一种数据风险计量方法、装置、电子设备及存储介质 | |
US20170221075A1 (en) | Fraud inspection framework | |
CN112990294A (zh) | 行为判别模型的训练方法、装置、电子设备及存储介质 | |
CN112036997A (zh) | 预测纳税人中的非正常户的方法及装置 | |
CN113554504A (zh) | 一种车贷风控模型生成方法、装置及评分卡生成方法 | |
US11416926B1 (en) | Intelligent data matching and validation system | |
CN111582647A (zh) | 用户数据处理方法、装置及电子设备 | |
CN116720946A (zh) | 基于循环神经网络的信贷风险预测方法、装置和存储介质 | |
CN110766547A (zh) | 一种可信度等级的确定方法、装置、设备和存储介质 | |
US20220058341A1 (en) | Semantic language feature definition language for use in fraud detection | |
CN114626863A (zh) | 出口骗税企业的检测方法、装置、设备及存储介质 | |
CN112950392A (zh) | 信息展示方法、后验信息确定方法及装置及相关设备 | |
Estran et al. | Development of a Shadow Rating Model 1 | |
CN113052693B (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 | |
Moturi | Use Of Data Mining To Detect Fraud Health Insurance Claims | |
CN114328271A (zh) | 测试方法、装置、设备及存储介质 | |
WO2023230197A1 (en) | Automatic segmentation using hierarchical timeseries analysis | |
CN112700322A (zh) | 订单抽样检测方法、装置、电子设备和存储介质 | |
Petrov et al. | Basic Scenario Reports and Information Algorithms Intelligent System of Financial Monitoring |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |