CN117291740B - 一种基于大数据的应收账款资料真实性智能识别审核系统 - Google Patents
一种基于大数据的应收账款资料真实性智能识别审核系统 Download PDFInfo
- Publication number
- CN117291740B CN117291740B CN202311244296.7A CN202311244296A CN117291740B CN 117291740 B CN117291740 B CN 117291740B CN 202311244296 A CN202311244296 A CN 202311244296A CN 117291740 B CN117291740 B CN 117291740B
- Authority
- CN
- China
- Prior art keywords
- sample
- data
- rate
- enterprise
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000005070 sampling Methods 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 19
- 238000012550 audit Methods 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 44
- 238000012360 testing method Methods 0.000 claims description 40
- 238000012549 training Methods 0.000 claims description 37
- 230000007306 turnover Effects 0.000 claims description 36
- 239000011159 matrix material Substances 0.000 claims description 28
- 238000006243 chemical reaction Methods 0.000 claims description 16
- 230000009471 action Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012706 support-vector machine Methods 0.000 claims description 4
- 238000007477 logistic regression Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 239000000463 material Substances 0.000 claims 1
- 230000008901 benefit Effects 0.000 abstract description 5
- 238000000605 extraction Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 238000004140 cleaning Methods 0.000 description 4
- 238000013524 data verification Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/125—Finance or payroll
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Technology Law (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本申请提供一种基于大数据的应收账款资料真实性智能识别审核系统,包括:数据获取单元,用于获取待审核企业的目标财务数据,其中,目标财务数据包括企业年报、销售订单信息、采购订单信息、回款信息、付款信息和待审核企业所在行业的行业数据;数据处理单元,用于对目标财务数据进行预处理;样本化单元,用于对预处理后的目标财务数据进行样本化处理,确定出待审核企业对应的目标样本;智能审核单元,用于将目标样本输入至预设的资料审核模型中,确定出资料真实性审核结果并输出。本方案能够充分利用大数据的优势,考虑应收账款资料中的数据特点,准确而高效地实现对应收账款资料的真实性审核。
Description
技术领域
本申请涉及大数据技术领域,具体而言,涉及一种基于大数据的应收账款资料真实性智能识别审核系统。
背景技术
应收账款作为企业资金回流的关键环节,对于财务报告的准确性和真实性显得尤为重要。然而,传统的应收账款审核方法往往面临人工操作繁琐、审核效率低下等问题,限制了企业、审计机构、三方金融机构等相关方对企业的应收账款资料真实性的判断。传统的审核方案,通常是人工进行审查,效率低下且工作量巨大,难以高效实现对应收账款资料真实性的准确判断。
发明内容
本申请实施例的目的在于提供一种基于大数据的应收账款资料真实性智能识别审核系统,以利用大数据的优势,高效实现对应收账款资料真实性的准确判断。
为了实现上述目的,本申请的实施例通过如下方式实现:
第一方面,本申请实施例提供一种基于大数据的应收账款资料真实性智能识别审核系统,包括:数据获取单元,用于获取待审核企业的目标财务数据,其中,目标财务数据包括企业年报、销售订单信息、采购订单信息、回款信息、付款信息和待审核企业所在行业的行业数据;数据处理单元,用于对目标财务数据进行预处理;样本化单元,用于对预处理后的目标财务数据进行样本化处理,确定出待审核企业对应的目标样本;智能审核单元,用于将目标样本输入至预设的资料审核模型中,确定出资料真实性审核结果并输出。
结合第一方面,在第一方面的第一种可能的实现方式中,资料审核模型的构建过程为:S1:获取企业数据集,其中,企业数据集包括N个企业的财务数据,其中,每个财务数据包括企业年报、销售订单信息、采购订单信息、回款信息、付款信息和该企业所在行业的行业数据,以及标注的样本标签,其中,样本标签为真实样本或虚假样本;S2:对企业数据集中每个企业的财务数据进行预处理;S3:对每个预处理后的财务数据进行样本化处理,确定出每个企业对应的样本,共确定出N个样本;S4:对N个样本进行聚类,确定出k个聚类,并生成包含N个k维列向量的k×N的特征矩阵,其中,每个列向量对应一个企业,每行对应一个聚类后的新特征;S5:将特征矩阵划分训练集和测试集,利用训练集对初始模型进行训练,利用测试集对训练后的模型进行测试,得到训练好的识别模型,其中,进行特征转换的聚类模型和进行真实性识别的识别模型作为资料审核模型。
结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,S3:对每个预处理后的财务数据进行样本化处理,确定出每个企业对应的样本,包括:针对每个预处理后的财务数据:对预处理后的财务数据进行特征提取,确定出财务特征,其中,财务特征包括应收账款总额、应收账款与销售额比例、坏账比例、呆账比例、应收账款增长率、坏账增长率、呆账增长率、应收账款周转率、流动比率、速动比率、经营现金比率、资产负债比率、产权比率、净利润增长率、固定资产增长率、资产负债比率、流动资产周转率、运营资金周转率、总资产周转率、固定资产周转率、净资产收益率、营业利润率;对销售订单信息进行特征提取,确定出销售特征,其中,销售特征包括年度销售频率、年度销售金额分布、年度销售增长率、月度销售频率、月度销售金额分布、月度销售增长率;对采购订单信息进行特征提取,确定出采购特征,其中,采购特征包括年度采购频率、年度采购金额分布、年度采购增长率、月度采购频率、月度采购金额分布、月度采购增长率;对回款信息进行特征提取,确定出回款特征,其中,回款特征包括回款总额、回款频率、回款增长率、回款金额分布;对付款信息进行特征提取,确定出付款特征,其中,付款特征包括付款总额、付款频率、付款增长率、付款金额分布;对目标行业数据进行特征提取,确定出行业特征,其中,行业特征包括行业平均应收账款周转天数和行业整体增长率;基于财务特征、销售特征、采购特征、回款特征、付款特征、行业特征,形成样本。
结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,S4:对N个样本进行聚类,确定出k个聚类,并生成包含N个k维列向量的k×N的特征矩阵,包括:S41:对N个样本形成样本集X,利用肘部法或轮廓系数法确定聚类中心的个数k,并随机选取k个样本作为初始的聚类中心;S42:计算样本集X中每个样本xi与每个聚类中心的相似度,并分配到相似度最高的聚类中;S43:针对每个聚类,计算当前聚类中的所有样本的平均值,更新当前聚类中心,之后执行S44;S44:判断是否达到终止条件:若未达到终止条件,重复S42和S43;若达到终止条件,执行S45,其中,终止条件为第I+1次聚类的代价函数与第I次聚类的代价函数之差小于收敛极限;S45:基于k个聚类中心对每个样本进行特征转换,得到包含N个k维列向量的k×N的特征矩阵F。
结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,S42中,样本xi=[xi1,xi2,…,xiZ],采用以下公式计算样本集X中每个样本xi与每个聚类中心的相似度:
其中,表示样本xi与第I次迭代中第j个聚类中心/>的相似度,σ为常数,用于调节样本与聚类中心的距离变化时的密度,Z为样本xi的属性总数,xim表示样本xi的第m个属性的元素,/>表示第I次迭代中第j个聚类中心/>的第m个属性的元素,rim表示样本xi的第m个属性的权重,且满足:
其中,不为0。
结合第一方面的第四种可能的实现方式,在第一方面的第五种可能的实现方式中,S43中,采用以下公式更新聚类中心:
其中,为更新后的用于第I+1次迭代的第j个聚类中心,/>为第I次迭代得到的第j个聚类,/>为第I次迭代得到的第j个聚类/>的样本个数。
结合第一方面的第五种可能的实现方式,在第一方面的第六种可能的实现方式中,S44中,代价函数为:
其中,U(I)为第I次迭代的代价;
终止条件为:
|U(I+1)-U(I)|<γ,
其中,γ为收敛极限。
结合第一方面的第四种可能的实现方式,在第一方面的第七种可能的实现方式中,S45中,基于k个聚类中心对每个样本进行特征转换,得到包含N个k维列向量的k×N的特征矩阵F,包括:
针对每个样本:
基于样本xi与k个聚类中心之间的相似度,生成一个k维列向量;
组合N个k维列向量,得到k×N的特征矩阵F:
其中,对于k维列向量fi中的第j个特征值fji,i={1,2,…,k},j={1,2,…,N},特征矩阵F的每一行对应一个聚类中心,即一个新的特征,特征矩阵F的每一列对应一个样本。
结合第一方面的第七种可能的实现方式,在第一方面的第八种可能的实现方式中,基于样本xi与k个聚类中心之间的相似度,生成一个k维列向量,包括:
采用以下公式计算样本xi对应的k维列向量fi中第j个特征值fji:
其中,fji为k维列向量fi中第j个特征值,为样本xi与第j个聚类中心/>的相似度,/>为第j个聚类的聚类中心,a为正数,k为聚类总数,/>为样本xi与第p个聚类中心/>的相似度;
基于计算得到的k个特征值,形成样本xi对应的k维列向量fi。
结合第一方面的第七种可能的实现方式,在第一方面的第九种可能的实现方式中,S5中,将特征矩阵划分训练集和测试集,利用训练集对初始模型进行训练,利用测试集对训练后的模型进行测试,得到训练好的识别模型,包括:
将特征矩阵F的每个列向量的转置作为一个特征样本形成N样本的特征集,对特征集按照设定比例划分为训练集和测试集,其中,每个特征样本具有标注的样本标签;
利用训练集和测试集对搭建的初始模型进行训练和测试,训练和测试完成后,得到识别模型,其中,初始模型为逻辑回归模型或支持向量机。
有益效果:
1.本方案利用待审核企业的目标财务数据(企业年报、销售订单信息、采购订单信息、回款信息、付款信息和待审核企业所在行业的行业数据),通过对目标财务数据进行清洗、去重和缺失值处理等预处理步骤,确保了数据的质量和可靠性。而通过样本化,从目标财务数据中提取出更能反映企业应收账款资料真实性的多种维度的特征(例如财务特征,包括应收账款总额、应收账款与销售额比例、坏账比例、呆账比例、应收账款增长率、坏账增长率、呆账增长率、应收账款周转率、流动比率、速动比率、经营现金比率、资产负债比率、产权比率、净利润增长率、固定资产增长率、资产负债比率、流动资产周转率、运营资金周转率、总资产周转率、固定资产周转率、净资产收益率、营业利润率;销售特征,包括年度销售频率、年度销售金额分布、年度销售增长率、月度销售频率、月度销售金额分布、月度销售增长率;采购特征,包括年度采购频率、年度采购金额分布、年度采购增长率、月度采购频率、月度采购金额分布、月度采购增长率;回款特征,包括回款总额、回款频率、回款增长率、回款金额分布;付款特征,包括付款总额、付款频率、付款增长率、付款金额分布;行业特征,包括行业平均应收账款周转天数和行业整体增长率等),形成样本,输入到预设的资料审核模型中,进行资料真实性识别。从海量的财务数据中筛选出关键特征,这些特征能够充分反映应收账款的真实性。这样构建的基于大数据的应收账款资料真实性智能识别审核系统,能够充分利用大数据的优势,考虑应收账款资料中的数据特点,准确而高效地实现对应收账款资料的真实性审核。
2.构建的资料审核模型,通过对N个样本进行聚类,确定出k个聚类,并生成包含N个k维列向量的k×N的特征矩阵(通过对k-means聚类算法进行改进,使得聚类更适合财务数据的聚类,实现特征转换),对样本进行有效的信息提取,减少不必要的噪音和冗余信息,确定出合适的特征数量(即聚类个数),能够保留重要信息,有利于解决维度灾难;而通过聚类转换的特征,相较于传统的拟定特征的方式,能够更有效地反映应收账款确权风险的影响因素),将特征矩阵划分训练集和测试集,利用训练集对初始模型进行训练,利用测试集对训练后的模型进行测试,得到训练好的识别模型,从而保证整个资料审核模型(包含进行特征转换的聚类模型和进行真实性识别的识别模型)对资料真实性审核的准确性和可靠性。
3.设计聚类中样本与聚类中心的相似度计算方式,考虑样本中各属性的权重,使得这种相似度更利于对财务数据各属性指标的相似性衡量,便于更好地形成更有效的聚类(特征),对应收账款资料真实性审核的反映能力更强。以此聚类后的聚类为基础,利用各样本与聚类中心的相似度,转换成各样本对应的新的特征,用以进行识别模型的训练和测试,从而提升资料审核模型对待审核企业的应收账款资料真实性审核的准确性和可靠性。
4.在将样本转换为特征,计算特征值时,利用样本与当前聚类中心的相似度进行计算,还能考虑样本与其他聚类中心的相似度影响,样本与其他聚类中心的相似度越高(或越低),在计算特征值时,影响越大(或越小),能够对样本与每个聚类中心的特征值起到强化作用,而对于与各个聚类中心的相似度差异不大的样本来说,计算特征值时,则会被弱化,因为分类差异不明显,这类样本在进行资料审核模型中的作用相对更小,因此进行一定的弱化,有利于提高资料审核模型的训练效果,从而提升资料审核模型对应收账款资料真实性判断的准确性。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种基于大数据的应收账款资料真实性智能识别审核系统的示意图。
图2为构建资料审核模型的流程图。
图3为步骤S4的子流程图。
图标:10-基于大数据的应收账款资料真实性智能识别审核系统;11-数据获取单元;12-数据处理单元;13-样本化单元;14-智能审核单元。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
请参阅图1,图1为本申请实施例提供的一种基于大数据的应收账款资料真实性智能识别审核系统10的示意图。基于大数据的应收账款资料真实性智能识别审核系统10部署在服务器上(例如云服务器、服务器集群等),可以包括数据获取单元11、数据处理单元12、样本化单元13和智能审核单元14,智能审核单元14中预设有训练好的资料审核模型。
为了便于对本方案的理解,以下将对资料审核模型的构建过程先进行介绍。
请参阅图2,图2为构建资料审核模型的流程图。在本实施例中,构建资料审核模型包括步骤S1、步骤S2、步骤S3、步骤S4、步骤S5。
步骤S1:获取企业数据集,其中,企业数据集包括N个企业的财务数据,其中,每个财务数据包括企业年报、销售订单信息、采购订单信息、回款信息、付款信息和该企业所在行业的行业数据,以及标注的样本标签,其中,样本标签为真实样本或虚假样本。
S2:对企业数据集中每个企业的财务数据进行预处理。
S3:对每个预处理后的财务数据进行样本化处理,确定出每个企业对应的样本,共确定出N个样本。
S4:对N个样本进行聚类,确定出k个聚类,并生成包含N个k维列向量的k×N的特征矩阵,其中,每个列向量对应一个企业,每行对应一个聚类后的新特征。
S5:将特征矩阵划分训练集和测试集,利用训练集对初始模型进行训练,利用测试集对训练后的模型进行测试,得到训练好的识别模型,其中,进行特征转换的聚类模型和进行真实性识别的识别模型作为资料审核模型。
首先,服务器可以获取企业数据集,其中,企业数据集包括N个企业的财务数据,其中,每个财务数据包括企业年报、销售订单信息、采购订单信息、回款信息、付款信息和该企业所在行业的行业数据,以及标注的样本标签,其中,样本标签为真实样本或虚假样本(虚假样本可以是对某个真实样本的财务数据进行一定的改动后得到,也可以是实际中收集到的企业提供的虚假财务数据,有条件的情况下,一般是选后者,在后者数量不足的情况下,对真实样本进行作假,变成虚假样本,替换掉原有的真实样本)。
得到企业数据集后,服务器可以对企业数据集中每个企业的财务数据进行预处理。例如数据整合(包含去重)、清洗(包含缺失值和异常值的处理)等,确保每个财务数据中的各项信息只出现一次,不会重复出现影响模型精度。
预处理后,服务器可以对每个预处理后的财务数据进行样本化处理,确定出每个企业对应的样本,共确定出N个样本。
示例性的,针对每个预处理后的财务数据:
服务器可以对预处理后的财务数据进行特征提取,确定出财务特征,其中,财务特征包括应收账款总额、应收账款与销售额比例、坏账比例、呆账比例、应收账款增长率、坏账增长率、呆账增长率、应收账款周转率、流动比率、速动比率、经营现金比率、资产负债比率、产权比率、净利润增长率、固定资产增长率、资产负债比率、流动资产周转率、运营资金周转率、总资产周转率、固定资产周转率、净资产收益率、营业利润率;对销售订单信息进行特征提取,确定出销售特征,其中,销售特征包括年度销售频率、年度销售金额分布、年度销售增长率、月度销售频率、月度销售金额分布、月度销售增长率;对采购订单信息进行特征提取,确定出采购特征,其中,采购特征包括年度采购频率、年度采购金额分布、年度采购增长率、月度采购频率、月度采购金额分布、月度采购增长率;对回款信息进行特征提取,确定出回款特征,其中,回款特征包括回款总额、回款频率、回款增长率、回款金额分布;对付款信息进行特征提取,确定出付款特征,其中,付款特征包括付款总额、付款频率、付款增长率、付款金额分布;对目标行业数据进行特征提取,确定出行业特征,其中,行业特征包括行业平均应收账款周转天数和行业整体增长率。
提取的各项特征如表1所示:
表1.
确定出财务特征、销售特征、采购特征、回款特征、付款特征、行业特征后,可以形成每个企业对应的样本,共确定出N个样本。当然,每个样本会有标签,标注有虚假样本或真实样本,在特征转换阶段不产生影响,在后续模型训练和测试中会用到。
确定出N个样本后,服务器可以对N个样本进行聚类,确定出k个聚类,并生成包含N个k维列向量的k×N的特征矩阵,其中,每个列向量对应一个企业,每行对应一个聚类后的新特征。
请参阅图3,图3为步骤S4的子流程图。S4可以包括S41、S42、S43、S44和S45。
首先,服务器可以执行S41。
S41:对N个样本形成样本集X,利用肘部法或轮廓系数法确定聚类中心的个数k,并随机选取k个样本作为初始的聚类中心。
在本实施例中,服务器可以对N个样本形成样本集X,由于k-means聚类,需要利用先验知识确定聚类数量,本方案利用肘部法或轮廓系数法确定聚类中心的个数k。再从样本集X的N个样本中随机选取k个样本作为初始的聚类中心。
确定出k个初始的聚类中心后,服务器可以执行S42。
S42:计算样本集X中每个样本xi与每个聚类中心的相似度,并分配到相似度最高的聚类中。
在本实施例中,样本xi记为xi=[xi1,xi2,…,xiZ],其中,Z为样本xi的属性维度数量。
那么,服务器可以采用以下公式计算样本集X中每个样本xi与每个聚类中心的相似度:
其中,表示样本xi与第I次迭代中第j个聚类中心/>的相似度,σ为常数,用于调节样本与聚类中心的距离变化时的密度,Z为样本xi的属性总数,xim表示样本xi的第m个属性的元素,/>表示第I次迭代中第j个聚类中心/>的第m个属性的元素,rim表示样本xi的第m个属性的权重,且满足:
其中,不为0。
计算出样本xi与每个聚类中心的相似度后,服务器可以将样本xi分配到相似度最高的聚类中(即分配到与样本xi的相似度最高的聚类中心所在的聚类中)。
由此可以计算出每个样本每个聚类中心的相似度,之后服务器可以执行S43。
S43:针对每个聚类,计算当前聚类中的所有样本的平均值,更新当前聚类中心,之后执行S44。
在本实施例中,针对每个聚类:服务器计算当前聚类中的所有样本的平均值,以更新当前聚类中心。
示例性的,服务器可以采用以下公式更新聚类中心:
其中,为更新后的用于第I+1次迭代的第j个聚类中心,/>为第I次迭代得到的第j个聚类,/>为第I次迭代得到的第j个聚类/>的样本个数。
更新聚类中心后,服务器可以执行S44。
执行S44:判断是否达到终止条件:若未达到终止条件,重复S42和S43;若达到终止条件,执行S45,其中,终止条件为第I+1次聚类的代价函数与第I次聚类的代价函数之差小于收敛极限。
在本实施例中,更新聚类中心后,服务器可以判断当前是否达到终止条件。例如,代价函数设计为:
其中,U(I)为第I次迭代的代价。
而终止条件设计为:
|U(I+1)-U(I)||<γ, (5)
其中,γ为收敛极限。
若未达到终止条件,服务器重复S42和S43,每次迭代后进行一次判断。
若达到终止条件,服务器执行S45。
S45:基于k个聚类中心对每个样本进行特征转换,得到包含N个k维列向量的k×N的特征矩阵F。
在本实施例中,服务器可以基于k个聚类中心对每个样本进行特征转换。
针对每个样本:服务器可以基于样本xi与k个聚类中心之间的相似度,生成一个k维列向量。
例如,服务器可以将样本xi与第j个聚类中心的相似度/>作为样本xi对应的k维列向量fi中第j个特征值fji,由此得到样本xi对应的k维列向量fi。
为了进一步提高转换后特征对应收账款资料真实性的反映能力,本实施例将通过以下方式强化辨识度高的特征,弱化辨识度差的特征。具体的,服务器可以采用以下公式计算样本xi对应的k维列向量fi中第j个特征值fji:
其中,fji为k维列向量fi中第j个特征值,为样本xi与第j个聚类中心/>的相似度,/>为第j个聚类的聚类中心,a为正数(可以取值为/>到k-1之间),k为聚类总数,为样本xi与第p个聚类中心/>的相似度。
基于计算得到的k个特征值,形成样本xi对应的k维列向量fi。
组合N个k维列向量,得到k×N的特征矩阵F:
其中,对于k维列向量fi中的第j个特征值fji,i={1,2,…,k},j={1,2,…,N},特征矩阵F的每一行对应一个聚类中心,即一个新的特征,特征矩阵F的每一列对应一个样本。
由此,可以完成特征转换。需要说明的是,本实施例中并未采用本单位另一件专利中改进近邻传播算法实现特征转换的方式,因为试验之后,对于财务数据的特征提取,用于识别资料真实性,精度仍然不太够,而改进相似度衡量方式(引入待定距离并使用算法寻优),则会提升整个系统计算的复杂度,降低运行效率,对于本方案用于判断应收账款资料真实性来说,就不那么符合需求(更注重效率和可靠性)。而财务数据的特征相对更单一一些(不如风险评估中各个特征的多元化特点),因此,采用k-means算法的框架,改进相似度衡量方式,对转换特征进行差异化处理,以提高利用转换特征训练和测试的模型的精准度,从而取得更佳的识别效果,保证应收账款资料真实性审核的可靠性和准确性。
得到k×N的特征矩阵F后,服务器可以将特征矩阵划分训练集和测试集,利用训练集对初始模型进行训练,利用测试集对训练后的模型进行测试,得到训练好的识别模型,其中,进行特征转换的聚类模型和进行真实性识别的识别模型作为资料审核模型。
示例性的,服务器可以将特征矩阵F的每个列向量的转置作为一个特征样本,形成N样本的特征集,对特征集按照设定比例(例如7:3,8:2等)划分为训练集和测试集,其中,每个特征样本具有标注的样本标签(真实样本或虚假样本)。
然后,服务器可以利用训练集和测试集对搭建的初始模型进行训练和测试,训练和测试完成后,得到识别模型。本实施例中,由于是判别样本的真实性,属于二分类问题,因此,初始模型选择逻辑回归模型或支持向量机更加合适(为了适应本方案所提供的特征样本,实现对应收账款资料真实性的准确判别,支持向量机可以采用高斯核函数构建决策函数,以便更准确地进行判断)。
由此,构建的资料审核模型,通过对N个样本进行聚类,确定出k个聚类,并生成包含N个k维列向量的k×N的特征矩阵(通过对k-means聚类算法进行改进,使得聚类更适合财务数据的聚类,实现特征转换),对样本进行有效的信息提取,减少不必要的噪音和冗余信息,确定出合适的特征数量(即聚类个数),能够保留重要信息,有利于解决维度灾难;而通过聚类转换的特征,相较于传统的拟定特征的方式,能够更有效地反映应收账款确权风险的影响因素),将特征矩阵划分训练集和测试集,利用训练集对初始模型进行训练,利用测试集对训练后的模型进行测试,得到训练好的识别模型,从而保证整个资料审核模型(包含进行特征转换的聚类模型和进行真实性识别的识别模型)对资料真实性审核的准确性和可靠性。
设计聚类中样本与聚类中心的相似度计算方式,考虑样本中各属性的权重,使得这种相似度更利于对财务数据各属性指标的相似性衡量,便于更好地形成更有效的聚类(特征),对应收账款资料真实性审核的反映能力更强。以此聚类后的聚类为基础,利用各样本与聚类中心的相似度,转换成各样本对应的新的特征,用以进行识别模型的训练和测试,从而提升资料审核模型对待审核企业的应收账款资料真实性审核的准确性和可靠性。
在将样本转换为特征,计算特征值时,利用样本与当前聚类中心的相似度进行计算,还能考虑样本与其他聚类中心的相似度影响,样本与其他聚类中心的相似度越高(或越低),在计算特征值时,影响越大(或越小),能够对样本与每个聚类中心的特征值起到强化作用;而对于与各个聚类中心的相似度差异不大的样本来说,计算特征值时,则会被弱化,因为分类差异不明显,这类样本在进行资料审核模型中的作用相对更小,因此进行一定的弱化,有利于提高资料审核模型的训练效果,从而提升资料审核模型对应收账款资料真实性判断的准确性。
以上是对构建资料审核模型的介绍,以下将继续对基于大数据的应收账款资料真实性智能识别审核系统10进行介绍。
在本实施例中,数据获取单元11,可以获取待审核企业的目标财务数据,其中,目标财务数据包括企业年报、销售订单信息、采购订单信息、回款信息、付款信息和待审核企业所在行业的行业数据。
而数据处理单元12,则用于对目标财务数据进行预处理,例如去重、清洗(包含缺失值、异常值的处理)等。
预处理完成后,样本化单元13可以对预处理后的目标财务数据进行样本化处理,确定出待审核企业对应的目标样本。
例如,样本化单元13可以对预处理后的目标财务数据进行特征提取,确定出财务特征,其中,财务特征包括应收账款总额、应收账款与销售额比例、坏账比例、呆账比例、应收账款增长率、坏账增长率、呆账增长率、应收账款周转率、流动比率、速动比率、经营现金比率、资产负债比率、产权比率、净利润增长率、固定资产增长率、资产负债比率、流动资产周转率、运营资金周转率、总资产周转率、固定资产周转率、净资产收益率、营业利润率。
以及,样本化单元13可以对销售订单信息进行特征提取,确定出销售特征,其中,销售特征包括年度销售频率、年度销售金额分布、年度销售增长率、月度销售频率、月度销售金额分布、月度销售增长率。
样本化单元13可以对采购订单信息进行特征提取,确定出采购特征,其中,采购特征包括年度采购频率、年度采购金额分布、年度采购增长率、月度采购频率、月度采购金额分布、月度采购增长率。
样本化单元13可以对回款信息进行特征提取,确定出回款特征,其中,回款特征包括回款总额、回款频率、回款增长率、回款金额分布。
样本化单元13可以对付款信息进行特征提取,确定出付款特征,其中,付款特征包括付款总额、付款频率、付款增长率、付款金额分布。
样本化单元13还可以对目标行业数据进行特征提取,确定出行业特征,其中,行业特征包括行业平均应收账款周转天数和行业整体增长率。
具体的特征提取方式,可以参阅前文对财务数据的样本化的介绍,此处不再赘述。
得到财务特征、销售特征、采购特征、回款特征、付款特征、行业特征后,样本化单元13可以形成目标样本。
而智能审核单元14,则可以将目标样本输入至预设的资料审核模型中,确定出资料真实性审核结果并输出。
资料审核模型在得到输入的目标样本后,可以计算目标样本与k个聚类中心的相似度,从而利用式(6)计算出每个特征值,从而形成k维列向量ftarget,作为待审核企业对应的样本特征。而后可以将k维列向量ftarget输入训练好的识别模型中,进行样本的类别判断(即判断属于真实样本还是虚假样本),从而实现对待审核企业的应收账款资料真实性的智能审核,高效地给出可靠而准确的审核结论。
综上所述,本申请实施例提供一种基于大数据的应收账款资料真实性智能识别审核系统,利用待审核企业的目标财务数据(企业年报、销售订单信息、采购订单信息、回款信息、付款信息和待审核企业所在行业的行业数据),通过对目标财务数据进行清洗、去重和缺失值处理等预处理步骤,确保了数据的质量和可靠性。而通过样本化,从目标财务数据中提取出更能反映企业应收账款资料真实性的多种维度的特征(例如财务特征,包括应收账款总额、应收账款与销售额比例、坏账比例、呆账比例、应收账款增长率、坏账增长率、呆账增长率、应收账款周转率、流动比率、速动比率、经营现金比率、资产负债比率、产权比率、净利润增长率、固定资产增长率、资产负债比率、流动资产周转率、运营资金周转率、总资产周转率、固定资产周转率、净资产收益率、营业利润率;销售特征,包括年度销售频率、年度销售金额分布、年度销售增长率、月度销售频率、月度销售金额分布、月度销售增长率;采购特征,包括年度采购频率、年度采购金额分布、年度采购增长率、月度采购频率、月度采购金额分布、月度采购增长率;回款特征,包括回款总额、回款频率、回款增长率、回款金额分布;付款特征,包括付款总额、付款频率、付款增长率、付款金额分布;行业特征,包括行业平均应收账款周转天数和行业整体增长率等),形成样本,输入到预设的资料审核模型中,进行资料真实性识别。从海量的财务数据中筛选出关键特征,这些特征能够充分反映应收账款的真实性。这样构建的基于大数据的应收账款资料真实性智能识别审核系统,能够充分利用大数据的优势,考虑应收账款资料中的数据特点,准确而高效地实现对应收账款资料的真实性审核。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (3)
1.一种基于大数据的应收账款资料真实性智能识别审核系统,其特征在于,包括:
数据获取单元,用于获取待审核企业的目标财务数据,其中,目标财务数据包括企业年报、销售订单信息、采购订单信息、回款信息、付款信息和待审核企业所在行业的行业数据;
数据处理单元,用于对目标财务数据进行预处理;
样本化单元,用于对预处理后的目标财务数据进行样本化处理,确定出待审核企业对应的目标样本;
智能审核单元,用于将目标样本输入至预设的资料审核模型中,确定出资料真实性审核结果并输出;
资料审核模型的构建过程为:
S1:获取企业数据集,其中,企业数据集包括N个企业的财务数据,其中,每个财务数据包括企业年报、销售订单信息、采购订单信息、回款信息、付款信息和该企业所在行业的行业数据,以及标注的样本标签,其中,样本标签为真实样本或虚假样本;
S2:对企业数据集中每个企业的财务数据进行预处理;
S3:对每个预处理后的财务数据进行样本化处理,确定出每个企业对应的样本,共确定出N个样本;
S4:对N个样本进行聚类,确定出k个聚类,并生成包含N个k维列向量的k×N的特征矩阵,其中,每个列向量对应一个企业,每行对应一个聚类后的新特征;
S5:将特征矩阵划分训练集和测试集,利用训练集对初始模型进行训练,利用测试集对训练后的模型进行测试,得到训练好的识别模型,其中,进行特征转换的聚类模型和进行真实性识别的识别模型作为资料审核模型;
其中,S4:对N个样本进行聚类,确定出k个聚类,并生成包含N个k维列向量的k×N的特征矩阵,包括:
S41:对N个样本形成样本集X,利用肘部法或轮廓系数法确定聚类中心的个数k,并随机选取k个样本作为初始的聚类中心;
S42:计算样本集X中每个样本xi与每个聚类中心的相似度,并分配到相似度最高的聚类中;
S43:针对每个聚类,计算当前聚类中的所有样本的平均值,更新当前聚类中心,之后执行S44;
S44:判断是否达到终止条件:若未达到终止条件,重复S42和S43;若达到终止条件,执行S45,其中,终止条件为第I+1次聚类的代价函数与第I次聚类的代价函数之差小于收敛极限;
S45:基于k个聚类中心对每个样本进行特征转换,得到包含N个k维列向量的k×N的特征矩阵F;
S42中,样本xi=[xi1,xi2,…,xiZ],采用以下公式计算样本集X中每个样本xi与每个聚类中心的相似度:
其中,表示样本xi与第I次迭代中第j个聚类中心/>的相似度,σ为常数,用于调节样本与聚类中心的距离变化时的密度,Z为样本xi的属性总数,xim表示样本xi的第m个属性的元素,/>表示第I次迭代中第j个聚类中心/>的第m个属性的元素,rim表示样本xi的第m个属性的权重,且满足:
其中,不为0;
S43中,采用以下公式更新聚类中心:
其中,为更新后的用于第I+1次迭代的第j个聚类中心,/>为第I次迭代得到的第j个聚类,/>为第I次迭代得到的第j个聚类/>的样本个数;
S44中,代价函数为:
其中,U(I)为第I次迭代的代价;
终止条件为:
|U(I+1)-U(I)|<γ,
其中,γ为收敛极限;
S45中,基于k个聚类中心对每个样本进行特征转换,得到包含N个k维列向量的k×N的特征矩阵F,包括:
针对每个样本:
基于样本xi与k个聚类中心之间的相似度,生成一个k维列向量;
组合N个k维列向量,得到k×N的特征矩阵F:
其中,对于k维列向量fi中的第j个特征值fji,i={1,2,…,k},j={1,2,…,N},特征矩阵F的每一行对应一个聚类中心,即一个新的特征,特征矩阵F的每一列对应一个样本;
其中,基于样本xi与k个聚类中心之间的相似度,生成一个k维列向量,包括:
采用以下公式计算样本xi对应的k维列向量fi中第j个特征值fji:
其中,fji为k维列向量fi中第j个特征值,为样本xi与第j个聚类中心/>的相似度,/>为第j个聚类的聚类中心,a为正数,k为聚类总数,/>为样本xi与第p个聚类中心/>的相似度;
基于计算得到的k个特征值,形成样本xi对应的k维列向量fi。
2.根据权利要求1所述的基于大数据的应收账款资料真实性智能识别审核系统,其特征在于,S3:对每个预处理后的财务数据进行样本化处理,确定出每个企业对应的样本,包括:
针对每个预处理后的财务数据:
对预处理后的财务数据进行特征提取,确定出财务特征,其中,财务特征包括应收账款总额、应收账款与销售额比例、坏账比例、呆账比例、应收账款增长率、坏账增长率、呆账增长率、应收账款周转率、流动比率、速动比率、经营现金比率、资产负债比率、产权比率、净利润增长率、固定资产增长率、流动资产周转率、运营资金周转率、总资产周转率、固定资产周转率、净资产收益率、营业利润率;
对销售订单信息进行特征提取,确定出销售特征,其中,销售特征包括年度销售频率、年度销售金额分布、年度销售增长率、月度销售频率、月度销售金额分布、月度销售增长率;
对采购订单信息进行特征提取,确定出采购特征,其中,采购特征包括年度采购频率、年度采购金额分布、年度采购增长率、月度采购频率、月度采购金额分布、月度采购增长率;
对回款信息进行特征提取,确定出回款特征,其中,回款特征包括回款总额、回款频率、回款增长率、回款金额分布;
对付款信息进行特征提取,确定出付款特征,其中,付款特征包括付款总额、付款频率、付款增长率、付款金额分布;
对目标行业数据进行特征提取,确定出行业特征,其中,行业特征包括行业平均应收账款周转天数和行业整体增长率;
基于财务特征、销售特征、采购特征、回款特征、付款特征、行业特征,形成样本。
3.根据权利要求2所述的基于大数据的应收账款资料真实性智能识别审核系统,其特征在于,S5中,将特征矩阵划分训练集和测试集,利用训练集对初始模型进行训练,利用测试集对训练后的模型进行测试,得到训练好的识别模型,包括:
将特征矩阵F的每个列向量的转置作为一个特征样本形成N样本的特征集,对特征集按照设定比例划分为训练集和测试集,其中,每个特征样本具有标注的样本标签;
利用训练集和测试集对搭建的初始模型进行训练和测试,训练和测试完成后,得到识别模型,其中,初始模型为逻辑回归模型或支持向量机。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311244296.7A CN117291740B (zh) | 2023-09-26 | 2023-09-26 | 一种基于大数据的应收账款资料真实性智能识别审核系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311244296.7A CN117291740B (zh) | 2023-09-26 | 2023-09-26 | 一种基于大数据的应收账款资料真实性智能识别审核系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117291740A CN117291740A (zh) | 2023-12-26 |
CN117291740B true CN117291740B (zh) | 2024-04-19 |
Family
ID=89240332
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311244296.7A Active CN117291740B (zh) | 2023-09-26 | 2023-09-26 | 一种基于大数据的应收账款资料真实性智能识别审核系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117291740B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200065348A (ko) * | 2018-11-30 | 2020-06-09 | 한국과학기술원 | 신뢰도 분포 기반 논지 및 뒷받침 증거자료의 군집화를 통한 신뢰 가능성 판단 가속화 방법 및 시스템 |
CN114202755A (zh) * | 2021-12-09 | 2022-03-18 | 兴业银行股份有限公司 | 基于ocr和nlp技术的交易背景真实性审核方法和系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8214734B2 (en) * | 2008-10-09 | 2012-07-03 | International Business Machines Corporation | Credibility of text analysis engine performance evaluation by rating reference content |
RU2625050C1 (ru) * | 2016-04-25 | 2017-07-11 | Акционерное общество "Лаборатория Касперского" | Система и способ признания транзакций доверенными |
-
2023
- 2023-09-26 CN CN202311244296.7A patent/CN117291740B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200065348A (ko) * | 2018-11-30 | 2020-06-09 | 한국과학기술원 | 신뢰도 분포 기반 논지 및 뒷받침 증거자료의 군집화를 통한 신뢰 가능성 판단 가속화 방법 및 시스템 |
CN114202755A (zh) * | 2021-12-09 | 2022-03-18 | 兴业银行股份有限公司 | 基于ocr和nlp技术的交易背景真实性审核方法和系统 |
Non-Patent Citations (1)
Title |
---|
基于相关性聚类对城市空气污染分析数据真实性的判别;关珊;朱家明;关赵阳;陶里彤琰;;河北北方学院学报(自然科学版);20170728(第07期);第45-49、55页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117291740A (zh) | 2023-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Serrano-Cinca et al. | The use of accounting anomalies indicators to predict business failure | |
Johnes et al. | A comparison of performance of Islamic and conventional banks 2004–2009 | |
US6985881B2 (en) | Methods and apparatus for automated underwriting of segmentable portfolio assets | |
US8209251B2 (en) | Cross correlation tool for automated portfolio descriptive statistics | |
CN110599336B (zh) | 一种金融产品购买预测方法及系统 | |
US7162445B2 (en) | Methods and systems for quantifying cash flow recovery and risk | |
US20010037278A1 (en) | Methods and apparatus for simulating competitive bidding yield | |
US20010039525A1 (en) | Methods and systems for finding value and reducing risk | |
CN111861698B (zh) | 一种基于贷款多头数据的贷前审批预警方法及系统 | |
EP1264242A1 (en) | Methods and systems for automated inferred valuation of credit scoring | |
Jandaghi et al. | Identification of the most critical factors in bankruptcy prediction and credit classification of companies | |
Protopapadakis et al. | Sample selection algorithms for credit risk modelling through data mining techniques | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
Dasari et al. | Prediction of bank loan status using machine learning algorithms | |
CN114638504A (zh) | 企业风险评估方法、装置、设备、介质及产品 | |
CN112434862B (zh) | 上市企业财务困境预测方法及装置 | |
Awad et al. | Using data mining tools to prediction of going concern on auditor opinion-empirical study in iraqi commercial | |
CN117114812A (zh) | 一种针对企业的金融产品推荐方法及装置 | |
CN117291740B (zh) | 一种基于大数据的应收账款资料真实性智能识别审核系统 | |
CN115496205A (zh) | 检测模型训练、数据检测方法、装置、设备及存储介质 | |
Wu et al. | Customer churn prediction for commercial banks using customer-value-weighted machine learning models | |
Najadat et al. | Performance evaluation of industrial firms using DEA and DECORATE ensemble method. | |
CN114626940A (zh) | 数据分析方法、装置及电子设备 | |
Dzelihodzic et al. | Data Mining Techniques for Credit Risk Assessment Task | |
CN113177733A (zh) | 基于卷积神经网络的中小微企业数据建模方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |