CN116933187B

CN116933187B - 一种财务报销单据数字化处理方法及系统

Info

Publication number: CN116933187B
Application number: CN202311188318.2A
Authority: CN
Inventors: 刘景来; 刘孟尧; 姚旭
Original assignee: Beijing China Enterprise Navigation Technology Co ltd
Current assignee: Beijing China Enterprise Navigation Technology Co ltd
Priority date: 2023-09-15
Filing date: 2023-09-15
Publication date: 2023-12-19
Anticipated expiration: 2043-09-15
Also published as: CN116933187A

Abstract

本发明涉及数字数据处理技术领域，提出了一种财务报销单据数字化处理方法及系统，包括：利用报销系统中的财务报销数据信息构建报销信息序列；根据报销人员职级信息及其所在部门的业务优先级获取数据属性序列以及单据特征矩阵；根据单据特征矩阵在每个属性上的投影结果获取分类质量系数；根据单据特征矩阵中不同列元素之间的相关性获取单据特征相似指数；根据每个属性的分类质量系数以及单据特征相似指数获取每个属性的属性分类权重；根据属性分类权重获取随机森林模型，实现对财务报销单据的数字化处理。本发明利用财务报销数据不同属性的分类能力差异性避免传统随机森林中决策树训练时节点特征随机选取导致的财务报销数据分类精度低的问题。

Description

一种财务报销单据数字化处理方法及系统

技术领域

本发明涉及数字数据处理技术领域，具体涉及一种财务报销单据数字化处理方法及系统。

背景技术

财务报销单据可以确保财务支出的合规性、准确性和透明度，有助于记录和追踪资金流动，提供财务管理的依据和证据，并确保财务操作符合相关法规和政策要求。而随着科技的发展，财务报销单据逐渐从传统的纸质形式转变为电子化和数字化的形式。财务报销单据的数字化处理具有较多优点，如提高效率、减少错误、节省成本、提高可追溯性，同时提高了审批流程的透明度，减少了纸质文档的使用，方便了报销流程的跟踪和管理。

但现有的财务报销单数据数字化管理流程中，报销单据处理方式往往繁琐、耗时，容易产生错误，没有明确的处理优先级顺序。数据分类算法是面向大数据等级分类的有效方法，能够用于财务报销单数据的数字化处理过程中，数据分类算法包括随机森林算法、层次聚类算法等，其中层次聚类算法通常需要预设多个参数，而进行财务报销单据分类时常用随机森林算法通过随机选取固定数量的特征进行训练，分类效果并不稳定，具有一定的随机性，从而可能对财务保险单据数字化处理效率产生影响。

发明内容

本发明提供一种财务报销单据数字化处理方法及系统，以解决随机森林算法中训练决策树时随机选取节点分类特征造成财务报销单数据分类精度不稳定的问题，所采用的技术方案具体如下：

第一方面，本发明一个实施例提供了一种财务报销单据数字化处理方法，该方法包括以下步骤：

获取报销系统中的财务报销数据信息，利用所述财务报销数据信息构建每个标号单据的报销信息序列，所述财务报销数据信息包括报销人员、报销人员所在部门、报销金额、报销类别、报销明细、报销申请时间；

根据报销人员职级信息及其所在部门的业务优先级获取每个标号单据的数据属性序列；将所有标号单据的数据属性序列组成的矩阵作为单据特征矩阵；根据单据特征矩阵在每个属性上的投影结果获取每个属性的分类质量系数；

根据单据特征矩阵中不同列元素之间的相关性获取每个属性的单据特征相似指数；根据每个属性的分类质量系数以及单据特征相似指数获取每个属性的属性分类权重；根据所有属性的属性分类权重获取随机森林模型，利用随机森林模型获取每个标号单据的单据等级系数，根据单据等级系数实现对财务报销单据的数字化处理。

优选的，所述根据单据特征矩阵在每个属性上的投影结果获取每个属性的分类质量系数的方法为：

根据单据特征矩阵中的元素大小获取单据特征矩阵在每个属性上的投影值集合；根据单据特征矩阵在每个属性上投影值集合的聚类结果获取每个属性的维度分类指数；

获取所述聚类结果中任意两个聚类簇中心点之间的度量距离与任意两个聚类簇内投影值信息熵之间的差值绝对值的乘积作为第一累加因子，将第一累加因子在所述聚类结果上的累加作为第一组成因子；

每个属性的分类质量系数由每个属性的维度分类指数、第一组成因子两部分组成，其中，所述分类质量系数与维度分类指数、第一组成因子成正相关关系。

优选的，所述根据单据特征矩阵中的元素大小获取单据特征矩阵在每个属性上的投影值集合的方法为：

将单据特征矩阵中每一列元素组成的向量作为每一列元素对应属性的投影向量；

将单据特征矩阵中每一行元素组成的序列与所述投影向量的内积作为每一行元素在所述投影向量上的投影值，将单据特征矩阵中所有行元素在所述投影向量上的投影值组成的集合作为单据特征矩阵在每个属性上的投影值集合。

优选的，所述根据单据特征矩阵在每个属性上投影值集合的聚类结果获取每个属性的维度分类指数的方法为：

将每个属性上投影值集合的聚类结果中每一个聚类簇中的投影值组成的序列作为每一个聚类簇的类序列；

将任意两个聚类簇的类序列之间的度量距离在所述聚类结果上的累加作为每个属性的维度分类指数。

优选的，所述根据单据特征矩阵中不同列元素之间的相关性获取每个属性的单据特征相似指数的方法为：

将单据特征矩阵中每一列元素组成的序列作为每一列元素对应属性的属性序列，将每个属性的属性序列与其余属性的属性序列之间相似性度量结果的均值作为每个属性的单据特征相似指数。

优选的，所述根据每个属性的分类质量系数以及单据特征相似指数获取每个属性的属性分类权重的方法为：

根据每个属性的分类质量系数以及单据特征相似指数获取每个属性的分类决策系数；

将单据特征矩阵在每个属性和其余每个属性上的投影值集合的变异系数之间的差值绝对值作为每个属性的第一乘积因子，将每个属性和其余每个属性的分类质量系数之间的差值绝对值与每个属性的第二乘积因子；将每个属性的第一乘积因子与第二乘积因子的乘积在其余所有属性上的累加作为第一权重因子；

将每个属性的分类决策系数与第一权重因子的乘积的归一化结果作为每个属性的属性分类权重。

优选的，所述根据每个属性的分类质量系数以及单据特征相似指数获取每个属性的分类决策系数的方法为：

将每个属性的分类质量系数与每个属性的信息增益的乘积作为分子，将每个属性的单据特征相似指数与预设参数的乘积作为分母，将分子与分母的比值作为每个属性的分类决策系数。

优选的，所述根据所有属性的属性分类权重获取随机森林模型，利用随机森林模型获取每个标号单据的单据等级系数的方法为：

根据所有属性的属性分类权重获取每棵决策树的节点特征选取结果；利用训练完成的决策树形成随机森林模型；

将每个标号单据的数据属性序列作为随机森林模型中每棵决策树的输入，根据投票机制利用随机森林模型中所有决策树的输出获取每个标号单据的单据等级系数。

优选的，所述根据所有属性的属性分类权重获取每棵决策树的节点特征选取结果的方法为：

根据每一棵决策树的训练集获取所述训练集中每个属性的属性分类权重，获取所有属性的属性分类权重按照从大到小的顺序排列的排列结果，将所述排列结果中前预设数量个属性作为每一棵决策树的节点特征选取结果。

第二方面，本发明实施例还提供了一种财务报销单据数字化处理系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意一项所述方法的步骤。

本发明的有益效果是：本发明通过分析财务报销单数据，利用单据特征矩阵在每个属性上的投影结果构建每个属性的分类质量系数，分类质量系数反映了每个属性上投影值的分布情况，其有益效果在于通过投影值集合的类间差异评估每个属性对财务报销单数据的影响程度；其次基于每个属性的单据特征相似指数以及分类质量系数构建每个属性的属性分类权重，属性分类权重考虑了对财务报销单数据进行优先级分类的过程中每棵决策树随机抽取训练集内样本的实际分布，其有益效果在于能够反映每个属性作为每棵决策树的节点特征选取结果的适合程度，避免随机森林中决策树训练时随机选取节点分割特征的问题，实现对财务报销单据的数字化处理。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例所提供的一种财务报销单据数字化处理方法的流程示意图；

图2为本发明一个实施例所提供的构建决策树的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明一个实施例提供的一种财务报销单据数字化处理方法的流程图，该方法包括以下步骤：

步骤S001，获取每个标号的财务报销单数据信息，利用所述财务报销数据信息构建每个标号单据的报销信息序列。

企业中财务报销的一般流程为员工登录财务管理系统后，首先选择部门，然后选择报销类别，例如差旅、办公用品等，其次输入费用明细，如日期、项目、金额等，上传电子发票或收据，可以通过相机拍摄、扫描仪扫描或相册上传，生成的每一个报销单都有唯一的一个标号。

本发明中利用爬虫技术从企业的财务管理平台中获取历史财务报销单数据信息，所述财务报销数据信息包括报销人员、报销人员所在部门、报销金额、报销类别、报销明细、报销申请时间，历史财务报销单的数量记为M。利用每个报销单的报销数据信息构建报销信息序列，标号为n的单据的报销信息序列记为，其中，/>表示该单据申请人的名称；/>表示该单据申请人所属部门；/>表示该单据申请时间；/>表示该单据所属报销类别；/>表示该单据的报销明细；/>表示该单据报销总金额。

至此，得到每个标号的报销信息序列，用于后续生成每个标号单据的数据属性序列。

步骤S002，基于数据属性序列构建单据特征矩阵，根据单据特征矩阵在每个属性上的投影结果获取每个属性的分类质量系数。

随机森林（Random Forest）是一种集成学习算法，通过抽取训练集构建多棵决策树，并对决策树的结果进行投票或平均，来进行数据分类。相对于单个决策树，随机森林能够减少过拟合的风险。此外，随机森林还具有并行计算的优势，可以有效地处理大规模数据。但随机森林中每棵决策树的节点上分割维度的选择对分类精度影响较大，本发明通过分析特征对分类结果的影响确定随机森林模型中每棵随机树上节点特征的选取结果。

为了更进一步反映不同数据属性对财务报销单据分类效果的影响程度，根据员工的职级信息以及企业内各部门的划分对报销信息序列进行数字化处理。本发明中按照核心业务部门、支持性部门、客户服务部门、研发和创新部门、销售和市场部门、运营和生产部门的顺序对每个报销单的申请人所在部门进行6-1的数字化处理，其次按照高级管理层、中级管理层、专业技术人员、行政和支持人员、中级职工、基层员工的顺序对每个报销单的申请人进行职级编号，编号由大到小为6-1。例如，标号为n的单据的报销信息序列中的申请人属于核心业务部门的专业技术人员，其对应部门的数字化处理结果为6，职级编号为3；如果标号为n的报销单申请人属于客户服务部门的基层员工，其对应部门的数字化处理结果为4，职级编号为1。

其次，将每个标号的报销信息序列中的申请时间与报销时间之间的时间间隔作为每个标号的时间差T，将每个标号的报销信息序列中的所属报销类别的平均报销时长作为每个标号的审核时间C，将将每个标号的报销信息序列中属于核心业务的报销金额与报销总金额的比值作为核心业务占比L，本发明中所述核心业务包括算法研发业务、产品开发业务、服务业务、出差业务，实施者可根据企业实际情况设置核心业务类型。将每个标号的报销信息序列中报销总金额与平均报销单据金额的比值作为每个标号的金额比例，完成对每个标号的报销信息序列中每个元素的数字化处理，将标号为n的单据的报销信息序列对应的数字化处理结果记为数据属性序列/>，其中，/>、/>、/>、/>、/>、/>分别是指标号为n的报销单申请人的职级编号、申请人所在部门的数字化处理结果、时间差、审核时间、核心业务占比、金额比例。

进一步的，利用M个标号单据的报销信息序列进行上述数字化处理得到M个标号单据的数据属性序列。对于随机森林中的每棵决策树而言，在训练每棵决策树时需要从M个标号单据的数据属性序列抽取N个标号单据的数据属性序列作为训练集，N的大小取经验值100，即每次抽取100个标记单号的数据属性序列组成训练集，本发明中随机森林中决策树的数量设置为100。将每个标号单据的数据属性序列作为矩阵中的一行元素，将N个标号单据的数据属性序列构成的矩阵记为单据特征矩阵：

本发明中，每个标号单据的数据属性序列中包含六个元素，因此训练决策树时训练集中共有6种属性，分别记为员工职级属性、部门属性、时间属性、审核时间属性、核心业务属性、报销金额属性，将单据特征矩阵中每一列元素组成的向量作为对应训练集中每一种属性的投影向量，根据单据特征矩阵中每一行元素在每种属性的投影向量上的投影值评估每种属性对单特征矩阵中每一行元素的区分能力。以单据特征矩阵中第一列元素为例，将第一列元素组成的向量作为员工职级属性的投影向量/>，将单据特征矩阵中每一个标号单据的数据属性序列投影到员工职级属性的投影向量/>上，得到每一个标号单据的数据属性序列投影在投影向量/>上的投影值，投影值的大小通过向量之间的内积运算得到，向量内积运算为公知技术，不再详细赘述。将单据特征矩阵/>中N个行元素在投影向量/>上的投影值的集合作为员工职级属性上的投影值集合/>。

对于投影值集合而言，若对投影值集合/>中的投影值进行聚类时得到类别数量较多，则说明投影值集合/>内数据分布范围越广，投影值集合/>在投影向量/>的方向上的数据区别性更高，在构建决策树时越应该选择员工职级属性作为节点分类属性。利用DBSCAN聚类算法对投影值集合/>进行聚类，本发明中半径/>与最小点数量/>分别取/>、/>，以欧氏距离作为聚类时的度量距离，将得到聚类簇的数量记为K，DBSCAN聚类算法为公知技术，具体过程不再赘述。将每个聚类簇内投影值组成的序列作为每个聚类簇的类序列，将第k(k/>K)个聚类簇的类序列记为/>。

基于上述分析，此处构建分类质量系数，用于表征每个属性对单据特征矩阵内行元素的区分能力，计算员工职级属性的分类质量系数：

式中，是员工职级属性的维度分类指数，/>、/>分别是投影值集合/>的分类结果中第k个、第k-1个聚类簇的类序列，/>是类序列之间的DTW距离，DTW距离为公知技术，具体过程不再赘述。

、/>是投影值集合/>的分类结果中第k个、第k-1个聚类簇中投影值的信息熵，/>是第k个、第k-1个聚类簇内中心点的度量距离。

其中，分类结果在各个聚类簇内的投影值的分布范围越大，类序列之间的差异越大，的值越大，/>的值越大；第k个、第k-1个聚类簇中投影值的可区分度越高，聚类簇中数据重复率较低，/>的值越大，聚类过程中不同投影值之间的度量距离越大，/>的值越大，/>第一累加因子的值越大，第一组成因子的值越大。

至此，得到单据特征矩阵内每种属性对应的分类质量系数，用于后续属性分类权重的获取。

步骤S003，基于单据特征矩阵中不同列元素之间的相关性得到单据特征相似指数，基于单据特征相似指数获取属性分类权重。

在训练多棵决策树时，为了避免不同决策树的相似度程度较高从而降低分类效果。对于单据特征矩阵中不同列元素之间的相似度进行度量，通过每一列元素与其余列元素之间的相似性度量结果得到每个属性的单据特征相似指数，将每一列元素组成的序列作为每一列元素对应属性的属性序列，将员工职级属性的属性序列记为。计算员工职级属性的单据特征相似指数/>：

式中，J是单据特征矩阵中除去第一列元素后剩余的列数量，是单据特征矩阵中除去第一列元素后第j列元素组成的属性序列，/>是属性序列/>、/>之间的斯皮尔曼相关系数，斯皮尔曼相关系数为公知技术，具体过程不再赘述。

当属性序列与其余属性序列之间的序列斯皮尔曼相关系数的均值越大，则属性序列/>对应的属性与其余属性之间相关性越强，在构建决策树时，员工职级属性对N个标号单据的分类能力越弱。

进一步的，根据每个属性的分类质量系数以及单据特征相似指数评估每个属性对训练集中N个标号单据的区分能力，属性对不同标号的单据的区分能力越强，在训练决策树时越应该作为节点特征选择结果中的一个分类属性。

根据上述步骤，分别获取每个属性的投影值集合，将所有属性投影值集合组成的数据集以及每个属性的投影值集合作为信息增益算法的输入，利用信息增益算法获取每个属性的信息增益，信息增益算法为公知技术，具体过程不再赘述，将员工职级属性的信息增益记为。

基于上述分析，此处构建属性分类权重，用于表征每个属性在用于训练决策树的训练集中的数据区分能力，计算员工职级属性的属性分类权重：

式中，是员工职级属性的分类决策系数，/>、/>分别是员工职级属性的分类质量系数、信息增益，/>是员工职级属性的单据特征相似指数，/>是单据特征矩阵内除去员工职级属性后剩余属性的数量；

为归一化函数，/>、/>分别是员工职级属性、第/>个属性的投影值集合的变异系数，/>是第/>个属性的分类质量系数，变异系数为公知技术，具体过程不再赘述。

其中，员工职级属性对所有属性的投影值集合中投影值的分割能力越强，信息增益的值越大，员工直接属性与其余属性的关联性越弱，/>的值越小，/>的值越大；员工职级属性对应投影向量上投影值的分布范围越大，两个属性的投影值集合的变异系数差异越大，/>的值越大，员工直接属性相较于其余属性对单特征矩阵内元素的分类效果越好，/>的值越大，/>的值越大；即/>的值越大，员工职级属性在训练决策树时越应该作为节点特征选择结果中一个属性。

至此，得到训练决策树时每个属性的属性分类权重，用于后续获取随机森林模型。

步骤S004，基于属性分类权重获取随机森林模型，利用随机森林模型获取每个标号单据的单据等级系数，根据单据等级系数实现对财务报销单据的数字化处理。

根据上述步骤，分别获取利用N个标记单据训练决策树时每个属性的属性分类权重，并将所有属性的属性分类权重按照降序的顺序排序，取排序结果中前V个属性作为决策树的节点特征选择结果，V的大小取经验值4。

本发明中，通过单据等级系数确定财务报销单据的处理优先级顺序，将单据等级系数确定为2、1、0三类，分别对应高优先级、中优先级以及低优先级，对每个历史单据都设置相应的单据等级系数，其次对于每棵决策树，从M个标号单据的数据属性序列中N个标号单据的数据属性序列组成训练集，重复上述流程获取每棵决策树的节点特征选择结果，完成所有决策树的训练，构建决策树的实施流程如图2所示，将训练后的100棵决策树组成随机森林模型，决策树的训练为公知技术，具体过程不再赘述。

进一步的，将未报销的财务报销单据通过数字化处理得到对应的数据属性序列，将所述数据属性序列传输至随机森林模型，获取每个未报销的财务报销单据对应的单据等级系数，并将所有未报销的财务报销单据传输至财务管理系统，财务管理系统根据单据等级系数降序的顺序进行报销处理，如果两个未报销的财务报销单据的单据等级系数相等，则按照财务报销单据的提交时间进行排序，距当前时间越久的财务报销单据处理优先级越高，并将报销结果通知报销员工进行核验，完成对财务报销单据的数字化处理。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种财务报销单据数字化处理方法，其特征在于，该方法包括以下步骤：

根据单据特征矩阵中不同列元素之间的相关性获取每个属性的单据特征相似指数；根据每个属性的分类质量系数以及单据特征相似指数获取每个属性的属性分类权重；根据所有属性的属性分类权重获取随机森林模型，利用随机森林模型获取每个标号单据的单据等级系数，根据单据等级系数实现对财务报销单据的数字化处理；

所述根据单据特征矩阵在每个属性上的投影结果获取每个属性的分类质量系数的方法为：

每个属性的分类质量系数由每个属性的维度分类指数、第一组成因子两部分组成，其中，所述分类质量系数与维度分类指数、第一组成因子成正相关关系；

所述根据单据特征矩阵中的元素大小获取单据特征矩阵在每个属性上的投影值集合的方法为：

将单据特征矩阵中每一行元素组成的序列与所述投影向量的内积作为每一行元素在所述投影向量上的投影值，将单据特征矩阵中所有行元素在所述投影向量上的投影值组成的集合作为单据特征矩阵在每个属性上的投影值集合；

所述根据单据特征矩阵在每个属性上投影值集合的聚类结果获取每个属性的维度分类指数的方法为：

2.根据权利要求1所述的一种财务报销单据数字化处理方法，其特征在于，所述根据单据特征矩阵中不同列元素之间的相关性获取每个属性的单据特征相似指数的方法为：

3.根据权利要求1所述的一种财务报销单据数字化处理方法，其特征在于，所述根据每个属性的分类质量系数以及单据特征相似指数获取每个属性的属性分类权重的方法为：

4.根据权利要求3所述的一种财务报销单据数字化处理方法，其特征在于，所述根据每个属性的分类质量系数以及单据特征相似指数获取每个属性的分类决策系数的方法为：

5.根据权利要求1所述的一种财务报销单据数字化处理方法，其特征在于，所述根据所有属性的属性分类权重获取随机森林模型，利用随机森林模型获取每个标号单据的单据等级系数的方法为：

6.根据权利要求5所述的一种财务报销单据数字化处理方法，其特征在于，所述根据所有属性的属性分类权重获取每棵决策树的节点特征选取结果的方法为：

7.一种财务报销单据数字化处理系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-6任意一项所述方法的步骤。