CN116385189A

CN116385189A - 财务报账单据列账科目匹配度校验方法及系统

Info

Publication number: CN116385189A
Application number: CN202310214129.1A
Authority: CN
Inventors: 田浩京; 赵文兵; 陈永利
Original assignee: Inspur Communication Information System Co Ltd
Current assignee: Inspur Communication Information System Co Ltd
Priority date: 2023-03-02
Filing date: 2023-03-02
Publication date: 2023-07-04

Abstract

本发明公开了财务报账单据列账科目匹配度校验方法及系统，属于自然语言识别技术领域，本发明要解决的技术问题为如何挖掘报账单业务摘要与财务列账科目的内在联系，实现对财务列账科目匹配度的精准识别，采用的技术方案为：该方法具体如下：选取历史报账单数据，实现财务列账科目短文本核心词提取及短文本分类，并整理出训练样本；基于NLP技术对训练样本进行抽象分析，通过业务摘要实现对列账科目的特征提取；执行卷积神经网络分类训练，并输出训练完成的NLP模型；输入待审核财务报账单，通过NLP模型对报账单执行财务列账科目准确性校验，并输出校验结果。

Description

财务报账单据列账科目匹配度校验方法及系统

技术领域

本发明涉及自然语言识别技术领域，具体地说是一种财务报账单据列账科目匹配度校验方法及系统。

背景技术

目前，在进行传统财务报账单据审核，尤其涉及报账单据列账科目复核工作时，主要是依靠有经验的财务人员进行复核，且需要财务初审人员和财务复审人员进行多轮的核对和校验，才能确定最终的列账科目复核结果。

专利号为CN111241845A的专利申请公开了一种基于语义匹配方法的财务科目自动识别方法，包括：通过专家经验整理标准科目的匹配库；通过大量匹配语料训练科目匹配模型，根据相似度找到与原始科目最相似的标准问答库的原始科目名并返回所对应的标准科目名。最后通过专家经验对科目进行校准。该发明利用深度学习模型以将财务科目进行精确匹配为标准科目。最终将表达不同但具有相同财务意义的科目名归一成一个标准的科目名。该技术方案的财务科目的校准，虽然也应用了基于语义匹配的方法，但对不同财务列账科目的精准匹配与校准依然依赖于专家经验，仅仅实现了相似匹配，未建立财务报账单据内信息匹配的内在联系，难以根据单据自身信息进行内在规律挖掘。

故如何挖掘报账单业务摘要与财务列账科目的内在联系，实现对财务列账科目匹配度的精准识别是目前亟待解决的技术问题。

发明内容

本发明的技术任务是提供一种财务报账单据列账科目匹配度校验方法及系统，来解决如何挖掘报账单业务摘要与财务列账科目的内在联系，实现对财务列账科目匹配度的精准识别的问题。

本发明的技术任务是按以下方式实现的，一种财务报账单据列账科目匹配度校验方法，该方法具体如下：

选取历史报账单数据，实现财务列账科目短文本核心词提取及短文本分类，并整理出训练样本；

基于NLP技术对训练样本进行抽象分析，通过业务摘要实现对列账科目的特征提取；

执行卷积神经网络分类训练，并输出训练完成的NLP模型；

输入待审核财务报账单，通过NLP模型对报账单执行财务列账科目准确性校验，并输出校验结果。

作为优选，选取历史报账单数据，实现财务列账科目短文本核心词提取及短文本分类，并整理出训练样本具体如下：

获取验证期内全量报账单数据，按单份报账单数据作为一个待整理的训练样本，提取关键信息及短文本核心词信息。

更优地，关键信息包括报账单业务摘要、报账单类型名称、业务大类名称、业务小类名称、业务活动名称、借方科目编码、借方科目名称、贷方科目编码及贷方科目名称；

短文本核心词信息包括报账单业务摘要、借方科目名称和贷方科目名称；

报账单业务摘要是指报账人员提单时，手动录入的对当前报账单类型、报账内容的描述，该描述为一段无固定规则的长文本，字数在0-200字之间。

作为优选，基于NLP技术对训练样本进行抽象分析，通过业务摘要实现对列账科目的特征提取具体如下：

将分组整理后的报账单数据作为数据集进行训练样本准备，选定待分类的文本和标签；

对无效的报账单数据进行手工清洗，保留有效的样本数据；

利用“jieba”库文件对摘要进行分词,并根据词性表去除样本报账单业务摘要中不含特征的词语，移除数词及副词等无特征词对分词结果的影响，并输出完整、有效的训练样本。

作为优选，执行卷积神经网络分类训练，并输出训练完成的NLP模型具体如下：

将整个训练样本带入机器学习fastText方法和卷积神经网络分类训练算法中训练NLP模型，并将训练样本划分为训练集70％、验证集20％及测试集10％；

训练过程中，20％的验证集多次带入临时NLP模型，并持续评估效果，自动修正临时NLP模型结果，并再次将验证集带入临时NLP模型；

多次的算法迭代训练后，产生准确率达到设定值的NLP模型，作为最终输出结果；

NLP模型训练完后，剩余10％的测试集带入已成型NLP模型做结果验证，并判断验证结果是否满足设定条件：

若验证结果满足设定条件，则为成功；

若验证结果不满足设定条件，则重复训练，直至输出满足设定条件的NLP模型。

作为优选，输入待审核财务报账单，通过NLP模型对报账单执行财务列账科目准确性校验，并输出校验结果具体如下：

输入待审核财务报账单数据，调用训练完成的NLP模型，对财务报账单列账科目准确度进行校验；

输出财务科目匹配度校验模块校验完成的财务报账单列账科目信息，财务报账单列账科目信息包括财务科目名称及置信度百分比。

一种财务报账单据列账科目匹配度校验系统，该系统包括，

选取单元，用于选取验证期内全量报账单数据，按单份报账单数据作为一个待整理的训练样本，提取关键信息及短文本核心词信息；

提取单元，用于基于NLP技术对训练样本进行抽象分析，通过业务摘要实现对列账科目的特征提取；

训练单元，用于执行卷积神经网络分类训练，并输出训练完成的NLP模型；

校验单元，用于输入待审核财务报账单，通过NLP模型对报账单执行财务列账科目准确性校验，并输出校验结果。

作为优选，所述提取单元包括，

选定模块，用于将分组整理后的报账单数据作为数据集进行训练样本准备，选定待分类的文本和标签；

清洗模块，用于对无效的报账单数据进行手工清洗，保留有效的样本数据；

分词模块，用于利用“jieba”库文件对摘要进行分词,并根据词性表去除样本报账单业务摘要中不含特征的词语，移除数词及副词等无特征词对分词结果的影响，并输出完整、有效的训练样本；

所述训练单元包括，

训练模块，用于将整个训练样本带入机器学习fastText方法和卷积神经网络分类训练算法中训练NLP模型，并将训练样本划分为训练集70％、验证集20％及测试集10％；

修正模块，用于训练过程中，20％的验证集多次带入临时NLP模型，并持续评估效果，自动修正临时NLP模型结果，并再次将验证集带入临时NLP模型；

输出模块，用于经过多次的算法迭代训练后，产生准确率达到设定值的NLP模型，作为最终输出结果；

验证模块，用于NLP模型训练完后，剩余10％的测试集带入已成型NLP模型做结果验证，并判断验证结果是否满足设定条件：

若验证结果满足设定条件，则为成功；

若验证结果不满足设定条件，则重复训练，直至输出满足设定条件的NLP模型；

所述校验单元包括，

财务科目匹配度校验模块，用于输入待审核财务报账单数据，调用训练完成的NLP模型，对财务报账单列账科目准确度进行校验；

数据呈现模块，用于输出财务科目匹配度校验模块校验完成的财务报账单列账科目信息，财务报账单列账科目信息包括财务科目名称及置信度百分比。

一种电子设备，包括：存储器和至少一个处理器；

其中，所述存储器上存储有计算机程序；

所述至少一个处理器执行所述存储器存储的计算机程序，使得所述至少一个处理器执行如上述的财务报账单据列账科目匹配度校验方法。

一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序可被处理器执行以实现如上述的财务报账单据列账科目匹配度校验方法。

本发明的财务报账单据列账科目匹配度校验方法及系统具有以下优点：

(一)本发明通过使用NLP技术、机器学习及卷积神经网络深度学习技术，将企业ERP系统产生的海量报账单历史数据作为训练样本，实现财务列账科目短文本核心词提取，短文本分类，并完成特征提取和抽象，最终在报账单审核中财务科目审核场景输出对应的AI审核辅助模型，以极高的效率通过报账单业务摘要实现对列账科目的匹配度识别，且识别精度高、识别结果合理，可辅助财务初审、复审人员在日常报账单据审核中判断列账科目的准确性、合理性；

(二)本发明挖掘报账单业务摘要与财务列账科目的内在联系，实现对财务列账科目匹配度的精准识别；

(三)本发明采用的分类程序通用性强，可针对所有短文本进行分类处理，只需要修改程序入口字段，具体技术优点及使用效益如下：

①传统的自然语言处理工具大多来自英语体系，为满足中文的处理，需要进行正对性修改；第一，英语语句词语之间需要以空格分隔，但是这是中文不具备的特性；第二、英语词性明确，但中文逐渐淡化词性；第三、针对英语中无特殊意义的“stop words”,需构建中文自己“stop words”；而本发明通过利用“jieba”库文件，调用中文词性表将文本进行分词处理，处理为以空格分隔的词语；其次，根据词性表去除不含特征的词语，例如数词、副词等；同时利用提前准备的中文“stop words”对中文词语进行二次筛选最终，语句只留下特征较强的词语，便于训练；

②传统的机器学习结合了神经网络可发挥各自特点提高提高分类效率和准确性；但是分类时大多采用“概率统计”相关思想，这种方法无法充分利用数据集中的信息，因此本发明采用卷积神经网络对此进行弥补；该分类模型采用神经网络，通过加入“学习率”，“更新率”，“损失函数”等神经网络的方法，让NLP模型可以在多轮(epoch)学习中，充分利用数据集信息；同时为了加快学习速度，采用了这种简单神经网络；对于分类较少的模型，例如10分类或者20分类，只需短短十几秒即可完成模型训练；综上，机器学习集合神经网络提高了传统NLP分类的准确性和分类效率，可以更快的校验财务列账科目的准确性；

(四)本发明能够以极高的效率通过报账单类别、业务摘要实现对列账科目的匹配度识别，且识别精度高、识别结果合理，以辅助财务初审、复审人员在日常报账单据审核中判断列账科目的准确性、合理性。

附图说明

下面结合附图对本发明进一步说明。

附图1为财务报账单据列账科目匹配度校验方法的流程框图；

附图2为财务报账单据列账科目匹配度校验系统的结构框图；

附图3为校验单元的结构框图。

具体实施方式

参照说明书附图和具体实施例对本发明的财务报账单据列账科目匹配度校验方法及系统作以下详细地说明。

实施例1：

如附图1所示，本实施例提供了一种财务报账单据列账科目匹配度校验方法，该方法具体如下：

S1、选取历史报账单数据，实现财务列账科目短文本核心词提取及短文本分类，并整理出训练样本；

S2、基于NLP技术对训练样本进行抽象分析，通过业务摘要实现对列账科目的特征提取；

S3、执行卷积神经网络分类训练，并输出训练完成的NLP模型；

S4、输入待审核财务报账单，通过NLP模型对报账单执行财务列账科目准确性校验，并输出校验结果。

本实施例步骤S1中的选取历史报账单数据，实现财务列账科目短文本核心词提取及短文本分类，并整理出训练样本具体如下：

本实施例中的关键信息包括报账单业务摘要、报账单类型名称、业务大类名称、业务小类名称、业务活动名称、借方科目编码、借方科目名称、贷方科目编码及贷方科目名称。

本实施例中的短文本核心词信息包括报账单业务摘要、借方科目名称和贷方科目名称；其中，报账单业务摘要是指报账人员提单时，手动录入的对当前报账单类型、报账内容的描述，该描述为一段无固定规则的长文本，字数在0-200字之间。

本实施例步骤S2中的基于NLP技术对训练样本进行抽象分析，通过业务摘要实现对列账科目的特征提取具体如下：

S201、将分组整理后的报账单数据作为数据集进行训练样本准备，选定待分类的文本和标签；

S202、对无效的报账单数据进行手工清洗，保留有效的样本数据；

S203、利用“jieba”库文件对摘要进行分词,并根据词性表去除样本报账单业务摘要中不含特征的词语，移除数词及副词等无特征词对分词结果的影响，并输出完整、有效的训练样本。

本实施例步骤S3中的执行卷积神经网络分类训练，并输出训练完成的NLP模型具体如下：

S301、将整个训练样本带入机器学习fastText方法和卷积神经网络分类训练算法中训练NLP模型，并将训练样本划分为训练集70％、验证集20％及测试集10％；

S302、训练过程中，20％的验证集多次带入临时NLP模型，并持续评估效果，自动修正临时NLP模型结果，并再次将验证集带入临时NLP模型；

S303、多次的算法迭代训练后，产生准确率达到设定值的NLP模型，作为最终输出结果；

S304、NLP模型训练完后，剩余10％的测试集带入已成型NLP模型做结果验证，并判断验证结果是否满足设定条件：

①、若验证结果满足设定条件，则为成功；

②、若验证结果不满足设定条件，则重复训练，直至输出满足设定条件的NLP模型。

本实施例步骤S4中的输入待审核财务报账单，通过NLP模型对报账单执行财务列账科目准确性校验，并输出校验结果具体如下：

S401、输入待审核财务报账单数据，调用训练完成的NLP模型，对财务报账单列账科目准确度进行校验；

S402、输出财务科目匹配度校验模块校验完成的财务报账单列账科目信息，财务报账单列账科目信息包括财务科目名称及置信度百分比。

实施例2：

如附图2所示，本实施例提供了一种财务报账单据列账科目匹配度校验系统，该系统包括，

本实施例中的提取单元包括，

本实施例中的训练单元包括，

若验证结果满足设定条件，则为成功；

如附图3所示，本实施例中的校验单元包括，

实施例3：

本实施例还提供了一种电子设备，包括：存储器和处理器；

其中，存储器存储计算机执行指令；

处理器执行所述存储器存储的计算机执行指令，使得处理器执行本发明任一实施例中的财务报账单据列账科目匹配度校验方法。

处理器可以是中央处理单元(CPU)，还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通过处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可用于储存计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现电子设备的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器还可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，只能存储卡(SMC)，安全数字(SD)卡，闪存卡、至少一个磁盘存储期间、闪存器件、或其他易失性固态存储器件。

实施例4：

本实施例还提供了一种计算机可读存储介质，其中存储有多条指令，指令由处理器加载，使处理器执行本发明任一实施例中的财务报账单据列账科目匹配度校验方法。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RYM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种财务报账单据列账科目匹配度校验方法，其特征在于，该方法具体如下：

执行卷积神经网络分类训练，并输出训练完成的NLP模型；

2.根据权利要求1所述的财务报账单据列账科目匹配度校验方法，其特征在于，选取历史报账单数据，实现财务列账科目短文本核心词提取及短文本分类，并整理出训练样本具体如下：

3.根据权利要求2所述的财务报账单据列账科目匹配度校验方法，其特征在于，关键信息包括报账单业务摘要、报账单类型名称、业务大类名称、业务小类名称、业务活动名称、借方科目编码、借方科目名称、贷方科目编码及贷方科目名称；

4.根据权利要求1所述的财务报账单据列账科目匹配度校验方法，其特征在于，基于NLP技术对训练样本进行抽象分析，通过业务摘要实现对列账科目的特征提取具体如下：

对无效的报账单数据进行手工清洗，保留有效的样本数据；

利用“jieba”库文件对摘要进行分词,并根据词性表去除样本报账单业务摘要中不含特征的词语，移除数词及副词无特征词对分词结果的影响，并输出完整、有效的训练样本。

5.根据权利要求1所述的财务报账单据列账科目匹配度校验方法，其特征在于，执行卷积神经网络分类训练，并输出训练完成的NLP模型具体如下：

将整个训练样本带入机器学习fastText方法和卷积神经网络分类训练算法中训练NLP模型，并将训练样本划分为训练集、验证集及测试集；

训练过程中，验证集多次带入临时NLP模型，并持续评估效果，自动修正临时NLP模型结果，并再次将验证集带入临时NLP模型；

NLP模型训练完后，测试集带入已成型NLP模型做结果验证，并判断验证结果是否满足设定条件：

若验证结果满足设定条件，则为成功；

6.根据权利要求1所述的财务报账单据列账科目匹配度校验方法，其特征在于，输入待审核财务报账单，通过NLP模型对报账单执行财务列账科目准确性校验，并输出校验结果具体如下：

7.一种财务报账单据列账科目匹配度校验系统，其特征在于，该系统包括，

8.根据权利要求7所述的财务报账单据列账科目匹配度校验系统，其特征在于，所述提取单元包括，

分词模块，用于利用“jieba”库文件对摘要进行分词,并根据词性表去除样本报账单业务摘要中不含特征的词语，移除数词及副词无特征词对分词结果的影响，并输出完整、有效的训练样本；

所述训练单元包括，

训练模块，用于将整个训练样本带入机器学习fastText方法和卷积神经网络分类训练算法中训练NLP模型，并将训练样本划分为训练集、验证集及测试集；

修正模块，用于训练过程中，验证集多次带入临时NLP模型，并持续评估效果，自动修正临时NLP模型结果，并再次将验证集带入临时NLP模型；

验证模块，用于NLP模型训练完后，测试集带入已成型NLP模型做结果验证，并判断验证结果是否满足设定条件：

若验证结果满足设定条件，则为成功；

所述校验单元包括，

9.一种电子设备，其特征在于，包括：存储器和至少一个处理器；

其中，所述存储器上存储有计算机程序；

所述至少一个处理器执行所述存储器存储的计算机程序，使得所述至少一个处理器执行如权利要求1至6任一项所述的财务报账单据列账科目匹配度校验方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序可被处理器执行以实现如权利要求1至6中任一项所述的财务报账单据列账科目匹配度校验方法。