CN114022883A

CN114022883A - 基于模型的金融领域交易文件表格日期提取方法

Info

Publication number: CN114022883A
Application number: CN202111306951.8A
Authority: CN
Inventors: 陈加杰
Original assignee: Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Current assignee: Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2022-02-08

Abstract

本发明涉及金融领域表格日期提取技术领域，尤其涉及一种基于模型的金融领域交易文件表格日期提取方法，包括如下步骤：步骤S1：获取文件的训练样本；步骤S2：对训练样本进行标签标注；步骤S3：对训练样本进行模型训练；步骤S4：对训练完成的模型进行应用。本发明的基于模型的金融领域交易文件表格日期提取方法可以对多种不同类型的文件进行识别处理，具有较好的兼容性，可对文件中较为具体的表格日期进行智能化提取，而不是仅提取出表格，有利于工作人员对表格进行具体的分析，为后续自动化合同审核工作提供了较大便利。

Description

基于模型的金融领域交易文件表格日期提取方法

【技术领域】

本发明涉及金融领域表格日期提取技术领域，尤其涉及一种基于模型的金融领域交易文件表格日期提取方法。

【背景技术】

在实际业务中，用户上传的贸易合同文件具有多样化，有PDF格式的也有以图片的合适上传的。目前的技术存在处理文件格式单一，仅能针对一种文件格式进行处理，兼容性较差，提取出的内容还不够精确具体，导致无法对表格的关键信息进行分析。

因此，现有技术存在不足，需要改进。

【发明内容】

为克服上述的技术问题，本发明提供了一种基于模型的金融领域交易文件表格日期提取方法。

本发明解决技术问题的方案是提供一种基于模型的金融领域交易文件表格日期提取方法，包括如下步骤：

步骤S1：获取文件的训练样本；

步骤S2：对训练样本进行标签标注；

步骤S3：对训练样本进行模型训练；

步骤S4：对训练完成的模型进行应用。

优选地，在步骤S1中，所述文件为图片或者PDF电子件格式。

优选地，所述步骤S1包括如下步骤：

步骤S11：获取文件；

步骤S12：对文件进行预处理并转成可识别的图片格式或png格式文件；

步骤S13：通过表格OCR将可识别的图片格式或png格式文件识别出表格信息，对未识别出表格信息的文件返回文本信息以及对应文本在图片中的坐标。

优选地，在步骤S12中，通过Python的PyPDF2模块将PDF电子件格式文件的每一页处理成每一张可识别的图片格式文件；对不能读取的图片格式文件转成png格式文件。

优选地，在步骤S2中，对识别出表格信息的文件标注每个单元格的位置及对为日期的单元格标注标签；对未识别出表格信息的文件标注每个文本在图中的坐标及对为日期的文本标注标签。

优选地，在步骤S3中，采用深度神经网络分类模型进行训练。

优选地，所述步骤S3包括如下步骤：

步骤S31：将所有数据随机打乱，分成多个批次；

步骤S32：把数据按批次输入模型计算损失函数；

步骤S33：根据反向传播算法更新模型参数；

步骤S34：重复执行步骤S32、S33至模型收敛。

相对于现有技术，本发明的基于模型的金融领域交易文件表格日期提取方法具有如下优点：

可以对多种不同类型的文件进行识别处理，具有较好的兼容性，可对文件中较为具体的表格日期进行智能化提取，而不是仅提取出表格，有利于工作人员对表格进行具体的分析，为后续自动化合同审核工作提供了较大便利。

【附图说明】

图1是本发明基于模型的金融领域交易文件表格日期提取方法的具体流程示意图。

【具体实施方式】

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施实例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

请参阅图1,本发明提供一种基于模型的金融领域交易文件表格日期提取方法，包括如下步骤：

步骤S1：获取文件的训练样本。

具体地，在步骤S1中，文件为图片或者PDF电子件格式。

进一步地，步骤S1包括如下步骤：

步骤S11：获取文件；

具体地，在步骤S2中，通过Python的PyPDF2模块将PDF电子件格式文件的每一页处理成每一张可识别的图片格式文件；对不能读取的图片格式文件转成png格式文件。

进一步地，步骤S2：对训练样本进行标签标注。

具体地，在步骤S2中，对识别出表格信息的文件标注每个单元格的位置及对为日期的单元格标注标签；对未识别出表格信息的文件标注每个文本在图中的坐标及对为日期的文本标注标签。

步骤S3：对训练样本进行模型训练。

优选地，在步骤S3中，采用深度神经网络分类模型进行训练，如CNN、RNN、BERT等深度模型。

进一步地，步骤S3包括如下步骤：

步骤S31：将所有数据随机打乱，分成多个批次；

步骤S32：把数据按批次输入模型计算损失函数；

步骤S33：根据反向传播算法更新模型参数；

步骤S34：重复执行步骤S32、S33至模型收敛。

具体地，损失函数为交叉熵损失，具体公式为：

其中，y_i是样本对应的one-hot标签，p_i是模型对应的输出概率向量。

进一步地，步骤S4：对训练完成的模型进行应用。

以上所述仅为本发明的较佳实施例，并非因此限制本发明的专利范围，凡是在本发明的构思之内所作的任何修改，等同替换和改进等均应包含在本发明的专利保护范围内。

Claims

1.一种基于模型的金融领域交易文件表格日期提取方法，其特征在于：所述基于模型的金融领域交易文件表格日期提取方法包括如下步骤：

步骤S1：获取文件的训练样本；

步骤S2：对训练样本进行标签标注；

步骤S3：对训练样本进行模型训练；

步骤S4：对训练完成的模型进行应用。

2.如权利要求1所述的基于模型的金融领域交易文件表格日期提取方法，其特征在于：在步骤S1中，所述文件为图片或者PDF电子件格式。

3.如权利要求1所述的基于模型的金融领域交易文件表格日期提取方法，其特征在于：所述步骤S1包括如下步骤：

步骤S11：获取文件；

4.如权利要求3所述的基于模型的金融领域交易文件表格日期提取方法，其特征在于：在步骤S12中，通过Pyt hon的PyPDF2模块将PDF电子件格式文件的每一页处理成每一张可识别的图片格式文件；对不能读取的图片格式文件转成p ng格式文件。

5.如权利要求3所述的基于模型的金融领域交易文件表格日期提取方法，其特征在于：在步骤S2中，对识别出表格信息的文件标注每个单元格的位置及对为日期的单元格标注标签；对未识别出表格信息的文件标注每个文本在图中的坐标及对为日期的文本标注标签。

6.如权利要求1所述的基于模型的金融领域交易文件表格日期提取方法，其特征在于：在步骤S3中，采用深度神经网络分类模型进行训练。

7.如权利要求1所述的基于模型的金融领域交易文件表格日期提取方法，其特征在于：所述步骤S3包括如下步骤：

步骤S31：将所有数据随机打乱，分成多个批次；

步骤S32：把数据按批次输入模型计算损失函数；

步骤S33：根据反向传播算法更新模型参数；

步骤S34：重复执行步骤S32、S33至模型收敛。