CN114022883A - 基于模型的金融领域交易文件表格日期提取方法 - Google Patents

基于模型的金融领域交易文件表格日期提取方法 Download PDF

Info

Publication number
CN114022883A
CN114022883A CN202111306951.8A CN202111306951A CN114022883A CN 114022883 A CN114022883 A CN 114022883A CN 202111306951 A CN202111306951 A CN 202111306951A CN 114022883 A CN114022883 A CN 114022883A
Authority
CN
China
Prior art keywords
file
model
extraction method
date extraction
format
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111306951.8A
Other languages
English (en)
Inventor
陈加杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Original Assignee
Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd filed Critical Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority to CN202111306951.8A priority Critical patent/CN114022883A/zh
Publication of CN114022883A publication Critical patent/CN114022883A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及金融领域表格日期提取技术领域,尤其涉及一种基于模型的金融领域交易文件表格日期提取方法,包括如下步骤:步骤S1:获取文件的训练样本;步骤S2:对训练样本进行标签标注;步骤S3:对训练样本进行模型训练;步骤S4:对训练完成的模型进行应用。本发明的基于模型的金融领域交易文件表格日期提取方法可以对多种不同类型的文件进行识别处理,具有较好的兼容性,可对文件中较为具体的表格日期进行智能化提取,而不是仅提取出表格,有利于工作人员对表格进行具体的分析,为后续自动化合同审核工作提供了较大便利。

Description

基于模型的金融领域交易文件表格日期提取方法
【技术领域】
本发明涉及金融领域表格日期提取技术领域,尤其涉及一种基于模型的金融领域交易文件表格日期提取方法。
【背景技术】
在实际业务中,用户上传的贸易合同文件具有多样化,有PDF格式的也有以图片的合适上传的。目前的技术存在处理文件格式单一,仅能针对一种文件格式进行处理,兼容性较差,提取出的内容还不够精确具体,导致无法对表格的关键信息进行分析。
因此,现有技术存在不足,需要改进。
【发明内容】
为克服上述的技术问题,本发明提供了一种基于模型的金融领域交易文件表格日期提取方法。
本发明解决技术问题的方案是提供一种基于模型的金融领域交易文件表格日期提取方法,包括如下步骤:
步骤S1:获取文件的训练样本;
步骤S2:对训练样本进行标签标注;
步骤S3:对训练样本进行模型训练;
步骤S4:对训练完成的模型进行应用。
优选地,在步骤S1中,所述文件为图片或者PDF电子件格式。
优选地,所述步骤S1包括如下步骤:
步骤S11:获取文件;
步骤S12:对文件进行预处理并转成可识别的图片格式或png格式文件;
步骤S13:通过表格OCR将可识别的图片格式或png格式文件识别出表格信息,对未识别出表格信息的文件返回文本信息以及对应文本在图片中的坐标。
优选地,在步骤S12中,通过Python的PyPDF2模块将PDF电子件格式文件的每一页处理成每一张可识别的图片格式文件;对不能读取的图片格式文件转成png格式文件。
优选地,在步骤S2中,对识别出表格信息的文件标注每个单元格的位置及对为日期的单元格标注标签;对未识别出表格信息的文件标注每个文本在图中的坐标及对为日期的文本标注标签。
优选地,在步骤S3中,采用深度神经网络分类模型进行训练。
优选地,所述步骤S3包括如下步骤:
步骤S31:将所有数据随机打乱,分成多个批次;
步骤S32:把数据按批次输入模型计算损失函数;
步骤S33:根据反向传播算法更新模型参数;
步骤S34:重复执行步骤S32、S33至模型收敛。
相对于现有技术,本发明的基于模型的金融领域交易文件表格日期提取方法具有如下优点:
可以对多种不同类型的文件进行识别处理,具有较好的兼容性,可对文件中较为具体的表格日期进行智能化提取,而不是仅提取出表格,有利于工作人员对表格进行具体的分析,为后续自动化合同审核工作提供了较大便利。
【附图说明】
图1是本发明基于模型的金融领域交易文件表格日期提取方法的具体流程示意图。
【具体实施方式】
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施实例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
请参阅图1,本发明提供一种基于模型的金融领域交易文件表格日期提取方法,包括如下步骤:
步骤S1:获取文件的训练样本。
具体地,在步骤S1中,文件为图片或者PDF电子件格式。
进一步地,步骤S1包括如下步骤:
步骤S11:获取文件;
步骤S12:对文件进行预处理并转成可识别的图片格式或png格式文件;
步骤S13:通过表格OCR将可识别的图片格式或png格式文件识别出表格信息,对未识别出表格信息的文件返回文本信息以及对应文本在图片中的坐标。
具体地,在步骤S2中,通过Python的PyPDF2模块将PDF电子件格式文件的每一页处理成每一张可识别的图片格式文件;对不能读取的图片格式文件转成png格式文件。
进一步地,步骤S2:对训练样本进行标签标注。
具体地,在步骤S2中,对识别出表格信息的文件标注每个单元格的位置及对为日期的单元格标注标签;对未识别出表格信息的文件标注每个文本在图中的坐标及对为日期的文本标注标签。
步骤S3:对训练样本进行模型训练。
优选地,在步骤S3中,采用深度神经网络分类模型进行训练,如CNN、RNN、BERT等深度模型。
进一步地,步骤S3包括如下步骤:
步骤S31:将所有数据随机打乱,分成多个批次;
步骤S32:把数据按批次输入模型计算损失函数;
步骤S33:根据反向传播算法更新模型参数;
步骤S34:重复执行步骤S32、S33至模型收敛。
具体地,损失函数为交叉熵损失,具体公式为:
Figure BDA0003340473090000041
其中,yi是样本对应的one-hot标签,pi是模型对应的输出概率向量。
进一步地,步骤S4:对训练完成的模型进行应用。
相对于现有技术,本发明的基于模型的金融领域交易文件表格日期提取方法具有如下优点:
可以对多种不同类型的文件进行识别处理,具有较好的兼容性,可对文件中较为具体的表格日期进行智能化提取,而不是仅提取出表格,有利于工作人员对表格进行具体的分析,为后续自动化合同审核工作提供了较大便利。
以上所述仅为本发明的较佳实施例,并非因此限制本发明的专利范围,凡是在本发明的构思之内所作的任何修改,等同替换和改进等均应包含在本发明的专利保护范围内。

Claims (7)

1.一种基于模型的金融领域交易文件表格日期提取方法,其特征在于:所述基于模型的金融领域交易文件表格日期提取方法包括如下步骤:
步骤S1:获取文件的训练样本;
步骤S2:对训练样本进行标签标注;
步骤S3:对训练样本进行模型训练;
步骤S4:对训练完成的模型进行应用。
2.如权利要求1所述的基于模型的金融领域交易文件表格日期提取方法,其特征在于:在步骤S1中,所述文件为图片或者PDF电子件格式。
3.如权利要求1所述的基于模型的金融领域交易文件表格日期提取方法,其特征在于:所述步骤S1包括如下步骤:
步骤S11:获取文件;
步骤S12:对文件进行预处理并转成可识别的图片格式或png格式文件;
步骤S13:通过表格OCR将可识别的图片格式或png格式文件识别出表格信息,对未识别出表格信息的文件返回文本信息以及对应文本在图片中的坐标。
4.如权利要求3所述的基于模型的金融领域交易文件表格日期提取方法,其特征在于:在步骤S12中,通过Pyt hon的PyPDF2模块将PDF电子件格式文件的每一页处理成每一张可识别的图片格式文件;对不能读取的图片格式文件转成p ng格式文件。
5.如权利要求3所述的基于模型的金融领域交易文件表格日期提取方法,其特征在于:在步骤S2中,对识别出表格信息的文件标注每个单元格的位置及对为日期的单元格标注标签;对未识别出表格信息的文件标注每个文本在图中的坐标及对为日期的文本标注标签。
6.如权利要求1所述的基于模型的金融领域交易文件表格日期提取方法,其特征在于:在步骤S3中,采用深度神经网络分类模型进行训练。
7.如权利要求1所述的基于模型的金融领域交易文件表格日期提取方法,其特征在于:所述步骤S3包括如下步骤:
步骤S31:将所有数据随机打乱,分成多个批次;
步骤S32:把数据按批次输入模型计算损失函数;
步骤S33:根据反向传播算法更新模型参数;
步骤S34:重复执行步骤S32、S33至模型收敛。
CN202111306951.8A 2021-11-05 2021-11-05 基于模型的金融领域交易文件表格日期提取方法 Pending CN114022883A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111306951.8A CN114022883A (zh) 2021-11-05 2021-11-05 基于模型的金融领域交易文件表格日期提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111306951.8A CN114022883A (zh) 2021-11-05 2021-11-05 基于模型的金融领域交易文件表格日期提取方法

Publications (1)

Publication Number Publication Date
CN114022883A true CN114022883A (zh) 2022-02-08

Family

ID=80061565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111306951.8A Pending CN114022883A (zh) 2021-11-05 2021-11-05 基于模型的金融领域交易文件表格日期提取方法

Country Status (1)

Country Link
CN (1) CN114022883A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491787A (zh) * 2018-03-20 2018-09-04 上海眼控科技股份有限公司 一种用于财务报表的日期检测与识别方法及装置
US20190266394A1 (en) * 2018-02-26 2019-08-29 Abc Fintech Co., Ltd. Method and device for parsing table in document image
CN110390269A (zh) * 2019-06-26 2019-10-29 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质
US20200026944A1 (en) * 2019-06-26 2020-01-23 Infrrd Inc System for extracting text from images
WO2020232872A1 (zh) * 2019-05-22 2020-11-26 平安科技(深圳)有限公司 表格识别方法、装置、计算机设备和存储介质
CN112329767A (zh) * 2020-10-15 2021-02-05 方正株式(武汉)科技开发有限公司 基于联合预训练的合同文本图像关键信息提取系统和方法
CN112712085A (zh) * 2020-12-28 2021-04-27 哈尔滨工业大学 一种提取多语言pdf文档中日期的方法
CN113239807A (zh) * 2021-05-14 2021-08-10 北京百度网讯科技有限公司 训练票据识别模型和票据识别的方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190266394A1 (en) * 2018-02-26 2019-08-29 Abc Fintech Co., Ltd. Method and device for parsing table in document image
CN108491787A (zh) * 2018-03-20 2018-09-04 上海眼控科技股份有限公司 一种用于财务报表的日期检测与识别方法及装置
WO2020232872A1 (zh) * 2019-05-22 2020-11-26 平安科技(深圳)有限公司 表格识别方法、装置、计算机设备和存储介质
CN110390269A (zh) * 2019-06-26 2019-10-29 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质
US20200026944A1 (en) * 2019-06-26 2020-01-23 Infrrd Inc System for extracting text from images
CN112329767A (zh) * 2020-10-15 2021-02-05 方正株式(武汉)科技开发有限公司 基于联合预训练的合同文本图像关键信息提取系统和方法
CN112712085A (zh) * 2020-12-28 2021-04-27 哈尔滨工业大学 一种提取多语言pdf文档中日期的方法
CN113239807A (zh) * 2021-05-14 2021-08-10 北京百度网讯科技有限公司 训练票据识别模型和票据识别的方法和装置

Similar Documents

Publication Publication Date Title
CN107622255B (zh) 基于位置模板与语义模板的票据图像字段定位方法及系统
US9552516B2 (en) Document information extraction using geometric models
CN108664474B (zh) 一种基于深度学习的简历解析方法
CN112800848A (zh) 票据识别后信息结构化提取方法、装置和设备
CN112508011A (zh) 一种基于神经网络的ocr识别方法及设备
US9710769B2 (en) Methods and systems for crowdsourcing a task
CN109271951A (zh) 一种提升记账审核效率的方法及系统
CN114170411A (zh) 一种融合多尺度信息的图片情感识别方法
CN112801099B (zh) 一种图像处理方法、装置、终端设备及介质
CN112036330A (zh) 一种文本识别方法、文本识别装置及可读存储介质
Almohri et al. A real-time DSP-based optical character recognition system for isolated Arabic characters using the TI TMS320C6416T
CN115994232A (zh) 在线多版本文献同一性鉴别方法、系统及计算机设备
CN114022883A (zh) 基于模型的金融领域交易文件表格日期提取方法
EP4167106A1 (en) Method and apparatus for data structuring of text
TWM575887U (zh) 智能會計帳務系統
CN113935296A (zh) 一种使用滑动模板技术进行纸质银行流水信息提取的方法
CN113657373A (zh) 一种文书自动编目方法
CN110414000B (zh) 一种基于模板文档对比的关键词提取方法及系统
AU2018100324B4 (en) Image Analysis
CN112348022A (zh) 一种基于深度学习的自由格式文档识别方法
CN105847122A (zh) 广告邮件识别方法及装置
CN112990091A (zh) 基于目标检测的研报解析方法、装置、设备和存储介质
Karambelkar et al. Automated Text Extraction from Images using Optical Character Recognition.
CN111444678B (zh) 一种基于机器阅读理解的起诉状信息抽取方法及系统
Shahin et al. Deploying Optical Character Recognition to Improve Material Handling and Processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination