CN114022883A - 基于模型的金融领域交易文件表格日期提取方法 - Google Patents
基于模型的金融领域交易文件表格日期提取方法 Download PDFInfo
- Publication number
- CN114022883A CN114022883A CN202111306951.8A CN202111306951A CN114022883A CN 114022883 A CN114022883 A CN 114022883A CN 202111306951 A CN202111306951 A CN 202111306951A CN 114022883 A CN114022883 A CN 114022883A
- Authority
- CN
- China
- Prior art keywords
- file
- model
- extraction method
- date extraction
- format
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 14
- 238000002372 labelling Methods 0.000 claims abstract description 9
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000013145 classification model Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 241001521293 Python Species 0.000 claims 1
- 238000000034 method Methods 0.000 abstract description 11
- 230000002349 favourable effect Effects 0.000 abstract description 3
- 238000012795 verification Methods 0.000 abstract 1
- 238000012550 audit Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及金融领域表格日期提取技术领域,尤其涉及一种基于模型的金融领域交易文件表格日期提取方法,包括如下步骤:步骤S1:获取文件的训练样本;步骤S2:对训练样本进行标签标注;步骤S3:对训练样本进行模型训练;步骤S4:对训练完成的模型进行应用。本发明的基于模型的金融领域交易文件表格日期提取方法可以对多种不同类型的文件进行识别处理,具有较好的兼容性,可对文件中较为具体的表格日期进行智能化提取,而不是仅提取出表格,有利于工作人员对表格进行具体的分析,为后续自动化合同审核工作提供了较大便利。
Description
【技术领域】
本发明涉及金融领域表格日期提取技术领域,尤其涉及一种基于模型的金融领域交易文件表格日期提取方法。
【背景技术】
在实际业务中,用户上传的贸易合同文件具有多样化,有PDF格式的也有以图片的合适上传的。目前的技术存在处理文件格式单一,仅能针对一种文件格式进行处理,兼容性较差,提取出的内容还不够精确具体,导致无法对表格的关键信息进行分析。
因此,现有技术存在不足,需要改进。
【发明内容】
为克服上述的技术问题,本发明提供了一种基于模型的金融领域交易文件表格日期提取方法。
本发明解决技术问题的方案是提供一种基于模型的金融领域交易文件表格日期提取方法,包括如下步骤:
步骤S1:获取文件的训练样本;
步骤S2:对训练样本进行标签标注;
步骤S3:对训练样本进行模型训练;
步骤S4:对训练完成的模型进行应用。
优选地,在步骤S1中,所述文件为图片或者PDF电子件格式。
优选地,所述步骤S1包括如下步骤:
步骤S11:获取文件;
步骤S12:对文件进行预处理并转成可识别的图片格式或png格式文件;
步骤S13:通过表格OCR将可识别的图片格式或png格式文件识别出表格信息,对未识别出表格信息的文件返回文本信息以及对应文本在图片中的坐标。
优选地,在步骤S12中,通过Python的PyPDF2模块将PDF电子件格式文件的每一页处理成每一张可识别的图片格式文件;对不能读取的图片格式文件转成png格式文件。
优选地,在步骤S2中,对识别出表格信息的文件标注每个单元格的位置及对为日期的单元格标注标签;对未识别出表格信息的文件标注每个文本在图中的坐标及对为日期的文本标注标签。
优选地,在步骤S3中,采用深度神经网络分类模型进行训练。
优选地,所述步骤S3包括如下步骤:
步骤S31:将所有数据随机打乱,分成多个批次;
步骤S32:把数据按批次输入模型计算损失函数;
步骤S33:根据反向传播算法更新模型参数;
步骤S34:重复执行步骤S32、S33至模型收敛。
相对于现有技术,本发明的基于模型的金融领域交易文件表格日期提取方法具有如下优点:
可以对多种不同类型的文件进行识别处理,具有较好的兼容性,可对文件中较为具体的表格日期进行智能化提取,而不是仅提取出表格,有利于工作人员对表格进行具体的分析,为后续自动化合同审核工作提供了较大便利。
【附图说明】
图1是本发明基于模型的金融领域交易文件表格日期提取方法的具体流程示意图。
【具体实施方式】
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施实例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
请参阅图1,本发明提供一种基于模型的金融领域交易文件表格日期提取方法,包括如下步骤:
步骤S1:获取文件的训练样本。
具体地,在步骤S1中,文件为图片或者PDF电子件格式。
进一步地,步骤S1包括如下步骤:
步骤S11:获取文件;
步骤S12:对文件进行预处理并转成可识别的图片格式或png格式文件;
步骤S13:通过表格OCR将可识别的图片格式或png格式文件识别出表格信息,对未识别出表格信息的文件返回文本信息以及对应文本在图片中的坐标。
具体地,在步骤S2中,通过Python的PyPDF2模块将PDF电子件格式文件的每一页处理成每一张可识别的图片格式文件;对不能读取的图片格式文件转成png格式文件。
进一步地,步骤S2:对训练样本进行标签标注。
具体地,在步骤S2中,对识别出表格信息的文件标注每个单元格的位置及对为日期的单元格标注标签;对未识别出表格信息的文件标注每个文本在图中的坐标及对为日期的文本标注标签。
步骤S3:对训练样本进行模型训练。
优选地,在步骤S3中,采用深度神经网络分类模型进行训练,如CNN、RNN、BERT等深度模型。
进一步地,步骤S3包括如下步骤:
步骤S31:将所有数据随机打乱,分成多个批次;
步骤S32:把数据按批次输入模型计算损失函数;
步骤S33:根据反向传播算法更新模型参数;
步骤S34:重复执行步骤S32、S33至模型收敛。
具体地,损失函数为交叉熵损失,具体公式为:
其中,yi是样本对应的one-hot标签,pi是模型对应的输出概率向量。
进一步地,步骤S4:对训练完成的模型进行应用。
相对于现有技术,本发明的基于模型的金融领域交易文件表格日期提取方法具有如下优点:
可以对多种不同类型的文件进行识别处理,具有较好的兼容性,可对文件中较为具体的表格日期进行智能化提取,而不是仅提取出表格,有利于工作人员对表格进行具体的分析,为后续自动化合同审核工作提供了较大便利。
以上所述仅为本发明的较佳实施例,并非因此限制本发明的专利范围,凡是在本发明的构思之内所作的任何修改,等同替换和改进等均应包含在本发明的专利保护范围内。
Claims (7)
1.一种基于模型的金融领域交易文件表格日期提取方法,其特征在于:所述基于模型的金融领域交易文件表格日期提取方法包括如下步骤:
步骤S1:获取文件的训练样本;
步骤S2:对训练样本进行标签标注;
步骤S3:对训练样本进行模型训练;
步骤S4:对训练完成的模型进行应用。
2.如权利要求1所述的基于模型的金融领域交易文件表格日期提取方法,其特征在于:在步骤S1中,所述文件为图片或者PDF电子件格式。
3.如权利要求1所述的基于模型的金融领域交易文件表格日期提取方法,其特征在于:所述步骤S1包括如下步骤:
步骤S11:获取文件;
步骤S12:对文件进行预处理并转成可识别的图片格式或png格式文件;
步骤S13:通过表格OCR将可识别的图片格式或png格式文件识别出表格信息,对未识别出表格信息的文件返回文本信息以及对应文本在图片中的坐标。
4.如权利要求3所述的基于模型的金融领域交易文件表格日期提取方法,其特征在于:在步骤S12中,通过Pyt hon的PyPDF2模块将PDF电子件格式文件的每一页处理成每一张可识别的图片格式文件;对不能读取的图片格式文件转成p ng格式文件。
5.如权利要求3所述的基于模型的金融领域交易文件表格日期提取方法,其特征在于:在步骤S2中,对识别出表格信息的文件标注每个单元格的位置及对为日期的单元格标注标签;对未识别出表格信息的文件标注每个文本在图中的坐标及对为日期的文本标注标签。
6.如权利要求1所述的基于模型的金融领域交易文件表格日期提取方法,其特征在于:在步骤S3中,采用深度神经网络分类模型进行训练。
7.如权利要求1所述的基于模型的金融领域交易文件表格日期提取方法,其特征在于:所述步骤S3包括如下步骤:
步骤S31:将所有数据随机打乱,分成多个批次;
步骤S32:把数据按批次输入模型计算损失函数;
步骤S33:根据反向传播算法更新模型参数;
步骤S34:重复执行步骤S32、S33至模型收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111306951.8A CN114022883A (zh) | 2021-11-05 | 2021-11-05 | 基于模型的金融领域交易文件表格日期提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111306951.8A CN114022883A (zh) | 2021-11-05 | 2021-11-05 | 基于模型的金融领域交易文件表格日期提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114022883A true CN114022883A (zh) | 2022-02-08 |
Family
ID=80061565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111306951.8A Pending CN114022883A (zh) | 2021-11-05 | 2021-11-05 | 基于模型的金融领域交易文件表格日期提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114022883A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108491787A (zh) * | 2018-03-20 | 2018-09-04 | 上海眼控科技股份有限公司 | 一种用于财务报表的日期检测与识别方法及装置 |
US20190266394A1 (en) * | 2018-02-26 | 2019-08-29 | Abc Fintech Co., Ltd. | Method and device for parsing table in document image |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
US20200026944A1 (en) * | 2019-06-26 | 2020-01-23 | Infrrd Inc | System for extracting text from images |
WO2020232872A1 (zh) * | 2019-05-22 | 2020-11-26 | 平安科技(深圳)有限公司 | 表格识别方法、装置、计算机设备和存储介质 |
CN112329767A (zh) * | 2020-10-15 | 2021-02-05 | 方正株式(武汉)科技开发有限公司 | 基于联合预训练的合同文本图像关键信息提取系统和方法 |
CN112712085A (zh) * | 2020-12-28 | 2021-04-27 | 哈尔滨工业大学 | 一种提取多语言pdf文档中日期的方法 |
CN113239807A (zh) * | 2021-05-14 | 2021-08-10 | 北京百度网讯科技有限公司 | 训练票据识别模型和票据识别的方法和装置 |
-
2021
- 2021-11-05 CN CN202111306951.8A patent/CN114022883A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190266394A1 (en) * | 2018-02-26 | 2019-08-29 | Abc Fintech Co., Ltd. | Method and device for parsing table in document image |
CN108491787A (zh) * | 2018-03-20 | 2018-09-04 | 上海眼控科技股份有限公司 | 一种用于财务报表的日期检测与识别方法及装置 |
WO2020232872A1 (zh) * | 2019-05-22 | 2020-11-26 | 平安科技(深圳)有限公司 | 表格识别方法、装置、计算机设备和存储介质 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
US20200026944A1 (en) * | 2019-06-26 | 2020-01-23 | Infrrd Inc | System for extracting text from images |
CN112329767A (zh) * | 2020-10-15 | 2021-02-05 | 方正株式(武汉)科技开发有限公司 | 基于联合预训练的合同文本图像关键信息提取系统和方法 |
CN112712085A (zh) * | 2020-12-28 | 2021-04-27 | 哈尔滨工业大学 | 一种提取多语言pdf文档中日期的方法 |
CN113239807A (zh) * | 2021-05-14 | 2021-08-10 | 北京百度网讯科技有限公司 | 训练票据识别模型和票据识别的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107622255B (zh) | 基于位置模板与语义模板的票据图像字段定位方法及系统 | |
US9552516B2 (en) | Document information extraction using geometric models | |
CN108664474B (zh) | 一种基于深度学习的简历解析方法 | |
CN112800848A (zh) | 票据识别后信息结构化提取方法、装置和设备 | |
CN112508011A (zh) | 一种基于神经网络的ocr识别方法及设备 | |
US9710769B2 (en) | Methods and systems for crowdsourcing a task | |
CN109271951A (zh) | 一种提升记账审核效率的方法及系统 | |
CN114170411A (zh) | 一种融合多尺度信息的图片情感识别方法 | |
CN112801099B (zh) | 一种图像处理方法、装置、终端设备及介质 | |
CN112036330A (zh) | 一种文本识别方法、文本识别装置及可读存储介质 | |
Almohri et al. | A real-time DSP-based optical character recognition system for isolated Arabic characters using the TI TMS320C6416T | |
CN115994232A (zh) | 在线多版本文献同一性鉴别方法、系统及计算机设备 | |
CN114022883A (zh) | 基于模型的金融领域交易文件表格日期提取方法 | |
EP4167106A1 (en) | Method and apparatus for data structuring of text | |
TWM575887U (zh) | 智能會計帳務系統 | |
CN113935296A (zh) | 一种使用滑动模板技术进行纸质银行流水信息提取的方法 | |
CN113657373A (zh) | 一种文书自动编目方法 | |
CN110414000B (zh) | 一种基于模板文档对比的关键词提取方法及系统 | |
AU2018100324B4 (en) | Image Analysis | |
CN112348022A (zh) | 一种基于深度学习的自由格式文档识别方法 | |
CN105847122A (zh) | 广告邮件识别方法及装置 | |
CN112990091A (zh) | 基于目标检测的研报解析方法、装置、设备和存储介质 | |
Karambelkar et al. | Automated Text Extraction from Images using Optical Character Recognition. | |
CN111444678B (zh) | 一种基于机器阅读理解的起诉状信息抽取方法及系统 | |
Shahin et al. | Deploying Optical Character Recognition to Improve Material Handling and Processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |