CN113963367A - 一种基于模型的金融交易文件及金额的提取方法 - Google Patents
一种基于模型的金融交易文件及金额的提取方法 Download PDFInfo
- Publication number
- CN113963367A CN113963367A CN202111234563.3A CN202111234563A CN113963367A CN 113963367 A CN113963367 A CN 113963367A CN 202111234563 A CN202111234563 A CN 202111234563A CN 113963367 A CN113963367 A CN 113963367A
- Authority
- CN
- China
- Prior art keywords
- transaction
- content
- table content
- category
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims description 16
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000029305 taxis Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开一种基于模型的金融交易文件及金额的提取方法,包括以下步骤:以图片的形式获取交易业务中的交易文件,形成交易图片;采用OCR技术识别出交易图片上的交易表格中的所有的数据信息,并存储数据信息;标注每一个金额在交易表格中所对应的位置信息以及该金额在交易表格中所对应的类目名称的位置信息,形成表格内容1、表格内容2、…、表格内容n;将表格内容1、表格内容2、…、表格内容n输入至训练模型内,训练模型输出预测标签;将预测标签与人工标签进行对比,若不存在误差,则用户可上传待提取文件,通过训练模型输出类目标签。本发明可实现类目标签的快速自动提取,无需人工进行操作,提高类目标签提取的准确性及效率。
Description
技术领域
本发明涉及金融交易领域,尤其涉及一种基于模型的金融交易文件及金额的提取方法。
背景技术
金融领域中交易文件的登记信息中,交易金额往往在表格中显示,然而同一表格中可能含有多个类目(种类,不同的类目名称进行区分)的金额以及税前税后的总金额,由于数据未进行整理,且大多通过图片的形式存在,导致这种多类目的金额的数据较为混乱,对于精准有效地提取目标金额造成很大的困扰。
现有技术中,通常根据交易种类的区别,采用两种不同的方法提取交易的类目名称、交易金额。第一种方法是针对法律文书的特殊数据来进行处理,很难适用于含有大量表格的交易文件场景的特殊数据的处理;第二种方法对于多类目的金额处理,通过人工进行统计,因此,需要投入大量的人力和时间,导致成本较高,而且该种方式的准确率和可以迁移性较差。
因此,现有技术存在缺陷,需要改进。
发明内容
本发明的目的是克服现有技术的不足,提供一种基于模型的金融交易文件及金额的提取方法,解决现有技术中,表格类交易文件的类目名称、交易金额难以快速、准确进行提取的问题。
本发明的技术方案如下:一种基于模型的金融交易文件及金额的提取方法,包括以下步骤:
S1:数据处理模块以图片的形式获取交易业务中的交易文件,形成交易图片。
S2:采用OCR技术识别出所述交易图片上的交易表格中的所有的数据信息,并存储所述数据信息。
所述数据信息包括:内容信息、以及每一个内容信息所对应的位置信息;所述内容信息为金额或类目名称。
S3:标注每一个金额在所述交易表格中所对应的位置信息以及该金额在所述交易表格中所对应的类目名称的位置信息,依次形成表格内容1、表格内容2、…、表格内容n。
S4:分别将表格内容1、表格内容2、…、表格内容n输入至训练模型内,训练模型对表格内容1、表格内容2、…、表格内容n的位置信息进行合并,并输出预测标签。
所述预测标签包括:所述交易表格内所有种类的类目名称,以及每一个类目名称所对应的所有金额。
S5:将所述预测标签与人工标签进行对比,判断是否存在误差。
所述人工标签为:通过人工进行交易表格中同一类目名称所对应的金额的统计结果。
S6:若不存在误差,则用户可上传待提取文件,通过数据处理模块将所述待提取文件转换为图片格式,并重复步骤S2~S3。
S7:将经过步骤S6后获得的待提取文件的表格内容1、表格内容2、…、表格内容n输入至训练模型内,训练模型输出类目标签。
所述类目标签包括:所述待提取文件的交易表格内所有种类的类目名称,以及每一个类目名称所对应的所有金额。
进一步地,采用OCR技术识别出所述交易图片上的交易表格中的所有的数据信息,并以json或xml或txt或csv格式存储所述数据信息。
进一步地,所述训练模型为BERT+CRF模型。
进一步地,所述步骤S6进一步包括:
S60:若步骤S5的判断结果为不存在误差,则用户可上传待提取文件,通过数据处理模块将所述待提取文件转换为图片格式,并重复步骤S2~S3。
S61:若步骤S5的判断结果为存在误差,则更新训练模型的参数信息,并重复步骤S4~步骤S5,直到步骤S5的判断结果为不存在误差。
进一步地,所述步骤S61中的参数信息包括:BERT参数、CRF参数。
采用上述方案,本发明提供一种基于模型的金融交易文件及金额的提取方法,具有以下有益效果:可实现金额及其对应类目名称的快速自动提取,使得各项类目名称所对应的金额均一一对应并有序陈列出来,方便用户的查看,有效提高用户的体验感;同时无需人工进行操作,有效减少人工的投入,降低成本,提高类目标签提取的准确性及效率。
附图说明
图1为本发明的流程框图。
具体实施方式
以下结合附图和具体实施例,对本发明进行详细说明。
请参照图1,本发明提供一种基于模型的金融交易文件及金额的提取方法,其特征在于,包括以下步骤:
(1)获取交易业务中的交易文件,并针对这些交易文件建立训练数据库,具体包括以下步骤S1~步骤S3:
S1:数据处理模块以图片的形式获取交易业务中的交易文件,形成交易图片。需要说明的是,一般交易业务中的交易文件大多是图片,当交易文件为PDF文件时,数据处理模块可采用python的PyPDF2功能模块将PDF文件转换为图片。
S2:采用OCR技术识别出所述交易图片上的交易表格中的所有的数据信息,并存储所述数据信息。
所述数据信息包括:内容信息、以及每一个内容信息所对应的位置信息;所述位置信息为内容信息在交易表格中的位置,位于第几行、第几列;所述内容信息为金额或类目名称。
S3:标注每一个金额在所述交易表格中所对应的位置信息以及该金额在所述交易表格中所对应的类目名称的位置信息,依次形成表格内容1、表格内容2、…、表格内容n。
(2)采用训练数据库中的数据,进行训练模型的训练,具体包括以下步骤S4~步骤S5:
S4:分别将表格内容1、表格内容2、…、表格内容n输入至训练模型内,训练模型对表格内容1、表格内容2、…、表格内容n的位置信息进行合并,并输出预测标签。具体地,所述训练模型为BERT+CRF模型,具体过程为:将步骤S3所形成的表格内容1、表格内容2、…、表格内容n中的”char”字段对应的文本内容,通过BERT+CRF模型的BERT编码模块进行编码,每条表格内容均被编码成一个向量,对所有表格内容的位置信息进行合并,并输入至BERT+CRF模型的CRF模型中,经过CRF模型后,输出预测标签;所述预测标签包括:所述交易表格内所有种类的类目名称,以及每一个类目名称所对应的所有金额,具体地,可以将每一列的最顶部位置显示为类目名称,其下侧依次显示为相关的金额,或是是以每一行最左侧的位置显示为类目名称,从左至右依次显示为相关的金额,具体可根据实际需求设定。
S5:将所述预测标签与人工标签进行对比,判断是否存在误差。
所述人工标签为:通过人工进行交易表格中同一类目名称所对应的金额的统计结果。
(3)用户采用训练模型进行待提取文件的类目标签的提取,具体包括以下步骤S6~步骤S7:
S6:若不存在误差,则用户可上传待提取文件,通过数据处理模块将所述待提取文件转换为图片格式,并重复步骤S2~S3。
S7:将经过步骤S6后获得的待提取文件的表格内容1、表格内容2、…、表格内容n输入至训练模型内,训练模型输出类目标签。
具体地,所述类目标签包括:所述待提取文件的交易表格内所有种类的类目名称,以及每一个类目名称所对应的所有金额,最终类目标签所显示的结果形式与预测标签所显示的结果的形式相同。
本发明中的一种基于模型的金融交易文件及金额的提取方法通过获取交易业务中现有的交易文件,并通过数据处理模块进行交易文件的处理,将交易文件转换为图片格式,并通过OCR技术获取图片中的交易表格中的数据信息,并进行存储,在完成存储后,将所存储的每一个金额在所述交易表格中所对应的位置信息以及该金额在所述交易表格中所对应的类目名称的位置信息进行标注,依次形成表格内容1、表格内容2、…、表格内容n,获得多个数据,形成训练数据库,并通过训练数据库内的数据进行训练模型的测试,将表格内容1、表格内容2、…、表格内容n依次输入值训练模型内,通过训练模型处理后,输出预测标签,而交易业务中的交易文件的人工标签已通过人工获得,可将训练模型输出的预测标签与人工标签进行比对,判断是否存在误差,即判断每一个类目名称所对应的金额或金额所对应的类目名称是否存在错误,若误差为零,则可判断训练模型所输出的结果准确,通过反复训练,完善训练模型的各项参数,保证其输出结果的准确无误后,即可以进行实际业务的数据处理,当用户需要提取金额及对应类目名称时,上传待提取文件,通过数据处理模块对待提取文件进行处理,获得其对应的表格内容1、表格内容2、…、表格内容n,并将这些数据输入至训练模型内,训练模型输出类目标签,实现金额以及对应类目名称的提取,使得各项类目名称所对应的金额均一一对应并有序陈列出来,方便用户的查看;通过本发明中的一种基于模型的金融交易文件及金额的提取方法可实现金额及其对应类目名称的快速自动提取,无需人工进行操作,有效减少人工的投入,降低成本,提高类目标签提取的准确性及效率。
具体地,在本实施例中,所述步骤S2为:采用OCR技术识别出所述交易图片上的交易表格中的所有的数据信息,并以json格式存储所述数据信息。
具体地,在本实施例中,所述步骤S6进一步包括:
S60:若步骤S5的判断结果为不存在误差,则用户可上传待提取文件,通过数据处理模块将所述待提取文件转换为图片格式,并重复步骤S2~S3。
S61:若步骤S5的判断结果为存在误差,则更新训练模型的参数信息,并重复步骤S4~步骤S5,直到步骤S5的判断结果为不存在误差;所述步骤S61中的参数信息包括:BERT参数、CRF参数,根据具体的误差大小及存在误差的类目名称及金额等的具体数量等,分析BERT+CRF模型中出现误差的具体原因,对相关的BERT参数、CRF参数进行更新即可。
综上所述,本发明提供一种基于模型的金融交易文件及金额的提取方法,具有以下有益效果:可实现金额及其对应类目名称的快速自动提取,使得各项类目名称所对应的金额均一一对应并有序陈列出来,方便用户的查看,有效提高用户的体验感;同时无需人工进行操作,有效减少人工的投入,降低成本,提高类目标签提取的准确性及效率。
以上仅为本发明的较佳实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于模型的金融交易文件及金额的提取方法,其特征在于,包括以下步骤:
S1:数据处理模块以图片的形式获取交易业务中的交易文件,形成交易图片;
S2:采用OCR技术识别出所述交易图片上的交易表格中的所有的数据信息,并存储所述数据信息;
所述数据信息包括:内容信息、以及每一个内容信息所对应的位置信息;所述内容信息为金额或类目名称;
S3:标注每一个金额在所述交易表格中所对应的位置信息以及该金额在所述交易表格中所对应的类目名称的位置信息,依次形成表格内容1、表格内容2、…、表格内容n;
S4:分别将表格内容1、表格内容2、…、表格内容n输入至训练模型内,训练模型对表格内容1、表格内容2、…、表格内容n的位置信息进行合并,并输出预测标签;
所述预测标签包括:所述交易表格内所有种类的类目名称,以及每一个类目名称所对应的所有金额;
S5:将所述预测标签与人工标签进行对比,判断是否存在误差;
所述人工标签为:通过人工进行交易表格中同一类目名称所对应的金额的统计结果;
S6:若不存在误差,则用户可上传待提取文件,通过数据处理模块将所述待提取文件转换为图片格式,并重复步骤S2~S3;
S7:将经过步骤S6后获得的待提取文件的表格内容1、表格内容2、…、表格内容n输入至训练模型内,训练模型输出类目标签;
所述类目标签包括:所述待提取文件的交易表格内所有种类的类目名称,以及每一个类目名称所对应的所有金额。
2.根据权利要求1所述的一种基于模型的金融交易文件及金额的提取方法,其特征在于,所述步骤S2为:采用OCR技术识别出所述交易图片上的交易表格中的所有的数据信息,并以json或xml或txt或csv格式存储所述数据信息。
3.根据权利要求1所述的一种基于模型的金融交易文件及金额的提取方法,其特征在于,所述训练模型为BERT+CRF模型。
4.根据权利要求1所述的一种基于模型的金融交易文件及金额的提取方法,其特征在于,所述步骤S6进一步包括:
S60:若步骤S5的判断结果为不存在误差,则用户可上传待提取文件,通过数据处理模块将所述待提取文件转换为图片格式,并重复步骤S2~S3;
S61:若步骤S5的判断结果为存在误差,则更新训练模型的参数信息,并重复步骤S4~步骤S5,直到步骤S5的判断结果为不存在误差。
5.根据权利要求4所述的一种基于模型的金融交易文件及金额的提取方法,其特征在于,所述步骤S61中的参数信息包括:BERT参数、CRF参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111234563.3A CN113963367B (zh) | 2021-10-22 | 2021-10-22 | 一种基于模型的金融交易文件及金额的提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111234563.3A CN113963367B (zh) | 2021-10-22 | 2021-10-22 | 一种基于模型的金融交易文件及金额的提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113963367A true CN113963367A (zh) | 2022-01-21 |
CN113963367B CN113963367B (zh) | 2024-05-28 |
Family
ID=79466566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111234563.3A Active CN113963367B (zh) | 2021-10-22 | 2021-10-22 | 一种基于模型的金融交易文件及金额的提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113963367B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6097834A (en) * | 1997-06-13 | 2000-08-01 | Paystation America Inc. | Financial transaction processing systems and methods |
CN107578270A (zh) * | 2017-08-03 | 2018-01-12 | 中国银联股份有限公司 | 一种金融标签的构建方法、装置及计算设备 |
CN109062874A (zh) * | 2018-06-12 | 2018-12-21 | 平安科技(深圳)有限公司 | 财政数据的获取方法、终端设备及介质 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN110889310A (zh) * | 2018-09-07 | 2020-03-17 | 上海怀若智能科技有限公司 | 金融文档信息智能提取系统及方法 |
CN112633271A (zh) * | 2020-12-30 | 2021-04-09 | 中企云链(北京)金融信息服务有限公司 | 一种基于ocr识别的金融交易系统认证方法 |
CN112732685A (zh) * | 2020-12-23 | 2021-04-30 | 广西大学 | 金融数据处理方法、装置、计算机设备及存储介质 |
KR102302411B1 (ko) * | 2020-12-04 | 2021-09-14 | 최한철 | 생체 데이터를 비롯한 각종 데이터를 사용하는 인공지능 모델을 이용한 금융상품 매매 방법, 서버 및 컴퓨터프로그램 |
-
2021
- 2021-10-22 CN CN202111234563.3A patent/CN113963367B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6097834A (en) * | 1997-06-13 | 2000-08-01 | Paystation America Inc. | Financial transaction processing systems and methods |
CN107578270A (zh) * | 2017-08-03 | 2018-01-12 | 中国银联股份有限公司 | 一种金融标签的构建方法、装置及计算设备 |
CN109062874A (zh) * | 2018-06-12 | 2018-12-21 | 平安科技(深圳)有限公司 | 财政数据的获取方法、终端设备及介质 |
CN110889310A (zh) * | 2018-09-07 | 2020-03-17 | 上海怀若智能科技有限公司 | 金融文档信息智能提取系统及方法 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
KR102302411B1 (ko) * | 2020-12-04 | 2021-09-14 | 최한철 | 생체 데이터를 비롯한 각종 데이터를 사용하는 인공지능 모델을 이용한 금융상품 매매 방법, 서버 및 컴퓨터프로그램 |
CN112732685A (zh) * | 2020-12-23 | 2021-04-30 | 广西大学 | 金融数据处理方法、装置、计算机设备及存储介质 |
CN112633271A (zh) * | 2020-12-30 | 2021-04-09 | 中企云链(北京)金融信息服务有限公司 | 一种基于ocr识别的金融交易系统认证方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113963367B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110751143A (zh) | 一种电子发票信息的提取方法及电子设备 | |
AU2023200583A1 (en) | Systems and methods for enhanced mapping and classification of data | |
CN107274291B (zh) | 跨平台的估值表解析方法、存储介质及应用服务器 | |
CN109062872B (zh) | 一种对不同格式报关文件进行统一处理的方法 | |
CN112418812A (zh) | 分布式全链路自动化智能通关系统、方法及存储介质 | |
CN115017272B (zh) | 基于登记数据的智能核验方法及装置 | |
CN111090990A (zh) | 一种医疗体检报告单文字识别及纠正方法 | |
CN110472209B (zh) | 基于深度学习的表格生成方法、装置和计算机设备 | |
CN116433052B (zh) | 一种基于智能化的招标信息采集数据分析评价系统 | |
CN111191435A (zh) | 一种用于海关报表的动态模板生成报表的方法及其装置 | |
CN110543475A (zh) | 一种基于机器学习的财务报表数据自动识别和分析方法 | |
CN111815162A (zh) | 一种数字化审计工具及方法 | |
CN114330284A (zh) | 一种基于规则模型的自动化保险条款解析方法 | |
CN111626029B (zh) | 一种项目咨询用预算方法、装置、电子设备 | |
CN113963367B (zh) | 一种基于模型的金融交易文件及金额的提取方法 | |
CN112232036A (zh) | 报销单生成方法、电子设备和计算机可读存储介质 | |
CN116701506A (zh) | 融合非结构化数据的需求计划合规性检验方法 | |
CN115587098A (zh) | 一种智能识别图表数据的方法及系统 | |
CN114676229B (zh) | 一种技改大修工程档案管理系统及管理方法 | |
CN206601738U (zh) | 一种基于条码和图像识别的试卷成绩录入系统 | |
CN112418652B (zh) | 一种风险识别方法及相关装置 | |
CN114742026A (zh) | 一种基于模板技术生成富文本形式的pdf方法 | |
CN114676207A (zh) | 一种用于金融长文本复核系统的金融数据勾稽关系审核模块 | |
CN110825872B (zh) | 一种提取和分类诉讼请求信息的方法及系统 | |
CN114677696A (zh) | 一种桥梁钢结构定额数据识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |