CN110472209B - 基于深度学习的表格生成方法、装置和计算机设备 - Google Patents
基于深度学习的表格生成方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN110472209B CN110472209B CN201910600647.0A CN201910600647A CN110472209B CN 110472209 B CN110472209 B CN 110472209B CN 201910600647 A CN201910600647 A CN 201910600647A CN 110472209 B CN110472209 B CN 110472209B
- Authority
- CN
- China
- Prior art keywords
- data
- preset
- specified
- list
- tables
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000013135 deep learning Methods 0.000 title claims abstract description 48
- 238000012545 processing Methods 0.000 claims abstract description 20
- 230000011218 segmentation Effects 0.000 claims description 30
- 238000012216 screening Methods 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 12
- 238000012550 audit Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 description 13
- 238000011156 evaluation Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000012015 optical character recognition Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/125—Finance or payroll
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请揭示了一种基于深度学习的表格生成方法、装置和计算机设备,其中方法包括:获取待处理的报告文档;提取出报告文档内包括的所有表格;通过预设的排序模型从所有表格中提取出指定表格;通过预设的识别模型,根据指定表格获取指定数据;将指定数据添加至预设的表格模板,形成与所述报告文档对应的参照表格。本申请通过从报告文档的所有表格中提取出指定表格,以及将指定数据汇集起来并输入到表格模板内,从而无需人工从报告文档的所有表格中查找出指定表格或从指定表格中分别获取出与预设指标相关的特定数据,有效地减轻了工作人员的工作量。另外通过生成的参照表格来智能地对待审核表格进行审核,可以提高工作人员处理待审核表格的效率。
Description
技术领域
本申请涉及计算机领域,具体涉及一种基于深度学习的表格生成方法、装置和计算机设备。
背景技术
现有的财承报告文档记录有与财承相关的数据,且财承报告文档通常会存在大量的表格数据。当工作人员需要对与财承相关的待审核表格进行审核时,首先需要人工从财承报告文档的所有表格中查找出包含有与财承相关的重要信息的多个特定表格。并且在查找到多个上述特定表格后,工作人员还需要从多个特定表格中分别提取出与财承相关的特定数据,进而根据这些特定数据来对待审核表格内的数据进行审核。由于需要人工从财承报告文档的所有表格中查找出特定表格,以及从多个特定表格中分别提取出与财承相关的特定数据来进行后续的审核工作,导致工作人员的工作量大且工作繁琐,从而造成工作人员处理待审核表格的处理效率低,且容易出错。
发明内容
本申请的主要目的为提供一种基于深度学习的表格生成方法、装置和计算机设备,旨在解决现有的工作人员需要人工从财承报告文档的所有表格中查找出特定表格,以及从多个特定表格中分别提取出与财承相关的特定数据来进行审核工作,而造成工作人员处理待审核表格的处理效率低,且容易出错的技术问题。
本申请提出一种基于深度学习的表格生成方法,所述方法包括步骤:
获取待处理的报告文档;
提取出所述报告文档内包括的所有表格;
通过预设的排序模型从所有所述表格中提取出指定表格,其中所述指定表格为与预设指标相关的表格;
通过预设的识别模型,根据所述指定表格获取指定数据,其中所述指定数据为与所述预设指标相关的数据;
将所述指定数据添加至预设的表格模板中,形成与所述报告文档对应的参照表格。
可选地,所述通过预设的排序模型从所有所述表格中提取出指定表格的步骤,包括:
从所有所述表格中分别提取出各所述表格对应的参考信息;
将各所述参考信息分别输入至所述排序模型;
根据各所述参考信息,通过所述排序模型分别计算各所述表格相对于所述预设指标的相关性得分;
筛选所述相关性得分大于预设的相关性得分阈值的所述指定表格,其中所述指定表格包含于所述报告文档内包括的所有表格。
可选地,所述根据各所述参考信息,通过所述排序模型分别计算各所述表格相对于所述预设指标的相关性得分的步骤,包括:
通过所述排序模型对第一参考信息进行分词处理,得到所述第一参考信息对应的各分词,其中所述第一参考信息包含于所有所述表格对应的所有参考信息;
从预设的分词文本库中获取与各所述分词分别对应的参数值;
根据各所述参数值,通过预设的相关性得分计算公式计算所述第一参考信息对应表格的相关性得分。
可选地,所述通过预设的识别模型,根据所述指定表格获取指定数据的步骤,包括:
获取所有所述指定表格内的表格数据,并对所述表格数据进行结构化存储,其中,所述结构化存储的形式为:属性与属性对应数据值的键值格式,所述属性包括行表头与列表头,所述属性对应数据值为所述行表头与列表头共同对应的数据值;
将所有所述表格数据输入至所述识别模型;
通过所述识别模型从所有所述表格数据中筛选出与所述预设指标存在映射关系的指定列表头,其中所述指定列表头包含于所有所述表格数据内的列表头;
从所有所述预设指标中提取出与所述指定列表头对应的指定指标;
使用所述指定指标替换所述指定列表头,得到替换后的表格数据,并将所述替换后的表格数据确定为所述指定数据。
可选地,所述通过所述识别模型从所有所述表格数据中筛选出与所述预设指标存在映射关系的指定列表头的步骤,包括:
通过所述识别模型分别计算各所述表格数据中的第一列表头,与所有所述预设指标中的每个预设指标的编辑距离,其中所述第一列表头包含于所述表格数据内的所有列表头;
根据各所述编辑距离,按照预设的相似度公式分别计算所述第一列表头与每个所述预设指标的相似度;
获取相似度最大的第一预设指标对应的第一相似度;
判断所述第一相似度是否大于预设的相似度阈值;
若所述第一相似度大于预设的相似度阈值,则将所述第一列表头确定为所述指定列表头。
可选地,所述将所述指定数据添加至预设的表格模板中,形成与所述报告文档对应的参照表格的步骤之后,包括:
从所述参照表格内查找出与待审核表格内的第一数据值对应的第一指定数据值,其中所述第一数据值包含于所述人工填报表格内的所有数据值,所述数据值为待审核表格内的行表头与列表头共同对应的数据值;
判断所述第一数据值与所述第一指定数据值是否相同;
若所述第一数据值与所述第一指定数据值相同,则判断所述第一指定数据值的识别得分是否大于预设的识别得分阈值,其中所述识别得分为同一指定数据对应的表格相关性得分与对应的列表头相似度的乘积;
若所述第一指定数据值的识别得分大于预设的识别得分阈值,则判定对所述第一数据值的审核通过,并为所述第一数据值添加第一标记,其中所述第一标记表示可靠性级别。
可选地,所述若所述第一数据值与所述第一指定数据值相同,则判断所述第一指定数据值的识别得分是否大于预设的识别得分阈值的步骤之后,包括:
若所述第一指定数据值的识别得分不大于预设的识别得分阈值,则判定对所述第一数据值的审核待通过,并为所述第一数据值添加第二标记,其中所述第二标记的可靠性级别低于所述第一标记;
发出对所述第一数据值进行人工审核的提醒信息。
本申请还提供一种基于深度学习的表格生成装置,包括:
第一获取模块,用于获取待处理的报告文档;
第一提取模块,用于提取出所述报告文档内包含的所有表格;
第二提取模块,用于通过预设的排序模型从所有所述表格中提取出指定表格,其中所述指定表格为与预设指标相关的表格;
第二获取模块,用于通过预设的识别模型,根据所述指定表格获取指定数据,其中所述指定数据为与所述预设指标相关的数据;
添加模块,用于将所述指定数据添加至预设的表格模板中,形成与所述报告文档对应的参照表格。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本申请中提供的基于深度学习的表格生成方法、装置和计算机设备,具有以下有益效果:
本申请中提供的基于深度学习的表格生成方法、装置和计算机设备,获取待处理的报告文档;提取出所述报告文档内包括的所有表格;通过预设的排序模型从所有所述表格中提取出指定表格,其中所述指定表格为与预设指标相关的表格;通过预设的识别模型,根据所述指定表格获取指定数据,其中所述指定数据为与所述预设指标相关的数据;将所述指定数据添加至预设的表格模板,形成与所述报告文档对应的参照表格。本申请通过排序模型从报告文档的所有表格中提取出指定表格,以及通过识别模型获取指定数据,并将指定数据汇集起来输入到表格模板内来形成与报告文档对应的参照表格,从而无需人工从报告文档的所有表格中查找出指定表格或从指定表格中分别获取出与预设指标相关的特定数据,有效地减轻了工作人员的工作量。另外可通过评价表格来智能地对待审核表格进行审核,以提高工作人员处理待审核表格的效率。
附图说明
图1是本申请一实施例的基于深度学习的表格生成方法的流程示意图;
图2是本申请一实施例的基于深度学习的表格生成装置的结构示意图;
图3是本申请一实施例的计算机设备的结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用于解释本申请,并不用于限定本申请。
参照图1,本申请一实施例的基于深度学习的表格生成方法,包括:
S1:获取待处理的报告文档;
S2:提取出所述报告文档内包括的所有表格;
S3:通过预设的排序模型从所有所述表格中提取出指定表格,其中所述指定表格为与预设指标相关的表格;
S4:通过预设的识别模型,根据所述指定表格获取指定数据,其中所述指定数据为与所述预设指标相关的数据;
S5:将所述指定数据添加至预设的表格模板,形成与所述报告文档对应的参照表格。
如上述步骤S1和S2所述,本方法实施例的执行主体为基于深度学习的表格生成装置。报告文档通常是指集成了已公开的一种或多种信息而生成的报告性质的文档。在本实施例,上述报告文档具体指代的是财承报告文档,且以下的所有实施例会以报告文档为财承报告文档作为例子进行具体的阐述说明。上述财承是指财政承受能力,财政承受能力是识别、测算PPP(Public-Private Partnership,政府和社会资本合作)项目各项财政支出责任,科学评估项目实施对当前及今后年度财政支出影响,为PPP项目财政管理提供依据的测算数据。其中,上述财承报告文档记录有与财承相关的数据,且一般财承报告文档的文件内容很多,通常会存在大量的表格数据,但用于对人工填报表格进行审核的指定数据往往只出现在其中的某几个表格。另外,上述预设指标具体指代的是财承官方指标,且以下的所有实施例会以预设指标为财承官方指标作为例子进行具体的阐述说明。上述财承官方指标为与财政承受能力直接相关的字段,且同一个财承官方指标可能对应存在多种表达方式。本实施例在获取到用户输入的待处理的财承报告文档后,由于该待处理的财承报告文档内包含有大量的文本内容与大量的表格,首先需要提取出该财承报告文档内的所有表格。而在对财承报告文档的表格进行提取之前,先将上述财承报告文档转换为html文件,才能从转换后的财承报告文档内提取出所有的表格。另外,对上述财承报告文档的形式不作限定,例如可为PDF文件。具体地,提取出财承报告文档内的所有表格的过程包括:首先获取上述财承报告文档的矢量流信息,并从财承报告文档的矢量流信息中提取字符信息和直线信息,然后根据提取出的字符信息和直线信息来定位出财承报告文档中的表格区域,最后根据该表格区域便来提取出与表格区域对应的财承报告文档内的所有表格。
如上述步骤S3至S5所述,在提取从财承报告文档中的所有表格后,可通过预设的排序模型从上述所有表格内提取出指定表格,其中上述指定表格是指与预设指标,即财承官方指标相关的表格,该指定表格包含于上述财承报告文档内包括的所有表格,且该指定表格相对于财承官方指标的相关性得分大于预设的相关性得分阈值。在提取出上述指定表格后,再通过预设的识别模型,根据上述指定表格获取出指定数据,其中该指定数据是指与预设的财承官方指标相关的数据,并将该指定数据添加至预设的表格模板中,以形成与上述报告文档对应的参照表格。其中,上述指定数据为对应于所有指定表格内的指定数据,对上述表格模板的具体形式不作限定,上述表格模板可根据实际需求进行设定。上述将指定数据添加至预设的表格模板的方式,可包括:在获取到任意一个指定表格内的第一指定数据后,便可同步将第一指定数据添加到表格模板中,直至完成将所有的指定数据添加到该表格模板内。还可包括:在获取到任意一个指定表格内的第一指定数据后,先将该第一指定数据存储于一个预设的缓存空间中,待获取到所有的指定表格对应的所有指定数据,最后再将缓存空间内存储的所有指定数据添加到表格模板内。另外,在提取出指定表格之前,还需要对财承报告文档内的所有表格的表格形式进行判断,判断是否存在不是标准表格形式的特殊表格,如果存在则需要将上述特殊表格转换为标准表格形式,之后再进行从所有所述表格中提取出指定表格的处理,其中上述标准表格形式为横表。本申请通过排序模型从财承报告文档的所有表格中提取出指定表格,以及通过识别模型获取指定数据,并将指定数据汇集起来输入到预设的表格模板内来形成与报告文档对应的参照表格,从而无需人工从财承报告文档的所有表格中查找出指定表格或从指定表格中分别获取出与财承相关的特定数据,有效地减轻了工作人员的工作量。另外可通过评价表格来智能地对待审核表格进行审核,以提高工作人员处理待审核表格的效率。
进一步地,本申请一实施例中,上述步骤S2之前,包括:
S200:判断所述报告文档是否为扫描件;
S201:若所述报告文档是扫描件,则通过OCR识别技术将所述报告文档转换为html文件;
S202:若所述报告文档不是扫描件,则通过Office工具将所述报告文档转换为html文件。
如上述步骤S200至S202所述,上述报告文档具体为财承报告文档,由于待处理的财承报告文档的格式为PDF文件,且通常无法直接从PDF文件格式的报告文档中对其内部的表格进行提取,因此在提取出上述财承报告文档内的所有表格的步骤之前首先需要将该财承报告文档的格式先转换成html文件,之后才能成功的对格式为html文件的财承报告文档内的所有表格进行提取。具体地,将财承报告文档的格式转换成html文件的过程可包括;首先判断该财承报告文档是否为扫描件,如果财承报告文档是扫描件,则通过OCR识别技术将上述财承报告文档转换为html文件;而如果财承报告文档不是扫描件,则通过Office工具将上述财承报告文档转换为html文件。通过将财承报告文档转换成html文件,从而可以有效地从转换后的财承报告文档内对所有的表格进行提取,有利于后续通过预设的排序模型从所有的表格中进一步筛选出与预设指标,即财承官方指标相关的指定表格。
进一步地,本申请一实施例中,上述步骤S3,包括:
S300:从所有所述表格中分别提取出各所述表格对应的参考信息;
S301:将各所述参考信息分别输入至所述排序模型;
S302:根据各所述参考信息,通过所述排序模型分别计算各所述表格相对于所述预设指标的相关性得分;
S303:筛选所述相关性得分大于预设的相关性得分阈值的所述指定表格,其中所述指定表格包含于所述报告文档内包括的所有表格。
如上述步骤S300至S303所述,在提取出上述报告文档,即财承报告文档内的所有表格后,再从所有该表格中分别提取出每一个表格对应的参考信息,并将各上述参考信息分别输入至预先训练好的排序模型中,以通过排序模型计算各上述表格相对于上述预设指标,即官方财承指标的相关性得分,最后筛选出相关性得分大于预设的相关性得分阈值的指定表格。其中上述参考信息包括表格的表头与列表头,上述指定表格包含于报告文档内包括的所有表格。具体地,在将各表格的参考信息输入到上述排序模型后,该排序模型会根据各参考信息来计算出每一个表格分别对应的相关性得分,然后将得到的每一个相关性得分与预设的相关性得分阈值进行比较,来得到相关性得分大于预设阈值的指定表格。其中,可预先设置一个与相关性得分对应的相关性得分阈值,并按照实际情况设置该预设阈值的相关性得分阈值。进一步可按照上述相关性得分从大到小的顺序输出各上述指定表格,并向用户推送包含有该指定表格的输出结果。
进一步地,本申请一实施例中,上述步骤S302,包括:
S3020:通过所述排序模型对第一参考信息进行分词处理,得到所述第一参考信息对应的各分词,其中所述第一参考信息包含于所有所述表格对应的所有参考信息;
S3021:从预设的分词文本库中获取与各所述分词分别对应的参数值;
S3022:根据各所述参数值,通过预设的相关性得分计算公式计算所述第一参考信息对应表格的相关性得分。
如上述步骤S3020至S3022上述,上述预设指标具体为财承官方指标,上述排序模型对于输入的各表格的参考信息进行处理后,得到各表格相对于财承官方指标的相关性得分的过程,具体为:上述排序模型首先会对输入的第一参考信息进行分词处理,来得到上述第一参考信息对应的各分词,其中上述第一参考信息包含于所有上述表格对应的所有参考信息,即该第一参考信息为所有参考信息中的任意一个参考信息。然后从预设的分词文本库中获取与各上述分词分别对应的参数值,具体地,通过将各上述参考标签与预设的分词文本库内预存储的预设指标进行一一匹配,并根据匹配结果得到各上述分词的参数值。其中,上述排序模型会通过预设的分词规则来对输入的参考信息进行分词处理,该分词规则可采用ansj自定义分词方法,另外,上述分词文本库具体为与财承官方指标对应的分词文本库,上述的分词文本库内存储有多个与上述预设指标(即财承官方指标)对应的预设标签,以及与预设标签一一对应的多个权重参数,如果上述匹配结果为匹配失败,则对应的分词的参数值的取值为0,而如果上述匹配结果为匹配成功,则对应的分词的参数值的取值为与该分词相匹配的预设标签所对应的权重参数。进一步地,在得到了第一参考信息中所有的分词对应的参数值后,再根据预设的相关性得分计算公式来上述第一参考信息对应表格的相关性得分,上述相关性得分计算公式为:其中n为分词的个数;xi表示所有分词中的第i个分词是否有对应的参数值,即表示第i个分词与分词文本库内所有的预设标签的匹配结果,若匹配成功则值取1,若匹配失败则值取0;wi为所有分词中的第i个分词对应的参数值,初始值为0;lstr为分词结果,即分词的个数,与存在匹配的预设标签的指定分词的个数的和值。举例地,若当前输入的第一参考信息为“运营成本增加金额,股权投资支出”,进行分词处理后得到的分词为:“运营、成本、增加、金额、股权投资、支出”,即包含了6个分词,通过查阅上述分词文本库可得上述“运营”存在匹配的预设标签,且“运营”的权重参数为0.7,上述“股权投资”存在匹配的预设标签,且“股权投资”的权重参数为2.0,上述“支出”存在匹配的预设标签,且“支出”的权重参数为0.7,而上述“成本”、“增加”“金额”这3个分词不存在匹配的预设标签,则它们对应的参数值取值为0,因此根据上述相关性得分计算公式可计算出对应的相关性得分为(0.7*1+0*0+0*0+0*0+2.0*1+0.7*1)/(6+3)=0.378。
进一步地,本申请一实施例中,上述步骤S4,包括:
S400:获取所有所述指定表格内的表格数据,并对所述表格数据进行结构化存储,其中,所述结构化存储的形式为:属性与属性对应数据值的键值格式,所述属性包括行表头与列表头,所述属性对应数据值为所述行表头与列表头共同对应的数据值;
S401:将所有所述表格数据输入至所述识别模型;
S402:通过所述识别模型从所有所述表格数据中筛选出与所述预设指标存在映射关系的指定列表头,其中所述指定列表头包含于所有所述表格数据内的列表头;
S403:从所有所述预设指标中提取出与所述指定列表头对应的指定指标;
S404:使用所述指定指标替换所述指定列表头,得到替换后的表格数据,并将所述替换后的表格数据确定为所述指定数据。
如上述步骤S400至S404所述,上述预设指标具体为财承官方指标,在通过预设的识别模型完成从上述指定表格提取出指定数据之前,首先需要获取出所有指定表格内的表格数据,并利用结构化存储的方式对该表格数据进行存储,其中上述表格数据包括指定表格内的行表头、列表头以及其他的数据值,上述结构化存储的方式为属性与属性对应数据值的键值格式,即属性-属性对应数据值,上述属性至少可包括行表头与列表头,上述属性对应数据值为行表头与列表头共同对应的数据值,则属性-属性对应数据值的形式可采用:列表头-行表头-属性对应数据值。然后,将形式为结构化存储的表格数据输入到预先训练好的识别模型内,以通过该识别模型从输入的表格数据中筛选出与预设指标存在映射关系的指定列表头,其中上述指定列表头包含于所有上述表格数据内的列表头。然后从所有财承官方指标中提取出与该指定列表头对应的指定指标。之后识别模型会对输入的表格数据进行替换处理,即将表格数据的指定列表头替换为对应的指定指标,来得到替换后的表格数据,该替换后的表格数据即上述的指定数据。其中,替换后的表格数据变为:指定指标-行表头-属性对应数据值。当获得由识别模型输出的经过替换处理后的表格数据(指定数据),之后会将该指定数据添加至预设的表格模板内,从而实现生成包含有与财承官方指标相关的重要数据的参照表格,有效地减轻了工作人员的工作量,以及后续可根据该参照表格来对待审核表格内的数据进行审核。
进一步地,本申请一实施例中,上述步骤S402,包括:
S4020:通过所述识别模型分别计算各所述表格数据中的第一列表头,与所有所述预设指标中的每个预设指标的编辑距离,其中所述第一列表头包含于所述表格数据内的所有列表头;
S4021:根据各所述编辑距离,按照预设的相似度公式分别计算所述第一列表头与每个所述预设指标的相似度;
S4022:获取相似度最大的第一预设指标对应的第一相似度;
S4023:判断所述第一相似度是否大于预设的相似度阈值;
S4024:若所述第一相似度大于预设的相似度阈值,则将所述第一列表头确定为所述指定列表头。
如上述步骤S4020和S4024所述,上述预设指标具体为财承官方指标,上述财承官方指标为项目人员根据实际需求进行配置的需要识别的字段,例如可包括:股权投资支出责任、运营补贴支出责任、风险承担支出责任、配套投入支出责任、政府性基金预算支出数额、政府性基金预算科目。上述通过识别模型从所有表格数据中筛选出与预设指标存在映射关系的指定列表头的步骤,具体包括:首先通过上述识别模型分别计算各上述表格数据中的第一列表头a,与所有财承官方指标中的每个财承官方指标b的编辑距离dmin,其中上述第一列表头包含于上述表格数据内的所有列表头,且上述计算最小编辑距离的公式为现有技术,在此不列举;然后根据每一个上述编辑距离,按照预设的相似度公式分别计算上述第一列表头与每个上述财承官方指标的相似度,其中,上述相似度公式为:相似度s=1-dmin/max(c,d),c为第一列表头a的字符串长度,d为所有上述财承官方指标中的每个财承官方指标b的字符串长度,不同字符串长度的财承官方指标的d值不同。在分别求取出第一列表头与各财承官方指标之间的相似度后,可按照上述相似度的数值从大到小的顺序对各上述财承官方指标进行排序,并筛选出相似度最大的第一预设指标对应的第一相似度。进一步地,预先设置一个相似度阈值,且相似度阈值的数值根据实际需求进行设置,并通过比较第一相似度与该预设的相似度阈值来判断第一列表头与第一预设指标是否存在映射关系。如果第一预设指标对应的相似度大于预设的相似度阈值,则表示第一预设指标与第一列表头具有映射关系,并将上述第一列表头确定为上述指定列表头。而如果第一预设指标对应的相似度不大于预设的字符相似度阈值,则表示第一预设指标与第一列表头不具有映射关系,则表明上述第一列表头对应的第一属性与第一值为无意义的数据,则可对该第一列表头对应的第一表头、第一行字段和第一值进行过滤处理。本实施例只对有意义的指定列表头进行提取,并对无意义的数据进行删除过滤处理,有利于保证后续生成的参照表格内存储的为准确的指定数据,也避免了输出无意义的数据而对后续的处理待审核表格的审核工作造成影响。
进一步地,在通过上述识别模型对于输入的指定表格内的表格数据进行处理的步骤之前,还包括创建识别模型的过程,具体可包括,首先获取预设数量的样本数据,其中所述样本数据由进行了人工标注的多个数据组成,其中该样本数据的格式为属性-属性对应数据值,之后基于交叉验证法将样本数据按照一定的比例划分为训练集、评估集,例如将70%的样本数据作为训练集,30%的样本数据作为评估集,之后将该训练集对应的样本数据输入到神经网络模型进行模型训练,并在训练过程中通过预设的相似度计算公式计算出各训练集对应的样本数据与预设的财承官方指标的第一指定相似度,并根据第一指定相似度来对输入的样本数据进行替换处理,并输出形式为财承官方指标-属性对应数据值的替换后的样本数据。然后在预设的时间间隔内(例如每进行1000次迭代),使用训练得到的模型对上述评估集的样本数据计算第二指定相似度,并将第二指定相似度与第一相似度进行比对,以评估训练得到的模型的计算误差,具体地,在分析计算误差时,若训练得到的模型的计算误差出现发散,则调整预设的训练参数并重新训练(例如调整LSTM层数、输入输出的变量维度等),直至使得训练得到的模型的计算误差能够收敛,而如果训练得到的模型的计算误差收敛,则结束模型训练,并将训练好的模型确定为上述识别模型。
进一步地,本申请一实施例中,上述步骤S5之后,包括:
S600:从所述参照表格内查找出与待审核表格内的第一数据值对应的第一指定数据值,其中所述第一数据值包含于所述人工填报表格内包括的所有数据值,所述数据值为待审核表格内的行表头与列表头共同对应的数据值;
S601:判断所述第一数据值与所述第一指定数据值是否相同;
S602:若所述第一数据值与所述第一指定数据值相同,则判断所述第一指定数据值的识别得分是否大于预设的识别得分阈值,其中所述识别得分为同一指定数据对应的表格相关性得分与对应的列表头相似度的乘积;
S603:若所述第一指定数据值的识别得分大于预设的识别得分阈值,则判定对所述第一数据值的审核通过,并为所述第一数据值添加第一标记,其中所述第一标记表示可靠性级别。
如上述步骤S600至S603所述,在识别模型根据上述指定表格获取到指定数据后,通过将该指定数据输入至预设的表格模板,就可以形成用于对待审核表格进行审核的与上述报告文档对应的参照表格。通过该参照表格对待审核表格进行审核的步骤,具体可包括:首先获取待审核表格,并从上述参照表格内查找出与待审核表格内的第一数据值对应的第一指定数据值,其中上述第一数据值包含于上述待审核表格内的所有数据值,上述数据值为待审核表格内的行表头与列表头共同对应的数据值。另外,上述参照表格的格式是参照待审核表格生成的,可先获取待审核表格内第一数据值对应的第一单元格位置,然后根据该第一单元格位置来从参照表格查找对应的第一指定单元格位置,并提取出第一指定单元格位置内的第一指定数据值。然后判断该第一数据值与该第一指定数据值是否相同,如果第一数据值与第一指定数据值相同,为了判定第一数据值的可靠性,需要进一步计算出第一指定数据值对应的识别得分。具体地,可预先设置一个识别得分阈值,以通过将第一指定数据值对应的识别得分与识别得分阈值进行比较来得出第一指定数据值的可靠性,其中上述识别得分为同一指定数据对应的表格相关性得分与对应的列表头相似度的乘积。在计算出第一指定数据值对应的识别得分后,再判断该识别得分是否大于预设的识别得分阈值,如果大于识别得分阈值,则判定人工填报表格审核通过,并为第一数据值添加第一标记,且该第一标记表示可靠性级别,例如可为第一数据值添加绿色标记来表示可靠性高。进一步地,可以筛选出具有第一标记的所有数据,即可靠性高的数据,当在以后用户对待审核表格进行数据填报时,可直接将该具有第一标记的所有数据自动填充进待审核表格内的相应位置,而不需要工作人员手动填入待审核表格内需要的所有数据,有效的减轻工作人员的工作量,并且提高了工作人员填报表格的速率。另外,如果第一数据值与第一指定数据值不相同,则表明第一数据值的可靠性低,则发出对上述第一数据值进行人工审核的提醒信息,并为第一数据值添加第三标记,例如可为第一数据值添加红色标记来表示可靠性低。
进一步地,本申请一实施例中,上述步骤S603之后,包括:
S604:若所述第一指定数据值的识别得分不大于预设的识别得分阈值,则判定对所述第一数据值的审核待通过,并为所述第一数据值添加第二标记,其中所述第二标记的可靠性级别低于所述第一标记;
S605:发出对所述第一数据值进行人工审核的提醒信息。
如上述步骤S604和S605所述,在判断上述第一指定数据值的识别得分是否大于预设的识别得分阈值的步骤之后,还可以包括:如果第一指定数据值的识别得分不大于识别得分阈值,则表示第一指定数据值的可靠性不高,因此会则判定对上述第一数据值的审核待通过,并为上述第一数据值添加第二标记,其中第二标记的可靠性级别低于上述第一标记,例如可为上述第一数据值添加黄色标记来表示可靠性不高。进一步还需要人工进行对该第一数据值的进一步的审核,例如会发出对上述第一数据值进行人工审核的提醒信息。在本实施例,当接收到用户输入的待审核表格后,便可通过上述存储有指定数据的参照表格来对该待审核表格内人工填报的数据进行准确性审核,从而可以判断出待审核表格内填报的数据是否出现了错误,并得到对应的审核结果。另外,通过为待审核表格内填报的数据分别添加不同的标记,以使得工作人员能够清楚了解待审核表格内填报的数据所对应的准确性,从而有效地提高了工作人员审核待审核表格的效率。
参照图2,本申请一实施例中还提供了一种基于深度学习的表格生成装置,包括:
第一获取模块1,用于获取待处理的报告文档;
第一提取模块2,用于提取出所述报告文档内包括的所有表格;
第二提取模块3,用于通过预设的排序模型从所有所述表格中提取出指定表格,其中所述指定表格为与预设指标相关的表格;
第二获取模块4,用于通过预设的识别模型,根据所述指定表格获取指定数据,其中所述指定数据为与所述预设指标相关的数据;
添加模块5,用于将所述指定数据添加至预设的表格模板中,形成与所述报告文档对应的参照表格。
本实施例中,上述基于深度学习的表格生成装置中的第一获取模块、第一提取模块、第二提取模块、第二获取模块与添加模块的功能和作用的实现过程具体详见上述基于深度学习的表格生成方法中对应步骤S1-S5的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述基于深度学习的表格生成装置,包括:
第一判断模块,用于判断所述报告文档是否为扫描件;
第一转换模块,用于若所述报告文档是扫描件,则通过OCR识别技术将所述报告文档转换为html文件;
第二转换模块,用于若所述报告文档不是扫描件,则通过Office工具将所述报告文档转换为html文件。
本实施例中,上述基于深度学习的表格生成装置中的第一判断模块、第一转换模块与第二转换模块的功能和作用的实现过程具体详见上述基于深度学习的表格生成方法中对应步骤S200-S202的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述第二提取模块,包括:
第一提取单元,用于从所有所述表格中分别提取出各所述表格对应的参考信息;
第一输入单元,用于将各所述参考信息分别输入至所述排序模型;
第一计算单元,用于根据各所述参考信息,通过所述排序模型分别计算各所述表格相对于所述预设指标的相关性得分;
第一筛选单元,用于筛选所述相关性得分大于预设的相关性得分阈值的所述指定表格,其中所述指定表格包含于所述报告文档内包括的所有表格。
本实施例中,上述基于深度学习的表格生成装置中的第二提取模块内包含的第一提取单元、第一输入单元、第一计算单元与第一筛选单元的功能和作用的实现过程具体详见上述基于深度学习的表格生成方法中对应步骤S300-S303的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述第一计算单元,包括:
分词子单元,用于通过所述排序模型对第一参考信息进行分词处理,得到所述第一参考信息对应的各分词,其中所述第一参考信息包含于所有所述表格对应的所有参考信息;
第一获取子单元,用于从预设的分词文本库中获取与各所述分词分别对应的参数值
第一计算子单元,用于根据各所述参数值,通过预设的相关性得分计算公式计算所述第一参考信息对应表格的相关性得分。
本实施例中,上述基于深度学习的表格生成装置中的第一计算单元内包含的分词子单元、第一获取子单元与第一计算子单元的功能和作用的实现过程具体详见上述基于深度学习的表格生成方法中对应步骤S3020-S3022的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述第二获取模块,包括:
第一获取单元,用于获取所有所述指定表格内的表格数据,并对所述表格数据进行结构化存储,其中,所述结构化存储的形式为:属性与属性对应数据值的键值格式,所述属性包括行表头与列表头,所述属性对应数据值为所述行表头与列表头共同对应的数据值;
第二输入单元,用于将所有所述表格数据输入至所述识别模型;
第二筛选单元,用于通过所述识别模型从所有所述表格数据中筛选出与所述预设指标存在映射关系的指定列表头,其中所述指定列表头包含于所有所述表格数据内的列表头;
第二提取单元,用于从所有所述预设指标中提取出与所述指定列表头对应的指定指标;
替换单元,用于使用所述指定指标替换所述指定列表头,得到替换后的表格数据,并将所述替换后的表格数据确定为所述指定数据。
本实施例中,上述基于深度学习的表格生成装置中的第二获取模块内包含的第一获取单元、第二输入单元、第二筛选单元、第二提取单元与替换单元的功能和作用的实现过程具体详见上述基于深度学习的表格生成方法中对应步骤S400-S404的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述第二筛选单元,包括:
第二计算子单元,用于通过所述识别模型分别计算各所述表格数据中的第一列表头,与所有所述预设指标中的每个预设指标的编辑距离,其中所述第一列表头包含于所述表格数据内的所有列表头;
第三计算子单元,用于根据各所述编辑距离,按照预设的相似度公式分别计算所述第一列表头与每个所述预设指标的相似度;
第二获取子单元,用于获取相似度最大的第一预设指标对应的第一相似度;
第一判断子单元,用于判断所述第一相似度是否大于预设的相似度阈值;
确定子单元,用于若所述第一相似度大于预设的相似度阈值,则将所述第一列表头确定为所述指定列表头。
本实施例中,上述基于深度学习的表格生成装置中的第二筛选单元内包含的第二计算子单元、第三计算子单元、第二获取子单元、第一判断子单元与确定子单元的功能和作用的实现过程具体详见上述基于深度学习的表格生成方法中对应步骤S4020-S4024的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述基于深度学习的表格生成装置,包括:
查找模块,用于从所述参照表格内查找出与待审核表格内的第一数据值对应的第一指定数据值,其中所述第一数据值包含于所述人工填报表格内包括的所有数据值,所述数据值为待审核表格内的行表头与列表头共同对应的数据值;
第一判断模块,用于判断所述第一数据值与所述第一指定数据值是否相同;
第二判断模块,用于若所述第一数据值与所述第一指定数据值相同,则判断所述第一指定数据值的识别得分是否大于预设的识别得分阈值,其中所述识别得分为同一指定数据对应的表格相关性得分与对应的列表头相似度的乘积;
第一判定模块,用于若所述第一指定数据值的识别得分大于预设的识别得分阈值,则判定对所述第一数据值的审核通过,并为所述第一数据值添加第一标记,其中所述第一标记表示可靠性级别。
本实施例中,上述基于深度学习的表格生成装置中的查找模块、第一判断模块、第二判断模块与第一判定模块的功能和作用的实现过程具体详见上述基于深度学习的表格生成方法中对应步骤S600-S603的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述基于深度学习的表格生成装置,包括:
第二判定模块,用于若所述第一指定数据值的识别得分不大于预设的识别得分阈值,则判定对所述第一数据值的审核待通过,并为所述第一数据值添加第二标记,其中所述第二标记的可靠性级别低于所述第一标记;
提醒模块,用于发出对所述第一数据值进行人工审核的提醒信息。
本实施例中,上述基于深度学习的表格生成装置中的第二判定模块与提醒模块的功能和作用的实现过程具体详见上述基于深度学习的表格生成方法中对应步骤S604-S605的实现过程,在此不再赘述。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储指定表格、指定数据以及表格模板等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述任一个示例性实施例所示出的基于深度学习的表格生成方法。
上述处理器执行上述基于深度学习的表格生成方法的步骤:
获取待处理的报告文档;
提取出所述报告文档内包括的所有表格;
通过预设的排序模型从所有所述表格中提取出指定表格,其中所述指定表格为与预设指标相关的表格;
通过预设的识别模型,根据所述指定表格获取指定数据,其中所述指定数据为与所述预设指标相关的数据;
将所述指定数据添加至预设的表格模板中,形成与所述报告文档对应的参照表格。
本领域技术人员可以理解,图3示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的装置、计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被一个或多个处理器执行时,使得一个或多个处理器执行时实现上述基于深度学习的表格生成方法实施例中的步骤。
计算机程序被处理器执行时实现一种基于深度学习的表格生成方法,具体为:
获取待处理的报告文档;
提取出所述报告文档内包括的所有表格;
通过预设的排序模型从所有所述表格中提取出指定表格,其中所述指定表格为与预设指标相关的表格;
通过预设的识别模型,根据所述指定表格获取指定数据,其中所述指定数据为与所述预设指标相关的数据;
将所述指定数据添加至预设的表格模板中,形成与所述报告文档对应的参照表格。
综上所述,本申请实施例中提供的基于深度学习的表格生成方法、装置和计算机设备,获取待处理的报告文档;提取出所述报告文档内包括的所有表格;通过预设的排序模型从所有所述表格中提取出指定表格,其中所述指定表格为与预设指标相关的表格;通过预设的识别模型,根据所述指定表格获取指定数据,其中所述指定数据为与所述预设指标相关的数据;将所述指定数据添加至预设的表格模板,形成评价表格。本申请通过排序模型从报告文档的所有表格中提取出指定表格,以及通过识别模型获取指定数据,并将指定数据汇集起来输入到表格模板内来形成与报告文档对应的评价表格,从而无需人工从报告文档的所有表格中查找出指定表格或从指定表格中分别获取出与预设指标相关的特定数据,有效地减轻了工作人员的工作量。另外可通过评价表格来智能地对待审核表格进行审核,以提高工作人员处理待审核表格的效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (8)
1.一种基于深度学习的表格生成方法,其特征在于,包括:
获取待处理的报告文档;
提取出所述报告文档内包括的所有表格;
通过预设的排序模型从所有所述表格中提取出指定表格,其中所述指定表格为与预设指标相关的表格;
通过预设的识别模型,根据所述指定表格获取指定数据,其中所述指定数据为与所述预设指标相关的数据;
将所述指定数据添加至预设的表格模板中,形成与所述报告文档对应的参照表格;
通过预设的所述识别模型,根据所述指定表格获取指定数据的步骤,包括:获取所有所述指定表格内的表格数据,并对所述表格数据进行结构化存储,其中,所述结构化存储的形式为:属性与属性对应数据值的键值格式,所述属性包括行表头与列表头,所述属性对应数据值为所述行表头与列表头共同对应的数据值;
将所有所述表格数据输入至所述识别模型;
通过所述识别模型从所有所述表格数据中筛选出与所述预设指标存在映射关系的指定列表头,其中所述指定列表头包含于所有所述表格数据内的列表头;
从所有所述预设指标中提取出与所述指定列表头对应的指定指标;
使用所述指定指标替换所述指定列表头,得到替换后的表格数据,并将所述替换后的表格数据确定为所述指定数据;
通过所述识别模型从所有所述表格数据中筛选出与所述预设指标存在映射关系的指定列表头的步骤,包括:通过所述识别模型分别计算各所述表格数据中的第一列表头,与所有所述预设指标中的每个预设指标的编辑距离,其中所述第一列表头包含于所述表格数据内的所有列表头;
根据各所述编辑距离,按照预设的相似度公式分别计算所述第一列表头与每个所述预设指标的相似度;
获取相似度最大的第一预设指标对应的第一相似度;
判断所述第一相似度是否大于预设的相似度阈值;
若所述第一相似度大于预设的相似度阈值,则将所述第一列表头确定为所述指定列表头。
2.根据权利要求1所述的基于深度学习的表格生成方法,其特征在于,所述通过预设的排序模型从所有所述表格中提取出指定表格的步骤,包括:从所有所述表格中分别提取出各所述表格对应的参考信息;
将各所述参考信息分别输入至所述排序模型;
根据各所述参考信息,通过所述排序模型分别计算各所述表格相对于所述预设指标的相关性得分;
筛选所述相关性得分大于预设的相关性得分阈值的所述指定表格,其中所述指定表格包含于所述报告文档内包括的所有表格。
3.根据权利要求2所述的基于深度学习的表格生成方法,其特征在于,所述根据各所述参考信息,通过所述排序模型分别计算各所述表格相对于所述预设指标的相关性得分的步骤,包括:通过所述排序模型对第一参考信息进行分词处理,得到所述第一参考信息对应的各分词,其中所述第一参考信息包含于所有所述表格对应的所有参考信息;
从预设的分词文本库中获取与各所述分词分别对应的参数值;
根据各所述参数值,通过预设的相关性得分计算公式计算所述第一参考信息对应表格的相关性得分。
4.根据权利要求1所述的基于深度学习的表格生成方法,其特征在于,所述将所述指定数据添加至预设的表格模板中,形成与所述报告文档对应的参照表格的步骤之后,包括:从所述参照表格内查找出与待审核表格内的第一数据值对应的第一指定数据值,其中所述第一数据值包含人工填报表格内的所有数据值,所述数据值为待审核表格内的行表头与列表头共同对应的数据值;
判断所述第一数据值与所述第一指定数据值是否相同;
若所述第一数据值与所述第一指定数据值相同,则判断所述第一指定数据值的识别得分是否大于预设的识别得分阈值,其中所述识别得分为同一指定数据对应的表格相关性得分与对应的列表头相似度的乘积;
若所述第一指定数据值的识别得分大于预设的识别得分阈值,则判定对所述第一数据值的审核通过,并为所述第一数据值添加第一标记,其中所述第一标记表示可靠性级别。
5.根据权利要求4所述的基于深度学习的表格生成方法,其特征在于,所述若所述第一数据值与所述第一指定数据值相同,则判断所述第一指定数据值的识别得分是否大于预设的识别得分阈值的步骤之后,包括:若所述第一指定数据值的识别得分不大于预设的识别得分阈值,则判定对所述第一数据值的审核待通过,并为所述第一数据值添加第二标记,其中所述第二标记的可靠性级别低于所述第一标记;
发出对所述第一数据值进行人工审核的提醒信息。
6.一种基于深度学习的表格生成装置,其特征在于,包括:第一获取模块,用于获取待处理的报告文档;
第一提取模块,用于提取出所述报告文档内包含的所有表格;
第二提取模块,用于通过预设的排序模型从所有所述表格中提取出指定表格,其中所述指定表格为与预设指标相关的表格;
第二获取模块,用于通过预设的识别模型,根据所述指定表格获取指定数据,其中所述指定数据为与所述预设指标相关的数据;
添加模块,用于将所述指定数据添加至预设的表格模板中,形成与所述报告文档对应的参照表格;
通过预设的所述识别模型,根据所述指定表格获取指定数据的步骤,包括:获取所有所述指定表格内的表格数据,并对所述表格数据进行结构化存储,其中,所述结构化存储的形式为:属性与属性对应数据值的键值格式,所述属性包括行表头与列表头,所述属性对应数据值为所述行表头与列表头共同对应的数据值;
将所有所述表格数据输入至所述识别模型;
通过所述识别模型从所有所述表格数据中筛选出与所述预设指标存在映射关系的指定列表头,其中所述指定列表头包含于所有所述表格数据内的列表头;
从所有所述预设指标中提取出与所述指定列表头对应的指定指标;
使用所述指定指标替换所述指定列表头,得到替换后的表格数据,并将所述替换后的表格数据确定为所述指定数据;
通过所述识别模型从所有所述表格数据中筛选出与所述预设指标存在映射关系的指定列表头的步骤,包括:通过所述识别模型分别计算各所述表格数据中的第一列表头,与所有所述预设指标中的每个预设指标的编辑距离,其中所述第一列表头包含于所述表格数据内的所有列表头;
根据各所述编辑距离,按照预设的相似度公式分别计算所述第一列表头与每个所述预设指标的相似度;
获取相似度最大的第一预设指标对应的第一相似度;
判断所述第一相似度是否大于预设的相似度阈值;
若所述第一相似度大于预设的相似度阈值,则将所述第一列表头确定为所述指定列表头。
7.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
8.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910600647.0A CN110472209B (zh) | 2019-07-04 | 2019-07-04 | 基于深度学习的表格生成方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910600647.0A CN110472209B (zh) | 2019-07-04 | 2019-07-04 | 基于深度学习的表格生成方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110472209A CN110472209A (zh) | 2019-11-19 |
CN110472209B true CN110472209B (zh) | 2024-02-06 |
Family
ID=68507420
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910600647.0A Active CN110472209B (zh) | 2019-07-04 | 2019-07-04 | 基于深度学习的表格生成方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110472209B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111507230A (zh) * | 2020-04-11 | 2020-08-07 | 创景未来(北京)科技有限公司 | 一种文档和表格数据的识别和提取方法及系统 |
CN111563366A (zh) * | 2020-04-29 | 2020-08-21 | 维沃移动通信有限公司 | 文档处理方法、装置及电子设备 |
CN113221548A (zh) * | 2021-04-01 | 2021-08-06 | 深圳市猎芯科技有限公司 | 基于机器学习的bom表识别方法、装置、计算机设备及介质 |
CN113554304A (zh) * | 2021-07-20 | 2021-10-26 | 广东信德资产评估与房地产土地估价有限公司 | 一种评估报告审核分析处理方法、系统及计算机设备 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103198069A (zh) * | 2012-01-06 | 2013-07-10 | 株式会社理光 | 抽取关系型表格的方法和装置 |
CN104517112A (zh) * | 2013-09-29 | 2015-04-15 | 北大方正集团有限公司 | 一种表格识别方法与系统 |
CN106294520A (zh) * | 2015-06-12 | 2017-01-04 | 微软技术许可有限责任公司 | 使用从文档提取的信息来标识关系 |
CN106855851A (zh) * | 2015-12-08 | 2017-06-16 | 中国移动通信集团公司 | 知识抽取方法及装置 |
CN106934598A (zh) * | 2017-03-17 | 2017-07-07 | 国网四川省电力公司经济技术研究院 | 电力项目防重复检测方法及装置 |
CN107622230A (zh) * | 2017-08-30 | 2018-01-23 | 中国科学院软件研究所 | 一种基于区域识别与分割的pdf表格数据解析方法 |
CN107656909A (zh) * | 2017-10-30 | 2018-02-02 | 北京明朝万达科技股份有限公司 | 一种基于文档混合特征的文档相似度判定方法和装置 |
CN107771334A (zh) * | 2015-06-18 | 2018-03-06 | 微软技术许可有限责任公司 | 自动的数据库模式注释 |
CN107992625A (zh) * | 2017-12-25 | 2018-05-04 | 湖南星汉数智科技有限公司 | 一种网页表格数据自动抽取方法及装置 |
CN108197216A (zh) * | 2017-12-28 | 2018-06-22 | 深圳市巨鼎医疗设备有限公司 | 一种信息处理的方法 |
CN108197114A (zh) * | 2018-01-19 | 2018-06-22 | 腾讯科技(深圳)有限公司 | 表格数据的检测方法、装置、存储介质及电子装置 |
CN108334501A (zh) * | 2018-03-21 | 2018-07-27 | 王欣 | 基于机器学习的电子文档分析系统及方法 |
CN109241243A (zh) * | 2018-08-30 | 2019-01-18 | 清华大学 | 候选文档排序方法及装置 |
CN109670477A (zh) * | 2018-12-28 | 2019-04-23 | 上海大智慧财汇数据科技有限公司 | 面向pdf表格的自动识别系统和方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7142728B2 (en) * | 2002-05-17 | 2006-11-28 | Science Applications International Corporation | Method and system for extracting information from a document |
US20060242180A1 (en) * | 2003-07-23 | 2006-10-26 | Graf James A | Extracting data from semi-structured text documents |
BRPI1000577B1 (pt) * | 2010-02-19 | 2020-10-13 | Alexandre Jonatan Bertoli Martins | método e sistema para extração e gerenciamento de informações contidas em documentos eletrônicos |
US10521464B2 (en) * | 2015-12-10 | 2019-12-31 | Agile Data Decisions, Llc | Method and system for extracting, verifying and cataloging technical information from unstructured documents |
-
2019
- 2019-07-04 CN CN201910600647.0A patent/CN110472209B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103198069A (zh) * | 2012-01-06 | 2013-07-10 | 株式会社理光 | 抽取关系型表格的方法和装置 |
CN104517112A (zh) * | 2013-09-29 | 2015-04-15 | 北大方正集团有限公司 | 一种表格识别方法与系统 |
CN106294520A (zh) * | 2015-06-12 | 2017-01-04 | 微软技术许可有限责任公司 | 使用从文档提取的信息来标识关系 |
CN107771334A (zh) * | 2015-06-18 | 2018-03-06 | 微软技术许可有限责任公司 | 自动的数据库模式注释 |
CN106855851A (zh) * | 2015-12-08 | 2017-06-16 | 中国移动通信集团公司 | 知识抽取方法及装置 |
CN106934598A (zh) * | 2017-03-17 | 2017-07-07 | 国网四川省电力公司经济技术研究院 | 电力项目防重复检测方法及装置 |
CN107622230A (zh) * | 2017-08-30 | 2018-01-23 | 中国科学院软件研究所 | 一种基于区域识别与分割的pdf表格数据解析方法 |
CN107656909A (zh) * | 2017-10-30 | 2018-02-02 | 北京明朝万达科技股份有限公司 | 一种基于文档混合特征的文档相似度判定方法和装置 |
CN107992625A (zh) * | 2017-12-25 | 2018-05-04 | 湖南星汉数智科技有限公司 | 一种网页表格数据自动抽取方法及装置 |
CN108197216A (zh) * | 2017-12-28 | 2018-06-22 | 深圳市巨鼎医疗设备有限公司 | 一种信息处理的方法 |
CN108197114A (zh) * | 2018-01-19 | 2018-06-22 | 腾讯科技(深圳)有限公司 | 表格数据的检测方法、装置、存储介质及电子装置 |
CN108334501A (zh) * | 2018-03-21 | 2018-07-27 | 王欣 | 基于机器学习的电子文档分析系统及方法 |
CN109241243A (zh) * | 2018-08-30 | 2019-01-18 | 清华大学 | 候选文档排序方法及装置 |
CN109670477A (zh) * | 2018-12-28 | 2019-04-23 | 上海大智慧财汇数据科技有限公司 | 面向pdf表格的自动识别系统和方法 |
Non-Patent Citations (10)
Title |
---|
Bidirectional Attention for SQL Generation;Gao Huilin;《 2019 IEEE 4th International Conference on Cloud Computing and Big Data Analysis》;20190530;676-682 * |
Rough set model based on Parameterized Probabilistic similarity relation in incomplete decision tables;Nguyen Do Van;《The 6th International Conference on Soft Computing and Intelligent Systems》;20130422;577-582 * |
基于多粒度特征表示的知识图谱问答;申存;《计算机与现代化》;20180915(第9期);5-10 * |
基于智能双积分滑模控制的发动机指示扭矩估计;周铜林 谭瑞 张瑜;《科技视界》;20170115(第2期);107-108 * |
基于模糊率的FCM自适应图像分割方法;龚劬,权佳成;《计算机工程》;20110520;第37卷(第10期);202-206 * |
基于深度学习的手写表格识别系统研究与实现;李若月;《软件导刊》;20190515;第18卷(第5期);17-26 * |
检索结果多样化的性能预测;陈佳伟;《信息技术》;20180124(第1期);124-129 * |
科技文献中表格信息的存储及检索方法研究;崔文浩;《图书馆学刊》;20151209(第11期);65-68 * |
面向工程图纸离线式表格信息提取与识别方法研究;董玉德;《工程图学学报》;20090215(第1期);17-25 * |
面向海量地质文档的表格信息快速抽取方法研究;李杨;《中国矿业》;20170915;第26卷(第9期);98-103 * |
Also Published As
Publication number | Publication date |
---|---|
CN110472209A (zh) | 2019-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110472209B (zh) | 基于深度学习的表格生成方法、装置和计算机设备 | |
CN109165840B (zh) | 风险预测处理方法、装置、计算机设备和介质 | |
US20220237230A1 (en) | System and method for automated file reporting | |
US8666998B2 (en) | Handling data sets | |
US11232300B2 (en) | System and method for automatic detection and verification of optical character recognition data | |
EP3640847A1 (en) | Systems and methods for identifying form fields | |
US20240012846A1 (en) | Systems and methods for parsing log files using classification and a plurality of neural networks | |
CN109783785B (zh) | 生成实验检测报告的方法、装置和计算机设备 | |
WO2020057021A1 (zh) | 数据表处理方法、装置、计算机设备和存储介质 | |
CN108563783B (zh) | 一种基于大数据的财务分析管理系统及方法 | |
EP3588376A1 (en) | System and method for enrichment of ocr-extracted data | |
CN110362798B (zh) | 裁决信息检索分析方法、装置、计算机设备和存储介质 | |
US20210366055A1 (en) | Systems and methods for generating accurate transaction data and manipulation | |
CN108920677A (zh) | 问卷调查方法、调查系统及电子设备 | |
US20230177267A1 (en) | Automated classification and interpretation of life science documents | |
CN112948823A (zh) | 一种数据泄露风险评估方法 | |
CN112652386A (zh) | 分诊数据处理方法、装置、计算机设备及存储介质 | |
CN113902009A (zh) | 一种简历分析方法、装置、电子设备、介质及产品 | |
CN113707304B (zh) | 分诊数据处理方法、装置、设备及存储介质 | |
CN113569988B (zh) | 一种算法模型评测方法及系统 | |
CN114003692A (zh) | 合同文本信息的处理方法、装置、计算机设备及存储介质 | |
KR102280490B1 (ko) | 상담 의도 분류용 인공지능 모델을 위한 훈련 데이터를 자동으로 생성하는 훈련 데이터 구축 방법 | |
CN115269816A (zh) | 基于信息处理方法的核心人员挖掘方法、装置和存储介质 | |
CN113722421B (zh) | 一种合同审计方法和系统,及计算机可读存储介质 | |
CN114880590A (zh) | 多语言网站货币自动转换系统及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20240108 Address after: 518000, 1202, Tianliao Building, Tangchang Road, Tanglang Community, Taoyuan Street, Nanshan District, Shenzhen, Guangdong Province Applicant after: Shenzhen tongnai Information Technology Co.,Ltd. Address before: 400010 38 / F, 39 / F, unit 1, 99 Wuyi Road, Yuzhong District, Chongqing Applicant before: CHONGQING FINANCIAL ASSETS EXCHANGE Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |