CN115546808A - 一种报表类型确定方法、装置、设备和存储介质 - Google Patents
一种报表类型确定方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN115546808A CN115546808A CN202211346312.9A CN202211346312A CN115546808A CN 115546808 A CN115546808 A CN 115546808A CN 202211346312 A CN202211346312 A CN 202211346312A CN 115546808 A CN115546808 A CN 115546808A
- Authority
- CN
- China
- Prior art keywords
- paragraph
- image
- report
- position information
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/42—Document-oriented image-based pattern recognition based on the type of document
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种报表类型确定方法、装置、设备和存储介质。该方法包括:获取待识别报表图像;对所述待识别报表图像进行段落识别,得到目标段落位置信息;根据所述目标段落位置信息对所述待识别报表图像进行切分,得到段落图像;对所述段落图像进行文字识别,得到所述段落图像对应的文字内容;根据所述段落图像对应的文字内容确定所述待识别报表图像对应的报表类型。本发明实施例的技术方案,通过获取待识别报表的图像,对待识别报表的图像进行段落识别和文字识别,就可以确定待识别报表图像对应的报表类型,可实现自动化地对金融系统中智能化表单的准确分类,操作过程简单,可降低人工工作量,节省人力资源。
Description
技术领域
本发明实施例涉及光学字符识别和自然语言处理技术领域,尤其涉及一种报表类型确定方法、装置、设备和存储介质。
背景技术
OCR(Optical Character Recognition,光学字符识别)和NLP(Natural LanguageProcessing,自然语言处理)相关技术被广泛应用于各个领域,OCR和NLP技术的公开技术路线均为通用型应用路线,即适用于各种场景的通用技术路线。
目前,OCR技术和NLP技术被广泛应用于金融系统中的智能化表单处理,例如表单票据自动识别和自然语言提取比对等。其中,OCR文字检测模块主要从图像中获取文字行,然后OCR文字识别模块从文字行图像中提取文字。但是,OCR模块一般为通用性模块,不能检测或识别横向、竖向以及各种方向各种语种的文字,且对金融系统文件往往缺乏纠错能力,逐行识别技术也无法兼顾上下行之间的语义联系,最终识别结果偏通用但自动化程度不高,往往还需要人为修正识别结果。NLP技术多用于关键信息抽取,文本内容理解和检索。但是,基础通用NLP模型没有在金融文本数据上进行微调学习,在使用时会对金融文本的理解存在局限性。
发明内容
本发明实施例提供一种报表类型确定方法、装置、设备和存储介质,以实现能够根据金融系统中智能化表单的图像就可以自动化地对表单进行分类,节省人力资源。
根据本发明的一方面,提供了一种报表类型确定方法,包括:
获取待识别报表图像;
对所述待识别报表图像进行段落识别,得到目标段落位置信息;
根据所述目标段落位置信息对所述待识别报表图像进行切分,得到段落图像;
对所述段落图像进行文字识别,得到所述段落图像对应的文字内容;
根据所述段落图像对应的文字内容确定所述待识别报表图像对应的报表类型。
根据本发明的另一方面,提供了一种报表类型确定装置,该装置包括:
获取模块,用于获取待识别报表图像;
段落识别模块,用于对所述待识别报表图像进行段落识别,得到目标段落位置信息;
切分模块,用于根据所述目标段落位置信息对所述待识别报表图像进行切分,得到段落图像;
文字识别模块,用于对所述段落图像进行文字识别,得到所述段落图像对应的文字内容;
确定模块,用于根据所述段落图像对应的文字内容确定所述待识别报表图像对应的报表类型。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的报表类型确定方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的报表类型确定方法。
本发明实施例通过本发明的技术方案,通过获取待识别报表图像,对待识别报表图像进行段落识别,得到目标段落位置信息,根据目标段落位置信息对待识别报表图像进行切分,得到段落图像,对段落图像进行文字识别,得到段落图像对应的文字内容,根据段落图像对应的文字内容确定待识别报表图像对应的报表类型。通过本发明实施例的技术方案,能够只根据待识别报表的图像,通过对待识别报表的图像进行段落识别和文字识别,就可以确定待识别报表图像对应的报表类型,可实现自动化地对金融系统中智能化表单的准确分类,操作过程简单,可降低人工工作量,节省人力资源。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例中的一种报表类型确定方法的流程图;
图2是本发明实施例中的一种报表类型确定装置的结构示意图;
图3是实现本发明实施例的报表类型确定方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1是本发明实施例中的一种报表类型确定方法的流程图,本实施例可适用于报表类型确定的情况,该方法可以由本发明实施例中的报表类型确定装置来执行,该装置可采用软件和/或硬件的方式实现,如图1所示,该方法具体包括如下步骤:
S101、获取待识别报表图像。
需要说明的是,待识别报表图像可以是待识别文字内容进而确定所属类型的报表的图像。优选的,在本实施例中待识别报表可以是金融系统中的智能化表单。具体的,待识别报表图像可以是由用户通过拍照设备对待识别报表进行拍摄得到的图像。
在本实施例中,用户可以对金融系统中的智能化表单进行拍照得到待识别报表图像,并将待识别报表图像留存至内部影像平台中的存储系统中。具体的,获取待识别报表图像操作可以是从内部影像平台中的存储系统中拉取待识别确定类型的待识别报表图像。
在实际操作过程中,在获取到待识别报表图像之后,需要对待识别报表图像进行预处理。具体的,预处理操作可以是使用阈值自适应的二值化方法对待识别报表图像进行预处理,从而获取待识别报表图像中的文字区域。之后使用直线检测方法获取文字区域的边界和单个文字的文字方向,利用透视变换算法将文字区域变换成竖直正常状态,即文字的方向为竖直状态,方便后续对待识别报表图像进行段落识别以及文字识别操作。
S102、对待识别报表图像进行段落识别,得到目标段落位置信息。
需要解释的是,段落识别操作可以是识别待识别报表图像中存在的文字段落或者文字表格等对象的操作。
在本实施例中,目标段落位置信息可以是待识别报表图像中存在的文字段落或者文字表格等对象的位置信息。优选的,目标段落位置信息可以是待识别报表图像中存在的文字段落或者文字表格等对象的左上角坐标、宽度以及高度等信息。
具体的,将待识别报表图像输入训练好的段落检测模型,进行段落识别,识别待识别报表图像中存在的文字段落或者文字表格等对象,得到待识别报表图像中存在的文字段落或者文字表格等对象的目标段落位置信息。
本发明实施例通过针对待识别报表图像中存在的文字段落或者文字表格等对象作整体检测,相较于传统OCR(Optical Character Recognition,光学字符识别)文字检测模型的逐行检测方式,能更好地保留待识别报表图像中存在的文字段落或者文字表格等对象的上下行的语义信息,使得最终对待识别报表进行识别时使得待识别报表中的语句更具通顺性,进而使得待识别报表的识别更加准确。
S103、根据目标段落位置信息对待识别报表图像进行切分,得到段落图像。
需要解释的是,切分操作可以是将待识别报表图像按照一个段落一个段落或者一个表格一个表格的形式进行切分。
其中,段落图像可以是根据目标段落位置信息对待识别报表图像进行切分后得到的每个文字段落或者每个文字表格的图像。
具体的,根据目标段落位置信息对待识别报表图像进行切分,并将切分后的图像归一化到299像素*299像素的大小(为保持图像原始的宽高比,可以使用空白填补对齐非方形段落图像),得到每个文字段落或者文字表格对应的段落图像。
S104、对段落图像进行文字识别,得到段落图像对应的文字内容。
在本实施例中,文字识别可以是识别段落图像中包含的文字,其中,文字内容可以是每个段落图像中包含的文字内容。
具体的,将切分后得到的段落图像输入训练好的文字识别模型,进行文字识别,识别段落图像中的文字段落或者文字表格等对象中包含的文字,得到段落图像对应的文字内容。
本发明实施例中,统计了金融系统内部文档词汇词频,生成了专门的金融领域词表,文字识别模型的识别解码空间受限于特定的金融领域词表,因此,识别结果较基础模型更为准确。另外,文字识别模型在金融领域文字图像识别应用上还有一定的纠错补缺能力,比如因打印错误、纸质表单模糊或采样光线较差引起的部分字体模糊或者缺失等。
S105、根据段落图像对应的文字内容确定待识别报表图像对应的报表类型。
其中,报表类型可以是待识别报表的表单类型。示例性的,待识别报表图像对应的报表类型可以是收入证明表单、资产证明表单、贷款申请表单、贷款核销表单或者申卡表单等金融表单类型。
具体的,得到段落图像对应的文字内容后,对待识别报表图像中段落图像对应的文字内容进行拼接,得到待识别报表图像对应的文字内容,将待识别报表图像对应的文字内容输入NLP(Natural Language Processing,自然语言处理)模型进行识别处理,进而确定待识别报表图像对应的报表类型。
本发明实施例通过本发明的技术方案,通过获取待识别报表图像,对待识别报表图像进行段落识别,得到目标段落位置信息,根据目标段落位置信息对待识别报表图像进行切分,得到段落图像,对段落图像进行文字识别,得到段落图像对应的文字内容,根据段落图像对应的文字内容确定待识别报表图像对应的报表类型。通过本发明实施例的技术方案,能够只根据待识别报表的图像,通过对待识别报表的图像进行段落识别和文字识别,就可以确定待识别报表图像对应的报表类型,可实现自动化地对金融系统中智能化表单的准确分类,操作过程简单,可降低人工工作量,节省人力资源。
可选的,对待识别报表图像进行段落识别,得到目标段落位置信息,包括:
根据历史报表图像集合和历史报表图像集合中每个历史报表图像携带的段落位置信息生成第一目标样本集。
其中,历史报表图像集合中包括至少一个历史报表图像。在本实施例中,历史报表图像可以是金融系统中存量已有的智能化表单的图像。具体的,历史报表图像可以是由用户通过拍照设备对历史报表进行拍摄得到的图像。
需要说明的是,段落位置信息可以是人工标注的历史报表图像中存在的文字段落或者文字表格等对象的位置信息。优选的,段落位置信息可以是历史报表图像中存在的文字段落或者文字表格等对象的左上角坐标、宽度以及高度等信息。示例性的,某历史报表图像中存在文字段落1“AA”、文字段落2“BBAA”和文字段落3“CCCC”,则文字段落1“AA”对应的段落位置信息可以表示为“(x,y,w,h)”,文字段落2“BBAA”对应的段落位置信息可以表示为“(x1,y1,w1,h1)”,文字段落3“CCCC”对应的段落位置信息可以表示为“(x2,y2,w2,h2)”,其中,字母x表示文字段落的左上角坐标中的横坐标,字母y表示文字段落的左上角坐标中的纵坐标,字母w表示文字段落的宽度,字母h表示文字段落的高度。
需要说明的是,第一目标样本集可以是由历史报表图像集合和历史报表图像集合中每个历史报表图像携带的段落位置信息生成的,用于训练第一模型的样本集。
其中,第一目标样本集包括:报表图像样本和报表图像样本对应的段落位置信息。
需要说明的是,报表图像样本可以是历史报表图像集合中的历史报表图像,报表图像样本对应的段落位置信息可以是人工标注的历史报表图像集合中的历史报表图像中存在的文字段落或者文字表格等对象的位置信息。
具体的,获取历史报表图像集合中的历史报表图像作为报表图像样本,人工标注历史报表图像中存在的文字段落或者文字表格等对象的位置信息作为报表图像样本对应的段落位置信息。优选的,段落位置信息可以是历史报表图像中存在的文字段落或者文字表格等对象的左上角坐标、宽度以及高度等信息。根据历史报表图像集合和历史报表图像集合中每个历史报表图像携带的段落位置信息生成第一目标样本集,其中,第一目标样本集包括:报表图像样本和报表图像样本对应的段落位置信息。
根据第一目标样本集训练第一模型,得到段落检测模型。
在本实施例中,第一模型可以是YOLO v7模型。可以知道的是,YOLO算法作为one-stage目标检测算法最典型的代表,其基于深度神经网络进行对象的识别和定位,运行速度很快,可以用于实时系统。YOLO v7是目前YOLO系列最先进的算法,在准确率和速度上超越了以往的YOLO系列。
其中,段落检测模型可以是根据第一目标样本集训练第一模型得到的,用于检测待识别报表图像中存在的文字段落或者文字表格等对象的位置信息的模型。
具体的,根据第一目标样本集中包括的报表图像样本和报表图像样本对应的段落位置信息训练第一模型,得到段落检测模型。
在实际操作过程中,可以使用YOLO v7作为第一模型,调低学习率,在第一目标样本集上训练20代,训练得到段落检测模型,用来检测金融领域的检测待识别报表图像上的文字段落或者文字表格。
将待识别报表图像输入段落检测模型,得到目标段落位置信息。
具体的,将待识别报表图像输入训练好的段落检测模型,得到待识别报表图像对应的目标段落位置信息。
本发明实施例通过针对待识别报表图像中存在的文字段落或者文字表格等对象作整体检测,例如“XX有限公司”因格式编排“限公司”被换行,传统基于行检测的OCR算法,较难将“XX有限公司”按整体识别出来,相较于传统OCR文字检测模型的逐行检测方式,本方案能更好地保留待识别报表图像中存在的文字段落或者文字表格等对象的上下行的语义信息,使得最终对待识别报表进行识别时使得待识别报表中的语句更具通顺性,进而使得待识别报表的识别更加准确。
可选的,根据第一目标样本集训练第一模型,得到段落检测模型,包括:
将报表图像样本输入第一模型,得到预测段落位置信息。
需要说明的是,预测段落位置信息可以是第一模型输出的报表图像样本对应的段落位置信息。
具体的,将报表图像样本输入第一模型,通过第一模型对报表图像样本进行段落位置识别检测,得到报表图像样本对应的预测段落位置信息。
根据预测段落位置信息和报表图像样本对应的段落位置信息形成的第一目标函数训练第一模型的参数。
其中,第一目标函数可以是将报表图像样本对应的预测段落位置信息和报表图像样本对应的段落位置信息作为函数变量形成的目标函数。
具体的,根据报表图像样本对应的预测段落位置信息和报表图像样本对应的段落位置信息形成第一目标函数,通过第一目标函数训练第一模型的参数。
返回执行将报表图像样本输入第一模型,得到预测段落位置信息,直至得到段落检测模型。
具体的,返回执行将报表图像样本输入第一模型,通过第一模型对报表图像样本进行段落位置识别检测,得到报表图像样本对应的预测段落位置信息,根据报表图像样本对应的预测段落位置信息和报表图像样本对应的段落位置信息形成第一目标函数,通过第一目标函数训练第一模型的参数,直至得到训练好的段落检测模型。
可选的,对段落图像进行文字识别,得到段落图像对应的文字内容,包括:
根据历史报表图像集合中每个历史报表图像携带的段落位置信息和每个段落位置信息对应的文字内容生成第二目标样本集。
其中,每个段落位置信息对应的文字内容可以是历史报表图像集合中,每个历史报表图像中存在的文字段落或者文字表格等对象对应的文字内容。
需要说明的是,第二目标样本集可以是由历史报表图像集合中每个历史报表图像携带的段落位置信息和每个段落位置信息对应的文字内容生成的,用于训练第二模型的样本集。
具体的,获取历史报表图像集合中每个历史报表图像携带的段落位置信息,获取每个段落位置信息对应的文字内容,根据历史报表图像集合中每个历史报表图像携带的段落位置信息和每个段落位置信息对应的文字内容生成第二目标样本集。
根据第二目标样本集训练第二模型,得到文字识别模型。
在本实施例中,第二模型可以是Inception-ResNet-V2+LSTM+CTC模型。其中,Inception-ResNet-V2是一个网络模型,其中Inception网络又叫做GoogLeNet,ResNet是残差网络,ResNet的结构既可以加速训练,还可以提升性能(防止梯度弥散)。LSTM(LongShort-Term Memory,长短期记忆网络)是一种时间递归神经网络,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。CTC(Connectionist Temporal Classification,联结主义时间分类)是一种计算损失函数的一种方法。
其中,文字识别模型可以是根据第二目标样本集训练第二模型得到的,用于识别段落图像中存在的文字内容的模型。
具体的,根据第二目标样本集中包括的历史报表图像集合中每个历史报表图像携带的段落位置信息和每个段落位置信息对应的文字内容训练第二模型,得到文字识别模型。
在实际操作过程中,可以使用Inception-ResNet-V2+LSTM+CTC作为第二模型,调低学习率,在第二目标样本集上训练20代,训练得到针对金融领域的文字识别模型,用来识别金融领域的检测待识别报表图像切分后得到的段落图像上的文字内容。
将段落图像输入文字识别模型,得到段落图像对应的文字内容。
具体的,将段落图像输入训练好的文字识别模型,得到段落图像对应的文字内容。
本发明实施例中,统计了金融系统内部文档词汇词频,生成了专门的金融领域词表,文字识别模型的识别解码空间受限于特定的金融领域词表,因此,识别结果较基础模型更为准确。另外,文字识别模型在金融领域文字图像识别应用上还有一定的纠错补缺能力,比如因打印错误、纸质表单模糊或采样光线较差引起的部分字体模糊或者缺失等。
可选的,根据历史报表图像集合中每个历史报表图像携带的段落位置信息和每个段落位置信息对应的文字内容生成第二目标样本集,包括:
根据历史报表图像集合中每个历史报表图像携带的段落位置信息对历史报表图像进行切分,得到段落图像样本。
需要说明的是,每个历史报表图像携带的段落位置信息可以是人工标注的历史报表图像集合中每个历史报表图像中存在的文字段落或者文字表格等对象的位置信息。
其中,段落图像样本可以是根据每个历史报表图像携带的段落位置信息对历史报表图像进行切分后得到的每个历史报表图像对应的文字段落或者每个文字表格的图像。
具体的,根据每个历史报表图像携带的段落位置信息对历史报表图像进行切分,并将切分后的图像归一化到299像素*299像素的大小(为保持图像原始的宽高比,可以使用空白填补对齐非方形段落图像),得到每个历史报表图像对应的文字段落或者文字表格对应的段落图像样本。
根据段落位置信息对应的文字内容确定段落图像样本对应的文字内容。
具体的,根据段落位置信息对每个段落图像样本进行文字识别,得到每个段落位置信息对应的段落图像样本中包含的文字内容。
根据段落图像样本和段落图像样本对应的文字内容生成第二目标样本集。
具体的,获取根据历史报表图像集合中每个历史报表图像携带的段落位置信息对历史报表图像进行切分后得到的段落图像样本,获取根据段落位置信息对应的文字内容确定的段落图像样本对应的文字内容,根据段落图像样本和段落图像样本对应的文字内容生成第二目标样本集。
可选的,根据第二目标样本集训练第二模型,得到文字识别模型,包括:
将段落图像样本输入第二模型,得到预测文字内容。
需要说明的是,预测文字内容可以是第二模型输出的段落图像样本对应的文字内容。
具体的,将段落图像样本输入第二模型,通过第二模型对段落图像样本进行文字内容识别检测,得到段落图像样本对应的预测文字内容。
根据预测文字内容和段落图像样本对应的文字内容形成的第二目标函数训练第二模型的参数。
其中,第二目标函数可以是将段落图像样本对应的预测文字内容和段落图像样本对应的文字内容作为函数变量形成的目标函数。
具体的,根据段落图像样本对应的预测文字内容和段落图像样本对应的文字内容形成第二目标函数,通过第二目标函数训练第二模型的参数。
返回执行将段落图像样本输入第二模型,得到预测文字内容,直至得到文字识别模型。
具体的,返回执行将段落图像样本输入第二模型,通过第二模型对段落图像样本进行文字内容识别检测,得到段落图像样本对应的预测文字内容,根据段落图像样本对应的预测文字内容和段落图像样本对应的文字内容形成第二目标函数,通过第二目标函数训练第二模型的参数,直至得到训练好的文字识别模型。
可选的,根据段落图像对应的文字内容确定待识别报表图像对应的报表类型,包括:
对待识别报表图像中段落图像对应的文字内容进行拼接,得到第一文本。
需要解释的是,拼接操作可以是将得到的待识别报表图像切分后对应的所有段落图像中包含的文字内容根据预设的规则进行拼接。示例性的,预设的规则可以是按照目标段落位置信息中左上角坐标的大小进行排序拼接,例如可以是,目标段落位置信息中左上角坐标中横坐标相同时纵坐标小的段落图像对应的文字内容在上,目标段落位置信息中左上角坐标中横坐标相同时纵坐标大的段落图像对应的文字内容在下;目标段落位置信息中左上角坐标中纵坐标相同时横坐标小的段落图像对应的文字内容在左;目标段落位置信息中左上角坐标中纵坐标相同时横坐标大的段落图像对应的文字内容在右。
其中,第一文本可以是对待识别报表图像中段落图像对应的文字内容进行拼接后得到的待识别报表图像中包含的所有文字所形成的文本。
具体的,根据预设的规则对待识别报表图像中段落图像对应的文字内容进行拼接,得到待识别报表图像对应的第一文本。
将第一文本输入NLP模型,得到待识别报表图像对应的报表类型和目标相似度。
在本实施例中,NLP模型可以具体是开源的NLP模型SimBERT。其中,SimBERT是开源的一款基于BERT根据文本语义相似度进行召回的项目,SimBERT主要的应用场景可以分成相似文本生成和相似文本检索,相似文本生成任务其实就是用户输入一段文本,SimBERT会生成相似的文本,相似文本检索任务就是用户输入一段文本,模型会从文本库检索出语义相似的文本。
其中,目标相似度为待识别报表图像与目标报表图像的相似度。
需要说明的是,目标报表图像可以是各种金融表单类型的标准报表图像。示例性的,目标报表图像可以是标准的收入证明表单、资产证明表单、贷款申请表单、贷款核销表单或者申卡表单等金融表单类型的报表图像。
在实现过程中,基于金融数据的NLP模型,采用SimBERT基础NLP模型,在海量金融文本数据上作微调,使通用模型适应垂域数据。使用开源的NLP模型SimBERT作为基础模型,引入多任务学习和对比学习机制,SimBERT是一种自然语言处理中较为常用的Transformer模型,可以利用第一文本的数据,构建一个包含三个损失函数的SimBERT模型:第一个是构建Seq2Seq任务,也就是通过输入第一文本去预测第一文本对应的相似文本;第二个是构建语义相似度任务,会根据第一文本对应的embedding向量来计算待识别报表图像与目标报表图像的目标相似度;第三个是构建表单分类任务,用于预测待识别报表图像对应的报表类型。
在实际操作过程中,本发明实施例会统计海量金融文件中词法构成,创建特定金融领域的词表,词表中包括了如核销、信贷、抵押、增信以及市盈率等基础模型较难覆盖的词汇,构建了一套垂域字符识别的特定字符识别数据集,替换了NLP基础模型的词表,提升了NLP模块在金融文档中的识别准确率和表达完整性。将上述特定字符识别数据集用作SimBERT模型的编码输入,以防出现OOV(Out-Of-Vocabulary,未登录词)现象,其中,未登录词就是训练时未出现,但是在测试时出现了的单词。
具体的,将第一文本输入NLP模型,NLP模型获取待识别报表图像对应的报表类型,并对第一文本的内容进行编码(例如可以是768维编码),根据待识别报表图像对应的报表类型和目标报表图像对应的报表类型的编码,计算待识别报表图像对应的报表类型所对应的embedding向量与目标报表图像对应的报表类型所对应的embedding向量的相似度(余弦相似度),设定相似度阈值进行完整性比对,即可通过相似度阈值来确定待识别报表是否符合目标报表规定格式要求,从而进行自动化审核。
本发明实施例通过引入多任务学习技术,使得NLP模型既能对待识别报表图像作分类,又能提取待识别报表图像的文字内容信息,与存量数据库中的目标报表图像信息作比对得到待识别报表图像与目标报表图像的相似度,或者自动化审核管理。
本发明实施例的技术方案,通过结合OCR技术和NLP技术,对待识别报表图像先进行预处理,再利用段落检测模型对待识别报表图像进行段落识别得到目标段落位置信息,根据目标段落位置信息对待识别报表图像进行切分得到段落图像,再通过文字识别模型对段落图像进行文字识别得到段落图像对应的文字内容,对待识别报表图像中段落图像对应的文字内容进行拼接得到第一文本,将第一文本作为NLP模型的输入,得到待识别报表图像对应的报表类型和目标相似度。本方案使用人工智能领域中的图像处理、目标检测、图像识别、深度学习、多任务学习以及自然语言处理等多种技术手段,设计了一套金融领域定制化智能化自动表单处理方法,可以实现报表图像数据实时采集和结构化处理,完成新入库报表信息的完备性审核,更新统计信息,从而自动化、智能化地完成对金融领域的特定报表影像表单的管理,赋能产业数字化升级。
实施例二
图2是本发明实施例中的一种报表类型确定装置的结构示意图。本实施例可适用于报表类型确定的情况,该装置可采用软件和/或硬件的方式实现,该装置可集成在任何提供报表类型确定的功能的设备中,如图2所示,所述报表类型确定装置具体包括:获取模块201、段落识别模块202、切分模块203、文字识别模块204和确定模块205。
其中,获取模块201,用于获取待识别报表图像;
段落识别模块202,用于对所述待识别报表图像进行段落识别,得到目标段落位置信息;
切分模块203,用于根据所述目标段落位置信息对所述待识别报表图像进行切分,得到段落图像;
文字识别模块204,用于对所述段落图像进行文字识别,得到所述段落图像对应的文字内容;
确定模块205,用于根据所述段落图像对应的文字内容确定所述待识别报表图像对应的报表类型。
可选的,所述段落识别模块202包括:
第一生成单元,用于根据历史报表图像集合和所述历史报表图像集合中每个历史报表图像携带的段落位置信息生成第一目标样本集,其中,所述第一目标样本集包括:报表图像样本和报表图像样本对应的段落位置信息;
第一训练单元,用于根据所述第一目标样本集训练第一模型,得到段落检测模型;
第一输入单元,用于将所述待识别报表图像输入所述段落检测模型,得到目标段落位置信息。
可选的,所述第一训练单元包括:
第一输入子单元,用于将所述报表图像样本输入第一模型,得到预测段落位置信息;
第一训练子单元,用于根据所述预测段落位置信息和所述报表图像样本对应的段落位置信息形成的第一目标函数训练所述第一模型的参数;
第一执行子单元,用于返回执行将所述报表图像样本输入第一模型,得到预测段落位置信息,直至得到段落检测模型。
可选的,所述文字识别模块204包括:
第二生成单元,用于根据历史报表图像集合中每个历史报表图像携带的段落位置信息和每个段落位置信息对应的文字内容生成第二目标样本集;
第二训练单元,用于根据所述第二目标样本集训练第二模型,得到文字识别模型;
第二输入单元,用于将所述段落图像输入所述文字识别模型,得到所述段落图像对应的文字内容。
可选的,所述第二生成单元包括:
切分子单元,用于根据所述历史报表图像集合中每个历史报表图像携带的段落位置信息对所述历史报表图像进行切分,得到段落图像样本;
确定子单元,用于根据段落位置信息对应的文字内容确定段落图像样本对应的文字内容;
生成子单元,用于根据所述段落图像样本和所述段落图像样本对应的文字内容生成第二目标样本集。
可选的,所述第二训练单元包括:
第二输入子单元,用于将所述段落图像样本输入第二模型,得到预测文字内容;
第二训练子单元,用于根据所述测文字内容和所述段落图像样本对应的文字内容形成的第二目标函数训练所述第二模型的参数;
第二执行子单元,用于返回执行将所述段落图像样本输入第二模型,得到预测文字内容,直至得到文字识别模型。
可选的,所述确定模块205包括:
拼接单元,用于对所述待识别报表图像中段落图像对应的文字内容进行拼接,得到第一文本;
第三输入单元,用于将所述第一文本输入NLP模型,得到所述待识别报表图像对应的报表类型和目标相似度,其中,所述目标相似度为所述待识别报表图像与目标报表图像的相似度。
上述产品可执行本发明任意实施例所提供的报表类型确定方法,具备执行报表类型确定方法相应的功能模块和有益效果。
实施例三
图3示出了可以用来实施本发明的实施例的电子设备30的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图3所示,电子设备30包括至少一个处理器31,以及与至少一个处理器31通信连接的存储器,如只读存储器(ROM)32、随机访问存储器(RAM)33等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器31可以根据存储在只读存储器(ROM)32中的计算机程序或者从存储单元38加载到随机访问存储器(RAM)33中的计算机程序,来执行各种适当的动作和处理。在RAM 33中,还可存储电子设备30操作所需的各种程序和数据。处理器31、ROM 32以及RAM 33通过总线34彼此相连。输入/输出(I/O)接口35也连接至总线34。
电子设备30中的多个部件连接至I/O接口35,包括:输入单元36,例如键盘、鼠标等;输出单元37,例如各种类型的显示器、扬声器等;存储单元38,例如磁盘、光盘等;以及通信单元39,例如网卡、调制解调器、无线通信收发机等。通信单元39允许电子设备30通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器31可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器31的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器31执行上文所描述的各个方法和处理,例如报表类型确定方法:
获取待识别报表图像;
对所述待识别报表图像进行段落识别,得到目标段落位置信息;
根据所述目标段落位置信息对所述待识别报表图像进行切分,得到段落图像;
对所述段落图像进行文字识别,得到所述段落图像对应的文字内容;
根据所述段落图像对应的文字内容确定所述待识别报表图像对应的报表类型。
在一些实施例中,报表类型确定方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元38。在一些实施例中,计算机程序的部分或者全部可以经由ROM 32和/或通信单元39而被载入和/或安装到电子设备30上。当计算机程序加载到RAM 33并由处理器31执行时,可以执行上文描述的报表类型确定方法的一个或多个步骤。备选地,在其他实施例中,处理器31可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行报表类型确定方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种报表类型确定方法,其特征在于,包括:
获取待识别报表图像;
对所述待识别报表图像进行段落识别,得到目标段落位置信息;
根据所述目标段落位置信息对所述待识别报表图像进行切分,得到段落图像;
对所述段落图像进行文字识别,得到所述段落图像对应的文字内容;
根据所述段落图像对应的文字内容确定所述待识别报表图像对应的报表类型。
2.根据权利要求1所述的方法,其特征在于,对所述待识别报表图像进行段落识别,得到目标段落位置信息,包括:
根据历史报表图像集合和所述历史报表图像集合中每个历史报表图像携带的段落位置信息生成第一目标样本集,其中,所述第一目标样本集包括:报表图像样本和报表图像样本对应的段落位置信息;
根据所述第一目标样本集训练第一模型,得到段落检测模型;
将所述待识别报表图像输入所述段落检测模型,得到目标段落位置信息。
3.根据权利要求2所述的方法,其特征在于,根据所述第一目标样本集训练第一模型,得到段落检测模型,包括:
将所述报表图像样本输入第一模型,得到预测段落位置信息;
根据所述预测段落位置信息和所述报表图像样本对应的段落位置信息形成的第一目标函数训练所述第一模型的参数;
返回执行将所述报表图像样本输入第一模型,得到预测段落位置信息,直至得到段落检测模型。
4.根据权利要求3所述的方法,其特征在于,对所述段落图像进行文字识别,得到所述段落图像对应的文字内容,包括:
根据历史报表图像集合中每个历史报表图像携带的段落位置信息和每个段落位置信息对应的文字内容生成第二目标样本集;
根据所述第二目标样本集训练第二模型,得到文字识别模型;
将所述段落图像输入所述文字识别模型,得到所述段落图像对应的文字内容。
5.根据权利要求4所述的方法,其特征在于,根据历史报表图像集合中每个历史报表图像携带的段落位置信息和每个段落位置信息对应的文字内容生成第二目标样本集,包括:
根据所述历史报表图像集合中每个历史报表图像携带的段落位置信息对所述历史报表图像进行切分,得到段落图像样本;
根据段落位置信息对应的文字内容确定段落图像样本对应的文字内容;
根据所述段落图像样本和所述段落图像样本对应的文字内容生成第二目标样本集。
6.根据权利要求5所述的方法,其特征在于,根据所述第二目标样本集训练第二模型,得到文字识别模型,包括:
将所述段落图像样本输入第二模型,得到预测文字内容;
根据所述测文字内容和所述段落图像样本对应的文字内容形成的第二目标函数训练所述第二模型的参数;
返回执行将所述段落图像样本输入第二模型,得到预测文字内容,直至得到文字识别模型。
7.根据权利要求1所述的方法,其特征在于,根据所述段落图像对应的文字内容确定所述待识别报表图像对应的报表类型,包括:
对所述待识别报表图像中段落图像对应的文字内容进行拼接,得到第一文本;
将所述第一文本输入NLP模型,得到所述待识别报表图像对应的报表类型和目标相似度,其中,所述目标相似度为所述待识别报表图像与目标报表图像的相似度。
8.一种报表类型确定装置,其特征在于,包括:
获取模块,用于获取待识别报表图像;
段落识别模块,用于对所述待识别报表图像进行段落识别,得到目标段落位置信息;
切分模块,用于根据所述目标段落位置信息对所述待识别报表图像进行切分,得到段落图像;
文字识别模块,用于对所述段落图像进行文字识别,得到所述段落图像对应的文字内容;
确定模块,用于根据所述段落图像对应的文字内容确定所述待识别报表图像对应的报表类型。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的报表类型确定方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的报表类型确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211346312.9A CN115546808A (zh) | 2022-10-31 | 2022-10-31 | 一种报表类型确定方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211346312.9A CN115546808A (zh) | 2022-10-31 | 2022-10-31 | 一种报表类型确定方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115546808A true CN115546808A (zh) | 2022-12-30 |
Family
ID=84717965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211346312.9A Pending CN115546808A (zh) | 2022-10-31 | 2022-10-31 | 一种报表类型确定方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115546808A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117746107A (zh) * | 2023-12-05 | 2024-03-22 | 青岛希尔信息科技有限公司 | 一种基于数据分析的财务实体报表综合管理系统 |
-
2022
- 2022-10-31 CN CN202211346312.9A patent/CN115546808A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117746107A (zh) * | 2023-12-05 | 2024-03-22 | 青岛希尔信息科技有限公司 | 一种基于数据分析的财务实体报表综合管理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114821622B (zh) | 文本抽取方法、文本抽取模型训练方法、装置及设备 | |
CN113313022B (zh) | 文字识别模型的训练方法和识别图像中文字的方法 | |
CN112270379A (zh) | 分类模型的训练方法、样本分类方法、装置和设备 | |
CN113657274B (zh) | 表格生成方法、装置、电子设备及存储介质 | |
CN113360699A (zh) | 模型训练方法和装置、图像问答方法和装置 | |
CN114419035B (zh) | 产品识别方法、模型训练方法、装置和电子设备 | |
CN115099239B (zh) | 一种资源识别方法、装置、设备以及存储介质 | |
CN112632227A (zh) | 简历匹配方法、装置、电子设备、存储介质和程序产品 | |
CN113935339A (zh) | 翻译方法、装置、电子设备及存储介质 | |
CN115546808A (zh) | 一种报表类型确定方法、装置、设备和存储介质 | |
CN115393870A (zh) | 一种文本信息处理方法、装置、设备及存储介质 | |
CN115690816A (zh) | 一种文本要素提取方法、装置、设备和介质 | |
CN115618264A (zh) | 数据资产的主题分类方法、装置、设备和介质 | |
CN113361522B (zh) | 用于确定字符序列的方法、装置和电子设备 | |
CN115396690A (zh) | 音频与文本组合方法、装置、电子设备及存储介质 | |
CN115035351A (zh) | 基于图像的信息提取模型、方法、装置、设备及存储介质 | |
CN114187081A (zh) | 估值表处理方法、装置、电子设备及计算机可读存储介质 | |
CN113887394A (zh) | 一种图像处理方法、装置、设备及存储介质 | |
CN114417974A (zh) | 模型训练方法、信息处理方法、装置、电子设备和介质 | |
CN114461665A (zh) | 用于生成语句转换模型的方法、装置及计算机程序产品 | |
CN113806541A (zh) | 情感分类的方法和情感分类模型的训练方法、装置 | |
CN113033431A (zh) | 光学字符识别模型训练和识别方法、装置、设备及介质 | |
CN112818972A (zh) | 兴趣点图像的检测方法、装置、电子设备及存储介质 | |
CN117493785A (zh) | 数据处理方法、装置及电子设备 | |
CN115640802A (zh) | 一种企业实体的评价分类方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |