CN114758341A - 一种智能化合同图像识别与合同要素抽取方法及装置 - Google Patents
一种智能化合同图像识别与合同要素抽取方法及装置 Download PDFInfo
- Publication number
- CN114758341A CN114758341A CN202210260129.0A CN202210260129A CN114758341A CN 114758341 A CN114758341 A CN 114758341A CN 202210260129 A CN202210260129 A CN 202210260129A CN 114758341 A CN114758341 A CN 114758341A
- Authority
- CN
- China
- Prior art keywords
- contract
- image
- text
- seal
- page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Input (AREA)
Abstract
本发明公开了一种智能化合同图像识别与合同要素抽取方法及装置,属于计算机视觉领域,包括:对原始合同影像压缩包进行压缩包解压和单页合同图像预处理;对单页合同图像进行印章检测和表格检测,确定印章位置和表格位置;进行光学字符识别,确定合同文本内容和文本行位置信息,根据印章位置和表格位置确定印章内容和表格结构化数据;根据合同文本内容和文本行位置信息提取合同要素;对印章内容、合同要素和表格结构化数据中涉及的要素进行滤除和拼接操作,并按照期望的格式输出;根据提取的页码信息,判断合同是否完整。本发明实现了自动化合同图像识别与关键要素抽取,并基于要素进一步判断合同的完整性。
Description
技术领域
本发明涉及计算机视觉领域,尤其是一种基于深度学习OCR、表格识别、印章识别和NLP技术的智能化合同图像识别与合同要素抽取方法及装置。
背景技术
现实中存在大量不同用途、类别和版式的合同图像,这些合同通常具有非常灵活和多样的版式与内容。另外,合同要素信息通常出现在不同的文档对象中,如表格内部,合同条款中,甚至印章内。
如图1a至图1d所示,各个示例的合同具有不同的版式,且内容差异大。图1a中产品内容以表格的形式存在,图1c中却存在于文本条目中;图1a中大小写金额出现在表格内部,图1b则出现在具体条款中;图1a中,交货日期存在于条款中,图1d中却出现在表格内部。
对于合同图像的识别和关键要素的提取通常需要耗费大量的人力工作。当前,很多方法采用OCR结合人工设计规则的方法,如根据要素关键字和位置进行搜索。这些方法可以达到一定程度的自动化,但是也存在很多弊端,主要体现在:
·受合同版式局限,无法做到通用性;
·通常采用传统OCR识别技术,识别效果差;
·对于表格和印章内的要素,提取效果差。
发明内容
为了解决以上问题,本发明提供一种基于深度学习OCR、表格识别、印章识别和自然语言处理(Natural Language Processing,NLP)技术相结合的合同图像识别与要素抽取方法及系统。发明目的是实现自动化合同图像识别与关键要素抽取,并基于要素进一步判断合同的完整性。
该方法首先通过OCR、表格识别和印章识别模型识别出合同图像中的文字、表格内容和印章内容,再以文本、位置和图像多模态信息为输入,利用NLP模型提取出合同要素。相比于当前方法,该方法具有如下优势,
·智能化:自动快速识别并抽取要素
·通用化:不依赖于合同版式与内容
·统一化:可以统一识别并提取合同中存在于不同对象的要素,如存在于文本段、表格或印章等。
由此,该方法大大提升了合同文档图像的智能化识别水平。
根据本发明的第一方面,提供一种智能化合同图像识别与合同要素抽取方法,输入为原始合同影像压缩包,所述方法包括以下步骤:
S1、预处理步骤,对所述原始合同影像压缩包进行压缩包解压和单页合同图像预处理;
S2、检测步骤,对所述预处理后的单页合同图像进行印章检测和表格检测,确定印章位置和表格位置;
S3、识别步骤,对所述预处理后的单页合同图像进行光学字符识别,确定合同文本内容和文本行位置信息,根据印章位置和表格位置确定印章内容和表格结构化数据;
S4、提取步骤,基于所述预处理后的单页合同图像,根据合同文本内容和文本行位置信息提取合同要素;
S5、后处理步骤,对印章内容、合同要素和表格结构化数据中涉及的要素进行滤除和拼接操作,并按照期望的格式输出;
S6、完整性分析步骤,根据提取的页码信息,判断该合同是否完整。
进一步地,所述合同要素包括甲方、乙方、交货日期(有效期或合同期限)、签订日期、产品内容、大写金额、小写金额、印章、签字和页码。
进一步地,所述S1预处理步骤具体包括:
S11、利用压缩包处理模块对输入的合同压缩包进行解压,得到单页合同图像;
S12、对所述单页合同图像的合同图像尺寸和像素值进行归一化处理,得到预处理后的单页合同图像,以满足卷积神经网络对于输入样本分布的要求。
进一步地,所述S12中,所述合同图像尺寸的归一化处理指采用双线性插值方法将图像统一缩放到(512,512)大小;所述像素值的归一化处理指将0-255范围内的值归一化到0-1范围,利用均值(0.485,0.456,0.406)和方差(0.229,0.224,0.225)做进一步归一化,得到预处理后的单页合同图像。
进一步地,所述S2的检测步骤具体包括:
S21、采用深度学习实例分割方法,对所述预处理后的单页合同图像中的印章区域进行分割,得到印章的形状类别及印章位置;
S22、深度学习图像分割模型,通过像素分类来分割出所述预处理后的单页合同图像中的表格区域,得到表格位置。
进一步地,所述S3的识别步骤具体包括:
S31、将所述预处理后的单页合同图像输入光学字符识别模块,确定合同文本内容和文本行位置信息;
S32、根据印章位置,对所述预处理后的单页合同图像进行印章图像分割,确定印章文字区域并进行文字识别,得到印章内容;
S33、对所述预处理后的单页合同图像进行表格线检测,结合合同文本内容和文本行位置信息以及表格位置,从所述预处理后的单页合同图像中识别表格结构化数据。
进一步地,所述S31中,所述光学字符识别模块包括多个串联的深度学习模型:文本检测模型、文本方向统一模型和文本识别模型。
进一步地,所述S31具体包括:
S311、将所述预处理后的单页合同图像输入文本检测模型,对文本行区域进行检测,得到文本行位置信息,并通过图像变换得到文本行图像;
S312、将所有文本行图像输入文本方向统一模型,所述文本方向分类模型通过图像分类网络判断出文字头的方向,并进行必要的图像旋转,确保文字头向上,得到文字头方向统一向上的文本行图像;
S313、将文本行图像输入到文本识别模型,识别出合同文本内容。
进一步地,所述S32具体包括:
S321、根据所述预处理后的单页合同图像和印章位置,通过图像变换得到印章图像;
S322、通过印章识别模型对印章图像中的文字区域进行分割,确定多个通过多边形来表示的印章文字区域;
S323、利用印章文字区域的多边形轮廓,通过薄片变换,对弯曲的文字图像进行矫正,以获得水平文字图像;
S324、将所述水平文字图像输入文字识别模型进行文字识别,最终得到印章内容。
进一步地,所述S33具体包括:
S331、根据所述预处理后的单页合同图像和表格位置,通过图像变换得到表格图像;
S332、该表格图像送入表格识别模块进行识别,完成表格线的检测;
S332、基于检测到的表格线,结合合同文本内容和文本行位置信息,进行表格行、列和单元格的解析,得到表格结构化数据。
进一步地,所述S4具体包括:
S41、根据合同文本内容和文本行位置信息确定文本、文本行框和单字框,并将所述预处理后的单页合同图像输入至卷积神经网络得到图像特征图;
S42、将文本行框和图像特征图作为池化模块的输入,得到文本框VisualEmbedding向量;
S43、将文本和单字框经过分词和序列化操作,得到Token序列和Token框,提取Token框、Token、Token文本框编号、Token编号,连同文本行框输入各自的Embeddingtable,得到文本行框版式Embedding向量、Token框版式Embedding向量、Word TokenEmbedding向量、文本框标识Embedding向量以及序列标识Embedding向量;
S44、将文本框Visual Embedding向量与文本行框版式Embedding向量拼接得到第一拼接Embedding向量,将Word Token Embedding向量与Token框版式Embedding向量拼接得到第二拼接Embedding向量,将第一拼接Embedding向量与第二拼接Embedding向量拼接得到第三拼接Embedding向量;
S45、根据Token序列和文本行框的数量生成模态特征序列,所述模态特征序列的长度与第三拼接Embedding向量等长;
S46、将所述模态特征序列与第三拼接Embedding向量、文本框标识Embedding向量以及序列标识Embedding向量融合得到融合Embedding;
S47、将所述融合Embedding输入到Transformer模块进行编码并经过Token分类器得到每一个Token的类别,即合同要素类别,再通过后处理模块得到最终的合同要素。
进一步地,所述S47中的后处理模块具体操作为:针对每一种合同要素类别,找到该序列中所有预测为此类别的token,对该向量进行连通域分析,提取出所有的连通域,再使用连通域的位置索引到输入的Token值,最后通过模型字典查找到对应的文本,即为最终的合同要素。
进一步地,所述S5中,滤除操作是指利用先验知识针对提取的合同要素进行过滤,如根据要素文本行所在位置、要素文本内容长短等;拼接操作是针对要素换行的情况,利用要素实例的位置关系进行拼接,得到完整的要素内容;其中,后处理步骤还涉及对要素的输出格式进行必要的转换,如日期格式等。
根据本发明的第二方面,提供一种智能化合同图像识别与合同要素抽取装置,所述装置基于前述任一方面提供的方法进行操作,所述装置包括:
预处理单元,用于对所述原始合同影像压缩包进行压缩包解压和单页合同图像预处理;
检测单元,用于对所述预处理后的单页合同图像进行印章检测和表格检测,确定印章位置和表格位置;
识别单元,用于对所述预处理后的单页合同图像进行光学字符识别,确定合同文本内容和文本行位置信息,根据印章位置和表格位置确定印章内容和表格结构化数据;
提取单元,用于基于所述预处理后的单页合同图像,根据合同文本内容和文本行位置信息提取合同要素;
后处理单元,用于对印章内容、合同要素和表格结构化数据中涉及的要素进行滤除和拼接操作,并按照期望的格式输出;
完整性分析单元,用于根据提取的页码信息,判断该合同是否完整。
根据本发明的第三方面,提供一种智能化合同图像识别与合同要素抽取系统,所述系统包括:处理器和用于存储可执行指令的存储器;其中,所述处理器被配置为执行所述可执行指令,以执行如以上任一方面所述的智能化合同图像识别与合同要素抽取方法。
根据本发明的第四方面,提供一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如以上任一方面所述的智能化合同图像识别与合同要素抽取方法。
本发明的有益效果:
1、高度智能化
利用深度学习印章识别、表格识别、OCR和NLP模型,可以完全自动化识别合同条款、表格和印章等对象中的要素内容,并完成合同完整性校验。
2、具备精度优势
利用图像、文本和版式多模态特征进行要素提取,具备精度优势。
3、统一化
采用深度学习方法,以数据驱动,适用于各种用途、类别和版式的合同图像。
4、通用性
采用数据驱动模型的思路,易于扩展,具备通用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1a至图1d示出现有技术中不同版式合同示例。
图2示出根据本发明实施例的智能化合同图像识别与合同要素抽取方法流程图。
图3示出根据本发明实施例的表格检测识别原理图。
图4示出根据本发明实施例的表格分割区域Mask示意图。
图5示出根据本发明实施例的表格区域图示意图。
图6示出根据本发明实施例的检测的表格线示意图。
图7示出根据本发明实施例的表格识别结果示意图。
图8示出根据本发明实施例的印章区域分割示意图。
图9示出根据本发明实施例的交叠印章区域分割示意图。
图10示出根据本发明实施例的印章识别原理图。
图11示出根据本发明实施例的印章识别结果示意图。
图12示出根据本发明实施例的OCR模块原理图。
图13示出根据本发明实施例的OCR识别结果示意图。
图14示出根据本发明实施例的要素抽取原理图。
图15示出根据本发明实施例的Embedding层示意图。
图16示出根据本发明实施例的数据标注示意图。
图17示出根据本发明实施例的数据处理示意图。
图18示出根据本发明实施例的后处理示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
多个,包括两个或者两个以上。
和/或,应当理解,对于本公开中使用的术语“和/或”,其仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
本发明涉及一种智能化合同图像识别与要素抽取方法。针对这一难题,本团队创新性地提出基于深度学习OCR、表格识别、印章识别和NLP技术相结合的智能化方法。
如下表1是本发明支持提取的合同要素。
要素 |
甲方 |
乙方 |
交货日期/有效期/期限 |
签订日期 |
产品内容 |
金额(大写) |
金额(小写) |
印章 |
签字 |
页码 |
表1
如图2所示,该方法首先对输入的原始合同影像压缩包进行预处理,主要包括压缩包解压和单页合同图像预处理。处理完成的图像分别送入印章检测、OCR和表格检测模块,分别进行印章位置检测、合同文字识别和表格位置检测。接着,印章识别模块对印章区域内部的文字进行识别,得到印章内容;表格识别模块则结合OCR识别结果对表格内容进行识别,并通过对识别结果的分析,得到表格结构化数据,主要包含具体的合同产品内容;要素抽取模块根据输入的合同图像、OCR文本和文本位置等多模态特征,提取出其他合同要素,包括甲方、乙方,交货日期、有效期或合同期限,签订日期,大写金额,小写金额,签字和页码。后处理模块主要是对印章内容、合同要素和表格结构化数据中涉及的要素进行必要的滤除和拼接,并按照期望的格式输出。最后,完整性分析模块根据提取的页码信息,判断该合同是否完整。
预处理
预处理主要是对上传的合同压缩包进行解压,并对于解压后获得的单页合同影像文件进行图像预处理。
(1)压缩包解压
利用Python内置的压缩包处理模块,对输入的合同压缩包进行解压,得到合同页图像。
(2)合同图像预处理
合同图像预处理主要对于合同图像尺寸和像素值进行归一化处理,以满足CNN网络对于输入样本分布的要求。
图像尺寸归一化采用双线性插值方法将图像统一缩放到(512,512)大小。像素值归一化时,首先将0-255范围内的值归一化到0-1范围,然后利用均值(0.485,0.456,0.406)和方差(0.229,0.224,0.225)做进一步归一化,得到最终图像。
表格模块
如图3示出表格检测识别原理图。首先,表格检测模块检测出合同中表格的位置,并通过图像变换得到矫正后的表格子图。然后,该表格子图送入表格识别模块进行识别。
(1)表格检测
表格检测利用深度学习图像分割模型,通过像素分类来分割出表格位置。相比于目标检测的方法,该方法在边缘精度上具有比较大的优势。得到表格区域Mask后,首先通过OpenCV找到区域轮廓点,再通过霍夫变换得到线段,然后再通过线段合并得到区域的4个边界线,进一步可以计算出4条线的交叉点,得到表格区域四边形表示。最后,利用四边形4个点,通过透视变换,得到矫正后的表格图像。
如图4是分割出来的表格区域,图5是预测并矫正出来的表格区域图像。
(2)表格识别
表格识别模块通过对合同图像中的表格内容进行识别,得到结构化数据。表格识别模型主要是完成表格线的检测,表格识别后处理基于检测到的表格线进行表格行、列和单元格的解析,得到表格结构化数据。
对于图5中的原始表格,图6中采用不同深浅度线条展示了检测出来的表格线,每一个表格线的起始位置处标记了该表格线的ID,如ln30。
如图7,是利用表格线和OCR结果经过后处理还原的结构化识别结果。其中,不同单元格采用不同的深浅度线条,单元格左上角是其ID值;另外,OCR结果与单元格通过位置关系进行了匹配,并采用相同的颜色深浅度,显示在图像中对应的位置。
印章模块
(1)印章检测
印章检测采用深度学习实例分割方法,对合同图像上的印章区域进行分割,同时得到印章的形状类别,如圆章,方章,椭圆章等。该方法利用已有的印章实例分割模型,避免了必要的模型训练工作。如图8是印章区域分割结果示例图,Mask是模型分割出来的印章区域,左上角显示了该印章的类型是“圆章”。
相比于语义分割,实例分割能够更好地应对印章区域交叠的情况,如图9所示。
(2)印章识别
如图10是印章识别原理图。印章中通常会存在水平、竖排甚至弯曲的文字,这大大增加了识别难度。首先通过深度学习模型对印章图像中的文字区域进行分割。相比于对象检测的方法,分割的方式可以得到准确的区域Mask图,并能够进一步搜索出区域的轮廓点,并使用多边形来表示一个印章文字区域。接着,图像矫正模块可以利用该多边形,通过薄片变换,对弯曲的文字图像进行矫正,以获得水平文字图像,并输入文字识别模型进行识别,最终得到印章内容。
该方法利用已有的印章识别模型,完成印章内容的识别,避免了模型训练工作。
如图11,轮廓线是模型分割输出的印章文本行区域。右侧展示了经过图像矫正处理后的文本行子图,以及经过印章识别模型识别后得到的结果。
OCR
OCR模块基于多个串联的深度学习模型实现,包含文本检测、文本方向分类和文本识别模型。文本检测模型首先对合同图像的文本行区域进行检测,得到文本行位置信息,并通过图像变换得到文本行子图,输入方向分类模型。方向分类模型通过图像分类网络判断出文字头的方向,并进行必要的图像旋转,确保文字头向上。最后,旋转后的图像会被输入到文本识别模型,识别出文字内容。具体参见图12所示。
该方法利用已有的通用OCR模型完成对合同图像的文字识别,避免了必要的模型训练工作。如图13,展示了一张合同图像经过OCR引擎识别后的部分结果。文字周边的文本框是OCR检测模型输出的文本行框,每一个框上面展示了识别模型输出的文本行内容。
要素抽取
要素抽取模块通过NLP深度学习模型,利用OCR结果中文本、文本位置和合同图像信息提取出合同要素。
如图14所示要素抽取的原理图。首先,合同图像分别输入OCR引擎和Embedding层,得到文本、版式和图像Embeddings。然后,这些模态的Embeddings融合后再输入到Transformer模块进行编码。编码后的特征经过一个分类器得到每一个Token的类别,即就是合同要素类别。最后再通过后处理模块得到最终的合同要素。
如图15所示Embedding层结构。合同图像首先输入CNN和OCR引擎,以提取图像特征图并完成OCR识别。OCR引擎输出识别的文本、文本行框和单字框。文本行框和图像特征图作为池化模块的输入,以获取到文本行的视觉Embedding;所有文本行经过分词和序列化操作后,得到Token序列和token框。Token框、Token、Token文本框编号、Token编号输入各自的Embedding table,得到对应的Embedding向量。其中Token embedding会与其版式Embedding相加,得到Word token embedding;文本框Visual embedding也会与其版式Embedding相加得到Visual embedding。接着,Visual embedding与Word token embedding进行拼接,再与Token文本框标识和Token序列标识Embedding相加,得到最终的Embedding。
模态特征模块根据Token和文本行框的数量生成一个序列,该序列长度与拼接后的Embedding序列等长,用于指示Embedding序列中Token和文本行位置,如值1表示Token,2表示文本行。该序列会与其他Embedding向量相加,得到最终的Embedding。
该模型数据标注与训练步骤如下:
(1)数据标注
数据标注主要是对于合同中的各种要素进行位置和文本内容的标注。要素的位置可以通过四边形来表示。该步骤通过标注客户端完成,如图16。为了加速标注过程,标注工具会首先自动请求OCR引擎进行识别,如图16中文字周边的文本框是OCR引擎检测出来的文本框,右下部窗口是每一个文本框的识别结果。标注合同要素时,只需要点击选择要素对应的文本框,再选择要素的实体类型,就可以完成要素的标注。如图16标注了该合同的甲方和乙方要素。
(2)数据处理
数据处理主要是对于标注完成的数据进行预处理,以生成模型训练所需输入和目标标签。由于模型的任务是对所有文本中的Word token进行分类,因此需要生成每一个Token的类别标签。同时,还需要得到Token boxes以生成Token的版式Embedding。
(21)Token boxes生成
Token boxes可以从OCR引擎预测的单字文本框中获得。但是,由于可能的分词的存在,还需要对涉及分词的文本框进行拆分操作。如图17是可视化出来的Token boxes。
(22)Token标签生成
Token标签即就是该Token所属要素的类别标签。生成时,首先初始化一个全零且与token序列等长的序列,然后再对每一个要素对应所有Token所在位置赋予该要素的类别值。如图17通过深浅度颜色线条简单地区分了不同的要素类别。
(3)训练
模型训练基于开源ERNIE 2.0预训练模型进行。该预训练模型开创性的基于知识增强的持续学习语义理解框架,将大数据预训练与多元丰富知识相结合,通过持续学习技术,不断吸收海量文本数据中词汇、结构、语义等方面的知识。
训练过程基于PaddlePaddle深度学习框架进行,也可以基于Pytorch、TensorFlow等深度学习框架。
训练时,每遍历完一次数据集,做一次评估集精度评估,记录最佳精度,并保存最佳模型文件。训练中,当连续20轮没有精度提升时,即提前终止训练。最终,得到精度最高的模型。
(4)后处理
后处理需要利用预测出来的Token类别序列,得到最终的合同要素。
该过程通过分析预测序列中的连通区域完成。
首先,对于每一种要素类别,找到该序列中所有预测为此类别的token,其结果可以用一个值为0和1的向量表示。然后对该向量进行连通域分析,提取出所有的连通域。再使用连通域的位置索引到输入的Token值,最后通过模型字典查找到对应的文本,也就是预测的要素。如图18,右半部分展示了该合同的部分预测要素,包括甲方、乙方、大小写金额和签订日期。
后处理
后处理模块主要是对印章内容、合同要素和表格结构化数据中涉及的要素进行必要的滤除和拼接,并按照期望的格式输出。
滤除主要是利用一些先验知识,针对提取的要素进行过滤,如根据要素文本行所在位置、要素文本内容长短等。
拼接操作主要针对可能的要素换行的情况,利用要素实例的位置关系进行拼接,得到完整的要素内容。
最后,后处理模块还会对要素的输出格式进行必要的转换,如日期格式等。
完整性检查
完整性校验模块主要通过对提取出来的合同图像页面进行校验,以判断合同是否是完整的。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (15)
1.一种智能化合同图像识别与合同要素抽取方法,输入为原始合同影像压缩包,其特征在于,所述方法包括以下步骤:
S1、预处理步骤,对所述原始合同影像压缩包进行压缩包解压和单页合同图像预处理;
S2、检测步骤,对所述预处理后的单页合同图像进行印章检测和表格检测,确定印章位置和表格位置;
S3、识别步骤,对所述预处理后的单页合同图像进行光学字符识别,确定合同文本内容和文本行位置信息,根据印章位置和表格位置确定印章内容和表格结构化数据;
S4、提取步骤,基于所述预处理后的单页合同图像,根据合同文本内容和文本行位置信息提取合同要素;
S5、后处理步骤,对印章内容、合同要素和表格结构化数据中涉及的要素进行滤除和拼接操作,并按照期望的格式输出;
S6、完整性分析步骤,根据提取的页码信息,判断该合同是否完整。
2.根据权利要求1所述的智能化合同图像识别与合同要素抽取方法,其特征在于,所述S1预处理步骤具体包括:
S11、利用压缩包处理模块对输入的合同压缩包进行解压,得到单页合同图像;
S12、对所述单页合同图像的合同图像尺寸和像素值进行归一化处理,得到预处理后的单页合同图像,以满足卷积神经网络对于输入样本分布的要求。
3.根据权利要求2所述的智能化合同图像识别与合同要素抽取方法,其特征在于,所述S12中,所述合同图像尺寸的归一化处理指采用双线性插值方法将图像统一缩放到(512,512)大小;所述像素值的归一化处理指将0-255范围内的值归一化到0-1范围,利用均值(0.485,0.456,0.406)和方差(0.229,0.224,0.225)做进一步归一化,得到预处理后的单页合同图像。
4.根据权利要求1所述的智能化合同图像识别与合同要素抽取方法,其特征在于,所述S2的检测步骤具体包括:
S21、采用深度学习实例分割方法,对所述预处理后的单页合同图像中的印章区域进行分割,得到印章的形状类别及印章位置;
S22、深度学习图像分割模型,通过像素分类来分割出所述预处理后的单页合同图像中的表格区域,得到表格位置。
5.根据权利要求1所述的智能化合同图像识别与合同要素抽取方法,其特征在于,所述S3的识别步骤具体包括:
S31、将所述预处理后的单页合同图像输入光学字符识别模块,确定合同文本内容和文本行位置信息;
S32、根据印章位置,对所述预处理后的单页合同图像进行印章图像分割,确定印章文字区域并进行文字识别,得到印章内容;
S33、对所述预处理后的单页合同图像进行表格线检测,结合合同文本内容和文本行位置信息以及表格位置,从所述预处理后的单页合同图像中识别表格结构化数据。
6.根据权利要求5所述的智能化合同图像识别与合同要素抽取方法,其特征在于,所述S31中,所述光学字符识别模块包括多个串联的深度学习模型:文本检测模型、文本方向统一模型和文本识别模型。
7.根据权利要求6所述的智能化合同图像识别与合同要素抽取方法,其特征在于,所述S31具体包括:
S311、将所述预处理后的单页合同图像输入文本检测模型,对文本行区域进行检测,得到文本行位置信息,并通过图像变换得到文本行图像;
S312、将所有文本行图像输入文本方向统一模型,所述文本方向分类模型通过图像分类网络判断出文字头的方向,并进行必要的图像旋转,确保文字头向上,得到文字头方向统一向上的文本行图像;
S313、将文本行图像输入到文本识别模型,识别出合同文本内容。
8.根据权利要求6所述的智能化合同图像识别与合同要素抽取方法,其特征在于,所述S32具体包括:
S321、根据所述预处理后的单页合同图像和印章位置,通过图像变换得到印章图像;
S322、通过印章识别模型对印章图像中的文字区域进行分割,确定多个通过多边形来表示的印章文字区域;
S323、利用印章文字区域的多边形轮廓,通过薄片变换,对弯曲的文字图像进行矫正,以获得水平文字图像;
S324、将所述水平文字图像输入文字识别模型进行文字识别,最终得到印章内容。
9.根据权利要求6所述的智能化合同图像识别与合同要素抽取方法,其特征在于,所述S33具体包括:
S331、根据所述预处理后的单页合同图像和表格位置,通过图像变换得到表格图像;
S332、该表格图像送入表格识别模块进行识别,完成表格线的检测;
S332、基于检测到的表格线,结合合同文本内容和文本行位置信息,进行表格行、列和单元格的解析,得到表格结构化数据。
10.根据权利要求1所述的智能化合同图像识别与合同要素抽取方法,其特征在于,所述S4具体包括:
S41、根据合同文本内容和文本行位置信息确定文本、文本行框和单字框,并将所述预处理后的单页合同图像输入至卷积神经网络得到图像特征图;
S42、将文本行框和图像特征图作为池化模块的输入,得到文本框Visual Embedding向量;
S43、将文本和单字框经过分词和序列化操作,得到Token序列和Token框,提取Token框、Token、Token文本框编号、Token编号,连同文本行框输入各自的Embedding table,得到文本行框版式Embedding向量、Token框版式Embedding向量、Word Token Embedding向量、文本框标识Embedding向量以及序列标识Embedding向量;
S44、将文本框Visual Embedding向量与文本行框版式Embedding向量拼接得到第一拼接Embedding向量,将Word Token Embedding向量与Token框版式Embedding向量拼接得到第二拼接Embedding向量,将第一拼接Embedding向量与第二拼接Embedding向量拼接得到第三拼接Embedding向量;
S45、根据Token序列和文本行框的数量生成模态特征序列,所述模态特征序列的长度与第三拼接Embedding向量等长;
S46、将所述模态特征序列与第三拼接Embedding向量、文本框标识Embedding向量以及序列标识Embedding向量融合得到融合Embedding;
S47、将所述融合Embedding输入到Transformer模块进行编码并经过Token分类器得到每一个Token的类别,即合同要素类别,再通过后处理模块得到最终的合同要素。
11.根据权利要求10所述的智能化合同图像识别与合同要素抽取方法,其特征在于,所述S47中的后处理模块具体操作为:针对每一种合同要素类别,找到该序列中所有预测为此类别的token,对该向量进行连通域分析,提取出所有的连通域,再使用连通域的位置索引到输入的Token值,最后通过模型字典查找到对应的文本,即为最终的合同要素。
12.根据权利要求1所述的智能化合同图像识别与合同要素抽取方法,其特征在于,所述S5中,滤除操作是指利用先验知识针对提取的合同要素进行过滤;拼接操作是针对要素换行的情况,利用要素实例的位置关系进行拼接,得到完整的要素内容;其中,后处理步骤还涉及对要素的输出格式进行必要的转换。
13.一种智能化合同图像识别与合同要素抽取装置,所述装置基于根据权利要求1至12中任一项所述的方法进行操作,所述装置包括:
预处理单元,用于对所述原始合同影像压缩包进行压缩包解压和单页合同图像预处理;
检测单元,用于对所述预处理后的单页合同图像进行印章检测和表格检测,确定印章位置和表格位置;
识别单元,用于对所述预处理后的单页合同图像进行光学字符识别,确定合同文本内容和文本行位置信息,根据印章位置和表格位置确定印章内容和表格结构化数据;
提取单元,用于基于所述预处理后的单页合同图像,根据合同文本内容和文本行位置信息提取合同要素;
后处理单元,用于对印章内容、合同要素和表格结构化数据中涉及的要素进行滤除和拼接操作,并按照期望的格式输出;
完整性分析单元,用于根据提取的页码信息,判断该合同是否完整。
14.一种智能化合同图像识别与合同要素抽取系统,所述系统包括:处理器和用于存储可执行指令的存储器;其中,所述处理器被配置为执行所述可执行指令,以执行根据权利要求1至12中任一项所述的智能化合同图像识别与合同要素抽取方法。
15.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据权利要求1至12中任一项所述的智能化合同图像识别与合同要素抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210260129.0A CN114758341A (zh) | 2022-03-16 | 2022-03-16 | 一种智能化合同图像识别与合同要素抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210260129.0A CN114758341A (zh) | 2022-03-16 | 2022-03-16 | 一种智能化合同图像识别与合同要素抽取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114758341A true CN114758341A (zh) | 2022-07-15 |
Family
ID=82326953
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210260129.0A Pending CN114758341A (zh) | 2022-03-16 | 2022-03-16 | 一种智能化合同图像识别与合同要素抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114758341A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116384382A (zh) * | 2023-01-04 | 2023-07-04 | 深圳擎盾信息科技有限公司 | 一种基于多轮交互的自动化长篇合同要素识别方法及装置 |
CN116757886A (zh) * | 2023-08-16 | 2023-09-15 | 南京尘与土信息技术有限公司 | 数据分析方法及分析装置 |
-
2022
- 2022-03-16 CN CN202210260129.0A patent/CN114758341A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116384382A (zh) * | 2023-01-04 | 2023-07-04 | 深圳擎盾信息科技有限公司 | 一种基于多轮交互的自动化长篇合同要素识别方法及装置 |
CN116384382B (zh) * | 2023-01-04 | 2024-03-22 | 深圳擎盾信息科技有限公司 | 一种基于多轮交互的自动化长篇合同要素识别方法及装置 |
CN116757886A (zh) * | 2023-08-16 | 2023-09-15 | 南京尘与土信息技术有限公司 | 数据分析方法及分析装置 |
CN116757886B (zh) * | 2023-08-16 | 2023-11-28 | 南京尘与土信息技术有限公司 | 数据分析方法及分析装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109376658B (zh) | 一种基于深度学习的ocr方法 | |
CN109902622B (zh) | 一种用于登机牌信息验证的文字检测识别方法 | |
CN111160352B (zh) | 一种基于图像分割的工件金属表面文字识别方法及系统 | |
CN109948510B (zh) | 一种文档图像实例分割方法及装置 | |
CN112232149B (zh) | 一种文档多模信息和关系提取方法及系统 | |
US6996295B2 (en) | Automatic document reading system for technical drawings | |
CN111931664A (zh) | 混贴票据图像的处理方法、装置、计算机设备及存储介质 | |
CN109740515B (zh) | 一种评阅方法及装置 | |
CN114758341A (zh) | 一种智能化合同图像识别与合同要素抽取方法及装置 | |
CN113705576B (zh) | 一种文本识别方法、装置、可读存储介质及设备 | |
CN112069900A (zh) | 基于卷积神经网络的票据文字识别方法及系统 | |
CN112446259A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN113177435A (zh) | 试卷分析方法、装置、存储介质及电子设备 | |
CN113158895A (zh) | 票据识别方法、装置、电子设备及存储介质 | |
CN114429636B (zh) | 图像扫描识别方法、装置及电子设备 | |
CN115810197A (zh) | 一种多模态电力表单识别方法及装置 | |
CN116758545A (zh) | 一种基于深度学习的纸质医药包装钢印字符识别方法 | |
CN117437647B (zh) | 基于深度学习和计算机视觉的甲骨文字检测方法 | |
CN114330247A (zh) | 一种基于图像识别的自动化保险条款解析方法 | |
CN112966676A (zh) | 一种基于零样本学习的文档关键信息抽取方法 | |
CN114648771A (zh) | 文字识别方法、电子设备和计算机可读存储介质 | |
CN112686263A (zh) | 文字识别方法、装置、电子设备及存储介质 | |
CN111274863A (zh) | 一种基于文本山峰概率密度的文本预测方法 | |
CN115546813A (zh) | 一种文档分析方法、装置、存储介质及设备 | |
CN114155540A (zh) | 基于深度学习的文字识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |