CN116453145A

CN116453145A - 图片内容识别方法及装置

Info

Publication number: CN116453145A
Application number: CN202310289109.0A
Authority: CN
Inventors: 刘洋; 王秀光; 陈龙; 姜毅; 高爽
Original assignee: CRRC Qingdao Sifang Co Ltd
Current assignee: CRRC Qingdao Sifang Co Ltd
Priority date: 2023-03-22
Filing date: 2023-03-22
Publication date: 2023-07-18

Abstract

一种图片内容识别方法及装置，所述方法包括：获取待识别图片；基于待识别图片和模板图片，获取待识别图片的第一参考区域，第一参考区域与模板图片中预先标注的第二参考区域相对应；计算出第一透视变换矩阵；对待识别图片进行校正，获得第一图片；基于模板图片上预先标注的第一待识别区域，获得第一图片中的第二待识别区域，识别出第二待识别区域的内容，作为待识别图片的识别输出。本发明通过识别出待识别图片中和模板图片相匹配的参考区域，形成模板匹配，并完成基于两个参考区域的仿射变换，最后基于模板图片中标注的待识别区域确定待识别图片中的待识别区域，以准确获取图片中的待识别内容。

Description

图片内容识别方法及装置

技术领域

本发明涉及图片识别技术领域，尤其涉及一种图片内容识别方法及装置。

背景技术

表格作为一种可视化的交流模式和数据组织整理的常用方法，广泛存在于人们的报刊杂志、科学文献、财务报表等各类文档中，是各类文档中常见的页面对象。作为文字叙述的重要补充和概括，数据的一种重要载体，表格已经在各行各业被大量的应用。

随着互联网技术的发展和大数据时代的来临，表格数据也呈爆炸性的增长趋势，人工处理表格存在错误多、时间成本大、难度高等问题。因此，从大量数据中高效地提取有效信息是各行各业都亟需利用的重要技术，有助于切实提高办公效率。特别对于图片形式的表格，如何高效、准确地识别表格内容是目前亟待解决的问题。

公开于该背景技术部分的信息仅仅旨在加深对本发明的总体背景技术的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

发明内容

针对现有技术存在的问题，本发明提供一种图片内容识别方法及装置。

本发明的技术方案提供的一种图片内容识别方法，所述方法包括：

获取待识别图片；

基于所述待识别图片和模板图片，获取所述待识别图片的第一参考区域，所述第一参考区域与模板图片中预先标注的第二参考区域相对应；

基于所述第一参考区域的第一坐标和所述第二参考区域的第二坐标，计算出第一透视变换矩阵；

基于所述第一透视变换矩阵对所述待识别图片进行校正，获得第一图片；

基于所述模板图片上预先标注的第一待识别区域，获得所述第一图片中的第二待识别区域，识别出所述第二待识别区域的内容，作为所述待识别图片的识别输出。

可选地，获取待识别图片，进一步包括：

获取第一原始图片；

对所述第一原始图片进行表格线检测，获得所述第一原始图片的第一角点坐标集合；

基于所述第一角点坐标集合和所述模板图片的第二角点坐标集合，计算出第二透视变换矩阵；

基于所述第二透视变换矩阵对所述第一原始图片进行校正，获得第二图片，作为所述待识别图片。

可选地，对所述第一原始图片进行表格线检测，获得所述第一原始图片的第一角点坐标集合，进一步包括：

通过第一卷积核，对所述第一原始图片进行腐蚀操作、膨胀操作，获得表格横线；

通过第二卷积核，对所述第一原始图片进行腐蚀操作、膨胀操作，获得表格竖线；

将所述表格横线和所述表格竖线按位相与，获得所述第一原始图片的第一角点坐标集合。

可选地，获取第一原始图片，进一步包括：

获取第二原始图片；

对所述第二原始图片进行灰度化、二值化，以得到所述第一原始图片。

可选地，基于所述待识别图片和模板图片，获取所述待识别图片的第一参考区域，进一步包括：

输入所述待识别图片至所述结构识别模型，获得所述结构识别模型输出的置信度，所述置信度表示所述待识别图片中若干文本框与所述第二参考区域相对应地概率；

如果所述置信度大于第一阈值，则计算所述若干文本框和所述第二参考区域的综合距离，作为待校验的第一距离；如果所述置信度小于等于第一阈值，则在所述若干文本框的所有组合中，遍历找出与所述第二参考区域的综合距离最小的文本框组合，将最小的综合距离作为待校验的第二距离；

如果所述第一距离或所述第二距离大于预设的第二阈值，则校验失败，重新选择不同的模板图片；如果所述第一距离或所述第二距离小于等于预设的第二阈值，则校验成功，将所述若干文本框或所述文本框组合作为所述结构识别模型输出的所述第一参考区域。

可选地，所述综合距离至少包括如下的一项：文本相似距离、线段比例距离、向量夹角距离。

可选地，输入所述待识别图片至所述结构识别模型，获得所述结构识别模型输出的置信度，进一步包括：

输入所述待识别图片至所述结构识别模型中的光学字符识别单元，获得所述光学字符识别单元输出的文本内容和文本框坐标；

基于所述文本框坐标，在所述待识别图片上确定感兴趣区域；

输入所述感兴趣区域至所述结构识别模型中的图像特征提取单元，获得所述图像特征提取单元输出的特征图；

输入所述文本内容、所述文本框坐标、所述特征图至所述结构识别模型中的语言表征单元，获得所述语言表征单元输出的所述置信度。

可选地，所述第二参考区域包括多个子参考区域；

对应地，所述综合距离的计算包括：

在所述若干文本框中，为每个所述子参考区域匹配距离最近的文本框，形成多个匹配对；

计算每个所述匹配对的子综合距离，将所有所述子综合距离加权求和作为所述综合距离。

可选地，基于所述第一参考区域的第一坐标和所述第二参考区域的第二坐标，计算出第一透视变换矩阵，进一步包括：

基于所述第一坐标和所述第二坐标，通过最小二乘法计算出所述第一透视变换矩阵。

本发明的技术方案还提供的一种图片内容识别装置，所述装置包括：

获取模块，用于获取待识别图片；

结构识别模块，用于基于所述待识别图片和模板图片，获取所述待识别图片的第一参考区域，所述第一参考区域与模板图片中预先标注的第二参考区域相对应；

变换计算模块，用于基于所述第一参考区域的第一坐标和所述第二参考区域的第二坐标，计算出第一透视变换矩阵；

校正模块，用于基于所述第一透视变换矩阵对所述待识别图片进行校正，获得第一图片；

识别模块，用于基于所述模板图片上预先标注的第一待识别区域，获得所述第一图片中的第二待识别区域，识别出所述第二待识别区域的内容，作为所述待识别图片的识别输出。

本发明提供的图片内容识别方法及装置，通过识别出待识别图片中和模板图片相匹配的参考区域，形成模板匹配，并完成基于两个参考区域的仿射变换，最后基于模板图片中标注的待识别区域确定待识别图片中的待识别区域，以准确获取图片中的待识别内容。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种图片内容识别方法流程示意图；

图2为本发明实施例提供的一种表格角点提取流程图；

图3为本发明实施例提供的一种模板图片示意图；

图4为本发明实施例提供的一种获取待识别区域内容的流程示意图；

图5为本发明实施例提供的一种参考区域对照示意图；

图6为本发明实施例公布的一种结构识别模型示意图；

图7为本发明实施例提供的一种图片内容识别装置的结构示意图；

图8为本发明提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的图片内容识别方法进行详细地说明。

图1为本发明实施例提供的一种图片内容识别方法流程示意图，如图1所示，本发明的技术方案提供的一种图片内容识别方法，方法包括如下步骤。

S100、获取待识别图片。

在本发明的一个实施例中，待识别图片包括表格，此处的表格既包括完全由表格线框起来的纯表格，也包括主体采用表格形式但是部分或者全部表格线条隐藏的表格化文本。

可选地，获取待识别图片，进一步包括：获取第一原始图片；对第一原始图片进行表格线检测，获得第一原始图片的第一角点坐标集合；基于第一角点坐标集合和模板图片的第二角点坐标集合，计算出第二透视变换矩阵；基于第二透视变换矩阵对第一原始图片进行校正，获得第二图片，作为待识别图片。

可选地，对第一原始图片进行表格线检测，获得第一原始图片的第一角点坐标集合，进一步包括：通过第一卷积核，对第一原始图片进行腐蚀操作、膨胀操作，获得表格横线；通过第二卷积核，对第一原始图片进行腐蚀操作、膨胀操作，获得表格竖线；将表格横线和表格竖线按位相与，获得第一原始图片的第一角点坐标集合。

优选地，图2为本发明实施例提供的一种表格角点提取流程图，如图2所示，设置第一卷积核大小为(w，1)，先对图片进行腐蚀操作，再进行膨胀操作，得到表格横线，其中w为输入图片宽大小。设置第二卷积核大小为(1，h)，先对图片进行腐蚀操作，在进行膨胀操作，得到表格竖线。根据获取的表格竖线和横线按位相与，获取横竖交点，取左上、右上、左下，右下点为表格角点。同样的，可以采用同样的方法获取的模板图片4个表格角点，可以计算出大小为3x3的第二透视变换矩阵，根据获取的第二透视变换矩阵，可以得到校正后的待识别图片，经过这次变换，可以把具有倾斜、角度偏移的待识别图形进行校正，可以提高通用后续光学字符识别单元的识别准确度。

可选地，获取第一原始图片，进一步包括：获取第二原始图片；对第二原始图片进行灰度化、二值化，以得到第一原始图片。

在本发明的一个实施例中，设置有多个模板图片，用来匹配多种不同类型的待识别文件，制备模板图片时，选择一张摆放端正、字迹清晰，且大小不超过4M，最长边不超过4096像素，格式为JPG、PNG或JPEG的图片作为模板图片，在模板图片上框选参考区域和待识别区域。图3为本发明实施例提供的一种模板图片示意图，如图3所示，模板图片中用实线框选出的四个文本框，作为模板图片的第二参考区域，用虚线框选出的三个文本框，作为待识别区域。对于图3中的模板图片，可以用来匹配“产品合格证”这一种类的待识别图片，识别出其中“生产企业”、“产品编号”、“数量”等三个类目的具体填写内容。

S200、基于待识别图片和模板图片，获取待识别图片的第一参考区域，第一参考区域与模板图片中预先标注的第二参考区域相对应。

可选地，输入待识别图片至结构识别模型，获得结构识别模型输出的待识别图片的第一参考区域，进一步包括：输入待识别图片至结构识别模型，获得结构识别模型输出的置信度，置信度表示待识别图片中若干文本框与第二参考区域相对应地概率；如果置信度大于第一阈值，则计算若干文本框和第二参考区域的综合距离，作为待校验的第一距离；如果置信度小于等于第一阈值，则在若干文本框的所有组合中，遍历找出与第二参考区域的综合距离最小的文本框组合，将最小的综合距离作为待校验的第二距离；如果第一距离或第二距离大于预设的第二阈值，则校验失败，重新选择不同的模板图片；如果第一距离或第二距离小于等于预设的第二阈值，则校验成功，将若干文本框或文本框组合作为结构识别模型输出的第一参考区域。

在本发明的一个实施例中，图4为本发明实施例提供的一种获取待识别区域内容的流程示意图，如图4所示，结构识别模型会给出被判定为参考区域文本框的置信度，第一参考区域中多个文本框的置信度的均值定义为得分，设定第一阈值。如果得分大于第一阈值，则认为当前输出文本框位置是待识别图片上的参考区域位置，如果得分小于第一阈值，则认为当前输出文本框位置不符合要求，需要遍历待识别图片中所有识别出的文本框，计算综合距离。

可选地，综合距离至少包括如下的一项：文本相似距离、线段比例距离、向量夹角距离。

需要说明的是，综合距离中，文本相似距离用于衡量文本内容相似度，线段比例距离用于文本框位置分布是否与模板图片一致，向量夹角距离用于计算向量偏移角度。

图5为本发明实施例提供的一种参考区域对照示意图，如图5所示，竖线左侧是模板图片标注的参考区域，竖线右侧为待识别图片上检测出来的所有文本框，每次从待识别图片的文本框中选择3个，总共遍历次数为次，每次计算3个文本框与模板图片中参考区域文本框综合距离，记录综合距离，遍历结束后取综合距离最小的文本框组合为待识别图片上的参考区域，每种距离的计算方式如下。

文本相似距离的计算公式：

edit_distance(text₁，text₂)/max(len(text₁)，len(text₂))

其中，edit_distance为编辑距离，len()为获取文本长度的函数，max()为取最大值的函数，text₁为模板图片中参考区域文本内容，text₂为待识别图片中的文本框内容，编辑距离除以两个文本框中文本长度最大值进行归一化。

线段比例距离的计算公式：

其中，各线段如图5所示，模板图片中文本框角点两两先连，与待识别图片中对应线段相减，并除以较大值进行归一化。取所有线段比例距离最大值为当前选择的3个文本框的线段距离。

向量夹角距离的计算公式：

其中，表示对向量/>取模，/>同理。计算模板图片中所有文本框角点组成的向量与对应地待识别图片向量夹角，向量夹角除以π进行归一化。取所有向量夹角最大的值作为当前选择的三个文本框向量夹角距离。

通过综合距离的计算方式，用于进一步判断第一参考区域准确性和完成模板图片与待识别图片匹配校验，既可以提高第一参考区域获取的准确性，又可以自动判定待识别图片是否与模板图片为同一类型。

可选地，输入待识别图片至结构识别模型，获得结构识别模型输出的置信度，进一步包括：输入待识别图片至结构识别模型中的光学字符识别单元，获得光学字符识别单元输出的文本内容和文本框坐标；基于文本框坐标，在待识别图片上确定感兴趣区域；输入感兴趣区域至结构识别模型中的图像特征提取单元，获得图像特征提取单元输出的特征图；输入文本内容、文本框坐标、特征图至结构识别模型中的语言表征单元，获得语言表征单元输出的置信度。

在本发明的一个实施例中，图6为本发明实施例公布的一种结构识别模型示意图，如图6所示，光学字符识别单元使用通用光学字符识别算法对待识别图片进行检测和识别，通用光学字符识别算法中具体包括：用于文本内容识别的CRNN(Convolutional RecurrentNeural Network，卷积循环神经网络)，用于文本框检测的DBNet(DifferentiableBinarization Network，可微分二值化网络)。通过卷积循环神经网络获得待识别图片中所有文本内容，通过可微分二值化网络获得文本框坐标。进一步地，将待识别图片的文本内容和对应地文本框坐标输入结构识别模型，这些两种输入将被编码为向量的形式，并通过嵌入(embedding)操作进一步完成特征转化，通过文本框坐标可以进一步从原图上提取感兴趣区域(region of interest，ROI)，即文本框区域的图像，图像经过Faster RCNN(Regionswith CNN features)可以提取出高维特征图，使用全连接层可以把特征图映射到固定尺寸的向量形式。之后文本框坐标、文本内容、对用的特征图将会被融合，并通过一个预训练的Bert(Bidirectional Encoder Representation from Transformers)模型可以得到整个待识别图片的文本布局信息，即每个文本框所属类别与位置以及对应地置信度。由此可以得到待识别图片的结构信息，及每个文本框所属的类别，也就是获取了待识别图片中哪些文本框属于参考区域。

可选地，第二参考区域包括多个子参考区域；对应地，综合距离的计算包括：在若干文本框中，为每个子参考区域匹配距离最近的文本框，形成多个匹配对；计算每个匹配对的子综合距离，将所有子综合距离加权求和作为综合距离。

S300、基于第一参考区域的第一坐标和第二参考区域的第二坐标，计算出第一透视变换矩阵。

可选地，基于第一参考区域的第一坐标和第二参考区域的第二坐标，计算出第一透视变换矩阵，进一步包括：基于第一坐标和第二坐标，通过最小二乘法计算出第一透视变换矩阵。

S400、基于第一透视变换矩阵对待识别图片进行校正，获得第一图片。通过获取的第一透视变换矩阵，可对待识别图片进行透视变换，进一步校正待识别图片，这样可以减小文本边框偏移，提高待识别区域的文本识别准确度。

S500、基于模板图片上预先标注的第一待识别区域，获得第一图片中的第二待识别区域，识别出第二待识别区域的内容，作为待识别图片的识别输出。

在一个实施例中，根据在模板图片上框选的待识别区域坐标，可以获取待识别图片上的待识别区域，使用CRNN可以识别区域文本内容，将文本内容返回，完成整个识别流程。

下面对本发明提供的格图片内容识别装置进行描述，下文描述的格图片内容识别装置与上文描述的格图片内容识别方法可相互对应参照。

图7为本发明实施例提供的一种图片内容识别装置的结构示意图，如图7所示，本发明的技术方案还提供的一种图片内容识别装置，装置包括：

获取模块710，用于获取待识别图片；结构识别模块720，用于输入待识别图片至结构识别模型，获得结构识别模型输出的待识别图片的第一参考区域，第一参考区域与模板图片中预先标注的第二参考区域相对应；变换计算模块730，用于基于第一参考区域的第一坐标和第二参考区域的第二坐标，计算出第一透视变换矩阵；校正模块740，用于基于第一透视变换矩阵对待识别图片进行校正，获得第一图片；识别模块750，用于基于模板图片上预先标注的第一待识别区域，获得第一图片中的第二待识别区域，识别出第二待识别区域的内容，作为待识别图片的识别输出。

本实施例通过识别出待识别图片中和模板图片相匹配的参考区域，形成模板匹配，并完成基于两个参考区域的仿射变换，最后基于模板图片中标注的待识别区域确定待识别图片中的待识别区域，以准确获取图片中的待识别内容。

图8为本发明提供的一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行图片内容识别方法，所述方法包括：

获取待识别图片；基于所述待识别图片和模板图片，获取所述待识别图片的第一参考区域，所述第一参考区域与模板图片中预先标注的第二参考区域相对应；基于所述第一参考区域的第一坐标和所述第二参考区域的第二坐标，计算出第一透视变换矩阵；基于所述第一透视变换矩阵对所述待识别图片进行校正，获得第一图片；基于所述模板图片上预先标注的第一待识别区域，获得所述第一图片中的第二待识别区域，识别出所述第二待识别区域的内容，作为所述待识别图片的识别输出。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的图片内容识别方法，所述方法包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的图片内容识别方法，所述方法包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图片内容识别方法，其特征在于，所述方法包括：

获取待识别图片；

2.根据权利要求1所述的图片内容识别方法，其特征在于，获取待识别图片，进一步包括：

获取第一原始图片；

3.根据权利要求2所述的图片内容识别方法，其特征在于，对所述第一原始图片进行表格线检测，获得所述第一原始图片的第一角点坐标集合，进一步包括：

4.根据权利要求2所述的图片内容识别方法，其特征在于，获取第一原始图片，进一步包括：

获取第二原始图片；

5.根据权利要求1所述的图片内容识别方法，其特征在于，基于所述待识别图片和模板图片，获取所述待识别图片的第一参考区域，进一步包括：

输入所述待识别图片至结构识别模型，获得所述结构识别模型输出的置信度，所述置信度表示所述待识别图片中若干文本框与所述第二参考区域相对应地概率；

6.根据权利要求5所述的图片内容识别方法，其特征在于，所述综合距离至少包括如下的一项：文本相似距离、线段比例距离、向量夹角距离。

7.根据权利要求5所述的图片内容识别方法，其特征在于，输入所述待识别图片至结构识别模型，获得所述结构识别模型输出的置信度，进一步包括：

8.根据权利要求5所述的图片内容识别方法，其特征在于，所述第二参考区域包括多个子参考区域；

对应地，所述综合距离的计算包括：

9.根据权利要求1所述的图片内容识别方法，其特征在于，基于所述第一参考区域的第一坐标和所述第二参考区域的第二坐标，计算出第一透视变换矩阵，进一步包括：

10.一种图片内容识别装置，其特征在于，所述装置包括：

获取模块，用于获取待识别图片；