CN115393837A - 图像检测方法、设备和存储介质 - Google Patents
图像检测方法、设备和存储介质 Download PDFInfo
- Publication number
- CN115393837A CN115393837A CN202110573876.5A CN202110573876A CN115393837A CN 115393837 A CN115393837 A CN 115393837A CN 202110573876 A CN202110573876 A CN 202110573876A CN 115393837 A CN115393837 A CN 115393837A
- Authority
- CN
- China
- Prior art keywords
- image
- detection
- detection frames
- identification points
- objects
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 387
- 238000000034 method Methods 0.000 claims abstract description 57
- 238000012545 processing Methods 0.000 claims description 36
- 238000000605 extraction Methods 0.000 abstract description 9
- 238000004458 analytical method Methods 0.000 abstract description 6
- 238000013145 classification model Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 16
- 238000012360 testing method Methods 0.000 description 8
- 238000005070 sampling Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 239000008267 milk Substances 0.000 description 2
- 210000004080 milk Anatomy 0.000 description 2
- 235000013336 milk Nutrition 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 239000000843 powder Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000037303 wrinkles Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0641—Shopping interfaces
- G06Q30/0643—Graphical representation of items or shoppers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供一种图像检测方法、设备和存储介质,该方法包括:获取待检测的图像,所述图像中包含多个对象;在图像中识别出多个对象对应的多个标识点;根据多个标识点在图像中确定出与多个对象对应的多个检测框,根据多个检测框与多个标识点之间的对应关系,以及不同检测框对应的标识点之间的距离,确定多个对象的关联关系。该方案中,标识点的分类、不同对象的标识点之间距离的学习以及基于标识点进行检测框的回归,都体现了对图像进行了丰富的语义信息的提取,基于这些丰富的语义信息可以保证能够准确地完成对图像中对象的结构化信息的解析。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像检测方法、设备和存储介质。
背景技术
随着光学字符识别(Optical Character Recognition,简称OCR)技术的实用化,在越来越多的应用场景中都将面临图像检测任务。
比如,在包含表格的图像中对表格进行检测,识别表格的结构,以便将图像形式的表格转换为可编辑的excel表格文件,以便于实现对表格图像中所包含信息的存储、编辑操作。
为实现上述目的,前提是能够在图片中准确地完成表格结构信息的识别。
发明内容
本发明实施例提供一种图像检测方法、设备和存储介质,用以实现准确地对图像进行对象的结构化信息解析。
第一方面,本发明实施例提供一种图像检测方法,该方法包括:
获取待检测的图像,所述图像中包含多个对象;
在所述图像中识别出所述多个对象对应的多个标识点;
根据所述多个标识点在所述图像中确定出与所述多个对象对应的多个检测框;
根据所述多个检测框与所述多个标识点之间的对应关系,以及不同检测框对应的标识点之间的距离,确定所述多个对象的关联关系。
第二方面,本发明实施例提供一种图像检测装置,该装置包括:
获取模块,用于获取待检测的图像,所述图像中包含多个对象;
检测模块,用于在所述图像中识别出所述多个对象对应的多个标识点,根据所述多个标识点在所述图像中确定出与所述多个对象对应的多个检测框,根据所述多个检测框与所述多个标识点之间的对应关系,以及不同检测框对应的标识点之间的距离,确定所述多个对象的关联关系。
第三方面,本发明实施例提供了一种图像检测方法,该方法包括:
接收用户设备调用图像检测服务接口的请求,所述请求中包括待检测的图像,所述图像中包含多个对象;
利用所述图像检测服务接口对应的处理资源执行如下步骤:
在所述图像中识别出所述多个对象对应的多个标识点;
根据所述多个标识点在所述图像中确定出与所述多个对象对应的多个检测框;
根据所述多个检测框与所述多个标识点之间的对应关系,以及不同检测框对应的标识点之间的距离,确定所述多个对象的关联关系。
第四方面,本发明实施例提供了一种图像检测方法,该方法包括:
获取包含表格区域的票据图像,所述表格区域中存在的多个单元格;
在所述票据图像中识别出所述多个单元格对应的多个标识点;
根据所述多个标识点在所述票据图像中确定出与所述多个单元格对应的多个检测框;
根据所述多个检测框与所述多个标识点之间的对应关系,以及不同检测框对应的标识点之间的距离,确定所述多个单元格在可编辑的表格文件中对应的行列信息;
根据所述行列信息生成可编辑的表格文件。
第五方面,本发明实施例提供一种电子设备,包括:存储器、处理器;其中,存储器上存储有可执行代码,当所述可执行代码被处理器执行时,使处理器至少可以实现如第一方面或第四方面所述的图像检测方法。
第六方面,本发明实施例提供了一种非暂时性机器可读存储介质,非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使处理器至少可以实现如第一方面或第四方面所述的图像检测方法。
在本发明实施例提供的图像检测方案中,针对一个包含多个对象的图像来说,在需要对多个对象进行结构化信息的识别时,该结构化信息可以体现为是不同对象之间是否存在某种设定的关联关系,比如位置邻接关系、信息搭配关系,等等。首先,在图像中识别出与这多个对象对应的多个标识点(比如对象的中心点、边界点等),以通过边框回归的方式,基于这多个标识点回归出与这多个对象对应的多个检测框。这多个检测框即用于粗略地表示这多个对象在图像中对应的位置。在得到上述多个离散的检测框之后,根据多个检测框与多个标识点之间的对应关系,以及不同检测框对应的标识点之间的距离,确定多个对象的关联关系。
在上述方案中,可以根据实际需求定义一种或多种标识点,通过对图像中像素点进行是否是标识点的分类,一方面,通过标识点可以回归出不同对象在图像中对应的位置区域(检测框),即不同检测框用于表征图像中包括的各个对象;另一方面,基于对不同对象的标识点之间的距离的学习,还可以结合不同对象的检测框所对应的标识点之间的距离,确定多个对象的关联关系。该方案中,标识点的分类、不同对象的标识点之间的距离的学习以及基于标识点进行检测框的回归,都体现了对图像进行了丰富的语义信息的提取,基于这些丰富的语义信息可以保证能够准确地完成对图像中对象的结构化信息的解析。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种图像检测方法的流程图;
图2为本发明实施例提供的一种图像检测模型的组成结构示意图;
图3为本发明实施例提供的另一种图像检测方法的流程图;
图4a为本发明实施例提供的一种表格图像检测原理的示意图;
图4b为本发明实施例提供的一种表格图像检测场景的示意图;
图5a为本发明实施例提供的一种表格图像中检测框拼接结果的示意图;
图5b为本发明实施例提供的一种显示检测框和检测框拼接结果的示意图;
图6为本发明实施例提供的另一种图像检测模型的组成结构示意图;
图7为本发明实施例提供的一种表格结构识别过程的示意图;
图8为本发明实施例提供的另一种图像检测方法的流程图;
图9为本发明实施例提供的一种文字检测过程的示意图;
图10为本发明实施例提供的一种图像检测方法的应用示意图;
图11为本发明实施例提供的另一种图像检测方法的流程图;
图12为本发明实施例提供的另一种图像检测方法的流程图;
图13为本发明实施例提供的另一种图像检测方法的流程图;
图14为本发明实施例提供的另一种图像检测方法的流程图;
图15为本发明实施例提供的一种图像检测装置的结构示意图;
图16为与图15所示实施例提供的图像检测装置对应的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
本发明实施例提供的图像检测方法可以由一电子设备来执行,该电子设备可以是诸如PC机、笔记本电脑、智能手机等终端设备,也可以是服务器。该服务器可以是包含一独立主机的物理服务器,或者也可以为虚拟服务器,或者也可以为云端服务器或服务器集群。
本发明实施例提供的图像检测方法的主要目的是:对待检测的图像进行目标检测,即检测出图像中包含的多个对象的位置以及多个对象之间存在的关系。其中,可以以包围某对象的检测框的位置来表示该对象在待检测图像中的位置。
不同的应用场景中,待检测的图像将会不同,需要对图像进行检测的多个对象也会不同。
比如在表格检测场景中,待检测的图像是指包含表格区域的图像,多个对象是指表格区域中包含的多个单元格,此时,图像检测的目的是:检测出这多个单元格在图像中各自对应的位置,以及确定这多个单元格之间的位置关系。
再比如,在一些文字检测场景中,待检测的图像是指包含文字内容的图像,多个对象是指图像中包含的多个文字,此时,图像检测的目的是:检测出这多个文字在图像中各自对应的位置,以及确定这多个文字之间的文字相邻关系。
再比如,在一些信息提取场景中,待检测的图像可以是包含键值(key-value)对信息的图像,多个对象是指该图像中包含的所有key和所有value,此时,图像检测的目的是:检测出这些key和value在图像中各自对应的位置,以及确定这些多个key和value之间的所属关系(或者说对应关系、匹配关系)。
实际应用中,待检测的图像可能是用户自行拍摄得到的图像,图像质量很难保证,比如在现实场景中,用户拍得的图像中的表格可能呈现出旋转、反光、覆盖、褶皱等视觉特点,这对图像检测任务来说,便提出了更大的挑战。而采用本发明实施例提供的图像检测方案,即使待检测图像存在一些视觉上的缺陷,也可以完成图像中多个对象的位置和彼此之间关系的准确检测。
下面结合以下实施例对本文提供的图像检测方法的执行过程进行示例性说明。
图1为本发明实施例提供的一种图像检测方法的流程图,如图1所示,该方法包括如下步骤:
101、获取待检测的图像,该图像中包含多个对象。
102、在图像中识别出多个对象对应的多个标识点。
103、根据多个标识点在所述图像中确定出与多个对象对应的多个检测框。
104、根据多个检测框与多个标识点之间的对应关系,以及不同检测框对应的标识点之间的距离,确定多个对象的关联关系。
如上文所述,在不同应用场景中需要完成的图像检测任务各不相同,实际应用中,可以预先针对每种应用场景对应的待检测图像,定义需要检测的目标对象(即上述多个对象)是什么。比如,在上述表格检测场景中,针对包含表格区域的图像,需要检测的目标对象即为表格区域中包含的各个单元格。在文字检测场景中,针对包含文字的图像,需要检测的目标对象即为图像中包含的各个文字。
首先,针对一个包含多个对象的待检测的图像来说,需要检测出这多个对象在图像中分别对应的位置。
具体地,可以采用预先训练得到的一个图像检测模型来完成多个对象的位置定位处理。结合图2示例性说明该图像检测模型的组成结构。
如图2中所示,该图像检测模型可以包括一个主干网络模型和多个分支网络模型。
其中,主干网络模型用于实现对输入的待检测图像进行特征提取,得到某种尺度的特征图。实际应用中,可选地,主干网络模型可以实现为:采用由多个卷积层构成的卷积网络模型,残差网络模型等神经网络模型。如图2中所示,主干网络模型输出的特征图会分别输入到多个分支网络模型。
多个分支网络模型从各自实现的功能层面来说,可以分别称为:标识点分类模型、检测框回归模型、拼接关系回归模型。
其中,标识点分类模型,用于基于输入的特征图进行特征点的分类识别。特征图中包含若干特征点,假设某特征图的空间分辨率表示为h*w,即意味着这个特征图中包括h*w个特征点。而这些特征点与待检测图像中的像素点之间存在位置映射关系,因此,当确定某个特征点对应的类别时,亦即确定了待检测图像中相应像素点对应的类别。
实际应用中,根据实际需求,预先设置一种或几种用于定义标识点的类别标签。比如,可以定义对象的中心点、顶点是标识点,那么可以预先设定三种类别标签:中心点、顶点、其他(或者说背景)。对从主干网络模型接收到的特征图进行特征点的分类识别,得到各特征点对应的类别标签,如果最终确定某特征点对应的类别标签为中心点或顶点,那么在待检测图像中确定与该特征点对应的像素位置,该像素位置即为一个标识点,具体是对应于某对象的中心点或顶点。通过标识点分类模型可以从待检测图像中识别出多个标识点,这多个标识点对应于图像中包含的多个对象。
实际应用中,假设预先定义两种类别的标识点:中心点和顶点。标识点分类模型中可以包括多个卷积层,输入的特征图通过多个卷积层的运算后可以得到一个两通道的特征图,用于检测这两类标识点:如果某个特征点是中心点,则在该特征图的第一个通道对应位置输出1;如果是顶点,则在特征图的第二个通道对应位置输出1或0;如果是背景,则在特征图的所有通道对应位置都输出0。由此可见,两个通道分别对应于两个类别标签。
需要说明的是,第一,当定义的标识点的种类有不止一种时,最终识别出的标识点的数量会大于对象的数量;第二,分类结果仅仅是识别出了待检测图像中包括的众多标识点的位置,并不能得知标识点与对象之间的对应关系,即不知道哪个标识点是属于哪个对象的。
其中,检测框回归模型,用于根据标识点分类模型输出的多个标识点,回归出与待检测图像中的多个对象分别对应的检测框。该检测框回归模型被训练为具有学习对象的中心点到其顶点的距离的能力,基于此,针对标识点分类模型输出的一个中心点来说,可以基于该检测框回归模型预测出该中心点到其对应对象的顶点的距离,根据该距离便可以得知预测出的该对象的顶点坐标,由该对象的顶点坐标即可构成该对象对应的检测框。对象的顶点的个数与对象呈现出的形状相关,比如一个对象是矩形,那么顶点坐标的数量为四,如果一个对象是三角形,那么顶点坐标的数量为三。
具体地,该检测框回归模型中可以包括多个卷积层,由主干网络模型输入的特征图通过多个卷积层的运算后可以得到一个多通道的特征图,其中,通道数量是一个对象具有的顶点数量的两倍,其中,之所以两倍是因为一个顶点坐标由横坐标和纵坐标两个坐标值构成。该检测框回归模型输出的上述多通道的特征图中会记录有每个特征点对应的多个坐标值,其中,针对某个特征点来说,在其中一个通道的特征图中会记录有与该通道对应的一个坐标值。基于标识点分类模型输出的中心点坐标,可以在这个多通道特征图中确定与中心点坐标对应的特征点,进而依次查询多通道特征图,得到该特征点对应的多个坐标值,这多个坐标值即对应于该中心点到其对应的对象的多个顶点的距离,基于这多个距离便可以知道相应对象的各顶点坐标,得到对应的检测框。
其中,拼接关系回归模型,用于回归出一个对象的某标识点与另一个对象的某标识点之间的距离,以便基于该距离发现不同对象对应的检测框之间是否存在拼接关系,其中,上述两个对象是指存在某设定的关联关系的对象,比如相邻的两个对象,构成键值对的两个对象。该拼接关系回归模型被训练为具有学习某对象的标识点到与其具有设定关系的其他对象的标识点之间距离的能力,基于此,针对标识点分类模型输出的某个标识点来说,可以基于该拼接关系回归模型预测出该标识点到目标标识点的距离,其中,目标标识点对应的对象与该标识点对应的对象之间具有设定的关联关系,从而,根据该距离便可以得知具有拼接关系的检测框。该模型结构与检测框回归模型的结构相似,工作原理也相似,在此不赘述。基于上述图像检测模型的组成,在利用该图像检测模型对待检测的图像进行处理时,首先,基于标识点分类模型在图像中识别出多个对象对应的多个标识点,这多个标识点可以包括多种不同类别的标识点,比如包括对象中心点、对象顶点。之后,基于多个标识点的识别结果,利用检测框回归模型在图像中确定出与多个对象对应的多个检测框,这多个检测框与多个对象一一对应,用以表示多个对象在图像中各自对应的位置区域。之后,基于多个标识点的识别结果,利用拼接关系回归模型最终确定多个检测框的拼接关系,即确定多个检测框中哪些检测框与哪些检测框是有拼接关系的。如果确定某几个检测框具有拼接关系,则表明这几个检测框对应的对象之间存在某种设定的关联关系,这样便实现了对图像中各对象位置的定位以及不同对象之间相互关系的识别,相当于对图像中包含的信息进行了结构化的解析,为后续对图像的处理提供了必要的前提。
其中,可选地,利用拼接关系回归模型最终确定多个检测框的拼接关系的过程可以实现为:根据多个检测框与多个标识点之间的对应关系,以及不同检测框对应的标识点之间的距离,确定多个检测框的拼接关系。具体来说,假设基于某个标识点i回归出一个检测框R,将该标识点i输入到拼接关系回归模型后,基于拼接关系回归模型所具备的学习不同对象的标识点之间的距离的能力,该拼接关系回归模型可以输出与该标识点i对应的一组距离值(用于表明与该标识点i对应的对象之间存在关联关系的另一对象的标识点,相距标识点i的距离),在标识点i的位置的基础上,基于这组距离值便可以计算得到目标位置,在分类得到的多个标识点中确定与该目标位置匹配的标识点j,即标识点j的位置与该目标位置最为接近。假设基于标识点j回归出检测框P,那么可以认为检测框R和检测框P具有拼接关系。
上述可选方案可以适用于仅定义了一类标识点的情形。
在上述方案中,标识点的分类、不同对象的标识点之间的距离的学习以及基于标识点进行检测框的回归,都体现了对图像进行了丰富的语义信息的提取,基于这些丰富的语义信息可以保证能够准确地完成对图像中对象的结构化信息的解析,避免诸如图像拍摄质量不佳、遮挡、褶皱等的干扰。
如前文所述,本发明实施例提供的图像检测方案可以适用于不同的应用场景中,下面以表格检测场景和文字检测场景为例,对在这两个应用场景中图像检测方案的实施过程进行说明。
图3为本发明实施例提供的另一种图像检测方法的流程图,如图3所示,该方法包括如下步骤:
301、获取待检测的图像,该图像为包含表格区域的图像,表格区域中存在多个单元格。
302、识别图像中包含的多个单元格中心点和多个单元格顶点。
303、对于其中的任一单元格中心点,确定与所述任一单元格中心点属于同一单元格的单元格顶点,其中,由与所述任一单元格中心点属于同一单元格的单元格顶点构成与所述任一单元格中心点对应的检测框。
304、对于其中的任一单元格顶点,确定共享所述任一单元格顶点的至少两个单元格中心点,确定与所述至少两个单元格中心点对应的至少两个检测框,确定所述至少两个检测框具有拼接关系。
305、将所述至少两个检测框中与所述任一单元格顶点对应的顶点位置更新为所述任一单元格顶点的坐标。
本发明实施例提供的对包含表格区域的图像(为描述方便,称为表格图像)的图像检测方案,可以借助图2中提供的图像检测模型来实现。下面结合图4a和图4b示例性说明基于该图像检测模型的表格图像检测过程。在图4a中,h和w表示分辨率,h/4和w/4是假设对表格图像进行了2次下采样。
如图4a所示,将表格图像输入到主干网络模型后,通过主干网络模型可以实现对表格图像的特征提取,得到特征图F1。
如图4a所示,将特征图F1输入标识点分类模型,标识点分类模型会输出图中示意的特征图F2,特征图F2是一个2通道的特征图,2通道分别对应于两类标识点:单元格中心点和单元格顶点。简单来说,特征图F2中会描述有每个特征点对应的类别判定结果:或者为单元格中心点,或者为单元格顶点,或者为背景。这样,基于标识点分类模型便可以识别出表格图像中包含的多个单元格顶点和多个单元格中心点。
如图4a所示,在表格检测场景中,检测框回归模型用于回归出单元格中心点到其对应的单元格(即与其属于同一单元格)的4个单元格顶点的距离,由于每个顶点的坐标包括横坐标和纵坐标两个值,因此,会输出8个坐标值。所以,将特征图F1输入检测框回归模型,检测框回归模型会输出图中示意的特征图F3,特征图F3是一个8通道的特征图,用于描述每个特征点对应的8个坐标值。基于标识点分类模型输出的每个单元格中心点的坐标,可以在特征图F3中定位每个单元格中心点对应的特征点,进而获取该特征点对应的8个坐标值,即为相应单元格中心点到其对应的单元格的4个单元格顶点的距离,基于该距离便可以得知这4个单元格顶点的坐标。针对任一单元格中心点来说,由与该单元格中心点属于同一单元格的单元格顶点构成与该任一单元格中心点对应的检测框。这样,针对每个单元格中心点,便回归出与之对应的检测框,检测框的位置即表明相应单元格在表格图像中对应的位置。
如图4a所示,在表格检测场景中,拼接关系回归模型用于回归出单元格顶点到共享该单元格顶点的其他单元格的中心点的距离。最多可以四个单元格共享一个单元格顶点,因此一个单元格顶点最多回归出到4个单元格中心点的距离,每个单元格中心点坐标包括横坐标和纵坐标两个值,因此输出8个值。所以,将特征图F1输入拼接关系回归模型,拼接关系回归模型会输出图中示意的特征图F4,特征图F4是一个8通道的特征图,用于描述每个特征点对应的8个坐标值。基于标识点分类模型输出的每个单元格顶点的坐标,可以在特征图F4中定位每个单元格顶点对应的特征点,进而获取该特征点对应的8个坐标值,针对某个单元格顶点来说,这8个坐标值即为其与共享该单元格顶点的其他单元格的单元格中心点之间的距离,基于该距离便可以得知共享该单元格顶点的4个单元格中心点的坐标。
可以理解的是,某单元格顶点最多被4个单元格共享,所以,实际上,针对某单元格顶点来说,其对应的8个坐标值中可能有2个或4个或6坐标值为0,假设某单元格顶点对应的8个坐标值中有4个坐标值为0,表明该单元格顶点仅被两个单元格共享。
假设针对某个单元格顶点来说,最终确定出共享该单元格顶点的至少两个单元格中心点,那么,可以在基于检测框回归模型得到的与多个单元格中心点对应的检测框中,确定出与该至少两个单元格中心点对应的至少两个检测框,从而确定该至少两个检测框具有拼接关系。
之后,可以将具有拼接关系的检测框拼接在一起,这样最终便会由多个检测框拼接成一个完整的表格,即得到了表格图像中表格的组成结构。
为便于理解,结合图4b来示例性说明上述表格图像检测过程中得到的各种检测结果。
在图4b中,以较细的线条示意出一部分表格区域,在该表格区域中包括四个单元格。以黑色圆点表示通过标识点分类模型得到的单元格中心点,以黑色三角形表示通过标识点分类模型得到的单元格顶点。
针对图中示意的四个单元格中心点,基于检测框回归模型会得到对应的四个检测框,分别表示为Q1、Q2、Q3、Q4,对应于图中四个加粗线条绘制的矩形框。
针对图中示意的一个单元格顶点,基于拼接关系回归模型会得到的一个辅助框,表示为Q5,该辅助框Q5的顶点用以表示共享该单元格顶点的各单元格的中心点的位置。
进而,针对辅助框Q5的每个顶点,在通过标识点分类模型得到的多个单元格中心点中,分别确定出匹配的单元格中心点,其中,匹配是指距离最为接近的意思。确定结果即为图中示意的四个单元格中心点。最终便得到了这四个单元格中心点对应的四个检测框具有拼接关系的判定结果,进而对这四个检测框进行拼接处理。
如图4b中所示,在基于上述单元格顶点对这四个检测框进行拼接处理的过程中,会将四个检测框与该单元格顶点对应的顶点的位置更新为该单元格顶点,相当于将这四个检测框的对应顶点拉到该单元格顶点处,其中,该对应顶点是指检测框上与该单元格顶点距离最为接近的顶点。
通过基于检测框之间的拼接关系的判定结果将具有拼接关系的检测框进行拼接,可以从视觉上直观地表示出检测框对应的对象(本实施例中是指单元格)之间的位置关系,亦即表示出图像中包含的不同对象之间是否存在某种关联关系,因为会将具有关联关系的对象所对应的检测框拼接在一起。
在图4b中仅示意基于一个单元格顶点的检测框拼接效果。实际上,依次遍历标识点分类模型输出的每个单元格顶点,针对每个单元格顶点都进行上述检测框拼接关系的判断、拼接处理,最终会将检测框回归模型输出的多个离散的(独立的)检测框拼接为一个完整的表格。可以理解的是,这里所说的“完整的表格”,是指完成了对图像中包含的一个完整表格的整体结构的理解,即知道了图像中包括的一个表格中包含了多少个单元格,不同单元格之间的位置关系是如何的。这个完整表格的结构的理解,是将图像格式的表格转换为可编辑的表格文件,即生成excel表格的前提条件。
为便于理解,结合图5a示例性说明检测框拼接结果。在图5a中,原本离散的四个检测框Q1、Q2、Q3、Q4最终会被拼接为图中示意的效果:相邻单元格对应的检测框会呈现共边关系。
在一可选实施例中,可以根据多个检测框的拼接关系,在表格图像上以第一样式显示出多个检测框的拼接结果,以供用户编辑。也可以在图像上以第二样式显示出基于检测框回归模型得到的多个检测框,以供用户编辑。
其中,显示出基于检测框回归模型得到的多个检测框,可以让用户观看到每个检测框的位置,当用户发现某个检测框的位置不准时,可以手动进行调整(如移动或拖拽线条),以便基于用户的调整结果进行检测框回归模型的优化。
类似地,用户也可以基于对多个检测框的拼接结果的观察,发现拼接结果不准的情况,进行手动调整,以便基于用户的调整结果进行拼接关系回归模型的优化。
第一样式和第二样式可以表现为是不同的颜色、不同的粗细的线条、不同形状的线条,等等。如图5b中所示,其中以较细的线条示意的是初始的检测框识别结果,以较粗的线条示意的是检测框的拼接结果,图中并未示意出采集的表格图像,实际上,在表格图像显示出上述检测框以及检测框拼接结果,可以让用户直观地看出检测框和检测框拼接结果的准确性,便于做出相应调整。
在一可选实施例中,在得到多个检测框后,还可以根据每个检测框对应的置信度对不同检测框进行差异化的显示。其中,每个检测框对应的置信度由检测框回归模型直接输出,用于表示一个检测框的检测结果的准确性。其中,按照置信度的不同对不同检测框进行差异化显示,可以是将置信度低于设定阈值的检测框显示出来,以便用户聚焦于置信度较低的检测框,做出及时的修正操作;或者,也可以是某一种样式显示置信度高于设定阈值的检测框,以另一种样式显示置信度低于设定阈值的检测框,该样式可以是不同粗细的线条、不同颜色的线条,等等。
以上实施例中以表格检测场景为例,对基于图2中示意的图像检测模型执行的图像检测过程进行了举例说明。实际上,该图像检测方案还可以基于图6中示意的图像检测模型来完成。
图6为本发明实施例提供的另一种图像检测模型的组成结构示意图,如图6中所示,本实施例提供的图像检测模型与图2中示意的图像检测模型的区别在于:增加了一个分支网络模型:偏移量回归模型。偏移量回归模型,用于确定标识点分类模型输出的各个标识点的坐标偏移量。偏移量回归模型对从主干网络模型接收到的特征图F1进行几层卷积运算之后得到一个2通道的特征图F5。如果特征图F5中的某个特征点是标识点,则在这个2通道的特征图F5上会分别输出该标识点由于下采样带来的横纵坐标的偏移量。
实际应用中,主干网络模型在对输入的待检测图像进行特征提取的过程中,会对待检测图像进行多次下采样操作,下采样操作会导致需要对标识点坐标进行取整计算,从而导致标识点坐标计算结果的准确度下降,为了弥补下采样导致的准确度丢失,需要将下采样操作引起的误差补偿回来,上述偏移量即为下采样操作引起的误差值。
之所以对检测模型输出的对象中心点坐标进行偏移量的补偿,是因为检测模型在对待检测的图像进行逐层的特征提取的过程中,会使用到多次下采样操作,而下采样操作会导致需要对对象中心点坐标进行取整计算,从而导致对象中心点坐标计算结果的准确度下降,为了弥补下采样导致的准确度丢失,需要将下采样操作引起的误差补偿回来,该上述偏移量即为下采样操作引起的误差。
偏移量回归模型的训练过程可以描述为:对于一个包括某对象的训练样本图像来说,在已知该对象的标识点(比如中心点、顶点)坐标的基础上,可以根据标识点分类模型对训练样本图像的下采样倍数,计算出该对象的标识点的偏移量。计算公式如下:
x1=x0/2n-int(x0/2n),y1=y0/2n-int(y0/2n);
其中,(x0,y0)分别是该对象的标识点的横坐标和纵坐标,(x1,y1)分别是所述横坐标和所述纵坐标对应的偏移量,int()为向下取整运算符,n表示标识点分类模型对训练样本图像进行了2n倍的下采样处理。
在上述偏移量作为监督信息的情况下,完成对偏移量回归模型的训练。
仍以表格检测场景为例,在基于图6所示的图像检测模型对表格图像进行检测的过程中,通过标识点分类模型得到多个单元格中心点和多个单元格顶点的坐标,通过偏移量回归模型可以得到上述多个单元格中心点和多个单元格顶点的坐标偏移量。针对其中的某个单元格中心点来说,在通过检测框回归模型得到该单元格中心点与其对应的单元格的四个单元格顶点之间的距离后,可以以该单元格中心点的坐标加上该单元格中心点的坐标偏移量来更新该单元格中心点的坐标,之后根据更新后的该单元格中心点的坐标和上述距离,得到对应的四个单元格顶点的坐标。同理,针对某个单元格顶点来说,在通过拼接关系回归模型得到共享该单元格顶点的最多四个单元格中心点与该单元格顶点的距离后,以该单元格顶点的坐标加上该单元格顶点的坐标偏移量来更新该单元格顶点的坐标,之后根据更新后的该单元格顶点的坐标和上述距离,得到对应的四个单元格中心点的坐标。
仍以表格检测场景为例,在通过上文介绍的拼接过程完成多个单元格对应的多个检测框的拼接处理后,还可以根据多个检测框的拼接结果进行表格结构的深度解析。其中,表格结构的深度解析是指确定表格中每个单元格的行列号,以便将图像形式的表格区域转换成可编辑的表格文件,如excel表格。
概括来说就是:根据多个检测框的拼接结果确定多个单元格在可编辑的表格文件中对应的位置信息(即单元格的行列号),以根据该位置信息生成可编辑的表格文件。即根据多个检测框的拼接关系对多个检测框进行拼接处理,以得到拼接后的多个检测框各自对应的顶点位置;根据拼接后的多个检测框各自对应的顶点位置,确定多个单元格在可编辑的表格文件中对应的行列信息;根据所述行列信息生成可编辑的表格文件。
可以理解的是,上述多个检测框的拼接结果相当于只是在图像中标记出了一个完整的表格区域以及该表格区域内每个单元格的位置,基于该标记结果将这个表格区域转换为对应的可编辑的表格文件,可以便于用户对每个单元格内包含的数据信息的存储、统计、编辑等处理。
结合图7示例性简要说明表格结构识别的过程。如图7中所示,假设经过检测框的拼接过程得到的图中示意的一个完整的表格区域,该表格区域由6个检测框拼接得到,这样会得到拼接后的多个检测框各自对应的顶点位置。之后,根据拼接后的多个检测框各自对应的顶点位置,可以从中识别出所有的行线和列线,并对所有的行线依次进行编号:行线1、行线2、行线3、行线4;以及对所有的列线依次进行编号:列线1、列线2、列线3。根据行线和列线的编号结果可知,由这些行线和列线会形成一个三行两列的表格。进而,根据每个检测框对应的行线和列线的编号,可以确定检测框对应的行列号,在图7中,以Aij表示行列号,从而,根据每个检测框对应的行列号确定结果,便可以生成对应的excel表格。
图8为本发明实施例提供的另一种图像检测方法的流程图,如图8所示,该方法包括如下步骤:
801、获取待检测的图像,该图像中包括多个文字。
802、识别图像中包含的多个文字中心点。
803、根据多个文字中心点在图像中确定出与多个文字对应的多个文本框。
804、根据多个文本框与多个文字中心点之间的对应关系,以及不同文本框对应的文字中心点之间的距离,确定多个文字的相邻关系。
805、在图像中截取出目标图像区域,对目标图像区域进行文字识别处理,以得到对应的文字内容,其中,目标图像区域由拼接在一起的所述至少两个文本框构成。
本实施例中是以文字检测场景为例介绍本发明实施例提供的图像检测方法在文字检测场景中的一种可选的实施过程。此时,待检测的图像是一个包含多个文字的图像,上文中所说的标识点可以是文字中心点。
在通过标识点分类模型得到图像中包含的多个文字中心点后,可以根据检测框回归模型得到每个文字中心点到其对应的文本框的顶点的距离,从而针对每个文字中心点都会得到与之对应的文本框。
为便于理解,结合图9来示例性说明,在图9中,假设一个图像中包括“奶粉”这两个字,通过标识点分类模型会得到文字中心点k和文字中心点p,并假设这两个文字中心点对应的文本框分别表示为W1、W2。
另外,针对标识点分类模型输出的任一文字中心点k,还可以通过拼接关系回归模型确定文字中心点k与其对应的相邻文字的中心点的距离,基于该距离可以确定与文字中心点k对应的相邻文字的中心点坐标,假设从标识点分类模型输出的多个文字中心点中确定与该中心点坐标对应的文字中心点为文字中心点p,这样便可以确定文字中心点k对应的文本框W1与文字中心点p对应的文本框W2之间具有拼接关系,该拼接关系可以反映出这两个文本框对应的文字之间是位置相邻关系,可能是一个词语或一句话中的两个字。将具有拼接关系的这两个文本框拼接在一起,得到一个目标图像区域。之后,可以在图像中截取出该目标图像区域,将该目标图像区域输入到文字识别模型中,对目标图像区域进行文字识别处理,得到对应的文字内容:奶粉。其中,此时,框的拼接可以实现为:将相邻两个文本框的中间两个相邻的边界线合并为一条,或者,生成一个包含相邻的文本框的外接框,作为拼接结果,如图9中所示。
如前文所述,本发明提供的图像检测方法可以在云端来执行,在云端可以部署有若干计算节点,每个计算节点中都具有计算、存储等处理资源。在云端,可以组织由多个计算节点来提供某种服务,当然,一个计算节点也可以提供一种或多种服务。云端提供该服务的方式可以是对外提供服务接口,用户调用该服务接口以使用相应的服务。服务接口包括软件开发工具包(Software Development Kit,简称SDK)、应用程序接口(ApplicationProgramming Interface,简称API)等形式。
针对本发明实施例提供的方案,云端可以提供有图像检测服务的服务接口,用户通过用户设备调用该图像检测服务接口,以向云端触发调用该图像检测服务接口的请求。云端确定响应该请求的计算节点,利用该计算节点中的处理资源执行如下步骤:
接收用户设备调用图像检测服务接口的请求,所述请求中包括待检测的图像,所述图像中包含多个对象;
利用所述图像检测服务接口对应的处理资源执行如下步骤:
在所述图像中识别出所述多个对象对应的多个标识点;
根据所述多个标识点在所述图像中确定出与所述多个对象对应的多个检测框;
根据所述多个检测框与所述多个标识点之间的对应关系,以及不同检测框对应的标识点之间的距离,确定所述多个对象的关联关系。
图像检测服务接口利用处理资源执行图像检测处理的详细过程可以参考前述其他实施例中的相关说明,在此不赘述。
为便于理解,结合图10来示例性说明。在图10中,用户想要对待检测图像进行检测处理时,在用户设备E1中调用图像检测服务接口,以向云端计算节点E2发送调用请求,该调用请求中包括待检测图像,还可以包括需要检测的对象所对应的种类信息。其中,图10中示意的图像检测服务接口的调用方式为:用户使用特定的APP,在该APP的某界面上设有“上传”按钮,用户在该界面上加载待检测图像,点击上传按钮后,触发上述调用请求。也就是说,该APP是云端提供图像检测服务的客户端程序,该程序中的上述上传按钮为调用该服务的应用程序接口。加载到原始的待检测图像后,用户还可以通过“图像编辑”菜单下提供的多种图像编辑工具对该待检测图像进行编辑操作,比如缩放、切割等预处理,增强图像质量。
本实施例中假设云端计算节点E2在接收到调用请求后,基于上述种类信息得知需要检测出待检测图像中包含的哪种类型的对象,进而执行检测过程,检测过程参考前述实施例中的介绍,在此不赘述。通过执行上文中介绍的图像检测方案,云端计算节点E2可以得知待检测图像中包含的多个对象各自对应的位置(即多个检测框的位置)以及彼此之间的关系(以检测框之间的拼接关系来表现),可选地,云端计算节点E2可以将这些检测结果反馈给用户设备E1,以供用户设备E1基于该检测结果进行后续处理,比如上文中介绍的检测框拼接、表格结构识别、文字识别等。或者,可选地,云端计算节点E2在得到上述检测结果后,还可以进一步基于该检测结果对待检测图像进行后续处理,比如上文中介绍的检测框拼接、表格结构识别、文字识别等,将最终的处理结果反馈给用户设备E1。
为便于理解,在图10中假设这样的应用场景:用户上传的待检测图像是对一个出租车票拍摄得到的图像,如图10中所示,该出租车票上包括多个键值对,表现为key:value的格式。基于上文介绍的文字检测场景的图像检测过程可知,这里的每个key和value都可以视为一个词语(一个词语相当于上文中的一个字的概念,或者也可以表述为一个文字块),在得到所有key和所有value对应的文本框后,进一步确定key对应的文本框与value对应的文本框之间的拼接关系,该拼接关系反映key与value的所属关系,即哪个key与哪个value构成一个键值对。基于对每个文本框内包含的文字内容的识别结果,以及key与value的键值对关系的确定结果,便可以文档的形式记录下来出租车发票图像中包括的各对键值信息,得到信息的结构化输出结果。在实际应用中,比如财务人员便可以基于报销需求从中提取出相应信息,完成报销处理。
如图10中所示,以上述场景为例,可以在用户设备E1上同时显示出租车发票图像以及计算节点E2反馈的信息提取结果:由至少一组键值对内容构成的信息结构体。用户对比观看可以发现是否提取结果有误,加以修正。
实际应用中,在诸多应用领域中都会涉及到图像检测的需求,都可以使用本发明实施例的技术方案,下面结合几个实施例进行示例性说明。
图11为本发明实施例提供的另一种图像检测方法的流程图,如图11所示,该方法可以包括如下步骤:
1101、获取包含表格区域的票据图像,表格区域中存在的多个单元格。
1102、在票据图像中识别出多个单元格对应的多个标识点。
1103、根据多个标识点在票据图像中确定出与多个单元格对应的多个检测框。
1104、根据多个检测框与多个标识点之间的对应关系,以及不同检测框对应的标识点之间的距离,确定多个单元格在可编辑的表格文件中对应的行列信息。
1105、根据所述行列信息生成可编辑的表格文件。
本实施例提供的方案可以适用于票据识别场景中,其中,在该应用场景中,假设票据是包含表格的票据,比如普通发票、增值税发票、各种报表、对账单,等等。
在该应用场景中,对票据图像进行图像检测的最终目的是:将图像格式的表格转换为可编辑的表格文件(如excel表格),将图像中表格内包含的数据内容对应地填充到该可编辑的表格文件内,以便于表格数据的存储、编辑、统计分析等处理。
基于前文对表格检测场景的相关实施例的介绍可知,本实施例中需要识别的多个标识点可以是单元格顶点和单元格中心点这两类标识点。本实施例提供的上述方案的实施过程可以参考前述其他相关实施例中的描述,在此不赘述。
另外,可选地,为了让用户能够检查转换后的表格文件的准确性,可以在同一界面中显示出票据图像以及最终得到的表格文件,用户可以对比检查转换结果的准确性,对有错的地方加以修正。
另外,比如表格中包含的单元格数量很多,在同一界面中显示票据图像和表格文件后,用户可能很难发现其中有错误的单元格,为便于用户的检查操作,可选地,可以采用如下的方案:
根据多个检测框对应的置信度,从多个检测框中确定置信度符合设定要求的目标检测框;
在同一界面中显示票据图像和表格文件,其中,在表格文件中以设定样式显示与目标检测框对应的文字内容。
上述多个检测框即为从表格区域中检测出的对应于多个单元格的检测框,通过上文介绍的检测框回归模型可以完成多个检测框的检测。实际应用中,该检测框回归模型在针对某个单元格中心点输出对应的8个坐标值(即对应于单元格中心点到其对应的单元格的四个顶点的距离)时,还会输出一个置信度,该置信度表示该单元格中心点到其对应的单元格的四个顶点的距离是这8个坐标值的概率,该置信度便可以作为该单元格中心点对应的检测框的置信度。可以设定一个阈值,如果某个检测框对应的置信度低于该阈值,表示该检测框的识别结果可能有误,该检测框作为目标检测框,在生成的表格文件中突出显示该目标检测框对应的文字内容,让用户可以着重关注可能有误的单元格。
图12为本发明实施例提供的另一种图像检测方法的流程图,如图12所示,该方法可以包括如下步骤:
1201、获取商品图像,该商品图像中包括多个文字。
1202、识别商品图像中包含的多个文字中心点。
1203、根据多个文字中心点在商品图像中确定出与多个文字对应的多个文本框。
1204、根据多个文本框与多个文字中心点之间的对应关系,以及不同文本框对应的文字中心点之间的距离,确定多个文字的相邻关系。
1205、在商品图像中截取出目标图像区域,对目标图像区域进行文字识别处理,以得到对应的文字内容,其中,目标图像区域由拼接在一起的所述至少两个文本框构成。
1206、确定所述文字内容中是否包含敏感词。
本实施例提供的方案可以适用于电商场景中,在电商场景中,商家在上传的商品图像中会包含很多文字信息,比如商品名称等标识信息以及商品介绍信息,等等。可以对商品图像进行文字识别处理,以得到其中包含的文字内容。其中,文字识别的前提是基于在商品图像中确定包含文字的位置。其中,文字位置由文本框来表示。
在本实施例提供的方案中,通过检测出每个文字对应的文本框,进而根据文本框之间拼接关系的判定结果,将邻接的文本框拼接在一起,以在商品图像中定位出拼接在一起的文本框所占据的目标图像区域,以目标图像区域作为一次文字识别处理过程的输入,得到其中包含的文字内容。其中,几个文本框若为拼接关系,表示这几个文本框对应的文字很可能构成一个词语,或者是一句话,作为一个整体进行文字识别处理,也有助于提高文字识别结果的准确性。
上述进行文字检测的详细过程可以参考前述其他实施例中的相关说明,在此不赘述。
之后,可以对提取出的文字内容,根据不同的应用目的进行相应的处理。
比如,电商平台需要审核这些文字内容是否符合要求,比如是否包含一些敏感词语。实际应用中,可以预先构建出一个敏感词语库,如果从商品图像中识别出包含在敏感词语库中的词语,则认为该商品图像不适宜发布,给出商家对应的提示信息。
再比如,可以根据文字内容中包含的关键词,确定商品图像对应商品的类目。识别出的文字内容中会包含商品介绍相关信息,也可能会包含商品名称等标识信息,若能从这些信息中提取出预设的用于类目划分的关键词,比如,鞋、帽子、裙子,等等,便可以基于提取出的关键词实现商品的类目划分。
图13为本发明实施例提供的另一种图像检测方法的流程图,如图13所示,该方法可以包括如下步骤:
1301、获取教学图像,该教学图像中包括多个文字。
1302、识别教学图像中包含的多个文字中心点。
1303、根据多个文字中心点在教学图像中确定出与多个文字对应的多个文本框。
1304、根据多个文本框与多个文字中心点之间的对应关系,以及不同文本框对应的文字中心点之间的距离,确定多个文字的相邻关系。
1305、在教学图像中截取出目标图像区域,对目标图像区域进行文字识别处理,以得到对应的文字内容,其中,目标图像区域由拼接在一起的所述至少两个文本框构成。
1306、根据所述文字内容进行教学图像搜索处理。
本实施例提供的方案可以适用于教育场景中,在教育场景中,老师在授课过程中可能会使用板书、PPT等演示工具,同学可以对演示工具拍摄得到教学图像,当同学拍得大量的教学图像时,面临着后续需要对大量教学图像进行分类整理和按需检索的需求。
当某同学需要从采集的大量教学图像中搜索出与某个知识点相关的教学图像时,可以采用本发明实施例提供的图像检测方案对采集的各教学图像进行文字检测处理,以先检测出每个教学图像中包含的多个文本框,进而根据文本框之间的拼接关系判定结果,将具有拼接关系的文本框拼接在一起构成一个目标图像区域,进而对目标图像区域进行文字识别处理,得到其中包含的文字内容。之后,以所需的知识点名称为搜索关键词,以每个教学图像中识别出的文字内容作为搜索库,以搜索出包含该知识点的教学图像。
在教育场景中,除了存在上述对教学图像的图像检测需求外,还可以对学生的作业、试卷等教学素材也进行图像检测处理。比如家长想要收集众多试题,以便归纳总结,在需要给孩子出试题的时候作为参考,此时,家长可以对孩子的作业、试卷等素材进行拍摄得到对应的图像,或者也可以在网络上收集作业、试卷图像。之后,可以根据上文所介绍的检测方案在图像中识别出文字内容,即试题内容。
图14为本发明实施例提供的另一种图像检测方法的流程图,如图14所示,该方法可以包括如下步骤:
1401、获取医疗图像,该医疗图像中包括多个文字。
1402、识别医疗图像中包含的多个文字中心点。
1403、根据多个文字中心点在医疗图像中确定出与多个文字对应的多个文本框。
1404、根据多个文本框与多个文字中心点之间的对应关系,以及不同文本框对应的文字中心点之间的距离,确定多个文字的相邻关系。
1405、在医疗图像中截取出目标图像区域,对目标图像区域进行文字识别处理,以得到对应的文字内容,其中,目标图像区域由拼接在一起的所述至少两个文本框构成。
1406、根据所述文字内容进行医疗图像搜索处理。
本实施例提供的方案可以适用于医疗场景中,在医疗场景中,可以产生大量病历图像、医疗影像(如各种造影图像),可以对这些图像进行图像检测处理。
比如,当某机构需要进行病历的统计、分析时,可以采用本发明实施例提供的图像检测方案对采集的各医疗图像进行文本检测处理,以得到其中包含的文字内容。之后,根据各医疗图像对应的文字内容,搜索与设定的关键词匹配的医疗图像,该设定的关键词比如可以是某种病症、时间段,等等。
对医疗图像的文本检测过程可以参考前述其他实施例中介绍的检测过程来实施,在此不赘述。
以上对在一些文字检测场景中应用本发明实施例提供的图像检测方案进行了示例性说明。实际上,在一些表格检测场景中也可以使用本发明实施例提供的图像检测方案。比如,在电商场景中,可以对包含表格的商品图像进行表格结构识别;在医疗场景中,可以对包含表格的医疗图像进行表格结构识别;在教育场景中,可以对包含表格的试卷图像进行表格结构识别。下面分别针对上述三种领域实现表格结构识别的具体实现方式进行举例说明:
(一)电商场景:
A1、获取包含表格区域的商品图像,表格区域包括多个单元格。
该商品图像可以是对某商品的外包装进行拍摄得到的图像,也可以是商家为某商品进行宣传而设计的宣传图像,等等。
A2、在商品图像中识别出多个单元格对应的多个标识点,根据多个标识点在商品图像中确定出与多个单元格对应的多个检测框,根据多个检测框与多个标识点之间的对应关系,以及不同检测框对应的标识点之间的距离,确定多个单元格在可编辑的表格文件中对应的行列信息。
如前文所述,多个标识点可以是从表格区域内识别出的多个单元格顶点和多个单元格中心点。标识点分类、检测框回归以及相邻单元格的标识点之间的距离预测过程,可以采用前述实施例中提供的多种模型来实现。
A3、根据所述行列信息生成可编辑的表格文件。
A4、将从每个检测框内提取出的文字内容对应地填充到表格文件中对应的单元格内。
(二)医疗场景:
B1、获取包含表格区域的医疗图像,表格区域包括多个单元格。
该医疗图像可以是病历图像,也可以是医疗影像图像,等等。
B2、在医疗图像中识别出多个单元格对应的多个标识点,根据多个标识点在医疗图像中确定出与多个单元格对应的多个检测框,根据多个检测框与多个标识点之间的对应关系,以及不同检测框对应的标识点之间的距离,确定多个单元格在可编辑的表格文件中对应的行列信息。
如前文所述,多个标识点可以是从表格区域内识别出的多个单元格顶点和多个单元格中心点。标识点分类、检测框回归以及相邻单元格的标识点之间的距离预测过程,可以采用前述实施例中提供的多种模型来实现。
B3、根据所述行列信息生成可编辑的表格文件。
B4、将从每个检测框内提取出的文字内容对应地填充到表格文件中对应的单元格内。
(三)教育场景:
C1、获取包含表格区域的教学图像,表格区域包括多个单元格。
该教学图像可以是对试卷进行拍摄得到的图像,也可以是对教师授课时的PPT、板书进行拍摄得到的图像,也可以是对教材文档拍摄得到的图像,还可以是学生作业进行拍摄得到的图像,等等。拍得的图像中会包含表格区域,比如试卷中包括表格,作业的答题区域或题干区域中包括表格,教材中包括表格,等等。
C2、在教学图像中识别出多个单元格对应的多个标识点,根据多个标识点在教学图像中确定出与多个单元格对应的多个检测框,根据多个检测框与多个标识点之间的对应关系,以及不同检测框对应的标识点之间的距离,确定多个单元格在可编辑的表格文件中对应的行列信息。
如前文所述,多个标识点可以是从表格区域内识别出的多个单元格顶点和多个单元格中心点。标识点分类、检测框回归以及相邻单元格的标识点之间的距离预测过程,可以采用前述实施例中提供的多种模型来实现。
C3、根据所述行列信息生成可编辑的表格文件。
老师、家长、学生可以基于生成的表格文件(可以是excel表格,也可以是在文档中插入的一个表格)改写其中一些单元格内包含的内容,以实现重新编辑题目等目的。
以上仅以几种应用领域为例对本发明实施例提供的图像检测方案可以适用于的应用场景进行了举例说明,实际上,不以此为限。
以下将详细描述本发明的一个或多个实施例的图像检测装置。本领域技术人员可以理解,这些图像检测装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。
图15为本发明实施例提供的一种图像检测装置的结构示意图,如图15所示,该装置包括:获取模块11、检测模块12。
获取模块11,用于获取待检测的图像,所述图像中包含多个对象。
检测模块12,用于在所述图像中识别出所述多个对象对应的多个标识点,根据所述多个标识点在所述图像中确定出与所述多个对象对应的多个检测框,根据所述多个检测框与所述多个标识点之间的对应关系,以及不同检测框对应的标识点之间的距离,确定所述多个对象的关联关系。
可选地,所述检测模块12具体用于:根据所述多个检测框与所述多个标识点之间的对应关系,以及不同检测框对应的标识点之间的距离,确定所述多个检测框的拼接关系;其中,若至少两个检测框具有拼接关系,则指示出所述至少两个检测框对应的对象之间具有设定的关联关系。
可选地,所述装置还包括:显示模块,用于根据多个检测框的拼接关系,在所述图像上以第一样式显示出所述多个检测框的拼接结果,以供用户编辑;和/或,在所述图像上以第二样式显示出所述多个检测框,以供用户编辑。
可选地,所述图像为包含表格区域的图像,所述多个对象为所述表格区域中存在的多个单元格。此时,所述装置还包括:表格生成模块,用于根据所述拼接关系对所述多个检测框进行拼接处理,以得到拼接后的多个检测框各自对应的顶点位置;根据所述拼接后的多个检测框各自对应的顶点位置,确定所述多个单元格在可编辑的表格文件中对应的行列信息;根据所述行列信息生成所述可编辑的表格文件。
可选地,所述多个对象为多个文字,此时,所述装置还包括:文字识别模块,用于根据所述拼接关系对所述多个检测框进行拼接处理;在所述图像中截取出目标图像区域,所述目标图像区域由拼接在一起的至少两个检测框构成;对所述目标图像区域进行文字识别处理,以得到对应的文字内容。
可选地,检测模块12具体可以用于:识别所述图像中包含的多个单元格中心点和多个单元格顶点;对于其中的任一单元格中心点,确定与所述任一单元格中心点属于同一单元格的单元格顶点,其中,由与所述任一单元格中心点属于同一单元格的单元格顶点构成与所述任一单元格中心点对应的检测框;对于其中的任一单元格顶点,确定共享所述任一单元格顶点的至少两个单元格中心点;确定与所述至少两个单元格中心点对应的至少两个检测框;确定所述至少两个检测框具有拼接关系,将所述至少两个检测框中与所述任一单元格顶点对应的顶点位置更新为所述任一单元格顶点的坐标。
图15所示装置可以执行前述实施例中提供的图像检测方法,详细的执行过程和技术效果参见前述实施例中的描述,在此不再赘述。
在一个可能的设计中,上述图15所示图像检测装置的结构可实现为一电子设备,如图16所示,该电子设备可以包括:处理器21、存储器22。其中,存储器22上存储有可执行代码,当所述可执行代码被处理器21执行时,使处理器21至少可以实现如前述实施例中提供的图像检测方法。
可选地,该电子设备中还可以包括通信接口23,用于与其他设备进行通信。
另外,本发明实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器至少可以实现如前述实施例中提供的图像检测方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (12)
1.一种图像检测方法,其特征在于,包括:
获取待检测的图像,所述图像中包含多个对象;
在所述图像中识别出所述多个对象对应的多个标识点;
根据所述多个标识点在所述图像中确定出与所述多个对象对应的多个检测框;
根据所述多个检测框与所述多个标识点之间的对应关系,以及不同检测框对应的标识点之间的距离,确定所述多个对象的关联关系。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多个检测框与所述多个标识点之间的对应关系,以及不同检测框对应的标识点之间的距离,确定所述多个对象的关联关系,包括:
根据所述多个检测框与所述多个标识点之间的对应关系,以及不同检测框对应的标识点之间的距离,确定所述多个检测框的拼接关系;
其中,若至少两个检测框具有拼接关系,则指示出所述至少两个检测框对应的对象之间具有设定的关联关系。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据多个检测框的拼接关系,在所述图像上以第一样式显示出所述多个检测框的拼接结果,以供用户编辑;和/或,
在所述图像上以第二样式显示出所述多个检测框,以供用户编辑。
4.根据权利要求2所述的方法,其特征在于,所述图像为包含表格区域的图像,所述多个对象为所述表格区域中存在的多个单元格;
所述方法还包括:
根据所述拼接关系对所述多个检测框进行拼接处理,以得到拼接后的多个检测框各自对应的顶点位置;
根据所述拼接后的多个检测框各自对应的顶点位置,确定所述多个单元格在可编辑的表格文件中对应的行列信息;
根据所述行列信息生成所述可编辑的表格文件。
5.根据权利要求2所述的方法,其特征在于,所述多个对象为多个文字;所述方法还包括:
根据所述拼接关系对所述多个检测框进行拼接处理;
在所述图像中截取出目标图像区域,所述目标图像区域由拼接在一起的至少两个检测框构成;
对所述目标图像区域进行文字识别处理,以得到对应的文字内容。
6.根据权利要求4所述的方法,其特征在于,所述在所述图像中识别出所述多个对象对应的多个标识点,包括:
识别所述图像中包含的多个单元格中心点和多个单元格顶点;
所述根据所述多个标识点在所述图像中确定出与所述多个对象对应的多个检测框,包括:
对于其中的任一单元格中心点,确定与所述任一单元格中心点属于同一单元格的单元格顶点,其中,由与所述任一单元格中心点属于同一单元格的单元格顶点构成与所述任一单元格中心点对应的检测框;
确定不同检测框对应的标识点之间的距离,包括:
对于其中的任一单元格顶点,确定共享所述任一单元格顶点的至少两个单元格中心点。
7.根据权利要求6所述的方法,其特征在于,所述根据所述多个检测框与所述多个标识点之间的对应关系,以及不同对象对应的标识点之间的距离,确定所述多个检测框的拼接关系,包括:
确定与所述至少两个单元格中心点对应的至少两个检测框;
确定所述至少两个检测框具有拼接关系;
所述根据所述拼接关系对所述多个检测框进行拼接处理,包括:
将所述至少两个检测框中与所述任一单元格顶点对应的顶点位置更新为所述任一单元格顶点的坐标。
8.一种图像检测方法,其特征在于,包括:
接收用户设备调用图像检测服务接口的请求,所述请求中包括待检测的图像,所述图像中包含多个对象;
利用所述图像检测服务接口对应的处理资源执行如下步骤:
在所述图像中识别出所述多个对象对应的多个标识点;
根据所述多个标识点在所述图像中确定出与所述多个对象对应的多个检测框;
根据所述多个检测框与所述多个标识点之间的对应关系,以及不同对象对应的标识点之间的距离,确定所述多个对象的关联关系。
9.一种图像检测方法,其特征在于,包括:
获取包含表格区域的票据图像,所述表格区域中存在的多个单元格;
在所述票据图像中识别出所述多个单元格对应的多个标识点;
根据所述多个标识点在所述票据图像中确定出与所述多个单元格对应的多个检测框;
根据所述多个检测框与所述多个标识点之间的对应关系,以及不同检测框对应的标识点之间的距离,确定所述多个单元格在可编辑的表格文件中对应的行列信息;
根据所述行列信息生成可编辑的表格文件。
10.根据权利要求9所述的方法,其特征在于,所述根据所述多个检测框与所述多个标识点之间的对应关系,以及不同检测框对应的标识点之间的距离,确定所述多个单元格在可编辑的表格文件中对应的行列信息,包括:
根据所述多个检测框与所述多个标识点之间的对应关系,以及不同检测框对应的标识点之间的距离,确定所述多个检测框的拼接关系;其中,若至少两个检测框具有拼接关系,则指示出所述至少两个检测框对应的单元格之间具有位置邻接关系;
根据所述拼接关系对所述多个检测框进行拼接处理,以得到拼接后的多个检测框各自对应的顶点位置;
根据所述拼接后的多个检测框各自对应的顶点位置,确定所述多个单元格在可编辑的表格文件中对应的行列信息。
11.一种电子设备,其特征在于,包括:存储器、处理器;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1至7中任一项所述的图像检测方法。
12.一种非暂时性机器可读存储介质,其特征在于,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至7中任一项所述的图像检测方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110573876.5A CN115393837A (zh) | 2021-05-25 | 2021-05-25 | 图像检测方法、设备和存储介质 |
PCT/CN2022/094684 WO2022247823A1 (zh) | 2021-05-25 | 2022-05-24 | 图像检测方法、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110573876.5A CN115393837A (zh) | 2021-05-25 | 2021-05-25 | 图像检测方法、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115393837A true CN115393837A (zh) | 2022-11-25 |
Family
ID=84113988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110573876.5A Pending CN115393837A (zh) | 2021-05-25 | 2021-05-25 | 图像检测方法、设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115393837A (zh) |
WO (1) | WO2022247823A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115640401B (zh) * | 2022-12-07 | 2023-04-07 | 恒生电子股份有限公司 | 文本内容提取方法及装置 |
CN116503888B (zh) * | 2023-06-29 | 2023-09-05 | 杭州同花顺数据开发有限公司 | 一种从图像中提取表格的方法、系统和存储介质 |
CN117558392B (zh) * | 2024-01-12 | 2024-04-05 | 富纳德科技(北京)有限公司 | 一种电子病历共享协作方法与系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111476210B (zh) * | 2020-05-11 | 2021-03-30 | 上海西井信息科技有限公司 | 基于图像的文本识别方法、系统、设备及存储介质 |
CN112149663A (zh) * | 2020-08-28 | 2020-12-29 | 北京来也网络科技有限公司 | 结合rpa和ai的图像文字的提取方法、装置及电子设备 |
CN112633118A (zh) * | 2020-12-18 | 2021-04-09 | 上海眼控科技股份有限公司 | 一种文本信息提取方法、设备及存储介质 |
CN112287916B (zh) * | 2020-12-28 | 2021-04-30 | 平安国际智慧城市科技股份有限公司 | 视频图文课件文本提取方法、装置、设备及介质 |
-
2021
- 2021-05-25 CN CN202110573876.5A patent/CN115393837A/zh active Pending
-
2022
- 2022-05-24 WO PCT/CN2022/094684 patent/WO2022247823A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2022247823A1 (zh) | 2022-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111931664B (zh) | 混贴票据图像的处理方法、装置、计算机设备及存储介质 | |
CN115393837A (zh) | 图像检测方法、设备和存储介质 | |
CN108229485B (zh) | 用于测试用户界面的方法和装置 | |
CN111652232B (zh) | 票据识别方法及装置、电子设备和计算机可读存储介质 | |
CN109740515B (zh) | 一种评阅方法及装置 | |
CN112507806B (zh) | 智慧课堂信息交互方法、装置及电子设备 | |
CN111738041A (zh) | 一种视频分割方法、装置、设备及介质 | |
CN108062377A (zh) | 标签图片集的建立、标签的确定方法、装置、设备及介质 | |
CN112381099A (zh) | 一种基于数字教育资源的录题系统 | |
US11341319B2 (en) | Visual data mapping | |
CN112883926B (zh) | 表格类医疗影像的识别方法及装置 | |
CN112990180A (zh) | 判题方法、装置、设备及存储介质 | |
CN114663904A (zh) | 一种pdf文档布局检测方法、装置、设备及介质 | |
US11386263B2 (en) | Automatic generation of form application | |
CN111126486A (zh) | 一种测验统计方法、装置、设备及存储介质 | |
CN114049631A (zh) | 一种数据标注的方法、装置、计算机设备和存储介质 | |
Vargas Munoz et al. | Deploying machine learning to assist digital humanitarians: making image annotation in OpenStreetMap more efficient | |
US20200364034A1 (en) | System and Method for Automated Code Development and Construction | |
CN112925470B (zh) | 交互式电子白板的触摸控制方法、系统和可读介质 | |
Budig | Extracting spatial information from historical maps: algorithms and interaction | |
CN112487897A (zh) | 笔迹内容评价方法、装置及电子设备 | |
WO2023053830A1 (ja) | 画像処理装置、画像処理方法および記録媒体 | |
CN113705157B (zh) | 一种纸质作业拍照批改的方法 | |
CN115631374A (zh) | 控件操作方法、控件检测模型的训练方法、装置和设备 | |
CN114299523A (zh) | 一种教辅作业识别批改分析方法和分析系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20240310 Address after: # 03-06, Lai Zan Da Building 1, 51 Belarusian Road, Singapore Applicant after: Alibaba Innovation Co. Country or region after: Singapore Address before: Room 01, 45th Floor, AXA Building, 8 Shanton Road, Singapore Applicant before: Alibaba Singapore Holdings Ltd. Country or region before: Singapore |