CN109492143A - 图像数据处理方法、装置、计算机设备及存储介质 - Google Patents

图像数据处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN109492143A
CN109492143A CN201811106590.0A CN201811106590A CN109492143A CN 109492143 A CN109492143 A CN 109492143A CN 201811106590 A CN201811106590 A CN 201811106590A CN 109492143 A CN109492143 A CN 109492143A
Authority
CN
China
Prior art keywords
image
identification
text
target
region unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811106590.0A
Other languages
English (en)
Inventor
黄锦伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811106590.0A priority Critical patent/CN109492143A/zh
Publication of CN109492143A publication Critical patent/CN109492143A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开一种图像数据处理方法、装置、计算机设备及存储介质,应用在图像识别技术领域。该方法包括:采用爬虫工具爬取原始图像,每一原始图像对应一图像类型;采用文本定位算法对原始图像进行文本定位,获取至少一个文本行区域,对每一文本行区域进行截图,获取区域块图像;基于图像类型和区域块图像的位置信息,获取目标OCR识别模型;采用目标OCR识别模型对区域块图像进行识别,获取目标识别结果,目标识别结果包括至少两个识别文字和对应的识别概率;基于至少两个识别文字和对应的识别概率,获取目标文字,将目标文字确定为标注文本,基于区域块图像和标注文本,获取目标图像样本。该方法可有效提高目标图像样本的获取效率并降低获取成本。

Description

图像数据处理方法、装置、计算机设备及存储介质
技术领域
本发明涉及图像识别技术领域,尤其涉及一种图像数据处理方法、装置、计算机设备及存储介质。
背景技术
在图像识别技术领域,需将携带标注信息的图像样本输入到基于CNN、LSTM或者其他网络模型中进行训练,以获取图像识别模型,使得该图像识别模型可对图像中的文字进行识别。当前图像样本主要是通过爬虫工具爬取大量的原始图像,对每一原始图像中的文字内容进行人工标注,以形成可用于进行模型训练的图像样本。这种人工标注图像样本的方式存在效率低、耗时长且人工成本高等问题。
发明内容
本发明实施例提供一种图像数据处理方法、装置、计算机设备及存储介质,以解决当前人工标注图像样本过程中存在效率低、耗时长且成本高的问题。
一种图像数据处理方法,包括:
采用爬虫工具爬取原始图像,每一所述原始图像对应一图像类型;
采用文本定位算法对所述原始图像进行文本定位,获取至少一个文本行区域,并对每一所述文本行区域进行截图,获取对应的区域块图像,每一所述区域块图像对应一位置信息;
基于所述图像类型和所述区域块图像的位置信息,获取目标OCR识别模型;
采用所述目标OCR识别模型对所述区域块图像进行识别,获取与所述区域块图像相对应的目标识别结果,所述目标识别结果包括至少两个识别文字和与每一所述识别文字相对应的识别概率;
基于至少两个所述识别文字和与每一所述识别文字相对应的识别概率,获取与所述区域块图像相对应的目标文字,将所述目标文字确定为标注文本,基于所述区域块图像和所述标注文本,获取目标图像样本。
一种图像数据处理装置,包括:
原始图像获取模块,用于采用爬虫工具爬取原始图像,每一所述原始图像对应一图像类型;
区域块图像获取模块,用于采用文本定位算法对所述原始图像进行文本定位,获取至少一个文本行区域,并对每一所述文本行区域进行截图,获取对应的区域块图像,每一所述区域块图像对应一位置信息;
识别模型获取模块,用于基于所述图像类型和所述区域块图像的位置信息,获取目标OCR识别模型;
识别结果获取模块,用于采用所述目标OCR识别模型对所述区域块图像进行识别,获取与所述区域块图像相对应的目标识别结果,所述目标识别结果包括至少两个识别文字和与每一所述识别文字相对应的识别概率;
图像样本获取模块,用于基于至少两个所述识别文字和与每一所述识别文字相对应的识别概率,获取与所述区域块图像相对应的目标文字,将所述目标文字确定为标注文本,基于所述区域块图像和所述标注文本,获取目标图像样本。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述图像数据处理方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述图像数据处理方法的步骤。
上述图像数据处理方法、装置、计算机设备及存储介质,先采用爬虫工具爬取原始图像,可实现批量获取大量原始图像的目的。然后,采用文本定位算法对原始图像进行文本定位,以获取至少一个文本行区域,并基于每一文本行区域截取相应的区域块图像,以将原始图像中包含文字的区域截取出来,以使后续基于该区域块图像进行内容识别,保障识别准确率。基于图像类型和区域块图像的位置信息,确定目标OCR识别模型,并采用该目标OCR识别模型对区域块图像进行识别,以获取识别准确率更高的目标识别结果。最后,基于目标识别结果中的至少两个识别文字和对应的识别概率,确定相对应的目标文字,可保证目标文字的识别准确率;并将目标文字确定为标注文本,基于区域块图像和标注文本,获取目标图像样本,以实现对图像自动标注,提高图像标注的效率并降低图像标注的时间成本和人工成本。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中图像数据处理方法的一应用环境示意图;
图2是本发明一实施例中图像数据处理方法的一流程图;
图3是本发明一实施例中图像数据处理方法的另一流程图;
图4是本发明一实施例中图像数据处理方法的另一流程图;
图5是本发明一实施例中图像数据处理方法的另一流程图;
图6是本发明一实施例中图像数据处理方法的另一流程图;
图7是本发明一实施例中图像数据处理方法的另一流程图;
图8是本发明一实施例中图像数据处理装置的一示意图;
图9是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的图像数据处理方法,该图像数据处理方法可应用如图1所示的应用环境中。具体地,该图像数据处理方法应用在图像数据处理系统中,该图像数据处理系统包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于实现对原始图像自动进行文本标注,以获取可进行图像识别模型训练的目标图像样本,提高目标图像样本的获取效率并降低其获取成本。其中,客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种图像数据处理方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S201:采用爬虫工具爬取原始图像,每一原始图像对应一图像类型。
其中,爬虫工具是指网络爬虫(又被称为网页蜘蛛或网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。该爬虫工具包括但不限于Python爬虫工具。原始图像是采用爬虫工具从特定网站上爬取到的图像。图像类型是指原始图像所属的类型,具体可以为身份证、飞机票和火车票等类型。
具体地,服务器采用爬虫工具执行爬虫文件,以爬取符合爬虫文件设置的数据爬取条件的原始图像。其中,该爬虫文件包括但不限于目标URL和搜索关键词这两个数据爬取条件。该目标URL是该爬虫文件中用于限定所需爬取图像数据的目标网站的URL,该URL(Uniform Resource Locator的简称,即统一资源定位符)是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。搜索关键词是指该爬虫文件中用于限定该爬虫文件所需爬取图像数据共同特性的关键词,具体可以为身份证、飞机票和火车票等内容。可以理解地,该搜索关键词与图像类型相关联,以使爬虫工具爬取到的每一原始图像对应一图像类型。
例如,服务器采用Python爬虫工具从百度图像库中爬取不同图像类型的原始图像时,可预先配置爬虫文件,每一爬虫文件中设置所要爬取图像数据的搜索关键词(该关键词可以是身份证、飞机票或火车票等)和所要爬取网页的目标URL(如百度图像库的URL)。然后,服务器触发Python爬虫工具执行该爬虫文件,从目标URL对应的百度图像库中爬取与搜索关键词相对应的原始图像,以实现批量获取原始图像的目的。每一原始图像的图像类型与爬虫文件中配置的搜索关键词相对应,即图像类型可以为身份证、飞机票和火车票中的任一个。
S202:采用文本定位算法对原始图像进行文本定位,获取至少一个文本行区域,并对每一文本行区域进行截图,获取对应的区域块图像,每一区域块图像对应一位置信息。
其中,文本定位算法是用于定位出图像中文字的算法。本实施例中,文本定位算法包括但不限于邻近搜索算法和CTPN-RNN算法。文本行区域是指采用文本定位算法从原始图像中识别出包含文本行的区域,该文本行区域是基于一行文字确定的区域。
其中,邻近搜索算法是指从一个连通区域出发,可以找到该连通区域的水平外切矩形,将连通区域扩展到整个矩形的算法。当该连通区域与最邻近区域的距离小于一定范围时,考虑这个矩形的膨胀,膨胀的方向是最邻近区域的所在方向,当且仅当所在方向是水平的,才执行膨胀操作,以从图像中确定至少一个文本行区域,这种方式可有效将图像中位于同一行的文字磁片整合在一个文本行区域内,以实现文本定位目的。以水平方向膨胀为例,采用邻近搜索算法对原始图像进行文本定位,以获取至少一个文本行区域的过程包括:对原始图像中任一个或多个文字形成的矩形区域,计算任意两个矩形区域的中心向量差(即两个矩形区域的中心点所形成的向量差)。再将该中心向量差减去两个矩形区域的中心点到边界的距离,获取边界向量差,即其中,(x'c,y'c)是指边界向量差,(xc,yc)是指中心向量差,a1和b1分别是指第一个矩阵区域的长度和宽度,a2和b2分别是指第二个矩阵区域的长度和宽度。再采用距离计算公式计算两个矩阵区域的距离d,其中,max()为返回最大数值的函数;若距离d小于一定范围,则对该行文本进行膨胀操作,以获取至少一个文本行区域,采用邻近搜索法可快速获取到至少一个文本行区域。
其中,CTPN(Connectionist Text Proposal Network,连接文本提议网络,以下简称CTPN)是用于准确定位图像中文本行的模型,CTPN可识别出每一行文本行的四个角的坐标位置。RNN(Recurrent Neural Networks循环神经网络,以下简称RNN)的主要用途是用于处理和预测序列数据,RNN的隐藏层之间的结点是有连接的,隐藏层的输入不仅包括输入层的输出,还包括上一时刻隐藏层的输出。具体地,采用CTPN-RNN算法对原始图像进行文本定位,获取至少一个文本行区域的过程如下:
(1)使用VGG-16作为网络架构(base net)提取特征,得到conv5_3的特征作为特征映射(feature map),大小是W×H×C,其中,conv5_3是指每5个卷积层中第三个卷积核,C是特征映射或通道的数量,W×H是空间布置,W为特征映射(feature map)的高,H为特征映射(feature map)的高。
(2)在特征映射(feature map)上做滑窗,窗口大小是3×3,即每个窗口都能得到一个长度为3×3×C的特征向量。这个特征向量将用来预测和10个锚点(anchor)之间的偏移距离。
(3)将每一行的所有窗口对应的3*3*C的特征(W*3*3*C)输入到RNN中,得到W*256的输出。
(4)将RNN的W*256输入到512维的fc层(fully connected layers,全连接层)。
(5)fc层将所获取的W*256特征输入到三个回归层中,即2k vertical coordinate(垂直坐标)、2k scores(分类)和k side-refinement(边缘细化)这三个回归层中。其中,2kscores(分类)表示的是k个锚点(anchor)的类别信息,类别信息包括是字符或不是字符两种。2k vertical coordinate(垂直坐标)和k side-refinement(边缘细化)是用来回归k个锚点(anchor)的位置信息。2k vertical coordinate(垂直坐标),因为一个锚点(anchor)用的是中心位置的高(y坐标)和矩形框的高度两个值表示的,所以一个用2k个输出。k个side-refinement(边缘细化)主要是用来精修文本行的两个端点的,表示的是每个TextProposal(文本建议)的水平平移量。这三个回归层处理后得到用3个参数表示回归的边界框(bounding box),默认每个锚点(anchor)的width是16,回归出来的边界框(boundingbox)为矩形框,它们的宽度是一定的。
(6)根据三个回归层的输出获取密集预测的Text Proposal(文本建议),所以会使用一个标准的非极大值抑制算法(non maximum suppression,简称NMS)来滤除多余的边界框(bounding box),获取过滤后的Text Proposal(文本建议)。
(7)采用文本线构造算法将过滤后的Text Proposal(文本建议)合并成文本线,每一条文本线即为一文本行,以获取至少一个文本行区域。文本线构造算法是将多个细长的Text Proposal(文本建议)合并成一条文本线的方法,主要是通过将每两个相近的TextProposal(文本建议)组成一个pair(文本对),合并不同的pair(文本对)直到无法再合并为止。
采用CTPN-RNN算法从原始图像中定位到至少一个文本行区域,通过将CTPN无逢结合到RNN卷积网络中,使其可准确定位原始图像中的文本行,并根据每一文本行在原始图像中的位置,确定文本行区域,即采用CTPN-RNN算法可实现对至少一个文本行区域坐标进行自动标识,采用CTPN和RNN无疑结合的方式可有效提高检测精度。
具体地,服务器采用OpenCV对每一文本行区域进行截图,获取对应的区域块图像。OpenCV(Open Source Computer Vision Library,开源计算机视觉库)是一个基于BSD许可(开源)发行的跨平台计算机视觉库,可以运行在Linux、Windows、Android和Mac OS操作系统上。它轻量级而且高效——由一系列C函数和少量C++类构成,同时提供了Python、Ruby、MATLAB等语言的接口,实现了图像处理和计算机视觉方面的很多通用算法。本实施例中,通过OpenCV对每一文本行区域的4个角的坐标进行截取操作,以获取相应的区域块图像,通过OpenCV进行截取操作,其计算简单、运算效率较高且性能较稳定。每一区域块图像对应一位置信息可以是该区域块图像四个顶点(如左上角的坐标)或者中心点的坐标,以便根据该位置信息确定区域块图像在原始图像中的位置。
S203:基于图像类型和区域块图像的位置信息,获取目标OCR识别模型。
其中,目标OCR识别模型是指与图像类型和区域块图像的位置信息相匹配的OCR识别模型。该目标OCR识别模型包括专用OCR识别模型和通用OCR识别模型,其中,通用OCR识别模型可识别出区域块图像中的中文、数字和英文中至少两种内容的组合的目标识别内容,而专用OCR识别模型只可识别出区域块图像中的中文、数字和英文中任一种内容的目标识别内容,专用OCR识别模型是将通用OCR识别模型分别拆开成中文、英文数字三个不同模型,相比通用OCR识别模型而言,识别率较高。两者训练过程相同,只是在训练库上对训练图像进行分类,比如说数字专用OCR识别模型就是用只包含数字的训练图像和标记文本进行训练,以使训练所得的数字专用OCR识别模型对数字的识别准确率更高。
本实施例中,根据原始图像的图像类型可确定该原始图像中文本行的文本内容,并配置每一文本内容对应的目标OCR识别模型。例如身份证对应的原始图像中,第一行内容为“姓名XXX”,第二行内容为“性别XX民族XX”,第三行内容为“出生XX年XX月XX日”,第四行内容为“地址XXX”,第五行内容为“公民身份号码XXX”。根据每一区域块图像的位置信息可以确定该区域块图像位于原始图像中的哪一行,从而其该区域块图像对应的文本内容。例如,根据区域块图像的位置信息(可以是各区域块图像的左上角的坐标)可确定某一区域块图像是第五行,则在图像类型为身份证的原始图像中,该区域块图像对应的文本内容为公民身份号码XXX,从而选取与公民身份号码相对应的目标OCR识别模型。本实施例中,基于图像类型和区域块图像的位置信息,获取目标OCR识别模型,以使该目标OCR识别模型对区域块图像的识别准确率更高。
S204:采用目标OCR识别模型对区域块图像进行识别,获取与区域块图像相对应的目标识别结果,目标识别结果包括至少两个识别文字和与每一识别文字相对应的识别概率。
具体地,服务器采用目标OCR识别模型对区域块图像进行识别,以获取与区域块图像相对应的目标识别结果。该目标识别结果为采用目标OCR识别模型对区域块图像中的文字内容进行识别的结果,以确定区域块图像中的文字内容。可以理解地,由于区域块图像是从原始图像中截取文本行区域所形成的图像,因此,该区域块图像中至少包括一个文字形成的单字体图像(该单字体图像是指只包含一个文字的图像),采用目标OCR识别模型对区域块图像进行识别时,对每一单字体图像均可能获取至少两个识别文字,每一识别文字对应一识别概率。该识别概率是指采用目标COR识别模型对该单字体图像进行识别,认为其为某一识别文字的概率。可以理解地,该识别概率越大,则该单字体图像为该识别概率对应的识别文字的可能性越大。
S205:基于至少两个识别文字和与每一识别文字相对应的识别概率,获取与区域块图像相对应的目标文字,将目标文字确定为标注文本,基于区域块图像和标注文本,获取目标图像样本。
由于区域块图像中包括至少两个单字体图像,设为N(N≧2)个单字体图像,而每个单字体图像对应至少两个识别文字,设为M(M≧2)个识别文字,每一识别文字对应一识别概率,则基于N个单字体图像及每个单字体图像对应的M个识别文字,其所形成的词序列为N*M种,则本实施例中,需从N*M中选取概率最大的一种词序列确定为目标文字,以保障目标文字的识别准确率。本实施例中,服务器需根据N个单字体图像中,每一单字体图像对应的M个识别文字及其识别概率,确定其所形成的概率最大的词序列为目标文字,使得区域块图像相对应的目标文字最能反映区域块图像的文字内容,提高区域块图像的识别准确率。该概率最大的词序列是依据N个单字体图像在区域块图像中的顺序,根据每一识别文字对应的识别概率和上下文关系,依次从M个识别文字选取一识别文字,从而形成的词序列,且该词序列的概率最大。
可以理解地,在确定与区域块图像相对应的目标文字之后,服务器将该目标文字确定为区域块图像的标注文本,并基于该标注文本和区域块图像形成目标图像样本,以实现对目标图像样本的自动标注,提高图像样本标注的效率并降低图像样本标注的成本。
本实施例所提供的图像数据处理方法中,先采用爬虫工具爬取原始图像,可实现批量获取大量原始图像的目的,以提高原始图像的获取效率,避免人工收集原始图像所存在的效率低的问题。然后,采用文本定位算法对原始图像进行文本定位,以获取至少一个文本行区域,并基于每一文本行区域截取相应的区域块图像,以使后续基于该区域块图像进行内容识别,以保障识别准确率。基于图像类型和区域块图像的位置信息,确定目标OCR识别模型,并采用该目标OCR识别模型对区域块图像进行识别,以获取识别准确率更高的目标识别结果。最后,基于目标识别结果中的至少两个识别文字和对应的识别概率,确定相对应的目标文字,可保证目标文字的识别准确率;并将目标文字确定为标注文本,基于区域块图像和标注文本,获取目标图像样本,以实现对图像自动标注,提高图像标注的效率并降低图像标注的时间成本和人工成本。
在一实施例中,爬虫文件包括目标URL和搜索关键词。该目标URL是该爬虫文件中用于限定所需爬取图像数据的目标网站的URL。搜索关键词是指该爬虫文件中用于限定该爬虫文件所需爬取图像数据共同特性的关键词,具体可以为身份证、飞机票和火车票等内容。相应地,如图3所示,采用爬虫工具爬取原始图像具体包括如下步骤:
S301:获取数据爬取任务,数据爬取任务包括任务类型和文件标识。
其中,数据爬取任务是用于触发服务器爬取图像数据的任务。任务类型是用于限定本次数据爬取任务的类型,具体可以为定时任务或实时任务两种类型。文本标识是用于唯一识别爬虫文件的标识。
本实施例中,服务器预先创建不同的爬虫文件,每一爬虫文件对应的一文件标识,并将该爬虫文件和文件标识关联存储在数据库中,以便后续根据该文件标识获取相对应的爬虫文件。
S302:若任务类型为实时任务,则触发爬虫工具执行与文件标识相对应的爬虫文件,从目标URL对应的网站中爬取与搜索关键词相匹配的图像,确定为原始图像。
本实施例中,若服务器识别出数据爬取任务中的任务类型为实时任务,则直接通过数据爬取任务中的文件标识获取相对应的爬虫文件,触发爬虫工具执行该爬虫文件,以从该爬虫文件中目标URL对应的网站中爬取与搜索关键词相匹配的图像,确定为原始图像。例如,文件标识对应的爬虫文件中限定的目标URL为百度图像库的URL,搜索关键词为身份证时;其数据爬取任务中的任务类型为实时任务时,则直接触发Python爬虫工具执行该爬虫文件,从百度图像库中爬取身份证对应的原始图像,以实现实时获取原始图像的目的。
S303:若任务类型为定时任务,则触发时间监控工具,以使系统当前时间达到数据爬取任务中携带的定时触发时间时,触发爬虫工具执行与文件标识相对应的爬虫文件,从目标URL对应的网站中爬取与搜索关键词相匹配的图像,确定为原始图像。
本实施例中,若服务器识别出数据爬取任务中的任务类型为定时任务,则还需获取该数据爬取任务中的定时触发时间,该定时触发时间是定时触发服务器执行数据爬取任务的时间。时间监控工具是用于监控系统当前时间的工具,可以为Time Watch工具。
具体地,若任务类型为定时任务时,触发服务器上安装的时间监控工具,以实时监控系统当前时间,并在系统当前时间达到数据爬取任务中携带的定时触发时间时,触发爬虫工具执行与文件标识相对应的爬虫文件,以从该爬虫文件中目标URL对应的网站中爬取与搜索关键词相匹配的图像,确定为原始图像,以实现定时爬取原始图像的目的。
可以理解地,在通过步骤S302和步骤S303爬取到原始图像之后,将该原始图像存储在与其图像类型相对应的数据库中,以实现对原始图像进行分类存储,以便后续基于不同图像类型的原始图像进行图像处理,获取不同的目标图像样本,提高目标图像样本的获取效率。
本实施例所提供的图像数据处理方法中,在数据爬取任务中的任务类型为实时任务时,实时触发爬虫工具执行与数据爬取任务中的文件标识相对应的爬虫文件进行图像数据爬取操作,可实时快速获取相对应的原始图像。由于爬虫文件预先创建并存储,只需上传相应的文件标识,即可快速找到相应的爬虫文件并利用该爬虫文件进行图像数据爬取,有利于提高原始图像的爬取效率。在数据爬虫任务中的任务类型为定时任务时,可通过时间监控工具定时触发爬虫工具执行与文本标识相对应的爬虫文件进行图像数据爬取,其过程无需人工干预,有利于提高原始图像的爬取效率。
在一实施例中,由于原始图像是采用爬虫工具从特定网站上爬取到的未经处理的图像,若该原始图像过于模糊,则基于该原始图像获取的目标图像样本也过于模糊,可能影响后续基于该目标图像样本进行模型训练所获取的图像识别模型的识别准确率,因此,需对原始图像进行过滤,以去除过于模糊的原始图像。如图4所示,在采用爬虫工具爬取原始图像的步骤之后,图像数据处理方法还包括:
S401:采用拉普拉斯算子对原始图像进行锐化处理,获取锐化图像。
其中,拉普拉斯算子(Laplacian operator)是一种二阶微分算子,适用于改善因为光线的漫反射造成的图像模糊。其原理是,在摄像记录图像的过程中,光点将光漫反射到其周围区域,这种由于光的漫反射造成了图像一定程度的模糊,其模糊程度相对与正常情形下拍摄的图像来说,往往是拉普拉斯算子的常数倍。本实施例中,采用拉普拉斯算子对原始图像进行锐化处理,获取锐化图像,具体包括:采用拉普拉斯算子对原始图像进行处理,获取描述灰度突变的拉普拉斯图像,再将拉普拉斯图像与原始图像叠加从而获取锐化图像。
其中,基于二阶微分的拉普拉斯算子的定义为而原始图像中每一像素灰度值为R(x,y),其二阶导数为采用拉普拉斯算子对原始图像中每一像素灰度值进行处理后,获取到的拉普拉斯图像,以使灰度突变处的对比度增强。该拉普拉斯图像中拉普拉斯掩模中心系数为其中,为拉普拉斯掩模中心系数。然后,采用拉普拉斯锐化公式对拉普拉斯图像进行处理,获取锐化图像,具体为采用拉普拉斯锐化公式对拉普拉斯图像的拉普拉斯掩模中心系数进行处理,获取锐化图像的图像像素值。其中,拉普拉斯锐化公式的计算公式如下:其中,g(x,y)为锐化图像的像素灰度值。本实施例中,采用拉普拉斯算子对原始图像进行锐化,不仅可以产生拉普拉斯锐化处理的效果,同时又能保留背景信息,将原始图像叠加到拉普拉斯变换的处理结果中去,可以使图像中的各灰度值得到保留,使灰度突变处的对比度得到增强,最终结果是在保留图像背景的前提下,突现出图像中小的细节信息。
S402:对锐化图像的像素灰度值进行方差计算,获取锐化图像的目标方差值。
具体地,服务器对锐化图像的像素灰度值进行方差计算,以获取其目标方差值,该目标方差值可反馈该锐化图像的模糊度。具体地,对锐化图像的像素灰度值进行方差计算具体包括:计算锐化图像中每个像素点的像素灰度值减去锐化图像的平均灰度值的平方和,再将该平方和除以像素点数量,即可获取可反映锐化图像模糊度的目标方差值。本实施例中,目标方差值越小,说明锐化图像中各像素点的像素灰度值越接近平均灰度值,则锐化图像中各像素点的像素灰度值之间差距不明显,使得图像边缘不清楚,因此,目标方差值越小,其锐化图像越模糊。
S403:若目标方差值大于预设阈值,则将锐化图像更新为原始图像。
其中,预设阈值是用于评估图像的模糊度是否达到预设要求的阈值。本实施例中,若锐化图像的目标方差值大于预设阈值,则认定该锐化图像的模糊度达到用于进行模型训练所需图像的模糊度,因此,可将锐化图像更新为新的原始图像,以便后续执行步骤S202,从而保证最终获取的目标图像样本的清晰度。
S404:若目标方差值不大于预设阈值,则删除与目标方差值相对应的原始图像和锐化图像。
本实施例中,若锐化图像的目标方差不大于预设阈值,则认定该锐化图像的模糊度没有达到用于进行模型训练所需图像的模糊度,此时,直接删除与目标方差值相对应的原始图像和锐化图像,以节省图像存储空间。
本实施例所提供的图像数据处理方法中,先采用拉普拉斯算子对原始图像进行锐化处理,以获取细节比原始图像更清晰的锐化图像,从而提高图像的清晰度。然后,通过计算锐化图像的目标方差值,以体现该锐化图像的各像素点的像素灰度值之间的差异性。根据锐化图像的目标方差值与预设阈值的比较结果,以确定采用锐化图像更新原始图像或者删除原始图像及锐化图像这两种结果,从而达到对原始图像进行模糊度过滤,以过滤过于模糊的原始图像,有利于保障基于原始图像获取到的目标图像样本的清晰度。
在一实施例中,如图5所示,基于图像类型和区域块图像的位置信息,获取目标OCR识别模型,包括:
S501:基于图像类型和区域块图像的位置信息,获取区域块图像的属性,属性包括专用属性和通用属性。
其中,预先设置每一种图像类型的原始图像中每一文本行区域的属性,该属性用于区分是否只包含中文、数字和英文中的任一种的专用属性和同时包含中文、数字和英文等组合形成的通用属性。其中,专用属性对应专用OCR识别模型,通用属性对应通用OCR识别模型。
具体地,通过原始图像对应的图像类型查询与图像类型对应的数据库,数据库中存储有每一文本行区域对应的属性,通过截取的文本行区域的区域块图像对应的位置信息,确定该区域块图像对应的属性,该属性包括专用属性和通用属性。
S502:若区域块图像的属性为专用属性,则将与专用属性相对应的专用OCR识别模型确定为目标OCR识别模型。
具体地,服务端根据原始图像对应的图像类型和区域块图像对应的位置信息确定区域块图像对应的属性为专用属性时,则将与专用属性相对应的专用OCR识别模型确定为目标OCR识别模型,以便采用该目标OCR识别模型对区域块图像进行识别,以获取到与区域块图像对应的目标识别内容,使得该目标识别内容更准确。
例如,图像类型为身份证,身份证图像中第一行内容为姓名XXX,因只包含中文,则预先设置第一行内容对应的属性为专用属性,则通过区域块图像的位置信息可确定与之对应的属性为专用属性,与该专用属性相对应的专用OCR识别模型作为目标OCR识别模型,以便后续对区域块图像进行识别,以获取与区域块图像对应的目标识别内容。该专用识别模型具体为中文专用OCR识别模型。
S503:若区域块图像的属性为通用属性,则将与通用属性相对应的通用OCR识别模型确定为目标OCR识别模型。
具体地,服务端根据原始图像对应的图像类型和区域块图像对应的位置信息确定区域块图像对应的属性为通用属性时,则将通用OCR识别模型确定为目标OCR识别模型,以便采用该目标OCR识别模型对区域块图像进行识别,以获取到与区域块图像对应的目标识别内容。
例如,图像类型为身份证,身份证图像中第三行内容为“出生X年X月X日”,同时包含中文和数字,则预先设置第三行内容对应的属性为通用属性,则通过区域块图像对应的位置信息可确定与之对应的属性为通用属性,将通用OCR识别模型确定为目标OCR识别模型,以便后续采用该目标OCR识别模型对区域块图像进行识别,以获取与区域块图像对应的目标识别内容。
本实施例所提供的图像数据处理方法中,基于原始图像对应的图像类型和区域块图像对应的位置信息,获取每一区域块图像对应的属性,属性包括专用属性和通用属性,以便后续根据属性确定相对应的OCR识别模型。若区域块图像对应的属性为专用属性,则将专用OCR识别模型确定为目标OCR识别模型,以便后续采用该目标OCR识别模型对区域块图像进行识别,以提高识别效率和精准度。若区域块图像对应的属性为通用属性,则将通用OCR识别模型确定为目标OCR识别模型,以便后续采用该目标OCR识别模型对区域块图像进行识别,保障识别效率。
在一实施例中,如图6所示,采用目标OCR识别模型对区域块图像进行识别,获取与区域块图像相对应的目标识别结果,目标识别结果包括至少两个识别文字和与每一识别文字相对应的识别概率,包括:
S601:采用文字切割算法对区域块图像进行切割,获取至少两个单字体图像。
其中,文字切割算法是指用于将区域块图像切割成单字体图像的算法,该文字切割算法具体可以为基于投影的文字切割算法。采用该基于投影的文字切割算法对区域块图像进行切换时,先将每一区域块图像进行垂直方向投影,获取垂直投影像素,若有连续的像素满足条件,则为一个字,进行切割,以形成单字体图像,并给该单字体图像进行顺序标注。本实施例中,服务器采用文字切割算法对区域块图像进行切割,以获取依据切割顺序形成的至少两个单字体图像,每一单字体图像为只包含一文字的图像,以便后续采用目标OCR识别模型对每一单字体图像进行逐一识别,提高识别准确率。可以理解地,在切割出每一单字体图像之后,给该单字体图像进行顺序标注,以便确定切割出来的所有单字体图像的切割顺序,以保障后续识别出的目标识别结果的准确率。
S602:将至少两个单字体图像依据切割顺序输入到目标OCR识别模型,获取与区域块图像相对应的目标识别结果,目标识别结果包括每一单字体图像对应的至少两个识别文字和与每一识别文字相对应的识别概率。
本实施例中,将至少两个单字体图像依据切割顺序输入到目标OCR识别模型中,获取与区域块图像相对应的目标识别结果。该目标识别结果包括每一单字体图像对应的至少两个识别文字和与每一识别文字相对应的识别概率。本实施例中,目标识别结果可包括每一单字体图像中识别概率最大的前三个识别文字和对应的识别概率,例如,“其”这一个单字体图像识别出来的识别文字分别为“其”、“甚”和“堪”,对应的识别概率分别为99.99%、84.23%和47.88%。
本实施例所提供的图像数据处理方法中,由于区域块图像为一行文本行形成的图像,采用文字切割算法只需进行一次垂直投影,即可快速对区域块图像进行切割,以获取至少两个单字体图像。然后,采用目标OCR识别模型对依据切割顺序输入的至少两个单字体图像进行逐一进行识别,以获取每一单字体图像对应的至少两个识别文字和对应的识别概率,以便后续基于至少两个识别文字和对应的识别概率,确定该区域块图像对应的目标文字,以避免直接依据每一单字体图像识别出的一个识别文字确定最终的目标文字,从而提高目标文字的识别准确率。
在一实施例中,如图7所示,基于识别文字和与识别文字相对应的识别概率,获取与区域块图像相对应的目标文字,包括:
S701:判断每一单字体图像是否存在识别概率大于预设概率阈值的识别文字。
其中,预设概率阈值是用于评估识别概率是否达到评估其为某一识别文字的阈值,该预设概率阈值可设置为较高的数值,以保证识别准确性。本实施例中,服务器将至少两个单字体图像对应的每一识别文字的识别概率与预设概率阈值进行比较,以判断每一单字体图像是否存在识别概率大于预设概率阈值的识别文字。在一实施例中,某一区域块图像切割成N个单字体图像,每个单字体图像对应的M个识别文字且每一个识别文字对应的识别概率,则服务器依次将N个单字体图像的M个识别概率与预设概率阈值进行比较,以确定每一单字体图像是否存在识别概率大于预设概率阈值的识别文字。例如,预设概率阈值设置为95%,“其”这一个单字体图像识别出来的识别文字分别为“其”、“甚”和“堪”,对应的识别概率分别为99.99%、84.23%和47.88%,则“其”这一个单字体图像存在识别概率大于预设概率阈值的识别文字,即“其”。
S702:若每一单字体图像均存在识别概率大于预设概率阈值的识别文字,则将识别概率大于预设概率阈值的识别文字确定为单字体图像对应的单字体文字,依据切割顺序对至少两个单字体图像对应的单字体文字进行排序,形成目标文字。
本实施例中,若至少两个单字体图像中,每一单字体图像均存在识别概率大于预设概率阈值的识别文字,则可认定该识别概率大于预设概率阈值的识别文字为该单字体图像对应的单字体文字,在确定至少两个单字体图像对应的单字体文字之后,依据区域块图像的切割顺序,对至少两个单字体图像对应的单字体文字进行排序,以形成目标文字。该单字体文字是通过识别判断后确定该单字体图像对应的文字。例如,“今天天气真好”这一区域块图像对于的六个单字体图像中,每一单字体图像中均存在识别概率大于预设概率阈值的识别文字,如“今”的识别概率为97%,“天”的识别概率为98%,“天”的识别概率为98%,“气”的识别概率为99%,“真”的识别概率为96%,“好”的识别概率为99%,则将识别概率大于预设概率阈值(如95%)的识别文字确定为单字体文字,依据切割顺序进行排序,以获取“今天天气真好”这一目标文字。
可以理解地,若至少两个单字体图像中,所有单字体图像均存在识别概率大于预设概率阈值的识别文字,则直接将该识别概率大于预设概率阈值的识别文字确定为单字体图像对应的单字体文字,依据切割顺序对至少两个单字体文字进行排序,以获取目标文字,其过程既保证目标文字的识别准确率(所有单字体文字的识别概率均大于预设概率阈值),又保证目标文字的识别效率(此时无需进行后续的识别操作,即无需执行步骤S703-S704)。
S703:若任一单字体图像不存在识别概率大于预设概率阈值的识别文字,则根据图像类型和位置信息,确定区域块图像对应的文本内容是否包含有语义文本内容。
本实施例中,若至少两个单字体图像中,任一单字体图像不存在识别概率大于预设概率阈值的识别文字,此时,不可以直接依据该识别概率确定其识别文字为单字体图像对应的单字体文字,其原因在于,存在至少一个单字体图像无法确定其对应的单字体文字,此时,需结合原始图像的图像类型和区域块图像的位置信息,确定该区域块图像对应的文本内容是否包含有语义文本内容。其中,有语义文本内容是指文本内容存在上下文关系的内容。与其相对应的概念为无语义文本内容,是指文本内容不存在上下文关系的内容。例如,“今天天气真好”这一区域块图像对于的六个单字体图像中,第一个单字体图像识别出“今”和“令”的识别概率分别为97%和84%,第二个单字体图像识别出“天”和“大”的识别概率分别为98%和83%,第三个单字体图像识别出“天”和“大”的识别概率分别为98%和84%,第四个单字体图像识别出“气”和“汽”的识别概率分别为99%和54%,第五个单字体图像识别出“直”和“真”的识别概率分别为87%和85%,第六个单字体图像识别出“好”和“妤”的识别概率分别为99%和76%,由于第五个单字体图像不存在识别概率大于预设概率阈值(如95%)的识别文字,因此,无法直接依据其识别概率确定对应的单字体文字,此时,需根据图像类型和位置信息,确定区域块图像对应的文本内容是否包含有语义文本内容。
本实施例中,根据原始图像的图像类型可确定该原始图像中文本行的文本内容,并依据该文本内容确定其是否为有语义文本内容。例如身份证对应的原始图像中,第一行内容为“姓名XXX”,第二行内容为“性别XX民族XX”,第三行内容为“出生XX年XX月XX日”,第四行内容为“地址XXX”,第五行内容为“公民身份号码XXX”,该姓名对应的文本内容为无语义文本内容,而地址和公民身份号码对应的文本内容包含有语义文本内容。由于每一图像类型对应的原始图像中各行的文本内容是否包含有语义文本内容,可根据每一区域块图像的位置信息确定其在原始图像中的位置,从而确定其对应的文本内容是否包含有语义文本内容,其确定过程操作简单方便。
S704:若区域块图像对应的文本内容包含有语义文本内容,则采用目标语言模型对至少两个单字体图像对应的至少两个识别文字形成词序列进行识别,获取词序列概率,基于词序列概率最大的词序列确定为目标文字。
其中,目标语言模型是基于N-gram的语言模型,N-gram是大词汇连续语音识别中常用的基于统计语言模型算法,利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而实现到汉字的自动转换,无需用户手动选择,避开许多汉字对应一个相同拼音而导致重码问题。N-gram基于马尔科夫假设:第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。
本实施例中,由于区域块图像中包括至少两个单字体图像,设为N(N≧2)个单字体图像,而每个单字体图像对应至少两个识别文字,设为M(M≧2)个识别文字,每一识别文字对应一识别概率,则基于N个单字体图像及每个单字体图像对应的M个识别文字,其所形成的词序列为N*M种,则本实施例中,需从N*M中选取概率最大的一种词序列确定为目标文字,以保障目标文字的识别准确率。具体地,服务器先采用最大似然估计(Maximum LikelihoodEstimate)计算n个识别文字组合所形成的词序列对应的的词序列概率,即采用计算N*M种识别文字组合所形成的词序列对应的词序列概率,其中,Wn为第n个识别文字,该识别文字可以为其对应的单字体图像对应的M个识别文字中的一个,(W1W2…Wn)为n个识别文字形成的一词序列;C(W1W2…Wn)为(W1W2…Wn)这一词序列的词序列频度;(W1W2…Wn-1)为n-1个识别文字组合形成的一词序列;C(W1W2…Wn-1)为(W1W2…Wn-1)这一词序列的词序列频度;P(Wn|W1W2…Wn-1)是指第n个识别文字形成的词序列出现在第n-1个识别文字组成的词序列之后的词序列概率。本实施例中,选取词序列概率最大的词序列确定为目标文字,以实现基于文本语义的上下文关系确定目标文字,以提高目标文字的识别准确率。其中,最大似然估计(Maximum Likelihood Estimate)是指估计的一种方法,建立在已知某个参数能使这个样本出现的概率最大,因此不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值的思想上。例如,“今天天气真好”这一区域块图像对于的六个单字体图像中,第一个单字体图像识别出“今”和“令”的识别概率分别为97%和84%,第二个单字体图像识别出“天”和“大”的识别概率分别为98%和83%,第三个单字体图像识别出“天”和“大”的识别概率分别为98%和84%,第四个单字体图像识别出“气”和“汽”的识别概率分别为99%和54%,第五个单字体图像识别出“直”和“真”的识别概率分别为87%和85%,第六个单字体图像识别出“好”和“妤”的识别概率分别为99%和76%,如采用目标语言模型识别出“今天天气真好”这一词序列的词序列概率大于“今天天气直好”这一词序列的词序列概率,则认定“今天天气真好”为目标文字。
相应地,若区域块图像对应的文本内容为无语义文本内容,则可以直接删除该区域块图像,以节省空间,避免空间冗余。还可以基于每一单字体图像对应的识别概率最大的识别文字形成待确认文字,并将该待确认文字发送给客户端,以使用户通过客户端对该待确认文字进行确认。若服务器获取用户通过客户端发送的确认指令,则将该待确认文字确定为目标文字,以保证目标文字的准确性。若服务器获取用户通过客户端发送的修改指令,以基于该修改指令对待确认文字进行修改,以获取目标文字,从而保证目标文字的准确性。
本实施例所提供的图像数据处理方法中,先判断每一单字体图像是否存在识别概率大于预设概率阈值的识别文字,在至少两个单字体图像中每一单字体图像均存在识别概率大于预设概率阈值的识别文字时,直接将该识别概率大于预设概率阈值的识别文字确定为该单字体图像的单字体文字,依据切割顺序对所有单字体文字进行排序,以获取目标文字,既保证目标文字的获取效率又保证目标文字的识别准确率。在至少两个单字体图像中任一单字体图像不存在识别概率大于预设概率阈值的识别文字时,若根据图像类型和区域块图像的位置信息确定其文本内容包含有语义文本内容,即可采用目标语言模型对至少两个单字体图像对应的至少两个识别文字形成词序列进行识别,以选取词序列概率最大的词序列确定为目标文字,以实现基于文本语义的上下文关系确定目标文字,以提高目标文字的识别准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种图像数据处理装置,该图像数据处理装置与上述实施例中图像数据处理方法一一对应。如图8所示,该图像数据处理装置包括原始图像获取模块801、区域块图像获取模块802、识别模型获取模块803、识别结果获取模块804和图像样本获取模块805。各功能模块详细说明如下:
原始图像获取模块801,用于采用爬虫工具爬取原始图像,每一原始图像对应一图像类型。
区域块图像获取模块802,用于采用文本定位算法对原始图像进行文本定位,获取至少一个文本行区域,并对每一文本行区域进行截图,获取对应的区域块图像,每一区域块图像对应一位置信息。
识别模型获取模块803,用于基于图像类型和区域块图像的位置信息,获取目标OCR识别模型。
识别结果获取模块804,用于采用目标OCR识别模型对区域块图像进行识别,获取与区域块图像相对应的目标识别结果,目标识别结果包括至少两个识别文字和与每一识别文字相对应的识别概率。
图像样本获取模块805,用于基于至少两个识别文字和与每一识别文字相对应的识别概率,获取与区域块图像相对应的目标文字,将目标文字确定为标注文本,基于区域块图像和标注文本,获取目标图像样本。
优选地,爬虫文件包括目标URL和搜索关键词。
原始图像获取模块801包括数据爬取任务获取单元、实时任务处理单元和定时任务处理单元。
数据爬取任务获取单元,用于获取数据爬取任务,数据爬取任务包括任务类型和文件标识。
实时任务处理单元,用于若任务类型为实时任务,则触发爬虫工具执行与文件标识相对应的爬虫文件,从目标URL对应的网站中爬取与搜索关键词相匹配的图像,确定为原始图像。
定时任务处理单元,用于若任务类型为定时任务,则触发时间监控工具,以使系统当前时间达到数据爬取任务中携带的定时触发时间时,触发爬虫工具执行与文件标识相对应的爬虫文件,从目标URL对应的网站中爬取与搜索关键词相匹配的图像,确定为原始图像。
优选地,在原始图像获取模块801之后,图像数据处理装置还包括图像锐化处理单元、目标方差值获取单元、第一图像处理单元和第二图像处理单元。
图像锐化处理单元,用于采用拉普拉斯算子对原始图像进行锐化处理,获取锐化图像。
目标方差值获取单元,用于对锐化图像的像素灰度值进行方差计算,获取锐化图像的目标方差值。
第一图像处理单元,用于若目标方差值大于预设阈值,则将锐化图像更新为原始图像。
第二图像处理单元,用于若目标方差值不大于预设阈值,则删除与目标方差值相对应的原始图像和锐化图像。
优选地,识别模型获取模块803包括图像属性获取单元、专用识别模型获取单元和通用识别模型获取单元。
图像属性获取单元,用于基于图像类型和区域块图像的位置信息,获取区域块图像的属性,属性包括专用属性和通用属性。
专用识别模型获取单元,用于若区域块图像的属性为专用属性,则将与专用属性相对应的专用OCR识别模型确定为目标OCR识别模型。
通用识别模型获取单元,用于若区域块图像的属性为通用属性,则将与通用属性相对应的通用OCR识别模型确定为目标OCR识别模型。
优选地,识别结果获取模块804包括单字体图像获取单元和目标识别结果获取单元。
单字体图像获取单元,用于采用文字切割算法对区域块图像进行切割,获取至少两个单字体图像。
目标识别结果获取单元,用于将至少两个单字体图像依据切割顺序输入到目标OCR识别模型,获取与区域块图像相对应的目标识别结果,目标识别结果包括每一单字体图像对应的至少两个识别文字和与每一识别文字相对应的识别概率。
优选地,图像样本获取模块805包括第一识别判断单元、第一目标文字获取单元、第二识别判断单元和第二目标文字获取单元。
第一识别判断单元,用于判断每一单字体图像是否存在识别概率大于预设概率阈值的识别文字。
第一目标文字获取单元,用于若每一单字体图像均存在识别概率大于预设概率阈值的识别文字,则将识别概率大于预设概率阈值的识别文字确定为单字体图像对应的单字体文字,依据切割顺序对至少两个单字体图像对应的单字体文字进行排序,形成目标文字。
第二识别判断单元,用于若任一单字体图像不存在识别概率大于预设概率阈值的识别文字,则根据图像类型和位置信息,确定区域块图像对应的文本内容是否包含有语义文本内容。
第二目标文字获取单元,用于若区域块图像对应的文本内容包含有语义文本内容,则采用目标语言模型对至少两个单字体图像对应的至少两个识别文字形成词序列进行识别,获取词序列概率,基于词序列概率最大的词序列确定为目标文字。
关于图像数据处理装置的具体限定可以参见上文中对于图像数据处理方法的限定,在此不再赘述。上述图像数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储处理器执行计算机程序以实现上述实施例中图像数据处理方法过程中产生的数据,包括但不限于目标图像样本。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像数据处理方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中图像数据处理方法的步骤,例如图2所示的步骤S201-S205,或者图3至图7中所示的步骤。或者,处理器执行计算机程序时实现图像数据处理装置这一实施例中的各模块/单元的功能,例如图8所示的原始图像获取模块801、区域块图像获取模块802、识别模型获取模块803、识别结果获取模块804和图像样本获取模块805的功能,为避免重复,这里不再赘述。
在一实施例中,提供一计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中图像数据处理方法的步骤,例如图2所示的步骤S201-S205,或者图3至图7中所示的步骤,为避免重复,这里不再赘述。或者,该计算机程序被处理器执行时实现上述图像数据处理装置这一实施例中的各模块/单元的功能,例如图8所示的原始图像获取模块801、区域块图像获取模块802、识别模型获取模块803、识别结果获取模块804和图像样本获取模块805的功能,为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种图像数据处理方法,其特征在于,包括:
采用爬虫工具爬取原始图像,每一所述原始图像对应一图像类型;
采用文本定位算法对所述原始图像进行文本定位,获取至少一个文本行区域,并对每一所述文本行区域进行截图,获取对应的区域块图像,每一所述区域块图像对应一位置信息;
基于所述图像类型和所述区域块图像的位置信息,获取目标OCR识别模型;
采用所述目标OCR识别模型对所述区域块图像进行识别,获取与所述区域块图像相对应的目标识别结果,所述目标识别结果包括至少两个识别文字和与每一所述识别文字相对应的识别概率;
基于至少两个所述识别文字和与每一所述识别文字相对应的识别概率,获取与所述区域块图像相对应的目标文字,将所述目标文字确定为标注文本,基于所述区域块图像和所述标注文本,获取目标图像样本。
2.如权利要求1所述的图像数据处理方法,其特征在于,所述爬虫文件包括目标URL和搜索关键词;
所述采用爬虫工具爬取原始图像,包括:
获取数据爬取任务,所述数据爬取任务包括任务类型和文件标识;
若所述任务类型为实时任务,则触发爬虫工具执行与所述文件标识相对应的爬虫文件,从所述目标URL对应的网站中爬取与所述搜索关键词相匹配的图像,确定为原始图像;
若所述任务类型为定时任务,则触发时间监控工具,以使系统当前时间达到所述数据爬取任务中携带的定时触发时间时,触发爬虫工具执行与所述文件标识相对应的爬虫文件,从所述目标URL对应的网站中爬取与所述搜索关键词相匹配的图像,确定为原始图像。
3.如权利要求1所述的图像数据处理方法,其特征在于,在所述采用爬虫工具爬取原始图像的步骤之后,所述图像数据处理方法还包括:
采用拉普拉斯算子对所述原始图像进行锐化处理,获取锐化图像;
对所述锐化图像的像素灰度值进行方差计算,获取所述锐化图像的目标方差值;
若所述目标方差值大于预设阈值,则将所述锐化图像更新为原始图像;
若所述目标方差值不大于预设阈值,则删除与所述目标方差值相对应的原始图像和锐化图像。
4.如权利要求1所述的图像数据处理方法,其特征在于,所述基于所述图像类型和所述区域块图像的位置信息,获取目标OCR识别模型,包括:
基于所述图像类型和所述区域块图像的位置信息,获取所述区域块图像的属性,所述属性包括专用属性和通用属性;
若所述区域块图像的属性为专用属性,则将与所述专用属性相对应的专用OCR识别模型确定为目标OCR识别模型;
若所述区域块图像的属性为通用属性,则将与所述通用属性相对应的通用OCR识别模型确定为目标OCR识别模型。
5.如权利要求1所述的图像数据处理方法,其特征在于,所述采用所述目标OCR识别模型对所述区域块图像进行识别,获取与所述区域块图像相对应的目标识别结果,所述目标识别结果包括至少两个识别文字和与每一所述识别文字相对应的识别概率,包括:
采用文字切割算法对所述区域块图像进行切割,获取至少两个单字体图像;
将至少两个所述单字体图像依据切割顺序输入到所述目标OCR识别模型,获取与所述区域块图像相对应的目标识别结果,所述目标识别结果包括每一所述单字体图像对应的至少两个识别文字和与每一所述识别文字相对应的识别概率。
6.如权利要求5所述的图像数据处理方法,其特征在于,所述基于所述识别文字和与所述识别文字相对应的识别概率,获取与所述区域块图像相对应的目标文字,包括:
判断每一所述单字体图像是否存在识别概率大于预设概率阈值的识别文字;
若每一所述单字体图像均存在识别概率大于预设概率阈值的识别文字,则将所述识别概率大于预设概率阈值的识别文字确定为所述单字体图像对应的单字体文字,依据所述切割顺序对至少两个所述单字体图像对应的单字体文字进行排序,形成所述目标文字;
若任一所述单字体图像不存在识别概率大于预设概率阈值的识别文字,则根据所述图像类型和所述位置信息,确定所述区域块图像对应的文本内容是否包含有语义文本内容;
若所述区域块图像对应的文本内容包含有语义文本内容,则采用目标语言模型对所述至少两个所述单字体图像对应的至少两个识别文字形成词序列进行识别,获取词序列概率,基于词序列概率最大的词序列确定为所述目标文字。
7.一种图像数据处理装置,其特征在于,包括:
原始图像获取模块,用于采用爬虫工具爬取原始图像,每一所述原始图像对应一图像类型;
区域块图像获取模块,用于采用文本定位算法对所述原始图像进行文本定位,获取至少一个文本行区域,并对每一所述文本行区域进行截图,获取对应的区域块图像,每一所述区域块图像对应一位置信息;
识别模型获取模块,用于基于所述图像类型和所述区域块图像的位置信息,获取目标OCR识别模型;
识别结果获取模块,用于采用所述目标OCR识别模型对所述区域块图像进行识别,获取与所述区域块图像相对应的目标识别结果,所述目标识别结果包括至少两个识别文字和与每一所述识别文字相对应的识别概率;
图像样本获取模块,用于基于至少两个所述识别文字和与每一所述识别文字相对应的识别概率,获取与所述区域块图像相对应的目标文字,将所述目标文字确定为标注文本,基于所述区域块图像和所述标注文本,获取目标图像样本。
8.如权利要求7所述的图像数据处理装置,其特征在于,所述识别结果获取模块包括:
单字体图像获取单元,用于采用文字切割算法对所述区域块图像进行切割,获取至少两个单字体图像;
目标识别结果获取单元,用于将至少两个所述单字体图像依据切割顺序输入到所述目标OCR识别模型,获取与所述区域块图像相对应的目标识别结果,所述目标识别结果包括每一所述单字体图像对应的至少两个识别文字和与每一所述识别文字相对应的识别概率。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述图像数据处理方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述图像数据处理方法的步骤。
CN201811106590.0A 2018-09-21 2018-09-21 图像数据处理方法、装置、计算机设备及存储介质 Pending CN109492143A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811106590.0A CN109492143A (zh) 2018-09-21 2018-09-21 图像数据处理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811106590.0A CN109492143A (zh) 2018-09-21 2018-09-21 图像数据处理方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN109492143A true CN109492143A (zh) 2019-03-19

Family

ID=65689372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811106590.0A Pending CN109492143A (zh) 2018-09-21 2018-09-21 图像数据处理方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN109492143A (zh)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008909A (zh) * 2019-04-09 2019-07-12 浩鲸云计算科技股份有限公司 一种基于ai的实名制业务实时稽核系统
CN110197238A (zh) * 2019-04-15 2019-09-03 广州企图腾科技有限公司 一种字体类别的识别方法、系统及终端设备
CN110428504A (zh) * 2019-07-12 2019-11-08 北京旷视科技有限公司 文本图像合成方法、装置、计算机设备和存储介质
CN110473418A (zh) * 2019-07-25 2019-11-19 平安科技(深圳)有限公司 危险路段识别方法、装置、服务器及存储介质
CN110555431A (zh) * 2019-09-10 2019-12-10 杭州橙鹰数据技术有限公司 一种图像识别的方法和装置
CN110569830A (zh) * 2019-08-01 2019-12-13 平安科技(深圳)有限公司 多语言文本识别方法、装置、计算机设备及存储介质
CN110647878A (zh) * 2019-08-05 2020-01-03 紫光西部数据(南京)有限公司 基于截屏图片的数据处理方法
CN110738522A (zh) * 2019-10-15 2020-01-31 卓尔智联(武汉)研究院有限公司 用户画像构建方法、装置、计算机设备和存储介质
CN110807486A (zh) * 2019-10-31 2020-02-18 北京达佳互联信息技术有限公司 类别标签的生成方法、装置、电子设备及存储介质
CN110942061A (zh) * 2019-10-24 2020-03-31 泰康保险集团股份有限公司 文字识别方法、装置、设备和计算机可读介质
CN111062391A (zh) * 2019-12-25 2020-04-24 创新奇智(青岛)科技有限公司 一种磁片初定位方法
CN111242024A (zh) * 2020-01-11 2020-06-05 北京中科辅龙科技股份有限公司 基于机器学习识别图纸内图例及文字的方法及系统
CN111274369A (zh) * 2020-01-09 2020-06-12 广东小天才科技有限公司 一种英文单词的识别方法及装置
CN111292327A (zh) * 2020-05-08 2020-06-16 成都派沃特科技股份有限公司 机房巡检方法、装置、设备及存储介质
CN111310693A (zh) * 2020-02-26 2020-06-19 腾讯科技(深圳)有限公司 图像中文本的智能标注方法、装置及存储介质
CN111401352A (zh) * 2020-03-13 2020-07-10 深圳前海环融联易信息科技服务有限公司 文本图片下划线识别方法、装置、计算机设备及存储介质
CN111814598A (zh) * 2020-06-22 2020-10-23 吉林省通联信用服务有限公司 一种基于深度学习框架的财务报表自动识别方法
CN111881050A (zh) * 2020-07-31 2020-11-03 北京爱奇艺科技有限公司 一种文本图层的剪裁方法、装置及电子设备
CN112101335A (zh) * 2020-08-25 2020-12-18 深圳大学 一种基于ocr和迁移学习的app违规监测方法
WO2021012570A1 (zh) * 2019-07-22 2021-01-28 深圳壹账通智能科技有限公司 数据录入方法、装置、设备及存储介质
CN112381091A (zh) * 2020-11-23 2021-02-19 北京达佳互联信息技术有限公司 视频内容识别方法、装置、电子设备及存储介质
CN112784825A (zh) * 2019-11-01 2021-05-11 株式会社理光 图片中文字的识别方法、关键字检索方法、装置及设备
CN112861571A (zh) * 2019-11-26 2021-05-28 佛山市云米电器科技有限公司 家电设备控制方法、控制设备及计算机可读存储介质
CN112926564A (zh) * 2021-02-25 2021-06-08 中国平安人寿保险股份有限公司 图片分析方法、系统、计算机设备和计算机可读存储介质
CN113673507A (zh) * 2020-08-10 2021-11-19 广东电网有限责任公司 电力专业的设备铭牌识别算法
CN113822280A (zh) * 2020-06-18 2021-12-21 阿里巴巴集团控股有限公司 文本识别方法、装置、系统和非易失性存储介质
CN114492733A (zh) * 2021-12-29 2022-05-13 北京百度网讯科技有限公司 一种文本检测方法、装置、设备及存储介质
CN115019291A (zh) * 2021-11-22 2022-09-06 荣耀终端有限公司 图像的文字识别方法、电子设备及存储介质
CN115035520A (zh) * 2021-11-22 2022-09-09 荣耀终端有限公司 图像的文字识别方法、电子设备及存储介质
CN113822280B (zh) * 2020-06-18 2024-07-09 阿里巴巴集团控股有限公司 文本识别方法、装置、系统和非易失性存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620680A (zh) * 2008-07-03 2010-01-06 三星电子株式会社 字符图像的识别和翻译方法以及装置
US9165406B1 (en) * 2012-09-21 2015-10-20 A9.Com, Inc. Providing overlays based on text in a live camera view
WO2018010657A1 (zh) * 2016-07-15 2018-01-18 北京市商汤科技开发有限公司 结构化文本检测方法和系统、计算设备
CN107798299A (zh) * 2017-10-09 2018-03-13 平安科技(深圳)有限公司 票据信息识别方法、电子装置及可读存储介质
CN108288078A (zh) * 2017-12-07 2018-07-17 腾讯科技(深圳)有限公司 一种图像中字符识别方法、装置和介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620680A (zh) * 2008-07-03 2010-01-06 三星电子株式会社 字符图像的识别和翻译方法以及装置
US9165406B1 (en) * 2012-09-21 2015-10-20 A9.Com, Inc. Providing overlays based on text in a live camera view
WO2018010657A1 (zh) * 2016-07-15 2018-01-18 北京市商汤科技开发有限公司 结构化文本检测方法和系统、计算设备
CN107798299A (zh) * 2017-10-09 2018-03-13 平安科技(深圳)有限公司 票据信息识别方法、电子装置及可读存储介质
CN108288078A (zh) * 2017-12-07 2018-07-17 腾讯科技(深圳)有限公司 一种图像中字符识别方法、装置和介质

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008909A (zh) * 2019-04-09 2019-07-12 浩鲸云计算科技股份有限公司 一种基于ai的实名制业务实时稽核系统
CN110197238A (zh) * 2019-04-15 2019-09-03 广州企图腾科技有限公司 一种字体类别的识别方法、系统及终端设备
CN110197238B (zh) * 2019-04-15 2023-09-26 广州企图腾科技有限公司 一种字体类别的识别方法、系统及终端设备
CN110428504A (zh) * 2019-07-12 2019-11-08 北京旷视科技有限公司 文本图像合成方法、装置、计算机设备和存储介质
CN110428504B (zh) * 2019-07-12 2023-06-27 北京旷视科技有限公司 文本图像合成方法、装置、计算机设备和存储介质
WO2021012570A1 (zh) * 2019-07-22 2021-01-28 深圳壹账通智能科技有限公司 数据录入方法、装置、设备及存储介质
CN110473418A (zh) * 2019-07-25 2019-11-19 平安科技(深圳)有限公司 危险路段识别方法、装置、服务器及存储介质
CN110473418B (zh) * 2019-07-25 2022-05-20 平安科技(深圳)有限公司 危险路段识别方法、装置、服务器及存储介质
CN110569830A (zh) * 2019-08-01 2019-12-13 平安科技(深圳)有限公司 多语言文本识别方法、装置、计算机设备及存储介质
CN110569830B (zh) * 2019-08-01 2023-08-22 平安科技(深圳)有限公司 多语言文本识别方法、装置、计算机设备及存储介质
CN110647878A (zh) * 2019-08-05 2020-01-03 紫光西部数据(南京)有限公司 基于截屏图片的数据处理方法
CN110555431B (zh) * 2019-09-10 2022-12-13 杭州橙鹰数据技术有限公司 一种图像识别的方法和装置
CN110555431A (zh) * 2019-09-10 2019-12-10 杭州橙鹰数据技术有限公司 一种图像识别的方法和装置
CN110738522A (zh) * 2019-10-15 2020-01-31 卓尔智联(武汉)研究院有限公司 用户画像构建方法、装置、计算机设备和存储介质
CN110738522B (zh) * 2019-10-15 2022-12-09 卓尔智联(武汉)研究院有限公司 用户画像构建方法、装置、计算机设备和存储介质
CN110942061A (zh) * 2019-10-24 2020-03-31 泰康保险集团股份有限公司 文字识别方法、装置、设备和计算机可读介质
CN110807486A (zh) * 2019-10-31 2020-02-18 北京达佳互联信息技术有限公司 类别标签的生成方法、装置、电子设备及存储介质
CN112784825B (zh) * 2019-11-01 2024-04-30 株式会社理光 图片中文字的识别方法、关键字检索方法、装置及设备
CN112784825A (zh) * 2019-11-01 2021-05-11 株式会社理光 图片中文字的识别方法、关键字检索方法、装置及设备
CN112861571A (zh) * 2019-11-26 2021-05-28 佛山市云米电器科技有限公司 家电设备控制方法、控制设备及计算机可读存储介质
CN111062391A (zh) * 2019-12-25 2020-04-24 创新奇智(青岛)科技有限公司 一种磁片初定位方法
CN111062391B (zh) * 2019-12-25 2023-09-19 创新奇智(青岛)科技有限公司 一种磁片初定位方法
CN111274369A (zh) * 2020-01-09 2020-06-12 广东小天才科技有限公司 一种英文单词的识别方法及装置
CN111242024A (zh) * 2020-01-11 2020-06-05 北京中科辅龙科技股份有限公司 基于机器学习识别图纸内图例及文字的方法及系统
CN111310693A (zh) * 2020-02-26 2020-06-19 腾讯科技(深圳)有限公司 图像中文本的智能标注方法、装置及存储介质
CN111310693B (zh) * 2020-02-26 2023-08-29 腾讯科技(深圳)有限公司 图像中文本的智能标注方法、装置及存储介质
CN111401352A (zh) * 2020-03-13 2020-07-10 深圳前海环融联易信息科技服务有限公司 文本图片下划线识别方法、装置、计算机设备及存储介质
CN111401352B (zh) * 2020-03-13 2023-10-20 深圳前海环融联易信息科技服务有限公司 文本图片下划线识别方法、装置、计算机设备及存储介质
CN111292327A (zh) * 2020-05-08 2020-06-16 成都派沃特科技股份有限公司 机房巡检方法、装置、设备及存储介质
CN113822280B (zh) * 2020-06-18 2024-07-09 阿里巴巴集团控股有限公司 文本识别方法、装置、系统和非易失性存储介质
CN113822280A (zh) * 2020-06-18 2021-12-21 阿里巴巴集团控股有限公司 文本识别方法、装置、系统和非易失性存储介质
CN111814598A (zh) * 2020-06-22 2020-10-23 吉林省通联信用服务有限公司 一种基于深度学习框架的财务报表自动识别方法
CN111881050A (zh) * 2020-07-31 2020-11-03 北京爱奇艺科技有限公司 一种文本图层的剪裁方法、装置及电子设备
CN111881050B (zh) * 2020-07-31 2024-06-04 北京爱奇艺科技有限公司 一种文本图层的剪裁方法、装置及电子设备
CN113673507A (zh) * 2020-08-10 2021-11-19 广东电网有限责任公司 电力专业的设备铭牌识别算法
CN112101335A (zh) * 2020-08-25 2020-12-18 深圳大学 一种基于ocr和迁移学习的app违规监测方法
CN112381091A (zh) * 2020-11-23 2021-02-19 北京达佳互联信息技术有限公司 视频内容识别方法、装置、电子设备及存储介质
CN112381091B (zh) * 2020-11-23 2024-07-12 北京达佳互联信息技术有限公司 视频内容识别方法、装置、电子设备及存储介质
CN112926564A (zh) * 2021-02-25 2021-06-08 中国平安人寿保险股份有限公司 图片分析方法、系统、计算机设备和计算机可读存储介质
CN115035520A (zh) * 2021-11-22 2022-09-09 荣耀终端有限公司 图像的文字识别方法、电子设备及存储介质
CN115019291A (zh) * 2021-11-22 2022-09-06 荣耀终端有限公司 图像的文字识别方法、电子设备及存储介质
CN114492733A (zh) * 2021-12-29 2022-05-13 北京百度网讯科技有限公司 一种文本检测方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109492143A (zh) 图像数据处理方法、装置、计算机设备及存储介质
US11227185B2 (en) Identifying visually similar digital images utilizing deep learning
US11068737B2 (en) Predicting land covers from satellite images using temporal and spatial contexts
US11842487B2 (en) Detection model training method and apparatus, computer device and storage medium
KR102592270B1 (ko) 얼굴 랜드마크 검출 방법과 장치, 컴퓨터 장치, 및 저장 매체
CN107656922B (zh) 一种翻译方法、装置、终端及存储介质
US11782928B2 (en) Computerized information extraction from tables
CN109241904A (zh) 文字识别模型训练、文字识别方法、装置、设备及介质
CN111027563A (zh) 一种文本检测方法、装置及识别系统
US10140315B1 (en) Identifying visual portions of visual media files responsive to visual portions of media files submitted as search queries
US11264126B2 (en) Predictive data analysis using image representations of categorical and scalar feature data
CN111507330B (zh) 习题识别方法、装置、电子设备及存储介质
US11875512B2 (en) Attributionally robust training for weakly supervised localization and segmentation
US11373751B2 (en) Predictive data analysis using image representations of categorical and scalar feature data
US11494898B2 (en) Predictive data analysis using image representations of categorical and scalar feature data
US11295136B2 (en) Predictive data analysis using image representations of categorical and scalar feature data
CN111368761B (zh) 店铺营业状态识别方法、装置、可读存储介质和设备
CN111832561B (zh) 基于计算机视觉的字符序列识别方法、装置、设备和介质
CN111444906B (zh) 基于人工智能的图像识别方法和相关装置
CN114677695A (zh) 表格解析方法、装置、计算机设备和存储介质
Ahmed et al. Learning to extract buildings from ultra-high-resolution drone images and noisy labels
CN113283432A (zh) 图像识别、文字排序方法及设备
CN112766269B (zh) 一种图片文本检索方法、智能终端及存储介质
US20220343104A1 (en) Predictive data analysis using image representations of categorical data to determine temporal patterns
CN115880702A (zh) 数据处理方法、装置、设备、程序产品及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination