CN109343920A - 一种图像处理方法及其装置、设备和存储介质 - Google Patents
一种图像处理方法及其装置、设备和存储介质 Download PDFInfo
- Publication number
- CN109343920A CN109343920A CN201811053229.6A CN201811053229A CN109343920A CN 109343920 A CN109343920 A CN 109343920A CN 201811053229 A CN201811053229 A CN 201811053229A CN 109343920 A CN109343920 A CN 109343920A
- Authority
- CN
- China
- Prior art keywords
- image
- processed
- region
- feature point
- object region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供一种图像处理方法及其装置、设备和存储介质,其中,所述方法包括:确定待处理图像的第一目标区域;将所述待处理图像中除所述第一目标区域之外的像素值处理为预设值,得到预处理图像;对所述预处理图像中与所述第一目标区域对应的第二目标区域进行识别,得到所述第二目标区域的识别信息;基于所述第一目标区域与所述第二目标区域之间的对应关系,根据所述识别信息对所述待处理图像中的第一目标区域进行处理。
Description
技术领域
本发明涉及图像处理技术领域,涉及但不限于一种图像处理方法及其装置、设备和存储介质。
背景技术
随着互联网技术和无线通信技术的发展,用户终端上会安装生活、学习、娱乐所需的各种应用,例如用户会在终端上安装各种游戏应用(Application,APP)来打发空闲时间,当用户面对从未见过或玩过的游戏APP时,可能对游戏用户交互界面(User Interface,UI)上的可操作按钮的作用不是很熟悉,为解决这一问题,往往需要开发人员在游戏APP发布之前对各个UI图像进行标注,以便于用户理解。另外,UI图像的标注数据集可以用于UI图像检索。在标注数据集中查询某个可操作元素的名称,获得一批具有相同可操作元素的UI图像,达到图像检索的目的。
目前,有两种比较常见的图像标注方法:基于多标签分类的UI图像标注方法和基于目标检测的UI图像标注方法。其中,基于多标签分类的UI图像标注方法至少存在以下缺点:1)对UI图像全局信息的标注较好,但是对UI图像局部信息的标注较差。2)标签空间维度较高,随着标签数量的增加,分类模型的训练难度增大。基于目标检测的UI图像标注方法至少存在以下缺点:只能标注UI图像中常见目标的位置和类别,难以标注UI图像中不常见的目标。
发明内容
有鉴于此,本发明实施例期望提供一种图像处理方法及其装置、设备和存储介质,解决了现有技术方案中的进行图像标注时,标注信息不准确且效率低下的问题,采用先检测后识别的方式自动地标注图像中目标区域的名称和位置信息,不仅标注效率高,并且标注信息准确。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种图像处理方法,所述方法包括:
确定待处理图像的第一目标区域;
将所述待处理图像中除所述第一目标区域之外的像素值处理为预设值,得到预处理图像;
对所述预处理图像中与所述第一目标区域对应的第二目标区域进行识别,得到所述第二目标区域的识别信息;
基于所述第一目标区域与所述第二目标区域之间的对应关系,根据所述识别信息对所述待处理图像中的第一目标区域进行处理。
本发明实施例提供一种图像处理装置,所述装置包括:第一确定模块、预处理模块、识别模块和处理模块,其中:
所述第一确定模块,用于确定待处理图像的第一目标区域;
所述预处理模块,用于将所述待处理图像中除所述第一目标区域之外的像素值处理为预设值,得到预处理图像;
所述识别模块,用于对所述预处理图像中与所述第一目标区域对应的第二目标区域进行识别,得到所述第二目标区域的识别信息;
所述处理模块,用于基于所述第一目标区域与所述第二目标区域之间的对应关系,根据所述识别信息对所述待处理图像中的第二目标区域进行处理。
本发明实施例提供一种图像处理设备,所述设备至少包括:存储器、通信总线和处理器,其中:
所述存储器,用于存储图像处理程序;
所述通信总线,用于实现处理器和存储器之间的连接通信;
所述处理器,用于执行存储器中存储的图像处理程序,以实现本发明实施例提供的图像处理方法中的步骤。
本发明实施例提供一种存储介质,所述存储介质上存储有图像处理程序,所述图像处理程序被处理器执行时实现如上所述的图像处理方法的步骤。
本发明实施例提供一种图像处理方法及其装置、设备和存储介质,其中,首先确定待处理图像的第一目标区域;然后将所述待处理图像中除所述第一目标区域之外的像素值处理为预设值,得到预处理图像;再对所述预处理图像中与所述第一目标区域对应的第二目标区域进行识别,得到所述第二目标区域的识别信息;最后基于所述第一目标区域与所述第二目标区域之间的对应关系,根据所述识别信息对所述待处理图像中的第一目标区域进行处理;如此,采用先检测后识别的方式对图像进行处理,当应用于图像标注过程中时能够自动地标注图像中目标区域的信息,不仅标注效率高,并且标注信息准确。
附图说明
图1为本发明实施例网络架构的示意图;
图2为本发明实施例图像处理方法的实现流程示意图;
图3为本发明实施例图像处理方法的实现流程示意图;
图4为本发明实施例图像处理方法的实现框架示意图;
图5为本发明实施例区域检测的实现流程示意图;
图6为本发明实施例所使用的YOLO-V3网络结构示意图;
图7为本发明实施例文字识别过程的实现流程示意图;
图8为本发明实施例区域排除实现过程示意图;
图9为本发明实施例图像识别过程的实现流程示意图;
图10a为本发明实施例模板数据库中的模板图像的分类示意图;
图10b为本发明实施例在游戏UI图像中显示标注信息的界面示意图;
图11为本发明实施例图像处理装置的组成结构示意图
图12为本发明实施例图像处理设备的组成结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对发明的具体技术方案做进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1为本发明实施例网络架构的示意图,如图1所示,该网络架构包括图像处理设备11和服务器12,其中,图像处理设备11与服务器12之间可以建立有线或者无线网络连接,由此,图像处理设备11与服务器12之间便能够基于该网络连接进行数据传输。图像处理设备11中可以安装有各种APP,例如游戏APP、即时通讯APP、购物APP等,图像处理设备11首先获取待标注的UI图像,并进行区域检测确定出目标区域和目标区域的位置信息,进而将包含目标区域的图像发送至服务器12进行文字识别,并接收服务器12发送的识别结果进而获取包含文字的目标区域的标注信息,然后再对不包含文字的目标区域进行图像识别,获取不包含文字的目标区域的标注信息,最后基于获取到的标注信息对待处理图像进行处理。
需要说明的是,在实际实现过程中,服务器12可以是一台服务器,也可以是由多台服务器构成的服务器集群、云计算中心等等,在此不加以限定。
为了更好地理解本发明实施例,这里首先对OCR文字识别和图像识别中的相关算法进行说明。
光学字符识别(Optical Character Recognition,OCR)是指电子设备检查图像中的字符,然后用字符识别方法将形状翻译成计算机文字的过程,因此OCR文字识别技术可以认为是通过对图像文件进行分析处理,将图片、照片上的文字内容,直接转换为可编辑文本的一种技术。
OCR识别过程主要包括以下步骤:
第一步,图像输入;
第二步,对图像进行二值化处理;
这里,当输入的图像是彩色图像时,由于彩色图像所含信息量巨大,对于图片的内容,可以简单的分为前景与背景,为了让计算机更快的,更好的识别文字,需要先对彩色图进行处理,使图片只前景信息与背景信息,可以简单的定义前景信息为黑色,背景信息为白色,这时就得到了二值化图。
第三步,噪声去除;
这里,对于不同的图像,对噪声的定义可以不同,根据噪声的特征进行去噪,就叫做噪声去除。
第四步,倾斜校正;
这里,如果输出的图像是倾斜的,这就需要文字识别软件进行校正。
第五步,字符切割:
这里,如果图像中具有字符粘连或断笔的现象,会极大地限制识别系统的性能,这就需要进行字符切割。
第六步,字符识别;
这里,字符识别可以通过模板匹配或者特征提取的方式实现。
目前在实际应用过程中,电子设备在进行ORC文字识别时,可以通过离线识别方式或者在线识别方式实现。当采用离线识别方式实现时,可以是电子设备调用OCR接口,然后通过OCR技术对图像进行文字识别;当采用在线识别方式实现时,可以是电子设备通过调用OCR接口,将图像发送给服务器,由服务器对图像进行文字识别,再将识别结果发送给电子设备。
在进行图像识别时,首先需要对图像特征进行提取,这里对本发明实施例用到的特征提取算法进行说明。
定向FAST和旋转BRIEF(Oriented FAST and Rotated BRIEF,ORB)是一种快速特征点提取和描述的算法。ORB算法分为两部分,分别是特征点提取和特征点描述,在此对特征点提取进行相关说明。特征提取是由FAST(Features from Accelerated Segment Test)算法发展来的,在使用FAST提取出特征点之后,给其定义一个特征点方向,以此来实现特征点的旋转不变形。FAST算法是公认的最快的特征点提取方法。FAST算法提取的特征点非常接近角点类型,ORB特征提取包括以下步骤:
步骤一:粗提取。
这里,通过粗提取能够提取大量的特征点,但是有很大一部分的特征点的质量不高。在实现时,可以首先从图像中选取一点P,判断该点是不是特征点的方法是,以P为圆心画一个半径为3pixel的圆。圆周上如果有连续n个像素点的灰度值比P点的灰度值大或者小,则认为P为特征点。一般n设置为12。为了加快特征点的提取,快速排出非特征点,首先检测1、9、5、13位置上的灰度值,如果P是特征点,那么这四个位置上有3个或3个以上的像素值都大于或者小于P点的灰度值。如果不满足,则直接排出此点。
步骤二:机器学习的方法筛选最优特征点。
简单来说就是使用ID3算法训练一个决策树,将特征点圆周上的16个像素输入决策树中,以此来筛选出最优的FAST特征点。
步骤三:非极大值抑制去除局部较密集特征点。
使用非极大值抑制算法去除临近位置多个特征点的问题。为每一个特征点计算出其响应大小。计算方式是特征点P和其周围16个特征点偏差的绝对值和。在比较临近的特征点中,保留响应值较大的特征点,删除其余的特征点。
步骤四:特征点的尺度不变形。
这里,通过建立金字塔,来实现特征点的多尺度不变性。设置一个比例因子(scaleFactor,)和金字塔的层数(nlevels),将原图像按比例因子缩小成nlevels幅图像。缩放后的图像为:I’=I/scaleFactork(k=1,2,…,nlevels)。nlevels幅不同比例的图像提取特征点总和作为这幅图像的特征点。
步骤五:特征点的旋转不变性。
这里,ORB算法提出使用矩(moment)法来确定FAST特征点的方向。也就是说通过矩来计算特征点以r为半径范围内的质心,特征点坐标到质心形成一个向量作为该特征点的方向。
尺度不变特征变换(Scale-invariant feature transform,SIFT),是用于图像处理领域的一种描述。这种描述具有尺度不变性,可在图像中检测出关键点,是一种局部特征描述子。
SIFT特征检测主要包括以下4个基本步骤:
步骤一:尺度空间极值检测;
这里,搜索所有尺度上的图像位置。通过高斯微分函数来识别潜在的对于尺度和旋转不变的兴趣点。
步骤二:关键点定位;
这里,在每个候选的位置上,通过一个拟合精细的模型来确定位置和尺度。关键点的选择依据于它们的稳定程度。
步骤三:方向确定;
这里,基于图像局部的梯度方向,分配给每个关键点位置一个或多个方向。所有后面的对图像数据的操作都相对于关键点的方向、尺度和位置进行变换,从而提供对于这些变换的不变性。
步骤四:关键点描述;
这里,在每个关键点周围的邻域内,在选定的尺度上测量图像局部的梯度。这些梯度被变换成一种表示,这种表示允许比较大的局部形状的变形和光照变化。
加速稳健特征(Speeded Up Robust Features,SURF),是一种稳健的局部特征点检测和描述算法。Surf是对SIFT算法的改进,提升了算法的执行效率,为算法在实时计算机视觉系统中应用提供了可能。
Surf改进了特征的提取和描述方式,用一种更为高效的方式完成特征的提取和描述,实现流程包括如下步骤:
步骤一:构建黑塞矩阵(Hessian),生成所有的兴趣点,用于特征的提取;
这里,构建Hessian矩阵的目的是为了生成图像稳定的边缘点(突变点),为特征提取做好基础。构建Hessian矩阵的过程可以认为是对应于Sift算法中的高斯卷积过程。
步骤二:构建尺度空间;
这里,在Surf中,不同组间图像的尺寸都是一致的,不同的是不同组间使用的盒式滤波器的模板尺寸逐渐增大,同一组间不同层间使用相同尺寸的滤波器,但是滤波器的模糊系数逐渐增大。
步骤三:特征点定位;
这里,将经过Hessian矩阵处理的每个像素点与二维图像空间和尺度空间邻域内的26个点进行比较,初步定位出关键点,再经过滤除能量比较弱的关键点以及错误定位的关键点,筛选出最终的稳定的特征点。
步骤四:特征点主方向分配;
这里,在Surf中,采用的是统计特征点圆形邻域内的harr小波特征。即在特征点的圆形邻域内,统计60度扇形内所有点的水平、垂直harr小波特征总和,然后扇形以0.2弧度大小的间隔进行旋转并再次统计该区域内harr小波特征值之后,最后将值最大的那个扇形的方向作为该特征点的主方向。
步骤五:生成特征点描述子;
这里,在特征点周围取一个4*4的矩形区域块,取得矩形区域方向是沿着特征点的主方向。每个子区域统计25个像素的水平方向和垂直方向的haar小波特征,这里的水平和垂直方向都是相对主方向而言的。该haar小波特征为水平方向值之后、垂直方向值之后、水平方向绝对值之后以及垂直方向绝对值之和4个方向。把这4个值作为每个子块区域的特征向量,所以一共有4*4*4=64维向量作为Surf特征的描述子。
步骤六:特征点匹配;
这里,与Sift特征点匹配类似,Surf也是通过计算两个特征点间的欧式距离来确定匹配度,欧氏距离越短,代表两个特征点的匹配度越好。不同的是Surf还加入了Hessian矩阵迹的判断,如果两个特征点的矩阵迹正负号相同,代表这两个特征具有相同方向上的对比度变化,如果不同,说明这两个特征点的对比度变化方向是相反的,即使欧氏距离为0,也直接予以排除。
k-近邻(k-Nearest Neighboors,k-NN)算法是目前机器学习中唯一一个不需要训练过程的算法,可以别认为是没有模型的算法,也可以认为训练数据集就是模型本身。K-NN是通过测量不同特征值之间的距离进行分类,在实现时,如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。k通常是不大于20的整数。k-NN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
结合图1所示的网络架构示意图,以下对图像处理方法及图像处理装置、设备的各实施例进行说明。
为了更好的理解本发明实施例中提供的图像处理方法,首先对相关技术中的线下标注和线上标注进行说明。
线下标注是指对已经收集的大量游戏UI图像进行图像标注,以构建一个游戏UI图像数据集。线下标注可以是人工进行处理,但人工标注图像速度较慢,标注一张游戏UI图像需要30秒左右,并且还要对标注后的图像进行复查。
线上标注是对手机上截取的实时游戏UI图像进行图像标注,获取当前游戏UI图像中可操作元素的名称和位置。标注的结果可以用于UI自动化测试,只需编写一个包含可操作元素名称的脚本,便可以通过程序点击相应UI图像中可操作元素的位置,完成特定功能的UI测试,比人工测试更为便利。
本实施例提供一种图像处理方法,图2为本发明实施例图像处理方法的实现流程示意图,如图2所示,所述方法包括以下步骤:
步骤S201,确定待处理图像的第一目标区域。
这里,所述步骤S201可以是由图像处理设备实现的,进一步地,所述图像处理设备可以是智能终端,例如可以是移动电话、平板电脑、笔记本电脑等具有无线通信能力的移动终端,还可以是具有计算能力的台式计算机、桌面电脑等不便移动的终端。
所述待处理图像可以是UI图像,例如可以是游戏应用中的UI图像,还可以是购物应用中的UI图像、在本发明实施例中,所述第一目标区域可以是所述待处理图像中可操作元素所在的区域,这里所说的可操作元素可以是认为是能够进行点击、拖拽等操作的按钮或者选项卡。
所述步骤S201是基于深度学习实现的。在实际实现过程中,如果所述待处理图像的尺寸为第一预设尺寸,那么直接将所述待处理图像输入一个预设的已经训练好的卷积神经网络中,得到第一输出结果,然后再根据输出结果来确定所述待处理图像中的第一目标区域;如果所待处理图像的尺寸不为第一预设尺寸,那么将所述待处理图像进行转换,得到第一预设尺寸大小的转换后的待处理图像;然后将转换后的待处理图像输入该卷积神经网络,得到转换后的待处理图像中的待识别区域,最后再根据所述待处理图像和所述转换后的待处理图像的对应关系和待识别区域的位置信息,来确定所述待处理图像中的第一目标区域。
在本实施例中,可以使用基于卷积神经网络的目标检测模型只需看一眼(YouOnly Look Once,YOLO-V3)网络来确定待处理图像中的第一目标区域,当然,也可以使用其他卷积神经网络模型来确定待处理图像中的第一目标区域,本发明实施例不做限定。
需要说明的是,所述第一预设尺寸的高度和宽度是相等的,例如所述第一预设尺寸可以是416*416像素。
步骤S202,将所述待处理图像中除所述第一目标区域之外的像素值处理为预设值,得到预处理图像。
这里,所述步骤S202可以是由图像处理设备实现的。
所述步骤S202可以通过以下两种方式实现:
第一种方式:首先生成一张和所述待处理图像大小一致的第三图像,并将第三图像中所有像素置为一个预设值,例如将所有像素置为0;然后再根据待处理图像中的第一目标区域的位置信息,将所述第一目标区域的图像拷贝到所述第三图像中。
第二种实现方式:首先拷贝一张和所述待处理图像一样的第四图像,然后根据第一目标区域的位置信息,将所述第四图像中除所述第一目标区域之外的像素值设置为预设值。
经过上述预处理后,得到预处理图像,在所述预处理图像中,可以认为是仅包括与第一目标区域相对应的第二目标区域的图像,这样,在后续的识别过程中,只需要对第二目标区域的图像进行识别,能够有效提高处理效率。
步骤S203,对所述预处理图像中第二目标区域进行识别,得到所述第二目标区域的识别信息。
这里,所述步骤S203可以是由图像处理设备实现的,所述识别信息至少包括所述第二目标区域的位置信息和第二目标区域的标识信息,从而克服了基于多标签分类的UI图像标注方法仅仅对UI图像标注了多个标签,不能获得标签在UI图像中对应的位置的技术问题。所述第二目标区域的标识信息为第二目标区域中包括的文字内容,或者为第二目标区域的图像的类别信息,这样就能够准确地确定第二目标区域的标识信息,从而克服了基于目标检测的UI图像标注方法类别的名称通常较为宽泛,不能具体为可操作元素的名称的技术问题。
所述步骤S203在实现过程中,可以是对第二目标区域中的文字区域进行文字识别,以获取文字区域中所包含的文字内容和位置信息,对目标区域中的非文字区域进行图像识别,结合模板数据库来确定非文字区域的类别信息,这样使用文字识别和图像识别,就可以准确地得到全部目标区域的名称和位置信息,从而能够进一步提高图像标注的准确性。
步骤S204,基于所述第一目标区域与所述第二目标区域之间的对应关系,根据所述识别信息对所述待处理图像中的第一目标区域进行处理。
这里,所述步骤S204可以是由图像处理设备实现的。
在本实施例中,所述预处理图像与所述待处理图像的尺寸是相同的,因此第一目标区域与第二目标区域的位置也是一一对应的。在其他实施例中,如果所述预处理图像与所述待标注的图像的尺寸不同,还需要根据两者的尺寸以及所述预处理图像中第二目标区域的位置信息,对待处理图像中与第二目标区域对应的第一目标区域进行处理。
在本实施例中,根据所述识别信息对所述待处理图像中的第一目标区域进行处理,可以是将所述识别信息作为所述第一目标区域的标识信息,对所述第一目标区域进行标注。
经过步骤S201至步骤S204就得到了携带有标注信息的标注图像,标注图像也可以理解为,在UI图像中,对指定内容所在图像区域加以特殊标记进行标识而形成的。其中,特殊标记则可以是方框标记,还可以是圆形标记,或者文字标记等等,在本实施例中不加以限定。
在本发明实施例提供的图像处理方法中,首先确定待处理图像的第一目标区域;然后将所述待处理图像中除所述第一目标区域之外的像素值处理为预设值,得到预处理图像;再对所述预处理图像中与所述第一目标区域对应的第二目标区域进行识别,得到所述第二目标区域的识别信息;最后基于所述第一目标区域与所述第二目标区域之间的对应关系,根据所述识别信息对所述待处理图像中的第一目标区域进行处理,在本实施例中是对第一目标区域进行标注;如此,采用先检测后识别的方式自动地标注图像中目标区域的名称和位置信息,不仅标注效率高,并且标注信息准确。
本发明实施例再提供一种图像处理方法,图3为本发明实施例图像处理方法的实现流程示意图,如图3所示,所述方法包括以下步骤:
步骤S301,图像处理设备获取待处理图像。
这里,所述待处理图像可以是UI图像,例如,可以是游戏应用中的UI图像,还可以是其他应用中的UI图像;当然也可以不是UI图像。所述待处理图像可以是预先选择设置好的,还可以是从正在运行的游戏应用或其他应用中实时获取的。
步骤S302,所述图像处理设备将所述待处理图像输入预设的卷积神经网络,得到第一输出结果。
这里,所述预设的卷积神经网络是利用若干个已标注的训练样本训练好的,所述卷积神经网络可以是YOLO-V3网络,还可以是其他用于目标检测的卷积神经网络,例如,可以是基于区域的卷积神经网络(Regions with Convolutional Neural Network,R-CNN)、快速基于区域的卷积神经网络(Fast R-CNN)、空间金字塔池网络(Spatial PyramidPooling Net,SPP-Net)、YOLO-V1、YOLO-V2等等。所述第一输出结果至少包括每一分块区域的第一置信度,在其他实施例中,所述第一输出结果还可以包括每一分块区域的位置信息。
需要说明的是,在步骤S302中,需要要求所述待处理图像的尺寸为第一预设尺寸,其中,所述第一预设尺寸与采用的神经网络模型有关,例如,如果采用的是YOLO-V1网络,那么第一预设尺寸为448*448像素;如果采用的是YOLO-V2或YOLO-V3网络,那么第一预设尺寸为416*416像素。当然,待处理图像的尺寸往往不是第一预设尺寸,那么在将待处理图像输入卷积神经网络之前,需要对待处理图像的尺寸大小进行缩放,以得到第一预设尺寸的转换后的待处理图像。
在本发明实施例中,采用的是YOLO-V3网络模型,为了便于理解本发明实施例这里对YOLO网络模型进行相关说明。
YOLO是一种端到端的网络模型,从网络设计上,改革了区域建议框式检测框架,RCNN系列均需要生成建议框,在建议框上进行分类与回归,但建议框之间有重叠,这会带来很多重复工作。YOLO将全图划分为S*S的格子,每个格子负责中心在该格子的目标检测,采用一次性预测所有格子所含目标的bbox、定位置信度以及所有类别概率向量来将问题一次性解决(one-shot)。也就是说,YOLO训练和检测均是在一个单独网络中进行。并且,YOLO将物体检测作为一个回归问题进行求解,输入图像经过一次推理(inference),便能得到图像中所有物体的位置和其所属类别及相应的置信概率。而RCNN系列需要将检测结果分为两部分求解:物体类别(分类问题),物体位置即回归问题(bounding box),所以使用YOLO网络模型进行目标检测具有更高的计算速度。
步骤S303,所述图像处理设备根据所述第一输出结果确定待处理图像中的第一目标区域。
这里,所述步骤S303在实现过程中,可以是将所述第一置信度大于第一阈值的分块区域确定为第一目标区域。
在其他实施例中,如果在将待处理图像输入卷积神经网络之前是经过尺寸转换的,那么在确定待处理图像中的第一目标区域时,还需要根据待处理图像和转换后的待处理图像之间的转换关系和转换后的待处理图像中的待识别区域来确定待处理图像中的第一目标区域。
步骤S304,所述图像处理设备将所述待处理图像中除所述第一目标区域之外的像素值处理为预设值,得到预处理图像。
步骤S305,所述图像处理设备对所述预处理图像中与所述第一目标区域对应的第二目标区域进行文字识别,得到文字区域和非文字区域。
步骤S306,所述图像处理设备获取所述文字区域中的文字内容、位置信息和第二置信度。
这里,通过文字识别可以获取所述文字区域中的文字内容、位置信息和第二置信度等信息。
所述步骤S305和S306在实现时,可以通过离线文字识别的方式实现,还可以通过在线文字识别的方式实现。
步骤S307,所述图像处理设备将所述第二置信度大于第二阈值的文字区域中的文字内容和位置信息确定为所述文字区域的文字信息。
这里,通过步骤S306和步骤S307所述图像处理设备就获取到了所述文字区域的文字信息。
步骤S308,所述图像处理设备提取所述非文字区域中的图像的特征点,得到第一特征点集合。
这里,所述步骤S308在实现时,可以利用ORB算法来提取所述非文字区域中的图像的特征点;当然也可以采用其他特征提取算法来提取所述非文字区域中的图像的特征点,例如尺度不变特征转换(Scale-Invariant Feature Transform,SIFT)、加速健壮特征(Speeded-Up Robust Features,SURF)等等。
步骤S309,所述图像处理设备提取所模板数据库中的第i模板图像的特征点,得到第二特征点集合。
这里,i=1,2,…,M,M为所述模板数据库中模板图像的第一总个数。
步骤S310,所述图像处理设备确定所述第一特征点集合中,存在与自身相匹配的第二特征点的特征点的第二总个数。
这里,在其他实施例中,在所述步骤S310之后,所述方法还包括:判断所述第二总个数是否大于第三阈值,其中,如果所述第二总个数大于所述第三阈值,说明所述第i模板图像与所述非文字区域的图像相匹配,并且属于同一类别,此时进入步骤S311;如果所述第二总个数小于或者等于所述第三阈值,说明所述第i模板图像与所述非文字区域的图像不匹配,也就是说两者不属于同一类别,此时获取所述模板数据库中的第i+1模板图像。
步骤S311,如果所述第二总个数大于第三阈值,所述图像处理设备将所述第i模板图像的类别信息确定为所述非文字区域的类别信息。
这里,通过步骤S307至步骤S311,所述图像处理设备就通过图像识别获取到了非文字区域的类别信息。
步骤S312,所述图像处理设备将所述文字信息确定为所述文字区域的识别信息,将所述类别信息确定为所述非文字区域的识别信息。
步骤S313,所述图像处理设备基于所述第一目标区域与所述第二目标区域之间的对应关系,根据所述识别信息对所述待处理图像中的第一目标区域进行标注。
本发明实施例提供的图像处理方法中,首先图像处理设备获取待处理图像,并将所述待处理图像输入预设的卷积神经网络,得到第一输出结果,然后再根据所述第一输出结果确定待处理图像中的第一目标区域,接着再将所述待处理图像中除所述第一目标区域之外的像素值处理为预设值,得到预处理图像,图像处理设备再对所述预处理图像中与第一目标区域对应的第二目标区域进行文字识别,得到文字区域和非文字区域,并获取所述文字区域中的文字内容、位置信息和第二置信度,然后将所述第二置信度大于第二阈值的文字区域中的文字内容和位置信息确定为所述文字区域的文字信息;图像处理设备再对非文字区域进行图像识别,以确定存在与非文字区域的图像中的特征点相匹配的模板图像中的特征点的第二总个数,并在第二总个数大于第三阈值,所述图像处理设备将所述第i模板图像的类别信息确定为所述非文字区域的类别信息;然后将所述文字信息确定为所述文字区域的识别信息,将所述类别信息确定为所述非文字区域的识别信息,最后基于所述第一目标区域与所述第二目标区域之间的对应关系,根据所述识别信息对所述待处理图像中的目标区域进行标注;如此,不仅基于深度学习先对待处理图像中的目标区域进行检测,能够提高处理效率,并且采用文字识别与图像识别相结合的方式确定目标区域的识别信息,以对目标区域进行标注,提高了标注信息的准确率。
在其他实施例中,所述步骤S302可以通过以下步骤实现:
步骤S3021,如果所述待处理图像的尺寸为第一预设尺寸,将所述待处理图像按照第二预设尺寸进行分块,得到N个分块区域,N为大于2的自然数;
这里,所述第一预设尺寸的长度和宽度是相同的,所述第二预设尺寸的长度和宽度也是相同的,并且所述第一预设尺寸的长度是所述第二预设尺寸的长度的整数倍。
步骤S3022,将所述N个分块区域输入训练好的卷积神经网络,得到第一输出结果。
在其他实施例中,如果所述待处理图像的尺寸不为第一预设尺寸,那么可以通过以下步骤来确定待处理图像中的第一目标区域:
步骤41,如果所述待处理图像的尺寸不为第一预设尺寸,将所述待处理图像的尺寸转换至第一预设大小,得到转换后的待处理图像。
步骤42,将所述转换后的待处理图像输入预设的卷积神经网络,得到第二输出结果。
步骤43,基于所述第二输出结果确定所述待处理图像的第一目标区域。
这里,所述步骤43可以通过以下步骤实现:
步骤431,根据所述第二输出结果确定所述转换后的待处理图像中的待识别区域;
步骤432,基于所述待处理图像与所述转换后的待处理图像之间的对应关系,根据所述待识别区域确定所述待处理图像中的第一目标区域。
这里,所述待处理图像与所述转换后的待处理图像之间的对应关系是指两者的相同像素点对应的位置关系,例如,待识别区域的位置信息为(x1,y1,w1,h1),所述待处理图像与所述转换后的待处理图像之间的缩放比例为5,所述转换后的待处理图像中的(x1,y1),对应原始的待处理图像中的(x2,y2),那么所述待识别区域对应的第一目标区域为(x2,y2,5w1,5h1)。
在其他实施例中,如果所述待处理图像的尺寸不是第一预设尺寸时,需要将所述待处理图像进行尺寸转换,得到第一预设尺寸的转换后的待处理图像,在实际实现过程中,根据待处理图像的长度和高度,所述步骤41可以有以下三种实现方式:
第一实现方式为所述待处理图像的宽度大于高度时的实现方式,在该情况下,所述步骤41可以通过以下步骤实现:
步骤411a,根据所述宽度和第一数值确定第一缩放比例。
这里,所述第一数值为所述第一预设尺寸中的高度值,由于所述第一预设尺寸中的宽度值和高度值是相同的,所述第一数值也可以是所述第一预设尺寸中的宽度值。所述第一缩放比例为所述宽度与所述第一数值的比值。例如,待处理图像的宽度为3000,高度为2000,第一数值为100,那么第一缩放比例为30。
步骤412a,将所述待处理图像按照所述第一缩放比例进行缩放,得到第一图像。
这里,承接上述的举例,所述第一图像的宽度为100,高度为67。
步骤413a,根据所述第一图像和所述第一预设尺寸确定第一填充区域。
这里,所述第一填充区域的尺寸为所述第一预设尺寸减去第一图像的尺寸。承接步骤412a的举例,第一图像的尺寸为100*67,第一预设尺寸为100*100,那么第一填充区域的尺寸为100*33。
步骤414a,合成所述第一图像和所述第一填充区域,得到转换后的待处理图像,所述第一填充区域的像素值为预设值。
这里,所述步骤414a在实现时,可以是将所述第一填充区域增加到所述第一图像的上方,也可以是将所述第一填充区域增加到所述第一图像的下方;当然也可以将所述第一填充区域中的一部分增加到所述第一图像的上方,也可以将所述第一填充区域的剩余部分增加到所述第一图像的下方。
在本发明实施例中,可以将所述第一填充区域的像素值设置为0,或者255。
第二种实现方式为所述待处理图像的宽度小于所述高度时的实现方式,在该情况下,所述步骤41可以通过以下步骤实现:
步骤411b,如果所述宽度小于所述高度,根据所述高度和所述第一数值确定第二缩放比例。
步骤412b,将所述待处理图像按照所述第二缩放比例进行缩放,得到第二图像。
步骤413b,根据所述第二图像和所述第一预设尺寸确定第二填充区域。
步骤414b,合成所述第二图像和所述第二填充区域,得到转换后的待处理图像,所述第二填充区域的像素值为预设值。
这里,与所述步骤S414a类似,所述第二填充区域可以增加到所述第一图像的左方,也可以增加到所述第一图像的右方,还可以一部分增加到所述第一图像的左方,剩余的一部分增加到所述第一图像的右方。
第三种实现方式为所述待处理图像的宽度等于所述高度时的实现方式,在该情况下,所述步骤41可以通过以下步骤实现:
步骤411c,如果所述高度等于所述宽度,根据所述高度和所述第一数值确定第三缩放比例;
步骤412c,将所述待处理图像按照所述第三缩放比例进行缩放,得到转换后的待处理图像。
在其他实施例中,进行在线文字识别时,所述步骤S306可以通过以下步骤实现:
步骤S3061a,通过调用文字识别接口,将所述预处理图像发送给服务器;
步骤S3062a,如果调用结果为调用成功,获取服务器发送的识别结果;
步骤S3063a,基于所述识别结果,获取所述预处理图像中的文字区域中的文字内容、位置信息和第二置信度。
如果是进行离线文字识别,那么所述步骤S306可以通过以下步骤实现:
步骤S3061b,通过调用文字识别接口,对所述预处理图像进行文字识别;
步骤S3062b,如果调用结果为调用成功,获取所述调用结果中携带的文字区域中的文字内容、位置信息和第二置信度。
需要说明的是,不管是离线文字识别还是在线文字识别,如果调用结果为调用失败,都需要重新调用所述文字识别接口。在本发明实施例中,调用失败是指因为网络中断等原因造成的,如果是调用文字识别接口,没有识别出文字,那么调用结果返回为空集。
在其他实施例中,在步骤S310之前,所述方法还包括:
步骤51,确定第一特征点K与各个第二特征点之间的汉明距离;
步骤52,根据所述汉明距离,确定与所述第一特征点K距离最近的第二特征点A和第二特征点B,其中,第二特征点A与所述第一特征点K之间的汉明距离小于所述第二特征点B与所述第一特征点K之间的汉明距离;
步骤53,如果所述第二特征点A和所述第二特征点B之间的汉明距离小于第四阈值,将第二特征点A确定为与所述第一特征点K相匹配的第二特征点。
这里,如果所述第二特征点A和所述第二特征点B之间的汉明距离不小于第四阈值,那么认为没有与所述第一特征点K相匹配的第二特征点,此时选取第一特征点集合中的其他第一特征点,并执行步骤51至53,直至将所述第一特征点集合中的第一特征点都匹配完毕。
在步骤51至步骤53所在的实施例中,是选取了与第一特征点K之间的韩明距离最接近的两个第二特征点A和B,这样,如果第二特征点A和第二特征点B之间的距离小于第四阈值时,说明第二特征点A是正确的与所述第一特征点K匹配的特征点,而在确定与第一特征点K相匹配的点时,如果只选择一个第二特征点,就不能保证该第二特征点是匹配正确的特征点。
本发明实施例再提供一种图像处理方法,采用先检测后识别的方式自动地标注游戏UI图像中可操作元素的位置以及名称,图4为本发明实施例图像处理方法的实现框架示意图,如图4所示,所述方法包括以下步骤:
步骤S401,进行区域检测。
在本发明实施例中,利用基于卷积神经网络的YOLO-V3网络检测UI图像中的可操作元素,获得可操作元素的位置坐标,当然也可以使用其他卷积神经网络模型进行区域检测,但是考虑到计算速度,在本发明实施例中使用计算速度最快的YOLO-V3网络模型。
步骤S402,进行区域识别。
这里,使用文字识别和图像识别分析检测到的区域。对于包含文字的区域,文字识别将输出区域中的文字信息,作为可操作元素的名称。对于不包含文字的区域,图像识别将输出区域的类别信息,作为可操作元素的名称。
步骤S403,综合检测和识别的结果。
这里,如图4所示,最终获得UI图像的数据集中包括所有可操作元素的位置和名称,其中,位置信息中的x和y分别为可操作元素所在区域左上角的顶点的坐标值,w和h分别为可操作元素所在区域的宽和高。
区域检测包括尺寸统一、网络计算和阈值过滤三个步骤,图5为本发明实施例区域检测的实现流程示意图,如图5所示,区域检测可以通过以下步骤实现:
步骤S501,输入UI图像。
这里,输入的UI图像为待处理图像。
步骤S502,尺寸统一。
这里,在本实施例中,可以是将UI图像的大小统一为416*416像素。
在本实施例中,所述步骤S502可以通过以下步骤实现:
步骤S5021,计算图像的宽高比。
这里,如果宽高比大于1,则进入步骤S5022;如果宽高比小于1,则进入步骤S5023;如果宽高比等于1,则进入步骤S5024。
步骤S5022,在图像宽大于高时,将图像按比例缩放,使图像的宽为416像素,在图像的上下两侧填补全零像素,使整个图像大小为416*416像素。
步骤S5023,在图像高大于宽时,将图像按比例缩放,使图像的高为416像素,在图像的左右两侧填补全零像素,使整个图像大小为416*416像素。
步骤S5024,在图像宽高相等时,将图像按比例缩放为416*416像素。
需要说明的是,将图像尺寸统一为416*416像素为示例性说明,在实际实现过程中,还可以是将图像尺寸统一为其他大小,但是需要保证宽和高是相等的。
步骤S503,网络计算。
这里,将缩放后的UI图像输入到YOLO-V3网络中,输出UI图像中多个可操作元素的坐标位置和置信度。
在检测区域时,YOLO-V3网络将输入图像化分为13*13个块,对每个块预测一个可操作元素的位置。YOLO-V3网络基于Darknet-53模型,由残差单元叠加而成,图6为本发明实施例所使用的YOLO-V3网络结构示意图,如图6所示,在该网络是一个包含50个卷积层、1个池化层、1个全连接层和1个softmax层的卷积神经网络。
在训练YOLO-V3网络时,可以利用3500张UI图像,每张训练样本标注了可操作元素的坐标位置。批处理(Batch)数量设置为16,锚点(anchor)个数设置为9,初始学习速率设定为10-4。每迭代5000次,学习速率乘以0.1,总共迭代20000次。
步骤S504,阈值过滤。
这里,从169个YOLO-V3网络输出的结果中挑选出置信度大于0.5的坐标位置,作为后续需要识别的区域。
步骤S505,输出需要识别的区域的位置。
文字识别包括区域排除、接口调用和阈值过滤三个步骤,图7为本发明实施例文字识别过程的实现流程示意图,如图7所示,文字识别过程可以通过以下步骤实现:
步骤S701,输入UI图像。
这里,在步骤S701中输入的UI图像是进行区域检测后得到的UI图像。
步骤S702,区域排除。
这里,所述步骤S702在实现时,可以是根据区域检测的结果,将UI图像中非检测区域的像素值置为0,在实现过程中可以通过以下步骤实现:
步骤S7021,生成一张和UI图像大小一样的图像,并将图像中所有像素置为0。
步骤S7022,拷贝UI图像中检测区域中的图像到步骤S7021生成的图像中。
图8为本发明实施例区域排除实现过程示意图,如图8所示,801所示的图像经过区域排除得到802所示的图像。
步骤S703,调用接口。
这里,所述步骤S703可以是使用技术通过以下步骤实现:通过调用OCR接口,将排除区域后的图像上传至云端服务器。
步骤S704,判断是否调用成功。
这里,待调用结果返回,如果调用结果显示接口调用失败,则进入步骤S703重新调用接口;如果调用结果显示接口调用成功,可以获得图像中文字的内容、位置和置信度,进入步骤S705。
步骤S705,阈值过滤。
这里,从OCR接口返回的结果中挑选出置信度大于0.5的文字,作为UI图像中文字识别的结果。
步骤S706,输出文字信息。
相比于直接识别UI图像和逐个识别区域,这种排除非检测区域后再识别的流程可以提高文字识别的准确度和速度。
需要说明的是,在本发明实施例中,采用了在线OCR识别技术,在其他实施例中,也可以使用离线的OCR识别技术,但是在线的OCR识别准确度高于离线的OCR。
图像识别包括建立模板数据库、特征提取和特征匹配三个步骤,图9为本发明实施例图像识别过程的实现流程示意图,如图9所示,图像识别过程可以通过以下步骤实现:
步骤S901,输入UI图像。
这里,输入的UI图像可以是不包括已经识别出文字的检测区域的图像。
步骤S902,建立模板数据库。
这里,所述步骤S902可以通过以下步骤实现:
步骤S9021,采集一些不重复的UI图像。
步骤S9022,从UI图像中截取不含文字的图标。
步骤S9023,将图标按其含义进行分类。
这里,将图标按照含义进行分类,可以得到如图10所示的分类模板图像。在图10中,包括代表关闭含义的模板图像集合1001和代表返回含义的模板图像集合1002。
步骤S903,特征提取。
这里,对区域图像和模板库中的一张模板图像分别提取,图像特征点(OrientedFAST and Rotated BRIEF,ORB)。在实现过程中,可以使用OpenCV提供的ORB特征点提取函数计算图像的ORB特征点。
在其他实施例中,还可以使用其他特征点匹配,例如SIFT、SURF等等,但是在计算速度上,ORB比SIFT和SURF快,因此在本发明实施例中使用了ORB特征点。
步骤S904,特征匹配。
这里,所述步骤S904可以通过以下步骤实现:
步骤S9041,计算区域图像和模板图像的ORB特征点之间的Hamming距离。
步骤S9042,利用k-NN算法找到区域图像中每个ORB特征点x对模板图像中距离最近的两个ORB特征点a和b。
这里,ORB特征点a与区域图像中ORB特征点x的距离小于ORB特征点B与区域图像ORB特征点x的距离。
步骤S9043,如果ORB特征点a和b到ORB特征点x的距离相近,那么ORB特征点x和ORB特征点a相匹配,否则ORB特征点x与模板图像中任何ORB特征点都不匹配。
这里,ORB特征点B与区域图像ORB特征点的距离与ORB特征点a与区域图像中ORB特征点的距离的差值小于一定值,则认为ORB特征点x和ORB特征点a相匹配。
步骤S905,判断区域图像的ORB特征点的匹配数量是否大于阈值。
这里,如果区域图像的ORB特征点的匹配数量大于阈值,例如阈值可以是区域图像中所有ORB特征点数量的一半,那么,认为区域图像与当前模板图像匹配,此时,进入步骤S906;否则,进入步骤S903匹配下一张模板图像。
如果区域图像与所有模板图像都不匹配,则无法识别区域图像中的内容。
步骤S906,输出类别。
这里,区域图像的名称为模板图像的类别。
图10b为本发明实施例在游戏UI图像中显示标注信息的界面示意图,如图10b所示,在用户玩游戏的过程中,当用户的手指触碰终端界面中1011所示的可操作元素的图标时,会在1012所示的区域显示该可操作元素的标注信息“返回”。
本发明实施例提供的图像处理方法是一种基于深度学习的游戏UI图像标注方法,采用先检测后识别的方式自动地标注游戏UI图像中可操作元素的位置以及名称。首先,利用基于卷积神经网络的目标检测方法检测UI图像中可操作元素的区域。然后,使用文字识别和图像识别分析区域中的内容。如果可操作元素的区域含有文字,使用在线的OCR可以识别区域中的文字;如果可操作元素的区域不包含文字,使用基于ORB的模板匹配可以判别区域的类别。最后,综合双方的识别结果,获得可操作元素的名称及其位置;如此,不仅能够替代人工标注图像的工作,从而减少人力成本并且加快标注速度,并且采用先检测后识别的方式可以排除背景的干扰,进而能够提高游戏UI图像标注的准确度;另外使用YOLO-V3检测可操作区域具有较好的鲁棒性,可以适用于不同手机游戏。
本发明实施例提供一种图像处理装置,图11为本发明实施例图像处理装置的组成结构示意图,如图11所示,所述装置1100包括:第一确定模块1101、预处理模块1102、识别模块1103和处理模块1104,其中:
所述第一确定模块1101,用于确定待处理图像的第一目标区域;
所述预处理模块1102,用于将所述待处理图像中除所述第一目标区域之外的像素值处理为预设值,得到预处理图像;
所述识别模块1103,用于对所述预处理图像中与所述第一目标区域对应的第二目标区域进行识别,得到所述第二目标区域的识别信息;
所述处理模块1104,用于基于所述第一目标区域与所述第二目标区域之间的对应关系,根据所述识别信息对所述待处理图像中的第一目标区域进行处理。
在其他实施例中,所述第一确定模块1101进一步包括:
第一输入单元,用于将所述待处理图像输入预设的卷积神经网络,得到第一输出结果;
第一确定单元,用于根据所述第一输出结果确定待处理图像中的第一目标区域。
在其他实施例中,所述第一输入单元进一步包括:
第一分块子单元,用于如果所述待处理图像的尺寸为第一预设尺寸,将所述待处理图像按照第二预设尺寸进行分块,得到N个分块区域,N为大于2的自然数;
第一输入子单元,用于将所述N个分块区域输入训练好的卷积神经网络,得到第一输出结果。
在其他实施例中,所述第一输出结果至少包括每一分块区域的第一置信度,对应地,所述第一确定单元进一步包括:
第二确定子单元,用于将所述第一置信度大于第一阈值的分块区域确定为目标区域。
在其他实施例中,所述第一确定模块还包括:
转换单元,用于如果所述待处理图像的尺寸不为第一预设尺寸,将所述待处理图像进行尺寸转换,得到转换后的待处理图像,其中,所述转换后的待处理图像的尺寸为第一预设尺寸;
第二输入单元,用于将所述转换后的待处理图像输入预设的卷积神经网络,得到第二输出结果;
第二确定单元,用于基于所述第二输出结果确定所述待处理图像的第一目标区域。
在其他实施例中,所述第二确定单元进一步包括:
第三确定子单元,用于根据所述第二输出结果确定所述转换后的待处理图像中的待识别区域;
第四确定子单元,用于基于所述待处理图像与所述转换后的待处理图像之间的对应关系,根据所述待识别区域确定所述待处理图像中的第一目标区域。
在其他实施例中,所述转换单元进一步包括:
第五确定子单元,用于如果所述待处理图像的宽度大于待处理图像的高度,根据所述宽度和第一数值确定第一缩放比例,其中,所述第一数值为所述第一预设尺寸中的高度值;
第一缩放子单元,用于将所述待处理图像按照所述第一缩放比例进行缩放,得到第一图像;
第六确定子单元,用于根据所述第一图像和所述第一预设尺寸确定第一填充区域;
第一合成子单元,用于合成所述第一图像和所述第一填充区域,得到转换后的待处理图像,所述第一填充区域的像素值为预设值。
在其他实施例中,所述转换单元进一步包括:
第七确定子单元,用于如果所述宽度小于所述高度,根据所述高度和所述第一数值确定第二缩放比例;
第二缩放子单元,用于将所述待处理图像按照所述第二缩放比例进行缩放,得到第二图像;
第八确定子单元,用于根据所述第二图像和所述第一预设尺寸确定第二填充区域;
第二合成子单元,用于合成所述第二图像和所述第二填充区域,得到转换后的待处理图像,所述第二填充区域的像素值为预设值。
在其他实施例中,所述转换单元还进一步包括:
第九确定子单元,用于如果所述高度等于所述宽度,根据所述高度和所述第一数值确定第三缩放比例;
第三缩放子单元,用于将所述待处理图像按照所述第三缩放比例进行缩放,得到转换后的待处理图像。
在其他实施例中,所述识别模块1103进一步包括:
识别单元,用于对所述第二目标区域进行文字识别,得到文字区域和非文字区域;
第一获取单元,用于获取所述文字区域中的文字信息;
第二获取单元,用于对非文字区域进行图像识别,获取所述非文字区域的类别信息;
第三确定单元,用于将所述文字信息确定为所述文字区域的识别信息,将所述类别信息确定为所述非文字区域的识别信息。
在其他实施例中,所述第一获取单元进一步包括:
第一识别子单元,用于对所述预处理图像进行文字识别,得到所述预处理图像中的文字区域中的文字内容、位置信息和第二置信度;
第十确定子单元,用于将所述第二置信度大于第二阈值的文字区域中的文字内容和位置信息确定为所述文字区域的文字信息。
在其他实施例中,所述第一识别子单元还用于:
通过调用文字识别接口,将所述预处理图像发送给服务器;
如果调用结果为调用成功,获取服务器发送的识别结果;
基于所述识别结果,获取所述预处理图像中的文字区域中的文字内容、位置信息和第二置信度。
在其他实施例中,所述第一识别子单元还用于:
通过调用文字识别接口,对所述预处理图像进行文字识别;
如果调用结果为调用成功,获取所述调用结果中携带的文字区域中的文字内容、位置信息和第二置信度。
在其他实施例中,所述第一识别子单元还用于:如果调用结果为调用失败,重新调用所述文字识别接口。
在其他实施例中,所述第二获取单元,进一步包括:
第一提取子单元,用于提取所述非文字区域中的图像的特征点,得到第一特征点集合;
第二提取子单元,用于提取所模板数据库中的第i模板图像的特征点,得到第二特征点集合,其中i=1,2,…,M,M为所述模板数据库中模板图像的第一总个数;
第十一确定子单元,用于确定所述第一特征点集合中,存在与自身相匹配的第二特征点的特征点的第二总个数;
第十二确定子单元,用于如果所述第二总个数大于第三阈值,将所述第i模板图像的类别信息确定为所述非文字区域的类别信息。
在其他实施例中,所述第二获取单元还包括:
第十三确定子单元,用于确定第一特征点K与各个第二特征点之间的汉明距离;
第十四确定子单元,用于根据所述汉明距离,确定与所述第一特征点K距离最近的第二特征点A和第二特征点B,其中,第二特征点A与所述第一特征点K之间的汉明距离小于所述第二特征点B与所述第一特征点K之间的汉明距离;
第十五确定子单元,用于如果所述第二特征点A和所述第二特征点B之间的汉明距离小于第四阈值,将第二特征点A确定为与所述第一特征点K相匹配的第二特征点。
需要说明的是,以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本发明装置实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解。
本发明实施例提供一种图像处理设备,图12为本发明实施例图像处理设备的组成结构示意图,如图12所示,所述设备1200包括:一个处理器1201、至少一个通信总线1202、用户接口1203、至少一个外部通信接口1204和存储器1205。其中,通信总线1202配置为实现这些组件之间的连接通信。其中,用户接口1203可以包括显示屏,外部通信接口1204可以包括标准的有线接口和无线接口。其中所述处理器1201,配置为执行存储器中存储的图像处理程序,以实现以下步骤:
确定待处理图像的第一目标区域;
将所述待处理图像中除所述第一目标区域之外的像素值处理为预设值,得到预处理图像;
对所述预处理图像中与所述第一目标区域对应的第二目标区域进行识别,得到所述第二目标区域的识别信息;
基于所述第一目标区域与所述第二目标区域之间的对应关系,根据所述识别信息对所述待处理图像中的第一目标区域进行处理。
相应地,本发明实施例再提供一种可读存储介质,所述可读存储介质上存储有图像处理程序,所述图像处理程序被处理器执行时实现上述的图像处理方法的步骤。
以上图像处理设备和存储介质实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本发明图像处理设备和存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解。
本发明实施例中,如果以软件功能模块的形式实现上述的图像处理方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read OnlyMemory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实施例不限制于任何特定的硬件和软件结合。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (15)
1.一种图像处理方法,其特征在于,包括:
确定待处理图像的第一目标区域;
将所述待处理图像中除所述第一目标区域之外的像素值处理为预设值,得到预处理图像;
对所述预处理图像中与所述第一目标区域对应的第二目标区域进行识别,得到所述第二目标区域的识别信息;
基于所述第一目标区域与所述第二目标区域之间的对应关系,根据所述识别信息对所述待处理图像中的第一目标区域进行处理。
2.根据权利要求1中所述的方法,其特征在于,确定待处理图像的第一目标区域,包括:
将所述待处理图像输入训练好的卷积神经网络,得到第一输出结果;
根据所述第一输出结果确定待处理图像中的第一目标区域。
3.根据权利要求2中所述的方法,其特征在于,所述将待处理图像输入预设的卷积神经网络,得到第一输出结果,包括:
如果所述待处理图像的尺寸为第一预设尺寸,将所述待处理图像按照第二预设尺寸进行分块,得到N个分块区域,N为大于2的自然数;
将所述N个分块区域输入训练好的卷积神经网络,得到第一输出结果。
4.根据权利要求3中所述的方法,其特征在于,所述第一输出结果至少包括每一分块区域的第一置信度,对应地,根据所述第一输出结果确定所述待处理图像中的第一目标区域,包括:
将所述第一置信度大于第一阈值的分块区域确定为第一目标区域。
5.根据权利要求3或4中所述的方法,其特征在于,所述确定待处理图像的第一目标区域,还包括:
如果所述待处理图像的尺寸不为第一预设尺寸,将所述待处理图像的尺寸转换至第一预设大小,得到转换后的待处理图像;
将所述转换后的待处理图像输入预设的卷积神经网络,得到第二输出结果;
基于所述第二输出结果确定所述待处理图像的第一目标区域。
6.根据权利要求5中所述的方法,其特征在于,所述基于所述第二输出结果确定所述待处理图像的第一目标区域,包括:
根据所述第二输出结果确定所述转换后的待处理图像中的待识别区域;
基于所述待处理图像与所述转换后的待处理图像之间的对应关系,根据所述待识别区域确定所述待处理图像中的第一目标区域。
7.根据权利要求5中所述的方法,其特征在于,所述将所述待处理图像的尺寸转换至第一预设大小,得到转换后的待处理图像,包括:
如果所述待处理图像的宽度大于待处理图像的高度,根据所述宽度和第一数值确定第一缩放比例,其中,所述第一数值为所述第一预设尺寸中的高度值;
将所述待处理图像按照所述第一缩放比例进行缩放,得到第一图像;
根据所述第一图像和所述第一预设尺寸确定第一填充区域;
合成所述第一图像和所述第一填充区域,得到转换后的待处理图像,所述第一填充区域的像素值为预设值。
8.根据权利要求7中所述的方法,其特征在于,所述将所述待处理图像的尺寸转换至第一预设大小,得到转换后的待处理图像,还包括:
如果所述宽度小于所述高度,根据所述高度和所述第一数值确定第二缩放比例;
将所述待处理图像按照所述第二缩放比例进行缩放,得到第二图像;
根据所述第二图像和所述第一预设尺寸确定第二填充区域;
合成所述第二图像和所述第二填充区域,得到转换后的待处理图像,所述第二填充区域的像素值为预设值。
9.根据权利要求7或8中所述的方法,其特征在于,所述将所述待处理图像的尺寸转换至第一预设大小,得到转换后的待处理图像,还包括:
如果所述高度等于所述宽度,根据所述高度和所述第一数值确定第三缩放比例;
将所述待处理图像按照所述第三缩放比例进行缩放,得到转换后的待处理图像。
10.根据权利要求1中所述的方法,其特征在于,所述对所述预处理图像中第二目标区域进行识别,得到所述第二目标区域的识别信息,包括:
对所述第二目标区域进行文字识别,得到文字区域和非文字区域;
获取所述文字区域中的文字信息;
对非文字区域进行图像识别,获取所述非文字区域的类别信息;
将所述文字信息确定为所述文字区域的识别信息,将所述类别信息确定为所述非文字区域的识别信息。
11.根据权利要求10中所述的方法,其特征在于,所述对非文字区域进行图像识别,获取所述非文字区域的类别信息,包括:
提取所述非文字区域中的图像的特征点,得到第一特征点集合;
提取所模板数据库中的第i模板图像的特征点,得到第二特征点集合,其中i=1,2,…,M,M为所述模板数据库中模板图像的第一总个数;
确定所述第一特征点集合中,存在与自身相匹配的第二特征点的特征点的第二总个数;
如果所述第二总个数大于第三阈值,将所述第i模板图像的类别信息确定为所述非文字区域的类别信息。
12.根据权利要求11中所述的方法,其特征在于,所述方法还包括:
确定第一特征点K与各个第二特征点之间的汉明距离;
根据所述汉明距离,确定与所述第一特征点K距离最近的第二特征点A和第二特征点B,其中,第二特征点A与所述第一特征点K之间的汉明距离小于所述第二特征点B与所述第一特征点K之间的汉明距离;
如果所述第二特征点A和所述第二特征点B之间的汉明距离小于第四阈值,将第二特征点A确定为与所述第一特征点K相匹配的第二特征点。
13.一种图像处理装置,其特征在于,所述图像处理装置包括:第一确定模块、预处理模块、识别模块和处理模块,其中:
所述第一确定模块,用于确定待处理图像的第一目标区域;
所述预处理模块,用于将所述待处理图像中除所述第一目标区域之外的像素值处理为预设值,得到预处理图像;
所述识别模块,用于对所述预处理图像中与所述第一目标区域对应的第二目标区域进行识别,得到所述第二目标区域的识别信息;
所述处理模块,用于基于所述第一目标区域与所述第二目标区域之间的对应关系,根据所述识别信息对所述待处理图像中的第一目标区域进行处理。
14.一种图像处理设备,其特征在于,所述设备至少包括:存储器、通信总线和处理器,其中:
所述存储器,用于存储图像处理程序;
所述通信总线,用于实现处理器和存储器之间的连接通信;
所述处理器,用于执行存储器中存储的图像处理程序,以实现权利要求1至12中任一项所述的图像处理方法的步骤。
15.一种存储介质,其特征在于,所述存储介质上存储有图像处理程序,所述图像处理程序被处理器执行时实现1至12任一项中所述的图像处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811053229.6A CN109343920B (zh) | 2018-09-10 | 2018-09-10 | 一种图像处理方法及其装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811053229.6A CN109343920B (zh) | 2018-09-10 | 2018-09-10 | 一种图像处理方法及其装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109343920A true CN109343920A (zh) | 2019-02-15 |
CN109343920B CN109343920B (zh) | 2021-09-07 |
Family
ID=65304797
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811053229.6A Active CN109343920B (zh) | 2018-09-10 | 2018-09-10 | 一种图像处理方法及其装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109343920B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147791A (zh) * | 2019-05-20 | 2019-08-20 | 上海联影医疗科技有限公司 | 文字识别方法、装置、设备及存储介质 |
CN110334730A (zh) * | 2019-05-09 | 2019-10-15 | 河南萱闱堂医疗信息科技有限公司 | 比较和归档人工智能训练数据集中高相似图片的方法 |
CN110334582A (zh) * | 2019-05-09 | 2019-10-15 | 河南萱闱堂医疗信息科技有限公司 | 智能识别和记录内镜黏膜下剥离术摘除息肉视频的方法 |
CN110516592A (zh) * | 2019-08-26 | 2019-11-29 | 广东世纪晟科技有限公司 | 一种基于手写数字字符的识别方法 |
CN111723627A (zh) * | 2019-03-22 | 2020-09-29 | 北京搜狗科技发展有限公司 | 一种图像处理方法、装置和电子设备 |
CN111782846A (zh) * | 2020-06-30 | 2020-10-16 | 北京三快在线科技有限公司 | 图像选择方法、装置、计算机设备及存储介质 |
CN111832551A (zh) * | 2020-07-15 | 2020-10-27 | 网易有道信息技术(北京)有限公司 | 文本图像处理方法、装置、电子扫描设备和存储介质 |
CN112329851A (zh) * | 2020-11-05 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 一种图标检测方法、装置及计算机可读存储介质 |
US20220164974A1 (en) * | 2019-03-28 | 2022-05-26 | Sony Group Corporation | Information processing device, information processing method, and program |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049747A (zh) * | 2012-12-30 | 2013-04-17 | 信帧电子技术(北京)有限公司 | 利用肤色的人体图像再识别的方法 |
CN105631487A (zh) * | 2015-12-31 | 2016-06-01 | 北京奇艺世纪科技有限公司 | 图片比对方法、装置及视频比对方法、装置 |
CN107145885A (zh) * | 2017-05-03 | 2017-09-08 | 金蝶软件(中国)有限公司 | 一种基于卷积神经网络的单字图文字识别方法及装置 |
CN107665356A (zh) * | 2017-10-18 | 2018-02-06 | 北京信息科技大学 | 一种图像标注方法 |
CN108182700A (zh) * | 2018-03-09 | 2018-06-19 | 华中科技大学 | 一种基于两次特征检测的图像配准方法 |
US20180247182A1 (en) * | 2017-02-27 | 2018-08-30 | Hitachi, Ltd. | Information Processing Apparatus, Image Recognition Apparatus, and Parameter Setting Method for Convolutional Neural Network |
-
2018
- 2018-09-10 CN CN201811053229.6A patent/CN109343920B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049747A (zh) * | 2012-12-30 | 2013-04-17 | 信帧电子技术(北京)有限公司 | 利用肤色的人体图像再识别的方法 |
CN105631487A (zh) * | 2015-12-31 | 2016-06-01 | 北京奇艺世纪科技有限公司 | 图片比对方法、装置及视频比对方法、装置 |
US20180247182A1 (en) * | 2017-02-27 | 2018-08-30 | Hitachi, Ltd. | Information Processing Apparatus, Image Recognition Apparatus, and Parameter Setting Method for Convolutional Neural Network |
CN107145885A (zh) * | 2017-05-03 | 2017-09-08 | 金蝶软件(中国)有限公司 | 一种基于卷积神经网络的单字图文字识别方法及装置 |
CN107665356A (zh) * | 2017-10-18 | 2018-02-06 | 北京信息科技大学 | 一种图像标注方法 |
CN108182700A (zh) * | 2018-03-09 | 2018-06-19 | 华中科技大学 | 一种基于两次特征检测的图像配准方法 |
Non-Patent Citations (1)
Title |
---|
JOSEPH REDMON等: "You Only Look Once:Unified,Real-Time Object Detection", 《CVPR(CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION)会议论文集》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111723627A (zh) * | 2019-03-22 | 2020-09-29 | 北京搜狗科技发展有限公司 | 一种图像处理方法、装置和电子设备 |
US20220164974A1 (en) * | 2019-03-28 | 2022-05-26 | Sony Group Corporation | Information processing device, information processing method, and program |
CN110334730A (zh) * | 2019-05-09 | 2019-10-15 | 河南萱闱堂医疗信息科技有限公司 | 比较和归档人工智能训练数据集中高相似图片的方法 |
CN110334582A (zh) * | 2019-05-09 | 2019-10-15 | 河南萱闱堂医疗信息科技有限公司 | 智能识别和记录内镜黏膜下剥离术摘除息肉视频的方法 |
CN110334582B (zh) * | 2019-05-09 | 2021-11-12 | 河南萱闱堂医疗信息科技有限公司 | 智能识别和记录内镜黏膜下剥离术摘除息肉视频的方法 |
CN110334730B (zh) * | 2019-05-09 | 2022-07-29 | 河南萱闱堂医疗信息科技有限公司 | 比较和归档人工智能训练数据集中高相似图片的方法 |
CN110147791A (zh) * | 2019-05-20 | 2019-08-20 | 上海联影医疗科技有限公司 | 文字识别方法、装置、设备及存储介质 |
CN110516592A (zh) * | 2019-08-26 | 2019-11-29 | 广东世纪晟科技有限公司 | 一种基于手写数字字符的识别方法 |
CN111782846A (zh) * | 2020-06-30 | 2020-10-16 | 北京三快在线科技有限公司 | 图像选择方法、装置、计算机设备及存储介质 |
CN111832551A (zh) * | 2020-07-15 | 2020-10-27 | 网易有道信息技术(北京)有限公司 | 文本图像处理方法、装置、电子扫描设备和存储介质 |
CN112329851A (zh) * | 2020-11-05 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 一种图标检测方法、装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109343920B (zh) | 2021-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109343920A (zh) | 一种图像处理方法及其装置、设备和存储介质 | |
Yuliang et al. | Detecting curve text in the wild: New dataset and new solution | |
Xu et al. | Detecting tiny objects in aerial images: A normalized Wasserstein distance and a new benchmark | |
CN107808143B (zh) | 基于计算机视觉的动态手势识别方法 | |
CN106127204B (zh) | 一种全卷积神经网络的多方向水表读数区域检测算法 | |
CN108427924B (zh) | 一种基于旋转敏感特征的文本回归检测方法 | |
Harouni et al. | Online Persian/Arabic script classification without contextual information | |
JP5522408B2 (ja) | パターン認識装置 | |
CN106408030B (zh) | 基于中层语义属性和卷积神经网络的sar图像分类方法 | |
CN110287960A (zh) | 自然场景图像中曲线文字的检测识别方法 | |
CN107169485B (zh) | 一种数学公式识别方法和装置 | |
CN109117876A (zh) | 一种稠密小目标检测模型构建方法、模型及检测方法 | |
CN108399386A (zh) | 饼图中的信息提取方法及装置 | |
CN109711437A (zh) | 一种基于yolo网络模型的变压器部件识别方法 | |
CN109740606B (zh) | 一种图像识别方法及装置 | |
CN107729865A (zh) | 一种手写体数学公式离线识别方法及系统 | |
CN105574550A (zh) | 一种车辆识别方法及装置 | |
CN106097381B (zh) | 一种基于流形判别非负矩阵分解的目标跟踪方法 | |
CN109598234A (zh) | 关键点检测方法和装置 | |
CN101887523A (zh) | 利用图片文字与局部不变特征检测图像垃圾邮件的方法 | |
CN109977997A (zh) | 基于卷积神经网络快速鲁棒的图像目标检测与分割方法 | |
Liu et al. | Fabric defects detection based on SSD | |
CN105718552A (zh) | 基于服装手绘草图的服装图像检索方法 | |
CN107704867A (zh) | 一种视觉定位中基于衡量因子的图像特征点误匹配剔除方法 | |
CN110659637A (zh) | 一种结合深度神经网络和sift特征的电能表示数与标签自动识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |