CN114140787A

CN114140787A - 图像处理方法、装置、设备、存储介质及计算机产品

Info

Publication number: CN114140787A
Application number: CN202111504550.3A
Authority: CN
Inventors: 伍敏慧
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2022-03-04

Abstract

本申请提供了图像处理方法、装置、设备、存储介质及计算机产品，可以应用于拍照翻译，拍图找物等各种领域或场景，该方法包括：获取目标图像，并对目标图像进行区域分割，得到区域分割线；根据区域分割线从目标图像中确定出一个或多个控制点，任一控制点在目标图像中的位置用于控制任一控制点所在子区域中包含的对象的形状；基于控制点，将目标图像中包含的对象的目标形状矫正为参考形状，并对参考形状的对象进行识别处理，得到对象识别结果。不仅可以提高诊断报告的生成效率，还可以提高生成的诊断报告的准确性。采用本申请提供的方法，可实现对异常形状的对象进行有效识别。

Description

图像处理方法、装置、设备、存储介质及计算机产品

技术领域

本申请涉及计算机技术领域，尤其涉及图像处理方法、装置、设备、存储介质及计算机产品。

背景技术

随着计算机技术的发展，识别技术(如拍照翻译、票据识别、证件识别、拍照找物等)为人们的生活工作提供了极大的便利，如现如今提供的识别方式可实现对图像中的图像元素(如文本或图片)等的识别处理，而经过研究表明，按照现有的识别手段，在对图像中的图像元素进行识别处理时，对该图像元素的形状要求较高，因此，如何对图像中的图像元素进行有效识别，从而提升识别效率成为了当前的研究热点。

发明内容

本申请实施例提供了图像处理方法、装置、存储介质及计算机程序产品，可以扩大文字识别的适用范围，有效地对包含对象的形状为非标准形状的图片进行识别，提高识别效率。

一方面，本申请实施例提供了一种图像处理方法，所述方法包括：

获取目标图像，并对所述目标图像进行区域分割，得到区域分割线；其中，所述目标图像包含一个或多个目标形状的对象，一个目标形状的对象与所述目标图像的一个子区域相对应；

根据所述区域分割线从所述目标图像中确定出一个或多个控制点，任一控制点在所述目标图像中的位置用于控制所述任一控制点所在子区域中包含的对象的形状；

基于所述控制点，将所述目标图像中包含的对象的目标形状矫正为参考形状，并对参考形状的对象进行识别处理，得到对象识别结果。

另一方面，本申请实施例提供了一种图像处理装置，所述装置包括：

获取单元，用于获取目标图像，并对所述目标图像进行区域分割，得到区域分割线；其中，所述目标图像包含一个或多个目标形状的对象，一个目标形状的对象与所述目标图像的一个子区域相对应；

处理单元，用于根据所述区域分割线从所述目标图像中确定出一个或多个控制点，任一控制点在所述目标图像中的位置用于控制所述任一控制点所在子区域中包含的对象的形状；

所述处理单元，还用于基于所述控制点，将所述目标图像中包含的对象的目标形状矫正为参考形状，并对参考形状的对象进行识别处理，得到对象识别结果。

再一方面，本申请实施例提供了一种图像处理设备，该图像处理设备包括：处理器、存储器以及网络接口；处理器与存储器、网络接口相连，其中，网络接口用于提供网络通信功能，存储器用于存储程序代码，处理器用于调用程序代码，以执行本申请实施例中的图像处理方法。

相应地，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时，执行本申请实施例中的图像处理方法。

相应地，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品包括计算机程序或计算机指令，所述计算机程序或计算机指令被处理器执行时实现本申请实施例提供的图像处理方法的步骤。

相应地，本申请实施例还提供了一种计算机程序，所述计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中，图像处理设备的处理器从所述计算机可读存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述图像处理设备执行本申请实施例提供的图像处理方法。

本申请实施例通过对目标图像进行划分，以得到多个划分后的区域，取每个划分区域中该区域内最长的纵向高度线作为目标高度线，再取多个划分后的区域对应的目标高度线的中心，并将该多个中心依次进行连接得到区域分割线。根据该区域分割线与目标高度线得到多个控制点。根据多个控制点对图像进行调整，从而可以实现有效地对包含对象的形状为非标准形状的图片进行识别，提高识别效率，扩大文字识别的适用范围。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的一个通信系统的示意图；

图1b是本申请实施例提供的包含目标图像的图片示意图；

图2是本申请实施例提供的图像处理方法的流程示意图；

图3是本申请实施例提供的一个目标图像的示意图；

图4是本申请实施例提供的另一个目标图像的示意图；

图5是本申请实施例提供的又一个目标图像的示意图；

图6是本申请实施例提供的又一个目标图像的示意图；

图7是本申请实施例提供的又一个目标图像的示意图；

图8是本申请实施例提供的对目标图像进行矫正的示意图；

图9是本申请实施例提供的一个目标图像矫正过程的示意图；

图10是本申请实施例提供的图像处理装置的结构示意图；

图11是本申请实施例提供的图像处理设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种图像处理方法，以实现对弯曲、倾斜等图像进行识别。本申请实施例提供的图像处理方法涉及人工智能(Artificial Intelligence，AI)。其中，AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，其主要通过了解智能的实质，生产出一种新的能以人类智能相似的方式做出反应的智能机器，使得智能机器具有感知、推理与决策等多种功能。

AI技术是一门综合学科，其主要包括机器学习(Machine Learning，ML)、计算机视觉技术(Computer Vision，CV)、语音处理技术、自然语言处理技术以及深度学习等几大方向。其中，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是AI的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习/深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

AI技术中的计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)技术、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、三维动画(Three Dimensional，3D)技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

基于AI技术中的计算机视觉技术，本申请实施例提供了一种图像处理方法，该方法通过对目标图像进行划分，以得到多个划分后的区域，取每个划分区域中该区域内最长的纵向高度线作为目标高度线，再取多个划分后的区域对应的目标高度线的中心，并将该多个中心依次进行连接得到区域分割线。根据该区域分割线与目标高度线得到多个控制点。根据多个控制点对图像进行调整，从而可以实现对图像中的图像元素进行有效识别，进而有效提升图像处理设备的识别效率。

请参见图1a，图1a是本申请实施例提供的一种通信系统的示意图，该图像处理系统主要包括图像处理设备101和终端设备102。

终端设备102为提供识别功能平台的客户端所在设备，是具有通信功能和拍摄功能的设备，包括但不限于：智能手机、平板电脑、笔记本电脑等设备。图像处理设备101包含识别芯片，该识别芯片可以对图像进行识别处理。其中，该图像处理设备101可以内嵌在终端设备102内，也可以是区别于终端设备102的独立设备，在本申请实施例中不做限定。而在该图像处理设备101为独立设备时，该图像处理设备101可以为独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

示例性的，当图像处理设备101与终端设备102为独立存在的两个设备时，操作对象可以通过操作终端设备102选择进行识别的图像(如操作对象拍摄的图片、从网络上下载的图片、摄像头实时获取的图片等)，并将该图像发送给图像处理设备101。图像处理设备101接收到操作对象发送的的图像之后，对该图像进行识别(如文字识别)。图像处理设备101首先对该图像进行区域分割，然后根据分割后的区域确定出一个或者多个在图像边界上的控制点。再然后根据一个或者多个控制点对图像进行矫正为参考形状(如矩形)，最后对矫正后的图像进行识别，得到该图像对应的识别结果。示例性的，用户选择进行识别的图像可以为：包含弯曲文本的门票图像，如图1b中103标记的图片、包含弯曲文本的表情包图像，如图1b中104标记的图片、包含弯曲文本的曲面酒瓶图像，如图1b中105标记的图片、包含弯曲文本的曲面药瓶图片，如图1b中106标记的图片、包含弯曲文本的厚书本中某一页的图像，如图1b中107标记的图片。需要说明的，上述场景仅为举例，本方案还可以应用于其他场景，在此不做赘述。

示例性的，当本申请应用于弯曲文本的文字识别时，图像处理设备101获取需要进行识别的图像，并且获取该图像对应的目标图像(目标图像为该图像中包含弯曲文本的部分)。然后图像处理设备101对该目标图像进行区域分割，得到区域分割线。再然后图像处理设备101根据区域分割线从目标图像中确定位于目标图像边界的控制点。最后根据控制点，将目标图像的形状改变，从而实现对弯曲文本中文字形状的改变，以极小的代价实现更加准确的对包含弯曲文本的图片进行文字识别，并且本申请具有广泛的适应性，使得文字识别技术能够适用于更加广泛的场景。

示例性的，当本申请应用于不标准物品形状的识别(例如，图片内包含的物体是一只小猫，识别出该图片中小猫)时，图像处理设备101获取需要进行识别的图像，并且获取该图像对应的目标图像(目标图像为图片中包含小猫的部分)。然后图像处理设备101对该目标图像进行区域分割，得到区域分割线。再然后图像处理设备101根据区域分割线从目标图像中确定位于目标图像边界的控制点。最后根据控制点，将目标图像的形状改变，从而实现对小猫的形状的改变。对标准形状的小猫再进行识别。

请参见图2，图2为本申请实施例提供的图像处理方法的流程示意图。该图像处理方法包括步骤S201～S203。

S201、图像处理设备获取目标图像，并对目标图像进行区域分割，得到区域分割线；其中，目标图像包含一个或多个目标形状的对象，一个目标形状的对象与目标图像的一个子区域相对应。

其中，目标图像可以是从操作对象自己拍摄的图片中获取得到的，也可以是从操作对象在网络下载的图片中获取得到的，还可以是从操作对象使用终端设备摄像头实时获取的图片中得到的。例如，操作对象使用终端设备拍摄某一瓶子上的英文标签，如图3中，由301标记的图片为该终端设备拍摄得到的带有英文标签的一张图片。对该图片301进行提取处理，得到如图3中由302标记的图片，该图片302包含三个独立图像。目标图像为该三个独立图像中弯曲的两个图像中(图3中由302标记的图片中形状为弧形的两个图像)的一个或两个。

在一种可能的实施方式中，图像处理设备对图片进行提取得到一个或多个目标图像的方式可以为：金字塔场景分析网络(Pyramid Scene Parsing Network，PSNet)、可微的二值化网络(Differential Binarization Network，DBNet)等方式，在此不做限制。

其中，图像处理设备在得到目标图像后，对该目标图像进行区域分割处理得到的区域分割线为目标图像中的一条线段。如图4中由401标记的图像，该图像为一目标图像。如图4中由402标记的线段，该线段为目标图像401中的区域分割线。其中，如果将图4中的目标图像401放入一笛卡尔坐标系的第一象限中，目标图像401的上边界上的某个点的坐标为(xi，y1)，该点基于该分割线对称的，并位于下边界上的点对应坐标则为(xi，y2)，且位于该区域分割线402上的对称点的横坐标为xi，以及该对称点的纵坐标y3满足：y3＝(y1+y2)/2。

其中，目标形状为该目标图像包括的一个或多个对象的形状(如倾斜形状等)，该目标图像包括的一个或多个对象可以为一个或多个文字。例如，如图3所示，目标形状的对象可以是301标记的图片中弯曲部分的一个“X”(倾斜的“X”)，也可以是301标记的图片中弯曲部分的多个“X”。

在一种可能的实施方式中，在图像处理设备获取目标图像之后，对目标图像进行区域分割之前。或者，在图像处理设备对目标图像进行区域分割之后，确定一个或多个控制点之前，还可以进行以下操作：图像处理设备首先获取目标图像的图像边界线，并基于图像边界线确定目标图像的外接边界线，外接边界线包括与图像边界线存在相切关系的矩形；然后，图像处理设备根据图像边界线和外接边界线，确定目标图像中包含对象的形状。

其中，图像边界线可以为根据目标图像的形状得到的该目标图像对应的封闭边界线(例如，该目标图像为一个弧形，则该目标图像对应的封闭边界线也为一个弧形)。也就是说，该图像边界线的形状与目标图像的形状是大小、形状相同的。

可选的，外接边界线可以为一个与图像边界线没有相交点的最小矩形，且该矩形与图像边界线至少存在一点相切。

例如，如图5所示，图5中502标记的图像为一目标图像，图5中503标记的弧线为该目标图像的图像边界线。图5中501标记的矩形为该目标图像对应的外接边界线。由图中可知，外接边界线501与图像边界线503存在五个切点，外接边界线501为刚好包括目标图像502的平行于水平面的矩形。

可选的，图像处理设备基于图像边界确定目标图像的外接边界线的方式可以为下述方式。图像处理设备计算出该图像边界线中最左边的点、最右边的点、最上面的点以及最下面的点。根据最左边的点和最右边的点做纵向切线，根据最上面的点和最下面的点做横向切线，将四条切线作为矩形的边，四条切线中两两相交出现的四个点作为矩形的四个顶点，根据四条边与四个顶点可以得到一个矩形，该矩形为目标图像对应的外接边界线。

在一种可能的实施方式中，目标形状为弯曲形状，图像处理设备根据图像边界线和外接边界线，确定目标图像中包含对象的形状这一步骤具体为：图像处理设备首先基于图像边界线，为目标图像添加一个或多个纵向高度线，纵向高度线是垂直于水平面，且相交于图像边界线的线段；然后图像处理设备从外接边界线中获取与纵向高度线相平行的参考线段；最后图像处理设备根据纵向高度线的线段长度和参考线段的线段长度之间的比值，确定目标图像中包含对象的形状。

其中，纵向高度线为存在于目标图像中与水平面垂直的多条线段，每条线段的两个端点均在图像边界线上，如图6中由601标记的线段，该线段为一条纵向高度线。其中，参考线段与纵向高度线平行，并且该参考线段的长度与外接边界线中与水平面垂直的线段的长度相同。

可选的，参考线段为外接边界线中与水平面垂直的线段，例如图6中的矩形为外接边界线，图6中602标记的线段为外接边界线中与水平面垂直的一条线段，该线段602可以为图6所示的目标图像(弧形形状的图像)对应的一条参考线段。

图像处理设备在不影响非弯曲形状的识别速度情况下，通过纵向高度线与参考线段的比值确定目标图像中包含对象的形状，使得判断对象的形状的过程简单，减少了处理过程中需要耗费的时间，使得识别效率增高。

在一种可能的实施方式中，图像处理设备根据纵向高度线的线段长度和参考线段的线段长度之间的比值，确定目标图像中包含对象的形状的方法具体为：图像处理设备首先从一个或多个纵向高度线中确定出对应线段长度最长的高度线；然后图像处理设备根据对应线段长度最长的高度线的线段长度，与参考线段的线段长度之间的比值，确定目标图像中包含对象的形状；其中，当比值小于阈值时，确定目标图像中包含的对象的形状为弯曲形状。

图像处理设备将纵向高度线的线段长度与参考线段的线段长度的比值，与预设的第一阈值进行对比，判断目标图像中的对象的形状是否为弯曲形状。

例如，如图6所示，图6中的弧形图像为目标图像，该目标图像的形状为弯曲形状，该弯曲形状的封闭边界线为该目标图像对应的图像边界线，图6中的矩形为该目标图像对应的外接边界线。图像处理设备在该外接边界线上做多条与水平面垂直的纵向高度线，从多条与水平面垂直的纵向高度线中选择出长度最长的纵向高度线。该长度最长的纵向高度线的长度为4厘米。将外接边界线中与水平面垂直的线段(如图6中602标记的线段)作为参考线段，该外接边界线中与水平面垂直的线段602的长度为6厘米。预设的第一阈值为0.8。将长度最长的纵向高度线的线段长度与该参考线段的线段长度相除得到比值：4/6＝0.67。将该相除得到的比值与第一阈值进行比较判断该目标图像的形状。也就是说，因为0.67<0.8，该相除得到的比值小于预设的第一阈值，所以判定该目标图像的形状为弯曲形状。

图像处理设备通过选择长度最长的纵向高度线与参考线段的比值确定目标图像中包含对象的形状，可以更加精准的判断该目标图像中包含对象的形状，并且判断效率高，减少了处理过程中需要耗费的时间，最后的识别结果也更加准确。

可选的，确定目标图像中包含的对象的形状的方式，还可以为下述方式。图像处理设备从一个或多个纵向高度线中确定出长度最长的纵向高度线。将该长度最长的纵向高度线以外的多条非最长纵向高度线分别与长度最长的纵向进行比较。如果有n条(n>第三阈值)非最长纵向高度线与长度最长的纵向高度线的比值小于第二阈值，则判断该目标图像中包含的对象的形状为弯曲形状。

例如，如图6所示，该目标图像的形状为弯曲形状，该弯曲形状的边界线为目标图像对应的图像边界线，图6中的矩形为该目标图像对应的外接边界线。图像处理设备在该外接边界线上做四条与水平面垂直的纵向高度线，从左至右这四条纵向高度线依次为：纵向高度线1、纵向高度线2、纵向高度线3以及纵向高度线4。纵向高度线1～4的长度分别为：5厘米、4厘米、3厘米、6厘米。这四条纵向高度线之间的长度关系为：纵向高度线4>纵向高度线1>纵向高度线2>纵向高度线3。第二阈值为0.93，第三阈值为2。图像处理设备确定出长度最长的纵向高度线，也就是纵向高度线4，将纵向高度线1～3依次与纵向高度线4相比：纵向高度线1/纵向高度线4(5/6)＝0.83、纵向高度线2/纵向高度线4(4/6)＝0.67、纵向高度线3/纵向高度线4(3/6)＝0.5。其中三个比值(0.83、0.67、0.5)均小于第二阈值0.93。所以n＝3，n>第三阈值(第三阈值为2)。判断该目标图像中包含的对象的形状为弯曲形状。

S202、图像处理设备根据区域分割线从目标图像中确定出一个或多个控制点，任一控制点在目标图像中的位置用于控制任一控制点所在子区域中包含的对象的形状。

在一种可能的实施方式中，图像处理设备对目标图像进行区域分割，得到区域分割线的方法具体为：图像处理设备首先对目标图像进行横向预分割处理，得到一个或多个横向子区域，并为每个横向子区域添加目标高度线，目标高度线为相应横向子区域中对应线段长度最长的纵向高度线；然后图像处理设备获取任一横向子区域中的目标高度线的线段中点，并将各线段中点连接得到的线段作为区域分割线。

其中，横向子区域为图像处理设备通过一条或多条与水平面垂直的线分割出来的至少两个子区域。图像处理设备通过一条与水平面垂直的线对目标图像进行分割，会得到两个子区域，图像处理设备通过两条与水平面垂直的线对目标图像进行分割，会得到三个子区域，以此类推。

图像处理设备通过多个横向子区域确定得到的控制点更加精确，控制点与目标图像中包含的对象的关联性更大，从而使得矫正后的图像与目标图像的关联性也更大，进而使得识别结果更加准确。

可选的，每一个横向子区域可以包括一个目标形状的对象，也可以包括多个目标形状。例如目标形状的对象为文字，则一个横向子区域内存在一个文字，或者一个横向子区域内存在两个及两个以上的文字。需要说明的，为了使得矫正后图像中的对象与矫正前图像中的对象保持一致，在划分横向子区域时，确保每一个对象均被完整的被划分在对应的横向子区域中。

其中，目标高度线为从该横向子区域中的多条与水平面垂直的线段中，选择出来的长度最长的一条线段。目标高度线的两个端点均在目标图像的图像边界线上。

例如，如图7所示，图7中的弧形图像为一个目标图像，该目标图像包括三个对象(三个字母)：A、B以及C。该目标图像被两条与水平面垂直的线(如图7中701标记的线与图7中702标记的线)分割为三个部分：以线701以左的部分的目标图像包含对象“A”，将该部分目标图像称为横向子区域a、以线701以右并且线702以左的部分的目标图像包含对象“B”，将该部分目标图像称为横向子区域b、以线702以右的部分目标图像包含对象“C”，将该部分目标图像称为横向子区域c。图7中703标记的线为在横向子区域a中的所有纵向高度线中确定出的最长的一条纵向高度线，图7中704标记的线为在横向子区域b中的所有纵向高度线中确定出的最长的一条纵向高度线，图7中705标记的线为在横向子区域c中的所有纵向高度线中确定出的最长的一条纵向高度线。取纵向高度线703的中点、纵向高度线704的中点、纵向高度线705的中点。用此方法图像处理设备确定多条该目标图像的多个横向子区域中的最长纵向高度线，并取该多个最长纵向高度线的中点后，将多个中点连接，得到形如图4中402的一条区域分割线。

在一种可能的实施方式中，图像处理设备根据区域分割线从目标图像中确定出一个或多个控制点的方法具体为：图像处理设备首先基于任一横向子区域中的目标高度线的线段中点，对相应横向子区域中的目标高度线进行位置调整，使调整后的目标高度线与区域分割线垂直；然后图像处理设备将调整后的目标高度线与目标图像的图像边界线的交点作为控制点。

可选的，目标高度线的位置调整方式可以为：图像处理设备将目标高度线的线段中点作为旋转基点，按照顺时针或者逆时针的方向将目标高度线进行旋转，当目标高度线与区域分割线垂直时，停止旋转。此时，目标高度线与目标图像的图像边界的上边界点与目标图像的图像边界的下边界点相交的点都作为控制点。

可选的，控制点的确定方法还可以为：记录所有横向区域中的目标高度线与区域分割线的交点后，删除所有的目标高度线。然后根据记录的所有的目标高度线与区域分割线的交点，作出区域分割线在该交点处的切线。再然后根据所有交点处的切线，在目标图像中作与所有交点处的切线切线垂直，并且与目标图像的图像边界相交的线段/直线。将线段/直线与目标图像的图像边界相交的点作为控制点。

S203、图像处理设备基于控制点，将目标图像中包含的对象的目标形状矫正为参考形状，并对参考形状的对象进行识别处理，得到对象识别结果。

在一种可能的实施方式中，图像处理设备基于控制点，将目标图像中包含的对象的目标形状矫正为参考形状的方式具体为：图像处理设备获取控制点的位置坐标，然后图像处理设备根据该位置坐标对控制点进行位置变换处理，以调整目标图像中包含的对象的形状，直至将目标图像中包含的对象的目标形状矫正为参考形状；其中，参考形状包括对象与水平面垂直的形状。

其中，控制点的位置坐标可以为在笛卡尔坐标轴上的坐标，也可以为在其他坐标轴上的坐标。为方便描述，接下来的描述以控制点的位置坐标在笛卡尔坐标轴上为例。

其中，参考形状为标准的方便识别的形状，例如与水平面平行的矩阵。

其中，位置变换处理将该控制点的位置坐标从一个二维坐标系变换到另一个二维坐标系从而达到对控制点位置坐标变换的效果。该位置变化处理代表的是参考形状与目标图像中包含的对象的目标形状之间的映射关系。通过对控制点进行该位置变换处理可以实现对目标图像进行以下变换的一种或多种：平移、缩放、旋转、翻转和错切等。

可选的，对二维坐标系中的控制点，图像处理设备使用2x2矩阵来调整该控制点的横坐标值(x)和纵坐标值(y)，通过调整x和y的值可以实现二维形态的线性变化(例如，旋转、缩放等)，从而实现对目标图像的形状的变化，进而使得目标图像中包括的对象(例如，文字)的形状发生变化。

例如，目标图像包括四个控制点，控制点1、控制点2、控制点3以及控制点4。获取四个控制点的位置坐标，控制点1的坐标为(x1，y1)、控制点2的坐标为(x2，y2)、控制点3的坐标为(x3，y3)、控制点4的坐标为(x4，y4)。以控制点1为例，图像处理设备对控制点2、控制点3以及控制点4的操作与对控制点1的操作相同。对控制点1的坐标(x1，y1)，进行位置变换处理后得到的坐标为(u1，v1)，该位置变换处理的原理用数学形式表示为：

其中，A为一个2x2的矩阵，矩阵A中的对角线决定缩放，矩阵A中的反对角线决定旋转或错切；B为一个2x1的向量，向量B起平移的作用；x1与y1为控制点1原本的坐标；u1与v1为控制点1进行位置变换处理后的坐标。

为了更好的理解该位置变换处理，请参见如图8，图8中801标记的图像为目标图像，可见该目标图像中的文本为弯曲文本，对其文本的识别效果不佳。从而通过上述位置变换处理，将目标图像801变换为图8中802标记的参考形状。参考形状内的文字为标准的水平文本，对该参考形状可以有效的进行识别。在位置变换处理的过程中，位置变换处理后的图像包含的文字与位置变换处理前的图像包含的文字的顺序与内容均是一样的。

为了更好的理解本申请提出的图像处理方法，下面结合图9，以一个弧形的目标图像为例，对该弧形目标图像进行矫正的过程做进一步解释。如图9所示，首先图像处理设备确定该目标图像的外接边界线，也就是901标记的图像中的矩阵框。然后图像处理设备计算该目标图像的纵向长度线，根据最长的纵向长度线判断该目标图像是是否标准，纵向长度线也就是902标记的图像中的在弧形内的线段。图像处理设备再将目标图像横向分割为多个横向子区域(如903标记的图像所示的四个块)。然后确定每个横向子区域中最长的纵向长度线(如903标记的图像中所示的四条线段)，与每个最长的纵向长度线的中点(如903标记的图像中所示的四个在线段上的点)，将该中点连接起来确定该目标图像对应的区域分割线(如903标记的图像中所示的在目标图像中的弧线)。最后将该最长的纵向长度线以中点为旋转中心旋转至与区域分割线垂直，旋转后的最长的纵向长度线与图像边界线的交点为控制点(如904标记的图像中所示的，位于弧形图像边界的八个点)。基于该控制点矫正图像，矫正后的图像如905标记的图像中所示。

可选的，对参考形状的对象进行识别处理，得到对象识别结果可以采用卷积神经网络(Convolutional Neural Networks，CNN)+双向长短时记忆(Bidirectional LongShort-Term Memory，BLSTM)神经网络+基于神经网络的时序类分类(Connectionisttemporal classification，CTC)网络对该参考形状的对象进行识别处理。

可选的，图像处理设备在基于控制点矫正之前，或者在对目标图像中包含的对象的目标形状矫正之后并且对参考形状的对象进行识别处理之前，还可以对目标图像进行预处理，该预处理可以包括：灰度化处理、二值化处理以及噪声去除处理，以使得识别结果更加准确。

其中，灰度化处理让彩色表示一种灰度颜色，二值化处理将经过灰度化处理的彩色图像中的文字和背景分离，噪声去除处理将二值化处理后图片上残留的小黑点(无用信息)去除。

例如，目标图像为包含文字与背景图片的彩色图像。图像处理设备对该目标图像进行灰度化处理，将该彩色目标图像中的各个颜色转换为灰色。图像处理设备再对该转换为灰色后的图像中的所有像素的灰度值进行判断，将灰度值大于预设阈值127的像素颜色变为白色，将灰度值小于预设阈值127的像素颜色变为黑色，从而得到只有黑白两种颜色的图像。先对只有黑白两种颜色的图像进行搜索，得到所有联通的区域(颜色为黑色，连接起来的区域)。然后对该所有联通的区域计算像素平均值。最后图像处理设备计算所有联通区域与该像素平均值进行比较，当某一联通的区域的像素值远小于该判断值，则认为该区域为噪点。然后去除该噪点。

其中，基于控制点，图像处理设备将对象的目标形状矫正为参考形状的过程，还可以是：图像处理设备基于该目标图像对应的所有控制点，对该目标图像包含的所有对象的目标形状进行矫正后进行识别。

可选的，图像处理设备基于控制点，将对象的目标形状矫正为参考形状的过程，可以是：图像处理设备按照目标图像划分出的多个横向子区域，基于该横向子区域对应的控制点，分别对每个横向子区域包含的对象的目标形状进行矫正后进行识别。

其中，当分别对每个横向子区域包含的对象的目标形状进行矫正之后，将矫正后得到的多个参考形状进行拼接后，进行识别，得到该目标图像对应的对象识别结果。可选的，当图像处理设备分别对每个横向子区域包含的对象的目标形状进行矫正之后，将该多个参考形状分别进行识别，得到多个识别结果。图像处理设备将该多个识别结果按照顺序进行拼接后得到该目标图像对应的对象识别结果。也就是说，该拼接过程可以在识别之前对多个参考形状进行拼接，也可以在识别之后对多个识别结果进行拼接。

本申请首先获取图像对应的包含识别对象的多个图像，从该包含识别对象的多个图像中，选择出不标准的图像作为目标图像。然后，对该目标图像进行区域分割，得到区域分割线。根据该区域分割线确定目标图像对应的在图像边界上的控制点，再基于控制点对该目标图像中的对象的形状进行矫正，以方便准确地进行识别。最后对矫正的对象进行识别得到对象识别结果。通过将不标准的对象形状矫正为标准的对象形状，实现了对于图像中非标准对象的有效识别，有效提升图像处理设备的识别效率。

参见图10，图10是本申请实施例提供的图像处理装置的结构示意图。本申请实施例提供的图像处理装置包括：获取单元1001和处理单元1002。

获取单元1001，用于获取目标图像，并对目标图像进行区域分割，得到区域分割线；其中，目标图像包含一个或多个目标形状的对象，一个目标形状的对象与目标图像的一个子区域相对应；

处理单元1002，用于根据区域分割线从目标图像中确定出一个或多个控制点，任一控制点在目标图像中的位置用于控制任一控制点所在子区域中包含的对象的形状；

处理单元1002，还用于基于控制点，将目标图像中包含的对象的目标形状矫正为参考形状，并对参考形状的对象进行识别处理，得到对象识别结果。

在另一种实现中，

处理单元1002，还用于基于图像边界线，为目标图像添加一个或多个纵向高度线，纵向高度线是垂直于水平面，且相交于图像边界线的线段；

处理单元1002，还用于从外接边界线中获取与纵向高度线相平行的参考线段；

处理单元1002，还用于根据纵向高度线的线段长度和参考线段的线段长度之间的比值，确定目标图像中包含对象的形状。

在另一种实现中，

处理单元1002，还用于从一个或多个纵向高度线中确定出对应线段长度最长的高度线；

处理单元1002，还用于根据对应线段长度最长的高度线的线段长度，与参考线段的线段长度之间的比值，确定目标图像中包含对象的形状；其中，当比值小于阈值时，确定目标图像中包含的对象的形状为弯曲形状。

在另一种实现中，

处理单元1002，还用于对目标图像进行横向预分割处理，得到一个或多个横向子区域，并为每个横向子区域添加目标高度线，目标高度线为相应横向子区域中对应线段长度最长的纵向高度线；

获取单元1001，还用于获取任一横向子区域中的目标高度线的线段中点，并将各线段中点连接得到的线段作为区域分割线。

在另一种实现中，

处理单元1002，还用于基于任一横向子区域中的目标高度线的线段中点，对相应横向子区域中的目标高度线进行位置调整，使调整后的目标高度线与区域分割线垂直；

处理单元1002，还用于将调整后的目标高度线与目标图像的图像边界线的交点作为控制点。

在另一种实现中，

获取单元1001，还用于获取控制点的位置坐标，并根据位置坐标对控制点进行位置变换处理，以调整目标图像中包含的对象的形状，直至将目标图像中包含的对象的目标形状矫正为参考形状；其中，参考形状包括对象与水平面垂直的形状。

可以理解的是，本申请实施例提供的图像处理装置的各功能单元的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例中的相关描述，此处不再赘述。

在可行的实施例中，本申请实施例提供的图像处理装置可以采用软件方式实现，图像处理装置可以存储在存储器中，其可以是程序和插件等形式的软件，并包括一系列的单元，包括获取单元和处理单元；其中，获取单元和处理单元用于实现本申请实施例提供的图像处理方法。

在其它可行的实施例中，本申请实施例提供的图像处理装置也可以采用软硬件结合的方式实现，作为示例，本申请实施例提供的图像处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的图像处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑器件(Programmable Logic Device，PLD)、复杂可编程逻辑器件(Complex Programmable Logic Device，CPLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或其他电子元件。

请参见图11，是本申请实施例提供的一种图像处理设备的结构示意图，该图像处理设备1100可以包括处理器1101、存储器1102、网络接口1103和至少一个通信总线1104。其中，处理器1101用于调度计算机程序，可以包括中央处理器、控制器、微处理器；存储器1102用于存储计算机程序，可以包括高速随机存取存储器RAM，非易失性存储器，例如磁盘存储器件、闪存器件；网络接口1103可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，提供数据通信功能，通信总线1104负责连接各个通信元件。该图像处理设备1100可以对应于前文的数据处理装置100。存储器1102用于存储计算机程序，该计算机程序包括程序指令，处理器1101用于执行存储器1102存储的程序指令，以执行上述实施例中步骤S201至步骤S203中描述的过程，执行如下操作：

在一种实现中，处理器1101获取目标图像，并对目标图像进行区域分割，得到区域分割线；其中，目标图像包含一个或多个目标形状的对象，一个目标形状的对象与目标图像的一个子区域相对应；根据区域分割线从目标图像中确定出一个或多个控制点，任一控制点在目标图像中的位置用于控制任一控制点所在子区域中包含的对象的形状；基于控制点，将目标图像中包含的对象的目标形状矫正为参考形状，并对参考形状的对象进行识别处理，得到对象识别结果。

在一种实现中，处理器1101获取目标图像的图像边界线，并基于图像边界线确定目标图像的外接边界线，外接边界线包括与图像边界线存在相切关系的矩形；根据图像边界线和外接边界线，确定目标图像中包含对象的形状。

在一种实现中，处理器1101基于图像边界线，为目标图像添加一个或多个纵向高度线，纵向高度线是垂直于水平面，且相交于图像边界线的线段；从外接边界线中获取与纵向高度线相平行的参考线段；根据纵向高度线的线段长度和参考线段的线段长度之间的比值，确定目标图像中包含对象的形状。

在一种实现中，处理器1101从一个或多个纵向高度线中确定出对应线段长度最长的高度线；根据对应线段长度最长的高度线的线段长度，与参考线段的线段长度之间的比值，确定目标图像中包含对象的形状；其中，当比值小于阈值时，确定目标图像中包含的对象的形状为弯曲形状。

在一种实现中，处理器1101对目标图像进行横向预分割处理，得到一个或多个横向子区域，并为每个横向子区域添加目标高度线，目标高度线为相应横向子区域中对应线段长度最长的纵向高度线；获取任一横向子区域中的目标高度线的线段中点，并将各线段中点连接得到的线段作为区域分割线。

在一种实现中，处理器1101基于任一横向子区域中的目标高度线的线段中点，对相应横向子区域中的目标高度线进行位置调整，使调整后的目标高度线与区域分割线垂直；将调整后的目标高度线与目标图像的图像边界线的交点作为控制点。

在一种实现中，处理器1101获取控制点的位置坐标，并根据位置坐标对控制点进行位置变换处理，以调整目标图像中包含的对象的形状，直至将目标图像中包含的对象的目标形状矫正为参考形状；其中，参考形状包括对象与水平面垂直的形状。

具体实现中，上述图像处理设备可通过其内置的各个功能单元执行如上述图2中各个步骤所提供的实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时实现图2中各个步骤所提供的图像处理方法，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

上述计算机可读存储介质可以是前述任一实施例提供的图像处理装置或者上述终端设备的内部存储单元，例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备，例如该电子设备上配备的插接式硬盘，智能存储卡(smartmedia card,SMC)，安全数字(secure digital,SD)卡，闪存卡等。进一步地，该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

以上所揭露的仅为本申请的局部实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或局部流程，并依本申请权利要求所作的等同变化，仍属于发明所涵盖的范围。

本申请的权利要求书和说明书及附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请的具体实施方式中，涉及到用户信息(如目标图像等)相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

Claims

1.一种图像处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述目标图像的图像边界线，并基于所述图像边界线确定所述目标图像的外接边界线，所述外接边界线包括与所述图像边界线存在相切关系的矩形；

根据所述图像边界线和所述外接边界线，确定所述目标图像中包含对象的形状。

3.根据权利要求2所述的方法，其特征在于，所述目标形状包括弯曲形状，所述根据所述图像边界线和所述外接边界线，确定所述目标图像中包含对象的形状，包括：

基于所述图像边界线，为所述目标图像添加一个或多个纵向高度线，所述纵向高度线是垂直于水平面，且相交于所述图像边界线的线段；

从所述外接边界线中获取与所述纵向高度线相平行的参考线段；

根据纵向高度线的线段长度和所述参考线段的线段长度之间的比值，确定所述目标图像中包含对象的形状。

4.根据权利要求3所述的方法，其特征在于，所述根据纵向高度线的线段长度和所述参考线段的线段长度之间的比值，确定所述目标图像中包含对象的形状，包括：

从所述一个或多个纵向高度线中确定出对应线段长度最长的高度线；

根据对应线段长度最长的高度线的线段长度，与所述参考线段的线段长度之间的比值，确定所述目标图像中包含对象的形状；

其中，当所述比值小于阈值时，确定所述目标图像中包含的对象的形状为弯曲形状。

5.根据权利要求1所述的方法，其特征在于，所述对所述目标图像进行区域分割，得到区域分割线，包括：

对所述目标图像进行横向预分割处理，得到一个或多个横向子区域，并为每个横向子区域添加目标高度线，所述目标高度线为相应横向子区域中对应线段长度最长的纵向高度线；

获取任一横向子区域中的目标高度线的线段中点，并将各线段中点连接得到的线段作为区域分割线。

6.根据权利要求5所述的方法，其特征在于，所述根据所述区域分割线从所述目标图像中确定出一个或多个控制点，包括：

基于任一横向子区域中的目标高度线的线段中点，对相应横向子区域中的目标高度线进行位置调整，使调整后的目标高度线与所述区域分割线垂直；

将调整后的目标高度线与所述目标图像的图像边界线的交点作为控制点。

7.根据权利要求1所述的方法，其特征在于，所述基于所述控制点，将所述目标图像中包含的对象的目标形状矫正为参考形状，包括：

获取所述控制点的位置坐标，并根据所述位置坐标对所述控制点进行位置变换处理，以调整所述目标图像中包含的对象的形状，直至将所述目标图像中包含的对象的目标形状矫正为参考形状；

其中，所述参考形状包括所述对象与水平面垂直的形状。

8.一种图像处理装置，其特征在于，所述装置包括：

9.一种图像处理设备，其特征在于，包括：处理器、网络接口和存储器，所述处理器、所述网络接口和所述存储器相互连接，其中，所述存储器存储有可执行程序代码，所述处理器用于调用所述可执行程序代码，执行如权利要求1-7中任一项所述的图像处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如权利要求1-7中任一项所述的图像处理方法。

11.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序或计算机指令，所述计算机程序或计算机指令被处理器执行时实现如权利要求1-7中任一项所述的图像处理方法的步骤。