CN108304840B

CN108304840B - 一种图像数据处理方法以及装置

Info

Publication number: CN108304840B
Application number: CN201710772037.XA
Authority: CN
Inventors: 占克有
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-08-31
Filing date: 2017-08-31
Publication date: 2022-11-11
Anticipated expiration: 2037-08-31
Also published as: CN108304840A

Abstract

本发明实施例公开了一种图像数据处理方法以及装置，其中方法包括：获取目标图像，并检测目标图像中的直线；识别由直线构成的多边形，将多边形添加到待识别区域集合中；每个多边形的边数相同；计算待识别区域集合中的每个多边形分别对应的面积，并在每个多边形分别对应的面积中，选择面积最大者对应的多边形，作为目标多边形，并确定目标多边形对应的区域为预测文档区域，并对目标图像进行旋转，以便于旋转后的目标图像中的预测文档区域位于终端屏幕的预设方向。采用本发明，可提高图片文字的识别成功率。

Description

一种图像数据处理方法以及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种图像数据处理方法以及装置。

背景技术

随着手机发展，从手机拍照中识别文字有很多应用场合，如合同文档等拍照发送、拍照翻译、拍题、拍医学化验单等等。

在目前的图片文字识别方法中，通常需要用户以正确的姿态拍摄文档，以保证文档可以位于图片中的特定方向(如文档边缘与屏幕边缘分别平行的方向)，进而可以保证文档中的文字也位于图片中的特定方向(如文字位于屏幕的水平方向)，从而可以保证成功识别出图片中的文字。若用户没有以正确的姿态拍摄文档，则会导致文档中的文字没有位于图片中的特定方向，进而给文字识别带来困难，可能会导致图片文字识别失败，从而降低了图片文字的识别成功率。

发明内容

本发明实施例提供一种图像数据处理方法以及装置，可提高图片文字的识别成功率。

本发明实施例的一方面提供了一种图像数据处理方法，包括：

获取目标图像，并检测所述目标图像中的直线；

识别由所述直线构成的多边形，将所述多边形添加到待识别区域集合中；每个多边形的边数相同；

计算所述待识别区域集合中的每个多边形分别对应的面积，并在所述每个多边形分别对应的面积中，选择面积最大者对应的多边形，作为目标多边形，并确定所述目标多边形对应的区域为预测文档区域，并对所述目标图像进行旋转，以便于旋转后的目标图像中的所述预测文档区域位于终端屏幕的预设方向。

其中，所述获取目标图像，并检测所述目标图像中的直线，包括：

获取目标图像，并计算所述目标图像对应的灰度图像；

根据预设的图像分割算法，对所述灰度图像进行分割，以获取所述灰度图像中的边缘线；

在所述边缘线中进行直线检测，以得到直线。

其中，所述识别由所述直线构成的多边形，包括：

在所述直线中，计算每两条直线之间的至少一个夹角；

将所述至少一个夹角中存在锐角的两条直线确定为两条目标直线；

将所述锐角小于第一角度阈值的两条目标直线确定为一组近似平行线，并识别由两组近似平行线构成的多边形；每个多边形均为四边形。

其中，所述将所述多边形添加到待识别区域集合中，包括：

分别检测所述每个多边形中的每个角的度数；

将每个角的度数均大于第二角度阈值的多边形添加到待识别区域集合中。

其中，在所述计算所述待识别区域集合中的每个多边形分别对应的面积的步骤之前，还包括：

获取所述待识别区域集合中每个多边形中的两组近似平行线分别对应的锐角；

将存在至少一组近似平行线对应的锐角小于第三角度阈值的多边形，从所述待识别区域集合中移除。

其中，还包括：

若所述待识别区域集合中每个多边形均存在至少一组近似平行线对应的锐角小于第三角度阈值，则将具有最小锐角和的两组近似平行线所对应的多边形确定为目标多边形，并移除所述待识别区域中除了所述目标多边形以外的多边形。

本发明实施例的另一方面提供了一种图像数据处理装置，包括：

获取检测模块，用于获取目标图像，并检测所述目标图像中的直线；

识别模块，用于识别由所述直线构成的多边形；每个多边形的边数相同；

添加模块，用于将所述多边形添加到待识别区域集合中；

确定旋转模块，用于计算所述待识别区域集合中的每个多边形分别对应的面积，并在所述每个多边形分别对应的面积中，选择面积最大者对应的多边形，作为目标多边形，并确定所述目标多边形对应的区域为预测文档区域，并对所述目标图像进行旋转，以便于旋转后的目标图像中的所述预测文档区域位于终端屏幕的预设方向。

其中，所述获取检测模块包括：

获取计算单元，用于获取目标图像，并计算所述目标图像对应的灰度图像；

边缘获取单元，用于根据预设的图像分割算法，对所述灰度图像进行分割，以获取所述灰度图像中的边缘线；

直线检测单元，用于在所述边缘线中进行直线检测，以得到直线。

其中，所述识别模块，具体用于在所述直线中，计算每两条直线之间的至少一个夹角，并将所述至少一个夹角中存在锐角的两条直线确定为两条目标直线，并将所述锐角小于第一角度阈值的两条目标直线确定为一组近似平行线，并识别由两组近似平行线构成的多边形；每个多边形均为四边形。

其中，所述添加模块，具体用于分别检测所述每个多边形中的每个角的度数，并将每个角的度数均大于第二角度阈值的多边形添加到待识别区域集合中。

其中，还包括：

角度获取模块，用于获取所述待识别区域集合中每个多边形中的两组近似平行线分别对应的锐角；

删除模块，用于将存在至少一组近似平行线对应的锐角小于第三角度阈值的多边形，从所述待识别区域集合中移除。

其中，所述删除模块，还用于若所述待识别区域集合中每个多边形均存在至少一组近似平行线对应的锐角小于第三角度阈值，则将具有最小锐角和的两组近似平行线所对应的多边形确定为目标多边形，并移除所述待识别区域中除了所述目标多边形以外的多边形。

本发明实施例的另一方面提供了一种图像数据处理装置，包括：处理器和存储器；

所述处理器和存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行以下操作：

获取目标图像，并检测所述目标图像中的直线；

本发明实施例的另一方面提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，当所述处理器执行所述程序指令时执行本发明实施例的一种图像数据处理方法。

本发明实施例通过获取目标图像，并检测目标图像中的直线，并识别由直线构成的多边形，将多边形添加到待识别区域集合中，并计算待识别区域集合中的每个多边形分别对应的面积，并在每个多边形分别对应的面积中，选择面积最大者对应的多边形，作为目标多边形，并确定目标多边形对应的区域为预测文档区域，并对目标图像进行旋转，以便于旋转后的目标图像中的预测文档区域位于终端屏幕的预设方向。由于可以找出文档的可能区域，所以通过旋转目标图像，可以将目标图像中的文档旋转到预设方向，以保证文档中的文字以被旋转到预设方向上，以便于后续可以更容易识别出位于预设方向上的文字，以提高图片文字的识别成功率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种图像数据处理方法的流程示意图；

图2是本发明实施例提供的另一种图像数据处理方法的流程示意图；

图3是本发明实施例提供的一种包含文档的图像的界面示意图；

图4是本发明实施例提供的另一种包含文档的图像的界面示意图；

图5是本发明实施例提供的一种图像数据处理装置的结构示意图；

图6是本发明实施例提供的一种获取检测模块的结构示意图；

图7是本发明实施例提供的另一种图像数据处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种图像数据处理方法，所述方法可以应用于识别图片中的文字的场景，即所述方法可以应用于需要识别图片中的文字的用户终端或应用程序中。所述用户终端可以包括计算机、平板电脑、智能手机、笔记本电脑、掌上电脑、数字电视以及移动互联网设备(MID)等终端设备，或者可以为所述终端设备中的客户端，所述用户终端也可以包括智能终端(例如，智能手表、智能眼镜、虚拟现实设备等智能终端)。例如，可以将所述方法应用于翻译软件中，即首先拍一张照片，再通过所述方法检测照片里面的预测文档区域，再纠正预测文档区域在屏幕中的位置，以提高识别预测文档区域中的文字的成功率，最后再对所识别出的文字进行翻译。又例如，可以将所述方法应用于教育产品软件中，即首先拍摄一张包含题目的图片，然后通过所述方法检测图片中的预测文档区域，再纠正预测文档区域在屏幕中的位置，以提高识别预测文档区域中的文字的成功率，最后再为所识别出的题目内容匹配解题方案。其中，所述方法的具体实现方式(即检测图片中的预测文档区域的具体实现方式)可以参见下面图1-图2对应实施例的描述。

请参见图1，是本发明实施例提供的一种图像数据处理方法的流程示意图，所述方法可以包括：

S101，获取目标图像，并检测所述目标图像中的直线；

具体的，用户终端可以通过摄像头采集目标图像，所述用户终端也可以通过互联网从服务器获取目标图像(即所述目标图像预先存储于所述服务器中)。所述用户终端可以包括计算机、平板电脑、智能手机、笔记本电脑、掌上电脑、数字电视以及移动互联网设备(MID)等终端设备，或者可以为所述终端设备中的客户端。所述目标图像可以为至少包含文字内容的图像，且所述目标图像可以为RGB(red、green、blue，红、绿、蓝)图像。

所述用户终端可以进一步将所述目标图像中的每一个像素的RGB值转换为灰度值，以生成所述目标图像对应的灰度图像，再基于Canny算子或GPB(globalizedprobability of boundary，全局概率边界)算法识别所述灰度图像中的边缘线，并进一步基于hough变换检测所述边缘线中的直线，即得到所述目标图像中的多个直线。

S102，识别由所述直线构成的多边形，将所述多边形添加到待识别区域集合中；每个多边形的边数相同；

具体的，所述用户终端可以在所述多个直线中计算每两条直线之间的至少一个夹角，所述至少一个夹角包括两条直线之间的锐角和钝角，或所述至少一个夹角为直角。例如，存在3条直线a、b、c，则可以分别计算a和b之间的至少一个夹角、a和c之间的至少一个夹角、c和b之间的至少一个夹角。

所述用户终端可以进一步将所述至少一个夹角中存在锐角的两条直线确定为两条目标直线，并将所述锐角小于第一角度阈值的两条目标直线确定为一组近似平行线。例如，若所述第一角度阈值为20度，且目标直线a和目标直线b之间的锐角为30度、目标直线a和目标直线c之间的锐角为10度、目标直线c和目标直线b之间的锐角为15度，则可以将一组目标直线a和c确定为一组近似平行线，并将一组目标直线c和b确定为一组近似平行线。

为了找到图片中的文档的可能区域，且文档的轮廓通常为矩形，则所述用户终端可以进一步识别多个由两组近似平行线构成的近似封闭的多边形；每个多边形均为四边形。其中，近似封闭的多边形可以为理解为相邻两条边之间相互靠近的两个端点的距离小于预设像素点数量阈值的多边形，即近似封闭的多边形可以为4条边完全封闭的多边形，或4条边趋近封闭的多边形。由于一组近似平行线为两条趋近平行的直线，所以两组近似平行线所构成的多边形可以更趋近为矩形，因此，通过近似平行线筛选多边形可以过滤掉完全不可能为文档区域的多边形，以提高识别效率。进而所述用户终端可以将所述多个多边形添加到待识别区域集合中，以便于后续进行预测文档区域识别。

S103，计算所述待识别区域集合中的每个多边形分别对应的面积，并在所述每个多边形分别对应的面积中，选择面积最大者对应的多边形，作为目标多边形，并确定所述目标多边形对应的区域为预测文档区域，并对所述目标图像进行旋转，以便于旋转后的目标图像中的所述预测文档区域位于终端屏幕的预设方向；

具体的，所述用户终端可以进一步计算所述待识别区域集合中的每个多边形分别对应的面积。由于用户主要是对文档进行拍照，所以在正常情况下，文档在图片中所占面积最大，因此，所述用户终端可以在所述每个多边形分别对应的面积中，选择面积最大者对应的多边形，作为目标多边形，并确定所述目标多边形对应的区域为预测文档区域，即所述目标多边形所在区域最有可能是文档所在的区域。

所述用户终端可以进一步对所述目标图像进行旋转，以便于旋转后的目标图像中的所述预测文档区域位于终端屏幕的预设方向。所述预设方向可以为所述目标多边形的4条边分别与终端屏幕平行的方向，即旋转后的所述目标多边形的一组近似平行线与所述终端屏幕的垂直边平行、另一组近似平行线与所述终端屏幕的水平边平行，从而可以保证文档中的文字可以在水平方向上显示，以便于后续可以更容易识别出位于水平方向上的文字，以提高图片文字的识别成功率。而且由于文档可以被自动摆正，所以用户也无需以正确的姿态拍摄文档，即用户可以更加随意的拍摄文档，以提高用户的操作便捷性。

可选的，在选择所述目标图像后，用户可以根据预测文档区域的位置进一步手动操作屏幕，以将所述预测文档区域的位置调整到用户所期望的位置。

请参见图2，是本发明实施例提供的另一种图像数据处理方法的流程示意图，所述方法可以包括：

S201，获取目标图像，并计算所述目标图像对应的灰度图像；

具体的，用户终端可以通过摄像头采集目标图像，所述用户终端也可以通过互联网从服务器获取目标图像(即所述目标图像预先存储于所述服务器中)。所述用户终端可以包括计算机、平板电脑、智能手机、笔记本电脑、掌上电脑、数字电视以及移动互联网设备(MID)等终端设备，或者可以为所述终端设备中的客户端。所述目标图像可以为至少包含文字内容的图像，且所述目标图像可以为RGB(red、green、blue，红、绿、蓝)图像。所述用户终端可以进一步将所述目标图像中的每一个像素的RGB值转换为灰度值，以生成所述目标图像对应的灰度图像。

S202，根据预设的图像分割算法，对所述灰度图像进行分割，以获取所述灰度图像中的边缘线；

具体的，所述图像分割算法可以为Canny算子或GPB算法。若所述图像分割算法为Canny算子，则可以对所述灰度图像进行高斯滤波，并通过一阶偏导的有限差分计算滤波后的灰度图像的灰度值的梯度(具体包括梯度幅值和方向)，再对梯度幅值进行非极大值抑制，得到所述灰度图像对应的二值图像，最后对二值图像进行双阈值算法检测和连接边缘处理，以得到新的二值图像，该新的二值图像包含了所述灰度图像中的边缘线。

若所述图像分割算法为GPB算法，则可以预先训练一个GPB分类器。训练GPB分类器的过程可以为：准备大量的包含有文档(例如，书、文件等)的图片样本(例如8000张这样的图片样本)，并通过人工标注出图片中的文档的位置坐标，进而可以基于标注有文档位置坐标的图片样本对GPB分类器进行训练。所述用户终端通过训练后的GPB分类器可以找出所述灰度图像中的边缘线，而且所找出的边缘线均为与文档的实际边缘线相近似的边缘线。因此，通过GPB分类器查找出边缘线，可以使后续生成更少且更贴近文档的多边形，以减少检测多边形的工作量，从而进一步提高识别效率。

S203，在所述边缘线中进行直线检测，以得到直线；

具体的，所述用户终端可以通过hough变换检测所述边缘线中的直线。其中，hough变换是一种使用表决原理的参数估计技术，其原理是利用图像空间和hough参数空间的点－线对偶性，把图像空间中的检测问题转换到参数空间；再通过在参数空间里进行简单的累加统计，然后在hough参数空间寻找累加器峰值的方法检测直线。

S204，识别由所述直线构成的多个多边形；

为了找到图片中的文档的可能区域，且文档的轮廓通常为矩形，则所述用户终端可以进一步识别多个由两组近似平行线构成的近似封闭的多边形；每个多边形均为四边形。其中，近似封闭的多边形可以为理解为相邻两条边之间相互靠近的两个端点的距离小于预设像素点数量阈值的多边形，即近似封闭的多边形可以为4条边完全封闭的多边形，或4条边趋近封闭的多边形。由于一组近似平行线为两条趋近平行的直线，所以两组近似平行线所构成的多边形可以更趋近为矩形，因此，通过近似平行线筛选多边形可以过滤掉完全不可能为文档区域的多边形，以提高识别效率。

进一步的，请一并参见图3，是本发明实施例提供的一种包含文档的图像的界面示意图。如图3所示，所述用户终端(即图3中的手机)所拍摄得到的目标图像100包括两个图案内容，分别为文档110和手机120，所述用户终端可以在所述目标图像100中检测出多个直线，分别为a、b、c、d、e、f、g、h，其中，a、b、c、d为文档110的边缘线，e、f、g、h为手机120的边缘线。进一步的，所述用户终端可以根据每两条直线之间的夹角检测出多组近似平行线，分别为近似平行线(a和c)、近似平行线(a和e)、近似平行线(a和g)、近似平行线(c和e)、近似平行线(c和g)、近似平行线(e和g)、近似平行线(b和d)、近似平行线(b和f)、近似平行线(b和h)、近似平行线(d和f)、近似平行线(d和h)、近似平行线(f和h)，进一步的，将每两组近似平行线进行组合，其中，能够构成其中一个多边形的两组近似平行线包括近似平行线(a和c)和近似平行线(b和d)，能够构成其中另一个多边形的两组近似平行线包括近似平行线(e和g)和近似平行线(f和h)，即a、b、c、d可以构成一个四边形，e、f、g、h可以构成另一个四边形，后续可以继续对这两个四边形进行检测，以识别出预测文档区域。

S205，分别检测所述每个多边形中的每个角的度数；

具体的，识别出多个多边形后，所述用户终端可以进一步计算所述每个多边形中的每个角的度数。

S206，将每个角的度数均大于第二角度阈值的多边形添加到待识别区域集合中；

具体的，例如，所述第二角度阈值为45度，即当某个四边形的4个角的度数都大于45度时，才会将该四边形添加到待识别区域。即当某个四边形中的至少一个角的度数小于或等于45度时，即可将该四边形淘汰，即说明该四边形完全不可能为矩形，因此，通过淘汰这类四边形，可以进一步减少识别出预测文档区域的工作量，从而可以进一步提高识别效率。

S207，获取所述待识别区域集合中每个多边形中的两组近似平行线分别对应的锐角；

S208，将存在至少一组近似平行线对应的锐角小于第三角度阈值的多边形，从所述待识别区域集合中移除；

具体的，所述用户终端还可以进一步获取所述待识别区域集合中每个多边形中的两组近似平行线分别对应的锐角，并将存在至少一组近似平行线对应的锐角小于第三角度阈值的多边形，从所述待识别区域集合中移除。例如，若S204中的第一角度阈值为20度，则可以设置所述第三角度阈值为10度，即通过所述第三角度阈值进一步筛选出更加趋近为矩形的四边形；因此，若某个四边形的其中一组近似平行线之间的锐角为15度，则可以将该四边形从所述待识别区域集合中移除；若某个四边形的其中一组近似平行线之间的锐角为5度，其中另一组近似平行线之间的锐角为1度，则可以将该四边形保留在所述待识别区域集合中。因此，通过所述第三角度阈值可以进一步淘汰一些对边不够平行的四边形，可以进一步减少识别出预测文档区域的工作量，从而可以进一步提高识别效率。

可选的，若所述待识别区域集合中每个多边形均存在至少一组近似平行线对应的锐角小于第三角度阈值，则将具有最小锐角和的两组近似平行线所对应的多边形确定为目标多边形，并移除所述待识别区域中除了所述目标多边形以外的多边形。

例如，若所述第三角度阈值为10度，其中，所述待识别区域集合包括多边形A和多边形B，且多边形A的其中一组近似平行线之间的锐角为15度、另一组近似平行线之间的锐角为5度，且多边形B的其中一组近似平行线之间的锐角为12度、另一组近似平行线之间的锐角为10度，则可以计算出多边形A的锐角和为20度，多边形B的锐角和为22度，进而可以将具有最小锐角和的多边形A确定为目标多边形，即所述待识别区域中仅保留多边形A。

S209，计算所述待识别区域集合中的每个多边形分别对应的面积，并在所述每个多边形分别对应的面积中，选择面积最大者对应的多边形，作为目标多边形，并确定所述目标多边形对应的区域为预测文档区域，并对所述目标图像进行旋转；

进一步的，请一并参见图4，是本发明实施例提供的另一种包含文档的图像的界面示意图。通过S205-S209的步骤可以检测出上述图3中由a、b、c、d所构成的四边形为预测文档区域(即文档110所在的区域)，所述用户终端可以进一步对图3中的目标图像100进行旋转，以得到如图4所示的目标图像100，即图4中的目标图像100(即旋转后的目标图像100)中的预测文档区域(即文档110所在的区域)可以位于终端屏幕的预设方向，由图4可知，该预设方向即为文档110的边缘直线a和c与终端屏幕的水平边平行、且文档110的边缘直线b和d与终端屏幕的垂直边平行的方向。通过旋转目标图像100，不仅可以使文档110位于终端屏幕的预设方向，也可以使文档110中的文字也处于终端屏幕的水平方向，以便于后续可以更容易识别出位于水平方向上的文字，以提高图片文字的识别成功率。

请参见图5，是本发明实施例提供的一种图像数据处理装置的结构示意图。所述图像数据处理装置1可以包括：获取检测模块10、识别模块20、添加模块30、确定旋转模块40；

所述获取检测模块10，用于获取目标图像，并检测所述目标图像中的直线；

所述识别模块20，用于识别由所述直线构成的多边形；每个多边形的边数相同；

其中，所述识别模块20可以具体用于在所述直线中，计算每两条直线之间的至少一个夹角，并将所述至少一个夹角中存在锐角的两条直线确定为两条目标直线，并将所述锐角小于第一角度阈值的两条目标直线确定为一组近似平行线，并识别由两组近似平行线构成的多边形；每个多边形均为四边形。

所述添加模块30，用于将所述多边形添加到待识别区域集合中；

其中，所述添加模块30可以具体用于分别检测所述每个多边形中的每个角的度数，并将每个角的度数均大于第二角度阈值的多边形添加到待识别区域集合中。

所述确定旋转模块40，用于计算所述待识别区域集合中的每个多边形分别对应的面积，并在所述每个多边形分别对应的面积中，选择面积最大者对应的多边形，作为目标多边形，并确定所述目标多边形对应的区域为预测文档区域，并对所述目标图像进行旋转，以便于旋转后的目标图像中的所述预测文档区域位于终端屏幕的预设方向。

其中，所述获取检测模块10、所述识别模块20、所述添加模块30的具体功能实现方式可以参见上述图2对应实施例中的S201-S206，所述确定旋转模块40的具体功能实现方式可以参见上述图2对应实施例中的S209，这里不再进行赘述。

可选的，如图5所示，所述图像数据处理装置1还可以包括角度获取模块50、删除模块60；其中，所述角度获取模块50、所述删除模块60所执行的步骤可以位于所述确定旋转模块40所执行的步骤之前。

所述角度获取模块50，用于获取所述待识别区域集合中每个多边形中的两组近似平行线分别对应的锐角；

所述删除模块60，用于将存在至少一组近似平行线对应的锐角小于第三角度阈值的多边形，从所述待识别区域集合中移除。

所述删除模块60，还用于若所述待识别区域集合中每个多边形均存在至少一组近似平行线对应的锐角小于第三角度阈值，则将具有最小锐角和的两组近似平行线所对应的多边形确定为目标多边形，并移除所述待识别区域中除了所述目标多边形以外的多边形。

其中，所述角度获取模块50、所述删除模块60的具体功能实现方式可以参见上述图2对应实施例中的S207-S208，这里不再进行赘述。

进一步的，请一并参见图6，是本发明实施例提供的一种获取检测模块10的结构示意图，所述获取检测模块10包括：获取计算单元101、边缘获取单元102、直线检测单元103；

所述获取计算单元101，用于获取目标图像，并计算所述目标图像对应的灰度图像；

所述边缘获取单元102，用于根据预设的图像分割算法，对所述灰度图像进行分割，以获取所述灰度图像中的边缘线；

所述直线检测单元103，用于在所述边缘线中进行直线检测，以得到直线。

其中，所述获取计算单元101、所述边缘获取单元102、所述直线检测单元103的具体功能实现方式可以参见上述图2对应实施例中的S201-S203，这里不再进行赘述。

请参见图7，是本发明实施例提供的另一种图像数据处理装置的结构示意图。如图7所示，所述图像数据处理装置1000可以应用于上述图1或图2对应实施例中的用户终端，所述图像数据处理装置1000可以包括：处理器1001、网络接口1004、存储器1005，此外，所述图像数据处理装置1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图7所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图7所示的图像数据处理装置1000中，所述网络接口1004用于与服务器进行通信，以从服务器获取目标图像(或者所述图像数据处理装置1000也可以在本地存储库中获取目标图像)；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

获取目标图像，并检测所述目标图像中的直线；

在一个实施例中，所述处理器1001在执行获取目标图像，并检测所述目标图像中的直线时，可以具体执行以下步骤：

获取目标图像，并计算所述目标图像对应的灰度图像；

在所述边缘线中进行直线检测，以得到直线。

在一个实施例中，所述处理器1001在执行识别由所述直线构成的多边形时，可以具体执行以下步骤：

在所述直线中，计算每两条直线之间的至少一个夹角；

在一个实施例中，所述处理器1001在执行将所述多边形添加到待识别区域集合中时，可以具体执行以下步骤：

分别检测所述每个多边形中的每个角的度数；

在一个实施例中，所述处理器1001在执行计算所述待识别区域集合中的每个多边形分别对应的面积之前，还可以执行以下步骤：

在一个实施例中，所述处理器1001还可以执行以下步骤：

此外，这里需要指出的是：本发明实施例还提供了一种计算机存储介质，且所述计算机存储介质中存储有前文提及的图像数据处理装置1所执行的计算机程序，且所述计算机程序包括程序指令，当所述处理器执行所述程序指令时，能够执行前文图1或图2所对应实施例中对所述图像数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节，请参照本发明方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种图像数据处理方法，其特征在于，包括：

获取目标图像，并计算所述目标图像对应的灰度图像；

通过训练后的GPB分类器识别出所述灰度图像中与文档的实际边缘线相近似的边缘线；所述训练后的GPB分类器是基于包含有文档以及标注有所述文档的位置坐标的图片样本进行训练得到；

在所述边缘线中进行hough变换检测，得到直线；

识别由所述直线构成的多边形，将所述多边形添加到待识别区域集合中；每个多边形的边数相同；所述待识别区域集合中的所述多边形的相邻两条边之间相互靠近的两个端点的距离小于预设像素点数量阈值；

若所述待识别区域集合中每个多边形均存在至少一组近似平行线对应的锐角大于第三角度阈值，则移除所述待识别区域集合中除了具有最小锐角和的两组近似平行线所对应的多边形以外的多边形；所述锐角和是指多边形中的每组近似平行线对应的锐角之和；

计算所述待识别区域集合中的每个多边形分别对应的面积，并在所述每个多边形分别对应的面积中，选择面积最大者对应的多边形，作为目标多边形，并确定所述目标多边形对应的区域为预测文档区域，并对所述目标图像进行旋转，以便于旋转后的目标图像中的所述预测文档区域位于终端屏幕的预设方向；旋转后的目标图像中的目标多边形的一组近似平行线与所述终端屏幕的垂直边平行、另一组近似平行线与所述终端屏幕的水平边平行。

2.如权利要求1所述的方法，其特征在于，所述识别由所述直线构成的多边形，包括：

在所述直线中，计算每两条直线之间的至少一个夹角；

3.如权利要求2所述的方法，其特征在于，所述将所述多边形添加到待识别区域集合中，包括：

分别检测所述每个多边形中的每个角的度数；

4.如权利要求2或3所述的方法，其特征在于，在所述计算所述待识别区域集合中的每个多边形分别对应的面积的步骤之前，还包括：

5.一种图像数据处理装置，其特征在于，包括：

添加模块，用于将所述多边形添加到待识别区域集合中；所述待识别区域集合中的所述多边形的相邻两条边之间相互靠近的两个端点的距离小于预设像素点数量阈值；

删除模块，用于若所述待识别区域集合中每个多边形均存在至少一组近似平行线对应的锐角大于第三角度阈值，则移除所述待识别区域集合中除了具有最小锐角和的两组近似平行线所对应的多边形以外的多边形；所述锐角和是指多边形中的每组近似平行线对应的锐角之和；

确定旋转模块，用于计算所述待识别区域集合中的每个多边形分别对应的面积，并在所述每个多边形分别对应的面积中，选择面积最大者对应的多边形，作为目标多边形，并确定所述目标多边形对应的区域为预测文档区域，并对所述目标图像进行旋转，以便于旋转后的目标图像中的所述预测文档区域位于终端屏幕的预设方向；旋转后的目标图像中的目标多边形的一组近似平行线与所述终端屏幕的垂直边平行、另一组近似平行线与所述终端屏幕的水平边平行；

其中，所述获取检测模块包括：

边缘获取单元，用于通过训练后的GPB分类器识别出所述灰度图像中与文档的实际边缘线相近似的边缘线；所述训练后的GPB分类器是基于包含有文档以及标注有所述文档的位置坐标的图片样本进行训练得到；

直线检测单元，用于在所述边缘线中进行hough变换检测，得到直线。

6.如权利要求5所述的装置，其特征在于，

所述识别模块，具体用于在所述直线中，计算每两条直线之间的至少一个夹角，并将所述至少一个夹角中存在锐角的两条直线确定为两条目标直线，并将所述锐角小于第一角度阈值的两条目标直线确定为一组近似平行线，并识别由两组近似平行线构成的多边形；每个多边形均为四边形。

7.如权利要求6所述的装置，其特征在于，

所述添加模块，具体用于分别检测所述每个多边形中的每个角的度数，并将每个角的度数均大于第二角度阈值的多边形添加到待识别区域集合中。

8.如权利要求6或7所述的装置，其特征在于，还包括：

所述删除模块，还用于将存在至少一组近似平行线对应的锐角小于第三角度阈值的多边形，从所述待识别区域集合中移除。

9.一种图像数据处理装置，其特征在于，包括：处理器和存储器；

获取目标图像，并计算所述目标图像对应的灰度图像；

在所述边缘线中进行hough变换检测，得到直线；

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，当处理器执行所述程序指令时执行如权利要求1-4任一项所述的方法。