CN111325197A

CN111325197A - 数据处理方法和装置、用于数据处理的装置

Info

Publication number: CN111325197A
Application number: CN201811445362.6A
Authority: CN
Inventors: 赵熹; 徐露露; 许建中; 马龙; 苏雪峰
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2018-11-29
Filing date: 2018-11-29
Publication date: 2020-06-23
Anticipated expiration: 2038-11-29
Also published as: CN111325197B

Abstract

本发明实施例提供了一种数据处理方法和装置、用于数据处理的装置，其中的方法具体包括：利用卷积神经网络，确定图像中对象对应的第一边缘二值图像；对所述第一边缘二值图像进行边缘细化处理，以得到第二边缘二值图像；依据所述第二边缘二值图像中符合第一条件的第一直线对的参数，构建第二坐标系；所述第二坐标系的圆点为所述第一直线对的四个端点组成的封闭图形的质心；依据所述第一直线对的四个端点、以及所述第二坐标系，确定所述第一直线对对应的第一合并直线；依据所述第一合并直线，确定所述对象在所述第二边缘二值图像中的位置。本发明实施例可以提高对象的边缘信息的准确度，可以减少冗余的边缘信息，因此可以提高对象的位置的准确度。

Description

数据处理方法和装置、用于数据处理的装置

技术领域

本发明涉及网络技术领域，特别是涉及一种数据处理方法和装置、以及一种用于数据处理的装置。

背景技术

随着网络技术的不断发展，移动设备的功能也越来越丰富。越来越多的移动设备具备拍照翻译、拍题、拍医学化验单等功能。字符区域检测是上述功能的一个实现环节，其可用于从拍摄的图像中检测出文档。例如，在拍照翻译过程中，文档可以指例如菜单的纸张。

目前的文档检测方法可以包括：首先利用Sobel算子(索贝尔算子，Sobeloperator)、Canny算子等边缘检测算子，提取图像的边缘信息；然后，利用霍夫变换或者轮廓筛选方法，依据上述边缘信息，确定文档在该图像中的位置。

在实际应用中，图像为自然场景下拍摄的图像，受到自然场景和拍摄水平等因素的影响，上述图像中文档的周围不可避免地存在干扰信息，这导致上述图像中存在噪声。而Sobel算子、Canny算子等边缘检测算子通常对噪声较为敏感，因此，在图像中存在噪声的情况下，基于边缘检测算子得到的文档的精度较低，也即文档检测的精度较低。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的数据处理方法、数据处理装置、用于数据处理的装置，本发明实施例可以提高对象的边缘信息的准确度，可以减少冗余的边缘信息，因此可以提高对象的位置的准确度。

为了解决上述问题，本发明实施例公开了一种数据处理方法，包括：

利用卷积神经网络，确定图像中对象对应的第一边缘二值图像；

对所述第一边缘二值图像进行边缘细化处理，以得到第二边缘二值图像；

依据所述第二边缘二值图像中符合第一条件的第一直线对的参数，构建第二坐标系；所述第二坐标系的圆点为所述第一直线对的四个端点组成的封闭图形的质心，所述第二坐标系所包括坐标轴的方向为依据所述第一直线对的长度、以及所述第一直线对与第一坐标系所包括坐标轴之间的夹角得到；

依据所述第一直线对的四个端点、以及所述第二坐标系，确定所述第一直线对对应的第一合并直线；

依据所述第一合并直线，确定所述对象在所述第二边缘二值图像中的位置。

另一方面，本发明实施例公开了一种数据处理装置，所述装置包括：

边缘信息确定模块，用于利用卷积神经网络，确定图像中对象对应的第一边缘二值图像；

边缘细化处理模块，用于对所述第一边缘二值图像进行边缘细化处理，以得到第二边缘二值图像；

第二坐标系构建模块，用于依据所述第二边缘二值图像中符合第一条件的第一直线对的参数，构建第二坐标系；所述第二坐标系的圆点为所述第一直线对的四个端点组成的封闭图形的质心，所述第二坐标系所包括坐标轴的方向为依据所述第一直线对的长度、以及所述第一直线对与第一坐标系所包括坐标轴之间的夹角得到；

直线合并模块，用于依据所述第一直线对的四个端点、以及所述第二坐标系，确定所述第一直线对对应的第一合并直线；以及

位置确定模块，用于依据所述第一合并直线，确定所述对象在所述第二边缘二值图像中的位置。

再一方面，本发明实施例公开了一种用于数据处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的操作指令：

又一方面，本发明实施例公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行前述的数据处理方法。

本发明实施例利用卷积神经网络，确定图像中对象对应的第一边缘二值图像；由于在图像中存在噪声的情况下，卷积神经网络依然具备图像中关键信息的学习能力，因此，在图像中的对象具有较复杂背景的情况下，本发明实施例依然能够通过卷积神经网络，准确地实现对象的边缘信息的提取，因此可以提高第一边缘二值图像中对象的边缘信息的准确度，进而可以提高对象的位置的准确度。

并且，本发明实施例对所述第一边缘二值图像进行边缘细化处理，可以减少冗余的边缘信息；在减少冗余的边缘信息的基础上，可以提高对象的位置的准确度。

另外，本发明实施例通过坐标系的转换，实现第二边缘二值图像中两条直线的合并；具体地，可以将第一坐标系转换为第二坐标系，第二坐标系的圆心可以为第一直线对的四个端点组成的封闭图形的质心，故可以使第一合并直线同时表征合并前的第一直线对的信息，因此可以提高第一合并直线与对象的真实边缘直线之间的匹配度；在此基础上可以提高对象的位置的准确度。

附图说明

图1是本发明的一种数据处理方法的应用环境的示意；

图2是本发明的一种数据处理方法实施例一的步骤流程图；

图3是本发明实施例的一种坐标系转换的示意；

图4是本发明的一种数据处理方法实施例二的步骤流程图；

图5是本发明的一种数据处理装置实施例的结构框图；

图6是根据一示例性实施例示出的一种用于数据处理的装置作为终端时的框图；

图7是本发明的一些实施例中服务器的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例提供了一种数据处理方案，该方案可以包括：利用卷积神经网络，确定图像中对象对应的第一边缘二值图像；对所述第一边缘二值图像进行边缘细化处理，以得到第二边缘二值图像；依据所述第二边缘二值图像中符合第一条件的第一直线对的参数，构建第二坐标系；所述第二坐标系的圆点可以为所述第一直线对的四个端点组成的封闭图形的质心，所述第二坐标系所包括坐标轴的方向可以为依据所述第一直线对的长度、以及所述第一直线对与第一坐标系所包括坐标轴之间的夹角得到；依据所述第一直线对的四个端点、以及所述第二坐标系，确定所述第一直线对对应的第一合并直线；以及，依据所述第一合并直线，确定所述对象在所述第二边缘二值图像中的位置。

本发明实施例中，对象可以指客观世界中存在的人、事、物体等实体在计算机逻辑中的映射。可选地，该对象可以包括：物体、人物、景物等。其中，物体可以包括：纸张、服饰、家居物等，该人物可以为人脸等，景物可以为建筑物等。本发明实施例主要以对象为文档为例进行说明，本发明实施例可用于检测出图像中文档对应的纸张所在的位置，其他对象对应的数据处理方案相互参照即可。

CNN(卷积神经网络，Convolutional Neural Networks)是一类包含卷积或相关计算且具有深度结构的前馈神经网络。第一边缘二值图像中可以带有对象的边缘信息。本发明实施例利用卷积神经网络，确定图像中对象对应的第一边缘二值图像；由于在图像中存在噪声的情况下，卷积神经网络依然具备图像中关键信息的学习能力，因此，在图像中的对象具有较复杂背景的情况下，本发明实施例依然能够通过卷积神经网络，准确地实现对象的边缘信息的提取，因此可以提高第一边缘二值图像中边缘信息的准确度，进而可以提高对象的位置的准确度。

本申请实施例提供的数据处理方法可应用于图1所示的应用环境中，如图1所示，客户端100与服务器200位于有线或无线网络中，通过该有线或无线网络，客户端100与服务器200进行数据交互。

可选地，客户端100可以运行在设备上，例如，客户端100可以为设备上运行的APP，如短信息APP、电子商务APP、即时通讯APP、输入法APP、或者操作系统自带的APP等，本申请实施例对于客户端所对应的具体APP不加以限制。可选地，上述客户端100可以基于人工智能技术实现控制功能。

可选地，上述设备具体可以包括但不限于：智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3，Moving Picture Experts Group Audio LayerIII)播放器、MP4(动态影像专家压缩标准音频层面4，Moving Picture Experts GroupAudio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备、智能音响等等。可以理解，本申请实施例对于具体的设备不加以限制。

方法实施例一

参照图2，示出了本发明的一种数据处理方法实施例一的步骤流程图，具体可以包括如下步骤：

步骤201、利用卷积神经网络，确定图像中对象对应的第一边缘二值图像；

步骤202、对所述第一边缘二值图像进行边缘细化处理，以得到第二边缘二值图像；

步骤203、依据所述第二边缘二值图像中符合第一条件的第一直线对的参数，构建第二坐标系；所述第二坐标系的圆点可以为所述第一直线对的四个端点组成的封闭图形的质心，所述第二坐标系所包括坐标轴的方向可以为依据所述第一直线对的长度、以及所述第一直线对与第一坐标系所包括坐标轴之间的夹角得到；

步骤204、依据所述第一直线对的四个端点、以及所述第二坐标系，确定所述第一直线对对应的第一合并直线；

步骤205、依据所述第一合并直线，确定所述对象在所述第二边缘二值图像中的位置。

图2所示实施例的至少一个步骤可由服务器和/或客户端执行，当然本发明实施例对于各个步骤的具体执行主体不加以限制。

在步骤201中，图像可以源自拍摄的照片或者视频。

图像可以为原始图像，也可以为对原始图像进行缩放后的缩放图像。其中，原始图像可以为拍摄的照片，或者，原始图像可以为视频帧。视频通常由静止的画面组成，这些静止的画面被称为视频帧。

在本发明的一种可选实施例中，上述图像可以为缩小图像，可以按照预设比例对原始图像进行缩小，以得到缩小图像。由于缩小图像的尺寸小于原始图像，故可以提高图像处理的效率。

在本发明的另一种可选实施例中，步骤201利用卷积神经网络，确定图像中对象对应的第一边缘二值图像，具体可以包括：利用卷积神经网络对应的模型，确定图像中对象对应的边缘图像；其中，所述模型对应的训练数据具体可以包括：图像样本、以及所述图像文本中对象对应的标注边缘图像；对所述边缘图像进行二值化处理，以得到第一边缘二值图像。

所述模型对应的训练数据的获取过程可以包括：收集存在文档的图像样本，并对图像样本中文档的位置进行标注，在此基础上制作图像样本与标注边缘图像对应的图像对。可选地，图像对中图像样本可以为彩色图像，标注边缘图像可以为灰度图像。

上述模型可以为机器学习模型。从广义上讲，机器学习是一种能够赋予机器学习的能力，让它以此完成直接编程无法完成的功能的方法。但从实践的意义上讲，机器学习是一种通过利用训练数据，训练出模型，然后使用模型预测的一种方法。机器学习方法可以包括：神经网络方法等，可以理解，本发明实施例对于具体的机器学习方法不加以限制。

上述模型可以为端到端的模型，模型的输入端可以为图像，模型的输出端可以为边缘图像。

可选地，上述模型可以为轻量化模型，上述轻量级模型的优点包括：可配置参数量、低延时、耗存小、运行高效等，故可以提高模型的处理速度，且可以适用于内存较小的移动设备。轻量级模型可以包括：mobilenetv1、mobilenetv2等。可选地，可以采用开源机器学习框架，进行上述模型的开发，开源机器学习框架的例子可以包括：TensorFlow等。

模型输出的边缘图像可以为灰度图像，可以采用二值化方法，对灰度级的边缘图像进行二值化处理，以得到第一边缘二值图像。本发明实施例对于具体的二值化方法不加以限制。

步骤202中，边缘细化处理可用于细化第一边缘二值图像中的边缘，边缘细化处理后的第一边缘二值图像，可以作为第二边缘二值图像。

可选地，所述第一边缘二值图像中的第一边缘在宽度方向上包括第一数量的像素点，所述第二边缘二值图像中的第二边缘在宽度方向上包括第二数量的像素点，所述第一数量可以大于所述第二数量。上述第二数量可由本领域技术人员根据实际应用需求确定，例如，第二数量可以为2、3、4、5等数值。

可选地，步骤202对所述第一边缘二值图像进行边缘细化处理，具体可以包括：减少第一边缘在宽度方向的预设侧上的像素点。

上述预设侧可以包括：单侧、或者双侧。单侧可以包括：内侧、或者外侧等，可以仅仅减少第一边缘在宽度方向的内侧或外侧上的像素点；或者，可以同时减少第一边缘在宽度方向的内侧和外侧上的像素点，以保留中间的像素点，作为第二边缘。可以理解，本发明实施例对于具体的边缘细化处理方式不加以限制。

步骤203至步骤205中，可以利用直线检测方法、以及轮廓筛选方法，确定所述对象在所述第二边缘二值图像中的位置。

本发明实施例中，对象形状的种类可以包括：四边形、圆形、椭圆形、三角形等规则图形。相应地，对象在所述第二边缘二值图像中的位置可以与对象形状的关键点相关。以对象形状为四边形为例，上述位置可以为四边形的4个顶点的坐标。可以理解，用于定位对象的位置均在本发明实施例的位置的保护范围之内。

在本发明的一种可选实施例中，可以通过如下步骤确定步骤203中的直线对：检测所述第二边缘二值图像中的直线。

在实际应用中，可以利用直线检测方法，检测所述第二边缘二值图像中的直线。直线检测方法可以包括：霍夫(Hough)变换方法、霍夫直线检测算法、Freeman直线检测算法。

其中，霍夫变换是一种特征检测(feature extraction)，其可用于辨别找出物体中的特征，例如：线条。霍夫变换的过程可以包括：给定一个物体、要辨别的形状的种类，在参数空间(parameter space)中执行投票来决定物体的形状。霍夫变换不仅能识别直线，也能够识别任何形状，常见的有圆形、椭圆形等。Freeman直线检测算法是一种在链码中检测直线的算法；该算法从起始链码开始，对每一链码确定一个直线穿行区域以及两条用于确定下一链码是否属于同一直线的上下边界线；如果下一链码位于上下边界线之内，则该链码与上一链码属于同一直线；否则该链码属于另一直线。

在实际应用中，检测到的多条直线中，有一些是很接近的，或者有些短直线是可以连接成一条更长的直线的，因此可以通过合并将接近的直线合并到一起。

步骤203中，第一直线对可以包括：任意的两条直线。本发明实施例中，可以判断第一直线对涉及的两条直线是否相等，当遇到相等的第一直线对时，把这第一直线对涉及的两条直线合并或连接成一条直线。

根据一种实施例，第一直线对总共有四个端点，可以从四个端点中确定出最外侧的两个端点，作为第一合并直线的端点，例如，可以选取最右边和最左边的端点作为第一合并直线的端点。然而，当第一合并直线的端点均属于合并前的一条直线的情况下，完全忽略了另一条直线的信息，因此容易损失另一条直线的信息，因此将影响第一合并直线与对象的真实边缘直线之间的匹配度。

根据另一种实施例，上述对第一直线对进行合并，具体可以包括：依据符合第一条件的第一直线对的参数，构建第二坐标系；所述第二坐标系的圆点为所述第一直线对的四个端点组成的封闭图形的质心，所述第二坐标系所包括坐标轴的方向可以为依据所述第一直线对的长度、以及所述第一直线对与第一坐标系所包括坐标轴之间的夹角得到；依据所述第一直线对的四个端点、以及所述第二坐标系，确定所述第一直线对对应的第一合并直线。

由于第二坐标系的圆心为第一直线对的四个端点组成的封闭图形的质心，故可以使第一合并直线同时表征合并前的第一直线对的信息，因此可以提高第一合并直线与对象的真实边缘直线之间的匹配度。

其中，第一坐标系可以为原有的XY坐标系。第二坐标系可以为构建的与第一坐标系不同的坐标系。

参照图3，示出了本发明实施例的一种坐标系转换的示意，其中，可以在XY坐标系的基础上构建第二坐标系，第二坐标系的圆心G的坐标可以为(x_G,y_G)。圆心可以为第一直线对(l_i，l_j)的四个端点(a，b，c，d)组成的封闭图形的质心。

第二坐标系的坐标轴包括：X_G和Y_G。其中，X_G的方向可以与θ_r的方向相匹配。

θ_r可以为依据所述第一直线对的长度、以及所述第一直线对与第一坐标系所包括坐标轴之间的夹角得到。可选地，可以依据第一直线对的长度，对所述第一直线对与第一坐标系所包括坐标轴之间的夹角进行加权，以得到θ_r。相应的权重可以为一条直线的长度与第一直线对的长度和之间的比值。

图3中，第一合并直线具体可以为l_r。由于第一直线对(l_i，l_j)与X_G之间的夹角较小，故可以选择X_G作为投影轴，l_r的端点可以为四个端点中最外侧的两个端点分别在X_G上的投影。

上述符合第一条件可用于约束接近的两条直线，第一条件具体可以包括：第一直线对的斜率相近、和/或、第一直线对的中心点之间的距离不超过距离阈值等。

步骤205中，上述依据所述第一合并直线，确定所述对象在所述第二边缘二值图像中的位置，具体可以包括：依据所述第一合并直线，确定所述对象对应的多边形；依据所述多边形的顶点，确定所述对象在所述第二边缘二值图像中的位置。

可选地，可以确定直线之间的交点，由于步骤202进行了边缘细化处理，故可以降低冗余的交点的过滤难度。

进一步，可以对确定的交点进行迭代，以从交点中确定出符合第一条件的顶点。例如，可以将满足四边形条件的交点作为顶点。四边形条件可以为：四边形对边的长度比例不超过0.5(或者2)，对角线长度比例不超过0.5(或2)，对边的夹角小于60度，等等。

可选地，所述所述第一合并直线、和/或、未经过合并的直线，可以构成多个候选多边形，此种情况下，可以从多个候选多边形中确定出对象对应的多边形。例如，检测到第二边缘二值图像中的如下直线：L1、L2、L3、L4、…，假设将L1、L2合并为L12，将L3和L4合并为L34，则可以将L12、L34、以及其他合并直线或者未经过合并的直线，参与候选多边形的确定。

根据一种实施例，可以依据候选多边形的面积，从多个候选多边形中确定出对象对应的多边形。例如，可以将面积最大的候选多边形，作为对象对应的多边形。

根据另一种实施例，上述依据所述第一合并直线，确定所述对象对应的多边形，具体可以包括：依据所述候选多边形的多个顶点分别对应的邻域内白色像素点的数量，从所述多个候选多边形中确定出所述对象对应的多边形。

由于对象形状的顶点附近通常存在空白，因此顶点的邻域内白色像素点的数量，可用于表征顶点的领域内空白的程度，进而可以将顶点的邻域内白色像素点的数量，作为多边形的确定依据。可选地，可以对多个顶点分别对应的邻域内白色像素点的数量进行融合，并依据得到的融合数量，多个顶点分别对应的邻域内白色像素点的数量。

可选地，可以综合利用候选多边形的面积、以及所述候选多边形的多个顶点分别对应的邻域内白色像素点的数量，从所述多个候选多边形中确定出所述对象对应的多边形。由于可以考虑候选多边形的多维度信息，故可以提高多边形的合理性。

在本发明的一种可选实施例中，所述图像可以为缩放图像，所述方法还可以包括：将所述第二边缘二值图像映射到所述缩放对象对应的原始图像，以得到所述原始图像中对象对应的第三边缘二值图像；对所述第三边缘二值图像进行修补处理，以得到第四边缘二值图像；依据所述第四边缘二值图像中符合第二条件的第二直线对的参数，构建第三坐标系；其中，所述第三坐标系的圆点为所述第二直线对的四个端点组成的封闭图形的质心，所述第三坐标系所包括坐标轴的方向为依据所述第二直线对的长度、以及所述第二直线对与第一坐标系所包括坐标轴之间的夹角得到；依据所述第二直线对的四个端点、以及所述第三坐标系，确定所述第二直线对对应的第二合并直线；依据所述第二合并直线，确定所述对象在所述第四边缘二值图像中的位置。

在图像为缩放图像的情况下，虽然能够提高位置的确定效率；但是，检测得到的对象的边缘部分，可能存在贴边不紧的现象，该现象主要是由于缩放图像与原始图像之间的误差引起的。

针对贴边不紧的现象，本发明实施例可以将所述第二边缘二值图像映射到所述缩放对象对应的原始图像，以得到所述原始图像中对象对应的第三边缘二值图像，其中，第三边缘二值图像相对于第二边缘二值图像的比例，与原始图像相对于缩放图像的比例，可以一致。

在实际应用中，在缩放图像为缩小图像的情况下，放大映射容易使第三边缘二值图像的第三边缘存在空白像素点，这样将使第三边缘变得不规则。本发明实施例可以通过修补处理，对不规则的第三边缘进行修补，以使第三边缘在形态方面得到改善。

可选地，上述修补处理可以包括：形态学操作，比如腐蚀操作、膨胀操作、开操作、闭操作等，可以理解，本发明实施例对于具体的修补处理不加以限制。

本发明实施例在经过放大映射和修补处理后的第四边缘二值图像的基础上，确定对象的位置，可以减少对象的边缘部分贴边不紧的现象。确定所述对象在所述第四边缘二值图像中的位置的过程而言，由于其与确定所述对象在所述第二边缘二值图像中的位置的过程类似，故在此不作赘述，相互参照即可。例如，第二条件与第一条件等同，以及第三坐标系与第一坐标系等同，可以相互参照。

在本发明的另一种实施例中，上述所述图像可以为缩放图像，上述方法还可以包括：将所述对象的位置映射到所述缩放图像对应的原始图像，以减少对象的边缘部分贴边不紧的现象。以对象形状为四边形为例，可以将四边形的顶点映射到原始图像。由于四边形的顶点可以决定四边形的区域，因此可以实现对于对象的定位。

在实际应用中，在平面图像处理中，因为镜头角度等原因，容易导致图像出现倾斜、变形等情况，为了方便后续处理，可选地，可以对对象对应的图像区域进行图像矫正。图像矫正方法可以包括：仿射变换(Affine Transformation)、或者透视变换(PerspectiveTransformation)等。

本发明实施例中，可以向用户或者应用模块输出原始图像、以及原始图像中对象的位置。或者，可以向用户或者应用模块输出图像矫正后的矫正图像、以及矫正图像中对象的位置。

例如，应用模块可以为字符识别模块，或者，应用模块可以为翻译模块等。应用模块可由具体的应用场景确定，本发明实施例对于具体的应用模块不加以限制。

在本发明的一种可选实施例中，上述方法还可以包括：对视频包括的连续视频帧中的对象进行图像跟踪；依据图像跟踪结果针对后续的视频帧中的对象，复用之前的视频帧中相同对象对应的位置。上述相同对象对应的位置的复用，可以降低相同对象对应的位置的重复检测所耗费的运算量。例如，视频的连续视频帧中均包括菜单，则可以在连续视频帧中跟踪该菜单，以降低运算量。

由于视频中相邻的视频帧具有很高的场景相似性，因此本发明实施例采用对象位置检测与对象跟踪的技术来提高运行速度。例如，对于手机端视频流中输入的视频帧，如果已经成功的检测到文档，后续的多个视频帧使用图像跟踪技术、实时地获取文档在当前视频帧的位置，如果文档消失，则重新运行文档位置检测。视频流中文档检测与文档跟踪的有效结合，不仅可以提高文档位置的确定效率，并且可以在视频流中稳定地显示检测到的文档位置。

综上，本发明实施例的数据处理方法，利用卷积神经网络，确定图像中对象对应的第一边缘二值图像；由于在图像中存在噪声的情况下，卷积神经网络依然具备图像中关键信息的学习能力，因此，在图像中的对象具有较复杂背景的情况下，本发明实施例依然能够通过卷积神经网络，准确地实现对象的边缘信息的提取，因此可以提高第一边缘二值图像中对象的边缘信息的准确度，进而可以提高对象的位置的准确度。

方法实施例二

参照图4，示出了本发明的一种数据处理方法实施例二的步骤流程图，具体可以包括如下步骤：

步骤401、确定原始图像对应的缩放图像；

步骤402、利用卷积神经网络，确定缩放图像中对象对应的第一边缘二值图像；

步骤403、对所述第一边缘二值图像进行边缘细化处理，以得到第二边缘二值图像；

步骤404、检测所述第二边缘二值图像中的直线；

步骤405、依据所述第二边缘二值图像中符合第一条件的第一直线对的参数，构建第二坐标系；所述第二坐标系的圆点可以为所述第一直线对的四个端点组成的封闭图形的质心，所述第二坐标系所包括坐标轴的方向可以为依据所述第一直线对的长度、以及所述第一直线对与第一坐标系所包括坐标轴之间的夹角得到；

步骤406、依据所述第一直线对的四个端点、以及所述第二坐标系，确定所述第一直线对对应的第一合并直线；

步骤407、确定第一合并直线对应的交点、以及所述交点构成的多个候选多边形；

步骤408、利用候选多边形的面积、以及所述候选多边形的多个顶点分别对应的邻域内白色像素点的数量，从所述多个候选多边形中确定出所述对象对应的多边形；

步骤409、依据所述多边形，确定所述对象在所述第二边缘二值图像中的位置；

步骤410、将所述对象的位置映射到所述缩放图像对应的原始图像。

另外，对检测到的多条直线进行合并，可以提高直线的集中度。并且，将所述对象的位置映射到所述缩放图像对应的原始图像，可以减少对象的边缘部分贴边不紧的现象。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的运动动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的运动动作并不一定是本发明实施例所必须的。

装置实施例

参照图5，示出了本发明的一种数据处理装置实施例的结构框图，所述装置具体可以包括：

边缘信息确定模块501，用于利用卷积神经网络，确定图像中对象对应的第一边缘二值图像；

边缘细化处理模块502，用于对所述第一边缘二值图像进行边缘细化处理，以得到第二边缘二值图像；

第二坐标系构建模块503，用于依据所述第二边缘二值图像中符合第一条件的第一直线对的参数，构建第二坐标系；所述第二坐标系的圆点为所述第一直线对的四个端点组成的封闭图形的质心，所述第二坐标系所包括坐标轴的方向为依据所述第一直线对的长度、以及所述第一直线对与第一坐标系所包括坐标轴之间的夹角得到；

直线合并模块504，用于依据所述第一直线对的四个端点、以及所述第二坐标系，确定所述第一直线对对应的第一合并直线；以及

位置确定模块505，用于依据所述第一合并直线，确定所述对象在所述第二边缘二值图像中的位置。

可选地，所述边缘信息确定模块可以包括：

模型处理模块，用于利用卷积神经网络对应的模型，确定图像中对象对应的边缘图像；其中，所述模型对应的训练数据可以包括：图像样本、以及所述图像文本中对象对应的标注边缘图像；以及

二值化处理模块，用于对所述边缘图像进行二值化处理，以得到第一边缘二值图像。

可选地，所述第一边缘二值图像中的第一边缘在宽度方向上可以包括第一数量的像素点，所述第二边缘二值图像中的第二边缘在宽度方向上可以包括第二数量的像素点，所述第一数量大于所述第二数量。

可选地，所述位置确定模块可以包括：

多边形确定模块，用于依据所述第一合并直线，确定所述对象对应的多边形；以及

对象位置确定模块，用于依据所述多边形的顶点，确定所述对象在所述第二边缘二值图像中的位置。

可选地，所述第一合并直线、和/或、未经过合并的直线构成多个候选多边形；

所述多边形确定模块可以包括：

筛选模块，用于依据所述候选多边形的多个顶点分别对应的邻域内白色像素点的数量，从所述多个候选多边形中确定出所述对象对应的多边形。

可选地，所述图像为缩放图像，所述装置还可以包括：

第一映射模块，用于将所述第二边缘二值图像映射到所述缩放对象对应的原始图像，以得到所述原始图像中对象对应的第三边缘二值图像；

修补处理模块，用于对所述第三边缘二值图像进行修补处理，以得到第四边缘二值图像；

第三坐标系构建模块，用于依据所述第四边缘二值图像中符合第二条件的第二直线对的参数，构建第三坐标系；其中，所述第三坐标系的圆点为所述第二直线对的四个端点组成的封闭图形的质心，所述第三坐标系所可以包括坐标轴的方向为依据所述第二直线对的长度、以及所述第二直线对与第一坐标系所可以包括坐标轴之间的夹角得到；

第二直线合并模块，用于依据所述第二直线对的四个端点、以及所述第三坐标系，确定所述第二直线对对应的第二合并直线；

第二位置确定模块，用于依据所述第二合并直线，确定所述对象在所述第四边缘二值图像中的位置。

可选地，所述图像为缩放图像，所述装置还可以包括：

第二映射模块，用于将所述对象的位置映射到所述缩放图像对应的原始图像。

可选地，所述装置还可以包括：

图像跟踪模块，用于对视频可以包括的连续视频帧中的对象进行图像跟踪；

位置复用模块，用于依据图像跟踪结果针对后续的视频帧中的对象，复用之前的视频帧中相同对象对应的位置。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例还提供了一种用于数据处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行图2或图3或图4所述方法所包括操作的操作指令。

图6是根据一示例性实施例示出的一种用于数据处理的装置作为终端时的框图。例如，终端1100可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图6，终端1100可以包括以下一个或多个组件：处理组件1102，存储器1104，电源组件1106，多媒体组件1108，音频组件1110，输入/输出(I/O)的接口1112，传感器组件1114，以及通信组件1116。

处理组件1102通常控制终端1100的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件1102可以包括一个或多个处理器1120来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1102可以包括一个或多个模块，便于处理组件1102和其他组件之间的交互。例如，处理组件1102可以包括多媒体模块，以方便多媒体组件1108和处理组件1102之间的交互。

存储器1104被配置为存储各种类型的数据以支持在终端1100的操作。这些数据的示例包括用于在终端1100上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1106为终端1100的各种组件提供电力。电源组件1106可以包括电源管理系统，一个或多个电源，及其他与为终端1100生成、管理和分配电力相关联的组件。

多媒体组件1108包括在所述终端1100和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1108包括一个前置摄像头和/或后置摄像头。当终端1100处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1110被配置为输出和/或输入音频信号。例如，音频组件1110包括一个麦克风(MIC)，当终端1100处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1104或经由通信组件1116发送。在一些实施例中，音频组件1110还包括一个扬声器，用于输出音频信号。

I/O接口1112为处理组件1102和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1114包括一个或多个传感器，用于为终端1100提供各个方面的状态评估。例如，传感器组件1114可以检测到终端1100的打开/关闭状态，组件的相对定位，例如所述组件为终端1100的显示器和小键盘，传感器组件1114还可以检测终端1100或终端1100一个组件的位置改变，用户与终端1100接触的存在或不存在，终端1100方位或加速/减速和终端1100的温度变化。传感器组件1114可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1114还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1114还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1116被配置为便于终端1100和其他设备之间有线或无线方式的通信。终端1100可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件1116经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件1116还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，终端1100可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1104，上述指令可由终端1100的处理器1120执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图7是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

当所述存储介质中的指令由装置(终端或者服务器)的处理器执行时，使得装置能够执行一种数据处理方法，所述方法包括：利用卷积神经网络，确定图像中对象对应的第一边缘二值图像；对所述第一边缘二值图像进行边缘细化处理，以得到第二边缘二值图像；依据所述第二边缘二值图像中符合第一条件的第一直线对的参数，构建第二坐标系；所述第二坐标系的圆点为所述第一直线对的四个端点组成的封闭图形的质心，所述第二坐标系所包括坐标轴的方向为依据所述第一直线对的长度、以及所述第一直线对与第一坐标系所包括坐标轴之间的夹角得到；依据所述第一直线对的四个端点、以及所述第二坐标系，确定所述第一直线对对应的第一合并直线；依据所述第一合并直线，确定所述对象在所述第二边缘二值图像中的位置。

本发明实施例公开了A1、一种数据处理方法，所述方法包括：

A2、根据A1所述的方法，所述利用卷积神经网络，确定图像中对象对应的第一边缘二值图像，包括：

利用卷积神经网络对应的模型，确定图像中对象对应的边缘图像；其中，所述模型对应的训练数据包括：图像样本、以及所述图像文本中对象对应的标注边缘图像；

对所述边缘图像进行二值化处理，以得到第一边缘二值图像。

A3、根据A1所述的方法，所述第一边缘二值图像中的第一边缘在宽度方向上包括第一数量的像素点，所述第二边缘二值图像中的第二边缘在宽度方向上包括第二数量的像素点，所述第一数量大于所述第二数量。

A4、根据A1所述的方法，所述依据所述第一合并直线，确定所述对象在所述第二边缘二值图像中的位置，包括：

依据所述第一合并直线，确定所述对象对应的多边形；

依据所述多边形的顶点，确定所述对象在所述第二边缘二值图像中的位置。

A5、根据A4所述的方法，所述第一合并直线、和/或、未经过合并的直线构成多个候选多边形；

所述依据所述第一合并直线，确定所述对象对应的多边形，包括：

依据所述候选多边形的多个顶点分别对应的邻域内白色像素点的数量，从所述多个候选多边形中确定出所述对象对应的多边形。

A6、根据A1所述的方法，所述图像为缩放图像，所述方法还包括：

将所述第二边缘二值图像映射到所述缩放对象对应的原始图像，以得到所述原始图像中对象对应的第三边缘二值图像；

对所述第三边缘二值图像进行修补处理，以得到第四边缘二值图像；

依据所述第四边缘二值图像中符合第二条件的第二直线对的参数，构建第三坐标系；其中，所述第三坐标系的圆点为所述第二直线对的四个端点组成的封闭图形的质心，所述第三坐标系所包括坐标轴的方向为依据所述第二直线对的长度、以及所述第二直线对与第一坐标系所包括坐标轴之间的夹角得到；

依据所述第二直线对的四个端点、以及所述第三坐标系，确定所述第二直线对对应的第二合并直线；

依据所述第二合并直线，确定所述对象在所述第四边缘二值图像中的位置。

A7、根据A1至A5中任一所述的方法，所述图像为缩放图像，所述方法还包括：

将所述对象的位置映射到所述缩放图像对应的原始图像。

A8、根据A1至A6中任一所述的方法，所述方法还包括：

对视频包括的连续视频帧中的对象进行图像跟踪；

依据图像跟踪结果针对后续的视频帧中的对象，复用之前的视频帧中相同对象对应的位置。

本发明实施例公开了B9、一种数据处理装置，所述装置包括：

B10、根据B9所述的装置，所述边缘信息确定模块包括：

模型处理模块，用于利用卷积神经网络对应的模型，确定图像中对象对应的边缘图像；其中，所述模型对应的训练数据包括：图像样本、以及所述图像文本中对象对应的标注边缘图像；以及

B11、根据B9所述的装置，所述第一边缘二值图像中的第一边缘在宽度方向上包括第一数量的像素点，所述第二边缘二值图像中的第二边缘在宽度方向上包括第二数量的像素点，所述第一数量大于所述第二数量。

B12、根据B9所述的装置，所述位置确定模块包括：

B13、根据B12所述的装置，所述第一合并直线、和/或、未经过合并的直线构成多个候选多边形；

所述多边形确定模块包括：

B14、根据B9所述的装置，所述图像为缩放图像，所述装置还包括：

第三坐标系构建模块，用于依据所述第四边缘二值图像中符合第二条件的第二直线对的参数，构建第三坐标系；其中，所述第三坐标系的圆点为所述第二直线对的四个端点组成的封闭图形的质心，所述第三坐标系所包括坐标轴的方向为依据所述第二直线对的长度、以及所述第二直线对与第一坐标系所包括坐标轴之间的夹角得到；

B15、根据B9至B13中任一所述的装置，所述图像为缩放图像，所述装置还包括：

B16、根据B9至B13中任一所述的装置，所述装置还包括：

图像跟踪模块，用于对视频包括的连续视频帧中的对象进行图像跟踪；

本发明实施例公开了C17、一种用于数据处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的操作指令：

C18、根据C17所述的装置，所述利用卷积神经网络，确定图像中对象对应的第一边缘二值图像，包括：

C19、根据C17所述的装置，所述第一边缘二值图像中的第一边缘在宽度方向上包括第一数量的像素点，所述第二边缘二值图像中的第二边缘在宽度方向上包括第二数量的像素点，所述第一数量大于所述第二数量。

C20、根据C17所述的装置，所述依据所述第一合并直线，确定所述对象在所述第二边缘二值图像中的位置，包括：

依据所述第一合并直线，确定所述对象对应的多边形；

C21、根据C20所述的装置，所述第一合并直线、和/或、未经过合并的直线构成多个候选多边形；

C22、根据C17所述的装置，所述图像为缩放图像，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的操作指令：

C23、根据C17至C21中任一所述的装置，所述图像为缩放图像，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的操作指令：

将所述对象的位置映射到所述缩放图像对应的原始图像。

C24、根据C17至C22中任一所述的装置，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的操作指令：

对视频包括的连续视频帧中的对象进行图像跟踪；

本发明实施例公开了D25、一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如A1至A8中一个或多个所述的数据处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种数据处理方法、一种数据处理装置、一种用于数据处理的装置、以及一种机器可读介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述利用卷积神经网络，确定图像中对象对应的第一边缘二值图像，包括：

3.根据权利要求1所述的方法，其特征在于，所述第一边缘二值图像中的第一边缘在宽度方向上包括第一数量的像素点，所述第二边缘二值图像中的第二边缘在宽度方向上包括第二数量的像素点，所述第一数量大于所述第二数量。

4.根据权利要求1所述的方法，其特征在于，所述依据所述第一合并直线，确定所述对象在所述第二边缘二值图像中的位置，包括：

依据所述第一合并直线，确定所述对象对应的多边形；

5.根据权利要求4所述的方法，其特征在于，所述第一合并直线、和/或、未经过合并的直线构成多个候选多边形；

6.根据权利要求1所述的方法，其特征在于，所述图像为缩放图像，所述方法还包括：

7.根据权利要求1至5中任一所述的方法，其特征在于，所述图像为缩放图像，所述方法还包括：

将所述对象的位置映射到所述缩放图像对应的原始图像。

8.一种数据处理装置，其特征在于，所述装置包括：

9.一种用于数据处理的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的操作指令：

10.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至7中一个或多个所述的数据处理方法。