CN110942064B

CN110942064B - 图像处理方法、装置和电子设备

Info

Publication number: CN110942064B
Application number: CN201911168111.2A
Authority: CN
Inventors: 邓中文
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2023-05-09
Anticipated expiration: 2039-11-25
Also published as: CN110942064A

Abstract

本发明实施例公开了图像处理方法、装置和电子设备。该方法的实施例包括：获取目标图像中的文本区域的轮廓点；基于轮廓点在目标图像中的位置，生成文本区域的形状描述信息，形状描述信息用于表征文本区域的轮廓形状；基于形状描述信息和预设的标准形状描述信息的比较，确定目标图像的变形类别；采用变形类别对应的图像处理方式，对目标图像进行处理。该实施方式可以针对文本区域的变形程度采用不同方式进行图像处理，节省了图像矫正时的计算资源。

Description

图像处理方法、装置和电子设备

技术领域

本发明实施例涉及通信技术领域，具体涉及图像处理方法、装置和电子设备。

背景技术

在自然场景下对文本拍摄的图像，由于人为因素和电子设备的限制，拍摄到的图像中的文本区域不可避免地存在某种程度的变形。例如，相较于理想形状，存在着透视变换、仿射变换、相似变换等多种变形情况。

现有的方式，在需要进行图像矫正时，通常首先使用RANSAC(Random SampleConsensus，随机采样一致性)算法迭代计算单应性(Homography)矩阵，再应用该单应性矩阵对整张图像做透视变换。然而，RANSAC算法迭代次数较高，这种方式较为浪费计算资源。

发明内容

本发明实施例提出了图像处理方法、装置、电子设备和计算机可读存储介质，以解决现有技术中在进行图像矫正时较为浪费计算资源的技术问题。

第一方面，本发明实施例提供了一种图像处理方法，应用于电子设备，包括：获取目标图像中的文本区域的轮廓点；基于轮廓点的位置，生成文本区域的形状描述信息；基于形状描述信息和预设的标准形状描述信息的比较，确定目标图像的变形类别；采用变形类别对应的图像处理方式，对目标图像进行处理，得到处理后的目标图像；对处理后的目标图像进行文字识别。

第二方面，本发明实施例提供了一种图像处理装置，包括：获取单元，用于获取目标图像中的文本区域的轮廓点；生成单元，用于基于轮廓点在目标图像中的位置，生成文本区域的形状描述信息；确定单元，用于基于形状描述信息和预设的标准形状描述信息的比较，确定目标图像的变形类别；处理单元，用于采用变形类别对应的图像处理方式，对目标图像进行处理，得到处理后的目标图像；识别单元，用于对处理后的目标图像进行文字识别。

第三方面，本发明实施例提供了一种电子设备，包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序，计算机程序被处理器执行时实现如上述第一方面中任一实施例所描述的方法的步骤。

第四方面，本发明实施例提供了一种计算机可读介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现如上述第一方面中任一实施例所描述的方法的步骤。

在本发明实施例中，通过获取目标图像中的文本区域的轮廓点，而后基于轮廓点的位置，生成文本区域的形状描述信息，之后基于形状描述信息和预设的标准形状描述信息的比较，确定目标图像的变形类别，从而采用变形类别对应的图像处理方式，对目标图像进行处理，进而对处理后的目标图像进行文字识别。由于形状描述信息用于表征文本区域的轮廓形状，因而，本申请实施例可以针对文本区域的变形程度采用不同方式进行图像处理，使图像矫正更具针对性，节省了图像矫正时的计算资源。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明实施例提供的图像处理方法的流程图之一；

图2为极坐标系的划分结果的示意图；

图3a为图像发生透视变换的图像的示意图；

图3b为图像发生仿射变换变换的图像的示意图；

图3c为图像发生相似变换的图像的示意图

图4是本发明实施例提供的图像处理方法的流程图之二；

图5是本发明实施例提供的图像处理装置的结构示意图；

图6是适于用来实现本发明实施例的电子设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本发明实施例提供的图像处理方法的流程图之一。本发明实施例提供的图像处理方法，可以应用于电子设备。实践中，上述电子设备可以是智能手机、平板电脑、膝上型便携计算机等。

本发明实施例提供的图像处理方法的流程，包括以下步骤：

步骤101，获取目标图像中的文本区域的轮廓点。

在本实施例中，图像处理方法的执行主体可以首先通过常用的轮廓提取算法，提取目标图像中的文本区域的轮廓点。

其中，目标图像可以是包含文本区域的图像。例如，可以是通过上述执行主体所拍摄的某一文本(如书本中的页面、报纸)的图像。也可以是从其他来源(如网络)处所获取的文本图像。

此处，上述文本区域的轮廓点，可以是位于文本区域的轮廓中的多个特征点(Image feature points)。其中，特征点可以是能够表征轮廓特征的点，如文本区域轮廓中曲率较大的点等。通过轮廓点，可以描述出文本区域的整体轮廓。

在本实施例的一些可选的实现方式中，上述执行主体可以在步骤101之前，可以通过如下步骤得到目标图像：

首先，在检测到人脸的情况下，获取上述人脸的唇语特征。

在一种场景中，上述执行主体为电子设备(如手机)。电子设备可以具有人脸检测功能。检测到用户面向电子设备的摄像装置后，电子设备即可对用户脸部进行视频采集。在此过程中，电子设备可以采用人脸识别技术，识别视频中人脸，并进行自动对焦，同时跟踪用户唇部，并解析唇语特征。

而后，在上述唇部特征与目标唇语特征匹配的情况下，对文本进行拍照，从而生成目标图像。例如，上述场景中，电子设备可以预先存储有自拍唇语特征数据库，并建立与唇语特征对应拍照指令库。在获取到唇语特征后，可以将该唇语特征与唇语特征库中的唇语特征进行匹配。若匹配到唇语特征库中的唇语特征，即可触发拍照指令。此时，电子设备即可切换摄像头，并利用当前工作的摄像头进行拍照。在此场景中，用户可以手持需识别的文本(如书籍、报刊等)并使该文本面相当前工作的摄像头，从而得到目标图像。

步骤102，基于轮廓点的位置，生成文本区域的形状描述信息。

在本实施例中，由于轮廓点可以描述出文本区域的整体轮廓，因而，上述执行主体可以基于各轮廓点的位置，生成文本区域的形状描述信息。其中，形状描述信息用于表征文本区域的轮廓形状。

作为示例，可以首先获取各个轮廓点在图像中的坐标。而后，可以计算各个轮廓点相对于某一个轮廓点的向量。而后，可以统计向量的分布，将该分布作为形状描述信息。

在本实施例的一些可选的实现方式中，上述执行主体可以通过如下步骤生成文本区域的形状描述信息：

第一步，从上述文本区域的轮廓点中，选取目标轮廓点。此处，目标轮廓点可以是位于文本区域轮廓中的指定的某一轮廓点。例如文本区域的左上角顶点。

第二步，获取上述目标轮廓点指向其他各轮廓点的向量。此处，可以以首先获取各轮廓点的坐标，并通过坐标运算，计算目标轮廓点指向其他各轮廓点的向量。

第三步，基于所获取的向量，生成上述文本区域的形状描述信息。此处，可以统计向量的分布情况，将该分布作为形状描述信息。

在本实施例的一些可选的实现方式中，上述第二步中的向量可以是极坐标向量。上述执行主体可以通过如下步骤获取上述目标轮廓点指向其他各轮廓点的极坐标向量：首先，以上述目标轮廓点为极点，建立极坐标系。而后，获取其他各轮廓点在上述极坐标系中的极坐标。最后，基于其他各轮廓点的极坐标，确定上述目标轮廓点指向其他各轮廓点的极坐标向量。此处，极坐标可以通过对直角坐标系中的坐标进行转换得到。

在本实施例的一些可选的实现方式中，当所获取的向量为极坐标向量时，上述第三步可以按照如下步骤执行：

首先，基于预设的圆周划分份数和半径划分份数，将上述极坐标系划分为多个扇形区域。其中，圆周划分份数即为对360°等分的份数。半径划分份数即为对指定的最大半径等分的份数。如指定的最大半径为6cm，在半径划分份数为3时，可在半径2cm、4cm处划分。

实践中，圆周划分份数和半径划分份数越大，计算精度越高，但计算的复杂度也越高。因而，圆周划分份数和半径划分份数的具体取值可以根据需要或者大量试验而预先设定，此处对此两项的具体数值不作限定。

作为示例，图2为极坐标系的划分结果的示意图。如图2所示，在圆周划分份数为12、半径划分份数为3时，可以将极坐标系划分为36个扇形区域。每个扇形区域的圆心角为30度。每个半径对应的扇形区域有12个。如图2中阴影所示的三个扇形区域分别对应三个半径。

而后，确定位于各扇形区域的极坐标向量的数量。此处，由于已知上述目标轮廓点指向其他各轮廓点的极坐标向量，且目标轮廓点为极点，因而，由极坐标向量即可得知其他轮廓点相对于目标轮廓点的距离和角度。由此，即可得知其他各轮廓点所位于的扇形区域。

最后，将扇形区域作为直方图的横轴，将扇形区域中的极坐标向量的数量作为直方图的纵轴，生成直方图，并将上述直方图作为上述文本区域的形状描述信息。

具体地，若将圆周划分份数记为n₀，将半径划分份数记为n_r，则扇形区域共有n₀×n_r个。此时，可以将扇形区域的次序(用i表示)作为直方图的横轴，其中，i取值为[1，n₀×n_r]。扇形区域的次序可以预先设定，如按照角度从小到大、半径从小到大的次序进行次序设定。由此，横轴依次可以为扇形区域1、扇形区域2、...、扇形区域n₀×n_r。同时，可以以纵轴表示扇形区域中的极坐标向量的数量，从而将所统计出的位于各扇形区域的极坐标向量的数量以直方图形式进行表示。

由于上述直方图表示出了各个扇形区域中的极坐标向量的数量，且极坐标向量能够表征轮廓点的相对位置(即文本区域的形状)，因而，该直方图即可视为对文本区域的形状的一种量化方式。

步骤103，基于形状描述信息和预设的标准形状描述信息的比较，确定目标图像的变形类别。

在本实施例中，上述执行主体可以首先获取预设的标准形状描述信息。其中，上述标准形状描述信息可以是基于未发生形变的文字区域轮廓(如矩形)所生成的形状描述信息。该标准形状描述信息的生成方式与步骤102中所描述的生成方式基本相同，此处不再赘述。

由于标准形状描述信息为未发生形变的文字区域轮廓所生成的形状描述信息。因而，形状描述信息和标准形状描述信息的差异越大，则目标图像中文字区域轮廓的形变程度越大。由于不同程度的形变通常对应不同变形类别(如相似变换时形变程度较小，仿摄变换时形变程度较大)，因而，可以基于形状描述信息和标准形状描述信息差异大小，来确定出两者差异。

实践中，图像的变形类别可以包括但不限于透视变换、仿射变换、相似变换。其中，透视变换(Perspective Transformation)是指利用透视中心、像点、目标点三点共线的条件，按透视旋转定律使承影面(透视面)绕迹线(透视轴)旋转某一角度，破坏原有的投影光线束，仍能保持承影面上投影几何图形不变的变换。仿射变换又称仿射映射，是指在几何中，一个向量空间进行一次线性变换并接上一个平移，变换为另一个向量空间。相似变换是指由一个图形到另一个图形，在改变的过程中保持形状不变(大小方向和位置可变)的图形。作为示例，如图3a、3b、3c所示。图3a为图像发生透视变换的图像的示意图；图3b为图像发生仿射变换变换的图像的示意图；图3c为图像发生相似变换的图像的示意图。

在本实施例的一些可选的实现方式中，可以通过计算形状描述信息和预设的标准形状描述信息的相似度的方式，确定目标图像的变形类别。

具体可按照如下步骤执行：

第一步，确定上述形状描述信息与预设的标准形状描述信息的相似度。具体地，可以首先分别将形状描述信息和预设的标准形状描述信息转换为向量。其中，形状描述信息对应的向量中可以包含形状描述信息的特征，该特征可以通过数值的形式进行表示。同理，标准形状描述信息对应的向量中可以包含标准形状描述信息的特征。而后，可以将形状描述信息转换成的向量与标准形状描述信息转换成的向量进行相似度计算。实践中，可以采用各种现有的相似度计算方式(如欧氏距离等)来计算上述两个向量的相似度。

此处，可选的，当形状描述信息为直方图时，可以将直方图表示为向量。向量中的每一维对应一个扇形区域。向量中的每一维的数值即为该维度所对应的扇形区域中的极坐标向量的数量。若将圆周划分份数为n₀，将半径划分份数为n_r，则向量的维数即为n₀×n_r。

第二步，基于相似度，确定上述目标图像的变形类别。

作为示例，可以预先设定各变形类别对应的相似度阈值区间，从而基于计算得到的相似度所属的相似度阈值区间，确定出目标图像的变形类别。

作为又一示例，当采用如欧氏距离等方式表征相似度时，也可以直接设定各变形类别对应的偏离范围。其中，偏离范围可以表征计算得到的形状描述信息与标准描述信息的差异。欧氏距离的计算结果即为实际的偏离。欧式距离越大，偏离越大，相似度越小。由此，可以预先是定各变形类别对应的偏离范围。例如，相似变换的偏离阈值10％，仿射变换的偏离阈值为20％，透视变换的偏离阈值为40％。即，当偏离在0-10％(此处可包含10％)时，可认为是相似变换；当偏离在10-20％(此处可不包含10％且包含20％)时，可认为是仿射变换；当偏离在20-40％(此处可不包含20％且包含40％)时，可认为是透视变换。由此，通过实际的偏离所属的区间确定目标图像的变形类别。

步骤104，采用变形类别对应的图像处理方式，对目标图像进行处理，得到处理后的目标图像。

在本实施例中，针对不同的变形类别，可以预先设置有不同的图像处理方式。例如，针对变形程度较小的变形类别，可以采用较为轻量级的图像矫正算法进行目标图像的矫正处理，以提高图像处理速度。对于变形程度较大的变形类别，可以采用复杂的图像矫正算法进行目标图像的矫正处理，以提高目标图像的矫正效果。

在本实施例的一些可选的实现方式中，在变形类别为相似变换的情况下，上述执行主体可以直接输出上述目标图像。由于相似变换时，图像变形程度较小，图像未发生扭曲，无需对图像进行矫正，即可识别其中的文字，因而可直接输出图像。

在本实施例的一些可选的实现方式中，在上述变形类别为仿射变换的情况下，上述执行主体可以采用基于轮廓提取的轻量级图像矫正算法，对上述目标图像进行矫正，得到矫正后的目标图像。

例如，可以计算目标图像的倾斜角度，而后将目标图像按照该倾斜角度进行反向旋转，从而实现目标图像的矫正。具体地，可以首先利用数字图像处理中的开－闭运算、sobell算子边缘提取等技术实现无效信息的过滤，并使用Freeman直线检测算法获取文本区域轮廓中的直线。由于经过Freeman直线检测算法检测直线后，会存在一些短、小直线，因而，设定最小直线阈值，过滤掉过小的直线。此外，还有一部分直线旋转角度过大或过小，因而可通过设定旋转角度均值作为阈值进行过滤。之后，可以计算过滤后剩余直线的平均旋转角度，作为目标图像的旋转角度。最后，可以采用warp重投影与双线性插值技术旋转图像进行校正，并最终输出矫正结果。

在本实施例的一些可选的实现方式中，在上述变形类别为透视变换的情况下，上述执行主体可以采用基于单应性矩阵的图像矫正算法，对上述目标图像进行矫正。例如，可以首先使用RANSAC(Random Sample Consensus，随机采样一致性)算法迭代计算单应性(Homography)矩阵，再应用该单应性矩阵对整张图像做透视变换，得到矫正后的目标图像。

步骤105，对所述处理后的目标图像进行文字识别。

在本实施例中，在上述对上述目标图像进行处理之后，上述执行主体还可以利用OCR(Optical Character Recognition，光学字符识别)等文字识别技术，对目标图像中的文本进行识别。

本发明的上述实施例提供的方法，通过获取目标图像中的文本区域的轮廓点，而后基于轮廓点的位置，生成文本区域的形状描述信息，之后基于形状描述信息和预设的标准形状描述信息的比较，确定目标图像的变形类别，从而采用变形类别对应的图像处理方式，对目标图像进行处理。由于形状描述信息用于表征文本区域的轮廓形状，因而，本申请实施例可以针对文本区域的变形程度采用不同方式进行图像处理，使图像矫正更具针对性，节省了图像矫正时的计算资源。

进一步参考图4，其示出了本发明实施例提供的图像处理方法的流程图之二，本发明实施例提供的图像处理方法，可以应用于电子设备。

本发明实施例提供的图像处理方法的流程，包括以下步骤：

步骤401，获取目标图像中的文本区域的轮廓点。

本实施例中的步骤401可参见图1所示实施例的步骤101，此处不再赘述。

步骤402，从文本区域的轮廓点中，选取目标轮廓点。

在本实施例中，图像处理方法的执行主体可以从上述文本区域的轮廓点中，选取目标轮廓点。此处，目标轮廓点可以是位于文本区域轮廓中的指定的某一轮廓点。例如文本区域的左上角顶点。

步骤403，获取目标轮廓点指向其他各轮廓点的向量。

在本实施例中，上述执行主体可以获取上述目标轮廓点指向其他各轮廓点的向量。此处，可以以首先获取各轮廓点的坐标，并通过坐标运算，计算目标轮廓点指向其他各轮廓点的向量。

具体地，所述执行主体可以首先将所述目标轮廓点作为原点，建立坐标系，如直角坐标系、极坐标系等。而后，获取各轮廓点在该坐标系中的坐标。从而基于各轮廓点在该坐标系下的坐标，确定目标轮廓点(即原点)指向其他各轮廓点的向量。

在本实施例的一些可选的实现方式中，目标轮廓点指向其他各轮廓点的向量可以是极坐标向量。上述执行主体可以通过如下步骤获取上述目标轮廓点指向其他各轮廓点的极坐标向量：首先，以上述目标轮廓点为极点，建立极坐标系。而后，获取其他各轮廓点在上述极坐标系中的极坐标。最后，基于其他各轮廓点的极坐标，确定上述目标轮廓点指向其他各轮廓点的极坐标向量。此处，极坐标可以通过对直角坐标系中的坐标进行转换得到。通过建立极坐标系，用极坐标向量来生成相应的形状描述信息，可以更加方便、准确的确定目标图像的变形类别。

步骤404，基于所获取的向量，生成所述文本区域的形状描述信息。

在本实施例中，由于轮廓点可以描述出文本区域的整体轮廓，因而，上述执行主体可以基于各轮廓点的向量，生成所述文本区域的形状描述信息。其中，形状描述信息用于表征文本区域的轮廓形状。

作为示例，上述执行主体可以首先将步骤304所建立的坐标系划分为多个区域，如扇形区域、矩形区域等。而后，可以计算轮廓点向量在各区域的分布情况，从而基于上述分布情况，生成形状描述信息。

在本实施例的一些可选的实现方式中，目标轮廓点指向其他各轮廓点的向量可以是极坐标向量，此时，上述执行主体可以按照如下步骤生成形状描述信息：

第一步，基于预设的圆周划分份数和半径划分份数，将极坐标系划分为多个扇形区域。

此处，上述执行主体可以基于预设的圆周划分份数和半径划分份数，将上述极坐标系划分为多个扇形区域。其中，圆周划分份数即为对360°等分的份数。半径划分份数即为对指定的最大半径等分的份数。如指定的最大半径为6cm，在半径划分份数为3时，可在半径2cm、4cm处划分。实践中，圆周划分份数和半径划分份数越大，计算精度越高，但计算的复杂度也越高。因而，圆周划分份数和半径划分份数的具体取值可以根据需要或者大量试验而预先设定，此处对此两项的具体数值不作限定。

第二步，确定位于各扇形区域的极坐标向量的数量。

此处，上述执行主体可以确定位于各扇形区域的极坐标向量的数量。此处，由于已知上述目标轮廓点指向其他各轮廓点的极坐标向量，且目标轮廓点为极点，因而，由极坐标向量即可得知其他轮廓点相对于目标轮廓点的距离和角度。由此，即可得知其他各轮廓点所位于的扇形区域。

第三步，将扇形区域的次序作为直方图的横轴，将扇形区域中的极坐标向量的数量作为直方图的纵轴，生成直方图，并将直方图作为文本区域的形状描述信息。

此处，上述执行主体可以将扇形区域作为直方图的横轴，将扇形区域中的极坐标向量的数量作为直方图的纵轴，生成直方图，并将上述直方图作为上述文本区域的形状描述信息。

步骤405，基于形状描述信息和预设的标准形状描述信息的比较，确定目标图像的变形类别。

步骤406，采用变形类别对应的图像处理方式，对目标图像进行处理。

步骤407，对处理后的目标图像进行文字识别。

本实施例中的步骤405-步骤407可参见图1所示实施例的步骤103-步骤105，此处不再赘述。

从图4中可以看出，与图1对应的实施例相比，本实施例中的图像处理方法的流程涉及了将直方图作为文本区域的形状描述信息，从而基于形状描述信息与标准形状描述信息的相似度计算，确定变形类别的步骤。由此，本实施例描述的方案可以针对文本区域的变形程度采用不同方式进行图像处理，使图像矫正更具针对性，节省了图像矫正时的计算资源。

进一步参考图5，作为对上述图1所示方法的实现，本发明提供了一种图像处理装置的一个实施例，该装置实施例与图1所示的方法实施例相对应。

如图5所示，本实施例所述的图像处理装置500包括：获取单元501，用于获取目标图像中的文本区域的轮廓点；生成单元502，用于基于上述轮廓点在上述目标图像中的位置，生成上述文本区域的形状描述信息，上述形状描述信息用于表征上述文本区域的轮廓形状；确定单元503，用于基于上述形状描述信息和预设的标准形状描述信息的比较，确定上述目标图像的变形类别；处理单元504，用于采用上述变形类别对应的图像处理方式，对上述目标图像进行处理，得到处理后的目标图像；识别单元505，用于对上述处理后的目标图像进行文字识别。

在本实施例的一些可选的实现方式中，上述生成单元502，可以进一步用于：从上述文本区域的轮廓点中，选取目标轮廓点；获取上述目标轮廓点指向其他各轮廓点的向量；基于所获取的向量，生成上述文本区域的形状描述信息。

在本实施例的一些可选的实现方式中，上述生成单元502，可以进一步用于：以上述目标轮廓点为极点，建立极坐标系；获取其他各轮廓点在上述极坐标系中的极坐标；基于其他各轮廓点的极坐标，确定上述目标轮廓点指向其他各轮廓点的极坐标向量。

在本实施例的一些可选的实现方式中，上述生成单元502，可以进一步用于：基于预设的圆周划分份数和半径划分份数，将上述极坐标系划分为多个扇形区域；确定位于各扇形区域的极坐标向量的数量；将扇形区域的次序作为直方图的横轴，将扇形区域中的极坐标向量的数量作为直方图的纵轴，生成直方图，并将上述直方图作为上述文本区域的形状描述信息。

在本实施例的一些可选的实现方式中，上述确定单元503，可以进一步用于：确定上述形状描述信息与预设的标准形状描述信息的相似度；基于上述相似度，确定上述目标图像的变形类别。

在本实施例的一些可选的实现方式中，上述处理单元504，可以进一步用于：上述采用上述变形类别对应的图像处理方式，对上述目标图像进行处理，包括：在上述变形类别为相似变换的情况下，输出上述目标图像；在上述变形类别为仿射变换的情况下，采用基于轮廓提取的轻量级图像矫正算法，对上述目标图像进行矫正；在上述变形类别为透视变换的情况下，采用基于单应性矩阵的图像矫正算法，对上述目标图像进行矫正。

在本实施例的一些可选的实现方式中，上述装置还包括：检测单元，用于在检测到人脸的情况下，获取上述人脸的唇语特征；拍照单元，用于在上述唇部特征与目标唇语特征匹配的情况下，对文本进行拍照，生成目标图像。以及，上述装置还包括，识别单元，用于对处理后的上述目标图像中的文本进行识别；输出单元，用于将文本识别结果以语音形式输出。

本发明的上述实施例提供的装置，通过获取目标图像中的文本区域的轮廓点，而后基于轮廓点的位置，生成文本区域的形状描述信息，之后基于形状描述信息和预设的标准形状描述信息的比较，确定目标图像的变形类别，从而采用变形类别对应的图像处理方式，对目标图像进行处理。由于形状描述信息用于表征文本区域的轮廓形状，因而，本申请实施例可以针对文本区域的变形程度采用不同方式进行图像处理，使图像矫正更具针对性，节省了图像矫正时的计算资源。

进一步参照图6，为实现本发明各个实施例的一种电子设备的硬件结构示意图。

该电子设备600包括但不限于：射频单元601、网络模块602、音频输出单元603、输入单元604、传感器605、显示单元606、用户输入单元607、接口单元608、存储器609、处理器610、以及电源611等部件。本领域技术人员可以理解，图6中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

处理器610，用于获取目标图像中的文本区域的轮廓点；基于所述轮廓点的位置，生成所述文本区域的形状描述信息；基于所述形状描述信息和预设的标准形状描述信息的比较，确定所述目标图像的变形类别；采用所述变形类别对应的图像处理方式，对所述目标图像进行处理，得到处理后的目标图像；对所述处理后的目标图像进行文字识别。

在本发明实施例中，通过获取目标图像中的文本区域的轮廓点，而后基于轮廓点的位置，生成文本区域的形状描述信息，之后基于形状描述信息和预设的标准形状描述信息的比较，确定目标图像的变形类别，从而采用变形类别对应的图像处理方式，对目标图像进行处理。由于形状描述信息用于表征文本区域的轮廓形状，因而，本申请实施例可以针对文本区域的变形程度采用不同方式进行图像处理，使图像矫正更具针对性，节省了图像矫正时的计算资源。

应理解的是，本发明实施例中，射频单元601可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器610处理；另外，将上行的数据发送给基站。通常，射频单元601包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元601还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块602为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元603可以将射频单元601或网络模块602接收的或者在存储器609中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元603还可以提供与电子设备600执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元603包括扬声器、蜂鸣器以及受话器等。

输入单元604用于接收音频或视频信号。输入单元604可以包括图形处理器(Graphics Processing Unit，GPU)6041和麦克风6042，图形处理器6041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元606上。经图形处理器6041处理后的图像帧可以存储在存储器609(或其它存储介质)中或者经由射频单元601或网络模块602进行发送。麦克风6042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元601发送到移动通信基站的格式输出。

电子设备600还包括至少一种传感器605，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板6061的亮度，接近传感器可在电子设备600移动到耳边时，关闭显示面板6061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器605还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元606用于显示由用户输入的信息或提供给用户的信息。显示单元606可包括显示面板6061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板6061。

用户输入单元607可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元607包括触控面板6071以及其他输入设备6072。触控面板6071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板6071上或在触控面板6071附近的操作)。触控面板6071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器610，接收处理器610发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板6071。除了触控面板6071，用户输入单元607还可以包括其他输入设备6072。具体地，其他输入设备6072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板6071可覆盖在显示面板6061上，当触控面板6071检测到在其上或附近的触摸操作后，传送给处理器610以确定触摸事件的类型，随后处理器610根据触摸事件的类型在显示面板6061上提供相应的视觉输出。虽然在图6中，触控面板6071与显示面板6061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板6071与显示面板6061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元608为外部装置与电子设备600连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元608可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备600内的一个或多个元件或者可以用于在电子设备600和外部装置之间传输数据。

存储器609可用于存储软件程序以及各种数据。存储器609可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器609可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器610是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器609内的软件程序和/或模块，以及调用存储在存储器609内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器610可包括一个或多个处理单元；优选的，处理器610可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器610中。

电子设备600还可以包括给各个部件供电的电源611(比如电池)，优选的，电源611可以通过电源管理系统与处理器610逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，电子设备600包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种电子设备，包括处理器610，存储器609，存储在存储器609上并可在所述处理器610上运行的计算机程序，该计算机程序被处理器610执行时实现上述图像处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述图像处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种图像处理方法，应用于电子设备，其特征在于，所述方法包括：

获取目标图像中的文本区域的轮廓点；

基于所述轮廓点的位置，生成所述文本区域的形状描述信息；

基于所述形状描述信息和预设的标准形状描述信息的比较，确定所述目标图像的变形类别；

采用所述变形类别对应的图像处理方式，对所述目标图像进行处理，得到处理后的目标图像；

对所述处理后的目标图像进行文字识别；

其中，所述基于所述轮廓点的位置，生成所述文本区域的形状描述信息，包括：

从所述文本区域的轮廓点中，选取目标轮廓点；

获取所述目标轮廓点指向其他各轮廓点的向量；

基于所获取的向量，生成所述文本区域的形状描述信息。

2.根据权利要求1所述的图像处理方法，其特征在于，所述获取所述目标轮廓点指向其他各轮廓点的向量，包括：

以所述目标轮廓点为极点，建立极坐标系；

获取其他各轮廓点在所述极坐标系中的极坐标；

基于其他各轮廓点的极坐标，确定所述目标轮廓点指向其他各轮廓点的极坐标向量。

3.根据权利要求2所述的图像处理方法，其特征在于，所述基于所获取的向量，生成所述文本区域的形状描述信息，包括：

基于预设的圆周划分份数和半径划分份数，将所述极坐标系划分为多个扇形区域；

确定位于各扇形区域的极坐标向量的数量；

将扇形区域的次序作为直方图的横轴，将扇形区域中的极坐标向量的数量作为直方图的纵轴，生成直方图，并将所述直方图作为所述文本区域的形状描述信息。

4.根据权利要求1所述的图像处理方法，其特征在于，所述基于所述形状描述信息和预设的标准形状描述信息的比较，确定所述目标图像的变形类别，包括：

确定所述形状描述信息与预设的标准形状描述信息的相似度；

基于所述相似度，确定所述目标图像的变形类别。

5.根据权利要求1所述的图像处理方法，其特征在于，所述采用所述变形类别对应的图像处理方式，对所述目标图像进行处理，包括：

在所述变形类别为相似变换的情况下，输出所述目标图像；

在所述变形类别为仿射变换的情况下，采用基于轮廓提取的轻量级图像矫正算法，对所述目标图像进行矫正；

在所述变形类别为透视变换的情况下，采用基于单应性矩阵的图像矫正算法，对所述目标图像进行矫正。

6.根据权利要求1所述的图像处理方法，其特征在于，在所述获取目标图像中的文本区域的轮廓点之前，所述方法还包括：

在检测到人脸的情况下，获取所述人脸的唇语特征；

在所述唇语特征与目标唇语特征匹配的情况下，对文本进行拍照，生成目标图像；

以及，在所述对所述目标图像进行处理之后，所述方法还包括：

对处理后的所述目标图像中的文本进行识别；

将文本识别结果以语音形式输出。

7.一种图像处理装置，其特征在于，所述装置包括：

获取单元，用于获取目标图像中的文本区域的轮廓点；

生成单元，用于基于所述轮廓点在所述目标图像中的位置，生成所述文本区域的形状描述信息；

确定单元，用于基于所述形状描述信息和预设的标准形状描述信息的比较，确定所述目标图像的变形类别；

处理单元，用于采用所述变形类别对应的图像处理方式，对所述目标图像进行处理，得到处理后的目标图像；

识别单元，用于对所述处理后的目标图像进行文字识别；

其中，所述生成单元，进一步用于：

从所述文本区域的轮廓点中，选取目标轮廓点；

获取所述目标轮廓点指向其他各轮廓点的向量；

基于所获取的向量，生成所述文本区域的形状描述信息。

8.根据权利要求7所述的图像处理装置，其特征在于，所述处理单元，进一步用于：

在所述变形类别为相似变换的情况下，输出所述目标图像；