CN105260428A

CN105260428A - 图片处理方法和装置

Info

Publication number: CN105260428A
Application number: CN201510634690.0A
Authority: CN
Inventors: 朱柏涛
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2015-09-29
Filing date: 2015-09-29
Publication date: 2016-01-20

Abstract

本发明实施例提供了一种图片处理方法和装置，其中，所述方法包括：确定图片中的文本候选区域，并从所述文本候选区域中提取得到文本区域；其中，所述文本区域中包含有文本信息；对所述文本区域进行解析，得到所述文本区域中包含的文本信息；其中，所述文本信息包括至少一条文本；根据所述至少一条文本对所述图片进行命名。通过本发明实施例解决了目前图片难以识别和查找的问题。

Description

图片处理方法和装置

技术领域

本发明涉及图片处理技术领域，具体涉及一种图片处理方法和装置。

背景技术

随着技术的发展，越来越多的终端设备都具备拍照功能，拍摄的照片也不仅限于通过胶卷呈现，电子相片(照片)被越来越多的应用。

电子相片可以以图片的形式进行传输或储存，并且用户通过终端设备可以实现对拍摄的图片进行预览、编辑、修改、美化等处理，方便用户对拍摄的图片进行处理，提高了图片的质量以及图片最终的显示效果。而且，随着终端设备存储容量的不断提升，终端设备中可以存储的图片数量也随之不断增长。为了实现对终端设备中不同图片的区分，终端设备会给不同的图片分配一个名称。例如，目前通常采用的一种对图片进行命名的方案是：终端设备根据拍摄图片时的时间对终端设备中存储的图片进行自动命名，同时，还可以按照图片的拍摄时间对图片进行排序。

然而，按照时间对图片进行命名会存在较多问题：图片的名称(时间信息)并不能准确、清晰的反应出图片的特征，换而言之，用户根据图片的名称(时间信息)很难实现对不同图片的区分和识别，如，用户根据两个图片的名称“2015-01-01”和“2015-01-02”无法直观准确地区分(识别)出两张图片的不同。特别是当用户需要在多张图片中查找一张特定的图片时，由于时间信息并不能表征图片的特征(属性)，用户也就无法根据图片的名称(时间信息)进行快速搜索，而是只能依次打开每张图片去观察，进而确定自己所需要的特定图片，操作繁琐、查找效率低；而且，依次打开图片也增加了终端设备的负担。

发明内容

本发明实施例提供一种图片处理方法和装置，以解决目前图片难以识别和查找的问题。

为了解决上述问题，本发明公开了一种图片处理方法，包括：

确定图片中的文本候选区域，并从所述文本候选区域中提取得到文本区域；其中，所述文本区域中包含有文本信息；

对所述文本区域进行解析，得到所述文本区域中包含的文本信息；其中，所述文本信息包括至少一条文本；

根据所述至少一条文本对所述图片进行命名。

相应地，本发明还公开了一种图片处理装置，包括：

确定模块，用于确定图片中的文本候选区域；

提取模块，用于从所述文本候选区域中提取得到文本区域；其中，所述文本区域中包含有文本信息；

解析模块，用于对所述文本区域进行解析，得到所述文本区域中包含的文本信息；其中，所述文本信息包括至少一条文本；

命名模块，用于根据所述至少一条文本对所述图片进行命名。

与现有技术相比，本发明实施例至少包括以下优点：本发明实施例公开的图片处理方案，可以对图片本身直接进行处理，确定图片中的文本候选区域，然后从所述文本候选区域中提取得到文本区域，并对所述文本区域进行解析，得到所述文本区域中包含的文本信息；最后，通过包含在文本信息中的文本对所述图片进行命名。可见，在本发明实施例中，可以直接将图片中的文本提取出来，并使用提取出的图片本身包含的文本对图片进行命名，因此，图片的名称可以准确地反映出图片的特征，便于与其他图片区分开来，得到的图片名称的识别度高。进一步地，用户可以通过输入关键字，可以直接搜索得到与关键字相匹配的图片名称，进而直接获取搜索得到的图片名称对应的图片，提高了搜索效率，提升了用户体验。

附图说明

图1是本发明实施例一中一种图片处理方法的步骤流程图；

图2是本发明实施例二中一中图片处理方法的步骤流程图；

图3是本发明实施例三中一种图片的自动命名方法的步骤流程图；

图4是本发明实施例三中一种连通域的标记示意图；

图5是本发明实施例四中一种图片处理装置的结构示意图；

图6是本发明实施例五中一种图片处理装置的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

参照图1，示出了本发明实施例一中一种图片处理方法的步骤流程图。在本实施例中，所述图片处理方法可以包括：

步骤102，确定图片中的文本候选区域，并从所述文本候选区域中提取得到文本区域。

在日常的拍摄中，用户拍摄的图片中可能包括有文本信息(如，汉字、拼音、英文、日文等)，用户通过人工识别可以直接快速并准确的将图片中的文本信息识别出来，而在本实施例中，则是基于机器识别的方式来确定图片中的文本信息，与人工识别方式不同的是，机器识别的方式往往难以准确的直接识别出图片中的文本信息，为了提高机器识别方式识别的准确性，在本实施例中，可以先通过模糊搜索匹配的方式确定出图片中的文本候选区域，其中，所述文本候选区域中可以包括所有疑似或可能是包含文本信息的多个模糊区域；然后，在从确定的多个模糊区域中筛选出文本区域，其中，所述文本区域中包含有文本信息，所述文本区域也即：图片中文字信息所在的区域。可见，通过本实施例所述的二次获取方式(先获取文本候选区域再获取文本区域)提高了对图片中的文本信息识别的准确性和完整性，避免了文本信息被漏识别的概率。

步骤104，对所述文本区域进行解析，得到所述文本区域中包含的文本信息。

在本实施例中，所述文本信息包括至少一条文本。其中，各条文本可以但不仅限于由至少一个汉字和/或单词组成，优选地，可以基于任意一种可行的方式确定所述文本信息包含的文本，如，可以但不仅限于基于如下任意一种规则来确定文本信息包含的文本：上下文的语义、标点符号和标准断句规则等。例如，可以确定所述解析得到的文本信息中包括两条文本：文本1“天安门”，文本2“tiananmen”。

步骤106，根据所述至少一条文本对所述图片进行命名。

如前所述，可以从至少一条文本任意选择一条对所述图片进行命名，如，使用上述的文本1“天安门”直接对图片进行命名，或,使用上述的文本2“tiananmen”。

综上所述，本实施例所述的图片处理方法，可以对图片本身直接进行处理，确定图片中的文本候选区域，然后从所述文本候选区域中提取得到文本区域，并对所述文本区域进行解析，得到所述文本区域中包含的文本信息；最后，通过包含在文本信息中的文本对所述图片进行命名。可见，在本实施例中，可以直接将图片中的文本提取出来，并使用提取出的图片本身包含的文本对图片进行命名，因此，图片的名称可以准确地反映出图片的特征，便于与其他图片区分开来，得到的图片名称的识别度高。进一步地，用户可以通过输入关键字，可以直接搜索得到与关键字相匹配的图片名称，进而直接获取搜索得到的图片名称对应的图片，提高了搜索效率，提升了用户体验。

实施例二

参照图2，示出了本发明实施例二中一中图片处理方法的步骤流程图。在本实施例中，用于实现所述图片处理方法的可以是一个特定的图片处理装置，所述的特定的图片处理装置可以是一个单独的装置，也可以是设置拍摄设备(如，移动终端或数码相机等)中配合拍摄功能使用的装置，以直接对拍摄设备拍摄的图片进行自动命名。当然，实现所述图片处理方法的也可以是一个软件程序，所述软件程序可以基于上述的特定的图片处理装置来呈现，本实施例对此不作限制。

其中，所述图片处理方法具体可以包括：

步骤202，图片处理装置确定图片中的文本候选区域。

在本实施例中，所述文本区域中包含有文本信息。其中，所述步骤202具体可以包括：

子步骤2022，图片处理装置对所述图片进行第一边缘检测，得到第一边缘图像。

在本实施例中，可以但不仅限于采用如下所述的一种可行的方式来得到所述第一边缘图像：图片处理装置分别获取所述图片中各像素点对应的三原色R、G、B的边缘值；然后，根据获取的图片中各像素点对应的三原色R、G、B的边缘值，确定所述图片中各像素点的边缘值；最后，根据确定的所述图片中各像素点的边缘值确定所述图片对应的第一边缘图像。

其中，R、G、B分别代表红、绿、蓝三个通道的颜色，是一种常用的颜色标准，通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加可以得到各式各样的颜色。

子步骤2024，图片处理装置根据所述第一边缘图像确定所述文本候选区域。

在本实施例中，可以但不仅限于采用如下所述的一种可行的方式来确定所述文本候选区域：图片处理装置通过对所述第一边缘图像中的文字的非边缘区域填充，连接所述边缘图像中的断裂文字和/或相邻文字；然后，按照设定规则依次查找并标记连通域，其中，所述连通域包括：断裂文字和/或相邻文字的连接区域；最后，将所述连通域的标记结果确定为所述文本候选区域。

步骤204，图片处理装置从所述文本候选区域中提取得到文本区域。

在本实施例中，所述步骤204具体可以包括：

子步骤2042，图片处理装置对所述文本候选区域进行边缘检测，得到第二边缘图像。

子步骤2044，图片处理装置根据所述第二边缘图像中的各像素点的梯度方向，确定各像素点的笔画宽度值。

子步骤2046，图片处理装置将所述各像素点的笔画宽度值分别与预置参数进行比较，得到比较结果。

其中，所述预置参数可以包括但不仅限于：设定长宽比、设定字符大小和设定区域面积中的至少一种。

子步骤2048，图片处理装置根据所述比较结果从所述第二边缘图像中提取得到所述文本区域。

步骤206，图片处理装置对所述文本区域进行解析，得到所述文本区域中包含的文本信息。

在本实施例中，所述步骤206具体可以包括：

步骤2062，图片处理装置对所述文本区域进行预处理，根据预处理的处理结果确定所述文本区域下的各个字符区域。

在本实施例中，所述预处理包括但不限于：中值滤波处理和/或二值化处理。

步骤2064，图片处理装置分别获取所述各个字符区域中的文本字符。

在本实施例中，图片处理装置可以通过如下一种可行的方式来获取文本字符：图片处理装置分别对确定的各个字符区域中的字符进行切分，得到多个独立字符；然后，分别提取各个独立字符的特征值，并将提取得到的各个独立字符的特征值分别与预置特征值进行匹配；最后，将与所述预置特征值相匹配的独立字符确定为所述文本字符。

步骤2066，图片处理装置根据设定重组规则，将获取的文本字符进行重组，得到所述文本信息。

在本实施例中，所述设定重组规则可以包括但不仅限于：语义顺序规则、逻辑顺序规则、上下文释义规则、标点符号规则和换行符规则等任意至少一种。图片处理装置可以根据设定重组规则对获取的文本字符进行重组，得到至少一条文本，其中，可以将所述文本成视为是所述文本区域中包含的文本信息。

步骤208，图片处理装置根据所述至少一条文本对所述图片进行命名。

在本实施例中，图片处理装置可以根据用户预先设置的命名规则，自动为图片进行命名，如，以上述实施例一中所述的文本1“天安门”和文本2“tiananmen”为例，若用户预先设置的命名规则是：使用不超过3个字符的汉字对图片进行命名，则，可以直接使用文本1“天安门”对所述图片进行命名。

当然，图片处理装置也可以通过提示页面来请求对图片进行命名：图片处理装置加载并显示用于显示所述至少一条文本的提示页面，并根据通过所述提示页面确定的文本对所述图片进行命名。仍以上述实施例一中所述的文本1“天安门”和文本2“tiananmen”为例，图片处理装置可以加载并显示提示页面，其中，所述提示页面可以提供至少两个提示选项给用户，其中，提示选项1中包括“天安门”，提示选项2中包括“tiananmen”，图片处理装置可以根据用户对所述提示页面中显示的提示选项的选择操作确定用于对图片进行命名的文本。当然，本领域技术人员应当明了的是，所述提示页面中并不仅限于包含文本的提示选项，还可以包括用于提示用户手动命名的提示选项A、提示用户使用拍摄时间进行命名的提示选项B等。

此外，在对图片进行命名时，既可以根据默认配置自动进行命名，减少用户操作。也可以显示用于提示命名的提示信息，以便于用户选择适当的名称进行命名，多种命名方式协同作业，使得图片命名的方式更加多元化，满足不同用户的需求。

实施例三

基于上述实施例，本实施例以图片的自动命名方法为例进行说明，在不矛盾的情况下，该方法可以和上述实施例中的方法相结合。下面对本实施例所述的方法进行具体说明。

参照图3，示出了本发明实施例三中一种图片的自动命名方法的步骤流程图。在本实施例中，所述图片的自动命名方法可以包括：

步骤302，图片处理装置对输入的图片进行粗检测，得到文本候选区域。

在本实施例中，图片处理装置具体可以采用边缘检测算法中的彩色边缘检测算法对所述图片进行第一边缘检测以得到第一边缘图像，基于得到的第一边缘图像得到文本候选区。

需要说明的是，彩色边缘检测算法对彩色图像有较好的处理效果，而且检测出的边缘线条较粗，利于后续对文本候选区域的确定。

其中，所述彩色边缘检测算法基于汉字的横、竖、撇、捺四种笔画构成进行计算，所述四种笔画在图像中可以表现为0、π/4、π/2、π3/4四种方向的边缘信息，具体算法可以如下：

在3x3邻域内分别对图片的当前像素点的R、G、B三个分量求边缘，取四个方向中的最大值作为当前分量的边缘值，得到R(x,y)、G(x,y)、B(x,y)三个彩色分量的边缘值，也即所述当前像素点的边缘值。采用上述步骤依次得到图片中全部像素点的边缘值，然后对得到的全部像素点的边缘值进行二值化处理，最终得到第一边缘图像。

需要说明的是，经过边缘处理得到的第一边缘图像中的部分文字的边缘图像可能会出现断裂现象。在本实施例中，可以对所述第一边缘图像进行形态学分析，以使所述第一边缘图像中断裂的文字以及相邻的文字连接，从而更有利于后面的基于边缘的文本候选区域的确定。

其中，所述形态学分析的具体实现可以如下：对所述第一边缘图进行膨胀和闭运算，以使第一边缘图像中的文字的非边缘区域完成填充，分开的文字部件和断裂的文字笔画完成连接。例如，可以分别在所述第一边缘图像的垂直方向和水平方向进行3个像素的膨胀运算，再分别在所述第一边缘图像的垂直方向和水平方向分别进行3个像素的闭运算，即可完成对第一边缘图像的形态学分析。

更优选地，在完成对所述第一边缘图像的形态学分析之后，还可以对完成形态学分析的第一边缘图像进行连通域的标记：

首先，按照设定规则依次查找并标记连通域。

其中，参照图4，示出了本发明实施例三中一种连通域的标记示意图。在本实施例中，所述设定规则可以是：在查找连通域时，可以将当前点记为P，所述当前点P领域的四个领域点分别按照如下规则进行标记：当前点P左上角的点记为LU，当前点P右上角的点记为RU，当前点P左边的点记为L，当前点P上面的点记为U。其中，若所述当前点P的四个领域点都为前景点，则可以将所述当前点P的四个领域点作为一个连通域，并标定序号。按这种方法，在所述完成形态学分析的第一边缘图像中依次寻找连通域，直到寻找并标定完所有的连通域为止。

需要说明的是，连通域标记的结果就是对输入的图片进行粗检测后的结果。图片中有一些不是文字的区域也会被检测到。因此，通过粗检测得到的区域(连通域)仅仅是文本的候选区，也即，文本候选区域。下面还需要对文本候选区域进行进一步地筛选，以得到更准确的检测结果。

步骤304，图片处理装置从所述文本候选区域中提取得到文本区域。

在本实施例中，还需要对通过上述步骤302得到文本候选区域进行过滤筛选得到最终的文本区域。由于常见的图片中相邻文字一般是笔画大小相等的，所以可以利用文本候选区域的笔画宽度，尺寸，长宽比例和字体大小等来进行筛选，最终得到文本区域。

在本实施例中，根据自然场景中文字笔画倾向于固定宽度的特点，提出了一种基于SWT(笔画宽度变换)的文本候选区域的筛选方法。所述文本候选区域的筛选方法主要可以分为四个步骤：二次边缘检测、笔画宽度变换、文本候选区域筛选、文本区域检测输出：

二次边缘检测：对所述文本候选区域进行边缘检测，得到第二边缘图像。

首先，对所述文本候选区域对应的图像进行灰度化处理，得到灰度图像。然后，对得到的所述灰度图像进行高斯滤波，在通过一阶偏导的有限方差来计算梯度的幅值和方向，并对梯度幅值进行非极大值抑制，也即，寻找像素点局部最大值将非极大值点所对应的灰度值置为0，以细化梯度幅值。具体的流程可以为：首先，沿着当前像素点的梯度方向，对其8领域内的像素点进行插值，然后让当前像素点与其沿梯度方向的两个插值进行比较。如果当前像素点的灰度值小于这两个点中的任一个，则说明当前像素点不是局部极大值，则可以排除当前像素点为边缘，并将它的值置为0。优选地，可以选择两个数值不同的阈值，根据高阈值(数值较大的阈值)得到一个边缘图像AA，所述边缘图像AA含有很少的假边缘，但是由于阈值较高，产生的图像边缘可能不闭合，此时可以通过另外一个低阈值(数值较小的阈值)来解决这一问题：在高阈值图像中把边缘连接成轮廓，当到达轮廓的端点时，在断点的8邻域点中寻找满足所述低阈值的点，再根据寻找到的满足所述低阈值的点收集新的边缘，直到整个图像边缘闭合，最终得到第二边缘图像。

笔画宽度变换：笔画宽度变换是一种局部的图像操作，该操作是将计算每个像素的颜色值变换成每一个像素最有可能的笔画宽度值，其核心问题就是计算图像中每一个像素的笔画宽度值。在上一步二次边缘检测的计算中，得到每一个像素点都具有一个方向梯度值，记录下这些梯度值。假设P是一个边缘像素点，dp是其梯度方向，按照dp方向沿着路线r寻找另一个边缘像素点q，dq为其梯度方向，dq与dp方向相反。如果p没有相匹配的像素点，则该路线就被废弃，重新选择新的边缘像素点p并且找到与之相对的边缘像素点q。如果找到相匹配的像素点q，则对应于这条线路上的每个像素点将被指定对应的笔画宽度值|p-q|，|p-q|为像素点p与像素点q之间的欧氏距离。

文本候选区域筛选：经过笔画宽度变换后，下面利用得到的两幅笔画宽度图来进行文本候选区域的筛选。因为在自然场景中有很多类似文字的场景元素的存在，如栏杆、门窗、灯柱、树叶网孔等，而且这些非文字元素在形状和颜色上与文字是一致的，所以按照粗检测的方法，不可避免会存在得到一些非文本区域，因此需要对粗检测得到的文本候选区域进行筛选，实现最终检测文本的目的。为了排除干扰区域，主要根据文本候选区域的笔画宽度变化、尺寸、长宽比例和字符大小等消除一些不可能是文本的区域，在整个过程中利用一些约束条件进行筛选，具体筛选步骤可以如下：

步骤a、文本候选区域的长宽比。文本候选区域的长宽比是存在一定范围的，一般在0.1到10之间，将满足该条件的一些长宽比例过大或过小的字符区域剔除。

步骤b、文本候选区域内字符的大小。文本候选区域内的字符不应过大，也不应过小，一般地，字符的宽度应在W/20和W个像素之间，高度在H/20和H之间，其中W和H分别表示图像的宽度和高度。将不满足该条件的字符区域剔除。

步骤c、文本候选区域的面积。若文本候选区域面积过小，则可以判定其为非文本区域。优选地，可以将面积小于20像素的候选文本区域剔除。

文本区域检测输出：可以将通过上述二次边缘检测、笔画宽度变换、文本候选区域筛选步骤处理后筛选得到的区域确定为文本区域，并输出上述文本区域。

步骤306，图片处理装置对所述文本区域进行解析，得到所述文本区域中包含的文本信息。其中，所述文本信息包括至少一条文本。

在本实施例中，图片处理装置可以对输入的文本区域进行二值化处理，并进行字符的切分，得到单个的字符，然后提取各个单个字符的特征，最后进行字符的特征的匹配和识别。

在对文本进行识别之前，所述文本区域对应的图像是一块块的灰度图，是不能直接被识别的。因此首先需要对所述文本区域进行预处理，其中，所述预处理可以包括：中值滤波、二值化、字符切分等多个处理步骤，将整块的文本区域变为单个的字符，然后再分别对每个字符区域进行特征提取和识别。其中，

中值滤波是一种非线性的平滑技术，可以将每一个像素点的灰度值设置为该点的某邻域窗口内所有像素点灰度值的中值，让周围的像素值接近真实值，从而消除孤立的噪声点。中值滤波法对去除图像脉冲噪声、扫描噪声等非常有效。具体的实现方法可以如下：利用二维滑动模板，将模板内的像素按照像素值的大小进行排序，生成单调上升(或下降)的二维数据序列，再用这组的中值替换模板内每个像素的值，然后输出。

图像的二值化，基于最大类间方差法，选择一个阈值T将一幅灰度图像划分为前景和背景两大类。其中，最大类间方差法的原理是：不断调整阈值T让两类间的方差最大，使用此时的阈值T来分割背景和前景。如果有部分背景错分为前景或部分前景错分为背景，两类间的方差就会变小。所以，使用最大类间方差法意味着背景和前景错分的概率最小。

进一步地，检测出来的文本区域一般会包含多个字符，所以需要对文本区域中的字符进行切分，然后才能进行后续的单个字符的识别。自然场景图片中的文字一般都是印刷体，虽然其字号、字体可能不同，但是在印刷体文字的排版中，大多数的文字之间是按照一定的空白间隙分隔开的。因此，可以采用边缘投影分析的方法，找到文字间的空白区，从而据此对文字进行分割。其中，在进行切分前需要获取文本的边缘图像，然后对边缘图像进行投影切分。一个文本区域可能是包含多行的，也可能是包含多列的，因此在进行切分时，需要进行行切分和列切分，具体算法的步骤如下：

行切分：行切分额可以根据文本图像每行之间的空白间隙是否大于某一设定阈值来提取文本区域的行结构信息。按照从上到下的顺序，对预处理后的文本区域对应的图像的每一行进行横向统计，得到每一条横向扫描线上黑点的个数h(j)，当h(j+3)、h(j+2)、h(j+1)、h(i)、h(i-1)、h(i-2)和h(i-3)同时小于阈值4时，则说明j是一条行切分线；当j与上一条行切分线之间的距离大于6，则确定j是行切分线。

列切分：对文本区域进行行切分后，可以继续对文本区域进行列切分。首先，对预处理后的文本区域对应的图像进行垂直方向投影，得到v(i)，当v(i+3)、v(i+2)、v(i+1)、v(i)、v(i-1)、v(i-2)和v(i-3)同时小于阈值3时，则说明i是列切分线。假如i与上一条列切分线之间的距离大于5，则确定j是行切分线；假如得到的切分区域的宽度与高度比大于1.7，则说明该切分区域还可以进一步进行列切分，仍采用相似的方法进行切分，直至把切分的阈值降低至满足条件。

通过上述行切分和列切分之后可以得到多个独立(单独)的字符，进一步地，可以提前各个独立字符的字符特征。

在本实施例中，考虑到Gabor特征对汉字结构细节的区分度较好，因此选择使用Gabor滤波器进行字符的特征提取。其中，Gabor滤波器是一种基于多分辨率、多通道分析算法的典型代表，能在频域和时域都达到较好的分辨率，具有明显的频率选择性和方向选择性。特征提取的具体流程可以如下：

设置汉字的Gabor滤波器。根据对多个(3755个)大小为40X40的常用汉字分析发现，汉字主要的几种笔画宽度分别为3、5、8。因此在设置汉字的的Gabor滤波器时，可以将滤波器的宽度设置为6、10、16。汉字的笔画分布主要有横、竖、撇、捺四个方向，分别对应0、45、90和135。把40X40的汉字图像划分为64个5X5的均匀网格，把每一个网格的中心像素点作为采样点，使每一幅汉字图像有64个采样点。对每一个采样点进行离散Gabor变换，最后得到一个特征向量，也即字符对应的Gabor特征向量。

通过Gabor滤波器可以提取得到各个字符的Gabor特征值，将提取得到的字符的Gabor特征值分别与预置特征值进行匹配，识别找出匹配字符，将匹配字符作为所述文本字符。

进一步地，文本被切分成单个字符之后是完全无序的，这种情况下，识别出来的前后汉字之间缺乏关联，不存在组词的可能性，而盲目的词汇联想只会恶化识别结果，所以，在汉字识别之前需要对匹配得到的多个独立的字符进行排序、重组。

在本实施例中，可以采用一种联想处理法对多个独立的字符进行排序、重组。自然场景下的文本以表达某种信息为主要目的，很少出现一些晦涩难懂的词语，通常由一个或者多个关键词语组成，简单明了，并且“双字词语”占据绝大部分。举例来说，以“家”字为例，可以采用联想处理法对“家”进行处理，其中，所述联想处理既可以包括“家庭”、“家务”、“家乡”等后向词语，又可以包括“商家”、“专家”、“国家”等前向词语。需要说明的是，所述联想处理法可以基于预置词库实现，预置词库中包括了多个汉字的后向词语以及前向词语。

以识别出的“国、家、电、网”四个独立的汉字为例，采用联想处理法对所述“国、家、电、网”四个独立的汉字进行排序、重组。如，对“国”、“家”两字采用联想处理法分别得到排序前十的十个候选识别结果：园圈国固围囤画因图回：家索象氛隶窥紊察素穿。然后，对“家”字进行前向搜索：对于“家”字的每一个候选识别结果，在联想词库中定位对应的“F”标记位置，即所有前向词语的起始位置，然后将这些前向词语与“国”字(当前汉字“家”的前一个位置)的候选识别结果进行一一比较，存在匹配项“国”，而且由于“国”字的候选位置是3，“家”字的候选位置是1，识别可靠性都比较高，所以需要修正原始识别结果，将“国”提高至第一候选位置。假设联想启动汉字的候选识别位置为a，被联想到汉字的候选位置为b。单汉字识别的候选结果中，通常第一候选位置处(a＝1或b＝1)识别准确率最高，高于其它候选位置：而候选位置越靠后，其位置上的准确率越低。由此可以总结，联想词语的加权可靠性n计算公式为：n＝1/a+1/b；其中，a为联想启动汉字的候选识别位置，b为被联想到汉字的候选位置。当n大于阀值时允许修正原始的识别结果，否则拒绝修正。按照上述算法规则，得到“国、家、电、网”四个独立的汉字的正确排序，并根据确定的正确顺序得到重组结果：文本“国家电网”。

步骤308，图片处理装置根据所述至少一条文本对所述图片进行命名。

在本实施例中，从一张图片中提取出的文本信息中可能包括多条文本，图片处理装置可以向用户发送提示信息，其中，所述提示信息中可以列出所提取出的所有文本供用户选择，用户可以选择想要的文本给图片命名。当然，在默认情况下，考虑到用户体验，也可以不弹出提示用户是否保存的提示信息，而直接使用识别出的第一条文本进行保存。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

实施例四

在上述实施例的基础上，本实施例还提供了一种图片处理装置。参照图5，示出了本发明实施例四中一种图片处理装置的结构示意图。在本实施例中，所述图片处理装置可以包括：

确定模块502，用于确定图片中的文本候选区域。

提取模块504，用于从所述文本候选区域中提取得到文本区域。

其中，所述文本区域中包含有文本信息。

解析模块506，用于对所述文本区域进行解析，得到所述文本区域中包含的文本信息。

其中，所述文本信息包括至少一条文本。

命名模块508，用于根据所述至少一条文本对所述图片进行命名。

综上所述，本实施例所述的图片处理装置，可以对图片本身直接进行处理，确定图片中的文本候选区域，然后从所述文本候选区域中提取得到文本区域，并对所述文本区域进行解析，得到所述文本区域中包含的文本信息；最后，通过包含在文本信息中的文本对所述图片进行命名。可见，在本实施例中，可以直接将图片中的文本提取出来，并使用提取出的图片本身包含的文本对图片进行命名，因此，图片的名称可以准确地反映出图片的特征，便于与其他图片区分开来，得到的图片名称的识别度高。进一步地，用户可以通过输入关键字，可以直接搜索得到与关键字相匹配的图片名称，进而直接获取搜索得到的图片名称对应的图片，提高了搜索效率，提升了用户体验。

实施例五

参照图6，示出了本发明实施例五中一种图片处理装置的结构示意图。在本实施例中，所述图片处理装置可以包括：

确定模块602，用于确定图片中的文本候选区域。

优选地，所述确定模块602可以包括：第一边缘检测子模块6022，用于对所述图片进行第一边缘检测，得到第一边缘图像。区域确定子模块6024，用于根据所述第一边缘图像确定所述文本候选区域。

其中，所述第一边缘检测子模块6022可以包括：边缘值获取子单元，用于分别获取所述图片中各像素点对应的三原色R、G、B的边缘值；边缘值确定子单元，用于根据获取的图片中各像素点对应的三原色R、G、B的边缘值，确定所述图片中各像素点的边缘值；边缘图像确定子单元，用于根据确定的所述图片中各像素点的边缘值确定所述图片对应的第一边缘图像。进一步地，所述区域确定子模块6024可以包括：填充子单元，用于通过对所述第一边缘图像中的文字的非边缘区域填充，连接所述边缘图像中的断裂文字和/或相邻文字；标记子单元，用于按照设定规则依次查找并标记连通域；其中，所述连通域包括：断裂文字和/或相邻文字的连接区域；区域确定子单元，用于将所述连通域的标记结果确定为所述文本候选区域。

提取模块604，用于从所述文本候选区域中提取得到文本区域。

在本实施例中，所述文本区域中包含有文本信息。其中，所述提取模块604可以包括：第二边缘检测子模块6042，用于对所述文本候选区域进行边缘检测，得到第二边缘图像。宽度值确定子模块6044，用于根据所述第二边缘图像中的各像素点的梯度方向，确定各像素点的笔画宽度值。比较子模块6046，用于将所述各像素点的笔画宽度值分别与预置参数进行比较，得到比较结果。其中，所述预置参数包括：设定长宽比、设定字符大小和设定区域面积中的至少一种。提取子模块6048，根据所述比较结果从所述第二边缘图像中提取得到所述文本区域。

解析模块606，用于对所述文本区域进行解析，得到所述文本区域中包含的文本信息。

在本实施例中，所述文本信息包括至少一条文本。其中，所述解析模块606可以包括：预处理子模块6062，用于对所述文本区域进行预处理，根据预处理的处理结果确定所述文本区域下的各个字符区域；其中，所述预处理包括：中值滤波处理和/或二值化处理。字符获取子模块6064，用于分别获取所述各个字符区域中的文本字符。重组子模块6066，用于根据设定重组规则，将获取的文本字符进行重组，得到所述文本信息。

其中，所述字符获取子模块6064可以包括：字符切分子单元，用于分别对确定的各个字符区域中的字符进行切分，得到多个独立字符；特征值提取子单元，用于分别提取各个独立字符的特征值，并将提取得到的各个独立字符的特征值分别与预置特征值进行匹配；字符确定子单元，用于将与所述预置特征值相匹配的独立字符确定为所述文本字符。进一步地，

命名模块608，用于根据所述至少一条文本对所述图片进行命名。

在本实施例中，所述命名模块608可以包括：第一命名子模块6082，用于加载并显示用于显示所述至少一条文本的提示页面，并根据通过所述提示页面确定的文本对所述图片进行命名。或，第二命名子模块6084，用于从所述至少一条文本中筛选得到与默认配置信息相匹配的文本，并根据筛选得到的与默认配置信息相匹配的文本对所述图片进行命名。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种图片处理方法和装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种图片处理方法，其特征在于，包括：

根据所述至少一条文本对所述图片进行命名。

2.根据权利要求1所述的方法，其特征在于，所述确定图片中的文本候选区域，包括：

对所述图片进行第一边缘检测，得到第一边缘图像；

根据所述第一边缘图像确定所述文本候选区域。

3.根据权利要求2所述的方法，其特征在于，所述对所述图片进行第一边缘检测，得到第一边缘图像，包括：

分别获取所述图片中各像素点对应的三原色R、G、B的边缘值；

根据获取的图片中各像素点对应的三原色R、G、B的边缘值，确定所述图片中各像素点的边缘值；

根据确定的所述图片中各像素点的边缘值确定所述图片对应的第一边缘图像。

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述第一边缘图像确定所述文本候选区域，包括：

通过对所述第一边缘图像中的文字的非边缘区域填充，连接所述边缘图像中的断裂文字和/或相邻文字；

按照设定规则依次查找并标记连通域；其中，所述连通域包括：断裂文字和/或相邻文字的连接区域；

将所述连通域的标记结果确定为所述文本候选区域。

5.根据权利要求1所述的方法，其特征在于，所述从所述文本候选区域中提取得到文本区域，包括：

对所述文本候选区域进行边缘检测，得到第二边缘图像；

根据所述第二边缘图像中的各像素点的梯度方向，确定各像素点的笔画宽度值；

将所述各像素点的笔画宽度值分别与预置参数进行比较，得到比较结果；其中，所述预置参数包括：设定长宽比、设定字符大小和设定区域面积中的至少一种；

根据所述比较结果从所述第二边缘图像中提取得到所述文本区域。

6.根据权利要求1所述的方法，其特征在于，所述对所述文本区域进行解析，得到所述文本区域中包含的文本信息，包括：

对所述文本区域进行预处理，根据预处理的处理结果确定所述文本区域下的各个字符区域；其中，所述预处理包括：中值滤波处理和/或二值化处理；

分别获取所述各个字符区域中的文本字符；

根据设定重组规则，将获取的文本字符进行重组，得到所述文本信息。

7.根据权利要求6所述的方法，其特征在于，所述分别获取所述各个字符区域中的文本字符，包括：

分别对确定的各个字符区域中的字符进行切分，得到多个独立字符；

分别提取各个独立字符的特征值，并将提取得到的各个独立字符的特征值分别与预置特征值进行匹配；

将与所述预置特征值相匹配的独立字符确定为所述文本字符。

8.根据权利要求1所述的方法，其特征在于，所述根据所述至少一条文本对所述图片进行命名，包括：

加载并显示用于显示所述至少一条文本的提示页面，并根据通过所述提示页面确定的文本对所述图片进行命名；

或，

从所述至少一条文本中筛选得到与默认配置信息相匹配的文本，并根据筛选得到的与默认配置信息相匹配的文本对所述图片进行命名。

9.一种图片处理装置，其特征在于，包括：

确定模块，用于确定图片中的文本候选区域；

10.根据权利要求9所述的装置，其特征在于，所述确定模块，包括：

第一边缘检测子模块，用于对所述图片进行第一边缘检测，得到第一边缘图像；

区域确定子模块，用于根据所述第一边缘图像确定所述文本候选区域。

11.根据权利要求10所述的装置，其特征在于，所述第一边缘检测子模块，包括：

边缘值获取子单元，用于分别获取所述图片中各像素点对应的三原色R、G、B的边缘值；

边缘值确定子单元，用于根据获取的图片中各像素点对应的三原色R、G、B的边缘值，确定所述图片中各像素点的边缘值；

边缘图像确定子单元，用于根据确定的所述图片中各像素点的边缘值确定所述图片对应的第一边缘图像。

12.根据权利要求10或11所述的装置，其特征在于，所述区域确定子模块，包括：

填充子单元，用于通过对所述第一边缘图像中的文字的非边缘区域填充，连接所述边缘图像中的断裂文字和/或相邻文字；

标记子单元，用于按照设定规则依次查找并标记连通域；其中，所述连通域包括：断裂文字和/或相邻文字的连接区域；

区域确定子单元，用于将所述连通域的标记结果确定为所述文本候选区域。

13.根据权利要求9所述的装置，其特征在于，所述提取模块，包括：

第二边缘检测子模块，用于对所述文本候选区域进行边缘检测，得到第二边缘图像；

宽度值确定子模块，用于根据所述第二边缘图像中的各像素点的梯度方向，确定各像素点的笔画宽度值；

比较子模块，用于将所述各像素点的笔画宽度值分别与预置参数进行比较，得到比较结果；其中，所述预置参数包括：设定长宽比、设定字符大小和设定区域面积中的至少一种；

提取子模块，根据所述比较结果从所述第二边缘图像中提取得到所述文本区域。

14.根据权利要求9所述的装置，其特征在于，所述解析模块，包括：

预处理子模块，用于对所述文本区域进行预处理，根据预处理的处理结果确定所述文本区域下的各个字符区域；其中，所述预处理包括：中值滤波处理和/或二值化处理；

字符获取子模块，用于分别获取所述各个字符区域中的文本字符；

重组子模块，用于根据设定重组规则，将获取的文本字符进行重组，得到所述文本信息。

15.根据权利要求14所述的装置，其特征在于，所述字符获取子模块，包括：

字符切分子单元，用于分别对确定的各个字符区域中的字符进行切分，得到多个独立字符；

特征值提取子单元，用于分别提取各个独立字符的特征值，并将提取得到的各个独立字符的特征值分别与预置特征值进行匹配；

字符确定子单元，用于将与所述预置特征值相匹配的独立字符确定为所述文本字符。

16.根据权利要求9所述的装置，其特征在于，所述命名模块，包括：

第一命名子模块，用于加载并显示用于显示所述至少一条文本的提示页面，并根据通过所述提示页面确定的文本对所述图片进行命名；

或，

第二命名子模块，用于从所述至少一条文本中筛选得到与默认配置信息相匹配的文本，并根据筛选得到的与默认配置信息相匹配的文本对所述图片进行命名。