CN108959462B

CN108959462B - 图像处理方法和装置、电子设备、计算机可读存储介质

Info

Publication number: CN108959462B
Application number: CN201810628456.0A
Authority: CN
Inventors: 陈岩
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2018-06-19
Filing date: 2018-06-19
Publication date: 2021-04-23
Anticipated expiration: 2038-06-19
Also published as: CN108959462A

Abstract

本申请涉及一种图像处理方法和装置、电子设备、计算机可读存储介质。所述方法包括：对图像进行检测，得到图像的场景标签，当图像的场景标签中包含文本标签时，识别文本标签对应的文本内容，根据文本内容查询对应的文本来源。上述方法中，可以根据图像检测结果识别图像中的文本内容并查询对应的文本来源，可以提高文本来源的查询效率。

Description

图像处理方法和装置、电子设备、计算机可读存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种图像处理方法和装置、电子设备、计算机可读存储介质。

背景技术

随着计算机技术的快速发展，信息检索的技术越来越成熟。当人们在浏览文章或观看影视节目，想了解文章或影视节目中所引用文本的文本来源时，可以在搜索网站等互联网工具中输入文本内容，通过互联网查询到文本的来源。

然而，传统方法中，存在文本来源查询效率低的问题。

发明内容

本申请实施例提供一种图像处理方法、装置、电子设备、计算机可读存储介质，可以提高文本来源查询效率。

一种图像处理方法，包括：

对图像进行检测，得到所述图像的场景标签；

当所述图像的场景标签中包含文本标签时，识别所述图像中文本标签对应的文本内容；

根据所述文本内容查询对应的文本来源。

一种文本处理装置，包括：

图像检测模块，用于对图像进行检测，得到所述图像的场景标签；

文本识别模块，用于当所述图像的场景标签中包含文本标签时，识别所述图像中文本标签对应的文本内容；

查询模块，用于根据所述文本内容查询对应的文本来源。

一种电子设备，包括存储器及处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

对图像进行检测，得到所述图像的场景标签；

根据所述文本内容查询对应的文本来源。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如下步骤：

对图像进行检测，得到所述图像的场景标签；

根据所述文本内容查询对应的文本来源。

上述图像处理方法和装置、电子设备、计算机可读存储介质，通过对图像进行检测，得到图像的场景标签，当图像的场景标签中包含文本标签时，识别文本标签对应的文本内容，根据文本内容查询对应的文本来源。由于可以根据图像检测结果识别图像中的文本内容并查询对应的文本来源，可以提高文本来源的查询效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中电子设备的内部结构示意图；

图2为一个实施例中图像处理方法的流程图；

图3为一个实施例中对图像进行场景检测的流程图；

图4为一个实施例中神经网络的架构示意图；

图5为一个实施例中确定图像场景标签的流程图；

图6为一个实施例中识别图像中文本内容的流程图；

图7为一个实施例中查询图像中文本内容对应的文本来源的流程图；

图8为一个实施例中图像处理装置的结构框图；

图9为一个实施例中图像处理电路的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中电子设备的内部结构示意图。如图1所示，该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该处理器用于提供计算和控制能力，支撑整个电子设备的运行。存储器用于存储数据、程序等，存储器上存储至少一个计算机程序，该计算机程序可被处理器执行，以实现本申请实施例中提供的适用于电子设备的无线网络通信方法。存储器可包括非易失性存储介质及内存储器。非易失性存储介质存储有操作系统和计算机程序。该计算机程序可被处理器所执行，以用于实现以下各个实施例所提供的一种图像处理方法。内存储器为非易失性存储介质中的操作系统计算机程序提供高速缓存的运行环境。网络接口可以是以太网卡或无线网卡等，用于与外部的电子设备进行通信。该电子设备可以是手机、平板电脑或者个人数字助理或穿戴式设备等。

图2为一个实施例中图像处理方法的流程图。本实施例中的图像处理方法，以运行于图1中的电子设备上为例进行描述。如图2所示，图像处理方法包括步骤202至步骤206。

步骤202，对图像进行检测，得到图像的场景标签。

图像是指电子设备通过摄像头采集的图像。在一个实施例中，图像也可以是存储在电子设备本地的图像，还可以是电子设备从网络下载的图像等。具体地，对图像进行场景识别，可以根据VGG(Visual Geometry Group)、CNN(Convolutional Neural Network)、SSD(single shot multibox detector)、决策树(Decision Tree)等深度学习算法训练场景识别模型，根据场景识别模型对图像进行场景识别。场景识别模型一般包括输入层、隐层和输出层；输入层用于接收图像的输入；隐层用于对接收到的图像进行处理；输出层用于输出对图像处理的最终结果即输出图像的场景识别结果。

图像的场景可以是风景、海滩、蓝天、绿草、雪景、烟火、聚光灯、文本、人像、婴儿、猫、狗、美食等。图像的场景标签是指图像的场景分类标记。具体地，电子设备可以将图像的场景识别结果确定图像的场景标签。例如，当图像的场景识别结果为蓝天时，则图像的场景标签为蓝天。电子设备可以根据场景识别模型对电子设备的图像进行场景识别，并根据场景识别结果确定图像的场景标签。

步骤204，当图像的场景标签中包含文本标签时，识别图像中文本标签对应的文本内容。

图像的场景标签中包含的文本标签可以是一个或多个。图像的场景标签中包含文本标签是指图像的拍摄内容中包含有文字。文本内容是指对图像的拍摄内容中的文字进行提取得到的。当图像的场景标签中包含文本标签时，电子设备可以采用文字识别技术如OCR(Optical Character Recognition，光学字符识别)对图像进行文字识别。具体地，电子设备可以获取图像中文本标签对应的文本区域后，再根据文字识别算法进行文字识别。当图像的场景标签中包含多个文本标签时，电子设备可以获取对应的多个文本区域，并对各个文本区域进行文字识别得到多个文本内容。

步骤206，根据文本内容查询对应的文本来源。

文本来源是指文本内容的出处。具体地，文本来源可以是文本内容对应的文章的标题，也可以是作者，还可以是文本内容对应的文章的发行刊物等，还可以是前述三者的结合等不限于此。例如，当文本内容为“低头思故乡”时，对应的文本来源可以是标题：静夜思，作者：李白。电子设备根据文本内容查询对应的文本来源，具体地，电子设备可以预先存储预存文本及对应的文本来源，根据图像的文本内容查询预存文本中包含该文本内容的预存文本对应的文本来源作为该文本内容的文本来源；电子设备也可以将文本内容上传到服务器中，获取由服务器查询的文本内容对应的文本来源等。

本申请提供的实施例中，通过对图像进行检测，得到图像的场景标签，当图像的场景标签中包含文本标签时，识别文本标签对应的文本内容，根据文本内容查询对应的文本来源，不需要手动将图像中的文本内容输入到搜索网站中进行搜索，可以提高文本来源的查询效率。

如图3所示，在一个实施例中，提供的图像处理方法对图像进行检测，得到图像的场景标签的过程，具体包括：

步骤302，对图像进行分类检测，得到图像的分类标签。

电子设备可以对图像进行场景分类识别，获取图像的分类标签。具体地，电子设备可以采用图像分类技术对图像进行识别。电子设备可预存有多个分类标签对应的图像特征信息，将需要进行识别的图像中的图像特征信息与预存的图像特征信息进行匹配，获取匹配成功的图像特征信息对应的分类标签作为图像的分类标签。电子设备中预存的分类标签可包括：风景、海滩、蓝天、绿草、雪景、夜景、黑暗、逆光、日落、烟火、聚光灯、室内、微距、文本、人像、婴儿、猫、狗、美食等。

步骤304，对图像进行目标检测，得到图像的目标标签。

电子设备对图像进行目标检测，可将图像中图像特征信息与预存的目标标签对应的特征信息进行匹配，获取匹配成功的特征信息对应的目标标签作为图像的目标标签。上述电子设备中预存的目标标签可包括：人像、婴儿、猫、狗、美食、文本、蓝天、绿草、沙滩、烟火等。电子设备在对待检测图像进行目标检测时，若上述待检测图像中仅存在一个目标标签，则将上述目标标签作为图像的目标标签；若电子设备在对待检测图像进行目标检测时，若上述待检测图像中存在多个目标标签，则电子设备可从多个目标标签中选取一个或多个作为目标标签。其中，电子设备可从多个目标标签中选取对应的目标区域面积较大的目标标签作为图像的目标标签；电子设备也可从多个目标标签中选取对应的目标区域清晰度较高的目标标签作为图像的目标标签等。

步骤306，将分类标签和目标标签作为图像的场景标签。

电子设备可以将分类标签和目标标签均作为图像的场景标签。具体地，当前景区域与背景区域的场景识别结果相同时，则电子设备可以根据图像背景区域的场景识别结果确定图像的场景标签；当图像没有背景区域即没有分类标签时，将目标标签作为图像的场景标签；当图像没有前景区域即没有目标标签时，电子设备将分类标签作为图像的场景标签。例如，在一张拍摄内容只为草地的图像中，分类标签和目标标签都为绿草，则图像的场景标签为绿草；若草地上有其他物体例如猫，则图像的场景标签为绿草和猫。

在一个实施例中，电子设备还可以训练可同时实现场景分类和目标检测的神经网络。具体地，在神经网络训练过程中，可以将包含有至少一个背景训练目标和前景训练目标的训练图像输入到神经网络中，神经网络根据背景训练目标和前景训练目标进行特征提取，对背景训练目标进行检测得到第一预测置信度，根据第一预测置信度和第一真实置信度得到第一损失函数，对前景训练目标进行检测得到第二预测置信度，根据第二预测置信度和第二真实置信度得到第二损失函数，根据第一损失函数和第二损失函数得到目标损失函数，对神经网络的参数进行调整，使得训练的神经网络后续可同时识别出场景分类和目标分类，从而得到可以同时对图像的前景区域和背景区域进行检测的神经网络。置信度是被测量参数的测量值的可信程度。该第一真实置信度表示在该训练图像中预先标注的背景图像所属指定图像类别的置信度。第二真实置信度表示在该训练图像中预先标注的前景目标所属指定目标类别的置信度。

在一个实施例中，上述神经网络包括至少一个输入层、基础网络层、分类网络层、目标检测网络层和两个输出层，该两个输出层包括与该分类网络层级联的第一输出层和与该目标检测网络层级联的第二输出层；其中，在训练阶段，该输入层用于接收该训练图像，该第一输出层用于输出该分类网络层检测的背景图像所属指定场景类别的第一预测置信度；该第二输出层用于输出该目标检测网络层检测的每个预选的默认边界框所属相对于指定目标所对应的真实边界框的偏移量参数和所属指定目标类别的第二预测置信度。图4为一个实施例中神经网络的架构示意图。如图4所示，神经网络的输入层接收带有图像类别标签的训练图像，通过基础网络(如VGG网络)进行特征提取，并将提取的图像特征输出给特征层，由该特征层对图像进行类别检测得到第一损失函数，对前景目标根据图像特征进行目标检测得到第二损失函数，对前景目标根据前景目标进行位置检测得到位置损失函数，将第一损失函数、第二损失函数和位置损失函数进行加权求和得到目标损失函数。神经网络包括数据输入层、基础网络层、分类网络层、目标检测网络层和两个输出层。数据输入层用于接收原始图像数据。基础网络层对输入层输入的图像进行预处理以及特征提取。该预处理可包括去均值、归一化、降维和白化处理。去均值是指将输入数据各个维度都中心化为0，目的是将样本的中心拉回到坐标系原点上。归一化是将幅度归一化到同样的范围。白化是指对数据各个特征轴上的幅度归一化。图像数据进行特征提取，例如利用VGG16的前5层卷积层对原始图像进行特征提取，再将提取的特征输入到分类网络层和目标检测网络层。在分类网络层可采用如Mobilenet网络的深度卷积、点卷积对特征进行检测，然后输入到输出层得到图像场景分类所属指定图像类别的第一预测置信度，然后根据第一预测置信度与第一真实置信度求差得到第一损失函数；在目标检测网络层可采用如SSD网络，在VGG16的前5层的卷积层后级联卷积特征层，在卷积特征层使用一组卷积滤波器来预测指定目标类别所对应的预选默认边界框相对于真实边界框的偏移量参数和指定目标类别所对应的第二预测置信度。感兴趣区域为预选默认边界框的区域。根据偏移量参数构建位置损失函数，根据第二预测置信度与第二真实置信度的差异得到第二损失函数。将第一损失函数、第二损失函数和位置损失函数加权求和得到目标损失函数，根据目标损失函数采用反向传播算法调整神经网络的参数，对神经网络进行训练。

采用训练好的神经网络对图像进行识别时，神经网络输入层接收输入的图像，提取图像的特征，输入到分类网络层进行图像分类识别，在第一输出层通过softmax分类器输出背景图像所属各个指定场景类别的置信度，选取置信度最高且超过置信度阈值的图像分类作为该图像的背景图像所属的分类标签。将提取的图像的特征输入到目标检测网络层进行前景目标检测，在第二输出层通过softmax分类器输出前景目标所属指定目标类别的置信度及对应的位置，选取置信度最高且超过置信度阈值的目标类别作为该图像中前景目标所属的目标标签，并输出该目标标签对应的位置。将分类标签和目标标签作为图像的场景标签。

如图5所示，在一个实施例中，提供的图像处理方法还包括：

步骤502，获取图像中目标标签对应的目标区域。

图像中目标标签可以是1个或多个，电子设备可以获取图像中所有目标标签对应的目标区域。目标标签的目标区域是电子设备根据训练的目标检测模型对图像进行目标检测时，输出的目标标签对应的位置。目标检测模型可以是采用SSD算法、VGG深度网络、CNN神经网络等算法或者其结合训练得到的。

步骤504，当目标区域的面积与图像的面积的比值超过阈值时，将目标标签作为图像的场景标签。

电子设备可以根据目标区域在图像中的位置检测目标区域的面积。图像的面积可以由图像的高度和宽度计算得到。具体地，电子设备可以直接读取电子设备存储的图像的高度和宽度，计算得到图像的面积。阈值可以根据实际需求来确定，例如可以是05、0.6、0.7等不限于此。

在日常生活中，人们对目标物体拍摄时，会拉近目标物体与摄像头之间的距离，提高目标物体在图像中的占比，突出图像中的目标物体。因此，当图像中目标区域的面积与图像的面积超过阈值时，电子设备可以判定图像的拍摄主体处于目标区域中，从而将目标区域对应的目标标签作为图像的场景标签；相对地，当目标标签的面积与图像的面积的比值小于阈值时，电子设备可以将图像的分类标签作为图像的场景标签，可以提高图像场景标签的准确性。

如图6所示，在一个实施例中，提供的图像处理方法中当图像的场景标签中包含文本标签时，识别图像中文本标签对应的文本内容的过程还包括步骤602至步骤606。具体包括：

步骤602，获取图像中文本标签对应的文本区域。

神经网络等图像检测模型对图像进行检测后可以输出图像的场景标签及场景标签对应的位置。图像的场景标签可以是1个或多个，电子设备可以获取图像中文本标签对应的文本区域，对应地，文本标签对应的文本区域也可以是1个或多个。例如，当图像中包含文本标签、蓝天标签时，则电子设备可以获取文本标签在图像中对应的位置作为文本区域。

步骤604，对文本区域进行文字矫正，得到待识别文本。

电子设备在获取到图像中文本标签对应的文本区域后，可以对文本区域进行裁剪，裁剪后对文本区域进行文字矫正。电子设备可以OpenCV(Open Source ComputerVision Library，开源计算机视觉库)所提供的文字矫正算法对文本区域进行文字矫正。具体地，电子设备可以获取图像中文本区域的灰度图，根据文本区域的灰度图进行傅里叶变换生成傅里叶频谱图，可以采用霍夫(Hough)变化检测频谱图中低频直线，进而得到垂直直线与低频直线之间的夹角，根据该夹角将文本区域进行旋转矫正，从而得到待识别文本。

步骤606，对待识别文本进行文字识别，确定待识别文本的文本内容。

电子设备可以采用OCR(Optical Character Recognition，光学字符识别)技术对待识别文本进行文字识别。具体地，电子设备对待识别文本进行单行分割，对分割得到的单行文字进行OCR文字识别，获取单行文字的灰度图并进行二值化处理后得到二值化图，通过PCA(Principal Components Analysis，主成分分析)或LBP(Local Binary Patterns，线性反投影算法)算法提取二值化图的特征，最后通过分类器如SVM(Support Vector Machine，支持向量机)识别出单个文字，从而得到由多个文字组成的文本内容。电子设备可以采用投影直方图对待识别文本进行单行分割。

电子设备获取图像中文本标签对应的文本区域，对文本区域进行文字矫正后得到待识别文本，对待识别文本进行文字识别，得到图像中的文本内容，由于只对文本区域进行识别，并对文字进行矫正后再识别，可以提高文字识别的效率和准确性。

如图7所示，在一个实施例中，提供的图像处理方法中根据文本内容查询对应的文本来源的过程包括：

步骤702，将文本内容与预存文本进行匹配，将匹配度最高的预存文本作为目标文本。

预存文本可以是存储在电子设备数据库或服务器数据库中的文本信息。具体地，每一个预存文本都有相对应的文本来源，电子设备在可以根据预存文本获取与预存文本对应的文本来源。电子设备将文本内容与预存文本进行匹配，具体地，电子设备可以将数据库中的预存文本逐一与文本内容进行匹配，获取各个预存文本与文本内容的匹配度，从中获取匹配度最高的预存文本作为目标文本，则该目标文本与预存文本的匹配度最高；电子设备还可以设置匹配度阈值，获取匹配度最高且超过匹配度阈值的预存文本作为目标文本。

步骤704，获取目标文本对应的文本来源。

步骤706，将目标文本对应的文本来源作为文本内容对应的文本来源。

电子设备确定了与图像中的文本内容相匹配的目标文本后，可以根据数据库中存储的预设文本与文本来源的对应的关系，获取目标文本对应的文本来源，将目标文本对应的文本来源作为文本来源对应的文本来源。例如，当电子设备中存储有预设文本为歌曲青花瓷的歌词，对应的文本来源为歌曲青花瓷，歌手周杰伦时，若图像中的文本内容为该歌词的一部分例如可以“天青色等烟雨”，则电子设备可以将歌曲青花瓷的歌词作为该文本内容对应的目标文本，并获取该目标文本对应的文本来源即歌曲青花瓷，歌手周杰伦作为该文本内容的文本来源。

在一个实施例中，提供的图像处理方法还包括：在图像中展示文本内容对应的文本来源。

具体地，电子设备可以将文本来源展示在图像中文本区域的周围的任意区域。根据人们的阅读习惯，电子设备还可以将文本来源展示在文本区域右边的区域。在一个实施例中，电子设备还可以在图像中文本区域所在位置添加来源标识，从而电子设备可以接收对来源标识的触发指令，根据触发指令展示文本内容对应的文本来源，电子设备根据触发指令展示文本来源，可以通过展示窗口来展示文本来源，也可以直接在图像中文本区域的周围展示对应的文本来源等，不限于此。

在一个实施例中，提供的图像处理方法还包括：获取对文本来源的触发指令；根据触发指令获取与文本来源对应的目标文本。

触发指令可以是用户通过点击显示屏上的按钮生成的，也可以是用户通过按压触摸屏上的控件生成的，电子设备可以获取对文本来源的触发指令。电子设备可以根据触发指令从电子设备的数据库或服务器数据库中获取与文本来源相对应的目标文本。电子设备在获取到目标文本后，可以通过展示窗口展示文本来源对应的目标文本。

在一个实施例中，电子设备还可以在没有查询到文本内容对应的文本来源时，在图像的文本区域处生成搜索标识，当接收到对搜索标识的触发指令时，自动打开搜索网站并根据文本内容进行搜索，从而直接显示搜索的内容，不需要手动输入文字来查询文字的来源，提高文字来源的查询效率。

在一个实施例中，提供了一种图像处理方法，实现该方法的具体步骤如下所述：

首先，电子设备对图像进行检测，得到图像的场景标签。图像是指电子设备通过摄像头采集的图像。在一个实施例中，图像也可以是存储在电子设备本地的图像，还可以是电子设备从网络下载的图像等。电子设备对图像进行场景识别，可以根据VGG、CNN、SSD、决策树等深度学习算法训练场景识别模型。图像的场景可以是风景、海滩、蓝天、绿草、雪景、烟火、聚光灯、文本、人像、婴儿、猫、狗、美食等。电子设备根据场景识别模型对图像进行场景识别，并根据场景识别结果确定图像的场景标签。

可选地，对图像进行分类检测，得到图像的分类标签，对图像进行目标检测，得到图像的目标标签，将分类标签和目标标签作为图像的场景标签。电子设备可以对图像进行场景分类识别，获取图像的分类标签。电子设备可预存有多个分类标签对应的图像特征信息，将需要进行识别的图像中的图像特征信息与预存的图像特征信息进行匹配，获取匹配成功的图像特征信息对应的分类标签作为图像的分类标签。电子设备对图像进行目标检测，可将图像中图像特征信息与预存的目标标签对应的特征信息进行匹配，获取匹配成功的特征信息对应的目标标签作为图像的目标标签。电子设备可以将分类标签和目标标签均作为图像的场景标签。

可选地，电子设备获取图像中目标标签对应的目标区域，当目标区域的面积与图像的面积的比值超过阈值时，将目标标签作为图像的场景标签。图像中目标标签可以是1个或多个，电子设备可以获取图像中所有目标标签对应的目标区域。目标标签的目标区域是电子设备根据训练的目标检测模型对图像进行目标检测时，输出的目标标签对应的位置。图像中目标区域的面积与图像的面积超过阈值时，电子设备可以判定图像的拍摄主体处于目标区域中，从而将目标区域对应的目标标签作为图像的场景标签，可以提高图像场景标签的准确性。

接着，当图像的场景标签中包含文本标签时，电子设备识别图像中文本标签对应的文本内容。当图像的场景标签中包含文本标签时，电子设备可以采用文字识别技术如OCR对图像进行文字识别。具体地，电子设备可以获取图像中文本标签对应的文本区域后，再根据文字识别算法进行文字识别。当图像的场景标签中包含多个文本标签时，电子设备可以获取对应的多个文本区域，并对各个文本区域进行文字识别得到多个文本内容。

可选地，电子设备获取图像中文本标签对应的文本区域，对文本区域进行文字矫正，得到待识别文本，对待识别文本进行文字识别，确定待识别文本的文本内容。电子设备在获取到图像中文本标签对应的文本区域后，可以对文本区域进行裁剪，裁剪后对文本区域进行文字矫正。电子设备可以OpenCV所提供的文字矫正算法对文本区域进行文字矫正。电子设备可以采用OCR技术对矫正后的待识别文本进行文字识别。电子设备对待识别文本进行单行分割，对分割得到的单行文字进行OCR文字识别，获取单行文字的灰度图并进行二值化处理后得到二值化图，通过PCA或LBP算法提取二值化图的特征，最后通过分类器如SVM识别出单个文字，从而得到由多个文字组成的文本内容。

接着，电子设备根据文本内容查询对应的文本来源。文本来源是指文本内容的出处。电子设备根据文本内容查询对应的文本来源，具体地，电子设备可以预先存储预存文本及对应的文本来源，根据图像的文本内容查询预存文本中包含该文本内容的预存文本对应的文本来源作为该文本内容的文本来源；电子设备也可以将文本内容上传到服务器中，通过服务器查询文本内容对应的文本来源等。

可选地，电子设备将文本内容与预存文本进行匹配，将匹配度最高的预存文本作为目标文本，获取目标文本对应的文本来源，将目标文本对应的文本来源作为文本内容对应的文本来源。电子设备可以将数据库中的预存文本逐一与文本内容进行匹配，获取各个预存文本与文本内容的匹配度，从中获取匹配度最高的预存文本作为目标文本，则该目标文本与预存文本的匹配度最高；电子设备还可以设置匹配度阈值，获取匹配度最高且超过匹配度阈值的预存文本作为目标文本。电子设备确定了与图像中的文本内容相匹配的目标文本后，可以根据数据库中存储的预设文本与文本来源的对应的关系，获取目标文本对应的文本来源，将目标文本对应的文本来源作为文本来源对应的文本来源。

可选地，电子设备在图像中展示文本内容对应的文本来源。电子设备可以将文本来源展示在图像中文本区域的周围的任意区域。根据人们的阅读习惯，电子设备还可以将文本来源展示在文本区域右边的区域。可选地，电子设备还可以在图像中文本区域所在位置添加来源标识，从而电子设备可以接收对来源标识的触发指令，根据触发指令展示文本内容对应的文本来源。

可选地，电子设备可以获取对文本来源的触发指令；根据触发指令获取与文本来源对应的目标文本。电子设备可以根据触发指令从电子设备的数据库或服务器数据库中获取与文本来源相对应的目标文本。电子设备在获取到目标文本后，可以通过展示窗口展示文本来源对应的目标文本。

可选地，电子设备还可以在没有查询到文本内容对应的文本来源时，在图像的文本区域处生成搜索标识，当接收到对搜索标识的触发指令时，自动打开搜索网站并根据文本内容进行搜索，从而直接显示搜索的内容，不需要手动输入文字来查询文字的来源，提高文字来源的查询效率。

应该理解的是，虽然图2、3、5-7流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、3、5-7中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

图8为一个实施例的图像处理装置的结构框图。如图8所示，一种图像处理装置，包括：图像检测模块820、文本识别模块840和查询模块860。其中：

图像检测模块820，用于对图像进行检测，得到图像的场景标签。

文本识别模块840，用于当图像的场景标签中包含文本标签时，识别图像中文本标签对应的文本内容。

查询模块860，用于根据文本内容查询对应的文本来源。

在一个实施例中，图像检测模块820还可以用于对图像进行分类检测，得到图像的分类标签，对图像进行目标检测，得到图像的目标标签，将分类标签和目标标签作为图像的场景标签。

在一个实施例中，图像检测模块820还可以用于获取图像中目标标签对应的目标区域，当目标区域的面积与图像的面积的比值超过阈值时，将目标标签作为图像的场景标签。

在一个实施例中，文本识别模块840还可以用于获取图像中文本标签对应的文本区域，对文本区域进行文字矫正，得到待识别文本，对待识别文本进行文字识别，确定待识别文本的文本内容。

在一个实施例中，查询模块860还可以用于将文本内容与预存文本进行匹配，将匹配度最高的预存文本作为目标文本，获取目标文本对应的文本来源，将目标文本对应的文本来源作为文本内容对应的文本来源。

在一个实施例中，提供的一种图像处理装置还包括展示模块880。展示模块880用于在图像中展示文本内容对应的文本来源。

在一个实施例中，查询模块860还可以用于获取对文本来源的触发指令，根据触发指令获取与文本来源对应的目标文本。

上述图像处理装置中各个模块的划分仅用于举例说明，在其他实施例中，可将图像处理装置按照需要划分为不同的模块，以完成上述图像处理装置的全部或部分功能。

关于图像处理装置的具体限定可以参见上文中对于图像处理方法的限定，在此不再赘述。上述图像处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本申请实施例中提供的图像处理装置中的各个模块的实现可为计算机程序的形式。该计算机程序可在终端或服务器上运行。该计算机程序构成的程序模块可存储在终端或服务器的存储器上。该计算机程序被处理器执行时，实现本申请实施例中所描述方法的步骤。

本申请实施例还提供了一种计算机可读存储介质。一个或多个包含计算机可执行指令的非易失性计算机可读存储介质，当所述计算机可执行指令被一个或多个处理器执行时，使得所述处理器执行图像处理方法的步骤。

一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行图像处理方法。

本申请实施例还提供一种电子设备。上述电子设备中包括图像处理电路，图像处理电路可以利用硬件和/或软件组件实现，可包括定义ISP(Image Signal Processing，图像信号处理)管线的各种处理单元。图9为一个实施例中图像处理电路的示意图。如图9所示，为便于说明，仅示出与本申请实施例相关的图像处理技术的各个方面。

如图9所示，图像处理电路包括ISP处理器940和控制逻辑器950。成像设备910捕捉的图像数据首先由ISP处理器940处理，ISP处理器940对图像数据进行分析以捕捉可用于确定和/或成像设备910的一个或多个控制参数的图像统计信息。成像设备910可包括具有一个或多个透镜912和图像传感器914的照相机。图像传感器914可包括色彩滤镜阵列(如Bayer滤镜)，图像传感器914可获取用图像传感器914的每个成像像素捕捉的光强度和波长信息，并提供可由ISP处理器940处理的一组原始图像数据。传感器920(如陀螺仪)可基于传感器920接口类型把采集的图像处理的参数(如防抖参数)提供给ISP处理器940。传感器920接口可以利用SMIA(Standard Mobile Imaging Architecture，标准移动成像架构)接口、其它串行或并行照相机接口或上述接口的组合。

此外，图像传感器914也可将原始图像数据发送给传感器920，传感器920可基于传感器920接口类型把原始图像数据提供给ISP处理器940，或者传感器920将原始图像数据存储到图像存储器930中。

ISP处理器940按多种格式逐个像素地处理原始图像数据。例如，每个图像像素可具有8、10、12或14比特的位深度，ISP处理器940可对原始图像数据进行一个或多个图像处理操作、收集关于图像数据的统计信息。其中，图像处理操作可按相同或不同的位深度精度进行。

ISP处理器940还可从图像存储器930接收图像数据。例如，传感器920接口将原始图像数据发送给图像存储器930，图像存储器930中的原始图像数据再提供给ISP处理器940以供处理。图像存储器930可为存储器装置的一部分、存储设备、或电子设备内的独立的专用存储器，并可包括DMA(Direct Memory Access，直接直接存储器存取)特征。

当接收到来自图像传感器914接口或来自传感器920接口或来自图像存储器930的原始图像数据时，ISP处理器940可进行一个或多个图像处理操作，如时域滤波。处理后的图像数据可发送给图像存储器930，以便在被显示之前进行另外的处理。ISP处理器940从图像存储器930接收处理数据，并对所述处理数据进行原始域中以及RGB和YCbCr颜色空间中的图像数据处理。ISP处理器940处理后的图像数据可输出给显示器970，以供用户观看和/或由图形引擎或GPU(Graphics Processing Unit，图形处理器)进一步处理。此外，ISP处理器940的输出还可发送给图像存储器930，且显示器970可从图像存储器930读取图像数据。在一个实施例中，图像存储器930可被配置为实现一个或多个帧缓冲器。此外，ISP处理器940的输出可发送给编码器/解码器960，以便编码/解码图像数据。编码的图像数据可被保存，并在显示于显示器970设备上之前解压缩。编码器/解码器960可由CPU或GPU或协处理器实现。

ISP处理器940确定的统计数据可发送给控制逻辑器950单元。例如，统计数据可包括自动曝光、自动白平衡、自动聚焦、闪烁检测、黑电平补偿、透镜912阴影校正等图像传感器914统计信息。控制逻辑器950可包括执行一个或多个例程(如固件)的处理器和/或微控制器，一个或多个例程可根据接收的统计数据，确定成像设备910的控制参数及ISP处理器940的控制参数。例如，成像设备910的控制参数可包括传感器920控制参数(例如增益、曝光控制的积分时间、防抖参数等)、照相机闪光控制参数、透镜912控制参数(例如聚焦或变焦用焦距)、或这些参数的组合。ISP控制参数可包括用于自动白平衡和颜色调整(例如，在RGB处理期间)的增益水平和色彩校正矩阵，以及透镜912阴影校正参数。

电子设备根据上述图像处理技术可以实现本申请实施例中所描述的图像处理方法。

本申请所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。合适的非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)，它用作外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种图像处理方法，其特征在于，包括：

对图像进行分类检测，得到所述图像的背景区域所属各个指定场景类别的置信度，选取置信度最高且超过置信度阈值的指定场景分类作为所述图像的背景区域所属的分类标签；

对所述图像进行目标检测，得到所述图像中前景目标所属指定目标类别的置信度，选取置信度最高且超过置信度阈值的指定目标类别作为所述图像中前景目标所属的目标标签；

将所述分类标签和目标标签作为所述图像的场景标签；

当所述图像的场景标签中包含文本标签时，获取所述图像中所述文本标签对应的文本区域；对所述文本区域进行裁剪，对裁剪后的文本区域进行文字矫正，得到待识别文本；对所述待识别文本进行文字识别，确定所述待识别文本的文本内容；

根据所述文本内容查询对应的文本来源，所述文本来源用于表征所述文本内容的出处；

在没有查询到文本内容对应的文本来源时，在所述图像的文本区域处生成搜索标识，当接收到对所述搜索标识的触发指令时，自动打开搜索网站并根据所述文本内容进行搜索，显示搜索的内容。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述图像中文本区域所在位置添加来源标识，接收对所述来源标识的触发指令，根据所述触发指令展示所述文本内容对应的文本来源，根据所述触发指令展示文本来源。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述图像中目标标签对应的目标区域；

当所述目标区域的面积与所述图像的面积的比值超过阈值时，将所述目标标签作为所述图像的场景标签。

4.根据权利要求1所述的方法，其特征在于，所述对裁剪后的文本区域进行文字矫正，得到待识别文本，包括：

获取裁剪后的文本区域的灰度图，根据裁剪后的文本区域的灰度图进行傅里叶变换生成傅里叶频谱图，采用霍夫(Hough)变化检测所述频谱图中低频直线，进而得到垂直直线与所述低频直线之间的夹角，根据所述夹角将裁剪后的文本区域进行旋转矫正，从而得到待识别文本。

5.根据权利要求1所述的方法，其特征在于，所述根据所述文本内容查询对应的文本来源，包括：

将所述文本内容与预存文本进行匹配，将匹配度最高的预存文本作为目标文本；

获取所述目标文本对应的文本来源；

将所述目标文本对应的文本来源作为所述文本内容对应的文本来源。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述图像中展示所述文本内容对应的文本来源。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

获取对所述文本来源的触发指令；

根据所述触发指令获取与所述文本来源对应的目标文本。

8.一种文本处理装置，其特征在于，包括：

图像检测模块，用于对图像进行分类检测，得到所述图像的背景区域所属各个指定场景类别的置信度，选取置信度最高且超过置信度阈值的指定场景分类作为所述图像的背景区域所属的分类标签；对所述图像进行目标检测，得到所述图像中前景目标所属指定目标类别的置信度，选取置信度最高且超过置信度阈值的指定目标类别作为所述图像中前景目标所属的目标标签；将所述分类标签和目标标签作为所述图像的场景标签；

文本识别模块，用于当所述图像的场景标签中包含文本标签时，获取所述图像中所述文本标签对应的文本区域；对所述文本区域进行裁剪，对裁剪后的文本区域进行文字矫正，得到待识别文本；对所述待识别文本进行文字识别，确定所述待识别文本的文本内容；

查询模块，用于根据所述文本内容查询对应的文本来源，所述文本来源用于表征所述文本内容的出处；

展示模块，用于在没有查询到文本内容对应的文本来源时，在所述图像的文本区域处生成搜索标识，当接收到对所述搜索标识的触发指令时，自动打开搜索网站并根据所述文本内容进行搜索，显示搜索的内容。

9.一种电子设备，包括存储器及处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述的图像处理方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。