CN110321892B

CN110321892B - 一种图片筛选方法、装置及电子设备

Info

Publication number: CN110321892B
Application number: CN201910482362.1A
Authority: CN
Inventors: 殷飞; 王瑞琪; 刘成林; 刘龙; 薛涛; 李玉梅
Original assignee: Tencent Technology Shenzhen Co Ltd; Institute of Automation of Chinese Academy of Science
Current assignee: Tencent Technology Shenzhen Co Ltd; Institute of Automation of Chinese Academy of Science
Priority date: 2019-06-04
Filing date: 2019-06-04
Publication date: 2022-12-13
Anticipated expiration: 2039-06-04
Also published as: CN110321892A

Abstract

本发明公开了一种图片筛选方法、装置及电子设备，其中图片筛选方法包括：获取待筛选图片；将待筛选图片输入文字图片识别模型进行包含文字信息的图片区域的识别处理，得到识别结果；当所述识别结果中存在包含文字信息的图片区域时，选取待筛选图片作为目标图片；其中，所述文字图片识别模型包括基于目标深层神经网络模型输出的特征数据，与所述输出相对应的输入图片以及所述输入图片对应的标签信息进行机器学习确定的浅层神经网络模型。本发明实现了基于具有深层神经网络模型预测能力的浅层神经网络模型即文字图片识别模型进行图片中图片区域是否包含文字信息的识别，不仅大大提高了图片筛选的速度，而且保证了筛选的稳定性和筛选精度。

Description

一种图片筛选方法、装置及电子设备

技术领域

本发明涉及计算机技术领域，特别涉及一种图片筛选方法、装置及电子设备。

背景技术

图片中的文字往往承载了重要信息，而在需要处理的大量图片中往往只有很少一部分图片包含文字信息，为了减小数据处理系统的负担，可以对图片进行过滤以滤除无文字信息的图片，而仅仅处理包含文字信息的图片。

相关技术中，一般基于手工设计的联通区域特征来辨别图片中是否存在包含文字信息的联通区域，由于手工设计的联通区域特征在分类性和鲁棒性上都得不到充分的保证，从而使得相关技术中的图片筛选方法的稳定性以及筛选精度较差；此外，由于确定图片中的联通区域以及联通区域的特征的算法通常比较复杂，从而导致相关技术中的图片筛选方法难以实现快速响应。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种图片筛选方法、装置及电子设备。所述技术方案如下：

一方面，提供了一种图片筛选方法，所述方法包括：

获取待筛选图片；

将所述待筛选图片输入文字图片识别模型进行包含文字信息的图片区域的识别处理，得到识别结果；

当所述识别结果中存在包含文字信息的图片区域时，选取所述待筛选图片作为目标图片；

其中，所述文字图片识别模型包括基于目标深层神经网络模型输出的特征数据，与所述输出相对应的输入图片以及所述输入图片对应的标签信息进行机器学习确定的浅层神经网络模型。

另一方面，提供了一种图片筛选装置，所述装置包括：

第一获取模块，用于获取待筛选图片；

识别模块，用于将所述待筛选图片输入文字图片识别模型进行包含文字信息的图片区域的识别处理，得到识别结果；

选取模块，用于在所述识别结果中存在包含文字信息的图片区域时，选取所述待筛选图片作为目标图片；

进一步的，所述装置还包括模型确定模块，所述模型确定模块包括：

第二获取模块，用于获取所述输入图片以及所述输入图片对应的标签信息，所述标签信息包括所述输入图片中的多个图片区域对应的文字信息标签；

输入模块，用于将所述输入图片分别输入至目标深层神经网络模型和预设浅层神经网络模型；

第一模型训练模块，用于基于所述目标深层神经网络模型输出的特征数据对所述预设浅层神经网络模型进行包含文字信息的图片区域的识别训练，在识别训练中调整所述预设浅层神经网络模型的模型参数至所述预设浅层神经网络模型输出的图片区域的文字信息标签与所述输入图片的标签信息相匹配；其中，所述特征数据包括所述输入图片对应的多个图片区域中每个图片区域包含文字信息的概率；

模型确定子模块，用于将当前模型参数所对应的预设浅层神经网络模型作为所述文字图片识别模型。

进一步的，所述装置还包括：

第二模型训练模块，用于根据所述输入图片以及所述输入图片对应的标签信息对预设深度机器学习模型进行训练，确定所述预设深度学习模型的参数，得到所述目标深层神经网络模型。

进一步的，所述装置还包括：

区域划分模块，用于按照预设划分规则将所述输入图片划分为多个图片区域；

第一确定模块，用于确定每个所述图片区域中文字信息区域的第一区域面积，以及所述图片区域的第二区域面积；

第二确定模块，用于确定所述第一区域面积与所述第二区域面积的面积比值；

标签确定模块，用于根据所述面积比值确定所述图片区域对应的文字信息标签，得到所述多个图片区域对应的文字信息标签。

进一步的，所述区域划分模块包括：

第一区域划分模块，用于按照第一划分规则将所述输入图片划分为第一数量个第一图片区域；

第二区域划分模块，用于按照第二划分规则将所述输入图片划分为第二数量个第二图片区域；

第三确定模块，用于将所述第一数量个第一图片区域和所述第二数量个第二图片区域作为所述多个图片区域。

进一步的，所述预设深度机器学习模型被设置成，包括：

卷积层；以及与所述卷积层连接的最大池化层；以及与所述最大池化层连接的反卷积层；以及与所述反卷积层连接的动态池化层；以及与所述动态池化层连接的第一全连接层；以及与所述第一全连接层连接第二全连接层；以及与所述第二全连接层连接的输出层的神经网络机器学习模型。

进一步的，所述预设浅层神经网络模型被设置成，包括：

卷积层；以及与所述卷积层连接的最大池化层；以及与所述最大池化层连接的动态池化层；以及与所述动态池化层连接的全连接层；以及与所述全连接层连接的输出层的神经网络机器学习模型。

进一步的，所述装置还包括：

图片拆分模块，用于将所述待筛选图片拆分为R、G、B三个颜色通道对应的单通道图片；

计算模块，用于计算每个单通道图片中像素的均值和标准差；

第四确定模块，用于根据所述每个单通道图片中像素的均值和标准差，确定所述待筛选图片的均值和标准差；

归一化模块，用于根据所述待筛选图片的均值和标准差，对所述待筛选图片进行归一化处理。

另一方面，提供了一种电子设备，包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述图片筛选方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述的图片筛选方法。

本发明实施例通过获取待筛选图片，将该待筛选图片输入文字图片识别模型进行包含文字信息的图片区域的识别处理，得到识别结果，当该识别结果中存在包含文字信息的图片区域时，选取上述待筛选图片作为目标图片，其中的文字图片识别模型包括基于目标深层神经网络模型输出的特征数据，与该输出相对应的输入图片以及该输入图片对应的标签信息进行机器学习确定的浅层神经网络模型，从而实现了基于具有深层神经网络模型预测能力的浅层神经网络模型即文字图片识别模型进行图片中图片区域是否包含文字信息的识别，不仅大大提高了图片筛选的速度，而且保证了筛选的稳定性和筛选精度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种图片筛选方法的流程示意图；

图2是本发明实施例提供的文字图片识别模型的确定方法的流程示意图；

图3是本发明实施例提供的确定输入图片对应的标签信息的一种方法流程示意图；

图4A是本发明实施例提供的采用第一划分规则划分输入图片的一种示意图；

图4B是本发明实施例提供的采用第二划分规则划分输入图片的一种示意图；

图5是本发明实施例提供的预设深度机器学习模型的示意图；

图6是本发明实施例提供的预设浅层神经网络模型的示意图；

图7是本发明实施例提供的一种图片筛选装置的结构示意图；

图8是本发明实施例提供的另一种图片筛选装置的结构示意图；

图9是本发明实施例提供的另一种图片筛选装置的结构示意图；

图10是本发明实施例提供的另一种图片筛选装置的结构示意图；

图11是本发明实施例提供的另一种图片筛选装置的结构示意图；

图12是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参考图1，其所示为本发明实施例提供的一种图片筛选方法的流程示意图，该图片筛选方法可应用于本发明实施例的图片筛选装置，该图片筛选装置可配置于电子设备中，该电子设备可以是终端或者服务器。其中，终端可以是智能手机、台式电脑、平板电脑、笔记本电脑等具有各种操作系统的硬件设备。服务器可以包括一个独立运行的服务器，或者分布式服务器，或者由多个服务器组成的服务器集群。

需要说明的是，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图1所示，所述方法可以包括：

S101，获取待筛选图片。

在本说明书实施例中，待筛选图片为待确定是否为包含文字信息的图片。

实际应用中，在获取待筛选图片后还可以对待筛选图片进行预处理，以使得后续的处理均是基于该预处理后的待筛选图片进行。其中，预处理可以包括归一化处理，该归一化处理可以包括以下步骤：

将所述待筛选图片拆分为R、G、B三个颜色通道对应的单通道图片。具体的，可以采用OpenCV(open source computer vision library，开放源代码计算机视觉类库)提供的split函数将待筛选图片分割成R、G、B三个颜色通道对应的单通道图片。

计算每个单通道图片中像素的均值和标准差。具体的，将R通道图片的所有像素求平均值，得到R通道图片的像素均值R-mean，并根据标准差公式计算R通道图片的像素标准差R-std；同理，将G通道图片的所有像素求平均值，得到G通道图片的像素均值G-mean，并根据标准差公式计算G通道图片的像素标准差G-std，将B通道图片的所有像素求平均值，得到B通道图片的像素均值B-mean，并根据标准差公式计算B通道图片的像素标准差B-std。实际应用中，可以采用OpenCV提供的meanStdDev()函数计算图片中像素的均值和标准差。

根据所述每个单通道图片中像素的均值和标准差，确定所述待筛选图片的均值和标准差。具体的，可以根据三个单通道图片对应的均值和标准差计算平均均值和平均标准差，并将该平均均值和平均标准差作为待筛选图片的均值和标准差，即待筛选图片的均值μ＝(R-mean+G-mean+B-mean)/3，待筛选图片的标准差σ＝(R-std+G-std+B-std)/3。

根据所述待筛选图片的均值和标准差，对所述待筛选图片进行归一化处理。具体的，可以基于如下公式进行待筛选图片的归一化处理：x^*＝(x-μ)/σ，其中，x表示待筛选图片的像素。

S103，将所述待筛选图片输入文字图片识别模型进行包含文字信息的图片区域的识别处理，得到识别结果。

在本说明书实施例中，通过文字图片识别模型将待筛选图片划分为多个图片区域，然后文字图片识别模型对每个图片区域进行是否包含文字信息的识别处理，得到识别结果，即识别结果可能是同时包括不包含文字信息的图片区域以及包含文字信息的图片区域，或者只包括不包含文字信息的图片区域，或者只包括包含文字信息的图片区域。

其中，文字图片识别模型包括基于目标深层神经网络模型输出的特征数据，与所述输出相对应的输入图片以及所述输入图片对应的标签信息进行机器学习确定的浅层神经网络模型，即文字图片识别模型是一个浅层神经网络模型，且该浅层神经网络模型具有目标深层神经网络模型的预测能力。

本说明书实施例还提供了上述文字图片识别模型的确定步骤，如图2所示，所述文字图片识别模型的确定步骤可以包括：

S201，获取所述输入图片以及所述输入图片对应的标签信息，所述标签信息包括所述输入图片中的多个图片区域对应的文字信息标签。

实际应用中，在进行神经网络机器学习之前，可以先确定训练数据，在本说明书实施例中，训练数据可以包括输入图片(即样本图片)以及该输入图片对应的标签信息，其中标签信息包括输入图片中的多个图片区域对应的文字信息标签，该文字信息标签用于表征对应的图片区域是包含文字信息的图片区域的概率。例如，若图片区域是包含文字信息的图片区域，可以设置其文字信息标签为1，若图片区域为不包含文字信息的图片区域，可以设置其文字信息标签为0。

本说明书实施例中，在获取所述输入图片对应的标签信息之前，所述方法还可以包括输入图片对应的标签信息的确定步骤，如图3所示，图3是本发明实施例提供的确定输入图片对应的标签信息的一种方法流程示意图，具体的，该可以包括：

S301，按照预设划分规则将所述输入图片划分为多个图片区域。

其中，预设划分规则可以根据实际需要进行设定，可以是一种划分规则，也可以包括多种划分规则，每种划分规则将输入图片划分为不同尺寸的图片区域。

在一个具体实施例中，预设划分规则包括第一划分规则和第二划分规则，相应的，所述按照预设划分规则将所述输入图片划分为多个图片区域可以包括以下步骤：

按照第一划分规则将所述输入图片划分为第一数量个第一图片区域。例如，可以将输入图片划分为等尺寸的9个图片区域。

按照第二划分规则将所述输入图片划分为第二数量个第二图片区域；例如，可以将输入图片划分为等尺寸的25个图片区域。

将所述第一数量个第一图片区域和所述第二数量个第二图片区域作为所述多个图片区域。例如，将上述9个图片区域和25个图片区域进行加和得到34个图片区域，该34个图片区域即为输入图片对应的多个图片区域。

如图4A所示为采用第一划分规则将输入图片划分为9个图片区域，其中的文字信息“好”恰巧位于分布于两个较大的图片区域中即“女”和“子”分别位于不同的大图片区域，根据后续图片区域是否为包含文字信息的图片区域的确定方法，这个图片区域可能最终被确定为均不包含文字信息。而采用图4B所示的第二划分规则将该输入图片划分为25个图片区域时，文字信息“好”分布于一个较小的图片区域，该图片区域可以被确定为包含文字信息的图片区域。

可见，由于输入图片对应的多个图片区域包括基于不同划分规则划分的图片区域，则多个图片区域可以包括多种尺寸的图片区域，从而有利于更好的捕捉图片区域中的文字信息，使得后续标注的图片区域对应的文字信息标签更加准确，进而有利于提高后续图片筛选的准确性和筛选精度。

S303，确定每个所述图片区域中文字信息区域的第一区域面积，以及所述图片区域的第二区域面积。

具体的，可以根据图片区域中文字信息的位置确定各文字信息区域的面积，并将该图片区域中所有文字信息区域的面积之和作为该图片区域中文字信息区域的第一区域面积。同时，计算该图片区域的第二区域面积。

S305，确定所述第一区域面积与所述第二区域面积的面积比值。

具体的，将第一区域面积除以第二区域面积得到一个面积比值，该面积比值可以是分数形式，也可以是百分比形式。

S307，根据所述面积比值确定所述图片区域对应的文字信息标签。

实际应用中，可以设定一个面积比阈值，当面积比值大于该面积比阈值时，可以认为对应的图片区域包含文字信息，则可以确定该图片区域的文字信息标签为1；当面积比值小于或者等于该面积比阈值时，可以认为对应的图片区域不包含文字信息，则可以确定对应的图片区域的文字信息标签0。

其中，面积比阈值可以根据实际需求进行设定，例如，可以设定为5％，一般面积比阈值设定的越大，文字信息标签的准确性越低；反之，面积比阈值设定的越小，文字信息标签的准确性越高。

通过确定每个图片区域对应的文字信息标签，最终可以得到输入图片对应的多个图片区域的文字信息标签。

S203，将所述输入图片分别输入至目标深层神经网络模型和预设浅层神经网络模型。

其中，目标深层神经网络模型为预先训练好的深度机器学习模型，因此，在该步骤S203之前，所述方法还包括深度机器学习模型的训练，该训练具体为：根据所述输入图片以及该输入图片对应的标签信息对预设深度机器学习模型进行包含文字信息的图片区域的识别训练，在识别训练过程中调整预设深度机器学习模型的模型参数至预设深度机器学习模型输出的图片区域的文字信息标签与输入图片的标签信息相匹配，从而确定了该预设深度机器学习模型的参数，得到目标深层神经网络模型。

实际应用中，将输入图片作为输入信息输入至预设深度机器学习模型中，通过预设深度机器学习模型确定输入图片对应的多个图片区域，并获得预设深度机器学习模型输出的该多个图片区域中每个图片区域是包含文字信息的图片区域的概率。将当前预设深度机器学习模型输出的每个图片区域是包含文字信息的图片区域的概率作为第一实际概率，将输入图片的标签信息中对应各图片区域的文字信息标签作为期望概率，根据实际概率和期望概率使用预设的交叉熵损失函数计算第一损失值。其中，预设的交叉熵损失函数可以表示为以下公式(1)：

其中，i表示第i个图片区域，p(i)表示第i个图片区域的期望概率，q(i)表示第i个图片区域的第一实际概率；n表示输入图片对应的图片区域的总数量。

根据上述第一损失值判断当前深度机器学习模型是否收敛，如果收敛，则训练完成，将当前参数对应的深度神经网络模型作为目标深层神经网络模型；如果不收敛，则采用梯度下降法调整当前深度机器学习模型中的参数，得到新的深度机器学习模型，并利用新的深度机器学习模型和输入图片以及该输入图片对应的标签信息继续进行深度训练。

实际应用中，考虑到输入图片对应的标签信息中包含文字信息的图片区域的数量与不包含文字信息的图片区域的数量往往不均等，为了提高训练得到的目标深层神经网络模型的识别精度，本说明书实施例中还可以根据多个图片区域中包含文字信息的图片区域的数量与不包含文字信息的图片区域数量，确定预设的交叉熵损失函数中对应于每个图片区域的损失值的权重，具体的，上述预设的交叉熵损失函数可以表示为以下的公式(2)：

其中，i表示第i个图片区域，ω(i)表示第i个图片区域对应的损失值的权重，p(i)表示第i个图片区域的期望概率，q(i)表示第i个图片区域的第一实际概率；n表示输入图片对应的图片区域的总数量。

在一个具体实施例中，上述预设深度机器学习模型可以包括五层卷积层、对应该五层卷积层的五层最大池化层、三种反卷积层、两种动态池化层、两层全连接层和一层输出层的神经网络机器学习模型。

具体的，卷积层可以对输入图片进行卷积处理，实现对输入图片的特征提取。在一个具体的实施例中，卷积层的卷积核尺寸为3x3，步长为1，步足为1。

具体的，最大池化层可以对上一层的输出进行降采样操作，即返回采样窗口中最大值作为降采样的输出。一方面可以使图像变小，简化计算复杂度；另一方面可以进行特征压缩，提取主要特征。在一个具体的实施例中，最大池化层的卷积核尺寸为2x2，步长为2。

具体的，反卷积层用于提升上一层输出的特征图的尺寸，经过三个反卷积层的作用可以得到输入图片的整图特征表达，进而得到对应输入图片的特征图。在一个具体的实施例中，三个反卷积层的输入不同，其卷积核尺寸依次为1x1、4x4、8x8，步长依次为1、2、4。

具体的，动态池化层在不同的图像要得到相同大小的池化结果时，可以根据图像的大小动态的计算池化窗口的大小和步长。例如，反卷积层输出的图像大小为a*a，需要得到n*n大小的池化结果，可以将步长设定为a/n，池化窗口的大小设定为a-(n-1)*a/n，步足设定为0。在本说明书实施例中，设有两种动态池化层，反卷积后的图像被这两种动态池化层分别动态池化并连接起来，连接起来后的特征图像按照预设划分规则被划分为多个图片区域。其中，上述两种动态池化层可以分别对应3x3和5x5大小的图片区域。通过设置不同尺寸的动态池化层可以获取图片中的多尺度信息，有利于提高模型识别结果的准确性和精度。

具体的，全连接层可以作为上下两层的节点之间的连接层，将上下两层所得到的各节点数据建立连接关系，将输出值送给分类器(如softmax分类器)。

在上述预设深度机器学习模型中，卷积层、反卷积层和全连接层输出的都是上一层输入的线性函数，考虑到在实际应用中数据往往不是线性可分的，可以通过增加激活函数的方式引入非线性因数。即增加线性校正层，以激活函数Relu为例(rectified linearunit，校正线性单元)，具体的，Relu层(线性校正层)是对上一层数据结果进行修正的层，可以将上一层小于0的输入全部变成0后输出，大于0的输出不变。

具体的，输出层可以对每个图片区域的特征进行识别，输出相应的二分类概率，在一个具体的实施例中，输出层可以采用softmax函数进行图片区域是包含文字信息的图片区域的概率输出。

在一个具体的实施例中，如图5所示，上述预设深度机器学习模型可以被设置成，包括：

第一卷积层；以及与所述第一卷积层相连接的第一最大池化层；以及与所述第一最大池化层相连接的第二卷积层；以及与所述第二卷积层相连接的第二最大池化层；以及与所述第二最大池化层相连接的第三卷积层；以及与所述第三卷积层相连接的第三最大池化层；以及与所述第三最大池化层相连接的第四卷积层和第一反卷积层；以及与所述第四卷积层相连接的第四最大池化层；以及与所述第四最大池化层相连接的第五卷积层和第二反卷积层；以及与所述第五卷积层相连接的第五最大池化层；以及与所述第五最大池化层相连接的第三反卷积层；以及与所述三个反卷积层相连接的两种动态池化层；以及与所述两种动态池化层相连接的第一全连接层；以及与所述第一全连接层相连接的第二全连接层；以及与所述第二全连接层连接的输出层的神经网络机器学习模型。其中，第二全连接层的神经元数量可以设定为128。

需要说明的是，上述仅仅是本发明进行目标深层神经网络模型训练所采用的预设深度机器学习模型的一种示例，在实际应用中，还可以结合实际应用需求包括更多或更少的层。

S205，基于所述目标深层神经网络模型输出的特征数据对所述预设浅层神经网络模型进行包含文字信息的图片区域的识别训练，在识别训练中调整所述预设浅层神经网络模型的模型参数至所述预设浅层神经网络模型输出的图片区域的文字信息标签与所述输入图片的标签信息相匹配。

其中，所述特征数据包括所述输入图片对应的多个图片区域中每个图片区域包含文字信息的概率。所述预设浅层神经网络模型相对于前述预设深度机器学习模型具有更为精简的模型结构。

在一个具体的实施例中，如图6所示，所述预设浅层神经网络模型可以被设置成，包括：

第一卷积层(卷积核尺寸为5*5，步长为3)；以及与所述第一卷积层相连接的第一最大池化层；以及与所述第一最大池化层相连接的第二卷积层；以及与所述第二卷积层相连接的第二最大池化层；以及与所述第二最大池化层相连接的第三卷积层；以及与所述第三卷积层相连接的第三最大池化层；以及与所述第三最大池化层相连接的第四卷积层；以及与所述第四卷积层相连接的第四最大池化层；以及与所述第四最大池化层相连接的第五卷积层；以及与所述第五卷积层相连接的第五最大池化层；以及与所述第五最大池化层相连接的第一动态池化层和第六卷积层；以及与所述第六卷积层相连接的第六最大池化层；以及与所述第六最大池化层相连接的第二动态池化层；以及与所述第一动态池化层和第二动态池化层相连接的第一全连接层；以及与所述第一全连接层连接的输出层的神经网络机器学习模型。

其中，第二卷积层至第六卷积层的卷积核尺寸可以设置为3*3，步长设置为1；最大池化层对应的卷积核尺寸可以设置为2*2，步长设置为2。经过第五最大池化层和第六最大池化层处理后的图像不经过反卷积，直接被动态池化层分别动态池化并连接起来，连接起来后的特征图像按照预设划分规则被划分为多个图片区域。其中，上述两种动态池化层可以分别对应3x3和5x5大小的图片区域，第一全连接层的神经元数量可以设定为与图5中目标深层神经网络模型的第二全连接层具有相同数量。通过设置不同尺寸的动态池化层可以获取图片中的多尺度信息，有利于提高模型识别结果的准确性和精度。

在上述预设浅层神经网络模型中，卷积层和全连接层输出的都是上一层输入的线性函数，考虑到在实际应用中数据往往不是线性可分的，可以通过增加激活函数的方式引入非线性因数。即增加线性校正层，以激活函数Relu为例(rectified linear unit，校正线性单元)，具体的，Relu层(线性校正层)是对上一层数据结果进行修正的层，可以将上一层小于0的输入全部变成0后输出，大于0的输出不变。

实际应用中，将输入图片作为输入信息输入至预设浅层神经网络模型中，通过预设浅层神经网络模型确定输入图片对应的多个图片区域，并获得预设浅层神经网络模型输出的该多个图片区域中每个图片区域是包含文字信息的图片区域的第一概率。同时获取目标深层神经网络模型输出的对应多个图片区域中每个图片区域是包含文字信息的图片区域的第二概率。将输入图片的标签信息中对应各图片区域的文字信息标签作为期望概率，根据第一概率、第二概率和期望概率使用预设的损失函数计算第二损失值。其中，预设的损失函数为以下Loss1和Loss2的动态加权和，Loss1可以表示为公式(3)，Loss2可以表示为公式(4)，如下所示：

Loss2＝|q₁(i)-q₂(i))|(4)

则预设的损失函数为：Loss＝β₁*Loss1+β₂*Loss2(5)。

其中，i表示第i个图片区域，p(i)表示第i个图片区域的期望概率，q₁(i)表示第i个图片区域的第一概率；q₂(i)表示第i个图片区域的第二概率；n表示输入图片对应的图片区域的总数量；β₁和β₂为动态的权重值，其可以随着训练过程变化，一般在训练初期β₁<β₂，从而可以使得浅层神经网络拟合深层神经网络，在训练后期β₁>β₂，从而能够更加关注浅层神经网络模型自身的性能。

根据上述第二损失值判断当前浅层神经网络模型是否收敛，如果收敛，则训练完成，将当前参数对应的浅层神经网络模型作为文字图片识别模型；如果不收敛，则采用梯度下降法调整当前浅层神经网络模型中的参数，得到新的浅层神经网络模型，并利用新的浅层神经网络模型和输入图片以及该输入图片对应的标签信息继续进行训练。

实际应用中，考虑到输入图片对应的标签信息中包含文字信息的图片区域的数量与不包含文字信息的图片区域的数量往往不均等，为了提高训练得到的文字图片识别模型的识别精度，本说明书实施例中还可以根据多个图片区域中包含文字信息的图片区域的数量与不包含文字信息的图片区域数量，确定损失函数Loss1中对应于每个图片区域的损失值的权重，具体的，上述Loss1可以表示为以下的公式(6)：

其中，i表示第i个图片区域，ω(i)表示第i个图片区域对应的损失值的权重。

在一个具体的实施例中，为了让文字图片识别模型能够拥有与目标深层神经网络模型同等程度的特征表达，上述预设的损失函数中的q₂(i)可以为图5中目标深层神经网络模型的第二全连接层的输出，q₁(i)可以为图6中浅层神经网络模型的第一全连接层的输出。

S207，将当前模型参数所对应的预设浅层神经网络模型作为所述文字图片识别模型。

本发明实施例通过目标深层神经网络模型与预设浅层神经网络模型的联合训练得到文字图片识别模型，使得该文字图片识别模型在更加精简的模型结构的基础上，拥有了目标深层神经网络模型的优越预测能力，从而在提高文字图片识别模型计算速度的基础上保证了该文字图片识别模型的识别精度。

S105，当所述识别结果中存在包含文字信息的图片区域时，选取所述待筛选图片作为目标图片。

本说明书实施例中，对文字图片识别模型的识别结果进行包含文字信息的图片区域的查找，若识别结果中存在包含文字信息的图片区域，则可以确定对应的待筛选图片为包含文字信息的图片，可以将其选取出作为目标图片。

由本发明实施例的上述技术方案可见，本发明实施例通过获取待筛选图片，将该待筛选图片输入文字图片识别模型进行包含文字信息的图片区域的识别处理，得到识别结果，当该识别结果中存在包含文字信息的图片区域时，选取对应的待筛选图片作为目标图片，其中的文字图片识别模型包括基于目标深层神经网络模型输出的特征数据，与该输出相对应的输入图片以及该输入图片对应的标签信息进行机器学习确定的浅层神经网络模型，从而实现了基于具有深层神经网络模型预测能力的浅层神经网络模型即文字图片识别模型进行图片中图片区域是否包含文字信息的识别，不仅大大提高了图片筛选的速度，而且保证了筛选的稳定性和筛选精度。

与上述几种实施例提供的图片筛选方法相对应，本发明实施例还提供一种图片筛选装置，由于本发明实施例提供的图片筛选装置与上述几种实施例提供的图片筛选方法相对应，因此前述图片筛选方法的实施方式也适用于本实施例提供的图片筛选装置，在本实施例中不再详细描述。

请参阅图7，其所示为本发明实施例提供的一种图片筛选装置的结构示意图，如图7所示，该装置可以包括：

第一获取模块710，用于获取待筛选图片；

识别模块720，用于将所述待筛选图片输入文字图片识别模型进行包含文字信息的图片区域的识别处理，得到识别结果；

选取模块730，用于在所述识别结果中存在包含文字信息的图片区域时，选取所述待筛选图片作为目标图片；

在一些实施例中，如图8所示，该装置还可以包括：模型确定模块740。

所述模型确定模块740可以包括：

在另一些实施例中，如图9所示，该装置还可以包括：

第二模型训练模块750，用于根据所述输入图片以及所述输入图片对应的标签信息对预设深度机器学习模型进行训练，确定所述预设深度学习模型的参数，得到所述目标深层神经网络模型。

在另一些实施例中，如图10所示，该装置还可以包括：

区域划分模块760，用于按照预设划分规则将所述输入图片划分为多个图片区域；

第一确定模块770，用于确定每个所述图片区域中文字信息区域的第一区域面积，以及所述图片区域的第二区域面积；

第二确定模块780，用于确定所述第一区域面积与所述第二区域面积的面积比值；

标签确定模块790，用于根据所述面积比值确定所述图片区域对应的文字信息标签，得到所述多个图片区域对应的文字信息标签。

在一些实施例中，所述区域划分模块760可以包括：

在一些实施例中，所述预设深度机器学习模型可以被设置成，包括：

在一些实施例中，所述预设浅层神经网络模型可以被设置成，包括：

在另一些实施例中，如图11所示，该装置还可以包括：

图片拆分模块1110，用于将所述待筛选图片拆分为R、G、B三个颜色通道对应的单通道图片1120；

计算模块1130，用于计算每个单通道图片中像素的均值和标准差；

第四确定模块1140，用于根据所述每个单通道图片中像素的均值和标准差，确定所述待筛选图片的均值和标准差；

归一化模块1150，用于根据所述待筛选图片的均值和标准差，对所述待筛选图片进行归一化处理。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

本发明实施例的图片筛选装置通过获取待筛选图片，将该待筛选图片输入文字图片识别模型进行包含文字信息的图片区域的识别处理，得到识别结果，当该识别结果中存在包含文字信息的图片区域时，选取上述待筛选图片作为目标图片，其中的文字图片识别模型包括基于目标深层神经网络模型输出的特征数据，与该输出相对应的输入图片以及该输入图片对应的标签信息进行机器学习确定的浅层神经网络模型，从而实现了基于具有深层神经网络模型预测能力的浅层神经网络模型即文字图片识别模型进行图片中图片区域是否包含文字信息的识别，不仅大大提高了图片筛选的速度，而且保证了筛选的稳定性和筛选精度。

本发明实施例提供了一种电子设备，该电子设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的图片筛选方法。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及图片筛选。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本发明实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行，即上述电子机设备可以包括移动终端、计算机终端、服务器或者类似的运算装置。以运行在服务器上为例，图12是本发明实施例提供的一种图片筛选方法的服务器的硬件结构框图。如图12所示，该服务器1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，CPU)1210(处理器1210可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器830，一个或一个以上存储应用程序1223或数据1222的存储介质1220(例如一个或一个以上海量存储设备)。其中，存储器1230和存储介质1220可以是短暂存储或持久存储。存储在存储介质1220的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1210可以设置为与存储介质1220通信，在服务器1200上执行存储介质1220中的一系列指令操作。服务器1200还可以包括一个或一个以上电源1260，一个或一个以上有线或无线网络接口1250，一个或一个以上输入输出接口1240，和/或，一个或一个以上操作系统1221，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

输入输出接口1240可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1200的通信供应商提供的无线网络。在一个实例中，输入输出接口1240包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口1240可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图12所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器1200还可包括比图12中所示更多或者更少的组件，或者具有与图12所示不同的配置。

本发明的实施例还提供了一种计算机可读存储介质，所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种图片筛选方法相关的至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的图片筛选方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

由上述本发明提供的图片筛选方法、装置、电子设备或存储介质的实施例可见，本发明通过具有深层神经网络模型预测能力的浅层神经网络模型即文字图片识别模型进行图片中图片区域是否包含文字信息的识别，不仅大大提高了图片筛选的速度，而且保证了筛选的稳定性和筛选精度。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图片筛选方法，其特征在于，所述方法包括：

获取待筛选图片；

其中，所述文字图片识别模型包括基于目标深层神经网络模型输出的特征数据，与所述输出相对应的输入图片以及所述输入图片对应的标签信息进行机器学习确定的浅层神经网络模型；

其中，所述输入图片的标签信息包括所述输入图片中的多个图片区域对应的文字信息标签，所述输入图片的标签信息通过以下步骤确定：

按照预设划分规则将所述输入图片划分为多个图片区域；

确定每个所述图片区域中文字信息区域的第一区域面积，以及所述图片区域的第二区域面积；

确定所述第一区域面积与所述第二区域面积的面积比值；

根据所述面积比值确定所述图片区域对应的文字信息标签，得到所述多个图片区域对应的文字信息标签。

2.根据权利要求1所述的图片筛选方法，其特征在于，所述文字图片识别模型的确定包括：

获取所述输入图片以及所述输入图片对应的标签信息；

将所述输入图片分别输入至目标深层神经网络模型和预设浅层神经网络模型；

基于所述目标深层神经网络模型输出的特征数据对所述预设浅层神经网络模型进行包含文字信息的图片区域的识别训练，在识别训练中调整所述预设浅层神经网络模型的模型参数至所述预设浅层神经网络模型输出的图片区域的文字信息标签与所述输入图片的标签信息相匹配；其中，所述特征数据包括所述输入图片对应的多个图片区域中每个图片区域包含文字信息的概率；

将当前模型参数所对应的预设浅层神经网络模型作为所述文字图片识别模型。

3.根据权利要求2所述的图片筛选方法，其特征在于，在将所述输入图片分别输入至目标深层神经网络模型和预先构建的浅层神经网络模型之前，所述方法还包括：

根据所述输入图片以及所述输入图片对应的标签信息对预设深度机器学习模型进行训练，确定所述预设深度学习模型的参数，得到所述目标深层神经网络模型。

4.根据权利要求1所述的图片筛选方法，其特征在于，所述按照预设划分规则将所述输入图片划分为多个图片区域包括：

按照第一划分规则将所述输入图片划分为第一数量个第一图片区域；

按照第二划分规则将所述输入图片划分为第二数量个第二图片区域；

将所述第一数量个第一图片区域和所述第二数量个第二图片区域作为所述多个图片区域。

5.根据权利要求3所述的图片筛选方法，其特征在于，所述预设深度机器学习模型被设置成，包括：

6.根据权利要求3所述的图片筛选方法，其特征在于，所述浅层神经网络模型被设置成，包括：

7.根据权利要求1所述的图片筛选方法，其特征在于，在获取所述待筛选图片之后，所述方法还包括：

将所述待筛选图片拆分为R、G、B三个颜色通道对应的单通道图片；

计算每个单通道图片中像素的均值和标准差；

根据所述每个单通道图片中像素的均值和标准差，确定所述待筛选图片的均值和标准差；

根据所述待筛选图片的均值和标准差，对所述待筛选图片进行归一化处理。

8.一种图片筛选装置，其特征在于，所述装置包括：

第一获取模块，用于获取待筛选图片；

按照预设划分规则将所述输入图片划分为多个图片区域；

确定所述第一区域面积与所述第二区域面积的面积比值；

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1～7中任一项所述的图片筛选方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1～7中任一项所述的图片筛选方法。