CN113157963A

CN113157963A - 图像筛选方法、装置电子设备及可读存储介质

Info

Publication number: CN113157963A
Application number: CN202110467303.4A
Authority: CN
Inventors: 王晓明
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-07-23

Abstract

本申请公开了图像筛选方法、装置、电子设备及可读存储介质，属于通信技术领域，所述方法包括：提取目标文件中包含的各图像和目标文本信息，其中，所述目标文本信息包括：文件标题、文件正文首段以及文件正文末段中的至少一个；分别确定各所述图像的图像特征向量和所述目标文本信息的文本特征向量；针对每个所述图像，依据所述图像的图像特征向量和所述文本特征向量，确定所述图像被筛选为目标图像的概率值；依据各所述图像对应的概率值，从各所述图像中筛选出目标图像。

Description

图像筛选方法、装置电子设备及可读存储介质

技术领域

本发明实施例涉及通信技术领域，尤其涉及一种图像筛选方法、装置、电子设备及可读存储介质。

背景技术

目前行业内资讯封面图像大多由人工从资讯的图像集中筛选得到，该种人工筛选资讯封面图像的方法虽然封面图像与资讯内容匹配度高，但是会消耗大量的人力资源、效率低。

为解决人力筛选资讯封面图像存在的上述问题，少数业内人士借助深度学习模型对资讯包含的图像集的图像信息进行分析，筛选出封面图像。该种资讯封面图像筛选方法虽然可节省人力资源、效率高，但是所筛选出的封面图像与资讯内容相关性弱。

发明内容

本申请实施例的目的是提供一种图像筛选方法、装置、电子设备及可读存储介质，能够解决现有技术中存在的咨询封面与内容相关性弱问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种图像筛选方法，其中，所述方法包括：提取目标文件中包含的各图像和目标文本信息，其中，所述目标文本信息包括：文件标题、文件正文首段以及文件正文末段中的至少之一；基于预先训练的多模态模型，分别确定各所述图像的图像特征向量和所述目标文本信息的文本特征向量；针对每个所述图像，依据所述图像的图像特征向量和所述文本特征向量，确定所述图像被筛选为目标图像的概率值；依据各所述图像对应的概率值，从各所述图像中筛选出目标图像。

第二方面，本申请实施例提供了一种图像筛选装置，其中，所述装置包括：提取模块，用于提取目标文件中包含的各图像和目标文本信息，其中，所述目标文本信息包括：文件标题、文件正文首段以及文件正文末段中的至少一个；特征向量确定模块，用于分别确定各所述图像的图像特征向量和所述目标文本信息的文本特征向量；概率确定模块，用于针对每个所述图像，依据所述图像的图像特征向量和所述文本特征向量，确定所述图像被筛选为目标图像的概率值；筛选模块，用于依据各所述图像对应的概率值，从各所述图像中筛选出目标图像。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

本申请实施例中，通过提取目标文件中包含的各图像和目标文本信息；分别确定各图像的图像特征向量和目标文本信息的文本特征向量；针对每个图像，依据图像的图像特征向量和文本特征向量，确定图像被筛选为目标图像的概率值；依据各图像对应的概率值，从各图像中筛选出目标图像，所筛选出的目标图像与文本信息相关性强。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是表示本申请实施例的一种图像筛选方法的步骤流程图；

图2是表示本申请实施例的向量内积原理示意图；

图3是表示本申请实施例的卷积原理示意图；

图4是表示本申请实施例的一种图像筛选装置的结构框图；

图5是表示本申请实施例的一种电子设备的结构框图；

图6是表示本申请实施例的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的图像筛选方法进行详细地说明。

参照图1，示出了本申请实施例的一种图像筛选方法的步骤流程图。

本申请实施例的图像筛选方法包括以下步骤：

步骤101：提取目标文件中包含的各图像和目标文本信息。

其中，目标文本信息包括：文件标题、文件正文首段以及文件正文末段中的至少一个。

目标文件为包含文件标题、文件正文和图像的任意类型的文件，本申请实施例中以目标文件为新闻资讯为例进行说明。新闻资讯中一般包含文件标题、文件正文以及多张图像。根据新闻资讯的特点，资讯标题、资讯正文的第一段会描述整个事件，而最后一段会对事件进行总结并提出观点，因此资讯的标题、正文的首段末段对挑选资讯封面图像的非常重要。故本申请实施例中将文件标题、文件正文首段以及文件正文末段中的至少一个作为目标文本信息。

本申请中，提取目标文件中包含的各图像和目标文本信息，对目标文本信息与各图像的关联性进行分析，最终从各图像中筛选出封面图像。

步骤102：分别确定各图像的图像特征向量和目标文本信息的文本特征向量。

本申请实施例提供的图像筛选方法可由电子设备运行多模态模型实现，也可以由电子设备运行各相关算法模块实现。多模态模型通过大量的目标训练数据训练后，在其收敛度达到预设标准后可对目标文件的目标图像进行预测，预测过程中计算各个图像与目标文件中的目标文本信息的相似度，从而挑选出与目标文件内正文内容关联性最强的目标图像。多模态模型包括：图像解析模块和文本解析模块两大部分，图像解析模块用于对输入多模态模型中的各图像进行解析，得到各图像的图像特征向量，文本解析模块用于对输入多模态模型中的目标文本信息进行分析，得到目标文本信息的文本特征向量。

对于图像的解析说明参照后续对多模态模型训练过程中对训练数据中的图像进行解析的逻辑即可，本申请实施例中对此不再赘述。文本解析模块可使用目前常用的BERT模型，其中，BERT即Bidirectional Encoder Representations from Transformers。

依据目标训练数据对多模态模型进行训练时，可依据目标训练数据中被标记的封面图像和目标文本信息构建成正样本，依据该目标训练数据中的非封面图像和目标文本信息构建成负样本；依据每条目标训练数据构建的正样本和负样本，对预设的多模态模型进行训练，得到训练后的多模态模型。对多模态模型的具体训练过程可参照后续可选实施例中的相关说明。

步骤103：针对每个图像，依据图像的图像特征向量和文本特征向量，确定图像被筛选为目标图像的概率值。

每个图像对应一个概率值，概率值越高说明图像和目标文本信息的关联性越强。

步骤104：依据各图像对应的概率值，从各图像中筛选出目标图像。

依据概率值筛选目标图像时，可将概率值大于第一预设概率值的图像均筛选作为目标图像；也可以仅将概率值最高的图像作为目标图像；还可以依据所需筛选的目标图像数量，筛选出概率值TopN的图像作为目标图像，其中，N为所需筛选的目标图像数量。以目标文件为新闻资讯为例，所筛选出的目标图像可作为该新闻资讯的封面图像。

不仅如此，本申请实施例提供的图像筛选方法，除可筛选出与目标文本信息关联性强的目标图像外，还可以筛选出与目标文本信息关联性弱的图像，以便对关联性弱的图像进行剔除、遮挡等后续处理。关联性弱的图像则为概率值低于第二预设概率值或概率值最低的图像。其中，第二预设概率值小于第一预设概率值。例如：通过筛选弱相关性图像，将新闻资讯中的低质图像从资讯中去除，以提升新闻资讯中图像的质量。

对于依据概率值从图像中筛选出目标图像的方式，可由本领域技术人员根据实际需求进行设置，本申请实施例中对此不做具体限制。

本申请实施例提供的图像筛选方法，通过提取目标文件中包含的各图像和目标文本信息；分别确定各图像的图像特征向量和目标文本信息的文本特征向量；针对每个图像，依据图像的图像特征向量和文本特征向量，确定图像被筛选为目标图像的概率值；依据各图像对应的概率值，从各图像中筛选出目标图像，所筛选出的目标图像与文本信息相关性强。

在一种可选地实施例中，针对每个图像，依据图像的图像特征向量和所述文本特征向量，确定图像被筛选为目标图像的概率值的方式可以如下：

首先，针对每个图像，计算文本特征向量与图像的图像特征向量的内积；

计算两个特征向量的内积，即将两个向量相同维度相同位置的数值相乘再相加。

图2为两个特征向量的内积原理示意图。如图2所示，两个特征向量相同维度相同位置处的数值相乘再相加后得到一个内积。若目标文件包含X个图像，则X个图像的图像特征向量分别与文本特征向量做内积，得到X个内积。

其次，基于第一函数，在目标区间中确定内积对应的数值，基于数值得到图像被筛选为目标图像的概率值。

第一函数用于将内积转换成目标区间中对应的数值，目标区间为(0,1)。第一函数可以为softmax函数，softmax可将各内积映射成为(0,1)的值，各内积转化后的数值之和为1。

基于各数值确定图像被筛选为目标图像的概率值时，可计算数值与1之商，所得商则为数值对应的图像的概率值。例如：目标文件中包含3个图像A、B以及C，图像A、B以及C对应的内积经第一函数转化后对应的数值分别为0.5、0.4和0.1，则图像A、B以及C对应的概率值分别为0.5、0.4和0.1。

第一函数设置可设置在多模态模型的最后一层的全连接层中，这样将各内积输入多模态模型最后一层的全连接层，图文的匹配问题转换成了多分类问题，分类类别为目标文件中图像个数，每个类别对应一个概率值。该种可选地结合图文计算图像对应的概率值的方法，所确定的概率值更加准确。

在一种可选地实施例中，在提取目标文件中包含的各图像和目标文本信息之前，还包括多模态模型训练流程，该可选地多模态模型训练流程包括如下步骤：

步骤一：获取多条训练数据。

其中，每条训练数据包括文本信息、封面图像和非封面图像。所获取的训练数据的条数可由本领域技术人员根据实际需求进行设置，本申请实施例中对此不做具体限制。

训练数据可以包括从预设平台上爬取的新闻资讯，针对每条新闻资讯至少包括文本信息和图像，文本信息包括：资讯标题和正文信息，图像包括：封面图像和非封面图像。新闻资讯中还可以包括作者和日期等信息。

步骤二：对多条训练数据进行筛选，得到目标训练数据。

在对多条训练数据进行筛选，得到目标训练数据时，可将多条训练数据中，文本信息的文字数量小于第一预设值，或图像个数小于第二预设值的第一训练数据筛除，得到目标训练数据。

第一预设值、第二预设值的具体数值可由本领域技术人员根据实际需求进行设置，例如：第一预设值可设置为10、20或者30等，第二预设值可设置为1、2或者3等。

步骤三：针对每条目标训练数据，标记封面图像并从目标训练数据的文本信息中提取第一文本信息。

本步骤中遍历各条目标训练数据，对目标训练数据中的封面图像进行标记，并从目标训练数据中提取第一文本信息。其中，第一文本信息包括：标题、文本信息正文首段以及文本信息正文末段。

根据新闻资讯的特点，资讯标题、资讯正文的第一段会描述整个事件，而最后一段会对事件进行总结并提出观点，因此资讯标题、正文的首段末段对挑选资讯封面图像的非常重要。故提取资讯标题、正文首段以及正文末段作为每条训练数据中有价值的数据，用于对多模态模型进行训练。

步骤四：依据各条训练数据对应的标记后的封面图像、非封面图像和第一文本信息对多模态模型进行训练，得到训练后的多模态模型。

多模态模型训练完成后，可在电子设备中运行执行本申请实施例中所示的图像筛选方法。

该种依据大量的现有新闻资讯训练多模态模型的方式，所训练的多模态模型更加可靠。

多模态模型主要分为两大模块：图像解析模块以及文本解析模块，最后通过内积将这两个模块的特征向量结合起来，构造正负样本对其进行训练。在一种可选地实施例中，依据各条训练数据对应的标记后的封面图像、非封面图像和第一文本信息对多模态模型进行训练，得到训练后的多模态模型的方式包括如下子步骤：

子步骤一：针对每条目标训练数据，提取标记后的封面图像和非封面图像的第一信息与第二信息，基于第一信息和第二信息得到图像特征向量序列。

第一信息为图像的局部信息，例如人物影像、静物影像等。第二信息可以图像的全局信息。根据图像的局部信息和全局信息，可确定图像的特性向量，多个图像的特征向量组成图像特征向量序列。

其中，封面图像对应的特征向量位于图像特征向量序列的首位。

在实际实现过程中，可将每条目标训练数据输入多模态模型的图像解析模块中，通过图像解析模块对图像进行解析得到图像特征向量序列。为了增强多模态模型对图像的解析能力，图像解析模块可结合使用ResNet50以及6层的Transformer Encoder模型，用来提取图像特征向量。

下面以目标训练数据为新闻资讯为例进行说明。提取一条新闻资讯中图像的他图像特征向量的流程包括如下步骤：

S1：读取新闻资讯中每个图像对应的图像数组(3，H，W)，数字3即代表图像的通道数，W，H分布代表图像的宽和高，数组里的值即像素点值。图像数组进入图像解析模块之前，通过将图像数组中的值变换位置、置零等操作进行数据增强。然后把图像数组变成向量格式，并将新闻资讯的n个这种图像向量堆叠起来，形成一个四维图像向量(batch_size*n,3,H,W)，其中，batch_size即批尺寸。

S2：将处理后的四维图像向量输入ResNet50模型进行处理，得到图像深层特征向量(batch_size*n,2048,h,w)。

ResNet50模型主要分为5个阶段，每一阶段都由若干卷积层以及池化层构成，为了缓解梯度弥散，中间使用残差网络进行连接。以第一阶段为例，如果四维图像向量(8,3,244,244)输入模型，首先经过卷积层，使用64个7*7的卷积核，与输入的四维图像向量进行卷积，步长为2，其中，卷积操作即卷积核与被卷积的区域相应位置的数值相乘再相加，卷积原理示意图如图3所示。每个卷积核相当于提取出一种特征。然后将提取的特征经过平均池化层，其中，窗口大小可设置为3×3，步长为2。经过第一阶段之后，得到特征向量(8,64,56,56)。第一阶段提取的是图像的浅层特征，再经过多次带残差网络的卷积与池化操作后，可以得到图像更深层次即图像深层特征向量(batch_size*n,2048,h,w)。

S3：为了进一步解析图像的全局信息，将ResNet50模型输出的图像深层特征向量输入6层的Transformer Encoder中，每一层由Multi-Head Attention以及Feed ForwardNeural Network组成。

在输入Transformer Encoder前，需经全连接层改变图像深层特征向量序列的形状(batch size*n，sequence length，dim)得到输入向量B，向量B输入进TransformerEncoder后首先经过Self-Attention模型，得到向量Z。Z输入到由两层全连接层组成的FeedForward Neural Network模块，第一层激活函数是Relu，第二层是线性激活函数，得到最后输出向量O(batch size*n，sequence length，dim)。经过Transformer Encoder处理之后，将输出向量的首位作为图像的图像特征向量(batch_size*n,dim)。

由于新闻资讯中包含n个图像，对n个图像解析后可的得到n个图像的图像特征向量，n个图像的图像特征向量组成图像特征向量序列，其中，封面图像的图像特征向量位于序列首位。

子步骤二：对第一文本信息输入进行语义理解，获取第一文本信息对应的语义信息，基于语义信息得到第一文本特征向量。

在实际实现过程中，可通过多模态模型中的文本解析模型对第一文本信息进行语义理解。文本解析模块可选用BERT模型，由BERT模型提取第一文本信息的文本特征表示即第一文本特征向量，第一文本信息可用batch_size*dim表示，第一文本特征向量可用t表示。

子步骤三：分别计算第一文本特征向量与图像特征向量序列中包括的各图像特征向量的内积。

由于一条新闻资讯包含n张图像，所以这两个模块特征提取完成后，一个第一文本信息dim维的向量t对应n个图像dim维的向量O，将文本特征向量t与相应每张图像的图像特征向量做内积，同时固定封面图像在第一个位置，这样内积之后的第一位即为正样本的概率值，其它位为负样本的概率值。例如：dim＝4，n＝6，两特征向量的内积过程如图2所示。

把文本特征向量t和图像特征向量O输入多模态模型的最后一层的全连接层。将图文匹配问题转换成了多分类问题，分类类别即为新闻资讯中包含的图像的个数。基于上述对多模态模型进行训练，得到训练后的多模态模型。上述为基于一条目标训练数据对多模态模型进行训练的过程，在实际实现过程中，需重复上述过程采用各条目标训练模型对多模态模型进行训练，直至多模态模型的收敛度达到预设标准。

需要说明的是，本申请实施例提供的图像筛选方法，执行主体可以为图像筛选装置，或者该图像筛选装置中的用于执行图像筛选的方法的控制模块。本申请实施例中以图像筛选装置执行图像筛选方法为例，说明本申请实施例提供的图像筛选的装置。

图4为实现本申请实施例的一种图像筛选装置的结构框图。

图4中所示的图像分享装置用于实现图1中所示的图像筛选方法。本申请实施例的图像筛选装置400包括：

提取模块401，用于提取目标文件中包含的各图像和目标文本信息，其中，所述目标文本信息包括：文件标题、文件正文首段以及文件正文末段中的至少一个；

特征向量确定模块402，用于分别确定各所述图像的图像特征向量和所述目标文本信息的文本特征向量；

概率确定模块403，用于针对每个所述图像，依据所述图像的图像特征向量和所述文本特征向量，确定所述图像被筛选为目标图像的概率值；

筛选模块404，用于依据各所述图像对应的概率值，从各所述图像中筛选出目标图像。

可选地，所述概率确定模块包括：

第一子模块，用于针对每个所述图像，计算所述文本特征向量与所述图像的图像特征向量的内积；

第二子模块，用于基于第一函数，在目标区间中确定所述内积对应的数值，基于所述数值得到所述图像被筛选为目标图像的概率值。

可选地，所述装置还包括：

获取模块，用于在所述提取模块提取目标文件中包含的各图像和目标文本信息之前，获取多条训练数据，其中，每条训练数据包括文本信息和封面图像和非封面图像；

数据筛选模块，用于对所述多条训练数据进行筛选，得到目标训练数据；

数据处理模块，用于针对每条所述目标训练数据，标记封面图像并从所述目标训练数据的文本信息中提取第一文本信息，其中，所述第一文本信息包括：标题、所述文本信息正文首段以及所述文本信息正文末段；

训练模块，用于依据各条训练数据对应的标记后的封面图像、非封面图像和第一文本信息对所述多模态模型进行训练，得到训练后的多模态模型。

可选地，所述训练模块包括：

第三子模块，用于针对每条所述目标训练数据，提取所述标记后的封面图像和非封面图像的第一信息与第二信息；

第四子模块，用于基于所述第一信息和第二信息得到图像特征向量序列，其中，所述封面图像对应的特征向量位于所述图像特征向量序列的首位；

第五子模块，用于对所述第一文本信息进行语义理解，获得所述第一文本信息对应的语义信息；

第六子模块，用于基于所述语义信息得到第一文本特征向量；

第七子模块，用于分别计算所述第一文本特征向量与所述图像特征向量序列中包括的各图像特征向量的内积；

第八子模块，用于基于所述对所述多模态模型进行训练，得到训练后的多模态模型。

可选地，所述数据筛选模块具体用于：

将所述多条训练数据中，文本信息的文字数量小于第一预设值，或图像个数小于第二预设值的第一训练数据筛除，得到目标训练数据。

本申请实施例提供的图像筛选装置，通过提取目标文件中包含的各图像和目标文本信息；分别确定各图像的图像特征向量和目标文本信息的文本特征向量；针对每个图像，依据图像的图像特征向量和文本特征向量，确定图像被筛选为目标图像的概率值；依据各图像对应的概率值，从各图像中筛选出目标图像，所筛选出的目标图像与文本信息的匹配度高。

本申请实施例中图4所示的图像筛选装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动电子设备可以为网络附属存储器(NetworkAttached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的图4所示的图像筛选装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为iOS操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的图4所示的图像筛选装置能够实现图1至图3的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图5所示，本申请实施例还提供一种电子设备500，包括处理器501，存储器502，存储在存储器502上并可在所述处理器501上运行的程序或指令，该程序或指令被处理器501执行时实现上述图像筛选方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要注意的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图6为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备600包括但不限于：射频单元601、网络模块602、音频输出单元603、输入单元604、传感器605、显示单元606、用户输入单元607、接口单元608、存储器609、以及处理器610等部件。本领域技术人员可以理解，电子设备600还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器610逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图6中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器610，用于提取目标文件中包含的各图像和目标文本信息，其中，所述目标文本信息包括：文件标题、文件正文首段以及文件正文末段中的至少一个；

分别确定各所述图像的图像特征向量和所述目标文本信息的文本特征向量；

针对每个所述图像，依据所述图像的图像特征向量和所述文本特征向量，确定所述图像被筛选为目标图像的概率值；

依据各所述图像对应的概率值，从各所述图像中筛选出目标图像。

本申请实施例提供的电子设备，通过提取目标文件中包含的各图像和目标文本信息；分别确定各图像的图像特征向量和目标文本信息的文本特征向量；针对每个图像，依据图像的图像特征向量和文本特征向量，确定图像被筛选为目标图像的概率值；依据各图像对应的概率值，从各图像中筛选出目标图像，所筛选出的目标图像与文本信息相关性强。

可选地，处理器610针对每个所述图像，依据所述图像的图像特征向量和所述文本特征向量，确定所述图像被筛选为目标图像的概率值时，具体用于：针对每个所述图像，计算所述文本特征向量与所述图像的图像特征向量的内积；基于第一函数，在目标区间中确定所述内积对应的数值，基于所述数值得到所述图像被筛选为目标图像的概率值。

可选地，处理器610在所述提取目标文件中包含的各图像和目标文本信息之前，还用于：获取多条训练数据，其中，每条训练数据包括文本信息和封面图像和非封面图像；对所述多条训练数据进行筛选，得到目标训练数据；针对每条所述目标训练数据，标记封面图像并从所述目标训练数据的文本信息中提取第一文本信息，其中，所述第一文本信息包括：标题、所述文本信息正文首段以及所述文本信息正文末段；依据各条训练数据对应的标记后的封面图像、非封面图像和第一文本信息对所述多模态模型进行训练，得到训练后的多模态模型。

可选地，处理器610依据各条训练数据对应的标记后的封面图像、非封面图像和第一文本信息对所述多模态模型进行训练，得到训练后的多模态模型时，具体用于：针对每条所述目标训练数据，提取所述标记后的封面图像和非封面图像的第一信息与第二信息，基于所述第一信息和第二信息得到图像特征向量序列，其中，所述封面图像对应的特征向量位于所述图像特征向量序列的首位；

对所述第一文本信息进行语义理解，获得所述第一文本信息对应的语义信息；基于所述语义信息得到第一文本特征向量；分别计算所述第一文本特征向量与所述图像特征向量序列中包括的各图像特征向量的内积；基于所述对所述多模态模型进行训练，得到训练后的多模态模型。

可选地，处理器610对所述多条训练数据进行筛选，得到目标训练数据时，具体用于：将所述多条训练数据中，文本信息的文字数量小于第一预设值，或图像个数小于第二预设值的第一训练数据筛除，得到目标训练数据。

应理解的是，本申请实施例中，输入单元604可以包括图形处理器(GraphicsProcessing Unit，GPU)6041和麦克风6042，图形处理器6041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元606可包括显示面板6061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板6061。用户输入单元607包括触控面板6071以及其他输入设备6072。触控面板6071，也称为触摸屏。触控面板6071可包括触摸检测装置和触摸控制器两个部分。其他输入设备6072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器609可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器610可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器610中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述图像筛选方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述图像筛选方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种图像筛选方法，其特征在于，所述方法包括：

提取目标文件中包含的各图像和目标文本信息，其中，所述目标文本信息包括：文件标题、文件正文首段以及文件正文末段中的至少一个；

2.根据权利要求1所述的方法，其特征在于，针对每个所述图像，依据所述图像的图像特征向量和所述文本特征向量，确定所述图像被筛选为目标图像的概率值的步骤，包括：

针对每个所述图像，计算所述文本特征向量与所述图像的图像特征向量的内积；

基于第一函数，在目标区间中确定所述内积对应的数值，基于所述数值得到所述图像被筛选为目标图像的概率值。

3.根据权利要求1所述的方法，其特征在于，在所述提取目标文件中包含的各图像和目标文本信息的步骤之前，所述方法还包括：

获取多条训练数据，其中，每条训练数据包括文本信息、封面图像和非封面图像；

对所述多条训练数据进行筛选，得到目标训练数据；

针对每条所述目标训练数据，标记封面图像并从所述目标训练数据的文本信息中提取第一文本信息，其中，所述第一文本信息包括：标题、所述文本信息正文首段以及所述文本信息正文末段；

依据各条训练数据对应的标记后的封面图像、非封面图像和第一文本信息对所述多模态模型进行训练，得到训练后的多模态模型。

4.根据权利要求3所述的方法，其特征在于，依据各条训练数据对应的标记后的封面图像、非封面图像和第一文本信息对所述多模态模型进行训练，得到训练后的多模态模型的步骤，包括：

针对每条所述目标训练数据，提取所述标记后的封面图像和非封面图像的第一信息与第二信息，基于所述第一信息和第二信息得到图像特征向量序列，其中，所述封面图像对应的特征向量位于所述图像特征向量序列的首位；

对所述第一文本信息进行语义理解，获得所述第一文本信息对应的语义信息；

基于所述语义信息得到第一文本特征向量；

分别计算所述第一文本特征向量与所述图像特征向量序列中包括的各图像特征向量的内积；

基于所述对所述多模态模型进行训练，得到训练后的多模态模型。

5.根据权利要求3所述的方法，其特征在于，对所述多条训练数据进行筛选，得到目标训练数据的步骤，包括：

6.一种图像筛选装置，其特征在于，所述装置包括：

提取模块，用于提取目标文件中包含的各图像和目标文本信息，其中，所述目标文本信息包括：文件标题、文件正文首段以及文件正文末段中的至少一个；

特征向量确定模块，用于分别确定各所述图像的图像特征向量和所述目标文本信息的文本特征向量；

概率确定模块，用于针对每个所述图像，依据所述图像的图像特征向量和所述文本特征向量，确定所述图像被筛选为目标图像的概率值；

筛选模块，用于依据各所述图像对应的概率值，从各所述图像中筛选出目标图像。

7.根据权利要求6所述的装置，其特征在于，所述概率确定模块包括：

第二子模块，用于基于第一函数，在目标区间中确定所述内积对应的数值，基于所述数值，得到所述图像被筛选为目标图像的概率值。

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

获取模块，用于在所述提取模块提取目标文件中包含的各图像和目标文本信息之前，获取多条训练数据，其中，每条训练数据包括文本信息、封面图像和非封面图像；

9.根据权利要求8所述的装置，其特征在于，所述训练模块包括：

第四子模块，用于基于所述第一信息和所述第二信息得到图像特征向量序列，其中，所述封面图像对应的特征向量位于所述图像特征向量序列的首位；

10.根据权利要求所述的方法，其特征在于，所述数据筛选模块具体用于：

11.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-5任一项所述的图像筛选方法的步骤。

12.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-5任一项所述的图像筛选方法的步骤。