CN106021364B

CN106021364B - 图片搜索相关性预测模型的建立、图片搜索方法和装置

Info

Publication number: CN106021364B
Application number: CN201610306220.6A
Authority: CN
Inventors: 付立波; 罗恒; 方高林; 徐伟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-05-10
Filing date: 2016-05-10
Publication date: 2017-12-12
Anticipated expiration: 2036-05-10
Also published as: CN106021364A; US10354170B2; US20170330054A1

Abstract

本发明实施例公开了一种图片搜索相关性预测模型的建立、图片搜索方法和装置。图片搜索相关性预测模型的建立方法包括：使用训练样本对预先构建的原始深层神经网络进行训练；训练样本包括：查询式以及图片数据，原始深层神经网络包括：表示向量生成网络以及相关计算网络；将训练完成的原始深层神经网络作为图片搜索相关性预测模型。本发明的技术方案优化了现有的图片搜索技术，在查询式与图片文本的语义匹配、查询式与图片内容的语义匹配、点击泛化等几个方面的能力比现有技术及各种融合和变种的能力更强，并可以大大提高图片搜索结果与用户输入的查询式之间的相关度。

Description

图片搜索相关性预测模型的建立、图片搜索方法和装置

技术领域

本发明实施例涉及信息处理技术，尤其涉及一种图片搜索相关性预测模型的建立、图片搜索方法和装置。

背景技术

图片搜索是指用户输入自然语言查询，例如，通过搜索引擎提供的文本输入框输入的查询式(也称为Query)，从图片集合中查找并按照相关性等指标，返回排过序的图片结果给用户的信息检索过程。相关性是搜索引擎最主要的性能指标之一，它度量了返回结果与用户查询需求的相关程度。对于图片搜索引擎，返回的图片是无结构的像素格式，而用户输入的Query是文本格式，这是两种完全不同的信息格式，两者无法直接进行运算。

目前主要通过下述三种方式描述图片搜索的相关性特征：1、文本匹配特征，通过图片周边文本与Query比较计算得到；2、分类匹配特征，对图片内容分类得到分类标签，再与Query比较计算得到；3、点击率特征，通过统计大量用户查询后的点击行为等得到特定图片与该Query的相关性度量。

上述三种描述图片搜索相关性特性的方法均具有一定的局限性：

特征文本匹配特征：图片的周边文本可能存在与图片内容的不一致性，很多情况下不能完整准确的描述图片的内容，因而会影响文本匹配特征的精准性；

分类匹配特征：受限于类别体系的完整性和分类模型的准确性。一般的，类别体系越精细，分类难度越大，分类模型的准确性越差，且分类结果与Query文本的语义偏差越大，匹配越困难。但如果类别体系太粗略，与Query的匹配精度又不够。因此，该特征一般只起辅助作用；

点击率特征：主要基于用户行为统计，一方面存在偏倚和噪声，另一方面有稀疏性，只有在高频Query下展现靠前且展现次数充足的图片，能够统计到较充分的点击，其它情况，统计不到点击，或者点击非常稀疏，缺少统计意义。

发明内容

有鉴于此，本发明实施例提供一种图片搜索相关性预测模型的建立、图片搜索方法和装置，以优选现有的图片搜索技术，提高图片搜索结果与用户输入的查询式之间的相关度。

在第一方面，本发明实施例提供了一种图片搜索相关性预测模型的建立方法，包括：

使用训练样本对预先构建的原始深层神经网络进行训练；

其中，所述训练样本包括：查询式以及图片数据，所述原始深层神经网络包括：表示向量生成网络以及相关计算网络，所述表示向量生成网络用于将所述训练样本中不同类型的数据转换为表示向量并输入至所述相关计算网络，所述相关计算网络用于将输入的至少两个表示向量转换为一个相关性度量值；

将训练完成的所述原始深层神经网络作为所述图片搜索相关性预测模型。

在第二方面，本发明实施例还提供了一种图片搜索方法，包括：

获取用户输入的图片查询式；

将所述图片查询式以及待排序图片分别输入至通过本发明实施例所述的图片搜索相关性预测模型的建立方法建立的图片搜索相关性预测模型中，分别计算各所述待排序图片与所述图片查询式之间的相关性度量值；

根据计算得到的所述相关性度量值对各所述待排序图片进行排序，并将与排序结果对应的图片搜索结果提供给所述用户。

在第三方面，本发明实施例提供了一种图片搜索相关性预测模型的建立装置，包括：

训练模块，用于使用训练样本对预先构建的原始深层神经网络进行训练；

模型生成模块，用于将训练完成的所述原始深层神经网络作为所述图片搜索相关性预测模型。

在第四方面，本发明实施例还提供了一种图片搜索装置，包括：

图片查询式获取模块，用于获取用户输入的图片查询式；

相关性度量值计算模块，用于将所述图片查询式以及待排序图片分别输入至通过本发明实施例所述的图片搜索相关性预测模型的建立装置建立的图片搜索相关性预测模型中，分别计算各所述待排序图片与所述图片查询式之间的相关性度量值；

图片搜索结果提供模块，用于根据计算得到的所述相关性度量值对各所述待排序图片进行排序，并将与排序结果对应的图片搜索结果提供给所述用户。

本发明实施例首先构建了一个原始深层神经网络，该原始深层神经网络的输入为查询式以及图片数据，输出为该查询式以及图片数据之间的相关性度量值，选取合适的训练样本对该原始深层神经网络进行训练，最终可以将该原始深层神经网络训练为图片搜索相关性预测模型；当图片搜索引擎接收到用户输入的图片查询式后，通过将该图片查询式与各待排序的图片输入至所述图片搜索相关性预测模型，可以得到各待排序图片与所述图片查询式之间的相关性度量值，进而基于所述相关性度量值，将各待排序图片进行排序并将排序结果返回给所述用户，优化了现有的图片搜索技术，在查询式与图片文本的语义匹配、查询式与图片内容的语义匹配、点击泛化等几个方面的能力比现有技术及各种融合和变种的能力更强，并可以大大提高图片搜索结果与用户输入的查询式之间的相关度。

附图说明

图1是本发明第一实施例的一种图片搜索相关性预测模型的建立方法的流程图；

图2是本发明第一实施例所适用的一种深层神经网络的结构示意图；

图3是本发明第一实施例所适用的另一种深层神经网络的结构示意图；

图4是本发明第二实施例的一种图片搜索相关性预测模型的建立方法的流程图；

图5是本发明第二实施例所适用的一种训练网络模型的结构示意图；

图6是本发明第三实施例的一种图片搜索相关性预测模型的建立方法的流程图；

图7是本发明第三实施例的一种生成正负样本对的方法的流程图；

图8是本发明第四实施例的一种图片搜索方法的流程图；

图9是本发明第五实施例的一种图片搜索相关性预测模型的建立装置的结构图；

图10是本发明第六实施例的一种图片搜索装置的结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。

另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

为了清楚、明白的描述本发明各实施例的内容，首先重点描述一下本发明的发明构思。

如前所述，背景技术中介绍的三种描述图片搜索的相关性特征的方式，并未直接基于图片内容计算图片与查询式之间的相关性，而是通过图片的周边文本、图片的分类以及图片的点击率等与图片内容间接关联的特征计算图片与查询式之间的相关性。相区别的，在本申请中，发明人创造性的提出：通过建立图片内容与查询式之间的相关性计算模型，该计算模型的输入为图片内容与查询式，输出为一个相关性度量值，进而可以准确的实现针对用户输入的查询式进行图片搜索的目的。

即：是使用深层神经网络对图片的内容(优选也可以包括图片的周边文本等)以及用户的查询式文本进行深度变换，在变换中建立图片(文本+内容)与查询式的关系，即输入的一端可以为图片的周边文本、图片内容(也可以包括图片的其它特征或信息，如图片的点击查询式、描述图片质量的各种特征等)，输入的另一端为查询式文本，也可以包括查询式的其它加工后的特征。经过深层神经网络后的最终输出为图片与查询式的相关性度量值，可以作为图片与查询式相关性的一维特征。

第一实施例

图1为本发明第一实施例提供的一种图片搜索相关性预测模型的建立方法的流程图，本实施例的方法可以由图片搜索相关性预测模型的建立装置来执行，该装置可通过硬件和/或软件的方式实现，并一般可集成于用于建立图片搜索相关性预测模型的服务器中。本实施例的方法具体包括：

110、使用训练样本对预先构建的原始深层神经网络进行训练。

在本实施例中，所述训练样本包括：查询式以及图片数据。

如前所述，为了实现深层神经网络的最终输出为图片与查询式的相关性度量值，需要同时使用图片数据以及查询式作为训练样本训练所述原始深层神经网络。

其中，所述图片数据包括有图片内容数据，典型的，所述图片内容数据可包括：图片的像素或图片经过设定处理后的内容特征(例如，内容特征向量等)。

优选的，为了进一步提高最终提高相关性度量值的准确性，所述图片数据中还可以包括：图片关联文本数据，和/或图片关联特征数据。

其中，所述图片关联文本数据具体是指：与图片对应存储的，用于简单描述图片内容的文本信息，例如，一幅图片在存储时，同时存储该图片的标题“生日贺卡”。

其中，所述图片关联特征数据可以包括：与所述图片对应的点击查询式，和/或所述图片的质量特征参数。

在本实施例中，当搜索用户输入一个目标查询式，并在该目标查询式返回的图片搜索结果中点击选中了一张目标图片时，该目标查询式即为该目标图片的点击查询式；所述质量特征参数可以包括：图片压缩率、图片格式、图片分辨率等用于描述图片质量的参数，本实施例对此并不进行限制。

在本实施例中，所述原始深层神经网络包括：表示向量生成网络以及相关计算网络，所述表示向量生成网络用于将所述训练样本中不同类型的数据转换为表示向量并输入至所述相关计算网络，所述相关计算网络用于将输入的至少两个表示向量转换为一个相关性度量值；

在本实施例的一个优选的实施方式中，所述相关计算网络可以包括：隐藏层集以及与所述隐藏层集的输出端相连的输出层；

其中，所述隐藏层集包括一个或者多个首尾相连的隐藏层，所述向量生成网络的表示向量输出端与所述隐藏层集的输入端相连，所述输出层输出所述相关性度量值。

图2是本发明第一实施例所适用的一种深层神经网络的结构示意图。如图2所示，输入深层神经网络的训练样本包括：查询式以及图片数据，图片数据具体包括有：图片周边文本数据、图片内容数据以及图片关联特征数据。

所述表示向量生成网络中包括有四个表示向量生成单元，分别用于将输入的查询式、图片周边文本数据、图片内容数据以及图片关联特征数据转换为相对应的表示向量，以进行后续的模型训练工作。

其中，所述表示向量生成单元，根据任务目标的不同可以有很多种实现方式。这里简要描述一下：

1、图片内容数据(典型的，图片像素内容)的表示向量生成

图片像素内容的表示向量生成目前使用较广泛的是CNN(Convolutional NeuralNetwork，卷积神经网络)分类网络，该网络的输入为尺寸归一化的图片像素矩阵，输出为图片的分类表示向量，分类表示向量一般是图片在一个类别体系(对于图片，类别体系一般有千级到万级的类别标签)上的类别概率分布向量P。其中，P＝(p₁，p₂，…，p_N)；p_i(i＝1，2，…，N)是CNN网络给出的图片属于第i个类别的概率，N为类别体系的大小(类别个数)。

优选的，可以对分类表示向量作权值截断(例如，将概率低于一定阈值的p_i置0，或者只保留前M个p_i，其中，M为小于等于N的整数)、权值归一化以及二值化(即变成0和1组成的向量)等处理后，将所述表示向量直接输入到相关计算网络，也可以先将表示向量通过一个全连接隐藏层(关于隐藏层的相关概念在后文进行描述)后再输入到相关计算网络中，其中，该全连接隐藏层的输出可以理解为类似于文本的Embedding表示(关于Embedding表示的相定义将在后文进行描述)。

2、图片周边文本数据以及查询式的表示向量生成

由于图片周边文本数据以及查询式均为文本，因此上述两者的表示向量生成方式相一致，均为文本的表示向量生成。

文本先经过分词，然后每个分词根据预设词典映射为一个one-hot(独热)表征向量。例如：(…，0，…，1，…，0，…)，该向量长度为词典的大小，有一个元素为1，其余元素全部为0，元素1所在的位置序号对应于该词在词典中的序号。接下来的处理可以有几种选择，例如BoW-DNN(Bag of Words-Deep Neural Networks，词袋形式深层神经网络)网络、CNN网络或者RNN(Recurrent Neural Network，循环神经网络)网络等，本实施例对此并不进行限制。

其中，BoW-DNN网络对文本中所有分词的one-hot表征向量叠加后输入到一个全连接隐藏层，对于每个分词，它在one-hot表征向量中的位置到隐藏层的各个神经单元的连接边上的权值拼接起来构成的一个向量(其维数与隐藏层的神经单元个数相同)，也被称作该词的词向量。隐藏层的输出向量实际上就是文本中各个词的词向量的和通过隐藏层神经单元的响应值，也被称作该文本的Embedding表示。因为这里对文本中的词简单叠加，不考虑词序，所以称之为Bag of Words。

CNN网络加入了对词序的考虑，将文本中各个词的词向量按顺序拼接，然后经过一维卷积运算，再经过下采样(也称作池化，或者说pooling)，变成定长向量。该向量也可以视作该文本的Embedding表示，但是加入了局部词序的作用。这种CNN网络也是图片像素的CNN网络应用于一维文本的推广。

RNN网络也会考虑词序，方式是将每个词的词向量按词序输入到全连接隐藏层，且当前的词经过隐藏层后的输出，作为反馈，和下一个词一起再次输入到隐藏层。其输出也是一个定长向量，同样可以看作是文本的Embedding表示。

词向量和上述三种网络可以分别单独训练，也可以使用其它任务中已经训练好的词向量或者网络，也可以在本任务中和后面的相关性计算网络一起训练。在和相关性计算网络一起训练时，词向量和这三种网络可以随机初始化，也可以用其它任务中已经训练好的结果初始化，然后在本任务的训练中继续更新。

3、图片关联特征数据的表示向量生成

图片其它特征数据的表示生成网络视这些特征的物理意义而定。如果是类似图像、文本这样的有序格式，也可以使用CNN或RNN网络，如果是无序的集合特征(例如概率分布向量、一些独立的统计值等)，使用BoW-DNN网络即可。

与文本的表示向量生成相类似，图片像素内容的表示向量生成、图片关联特征数据的表示向量生成可以单独训练，也可以在本任务中和后面的网络一起训练。一起训练时，参数可以随机初始化，也可以用其它任务中已经训练好的参数来初始化。

如图2所示，所述相关计算网络具体包括两个首尾相连的隐藏层，以及一个输出层。

在本实施例中，所述隐藏层是指全连接隐藏层，其中，所述全连接具体是指前一层的每个输出连接到后一层的每个输入，每个隐藏层有若干个神经单元，输出层只有一个神经单元。查询式和图片数据的所有表示向量输入到第一个全连接隐藏层，依次通过各隐藏层和输出层的神经单元的线性求和非线性响应，最后输出一个数值，即为查询式与图片的相关性度量值。

在本实施例的另一个优选的实施方式中，所述相关计算网络具体可以包括：第一隐藏层集、与所述第一隐藏层集的输出端相连的第一标准向量表示单元、第二隐藏层集、与所述第二隐藏层集的输出端相连的第二标准向量表示单元、以及与所述第一标准向量表示单元和所述第二标准向量表示单元的输出端分别相连的向量距离计算单元；

其中，所述隐藏层集包括一个或者多个首尾相连的隐藏层，所述表示向量生成网络中与所述查询式对应的表示向量输出端与所述第一隐藏层集的输入端相连，所述表示向量生成网络中与所述图片数据对应的表示向量输出端与第二隐藏层集的输入端相连，所述向量距离计算单元输出所述相关性度量值。

图3是本发明第一实施例所适用的另一种深层神经网络的结构示意图。如图3所示，与查询式对应的表示向量生成单元与第一隐藏层相连，与图片周边文本数据、图片内容数据以及图片关联特征数据分别对应的表示向量生成单元与第二隐藏层相连，第一隐藏层与第二隐藏层分别与第一标准向量表示单元与第二标准向量表示单元相连。

其中，第一标准向量表示单元与第二标准向量表示单元分别用于将第一隐藏层以及第二隐藏层输出的向量转换为两个新的表示向量，这两个新的表示向量不仅格式统一，而且在同一个表示空间中，进而可以输入至向量距离计算单元计算相关性度量值。

典型的，所述向量距离计算单元可以计算第一标准向量表示单元与第二标准向量表示单元所输出的两个向量之间的余弦距离，以确定上述两个向量之间的相关性度量值，还可以计算上述两个向量之间的欧氏距离等其他用于衡量两个向量之间相似程度的向量距离，本实施例对此并不进行限制。

在本实施例的一个优选的实施方式中，所述隐藏层包括至少两个神经单元，所述输出层包括一个神经单元；

其中，所述表示向量生成网络所生成的向量维数、所述相关计算网络中包括的隐藏层的数量、隐藏层中包括的神经单元数量、神经单元的响应函数类型以及神经单元输出的正则化方法可以根据任务进行预先设置。

本实施例中构造的表示向量生成网络以及相关计算网络，网络中主要有以下变量或参数：

1)输入特征(查询式以及图片数据)的维数。例如，对于文本，特征维数指文本词典的大小，通常在十万或百万级，首先对中文进行切词，不在词典中的词会被去掉，或者用一个特殊符号(放入字典中)代替。对于图片像素内容，指图像的通道数、归一化之后的尺寸；

2)表示向量的维数，和表示向量的生成网络结构(本部分内容已经在前文中进行了介绍)；

3)隐藏层的个数和各隐藏层的神经单元个数；

4)神经单元的响应函数类型；

5)神经单元的输出的正则化方法，避免输出值向上下溢出；

6)神经单元的输入边上的权值以及初始化方法。

其中，1)、3)-5)中的变量和参数均可以根据任务进行预先设置的，6)中的权值通常以某种方式初始化(例如，随机初始化等)，然后经过大量的训练样本训练、更新，直到收敛到一定程度为止。

120、将训练完成的所述原始深层神经网络作为所述图片搜索相关性预测模型。

如前所述，在确定了原始深层神经网络的网络结构之后，通过使用大量的训练样本对该原始深层神经网络进行训练，即可得到所述图片搜索相关性预测模型。

其中，所述图片搜索相关性预测模型的输入为用户输入的查询式以及目标图片的图片数据(例如，包括：图片周边文本数据、图片内容数据以及图片关联特征数据)，输出为查询式与该目标图片之间的一个相关性度量值。

第二实施例

图4是本发明第二实施例的一种图片搜索相关性预测模型的建立方法的流程图。本实施例以上述实施例为基础进行优化，在本实施例中，将使用训练样本对预先构建的原始深层神经网络进行训练具体优化为：选取设定数量的训练样本；依次获取一个训练样本输入至所述原始深层神经网络中，并根据所述原始深层神经网络基于所述训练样本的输出结果，对所述原始深层神经网络中的加权参数进行调整；返回执行获取一个训练样本输入至所述原始深层神经网络的操作，直至达到预先设定的训练结束条件。

相应的，本实施例的方法具体包括：

410、选取设定数量的训练样本。

考虑到直接标注大量的训练样本(查询式与图片的相关性值)耗时巨大，且标准难以统一。在本实施例中，使用查询式和查询式下的正负样本图片对(也可简称为pair对)作为训练样本，即一条训练样本由一个查询式和两个图片构成的pair对组成，该pair对中一个图片比另一个图片相对于该Query的相关性更好，这两个图片分别称之为正样本和负样本。

相应的，可以将所述训练样本具体优化为：由训练查询式，以及与所述训练查询式分别对应的正样本图片以及负样本图片构成的正负训练对。在一个具体例子中，训练查询式为“生日贺卡”，与该训练查询式对应的正样本图片为图片1，与该训练查询式对应的负样本图片为图片2，可以据此构造一个形式为：<(生日贺卡，图片1)，(生日贺卡，图片2)>的训练样本。

其中，可以由人工根据不同图片与一个查询式之间的相关程度来确定与训练查询式对应的正样本图片以及负样本图片，但是由于在训练原始深层神经网络时所需的训练样本数目较大，需要投入较大的人力成本，另外，由于不同的人的相关程度的评价标准也不同，在本实施例的一个优选的实施方式中，可以根据用户的图片点击日志，自动确定与一个查询式对应的正样本图片以及负样本图片，例如，当用户输入一个查询式进行图片搜索后，将用户基于搜索结果点击的图片作为与该查询式对应的正样本图片，将用户未点击的图片作为与该查询式对应的负样本图片。

420、依次获取一个训练样本输入至所述原始深层神经网络中，并根据所述原始深层神经网络基于所述训练样本的输出结果，对所述原始深层神经网络中的加权参数进行调整。

在本实施例中，由于通过所述正负训练对完成对所述原始深层神经网络的训练，为了提高训练效率，优选可以构造两个完全相同的原始深层神经网络分别用于接收由训练查询式、正样本图片构成的正训练对，以及由训练查询式、负样本图片构成的负训练对，进而实现快速、实时的模型训练。其中，在图5中示出了一种训练网络模型的结构示意图。

如图5所示，420优选可以包括下述操作：

将所述训练查询式以及与所述正样本图片对应的图片数据输入至与所述原始深层神经网络结构相同的第一网络中，并获取所述第一网络输出的第一预测值；

将所述训练查询式以及与所述负样本图片对应的图片数据输入至与所述第一网络结构相同的第二网络中，并获取第二网络输出的第二预测值；

根据所述第一预测值、所述第二预测值以及所述正样本图片与所述负样本图片之间的相关性偏序，计算损失函数；

采取设定权值更新算法，沿着最小化损失函数的方向，反向逐层更新所述第一网络以及所述第二网络中各层的加权参数。

在一个具体例子中，查询式和正样本图片输入一个与所述原始深层神经网络结构一致的第一网络，得到相关性预测值1，该查询式和负样本图片输入与上述第一网络相同的第二网络(包括权值)，得到相关性预测值2。根据预测值1与预测值2的差值符号是否与正样本图片与负样本图片之间的相关性偏序一致，计入损失函数(也称为rank cost)。

接下来，与一般的深层神经网络的训练方法相同，按照最小化损失函数的方向反向逐层更新各层的权值，该类方法统称为BP(Back Propagation，反向传播)算法，具体的权值更新算法有各种梯度下降法，例如LBFGS(拟牛顿算法)，或者SGD(随机梯度下降)等，其中SGD收敛速度更快，使用较多。

与一般的深层神经网络训练的区别是：本实施例的技术方案有两个相同的网络，参数是共享的，权值的更新始终同步。

230、判断是否达到预先设定的训练结束条件：若是：执行440；否则，返回执行420。

在本实施例中，可以根据实际需求设定训练结束条件，例如，训练的回合数(例如，1000次，或者2000次等)或者神经网络对训练样本的总误差值等，本实施例对此并不进行限制。

440、将训练完成的所述原始深层神经网络作为所述图片搜索相关性预测模型。

本发明的技术方案根据与同一训练查询式对应的正负样本图片构造正负训练对作为训练样本，并基于正负训练对构造与预设的原始神经网络模型相同的两个网络以同步的基于所述正负训练对进行模型的权值训练，可以避免人工标注大量的训练样本耗时巨大，且标准难以统一的问题，并可以快速、高效的完成对该原始神经网络模型的训练。

第三实施例

图6是本发明第三实施例的一种图片搜索相关性预测模型的建立方法的流程图。本实施例以上述实施例为基础进行优化，在本实施例中，将选取设定数量的训练样本具体优化为：根据搜索用户的图片点击日志，汇总与同一查询式样本对应的图片点击信息，其中，所述查询式样本包括：单一查询式或者满足设定相似度阈值条件的至少两个查询式；根据汇总的所述图片点击信息，生成与所述查询式样本对应的正图片样本集以及负图片样本集；选取设定数量的查询式样本作为所述训练查询式，并根据与各所述训练查询式分别对应的正图片样本集以及负图片样本集，生成与各所述训练查询式分别对应的正负训练对作为所述训练样本。

相应的，本实施例的方法具体包括：

610、根据搜索用户的图片点击日志，汇总与同一查询式样本对应的图片点击信息。

一般来说，预设原始神经网络的权值参数规模较为庞大，如果将表示向量生成网络中的文本相关的参数(例如文本词典的Embedding参数)一起放入训练更新中，参数规模将达到百万级。对于这样规模的参数，所需的训练数据，主要从用户的图片点击日志中生成。

用户在一次查询过程中可能会点击多张图片，被点击过的图片与用户看到但没有点击的图片相比，与用户输入的查询式的相关性可能是更好的。汇总大量用户的重复查询，可以得到统计上更为可信的正负样本图片：点击率高的图片(正样本图片)相对于点击率低的图片(负样本图片)，有大量点击的图片(正样本图片)相对于无点击的图片(负样本图片)。

其中，所述查询式样本可以仅包括单一查询式；进一步的，针对那些点击较少或者无点击的冷门查询式，可以根据语义相似性使得上述冷门查询式与其他查询式共享点击图片，相应的，所述查询式样本还可以包括满足设定相似度阈值条件的至少两个查询式。

在一个具体的例子中，可以直接选取“生日贺卡”作为查询式样本，还可以通过语义相似度聚类的方式，将“生日贺卡”、“寿诞贺卡”以及“生辰贺卡”作为查询式样本。

620、根据汇总的所述图片点击信息，生成与所述查询式样本对应的正图片样本集以及负图片样本集。

在本实施例的一个优选的实施方式中，所述图片点击信息可以仅包括：与所述查询式样本对应的点击图片；

相应的，根据汇总的所述图片点击信息，生成与所述查询式样本对应的正图片样本集以及负图片样本集具体可以包括：

在所述点击图片中，将点击次数超过设定第一阈值的图片归集为所述正图片样本集中，将点击次数小于设定第二阈值的图片归集为所述负图片样本集中。

其中，第一阈值与第二阈值可以根据实际情况进行预设，两者可以相同也可以不同，本实施例对此并不进行限制。

在本实施例的另一个优选的实施方式中，所述图片点击信息可以同时包括：与所述查询式样本对应的点击图片以及与所述查询式样本对应的图片搜索结果；

在与所述图片搜索结果对应的各图片中，将被点击过的图片归集为所述正图片样本集中，将未被点击的图片归集为所述负图片样本集中。

630、选取设定数量的查询式样本作为所述训练查询式，并根据与各所述训练查询式分别对应的正图片样本集以及负图片样本集，生成与各所述训练查询式分别对应的正负训练对作为所述训练样本。

如图7所示，在本实施例的一个优选的实施方式中，630具体可以包括下述操作：

6301、依次获取一个训练查询式作为当前操作查询式，并获取与所述当前操作查询式对应的目标正样本图片集以及目标负样本图片集。

在一个具体的例子中，获取的训练查询式为“生日贺卡”，与该“生日贺卡”对应的目标正样本图片集包括：“图片1～图片20”，与该“生日贺卡”对应的目标负样本图片集包括：“图片21～图片80”。

6302、根据设定的样本图片选取规则，在所述目标正样本图片集中选取第一数量的目标正样本图片，在所述目标负样本图片集中选取第二数量的目标负样本图片。

其中，所述设定的样本图片选取规则可以包括：按照点击次数选取或者按照图片热度选取或者随机选取等，本实施例对此并不进行限制。同时，第一数量可以和第二数量相同，也可以不同，两者可以根据实际需要进行自定义选取。

进一步的，为了加强训练样本的多样性，还可以从其它查询式的展现图片中随机挑选一些作为负样本，称之为随机负样本，可以理解的是，该随机负样本与当前操作查询式很差，因此可以认为其可信度很高。

也即：在区别于所述当前操作查询式的非关联查询式对应的正图片样本集中获取至少一个图片作为与所述当前操作查询式对应的目标负样本图片。

例如，与查询式“老虎”对应的正样本图片集中包括有“图片81～图片100”，上述“图片81～图片100”尽可以作为“生日贺卡”的目标负样本图片。

续前例，可以选取与训练查询式“生日贺卡”对应的目标正样本图片：“图片1～图片3”，与训练查询式“生日贺卡”对应的目标负样本图片：“图片21～图片22，图片81”。

6303、根据设定的正负图片组合规则，分别从所述第一数量的目标正样本图片以及所述第二数量的目标负样本图片中选取样本图片，生成与所述当前操作查询式对应的第三数量的正负训练对作为所述训练样本。

在本实施例的一个优选的实施方式中，所述设定的正负图片组合规则具体可以包括：将目标正样本图片中的任一正样本图片与目标负样本图片中的任一负样本图片组合生成正负训练对的方式，最终确定所述训练样本；

例如：<(生日贺卡，图片1)，(生日贺卡，图片21)>、<(生日贺卡，图片2)，(生日贺卡，图片22)>、<(生日贺卡，图片3)，(生日贺卡，图片81)>。

在本实施例的另一个优选的实施方式中，所述设定的正负图片组合规则具体还可以包括：将目标正样本图片中的任一正样本图片分别与目标负样本图片中的各个负样本图片组合生成正负训练对的方式，最终确定所述训练样本。

例如，<(生日贺卡，图片1)，(生日贺卡，图片21)>、<(生日贺卡，图片1)，(生日贺卡，图片22)>、<(生日贺卡，图片1)，(生日贺卡，图片81)>、<(生日贺卡，图片2)，(生日贺卡，图片21)>、<(生日贺卡，图片2)，(生日贺卡，图片22)>、<(生日贺卡，图片2)，(生日贺卡，图片81)>、<(生日贺卡，图片3)，(生日贺卡，图片21)>、<(生日贺卡，图片3)，(生日贺卡，图片22)>、<(生日贺卡，图片3)，(生日贺卡，图片81)>。

当然，本领域技术人员可以理解的是，还可以采取其他的正负图片组合规则以最终生成所述训练样本，本实施例对此并不进行限制。

6304、判断是否完成对全部训练查询式的处理：若是，结束流程；否则，返回执行6301。

640、依次获取一个训练样本输入至所述原始深层神经网络中，并根据所述原始深层神经网络基于所述训练样本的输出结果，对所述原始深层神经网络中的加权参数进行调整。

650、判断是否达到预先设定的训练结束条件：若是：执行660；否则，返回执行640。

660、将训练完成的所述原始深层神经网络作为所述图片搜索相关性预测模型。

本实施例的技术方案，通过从用户的图片点击日志中最终或者训练样本，可以得到统计上更为可信的正负样本图片，基于该正负样本图片可以使得最终训练的图片搜索相关性预测模型更加接近理想的或者说所需的相关性预测模型，进而使得基于该图片搜索相关性预测模型的图片搜索结果更近贴近用户的实际需求，以提高用户的搜索体验。

在上述各实施例的基础上，在根据搜索用户的图片点击日志，汇总与同一查询式样本对应的图片点击信息之前，还可以包括：滤除所述图片点击日志中包括的噪声日志。

这样设置的原因是：用户的图片点击日志里可能会存在大量噪声，例如有些不适宜的图片或者与相关图片反差过大的恶意图片等，反而会吸引用户点击，甚至出现在任何查询下都会引起点击。有些相关结果很多的查询式，用户在浏览到靠前的相关图片后，需求已经满足，后面的相关图片被点击的概率将会大幅下降。这两种行为都会造成点击/无点击、点击多少与相关性的失真，因此为了进一步提高所选取的正负样本图片的准确性，需要滤除所述图片点击日志中包括的噪声日志。

识别和去除噪声日志是保证训练出的模型的准确性的必要操作。这里简单介绍两种方法：

1)点击查询式聚类法。汇总一张图片(包括重复图片、相似图片)被点击的所有查询式(以下称为点击查询式)并聚类，可以得到该图片所满足的主要需求类别，小众的类别可以认为是噪声从而去掉。与主要需求类别的距离都较远的点击查询式，可以作为为噪声点击。

2)图片聚类法。汇总一个查询式(包括语义相同、相似的查询式)下的所有点击图片，对这些图片的分类结果或者分类表示进行聚类，可以得到满足该查询式需求的主要图片类别，小众的类别可以认为是噪声从而去掉。

在上述各实施例的基础上，在选取正负样本图片时，可以先对一个查询式下的正(负)样本按照可信度进行排序。正样本的可信度可以通过用户行为证据来推断，例如，一般来说，点击率越高、点击次数越多、被点击时的展现位置分布越靠后的正样本，其可信度更高。负样本也有类似的排序方法。对于展现无点击的负样本，如果缺少用户行为上的证据，也可以由相关性来推断可信度，例如，展现次数越少(相同时间窗内)、展现位置的分布越靠后的负样本的相关性更差，其可信度更高。随机负样本的可信度可以认为最高。

同时，在选取正负样本图片时，可以从排序后的正(负)样本中有序选取或随机选取，以在噪声和模型区分性上平衡。此外，还可以根据任务目标对查询式进行选取，调整不同类型查询式的比例，例如：高频(低频)查询式的比例、资源数多(少)的查询式的比例等。

另外，需要再次强调的是，本发明实施例与现有技术的区别主要在于：

1)现有的文本匹配特征基本都是文本字面上的匹配(包括同义扩展匹配)，而本发明中查询式文本与图片文本是在深层变换后的表示空间中匹配，具有更泛化的意义，一定程度上能实现字面不同但语义相关的匹配；

2)现有的分类匹配特征在图片分类的类别体系过小时，其分类结果的语义不精细，类别体系过大时，分类的准确率又较低，且与查询式的文本(或者类别标签)的匹配难度急剧增大(即所谓的图片与文本的语义鸿沟)。而在本发明实施例中，查询式文本与图片像素内容是在深层变换后的表示空间中匹配，不受查询式或者图片的类别体系的限制。

3)现有的点击率特征只适用于查询式之下统计到有效点击的图片，而本发明实施例中的网络参数基于所有查询式下的图片点击行为训练得到，它将用户点击行为所包含的图片对查询式的相关性度量即推广到任意的无点击图片或稀疏点击图片，又推广到当前查询式的任意相关查询式上，能实现任意查询式与图片之间的相关性计算。

综上，本发明在查询式与图片文本的语义匹配、查询式与图片内容的语义匹配以及点击泛化等几个方面的能力比现有技术及各种融合和变种的能力更强，对所期望解决的问题解决得更彻底。

第四实施例

图8为本发明第四实施例提供的一种图片搜索方法的流程图，本实施例的方法可以由图片搜索装置来执行，该装置可通过硬件和/或软件的方式实现，并一般可集成于图片搜索引擎所在的服务器中。本实施例的方法具体包括：

810、获取用户输入的图片查询式。

在本实施例中，所述图片查询式具体是指用户通过图片搜索引擎输入的，文本形式的查询式，例如：“生日贺卡”。

820、将所述图片查询式以及待排序图片分别输入至通过本发明第一实施例至第三实施例中的方法建立的图片搜索相关性预测模型中，分别计算各所述待排序图片与所述图片查询式之间的相关性度量值。

在本实施例中，所述待排序图片具体是指图片搜索引擎召回的，与所述图片查询式对应的图片搜索结果。

830、根据计算得到的所述相关性度量值对各所述待排序图片进行排序，并将与排序结果对应的图片搜索结果提供给所述用户。

本实施例的技术方案通过将图片查询式与各待排序的图片输入至预先训练的图片搜索相关性预测模型，可以得到各待排序图片与所述图片查询式之间的相关性度量值，进而基于所述相关性度量值，将各待排序图片进行排序并将排序结果返回给所述用户，优化了现有的图片搜索技术，在查询式与图片文本的语义匹配、查询式与图片内容的语义匹配、点击泛化等几个方面的能力比现有技术及各种融合和变种的能力更强，并可以大大提高图片搜索结果与用户输入的查询式之间的相关度。

另外需要说明的是，发明人通过实验发现：本发明实施例的技术方案显著提升了图片搜索的相关性。评估表明，增加该相关性特征后，图片搜索在随机查询式上的检索结果满意度提升10％以上，即检索结果可感知变好的查询式数量与检索结果可感知变差的查询式数量之差，占随机抽样查询式的比例在10％以上，效果非常显著。

第五实施例

图9是本发明第五实施例的一种图片搜索相关性预测模型的建立装置的结构图。如图9所示，所述装置包括：

训练模块91，用于使用训练样本对预先构建的原始深层神经网络进行训练。

模型生成模块92，用于将训练完成的所述原始深层神经网络作为所述图片搜索相关性预测模型。

本发明实施例构建了一个原始深层神经网络，该原始深层神经网络的输入为查询式以及图片数据，输出为该查询式以及图片数据之间的相关性度量值，选取合适的训练样本对该原始深层神经网络进行训练，最终可以将该原始深层神经网络训练为图片搜索相关性预测模型；当图片搜索引擎接收到用户输入的图片查询式后，通过将该图片查询式与各待排序的图片输入至所述图片搜索相关性预测模型，可以得到各待排序图片与所述图片查询式之间的相关性度量值，进而基于所述相关性度量值，将各待排序图片进行排序并将排序结果返回给所述用户，优化了现有的图片搜索技术，在查询式与图片文本的语义匹配、查询式与图片内容的语义匹配、点击泛化等几个方面的能力比现有技术及各种融合和变种的能力更强，并可以大大提高图片搜索结果与用户输入的查询式之间的相关度。

在上述各实施例的基础上，所述图片数据可以包括：图片关联文本数据、图片内容数据以及图片关联特征数据；

其中，所述图片关联特征数据包括：与所述图片对应的点击查询式，和/或所述图片的质量特征参数。

在上述各实施例的基础上，所述相关计算网络可以包括：隐藏层集以及与所述隐藏层集的输出端相连的输出层；

在上述各实施例的基础上，所述相关计算网络具体可以包括：第一隐藏层集、与所述第一隐藏层集的输出端相连的第一标准向量表示单元、第二隐藏层集、与所述第二隐藏层集的输出端相连的第二标准向量表示单元、以及与所述第一标准向量表示单元和所述第二标准向量表示单元的输出端分别相连的向量距离计算单元；

在上述各实施例的基础上，所述隐藏层可以包括至少两个神经单元，所述输出层可以包括一个神经单元；

其中，所述表示向量生成网络所生成的向量维数、所述相关计算网络中包括的隐藏层的数量、隐藏层中包括的神经单元数量、神经单元的响应函数类型以及神经单元输出的正则化方法根据任务进行预先设置。

在上述各实施例的基础上，所述训练模块可以包括：

训练样本选取单元，用于选取设定数量的训练样本；

加权参数调整单元，用于依次获取一个训练样本输入至所述原始深层神经网络中，并根据所述原始深层神经网络基于所述训练样本的输出结果，对所述原始深层神经网络中的加权参数进行调整；

循环执行单元，用于返回执行获取一个训练样本输入至所述原始深层神经网络的操作，直至达到预先设定的训练结束条件。

在上述各实施例的基础上，所述训练样本具体可以包括：由训练查询式，以及与所述训练查询式分别对应的正样本图片以及负样本图片构成的正负训练对；

所述加权参数调整单元具体可以用于：

在上述各实施例的基础上，所述训练样本选取单元具体可以包括：

图片点击信息汇总子单元，用于根据搜索用户的图片点击日志，汇总与同一查询式样本对应的图片点击信息，其中，所述查询式样本包括：单一查询式或者满足设定相似度阈值条件的至少两个查询式；

正负图片样本集生成子单元，用于根据汇总的所述图片点击信息，生成与所述查询式样本对应的正图片样本集以及负图片样本集；

训练样本生成子单元，用于选取设定数量的查询式样本作为所述训练查询式，并根据与各所述训练查询式分别对应的正图片样本集以及负图片样本集，生成与各所述训练查询式分别对应的正负训练对作为所述训练样本。

在上述各实施例的基础上，所述图片点击信息可以包括：与所述查询式样本对应的点击图片；

正负图片样本集生成子单元具体可以用于：

在上述各实施例的基础上，所述图片点击信息可以包括：与所述查询式样本对应的点击图片以及与所述查询式样本对应的图片搜索结果；

正负图片样本集生成子单元具体可以用于：

在上述各实施例的基础上，训练样本生成子单元具体可以用于：

依次获取一个训练查询式作为当前操作查询式，并获取与所述当前操作查询式对应的目标正样本图片集以及目标负样本图片集；

根据设定的样本图片选取规则，在所述目标正样本图片集中选取第一数量的目标正样本图片，在所述目标负样本图片集中选取第二数量的目标负样本图片；

根据设定的正负图片组合规则，分别从所述第一数量的目标正样本图片以及所述第二数量的目标负样本图片中选取样本图片，生成与所述当前操作查询式对应的第三数量的正负训练对作为所述训练样本；

返回执行获取一个训练查询式作为当前操作查询式的操作，直至完成对全部训练查询式的处理。

在上述各实施例的基础上，所述训练样本生成子单元具体还可以用于：

在区别于所述当前操作查询式的非关联查询式对应的正图片样本集中获取至少一个图片作为与所述当前操作查询式对应的目标负样本图片。

在上述各实施例的基础上，所述训练样本选取单元还可以包括：

噪声日志滤除子单元，用于在根据搜索用户的图片点击日志，汇总与同一查询式样本对应的图片点击信息之前，滤除所述图片点击日志中包括的噪声日志。

本发明实施例所提供的图片搜索相关性预测模型的建立装置可用于执行本发明第一实施例至第三实施例提供的图片搜索相关性预测模型的建立方法，具备相应的功能模块，实现相同的有益效果。

第六实施例

图10是本发明第六实施例的一种图片搜索装置的结构图。如图10所示，所述装置包括：

图片查询式获取模块101，用于获取用户输入的图片查询式。

相关性度量值计算模块102，用于将所述图片查询式以及待排序图片分别输入至通过第五实施例所述的装置建立的图片搜索相关性预测模型中，分别计算各所述待排序图片与所述图片查询式之间的相关性度量值。

图片搜索结果提供模块103，用于根据计算得到的所述相关性度量值对各所述待排序图片进行排序，并将与排序结果对应的图片搜索结果提供给所述用户。

本发明实施例所提供的图片搜索装置可用于执行本发明任意实施例提供的图片搜索方法，具备相应的功能模块，实现相同的有益效果。

显然，本领域技术人员应该明白，上述的本发明的各模块或各步骤可以通过如上所述的服务器来实施。可选地，本发明实施例可以用计算机装置可执行的程序来实现，从而可以将它们存储在存储装置中由处理器来执行，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等；或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图片搜索相关性预测模型的建立方法，其特征在于，包括：

使用训练样本对预先构建的原始深层神经网络进行训练；

将训练完成的所述原始深层神经网络作为所述图片搜索相关性预测模型；

其中，所述训练样本具体包括：由训练查询式，以及与所述训练查询式分别对应的正样本图片以及负样本图片构成的正负训练对；

所述使用训练样本对预先构建的原始深层神经网络进行训练具体包括：

构造两个相同的原始深层神经网络分别用于接收由训练查询式、正样本图片构成的正训练对，以及由训练查询式、负样本图片构成的负训练对，实现模型训练。

2.根据权利要求1所述的方法，其特征在于，所述图片数据包括：图片关联文本数据、图片内容数据以及图片关联特征数据；

3.根据权利要求1所述的方法，其特征在于，所述相关计算网络包括：隐藏层集以及与所述隐藏层集的输出端相连的输出层；

4.根据权利要求1所述的方法，其特征在于，所述相关计算网络包括：第一隐藏层集、与所述第一隐藏层集的输出端相连的第一标准向量表示单元、第二隐藏层集、与所述第二隐藏层集的输出端相连的第二标准向量表示单元、以及与所述第一标准向量表示单元和所述第二标准向量表示单元的输出端分别相连的向量距离计算单元；

5.根据权利要求3或4所述的方法，其特征在于，所述隐藏层包括至少两个神经单元，所述输出层包括一个神经单元；

6.根据权利要求1所述的方法，其特征在于，使用训练样本对预先构建的原始深层神经网络进行训练包括：

选取设定数量的训练样本；

依次获取一个训练样本输入至所述原始深层神经网络中，并根据所述原始深层神经网络基于所述训练样本的输出结果，对所述原始深层神经网络中的加权参数进行调整；

返回执行获取一个训练样本输入至所述原始深层神经网络的操作，直至达到预先设定的训练结束条件。

7.根据权利要求6所述的方法，其特征在于，依次获取一个训练样本输入至所述原始深层神经网络中，并根据所述原始深层神经网络基于所述训练样本的输出结果，对所述原始深层神经网络中的加权参数进行调整具体包括：

8.根据权利要求7所述的方法，其特征在于，选取设定数量的训练样本包括：

根据搜索用户的图片点击日志，汇总与同一查询式样本对应的图片点击信息，其中，所述查询式样本包括：单一查询式或者满足设定相似度阈值条件的至少两个查询式；

根据汇总的所述图片点击信息，生成与所述查询式样本对应的正图片样本集以及负图片样本集；

选取设定数量的查询式样本作为所述训练查询式，并根据与各所述训练查询式分别对应的正图片样本集以及负图片样本集，生成与各所述训练查询式分别对应的正负训练对作为所述训练样本。

9.根据权利要求8所述的方法，其特征在于，所述图片点击信息包括：与所述查询式样本对应的点击图片；

根据汇总的所述图片点击信息，生成与所述查询式样本对应的正图片样本集以及负图片样本集具体包括：

10.根据权利要求8所述的方法，其特征在于，所述图片点击信息包括：与所述查询式样本对应的点击图片以及与所述查询式样本对应的图片搜索结果；

11.根据权利要求8所述的方法，其特征在于，根据与各所述训练查询式分别对应的正图片样本集以及负图片样本集，生成与各所述训练查询式分别对应的正负训练对作为所述训练样本具体包括：

12.根据权利要求11所述的方法，其特征在于，根据设定的样本图片选取规则，在所述目标正样本图片集中选取第一数量的目标正样本图片，在所述目标负样本图片集中选取第二数量的目标负样本图片还包括：

13.根据权利要求8所述的方法，其特征在于，在根据搜索用户的图片点击日志，汇总与同一查询式样本对应的图片点击信息之前，还包括：

滤除所述图片点击日志中包括的噪声日志。

14.一种图片搜索方法，其特征在于，包括：

获取用户输入的图片查询式；

将所述图片查询式以及待排序图片分别输入至通过权利要求1-13任一项所述的方法建立的图片搜索相关性预测模型中，分别计算各所述待排序图片与所述图片查询式之间的相关性度量值；

15.一种图片搜索相关性预测模型的建立装置，其特征在于，包括：

模型生成模块，用于将训练完成的所述原始深层神经网络作为所述图片搜索相关性预测模型；

所述训练样本具体包括：由训练查询式，以及与所述训练查询式分别对应的正样本图片以及负样本图片构成的正负训练对；

所述训练模块，具体用于：构造两个相同的原始深层神经网络分别用于接收由训练查询式、正样本图片构成的正训练对，以及由训练查询式、负样本图片构成的负训练对，实现模型训练。

16.根据权利要求15所述的装置，其特征在于，所述图片数据包括：图片关联文本数据、图片内容数据以及图片关联特征数据；

17.根据权利要求15所述的装置，其特征在于，所述训练模块包括：

训练样本选取单元，用于选取设定数量的训练样本；

18.根据权利要求17所述的装置，其特征在于，所述加权参数调整单元具体用于：

19.根据权利要求18所述的装置，其特征在于，所述训练样本选取单元具体包括：

20.一种图片搜索装置，其特征在于，包括：

图片查询式获取模块，用于获取用户输入的图片查询式；

相关性度量值计算模块，用于将所述图片查询式以及待排序图片分别输入至通过权利要求15-19任一项所述的装置建立的图片搜索相关性预测模型中，分别计算各所述待排序图片与所述图片查询式之间的相关性度量值；