CN110020078B

CN110020078B - 一种生成相关性映射字典及其验证相关性的方法和相关装置

Info

Publication number: CN110020078B
Application number: CN201711250962.2A
Authority: CN
Inventors: 刘慧慧; 周泽南; 苏雪峰; 佟子健
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2017-12-01
Filing date: 2017-12-01
Publication date: 2021-08-20
Anticipated expiration: 2037-12-01
Also published as: CN110020078A

Abstract

本发明实施例提供了一种生成相关性映射字典及其验证相关性的方法和相关装置，生成相关性映射字典的方法，包括：采集训练样本，所述训练样本包括样本图像与样本文本；对所述样本图像进行分类，获得图像类别；依据所述图像类别对所述样本文本进行分类，获得文本类别；根据所述图像类别与所述文本类别之间的映射关系生成相关性映射字典。相关性映射字典中明确了相关性，作为先验知识，使得后续验证时可以确定图文之间是否具有相关性，而并非相关程度，从而提高了验证相关性的精确度，从而在搜索场景中可以提高网页中图像及其相关文本之间的相关性，从而保证搜索到与查询词相关的图像，提高搜索的质量。

Description

一种生成相关性映射字典及其验证相关性的方法和相关装置

技术领域

本发明涉及计算机处理的技术领域，特别是涉及一种生成相关性映射字典的方法、一种基于相关性映射字典验证相关性的方法、一种生成相关性映射字典的装置、一种基于相关性映射字典验证相关性的装置、一种用于生成相关性映射字典的装置和一种用于基于相关性映射字典验证相关性的装置。

背景技术

随着网络的迅速发展，网络信息急剧增加。用户为了在海量的网络信息中寻找所需的网络信息，通常使用搜索引擎进行搜索。

这些网络信息中包含了大量的图像，用户在搜索引擎中输入查询词(即query)，意图搜索相关的图像，搜索引擎计算查询词与图像数据之间的相关性，返回搜索到的图像给用户。

为了计算查询词与图像之间的相关性，目前是搜索图像的相关文本，将查询词与该相关文本进行匹配，以召回图像，该相关文本包括图像所在网页的标题、文章标题、替换文本、描述文本和环绕文本等，通过索引和检索图像的相关文本，实现图像搜索的功能。

但是，如果网页中的图像与相关文本不相关，那么，搜索到的图像与查询词不相关，导致搜索质量下降。

发明内容

鉴于上述问题，为了解决上述文本与图片之间的相关程度精确度较低的问题，本发明实施例提出了一种生成相关性映射字典的方法、一种基于相关性映射字典验证相关性的方法和相应的一种生成相关性映射字典的装置、一种基于相关性映射字典验证相关性的装置、一种用于生成相关性映射字典的装置、一种用于基于相关性映射字典验证相关性的装置。

为了解决上述问题，本发明实施例公开了一种生成相关性映射字典的方法，包括：

采集训练样本，所述训练样本包括样本图像与样本文本；

对所述样本图像进行分类，获得图像类别；

依据所述图像类别对所述样本文本进行分类，获得文本类别；

根据所述图像类别与所述文本类别之间的映射关系生成相关性映射字典。

可选地，所述训练样本包括正训练样本、负训练样本；

所述正训练样本中的样本图像与样本文本具有相关性；

所述负训练样本中的样本图像与样本文本不具有相关性。

可选地，所述采集训练样本，包括：

从指定的第一网站抓取第一网页数据；

从所述第一网页数据提取图像数据与文本数据，作为正训练样本的样本图像与样本文本；

从指定的第二网站抓取第二网页数据；

从所述第一网页数据提取图像数据与文本数据，作为负训练样本的样本图像与样本文本。

可选地，所述采集训练样本，还包括：

从所述第一网页数据、所述第二网页数据中过滤指定的噪声数据；

其中，所述噪声数据包括广告数据。

可选地，所述文本类别包括第一子文本类别；

所述依据所述图像类别对所述样本文本进行分类，获得文本类别，包括：

将所述样本图像归属的图像类别，设置为所述样本图像对应的样本文本归属的第一子文本类别。

可选地，所述文本类别还包括第二子文本类别；

所述依据所述图像类别对所述样本文本进行分类，获得文本类别，还包括：

将归属于同一个第一子文本类别中的样本文本写入至聚合样本中；

对所述聚合样本进行聚类，获得所述样本文本归属的第二子文本类别。

可选地，还包括：

采用归属于所述图像类别的所述样本图像训练图像分类器；

采用归属于所述第一子文本类别或所述第二子文本类别的样本文本训练文本分类器。

可选地，所述映射关系包括正映射关系；

所述根据所述图像类别与所述文本类别之间的映射关系生成相关性映射字典，包括：

当所述样本图像与所述样本文本属于所述正训练样本时，则对所述样本图像归属的图像类别与所述样本文本归属的文本类别建立正映射关系；

将所述正映射关系存储至相关性映射字典中。

可选地，所述映射关系还包括负映射关系；

所述根据所述图像类别与所述文本类别之间的映射关系生成相关性映射字典，还包括：

当所述样本图像与所述样本文本属于所述负训练样本时，则对所述样本图像归属的图像类别与所述样本文本归属的文本类别建立负映射关系；

删除与所述负映射关系相同的正映射关系。

本发明实施例还公开了一种基于相关性映射字典验证相关性的方法，包括：

获取目标图像与所述目标图像所在网页中的目标文本；

对所述目标图像进行分类，获得图像类别；

对所述目标文本进行分类，获得文本类别；

在预设的相关性映射字典中依据所述图像类别与所述文本类别判断所述目标图像与所述目标文本之间是否具有相关性。

可选地，所述对所述目标图像进行分类，获得图像类别，包括：

调用预设的图像分类器对所述目标图像进行分类，获得图像类别。

可选地，所述文本类别包括第一子文本类别或第二子文本类别；

所述对所述目标文本进行分类，获得文本类别的步骤包括：

调用预设的文本分类器对所述目标文本进行分类，获得第一子文本类别或第二子文本类别；

其中，所述第一子文本类别与所述图像类别的类型相同，所述第二子文本类别基于所述第一子文本类别聚类获得。

可选地，所述在预设的相关性映射字典中依据所述图像类别与所述文本类别判断所述目标图像与所述目标文本之间是否具有相关性，包括：

在预设的相关性映射字典中判断所述图像类别与所述文本类别之间是否存在表征具有相关性的映射关系；

若是，则确定所述目标图像与所述目标文本之间具有相关性；

若否，则确定所述目标图像与所述目标文本之间不具有相关性。

本发明实施例还公开了一种生成相关性映射字典的装置，包括：

训练样本采集模块，用于采集训练样本，所述训练样本包括样本图像与样本文本；

图像分类模块，用于对所述样本图像进行分类，获得图像类别；

文本分类模块，用于依据所述图像类别对所述样本文本进行分类，获得文本类别；

相关性映射字典生成模块，用于根据所述图像类别与所述文本类别之间的映射关系生成相关性映射字典。

可选地，所述训练样本包括正训练样本、负训练样本；

所述正训练样本中的样本图像与样本文本具有相关性；

所述负训练样本中的样本图像与样本文本不具有相关性。

可选地，所述训练样本采集模块包括：

第一网页数据抓取子模块，用于从指定的第一网站抓取第一网页数据；

正训练样本提取子模块，用于从所述第一网页数据提取图像数据与文本数据，作为正训练样本的样本图像与样本文本；

第二网页数据抓取子模块，用于从指定的第二网站抓取第二网页数据；

负训练样本提取子模块，用于从所述第一网页数据提取图像数据与文本数据，作为负训练样本的样本图像与样本文本。

可选地，所述训练样本采集模块还包括：

噪声数据过滤子模块，用于从所述第一网页数据、所述第二网页数据中过滤指定的噪声数据；

其中，所述噪声数据包括广告数据。

可选地，所述文本类别包括第一子文本类别；

所述文本分类模块包括：

同类设置子模块，用于将所述样本图像归属的图像类别，设置为所述样本图像对应的样本文本归属的第一子文本类别。

可选地，所述文本类别还包括第二子文本类别；

所述文本分类模块还包括：

文本聚合子模块，用于将归属于同一个第一子文本类别中的样本文本写入至聚合样本中；

文本聚类子模块，用于对所述聚合样本进行聚类，获得所述样本文本归属的第二子文本类别。

可选地，还包括：

图像分类器训练模块，用于采用归属于所述图像类别的所述样本图像训练图像分类器；

文本分类器训练模块，用于采用归属于所述第一子文本类别或所述第二子文本类别的样本文本训练文本分类器。

可选地，所述映射关系包括正映射关系；

所述相关性映射字典生成模块包括：

正映射关系建立子模块，用于当所述样本图像与所述样本文本属于所述正训练样本时，则对所述样本图像归属的图像类别与所述样本文本归属的文本类别建立正映射关系；

正映射关系存储子模块，用于将所述正映射关系存储至相关性映射字典中。

可选地，所述映射关系还包括负映射关系；

所述相关性映射字典生成模块还包括：

负映射关系建立子模块，用于当所述样本图像与所述样本文本属于所述负训练样本时，则对所述样本图像归属的图像类别与所述样本文本归属的文本类别建立负映射关系；

正映射关系删除子模块，用于删除与所述负映射关系相同的正映射关系。

本发明实施例还公开了一种基于相关性映射字典验证相关性的装置，包括：

目标信息获取模块，用于获取目标图像与所述目标图像所在网页中的目标文本；

图像类别确定模块，用于对所述目标图像进行分类，获得图像类别；

文本类别确定模块，用于对所述目标文本进行分类，获得文本类别；

相关性验证模块，用于在预设的相关性映射字典中依据所述图像类别与所述文本类别判断所述目标图像与所述目标文本之间是否具有相关性。

可选地，所述图像类别确定模块包括：

图像分类子模块，用于调用预设的图像分类器对所述目标图像进行分类，获得图像类别。

所述文本类别确定模块包括：

文本分类子模块，用于调用预设的文本分类器对所述目标文本进行分类，获得第一子文本类别或第二子文本类别；

可选地，所述相关性验证模块包括：

映射关系判断子模块，用于在预设的相关性映射字典中判断所述图像类别与所述文本类别之间是否存在表征具有相关性的映射关系；若是，则调用第一确定子模块，若否，则调用第二确定子模块；

第一确定子模块，用于确定所述目标图像与所述目标文本之间具有相关性；

第二确定子模块，用于确定所述目标图像与所述目标文本之间不具有相关性。

本发明实施例还公开了一种用于生成相关性映射字典的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

采集训练样本，所述训练样本包括样本图像与样本文本；

对所述样本图像进行分类，获得图像类别；

可选地，所述训练样本包括正训练样本、负训练样本；

所述正训练样本中的样本图像与样本文本具有相关性；

所述负训练样本中的样本图像与样本文本不具有相关性。

可选地，所述一个或者一个以上程序还包含用于进行以下操作的指令：

从指定的第一网站抓取第一网页数据；

从指定的第二网站抓取第二网页数据；

其中，所述噪声数据包括广告数据。

可选地，所述文本类别包括第一子文本类别；

所述一个或者一个以上程序还包含用于进行以下操作的指令：

可选地，所述文本类别还包括第二子文本类别；

采用归属于所述图像类别的所述样本图像训练图像分类器；

可选地，所述映射关系包括正映射关系；

将所述正映射关系存储至相关性映射字典中。

可选地，所述映射关系还包括负映射关系；

删除与所述负映射关系相同的正映射关系。

本发明实施例还公开了一种用于基于相关性映射字典验证相关性的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取目标图像与所述目标图像所在网页中的目标文本；

对所述目标图像进行分类，获得图像类别；

对所述目标文本进行分类，获得文本类别；

本发明实施例还公开了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得处理器执行上述中一个或多个的方法。

本发明实施例包括以下优点：

在本发明实施例中，对海量的样本图像进行自动分类，获得图像类别，基于样本图像与样本文本之间的对应关系，标注样本文本的文本类别，从而依据图像类别与文本类别之间的映射关系生成相关性映射字典，一方面，相关性映射字典中明确了相关性，作为先验知识，使得后续验证时可以确定图文之间是否具有相关性，而并非相关程度，从而提高了验证相关性的精确度，从而在搜索场景中可以提高网页中图像及其相关文本之间的相关性，从而保证搜索到与查询词相关的图像，提高搜索的质量，另一方面，实现训练样本的自动标注，提高了处理速度，降低了成本。

在本发明实施例中，获取目标图像及其图像类别，当接收到目标文本时，对目标文本进行分类，获得文本类别，在预设的相关性映射字典中依据图像类别与文本类别判断目标图像与目标文本之间是否具有相关性，相关性映射字典中明确了相关性，作为先验知识，从而在验证时确定图文之间是否具有相关性，并非相关程度，提高了验证相关性的精确度，从而在搜索场景中可以提高网页中图像及其相关文本之间的相关性，从而保证搜索到与查询词相关的图像，提高搜索的质量。

附图说明

图1是本发明的一种生成相关性映射字典的方法实施例的步骤流程图；

图2是本发明的一种基于相关性映射字典验证相关性的方法实施例的步骤流程图；

图3是本发明的一种目标图像的示例图；

图4是本发明的一种生成相关性映射字典的装置实施例的结构框图；

图5是本发明的一种基于相关性映射字典验证相关性的装置实施例的结构框图；

图6是本发明实施例中服务器的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种生成相关性映射字典的方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，采集训练样本。

一方面，训练样本包括样本图像与样本文本，即样本图像与样本文本作为相互对应的数据，用于训练相关性映射字典。

另一方面，训练样本包括正训练样本、负训练样本。

其中，正训练样本中的样本图像与样本文本具有相关性，即样本图像与样本文本描述同一样事情、对象等。

负训练样本中的样本图像与样本文本不具有相关性，即样本图像与样本文本描述不相同的事情、对象等。

需要说明的是，训练样本至少可以包括正训练样本，以建立具有相关性的正映射关系，当然，在正训练样本的基础上，还可以包括负训练样本，以建立不具有相关性的负映射关系，对正训练样本的映射关系进行修正。

在本发明的一个实施例中，步骤101可以包括如下子步骤：

子步骤S11，从指定的第一网站抓取第一网页数据。

子步骤S12，从所述第一网页数据提取图像数据与文本数据，作为正训练样本的样本图像与样本文本。

子步骤S13，从指定的第二网站抓取第二网页数据。

子步骤S14，从所述第一网页数据提取图像数据与文本数据，作为负训练样本的样本图像与样本文本。

在具体实现中，可以预先设置一些规范的网站作为第一网站，如大型的门户网站、专业的技术网站等，这些网站中网页数据的图像数据与文本数据大多是相关的。

因此，可以通过爬虫(spider)程序从第一网站抓取第一网页数据，并提取图像数据与文本数据，可以作为正训练样本的样本图像与样本文本。

此外，也可以设置一些杂乱的网站作为第二网站，如小型的视频网站、业余的论坛网站等，这些网站中网页数据的图像数据与文本数据大多是不相关的。

因此，可以通过爬虫(spider)从第二网站抓取第二网页数据，并提取图像数据与文本数据，可以作为负训练样本的样本图像与样本文本。

在实际应用中，第一网页数据、第二网页数据中的部分描述可能存在噪声，因此，可以从第一网页数据、第二网页数据中过滤指定的噪声数据，保证从第一网页数据、第二网页数据干净。

其中，噪声数据包括广告数据。

例如，第一网页数据或第二网页数据中的主题为“水果”，但是，标题中携带广告数据“水果挑选小诀窍”、“***英语网”(***为品牌名)、“英语学习门户”。

对于广告数据，可以通过语义模型进行过滤。

除了广告数据之外，还可以对其他噪声数据进行过滤，本发明实施例对此不加以限制。

当然，上述采集训练样本的方法只是作为示例，在实施本发明实施例时，可以根据实际情况设置其他采集训练样本的方法，例如，手动标注相关的图像数据、文本数据作为正训练样本的样本图像、样本文本，手动标注不相关的图像数据、文本数据作为负训练样本的样本图像、样本文本，本发明实施例对此不加以限制。另外，除了上述采集训练样本的方法外，本领域技术人员还可以根据实际需要采用其它采集训练样本的方法，本发明实施例对此也不加以限制。

步骤102，对所述样本图像进行分类，获得图像类别。

在具体实现中，可以通过聚类算法对海量的样本图像进行聚类，相同或相似的样本图像会聚类到同一个簇中，从而间接获得图像类别。

所谓聚类，可以将相似的事物聚集在一起，而将不相似的事物划分到不同的类别的过程。

在本发明实施例中，可以利用VGG模型从样本图像中抽取图片特征，利用图像特征进行聚类，从而得到多个簇。

VGG模型是把网络分为5组，使用3*3的滤波器，并把它们组合起来作为一个卷积序列进行处理。

在本发明实施例中，可以将聚类的结果作为有标签的训练数据，采用归属于图像类别的样本图像，通过深度神经网络等方式训练图像分类器。

当然，也可以对样本图像建立多层次分类体系或直接从样本图像中提取标签Tag，实现多标签分类，更充分表达图像信息。

步骤103，依据所述图像类别对所述样本文本进行分类，获得文本类别。

在具体实现中，由于训练样本中的样本图像与样本文本是对应的，因此，可以基于样本图像的分类结果对样本文本进行分类，获得文本类别。

需要说明的是，对应，指的是作为训练样本中的数据对(样本图像、样本文本)之间的对应关系，而并非指两者之间的相关性。

在本发明的一个实施例中，文本类别包括第一子文本类别，则在本发明实施例中，步骤103可以包括如下子步骤：

子步骤S21，将所述样本图像归属的图像类别，设置为所述样本图像对应的样本文本归属的第一子文本类别。

在本发明实施例中，对于同一个训练样本中，样本图像归属的图像类别，其对应的样本文本也属于同一个类别，这样，通过对同一个图像类别中样本图像对应的样本文本划分至同一个类别，就得到了样本文本的第一子文本类别。

在本发明的另一个实施例中，文本类别还包括第二子文本类别，则在本发明实施例中，步骤103可以包括如下子步骤：

子步骤S22，将归属于同一个第一子文本类别中的样本文本写入至聚合样本中。

子步骤S23，对所述聚合样本进行聚类，获得所述样本文本归属的第二子文本类别。

由于样本图像的细节较多，因此，样本图像的图像分类的数量较多(如1000)，相对应地，第一子文本类别的数量也较多(如1000)，对于文本体系来说，这个量级可能数目太大，许多类别可能是相似的，因此，第一子文本类别可能存在一定的冗余类别。

因此，在本发明实施例中，可以将同一第一子文本类别中的样本文本的内容写入至同一个聚合样本中，通过利用Word2vec模型等方式将聚合样本转化为向量，再通过Kmeans、向量空间模型VSM等聚类算法在第一子文本类别的基础上采用该向量进行二次聚类，得到第二子文本类别，减少类别的数量(如从1000个第一子文本类别聚类为50个第二子文本类别)，减少类别的冗余程度。

其中，word2vec模型是一个将训练数据中的单词转换成向量形式的工具，可以将单词转换为200维的词向量，该单词(包括实体词)可以存储在hash(哈希)表中。

在本发明实施例中，可以将聚类的结果作为有标签的训练数据，采用归属于第一子文本类别或第二子文本类别的样本文本，通过抽取文本语义特征以及单词级别的特征，训练文本分类器。

步骤104，根据所述图像类别与所述文本类别之间的映射关系生成相关性映射字典。

在具体实现中，可以对图像类别与文本类别之间建立映射关系，得到先验知识，从而生成相关性映射字典。

在本发明的一个实施例中，映射关系包括正映射关系，则在本发明实施例中，步骤104可以包括如下子步骤：

子步骤S31，当所述样本图像与所述样本文本属于所述正训练样本时，则对所述样本图像归属的图像类别与所述样本文本归属的文本类别建立正映射关系。

子步骤S32，将所述正映射关系存储至相关性映射字典中。

在本发明实施例中，对于正训练样本中的样本图像与样本文本，则对其归属的图像类别与文本类别建立正映射关系，并存储在相关性映射字典中。

在本发明的一个实施例中，映射关系还包括负映射关系，则在本发明实施例中，步骤104可以包括如下子步骤：

子步骤S33，当所述样本图像与所述样本文本属于所述负训练样本时，则对所述样本图像归属的图像类别与所述样本文本归属的文本类别建立负映射关系。

子步骤S34，删除与所述负映射关系相同的正映射关系。

在本发明实施例中，对于负训练样本中的样本图像与样本文本，则对其归属的图像类别与文本类别建立负映射关系。

如果存在与该负映射关系相同的正映射关系，则可以删除该正映射关系，避免存储至相关性映射字典中，又或者，从相关性映射字典中删除该正映射关系，减少错误的映射关系，提高相关性映射字典的精确度。

在网络海量的数据中，图片和文本大部分是无标签数据，如果对其进行人工标注，速度较慢，成本较高。

在本发明实施例中，对海量的样本图像进行自动分类，获得图像类别，基于样本图像与样本文本之间的对应关系，标注样本文本的文本类别，从而依据图像类别与文本类别之间的映射关系生成相关性映射字典。一方面，相关性映射字典中明确了相关性，作为先验知识，使得后续验证时可以确定图文之间是否具有相关性，而并非相关程度，从而提高了验证相关性的精确度，从而在搜索场景中可以提高网页中图像及其相关文本之间的相关性，从而保证搜索到与查询词相关的图像，提高搜索的质量。另一方面，实现训练样本的自动标注，提高了处理速度，降低了成本。

参照图2，示出了本发明的一种基于相关性映射字典验证相关性的方法实施例的步骤流程图，具体可以包括如下步骤：

步骤201，获取目标图像与所述目标图像所在网页中的目标文本。

在本发明实施例中，可以获取目标图像与目标文本，待验证是否具有相关性。

例如，可以通过爬虫(spider)程序抓取网页数据，从该网页数据中抓取目标图像，或者，从图床、从搜索引擎的图库中抓取目标图像，等等。

又例如，可以通过爬虫(spider)程序抓取网页数据，从该网页数据中抓取目标文本，等等。

步骤202，对所述目标图像进行分类，获得图像类别。

在具体实现中，可以调用预设的图像分类器对目标图像进行分类，获得图像类别。

其中，该图像分类器采用归属于该图像类别的样本图像训练获得。

当然，该图像分类器也可以采用人工标注类别的图像训练获得，本发明实施例对此不加以限制。

需要说明的是，对于应用在搜索引擎等场景，目标图像的数据量较大，因此，目标图像的获取及其分类，可以在离线时执行，在抓取到网页中的文本等目标文本时，再对目标文本进行分类，并计算目标文本与目标图像之间是否具有相关性。

步骤203，对所述目标文本进行分类，获得文本类别。

在具体实现中，文本类别包括第一子文本类别或第二子文本类别。

其中，第一子文本类别与图像类别的类型相同，第二子文本类别基于第一子文本类别聚类获得。

需要说明的是，第一子文本类别与图像类别之间的映射关系是一对一的，由于第二子文本类别是聚类于第一子文本类别，即第二子文本类别与图像类别之间的映射关系是一对多的，这个第一子文本类别与第二子文本类别之间的聚类从属关系也可以记录下来。

因此，在本发明实施例中，可以调用预设的文本分类器对目标文本进行分类，获得第一子文本类别或第二子文本类别。

其中，该文本分类器采用归属于该第一子文本类别或第二子文本类别的样本文本训练获得。

当然，该文本分类器也可以采用人工标注类别的文本训练获得，本发明实施例对此不加以限制。

步骤204，在预设的相关性映射字典中依据所述图像类别与所述文本类别判断所述目标图像与所述目标文本之间是否具有相关性。

在本发明实施例中，可以针对目标文本与目标图像，依据两者所属的文本类别与图像类别判断两者之间是否具有相关性。

在实际应用中，相关性映射字典中记录具有相关性的、图像类别与文本类别之间的映射关系，属于先验知识。

因此，在本发明的一个实施例中，可以在预设的相关性映射字典中判断图像类别与文本类别之间是否存在表征具有相关性的映射关系。

若是，则确定目标图像与目标文本之间具有相关性。

若否，则确定目标图像与目标文本之间不具有相关性。

在本发明实施例中，遍历相关性映射字典，根据当前的图像类别或当前的文本类别在相关性映射字典记录的映射关系中进行查找，如果查找到其映射当前的文本类别或当前的图像类别，则可以确定当前的图像类别与当前的文本类别下具有相关性，因此，当前图像类别下的目标图像与当前文本类别下的目标文本具有相关性，否则，确定当前的图像类别与当前的文本类别下不具有相关性，当前图像类别下的目标图像与当前文本类别下的目标文本不具有相关性。

对于搜索引擎而言，目标图像的图像类别作为其属性信息、目标文本的文本类别作为其属性、以及两者之间的相关性，可以作为排序因子，优化搜索结果的排序。

为使本领域技术人员更好地理解本发明实施例，以下通过具体的示例来说明本发明实施例中基于相关性映射字典验证相关性的方法。

在某个网站中抓取一个网页数据，包括如图3所示的目标图像，及作为目标文本的标题“北国之春歌谱”、“北国之春简谱”、“邓丽君北国之春歌谱”。

其中，该目标图像主要描述某个公司年会的场景。

图像类别有1000个，文本类别有50个。

利用图像分类器计算该目标图像最有可能归属的10个图像类别(括号中的为概率)。

282(0.528961)、988(0.399895)、684(0.021819)、621(0.018107)、909(0.006368)、273(0.005640)、700(0.004097)、383(0.002044)、24(0.001453)、657(0.001166)

利用文本分类器计算该目标文本归属第7个文本类别。

在相关性映射字典中并没有记录第282、988、684、621、909、273、700、383、24、657个图像类别与第7个文本类别之间的映射关系，因此，该目标图像与该目标文本不具有相关性。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图4，示出了本发明的一种生成相关性映射字典的装置实施例的结构框图，具体可以包括如下模块：

训练样本采集模块401，用于采集训练样本，所述训练样本包括样本图像与样本文本；

图像分类模块402，用于对所述样本图像进行分类，获得图像类别；

文本分类模块403，用于依据所述图像类别对所述样本文本进行分类，获得文本类别；

相关性映射字典生成模块404，用于根据所述图像类别与所述文本类别之间的映射关系生成相关性映射字典。

在具体实现中，所述训练样本包括正训练样本、负训练样本；

所述正训练样本中的样本图像与样本文本具有相关性；

所述负训练样本中的样本图像与样本文本不具有相关性。

在本发明的一个实施例中，所述训练样本采集模块401包括：

在本发明的一个实施例中，所述训练样本采集模块401还包括：

其中，所述噪声数据包括广告数据。

在本发明的一个实施例中，所述文本类别包括第一子文本类别；

所述文本分类模块403包括：

类间文本查询子模块，用于查询同一个图像类别中样本图像所对应的样本文本；

同类设置子模块，用于确定所述样本文本归属于同一个第一子文本类别。

在本发明的一个实施例中，所述文本类别还包括第二子文本类别；

所述文本分类模块403还包括：

文本聚合子模块，用于归属于同一个第一子文本类别中的样本文本写入至聚合样本中；

在本发明的一个实施例中，还包括：

在本发明的一个实施例中，所述映射关系包括正映射关系；

所述相关性映射字典生成模块404包括：

在本发明的一个实施例中，所述映射关系还包括负映射关系；

所述相关性映射字典生成模块404还包括：

参照图5，示出了本发明的一种基于相关性映射字典验证相关性的装置实施例的结构框图，具体可以包括如下模块：

目标信息获取模块501，用于获取目标图像与所述目标图像所在网页中的目标文本；

图像类别确定模块502，用于对所述目标图像进行分类，获得图像类别；

文本类别确定模块503，用于对所述目标文本进行分类，获得文本类别；

相关性验证模块504，用于在预设的相关性映射字典中依据所述图像类别与所述文本类别判断所述目标图像与所述目标文本之间是否具有相关性。

在本发明的一个实施例中，所述图像类别确定模块502包括：

在本发明的一个实施例中，所述文本类别包括第一子文本类别或第二子文本类别；

所述文本类别确定模块503包括：

在本发明的一个实施例中，所述相关性验证模块504包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是本发明实施例中服务器的结构示意图。该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在服务器600上执行存储介质630中的一系列指令操作。

服务器600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，一个或一个以上键盘656，和/或，一个或一个以上操作系统641，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种生成相关性映射字典的方法，其特征在于，包括：

采集训练样本，所述训练样本包括样本图像与样本文本；

对所述样本图像进行分类，获得图像类别；

根据所述图像类别与所述文本类别之间的映射关系生成相关性映射字典；

其中，所述训练样本包括正训练样本、负训练样本；

所述正训练样本中的样本图像与样本文本具有相关性；

所述负训练样本中的样本图像与样本文本不具有相关性；

其中，所述采集训练样本，包括：

从指定的第一网站抓取第一网页数据；

从指定的第二网站抓取第二网页数据；

2.根据权利要求1所述的方法，其特征在于，所述采集训练样本，还包括：

其中，所述噪声数据包括广告数据。

3.根据权利要求1或2所述的方法，其特征在于，所述文本类别包括第一子文本类别；

4.根据权利要求3所述的方法，其特征在于，所述文本类别还包括第二子文本类别；

5.根据权利要求4所述的方法，其特征在于，还包括：

采用归属于所述图像类别的所述样本图像训练图像分类器；

6.根据权利要求1或2所述的方法，其特征在于，所述映射关系包括正映射关系；

将所述正映射关系存储至相关性映射字典中。

7.根据权利要求6所述的方法，其特征在于，所述映射关系还包括负映射关系；

删除与所述负映射关系相同的正映射关系。

8.一种基于上述权利要求1-7任一所述的相关性映射字典验证相关性的方法，其特征在于，包括：

获取目标图像与所述目标图像所在网页中的目标文本；

对所述目标图像进行分类，获得图像类别；

对所述目标文本进行分类，获得文本类别；

9.根据权利要求8所述的方法，其特征在于，所述对所述目标图像进行分类，获得图像类别，包括：

调用预设的图像分类器对所述目标图像进行分类，获得图像类别；所述预设的图像分类器采用归属于所述图像类别的样本图像训练获得。

10.根据权利要求8所述的方法，其特征在于，所述文本类别包括第一子文本类别或第二子文本类别；

所述对所述目标文本进行分类，获得文本类别的步骤包括：

调用预设的文本分类器对所述目标文本进行分类，获得第一子文本类别或第二子文本类别；所述预设的文本分类器采用归属于所述第一子文本类别或第二子文本类别的样本文本训练获得；

11.根据权利要求8或9或10所述的方法，其特征在于，所述在预设的相关性映射字典中依据所述图像类别与所述文本类别判断所述目标图像与所述目标文本之间是否具有相关性，包括：

12.一种生成相关性映射字典的装置，其特征在于，包括：

相关性映射字典生成模块，用于根据所述图像类别与所述文本类别之间的映射关系生成相关性映射字典；

其中，所述训练样本包括正训练样本、负训练样本；

所述正训练样本中的样本图像与样本文本具有相关性；

所述负训练样本中的样本图像与样本文本不具有相关性；

其中，所述训练样本采集模块包括：

13.根据权利要求12所述的装置，其特征在于，所述训练样本采集模块还包括：

其中，所述噪声数据包括广告数据。

14.根据权利要求12或13所述的装置，其特征在于，所述文本类别包括第一子文本类别；

所述文本分类模块包括：

15.根据权利要求14所述的装置，其特征在于，所述文本类别还包括第二子文本类别；

所述文本分类模块还包括：

16.根据权利要求15所述的装置，其特征在于，还包括：

17.根据权利要求12或13所述的装置，其特征在于，所述映射关系包括正映射关系；

所述相关性映射字典生成模块包括：

18.根据权利要求17所述的装置，其特征在于，所述映射关系还包括负映射关系；

所述相关性映射字典生成模块还包括：

19.一种基于上述权利要求1-7任一所述的相关性映射字典验证相关性的装置，其特征在于，包括：

20.根据权利要求19所述的装置，其特征在于，所述图像类别确定模块包括：

图像分类子模块，用于调用预设的图像分类器对所述目标图像进行分类，获得图像类别；所述预设的图像分类器采用归属于所述图像类别的样本图像训练获得。

21.根据权利要求19所述的装置，其特征在于，所述文本类别包括第一子文本类别或第二子文本类别；

所述文本类别确定模块包括：

文本分类子模块，用于调用预设的文本分类器对所述目标文本进行分类，获得第一子文本类别或第二子文本类别；所述预设的文本分类器采用归属于所述第一子文本类别或第二子文本类别的样本文本训练获得；

22.根据权利要求19或20或21所述的装置，其特征在于，所述相关性验证模块包括：

23.一种用于生成相关性映射字典的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序，所述一个或者一个以上程序包含用于进行以下操作的指令：

采集训练样本，所述训练样本包括样本图像与样本文本；

对所述样本图像进行分类，获得图像类别；

其中，所述训练样本包括正训练样本、负训练样本；

所述正训练样本中的样本图像与样本文本具有相关性；

所述负训练样本中的样本图像与样本文本不具有相关性；

其中，所述一个或者一个以上程序还包含用于进行以下操作的指令：

从指定的第一网站抓取第一网页数据；

从指定的第二网站抓取第二网页数据；

24.根据权利要求23所述的装置，其特征在于，所述一个或者一个以上程序还包含用于进行以下操作的指令：

其中，所述噪声数据包括广告数据。

25.根据权利要求23或24所述的装置，其特征在于，所述文本类别包括第一子文本类别；

26.根据权利要求25所述的装置，其特征在于，所述文本类别还包括第二子文本类别；

27.根据权利要求26所述的装置，其特征在于，所述一个或者一个以上程序还包含用于进行以下操作的指令：

采用归属于所述图像类别的所述样本图像训练图像分类器；

28.根据权利要求23或24所述的装置，其特征在于，所述映射关系包括正映射关系；

将所述正映射关系存储至相关性映射字典中。

29.根据权利要求28所述的装置，其特征在于，所述映射关系还包括负映射关系；

删除与所述负映射关系相同的正映射关系。

30.一种用于基于上述权利要求1-7任一所述的相关性映射字典验证相关性的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序，所述一个或者一个以上程序包含用于进行以下操作的指令：

获取目标图像与所述目标图像所在网页中的目标文本；

对所述目标图像进行分类，获得图像类别；

对所述目标文本进行分类，获得文本类别；

31.根据权利要求30所述的装置，其特征在于，所述一个或者一个以上程序还包含用于进行以下操作的指令：

32.根据权利要求30所述的装置，其特征在于，所述文本类别包括第一子文本类别或第二子文本类别；

33.根据权利要求30或31或32所述的装置，其特征在于，所述一个或者一个以上程序还包含用于进行以下操作的指令：

34.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得处理器执行如权利要求1-11中一个或多个的方法。