CN108416028A

CN108416028A - 一种搜索内容资源的方法、装置及服务器

Info

Publication number: CN108416028A
Application number: CN201810195551.6A
Authority: CN
Inventors: 董维山; 王园; 毛妤; 袁洁; 陈曼仪; 杨茗名
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-03-09
Filing date: 2018-03-09
Publication date: 2018-08-17
Anticipated expiration: 2038-03-09
Also published as: CN108416028B; WO2019169872A1

Abstract

本发明提出一种搜索内容资源的方法、装置和服务器。所述方法包括：获取查询图片的文本特征和视觉特征；比较所述查询图片的文本特征与各内容资源的文本特征的文本相似度；比较所述查询图片的视觉特征与各内容资源的视觉特征的视觉相似度；根据所述查询图片与各内容资源的文本相似度和视觉相似度，从各内容资源中确定出内容搜索结果。本发明实施例查询的技术方案在搜索内容的过程中结合了文本的相似度和视觉相似度，这样可以准确地搜索到所需的内容资源。

Description

一种搜索内容资源的方法、装置及服务器

技术领域

本发明涉及计算机网络技术领域，尤其涉及一种搜索内容资源的方法、装置及服务器。

背景技术

随着计算机技术的发展，出现了许多新的内容资源，例如全景(panorama) 图片、全景视频、三维(3D)模型、三维动画及其在虚拟现实(virtual reality， VR)及增强现实(augmented reality，AR)场景下的展示等。同时，摄影技术 (如鱼眼镜头)、建模技术和编程工具也在不断发展，这就使得产生上述内容资源越来越容易。在互联网上，这种新的内容资源也越来越多的出现。与传统的文本、二维图片、普通视频和音频等)相比，这些内容资源具有连贯性、多线性、多角度、临场感、大空间、高交互、信息即时性、线上联动线下等优点。

传统的互联网搜索技术主要利用文本信息对海量网页内容进行索引。典型地，利用词频TF-IDF(term frequency–inverse document frequency，词频-逆向文件频率)以及词向量(word2vec)技术等，在网页库中建立文字索引，并搜索内容匹配用户文本查询(query)的网页。随着图片、视频内容的大量出现以及深度神经网络技术的发展，还出现了图片搜索、语音搜索和音乐搜索等。

然而，针对上文提到的新的内容资源，由于其形态超越了文本、普通二维图片、视频、音乐的表达空间，用户很难方便、快捷地使用当前的搜索引擎技术搜索这些内容资源。

发明内容

本发明实施例提供一种搜索内容资源的方法、装置及服务器，以解决或缓解背景技术中的一项或多项以上技术问题，至少提供一种有益的选择。

第一方面，本发明实施例提供了一种搜索内容资源的方法，包括：

获取查询图片的文本特征和视觉特征；

比较所述查询图片的文本特征与各内容资源的文本特征的文本相似度；

比较所述查询图片的视觉特征与各内容资源的视觉特征的视觉相似度；

根据所述查询图片与各内容资源的文本相似度和视觉相似度，从各内容资源中确定出内容搜索结果。

结合第一方面，本发明在第一方面的第一种实施方式中，根据所述查询图片与各内容资源的文本相似度和视觉相似度，从各内容资源中确定出内容搜索结果，包括：

根据所述查询图片与各内容资源的文本相似度和视觉相似度，得到所述查询图片与各内容资源的总体相似度；

根据所述查询图片与各内容资源的总体相似度，从各内容资源中确定出内容搜索结果。

结合第一方面的第一种实施方式，在第一方面的第二种实施方式中，根据所述查询图片与各内容资源的文本相似度和视觉相似度，得到所述查询图片与各内容资源的总体相似度，包括：

对所述查询图片与各内容资源的文本相似度和视觉相似度按照设定阈值进行过滤；

根据过滤后的所述查询图片与各内容资源的文本相似度和视觉相似度，得到所述查询图片与各内容资源的总体相似度。

结合第一方面，本发明在第一方面的第三种实施方式中，获取查询图片的文本特征，包括：

采用图片分类模型对所述查询图片的图片内容进行识别，从所述查询图片的中提取文本特征；或

根据所述查询图片的统一资源定位符，获取对应的网页内容，从所述网页内容中提取所述查询图片的文本特征。

结合第一方面，第一方面的第一种实施方式或第一方面的第二种实施方式或第一方面的第三种实施方式，本发明在第一方面的第四种实施方式中，比较所述查询图片的文本特征与各内容资源的文本特征的文本相似度，包括：

比较所述查询图片与内容资源库中的各所述内容资源的文本标签的文本相似度。

结合第一方面、第一方面的第一种实施方式或第一方面的第二种实施方式或第一方面的第三种实施方式，本发明在第一方面的第五种实施方式中，还包括：比较所述查询图片的视觉特征与各内容资源的视觉特征的视觉相似度，包括：

对内容资源库中的各内容资源进行采样，以获得各内容资源对应的各采样图片；

对于每个内容资源，比较该内容资源对应的各采样图片的视觉特征与所述查询图片的视觉特征的视觉相似度；

根据该内容资源对应的各采样图片的视觉特征与所述查询图片的视觉特征的视觉相似度，确定该内容资源与所述查询图片的视觉特征的视觉相似度。

结合第一方面的第五种实施方式，本发明在第一方面的第六种实施方式中，对内容资源库中的各内容资源进行采样，包括：

在可视空间内，以预设的观察方式和采样方式，对各内容资源进行视角采样；

其中，所述观察方式包括观察位置、角度和可视范围中的至少一项。

第二方面，本发明实施例提供了一种搜索内容资源的装置，包括：

获取模块，配置为获取查询图片的文本特征和视觉特征；

第一比较模块，配置为比较所述查询图片的文本特征与各内容资源的文本特征的文本相似度；

第二比较模块，配置为比较所述查询图片的视觉特征与各内容资源的视觉特征的视觉相似度；

确定模块，配置为根据所述查询图片与各内容资源的文本相似度和视觉相似度，从各内容资源中确定出内容搜索结果。

结合第二方面，本发明在第二方面的第一种实施方式中，所述确定模块包括：

第一计算子模块，配置为根据所述查询图片与各内容资源的文本相似度和视觉相似度，得到所述查询图片与各内容资源的总体相似度；

确定子模块，配置为根据所述查询图片与各内容资源的总体相似度，从各内容资源中确定出内容搜索结果。

结合第二方面的第二种实施方式，本发明在第二方面的第三种实施方式中，所述第一计算子模块还配置为：

结合第二方面，本发明在第二方面的第三种实施方式中，所述获取模块包括：

识别子模块，配置为采用图片分类模型对所述查询图片的图片内容进行识别，从所述查询图片的中提取文本特征；或

提取子模块，配置为根据所述查询图片的统一资源定位符，获取对应的网页内容，从所述网页内容中提取所述查询图片的文本特征。

结合第二方面、第二方面的第一种实施方式、第二方面的第二种实施方式或第二方面的第三种实施方式，在本发明第二方面的第四种实施方式中，所述第一比较模块包括：

第一比较子模块，配置为比较所述查询图片与内容资源库中的各所述内容资源的文本标签的文本相似度。

结合第二方面、第二方面的第一实施方式、第二方面的第二种实施方式或第二方面的第三种实施方式，在本发明第二方面的第五种实施方式中，所述第二比较模块包括：

采样子模块，对内容资源库中的各内容资源进行采样，以获得各内容资源对应的各采样图片；

第二比较子模块，配置为对于每个内容资源，比较该内容资源对应的各采样图片的视觉特征与所述查询图片的视觉特征的视觉相似度；

第二计算子模块，配置为根据该内容资源对应的各采样图片的视觉特征与所述查询图片的视觉特征的视觉相似度，确定该内容资源与所述查询图片的视觉特征的视觉相似度。

结合第二方面的第五种实施方式，在本发明的第六种实施方式中，所述采样子模块具体配置为：在可视空间内，以预设的观察方式和采样方式，对各内容资源进行视角采样；

第三方面，本发明实施例提供一种服务器，所述服务器包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权上所述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储搜索内容资源的装置所用的计算机软件指令，其包括用于执行上述第一方面中搜索内容资源的方法为搜索内容资源的装置所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果：本发明实施例查询的技术方案可以根据查询图片的文本特征和视觉特征，比较所述查询图片的文本特征与各内容资源的文本特征的文本相似度，比较所述查询图片的视觉特征与各内容资源的视觉特征的视觉相似度，然后根据所述查询图片与各内容资源的文本相似度和视觉相似度，从各内容资源中确定出内容搜索结果，由于在搜索内容的过程中结合了文本的相似度和视觉相似度，这样可以准确地搜索到所需的内容资源。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1为本发明实施例一的搜索内容资源的方法的流程图；

图2为本发明实施例二的搜索内容资源的方法的流程图；

图3为本发明实施例二的搜索内容资源的方法的对内容资源进行视角采样的示意图；

图4为本发明实施例二的搜索内容资源的方法的查询图片与内容资源的视觉特征比对示意图；

图5为本发明实施例三的搜索内容资源的方法的流程图；

图6为本发明实施例四的搜索内容资源的装置的示意图；

图7为本发明实施例五的搜索内容资源的装置的示意图；

图8为本发明实施例六的服务器的示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

实施例一

本发明实施例提供了一种搜索内容资源的方法。如图1所示，为本发明实施例的搜索内容资源的方法的流程图。本发明实施例的搜索内容资源的方法包括以下步骤：

S101，获取查询图片的文本特征和视觉特征。

本发明实施例中，查询图片可以包括但不限于网络图片、相册中存储的图片、摄像机拍摄的图片或者手绘草图等。

本发明实施例可以基于HTTP(HyperText Transfer Protocol，超文本传输协议)、HTTPS等协议的各类API(Application Programming Interface,应用程序编程接口)接口接收客户端发送来的查询图片，也可以通过用户输入的查询图片的网页地址来获取查询图片。

其中，获取查询图片的文本特征的方法可以为：从查询图片中分析出一段或多段能够描述或代表图片内容的短文本片段。将图片形态的查询基础转换为文本形态的查询基础。具体的分析方法可以包括：采用机器学习算法构建图片分类器，然后将查询图片输入图片分类器。图片分类器可以从查询图片中分析得到图片内容，并输出查询图片的描述文本。例如，向图片分类器中输入霸王龙的图片，可以输出文字“霸王龙”。

S102，比较所述查询图片的文本特征与各内容资源的文本特征的文本相似度。

本发明实施例涉及的内容资源包括但不限于普通视频、全景图片、全景视频、三维(3D)模型、三维动画及其在虚拟现实(VR)和增强现实(AR)场景下的展示。

例如，全景照片(PANORAMIC PHOTO或PANORAMA)包括符合人的双眼正常有效视角(大约水平90度，垂直70度)或包括双眼余光视角(大约水平180度，垂直90度)以上，乃至360度完整场景范围拍摄的照片。

其中，所述内容资源可由网络爬虫从互联网中获取或者由内容生产者生产。例如，为了便于搜索内容资源，可以采用网络爬虫技术获取内容资源。内容资源生产者也可以制作内容资源，将这些内容资源构建成内容资源库。各内容资源可以带有文本标签以便于分类、管理和检索。另外，还可以在预设间隔时间内更新内容资源库。这样在搜索内容资源时，可以在内容资源库中进行搜索，以提高搜索效率。

在本发明实施中，可以将查询图片的文本特征与内容资源库中的各内容资源的文本特征一一进行比较，以确定查询图片与各内容资源的文本相似度。例如，查询图片的文本特征为“XXX”。如果一个内容资源为一幅全景图，该内容资源的文本特征为“XXX广场”。将查询图片的“XXX”和该内容资源的“XXX 广场”相比对，可以确定二者文本相似度较高。如果另一个内容资源的文本特征为“南京”，将查询图片的“XXX”和该内容资源的“南京”相对比，二者的文本相似度较低。

S103，比较所述查询图片的视觉特征与各内容资源的视觉特征的视觉相似度。

其中，视觉特征可以表征图片所蕴含语义的属性数据，例如包括图片的颜色、纹理等。

S104，根据所述查询图片与各内容资源的文本相似度和视觉相似度，从各内容资源中确定出内容搜索结果。

在本发明实施例的步骤S101中，既可以同时获取查询图片的文本特征和视觉特征，也可以分别获取查询图片的文本特征和视觉特征。在本发明实施例中，并不限定获取查询图片的文本特征和视觉特征的先后顺序。例如，还可以先获取查询图片的文本特征后，执行步骤S102比较文本相似度；再获取查询图片的视觉相似度后，执行步骤103比较视觉相似度。也可以先获取查询图片的视觉相似度后，执行步骤103比较视觉相似度；再获取查询图片的文本特征后，执行步骤S102比较文本相似度。或者，还可以并行执行这两种特征的获取和比较过程。

本发明实施例查询的技术方案可以根据查询图片的文本特征和视觉特征，比较所述查询图片的文本特征与各内容资源的文本特征的文本相似度，比较所述查询图片的视觉特征与各内容资源的视觉特征的视觉相似度，然后根据所述查询图片与各内容资源的文本相似度和视觉相似度，从各内容资源中确定出内容搜索结果，由于在搜索内容的过程中结合了文本的相似度和视觉相似度，这样可以准确地搜索到所需的内容资源，适用于对全景图片、全景视频、三维模型、三维动画、在虚拟现实及增强现实场景下的展示等各种内容资源进行搜索。

实施例二

在实施例一的基础上，本发明实施例提供了一种搜索内容资源的方法。如图2所示，为本发明实施例的搜索内容资源的方法的流程图。本发明实施例的搜索内容资源的方法包括以下步骤：

S201，获取查询图片的文本特征和视觉特征。

在一种实施例中，可以采用图片分类模型对所述查询图片的图片内容进行识别，从所述查询图片的中提取文本特征。例如，可以基于卷积神经网络算法并按照垂类训练图片分类模型，向图片分类模型输入霸王龙的图片，图片分类模型可以输出文本分类标签“霸王龙”。

在另外一种实施例中，可以通过以下步骤获取查询图片的文本特征：根据所述查询图片的统一资源定位符(UniformResourceLocator，URL)，获取对应的网页内容，从所述网页内容中提取所述查询图片的文本特征。例如，当查询图片来自于互联网时，或者网页上包含与查询图片一样的图片时，可以获取查询图片或与其一样的图片的URL。将在URL指示的网页内容内进行聚合处理，提取所述查询图片的文本特征。例如，输入XXX城楼的查询图片和该查询图片的网页地址，对网页中的内容进行聚合、提取，产生短文本“XXX”，然后输出短文本“XXX”。

S202，比较所述查询图片与内容资源库中的各所述内容资源的文本标签的文本相似度。

为便于管理，可以在内容资源产生时为其设置文本标签。例如，可复用网页搜索引擎常用的基于自然语言处理技术的“关键字(query)文本相似度计算”模块加以实现。

下面举例介绍关键字文本相似度计算过程：给定两个关键字(均为短文本)，采用文本相似度计算模型，该模型基于用户关键字数据和点击日志数据构建，并在离线状态下已经完成预训练(例如基于神经网络或词袋模型)，通过文本相似度计算模型对两个关键字的语义相似度进行打分，分值越高表明两个关键字在语义上越相近，反之亦然。以基于余弦相似度的计算方式为例，输出分值取值范围为[-1,1]。例如，“XXX”和“XXX广场”的相似度分值设为s，s的值应接近于1，而“XXX”和“南京路”的相似度分值应显著低于s。

S203，对内容资源库中的各内容资源进行采样，以获得各内容资源对应的各采样图片。

在步骤S203中，可以在可视空间内，以预设的观察方式和采样方式，对各内容资源进行视角采样。

其中，所述观察方式可以包括观察位置、角度和可视范围中的至少一项。

其中，采样方式可以包括等间隔采样、随机采样、基于用户交互历史记录分布的采样等。

以等间隔采样为例，在对内容资源进行采样时，可模拟用户的观察方式，来对整个可视空间进行视角采样，即对将内容资源在模拟观察点进行平面投影，得到对应于该观察点的采样图片，然后调整模拟观察点，即改变观察位置。视角采样方法可通用于所有类型的内容资源。以预定的观察方式采样时，采样间隔还需要考虑计算量、存储空间与准确度和召回率等因素。在对包含动画内容的全景视频和3D动画采样时，还需进一步结合帧采样方法，即在时间轴上采样生成输出图片，采样时间间隔同样需要考虑计算量、存储空间与准确度和召回率等因素。

举例来说，如图3所示，内容资源为霸王龙3D模型，采用不同的观察方式，例如每旋转一定的平面角度，就对霸王龙3D模型进行一次采样，获得采样图片1、采样图片2、采样图片3……采样图片n。

S204，对于每个内容资源，比较该内容资源对应的各采样图片的视觉特征与所述查询图片的视觉特征的视觉相似度。

在具体实施时，首先，采用图片特征提取器提取所述查询图片的视觉特征。

此步骤可采用传统技术中图片搜索引擎常用的基于视觉特征的“相似图检索”模块加以实现。相似图检索的过程包括：给定一张查询图片，采用用预定义或离线状态下预训练的图片特征提取器(例如基于卷积神经网络等)对查询图片进行视觉特征提取。

在提取各采样图片的视觉特征时，也可以采用以上方法来提取采样图片的视觉特征。

然后比较查询图片的视觉特征和采样图片的视觉特征，获得查询图片与每个采样图片的视觉相似度。

S205，根据该内容资源对应的各采样图片的视觉特征与所述查询图片的视觉特征的视觉相似度，确定该内容资源与所述查询图片的视觉特征的视觉相似度。

内容资源经步骤S206得到多张采样图片，查询图片分别与每张采样图片进行比对，计算得到查询图片与每张采样图片视觉相似度，输出所有采样图片的视觉相似度。

根据步骤S205中所提取的视觉特征，与内容资源的各个采样图片的视觉特征进行比对，获得视觉相似度。视觉相似度越高表明查询图片与该内容资源在视觉语义上越相近，反之亦然。

S206，根据所述查询图片与各内容资源的文本相似度和视觉相似度，得到所述查询图片与各内容资源的总体相似度。

其中，步骤S206包括：A，对所述查询图片与各内容资源的文本相似度和视觉相似度按照设定阈值进行过滤；B，根据过滤后的所述查询图片与各内容资源的文本相似度和视觉相似度，得到所述查询图片与各内容资源的总体相似度。

其中，计算总体相似度的方法包括但不限于：线性加权、乘积、值域归一化等。以线性加权方法为例：假设一个内容资源对应有一个文本特征，相应地，查询图片与一个内容资源的文本相似度对应有一个值。在计算视觉相似度时，可以对内容资源进行采样得到多个采样图片，相应得到多个视觉相似度。这样，文本相似度作为公式中的一项，每个视觉相似度都作为公式中的一项，然后将每一项乘以相应的权值，再求和，即可得出总体相似度，公式如下：

Q＝aS₀+bS₁+cS₂+……+nS_n

其中，Q表示总体相似度，a、b、c……n表示权值，S₀表示文本相似度， S₁、S₂……S_n表示视觉相似度。

另外，有时还需要考虑其他额外因素对总体相似度的影响，例如，内容质量评估指数(优质、低质、分辨率、模型精细程度等)、用户历史点击记录、法律法规的禁止性规定等。

在确定内容搜索结果，可以采用以下方式确定内容搜索结果：

一、输出总体相似度大于第一预设阈值的内容资源。例如，第一预设阈值为80％，则在搜索到的所有内容资源中，输出总体相似度大于80％的内容资源。

二、可以对搜索到的内容资源按照总体相似度大小进行排序，保留排在前几位的内容资源。例如，采用排序函数rank对内容资源按照总体相似度大小顺序进行排序，保留前5个内容资源。

本发明实施例为提高计算效率，避免处理过多的内容资源，在计算出文本相似度和视觉相似度后，可以对文本相似度和/或视觉相似度按照值的大小分别进行过滤。在其中一种实施方式中，过滤文本相似度小于第一预设阈值的内容资源；过滤视觉相似度小于第二预设阈值的内容资源。这样可以减少需要计算总体相似度的内容资源数量，从而减少计算量，提高计算效率。

S207，根据所述查询图片与各内容资源的总体相似度，从各内容资源中确定出内容搜索结果。

如图4所示，查询图片为某景区图片，内容资源为一全景图，这时将全景图做视角采样获得多张采样图片，然后将景区图片与每张采样图片进行对比。如果二者匹配，则采样图片所对应的全景图就是与某景区图片匹配的内容资源，输出该全景图。

在具体实施时，将内容资源库中的每一内容资源作为候选内容，但有时为了减少计算量，仅将某一类别的内容资源作为候选内容，然后重复以上步骤，获得查询图片与每一候选内容的总体相似度，再将候选内容根据总体相似度的大小进行排序。总体相似度的值越高，说明查询图片与内容资源的相似性越高。

另外，每个内容资源都有其对应的标识，为了便于实施，通过在搜索到内容资源时，并非直接输出内容资源本身，而是输出内容资源的标识(ID)。例如，输出总体相似度及其对应的内容资源的标识(ID)，将内容资源按总体相似度大小进行排序，然后输出前n个内容资源的ID。

然后当在客户端展示内容资源时，可以根据ID获得内容资源存储地址，然后用户在浏览器界面通过一定的交互方式，例如选择远程播放器等，在候选多媒体文件列表中选择要展示的多媒体文件。

本发明实施例的技术方案对内容资源以不同的观察方式和采样间隔对内容资源进行视角采样，使查询图片的视觉特征能够与内容资源的视觉特征全方位的匹配，使得搜索内容资源的准确度较高。

实施例三

在实施例二的基础上，本发明实施例提供了一种搜索内容资源的方法。如图5所示，为本发明实施例的搜索内容资源的方法的流程图。本发明实施例的搜索内容资源的方法包括：

①查询图片(query)：作为系统的整体输入，由浏览器客户端产生，包含图片内容及图片的URL地址。

其中，图片的形式不限，可为用户上传的图片文件、使用摄像头拍摄的图片或手绘草图等。

②网络接口：接收和解析客户端发来的查询图片，并返回对内容资源的搜索结果至客户端。可能的实现包括但不限于基于HTTP、HTTPS等协议的各类 API接口定义形式。

③图片猜词：输入为网络接口传递的查询图片，输出为一段或多段能够描述或代表图片内容的短文本片段。图片猜词的作用为将图片形态的查询图片转换为文本形态的关键字(query)。

此步骤可复用图片搜索引擎常用的“识图”模块加以实现。典型地，识图功能包括：

a)使用相同图片匹配或URL信息，对该图片在互联网上的来源网页(在图片被转载的情况下，可能存在多个来源网页)上的文本信息加以聚合、提取、并产生文本输出。例如，给定XXX城楼的图片输入，模块输出短文本“XXX”。

b)使用针对垂类预训练好的图片分类器(例如基于卷积神经网络算法的图片分类器)，对图片内容进行识别，输出分类标签文本。例如，给定霸王龙的图片输入，模块输出短文本“霸王龙”。

④文本相似度计算：输入为③的输出(图片猜词的结果以及内容资源库中各资源所携带的文本标签集合)。此步骤在猜词结果文本与所有内容资源文本标签之间进行两两匹配、计算得到每个匹配对的文本相似度，输出为各个匹配对的文本相似度分值。

此步骤可复用网页搜索引擎常用的基于自然语言处理技术的“query文本相似度计算”模块加以实现。典型地，查询图片的文本相似度计算功能是：给定两段关键字(均为短文本)，使用基于用户查询数据和点击日志离线预训练好的文本相似度计算模型(例如基于神经网络或词袋模型)，对两个关键字的语义相似度进行打分，分值越高表明两个关键字在语义上越相近，反之亦然。以基于余弦相似度的计算方式为例，输出分值取值范围为[-1,1]。比如，“XXX”和“XXX 广场”的相似度分值设为s，s的值应接近于1，而“XXX”和“南京路”的相似度分值应显著低于s。

⑤内容资源库：内容资源库是各类资源的集合，其中的资源由搜索引擎爬虫爬取或内容生产者提供，且各资源都带有文本标签以便于分类、管理和检索。

⑥视角采样：输入为内容库中任一资源，输出为若干张采样图片。可参见如图3所示的实施例，对于给定的内容，可通过模拟并改变用户的观察方式，包括但不限于观察位置、角度、可视范围等，在整个可视空间内进行视角采样，获取多张图片，其中每张图片均为将内容对模拟观察点进行平面投影所得。视角采样可通用于全景/3D/AR/VR内容，观察位置、角度、可视范围的采样间隔可在计算量、存储空间与准确度、召回率之间权衡；对于包含动画内容的全景视频和3D动画，则进一步配合帧采样在时间轴上采样生成输出图片，采样时间间隔同样在计算量、存储空间与准确度、召回率之间权衡。典型的采样技术包括但不限于等间隔采样、随机采样、基于用户交互历史记录分布的采样等。

⑦视觉相似度计算：输入为查询图片和⑤的输出(内容资源库中各资源经视角采样步骤得到的采样图片集合)。此模块在查询图片与所有内容资源采样图片之间进行两两匹配、计算得到每个匹配对的视觉相似度，输出为各个匹配对的视觉相似度分值。

此步骤可复用图片搜索引擎常用的基于视觉特征的“相似图检索”模块加以实现。典型地，相似图检索的功能是：给定一张查询图片，使用预定义或离线预训练的图片特征提取器(例如基于卷积神经网络等)对查询图片进行视觉特征提取，将所提取的特征与图片库中各图片的特征进行比对，对视觉特征的相似度进行打分排序，分值越高表明查询图片与某张库内图片在视觉语义上越相近，反之亦然。

⑧总体相似度计算：输入为④和⑥的输出，即查询图片与内容库内资源的各匹配对在文本和视觉两方面的相似度分值，输出为总体相似度及对应的候选内容资源ID。总体相似度分值越高，表明查询图片与对应的候选内容资源相关性越高。

总体相似度的计算基于文本和视觉相似度分值的组合，可能的实现包括但不限于线性加权、乘积、值域归一化等方式的组合。同时，可考虑额外因素，包括但不限于内容质量评估指数(优质、低质、分辨率、模型精细程度等)、用户历史点击记录、法律法规等。

为加速这一模块的计算过程，避免处理过多的匹配对，可以对进入计算的文本相似度分值和视觉相似度分值分别进行过滤，例如低于一定阈值的相似度分值直接过滤，不进入总体相似度计算过程，以减少计算量。

⑨Top k排序：输入为⑦的输出，即总体相似度及对应的候选内容资源ID，输出为前k个按总体相似度分值降序排列的候选资源ID。

⑩客户端展示：根据⑨的输出，用户在浏览器界面通过一定的交互方式在候选资源列表中选择要展示的资源，由浏览器客户端进行展示。

上述模块中，③—⑨可通过离线方式预先计算，从而加速在线的搜索过程。例如，可以离线方式预先对全网网页的图片库逐张进行处理，以离线方式进行相似度分值计算和排序，建立静态的查找表结构，将任意网页中的图片建立起与内容资源的关联。在线搜索时，则可以通过查表快速获取相匹配的内容。该查找表可通过增量计算方式更新。如果用户查询图片不在全网库中，③—⑨可进行在线计算。上述在线和离线计算的过程均可通过并行计算等技术进行加速。典型的匹配结果如图3所示的实施例，可见匹配可以精准到特定观察角度，匹配精度高，用户体验好。

实施例四

本发明实施例提供了一种搜索内容资源的装置。如图6所示，为本发明实施例的搜索内容资源的装置的示意图。本发明实施例的搜索内容资源的装置包括：

获取模块61，配置为获取查询图片的文本特征和视觉特征；

第一比较模块62，配置为比较所述查询图片的文本特征与各内容资源的文本特征的文本相似度；

第二比较模块63，配置为比较所述查询图片的视觉特征与各内容资源的视觉特征的视觉相似度；

确定模块64，配置为根据所述查询图片与各内容资源的文本相似度和视觉相似度，从各内容资源中确定出内容搜索结果。

本发明实施例的技术方案可以实现根据查询图片和内容资源的文本特征结合二者的视觉特征，搜索内容资源的准确度较高，该技术效果与实施例一的有益效果相同，在此不再赘述。

实施例五

在实施例四的基础上，本发明实施例提供了一种搜索内容资源的装置。如图7所示，为本发明实施例的搜索内容资源的装置的示意图。本发明实施例的搜索内容资源的装置包括：

所述确定模块64包括：

第一计算子模块641，配置为根据所述查询图片与各内容资源的文本相似度和视觉相似度，得到所述查询图片与各内容资源的总体相似度；

确定子模块642，配置为根据所述查询图片与各内容资源的总体相似度，从各内容资源中确定出内容搜索结果。

其中，所述第一计算子模块还配置为：

进一步地，所述获取模块61包括：

识别子模块611，配置为采用图片分类模型对所述查询图片的图片内容进行识别，从所述查询图片的中提取文本特征；或

提取子模块612，配置为根据所述查询图片的统一资源定位符，获取对应的网页内容，从所述网页内容中提取所述查询图片的文本特征。

进一步地，所述第一比较模块62包括：

第一比较子模块621，配置为比较所述查询图片与内容资源库中的各所述内容资源的文本标签的文本相似度。

进一步地，所述第二比较模块63包括：

采样子模块631，对内容资源库中的各内容资源进行采样，以获得各内容资源对应的各采样图片；

第二比较子模块632，配置为对于每个内容资源，比较该内容资源对应的各采样图片的视觉特征与所述查询图片的视觉特征的视觉相似度；

第二计算子模块633，配置为根据该内容资源对应的各采样图片的视觉特征与所述查询图片的视觉特征的视觉相似度，确定该内容资源与所述查询图片的视觉特征的视觉相似度。

其中，所述采样子模块具体配置为：在可视空间内，以预设的观察方式和采样方式，对各内容资源进行视角采样；

本发明实施例的技术方案可以对内容资源的采用多种观察方式和采样方式进行采样，使得搜索内容资源的准确度较高，该技术效果与实施例二的有益效果相同，在此不再赘述。

实施例六

本发明实施例提供一种信息分类设备，如图8所示，该设备包括：存储器 81和处理器82，存储器81内存储有可在处理器82上运行的计算机程序。处理器82执行所述计算机程序时实现上述实施例中的信息分类方法。存储器81和处理器82的数量可以为一个或多个。

该设备还包括：

通信接口83，用于存储器81和处理器82与外部设备之间的通信。

存储器81可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

如果存储器81、处理器82和通信接口83独立实现，则存储器81、处理器 82和通信接口83可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器81、处理器82及通信接口83集成在一块芯片上，则存储器81、处理器82及通信接口83可以通过内部接口完成相互间的通信。

实施例七

一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现如图1至图5任一实施例所示的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统) 使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

本发明实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质的更具体的示例至少(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器 (ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

在本发明实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于指令执行系统、输入法或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、射频(Radio Frequency，RF)等等，或者上述的任意合适的组合。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA) 等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种搜索内容资源的方法，其特征在于，所述方法包括：

获取查询图片的文本特征和视觉特征；

2.根据权利要求1所述的方法，其特征在于，根据所述查询图片与各内容资源的文本相似度和视觉相似度，从各内容资源中确定出内容搜索结果，包括：

3.根据权利要求2所述的方法，其特征在于，根据所述查询图片与各内容资源的文本相似度和视觉相似度，得到所述查询图片与各内容资源的总体相似度，包括：

4.根据权利要求1所述的方法，其特征在于，获取查询图片的文本特征，包括：

5.根据权利要求1至4中任一项所述的方法，其特征在于，比较所述查询图片的文本特征与各内容资源的文本特征的文本相似度，包括：

6.根据权利要求1至4中任一项所述的方法，其特征在于，比较所述查询图片的视觉特征与各内容资源的视觉特征的视觉相似度，包括：

7.根据权利要求6所述的方法，其特征在于，对内容资源库中的各内容资源进行采样，包括：

8.一种搜索内容资源的装置，其特征在于，所述装置包括：

获取模块，配置为获取查询图片的文本特征和视觉特征；

9.根据权利要求8所述的装置，其特征在于，所述确定模块包括：

10.根据权利要求9所述的装置，其特征在于，所述第一计算子模块还配置为：

11.根据权利要求8所述的装置，其特征在于，所述获取模块包括：

12.根据权利要求8至12任一项所述的装置，其特征在于，所述第一比较模块包括：

13.根据权利要求8至12任一项所述的装置，其特征在于，所述第二比较模块包括：

采样子模块，配置为对内容资源库中的各内容资源进行采样，以获得各内容资源对应的各采样图片；

14.根据权利要求13所述的装置，其特征在于，所述采样子模块具体配置为：在可视空间内，以预设的观察方式和采样方式，对各内容资源进行视角采样；

15.一种服务器，其特征在于，所述服务器包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

16.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。