CN107463592B - 用于将内容项目与图像匹配的方法、设备和数据处理系统 - Google Patents

用于将内容项目与图像匹配的方法、设备和数据处理系统 Download PDF

Info

Publication number
CN107463592B
CN107463592B CN201611014754.8A CN201611014754A CN107463592B CN 107463592 B CN107463592 B CN 107463592B CN 201611014754 A CN201611014754 A CN 201611014754A CN 107463592 B CN107463592 B CN 107463592B
Authority
CN
China
Prior art keywords
image
images
content
content provider
entry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611014754.8A
Other languages
English (en)
Other versions
CN107463592A (zh
Inventor
孔旗
朱帆
杨光
王京傲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu USA LLC
Original Assignee
Baidu USA LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu USA LLC filed Critical Baidu USA LLC
Publication of CN107463592A publication Critical patent/CN107463592A/zh
Application granted granted Critical
Publication of CN107463592B publication Critical patent/CN107463592B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

根据一个实施方式,将一个或多个图像的第一集合识别为待与响应于搜索查询所识别的内容项目匹配的候选图像列表,其中内容项目由第一内容提供者来提供。在图像白名单表中执行第一查找操作,以识别与第二内容提供者相关联的一个或多个图像的第二集合,第二内容提供者与第一内容提供者不同。从候选图像列表中移除被包括在图像的第二集合中的任何候选图像。随后,选择候选图像中的一个来与内容项目相关联。

Description

用于将内容项目与图像匹配的方法、设备和数据处理系统
技术领域
本发明的实施方式总体涉及内容搜索。更具体地,本发明的实施方式涉及响应于搜索查询使用白名单和黑名单来搜索具有匹配图像的内容。
背景技术
大多数搜索引擎通常在其操作期间通过运行于客户端装置上的浏览器来执行对网页的搜索。搜索引擎接收由用户输入的搜索词,并检索与搜索词相关联的网页搜索结果列表。搜索引擎基于某些标准将搜索结果显示为搜索列表的一系列子集。在搜索操作期间使用的一般标准是:搜索词是完整地还是部分地出现在给定网页上、搜索字串出现在搜索结果中的次数、字母顺序等。此外,用户可以通过点击鼠标按钮来决定打开链接从而打开和浏览。搜索引擎可监控和收集用户与搜索结果的一些互动和/或用户信息,从而在以后提供更好的搜索。
通常,响应于搜索查询而执行搜索以识别和检索内容项目列表。随后将内容项目回传到搜索请求器。常规搜索引擎将照原样回传大多数内容项目而不作修改。搜索结果中的一些内容项目仅仅是纯文本或描述,其可认为是无吸引力的或无聊的。有时候,如果内容项目准备有与该内容项目有关的某些图像,那么搜索结果中的内容将更具有表现力或更具有吸引力。然而,将恰当的图像与内容项目匹配是相当有挑战性的,因为一些图像可能仅适合于一个内容项目,而其它图像可能与另一个内容项目不相关。
发明内容
本申请的目的在于提供用于将内容项目与图像匹配的计算机实施方法、设备以及数据处理系统。
根据一方面,提供了用于将内容项目与图像匹配的计算机实施方法,所述方法可包括:将一个或多个图像的第一集合识别为待与响应于搜索查询所识别的内容项目匹配的候选图像列表,其中所述内容项目由第一内容提供者来提供;在图像白名单表中执行第一查找操作,以识别与第二内容提供者相关联的一个或多个图像的第二集合,所述第二内容提供者与所述第一内容提供者不同;从所述候选图像列表中移除被包括在所述图像的所述第二集合中的任何候选图像;以及选择所述候选图像中的一个来与所述内容项目相关联。
根据另一方面,提供了用于将内容项目与图像匹配的设备,所述设备可包括:识别装置,将一个或多个图像的第一集合识别为待与响应于搜索查询所识别的内容项目匹配的候选图像列表,其中所述内容项目由第一内容提供者来提供;第一查找装置,在图像白名单表中执行第一查找操作,以识别与第二内容提供者相关联的一个或多个图像的第二集合,所述第二内容提供者与所述第一内容提供者不同;第一移除装置,从所述候选图像列表中移除被包括在所述图像的所述第二集合中的任何候选图像;以及选择装置,选择所述候选图像中的一个来与所述内容项目相关联。
根据再一方面,提供了用于将内容项目与图像匹配的数据处理系统,所述数据处理系统可包括根据本申请实施方式的用于将内容项目与图像匹配的设备。
附图说明
本发明的实施方式在附图的各图中以示例而非限制的方式示出,附图中的相同的附图标记表示类似元件。
图1A和图1B是示出根据本发明一些实施方式的用于将图像与内容项目匹配的系统配置的示例的框图。
图2是示出根据本发明的一个实施方式的图像选择系统的示例的框图。
图3A到图3B是根据本发明的某些实施方式的查询-图像匹配表的示例。
图4A到图4C是根据本发明的某些实施方式的图像选择数据结构的示例。
图5是示出根据本发明的一个实施方式的图像选择系统的示例的框图。
图6是示出根据本发明的一个实施方式的图像选择系统的处理流程的流程图。
图7是示出根据本发明的一个实施方式的用于将图像与内容项目匹配的过程的流程图。
图8是示出根据本发明的一个实施方式的数据分析系统的示例的框图。
图9是示出根据本发明的一个实施方式的数据分析过程的流程图。
图10是示出根据一个实施方式的数据处理系统的框图。
具体实施方式
以下将参考所讨论的细节来描述本发明的各种实施方式和方面,附图将示出各种实施方式。以下描述和附图是对本发明的说明,而不应当解释为限制本发明。描述了许多具体细节以提供对本发明的各种实施方式的全面理解。然而,在某些示例中,并未描述众所周知的或常规的细节,从而提供了对本发明的实施方式的简洁讨论。
本说明书中对“一个实施方式”或“实施方式”的引用意味着结合该实施方式所描述的特定特征、结构或特性可包括在本发明的至少一个实施方式中。在本说明书中各个位置出现的短语“在一个实施方式中”不必全部指代同一实施方式。
根据一些实施方式,虽然大多数图像是可以被用于任何内容的一般性图像,但一些图像可能仅适合于特定内容项目(例如,属于特定内容提供者的图像),而其它图像可能不适合于其它特定内容项目(例如,属于特定内容提供者的竞争对手的图像)。提供搜索机制以提供适合于某些类型的内容项目(例如,白名单)的图像的映射并防止某些图像与某些类型的内容项目(例如,黑名单)相关联。
根据一个实施方式,将一个或多个图像的第一集合识别为待与内容项目匹配的候选图像列表。内容项目是响应于搜索查询来搜索和识别的,其中该内容项目由第一内容提供者来提供。在图像白名单表中执行第一查找操作,以识别与第二内容提供者相关联的一个或多个图像的第二集合,第二内容提供者可与第一内容提供者不同。从候选图像列表中移除被包括在第二图像集合中的任何候选图像。对图像黑名单表执行第二查找操作,以识别一个或多个图像的第三集合。第三集合中的图像与第一内容提供者相关联。从候选图像列表中移除被包括在第三图像集合中的任何候选图像。随后,从候选图像列表中选择图像来与该内容项目相关联。
图像白名单表包括许多条目,每个条目将图像映射到内容提供者以指示该图像仅可与由该条目的对应内容提供者所提供的内容项目相关联。例如,图像可以是从与对应内容提供者相关联的来源获得的具有版权的图像。图像黑名单表包括许多条目,每个条目将图像映射到内容提供者以指示该图像不能与由该条目的对应内容提供者所提供的内容项目相关联。例如,图像可以是从与另一个内容提供者相关联的来源获得的具有版权的图像,该另一个内容提供者是对应条目中列出的内容提供者的竞争对手。收集并分析白名单和黑名单中的图像以确定哪些图像可与某些内容提供者兼容以及哪些图像与某些内容提供者相抵触。
图1A和图1B是示出根据本发明的一些实施方式的用于将图像与内容项目匹配的系统配置的示例的框图。参考图1A,系统100包括但不限于通过网络103通信地联接到服务器104的一个或多个客户端装置101-102。客户端装置101-102可以是任何类型的客户端装置,诸如,个人计算机(例如,台式计算机、膝上型计算机和平板计算机)、“薄”客户端、个人数字助理(PDA)、能联网的电器、智能手表或移动电话 (例如,智能手机)等。网络103可以是任何类型的网络,诸如有线或无线的局域网(LAN)、诸如互联网的广域网(WAN)或其组合。
服务器104可以是任何种类的服务器或服务器集群,诸如网络或云服务器、应用服务器、后台服务器或其组合。在一个实施方式中,服务器104包括但不限于搜索引擎120、图像选择模块110和图像选择方法/模型115。服务器104还包括允许客户端(诸如,客户端装置101-102)存取由服务器104提供的资源或服务的接口(未示出)。接口可包括网络接口、应用编程接口(API)和/或命令行接口(CLI)。
例如,客户端(在这个示例中为客户端装置101的用户应用(例如,网络浏览器、移动应用))可向服务器104发送搜索查询,搜索引擎120通过网络103经由接口来接收搜索查询。响应于搜索查询,搜索引擎120从搜索查询中提取一个或多个关键词(也称为搜索词)。搜索引擎120在内容数据库133中执行搜索以识别与关键词有关的内容项目列表,内容数据库133可包括主要内容数据库130和/或辅助内容数据库131。主要内容数据库130(也称为主内容数据库)可以是一般内容数据库,而辅助内容数据库131(也称为二级内容数据库或附属内容数据库)可以是特殊内容数据库。搜索引擎120向客户端装置101 回传具有列表中的至少一些内容项目的搜索结果页面,从而在客户端装置101中呈现。搜索引擎120可以是可从百度公司获取的
Figure BDA0001153241360000051
搜索引擎,或可替代地,搜索引擎120可表示
Figure BDA0001153241360000052
搜索引擎、Microsoft BingTM搜索引擎、
Figure BDA0001153241360000053
搜索引擎或一些其它搜索引擎。
搜索引擎(诸如,网络搜索引擎)是被设计成在万维网上搜索信息的软件系统。搜索结果通常以一系列结果(通常称为搜索引擎结果页面)的形式呈现。信息可以是网页、图像和其它类型的文件的混合。一些搜索引擎还挖掘数据库或开放式目录中可用的数据。不同于仅通过人工编辑器来维护的网络目录,搜索引擎还通过在网络爬虫(web crawler)上运行算法来维持实时信息。
网络搜索引擎通过存储与许多网页相关的信息来工作,这些信息是网络搜索引擎从页面的超文本标记语言(HTML)标记中检索的。这些页面通过网络爬虫来检索,网络爬虫是抓取网站上的每个链接的自动化网络爬虫。随后搜索引擎分析每个页面的内容以确定该页面应如何被索引(例如,可以从标题、页面内容、标头或称为元标签的特殊字段来提取词语)。将与网页相关的数据存储在索引数据库中,以供在稍后的查询中使用。索引帮助尽可能快地找到与查询有关的信息。
当用户将查询输入到搜索引擎中时(通常是通过使用关键词),引擎检查其索引并根据其标准提供最佳匹配网页的列表,该列表通常具有简短概述,该概述包含文档标题以及有时包含部分文本。索引是由与数据一起存储的信息及信息的索引方法建构而成。搜索引擎查找与输入完全一致的词语或短语。一些搜索引擎提供称为近邻搜索的先进的特征,其允许用户定义关键词之间的距离。还存在基于概念的搜索,其中搜索涉及在包含所搜索的词语或短语的页面上使用统计分析。另外,自然语言查询允许用户按照与向人询问问题的形式相同的形式来输入问题。
搜索引擎的有用性取决于其所回馈的结果集的相关性。虽然包括特定词语或短语的网页可能有数百万个,但一些页面可能比其它页面更相关、更受人欢迎或更有权威。大多数搜索引擎采用一些方法来对结果排序从而首先提供“最佳”结果。搜索引擎如何决定哪些页面是最佳匹配以及应按什么顺序来示出结果随着引擎的不同而有很大的不同。
返回参考图1A,根据一个实施方式,响应于在服务器104处从客户端装置(在这个示例中为客户端装置101)接收的搜索查询,搜索引擎120在内容数据库133(诸如,主要内容数据库130和/或辅助内容数据库131)中执行搜索,从而产生内容项目列表。可经由统一资源链接(URL)和/或统一资源标识符(URI)使每一个内容项目与特定内容提供者的特定网站的特定网页相关联。在一个实施方式中,主要内容数据库130存储已由网络爬虫收集的一般内容项目(例如,非赞助内容)。辅助内容数据库131存储与特定、已知或预定的内容提供者相关联的特定或特殊内容项目(例如,赞助内容)。可替代地,在不区分主要内容数据库131与辅助内容数据库132的情况下,可将内容数据库133实施为单个数据库。
网络爬虫(Network crawler或Web Crawler)是自动遍历网络的超文本结构的程序。在实际应用中,网络爬虫可运行于独立的计算机或服务器上,计算机或服务器中的每一个被配置成执行从URL下载文档的一个或多个进程或线程。网络爬虫接收所指派的URL,并在那些 URL处下载文档。网络爬虫还可检索被已检索的文档引用的文档,以供由内容处理系统(未示出)和/或搜索引擎120处理。网络爬虫可以使用各种协议来下载与URL相关联的页面,诸如超文本传输协议 (HTTP)和文件传送协议(FTP)。
另外,根据一个实施方式,图像选择模块或系统110使用图像选择方法或模型115基于与搜索查询相关联的关键词来识别图像ID列表,图像ID识别与跟搜索查询相关联的关键词有关的图像。图像选择方法/模型115可包括关键词-图像(关键词/图像)映射表(未示出),其可以以多种数据结构(诸如,表或数据库)实施。基于图像ID,可以从存储在图像存储器125中的图像122中识别和检索候选图像列表,其中图像存储器125还可存储描述图像122的图像元数据(未示出)。
另外,根据一个实施方式,在作为图像选择方法/模型115的一部分的图像白名单表(未示出)中执行搜索,以识别仅可与属于特定内容提供者的内容项目匹配的一个或多个图像。图像白名单表包括许多映射条目,每个条目将图像ID映射到内容提供者ID以指示由图像ID 识别的图像仅可与由对应内容提供者所提供的内容项目相关联。如果响应于搜索查询所识别的内容项目属于与图像白名单表中列出的内容提供者不同的内容提供者,那么可移除被包括在图像白名单表中的任何候选图像。
此外,根据另一个实施方式,在作为图像选择方法/模型115的一部分的图像黑名单表中执行搜索(未示出),以识别不能与基于搜索查询所识别的内容项目的内容提供者的内容项目匹配的一个或多个图像。图像黑名单表包括许多映射条目,每个条目将图像ID映射到内容提供者ID以指示由图像ID识别的图像不能与由内容提供者所提供的内容项目匹配。可移除被包括在图像黑名单表中的任一映射条目中的任何候选图像,只要其与对应于经由搜索查询所识别的内容项目的内容提供者匹配。
在一个实施方式中,可通过一个或多个图像或网络爬虫来获得图像122及其对应的元数据,图像或网络爬虫被设计成在网络上爬行以收集图像以及其周围的元数据。图像122可以是不受保护的、或无版权的图像。受保护的、具有版权的、许可的、或任何其它独占性授权的图像可被识别并放置在图像白名单表和/或图像黑名单表中。可基于关键词与候选图像之间的排序得分以及内容项目的元数据对候选图像排序。针对在内容数据库133中找到的每一个内容项目,从候选图像列表中选择与内容项目相关联的图像。所选图像可与内容项目合并以生成合并的或合成的内容项目。例如,所选图像可充当内容项目的背景图像。合并的内容项目和图像的列表作为搜索结果的一部分被回传到客户端装置101。
根据一个实施方式,可在例如接收搜索查询之前通过数据分析系统或服务器150来(例如,离线)预先配置和生成图像选择方法/模型 115。图像选择方法/模型115可包括关键词-图像(关键词/图像)映射表、图像白名单表和图像黑名单表。关键词/图像映射表包括许多映射条目,每个映射条目将关键词映射到一个或多个图像ID,反之亦然,例如在图3A中所示。关键词可被识别为在搜索查询中更有可能用到的关键词和/或与某些内容项目(例如,赞助内容的竞价词)相关联的关键词。可基于对用户搜索活动或搜索历史的分析或跟踪来识别这种关键词,可在一段时间内对用户搜索活动或搜索历史进行编译。图3B 中示出图像白名单表的示例。在另一个实施方式中,可保持结合了关键词/图像映射表、图像白名单表和图像黑名单表的单个表或数据结构,如图4中所示。
应注意,已仅出于说明的目的描述了服务器104的配置。服务器 104可以是向多种终端用户装置提供前台搜索服务的网络服务器。可替代地,服务器104可为应用服务器或后台服务器,其向前台服务器 (例如,网络服务器或一般内容服务器)提供特定或特殊的内容搜索服务以及将图像与内容数据库或服务器的内容项目匹配和/或整合。数据分析系统150也可实施为独立服务器,其负责基于内容数据库或服务器133的内容项目及与内容项目关联的关键词来创建或训练图像选择方法/模型115。
也可应用其它架构或配置。例如,如图1B中所示,内容数据库 133可被维持和托管在独立服务器中以作为网络上的内容服务器。类似地,图像存储器125可被维持和托管在独立服务器中以作为具有图像搜索引擎的图像服务器。服务器133和125可以是网络服务器、应用服务器或后台服务器。可由与服务器104相同的实体或组织来组织和提供内容服务器133和/或图像服务器125。可替代地,可由不同的实体或组织(例如,第三方提供者)来维持或托管内容服务器133和/ 或图像服务器125,实体或组织负责收集图像122和内容数据库130-131中的内容以及它们的元数据。
还应注意,内容数据库/服务器133可包括主要内容数据库130和辅助内容数据库131。主要内容数据库130也可在独立的内容服务器 (称为主要内容服务器)实施或维护中。类似地,辅助内容数据库131 可在独立的内容服务器(称为辅助内容服务器或附属内容服务器)中实施或维护。可使用多种匹配公式将从两个内容数据库130-131获得的内容项目与从图像存储器/服务器125获得的图像匹配。可替代地,可将仅从主要内容数据库130和辅助内容数据库131中的一个获得的内容项目与从图像存储器/服务器125获得的图像匹配。例如,可将从辅助内容数据库131获得的内容项目(例如,赞助内容)与从图像存储器/服务器125获得的图像匹配,而从主要内容数据库130获得的内容项目(例如,一般内容)将作为搜索结果的一部分被回传到客户端装置而不作修改。
图2是示出根据本发明的一个实施方式的用于将图像与内容项目匹配的系统的框图。系统200可实施为图1A到图1B的系统100的一部分。参考图2,当从客户端装置(例如,图1的客户端装置101)接收搜索查询201时,搜索引擎120在内容数据库或内容服务器133中执行第一搜索,以基于与搜索查询201相关联的一个或多个关键词搜索词来识别和检索内容项目的第一列表。另外,搜索引擎120与图像选择模块110通信,以使用一组图像选择方法/模型115(也称为查询/ 图像匹配规则)基于与搜索查询201相关联的关键词来识别来自图像存储器或图像服务器125的图像列表。搜索引擎120和/或图像选择模块110可对查询执行分析,以导出被包括在搜索查询201中的关键词和/或与搜索查询201中的关键词类似的关键词(例如,语义上类似的词、同义词)的列表。可对扩展的关键词的列表执行在内容数据库/ 服务器133和/或图像存储器/服务器125中所执行的搜索。
在一个实施方式中,图像选择模块110和/或图像选择方法/模型 115可与搜索引擎120整合。可例如预先通过数据分析系统或服务器 150(也称为查询/图像映射系统)来配置或编译图像选择方法/模型 115。查询/图像映射系统150可被托管在经由API或通过网络通信地联接到系统200的独立系统或服务器中。查询/图像映射系统150可包括允许用户或管理员配置一组查询/图像匹配规则的用户接口,这组查询/图像匹配规则随后可由处理逻辑使用预定算法来加以扩展和排序。以下将进一步描述查询/图像映射系统150的具体细节。
类似地,可由图像收集系统230来收集存储在图像存储器/服务器 125中的图像,图像收集系统230可以是通过网络通信地联接到系统 200的独立系统或服务器。可由与系统200相同或不同的实体或组织来操作查询/图像映射系统150和/或图像收集系统230。在这个示例中,可将图像缓存和存储在相对于系统200而言为本地(例如,针对服务器104而言为本地)的图像存储器中。可替代地,可由与图像收集系统230相关联的指定服务器来保存图像,图像选择模块110经由API 与服务器通信以识别和检索图像列表。
基于从图像存储器/服务器125检索的图像列表,图像选择模块 110例如基于内容项目、图像和搜索查询当中的相似性得分根据排序算法对图像排序。随后将一些图像与从内容数据库/服务器133识别和检索的一些内容项目匹配。随后,将匹配的内容项目与图像整合到整合的内容项目中。在一个实施方式中,可将图像选择为内容项目的背景图像或补充图像。例如,内容项目211可以是描述或文本,而图像 212可被选择为内容项目211的背景图像。以适当的方式,基于在本说明书全文中描述的匹配或排序技术来选择图像212以补充或描述内容项目211,反之亦然。例如,内容项目211的内容与如图像212中所示的内容有关,反之亦然。可将已整合的图像212与内容项目211 作为搜索结果215的一部分回传到客户端装置。
根据一个实施方式,响应于从客户端装置接收的搜索查询201,基于搜索查询201来确定一个或多个关键词,其中关键词可包括搜索查询201中的关键词或基于对搜索查询201的分析而扩展的关键词。基于关键词,在图像选择方法/模型115中执行查找操作或搜索,图像选择方法/模型115可以以多种数据结构(诸如,数据库或表)实施。
图像选择方法/模型115包括具有许多映射条目的关键词/图像映射表。每个映射条目将一个或多个关键词映射到一个或多个图像ID,图像ID识别存储在图像存储器/服务器125中的一个或多个图像。基于以搜索查询201为基础获得的关键词,可基于图像选择方法/模型 115来获得一个或多个图像ID的列表。可使用图像白名单表和图像黑名单表来处理候选图像,从而移除任何无关和/或相抵触的候选图像。基于候选图像的图像ID,从图像存储器/服务器125获得对应图像以作为候选图像。随后,使用一个或多个预定的排序和/或匹配算法,对候选图像进行排序和匹配。随后,可选择排在前列的图像来与内容项目相关联以整合作为搜索结果215的一部分。应注意,如图2中所示的组件或模块中的一些或全部可以以软件、硬件或其组合的形式来实施。
图3A到图3B是根据本发明的某些实施方式的查询-图像匹配表的示例。参考图3A,查询/图像匹配表300可表示作为如上所述的图 1A到图1B和图2的图像选择方法/模型115的一部分的查询/图像映射表。在一个实施方式中,查询/图像匹配表300包括许多匹配条目。每一个匹配条目将一个或多个关键词301映射到一个或多个图像ID 302,其中图像ID302识别图像存储器或图像服务器(诸如,图像存储器/服务器125)中的对应图像。基于关键词对匹配表300进行索引。在这个示例中,第一条目将词“花朵”映射到图像1-5。第二条目将词“北京花朵”仅映射到图像1。第三条目将词“上海花朵”映射到图像2。第四条目将词“花朵递送”映射到图像1-2和4。因此,如果搜索查询包含“北京花朵”,那么可识别图像1-5。然而,图像1可具有更高排序。
现参考图3B,其是匹配表的可替代性实施方式的示例,这个匹配表是可被用作图像选择方法/模型115的一部分的图像-关键词(图像/ 关键词)匹配表。在这个示例中,图像/关键词匹配表350包括许多匹配条目。每个匹配条目将图像ID 351映射到一个或多个关键词352。基于图像ID对匹配表350进行索引。可互换地利用两个表300和350。例如,表300可用来识别与一个或多个关键词有关的所有图像。
图4A到图4C是根据本发明的某些实施方式的图像选择数据结构的示例。参考图4A,数据结构400(在这个示例中为映射表)表示具有许多映射条目的图像白名单表。每个映射条目将图像ID 401映射到内容提供者ID 402和/或由内容提供者ID 402所识别的内容提供者的类别/产品403。这种条目指示图像识别型图像ID 401仅可被指派给与内容提供者或者由内容提供者ID 402所识别的内容提供者的类别相关联的内容项目。图像及其元数据可由网络爬虫收集,并由数据分析系统150进行分析以确定图像是否应存储在图像白名单表400中。图像的元数据可包括标题、描述、来源(例如,网络地址、品牌专营网站)、描述特定内容项目或产品的内容、实体的商标或服务标记(例如,标志)等。
例如,可从与特定内容提供者相关联的来源(例如,网站)来收集图像。图像可包括例如通过图像辨识过程所辨识的内容,可表示或描述特定内容提供者或特定内容提供者的产品/类别。图像(例如,具有版权的图像)可被特定内容提供者独占或许可。在任一种这样的情况下,例如,由数据分析系统150确定,图像可仅与由对应内容提供者所提供的内容项目相关联。随后,那些图像的图像ID被存储在图像白名单表400中(例如,由数据分析系统150离线完成)。在一个实施方式中,在在线搜索期间,如果基于搜索查询所获得的内容项目不是由图像白名单表400中列出的任一内容提供者来提供的,那么可从供考虑的候选图像列表中移除与图像白名单表中列出的那些内容提供者中的任一者匹配的任何候选图像。
现参考图4B,其表示图像黑名单表,表420包括许多映射条目。每个映射条目将图像ID 421映射到内容提供者ID 422或由内容提供者ID 422所识别的内容提供者的类别/产品423。这种条目指示图像识别型图像ID 401不能被指派给与内容提供者或者由内容提供者ID 422 所识别的内容提供者的类别相关联的内容项目。图像及其元数据可由网络爬虫收集,并由数据分析系统150进行分析以确定图像是否应存储在图像黑名单表420中。图像的元数据可包括标题、描述、来源(例如,网络地址、品牌专营网站)、描述特定内容项目或产品的内容、实体的商标或服务标记(例如,标志)等。
例如,可从与特定内容提供者相关联的来源(例如,网站)来收集图像,该特定内容提供者是另一个内容提供者的竞争对手。图像可包括例如通过图像辨识过程所辨识的内容,可表示或描述特定内容提供者或特定内容提供者的产品/类别,该特定内容提供者是另一个特定内容提供者的竞争对手。图像(例如,具有版权的图像)可被作为另一个特定内容提供者的竞争对手的特定内容提供者独占或许可。在任一种这样的情况下,例如,由数据分析系统150确定,图像可不与由对应内容提供者所提供的内容项目相关联。随后,那些图像的图像ID 被存储在图像黑名单表420中(例如,由数据分析系统150离线完成)。在一个实施方式中,在在线搜索期间,如果基于搜索查询所获得的内容项目是由图像黑名单表420中列出的任一内容提供者来提供的,那么可从供考虑的候选图像列表中移除与图像黑名单表420中列出的那些内容提供者中的任一者匹配的任何候选图像。
根据另一个实施方式,可以将表300、350、400和420结合为如图4C中所示的单个表450。参考图4C,表450包括许多映射条目。每个条目将关键词451映射到一个或多个图像ID452。如果图像仅可被指派给特定内容提供者的内容项目,那么将在白名单字段453中列出对应的内容提供者ID。类似地,如果图像不能被指派给特定内容提供者的内容项目,那么将在黑名单字段454中列出对应的内容提供者 ID。应注意,如图3A到图3B以及图4A到图4C中所示的表可由数据分析系统或服务器150进行离线编译和生成,以及由图像选择模块或系统110进行在线利用。
图5是示出根据本发明的一个实施方式的图像选择系统的示例的框图。系统500可实施为图1A到图1B的系统100或图2系统200的一部分。参考图5,图像选择模块或系统110包括但不限于关键词提取模块501、图像搜索模块502、白名单处理模块503、黑名单处理模块504和图像排序模块505。模块501-505可以以软件、硬件或其组合的形式来实施。例如,计分模块可加载在存储器中并由一个或多个处理器来执行。
图6是示出根据本发明的一个实施方式的图像选择系统的处理流程的流程图。可由图5的系统500来执行处理流程600。现参考图5 到图6,响应于搜索查询601或搜索查询601的搜索词,关键词提取模块501(也称为查询分析模块)对搜索词执行分析,以导出与搜索查询601的搜索词相关联的一组关键词602。关键词602可以是被包括在搜索查询601的搜索词中的关键词。可替代地,关键词602还可包括与搜索查询601的搜索词语义相关的附加关键词,附加关键词可基于分析来确定。例如,关键词提取模块501可对搜索词执行潜在语义分析,以导出与搜索查询601的搜索词语义相关的附加关键词。该分析还可从搜索查询601中移除被认为与搜索请求器的意图无关或矛盾的一些关键词。
潜在语义分析(latent semantic analysis,LSA)是自然语言处理(特别是分布式语义)中的技术,其通过产生与一组文档及这组文档所包含的词有关的一组概念来分析该文档与词之间的关系。LSA假设含义接近的词语将出现在文本中类似的片段中。包含每段落词语数的矩阵 (行表示唯一的词语,以及列表示每个段落)由大段的文本建构而成,且使用称为奇异值分解(SVD)的数学技术来减少行数同时保留列中的相似性结构。随后,通过使用由任意两行形成的两个向量之间的角度的余弦函数(或两个归一化向量之间的点积)来比较词语。数值接近1表示词语非常类似,而数值接近零表示词语非常不同。
基于关键词602,使用关键词/图像映射表300来识别图像ID 603 的列表。基于图像ID 603,图像搜索模块502在图像存储器(例如,图像存储器125)中进行搜索,以获得作为候选图像的图像的列表及其关联的元数据。图像搜索模块502可基于关键词502在关键词/图像映射表中进行查找,以识别用于识别图像的初级图像ID 603的列表。另外,白名单处理模块503处理图像ID 603以基于如上文所述的图像白名单表400从候选图像中移除任何无关或相抵触的图像ID,从而生成中间候选图像605。黑名单处理模块504进一步处理中间候选图像 605以基于如上文所述的图像黑名单表420从候选图像中进一步移除任何无关或相抵触的图像ID,从而生成最终候选图像606的列表。可由图像排序模块505使用多种排序算法或模型对最终候选图像606排序。随后,可选择排在前列的图像来与由搜索引擎120响应于搜索查询601来搜索和识别的内容项目604相关联。
图7是示出根据本发明的一个实施方式的用于将图像与内容项目匹配的过程的流程图。可由处理逻辑来执行过程700,处理逻辑可包括软件、硬件或其组合。例如,可由图5的系统500来执行过程700。参考图7,在框701处,处理逻辑接收基于搜索查询所识别的内容项目,其中该内容项目由第一内容提供者来提供。在框702处,处理逻辑基于与搜索查询相关联的一个或多个关键词来将图像列表识别为候选图像(例如使用关键词/图像映射表)。在框703处,处理逻辑识别并移除被包括在与不同于第一内容提供者的内容提供者对应的图像白名单表中的任何图像。在框704处,处理逻辑识别并移除被包括在对应于与第一内容提供者相同的内容提供者的图像黑名单表中的任何图像。在框705处,使用多种排序算法或模型对其余候选图像排序。随后在框706处,选择排在前列的图像中的一个来与内容项目相关联。
图8是示出根据本发明的一个实施方式的数据分析系统的示例的框图。参考图8,数据分析系统150包括但不限于数据收集模块801、分析模块802、关键词/图像映射模块803、白名单处理模块804和黑名单处理模块805。数据收集模块801负责收集待存储在图像存储器 125中的图像及其元数据。分析模块802将依据存储在内容数据库133 中的内容项目及其元数据对存储在图像存储器125中的图像和元数据执行分析,其中内容项目由一个或多个内容提供者来提供。基于所述分析,关键词/图像映射模块803创建关键词/图像映射表300。
另外,白名单处理模块804创建图像白名单表400。如上文所述,可从与特定内容提供者相关联的来源(例如,网站)来收集图像。图像可包括例如通过图像辨识过程所辨识的内容,可表示或描述特定内容提供者或特定内容提供者的产品/类别。(例如,具有版权的图像) 图像可被特定内容提供者独占或许可。在任一种这种情况下,例如由分析模块802和/或白名单处理模块804确定,图像可仅与由对应内容提供者所提供的内容项目相关联。随后,那些图像的图像ID被存储在图像白名单表400中。
此外,黑名单处理模块805创建图像黑名单表420。如上文所述,可从与特定内容提供者相关联的来源(例如,网站)来收集图像,该特定内容提供者是另一个内容提供者的竞争对手。图像可包括例如通过图像辨识过程所辨识的内容,可表示或描述作为另一个特定内容提供者的竞争对手的特定内容提供者或该特定内容提供者的产品/类别。图像(例如,具有版权的图像)可被作为另一个特定内容提供者的竞争对手的特定内容提供者独占或许可。在任一种这种情况下,例如由分析模块802和/或黑名单处理模块805确定,图像可不与由对应内容提供者所提供的内容项目相关联。随后,那些图像的图像ID被存储在图像黑名单表420中。
图9是示出根据本发明的一个实施方式的数据分析过程的流程图。可由处理逻辑来执行过程900,处理逻辑可包括软件、硬件或其组合。例如,可由图8的系统800来执行过程900。参考图9,在框 901处,处理逻辑接收一组图像及该图像的元数据。针对每一个图像,在框902处,处理逻辑对图像和元数据执行分析,以及将用于识别图像的图像ID映射到一个或多个关键词(例如,竞价词)从而产生关键词/图像映射表。在框903处,处理逻辑确定图像是否与第一内容提供者相关联。如果图像与第一内容提供者相关联,那么在框904处,将用于识别图像的图像ID包括在待映射到第一内容提供者的图像白名单表中。在框905处,处理逻辑确定图像是否与第二内容提供者的竞争对手相关联。如果是,那么在框906处,将图像ID添加到图像黑名单表以与用于识别第二内容提供者的第二内容提供者ID相关联。
可使用上述技术将图像与由内容提供者所提供的赞助内容匹配。一种类型的赞助内容是由作为内容提供者的广告商所提供的广告 (Ad)。例如,返回参考图1A到图1B,内容数据库(content database, DB)或服务器133可以是Ad数据库或Ad服务器。每一个内容项目 (例如,Ad)与一系列预定的关键词、词、短语或句子相关联。这些预定义的关键词、词、短语或句子可以是由广告提供者所购买、限定或指定的竞价词。在另一个实施方式中,主要内容DB 130可存储在公共网络中通常可获取的一般内容。辅助内容DB 131可以是广告DB。一些广告可仅仅是纯文本。通过将图像与广告匹配和整合(例如,作为背景图像),广告可更吸引用户或对用户更具吸引力。服务器104 可以是用于搜索内容的网络服务器,或可替代地,服务器104可以是广告服务器。
图10是示出可与本发明的一个实施方式一起使用的数据处理系统的示例的框图。例如,系统1500可表示执行任一上述过程或方法的任一上述数据处理系统,例如上述客户端装置或服务器,例如上述客户端装置101-102、服务器104、内容服务器133、内容/图像映射系统 /服务器150或图像搜索引擎/系统/服务器605。
系统1500可包括许多不同的组件。这些组件可以实施为集成电路 (IC)、集成电路的部分、分立的电子装置或适用于电路板的其它模块 (诸如计算机系统的主板或插入卡),或者实施为以其它方式并入计算机系统的机架内的组件。
还应注意,系统1500旨在示出计算机系统的许多组件的高层次视图。然而,应当理解的是,某些实现方式中可存在附加的组件,此外,其它实现方式中可出现与所示组件不同的布置。系统1500可表示台式计算机、膝上型计算机、平板计算机、服务器、移动电话、媒体播放器、个人数字助理(PDA)、智能手表、个人通信器、游戏装置、网络路由器或集线器、无线接入点(AP)或中继器、机顶盒或其组合。此外,虽然仅示出了单个机器或系统,但是术语“机器”或“系统”还应当被理解为包括单独地或共同地执行一组(或多组)指令以执行本文所讨论的任何一种或多种方法的机器或系统的任何组合。
在一个实施方式中,系统1500包括经由总线或互连件1510连接的处理器1501、存储器1503以及装置1505-1508。处理器1501可表示其中包括单个处理器内核或多个处理器内核的单个处理器或多个处理器。处理器1501可表示一个或多个通用处理器,诸如微处理器、中央处理单元(CPU)等。更具体地,处理器1501可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令词语(VLIW)微处理器、或实施其它指令集的处理器、或实施指令集组合的处理器。处理器1501还可以是一个或多个专用处理器,诸如专用集成电路(ASIC)、蜂窝或基带处理器、场可编程门阵列(FPGA)、数字信号处理器(DSP)、网络处理器、图形处理器、通信处理器、加密处理器、协处理器、嵌入式处理器或能够处理指令的任何其它类型的逻辑。
处理器1501(其可以是低功率多核处理器套接,诸如超低电压处理器)可用作与系统的各种组件通信的主处理单元和中央集线器。这种处理器可以实施为片上系统(SoC)。处理器1501被配置成执行指令以执行本文所讨论的操作和步骤。系统1500还可包括与可选的图形子系统(显示控制器和/或显示装置)1504通信的图形接口,图形子系统(显示控制器和/或显示装置)1504可包括显示控制器、图形处理器和/或显示装置。
处理器1501可与存储器1503通信,存储器1503在一个实施方式中可以经由多个存储器装置实施以提供给定量的系统存储。存储器 1503可包括一个或多个易失性存储(或存储器)装置,诸如随机存取存储器(RAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、静态RAM(SRAM)或其它类型的存储装置。存储器1503可存储包括由处理器1501或任何其它装置执行的指令序列的信息。例如,多种操作系统、装置驱动程序、固件(例如,基本输入输出系统或BIOS)和/或应用的可执行代码和/或数据可以加载在存储器1503中并由处理器 1501执行。操作系统可以是任何类型的操作系统,例如像来自
Figure BDA0001153241360000181
公司的
Figure BDA0001153241360000182
操作系统、来自苹果公司的
Figure BDA0001153241360000183
来自
Figure BDA0001153241360000184
公司的
Figure BDA0001153241360000185
或其它实时或嵌入式操作系统(诸如VxWorks)。
系统1500还可包括I/O装置,诸如装置1505-1508,包括网络接口装置1505、可选的输入装置1506以及其它可选的I/O装置1507。网络接口装置1505可包括无线收发器和/或网络接口卡(NIC)。无线收发器可以是WiFi收发器、红外收发器、蓝牙收发器、WiMax收发器、无线蜂窝电话收发器、卫星收发器(例如,全球定位系统(GPS) 收发器)或其它射频(RF)收发器或其组合。NIC可以是以太网卡。
输入装置1506可包括鼠标、触摸板、触敏屏幕(其可以与显示装置1504整合在一起)、定点装置(诸如手写笔)和/或键盘(例如,物理键盘或作为触敏屏幕的一部分显示的虚拟键盘)。例如,输入装置 1506可包括联接到触摸屏的触摸屏控制器。触摸屏和触摸屏控制器例如可以使用多种触敏技术(包括但不限于电容性、电阻性、红外和表面声波技术)中的任一种以及使用用于确定与触摸屏的一个或多个接触点的其它近邻传感器阵列或其它元件来检测其触摸、移动或间断。
I/O装置1507可包括音频装置。音频装置可包括扬声器和/或麦克风,以协助支持语音的功能,诸如语音辨识、语音复制、数字记录和/ 或电话功能。其它I/O装置1507还可包括通用串行总线(USB)端口、并行端口、串行端口、打印机、网络接口、总线桥(例如,PCI-PCI桥)、传感器(例如,运动传感器,诸如加速度计、陀螺仪、磁强计、光传感器、罗盘、近邻传感器等)或其组合。装置1507还可包括成像处理子系统(例如,摄像机),成像处理子系统可包括用来协助摄像机功能(诸如记录照片和视频片段)的光学传感器,诸如电荷耦合装置(CCD)或互补金属氧化物半导体(CMOS)光学传感器。某些传感器可经由传感器集线器(未示出)联接到互连件1510,而其它装置(诸如,键盘或热传感器)可由嵌入式控制器(未示出)控制,这取决于系统1500的具体配置或具体设计。
为了提供对信息(诸如,数据、应用、一个或多个操作系统等) 的永久性存储,大容量存储装置(未示出)也可联接到处理器1501。在各种实施方式中,为了实施更薄且更轻的系统设计并且改进系统响应能力,这种大容量存储装置可经由固态装置(SSD)实施。然而,在其它实施方式中,大容量存储装置可主要使用硬盘驱动器(HDD) 来实施,其中较少量的SSD存储装置充当SSD高速缓存以在断电事件期间实施对上下文状态以及其它此类信息的非易失性存储,从而使得在系统活动重新启动时能够实施快速上电。另外,闪存装置可以例如经由串行外围接口(SPI)联接到处理器1501。这种闪存装置可提供系统软件的非易失性存储,系统软件包括系统的基本输入/输出软件 (BIOS)以及其它固件。
存储装置1508可包括计算机可访问的存储介质1509(也被称为机器可读存储介质或计算机可读介质),其上存储有体现任何一种或多种本文所描述的方法或功能的一组或多组指令或软件(例如,模块、单元和/或逻辑1528)。模块/单元/逻辑1528可表示任一上述组件,例如上述搜索引擎、编码器、交互日志记录模块。模块/单元/逻辑1528 还可在其被数据处理系统1500、存储器1503和处理器1501执行期间完全地或至少部分地驻存在存储器1503内和/或处理器1501内,从而也构成机器可访问的存储介质。模块/单元/逻辑1528还可通过网络经由网络接口装置1505被发送或接收。
计算机可读存储介质1509也可用来永久性地存储以上描述的一些软件功能。虽然计算机可读存储介质1509在示例性实施方式中被示为单个介质,但是术语“计算机可读存储介质”应当被认为包括存储一组或多组指令的单个介质或多个介质(例如,集中式或分布式数据库和/或相关联的高速缓存和服务器)。术语“计算机可读存储介质”还应当被认为包括能够存储或编码一组或多组指令的任何介质,一组或多组指令由机器执行并且致使机器执行本发明的任何一种或多种方法。因此,术语“计算机可读存储介质”应当被认为包括但不限于固态存储器以及光学介质和磁性介质或者任何其它非暂时性机器可读介质。
本文所述的模块/单元/逻辑1528、组件以及其它特征可以实施为分立的硬件组件或整合在诸如ASICS、FPGA、DSP或类似装置的硬件组件的功能中。另外,模块/单元/逻辑1528可以实施为硬件装置内的固件或功能电路。此外,模块/单元/逻辑1528可以以硬件装置和软件组件的任何组合的形式实施。
应注意,虽然系统1500被示出为具有数据处理系统的各种组件,但是其不旨在表示任何特定的架构或互连组件的方式;因为此类细节和本发明的实施方式没有密切关系。还应当认识到,具有更少组件或可能具有更多组件的网络计算机、手持计算机、移动电话、服务器和/ 或其它数据处理系统也可与本发明的实施方式一起使用。
前述详细描述中的一些部分已经依据在计算机存储器内对数据位的运算的算法和符号表示而呈现。这些算法描述和表示是数据处理领域中的技术人员所使用的方法,从而最有效地将他们工作的实质内容传达给本领域中的其他技术人员。这里,算法通常被认为是导致所期望结果的自洽的操作序列。这些操作是需要对物理量进行物理操控的操作。
然而,应当牢记,所有这些术语和类似的术语均意图与适当的物理量相关联,并且仅仅是适于这些物理量的适宜标记。除非在以上讨论中另外明确地说明,否则应当了解,本说明书全文中,利用术语(诸如以下权利要求书中所阐述的术语)的讨论是指计算机系统或类似电子计算装置的动作和处理,计算机系统或类似电子计算装置操控计算机系统的寄存器和存储器中的表示为物理(例如,电子)量的数据,并将数据变换成计算机系统存储器或寄存器或其它此类信息存储器、传输或显示装置内类似地表示为物理量的其它数据。
图中所示的技术可以使用存储和执行于一个或多个电子装置上的代码及数据来实施。此类电子装置使用计算机可读介质来存储和传递 (在内部和/或通过网络与其它电子装置)代码及数据,计算机可读介质是诸如非暂时性计算机可读存储介质(例如,磁盘、光盘、随机存取存储器;只读存储器、闪存存储器装置、相变存储器)和暂时性计算机可读传输介质(例如,电子、光学、声学或其它形式的传播信号—诸如载波、红外信号、数字信号)。
前述附图中所描绘的过程或方法可由处理逻辑来执行,处理逻辑包括硬件(例如,电路、专用逻辑等)、固件、软件(例如,体现在非暂时性计算机可读介质上)或其组合。尽管所述过程或方法在上文是依据一些顺序操作来描述的,但是应当了解,所描述的一些操作可按不同的顺序执行。此外,一些操作可并行地执行而不是顺序地执行。
在以上的说明书中,已经参考本发明的特定例示性实施方式对本发明的实施方式进行了描述。将显而易见的是:在不脱离如以下权利要求书中阐述的本发明的更宽泛的精神和范围的情况下,可对其作出各种修改。因此,应当以说明性意义而不是限制性意义来理解本说明书和附图。

Claims (19)

1.用于将内容项目与图像匹配的计算机实施方法,所述方法包括:
将一个或多个图像的第一集合识别为待与响应于搜索查询所识别的内容项目匹配的候选图像列表,其中所述内容项目由第一内容提供者来提供;
在图像白名单表中执行第一查找操作,以识别与第二内容提供者相关联的一个或多个图像的第二集合,所述第二内容提供者与所述第一内容提供者不同;
从所述候选图像列表中移除被包括在所述图像的所述第二集合中的任何候选图像;以及
选择所述候选图像列表中其余候选图像中的一个来与所述内容项目相关联。
2.如权利要求1所述的方法,其中所述图像白名单表包括多个条目,每个条目将图像映射到内容提供者以指示所述图像仅能够与由对应内容提供者所提供的内容项目相关联。
3.如权利要求2所述的方法,其中所述图像白名单表中的第一条目的第一图像是从与所述第一条目中列出的第三内容提供者相关联的来源中获得的。
4.如权利要求2所述的方法,其中所述图像白名单表中的第一条目的第一图像包括与所述第一条目中列出的第三内容提供者相关联的能够被辨识的内容。
5.如权利要求1所述的方法,还包括:
在图像黑名单表中执行第二查找操作,以识别与所述内容项目的所述第一内容提供者相关联的一个或多个图像的第三集合;以及
从所述候选图像列表中移除被包括在所述图像的所述第三集合中的任何候选图像。
6.如权利要求5所述的方法,其中所述图像黑名单表包括多个条目,每个条目将图像映射到内容提供者以指示所述图像不能与由对应内容提供者所提供的内容项目相关联。
7.如权利要求6所述的方法,其中所述图像黑名单表中的第一条目的第一图像是从与第三内容提供者相关联的来源获得的,其中所述第三内容提供者是所述第一条目中列出的第四内容提供者的竞争对手。
8.如权利要求6所述的方法,其中所述图像黑名单表中的第一条目的第一图像包括与所述第一条目中列出的第三内容提供者相抵触的能够被辨识的内容。
9.如权利要求1所述的方法,还包括:
从所述搜索查询中提取一个或多个关键词;以及
基于所提取的关键词在关键词/图像映射表中执行第三查找操作,以识别图像的所述第一集合,
其中所述关键词/图像映射表包括多个条目,每个条目将关键词映射到用于识别一个或多个图像的一个或多个图像标识符。
10.用于将内容项目与图像匹配的设备,所述设备包括:
识别装置,将一个或多个图像的第一集合识别为待与响应于搜索查询所识别的内容项目匹配的候选图像列表,其中所述内容项目由第一内容提供者来提供;
第一查找装置,在图像白名单表中执行第一查找操作,以识别与第二内容提供者相关联的一个或多个图像的第二集合,所述第二内容提供者与所述第一内容提供者不同;
第一移除装置,从所述候选图像列表中移除被包括在所述图像的所述第二集合中的任何候选图像;以及
选择装置,选择所述候选图像中的一个来与所述内容项目相关联。
11.如权利要求10所述的用于将内容项目与图像匹配的设备,其中所述图像白名单表包括多个条目,每个条目将图像映射到内容提供者以指示所述图像仅能够与由对应内容提供者所提供的内容项目相关联。
12.如权利要求11所述的用于将内容项目与图像匹配的设备,其中所述图像白名单表中的第一条目的第一图像是从与所述第一条目中列出的第三内容提供者相关联的来源中获得的。
13.如权利要求11所述的用于将内容项目与图像匹配的设备,其中所述图像白名单表中的第一条目的第一图像包括与所述第一条目中列出的第三内容提供者相关联的能够被辨识的内容。
14.如权利要求10所述的用于将内容项目与图像匹配的设备,其中所述设备还包括:
第二查找装置,在图像黑名单表中执行第二查找操作,以识别与所述内容项目的所述第一内容提供者相关联的一个或多个图像的第三集合;以及
第二移除装置,从所述候选图像列表中移除被包括在所述图像的所述第三集合中的任何候选图像。
15.如权利要求14所述的用于将内容项目与图像匹配的设备,其中所述图像黑名单表包括多个条目,每个条目将图像映射到内容提供者以指示所述图像不能与由对应内容提供者所提供的内容项目相关联。
16.如权利要求15所述的用于将内容项目与图像匹配的设备,其中所述图像黑名单表中的第一条目的第一图像是从与第三内容提供者相关联的来源获得的,其中所述第三内容提供者是所述第一条目中列出的第四内容提供者的竞争对手。
17.如权利要求15所述的用于将内容项目与图像匹配的设备,其中所述图像黑名单表中的第一条目的第一图像包括与所述第一条目中列出的第三内容提供者相抵触的能够被辨识的内容。
18.如权利要求10所述的用于将内容项目与图像匹配的设备,其中所述设备还包括:
提取装置,从所述搜索查询中提取一个或多个关键词;以及
第三查找装置,基于所提取的关键词在关键词/图像映射表中执行第三查找操作,以识别图像的所述第一集合,
其中所述关键词/图像映射表包括多个条目,每个条目将关键词映射到用于识别一个或多个图像的一个或多个图像标识符。
19.数据处理系统,包括如要求10-18中任一项所述的用于将内容项目与图像匹配的设备。
CN201611014754.8A 2016-06-06 2016-11-15 用于将内容项目与图像匹配的方法、设备和数据处理系统 Active CN107463592B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/174,368 2016-06-06
US15/174,368 US10289642B2 (en) 2016-06-06 2016-06-06 Method and system for matching images with content using whitelists and blacklists in response to a search query

Publications (2)

Publication Number Publication Date
CN107463592A CN107463592A (zh) 2017-12-12
CN107463592B true CN107463592B (zh) 2021-03-09

Family

ID=57442579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611014754.8A Active CN107463592B (zh) 2016-06-06 2016-11-15 用于将内容项目与图像匹配的方法、设备和数据处理系统

Country Status (5)

Country Link
US (1) US10289642B2 (zh)
EP (1) EP3255564A1 (zh)
JP (1) JP6165955B1 (zh)
KR (1) KR101932619B1 (zh)
CN (1) CN107463592B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11487868B2 (en) * 2017-08-01 2022-11-01 Pc Matic, Inc. System, method, and apparatus for computer security
EP3669282B1 (en) * 2017-09-20 2022-11-02 Samsung Electronics Co., Ltd. Method and apparatus for managing a service request in a blockchain network
CN108446737B (zh) * 2018-03-21 2022-07-05 百度在线网络技术(北京)有限公司 用于识别对象的方法和装置
CN109766779B (zh) * 2018-12-20 2021-07-20 深圳云天励飞技术有限公司 徘徊人员识别方法及相关产品
CN113094550B (zh) * 2020-01-08 2023-10-24 百度在线网络技术(北京)有限公司 视频检索方法、装置、设备和介质
CN111709247B (zh) * 2020-05-20 2023-04-07 北京百度网讯科技有限公司 数据集处理方法、装置、电子设备和存储介质
KR102380518B1 (ko) * 2021-06-22 2022-04-01 한국과학기술정보연구원 이종 데이터 통합 서비스 방법 및 이종 데이터 통합 서비스 시스템

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103180845A (zh) * 2010-10-21 2013-06-26 雅虎公司 将用户生成内容的项目匹配到实体
US8645354B2 (en) * 2011-06-23 2014-02-04 Microsoft Corporation Scalable metadata extraction for video search
CN103678487A (zh) * 2013-11-08 2014-03-26 北京奇虎科技有限公司 一种网页快照的生成方法和装置
CN104754374A (zh) * 2015-04-03 2015-07-01 北京奇虎科技有限公司 音视频文件检测管理方法及装置

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03251937A (ja) * 1990-02-28 1991-11-11 Nec Corp データベース検索方式
JP3251937B2 (ja) * 1990-08-02 2002-01-28 ランクサイド・テクノロジー・カンパニー・エルピー 焼結セラミック成形体の製造方法
JP3897494B2 (ja) * 1999-08-31 2007-03-22 キヤノン株式会社 画像管理検索装置、画像管理検索方法及び記憶媒体
JP2002063209A (ja) * 2000-08-22 2002-02-28 Sony Corp 情報処理装置および方法、情報システム、並びに記録媒体
EP1490767B1 (en) * 2001-04-05 2014-06-11 Audible Magic Corporation Copyright detection and protection system and method
JP2003256461A (ja) * 2002-03-04 2003-09-12 Fuji Photo Film Co Ltd 画像検索方法および装置並びにプログラム
US8239263B2 (en) * 2003-09-05 2012-08-07 Google Inc. Identifying and/or blocking ads such as document-specific competitive ads
US7421454B2 (en) * 2004-02-27 2008-09-02 Yahoo! Inc. Method and system for managing digital content including streaming media
US9407963B2 (en) * 2004-02-27 2016-08-02 Yahoo! Inc. Method and system for managing digital content including streaming media
US8775436B1 (en) * 2004-03-19 2014-07-08 Google Inc. Image selection for news search
US7697791B1 (en) * 2004-05-10 2010-04-13 Google Inc. Method and system for providing targeted documents based on concepts automatically identified therein
US9912677B2 (en) * 2005-09-06 2018-03-06 Daniel Chien Evaluating a questionable network communication
US7925044B2 (en) * 2006-02-01 2011-04-12 Markmonitor Inc. Detecting online abuse in images
US8356076B1 (en) * 2007-01-30 2013-01-15 Proofpoint, Inc. Apparatus and method for performing spam detection and filtering using an image history table
US8005826B1 (en) * 2007-04-30 2011-08-23 Google Inc. Identifying media content in queries
US20090077617A1 (en) * 2007-09-13 2009-03-19 Levow Zachary S Automated generation of spam-detection rules using optical character recognition and identifications of common features
US8428367B2 (en) * 2007-10-26 2013-04-23 International Business Machines Corporation System and method for electronic document classification
JP5118592B2 (ja) * 2007-12-04 2013-01-16 株式会社リコー ファイル管理システム
JP4604253B2 (ja) * 2007-12-21 2011-01-05 Necビッグローブ株式会社 ウェブページ安全性判定システム
US8867779B2 (en) * 2008-08-28 2014-10-21 Microsoft Corporation Image tagging user interface
US8321516B2 (en) * 2008-09-30 2012-11-27 Aol Inc. Systems and methods for creating and updating reputation records
US8448245B2 (en) * 2009-01-17 2013-05-21 Stopthehacker.com, Jaal LLC Automated identification of phishing, phony and malicious web sites
CN101902699B (zh) * 2009-05-31 2013-08-21 中兴通讯股份有限公司 一种基于消息号码处理消息的方法及装置
BR112012001168A2 (pt) * 2009-07-17 2019-09-24 Google Inc proporcionando anúncios a partir de solicitação de pesquisa
US20110047163A1 (en) * 2009-08-24 2011-02-24 Google Inc. Relevance-Based Image Selection
US9710491B2 (en) * 2009-11-02 2017-07-18 Microsoft Technology Licensing, Llc Content-based image search
JP2012064144A (ja) * 2010-09-17 2012-03-29 Sharp Corp 中継サーバ、及び広告配信システム
US8909625B1 (en) * 2011-06-02 2014-12-09 Google Inc. Image search
US8645353B2 (en) 2011-06-23 2014-02-04 Microsoft Corporation Anchor image identification for vertical video search
US8572096B1 (en) * 2011-08-05 2013-10-29 Google Inc. Selecting keywords using co-visitation information
KR101391107B1 (ko) * 2011-08-10 2014-04-30 네이버 주식회사 검색 대상의 타입을 인터렉티브하게 표시하는 검색 서비스 제공 방법 및 장치
US9646292B2 (en) * 2011-08-24 2017-05-09 Follett Corporation Method and system for distributing digital media content
US9152730B2 (en) * 2011-11-10 2015-10-06 Evernote Corporation Extracting principal content from web pages
US9208316B1 (en) * 2012-02-27 2015-12-08 Amazon Technologies, Inc. Selective disabling of content portions
US8626585B1 (en) 2012-05-14 2014-01-07 Google Inc. Selection of images to display next to textual content
JP6020196B2 (ja) * 2013-01-23 2016-11-02 富士ゼロックス株式会社 情報提供装置及びプログラム
US9110943B2 (en) * 2013-01-31 2015-08-18 Google Inc. Identifying an image for an entity
US20150170072A1 (en) * 2013-07-26 2015-06-18 Ad-Vantage Networks, Inc. Systems and methods for managing network resource requests
US9501499B2 (en) 2013-10-21 2016-11-22 Google Inc. Methods and systems for creating image-based content based on text-based content
WO2015101774A1 (en) * 2013-12-31 2015-07-09 British Telecommunications Public Limited Company Processing service requests for digital content
JP2017515173A (ja) * 2014-01-23 2017-06-08 仁 川鍋 情報を交換するためのシステム及び方法
CN104394122B (zh) * 2014-10-31 2017-06-27 杭州安恒信息技术有限公司 一种基于自适应代理机制的http业务防火墙
US10701454B2 (en) * 2015-06-30 2020-06-30 Home Box Office, Inc. Image providing service
US20170032043A1 (en) * 2015-07-27 2017-02-02 Meemim Inc. System and method for content image association and network-constrained content retrieval
US10296538B2 (en) * 2016-02-23 2019-05-21 Baidu Usa Llc Method for matching images with content based on representations of keywords associated with the content in response to a search query
US10275472B2 (en) * 2016-03-01 2019-04-30 Baidu Usa Llc Method for categorizing images to be associated with content items based on keywords of search queries
US10289700B2 (en) * 2016-03-01 2019-05-14 Baidu Usa Llc Method for dynamically matching images with content items based on keywords in response to search queries
US9930045B2 (en) * 2016-05-23 2018-03-27 Verizon Patent And Licensing Inc. Logging system for blacklisting URLs in toll-free data service
US10282761B2 (en) * 2016-11-15 2019-05-07 Comscore, Inc. Systems and processes for detecting content blocking software

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103180845A (zh) * 2010-10-21 2013-06-26 雅虎公司 将用户生成内容的项目匹配到实体
US8645354B2 (en) * 2011-06-23 2014-02-04 Microsoft Corporation Scalable metadata extraction for video search
CN103678487A (zh) * 2013-11-08 2014-03-26 北京奇虎科技有限公司 一种网页快照的生成方法和装置
CN104754374A (zh) * 2015-04-03 2015-07-01 北京奇虎科技有限公司 音视频文件检测管理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
结合规则过滤和内容过滤的综合型反垃圾邮件系统的研究与实现;张永强;《中国优秀硕士学位论文全文数据库 信息科技辑》;20100615;I139-109 *

Also Published As

Publication number Publication date
JP2017220204A (ja) 2017-12-14
CN107463592A (zh) 2017-12-12
US20170351706A1 (en) 2017-12-07
KR20170138033A (ko) 2017-12-14
US10289642B2 (en) 2019-05-14
EP3255564A1 (en) 2017-12-13
KR101932619B1 (ko) 2018-12-27
JP6165955B1 (ja) 2017-07-19

Similar Documents

Publication Publication Date Title
CN107145496B (zh) 基于关键词将图像与内容项目匹配的方法
CN107480158B (zh) 基于相似性得分评估内容项目与图像的匹配的方法和系统
CN107103016B (zh) 基于关键词表示使图像与内容匹配的方法
CN107463591B (zh) 响应于搜索查询对待与内容匹配的图像动态排序的方法和系统
CN107784059B (zh) 用于搜索和选择图像的方法和系统以及机器可读媒体
CN107463592B (zh) 用于将内容项目与图像匹配的方法、设备和数据处理系统
CN107766399B (zh) 用于使图像与内容项目匹配的方法和系统及机器可读介质
CN107491465B (zh) 用于搜索内容的方法和装置以及数据处理系统
CN107145497B (zh) 基于图像和内容的元数据选择与内容匹配的图像的方法
US10275472B2 (en) Method for categorizing images to be associated with content items based on keywords of search queries
US10789287B2 (en) Method and system for multi-dimensional image matching with content in response to a search query
CN107766398B (zh) 用于使图像与内容项目匹配的方法、装置和数据处理系统
CN107784061B (zh) 确定基于图像的内容样式的方法和系统及机器可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant