CN107463591B - 响应于搜索查询对待与内容匹配的图像动态排序的方法和系统 - Google Patents

响应于搜索查询对待与内容匹配的图像动态排序的方法和系统 Download PDF

Info

Publication number
CN107463591B
CN107463591B CN201611009762.3A CN201611009762A CN107463591B CN 107463591 B CN107463591 B CN 107463591B CN 201611009762 A CN201611009762 A CN 201611009762A CN 107463591 B CN107463591 B CN 107463591B
Authority
CN
China
Prior art keywords
image
keywords
score
match
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611009762.3A
Other languages
English (en)
Other versions
CN107463591A (zh
Inventor
孔旗
朱帆
杨光
王京傲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu USA LLC
Original Assignee
Baidu USA LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu USA LLC filed Critical Baidu USA LLC
Publication of CN107463591A publication Critical patent/CN107463591A/zh
Application granted granted Critical
Publication of CN107463591B publication Critical patent/CN107463591B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Abstract

根据一个实施方式,识别待与内容项目匹配的图像,所述内容项目是响应于搜索查询而识别的。针对图像中的每一个,基于与搜索查询相关联的一个或多个关键字的第一集合以及与图像相关联的一个或多个关键字的第二集合来计算匹配类型得分。基于匹配类型得分、关键字的第一集合和关键字的第二集合来计算图像的匹配质量得分。基于图像的各个匹配质量得分对图像排序。选择图像中匹配质量得分高于预定阈值的一个图像,其中所选图像将与内容项目相关联。

Description

响应于搜索查询对待与内容匹配的图像动态排序的方法和 系统
技术领域
本发明的实施方式总体涉及搜索内容。更具体地,本发明的实施方式涉及响应于搜索查询对待与内容匹配的图像排序。
背景技术
大多数搜索引擎通常在其操作期间经由在客户端装置上运行的浏览器来执行网页搜索。搜索引擎接收由用户输入的搜索词,并检索与搜索词相关联的网页搜索结果列表。搜索引擎基于某些标准将搜索结果显示为搜索列表的一系列子集。在搜索操作期间使用的一般标准是:搜索词是完整地还是部分地出现在给定网页上、搜索字串出现在搜索结果中的次数、字母顺序等。此外,用户可通过点击鼠标按钮来决定打开链接以打开并浏览。可由搜索引擎监控和采集与搜索结果的一些用户交互和/或用户信息,以在随后提供更好的搜索。
通常,响应于搜索查询,执行搜索以识别和检索内容项目列表。接着将内容项目返回搜索请求器。普通搜索引擎将不作修改原样返回大多数内容项目。搜索结果中的一些内容项目仅仅是纯文本或描述,其可能被认为是无吸引力的或令人厌烦的。偶尔,如果内容项目准备有与内容项目有关的某些图像,则搜索结果中的内容将更中看或更具吸引力。然而,使适当图像与内容项目匹配是相当有挑战性的。缺乏对用于与内容项目匹配的图像进行排序的有效方法。
发明内容
本申请的目的在于提供用于对待与内容项目匹配的图像排序的计算机实现方法、对待与内容项目匹配的图像排序的装置以及一种数据处理系统。
根据一个方面,提供了用于对待与内容项目匹配的图像排序的计算机实现方法,该方法可包括:识别待与内容项目匹配的多个图像,内容项目是响应于搜索查询而识别的;针对多个图像中的每一个,基于与搜索查询相关联的一个或多个关键字的第一集合以及与图像相关联的一个或多个关键字的第二集合来计算匹配类型得分,以及基于匹配类型得分、关键字的第一集合和关键字的第二集合来计算图像的匹配质量得分;基于多个图像各自的匹配质量得分对多个图像排序;以及选择多个图像中匹配质量得分高于预定阈值的一个图像,其中所选出的图像将与内容项目相关联。
根据另一方面,提供了一种对待与内容项目匹配的图像排序的装置,可包括:识别待与内容项目匹配的多个图像的装置,内容项目是响应于搜索查询来识别的;针对多个图像中的每一个,基于与搜索查询相关联的一个或多个关键字的第一集合以及与图像相关联的一个或多个关键字的第二集合来计算匹配类型得分的装置,以及基于匹配类型得分、关键字的第一集合和关键字的第二集合来计算图像的匹配质量得分的装置;基于多个图像各自的匹配质量得分对多个图像排序的装置;以及选择多个图像中匹配质量得分高于预定阈值的一个图像的装置,其中所选出的图像将与内容项目相关联。
根据又一方面,提供了一种数据处理系统,可包括根据本申请实施方案的对待与内容项目匹配的图像排序的装置。
附图说明
本发明的实施方式在附图的各图中以举例而非限制的方式示出,在附图中,相同的参考指示相同的元件。
图1A和图1B是示出根据本发明一些实施方式用于使图像与内容项目匹配的系统配置的示例的框图。
图2是示出根据本发明一个实施方式的图像选择系统的示例的框图。
图3A到图3B是根据本发明某些实施方式的查询-图像匹配表的示例。
图4是示出根据本发明一个实施方式的查询-图像映射系统的框图。
图5是示出根据本发明另一个实施方式的查询-图像匹配系统的示例的框图。
图6是示出根据本发明另一个实施方式的查询-图像匹配系统的示例的框图。
图7是示出根据本发明一个实施方式的匹配类型的示例的框图。
图8是示出根据本发明一个实施方式用于确定匹配得分的计分矩阵的示例的框图。
图9是示出根据本发明一个实施方式用于基于关键字使图像与内容项目匹配的过程的流程图。
图10是示出根据一个实施方式的数据处理系统的框图。
具体实施方式
将参考以下所讨论的细节来描述本发明的多种实施方式和方面,附图将示出所述各实施方式。以下描述和附图是对本发明的说明,而不应当解释为限制本发明。描述诸多特定细节以充分理解本发明各实施方式。然而,在某些示例中,为了令对本发明实施方式的讨论简洁,没有描述公知或常见的细节。
本说明书中,对“一个实施方式”或“实施方式”的参考是指结合该实施方式所描述的特定特征、结构或特性可包括在本发明的至少一个实施方式中。在本说明书中各处,短语“在一个实施方式中”的出现不必全部指同一个实施方式。
根据一些实施方式,提供图像排序机制以有效并准确地对用于与内容项目匹配的图像排序,其中内容项目是响应于搜索查询而识别的。针对被识别为待与内容项目匹配的图像候选的图像中的每一个,计算从图像提取或确定的特征(例如,图像属性或性质,和/或围绕图像的任何其他元数据或数据)中的每一个的特征得分。可使用特定的特征得分算法来计算每个特征得分,所述特征得分算法已在过去基于用于响应于大量搜索查询来匹配内容项目的大量图像的特征进行训练或配置。另外,基于图像的元数据、搜索查询和内容项目来确定图像与内容项目之间的匹配类型得分。匹配类型得分可根据搜索查询与基于所述搜索查询而识别的图像之间的匹配类型(例如,搜索查询与图像之间的匹配关键字)而不同。匹配类型可以是精确匹配、部分匹配或广泛匹配(例如,语义匹配)。
接着,基于特征的特征得分和匹配类型得分来计算匹配质量得分。与图像相关联的特征可包括多种元数据,例如图像属性或性质(例如,分辨率、亮度、对比度、定向、大小、图像来源、由图像表示的内容)。可使用预定算法、基于匹配类型得分和至少一些特征得分来计算匹配质量得分。可替代地,可通过将匹配类型得分和特征得分应用于排序模型来确定匹配质量得分,所述排序模型已使用历史图像数据、查询数据和用户交互数据进行训练。接着,将匹配质量得分用作排序得分,以根据其他图像的匹配质量得分对对应图像排序。可选择图像中排序得分高于预定阈值的一个图像来与内容项目匹配,例如作为相对于内容项目的背景图像。
图1A和图1B是示出根据本发明一些实施方式用于使图像与内容项目匹配的系统配置的示例的框图。参考图1A,系统100包括但不限于通过网络103通信地联接到服务器104的一个或多个客户端装置101-102。客户端装置101-102可以是任何类型的客户端装置,诸如,个人计算机(例如,台式计算机、膝上型计算机和平板计算机)、“薄”客户端、个人数字助理(PDA)、支持网页(Web)的设备、智能手表或移动电话(例如,智能手机)等。网络103可以是任何类型的有线或无线网络,诸如局域网(LAN)、广域网(WAN)(诸如因特网)或其组合。
服务器104可以是任何种类的服务器或服务器集群,诸如网络或云服务器、应用服务器、后端服务器或其组合。在一个实施方式中,服务器104包括但不限于搜索引擎120、图像选择模块110和查询/图像匹配规则115。服务器104还包括允许客户端(诸如,客户端装置101-102)访问由服务器104提供的资源或服务的接口(未示出)。接口可包括网络接口、应用编程接口(API)和/或命令行接口(CLI)。
例如,客户端(在该示例中为客户端装置101的用户应用(例如,网络浏览器、移动应用))可向服务器104发送搜索查询,且由搜索引擎120通过网络103经由接口来接收所述搜索查询。响应于搜索查询,搜索引擎120从搜索查询提取一个或多个关键字(也称为搜索词)。搜索引擎120在内容数据库133中执行搜索以识别与关键字有关的内容项目列表,内容数据库133可包括主要内容数据库130和/或辅助内容数据库131。主要内容数据库130(也称为主内容数据库)可以是一般内容数据库,而辅助内容数据库131(也称为二级或附属内容数据库)可以是特殊内容数据库。搜索引擎120向客户端装置101返回具有列表中的至少一些内容项目的搜索结果页面,以在客户端装置101中呈现。搜索引擎120可以是可从百度公司获得的
Figure BDA0001152445560000051
搜索引擎,或可替代地,搜索引擎120可表示
Figure BDA0001152445560000052
搜索引擎、Microsoft BingTM搜索引擎、
Figure BDA0001152445560000053
搜索引擎或一些其他搜索引擎。
搜索引擎(诸如,网页搜索引擎)是设计成在万维网上搜索信息的软件系统。搜索结果通常被呈现在一系列结果(常称为搜索引擎结果页面)中。信息可以是网页、图像和其他类型的文件的混合。一些搜索引擎还挖掘数据库或开放式目录中可用的数据。不同于仅通过人工编辑器来维护的网络目录,搜索引擎还通过在网页爬虫上运行算法来维护实时信息。
网页搜索引擎通过存储与该网页搜索引擎从页面的超文本标记语言(HTML)标记检索出的诸多网页有关的信息来运行。通过网页爬虫来检索这些页面,所述网页爬虫是遵循网站上的每个链接的自动化网页爬虫。搜索引擎接着分析每个页面的内容以确定其应如何被索引(例如,可以从标题、页面内容、头部或称为元标签的特殊字段来提取字)。将与网页有关的数据存储在索引数据库中,以供在稍后的查询中使用。索引帮助尽可能快地找到与查询有关的信息。
当用户在搜索引擎中输入查询时(通常是通过使用关键字),引擎检查其索引并根据其标准提供最匹配网页的列表,所述列表通常具有包含文档标题并且有时包括部分文本的简短概述。索引是由与数据一起存储的信息及信息的索引方法建构而成。搜索引擎查找与输入时完全一致的字或短语。一些搜索引擎提供允许用户定义关键字之间的距离的高级特征(称为接近搜索)。还存在基于概念的搜索,其中所述搜索涉及在包含你所搜索的字或短语的页面上使用统计分析。另外,自然语言查询允许用户以与将向人询问问题的形式相同的形式来键入问题。
搜索引擎的有用性取决于其所回馈的结果集的相关性。虽然包括特定字或短语的网页可能有数百万个,但一些页面可能比其他页面更贴切、更流行或更有权威。大多数搜索引擎采用多种方法来对结果排序以首先提供“最佳”结果。搜索引擎如何决定哪些页面是最佳匹配者以及应按什么顺序来示出结果随引擎的不同而广泛变化。
返回参考图1A,根据一个实施方式,响应于在服务器104处从客户端装置(在该示例中为客户端装置101)接收的搜索查询,搜索引擎120在内容数据库133(诸如,主要内容数据库130和/或辅助内容数据库131)中执行搜索,以生成内容项目列表。可经由统一资源链接(URL)和/或统一资源标识符(URI)使每一个内容项目与特定内容提供者的特定网站的特定网页相关联。在一个实施方式中,主要内容数据库130存储由网络爬虫采集的一般内容项目(例如,非赞助内容)。辅助内容数据库131存储与特定、已知或预定的内容提供者相关联的特定或特殊内容项目(例如,赞助内容)。可替代地,内容数据库133可实施为单个数据库,而不区分主要内容数据库130与辅助内容数据库131。
网络爬虫或网页爬虫是自动遍历网络的超文本结构的程序。在实践中,网络爬虫可在单独的计算机或服务器上运行,所述计算机或服务器中的每一个都配置成执行从URL下载文档的一个或多个进程或线程。网络爬虫接收所指定的URL,并在那些URL处下载文档。网络爬虫还可检索被已检索的文档引用的文档,以供内容处理系统(未示出)和/或搜索引擎120处理。网络爬虫可以使用多种协议来下载与URL相关联的页面,诸如超文本传输协议(HTTP)和文件传送协议(FTP)。
另外,根据一个实施方式,图像选择模块或系统110在查询-图像(查询/图像)映射规则或表115(也称为查询/图像匹配规则或表)中基于与搜索查询相关联的关键字进行搜索以识别图像ID列表,所述图像ID标识与跟搜索查询相关联的关键字有关的图像。查询/图像匹配规则/表115可以多种数据结构(诸如,表或数据库)来实施。基于图像ID,可以从图像存储器125中所存储的图像123中识别和检索图像候选列表,其中图像存储器125还可存储描述图像122的图像元数据(未示出)。在一个实施方式中,可通过一个或多个图像或网络爬虫来获得图像122及其各自的元数据,所述图像或网络爬虫设计成爬取网络以采集图像以及其周围的元数据。图像122可以是无特权的、无著作权保护的、适当许可的图像,或可以是任何其他授权的图像。可基于关键字与图像候选之间的排序得分以及内容项目的元数据对图像候选排序。针对在内容数据库133中找到的每一个内容项目,从图像候选列表中选择与内容项目相关联的图像。所选图像可与内容项目合并在一起,以生成合并的或复合的内容项目。例如,所选图像可充当内容项目的背景图像。合并的内容项目和图像的列表作为搜索结果的一部分被返回到客户端装置101。
根据一个实施方式,可在接收搜索查询之前(例如,离线)预先编译和生成查询/图像映射规则115。一组查询/图像匹配规则115配置成将一个或多个关键字映射到标识一个或多个图像的一个或多个图像标识符(ID)。关键字可被识别为更有可能在搜索查询中使用的关键字和/或与某些内容项目相关联的关键字。可基于对用户搜索活动或搜索历史的分析或追踪来识别这种关键字,其中所述用户搜索活动或搜索历史可在一段时间内被编译。
随后,当搜索引擎120从客户端装置接收到用于搜索内容的搜索查询时,在内容数据库133中执行搜索以检索内容项目列表。另外,例如由图像选择模块110对查询执行分析,以确定与查询相关联的一个或多个关键字。所确定的关键字可以是搜索查询中包括的关键字。所确定的关键字还可包括语义上类似或者含义与最初处于搜索查询中的关键字相同的某些关键字(例如,同义字或短语)。基于关键字,使用一组查询/图像匹配规则115从图像存储器125识别一个或多个图像的列表。
根据一个实施方式,图像选择模块110可使用多种排序算法或排序模型来对已识别的图像排序,所述排序算法或排序模型已由查询/图像映射系统150生成和配置。针对被识别为待与内容项目匹配的图像候选的图像中的每一个,计算从图像提取或确定的特征(例如,图像属性或性质,和/或围绕图像的任何其他元数据或详细数据)中的每一个的特征得分。可使用特定的特征得分算法来计算每个特征,所述特征得分算法已在过去基于用以响应于大量搜索查询来匹配内容项目的大量图像的特征进行训练或配置。另外,基于图像的元数据、搜索查询和内容项目确定图像与内容项目之间的匹配类型得分。匹配类型得分可根据搜索查询与基于所述搜索查询而识别的图像之间的匹配类型(例如,搜索查询与图像之间的匹配关键字)而不同。匹配类型可以是精确匹配、部分匹配或广泛匹配(例如,语义匹配),每一种匹配类型均与特定的匹配类型得分相关联。
接着,基于特征的至少一些特征得分和匹配类型得分来计算匹配质量得分。与图像相关联的特征可包括多种元数据,例如图像属性或性质(例如,分辨率、亮度、对比度、定向、大小、图像来源、由图像表示的内容)。可使用预定算法基于匹配类型得分和特征得分来计算匹配质量得分。可替代地,可通过将匹配类型得分和特征得分应用于排序模型来确定匹配质量得分,所述排序模型已使用历史图像数据、查询数据和用户交互数据进行训练。接着,将匹配质量得分用作排序得分,以根据其他图像的匹配质量得分对对应图像排序。可选择图像中排序得分高于预定阈值的一个图像来与内容项目匹配,例如作为相对于内容项目的背景图像。
注意,仅出于例示的目的描述了服务器104的配置。服务器104可以是向多种最终用户装置提供前端搜索服务的网页服务器。可替代地,服务器104可以为向前端服务器(例如,网页服务器或一般内容服务器)提供特定或特殊内容搜索服务以及使图像与内容数据库或服务器的内容项目匹配和/或集成的应用服务器或后端服务器。查询/图像映射系统150也可实施为负责基于内容数据库或服务器133的内容项目及其各自的关联关键字来创建查询/图像映射规则或表115的单独服务器。
其他架构或配置也可能是可适用的。例如,如图1B中所示的那样,内容数据库133可通过网络在作为内容服务器的单独服务器中被维护和托管。类似地,图像存储器125可在作为其中具有图像搜索引擎的图像服务器的单独服务器中被维护和托管。服务器133和125可以是网页服务器、应用服务器或后端服务器。可由与服务器104相同的实体或组织来组织和提供内容服务器133和/或图像服务器125。可替代地,可由单独的实体或组织(例如,第三方提供者)来维护或托管内容服务器133和/或图像服务器125,所述实体或组织负责采集内容数据库130-131中的内容和图像122中及其元数据。
另外注意,内容数据库/服务器133可包括主要内容数据库130和辅助内容数据库131。主要内容数据库130也可在称为主要内容服务器的单独内容服务器中实现或维护。类似地,辅助内容数据库131可在称为辅助内容服务器的单独内容服务器中实现或维护。可使用多种匹配公式使从两个内容数据库130-131获得的内容项目与从图像存储器/服务器125获得的图像匹配。可替代地,将使仅从主要内容数据库130和辅助内容数据库131中的一者获得的内容项目与从图像存储器/服务器125获得的图像匹配。例如,将令从辅助内容数据库131获得的内容项目(例如,赞助内容)与从图像存储器/服务器125获得的图像匹配;而从主要内容数据库130获得的内容项目(例如,一般内容)将作为搜索结果的一部分返回客户端装置而不作修改。
图2是示出根据本发明一个实施方式用于使图像与内容项目匹配的系统的框图。系统200可实施为图1A到图1B的系统100的一部分。参考图2,当从客户端装置(例如,图1的客户端装置101)接收搜索查询201时,搜索引擎120在内容数据库或内容服务器133中执行第一搜索,以基于与搜索查询201相关联的一个或多个关键字或搜索词来识别和检索内容项目的第一列表。另外,搜索引擎120与图像选择模块110通信,以使用一组查询/图像匹配规则115基于与搜索查询201相关联的关键字来从图像存储器或图像服务器125识别图像列表。搜索引擎120和/或图像选择模块110可对查询执行分析,以导出搜索查询201中所包括的关键字和/或与搜索查询201中的关键字类似的关键字(例如,语义上类似的词、同义词)的列表。可对扩展关键字的列表执行在内容数据库/服务器133和/或图像存储器/服务器125中所执行的搜索。
在一个实施方式中,图像选择模块110和/或查询/图像匹配规则115可与搜索引擎120集成在一起。可例如通过查询/图像映射系统150预先配置或编译查询/图像匹配规则115。查询/图像映射系统150可被托管在经由API或通过网络通信地联接到系统200的单独系统或服务器中。查询/图像映射系统150可包括允许用户或管理员配置一组查询/图像匹配规则的用户接口,该组查询/图像匹配规则接着可由处理逻辑使用预定算法来加以扩展和排序。以下将进一步描述查询/图像映射系统150的进一步细节。
类似地,可由图像采集系统230来采集图像存储器/服务器125中所存储的图像,所述图像采集系统230可以是通过网络通信地联接到系统200的单独系统或服务器。可由与系统200相同或不同的实体或组织来操作查询/图像映射系统150和/或图像采集系统230。在该示例中,可将图像缓存和存储在相对于系统200而言为本地(例如,针对服务器104而言为本地)的图像存储器中。可替代地,可由与图像采集系统230相关联的指定服务器来维护图像,图像选择模块110经由API与服务器通信以识别和检索图像列表。
基于从图像存储器/服务器125检索的图像列表,图像选择模块110根据排序算法对图像排序。接着使图像中的一些与从内容数据库/服务器133识别和检索的内容项目中的一些匹配。接着,将匹配的内容项目与图像集成到已集成的内容项目中。在一个实施方式中,可将图像选择为内容项目的背景图像或补充图像。例如,内容项目211可以是描述或文本,且图像212可选择为内容项目211的背景图像。以适当的方式,基于本说明书通篇所描述的匹配技术来选择图像212以补充或描述内容项目211;或反之,选择内容项目211以补充或描述图像212。例如,内容项目211的内容与如图像212中所示的内容有关;或反之,图像212中的内容与内容项目211的内容有关。可将已集成的图像212与内容项目211作为搜索结果215的一部分返回到客户端装置。
注意,内容数据库/服务器133可包括主要内容数据库130和辅助内容数据库131。主要内容数据库130也可在称为主要内容服务器的单独内容服务器中实现或维护。类似地,辅助内容数据库131可在称为辅助内容服务器的单独内容服务器中实现或维护。可使用下文将进一步详细描述的多种匹配公式使从两个内容数据库130-131获得的内容项目与从图像存储器/服务器125获得的图像匹配。可替代地,将仅使从主要内容数据库130和辅助内容数据库131中的一者获得的内容项目与从图像存储器/服务器125获得的图像匹配。例如,将使从辅助内容数据库131获得的内容项目(例如,赞助内容)与从图像存储器/服务器125获得的图像匹配;而从主要内容数据库130获得的内容项目(例如,一般内容)将作为搜索结果215的一部分返回到客户端装置而不作修改。
根据一个实施方式,响应于从客户端装置接收的搜索查询201,基于搜索查询201来确定一个或多个关键字,其中关键字可包括搜索查询201中的关键字或基于对搜索查询201的分析而扩展的关键字。基于关键字,在查询/图像匹配规则115中执行查找操作或搜索,所述查询/图像匹配规则可以多种数据结构(诸如,数据库或表)来实施。出于例示的目的,将查询/图像匹配规则115称为查询/图像匹配表。
查询/图像匹配表115包括诸多匹配条目。每个匹配条目将一个或多个关键字映射到标识图像存储器/服务器125中所存储的一个或多个图像的一个或多个图像ID。基于以搜索查询201为基础获得的关键字,可从查询/图像匹配表115获得一个或多个图像ID的列表。基于图像ID,从图像存储器/服务器125获得作为图像候选的对应图像。接着,使用下文将进一步详细描述的一个或多个预定排序和/或匹配算法,对图像候选进行排序和匹配。接着,作为搜索结果215的一部分,可选择排在顶部的图像来与内容项目相关联以进行集成。注意,如图2中所示的组件或模块中的一些或全部可以软件、硬件或其组合来实施。
图3A至图3B是根据本发明某些实施方式的查询-图像匹配表的示例。参考图3A,查询/图像匹配表300可表示如上所述的图1A至图1B和图2的查询/图像匹配规则115。在一个实施方式中,查询/图像匹配表300包括诸多匹配条目。每一个匹配条目将一个或多个关键字301映射到一个或多个图像ID 302,其中图像ID 302标识图像存储器或图像服务器(诸如,图像存储器/服务器125)中的对应图像。基于关键字对匹配表300进行索引。在该示例中,第一条目将词“鲜花”映射到图像1-5。第二条目将词“北京鲜花”仅映射到图像1。第三条目将词“上海鲜花”映射到图像2。第四条目将词“鲜花递送”映射到图像1-2和4。因此,如果搜索查询包含“北京鲜花”,则可识别图像1-5。然而,图像1可具有更高排序。
现参考图3B,其是匹配表的替代实施方式的示例,这个匹配表是可被用作查询/图像匹配规则115的一部分的图像-关键字(图像/关键字)匹配表。在该示例中,图像/关键字匹配表350包括诸多匹配条目。每个匹配条目将图像ID 351映射到一个或多个关键字352。基于图像ID对匹配表350进行索引。可互换地利用两个表300和350。例如,表300可用来识别与一个或多个关键字有关的所有图像。针对经由表300识别出的图像中每一个,确定关键字352与搜索查询中的关键字之间的匹配程度或匹配类型,以对由图像ID 351标识的图像排序。
匹配程度或匹配类型可以是精确匹配、部分匹配(例如,短语匹配)或广泛匹配(例如,语义匹配)。例如,可基于搜索查询匹配关键字352中关键字的数量来计算匹配类型得分。如果搜索查询中的关键字与字段352中的关键字精确匹配,则字段351中所标识的对应图像将具有最高匹配程度或匹配类型得分。搜索查询与字段352之间的匹配关键字越少,导致匹配程度或匹配类型得分越低。语义上匹配的关键字(例如,实际不匹配,但为意思相同或类似的同义词或不同词)可具有最低匹配程度或匹配类型得分。匹配类型中的每一种与匹配类型得分相关联,所述匹配类型得分可部分地用于计算最终排序得分。在一个实施方式中,精确匹配的匹配类型得分是1;部分匹配的匹配类型得分是0.5;以及广泛匹配的匹配类型得分是0.2。
图4是示出根据本发明一个实施方式的查询-图像映射系统的框图。系统400可实施为图1A到图1B的系统或服务器150的一部分。参考图4,系统400包括但不限于查询/图像映射系统150、图像存储器125和查询/图像匹配规则115。在一个实施方式中,利用查询/图像映射系统150来配置和生成一组查询/图像匹配规则115,以将某些关键字映射到存储在图像存储器125中的图像。
图像存储器125可通过网络在指定的服务器中以本地或远程的方式被维护。用于在查询/图像匹配规则中进行映射的关键字可以是更有可能在搜索查询中用到的关键字。图像存储器125存储图像122及其各自的元数据124。查询/图像匹配规则115包括关键字/图像映射表421和图像排序算法或模型422。可将关键字/图像映射表421实施为如图3A和图3B中所示的任意映射表。
在一个实施方式中,查询/图像映射系统150包括匹配规则配置模块431、数据采集模块432、分析模块433、匹配模块434和机器学习引擎或训练模块435。模块431-435可以软件、硬件或其组合来实施。在一个实施方式中,可利用配置模块431来例如响应于用户请求而经由用户接口配置关键字/图像映射表421。关键字/图像映射表421包括诸多映射条目。每个映射条目将关键字映射到标识图像存储器125中所存储的图像122中的一个或多个的一个或多个图像ID。可由数据采集模块432周期性地采集并更新图像122和元数据124。数据采集模块432可采用一些网页爬虫来爬取和采集图像及其周围的信息或元数据124。
在一个实施方式中,元数据124包括描述图像122的多种信息或数据,其中可由诸如数据采集模块432的指定数据采集模块或系统来获得元数据。例如,可在获得对应图像的时候采集图像元数据。图像元数据可包括从其采集图像的来源以及包括采集时间。从中获得图像的来源可以是其中附有图像的网页或文档。可采集源页面的地址,诸如统一资源定位器(URL)。另外,可对源页面的内容执行分析,以确定图像可能表示的内容。还可对图像执行图像识别,以确定图像的内容(例如,图像是否与人、物体、风景、文本或其组合有关)。另外,还可采集图像的属性,例如纵横比、像素计数、亮度、对比度、拍摄图像的时间和风格(例如,风景对肖像、图像大小)。此外,还可基于与图像相关联的历史交互来确定用户在过去与图像和/或关键字的先前交互(例如,点击率)。这些信息可被编译为图像124的元数据的一部分,出于计分的目的这些信息也称为图像的特征。
基于元数据,过滤和匹配模块434执行过滤操作,以通过匹配关键字与特定图像的元数据之间的语义意义来确定特定关键字是否充分描述图像。例如,如果关键字出现在从中采集图像的源页面中,则关键字与图像有关。类似地,如果关键字响应于图像识别而描述图像的至少一部分内容,则关键字可以是有关的。如果基于对元数据的分析确定关键字并未充分描述特定图像或反之特定图像并未充分描述关键字,则可移除该特定图像。如果确定用户与特定图像的先前交互低于预定阈值(例如,较少的用户交互、用户兴趣较少或不受欢迎),则可从关键字/图像映射表421移除该特定图像。注意,在本申请通篇中,出于例示的目的,术语“匹配规则”、“映射规则”、“匹配表”和“映射表”是可互换的术语。然而,这些术语可以以多种数据结构或格式来实施。
在一个实施方式中,分析模块433对图像122的至少元数据124执行分析,以提取或获得与图像122及其元数据124相关联的多种图像特征。根据该分析,基于图像特征(诸如,上文列出的图像特征)来确定一组特征计分公式或算法。针对每一个图像,可生成计分公式或算法。另外,还可确定匹配质量计分公式或算法。可替代地,可通过机器学习引擎435来训练或学习特征和/或特征得分,以创建用于确定特定图像的排序得分的排序模型。然后,可将这些算法和/或模型存储为图像排序算法/模型422的一部分,所述图像排序算法/模型422可在线地用来响应于搜索查询对待与内容项目匹配的图像候选排序。可响应于搜索查询使用关键字/图像映射表421来识别图像候选。
图5是示出根据本发明另一个实施方式的查询-图像匹配系统的示例的框图。可将系统500实施为图2的系统200的一部分。参考图5,系统500可与图2的系统200合并在一起。可替代地,可将系统500实施为例如通过网络或连接件经由API或通信协议通信地联接到图2的系统200的独立式系统或服务器。在一个实施方式中,系统500负责:作为用于搜索内容的搜索查询的响应,在运行时间识别待与响应于搜索查询而找到的内容项目匹配的图像、对该图像排序并选择该图像。
在一个实施方式中,图像选择模块110包括查询分析模块501、图像匹配模块502和图像排序模块503,其中这些模块中的一些或全部可以软件、硬件或其组合来实施。在一个实施方式中,响应于从客户端装置接收的用于搜索内容的搜索查询,由查询分析模块501分析搜索查询以确定一个或多个关键字。由图像匹配模块502在关键字/图像映射表421中基于关键字执行搜索或查找操作。关键字/图像映射表421包括多个条目,且每个条目将标识图像的图像ID映射到一个或多个关键字,或反之将一个或多个关键字映射到标识图像的图像ID(例如,如图3A至图3B中所示的匹配表)。针对识别为图像候选的图像中的每一个,由图像排序模块503执行排序过程,以确定图像的排序得分。可基于图像排序算法或模型422对图像排序或分类,所述图像排序算法或模型可由如上所述的图4的系统400来配置。
图6是示出根据本发明另一实施方式的查询-图像匹配系统的示例的框图。系统600可实施为上述匹配系统的一部分。将使用相同的参考标号来引用功能与上述部件相同或相似的某些部件。上文针对具有相同参考标号的部件所阐述的描述在本文中将同等地适用。
参考图6,根据一个实施方式,当接收到搜索查询601时,搜索引擎120在内容数据库中或经由内容服务器执行搜索以识别和检索内容项目603的列表,所述内容项目列表可以并入到搜索结果中。可从一般内容数据库/服务器、辅助内容数据库/服务器(例如,赞助内容、特殊内容)或两者检索内容项目603。同时,查询分析模块501对搜索查询601的关键字或搜索词执行分析,以导出关键字602的列表。基于关键字602,图像匹配模块502在查询/图像映射表或规则115中进行搜索或查找以识别图像候选604的列表,如上所述。
根据图像候选604和内容项目603,排序模块503将基于内容项目603、与内容项目603相关联的元数据611、图像候选604和与图像候选604相关联的元数据612来执行排序过程。可使用预定的排序公式610基于内容项目603、与内容项目603相关联的元数据611、图像候选604和与图像候选604相关联的元数据612之间的关系来执行排序过程。作为排序过程的结果,生成内容项目与图像的匹配对605。可将经匹配的内容项目与图像集成到已集成的内容项目中。例如,可将内容项目(例如,文本)叠加在经匹配的图像上,其中经匹配的图像充当背景图像。可替代地,将经匹配的图像放在内容项目附近以补充内容项目。将其中具有已集成的内容项目的搜索结果传输到启动搜索查询601的客户端装置。
在一个实施方式中,在依据内容项目603对图像候选604排序的过程中,由排序模块503考虑与图像候选604和内容项目603有关的所有信息或数据,这些信息或数据统称为内容项目元数据611和图像元数据612。基于每一个内容项目603与每一个图像候选604之间的匹配得分来计算得分矩阵。针对具有一个内容项目和一个图像候选的每个配对,在计算匹配得分(也称为排序得分)的过程中,针对与该配对的内容项目和图像候选相关联的预定属性或参数中的每一个计算各个匹配得分。可使用与对应属性或参数相关联的各个计分公式、基于从内容项目元数据611和/或图像元数据612获得的对应数据来确定各个匹配得分。接着,使用总计分或排序公式、基于各个匹配得分来确定总匹配得分或最终排序得分。如果一个以上的匹配具有相同的匹配得分,则可应用平局决胜公式来将不同图像指定给不同内容项目。可替代地,根据特定情形,可将一个图像指定给多个内容项目。
从元数据611-612获得的、在对内容项目和图像候选计分的过程中使用的属性或参数可以是可利用数据采集模块(未示出)在一段时间内采集的多种数据。在一个实施方式中,可部分地基于内容项目与图像候选之间的匹配质量来确定内容项目与图像候选之间的匹配得分。术语“匹配质量”可指内容项目是否描述从所匹配的图像识别的内容。例如,可基于标题和/或描述是否匹配由图像呈现的内容来确定匹配质量。可通过由图像识别模块或系统(未示出)执行的图像识别过程来确定由图像表示的内容。可进一步基于内容项目和图像是否获自相同或相似来源(例如,诸如URL的同一地址、同一域,或由相同或相似的提供者提供)来确定匹配质量。
在一个实施方式中,可以部分地基于内容项目与图像之间的、称为点击率的先前用户交互(例如,先前的用户访问模式或行为)来确定内容项目与图像候选之间的匹配得分。先前用户交互可从由数据采集模块或数据采集系统(未示出)在一段时间内采集到的用户交互的历史记录获得。历史记录记下用户与用户所访问或浏览的内容和/或图像的交互,包括标识用户的信息(例如,IP地址、域、用户名)、多少用户已访问内容项目和/或图像、访问的时间、用户在表现内容项目和/或图像的内容页面停留多长时间、用户访问内容页面的频率是多少。点击率可进一步记录对内容项目、图像或由用户一同表示的内容项目与图像两者的点击。
在一个实施方式中,可以部分地基于图像的图像质量来确定内容项目与图像候选之间的匹配得分。图像质量可包括但不限于图像的大小(例如,高度和宽度)、分辨率(例如,像素计数)、纵横比、布局(例如,风景、肖像)、拍摄图像的时间(例如,图像是否为最新的)。匹配得分可以是进一步基于图像的创新或风格,例如亮度、对比度、相机设定或与图像相关联的任何其他元数据。这些属性或性质可称为图像的特征。每个特征可与特征得分相关联。
在一个实施方式中,基于匹配类型得分和匹配质量得分来确定图像的排序得分。基于与搜索查询相关联的关键字和与图像相关联的关键字之间的匹配类型来计算匹配类型得分。与图像相关联的关键字可从如图3A至图3B中所示的关键字/图像映射表421获得。匹配类型可以是精确匹配、部分匹配和广泛匹配。根据一个实施方式,精确匹配的匹配得分可以是1,而部分匹配和广泛匹配的匹配得分分别是0.5和0.2。精确匹配是指搜索查询的关键字和图像的关键字精确匹配的情形。部分匹配是指搜索查询的仅一部分关键字与图像的关键字匹配的情形。广泛匹配是指搜索查询与图像之间没有关键字匹配的情形。然而,搜索查询与图像之间的至少一些关键字在语义上是有关的或类似的(例如,语义上匹配)。
图7是示出根据本发明一个实施方式的匹配类型的示例的框图。参考图7,给出搜索查询701和关键字/图像映射表702,图像712的匹配类型是精确匹配,从而将具有1的匹配类型得分。图像711和713将具有0.5的匹配类型得分,因为其关键字仅是部分匹配。图像714的匹配类型得分将为0.2,因为对应的匹配类型是广泛匹配(由于关键字仅是语义上匹配)。
根据一个实施方式,可基于以下来确定内容项目与图像之间的匹配质量得分:生成内容项目的对应搜索查询与同图像对应的特定条目的关键字之间相匹配的关键字的数量、搜索查询中包括的关键字的数量和/或该特定条目中包括的关键字的数量、以及搜索查询与图像之间的匹配类型得分。在一个实施方式中,基于以下来确定匹配质量得分:匹配关键字的数量与搜索查询中关键字的数量之间的第一比率;以及匹配关键字的数量与跟图像相关联的关键字的数量之间的第二比率。可基于第一比率与第二比率的积来确定匹配质量得分。在一个具体实施方式中,特定图像的匹配质量得分可计算如下:
匹配质量得分=匹配类型得分*(匹配关键字的数量/搜索查询中关键字的数量)α*(匹配关键字的数量/匹配条目中与图像对应的关键字的数量)β其中系数α和β可作为加权因子被调整或训练。
图8是示出根据本发明一个实施方式用于确定匹配得分的计分矩阵的示例的框图。可通过排序模块(诸如图5的图像排序模块503)来编译和生成计分矩阵800。参考图8,假设已由搜索引擎基于与搜索查询相关联的一个或多个关键字从内容数据库或内容服务器识别和检索内容项目801(例如,赞助内容)。另外,已识别图像候选821-823的列表,所述图像候选与跟搜索查询相关联的某些关键字有关,如上所述。
在一个实施方式中,针对内容项目801中的每一个,计算一组预定属性或参数802-807的各个匹配得分。可由相应的匹配得分计算器利用特定或对应的各个匹配得分公式来计算各个匹配得分802-807。如上所述,属性、特征或参数802-807中的每一个可与计算各个匹配得分的过程中的特定加权因子或系数相关联。虽然未示出,但是也可针对图像822-823中的每一个计算各个匹配得分。针对内容项目801中的每一个,计算图像821-823中的每一个的总得分或最终得分810。接着,使用针对特定内容项目所计算出的图像821-823的总的或最终排序得分,来选择图像821-823中的一个与该特定内容项目相关联。
在一个实施方式中,选择针对特定内容项目具有最高总排序得分的图像来与内容项目相关联。例如,假设图像821在图像821-823之间具有最高总排序得分。可选择图像821来与内容项目1相关联。如果针对一个以上内容项目(在该示例中为内容项目1和2)同一个图像具有相同的最高排序得分,则可应用平局决胜公式来解决竞争。在一个实施方式,针对内容项目801中的每一个计算所有图像821-823的所有总排序得分的和。具有最高和的内容项目具有较高的优先级来选择图像。可存在其他配置。
根据另一实施方式,可使用基于历史数据经由机器学习所创建的匹配计分或排序模型来确定各个匹配得分中的一些。例如,可使用基于与图像和/或内容项目的历史用户交互的模型来确定点击率803。可替代地,可将各个匹配得分中的一些或全部提供到排序模型,所述排序模型将生成用于对对应图像排序的最终排序得分。可使用已知的历史数据和/或与搜索查询、图像及内容项目相关联的元数据来训练排序模型。
图9是示出根据本发明一个实施方式用于基于关键字使图像与内容项目匹配的过程的流程图。可由处理逻辑来执行过程900,所述处理逻辑可包括软件、硬件或其组合。例如,可由图5的系统500来执行过程900。参考图9,在框901处,处理逻辑接收基于搜索查询识别的内容项目(例如,诸如Ad的赞助内容项目)和一组图像。针对每一个图像,在框902处,处理逻辑确定搜索查询与图像之间的匹配类型,并计算针对匹配类型的匹配类型得分。可基于与搜索查询相关联的关键字以及与图像相关联的关键字来确定匹配类型。匹配类型可以是如上所述的精确匹配、部分匹配或广泛匹配。
在框903处,处理逻辑基于图像的元数据、由图像表示的内容和围绕图像的任何其他信息来确定图像的一个或多个特征。针对每一个特征,处理逻辑使用对应的特征计分公式来计算用于表示特征的特征得分。在框904处,处理逻辑使用如上所述的匹配质量计分算法、基于搜索查询与图像之间的匹配关键字来确定匹配质量得分。可进一步基于匹配类型得分来确定匹配质量得分。在框905处,基于匹配质量得分、匹配类型得分以及特征得分中的一个或多个来计算最终排序得分,以使内容项目与图像配对。在一个实施方式中,利用排序公式或排序模型,以通过将这些得分应用于预定的排序模型来确定排序得分。可基于与已知的搜索查询、已知内容项目、已知图像以及已知用户交互相关联的历史数据来训练和配置排序模型。在框906处,基于所有图像各自的排序得分对这些图像排序,并选择这些图像中的一个来与内容项目配对。
可应用上述技术来匹配图像与赞助内容。一种类型的赞助内容是广告(Ad)。例如,返回参考图1A到图1B,内容数据库(DB)或服务器133可以是Ad数据库或Ad服务器。内容项目(例如,Ad)中的每一个与预定义的关键字、词、短语或句子的列表相关联。这些预定义的关键字、词、短语或句子可以是由广告提供者所购买、定义或指定的投标字。在另一实施方式中,主要内容DB 130可存储通常在公共网络中可用的一般内容。辅助内容DB 131可以是广告DB。一些广告可仅仅是纯文本。通过使图像与广告匹配和集成(例如,作为背景图像),广告可更吸引人或对用户更具吸引力。服务器104可以是用于搜索内容的网页服务器,或可替代地,服务器104可以是广告服务器。
图10是示出可与本发明一个实施方式一起使用的数据处理系统的示例的框图。例如,系统1500可表示执行任意上述过程或方法的任意上述数据处理系统,例如上述客户端装置或服务器,例如如上所述的客户端101-102、服务器104、内容服务器133、内容/图像映射系统/服务器150。
系统1500可包括诸多不同的组件。这些组件可以实施为集成电路(IC)、集成电路的部分、离散电子装置或适用于电路板的其他模块(诸如计算机系统的主板或插入卡),或者实施为以其他方式并入计算机系统的底盘内的组件。
另外注意,系统1500旨在示出计算机系统的诸多组件的高级视图。然而要理解的是,某些实施方式中可存在附加的组件,此外,其他实施方式中可具有与所示组件不同的布置。系统1500可表示台式计算机、膝上型计算机、平板计算机、服务器、移动电话、媒体播放器、个人数字助理(PDA)、智能手表、个人通信器、游戏装置、网络路由器或集线器、无线接入点(AP)或中继器、机顶盒或其组合。此外,虽然仅示出单个机器或系统,但是术语“机器”或“系统”还应当理解为包括单独地或共同地执行一个(或多个)指令集以执行本文所讨论的任何一种或多种方法的机器或系统的任何集合。
在一个实施方式中,系统1500包括经由总线或互连件1510连接的处理器1501、存储器1503以及装置1505-1508。处理器1501可表示其中包括单个处理器内核或多个处理器内核的单个处理器或多个处理器。处理器1501可表示一个或多个通用处理器,诸如微处理器、中央处理单元(CPU)等。更具体地,处理器1501可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、或实施其他指令集的处理器、或实施指令集组合的处理器。处理器1501还可以是一个或多个专用处理器,诸如专用集成电路(ASIC)、蜂窝或基带处理器、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、网络处理器、图形处理器、通信处理器、加密处理器、协同处理器、嵌入式处理器或能够处理指令的任何其他类型的逻辑。
处理器1501(可以是低功率多核处理器插座,诸如超低电压处理器)可充当用于与系统的各种组件通信的主处理单元和中央集线器。这种处理器可以实施为片上系统(SoC)。处理器1501配置成运行用于执行本文所讨论的操作和步骤的指令。系统1500还可包括与可选的图形子系统1504通信的图形接口,所述图形子系统1504可包括显示控制器、图形处理器和/或显示装置。
处理器1501可与存储器1503通信,在一个实施方式中存储器1503可经由多个存储器装置来实施以提供给定量的系统内存。存储器1503可包括一个或多个易失性存储(或存储器)装置,诸如随机存取存储器(RAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、静态RAM(SRAM)或其他类型的存储装置。存储器1503可存储包括由处理器1501或任何其他装置执行的指令序列的信息。例如,多种操作系统、装置驱动器、固件(例如,输入输出基本系统或BIOS)和/或应用的可执行代码和/或数据可以加载在存储器1503中并由处理器1501执行。操作系统可以是任何种类型的操作系统,例如像来自
Figure BDA0001152445560000211
公司的
Figure BDA0001152445560000212
操作系统、来自苹果公司的Mac
Figure BDA0001152445560000213
来自
Figure BDA0001152445560000214
公司的
Figure BDA0001152445560000215
或其他实时或嵌入式操作系统(诸如VxWorks)。
系统1500还可包括I/O装置,诸如装置1505-1508:包括网络接口装置1505、可选的输入装置1506以及其他可选的I/O装置1507。网络接口装置1505可包括无线收发器和/或网络接口卡(NIC)。无线收发器可以是WiFi收发器、红外收发器、蓝牙收发器、WiMax收发器、无线蜂窝电话收发器、卫星收发器(例如,全球定位系统(GPS)收发器)或其他射频(RF)收发器或其组合。NIC可以是以太网卡。
输入装置1506可包括鼠标、触摸板、触敏屏幕(其可以与显示装置1504集成在一起)、指示装置(诸如指示笔)和/或键盘(例如,物理键盘或作为触敏屏幕的一部分显示的虚拟键盘)。例如,输入装置1506可包括联接到触摸屏的触摸屏控制器。触摸屏和触摸屏控制器例如可使用多种触摸灵敏度技术(包括但不限于电容、电阻、红外和表面声波技术)中的任一种,以及用于确定与触摸屏的一个或多个接触点的其他接近传感器阵列或其他元件来检测其触点和移动或间断。
I/O装置1507可包括音频装置。音频装置可包括扬声器和/或麦克风,以促进支持语音的功能,诸如语音识别、语音复制、数字记录和/或电话功能。其他I/O装置1507还可包括通用串行总线(USB)端口、并行端口、串行端口、打印机、网络接口、总线桥(例如,PCI-PCI桥)、传感器(例如,运动传感器,诸如加速度计、陀螺仪、磁强计、光传感器、罗盘、接近传感器等)或其组合。装置1507还可包括成像处理子系统(例如,相机),所述成像处理子系统可包括用来促进相机功能(诸如记录照片和视频片段)的光学传感器,诸如电荷耦合装置(CCD)或互补金属氧化物半导体(CMOS)光学传感器。某些传感器可经由传感器集线器(未示出)联接到互连件1510,而其他装置(诸如,键盘或热传感器)可由嵌入式控制器(未示出)控制,这取决于系统1500的具体配置或设计。
为了永久性地存储信息(诸如,数据、应用、一个或多个操作系统等),还可将大容量存储装置(未示出)联接到处理器1501。在各实施方式中,为了实施更薄且更轻的系统设计并且改进系统响应能力,这种大容量存储装置可由固态装置(SSD)来实施。然而,在其他实施方式中,大容量存储装置可主要使用硬盘驱动器(HDD)来实施,其中较小容量的SSD存储装置充当SSD高速缓存以在断电事件期间能够非易失性地存储上下文状态以及其他此类信息,从而使得在系统活动重新启动时能够实施快速通电。另外,闪存装置可例如经由串行外围接口(SPI)联接至处理器1501。这种闪存装置可非易失性地存储系统软件,所述系统软件包括基本输入/输出软件(BIOS)以及系统的其他固件。
存储装置1508可包括计算机可访问的存储介质1509(也称为机器可读存储介质或计算机可读介质),该存储介质1509上存储有实现本文所述的任何一种或多种方法或功能的一个或多个指令集或软件(例如,模块、单元和/或逻辑1528)。模块/单元/逻辑1528可表示任意上述组件,例如像如上所述的搜索引擎、编码器、交互记录模块。模块/单元/逻辑1528还可在其被数据处理系统1500、存储器1503和处理器1501执行期间完全地或至少部分地驻留在存储器1503内和/或处理器1501内,另外构成机器可访问的存储介质。模块/单元/逻辑1528还可通过网络经由网络接口装置1505被发送或接收。
计算机可读存储介质1509也可用来永久性地存储以上描述的一些软件功能。虽然计算机可读存储介质1509在示例性实施方式中示为单个介质,但是术语“计算机可读存储介质”应当解释成包括存储一个或多个指令集的单个介质或多个介质(例如,集中式或分布式数据库和/或相关联的高速缓存和服务器)。术语“计算机可读存储介质”还应当解释成包括能够存储或编码指令集的任何介质,所述指令集用于由机器执行并且使得该机器执行本发明的任何一种或多种方法。因此,术语“计算机可读存储介质”应当解释成包括但不限于固态存储器、以及光学介质和磁性介质、或者任何其他非瞬态机器可读介质。
本文所述的模块/单元/逻辑1528、组件以及其他特征可实施为离散硬件组件或集成在硬件组件(诸如ASICS、FPGA、DSP或类似装置)的功能中。另外,模块/单元/逻辑1528可以实施为硬件装置内的固件或功能电路。此外,模块/单元/逻辑1528可以以硬件装置和软件组件的任何组合来实施。
应注意,虽然利用数据处理系统的多种组件示出了系统1500,但是这不旨在表示任何特定的架构或互连组件的方式;因为此类细节和本发明的实施方式没有密切关系。还应当理解,具有更少组件或可能具有更多组件的网络计算机、手持计算机、移动电话、服务器和/或其他数据处理系统也可与本发明的实施方式一起使用。
前述详细描述中的一些部分已经依据在计算机存储器内对数据位的运算的算法和符号表示而呈现。这些算法描述和表示是数据处理领域中的技术人员用以最有效地将其工作实质传达给本领域其他技术人员的方式。这里,算法通常被认为是导致期望结果的自相一致的操作序列。这些操作是需要对物理量进行物理操控的操作。
然而应当牢记,所有这些和类似的术语均意图与适当的物理量相关联,并且仅仅是应用于这些量的适宜标记。除非如通过以上讨论而明显的那样另外明确地说明,否则应当了解,在本说明书通篇中,利用术语(诸如以下权利要求书中所阐述的术语)的讨论是指计算机系统或类似电子计算装置的动作和处理,所述计算机系统或电子计算装置操控计算机系统的寄存器和存储器内表示为物理(例如,电子)量的数据,并将所述数据变换成计算机系统存储器或寄存器或其他此类信息存储器、传输或显示装置内类似地表示为物理量的其他数据。
图中所示的技术可以使用存储在一个或多个电子装置上并且在该电子装置上运行的代码和数据来实施。此类电子装置使用计算机可读介质来存储和传达(在内部和/或通过网络与其他电子装置)代码及数据,所述计算机可读介质诸如为非瞬态计算机可读存储介质(例如,磁盘、光盘、随机存取存储器、只读存储器、闪存存储器装置、相变存储器)和瞬态计算机可读传输介质(例如,电子、光学、声学或其他形式的传播信号—诸如载波、红外信号、数字信号)。
前述附图中所描绘的过程或方法可由处理逻辑来执行,所述处理逻辑包括硬件(例如,电路、专用逻辑等)、固件、软件(例如,在非瞬态计算机可读介质上实施)或其组合。虽然以上根据一些顺序操作描述了过程或方法,但是应当理解,可按不同的顺序来执行所描述的操作中的一些。此外,可并行地而不是顺序地执行一些操作。
在以上的说明书中,已经参考本发明具体示例性实施方式对本发明的实施方式进行了描述。将显而易见的是:在不脱离如以下权利要求书中阐述的本发明更宽泛的精神和范围的情况下,可对这些实施方式做出各种修改。因此,应当在说明性意义而不是限制性意义上来理解本说明书和附图。

Claims (19)

1.用于对待与内容项目匹配的图像排序的计算机实现方法,所述方法包括:
识别待与内容项目匹配的多个图像,所述内容项目是响应于搜索查询而识别的;
针对所述多个图像中的每一个,
基于与所述搜索查询相关联的一个或多个关键字的第一集合以及与所述图像相关联的一个或多个关键字的第二集合来计算匹配类型得分;以及
基于所述匹配类型得分、关键字的所述第一集合和关键字的所述第二集合来计算所述图像的匹配质量得分;
基于所述多个图像各自的匹配质量得分对所述多个图像排序;以及
选择所述多个图像中匹配质量得分高于预定阈值的一个图像,其中所选出的图像将与所述内容项目相关联。
2.如权利要求1所述的方法,其中基于关键字的所述第一集合和关键字的所述第二集合来计算匹配类型得分包括以下中的一个:
作为确定出所述第一集合中的关键字与所述第二集合的关键字精确匹配的响应,将第一得分指定为所述匹配类型得分;
作为确定出所述第一集合中的关键字与所述第二集合的关键字部分匹配的响应,将第二得分指定为所述匹配类型得分;以及
作为确定出所述第一集合中的关键字与所述第二集合中的关键字语义上匹配的响应,将第三得分指定为所述匹配类型得分。
3.如权利要求2所述的方法,其中所述第一得分、所述第二得分和所述第三得分不同。
4.如权利要求1所述的方法,其中计算所述图像的匹配质量得分包括:
确定关键字的所述第一集合与关键字的所述第二集合之间相匹配的匹配关键字的数量;以及
基于第一比率和第二比率来计算所述匹配质量得分,其中所述第一比率是基于所述匹配关键字的数量和所述第一集合中关键字的数量来确定的,所述第二比率是基于所述匹配关键字的数量和所述第二集合中关键字的数量来确定的。
5.如权利要求4所述的方法,其中基于所述第一比率、所述第二比率和所述匹配类型得分的积来确定所述匹配质量得分。
6.如权利要求1所述的方法,还包括:
获得与所述图像相关联的多个特征;
针对所述多个特征中的每一个,使用特征得分确定方法来计算各个特征得分;以及
基于所述图像的匹配质量得分和所述图像的各个特征得分来计算所述图像的排序得分,其中所述多个图像基于其各自的排序得分来排序。
7.如权利要求6所述的方法,其中计算排序得分包括:将所述各个特征得分和所述匹配质量得分应用于预定排序模型以生成所述排序得分。
8.如权利要求7所述的方法,其中使用预定的机器学习机制、基于与一组已知搜索查询相关联的已知图像的一组特征来训练和生成所述预定排序模型。
9.如权利要求6所述的方法,其中图像的所述多个特征包括表示所述图像的质量、与所述图像的历史用户交互以及所述图像的风格或大小的一个或多个图像属性。
10.一种对待与内容项目匹配的图像排序的装置,包括:
识别待与内容项目匹配的多个图像的装置,所述内容项目是响应于搜索查询来识别的;
针对所述多个图像中的每一个,
基于与所述搜索查询相关联的一个或多个关键字的第一集合以及与所述图像相关联的一个或多个关键字的第二集合来计算匹配类型得分的装置;以及
基于所述匹配类型得分、关键字的所述第一集合和关键字的所述第二集合来计算所述图像的匹配质量得分的装置;
基于所述多个图像各自的匹配质量得分对所述多个图像排序的装置;以及
选择所述多个图像中匹配质量得分高于预定阈值的一个图像的装置,其中所选出的图像将与所述内容项目相关联。
11.如权利要求10所述的对待与内容项目匹配的图像排序的装置,其中基于关键字的所述第一集合和关键字的所述第二集合来计算匹配类型得分包括以下中的一个:
作为确定出所述第一集合中的关键字与所述第二集合的关键字精确匹配的响应,将第一得分指定为所述匹配类型得分;
作为确定出所述第一集合中的关键字与所述第二集合的关键字部分匹配的响应,将第二得分指定为所述匹配类型得分;以及
作为确定出所述第一集合中的关键字与所述第二集合中的关键字语义上匹配的响应,将第三得分指定为所述匹配类型得分。
12.如权利要求11所述的对待与内容项目匹配的图像排序的装置,其中所述第一得分、所述第二得分和所述第三得分不同。
13.如权利要求10所述的对待与内容项目匹配的图像排序的装置,其中计算所述图像的匹配质量得分包括:
确定关键字的所述第一集合与关键字的所述第二集合之间相匹配的匹配关键字的数量;以及
基于第一比率和第二比率来计算所述匹配质量得分,其中所述第一比率是基于所述匹配关键字的数量和所述第一集合中关键字的数量来确定的,所述第二比率是基于所述匹配关键字的数量和所述第二集合中关键字的数量来确定的。
14.如权利要求13所述的对待与内容项目匹配的图像排序的装置,其中基于所述第一比率、所述第二比率和所述匹配类型得分的积来确定所述匹配质量得分。
15.如权利要求10所述的对待与内容项目匹配的图像排序的装置,还包括:
获得与所述图像相关联的多个特征的装置;
针对所述多个特征中的每一个,使用特征得分确定方法来计算各个特征得分的装置;以及
基于所述图像的匹配质量得分和所述图像的各个特征得分来计算所述图像的排序得分的装置,其中所述多个图像是基于其各自的排序得分来排序的。
16.如权利要求15所述的对待与内容项目匹配的图像排序的装置,其中计算排序得分包括:将所述各个特征得分和所述匹配质量得分应用于预定排序模型以生成所述排序得分。
17.如权利要求16所述的对待与内容项目匹配的图像排序的装置,其中使用预定的机器学习机制、基于与一组已知搜索查询相关联的已知图像的一组特征来训练和生成所述预定排序模型。
18.如权利要求15所述的对待与内容项目匹配的图像排序的装置,其中图像的所述多个特征包括表示所述图像的质量、用户与所述图像的历史交互以及所述图像的风格或大小的一个或多个图像属性。
19.一种数据处理系统,包括如权利要求10至18中任一项所述的对待与内容项目匹配的图像排序的装置。
CN201611009762.3A 2016-06-02 2016-11-14 响应于搜索查询对待与内容匹配的图像动态排序的方法和系统 Active CN107463591B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/171,283 US10489448B2 (en) 2016-06-02 2016-06-02 Method and system for dynamically ranking images to be matched with content in response to a search query
US15/171,283 2016-06-02

Publications (2)

Publication Number Publication Date
CN107463591A CN107463591A (zh) 2017-12-12
CN107463591B true CN107463591B (zh) 2020-12-11

Family

ID=57442581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611009762.3A Active CN107463591B (zh) 2016-06-02 2016-11-14 响应于搜索查询对待与内容匹配的图像动态排序的方法和系统

Country Status (5)

Country Link
US (1) US10489448B2 (zh)
EP (1) EP3252619A1 (zh)
JP (1) JP6423845B2 (zh)
KR (1) KR101934449B1 (zh)
CN (1) CN107463591B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10409824B2 (en) * 2016-06-29 2019-09-10 International Business Machines Corporation System, method and recording medium for cognitive proximates
KR101796506B1 (ko) * 2016-07-20 2017-11-14 엔에이치엔엔터테인먼트 주식회사 기종 정보를 활용한 이미지 검색 결과 제공 방법 및 시스템
US10083379B2 (en) * 2016-09-27 2018-09-25 Facebook, Inc. Training image-recognition systems based on search queries on online social networks
US10437841B2 (en) * 2016-10-10 2019-10-08 Microsoft Technology Licensing, Llc Digital assistant extension automatic ranking and selection
CN110019903A (zh) * 2017-10-10 2019-07-16 阿里巴巴集团控股有限公司 图像处理引擎组件的生成方法、搜索方法及终端、系统
KR102142986B1 (ko) * 2018-01-24 2020-08-10 충북대학교 산학협력단 학습에 기반한 검색결과 표시 방법 및 장치
CN108509493A (zh) * 2018-02-13 2018-09-07 北京邮电大学 一种ar视觉搜索推荐服务方法
US11281896B2 (en) * 2018-11-15 2022-03-22 Smith & Nephew, Inc. Physical activity quantification and monitoring
US11487823B2 (en) * 2018-11-28 2022-11-01 Sap Se Relevance of search results
CN109858555B (zh) * 2019-02-12 2022-05-17 北京百度网讯科技有限公司 基于图像的数据处理方法、装置、设备及可读存储介质
US11907284B2 (en) * 2019-07-09 2024-02-20 Visuo Technology Pty Limited Method and a system for processing an image and for generating a contextually coherent video based on images processed thereby
US11036802B2 (en) * 2019-08-05 2021-06-15 Morgan Stanley Services Group Inc. Classification rules engine and API generator
JP7335186B2 (ja) * 2020-02-28 2023-08-29 富士フイルム株式会社 画像処理装置、画像処理方法及びプログラム
KR102615815B1 (ko) * 2021-06-04 2023-12-20 네이버 주식회사 검색 질의의 사용자 의도에 기초한 상품 기획전 생성 방법 및 시스템
US20230281257A1 (en) * 2022-01-31 2023-09-07 Walmart Apollo, Llc Systems and methods for determining and utilizing search token importance using machine learning architectures

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149747A (zh) * 2006-09-21 2008-03-26 索尼株式会社 用于处理信息的装置和方法、以及程序
CN101261630A (zh) * 2008-04-22 2008-09-10 郭诺 自主发布信息的网络服务中检查信息内容的方法和装置
CN101464878A (zh) * 2007-12-21 2009-06-24 富士施乐株式会社 图像搜索系统、图像搜索装置和图像搜索方法
US7580568B1 (en) * 2004-03-31 2009-08-25 Google Inc. Methods and systems for identifying an image as a representative image for an article
CN101901249A (zh) * 2009-05-26 2010-12-01 复旦大学 一种图像检索中基于文本的查询扩展与排序方法
CN102375824A (zh) * 2010-08-12 2012-03-14 富士通株式会社 获取内容彼此相对应的多种语言文本的装置和方法
US20120290566A1 (en) * 2011-05-12 2012-11-15 Google Inc. Dynamic image display area and image display within web search results
JP2015153094A (ja) * 2014-02-13 2015-08-24 ヤフー株式会社 抽出装置、抽出方法および抽出プログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020038299A1 (en) 2000-03-20 2002-03-28 Uri Zernik Interface for presenting information
US8775436B1 (en) * 2004-03-19 2014-07-08 Google Inc. Image selection for news search
US20090313239A1 (en) * 2008-06-16 2009-12-17 Microsoft Corporation Adaptive Visual Similarity for Text-Based Image Search Results Re-ranking
JP5010624B2 (ja) * 2009-02-10 2012-08-29 ヤフー株式会社 検索装置
KR101139001B1 (ko) * 2010-02-23 2012-04-26 경기대학교 산학협력단 콘텐츠 제공 장치 및 방법
US8438163B1 (en) * 2010-12-07 2013-05-07 Google Inc. Automatic learning of logos for visual recognition
JP2012215930A (ja) * 2011-03-31 2012-11-08 Gourmet Navigator Inc 電子広告配信システム
US9946430B2 (en) * 2011-09-21 2018-04-17 Facebook, Inc. Displaying social networking system user information via a timeline interface
US9519661B2 (en) * 2012-04-17 2016-12-13 Excalibur Ip, Llc Method and system for updating a background picture of a web search results page for different search queries
US20150169708A1 (en) * 2012-04-24 2015-06-18 Google Inc. Providing recently selected images
US9195717B2 (en) * 2012-06-26 2015-11-24 Google Inc. Image result provisioning based on document classification
US9268469B2 (en) * 2012-11-27 2016-02-23 Google Inc. Image display environment
US9098552B2 (en) * 2013-02-05 2015-08-04 Google Inc. Scoring images related to entities
WO2014132250A1 (en) * 2013-02-26 2014-09-04 Adience SER LTD Generating user insights from images and other data
US10409822B2 (en) * 2014-05-06 2019-09-10 Shutterstock, Inc. Systems and methods for presenting ranked search results
US9779327B2 (en) * 2015-08-21 2017-10-03 International Business Machines Corporation Cognitive traits avatar for similarity matching
US10719204B2 (en) * 2016-01-10 2020-07-21 Apple Inc. Document selection and display based on detected viewer preferences

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7580568B1 (en) * 2004-03-31 2009-08-25 Google Inc. Methods and systems for identifying an image as a representative image for an article
CN101149747A (zh) * 2006-09-21 2008-03-26 索尼株式会社 用于处理信息的装置和方法、以及程序
CN101464878A (zh) * 2007-12-21 2009-06-24 富士施乐株式会社 图像搜索系统、图像搜索装置和图像搜索方法
CN101261630A (zh) * 2008-04-22 2008-09-10 郭诺 自主发布信息的网络服务中检查信息内容的方法和装置
CN101901249A (zh) * 2009-05-26 2010-12-01 复旦大学 一种图像检索中基于文本的查询扩展与排序方法
CN102375824A (zh) * 2010-08-12 2012-03-14 富士通株式会社 获取内容彼此相对应的多种语言文本的装置和方法
US20120290566A1 (en) * 2011-05-12 2012-11-15 Google Inc. Dynamic image display area and image display within web search results
JP2015153094A (ja) * 2014-02-13 2015-08-24 ヤフー株式会社 抽出装置、抽出方法および抽出プログラム

Also Published As

Publication number Publication date
KR101934449B1 (ko) 2019-01-03
KR20170136964A (ko) 2017-12-12
JP6423845B2 (ja) 2018-11-14
CN107463591A (zh) 2017-12-12
US10489448B2 (en) 2019-11-26
US20170351709A1 (en) 2017-12-07
JP2017220205A (ja) 2017-12-14
EP3252619A1 (en) 2017-12-06

Similar Documents

Publication Publication Date Title
CN107463591B (zh) 响应于搜索查询对待与内容匹配的图像动态排序的方法和系统
CN107145496B (zh) 基于关键词将图像与内容项目匹配的方法
CN107480158B (zh) 基于相似性得分评估内容项目与图像的匹配的方法和系统
CN107766399B (zh) 用于使图像与内容项目匹配的方法和系统及机器可读介质
CN107784059B (zh) 用于搜索和选择图像的方法和系统以及机器可读媒体
CN107103016B (zh) 基于关键词表示使图像与内容匹配的方法
US8849812B1 (en) Generating content for topics based on user demand
CN107145497B (zh) 基于图像和内容的元数据选择与内容匹配的图像的方法
CN107463592B (zh) 用于将内容项目与图像匹配的方法、设备和数据处理系统
US10275472B2 (en) Method for categorizing images to be associated with content items based on keywords of search queries
CN107491465B (zh) 用于搜索内容的方法和装置以及数据处理系统
US10789287B2 (en) Method and system for multi-dimensional image matching with content in response to a search query
CN107766398B (zh) 用于使图像与内容项目匹配的方法、装置和数据处理系统
CN107784061B (zh) 确定基于图像的内容样式的方法和系统及机器可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant