CN107103016B - 基于关键词表示使图像与内容匹配的方法 - Google Patents

基于关键词表示使图像与内容匹配的方法 Download PDF

Info

Publication number
CN107103016B
CN107103016B CN201610930231.1A CN201610930231A CN107103016B CN 107103016 B CN107103016 B CN 107103016B CN 201610930231 A CN201610930231 A CN 201610930231A CN 107103016 B CN107103016 B CN 107103016B
Authority
CN
China
Prior art keywords
content
image
category
keywords
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610930231.1A
Other languages
English (en)
Other versions
CN107103016A (zh
Inventor
蒋一飞
吴双
李栋
胡江滔
朱帆
孔旗
杨光
王京傲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu USA LLC
Original Assignee
Baidu USA LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu USA LLC filed Critical Baidu USA LLC
Publication of CN107103016A publication Critical patent/CN107103016A/zh
Application granted granted Critical
Publication of CN107103016B publication Critical patent/CN107103016B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Abstract

本发明提供一种基于关键词表示使图像与内容匹配的方法。根据一个实施例,该方法包括:内容分析模块接收内容项目的内容信息,所述内容信息包括与所述内容项目相关联的多个第一关键词。内容分析模块对与所述内容项目相关联的所述第一关键词执行分析。关键词分类器基于所述分析把所述第一关键词分类成多个类别,每个类别包括从所述第一关键词中选择的一个或多个第二关键词。对每个所述类别,基于相对应的所述第二关键词一个或多个图像被识别。类别/图像映射模块对所述内容项目生成类别/图像映射表,以使每个所述类别映射到相对应的被识别的图像。所述类别/图像映射表用来基于响应于搜索查询所确定的结果类别使所述内容项目与图像中的一个匹配。

Description

基于关键词表示使图像与内容匹配的方法
技术领域
本发明的实施例一般涉及搜索内容,更具体地,本发明的实施例涉及带有匹配图像的搜索内容。
背景技术
通常,多数搜索引擎在它们的操作中是从在客户端设备上运行的浏览器执行Web页的搜索。搜索引擎接收由用户输入的搜索项目,取回与该搜索项目相关联的Web页的搜索结果列表。搜索引擎基于一定的标准显示搜索结果,作为搜索列表的一连串子集。在搜索操作中使用的常用标准是搜索项目是否完整或部分地出现在给定网页上、搜索字符串在搜索结果中出现的次数、字母顺序等。而且,用户可以通过点击鼠标按钮决定打开链接,以打开和浏览。用户与搜索结果的一些互动和/或用户信息可以被监测,并被搜索引擎收集以供随后提供更好的搜索。
通常,响应于搜索查询执行搜索以识别和取回内容项目的列表。然后内容项目被返回搜索请求人。常规的搜索引擎不进行修饰就返回内容项目的大多数。搜索结果中的有些内容项目仅仅是纯文字或描述,它们可能会被认为缺乏吸引力或者说枯燥乏味。如果利用与内容项有关的某些图像来准备内容项目,则搜索结果中的内容有时会更加直观或者说吸引人。然而,将合适的图像与内容项目匹配是颇具挑战性的。
发明内容
根据本发明的第一方面,本发明提供一种用于将内容项目与图像匹配的由计算机实现的方法,所述方法包括:接收内容项目的内容信息,所述内容信息包括与所述内容项目相关联的多个第一关键词;对与所述内容项目相关联的所述第一关键词执行分析;基于所述分析将所述第一关键词分类成多个类别,每个类别包括从所述第一关键词中选择的一个或多个第二关键词;对每个所述类别,基于相对应的所述第二关键词识别一个或多个图像;以及对所述内容项目生成类别/图像映射表,以将每个所述类别映射到相对应的被识别的图像,其中所述类别/图像映射表用来基于响应于搜索查询所确定的结果类别将所述内容项目与图像中的一个匹配。
根据本发明的第二方面,本发明还提供一种非瞬时性的计算机可读介质,其上存有指令,当所述指令被处理器执行时使处理器执行将内容项目与图像匹配的操作,所述操作包括:接收内容项目的内容信息,所述内容信息包括与所述内容项目相关联的多个第一关键词;对与所述内容项目相关联的所述第一关键词执行分析;基于所述分析将所述第一关键词分类成多个类别,每个类别包括从所述第一关键词中选择的一个或多个第二关键词;对每个所述类别,基于相对应的所述第二关键词识别一个或多个图像;以及对所述内容项目生成类别/图像映射表,以将每个所述类别映射到相对应的被识别的图像,其中所述类别/图像映射表用来基于响应于搜索查询所确定的结果类别将所述内容项目与图像中的一个匹配。
根据本发明的第三方面,本发明还提供一种数据处理系统,包括:处理器;内容分析模块,用来接收内容项目的内容信息,所述内容信息包括与所述内容项目相关联的多个第一关键词,并对与所述内容项目相关联的所述第一关键词执行分析;关键词分类器,用来基于所述分析将所述第一关键词分类成多个类别,每个类别包括从所述第一关键词中选择的一个或多个第二关键词;图像搜索模块,用来对每个所述类别,基于相对应的所述第二关键词识别一个或多个图像;以及类别/图像映射模块,用来对所述内容项目生成类别/图像映射表,以将每个所述类别映射到相对应的被识别的图像,其中所述类别/图像映射表用来基于响应于搜索查询所确定的结果类别使所述内容项目与图像中的一个匹配。
根据本发明的第四方面,本发明还提供一种用于使内容项目与图像匹配的由计算机实现的方法,所述方法包括:在服务器上从客户端设备接收搜索内容的搜索查询,所述搜索查询包括作为搜索项目的一个或多个关键词;在内容数据库中执行搜索以识别和取回由内容标识符标识的内容项目;对所述一个或多个关键词执行分析以确定表示所述一个或多个关键词的关键词表示;基于被确定的关键词表示在相关联的表示-图像(表示/图像)映射表中执行查表操作,以识别一个或多个图像的列表;将所述内容项目与从所述一个或多个图像的列表中选择的图像整合起来;以及将已与所选择的图像整合起来的所述内容项目返回至所述客户端设备,作为搜索结果的一部分。
附图说明
在附图的图中以举例而非限制的方式说明本发明的实施例,其中相同的附图标记表示同样的要素。
图1A和1B是说明根据本发明的一些实施例的用来将图像与内容项目匹配的系统配置的示例的框图。
图2是说明根据本发明的一个实施例的图像选择系统的示例的框图。
图3是说明根据本发明的一个实施例的用来将图像与内容匹配的处理的流程图。
图4是说明根据本发明的另一个实施例的用来将图像与内容项目匹配的处理的流程图。
图5是说明根据本发明的一个实施例的用来将图像与内容项目匹配的处理的流程图。
图6是说明根据本发明的一个实施例的图像映射系统的示例的框图。
图7是说明根据本发明的一个实施例的用来对与内容项目相关联的关键词进行分类的处理的流程图。
图8是说明根据本发明的一个实施例的制作类别-图像映射表的示例的框图。
图9是说明根据本发明的一个实施例的用来制作类别-图像映射表的处理的流程图。
图10是说明根据一个实施例的数据处理系统的示例的框图。
具体实施例
下面,参考后面讨论的细节来描述本发明的多个不同的实施例和方面,附图用来说明多个不同的实施例。下面的描述和附图仅仅说明本发明,不应解释为对该发明的限定。很多具体细节被描述以提供对本发明的多个不同的实施例的透彻的理解。但是,在某些情况下,为了使对本发明的实施例的讨论更简洁,公知的或常规的细节不再描述。
本说明书中提及的“一个实施例”或“实施例”指结合实施例描述的某特定特征、结构或特性可以被包括在至少一个本发明的实施例中。在本说明书中多个不同的地方出现的“在一个实施例中”并不必然都指同一个实施例。
根据一些实施例,对内容数据库(DB)的内容项目的内容信息进行分析。每个内容项目与多个关键词相关联,这些关键词为了搜索的目的已经被预先配置了。在一个实施例中,内容分析模块对每个内容项目的关键词(在此称为第一关键词)执行分析。基于该分析,关键词分类器把关键词分类成一个或多个类别。每个类别包括与内容项目相关联的一个或多个关键词(或短语、句子)(在此称为第二关键词)。在一个实施例中,对每个类别,基于与相对应的类别相关联的关键词确定关键词表示。关键词表示表示相对应的类别的关键词。作为替代方式,关键词表示也可以被称为类别表示或类别标识符(ID),其表示一个或多个关键词的类别。类别-图像(类别/图像)映射模块针对内容项目生成类别/图像映射表,以使每个类别映射到一个或多个图像的集合。由此,针对每个内容项目生成类别/图像映射表,即,对一个内容项目生成一个类别/图像映射表。
根据本发明的另一个方面,在从客户接收用来搜索内容的搜索查询时,搜索引擎基于搜索查询在内容数据库中或通过内容服务器执行搜索来识别一个或多个内容项目的列表。另外,分析搜索查询的一个或多个搜索项目(例如,关键词)以确定与搜索项目相关联的类别。针对由搜索引擎从内容数据库或通过内容服务器找到的每个内容项目,针对内容项目识别和取回类别/图像映射表。例如,可以基于对内容项目进行标识的内容标识符(ID)来识别内容项目的类别/图像映射表。基于所确定的类别在类别/图像映射表中执行搜索或查找操作,以识别已经被映射到或分配给所确定的类别的一个或多个图像。然后基于图像选择算法或处理选择被识别的图像中的一个。然后把被选择的图像与内容项目结合或整合起来,然后把整合后的内容项目发送给客户,作为搜索结果的一部分。注意,在整个本申请中,为了说明的目的,表格用作数据结构的例子。应当认为,也可以用其它类型或格式的数据结构或数据库。
图1A和1B是说明根据本发明的一些实施例的用来将图像与内容项目匹配的系统配置的示例的框图。参照图1A,系统100包括,但不限于,通过网络103通信地耦合到服务器104的一个或多个客户端设备101-102。客户端设备101-102可以是任何类型的客户端设备,例如个人电脑(例如,台式电脑,笔记本电脑、平板电脑)、瘦客户机、个人数字助理(PDA)、或支持Web的设备、智能手表、或移动电话(例如智能电话)等。网络103可以是任何类型的网络,例如局域网(LAN)、诸如互联网等的广域网(WAN)、或它们的组合,有线的或无线的都可以。
服务器104可以是任何类型的服务器或服务器的集群,如网络服务器或云服务器、应用服务器、后端服务器或它们的组合。在一个实施例中,服务器104包括,但不限于,搜索引擎120、图像选择模块110和查询/图像匹配规则115。服务器104还包括允许用户(例如客户端设备101-102)访问由服务器104提供的资源或服务的接口(未示出)。接口可包括Web接口、应用程序编程接口(API)和/或命令行接口(CLI)。
例如,客户端,在该例子中是客户端设备101的用户应用程序(例如,Web浏览器、手机应用程序),可以向服务器104发送搜索查询,搜索引擎120经由接口通过网络103接收到该搜索查询。响应于该搜索查询,搜索引擎120从该搜索查询提取一个或多个关键词(也被称为搜索项目)。搜索引擎120在内容数据库133中执行搜索以识别与这些关键词有关的内容项目的列表,内容数据库133可以包括主内容数据库130和/或副内容数据库131。主内容数据库130(也被称为母内容数据库)可以是一般的内容数据库,而副内容数据库131(也被称为次要内容数据库)可以是专门的内容数据库。搜索引擎120把至少带有列表中的一些内容项目的搜索结果页面返回客户端设备101,以在客户端设备101中呈现。搜索引擎120可以是可从百度公司得到的
Figure BDA0001137436050000061
搜索引擎,或者作为替代,搜索引擎120可以表示
Figure BDA0001137436050000063
搜索引擎、MicroSoft BingTM搜索引擎、
Figure BDA0001137436050000062
搜索引擎或一些其它搜索引擎。
搜索引擎,如Web搜索引擎,是设计成搜索万维网上的信息的软件系统。搜索结果通常以一排结果的方式呈现,该一排结果经常被称为搜索引擎结果页面。信息可以是Web页、图像和其它类型文件的混合。有些搜索引擎还挖掘数据库中可以得到的数据或打开目录。与只由真人编辑维护的网络目录不同,搜索引擎还通过在网络爬虫上运行算法来维护实时信息。
Web搜索引擎通过存储与许多网页有关的信息来工作,搜索引擎从这些页面的超文本标记语言(HTML)标记取回这些信息。这些页面被Web爬虫取回,该Web爬虫是跟踪站点上的每个链接的自动的Web爬虫。然后搜索引擎分析每页的内容以确定它如何被索引(例如,可以从名称、页面内容、标题、或称为元标签的特殊区域提取词)。与网页有关的数据被存储在索引数据库中以用于以后的查询。索引帮助尽可能快地找到与查询有关的信息。
当用户向搜索引擎输入查询时(通常,通过使用关键词),引擎检查其索引,根据其标准提供一连串最匹配的网页,通常带有包含文档标题、有时还包含一部分文本的简短总结。基于与数据一起存储的信息和信息被编制索引的方法来建立索引。搜索引擎精确地查找输入的词或短语。有些搜索引擎提供称为近似搜索的高级特征,这允许用户定义关键词之间的距离。还有一种基于概念的搜索,其中研究涉及对包含你搜索的词或短语的页面使用统计学分析。还有,自然语言查询允许用户打字输入与问真人时一样格式的问题。
搜索引擎的用处取决于它返回的结果集合的相关性。尽管包括特定词或短语的网页可能数以百万,有些页面可能比另一些更相关、更受欢迎或更具权威。多数搜索引擎使用各种方法对结果排名以优先提供“最佳”结果。然而,搜索引擎如何决定哪些页面最匹配、结果应以何种顺序显示因引擎不同而有巨大差异。
回到参照图1A,根据一个实施例,响应于在服务器104中从客户端设备(在该例子中是客户端设备101)接收的搜索查询,搜索引擎120在内容数据库133(如主内容数据库130和/或副内容数据库131)中执行搜索以生成内容项目的列表(称为第一内容项目)。每个内容项目可以经由统一资源定位符(URL)和统一资源标识符(URI)与特定内容提供商的特定Web站点的特定Web页相关联。在一个实施例中,主内容数据库130存储已经被网络爬虫收集的一般的内容项目(例如,未赞助的内容)。副内容数据库131存储与具体的、已知的或预定的内容提供商相关联的具体的或特殊的内容项目(例如,被赞助的内容)。作为替代方式,内容数据库133可以作为单个数据库实现而不区分主内容数据库130和副内容数据库131。
网络爬虫或Web爬虫是自动遍历网络的超文本结构的程序。在实际中,网络爬虫可以在分立的计算机或服务器上运行,每个都设置成执行从URL下载文档的一个或多个处理或线程。网络爬虫接收被分配的URL并在这些URL处下载文档。网络爬虫还可以取回由被取回的文档所引用的文档,以由内容处理系统(未示出)和/或搜索引擎120处理。网络爬虫可以使用多种不同的协议下载与URL相关联的页面,如超文本传输协议(HTTP)和文件传输协议(FTP)。
另外,根据一个实施例,图像选择模块或系统110基于与搜索查询相关联的关键词在内容-图像(内容/图像)映射规则或表115(也称为内容/图像匹配规则或表)中搜索以识别标识与关键词有关的图像的图像ID的列表。内容/图像匹配规则/表115可以以多种不同的数据结构(例如表格或数据库)实现。基于图像ID,可以从存储在图像存储125中的图像123中识别和取回候选图像的列表,其中,图像存储125还可以存储描述图像122的图像元数据(未示出)。在一个实施例中,图像122和它们各自的元数据可以由一个或多个图像爬虫获得,这些图像爬虫设计成沿网络爬行以收集图像和它们周围的元数据。图像122可以是没有特权的、不能获得版权的、被适当地许可了的图像,或任何其它被授权的图像。候选图像可以基于关键词与候选图像之间的相关度分数和匹配度被排名,相关度分数和匹配度可以参照图像元数据来确定。针对在内容数据库133中找到的每个内容项目,从与内容候选图像的列表中选择图像以与内容项相关联。被选择的图像可以与内容项目结合以生成结合了的内容项目。例如,被选择的图像可以用作内容项目的背景图像。结合了的内容项目和图像的列表被返回客户端设备101,作为搜索结果的一部分。
根据一个实施例,可以在接收搜索查询之前(例如离线)预先编制和生成内容/图像匹配规则115。内容/图像匹配规则115的集合被配置为将一个或多个关键词的类别映射到标识一个或多个图像的一个或多个图像标识符(ID)。关键词可以被识别为在搜索查询中更有可能被使用的关键词。这样的关键词可以基于对用户搜索活动或搜索历史的分析或跟踪来识别,可以在一段时间内编制用户搜索活动或搜索历史。
在一个实施例中,内容数据库或内容服务器的每个内容项目与一个或多个关键词(或短语、句子)的集合相关联。这样的被关联的关键词、短语或句子可以被相对应的内容项目的内容提供商配置或指定。为了在内容数据库或内容服务器中识别相对应的内容项目,关键词、短语或句子可以用于基于搜索项目进行搜索。对于每个内容项目,被关联的关键词、短语或句子被例如内容/图像映射系统150分析,内容/图像映射系统150可以是通信地耦合到服务器104的分立的系统或服务器。内容项目的关键词、短语或句子被分类成一个或多个类别。每个类别包括与内容项目相关联的关键词、短语或句子的至少一个子集。为了说明的目的使用关键词来说明图像映射技术,但是也可以对与内容项目相关联的短语和/或句子应用相同或相似的技术。
对于关键词的每个类别,确定关键词表示(也称为类别表示)。可以通过对关键词执行分析(例如,潜在语义分析)确定关键词表示。基于关键词表示识别一个或多个图像,例如,通过基于关键词表示经由图像搜索系统进行搜索。然后针对那个特定的内容项目制作内容/图像映射表,它会成为内容/图像映射规则或表115的一部分。内容/图像映射表包括多个条目,每个条目对应于与内容项目的关键词相关联的类别中的一个。每个条目将关键词表示映射到标识一个或多个图像的一个或多个图像ID。
注意,内容/图像映射表是逐个内容项目的映射表,即,内容数据库/服务器133中的每个内容项目会与自己的内容/图像映射表相关联。上述操作的多数或全部都离线执行,即,在接收用来在内容数据库/服务器133中搜索内容的搜索查询之前执行。换句话说,在内容数据库/服务器133中搜索之前,对内容数据库/服务器133的内容项目制作内容/图像映射表。当内容数据库/服务器133中有变化或更新时,相对应的内容/图像映射表也可能会被更新。因此,根据一个实施例,内容/图像映射系统150和内容数据库/服务器133可能被周期性地同步。
然后,当搜索引擎120从客户端设备接收搜索查询以搜索内容时,在内容数据库133中执行搜索以取回内容项目的列表。另外,例如,由图像选择模块/系统110对查询执行分析以确定与该查询相关联的一个或多个关键词。被确定的关键词可以是搜索查询中包括的关键词。被确定的关键词还可以包括某些关键词,这些关键词与搜索查询中原先存在的关键词在语义上相似或具有相同的意思(例如同义的词或短语)。对于由搜索引擎120找到或取回的每个内容项目,从内容/图像映射规则/表115识别与内容项目相对应的内容/图像映射表。
基于关键词,执行分析并且确定关键词的类别或关键词表示。基于类别或关键词表示,从相对应的内容/图像映射表识别一个或多个图像的列表。然后,可以从被识别的图像中选择一个图像,然后该被选择的图像与内容项目结合。例如,图像可以用作内容项目的背景图像。然后,结合了图像的内容项目被返回客户端设备,作为搜索结果的一部分。结果,搜索结果可能显得更吸引人或者不再枯燥乏味。
注意,仅仅为了说明的目的才描述了服务器104的配置。服务器104可以是向多个不同的终端用户设备提供前端搜索服务的Web服务器。作为替代,服务器104可以是向前端服务器(例如,Web服务器或一般内容服务器)提供具体或特殊内容搜索服务,并将图像与内容数据库或服务器的内容项目匹配和/或整合的应用服务器或后端服务器。内容/图像映射系统150也可以作为分立的服务器实现,它负责基于内容项目和它们各自的相关联的内容数据库/服务器133的关键词制作内容/图像映射规则或表115。
其它的结构和配置也可以适用。例如,如图1B所示,内容数据库/服务器133可以在分立的服务器中被维护和托管,作为网络上的内容服务器。类似地,图像存储125可以在分立的服务器中被维护和承载,作为其中具有图像搜索引擎的图像服务器。服务器133和125可以是Web服务器、应用服务器、或后端服务器。内容服务器133和/或图像服务器125可以由与服务器104相同的实体或组织机构来组织和提供。作为替代,内容服务器133和/或图像服务器125可以被分立的实体或组织机构(例如,第三方供应商)维护和承载,它们负责收集内容数据库130-131和图像122中的内容以及它们的元数据。
还要注意,内容数据库/服务器133可以包括主内容数据库130和副内容数据库131。主内容数据库130也可以在分立的内容服务器中被实现或维护,称为主要内容服务器。类似地,副内容数据库131可以在分立的内容服务器中被实现或维护,称为附属内容服务器。从两个内容数据库130-131获得的内容项目都可以用多种不同的匹配公式与从图像存储/服务器125获得的图像匹配。作为替代,只有从主内容数据库130和副内容数据库131中的一个获得的内容项目要与从图像存储/服务器125获得的图像匹配。例如,从副内容数据库131/服务器获得的内容项目(例如,被赞助的内容)要与从图像存储/服务器125获得的图像匹配,而从主要内容数据库130获得的内容项目(例如,一般内容)不经过修改就返回客户端设备,作为搜索结果的一部分。
图2是说明根据本发明的一个实施例的图像选择系统的示例的框图。系统200可以作为图1A-1B的服务器104的一部分实现。作为替代,系统200可以例如经由应用程序编程接口(API)或通过网络被实现为通信地耦合到服务器104的独立系统或服务器。参照图2,系统200包括,但不限于,上面描述的图像选择模块或系统110和内容/图像映射表或规则115。图像选择模块或系统110可以例如,经由API或通过网络通信地耦合到图1A-1B的搜索引擎120。内容/图像映射表115包括关键词分类算法或方法211和类别/图像映射表212。请再次注意,关键词分类算法211和类别/图像映射表212可以以多种不同的数据结构、算法、规则等实现。例如,关键词分类算法211可以以关键词-类别(关键词/类别)映射表的形式实现,它使每个关键词映射到预定的类别。作为替代,关键词分类算法211可以以可经由API存取的库的集合的形式实现,它可以根据关键词分析方法,例如潜在语义分析,实时地执行分析。
如上所述,在从客户端(例如,客户端设备或前端服务器)接收到搜索查询时,搜索引擎120基于一个或多个搜索项目(例如关键词)在内容数据库中或经由内容服务器执行搜索,以识别和取回一个或多个内容项目的列表。内容项目可以是文本、描述、段落的形式、或任何其它类型或内容形式(例如,图形内容)。对在搜索中找到的每个内容项目,搜索引擎120与图像选择模块110通信以识别和选择要与该内容项目相关联的图像,例如,作为背景图像或补充图像的一部分。在一个实施例中,图像选择模块110从搜索引擎接收至少一个内容项目或识别内容项目的内容ID。图像选择模块110还可以接收搜索查询和/或搜索查询的搜索项目,基于它们进行搜索以识别内容项目。
图3是说明根据本发明的一个实施例的用来使图像与内容匹配的处理的流程图。处理300可以由图2的系统200执行。参照图2和3,响应于搜索查询301或搜索查询301的搜索项目,查询分析模块201对搜索项目执行分析以导出与搜索项目相关联的关键词302的集合。关键词302可以是在搜索查询301的搜索项目中包括的关键词。作为替代,关键词302还可以包括与搜索查询301的搜索项目在语义上相关的额外的关键词,可以基于分析来确定它们。例如,查询分析模块201可以对搜索项目执行潜在语义分析以导出与搜索查询301的搜索项目在语义上相关的额外的关键词。分析还可以从搜索查询301除去一些被认为与搜索请求人的意愿无关或相悖的关键词。
潜在语义分析(LSA)是自然语言处理尤其是分布式语义学中的技术,通过产生与文档和词有关的概念的集合来分析文档的集合与它们包含的词之间的关系。LSA假定意思相近的词会出现在相似的文本片段中。从文本的大的片段构建包含每段的词数的矩阵(行表示独特的词,列表示每个段落),用称为奇异值分解(SVD)的数学技术减少行的数目,同时保持列之间的相似结构。然后,通过取由任意两行形成的两个矢量的夹角的余弦(或者两个矢量的归一化值的点积),比较词。接近1的数值表示非常近似的词,接近0的数值表示非常不近似的词。
基于关键词302,内容分类器或分类模块202(也称为关键词分类器、关键词分类模块、关键词集群模块)分析关键词302以确定关键词的一个或多个类别(或组、集群)304。在一个实施例中,对于每个类别304,根据与该特定类别相关联的关键词确定关键词表示(也称为类别表示)。关键词表示可以从相同类别的关键词中选择。作为替代,关键词表示可以与该类别的关键词在语义上相关,例如,对关键词使用潜在语义分析。一组关键词的关键词表示可以充分地表示或描述这些关键词的共同含义或共同主题。在一个实施例中,关键词表示包括在相同类别或组中的每个关键词中都存在的一个或多个词。
响应于搜索查询301,基于表示由搜索引擎120提供的特定内容项目的内容ID303,图像选择模块203识别并取回与由内容ID 303标识的该内容项目相对应的类别/图像映射表212。图像选择模块203基于关键词表示或类别表示304在类别/图像映射表212中搜索或查找,以识别一个或多个图像的列表或识别图像305作为候选图像的图像ID。然后选择候选图像305中的一个与该内容项目相关联。可以基于多种不同的图像选择方法或算法选择被选择的图像。例如,可以根据预定的排名算法将候选图像305排名,可以对内容项目选择排名最高的图像。被选择的图像可以与内容项目整合起来,可以被搜索引擎120返回,作为搜索结果的一部分。
图4是说明根据本发明的另一个实施例的用来将图像与内容匹配的处理的流程图。参照图4,在本例中,可以基于标识内容项目的内容ID 303,识别特定内容项目的关键词/类别映射表401。注意,关键词/类别映射表401可以作为图2的关键词分类规则或算法211的一部分实现。可以从与很多内容项目相关联的关键词/类别映射表211的池中识别关键词/类别映射表401,这些关键词/类别映射表211可以存储在持久存储器件(例如硬盘)中。关键词/类别映射表401包括多个映射条目。每个映射条目使一个或多个关键词411映射到一个或多个类别412。
因此,基于一个或多个关键词302,识别相对应的类别ID 412。类别ID 412也可以称为关键词/类别表示。基于内容ID 303识别与内容ID 303相关联的类别/图像映射表402。类别/图像映射表402包括多个映射条目。每个条目将类别或类别ID映射到一个或多个图像305或标识图像305的图像ID。注意,在该例中,映射表用来将关键词映射到类别,作为表401-402的一部分。但是,也可以使用其它形式的映射机制。例如,映射机制可以作为一个库中的映射算法或映射规则的集合来实现。这个库可以经由API暴露以允许用户分别基于关键词或类别确定类别或图像。
图5是说明根据本发明的一个实施例的用来使图像与内容匹配的处理的流程图。处理500可以由可包括软件、硬件及其组合的处理逻辑执行。例如,处理500可以由图2的系统200执行。参照图5,在框501中,根据在响应于搜索查询的搜索,处理逻辑接收标识特定内容项目的内容ID。在框502中,处理逻辑检查并对搜索查询或搜索查询的搜索项目执行分析以导出与搜索查询相关联的一个或多个关键词的列表。在框503中,处理逻辑基于内容ID确定与内容项目相关联的关键词/类别映射表。
在框504中,处理逻辑基于关键词在关键词/类别映射表中查找以确定一个或多个类别或类别ID。作为替代,处理逻辑可以调用类别确定算法以确定关键词的一个或多个类别。在一个实施例中,类别或类别ID可以是表示关键词的关键词表示。在框505中,处理逻辑基于类别ID在与内容项目相对应的类别/图像映射表中查找以确定一个或多个图像。在框506中,处理逻辑把从被确定的图像中选择的至少一个图像与由内容ID标识的内容项目相关联。
图6是说明根据本发明的一个实施例的图像映射系统的示例的框图。系统600负责编制和生成图1A-1B的内容/图像映射规则或表115。参照图6,图像映射模块或系统150包括,但不限于,内容分析模块601、关键词分类器或分类模块602、关键词表示确定模块603、类别/图像映射模块604、以及非必需的图像搜索模块或引擎605。这些模块的一些或全部可以以软件、硬件及其组合的方式实现。例如,模块601-605的一些或全部可以加载到存储器上并被一个或多个处理器(未示出)执行。
在一个实施例中,图像映射模块或系统150通信地耦合到存储内容信息库611和类别/图像映射表612的一个或多个数据库620,数据库620可以以多种不同的数据结构或格式实现。数据库620可以存储在本地的或远程的持久存储器件中。内容信息库611存储内容信息或内容项目的元数据,它们可以是图1A-1B的内容数据库133的一部分。可以响应于图1A-1B的内容数据库133中存储的内容的更新周期性地获得内容信息。内容项目的内容信息可以包括与相对应的项目有关的多种不同的信息或数据,例如内容项目的标题或说明。内容信息还可以包括某些访问历史(例如在过去曾经用来搜索和识别内容项目的相关搜索查询),它可以从用户以前访问内容项目的信息的历史记录获得。内容信息还可以包括与相对应的内容项目相关联的一个或多个关键词的集合。关键词可以用来搜索内容项目。关键词可以由提供相对应的内容项目的内容提供商指定或提供。
图7是说明根据本发明的一个实施例的用来对与内容项目相关联的关键词进行分类的处理的流程图。参照图6和7,内容分析模块601分析每个内容项目的内容信息701,以确定该内容项目所属的一个或多个类别。内容信息701可以从内容信息库611获得。在一个实施例中,内容分析模块601从内容信息701获得关键词702的列表。关键词702已经与对应于内容项目的内容信息701的内容项目相关联。如上所述,关键词可以已经被那个特定内容项目的内容提供商定义,并与该内容项目相关联。关键词可以用来与搜索查询的搜索项目匹配以识别和取回内容项目,作为搜索结果的一部分。例如,在搜索过程中,如果搜索查询的搜索项目与一个或多个关键词匹配,这些关键词之前被定义并与特定内容项目相关联,则那个特定的内容项目就会被识别并返回启动搜索查询的用户。
根据一个实施例,基于与内容项目相关联的关键词702的分析,关键词分类器或分类模块602把关键词702分类或分组成一个或多个关键词的类别。每个类别可以包括关键词702的至少一个子集,其中关键词的组或类别可以相互重叠,也可以不相互重叠。关键词分类模块602可以对关键词702执行潜在语义分析以导出一个或多个类别或组703。可以基于多种不同的因子或围绕关键词702的元数据和与相对应的内容项目相关联的内容信息701执行分析。例如,可以基于关键词的语义相似性、以前的与关键词的用户交互(例如,搜索查询)、以前的借助于关键词与内容项目的用户交互(例如,点击率)等,来对关键词702分类。
根据一个实施例,对于每个类别703,关键词表示确定模块603分析与相对应的类别相关联的一个或多个关键词以确定表示相对应的类别的关键词的关键词表示。关键词表示也称为类别表示,因为它在字面上表示相对应的类别。可以用多种不同的方法、处理和/或算法,例如对相关联的关键词进行的潜在语义分析,来确定关键词表示。例如,关键词表示可以具有与组中的每个关键词相同或相似的含义。关键词表示可以表示组中的关键词的相同或相似的主题。作为替代,关键词表示可以包括在组的关键词中都存在的一个或多个词。
根据一个实施例,对于每个关键词表示,例如,通过基于关键词表示,调用图像搜索引擎或系统605在图像存储125中执行图像搜索操作,以识别一个或多个图像的列表。图像搜索引擎或系统605可以在本地作为库实现,可以通过API访问该库,或者作为替代,可以作为网络上的其中具有图像搜索引擎605和图像存储125的图像服务器实现。类别/图像映射模块604对那个特定的内容项目制作类别/图像映射表612。类别/图像映射表612包括多个映射条目。每个映射条目使关键词或类别表示映射到一个或多个图像或识别图像的图像ID。类别/图像映射表612也称为表示/图像映射表,因为它使关键词或类别表示映射到一个或多个图像。然后,把类别/图像映射表612从图像映射系统150传送或发送到服务器104,用来实时地搜索内容,作为图1A-1B的类别/图像匹配规则或表115的一部分。
图8是说明根据本发明的一个实施例的制作类别-图像映射表的示例的框图。参照图8,假定接收到特定内容项目的内容信息810,该内容项目可以是内容数据库或内容服务器中的许多内容项目中的一个。除了其它数据以外,内容项目的内容信息810还包括关键词、短语、句子811-816的集合。这些关键词、短语、句子811-816可以由例如内容提供商预先定义、指定、或与该特定内容项目相关联。然后,分析关键词、短语、句子811-816以确定一个或多个类别或组820,类别或组820具有关键词、短语、句子的组821-822。类别或组821-822的关键词、短语、句子可以包含至少一个内容信息810的关键词、短语、句子811-816的子集。
另外,对每个类别830如类别831-832确定关键词表示(或类别表示、组表示)。在该例中,类别831包括表示关键词811-813的关键词表示“头疼”,而类别832包括表示关键词814-816的关键词表示“流感药”。在该特定例中,关键词表示表示相对应的关键词的组中的共用词。但是,也可以使用其它的关键词表示确定方法和机制。对类别831-832中的每个关键词表示,经由图像搜索系统605进行图像搜索以获得一个或多个图像的列表,制作类别/图像映射表840。在该例中,类别/图像映射表840包括两个映射条目,以使关键词表示841映射到识别相对应的图像的一个或多个图像ID 842。
由此,通过基于关键词/类别表示进行映射、搜索和识别图像,图像与关键词的匹配可以更精确,该关键词与内容项目的关键词和搜索查询的关键词相关联。在图8所示的例子中,通过分类和生成关键词表示,某些不密切相关的或不重要的词可以被删除。例如,对于类别821,为了搜索图像而删除词“怎么办”和“疾病”。这些词被认为是“杂音”词,可能对搜索图像有负面影响或有破坏作用。
图9是说明根据本发明的一个实施例的用来制作类别-图像映射表的处理的流程图。处理900可以由可包括软件、硬件及其组合的处理逻辑执行。例如,处理900可以由图6的系统600执行。参照图9,在框901中,处理逻辑对与内容数据库的内容项目相关联的内容信息执行分析。内容数据库的每个内容项目与预先定义的关键词、词、短语、句子的列表相关联。在框902中,对每个内容项目,处理逻辑把预先定义的关键词、词、短语、句子分类或分组成一个或多个类别。在框903中,对每个类别,处理逻辑确定表示该类别的预先定义的关键词、词、短语、句子的关键词(或类别、组)表示。在框904中,对每个关键词表示,处理逻辑基于关键词表示经由图像搜索引擎执行搜索以识别一个或多个图像的列表。在框905中,处理逻辑对相对应的内容项目生成类别/图像映射表。类别/图像映射表包括多个映射条目。每个映射条目使关键词表示映射到一个或多个图像或识别图像的图像ID。
上面描述的技术可以用于将图像与被赞助内容匹配。广告是被赞助内容的一种。例如,回到参照图1A-1B,内容数据库或服务器133可以是广告数据库或广告服务器。每个内容项目例如广告与预先定义的关键词、词、短语、句子的列表相关联。这些预先定义的关键词、词、短语、句子可以是由广告提供商购买的、定义的或指定的投标用语(bidwords)。在另一个实施例中,主内容数据库130可以存储一般可以从公共网络获取的一般内容。副内容数据库131可以是广告数据库。有些广告可能是纯文本。通过使图像与广告匹配和整合,例如,作为背景图像,广告可能更能打动或吸引用户。服务器104可以是搜索内容的Web服务器,或作为替代,服务器104可以是广告服务器。
图10是说明可与本发明的一个实施例使用的数据处理系统的示例的框图。例如,系统1500可以表示执行上述的任一处理或方法的上述的任一数据处理系统,例如,上述的客户端设备或服务器,例如,上述的服务器104、内容服务器133、内容/图像映射系统/服务器150、或图像搜索引擎/系统/服务器605。
系统1500可以包括许多不同的部件。这些部件可以以下列方式实现:集成电路(IC)、其一部分、分立电子器件、或诸如计算机系统的母板或插入板等的与电路适配的其他模块,或者以其它方式结合在计算机系统的机箱上的部件。
还要注意,系统1500用来以高级视图展示计算机系统的很多部件。但是,应当理解,在某一实施形式中可以有其它的部件,而且,在其它实施形式中可以出现所示部件的不同配置。系统1500可以表示台式电脑,笔记本电脑、平板电脑、服务器、手机、媒体播放器、个人数字助理(PDA)、智能手表、个人通信装置、游戏机、网络路由器或集线器、无线接入点(AP)或复读机、机顶盒、或其组合。而且,在仅仅说明一个机器或系统时,术语“机器”或“系统”应该被认为包括单独或联合执行一套(或多套)指令以执行在此讨论的任一个或多个方法的机器或系统的任何组合。
在一个实施例中,系统1500包括:处理器1501、存储器1503和设备1505-1508,它们经由总线或互联1510连接。处理器1501可以表示其中包括一个处理器核或多个处理器核的一个处理器或多个处理器。处理器1501可以表示一个或多个一般用途处理器如微处理器、中央处理单元(CPU)等。更具体地,处理器1501可以是复杂指令集计算(CISI)微处理器、精简指令集计算(RISI)微处理器、超长指令字(VLIW)微处理器、或执行其它指令集的处理器、或执行指令集的集合的处理器。处理器1501还可以是一个或多个专门用途处理器如专用集成电路(ASIC)、蜂窝或基带处理器、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、网络处理器、图形处理器、网络处理器、通信处理器、密码处理器、协同处理器、嵌入的处理器、或可以处理指令的任何类型的逻辑。
处理器1501可以是低功率多核处理器插槽如超低电压处理器,可以用作主处理单元和用来与系统的各种部件通信的中央集线器。该处理器可以作为片上系统(SoC)实现。处理器1501设置成执行用来执行在此讨论的操作和步骤的指令。系统1500还可以包括与非必需的图形子系统1504通信的图形接口,图形子系统1504可以包括显示控制器、图形处理器、和/或显示设备。
处理器1501可以与存储器1503通信,在一个实施例中存储器1503可以经由多个存储设备实现以提供给定数量的系统存储器。存储器1503可以包括一个或多个易失性存储设备如随机存取存储器(RAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、静态RAM(SRAM)或其它类型的存储设备。存储器1503可以存储包括被处理器1501或任何其它设备执行的指令的序列的信息。例如,多个操作系统、设备驱动器、固件(例如,输入输出基本系统或BIOS)、和/或应用程序的可执行码和/或数据可以加载到存储器1503上,并被处理器1501执行。操作系统可以是任意一种操作系统,例如,微软的
Figure BDA0001137436050000191
操作系统、苹果的
Figure BDA0001137436050000192
谷歌的
Figure BDA0001137436050000193
或其它实时的或嵌入的操作系统如VxWorks。
系统1500还可以包括IO设备如设备1505-1508,包括网络接口设备1505、非必需的输入设备1506、以及其它非必需的IO设备1507。网络接口设备1505可以包括无线收发器和/或网络接口卡(NIC)。无线收发器可以是WiFi收发器、红外收发器、蓝牙收发器、WiMax收发器、无线手机电话收发器、卫星收发器(例如全球定位系统(GPS)收发器)、或其它射频(RF)收发器、或其组合。NIC可以是以太网卡。
输入设备1506可以包括鼠标、触摸板、触摸敏感屏(可以与显示设备1504整合起来)、指示器设备如手写笔、和/或键盘(例如,物理键盘、或作为触摸敏感屏的一部分显示的虚拟键盘)。例如,输入设备1506可以包括与触摸屏连接的触摸屏控制器。触摸屏和触摸屏控制器可以,例如,利用多种触摸敏感技术,包括但不限于电容、电阻、红外、表面声波技术、以及其它近距离传感器阵列或其它用于确定与触摸屏接触的一个或多个点的元件,检测接触和运动或其中断。
IO设备1507可以包括声音设备。声音设备可以包括扬声器和/或麦克风以增强发声功能,如声音辨认、声音复制、数字录音和/或无线语音功能。其它的IO设备1507可以还包括通用串行总线(USB)端口、并行端口、串行端口、打印机、网络接口、总线桥(例如PCI-PCI桥)、传感器(例如运动传感器如加速表、陀螺仪、磁力计、光传感器、罗盘、近距离传感器等)、或其组合。IO设备1507可以还包括图像处理子系统(例如相机),它可以包括用来增强相机功能如记录照片和录像片段的光学传感器如电荷藕合器件(CCD)或互补金属氧化物半导体(CMOS)光学传感器。取决于系统1500的具体配置或设计,某些传感器可以经由传感器集线器与互联1510连接,而其它设备如键盘或热传感器可以被嵌入的控制器(未示出)控制。
为了提供信息如数据、应用程序、一个或多个操作系统等的持久存储,可以与处理器1501连接大容量存储器(未示出)。在各种不同的实施例中,为了实现更薄更轻的系统设计和提高系统响应性,该大容量存储器可以通过固态器件(SSD)实现。但是,在另一些实施例中,为了实现在断电情况下上下文状态和其它类似信息的非易失性存储,可能主要使用带有用作SSD缓存的小数量SSD存储器的硬盘驱动器(HDD)来实现大容量存储器,从而在系统活动的重启时可以快速通电。而且,可以通过例如串行外设接口(SPI)与处理器1501连接闪存设备。该闪存设备可以提供系统软件包括基本输入输出软件(BIOS)和系统的其它固件的非易失性存储。
存储设备1508可以包括可计算机存取的存储介质1509(也叫做可机读存储介质或计算机可读介质),其上存储把在此描述的一个或多个方法和功能具体化的一个或多个指令集或软件(例如模块、单元、和/或逻辑1528)。模块/单元/逻辑1528可以表示上面描述的任一个部件,如上面描述的搜索引擎、编码器、交互记录模块。在系统1500驱动的模块/单元/逻辑1528的执行过程中,模块/单元/逻辑1528也可以全部或至少部分地位于存储器1503和/或处理器1501内。存储器1503和处理器1501还构成可机读存储介质。模块/单元/逻辑1528还可以经由网络接口设备1505在网络上收发。
可机读存储介质1509也可以用来持久地存储上面描述的一些软件功能。虽然在示例性实施例中可机读存储介质1509被展示为单个介质,术语“可机读存储介质”应当被认为包括存储一个或多个指令集的单个或多个介质(例如,集中的或分散的数据库、和/或相关联的缓存和服务器)。术语“可机读存储介质”还应当被认为包括能够存储或编码用于被机器执行的指令集和造成机器执行本发明的任何一个或多个方法的任何介质。因此,术语“可机读存储介质”应当被认为包括但不限于固态存储器、光和磁介质、或任何其它非易失性计算机可读介质。
在此描述的模块/单元/逻辑1528、部件和其它特征可以作为分立硬件部件或集成在硬件部件如ASICS、FPGA、DSP或相似设备的功能中。另外,模块/单元/逻辑1528可以作为固件或硬件设备中的功能电路实现。而且,模块/单元/逻辑1528可以以硬件设备和软件部件的任何组合实现。
注意,虽然系统1500被示成带有数据处理系统的各种各样的部件,它并非用来表示任何把部件互联的特定的结构或方式,因为这样的细节对本发明的实施例无关紧要。还应当理解为,具有更少的部件或者可能具有更多的部件的网络电脑、手持电脑、手机、服务器、和/或其它数据处理系统,也可以与本发明的实施例使用。
前面的详细描述的有些部分以对计算机存储器中的数据位的操作的算法或符号表示的方式呈现。这些算法描述和表示是数据处理领域的普通技术人员使用的最有效地向其他普通技术人员传递他们工作的实质内容的方式。算法,在此,通常也是,被认为是导致所期望结果的操作的自洽序列。这些操作是需要物理量的物理操控的操作。
但是,应当记住,所有这些和相似的术语用来与合适的物理性质相关联,仅仅是加在这些物理性质上的方便标签。除非特别声明与从上面的讨论明显可见的相反,应当理解为,在整个说明书中,使用术语如所附权利要求书中列出的术语进行的讨论,指的是计算机系统或相似电子计算设备的动作和处理,它们把计算机系统的寄存器和存储器中的表示为物理(电子)性质的数据操控和转换成计算机系统的存储器和寄存器或其它类似信息存储、发送或显示设备中的同样地表示为物理(电子)性质的其它数据。
附图中展示的技术可以用在一个或多个电子设备上存储和执行的代码和数据实现。这些电子设备使用计算机可读介质存储和收发(内部收发和/或在网络上与其它电子设备进行收发)代码和数据,作为计算机可读介质的例子有非易失性可机读存储介质(例如,磁盘、光盘、随机存取存储器、只读存储器、闪存设备、相变存储器)和易失性可机读存储介质(例如,电、光、声或其它形式的传播信号,如载波、红外信号、数字信号)。
在前面的附图中描述的处理和方法可以由处理逻辑执行,处理逻辑包括硬件(例如,电路、专用逻辑)、固件、软件(例如,包含在非易失性可机读存储介质上)或二者的组合。尽管上面以顺序操作的方式描述了处理和方法,应当理解为,有些描述过的操作可以以不同的顺序执行。而且,有些操作可以并行地而不是顺序地执行。
在前面的说明中,参照具体的示例性实施例描述了本发明的实施例。很明显,在不脱离由所附权利要求书提出的本发明的更宽的精神和范围的前提下,可以对其进行各种各样的改变。因此,说明书和附图被认为是示例说明性的,而不是限制性的。

Claims (22)

1.一种用于将内容项目与图像匹配的由计算机实现的方法,所述方法包括:
接收内容项目的内容信息,所述内容信息包括与所述内容项目相关联的多个第一关键词;
对与所述内容项目相关联的所述第一关键词执行分析;
基于所述分析将所述第一关键词分类成多个类别,每个类别包括从所述第一关键词中选择的一个或多个第二关键词;
对每个所述类别,基于相对应的所述第二关键词识别一个或多个图像;以及
对所述内容项目生成类别/图像映射表,以将每个所述类别映射到相对应的被识别的图像,其中所述类别/图像映射表用来将基于响应于搜索查询所确定的结果类别提供的内容项目与图像中的一个匹配。
2.根据权利要求1的方法,其中:所述第二关键词是所述第一关键词的子集。
3.根据权利要求1的方法,其中:所述类别/图像映射表包括多个映射条目,并且其中每个映射条目将所述类别中的一个映射到一个或多个图像。
4.根据权利要求1的方法,还包括:
对每个所述类别,确定表示所述类别的所述第二关键词的关键词表示,其中所述关键词表示用来识别所述一个或多个图像。
5.根据权利要求4的方法,其中:所述关键词表示与所述第二关键词中的每一个在语义上相关。
6.根据权利要求4的方法,其中:所述第二关键词的所述关键词表示包括一个或多个第三关键词,在所述第二关键词中的每一个都存在所述第三关键词。
7.根据权利要求4的方法,还包括:对于每个类别的每个关键词表示,基于所述关键词表示经由图像搜索引擎在图像存储中搜索以识别和取回所述一个或多个图像。
8.根据权利要求1的方法,还包括:
接收搜索查询的一个或多个搜索项目和第一内容标识符,所述第一内容标识符标识由响应于搜索查询执行的搜索得到的第一内容项目;
基于所述搜索查询的所述一个或多个搜索项目确定第一类别;以及
基于所述第一类别从第一类别/图像映射表确定一个或多个第一图像。
9.根据权利要求8的方法,还包括:
基于所述第一内容标识符识别与所述第一内容项目相关联的所述第一类别/图像映射表;以及
将所述第一内容项目与从所述第一图像中选择的第二图像整合起来。
10.一种非瞬时性的计算机可读介质,其上存有指令,当所述指令被处理器执行时使处理器执行将内容项目与图像匹配的操作,所述操作包括:
接收内容项目的内容信息,所述内容信息包括与所述内容项目相关联的多个第一关键词;
对与所述内容项目相关联的所述第一关键词执行分析;
基于所述分析将所述第一关键词分类成多个类别,每个类别包括从所述第一关键词中选择的一个或多个第二关键词;
对每个所述类别,基于相对应的所述第二关键词识别一个或多个图像;以及
对所述内容项目生成类别/图像映射表,以将每个所述类别映射到相对应的被识别的图像,其中所述类别/图像映射表用来将基于响应于搜索查询所确定的结果类别提供的内容项目与图像中的一个匹配。
11.根据权利要求10的非瞬时性的计算机可读介质,其中:所述第二关键词是所述第一关键词的子集。
12.根据权利要求10的非瞬时性的计算机可读介质,其中:所述类别/图像映射表包括多个映射条目,并且其中每个映射条目将所述类别中的一个映射到一个或多个图像。
13.根据权利要求10的非瞬时性的计算机可读介质,其中所述操作还包括:对每个所述类别,确定表示所述类别的所述第二关键词的关键词表示,其中所述关键词表示用来识别所述一个或多个图像。
14.根据权利要求13的非瞬时性的计算机可读介质,其中:所述关键词表示与所述第二关键词中的每一个在语义上相关。
15.根据权利要求13的非瞬时性的计算机可读介质,其中:所述第二关键词的所述关键词表示包括一个或多个第三关键词,在所述第二关键词中的每一个都存在所述第三关键词。
16.根据权利要求13的非瞬时性的计算机可读介质,其中所述操作还包括:对于每个类别的每个关键词表示,基于所述关键词表示经由图像搜索引擎在图像存储中搜索以识别和取回所述一个或多个图像。
17.根据权利要求10的非瞬时性的计算机可读介质,其中所述操作还包括:
接收搜索查询的一个或多个搜索项目和第一内容标识符,所述第一内容标识符标识由响应于搜索查询执行的搜索得到的第一内容项目;
基于所述搜索查询的所述一个或多个搜索项目确定第一类别;以及
基于所述第一类别从第一类别/图像映射表确定一个或多个第一图像。
18.根据权利要求17的非瞬时性的计算机可读介质,其中所述操作还包括:
基于所述第一内容标识符识别与所述第一内容项目相关联的所述第一类别/图像映射表;以及
将所述第一内容项目与从所述第一图像中选择的第二图像整合起来。
19.一种数据处理系统,包括:
处理器;
内容分析模块,用来接收内容项目的内容信息,所述内容信息包括与所述内容项目相关联的多个第一关键词,并对与所述内容项目相关联的所述第一关键词执行分析;
关键词分类器,用来基于所述分析将所述第一关键词分类成多个类别,每个类别包括从所述第一关键词中选择的一个或多个第二关键词;
图像搜索模块,用来对每个所述类别,基于相对应的所述第二关键词识别一个或多个图像;以及
类别/图像映射模块,用来对所述内容项目生成类别/图像映射表,以将每个所述类别映射到相对应的被识别的图像,其中所述类别/图像映射表用来将基于响应于搜索查询所确定的结果类别提供的内容项目与图像中的一个匹配。
20.根据权利要求19的系统,其中:所述第二关键词是所述第一关键词的子集。
21.根据权利要求19的系统,其中:所述类别/图像映射表包括多个映射条目,每个映射条目将所述类别中的一个映射到一个或多个图像。
22.根据权利要求19的系统,还包括:关键词表示确定模块,用来对每个所述类别,确定表示所述类别的所述第二关键词的关键词表示,其中所述关键词表示用来识别所述一个或多个图像。
CN201610930231.1A 2016-02-23 2016-10-31 基于关键词表示使图像与内容匹配的方法 Active CN107103016B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/051,297 US10296538B2 (en) 2016-02-23 2016-02-23 Method for matching images with content based on representations of keywords associated with the content in response to a search query
US15/051,297 2016-02-23

Publications (2)

Publication Number Publication Date
CN107103016A CN107103016A (zh) 2017-08-29
CN107103016B true CN107103016B (zh) 2022-05-03

Family

ID=59630605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610930231.1A Active CN107103016B (zh) 2016-02-23 2016-10-31 基于关键词表示使图像与内容匹配的方法

Country Status (2)

Country Link
US (1) US10296538B2 (zh)
CN (1) CN107103016B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6682837B2 (ja) * 2015-12-10 2020-04-15 富士通株式会社 通信装置及び通信システム
CN105808685B (zh) * 2016-03-02 2021-09-28 腾讯科技(深圳)有限公司 推广信息的推送方法及装置
US10289642B2 (en) * 2016-06-06 2019-05-14 Baidu Usa Llc Method and system for matching images with content using whitelists and blacklists in response to a search query
EP3497590B1 (en) * 2016-08-08 2024-03-06 Netradyne, Inc. Distributed video storage and search with edge computing
CN110472075A (zh) * 2018-05-09 2019-11-19 中国互联网络信息中心 一种基于机器学习的异构数据分类存储方法及系统
US10754889B2 (en) * 2018-05-24 2020-08-25 Quotient Technology Inc. Computer system and method for dynamically generating an image from digital content items
KR20200039365A (ko) * 2018-10-05 2020-04-16 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN109325135B (zh) * 2018-10-26 2023-08-08 平安科技(深圳)有限公司 基于文本的视频生成方法、装置、计算机设备及存储介质
CN109871380B (zh) * 2019-01-14 2022-11-11 深圳市东信时代信息技术有限公司 一种基于Redis的人群包应用方法及系统
CN110347380B (zh) * 2019-07-18 2023-08-29 中国联合网络通信集团有限公司 前后端开发方法及设备
CN110909776A (zh) * 2019-11-11 2020-03-24 维沃移动通信有限公司 一种图像识别方法及电子设备
CN110990422A (zh) * 2019-12-11 2020-04-10 微创(上海)网络技术股份有限公司 一种基于自然语言的智能数据处理系统
KR20210097347A (ko) * 2020-01-30 2021-08-09 한국전자통신연구원 인공지능 기반 이미지 검색 방법 및 장치
CN111782945B (zh) * 2020-06-28 2022-11-15 掌阅科技股份有限公司 书籍搜索方法、计算设备及存储介质
US20230177250A1 (en) * 2021-12-06 2023-06-08 Salesforce.Com, Inc. Visual text summary generation

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101984420A (zh) * 2010-09-03 2011-03-09 百度在线网络技术(北京)有限公司 一种基于拆词处理进行图片搜索的方法与设备
CN102915380A (zh) * 2012-11-19 2013-02-06 北京奇虎科技有限公司 用于对数据进行搜索的方法和系统
CN104504110A (zh) * 2014-12-30 2015-04-08 百度在线网络技术(北京)有限公司 搜索方法和装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7404141B1 (en) * 2000-03-31 2008-07-22 Oracle International Corporation System for creating and maintaining a website
EP1292903A2 (en) * 2000-05-24 2003-03-19 Espotting (UK) Limited Searching apparatus and a method of searching
US7447678B2 (en) * 2003-12-31 2008-11-04 Google Inc. Interface for a universal search engine
US7818314B2 (en) * 2004-12-29 2010-10-19 Aol Inc. Search fusion
US7272597B2 (en) * 2004-12-29 2007-09-18 Aol Llc Domain expert search
US8380698B2 (en) * 2006-02-09 2013-02-19 Ebay Inc. Methods and systems to generate rules to identify data items
US7849047B2 (en) * 2006-02-09 2010-12-07 Ebay Inc. Method and system to analyze domain rules based on domain coverage of the domain rules
US7966321B2 (en) * 2007-01-17 2011-06-21 Google Inc. Presentation of local results
US8756219B2 (en) * 2008-11-04 2014-06-17 Microsoft Corporation Relevant navigation with deep links into query
US9710491B2 (en) * 2009-11-02 2017-07-18 Microsoft Technology Licensing, Llc Content-based image search
US9852156B2 (en) * 2009-12-03 2017-12-26 Google Inc. Hybrid use of location sensor data and visual query to return local listings for visual query
US9836482B2 (en) * 2009-12-29 2017-12-05 Google Inc. Query categorization based on image results
CN103294815B (zh) * 2013-06-08 2017-06-06 北京邮电大学 基于关键字分类并有多种呈现方式的搜索引擎装置与方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101984420A (zh) * 2010-09-03 2011-03-09 百度在线网络技术(北京)有限公司 一种基于拆词处理进行图片搜索的方法与设备
CN102915380A (zh) * 2012-11-19 2013-02-06 北京奇虎科技有限公司 用于对数据进行搜索的方法和系统
CN104504110A (zh) * 2014-12-30 2015-04-08 百度在线网络技术(北京)有限公司 搜索方法和装置

Also Published As

Publication number Publication date
US20170242875A1 (en) 2017-08-24
CN107103016A (zh) 2017-08-29
US10296538B2 (en) 2019-05-21

Similar Documents

Publication Publication Date Title
CN107103016B (zh) 基于关键词表示使图像与内容匹配的方法
JP6266080B2 (ja) 類似性スコアに基づきコンテンツアイテムと画像とのマッチングを評価する方法、およびシステム
US10289700B2 (en) Method for dynamically matching images with content items based on keywords in response to search queries
US10489448B2 (en) Method and system for dynamically ranking images to be matched with content in response to a search query
US10565255B2 (en) Method and system for selecting images based on user contextual information in response to search queries
US10296535B2 (en) Method and system to randomize image matching to find best images to be matched with content items
US10289642B2 (en) Method and system for matching images with content using whitelists and blacklists in response to a search query
US10275472B2 (en) Method for categorizing images to be associated with content items based on keywords of search queries
US10235387B2 (en) Method for selecting images for matching with content based on metadata of images and content in real-time in response to search queries
US10496686B2 (en) Method and system for searching and identifying content items in response to a search query using a matched keyword whitelist
US10789287B2 (en) Method and system for multi-dimensional image matching with content in response to a search query
US11308154B2 (en) Method and system for dynamically overlay content provider information on images matched with content items in response to search queries
CN107463590B (zh) 自动的对话阶段发现
US10496698B2 (en) Method and system for determining image-based content styles

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant