CN107491465A - 用于搜索内容的方法和装置以及数据处理系统 - Google Patents

用于搜索内容的方法和装置以及数据处理系统 Download PDF

Info

Publication number
CN107491465A
CN107491465A CN201611092992.0A CN201611092992A CN107491465A CN 107491465 A CN107491465 A CN 107491465A CN 201611092992 A CN201611092992 A CN 201611092992A CN 107491465 A CN107491465 A CN 107491465A
Authority
CN
China
Prior art keywords
content
keyword
inquiry
sub
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611092992.0A
Other languages
English (en)
Other versions
CN107491465B (zh
Inventor
朱帆
孔旗
杨光
王京傲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu USA LLC
Original Assignee
Baidu USA LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu USA LLC filed Critical Baidu USA LLC
Publication of CN107491465A publication Critical patent/CN107491465A/zh
Application granted granted Critical
Publication of CN107491465B publication Critical patent/CN107491465B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/328Management therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • H04L63/101Access control lists [ACL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

根据一个实施方案,基于与内容项目相关联的内容关键字(CK)来确定内容关键字元素(CKE)。基于与搜索查询相关联的查询关键字(QK)来确定查询关键字元素(QKE)。识别第一搜索查询,该第一搜索查询具有由第一QKE表示的一个或多个查询关键字。识别第一内容关键字,该第一内容关键字由匹配第一QKE的第一CKE来表示。在查询‑CK(查询/CK)白名单表中创建新条目以将第一搜索查询映射到第一内容关键字。所述查询/CK白名单表包括多个条目,每个条目将搜索查询映射到一个或多个内容关键字。所述查询/CK白名单表被利用来响应于后续搜索查询来识别内容项目。

Description

用于搜索内容的方法和装置以及数据处理系统
技术领域
本发明的实施方案总体涉及对内容进行搜索。更具体地,本发明的实施方案涉及响应于搜索查询使用匹配的关键字白名单来对内容进行搜索。
背景技术
大多数搜索引擎通常在其操作期间从运行于客户端装置上的浏览器对网页进行搜索。搜索引擎接收由用户输入的搜索词,并检索与所述搜索词相关联的网页搜索结果列表。搜索引擎基于某些标准将搜索结果显示为搜索列表的一系列子集。在搜索操作期间使用的一般标准是搜索词是完整地还是部分地出现在给定网页上、搜索字串出现在搜索结果中的次数、字母次序等。此外,用户可以通过点击鼠标按钮来决定打开链接以打开并浏览。可由搜索引擎来监控和收集用户与搜索结果的一些互动和/或用户信息,以随后提供更好的搜索。
通常,响应于搜索查询,执行搜索以识别和检索内容项目列表。接着将内容项目传回到搜索请求器。常规搜索引擎将照原样传回大多数内容项目而不作修改。搜索结果中的一些内容项目仅仅是纯文本或描述,这是无吸引力的或令人厌烦的。有时候,如果内容项目准备有与所述内容项目有关的某些图像,那么搜索结果中的内容将更得体或更具吸引力。然而,使适当图像与内容项目匹配是相当有挑战性的。
发明内容
本申请的目的在于提供用于搜索内容的计算机实施方法、对内容进行搜索装置以及数据处理系统。
根据本申请的一个方面,提供了一种用于搜索内容的计算机实施方法,可包括:基于与多个内容项目相关联的多个内容关键字(CK)来确定多个内容关键字元素(CKE);基于与多个搜索查询相关联的多个查询关键字(QK)来确定多个查询关键字元素(QKE);识别第一搜索查询,所述第一搜索查询具有由第一QKE表示的一个或多个查询关键字;识别第一内容关键字,所述第一内容关键字由匹配所述第一QKE的第一CKE来表示;以及在查询-CK(查询/CK)白名单表中创建新条目以将所述第一搜索查询映射到所述第一内容关键字,所述查询/CK白名单表包括多个条目,每个条目将搜索查询映射到一个或多个内容关键字,其中所述查询/CK白名单表用于响应于后续搜索查询来识别内容项目。
根据本申请的另一个方面,提供了一种对内容进行搜索装置,可包括:基于与多个内容项目相关联的多个内容关键字(CK)来确定多个内容关键字元素(CKE)的装置;基于与多个搜索查询相关联的多个查询关键字(QK)来确定多个查询关键字元素(QKE)的装置;识别第一搜索查询的装置,所述第一搜索查询具有由第一QKE表示的一个或多个查询关键字;识别第一内容关键字的装置,所述第一内容关键字由匹配所述第一QKE的第一CKE来表示;以及在查询-CK(查询/CK)白名单表中创建新条目以将所述第一搜索查询映射到所述第一内容关键字的装置,所述查询/CK白名单表包括多个条目,每个条目将搜索查询映射到一个或多个内容关键字,其中所述查询/CK白名单表用于响应于后续搜索查询来识别内容项目。
根据本申请的又一个方面,提供了一种数据处理系统,可包括根据本申请实施方案的向无人驾驶车辆执行内容递送的装置。
附图说明
在附图的各图中以示例而非限制的方式示出本发明的实施方案,在附图中,相似的附图标记指示类似的元件。
图1A和图1B是示出根据本发明一些实施方案的用于使图像与内容项目进行匹配的系统配置的示例的框图。
图2是示出根据本发明的一个实施方案的内容搜索系统的示例的框图。
图3是示出根据一个实施方案的查询/CK白名单表的示例的框图。
图4是示出根据本发明的一个实施方案的查询/内容映射表的示例的框图。
图5是示出根据本发明的一个实施方案的数据分析系统的示例的框图。
图6A是示出根据一个实施方案的内容关键字元素索引表的示例的框图。
图6B是示出根据一个实施方案的查询关键字元素索引表的示例的框图。
图7是示出根据本发明的一个实施方案的生成查询-内容关键字白名单表的过程的流程图。
图8是示出根据本发明的一个实施方案的使用查询-内容关键字白名单表来进行内容搜索的过程的流程图。
图9是示出根据一个实施方案的数据处理系统的框图。
具体实施方式
以下将参考所讨论的细节来描述本发明的各种实施方案和方面,并且附图将示出所述各种实施方案。以下描述和附图是对本发明的说明,而不应当解释为限制本发明。描述了许多特定细节以便提供对本发明的各种实施方案的全面理解。然而,在某些例子中,并未描述众所周知的或常规的细节以便提供对本发明的实施方案的简洁讨论。
本说明书中对“一个实施方案”或“一实施方案”的提及意味着结合该实施方案所描述的特定特征、结构或特性可包括在本发明的至少一个实施方案中。短语“在一个实施方案中”在本说明书中各个地方的出现不必全部是指同一实施方案。
根据一些实施方案,基于对一组已知查询和已知内容项目的分析来创建查询-内容关键字白名单表,以将某些搜索查询映射到与某些内容项目相关联的某些内容关键字。可以基于历史性的已知搜索查询和内容项目来离线地创建此类表。因此,除标准的查询关键字(QK)-内容关键字(CK)映射或索引表(QK/CK映射表)之外,查询/CK白名单表还提供被利用来响应于搜索查询来实时或在线识别内容项目列表的额外白名单映射。
在一个实施方案中,从与已知集合中的每一个内容项目相关联的一个或多个CK提取内容关键字元素(CKE),所述CKE也称为内容关键字特征。从与已知集合中的每一个搜索查询相关联的一个或多个QK提取查询关键字元素(QKE),所述QKE也称为查询关键字特征。识别第一搜索查询,其具有由QKE中的第一QKE表示的一个或多个QK。识别第一搜索查询,其包括由第一QKE表示的一个或多个QK。识别由第一CKE表示的第一CK,其中所述第一CKE匹配第一QKE。在查询/CK白名单表中创建新映射条目以将第一搜索查询映射到第一CK。除QK/CK映射表之外,还利用查询/CK白名单表以将特定搜索查询映射到一个或多个内容关键字。利用内容关键字来识别一个或多个内容项目,所述内容项目将响应于搜索查询作为搜索结果的一部分被在线传回。
在一个实施方案中,在确定CKE的过程中,将内容关键字分割成内容子关键字,每个内容子关键字表示一CKE。对内容子关键字执行诸如词频-逆文档频率(TF-IDF)的分析,以移除一个或多个无关或更频繁地出现的内容子关键字。也可对内容子关键字执行潜在语义分析,以识别一组类似的内容子关键字。创建CKE索引表以将内容关键字元素映射到一个或多个内容关键字,其中所述CKE索引表被利用来基于内容关键字元素来识别内容关键字。类似地创建QKE索引表。利用CKE索引表和QKE索引表来识别共同的匹配的关键字元素以编译查询/CK白名单表。
图1A和图1B是示出根据本发明的一些实施方案的用于使图像与内容项目进行匹配的系统配置的示例的框图。参考图1A,系统100包括但不限于通过网络103通信地联接到服务器104的一个或多个客户端装置101至102。客户端装置101至102可以是任何类型的客户端装置,诸如,个人计算机(例如,台式计算机、膝上型计算机和平板计算机)、“薄”客户端、个人数字助理(PDA)、支持网络的设备、智能手表或移动电话(例如,智能手机)等。网络103可以是任何类型的网络,诸如有线或无线的局域网(LAN)、诸如互联网的广域网(WAN)或其组合。
服务器104可以是任何种类的服务器或服务器集群,诸如网络或云服务器、应用服务器、后端服务器或其组合。在一个实施方案中,服务器104包括但不限于搜索引擎120、图像选择模块110和查询/图像匹配规则115。服务器104还包括允许客户端(诸如,客户端装置101至102)存取由服务器104提供的资源或服务的接口(未示出)。所述接口可包括网络接口、应用编程接口(API)和/或命令行接口(CLI)。
例如,客户端(在这个示例中为客户端装置101的用户应用程序(例如,网络浏览器、移动应用程序))可向服务器104发送搜索查询,且由搜索引擎120通过网络103经由接口来接收所述搜索查询。响应于搜索查询,搜索引擎120从搜索查询提取一个或多个关键字(也称为搜索词)。搜索引擎120在内容数据库133中执行搜索以识别与关键字有关的内容项目列表,所述内容数据库133可包括主要内容数据库130和/或辅助内容数据库131。主要内容数据库130(也称为主内容数据库)可以是一般内容数据库,而辅助内容数据库131(也称为二级内容数据库)可以是特殊内容数据库。搜索引擎120向客户端装置101传回具有列表中的至少一些内容项目的搜索结果页面,以在其中呈现。搜索引擎120可以是获自百度公司的搜索引擎,或可替代地,搜索引擎120可表示搜索引擎、MicrosoftBingTM搜索引擎、搜索引擎或一些其他搜索引擎。
搜索引擎(诸如,网络搜索引擎)是被设计成在万维网上搜索信息的软件系统。搜索结果通常以一系列结果的方式(常被称为搜索引擎结果页面)呈现。信息可以是网页、图像和其他类型的文件的混合。一些搜索引擎还挖掘数据库或开放式目录中可用的数据。不同于仅通过人工编辑器来维持的网络目录,搜索引擎还通过在网络爬虫上运行算法来维持实时信息。
网络搜索引擎通过存储关于许多网页的信息来运行,它们从页面的超文本标记语言(HTML)标记来检索所述网页。通过网络爬虫来检索这些页面,所述网络爬虫是跟随网站上的每个链接的自动化网络爬虫。搜索引擎接着分析每个页面的内容以确定其应如何被索引(例如,可以从标题、页面内容、标头或称为元标签的特殊字段来提取字)。将关于网页的数据存储在索引数据库中,以供在稍后的查询中使用。索引帮助尽可能快地找到与查询有关的信息。
当用户将查询输入到搜索引擎中时(通常是通过使用关键字),引擎检查其索引并根据其标准提供最匹配网页的列表,通常具有包含文档标题及有时部分文本的简短概述。索引是由借助于数据存储的信息及信息的索引方法建构而成。搜索引擎查找与输入时完全一致的字或短语。一些搜索引擎提供先进的特征(称为接近搜索),其允许用户定义关键字之间的距离。还存在基于概念的搜索,其中所述搜索涉及在包含你所搜索的字或短语的页面上使用统计分析。而且,自然语言查询允许用户以与向人询问问题的形式相同的形式来键入问题。
搜索引擎的有用性取决于其所回馈的结果集的适切性。虽然包括特定字或短语的网页可能有数百万个,但一些页面可能比其他页面更贴切、更流行或更有权威。大多数搜索引擎采用多种方法来对结果排序以首先提供“最佳”结果。搜索引擎如何决定哪些页面是最佳匹配者以及应按什么次序来示出结果随引擎的不同而广泛变化。
返回参考图1A,根据一个实施方案,响应于在服务器104处从客户端装置(在这个示例中为客户端装置101)接收的搜索查询,搜索引擎120在内容数据库133(诸如,主要内容数据库130和/或辅助内容数据库131)中执行搜索,以生成内容项目列表。可通过统一资源链接(URL)和/或统一资源标识符(URI)使每一个内容项目与特定内容提供者的特定网站的特定网页相关联。在一个实施方案中,主要内容数据库130存储已由网络爬虫收集的一般内容项目(例如,非赞助内容)。辅助内容数据库135存储与特定、已知或预定的内容提供者相关联的特定或特殊内容项目(例如,赞助内容)。可替代地,在不区分主要内容数据库131与辅助内容数据库132的情况下,可将内容数据库133实施为单个数据库。
网络爬虫是自动遍历网络的超文本结构的程序。在实践中,网络爬虫可运行于独立的计算机或服务器上,所述计算机或服务器中的每一个被配置成执行从URL下载文档的一个或多个进程或线程。网络爬虫接收所指派的URL,并下载那些URL处的文档。网络爬虫还可检索被已检索的文档引用的文档,以供由内容处理系统(未示出)和/或搜索引擎120处理。网络爬虫可以使用各种协议来下载与URL相关联的页面,诸如超文本传输协议(HTTP)和文件传送协议(FTP)。
在一个实施方案中,服务器104维持查询/CK白名单表161和关键字-内容(关键字/内容)映射表162。表161至162可由下文将进一步详细描述的数据分析系统或服务器150来创建。查询/CK白名单表161包括许多映射条目,每个映射条目将搜索查询或查询关键字的至少一部分映射到一个或多个内容关键字。关键字/内容表162包括许多映射条目,每个映射条目将一个或多个关键字(例如,内容关键字)映射到一个或多个内容项目或识别内容项目的内容标识符(ID)。
响应于(例如)通过网络103从客户端101至102中的任一个接收的搜索查询,从所述搜索查询提取搜索词或关键字。另外,对查询执行分析以确定与所述查询相关联的一个或多个关键字。所确定的关键字可以是被包括在搜索查询中的关键字。所确定的关键字还可包括语义上类似或具有与最初在搜索查询中的关键字相同含义的某些关键字(例如,同义字或短语)。
接着使用搜索词或关键字在查询/CK白名单表中进行查找,以定位匹配搜索词的映射条目并从匹配条目获得一个或多个内容关键字。接着利用内容关键字在关键字/内容映射表162(也称为内容索引表)中进行查找,以获得一个或多个内容ID。基于内容ID,接着在内容数据库133中执行搜索以检索有关的内容项目(例如,赞助内容)。其后,接着编译具有至少一些内容项目的搜索结果,并将其传输到客户端。
在一个实施方案中,由数据分析系统150(例如)使用多种机器学习算法或模型基于一组已知查询和内容项目来离线地创建至少查询/CK白名单表161。数据分析系统150包括但不限于关键字提取模块181、关键字元素处理模块182和查询/CK白名单处理模块183。关键字提取模块181将从一组已知搜索查询和一组内容项目(例如,Ad)中提取一个或多个关键字。关键字元素处理模块182将处理所提取的关键字以生成关键字元素。查询/CK白名单处理模块183将编译查询/CK白名单表,所述查询/CK白名单表变成被在线利用的查询/CK白名单表161。下文将进一步详细描述模块181至183。
另外,根据一个实施方案,服务器104还包括图像选择模块或系统(未示出),其用于基于与搜索查询相关联的关键字在图像存储器中搜索和识别一个或多个图像,所述图像与搜索查询和/或内容项目有关。在一个实施方案中,可由一个或多个图像爬虫来获得存储在图像存储器中的图像及其各自的元数据,所述图像爬虫被设计成爬取网络以收集图像以及其周围的元数据。图像可以是无特权的、无著作权保护的、适当许可的图像,或可以是任何其他授权的图像。针对在内容数据库133中找到的每一个内容项目,从候选图像列表中选择图像以与所述内容项目相关联。所选图像可与所述内容项目合并,以生成合并的内容项目。例如,所选图像可充当所述内容项目的背景图像。合并的内容项目和图像的列表作为搜索结果的一部分被传回到客户端装置。
在一个实施方案中,内容数据库或内容服务器的每一个内容项目与一组一个或多个关键字(或短语、句子)相关联。此类关联的关键字、短语或句子可由相应内容项目的内容提供者来配置或指定。出于在内容数据库或内容服务器中识别相应内容项目的目的,可使用关键字、短语或句子以达成基于搜索词来进行搜索的目的。
应注意,已仅出于示出的目的描述了服务器104的配置。服务器104可以是向多种终端用户装置提供前端搜索服务的网络服务器。替代地,服务器104可以是应用服务器或后端服务器,其向前端服务器(例如,网络服务器或一般内容服务器)提供特定或特殊的内容搜索服务以及使图像与内容数据库或服务器的内容项目匹配和/或整合。数据分析系统150也可实施为独立服务器。
其它架构或配置也是可适用的。例如,如图1B中所示,内容数据库133可通过网络被维持和托管在作为内容服务器的独立服务器中。内容数据库/服务器133可包括主要内容数据库130和辅助内容数据库131。主要内容数据库130也可实施或维持在独立的内容服务器(称为主要内容服务器)中。类似地,辅助内容数据库131可实施或维持在独立的内容服务器(称为辅助内容服务器)中。服务器133可以是网络服务器、应用服务器或后端服务器。可由与服务器104相同的实体或组织来组织和提供内容服务器133和/或图像服务器。可替代地,可由独立的实体或组织(例如,第三方提供者)来维持或托管内容服务器133和/或图像服务器。
图2是示出根据本发明的一个实施方案的内容搜索系统的示例的框图。系统200可实施为如图1A到图1B中所示的系统100的一部分。参考图2,搜索引擎120包括但不限于关键字提取模块201、CK查找模块202和搜索模块203。响应于搜索查询211,关键字提取模块201从搜索查询211提取一个或多个关键字或短语。另外,关键字提取模块201可对关键字执行分析(诸如,潜在语义分析)以导出一个或多个类似或语义上有关的关键字或短语(例如,同义词),以将其添加到所提取的关键字的所述组。基于所述关键字或短语,CK查找模块202在查询/CK白名单表161中执行查找操作以识别一个或多个内容关键字。
图3是示出根据一个实施方案的查询/CK白名单表的示例的框图。查询/CK白名单表300包括许多映射条目。表300可表示查询/CK白名单表161。参考图3,每个映射条目将搜索查询(例如,先前的已知查询)的一个或多个关键字或短语301映射到一个或多个内容关键字302。基于搜索查询的一个或多个关键字(例如,搜索词),CK查找模块202搜索并找出具有与搜索查询的关键字匹配的字段301的映射条目。获得匹配条目的内容关键字302。
基于(例如)经由查询/CK白名单表161获得的内容关键字,CK查找模块202在关键字/内容映射表162中进行搜索以识别一个或多个内容ID。图4是示出根据本发明的一个实施方案的查询/内容映射表的示例的框图。查询/内容表400可表示关键字/内容映射表162。查询/内容表400包括许多映射条目,每个条目将一个或多个关键字401映射到识别一个或多个内容项目的一个或多个内容ID 402。内容项目可以是赞助的内容项目(诸如,Ad),且关键字可以是由作为内容提供者的广告商所购买的投标字。基于内容ID,搜索模块203在内容数据库133中进行搜索,以获得一个或多个内容项目(例如,诸如广告或Ad的赞助内容项目)的列表。接着生成包括至少一些内容项目的搜索结果212,并将搜索结果传回到客户端。
图5是示出根据本发明的一个实施方案的数据分析系统的示例的框图。系统500可实施为数据分析系统或服务器150的一部分。参考图5,系统500包括关键字提取模块181、关键字元素(KE)处理模块182和查询/CK白名单处理模块183。这些模块可以以软件、硬件或其组合来实施。例如,模块181至183可以加载到存储器中并由处理器执行。
在一个实施方案中,针对由某些内容提供者(诸如,广告商)提供的每一个内容项目501(例如,诸如Ad的赞助内容),关键字提取模块181对所述内容项目和/或所述内容项目的由相应内容提供者选择的关联的关键字(例如,投标字)执行分析,以确定一个或多个内容关键字或短语502。关键字提取模块181可对内容关键字执行潜在语义分析,以导出额外的类似关键字,所述关键字与跟内容项目相关联的原始关键字有关或语义上类似。
针对每一个内容关键字503,KE处理模块182将内容关键字502分割成子关键字。可选地,KE处理模块182计算每个子关键字的字频。KE处理模块182还可确定每个子关键字的功能或含义并因此将其排序。例如,可将子关键字由高视频率字到低视频率字、动词和名词到形容词和副词来排序。次序的位置可与在确定子关键字的重要性和/或相关性的过程中的不同加权因子相关联。KE处理模块182可进一步对子关键字执行TF-IDF过程,以移除无关或一般的字(例如,“一(a/an)”、“所述(the)”、“和(and)”等)。创建内容关键字元素(CKE)索引表503(也称为CKE/CK映射表)。CKE索引表503包括许多映射条目,每个映射条目将CKE映射到一个或多个内容关键字或短语(例如,投标字)。图6A中示出CKE索引表503的示例。
类似地,由关键字提取模块181对一组查询511执行以上过程,以生成查询关键字512,KE处理模块182利用所述查询关键字512来生成查询关键字元素(QKE)索引表513(也称为QKE/QK映射表)。QKE索引表513包括许多映射条目,每个映射条目将QKE映射到一个或多个查询关键字或短语。图6B中示出QKE索引表的示例。基于CKE索引表503和QKE索引表513,查询/CK白名单处理模块183使CKE索引表503和QKE表513的条目合并以创建查询/CK白名单表161。经合并的条目是具有来自其各自的QKE和CKE的至少一个共同关键字元素的条目。查询/CK白名单表161包括许多映射条目,每个映射条目将查询关键字或短语映射到内容关键字或短语。图3中示出查询/CK白名单表161的示例。
现参考图6A,在这个示例中,内容关键字601包括“鲜花递送”,其可提取自已知搜索查询中的一个特定搜索查询。由关键字提取模块181分析内容关键字601,这包括执行潜在语义分析以导出额外的类似或有关的关键字。接着由CK处理模块182处理所述关键字,以生成内容关键字元素602。在这个示例中,内容关键字元素602包括“一日鲜花递送”、“礼物递送”和“礼物卡”。创建CKE索引表603以将每一个CKE 611映射到一个或多个关键字或短语612。在这个示例中,关键字元素“鲜花”被映射到“鲜花递送”和“北京鲜花递送”。关键字元素“礼物递送”被映射到“鲜花递送”和“最好的礼物”。关键字元素“礼物卡”被映射到“鲜花递送”和“梅西的礼物卡”。CKE索引表603可实施为图5的CKE索引表503的一部分。
现参考图6B,对一组已知查询的查询关键字651执行类似的过程。在这个示例中,查询关键字包括“快速在线鲜花订购”。对查询关键字651进行处理以生成查询关键字元素652,在这个示例中,所述查询关键字元素652包括“快餐”、“鲜花”和“鲜花递送”。创建QKE索引表653以将每一个查询关键字元素661映射到一个或多个查询关键字或短语662。QKE索引表653可实施为图5的QKE索引表513的一部分。
接着,基于在CKE索引表603的字段611和QKE索引表653的字段661中列出的共同关键字元素,合并CKE索引表603和QKE索引表653。在该示例中,共同关键字元素是“鲜花”。结果,每一个相应的查询关键字或短语662被映射到每一个相应的内容关键字或短语612,从而生成与如图3中所示的查询/CK白名单表类似的查询/CK白名单表。可以在线利用所述查询/CK白名单表来将特定搜索查询映射到一个或多个内容关键字或短语(例如,投标字),可利用所述内容关键字或短语来识别和检索一个或多个内容项目(例如,诸如Ad的赞助内容项目)。
图7是示出根据本发明的一个实施方案的生成查询-内容关键字白名单表的过程的流程图。可由处理逻辑来执行过程700,所述处理逻辑可包括软件、硬件或其组合。例如,可由图1A和图1B的数据分析系统150来执行过程700。参考图7,在框701处,处理逻辑确定与一组内容项目(例如,赞助内容)相关联的一组内容关键字(CK)。在框702处,处理逻辑从内容关键字中确定CK元素,并创建CK元素索引表以将每个CK元素映射到一个或多个内容关键字。在框703处,处理逻辑确定与一组已知查询相关联的一组查询关键字(QK)。在框704处,处理逻辑从查询关键字中确定QK元素,并创建QK元素索引表以将每个查询元素映射到一个或多个查询关键字。在框705处,创建查询/CK白名单表以将每一个查询关键字映射到具有共同关键字元素的一个或多个内容关键字。
图8是示出根据本发明的一个实施方案的使用查询-内容关键字白名单表来进行内容搜索的过程的流程图。可由处理逻辑来执行过程800,所述处理逻辑可包括软件、硬件或其组合。例如,可由图1A和图1B的服务器104来执行过程800。参考图8,在框801处,响应于从客户端接收的搜索查询,处理逻辑从所述搜索查询提取一个或多个查询关键字(QK)。在框802处,处理逻辑可选地执行潜在语义分析以包括额外的有关或类似的关键字。在框803处,处理逻辑在查询/CK白名单表中进行查找以基于查询关键字来识别一个或多个内容关键字。在框804处,处理逻辑在CK/内容映射表中进行查找以基于内容关键字来识别一个或多个内容ID。在框805处,处理逻辑在内容数据库中进行搜索以基于内容ID来识别和检索一个或多个内容项目。在框806处,将内容项目中的至少一个传回到客户端。
可以将上述技术应用于将图像与赞助内容进行匹配。一种类型的赞助内容是广告(Ad)。例如,返回参考图1A到图1B,内容数据库(DB)或服务器133可以是Ad数据库或Ad服务器。每一个内容项目(例如,Ad)与预定义的关键字、词、短语或句子的列表相关联。这些预定义的关键字、词、短语或句子可以是由广告提供者所购买、定义或指定的投标字。在另一个实施方案中,主要内容DB 130可存储通常在公共网络中可用的一般内容。辅助内容DB 131可以是广告DB。服务器104可以是用于搜索内容的网络服务器,或可替代地,服务器104可以是广告服务器。
图9是示出可与本发明的一个实施方案一起使用的数据处理系统的示例的框图。例如,系统1500可表示以上所述的执行上述过程或方法中的任一个的任一数据处理系统,诸如像上述客户端装置或服务器,诸如像如上所述的服务器104、内容服务器133、内容/图像映射系统/服务器150或图像搜索引擎/系统/服务器605。
系统1500可包括许多不同的组件。这些组件可以实施为集成电路(IC)、集成电路的部分、离散电子装置或适合于电路板的其他模块(诸如,计算机系统的主板或插入卡),或者实施为以其他方式并入计算机系统的底盘内的组件。
还应注意,系统1500旨在示出计算机系统的许多组件的高层视图。然而,应当理解的是,某些实施方式中可存在附加的组件,此外,其他实施方式中可出现所示组件的不同布置。系统1500可表示台式计算机、膝上型计算机、平板计算机、服务器、移动电话、媒体播放器、个人数字助理(PDA)、智能手表、个人通信器、游戏装置、网络路由器或集线器、无线接入点(AP)或中继器、机顶盒或其组合。此外,虽然仅示出了单个机器或系统,但是术语“机器”或“系统”还应当被理解为包括单独地或共同地执行一个(或多个)指令集以执行本文所讨论的任何一种或多种方法的机器或系统的任何集合。
在一个实施方案中,系统1500包括经由总线或互连件1510连接的处理器1501、存储器1503以及装置1505至1508。处理器1501可表示其中具有单个处理器内核或多个处理器内核的单个处理器或多个处理器。处理器1501可表示一个或多个通用处理器,诸如微处理器、中央处理单元(CPU)等。更具体地,处理器1501可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、或实施其他指令集的处理器、或实施指令集组合的处理器。处理器1501还可以是一个或多个专用处理器,诸如专用集成电路(ASIC)、蜂窝或基带处理器、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、网络处理器、图形处理器、通信处理器、加密处理器、协同处理器、嵌入式处理器或能够处理指令的任何其他类型的逻辑。
处理器1501(其可以是低功率多核处理器插座,诸如超低电压处理器)可充当用于与系统的各种组件通信的主处理单元和中央集线器。这种处理器可以实施为片上系统(SoC)。处理器1501被配置成执行指令以执行本文所讨论的操作和步骤。系统1500还可包括与可选的图形子系统(显示控制器和/或显示装置)1504通信的图形接口,所述图形子系统1504可包括显示控制器、图形处理器和/或显示装置。
处理器1501可以与存储器1503通信,存储器1503在一个实施方案中可以通过多个存储器装置来实施以提供给定量的系统存储器。存储器1503可包括一个或多个易失性存储(或存储器)装置,诸如随机存取存储器(RAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、静态RAM(SRAM)或其他类型的存储装置。存储器1503可存储包括由处理器1501或任何其他装置执行的指令序列的信息。例如,多种操作系统、装置驱动程序、固件(例如,输入输出基本系统或BIOS)和/或应用程序的可执行代码和/或数据可以加载在存储器1503中并由处理器1501来执行。操作系统可以是任何种类的操作系统,例如像来自公司的操作系统、来自苹果公司的Mac来自公司的或其他实时或嵌入式操作系统(诸如VxWorks)。
系统1500还可包括I/O装置,诸如装置1505至1508,包括网络接口装置1505、可选的输入装置1506以及其他可选的I/O装置1507。网络接口装置1505可包括无线收发器和/或网络接口卡(NIC)。无线收发器可以是WiFi收发器、红外收发器、蓝牙收发器、WiMax收发器、无线蜂窝电话收发器、卫星收发器(例如,全球定位系统(GPS)收发器)或其他射频(RF)收发器或其组合。NIC可以是以太网卡。
输入装置1506可包括鼠标、触摸板、触敏屏幕(其可以与显示装置1504集成在一起)、指示器装置(诸如指示笔)和/或键盘(例如,物理键盘或作为触敏屏幕的一部分显示的虚拟键盘)。例如,输入装置1506可包括联接到触摸屏的触摸屏控制器。触摸屏和触摸屏控制器例如可以使用多种触摸灵敏度技术(包括但不限于电容、电阻、红外和表面声波技术)中的任一种,以及使用用于确定与触摸屏的一个或多个接触点的其他接近传感器阵列或其他元件来检测其接触和移动或间断。
I/O装置1507可包括音频装置。音频装置可包括扬声器和/或麦克风,以促进支持语音的功能,诸如语音辨识、语音复制、数字记录和/或电话功能。其他I/O装置1507还可包括通用串行总线(USB)端口、并行端口、串行端口、打印机、网络接口、总线桥(例如,PCI-PCI桥)、传感器(例如,运动传感器,诸如加速度计、陀螺仪、磁强计、光传感器、罗盘、接近传感器等)或其组合。装置1507还可包括成像处理子系统(例如,摄像机),所述成像处理子系统可包括用来促进摄像机功能(诸如记录照片和视频片段)的光学传感器,诸如电荷耦合装置(CCD)或互补金属氧化物半导体(CMOS)光学传感器。某些传感器可经由传感器集线器(未示出)联接到互连件1510,而其他装置(诸如,键盘或热传感器)可由嵌入式控制器(未示出)控制,这取决于系统1500的特定配置或设计。
为了提供信息(诸如,数据、应用程序、一个或多个操作系统等)的永久性存储,大容量存储装置(未示出)也可联接到处理器1501。在各种实施方案中,为了实施更薄且更轻的系统设计并且改进系统响应能力,这种大容量存储装置可通过固态装置(SSD)来实施。然而,在其他实施方案中,大容量存储装置可主要使用硬盘驱动器(HDD)来实施,其中较小量的SSD存储装置充当SSD高速缓存以在断电事件期间实施对上下文状态以及其他此类信息的非易失性存储,从而使得在系统活动重新启动时能够实现快速上电。而且,闪存装置可以例如经由串行外围接口(SPI)联接到处理器1501。这种闪存装置可提供对系统软件的非易失性存储,所述系统软件包括系统的基本输入/输出软件(BIOS)以及其他固件。
存储装置1508可包括计算机可访问的存储介质1509(也被称为机器可读存储介质或计算机可读介质),其上存储有体现任何一种或多种本文所述方法或功能的一个或多个指令集或软件(例如,模块、单元和/或逻辑1528)。模块/单元/逻辑1528可表示任一上述组件,例如像如上所述的搜索引擎、编码器、交互日志记录模块。模块/单元/逻辑1528还可在通过数据处理系统1500对其执行期间完全地或至少部分地驻留在存储器1503内和/或处理器1501内,存储器1503和处理器1501还构成机器可访问的存储介质。模块/单元/逻辑1528还可通过网络经由网络接口装置1505被发送或接收。
计算机可读存储介质1509也可用来永久性地存储以上描述的一些软件功能。虽然计算机可读存储介质1509在示例性实施方案中被示为单个介质,但是术语“计算机可读存储介质”应当被认为包括存储一个或多个指令集的单个介质或多个介质(例如,集中式或分布式数据库和/或相关联的高速缓存和服务器)。术语“计算机可读存储介质”还应当被认为包括能够存储或对指令集进行编码的任何介质,所述指令集用于由机器执行并且致使机器执行本发明的任何一种或多种方法。因此,术语“计算机可读存储介质”应当被认为包括但不限于固态存储器以及光学和磁性介质或者任何其他非暂时性机器可读介质。
本文所述的模块/单元/逻辑1528、组件以及其他特征可以实施为离散硬件组件或集成在硬件组件(诸如ASICS、FPGA、DSP或类似装置)的功能中。另外,模块/单元/逻辑1528可以实施为硬件装置内的固件或功能电路。此外,模块/单元/逻辑1528可以以硬件装置和软件组件的任何组合实施。
应注意,虽然系统1500被示出为具有数据处理系统的各种组件,但是其不旨在表示任何特定的架构或对组件进行互连的方式;因为此类细节和本发明的实施方案没有密切关系。还应当认识到,具有更少组件或可能具有更多组件的网络计算机、手持计算机、移动电话、服务器和/或其他数据处理系统也可与本发明的实施方案一起使用。
前述详细描述中的一些部分已经依据在计算机存储器内对数据位进行运算的算法和符号表示而呈现。这些算法描述和表示是数据处理领域中的技术人员所使用的方法,以便最有效地将他们工作的实质传达给本领域中的其他技术人员。这里,算法通常被认为是引起所期望结果的有条理的操作序列。这些操作是需要对物理量进行物理操控的操作。
然而,应当牢记,所有这些和类似的术语均意图与适当的物理量相关联,并且仅仅是应用于这些量的适宜标记。除非在以上讨论中另外明确地说明清楚,否则应当了解,贯穿本说明书利用术语(诸如随附权利要求书中所阐述的术语)的讨论是指计算机系统或类似的电子计算装置的动作和处理,所述计算机系统或类似的电子计算装置对计算机系统的寄存器和存储器内的表示为物理(例如,电子)量的数据进行操控,并将所述数据变换成在计算机系统存储器或寄存器或其他此类信息存储、传输或显示装置内同样地表示为物理量的其他数据。
各图中所示的技术可以使用存储和执行于一个或多个电子装置上的代码及数据来实施。此类电子装置使用计算机可读介质来存储和传达(在内部和/或通过网络与其他电子装置)代码及数据,所述计算机可读介质是诸如非暂时性计算机可读存储介质(例如,磁盘、光盘、随机存取存储器、只读存储器、闪存存储器装置、相变存储器)和暂时性计算机可读传输介质(例如,电子、光学、声学或其他形式的传播信号—诸如载波、红外信号、数字信号)。
前述附图中所描绘的过程或方法可由处理逻辑来执行,所述处理逻辑包括硬件(例如,电路、专用逻辑等)、固件、软件(例如,体现在非暂时性计算机可读介质上)或两者的组合。尽管所述过程或方法在上文是依据一些顺序操作来描述的,但是应当了解,所描述的操作中的一些可按不同的次序执行。此外,一些操作可并行地而不是顺序地执行。
在以上的说明书中,已经参考本发明的特定例示性实施方案对其实施方案进行了描述。将显而易见的是:在不脱离如随附权利要求书中阐述的本发明的更宽泛精神和范围的情况下,可对其做出各种修改。因此,应当在说明性意义而不是限制性意义上来理解本说明书和附图。

Claims (19)

1.一种用于搜索内容的计算机实施方法,所述方法包括:
基于与多个内容项目相关联的多个内容关键字(CK)来确定多个内容关键字元素(CKE);
基于与多个搜索查询相关联的多个查询关键字(QK)来确定多个查询关键字元素(QKE);
识别第一搜索查询,所述第一搜索查询具有由第一QKE表示的一个或多个查询关键字;
识别第一内容关键字,所述第一内容关键字由匹配所述第一QKE的第一CKE来表示;以及
在查询-CK(查询/CK)白名单表中创建新条目以将所述第一搜索查询映射到所述第一内容关键字,所述查询/CK白名单表包括多个条目,每个条目将搜索查询映射到一个或多个内容关键字,其中所述查询/CK白名单表用于响应于后续搜索查询来识别内容项目。
2.根据权利要求1所述的方法,其中基于多个内容关键字(CK)来确定多个内容关键字元素(CKE)包括:
将所述内容关键字分割成多个内容子关键字的列表,每个内容子关键字表示内容关键字元素;
对所述内容子关键字执行词频-逆文档频率(TF-IDF)分析以移除频繁出现的一个或多个内容子关键字。
3.根据权利要求2所述的方法,还包括:
对所述内容子关键字执行潜在语义分析以识别一个或多个类似内容子关键字的集合;以及
将所述一个或多个类似内容子关键字添加到待分析的所述内容子关键字的列表中。
4.根据权利要求3所述的方法,还包括:针对每一个内容子关键字,创建CKE索引表,其中所述CKE索引表包括多个条目,每个条目将内容关键字元素映射到一个或多个内容关键字,其中所述CKE索引表用于基于内容关键字元素来识别内容关键字。
5.根据权利要求1所述的方法,其中基于多个查询关键字(QK)来确定多个查询关键字元素(QKE)包括:
将所述查询关键字分割成多个查询子关键字的列表,每个查询子关键字表示查询关键字元素;
对所述查询子关键字执行词频-逆文档频率(TF-IDF)分析以移除频繁出现的一个或多个查询子关键字。
6.根据权利要求5所述的方法,还包括:
对所述查询子关键字执行潜在语义分析以识别一个或多个类似查询子关键字的集合;以及
将所述一个或多个类似查询子关键字添加到待分析的所述查询子关键字的列表中。
7.根据权利要求6所述的方法,还包括:针对每一个查询子关键字,创建QKE索引表,其中所述QKE索引表包括多个条目,每个条目将查询关键字元素映射到一个或多个查询关键字,其中所述QKE索引表用于基于查询关键字元素来识别查询关键字。
8.根据权利要求1所述的方法,其中所述多个搜索查询是在过去的一段时间内从多个客户端接收的用于对内容项目进行搜索的一组已知搜索查询。
9.根据权利要求1所述的方法,还包括:
响应于接收到从客户端接收的第二搜索查询,在查询/CK白名单表中执行查找操作以定位与所述第二搜索查询匹配的第二条目;
基于从所述第二条目获得的一个或多个内容关键字,识别一个或多个内容项目;以及
将所识别的内容项目传输到所述客户端。
10.一种对内容进行搜索装置,包括:
基于与多个内容项目相关联的多个内容关键字(CK)来确定多个内容关键字元素(CKE)的装置;
基于与多个搜索查询相关联的多个查询关键字(QK)来确定多个查询关键字元素(QKE)的装置;
识别第一搜索查询的装置,所述第一搜索查询具有由第一QKE表示的一个或多个查询关键字;
识别第一内容关键字的装置,所述第一内容关键字由匹配所述第一QKE的第一CKE来表示;以及
在查询-CK(查询/CK)白名单表中创建新条目以将所述第一搜索查询映射到所述第一内容关键字的装置,所述查询/CK白名单表包括多个条目,每个条目将搜索查询映射到一个或多个内容关键字,其中所述查询/CK白名单表用于响应于后续搜索查询来识别内容项目。
11.根据权利要求10所述的对内容进行搜索的装置,其中基于多个内容关键字(CK)来确定多个内容关键字元素(CKE)的装置包括:
将所述内容关键字分割成多个内容子关键字的列表的装置,每个内容子关键字表示内容关键字元素;
对所述内容子关键字执行词频-逆文档频率(TF-IDF)分析以移除频繁出现的一个或多个内容子关键字的装置。
12.根据权利要求11所述的对内容进行搜索的装置,还包括:
对所述内容子关键字执行潜在语义分析以识别一个或多个类似内容子关键字的集合的装置;以及
将所述一个或多个类似内容子关键字添加到待分析的所述内容子关键字的列表中的装置。
13.根据权利要求12所述的对内容进行搜索的装置,还包括:针对每一个内容子关键字创建CKE索引表的装置,其中所述CKE索引表包括多个条目,每个条目将内容关键字元素映射到一个或多个内容关键字,其中所述CKE索引表用于基于内容关键字元素来识别内容关键字。
14.根据权利要求10所述的对内容进行搜索的装置,其中基于多个查询关键字(QK)来确定多个查询关键字元素(QKE)的装置包括:
将所述查询关键字分割成多个查询子关键字的列表的装置,每个查询子关键字表示查询关键字元素;
对所述查询子关键字执行词频-逆文档频率(TF-IDF)分析以移除频繁出现的一个或多个查询子关键字的装置。
15.根据权利要求14所述的对内容进行搜索的装置,还包括:
对所述查询子关键字执行潜在语义分析以识别一个或多个类似查询子关键字的集合的装置;以及
将所述一个或多个类似查询子关键字添加到待分析的所述查询子关键字的列表中的装置。
16.根据权利要求15所述的对内容进行搜索的装置,还包括:针对每一个查询子关键字创建QKE索引表的装置,其中所述QKE索引表包括多个条目,每个条目将查询关键字元素映射到一个或多个查询关键字,其中所述QKE索引表用于基于查询关键字元素来识别查询关键字。
17.根据权利要求10所述的对内容进行搜索的装置,其中所述多个搜索查询是在过去的一段时间内从多个客户端接收的用于对内容项目进行搜索的一组已知搜索查询。
18.根据权利要求10所述的对内容进行搜索的装置,还包括:
响应于接收到从客户端接收的第二搜索查询,在查询/CK白名单表中执行查找操作以定位与所述第二搜索查询匹配的第二条目的装置;
基于从所述第二条目获得的一个或多个内容关键字,识别一个或多个内容项目的装置;以及
将所识别的内容项目传输到所述客户端的装置。
19.一种数据处理系统,其包括如权利要求10-18中任一项所述的对内容进行搜索的装置。
CN201611092992.0A 2016-06-13 2016-12-01 用于搜索内容的方法和装置以及数据处理系统 Active CN107491465B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/181,314 US10496686B2 (en) 2016-06-13 2016-06-13 Method and system for searching and identifying content items in response to a search query using a matched keyword whitelist
US15/181,314 2016-06-13

Publications (2)

Publication Number Publication Date
CN107491465A true CN107491465A (zh) 2017-12-19
CN107491465B CN107491465B (zh) 2021-04-27

Family

ID=60572730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611092992.0A Active CN107491465B (zh) 2016-06-13 2016-12-01 用于搜索内容的方法和装置以及数据处理系统

Country Status (2)

Country Link
US (1) US10496686B2 (zh)
CN (1) CN107491465B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647301A (zh) * 2018-05-09 2018-10-12 平安普惠企业管理有限公司 一种用户关系网的创建方法及终端设备
CN111433768A (zh) * 2019-03-07 2020-07-17 北京京东尚科信息技术有限公司 智能引导购物的系统和方法
CN113923209A (zh) * 2021-09-29 2022-01-11 北京轻舟智航科技有限公司 一种基于LevelDB进行批量数据下载的处理方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11487868B2 (en) * 2017-08-01 2022-11-01 Pc Matic, Inc. System, method, and apparatus for computer security
CN107958078A (zh) * 2017-12-13 2018-04-24 北京百度网讯科技有限公司 信息生成方法和装置
CN113342866B (zh) * 2021-06-22 2022-06-21 广州华多网络科技有限公司 关键词更新方法、装置、计算机设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101136018A (zh) * 2006-08-29 2008-03-05 国际商业机器公司 为检索对多个文档进行预处理及呈现检索结果的方法和装置
US20080294607A1 (en) * 2007-05-23 2008-11-27 Ali Partovi System, apparatus, and method to provide targeted content to users of social networks
CN101431573A (zh) * 2007-11-08 2009-05-13 上海赢思软件技术有限公司 通过人机交互技术实现自动客户服务的方法和设备
CN101796515A (zh) * 2007-05-21 2010-08-04 谷歌公司 查询统计提供器
CN102088419A (zh) * 2009-12-07 2011-06-08 倪加元 一种在社交网络中查找好友信息的方法和系统
CN102130933A (zh) * 2010-01-13 2011-07-20 中国移动通信集团公司 一种基于移动互联网的推荐方法、系统和设备
CN102239492A (zh) * 2008-12-04 2011-11-09 微软公司 宽松的过滤设置
CN102340529A (zh) * 2010-07-21 2012-02-01 中国移动通信集团福建有限公司 一种基于wap平台的页面生成系统及页面生成方法
CN102801655A (zh) * 2012-08-20 2012-11-28 上海量明科技发展有限公司 即时通信中获取位置关联数据的方法及系统
CN103106195A (zh) * 2013-01-21 2013-05-15 刘树根 表意构件识别提取和基于表意构件的机译人校互动翻译方法
CN104052734A (zh) * 2013-03-15 2014-09-17 瞻博网络公司 使用全球设备指纹识别的攻击检测和防止

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7124129B2 (en) * 1998-03-03 2006-10-17 A9.Com, Inc. Identifying the items most relevant to a current query based on items selected in connection with similar queries
AU2003220423A1 (en) * 2002-03-22 2003-10-13 Sun Microsystems, Inc. Mobile download system
AU2003297523A1 (en) * 2002-12-24 2004-07-22 American Type Culture Collection Systems and methods for enabling a user to find information of interest to the user
US8090698B2 (en) * 2004-05-07 2012-01-03 Ebay Inc. Method and system to facilitate a search of an information resource
US20060287986A1 (en) * 2005-06-21 2006-12-21 W.W. Grainger, Inc. System and method for facilitating use of a selection guide
US20070136248A1 (en) * 2005-11-30 2007-06-14 Ashantipic Limited Keyword driven search for questions in search targets
US9600568B2 (en) * 2006-01-23 2017-03-21 Veritas Technologies Llc Methods and systems for automatic evaluation of electronic discovery review and productions
US7984500B1 (en) * 2006-10-05 2011-07-19 Amazon Technologies, Inc. Detecting fraudulent activity by analysis of information requests
US8195509B1 (en) * 2007-01-10 2012-06-05 Pankaj Mhatre Merchant and customer interaction system using short message service for customer segmentation
US8285745B2 (en) * 2007-03-01 2012-10-09 Microsoft Corporation User query mining for advertising matching
US9084025B1 (en) * 2007-08-06 2015-07-14 Google Inc. System and method for displaying both multimedia events search results and internet search results
JP4692562B2 (ja) * 2008-03-14 2011-06-01 ブラザー工業株式会社 情報処理装置、及び、コンテンツ管理用プログラム
US8745018B1 (en) * 2008-07-10 2014-06-03 Google Inc. Search application and web browser interaction
EP2172884A1 (en) * 2008-09-25 2010-04-07 Motorola, Inc. Content item review management
US8788514B1 (en) * 2009-10-28 2014-07-22 Google Inc. Triggering music answer boxes relevant to user search queries
US8972431B2 (en) * 2010-05-06 2015-03-03 Salesforce.Com, Inc. Synonym supported searches
US8793120B1 (en) * 2010-10-28 2014-07-29 A9.Com, Inc. Behavior-driven multilingual stemming
CN102591880B (zh) * 2011-01-14 2015-02-18 阿里巴巴集团控股有限公司 信息提供方法及装置
US9613003B1 (en) * 2011-09-23 2017-04-04 Amazon Technologies, Inc. Identifying topics in a digital work
CN103988519B (zh) * 2011-10-14 2018-06-05 谷歌有限责任公司 为媒体浏览器创建封面艺术
US9081832B2 (en) * 2012-04-24 2015-07-14 Google Inc. Providing leaf page sublinks in response to a search query
US9436766B1 (en) * 2012-11-16 2016-09-06 Google Inc. Clustering of documents for providing content
US20140280289A1 (en) * 2013-03-12 2014-09-18 Microsoft Corporation Autosuggestions based on user history
KR102106920B1 (ko) * 2013-11-26 2020-05-06 엘지전자 주식회사 이동 단말기 및 이동 단말기의 제어 방법
KR101834188B1 (ko) * 2013-12-18 2018-03-05 주식회사 케이티 콘텐츠 정보 공유 방법, 컴퓨팅 장치 및 컴퓨터 판독 가능 매체
US20150363473A1 (en) * 2014-06-17 2015-12-17 Microsoft Corporation Direct answer triggering in search
US10546012B2 (en) * 2014-06-27 2020-01-28 Shutterstock, Inc. Synonym expansion
US20160019620A1 (en) * 2014-07-15 2016-01-21 Google Inc. Dynamic image sitelinks
US20160189036A1 (en) * 2014-12-30 2016-06-30 Cirrus Shakeri Computer automated learning management systems and methods
US9984049B2 (en) * 2015-07-14 2018-05-29 Google Llc Systems and methods for providing call context to content providers

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101136018A (zh) * 2006-08-29 2008-03-05 国际商业机器公司 为检索对多个文档进行预处理及呈现检索结果的方法和装置
CN101796515A (zh) * 2007-05-21 2010-08-04 谷歌公司 查询统计提供器
US20080294607A1 (en) * 2007-05-23 2008-11-27 Ali Partovi System, apparatus, and method to provide targeted content to users of social networks
CN101431573A (zh) * 2007-11-08 2009-05-13 上海赢思软件技术有限公司 通过人机交互技术实现自动客户服务的方法和设备
CN102239492A (zh) * 2008-12-04 2011-11-09 微软公司 宽松的过滤设置
CN102088419A (zh) * 2009-12-07 2011-06-08 倪加元 一种在社交网络中查找好友信息的方法和系统
CN102130933A (zh) * 2010-01-13 2011-07-20 中国移动通信集团公司 一种基于移动互联网的推荐方法、系统和设备
CN102340529A (zh) * 2010-07-21 2012-02-01 中国移动通信集团福建有限公司 一种基于wap平台的页面生成系统及页面生成方法
CN102801655A (zh) * 2012-08-20 2012-11-28 上海量明科技发展有限公司 即时通信中获取位置关联数据的方法及系统
CN103106195A (zh) * 2013-01-21 2013-05-15 刘树根 表意构件识别提取和基于表意构件的机译人校互动翻译方法
CN104052734A (zh) * 2013-03-15 2014-09-17 瞻博网络公司 使用全球设备指纹识别的攻击检测和防止

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨希: "基于云计算的垃圾邮件识别方法的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647301A (zh) * 2018-05-09 2018-10-12 平安普惠企业管理有限公司 一种用户关系网的创建方法及终端设备
CN111433768A (zh) * 2019-03-07 2020-07-17 北京京东尚科信息技术有限公司 智能引导购物的系统和方法
CN111433768B (zh) * 2019-03-07 2024-01-16 北京京东尚科信息技术有限公司 智能引导购物的系统和方法
CN113923209A (zh) * 2021-09-29 2022-01-11 北京轻舟智航科技有限公司 一种基于LevelDB进行批量数据下载的处理方法

Also Published As

Publication number Publication date
US10496686B2 (en) 2019-12-03
US20170357712A1 (en) 2017-12-14
CN107491465B (zh) 2021-04-27

Similar Documents

Publication Publication Date Title
CN107480158B (zh) 基于相似性得分评估内容项目与图像的匹配的方法和系统
JP6423845B2 (ja) 検索クエリに応答してコンテンツとマッチングしようとする画像を動的にランキングする方法及びシステム
CN107145496B (zh) 基于关键词将图像与内容项目匹配的方法
CN107103016A (zh) 基于关键词表示使图像与内容匹配的方法
CN107784059B (zh) 用于搜索和选择图像的方法和系统以及机器可读媒体
CN107491465A (zh) 用于搜索内容的方法和装置以及数据处理系统
JP6363682B2 (ja) 画像とコンテンツのメタデータに基づいてコンテンツとマッチングする画像を選択する方法
JP6165955B1 (ja) 検索クエリに応答してホワイトリストとブラックリストを使用し画像とコンテンツをマッチングする方法及びシステム
CN107766399A (zh) 用于使图像与内容项目匹配的方法和系统及机器可读介质
US9864768B2 (en) Surfacing actions from social data
US10275472B2 (en) Method for categorizing images to be associated with content items based on keywords of search queries
CN107273392A (zh) 用于搜索图像的计算机实现方法、装置及数据处理系统
US8799257B1 (en) Searching based on audio and/or visual features of documents
CN107301195A (zh) 生成用于搜索内容的分类模型方法、装置和数据处理系统
CN107273393A (zh) 用于移动设备的图像搜索方法、装置及数据处理系统
CN107766398A (zh) 用于使图像与内容项目匹配的方法、装置和数据处理系统
CN107784061B (zh) 确定基于图像的内容样式的方法和系统及机器可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant