CN108027820A - 用于产生短语黑名单以响应于搜索查询来防止某些内容出现在搜索结果中的方法和系统 - Google Patents

用于产生短语黑名单以响应于搜索查询来防止某些内容出现在搜索结果中的方法和系统 Download PDF

Info

Publication number
CN108027820A
CN108027820A CN201680002745.9A CN201680002745A CN108027820A CN 108027820 A CN108027820 A CN 108027820A CN 201680002745 A CN201680002745 A CN 201680002745A CN 108027820 A CN108027820 A CN 108027820A
Authority
CN
China
Prior art keywords
phrase
search
blacklist
relevant
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201680002745.9A
Other languages
English (en)
Inventor
李栋
马雷
杨光
谢德平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu com Times Technology Beijing Co Ltd
Baidu USA LLC
Original Assignee
Baidu com Times Technology Beijing Co Ltd
Baidu USA LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu com Times Technology Beijing Co Ltd, Baidu USA LLC filed Critical Baidu com Times Technology Beijing Co Ltd
Publication of CN108027820A publication Critical patent/CN108027820A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

根据一个实施方式,具有一个或多个关键字的第一短语被接收以添加到短语黑名单中,其中,所述第一短语已被确定为与不良内容相关。对第一短语的关键字执行分析以识别与第一短语相关的一个或多个相关短语的集合。将第一短语和相关短语的集合添加到短语黑名单中。短语黑名单包括已被确定为与不良内容相关的多个短语。响应于具有与短语黑名单中的至少一个短语匹配的短语的搜索查询,利用短语黑名单来防止内容项目出现在搜索结果中。

Description

用于产生短语黑名单以响应于搜索查询来防止某些内容出现 在搜索结果中的方法和系统
技术领域
本公开的实施方式大体涉及搜索内容。更具体地,本公开的实施方式涉及产生短语黑名单以响应于搜索查询防止某些内容出现在搜索结果中的方法和系统。
背景技术
大多数搜索引擎通常在其操作期间从在客户端装置上运行的浏览器来执行搜索网页。搜索引擎接收由用户输入的搜索词,并检索与所述搜索词相关联的网页搜索结果列表。搜索引擎基于某一标准将搜索结果显示为搜索列表的一系列子集。在搜索操作期间使用的一般标准是搜索词是完整地还是部分地出现在给定网页上、搜索字符串出现在搜索结果中的次数、字母次序等。此外,用户可以通过点击鼠标按钮来决定打开链接以打开并浏览。可由搜索引擎监控和收集用户与搜索结果的一些互动和/或用户信息,以随后提供更好的搜索。
通常,响应于搜索查询,执行搜索以识别和检索内容项目列表。然后,将内容项目传回到搜索请求器。一些内容可能是由不怀好意的内容提供者所提供的恶意或不良的内容。为了防止此类恶意内容成为搜索结果的一部分,可手动地阻止某些搜索查询以检索恶意内容。然而,此类手动过程繁琐且低效。
发明内容
本公开的实施方式提供用于搜索内容的计算机实施方法、非暂时性机器可读媒体和数据处理系统。
在本公开的方面中,用于搜索内容的计算机实施方法包括:接收待添加到短语黑名单的具有一个或多个关键字的第一短语,其中,所述第一短语已被确定为与不良内容相关;对所述第一短语的所述关键字执行分析,以识别与所述第一短语相关的一个或多个相关短语的集合;以及将所述第一短语和所述相关短语的集合包括在所述短语黑名单中,所述短语黑名单包括已被确定为与不良内容相关的多个短语,其中,响应于具有与所述短语黑名单中的至少一个短语匹配的短语的搜索查询,利用所述短语黑名单来防止内容项目出现在搜索结果中。
在本公开的另一个方面中,一种非暂时性机器可读媒体,所述非暂时性机器可读媒体中存储有指令,所述指令在由处理器执行时,使得所述处理器执行操作,所述操作包括:接收待添加到短语黑名单的具有一个或多个关键字的第一短语,其中,所述第一短语已被确定为与不良内容相关;对所述第一短语的所述关键字执行分析,以识别与所述第一短语相关的一个或多个相关短语的集合;以及将所述第一短语和所述相关短语的集合包括在所述短语黑名单中,所述短语黑名单包括已被确定为与不良内容相关的多个短语,其中,响应于具有与所述短语黑名单中的所述短语中的至少一个匹配的短语的搜索查询,利用所述短语黑名单来防止内容项目出现在搜索结果中。
在本公开的又一个方面中,一种数据处理系统,包括:处理器;以及存储器,所述存储器联接至所述处理器、用于存储指令,所述指令在由所述处理器执行时,使得所述处理器执行操作,所述操作包括:接收待添加到短语黑名单的具有一个或多个关键字的第一短语,其中,所述第一短语已被确定为与不良内容相关;对所述第一短语的所述关键字执行分析,以识别与所述第一短语相关的一个或多个相关短语的集合;以及将所述第一短语和所述相关短语的集合包括在所述短语黑名单中,所述短语黑名单包括已被确定为与不良内容相关的多个短语,其中,响应于具有与所述短语黑名单中的至少一个短语匹配的短语的搜索查询,利用所述短语黑名单来防止内容项目出现在搜索结果中。
附图说明
本公开的实施方式在附图的各图中以举例而非限制的方式示出,附图中的相同附图标记表示类似元件。
图1A和图1B是示出根据本公开的一些实施方式的用于使图像与内容项目匹配的系统配置的示例的框图。
图2是示出根据本公开一个实施方式的数据分析系统的示例的框图。
图3是示出根据本公开一个实施方式的产生相关黑名单字的处理流程的图示。
图4是示出根据本公开一个实施方式的产生用于阻止恶意内容的黑名单的过程的流程图。
图5是示出根据本公开一个实施方式的识别用于阻止恶意内容的黑名单的相关字或短语的过程的流程图。
图6是示出根据本公开一个实施方式的使用用于阻止不良内容的黑名单来搜索内容的过程的流程图。
图7是示出根据一个实施方式的数据处理系统的框图。
具体实施方式
以下将参考所讨论的细节来描述本公开的各种实施方式和方面,并且附图将示出所述各种实施方式。以下描述和附图是对本公开的说明,而不应当解释为限制本公开。描述了许多具体细节以便提供对本公开的各种实施方式的全面理解。然而,在某些实例中,并未描述众所周知的或常规的细节以便提供对本公开的实施方式的简洁讨论。
本说明书中对“一个实施方式”或“一实施方式”的提及意味着结合该实施方式所描述的特定特征、结构或特性可以包括在本公开的至少一个实施方式中。在本说明书中各个地方的出现的短语“在一个实施方式中”不必全部是指同一实施方式。
根据一些实施方式,当特定关键字或短语已被确定为与恶意或不良的内容相关时,对所述关键字或短语执行分析以产生与原始关键字或短语类似或相关的一个或多个类似或相关关键字或短语的集合。然后,将原始关键字/短语和相关关键字/短语添加到黑名单。随后,当接收到用于搜索内容的搜索查询时,从所述搜索查询提取一个或多个关键字或短语并将其与黑名单中的关键字/短语相比较。如果与搜索查询相关联的至少一个关键字或短语与黑名单中的至少一个关键字/短语匹配,那么阻止所述搜索查询。否则,在内容数据库中执行搜索,且产生搜索结果并将搜索结果传回到客户端。
在一个实施方式中,当接收到待添加到短语黑名单的具有一个或多个关键字的第一短语时,对第一短语的关键字执行分析以导出与第一短语相关的一个或多个相关短语的集合。第一短语已被确定为与恶意或不良的内容相关。然后,将第一短语和相关短语的集合添加到短语黑名单。短语黑名单包含已被确定为与恶意或不良的内容相关的多个短语。短语黑名单用于响应于具有与短语黑名单中的短语中的至少一者匹配的短语的搜索查询来阻止某些搜索查询,以防止内容项目出现在搜索结果中。
随后,当接收到用于搜索内容的第一搜索查询时,对所述第一搜索查询的关键字执行分析以确定第二短语。基于所述第二短语在短语黑名单中执行查找操作,以确定短语黑名单是否包含所述第二短语。如果第二短语不存在于短语黑名单中,那么在内容数据库中执行搜索以识别一个或多个内容项目的列表。将所述内容项目的至少一部分作为搜索结果的一部分传输到客户端。如果在短语黑名单中找到第二短语,那么阻止第一搜索查询且在内容数据库中不执行搜索。可替代地,可向客户端或管理员发送警告消息。
图1A和图1B是示出根据本公开的一些实施方式的用于使图像与内容项目匹配的系统配置的示例的框图。参考图1A,系统100包括但不限于通过网络103通信地联接到服务器104的一个或多个客户端装置101-102。客户端装置101-102可以是任何类型的客户端装置,诸如个人计算机(例如,台式计算机、膝上型计算机和平板计算机)、“薄”客户端、个人数字助理(PDA)、支持网络的器具、智能手表或移动电话(例如,智能手机)等。网络103可以是任何类型的网络,诸如有线或无线的局域网(LAN)、诸如互联网的广域网(WAN)或其组合。
服务器104可以是任何种类的服务器或服务器集群,诸如网络或云服务器、应用服务器、后端服务器或其组合。在一个实施方式中,服务器104包括但不限于用于搜索存储在内容数据库133中的内容的搜索引擎120、分析模块121和短语黑名单122(也简单地称为黑名单)。待搜索的内容也可以来自应用内的局部模块/数据库、软件捆绑包或符合客户端-服务器/请求-响应关系的任何物。服务器104进一步包括允许客户端(诸如,客户端装置101-102)访问由服务器104提供的资源或服务的接口(未示出)。所述接口可包括网络接口、应用编程接口(API)和/或命令行接口(CLI)。
例如,客户端(在这个示例中为客户端装置101的用户应用(例如,网络浏览器、移动应用))可向服务器104发送搜索查询,且所述搜索查询由搜索引擎120通过网络103经由接口来接收。搜索引擎120响应于搜索查询从搜索查询提取一个或多个关键字(也称为搜索词)。搜索引擎120在内容数据库133中执行搜索以识别与关键字相关的内容项目列表,所述内容数据库133可包括主要内容数据库130和/或辅助内容数据库131。主要内容数据库130(也称为主内容数据库)可以是一般内容数据库,而辅助内容数据库131(也称为二级或附属内容数据库)可以是特殊内容数据库。搜索引擎120向客户端装置101传回搜索结果页面,搜索结果页面具有待在其中呈现的、列表中的至少一些内容项目。搜索引擎120可以是获自百度公司的搜索引擎,或可替代地,搜索引擎120可表示搜索引擎、Microsoft BingTM搜索引擎、搜索引擎或一些其它搜索引擎。在另一个实施方式中,搜索引擎120可以表示任何信息检索机制,且由搜索引擎120执行的搜索也可以是基于文档、声音、图像或视频或内容散列的搜索(在线或离线)。
搜索引擎(诸如,网络搜索引擎)是被设计成在万维网上搜索信息的软件系统。搜索结果通常被呈现在一系列结果(常称为搜索引擎结果页面)中。信息可以是网页、图像和其他类型的文件的混合。一些搜索引擎还挖掘数据库或开放式目录中可用的数据。不同于仅通过人工编辑器来维持的网络目录,搜索引擎还通过在网络爬虫上运行算法来维持实时信息。
网络搜索引擎通过存储与诸多网页有关的信息来运行,它们从页面的超文本标记语言(HTML)标记来检索与诸多网页有关的信息。这些页面通过网络爬虫来检索,所述网络爬虫是遵循网站上的每个链接的自动化网络爬虫。然后,搜索引擎分析每个页面的内容以确定其应如何被索引(例如,可以从标题、页面内容、标头或称为元标签的特殊字段来提取字)。将与网页有关的数据存储在索引数据库中,以供在稍后的查询中使用。索引帮助尽可能快地找到与查询相关的信息。可替代地,搜索索引可以是任何信息(诸如,文档、媒体文件、散列等)的搜索索引,搜索索引通过除网络爬虫之外的方法来建构的,诸如但不限于文件散列索引器。
当用户将查询输入到搜索引擎中时(通常是通过使用关键字),引擎检查其索引并根据其标准提供最匹配网页的列表,通常具有包含文档标题及有时部分文本的简短概述。索引是由与数据一起存储的信息及信息的索引方法建构而成。搜索引擎查找与所输入的完全一致的字或短语。一些搜索引擎提供允许用户定义关键字之间的距离的高级特征(称为接近搜索)。还存在基于概念的搜索,在基于概念的搜索中,所述搜索涉及对包含你所搜索的字或短语的页面使用统计分析。而且,自然语言查询允许用户以与向人询问问题的形式相同的形式来键入问题。
再次参考图1A,根据一个实施方式,响应于在服务器104处从客户端装置(在这个示例中为客户端装置101)接收的搜索查询,搜索引擎120在内容数据库133(诸如,主要内容数据库130和/或辅助内容数据库131)中执行搜索,以产生内容项目列表。所述内容项目中的每个可经由统一资源链接(URL)和/或统一资源标识符(URI)与特定内容提供者的特定网站的特定网页相关联。在一个实施方式中,主要内容数据库130存储已由网络爬虫收集的一般内容项目(例如,非赞助内容)。
互联网爬虫或网络爬虫是自动遍历网络的超文本结构的程序。在实践中,网络爬虫可在独立的计算机或服务器上运行,所述计算机或服务器中的每个配置成执行从URL下载文档的一个或多个进程或线程。网络爬虫接收所指定的URL,并在所述URL处下载文档。网络爬虫还可检索被已检索的文档引用的文档,以由内容处理系统(未示出)和/或搜索引擎120处理。网络爬虫可以使用各种协议来下载与URL相关联的页面,诸如超文本传输协议(HTTP)和文件传送协议(FTP)。
辅助内容数据库131存储与特定、已知或预定的内容提供者相关联的特定或特殊内容项目(例如,赞助的内容)。在一个实施方式中,响应于搜索查询,基于所述搜索查询来确定关键字的第一集合,其中,所述关键字包括搜索查询中所指定的搜索词以及与所述搜索词语义上相关的关键字。然后,将关键字的第一集合和与一个或多个内容提供者(例如,广告商)相关联的关键字(例如,投标字)的一个或多个另外的集合匹配。如果匹配,那么识别并从辅助内容数据库131检索一个或多个对应的内容项目。出于匹配的目的,可存在查询关键字-内容提供者关键字匹配数据结构或表(未示出)。
根据一个实施方式,响应于具有一个或多个关键字的搜索查询,分析模块121对搜索查询的关键字执行分析以导出或确定搜索短语。分析模块121可例如经由潜在语义分析来进一步确定与搜索短语相关的一个或多个相关短语。然后,分析模块121在短语黑名单122中执行查找操作以确定短语黑名单是否包含与搜索查询相关联的短语中的至少一个。如果短语黑名单122包含与搜索查询相关联的短语中的至少一个,那么可阻止所述搜索查询搜索内容数据库133。否则,搜索引擎120在内容数据库133中执行搜索以识别一个或多个内容项目。可将所述内容项目的至少一部分作为搜索结果的一部分传回到客户端。因此,可阻止可能触发恶意、不良或不适当的内容的某些短语,且可防止所述内容出现在搜索结果中。
如上所述,某些恶意内容提供者可置入可通过多种不同渠道或平台获得的恶意内容。响应于某些搜索查询,可检索此类恶意内容并将其传回到客户端。通过将可能潜在地触发恶意内容的某些已知短语及相关短语列入黑名单,将阻止恶意内容被传递到用户。通过将已知短语扩展成多个相关短语,可以自动地或系统性地执行阻止恶意内容的过程,而无繁琐的手动过程。
在一个实施方式中,可选地,可由数据分析系统150的黑名单产生器140来配置和产生短语黑名单122,所述黑名单产生器140可通过网络作为独立服务器操作。该过程可离线执行以产生短语黑名单122,然后,可以将短语黑名单122上传到服务器104以进行在线利用。黑名单产生器140可对从多种数据源(例如,搜索日志、网站、社群、论坛)提供的多种数据执行分析。
在一个实施方式中,可保持短语白名单123以提供短语黑名单122的某些例外。短语白名单123可包括将触发内容搜索的某些短语。例如,可将短语黑名单122看作短语的静态设定,而可将短语白名单123看作短语的动态设定。如果管理员确定短语黑名单122中的特定短语并非真的是与恶意内容相关的短语(例如,从有效内容提供者接收到指令),那么管理员可将所述特定短语添加到短语白名单123,使得所述特定短语将触发内容搜索。
根据另一实施方式,当搜索辅助内容数据库131中的内容时,可利用短语黑名单122和/或白名单123。在主要内容数据库130中的搜索将不受制于短语黑名单122或将不受短语黑名单122的限制。也就是说,响应于搜索查询,将始终在主要内容数据库130中执行搜索以获得主要内容项目(例如,网站的URL)列表。然而,是否将在辅助内容数据库131中执行搜索将取决于短语黑名单122中是否列出与搜索查询相关联的短语。
应注意,已仅出于示例的目的描述了服务器104的配置。服务器104可以是向多种最终用户装置提供前端搜索服务的网络服务器。可替代地,服务器104可以是向前端服务器(例如,网络服务器或一般内容服务器)提供特定或特殊的内容搜索服务的应用服务器或后端服务器。
现参考图1B,在这个实施方式中,可将搜索引擎120A和主要或一般内容数据库130保持在前端服务器104A中,所述前端服务器104A可以是网络服务器。响应于搜索查询,前端服务器104A的搜索引擎120A在一般内容数据库130中进行搜索以基于所述搜索查询的一个或多个关键字来识别内容项目的列表(例如,网页URL的列表)。另外,搜索引擎120A将对于特殊内容项目的请求(连同搜索查询)发送到后端服务器104B。响应于所述请求,服务器104B的搜索引擎120B在特殊内容数据库131中进行搜索以识别一个或多个特殊内容项目(例如,广告)的列表。搜索引擎120B可在内容索引(未示出)中执行查找操作,所述内容索引将一个或多个关键字(例如,投标字)映射到由一个或多个内容提供者(例如,广告商)提供的一个或多个内容项目。在一个实施方式中,服务器104B是广告服务器。
其它架构或配置也可能是可适用的。例如,可将内容数据库130和/或数据库131保持并托管在通过网络作为内容服务器操作的独立服务器中,所述服务器可由与服务器104A或服务器104B的实体或组织相同的实体或组织来组织和提供。可替代地,可由独立的实体或组织(例如,第三方提供者)来维持或托管内容服务器,所述实体或组织负责将内容收集在内容数据库130-131中。
图2是示出根据本公开的一个实施方式的数据分析系统的示例的框图。系统200可实施为图1A至图1B的分析系统150的一部分。参考图2,黑名单产生器140包括但不限于相关字产生器211、数据挖掘模块212、一个或多个网络爬虫213和黑名单编译器214。这些模块可以以软件、硬件或其组合来实施。例如,黑名单产生器140可安装和存储在永久性存储装置202(例如,硬盘)中、加载到存储器201中,并且由一个或多个处理器执行。
在一个实施方式中,响应于已被确定为与恶意或不良的内容相关的短语(例如,经由用户接口205从管理员接收到),相关字产生器211(也称为相关短语产生器)产生与接收到的短语相关的一个或多个相关短语。基于已知的恶意短语,相关字产生器211可在相关字词典204中执行搜索以识别一个或多个相关字或短语的集合。相关字词典204包括索引,所述索引将字或短语映射到一个或多个预定义的相关字或相关短语。
相关字产生器211可调用数据挖掘模块212来对搜索历史(诸如,搜索日志203)执行数据挖掘,以确定相关字或短语的集合。例如,数据挖掘模块212扫描搜索日志203以确定在由已知恶意内容提供者所提供的已知恶意或不良的内容中产生的任何搜索词或短语。此类词或短语可以是待包括在短语黑名单122中的良好候选项。
相关字产生器211可进一步调用一个或多个网络爬虫213来爬取和访问多个网站,特别是提供恶意内容的某些已知网站。网络爬虫213可依据由网站提供的内容针对字或短语(例如,标题、描述)来扫描网站。可将一些字或短语看作黑名单的候选项。网络爬虫213可进一步访问某些在线论坛或社群以检查讨论的内容或帖子的内容。可基于讨论或帖子的内容将一些字或短语看作黑名单候选项。例如,如果一些用户发布抱怨由恶意内容提供者所提供的某些恶意内容的一些消息,那么可将帖子的某些字或短语看作黑名单的候选项。另外,也可访问帖子中所引用的网站以获得额外的字或短语。爬虫213可进一步爬取离线数据库,诸如识别应被列入黑名单的短语的非搜索日志或编码化信息(例如,法律书籍、政府法规)。相关字产生器也可从内联网网站或数据库获得短语,所述内联网网站或数据库包含与属于禁忌或禁止短语或合法性受到质疑的内容的最佳实践或指导方针有关的信息。术语“爬虫”并不限于仅索引网络或数据库内容的软件,而是以程序性和确定性方式来系统性地定位及组织信息的任何一个软件或硬件模块或系统。
根据另一实施方式,相关字产生器211还可例如经由应用编程接口(API)或通过网络使用某些通信协议来与其他系统通信,以获得额外的字或短语。例如,社交媒体网站的管理员可警告由最终用户搜索的某些内容可能是恶意或不适当的内容。如果已采取行动来抵制此类帖子(例如,版主发出通缉令或删除帖子),那么意味着这可能是非法或不适当的主题。可以扫描讨论的内容以获得用于黑名单候选项的某些字或短语。
根据一个实施方式,在确定相关字或短语时,利用计分度量来计算待添加到黑名单的已知字或短语与新近发现的相关字或短语之间的相似性得分。相似性得分表示已知字/短语与相关字/短语之间的相似性或关系的程度。如果相似性得分高于预定阈值,那么将所发现的相关字或短语添加到黑名单。根据又一实施方式,可调节相关字产生器211的某些参数,使得可以调节被认为要列入黑名单的短语的阈值(例如,具有白名单(诸如,白名单123),或允许较不忌讳或半合法对象基于其他度量(诸如,最大化收益、显示的内容等)仍触发对内容项目的搜索)。
根据另一实施方式,可为已在过去执行搜索的每个用户或用户组保持黑名单。可由启动搜索查询的用户装置的装置标识符(ID)以及关于用户的其他识别信息(例如,名称、cookie、位置或网络地址)来表示用户。其背后的基本原理是每个用户可就搜索而表现得不同。可基于与用户相关联的搜索或浏览历史、由用户在社群上提供的帖子或评论等来产生个别黑名单。可以利用个别黑名单来基于每个用户的风险配置文件(诸如,年龄、性别、位置、搜索/浏览历史、社交网络数据、公共可用的政府数据等)来阻止用于每个用户的短语。例如,可以使用个别黑名单来向青少年但不是儿童猥亵犯示出某些内容/广告。黑名单编译器基于由相关字产生器211产生的所有相关字或短语来编译短语黑名单122。
图3是示出根据本公开的一个实施方式的产生相关黑名单字的处理流程的图示。参考图3,响应于待添加到黑名单的关键字301,黑名单产生器140的相关字产生器211执行如上所述的各种操作以获得额外的相关字或短语,包括挖掘搜索日志212、在相关字词典204中进行查找以及爬取网站213。然后,在框302处应用相关字或短语,以在框303处产生到黑名单的多个字。
图4是示出根据本公开的一个实施方式的产生用于阻止恶意内容的黑名单的过程的流程图。过程400可由处理逻辑来执行,所述处理逻辑可包括软件、硬件或其组合。例如,可由图2的黑名单产生器140执行过程400。参照图4,在框401处,处理逻辑接收待添加到黑名单的第一关键字或短语。在框402处,处理逻辑对第一关键字/短语执行分析以产生与第一关键字/短语相关的相关关键字/短语的集合(例如,使用相关字词典、爬取网站、访问社群)。在框403处,将第一关键字/短语和相关关键字/短语添加到黑名单。随后,响应于搜索查询,利用黑名单来防止某些内容出现在搜索结果中。
图5是示出根据本公开的一个实施方式的识别用于阻止恶意内容的黑名单的相关字或短语的过程的流程图。过程500可由处理逻辑来执行,所述处理逻辑可包括软件、硬件或其组合。例如,可由图2的黑名单产生器140执行过程500。可将过程500执行作为在图4的框402处所涉及的操作的一部分。参考图5,在框501处,响应于待添加到关键字/短语黑名单的第一关键字或短语,处理逻辑基于第一关键字/短语对搜索历史或搜索日志执行第一分析以识别与第一关键字/短语相关的一个或多个关键字/短语的第一集合。
在框502处,处理逻辑调用一个或多个网络爬虫来爬取多个网站,以识别与第一关键字/短语相关的一个或多个关键字/短语的第二集合。在框503处,处理逻辑与一个或多个社群通信,以识别与第一关键字/短语相关的一个或多个关键字/短语的第三集合。在框504处,处理逻辑在预定的相关字词典中执行查找操作,以识别与第一关键字/短语相关的一个或多个关键字/短语的第四集合。在框505处,处理逻辑基于关键字/短语的第一集合、第二集合、第三集合和第四集合来编译关键字/短语黑名单。
图6是示出了根据本公开一个实施方式的使用用于阻止不良内容的黑名单来搜索内容的过程的流程图。过程600可由处理逻辑来执行,所述处理逻辑可包括软件、硬件或其组合。例如,可由图1A和图1B的服务器104来执行过程600。参照图6,在框601处,响应于从客户端接收到的用于搜索内容的搜索查询,处理逻辑从所述搜索查询提取一个或多个关键字或短语。在框602处,处理逻辑可例如经由分析(诸如,潜在语义分析)来扩展所述关键字或短语以获得额外的类似或相关关键字或短语。在框603处,处理逻辑在关键字/短语黑名单中进行查找,以确定黑名单是否包括与搜索查询相关联的关键字/短语中的至少一个。如果不是,那么在框604处,处理逻辑基于与搜索查询相关联的关键字在内容数据库中进行搜索,以识别和检索内容项目的列表。在框605处,将所述内容项目的至少一部分作为搜索结果的一部分传回到客户端。
上述技术可应用于搜索或匹配赞助内容。一种类型的赞助内容是广告(Ad)。例如,返回参照图1A到图1B,内容数据库(DB)或服务器130-131可以是Ad数据库或可作为Ad服务器的一部分。内容项目(例如,Ad)中的每个与预定义的关键字、词、短语或句子的列表相关联。这些预定义的关键字、词、短语或句子可以是由广告商所购买、定义或指定的投标字。在另一实施方式中,主要内容DB 130可存储通常在公共网络中可用的一般内容。辅助内容DB131可以是广告DB。服务器104可以是用于搜索内容的网络服务器,或可替代地,服务器104可以是广告服务器。
图7是示出可与本公开的一个实施方式一起使用的数据处理系统的示例的框图。例如,系统1500可表示以上描述的执行上述过程或方法中的任一者的任一数据处理系统,例如上述客户端设备或服务器,例如如上所述的客户端设备101-102、服务器104、内容服务器133、数据分析系统或服务器150。
系统1500可包括许多不同的部件。这些部件可以实施为集成电路(IC)、集成电路的部分、分离的电子设备或被适合于电路板(诸如,计算机系统的主板或插入卡)的其它模块,或者实施为以其它方式并入计算机系统的机箱内的部件。
还应注意,系统1500旨在示出计算机系统的许多部件的高级视图。然而,应当理解的是,某些实现方式中可存在附加的部件,此外,其它实现方式中可出现所示部件的不同布置。系统1500可表示台式计算机、膝上型计算机、平板计算机、服务器、移动电话、媒体播放器、个人数字助理(PDA)、智能手表、个人通信器、游戏设备、网络路由器或集线器、无线接入点(AP)或中继器、机顶盒或其组合。此外,虽然仅示出了单个机器或系统,但是术语“机器”或“系统”还应当被理解为包括单独地或共同地执行一个(或多个)指令集以执行本文所讨论的方法中的任何一种或多种的机器或系统的任何集合。
在一个实施方式中,系统1500包括经由总线或互连件1510连接的处理器1501、存储器1503以及设备1505-1508。处理器1501可表示其中包括单个处理器内核或多个处理器内核的单个处理器或多个处理器。处理器1501可表示一个或多个通用处理器,诸如微处理器、中央处理单元(CPU)等。更具体地,处理器1501可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、或实施其它指令集的处理器、或实施指令集组合的处理器。处理器1501还可以是一个或多个专用处理器,诸如专用集成电路(ASIC)、蜂窝或基带处理器、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、网络处理器、图形处理器、网络处理器、通信处理器、密码处理器、协同处理器、嵌入式处理器或能够处理指令的任何其它类型的逻辑。
处理器1501(其可以是诸如超低电压处理器之类的低功率多核处理器插座)可充当用于与系统的各种部件通信的主处理单元和中央集线器。这种处理器可以实施为片上系统(SoC)。处理器1501配置成执行用于执行本文所讨论的操作和步骤的指令。系统1500还可包括与可选的图形子系统1504通信的图形接口,其中该图形子系统可包括显示控制器、图形处理器和/或显示设备。
处理器1501可以与存储器1503通信,存储器1503在一个实施方式中可以经由多个存储器设备实施以提供给定量的系统存储器。存储器1503可包括一个或多个易失性存储(或存储器)设备,诸如随机存取存储器(RAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、静态RAM(SRAM)或其它类型的存储设备。存储器1503可存储包括由处理器1501或任何其它设备执行的指令序列的信息。例如,多种操作系统、设备驱动器、固件(例如,输入输出基本系统或BIOS)和/或应用程序的可执行代码和/或数据可以加载在存储器1503中并由处理器1501执行。操作系统可以是任何种类的操作系统,例如来自公司的操作系统、来自苹果公司的Mac来自公司的或其它实时或嵌入式操作系统(诸如VxWorks)。
系统1500还可包括IO设备,诸如设备1505-1508,包括网络接口设备1505、可选的输入设备1506以及其它可选的IO设备1507。网络接口设备1505可包括无线收发器和/或网络接口卡(NIC)。无线收发器可以是WiFi收发器、红外收发器、蓝牙收发器、WiMax收发器、无线蜂窝电话收发器、卫星收发器(例如,全球定位系统(GPS)收发器)或其它射频(RF)收发器,或其组合。NIC可以是以太网卡。
输入设备1506可包括鼠标、触摸板、触摸感应屏(其可以与显示设备1504整合在一起)、指示设备(诸如指示笔)和/或键盘(例如,物理键盘或作为触摸感应屏的一部分显示的虚拟键盘)。例如,输入设备1506可包括联接到触摸屏的触摸屏控制器。触摸屏和触摸屏控制器可例如使用多种触摸感应技术(包括但不限于电容、电阻、红外和表面声波技术)中的任一种和用于确定与触摸屏的一个或多个接触点的其它接近传感器阵列或其它元件来检测其触点和移动或间断。
IO设备1507可包括音频设备。音频设备可包括扬声器和/或麦克风,以促进支持语音的功能,诸如语音辨识、语音复制、数字记录和/或电话功能。其它IO设备1507还可包括通用串行总线(USB)端口、并行端口、串行端口、打印机、网络接口、总线桥(例如,PCI-PCI桥)、传感器(例如,运动传感器,诸如加速度计、陀螺仪、磁强计、光传感器、罗盘、接近传感器等)或其组合。设备1507还可包括成像处理子系统(例如,相机),成像处理子系统可包括用来促进相机功能(诸如记录照片和视频片段)的光学传感器,诸如电荷耦合设备(CCD)或互补金属氧化物半导体(CMOS)光学传感器。某些传感器可经由传感器集线器(未示出)联接到互连件1510,而其它设备(诸如,键盘或热传感器)可由嵌入式控制器(未示出)控制,这取决于系统1500的特定配置或设计。
为了提供对信息(诸如,数据、应用、一个或多个操作系统等)的永久性存储,大容量存储设备(未示出)也可联接到处理器1501。在多种实施方式中,为了确保更薄和更轻的系统设计以及改进系统响应能力,这种大容量存储设备可经由固态设备(SSD)实施。然而,在其它实施方式中,大容量存储设备可主要使用具有较小量的SSD存储设备的硬盘驱动器(HDD)来实施,其中较小量的SSD存储设备充当SSD缓存以在断电事件期间确保对上下文状态及其它此类信息的非易失性存储,从而使得在系统活动重新启动时能够实施快速通电。此外,闪存设备可例如经由串行外围接口(SPI)联接到处理器1501。这种闪存设备可提供对系统软件的非易失性存储,其中系统软件包括基本输入/输出软件(BIOS)和系统的其它固件。
存储设备1508可包括计算机可访问的存储介质1509(也被称为机器可读存储介质或计算机可读介质),存储介质上存储有实施本文所描述的方法或功能中的任何一种或多种的一个或多个指令集或软件(例如,模块、单元和/或逻辑1528)。处理模块/单元/逻辑1528可表示上述部件中的任一种,例如例如如上所述的搜索引擎或黑名单产生器。处理模块/单元/逻辑1528还可在其被数据处理系统1500、存储器1503和处理器1501执行期间完全地或至少部分地驻留在存储器1503内和/或处理器1501内,另外构成机器可访问的存储介质。处理模块/单元/逻辑1528还可通过网络经由网络接口设备1505被发射或接收。
计算机可读存储介质1509也可用来永久性地存储以上描述的一些软件功能。虽然计算机可读存储介质1509在示例性实施方式中被示为单个介质,但术语“计算机可读存储介质”应当被认为包括存储一个或多个指令集的单个介质或多个介质(例如,集中式或分布式数据库和/或相关联的缓存和服务器)。术语“计算机可读存储介质”还应当被认为包括能够存储或编码指令集的任何介质,所述指令集用于由机器执行并致使机器执行本公开的任何一种或多种方法。因此,术语“计算机可读存储介质”应当被认为包括但不限于固态存储器以及光学介质和磁性介质或者任何其它非暂时性机器可读介质。
本文中所描述的处理模块/单元/逻辑1528、部件以及其它特征可以实施为分离的硬件部件或整合在硬件部件(诸如ASICS、FPGA、DSP或类似设备)的功能中。另外,处理模块/单元/逻辑1528可以实施为硬件设备内的固件或功能电路。此外,处理模块/单元/逻辑1528可以以硬件设备和软件部件的任何组合实施。
应注意,虽然系统1500被示出为具有数据处理系统的多种部件,但其不旨在表示将部件互连的任何特定的架构或方式;因为此类细节和本公开的实施方式没有密切关系。还应认识到,具有更少部件或可能具有更多部件的网络计算机、手持计算机、移动电话、服务器和/或其它数据处理系统也可与本公开的实施方式一起使用。
前述详细描述中的一些部分已经依据在计算机存储器内对数据位进行操作的算法和符号表示而呈现。这些算法描述和表示是数据处理领域中的技术人员为最有效地将它们的工作实质传达给本领域中的其它技术人员而使用的方法。这里,算法通常被认为是导致所期望结果的自洽的操作序列。这些操作是需要物理量的物理操控的操作。
然而,应当牢记,所有这些和类似的术语均意图与适当的物理量相关联,并且仅仅是应用于这些量的适宜标记。除非在以上讨论中另外明确地清楚说明,否则应当了解,全部本说明书中利用术语(诸如所附权利要求书中所阐述的术语)的讨论是指计算机系统或类似电子计算设备的动作和处理,其中计算机系统或电子计算设备操控计算机系统的寄存器和存储器内的表示为物理(例如,电子)量的数据,并将该数据转换成计算机系统存储器或寄存器或其它此类信息存储器、传输设备或显示设备内的类似地表示为物理量的其它数据。
附图中所示的技术可以使用存储和执行于一个或多个电子设备上的代码及数据来实施。此类电子设备使用计算机可读介质来存储和传送(在内部和/或通过网络与其它电子设备)代码及数据,其中计算机可读介质诸如是非暂时性计算机可读存储介质(例如,磁盘、光盘、随机存取存储器、只读存储器、闪存设备、相变存储器)和暂时性计算机可读传输介质(例如,电子、光学、声学或其它形式的传播信号—诸如载波、红外信号、数字信号)。
前述附图中所描绘的过程或方法可由处理逻辑来执行,其中处理逻辑包括硬件(例如,电路、专用逻辑等)、固件、软件(例如,实施在非暂时性计算机可读介质上)或二者的组合。尽管过程或方法在上文是依据一些顺序操作来描述的,但是应当了解,所描述的操作中的一些可按不同的次序执行。此外,一些操作可并行地而不是顺序地执行。
在以上说明书中,已经参考本公开的特定示例性实施方式对本公开的实施方式进行了描述。将显而易见的是,在不脱离如所附权利要求书中阐述的本公开的更广泛的精神和范围的情况下,可对本公开的实施方式做出多种修改。因此,说明书和附图应当被认为是说明性意义而不是限制性意义。

Claims (21)

1.一种用于搜索内容的计算机实施方法,所述方法包括:
接收待添加到短语黑名单的具有一个或多个关键字的第一短语,其中,所述第一短语已被确定为与不良内容相关;
对所述第一短语的所述关键字执行分析,以识别与所述第一短语相关的一个或多个相关短语的集合;以及
将所述第一短语和所述相关短语的集合包括在所述短语黑名单中,所述短语黑名单包括已被确定为与不良内容相关的多个短语,其中,响应于具有与所述短语黑名单中的至少一个短语匹配的短语的搜索查询,利用所述短语黑名单来防止内容项目出现在搜索结果中。
2.根据权利要求1所述的方法,进一步包括:
响应于来自客户端的第一搜索查询,对所述第一搜索查询执行分析以导出第二短语;
在所述短语黑名单中执行查找操作,以确定所述短语黑名单是否包括所述第二短语;
响应于确定所述短语黑名单不包括所述第二短语,基于与所述第一搜索查询相关联的一个或多个关键字在内容数据库中进行搜索以识别一个或多个内容项目的列表;以及
将具有所述内容项目的至少一部分的搜索结果传输到所述客户端。
3.根据权利要求2所述的方法,进一步包括:响应于确定所述短语黑名单包括所述第二短语,忽略所述第一搜索查询,不在所述内容数据库中进行搜索。
4.根据权利要求1所述的方法,其中,对所述第一短语的所述关键字执行分析包括:基于与所述第一短语相关联的一个或多个关键字对搜索日志执行分析以识别与所述第一短语相关的一个或多个短语的第一集合,其中,所述搜索日志记录在一段时间内捕获到的搜索事件的历史。
5.根据权利要求1所述的方法,其中,对所述第一短语的所述关键字执行分析包括:基于与所述第一短语相关联的一个或多个关键字来爬取多个网站或数据库,以识别与所述第一短语相关的一个或多个短语的第二集合。
6.根据权利要求1所述的方法,其中,对所述第一短语的所述关键字执行分析包括:与多个社群通信,以基于与所述第一短语相关联的一个或多个关键字来识别与所述第一短语相关的一个或多个短语的第三集合。
7.根据权利要求1所述的方法,其中,对所述第一短语的所述关键字执行分析包括:基于与所述第一短语相关联的一个或多个关键字在相关字词典中执行查找操作,以识别与所述第一短语相关的一个或多个短语的第四集合,并且其中,所述相关字词典包括将一个或多个关键字映射到一个或多个相关关键字的映射信息。
8.一种非暂时性机器可读媒体,所述非暂时性机器可读媒体中存储有指令,所述指令在由处理器执行时,使得所述处理器执行操作,所述操作包括:
接收待添加到短语黑名单的具有一个或多个关键字的第一短语,其中,所述第一短语已被确定为与不良内容相关;
对所述第一短语的所述关键字执行分析,以识别与所述第一短语相关的一个或多个相关短语的集合;以及
将所述第一短语和所述相关短语的集合包括在所述短语黑名单中,所述短语黑名单包括已被确定为与不良内容相关的多个短语,其中,响应于具有与所述短语黑名单中的至少一个短语匹配的短语的搜索查询,利用所述短语黑名单来防止内容项目出现在搜索结果中。
9.根据权利要求8所述的机器可读媒体,其中,所述操作进一步包括:
响应于来自客户端的第一搜索查询,对所述第一搜索查询执行分析以导出第二短语;
在所述短语黑名单中执行查找操作,以确定所述短语黑名单是否包括所述第二短语;
响应于确定所述短语黑名单不包括所述第二短语,基于与所述第一搜索查询相关联的一个或多个关键字在内容数据库中进行搜索以识别一个或多个内容项目的列表;以及
将具有所述内容项目的至少一部分的搜索结果传输到所述客户端。
10.根据权利要求9所述的机器可读媒体,其中,所述操作进一步包括:响应于确定所述短语黑名单包括所述第二短语,忽略所述第一搜索查询而不在所述内容数据库中进行搜索。
11.根据权利要求8所述的机器可读媒体,其中,对所述第一短语的所述关键字执行分析包括:基于与所述第一短语相关联的一个或多个关键字对搜索日志执行分析以识别与所述第一短语相关的一个或多个短语的第一集合,其中,所述搜索日志记录在一段时间内捕获到的搜索事件的历史。
12.根据权利要求8所述的机器可读媒体,其中,对所述第一短语的所述关键字执行分析包括:基于与所述第一短语相关联的一个或多个关键字来爬取多个网站或数据库,以识别与所述第一短语相关的一个或多个短语的第二集合。
13.根据权利要求8所述的机器可读媒体,其中,对所述第一短语的所述关键字执行分析包括:与多个社群通信,以基于与所述第一短语相关联的一个或多个关键字来识别与所述第一短语相关的一个或多个短语的第三集合。
14.根据权利要求8所述的机器可读媒体,其中,对所述第一短语的所述关键字执行分析包括:基于与所述第一短语相关联的一个或多个关键字在相关字词典中执行查找操作,以识别与所述第一短语相关的一个或多个短语的第四集合,并且其中,所述相关字词典包括将一个或多个关键字映射到一个或多个相关关键字的映射信息。
15.一种数据处理系统,包括:
处理器;以及
存储器,所述存储器联接至所述处理器、用于存储指令,所述指令在由所述处理器执行时,使得所述处理器执行操作,所述操作包括:
接收待添加到短语黑名单的具有一个或多个关键字的第一短语,其中,所述第一短语已被确定为与不良内容相关;
对所述第一短语的所述关键字执行分析,以识别与所述第一短语相关的一个或多个相关短语的集合;以及
将所述第一短语和所述相关短语的集合包括在所述短语黑名单中,所述短语黑名单包括已被确定为与不良内容相关的多个短语,其中,响应于具有与所述短语黑名单中的至少一个短语匹配的短语的搜索查询,利用所述短语黑名单来防止内容项目出现在搜索结果中。
16.根据权利要求15所述的系统,其中,所述操作进一步包括:
响应于来自客户端的第一搜索查询,对所述第一搜索查询执行分析以导出第二短语;
在所述短语黑名单中执行查找操作,以确定所述短语黑名单是否包括所述第二短语;
响应于确定所述短语黑名单不包括所述第二短语,基于与所述第一搜索查询相关联的一个或多个关键字在内容数据库中进行搜索以识别一个或多个内容项目的列表;以及
将具有所述内容项目的至少一部分的搜索结果传输到所述客户端。
17.根据权利要求16所述的系统,其中,所述操作进一步包括:响应于确定所述短语黑名单包括所述第二短语,忽略所述第一搜索查询而不在所述内容数据库中进行搜索。
18.根据权利要求15所述的系统,其中,对所述第一短语的所述关键字执行分析包括:基于与所述第一短语相关联的一个或多个关键字对搜索日志执行分析以识别与所述第一短语相关的一个或多个短语的第一集合,其中,所述搜索日志记录在一段时间内捕获到的搜索事件的历史。
19.根据权利要求15所述的系统,其中,对所述第一短语的所述关键字执行分析包括:基于与所述第一短语相关联的一个或多个关键字来爬取多个网站或数据库,以识别与所述第一短语相关的一个或多个短语的第二集合。
20.根据权利要求15所述的系统,其中,对所述第一短语的所述关键字执行分析包括:与多个社群通信,以基于与所述第一短语相关联的一个或多个关键字来识别与所述第一短语相关的一个或多个短语的第三集合。
21.根据权利要求15所述的系统,其中,对所述第一短语的所述关键字执行分析包括:基于与所述第一短语相关联的一个或多个关键字在相关字词典中执行查找操作,以识别与所述第一短语相关的一个或多个短语的第四集合,并且其中,所述相关字词典包括将一个或多个关键字映射到一个或多个相关关键字的映射信息。
CN201680002745.9A 2016-09-02 2016-09-02 用于产生短语黑名单以响应于搜索查询来防止某些内容出现在搜索结果中的方法和系统 Pending CN108027820A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2016/097880 WO2018040062A1 (en) 2016-09-02 2016-09-02 Method and system for generating phrase blacklist to prevent certain content from appearing in search result in response to search queries

Publications (1)

Publication Number Publication Date
CN108027820A true CN108027820A (zh) 2018-05-11

Family

ID=61300090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680002745.9A Pending CN108027820A (zh) 2016-09-02 2016-09-02 用于产生短语黑名单以响应于搜索查询来防止某些内容出现在搜索结果中的方法和系统

Country Status (3)

Country Link
US (1) US11604843B2 (zh)
CN (1) CN108027820A (zh)
WO (1) WO2018040062A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112912873A (zh) * 2018-10-15 2021-06-04 微软技术许可有限责任公司 动态地抑制搜索中的查询答复

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6611091B2 (ja) * 2017-05-11 2019-11-27 株式会社村田製作所 情報処理システム、情報処理装置、コンピュータプログラム、及び辞書データベースの更新方法
US10810998B2 (en) * 2018-09-28 2020-10-20 International Business Machines Corporation Custom temporal blacklisting of commands from a listening device
US11165779B2 (en) * 2018-11-29 2021-11-02 International Business Machines Corporation Generating a custom blacklist for a listening device based on usage
US11588844B1 (en) * 2019-06-27 2023-02-21 Rapid7, Inc. Distributing search loads to optimize security event processing
US11562144B2 (en) * 2020-03-16 2023-01-24 Robert Bosch Gmbh Generative text summarization system and method
CN111639099A (zh) * 2020-06-09 2020-09-08 武汉虹旭信息技术有限责任公司 全文索引方法及系统
CN116367101B (zh) * 2023-06-01 2023-08-01 北京容大友信科技有限公司 用户权限管理方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090063452A1 (en) * 2007-08-29 2009-03-05 Google Inc. Search filtering
CN102855320A (zh) * 2012-09-04 2013-01-02 珠海市君天电子科技有限公司 一种利用搜索引擎对关键词相关url的收集方法和装置
CN103092956A (zh) * 2013-01-17 2013-05-08 上海交通大学 社交网络平台上话题关键词自适应扩充的方法及系统
CN103324722A (zh) * 2013-06-27 2013-09-25 苏州创智宏云信息科技有限公司 一种信息搜索系统
US20160092557A1 (en) * 2014-09-26 2016-03-31 Oracle International Corporation Techniques for similarity analysis and data enrichment using knowledge sources
US9356919B1 (en) * 2013-06-26 2016-05-31 Emc Corporation Automated discovery of knowledge-based authentication components
US20160253428A1 (en) * 2015-02-27 2016-09-01 Russell Hasan Searching user-created finite keyword profiles based on one keyword and metadata filters and randomness

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6470307B1 (en) * 1997-06-23 2002-10-22 National Research Council Of Canada Method and apparatus for automatically identifying keywords within a document
JP2882401B2 (ja) * 1997-08-27 1999-04-12 日本電気株式会社 音声蓄積装置、音声蓄積方法および音声蓄積プログラムを記録した記録媒体
US7293017B2 (en) * 2004-07-01 2007-11-06 Microsoft Corporation Presentation-level content filtering for a search result
US10534820B2 (en) * 2006-01-27 2020-01-14 Richard A. Heggem Enhanced buyer-oriented search results
US8255376B2 (en) * 2006-04-19 2012-08-28 Google Inc. Augmenting queries with synonyms from synonyms map
US8266145B2 (en) * 2007-03-16 2012-09-11 1759304 Ontario Inc. Contextual data mapping, searching and retrieval
US20090164919A1 (en) * 2007-12-24 2009-06-25 Cary Lee Bates Generating data for managing encounters in a virtual world environment
US20090204677A1 (en) * 2008-02-11 2009-08-13 Avaya Technology Llc Context based filter method and apparatus
US8990106B2 (en) * 2008-08-22 2015-03-24 Realwire Limited Information categorisation systems, modules, and methods
CN201550138U (zh) * 2009-09-10 2010-08-11 北京盛景无限文化传媒有限公司 提供移动流媒体服务的系统
US8332232B2 (en) * 2009-11-05 2012-12-11 Opinionlab, Inc. System and method for mobile interaction
US20130304818A1 (en) * 2009-12-01 2013-11-14 Topsy Labs, Inc. Systems and methods for discovery of related terms for social media content collection over social networks
US9195777B2 (en) * 2012-03-07 2015-11-24 Avira B.V. System, method and computer program product for normalizing data obtained from a plurality of social networks
US9600473B2 (en) * 2013-02-08 2017-03-21 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US20140258002A1 (en) * 2013-03-11 2014-09-11 DataPop, Inc. Semantic model based targeted search advertising
US9705966B1 (en) * 2013-09-30 2017-07-11 Amazon Technologies, Inc. Story development and sharing architecture
CN104580093B (zh) * 2013-10-21 2019-09-20 腾讯科技(深圳)有限公司 网站通知消息的处理方法、装置及系统
US9710449B2 (en) * 2014-06-20 2017-07-18 Adobe Systems Incorporated Targeted social campaigning based on user sentiment on competitors' webpages
CA2959835A1 (en) * 2014-09-02 2016-03-10 Feelter Sales Tools Ltd Sentiment rating system and method
US20160088063A1 (en) * 2014-09-19 2016-03-24 V Proud Llc Interactive Social Platform
US9727906B1 (en) * 2014-12-15 2017-08-08 Amazon Technologies, Inc. Generating item clusters based on aggregated search history data
US20160203238A1 (en) * 2015-01-09 2016-07-14 Facebook, Inc. Suggested Keywords for Searching News-Related Content on Online Social Networks
WO2016118519A1 (en) * 2015-01-19 2016-07-28 Berman Matthew System and methods for facile, instant, and minimally disruptive playback of media files
US20170046719A1 (en) * 2015-08-12 2017-02-16 Sugarcrm Inc. Social media mood processing for customer relationship management (crm)
US9720901B2 (en) * 2015-11-19 2017-08-01 King Abdulaziz City For Science And Technology Automated text-evaluation of user generated text
US10628798B2 (en) * 2016-02-22 2020-04-21 Covve Visual Network Ltd. System and method for private contact sharing
US10440025B2 (en) * 2016-06-07 2019-10-08 Gryphon Online Safety, Inc Remotely controlling access to online content
US9645998B1 (en) * 2016-06-12 2017-05-09 Apple Inc. Learning new words
US9961115B2 (en) * 2016-09-16 2018-05-01 International Buisness Machines Corporation Cloud-based analytics to mitigate abuse from internet trolls

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090063452A1 (en) * 2007-08-29 2009-03-05 Google Inc. Search filtering
CN101836208A (zh) * 2007-08-29 2010-09-15 谷歌公司 搜索过滤
CN102855320A (zh) * 2012-09-04 2013-01-02 珠海市君天电子科技有限公司 一种利用搜索引擎对关键词相关url的收集方法和装置
CN103092956A (zh) * 2013-01-17 2013-05-08 上海交通大学 社交网络平台上话题关键词自适应扩充的方法及系统
US9356919B1 (en) * 2013-06-26 2016-05-31 Emc Corporation Automated discovery of knowledge-based authentication components
CN103324722A (zh) * 2013-06-27 2013-09-25 苏州创智宏云信息科技有限公司 一种信息搜索系统
US20160092557A1 (en) * 2014-09-26 2016-03-31 Oracle International Corporation Techniques for similarity analysis and data enrichment using knowledge sources
US20160253428A1 (en) * 2015-02-27 2016-09-01 Russell Hasan Searching user-created finite keyword profiles based on one keyword and metadata filters and randomness

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112912873A (zh) * 2018-10-15 2021-06-04 微软技术许可有限责任公司 动态地抑制搜索中的查询答复

Also Published As

Publication number Publication date
US20180218079A1 (en) 2018-08-02
US11604843B2 (en) 2023-03-14
WO2018040062A1 (en) 2018-03-08

Similar Documents

Publication Publication Date Title
CN108027820A (zh) 用于产生短语黑名单以响应于搜索查询来防止某些内容出现在搜索结果中的方法和系统
US11256739B2 (en) Data access based on con lent of image recorded by a mobile device
CN109479061B (zh) 遵从性违反检测
US8396876B2 (en) Identifying reliable and authoritative sources of multimedia content
US10798193B2 (en) System and method for automatic storyline construction based on determined breaking news
CN107480158A (zh) 基于相似性得分评估内容项目与图像的匹配的方法和系统
US9805022B2 (en) Generation of topic-based language models for an app search engine
US20150019586A1 (en) System and method for sharing tagged multimedia content elements
CN107103016A (zh) 基于关键词表示使图像与内容匹配的方法
CN107784059A (zh) 用于搜索和选择图像的方法和系统以及机器可读媒体
CN107145496A (zh) 基于关键词将图像与内容项目匹配的方法
CN107766399A (zh) 用于使图像与内容项目匹配的方法和系统及机器可读介质
CN107463591A (zh) 响应于搜索查询对待与内容匹配的图像动态排序的方法和系统
CN104090929A (zh) 一种个性化图片推荐方法及装置
CN107463592B (zh) 用于将内容项目与图像匹配的方法、设备和数据处理系统
WO2017121076A1 (zh) 信息推送方法和装置
US11263664B2 (en) Computerized system and method for augmenting search terms for increased efficiency and effectiveness in identifying content
CN107491465B (zh) 用于搜索内容的方法和装置以及数据处理系统
US20140040232A1 (en) System and method for tagging multimedia content elements
US9424364B2 (en) Integrated context-driven information search and interaction
WO2016173185A1 (zh) 信息推送方法和装置
CN107273393A (zh) 用于移动设备的图像搜索方法、装置及数据处理系统
US20160012130A1 (en) Aiding composition of themed articles about popular and novel topics and offering users a navigable experience of associated content
Wang et al. Game of Missuggestions: Semantic Analysis of Search-Autocomplete Manipulations.
Liu et al. Multi-scale semantic deep fusion models for phishing website detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination