CN107408115B - web站点过滤器、控制对内容的访问的方法和介质 - Google Patents

web站点过滤器、控制对内容的访问的方法和介质 Download PDF

Info

Publication number
CN107408115B
CN107408115B CN201580072844.XA CN201580072844A CN107408115B CN 107408115 B CN107408115 B CN 107408115B CN 201580072844 A CN201580072844 A CN 201580072844A CN 107408115 B CN107408115 B CN 107408115B
Authority
CN
China
Prior art keywords
addresses
content
similarity
address
accessed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580072844.XA
Other languages
English (en)
Other versions
CN107408115A (zh
Inventor
P·科利
Y·巴克拉克
F·拉德林斯基
U·帕克特
邱利权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN107408115A publication Critical patent/CN107408115A/zh
Application granted granted Critical
Publication of CN107408115B publication Critical patent/CN107408115B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • H04L63/102Entity profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • H04L63/101Access control lists [ACL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2137Time limited access, e.g. to a computer or data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2149Restricted operating environment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

描述了一种控制对内联网或互联网上的诸如web站点的内容的访问的方法。例如,该方法包括接收要访问的内容的地址,并且获取该地址与其他内容项的先前标记的地址的相似度。相似度基于来自很多同意用户的浏览会话的记录中的内容项的地址的共现。例如,浏览会话记录包括由用户在用户主动访问内容的时间段中访问的内容项的地址。内容项地址的共现是地址在相同浏览会话记录中的存在。然后基于相似度来控制对内容的访问。

Description

web站点过滤器、控制对内容的访问的方法和介质
背景技术
本公开的实施例总体上涉及网络管理,并且更具体地,涉及web站点访问控制。
背景技术
用于控制对万维网的部分的访问的一个大问题是web地址的数目是巨大的,并且地址的所有权和内容随时间而变化。
用于web访问控制的先前的方法使用手动组成的白名单和黑名单,其可以由很多用户协作维护。白名单和黑名单依赖于人类手动输入以用于更新,并且本质上是二进制的。例如,如果列表关于具有暴力内容的站点,则它们不包含关于任何其他类型站点的信息。如果管理者希望在工作时间内阻止员工访问新闻站点,则如果没有这样的站点列表,则这无法完成。这意味着管理者、家长或其他试图控制互联网访问的人员必须将他们的要求定制为可用的列表,而不是相反。
下面描述的实施例不限于解决已知的web站点访问控制系统的任何或所有缺点的实现。
发明内容
以下呈现本公开的简化概述,以便向读者提供基本理解。该概述不是对本公开的广泛概括,并且它不标识关键/重要的要素或界定说明书的范围。其唯一目的是以简化的形式呈现本文中公开的概念的选择,作为稍后呈现的更详细描述的前序。
描述了一种控制对内联网或互联网上的诸如wen站点的内容的访问的方法。例如,该方法包括接收要访问的内容的地址,并且获取该地址与其他内容项的先前标记的地址的相似度。相似度基于来自很多同意用户的浏览会话的记录中的内容项的地址的共现。例如,浏览会话记录包括由用户在用户主动访问内容的时间段中访问的内容项的地址。内容项地址的共现是地址在相同浏览会话记录中的存在。然后基于相似度来控制对内容的访问。
可以更容易地理解很多伴随的特征,因为其通过参考结合附图考虑的以下详细描述变得更好理解。
附图说明
从下面根据附图阅读的详细说明将更好地理解本描述,在附图中:
图1是使用会话共现数据的web站点过滤器的示意图;
图2是用于以管理模式访问内容的移动通信设备的示意图;
图3是包括手动规定的黑名单项和自动确定的黑名单项的web站点的黑名单的图形用户界面的示意图;
图4是图1的web站点过滤器处的方法的流程图;
图5是图4的方法的部分的示例的更详细的流程图;
图6示出了可以实现web站点过滤器的实施例的示例性的基于计算的设备。
在附图中相同的附图标记用于指定相同的部件。
具体实施方式
以下结合附图提供的详细描述旨在作为本实施例的描述,而非旨在表示可以构造或利用本实施例的唯一形式。该描述阐述了示例的功能以及用于构建和操作示例的步骤的序列。然而,相同或相当的功能和序列可以通过不同的示例来实现。
在各种示例中,提供了改进的web站点过滤器,其自动地确定是否允许、阻止或推荐阻止在给定地址处的内容。这通过使用内容的地址之间的相似度的度量来实现,相似度的度量基于大规模浏览会话共现数据。从用户输入或其他来源可以知道要阻止的内容的一个或多个地址。使用基于共现数据的相似度的度量来计算其他地址与被阻止的地址的相似度。然后,相似度数据用于控制对内容的访问,而不需要手动输入。以这种方式,实现了个性化web站点访问控制,而不需要手动编译个性化黑名单。此外,web站点访问控制是动态的,并且在万维网出现变化时和/或随着终端用户内容控制标准的变化而随时间改变。以这种方式,实现了对内容的访问的自动控制,而不需要分析内容本身。例如,不需要下载内容并且执行文本分析或者在语义上对内容进行分类。
图1是使用会话共现数据102的web站点过滤器100的示意图。web站点过滤器100使用软件和/或硬件来计算机实现,并且在一些示例中位于终端用户设备处,诸如个人计算机106、移动电话108、可穿戴计算设备110或其他终端用户设备。在一些示例中,web站点过滤器是终端用户设备的操作系统的一部分。web站点过滤器100可以位于任何网络节点处,该任何网络节点位于终端用户设备和内容提供商节点处或在终端用户设备和内容提供商节点之间。内容提供商节点是通信网络104中终端用户设备能够从其访问内容的任何内容储存库。例如,内容提供商节点可以是web服务器、另一终端用户设备或任何其他内容提供商节点。web站点过滤器功能也可以分布在位于终端用户设备和内容提供商节点处或者位于终端用户设备和内容提供商节点之间的多个实体之间。
web站点过滤器100具有对存储在网络104中的一个或多个位置处的会话共现数据102的访问。会话共现数据从很多同意用户的浏览会话记录来计算。例如,来自已经同意其浏览会话被记录并且用于web站点过滤的几十万不同用户的数百万的浏览会话记录。以使记录匿名化的方式记录浏览会话记录,使得个体用户从浏览会话记录中不可标识。浏览会话记录包括由用户在用户主动访问内容的时间段内访问的内容项的地址。例如,由相同设备(诸如终端用户设备或无线接入点、或者网络104的其他节点)访问的内容项的地址,或者由与单个用户相关联的多个设备访问的内容项的地址,其中内容访问事件之间的时间长度低于阈值。相同浏览会话记录中的地址被称为共现。
可以以各种方式从浏览会话记录来计算会话共现数据。例如,通过创建矩阵,该矩阵具有针对在浏览会话记录中观察到的每个地址的行以及针对在浏览会话记录中观察到的每个地址的列。矩阵中的条目填充有表示根据行和列规定的地址的对的共现频率的数值。频率值可以除以浏览会话记录中个体地观察到该对的地址的总次数。
在另一示例中,通过计算针对每个地址的多维特征向量并且计算特征向量的对之间的相似度来计算会话共现数据。可以使用其他计算会话共现数据的方式。
web站点过滤器被配置为接收要访问的内容的地址。例如,web站点过滤器可以是终端用户设备处的操作系统的一部分,并且可以被配置为拦截从终端用户设备发出的web页面请求。web站点过滤器可以是防火墙的一部分,其拦截来自局域网、内联网、企业网络或其他受管理的网络上的多个计算设备的web页面请求。在一些示例中,web站点过滤器作为发送地址的结果而接收要访问的内容的地址。例如,web站点过滤器被提供作为云服务,或者作为终端用户设备与要访问的内容之间的代理节点。
web站点过滤器被布置为计算所接收的地址与其他内容项的先前标记的地址的相似度。该相似度至少基于来自很多同意用户的浏览会话的记录中的内容项的地址的共现。例如,浏览会话记录包括由用户在用户主动访问内容的时间段中访问的内容项的地址。内容项的地址的共现是地址在相同浏览会话记录中的存在。然后基于相似度来控制对内容的访问。例如,通过自动阻止内容,通过触发警告作为访问内容的过程的一部分,或者以其他方式。除了会话共现数据之外,相似度可以基于其他因素。例如,站点的内容、站点地址的语义相似度、或其他因素。
如上所述,web站点过滤器可以具有对一个或多个先前标记的地址的访问。这些包括要被阻止的内容的地址的一个或多个示例。例如,这些地址由用户规定,并且可以由用户随时间添加和/或改变。web站点过滤器可选地具有对不会被阻止的内容的地址的一个或多个示例的访问。
如上所述,相似度的度量基于会话共现数据102。关于可以使用的相似度的度量的示例的更多细节在本文档中稍后给出。
图2是由家长或管理员以管理或设置模式使用的移动通信设备200的示意图。在此模式期间,家长或管理员能够给出要被阻止或允许的站点的示例。例如,家长或管理员操作设备200以访问具有地址202的内容,该地址在本示例中被示出为在web浏览器图形用户界面的浏览栏中。在该示例中,web站点过滤器已经使用基于会话共现数据的相似度的度量计算了地址202与先前标记的web站点地址之间的相似度。相似度足以指示应该阻止内容,因此web站点过滤器在web浏览器图形用户界面处触发警告204。警告询问用户是否“阻止像这样的东西?”,并且家长或管理员能够输入指示“是”或“否”的输入。web站点过滤器接收输入并且将地址和标记(即是/否)添加到先前标记的地址的记录。如果家长或管理员输入指示“是”的输入,则web站点过滤器阻止地址202处的内容。否则,内容被访问并且显示在web浏览器图形用户界面中。
图3是web站点过滤器的图形用户界面的示意图,其示出了要被阻止的内容的地址302的黑名单300或者用于阻止的候选者306的一部分。web站点过滤器可以使用黑名单(并且可选地,白名单)用于控制对内容的访问。黑名单包括指示用户是否已经确认黑名单中的条目确实应当被阻止的数据(例如,如304所示,这用被标记为“已确认”的列中的刻度标记来指示)。黑名单包括由web站点过滤器自动计算为与被确认为要阻止的地址具有高的相似度的地址。
图4是图1的web站点过滤器处的方法的流程图。访问400会话共现数据,诸如上述的会话共现数据102。可选地预处理会话共现数据,例如以去除重复,并且以参考图5更详细地描述的其他方式。
会话共现数据用于计算404相似度的度量。也就是说,在会话共现数据中的地址之间计算内容的地址之间的相似度的度量。本文中也称为距离的相似度的度量基于如参考图5更详细地描述的会话共现。步骤404的计算结果使得能够标识类似的站点,因为假设在单个会话中用户访问相关的相似内容。
可选地,将步骤404的计算结果映射到二维,使得能够通过web站点过滤器来绘制类似于2D地理图的图形显示。倾向于在浏览会话中共现的地址在绘制的地图中显得更加接近。以这种方式,家长或管理员能够查看他们可能想要考虑阻止或解除阻止的站点。2D显示是用于家长和/或管理员查看当前被阻止的内容的可视化的示例。
web站点过滤器标识406已知的黑名单站点的一个或多个地址。例如,黑名单站点中的一个或多个黑名单站由web站点过滤器的制造商预先配置。在示例中,黑名单站点中的一个或多个黑名单站点由用户输入,使得它们是个体用户定制的。不同用户的黑名单408的储存库可以被保存在网络104处并且对web站点过滤器可访问。可选地,web站点过滤器406以与上述针对黑名单站点相同的方式来标识已知的白名单站点的一个或多个地址。白名单也可以是个体用户定制的。
web站点过滤器计算已知的黑名单站点地址与地图中的其他站点地址之间的距离410。使用基于会话共现的距离度量(以上也称为相似度度量)来计算距离。取决于站点地址与已知的黑名单站点地址的相似/接近程度,它被标识为要被阻止,或者要使警告被触发,或者要被允许414。可选地,使用是否阻止/警告/允许地址处的内容的判决结果来更新416储存库中的黑名单408和白名单。
当web站点过滤器接收到针对要访问的站点412的请求时,其计算所请求的站点的地址与相关联的用户的已知黑名单站点之间的距离。例如,web站点过滤器接收要访问的内容的地址以及请求对内容的访问的终端用户设备的标识符。web站点过滤器查找与终端用户设备的用户相关联的数据。例如,用户先前标记为黑名单或白名单的站点的地址。已知的黑名单站点地址与所请求的站点之间的距离被计算,并且被用于控制对站点的访问。以这种方式,过滤可以是个体用户定制的,因为web站点过滤器可以使用相关个体的先前标记的站点。然而,过滤并非必须是个体用户定制的。例如,web站点过滤器可以使用与用户组(诸如企业或其他用户组)相关联的数据。
在白名单站点已知情况下,在步骤410还使用白名单站点地址来计算已知的白名单站点与其他站点/所请求的站点的地址之间的距离。步骤414的判决点将到白名单站点地址的这些距离考虑在内。
web站点过滤器可以重复计算相似度度量的步骤404。这包括重复地访问浏览会话的记录,使得将浏览会话的记录的随时间的变化考虑在内。
web站点过滤器可以重复步骤410,使得可以将先前标记的地址的随时间的变化考虑在内。
图5是图4的方法的多个部分的示例的更详细的流程图。
预处理步骤402可以包括选择502在会话共现数据102中观察到的频繁地址。地址可以是URL(统一资源定位符)或终端用户设备通过计算网络可访问的内容的任何其他地址。通过选择最频繁的地址,可以将计算需求与web站点过滤器的性能进行折衷。发现通过选择一万个或更多的最频繁的地址,可以实现良好的性能。然而,可以使用其他数目的最频繁的地址。
预处理步骤402可以包括合并504相似的地址。例如,通过合并具有相同前缀的地址,诸如相同的头部URL。这使得能够考虑关于相同web站点的数据,而不是与该web站点相关的每个单独的地址。此外,通过对URL分组,web站点过滤器能够阻止或允许多个组的URL,而不是个体URL。
在示例中,合并具有相同前缀的地址包括取个体URL并且通过点字符“.”来分解URL的字符串,并且从后面开始,连续地重新连接分解的字符串,直到没有从预先配置的后缀列表可识别的后缀。然后将URL映射到使字符串不属于任何后缀的第一部分。例如,www.enterprise.com将会被分解成[www,enterprise,com]。“.com”会匹配后缀,但是“enterprise.com”不会。因此,该过程将根URL www.enterprise.com映射到“enterprise”。www.enterprise.pl也是如此,它也被映射到“enterprise”。以这种方式,可以从web站点过滤器分析中省略服务器名称和子域。
合并过程可以查看域组列表中的每个项目,例如“enterprise”,并且通过将会话文件中的所有站点ID替换为与这样的域组中频率最高的URL相对应的站点ID来合并URL。在这样做之后,如果会话剩余有少于两个唯一的站点ID,则其会从所考虑的会话池中删除。URL的频率以相同的方式被合并,因此最终的代表性URL具有这样的频率:该频率是该URL自己的频率加上被合并到该URL中的所有其他URL的频率。
预处理步骤402可以包括通过会话的地理起源来过滤506地址。发现这给予了改善的web站点过滤结果,因为消除了由于语言和地区而不是由于web站点的功能和目的造成的站点之间的偏差和关联。因此,在一些示例中,web站点过滤器可以包括多个相似度度量,每个使用来自不同的地理区域的会话共现数据。随着针对内容的请求进入,其地理起源被检测并且用于选择适当的相似度度量。
预处理步骤402可以包括以上描述的选择502、合并504和过滤506步骤中的一个或多个与零个、一个或多个其他预处理步骤的任何组合。例如,省略了仅具有一个站点的会话,并且每个会话记录一次站点。
计算404在会话共现数据中的站点之间的相似度/距离的步骤可以以各种方式进行。例如,可以使用以下公式来计算相似度:
站点A与站点B之间的距离等于站点A与站点B在相同会话中出现的次数除以web站点A和站点B在任何会话中出现的总次数。
在另一示例中,可以通过对每个站点计算508多维特征向量来计算相似度。特征向量的对之间的距离可以被计算510并且被用于填充距离矩阵。
一旦已经在步骤404计算了距离,则将已知的黑名单站点(以及可选地,已知的白名单站点)的知识应用于410会话共现数据。在一些示例中,使用任何合适的聚类512算法(诸如k均值、凝聚式聚类或其他)来计算多维特征向量的簇。一旦形成簇,可以根据个体簇中的已知的黑名单和/或白名单站点的出现频率来将簇标识为黑名单或白名单。例如,如果簇在其中具有一个或多个已知的黑名单站点,则簇中的所有站点都可能被标识为潜在的黑名单站点。
在一些示例中,计算514基于内核的距离函数以找到接近已知的黑名单站点的潜在的黑名单站点(或接近已知的白名单站点的潜在的白名单站点)。例如,具有高斯内核(或其他类型的内核)的支持向量机可以被配置为使用已知的黑名单和/或白名单站点作为训练示例来对会话共现数据的站点进行分类。支持向量机是非概率二进制线性分类器。它将示例表示为空间中的点,进行映射,使得将两个不同类别的已知示例(黑名单或白名单)以尽可能宽的清楚的间隙分开。新的示例然后被分类为属于两个类别之一,这取决于它们落在间隙的哪一侧。
也可以使用其他距离函数516来找到接近已知的黑名单站点的潜在的黑名单站点(或接近已知的白名单站点的潜在的白名单站点)。非穷举的示例列表是:欧氏距离、反余弦相似度。
在另一示例中,聚类特征向量。用户能够阻止或允许整个簇或个体web站点。
现在给出关于如何计算多维特征向量的更多细节。用于web站点j的多维特征向量被表示为wj,并且用于另一web站点k的多维特征向量被表示为wk。会话由符号si表示。如果web站点j和k在相同会话si中被浏览,则内积
Figure GDA0002546866960000091
Figure GDA0002546866960000092
相似,因此多维特征向量wj和wk也相似。替代地,如果在会话中的web站点j和k的浏览之间没有相关性,则向量wj和wk在很大程度上是正交的。因此,以这样的方式从会话共现数据来计算多维特征向量:内积对于在相同会话中被浏览的站点倾向于相似,并且否则倾向于正交。在示例中,使用30个维度。然而,也可以使用其他数目的维度。在各种示例中,多维特征向量推广到在会话数据中未看到的站点。
在一些示例中,多维特征被归一化为单位长度(或限制到1),并且用于基于相似度度量来构建距离矩阵。在如上所述形成簇的情况下,距离矩阵可以用于计算簇。在一些示例中,距离矩阵中的得分可以被缩放到已知的黑名单/白名单站点的距离矩阵中的得分。以这种方式,来自已知的黑名单/白名单站点的数据传播到距离矩阵中的其他条目。
替代地或另外地,web站点过滤器的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如而非限制,可以使用的说明性类型的硬件逻辑部件包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统系统(SOC)、复杂可编程逻辑器件(CPLD)、图形处理单元(GPU)。
图6示出了可以被实现为任何形式的计算和/或电子设备并且可以实现手动跟踪器的实施例的示例性的基于计算的设备600的各种部件。例如,移动电话、平板计算机、膝上型计算机、个人计算机、web服务器、云服务器。
基于计算的设备600包括一个或多个处理器602,其可以是微处理器、控制器或者用于处理计算机可执行指令以控制设备的操作以便实时地控制对站点的访问的任何其他合适类型的处理器。在一些示例中,例如在使用片上系统架构的情况下,处理器602可以包括一个或多个固定功能块(也称为加速器),其以硬件(而不是软件或固件)实现web站点过滤方法的一部分。可以在基于计算的设备处提供包括操作系统604的平台软件或任何其他合适的平台软件,以使得应用软件606能够在设备上被执行。数据储存库610存储web站点地址前缀、web站点地址、浏览共现数据、相似度/距离度量、相似度/距离矩阵、多维特征向量、参数值、黑名单、白名单和其他数据。web站点过滤器608包括存储在存储器616处的用以执行本文中描述的web站点过滤的指令。在一些示例中,web过滤器606是操作系统604的一部分,在这种情况下,web过滤器608可以省略或者可以与web过滤器606共享功能。
可以使用由基于计算的设备600可访问的任何计算机可读介质来提供计算机可执行指令。计算机可读介质可以包括例如计算机存储介质,诸如存储器616和通信介质。诸如存储器612的计算机存储介质包括用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息的以任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EPROM、EEPROM、闪速存储器或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光学存储装置、磁带盒、磁带,磁盘存储装置或其他磁存储设备、或者可以用于存储由计算设备访问的信息的任何其它非传输介质。相比之下,通信介质可以实施计算机可读指令、数据结构、程序模块、或者诸如载波或其它传输机制的调制数据信号中的其他数据。如本文中定义的,计算机存储介质不包括通信介质。因此,计算机存储介质本身不应当被解释为传播信号。传播的信号可以存在于计算机存储介质中,但是传播的信号本身不是计算机存储介质的示例。尽管计算机存储介质(存储器612)被示出为在基于计算的设备600内,但是应当理解,存储装置可以是分布式的,或者定位在远端并且经由网络或其他通信链路(例如使用通信接口614)来访问。
基于计算的设备600还包括被布置为将显示信息输出到显示设备618的输入/输出控制器616,显示设备618可以与基于计算的设备600分离或与基于计算的设备600构成整体。显示信息可以提供例如用以显示黑名单和白名单的图形用户界面。输入/输出控制器616还被布置为接收和处理来自一个或多个设备(诸如用户输入设备620(例如鼠标、键盘、麦克风或其他传感器))的输入。在一些示例中,用户输入设备620可以检测语音输入、用户手势或其它用户动作,并且可以提供自然用户界面(NUI)。在实施例中,显示设备618在其是触敏显示设备的情况下还可以充当用户输入设备620。输入/输出控制器616还可以将数据输出到除了显示设备之外的设备,例如本地连接的打印设备。
输入/输出控制器616、显示设备618和用户输入设备620中的任一个可以包括NUI技术,其使得用户能够以自然的方式与基于计算的设备交互,而不受输入设备(诸如鼠标、键盘、遥控器等)施加的人为约束。可以提供的NUI技术的示例包括但不限于依赖于声音和/或语音识别、触摸和/或触笔识别(触敏显示器)、屏幕上和屏幕附近的手势识别、空中手势、头部和眼睛跟踪、声音和语音、视觉、触摸、手势和机器智能的NUI技术。可以使用的NUI技术的其他示例包括意图和目标理解系统、使用深度相机(诸如立体相机系统、红外相机系统、rgb相机系统及其组合)的运动手势检测系统、使用加速度计/陀螺仪的运动手势检测、脸部识别、3D显示、头部、眼睛和凝视跟踪、沉浸式增强现实和虚拟现实系统、以及用于使用电场感测电极来感测脑活动的技术(EEG和相关方法)。
在示例中,提供了一种web站点过滤器,包括:
输入,被配置为接收要访问的内容的地址;
处理器,被配置为获取地址与其他内容项的先前标记的地址的相似度,其中相似度基于来自很多同意用户的浏览会话的记录中的内容项的地址的共现,浏览会话记录包括由给定用户在给定用户主动访问内容的时间段中访问的内容项的地址,内容项的地址的共现是地址在相同的浏览会话记录中的存在;以及
输出,被配置为基于相似度来控制对要访问的内容的访问。
例如,输入被配置为接收要访问的内容的地址以及请求对内容的访问的终端用户设备的标识符,并且其中其他内容项的先前标记的地址包括由与终端用户设备相关联的用户标记的地址。
例如,处理器被布置为从重复地访问浏览会话的记录的实体获取相似度使得浏览会话的记录的随时间的变化被考虑在内。
例如,处理器被配置为将先前标记的地址随时间的变化考虑在内。
例如,处理器被配置为从计算地址A和B之间的相似度的实体获取相似度,所述相似度至少部分地作为地址A和B在相同的浏览会话中出现的次数除以地址A和B在会话中的任何会话中出现的总次数。
例如,处理器被配置为从通过计算每个地址的多维特征向量并且计算特征向量的对之间的相似度来计算地址之间的相似度的实体获取相似度。
例如,处理器被配置为从使用聚类或基于内核的距离函数来计算相似度的实体获取相似度。
在一个示例中,存储器存储先前标记的地址,并且处理器被配置为生成请求针对一个或多个内容地址的标记的图形用户界面。
例如,其他内容项的先前标记的地址包括被标记为要被阻止的至少一个内容项。
例如,处理器被配置为生成显示内容的地址以及由处理器计算的地址与先前标记的地址的相似度的图形用户界面。
在上述任何段落中描述的web站点过滤器可以与终端用户设备的操作系统构成整体,使得输入被配置为拦截对于针对来自终端用户设备的输出生成的内容的请求并且使得操作系统被配置为基于相似度来控制对内容的访问。
在示例中,处理器被配置为计算相似度,并且其中处理器被配置为通过以下中的任一项来预处理浏览记录:选择频繁的地址,合并相似的地址,通过会话的地理起源来过滤。
在示例中,提供了一种控制对内容的访问的计算机实现的方法,包括:
接收要访问的内容的地址;
获取地址与其他内容项的先前标记的地址的相似度,其中相似度基于来自很多同意用户的浏览会话的记录中的内容项的地址的共现,浏览会话记录包括由用户在用户主动访问内容的时间段中访问的内容项的地址,内容项的地址的共现是地址在相同的浏览会话记录中的存在;以及
通过以下中的任一项基于相似度来控制对要访问的内容的访问:允许对内容的访问,阻止对内容的访问,触发警告。
例如,方法包括接收要访问的内容的地址以及请求对内容的访问的终端用户设备的标识符,并且其中其他内容项的先前标记的地址包括由与终端用户设备相关联的用户标记的地址。
例如,方法包括从重复地访问浏览会话的记录的实体获取相似度,使得浏览会话的记录的随时间的变化被考虑在内。
例如,获取相似度包括以下中的任一项:计算相似度,从另一实体请求相似度。
在示例中,提供了一种具有设备可执行指令的计算机可读介质,设备可执行指令在由基于计算的设备执行时指导基于计算的设备执行以下步骤:
接收要访问的内容的地址;
获取地址与其他内容项的先前标记的地址的相似度,其中相似度基于来自很多同意用户的浏览会话的记录中的内容项的地址的共现,浏览会话记录包括由用户在用户主动访问内容的时间段中访问的内容项的地址,内容项的地址的共现是地址在相同的浏览会话记录中的存在;以及
通过以下中的任一项基于相似度来控制对要访问的内容的访问:允许对内容的访问,阻止对内容的访问,触发警告。
在示例中,上述计算机可读介质具有设备可执行指令,设备可执行指令在由基于计算的设备执行时指导基于计算的设备执行包括以下的步骤:接收要访问的内容的地址以及请求对内容的访问的终端用户设备的标识符,并且其中其他内容项的先前标记的地址包括由与终端用户设备相关联的用户标记的地址。
在一些示例中,指令指导基于计算的设备执行包括以下的步骤:计算地址A和B之间的相似度,相似度至少部分地作为地址A和B在相同的浏览会话中出现的次数除以地址A和B在会话中的任何会话中出现的总次数。
例如,指令指导基于计算的设备执行包括以下的步骤:通过计算每个地址的多维特征向量来计算地址之间的相似度。
术语“计算机”或“基于计算的设备”在本文中用于指代具有处理能力使得其可以执行指令的任何设备。本领域技术人员将认识到,这种处理能力被并入很多不同的设备中,因此术语“计算机”和“基于计算的设备”各自包括PC、服务器、移动电话(包括智能电话)、平板计算机、机顶盒、媒体播放器、游戏控制台、个人数字助理和很多其他设备。
本文中描述的方法可以通过有形存储介质上的机器可读形式的软件来执行,例如,包括计算机程序代码装置的计算机程序的形式,计算机程序代码装置被适配成:当程序在计算机上运行时并且在计算机程序可以在计算机可读介质上实施的情况下,执行本文中描述的任何方法的所有步骤。有形存储介质的示例包括包含计算机可读介质的计算机存储设备(诸如盘、拇指驱动器,存储器等),并且不包括传播信号。传播信号可以存在于有形存储介质中,但是传播信号本身不是有形存储介质的示例。软件可以适于在并行处理器或串行处理器上的执行,使得方法步骤可以以任何合适的顺序或同时执行。
这确认软件可以是有价值的、可分开交易的商品。它旨在包含运行在“哑(dumb)”或标准硬件上或控制“哑”或标准硬件以执行期望功能的软件。它还旨在包括“描述”或定义硬件的配置的软件,诸如HDL(硬件描述语言)软件,其用于设计硅芯片或用于配置通用可编程芯片以执行期望功能。
本领域技术人员将认识到,用于存储程序指令的存储设备可以跨网络分布。例如,远程计算机可以存储被描述为软件的过程的示例。本地或终端计算机可以访问远程计算机并且下载部分或全部软件以运行程序。替代地,本地计算机可以根据需要下载软件,或者在本地终端处执行一些软件指令并且在远程计算机(或计算机网络)处执行一些软件指令。本领域技术人员还将认识到,通过利用本领域技术人员已知的常规技术,软件指令的全部或一部分可以由专用电路(诸如DSP、可编程逻辑阵列等)来执行。
本文中给出的任何范围或设备值可以被扩展或改变,而不会失去所寻求的效果,这对本领域技术人员是显而易见的。
虽然已经以结构特征和/或方法动作特有的语言描述了主题,但是应当理解,所附权利要求中限定的主题不一定限于上述具体特征或动作。相反,上述具体特征和动作被公开作为实现权利要求的示例形式。
应当理解,上述益处和优点可以涉及一个实施例或者可以涉及若干实施例。实施例不限于解决任何或全部所述问题的实施例,也不限于具有任何或所有所述益处和优点的实施例。还应当理解,提及“一个”项目是指这些项目中的一个或多个。
本文中描述的方法的步骤可以以任何合适的顺序执行,或者在适当的情况下同时执行。此外,在不脱离本文中描述的主题的精神和范围的情况下,可以从任何方法中删除个体块。上述任何示例的方面可以与所描述的任何其它示例的方面组合以形成更多示例而不失去所寻求的效果。
术语“包括”在本文中用于表示包括所标识的方法块或元素,但是这些块或元素不包括排他性列表,并且方法或装置可以包含附加的块或元素。
应当理解,以上描述仅通过示例给出,并且本领域技术人员可以进行各种修改。上述说明书、示例和数据提供了示例性实施例的结构和用途的完整描述。虽然上面已经以某种程度的具体性或者参考一个或多个个体实施例描述了各种实施例,但是在不脱离本说明书的精神或范围的情况下,本领域技术人员可以对所公开的实施例进行大量的改变。

Claims (20)

1.一种web站点过滤器,包括:
输入,被配置为接收要被访问的内容的地址;
处理器,被配置为获取所述地址与其他内容项的先前已经被标记的地址的相似度,其中两个地址A和B之间的所述相似度基于在多个同意用户的多个浏览会话的相同浏览会话中被访问的所述两个地址A和B的所述内容,浏览会话包括由给定用户在所述给定用户主动访问内容的时间段中访问的内容项的地址,当所述两个地址的所述内容在浏览会话中被访问时,所述浏览会话中的内容项的所述两个地址的共现发生,所述处理器还被配置为从实体获取所述相似度,所述实体至少部分基于包括地址A和B两者的会话的数目除以包括地址A、或地址B、或地址A和B两者的会话的总数目来计算所述两个地址A和B之间的所述相似度;以及
输出,被配置为基于所述相似度来控制对所述要被访问的内容的访问。
2.根据权利要求1所述的web站点过滤器,其中所述输入被配置为接收所述要被访问的内容的所述地址以及请求对所述内容的访问的终端用户设备的标识符,并且其中所述其他内容项的先前已经被标记的地址包括由与所述终端用户设备相关联的用户标记的地址。
3.根据权利要求1所述的web站点过滤器,其中所述处理器被布置为从重复地访问浏览会话的记录的所述实体获取所述相似度,使得所述浏览会话的记录的随时间的变化被考虑在内以用于重新计算所述相似度。
4.根据权利要求1所述的web站点过滤器,其中所述处理器被配置为将其他内容项的先前已经被标记的地址的随时间的变化纳入考虑。
5.根据权利要求1所述的web站点过滤器,还包括:
存储所述其他内容项的先前已经被标记的地址的存储器,其中所述处理器被配置为生成请求针对内容的一个或多个地址的标记的图形用户界面。
6.根据权利要求1所述的web站点过滤器,其中其他内容项的所述地址包括被标记为要被阻止的至少一个内容项。
7.根据权利要求1所述的web站点过滤器,其中所述处理器被配置为生成显示内容的地址以及所述地址与所述其他内容项的先前已经被标记的地址的相似度的图形用户界面。
8.根据权利要求1所述的web站点过滤器,其中所述web站点过滤器与终端用户设备的操作系统构成整体,使得所述输入被配置为拦截来自所述终端用户设备的对于针对输出生成的内容的请求,并且使得所述操作系统被配置为基于所述相似度来控制对所述内容的访问。
9.根据权利要求1所述的web站点过滤器,其中所述处理器被配置为通过以下中的至少一项来预处理所述浏览会话:选择频繁的地址,合并相似的地址,或通过会话的地理起源进行过滤。
10.一种控制对内容的访问的计算机实现的方法,包括:
接收要被访问的内容的地址和请求对所述内容的访问的终端用户设备的标识符;
获取所述地址与其他内容项的先前已经被标记的地址的相似度,其中两个地址A和B之间的所述相似度基于在多个同意用户的多个浏览会话的相同浏览会话中被访问的所述两个地址A和B的所述内容,浏览会话包括由用户在所述用户主动访问内容的时间段中访问的内容项的地址,当所述两个地址的所述内容在浏览会话中被访问时,所述浏览会话中的内容项的所述两个地址的共现发生,其中所述相似度从实体被获取,所述实体至少部分基于包括地址A和B两者的会话的数目除以包括地址A、或地址B、或地址A和B两者的会话的总数目来计算所述两个地址A和B之间的所述相似度;以及
基于所述终端用户设备的所述标识符和所述地址与所述其他内容项的所述地址的所述相似度来确定对要被访问的所述内容的访问;以及
通过以下中的至少一项来控制对所述内容的访问:允许对所述内容的访问,阻止对所述内容的访问,或触发警告。
11.根据权利要求10所述的方法,其中所述其他内容项的先前已经被标记的地址包括由与所述终端用户设备相关联的用户标记的地址。
12.根据权利要求10所述的方法,还包括:
从重复地访问浏览会话的记录的所述实体获取所述相似度,使得所述浏览会话的记录的随时间的变化被考虑在内以用于重新计算所述相似度。
13.根据权利要求10所述的方法,其中所述实体通过计算每个地址的多维特征向量并计算所述特征向量的对之间的相似度来计算所述两个地址之间的所述相似度。
14.根据权利要求10所述的方法,其中所述实体使用聚类或基于核的距离函数来计算所述两个地址之间的所述相似度。
15.根据权利要求10所述的方法,其中浏览会话记录通过以下中的至少一项而被预处理:选择频繁的地址,合并相似的地址,或者通过会话的地理起源进行过滤。
16.一种具有设备可执行指令的计算机存储介质,所述设备可执行指令当由基于计算的设备执行时引导所述基于计算的设备执行步骤,所述步骤包括:
接收要被访问的内容的地址和请求对所述内容的访问的终端用户设备的标识符;
获取所述地址与其他内容项的先前已经被标记的地址的相似度,其中两个地址A和B之间的所述相似度基于在多个同意用户的多个浏览会话的相同浏览会话中被访问的所述两个地址A和B的所述内容,浏览会话包括由用户在所述用户主动访问内容的时间段中访问的内容项的地址,当所述两个地址的所述内容在浏览会话中被访问时,所述浏览会话中的内容项的所述两个地址的共现发生;
计算所述两个地址A和B之间的所述相似度作为包括地址A和B两者的会话的数目除以包括地址A、或地址B、或地址A和B两者的会话的总数目;
基于所述终端用户设备的所述标识符和所述地址与所述其他内容项的所述地址的所述相似度来确定对要被访问的所述内容的访问;以及
通过以下中的至少一项来控制对所述内容的访问:允许对所述内容的访问,阻止对所述内容的访问,或触发警告。
17.根据权利要求16所述的计算机存储介质,其中所述其他内容项的先前已经被标记的地址包括由与所述终端用户设备相关联的用户标记的地址。
18.根据权利要求16所述的计算机存储介质,具有设备可执行指令,所述设备可执行指令当由基于计算的设备执行时引导所述基于计算的设备执行进一步的步骤,所述进一步的步骤包括:
通过计算每个地址的多维特征向量并计算所述特征向量的对之间的相似度来计算所述两个地址之间的所述相似度。
19.根据权利要求16所述的计算机存储介质,具有设备可执行指令,所述设备可执行指令当由基于计算的设备执行时引导所述基于计算的设备执行进一步的步骤,所述进一步的步骤包括:
使用聚类或基于核的距离函数来计算所述相似度。
20.根据权利要求16所述的计算机存储介质,其中浏览会话记录通过以下中的至少一项而被预处理:选择频繁的地址,合并相似的地址,或者通过会话的地理起源进行过滤。
CN201580072844.XA 2015-01-13 2015-12-28 web站点过滤器、控制对内容的访问的方法和介质 Active CN107408115B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/595,630 2015-01-13
US14/595,630 US10154041B2 (en) 2015-01-13 2015-01-13 Website access control
PCT/US2015/067551 WO2016114912A1 (en) 2015-01-13 2015-12-28 Website access control

Publications (2)

Publication Number Publication Date
CN107408115A CN107408115A (zh) 2017-11-28
CN107408115B true CN107408115B (zh) 2020-10-09

Family

ID=55640831

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580072844.XA Active CN107408115B (zh) 2015-01-13 2015-12-28 web站点过滤器、控制对内容的访问的方法和介质

Country Status (4)

Country Link
US (1) US10154041B2 (zh)
EP (1) EP3245598B1 (zh)
CN (1) CN107408115B (zh)
WO (1) WO2016114912A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10885130B1 (en) * 2015-07-02 2021-01-05 Melih Abdulhayoglu Web browser with category search engine capability
US11303714B2 (en) * 2016-12-14 2022-04-12 Rewardstyle, Inc. System and method for application traffic control
CN109962855A (zh) * 2017-12-14 2019-07-02 深圳市融汇通金科技有限公司 一种web服务器的限流方法、限流装置及终端设备
US11089024B2 (en) * 2018-03-09 2021-08-10 Microsoft Technology Licensing, Llc System and method for restricting access to web resources
US11184363B2 (en) * 2018-12-31 2021-11-23 Microsoft Technology Licensing, Llc Securing network-based compute resources using tags
US11921881B2 (en) * 2019-08-01 2024-03-05 EMC IP Holding Company LLC Anonymous ranking service
CN111695149B (zh) * 2020-05-15 2023-07-28 浙江信网真科技股份有限公司 一种基于云协同的安全过滤方法
US11665619B2 (en) * 2020-08-26 2023-05-30 Honda Motor Co., Ltd. Data and connectivity management systems and methods thereof
CN113242223B (zh) * 2021-04-30 2022-07-01 刘厚泽 一种网址检测方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1342290A (zh) * 1998-10-02 2002-03-27 国际商业机器公司 会话浏览器和会话系统
CN101527655A (zh) * 2008-02-29 2009-09-09 埃森哲环球服务有限公司 用于资源访问控制的动态简档系统
CN102224520A (zh) * 2008-11-26 2011-10-19 微软公司 与目标站点相关联地提供建议站点
US8095530B1 (en) * 2008-07-21 2012-01-10 Google Inc. Detecting common prefixes and suffixes in a list of strings
CN103425736A (zh) * 2013-06-24 2013-12-04 腾讯科技(深圳)有限公司 一种网页信息识别方法、装置及系统
US8645683B1 (en) * 2005-08-11 2014-02-04 Aaron T. Emigh Verified navigation
CN104580397A (zh) * 2014-12-19 2015-04-29 百度在线网络技术(北京)有限公司 页面访问方法及网络设备
CN104965902A (zh) * 2015-06-30 2015-10-07 北京奇虎科技有限公司 一种富集化url的识别方法和装置
CN105009138A (zh) * 2013-03-11 2015-10-28 国际商业机器公司 通过安全数据库服务器层的会话属性传播
CN105337987A (zh) * 2015-11-20 2016-02-17 同济大学 一种网络用户身份认证方法及系统

Family Cites Families (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6317722B1 (en) 1998-09-18 2001-11-13 Amazon.Com, Inc. Use of electronic shopping carts to generate personal recommendations
US6564327B1 (en) 1998-12-23 2003-05-13 Worldcom, Inc. Method of and system for controlling internet access
GB2366888A (en) 2000-04-14 2002-03-20 Ibm Restricting data access to data in data processing systems
US7376752B1 (en) * 2003-10-28 2008-05-20 David Chudnovsky Method to resolve an incorrectly entered uniform resource locator (URL)
US20050198319A1 (en) 2004-01-15 2005-09-08 Yahoo! Inc. Techniques for parental control of internet access including a guest mode
US7325554B2 (en) * 2004-03-22 2008-02-05 Johnson & Johnson Consumer Companies, Inc. Dental device with improved retention of a flavor and/or chemotherapeutic agent composition
US7606821B2 (en) * 2004-06-30 2009-10-20 Ebay Inc. Method and system for preventing fraudulent activities
US7224251B2 (en) * 2004-07-16 2007-05-29 Earth-Chain Enterprise Co., Ltd. Magnetic retaining device for machine tool
US7930413B2 (en) * 2004-09-03 2011-04-19 Wizard Tower Techno Services Ltd. System and method for controlling access to a network resource
US7631007B2 (en) 2005-04-12 2009-12-08 Scenera Technologies, Llc System and method for tracking user activity related to network resources using a browser
WO2006123366A1 (en) 2005-05-18 2006-11-23 M/S. Trinity Future-In Pvt. Ltd An electromechanical system incorporating a parental control
US20070005646A1 (en) 2005-06-30 2007-01-04 Microsoft Corporation Analysis of topic dynamics of web search
US20080214204A1 (en) 2005-11-01 2008-09-04 Jorey Ramer Similarity based location mapping of mobile comm facility users
JP2008234332A (ja) 2007-03-20 2008-10-02 Fujitsu Ltd Webサイト閲覧のフィルタリング装置、そのフィルタリング方法、そのフィルタリングプログラム、そのフィルタリングプログラムが格納された記録媒体、及びwebサイト閲覧のフィルタリングシステム
US7873904B2 (en) 2007-04-13 2011-01-18 Microsoft Corporation Internet visualization system and related user interfaces
US7865953B1 (en) * 2007-05-31 2011-01-04 Trend Micro Inc. Methods and arrangement for active malicious web pages discovery
US8122360B2 (en) 2007-06-27 2012-02-21 Kosmix Corporation Automatic selection of user-oriented web content
US7854001B1 (en) * 2007-06-29 2010-12-14 Trend Micro Incorporated Aggregation-based phishing site detection
US7921071B2 (en) * 2007-11-16 2011-04-05 Amazon Technologies, Inc. Processes for improving the utility of personalized recommendations generated by a recommendation engine
US20090171968A1 (en) * 2007-12-28 2009-07-02 Kane Francis J Widget-assisted content personalization based on user behaviors tracked across multiple web sites
US8850567B1 (en) * 2008-02-04 2014-09-30 Trend Micro, Inc. Unauthorized URL requests detection
US8429180B1 (en) * 2008-03-31 2013-04-23 Symantec Corporation Cooperative identification of malicious remote objects
US8533227B2 (en) * 2008-05-14 2013-09-10 Red Hat, Inc. Managing website blacklists
US8307431B2 (en) * 2008-05-30 2012-11-06 At&T Intellectual Property I, L.P. Method and apparatus for identifying phishing websites in network traffic using generated regular expressions
US8296255B1 (en) 2008-06-19 2012-10-23 Symantec Corporation Method and apparatus for automatically classifying an unknown site to improve internet browsing control
US9081861B2 (en) * 2008-07-21 2015-07-14 Google Inc. Uniform resource locator canonicalization
US8161155B2 (en) * 2008-09-29 2012-04-17 At&T Intellectual Property I, L.P. Filtering unwanted data traffic via a per-customer blacklist
US8448245B2 (en) * 2009-01-17 2013-05-21 Stopthehacker.com, Jaal LLC Automated identification of phishing, phony and malicious web sites
US8234582B1 (en) 2009-02-03 2012-07-31 Amazon Technologies, Inc. Visualizing object behavior
US20100205297A1 (en) * 2009-02-11 2010-08-12 Gurusamy Sarathy Systems and methods for dynamic detection of anonymizing proxies
US7945668B1 (en) 2009-08-21 2011-05-17 Narus, Inc. System and method for content-aware co-clustering algorithm based on hourglass model
US20110289434A1 (en) * 2010-05-20 2011-11-24 Barracuda Networks, Inc. Certified URL checking, caching, and categorization service
US9195990B2 (en) * 2010-06-02 2015-11-24 Integral Ad Science, Inc. Methods, systems, and media for reviewing content traffic
US8458227B1 (en) * 2010-06-24 2013-06-04 Amazon Technologies, Inc. URL rescue by identifying information related to an item referenced in an invalid URL
CN102314450B (zh) 2010-06-30 2014-11-26 国际商业机器公司 用于增强网页浏览的方法和设备
JP5518594B2 (ja) * 2010-06-30 2014-06-11 三菱電機株式会社 内部ネットワーク管理システム及び内部ネットワーク管理方法及びプログラム
US9298824B1 (en) * 2010-07-07 2016-03-29 Symantec Corporation Focused crawling to identify potentially malicious sites using Bayesian URL classification and adaptive priority calculation
US8826444B1 (en) * 2010-07-09 2014-09-02 Symantec Corporation Systems and methods for using client reputation data to classify web domains
US8484740B2 (en) * 2010-09-08 2013-07-09 At&T Intellectual Property I, L.P. Prioritizing malicious website detection
IL209960A0 (en) * 2010-12-13 2011-02-28 Comitari Technologies Ltd Web element spoofing prevention system and method
KR101306844B1 (ko) 2010-12-21 2013-11-21 주식회사 케이티 웹브라우징 액션 탐지 및 접근 차단 방법 및 장치
US8516595B2 (en) * 2010-12-28 2013-08-20 Caixa d'Estalvis I Pensions de Barcelona “La Caixa” Method and system for estimating the reliability of blacklists of botnet-infected computers
US8788653B2 (en) 2011-01-05 2014-07-22 F-Secure Corporation Controlling access to web content
US9286449B2 (en) * 2011-01-21 2016-03-15 Paypal, Inc. System and methods for protecting users from malicious content
US8972412B1 (en) * 2011-01-31 2015-03-03 Go Daddy Operating Company, LLC Predicting improvement in website search engine rankings based upon website linking relationships
US8209390B1 (en) * 2011-10-06 2012-06-26 Google Inc. Method and apparatus for providing destination-address suggestions
US9310879B2 (en) 2011-11-09 2016-04-12 Xerox Corporation Methods and systems for displaying web pages based on a user-specific browser history analysis
US8631498B1 (en) * 2011-12-23 2014-01-14 Symantec Corporation Techniques for identifying potential malware domain names
US20130225151A1 (en) 2011-12-23 2013-08-29 Microsoft Corporation Mobile device parental control
US8881225B1 (en) 2012-02-01 2014-11-04 Symantec Corporation Systems and methods for managing parental controls
US8640190B1 (en) 2012-02-09 2014-01-28 Symantec Corporation Parental control policy generation
WO2013138743A1 (en) 2012-03-15 2013-09-19 Cobb Daniel J Digital parental controls interface
WO2013184653A1 (en) * 2012-06-04 2013-12-12 Board Of Regents, The University Of Texas System Method and system for resilient and adaptive detection of malicious websites
US9147000B2 (en) 2012-06-29 2015-09-29 Yahoo! Inc. Method and system for recommending websites
US8898272B1 (en) * 2012-10-02 2014-11-25 Amazon Technologies, Inc. Identifying information in resource locators
CN103810425B (zh) * 2012-11-13 2015-09-30 腾讯科技(深圳)有限公司 恶意网址的检测方法及装置
US8935252B2 (en) * 2012-11-26 2015-01-13 Wal-Mart Stores, Inc. Massive rule-based classification engine
CN103246739B (zh) 2013-05-16 2017-02-08 百度在线网络技术(北京)有限公司 多WebView的网页浏览控制方法及浏览器
US9467453B2 (en) * 2014-02-19 2016-10-11 Qualcomm Incorporated Network access and control for mobile devices
GB201403505D0 (en) * 2014-02-27 2014-04-16 Aistemos Ltd Database update and analytics system
US9292691B1 (en) * 2014-03-12 2016-03-22 Symantec Corporation Systems and methods for protecting users from website security risks using templates
US9635049B1 (en) * 2014-05-09 2017-04-25 EMC IP Holding Company LLC Detection of suspicious domains through graph inference algorithm processing of host-domain contacts
JP5620604B1 (ja) * 2014-05-12 2014-11-05 株式会社ワイワイワイネット ネット上での検索結果のランキングシステム
US9942250B2 (en) * 2014-08-06 2018-04-10 Norse Networks, Inc. Network appliance for dynamic protection from risky network activities
US20160142429A1 (en) * 2014-11-19 2016-05-19 Royce Renteria Preventing access to malicious content
US9979748B2 (en) * 2015-05-27 2018-05-22 Cisco Technology, Inc. Domain classification and routing using lexical and semantic processing
US9798896B2 (en) * 2015-06-22 2017-10-24 Qualcomm Incorporated Managing unwanted tracking on a device
US9990341B2 (en) * 2015-12-04 2018-06-05 International Business Machines Corporation Predictive approach to URL determination

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1342290A (zh) * 1998-10-02 2002-03-27 国际商业机器公司 会话浏览器和会话系统
US8645683B1 (en) * 2005-08-11 2014-02-04 Aaron T. Emigh Verified navigation
CN101527655A (zh) * 2008-02-29 2009-09-09 埃森哲环球服务有限公司 用于资源访问控制的动态简档系统
US8095530B1 (en) * 2008-07-21 2012-01-10 Google Inc. Detecting common prefixes and suffixes in a list of strings
CN102224520A (zh) * 2008-11-26 2011-10-19 微软公司 与目标站点相关联地提供建议站点
CN105009138A (zh) * 2013-03-11 2015-10-28 国际商业机器公司 通过安全数据库服务器层的会话属性传播
CN103425736A (zh) * 2013-06-24 2013-12-04 腾讯科技(深圳)有限公司 一种网页信息识别方法、装置及系统
CN104580397A (zh) * 2014-12-19 2015-04-29 百度在线网络技术(北京)有限公司 页面访问方法及网络设备
CN104965902A (zh) * 2015-06-30 2015-10-07 北京奇虎科技有限公司 一种富集化url的识别方法和装置
CN105337987A (zh) * 2015-11-20 2016-02-17 同济大学 一种网络用户身份认证方法及系统

Also Published As

Publication number Publication date
CN107408115A (zh) 2017-11-28
WO2016114912A1 (en) 2016-07-21
EP3245598B1 (en) 2018-08-22
EP3245598A1 (en) 2017-11-22
US10154041B2 (en) 2018-12-11
US20160205109A1 (en) 2016-07-14

Similar Documents

Publication Publication Date Title
CN107408115B (zh) web站点过滤器、控制对内容的访问的方法和介质
JP7411651B2 (ja) コンテンツアイテム推奨をランク付けするための技術
JP6293830B2 (ja) オンライン・ソーシャル・ネットワークにおける検索クエリに対する近似的プライバシ
US20170337258A1 (en) Classifying uniform resource locators
US8788925B1 (en) Authorized syndicated descriptions of linked web content displayed with links in user-generated content
US20150169710A1 (en) Method and apparatus for providing search results
US20170083523A1 (en) Granular Forward Indexes on Online Social Networks
US8856109B2 (en) Topical affinity badges in information retrieval
WO2016197058A1 (en) Event networks and event view construction and display
US10176260B2 (en) Measuring semantic incongruity within text data
US10552497B2 (en) Unbiasing search results
US9407589B2 (en) System and method for following topics in an electronic textual conversation
US20220114679A1 (en) Method and system for responding to malicious comments
US20170244741A1 (en) Malware Identification Using Qualitative Data
US9881023B2 (en) Retrieving/storing images associated with events
CN113765873A (zh) 用于检测异常访问流量的方法和装置
US9753998B2 (en) Presenting a trusted tag cloud
US20190121833A1 (en) Rendering content items of a social networking system
US10339559B2 (en) Associating social comments with individual assets used in a campaign
US10606899B2 (en) Categorically filtering search results
US10831347B2 (en) Cognitive computing to identify key events in a set of data
US9286348B2 (en) Dynamic search system
JP2016045552A (ja) 特徴抽出プログラム、特徴抽出方法、および特徴抽出装置
US10223756B2 (en) Electronic message redacting
Huang et al. Web content adaptation for mobile device: A fuzzy-based approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant