CN110537180A - 用于直接浏览器内标记因特网内容中的元素的系统和方法 - Google Patents

用于直接浏览器内标记因特网内容中的元素的系统和方法 Download PDF

Info

Publication number
CN110537180A
CN110537180A CN201880026451.9A CN201880026451A CN110537180A CN 110537180 A CN110537180 A CN 110537180A CN 201880026451 A CN201880026451 A CN 201880026451A CN 110537180 A CN110537180 A CN 110537180A
Authority
CN
China
Prior art keywords
browser
webpage
enhanced
ncsa
environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880026451.9A
Other languages
English (en)
Other versions
CN110537180B (zh
Inventor
J·L·艾普斯坦
J·A·戴维森
M·D·亨廷顿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Opsec Online Ltd
Original Assignee
Camilo Offer
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Camilo Offer filed Critical Camilo Offer
Publication of CN110537180A publication Critical patent/CN110537180A/zh
Application granted granted Critical
Publication of CN110537180B publication Critical patent/CN110537180B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/134Hyperlinking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/197Version control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • G06Q50/184Intellectual property management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Tourism & Hospitality (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Technology Law (AREA)
  • Human Computer Interaction (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的典型实施例涉及用于经由增强型浏览器环境同时在浏览器内搜索、查看、标志、比较和收集网络化环境内的数字内容中的特定元素、并且基于数字内容中的元素的同时在浏览器内搜索、查看、标志、比较和收集来改善门户的操作的系统、方法和非暂时性计算机可读介质。

Description

用于直接浏览器内标记因特网内容中的元素的系统和方法
相关申请
本申请要求于2017年2月22日提交的、标题为“Systems and Methods for DirectIn-Browser Markup of Elements in Internet Content”的美国临时申请62/462,110的优先权,其内容通过引用而整体并入于此。
背景技术
通过诸如因特网等的网络化环境可获得大量数字内容。该数字内容分散在多个数据通道和/或源上,并且每天可获得越来越多的内容。用于生成内容或以其它方式将内容添加到因特网的实体可以立即具有因特网上的内容的多个版本或变型。考虑到内容可被添加到一个或多个因特网数据通道或源或者从其移除的流动性、以及因特网上的大量内容,通常识别和跟踪因特网上内容的不同版本或变型并且判断不同版本或变型是否真实和/或相符合可能是困难的。
发明内容
虽然一些系统基于一个或多个搜索来进行数字内容的批量预收集、并且随后对数字内容进行“离线”分析,但是这种方法可能是低效且资源密集的。另外,虽然数字内容的批量预收集可以是聚集大量数字内容的有效方法,但是这种批量收集可能不会发现相关数字内容以及/或者预收集的数字内容可能不是最新的(例如,数字内容可能在预收集数字内容之后改变,从而需要用户随后再次从数据源检索和检查内容)。
本发明的典型实施例有利地解决了与检测和跟踪因特网或其它网络化环境中的数字内容中的元素的版本或变型相关联的问题。例如,这里描述了被提供用于提供对网络化环境中的数字内容中的元素进行直接浏览器内的搜索、查看、标志、标记、比较和收集、同时潜在地避免对内容的大量收集以及/或者填充批量收集内容中的间隙的典型系统、方法和计算机可读介质。
因此,虽然传统方法一般需要包括从网络化环境中的内容单独地预收集元素(例如,图像、文本、标记和链接等)以及后续跟踪(以验证当前实现)和创建规则或收集算法的两步过程,但是本发明的典型实施例可以在用户浏览实况内容的同时提供对网络化环境中的内容的特定元素的识别。这种例如经由同时检索的网页本身上的直接指示的对数字内容的元素的“实况”、直接、浏览器内的检测和跟踪接着可以立即并入到门户(portal)中,可以用于使得能够经由门户来“实况”搜索和检查附加内容,以及/或者可以提高门户所执行的内容收集算法的效率和精度。
例如,典型实施例可以改进发现内容内的有害元素的精度。内容内的有害元素例如可以包括未能符合当前遵循规则的元素和/或欺诈、侵权和伪造的元素等。内容内的良性元素例如可以包括符合当前遵循规则的元素和/或授权的、可信的和/或真实的元素。本发明的实施例提供了减少误报(例如,错误地将元素识别为有害)以及/或者减少适应网络化环境中的内容的结构和/或内容中的元素的变化所需的时间量的可能性。可以经由增强型浏览器或浏览器扩展或web浏览器的插件的实施例来利用基于元素的检测以将所发现的大量有害元素快速且无缝地添加到收集(发现)机构,并且可以便于能够基于指示标记上下文将有害元素与误报进行区分。
根据本发明的实施例,公开了一种用于直接、同时、浏览器内标记、标志、比较和收集网络化环境中的数字内容的方法。该方法包括在计算资源上执行增强型浏览器环境(例如,增强型浏览器或加载有浏览器扩展的web浏览器),以便于独立地且单独地对增强型浏览器环境的浏览器窗口中所渲染的网页中的元素进行选择和标志。增强型浏览器环境与门户相连接。该方法还包括经由增强型浏览器环境来接收对网页中的特定元素的选择、向该特定元素分配标志、以及通过门户将标志与网页的元素以及统一资源定位符(URL)进行关联。
根据本发明的实施例,公开了一种用于直接浏览器内标记、标志、比较和收集网络化环境中的数字内容的系统。该系统包括远程计算系统,其中该远程计算系统具有被编程为执行经由网络可访问的门户的一个或多个服务器。该系统还包括至少一个计算装置,其上安装有web浏览器和浏览器扩展,其中该浏览器扩展被编程为扩展web浏览器的功能。至少一个计算装置被编程为经由浏览器扩展来接收对网页中的特定元素的选择、向特定元素分配标志、以及将该标志从浏览器扩展发送至门户以将该标志与网页的所述元素以及统一资源定位符(URL)进行关联。
根据本发明的实施例,公开了一种用于同时在浏览器内标志和收集网络化环境中的数字内容的系统,其中远程计算系统包括被编程为执行经由网络可访问的门户的一个或多个服务器。至少一个计算装置可以经由网络来访问门户,并且可以使得一个或多个服务器执行增强型浏览器,其中该增强型浏览器被编程为便于独立地且单独地对增强型浏览器的浏览器窗口中所渲染的网页中的元素进行选择和标志,该增强型浏览器可以与门户相连接、并且可被编程为:接收对网页中的特定元素的选择;向该特定元素分配标志;以及请求门户将该标志与该元素以及网页的统一资源定位符(URL)进行关联。
设想了实施例的任何组合和/排列。根据以下结合附图进行考虑的具体实施方式,其它目标和特征将变得明显。然而,应当理解,附图仅被设计为说明而不是对本发明的限制的定义。
附图说明
在附图中,在非限制性和非穷举性实施例的各个视图中,相同的附图标记指代相同的部分。
图1A是根据本发明的实施例的用于直接在浏览器内搜索、查看、标记、标志、比较和收集网络化环境内的数字内容中的元素的典型环境的框图。
图1B是根据本发明的实施例的用于直接在浏览器内搜索、查看、标记、标志、比较和收集网络化环境内的数字内容中的元素的另一典型环境的框图。
图2是根据本发明的实施例的用于便于对因特网上的数字内容中的元素进行直接浏览器内搜索、查看、标记、标志、比较和收集的典型网络化环境。
图3是根据本发明的实施例的典型服务器的框图。
图4是根据本发明的实施例的典型计算装置的框图。
图5~7示出根据本发明的实施例的增强型web浏览器或浏览器扩展的实施例的典型实现。
图8是示出根据本发明的实施例的用于直接同时在浏览器内搜索、查看、标记、标志、比较和收集网络化环境内的内容中的元素的典型处理的流程图。
图9是示出根据本发明的实施例的、用于直接同时在浏览器内标记网页中的特定元素并向该标记和/或特定元素分配上下文属性的典型处理的流程图。
具体实施方式
本发明的典型实施例涉及用于直接实况地在浏览器内搜索、查看、标记、标志、比较和收集网络化环境内的数字内容;基于对元素的浏览器内标记、标志和/或收集来自主地更新收集算法;以及/或者移除、标示或更新内容中元素的版本或变型的系统、方法和非暂时性计算机可读介质。
在典型实施例中,可以执行以对web浏览器进行增强的增强型web浏览器或浏览器扩展(或插件)可以提供内置到浏览器中的视觉机制,并且对同时从数据源检索到并在浏览器的窗口中进行渲染的内容中的特定选择元素(例如,内容中的图像、文本、标记和链接等)进行一个或多个动作。增强型浏览器和浏览器扩展结合web浏览器在此被共同地且可互换地称为增强型浏览器环境,使得对增强型浏览器环境的引用是指增强型浏览器和/或浏览器扩展。增强型浏览器环境可以便于直接指示内容的哪些元素是良性或有害的。这种直接且精确的浏览器内活动可以向与增强型浏览器环境进行通信的一个或多个收集引擎所实现的发现机制进行直接馈送。
图1A是根据本发明的实施例的用于同时在浏览器内搜索、查看、标志、比较和收集数字内容的环境100的框图。如图1A所示,环境100可以包括web浏览器110,其中该web浏览器110被配置为例如基于与一个或多个服务器所托管的数字内容相关联的统一资源标识符(URI)或统一资源定位符(URL)来检索和显示该数字内容。例如,web浏览器110可以使用URI或URL来查询托管一个或多个网页102的形式的数字内容的一个或多个web服务器,并且可以基于URI或URL来检索和显示一个或多个网页102。数字内容可以具有一种或多种文件格式,诸如超文本标记语言文件、可扩展标记语言文件、便携式文档文件(PDF)、图像文件、音频文件、视频文件和/或其它格式。
web浏览器110可以处理从一个或多个服务器检索到的文件以向用户显示数字内容。在一些实例中,可以由web浏览器110使用一个或多个插件(例如,Flash应用、Java小程序)来处理文件并向用户显示数字内容。例如,插件可以允许web浏览器处理具有以其它方式将不能处理的嵌入内容(例如,Flash视频、便携式文档文件(PDF)、或Java小程序)的网页102。web浏览器110被配置为同时在多个浏览器窗口或浏览器标签中打开数字内容。例如,web浏览器110可被配置为在不同浏览器窗口中或者在相同窗口的不同标签中同时打开多个网页102。
在典型实施例中,web浏览器110可被配置为加载可在浏览器上下文中执行以扩展web浏览器110的功能的浏览器扩展或插件120。例如,浏览器扩展120可被下载并安装在执行web浏览器110的计算资源上,并且web浏览器110可以在计算资源启动该web浏览器110时要求或调用浏览器扩展120,以将浏览器扩展120的功能集成到web浏览器110中。浏览器扩展120可以包括一个或多个用户接口122,其中这一个或多个用户接口122被配置为生成一个或多个图形用户界面124、后台处理126和标记覆盖128。
浏览器扩展120可以扩展web浏览器110的功能以提供动态浏览环境,其中在该动态浏览环境中,web浏览器110和浏览器扩展110对正在web浏览器110的浏览器窗口中显示的数字内容和/或与正显示的数字内容相关联的URL进行响应。在典型实施例中,可以响应于浏览器扩展120的后台处理126、标记覆盖128与浏览器110之间、以及/或者浏览器扩展120与浏览器扩展120经由网络化环境可访问的门户140之间的交互来实现web浏览器110和浏览器扩展120的动态行为。
为了便于经由浏览器扩展120的执行来访问门户140,浏览器扩展120可被编程为对用户进行用户名、账户标识符、密码和/或其它凭证的提示。一旦用户输入了用户凭证,浏览器扩展120就可以将用户凭证发送至门户140以供认证,并且门户140可以通过准许或拒绝浏览器扩展120访问门户140来进行响应。在用户凭证已被验证并且浏览器扩展120已被准许访问门户140之后,可以结合web浏览器110和门户140来执行浏览器扩展120,以便于同时在浏览器内搜索、查看、标记、标志、比较和收集网络化环境中的内容并且最终便于从网络化环境中移除有害内容。在一些实施例中,一旦准许浏览器扩展120访问门户140,门户140就可以在门户140和浏览器扩展120之间创建会话(和相关联的会话标识符),以便于门户140和浏览器扩展120之间的有状态通信。在一些实施例中,一旦准许浏览器扩展120访问门户140,门户140就可以生成令牌并将令牌发送至浏览器扩展120。每当浏览器扩展120向门户140发送消息时,消息可以包括令牌以便于利用有状态和/或无状态的通信来访问门户140。
门户140可以包括被配置为与浏览器扩展110相接的一个或多个应用程序接口(API)142。API 142可以处理从浏览器扩展120接收到的消息,并且可以向浏览器扩展120发送响应。门户140可以包括一个或多个数据库160,其中对于各用户标识符和/或账户标识符,数据库160包括与浏览器扩展120和/或门户140针对该用户标识符和/或账户标识符已经处理的URL相对应的记录集。各记录可以包括从对应于与记录相关联的URL的数字内容中提取的属性所用的字段,并且可以包括被分配给与记录相关联的URL的标志和/或经由浏览器扩展120被添加到URL的标记文本或选择所用的字段。因此,数据库160中的各记录162可以包括用户标识符164、账户标识符166、URL 168、从与URL相关联的数字内容提取并添加到该数字内容的属性170、以及/或者被分配至URL的标志172。除了这些字段之外,各记录还可以包括记录最后更新的日期。
门户140可以包括被配置为实现收集算法的一个或多个多通道收集引擎146。收集算法可被配置为在网络、暗网上进行搜索/爬行;与搜索引擎和/或API相连接以搜索网页(包括市场网页)、收集社交媒体馈送、收集潜在的钓鱼邮件和登陆页面、搜索移动应用和相关数据、收集付费搜索广告或盗版事件、以及/或者捕捉网络化环境中的任何其它数字内容。一个或多个多通道收集引擎146可以使用收集算法来生成或构建一个或多个查询(例如,数据库查询、API查询或基于web的查询),并且其中所述查询可以基于由一个或多个用户经由图形用户界面144而输入的一个或多个搜索项(例如,关键字)和/或统一资源定位符;以及/或者可以自主地生成或构建一个或多个查询。在典型实施例中,门户140可以基于从浏览器扩展接收到的数据来自主地细化收集算法。一个或多个多通道收集引擎146可以实现收集算法以根据搜索项的单个集合来构建多个查询,其中各查询可以特定于搜索引擎和/或应用程序接口(API)。
一个或多个多通道收集引擎146可以利用搜索引擎和/或API来执行至少一些查询,其中搜索引擎和/或API可以返回URL或因特网内容和/或网络化环境中的任何其它内容。作为一个示例,一个或多个多通道收集引擎146的执行可以从由一个或多个数据源处的一个或多个web服务器所托管的一个或多个因特网域返回一个或多个URL或网页。在一些实施例中,搜索结果可以作为列表返回,并且一个或多个多通道收集引擎146可以限制门户140所要处理的结果的数量。作为非限制性示例,一个或多个多通道收集引擎146可以例如选择搜索结果中所列出的前一百个URL或网页(或搜索结果的前十页)或任何合适数量的结果。经由一个或多个多通道收集引擎146返回的结果可以例如包括网页、社交媒体馈送、潜在的钓鱼邮件和登陆页面、移动应用和相关数据、付费搜索广告或盗版事件。
一个或多个多通道收集引擎115可被编程为便于并行搜索各种数据通道和/或数据源。可以使用诸如结构化查询语言(SQL)、上下文查询语言(CQL)、专有查询语言、域特定查询语言和/或任何其它合适的查询语言等的一种或多种查询语言来生成或构建查询。在一些实施例中,粗收集引擎146可以使用诸如Java、C、C++、Perl和Ruby等的一种或多种编程语言或脚本来生成或构建一个或多个查询。
提取引擎148可以解析从收集引擎146返回的结果,并从各结果(例如,个网页)提取属性。随着提取引擎120从各结果提取属性,提取引擎120构建属性的属性数据库130(例如,关系或NoSQL数据库)。例如,可以为所收集到的数据集117中的各结果(例如,各网页)创建记录,并且从结果提取的各属性可以与其相应记录中的字段相对应。从结果提取以创建记录的属性可以包括可用于评估各结果是与良性内容相对应还是与有害内容相对应的信息。从数据库130的结果和存储字段提取的属性可以例如是:统一资源定位符、网页的注册域名;用于托管数字内容的服务器的名称;原始数据,诸如HTML页面源代码、XML文件、JavaScript等;产品名称;产品描述;卖家名称;服务器、注册人、卖家的地理位置;卖家运输产品至的地理位置;卖家评论;结果的标题(例如,网页的标题);编号,诸如价格、可供购买的产品数量等;市场特定标识符;图像,诸如产品图像、徽标和/或艺术品等;其它媒体,诸如视频和/或音频等。
为了从结果提取属性,提取引擎148可以例如使用自然语言处理、机器学习、相似性度量、图像匹配技术、以及/或者模式匹配技术来识别结果中的属性。提取引擎148可以利用实体的一个或多个本体来得到和/或识别结果中所包括的实体(例如,卖家)。提取引擎148可以利用各种算法和/或技术。例如,针对单字符串可以使用诸如Baeza-Yates-Gonnet等的模糊文本模式匹配的算法,并且针对多字符串匹配可以使用模糊Aho-Corasick;在将文本文档转换为数字向量后,可以采用有监督或无监督文档分类技术的算法:使用诸如模糊Aho-Corasick等的多字符串模糊文本模式匹配算法;以及使用诸如隐含狄利克雷分布(LDA)和分层狄利克雷过程(HDP)等的主题模型。
再次参考浏览器扩展120,一个或多个图形用户界面124可以嵌入在web浏览器110的窗口中(例如,作为框架)以及/或者可以选择性地显示为弹出窗口或菜单。图形用户界面124可以允许用户与浏览器扩展120进行交互。在一些实施例中,一个或多个图形用户界面124可被生成为单独的窗口,使得一个或多个图形用户界面124被形成为单独且不同的浏览器窗口。
一个或多个图形用户界面124可以包括用以向用户显示信息的数据输出区域、以及/或者可通过用户(例如,菜单选项、选择工具)选择和/或可被配置为从用户接收信息的数据输入字段。数据输出区域的一些示例可以包括但不限于文本、图形(例如,图表、(地理的或其它)地图、以及图像等)、和/或任何其它合适数据输出区域。数据输入字段的一些示例可以包括但不限于文本框、复选框、按钮、下拉菜单和/或任何其它合适数据输入字段。
后台处理126可以在web浏览器110的上下文中执行,以与浏览器窗口中正显示的数字内容以及与门户140进行交互。例如,后台处理126可以向门户140的API 142发送消息以在web浏览器120导航至URL时请求来自门户140的信息,并且可以使用从门户140接收到的信息来修改与URL相关联的数字内容在浏览器窗口中的呈现,以将信息插入到浏览器扩展的一个或多个图形用户界面124中以及/或者动态地指定用户经由图形用户界面124可以选择的选项或动作。
可以执行标记覆盖128以在web浏览器110的浏览器窗口上提供可选择覆盖,以允许用户与同浏览器窗口中正在渲染的内容相关联的源代码或文件进行交互。例如,用户可以独立地且单独地对浏览器窗口中所渲染的内容中的图像、文本、标记、链接和/或其它元素进行选择、标志和标记。
为了便于对浏览器窗口中所渲染的内容中的图像、文本、标记、链接和/或其它元素进行独立且单独的选择、标志和标记,当网页被web浏览器110加载到浏览器窗口中时,浏览器扩展120的标记覆盖128可以监视用户与网页和/或浏览器窗口的交互。例如,标记覆盖128可以监视移动事件(例如,鼠标移动、击键、触摸屏上的用户手势)、选择事件(例如,点击、双重点击、轻击、双重轻击、经由鼠标、用户手势或键盘)、以及悬停事件(例如,在没有接收到与特定位置/元素相关联的选择事件的情况下或者在接收到与特定位置/元素相关联的选择事件之前将光标或指针放置在该特定位置/元素上)。在一些实施例中,标记覆盖128可以作为脚本执行以便于监视。
通过经由标记覆盖128监视用户交互,浏览器扩展120可以响应于移动事件、悬停事件和/或选择事件来进行与一个或多个元素相关联的一个或多个动作。例如,各移动事件、悬停事件和/或选择事件可以发出事件信号,其中该事件信号可被标记覆盖128使用以便于对浏览器窗口中所渲染的内容中的图像、文本、标记、链接和/或其它元素进行独立且单独的选择、标志和标记。事件信号可以包括并且用于确定元素的大小、元素在网页中的位置以及与元素相关联的其它属性,诸如文件名、与元素相关联的标志以及诸如图像、字符串或链接等的元素类型。标记覆盖128监听与移动事件、悬停事件和/或选择事件相关联的事件信号,并且可以在检测到各种类型的事件时进行不同的动作。作为一个示例,标记覆盖128可以使用所检测到的悬停事件(例如,基于悬停事件信号)来在光标或指针移动时发现并勾勒出元素。作为另一示例,标记覆盖128可以使用所检测到的选择事件(例如,基于选择事件信号)来显示上下文菜单并捕捉用户输入/选择。
作为悬停效果的一个非限制性示例,用户可以移动光标以悬停在网页中的对象(例如,HTML元素)上(例如,悬停事件),并且可以发出包括用户当前悬停于的元素的事件信号(悬停事件信号)。标记覆盖128可以接收或截取来自web浏览器110的事件信号以确定元素的大小和/或元素在浏览器窗口中的位置。基于元素的大小和位置,标记覆盖128可以在浏览器窗口中所渲染的元素周围绘制边界。响应于事件信号,标记覆盖128还可以确定元素的属性(例如,图像的文件名、与元素相关联的标志、诸如图像、字符串、链接等的元素类型)。
作为另一示例,当用户点击浏览器窗口中的网页的一部分时(例如,选择事件),由web浏览器110发出事件信号(例如,选择事件信号),并且标记覆盖128可以进行与(例如,基于悬停事件信号)检测到悬停事件时所进行的动作不同的动作。在一些实施例中,浏览器扩展120的标记覆盖128可以防止web浏览器110进行与选择事件相关联的默认动作,例如,防止web浏览器在选中网页中的链接的情况下进行页面重定向。作为替代,浏览器扩展120的标记覆盖128响应于选择事件而渲染一个或多个菜单和/或相关补充信息。菜单可以相对于所选元素或者(例如用户鼠标的)光标或指针的位置进行显示,因为标记覆盖128可以知道所选元素以及光标或指针的位置。一个或多个菜单可以基于所选元素的元素类型(例如,与<p>标志的字符串/短语相关的动作、与<img>标志的徽标相关的动作)来显示上下文选项/信息。例如,可以在元素是图像的情况下呈现具有第一组选项或动作的第一菜单,可以在元素是字符串的情况下呈现具有第二组选项或动作的第二菜单,并且可以在元素是链接的情况下呈现具有第三组选项或动作的第三菜单。
菜单选项或动作的一些示例可以例如包括将所选元素识别为良性或有害、从网页中识别和选择上下文属性以支持或反对将所选元素识别为良性或有害、标识从内容中缺失或预期在内容中的元素和/或上下文属性、收集所选元素的能力、元素为良性或有害的识别、以及/或者要导入至门户140中的上下文属性。作为一个示例,用户可以经由选项的菜单来识别和添加内容中的字符串、图像和/或链接作为上下文属性。作为另一示例,用户可以输入用户期望在网页中但不是用户需要以判断网页中的一个或多个元素是否符合的元素或上下文属性。例如,如果网页应该包含特定短语或图像、但不包含,则用户可以经由浏览器扩展的图形用户界面和菜单来通知将特定短语或图像识别为缺失,并且浏览器扩展可以将该数据发送至门户140以与内容的记录一起存储,从而生成新政策以及/或者生成或更新与内容、内容发布者和/或内容所有者相关联的评分。
在一些实施例中,浏览器扩展120可以向用户呈现相关问题的级联,以填充web浏览器所渲染的内容的上下文。例如,在用户将内容中的元素(例如,网页中的徽标)识别为误报的情况下,可以动态地生成上下文菜单以通过要求用户确认附加的可应用属性/元数据来请求附加信息,例如,内容(例如,网页或网站)对于该品牌/纵联/账户而言是受信任的或不受信任的,元素(例如,徽标)未被批准在该站点/上下文中使用(这可以使得浏览器扩展提示用户关于为什么不批准该元素的附加信息),与该元素(例如,徽标)相关联的空话(verbiage)缺失。
为内容中的元素指定的上下文属性可以与元素和与内容有关的其它信息结合使用,以发现、创建和改善来自报告/分类趋势的政策。政策和上下文之间的关系可被映射以潜在地动态地呈现这些附加问题。当生成类似政策时,门户140可以训练一个或多个机器学习算法以动态地指定上下文菜单。例如,门户140可以经由浏览器扩展自主地生成基于历史数据的一个或多个查询(例如,门户140询问“这是你正在寻找的事物吗?”或者“你期望该字符串(不)出现吗?”等)
在典型实施例中,标记覆盖128可以将浏览器窗口中所呈现的内容的元素映射到浏览器所使用的源代码或文件的底层内存版本的相应片段,以在浏览器窗口中渲染该元素。例如,用户可以经由标记覆盖128来选择被包括在浏览器窗口中所渲染的内容中的图像,这可以使得图像被突出显示。响应于图像的选择,标记覆盖128可以识别底层源代码或文件中的与该图像相对应的片段(例如,其可以包括该图像的文件名)。用户可以选择一个或多个选项来指示标记覆盖128进行一个或多个选项,诸如标记或标志图像或者文件的源代码的相应片段、例如经由后端进行126将图像和/或源代码或文件的相应片段(例如,文件名)发送至门户以创建或包含在门户140的数据库记录中、以及/或者自主地更新门户用来发现网络化环境中的内容的收集算法。
作为非限制性示例,在典型操作中,当启动web浏览器110的实例时,web浏览器110加载浏览器扩展120的实例,使得用户接口122、后台处理126和/或标记覆盖128与web浏览器110结合执行。浏览器扩展120可以(例如,经由一个或多个图形界面124)向web浏览器110的用户请求用户凭证。在接收到用户凭证时,浏览器扩展120的后台处理126可以通过向门户140发送包括用户凭证的消息来尝试建立与门户140的连接。在门户140对用户凭证进行认证之后,门户将消息发送回浏览器扩展120,指示在浏览器扩展120与门户140之间已经建立连接。
随后,web浏览器110可以导航至具有相关URL的网页102。例如,用户可以在web浏览器110的地址栏中输入URL,可以选择嵌入在浏览器窗口中所渲染的内容中的链接,可以将文本输入到搜索引擎的数据输入字段中,以及/或者可以从其中一个图形用户界面124中所渲染的URL的列表选择URL。列表URL可以由门户140基于该门户140的收集引擎144所实现的收集算法148来生成,并且可以表示针对包括有害或良性元素的内容所要检查的URL。
在一些实施例中,浏览器扩展120的后台处理126可以响应于web浏览器110导航至网页102而将网页102的URL并入消息中,并且将该消息发送至门户140的API 142。API 142可以基于该消息来创建一个或多个数据库查询。可以构造一个或多个数据库查询以在数据库中搜索与消息中所接收到的URL相关联的记录,其中该记录特定于与在门户140和浏览器扩展120之间建立的连接相关联的用户标识符和/或帐户编号(例如,数据库查询可被配置为搜索与web浏览器110和浏览器扩展120的用户相关联的记录集中的、与URL相对应的记录)。
一个或多个查询的结果可以由门户140的API 142发送回浏览器扩展120的后台处理126。作为一个示例,如果响应于一个或多个查询没有返回与URL相对应的记录,则API142可以发送用于指示不存在URL的记录的消息(例如,该消息可以包括空的结果集)。响应于接收到用于指示没有发现记录的消息,后台处理126可以控制一个或多个图形用户界面124以向用户生成不存在URL的记录的指示符,可以修改网页或与网页相关联的浏览器标签的呈现以插入用于指示不存在URL的记录的指示符,可以与标记覆盖进行交互以动态地指定针对网页102的元素可以选择或进行的选项或动作。在典型实施例中,指示符可以是图形图标,并且可以通过修改与网页相关联的源代码来修改网页的呈现。
作为另一示例,在一些实施例中,如果响应于一个或多个查询而返回与URL相对应的记录,则API 142可以发送用于指示存在URL的记录的消息。该消息可以包括与URL相对应的记录中所包含的信息。例如,消息可以包括网页中的特定元素的记录中所存储的任何标志和/或标记。响应于接收到用于指示发现记录的消息,后台处理126可以控制一个或多个图形用户界面124以显示与URL相关联的标志,可以修改网页102或与网页相关联的浏览器标签的呈现以插入与被分配给URL的标志和/或标记其中之一相对应的指示符。例如,后台处理126可以与标记覆盖128进行交互以将标记插入到源代码的内存版本中以及/或者突出显示与浏览器窗口中正在渲染的标记相关联的元素。作为另一示例,插入到浏览器窗口中的指示符可以是图形图标,并且可以通过修改与网页相关联的源代码来修改网页102的呈现以插入针对网页102中的一个或多个元素的指示符。
一个或多个图形用户界面124可以允许用户响应于一个或多个图形用户界面124中所呈现的一个或多个选项的选择来控制浏览器扩展120和门户140的操作。作为一个示例,用户可以在一个或多个图形用户界面124中选择用于使得后台处理126捕捉网页的图像的选项,其中网页的图像可以存储在数据库160中并且与同网页相关联的URL的记录相关联。作为另一示例,用户可以选择一个或多个图形用户界面124中的如下选项,其中该选项使得标记覆盖128选择网页中的元素和/或其相应的源代码片段、向所选元素和/或其相应的源代码段分配指定标记或标志、识别网页中的支持指定标记或标志的上下文属性、收集所选元素、标记或标志和/或上下文属性、以及创建或修改门户140中的数据库中的记录。收集网页或网页的元素可以包括从网页或元素提取属性、以及创建或更新数据库中的记录,该记录包括所提取的属性以及从中提取属性的网页的URL和网页的元素。响应于选择收集网页,后台处理126和/或门户140可以(例如,经由提取引擎148)自主地从网页提取属性以添加到URL的记录。
在一些实施例中,后台处理126和/或门户140可被配置为自发地标志和/或标记网页中的特定元素。例如,后台处理126和/或门户140可被配置为利用一个或多个机器学习算法来指定标志、经由网页的标记覆盖选择元素、以及/或者基于标志和/或标记修改源代码的内存版本。可以使用训练数据(包括门户140经由浏览器扩展所接收到的数据)的语料库来训练机器学习算法。
在一些实施例中,可以基于与先前识别的内容和/或先前识别的内容元素(例如,图像或文本)相关联的特定的已知或习得属性来自主地标志和/或标记网页中的元素。作为示例,如果网页中的元素是具有指定文件名的图像,则门户140可以与浏览器扩展120进行交互以判断该图像是否符合遵循标准以及/或者是否是良性的。门户140可以使用图像/像素匹配、图像签名或散列和/或图像的文件名的字符串相似性度量来判断图像是否符合遵循标准或者是否是良性的,并且可以指示浏览器扩展基于该判断来标志或标记网页中的图像。
在典型实施例中,门户140可被配置为以编程方式确定并提供上下文,以辅助用户和解析器(例如,提取引擎148)识别良性和有害元素(例如,元素是否表示遵循政策违反)。为了实现这一点,门户140可以利用从浏览器扩展120返回到门户140的特定数据来生成一般化规则或习得行为。
在典型实施例中,浏览器扩展120可被配置为控制web浏览器110,使得web浏览器120打开多个浏览器窗口或浏览器标签并且导航至各浏览器窗口或浏览器标签中的不同网页。当web浏览器110以这种方式操作时,浏览器扩展120和门户140的典型实施例可以以与在处理浏览器窗口或浏览器标签中所打开的一个网页中的URL时所描述的相同或相似的方式操作。在浏览器扩展120和门户140进行通信以判断数据库160中是否存在针对各URL的记录以及/或者URL是否已被标志或特定元素是否已被标志或标记之后,一个或多个图形用户界面124可被配置为允许用户单独地、以组或子集的形式和/或共同地进行对网页中的元素的标志、标记和收集。例如,web浏览器110可以具有打开的大量浏览器标签,其中各浏览器标签渲染不同的网页。各网页可以包括至少一个图像,并且浏览器扩展120和/或门户可以(例如,基于图像/像素匹配、签名/散列)确定哪些网页包括图像的相同实例,使得针对图像的实例中所渲染的各浏览器窗口或标签自动采取针对浏览器标签或窗口之一中的图像所采取的任何动作。
在一个非限制性应用中,环境100的典型实施例可用于品牌/实体保护和完整性,其中关于数字内容是否包括与品牌/实体相关联的图像和/或文本以及数字内容中所包括的图像和/或文本是否被认证、授权和/或符合为品牌或实体建立的遵循政策(例如,可以使用图像和/或文本的某些变型或版本,但是不可以使用其它变型和/或版本,使得品牌/实体跨数字通道的存在是统一且一致的)的判断。门户140可以定义和识别特定指示符,以基于以下各项来判断数字内容中所包括的图像和/或文本是否被认证、授权和/或符合为品牌或实体建立的遵循政策:来自浏览器扩展120的输入,其采用网页中的元素的形式;元素的标记或标志,用于指示元素是否被认证、授权和/或符合为品牌或实体建立的遵循政策;以及/或者网页中的上下文属性,其被识别以支持所分配的标记或标志(周围的文本或图像和元数据,诸如标题标志、元标志、注册人信息、内容的内容传递网络、新政策定义等)。
特定指示符可以由门户140使用以生成可用于改善网页、网页中的元素、提供网页的数据源和/或将网页添加到数据源的实体的身份的结果集的值。可以将指示符加权为可被分配给各结果的总政策违反评分,其中政策违反评分可以是结果与同品牌或实体相关联的元素的认证、授权和/或遵循使用相对应的可能性的指示符。例如,评分越低,结果越不可能包括有害的(例如未授权、不可信和/或不符合的)元素。门户140的用户可以设置最小评分的阈值,其中结果在被添加至用户所要检查的结果集之前必须达到该阈值。门户140中的解析器可以计算政策违反评分,并且解析器可以使用政策违反评分以(例如,基于评分来)过滤掉误报或良性结果,使得误报和良性结果不被包括在结果集中。
在用户可配置返回结果的最小评分阈值的情况下,门户140可以以一种或多种方式指定阈值。作为一个示例,门户140可以在图形用户界面144中生成滑块以增加/减小阈值。政策可以是指示符的集合,并且可以提供更细粒度的控制以向用户提供独立地对形成政策的各种指示符进行加权的能力。
在典型实施例中,可以外推由门户140从浏览器扩展120接收到的数据以生成用于识别与品牌或实体相关联的元素的认证、授权和/或遵循使用的广义指示符。在从浏览器扩展接收到的数据不仅包括元素和被分配给元素的标志或标记、而且还包括支持所分配的标志或标记的上下文属性的情况下,可以加强这种外推。
例如,门户140的收集引擎146和提取引擎148可以返回来自expedia.com的、被标示为误报的结果(例如,结果是良性的并且已被分配了用于良性的标志或标记)。用户添加的上下文可以是expedia.com为受信任旅游网站的URL、并且声誉好的旅游网站受信任/受鼓励以使用与品牌相关联的元素(例如,品牌的标志)的知识。在该特定非限制性示例中,用户可以识别为expedia.com是“旅游”纵联内的品牌的受信任网站。随着时间的过去,可以在URL expedia.com(可能为任何形式,expedia.com或其扩展)和“旅游”纵联内的品牌/实体(例如,Jet Blue)之间建立正相关性。该示例可以被进一步扩展,使得给定的URL或域可被识别为受信任的,同时由于URL包括旧的/坏的/不正确的徽标(网页、网站上的徽标的版本不符合为该品牌或实体建立的遵循政策),因此仍然将URL或域上的品牌特定图像标记为正指示符。
继续以上说明性示例,来自旅游纵联内的品牌的expedia.com的结果可以使其评分降低(降低量取决于网站在该上下文内已经变得有多受信任),因为这些结果更可能是基于类似历史示例的误报。元素(例如,旅游实体的特定徽标)可以响应于先前被识别为正指示符的元素而接收评分的增加(例如,发现expedia.com上所包括的特定徽标不符合)。使用这种方法,一般断言的加权将严重低于特定断言。
在典型实施例中,诸如以下的各种因素可以促成政策违反评分:网页中的元素;元素的标记或标志,用于指示元素是否被认证、授权和/或符合为品牌或实体建立的遵循政策;以及/或者网页中的上下文属性,其被识别以支持所分配的标记或标志(周围的文本或图像和元数据,诸如标题标志、元标志、注册人信息、内容的内容传递网络、新政策定义等)。浏览器扩展120的用户可以添加附加上下文,诸如元素(例如,品牌徽标的版本)对于一些网页(例如,像直接供应商网站)而言是符合的,但是对于其它网页(例如,像Expedia等的第三方网站)是不符合的,在这种情况下,用户可以包括新的政策定义。
门户140可以定义政策违反评分的最小阈值,其中结果必须达到该最小阈值以经由门户140的图形用户界面144显示给用户。例如,门户140可以基于该阈值过滤掉一些结果以防止可能是误报的结果被显示给用户,这例如因为低于阈值的评分可以指示符合的类似历史结果。在一些实施例中,最小阈值可以由门户140的用户指定,使得门户的用户可以控制返回的结果量。
图1B是根据本发明的实施例的用于同时在浏览器内搜索、查看、标志、比较和收集数字内容的环境100’的框图。如图1B所示,门户140的本实施例可以包括如以上针对图1A所述的GUI 144、一个或多个收集引擎146、提取引擎148、以及数据库160(包括用户标识符164、账户标识符166、URL 168、属性170、和/或各记录162的标志172)。门户140可以进行这里参考图1A所述的操作和功能。
在门户140的本实施例中,还可以包括增强型浏览器145,其中该增强型浏览器145包括如以上参考图1A所述的用户接口112、后台处理126和标记覆盖128。门户140的本实施例还可以包括浏览器功能110’。在典型实施例中,增强型浏览器145可以组合web浏览器110和浏览器扩展120的操作和功能,以提供对网络化环境中的内容的同时在浏览器内搜索、查看、标记、标志、比较和收集,并且最终可以便于从网络化环境中移除有害内容。增强型浏览器145可以执行浏览器功能110’,以例如基于与数字内容相关联的统一资源标识符(URI)或统一资源定位符(URL)来检索和显示一个或多个服务器所托管的数字内容。例如,增强型浏览器145可以使用URI来查询以一个或多个网页102的形式托管数字内容的一个或多个web服务器,并且可以以与图1A所示的web浏览器110相同的方式基于URI和URL来检索和显示一个或多个网页102。浏览器功能110’可被执行以处理从一个或多个服务器检索到的网页或文件从而向用户显示数字内容,并且可以使用一个或多个插件(例如,Flash应用、Java小程序)。增强型浏览器145可以同时在多个浏览器窗口或浏览器标签中打开数字内容。
增强型浏览器145可以提供动态浏览环境,其中在该动态浏览环境中,增强型浏览器145对增强型浏览器145的浏览器窗口中正显示的数字内容和/或与正显示的数字内容相关联的URL进行响应。在典型实施例中,可以响应于后台处理126、标记覆盖128和浏览器功能110’之间以及/或者增强型浏览器145、GUI 144、收集引擎146、提取引擎148和数据库160之间的交互来实现增强型浏览器145的动态行为。
一个或多个图形用户界面124可以嵌入在增强型浏览器145的窗口中(例如,作为框架)以及/或者可以选择性地显示为弹出窗口或菜单以允许用户与增强型浏览器145进行交互。在一些实施例中,一个或多个图形用户界面124可被生成为单独的窗口,使得一个或多个图形用户界面124被形成为单独且不同的窗口。
后台处理126可以在增强型浏览器的上下文中执行,以与浏览器窗口中正显示的数字内容以及与收集引擎146、提取引擎148和数据库160进行交互。例如,当增强型浏览器145导航至URL时,后台处理126可以从收集引擎146、提取引擎148和/或数据库160请求信息。增强型浏览器可以使用该信息以修改与浏览器窗口中的URL相关联的数字内容的呈现、将信息插入到一个或多个图形用户界面124中、以及/或者动态地指定用户经由图形用户界面124可以选择的选项或动作。
可以执行标记覆盖128以在增强型浏览器145的浏览器窗口上提供可选择的覆盖,从而允许用户与同增强型浏览器145的浏览器窗口中正渲染的内容相关联的源代码或文件进行交互。例如,用户可以如这里所述经由标记覆盖128独立且单独地对浏览器窗口中所渲染的内容中的图像、文本、标记、链接和/或其它元素进行选择、标志和标记。例如,如这里所描述的,为了便于对浏览器窗口中所渲染的内容中的图像、文本、标记、链接和/或其它元素进行独立且单独的选择、标志和标记,当网页被增强型浏览器145加载到浏览器窗口中时,增强型浏览器的标记覆盖128可以监视用户与网页和/或浏览器窗口的交互。例如,标记覆盖128可以监视移动事件(例如,鼠标移动、击键、触摸屏上的用户手势)、选择事件(例如,点击、双重点击、轻击、双重轻击、经由鼠标、用户手势或键盘)、以及悬停事件(例如,在没有接收到与特定位置/元素相关联的选择事件的情况下或者在接收到与特定位置/元素相关联的选择事件之前将光标或指针放置在该特定位置/元素上)。在一些实施例中,标记覆盖128可以作为脚本执行以便于监视。通过经由标记覆盖128来监视用户交互,增强型浏览器145可以响应于移动事件、悬停事件和/或选择事件而进行与一个或多个元素相关联的一个或多个动作,如这里参考图1A所述。
作为非限制性示例,增强型浏览器145可以导航至具有相关URL的网页102。例如,用户可以在增强型浏览器145的地址栏中输入URL,可以选择嵌入在增强型浏览器145的浏览器窗口中所渲染的内容中的链接,可以将文本输入到搜索引擎的数据输入字段中,以及/或者可以从其中一个图形用户界面124中所渲染的URL的列表中选择URL。URL的列表可以由门户140基于该门户140的收集引擎144所实现的收集算法148生成,并且可以表示针对包括有害或良性元素的内容所要检查的URL。
在一些实施例中,增强型浏览器145的后台处理126可以基于网页102的URL来创建一个或多个数据库查询。可以构造一个或多个数据库查询以搜索数据库,以在数据库中搜索与URL相关联的特定于用户标识符和/或账户编号的记录。如果响应于一个或多个查询没有返回与URL相对应的记录,则可以向增强型浏览器145返回表示不存在URL的记录的消息(例如,该消息可以包括空的结果集),并且后台处理126可以控制一个或多个图形用户界面124以向用户生成用于指示不存在URL的记录的指示符,可以修改网页或与网页相关联的浏览器标签的呈现以插入用于指示不存在URL的记录的指示符,可以与标记覆盖进行交互以动态地指定针对网页102的元素可以选择或进行的选项或动作。在典型实施例中,指示符可以是图形图标,并且可以通过修改与网页相关联的源代码来修改网页的呈现。
作为另一示例,在一些实施例中,如果响应于一个或多个查询而返回与URL相对应的记录,则可以返回与URL相对应的记录中所包括的信息,并且后台处理126可以控制一个或多个图形用户界面124以显示与URL相关联的标志,可以修改网页102或与网页相关联的浏览器标签的呈现以插入与被分配给URL的标志和/或标记其中之一相对应的指示符。例如,后台处理126可以与标记覆盖128进行交互以将标记插入到源代码的内存版本中以及/或者突出显示与浏览器窗口中正在渲染的标记相关联的元素。作为另一示例,插入到浏览器窗口中的指示符可以是图形图标,并且可以通过修改与网页相关联的源代码来修改网页102的呈现以插入针对网页102中的一个或多个元素的指示符。
一个或多个图形用户界面124可以允许用户响应于一个或多个图形用户界面124中所呈现的一个或多个选项的选择来控制增强型浏览器145的操作。作为一个示例,用户可以在一个或多个图形用户界面124中选择用于使得后台处理126捕捉网页的图像的选项,其中网页的图像可以存储在数据库160中并且与同网页相关联的URL的记录相关联。作为另一示例,用户可以选择一个或多个图形用户界面124中的如下选项,其中该选项使得标记覆盖128选择网页中的元素和/或其相应的源代码片段、向所选元素和/或其相应的源代码段分配指定标记或标志、识别网页中的支持指定标记或标志的上下文属性、收集所选元素、标记或标志和/或上下文属性、以及创建或修改数据库160中的记录。
在一些实施例中,后台处理126可被配置为自发地标志和/或标记网页中的特定元素。例如,后台处理126可被配置为利用一个或多个机器学习算法来指定标志、经由网页的标记覆盖选择元素、以及/或者基于标志和/或标记修改源代码的内存版本。可以使用训练数据(包括从GUI 144、收集引擎146和提取引擎148接收到的数据)的语料库来训练机器学习算法。
在一些实施例中,可以基于与先前识别的内容和/或先前识别的内容元素(例如,图像或文本)相关联的特定的已知或习得属性来自主地标志和/或标记网页中的元素。作为示例,如果网页中的元素是具有指定文件名的图像,则增强型浏览器145可以例如基于图像/像素匹配、图像签名或散列、和/或图像的文件名的字符串相似性度量来判断图像是否符合遵循标准和/或是否是良性的,并且可以基于该判断来标志或标记网页中的图像。
在典型实施例中,门户140可被配置为以编程方式确定并提供上下文,以辅助用户和解析器(例如,提取引擎148)识别良性和有害元素(例如,元素是否表示遵守政策违反)。为了实现这一点,门户140可以利用从增强型浏览器145返回到门户140的特定数据来生成一般化规则或习得行为。
在典型实施例中,增强型浏览器145打开多个浏览器窗口或浏览器标签,并且导航至各浏览器窗口或浏览器标签中的不同网页。当增强型浏览器145以这种方式操作时,增强型浏览器145的典型实施例可以以与在处理浏览器窗口或浏览器标签中所打开的一个网页中的URL时所描述的相同或相似的方式操作。在门户140判断数据库160中是否存在针对各URL的记录以及/或者URL是否已被标志或特定元素是否已被标志或加标记之后,一个或多个图形用户界面124可被配置为允许用户单独地、以组或子集和/或共同地进行对网页中的元素的标志、标记和收集。例如,增强型浏览器145可以具有打开的大量浏览器标签,其中各浏览器标签渲染不同的网页。各网页可以包括至少一个图像,并且增强型浏览器可以(例如,基于图像/像素匹配、签名/散列)确定哪些网页包括图像的相同实例,使得针对图像的实例中所渲染的各浏览器窗口或标签自动采取针对浏览器标签或窗口之一中的图像所采取的任何动作。
门户140可以定义和识别特定指示符,以基于以下各项来判断数字内容中所包括的图像和/或文本是否被认证、授权和/或符合为品牌或实体建立的遵循政策:来自增强型浏览器145的输入,其采用网页中的元素的形式;元素的标记或标志,用于指示元素是否被认证、授权和/或符合为品牌或实体建立的遵循政策;以及/或者网页中的上下文属性,其被识别以支持所分配的标记或标志(周围的文本或图像和元数据,诸如标题标志、元标志、注册人信息、内容的内容传递网络、新政策定义等)。如这里所描述,门户140可以使用特定(加权)指示符(例如,以生成值-政策违反评分)。
虽然增强型浏览器的实施例已被描述为包括在门户的实施例中,但是在典型实施例中,增强型浏览器可以是以与参考图1A所描述的浏览器扩展的实施例类似的方式与门户相接的独立应用。作为一个非限制性示例,本机桌面应用可以嵌入或并入诸如webkit或blink等的浏览器或浏览器引擎,并且本机桌面应用可以形成增强型浏览器。
图2是根据本发明的实施例的用于便于因特网或其它网络化环境上的数字内容和/或数字内容中的元素的同时在浏览器内搜索、查看、标志、比较和收集的典型网络化环境200。环境200包括用户计算装置210~211、远程计算系统220~223和通信网络290。
如图2所示,用户计算装置210包括web浏览器110和浏览器扩展120,并且计算装置212包括增强型浏览器145。例如,计算装置212上所包括的增强型浏览器145可以是嵌入或并入了诸如webkit或blink等的浏览器或浏览器引擎的本机桌面应用。在安全性或沙盒限制将阻止单独的浏览器扩展的某些功能的情况下,将增强型浏览器145实现为计算装置212上的本机桌面应用可以是有益的。用户计算装置211包括客户端应用215,其中该客户端应用215被配置为与远程计算系统220相接以在远程计算系统220处创建用户计算装置211的虚拟桌面230。远程计算系统220可以包括一个或多个服务器231,其中一个或多个服务器231被配置为实现虚拟桌面230并且包括web浏览器110和浏览器扩展120,使得这一个或多个服务器231代表用户计算装置211并且响应于从用户计算装置211接收到的指令并且就好像正在用户计算装置211处执行web浏览器110和浏览器扩展120那样执行web浏览器110和浏览器扩展120。
远程计算系统221~222可以一个或多个服务器240和250,其中这一个或多个服务器240和250分别被配置为托管数字内容。例如,一个或多个服务器240和250可被实现为分别被配置为托管网站241和251的web服务器,其中网站241和251各自分别包括网页242和252。用户计算装置210和远程计算系统220所实现的web浏览器110可被配置为导航至服务器240和250所分别托管的网站241和251。
远程计算系统223可以包括被配置为实现门户140的一个或多个服务器260,并且可以包括一个或多个数据库160。在一些实施例中,门户140可以包括或可以不包括增强型浏览器145的实施例。本领域的技术人员将认识到,数据库160可以并入到一个或多个服务器260中,使得一个或多个服务器260可以包括数据库160。在一些实施例中,执行门户140的一个或多个服务器260可以分别与远程计算系统221~222的服务器250和260进行交互,以访问和检索门户140所要处理的网页。
通信网络290可以是任何网络,其中通过该网络,可以在通信联接至该网络的装置之间传输信息。例如,通信网络290可以是因特网、内联网、虚拟专用网(VPN)、广域网(WAN)和局域网(LAN)等。
在典型操作中,由用户计算装置210或212和/或一个或多个服务器260或231来启动增强型浏览器环境的实例。增强型浏览器环境可以例如是增强型浏览器145的实例或加载有浏览器扩展120的web浏览器110的实例。用户接口122、后台处理126和标记覆盖128可以由用户计算装置210或212和/或一个或多个服务器260或231结合增强型浏览器环境来执行。对于增强型浏览器环境包括浏览器扩展120的实施例,浏览器扩展120(例如,经由一个或多个图形界面124)向web浏览器110的用户请求用户凭证。在接收到用户凭证时,浏览器扩展的后台处理126可以通过用户计算装置210和/或一个或多个服务器231来执行,以通过向远程计算系统223发送包括用户凭证的消息来尝试建立与远程计算系统223的连接。一个或多个服务器260可以执行门户140以对用户凭证进行认证,并且一个或多个服务器260可以响应于门户140的操作而将消息发送回浏览器扩展120,以指示已经在用户计算装置210或一个或多个服务器231与一个或多个服务器260之间建立了连接。对于增强型浏览器环境包括增强型浏览器145的实施例,用户可以使用用户凭证登录到门户以访问增强型浏览器。
随后,增强型浏览器环境可以通过基于URL查询远程计算系统221或222的服务器来导航至具有相关URL的网页102。被查询的服务器可以将网页返回给执行增强型浏览器145的用户计算系统210或212和/或一个或多个服务器260或231,其中增强型浏览器145可以在增强型浏览器环境的浏览器窗口中渲染网页并且将网页的源代码的内存版本存储在存储器中(例如,存储在与用户计算装置210或212相关联的存储器中或者存储在与一个或多个服务器260或231相关联的存储器中)。响应于增强型浏览器环境导航至网页102,增强型浏览器环境的后台处理126可以将网页的URL并入消息中并且将消息发送至一个或多个服务器260以供门户140(其可以基于消息来创建一个或多个数据库查询)处理,或者后台处理126可以直接查询一个或多个数据库。可以构造一个或多个数据库查询以在数据库中搜索与消息中所接收到的URL相关联的、特定于与增强型浏览器环境的用户(例如,在用户计算装置210和一个或多个服务器260之间以及/或者在一个或多个服务器231和一个或多个服务器260之间以及/或者基于用户登录到门户14而建立的连接)相关联的用户标识符和/或账户标识符的记录,例如,数据库查询可被配置为在与增强型浏览器环境的用户相关联的记录集中搜索与URL相对应的记录。如这里所述,一个或多个查询的结果可以被一个或多个服务器260发送回执行增强型浏览器环境的装置以供增强型浏览器环境的后台处理126处理。对于服务器260正在执行增强型浏览器环境的实施例,后台处理可以查询并接收来自数据库160的结果。
图3是根据本发明的实施例的典型服务器300的框图。在本实施例中,服务器300被编程和/或配置为执行门户140的操作和/或功能中的一个或多个。服务器300包括一个或多个非暂时性计算机可读介质,用于存储实现典型实施例所用的一个或多个计算机可执行指令或软件。非暂时性计算机可读介质可以包括但不限于一种或多种类型的硬件存储器和非暂时性有形介质(例如,一个或多个磁存储盘、一个或多个光盘、一个或多个闪存驱动器)等。例如,服务器300中所包括的存储器306可以存储用于实现门户140或其部分的典型实施例的计算机可读且计算机可执行的指令或软件。
服务器300还包括可配置和/或可编程处理器302和相关联的核204、以及可选的一个或多个附加的可配置和/或可编程处理器302’和相关联的核304’(例如,在计算机系统具有多个处理器/核的情况下),以执行存储器306中所存储的计算机可读和计算机可执行指令或软件以及用于控制系统硬件的其它程序。处理器302和处理器302’可以各自是单核处理器或多核(304和304’)处理器。
可以在服务器3000中采用虚拟化,使得可以动态地共享计算装置中的基础架构和资源。一个或多个虚拟机314可被设置为:处理多个处理器上所运行的处理以使得该进程看起来像仅使用一个计算资源而不是多个计算资源、以及/或者分配计算资源以进行与门户140相关联的功能和操作。多个虚拟机也可以与一个处理器一起使用,或者可以分布在多个处理器间。
存储器306可以包括计算机系统存储器、或者诸如DRAM、SRAM和EDO RAM等的随机存取存储器。存储器306也可以包括其它类型的存储器或其组合。
服务器300还可以包括诸如硬盘驱动器、CD-ROM、大容量存储闪存驱动器、或其它计算机可读介质等的一个或多个存储装置324,以用于存储数据以及可由处理装置302执行以实现这里所述的门户140的典型实施例的计算机可读指令和/或软件。
服务器300可以包括网络接口312,其中该网络接口312被配置为经由一个或多个网络装置322,通过包括但不限于标准电话线、LAN或WAN链路(例如,802.11、T1、T3、56kb、X.25)、宽带连接(例如,ISDN、帧中继、ATM)、无线连接(包括经由蜂窝基站)、控制器区域网络(CAN)、或者以上的任意或全部的一些组合的多种连接,来与一个或多个网络(例如,局域网(LAN)、广域网(WAN)或因特网)相接。网络接口312可以包括内置网络适配器、网络接口卡、PCMCIA网卡、卡总线网络适配器、无线网络适配器、USB网络适配器、调制解调器、或者适用于使服务器300与能够通信并且进行这里所述的操作的任何类型的网络相接的任何其它装置。虽然图3中所描绘的服务器300被实现为服务器,但是服务器300的典型实施例可以是任何计算机系统,诸如工作站、台式计算机、或者能够通过无线通信或有线通信与其它装置进行通信并且具有足够的处理器能力和存储器容量来进行这里所述的操作的其它形式的计算或电信装置等。
服务器300可以运行任何服务器应用316,诸如包括任何基于Unix的服务器应用、基于Linux的服务器应用、任何专有服务器应用、或者能够运行在服务器300上并进行这里所述的操作的任何其它服务器应用的任何版本的服务器应用。可以运行在计算装置上的服务器应用的示例包括Apache服务器应用。
图4是可用于实现web浏览器110和浏览器扩展120的典型实施例的典型用户计算装置400的框图。计算装置400包括用于存储实现典型实施例所用的一个或多个计算机可执行指令或软件的一个或多个非暂时性计算机可读介质。非暂时性计算机可读介质可以包括但不限于一种或多种类型的硬件存储器、非暂时性有形介质(例如,一个或多个磁存储盘、一个或多个光盘、一个或多个闪存驱动器)等。例如,计算装置400中所包括的存储器406可以存储用于实现web浏览器110和浏览器扩展120的典型实施例的计算机可读和计算机可执行指令或软件。计算装置400还包括可配置和/或可编程处理器402和相关联的核404、以及可选的一个或多个附加的可配置和/或可编程处理器402’和相关联的核404’(例如,在计算机系统具有多个处理器/核的情况下),以执行存储器406中所存储的计算机可读和计算机可执行指令或软件以及用于控制系统硬件的其它程序。处理器402和处理器402’可以各自是单核处理器或多核(404和404’)处理器。
存储器406可以包括计算机系统存储器或随机存取存储器,诸如DRAM、SRAM和EDORAM等。存储器406也可以包括其它类型的存储器或其组合。
用户可以通过诸如计算机监视器等的视觉显示装置418来与计算装置400进行交互,其中视觉显示装置418可以显示可根据典型实施例提供的一个或多个用户接口420。计算装置400可以包括用于从用户接收输入的其它I/O装置,例如,键盘或任何合适的多点触摸接口(例如,键盘)408、指示装置410(例如,鼠标)。键盘408和指示装置410可以联接至视觉显示装置418。计算装置400可以包括其它合适的传统I/O外围设备。
计算装置400还可以包括诸如硬盘驱动器、CD-ROM或其它计算机可读介质等的一个或多个存储装置424,以存储用于实现这里所描述的门户140的典型实施例的数据和计算机可读指令和/或软件。典型存储装置424还可以存储实现典型实施例所需的信息。例如,典型存储装置424可以存储诸如浏览器历史和/或由浏览器扩展创建的一个或多个文件等的信息,以便于浏览器扩展120和门户140之间的通信。
计算装置400可以包括网络接口412,其中该网络接口412被配置为经由一个或多个网络装置422来与例如以下的一个或多个网络相接:局域网(LAN)、广域网(WAN)或者通过包括但不限于标准电话线、LAN或WAN链路(例如,802.11、T1、T3、56kb、X.25)、宽带连接(例如,ISDN、帧中继、ATM)、无线连接的各种连接的因特网、控制器局域网(CAN)、或以上中的任何或全部的某种组合。网络接口412可以包括内置网络适配器、网络接口卡、PCMCIA网络卡、卡总线网络适配器、无线网络适配器、USB网络适配器、调制解调器、或适于将计算装置400与能够通信并进行这里所描述的操作的任何类型的网络相接的任何其它装置。此外,计算装置400可以是任何计算机系统,诸如工作站、台式计算机、服务器、膝上型计算机、手持式计算机、平板计算机(例如,iPadTM平板计算机)、移动计算或通信装置(例如,iPhoneTM通信装置)、或者能够通信并且具有足够的处理器功率和存储器容量以进行这里所描述的操作的其它形式的计算或电信装置。
计算装置400可以运行任何操作系统416,诸如操作系统的任何版本、Unix和Linux操作系统的不同发行版本、Macintosh计算机所用的的任何版本、任何嵌入式操作系统、任何实时操作系统、任何开源操作系统、任何专有操作系统、或者能够在计算装置上运行并进行这里所描述的操作的任何其它操作系统等。在典型实施例中,操作系统416可以以本机模式或仿真模式运行。在典型实施例中,操作系统416可以在一个或多个云机器实例上运行。
图5描绘了在增强型浏览器环境(例如,增强型浏览器145的实施例或加载有浏览器扩展120的实施例的web浏览器110的实施例)的浏览器窗口500中打开的网页502。可以实现增强型浏览器环境以便于根据本发明的实施例的对数字内容和/或数字内容中的元素的同时在浏览器内搜索、查看、标志、比较和收集。
增强型浏览器环境的图形用户界面124可被设置为覆盖正由增强型浏览器环境正在显示的网页的一部分,或者可被嵌入在浏览器窗口500的框架中。例如,在本示例中,沿着浏览器窗口500的底部示出增强型浏览器环境的图形用户界面124。作为另一示例,图形用户界面124可被渲染为弹出窗口,如图6所示。图形用户界面124包括要检查的URL 510的列表,其中该列表可以由门户提供给浏览器扩展。该列表还可以包括与URL相关联的标志和属性,包括各URL的品牌标识512、基于门户中所存储的记录的URL的最后检查日期514、与URL相关联的状况/遵循性516、以及URL符合或不符合的原因518。
用户可以在网页502上移动鼠标或光标或以其它方式在网页502上执行手势以经由增强型浏览器环境的标记覆盖来悬停在网页502上所渲染的一个或多个元素上和/或选择网页502上所渲染的一个或多个元素,诸如图像、文本、链接等。在悬停在元素(例如,图像520)上之后,与悬停和/或选择事件相关联的事件信号可以被增强型浏览器环境的标记覆盖接收或截取,并且标记覆盖可以突出显示该元素(如附图标记522所示)。响应于用户右击元素或以其它方式作手势来选择元素,可以接收或截取与选择事件相关联的事件信号,并且增强型浏览器环境的标记覆盖可以渲染菜单530。菜单530可以包括可由增强型浏览器环境进行的选项或动作。例如,菜单530可以包括将所选图像520识别为与旧徽标、坏徽标、缺少特定类型的徽标、以及图像的未授权使用等相对应的选项。选项可以由用户选择以标志或标记图像或文本。例如,响应于选择其中一个选项(例如,旧徽标选项532),增强型浏览器环境可以包括所选择的元素(例如,图像520)作为特定类别的正或负指示符,其中该指示符可被发送至门户或由门户处理。增强型浏览器环境可以发送以及/或者门户可以处理标记上下文、相对图像大小或文本位置,以帮助将“主要”图像与网页上的次要徽标或图像(诸如广告或网页所有者不进行控制的其它元素)区分开。菜单530还可以包括用于基于用户在网页中发现并突出显示的元素来创建全新政策的“新政策规则”动作。新政策可被发送至门户和/或由门户处理,并且响应于接收到新政策,门户可以改善收集算法以包括该新政策,使得下一次执行门户的收集引擎时,收集引擎使用新政策来识别为了可能的问题而要检查的网络化环境中的内容。在一些实施例中,门户可以使用从浏览器扩展提供的数据来生成或更新政策违反评分,其中系统可以利用该评分来识别要显示给门户的用户的结果。
图7描绘了在增强型浏览器环境(例如,增强型浏览器145的实施例或加载有浏览器扩展120的实施例的web浏览器110的实施例)的浏览器窗口700中打开的网页702。可以实现增强型浏览器环境以便于根据本发明的实施例的对数字内容和/或数字内容中的元素的同时在浏览器内搜索、查看、标志、比较和收集。
用户可以在网页702上移动鼠标或光标或以其它方式在网页702上执行手势以经由增强型浏览器环境的标记覆盖来悬停在网页702上所渲染的一个或多个元素上和/或选择网页702上所渲染的一个或多个元素,诸如图像、文本、链接等。在悬停在元素(例如,图像720)上之后,与悬停事件相关联的事件信号可以被增强型浏览器环境的标记覆盖接收或截取,并且标记覆盖可以突出显示该元素(如附图标记722所示)。响应于用户右击元素或以其它方式作手势来选择元素,标记覆盖可以渲染菜单730。菜单730可以包括可由增强型浏览器环境进行的选项或动作。例如,菜单730可以包括将所选元素识别为与编辑政策选项和具有子选项的新政策选项等相对应的选项。选项可以由用户选择以标志或标记图像或文本。例如,响应于选择其中一个选项(例如,新政策子选项“负”732),增强型浏览器环境可以包括所选择的元素(例如,图像720)作为特定类别的正或负指示符,其中该指示符可以由浏览器扩展发送至门户和/或由门户处理。增强型浏览器环境发送以及/或者门户处理标记上下文、相对图像大小或文本位置,以帮助将“主要”图像与网页上的次要徽标或图像(诸如广告或网页所有者不进行控制的其它元素)区分开。
响应于选择菜单730中的选项,还可以显示子菜单740以识别网页502上的支持所选元素的标志或标记的上下文属性。例如,用户可以识别并添加文本字符串742、图像744和链接746以支持元素的标志或标记。为了将字符串添加到上下文属性,用户可以选择“添加字符串”,并且可以突出显示网页702中的字符串,以添加作为与从网页选择的元素相关联的上下文属性。为了将图像添加到上下文属性,用户可以选择“添加图像”选项,并且可以突出显示网页702中的图像,以添加作为与从网页选择的元素相关联的上下文属性。为了添加到上下文属性的链接,用户可以选择网页中的链接,并且链接的URL可以出现在上下文属性中。由于标记覆盖了浏览器窗口并且用户已经激活了菜单,因此用户对链接的选择不会产生其正常动作——即通过增强型浏览器环境导航至链接的URL。上下文属性可以各自被分配正/负指示符。
门户可以基于用户在网页中发现并突出显示的所选元素来创建新政策规则。新政策可以包括用户经由子菜单740所识别和添加的上下文属性。新政策可被发送至门户,并且响应于接收到新政策,门户可以改善收集算法以包括具有上下文属性的新政策,使得下一次执行门户的收集引擎时,收集引擎使用新政策来识别为了可能的问题而要检查的网络化环境中的内容。在一些实施例中,门户可以使用从增强型浏览器环境提供的数据来生成或更新政策违反评分,其中系统可以利用该评分来识别要显示给门户的用户的结果。
作为非限制性的说明性示例,网页702可以包括与品牌-NIKE相关联的元素。在将网页702识别为要使用增强型浏览器环境进行检查的网页的情况下,门户可以正确地匹配字符串“NIKE”。然而,这种简单的字符串匹配不能辨别匹配何时在公司或女神店的上下文内。如果网页702正在引用Nike女神店而不是NIKE公司,则网页可能与用户不相关。用户可以向门户添加门户可能不知道或未习得的上下文——NIKE公司实际上从未在提及Olympus或Styx时被提及,并且网页702中的字符串的存在几乎确信地意味着网页702是误报并且不应被提供用于检查。用户可以捕捉该上下文以训练门户或改善门户用来识别供检查的网页的政策。用户可以添加/突出显示/键入/输入附加字符串作为上下文属性(例如,“Zues”、“Greek Pantheon”、“Styx”、“deities”)。这些上下文属性可以从增强型浏览器环境发送至门户以及/或者可以由门户处理。随后,当门户的收集引擎返回Nike的结果时,门户的提取引擎可以进行与数组负指示符的基本字符串匹配(例如,“Zues”、“Greek Pantheon”、“Styx”、“deities”),以使用用户在检查网页702时所应用的上下文相同的上下文来改善结果。虽然字符串匹配被描述为说明性的非限制性示例,但是字符串匹配是可以基于经由增强型浏览器环境识别的上下文属性来实现和改善的许多政策之一。
虽然非限制性的说明性示例涉及实体/账户级别,但上下文属性可以在产品级别和通用/模块级别上使用。这种上下文数据可以用于改善特定于产品的任何产品活动的未来结果,以获得实体/账户和/或给定模块/通道(例如,在线市场)内的其它实体/账户的所有未来扫描。由于附加上下文/政策基于经由增强型浏览器环境接收到的输入,因此这三个级别的改善可以随时间而改进。
图8是示出根据本发明的环境的实施例中所实现的处理800的流程图。在操作802处,在计算资源上执行增强型浏览器环境。例如,在计算资源上执行浏览器扩展的实施例以在计算资源上扩展web浏览器的功能,或者在计算资源上执行增强型浏览器145的实施例。增强型浏览器环境可以便于独立地且单独地选择和标志增强型浏览器环境的浏览器窗口中所渲染的网页中的元素。增强型浏览器环境经由通信网络来与门户进行通信或嵌入在门户中,并且增强型浏览器环境可以生成图形用户界面,其中该图形用户界面可以渲染来自门户的网页的列表。经由图形用户界面选择列表中的URL可以使得增强型浏览器门户响应于从列表中选择URL而指示增强型浏览器环境从托管URL的数据源检索与URL相关联的网页。在门户的数据库中的记录与列表中的URL相对应的情况下,增强型浏览器环境可以利用从记录检索到的数据来填充增强型浏览器环境的图形用户界面。
在操作804处,经由增强型浏览器环境来接收对网页中的特定元素的选择。例如,增强型浏览器环境可以接收或截取与特定元素的选择相关联的事件信号。增强型浏览器环境(例如,增强型浏览器或浏览器扩展)可以响应于特定元素的选择(例如,响应于事件信号)而生成菜单。该菜单可以包括增强型浏览器环境基于特定元素的选择而能够进行的至少一个选项或动作。在操作806处,经由增强型浏览器环境(例如,经由增强型浏览器环境所生成的菜单)来向特定元素分配标志。标志可以指示特定元素在网页的上下文中是良性的还是有害的。在操作808处,标志被从增强型浏览器环境发送至门户以及/或者可以被门户处理以将该标志与特定元素以及网页的统一资源定位符(URL)进行关联。
增强型浏览器环境还可以将特定元素发送至门户,以及/或者可以响应于特定元素的选择而提取网页的源代码的片段并且可以将所提取的源代码的片段发送至门户。在门户不具有对应于与网页相关联的URL的数据库记录的情况下,门户可以响应于从增强型浏览器扩展接收到标志、特定元素、源代码片段和/或上下文属性而在数据库中创建URL的记录,并且可以将标志、特定元素、源代码片段和/或上下文属性添加到记录。
菜单可以包括用于将上下文属性与特定元素进行关联的选项或动作,使得可以经由增强型浏览器扩展来接收对网页中的一个或多个字符串、图像和/或链接的选择,以支持或反对被分配至特定元素的标志。响应于突出显示、点击、悬停或用户姿势,可以经由增强型浏览器环境在网页中选择一个或多个串、图像和/或链接。经由增强型浏览器环境选择网页中的一个或多个链接可以将链接的目的地添加到上下文属性,而不使web浏览器导航至一个或多个链接所引用的网页。
图9是示出根据本发明的环境的实施例中所实现的处理900的流程图。在操作902处,在计算资源上执行增强型浏览器环境。例如,在计算资源上执行浏览器扩展的实施例以在计算资源上扩展web浏览器的功能,或者在计算资源上执行增强型浏览器145的实施例。增强型浏览器环境可以便于独立且单独地选择和标志web浏览器的浏览器窗口中所渲染的网页中的元素行。增强型浏览器环境经由通信网络来与门户进行通信或嵌入在门户中,并且增强型浏览器环境可以生成图形用户界面,其中该图形用户界面可以渲染来自门户的网页的列表。经由图形用户界面选择列表中的URL可以使得增强型浏览器环境响应于从列表中选择URL而指示web浏览器从托管URL的数据源检索与URL相关联的网页。在门户的数据库中的记录与列表中的URL相对应的情况下,增强型浏览器环境可以利用从记录检索到的数据来填充增强型浏览器环境的图形用户界面。
在操作904处,经由增强型浏览器来环境接收网页中的特定元素的选择。例如,增强型浏览器环境可以接收或截取与特定元素的选择相关联的事件信号。在操作906处,增强型浏览器环境响应于特定元素的选择(例如,响应于事件信号)而生成菜单。该菜单可以包括能够增强型浏览器环境基于特定元素的选择而能够进行的至少一个选项或动作。在操作908处,经由增强型浏览器环境的菜单来向特定元素分配标志。标志可以指示特定元素在网页的上下文中是良性的还是有害的。在操作910处,选择网页中的一个或多个上下文属性,并经由增强型浏览器环境将其分配给标志和/或特定元素。在操作912处,将标志和一个或多个上下文属性从增强型浏览器环境发送至门户,以及/或者门户处理标志和一个或多个上下文属性以将标志和上下文属性与特定元素以及网页的统一资源定位符(URL)进行关联。
在操作914处,门户可以基于从增强型浏览器环境接收到的标志和上下文属性来创建一个或多个新政策,并且在操作916处,门户可以使用一个或多个新政策来执行一个或多个收集引擎以识别要在增强型浏览器环境中检查的附加URL,以及/或者可以消除收集引擎所识别出的误报URL。
这里为了说明目的而提供了典型流程图,并且这些流程图是方法的非限制性示例。本领域普通技术人员将认识到,典型方法可以包括比典型流程图中所示的更多或更少的步骤,并且典型流程图中的步骤可以按照与说明性流程图中所示的顺序不同的顺序执行。
以上对这里所公开的主题的具体实施例的描述是为了说明和描述的目的而提出的,并不旨在限制这里所阐述的主题的范围。可以完全设想到,根据以上描述和附图,其它各种实施例、修改和应用对于本领域普通技术人员将变得显而易见。因此,这样的其它实施例、修改和应用旨在落在以下所附权利要求的范围内。此外,本领域普通技术人员将理解,这里所述的实施例、修改和应用在特定环境的上下文中,并且这里所阐述的主题不限于此,而可以有益地以任何数量的其它方式、环境和目的应用。因此,应考虑到这里所公开的新颖特征和技术的全面性和精神来解释以下所阐述的权利要求。

Claims (21)

1.一种用于同时在浏览器内对网络化环境中的数字内容进行标志和收集的方法,所述方法包括:
在计算资源上执行增强型浏览器环境以便于独立地且单独地选择和标志所述增强型浏览器环境的浏览器窗口中所渲染的网页中的元素,所述增强型浏览器环境与门户进行连接;
经由所述增强型浏览器环境来接收对所述网页中的特定元素的选择;
向所述特定元素分配标志;以及
通过所述门户将所述标志与所述网页的所述元素以及统一资源定位符即URL进行关联。
2.根据权利要求1所述的方法,其中,还包括:
经由所述增强型浏览器环境来生成图形用户界面;
从所述门户接收网页的列表;
经由所述图形用户界面来接收对所述列表中的URL的选择;以及
响应于从所述列表中对URL的选择,指示所述增强型浏览器环境从托管所述URL的数据源检索与所述URL相关联的网页。
3.根据权利要求1所述的方法,其中,还包括:
响应于对所述特定元素的选择、由所述增强型浏览器环境生成菜单,所述菜单包括所述增强型浏览器环境基于对所述特定元素的选择而能够进行的至少一个选项或动作。
4.根据权利要求3所述的方法,其中,所述增强型浏览器环境响应于对所述至少一个选项或动作的选择而向所述特定元素分配标志。
5.根据权利要求3所述的方法,其中,所述至少一个选项或动作包括将上下文属性与所述特定元素进行关联,以及所述方法还包括:
经由所述增强型浏览器环境来接收对所述网页中的一个或多个字符串的选择,以支持或反对被分配至所述特定元素的标志。
6.根据权利要求5所述的方法,其中,对所述一个或多个字符串的选择包括:
经由所述增强型浏览器环境来突出显示所述网页中的一个或多个字符串。
7.根据权利要求3所述的方法,其中,所述至少一个选项或动作包括将上下文属性与所述特定元素进行关联,以及所述方法还包括:
经由所述增强型浏览器环境来接收对所述网页中的一个或多个图像的选择,以支持或反对被分配至所述特定元素的标志。
8.根据权利要求3所述的方法,其中,所述至少一个选项或动作包括将上下文属性与所述特定元素进行关联,以及所述方法还包括:
经由所述增强型浏览器环境来接收对所述网页中的一个或多个链接的选择,以支持或反对被分配至所述特定元素的标志。
9.根据权利要求8所述的方法,其中,经由所述增强型浏览器环境对所述网页中的一个或多个链接的选择将所述链接的目的地添加到所述上下文属性。
10.根据权利要求9所述的方法,其中,对所述一个或多个链接的选择不导致所述增强型浏览器环境导航至所述一个或多个链接所引用的网页。
11.根据权利要求1所述的方法,还包括:
响应于对所述元素的选择而提取所述网页中的源代码的片段;以及
将所提取的源代码的片段从所述增强型浏览器环境发送至所述门户。
12.根据权利要求1所述的方法,其中,所述URL在由所述门户维护的数据库中不具有相应的记录,以及所述方法还包括:
响应于从所述增强型浏览器环境接收到所述标志而创建针对所述URL的记录;
将所述标志添加到所述记录。
13.根据权利要求2所述的方法,其中,所述标志指示所述网页中的特定元素是良性的还是有害的。
14.根据权利要求1所述的方法,其中,所述URL在数据库中具有相应的记录,以及所述方法还包括:
利用从所述记录检索到的数据来填充所述增强型浏览器环境的图形用户界面。
15.一种用于同时在浏览器内对网络化环境中的数字内容进行标志和收集的系统,所述系统包括:
远程计算系统,其包括被编程为执行经由网络可访问的门户的一个或多个服务器;
至少一个计算装置,其上安装有web浏览器和浏览器扩展,所述浏览器扩展被编程为扩展所述web浏览器的功能并且便于独立地且单独地对所述web浏览器的浏览器窗口中所渲染的网页中的元素进行选择和标志,所述浏览器扩展经由所述网络来与所述门户进行通信,
其中,所述至少一个计算装置被编程为执行所述浏览器扩展以:
经由所述浏览器扩展来接收对所述网页中的特定元素的选择;
向所述特定元素分配标志;以及
将所述标志从所述浏览器扩展发送至所述门户以将所述标志与所述网页的所述元素以及统一资源定位符即URL进行关联。
16.根据权利要求15所述的系统,其中,所述至少一个计算装置被编程为执行所述浏览器扩展以:
经由所述浏览器扩展来生成图形用户界面;
从所述门户接收网页的列表;
经由所述图形用户界面来接收对所述列表中的URL的选择;以及
响应于从所述列表中对URL的选择,指示所述web浏览器从托管所述URL的数据源检索与所述URL相关联的网页。
17.根据权利要求15所述的系统,其中,所述至少一个计算装置被编程为执行所述浏览器扩展以:
响应于对所述特定元素的选择、由所述浏览器扩展生成菜单,所述菜单包括所述浏览器扩展基于对所述特定元素的选择而能够进行的至少一个选项或动作,
其中,所述浏览器扩展响应于对所述至少一个选项或动作的选择,向所述特定元素分配标志或将至少一个上下文属性与所述特定元素进行关联。
18.根据权利要求17所述的系统,其中,所述至少一个计算装置被编程为执行所述浏览器扩展以:
经由所述浏览器扩展来接收对所述网页中的一个或多个字符串、图像或链接的选择,以支持或反对被分配至所述特定元素的标志。
19.根据权利要求18所述的系统,其中,所述浏览器扩展响应于经由所述浏览器扩展对所述一个或多个字符串、图像或链接的选择而将所述一个或多个字符串添加作为上下文属性。
20.根据权利要求15所述的系统,其中,所述至少一个计算装置被编程为执行所述浏览器扩展以:
响应于对所述元素的选择而提取所述网页中的源代码的片段;以及
将所提取的源代码的片段从所浏览器扩展发送至所述门户。
21.根据权利要求15所述的系统,其中,所述标志指示所述网页中的特定元素是良性的还是有害的。
CN201880026451.9A 2017-02-22 2018-02-21 用于直接浏览器内标记因特网内容中的元素的系统和方法 Active CN110537180B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762462110P 2017-02-22 2017-02-22
US62/462,110 2017-02-22
PCT/US2018/018921 WO2018156558A1 (en) 2017-02-22 2018-02-21 Systems and methods for direct in-browser markup of elements in internet content

Publications (2)

Publication Number Publication Date
CN110537180A true CN110537180A (zh) 2019-12-03
CN110537180B CN110537180B (zh) 2024-01-09

Family

ID=63167288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880026451.9A Active CN110537180B (zh) 2017-02-22 2018-02-21 用于直接浏览器内标记因特网内容中的元素的系统和方法

Country Status (6)

Country Link
US (1) US11089052B2 (zh)
EP (1) EP3586250B1 (zh)
JP (2) JP7330891B2 (zh)
CN (1) CN110537180B (zh)
CA (1) CA3054176C (zh)
WO (1) WO2018156558A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989195A (zh) * 2021-03-20 2021-06-18 重庆图强工程技术咨询有限公司 基于大数据的全过程咨询方法、装置、电子设备及存储介质

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11468172B2 (en) * 2019-02-06 2022-10-11 Cisco Technology, Inc. Browser extension security system
US11144541B2 (en) 2019-02-18 2021-10-12 Microsoft Technology Licensing, Llc Intelligent content and formatting reuse
US11200294B2 (en) * 2019-03-20 2021-12-14 Hisense Visual Technology Co., Ltd. Page updating method and display device
US11995614B2 (en) * 2019-06-12 2024-05-28 Ambry Hills Technologies, Llc Methods, devices, and systems for capturing content from client transaction related messages on a client device by a third party
US11080467B1 (en) * 2019-08-22 2021-08-03 Quantcast Corporation Visual tag builder
EP4026047A1 (en) * 2019-09-06 2022-07-13 F. Hoffmann-La Roche AG Automated information extraction and enrichment in pathology report using natural language processing
US11010371B1 (en) * 2019-09-16 2021-05-18 Palantir Technologies Inc. Tag management system
CN110769275B (zh) * 2019-10-09 2022-04-08 北京达佳互联信息技术有限公司 直播数据流的处理方法、装置及系统
US20220150280A1 (en) * 2020-11-06 2022-05-12 Microsoft Technology Licensing, Llc Context menu security policy enforcement
US11816176B2 (en) * 2021-07-27 2023-11-14 Locker 2.0, Inc. Systems and methods for enhancing online shopping experience
US20230128589A1 (en) * 2021-10-22 2023-04-27 International Business Machines Corporation Predicting policy violations in a document with an enterprise data source
US11792234B1 (en) * 2022-11-11 2023-10-17 Netskope, Inc. Browser extension identification and isolation

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001084370A2 (en) * 2000-05-04 2001-11-08 I-Lor, Llc Enhanced hyperlink
US20030050927A1 (en) * 2001-09-07 2003-03-13 Araha, Inc. System and method for location, understanding and assimilation of digital documents through abstract indicia
US6681153B1 (en) * 2000-08-02 2004-01-20 General Electric Company Automated, interactive data collection, data transmittal and data assessment method
JP2004503873A (ja) * 2000-06-14 2004-02-05 ゼネラル・エレクトリック・カンパニイ グローバルネットワーク上でプラントパラメータと性能を評価する方法、システムおよびプログラム
US20070005417A1 (en) * 2005-06-29 2007-01-04 Desikan Pavan K Reviewing the suitability of websites for participation in an advertising network
US20070271498A1 (en) * 2006-05-16 2007-11-22 Joshua Schachter System and method for bookmarking and tagging a content item
CN101218582A (zh) * 2005-07-12 2008-07-09 微软公司 搜索和浏览url和url历史
US20080288486A1 (en) * 2007-05-17 2008-11-20 Sang-Heun Kim Method and system for aggregate web site database price watch feature
CN101893861A (zh) * 2004-05-04 2010-11-24 费舍-柔斯芒特系统股份有限公司 过程配置和控制环境中的图形集成
US20120198324A1 (en) * 2011-01-27 2012-08-02 Ruchi Mahajan Systems, Methods, and Apparatuses to Write on Web Pages
US8433719B1 (en) * 2011-12-29 2013-04-30 Google Inc. Accelerating find in page queries within a web browser

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030110449A1 (en) * 2001-12-11 2003-06-12 Wolfe Donald P. Method and system of editing web site
US7308648B1 (en) * 2002-11-27 2007-12-11 Microsoft Corporation Method, system, and computer-readable medium for filtering harmful HTML in an electronic document
US8166056B2 (en) 2007-02-16 2012-04-24 Palo Alto Research Center Incorporated System and method for searching annotated document collections
US9712560B2 (en) 2007-11-05 2017-07-18 Cabara Software Ltd. Web page and web browser protection against malicious injections
US9038184B1 (en) * 2010-02-17 2015-05-19 Symantec Corporation Detection of malicious script operations using statistical analysis
US20110225162A1 (en) * 2010-03-09 2011-09-15 Clifford Lyon Assigning Tags to Digital Content
US9740369B2 (en) * 2013-03-15 2017-08-22 Palantir Technologies Inc. Systems and methods for providing a tagging interface for external content
US10002117B1 (en) * 2013-10-24 2018-06-19 Google Llc Translating annotation tags into suggested markup
US9081789B2 (en) 2013-10-28 2015-07-14 Tealium Inc. System for prefetching digital tags
US10915232B1 (en) * 2015-04-09 2021-02-09 Integral Ad Science, Inc. Methods, systems, and media for specifying different content management techniques across various publishing platforms
US9386037B1 (en) * 2015-09-16 2016-07-05 RiskIQ Inc. Using hash signatures of DOM objects to identify website similarity
US10594733B2 (en) * 2016-04-06 2020-03-17 Rapid7, Inc System and method for application software security and auditing

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001084370A2 (en) * 2000-05-04 2001-11-08 I-Lor, Llc Enhanced hyperlink
JP2004503873A (ja) * 2000-06-14 2004-02-05 ゼネラル・エレクトリック・カンパニイ グローバルネットワーク上でプラントパラメータと性能を評価する方法、システムおよびプログラム
US6681153B1 (en) * 2000-08-02 2004-01-20 General Electric Company Automated, interactive data collection, data transmittal and data assessment method
US20030050927A1 (en) * 2001-09-07 2003-03-13 Araha, Inc. System and method for location, understanding and assimilation of digital documents through abstract indicia
CN101893861A (zh) * 2004-05-04 2010-11-24 费舍-柔斯芒特系统股份有限公司 过程配置和控制环境中的图形集成
US20070005417A1 (en) * 2005-06-29 2007-01-04 Desikan Pavan K Reviewing the suitability of websites for participation in an advertising network
CN101218582A (zh) * 2005-07-12 2008-07-09 微软公司 搜索和浏览url和url历史
US20070271498A1 (en) * 2006-05-16 2007-11-22 Joshua Schachter System and method for bookmarking and tagging a content item
US20080288486A1 (en) * 2007-05-17 2008-11-20 Sang-Heun Kim Method and system for aggregate web site database price watch feature
US20120198324A1 (en) * 2011-01-27 2012-08-02 Ruchi Mahajan Systems, Methods, and Apparatuses to Write on Web Pages
US8433719B1 (en) * 2011-12-29 2013-04-30 Google Inc. Accelerating find in page queries within a web browser

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989195A (zh) * 2021-03-20 2021-06-18 重庆图强工程技术咨询有限公司 基于大数据的全过程咨询方法、装置、电子设备及存储介质
CN112989195B (zh) * 2021-03-20 2023-09-05 重庆图强工程技术咨询有限公司 基于大数据的全过程咨询方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2018156558A1 (en) 2018-08-30
US20180239826A1 (en) 2018-08-23
JP2022184964A (ja) 2022-12-13
EP3586250A1 (en) 2020-01-01
JP2020515944A (ja) 2020-05-28
US11089052B2 (en) 2021-08-10
EP3586250B1 (en) 2023-09-20
EP3586250A4 (en) 2020-09-02
JP7330891B2 (ja) 2023-08-22
CN110537180B (zh) 2024-01-09
CA3054176C (en) 2024-02-06
CA3054176A1 (en) 2018-08-30

Similar Documents

Publication Publication Date Title
CN110537180A (zh) 用于直接浏览器内标记因特网内容中的元素的系统和方法
US11372935B2 (en) Automatically generating a website specific to an industry
US10868827B2 (en) Browser extension for contemporaneous in-browser tagging and harvesting of internet content
US9652550B2 (en) Indexing application pages of native applications
US10409874B2 (en) Search based on combining user relationship datauser relationship data
US20060212446A1 (en) Method and system for assessing relevant properties of work contexts for use by information services
TW201118620A (en) Systems and methods for providing advanced search result page content
CN105550206B (zh) 结构化查询语句的版本控制方法及装置
US9594835B2 (en) Lightning search aggregate
US11621951B2 (en) System and method for capturing information
EP2725539A1 (en) Information providing device, information providing method, information providing program, information display program, and computer-readable recording medium for storing information providing program
CN103984747B (zh) 屏幕信息处理方法和装置
KR101537555B1 (ko) 인스턴트 메신저 상의 메시지 바로 검색 지원 방법
US8290944B2 (en) Method for storing bookmarks for search results from previously submitted search queries by a user and storing links to selected documents by the user
JP5737249B2 (ja) 負荷シミュレーション装置、シミュレーション装置、負荷シミュレーション方法、シミュレーション方法及びプログラム
JP2013008207A (ja) 情報提供装置、情報提供方法、情報提供プログラム、情報表示プログラム、及び情報提供プログラムを記憶するコンピュータ読取可能な記録媒体
Shen et al. A Catalogue Service for Internet GIS ervices Supporting Active Service Evaluation and Real‐Time Quality Monitoring
US9135313B2 (en) Providing a search display environment on an online resource
JP7050830B2 (ja) 情報処理システム
KR102367145B1 (ko) 정보처리 시스템
KR20030042590A (ko) 웹사이트의 신뢰성 확인 방법 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210225

Address after: British pride

Applicant after: OPSEC Online Ltd.

Address before: England Atsushi

Applicant before: British Camilo Offer Co.

GR01 Patent grant
GR01 Patent grant