CN110020385B - 用于提取网站特性的系统和方法 - Google Patents
用于提取网站特性的系统和方法 Download PDFInfo
- Publication number
- CN110020385B CN110020385B CN201810814944.0A CN201810814944A CN110020385B CN 110020385 B CN110020385 B CN 110020385B CN 201810814944 A CN201810814944 A CN 201810814944A CN 110020385 B CN110020385 B CN 110020385B
- Authority
- CN
- China
- Prior art keywords
- web page
- web
- color
- text
- optimized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000005457 optimization Methods 0.000 claims abstract description 31
- 239000003086 colorant Substances 0.000 claims description 72
- 238000009877 rendering Methods 0.000 claims description 29
- 238000002360 preparation method Methods 0.000 claims description 13
- 230000000295 complement effect Effects 0.000 claims description 7
- 238000010191 image analysis Methods 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 13
- 238000012217 deletion Methods 0.000 abstract description 2
- 230000037430 deletion Effects 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 42
- 238000004891 communication Methods 0.000 description 25
- 230000008520 organization Effects 0.000 description 13
- 239000000284 extract Substances 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 8
- 238000013500 data storage Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 235000014510 cooky Nutrition 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 235000015220 hamburgers Nutrition 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 125000006850 spacer group Chemical group 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0641—Shopping interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及用于提取网站特性的系统和方法。一些实施例确定与现有网站的主题或品牌化有关的特性。例如,来自现有网站的特性可以促进新网站或软件产品的主题化或品牌化以与现有网站协调。特性提取系统可以基于要从现有网页提取的目标特性来优化现有网页。优化现有网页包括操纵网页源代码和/或网页数据以促进目标特性的提取。优化可能导致从现有网页中删除对提取目标特性不必要的数据或格式。
Description
权益要求
本申请要求于2017年9月29日提交的美国临时专利申请62/566082的权益,该申请通过引用被结合于此。
申请人在此撤销母申请或其审查历史中的权利要求范围的任何免责声明,并向USPTO告知本申请中的权利要求可能比母申请中的任何权利要求更宽泛。
技术领域
本公开涉及网站特性。特别地,本公开涉及提取网站特性。
背景技术
组织可以购买现成的软件或软件即服务(SaaS)解决方案。组织可能更愿意定制软件应用的样子、外观或图形主题,而不是使用在购买时由软件应用提供的默认项。此类定制可能包括组织的徽标和商标在软件应用内的适当放置。通过定制软件应用,可以调整软件应用以反映购买软件应用的组织而非开发或销售软件应用的组织的品牌。
组织可以定制与该组织相关联的网站。组织可以调整商业销售的网站模板以匹配组织的品牌化。匹配组织的品牌化可以包括使用与组织相关联的颜色、字体和徽标。
本节中描述的方法是可以追求的方法,但不一定是先前已经构想或追求的方法。因此,除非另有说明,否则不应该认为本节中描述的任何方法仅仅由于包含在本节中就成为现有技术。
发明内容
本公开提供了一种包括指令的非瞬态计算机可读介质,所述指令当由一个或多个硬件处理器执行时引起执行一组操作,该组操作包括:
识别要从第一网页中提取的第一网站特性,其中第一网站特性包括以下中的至少一个:
第一网页的第一背景颜色,
第一网页的文本颜色和背景颜色对,
第一网页的前景颜色和背景颜色对,
第一网页上的徽标图像,
第一网页上的文本的文本格式参数,
第一网页上的表的表格式参数,以及
第一网页上的用户界面元素的用户界面显示参数;
选择用于所述第一网页的第一优化以准备从所述第一网页中提取第一网站特性,所述第一优化是基于识别出的第一网站特性而从一组优化中选择的,其中所述一组优化包括以下中的至少一个:
将第一网页上的文本的文本不透明度设置为完全透明,以准备提取所述第一背景颜色、文本颜色和背景颜色对、前景颜色和背景颜色对、或徽标图像中的一个或多个,
识别第一网页上的大于第一尺寸阈值或小于第二尺寸阈值的图像,并且将所识别的图像的不透明度设置为完全透明,以准备提取徽标图像,以及
识别并移除第一网页上的插页式覆盖以防止第一网站特性被遮挡,从而准备提取第一网站特性中的任何一个或多个;
基于所选择的第一优化来修改所述第一网页的源代码以获得已优化的第一网页;以及
在用于获得已优化的第一网页的修改操作之后,从表示已优化的第一网页的渲染的数据中提取第一网站特性;
识别要从第二网页中提取的第二网站特性,其中第二网站特性不同于第一网站特性并且包括以下中的至少一个:
第二网页的第二背景颜色,
第二网页的文本颜色和背景颜色对,
第二网页的前景颜色和背景颜色对,
第二网页上的徽标图像,
第二网页上的文本的文本格式参数,
第二网页上的表的表格式参数,以及
第二网页上的用户界面元素的用户界面显示参数;
选择用于所述第二网页的第二优化以准备从所述第二网页中提取第二网站特性,所述第二优化是基于识别出的第二网站特性而从所述一组优化中选择的,其中所述一组优化包括以下中的至少一个:
将第二网页上的文本的文本不透明度设置为完全透明,以准备提取所述第二背景颜色、文本颜色和背景颜色对、前景颜色和背景颜色对、或徽标图像中的一个或多个,
识别第二网页上的大于第一尺寸阈值或小于第二尺寸阈值的图像,并且将所识别的图像的不透明度设置为完全透明,以准备提取徽标图像,以及
识别并移除第二网页上的插页式覆盖以防止第二网站特性被遮挡,从而准备提取第二网站特性中的任何一个或多个;
基于所选择的第二优化来修改所述第二网页的源代码以获得已优化的第二网页;以及
在用于获得已优化的第二网页的修改操作之后,从表示已优化的第二网页的渲染的数据中提取第二网站特性。
附图说明
在附图的各个图中,实施例是作为示例而不是作为限制进行例示的。应当注意的是,本公开中对实施例或“一个”实施例的引用不一定是指相同的实施例,并且它们意味着至少一个。在附图中:
图1例示了根据一个或多个实施例的用于提取网站特性的特性提取系统;
图2例示了根据一个或多个实施例的用于提取网站特性的示例性操作集合;
图3例示了根据一个或多个实施例的用于提取网站特性的示例性操作集合;
图4例示了根据一个或多个实施例的包括待提取的特性的网页的示例性实施例;以及
图5示出了例示根据一个或多个实施例的计算机系统的框图。
具体实施方式
在以下描述中,为了解释的目的,阐述了许多具体细节以便提供透彻的理解。可以在没有这些具体细节的情况下实践一个或多个实施例。在一个实施例中描述的特征可以与在不同的实施例中描述的特征相结合。在一些示例中,参考框图形式描述众所周知的结构和设备,以避免不必要地模糊本发明。
1.总体概述
一些实施例确定与现有网站的主题或品牌化相关的特性。例如,来自现有网站的特性可以促进新网站或软件产品的主题化或品牌化,以与现有网站协调。特性提取系统可以基于要从现有网页提取的目标特性来优化现有网页。优化现有网页包括操纵网页源代码和/或网页数据以促进目标特性的提取。优化可能导致从现有网页中删除对于提取目标特性不必要的数据或格式。
本说明书可能包括并且权利要求书可能记载除本总体概述部分中描述的实施例之外的一些实施例。
2.体系架构概述
网站可以包括通常用公共域名进行识别并且发布在至少一个web服务器上的单个网页或一组相关网页的集合。通过引用识别网站的统一资源定位符(URL),网站可以经由诸如互联网之类的公共互联网协议(IP)网络或专用局域网(LAN)来访问。本文描述为在网站上执行或与网站相关联的操作可以包括在与网站对应的网页上执行或与其相关联的操作。
一个或多个实施例对网页进行优化以提取与网页相关联的网站特性。特性提取系统(本文称为“系统”)可以基于要从网页提取的网站特性来优化网页。作为示例,可以优化网页以检测网页的背景颜色。系统可以修改网页的源代码以将所有文本的颜色设置为透明。系统可以在层叠样式表(CSS)中将所有文本的不透明度属性设置为“0”(例如,完全透明)。然后可以分析利用透明文本对经优化的网页的渲染以确定原始网页的背景颜色。将文本渲染为透明可以确保文本不会干扰对用于确定背景颜色的已渲染网页(renderedwebpage)的分析。
一个或多个实施例可以通过分析已渲染网页的由浏览器计算的像素值或屏幕截图来检测已渲染网页的网站特性。作为示例,特性提取系统可以确定在组织的网站上渲染的组织徽标的颜色方案。系统可以分析源代码以识别网站的网页上的徽标的位置。系统还可以识别与已渲染网页上的位置对应的像素的由浏览器计算的像素值。系统可以基于由浏览器计算的像素值来确定徽标的颜色。系统还可以识别已渲染网页的与徽标的位置对应的屏幕截图的一部分。系统可以分析屏幕截图的该部分以确定由浏览器渲染的徽标的颜色。
一个或多个实施例可以通过分析原始网页的源代码结合分析已渲染网页的由浏览器计算的像素值或屏幕截图来提取已渲染网页的网站特性。作为示例,在网页的源代码被修改以将文本的颜色设置为透明之前,文本的原始颜色可以被存储并且与已渲染网页上的渲染文本的位置相关。当系统确定已渲染网页的某个区域处的网页的背景颜色时,可以从所存储的与该位置处的文本颜色有关的信息中检索与该背景颜色配对的文本颜色。然后可以从检测到的背景颜色的网站特性和检测到的与背景颜色对应的文本颜色的网站特性的组合中检测和/或提取文本颜色-背景颜色配对的网站特性。
图1例示了根据一个或多个实施例的用于提取网站特性的特性提取系统100(本文称为系统100)。如图1所示,系统100包括网页源代码分析器130和已渲染网页分析器140。在一个或多个实施例中,系统100可以包括比图1中所示的组件更多或更少的组件。图1中所示的组件可以是彼此本地或远程的。图1中所示的组件可以用软件和/或硬件实现。每个组件可以分布在多个应用和/或机器上。多个组件可以组合到一个应用和/或机器中。相对于一个组件描述的操作可以替代地由另一个组件执行。
在实施例中,系统100在一个或多个数字设备上实现。术语“数字设备”通常是指包括处理器的任何硬件设备。数字设备可以指代执行应用或虚拟机的物理设备。数字设备的示例包括计算机、平板电脑、膝上型电脑、桌面电脑、上网本、服务器、web服务器、网络策略服务器、代理服务器、通用机器、功能特定的硬件设备、硬件路由器、硬件交换机、硬件防火墙、硬件防火墙、硬件网络地址转换器(NAT)、硬件负载平衡器、大型机、电视机、内容接收器、机顶盒、打印机、移动手持机、智能电话、个人数字助理(“PDA”)、无线接收器和/或发射器、基站、通信管理设备、路由器、交换机、控制器、接入点和/或客户端设备。
在一个或多个实施例中,用户界面是指被配置为促进用户与系统100之间的通信的硬件和/或软件。用户界面可以渲染用户界面元素并且经由用户界面元素接收输入。界面的示例包括图形用户界面(GUI)、命令行界面(CLI)、触觉界面和语音命令界面。用户界面元素的示例包括复选框、单选按钮、下拉列表、列表框、按钮、切换开关、文本字段、日期和时间选择器、命令行、滑块、页面和表单。
在实施例中,用户界面的不同组件用不同的语言来指定。用户界面元素的行为用动态编程语言来指定,诸如JavaScript。用户界面元素的内容用标记语言来指定,诸如超文本标记语言(HTML)或XML用户界面语言(XUL)。用户界面元素的布局用样式表语言来指定,诸如层叠样式表(CSS)。替代地,用户界面用一种或多种其它语言来指定,诸如Java、C或C++。
在以下描述中,描述了从网站提取要应用于不同网站或软件应用的网站特性的实施例。但是,这不应该被解释为限制,如在各种其它实施例中那样,可能涉及和/或操作的是软件应用而不是网站,无论该软件应用在本地客户端计算机系统上执行还是通过网络连接在服务器计算机系统上执行。
在一个或多个实施例中,web服务器110是经由网络协议处理请求以在万维网(World Wide Web)上分发信息的计算机系统或应用。Web服务器的主要功能是存储、处理和向客户端递送网页。客户端和服务器之间的通信使用超文本传输协议(HTTP)进行。除了文本内容之外,web服务器递送的网页还可以包括图像、样式表和脚本。web服务器110可以例如经由计算机通信网络(例如,局域网(LAN)或互联网)上的HTTP将网页传送到web浏览器120。
在一个或多个实施例中,web浏览器120(通常称为浏览器)是用于检索、呈现和遍历万维网上的信息资源的软件应用。信息资源由统一资源标识符或统一资源定位符(URI/URL)识别,其可以是网页、图像、视频或其它内容件。尽管浏览器主要是为了使用万维网,但浏览器也可以用于访问文件系统中的文件或专用网络中的web服务器所提供的信息。在一些实施例中,web浏览器120是独立的软件应用,其在通过计算机通信网络(例如,LAN或互联网)与web服务器110通信地耦合的客户端计算机上执行。在一些实施例中,web浏览器120是系统100的组成部分并且具体地被配置为与系统100的其它组件协作执行系统100的操作。例如,作为系统100的组成部分,web浏览器120可能不是物理地显示已渲染网页,而是在存储器或数据存储装置中生成表示要用于系统100的分析的已渲染网页的像素的数据表。同样,由web浏览器120渲染的网页的屏幕截图可以是在存储器或数据存储装置中的数据表中生成的已渲染网页的存储表示。
网页源代码分析器130是应用或应用组件,其被配置为优化用于分析的网页源代码以及分析网页源代码以提取网站特性。网页源代码分析器130可以在优化用于分析的网页源代码之前和之后分析网页源代码。网页源代码分析器130可以使用注入到在web浏览器120内执行的网页源代码中的JavaScript代码来执行对网页源代码的优化和对网页源代码的分析。网页源代码分析器130可以通过修改要由web浏览器120执行的网页源代码来优化网页源代码。网页源代码分析器130可以经由注入的JavaScript修改网页源代码以准备分析和/或作为网页分析的一部分。
已渲染网页分析器140是被配置为检测已渲染网页的网站特性的应用或应用组件。已渲染网页分析器140可以分析(a)由web浏览器120计算出的网页的由浏览器计算的像素值和/或(b)由web浏览器120渲染的网页的屏幕截图。已渲染网页分析器140可以检测已渲染网页的网站特性,例如,诸如背景颜色之类的特性颜色方案。在网页源代码分析器130优化网页源代码之后,已渲染网页分析器140可以执行对已渲染网页的分析。例如,在网页源代码分析器130将所有文本设置为透明之后,已渲染网页分析器140分析已渲染网页以识别网页的特性背景颜色。
由网页源代码分析器130检测到的网站特性和由已渲染网页分析器140检测到的网站特性可以被组合,例如,作为网页的特性颜色方案中的背景颜色和文本颜色的配对。
分析控制器150可以协调由网页源代码分析器130和已渲染网页分析器140执行的分析,以处理、交叉分析和收集分析结果。例如,分析已渲染网页以确定各种网站特性(诸如背景颜色)可能比单独分析网页源代码更准确。例如,由于级联样式表(CSS)的影响,网页源代码中的各种元素可以被标记为背景颜色,但实际上不会被web浏览器120显示为背景颜色。作为对照,对已渲染网页的分析可以无疑义地确定所显示的网页的背景颜色。例如,对网页的源代码进行优化以使文本透明有助于通过分析已渲染网页来更准确地确定背景颜色。虽然通过分析已渲染网页来确定背景颜色,但是与背景颜色相关联的文本颜色是例如在修改源代码以将文本渲染为透明之前通过分析网页的源代码来确定的。分析控制器150可以将网页源代码分析器130和已渲染网页分析器140的组合分析确定的最终分析结果输出到主题和品牌化资产160的集合。
主题和品牌资产160可以包括以数据格式存储的网站特性(诸如背景颜色、文本颜色和背景颜色配对、徽标等)的集合,其可以用于主题化和品牌化附加网站或其它软件应用,以与由web服务器110提供的网站的主题化和品牌化对应。
与仅对一个或另一个执行分析相比,对网页的混合分析(包括对网页的代码和/或基于网页的代码利用已渲染网页计算出的值的分析)的提供了增加的效率和准确性。例如,网页的代码可以将一种颜色识别为背景颜色,但是当网页被渲染时,背景颜色可以以不同的颜色显现给用户。例如,这可能是由于重叠图像或级联样式表(CSS)的影响造成的。此外,根据网页代码及还通过分析对应的已渲染网页来识别文本颜色和其上显示文本的对应的背景颜色可以产生比单独的任一方法更准确的信息。例如,网页代码可以将许多不同的颜色识别为背景颜色,但是分析已渲染网页可以将特定的几种颜色确定为背景颜色。然后,通过分析已渲染网页识别出的背景颜色可以与网页代码内的元素进行匹配,以更精确地从网页代码内的匹配元素获得关于已渲染的背景颜色的附加信息。此外,由于级联样式表的影响,一些网页代码可能对已渲染网页没有可见的效果,或者已渲染网页的视觉效果可能是各种级联样式表中的许多元素的组合的结果,其不能通过分析网页代码自身被检测到。
下面参考图2给出由系统100及其组成组件执行的操作的示例。
3.示例实施例
图2例示了根据一个或多个实施例的用于提取网站特性的示例性操作集合200。图2中所示的一个或多个操作可以被修改、重新排列或全部省略。因此,图2中所示的操作的特定顺序不应该被解释为限制一个或多个实施例的范围。为了清楚起见,下面描述了详细的示例。下面描述的组件和/或操作应该被理解为可能不适用于某些实施例的一个特定示例。因此,下面描述的组件和/或操作不应该被解释为限制任何权利要求的范围。
在各种实施例中,由包括计算处理器的系统(例如,图1的系统100)执行的处理可以从网站或软件应用中提取网站特性,并提供要应用于不同网站或软件应用的网站特性。在以下描述中,描述了其中从网站提取要应用于不同的网站或软件应用的设计信息的实施例。但是,在各种其它实施例中,可能涉及和/或操作的是软件应用而不是网站,无论该软件应用是在本地客户端计算机系统上执行还是通过网络连接在服务器计算机系统上执行。此外,在下面讨论的实施例中,重点是从网站提取徽标和颜色。许多其它的主题和品牌化特性(其中的一些示例在下面被识别出)可以使用类似的处理从网站中识别和提取。
在操作202中,可以识别要从网页提取的特性。所识别的特性可以是影响网页的主题或品牌的特性。特性可以通过经由用户界面、经由数据文件、经由计算机通信网络上的通信或经由系统100在其上执行的计算处理器上执行的另一个处理来接收特性的标识来识别。网页可以经由URL来识别并由图1的web服务器110服务。要从网页提取的特性可以包括主题、徽标、品牌等。web浏览器120可以经由URL访问网页。web浏览器120可以加载网页以执行和渲染网页。
要提取的特性的示例包括徽标、背景颜色和文本颜色。这些示例在下面描述。其它示例包括但不限于以下内容:
·文本字体样式/大小/间距
·文本大小
·文本颜色(该信息可以在将文本设置为透明之前获得)
·文本颜色与文本位于其上的背景颜色的配对
·文字高亮颜色
·文字字段颜色
·文本间距(例如,字距)
·文本对齐
·段落缩进
·文本边距/填充
·文本方向(从左到右、从右到左等)
·点句(Bullet point)样式
·列数和行数
·线间距或行高
·列宽
·光标颜色
·光标样子
·滚动行为
·鼠标悬停行为
·动画速度/持续时间/类型
·布局、结构和响应性
·背景图像重复
·边界样式
·圆角度
·图标样式
·按钮样式(例如,圆角度)
·图像不透明度
·颜色、黑暗度、调色板
·梯度
·媒体、声音的存在
在操作204中,网页源代码分析器130可以通过分析由web浏览器120加载的网页源代码来从网页源代码中提取所识别的特性。网页源代码分析器130可以将JavaScript代码注入到在web浏览器120上执行的网页代码中。注入的JavaScript代码可以修改从web服务器110下载的网页原生代码和/或与其一起执行。JavaScript代码可以修改web浏览器120中的网页代码的本地副本以执行网页的分析。JavaScript代码可以与网页源代码分析器130协作,以搜索、修改和/或分析在web浏览器120上执行的网页的代码,例如,超文本标记语言(HTML)代码、JavaScript代码或在网页中包含的其它计算机可执行指令。
例如,网页源代码分析器130可以识别网页中使用的文本的颜色。为了确定文本字体颜色,可以分析网页源代码,并且可以CSS计算文本字体颜色以确定它们的值。当在网页的不同区域中使用不同颜色的文本时,网页源代码分析器130可以识别在网页的不同区域中使用的文本的颜色。网页源代码分析器130可以存储在通过网页的不同区域键入的网页中使用的文本颜色的表。该信息以后可以由系统100在确定网页的整体主题颜色方案时用来使文本颜色与网页的背景颜色相关联。
作为另一个示例,注入的JavaScript代码可以搜索网页代码以查找品牌徽标(例如,公司徽标或网站徽标)的候选者。例如,可以通过JavaScript代码搜索网页代码中的每个HTML元素以查找图像。在搜索徽标时,可以将图像的大小与阈值进行比较以拒绝太小或太大的图像,并且在某个大小范围内的图像可以被视为徽标的候选者。例如,高度大于300像素(在各种实施例中或为其它单位)或小于18的宽度或11.78的高度的图像可以被拒绝,因为它们不太可能是徽标。此外,可以将网页中的图像的位置与阈值进行比较以拒绝不是最有可能放置徽标的位置的图像,并且只有在可能的徽标位置的某个范围内的图像才可以被视为徽标图像的候选者。例如,只有放置在网页的可见边界内的图像才可以被视为可能的徽标,并且网页的可见边界之外的图像由于不可能是徽标而被拒绝。作为另一个示例,只有放置在网页的某个垂直位置上方的图像可以被认为是可能的徽标,并且低于网页的某个垂直位置(例如,在可见页下面太远)的图像由于不可能是徽标而可以被拒绝。垂直阈值可以被认为是某个数量的像素,例如,距所显示的网页的顶部315个像素。
基于与候选者相关联的各种因素中的一个或多个因素,可以为品牌徽标(例如,公司徽标或网站徽标)的候选者分配点数或分数。例如:
·如果与候选者相关联的字段或元素属性中包含单词或字符串“徽标(logo)”,则可以为候选者分配+2.5点,
·对于具有提及“徽标”的属性的元素的任何相似大小(例如,小于两倍长或高,或者简单地小于255个像素宽)的父节点,+2.5点,
·如果图像元素或其至少一个父元素是JavaScript链接或到与网页自身不同的主机的链接,则-5点,
·如果任何相关联的链接与网页的主机匹配,则+1点,
·如果任何相关联的链接与预期的主页文档名称(例如,index.html、index.htm、index.php、index.jsp、home.html、default.htm、default.aspx)匹配,则+1点,
·对于不确定的链接分析,-1点,
·如果图像位于距网页的顶边缘小于100像素的位置,则+1.5点,
·如果图像的左边缘位于距网页的右边缘超过10个像素处,则+1点,
·如果图像的左边缘位于距网页的左边缘小于200个像素处,则+1点,
·如果图像的左边缘位于距网页的左边缘小于18个像素处,则+1点,
·如果图像的宽度超过471个像素,则-1点,
·如果图像的宽度超过711个像素,则-1点,
·如果任何图像属性与导航(例如,nav、navigat、菜单)匹配但未包含在网页的URL中,则-1点,
·如果任何图像属性或类似大小的父节点属性与其它非徽标文本(例如,hamburger、spacer、shim、search、close、rss、cart、facebook、flickr、google、instagram、linkedin、tumblr、twitter、youtube)匹配但未包含在网页的URL中,则-5点。
品牌徽标的候选者可以根据如上所述确定的其累计点值进行排序。可以创建两组候选者,优先考虑具有适合于徽标的预定预期范围的大小和/或位置的任何图像元素,不包括任何菜单或导航属性,和/或包括特定地与徽标相关联的属性。例如,徽标的这种预定预期范围可以包括17到471个像素宽、大于11个像素高、距网页的顶部小于219个像素、以及大于323个平方像素的面积。
附加地或替代地,已渲染网页分析器140可以从距一侧(例如,左侧)预定距离(例如,19个像素)和距顶部预定距离(例如,19个像素)开始分析在网页上渲染的图像元素以识别候选徽标,从而跳过预定距离(例如,18个像素)到另一侧(例如,右侧)直到达到网页的中间减去预定量(例如,10个像素),并且然后继续分析图像元素距顶部附加距离(例如,18个像素),直到被分析的图像距网页的顶部小于最终预定距离(例如,190个像素)。
如果根据先前的操作仍然没有确定徽标候选者,则可以根据图像元素的显示大小是否在如上所述的预期徽标大小范围内和/或图像元素是否包括图像元素属性内匹配的导航或其它菜单来搜索并排名包括提及单词或字符串“徽标”的所有图像元素。
在一些实施例中,当徽标图像元素被识别但网页不包含到与图像元素对应的图像文件的链接时,例如,对于内联SVG图像,由网页源代码分析器130确定的图像元素的位置和大小可以由已渲染网页分析器140结合所显示的网页(或网页的模拟显示)的屏幕截图用来从屏幕截图中剪裁徽标并且创建包含徽标图像的新图像文件。
可以由网页源代码分析器130提取前景颜色和图像以及背景颜色和图像。还可以确定网页的突出前景-背景颜色对。可以通过使用树行走算法(tree walking algorithm)遍历网页代码中的每个文本节点并将计算出的样式颜色记录在前景或背景颜色列表中来确定前景-背景颜色对的列表。此外,网页源代码分析器130可以确定并检索网页的背景图像。可以分析网页代码的计算出的样式以识别背景图像。
网页源代码分析器130可以执行突出颜色分析以识别和创建网页上使用的最常用颜色的列表。颜色可以通过颜色表示标准(例如RGBA)来识别。黑暗度(darkness)级别也可以与每个识别出的颜色相关联。为前景-背景颜色对确定的颜色可以根据它们在网页上的普遍性进行排名。
在操作206中,网页源代码分析器130可以基于要提取的特性来执行网页优化。对于识别出的每个要提取的网页特性,可能存在从相同原始网页创建的不同优化网页。可以对网页执行优化,以准备网页供已渲染网页分析器140进行分析。网页源代码分析器130可以利用注入到在web浏览器120上执行的网页代码中的JavaScript代码来执行网页优化。注入的JavaScript代码可以修改从web服务器110下载的网页原生代码和/或与其一起执行。
例如,可以将网页上显示的对象或文本设置为透明,可以消除或隐藏具有小于某个阈值(例如,18个像素)的大小或尺寸的小图像,可以消除或隐藏显示在网页上的广告,和/或可以去除或隐藏网页上可能干扰对网页或网站的主题或品牌分析的诸如调查或cookie法弹出窗口之类的任何插页式覆盖。可以设置图像的不透明度以在已渲染网页中隐藏它们不被看见。为了协助已渲染网页分析器140识别已渲染网页的颜色特性,例如,最常见的颜色和/或背景颜色,网页上显示的所有文本可以通过树行走算法在网页的代码中被设置为透明。此外,可以将宽度小于某个预定值(例如,420个像素)或高度小于某个预定值(例如,420个像素)的所有图像设置为透明。
在操作208中,web浏览器120可以渲染网页。渲染网页可以包括根据网页代码计算真实世界或虚拟视频显示器的每个像素的值。渲染网页可以包括在视频显示器上显示网页。替代地或附加地,渲染网页可以包括在存储器或数据存储装置中生成表示要用于系统100分析的已渲染网页的像素的数据表。已渲染网页可以包括通过与已渲染网页进行交互可访问的元数据(例如,到网页上显示的图像的链接、到可从已渲染网页访问的其它网页的链接等)。因此,已渲染网页可以是交互式的。系统100可以通过模拟鼠标在已渲染网页上的移动以及在已渲染网页上的鼠标点击来与已渲染网页进行交互。以这种方式,可以通过模拟在网页的某个区域上悬停的鼠标的右键单击来识别和存储诸如在网页上渲染的徽标的图像。由web浏览器120渲染的网页的屏幕截图可以被创建为在存储器或数据存储装置中的数据表中生成的已渲染网页的存储表示。屏幕截图可以逐个像素地包括已渲染网页的所有图像信息,但是可以不包括实时渲染的网页的交互方面。
在操作210中,已渲染网页分析器140可以从已渲染网页中提取识别出的网站特性。已渲染网页分析器140可以在web浏览器120正在渲染网页的同时在操作208中分析由web浏览器120渲染的网页。替代地或附加地,已渲染网页分析器140可以分析先前渲染的网页的所存储的屏幕截图。网站特性的提取可以包括根据像素在已渲染网页内的相对位置来分析由浏览器计算的像素值。网站特性的提取可以包括分析通过诸如鼠标之类的用户界面元素经由已渲染网页可访问的对象的由浏览器计算的值。已渲染网页分析器140可以模拟诸如鼠标之类的用户界面元素以在渲染网页时访问由web浏览器120提供的数据。例如,这样的数据可以包括与已渲染网页的不同区域相关联的图像数据。
在示例中,如果如上所述网页源代码分析器130没有确定徽标候选者,则已渲染网页分析器140可以从距一侧(例如,左侧)预定距离(例如,19个像素)和距顶部预定距离(例如,19个像素)开始分析在网页上渲染的图像元素以识别候选徽标,从而跳过预定距离(例如,18个像素)到另一侧(例如,右侧),直到达到网页的中间减去预定量(例如,10个像素),并且然后继续分析图像元素距顶部附加距离(例如,18个像素),直到被分析的图像距网页的顶部小于最终预定距离(例如,190个像素)。
当网页源代码分析器130已识别出徽标图像元素但网页不包含到与图像元素对应的图像文件的链接时,例如,对于内联SVG图像,已渲染网页分析器140可以使用图像元素的位置和大小以及所显示的网页(或网页的模拟显示)的屏幕截图以从屏幕截图中裁剪徽标并且创建包含徽标图像的新图像文件。
已渲染网页分析器140可以确定包括在一个或多个识别出的徽标内或围绕一个或多个识别出的徽标的颜色。可以通过分析已渲染网页或已渲染网页的屏幕截图以找到在徽标内、徽标邻近或徽标附近(例如,在徽标的右上角旁边)的颜色值(例如,红绿蓝α(RGBA)值)来确定颜色。对在徽标的位置处或在徽标邻近或附近的已渲染网页的逐像素分析可以根据与特定颜色匹配的所分析的像素的百分比来识别突出的一种或多种颜色。例如,在所分析的行中出现60%或更多的像素的任何颜色可以被认为是突出的颜色。颜色的位置及其在网页上出现的频率可以被认为是用于确定颜色是否是网页的主题化或品牌化的一部分的因素。此外,颜色是暗还是亮的识别可以帮助确定可能在另一个网站或软件应用的主题化或品牌化中覆盖在该颜色上的其它颜色。例如,在另一个网站或软件应用的主题化或品牌化中可以根据被确定为所分析的网站的主题化或品牌化的一部分的背景颜色来确定字体颜色。
当已渲染网页分析器140从已渲染网页中提取识别出的徽标时,注入的代码可以修改已渲染网页的与徽标对应的区域的背景,以将背景颜色修改为特定的单个背景颜色,而不是一系列不同的背景颜色。例如,原始徽标可能具有渐变背景颜色方案或许多不同的背景颜色。注入的代码可以将原始徽标的背景修改为具有统一背景颜色的新版本的徽标,该统一背景颜色可以是原始渐变背景颜色方案的平均值、中值、最小值或最大值。
附加地或替代地,对于网页源代码分析器130的背景图像分析,已渲染网页分析器140可以识别和分析网页中包含的具有大于阈值的大小的任何图像,例如,大于超过420个像素的宽度和/或超过247个像素的高度、和/或位于距网页的顶部小于预定距离(例如,420个像素)处的图像。任何识别出的图像可以作为候选背景图像存储在列表中。
附加地或替代地,对于网页源代码分析器130的突出颜色分析,已渲染网页分析器140可以分析已渲染网页以识别和创建网页上使用的最常见颜色的列表。可以在优化网页代码之后执行这种分析。在分析中,在超过网页的一行的某个预定百分比(例如,59%)上显示的任何颜色可以被认为是实质性的并且被列为网页的前景颜色或背景颜色的成员。颜色可以通过颜色表示标准(例如,RGBA)来识别。黑暗度级别也可以与每个识别出的颜色相关联。为前景-背景颜色对确定的颜色可以根据它们在网页上的普遍性进行排名。
已渲染网页分析器140可以分析已渲染网页的突出和/或主要背景颜色或图像的黑暗度。已渲染网页分析器140还可以分析显示在已渲染网页的突出和/或主要背景颜色或图像上的前景文本颜色的黑暗度。已渲染网页分析器140可以生成相对黑暗度的前景/背景比率的图和/或前景/背景颜色的图。前景/背景颜色的图可以被编码为检测到的颜色和标准化的颜色配对(例如,互补色轮的互补色)之间的差异。已渲染网页分析器140可以基于使用黑暗度比率图的比率、基于标准化的颜色配对之间的最大差异或基于标准化的颜色配对之间的最小差异来选择用于背景颜色和前景文本颜色的配对的特性。例如,已渲染网页分析器140可以使用黑暗度比率图基于最小或最大黑暗度比率、使用前景/背景颜色的图基于检测到的颜色和标准化的颜色配对之间的最大差异、或者使用前景/背景颜色的图基于检测到的颜色和标准化的颜色配对之间的最小差异来选择用于配对背景颜色和前景文本颜色的特性。
已渲染网页分析器140可以对已渲染网页执行图像分析以确定网页样式信息,例如,用户界面元素样式。例如,图像分析可以确定按钮样式,诸如按钮形状(例如,圆角、矩形、正方形等)和大小。即使图像文件的形状可能始终是矩形,但是图像文件内的用户界面元素的形状可能因图像文件而异。因此,使用图像分析算法的图像分析可以由已渲染网页分析器140用来确定网页样式信息。作为示例,已渲染网页分析器140可以对已渲染网页的包括用户界面元素(例如,图像按钮和/或包括图像的按钮)的部分执行霍夫(Hough)变换,以确定用户界面元素的形状。在实施例中,霍夫变换可以确定已渲染网页的区域中包含的图像按钮和/或包含图像的按钮是否是圆形的。可能涉及图像并采取不同形状的其它用户界面元素的示例包括滑块、开关、拨号盘和旋钮。
在操作212中,分析控制器150可以交叉关联并整合网页源代码分析器130和已渲染网页分析器140的结果,以得出识别出的网页特性的一个或多个值。例如,已渲染网页分析器140对已渲染网页的分析可以识别背景颜色,而网页源代码分析器130对网页的文本颜色的分析可以将文本颜色映射到已渲染网页上的位置。分析控制器150可以使用网页源代码分析器130和已渲染网页分析器140这两者的结果来关联和映射在网页的背景颜色上显示的文本的颜色和其它特性。例如,可以将背景颜色映射到文本颜色以确定网页主题内的字体颜色和背景颜色之间的配对。在各种实施例中,可能存在文本字体和背景颜色的多个配对。可以确定字体颜色和背景颜色之间的配对的频率,以便确定可能的主题或用于字体颜色和背景颜色配对的主题和子主题的优先级。
在操作214中,收集到的关于用于主题化和品牌化的网页的所有信息可以存储在可由目标网页或软件包用于品牌化和/或主题化新网页或软件包的可转移资产(例如,数据文件)中。
在操作216中,如果存在期望提取的相同网页的另外的特性,则可以识别要从同一网页提取的另一个特性,并且该处理可以返回到操作204。
在操作218中,如果在同一网站内存在另外的网页要分析并且有从中提取的特性,则可以识别同一网站内的另一个网页的URL,并且该处理可以返回到操作202以开始识别另外识别出的网页的特性。
在操作220中,如果已经分析了同一网站内的多个网页并从其提取了特性,则可以对每个网页的特性进行交叉分析和交叉关联以确定跨越多个网页的主题特性。这些信息可以被一起收集并存储为一组网站主题或品牌化信息,以便以后用于主题化或品牌化其它多网页网站或软件包。如果只分析了一个网页,则该一个网页的信息可以作为整个网站的特性存储。
在各种实施例中,根据在网站内的多个网页上执行的分析,关于不同网页上的颜色、图像和其它品牌化和主题化特性的信息可以彼此进行比较以确定特性作为主题或品牌的一部分的分值或可能性。例如,仅在网站上的所有网页中的一个或几个网页上出现的图像可以被确定为不太可能是徽标,而在网站上的每个、大多数或许多网页上出现的图像可以被确定为可能是徽标。例如,跨网站的所有网页的候选徽标图像的出现次数可以是评分因子。同样地,在网站的多个网页上识别出的背景和前景颜色可以被确定为更可能是网站的主题化或品牌化的一部分,而没有出现在网站的许多网页上的背景和前景颜色可以被确定为不可能是网站的主题化或品牌化的一部分。作为另一个示例,突出地显示在一个网页上但不显示在网站的其它网页上的大图像可以被确定为不可能是用于网站的主题化或品牌化的背景图像,但是如果仅分析其上显示大图像的网页,那么大图像可以被确定为可能是单个网页的主题的背景图像。
图3例示了根据一个或多个实施例的用于提取网站特性的示例性操作集合300。图3中所示的一个或多个操作可以被修改、重新排列或全部省略。因此,图3中所示的操作的特定顺序不应该被解释为限制一个或多个实施例的范围。为了清楚起见,下面描述了详细的示例。下面描述的组件和/或操作应该被理解为可能不适用于某些实施例的一个特定示例。因此,下面描述的组件和/或操作不应该被解释为限制任何权利要求的范围。
在各种实施例中,由包括计算处理器的系统(例如,图1的系统100)执行的处理可以从网站或软件应用提取网站特性,并提供要应用于不同网站或软件应用的网站特性。在以下描述中,描述了从网站提取要应用于不同网站或软件应用的设计信息的实施例。但是,在各种其它实施例中,可能涉及和/或操作的是软件应用而不是网站,无论该软件应用是在本地客户端计算机系统上执行还是通过网络连接在服务器计算机系统上执行。此外,在下面讨论的实施例中,重点是从网站提取徽标和颜色。可以使用类似的处理从网站中识别和提取许多其它主题化和品牌化特性(其中的一些示例关于图2被识别)。
在操作302中,分析控制器150可以识别要从网站提取的特性。识别出的特性可以是影响网站的主题或品牌的特性。特性可以通过经由用户界面、经由数据文件、经由计算机通信网络上的通信、或经由系统100在其上执行的计算处理器上执行的另一个处理接收特性的标识来识别。网站可以经由URL来识别并由图1的web服务器110服务。要从网站提取的特性可以包括主题、徽标、品牌、背景颜色、文本颜色和/或如以上关于图2讨论的其它示例。网站可以由web浏览器120经由URL访问。Web浏览器120可以访问网站以执行和渲染由网站托管的一个或多个网页。
在操作304中,分析控制器150可以选择网页和网页的优化以便提取网站特性。网站可以包括许多网页,并且可以使用网络爬虫算法来爬取网页,或者可以根据预定的一组网页来选择网页。可以根据要为网页提取的特性来选择要为每个网页执行的优化,如关于图2的操作206所讨论的。
在操作306中,网页源代码分析器130可以基于所选择的网页优化来修改网页的源代码,从而基于要提取的特性来执行网页优化。对于识别出的每个要提取的网页特性,可能存在从相同原始网页创建的不同的优化网页。网页源代码分析器130可以将新的源代码(例如,JavaScript代码)注入到在web浏览器120上执行的网页代码中。注入的JavaScript代码可以修改从web服务器110下载的网页的原生代码和/或与其一起执行。JavaScript代码可以修改web浏览器120中的网页代码的本地副本以便优化网页。
在操作308中,网页源代码分析器130和/或已渲染网页分析器140可以从表示优化网页的渲染的数据中提取识别出的网站特性。已渲染网页分析器140可以在web浏览器120正在渲染网页的同时分析由web浏览器120渲染的网页。替代地或附加地,已渲染网页分析器140可以分析先前已渲染网页的所存储的屏幕截图。网站特性的提取可以包括根据像素在已渲染网页内的相对位置来分析由浏览器计算的像素值。网站特性的提取可以包括根据网页源代码分析器130内分析的网页源代码通过诸如鼠标之类的用户界面元素分析经由已渲染网页可访问的对象的由浏览器计算的值。已渲染网页分析器140可以模拟诸如鼠标的用户界面元素以在渲染网页时访问由web浏览器120提供的数据。例如,这样的数据可以包括与已渲染网页的不同区域相关联的图像数据。
作为示例,提取的网站特性可以包括主要背景颜色与主要前景或文本颜色之间的黑暗度的比率。已渲染网页分析器140可以识别已渲染网页的候选主要背景颜色的数量,并且然后分析已渲染网页的候选主要背景颜色的黑暗度。已渲染网页分析器140还可以识别在已渲染网页的候选主要背景颜色上显示的主导前景文本颜色,并且然后分析主导前景文本颜色的黑暗度。已渲染网页分析器140可以针对候选主要背景颜色和主导前景文本颜色中的每一项来计算黑暗度比率。已渲染网页分析器140可以基于黑暗度比率来选择用于主要背景颜色和前景文本颜色的配对的特性。例如,选择可以基于黑暗度比率为最大,或者选择可以基于黑暗度比例为最小。
作为示例,提取的网站特性可以包括主要背景颜色和主要前景文本颜色的配对。已渲染网页分析器140可以识别已渲染网页的许多个候选主要背景颜色。已渲染网页分析器140还可以识别在已渲染网页的候选主要背景颜色上显示的许多个主导前景文本颜色。已渲染网页分析器140可以确定已渲染网页的候选主要背景颜色和主要前景文本颜色的配对与互补颜色(例如,互补色轮的颜色)的表中的颜色的配对之间的匹配接近度。已渲染网页分析器140可以基于作为最佳的匹配接近度来选择用于主要背景颜色和前景文本颜色的配对的特性。例如,选择可以基于黑暗度比率为最大,或者选择可以基于黑暗度比率为最小。在一些实施例中,可以选择互补颜色表中与候选背景颜色和前景文本颜色对之一匹配最接近的一对颜色作为网站特性的特性主要背景颜色和主导前景文本颜色。
在操作310中,关于用于主题化和品牌化的网页收集到的所有信息可以被存储在可由目标网页或软件包使用的可转移资产(例如,数据文件)中,以品牌化和/或主题化新的网页或软件包。
在操作312中,如果在同一网站内存在另外的网页要分析并且具有从中提取的相同特性,则可以识别同一网站内的另一个网页的URL,并且该处理可以针对另外识别出的网页返回到操作304。
在操作314中,如果存在期望提取的同一网站的另外特性,则可以识别要从同一网站提取的另一个特性,并且该处理可以返回到操作302。
在操作316中,如果已经分析了同一网站内的多个网页并从中提取了特性,则可以对每个网页的特性进行交叉分析和交叉关联以确定跨越多个网页的主题特性。该信息可以被一起收集并存储为一组网站主题或品牌信息,以便以后用于主题化或品牌化其它多网页网站或软件包。如果只分析了一个网页,则该一个网页的信息可以存储作为整个网站的特性。
图4例示了根据一个或多个实施例的包括要提取的特性的网页405的示例性实施例。可以根据以上关于图2和图3讨论的任何操作及其组合或变化来提取特性。下面讨论提取网页405的一个或多个特性的示例。
网页405包括徽标410、图标415和图像420、425和430。在各种实施例中,网页405可以包括位于网页上的不同位置的任意数量的不同徽标、图标和图像。分析控制器150可以选择包括网页405的网站的特性以从网页405中提取。当所选择的特性是徽标时,网页源代码分析器130和/或已渲染网页分析器140可以在表示网页405的渲染时识别包括徽标410、图标415和图像420、425和430的数据。网页源代码分析器130和/或已渲染网页分析器140可以分析徽标410、图标415和图像420、425和430中的每一个,以执行评分并根据哪个具有最高分数来识别哪个最可能是网页405的徽标。当存在平局时,可以优选最大图像,或者可以优选最接近左上方的图像。
在各种实施例中,徽标410、图标415和图像420、425和430中的任一者可以能够从由在网页405中表示内联图像文件(例如,可缩放向量图形(SVG)文件)的由URL识别以便于访问的网络位置下载。当单独由已渲染网页分析器140分析时,徽标410、图标415和图像420、425和430中的任一者可以潜在地被认为是徽标。例如,它们均可以包括徽标的典型的形状和大小。但是,如本文其它地方所讨论的,可以考虑各种其它评分因素,包括由网页源代码分析器130识别出的因素,以生成徽标410的最高分值并将徽标410识别为网页徽标。可以为徽标410生成高分值的一些因素可以包括以下:
·徽标410被放置在网页405的高处并且位于网页405的左侧
·徽标410的大小在网页内的徽标的预期大小范围内
·徽标410不包括徽标的典型失格,诸如社交媒体标志
·徽标410的网页级联样式表(CSS)类属性中的一些包括单词
“徽标(logo)”
一旦分析控制器150已将徽标410识别为网页405的徽标,分析控制器150就可以控制网页源代码分析器130将代码(例如,JavaScript代码)注入到网页405中以从网页405中提取徽标410。
分析控制器150还可以基于其它特性继续执行网页405的分析和特性提取。例如,分析控制器150可以控制网页源代码分析器130将代码(例如,JavaScript代码)注入到网页405中,以修改围绕徽标410的网页405的颜色以统一颜色。分析控制器150然后可以控制网页源代码分析器130和已渲染网页分析器140识别、下载和分析图标415的其它图像以及图像420、425和430。分析控制器150可以确定主要背景颜色、主要前景文本颜色以及前景文本/背景颜色的配对。
分析控制器150还可以选择主图像作为背景图像或主要颜色作为背景。也可以确定文本字体、文本大小、按钮样式等。一旦从网页405确定了所有品牌化和主题化信息,就可以存储品牌化和主题化信息以便在品牌化或主题化白标签网站或软件应用时使用,以与网页405类似的方式显示品牌或主题。
4.杂项;扩展
实施例针对具有一个或多个设备的系统,设备包括硬件处理器并且被配置为执行本文描述的和/或所附任何一项权利要求中所述的任何操作。
在实施例中,非瞬态计算机可读存储介质包括指令,指令当由一个或多个硬件处理器执行时使得执行本文描述的和/或任何一项权利要求中所述的任何操作。
根据一个或多个实施例,可以使用本文描述的特性和功能的任何组合。在前面的说明书中,已经参考因实现而异的许多具体细节描述了实施例。因此,说明书和附图应当被认为是说明性的而不是限制性的。本发明的范围的唯一且排他的指标以及申请人打算作为本发明的范围的内容是从本申请发布的权利要求集合的字面和等同范围,以这种权利要求发出的具体形式,包括任何后续的更正。
5.硬件概述
根据一个实施例,本文所描述的技术由一个或多个专用计算设备来实现。专用计算设备可以是硬连线的以执行本技术,或者可以包括被永久性地编程以执行本技术的数字电子设备,诸如一个或多个专用集成电路(ASIC)、现场可编程门阵列(FPGA)或网络处理单元(NPU),或者可以包括被编程为根据固件、存储器、其它存储装置或组合中的程序指令执行本技术的一个或多个通用硬件处理器。这种专用计算设备还可以将自定义的硬接线逻辑、ASIC、FPGA或NPU与自定义的编程组合来实现本技术。专用计算设备可以是台式计算机系统、便携式计算机系统、手持式设备、联网设备或结合硬连线和/或程序逻辑来实现技术的任何其它设备。
例如,图5是图示可以在其上实现本发明的实施例的计算机系统500的框图。计算机系统500包括总线502或用于传送信息的其它通信机构以及与总线502耦合用于处理信息的硬件处理器504。硬件处理器504可以是例如通用微处理器。
计算机系统500还包括耦合到总线502用于存储信息和要由处理器504执行的指令的主存储器506,诸如随机存取存储器(RAM)或其它动态存储设备。主存储器506也可以用于在要由处理器504执行的指令的执行期间存储临时变量或其它中间信息。当这种指令被存储在处理器504可访问的非暂态存储介质中时,它们使计算机系统500成为被定制用于执行指令中指定的操作的专用机器。
计算机系统500还包括耦合到总线502用于存储静态信息和处理器504的指令的只读存储器(ROM)508或其它静态存储设备。提供了诸如磁盘或光盘之类的存储设备510,并且存储设备510被耦合到总线502,以用于存储信息和指令。
计算机系统500可以经由总线502耦合到显示器512,诸如阴极射线管(CRT),用于向计算机用户显示信息。输入设备514(其包括字母数字和其它键)被耦合到总线502,用于将信息和命令选择传送到处理器504。另一种类型的用户输入设备是光标控件516,诸如鼠标、轨迹球、或光标方向键,用于向处理器504传送方向信息和命令选择并且用于控制显示器512上的光标移动。这种输入设备典型地具有两个轴(第一轴(例如,x)和第二轴(例如,y))上的两个自由度,以允许设备在平面中指定位置。
计算机系统500可以使用定制的硬连线逻辑、一个或多个ASIC或FPGA、固件和/或程序逻辑来实现本文描述的技术,所述定制的硬连线逻辑、一个或多个ASIC或FPGA、固件和/或程序逻辑与计算机系统结合使计算机系统500成为专用机器或将计算机系统500编程为专用机器。根据一个实施例,本文的技术由计算机系统500响应于处理器504执行主存储器506中包含的一条或多条指令的一个或多个序列而执行。这些指令可以从另一个存储介质(诸如存储设备510)读取到主存储器506中。在主存储器506中包含的指令序列的执行使处理器504执行本文描述的处理步骤。在替代实施例中,可以使用硬连线电路系统代替软件指令或与软件指令组合使用。
如本文所使用的术语“存储介质”是指存储有使机器以特定方式操作的数据和/或指令的任何非瞬态介质。这种存储介质可以包括非易失性介质和/或易失性介质。非易失性介质包括例如光盘或磁盘,诸如存储设备510。易失性介质包括动态存储器,诸如主存储器506。存储介质的常见形式包括例如软盘、柔性盘、硬盘、固态驱动器、磁带或任何其它磁性数据存储介质、CD-ROM、任何其它光学数据存储介质、具有孔模式的任何物理介质、RAM、PROM和EPROM、FLASH-EPROM、NVRAM、任何其它存储器芯片或盒带、内容可寻址存储器(CAM)和三元内容可寻址存储器(TCAM)。
存储介质与传输介质不同但可以与传输介质结合使用。传输介质参与在存储介质之间的信息传输。例如,传输介质包括同轴电缆、铜线和光纤,包括包含总线502的电线。传输介质还可以采取声波或光波的形式,诸如在无线电波和红外线数据通信期间生成的那些。
各种形式的介质可以涉及将一条或多条指令的一个或多个序列运送到处理器504以供执行。例如,指令最初可以承载在远程计算机的磁盘或固态驱动器上。远程计算机可以将指令加载到远程计算机的动态存储器中,并且使用调制解调器经电话线发送指令。计算机系统500本地的调制解调器可以接收电话线上的数据,并且使用红外线发射器将数据转换为红外线信号。红外线探测器可以接收在红外线信号中承载的数据,并且适当的电路系统可以将数据放在总线502上。总线502将数据运送到主存储器506,处理器504从该主存储器506检索并执行指令。由主存储器506接收到的指令可以可选地在被处理器504执行之前或执行之后存储在存储设备510上。
计算机系统500还包括耦合到总线502的通信接口518。通信接口518提供耦合到网络链路520的双向数据通信,其中网络链路520连接到本地网络522。例如,通信接口518可以是综合业务数字网(ISDN)卡、电缆调制解调器、卫星调制解调器、或向对应类型的电话线提供数据通信连接的调制解调器。作为另一个示例,通信接口518可以是提供到兼容的局域网(LAN)的数据通信连接的LAN卡。也可以实现无线链路。在任何这种实现中,通信接口518发送和接收运送表示各种类型信息的数字数据流的电信号、电磁信号或光信号。
网络链路520典型地通过一个或多个网络向其它数据设备提供数据通信。例如,网络链路520可以通过本地网络522提供到主计算机524或到由互联网服务提供商(ISP)526运营的数据设备的连接。ISP 526又通过现在通常称为“互联网”528的全球分组数据通信网络提供数据通信服务。本地网络522和互联网528都使用运送数字数据流的电信号、电磁信号或光信号。通过各种网络的信号以及在网络链路520上并且通过通信接口518的信号是传输介质的示例形式,这些信号运送来往计算机系统500的数字数据。
计算机系统500可以通过(一个或多个)网络、网络链路520和通信接口518发送消息和接收数据,包括程序代码。在互联网示例中,服务器530可以通过互联网528、ISP 526、本地网络522和通信接口518传输对于应用程序的请求代码。
所接收到的代码可以在该代码被接收时由处理器504执行,和/或存储在存储设备510或其它非易失性存储装置中以供以后执行。
在前面的说明书中,已经参考因实现而异的许多具体细节描述了实施例。因此,说明书和附图应当被认为是说明性的而不是限制性的。本发明的范围的唯一且排他的指标以及申请人打算作为本发明的范围的内容是从本申请中发布的权利要求集合的字面和等同范围,以这种权利要求发出的具体形式,包括任何后续的更正。
Claims (14)
1.一种包括指令的非瞬态计算机可读介质,所述指令当由一个或多个硬件处理器执行时引起执行一组操作,该组操作包括:
识别要从第一网页中提取的第一网站特性,其中第一网站特性包括以下中的至少一个:
第一网页的第一背景颜色,
第一网页的文本颜色和背景颜色对,
第一网页的前景颜色和背景颜色对,
第一网页上的徽标图像,
第一网页上的文本的文本格式参数,
第一网页上的表的表格式参数,以及
第一网页上的用户界面元素的用户界面显示参数;
选择用于所述第一网页的第一优化以准备从所述第一网页中提取第一网站特性,所述第一优化是基于识别出的第一网站特性而从一组优化中选择的,其中所述一组优化包括以下中的至少一个:
将第一网页上的文本的文本不透明度设置为完全透明,以准备提取所述第一背景颜色、文本颜色和背景颜色对、前景颜色和背景颜色对、或徽标图像中的一个或多个,
识别第一网页上的大于第一尺寸阈值或小于第二尺寸阈值的图像,并且将所识别的图像的不透明度设置为完全透明,以准备提取徽标图像,以及
识别并移除第一网页上的插页式覆盖以防止第一网站特性被遮挡,从而准备提取第一网站特性中的任何一个或多个;
基于所选择的第一优化来修改所述第一网页的源代码以获得已优化的第一网页;以及
在用于获得已优化的第一网页的修改操作之后,从表示已优化的第一网页的渲染的数据中提取第一网站特性;
识别要从第二网页中提取的第二网站特性,其中第二网站特性不同于第一网站特性并且包括以下中的至少一个:
第二网页的第二背景颜色,
第二网页的文本颜色和背景颜色对,
第二网页的前景颜色和背景颜色对,
第二网页上的徽标图像,
第二网页上的文本的文本格式参数,
第二网页上的表的表格式参数,以及
第二网页上的用户界面元素的用户界面显示参数;
选择用于所述第二网页的第二优化以准备从所述第二网页中提取第二网站特性,所述第二优化是基于识别出的第二网站特性而从所述一组优化中选择的,其中所述一组优化包括以下中的至少一个:
将第二网页上的文本的文本不透明度设置为完全透明,以准备提取所述第二背景颜色、文本颜色和背景颜色对、前景颜色和背景颜色对、或徽标图像中的一个或多个,
识别第二网页上的大于第一尺寸阈值或小于第二尺寸阈值的图像,并且将所识别的图像的不透明度设置为完全透明,以准备提取徽标图像,以及
识别并移除第二网页上的插页式覆盖以防止第二网站特性被遮挡,从而准备提取第二网站特性中的任何一个或多个;
基于所选择的第二优化来修改所述第二网页的源代码以获得已优化的第二网页;以及
在用于获得已优化的第二网页的修改操作之后,从表示已优化的第二网页的渲染的数据中提取第二网站特性。
2.如权利要求1所述的介质,其中,表示已优化的第一网页的渲染和已优化的第二网页的渲染的所述数据分别包括第一网页的源代码的第一部分和第二网页的源代码的第二部分。
3.如权利要求1所述的介质,其中,提取第一网站特性和第二网站特性进一步包括:
识别至少一个附加网页上的第一网站特性和第二网站特性中的一者或两者,其中所述第一网页、第二网页和所述至少一个附加网页在同一网站内;
响应于识别所述至少一个附加网页上的第一网站特性和第二网站特性中的一者或两者,将所述第一网站特性和第二网站特性中的一者或两者指示为要向同一网站内的其他网页应用的主题特性;以及
将所述主题特性存储在可转移的数据结构中以便应用于所述同一网站内的其他网页。
4.如权利要求1所述的介质,其中,表示从中提取所述第一网站特性和第二网站特性的已优化的第一网页的渲染和已优化的第二网页的渲染的所述数据分别包括与已优化的第一和第二网页的渲染对应的由浏览器计算的像素值。
5.如权利要求1所述的介质,其中,表示从中提取所述第一网站特性和第二网站特性的已优化的第一网页的渲染和已优化的第二网页的渲染的所述数据分别包括已优化的第一网页的渲染的第一屏幕截图和已优化的第二网页的渲染的第二屏幕截图。
6.如权利要求1所述的介质,其中,表示从中提取所述第一网站特性和第二网站特性的已优化的第一网页的渲染和已优化的第二网页的渲染的所述数据分别包括与已优化的第一和第二网页的渲染对应的元数据。
7.如权利要求1所述的介质,其中,修改第一网页和第二网页的源代码包括将动态编程语言代码分别注入到第一网页的源代码和第二网页的源代码中。
8.如权利要求1-7中任一项所述的介质,其中:
所述一组优化包括以用单个背景颜色代替徽标图像的多个背景颜色。
9.如权利要求1-7中任一项所述的介质,其中:
第一网页和第二网页中的一者或两者上的用户界面元素包括按钮样式;
表示第一网页和第二网页中的一者或两者的渲染的所述数据包括表示具有所述按钮样式的按钮的图像;以及
提取网站特性包括对表示具有所述按钮样式的按钮的图像执行图像分析以确定按钮的形状。
10.如权利要求1-7中任一项所述的介质,其中:
提取第一网页和第二网页中的一者或两者的前景颜色和背景颜色对包括:
识别已优化的第一网页和已优化的第二网页的渲染中的一者或两者的多个候选背景颜色;
识别已优化的第一网页和已优化的第二网页的渲染中的一者或两者的主导前景文本颜色;
对于已优化的第一网页和已优化的第二网页的渲染中的一者或两者,针对候选背景颜色和主导前景文本颜色中的每一项,计算黑暗度比率;以及
对于已优化的第一网页和已优化的第二网页中的一者或两者,选择具有最高黑暗度比率的候选背景颜色作为主导背景颜色。
11.如权利要求1-7中任一项所述的介质,其中:
提取第一网页和第二网页中的一者或两者的前景颜色和背景颜色对的网站特性包括:
分别识别第一网页和第二网页中的一者或两者中的第一多个候选背景颜色和第二多个候选背景颜色;
分别识别第一网页和第二网页中的一者或两者中的第一多个候选前景文本颜色和第二多个候选前景文本颜色;
确定互补色表中的颜色的配对与以下中的一者或两者之间的匹配的接近度:
第一网页的所述第一多个候选背景颜色和所述第一多个候选前景文本颜色的配对;
第二网页的所述第二多个候选背景颜色和所述第二多个候选前景文本颜色的配对;以及
选择与互补色表中的颜色的配对匹配最接近的候选背景颜色和候选前景文本颜色作为第一网页和第二网页中的一者或两者中的主导背景颜色和主导前景文本颜色的配对。
12.一种用于提取网站特性的方法,包括如权利要求1-11的任一项中所述的操作。
13.一种用于提取网站特性的装置,包括用于执行如权利要求1-11的任一项中所述的操作的单元。
14.一种用于提取网站特性的设备,包括:
一个或多个硬件处理器,以及
存储器,存储有指令,所述指令当由所述一个或多个硬件处理器执行时引起执行如权利要求1-11的任一项中所述的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310952261.2A CN116932961A (zh) | 2017-09-29 | 2018-07-24 | 用于提取网站特性的系统和方法 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762566082P | 2017-09-29 | 2017-09-29 | |
US62/566,082 | 2017-09-29 | ||
US15/969,532 US10984166B2 (en) | 2017-09-29 | 2018-05-02 | System and method for extracting website characteristics |
US15/969,532 | 2018-05-02 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310952261.2A Division CN116932961A (zh) | 2017-09-29 | 2018-07-24 | 用于提取网站特性的系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110020385A CN110020385A (zh) | 2019-07-16 |
CN110020385B true CN110020385B (zh) | 2023-09-15 |
Family
ID=65898082
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810814944.0A Active CN110020385B (zh) | 2017-09-29 | 2018-07-24 | 用于提取网站特性的系统和方法 |
CN202310952261.2A Pending CN116932961A (zh) | 2017-09-29 | 2018-07-24 | 用于提取网站特性的系统和方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310952261.2A Pending CN116932961A (zh) | 2017-09-29 | 2018-07-24 | 用于提取网站特性的系统和方法 |
Country Status (2)
Country | Link |
---|---|
US (2) | US10984166B2 (zh) |
CN (2) | CN110020385B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10891351B2 (en) * | 2018-11-29 | 2021-01-12 | Capital One Services, Llc | Systems and methods for automatically generating and optimizing web pages |
US11126673B2 (en) | 2019-01-29 | 2021-09-21 | Salesforce.Com, Inc. | Method and system for automatically enriching collected seeds with information extracted from one or more websites |
US10866996B2 (en) | 2019-01-29 | 2020-12-15 | Saleforce.com, inc. | Automated method and system for clustering enriched company seeds into a cluster and selecting best values for each attribute within the cluster to generate a company profile |
CN110851517A (zh) * | 2019-11-08 | 2020-02-28 | 深圳市彬讯科技有限公司 | 一种源数据抽取方法、装置、设备及计算机存储介质 |
US11562593B2 (en) * | 2020-05-29 | 2023-01-24 | Microsoft Technology Licensing, Llc | Constructing a computer-implemented semantic document |
US11514121B2 (en) | 2020-08-10 | 2022-11-29 | International Business Machines Corporation | Webpage customization |
CN113360155A (zh) * | 2021-06-23 | 2021-09-07 | 平安普惠企业管理有限公司 | 前端界面背景配色方法、装置、设备及存储介质 |
CN113742025A (zh) * | 2021-09-17 | 2021-12-03 | 北京字跳网络技术有限公司 | 页面生成方法、装置、设备和存储介质 |
TWI810101B (zh) * | 2022-10-27 | 2023-07-21 | 南亞塑膠工業股份有限公司 | 碟鏈系統 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002075604A2 (en) * | 2001-03-15 | 2002-09-26 | Kodak Polychrome Graphics | Web page color accuracy using color-customized style sheets |
JP2003308275A (ja) * | 2002-04-12 | 2003-10-31 | Sharp Corp | ウェブページ情報抽出システムおよびウェブページ情報抽出方法 |
CN1606726A (zh) * | 2001-12-13 | 2005-04-13 | 甲骨文公司 | 对网站网页中用户流的跟踪 |
CN101046820A (zh) * | 2006-03-29 | 2007-10-03 | 国际商业机器公司 | 在web爬取过程期间给网站排优先级的系统和方法 |
CN102200995A (zh) * | 2010-03-26 | 2011-09-28 | 微软公司 | 用于asp.net网页中下载优化的html资源的可配置动态组合 |
CN102663126A (zh) * | 2012-04-23 | 2012-09-12 | 奇智软件(北京)有限公司 | 一种在移动终端中显示网页的方法及装置 |
CN103049536A (zh) * | 2012-11-01 | 2013-04-17 | 广州汇讯营销咨询有限公司 | 提取网页正文内容的方法和系统 |
US9100697B1 (en) * | 2012-04-30 | 2015-08-04 | Google Inc. | Intelligent full window web browser transparency |
WO2015172228A1 (en) * | 2014-05-14 | 2015-11-19 | Pagecloud Inc. | Methods and systems for web content generation |
CN106462582A (zh) * | 2014-06-26 | 2017-02-22 | 谷歌公司 | 批处理优化渲染和获取架构 |
CN106503212A (zh) * | 2016-10-27 | 2017-03-15 | 中企动力科技股份有限公司 | 一种网页元素样式的设置方法及装置 |
CN106980497A (zh) * | 2017-02-10 | 2017-07-25 | 九次方大数据信息集团有限公司 | 网页网站性能优化方法和装置 |
CN107193815A (zh) * | 2016-03-14 | 2017-09-22 | 阿里巴巴集团控股有限公司 | 一种页面代码的处理方法、装置及设备 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7458017B2 (en) * | 2001-06-26 | 2008-11-25 | Microsoft Corporation | Function-based object model for use in website adaptation |
US20090019386A1 (en) * | 2007-07-13 | 2009-01-15 | Internet Simplicity, A California Corporation | Extraction and reapplication of design information to existing websites |
US20140026037A1 (en) * | 2008-02-19 | 2014-01-23 | Google Inc. | Creating personalized networked documents |
US8438471B2 (en) * | 2009-07-13 | 2013-05-07 | John R Thorpe | System for speeding up web site use using task workflow templates for filtration and extraction |
US9274932B2 (en) * | 2011-05-12 | 2016-03-01 | Webtrends, Inc. | Graphical-user-interface-based method and system for designing and configuring web-site testing and analysis |
US9262385B2 (en) * | 2012-05-16 | 2016-02-16 | Sap Portals Israel Ltd | Automatic retrieval of themes and other digital assets from an organizational website |
US9411782B2 (en) * | 2012-11-09 | 2016-08-09 | Adobe Systems Incorporated | Real time web development testing and reporting system |
US20150206169A1 (en) * | 2014-01-17 | 2015-07-23 | Google Inc. | Systems and methods for extracting and generating images for display content |
JP6053717B2 (ja) * | 2014-05-07 | 2016-12-27 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | マークアップ言語で記述されたページのカラーシームを抽出する方法、上記カラーシームを抽出するための電子装置、及び、その電子装置用プログラム |
US20160048605A1 (en) * | 2014-08-14 | 2016-02-18 | International Business Machines Corporation | Integrating image renditions and page layout |
WO2016161383A1 (en) * | 2015-04-03 | 2016-10-06 | Apropose, Inc. | System and method for extracting and searching for design |
WO2017062678A1 (en) * | 2015-10-07 | 2017-04-13 | Impossible Ventures, LLC | Automated extraction of data from web pages |
-
2018
- 2018-05-02 US US15/969,532 patent/US10984166B2/en active Active
- 2018-07-24 CN CN201810814944.0A patent/CN110020385B/zh active Active
- 2018-07-24 CN CN202310952261.2A patent/CN116932961A/zh active Pending
-
2021
- 2021-03-18 US US17/205,166 patent/US20210200931A1/en active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002075604A2 (en) * | 2001-03-15 | 2002-09-26 | Kodak Polychrome Graphics | Web page color accuracy using color-customized style sheets |
CN1606726A (zh) * | 2001-12-13 | 2005-04-13 | 甲骨文公司 | 对网站网页中用户流的跟踪 |
JP2003308275A (ja) * | 2002-04-12 | 2003-10-31 | Sharp Corp | ウェブページ情報抽出システムおよびウェブページ情報抽出方法 |
CN101046820A (zh) * | 2006-03-29 | 2007-10-03 | 国际商业机器公司 | 在web爬取过程期间给网站排优先级的系统和方法 |
CN102200995A (zh) * | 2010-03-26 | 2011-09-28 | 微软公司 | 用于asp.net网页中下载优化的html资源的可配置动态组合 |
CN102663126A (zh) * | 2012-04-23 | 2012-09-12 | 奇智软件(北京)有限公司 | 一种在移动终端中显示网页的方法及装置 |
US9100697B1 (en) * | 2012-04-30 | 2015-08-04 | Google Inc. | Intelligent full window web browser transparency |
CN103049536A (zh) * | 2012-11-01 | 2013-04-17 | 广州汇讯营销咨询有限公司 | 提取网页正文内容的方法和系统 |
WO2015172228A1 (en) * | 2014-05-14 | 2015-11-19 | Pagecloud Inc. | Methods and systems for web content generation |
CN106462582A (zh) * | 2014-06-26 | 2017-02-22 | 谷歌公司 | 批处理优化渲染和获取架构 |
CN107193815A (zh) * | 2016-03-14 | 2017-09-22 | 阿里巴巴集团控股有限公司 | 一种页面代码的处理方法、装置及设备 |
CN106503212A (zh) * | 2016-10-27 | 2017-03-15 | 中企动力科技股份有限公司 | 一种网页元素样式的设置方法及装置 |
CN106980497A (zh) * | 2017-02-10 | 2017-07-25 | 九次方大数据信息集团有限公司 | 网页网站性能优化方法和装置 |
Non-Patent Citations (3)
Title |
---|
A genetic algorithm based optimal feature selection for Web page classification;Selma Ayşe Özel;2011 International Symposium on Innovations in Intelligent Systems and Applications;全文 * |
基于多特征的网页内容提取研究;李连霞;山东大学计算机科学与技术学院;全文 * |
基于遗传算法优化综合启发式的中文网页特征提取;沈高峰;智能系统学报;第9卷(第4期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116932961A (zh) | 2023-10-24 |
US20210200931A1 (en) | 2021-07-01 |
CN110020385A (zh) | 2019-07-16 |
US20190102362A1 (en) | 2019-04-04 |
US10984166B2 (en) | 2021-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020385B (zh) | 用于提取网站特性的系统和方法 | |
US10235349B2 (en) | Systems and methods for automated content generation | |
US10108715B2 (en) | Transformation and presentation of on-demand native application crawling results | |
US9645977B2 (en) | Systems and methods for configuring a header and layout of a mobile version of a conventional website | |
US10542123B2 (en) | System and method for generating and monitoring feedback of a published webpage as implemented on a remote client | |
RU2662632C2 (ru) | Представление документов фиксированного формата в формате с измененной компоновкой | |
US9507480B1 (en) | Interface optimization application | |
US9454515B1 (en) | Content browser system using graphics commands and native text intelligence | |
US20150309993A1 (en) | Agile Enterprise Globalization | |
US20140337753A1 (en) | System and method for editing the appearance of a user interface | |
US11256912B2 (en) | Electronic form identification using spatial information | |
US8671389B1 (en) | Web application resource manager on the web and localizable components | |
US20190243883A1 (en) | Internet browsing | |
US9679081B2 (en) | Navigation control for network clients | |
US11886546B2 (en) | Systems and methods for dynamically restricting the rendering of unauthorized content included in information resources | |
US11017154B2 (en) | Methods and systems for identifying styles of properties of document object model elements of an information resource | |
US20180300351A1 (en) | System and Method for Display of Document Comparisons on a Remote Device | |
US11625448B2 (en) | System for superimposed communication by object oriented resource manipulation on a data network | |
US8452814B1 (en) | Gathering context in action to support in-context localization | |
CN112243517A (zh) | 资源上单个样式定义标识符的条件解释 | |
US10114805B1 (en) | Inline address commands for content customization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |