CN105446968B - 一种检测网页特征区域的方法和装置 - Google Patents
一种检测网页特征区域的方法和装置 Download PDFInfo
- Publication number
- CN105446968B CN105446968B CN201410244260.3A CN201410244260A CN105446968B CN 105446968 B CN105446968 B CN 105446968B CN 201410244260 A CN201410244260 A CN 201410244260A CN 105446968 B CN105446968 B CN 105446968B
- Authority
- CN
- China
- Prior art keywords
- page
- result
- determining
- filtering
- offset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000001914 filtration Methods 0.000 claims abstract description 55
- 238000010200 validation analysis Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明公开一种检测网页特征区域的方法和装置。该方法首先生成页面在过滤正常生效条件下的第一页面结果,在设定阈值时间后,生成页面的第二页面结果;然后将第二页面结果与所述第一页面结果比较,若发现存在不同的区域,确定所述存在不同的区域为产生问题的特征区域。在网页进行广告过滤的场景下,这些产生问题的特征区域就是广告区域,其原因可能是广告过滤规则失效导致本该过滤的广告出现,或者是广告过滤规则未包括的新广告。因此,本发明通过将网页与过滤正常生效下的参考网页进行比较,能快速的检测出网页中的特征区域(广告区域),快速发现问题,为后续的网页过滤处理提供参考依据,使得可以调整过滤规则,进而得到更好的过滤效果。
Description
技术领域
本发明涉及移动通信技术领域,更为具体地,涉及检测网页特征区域的方法和装置。
背景技术
当今的网页中包含形形色色的广告,这些广告一方面影响了用户的体验,一方面还可能会引起访问时额外流量的消耗,一款能够智能过滤网页中广告的浏览器或者浏览器插件能带来用户体验上的很大提升。
现有的浏览器一般都设置了广告过滤规则,而广告过滤的规则制定方式都是通过用户反馈和人工排查两种方式来检查互联网上网页是否产生新的形式的广告,用户反馈的方式不够及时,而人工排查的方式又不够高效。
现有网页自动化检测广告的系统也有通过比较网页解析和排版过程中生成的DOM树和Render树的差异的方式来检测广告。该方法具体是通过广告过滤之后,获得没有广告的DOM树和Render树的网页,然后后续将待测网页与没有广告的网页比较DOM树和Render树,从而检测出广告。
但是,这种方式通常针对内容不会变化的测试页面,对于网页内容变化的互联网页面,无法区分是因为广告导致的变化还是因为网页本身内容导致的变化,从而可能无法检测出广告。并且,现有技术中广告过滤就是通过网页的DOM结构来过滤广告,如果自动化检测广告的系统也采用同样的机制,也很难达到检测广告的目的。
发明内容
鉴于上述问题,本发明的目的是提供一种检测网页特征区域的方法及装置,能快速的检测出网页中的特征区域,便于在网页广告过滤时快速发现问题,为后续的网页广告过滤处理提供参考依据,可以调整过滤规则,进而得到更好的过滤效果。
根据本发明的一个方面,提供一种检测网页特征区域的方法,包括:
生成页面在过滤正常生效条件下的第一页面结果;
在设定阈值时间后,生成页面在过滤正常生效条件下的第二页面结果;
将所述第二页面结果与所述第一页面结果比较,若发现存在不同的区域,确定所述存在不同的区域为产生问题的特征区域。
其中,生成页面在过滤正常生效条件下的第一页面结果包括:
在过滤正常生效条件下加载页面生成第一基础页面;
隐藏第一基础页面中没有被过滤的页面元素,将只包含被过滤的网页元素的第一基础页面确定为第一页面结果;
生成页面在过滤正常生效条件下的第二页面结果包括:
在过滤正常生效条件下加载页面生成第二基础页面;
隐藏第二基础页面中没有被过滤的页面元素,将只包含被过滤的网页元素的第二基础页面确定为第二页面结果。
其中,还包括:分别对第一页面结果和第二页面结果截图;
将第二页面的截图与第一页面的截图比较,若发现存在不同的区域,确定所述存在不同的区域为产生问题的特征区域。
其中,将所述第二页面结果与所述第一页面结果比较包括,
判断页面是否存在偏移;
如果存在页面偏移则计算页面偏移值;
根据页面偏移值进行页面对齐。
其中,
判断页面是否存在偏移包括:
从页面首行开始循环,比较其他行有没有和当前行红、蓝、绿三个颜色特征值相同,如果有相同的行,继续比较其后设定阈值范围内每行的颜色特征值是否都一一相等,如果相等则确定当前比较页面出现了偏移;其它情况下则确定没有出现页面偏移;
其中,计算页面偏移值包括:
计算两个偏移行的位置差,位置差值即为页面偏移值。
另一方面,本发明还提供一种检测网页特征区域的装置,包括:
页面生成单元,用于生成页面在过滤正常生效条件下的第一页面结果和第二页面结果,其中第二页面结果是在第一页面结果生成后在设定阈值时间 后生成的;
特征区域确定单元,用于将所述第二页面结果与所述第一页面结果比较,若发现存在不同的区域,确定所述存在不同的区域为产生问题的特征区域。
其中,页面生成单元包括:
第一加载模块,用于过滤正常生效条件下执行第一次页面加载,生成第一基础页面;
第一结果确定模块,用于隐藏第一基础页面中没有被过滤的页面元素,将只包含被过滤的网页元素的第一基础页面确定为第一页面结果;
第二加载模块,用于当满足一定时间阈值时间时,过滤正常生效条件下执行第二次页面加载,生成第二基础页面;
第二结果确定模块,用于隐藏第二基础页面中没有被过滤的页面元素,将只包含被过滤的网页元素的第二基础页面确定为第二页面结果;
其中,还包括:
截图模块,用于对只包含被过滤的网页元素的第一基础页面进行截图,
对只包含被过滤的网页元素的第二基础页面进行截图。
其中,特征区域确定单元,包括:
比较模块,用于将所述第二页面结果与所述第一页面结果比较;
偏移判断模块,用于在进行第一页面截图与第二页面截图时,比较出当前比较的行存在差异时判断页面是否存在偏移;
偏移值计算模块,用于判断模块判断出页面存在偏移时,计算页面偏移值;
对齐模块,用于根据页面偏移值进行页面对齐;
特征区域确定模块,用于将进行页面对齐后最终确定的差异区域确定为网页的特征区域。
本发明的检测网页特征区域的方法和装置,首先生成页面在过滤正常生效条件下的第一页面结果;在设定阈值时间后,生成页面在过滤正常生效条件下的第二页面结果;然后将所述第二页面结果与所述第一页面结果比较,若发现存在不同的区域,确定所述存在不同的区域为产生问题的特征区域。在网页进行广告过滤的场景下,这些产生问题的特征区域就是广告区域,其原因可能是产生了新的可以被广告规则过滤广告。因此,本发明通过将网页 与过滤正常生效下的参考网页进行比较,能快速的检测出网页中的特征区域(广告区域)。
为了实现上述以及相关目的,本发明的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而,这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外,本发明旨在包括所有这些方面以及它们的等同物。
附图说明
通过参考以下结合附图的说明及权利要求书的内容,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1示出了根据本发明实施例的检测网页特征区域的方法的流程图;
图2示出了根据本发明一个实施例的检测网页特征区域的方法的页面进行偏移处理流程图;
图3示出了本发明的一种检测网页特征区域的装置方框图;
图4示出了本发明的一种检测网页特征区域的装置的一个实施例的基准结果生成单元的方框图;
图5示出了本发明的一种检测网页特征区域的装置的一个实施例的特征区域确定单元的方框图。
在所有附图中相同的标号指示相似或相应的特征或功能。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的检测网页特征区域的方法和装置一种检测网页特征区域的方法及装置,能快速的检测出网页中的特征区域,便于在网页广告过滤时快速发现问题。
图1示出了根据本发明实施例的检测网页特征区域的方法的流程图;
如图1所示,根据本发明的检测网页特征区域的方法包括:
S110:生成页面在过滤正常生效条件下的第一页面结果。
本步骤中成页面在过滤正常生效条件下的第一页面结果包括:生在过滤正常生效条件下加载页面生成第一基础页面;隐藏第一基础页面中没有被过滤的页面元素,将只包含被过滤的网页元素的第一基础页面确定为第一页面结果。
此步骤中隐藏第一基础页面中没有被过滤的页面元素,是指浏览器不渲染显示第一基础页面中没有被过滤的页面元素。浏览器仅仅渲染显示被过滤的网页元素。没有被过滤的页面元素是网页主体内容元素,也就是用户真正需要查看的网页内容。
S120:在设定阈值时间后,生成页面在过滤正常生效条件下的第二页面结果;
本步骤是在过滤正常生效条件下加载同一URL页面生成第二基础页面;隐藏第二基础页面中没有被过滤的页面元素,将只包含被过滤的网页元素的第二基础页面确定为第二页面结果。此步骤中隐藏第二基础页面中没有被过滤的页面元素,是指浏览器不渲染显示第二基础页面中没有被过滤的页面元素。浏览器仅仅渲染显示被过滤的网页元素。没有被过滤的页面元素是网页主体内容元素,也就是用户真正需要查看的网页内容。
此次执行页面加载需要在第一页面结果形成之后相隔一段时间后再执行,即在设定阈值时间后,例如3-7天,生成页面的第二页面结果。
S130:将所述第二页面结果与所述第一页面结果比较,若发现存在不同的区域,确定所述存在不同的区域为产生问题的特征区域。
本发明的检测网页特征区域的方法,首先生成页面在过滤正常生效条件下的第一页面结果;当满足一定时间阈值时间时,生成页面在过滤正常生效条件下的第二页面结果;然后将所述第二页面结果与所述第一页面结果比较,若发现存在不同的区域,确定所述存在不同的区域为产生问题的特征区域。在网页进行广告过滤的场景下,这些产生问题的特征区域就是广告区域,其原因可能是产生了新的可以被广告规则过滤广告。因此,本发明通过将网页与过滤正常生效下的参考网页进行比较,能快速的检测出网页中的特征区域(广告区域)。
在优选的实施方式中,还包括分别对第一页面结果和第二页面结果截图。
S130步骤中是将第二页面的截图与第一页面的截图比较,若发现存在不同的区域,确定所述存在不同的区域为产生问题的特征区域。
由于网络的不稳定性,页面中的脚本运行的时机不确定,可能出现某次页面的截图结果或者结果图片中的某个区域与第一页面结果相比整体向下或者向上偏移了一部分的情况,这时,直接比较的结果是不相同的,但是整个网页的框架实际上没有变化。所以,在优选的实施例中,在在进行第一页面截图与第二页面截图时,当比较出差异时,具体是比较出截图中当前比较的行存在差异时,需要对比较的页面进行偏移处理。
图2示出了根据本发明一个实施例的检测网页特征区域的方法的页面进行偏移处理流程图。
如图2所示比较的页面进行偏移处理包括:
S200:确定页面存在偏移。
本实施例中确定页面存在偏移的方法是:
首先为要比较的区域图片每行计算颜色特征值,第j行的颜色特征值计算方式为:
i代表的是列;j代表行;jrowColor代表整个行的颜色特征值;color(i,j)当前像素的R,G,B三个颜色的值。Width表示当前行的最大宽度。
然后从页面首行开始循,比较其他行有没有和当前行红、蓝、绿三个颜色特征值相同,如果有相同的行,继续比较其后设定阈值范围内每行的颜色特征值是否都一一相等,如果相等则确定当前比较页面出现了页面偏移,其它情况下则确定没有出现页面偏移。
如果存在页面偏移,则执行S210计算页面偏移值。计算两个偏移行的位置差,位置差值即为页面偏移值。
计算出页面偏移值之后,执行S220根据页面偏移值进行页面对齐;完成页面对齐后,就返回步骤S130,此时S130从对齐后的区域往后开始比较。
如果判断出不存在偏移,则最终确定当前比较的页面区域存在差异。
之后就确定所述存在不同的区域为产生问题的特征区域。
本发明的检测网页特征区域的方法,首先生成页面在过滤正常生效条件下的第一页面结果;当满足一定时间阈值时间时,生成页面在过滤正常生效条件下的第二页面结果;然后将所述第二页面结果与所述第一页面结果比较,若发现存在不同的区域,确定所述存在不同的区域为产生问题的特征区域。在网页进行广告过滤的场景下,本方法是把页面所有其它元素都隐藏起来,只显示被广告规则匹配中的元素,最终只会看见仅仅包含页面广告区域的页面截图。第一次截图中显示内容的区域被作为基准结果保存下来,如果与新生成的截图比较产生了新的被广告规则匹配中的区域,那么这种新区域就是新的广告。因此,本发明通过将网页与过滤正常生效下的参考网页进行比较,能快速的检测出网页中的特征区域(广告区域)。
本发明还提供一种检测网页特征区域的装置。
图3示出了本发明的一种检测网页特征区域的装置方框图。
如图3所示,本发明的一种检测网页特征区域的装置包括页面生成单元300、特征区域确定单元310。
页面生成单元300,用于生成页面在过滤正常生效条件下的第一页面结果和第二页面结果,其中第二页面结果是在第一页面结果生成后在设定阈值时间后生成的。
图4示出了本发明的一种检测网页特征区域的装置的一个优选实施例的页面生成单元的方框图。
如图4所示页面生成单元300包括,
第一加载模块301,用于过滤正常生效条件下执行第一次页面加载,生成第一基础页面;
第一结果确定模块302,用于隐藏第一基础页面中没有被过滤的页面元素,将只包含被过滤的网页元素的第一基础页面确定为第一页面结果。第一结果确定模块302隐藏第一基础页面中没有被过滤的页面元素,是指不渲染显示第一基础页面中没有被过滤的页面元素。仅仅渲染显示被过滤的网页元素。没有被过滤的页面元素是网页主体内容元素。也就是用户真正需要查看的网页内容。
第二加载模块303,用于当满足一定时间阈值时间时,过滤正常生效条件下执行第二次页面加载,生成第二基础页面。第二加载模块303是在过滤正常生效条件下加载同一URL页面生成第二基础页面。此次第二加载模块303执行页面加载需要在第一结果确定模块302确定完第一页面结果之后,相隔一段时间后再执行,即在设定阈值时间后,例如3-7天,第二加载模块303再开始执行第二次页面加载。
第二结果确定模块304,用于隐藏第二基础页面中没有被过滤的页面元素,将只包含被过滤的网页元素的第二基础页面确定为第二页面结果;
第二结果确定模块304隐藏第二基础页面中没有被过滤的页面元素,是不渲染显示第二基础页面中没有被过滤的页面元素。仅仅渲染显示被过滤的网页元素。没有被过滤的页面元素是网页主体内容元素。也就是用户真正需要查看的网页内容。
如图3所示的特征区域确定单元310,用于将所述第二页面结果与所述第一页面结果比较,若发现存在不同的区域,确定所述存在不同的区域为产生问题的特征区域。
在优选的实施方式中,本发明的检测网页特征区域的装置还包截图模块用于(图中未示出)分别对只包含被过滤的网页元素的第一基础页面和只包含被过滤的网页元素的第二基础页面进行截图。
特征区域确定单元310是将第二页面的截图与第一页面的截图比较,若发现存在不同的区域,确定所述存在不同的区域为产生问题的特征区域。
本发明的检测网页特征区域的装置,页面生成单元定预定阈值时间先后生成两个经过过滤处理之后的页面结果。由特征区域确定单元将所述第二页面结果与所述第一页面结果比较,若发现存在不同的区域,确定所述存在不同的区域为产生问题的特征区域。在网页进行广告过滤的场景下,这些产生问题的特征区域就是广告区域,其原因可能是产生了新的可以被广告规则过滤广告。因此,本发明通过将网页与过滤正常生效下的参考网页进行比较,能快速的检测出网页中的特征区域(广告区域)。
在优选实施例中,
图5示出了本发明的一种检测网页特征区域的装置的一个优选实施例的特征区域确定单元的方框图。
由于网络的不稳定性,页面中的脚本运行的时机不确定,可能出现某次页面的截图结果或者结果图片中的某个区域与第一页面结果相比整体向下或者向上偏移了一部分的情况,这时,直接比较的结果是不相同的,但是整个网页的框架实际上没有变化。所以,在优选的实施例中,在在进行第一页面截图与第二页面截图时,当比较出差异时,具体是比较出截图中当前比较的行存在差异时,需要对比较的页面进行偏移处理。
如图5所示特征区域确定单元310,包括:
比较模块311,用于将所述第二页面结果与所述第一页面结果比较;
偏移判断模块312,用于在进行第一页面截图与第二页面截图时,比较出当前比较的行存在差异时,判断页面是否存在偏移。
偏移判断模块312判断页面是否存在偏移的方法是:
首先为要比较的区域图片每行计算颜色特征值,第j行的颜色特征值计算方式为:
i代表的是列;j代表行;jrowColor代表整个行的颜色特征值;color(i,j)当前像素的R,G,B三个颜色的值。Width表示当前行的最大宽度。
然后从页面首行开始循,比较其他行有没有和当前行红、蓝、绿三个颜色特征值相同,如果有相同的行,继续比较其后设定阈值范围内每行的颜色特征值是否都一一相等,如果相等则确定当前比较页面出现了页面偏移,其它情况下则确定没有出现页面偏移。
偏移值计算模块313,用于判断模块判断出页面存在偏移时,计算页面偏移值。偏移值计算模块313通过计算两个偏移行的位置差来确定页面偏移值。
对齐模块314,用于根据页面偏移值进行页面对齐。
偏移判断模块312如果判断出不存在偏移,比较模块311最终确定当前比较的页面区域存在差异。
特征区域确定模块315,用于将进行页面对齐后最终确定的差异区域确定为网页的特征区域。本发明的对比较的页面进行偏移处理,比较的结果更准确。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各 示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (7)
1.一种检测网页特征区域的方法,包括:生成页面在过滤正常生效条件下的第一页面结果;在设定阈值时间后,生成页面在过滤正常生效条件下的第二页面结果;将所述第二页面结果与所述第一页面结果比较,若发现存在不同的区域,确定所述存在不同的区域为产生问题的特征区域,其中,生成页面在过滤正常生效条件下的第一页面结果包括:在过滤正常生效条件下加载页面生成第一基础页面;隐藏第一基础页面中没有被过滤的页面元素,将只包含被过滤的网页元素的第一基础页面确定为第一页面结果;生成页面在过滤正常生效条件下的第二页面结果包括:在过滤正常生效条件下加载页面生成第二基础页面;隐藏第二基础页面中没有被过滤的页面元素,将只包含被过滤的网页元素的第二基础页面确定为第二页面结果。
2.如权利要求1所述的检测网页特征区域的方法,还包括:分别对第一页面结果和第二页面结果截图;将第二页面的截图与第一页面的截图比较,若发现存在不同的区域,确定所述存在不同的区域为产生问题的特征区域。
3.如权利要求1至2任一项所述的检测网页特征区域的方法,其中,将所述第二页面结果与所述第一页面结果比较包括,判断页面是否存在偏移;如果存在页面偏移则计算页面偏移值;根据页面偏移值进行页面对齐。
4.如权利要求3所述的检测网页特征区域的方法,其中,判断页面是否存在偏移包括:从页面首行开始循环,比较其他行有没有和当前行红、蓝、绿三个颜色特征值相同,如果有相同的行,继续比较其后设定阈值范围内每行的颜色特征值是否都一一相等,如果相等则确定当前比较页面出现了偏移;其它情况下则确定没有出现页面偏移;其中,计算页面偏移值包括:计算两个偏移行的位置差,位置差值即为页面偏移值。
5.一种检测网页特征区域的装置,包括:页面生成单元,用于生成页面在过滤正常生效条件下的第一页面结果和第二页面结果,其中第二页面结果是在第一页面结果生成后在设定阈值时间后生成的;特征区域确定单元,用于将所述第二页面结果与所述第一页面结果比较,若发现存在不同的区域,确定所述存在不同的区域为产生问题的特征区域,其中,页面生成单元包括:第一加载模块,用于过滤正常生效条件下执行第一次页面加载,生成第一基础页面;第一结果确定模块,用于隐藏第一基础页面中没有被过滤的页面元素,将只包含被过滤的网页元素的第一基础页面确定为第一页面结果;第二加载模块,用于当满足一定时间阈值时间时,过滤正常生效条件下执行第二次页面加载,生成第二基础页面;第二结果确定模块,用于隐藏第二基础页面中没有被过滤的页面元素,将只包含被过滤的网页元素的第二基础页面确定为第二页面结果。
6.如权利要求5所述的检测网页特征区域的装置,还包括:截图模块,用于对只包含被过滤的网页元素的第一基础页面进行截图,对只包含被过滤的网页元素的第二基础页面进行截图。
7.如权利要求5-6任意一项所述的检测网页特征区域的装置,其中,特征区域确定单元,包括:比较模块,用于将所述第二页面结果与所述第一页面结果比较;偏移判断模块,用于在进行第一页面截图与第二页面截图时,比较出当前比较的行存在差异时判断页面是否存在偏移;偏移值计算模块,用于判断模块判断出页面存在偏移时,计算页面偏移值;对齐模块,用于根据页面偏移值进行页面对齐;特征区域确定模块,用于将进行页面对齐后最终确定的差异区域确定为网页的特征区域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410244260.3A CN105446968B (zh) | 2014-06-04 | 2014-06-04 | 一种检测网页特征区域的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410244260.3A CN105446968B (zh) | 2014-06-04 | 2014-06-04 | 一种检测网页特征区域的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105446968A CN105446968A (zh) | 2016-03-30 |
CN105446968B true CN105446968B (zh) | 2018-12-25 |
Family
ID=55557180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410244260.3A Active CN105446968B (zh) | 2014-06-04 | 2014-06-04 | 一种检测网页特征区域的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105446968B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107871017B (zh) * | 2017-11-27 | 2023-05-09 | 腾讯数码(天津)有限公司 | 一种信息过滤功能的检测方法及装置 |
CN108183908B (zh) * | 2017-12-29 | 2020-12-04 | 哈尔滨安天科技集团股份有限公司 | 一种基于网络流量的广告链接发现方法、系统及存储介质 |
CN109344350A (zh) * | 2018-09-30 | 2019-02-15 | 珠海市君天电子科技有限公司 | 一种信息处理方法及其设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101329687A (zh) * | 2008-07-31 | 2008-12-24 | 清华大学 | 一种新闻网页定位方法 |
CN103092999A (zh) * | 2013-02-22 | 2013-05-08 | 人民搜索网络股份公司 | 一种网页抓取周期调整方法和装置 |
CN103365879A (zh) * | 2012-03-29 | 2013-10-23 | 北京百度网讯科技有限公司 | 一种用于获取页面相似度的方法与设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101996203A (zh) * | 2009-08-13 | 2011-03-30 | 阿里巴巴集团控股有限公司 | 一种过滤网页信息的方法和系统 |
US20130145255A1 (en) * | 2010-08-20 | 2013-06-06 | Li-Wei Zheng | Systems and methods for filtering web page contents |
-
2014
- 2014-06-04 CN CN201410244260.3A patent/CN105446968B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101329687A (zh) * | 2008-07-31 | 2008-12-24 | 清华大学 | 一种新闻网页定位方法 |
CN103365879A (zh) * | 2012-03-29 | 2013-10-23 | 北京百度网讯科技有限公司 | 一种用于获取页面相似度的方法与设备 |
CN103092999A (zh) * | 2013-02-22 | 2013-05-08 | 人民搜索网络股份公司 | 一种网页抓取周期调整方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105446968A (zh) | 2016-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200065471A1 (en) | Security verification method and relevant device | |
CN106657988B (zh) | 自动定位测试图卡的摄像头测试方法和装置、计算机设备 | |
US20150248592A1 (en) | Method and device for identifying target object in image | |
US20140050387A1 (en) | System and Method for Machine Vision Inspection | |
CN105446968B (zh) | 一种检测网页特征区域的方法和装置 | |
CN106407920B (zh) | 指纹图像的条纹噪声消除方法 | |
JP2018500693A5 (zh) | ||
CN103135903B (zh) | 一种图库展示方法及装置 | |
CN105468617B (zh) | 调整网页内容颜色的方法及装置 | |
JP2014007530A5 (ja) | 画像処理装置および画像処理方法 | |
CN104010114B (zh) | 视频去噪方法和装置 | |
CN106683108A (zh) | 确定视频帧中平坦区域的方法、装置及电子设备 | |
CN106528758B (zh) | 一种选取图片方法及装置 | |
CN112990166A (zh) | 一种人脸真伪的识别方法、识别装置及电子设备 | |
CN102866885A (zh) | 网页中点击位置的确定方法及装置 | |
CN109688109B (zh) | 基于客户端信息识别的验证码的验证方法及装置 | |
CN105243062B (zh) | 一种检测网页特征区域的方法和装置 | |
CN108108299B (zh) | 一种用户界面测试方法及装置 | |
CN104517264A (zh) | 图像处理方法及装置 | |
CN103577047B (zh) | 用于数据网格控件的水平滚动条的显示处理方法和装置 | |
CN104699619A (zh) | 线上测试的方法和装置 | |
US20120045143A1 (en) | Apparatus and method for high speed filtering of image for high precision | |
CN108170391B (zh) | 页面显示方法、装置及电子设备 | |
CN104008131A (zh) | 一种网页数据处理方法及装置 | |
CN103324454B (zh) | 用于检测目标区域中排列错位的显示元素的方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200615 Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province Patentee after: Alibaba (China) Co.,Ltd. Address before: 510627 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping B radio 14 floor tower square Patentee before: GUANGZHOU UCWEB COMPUTER TECHNOLOGY Co.,Ltd. |
|
TR01 | Transfer of patent right |