CN110889072A - 去除网页广告的截图方法、装置、计算机设备及存储介质 - Google Patents

去除网页广告的截图方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110889072A
CN110889072A CN201911147036.1A CN201911147036A CN110889072A CN 110889072 A CN110889072 A CN 110889072A CN 201911147036 A CN201911147036 A CN 201911147036A CN 110889072 A CN110889072 A CN 110889072A
Authority
CN
China
Prior art keywords
advertisement
target area
target
elements
screenshot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911147036.1A
Other languages
English (en)
Other versions
CN110889072B (zh
Inventor
冼东亮
李柏
李如先
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Qianhai Huanlianyi Information Technology Service Co Ltd
Original Assignee
Shenzhen Qianhai Huanlianyi Information Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Qianhai Huanlianyi Information Technology Service Co Ltd filed Critical Shenzhen Qianhai Huanlianyi Information Technology Service Co Ltd
Priority to CN201911147036.1A priority Critical patent/CN110889072B/zh
Publication of CN110889072A publication Critical patent/CN110889072A/zh
Application granted granted Critical
Publication of CN110889072B publication Critical patent/CN110889072B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44521Dynamic linking or loading; Link editing at or after load time, e.g. Java class loading
    • G06F9/44526Plug-ins; Add-ons

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了去除网页广告的截图方法、装置、计算机设备及存储介质,所述方法包括:当目标网页加载完成后;检测在目标区域内是否存在广告元素;若在所述目标区域内存在广告元素,则删除所述广告元素;检测在所述目标区域外是否存在广告元素;若在所述目标区域外存在广告元素,则计算所述广告元素的面积与所述目标网页的面积之间的比例,并判断所述比例是否超过预设的比例阈值;若超过所述预设的比例阈值,则选择在所述目标区域外的所有广告元素,并对所述所有广告元素进行遍历删除操作;或者,将除所述目标区域以外的全部内容删除。本发明通过删除目标区域内和目标区域四周的广告元素,可有效防止截取的图片占用空间过大并且保证截取的图片质量。

Description

去除网页广告的截图方法、装置、计算机设备及存储介质
技术领域
本发明涉及计算机软件技术领域,特别涉及去除网页广告的截图方法、装置、计算机设备及存储介质。
背景技术
现有技术中,在通过浏览器对网页进行截图时,通常都是对整个网页进行截图,而在网页中通常会被嵌入众多广告元素,这样就会对截取的图片造成影响,例如广告元素可能会遮挡住网页中待截取的部分,故现有技术的截图方法无法保证截取的图片的质量。同时当广告元素存在于截取的图片中时,会导致截取的图片占用空间变大。
因此,如何有效防止截取的图片占用空间过大以及保证截取的图片的质量是本领域技术人员需要解决的问题。
发明内容
本发明实施例提供了一种去除网页广告的截图方法、装置、计算机设备及存储介质,旨在通过删除待截取的目标区域内外的广告元素,防止截取的图片占用空间过大以及保证截取的图片的质量。
第一方面,本发明实施例提供了一种去除网页广告的截图方法,包括:
启动浏览器,并加载目标网页,并判断所述目标网页是否加载完成;
当所述目标网页加载完成后,获取待截取的目标区域;
检测在所述目标区域内是否存在广告元素;若在所述目标区域内存在广告元素,则删除所述广告元素,然后执行截图操作;
检测在所述目标区域外是否存在广告元素;
若在所述目标区域外存在广告元素,则计算所述广告元素的面积与所述目标网页的面积之间的比例,并判断所述比例是否超过预设的比例阈值;
若超过所述预设的比例阈值,则选择在所述目标区域外的所有广告元素,并对所述所有广告元素进行遍历删除操作,然后执行截图操作;或者,将除所述目标区域以外的全部内容删除,然后执行截图操作。
进一步的,所述判断所述目标网页是否加载完成包括:
判断目标网页中是否出现构成元素;
若出现,则判定所述目标网页加载完成;
若未出现,则判定所述目标网页仍处于加载状态。
进一步的,所述检测在所述目标区域外是否存在广告元素,包括:
检测在所述目标区域的顶部、底部、左侧、右侧是否存在广告元素;
若所述目标区域的顶部、底部、左侧和右侧中的任意一个位置存在广告元素,则确认所述目标区域外存在广告元素;
若所述目标区域的顶部、底部、左侧和右侧均不存在广告元素,则确认所述目标区域外不存在广告元素。
进一步的,所述选择在所述目标区域外的所有广告元素,并对所述所有广告元素进行遍历删除操作,然后执行截图操作,包括:
按照从左至右以及从上至下的顺序依次选择在所述目标区域外的所有广告元素并进行编号;
按照编号的顺序依次对所述所有广告元素进行删除操作;
当删除完所有广告元素后,执行截图操作。
进一步的,还包括:
在执行截图操作过程中,检测在目标区域内是否出现新的广告元素,若是则删除所述广告元素,并在删除完成后继续执行截图操作;
在执行截图操作过程中,检测在目标区域的顶部、底部、左侧和右侧是否出现新的广告元素,若是则删除所述广告元素,并在删除完成后继续执行截图操作。
进一步的,所述预设的比例阈值为20%。
进一步的,所述若超过所述预设的比例阈值,则选择在所述目标区域外的所有广告元素,并对所述所有广告元素进行遍历删除操作,然后执行截图操作;或者,将除所述目标区域以外的全部内容删除,然后执行截图操作,包括:
若超过所述预设的比例阈值,则获取目标区域外的各广告元素的集中度;
若所述集中度超过预设要求,则选择在所述目标区域外的所有广告元素,并对所述所有广告元素进行遍历删除操作,然后执行截图操作;
若所述集中度未超过预设要求,则将除所述目标区域以外的全部内容删除,然后执行截图操作。
第二方面,本发明实施例提供了一种去除网页广告的截图装置,包括:
加载单元,用于启动浏览器,并加载目标网页,并判断所述目标网页是否加载完成;
获取单元,用于当所述目标网页加载完成后,获取待截取的目标区域;
第一检测单元,用于检测在所述目标区域内是否存在广告元素;若在所述目标区域内存在广告元素,则删除所述广告元素,然后执行截图操作;
第二检测单元,用于检测在所述目标区域外是否存在广告元素;
计算单元,用于若在所述目标区域外存在广告元素,则计算所述广告元素的面积与所述目标网页的面积之间的比例是否超过预设的比例阈值;
删除单元,用于若超过所述预设的比例阈值,则选择在所述目标区域外的所有广告元素,并对所述所有广告元素进行遍历删除操作,然后执行截图操作;或者,将除所述目标区域以外的全部内容删除,然后执行截图操作。
第三方面,本发明实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的去除网页广告的截图方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的去除网页广告的截图方法。
本发明实施例提供了一种去除网页广告的截图方法、装置、计算机设备及存储介质,所述方法包括:启动浏览器,并加载目标网页,并判断所述目标网页是否加载完成;当所述目标网页加载完成后,获取待截取的目标区域;检测在所述目标区域内是否存在广告元素;若在所述目标区域内存在广告元素,则删除所述广告元素,然后执行截图操作;检测在所述目标区域外是否存在广告元素;若在所述目标区域外存在广告元素,则计算所述广告元素的面积与所述目标网页的面积之间的比例,并判断所述比例是否超过预设的比例阈值;若超过所述预设的比例阈值,则选择在所述目标区域外的所有广告元素,并对所述所有广告元素进行遍历删除操作,然后执行截图操作;或者,将除所述目标区域以外的全部内容删除,然后执行截图操作。本发明通过删除待截取的目标区域内的广告元素以及目标区域四周的广告元素,有效防止截取的图片占用空间过大,并保证截取的图片的质量。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种去除网页广告的截图方法的流程示意图;
图2为本发明实施例提供的一种去除网页广告的截图装置的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
下面请参见图1,图1是本发明实施例提供的一种去除网页广告的截图方法的流程示意图,所述截图方法具体包括:步骤S101~S106。
S101、启动浏览器,并加载目标网页,并判断所述目标网页是否加载完成;
本步骤中,通过启动当前浏览器对目标网页进行加载,由于加载目标网页可能并不是瞬间就完成的,即加载过程中会存在延时等待的情况,因此可以判断目标网页是否加载完成,若判定目标网页已经加载完成,则可以立即进行后续步骤,不需要继续等待,避免在延时等待目标网页加载过程中浪费过多时间。
在一实施例中,所述判断所述目标网页是否加载完成包括:判断目标网页中是否出现构成元素;若出现,则判定所述目标网页加载完成;若未出现,则判定所述目标网页仍处于加载状态。
本实施例中,根据加载过程中是否出现目标网页的构成元素判断该目标网页是否加载完成,这里的构成元素可以是指目标网页上指定的特定元素,而特定元素可以具体指侧边滑条、导航栏和栏目等。优选的,本实施例可以统计多次(例如最近5次)目标网页加载过程中其上各个元素加载完成所用的平均时间,并将目标网页上各个元素加载完成所用的平均时间的长短进行排序,并将加载完成所用的平均时间最长的一个或几个元素作为特定元素,例如将加载完成所用的平均时间最长的5个元素作为特定元素。本实施例还可以根据以往网页加载经验,将网页刷新标志是否转动作为判断依据,当网页刷新标志在转动时,则判定目标网页还处于加载状态;当网页刷新标志停止转动时,则判定目标网页已经加载完成。
在另一实施例中,目标网页的构成元素可以同时包括目标网页的特定元素和目标网页的文字内容。由于用户对目标网页进行截图通常是为了截取目标网页中的文字内容,并且文字内容也是目标网页的重要部分,因此可以将目标网页的文字内容和特定元素是否一同出现作为判断目标网页是否加载完成的依据。当目标网页的特定元素和文字内容都出现时,则判定目标网页加载完成;当目标网页的特定元素和文字内容都未出现时,或者是二者之间有一个未出现时,则判定目标网页还处于加载状态。另外,对于特定元素是否出现的判断标准依然可以采用上述实施例的方案来实现。
S102、当所述目标网页加载完成后,获取待截取的目标区域;
本步骤中,由于用户想要截取的区域(即待截取的目标区域)可能并不是目标网页的全部区域,因此需要获取待截取的目标区域,从而确定目标区域的位置,以保证待截取的目标区域不被遮挡或者影响。确定目标区域的位置具体可以包括:确定目标区域的顶部、底部,以及左侧、右侧的位置。
S103、检测在所述目标区域内是否存在广告元素;若在所述目标区域内存在广告元素,则删除所述广告元素,然后执行截图操作;
在确定目标区域后,如果目标区域内存在广告元素,即目标区域中的部分内容被广告元素遮挡,那么在不进行删除广告操作而直接进行截图操作后,得到的图片中有一部分内容将会被广告元素遮挡,故无法截取到目标区域的全部内容,因此需要先将目标区域的广告元素删除,使目标区域内的内容可以被完整的截取。
在另一实施例中,如果广告元素部分遮挡目标区域,即广告元素不是全部落在目标区域内,而是一部分在目标区域内,另一部分在目标区域外,此种情况下,依旧需要将遮挡目标区域的广告元素删除。
S104、检测在所述目标区域外是否存在广告元素;
本步骤中,由于在对网页进行截图时,通常都是对目标网页的全部区域进行截图,即虽然用户需要的是目标区域的截图,但由于浏览器可截区域设置的原因(例如无法自动按照目标区域的位置进行截图)以及目标区域面积的原因,导致最终截取的图片可能会超过目标区域的范围。也就是说,在执行截图操作时,截取了目标区域的同时还可能截取了目标区域外的内容。而当目标区域外的内容存在广告元素时,一方面会导致截取的图片占用空间变大,例如在对同一网页进行截图操作时,当该网页不存在广告元素时,截取的图片所占用空间为593KB;而当该网页存在广告元素时,截取的图片所占用空间则会增加为764KB。另一方面,目标区域外存在的广告元素可能会影响目标区域的显示效果,即目标区域可能会被众多的广告元素包围而无法突出显示,不方便用户查看,因此需要对目标区域外是否存在广告元素进行检测,以免在截取的多余部分内存在影响目标区域的广告元素。
S105、若在所述目标区域外存在广告元素,则计算所述广告元素的面积与所述目标网页的面积之间的比例,并判断所述比例是否超过预设的比例阈值;
本步骤中,当进行截图前,如果在目标区域外存在广告元素,则对目标区域外存在的所有广告元素的面积进行计算,即将所有广告元素的面积之和相加,并将计算的结果与目标网页的面积的进行比较,得到二者之间的比例。需要说明的是,当多个广告元素之间出现重叠时,则对重叠的区域只进行一次计算,因为本实施例中对广告元素的面积进行计算是指计算广告元素占据目标网页的面积,而不是计算广告元素自身的面积。
将得到的比例与预设的比例阈值进行比较,当该比例超过预设的比例阈值时,则继续执行后续步骤;当该比例未超过预设的比例阈值时,则可以允许目标区域外的广告元素存在,即直接进行截图操作。本实施例中,当广告元素的面积与目标网页的面积之间的比例超过预设的比例阈值时,即说明广告元素在目标网页内占据的面积较大,此时,不论广告元素是否对目标区域的显示造成影响,都需要将目标区域外的广告元素删除;而当广告元素的面积与目标网页的面积之间未超过预设的比例阈值且不对目标区域造成影响时,则可以允许广告元素存在,此时,存在的广告元素只占据目标网页的小部分区域,对目标网页的整体显示影响较小,可以直接进行截图操作。
需要说明的是,当广告元素的面积与目标网页的面积之间的比例未超过预设的比例阈值,但广告元素对目标区域造成影响时,例如当广告元素与目标区域之间的距离在预设的距离阈值内时,便需要对广告元素进行调整,使目标区域可以正常显示,不受影响。在这里,广告元素和目标区域之间的距离是指两者之间最短的距离,比如广告元素位于目标区域的左侧时,广告元素与目标区域之间的距离即是指广告元素的右侧边与目标区域的左侧边之间的距离。
另外,广告元素对目标区域造成影响还可能是因为广告元素在目标网页内分布散乱使截取的图片显得杂乱无章,导致用户在查看截取的图片时无法快速锁定目标区域;又或者是因为广告元素中的任一广告元素的亮度超过预设的亮度阈值,导致目标区域无法突出。
在上述这些广告元素对目标区域造成影响的情况下都需要对广告元素进行调整,即将目标区域外存在的广告元素全部删除。
在一实施例中,所述的预设的比例阈值为20%。即当目标区域外的广告元素的面积与目标网页的面积之间的比例超过20%时,则继续执行后续步骤操作;当目标区域外的广告元素与目标网页的面积之间的比例未超过20%时,则直接进行截图操作。这样可以保证在进行截图操作时即便目标网页内还存在广告元素,但是存在的广告元素并不影响目标区域的正常显示,而且在截取的图片上占据较小面积,保证了截取的图片内容整洁。
S106、若超过所述预设的比例阈值,则选择在所述目标区域外的所有广告元素,并对所述所有广告元素进行遍历删除操作,然后执行截图操作;或者,将除所述目标区域以外的全部内容删除,然后执行截图操作。
本步骤中,当目标区域外的广告元素的面积与目标网页的面积之间的比例超过预设的比例阈值后,存在两种截图方案。在第一种截图方案中,将目标区域外的所有广告元素全部选中,并将选中的广告元素进行遍历操作,将其一一删除,在将选中的所有广告元素删除后执行截图操作;在第二种截图方案中,保留待截取目标区域,并删除除目标区域外的全部内容,在这里,所述的全部内容不仅仅是指目标区域外的所有广告元素,也包括了目标网页中的其他非广告元素,例如在目标区域外的文字内容或者图片内容等。
在一实施例中,所述检测在所述目标区域外是否存在广告元素,包括:检测在所述目标区域的顶部、底部、左侧、右侧是否存在广告元素;若所述目标区域的顶部、底部、左侧和右侧中的任意一个位置存在广告元素,则确认所述目标区域外存在广告元素;若所述目标区域的顶部、底部、左侧和右侧均不存在广告元素,则确认所述目标区域外不存在广告元素。
本实施例中,通过检测目标区域的四周(即顶部、底部、左侧和右侧)是否存在广告元素,来判定目标区域外是否存在广告元素。只要目标区域四周中的任意一个位置存在广告元素,就可以判定目标区域外存在广告元素;而只有当目标区域的四周均不存在广告元素时,才可以判定目标区域外不存在广告元素。
在一实施例中,所述选择在所述目标区域外的所有广告元素,并对所述所有广告元素进行遍历删除操作,然后执行截图操作,包括:按照从左至右以及从上至下的顺序依次选择在所述目标区域外的所有广告元素并进行编号;按照编号的顺序依次对所述所有广告元素进行删除操作;当删除完所有广告元素后,执行截图操作。
本实施例中,在确认目标区域外存在广告元素后,将存在的所有广告元素全部选中,并且按照从左至右以及从上至下的顺序对选中的广告元素进行编号(当然也可以按照其他顺序对选中的广告元素进行编号),然后根据编号顺序将目标区域外的所有广告一一删除,使目标区域外不存在任何广告元素。例如目标区域外存在4个广告元素,则按照从左至右及从上至下的顺序选中这4个广告元素,并分别编号为1、2、3、4,然后按照1、2、3、4的顺序依次将广告元素删除。
在一实施例中,在执行截图操作过程中,检测在目标区域内是否出现新的广告元素,若是则删除所述广告元素,并在删除完成后继续执行截图操作;在执行截图操作过程中,检测在目标区域的顶部、底部、左侧和右侧是否出现新的广告元素,若是则删除所述广告元素,并在删除完成后继续执行截图操作。
本实施例中,由于用户待截取的目标区域可能较大,导致截图操作不是一瞬间就可以完成的动作,因此需要在截图操作的过程中继续检测是否有新的广告元素出现,例如是否在截图操作过程中弹出新的广告窗口。当所述目标区域为目标网页的全部区域时,则只需要对目标区域内是否出现新的广告元素进行检测;当所述目标区域为目标网页的部分区域时,则需要同时对目标区域内以及目标区域的四周进行检测。
本实施例中,不论是在目标区域内还是目标区域外,均实时检测是否出现新的广告元素,若出现新的广告元素则立即停止截图操作,以免在截取到的图片中,目标区域被新出现的广告元素遮挡或者影响。在将新的广告元素删除以后,继续按照已截图区域的底部位置继续执行截图操作。如此,可以使两次截图操作的截图区域无缝衔接,既保证了截取的图片的完整性,又保证了截取的图片没有重合的区域。
在一实施例中,所述步骤S106包括:若超过所述预设的比例阈值,则获取目标区域外的各广告元素的集中度;若所述集中度超过预设要求,则选择在所述目标区域外的所有广告元素,并对所述所有广告元素进行遍历删除操作,然后执行截图操作;若所述集中度未超过预设要求,则将除所述目标区域以外的全部内容删除,然后执行截图操作。
本实施例中,如果目标区域外的广告元素的面积与目标网页的面积之间的比例超过了预设的比例阈值,则需要获取统计目标区域外的所有广告元素的集中度,以便选择一种更好的截图手段。这里所说的集中度可以是指目标区域外的广告元素之间的相对位置的集中程度,集中度越高,说明目标区域外的各个广告元素之间的位置相对更集中;集中度越低,说明目标区域外的各个广告元素之间的位置相对更分散。因此可以将符合预设要求的广告元素判定为集中分布,将不符合预设要求的广告元素判定为分散分布。本实施例中,将预设要求设置为距离要求和数量要求的结合,即当目标区域外各个广告元素在同时满足预设的距离要求和数量要求时,则判定目标区域外的广告元素为集中分布,即目标区域外的广告元素的集中度超过预设要求;当目标区域外的广告元素同时不符合预设的距离要求和数量要求,或者不符合二者中的一个时,则判定目标区域外的广告元素为分散分布,即目标区域外的广告元素的集中度未超过预设要求。
具体的,首先确定目标区域外的各个广告元素之间距离是否符合预设的距离要求,即对各个广告元素分别计算两两之间的距离,例如计算两个广告元素中心点连接的线段距离,当所述距离未超过预设的距离要求时,则判定线段两个端点所在的广告元素为相对集中;当所述距离超过预设的距离要求时,则判定线段两个端点所在的广告元素为相对分散。当完成距离要求的确定后,对判定为相对集中的广告元素进行数量要求的判断,首先判断相对集中的广告元素是否符合预设的数量要求,对于不满足预设的数量要求的广告元素可以直接判定为分散分布,即集中度未超过预设要求;对于满足预设的数量要求的广告元素进行进一步的判断,具体可以为:计算满足预设的数量要求的广告元素的数量,以及计算满足预设的数量要求的各个广告元素两两之间中心点连接而成的线段数量,并利用线段数量除以广告元素的数量,判断得到的结果是否超过预设的结果要求,将超过预设的结果要求的广告元素判定为集中分布,即超过预设要求;将其他情况的广告元素判定为分散分布,即未超过预设要求。
举例说明,假设在三个目标网页中,均存在10个广告元素,其中,在第一目标网页中,满足预设的距离要求的广告元素的数量为6,线段数量为3;在第二目标网页中,满足预设的距离要求的广告元素数量为6,线段数量为8;在第三目标网页中,满足预设的距离要求的广告元素数量为4,线段数量为3;将预设的数量要求设置为:广告元素数量为5;将预设的结果要求设置为1。
由此可知,第三目标网页中的广告元素数量(4)不满足预设的数量要求(5),因此可以将第三目标网页中的广告元素判定为分散分布,即未超过预设要求;第一目标网页和第二目标网页中的广告元素数量均满足预设的数量要求,因而进一步的判断二者是否满足预设的结果要求。将第一目标网页中的线段数量除以广告元素的数量,即3%6=1/2,结果小于1,未超过预设的结果要求,因此可以将第一目标网页中的广告元素判定为分散分布,即未超过预设要求;将第二目标网页中的线段数量除以广告元素的数量,即8%6=4/3,结果大于1,超过预设的结果要求,因此可以将第二目标网页中的广告元素判定为集中分布,即超过预设要求。
当目标区域外的广告元素为集中分布时,则对广告元素进行遍历删除操作;当目标区域外的广告元素为分散分布时,则将目标区域外的其他全部内容删除。因为当广告元素之间的位置比较集中时,执行遍历删除操作会相对更容易;而当广告元素之间的位置比较分散时,直接将目标区域外的其他内容全部删除则更加便捷,效率更高。
请参见图2,图2为本发明实施例提供的一种去除网页广告的截图装置200的示意性框图,所述截图装置200包括:
加载单元201,用于启动浏览器,并加载目标网页,并判断所述目标网页是否加载完成;
获取单元202,用于当所述目标网页加载完成后,获取待截取的目标区域;
第一检测单元203,用于检测在所述目标区域内是否存在广告元素;若在所述目标区域内存在广告元素,则删除所述广告元素,然后执行截图操作;
第二检测单元204,用于检测在所述目标区域外是否存在广告元素;
计算单元205,用于若在所述目标区域外存在广告元素,则计算所述广告元素的面积与所述目标网页的面积之间的比例,并判断所述比例是否超过预设的比例阈值;
删除单元206,用于若超过所述预设的比例阈值,则选择在所述目标区域外的所有广告元素,并对所述所有广告元素进行遍历删除操作,然后执行截图操作;或者,将除所述目标区域以外的全部内容删除,然后执行截图操作。
在一实施例中,所述加载单元201包括:
判断单元,用于判断目标网页中是否出现构成元素;
第一判定单元,用于若出现,则判定所述目标网页加载完成;
第二判定单元,用于若未出现,则判定所述目标网页仍处于加载状态。
在一实施例中,所述第二检测单元204包括:
目标区域外部检测单元:用于检测在所述目标区域的顶部、底部、左侧、右侧是否存在广告元素;
第一确认单元,用于若所述目标区域的顶部、底部、左侧和右侧中的任意一个位置存在广告元素,则确认所述目标区域外存在广告元素;
第二确认单元,用于若所述目标区域的顶部、底部、左侧和右侧均不存在广告元素,则确认所述目标区域外不存在广告元素。
在一实施例中,所述删除单元206包括:
编号单元,用于按照从左至右以及从上至下的顺序依次选择在所述目标区域外的所有广告元素并进行编号;
顺序删除单元,用于按照编号的顺序依次对所述所有广告元素进行删除操作;当删除完所有广告元素后,执行截图操作。
在一实施例中,所述去除网页广告的截图装置200还包括:
截图内部检测单元,用于在执行截图操作过程中,检测在目标区域内是否出现新的广告元素,若是则删除所述广告元素,并在删除完成后继续执行截图操作;
截图外部检测单元,用于在执行截图操作过程中,检测在目标区域的顶部、底部、左侧和右侧是否出现新的广告元素,若是则删除所述广告元素,并在删除完成后继续执行截图操作。
在一实施例中,所述预设的比例阈值为20%。
在一实施例中,所述删除单元206还包括:
集中度获取单元,用于若超过所述预设的比例阈值,则获取目标区域外的各广告元素的集中度;
第一集中度删除单元,用于若所述集中度超过预设要求,则选择在所述目标区域外的所有广告元素,并对所述所有广告元素进行遍历删除操作,然后执行截图操作;
第二集中度删除单元,用于若所述集中度未超过预设要求,则将除所述目标区域以外的全部内容删除,然后执行截图操作。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本发明实施例还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供了一种计算机设备,可以包括存储器和处理器,存储器中存有计算机程序,处理器调用存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然电子设备还可以包括各种网络接口,电源等组件。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种去除网页广告的截图方法,其特征在于,包括:
启动浏览器,并加载目标网页,并判断所述目标网页是否加载完成;
当所述目标网页加载完成后,获取待截取的目标区域;
检测在所述目标区域内是否存在广告元素;若在所述目标区域内存在广告元素,则删除所述广告元素,然后执行截图操作;
检测在所述目标区域外是否存在广告元素;
若在所述目标区域外存在广告元素,则计算所述广告元素的面积与所述目标网页的面积之间的比例,并判断所述比例是否超过预设的比例阈值;
若超过所述预设的比例阈值,则选择在所述目标区域外的所有广告元素,并对所述所有广告元素进行遍历删除操作,然后执行截图操作;或者,将除所述目标区域以外的全部内容删除,然后执行截图操作。
2.根据权利要求1所述的去除网页广告的截图方法,其特征在于,所述判断所述目标网页是否加载完成包括:
判断目标网页中是否出现构成元素;
若出现,则判定所述目标网页加载完成;
若未出现,则判定所述目标网页仍处于加载状态。
3.根据权利要求1所述的去除网页广告的截图方法,其特征在于,所述检测在所述目标区域外是否存在广告元素,包括:
检测在所述目标区域的顶部、底部、左侧、右侧是否存在广告元素;
若所述目标区域的顶部、底部、左侧和右侧中的任意一个位置存在广告元素,则确认所述目标区域外存在广告元素;
若所述目标区域的顶部、底部、左侧和右侧均不存在广告元素,则确认所述目标区域外不存在广告元素。
4.根据权利要求3所述的去除网页广告的截图方法,其特征在于,所述选择在所述目标区域外的所有广告元素,并对所述所有广告元素进行遍历删除操作,然后执行截图操作,包括:
按照从左至右以及从上至下的顺序依次选择在所述目标区域外的所有广告元素并进行编号;
按照编号的顺序依次对所述所有广告元素进行删除操作;
当删除完所有广告元素后,执行截图操作。
5.根据权利要求1所述的去除网页广告的截图方法,其特征在于,还包括:
在执行截图操作过程中,检测在目标区域内是否出现新的广告元素,若是则删除所述广告元素,并在删除完成后继续执行截图操作;
在执行截图操作过程中,检测在目标区域的顶部、底部、左侧和右侧是否出现新的广告元素,若是则删除所述广告元素,并在删除完成后继续执行截图操作。
6.根据权利要求1所述的去除网页广告的截图方法,其特征在于,所述预设的比例阈值为20%。
7.根据权利要求1所述的去除网页广告的截图方法,其特征在于,所述若超过所述预设的比例阈值,则选择在所述目标区域外的所有广告元素,并对所述所有广告元素进行遍历删除操作,然后执行截图操作;或者,将除所述目标区域以外的全部内容删除,然后执行截图操作,包括:
若超过所述预设的比例阈值,则获取目标区域外的各广告元素的集中度;
若所述集中度超过预设要求,则选择在所述目标区域外的所有广告元素,并对所述所有广告元素进行遍历删除操作,然后执行截图操作;
若所述集中度未超过预设要求,则将除所述目标区域以外的全部内容删除,然后执行截图操作。
8.一种去除网页广告的截图装置,其特征在于,包括:
加载单元,用于启动浏览器,并加载目标网页,并判断所述目标网页是否加载完成;
获取单元,用于当所述目标网页加载完成后,获取待截取的目标区域;
第一检测单元,用于检测在所述目标区域内是否存在广告元素;若在所述目标区域内存在广告元素,则删除所述广告元素,然后执行截图操作;
第二检测单元,用于检测在所述目标区域外是否存在广告元素;
计算单元,用于若在所述目标区域外存在广告元素,则计算所述广告元素的面积与所述目标网页的面积之间的比例是否超过预设的比例阈值;
删除单元,用于若超过所述预设的比例阈值,则选择在所述目标区域外的所有广告元素,并对所述所有广告元素进行遍历删除操作,然后执行截图操作;或者,将除所述目标区域以外的全部内容删除,然后执行截图操作。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的去除网页广告的截图方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的去除网页广告的截图方法。
CN201911147036.1A 2019-11-21 2019-11-21 去除网页广告的截图方法、装置、计算机设备及存储介质 Active CN110889072B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911147036.1A CN110889072B (zh) 2019-11-21 2019-11-21 去除网页广告的截图方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911147036.1A CN110889072B (zh) 2019-11-21 2019-11-21 去除网页广告的截图方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110889072A true CN110889072A (zh) 2020-03-17
CN110889072B CN110889072B (zh) 2023-09-26

Family

ID=69748231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911147036.1A Active CN110889072B (zh) 2019-11-21 2019-11-21 去除网页广告的截图方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110889072B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036123A (zh) * 2020-08-31 2020-12-04 北京奇虎鸿腾科技有限公司 基于网页页面的pdf生成方法、装置、设备及存储介质
WO2021184896A1 (zh) * 2020-03-20 2021-09-23 支付宝(杭州)信息技术有限公司 一种页面截图方法及装置
US11245951B2 (en) * 2018-01-09 2022-02-08 Samsung Electronics Co., Ltd. Display device and content providing method thereof
CN114047985A (zh) * 2021-10-21 2022-02-15 盐城金堤科技有限公司 截图方法、装置、存储介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120047203A1 (en) * 2010-08-17 2012-02-23 comScore Inc. Detecting visible display of content
CN104536658A (zh) * 2014-12-12 2015-04-22 天津三星通信技术研究有限公司 在终端中生成截屏图像的设备和方法
CN106202101A (zh) * 2015-05-06 2016-12-07 腾讯科技(深圳)有限公司 广告识别方法及装置
CN108733764A (zh) * 2018-04-16 2018-11-02 优视科技有限公司 基于机器学习的广告过滤规则生成方法和广告过滤系统
CN110020231A (zh) * 2017-07-25 2019-07-16 阿里巴巴集团控股有限公司 网页截图方法及其装置
CN110221888A (zh) * 2019-04-28 2019-09-10 中至数据集团股份有限公司 截图处理方法、装置、可读存储介质及智能设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120047203A1 (en) * 2010-08-17 2012-02-23 comScore Inc. Detecting visible display of content
CN104536658A (zh) * 2014-12-12 2015-04-22 天津三星通信技术研究有限公司 在终端中生成截屏图像的设备和方法
CN106202101A (zh) * 2015-05-06 2016-12-07 腾讯科技(深圳)有限公司 广告识别方法及装置
CN110020231A (zh) * 2017-07-25 2019-07-16 阿里巴巴集团控股有限公司 网页截图方法及其装置
CN108733764A (zh) * 2018-04-16 2018-11-02 优视科技有限公司 基于机器学习的广告过滤规则生成方法和广告过滤系统
CN110221888A (zh) * 2019-04-28 2019-09-10 中至数据集团股份有限公司 截图处理方法、装置、可读存储介质及智能设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11245951B2 (en) * 2018-01-09 2022-02-08 Samsung Electronics Co., Ltd. Display device and content providing method thereof
WO2021184896A1 (zh) * 2020-03-20 2021-09-23 支付宝(杭州)信息技术有限公司 一种页面截图方法及装置
CN112036123A (zh) * 2020-08-31 2020-12-04 北京奇虎鸿腾科技有限公司 基于网页页面的pdf生成方法、装置、设备及存储介质
CN112036123B (zh) * 2020-08-31 2024-05-10 三六零数字安全科技集团有限公司 基于网页页面的pdf生成方法、装置、设备及存储介质
CN114047985A (zh) * 2021-10-21 2022-02-15 盐城金堤科技有限公司 截图方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN110889072B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN110889072A (zh) 去除网页广告的截图方法、装置、计算机设备及存储介质
US20240152682A1 (en) Method and apparatus for generating image file
CN108073828B (zh) 一种网页防篡改方法、装置及系统
CN107247748B (zh) 页面加载方法及装置
CN106844635B (zh) 网页中的元素的编辑方法及装置
CN109375973B (zh) 页面展示方法、装置、计算机设备及计算机可读存储介质
CN106033450B (zh) 一种广告拦截的方法、装置和浏览器
CN106610988B (zh) 网页推荐方法以及推荐装置
CN106873844B (zh) 图片查看方法及装置
WO2009116317A1 (ja) 情報提示装置
CN105045935B (zh) 一种用于推荐位置信息的方法及电子设备
CN107070873B (zh) 网页非法数据筛查方法、系统、数据筛查服务器和浏览器
CN108319683A (zh) 网页显示方法、装置及终端
US8250484B2 (en) Computer and method for generatiing edge detection commands of objects
CN104778007A (zh) 一种截图方法及装置
CN107329763B (zh) 应用程序界面的显示方法、装置、电子设备及存储介质
CN115237522A (zh) 页面自适应展示方法及装置
CN108171079A (zh) 一种基于终端的数据采集方法、装置、终端及存储介质
CN111090375B (zh) 一种智能网页截图方法、装置、计算机设备及存储介质
CN108200479B (zh) 基于流式文档的弹幕的播放方法、服务器及弹幕播放系统
CN113032073A (zh) 一种基于操作行为的页面展示方法和装置
US20160283075A1 (en) Information processing method, apparatus, and system
CN110908610A (zh) 一种卷回收站清理方法、装置、设备及可读存储介质
CN109144395A (zh) 一种文本操作方法、装置、电子设备和计算机可读介质
CN109725864B (zh) 一种基于edid自定义分辨率的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant