CN110427935B - 一种网页元素识别的方法及服务器 - Google Patents
一种网页元素识别的方法及服务器 Download PDFInfo
- Publication number
- CN110427935B CN110427935B CN201910577646.9A CN201910577646A CN110427935B CN 110427935 B CN110427935 B CN 110427935B CN 201910577646 A CN201910577646 A CN 201910577646A CN 110427935 B CN110427935 B CN 110427935B
- Authority
- CN
- China
- Prior art keywords
- webpage
- web page
- preset condition
- meeting
- elements
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000001914 filtration Methods 0.000 claims abstract description 92
- 238000004422 calculation algorithm Methods 0.000 claims description 26
- 238000012015 optical character recognition Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 16
- 238000012549 training Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000001960 triggered effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 208000001613 Gambling Diseases 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 239000000725 suspension Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000009323 psychological health Effects 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/445—Program loading or initiating
- G06F9/44521—Dynamic linking or loading; Link editing at or after load time, e.g. Java class loading
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请实施例公开了一种网页元素识别的方法,包括:加载第一网页;确定该第一网页中所包含的符合第一预设条件的网页元素;加载该符合第一预设条件的网页元素对应的第二网页;确定该第二网页包含符合第二预设条件的网页元素,从而确定该符合第一预设条件的网页元素为待过滤网页元素。本申请实施例还提供相应的服务器。该方法通过对第一网页中存在的符合第一预设条件的网页元素对应的第二网页进行加载,再根据第二网页来判断该符合第一预设条件的网页元素为需要进行滤除的网页元素,可以避免将符合第一预设条件的网页元素误判为待过滤网页元素,提高了对网页中存在的待过滤网页元素的识别准确率。
Description
技术领域
本申请涉及互联网技术领域,具体涉及一种网页元素识别的方法及服务器。
背景技术
随着信息技术的飞速发展,越来越多的人们通过浏览不同的网页来获取各类信息,但是随着网络技术的发展,组成网页的网页元素种类也越来越多。网页上的各类网页元素中,很多是以图片的形式悬浮在网页中的网页广告或者恶意网址链接,当用户点击到这些图片时,浏览器便会跳转到其他网页,而且有相当一部分图片触发跳转到的网页中存在非法的不良内容,这严重妨碍了用户的浏览体验,而且不利于用户的心理健康。
目前,人们通常会选择在网页浏览器中集成过滤插件或者安装过滤软件来过滤网页上出现的一些不良的网页元素,其中较为知名的过滤插件有ADBlock,该插件适用于过滤网页广告的插件。但是类似于这种采用ADBlock过滤插件来过滤网页元素的方式,都需要依靠相应的过滤规则才能使得过滤插件对特定的网页元素进行过滤。人工开发过滤规则的效率较低,为了提高过滤规则的开发效率,自动生成过滤规则的方法被提出了。这种方法通过收集网页的网页截图并且通过图像识别算法对收集到的网页截图中进行识别,以确定是否包含指定网页元素对应的图片,然后根据识别结果生成过滤规则。这种方法存在的缺点是图像识别算法的识别准确率较低,因为其无法准确区分出网页中的普通插图和指定网页元素对应的图片。对于一些网页元素,存在包括以下两种误判的情况:1、一个网页元素被触发跳转操作后到达的网页不存在违法不良内容,但是该网页元素被误判为需要进行过滤的待过滤网页元素;2、一个网页元素被触发跳转操作后到达的网页存在违法不良内容,但是该网页元素被误判为不需要进行过滤的正常网页元素。
发明内容
本申请实施例提供一种可以提高网页中存在的待过滤网页元素的识别准确率的网页元素识别的方法及服务器。
本申请第一方面提供一种网页元素识别的方法,该方法包括:加载第一网页;确定该第一网页中所包含的符合第一预设条件的网页元素,该符合第一预设条件的网页元素可能是,也可能不是需要进行过滤的待过滤网页元素;加载该符合第一预设条件的网页元素对应的第二网页;确定该第二网页包含符合第二预设条件的网页元素,该符合第二预设条件的网页元素是需要在网页浏览器进行屏蔽的内容,通过确定该第二网页包含符合第二预设条件的网页元素,可以确定该符合第一预设条件的网页元素为待过滤网页元素。
由上述第一方面可知,通过对第一网页中存在的符合第一预设条件的网页元素对应的第二网页进行加载,再根据第二网页来判断该符合第一预设条件的网页元素是否为需要进行滤除的待过滤网页元素,可以避免对符合第一预设条件的网页元素的误判,有效提高了对网页中存在的待过滤网页元素的识别准确率。
可选的,结合上述第一方面,在第一种可能的实现方式中,确定第一网页中所包含的符合第一预设条件的网页元素,包括:当第一网页中包含的网页元素携带网页跳转信息时,将该第一网页中包含的网页元素确定为该符合第一预设条件的网页元素,该网页跳转信息指向第二网页;或者,当该第一网页中包含的网页元素携带网页跳转信息,且携带图片信息时,将第一网页中包含的网页元素确定为符合第一预设条件的网页元素。将携带网页跳转信息的网页元素确定为符合第一预设条件的网页元素,可以扩大网页中待过滤网页元素的识别排查范围,可能识别出数量更多的待过滤网页元素;将携带网页跳转信息且携带图片信息的网页元素确定为符合第一预设条件的网页元素,充分考虑了识别工作量和性能的平衡,提高了识别效率。
可选的,结合上述第一方面或第一方面第一种可能的实现方式,在第二种可能的实现方式中,确定第二网页包含符合第二预设条件的网页元素,包括:通过预设图像识别算法对第二网页对应的页面图像进行识别,以确定第二网页包含符合第二预设条件的网页元素。通过图像识别算法对第二网页对应的页面图像进行识别,提供了一种实用的识别方法。
可选的,结合上述第一方面第二种可能的实现方式,在第三种可能的实现方式中,预设图像识别算法优选为深度卷积神经网络算法,这种算法是经过大量的训练基进行训练而得到的,其识别效率高且识别准确性较高。
可选的,结合上述第一方面或第一方面第一种可能的实现方式,在第四种可能的实现方式中,确定第二网页包含符合第二预设条件的网页元素,包括:对第二网页对应的页面图像进行光学字符识别(optical character recognition,OCR),以得到第二网页对应的页面图像中的文本信息,该文本信息用于确定第二网页中包含符合第二预设条件的网页元素。采用OCR识别的方式增加了实施方案的多样性。
可选的,结合上述第一方面或第一方面第一种可能的实现方式,在第五种可能的实现方式中,确定第二网页包含符合第二预设条件的网页元素,包括:将第二网页的域名与预设域名库中的域名进行比对,以确定第二网页包含符合第二预设条件的网页元素,该预设域名库中含有待过滤网页元素对应的网页的域名。通过域名比对,无需经复杂的算法运算,可以快速地确定第二网页包含符合第二预设条件的网页元素。
可选的,结合上述第一方面、第一方面第一种至第五种中任意一种可能的实现方式,在第六种可能的实现方式中,确定第二网页包含符合第二预设条件的网页元素之后,该方法还包括:生成该符合第一预设条件的网页元素对应的过滤规则,或者,从过滤规则库中获取该符合第一预设条件的网页元素对应的过滤规则。生成新的过滤规则或者从现有过滤规则库中获取已有的过滤规则,可以用于网页浏览器中对该符合第一预设条件的网页元素进行过滤。
可选的,结合上述第一方面第六种可能的实现方式,在第七种可能的实现方式中,生成该符合第一预设条件的网页元素对应的过滤规则,或者,从过滤规则库中获取该符合第一预设条件的网页元素对应的过滤规则之后,该方法还包括:向过滤设备发送该符合第一预设条件的网页元素对应的过滤规则,以使得该过滤设备根据接收到的过滤规则对该符合第一预设条件的网页元素进行过滤。
可选的,结合上述第一方面、第一方面第一种至第七种中任意一种可能的实现方式,在第八种可能的实现方式中,第一网页是根据用户指令确定的、需要进行网页元素识别的网页,这样可以针对性地对指定的网页进行网页元素的识别,减少识别过程的工作量,提高效率。
本申请第二方面提供一种网页元素识别的服务器,所述服务器用于执行上述第一方面或第一方面任意一种可能的实现方式中的网页元素识别的方法。具体地,所述服务器可以包括用于执行第一方面或第一方面任意一种可能的实现方式中的网页元素识别的方法的模块。
本申请第三方面提供一种网页元素识别的服务器,所述服务器包括处理器,所述处理器与存储器耦合,所述存储器用于存储指令,所述处理器用于执行所述存储器存储的指令,并且对所述存储器中存储的指令的执行使得所述处理器执行第一方面或第一方面任意一种可能的实现方式中的网页元素识别的方法。可选的,所述服务器还包括所述存储器。
本申请第四方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面任意一种可能的实现方式中的网页元素识别的方法。
本申请实施例提供的网页元素识别的方法中,加载第一网页后,先确定该网页中所包含的符合第一预设条件的网页元素,该符合第一预设条件的网页元素是可能需要进行滤除的网页元素;通过加载该符合第一预设条件的网页元素对应的第二网页,可以确定该第二网页包含符合第二预设条件的网页元素,从而确定该符合第一预设条件的网页元素为待过滤网页元素,该待过滤网页元素即实际需要进行滤除的网页元素。该方法通过对第一网页中存在的符合第一预设条件的网页元素对应的第二网页进行加载,然后再根据第二网页来判断该符合第一预设条件的网页元素是否为需要进行滤除的网页元素,可以避免对符合第一预设条件的网页元素的误判,有效提高了对网页中存在的待过滤网页元素的识别准确率。
附图说明
图1是网页元素过滤架构示意图;
图2是本申请实施例中网页元素识别的方法一个实施例示意图;
图3(a)是本申请实施例中第一网页的一种示意图;
图3(b)是本申请实施例中第二网页的一种示意图;
图3(c)是本申请实施例中一种确定的待过滤网页元素示意图;
图4是本申请实施例中网页元素识别的方法另一实施例示意图;
图5是本申请实施例中网页元素识别的方法另一实施例示意图;
图6是本申请实施例中网页元素识别的方法另一实施例示意图;
图7是本申请实施例中提供的服务器一个实施例示意图;
图8是本申请实施例中提供的服务器另一实施例示意图。
具体实施方式
下面结合附图,对本申请的实施例进行描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。本领域普通技术人员可知,随着图计算框架的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。在本申请中出现的对步骤进行的命名或者编号,并不意味着必须按照命名或者编号所指示的时间/逻辑先后顺序执行方法流程中的步骤,已经命名或者编号的流程步骤可以根据要实现的技术目的变更执行次序,只要能达到相同或者相类似的技术效果即可。本申请中所出现的模块的划分,是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行,另外,所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,模块之间的间接耦合或通信连接可以是电性或其他类似的形式,本申请中均不作限定。并且,作为分离部件说明的模块可以是也可以不是物理上的分离,可以是也可以不是物理模块,或者可以分布到多个电路模块中,可以根据实际的需要选择其中的部分或全部模块来实现本申请方案的目的。
本申请实施例可应用于如图1所示的网页元素过滤架构中。在该架构中,包括服务器、云端设备和终端。终端A、终端B和终端C只是作为该架构中的终端的部分示例,应理解,实际中,终端的数量可以少于终端A、终端B和终端C,也可以有更多的其他终端。当用户需要使用终端上的浏览器浏览网页资源时,需要通过位于传输链路中的云端设备来加载网页资源,才能在浏览器上显示相应的网页页面。服务器可以对这些网页资源中的网页元素进行识别,以确定其中哪些元素是需要进行过滤的待过滤网页元素,从而获取这些待过滤网页元素对应的现有过滤规则或者生成新的过滤规则,并且将这些过滤规则下发至云端设备或者终端,以使得云端设备或终端根据这些过滤规则对相应的待过滤网页元素进行过滤。
在本申请实施例中,本申请实施例提供的网页元素识别的方法可以是由服务器所执行的,该服务器可以是一种为用户提供网页浏览服务的服务器,也可以是一种独立的第三方服务器。这种为用户提供网页浏览服务的服务器或者独立的第三方服务器可以对网络上存在的海量网页进行网页元素识别,识别出其中存在的需要进行过滤的待过滤网页元素,从而生成对应的网页元素过滤规则,并且提供给用户终端或者上述云端设备,以实现在用户侧或者网络侧对需要进行过滤的网页元素进行过滤。应理解,本申请实施例中的服务器还可能有其它不同的类型,本申请对此不做具体限定。
为解决现有网页元素识别方法识别准确率低的问题,本申请实施例提供一种网页元素识别的方法。本申请实施例还提供相应的服务器。以下分别进行详细说明。
图2是本申请实施例中网页元素识别的方法一个实施例示意图。
如图2所示,本申请实施例中网页元素识别的方法一个实施例可以包括:
201、加载第一网页。
在本实施例中,第一网页是由许多网页元素组成的,网页元素包括文字、图像、Flash动画、超链接、互动式按钮、网页广告和网页脚本等多种类型,组成网页的网页元素中可能存在需要进行过滤的网页元素,这些需要进行滤除的网页元素可称为待过滤网页元素。在一种具体的实施例中,如图3(a)所示,当用户终端在加载第一网页的同时,服务器可以获取该第一网页的网址信息,服务器可以同步在其模拟运行环境中将该第一网页进行加载,该模拟运行环境可以是服务器中模拟网页浏览器进行网页加载的一种程序,也可以是该服务器中的运行系统,该运行系统中包括用于加载或浏览网页的应用程序,用于模拟网页加载操作。
需要说明的是,服务器除了在用户终端加载第一网页的同时,同步在其模拟运行环境中将第一网页进行加载的方式之外,还可以采用按照预设数量批量收集用户终端加载的第一网页的信息再根据收集的批量第一网页的信息,加载第一网页的方式;或者,采用按照预设时间间隔定时收集用户终端在每段时间间隔内加载的第一网页的信息,再根据收集的批量第一网页的信息加载第一网页的方式。应理解,上述方式均为一种可选的方案,还可能存在其它方式,来达到相似的效果,本申请对此不做具体限定。
服务器加载第一网页后,可以对第一网页中的网页元素进行分析,从而进行后续的网页元素识别操作,以确定出第一网页中所包含的待过滤网页元素。
202、确定该第一网页中所包含的符合第一预设条件的网页元素。
在本实施例中,服务器将第一网页加载完成后,可以对该第一网页中所包含的网页元素进行解析,当网页元素符合预定的判断条件时,便可以将该网页元素确定为符合第一预设条件的网页元素。需要说明的是,待过滤网页元素的含义是实际需要进行过滤的元素,待过滤网页元素是该网页中特定的网页元素,而不是所有网页元素,因为有一部分网页元素是合法且合理存在的,这部分合法且合理存在的网页元素不需要进行过滤。而所谓符合第一预设条件的网页元素可以是疑似待过滤网页元素,其即可能是,也可能不是待过滤网页元素。
可选的,上述将网页元素确定为符合第一预设条件的网页元素的判断条件可以是网页元素携带网页跳转信息,也可以是进一步的限定网页元素携带网页跳转信息,且携带图片信息。网页跳转信息可以在网页元素被点击时触发网页跳转操作,跳转到相应的跳转页面。现有的待过滤网页元素大多是这种以点击的方式进行网页跳转操作触发的网页元素。
由于第一网页是在服务器的模拟运行环境中加载的,所以为便于直观理解,现以上述第一网页在手机中的网页浏览器进行加载为例,且假设第一网页为目前常见的门户类网站的主页,对确定该第一网页中所包含的符合第一预设条件的网页元素的过程进行说明,如图3(a)所示。图3(a)中所展示的网页中,包括搜索框、网页子链接、图片悬浮式网页元素等网页元素。搜索框可以满足用户的信息搜索需求;网页子链接通常为新闻网页链接,或者其他网站主页的链接,用户可点击网页子链接以便捷地进入自己所需要浏览的网页;图片悬浮式网页元素大多为网页广告,这种网页元素包含网页跳转信息和图片信息,且以图片的形式悬浮在网页中,会遮挡部分网页子链接,而且容易被误触以至于加载其对应的网页,加载的网页甚至有可能是一些包含不良内容的网页。上述网页子链接对应的网页也可能存在不良内容,但是比例相对较低,所以携带网页跳转信息的网页元素可以初步确定为符合第一预设条件的网页元素。进一步的,若网页元素携带网页跳转信息的同时,还携带图片信息,则该网页元素可能是以图片的形式悬浮在网页上,且可以被触发网页跳转操作的网页元素,即上述图片悬浮式网页元素。由于这种元素以图片的形式悬浮在网页上,经常会遮挡部分正常的网页子链接所处的位置,所以这种元素会极大影响用户的浏览体验,而且图片悬浮式网页元素相对于其他类型的网页元素,其对应的网页中包含不良内容的比例更高,因此更有进行识别和过滤的需要。当将网页元素携带网页跳转信息,且携带图片信息作为判断条件,而不是将网页元素携带网页跳转信息作为判断条件时,可以减少符合第一预设条件的网页元素的数量,降低识别的工作量和识别难度。而且,未携带图片信息的网页元素是以网页子链接的形式存在于网页中,通常不会遮挡网页内容,在一定程度上对用户的浏览体验影响较小,是待过滤网页元素的可能性较低,可以不必进行识别和过滤。
203、加载该符合第一预设条件的网页元素对应的第二网页。
在本实施例中,确定符合第一预设条件的网页元素后,服务器在其模拟运行环境中加载该符合第一预设条件的网页元素对应的第二网页,具体的,服务器可以根据该符合第一预设条件的网页元素所携带的网页跳转信息加载其对应的第二网页。由于第二网页是在服务器的模拟运行环境中加载的,为直观理解,下面以第二网页在手机浏览器中加载为例对第二网页进行说明,如图3(b)所示。根据该第二网页中包含的实际内容存在特定的信息便可以确定该符合第一预设条件的网页元素为待过滤网页元素。
204、确定第二网页包含符合第二预设条件的网页元素,以确定该符合第一预设条件的网页元素为待过滤网页元素。
在本实施例中,服务器对第二网页进行加载后,可以确定第二网页中包含哪些网页元素。由于第二网页是第一网页中符合第一预设条件的网页元素对应的网页,所以当第二网页中包含符合第二预设条件的网页元素时,可以将第一网页中符合第一预设条件的网页元素确定为待过滤网页元素。符合第二预设条件的网页元素可以是第二网页中所包含的一些携带不良信息的网页内容,例如涉及色情、赌博、毒品、恐怖主义和反动的内容等,符合第二预设条件的网页元素也可以是其它需要在网页浏览器上进行屏蔽的网页内容,例如特定品牌的宣传广告等。例如图3(b)中所示,该第二网页中包含的图片和文字是与赌博相关的,所以涉嫌违法,这些图片和文字即为符合第二预设条件的网页元素,所以可以根据它们将第一网页中符合第一预设条件的网页元素(例如图3(c)所示的图片悬浮式网页元素)确定为待过滤网页元素。
在本实施例中,通过加载第一网页后,先确定该网页中所包含的符合第一预设条件的网页元素;再加载该符合第一预设条件的网页元素对应的第二网页,便可以根据该第二网页中包含的符合第二预设条件的网页元素确定该符合第一预设条件的网页元素为待过滤网页元素。该方法通过对第一网页中存在的符合第一预设条件的网页元素对应的网页进行加载,然后再根据符合第一预设条件的网页元素对应的第二网页中的内容来判断该符合第一预设条件的网页元素是待过滤网页元素。本方案中,当符合第一预设条件的网页元素实际上就是待过滤网页元素时,其对应的网页中是包含指定内容的,该内容即上述符合第二预设条件的网页元素,该内容可用于确定该符合第一预设条件的网页元素就是待过滤网页元素,所以通过加载符合第一预设条件的网页元素对应的第二网页的方式进行判断有效提高了对网页中存在的待过滤网页元素的识别准确率。
可选的,在一些具体的实施例中,步骤201中所述的网页可以是用户指定的需要进行网页元素识别的网页;此外,根据符合第一预设条件的网页元素对应的网页确定符合第一预设条件的网页元素为待过滤网页元素的方式可以有所不同,本申请实施例提供了三种具体的实施方式。下面进行详细说明。
图4是本申请实施例中网页元素识别的方法另一实施例示意图。
如图4所示,本申请实施例中网页元素识别的方法另一实施例可以包括:
401、获取待检测网址。
在本实施例中,该待检测网址是根据用户指令确定的,该用户指令可以是用户手动输入待检测网址时的输入指令,也可以是用户在多个网址选项中进行点选的点击指令,具体情况与用户交互界面的设计相关,本申请在此不做具体限定。
402、根据待检测网址加载需要进行网页元素识别的网页。
在本实施例中,待检测网址指向的网页就是需要进行网页元素识别的网页,所述获取待检测网址后,可直接根据待检测网址加载相应的网页。
403、确定该需要进行网页元素识别的网页中所包含的符合第一预设条件的网页元素。
404、加载该符合第一预设条件的网页元素对应的第二网页。
在本实施例中,步骤403、404与上述步骤202、203类似,具体内容请参考上述步骤202、203中的相关描述,此处不再赘述。
405、通过预设图像识别算法对第二网页对应的页面图像进行识别,以确定符合第一预设条件的网页元素为待过滤网页元素。
在本实施例中,通过预设的图像识别算法对该第二网页对应的页面图像进行识别,可以根据该第二网页对应的页面图像中包含的文字、图像和色彩等信息判断第二网页对应的页面图像中所展示的内容是否属于上述实施例中所述的符合第二预设条件的网页元素。第二网页对应的页面图像中所展示的内容即是符合第一预设条件的网页元素对应的跳转页面展示的内容,当第二网页对应的页面图像中所展示的内容属于上述符合第二预设条件的网页元素对应的内容时,说明该符合第一预设条件的网页元素是指向不良信息的,所以该符合第一预设条件的网页元素是待过滤网页元素。
可选的,第二网页对应的页面图像的获取方式可以是对该符合第一预设条件的网页元素对应的网页进行截图,或者是其他方式,例如扫描、拍照,本申请对此不做具体限定。该第二网页对应的页面图像包含该符合第一预设条件的网页元素对应的网页页面中的部分或者全部内容,可以用于进行图像识别,以确定该符合第一预设条件的网页元素实际上是否是待过滤网页元素。
优选地,预设的图像识别算法可以是一种深度卷积神经网络算法,这种算法通过包含大量训练样本的训练集进行训练而具备准确识别待过滤网页元素的能力。这种算法的训练集的训练样本分为正负样本,该正负样本是包含待过滤网页元素内容和不包含待过滤网页元素内容的图像。经过训练后的算法对上述第二网页对应的页面图像进行识别时,便可以准确分辨出第二网页对应的页面图像中包含待过滤网页元素对应的网页内容,从而确定符合第一预设条件的网页元素为待过滤网页元素。
406、生成该符合第一预设条件的网页元素对应的过滤规则,或者,从过滤规则库中获取该符合第一预设条件的网页元素对应的过滤规则。
在本实施例中,由于网页元素的更新频率是很快的,所以当确定为待过滤网页元素的符合第一预设条件的网页元素是新出现的网页元素,而且没有对应的过滤规则可以对其进行过滤时,需要通过该符合第一预设条件的网页元素的特征信息生成新的过滤规则。当该符合第一预设条件的网页元素不是新出现的网页元素时,可以从一些过滤规则库中获取对应的过滤规则。过滤规则的实质是一种正则表达式,它可以和待过滤网页元素进行匹配,而不会与待过滤网页元素之外的元素进行匹配,所以可以用于过滤指定的网页元素。
407、向过滤设备发送该符合第一预设条件的网页元素对应的过滤规则。
在本实施例中,向过滤设备发送符合第一预设条件的网页元素对应的过滤规则后,可以使得过滤设备根据该符合第一预设条件的网页元素对应的过滤规则对该符合第一预设条件的网页元素进行过滤。
过滤设备可以是位于传输链路中的云端设备,也可以是用户使用的终端设备,其中用户使用的终端设备是通过云端设备加载网络上的网页资源的。将过滤规则下发至云端设备时,云端设备根据过滤规则对网页中存在的相应的元素进行过滤,位于该云端设备下游的终端设备在加载网页时则不会加载网页中的元素。将过滤规则下发至用户使用的终端设备时,终端设备中的过滤组件也可以根据过滤规则在终端设备加载网页时过滤相应的网页元素。将过滤规则下发至用户使用的终端设备的方式,可以保留用户对网页元素的选择权,即用户可以自由选择终端是否使用过滤规则对网页元素进行过滤。
通过预设图像识别算法来实现对待过滤网页元素的识别,是一种实用的方式。当预设图像识别算法为深度卷积神经网络算法时,识别准确率可以更高,也符合人工智能的发展潮流。
图5是本申请实施例中网页元素识别的方法另一实施例示意图,该实施例采用OCR识别的方式来识别第二网页中包含的文字,来确定符合第一预设条件的网页元素为待过滤元素。
如图5所示,本申请实施例中网页元素识别的方法另一实施例可以包括:
501、获取待检测网址。
502、根据待检测网址加载需要进行网页元素识别的网页。
503、确定该需要进行网页元素识别的网页中所包含的符合第一预设条件的网页元素。
504、加载该符合第一预设条件的网页元素对应的第二网页。
在本实施例中,步骤501至504与上述步骤401至404类似,具体内容请参考上述步骤401至404中的相关描述,此处不再赘述。
505、对第二网页对应的页面图像进行OCR识别,以得到第二网页对应的页面图像中的文本信息,该文本信息用于确定符合第一预设条件的网页元素为待过滤网页元素。
在本实施例中,对第二网页对应的页面图像进行OCR识别,可以识别出第二页面图像中的文本信息,通过分析该文本信息中包含的文字是否为属于符合第二预设条件的网页元素的关键字,可以确定该符合第一预设条件的网页元素是否为待过滤网页元素。当第二页面图像中包含属于待过滤网页元素内容范围内的关键字时,例如图3(b)中所出现的“真人真钱”等文字,说明该符合第一预设条件的网页元素对应的第二网页中包含不良信息,从而可以将该符合第一预设条件的网页元素确定为待过滤网页元素。
506、生成该符合第一预设条件的网页元素对应的过滤规则,或者,从过滤规则库中获取该符合第一预设条件的网页元素对应的过滤规则。
507、向过滤设备发送符合第一预设条件的网页元素对应的过滤规则。
在本实施例中,步骤506、507与上述步骤406、407类似,具体内容请参考上述步骤406、407中的相关描述,此处不再赘述。
通过OCR识别的方式确定待过滤网页元素,提供了一种可行的实施方式。
图6是本申请实施例中网页元素识别的方法另一实施例示意图。
如图6所示,本申请实施例中网页元素识别的方法另一实施例可以包括:
601、获取待检测网址。
602、根据待检测网址加载需要进行网页元素识别的网页。
603、确定该需要进行网页元素识别的网页中所包含的符合第一预设条件的网页元素。
604、加载该符合第一预设条件的网页元素对应的第二网页。
在本实施例中,步骤601至604与上述步骤401至404类似,具体内容请参考上述步骤401至404中的相关描述,此处不再赘述。
605、获取该第二网页的域名。
在本实施例中,加载该第二网页后,可以获取该第二网页的域名,通过域名可以判断该符合第一预设条件的网页元素实际上是否为待过滤网页元素。
606、将该第二网页的域名与预设域名库中的域名进行比对,以确定该符合第一预设条件的网页元素为待过滤网页元素。
在本实施例中,预设域名库中包含大量的待过滤网页元素对应的网页的域名,这些域名对应的网页为包含不良信息的网页,即这些网页中均包含符合第二预设条件的网页元素。为了判断该符合第一预设条件的网页元素是否是待过滤网页元素,需要调用该预设域名库并且将该第二网页的域名与该预设域名库中的域名进行比对,以确定该第二网页是否为包含不良信息的网页。当该第二网页的域名是预设域名库中包含的域名时,说明该第二网页包含不良信息,即上述符合第二预设条件的网页元素,从而可以将符合第一预设条件的网页元素确定为待过滤网页元素。
607、生成该符合第一预设条件的网页元素对应的过滤规则,或者,从过滤规则库中获取该符合第一预设条件的网页元素对应的过滤规则。
608、向过滤设备发送符合第一预设条件的网页元素对应的过滤规则。
在本实施例中,步骤607、608与上述步骤406、407类似,具体内容请参考上述步骤406、407中的相关描述,此处不再赘述。
通过将该第二网页的域名与预设域名库中的域名进行比对的方式识别待过滤网页元素,增加了方案实施的多样性。
上文对本申请实施例提供的网页元素识别的方法进行了描述,下面对本申请实施例提供的服务器进行描述。
图7是本申请实施例所提供的服务器70的示意图,该服务器70可以包括:
第一加载模块701,用于加载第一网页;
第一确定模块702,用于确定所述第一网页中所包含的符合第一预设条件的网页元素;
第二加载模块703,用于加载所述符合第一预设条件的网页元素对应的第二网页;
第二确定模块704,用于确定所述第二网页包含符合第二预设条件的网页元素,以确定所述符合第一预设条件的网页元素为待过滤网页元素。
可选的,作为一个实施例,所述第一确定模块702,具体用于当所述第一网页中包含的网页元素携带网页跳转信息时,将所述第一网页中包含的网页元素确定为所述符合第一预设条件的网页元素,所述网页跳转信息指向所述第二网页。或者,所述第一确定模块702,具体用于当所述第一网页中包含的网页元素携带所述网页跳转信息,且携带图片信息时,将所述第一网页中包含的网页元素确定为所述符合第一预设条件的网页元素。
可选的,作为一个实施例,所述第二确定模块704,具体用于通过预设图像识别算法对所述第二网页对应的页面图像进行识别,以确定所述第二网页包含所述符合第二预设条件的网页元素。所述预设图像识别算法优选为深度卷积神经网络算法。
可选的,作为一个实施例,所述第二确定模块704,具体用于对所述第二网页对应的页面图像进行OCR识别,以得到所述第二页面图像中的文本信息,所述文本信息用于确定所述第二网页包含所述符合第二预设条件的网页元素。
可选的,作为一个实施例,所述第二确定模块704,具体用于将所述第二网页的域名与预设域名库中的域名进行比对,以确定所述第二网页包含符合第二预设条件的网页元素,所述预设域名库包括所述待过滤网页元素对应的网页的域名。
可选的,作为一个实施例,服务器70还可以包括:
生成模块705,用于在所述第二确定模块704确定所述第二网页包含所述符合第二预设条件的网页元素,从而确定所述符合第一预设条件的网页元素为待过滤网页元素之后,生成所述符合第一预设条件的网页元素对应的过滤规则;
或者,服务器70还可以包括:
第一获取模块706,用于在所述第二确定模块704确定所述第二网页包含所述符合第二预设条件的网页元素,从而确定所述符合第一预设条件的网页元素为待过滤网页元素之后,从过滤规则库中获取所述符合第一预设条件的网页元素对应的过滤规则。
可选的,作为一个实施例,服务器70还可以包括:
发送模块707,用于向过滤设备发送所述符合第一预设条件的网页元素对应的过滤规则,以使得所述过滤设备根据所述符合第一预设条件的网页元素对应的过滤规则对所述符合第一预设条件的网页元素进行过滤。
可选的,作为一个实施例,所述第一网页是根据用户指令确定的、需要进行网页元素识别的网页。
图8是本申请实施例所提供的服务器80的示意图,如图8所示:
服务器80可以包括一个或多个处理器801和网络接口802,可选的,服务器80还可以包括存储器803。处理器801、网络接口802和存储器803通过通信总线相连。
处理器801可以是一个通用中央处理器(CPU),微处理器,ASIC,或一个或多个用于控制本申请方案程序执行的集成电路。
网络接口802可以用于收发信息,例如本申请中,网络接口802可以接收网页资源服务器发送的网页资源,以加载网页;网络接口802还可以通过网络接收用户指定的待检测网址信息;网络接口802还可以向用户终端或者云端设备发送待过滤网页元素对应的过滤规则。
存储器803可以是只读存储器(ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(EEPROM)、只读光盘(CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器803可以是独立存在,通过总线与处理器801相连接。存储器803也可以和处理器801集成在一起。
其中,所述存储器803用于存储执行本申请方案的应用程序代码,并由处理器801来控制执行。所述处理器801用于执行所述存储器803中存储的应用程序代码。
在具体实现中,处理器801可以包括一个或多个CPU,每个CPU可以是一个单核(single-core)处理器,也可以是一个多核(multi-Core)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
可选的,服务器80还可以包括用户接口804。
该用户接口804可以包括显示器,以及键盘、鼠标触摸板或者触摸屏等点击设备,例如:该服务器包括显示器和键盘,键盘可用于操作人员输入待检测网址,以控制该服务器执行用户命令,显示器可用于显示该服务器对网页进行网页元素识别后,识别待过滤网页元素的结果。
作为本实施例的另一种形式,提供一种计算机可读存储介质,其上存储有指令,该指令被执行时执行上述方法实施例中网页元素识别的方法。
作为本实施例的另一种形式,提供一种包含指令的计算机程序产品,该指令被执行时执行上述方法实施例中网页元素识别的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上对本申请实施例所提供的一种网页元素识别的方法以及服务器进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (20)
1.一种网页元素识别的方法,其特征在于,包括:
获取待检测的网址;
加载所述网址指向的、用于呈现给用户的第一网页;确定所述第一网页中所包含的符合第一预设条件的网页元素,所述符合第一预设条件的网页元素携带网页跳转信息,所述网页跳转信息在所述符合第一预设条件的网页元素被点击时触发网页跳转操作,跳转到第二网页;
加载所述第二网页;
确定所述第二网页包含符合第二预设条件的网页元素,以确定所述符合第一预设条件的网页元素为待过滤网页元素。
2.根据权利要求1所述的方法,其特征在于,所述符合第一预设条件的网页元素还携带图片信息。
3.根据权利要求1或2所述的方法,其特征在于,所述确定所述第二网页包含符合第二预设条件的网页元素,包括:
通过预设图像识别算法对所述第二网页对应的页面图像进行识别,以确定所述第二网页包含所述符合第二预设条件的网页元素。
4.根据权利要求3所述的方法,其特征在于,所述预设图像识别算法为深度卷积神经网络算法。
5.根据权利要求1或2所述的方法,其特征在于,所述确定所述第二网页包含符合第二预设条件的网页元素,包括:
对所述第二网页对应的页面图像进行光学字符识别OCR识别,以得到所述第二网页对应的页面图像中的文本信息,所述文本信息用于确定所述第二网页包含所述符合第二预设条件的网页元素。
6.根据权利要求1或2所述的方法,其特征在于,所述确定所述第二网页包含符合第二预设条件的网页元素,包括:
将所述第二网页的域名与预设域名库中的域名进行比对,以确定所述第二网页包含符合第二预设条件的网页元素,所述预设域名库包括所述待过滤网页元素对应的网页的域名。
7.根据权利要求1或2所述的方法,其特征在于,所述确定所述第二网页包含符合第二预设条件的网页元素之后,所述方法还包括:
生成所述符合第一预设条件的网页元素对应的过滤规则,或者,从过滤规则库中获取所述符合第一预设条件的网页元素对应的过滤规则。
8.根据权利要求7所述的方法,其特征在于,所述生成所述符合第一预设条件的网页元素对应的过滤规则,或者,从过滤规则库中获取所述符合第一预设条件的网页元素对应的过滤规则之后,所述方法还包括:
向过滤设备发送所述符合第一预设条件的网页元素对应的过滤规则,以使得所述过滤设备根据所述符合第一预设条件的网页元素对应的过滤规则对所述符合第一预设条件的网页元素进行过滤。
9.根据权利要求1或2所述的方法,其特征在于,
所述第一网页是根据用户指令确定的、需要进行网页元素识别的网页。
10.一种网页元素识别的服务器,其特征在于,包括:
第一加载模块,用于获取待检测的网址,加载所述网址指向的、用于呈现给用户的第一网页;
第一确定模块,用于确定所述第一网页中所包含的符合第一预设条件的网页元素,所述符合第一预设条件的网页元素携带网页跳转信息,所述网页跳转信息在所述符合第一预设条件的网页元素被点击时触发网页跳转操作,跳转到第二网页;
第二加载模块,用于加载所述第二网页;
第二确定模块,用于确定所述第二网页包含符合第二预设条件的网页元素,以确定所述符合第一预设条件的网页元素为待过滤网页元素。
11.根据权利要求10所述的服务器,其特征在于,所述符合第一预设条件的网页元素还携带图片信息。
12.根据权利要求10或11所述的服务器,其特征在于,
所述第二确定模块,具体用于通过预设图像识别算法对所述第二网页对应的页面图像进行识别,以确定所述第二网页包含所述符合第二预设条件的网页元素。
13.根据权利要求12所述的服务器,其特征在于,所述预设图像识别算法为深度卷积神经网络算法。
14.根据权利要求10或11所述的服务器,其特征在于,
所述第二确定模块,具体用于对所述第二网页对应的页面图像进行光学字符识别OCR识别,以得到所述第二网页对应的页面图像中的文本信息,所述文本信息用于确定所述第二网页包含所述符合第二预设条件的网页元素。
15.根据权利要求10或11所述的服务器,其特征在于,
所述第二确定模块,具体用于将所述第二网页的域名与预设域名库中的域名进行比对,以确定所述第二网页包含符合第二预设条件的网页元素,所述预设域名库包括所述待过滤网页元素对应的网页的域名。
16.根据权利要求10或11所述的服务器,其特征在于,所述服务器还包括:
生成模块,用于在所述第二确定模块确定所述第二网页包含所述符合第二预设条件的网页元素之后,生成所述符合第一预设条件的网页元素对应的过滤规则;
或者,
所述服务器还包括:
第一获取模块,用于在所述第二确定模块确定所述第二网页包含所述符合第二预设条件的网页元素之后,从过滤规则库中获取所述符合第一预设条件的网页元素对应的过滤规则。
17.根据权利要求16所述的服务器,其特征在于,所述服务器还包括:
发送模块,用于向过滤设备发送所述符合第一预设条件的网页元素对应的过滤规则,以使得所述过滤设备根据所述符合第一预设条件的网页元素对应的过滤规则对所述符合第一预设条件的网页元素进行过滤。
18.根据权利要求10或11所述的服务器,其特征在于,所述第一网页是根据用户指令确定的、需要进行网页元素识别的网页。
19.一种网页元素识别的服务器,包括处理器,所述处理器与存储器耦合,所述存储器用于存储计算机程序或指令,所述处理器用于执行存储器中的该计算机程序或指令,使得所述服务器执行权利要求1至9中任一项所述的方法。
20.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述程序被执行时实现如权利要求1至9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910577646.9A CN110427935B (zh) | 2019-06-28 | 2019-06-28 | 一种网页元素识别的方法及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910577646.9A CN110427935B (zh) | 2019-06-28 | 2019-06-28 | 一种网页元素识别的方法及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110427935A CN110427935A (zh) | 2019-11-08 |
CN110427935B true CN110427935B (zh) | 2023-06-20 |
Family
ID=68408832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910577646.9A Active CN110427935B (zh) | 2019-06-28 | 2019-06-28 | 一种网页元素识别的方法及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110427935B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105306462A (zh) * | 2015-10-13 | 2016-02-03 | 郑州悉知信息科技股份有限公司 | 网页链接检测方法及装置 |
CN106708502A (zh) * | 2016-11-10 | 2017-05-24 | 腾讯科技(深圳)有限公司 | 网页处理方法和装置 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080046738A1 (en) * | 2006-08-04 | 2008-02-21 | Yahoo! Inc. | Anti-phishing agent |
CN103001817B (zh) * | 2011-09-16 | 2016-08-10 | 厦门市美亚柏科信息股份有限公司 | 一种实时检测网页跨域请求的方法和装置 |
CN103810425B (zh) * | 2012-11-13 | 2015-09-30 | 腾讯科技(深圳)有限公司 | 恶意网址的检测方法及装置 |
CN103902889A (zh) * | 2012-12-26 | 2014-07-02 | 腾讯科技(深圳)有限公司 | 一种恶意消息云检测方法和服务器 |
CN103390128A (zh) * | 2013-08-01 | 2013-11-13 | 贝壳网际(北京)安全技术有限公司 | 页面的标注方法、装置与终端设备 |
CN103685308B (zh) * | 2013-12-25 | 2017-04-26 | 北京奇虎科技有限公司 | 一种钓鱼网页的检测方法及系统、客户端、服务器 |
IN2013CH06148A (zh) * | 2013-12-30 | 2015-07-03 | Samsung Electronics Co Ltd | |
CN104572798A (zh) * | 2014-07-25 | 2015-04-29 | 上海二三四五网络科技有限公司 | 一种用于处理网页的方法、设备与系统 |
CN105956152A (zh) * | 2016-05-13 | 2016-09-21 | 北京金山安全软件有限公司 | 一种加载网页的方法、装置及电子设备 |
EP3521988A4 (en) * | 2016-10-14 | 2019-09-25 | Huawei Technologies Co., Ltd. | TERMINAL AND METHOD FOR DISPLAYING INTERFACE |
CN109635115A (zh) * | 2018-12-17 | 2019-04-16 | 济南浪潮高新科技投资发展有限公司 | 一种基于人工智能自动屏蔽或提示软文广告的方法和系统 |
CN109800049A (zh) * | 2019-01-23 | 2019-05-24 | 王心丹 | 一种功能业务的操作方法、装置、终端设备及存储介质 |
-
2019
- 2019-06-28 CN CN201910577646.9A patent/CN110427935B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105306462A (zh) * | 2015-10-13 | 2016-02-03 | 郑州悉知信息科技股份有限公司 | 网页链接检测方法及装置 |
CN106708502A (zh) * | 2016-11-10 | 2017-05-24 | 腾讯科技(深圳)有限公司 | 网页处理方法和装置 |
Non-Patent Citations (2)
Title |
---|
Min Chen."Improving website structure through reducing information overload".《Decision Support Systems》.2018,第110卷第84-94页. * |
张慧琳等."网页木马机理与防御技术".《软件学报》.2013,第24卷(第4期),第843-858页. * |
Also Published As
Publication number | Publication date |
---|---|
CN110427935A (zh) | 2019-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489345B (zh) | 一种崩溃聚合方法、装置、介质和设备 | |
US20150026146A1 (en) | System and method for applying a set of actions to one or more objects and interacting with the results | |
US9459863B2 (en) | System for assessing an application for tablet compatibility and quality | |
US20130166527A1 (en) | System and methods thereof for dynamically updating the contents of a folder on a device | |
US20160210365A1 (en) | Executing a fast crawl over a computer-executable application | |
CN109828906B (zh) | Ui自动化测试方法、装置、电子设备及存储介质 | |
CN112988557B (zh) | 一种搜索框定位方法、数据采集方法、装置及介质 | |
CN105243058A (zh) | 一种网页内容翻译方法及电子设备 | |
CN109828920A (zh) | 一种日志分析方法、装置及计算机可读存储介质 | |
CN107315833A (zh) | 基于应用程序的检索与下载的方法和装置 | |
CN106371706A (zh) | 应用快捷方式位置选择的方法及装置 | |
CN104407979A (zh) | 脚本检测方法和装置 | |
CN110069691B (zh) | 用于处理点击行为数据的方法和装置 | |
KR20210084641A (ko) | 정보를 송신하는 방법 및 장치 | |
CN111949849A (zh) | 鱼类信息的获取方法、装置、电子设备及可读存储介质 | |
US10157210B2 (en) | Searching and accessing software application functionality using application connections | |
CN110427935B (zh) | 一种网页元素识别的方法及服务器 | |
CN108268298B (zh) | 桌面图标的生成方法、装置、存储介质及电子设备 | |
CN114116096B (zh) | 一种信息处理方法、装置、设备及存储介质 | |
CN109992737A (zh) | 第三方网页内容审核方法、装置及电子设备 | |
CN105138704A (zh) | 一种搜索结果控制方法及电子设备 | |
CN112308074A (zh) | 用于生成缩略图的方法和装置 | |
CN110825976A (zh) | 网站页面的检测方法、装置、电子设备及介质 | |
CN105260436B (zh) | 一种网络搜索方法及电子设备 | |
CN111104626B (zh) | 信息存储方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |