CN110851682A - 文本反爬虫方法、服务器、显示终端 - Google Patents
文本反爬虫方法、服务器、显示终端 Download PDFInfo
- Publication number
- CN110851682A CN110851682A CN201910992612.6A CN201910992612A CN110851682A CN 110851682 A CN110851682 A CN 110851682A CN 201910992612 A CN201910992612 A CN 201910992612A CN 110851682 A CN110851682 A CN 110851682A
- Authority
- CN
- China
- Prior art keywords
- text
- processing
- attribute
- segment
- crawler
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供一种文本反爬虫方法、服务器、显示终端,其中方法包括:获取待处理文本;将所述待处理文本进行分割,得到多个文本片段;将至少部分文本片段进行属性变化处理;将属性变化处理后的文本片段发送至显示终端。将文本分为多段,并对其中的至少部分文本片段进行属性变化处理,使得爬虫程序无法识别到完整的文本,输出的文本是不完整的,也就无法爬取。同时,本申请与协议无关针对的都是最终响应的文本输出,即使响应被爬虫获取,由于响应文本的混淆性和隐藏性,导致最终响应仅仅是针对肉眼可读,程序不可读的,从而实现了较好的反爬虫效果。
Description
技术领域
本发明是涉及计算机技术领域,尤其涉及一种文本反爬虫方法、服务器、显示终端。
背景技术
HTML文档互联网数据的重要载体,当前网络爬虫层出不穷,公司投入大量财力物力产生的高价值数据很可能被不法爬虫轻易获取。传统上反爬虫的重要手段是通过限制同一IP对服务器资源的访问频率达到反爬虫的目的。
然而,传统中并不能有效的确保数据不被爬取。例如,不法分子可能提供海IP代理,或将爬虫内置到客户端分发到海量用户手中,可能导致数据被不法分子获取。
发明内容
为了解决现有技术中如何较为有效的进行反爬虫技术问题。
第一方面,本发明提供一种文本反爬虫方法,包括:获取待处理文本;将所述待处理文本进行分割,得到多个文本片段;将至少部分文本片段进行属性变化处理;将属性变化处理后的文本片段发送至显示终端。
可选地,所述将至少部分文本片段进行属性变化处理包括:利用预设伪化规则对所述至少部分文本进行伪化处理。
可选地,所述将至少部分文本片段进行属性变化处理包括:对所述至少部分文本片段进行图片化处理,生成与所述文本片段对应的图片。
可选地,在所述对所述至少部分文本片段生成与所述文本片段对应的图片之后包括:将所述图片转化为字符串。
可选地,反爬虫方法还包括:利用随机标签对所述文本片段进行包装;对所述随机标签添加排序属性;将包装后的所述文本片段进行乱序处理。
根据第二方面,本发明实施例提供了一种反爬虫方法,适用于显示终端,所述方法包括:获取服务器发送的文本片段,所述文本片段中的至少部分在服务器进行了属性变化处理;对经过属性变化处理的文本片段记性属性逆变换处理;根据经过属性逆变换处理的文本片段和其余的文本片段组合生成显示文本。
可选地,所述属性变化处理包括:伪化化处理和/或图片化处理,其中,在所述图片化处理中,将所述图片转化为字符串,所述图片与至少部分文本片段对应;所述对经过属性变化处理的文本片段记性属性逆变换处理包括:利用预设伪化规则对伪化化处理后的文本片段进行还原;和/或;将所述字符串还原为所述图片。
可选地,反爬虫方法还包括:接收具有随机标签包装的乱序文件片段;获取服务器中随机标签的排序属性;根据所述排序属性对所述乱序文件片段进行还原,得到排序正常的文本片段。
根据第三方面,本发明实施例提供了一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述第一方面任一项所述的反爬虫方法。
根据第四方面,本发明实施例提供了一种显示终端,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述第二方面任一项所述的反爬虫方法。
本申请具有如下有益效果:
将文本分为多段,并对其中的至少部分文本片段进行属性变化处理,使得爬虫程序无法识别到完整的文本,输出的文本是不完整的,也就无法爬取。同时,本申请与协议无关针对的都是最终响应的文本输出,即使响应被爬虫获取,由于响应文本的混淆性和隐藏性,导致最终响应仅仅是针对肉眼可读,程序不可读的,从而实现了较好的反爬虫效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的信息展示方法流程示意图;
图2为本发明另一实施例提供的信息展示方法流程示意图;
图3为本发明实施例提供的信息展示系统示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种文本反爬虫方法,适用于服务器,如图1所示,该反爬虫方法可以包括如下步骤:
S11.获取待处理文本。
S12.将所述待处理文本进行分割,得到多个文本片段。作为示例性的实施例,待处理文本可以为HTML文档,对待处理文本分割的段数是随机的,根本文本的长度自行选择。示例性的,待处理文本可以以“公司投入大量财力物力产生的高价值数据很可能被不法爬虫轻易获取”为例进行说明,对待处理文本进行分割后得到的文本片段示例性的为:片段1、公司投入;片段2、大量财力物力产生;片段3、的高价;片段4、值数据很可能被不;片段5、法爬虫轻易获取。上述片段的分割长度和段数可以随机选择。
S13.将至少部分文本片段进行属性变化处理。作为示例性的实施例,属性变化处理可以为利用预设伪化规则对所述至少部分文本进行伪化化处理,也可以为对所述至少部分文本片段进行图片化处理,生成与所述文本片段对应的图片。
一实施例中,以伪化化处理为例进行说明,在本实施例中,伪化化处理可以利用CSS进行伪化处理,随机提取任意n个文本片段,将文本片段文本设置在CSS伪元素中,同时将被设置文本片段清空。例如将片段2和片段4被伪化处理,得到伪元素。示例性的,伪处理化后的文本片段为:片段1、公司投入;片段2、key1;片段3、的高价;片段4、key2;片段5、法爬虫轻易获取。同时,将伪元素与对应的文本片段的映射关系进行存储,例如:key1=大量财力物力产生;key1=值数据很可能被不。通过CSS伪元素隐藏文本的技术特点在于输出给http响应的HTML文本有部分文本缺失,被隐藏到CSS伪类中,只有在CSS被渲染完成的时候用户才能看到正常的UI呈现,而对于爬虫程序来说,输出的文本是不完整的,也就无法爬取。对于通过程序发出HTTP请求获取web资源的HTML文本内容,从而提取出其中的重要文本数据的爬虫技术和通过类似puppeteer或jsdom之类的headless环境,在内存中以浏览器方式加载web文档,待web文档加载并渲染完成之后,通过注入JS程序的方式,读取被渲染之后的文本的爬虫技术都有比较好的防范效果,因为伪元素是不会直接在DOM文本中呈现的。
另一实施例中,可以将至少部分文本片段进行图片化处理,生成与所述文本片段对应的图片。具体的,随机将任意个文本片段生成对应的图片,在本实施例中,生成的图片对应的文本片段的字体和图片字体一致,以便生成对用户来说显示没有任何变化的文本效果。例如将片段1和片段3被图形化处理,得到片段1和片段3对应的图片,为了方便输出至显示终端,可以将所述图片转化为字符串,例如,可以将图片base64化。示例性的,经过图片化的文本片段可以为:片段1、url1;片段2、大量财力物力产生;片段3、url2;片段4、值数据很可能被不;片段5、法爬虫轻易获取。其中url1图片中包含文本信息“公司投入”其中url2图片中包含文本信息“的高价”。将图形base64化,作为文本一起输出到http响应,对于通过程序发出HTTP请求获取web资源的HTML文本内容,从而提取出其中的重要文本数据的爬虫技术和通过类似puppeteer或jsdom之类的headless环境,在内存中以浏览器方式加载web文档,待web文档加载并渲染完成之后,通过注入JS程序的方式,读取被渲染之后的文本的爬虫技术都有比较好的防范效果。
作为示例性的实施例,对文本片段的属性变化还可以同时采用伪化处理和图形化处理,示例性的,将片段1和片段3被图形化处理,将片段2和片段4被伪化处理,将输出至显示终端的文本片段同时具有图片和伪类元素,综合各方所长进一步提高反爬虫的效果。
S14.将属性变化处理后的文本片段发送至显示终端。
作为示例性的实施例,反爬虫方法还可以包括:利用随机标签对所述文本片段进行包装;对所述随机标签添加排序属性;将包装后的所述文本片段进行乱序处理。示例性的,每一段文本片段用随机标签包装,也可以不用标签(标签的选择也是随机的。为每一个离散的随机标签设置排序属性,排序属性是通过服务器约定的,示例性的,片段1、公司投入;片段2、大量财力物力产生;片段3、的高价;片段4、值数据很可能被不;片段5、法爬虫轻易获取。上述五个片段添加的排序属性依次为:[a,k,d,e,s],即,片段1为a,片段2为k,片段3为d,片段4为e,片段5为s。添加排序属性后,将文本片段进行随机打散,例如可以得到文本片段的顺序可以为:片段2-k、片段5-s、片段1-a,,片段3-d、片段4-e。显示终端在页面加载完成之后,通过获取排序属性即可还原文本,进而显示正确的文本。针对现有的爬虫方法通过程序发出HTTP请求获取web资源的HTML文本内容,从而提取出其中的重要文本数据,只能获取到乱序文件片段,无法还原真正的文本顺序。
作为示例性的实施例,对文本片段同时进行属性变化和进行随机标签封装,并进行乱序处理,其中,乱序处理可以与上述实施例中描述的属性变化中的至少一种同时进行处理,可以综合各方所长,可以做到针对通过程序发出HTTP请求获取web资源的HTML文本内容,从而提取出其中的重要文本数据的爬虫技术和通过类似puppeteer或jsdom之类的headless环境,在内存中以浏览器方式加载web文档,待web文档加载并渲染完成之后,通过注入JS程序的方式,读取被渲染之后的文本的爬虫技术都有比较好的防范效果。
由于每个策略步骤的随机性,导致每次输出的结果都不一样,增加了爬取难度,使得通过简单的程序化文本处理变得几乎不可能。同时,实施例中的反爬虫方法与协议无关针对的都是最终响应的文本输出,即使响应被爬虫获取,由于响应文本的混淆性和隐藏性,导致最终响应仅仅是针对肉眼可读,程序不可读的。从而实现了较好的反爬虫效果。
本发明实施例提供了一种反爬虫方法,适用于显示终端,如图2所示,该方法可以包括如下步骤:
S21.获取服务器发送的文本片段,所述文本片段中的至少部分在服务器进行了属性变化处理;
S22.对经过属性变化处理的文本片段记性属性逆变换处理;
S23.根据经过属性逆变换处理的文本片段和其余的文本片段组合生成显示文本。
作为示例性的实施例,所述属性变化处理包括:伪化化处理和/或图片化处理,其中,在所述图片化处理中,将所述图片转化为字符串,所述图片与至少部分文本片段对应;所述对经过属性变化处理的文本片段记性属性逆变换处理包括:利用预设伪化规则对伪化化处理后的文本片段进行还原;和/或;将所述字符串还原为所述图片。示例性的,经过CSS伪元素隐藏文本的技术特点在于输出给http响应的HTML文本有部分文本缺失,被隐藏到CSS伪类中,讲过CSS被渲染完成时可以正常显示。
作为示例性的实施例,接收具有随机标签包装的乱序文件片段;获取服务器中随机标签的排序属性,根据所述排序属性对所述乱序文件片段进行还原,得到排序正常的文本片段。例如,可以获取上述实施例中的排序属性“五个片段添加的排序属性依次为:[a,k,d,e,s]”,具体的可以通过JS异步获取,并可以通过JS将已经输出值显示终端的乱序文本恢复正常排序,正常页面在浏览器渲染给用户。
本发明实施例提供了一种电子设备,该电子设备可以为服务器,也可以为显示终端,所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述实施例中任一项所述的反爬虫方法。
如图3所示,该电子设备包括一个或多个处理器31以及存储器32,图3中以一个处理器33为例。
控制单元还可以包括:输入装置33和输出装置34。
处理器31、存储器32、输入装置33和输出装置34可以通过总线或者其他方式连接,图3中以通过总线连接为例。
处理器31可以为中央处理器(Central Processing Unit,CPU)。处理器31还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器32作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的用户匹配对应的程序指令/模块。处理器31通过运行存储在存储器32中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的反爬虫方法。
存储器32可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据服务器操作的处理装置的使用所创建的数据等。此外,存储器32可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器32可选包括相对于处理器31远程设置的存储器,这些远程存储器可以通过网络连接至网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置33可接收输入的数字或字符信息,以及产生与服务器的处理装置的用户设置以及功能控制有关的键信号输入。输出装置34可包括显示屏等显示设备。
一个或者多个模块存储在存储器32中,当被一个或者多个处理器31执行时,执行如图1或图2所示的方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机指令用于使所述计算机执行汽车违反限行规则的识别方法。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后,本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种文本反爬虫方法,其特征在于,适用于服务器,所述方法包括:
获取待处理文本;
将所述待处理文本进行分割,得到多个文本片段;
将至少部分文本片段进行属性变化处理;
将属性变化处理后的文本片段发送至显示终端。
2.如权利要求1所述的反爬虫方法,其特征在于,所述将至少部分文本片段进行属性变化处理包括:
利用预设伪化规则对所述至少部分文本进行伪化处理。
3.如权利要求1或2所述的反爬虫方法,其特征在于,所述将至少部分文本片段进行属性变化处理包括:
对所述至少部分文本片段进行图片化处理,生成与所述文本片段对应的图片。
4.如权利要求3所述的反爬虫方法,其特征在于,在所述对所述至少部分文本片段生成与所述文本片段对应的图片之后包括:
将所述图片转化为字符串。
5.如权利要求1所述的反爬虫方法,其特征在于,还包括:
利用随机标签对所述文本片段进行包装;
对所述随机标签添加排序属性;
将包装后的所述文本片段进行乱序处理。
6.一种反爬虫方法,其特征在于,适用于显示终端,所述方法包括:
获取服务器发送的文本片段,所述文本片段中的至少部分在服务器进行了属性变化处理;
对经过属性变化处理的文本片段记性属性逆变换处理;
根据经过属性逆变换处理的文本片段和其余的文本片段组合生成显示文本。
7.如权利要求6所述的反爬虫方法,其特征在于,所述属性变化处理包括:伪化化处理和/或图片化处理,其中,在所述图片化处理中,将所述图片转化为字符串,所述图片与至少部分文本片段对应;
所述对经过属性变化处理的文本片段记性属性逆变换处理包括:
利用预设伪化规则对伪化化处理后的文本片段进行还原;
和/或;
将所述字符串还原为所述图片。
8.如权利要求6任一项所述的反爬虫方法,其特征在于,还包括:
接收具有随机标签包装的乱序文件片段;
获取服务器中随机标签的排序属性;
根据所述排序属性对所述乱序文件片段进行还原,得到排序正常的文本片段。
9.一种服务器,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1-5任一项所述的反爬虫方法。
10.一种显示终端,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求6-8任一项所述的反爬虫方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910992612.6A CN110851682A (zh) | 2019-10-17 | 2019-10-17 | 文本反爬虫方法、服务器、显示终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910992612.6A CN110851682A (zh) | 2019-10-17 | 2019-10-17 | 文本反爬虫方法、服务器、显示终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110851682A true CN110851682A (zh) | 2020-02-28 |
Family
ID=69597792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910992612.6A Withdrawn CN110851682A (zh) | 2019-10-17 | 2019-10-17 | 文本反爬虫方法、服务器、显示终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110851682A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111683098A (zh) * | 2020-06-10 | 2020-09-18 | 创新奇智(成都)科技有限公司 | 反爬虫方法、装置、电子设备及存储介质 |
CN112422543A (zh) * | 2020-11-09 | 2021-02-26 | 建信金融科技有限责任公司 | 反爬虫方法和装置 |
CN113065055A (zh) * | 2021-04-21 | 2021-07-02 | 平安国际智慧城市科技股份有限公司 | 新闻资讯抓取方法、装置、电子设备及存储介质 |
CN114722321A (zh) * | 2021-01-05 | 2022-07-08 | 腾讯科技(深圳)有限公司 | 网页内容处理方法、装置、电子设备和存储介质 |
CN116932854A (zh) * | 2023-09-14 | 2023-10-24 | 百鸟数据科技(北京)有限责任公司 | 一种网页信息反爬虫方法、装置、系统、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105577684A (zh) * | 2016-01-25 | 2016-05-11 | 北京京东尚科信息技术有限公司 | 防爬虫抓取的方法、服务端、客户端和系统 |
CN108449316A (zh) * | 2018-02-06 | 2018-08-24 | 麒麟合盛网络技术股份有限公司 | 一种反爬虫方法、服务器和客户端 |
CN109543454A (zh) * | 2019-01-25 | 2019-03-29 | 腾讯科技(深圳)有限公司 | 一种反爬虫方法及相关设备 |
CN110069688A (zh) * | 2019-03-16 | 2019-07-30 | 平安城市建设科技(深圳)有限公司 | 反爬虫的页面展示方法、服务器、存储介质及装置 |
-
2019
- 2019-10-17 CN CN201910992612.6A patent/CN110851682A/zh not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105577684A (zh) * | 2016-01-25 | 2016-05-11 | 北京京东尚科信息技术有限公司 | 防爬虫抓取的方法、服务端、客户端和系统 |
CN108449316A (zh) * | 2018-02-06 | 2018-08-24 | 麒麟合盛网络技术股份有限公司 | 一种反爬虫方法、服务器和客户端 |
CN109543454A (zh) * | 2019-01-25 | 2019-03-29 | 腾讯科技(深圳)有限公司 | 一种反爬虫方法及相关设备 |
CN110069688A (zh) * | 2019-03-16 | 2019-07-30 | 平安城市建设科技(深圳)有限公司 | 反爬虫的页面展示方法、服务器、存储介质及装置 |
Non-Patent Citations (2)
Title |
---|
SHAUN_X: "爬虫实战-破解CSS反爬", 《HTTP://BLOG.CSDN.NET/WEIXIN_40576010/ARTICLE/DETAILS/89885515》 * |
重复过往: "前端JS将文字替换成伪类标签防爬虫的一个方法", 《HTTPS://BLOG.CSDN.NET/QQ_37540004/ARTICLE/DETAILS/78794323》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111683098A (zh) * | 2020-06-10 | 2020-09-18 | 创新奇智(成都)科技有限公司 | 反爬虫方法、装置、电子设备及存储介质 |
CN112422543A (zh) * | 2020-11-09 | 2021-02-26 | 建信金融科技有限责任公司 | 反爬虫方法和装置 |
CN114722321A (zh) * | 2021-01-05 | 2022-07-08 | 腾讯科技(深圳)有限公司 | 网页内容处理方法、装置、电子设备和存储介质 |
CN113065055A (zh) * | 2021-04-21 | 2021-07-02 | 平安国际智慧城市科技股份有限公司 | 新闻资讯抓取方法、装置、电子设备及存储介质 |
CN113065055B (zh) * | 2021-04-21 | 2024-04-02 | 深圳赛安特技术服务有限公司 | 新闻资讯抓取方法、装置、电子设备及存储介质 |
CN116932854A (zh) * | 2023-09-14 | 2023-10-24 | 百鸟数据科技(北京)有限责任公司 | 一种网页信息反爬虫方法、装置、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110851682A (zh) | 文本反爬虫方法、服务器、显示终端 | |
US9324085B2 (en) | Method and system of generating digital content on a user interface | |
CN108595583A (zh) | 动态图表类页面数据爬取方法、装置、终端及存储介质 | |
CN110321675B (zh) | 基于网页水印的生成、溯源方法及装置 | |
US20150244737A1 (en) | Detecting malicious advertisements using source code analysis | |
US20140280012A1 (en) | Creating rules for use in third-party tag management systems | |
CN104424232B (zh) | 一种网页标注方法和装置 | |
CN104798094B (zh) | 确定内容项目显示环境的配置 | |
EP2291804A1 (en) | Method and system to selectively secure the display of advertisements on web browsers | |
US9811509B2 (en) | Ensuring integrity of a displayed web page | |
US9311062B2 (en) | Consolidating and reusing portal information | |
CN112989186B (zh) | 资讯信息推荐模型训练方法、装置、电子设备及存储介质 | |
CN111880790A (zh) | 页面渲染方法、页面渲染系统和计算机可读存储介质 | |
WO2013111028A1 (en) | Web application content mapping | |
JP2017532655A (ja) | カスケーディングスタイルシートファイルの圧縮 | |
CN111880789A (zh) | 页面渲染方法、装置、服务端和计算机可读存储介质 | |
CN113343312A (zh) | 基于前端埋点技术的页面防篡改方法及系统 | |
CN104166545B (zh) | 一种网页资源的嗅探方法以及装置 | |
CN113452733A (zh) | 文件下载方法和装置 | |
CN109670100A (zh) | 一种页面数据抓取方法及装置 | |
CN113378025A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
Han et al. | HOTDOL: HTML obfuscation with text distribution to overlapping layers | |
CN101196910B (zh) | 一种确定网络资源的方法和装置 | |
CN110909270A (zh) | 文章迁移方法、装置、计算机可读存储介质及终端设备 | |
CN115099200B (zh) | 防篡改的文本处理方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200228 |