CN110750750A - 网页生成方法、装置、计算机设备和存储介质 - Google Patents

网页生成方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110750750A
CN110750750A CN201910843754.6A CN201910843754A CN110750750A CN 110750750 A CN110750750 A CN 110750750A CN 201910843754 A CN201910843754 A CN 201910843754A CN 110750750 A CN110750750 A CN 110750750A
Authority
CN
China
Prior art keywords
webpage
access request
simulated
crawler
source code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910843754.6A
Other languages
English (en)
Inventor
梅锦振华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910843754.6A priority Critical patent/CN110750750A/zh
Priority to PCT/CN2019/116545 priority patent/WO2021042508A1/zh
Publication of CN110750750A publication Critical patent/CN110750750A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请涉及机器学习,提供一种网页生成方法、装置、计算机设备和存储介质。所述方法包括:接收终端发送的网页访问请求,并根据黑名单数据库检测网页访问请求是否为爬虫访问请求;当检测到网页访问请求为爬虫访问请求时,根据网页访问请求获取网页标识;根据网页标识获取对应的模拟网页截图,将模拟网页截图输入到已训练的网页生成模型中,得到输出结果;根据输出结果得到模拟网页源代码,将模拟网页源代码返回终端,终端用于根据模拟网页源代码生成模拟网页。采用本方法能够避免爬虫避开规则限制去获取真正网页数据,提高了网页数据的安全性。

Description

网页生成方法、装置、计算机设备和存储介质
技术领域
本申请涉及互联网技术领域,特别是涉及一种网页生成方法、装置、计算机设备和存储介质。
背景技术
随着互联网技术的发展,从互联网获取数据通常是使用网络爬虫来爬取互联网中的数据,但是,互联网中经常会有恶意爬虫不遵循通用的reboots协议,未经允许爬取数据,不仅会造成用户隐私数据泄露,也会使服务器响应压力增加。目前,通常使用预设规则来限制网络爬虫,但是,使用规则限制容易被爬取者识别,从而避开限制规则爬取数据,仍然会使得数据泄露,造成数据安全问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高数据安全性的网页生成方法、装置、计算机设备和存储介质。
一种网页生成方法,所述方法包括:
接收终端发送的网页访问请求,并根据黑名单数据库检测网页访问请求是否为爬虫访问请求;
当检测到网页访问请求为爬虫访问请求时,根据网页访问请求获取网页标识;
根据网页标识获取对应的模拟网页截图,将模拟网页截图输入到已训练的网页生成模型中,得到输出结果;
根据输出结果得到模拟网页源代码,将模拟网页源代码返回终端,终端用于根据模拟网页源代码生成模拟网页。
在其中一个实施例中,接收终端发送的网页访问请求,并根据黑名单数据库检测网页访问请求是否为爬虫访问请求,包括:
解析网页访问请求,得到访问标识,在黑名单数据库中查找访问标识;
当查找到访问标识时,网页访问请求为爬虫访问请求。
在其中一个实施例中,在解析网页访问请求,得到访问标识,在黑名单数据库中查找访问标识之后,还包括:
当未查找到访问标识时,获取访问标识的历史访问日志,从历史访问日志中提取行为特征,当行为特征与预设规则一致时,网页访问请求为爬虫访问请求。
在其中一个实施例中,在接收终端发送的网页访问请求,并根据黑名单数据库检测网页访问请求是否为爬虫访问请求之后,还包括:
当根据黑名单数据库检测网页访问请求为正常访问请求时,根据网页访问请求获取网页标识;
根据网页标识查找对应的网页源代码,将网页源代码返回终端,终端用于根据网页源代码生成网页。
在其中一个实施例中,在根据输出结果得到模拟网页源代码,将模拟网页源代码返回终端,终端用于根据模拟网页源代码生成模拟网页之后,还包括:
接收终端发送的网页行为数据并生成爬虫标识,将网页行为数据与爬虫标识关联保存;
获取管理终端地址,根据管理终端地址将网页行为数据与爬虫标识关联发送管理终端。
在其中一个实施例中,已训练的网页生成模型的生成步骤包括:
获取页面截图和对应的模拟源代码,根据模拟源代码得到对应的代码特征向量;
将页面截图和代码特征向量中的起始代码特征向量作为神经网络模型的输入,将代码特征向量中与起始代码特征向量紧邻的代码特征向量作为神经网络模型的标签进行训练,当达到训练完成条件时,得到已训练的网页生成模型。
一种网页生成装置,所述装置包括:
请求检测模块,用于接收终端发送的网页访问请求,检测网页访问请求;
标识获取模块,用于当检测到网页访问请求为爬虫访问请求时,根据网页访问请求获取网页标识;
截图获取模块,用于根据网页标识获取对应的模拟网页截图,将模拟网页截图输入到已训练的网页生成模型中,得到输出结果;
网页生成模块,用于根据输出结果得到模拟网页源代码,将模拟网页源代码返回终端,终端用于根据模拟网页源代码生成模拟网页。
在其中一个实施例中,请求检测模块还用于解析网页访问请求,得到访问标识,在黑名单数据库中查找访问标识;当查找到访问标识时,网页访问请求为爬虫访问请求。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
接收终端发送的网页访问请求,检测网页访问请求;
当检测到网页访问请求为爬虫访问请求时,根据网页访问请求获取网页标识;
根据网页标识获取对应的模拟网页截图,将模拟网页截图输入到已训练的网页生成模型中,得到输出结果;
根据输出结果得到模拟网页源代码,将模拟网页源代码返回终端,终端用于根据模拟网页源代码生成模拟网页。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
接收终端发送的网页访问请求,检测网页访问请求;
当检测到网页访问请求为爬虫访问请求时,根据网页访问请求获取网页标识;
根据网页标识获取对应的模拟网页截图,将模拟网页截图输入到已训练的网页生成模型中,得到输出结果;
根据输出结果得到模拟网页源代码,将模拟网页源代码返回终端,终端用于根据模拟网页源代码生成模拟网页。
上述网页生成方法、装置、计算机设备和存储介质,通过检测网页访问请求,当检测网页访问请求为爬虫访问请求时,根据模拟网页截图使用网页生成模型生成模拟网页源代码,将模拟网页源代码返回爬虫对应的终端,终端根据模拟网页源代码生成模拟网页从而使爬虫爬取到的数据是模拟网页的虚假数据,避免爬虫避开规则限制去获取真实的网页数据,提高了网页数据的安全性。
附图说明
图1为一个实施例中网页生成方法的应用场景图;
图2为一个实施例中网页生成方法的流程示意图;
图3为一个实施例中检测网页访问请求流程示意图;
图4为一个实施例中生成正常网页的流程示意图;
图5为一个实施例中进行爬虫报警提示的流程示意图;
图6为一个实施例中训练网页生成模型的流程示意图;
图7为一个实施例中网页生成装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的网页生成方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。服务器104接收终端102发送的网页访问请求,检测网页访问请求;当检测到网页访问请求为爬虫访问请求时,根据网页访问请求获取网页标识;根据网页标识获取对应的模拟网页截图,将模拟网页截图输入到已训练的网页生成模型中,得到输出结果;服务器104根据输出结果得到模拟网页源代码,将模拟网页源代码返回终端102,终端102用于根据模拟网页源代码生成模拟网页。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种网页生成方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S202,接收终端发送的网页访问请求,并根据黑名单数据库检测网页访问请求是否为爬虫访问请求。
其中,黑名单数据库是预先设置好的爬虫访问标识的数据库,用于检测网页访问请求中的访问标识是否为爬虫访问标识。
具体地,服务器接收终端发送的网页访问请求,并根据预先设置好的黑名单数据库检测网页访问请求,在一个实施例中,也可以根据预先设置好的爬虫检测规则检测该网页访问请求是否是爬虫发送的网页访问请求。该预先设置好的爬虫检测规则可以是根据网页访问请求的IP地址(Internet Protocol Address,互联网协议地址)进行爬虫检测。在一个实施例中,还可以根据网页访问请求的用户代理(User Agent,一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等)来检测是否为爬虫访问请求。
S204,当检测到网页访问请求为爬虫访问请求时,根据网页访问请求获取网页标识。
其中,网页标识用于唯一标识网页访问请求要访问的页面,网页标识可以是该网页的IP地址信息,也可以是网页域名等等。
具体地,当检测到网页访问请求为爬虫访问请求时,根据网页访问请求获取网页标识。即当网页访问请求为爬虫访问请求,先解析该网页访问请求获取到网页访问请求携带的网页标识。
S206,根据网页标识获取对应的模拟网页截图,将模拟网页截图输入到已训练的网页生成模型中,得到输出结果。
其中,模拟网页截图是指保存在服务器中的虚假网页截图,该虚假网页截图是指与真正要返回的网页不同网页的截图。已训练的网页生成模型是指根据已有的网页截图和对应的源代码使用神经网络算法生成的,该神经网络算法可以是LSTM(Long Short-TermMemory,长短期记忆网络,是一种循环神经网络)与CNN(Convolutional Neural Network,卷积神经网络)
具体地,服务器中预先设置好了网页标识和模拟网页截图的对应关系。当检测到网页访问请求是爬虫访问请求时,根据对应关系使用网页标识获取对应的模拟网页截图,服务器将模拟网页截图输入到已训练的网页生成模型中,得到网页生成模型的输出结果。该输出结果可以是网页代码向量,在网页生成模型训练时就设置好网页代码向量和具体代码的对应关系。
S208,根据输出结果得到模拟网页源代码,将模拟网页源代码返回终端,终端用于根据模拟网页源代码生成模拟网页。
其中,模拟网页源代码是指非真实网页前端的源代码。该源代码可以是HTML(超文本标记语言)形式的,也可以是XML(可扩展标记语言)形式的等等。
具体地,服务器根据输出结果得到模拟网页源代码,即根据网页代码向量和具体代码的对应关系得到输出结果对应的模拟网页源代码,将将模拟网页源代码返回终端,终端接收到服务器返回的模拟网页源代码时,根据模拟网页源代码生成模拟网页,将生产的模拟网页在终端中进行展示。
在上述网页生成方法中,通过检测网页访问请求,当检测网页访问请求为爬虫访问请求时,根据模拟网页截图使用网页生成模型生成模拟网页源代码,将模拟网页源代码返回对应的终端,终端根据模拟网页源代码生成模拟网页从而使爬虫爬取到的数据是模拟网页的虚假数据,避免爬虫避开规则限制去获取真实的网页数据,提高了网页数据的安全性。
在一个实施例中,如图3所示,步骤S202,即接收终端发送的网页访问请求,并根据黑名单数据库检测网页访问请求是否为爬虫访问请求,包括步骤:
S302,解析网页访问请求,得到访问标识,在黑名单数据库中查找访问标识。
其中,黑名单数据库是指预先根据爬虫的访问标识设置好的数据库,即将历史爬虫访问网页请求中的访问标识存储到黑名单数据库中。
具体地,服务器接收到网页访问请求时,解析网页访问请求,得到网页访问请求携带的访问标识,然后在黑名单数据库中查找访问标识。
S304,当查找到访问标识时,网页访问请求为爬虫访问请求。
其中,爬虫访问请求是指爬虫向网页发送的访问请求,爬虫是指是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
具体地,具体地,当服务器在黑名单数据库中查找到访问标识时,说明该网页访问请求是爬虫发送的网页访问请求,即网页访问请求为爬虫访问请求。当服务器未在黑名单数据库中查找到访问标识时,可以进一步对该网页访问请求进行检测。
在上述实施例中,通过设置黑名单数据库来对网页访问请求进行爬虫检测,能够提高爬虫访问请求的检测效率。
在一个实施例中,在步骤S302之后,即在解析网页访问请求,得到访问标识,在黑名单数据库中查找访问标识之后,还,还包括步骤:
当未查找到访问标识时,获取访问标识的历史访问日志,从历史访问日志中提取行为特征,当行为特征与预设规则一致时,网页访问请求为爬虫访问请求。
其中,历史访问日志记录了历史访问网页的信息,可以从nginx(一个高性能的HTTP和反向代理web服务器)的access.log中获取到历史访问日志。行为特征是指网页被访问的特征,比如并发连接数特征是指在固定时间段内该访问标识的访问网页的次数。比如是否访问隐藏信息是指在页面不可见却被访问的信息。预设规则是指预先设置好的异常访问行为的规则。
具体地,当未在黑名单数据库中查找到访问标识时,说明该网页访问请求需要进一步的检测。此时,获取访问标识对应的历史访问日志,从历史访问日志中提取行为特征,当行为特征与预设规则一致时,网页访问请求为爬虫访问请求。比如,行为特征中并发连接数特征为1分钟内为32个,与预先设置的1分钟内并发连接数超过30个的规则一致,则该访问请求为爬虫访问请求。
在一个实施例中,当检测到未在黑名单数据库中的访问标识对应的访问请求为爬虫访问请求时,服务器将访问标识发送到管理终端,根据管理终端接收到访问标识并进行显示。此时,若管理者检查该访问标识属于爬虫访问请求时,可以将访问标识加入到黑名单数据库中。即管理终端接收到访问标识添加指令,根据访问标识添加指令将该访问标识写入黑名单数据库中。
在一个实施例中,当行为特征与预设规则不一致时,网页访问请求为正常访问请求。此时,可以获取到真正的网页源代码返回到终端进行网页展示。
在上述实施例中,进一步通过历史访问日志来判断网页访问请求是否为爬虫访问请求,提高了检测爬虫访问请求的准确性。
在一个实施例中,如图4所示,在步骤S202之后即在接收终端发送的网页访问请求,并根据黑名单数据库检测网页访问请求是否为爬虫访问请求之后,还包括步骤:
S402,当根据黑名单数据库检测网页访问请求为正常访问请求时,根据网页访问请求获取网页标识。
其中,正常访问请求是指未通过爬虫访问网页的请求,比如用户正常访问网页的请求。
具体地,服务器在黑名单数据库中未查找到网页访问请求中的访问标识时,说明该网页访问请求不是爬虫访问请求时,则该网页访问请求为正常访问请求,此时,解析该正常访问请求,得到对应的网页标识。
S404,根据网页标识查找对应的网页源代码,将网页源代码返回终端,终端用于根据网页源代码生成网页。
其中,网页源代码是指要返回终端的真实网页的源代码。
具体地,服务器根据网页标识查找对应的网页源代码,将网页源代码返回终端,终端接收到服务器发送的网页源代码,解析网页源代码生成对应的网页并进行展示。
在上述实施例中,当检测网页访问请求为正常访问请求时,根据网页访问请求获取网页标识,根据网页标识查找对应的网页源代码,将网页源代码返回终端,终端用于根据网页源代码生成网页,能够在检测网页访问请求为正常访问请求时,进行网页的正常展示。
在一个实施例中,如图5所示,在步骤S208之后,即在根据输出结果得到模拟网页源代码,将模拟网页源代码返回终端,终端用于根据模拟网页源代码生成模拟网页之后,还包括步骤:
S502,接收终端发送的网页行为数据并生成爬虫标识,将网页行为数据与爬虫标识关联保存。
其中,网页行为数据是指爬虫爬取的模拟网页中数据信息。爬虫标识用于唯一标识爬虫,可以是爬虫的名称、爬虫的ID等等。
具体地,服务器接收终端发送的网页行为数据并生成爬虫标识,将网页行为数据与爬虫标识关联保存到数据库中,便于后续进行查看和管理。
S504,获取管理终端地址,根据管理终端地址将网页行为数据与爬虫标识关联发送管理终端。
其中,管理终端地址是指管理终端接收爬虫警报信息的地址,该地址可以是管理终端的IP地址。
具体地,获取管理终端地址,根据管理终端地址将网页行为数据与爬虫标识关联发送管理终端,管理终端接收到网页行为数据与爬虫标识并进行报警展示。在一个实例中,可以获取到管理邮箱,将网页行为数据与爬虫标识关联发送管理邮箱中进行爬虫报警提示。在一个实施例中,可以获取到管理手机号码,将将网页行为数据与爬虫标识关联以短信的形式发送到管理手机号码对应的手机中进行爬虫报警提示。
在上述实施例中,通过接收终端发送的网页行为数据并生成爬虫标识,将网页行为数据与爬虫标识关联保存,获取管理终端地址,根据管理终端地址将网页行为数据与爬虫标识关联发送管理终端,能够对爬虫进行管理和报警提示,便于管理人员对爬虫进行处理。
在一个实施例中,如图6所示,已训练的网页生成模型的生成步骤包括:
S602,获取页面截图和对应的模拟源代码,根据模拟源代码得到对应的代码特征向量。
其中,模拟源代码是指页面截图对应的页面源代码,代码特征向量是指根据页面截图对应的模拟源代码进行向量化后得到的代码特征向量。比如,将模拟源代码使用独热编码的方法进行编码,具体是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。采用独热编码得到模拟源代码中每一个代码词对应的代码特征向量。
具体地,服务器获取页面截图和对应的模拟源代码,将模拟源代码中的每个代码词进行独热编码得到每个代码词对应的代码特征向量。在一个具体的实施例中,模拟源代码一段代码为“start hello word end”,对每个代码词编码得到“start”对应的代码特征向量为(0,0,0,1),“hello”对应的代码特征向量为(0,0,1,0),“word”对应的代码特征向量为(0,1,0,0),“end”对应的代码特征向量为(1,0,0,0)。
S604,将页面截图和代码特征向量中的起始代码特征向量作为神经网络模型的输入,将代码特征向量中与起始代码特征向量紧邻的代码特征向量作为神经网络模型的标签进行训练,当达到训练完成条件时,得到已训练的网页生成模型。
其中,起始代码特征向量是指模拟源代码中待预测代码词之前的代码词对应的代码特征向量。
具体地,将页面截图和代码特征向量中的起始代码特征向量作为神经网络模型的输入,将代码特征向量中与起始代码特征向量紧邻的代码特征向量作为神经网络模型的标签进行训练,即将页面截图和待预测代码词之前的代码词对应的代码特征向量作为神经网络模型的输入,将待预测代码词对应的代码特征向量作为神经网络模型的标签进行训练,重复该步骤,直到将模拟源代码所有代码词都作为神经网络模型的标签进行训练,此时,当训练达到预先设置好的迭代次数或者达到预设置好的阈值时,训练完成,得到已训练的网页生成模型。在一个具体的实施例中,将页面截图和“start”对应的代码特征向量为(0,0,0,1)作为循环神经网络模型的输入,将“hello”对应的代码特征向量为(0,0,1,0)作为循环神经网络模型的标签进行训练,然后将页面截图和“hello”对应的代码特征向量为(0,0,1,0)作为循环神经网络模型的输入,将“word”对应的代码特征向量为(0,1,0,0)作为循环神经网络模型的标签继续进行训练,将所有的代码特征向量都作为循环神经网络模型的标签时,且达到预设置好的代价函数阈值时,训练完成,得到已训练的网页生成模型。
在上述实施例中,通过预先训练的网页生成模型,然后将网页生成模型部署到服务器中,在检测到爬虫访问时,可以快速使用已训练的网页生成模型生成模拟网页,提高生产模拟网页的效率。
在一个具体地实施例中,应用在供应链金融平台中,供应链金融是指银行围绕核心企业,管理上下游中小企业的资金流和物流,并把单个企业的不可控风险转变为供应链企业整体的可控风险,通过立体获取各类信息,将风险控制在最低的金融服务。在供应链金融平台中涉及的用户信息、资料和金额等都比较敏感,如果被网络爬虫爬取,会造成严重的信息泄露,形成重大的信息安全问题。此时,供应链金融平台接收到终端发送的网页访问请求时,检测网页访问请求,当检测到网页访问请求为爬虫访问请求时,根据网页访问请求获取网页标识;根据网页标识获取对应的模拟网页截图,将模拟网页截图输入到已训练的网页生成模型中,得到输出结果;根据输出结果得到模拟网页源代码,将模拟网页源代码返回终端,终端接收到模拟网页源代码生成模拟网页,使爬虫爬取的数据为模拟的数据,避免供应链金融平台的真实数据被爬虫爬取,保证供应链金融平台的真实数据的安全性。
应该理解的是,虽然图2-6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-6中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7所示,提供了一种网页生成装置700,包括:请求检测模块702、标识获取模块704、截图获取模块706和网页生成模块708,其中:
请求检测模块702,用于接收终端发送的网页访问请求,并根据黑名单数据库检测网页访问请求是否为爬虫访问请求;
标识获取模块704,用于当检测到网页访问请求为爬虫访问请求时,根据网页访问请求获取网页标识;
截图获取模块706,用于根据网页标识获取对应的模拟网页截图,将模拟网页截图输入到已训练的网页生成模型中,得到输出结果;
网页生成模块708,用于根据输出结果得到模拟网页源代码,将模拟网页源代码返回终端,终端用于根据模拟网页源代码生成模拟网页。
在一个实施例中,请求检测模块702还用于解析网页访问请求,得到访问标识,在黑名单数据库中查找访问标识;当查找到访问标识时,网页访问请求为爬虫访问请求。
在一个实施例中,请求检测模块702还用于当未查找到访问标识时,获取访问标识的历史访问日志,从历史访问日志中提取行为特征,当行为特征与预设规则一致时,网页访问请求为爬虫访问请求。
在一个实施例中,请求检测模块702还用于:当根据黑名单数据库检测网页访问请求为正常访问请求时,根据网页访问请求获取网页标识;根据网页标识查找对应的网页源代码,将网页源代码返回终端,终端用于根据网页源代码生成网页。
在一个实施例中,网页生成装置700,还包括:
数据保存模块,用于接收终端发送的网页行为数据并生成爬虫标识,将网页行为数据与爬虫标识关联保存;
数据发送模块,用于获取管理终端地址,根据管理终端地址将网页行为数据与爬虫标识关联发送管理终端。
在一个实施例中,网页生成装置700,还包括:
向量得到模块,用于获取页面截图和对应的模拟源代码,根据模拟源代码得到对应的代码特征向量;
模型训练模块,用于将页面截图和代码特征向量中的起始代码特征向量作为神经网络模型的输入,将代码特征向量中与起始代码特征向量紧邻的代码特征向量作为神经网络模型的标签进行训练,当达到训练完成条件时,得到已训练的网页生成模型。
关于网页生成装置的具体限定可以参见上文中对于网页生成方法的限定,在此不再赘述。上述网页生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储访问标识数据和网页行为数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种网页生成方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:接收终端发送的网页访问请求,并根据黑名单数据库检测网页访问请求是否为爬虫访问请求;当检测到网页访问请求为爬虫访问请求时,根据网页访问请求获取网页标识;根据网页标识获取对应的模拟网页截图,将模拟网页截图输入到已训练的网页生成模型中,得到输出结果;根据输出结果得到模拟网页源代码,将模拟网页源代码返回终端,终端用于根据模拟网页源代码生成模拟网页。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:解析网页访问请求,得到访问标识,在黑名单数据库中查找访问标识;当查找到访问标识时,网页访问请求为爬虫访问请求。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当未查找到访问标识时,获取访问标识的历史访问日志,从历史访问日志中提取行为特征,当行为特征与预设规则一致时,网页访问请求为爬虫访问请求。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当根据黑名单数据库检测网页访问请求为正常访问请求时,根据网页访问请求获取网页标识;根据网页标识查找对应的网页源代码,将网页源代码返回终端,终端用于根据网页源代码生成网页。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:接收终端发送的网页行为数据并生成爬虫标识,将网页行为数据与爬虫标识关联保存;获取管理终端地址,根据管理终端地址将网页行为数据与爬虫标识关联发送管理终端。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取页面截图和对应的模拟源代码,根据模拟源代码得到对应的代码特征向量;将页面截图和代码特征向量中的起始代码特征向量作为神经网络模型的输入,将代码特征向量中与起始代码特征向量紧邻的代码特征向量作为神经网络模型的标签进行训练,当达到训练完成条件时,得到已训练的网页生成模型。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:接收终端发送的网页访问请求,并根据黑名单数据库检测网页访问请求是否为爬虫访问请求;当检测到网页访问请求为爬虫访问请求时,根据网页访问请求获取网页标识;根据网页标识获取对应的模拟网页截图,将模拟网页截图输入到已训练的网页生成模型中,得到输出结果;根据输出结果得到模拟网页源代码,将模拟网页源代码返回终端,终端用于根据模拟网页源代码生成模拟网页。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:解析网页访问请求,得到访问标识,在黑名单数据库中查找访问标识;当查找到访问标识时,网页访问请求为爬虫访问请求。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当未查找到访问标识时,获取访问标识的历史访问日志,从历史访问日志中提取行为特征,当行为特征与预设规则一致时,网页访问请求为爬虫访问请求。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当根据黑名单数据库检测网页访问请求为正常访问请求时,根据网页访问请求获取网页标识;根据网页标识查找对应的网页源代码,将网页源代码返回终端,终端用于根据网页源代码生成网页。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:接收终端发送的网页行为数据并生成爬虫标识,将网页行为数据与爬虫标识关联保存;获取管理终端地址,根据管理终端地址将网页行为数据与爬虫标识关联发送管理终端。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取页面截图和对应的模拟源代码,根据模拟源代码得到对应的代码特征向量;将页面截图和代码特征向量中的起始代码特征向量作为神经网络模型的输入,将代码特征向量中与起始代码特征向量紧邻的代码特征向量作为神经网络模型的标签进行训练,当达到训练完成条件时,得到已训练的网页生成模型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种网页生成方法,所述方法包括:
接收终端发送的网页访问请求,并根据黑名单数据库检测所述网页访问请求是否为爬虫访问请求;
当检测到所述网页访问请求为爬虫访问请求时,根据所述网页访问请求获取网页标识;
根据所述网页标识获取对应的模拟网页截图,将所述模拟网页截图输入到已训练的网页生成模型中,得到输出结果;
根据所述输出结果得到模拟网页源代码,将所述模拟网页源代码返回所述终端,所述终端用于根据所述模拟网页源代码生成模拟网页。
2.根据权利要求1所述的方法,其特征在于,所述接收终端发送的网页访问请求,并根据黑名单数据库检测所述网页访问请求是否为爬虫访问请求,包括:
解析所述网页访问请求,得到访问标识,在所述黑名单数据库中查找所述访问标识;
当查找到所述访问标识地址时,所述网页访问请求为爬虫访问请求。
3.根据权利要求2所述的方法,其特征在于,在所述解析所述网页访问请求,得到访问标识,在所述黑名单数据库中查找所述访问标识之后,还包括:
当未查找到所述访问标识时,获取所述访问标识的历史访问日志,从所述历史访问日志中提取行为特征,当所述行为特征与预设规则一致时,所述网页访问请求为爬虫访问请求。
4.根据权利要求1所述的方法,其特征在于,在所述接收终端发送的网页访问请求,并根据黑名单数据库检测所述网页访问请求是否为爬虫访问请求,还包括:
当根据所述黑名单数据库检测所述网页访问请求为正常访问请求时,根据所述网页访问请求获取网页标识;
根据所述网页标识查找对应的网页源代码,将所述网页源代码返回所述终端,所述终端用于根据所述网页源代码生成网页。
5.根据权利要求1所述的方法,其特征在于,在所述根据所述输出结果得到模拟网页源代码,将所述模拟网页源代码返回所述终端,所述终端用于根据所述模拟网页源代码生成模拟网页之后,还包括:
接收终端发送的网页行为数据并生成爬虫标识,将所述网页行为数据与所述爬虫标识关联保存;
获取管理终端地址,根据所述管理终端地址将所述网页行为数据与所述爬虫标识关联发送管理终端。
6.根据权利要求1所述的方法,其特征在于,所述已训练的网页生成模型的生成步骤包括:
获取页面截图和对应的模拟源代码,根据所述模拟源代码得到对应的代码特征向量;
将所述页面截图和代码特征向量中的起始代码特征向量作为神经网络模型的输入,将所述代码特征向量中与所述起始代码特征向量紧邻的代码特征向量作为神经网络模型的标签进行训练,当达到训练完成条件时,得到所述已训练的网页生成模型。
7.一种网页生成装置,其特征在于,所述装置包括:
请求检测模块,用于接收终端发送的网页访问请求,并根据黑名单数据库检测所述网页访问请求是否为爬虫访问请求;
标识获取模块,用于当检测到所述网页访问请求为爬虫访问请求时,根据所述网页访问请求获取网页标识;
截图获取模块,用于根据所述网页标识获取对应的模拟网页截图,将所述模拟网页截图输入到已训练的网页生成模型中,得到输出结果;
网页生成模块,用于根据所述输出结果得到模拟网页源代码,将所述模拟网页源代码返回所述终端,所述终端用于根据所述模拟网页源代码生成模拟网页。
8.根据权利要求7所述的装置,其特征在于,请求检测模块还用于解析所述网页访问请求,得到访问标识,在所述黑名单数据库中查找所述访问标识;当查找到所述访问标识时,所述网页访问请求为爬虫访问请求。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN201910843754.6A 2019-09-06 2019-09-06 网页生成方法、装置、计算机设备和存储介质 Withdrawn CN110750750A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910843754.6A CN110750750A (zh) 2019-09-06 2019-09-06 网页生成方法、装置、计算机设备和存储介质
PCT/CN2019/116545 WO2021042508A1 (zh) 2019-09-06 2019-11-08 网页生成方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910843754.6A CN110750750A (zh) 2019-09-06 2019-09-06 网页生成方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN110750750A true CN110750750A (zh) 2020-02-04

Family

ID=69276190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910843754.6A Withdrawn CN110750750A (zh) 2019-09-06 2019-09-06 网页生成方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN110750750A (zh)
WO (1) WO2021042508A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488546A (zh) * 2020-04-13 2020-08-04 北京小米移动软件有限公司 一种页面生成方法、装置及存储介质
CN112749364A (zh) * 2020-02-28 2021-05-04 腾讯科技(深圳)有限公司 基于人工智能的网页生成方法、装置、设备及存储介质
CN113504906A (zh) * 2021-05-31 2021-10-15 北京房江湖科技有限公司 代码生成方法、装置、电子设备及可读存储介质
CN113535175A (zh) * 2021-07-23 2021-10-22 工银科技有限公司 应用程序前端代码的生成方法、装置、电子设备及介质
CN113746790A (zh) * 2020-07-22 2021-12-03 北京沃东天骏信息技术有限公司 一种异常流量管理方法、电子设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8126868B1 (en) * 2008-10-22 2012-02-28 Amazon Technologies, Inc. Search rankings with dynamically customized content
CN106789858B (zh) * 2015-11-25 2019-12-20 广州市动景计算机科技有限公司 一种访问控制方法和装置以及服务器
CN109948020A (zh) * 2019-01-14 2019-06-28 北京三快在线科技有限公司 数据获取方法、装置、系统及可读存储介质
CN109885749A (zh) * 2019-02-28 2019-06-14 安徽腾策网络科技有限公司 一种网页信息数据防抓取系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112749364A (zh) * 2020-02-28 2021-05-04 腾讯科技(深圳)有限公司 基于人工智能的网页生成方法、装置、设备及存储介质
CN112749364B (zh) * 2020-02-28 2023-09-15 腾讯科技(深圳)有限公司 基于人工智能的网页生成方法、装置、设备及存储介质
CN111488546A (zh) * 2020-04-13 2020-08-04 北京小米移动软件有限公司 一种页面生成方法、装置及存储介质
CN111488546B (zh) * 2020-04-13 2023-09-26 北京小米移动软件有限公司 一种页面生成方法、装置及存储介质
CN113746790A (zh) * 2020-07-22 2021-12-03 北京沃东天骏信息技术有限公司 一种异常流量管理方法、电子设备及存储介质
CN113746790B (zh) * 2020-07-22 2023-09-05 北京沃东天骏信息技术有限公司 一种异常流量管理方法、电子设备及存储介质
CN113504906A (zh) * 2021-05-31 2021-10-15 北京房江湖科技有限公司 代码生成方法、装置、电子设备及可读存储介质
CN113535175A (zh) * 2021-07-23 2021-10-22 工银科技有限公司 应用程序前端代码的生成方法、装置、电子设备及介质

Also Published As

Publication number Publication date
WO2021042508A1 (zh) 2021-03-11

Similar Documents

Publication Publication Date Title
CN110750750A (zh) 网页生成方法、装置、计算机设备和存储介质
CN108259482B (zh) 网络异常数据检测方法、装置、计算机设备及存储介质
CN112685739B (zh) 恶意代码检测方法、数据交互方法及相关设备
CN107003976A (zh) 基于可准许活动规则确定可准许活动
CN110782277A (zh) 资源处理方法、装置、计算机设备和存储介质
CN111737692B (zh) 应用程序的风险检测方法及装置、设备、存储介质
CN108256322B (zh) 安全测试方法、装置、计算机设备和存储介质
CN104956372A (zh) 使用运行时和静态代码分析来确定动态安全扫描的覆盖率
CN104809391B (zh) 缓冲区溢出攻击检测装置、方法和安全防护系统
CN110647329A (zh) 代码混淆方法、装置、计算机设备和存储介质
CN106650437A (zh) webshell检测方法和装置
CN114036059A (zh) 面向电网系统的自动化渗透测试系统、方法和计算机设备
CN111612635A (zh) 用户金融风险分析方法、装置及电子设备
CN111709026B (zh) 静态安全检测方法、装置、计算机设备和存储介质
CN113472803A (zh) 漏洞攻击状态检测方法、装置、计算机设备和存储介质
CN108874802A (zh) 网页检测方法和装置
CN116346397A (zh) 网络请求异常检测方法及其装置、设备、介质、产品
CN112817877B (zh) 异常脚本检测方法、装置、计算机设备和存储介质
Hu et al. Cross-site scripting detection with two-channel feature fusion embedded in self-attention mechanism
CN113918936A (zh) Sql注入攻击检测的方法以及装置
CN116361793A (zh) 代码检测方法、装置、电子设备及存储介质
CN112632504B (zh) 网页访问方法、装置、系统、计算机设备和存储介质
CN110781366A (zh) 网页数据处理方法、装置、计算机设备和存储介质
KR102501227B1 (ko) 인터넷 주소 검색량에 기반한 금융 사기 탐지 시스템 및 방법
CN116094847B (zh) 蜜罐识别方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200204

WW01 Invention patent application withdrawn after publication