CN111651658A - 一种基于深度学习的自动化识别网站的方法和计算机设备 - Google Patents

一种基于深度学习的自动化识别网站的方法和计算机设备 Download PDF

Info

Publication number
CN111651658A
CN111651658A CN202010503052.6A CN202010503052A CN111651658A CN 111651658 A CN111651658 A CN 111651658A CN 202010503052 A CN202010503052 A CN 202010503052A CN 111651658 A CN111651658 A CN 111651658A
Authority
CN
China
Prior art keywords
picture
content
crawling
detection
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010503052.6A
Other languages
English (en)
Inventor
柳进
范渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DBAPPSecurity Co Ltd
Hangzhou Dbappsecurity Technology Co Ltd
Original Assignee
Hangzhou Dbappsecurity Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dbappsecurity Technology Co Ltd filed Critical Hangzhou Dbappsecurity Technology Co Ltd
Priority to CN202010503052.6A priority Critical patent/CN111651658A/zh
Publication of CN111651658A publication Critical patent/CN111651658A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1433Vulnerability analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请涉及一种基于深度学习的自动化识别网站的方法和计算机设备,其中,该基于深度学习的自动化识别网站的方法包括:相比于相关技术,本申请实施例提供的基于深度学习的自动化识别网站的方法,通过对网页进行爬取,并截图以生成爬取图片,识别所述爬取图片,以获取所述爬取图片的爬取特征,将所述爬取特征与预设的数据库进行匹配检测,以获取所述爬取图片的相似度比率,其中,所述数据库中设有不合规内容特征,在所述相似度比率大于预设比率的情况下,生成用于指示所述网页不合规的网页告警数据,解决了相关技术中通过网站漏洞扫描产品检测网站中的不合规内容,存在误报率高的问题,降低不合规内容的误报率。

Description

一种基于深度学习的自动化识别网站的方法和计算机设备
技术领域
本申请涉及计算机网络安全领域,特别是涉及一种基于深度学习的自动化识别网站的方法和计算机设备。
背景技术
网站安全检测,也称网站安全评估、网站漏洞测试、Web(World Wide Web,即全球广域网)安全检测等,它是通过技术手段对网站进行漏洞扫描,检测网页是否存在漏洞、网页是否挂有木马程序、网页是否被篡改、是否有欺诈网站等,提醒网站管理员及时修复和加固,保障web网站的安全运行。
在相关技术中,对于互联网安全问题的检测,大部分采用网站漏洞扫描产品,网站漏洞扫描产品是针对已经存在的页面进行漏洞测试,但由于图片、视频、发文、聊天等互动内容中充斥着各种不可控的风险,比如涉政、涉黄、涉赌、涉毒等不合规内容,因此只能检测web漏洞的网站漏洞扫描产品,无法准确检测出网站中的不合规内容,导致误报率高。
目前针对相关技术中通过网站漏洞扫描产品检测网站中的不合规内容,存在误报率高的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种基于深度学习的自动化识别网站的方法和计算机设备,以至少解决相关技术中通过网站漏洞扫描产品检测网站中的不合规内容,存在误报率高的问题。
第一方面,本申请实施例提供了一种基于深度学习的自动化识别网站的方法,所述方法包括:
对网页进行爬取,并截图以生成爬取图片;
识别所述爬取图片,以获取所述爬取图片的爬取特征,将所述爬取特征与预设的数据库进行匹配检测,以获取所述爬取图片的相似度比率;其中,所述数据库中设有不合规内容特征;
在所述相似度比率大于预设比率的情况下,生成用于指示所述网页不合规的网页告警数据。
在其中一些实施例中,所述爬取网页,以获取所述网页的爬取内容之后,所述方法还包括:
获取用户与服务器之间的网络流量,并对所述网络流量进行解析,以获取流量内容;
识别所述流量内容,获取所述流量内容的流量特征,将所述流量特征与所述数据库进行匹配检测,并获取相似度比率;
在所述相似度比率大于预设比率的情况下,生成用于指示所述流量内容不合规的流量告警数据。
在其中一些实施例中,所述识别所述爬取图片,获取所述爬取图片的爬虫特征之前,所述方法还包括:
识别所述爬取图片的爬取类型,在所述爬取类型与预设的检测类型匹配的情况下,识别所述爬取图片以获取所述爬虫特征。
在其中一些实施例中,在所述相似度比率大于预设比率的情况下,所述方法还包括:
将所述爬虫图片,以及与所述爬虫图片相对应的爬虫类型加载于所述网页告警数据中。
在其中一些实施例中,所述爬取网页,并截取所述网页的图片,以获取所述网页的爬取图片之前,所述方法还包括:
配置所述检测类型,其中所述检测类型包括以下至少之一:涉黄检测类型、涉赌检测类型、涉毒检测类型、涉政检测类型。
第二方面,本申请实施例提供了一种基于深度学习的自动化识别网站的装置,所述装置包括:爬虫模块、检测模块和网页告警模块;
所述爬虫模块,对网页进行爬取,并截图以生成爬取图片;
所述检测模块,用于识别所述爬取图片,以获取所述爬取图片的爬取特征,将所述爬取特征与预设的数据库进行匹配检测,以获取所述爬取图片的相似度比率;其中,所述数据库中设有不合规内容特征;
所述告警模块,用于在所述相似度比率大于预设比率的情况下,生成用于指示所述网页不合规的网页告警数据。
在其中一些实施例中,所述装置还包括:网络流量获取模块;
所述网络流量获取模块,用于获取用户与服务器之间的网络流量,并对所述网络流量进行解析,以获取流量内容;
所述检测模块还用于识别所述流量内容,获取所述流量内容的流量特征,将所述流量特征与所述数据库进行匹配检测,并获取相似度比率;所述告警模块还用于在所述相似度比率大于预设比率的情况下,生成用于指示所述流量内容不合规的流量告警数据。
第三方面,本申请实施例提供了一种基于深度学习的自动化识别网站的方法,方法包括:
获取用户与服务器之间的网络流量,并对网络流量进行解析,以获取流量内容;
识别流量内容,获取流量内容的流量特征,将流量特征与数据库进行匹配检测,并获取相似度比率;其中,数据库中设有不合规内容特征;
在相似度比率大于预设比率的情况下,生成用于指示流量内容不合规的流量告警数据。
第四方面,本申请实施例提供了一种基于深度学习的自动化识别网站的系统,其特征在于,系统包括:分光器和中央处理器;
分光器,用于获取用户和服务器之间的网络流量;
中央处理器,用于对网络流量进行解析,以获取流量内容,并识别流量内容,获取流量内容的流量特征,将流量特征与数据库进行匹配检测,并获取相似度比率,且在相似度比率大于预设比率的情况下,生成用于指示流量内容不合规的流量告警数据;其中,数据库中设有不合规内容特征。
第五方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的基于深度学习的自动化识别网站的方法。
相比于相关技术,本申请实施例提供的一种基于深度学习的自动化识别网站的方法,通过对网页进行爬取,并截图以生成爬取图片,识别所述爬取图片,以获取所述爬取图片的爬取特征,将所述爬取特征与预设的数据库进行匹配检测,以获取所述爬取图片的相似度比率,其中,所述数据库中设有不合规内容特征,在所述相似度比率大于预设比率的情况下,生成用于指示所述网页不合规的网页告警数据,解决了相关技术中通过网站漏洞扫描产品检测网站中的不合规内容,存在误报率高的问题,降低不合规内容的误报率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的基于深度学习的自动化识别网站的方法的流程图一;
图2是根据本申请实施例的基于深度学习的自动化识别网站的方法的流程图二;
图3是根据本申请实施例的基于深度学习的自动化识别网站的方法的流程图三;
图4是根据本申请实施例的基于深度学习的自动化识别网站的方法的流程图四;
图5是根据本申请实施例的基于深度学习的自动化识别网站的方法的流程图五;
图6是根据本申请实施例的基于深度学习的自动化识别网站的装置的结构框图;
图7是根据本申请实施例的基于深度学习的自动化识别网站的装置的另一结构框图;
图8是根据本申请实施例的基于深度学习的自动化识别网站的另一方法的流程图;
图9是根据本申请实施例的基于深度学习的自动化识别网站的系统的结构框图;
图10是根据本申请实施例的计算机设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本申请提供的基于深度学习的自动化识别网站的方法,应用于互联网数据安全问题的检测中,可以识别黄色、赌博、毒品、涉政类网站,通过对网页进行爬取,并截图以生成爬取图片,识别爬取图片,以获取爬取图片的爬取特征,将爬取特征与预设的数据库进行匹配检测,以获取爬取图片的相似度比率;其中,数据库中设有不合规内容特征;在爬取图片是黄色、赌博、毒品或者涉政类的相似度比率大于预设比率的情况下,生成用于指示网页不合规的网页告警数据,可帮助监管单位对网站进行内容安全合规性检查,以及帮助被监管单位降低内容违规风险。
本实施例提供了一种基于深度学习的自动化识别网站的方法,图1是根据本申请实施例的基于深度学习的自动化识别网站的方法的流程图一,如图1所示,该方法包括如下步骤:
步骤S101,对网页进行爬取,并截图以生成爬取图片。针对已发布的网页,通过web爬虫进行爬取,并截图以得到当前网页的爬取图片。
步骤S102,识别爬取图片,以获取爬取图片的爬取特征,将爬取特征与预设的数据库进行匹配检测,以获取爬取图片的相似度比率;其中,数据库中设有不合规内容特征。
需要说明的是,数据库可以理解为是后台特征库,后台特征库是基于深度学习对大量不合规内容进行分析后所存储的不合规内容特征;识别爬取图片是依托人工智能建模技术,对识别模型进行训练,以使得识别模型可以尽可能准确提取爬取图片的爬取特征,且识别模型中可以用光学字符识别技术(Optical Character Recognition,简称OCR)来识别爬取图片;通过将爬取特征与数据库进行匹配,来得知当前爬取图片中的内容是不合规内容的相似度比率。
步骤S103,在相似度比率大于预设比率的情况下,生成用于指示网页不合规的网页告警数据。
其中,预设比率可以是80%,也就是只要当前爬取图片中有不合规内容的80%,也就是发明截图中特征与后台特征库相似度满足,则认为当前网页内容异常,也就是不合规网页,例如,一种情况可以是,本地所存储的相似度比率大于80%的违规内容,另一情况可以是,管理员直接在网站后台上传相似度比率大于80%的违规内容。需要说明的是,用于指示网页不合规的网页告警数据,可以是用于指示监管部门当前存在异常网页的信号。
通过上述步骤S101至步骤S103,通过爬虫直接对web页面进行爬取,并对所爬取的截图进行识别、检测,若发现截图中的爬取特征与后台特征库中的不合规特征相似度满足,则认为网页内容异常,有效提高不合规网页检测正确率,解决了相关技术中通过网站漏洞扫描产品检测网站中的不合规内容,存在误报率高的问题,降低不合规内容的误报率,有效帮助监管单位进行内容安全合规性检查,以及有效帮助被监管单位降低内容违规风险。
在其中一些实施例中,图2是根据本申请实施例的基于深度学习的自动化识别网站的方法的流程图二,如图1所示,在爬取网页,以获取网页的爬取内容之后,该方法还包括如下步骤:
步骤S201,获取用户与服务器之间的网络流量,并对网络流量进行解析,以获取流量内容。
其中,可通过分光器或者端口镜像获取用户业务网络和运营商骨干网络之间的网络流量,可以是运营商骨干网络向用户业务网络传输的,也可以是用户业务网络向运营商骨干网络传输,也可以是两种均有,在本实施例中,可以理解为网络流量包含了两者,例如,分光器复制了介于用户业务网络和运营商骨干网络之间的网络流量,并通过流量解析设备对所复制的网络流量进行解析,使得网络流量中的文件得以还原,例如,图片、文本、视频等。
步骤S202,识别流量内容,获取流量内容的流量特征,将流量特征与数据库进行匹配检测,并获取相似度比率。需要说明的是,识别流量内容并获取相似度比率同步骤S102相同,且检测模型支持图片、视频、文本、语音等对象的检测。
步骤S203,在相似度比率大于预设比率的情况下,生成用于指示流量内容不合规的流量告警数据。
通过上述步骤S201至步骤S203,对于一些未知域名,可以主动去分析网页内容是否违规,这是属于主动数据采集,对于内部流量,可以对流量中的图片数据进行提取,这是属于被动数据采集,将主动数据采集和被动数据采集相结合,进一步降低不合规内容误报率。
在其中一些实施例中,图3是根据本申请实施例的基于深度学习的自动化识别网站的方法的流程图三,如图3所示,在识别爬取图片,获取爬取图片的爬虫特征之前,该方法还包括如下步骤:
步骤S301,识别爬取图片的爬取类型,在爬取类型与预设的检测类型匹配的情况下,识别爬取图片以获取爬虫特征。例如,爬取图片可以是涉黄类型、涉赌类型、涉毒类型、涉政类型中的任意一种内容类型,也可以是涉黄类型、涉赌类型、涉毒类型、涉政类型中的多种内容类型,在获取爬取图片的爬虫特征前,先确定该爬取图片中所涉及的内容类型。
通过上述步骤S301,在识别爬取图片,获取爬取图片的爬虫特征之前,先确定该爬取图片所涉及内容中的爬虫类型,便于后期识别该爬虫图片特征时,采用与爬虫类型对应的检测类型,进而提高识别爬虫图片特征的准确度。
在其中一些实施例中,图4是根据本申请实施例的基于深度学习的自动化识别网站的方法的流程图四,如图4所示,爬取网页,并截取网页的图片,以获取网页的爬取图片之前,该方法还包括如下步骤:
步骤S401,配置检测类型,其中检测类型包括以下至少之一:涉黄检测类型、涉赌检测类型、涉毒检测类型、涉政检测类型。
通过步骤S401,配置检测类型,使得该设备对爬虫图片的识别检测,受限在涉黄检测类型、涉赌检测类型、涉毒检测类型、涉政检测类型中,进而使得对涉黄、涉赌、涉毒、涉政的内容,识别检测精度高。
在其中一些实施例中,在相似度比率大于预设比率的情况下,基于深度学习的自动化识别网站的方法还包括:将爬虫图片,以及与爬虫图片相对应的爬虫类型加载于网页告警数据中。将爬虫图片,以及与爬虫图片相对应的爬虫类型加载于网页告警数据中,便于监管部门在收到告警信号的同时,可进一步对该异常网页进行取证。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。例如,图5是根据本申请实施例的基于深度学习的自动化识别网站的方法的流程图五,如图5所示,是将图2中的步骤进行顺序上的改变,先执行步骤S201至步骤S203,然后是步骤S101至步骤S103,且需要说明的是,在实际实用的过程中,步骤S201至步骤S203,步骤S101至步骤S103可以是独立的,计算机系统中可以同时运行步骤S101至步骤S103,步骤S201至步骤S203。
本实施例还提供了一种基于深度学习的自动化识别网站的装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图6是根据本申请实施例的基于深度学习的自动化识别网站的装置的结构框图,如图6所示,该装置包括:爬虫模块60、检测模块61和网页告警模块62;
爬虫模块60,用于根据爬虫算法对网页进行爬取,并截图以生成爬取图片;
检测模块61,用于识别爬取图片,以获取爬取图片的爬取特征,将爬取特征与预设的数据库进行匹配检测,以获取爬取图片的相似度比率;其中,数据库中设有不合规内容特征;
告警模块62,用于在相似度比率大于预设比率的情况下,生成用于指示网页不合规的网页告警数据。
通过上述装置,通过爬虫模块60直接对web页面进行爬取,检测模块61对所爬取的截图进行识别、检测,若发现截图中的爬取特征与后台特征库中的不合规特征相似度满足,则认为网页内容异常,有效提高不合规网页检测正确率,解决了相关技术中通过网站漏洞扫描产品检测网站中的不合规内容,存在误报率高的问题,降低不合规内容的误报率,有效帮助监管单位进行内容安全合规性检查,以及有效帮助被监管单位降低内容违规风险。
在其中一些实施例中,图7是根据本申请实施例的基于深度学习的自动化识别网站的装置的另一结构框图,如图7所示,该装置还包括:网络流量获取模块70;
网络流量获取模块70,用于获取用户与服务器之间的网络流量,并对网络流量进行解析,以获取流量内容;检测模块61还用于识别流量内容,获取流量内容的流量特征,将流量特征与数据库进行匹配检测,并获取相似度比率;告警模块62还用于在相似度比率大于预设比率的情况下,生成用于指示流量内容不合规的流量告警数据。
通过上述的网络流量获取模块70,对于一些未知域名,可以主动去分析网页内容是否违规,这是属于主动数据采集,对于内部流量,可以对流量中的图片数据进行提取,这是属于被动数据采集,将主动数据采集和被动数据采集相结合,进一步降低不合规内容误报率。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
本实施例提供了一种基于深度学习的自动化识别网站的方法,图8是根据本申请实施例的基于深度学习的自动化识别网站的另一方法的流程图,如图8所示,该方法包括如下步骤:
步骤S801,获取用户与服务器之间的网络流量,并对网络流量进行解析,以获取流量内容;其中,可通过分光器或者端口镜像获取用户业务网络和运营商骨干网络之间的网络流量,可以是运营商骨干网络向用户业务网络传输的,也可以是用户业务网络向运营商骨干网络传输,也可以是两种均有,在本实施例中,可以理解为网络流量包含了两者,例如,分光器复制了介于用户业务网络和运营商骨干网络之间的网络流量,并通过流量解析设备对所复制的网络流量进行解析,使得网络流量中的文件得以还原,例如,图片、文本、视频等。
步骤S802,识别流量内容,获取流量内容的流量特征,将流量特征与数据库进行匹配检测,并获取相似度比率;其中,数据库中设有不合规内容特征;
步骤S803,在相似度比率大于预设比率的情况下,生成用于指示流量内容不合规的流量告警数据。
通过上述步骤S801至步骤S803,对网络流量进行解析,可获取流量内容,并通过对流量内容进行识别、检测,若发现流量内容中的流量特征与后台特征库中的不合规特征相似度满足,则认为流量内容异常,有效提高不合规网络流量检测正确率,解决了相关技术中通过网站漏洞扫描产品检测网站中的不合规内容,存在误报率高的问题,降低不合规内容的误报率,有效帮助监管单位进行内容安全合规性检查,以及有效帮助被监管单位降低内容违规风险。
本申请还提供了一种基于深度学习的自动化识别网站的系统,图9是根据本申请实施例的基于深度学习的自动化识别网站的系统的结构框图,如图9所示,该系统包括分光器90和中央处理器91,通过分光器90获取用户和服务器之间的网络流量,中央处理器91对网络流量进行解析,以获取流量内容,并识别流量内容,获取流量内容的流量特征,将流量特征与数据库进行匹配检测,并获取相似度比率,且在相似度比率大于预设比率的情况下,生成用于指示流量内容不合规的流量告警数据。
中央处理器91对于一些未知域名,可以主动去分析网页内容是否违规,这是属于主动数据采集,还可以从获取的网络流量中,对网络流量中的图片数据进行提取,这是属于被动数据采集,将主动数据采集和被动数据采集相结合,进一步降低不合规内容误报率。
在一些实施例中,中央处理器91还用于对网页进行爬取,并截图以生成爬取图片,识别爬取图片,以获取爬取图片的爬取特征,将爬取特征与预设的数据库进行匹配检测,以获取爬取图片的相似度比率;其中,数据库中设有不合规内容特征,在相似度比率大于预设比率的情况下,生成用于指示网页不合规的网页告警数据。
在一些实施例中,中央处理器91执行时还可实现上述各实施例提供的基于深度学习的自动化识别网站的方法中的步骤,在这里不再赘述。
另外,结合图1或者图8描述的本申请实施例的基于深度学习的自动化识别网站的方法可以由计算机设备来实现。计算机设备可以包括处理器以及存储有计算机程序指令的存储器。
具体地,上述处理器可以包括中央处理器(CPU),或者特定集成电路(ApplicationSpecific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器可在数据处理装置的内部或外部。在特定实施例中,存储器是非易失性(Non-Volatile)存储器。在特定实施例中,存储器包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(Random AccessMemory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器所执行的可能的计算机程序指令。
处理器通过读取并执行存储器中存储的计算机程序指令,以实现上述实施例中的任意一种基于深度学习的自动化识别网站的方法。
在其中一些实施例中,计算机设备还可包括通信接口103和总线100,图10是根据本申请实施例的计算机设备的硬件结构示意图,如图10所示,处理器101、存储器102、通信接口103通过总线100连接并完成相互间的通信。
通信接口103用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信接口103还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线100包括硬件、软件或两者,将计算机设备的部件彼此耦接在一起。总线100包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线100可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(Front Side Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽互连、低引脚数(LowPin Count,简称为LPC)总线、存储器总线、微信道架构(Micro Channel Architecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial Advanced TechnologyAttachment,简称为SATA)总线、视频电子标准协会局部(Video Electronics StandardsAssociation Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线100可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
另外,结合上述实施例中的基于深度学习的自动化识别网站的方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意基于深度学习的自动化识别网站的方法。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于深度学习的自动化识别网站的方法,其特征在于,所述方法包括:
对网页进行爬取,并截图以生成爬取图片;
识别所述爬取图片,以获取所述爬取图片的爬取特征,将所述爬取特征与预设的数据库进行匹配检测,以获取所述爬取图片的相似度比率;其中,所述数据库中设有不合规内容特征;
在所述相似度比率大于预设比率的情况下,生成用于指示所述网页不合规的网页告警数据。
2.根据权利要求1所述的方法,其特征在于,所述爬取网页,以获取所述网页的爬取内容之后,所述方法还包括:
获取用户与服务器之间的网络流量,并对所述网络流量进行解析,以获取流量内容;
识别所述流量内容,获取所述流量内容的流量特征,将所述流量特征与所述数据库进行匹配检测,并获取相似度比率;
在所述相似度比率大于预设比率的情况下,生成用于指示所述流量内容不合规的流量告警数据。
3.根据权利要求1所述的方法,其特征在于,所述识别所述爬取图片,获取所述爬取图片的爬虫特征之前,所述方法还包括:
识别所述爬取图片的爬取类型,在所述爬取类型与预设的检测类型匹配的情况下,识别所述爬取图片以获取所述爬虫特征。
4.根据权利要求3所述的方法,其特征在于,在所述相似度比率大于预设比率的情况下,所述方法还包括:
将所述爬虫图片,以及与所述爬虫图片相对应的爬虫类型加载于所述网页告警数据中。
5.根据权利要求3所述的方法,其特征在于,所述爬取网页,并截取所述网页的图片,以获取所述网页的爬取图片之前,所述方法还包括:
配置所述检测类型,其中所述检测类型包括以下至少之一:涉黄检测类型、涉赌检测类型、涉毒检测类型、涉政检测类型。
6.一种基于深度学习的自动化识别网站的装置,其特征在于,所述装置包括:爬虫模块、检测模块和网页告警模块;
所述爬虫模块,用于根据爬虫算法对网页进行爬取,并截图以生成爬取图片;
所述检测模块,用于识别所述爬取图片,以获取所述爬取图片的爬取特征,将所述爬取特征与预设的数据库进行匹配检测,以获取所述爬取图片的相似度比率;其中,所述数据库中设有不合规内容特征;
所述告警模块,用于在所述相似度比率大于预设比率的情况下,生成用于指示所述网页不合规的网页告警数据。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:网络流量获取模块;
所述网络流量获取模块,用于获取用户与服务器之间的网络流量,并对所述网络流量进行解析,以获取流量内容;
所述检测模块还用于识别所述流量内容,获取所述流量内容的流量特征,将所述流量特征与所述数据库进行匹配检测,并获取相似度比率;所述告警模块还用于在所述相似度比率大于预设比率的情况下,生成用于指示所述流量内容不合规的流量告警数据。
8.一种基于深度学习的自动化识别网站的方法,其特征在于,所述方法包括:
获取用户与服务器之间的网络流量,并对所述网络流量进行解析,以获取流量内容;
识别所述流量内容,获取所述流量内容的流量特征,将所述流量特征与数据库进行匹配检测,并获取相似度比率;其中,所述数据库中设有不合规内容特征;
在所述相似度比率大于预设比率的情况下,生成用于指示所述流量内容不合规的流量告警数据。
9.一种基于深度学习的自动化识别网站的系统,其特征在于,所述系统包括:分光器和中央处理器;
所述分光器,用于获取用户和服务器之间的网络流量;
所述中央处理器,用于对网络流量进行解析,以获取流量内容,并识别流量内容,获取流量内容的流量特征,将流量特征与数据库进行匹配检测,并获取相似度比率,且在相似度比率大于预设比率的情况下,生成用于指示流量内容不合规的流量告警数据;其中,所述数据库中设有不合规内容特征。
10.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的基于深度学习的自动化识别网站的方法。
CN202010503052.6A 2020-06-05 2020-06-05 一种基于深度学习的自动化识别网站的方法和计算机设备 Pending CN111651658A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010503052.6A CN111651658A (zh) 2020-06-05 2020-06-05 一种基于深度学习的自动化识别网站的方法和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010503052.6A CN111651658A (zh) 2020-06-05 2020-06-05 一种基于深度学习的自动化识别网站的方法和计算机设备

Publications (1)

Publication Number Publication Date
CN111651658A true CN111651658A (zh) 2020-09-11

Family

ID=72349961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010503052.6A Pending CN111651658A (zh) 2020-06-05 2020-06-05 一种基于深度学习的自动化识别网站的方法和计算机设备

Country Status (1)

Country Link
CN (1) CN111651658A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733057A (zh) * 2020-11-27 2021-04-30 杭州安恒信息安全技术有限公司 网络内容安全检测方法、电子装置和存储介质
CN114760086A (zh) * 2022-01-24 2022-07-15 北京中交兴路信息科技有限公司 一种网站页面合规性检测方法、装置、存储介质及终端

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101800674A (zh) * 2010-02-21 2010-08-11 浪潮通信信息系统有限公司 基于分流定向的旁路式流量检测模型
CN101815015A (zh) * 2010-02-22 2010-08-25 浪潮通信信息系统有限公司 面向内容的网络流量快速安检引擎
CN102004764A (zh) * 2010-11-04 2011-04-06 中国科学院计算机网络信息中心 互联网不良信息检测方法以及系统
CN106055571A (zh) * 2016-05-19 2016-10-26 乐视控股(北京)有限公司 网站识别方法及系统
CN106169071A (zh) * 2016-07-05 2016-11-30 厦门理工学院 一种基于动态人脸与胸卡识别的考勤方法及系统
CN107547555A (zh) * 2017-09-11 2018-01-05 北京匠数科技有限公司 一种网站安全监测方法及装置
CN107862050A (zh) * 2017-11-08 2018-03-30 国网四川省电力公司信息通信公司 一种网站内容安全检测系统及方法
CN108052523A (zh) * 2017-11-03 2018-05-18 中国互联网络信息中心 基于卷积神经网络的赌博网站识别方法和系统
CN108206769A (zh) * 2017-12-26 2018-06-26 中国移动通信集团江苏有限公司 过滤网络质量告警的方法、装置、设备和介质
CN109214275A (zh) * 2018-07-19 2019-01-15 中国科学院信息工程研究所 一种基于深度学习的低俗图片识别方法
CN110210484A (zh) * 2019-04-19 2019-09-06 成都三零凯天通信实业有限公司 基于深度学习的视图像不良文本检测识别的系统与方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101800674A (zh) * 2010-02-21 2010-08-11 浪潮通信信息系统有限公司 基于分流定向的旁路式流量检测模型
CN101815015A (zh) * 2010-02-22 2010-08-25 浪潮通信信息系统有限公司 面向内容的网络流量快速安检引擎
CN102004764A (zh) * 2010-11-04 2011-04-06 中国科学院计算机网络信息中心 互联网不良信息检测方法以及系统
CN106055571A (zh) * 2016-05-19 2016-10-26 乐视控股(北京)有限公司 网站识别方法及系统
CN106169071A (zh) * 2016-07-05 2016-11-30 厦门理工学院 一种基于动态人脸与胸卡识别的考勤方法及系统
CN107547555A (zh) * 2017-09-11 2018-01-05 北京匠数科技有限公司 一种网站安全监测方法及装置
CN108052523A (zh) * 2017-11-03 2018-05-18 中国互联网络信息中心 基于卷积神经网络的赌博网站识别方法和系统
CN107862050A (zh) * 2017-11-08 2018-03-30 国网四川省电力公司信息通信公司 一种网站内容安全检测系统及方法
CN108206769A (zh) * 2017-12-26 2018-06-26 中国移动通信集团江苏有限公司 过滤网络质量告警的方法、装置、设备和介质
CN109214275A (zh) * 2018-07-19 2019-01-15 中国科学院信息工程研究所 一种基于深度学习的低俗图片识别方法
CN110210484A (zh) * 2019-04-19 2019-09-06 成都三零凯天通信实业有限公司 基于深度学习的视图像不良文本检测识别的系统与方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周亚东等: "e-Learning 中不良网络内容的识别与阻断技术", 中国科技论文在线, vol. 6, no. 10, pages 766 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733057A (zh) * 2020-11-27 2021-04-30 杭州安恒信息安全技术有限公司 网络内容安全检测方法、电子装置和存储介质
CN114760086A (zh) * 2022-01-24 2022-07-15 北京中交兴路信息科技有限公司 一种网站页面合规性检测方法、装置、存储介质及终端
CN114760086B (zh) * 2022-01-24 2023-12-05 北京中交兴路信息科技有限公司 一种网站页面合规性检测方法、装置、存储介质及终端

Similar Documents

Publication Publication Date Title
CN107547555B (zh) 一种网站安全监测方法及装置
CN108763928B (zh) 一种开源软件漏洞分析方法、装置和存储介质
US8838992B1 (en) Identification of normal scripts in computer systems
CN110275958B (zh) 网站信息识别方法、装置和电子设备
CN110929264B (zh) 漏洞检测方法、装置、电子设备及可读存储介质
CN106295333B (zh) 用于检测恶意代码的方法和系统
CN110413908A (zh) 基于网站内容对统一资源定位符进行分类的方法和装置
US11797668B2 (en) Sample data generation apparatus, sample data generation method, and computer readable medium
CN103685307A (zh) 基于特征库检测钓鱼欺诈网页的方法及系统、客户端、服务器
US20220030029A1 (en) Phishing Protection Methods and Systems
EP3051767A1 (en) Method and apparatus for automatically identifying signature of malicious traffic using latent dirichlet allocation
CN109145030B (zh) 一种异常数据访问的检测方法和装置
CN111651658A (zh) 一种基于深度学习的自动化识别网站的方法和计算机设备
CN111783159A (zh) 网页篡改的验证方法、装置、计算机设备和存储介质
CN114826639B (zh) 基于函数调用链跟踪的应用攻击检测方法及装置
CN107786529B (zh) 网站的检测方法、装置及系统
US20230179627A1 (en) Learning apparatus, detecting apparatus, learning method, detecting method, learning program, and detecting program
CN118051920A (zh) 一种漏洞验证请求包生成方法、装置、设备及存储介质
CN117197857A (zh) 人脸伪造攻击检测、人脸识别方法、装置和设备
CN115643044A (zh) 数据处理方法、装置、服务器及存储介质
CN116361793A (zh) 代码检测方法、装置、电子设备及存储介质
CN113411332B (zh) 一种cors漏洞检测方法、装置、设备及介质
US12079285B2 (en) Training device, determination device, training method, determination method, training method, and determination program
US12081568B2 (en) Extraction device, extraction method, and extraction program
CN114417349A (zh) 攻击结果判定方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200911