CN112565250B - 一种网站识别方法、装置、设备及存储介质 - Google Patents

一种网站识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112565250B
CN112565250B CN202011399531.4A CN202011399531A CN112565250B CN 112565250 B CN112565250 B CN 112565250B CN 202011399531 A CN202011399531 A CN 202011399531A CN 112565250 B CN112565250 B CN 112565250B
Authority
CN
China
Prior art keywords
website
identified
identification
preset
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011399531.4A
Other languages
English (en)
Other versions
CN112565250A (zh
Inventor
康雅萍
陈熠
胡铁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Inner Mongolia Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Inner Mongolia Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Inner Mongolia Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202011399531.4A priority Critical patent/CN112565250B/zh
Publication of CN112565250A publication Critical patent/CN112565250A/zh
Application granted granted Critical
Publication of CN112565250B publication Critical patent/CN112565250B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种网站识别方法、装置、设备及存储介质。该网站识别方法包括:获取待识别网站的网页;获取网页的第一文本内容和待识别网页截图;提取待识别网页截图的第二文本内容;提取第一文本内容的第一特征向量和第二文本内容的第二特征向量;将第一特征向量输入至第一预设识别模型,得到待识别网站的第一网站识别类型;将第二特征向量输入至第二预设识别模型,得到待识别网站的第二网站识别类型;根据第一网站识别类型和第二网站识别类型,得到待识别网站的目标网站识别类型。采用本申请提供的网站识别方法、装置、设备及存储介质,能够有效提高网站识别结果的准确性,提高网站识别结果的成功率。

Description

一种网站识别方法、装置、设备及存储介质
技术领域
本申请涉及互联网安全技术领域,具体涉及一种网站识别方法、装置、设备及存储介质。
背景技术
钓鱼网站作为一种欺骗用户的虚假网站,可以仿冒真实网站欺骗用户或者窃取访问者提交的账号、密码、资金等私密信息和财产。故而,为了提高用户的私密信息和财产的安全性,如何识别钓鱼网站也变得尤为重要。
现阶段,通常获取待识别网站的网页文本内容,基于该待识别网站的文本内容识别该网站是否是钓鱼网站。但是,现在很多钓鱼网站的网页文本内容会被用JS(JavaScript)加密技术进行加密、或者网站的网页文本内容中会包含有大量正常文本的隐藏DIV(DIVision,图层)。这样,会导致钓鱼网站的一些文本内容无法被获取到,如此,会导致网站识别结果的准确性较低。
发明内容
本申请实施例的目的是提供一种网站识别方法、装置、设备及存储介质,能够解决现有技术中网站识别结果的准确性较低的技术问题。
本申请的技术方案如下:
第一方面,提供一种网站识别方法,包括:
获取待识别网站的网页;
获取网页的第一文本内容和待识别网页截图;
提取待识别网页截图的第二文本内容;
提取第一文本内容的第一特征向量和第二文本内容的第二特征向量;
将第一特征向量输入至第一预设识别模型,得到待识别网站的第一网站识别类型;第一预设识别模型基于网站类型和网站网页的文本内容的特征向量训练得到;
将第二特征向量输入至第二预设识别模型,得到待识别网站的第二网站识别类型;第二预设识别模型基于网站类型和网站网页的网页截图中的文本内容的特征向量训练得到;
根据第一网站识别类型和第二网站识别类型,得到待识别网站的目标网站识别类型。
在一些实施例中,获取待识别网站的网页之前,还包括:
提取用户上网日志中的网站域名;
确定网站域名是否属于预设已识别域名集合;
在网站域名不属于预设已识别域名集合的情况下,将网站域名确定为待识别网站;
获取待识别网站的网页,包括:
控制模拟客户端访问待识别网站的网页。
在一些实施例中,获取网页的第一文本内容,包括:
获取网页的超文本标记语言HTML文件;
将HTML文件确定为第一文本内容。
在一些实施例中,第一预设识别模型包括第一预设子识别模型、第二预设子识别模型中的至少一个;
提取第一文本内容的第一特征向量之前,还包括:
对HTML文件进行分词处理,得到HTML文件的第一词集;
提取第一文本内容的第一特征向量,包括如下至少一项:
加载预设特征词集;基于预设特征词集及第一词集生成第一特征词向量;
加载预设特征词袋;基于预设特征词袋及第一词集生成第一TF-IDF向量;
将第一特征向量输入至第一预设识别模型,得到待识别网站的第一网站识别类型,包括如下至少一项:
将第一特征词向量输入至第一预设子识别模型,得到待识别网站的第一子网站识别类型;第二预设子识别模型为基于网站类型和特征词向量训练得到的SVM;
将第一TF-IDF向量输入至第二预设子识别模型,得到待识别网站的第二子网站识别类型;第二预设子识别模型为基于网站类型和TF-IDF向量训练得到的SVM。
在一些实施例中,第二网站识别类型包括第三子网站识别类型、第四子网站识别类型中的至少一个;
提取第二文本内容的第二特征向量之前,还包括:
对第二文本内容进行分词处理,得到待识别网页截图的第二词集;
提取第二文本内容的第二特征向量,包括如下至少一项:
加载预设特征词集;基于预设特征词集及第二词集生成第二特征词向量;
加载预设特征词袋;基于预设特征词袋及第二词集生成第二TF-IDF向量;
将第二特征向量输入至第二预设识别模型,得到待识别网站的第二网站识别类型,包括如下至少一项:
将第二特征词向量输入第三预设子识别模型,得到待识别网站的第三子网站识别类型;第三预设子识别模型为基于网站类型和特征词向量训练得到的支持向量机SVM;
将第二TF-IDF向量输入至第四预设子识别模型,得到待识别网站的第四子网站识别类型;第四预设子识别模型为基于网站类型和TF-IDF向量训练得到的SVM。
在一些实施例中,对HTML文件进行分词处理,得到HTML文件的第一词集之前,还包括:
对HTML文件进行去HTML标签处理,得到去标签后的HTML文件;
对HTML文件进行分词处理,得到HTML文件的第一词集,包括:
对去标签后的HTML文件进行分词处理,得到HTML文件的第一词集。
在一些实施例中,根据第一网站识别类型和第二网站识别类型,得到待识别网站的目标网站识别类型,包括:
将第一网站识别类型和第二网站识别类型输入至预设统计模型,得到待识别网站的目标网站识别类型。
第二方面,提供了一种网站识别装置,包括:
第一获取模块,用于获取待识别网站的网页;
第二获取模块,用于获取网页的第一文本内容和待识别网页截图;
第一提取模块,用于提取待识别网页截图的第二文本内容;
第二提取模块,用于提取第一文本内容的第一特征向量和第二文本内容的第二特征向量;
第一识别模块,用于将第一特征向量输入至第一预设识别模型,得到待识别网站的第一网站识别类型;第一预设识别模型基于网站类型和网站网页的文本内容的特征向量训练得到;
第二识别模块,用于将第二特征向量输入至第二预设识别模型,得到待识别网站的第二网站识别类型;第二预设识别模型基于网站类型和网站网页的网页截图中的文本内容的特征向量训练得到;
第三识别模块,用于根据第一网站识别类型和第二网站识别类型,得到待识别网站的目标网站识别类型。
第三方面,提供了一种网站识别设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,处理器被配置为执行指令,以实现如第一方面任一项的网站识别方法。
第四方面,提供了一种存储介质,其特征在于,当存储介质中的指令由网站识别装置或者网站识别设备的处理器执行时,以使网站识别装置或者网站识别设备实现如第一方面任一项的网站识别方法。
本申请的实施例提供的技术方案至少带来以下有益效果:
本申请实施例通过获取待识别网站的网页的第一文本内容和网页的待识别网页截图,将提取的第一文本内容的第一特征向量输入至第一预设识别模型得到第一网站识别类型,将待识别网页截图的第二文本内容的第二特征向量输入至第二预设识别模型得到第二网站识别类型,再基于第一网站识别类型和第二网站识别类型得到待识别网站的目标网站识别类型。这样,对于采用加密处理过的文本内容或者隐藏DIV,待识别网页截图仍能截取到对应的图像。如此,基于网页的第一文本内容和网页截图进行网站识别,可以避免由于无法获取网页的文本内容导致的识别错误,从而可以有效提高网站识别结果的准确性。而且,还可以有效减少识别失败的情况,有效提高网站识别结果的成功率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理,并不构成对本申请的不当限定。
图1是本申请实施例提供的一种网站识别方法的流程示意图;
图2是本申请实施例提供的一种OCR识别提取待识别网页截图的第二文本内容的流程示意图;
图3是本申请实施例提供的一种通过增量域名筛选的方式确定待识别网站的流程示意图;
图4是本申请实施例提供的一种安全事件处理的流程示意图;
图5是本申请实施例提供的一种基于第一特征词向量得到网站识别类型的流程示意图;
图6是本申请实施例提供的一种基于第一TF-IDF向量得到网站识别类型的流程示意图;
图7是本申请实施例提供的一种基于第二文本内容得到网站识别类型的流程示意图;
图8是本申请实施例提供的一种基于第二文本内容得到网站识别类型的流程示意图;
图9是本申请实施例提供的一种网站识别方法的流程示意图;
图10是本申请实施例提供的一种网站识别装置的结构示意图;
图11是本申请实施例提供的一种网站识别设备的结构示意图。
具体实施方式
为了使本领域普通人员更好地理解本申请的技术方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
基于背景技术可知,现有技术中,基于待识别网站的文本内容识别该网站是否是钓鱼网站,会导致使用了JS加密技术和包含有隐藏DIV的钓鱼网站的一些文本内容无法被获取到,从而导致网站识别结果的准确性较低。
具体的,钓鱼网站的网页的文本内容是关键的特征来源。但是,对于采用了网页JS脚本加密技术的钓鱼网站,由于JS脚本加密后的文本内容无法被获取到,故而基于获取的文本内容进行识别,可能会出现钓鱼网站无法被识别或者识别错误的情况。或者,对于网页中使用包含大量正常网页文本的隐藏DIV(用来干扰分类识别算法)的钓鱼网站,由于隐藏DIV无法被获取到,故而,基于获取到的文本内容进行识别,依旧会出现钓鱼网站识的情况。
为了解决上述技术问题,本申请实施例提供了一种网站识别方法、装置、设备及存储介质,可以通过获取待识别网站的网页的第一文本内容和网页的待识别网页截图,将提取的第一文本内容的第一特征向量输入至第一预设识别模型得到第一网站识别类型,将待识别网页截图的第二文本内容的第二特征向量输入至第二预设识别模型得到第二网站识别类型,再基于第一网站识别类型和第二网站识别类型得到待识别网站的目标网站识别类型。这样,对于采用加密处理过的文本内容或者隐藏DIV,待识别网页截图仍能截取到对应的图像。如此,基于网页的第一文本内容和网页截图进行网站识别,可以避免由于无法获取网页的文本内容导致的识别错误,从而可以有效提高网站识别结果的准确性。而且,还可以有效减少识别失败的情况,有效提高网站识别结果的成功率。
下面对本申请实施例提供的网站识别方法进行说明。
图1示出了本申请实施例提供的一种网站识别方法的流程示意图,如图1所示,该网站识别方法可以包括如下步骤:
S110,获取待识别网站的网页。
作为一个示例,在识别某个或某几个待识别网站时,可以获取待识别网站的网页。如可以是通过爬虫处理,访问待识别网站,以实现待识别网站的网页获取。
如可以基于计算机程序设计语言Python(蟒蛇)、WEB(World Wide,全球广域网)自动化工具Selenium、浏览器驱动WebDriver、Chrome插件、以及Xvfb(X virtual framebuffer,虚拟帧缓冲区)框架,爬取待识别网站的网页,即可以模拟手机、电脑等终端的浏览器访问待识别网站,获取待识别网站的网页。
而且,Python+WEB+Selenium+WebDriver+Chrome+Xvfb框架能在Linux环境下运行,能够采用多进程并发部署方式,即可以同时识别多个待识别网站,从而可以大大提高网站识别方法的识别数量和识别效率。
S120,获取网页的第一文本内容和待识别网页截图。
其中,第一文本内容可以是从待识别网站的网页中,获取的待识别网站的文本内容。
作为一个示例,在获取到待识别网站的网页后,可以获取待识别网站的网页的第一文本内容,并可以对待识别网站的网页进行截图处理,得到待识别网站的待识别网页截图。可以理解的是,由于待识别网页截图是直接对网页界面进行截图得到的,故而,待识别网页截图中包括有待识别网站的网页中的所有内容,如文本、图像、JS加密后无法直接获取到的文本内容,以及隐藏DIV等内容。
S130,提取待识别网页截图的第二文本内容。
作为一个示例,在获取到网页的待识别网页截图之后,可以提取该待识别网页截图的文本内容。可以理解的是,由于待识别网页截图中包括有待识别网站的网页中的所有内容,如文本、图像、JS加密后无法直接获取到的文本内容,以及隐藏DIV等内容,故而,提取待识别网页截图得到的第二文本内容,通常可以包括待识别网站的网页的所有内容。
作为一个具体的示例,可以采用光学字符识别(Optical CharacterRecognition,OCR)识别方法,提取待识别网页截图的第二文本内容。
参见图2,OCR识别提取待识别网页截图的第二文本内容的具体实现方法可以为:
检测到爬虫生成的截图文件未处理后,即获取到网页的待识别网页截图后,可以通过Tesseract框架对待识别网页截图进行OCR识别,读取待识别网页截图中的文本内容,即第二文本内容,并保存到文本文件中,作为后续网站识别的数据来源。
S140,提取第一文本内容的第一特征向量和第二文本内容的第二特征向量。
其中,第一特征向量可以是基于第一文本内容提取得到的特征向量。第二特征向量可以是基于第二文本内容提取得到的特征向量。特征向量可以用于表征文本内容的特征,如可以是特征词的出现次数、频率等。
作为一个示例,在提取到待识别网页截图的第二文本内容之后,可以提取第一文本内容的特征向量,即第一特征向量,该第一特征向量可以用于表征第一文本内容的特征,如可以是第一文本内容中特征词的出现次数、频率等。并可以提取第二文本内容的特征向量,即第二特征向量,该第二特征向量可以用于表征第二文本内容的特征,如可以是第一文本内容中特征词的出现次数、频率等。
S150,将第一特征向量输入至第一预设识别模型,得到待识别网站的第一网站识别类型。
其中,第一预设识别模型可以是基于网站类型和网站网页的文本内容的特征向量训练得到的,该模型可以是预先训练好的。
作为一个示例,在提取到第一文本内容的第一特征向量之后,可以将该第一特征向量输入至训练好的第一预设识别模型中。由第一预设识别模型按照训练好的分类算法、逻辑等对第一特征向量进行识别分类,得到第一特征向量对应的网站识别类型,即第一网站识别类型。由于第一特征向量是基于待识别网站的第一文本内容识别得到的,故而,该第一网站识别类型即为待识别网站的第一网站识别类型。如第一网站识别类型可以是正常网站或钓鱼网站等,也可以是具体的网站类型,如对于钓鱼网站来说可以是”仿冒中国移动的钓鱼网站、仿冒某银行的钓鱼网站等。
S160,将第二特征向量输入至第二预设识别模型,得到待识别网站的第二网站识别类型。
其中,第二预设识别模型可以是基于网站类型和网站网页的网页截图中的文本内容的特征向量训练得到的。
作为一个示例,在提取到第二文本内容的第二特征向量之后,可以将该第二特征向量输入至训练好的第二预设识别模型中。由第二预设识别模型按照训练好的分类算法、逻辑等对第二特征向量进行识别分类,得到第二特征向量对应的网站识别类型,即第二网站识别类型。由于第二特征向量是基于待识别网站的第二文本内容识别得到的,故而,该第二网站识别类型即为待识别网站的第二网站识别类型。
S170,根据第一网站识别类型和第二网站识别类型,得到待识别网站的目标网站识别类型。
作为一个示例,在得到第一网站识别类型和第二网站识别类型之后,可以基于第一网站识别类型和第二网站识别类型,得到待识别网站的目标网站识别类型。如可以通过统计、加权、投票等方式。
本申请实施例通过获取待识别网站的网页的第一文本内容和网页的待识别网页截图,将提取的第一文本内容的第一特征向量输入至第一预设识别模型得到第一网站识别类型,将待识别网页截图的第二文本内容的第二特征向量输入至第二预设识别模型得到第二网站识别类型,再基于第一网站识别类型和第二网站识别类型得到待识别网站的目标网站识别类型。这样,对于采用加密处理过的文本内容或者隐藏DIV,待识别网页截图仍能截取到对应的图像。如此,基于网页的第一文本内容和网页截图进行网站识别,可以避免由于无法获取网页的文本内容导致的识别错误,从而可以有效提高网站识别结果的准确性。而且,还可以有效减少识别失败的情况,有效提高网站识别结果的成功率。
在一些实施例中,可以通过增量域名筛选的方式确定待识别网站,相应的,在上述方法S110之前,还可以执行如下步骤:
提取用户上网日志中的网站域名;
确定网站域名是否属于预设已识别域名集合;
在网站域名不属于预设已识别域名集合的情况下,将网站域名确定为待识别网站。
其中,预设已识别域名集合可以是预先设置的已经进行过网站识别的域名集合,该预设已识别域名结合中,可以包括已识别为钓鱼网站的域名集合和已识别过的域名集合。
作为一个示例,在获取待识别网站之前,可以先提取用户上网日志中的网站域名,该网站域名可以是一个也可以是多个,前述网站域名可以来源于运营商、服务商等的系统收集的上网日志。然后,可以获取预设已识别域名集合,将前述提取的用户上网日志中的网站域名与预设已识别域名集合中的网站域名进行比对,以确定前述用户上网日志中的网站域名是否属于预设已识别域名集合,即是否是已识别域名。
在前述提取的用户上网日志中的网站域名不属于预设已识别域名集合的情况下,可以确定前述网站域名未被识别过,即基于上网日志进行增量域名筛选,此时,可以将前述网站域名确定为待识别网站,进行上述S110-S160网站识别过程,并可以将前述网站域名写入预设已识别域名集合。在前述提取的用户上网日志中的网站域名属于预设已识别域名集合的情况下,则可以执行安全事件处理流程,如可以向用户发送安全事件处理,如可以是通过短信的形式向用户发送短信提醒。
作为一个具体的示例,参见图3,首先,可以提取用户的上网日志,提取上网日志中的主机(HOST)字段,并判断HOST字段中的主机名是否为IP地址。如果HOST字段中的主机名为IP地址,则流程结束。如果HOST字段中的主机名不是IP地址,即是网站域名,则可以判断该网站域名是否属于预设已识别域名集合中的已识别为钓鱼网站的域名集合,该已识别为钓鱼网站的域名集合可以是黑名单。作为一个上网日志部分字段的具体示例可以为:
{
MSISDN:138xxxx7890;
HOST:iflow.uczzd.cn,
URL:http://iflow.uczzd.cn/iflow/api/v1/client_aps,
IP:106.11.14.4,
PORT:80,
Context-Type:application/json,
}
其中,MSISDN是指主叫用户为呼叫GSM PLMN中的一个移动用户所需拨的号码,作用同于固定网PSTN号码;是在公共电话网交换网络编号计划中,唯一能识别移动用户的号码。URL是统一资源定位系统(uniform resource locator)。PORT指计算机端口。Context-Type:application/json指上下文类型:应用/JS对象简谱(JavaScript ObjectNotation)。
如果该网站域名属于预设已识别域名集合中已识别为钓鱼网站的域名集合,则可以执行安全事件处理流程,如可以是通过短信的形式向用户发送短信提醒,流程结束。如果该网站域名不属于预设已识别域名集合中已识别为钓鱼网站的域名集合,则可以判断该网站域名是否属于预设已识别域名集合中的已识别过的域名集合。
如果该网站域名属于预设已识别域名集合中的已识别过的域名集合,则流程结束。反之,如果该网站域名不属于预设已识别域名集合中的已识别过的域名集合,则可以将该网站域名确定为待识别的域名,即待识别网站。再执行上述S110-S160网站识别过程,并可以将前述网站域名写入预设已识别域名集合。
这样,通过确定用户上网日志中的网站域名是否属于预设已识别域名集合,在网站域名不属于预设已识别域名集合的情况下,将网站域名确定为待识别网站,以供爬虫模块后续分析,即基于上网日志进行增量域名筛选。如此,一方面,增量域名筛选机制可以大大减少需要分析的网站域名数量,保障在短时间内能够对新增域名进行识别,从而提高网站识别效率。另一方面,全量采集上网日志,涵盖了手机用户上网的全部流量上网日志,可以确保覆盖手机用户可能访问的全部可疑网址,如此可以为有效发现流量日志中的全量可疑域名提供保障,从而可以减少网站漏识别,进而可以提高用户私密信息和资产等信息的安全性。
可以理解的是,参见图4,上述安全事件处理的具体流程可以为:记录该网站域名的访问安全事件日志,分析预设时段内(如当日)是否已向此次欲访问/访问该网站域名的用户发送过短信提醒。如果已发送过,则流程结束。反之,如果未发送过,则通过运营商短信端口向该用户发送钓鱼网站短信提醒,发送完毕后流程结束。这样,基于安全事件处理可以对用户起到提醒和警示作用,从而可以进一步提高用户私密信息和资产等信息的安全性。
在一些实施例中,上述步骤S110的具体实现方式可以如下:
控制模拟客户端访问待识别网站的网页;
获取网页。
作为一个具体的示例,可以通过模拟客户端访问待识别网站,得到待识别网站的网页,实现待识别网站的网页获取。如可以模拟手机浏览器通过无头模式打开待识别网站的域名。这样,由于访问待识别网站时通常会显示出待识别网页的所有内容,故而,通过模拟客户端访问待识别网站获取待识别网站的网页,可以使得获取到的待识别网站的网页内容更完整。如此,可以为网站识别提供更准确、可靠的网页,从而可以进一步提高网站识别结果的准确性。
在一些实施例中,上述步骤S120中获取网页的第一文本内容的具体实现方式可以如下:
获取网页的超文本标记语言HTML文件;
将HTML文件确定为第一文本内容。
作为一个具体的示例,在获取网页的第一文本内容时,可以先读取网页的超文本标记语言(Hyper Text Markup Language,HTML)标签中的字符集charset属性,获取到网页页面的中文编码。然后,再根据前述中文编码,保存网页的HTML文件,将该HTML文件确定为第一文本内容。这样,可以为后续进行网站识别提供数据基础。
在一些实施例中,上述第一预设识别模型可以包括第一预设子识别模型、第二预设子识别模型中的至少一个。
此时,在上述步骤S140中提取第一文本内容的第一特征向量之前,还可以包括如下步骤:
对HTML文件进行分词处理,得到HTML文件的第一词集;
此时,上述步骤S140中提取第一文本内容的第一特征向量之前,还可以包括如下步骤中的至少一个:
加载预设特征词集;基于预设特征词集及第一词集生成第一特征词向量;
加载预设特征词袋;基于预设特征词袋及第一词集生成第一TF-IDF向量;
相应的,上述步骤S150中将第一特征向量输入至第一预设识别模型,得到待识别网站的第一网站识别类型,可以包括如下步骤中的至少一个:
将第一特征词向量输入至第一预设子识别模型,得到待识别网站的第一子网站识别类型;其中,第一预设子识别模型为基于网站类型和特征词向量训练得到的支持向量机(Support Vector Machine,SVM),即HTML文本特征词分类模型,。
将第一TF-IDF向量输入至第二预设子识别模型,得到待识别网站的第二子网站识别类型;其中,第二预设子识别模型为基于网站类型和TF-IDF向量训练得到的SVM。
作为一个示例,在将HTML文件确定为第一文本内容后,可以对HTML文件进行分词处理,得到HTML文件对应的词集,即第一词集。
然后,可以加载预设特征词集,如可以是预先设置的常存在于钓鱼网站的特征词集合。再基于预设特征词集及第一词集生成特征词向量,即第一特征词向量。在得到第一特征词向量之后,可以将第一特征词向量输入至第一预设子识别模型,得到第一特征词向量的网站识别类型,即待识别网站的第一子网站识别类型。
和/或,加载预设特征词袋,如可以是第二预设子识别模型输出的特征词袋(词+词频)的集合。再基于预设特征词袋及第一词集生成词频(Term Frequency,TF)-逆向文件频率(Inverse Document Frequency,IDF)向量,即第一TF-IDF向量,TF-IDF向量主要可以用来估计一个词在一个文档中的重要程度。在得到第一TF-IDF向量之后,可以将第一TF-IDF向量输入至第二预设子识别模型,得到第一TF-IDF向量的网站识别类型,即待识别网站的第二子网站识别类型。
这样,基于第一文本内容得到第一特征词向量和第一TF-IDF向量,再基于第一特征词向量和/或第一TF-IDF向量、第一预设子识别模型和/或第二预设子识别模型,得到第一子网站识别类型和/或第二子网站识别类型。可以为网站识别提供网站识别类型的数据基础,为进一步进行网站识别提供数据支持。
在一些实施例中,上一实施例中,对HTML文件进行分词处理,得到HTML文件的第一词集之前,还可以包括如下步骤:
对HTML文件进行去HTML标签处理,得到去标签后的HTML文件;
此时,上述对HTML文件进行分词处理,得到HTML文件的第一词集的具体实现方式可以为:
对去标签后的HTML文件进行分词处理,得到HTML文件的第一词集。
作为一个示例,在对HTML文件进行分词处理,得到HTML文件的第一词集之前,可以先对HTML文件进行去HTML标签处理,获取中文文本内容,即去标签后的HTML文件。然后,可以对去标签后的HTML文件进行分词处理,得到HTML文件的第一词集。
作为本实施例结合上一实施例的一个具体的示例,参见图5,从对HTML文件分词到得到第一特征词向量的网站识别类型的具体实现方式可以如下:
分析新增域名爬虫保存的HTML结果,即HTML文件,对标安全专家梳理的钓鱼网址的预设特征词集,计算第一特征词向量。再将第一特征词向量输入到训练好的HTML文本特征词分类模型即第一预设子识别模型,输出第一子网站识别类型,如可以是分类结果A。具体流程可以如下:
1、获取新域名的HTML文件,即待识别网站的网页的HTML文件。
2、过滤HTML标签,获取中文文本内容,即对HTML文件进行去HTML标签处理,得到去标签后的HTML文件。
3、对中文文本内容进行分词处理,即对去标签后的HTML文件进行分词处理,得到HTML文件的第一词集。
4、对分词结果去重,获取HTML文件去重后的中文词集,即对HTML文件的第一词集进行去重处理,得到去重后的第一词集。
5、依据人工专家整理的钓鱼网址的特征词集,结合HTML文件的去重后的第一词集,计算特征词向量,即加载预设特征词集;基于预设特征词集及第一词集生成第一特征词向量。
例如,特征词集中有“建设银行”词汇,如果过滤HTML标签后的文本内容有这个词汇,则特征向量对应的属性为1,如果过滤HTML标签后的文本内容没有这个词汇,则特征向量对应的属性为0。
6、以特征词向量为输入,调用基于支持向量机(Support Vector Machine,SVM)算法的特征词分类模型,得到第一个子分类器的结果A,即将第一特征词向量输入至第一预设子识别模型,得到待识别网站的第一子网站识别类型。
7、流程结束。
作为本实施例结合上一实施例的一个具体的示例,参见图6,从对HTML文件分词到得到第一TF-IDF向量的网站识别类型的具体实现方式可以如下:
分析新增域名爬虫保存的HTML结果,即HTML文件,加载HTML文本的TF-IDF分类模型训练时生成的特征词袋(包含了词频属性的特征词集),计算第一TF-IDF向量。再将第一TF-IDF向量输入到训练好的HTML文本TF-IDF分类模型即第二预设子识别模型,输出第二子网站识别类型,如可以是分类结果B。具体流程如下:
1、获取新域名的HTML文件,即待识别网站的网页的HTML文件。
2、过滤HTML标签,获取中文文本内容,即对HTML文件进行去HTML标签处理,得到去标签后的HTML文件。
3、系统对中文文本内容进行分词处理,获取分词结果;
4、加载HTML文本TF-IDF分类模型训练时生成的特征词袋,结合HTML文本分词结果,生成TF-IDF向量,即加载预设特征词袋;基于预设特征词袋及第一词集生成第一TF-IDF向量。
其中,TF的计算公式可以如下:
Figure BDA0002816549400000141
文档集:D={d1,d2,d3,..,dn}。n表示文档集中文档数量。nw,d表示词w在文档d中出现的次数。{wd}表示文档d中的所有词的集合。nu,d表示文档d中各个词出现的次数。分母即为文档d中的总词语数。
2)逆文档频率IDF计算公式:
Figure BDA0002816549400000142
其中,nw表示包含词w的文档数目。
3)综合公式(1)和(2),可以得到TF-IDF:
TF-IDF(w,d)=TF(w,d)*IDF(w,d) (3)
5、以TF-IDF向量为输入,调用基于支持向量机(Support Vector Machine,SVM)算法的TF-IDF向量分类模型,得到第二个子分类器的结果B,即将第一TF-IDF向量输入至第二预设子识别模型,得到待识别网站的第二子网站识别类型
6、流程结束。
在一些实施例中,上述第二网站识别类型可以包括第三子网站识别类型、第四子网站识别类型中的至少一个。相应的,第二预设识别模型可以包括第三预设子识别模型、第四预设子识别模型中的至少一个。
相应的,上述提取第二文本内容的第二特征向量之前,还可以包括如下处理:
对第二文本内容进行分词处理,得到待识别网页截图的第二词集。
此时,上述提取第二文本内容的第二特征向量,可以包括如下步骤中的至少一个:
加载预设特征词集;基于预设特征词集及第二词集生成第二特征词向量;
加载预设特征词袋;基于预设特征词袋及第二词集生成第二TF-IDF向量;
相应的,此时,上述将第二特征向量输入至第二预设识别模型,得到待识别网站的第二网站识别类型,可以包括如下至少一项:
将第二特征词向量输入第三预设子识别模型,得到待识别网站的第三子网站识别类型;其中,第三预设子识别模型为基于网站类型和特征词向量训练得到的支持向量机SVM;
将第二TF-IDF向量输入至第四预设子识别模型,得到待识别网站的第四子网站识别类型;其中,第四预设子识别模型为基于网站类型和TF-IDF向量训练得到的SVM。
作为一个示例,在提取第二文本内容的第二特征向量之前,可以先对第二文本内容进行分词处理,得到第二文本内容的对应的词集,即第二词集,也即待识别网页截图的第二词集。
然后,可以加载预设特征词集,如可以是预先设置的常存在于钓鱼网站的特征词集合。再基于预设特征词集及该第二词集生成特征词向量,即第二特征词向量。在得到第二特征词向量之后,可以将第二特征词向量输入至第三预设子识别模型,得到第二特征词向量的网站识别类型,即待识别网站的第三子网站识别类型。
和/或,加载预设特征词袋,如可以是第三预设子识别模型输出的特征词袋(词+词频)的集合。再基于预设特征词袋及第三词集生成词频(Term Frequency,TF)-逆向文件频率(Inverse Document Frequency,IDF)向量,即第二TF-IDF向量。在得到第二TF-IDF向量之后,可以将第二TF-IDF向量输入至第四预设子识别模型,得到第二TF-IDF向量的网站识别类型,即待识别网站的第四子网站识别类型。
这样,基于第二文本内容得到第二特征词向量和第二TF-IDF向量,再基于第二特征词向量和/或第二TF-IDF向量、第三预设子识别模型和/或第四预设子识别模型,得到第三子网站识别类型和/或第四子网站识别类型。可以为网站识别提供更丰富的网站识别类型的数据基础,为进一步进行网站识别提供数据支持。
作为一个具体的示例,参见图7,上述从对第二文本内容分词到得到第一特征词向量的网站识别类型的具体实现方式可以如下:
与从对HTML文件分词到得到第一特征词向量的网站识别类型的具体实现方式类似,只不过分析来源为基于待识别网页截图提取的第二文本内容。正因为第二文本内容来自待识别网页截图,故而第二预设识别模型可以有效识别使用JS加密网页技术、隐藏DIV干扰技术的钓鱼网址。
分析待识别网页截图的第二文本内容,对标安全专家梳理的钓鱼网址的预设特征词集,计算第二特征词向量。再将第二特征词向量输入到训练好的图片OCR文本特征词分类模型,即第三预设子识别模型,输出第三子网站识别类型,如可以是分类结果C。具体流程如下:
1、获取待分析的图片OCR文本文件,即待识别网页截图的第二文本内容。
2、对图片OCR文本内容进行分词处理,如可以是中文分词处理,即对第二文本内容进行分词处理,得到第二词集。
3、对图片OCR文本分词结果进行去重,即对第二词集进行去重处理,得到去重后的第二词集。
4、对标人工专家整理的钓鱼网址的特征词集,结合图片OCR文件去重后的中文词集,生成特征词向量,即加载预设特征词集,基于预设特征词集及第二词集生成第二特征词向量。
如,特征词集中有“建设银行”词汇,如果去重后的图片OCR文本内容有这个词汇,则特征向量对应的属性为1,如果去重后的图片OCR文本内容没有这个词汇,则特征向量对应的属性为0。
5、以特征向量为输入,调用基于支持向量机(Support Vector Machine,SVM)算法的特征词分类模型,得到第三个子分类器的结果C,即将第二特征词向量输入第三预设子识别模型,得到待识别网站的第三子网站识别类型。其中,第三预设子识别模型为基于网站类型和特征词向量训练得到的支持向量机SVM。
6、流程结束。
作为另一个具体的示例,参见图8,从对第二文本内容分词到得到第二TF-IDF向量的网站识别类型的具体实现方式可以如下:
与上文中的从对HTML文件分词到得到第一TF-IDF向量网站识别类型的具体实现方式类似,只不过分析来源为基于待识别网页截图提取的第二文本内容。分析图片OCR文本,即对第二文本内容进行分词处理,得到待识别网页截图的第二词集。加载图片OCR文本TF-IDF分类模型训练时生成的特征词袋(包含了词频属性的特征词集),即训练第四预设子识别模型时生成的预设特征词袋,即基于预设特征词袋和第二词集计算TF-IDF向量,即第二TF-IDF向量。再将第二TF-IDF向量输入到训练好的图片OCR文本TF-IDF分类模型,输出分类结果D,即将第二TF-IDF向量输入至第四预设子识别模型,得到待识别网站的第四子网站识别类型。具体流程如下:
具体流程如下:
1、获取新域名的图片OCR文本文件,即获取待识别网页截图提取的第二文本内容。
2、对图片OCR文本内容进行中文分词处理,得到分词结果,即对第二文本内容进行分词处理,得到待识别网页截图的第二词集。
3、加载图片OCR文本TF-IDF分类模型训练时生成的特征词袋,结合图片OCR文本分词结果,生成TF-IDF向量,即基于预设特征词袋和第二词集计算第二TF-IDF向量。
4、以TF-IDF向量为输入,调用基于支持向量机(Support Vector Machine,SVM)算法的TF-IDF向量分类模型,得到第四个子分类器的结果D,即将第二TF-IDF向量输入至第四预设子识别模型,得到待识别网站的第四子网站识别类型。
5、流程结束。
在一些实施例中,可以通过预设统计模型得到目标网站识别类型,相应的,上述步骤S170的具体实现方式可以如下:
将第一网站识别类型和第二网站识别类型输入至预设统计模型,得到待识别网站的目标网站识别类型。
其中,预设统计模型可以是预先训练好的,用于基于第一网站识别类型和第二网站识别类型输出待识别网站的目标网站识别类型的模型,如可以是集成学习分类模型等。
目标网站识别类型可以是预设统计模型数据的网站识别类型。
作为一个示例,在得到第一网站识别类型和第二网站识别类型之后,可以将第一网站识别类型和第二网站识别类型输入至预设统计模型中,由预设统计模型按照训练好的分析方法,对第一网站识别类型和第二网站识别类型进行分析,输出待识别网站的目标网站识别类型。如预设统计模型可以通过投票法、加权法等方法进行分析。
另外,在第一网站识别类型包括第一子网站识别类型、第二子网站识别类型,第二网站识别类型包括第三子网站识别类型、第四子网站识别类型的情况下,可以是将第一子网站识别类型、第二子网站识别类型、第三子网站识别类型、第四子网站识别类型输入至预设统计模型中,预设统计模型按照训练好的分析方法,对第一子网站识别类型、第二子网站识别类型、第三子网站识别类型、第四子网站识别类型进行分析,输出待识别网站的目标网站识别类型。
作为一个具体的示例,在得到第一子网站识别类型(如HTML文本特征词分类结果A)、第二子网站识别类型(如HTML文本TF-IDF分类结果B)、第三子网站识别类型(如图片ORC文本TF-IDF分类结果C)、第四子网站识别类型(如图片OCR文本特征词分类结果D)的情况下,可以通过集成学习分类模型进行投票,以票数最多的子网站识别类型作为目标网站识别类型。而且,在得出目标网站识别类型之后,可以将待识别网站标记为已识别网站,并将其写入预设已识别域名集合,如若待识别网站是正常网站则可以写入已识别过的域名集合,若待识别网站是钓鱼网址(比如仿冒工商银行、仿冒中国移动等),则可以写入到已识别为钓鱼网站的域名集合。
这样,通过预设统计模型基于第一网站识别类型和第二网站识别类型,统计得出目标网站识别类型,可以进一步提高网站识别效率。而且,将已识别网站写入预设已识别域名集合,还可以为后续的网站识别提供更丰富的数据基础,从而可以进一步提高网站识别效率。
下面结合图9,对本申请实施例提供的网站识别方法进行说明,如图9所示,该网站识别方法可以包括:
1.提取用户上网日志中的网站域名。
2.增量域名筛选。具体流程可以包括:
2.1确定网站域名是否属于预设已识别域名集合。
该预设已识别域名集合可以包括已识别为钓鱼网站的域名集合和已识别过的域名集合。其中,已识别过的域名集合可以是已识别过的正常域名集合。
在确定网站域名是否属于预设已识别域名集合时,可以先判断该网站域名是否属于已识别为钓鱼网站的域名集合。如果不属于已识别为钓鱼网站的域名集合,再判断该网站域名是否属于已识别过的域名集合。
2.2在网站域名不属于预设已识别域名集合的情况下,将网站域名确定为待识别网站。
作为一个具体的示例,如果网站域名属于已识别为钓鱼网站的域名集合,则可以执行安全事件处理,如步骤3所示。如果网站域名不属于已识别为钓鱼网站的域名集合,但属于已识别过的域名集合,则流程结束。如果网站域名即不属于已识别为钓鱼网站的域名集合,也不属于已识别过的域名集合,即不属于预设已识别域名集合的情况下,则可以将网站域名确定为待识别网站。
3.安全事件处理。
作为一个具体的示例,在网站域名属于已识别为钓鱼网站的域名集合时,可以记录该网站域名的访问安全事件日志,分析预设时段内(如当日)是否已向此次欲访问/访问该网站域名的用户发送过短信提醒。如果已发送过,则流程结束。反之,如果未发送过,则实时通过运营商短信端口向该访问用户发送钓鱼网站短信提醒,发送完毕后流程结束。
4.新增域名爬虫。
作为一个示例,可以模拟手机浏览器爬虫爬取待识别网站的网页,获取网页的HTML文件即第一文本内容,并可以对待识别网站的网页进行截图处理,保存浏览器渲染截图文件即待识别网站的待识别网页截图。
5.图片OCR识别。
作为一个示例,可以基于Tesseract框架获取待分析的图片OCR文本文件,得到图片OCR文本文件并保存,得到待识别网页截图的第二文本内容。
6.图片OCR文本基于TF-IDF向量分类
作为一个示例,可以对图片OCR文本内容进行分词处理,再加载图片OCR文本TF-IDF分类模型训练时生成的特征词袋,结合图片OCR文本分词结果,生成TF-IDF向量。以TF-IDF向量为输入,调用基于支持向量机(Support Vector Machine,SVM)算法的TF-IDF向量分类模型,得到第四个子分类器的结果D。
7.图片OCR文本基于特征词分类。
作为一个示例,可以对图片OCR文本内容进行分词处理,再加载特征词集,对标人工专家整理的钓鱼网址的特征词集,结合图片OCR文件去重后的中文词集,生成特征词向量。以特征向量为输入,调用基于支持向量机(Support Vector Machine,SVM)算法的特征词分类模型,得到第三个子分类器的结果C。
8.HTML文本基于特征词分类。
作为一个示例,可以过滤HTML文件的HTML标签,对去标签后的HTML文件进行分词处理。再加载特征词集,计算特征词向量。以特征词向量为输入,调用基于支持向量机算法的特征词分类模型,得到第一个子分类器的结果A。
9.HTML文本基于TF-IDF向量分类。
作为一个示例,可以过滤HTML文件的HTML标签,对去标签后的HTML文件进行分词处理。再加载HTML文本TF-IDF分类模型训练时生成的特征词袋,结合HTML文本分词结果,生成TF-IDF向量。以TF-IDF向量为输入,调用基于支持向量机算法的特征词分类模型,得到第一个子分类器的结果B。
10.集成学习分类模块。
在HTML文本特征词分类结果A、HTML文本TF-IDF分类结果B、图片ORC文本TF-IDF分类结果D、图片OCR文本特征词分类结果C的基础上,通过集成学习分类模型进行投票,确定最终的分类结果是正常网站还是某一类别的钓鱼网址(比如仿冒工商银行、仿冒中国移动等)。如果识别结果是钓鱼网址,则写入到已研判钓鱼网址库,即已识别为钓鱼网站的域名集合。
上述各步骤的具体实现方法与技术效果与上述各方法实施例类似,为简洁起见,在此不再赘述。
基于相同的发明构思,本申请还提供了一种网站识别装置,如图10所示,网站识别装置1000可以包括:
第一获取模块1010,用于获取待识别网站的网页;
第二获取模块1020,用于获取所述网页的第一文本内容和待识别网页截图;
第一提取模块1030,用于提取所述待识别网页截图的第二文本内容;
第二提取模块1040,用于提取所述第一文本内容的第一特征向量和所述第二文本内容的第二特征向量;
第一识别模块1050,用于将所述第一特征向量输入至第一预设识别模型,得到所述待识别网站的第一网站识别类型;所述第一预设识别模型基于网站类型和网站网页的文本内容的特征向量训练得到;
第二识别模块1060,用于将所述第二特征向量输入至第二预设识别模型,得到所述待识别网站的第二网站识别类型;所述第二预设识别模型基于网站类型和网站网页的网页截图中的文本内容的特征向量训练得到;
第三识别模块1070,用于根据所述第一网站识别类型和所述第二网站识别类型,得到所述待识别网站的目标网站识别类型。
在一些实施例中,网站识别装置1000还可以包括增量筛选模块,增量筛选模块,包括:
提取单元,用于提取用户上网日志中的网站域名;
第一确定单元,用于确定所述网站域名是否属于预设已识别域名集合;
第二确定单元,用于在所述网站域名不属于所述预设已识别域名集合的情况下,将所述网站域名确定为待识别网站。
第一获取模块1010,包括:
爬取单元,用于控制模拟客户端访问所述待识别网站的网页。
在一些实施例中,第二获取模块1020,包括:
第一获取单元,用于获取所述网页的超文本标记语言HTML文件;
第三确定单元,用于将所述HTML文件确定为第一文本内容。
在一些实施例中,第一预设识别模型包括第一预设子识别模型、第二预设子识别模型中的至少一个;
第二提取模块1040,包括:
第一分词单元,用于对所述HTML文件进行分词处理,得到所述HTML文件的第一词集;
第一向量单元,用于加载预设特征词集;基于所述预设特征词集及所述第一词集生成第一特征词向量;
第二向量单元,用于加载预设特征词袋;基于所述预设特征词袋及所述第一词集生成第一TF-IDF向量;
第三识别模块1070,包括:
第一识别单元,用于将所述第一特征词向量输入至第一预设子识别模型,得到所述待识别网站的第一子网站识别类型;所述第二预设子识别模型为基于网站类型和特征词向量训练得到的SVM;
第二识别单元,用于将所述第一TF-IDF向量输入至第二预设子识别模型,得到所述待识别网站的第二子网站识别类型;所述第二预设子识别模型为基于网站类型和TF-IDF向量训练得到的SVM。
在一些实施例中,第二网站识别类型包括第三子网站识别类型、第四子网站识别类型中的至少一个;
第一提取模块1030,还包括:
第二分词单元,用于对所述第二文本内容进行分词处理,得到所述待识别网页截图的第二词集;
第一提取模块1030,还包括:
第三向量单元,用于加载预设特征词集;基于所述预设特征词集及所述第二词集生成第二特征词向量;
第四向量单元,用于加载预设特征词袋;基于所述预设特征词袋及所述第二词集生成第二TF-IDF向量;
第二识别模块1060,,包括:
第三识别单元,用于将所述第二特征词向量输入第三预设子识别模型,得到所述待识别网站的第三子网站识别类型;所述第三预设子识别模型为基于网站类型和特征词向量训练得到的支持向量机SVM;
第四识别单元,用于将所述第二TF-IDF向量输入至第四预设子识别模型,得到所述待识别网站的第四子网站识别类型;所述第四预设子识别模型为基于网站类型和TF-IDF向量训练得到的SVM。
在一些实施例中,第一分词单元,可以包括:
去标签单元,用于对所述HTML文件进行去HTML标签处理,得到去标签后的HTML文件;
分词子单元,用于对所述去标签后的HTML文件进行分词处理,得到所述HTML文件的第一词集。
在一些实施例中,第三识别模块1070,包括:
统计单元,用于将所述第一网站识别类型和所述第二网站识别类型输入至预设统计模型,得到所述待识别网站的目标网站识别类型。
本实施例提供的网站识别装置的实现原理和技术效果与上述方法实施例相同,为简洁起见,在此不再赘述。
基于同一构思,本公开实施例还提供了一种网站识别设备,如图11所示,该网站识别设备可以包括处理器1101以及存储有计算机程序指令的存储器1102。
具体地,上述处理器1101可以包括中央处理器(Central Processing Unit,CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本公开实施例的一个或多个集成电路。
存储器1102可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器1102可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器1102可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器1102可在综合网关容灾设备的内部或外部。在一个实施例中,存储器1102是非易失性固态存储器。在一个实施例中,存储器1102包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器1101通过读取并执行存储器1002中存储的计算机程序指令,以实现上述实施例中的任意一种网站识别方法,并达到图1所示实施例执行其方法/步骤达到的相应技术效果,为简洁描述,在此不再赘述。
在一个示例中,网站识别设备还可包括通信接口1103和总线1110。其中,如图11所示,处理器1101、存储器1102、通信接口1103通过总线1110连接并完成相互间的通信。
通信接口1103,主要用于实现本公开实施例中各模块、装置、单元和/或设备之间的通信。
总线1110包括硬件、软件或两者,将网站识别设备的部件彼此耦接在一起。举例来说而非限制,总线1110可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线1010可包括一个或多个总线。尽管本公开实施例描述和示出了特定的总线,但本公开考虑任何合适的总线或互连。
另外,结合上述实施例中的网站识别方法,本公开实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种网站识别方法。
需要明确的是,本公开并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本公开的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本公开的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本公开的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本公开中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本公开不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本公开的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本公开的保护范围之内。

Claims (9)

1.一种网站识别方法,其特征在于,包括:
获取待识别网站的网页;
获取所述网页的第一文本内容和待识别网页截图;
提取所述待识别网页截图的第二文本内容;
提取所述第一文本内容的第一特征向量和所述第二文本内容的第二特征向量;
将所述第一特征向量输入至第一预设识别模型,得到所述待识别网站的第一网站识别类型;所述第一预设识别模型基于网站类型和网站网页的文本内容的特征向量训练得到;
将所述第二特征向量输入至第二预设识别模型,得到所述待识别网站的第二网站识别类型;所述第二预设识别模型基于网站类型和网站网页的网页截图中的文本内容的特征向量训练得到;
根据所述第一网站识别类型和所述第二网站识别类型,得到所述待识别网站的目标网站识别类型;
所述第二网站识别类型包括第三子网站识别类型、第四子网站识别类型中的至少一个;
所述提取所述第二文本内容的第二特征向量之前,还包括:
对所述第二文本内容进行分词处理,得到所述待识别网页截图的第二词集;
所述提取所述第二文本内容的第二特征向量,包括如下至少一项:
加载预设特征词集;基于所述预设特征词集及所述第二词集生成第二特征词向量;
加载预设特征词袋;基于所述预设特征词袋及所述第二词集生成第二TF-IDF向量;
所述将所述第二特征向量输入至第二预设识别模型,得到所述待识别网站的第二网站识别类型,包括如下至少一项:
将所述第二特征词向量输入第三预设子识别模型,得到所述待识别网站的第三子网站识别类型;所述第三预设子识别模型为基于网站类型和特征词向量训练得到的支持向量机SVM;
将所述第二TF-IDF向量输入至第四预设子识别模型,得到所述待识别网站的第四子网站识别类型;所述第四预设子识别模型为基于网站类型和TF-IDF向量训练得到的SVM。
2.根据权利要求1所述的网站识别方法,其特征在于,所述获取待识别网站的网页之前,还包括:
提取用户上网日志中的网站域名;
确定所述网站域名是否属于预设已识别域名集合;
在所述网站域名不属于所述预设已识别域名集合的情况下,将所述网站域名确定为待识别网站;
所述获取待识别网站的网页,包括:
控制模拟客户端访问所述待识别网站的网页。
3.根据权利要求1所述的方法,其特征在于,所述获取所述网页的第一文本内容,包括:
获取所述网页的超文本标记语言HTML文件;
将所述HTML文件确定为第一文本内容。
4.根据权利要求3所述的方法,其特征在于,所述第一预设识别模型包括第一预设子识别模型、第二预设子识别模型中的至少一个;
所述提取所述第一文本内容的第一特征向量之前,还包括:
对所述HTML文件进行分词处理,得到所述HTML文件的第一词集;
所述提取所述第一文本内容的第一特征向量,包括如下至少一项:
加载预设特征词集;基于所述预设特征词集及所述第一词集生成第一特征词向量;
加载预设特征词袋;基于所述预设特征词袋及所述第一词集生成第一TF-IDF向量;
所述将所述第一特征向量输入至第一预设识别模型,得到所述待识别网站的第一网站识别类型,包括如下至少一项:
将所述第一特征词向量输入至第一预设子识别模型,得到所述待识别网站的第一子网站识别类型;所述第二预设子识别模型为基于网站类型和特征词向量训练得到的SVM;
将所述第一TF-IDF向量输入至第二预设子识别模型,得到所述待识别网站的第二子网站识别类型;所述第二预设子识别模型为基于网站类型和TF-IDF向量训练得到的SVM。
5.根据权利要求4所述的方法,其特征在于,所述对所述HTML文件进行分词处理,得到所述HTML文件的第一词集之前,还包括:
对所述HTML文件进行去HTML标签处理,得到去标签后的HTML文件;
所述对所述HTML文件进行分词处理,得到所述HTML文件的第一词集,包括:
对所述去标签后的HTML文件进行分词处理,得到所述HTML文件的第一词集。
6.根据权利要求1所述的方法,其特征在于,所述根据所述第一网站识别类型和所述第二网站识别类型,得到所述待识别网站的目标网站识别类型,包括:
将所述第一网站识别类型和所述第二网站识别类型输入至预设统计模型,得到所述待识别网站的目标网站识别类型。
7.一种网站识别装置,其特征在于,包括:
第一获取模块,用于获取待识别网站的网页;
第二获取模块,用于获取所述网页的第一文本内容和待识别网页截图;
第一提取模块,用于提取所述待识别网页截图的第二文本内容;
第二提取模块,用于提取所述第一文本内容的第一特征向量和所述第二文本内容的第二特征向量;
第一识别模块,用于将所述第一特征向量输入至第一预设识别模型,得到所述待识别网站的第一网站识别类型;所述第一预设识别模型基于网站类型和网站网页的文本内容的特征向量训练得到;
第二识别模块,用于将所述第二特征向量输入至第二预设识别模型,得到所述待识别网站的第二网站识别类型;所述第二预设识别模型基于网站类型和网站网页的网页截图中的文本内容的特征向量训练得到;
第三识别模块,用于根据所述第一网站识别类型和所述第二网站识别类型,得到所述待识别网站的目标网站识别类型。
8.一种网站识别设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6中任一项所述的网站识别方法。
9.一种存储介质,其特征在于,当所述存储介质中的指令由网站识别装置或者网站识别设备的处理器执行时,以使所述网站识别装置或者所述网站识别设备实现如权利要求1至6中任一项所述的网站识别方法。
CN202011399531.4A 2020-12-04 2020-12-04 一种网站识别方法、装置、设备及存储介质 Active CN112565250B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011399531.4A CN112565250B (zh) 2020-12-04 2020-12-04 一种网站识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011399531.4A CN112565250B (zh) 2020-12-04 2020-12-04 一种网站识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112565250A CN112565250A (zh) 2021-03-26
CN112565250B true CN112565250B (zh) 2022-12-06

Family

ID=75047711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011399531.4A Active CN112565250B (zh) 2020-12-04 2020-12-04 一种网站识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112565250B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268691B (zh) * 2021-04-30 2022-07-22 杭州安恒信息技术股份有限公司 网站行业类型的分类方法、装置、电子装置和存储介质
CN113688346A (zh) * 2021-08-16 2021-11-23 杭州安恒信息技术股份有限公司 一种违法网站识别方法、装置、设备及存储介质
CN114090650A (zh) * 2021-11-10 2022-02-25 恒安嘉新(北京)科技股份公司 一种样本数据识别方法、装置、电子设备及存储介质
CN114124564B (zh) * 2021-12-03 2023-11-28 北京天融信网络安全技术有限公司 一种仿冒网站检测方法、装置、电子设备及存储介质
CN115600040B (zh) * 2022-11-25 2023-05-26 清华大学 一种钓鱼网站识别方法及装置
CN117614749A (zh) * 2024-01-24 2024-02-27 杰创智能科技股份有限公司 风险网站识别方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169049A (zh) * 2017-04-25 2017-09-15 腾讯科技(深圳)有限公司 应用的标签信息生成方法及装置
US10067986B1 (en) * 2015-04-30 2018-09-04 Getgo, Inc. Discovering entity information
CN111078546A (zh) * 2019-12-05 2020-04-28 北京云聚智慧科技有限公司 一种表达页面特征的方法和电子设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110307484A1 (en) * 2010-06-11 2011-12-15 Nitin Dinesh Anand System and method of addressing and accessing information using a keyword identifier
CN104217160B (zh) * 2014-09-19 2017-11-28 中国科学院深圳先进技术研究院 一种中文钓鱼网站检测方法及系统
US10601866B2 (en) * 2017-08-23 2020-03-24 International Business Machines Corporation Discovering website phishing attacks
CN108134784B (zh) * 2017-12-19 2021-08-31 东软集团股份有限公司 网页分类方法及装置、存储介质及电子设备
CN110336790B (zh) * 2019-05-29 2021-05-25 网宿科技股份有限公司 一种网站检测的方法和系统
CN110287409B (zh) * 2019-06-05 2022-07-22 新华三信息安全技术有限公司 一种网页类型识别方法及装置
CN111401416B (zh) * 2020-03-05 2022-10-21 支付宝(杭州)信息技术有限公司 异常网站的识别方法、装置和异常对抗行为的识别方法
CN111783016B (zh) * 2020-07-03 2021-05-04 支付宝(杭州)信息技术有限公司 一种网站分类方法、装置及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10067986B1 (en) * 2015-04-30 2018-09-04 Getgo, Inc. Discovering entity information
CN107169049A (zh) * 2017-04-25 2017-09-15 腾讯科技(深圳)有限公司 应用的标签信息生成方法及装置
CN111078546A (zh) * 2019-12-05 2020-04-28 北京云聚智慧科技有限公司 一种表达页面特征的方法和电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Feature extraction and classification phishing websites based on URL";M. Aydin and N. Baykal;《2015 IEEE Conference on Communications and Network Security (CNS)》;20151130;全文 *
"基于分类置信度和网站特征的钓鱼检测系统";陈旭等;《基于分类置信度和网站特征的钓鱼检测系统》;20170910;全文 *

Also Published As

Publication number Publication date
CN112565250A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
CN112565250B (zh) 一种网站识别方法、装置、设备及存储介质
CN113098870B (zh) 一种网络诈骗检测方法、装置、电子设备及存储介质
CN104766014B (zh) 用于检测恶意网址的方法和系统
CN112861648B (zh) 文字识别方法、装置、电子设备及存储介质
CN105844140A (zh) 一种可识别验证码的网站登录暴力破解方法及系统
CN112733639B (zh) 文本信息结构化提取方法及装置
CN112491864A (zh) 检测网络诈骗的深度受害用户的方法、装置、设备及介质
CN110221977A (zh) 基于ai的网站渗透测试方法
CN107454118A (zh) 验证码获取方法及装置、登录方法及系统
CN113450147A (zh) 基于决策树的产品匹配方法、装置、设备及存储介质
CN109101810A (zh) 一种基于ocr技术的文字验证码识别方法
CN115314268B (zh) 基于流量指纹和行为的恶意加密流量检测方法和系统
CN113392303A (zh) 后台爆破方法、装置、设备和计算机可读存储介质
CN106446123A (zh) 一种网页中验证码元素识别方法
CN108270754B (zh) 一种钓鱼网站的检测方法及装置
CN114386013A (zh) 学籍自动认证方法、装置、计算机设备及存储介质
CN118211941A (zh) 基于rpa的社区工单自动流转方法及系统
CN117201208B (zh) 恶意邮件识别方法、装置、电子设备和存储介质
CN113688346A (zh) 一种违法网站识别方法、装置、设备及存储介质
CN111125704B (zh) 一种网页挂马识别方法及系统
CN113449816A (zh) 网址分类模型训练、网址分类方法、装置、设备及介质
CN115688107A (zh) 一种涉诈app检测系统和方法
CN116318974A (zh) 站点风险识别方法、装置、计算机可读介质及电子设备
CN114756850A (zh) 数据的获取方法、装置、设备及存储介质
CN110413909B (zh) 基于机器学习的大规模嵌入式设备在线固件智能识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant