CN108694325A - 指定类型网站的辨别方法和指定类型网站的辨别装置 - Google Patents

指定类型网站的辨别方法和指定类型网站的辨别装置 Download PDF

Info

Publication number
CN108694325A
CN108694325A CN201710227599.6A CN201710227599A CN108694325A CN 108694325 A CN108694325 A CN 108694325A CN 201710227599 A CN201710227599 A CN 201710227599A CN 108694325 A CN108694325 A CN 108694325A
Authority
CN
China
Prior art keywords
website
text
specified type
unknown
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710227599.6A
Other languages
English (en)
Other versions
CN108694325B (zh
Inventor
于琳琳
张丹
王九硕
于晓明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201710227599.6A priority Critical patent/CN108694325B/zh
Publication of CN108694325A publication Critical patent/CN108694325A/zh
Application granted granted Critical
Publication of CN108694325B publication Critical patent/CN108694325B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/604Tools and structures for managing or administering access control systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2119Authenticating web pages, e.g. with suspicious links

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种指定类型网站的辨别方法和指定类型网站的辨别装置,其中,指定类型网站的辨别方法包括:根据预设的探测方式,确定未知网站的网站入口,以确定未知网站的首页信息;提取未知网站的首页信息的结构特征;提取未知网站的首页信息的文本特征;对结构特征与文本特征进行加权处理,以生成未知网站的联合特征向量;确定联合特征向量与预设网站模型的特征向量的相似度,以确定未知网站是否为指定类型网站。通过本发明技术方案,利用较小的带宽实现对互联网指定类型网站的探测,此外,还可以做到对探测到的未知网站进行充分的辨别。

Description

指定类型网站的辨别方法和指定类型网站的辨别装置
技术领域
本发明涉及互联网技术领域,具体而言,涉及一种指定类型网站的辨别方法和一种指定类型网站的辨别装置。
背景技术
在相关技术中,随着互联网的迅速发展,互联网金融类网站应运而生,越来越多的用户通过互联网进行金融交易,但是由于用户难以判断互联网金融网站的资质及安全性,因而产生了很多通过非法手段敛财的伪互联网金融类网站,因此建立对互联网金融类网站的探测和判别机制具有十分重要的意义。
目前对于互联网金融类网站的探测,主要通过采集站点的全部网页的方式实现,具有以下缺陷:
(1)探测量过多导致占用带宽严重;
(2)单一网页的采集方式不能满足对于网站数据广度上的需求。
对于互联网金融类网站的判别,主要基于对网页内容的分析,易造成误判,判别的结果通常包括资讯类的金融门户网站、大型门户网站(如新浪财经等),不能准确识别出指定类型的金融类网站。
发明内容
本发明正是基于上述技术问题至少之一,提出了一种新的指定类型网站的辨别方案,通过预设的探测方式,实现对未知网站的首页的探测,以获得未知网站的首页信息,通过使用对未知网站首页的探测代替对网站全部网页的探测,能够减少对网站网页的探测量,达到了利用小带宽快速探测网站的目的,并且通过提取网站首页的结构特征和文本特征,将结构特征与文本特征生成未知网站的联合特征向量,通过特征向量将数据特征和结构特征结合在一起,与仅仅基于网页内容进行辨别的方式相比,确定联合特征向量与预设网站模型的特征向量的相似度,提升了对指定类型网站的辨别精度与准确性。
有鉴于此,本发明提出了一种指定类型网站的辨别方法,包括:根据预设的探测方式,确定未知网站的网站入口,以确定未知网站的首页信息;提取未知网站的首页信息的结构特征;提取未知网站的首页信息的文本特征;对结构特征与文本特征进行加权处理,以生成未知网站的联合特征向量;确定联合特征向量与预设网站模型的特征向量的相似度,以确定未知网站是否为指定类型网站。
在该技术方案中,通过预设的探测方式,实现对未知网站的首页的探测,以获得未知网站的首页信息,通过使用对未知网站首页的探测代替对网站全部网页的探测,能够减少对网站网页的探测量,达到了利用小带宽快速探测网站的目的,并且通过提取网站首页的结构特征和文本特征,将结构特征与文本特征生成未知网站的联合特征向量,通过特征向量将数据特征和结构特征结合在一起,与仅仅基于网页内容进行辨别的方式相比,确定联合特征向量与预设网站模型的特征向量的相似度,提升了对指定类型网站的辨别精度与准确性。
具体地,指定类型,可以包括金融支付类网站、政府网站、企业网站等各种类型。
在上述技术方案中,优选地,在根据预设的探测方式,确定未知网站的网站入口,以确定未知网站的首页信息前,还包括:对已知指定类型网站进行标注;对进行标注后的已知指定类型网站的首页进行数据采集,以生成训练集数据;对训练集数据进行预处理,以提取训练集数据中的文本信息;根据文本主体生成模型和文本信息,生成特征向量,以建立预设网站模型,其中,特征向量包括指定类型网站的关键词以及关键词的权重值。
在该技术方案中,通过对已知指定类型网站进行标注,以生成训练样本,通过对训练样本进行分析,并提取样本中的文本特征,根据文本特征和文档主题生成模型,生成预设网站模型,从而建立了用于确定未知网站是否为指定类型网站的对比模型。
具体地,在确定未知网站的首页信息之前,首先建立指定类型的预设网站模型,以互联网金融网站为例,建立互联网金融交易网站模型,其主要流程包括:(1)人工标注互联网金融交易类网站,(2)对已标注的互联网金融交易类网站的网页进行数据采集,为了达到节省带宽的目的,只探测网站的首页,通过分析Url中的顶级域名确定网站首页的地址,(3)对网站首页执行去除html标签、去除css以及script脚本操作,以提取浏览器显示的文本内容,作为数据分析的输入数据,利用文档主题生成模型(LDA,Latent DirichletAllocation,也称为三层贝叶斯概率模型,包含词、主题和文档三层结构),提取输入数据的文本信息,生成特征向量,特征向量由关键词及其权重组成,根据特征向量建立互联网金融交易网站模型。
在上述任一项技术方案中,优选地,根据预设的探测方式,确定未知网站的网站入口,以确定未知网站的首页信息,具体包括以下步骤:根据未知网站的IP信息,建立端口连接;通过端口向服务器发送HTTP HEAD请求;接收服务器根据HTTP HEAD请求反馈的判断结果,以根据判断结果确定网站入口。
在该技术方案中,通过端口向服务器发送HTTP HEAD请求(即只请求页面的首部),确定网站入口,从而确定未知网站的首页信息,实现了利用小带宽快速探测未知网站的目的。
对于提供HTTP服务的网站,绝大多数使用80端口作为默认HTTP端口,使用443端口作为HTTPS的默认端口,443端口即网页浏览端口,提供加密和通过安全端口传输,基于以上情况,在提供IP列表或IP段的情况下,通过连接80或者443端口并发送HTTP HEAD(GET)请求,根据返回结果判断IP是否提供HTTP服务,从而确定未知网站的网站入口。
在上述任一项技术方案中,优选地,根据预设的探测方式,确定未知网站的网站入口,以确定未知网站的首页信息,具体包括以下步骤:根据关键词进行网页搜索,以获取未知网站的搜索链接;提取搜索链接中的顶级域名,以根据顶级域名确定网站入口。
在该技术方案中,通过搜索关键词获取未知网站的顶级域名,根据顶级域名确定未知网站的入口,此方法简单快捷,探测到的未知网站数量大,扩大了对未知网站的辨别范围。
具体地,利用文本主体生成模型得到特定领域互联网金融交易类网站的网页关键词,将该关键词作为搜索引擎的搜索关键词在搜索引擎中进行网页搜索,将搜索出的链接提取顶级域名后,作为未知网站的的网站入口。
在上述任一项技术方案中,优选地,根据预设的探测方式,确定未知网站的网站入口,以确定未知网站的首页信息,具体包括以下步骤:确定任意一个已知指定类型网站中的外部链接;检测外部链接是否属于已知指定类型网站;在检测到外部链接不属于已知指定类型网站时,将外部链接的网站首页确定为网站入口。
在该技术方案中,通过对已知的指定类型网站中的外部链接的检测,进一步提升了网站入口探测的安全性。
具体地,对于已知的指定类型的网站,对首页中出现的外部链接基于以下两方面进行分析,如该外部链接已存在,则不进行进一步处理;若该外部链接在之前的探测中并未出现,则将该外部链接网页的网站首页作为新的网站入口。
采用上面三种方式执行对未知网站的快速探测,可以选择三种方式中的任意一种执行,也可以两两结合执行,也可以三种方式一起执行,采用至少两种探测方式时,提升了对未知的互联网金融网站探测时的精度及广度,通过多方法联合探测的方式对数据进行多样化的采集,可以通过较小的带宽实现对指定类型的网站的探测,并且可以做到对未知网站的充分探测。
在上述任一项技术方案中,优选地,提取未知网站的首页信息的结构特征,具体包括以下步骤:确定未知网站的首页信息的网页源代码中,herf属性连续出现数量大于预设数量阈值的区域,以作为待处理区域;去除待处理区域内的网页标签,以保留待处理区域内的文本内容;检测文本内容的长度是否大于或等于预设长度阈值;在检测到文本内容的长度大于或等于预设长度阈值时,将待处理区域确定为导航区域;根据文本内容生成第一特征向量,以作为结构特征。
在该技术方案中,通过未知网站的首页信息的网页源代码中herf属性连续出现数量和检测文本内容的长度,确定未知网站的导航区域,从而生成第一特征向量作为网站的结构特征,提高了对未知网站辨别的可靠性。
第一特征向量为结构特征向量。
Herf(Hypertext Reference,超文本引用),herf属性用于指定超链接目标的URL,第一特征向量所指的结构特征,结构特征主要为网页的导航区特征,网页导航区可以认为是网页主题内容的概括和综述,因此对导航区特征的提取有利于对指定类型网站的判别,对网页导航区特征进行提取过程包括:(1)提取网页源代码中<body>部分出现的第一个具有连续herf属性的区域,即待处理区域,其中,herf属性连续出现的个数大于设定阈值,(2)去掉待处理区域的网页标签,保留浏览器显示部分的文本内容,检测文本内容长度是否满足预设长度阈值要求,满足长度要求时,表明待处理区域为导航区,则根据文本内容生成第一特征向量,不满足长度要求时,提取网页源代码中<body>部分出现的下一个具有连续herf属性的区域,指导确定待处理区域,以将文本内容作为导航区特征,并生成第一特征向量:
X=(x1,x2,……,xN)
在上述任一项技术方案中,优选地,提取未知网站的首页信息的文本特征,具体包括以下步骤:去除未知网站的首页信息的网页源码中的标签信息,以生成待处理文本;对待处理文本执行文本统计操作,以确定待处理文本中的文本词数数量;根据文本词数数量与文本的统计词频,确定文本的关键词与关键词的权重;根据关键词与关键词权重,生成第二特征向量,以作为文本特征,其中,标签信息包括html标签,css脚本与script脚本。
在该技术方案中,通过去除未知网站首页信息的网页源代码中的网页标签,以生成待处理文本,通过待处理文本生成关键词与关键词权重,以生成第二特征向量,与TF-IDF(term frequency-inverse document frequency用于信息检索与数据挖掘的加权技术)相比,与实际应用场景结合,主要基于词频与总次数,处理过程更加简单。
第二特征向量为文本特征向量。
具体地,对浏览器中显示的文本内容进行特征提取,包括以下步骤:(1)去除网页源码中html标签,css、script脚本,(2)对文本分词、去停用词、统计词频TF,计算文本总词数wordNum,(3)计算TF/wordNum,取出前N个TF/wordNum值较大的词作为文本关键词,形成第二特征向量:
Y=((y11),(y22)……,(yNN))
其中,y表示关键词,ω表示关键词权重。
在上述任一项技术方案中,优选地,检测联合特征向量与预设网站模型的特征向量的相似度,以确定未知网站是否为指定类型网站,具体包括以下步骤:确定联合特征向量与特征向量的余弦参数;根据余弦参数,确定相似度;检测相似度是否大于或等于预设相似度阈值;在检测到相似度大于或等于预设相似度阈值时,确定未知网站为指定类型网站。
在该技术方案中,通过确定联合特征向量与特征向量的余弦参数,以根据余弦相似性确定检测的未知网站是否为指定类型网站,可以有效的对指定类型网站的安全性进行评估,并及时发现可疑的网站,提升了用户的使用体验。
具体地,对提取的第一特征向量(导航区特征)及第二特征向量(文本特征)加权求和,得到联合特征向量,具体公式为:
其中,可根据实际应用调整权重参数。
利用余弦相似性:
计算未知网站的联合特征向量F与预设网站模型M的特征向量的相似度,并按照阈值筛选出可疑的互联网金融交易类网站。
通过文本特征和结构特征相结合的方式,结合对网站首页的分析实现对指定类型的网站的判别,提高了判别的精准度,同时不需要通过大量网页对网站站点进行分析,只需通过网站的顶级域名获取网站首页,简化了处理过程。这一步为特定领域的金融类网站的数据分析提供支撑,有效的对互联网金融交易网站等指定类型的网站的安全性进行评估并及时发现可疑网站。
根据本发明第二方面,还提出了一种装置,包括:确定单元,用于根据预设的探测方式,确定未知网站的网站入口,以确定未知网站的首页信息;提取单元,用于提取未知网站的首页信息的结构特征;提取单元还用于:提取未知网站的首页信息的文本特征;生成单元,用于对结构特征与文本特征进行加权处理,以生成未知网站的联合特征向量;确定单元还用于:确定联合特征向量与预设网站模型的特征向量的相似度,以确定未知网站是否为指定类型网站。
在该技术方案中,通过预设的探测方式,实现对未知网站的首页的探测,以获得未知网站的首页信息,通过使用对未知网站首页的探测代替对网站全部网页的探测,能够减少对网站网页的探测量,达到了利用小带宽快速探测网站的目的,并且通过提取网站首页的结构特征和文本特征,将结构特征与文本特征生成未知网站的联合特征向量,通过特征向量将数据特征和结构特征结合在一起,与仅仅基于网页内容进行辨别的方式相比,确定联合特征向量与预设网站模型的特征向量的相似度,提升了对指定类型网站的辨别精度与准确性。
具体地,指定类型,可以包括金融支付类网站、政府网站、企业网站等各种类型。
在上述技术方案中,优选地,还包括:标注单元,用于对已知指定类型网站进行标注;采集单元,用于对进行标注后的已知指定类型网站的首页进行数据采集,以生成训练集数据;预处理单元,用于对训练集数据进行预处理,以提取训练集数据中的文本信息;生成单元还用于:根据文本主体生成模型和文本信息,生成特征向量,以建立预设网站模型,其中,特征向量包括指定类型网站的关键词以及关键词的权重值。
在该技术方案中,通过对已知指定类型网站进行标注,以生成训练样本,通过对训练样本进行分析,并提取样本中的文本特征,根据文本特征和文档主题生成模型,生成预设网站模型,从而建立了用于确定未知网站是否为指定类型网站的对比模型。
具体地,在确定未知网站的首页信息之前,首先建立指定类型的预设网站模型,以互联网金融网站为例,建立互联网金融交易网站模型,其主要流程包括:(1)人工标注互联网金融交易类网站,(2)对已标注的互联网金融交易类网站的网页进行数据采集,为了达到节省带宽的目的,只探测网站的首页,通过分析Url中的顶级域名确定网站首页的地址,(3)对网站首页执行去除html标签、去除css以及script脚本操作,以提取浏览器显示的文本内容,作为数据分析的输入数据,利用文档主题生成模型(LDA,Latent DirichletAllocation,也称为三层贝叶斯概率模型,包含词、主题和文档三层结构),提取输入数据的文本信息,生成特征向量,特征向量由关键词及其权重组成,根据文本特征向量建立互联网金融交易网站模型。
在上述任一项技术方案中,优选地,还包括:建立单元,用于根据未知网站的IP信息,建立端口连接;发送单元,用于通过端口向服务器发送HTTP HEAD请求;接收单元,用于接收服务器根据HTTP HEAD请求反馈的判断结果,以根据判断结果确定网站入口。
在该技术方案中,通过端口向服务器发送HTTP HEAD请求(即只请求页面的首部),确定网站入口,从而确定未知网站的首页信息,实现了利用小带宽快速探测未知网站的目的。
对于提供HTTP服务的网站,绝大多数使用80端口作为默认HTTP端口,使用443端口作为HTTPS的默认端口,443端口即网页浏览端口,提供加密和通过安全端口传输,基于以上情况,在提供IP列表或IP段的情况下,通过连接80或者443端口并发送HTTP HEAD(GET)请求,根据返回结果判断IP是否提供HTTP服务,从而确定未知网站的网站入口。
在上述任一项技术方案中,优选地,还包括:搜索单元,用于根据关键词进行网页搜索,以获取未知网站的搜索链接;提取单元还用于:提取搜索链接中的顶级域名,以根据顶级域名确定网站入口。
在该技术方案中,通过搜索关键词获取未知网站的顶级域名,根据顶级域名确定未知网站的入口,此方法简单快捷,探测到的未知网站数量大,扩大了对未知网站的辨别范围。
具体地,利用文本主体生成模型得到特定领域互联网金融交易类网站的网页关键词,将该关键词作为搜索引擎的搜索关键词在搜索引擎中进行网页搜索,将搜索出的链接提取顶级域名后,作为未知网站的的网站入口。
在上述任一项技术方案中,优选地,确定单元还用于:确定任意一个已知指定类型网站中的外部链接;指定类型网站的辨别装置还包括:检测单元,用于检测外部链接是否属于已知指定类型网站;确定单元还用于:在检测到外部链接不属于已知指定类型网站时,将外部链接的网站首页确定为网站入口。
在该技术方案中,通过对已知的指定类型网站中的外部链接的检测,进一步提升了网站入口探测的安全性。
具体地,对于已知的指定类型的网站,对首页中出现的外部链接基于以下两方面进行分析,如该外部链接已存在,则不进行进一步处理;若该外部链接在之前的探测中并未出现,则将该外部链接网页的网站首页作为新的网站入口。
采用上面三种方式执行对未知网站的快速探测,可以选择三种方式中的任意一种执行,也可以两两结合执行,也可以三种方式一起执行,采用至少两种探测方式时,提升了对未知的互联网金融网站探测时的精度及广度,通过多方法联合探测的方式对数据进行多样化的采集,可以通过较小的带宽实现对指定类型的网站的探测,并且可以做到对未知网站的充分探测。
在上述任一项技术方案中,优选地,确定单元还用于:确定未知网站的首页信息的网页源代码中,herf属性连续出现数量大于预设数量阈值的区域,以作为待处理区域;指定类型网站的辨别装置还包括:去除单元,用于去除待处理区域内的网页标签,以保留待处理区域内的文本内容;检测单元还用于:检测文本内容的长度是否大于或等于预设长度阈值;确定单元还用于:在检测到文本内容的长度大于或等于预设长度阈值时,将待处理区域确定为导航区域;生成单元还用于:根据文本内容生成第一特征向量,以作为结构特征。
在该技术方案中,通过未知网站的首页信息的网页源代码中herf属性连续出现数量和检测文本内容的长度,确定未知网站的导航区域,从而生成第一特征向量作为网站的结构特征,提高了对未知网站辨别的可靠性。
第一特征向量为结构特征向量。
Herf(Hypertext Reference,超文本引用),herf属性用于指定超链接目标的URL,第一特征向量所指的结构特征,结构特征主要为网页的导航区特征,网页导航区可以认为是网页主题内容的概括和综述,因此对导航区特征的提取有利于对指定类型网站的判别,对网页导航区特征进行提取过程包括:(1)提取网页源代码中<body>部分出现的第一个具有连续herf属性的区域,即待处理区域,其中,herf属性连续出现的个数大于设定阈值,(2)去掉待处理区域的网页标签,保留浏览器显示部分的文本内容,检测文本内容长度是否满足预设长度阈值要求,满足长度要求时,表明待处理区域为导航区,则根据文本内容生成第一特征向量,不满足长度要求时,提取网页源代码中<body>部分出现的下一个具有连续herf属性的区域,指导确定待处理区域,以将文本内容作为导航区特征,并生成第一特征向量:
X=(x1,x2,……,xN)
在上述任一项技术方案中,优选地,提取未知网站的首页信息的文本特征,具体包括以下步骤:去除单元还用于:去除未知网站的首页信息的网页源码中的标签信息,以生成待处理文本;指定类型网站的辨别装置还包括:统计单元,用于对待处理文本执行文本统计操作,以确定待处理文本中的文本词数数量;确定单元还用于:根据文本词数数量与文本的统计词频,确定文本的关键词与关键词的权重;生成单元还用于:根据关键词与关键词权重,生成第二特征向量,以作为文本特征,其中,标签信息包括html标签,css脚本与script脚本。
在该技术方案中,通过去除未知网站首页信息的网页源代码中的网页标签,以生成待处理文本,通过待处理文本生成关键词与关键词权重,以生成第二特征向量,与TF-IDF(term frequency-inverse document frequency用于信息检索与数据挖掘的加权技术)相比,与实际应用场景结合,主要基于词频与总次数,处理过程更加简单。
第二特征向量为文本特征向量。
具体地,对浏览器中显示的文本内容进行特征提取,包括以下步骤:(1)去除网页源码中html标签,css、script脚本,(2)对文本分词、去停用词、统计词频TF,计算文本总词数wordNum,(3)计算TF/wordNum,取出前N个TF/wordNum值较大的词作为文本关键词,形成第二特征向量:
Y=((y11),(y22)……,(yNN))
其中,y表示关键词,ω表示关键词权重。
在上述任一项技术方案中,优选地,确定单元还用于:确定联合特征向量与特征向量的余弦参数;确定单元还用于:根据余弦参数,确定相似度;检测单元还用于:检测相似度是否大于或等于预设相似度阈值;确定单元还用于:在检测到相似度大于或等于预设相似度阈值时,确定未知网站为指定类型网站。
在该技术方案中,通过确定联合特征向量与特征向量的余弦参数,以根据余弦相似性确定检测的未知网站是否为指定类型网站,可以有效的对指定类型网站的安全性进行评估,并及时发现可疑的网站,提升了用户的使用体验。
具体地,对提取的第一特征向量(导航区特征)及第二特征向量(文本特征)加权求和,得到联合特征向量,具体公式为:
其中,可根据实际应用调整权重参数。
利用余弦相似性:
计算未知网站的联合特征向量F与预设网站模型M的特征向量的相似度,并按照阈值筛选出可疑的互联网金融交易类网站。
通过文本特征和结构特征相结合的方式,结合对网站首页的分析实现对指定类型的网站的判别,提高了判别的精准度,同时不需要通过大量网页对网站站点进行分析,只需通过网站的顶级域名获取网站首页,简化了处理过程。这一步为特定领域的金融类网站的数据分析提供支撑,有效的对互联网金融交易网站等指定类型的网站的安全性进行评估并及时发现可疑网站。
通过以上技术方案,通过预设的探测方式,实现对未知网站的首页的探测,以获得未知网站的首页信息,通过使用对未知网站首页的探测代替对网站全部网页的探测,能够减少对网站网页的探测量,达到了利用小带宽快速探测网站的目的,并且通过提取网站首页的结构特征和文本特征,将结构特征与文本特征生成未知网站的联合特征向量,通过特征向量将数据特征和结构特征结合在一起,与仅仅基于网页内容进行辨别的方式相比,确定联合特征向量与预设网站模型的特征向量的相似度,提升了对指定类型网站的辨别精度与准确性。
附图说明
图1示出了根据本发明的一个实施例的指定类型网站的辨别方法的示意流程图;
图2示出了根据本发明的实施例的指定类型网站的辨别装置的示意框图;
图3示出了根据本发明的一个实施例的指定类型网站的辨别方案的示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用第三方不同于在此描述的第三方方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了根据本发明的实施例的指定类型网站的辨别方法的示意流程图。
如图1所示,根据本发明的实施例的指定类型网站的辨别方法,包括:步骤102,根据预设的探测方式,确定未知网站的网站入口,以确定未知网站的首页信息;步骤104,提取未知网站的首页信息的结构特征;步骤106,提取未知网站的首页信息的文本特征;步骤108,对结构特征与文本特征进行加权处理,以生成未知网站的联合特征向量;步骤110,确定联合特征向量与预设网站模型的特征向量的相似度,以确定未知网站是否为指定类型网站。
在该技术方案中,通过预设的探测方式,实现对未知网站的首页的探测,以获得未知网站的首页信息,通过使用对未知网站首页的探测代替对网站全部网页的探测,能够减少对网站网页的探测量,达到了利用小带宽快速探测网站的目的,并且通过提取网站首页的结构特征和文本特征,将结构特征与文本特征生成未知网站的联合特征向量,通过特征向量将数据特征和结构特征结合在一起,与仅仅基于网页内容进行辨别的方式相比,确定联合特征向量与预设网站模型的特征向量的相似度,提升了对指定类型网站的辨别精度与准确性。
具体地,指定类型,可以包括金融支付类网站、政府网站、企业网站等各种类型。
在上述技术方案中,优选地,在根据预设的探测方式,确定未知网站的网站入口,以确定未知网站的首页信息前,还包括:对已知指定类型网站进行标注;对进行标注后的已知指定类型网站的首页进行数据采集,以生成训练集数据;对训练集数据进行预处理,以提取训练集数据中的文本信息;根据文本主体生成模型和文本信息,生成特征向量,以建立预设网站模型,其中,文本特征向量包括指定类型网站的关键词以及关键词的权重值。
在该技术方案中,通过对已知指定类型网站进行标注,以生成训练样本,通过对训练样本进行分析,并提取样本中的文本特征,根据文本特征和文档主题生成模型,生成预设网站模型,从而建立了用于确定未知网站是否为指定类型网站的对比模型。
具体地,在确定未知网站的首页信息之前,首先建立指定类型的预设网站模型,以互联网金融网站为例,建立互联网金融交易网站模型,其主要流程包括:(1)人工标注互联网金融交易类网站,(2)对已标注的互联网金融交易类网站的网页进行数据采集,为了达到节省带宽的目的,只探测网站的首页,通过分析Url中的顶级域名确定网站首页的地址,(3)对网站首页执行去除html标签、去除css以及script脚本操作,以提取浏览器显示的文本内容,作为数据分析的输入数据,利用文档主题生成模型(LDA,Latent DirichletAllocation,也称为三层贝叶斯概率模型,包含词、主题和文档三层结构),提取输入数据的文本信息,生成特征向量,特征向量由关键词及其权重组成,根据文本特征向量建立互联网金融交易网站模型。
在上述任一项技术方案中,优选地,根据预设的探测方式,确定未知网站的网站入口,以确定未知网站的首页信息,具体包括以下步骤:根据未知网站的IP信息,建立端口连接;通过端口向服务器发送HTTP HEAD请求;接收服务器根据HTTP HEAD请求反馈的判断结果,以根据判断结果确定网站入口。
在该技术方案中,通过端口向服务器发送HTTP HEAD请求(即只请求页面的首部),确定网站入口,从而确定未知网站的首页信息,实现了利用小带宽快速探测未知网站的目的。
对于提供HTTP服务的网站,绝大多数使用80端口作为默认HTTP端口,使用443端口作为HTTPS的默认端口,443端口即网页浏览端口,提供加密和通过安全端口传输,基于以上情况,在提供IP列表或IP段的情况下,通过连接80或者443端口并发送HTTP HEAD(GET)请求,根据返回结果判断IP是否提供HTTP服务,从而确定未知网站的网站入口。
在上述任一项技术方案中,优选地,根据预设的探测方式,确定未知网站的网站入口,以确定未知网站的首页信息,具体包括以下步骤:根据关键词进行网页搜索,以获取未知网站的搜索链接;提取搜索链接中的顶级域名,以根据顶级域名确定网站入口。
在该技术方案中,通过搜索关键词获取未知网站的顶级域名,根据顶级域名确定未知网站的入口,此方法简单快捷,探测到的未知网站数量大,扩大了对未知网站的辨别范围。
具体地,利用文本主体生成模型得到特定领域互联网金融交易类网站的网页关键词,将该关键词作为搜索引擎的搜索关键词在搜索引擎中进行网页搜索,将搜索出的链接提取顶级域名后,作为未知网站的的网站入口。
在上述任一项技术方案中,优选地,根据预设的探测方式,确定未知网站的网站入口,以确定未知网站的首页信息,具体包括以下步骤:确定任意一个已知指定类型网站中的外部链接;检测外部链接是否属于已知指定类型网站;在检测到外部链接不属于已知指定类型网站时,将外部链接的网站首页确定为网站入口。
在该技术方案中,通过对已知的指定类型网站中的外部链接的检测,进一步提升了网站入口探测的安全性。
具体地,对于已知的指定类型的网站,对首页中出现的外部链接基于以下两方面进行分析,如该外部链接已存在,则不进行进一步处理;若该外部链接在之前的探测中并未出现,则将该外部链接网页的网站首页作为新的网站入口。
采用上面三种方式执行对未知网站的快速探测,可以选择三种方式中的任意一种执行,也可以两两结合执行,也可以三种方式一起执行,采用至少两种探测方式时,提升了对未知的互联网金融网站探测时的精度及广度,通过多方法联合探测的方式对数据进行多样化的采集,可以通过较小的带宽实现对指定类型的网站的探测,并且可以做到对未知网站的充分探测。
在上述任一项技术方案中,优选地,提取未知网站的首页信息的结构特征,具体包括以下步骤:确定未知网站的首页信息的网页源代码中,herf属性连续出现数量大于预设数量阈值的区域,以作为待处理区域;去除待处理区域内的网页标签,以保留待处理区域内的文本内容;检测文本内容的长度是否大于或等于预设长度阈值;在检测到文本内容的长度大于或等于预设长度阈值时,将待处理区域确定为导航区域;根据文本内容生成第一特征向量,以作为结构特征。
在该技术方案中,通过未知网站的首页信息的网页源代码中herf属性连续出现数量和检测文本内容的长度,确定未知网站的导航区域,从而生成第一特征向量作为网站的结构特征,提高了对未知网站辨别的可靠性。
第一特征向量为结构特征向量。
Herf(Hypertext Reference,超文本引用),herf属性用于指定超链接目标的URL,第一特征向量所指的结构特征,结构特征主要为网页的导航区特征,网页导航区可以认为是网页主题内容的概括和综述,因此对导航区特征的提取有利于对指定类型网站的判别,对网页导航区特征进行提取过程包括:(1)提取网页源代码中<body>部分出现的第一个具有连续herf属性的区域,即待处理区域,其中,herf属性连续出现的个数大于设定阈值,(2)去掉待处理区域的网页标签,保留浏览器显示部分的文本内容,检测文本内容长度是否满足预设长度阈值要求,满足长度要求时,表明待处理区域为导航区,则根据文本内容生成第一特征向量,不满足长度要求时,提取网页源代码中<body>部分出现的下一个具有连续herf属性的区域,指导确定待处理区域,以将文本内容作为导航区特征,并生成第一特征向量:
X=(x1,x2,……,xN)
在上述任一项技术方案中,优选地,提取未知网站的首页信息的文本特征,具体包括以下步骤:去除未知网站的首页信息的网页源码中的标签信息,以生成待处理文本;对待处理文本执行文本统计操作,以确定待处理文本中的文本词数数量;根据文本词数数量与文本的统计词频,确定文本的关键词与关键词的权重;根据关键词与关键词权重,生成第二特征向量,以作为文本特征,其中,标签信息包括html标签,css脚本与script脚本。
在该技术方案中,通过去除未知网站首页信息的网页源代码中的网页标签,以生成待处理文本,通过待处理文本生成关键词与关键词权重,以生成第二特征向量,与TF-IDF(term frequency-inverse document frequency用于信息检索与数据挖掘的加权技术)相比,与实际应用场景结合,主要基于词频与总次数,处理过程更加简单。
第二特征向量为文本特征向量。
具体地,对浏览器中显示的文本内容进行特征提取,包括以下步骤:(1)去除网页源码中html标签,css、script脚本,(2)对文本分词、去停用词、统计词频TF,计算文本总词数wordNum,(3)计算TF/wordNum,取出前N个TF/wordNum值较大的词作为文本关键词,形成第二特征向量:
Y=((y11),(y22)……,(yNN))
其中,y表示关键词,ω表示关键词权重。
在上述任一项技术方案中,优选地,检测联合特征向量与预设网站模型的特征向量的相似度,以确定未知网站是否为指定类型网站,具体包括以下步骤:确定联合特征向量与特征向量的余弦参数;根据余弦参数,确定相似度;检测相似度是否大于或等于预设相似度阈值;在检测到相似度大于或等于预设相似度阈值时,确定未知网站为指定类型网站。
在该技术方案中,通过确定联合特征向量与特征向量的余弦参数,以根据余弦相似性确定检测的未知网站是否为指定类型网站,可以有效的对指定类型网站的安全性进行评估,并及时发现可疑的网站,提升了用户的使用体验。
具体地,对提取的第一特征向量(导航区特征)及第二特征向量(文本特征)加权求和,得到联合特征向量,具体公式为:
其中,可根据实际应用调整权重参数。
利用余弦相似性:
计算未知网站的联合特征向量F与预设网站模型M的特征向量的相似度,并按照阈值筛选出可疑的互联网金融交易类网站。
通过文本特征和结构特征相结合的方式,结合对网站首页的分析实现对指定类型的网站的判别,提高了判别的精准度,同时不需要通过大量网页对网站站点进行分析,只需通过网站的顶级域名获取网站首页,简化了处理过程。这一步为特定领域的金融类网站的数据分析提供支撑,有效的对互联网金融交易网站等指定类型的网站的安全性进行评估并及时发现可疑网站。
图2示出了根据本发明的实施例的指定类型网站的辨别装置的示意框图。
如图2所示,根据本发明的实施例的指定类型网站的辨别装置200,包括:确定单元202,用于根据预设的探测方式,确定未知网站的网站入口,以确定未知网站的首页信息;提取单元204,用于提取未知网站的首页信息的结构特征;提取单元204还用于:提取未知网站的首页信息的文本特征;生成单元206,用于对结构特征与文本特征进行加权处理,以生成未知网站的联合特征向量;确定单元202还用于:确定联合特征向量与预设网站模型的特征向量的相似度,以确定未知网站是否为指定类型网站。
在该技术方案中,通过预设的探测方式,实现对未知网站的首页的探测,以获得未知网站的首页信息,通过使用对未知网站首页的探测代替对网站全部网页的探测,能够减少对网站网页的探测量,达到了利用小带宽(应为“带宽”)快速探测网站的目的,并且通过提取网站首页的结构特征和文本特征,将结构特征与文本特征生成未知网站的联合特征向量,通过特征向量将数据特征和结构特征结合在一起,与仅仅基于网页内容进行辨别的方式相比,确定联合特征向量与预设网站模型的特征向量的相似度,提升了对指定类型网站的辨别精度与准确性。
具体地,指定类型,可以包括金融支付类网站、政府网站、企业网站等各种类型。
在上述技术方案中,优选地,还包括:标注单元208,用于对已知指定类型网站进行标注;采集单元210,用于对进行标注后的已知指定类型网站的首页进行数据采集,以生成训练集数据;预处理单元212,用于对训练集数据进行预处理,以提取训练集数据中的文本信息;生成单元206还用于:根据文本主体生成模型和文本信息,生成特征向量,以建立预设网站模型,其中,特征向量包括指定类型网站的关键词以及关键词的权重值。
在该技术方案中,通过对已知指定类型网站进行标注,以生成训练样本,通过对训练样本进行分析,并提取样本中的文本特征,根据文本特征和文档主题生成模型,生成预设网站模型,从而建立了用于确定未知网站是否为指定类型网站的对比模型。
具体地,在确定未知网站的首页信息之前,首先建立指定类型的预设网站模型,以互联网金融网站为例,建立互联网金融交易网站模型,其主要流程包括:(1)人工标注互联网金融交易类网站,(2)对已标注的互联网金融交易类网站的网页进行数据采集,为了达到节省带宽的目的,只探测网站的首页,通过分析Url中的顶级域名确定网站首页的地址,(3)对网站首页执行去除html标签、去除css以及script脚本操作,以提取浏览器显示的文本内容,作为数据分析的输入数据,利用文档主题生成模型(LDA,Latent DirichletAllocation,也称为三层贝叶斯概率模型,包含词、主题和文档三层结构),提取输入数据的文本信息,生成特征向量,特征向量由关键词及其权重组成,根据特征向量建立互联网金融交易网站模型。
在上述任一项技术方案中,优选地,还包括:建立单元214,用于根据未知网站的IP信息,建立端口连接;发送单元216,用于通过端口向服务器发送HTTP HEAD请求;接收单元218,用于接收服务器根据HTTP HEAD请求反馈的判断结果,以根据判断结果确定网站入口。
在该技术方案中,通过端口向服务器发送HTTP HEAD请求(即只请求页面的首部),确定网站入口,从而确定未知网站的首页信息,实现了利用小带宽快速探测未知网站的目的。
对于提供HTTP服务的网站,绝大多数使用80端口作为默认HTTP端口,使用443端口作为HTTPS的默认端口,443端口即网页浏览端口,提供加密和通过安全端口传输,基于以上情况,在提供IP列表或IP段的情况下,通过连接80或者443端口并发送HTTP HEAD(GET)请求,根据返回结果判断IP是否提供HTTP服务,从而确定未知网站的网站入口。
在上述任一项技术方案中,优选地,还包括:搜索单元220,用于根据关键词进行网页搜索,以获取未知网站的搜索链接;提取单元204还用于:提取搜索链接中的顶级域名,以根据顶级域名确定网站入口。
在该技术方案中,通过搜索关键词获取未知网站的顶级域名,根据顶级域名确定未知网站的入口,此方法简单快捷,探测到的未知网站数量大,扩大了对未知网站的辨别范围。
具体地,利用文本主体生成模型得到特定领域互联网金融交易类网站的网页关键词,将该关键词作为搜索引擎的搜索关键词在搜索引擎中进行网页搜索,将搜索出的链接提取顶级域名后,作为未知网站的的网站入口。
在上述任一项技术方案中,优选地,确定单元202还用于:确定任意一个已知指定类型网站中的外部链接;指定类型网站的辨别装置200还包括:检测单元222,用于检测外部链接是否属于已知指定类型网站;确定单元202还用于:在检测到外部链接不属于已知指定类型网站时,将外部链接的网站首页确定为网站入口。
在该技术方案中,通过对已知的指定类型网站中的外部链接的检测,进一步提升了网站入口探测的安全性。
具体地,对于已知的指定类型的网站,对首页中出现的外部链接基于以下两方面进行分析,如该外部链接已存在,则不进行进一步处理;若该外部链接在之前的探测中并未出现,则将该外部链接网页的网站首页作为新的网站入口。
采用上面三种方式执行对未知网站的快速探测,可以选择三种方式中的任意一种执行,也可以两两结合执行,也可以三种方式一起执行,采用至少两种探测方式时,提升了对未知的互联网金融网站探测时的精度及广度,通过多方法联合探测的方式对数据进行多样化的采集,可以通过较小的带宽实现对指定类型的网站的探测,并且可以做到对未知网站的充分探测。
在上述任一项技术方案中,优选地,确定单元202还用于:确定未知网站的首页信息的网页源代码中,herf属性连续出现数量大于预设数量阈值的区域,以作为待处理区域;指定类型网站的辨别装置200还包括:去除单元224,用于去除待处理区域内的网页标签,以保留待处理区域内的文本内容;检测单元222还用于:检测文本内容的长度是否大于或等于预设长度阈值;确定单元202还用于:在检测到文本内容的长度大于或等于预设长度阈值时,将待处理区域确定为导航区域;生成单元206还用于:根据文本内容生成第一特征向量,以作为结构特征。
在该技术方案中,通过未知网站的首页信息的网页源代码中herf属性连续出现数量和检测文本内容的长度,确定未知网站的导航区域,从而生成第一特征向量作为网站的结构特征,提高了对未知网站辨别的可靠性。
第一特征向量为结构特征向量。
Herf(Hypertext Reference,超文本引用),herf属性用于指定超链接目标的URL,第一特征向量所指的结构特征,结构特征主要为网页的导航区特征,网页导航区可以认为是网页主题内容的概括和综述,因此对导航区特征的提取有利于对指定类型网站的判别,对网页导航区特征进行提取过程包括:(1)提取网页源代码中<body>部分出现的第一个具有连续herf属性的区域,即待处理区域,其中,herf属性连续出现的个数大于设定阈值,(2)去掉待处理区域的网页标签,保留浏览器显示部分的文本内容,检测文本内容长度是否满足预设长度阈值要求,满足长度要求时,表明待处理区域为导航区,则根据文本内容生成第一特征向量,不满足长度要求时,提取网页源代码中<body>部分出现的下一个具有连续herf属性的区域,指导确定待处理区域,以将文本内容作为导航区特征,并生成第一特征向量:
X=(x1,x2,……,xN)
在上述任一项技术方案中,优选地,提取未知网站的首页信息的文本特征,具体包括以下步骤:去除单元224还用于:去除未知网站的首页信息的网页源码中的标签信息,以生成待处理文本;指定类型网站的辨别装置200还包括:统计单元226,用于对待处理文本执行文本统计操作,以确定待处理文本中的文本词数数量;确定单元202还用于:根据文本词数数量与文本的统计词频,确定文本的关键词与关键词的权重;生成单元206还用于:根据关键词与关键词权重,生成第二特征向量,以作为文本特征,其中,标签信息包括html标签,css脚本与script脚本。
在该技术方案中,通过去除未知网站首页信息的网页源代码中的网页标签,以生成待处理文本,通过待处理文本生成关键词与关键词权重,以生成第二特征向量,与TF-IDF(term frequency-inverse document frequency用于信息检索与数据挖掘的加权技术)相比,与实际应用场景结合,主要基于词频与总次数,处理过程更加简单。
第二特征向量为文本特征向量。
具体地,对浏览器中显示的文本内容进行特征提取,包括以下步骤:(1)去除网页源码中html标签,css、script脚本,(2)对文本分词、去停用词、统计词频TF,计算文本总词数wordNum,(3)计算TF/wordNum,取出前N个TF/wordNum值较大的词作为文本关键词,形成第二特征向量:
Y=((y11),(y22)……,(yNN))
其中,y表示关键词,ω表示关键词权重。
在上述任一项技术方案中,优选地,确定单元202还用于:确定联合特征向量与特征向量的余弦参数;确定单元202还用于:根据余弦参数,确定相似度;检测单元222还用于:检测相似度是否大于或等于预设相似度阈值;确定单元202还用于:在检测到相似度大于或等于预设相似度阈值时,确定未知网站为指定类型网站。
在该技术方案中,通过确定联合特征向量与特征向量的余弦参数,以根据余弦相似性确定检测的未知网站是否为指定类型网站,可以有效的对指定类型网站的安全性进行评估,并及时发现可疑的网站,提升了用户的使用体验。
具体地,对提取的第一特征向量(导航区特征)及第二特征向量(文本特征)加权求和,得到联合特征向量,具体公式为:
其中,可根据实际应用调整权重参数。
利用余弦相似性:
计算未知网站的联合特征向量F与预设网站模型M的特征向量的相似度,并按照阈值筛选出可疑的互联网金融交易类网站。
图3示出了根据本发明的一个实施例的指定类型网站的辨别方案的示意图。
如图3所示,根据本发明的一个实施例的指定类型网站的辨别方案,包括预处理模块、探测模块与辨别模块。
在预处理模块中,通过人工标注、数据采集、预处理以及LDA特征提取,生成特征向量,特征向量由关键词及其权重组成,根据文本特征向量建立互联网金融交易网站模型。
在探测模块中,包括IP扫描、搜索引擎检测与外部链接分析三种方式。
采用上面三种方式执行对未知网站的快速探测,可以选择三种方式中的任意一种执行,也可以两两结合执行,也可以三种方式一起执行,采用至少两种探测方式时,提升了对未知的互联网金融网站探测时的精度及广度,通过多方法联合探测的方式对数据进行多样化的采集,可以通过较小的带宽实现对指定类型的网站的探测,并且可以做到对未知网站的充分探测。
在辨别模块中,基于探测模块确定的未知网站的首页信息,分别生成结构特征向量与文本特征向量,通过结构特征向量与文本特征向量生成联合特征向量,联合特征向量与从预设网站模型中提取的特征向量相比,确定余弦相似性,根据余弦相似性确定是指定类型网站,还是可疑类型网站。
以上结合附图详细说明了本发明的技术方案,一方面,对于未知网站的快速探测,提升了探测精度与探测广度,通过多种方式联合探测,提升了探测精度与探测广度,通过较小的带宽实现对指定类型网站的探测,并且可以做到对未知网站的充分探测,另一方面,通过文本特征和结构特征相结合的方式,结合对网站首页的分析实现对指定类型的网站的判别,提高了判别的精准度,同时不需要通过大量网页对网站站点进行分析,只需通过网站的顶级域名获取网站首页,简化了处理过程。这一步为特定领域的金融类网站的数据分析提供支撑,有效的对互联网金融交易网站等指定类型的网站的安全性进行评估并及时发现可疑网站。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (16)

1.一种指定类型网站的辨别方法,其特征在于,包括:
根据预设的探测方式,确定未知网站的网站入口,以确定所述未知网站的首页信息;
提取所述首页信息的结构特征;
提取所述首页信息的文本特征;
对所述结构特征与所述文本特征进行加权处理,以生成所述未知网站的联合特征向量;
确定所述联合特征向量与预设网站模型的特征向量的相似度,以确定所述未知网站是否为所述指定类型网站。
2.根据权利要求1所述的网站的辨别方法,其特征在于,所述在根据预设的探测方式,确定未知网站的网站入口,以确定所述未知网站的首页信息前,还包括:
对已知指定类型网站进行标注;
对进行标注后的所述已知指定类型网站的首页进行数据采集,以生成训练集数据;
对所述训练集数据进行预处理,以提取所述训练集数据中的文本信息;
根据文本主体生成模型和所述文本信息,生成所述特征向量,以根据所述特征向量建立所述预设网站模型,
其中,所述特征向量包括所述指定类型网站的关键词以及所述指定类型网站的关键词的权重值。
3.根据权利要求1所述的指定类型网站的辨别方法,其特征在于,所述根据预设的探测方式,确定未知网站的网站入口,以确定所述未知网站的首页信息,具体包括以下步骤:
根据所述未知网站的IP信息,建立端口连接;
通过所述端口向服务器发送HTTP HEAD请求;
接收服务器根据所述HTTP HEAD请求反馈的判断结果,以根据所述判断结果确定所述网站入口。
4.根据权利要求2所述的指定类型网站的辨别方法,其特征在于,所述根据预设的探测方式,确定未知网站的网站入口,以确定所述未知网站的首页信息,具体包括以下步骤:
根据所述关键词进行网页搜索,以获取所述未知网站的搜索链接;
提取所述搜索链接中的顶级域名,以根据所述顶级域名确定所述网站入口。
5.根据权利要求2所述的指定类型网站的辨别方法,其特征在于,所述根据预设的探测方式,确定未知网站的网站入口,以确定所述未知网站的首页信息,具体包括以下步骤:
确定任意一个所述已知指定类型网站中的外部链接;
检测所述外部链接是否属于所述已知指定类型网站;
在检测到所述外部链接不属于所述已知指定类型网站时,将所述外部链接的网站首页确定为所述网站入口。
6.根据权利要求1所述的指定类型网站的辨别方法,其特征在于,所述提取所述未知网站的首页信息的结构特征,具体包括以下步骤:
确定所述未知网站的首页信息的网页源代码中,herf属性连续出现数量大于预设数量阈值的区域,以作为待处理区域;
去除所述待处理区域内的网页标签,以保留所述待处理区域内的文本内容;
检测所述文本内容的长度是否大于或等于预设长度阈值;
在检测到所述文本内容的长度大于或等于所述预设长度阈值时,将所述待处理区域确定为导航区域;
根据所述文本内容生成第一特征向量,以作为所述结构特征。
7.根据权利要求1所述的指定类型网站的辨别方法,其特征在于,所述提取所述未知网站的首页信息的文本特征,具体包括以下步骤:
去除所述未知网站的首页信息的网页源码中的标签信息,以生成待处理文本;
对所述待处理文本执行文本统计操作,以确定所述待处理文本中的文本词数数量;
根据所述文本词数数量与所述文本的统计词频,确定所述文本的关键词与所述文本的关键词的权重;
根据所述关键词与所述关键词权重,生成第二特征向量,以作为所述文本特征,
其中,所述标签信息包括html标签,css脚本与script脚本。
8.根据权利要求2至7中任一项所述的指定类型网站的辨别方法,其特征在于,所述检测所述联合特征向量与预设网站模型的特征向量的相似度,以确定所述未知网站是否为所述指定类型网站,具体包括以下步骤:
确定所述联合特征向量与所述特征向量的余弦参数;
根据所述余弦参数,确定所述相似度;
检测所述相似度是否大于或等于预设相似度阈值;
在检测到所述相似度大于或等于所述预设相似度阈值时,确定所述未知网站为所述指定类型网站。
9.一种指定类型网站的辨别装置,其特征在于,包括:
确定单元,用于根据预设的探测方式,确定未知网站的网站入口,以确定所述未知网站的首页信息;
提取单元,用于提取所述未知网站的首页信息的结构特征;
所述提取单元还用于:提取所述未知网站的首页信息的文本特征;
生成单元,用于对所述结构特征与所述文本特征进行加权处理,以生成所述未知网站的联合特征向量;
所述确定单元还用于:确定所述联合特征向量与预设网站模型的特征向量的相似度,以确定所述未知网站是否为所述指定类型网站。
10.根据权利要求9所述的网站的辨别装置,其特征在于,还包括:
标注单元,用于对已知指定类型网站进行标注;
采集单元,用于对进行标注后的所述已知指定类型网站的首页进行数据采集,以生成训练集数据;
预处理单元,用于对所述训练集数据进行预处理,以提取所述训练集数据中的文本信息;
所述生成单元还用于:根据文本主体生成模型和所述文本信息,生成所述特征向量,以根据所述特征向量建立所述预设网站模型,
其中,所述特征向量包括所述指定类型网站的关键词以及所述关键词的权重值。
11.根据权利要求9所述的指定类型网站的辨别装置,其特征在于,还包括:
建立单元,用于根据所述未知网站的IP信息,建立端口连接;
发送单元,用于通过所述端口向服务器发送HTTP HEAD请求;
接收单元,用于接收服务器根据所述HTTP HEAD请求反馈的判断结果,以根据所述判断结果确定所述网站入口。
12.根据权利要求10所述的指定类型网站的辨别装置,其特征在于,还包括:
搜索单元,用于根据所述关键词进行网页搜索,以获取所述未知网站的搜索链接;
所述提取单元还用于:提取所述搜索链接中的顶级域名,以根据所述顶级域名确定所述网站入口。
13.根据权利要求10所述的指定类型网站的辨别装置,其特征在于,
所述确定单元还用于:确定任意一个所述已知指定类型网站中的外部链接;
所述指定类型网站的辨别装置还包括:
检测单元,用于检测所述外部链接是否属于所述已知指定类型网站;
所述确定单元还用于:在检测到所述外部链接不属于所述已知指定类型网站时,将所述外部链接的网站首页确定为所述网站入口。
14.根据权利要9所述的指定类型网站的辨别装置,其特征在于,
所述确定单元还用于:确定所述未知网站的首页信息的网页源代码中,herf属性连续出现数量大于预设数量阈值的区域,以作为待处理区域;
所述指定类型网站的辨别装置还包括:
去除单元,用于去除所述待处理区域内的网页标签,以保留所述待处理区域内的文本内容;
所述检测单元还用于:检测所述文本内容的长度是否大于或等于预设长度阈值;
所述确定单元还用于:在检测到所述文本内容的长度大于或等于所述预设长度阈值时,将所述待处理区域确定为导航区域;
所述生成单元还用于:根据所述文本内容生成第一特征向量,以作为所述结构特征。
15.根据权利要求9所述的指定类型网站的辨别装置,其特征在于,所述提取所述未知网站的首页信息的文本特征,具体包括以下步骤:
所述去除单元还用于:去除所述未知网站的首页信息的网页源码中的标签信息,以生成待处理文本;
所述指定类型网站的辨别装置还包括:
统计单元,用于对所述待处理文本执行文本统计操作,以确定所述待处理文本中的文本词数数量;
所述确定单元还用于:根据所述文本词数数量与所述文本的统计词频,确定所述文本的关键词与所述关键词的权重;
所述生成单元还用于:根据所述关键词与所述关键词权重,生成第二特征向量,以作为所述文本特征,
其中,所述标签信息包括html标签,css脚本与script脚本。
16.根据权利要求10至15中任一项所述的指定类型网站的辨别装置,其特征在于,
所述确定单元还用于:确定所述联合特征向量与所述特征向量的余弦参数;
所述确定单元还用于:根据所述余弦参数,确定所述相似度;
所述检测单元还用于:检测所述相似度是否大于或等于预设相似度阈值;
所述确定单元还用于:在检测到所述相似度大于或等于所述预设相似度阈值时,确定所述未知网站为所述指定类型网站。
CN201710227599.6A 2017-04-10 2017-04-10 指定类型网站的辨别方法和指定类型网站的辨别装置 Expired - Fee Related CN108694325B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710227599.6A CN108694325B (zh) 2017-04-10 2017-04-10 指定类型网站的辨别方法和指定类型网站的辨别装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710227599.6A CN108694325B (zh) 2017-04-10 2017-04-10 指定类型网站的辨别方法和指定类型网站的辨别装置

Publications (2)

Publication Number Publication Date
CN108694325A true CN108694325A (zh) 2018-10-23
CN108694325B CN108694325B (zh) 2020-12-29

Family

ID=63843185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710227599.6A Expired - Fee Related CN108694325B (zh) 2017-04-10 2017-04-10 指定类型网站的辨别方法和指定类型网站的辨别装置

Country Status (1)

Country Link
CN (1) CN108694325B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299346A (zh) * 2018-10-31 2019-02-01 长春理工大学 一种无效地址网页的识别方法及系统
CN109460471A (zh) * 2018-11-01 2019-03-12 信融源大数据科技(北京)有限公司 一种基于自学习的方式建立纤维种类图谱库的方法
CN109684844A (zh) * 2018-12-27 2019-04-26 北京神州绿盟信息安全科技股份有限公司 一种webshell检测方法及装置
CN111753171A (zh) * 2020-06-09 2020-10-09 北京天空卫士网络安全技术有限公司 一种恶意网站的识别方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678310A (zh) * 2012-08-31 2014-03-26 腾讯科技(深圳)有限公司 网页主题的分类方法及装置
CN103810264A (zh) * 2014-01-27 2014-05-21 西安理工大学 基于特征选择的网页文本分类方法
CN104978423A (zh) * 2015-06-30 2015-10-14 北京奇虎科技有限公司 网站类型的检测方法及装置
CN105069107A (zh) * 2015-08-07 2015-11-18 北京百度网讯科技有限公司 监控网站的方法和装置
CN106484919A (zh) * 2016-11-15 2017-03-08 任子行网络技术股份有限公司 一种基于网页独立词的行业网站分类方法和系统
CN106528595B (zh) * 2016-09-23 2019-08-06 中国农业科学院农业信息研究所 基于网站首页内容的领域信息收集和关联方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678310A (zh) * 2012-08-31 2014-03-26 腾讯科技(深圳)有限公司 网页主题的分类方法及装置
CN103810264A (zh) * 2014-01-27 2014-05-21 西安理工大学 基于特征选择的网页文本分类方法
CN104978423A (zh) * 2015-06-30 2015-10-14 北京奇虎科技有限公司 网站类型的检测方法及装置
CN105069107A (zh) * 2015-08-07 2015-11-18 北京百度网讯科技有限公司 监控网站的方法和装置
CN106528595B (zh) * 2016-09-23 2019-08-06 中国农业科学院农业信息研究所 基于网站首页内容的领域信息收集和关联方法
CN106484919A (zh) * 2016-11-15 2017-03-08 任子行网络技术股份有限公司 一种基于网页独立词的行业网站分类方法和系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299346A (zh) * 2018-10-31 2019-02-01 长春理工大学 一种无效地址网页的识别方法及系统
CN109299346B (zh) * 2018-10-31 2020-12-08 长春理工大学 一种无效地址网页的识别方法及系统
CN109460471A (zh) * 2018-11-01 2019-03-12 信融源大数据科技(北京)有限公司 一种基于自学习的方式建立纤维种类图谱库的方法
CN109460471B (zh) * 2018-11-01 2021-09-24 信融源大数据科技(北京)有限公司 一种基于自学习的方式建立纤维种类图谱库的方法
CN109684844A (zh) * 2018-12-27 2019-04-26 北京神州绿盟信息安全科技股份有限公司 一种webshell检测方法及装置
CN109684844B (zh) * 2018-12-27 2020-11-20 北京神州绿盟信息安全科技股份有限公司 一种webshell检测方法、装置以及计算设备、计算机可读存储介质
CN111753171A (zh) * 2020-06-09 2020-10-09 北京天空卫士网络安全技术有限公司 一种恶意网站的识别方法和装置
CN111753171B (zh) * 2020-06-09 2024-04-26 北京天空卫士网络安全技术有限公司 一种恶意网站的识别方法和装置

Also Published As

Publication number Publication date
CN108694325B (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
CN103843003B (zh) 识别网络钓鱼网站的方法
CN106685936B (zh) 网页篡改的检测方法及装置
CN103544436B (zh) 一种钓鱼网站鉴别系统和方法
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
CN103577755A (zh) 一种基于支持向量机的恶意脚本静态检测方法
CN110602045B (zh) 一种基于特征融合和机器学习的恶意网页识别方法
CN103297394B (zh) 网站安全检测方法和装置
CN105718577B (zh) 一种针对新增域名自动检测网络钓鱼的方法与系统
CN104077396A (zh) 一种钓鱼网站检测方法及装置
CN102436563B (zh) 一种检测页面篡改的方法及装置
CN108566399B (zh) 钓鱼网站识别方法及系统
CN104199874A (zh) 一种基于用户浏览行为的网页推荐方法
CN112541476B (zh) 一种基于语义特征提取的恶意网页识别方法
CN108694325A (zh) 指定类型网站的辨别方法和指定类型网站的辨别装置
CN104881608A (zh) 一种基于模拟浏览器行为的xss漏洞检测方法
CN105138907B (zh) 一种主动探测被攻击网站的方法和系统
CN109922065B (zh) 恶意网站快速识别方法
CN111107048A (zh) 一种钓鱼网站检测方法、装置和存储介质
CN104881607A (zh) 一种基于模拟浏览器行为的xss漏洞检测系统
CN109194677A (zh) 一种sql注入攻击检测方法、装置及设备
CN107181730A (zh) 一种仿冒网站监测识别方法及系统
CN106022132A (zh) 一种基于动态内容分析的网页木马实时检测方法
CN102063484B (zh) 第三方web应用程序发现的方法和装置
CN111460803B (zh) 基于工业物联网设备Web管理页面的设备识别方法
CN112200196A (zh) 钓鱼网站检测方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230613

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201229

CF01 Termination of patent right due to non-payment of annual fee