指定类型网站的辨别方法和指定类型网站的辨别装置
技术领域
本发明涉及互联网技术领域,具体而言,涉及一种指定类型网站的辨别方法和一种指定类型网站的辨别装置。
背景技术
在相关技术中,随着互联网的迅速发展,互联网金融类网站应运而生,越来越多的用户通过互联网进行金融交易,但是由于用户难以判断互联网金融网站的资质及安全性,因而产生了很多通过非法手段敛财的伪互联网金融类网站,因此建立对互联网金融类网站的探测和判别机制具有十分重要的意义。
目前对于互联网金融类网站的探测,主要通过采集站点的全部网页的方式实现,具有以下缺陷:
(1)探测量过多导致占用带宽严重;
(2)单一网页的采集方式不能满足对于网站数据广度上的需求。
对于互联网金融类网站的判别,主要基于对网页内容的分析,易造成误判,判别的结果通常包括资讯类的金融门户网站、大型门户网站(如新浪财经等),不能准确识别出指定类型的金融类网站。
发明内容
本发明正是基于上述技术问题至少之一,提出了一种新的指定类型网站的辨别方案,通过预设的探测方式,实现对未知网站的首页的探测,以获得未知网站的首页信息,通过使用对未知网站首页的探测代替对网站全部网页的探测,能够减少对网站网页的探测量,达到了利用小带宽快速探测网站的目的,并且通过提取网站首页的结构特征和文本特征,将结构特征与文本特征生成未知网站的联合特征向量,通过特征向量将数据特征和结构特征结合在一起,与仅仅基于网页内容进行辨别的方式相比,确定联合特征向量与预设网站模型的特征向量的相似度,提升了对指定类型网站的辨别精度与准确性。
有鉴于此,本发明提出了一种指定类型网站的辨别方法,包括:根据预设的探测方式,确定未知网站的网站入口,以确定未知网站的首页信息;提取未知网站的首页信息的结构特征;提取未知网站的首页信息的文本特征;对结构特征与文本特征进行加权处理,以生成未知网站的联合特征向量;确定联合特征向量与预设网站模型的特征向量的相似度,以确定未知网站是否为指定类型网站。
在该技术方案中,通过预设的探测方式,实现对未知网站的首页的探测,以获得未知网站的首页信息,通过使用对未知网站首页的探测代替对网站全部网页的探测,能够减少对网站网页的探测量,达到了利用小带宽快速探测网站的目的,并且通过提取网站首页的结构特征和文本特征,将结构特征与文本特征生成未知网站的联合特征向量,通过特征向量将数据特征和结构特征结合在一起,与仅仅基于网页内容进行辨别的方式相比,确定联合特征向量与预设网站模型的特征向量的相似度,提升了对指定类型网站的辨别精度与准确性。
具体地,指定类型,可以包括金融支付类网站、政府网站、企业网站等各种类型。
在上述技术方案中,优选地,在根据预设的探测方式,确定未知网站的网站入口,以确定未知网站的首页信息前,还包括:对已知指定类型网站进行标注;对进行标注后的已知指定类型网站的首页进行数据采集,以生成训练集数据;对训练集数据进行预处理,以提取训练集数据中的文本信息;根据文本主体生成模型和文本信息,生成特征向量,以建立预设网站模型,其中,特征向量包括指定类型网站的关键词以及关键词的权重值。
在该技术方案中,通过对已知指定类型网站进行标注,以生成训练样本,通过对训练样本进行分析,并提取样本中的文本特征,根据文本特征和文档主题生成模型,生成预设网站模型,从而建立了用于确定未知网站是否为指定类型网站的对比模型。
具体地,在确定未知网站的首页信息之前,首先建立指定类型的预设网站模型,以互联网金融网站为例,建立互联网金融交易网站模型,其主要流程包括:(1)人工标注互联网金融交易类网站,(2)对已标注的互联网金融交易类网站的网页进行数据采集,为了达到节省带宽的目的,只探测网站的首页,通过分析Url中的顶级域名确定网站首页的地址,(3)对网站首页执行去除html标签、去除css以及script脚本操作,以提取浏览器显示的文本内容,作为数据分析的输入数据,利用文档主题生成模型(LDA,Latent DirichletAllocation,也称为三层贝叶斯概率模型,包含词、主题和文档三层结构),提取输入数据的文本信息,生成特征向量,特征向量由关键词及其权重组成,根据特征向量建立互联网金融交易网站模型。
在上述任一项技术方案中,优选地,根据预设的探测方式,确定未知网站的网站入口,以确定未知网站的首页信息,具体包括以下步骤:根据未知网站的IP信息,建立端口连接;通过端口向服务器发送HTTP HEAD请求;接收服务器根据HTTP HEAD请求反馈的判断结果,以根据判断结果确定网站入口。
在该技术方案中,通过端口向服务器发送HTTP HEAD请求(即只请求页面的首部),确定网站入口,从而确定未知网站的首页信息,实现了利用小带宽快速探测未知网站的目的。
对于提供HTTP服务的网站,绝大多数使用80端口作为默认HTTP端口,使用443端口作为HTTPS的默认端口,443端口即网页浏览端口,提供加密和通过安全端口传输,基于以上情况,在提供IP列表或IP段的情况下,通过连接80或者443端口并发送HTTP HEAD(GET)请求,根据返回结果判断IP是否提供HTTP服务,从而确定未知网站的网站入口。
在上述任一项技术方案中,优选地,根据预设的探测方式,确定未知网站的网站入口,以确定未知网站的首页信息,具体包括以下步骤:根据关键词进行网页搜索,以获取未知网站的搜索链接;提取搜索链接中的顶级域名,以根据顶级域名确定网站入口。
在该技术方案中,通过搜索关键词获取未知网站的顶级域名,根据顶级域名确定未知网站的入口,此方法简单快捷,探测到的未知网站数量大,扩大了对未知网站的辨别范围。
具体地,利用文本主体生成模型得到特定领域互联网金融交易类网站的网页关键词,将该关键词作为搜索引擎的搜索关键词在搜索引擎中进行网页搜索,将搜索出的链接提取顶级域名后,作为未知网站的的网站入口。
在上述任一项技术方案中,优选地,根据预设的探测方式,确定未知网站的网站入口,以确定未知网站的首页信息,具体包括以下步骤:确定任意一个已知指定类型网站中的外部链接;检测外部链接是否属于已知指定类型网站;在检测到外部链接不属于已知指定类型网站时,将外部链接的网站首页确定为网站入口。
在该技术方案中,通过对已知的指定类型网站中的外部链接的检测,进一步提升了网站入口探测的安全性。
具体地,对于已知的指定类型的网站,对首页中出现的外部链接基于以下两方面进行分析,如该外部链接已存在,则不进行进一步处理;若该外部链接在之前的探测中并未出现,则将该外部链接网页的网站首页作为新的网站入口。
采用上面三种方式执行对未知网站的快速探测,可以选择三种方式中的任意一种执行,也可以两两结合执行,也可以三种方式一起执行,采用至少两种探测方式时,提升了对未知的互联网金融网站探测时的精度及广度,通过多方法联合探测的方式对数据进行多样化的采集,可以通过较小的带宽实现对指定类型的网站的探测,并且可以做到对未知网站的充分探测。
在上述任一项技术方案中,优选地,提取未知网站的首页信息的结构特征,具体包括以下步骤:确定未知网站的首页信息的网页源代码中,herf属性连续出现数量大于预设数量阈值的区域,以作为待处理区域;去除待处理区域内的网页标签,以保留待处理区域内的文本内容;检测文本内容的长度是否大于或等于预设长度阈值;在检测到文本内容的长度大于或等于预设长度阈值时,将待处理区域确定为导航区域;根据文本内容生成第一特征向量,以作为结构特征。
在该技术方案中,通过未知网站的首页信息的网页源代码中herf属性连续出现数量和检测文本内容的长度,确定未知网站的导航区域,从而生成第一特征向量作为网站的结构特征,提高了对未知网站辨别的可靠性。
第一特征向量为结构特征向量。
Herf(Hypertext Reference,超文本引用),herf属性用于指定超链接目标的URL,第一特征向量所指的结构特征,结构特征主要为网页的导航区特征,网页导航区可以认为是网页主题内容的概括和综述,因此对导航区特征的提取有利于对指定类型网站的判别,对网页导航区特征进行提取过程包括:(1)提取网页源代码中<body>部分出现的第一个具有连续herf属性的区域,即待处理区域,其中,herf属性连续出现的个数大于设定阈值,(2)去掉待处理区域的网页标签,保留浏览器显示部分的文本内容,检测文本内容长度是否满足预设长度阈值要求,满足长度要求时,表明待处理区域为导航区,则根据文本内容生成第一特征向量,不满足长度要求时,提取网页源代码中<body>部分出现的下一个具有连续herf属性的区域,指导确定待处理区域,以将文本内容作为导航区特征,并生成第一特征向量:
X=(x1,x2,……,xN)
在上述任一项技术方案中,优选地,提取未知网站的首页信息的文本特征,具体包括以下步骤:去除未知网站的首页信息的网页源码中的标签信息,以生成待处理文本;对待处理文本执行文本统计操作,以确定待处理文本中的文本词数数量;根据文本词数数量与文本的统计词频,确定文本的关键词与关键词的权重;根据关键词与关键词权重,生成第二特征向量,以作为文本特征,其中,标签信息包括html标签,css脚本与script脚本。
在该技术方案中,通过去除未知网站首页信息的网页源代码中的网页标签,以生成待处理文本,通过待处理文本生成关键词与关键词权重,以生成第二特征向量,与TF-IDF(term frequency-inverse document frequency用于信息检索与数据挖掘的加权技术)相比,与实际应用场景结合,主要基于词频与总次数,处理过程更加简单。
第二特征向量为文本特征向量。
具体地,对浏览器中显示的文本内容进行特征提取,包括以下步骤:(1)去除网页源码中html标签,css、script脚本,(2)对文本分词、去停用词、统计词频TF,计算文本总词数wordNum,(3)计算TF/wordNum,取出前N个TF/wordNum值较大的词作为文本关键词,形成第二特征向量:
Y=((y1,ω1),(y2,ω2)……,(yN,ωN))
其中,y表示关键词,ω表示关键词权重。
在上述任一项技术方案中,优选地,检测联合特征向量与预设网站模型的特征向量的相似度,以确定未知网站是否为指定类型网站,具体包括以下步骤:确定联合特征向量与特征向量的余弦参数;根据余弦参数,确定相似度;检测相似度是否大于或等于预设相似度阈值;在检测到相似度大于或等于预设相似度阈值时,确定未知网站为指定类型网站。
在该技术方案中,通过确定联合特征向量与特征向量的余弦参数,以根据余弦相似性确定检测的未知网站是否为指定类型网站,可以有效的对指定类型网站的安全性进行评估,并及时发现可疑的网站,提升了用户的使用体验。
具体地,对提取的第一特征向量(导航区特征)及第二特征向量(文本特征)加权求和,得到联合特征向量,具体公式为:
其中,可根据实际应用调整权重参数。
利用余弦相似性:
计算未知网站的联合特征向量F与预设网站模型M的特征向量的相似度,并按照阈值筛选出可疑的互联网金融交易类网站。
通过文本特征和结构特征相结合的方式,结合对网站首页的分析实现对指定类型的网站的判别,提高了判别的精准度,同时不需要通过大量网页对网站站点进行分析,只需通过网站的顶级域名获取网站首页,简化了处理过程。这一步为特定领域的金融类网站的数据分析提供支撑,有效的对互联网金融交易网站等指定类型的网站的安全性进行评估并及时发现可疑网站。
根据本发明第二方面,还提出了一种装置,包括:确定单元,用于根据预设的探测方式,确定未知网站的网站入口,以确定未知网站的首页信息;提取单元,用于提取未知网站的首页信息的结构特征;提取单元还用于:提取未知网站的首页信息的文本特征;生成单元,用于对结构特征与文本特征进行加权处理,以生成未知网站的联合特征向量;确定单元还用于:确定联合特征向量与预设网站模型的特征向量的相似度,以确定未知网站是否为指定类型网站。
在该技术方案中,通过预设的探测方式,实现对未知网站的首页的探测,以获得未知网站的首页信息,通过使用对未知网站首页的探测代替对网站全部网页的探测,能够减少对网站网页的探测量,达到了利用小带宽快速探测网站的目的,并且通过提取网站首页的结构特征和文本特征,将结构特征与文本特征生成未知网站的联合特征向量,通过特征向量将数据特征和结构特征结合在一起,与仅仅基于网页内容进行辨别的方式相比,确定联合特征向量与预设网站模型的特征向量的相似度,提升了对指定类型网站的辨别精度与准确性。
具体地,指定类型,可以包括金融支付类网站、政府网站、企业网站等各种类型。
在上述技术方案中,优选地,还包括:标注单元,用于对已知指定类型网站进行标注;采集单元,用于对进行标注后的已知指定类型网站的首页进行数据采集,以生成训练集数据;预处理单元,用于对训练集数据进行预处理,以提取训练集数据中的文本信息;生成单元还用于:根据文本主体生成模型和文本信息,生成特征向量,以建立预设网站模型,其中,特征向量包括指定类型网站的关键词以及关键词的权重值。
在该技术方案中,通过对已知指定类型网站进行标注,以生成训练样本,通过对训练样本进行分析,并提取样本中的文本特征,根据文本特征和文档主题生成模型,生成预设网站模型,从而建立了用于确定未知网站是否为指定类型网站的对比模型。
具体地,在确定未知网站的首页信息之前,首先建立指定类型的预设网站模型,以互联网金融网站为例,建立互联网金融交易网站模型,其主要流程包括:(1)人工标注互联网金融交易类网站,(2)对已标注的互联网金融交易类网站的网页进行数据采集,为了达到节省带宽的目的,只探测网站的首页,通过分析Url中的顶级域名确定网站首页的地址,(3)对网站首页执行去除html标签、去除css以及script脚本操作,以提取浏览器显示的文本内容,作为数据分析的输入数据,利用文档主题生成模型(LDA,Latent DirichletAllocation,也称为三层贝叶斯概率模型,包含词、主题和文档三层结构),提取输入数据的文本信息,生成特征向量,特征向量由关键词及其权重组成,根据文本特征向量建立互联网金融交易网站模型。
在上述任一项技术方案中,优选地,还包括:建立单元,用于根据未知网站的IP信息,建立端口连接;发送单元,用于通过端口向服务器发送HTTP HEAD请求;接收单元,用于接收服务器根据HTTP HEAD请求反馈的判断结果,以根据判断结果确定网站入口。
在该技术方案中,通过端口向服务器发送HTTP HEAD请求(即只请求页面的首部),确定网站入口,从而确定未知网站的首页信息,实现了利用小带宽快速探测未知网站的目的。
对于提供HTTP服务的网站,绝大多数使用80端口作为默认HTTP端口,使用443端口作为HTTPS的默认端口,443端口即网页浏览端口,提供加密和通过安全端口传输,基于以上情况,在提供IP列表或IP段的情况下,通过连接80或者443端口并发送HTTP HEAD(GET)请求,根据返回结果判断IP是否提供HTTP服务,从而确定未知网站的网站入口。
在上述任一项技术方案中,优选地,还包括:搜索单元,用于根据关键词进行网页搜索,以获取未知网站的搜索链接;提取单元还用于:提取搜索链接中的顶级域名,以根据顶级域名确定网站入口。
在该技术方案中,通过搜索关键词获取未知网站的顶级域名,根据顶级域名确定未知网站的入口,此方法简单快捷,探测到的未知网站数量大,扩大了对未知网站的辨别范围。
具体地,利用文本主体生成模型得到特定领域互联网金融交易类网站的网页关键词,将该关键词作为搜索引擎的搜索关键词在搜索引擎中进行网页搜索,将搜索出的链接提取顶级域名后,作为未知网站的的网站入口。
在上述任一项技术方案中,优选地,确定单元还用于:确定任意一个已知指定类型网站中的外部链接;指定类型网站的辨别装置还包括:检测单元,用于检测外部链接是否属于已知指定类型网站;确定单元还用于:在检测到外部链接不属于已知指定类型网站时,将外部链接的网站首页确定为网站入口。
在该技术方案中,通过对已知的指定类型网站中的外部链接的检测,进一步提升了网站入口探测的安全性。
具体地,对于已知的指定类型的网站,对首页中出现的外部链接基于以下两方面进行分析,如该外部链接已存在,则不进行进一步处理;若该外部链接在之前的探测中并未出现,则将该外部链接网页的网站首页作为新的网站入口。
采用上面三种方式执行对未知网站的快速探测,可以选择三种方式中的任意一种执行,也可以两两结合执行,也可以三种方式一起执行,采用至少两种探测方式时,提升了对未知的互联网金融网站探测时的精度及广度,通过多方法联合探测的方式对数据进行多样化的采集,可以通过较小的带宽实现对指定类型的网站的探测,并且可以做到对未知网站的充分探测。
在上述任一项技术方案中,优选地,确定单元还用于:确定未知网站的首页信息的网页源代码中,herf属性连续出现数量大于预设数量阈值的区域,以作为待处理区域;指定类型网站的辨别装置还包括:去除单元,用于去除待处理区域内的网页标签,以保留待处理区域内的文本内容;检测单元还用于:检测文本内容的长度是否大于或等于预设长度阈值;确定单元还用于:在检测到文本内容的长度大于或等于预设长度阈值时,将待处理区域确定为导航区域;生成单元还用于:根据文本内容生成第一特征向量,以作为结构特征。
在该技术方案中,通过未知网站的首页信息的网页源代码中herf属性连续出现数量和检测文本内容的长度,确定未知网站的导航区域,从而生成第一特征向量作为网站的结构特征,提高了对未知网站辨别的可靠性。
第一特征向量为结构特征向量。
Herf(Hypertext Reference,超文本引用),herf属性用于指定超链接目标的URL,第一特征向量所指的结构特征,结构特征主要为网页的导航区特征,网页导航区可以认为是网页主题内容的概括和综述,因此对导航区特征的提取有利于对指定类型网站的判别,对网页导航区特征进行提取过程包括:(1)提取网页源代码中<body>部分出现的第一个具有连续herf属性的区域,即待处理区域,其中,herf属性连续出现的个数大于设定阈值,(2)去掉待处理区域的网页标签,保留浏览器显示部分的文本内容,检测文本内容长度是否满足预设长度阈值要求,满足长度要求时,表明待处理区域为导航区,则根据文本内容生成第一特征向量,不满足长度要求时,提取网页源代码中<body>部分出现的下一个具有连续herf属性的区域,指导确定待处理区域,以将文本内容作为导航区特征,并生成第一特征向量:
X=(x1,x2,……,xN)
在上述任一项技术方案中,优选地,提取未知网站的首页信息的文本特征,具体包括以下步骤:去除单元还用于:去除未知网站的首页信息的网页源码中的标签信息,以生成待处理文本;指定类型网站的辨别装置还包括:统计单元,用于对待处理文本执行文本统计操作,以确定待处理文本中的文本词数数量;确定单元还用于:根据文本词数数量与文本的统计词频,确定文本的关键词与关键词的权重;生成单元还用于:根据关键词与关键词权重,生成第二特征向量,以作为文本特征,其中,标签信息包括html标签,css脚本与script脚本。
在该技术方案中,通过去除未知网站首页信息的网页源代码中的网页标签,以生成待处理文本,通过待处理文本生成关键词与关键词权重,以生成第二特征向量,与TF-IDF(term frequency-inverse document frequency用于信息检索与数据挖掘的加权技术)相比,与实际应用场景结合,主要基于词频与总次数,处理过程更加简单。
第二特征向量为文本特征向量。
具体地,对浏览器中显示的文本内容进行特征提取,包括以下步骤:(1)去除网页源码中html标签,css、script脚本,(2)对文本分词、去停用词、统计词频TF,计算文本总词数wordNum,(3)计算TF/wordNum,取出前N个TF/wordNum值较大的词作为文本关键词,形成第二特征向量:
Y=((y1,ω1),(y2,ω2)……,(yN,ωN))
其中,y表示关键词,ω表示关键词权重。
在上述任一项技术方案中,优选地,确定单元还用于:确定联合特征向量与特征向量的余弦参数;确定单元还用于:根据余弦参数,确定相似度;检测单元还用于:检测相似度是否大于或等于预设相似度阈值;确定单元还用于:在检测到相似度大于或等于预设相似度阈值时,确定未知网站为指定类型网站。
在该技术方案中,通过确定联合特征向量与特征向量的余弦参数,以根据余弦相似性确定检测的未知网站是否为指定类型网站,可以有效的对指定类型网站的安全性进行评估,并及时发现可疑的网站,提升了用户的使用体验。
具体地,对提取的第一特征向量(导航区特征)及第二特征向量(文本特征)加权求和,得到联合特征向量,具体公式为:
其中,可根据实际应用调整权重参数。
利用余弦相似性:
计算未知网站的联合特征向量F与预设网站模型M的特征向量的相似度,并按照阈值筛选出可疑的互联网金融交易类网站。
通过文本特征和结构特征相结合的方式,结合对网站首页的分析实现对指定类型的网站的判别,提高了判别的精准度,同时不需要通过大量网页对网站站点进行分析,只需通过网站的顶级域名获取网站首页,简化了处理过程。这一步为特定领域的金融类网站的数据分析提供支撑,有效的对互联网金融交易网站等指定类型的网站的安全性进行评估并及时发现可疑网站。
通过以上技术方案,通过预设的探测方式,实现对未知网站的首页的探测,以获得未知网站的首页信息,通过使用对未知网站首页的探测代替对网站全部网页的探测,能够减少对网站网页的探测量,达到了利用小带宽快速探测网站的目的,并且通过提取网站首页的结构特征和文本特征,将结构特征与文本特征生成未知网站的联合特征向量,通过特征向量将数据特征和结构特征结合在一起,与仅仅基于网页内容进行辨别的方式相比,确定联合特征向量与预设网站模型的特征向量的相似度,提升了对指定类型网站的辨别精度与准确性。
附图说明
图1示出了根据本发明的一个实施例的指定类型网站的辨别方法的示意流程图;
图2示出了根据本发明的实施例的指定类型网站的辨别装置的示意框图;
图3示出了根据本发明的一个实施例的指定类型网站的辨别方案的示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用第三方不同于在此描述的第三方方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了根据本发明的实施例的指定类型网站的辨别方法的示意流程图。
如图1所示,根据本发明的实施例的指定类型网站的辨别方法,包括:步骤102,根据预设的探测方式,确定未知网站的网站入口,以确定未知网站的首页信息;步骤104,提取未知网站的首页信息的结构特征;步骤106,提取未知网站的首页信息的文本特征;步骤108,对结构特征与文本特征进行加权处理,以生成未知网站的联合特征向量;步骤110,确定联合特征向量与预设网站模型的特征向量的相似度,以确定未知网站是否为指定类型网站。
在该技术方案中,通过预设的探测方式,实现对未知网站的首页的探测,以获得未知网站的首页信息,通过使用对未知网站首页的探测代替对网站全部网页的探测,能够减少对网站网页的探测量,达到了利用小带宽快速探测网站的目的,并且通过提取网站首页的结构特征和文本特征,将结构特征与文本特征生成未知网站的联合特征向量,通过特征向量将数据特征和结构特征结合在一起,与仅仅基于网页内容进行辨别的方式相比,确定联合特征向量与预设网站模型的特征向量的相似度,提升了对指定类型网站的辨别精度与准确性。
具体地,指定类型,可以包括金融支付类网站、政府网站、企业网站等各种类型。
在上述技术方案中,优选地,在根据预设的探测方式,确定未知网站的网站入口,以确定未知网站的首页信息前,还包括:对已知指定类型网站进行标注;对进行标注后的已知指定类型网站的首页进行数据采集,以生成训练集数据;对训练集数据进行预处理,以提取训练集数据中的文本信息;根据文本主体生成模型和文本信息,生成特征向量,以建立预设网站模型,其中,文本特征向量包括指定类型网站的关键词以及关键词的权重值。
在该技术方案中,通过对已知指定类型网站进行标注,以生成训练样本,通过对训练样本进行分析,并提取样本中的文本特征,根据文本特征和文档主题生成模型,生成预设网站模型,从而建立了用于确定未知网站是否为指定类型网站的对比模型。
具体地,在确定未知网站的首页信息之前,首先建立指定类型的预设网站模型,以互联网金融网站为例,建立互联网金融交易网站模型,其主要流程包括:(1)人工标注互联网金融交易类网站,(2)对已标注的互联网金融交易类网站的网页进行数据采集,为了达到节省带宽的目的,只探测网站的首页,通过分析Url中的顶级域名确定网站首页的地址,(3)对网站首页执行去除html标签、去除css以及script脚本操作,以提取浏览器显示的文本内容,作为数据分析的输入数据,利用文档主题生成模型(LDA,Latent DirichletAllocation,也称为三层贝叶斯概率模型,包含词、主题和文档三层结构),提取输入数据的文本信息,生成特征向量,特征向量由关键词及其权重组成,根据文本特征向量建立互联网金融交易网站模型。
在上述任一项技术方案中,优选地,根据预设的探测方式,确定未知网站的网站入口,以确定未知网站的首页信息,具体包括以下步骤:根据未知网站的IP信息,建立端口连接;通过端口向服务器发送HTTP HEAD请求;接收服务器根据HTTP HEAD请求反馈的判断结果,以根据判断结果确定网站入口。
在该技术方案中,通过端口向服务器发送HTTP HEAD请求(即只请求页面的首部),确定网站入口,从而确定未知网站的首页信息,实现了利用小带宽快速探测未知网站的目的。
对于提供HTTP服务的网站,绝大多数使用80端口作为默认HTTP端口,使用443端口作为HTTPS的默认端口,443端口即网页浏览端口,提供加密和通过安全端口传输,基于以上情况,在提供IP列表或IP段的情况下,通过连接80或者443端口并发送HTTP HEAD(GET)请求,根据返回结果判断IP是否提供HTTP服务,从而确定未知网站的网站入口。
在上述任一项技术方案中,优选地,根据预设的探测方式,确定未知网站的网站入口,以确定未知网站的首页信息,具体包括以下步骤:根据关键词进行网页搜索,以获取未知网站的搜索链接;提取搜索链接中的顶级域名,以根据顶级域名确定网站入口。
在该技术方案中,通过搜索关键词获取未知网站的顶级域名,根据顶级域名确定未知网站的入口,此方法简单快捷,探测到的未知网站数量大,扩大了对未知网站的辨别范围。
具体地,利用文本主体生成模型得到特定领域互联网金融交易类网站的网页关键词,将该关键词作为搜索引擎的搜索关键词在搜索引擎中进行网页搜索,将搜索出的链接提取顶级域名后,作为未知网站的的网站入口。
在上述任一项技术方案中,优选地,根据预设的探测方式,确定未知网站的网站入口,以确定未知网站的首页信息,具体包括以下步骤:确定任意一个已知指定类型网站中的外部链接;检测外部链接是否属于已知指定类型网站;在检测到外部链接不属于已知指定类型网站时,将外部链接的网站首页确定为网站入口。
在该技术方案中,通过对已知的指定类型网站中的外部链接的检测,进一步提升了网站入口探测的安全性。
具体地,对于已知的指定类型的网站,对首页中出现的外部链接基于以下两方面进行分析,如该外部链接已存在,则不进行进一步处理;若该外部链接在之前的探测中并未出现,则将该外部链接网页的网站首页作为新的网站入口。
采用上面三种方式执行对未知网站的快速探测,可以选择三种方式中的任意一种执行,也可以两两结合执行,也可以三种方式一起执行,采用至少两种探测方式时,提升了对未知的互联网金融网站探测时的精度及广度,通过多方法联合探测的方式对数据进行多样化的采集,可以通过较小的带宽实现对指定类型的网站的探测,并且可以做到对未知网站的充分探测。
在上述任一项技术方案中,优选地,提取未知网站的首页信息的结构特征,具体包括以下步骤:确定未知网站的首页信息的网页源代码中,herf属性连续出现数量大于预设数量阈值的区域,以作为待处理区域;去除待处理区域内的网页标签,以保留待处理区域内的文本内容;检测文本内容的长度是否大于或等于预设长度阈值;在检测到文本内容的长度大于或等于预设长度阈值时,将待处理区域确定为导航区域;根据文本内容生成第一特征向量,以作为结构特征。
在该技术方案中,通过未知网站的首页信息的网页源代码中herf属性连续出现数量和检测文本内容的长度,确定未知网站的导航区域,从而生成第一特征向量作为网站的结构特征,提高了对未知网站辨别的可靠性。
第一特征向量为结构特征向量。
Herf(Hypertext Reference,超文本引用),herf属性用于指定超链接目标的URL,第一特征向量所指的结构特征,结构特征主要为网页的导航区特征,网页导航区可以认为是网页主题内容的概括和综述,因此对导航区特征的提取有利于对指定类型网站的判别,对网页导航区特征进行提取过程包括:(1)提取网页源代码中<body>部分出现的第一个具有连续herf属性的区域,即待处理区域,其中,herf属性连续出现的个数大于设定阈值,(2)去掉待处理区域的网页标签,保留浏览器显示部分的文本内容,检测文本内容长度是否满足预设长度阈值要求,满足长度要求时,表明待处理区域为导航区,则根据文本内容生成第一特征向量,不满足长度要求时,提取网页源代码中<body>部分出现的下一个具有连续herf属性的区域,指导确定待处理区域,以将文本内容作为导航区特征,并生成第一特征向量:
X=(x1,x2,……,xN)
在上述任一项技术方案中,优选地,提取未知网站的首页信息的文本特征,具体包括以下步骤:去除未知网站的首页信息的网页源码中的标签信息,以生成待处理文本;对待处理文本执行文本统计操作,以确定待处理文本中的文本词数数量;根据文本词数数量与文本的统计词频,确定文本的关键词与关键词的权重;根据关键词与关键词权重,生成第二特征向量,以作为文本特征,其中,标签信息包括html标签,css脚本与script脚本。
在该技术方案中,通过去除未知网站首页信息的网页源代码中的网页标签,以生成待处理文本,通过待处理文本生成关键词与关键词权重,以生成第二特征向量,与TF-IDF(term frequency-inverse document frequency用于信息检索与数据挖掘的加权技术)相比,与实际应用场景结合,主要基于词频与总次数,处理过程更加简单。
第二特征向量为文本特征向量。
具体地,对浏览器中显示的文本内容进行特征提取,包括以下步骤:(1)去除网页源码中html标签,css、script脚本,(2)对文本分词、去停用词、统计词频TF,计算文本总词数wordNum,(3)计算TF/wordNum,取出前N个TF/wordNum值较大的词作为文本关键词,形成第二特征向量:
Y=((y1,ω1),(y2,ω2)……,(yN,ωN))
其中,y表示关键词,ω表示关键词权重。
在上述任一项技术方案中,优选地,检测联合特征向量与预设网站模型的特征向量的相似度,以确定未知网站是否为指定类型网站,具体包括以下步骤:确定联合特征向量与特征向量的余弦参数;根据余弦参数,确定相似度;检测相似度是否大于或等于预设相似度阈值;在检测到相似度大于或等于预设相似度阈值时,确定未知网站为指定类型网站。
在该技术方案中,通过确定联合特征向量与特征向量的余弦参数,以根据余弦相似性确定检测的未知网站是否为指定类型网站,可以有效的对指定类型网站的安全性进行评估,并及时发现可疑的网站,提升了用户的使用体验。
具体地,对提取的第一特征向量(导航区特征)及第二特征向量(文本特征)加权求和,得到联合特征向量,具体公式为:
其中,可根据实际应用调整权重参数。
利用余弦相似性:
计算未知网站的联合特征向量F与预设网站模型M的特征向量的相似度,并按照阈值筛选出可疑的互联网金融交易类网站。
通过文本特征和结构特征相结合的方式,结合对网站首页的分析实现对指定类型的网站的判别,提高了判别的精准度,同时不需要通过大量网页对网站站点进行分析,只需通过网站的顶级域名获取网站首页,简化了处理过程。这一步为特定领域的金融类网站的数据分析提供支撑,有效的对互联网金融交易网站等指定类型的网站的安全性进行评估并及时发现可疑网站。
图2示出了根据本发明的实施例的指定类型网站的辨别装置的示意框图。
如图2所示,根据本发明的实施例的指定类型网站的辨别装置200,包括:确定单元202,用于根据预设的探测方式,确定未知网站的网站入口,以确定未知网站的首页信息;提取单元204,用于提取未知网站的首页信息的结构特征;提取单元204还用于:提取未知网站的首页信息的文本特征;生成单元206,用于对结构特征与文本特征进行加权处理,以生成未知网站的联合特征向量;确定单元202还用于:确定联合特征向量与预设网站模型的特征向量的相似度,以确定未知网站是否为指定类型网站。
在该技术方案中,通过预设的探测方式,实现对未知网站的首页的探测,以获得未知网站的首页信息,通过使用对未知网站首页的探测代替对网站全部网页的探测,能够减少对网站网页的探测量,达到了利用小带宽(应为“带宽”)快速探测网站的目的,并且通过提取网站首页的结构特征和文本特征,将结构特征与文本特征生成未知网站的联合特征向量,通过特征向量将数据特征和结构特征结合在一起,与仅仅基于网页内容进行辨别的方式相比,确定联合特征向量与预设网站模型的特征向量的相似度,提升了对指定类型网站的辨别精度与准确性。
具体地,指定类型,可以包括金融支付类网站、政府网站、企业网站等各种类型。
在上述技术方案中,优选地,还包括:标注单元208,用于对已知指定类型网站进行标注;采集单元210,用于对进行标注后的已知指定类型网站的首页进行数据采集,以生成训练集数据;预处理单元212,用于对训练集数据进行预处理,以提取训练集数据中的文本信息;生成单元206还用于:根据文本主体生成模型和文本信息,生成特征向量,以建立预设网站模型,其中,特征向量包括指定类型网站的关键词以及关键词的权重值。
在该技术方案中,通过对已知指定类型网站进行标注,以生成训练样本,通过对训练样本进行分析,并提取样本中的文本特征,根据文本特征和文档主题生成模型,生成预设网站模型,从而建立了用于确定未知网站是否为指定类型网站的对比模型。
具体地,在确定未知网站的首页信息之前,首先建立指定类型的预设网站模型,以互联网金融网站为例,建立互联网金融交易网站模型,其主要流程包括:(1)人工标注互联网金融交易类网站,(2)对已标注的互联网金融交易类网站的网页进行数据采集,为了达到节省带宽的目的,只探测网站的首页,通过分析Url中的顶级域名确定网站首页的地址,(3)对网站首页执行去除html标签、去除css以及script脚本操作,以提取浏览器显示的文本内容,作为数据分析的输入数据,利用文档主题生成模型(LDA,Latent DirichletAllocation,也称为三层贝叶斯概率模型,包含词、主题和文档三层结构),提取输入数据的文本信息,生成特征向量,特征向量由关键词及其权重组成,根据特征向量建立互联网金融交易网站模型。
在上述任一项技术方案中,优选地,还包括:建立单元214,用于根据未知网站的IP信息,建立端口连接;发送单元216,用于通过端口向服务器发送HTTP HEAD请求;接收单元218,用于接收服务器根据HTTP HEAD请求反馈的判断结果,以根据判断结果确定网站入口。
在该技术方案中,通过端口向服务器发送HTTP HEAD请求(即只请求页面的首部),确定网站入口,从而确定未知网站的首页信息,实现了利用小带宽快速探测未知网站的目的。
对于提供HTTP服务的网站,绝大多数使用80端口作为默认HTTP端口,使用443端口作为HTTPS的默认端口,443端口即网页浏览端口,提供加密和通过安全端口传输,基于以上情况,在提供IP列表或IP段的情况下,通过连接80或者443端口并发送HTTP HEAD(GET)请求,根据返回结果判断IP是否提供HTTP服务,从而确定未知网站的网站入口。
在上述任一项技术方案中,优选地,还包括:搜索单元220,用于根据关键词进行网页搜索,以获取未知网站的搜索链接;提取单元204还用于:提取搜索链接中的顶级域名,以根据顶级域名确定网站入口。
在该技术方案中,通过搜索关键词获取未知网站的顶级域名,根据顶级域名确定未知网站的入口,此方法简单快捷,探测到的未知网站数量大,扩大了对未知网站的辨别范围。
具体地,利用文本主体生成模型得到特定领域互联网金融交易类网站的网页关键词,将该关键词作为搜索引擎的搜索关键词在搜索引擎中进行网页搜索,将搜索出的链接提取顶级域名后,作为未知网站的的网站入口。
在上述任一项技术方案中,优选地,确定单元202还用于:确定任意一个已知指定类型网站中的外部链接;指定类型网站的辨别装置200还包括:检测单元222,用于检测外部链接是否属于已知指定类型网站;确定单元202还用于:在检测到外部链接不属于已知指定类型网站时,将外部链接的网站首页确定为网站入口。
在该技术方案中,通过对已知的指定类型网站中的外部链接的检测,进一步提升了网站入口探测的安全性。
具体地,对于已知的指定类型的网站,对首页中出现的外部链接基于以下两方面进行分析,如该外部链接已存在,则不进行进一步处理;若该外部链接在之前的探测中并未出现,则将该外部链接网页的网站首页作为新的网站入口。
采用上面三种方式执行对未知网站的快速探测,可以选择三种方式中的任意一种执行,也可以两两结合执行,也可以三种方式一起执行,采用至少两种探测方式时,提升了对未知的互联网金融网站探测时的精度及广度,通过多方法联合探测的方式对数据进行多样化的采集,可以通过较小的带宽实现对指定类型的网站的探测,并且可以做到对未知网站的充分探测。
在上述任一项技术方案中,优选地,确定单元202还用于:确定未知网站的首页信息的网页源代码中,herf属性连续出现数量大于预设数量阈值的区域,以作为待处理区域;指定类型网站的辨别装置200还包括:去除单元224,用于去除待处理区域内的网页标签,以保留待处理区域内的文本内容;检测单元222还用于:检测文本内容的长度是否大于或等于预设长度阈值;确定单元202还用于:在检测到文本内容的长度大于或等于预设长度阈值时,将待处理区域确定为导航区域;生成单元206还用于:根据文本内容生成第一特征向量,以作为结构特征。
在该技术方案中,通过未知网站的首页信息的网页源代码中herf属性连续出现数量和检测文本内容的长度,确定未知网站的导航区域,从而生成第一特征向量作为网站的结构特征,提高了对未知网站辨别的可靠性。
第一特征向量为结构特征向量。
Herf(Hypertext Reference,超文本引用),herf属性用于指定超链接目标的URL,第一特征向量所指的结构特征,结构特征主要为网页的导航区特征,网页导航区可以认为是网页主题内容的概括和综述,因此对导航区特征的提取有利于对指定类型网站的判别,对网页导航区特征进行提取过程包括:(1)提取网页源代码中<body>部分出现的第一个具有连续herf属性的区域,即待处理区域,其中,herf属性连续出现的个数大于设定阈值,(2)去掉待处理区域的网页标签,保留浏览器显示部分的文本内容,检测文本内容长度是否满足预设长度阈值要求,满足长度要求时,表明待处理区域为导航区,则根据文本内容生成第一特征向量,不满足长度要求时,提取网页源代码中<body>部分出现的下一个具有连续herf属性的区域,指导确定待处理区域,以将文本内容作为导航区特征,并生成第一特征向量:
X=(x1,x2,……,xN)
在上述任一项技术方案中,优选地,提取未知网站的首页信息的文本特征,具体包括以下步骤:去除单元224还用于:去除未知网站的首页信息的网页源码中的标签信息,以生成待处理文本;指定类型网站的辨别装置200还包括:统计单元226,用于对待处理文本执行文本统计操作,以确定待处理文本中的文本词数数量;确定单元202还用于:根据文本词数数量与文本的统计词频,确定文本的关键词与关键词的权重;生成单元206还用于:根据关键词与关键词权重,生成第二特征向量,以作为文本特征,其中,标签信息包括html标签,css脚本与script脚本。
在该技术方案中,通过去除未知网站首页信息的网页源代码中的网页标签,以生成待处理文本,通过待处理文本生成关键词与关键词权重,以生成第二特征向量,与TF-IDF(term frequency-inverse document frequency用于信息检索与数据挖掘的加权技术)相比,与实际应用场景结合,主要基于词频与总次数,处理过程更加简单。
第二特征向量为文本特征向量。
具体地,对浏览器中显示的文本内容进行特征提取,包括以下步骤:(1)去除网页源码中html标签,css、script脚本,(2)对文本分词、去停用词、统计词频TF,计算文本总词数wordNum,(3)计算TF/wordNum,取出前N个TF/wordNum值较大的词作为文本关键词,形成第二特征向量:
Y=((y1,ω1),(y2,ω2)……,(yN,ωN))
其中,y表示关键词,ω表示关键词权重。
在上述任一项技术方案中,优选地,确定单元202还用于:确定联合特征向量与特征向量的余弦参数;确定单元202还用于:根据余弦参数,确定相似度;检测单元222还用于:检测相似度是否大于或等于预设相似度阈值;确定单元202还用于:在检测到相似度大于或等于预设相似度阈值时,确定未知网站为指定类型网站。
在该技术方案中,通过确定联合特征向量与特征向量的余弦参数,以根据余弦相似性确定检测的未知网站是否为指定类型网站,可以有效的对指定类型网站的安全性进行评估,并及时发现可疑的网站,提升了用户的使用体验。
具体地,对提取的第一特征向量(导航区特征)及第二特征向量(文本特征)加权求和,得到联合特征向量,具体公式为:
其中,可根据实际应用调整权重参数。
利用余弦相似性:
计算未知网站的联合特征向量F与预设网站模型M的特征向量的相似度,并按照阈值筛选出可疑的互联网金融交易类网站。
图3示出了根据本发明的一个实施例的指定类型网站的辨别方案的示意图。
如图3所示,根据本发明的一个实施例的指定类型网站的辨别方案,包括预处理模块、探测模块与辨别模块。
在预处理模块中,通过人工标注、数据采集、预处理以及LDA特征提取,生成特征向量,特征向量由关键词及其权重组成,根据文本特征向量建立互联网金融交易网站模型。
在探测模块中,包括IP扫描、搜索引擎检测与外部链接分析三种方式。
采用上面三种方式执行对未知网站的快速探测,可以选择三种方式中的任意一种执行,也可以两两结合执行,也可以三种方式一起执行,采用至少两种探测方式时,提升了对未知的互联网金融网站探测时的精度及广度,通过多方法联合探测的方式对数据进行多样化的采集,可以通过较小的带宽实现对指定类型的网站的探测,并且可以做到对未知网站的充分探测。
在辨别模块中,基于探测模块确定的未知网站的首页信息,分别生成结构特征向量与文本特征向量,通过结构特征向量与文本特征向量生成联合特征向量,联合特征向量与从预设网站模型中提取的特征向量相比,确定余弦相似性,根据余弦相似性确定是指定类型网站,还是可疑类型网站。
以上结合附图详细说明了本发明的技术方案,一方面,对于未知网站的快速探测,提升了探测精度与探测广度,通过多种方式联合探测,提升了探测精度与探测广度,通过较小的带宽实现对指定类型网站的探测,并且可以做到对未知网站的充分探测,另一方面,通过文本特征和结构特征相结合的方式,结合对网站首页的分析实现对指定类型的网站的判别,提高了判别的精准度,同时不需要通过大量网页对网站站点进行分析,只需通过网站的顶级域名获取网站首页,简化了处理过程。这一步为特定领域的金融类网站的数据分析提供支撑,有效的对互联网金融交易网站等指定类型的网站的安全性进行评估并及时发现可疑网站。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。