CN113225343B

CN113225343B - 一种基于身份特征信息的风险网站识别方法及系统

Info

Publication number: CN113225343B
Application number: CN202110503642.3A
Authority: CN
Inventors: 罗维佳; 罗剑芳; 李晓琳; 肖天梅; 莫丽娟; 刘子凯; 丁卓
Original assignee: Guangzhou Zhangdong Intelligent Technology Co ltd
Current assignee: Guangzhou Zhangdong Intelligent Technology Co ltd
Priority date: 2021-05-10
Filing date: 2021-05-10
Publication date: 2022-09-20
Anticipated expiration: 2041-05-10
Also published as: CN113225343A

Abstract

本发明涉及一种基于身份特征信息的风险网站识别方法及系统，所述基于身份特征信息的风险网站识别方法包括：采集用户当前访问的网站数据；根据白名单库，对所述用户当前访问的网站数据进行过滤，得到疑似网站；通过有效范围内发现的疑似网站进行分析，能够快速圈定疑似数据集合，提高识别效率。根据所述疑似网站，得到对应网站的多个身份特征信息；将所述疑似网站的各身份特征进行量化处理，得到对应的量化身份特征；根据各量化身份特征，确定对应疑似网站的风险识别结果。通过网页身份特征能够准确判断风险网站，提高了风险网站的识别效率。

Description

一种基于身份特征信息的风险网站识别方法及系统

技术领域

本发明涉及网络数据分析领域，特别是涉及一种基于身份特征信息的风险网站识别方法及系统。

背景技术

随着4G、5G网络的高速发展，国内的智能手机用户在不断地增长，相关数据显示，截止到2020年3月末，移动互联网的活跃用户总数达到20.13亿，然而移动互联网风险网站数量日益剧增。移动互联网风险网站存在欺诈用户，盗取用户个人信息，钱财等多个方面影响，严重危害社会的正常秩序，其中一些冒充正常的网站会将欺瞒消费者输入手机银行账号密码、用户账号等信息。所以运营商纷纷开始构建威胁网站分析系统，引导用户识别正常的网站。通过利用海量数据进行钓鱼网站挖掘和分析，全面监控和防范虚假网站的传播和爆发。

目前基于网页内容的相似度对网络数据流量的业务检测与识别实际上对网页的元素进行特征挖掘，如统一资源定位器(Uniform Resource Locator，URL)、域名、图片、页面关键词等，通过分类预测计算进行识别。此种方法识别效率较低，对于业务网站识别内容较为复杂。当出现较多内容网站情况时，对识别的效率有一定的影响。

基于上述问题，亟需一种新的网站识别方法以提高风险网站的识别效率。

发明内容

本发明的目的是提供一种基于身份特征信息的风险网站识别方法，可提高风险网站的识别效率。

为实现上述目的，本发明提供了如下方案：

一种基于身份特征信息的风险网站识别方法，所述基于身份特征信息的风险网站识别方法包括：

采集用户当前访问的网站数据；

根据白名单库，对所述用户当前访问的网站数据进行过滤，得到疑似网站；

根据所述疑似网站，确定对应疑似网站的多个身份特征信息；

将所述疑似网站的各身份特征信息进行量化处理，得到对应的量化身份特征；

根据各量化身份特征，确定对应疑似网站的风险识别结果。

可选地，所述白名单库的建立方法具体包括：

采集用户历史上网日志数据集；所述用户历史上网日志数据集包括多个历史网站数据；

根据所述历史上网日志数据集，得到各历史网站的用户访问量及安全度；

根据各历史网站对应的用户访问量及安全度，筛选出用户访问量大于访问量阈值，且安全度大于安全度阈值的历史网站，确定白名单库。

可选地，所述身份特征信息包括统一资源定位器URL身份特征、域名身份特征以及内容身份特征；

所述根据所述疑似网站，确定对应网站的多个身份特征信息，具体包括：

根据所述疑似网站，采用网页爬虫技术，得到对应疑似网站的源码；

根据疑似网站的源码，提取对应的内容身份特征；

根据所述疑似网站，采用字符串匹配和识别算法，提取对应的URL身份特征；

根据所述疑似网站，提取对应的域名身份特征。

可选地，所述将所述疑似网站的各身份特征信息进行量化处理，得到对应的量化身份特征，具体包括：

根据以下公式，得到所述疑似网站的URL身份特征、域名身份特征以及内容身份特征对应的量化身份特征：

其中，F₁～F₄为URL身份特征对应的量化身份特征，F₅～F₆为域名身份特征对应的量化身份特征，F₇～F₁₀为内容身份特征对应的量化身份特征。

可选地，所述根据各量化身份特征，确定对应疑似网站的风险识别结果，具体包括：

根据疑似网站的各量化身份特征值，采用加权线性分类函数，确定对应疑似网站的风险识别结果。

可选地，所述加权线性分类函数的建立方法，具体包括：

获取白名单库中各安全网站对应的多个身份特征信息以及黑名单库中各危险网站对应的多个身份特征信息；所述黑名单库中保存有预先收集的危险网站；所述白名单库中保存有安全网站；所述安全网站和所述危险网站构成试验网站；

计算所述试验网站的各身份特征信息单独检测页面时的正确率和误判率；

将各身份特征信息进行量化处理，得到对应的量化身份特征；

根据各身份特征信息对应的正确率、误判率以及量化身份特征，得到各身份特征信息的权重；

根据各身份特征信息的权重以及各身份特征信息对应的量化身份特征，确定加权线性分类函数。

可选地，根据以下公式，确定各身份特征信息的权重：

其中，W_i为第i个身份特征信息的权重，F_i为第i个身份特征信息对应的量化身份特征，

为第i个身份特征信息单独检测页面时的正确率，

为第i个身份特征信息单独检测页面时的误判率。

可选地，根据以下公式，确定加权线性分类函数：

S＝f(∑F_i×W_i)，0<i≤10；

其中，F_i为第i个身份特征信息对应的量化身份特征，W_i为第i个身份特征信息的权重。

可选地，所述基于身份特征信息的风险网站识别方法还包括：

根据疑似网站的风险识别结果，将对应的疑似网站存储到黑名单库或白名单库中。

为实现上述目的，本发明还提供了如下方案：

一种基于身份特征信息的风险网站识别系统，所述基于身份特征信息的风险网站识别系统包括：

采集单元，用于采集用户当前访问的网站数据；

过滤单元，与所述采集单元连接，用于根据白名单库，对所述用户当前访问的网站数据进行过滤，得到疑似网站；

身份特征确定单元，与所述过滤单元连接，用于根据所述疑似网站，确定对应网站的多个身份特征信息；

量化单元，与所述身份特征确定单元连接，用于将所述疑似网站的各身份特征信息进行量化处理，得到对应的量化身份特征；

识别单元，与所述量化单元连接，用于根据各量化身份特征，确定对应疑似网站的风险识别结果。

根据本发明提供的具体实施例，本发明公开了以下技术效果：首先采集用户当前访问的网站数据，根据白名单库，对用户当前访问的网站数据进行过滤，得到疑似网站，通过有效范围内发现的疑似网站进行分析，能够快速圈定疑似数据集合；然后根据疑似网站，得到对应疑似网站的多个身份特征信息；将所述疑似网站的各身份特征信息进行量化处理，得到对应的量化身份特征；根据各量化身份特征，确定对应疑似网站的风险识别结果，通过网站身份特征信息能够准确判断风险网站，提高了风险网站的识别效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于身份特征信息的风险网站识别方法的流程图；

图2为本发明基于身份特征信息的风险网站识别方法的整体实现流程图；

图3为确定身份特征信息的流程图；

图4为加权线性分类函数的建立方法流程图；

图5为本发明基于身份特征信息的风险网站识别系统的模块结构示意图。

符号说明：

采集单元-1，过滤单元-2，身份特征确定单元-3，量化单元-4，识别单元-5。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种基于身份特征信息的风险网站识别方法及系统，首先采集用户当前访问的网站数据，根据白名单库，对用户当前访问的网站数据进行过滤，得到疑似网站，通过有效范围内发现的疑似网站进行分析，能够快速圈定疑似数据集合；然后根据疑似网站，得到对应疑似网站的多个身份特征信息；将所述疑似网站的各身份特征信息进行量化处理，得到对应的量化身份特征；根据各量化身份特征，确定对应疑似网站的风险识别结果，通过网站身份特征信息能够准确判断风险网站，提高了风险网站的识别效率。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1和图2所示，本发明基于身份特征信息的风险网站识别方法包括：

S1：采集用户当前访问的网站数据。

S2：根据白名单库，对所述用户当前访问的网站数据进行过滤，得到疑似网站。

具体地，所述白名单库的建立方法具体包括：

采集用户历史上网日志数据集；所述用户历史上网日志数据集包括多个历史网站数据。

根据所述历史上网日志数据集，得到各历史网站的用户访问量及安全度。

在本实施例中，确定的白名单库是指域名访问用户量大于5000时，域名安全度大于96％，且能够过滤清洗现网90％以上的白名单用户访问日志，但不限于此。充分利用了移动运营商的资源优势和技术优势，在大数据环境下，从用户网络日志访问行为中思考，同时对目标用户预处理，减少大量无谓运算，保证系统能够快速识别出恶意链，提高了风险网站的识别效率。

优选地，在得到疑似网站后，本发明基于身份特征信息的风险网站识别方法还包括：

获取所述疑似网站的域名、URL数据集；

对所述疑似网站的域名及URL数据集进行去重，并按时间排序，分类存储。

S3：根据所述疑似网站，确定对应疑似网站的多个身份特征信息。

优选地，所述身份特征信息包括URL身份特征、域名身份特征以及内容身份特征。

如图3所示，所述根据所述疑似网站，确定对应疑似网站的多个身份特征信息，具体包括：

S31：根据所述疑似网站，采用网页爬虫技术，得到对应疑似网站的源码。根据网站的源代码可以对页面的内容特征进行提取，包括链接比，ICP声明等。

S32：根据疑似网站的源码，提取对应的内容身份特征。

S33：根据所述疑似网站，采用字符串匹配和识别算法，提取对应的URL身份特征。

S34：根据所述疑似网站，提取对应的域名身份特征。可选地，使用域名WOHIS信息接口或百度搜索引擎提取域名和搜索引擎身份特征。

S4：将所述疑似网站的各身份特征进行量化处理，得到对应的量化身份特征。通过页面身份特征能够准确判断风险网站。

具体地，所述将所述疑似网站的各身份特征信息进行量化处理，得到对应的量化身份特征，具体包括：

可选地，量化身份特征中，F₁为URL后面参数是否包含“//”符号。对于仿冒网页，为了防止被识别，常常通过跳转方式隐藏真实诈骗网站，部分风险网页常常使用。所以，当URL后面参数包含“//”符号，则认为此网页接近风险网页。

F₂为URL是否直接使用IP地址。对于传统的网页来说，为了避免包含多数字的IP地址记忆，通常会申请一个域名，而风险网页，为了节省成本，可能就在某个个人PC机上搭建web服务，在获取利益后，则立即关闭。所以检测URL中是否包含IP地址，若有则接近风险地址。

F₃为URL中包含“@”符号。检查URL中是否包含的“@”，很多窃取隐私仿冒网页通常直接使用网址发送用户名和密码，来迷惑用户。此特征特征检测到该URL含有“@”符号时即接近风险网页。

F₄为URL中是否包含“-”符号。该符号经常帮助用来伪装真网站，以此来仿冒正常网址，比如www.apple-idruq.cn等，该特征识别到该URL含有“-”，则接近风险网址。

F₅为域名注册年龄。仿冒网页的生存周期通常会很短，往往也就是几天的时间。仿冒网页的域名通常注册时间很短，一方面，这样可以降低费用，另一方面，仿冒网页为避免其网站地址出现在各个著名浏览器的黑名单之中。一般认为，域名注册时间超过1年的网站更接近于合法网站。

F₆为域名是否为境外中文网址。通过对恶意风险网站进行分析，其域名解析IP地址85％在境外，主要由于境外IP可以增加安全部门追溯难度，隐藏自身真实信息反抗，诈骗网址主要对象是中国网民，则认为将地址部署在境外的中文网页，认为此页面接近仿冒网页。

F₇为网页中文字域的网络内容服务商(Internet Content Provider，ICP)声明，可用来唯一地标识网站身份。通常，境内的合法网页会在在页面底部显著的位置，声明自己的ICP许可证号。

F₈为网页中指向外域和空域的占比。仿冒网页为了达到模仿合法网页的目的，通常将自己的链接指向原合法网页的资源上，或是指向其它大量的合法网页，以增加自己的可信度。定义N_t为网页中链接对象的总数，N_n为网页中空链接对象个数，N_o为指向外域的链接对象的个数。如果N_n+N_o的占比过大，则认为该网站页面的链接异常，定义X＝(N_n+N_o)/N_t，X值越趋近于1，网页异常程度越大，X值越接近0，反映该网站页面越正常。

F₉为网页中含有大量指向外域的<embed>标签。<embed>标签是HTML5新增标签，可以用来插入各种媒体，包括音频和视频。近期发现，仿冒网页也开始使用一些HTML5新增的特性，使得网页在引用原始网页中多媒体资源变得更容易。在此特征中，对于大量引用外域的多媒体资源的网页，认为其接近于仿冒网页。

F₁₀为网页域名在搜索引擎中的返回结果。合法网页的域名，通常可以在搜索引擎中轻易的获取结果，而仿冒网页因为生存时间短，价值小，搜索引擎很少会收录到。所以，在此身份特征中，借助搜索引擎，当返回结果中，无相应域名搜索值，则认为此页面接近仿冒网页。

S5：根据各量化身份特征，确定对应疑似网站的风险识别结果。

具体地，所述根据各量化身份特征，确定对应疑似网站的风险识别结果，具体包括：

进一步地，如图4所示，所述加权线性分类函数的建立方法，具体包括：

S51：获取白名单库中各安全网站对应的多个身份特征信息以及黑名单库中各危险网站对应的多个身份特征信息；所述黑名单库中保存有预先收集的危险网站；所述白名单库中保存有安全网站；所述安全网站和所述危险网站构成试验网站。在本实施例中，所述黑名单库的主要来源可以为意链接识别系统、手机恶意软件系统，以及本模型识别结果集合等。

S52：计算所述试验网站的各身份特征信息单独检测页面时的正确率和误判率。在本实施例中计算各身份特征信息单独检测页面时的正确率和误判率，具体包括：采集试验网站的的各身份特征信息，针对各身份特征信息，使用该身份特征信息进行数据提取，并进行人工审核，根据审核结果确定所述身份特征信息的正确率和误判率，但不以此为限。

S53：将各身份特征信息进行量化处理，得到对应的量化身份特征。

S54：根据各身份特征信息对应的正确率、误判率以及量化身份特征，得到各身份特征信息的权重。

优选地，根据以下公式，确定各身份特征信息的权重：

为第i个身份特征信息单独检测页面时的正确率，

为第i个身份特征信息单独检测页面时的误判率。

S55：根据各身份特征信息的权重以及各身份特征信息对应的量化身份特征，确定加权线性分类函数。

优选地，根据以下公式，确定加权线性分类函数：

S＝f(∑F_i×W_i)，0<i≤10；

加权线性分类函数就是一个线性函数，具有10个元，即将有10个影响因素，这10个因素分别对应着10个身份特征的取值。同时权重系数的引入，是对每个身份特征影响效用的比重的量化处理，权重系数越大，说明在此线性函数中，此种身份特征对结果的影响效用越大。使用此种方式，得出的S值将在区间[-1，1]中，当S接近于-1时，则认为此网页为合法网页，当S值更接近于1时，则认为此网页为仿冒风险网页。

为了提高识别精度，本发明基于身份特征信息的风险网站识别方法还包括：

S6：根据疑似网站的风险识别结果，将对应的疑似网站存储到黑名单库或白名单库中。

本发明利用移动互联网数据感知、挖掘威胁域名分析，解决用户访问了风险钓鱼网站造成经济损失，净化网络环境等问题，提出了基于网站多维身份特征风险判断方法。在移动网络侧的行为数据作为分析依据，并通过多流程，实现风险网站的发现的自动化。从而实现仿冒银行等类型风险网站的挖掘与分析。

通过大数据活跃白名单库过滤，建立疑似分类数据集合，进而提取分类数据的身份特征信息数据，对特征进行量化处理，通过利用黑白库的经验数据，使用线性分类算法计算，计算10大特征值权重概率，进而应用到识别主流程中分析评估出风险网站。应用大数据建模分析的方法，对海量的管道数据有效处理，改善识别效率，提升识别的场景覆盖面。

如图5所示，本发明基于身份特征信息的风险网站识别系统包括：采集单元1、过滤单元2、身份特征确定单元3、量化单元4以及识别单元5。

其中，所述采集单元1用于采集用户当前访问的网站数据。

所述过滤单元2与所述采集单元1连接，所述过滤单元2用于根据白名单库，对所述用户当前访问的网站数据进行过滤，得到疑似网站。

所述身份特征确定单元3与所述过滤单元2连接，所述身份特征确定单元3用于根据所述疑似网站，确定对应网站的多个身份特征信息。

所述量化单元4与所述身份特征确定单元3连接，所述量化单元4用于将所述疑似网站的各身份特征信息进行量化处理，得到对应的量化身份特征。

所述识别单元5与所述量化单元4连接，所述识别单元5用于根据各量化身份特征，确定对应疑似网站的风险识别结果。

相对于现有技术，本发明基于身份特征信息的风险网站识别系统与上述基于身份特征信息的风险网站识别方法的有益效果相同，在此不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于身份特征信息的风险网站识别方法，其特征在于，所述基于身份特征信息的风险网站识别方法包括：

采集用户当前访问的网站数据；

获取所述疑似网站的域名和URL数据集；

对所述疑似网站的域名及URL数据集进行去重，并按时间排序，分类存储；

根据所述疑似网站，确定对应疑似网站的多个身份特征信息；所述身份特征信息包括统一资源定位器URL身份特征、域名身份特征以及内容身份特征；所述根据所述疑似网站，确定对应网站的多个身份特征信息，具体包括：

根据疑似网站的源码，提取对应的内容身份特征；

根据所述疑似网站，提取对应的域名身份特征；

根据各量化身份特征，确定对应疑似网站的风险识别结果；

所述将所述疑似网站的各身份特征信息进行量化处理，得到对应的量化身份特征，具体包括：

其中，F₁～F₄为URL身份特征对应的量化身份特征，F₅～F₆为域名身份特征对应的量化身份特征，F₇～F₁₀为内容身份特征对应的量化身份特征；

所述白名单库的建立方法具体包括：

根据各历史网站对应的用户访问量及安全度，筛选出用户访问量大于访问量阈值，且安全度大于安全度阈值的历史网站，确定白名单库；

所述根据各量化身份特征，确定对应疑似网站的风险识别结果，具体包括：

根据疑似网站的各量化身份特征值，采用加权线性分类函数，确定对应疑似网站的风险识别结果；

所述加权线性分类函数的建立方法，具体包括：

根据各身份特征信息的权重以及各身份特征信息对应的量化身份特征，确定加权线性分类函数；

根据以下公式，确定各身份特征信息的权重：

为第i个身份特征信息单独检测页面时的正确率，

为第i个身份特征信息单独检测页面时的误判率。

2.根据权利要求1所述的基于身份特征信息的风险网站识别方法，其特征在于，根据以下公式，确定加权线性分类函数：

S＝f(∑F_i×W_i)，0<i≤10；

3.根据权利要求1或2所述的基于身份特征信息的风险网站识别方法，其特征在于，所述基于身份特征信息的风险网站识别方法还包括：

4.一种基于身份特征信息的风险网站识别系统，其特征在于，所述基于身份特征信息的风险网站识别系统包括：

采集单元，用于采集用户当前访问的网站数据；

过滤单元，与所述采集单元连接，用于根据白名单库，对所述用户当前访问的网站数据进行过滤，得到疑似网站，并获取所述疑似网站的域名和URL数据集，对所述疑似网站的域名及URL数据集进行去重，并按时间排序，分类存储；

身份特征确定单元，与所述过滤单元连接，用于根据所述疑似网站，确定对应网站的多个身份特征信息，具体包括：根据所述疑似网站，采用网页爬虫技术，得到对应疑似网站的源码；根据疑似网站的源码，提取对应的内容身份特征；根据所述疑似网站，采用字符串匹配和识别算法，提取对应的URL身份特征；根据所述疑似网站，提取对应的域名身份特征；所述身份特征信息包括统一资源定位器URL身份特征、域名身份特征以及内容身份特征；

量化单元，与所述身份特征确定单元连接，用于将所述疑似网站的各身份特征信息进行量化处理，得到对应的量化身份特征，具体包括：