CN117439821A - 一种基于数据融合及多因素决策法的网站判定方法及系统 - Google Patents
一种基于数据融合及多因素决策法的网站判定方法及系统 Download PDFInfo
- Publication number
- CN117439821A CN117439821A CN202311755440.3A CN202311755440A CN117439821A CN 117439821 A CN117439821 A CN 117439821A CN 202311755440 A CN202311755440 A CN 202311755440A CN 117439821 A CN117439821 A CN 117439821A
- Authority
- CN
- China
- Prior art keywords
- website
- information
- record
- type
- tested
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000004927 fusion Effects 0.000 title claims abstract description 19
- 238000000605 extraction Methods 0.000 claims description 9
- 230000008520 organization Effects 0.000 claims description 7
- 208000001613 Gambling Diseases 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims 1
- 238000001514 detection method Methods 0.000 abstract description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1483—Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于数据融合及多因素决策法的网站判定方法及系统,属于网络安全领域,第一步通过获取待测网站的Whois信息,并通过识别模型对网站进行类型判定;第二步根据网站的Whois信息进行备案信息查询,若该待测网站没有备案则直接返回第一步识别模型的结果,若该待测网站有备案则根据不同备案类型进行不同的操作;第三步对第二步的结果进行强类型的判定,如果识别模型的结果是不可信类型则认定该网站的为疑似涉诈网站,否则就认定为正常网站,完成了对待测网站的判定,解决了现有技术误测率高、识别率低的问题。
Description
技术领域
本发明属于网络安全领域,具体涉及一种基于数据融合及多因素决策法的网站判定方法及系统。
背景技术
随着互联网的快速发展和普及,人们的生活方式和日常习惯也发生了巨大的改变。每天,我们都会主动或者被动地访问各种各样的网站,这些网站中包括了正常的信息源,但也包括了一些属于公害网站的信息源,除了有效的识别出公害网站,我们也应该有效的甄别正常网站的相关技术。
但是,现有的技术都是利用白名单的形式去收集正常网站的名单,现在的网站飞速发展,正常的网站的和公害网站的都是指数级增加,所以也迫切需要一种对正常网站甄别的策略。
发明内容
针对现有技术中存在的误测率高、识别率低的问题,本发明提出了一种基于数据融合及多因素决策法的网站判定方法及系统,其目的为:避免对正常网站的误报,提高对正常网站的识别率,防止的正常网站的误报和公害网站的漏报。
为实现上述目的本发明所采用的技术方案是:
提供一种基于数据融合及多因素决策法的正常网站的判定方法,第一步获取待测网站的网站基本信息和Whois信息,并通过识别模型对网站进行类型判定;第二步根据网站的Whois信息进行备案信息查询,若该待测网站没有备案则直接返回第一步识别模型的结果,若该待测网站有备案则根据备案类型进行判定;第三步对第二步的结果进行强类型的判定,如果识别模型的结果是不可信类型则认定该网站的为疑似涉诈网站,否则就认定为正常网站。
较优的,网站的Whois信息是用来查询域名的IP以及所有者信息的传输协议。
较优的,识别模型融合了工商信息判别模型,用于第二步过程中的判定。
较优的,第二步中的备案类型包括:个人或者个体工商户、机构组织或者社会团体、公司。
较优的,第二步中若备案类型为个人或者个体工商户,则需要进行备案一致性的查询,查询网站的尾页上的备案号是否和网站查询的备案号一致,如果不一致则返回识别模型的结果,如果一致则进行第三步。
较优的,第二步中若备案类型为机构组织或者社会团体,则直接进行第三步。
较优的,第二步中若备案类型为公司,则需要查询其工商信息并结合工商信息判别模型进行判定,判断其是否为正常公司。
较优的,进行判定的标准为:
当存在注册状态或者企业标签为吊销、注销相关信息时,则直接以识别模型的结果为主;
当存在社保缴纳人数>0或者实缴金额>0时,则认定为正常公司,进行第三步;
当存在社保缴纳人数=0并且实缴金额=0时,则认定为非正常公司,以识别模型的结果为主。
较优的,不可信类型包括赌博类型、色情类型、刷单类型。
较优的,本发明从数据层面融合了网站备案信息和网站公司工商信息,从模型层面融合了识别模型和工商信息研判模型;从模型结果结合数据多因素来研判网站的类型。
较优的,通过识别模型预先对网站进行识别,并通过结合备案信息和工商信息以及工商信息判别模型来进行正常网站的召回,从多角度和多数据支撑的角度来识别正常网站。
较优的,通过工商信息判别模型来判断正常公司,空壳公司以及注销的公司。
较优的,备案信息查询是对网站的注册域名进行备案查询,查询网站的备案主体,如果网站未备案,则只需要根据识别模型进行判断类别,否则就需要根据备案类型来进行分别判断。
较优的,当备案主体是机构组织或者社会团体时,因为这类网站经常遇到挂马或者劫持跳转情况,就需要根据模型是否识别为不可信类型,如果是不可信类型就判断为疑似涉诈网站,否则就判断为正常网站。
提供一种基于数据融合及多因素决策法的网站判定系统,包括以下模块:
信息提取模块:提取待测网站的网站基本信息和Whois信息;
识别模型模块:根据信息提取模块提取的网站基本信息和Whois信息,对待测网站进行类型判定;
备案信息查询模块:识别模型模块对待测网站进行完类型判定后,再根据信息提取模块提取的Whois信息,对待测网站进行备案信息查询;
网站判定模块:根据备案信息查询模块所查询的不同结果,采用不同的判定规则;
待测网站的备案主体是个人或者个体工商户,则进行备案一致性的查询,查询网站的尾页上的备案号是否和网站查询的备案号一致,如不一致则返回识别模型模块判定的结果;
待测网站的备案主体是机构组织或者社会团体,则直接进行进行强类型的判定,如果识别模型的结果是不可信类型,则认定该网站的为疑似涉诈网站,否则就认定为正常网站;
待测网站的备案主体是公司,则需要查询其工商信息并结合工商信息判别模型进行综合判定;
结果输出模块:输出系统判定的结果,结束流程。
相比现有技术,本发明的技术方案具有如下优点/有益效果:
1. 从备案信息和工商信息来联合判断正常网站,避免了对正常网站的误报,提高了对正常网站的判断。
2. 根据备案主体的性质不同,制定不同的判断方法,提高了对正常网站的识别率。
3. 从多角度和多数据支撑的角度来识别正常网站,并提出不可信类型,有效的防止的正常网站的误报和公害网站的漏报,提高了正常网站的检出率。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明一种基于数据融合及多因素决策法的网站判定方法的结构示意图。
图2是本发明一种基于数据融合及多因素决策法的网站判定系统的示意图。
具体实施方式
为使本发明目的、技术方案和优点更加清楚,下面对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明的一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中可以不对其进行进一步定义和解释。
实施例1:
如图1所示,一种基于数据融合及多因素决策法的网站判定方法,
第一步获取待测网站的网站基本信息和Whois信息,并通过识别模型对网站进行类型判定;第二步根据网站的Whois信息进行备案信息查询,若该待测网站没有备案则直接返回第一步识别模型的结果,若该待测网站有备案则根据备案类型进行判定;第三步对第二步的结果进行强类型的判定,如果识别模型的结果是不可信类型则认定该网站的为疑似涉诈网站,否则就认定为正常网站。
网站的Whois信息是用来查询域名的IP以及所有者信息的传输协议。
识别模型融合了工商信息判别模型,用于第二步过程中的判定。
第二步中的备案类型包括:个人或者个体工商户、机构组织或者社会团体、公司。
第二步中若备案类型为个人或者个体工商户,则需要进行备案一致性的查询,查询网站的尾页上的备案号是否和网站查询的备案号一致,如果不一致则返回识别模型的结果,如果一致则进行第三步。
第二步中若备案类型为机构组织或者社会团体,则直接进行第三步。
第二步中若备案类型为公司,则需要查询其工商信息并结合工商信息判别模型进行判定,判定的标准为:
当存在注册状态或者企业标签为吊销、注销相关信息时,则直接以识别模型的结果为主;
当存在社保缴纳人数>0或者实缴金额>0时,则认定为正常公司,进行第三步;
当存在社保缴纳人数=0并且实缴金额=0时,则认定为非正常公司,以识别模型的结果为主。
不可信类型包括赌博类型、色情类型、刷单类型。
实施例2:
如图2所示,一种基于数据融合及多因素决策法的网站判定系统,包括以下模块:
信息提取模块:提取待测网站的Whois信息;
识别模型模块:根据信息提取模块提取的Whois信息,对待测网站进行类型判定;
备案信息查询模块:识别模型模块对待测网站进行完类型判定后,再根据信息提取模块提取的Whois信息,对待测网站进行备案信息查询;
网站判定模块:根据备案信息查询模块所查询的不同结果,采用不同的判定规则;
待测网站的备案主体是个人或者个体工商户,则进行备案一致性的查询,查询网站的尾页上的备案号是否和网站查询的备案号一致,如不一致则返回识别模型模块判定的结果;
待测网站的备案主体是机构组织或者社会团体,则直接进行进行强类型的判定,如果识别模型的结果是不可信类型,则认定该网站的为疑似涉诈网站,否则就认定为正常网站;
待测网站的备案主体是公司,则需要查询其工商信息并结合工商信息判别模型进行综合判定;
结果输出模块:输出系统判定的结果,结束流程。
以上仅是本发明的优选实施方式,应当指出的是,上述优选实施方式不应视为对本发明的限制,本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说,在不脱离本发明的精神和范围内,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于数据融合及多因素决策法的网站判定方法,其特征在于,第一步获取待测网站的Whois信息,并通过识别模型对网站进行类型判定;第二步根据网站的Whois信息进行备案信息查询,若该待测网站没有备案则直接返回第一步识别模型的结果,若该待测网站有备案则根据备案类型进行判定;第三步对第二步的结果进行强类型的判定,如果识别模型的结果是不可信类型则认定该网站的为疑似涉诈网站,否则就认定为正常网站。
2.根据权利要求1所述的一种基于数据融合及多因素决策法的网站判定方法,其特征在于,网站的Whois信息是用来查询域名的IP以及所有者信息的传输协议。
3.根据权利要求1所述的一种基于数据融合及多因素决策法的网站判定方法,其特征在于,所述识别模型融合了工商信息判别模型,用于第二步过程中的判定。
4.根据权利要求1所述的一种基于数据融合及多因素决策法的网站判定方法,其特征在于,第二步中的备案类型包括:个人或者个体工商户、机构组织或者社会团体、公司。
5.根据权利要求1所述的一种基于数据融合及多因素决策法的网站判定方法,其特征在于,第二步中若备案类型为个人或者个体工商户,则需要进行备案一致性的查询,查询网站的尾页上的备案号是否和网站查询的备案号一致,如果不一致则返回识别模型的结果,如果一致则进行第三步。
6.根据权利要求1所述的一种基于数据融合及多因素决策法的网站判定方法,其特征在于,第二步中若备案类型为机构组织或者社会团体,则直接进行第三步。
7.根据权利要求1所述的一种基于数据融合及多因素决策法的网站判定方法,其特征在于,第二步中若备案类型为公司,则需要查询其工商信息并结合工商信息判别模型进行判定,判定其是否为正常公司。
8.根据权利要求7所述的一种基于数据融合及多因素决策法的网站判定方法,其特征在于,进行判定的标准为:
当存在注册状态或者企业标签为吊销、注销相关信息时,则直接以识别模型的结果为主;
当存在社保缴纳人数>0或者实缴金额>0时,则认定为正常公司,进行第三步;
当存在社保缴纳人数=0并且实缴金额=0时,则认定为非正常公司,以识别模型的结果为主。
9.根据权利要求1所述的一种基于数据融合及多因素决策法的网站判定方法,其特征在于,所述不可信类型包括赌博类型、色情类型、刷单类型。
10.一种基于数据融合及多因素决策法的网站判定系统,其特征在于,包括以下模块:
信息提取模块:提取待测网站的网站基本信息和Whois信息;
识别模型模块:根据信息提取模块提取的网站基本信息和Whois信息,对待测网站进行类型判定;
备案信息查询模块:识别模型模块对待测网站进行完类型判定后,再根据信息提取模块提取的Whois信息,对待测网站进行备案信息查询;
网站判定模块:根据备案信息查询模块所查询的不同结果,采用不同的判定规则;
待测网站的备案主体是个人或者个体工商户,则进行备案一致性的查询,查询网站的尾页上的备案号是否和网站查询的备案号一致,如不一致则返回识别模型模块判定的结果;
待测网站的备案主体是机构组织或者社会团体,则直接进行进行强类型的判定,如果识别模型的结果是不可信类型,则认定该网站的为疑似涉诈网站,否则就认定为正常网站;
待测网站的备案主体是公司,则需要查询其工商信息并结合工商信息判别模型进行综合判定;
结果输出模块:输出系统判定的结果,结束流程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311755440.3A CN117439821A (zh) | 2023-12-20 | 2023-12-20 | 一种基于数据融合及多因素决策法的网站判定方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311755440.3A CN117439821A (zh) | 2023-12-20 | 2023-12-20 | 一种基于数据融合及多因素决策法的网站判定方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117439821A true CN117439821A (zh) | 2024-01-23 |
Family
ID=89552033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311755440.3A Pending CN117439821A (zh) | 2023-12-20 | 2023-12-20 | 一种基于数据融合及多因素决策法的网站判定方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117439821A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117633675A (zh) * | 2024-01-25 | 2024-03-01 | 成都无糖信息技术有限公司 | 一种基于模型级联的网络公害网站发现方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102833262B (zh) * | 2012-09-04 | 2015-07-01 | 珠海市君天电子科技有限公司 | 基于whois信息的钓鱼网站收集、鉴定方法和系统 |
US20160112405A1 (en) * | 2012-10-17 | 2016-04-21 | Beijing Qihoo Technology Company Limited | System, Network Terminal, Browser And Method For Displaying The Relevant Information Of Accessed Website |
WO2017059778A1 (zh) * | 2015-10-08 | 2017-04-13 | 阿里巴巴集团控股有限公司 | 检测空壳网站的方法、装置及系统 |
CN106776946A (zh) * | 2016-12-02 | 2017-05-31 | 重庆大学 | 一种欺诈网站的检测方法 |
CN106888220A (zh) * | 2017-04-12 | 2017-06-23 | 恒安嘉新(北京)科技股份公司 | 一种钓鱼网站检测方法及设备 |
CN109522504A (zh) * | 2018-10-18 | 2019-03-26 | 杭州安恒信息技术股份有限公司 | 一种基于威胁情报判别仿冒网站的方法 |
CN110971571A (zh) * | 2018-09-29 | 2020-04-07 | 北京国双科技有限公司 | 一种网站域名的在验证方法及相关装置 |
CN112328936A (zh) * | 2020-11-02 | 2021-02-05 | 杭州安恒信息安全技术有限公司 | 一种网站识别方法、装置、设备及计算机可读存储介质 |
CN114049508A (zh) * | 2022-01-12 | 2022-02-15 | 成都无糖信息技术有限公司 | 一种基于图片聚类和人工研判的诈骗网站识别方法及系统 |
CN114817808A (zh) * | 2022-04-28 | 2022-07-29 | 杭州安恒信息技术股份有限公司 | 非法网站识别方法、装置、电子装置和存储介质 |
-
2023
- 2023-12-20 CN CN202311755440.3A patent/CN117439821A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102833262B (zh) * | 2012-09-04 | 2015-07-01 | 珠海市君天电子科技有限公司 | 基于whois信息的钓鱼网站收集、鉴定方法和系统 |
US20160112405A1 (en) * | 2012-10-17 | 2016-04-21 | Beijing Qihoo Technology Company Limited | System, Network Terminal, Browser And Method For Displaying The Relevant Information Of Accessed Website |
WO2017059778A1 (zh) * | 2015-10-08 | 2017-04-13 | 阿里巴巴集团控股有限公司 | 检测空壳网站的方法、装置及系统 |
CN106776946A (zh) * | 2016-12-02 | 2017-05-31 | 重庆大学 | 一种欺诈网站的检测方法 |
CN106888220A (zh) * | 2017-04-12 | 2017-06-23 | 恒安嘉新(北京)科技股份公司 | 一种钓鱼网站检测方法及设备 |
CN110971571A (zh) * | 2018-09-29 | 2020-04-07 | 北京国双科技有限公司 | 一种网站域名的在验证方法及相关装置 |
CN109522504A (zh) * | 2018-10-18 | 2019-03-26 | 杭州安恒信息技术股份有限公司 | 一种基于威胁情报判别仿冒网站的方法 |
CN112328936A (zh) * | 2020-11-02 | 2021-02-05 | 杭州安恒信息安全技术有限公司 | 一种网站识别方法、装置、设备及计算机可读存储介质 |
CN114049508A (zh) * | 2022-01-12 | 2022-02-15 | 成都无糖信息技术有限公司 | 一种基于图片聚类和人工研判的诈骗网站识别方法及系统 |
CN114817808A (zh) * | 2022-04-28 | 2022-07-29 | 杭州安恒信息技术股份有限公司 | 非法网站识别方法、装置、电子装置和存储介质 |
Non-Patent Citations (2)
Title |
---|
秦加红: ""怎么样才能判断-个网站是不是假的?"", pages 1 - 3, Retrieved from the Internet <URL:https://www.zhihu.com/question/382438586> * |
陈月华;: "网站可信评价指标体系研究", 信息网络安全, no. 05, 10 May 2013 (2013-05-10) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117633675A (zh) * | 2024-01-25 | 2024-03-01 | 成都无糖信息技术有限公司 | 一种基于模型级联的网络公害网站发现方法及系统 |
CN117633675B (zh) * | 2024-01-25 | 2024-04-30 | 成都无糖信息技术有限公司 | 一种基于模型级联的网络公害网站发现方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230126687A1 (en) | Systems and methods for electronic communication using unique identifiers associated with electronic addresses | |
CN112567407B (zh) | 电子邮件的隐私保护标记和分类 | |
US10129215B2 (en) | Information security threat identification, analysis, and management | |
KR100723867B1 (ko) | 피싱웹페이지 차단 장치 및 방법 | |
US6928465B2 (en) | Redundant email address detection and capture system | |
US8135780B2 (en) | Email safety determination | |
US7835294B2 (en) | Message filtering method | |
CN110519150B (zh) | 邮件检测方法、装置、设备、系统及计算机可读存储介质 | |
US20030212745A1 (en) | Selective multi-step email message marketing | |
CN117439821A (zh) | 一种基于数据融合及多因素决策法的网站判定方法及系统 | |
US20140180976A1 (en) | Systems and methods for generating leads in a network by predicting properties of external nodes | |
CN108023868B (zh) | 恶意资源地址检测方法和装置 | |
CN103873348A (zh) | 电子邮件过滤方法和系统 | |
Tang et al. | Clues in tweets: Twitter-guided discovery and analysis of SMS spam | |
CN104009964A (zh) | 网络链接检测方法和系统 | |
US8880611B1 (en) | Methods and apparatus for detecting spam messages in an email system | |
CN110909384A (zh) | 确定泄露用户信息的业务方的方法及装置 | |
US20070124389A1 (en) | Anti-spam application storage system | |
Khosravi et al. | Reliability of hijacked journal detection based on scientometrics, altmetric tools, and web informatics: A case report using Google Scholar, Web of Science, and Scopus | |
CN105871701A (zh) | 一种邮件处理方法和装置 | |
CN116055440A (zh) | 终端判断并过滤邮件安全内容的方法、装置、设备及介质 | |
WO2005076135A1 (en) | Information security threat identification, analysis, and management | |
CN113961929A (zh) | 一种安全专项脆弱性扫描方法及系统 | |
JP2000165512A (ja) | 不正利用検出方法及び装置及び不正利用検出プログラムを記録したコンピュータ読み取り可能な記憶媒体 | |
CN111917718A (zh) | 一种个人信息泄露监测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |