CN111444961A - 一种通过聚类算法判定互联网网站归属的方法 - Google Patents

一种通过聚类算法判定互联网网站归属的方法 Download PDF

Info

Publication number
CN111444961A
CN111444961A CN202010223235.2A CN202010223235A CN111444961A CN 111444961 A CN111444961 A CN 111444961A CN 202010223235 A CN202010223235 A CN 202010223235A CN 111444961 A CN111444961 A CN 111444961A
Authority
CN
China
Prior art keywords
website
text
features
domain name
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010223235.2A
Other languages
English (en)
Other versions
CN111444961B (zh
Inventor
于佳华
韩钢
常远
张光耀
康海东
孙巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Heilongjiang Branch Of National Computer Network And Information Security Management Center
Original Assignee
Heilongjiang Branch Of National Computer Network And Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Heilongjiang Branch Of National Computer Network And Information Security Management Center filed Critical Heilongjiang Branch Of National Computer Network And Information Security Management Center
Priority to CN202010223235.2A priority Critical patent/CN111444961B/zh
Publication of CN111444961A publication Critical patent/CN111444961A/zh
Application granted granted Critical
Publication of CN111444961B publication Critical patent/CN111444961B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种通过聚类算法判定互联网网站归属的方法,属于网络空间安全技术领域,本发明为了解决传统网站备案信息判定方法和网页信息判定方法无法判定网站归属,或者导致判定归属错误的问题。步骤a,输入待判定归属单位的网站集合,基础数据为网站URL;步骤b,对网站基础信息进行提取;步骤c,对步骤二中提取到的所有信息进行量化;步骤d,将各类特征值映射到同一量纲下的[0,1]区间;归一化特征向量FNwebsite;步骤e,利用无监督聚类算法DBSCAN对数据集进行聚类。本发明的一种通过聚类算法判定互联网网站归属的方法使用聚类分析算法,实现网站归属的自动化判定,有效提升归属判定准确率。

Description

一种通过聚类算法判定互联网网站归属的方法
技术领域
本发明涉及一种判定互联网网站归属的方法,具体涉及一种通过聚类算法判定互联网网站归属的方法,属于网络空间安全技术领域。
背景技术
从20世纪60年代美国的APPANet到今天的国际互联网,网络技术得到了迅猛发展,越来越多的组织和个人接入互联网。包括网络终端、网络设备、网络服务等在内的网络资产已被广泛应用于各类政府、企事业单位的日常业务工作,极大地提高了工作效率,促进了业务工作的发展,但也带来了许多问题和隐患。随着单位网络规模的不断扩大,网络资产及其所包含的漏洞类型不断增多,给单位网络安全管理带来了巨大压力。
网站是网络资产中的一类特殊而重要的资产,互联网上除了存在大众所熟知的门户网站、娱乐网站、购物网站外,更存在着大量的政务服务、办公系统、金融服务、工业控制等网站,这些网站归属于不同的政府、企事业单位,掌握清楚这些网站的归属对于网络安全工作,尤其是漏洞普查、网站安全监管等具有重要的意义。
目前确定网站归属主要有网站备案信息判定和网页信息判定两种方法:
网站备案是根据国家法律法规需要网站的所有者向国家有关部门申请的备案,主要是ICP备。备案信息包括单位名称、单位性质、网站名称等。目前工业和信息化部ICP/IP地址/域名信息备案管理系统、站长之家等网站提供网站备案信息查询服务,用户输入域名或备案号,即可查询备案单位。
网页信息判定主要是通过网页上显示的标题、logo等信息,判断网站的归属。比如很多政府机关、高校、企业都会在网页显著位置展示网站的归属及用途,这些信息可以准确识别网站的归属单位。
网站备案信息判定主要存在如下几个问题,一是有的单位门户等主要网站进行了备案,但OA等小网站未进行备案;二是很多通过IP直接访问的网站未进行备案;三是很多域名备案过期后,未进行备案撤销,导致域名被其他人申请,出现备案信息与网站信息不一致。这些问题会导致通过网站备案信息无法判定网站归属,或者导致判定归属错误。
网页信息判定方法主要存在如下几个问题,一是很多通用定制化网站如ERP管理系统、考勤系统、防火墙系统等,网页上只显示了厂商的信息,无真实归属单位信息;二是有些仿冒诈骗网站,网页故意显示所仿冒单位信息,给人误导;三是存在着某些单位为了避免监管机构安全漏洞通报,特意在网页上隐去可识别本单位信息的内容。这些问题会导致通过网页信息无法判定网站归属,或者导致判定归属错误。
综上,目前网站归属领域常用的网站备案信息判定和网页信息判定两种方法,都存在某些情况下无法判定属或者判定错误的问题。
发明内容
本发明的目的是提供一种通过聚类算法判定互联网网站归属的方法,以解决传统网站备案信息判定方法和网页信息判定方法无法判定网站归属,或者导致判定归属错误的问题。
包括以下步骤:
步骤a,输入待判定归属单位的网站集合,基础数据为网站URL;
步骤b,对网站基础信息进行提取;
步骤c,对步骤b中提取到的所有信息进行量化;
步骤d,将各类特征值映射到同一量纲下的[0,1]区间;使用sklearn模块的normalize函数来实现,归一化特征向量FNwebsite
步骤e,利用无监督聚类算法DBSCAN对数据集进行聚类,实现归属同一单位的网站聚类到同一网站集合下;
步骤f,输出所有网站归属的判定结果。
优选的:所述步骤b中对网站基础信息进行提取包括以下步骤:
步骤b1,网页基本信息提取;提取网页IP、域名、标题、KEYWORDS、版权、备案ID;
步骤b2,网站备案信息查询;通过工业和信息化部ICP/IP地址/域名信息备案管理系统或者站长之家网站查询网站的备案信息;
步骤b3,经过提取之后,该网站会形成由七类原始特征组成的原始特征向量FOwebsite,即IP、域名、标题、KEYWORDS、版权、备案ID和备案单位,其中,IP特征为点分十进制表示,域名特征为一组用点分隔的字符串,其他特征为文本特征。
优选的:步骤c中对提取到的所有信息进行量化包括以下步骤:
步骤c1,IP特征量化;对IP原始特征FOip进行计算,得到IP量化特征FQip,计算公式为:
Figure BDA0002426811210000031
其中,wip为IP特征的权重,为四位的向量wip=[1,3,5,7],
Figure BDA0002426811210000034
为其每一位具体数值,FOip为点分十进制IP地址的按位数字表示,共四位数字,
Figure BDA0002426811210000035
为其每一位具体数值;
步骤c2,对域名进行预处理,将域名通过Mozilla Public Suffix List数据过滤掉域名中的公共后缀字符串,再将域名进行逆序反转,得到预处理域名特征向量FOPdomain
将FOPdomain进行计算,得到域名量化特征FQdomain,计算公式为:
Figure BDA0002426811210000032
其中,wdomain为域名特征的权重,具体为等差数列向量wdomain=[1,2,3,,,],
Figure BDA0002426811210000036
为其每一位具体数值,
Figure BDA0002426811210000037
为预处理域名特征向量FOPdomain的每一个字符,通过本算法实现域名越相似,计算后的域名量化特征值越相近;
步骤c3,文本特征量化;针对标题、KEYWORDS、版权、备案ID、备案单位五个文本特征进行特征量化,使用文本原始特征FOtext代表这些文本类特征的原始特征;
利用汉语分词系统ICTCLAS,对同批次网站的所有文本原始特征进行分词,得到分词库WSL,WSL=[word1,word2,,,wordn];
对文本原始特征FOtext依据分词对文本特征进行计算,如果特征中包含分词wordi,对应位的向量值wi为1,否则为0,得到预处理文本特征FOPtext,其为n为的特征向量,每一位取值为0或1,计算公式如下:
FOPtext=[w1,w2,,,wn],wi=[0,1],i=[1,2,,,n],
将预处理文本特征FOPtext进行计算,得到文本量化特征FQtext,计算公式为:
Figure BDA0002426811210000033
经过步骤c1至步骤c3三类特征的量化处理,得到该网站的量化特征向量FQwebsite
FQwebsite=[FQip,FQdomain,FQtitle,FQkeywords,FQcopyright,FQrecordID,FQrecordENTITY],即IP、域名、标题、KEYWORDS、版权、备案ID和备案单位。
本发明与现有产品相比具有以下效果:
本发明面向网络资产探测领域中网站资产的归属单位判定问题,通过对网站的网页基本信息及备案信息进行量化特征提取,使用聚类分析算法,实现网站归属的自动化判定,有效提升归属判定准确率。
附图说明
图1是本发明所述的一种通过聚类算法判定互联网网站归属的方法的流程图;
具体实施方式
下面根据附图详细阐述本发明优选的实施方式。
具体实施方式1,如图1所示,本发明所述的一种通过聚类算法判定互联网网站归属的方法,其特征在于,包括以下步骤:
步骤a,输入待判定归属单位的网站集合,基础数据为网站URL;
步骤b,对网站基础信息进行提取;
步骤c,对步骤b中提取到的所有信息进行量化;
步骤d,将各类特征值映射到同一量纲下的[0,1]区间;使用sklearn模块的normalize函数来实现,归一化特征向量FNwebsite
FNwebsite=[FNip,FNdomain,FNtitle,FNkeywords,FNcopyright,FNrecordID,FNrecordENTITY];
步骤e,利用无监督聚类算法DBSCAN对数据集进行聚类,实现归属同一单位的网站聚类到同一网站集合下;
对输入的网站集合,通过上述步骤形成归一化特征向量集合,对集合使用DBSCAN算法进行聚类分析,形成任意形状的聚类簇,同一簇下的网站即归属同一单位。通过调整关键参数扫描半径Eps和最小包含点数MinPts对聚类效果进行调节,在本实施例中,Eps=0.01,MinPts=2,效果最佳。
步骤f,输出所有网站归属的判定结果。
进一步:所述步骤b中对网站基础信息进行提取包括以下步骤:
步骤b1,网页基本信息提取。提取网页IP、域名、标题、KEYWORDS、版权、备案ID等。大部分网站不是所有类别信息都能提取到,提取过程中应遵循能提取尽量提取的原则。
步骤b2,网站备案信息查询。通过工业和信息化部ICP/IP地址/域名信息备案管理系统或者站长之家等网站查询网站的备案信息,根据实践只有通过域名查询数据较为准确,因此只需对绑定域名的网站执行本步骤。
步骤b3,因获取数据过程使用通用的爬虫技术,本发明不进行详细描述,经过提取之后,该网站会形成由七类原始特征组成的原始特征向量FOwebsite,即IP、域名、标题、KEYWORDS、版权、备案ID、备案单位。对于大多数网站,这七类特征中某部分特征提取不到,用空字符串表示。
FOwebsite=[FOip,FOdomain,FOtitle,FOkeywords,FOcopyright,FOrecordID,FOrecordENTITY]
其中,IP特征为点分十进制表示,域名特征为一组用点分隔的字符串,其他特征为文本特征。
进一步:步骤c中对提取到的所有信息进行量化包括以下步骤:
步骤c1,IP特征量化。
对IP原始特征FOip进行如下计算,得到IP量化特征FQip
Figure BDA0002426811210000051
其中,wip为IP特征的权重,为四位的向量wip=[1,3,5,7],
Figure BDA0002426811210000053
为其每一位具体数值。FOip为点分十进制IP地址的按位数字表示,共四位数字,
Figure BDA0002426811210000054
为其每一位具体数值。通过本算法实现IP地址越相邻,计算后的IP量化特征值越相近。
步骤c2,域名特征量化。
先对域名进行预处理,将域名通过Mozilla Public Suffix List数据过滤掉域名中的公共后缀字符串,再将域名进行逆序反转,得到预处理域名特征向量FOPdomain
将FOPdomain进行如下计算,得到域名量化特征FQdomain
Figure BDA0002426811210000052
其中,wdomain为域名特征的权重,具体为等差数列向量wdomain=[1,2,3,,,],
Figure BDA0002426811210000055
为其每一位具体数值。
Figure BDA0002426811210000056
为预处理域名特征向量FOPdomain的每一个字符。通过本算法实现域名越相似,计算后的域名量化特征值越相近。
步骤c3,文本特征量化。针对标题、KEYWORDS、版权、备案ID、备案单位这五位文本特征都采用如下方法进行特征量化,因为这些特征使用相同的两个特征方法,使用文本原始特征FOtext代表这些文本类特征的原始特征。
首先利用北京理工大学张华平博士的汉语分词系统ICTCLAS,对这批网站的所有文本原始特征进行分词,得到分词库WSL,WSL=[word1,word2,,,wordn]。
对文本原始特征FOtext依据分词对文本特征进行如下计算,如果特征中包含分词wordi,对应位的向量值wi为1,否则为0。得到预处理文本特征FOPtext,其为n为的特征向量,每一位取值为0或1,具体如下:
FOPtext=[w1,w2,,,wn],wi=[0,1],i=[1,2,,,n]
将预处理文本特征FOPtext进行如下计算,得到文本量化特征FQtext
Figure BDA0002426811210000061
经过以上三类特征的量化处理,得到该网站的量化特征向量FQwebsite
FQwebsite=[FQip,FQdomain,FQtitle,FQkeywords,FQcopyright,FQrecordID,FQrecordENTITY],即IP、域名、标题、KEYWORDS、版权、备案ID和备案单位。
本实施方式只是对本专利的示例性说明,并不限定它的保护范围,本领域技术人员还可以对其局部进行改变,只要没有超出本专利的精神实质,都在本专利的保护范围内。

Claims (3)

1.一种通过聚类算法判定互联网网站归属的方法,其特征在于,包括以下步骤:
步骤a,输入待判定归属单位的网站集合,基础数据为网站URL;
步骤b,对网站基础信息进行提取;
步骤c,对步骤二中提取到的所有信息进行量化;
步骤d,将各类特征值映射到同一量纲下的[0,1]区间;使用sklearn模块的normalize函数来实现,归一化特征向量FNwebsite
步骤e,利用无监督聚类算法DBSCAN对数据集进行聚类,实现归属同一单位的网站聚类到同一网站集合下;
步骤f,输出所有网站归属的判定结果。
2.根据权利要求1所述的一种通过聚类算法判定互联网网站归属的方法,其特征在于,所述步骤b中对网站基础信息进行提取包括以下步骤:
步骤b1,网页基本信息提取;提取网页IP、域名、标题、KEYWORDS、版权、备案ID;
步骤b2,网站备案信息查询;通过工业和信息化部ICP/IP地址/域名信息备案管理系统或者站长之家网站查询网站的备案信息;
步骤b3,经过提取之后,该网站会形成由七类原始特征组成的原始特征向量FOwebsite,即IP、域名、标题、KEYWORDS、版权、备案ID和备案单位,其中,IP特征为点分十进制表示,域名特征为一组用点分隔的字符串,其他特征为文本特征。
3.根据权利要求1所述的一种通过聚类算法判定互联网网站归属的方法,其特征在于,所述步骤c中对提取到的所有信息进行量化包括以下步骤:
步骤c1,IP特征量化;对IP原始特征FOip进行计算,得到IP量化特征FQip,计算公式为:
Figure FDA0002426811200000011
其中,wip为IP特征的权重,为四位的向量wip=[1,3,5,7],
Figure FDA0002426811200000012
为其每一位具体数值,FOip为点分十进制IP地址的按位数字表示,共四位数字,
Figure FDA0002426811200000013
为其每一位具体数值;
步骤c2,对域名进行预处理,将域名通过Mozilla Public Suffix List数据过滤掉域名中的公共后缀字符串,再将域名进行逆序反转,得到预处理域名特征向量FOPdomain
将FOPdomain进行计算,得到域名量化特征FQdomain,计算公式为:
Figure FDA0002426811200000021
其中,wdomain为域名特征的权重,具体为等差数列向量wdomain=[1,2,3,,,],
Figure FDA0002426811200000022
为其每一位具体数值,
Figure FDA0002426811200000023
为预处理域名特征向量FOPdomain的每一个字符,通过本算法实现域名越相似,计算后的域名量化特征值越相近;
步骤c3,文本特征量化;针对标题、KEYWORDS、版权、备案ID、备案单位五个文本特征进行特征量化,使用文本原始特征FOtext代表这些文本类特征的原始特征;
利用汉语分词系统ICTCLAS,对同批次网站的所有文本原始特征进行分词,得到分词库WSL,WSL=[word1,word2,,,wordn];
对文本原始特征FOtext依据分词对文本特征进行计算,如果特征中包含分词wordi,对应位的向量值wi为1,否则为0,得到预处理文本特征FOPtext,其为n为的特征向量,每一位取值为0或1,计算公式如下:
FOPtext=[w1,w2,,,wn],wi=[0,1],i=[1,2,,,n],
将预处理文本特征FOPtext进行计算,得到文本量化特征FQtext,计算公式为:
Figure FDA0002426811200000024
经过步骤c1至步骤c3三类特征的量化处理,得到该网站的量化特征向量FQwebsite
FQwebsite=[FQip,FQdomain,FQtitle,FQkeywords,FQcopyright,FQrecordID,FQrecordENTITY],即IP、域名、标题、KEYWORDS、版权、备案ID和备案单位。
CN202010223235.2A 2020-03-26 2020-03-26 一种通过聚类算法判定互联网网站归属的方法 Active CN111444961B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010223235.2A CN111444961B (zh) 2020-03-26 2020-03-26 一种通过聚类算法判定互联网网站归属的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010223235.2A CN111444961B (zh) 2020-03-26 2020-03-26 一种通过聚类算法判定互联网网站归属的方法

Publications (2)

Publication Number Publication Date
CN111444961A true CN111444961A (zh) 2020-07-24
CN111444961B CN111444961B (zh) 2023-08-18

Family

ID=71654735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010223235.2A Active CN111444961B (zh) 2020-03-26 2020-03-26 一种通过聚类算法判定互联网网站归属的方法

Country Status (1)

Country Link
CN (1) CN111444961B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112104656A (zh) * 2020-09-16 2020-12-18 杭州安恒信息安全技术有限公司 一种网络威胁数据获取方法、装置、设备及介质
CN112785154A (zh) * 2021-01-22 2021-05-11 西安交通大学 一种云erp系统的安全评价方法
CN113158001A (zh) * 2021-03-25 2021-07-23 深圳市联软科技股份有限公司 一种网络空间ip资产归属及相关性判别方法及系统
CN113468391A (zh) * 2021-07-13 2021-10-01 杭州安恒信息技术股份有限公司 网站信息聚类方法、装置、电子装置和计算机设备

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101950337A (zh) * 2010-09-08 2011-01-19 乔永清 用于网站真实数据监控的系统及方法
US20120166439A1 (en) * 2010-12-28 2012-06-28 Yahoo! Inc. Method and system for classifying web sites using query-based web site models
CN103929330A (zh) * 2014-04-22 2014-07-16 中国科学院计算技术研究所 域名服务质量评估方法及系统
CN105488406A (zh) * 2014-12-29 2016-04-13 哈尔滨安天科技股份有限公司 一种基于特征向量的相似恶意样本匹配方法及系统
CN105574047A (zh) * 2014-10-17 2016-05-11 任子行网络技术股份有限公司 一种基于网站主页特征分析的中文网站分类方法和系统
CN105824822A (zh) * 2015-01-05 2016-08-03 任子行网络技术股份有限公司 一种由钓鱼网页聚类定位目标网页的方法
CN106992967A (zh) * 2017-02-28 2017-07-28 北京瑞星信息技术股份有限公司 恶意网站识别方法和系统
CN106997367A (zh) * 2016-01-26 2017-08-01 华为技术有限公司 程序文件的分类方法、分类装置和分类系统
CN108256104A (zh) * 2018-02-05 2018-07-06 恒安嘉新(北京)科技股份公司 基于多维特征的互联网网站综合分类方法
CN109063164A (zh) * 2018-08-15 2018-12-21 百卓网络科技有限公司 一种基于深度学习的智能问答方法
US20190043095A1 (en) * 2017-08-07 2019-02-07 Criteo Sa Generating structured classification data of a website
CN110020671A (zh) * 2019-03-08 2019-07-16 西北大学 基于双通道cnn-lstm网络的药物关系分类模型构建及分类方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101950337A (zh) * 2010-09-08 2011-01-19 乔永清 用于网站真实数据监控的系统及方法
US20120166439A1 (en) * 2010-12-28 2012-06-28 Yahoo! Inc. Method and system for classifying web sites using query-based web site models
CN103929330A (zh) * 2014-04-22 2014-07-16 中国科学院计算技术研究所 域名服务质量评估方法及系统
CN105574047A (zh) * 2014-10-17 2016-05-11 任子行网络技术股份有限公司 一种基于网站主页特征分析的中文网站分类方法和系统
CN105488406A (zh) * 2014-12-29 2016-04-13 哈尔滨安天科技股份有限公司 一种基于特征向量的相似恶意样本匹配方法及系统
CN105824822A (zh) * 2015-01-05 2016-08-03 任子行网络技术股份有限公司 一种由钓鱼网页聚类定位目标网页的方法
CN106997367A (zh) * 2016-01-26 2017-08-01 华为技术有限公司 程序文件的分类方法、分类装置和分类系统
CN106992967A (zh) * 2017-02-28 2017-07-28 北京瑞星信息技术股份有限公司 恶意网站识别方法和系统
US20190043095A1 (en) * 2017-08-07 2019-02-07 Criteo Sa Generating structured classification data of a website
CN108256104A (zh) * 2018-02-05 2018-07-06 恒安嘉新(北京)科技股份公司 基于多维特征的互联网网站综合分类方法
CN109063164A (zh) * 2018-08-15 2018-12-21 百卓网络科技有限公司 一种基于深度学习的智能问答方法
CN110020671A (zh) * 2019-03-08 2019-07-16 西北大学 基于双通道cnn-lstm网络的药物关系分类模型构建及分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
于佳华;: "一种基于DBSCAN算法的提升互联网网站归属判定准确率的方法", 网络安全技术与应用, no. 06 *
刘勘等: "链路结构的网页聚类研究", 《小型微型计算机系统》, no. 07 *
吴萍萍: "基于信息熵加权的Word2vec中文文本分类研究", 《长春师范大学学报》, no. 02 *
康永燕: "基于内容的网站聚类算法研究", 《万方硕士学位论文》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112104656A (zh) * 2020-09-16 2020-12-18 杭州安恒信息安全技术有限公司 一种网络威胁数据获取方法、装置、设备及介质
CN112785154A (zh) * 2021-01-22 2021-05-11 西安交通大学 一种云erp系统的安全评价方法
CN113158001A (zh) * 2021-03-25 2021-07-23 深圳市联软科技股份有限公司 一种网络空间ip资产归属及相关性判别方法及系统
CN113158001B (zh) * 2021-03-25 2024-05-14 深圳市联软科技股份有限公司 一种网络空间ip资产归属及相关性判别方法及系统
CN113468391A (zh) * 2021-07-13 2021-10-01 杭州安恒信息技术股份有限公司 网站信息聚类方法、装置、电子装置和计算机设备
CN113468391B (zh) * 2021-07-13 2024-05-28 杭州安恒信息技术股份有限公司 网站信息聚类方法、装置、电子装置和计算机设备

Also Published As

Publication number Publication date
CN111444961B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN111444961A (zh) 一种通过聚类算法判定互联网网站归属的方法
US11973799B2 (en) Domain name processing systems and methods
US8996524B2 (en) Automatically mining patterns for rule based data standardization systems
CN112241458B (zh) 文本的知识结构化处理方法、装置、设备和可读存储介质
CN112328936A (zh) 一种网站识别方法、装置、设备及计算机可读存储介质
CN113592522A (zh) 处理流量数据的方法及设备、和计算机可读存储介质
CN113806548A (zh) 基于深度学习模型的信访要素抽取方法及抽取系统
CN115238688A (zh) 电子信息数据关联关系分析方法、装置、设备和存储介质
CN1987847A (zh) 用于验证文档中的统一资源定位符的方法和装置
CN111177719A (zh) 地址类别判定方法、装置、计算机可读存储介质及设备
CN112445976A (zh) 一种基于拥堵指数图谱的城市地址定位方法
CN115618085B (zh) 一种基于动态标签的接口数据暴露探测方法
CN109918639B (zh) 一种基于深度学习技术和规则库的银行授信文本解析方法
CN116340989A (zh) 一种数据脱敏方法、装置、电子设备及存储介质
CN108897739A (zh) 一种智能化的应用流量识别特征自动挖掘方法与系统
CN112989820B (zh) 法律文书定位方法、装置、设备及存储介质
CN110766091B (zh) 一种套路贷团伙的识别方法及系统
CN112381458A (zh) 项目评审方法、项目评审装置、设备及存储介质
CN112199573A (zh) 一种非法交易主动探测方法及系统
CN114117292B (zh) 一种互联网大数据分析提取方法
CN116775889B (zh) 基于自然语言处理的威胁情报自动提取方法、系统、设备和存储介质
CN115982508B (zh) 基于异构信息网络的网站检测方法、电子设备及介质
CN111402012B (zh) 一种基于迁移学习的电商缺陷产品识别方法
Cao et al. Constructing local information feature for spatial image steganalysis
Liu Research on the Evaluation of Business English Teaching Model Under the Background of Big Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant