CN113779389A - 违法网站识别方法、装置、电子装置和存储介质 - Google Patents
违法网站识别方法、装置、电子装置和存储介质 Download PDFInfo
- Publication number
- CN113779389A CN113779389A CN202110986619.4A CN202110986619A CN113779389A CN 113779389 A CN113779389 A CN 113779389A CN 202110986619 A CN202110986619 A CN 202110986619A CN 113779389 A CN113779389 A CN 113779389A
- Authority
- CN
- China
- Prior art keywords
- domain name
- illegal
- name information
- legal
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000004590 computer program Methods 0.000 claims description 14
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000004043 dyeing Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000010186 staining Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/45—Network directories; Name-to-address mapping
- H04L61/4505—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
- H04L61/4511—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种违法网站识别方法、装置、电子装置和存储介质,其中,该违法网站识别方法包括:获取违法域名集和合法域名集,其中,所述违法域名集包括多个违法域名,所述合法域名集包括多个合法域名;根据所述违法域名集和所述合法域名集,获取违法域名信息集和合法域名信息集;根据所述违法域名信息集和合法域名信息集进行匹配,生成域名关联集;根据所述域名关联集,建立违法域名树。通过本申请,解决了无法即时准确的识别违法网站的问题,实现了加快基于关联域名的违法域名信息的搜索速度和提高基于关联域名的违法域名信息搜索的准确性、扩充搜索范围等,可用于高效地、准确地、大规模地识别违法网站。
Description
技术领域
本申请涉及互联网信息安全领域,特别是涉及违法网站识别方法、装置、电子装置和存储介质。
背景技术
随着近年来互联网产业的飞速发展,互联网的服务模式和传播渠道也日趋多样化。新闻网站、门户网站、搜索引擎、论坛、博客、P2P等多种服务模式并存,互联网已演化成为一个虚拟社会,互联网安全管理面临空前的挑战。
互联网信息技术的不断进步,不仅给互联网用户提供便利,也使计算机信息领域的犯罪越来越多,对国家和个人造成了越来越大的影响。如何高效、准确识别违法网站已成为一个至关重要的关键点。
目前,政府部门或第三方厂商往往会设置相应的举报途径,接收来自互联网用户的举报信息,对举报信息进行核实,再对违法网站、违禁内容进行查封,以实现对互联网内容的监督。但是,大多数互联网用户缺乏一定的鉴别能力,往往只有在上当受骗后,才能进行举报,甚至在不知情的情况下,根本不会进行举报。
然而,在大量的网站面前如果通过人工进行审核,很难在短时间内通过人工识别出违法网站。因此,在人力有限的情况下,利用先进的计算机信息安全技术对网站进行准确的识别已成为亟待解决的问题。
针对相关技术中存在无法即时准确的识别违法网站,目前还没有提出有效的解决方案。
发明内容
在本实施例中提供了一种违法网站识别方法、装置、电子装置和存储介质,以解决相关技术中存在无法即时准确的识别违法网站的问题。
第一个方面,在本实施例中提供了一种违法网站识别方法,包括:
获取违法域名集和合法域名集,其中,所述违法域名集包括多个违法域名,所述合法域名集包括多个合法域名;
根据所述违法域名集和所述合法域名集,获取违法域名信息集和合法域名信息集;
根据所述违法域名信息集和合法域名信息集进行匹配,生成域名关联集;
根据所述域名关联集,建立违法域名树。
在其中的一些实施例中,所述根据所述合法域名信息集和违法域名信息集,生成域名关联集包括:
其中,所述违法域名信息集包括多个违法域名信息,所述合法域名信息集包括多个合法域名信息;
将所述违法域名信息和多个所述合法域名信息进行广度优先搜索,获得关联路径;
根据所述关联路径,生成域名关联集。
在其中的一些实施例中,所述将所述违法域名信息和多个所述合法域名信息进行广度优先搜索,获得关联路径包括:
将所述违法域名信息集内的违法域名信息逐一与所述合法域名信息集内的合法域名信息进行匹配,获得对应的关联域名;
根据多个所述关联域名,生成关联路径。
在其中的一些实施例中,所述将所述违法域名信息集内的违法域名信息逐一与所述合法域名信息集内的合法域名信息进行匹配,获得对应的关联域名包括:
检测所述违法域名信息与所述合法域名信息的相似度是否大于关联阈值;
若所述违法域名信息与所述合法域名信息的相似度大于关联阈值,则所述违法域名信息与所述合法域名信息为关联域名。
在其中的一些实施例中,所述若所述违法域名信息与所述合法域名信息的相似度大于关联阈值,则所述违法域名信息与所述合法域名信息为关联域名包括:
根据所述违法域名信息对应的合法域名信息的相似度,将多个关联域名进行排序。
在其中的一些实施例中,所述将所述违法域名信息集内的违法域名信息逐一与所述合法域名信息集内的合法域名信息进行匹配,获得对应的关联域名还包括:
将相似度大于关联阈值的合法域名信息作为违法域名信息,添加至所述违法域名信息集内;
将所述违法域名信息与所述合法域名信息集内的合法域名信息进行匹配,获得关联域名。
在其中的一些实施例中,所述将所述违法域名信息和多个所述合法域名信息进行广度优先搜索,获得关联路径包括:
根据所述违法域名信息访问对应的合法域名信息;
若当前访问域名的层次达到最大限制层次数或当前域名无关联域名可搜索时,则停止本次所述违法域名信息的广度优先搜索。
第二个方面,在本实施例中提供了一种违法网站识别装置,包括:
域名获取模块,用于获取违法域名集和合法域名集,其中,所述违法域名集包括多个违法域名,所述合法域名集包括多个合法域名;
信息获取模块,用于根据所述违法域名集和所述合法域名集,获取违法域名信息集和合法域名信息集;
关联匹配模块,用于根据所述违法域名信息集和合法域名信息集进行匹配,生成域名关联集;
域名树建立模块,用于根据所述域名关联集,建立违法域名树。
第三个方面,在本实施例中提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一个方面所述的违法网站识别方法。
第四个方面,在本实施例中提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一个方面所述的违法网站识别方法。
与相关技术相比,在本实施例中提供的违法网站识别方法,通过违法域名和合法域名进行匹配,对已知的违法域名信息集进行广度优先搜索,获取到一批与违法域名关联的合法域名信息添加到的违法域名信息集内,继续对这批新的违法域名信息集进行广度优先搜索,不断重复上述过程,加快基于关联域名的违法域名信息的搜索速度和提高基于关联域名的违法域名信息搜索的准确性、扩充搜索范围等,可用于高效地、准确地、大规模地识别违法网站。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是相关技术的违法网站识别方法的终端的硬件结构框图。
图2是本实施例的违法网站识别方法的流程图;
图3是本实施例的另一种违法网站识别方法的流程图;
图4是本实施例的违法网站识别装置的结构框图。
具体实施方式
为更清楚地理解本申请的目的、技术方案和优点,下面结合附图和实施例,对本申请进行了描述和说明。
除另作定义外,本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制,它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体,其目的是涵盖不排他的包含;例如,包含一系列步骤或模块(单元)的过程、方法和系统、产品或设备并未限定于列出的步骤或模块(单元),而可包括未列出的步骤或模块(单元),或者可包括这些过程、方法、产品或设备固有的其他步骤或模块(单元)。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接,而可以包括电气连接,无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。通常情况下,字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等,只是对相似对象进行区分,并不代表针对对象的特定排序。
在本实施例中提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。比如在终端上运行,图1是本实施例的违法网站识别方法的终端的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器102和用于存储数据的存储器104,其中,处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限制。例如,终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示出的不同配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如在本实施例中的违法网站识别方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(NetworkInterface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种违法网站识别方法,图2是本实施例的违法网站识别方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,获取违法域名集和合法域名集。
其中,所述违法域名集包括多个违法域名,所述合法域名集包括多个合法域名。
具体地,获取多个违法网站域名,生成违法域名集;获取多个合法网站域名,生成合法域名集,将所述违法域名集和所述合法域名集存入预设的域名数据库中。
步骤S202,根据所述违法域名集和所述合法域名集,获取违法域名信息集和合法域名信息集。
具体地,根据违法域名集和合法域名集获取对应的网站域名whois信息、域名注册信息、域名历史信息、域名解析IP信息、同IP网站信息等信息,生成违法域名信息集和合法域名信息集并存入预设的信息数据库中。
步骤S203,根据所述违法域名信息集和合法域名信息集进行匹配,生成域名关联集。
其中,所述违法域名信息集包括多个违法域名信息,所述合法域名信息集包括多个合法域名信息。
具体地,将所述违法域名信息作为种根节点,将所述合法域名信息作为违法域名信息的子节点,通过比较所述违法域名信息和所述合法域名信息之间的信息,确定关联性。更具体地,将所述违法域名信息和多个所述合法域名信息进行广度优先搜索,获得所述违法域名信息与多个所述合法域名信息的访问域名路径,通过计算关联路径所访问的域名数量,获取访问域名数量最少的路径作为关联路径。
所述将所述违法域名信息和多个所述合法域名信息进行广度优先搜索,获得关联路径包括:将所述违法域名信息集内的违法域名信息逐一与所述合法域名信息集内的合法域名信息进行匹配,获得对应的关联域名。根据多个所述关联域名,生成关联路径。
具体地,通过比较所述违法域名信息和多个所述合法域名信息的域名whois信息、域名注册信息、域名历史信息、域名解析IP信息、同IP网站信息等信息,筛选出所述违法域名信息与所述合法域名信息相匹配的域名作为关联域名。更具体的,获取所述违法域名信息与所述合法域名信息,通过比较两个域名的注册人、注册商、注册邮箱、注册电话是否相同;比较两个域名解析的IP是否相同,或者两个域名指向同一个网站等等关联信息,来确定所述违法域名信息与所述合法域名信息是否为关联域名。在本实施例中,所述违法域名信息和所述合法域名信息之间任意一项信息相同,则为关联域名。
所述将违法域名信息集内的违法域名信息逐一与所述合法域名信息集内的合法域名信息进行匹配,获得对应的关联域名包括:检测所述违法域名信息与所述合法域名信息的相似度是否大于关联阈值;若所述违法域名信息与所述合法域名信息的相似度大于关联阈值,则所述违法域名信息与所述合法域名信息为关联域名。
具体地,若所述违法域名信息与所述合法域名信息的相似度小于等于关联阈值,则所述违法域名信息与该合法域名信息没有关联,并将该合法域名信息重新放回所述合法域名信息集内等待下一个违法域名信息进行相似度判断。进一步地,将相似度大于关联阈值的合法域名信息作为违法域名信息,添加至所述违法域名信息集内;将所述违法域名信息与所述合法域名信息集内的合法域名信息进行匹配,获得关联域名。
所述将所述违法域名信息和多个所述合法域名信息进行广度优先搜索,获得关联路径包括:根据所述违法域名信息访问对应的合法域名信息;若当前访问域名的层次达到最大限制层次数或当前域名无关联域名可搜索时,则停止本次所述违法域名信息的广度优先搜索。
具体地,检测当前访问域名的层次达到是否最大限制层次数,若当前访问域名的层次达到最大限制层次数,则停止本次所述违法域名信息的广度优先搜索;若当前访问域名的层次没有达到最大限制层次数,则继续本次所述违法域名信息的广度优先搜索。检测所述违法域名信息集内所有违法域名信息是否搜索完毕,若所述违法域名信息集内所有违法域名信息都搜索完毕后,则停止本次所述违法域名信息的广度优先搜索;若所述违法域名信息集内所有违法域名信息没有搜索完毕后,则继续本次所述违法域名信息的广度优先搜索。
所述若所述违法域名信息与所述合法域名信息的相似度大于关联阈值,则所述违法域名信息与所述合法域名信息为关联域名包括:根据所述违法域名信息对应的合法域名信息的相似度,将多个关联域名进行排序。
具体地,根据所述违法域名信息对应的合法域名信息的相似度,将多个关联域名根据相似度从高到低进行排列。
步骤S204,根据所述域名关联集,建立违法域名树。
其中,所述域名关联集包括多个关联路径。
具体地,根据违法域名信息之间的多个关联路径,建立违法域名树。
通过上述步骤,通过将违法域名和合法域名进行匹配,对已知的违法域名信息集进行广度优先搜索,获取到一批与违法域名关联的合法域名信息添加到的违法域名信息集内,继续对这批新的违法域名信息集进行广度优先搜索,不断重复上述过程,加快基于关联域名的违法域名信息的搜索速度和提高基于关联域名的违法域名信息搜索的准确性、扩充搜索范围等,可用于高效地、准确地、大规模地识别违法网站。
在本实施例中还提供了一种违法网站识别方法。图3是本实施例的另一种违法网站识别方法的流程图,如图3所示,该流程包括如下步骤:
步骤S301,初始化图,输入起点Vs,终点Vd。
具体地,初始化图,设置起点Vs,终点Vd,以及起点Vs和终点Vd之间的节点Vw。
步骤S302,起点加入灰色染色集合Q。
具体地,所述灰色染色集合Q为违法域名信息集。
步骤S303,从灰色染色集合Q拿出一个点Vn。
具体地,若灰色染色集合Q有违法域名信息,则将违法域名信息集内的一个违法域名信息放在起点。若灰色染色集合Q没有违法域名信息,则结束本次搜索跳转至步骤S310。终点和节点均为合法域名信息。
步骤S304,将Vn染成黑色。
具体地,Vn为违法域名信息,染成黑色。
步骤S305,取出Vn所有相邻的白色节点Vw。
具体地,对Vn所有相邻的合法域名信息进行搜索关联域名。
步骤S306,判断这些Vw是否有终点Vd。
具体地,若Vw节点有终点Vd,则跳转至步骤S307;若Vw节点没有终点Vd,则跳转至步骤S308。
步骤S307,计算获得结果路径。
具体地,搜索该违法域名信息的关联域名,搜索完毕将该Vw节点染成黑色。
步骤S308,将Vw标志成灰色节点。
具体地,将Vw标志为违法域名信息,加入违法域名信息集。
步骤S309,Vw加入灰色染色集合Q。
步骤S310,无解。
通过上述步骤,比较所述违法域名信息和多个所述合法域名信息的域名whois信息、域名注册信息、域名历史信息、域名解析IP信息、同IP网站信息等信息,筛选出所述违法域名信息与所述合法域名信息相匹配的域名作为关联域名,根据多个关联域名生成关联路径,再根据关联路径生成关联域名集,从而构造成一棵违法网站的域名树,并且能实时根据新的违法域名信息数据来扩充树的叶子节点,得出一棵新的违法网站域名树。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中还提供了一种违法网站识别装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。以下所使用的术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是本实施例的违法网站识别装置的结构框图,如图4所示,该装置包括:域名获取模块410、信息获取模块420、关联匹配模块430和域名树建立模块440。
域名获取模块410,用于获取违法域名集和合法域名集,其中,所述违法域名集包括多个违法域名,所述合法域名集包括多个合法域名。
信息获取模块420,用于根据所述违法域名集和所述合法域名集,获取违法域名信息集和合法域名信息集。
关联匹配模块430,用于根据所述违法域名信息集和合法域名信息集进行匹配,生成域名关联集。
域名树建立模块440,用于根据所述域名关联集,建立违法域名树。
关联匹配模块430,还用于将所述违法域名信息和多个所述合法域名信息进行广度优先搜索,获得关联路径;根据所述关联路径,生成域名关联集。
关联匹配模块430,还用于将所述违法域名信息集内的违法域名信息逐一与所述合法域名信息集内的合法域名信息进行匹配,获得对应的关联域名;根据多个所述关联域名,生成关联路径。
关联匹配模块430,还用于检测所述违法域名信息与所述合法域名信息的相似度是否大于关联阈值;若所述违法域名信息与所述合法域名信息的相似度大于关联阈值,则所述违法域名信息与所述合法域名信息为关联域名。
关联匹配模块430,还用于根据所述违法域名信息对应的合法域名信息的相似度,将多个关联域名进行排序。
关联匹配模块430,还用于将相似度大于关联阈值的合法域名信息作为违法域名信息,添加至所述违法域名信息集内;将所述违法域名信息与所述合法域名信息集内的合法域名信息进行匹配,获得关联域名。
关联匹配模块430,还用于根据所述违法域名信息访问对应的合法域名信息;若当前访问域名的层次达到最大限制层次数或当前域名无关联域名可搜索时,则停止本次所述违法域名信息的广度优先搜索。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
在本实施例中还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
获取违法域名集和合法域名集,其中,所述违法域名集包括多个违法域名,所述合法域名集包括多个合法域名;
根据所述违法域名集和所述合法域名集,获取违法域名信息集和合法域名信息集;
根据所述违法域名信息集和合法域名信息集进行匹配,生成域名关联集;
根据所述域名关联集,建立违法域名树。
所述根据所述合法域名信息集和违法域名信息集,生成域名关联集包括:其中,所述违法域名信息集包括多个违法域名信息,所述合法域名信息集包括多个合法域名信息;将所述违法域名信息和多个所述合法域名信息进行广度优先搜索,获得关联路径;根据所述关联路径,生成域名关联集。
所述将所述违法域名信息和多个所述合法域名信息进行广度优先搜索,获得关联路径包括:将所述违法域名信息集内的违法域名信息逐一与所述合法域名信息集内的合法域名信息进行匹配,获得对应的关联域名;根据多个所述关联域名,生成关联路径。
所述将违法域名信息集内的违法域名信息逐一与所述合法域名信息集内的合法域名信息进行匹配,获得对应的关联域名包括:检测所述违法域名信息与所述合法域名信息的相似度是否大于关联阈值;若所述违法域名信息与所述合法域名信息的相似度大于关联阈值,则所述违法域名信息与所述合法域名信息为关联域名。
所述若所述违法域名信息与所述合法域名信息的相似度大于关联阈值,则所述违法域名信息与所述合法域名信息为关联域名包括:根据所述违法域名信息对应的合法域名信息的相似度,将多个关联域名进行排序。
所述将违法域名信息集内的违法域名信息逐一与所述合法域名信息集内的合法域名信息进行匹配,获得对应的关联域名还包括:将相似度大于关联阈值的合法域名信息作为违法域名信息,添加至所述违法域名信息集内;将所述违法域名信息与所述合法域名信息集内的合法域名信息进行匹配,获得关联域名。
所述将所述违法域名信息和多个所述合法域名信息进行广度优先搜索,获得关联路径包括:根据所述违法域名信息访问对应的合法域名信息;若当前访问域名的层次达到最大限制层次数或当前域名无关联域名可搜索时,则停止本次所述违法域名信息的广度优先搜索。
需要说明的是,在本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,在本实施例中不再赘述。
此外,结合上述实施例中提供的违法网站识别方法,在本实施例中还可以提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种违法网站识别方法。
应该明白的是,这里描述的具体实施例只是用来解释这个应用,而不是用来对它进行限定。根据本申请提供的实施例,本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例,均属本申请保护范围。
显然,附图只是本申请的一些例子或实施例,对本领域的普通技术人员来说,也可以根据这些附图将本申请适用于其他类似情况,但无需付出创造性劳动。另外,可以理解的是,尽管在此开发过程中所做的工作可能是复杂和漫长的,但是,对于本领域的普通技术人员来说,根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段,不应被视为本申请公开的内容不足。
“实施例”一词在本申请中指的是结合实施例描述的具体特征、结构或特性可以包括在本申请的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例,也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是,本申请中描述的实施例在没有冲突的情况下,可以与其它实施例结合。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对专利保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种违法网站识别方法,其特征在于,包括:
获取违法域名集和合法域名集,其中,所述违法域名集包括多个违法域名,所述合法域名集包括多个合法域名;
根据所述违法域名集和所述合法域名集,获取违法域名信息集和合法域名信息集;
根据所述违法域名信息集和合法域名信息集进行匹配,生成域名关联集;
根据所述域名关联集,建立违法域名树。
2.根据权利要求1所述的违法网站识别方法,其特征在于,所述根据所述合法域名信息集和违法域名信息集,生成域名关联集包括:
其中,所述违法域名信息集包括多个违法域名信息,所述合法域名信息集包括多个合法域名信息;
将所述违法域名信息和多个所述合法域名信息进行广度优先搜索,获得关联路径;
根据所述关联路径,生成域名关联集。
3.根据权利要求2所述的违法网站识别方法,其特征在于,所述将所述违法域名信息和多个所述合法域名信息进行广度优先搜索,获得关联路径包括:
将所述违法域名信息集内的违法域名信息逐一与所述合法域名信息集内的合法域名信息进行匹配,获得对应的关联域名;
根据多个所述关联域名,生成关联路径。
4.根据权利要求3所述的违法网站识别方法,其特征在于,所述将所述违法域名信息集内的违法域名信息逐一与所述合法域名信息集内的合法域名信息进行匹配,获得对应的关联域名包括:
检测所述违法域名信息与所述合法域名信息的相似度是否大于关联阈值;
若所述违法域名信息与所述合法域名信息的相似度大于关联阈值,则所述违法域名信息与所述合法域名信息为关联域名。
5.根据权利要求4所述的违法网站识别方法,其特征在于,所述若所述违法域名信息与所述合法域名信息的相似度大于关联阈值,则所述违法域名信息与所述合法域名信息为关联域名包括:
根据所述违法域名信息对应的合法域名信息的相似度,将多个关联域名进行排序。
6.根据权利要求4所述的违法网站识别方法,其特征在于,所述将所述违法域名信息集内的违法域名信息逐一与所述合法域名信息集内的合法域名信息进行匹配,获得对应的关联域名还包括:
将相似度大于关联阈值的合法域名信息作为违法域名信息,添加至所述违法域名信息集内;
将所述违法域名信息与所述合法域名信息集内的合法域名信息进行匹配,获得关联域名。
7.根据权利要求2所述的违法网站识别方法,其特征在于,所述将所述违法域名信息和多个所述合法域名信息进行广度优先搜索,获得关联路径包括:
根据所述违法域名信息访问对应的合法域名信息;
若当前访问域名的层次达到最大限制层次数或当前域名无关联域名可搜索时,则停止本次所述违法域名信息的广度优先搜索。
8.一种违法网站识别装置,其特征在于,包括:
域名获取模块,用于获取违法域名集和合法域名集,其中,所述违法域名集包括多个违法域名,所述合法域名集包括多个合法域名;
信息获取模块,用于根据所述违法域名集和所述合法域名集,获取违法域名信息集和合法域名信息集;
关联匹配模块,用于根据所述违法域名信息集和合法域名信息集进行匹配,生成域名关联集;
域名树建立模块,用于根据所述域名关联集,建立违法域名树。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至7中任一项所述的违法网站识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的违法网站识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110986619.4A CN113779389A (zh) | 2021-08-26 | 2021-08-26 | 违法网站识别方法、装置、电子装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110986619.4A CN113779389A (zh) | 2021-08-26 | 2021-08-26 | 违法网站识别方法、装置、电子装置和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113779389A true CN113779389A (zh) | 2021-12-10 |
Family
ID=78839365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110986619.4A Withdrawn CN113779389A (zh) | 2021-08-26 | 2021-08-26 | 违法网站识别方法、装置、电子装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113779389A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107743128A (zh) * | 2017-10-31 | 2018-02-27 | 哈尔滨工业大学(威海) | 一种基于首页关联域名和同服务ip的非法网站挖掘方法 |
CN109688165A (zh) * | 2019-02-26 | 2019-04-26 | 北京微步在线科技有限公司 | 一种挖掘恶意域名的方法和装置 |
US20200304540A1 (en) * | 2019-03-22 | 2020-09-24 | Proofpoint, Inc. | Identifying Legitimate Websites to Remove False Positives from Domain Discovery Analysis |
CN113239155A (zh) * | 2021-06-02 | 2021-08-10 | 浙江网商银行股份有限公司 | 数据处理方法及装置 |
-
2021
- 2021-08-26 CN CN202110986619.4A patent/CN113779389A/zh not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107743128A (zh) * | 2017-10-31 | 2018-02-27 | 哈尔滨工业大学(威海) | 一种基于首页关联域名和同服务ip的非法网站挖掘方法 |
CN109688165A (zh) * | 2019-02-26 | 2019-04-26 | 北京微步在线科技有限公司 | 一种挖掘恶意域名的方法和装置 |
US20200304540A1 (en) * | 2019-03-22 | 2020-09-24 | Proofpoint, Inc. | Identifying Legitimate Websites to Remove False Positives from Domain Discovery Analysis |
CN113239155A (zh) * | 2021-06-02 | 2021-08-10 | 浙江网商银行股份有限公司 | 数据处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110245165B (zh) | 风险传导关联图谱优化方法、装置和计算机设备 | |
CN103077208B (zh) | 统一资源定位符匹配处理方法及装置 | |
CN103136342A (zh) | 应用程序app的搜索方法、系统以及搜索服务器 | |
CN108154031B (zh) | 伪装应用程序的识别方法、装置、存储介质和电子装置 | |
CN112364014A (zh) | 数据查询方法、装置、服务器及存储介质 | |
CN105516395A (zh) | 网络地址分配方法和装置 | |
CN106844553B (zh) | 基于样本数据的数据探测和扩充方法及装置 | |
CN110581835B (zh) | 一种漏洞检测方法、装置及终端设备 | |
CN106682146B (zh) | 一种根据关键词检索景区评价的方法及系统 | |
CN106815179A (zh) | 一种文本相似度确定方法及装置 | |
Yao et al. | Logophish: A new two-dimensional code phishing attack detection method | |
CN107708076B (zh) | 用于推送接入信息的方法和设备 | |
CN113779389A (zh) | 违法网站识别方法、装置、电子装置和存储介质 | |
CN109145588A (zh) | 数据处理方法及装置 | |
CN111556042B (zh) | 恶意url的检测方法、装置、计算机设备和存储介质 | |
CN110457600B (zh) | 查找目标群体的方法、装置、存储介质和计算机设备 | |
JP2019515385A (ja) | モバイル装置識別子を設定する方法及び装置 | |
CN113128538A (zh) | 网络行为分类方法、设备、存储介质及装置 | |
CN107220262A (zh) | 信息处理方法和装置 | |
CN113127767B (zh) | 手机号码提取方法、装置、电子设备及存储介质 | |
CN107800561B (zh) | 资源更新方法和装置 | |
CN113609396A (zh) | 涉网事件线索搜集方法、系统、电子装置和存储介质 | |
CN109067716A (zh) | 一种识别暗链的方法与系统 | |
CN111800391B (zh) | 端口扫描攻击的检测方法、装置、电子设备及存储介质 | |
CN111371794B (zh) | 阴影域检测模型、检测模型建立方法、检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20211210 |