CN109299346A - 一种无效地址网页的识别方法及系统 - Google Patents

一种无效地址网页的识别方法及系统 Download PDF

Info

Publication number
CN109299346A
CN109299346A CN201811282890.4A CN201811282890A CN109299346A CN 109299346 A CN109299346 A CN 109299346A CN 201811282890 A CN201811282890 A CN 201811282890A CN 109299346 A CN109299346 A CN 109299346A
Authority
CN
China
Prior art keywords
text
attribute
resource locator
uniform resource
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811282890.4A
Other languages
English (en)
Other versions
CN109299346B (zh
Inventor
周超然
刘妍
张昕
张莹
赵建平
冯欣
张剑飞
杨宏伟
孙庚�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun University of Science and Technology
Original Assignee
Changchun University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun University of Science and Technology filed Critical Changchun University of Science and Technology
Priority to CN201811282890.4A priority Critical patent/CN109299346B/zh
Publication of CN109299346A publication Critical patent/CN109299346A/zh
Application granted granted Critical
Publication of CN109299346B publication Critical patent/CN109299346B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的无效地址网页的识别系统及方法,从人为标记的无效地址网页中提取特征属性,将特征属性的稀疏哈希映射作为聚类算法的输入,得到多簇统一资源定位符;通过匹配度计算得到自起始位起多簇统一资源定位符共有的最长文本;根据最长文本确定第一、第二属性文本和无效地址黑名单。根据待识别的网页确定第一、第二文本;当黑名单的第一属性文本列包含第一文本,第二文本包含与第一文本相同的第一属性文本所对应的第二属性文本的全部内容时,将待识别的网页确定为无效地址网页。本发明中的方法或系统通过对无效地址网页聚类分析得到无效地址黑名单,通过黑名单对待分类网页进行识别,提高了该方法或系统的客观性及运行效率。

Description

一种无效地址网页的识别方法及系统
技术领域
本发明涉及网络文本自然语言处理技术领域,尤其涉及一种无效地址网页的识别方法及系统。
背景技术
当今,互联网给我们带来了很多生活方式或生产方式上的便利与快捷。庞大的网络信息资源,使人们通过浏览器就能便捷的获取到生活或生产过程中所需要的信息。但是,过分或不适当的网络资源访问不仅给企业带来了生产力和网络带宽的损失,也严重威胁着企业的网络安全架构和信息系统,同时网络上的不适当或非法内容极大危害着企业员工个人的身心健康,甚至给企业带来法律问题。
在中国互联网的实际应用中,当用户针对任意一类网页通过搜索引擎搜索时,搜索引擎会由于商业原因、用户点击量及中国网页分类系统不够规范等原因显示部分不符合用户所需的搜索内容的网页,如搜索地理信息类网页时,搜索引擎会显示如政府公告通知网页、房地产及招聘广告网页、网友关于搜索内容的热心问答网页、新闻资讯网页等无效地址网页。如何让搜索引擎返回的搜索结果显示更多的有效地址网页是急需解决的问题。目前,主要是依靠企业内部IT人员人工建立、更新与编辑站点黑白名单,以提高有效网页的显示比例。这一做法的缺点是,所有分类由一个或少数几个人自由决定,对于这种资源密集型而且缺乏客观性的站点分类方法,不仅会使许多被认可的网站被封锁或被禁止的网站允许通过,而且随着web站点的快速增长与相关技术的日益复杂,这种方案很难实现客观、细粒度的统一资源定位符(URL)分类。
发明内容
本发明的目的是提供一种无效地址网页的识别方法及系统,以解决现有技术中的无效地址网页识别方法效率较低且主观性强的问题。
一种无效地址网页的识别方法,包括:
获取用户人为标记的无效地址网页的统一资源定位符文本;
根据设定的前缀属性字段对所述用户人为标记的无效地址网页的统一资源定位符文本中的前缀属性字段进行删除,得到剔除前缀的统一资源定位符文本;所述设定的前缀属性字段包括“http://”和“https://”;
从所述剔除前缀的统一资源定位符文本中提取任意两个拆分标志间的文本,得到多个特征属性;所述拆分标志包括“.”和“/”;
对多个所述特征属性进行转换,得到多个特征属性文本的特征向量;
对多个所述特征属性文本的特征向量进行稀疏表示,得到多个特征向量的稀疏哈希映射;
将多个所述特征向量的稀疏哈希映射作为K-means聚类算法的输入,得到多簇统一资源定位符;
对多簇统一资源定位符进行匹配度计算,得到自起始位开始所述多簇统一资源定位符中共有的最长文本;
将所述最长文本中第一个斜线前的文本确定为第一属性文本,将所述最长文本中第一个斜线后的文本确定为第二属性文本;
将所述最长文本存入统一资源定位符列,将所述第一属性文本存入第一属性文本列,将所述第二属性文本存入第二属性文本列,得到无效地址黑名单;
获取待识别的网页的统一资源定位符文本;
将所述待识别的网页的统一资源定位符文本中第一个斜线前的文本确定为第一文本,将所述待识别的网页的统一资源定位符文本中第一个斜线后的文本确定为第二文本;
判断无效地址黑名单的第一属性文本列中是否包含所述第一文本,得到第一判断结果;
当所述第一判断结果表示无效地址黑名单的第一属性文本列中包含所述第一文本时,判断所述第二文本是否包含与所述第一文本相同的第一属性文本所对应的第二属性文本的全部内容,得到第二判断结果;
当所述第二判断结果表示所述第二文本包含与所述第一文本相同的第一属性文本所对应的第二属性文本的全部内容时,将所述待识别的网页确定为无效地址网页。
可选的,所述对多个特征属性进行转换,得到多个特征属性文本的特征向量,具体包括:采用Word2vec算法对多个所述特征属性进行转换,得到多个特征属性文本的特征向量。
可选的,所述对多簇统一资源定位符进行匹配度计算之前还包括:判断所述多簇统一资源定位符中的任意一簇统一资源定位符的样本数是否大于等于5,得到第三判断结果;当所述第三判断结果表示所述多簇统一资源定位符中的任意一簇统一资源定位符的样本数大于等于5时,将样本数大于等于5的一簇统一资源定位符确定为进行匹配度计算的多簇统一资源定位符中的一簇。
可选的,所述判断无效地址黑名单的第一属性文本列中是否包含所述第一文本,得到第一判断结果之后,还包括:当所述第一判断结果表示无效地址黑名单的第一属性文本列中未包含所述第一文本时,将所述待识别的网页确定为非无效地址网页。
可选的,所述判断所述第二文本是否包含与所述第一文本相同的第一属性文本所对应的第二属性文本的全部内容,得到第二判断结果之后,还包括:当所述第二判断结果表示所述第二文本未包含与所述第一文本相同的第一属性文本所对应的第二属性文本的全部内容时,将所述待识别的网页确定为非无效地址网页。
一种无效地址网页的识别系统,包括:
第一获取模块,用于获取用户人为标记的无效地址网页的统一资源定位符文本;
剔除前缀的统一资源定位符文本生成模块,用于根据设定的前缀属性字段对所述用户人为标记的无效地址网页的统一资源定位符文本中的前缀属性字段进行删除,得到剔除前缀的统一资源定位符文本;所述设定的前缀属性字段包括“http://”和“https://”;
特征属性生成模块,用于从所述剔除前缀的统一资源定位符文本中提取任意两个拆分标志间的文本,得到多个特征属性;所述拆分标志包括“.”和“/”;
特征属性文本的特征向量生成模块,用于对多个所述特征属性进行转换,得到多个特征属性文本的特征向量;
特征向量的稀疏哈希映射生成模块,用于对多个所述特征属性文本的特征向量进行稀疏表示,得到多个特征向量的稀疏哈希映射;
多簇统一资源定位符生成模块,用于将多个所述特征向量的稀疏哈希映射作为K-means聚类算法的输入,得到多簇统一资源定位符;
最长文本生成模块,用于对多簇统一资源定位符进行匹配度计算,得到自起始位开始所述多簇统一资源定位符中共有的最长文本;
第一属性文本和第二属性文本确定模块,用于将所述最长文本中第一个斜线前的文本确定为第一属性文本,将所述最长文本中第一个斜线后的文本确定为第二属性文本;
无效地址黑名单生成模块,用于将所述最长文本存入统一资源定位符列,将所述第一属性文本存入第一属性文本列,将所述第二属性文本存入第二属性文本列,得到无效地址黑名单;
第二获取模块,用于获取待识别的网页的统一资源定位符文本;
第一文本和第二文本确定模块,用于将所述待识别的网页的统一资源定位符文本中第一个斜线前的文本确定为第一文本,将所述待识别的网页的统一资源定位符文本中第一个斜线后的文本确定为第二文本;
第一判断模块,用于判断无效地址黑名单的第一属性文本列中是否包含所述第一文本,得到第一判断结果;
第二判断模块,用于当所述第一判断结果表示无效地址黑名单的第一属性文本列中包含所述第一文本时,判断所述第二文本是否包含与所述第一文本相同的第一属性文本所对应的第二属性文本的全部内容,得到第二判断结果;
无效地址网页确定模块,用于当所述第二判断结果表示所述第二文本包含与所述第一文本相同的第一属性文本所对应的第二属性文本的全部内容时,将所述待识别的网页确定为无效地址网页。
可选的,所述特征属性文本的特征向量生成模块具体包括特征属性文本的特征向量生成单元;所述特征属性文本的特征向量生成单元用于采用Word2vec算法对多个所述特征属性进行转换,得到多个特征属性文本的特征向量。
可选的,所述系统还包括:第三判断模块,用于判断所述多簇统一资源定位符中的任意一簇统一资源定位符的样本数是否大于等于5,得到第三判断结果;进行匹配度计算的多簇统一资源定位符确定模块,用于当所述第三判断结果表示所述多簇统一资源定位符中的任意一簇统一资源定位符的样本数大于等于5时,将样本数大于等于5的一簇统一资源定位符确定为进行匹配度计算的多簇统一资源定位符中的一簇。
可选的,所述系统还包括第一非无效地址网页确定模块;所述第一非无效地址网页确定模块,用于当所述第一判断结果表示无效地址黑名单的第一属性文本列中未包含所述第一文本时,将所述待识别的网页确定为非无效地址网页。
可选的,所述系统还包括第二非无效地址网页确定模块;所述第二非无效地址网页确定模块,用于当所述第二判断结果表示所述第二文本未包含与所述第一文本相同的第一属性文本所对应的第二属性文本的全部内容时,将所述待识别的网页确定为非无效地址网页。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明的一种无效地址网页的识别方法,从剔除前缀的人为标记的统一资源定位符文本中提取任意两个拆分标志间的文本作为特征属性;将特征属性转化的特征向量的稀疏哈希映射作为K-means聚类算法的输入,得到多簇统一资源定位符;通过匹配度计算得到自起始位开始所述多簇统一资源定位符中共有的最长文本;根据最长文本确定第一、第二属性文本和无效地址黑名单。根据待识别的网页的统一资源定位符确定第一、第二文本;当无效地址黑名单的第一属性文本列中包含第一文本,且第二文本包含与所述第一文本相同的第一属性文本所对应的第二属性文本的全部内容时,将待识别的网页确定为无效地址网页。本发明中的方法或系统通过对无效地址网页是统一资源定位符属性进行聚类分析得到无效地址黑名单,通过无效地址黑名单的第一、第二属性文本对待分类网页进行识别,提高了识别方法的客观性、准确性及运行效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的无效地址网页的识别方法流程图;
图2为本发明所提供的无效地址网页的识别系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种无效地址网页的识别方法及系统,以解决现有技术中的无效地址网页识别方法效率较低且主观性强的问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明所提供的无效地址网页的识别方法流程图。如图1所示,该方法包括:
步骤S101:获取用户人为标记的无效地址网页的统一资源定位符文本;
步骤S102:根据设定的前缀属性字段对用户人为标记的无效地址网页的统一资源定位符文本中的前缀属性字段进行删除,得到剔除前缀的统一资源定位符文本;设定的前缀属性字段包括“http://”和“https://”;
步骤S103:从剔除前缀的统一资源定位符文本中提取任意两个拆分标志间的文本,得到多个特征属性;拆分标志包括“.”和“/”;
步骤S104:对多个特征属性进行转换,得到多个特征属性文本的特征向量;
步骤S105:对多个特征属性文本的特征向量进行稀疏表示,得到多个特征向量的稀疏哈希映射;
步骤S106:将多个特征向量的稀疏哈希映射作为K-means聚类算法的输入,得到多簇统一资源定位符;
步骤S107:对多簇统一资源定位符进行匹配度计算,得到自起始位开始多簇统一资源定位符中共有的最长文本;
步骤S108:将最长文本中第一个斜线前的文本确定为第一属性文本,将最长文本中第一个斜线后的文本确定为第二属性文本;
步骤S109:将最长文本存入统一资源定位符列,将第一属性文本存入第一属性文本列,将第二属性文本存入第二属性文本列,得到无效地址黑名单;
步骤S110:获取待识别的网页的统一资源定位符文本;
步骤S111:将待识别的网页的统一资源定位符文本中第一个斜线前的文本确定为第一文本,将待识别的网页的统一资源定位符文本中第一个斜线后的文本确定为第二文本;
步骤S112:判断无效地址黑名单的第一属性文本列中是否包含第一文本,得到第一判断结果;
步骤S113:当第一判断结果表示无效地址黑名单的第一属性文本列中包含第一文本时,判断第二文本是否包含与第一文本相同的第一属性文本所对应的第二属性文本的全部内容,得到第二判断结果;
步骤S114:当第二判断结果表示第二文本包含与第一文本相同的第一属性文本所对应的第二属性文本的全部内容时,将待识别的网页确定为无效地址网页。
本实施例中的方法通过对无效地址网页是统一资源定位符属性进行聚类分析得到无效地址黑名单,通过无效地址黑名单的第一、第二属性文本对待分类网页进行识别,提高了识别方法的客观性、准确性及运行效率。
在实际应用中,对多个特征属性进行转换,得到多个特征属性文本的特征向量,具体包括:采用Word2vec算法对多个特征属性进行转换,得到多个特征属性文本的特征向量。
在实际应用中,对多簇统一资源定位符进行匹配度计算之前还包括:判断多簇统一资源定位符中的任意一簇统一资源定位符的样本数是否大于等于5,得到第三判断结果;当第三判断结果表示该簇统一资源定位符的样本数大于等于5时,将该簇统一资源定位符确定为进行匹配度计算的多簇统一资源定位符中的一簇。
本实施例中,将类别样本数小于5个样本的任意簇统一资源定位符除去,从而提高进行匹配计算的多簇统一资源定位符的泛化性。
在实际应用中,判断无效地址黑名单的第一属性文本列中是否包含第一文本,得到第一判断结果之后,还包括:当第一判断结果表示无效地址黑名单的第一属性文本列中未包含第一文本时,将待识别的网页确定为非无效地址网页。
在实际应用中,判断第二文本是否包含与第一文本相同的第一属性文本所对应的第二属性文本的全部内容,得到第二判断结果之后,还包括步骤S115:当第二判断结果表示第二文本未包含与第一文本相同的第一属性文本所对应的第二属性文本的全部内容时,将待识别的网页确定为非无效地址网页。
图2为本发明所提供的无效地址网页的识别系统的结构示意图。如图2所示,该系统包括:
第一获取模块1,用于获取用户人为标记的无效地址网页的统一资源定位符文本;
剔除前缀的统一资源定位符文本生成模块2,用于根据设定的前缀属性字段对用户人为标记的无效地址网页的统一资源定位符文本中的前缀属性字段进行删除,得到剔除前缀的统一资源定位符文本;设定的前缀属性字段包括“http://”和“https://”;
特征属性生成模块3,用于从剔除前缀的统一资源定位符文本中提取任意两个拆分标志间的文本,得到多个特征属性;拆分标志包括“.”和“/”;
特征属性文本的特征向量生成模块4,用于对多个特征属性进行转换,得到多个特征属性文本的特征向量;
特征向量的稀疏哈希映射生成模块5,用于对多个特征属性文本的特征向量进行稀疏表示,得到多个特征向量的稀疏哈希映射;
多簇统一资源定位符生成模块6,用于将多个特征向量的稀疏哈希映射作为K-means聚类算法的输入,得到多簇统一资源定位符;
最长文本生成模块7,用于对多簇统一资源定位符进行匹配度计算,得到自起始位开始多簇统一资源定位符中共有的最长文本;
第一属性文本和第二属性文本确定模块8,用于将最长文本中第一个斜线前的文本确定为第一属性文本,将最长文本中第一个斜线后的文本确定为第二属性文本;
无效地址黑名单生成模块9,用于将最长文本存入统一资源定位符列,将第一属性文本存入第一属性文本列,将第二属性文本存入第二属性文本列,得到无效地址黑名单;
第二获取模块10,用于获取待识别的网页的统一资源定位符文本;
第一文本和第二文本确定模块11,用于将待识别的网页的统一资源定位符文本中第一个斜线前的文本确定为第一文本,将待识别的网页的统一资源定位符文本中第一个斜线后的文本确定为第二文本;
第一判断模块12,用于判断无效地址黑名单的第一属性文本列中是否包含第一文本,得到第一判断结果;
第二判断模块13,用于当第一判断结果表示无效地址黑名单的第一属性文本列中包含第一文本时,判断第二文本是否包含与第一文本相同的第一属性文本所对应的第二属性文本的全部内容,得到第二判断结果;
无效地址网页确定模块14,用于当第二判断结果表示第二文本包含与第一文本相同的第一属性文本所对应的第二属性文本的全部内容时,将待识别的网页确定为无效地址网页。
本实施例中的系统通过多个模块对无效地址网页是统一资源定位符属性进行聚类分析得到无效地址黑名单,通过无效地址黑名单的第一、第二属性文本对待分类网页进行识别,提高了识别方法的客观性、准确性及运行效率。
在实际应用中,特征属性文本的特征向量生成模块具体包括特征属性文本的特征向量生成单元;特征属性文本的特征向量生成单元用于采用Word2vec算法对多个特征属性进行转换,得到多个特征属性文本的特征向量。
在实际应用中,系统还包括:第三判断模块,用于判断多簇统一资源定位符中的任意一簇统一资源定位符的样本数是否大于等于5,得到第三判断结果;进行匹配度计算的多簇统一资源定位符确定模块,用于当第三判断结果表示该簇统一资源定位符的样本数大于等于5时,将该簇统一资源定位符确定为进行匹配度计算的多簇统一资源定位符中的一簇。
在实际应用中,系统还包括第一非无效地址网页确定模块;第一非无效地址网页确定模块,用于当第一判断结果表示无效地址黑名单的第一属性文本列中未包含第一文本时,将待识别的网页确定为非无效地址网页。
在实际应用中,系统还包括第二非无效地址网页确定模块;第二非无效地址网页确定模块,用于当第二判断结果表示第二文本未包含与第一文本相同的第一属性文本所对应的第二属性文本的全部内容时,将待识别的网页确定为非无效地址网页。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种无效地址网页的识别方法,其特征在于,包括:
获取用户人为标记的无效地址网页的统一资源定位符文本;
根据设定的前缀属性字段对所述用户人为标记的无效地址网页的统一资源定位符文本中的前缀属性字段进行删除,得到剔除前缀的统一资源定位符文本;所述设定的前缀属性字段包括“http://”和“https://”;
从所述剔除前缀的统一资源定位符文本中提取任意两个拆分标志间的文本,得到多个特征属性;所述拆分标志包括“.”和“/”;
对多个所述特征属性进行转换,得到多个特征属性文本的特征向量;
对多个所述特征属性文本的特征向量进行稀疏表示,得到多个特征向量的稀疏哈希映射;
将多个所述特征向量的稀疏哈希映射作为K-means聚类算法的输入,得到多簇统一资源定位符;
对多簇统一资源定位符进行匹配度计算,得到自起始位开始所述多簇统一资源定位符中共有的最长文本;
将所述最长文本中第一个斜线前的文本确定为第一属性文本,将所述最长文本中第一个斜线后的文本确定为第二属性文本;
将所述最长文本存入统一资源定位符列,将所述第一属性文本存入第一属性文本列,将所述第二属性文本存入第二属性文本列,得到无效地址黑名单;
获取待识别的网页的统一资源定位符文本;
将所述待识别的网页的统一资源定位符文本中第一个斜线前的文本确定为第一文本,将所述待识别的网页的统一资源定位符文本中第一个斜线后的文本确定为第二文本;
判断无效地址黑名单的第一属性文本列中是否包含所述第一文本,得到第一判断结果;
当所述第一判断结果表示无效地址黑名单的第一属性文本列中包含所述第一文本时,判断所述第二文本是否包含与所述第一文本相同的第一属性文本所对应的第二属性文本的全部内容,得到第二判断结果;
当所述第二判断结果表示所述第二文本包含与所述第一文本相同的第一属性文本所对应的第二属性文本的全部内容时,将所述待识别的网页确定为无效地址网页。
2.根据权利要求1所述的方法,其特征在于,所述对多个所述特征属性进行转换,得到多个特征属性文本的特征向量,具体包括:
采用Word2vec算法对多个所述特征属性进行转换,得到多个特征属性文本的特征向量。
3.根据权利要求1所述的方法,其特征在于,所述对多簇统一资源定位符进行匹配度计算之前还包括:
判断所述多簇统一资源定位符中的任意一簇统一资源定位符的样本数是否大于等于5,得到第三判断结果;
当所述第三判断结果表示所述多簇统一资源定位符中的任意一簇统一资源定位符的样本数大于等于5时,将样本数大于等于5的一簇统一资源定位符确定为进行匹配度计算的多簇统一资源定位符中的一簇。
4.根据权利要求1所述的方法,其特征在于,所述判断无效地址黑名单的第一属性文本列中是否包含所述第一文本,得到第一判断结果之后,还包括:
当所述第一判断结果表示无效地址黑名单的第一属性文本列中未包含所述第一文本时,将所述待识别的网页确定为非无效地址网页。
5.根据权利要求1所述的方法,其特征在于,所述判断所述第二文本是否包含与所述第一文本相同的第一属性文本所对应的第二属性文本的全部内容,得到第二判断结果之后,还包括:
当所述第二判断结果表示所述第二文本未包含与所述第一文本相同的第一属性文本所对应的第二属性文本的全部内容时,将所述待识别的网页确定为非无效地址网页。
6.一种无效地址网页的识别系统,其特征在于,包括:
第一获取模块,用于获取用户人为标记的无效地址网页的统一资源定位符文本;
剔除前缀的统一资源定位符文本生成模块,用于根据设定的前缀属性字段对所述用户人为标记的无效地址网页的统一资源定位符文本中的前缀属性字段进行删除,得到剔除前缀的统一资源定位符文本;所述设定的前缀属性字段包括“http://”和“https://”;
特征属性生成模块,用于从所述剔除前缀的统一资源定位符文本中提取任意两个拆分标志间的文本,得到多个特征属性;所述拆分标志包括“.”和“/”;
特征属性文本的特征向量生成模块,用于对多个所述特征属性进行转换,得到多个特征属性文本的特征向量;
特征向量的稀疏哈希映射生成模块,用于对多个所述特征属性文本的特征向量进行稀疏表示,得到多个特征向量的稀疏哈希映射;
多簇统一资源定位符生成模块,用于将多个所述特征向量的稀疏哈希映射作为K-means聚类算法的输入,得到多簇统一资源定位符;
最长文本生成模块,用于对多簇统一资源定位符进行匹配度计算,得到自起始位开始所述多簇统一资源定位符中共有的最长文本;
第一属性文本和第二属性文本确定模块,用于将所述最长文本中第一个斜线前的文本确定为第一属性文本,将所述最长文本中第一个斜线后的文本确定为第二属性文本;
无效地址黑名单生成模块,用于将所述最长文本存入统一资源定位符列,将所述第一属性文本存入第一属性文本列,将所述第二属性文本存入第二属性文本列,得到无效地址黑名单;
第二获取模块,用于获取待识别的网页的统一资源定位符文本;
第一文本和第二文本确定模块,用于将所述待识别的网页的统一资源定位符文本中第一个斜线前的文本确定为第一文本,将所述待识别的网页的统一资源定位符文本中第一个斜线后的文本确定为第二文本;
第一判断模块,用于判断无效地址黑名单的第一属性文本列中是否包含所述第一文本,得到第一判断结果;
第二判断模块,用于当所述第一判断结果表示无效地址黑名单的第一属性文本列中包含所述第一文本时,判断所述第二文本是否包含与所述第一文本相同的第一属性文本所对应的第二属性文本的全部内容,得到第二判断结果;
无效地址网页确定模块,用于当所述第二判断结果表示所述第二文本包含与所述第一文本相同的第一属性文本所对应的第二属性文本的全部内容时,将所述待识别的网页确定为无效地址网页。
7.根据权利要求6所述的系统,其特征在于,所述特征属性文本的特征向量生成模块具体包括特征属性文本的特征向量生成单元;
所述特征属性文本的特征向量生成单元用于采用Word2vec算法对多个所述特征属性进行转换,得到多个特征属性文本的特征向量。
8.根据权利要求6所述的系统,其特征在于,所述系统还包括:
第三判断模块,用于判断所述多簇统一资源定位符中的任意一簇统一资源定位符的样本数是否大于等于5,得到第三判断结果;
进行匹配度计算的多簇统一资源定位符确定模块,用于当所述第三判断结果表示所述多簇统一资源定位符中的任意一簇统一资源定位符的样本数大于等于5时,将样本数大于等于5的一簇统一资源定位符确定为进行匹配度计算的多簇统一资源定位符中的一簇。
9.根据权利要求6所述的系统,其特征在于,所述系统还包括第一非无效地址网页确定模块;
所述第一非无效地址网页确定模块,用于当所述第一判断结果表示无效地址黑名单的第一属性文本列中未包含所述第一文本时,将所述待识别的网页确定为非无效地址网页。
10.根据权利要求6所述的系统,其特征在于,所述系统还包括第二非无效地址网页确定模块;
所述第二非无效地址网页确定模块,用于当所述第二判断结果表示所述第二文本未包含与所述第一文本相同的第一属性文本所对应的第二属性文本的全部内容时,将所述待识别的网页确定为非无效地址网页。
CN201811282890.4A 2018-10-31 2018-10-31 一种无效地址网页的识别方法及系统 Active CN109299346B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811282890.4A CN109299346B (zh) 2018-10-31 2018-10-31 一种无效地址网页的识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811282890.4A CN109299346B (zh) 2018-10-31 2018-10-31 一种无效地址网页的识别方法及系统

Publications (2)

Publication Number Publication Date
CN109299346A true CN109299346A (zh) 2019-02-01
CN109299346B CN109299346B (zh) 2020-12-08

Family

ID=65145224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811282890.4A Active CN109299346B (zh) 2018-10-31 2018-10-31 一种无效地址网页的识别方法及系统

Country Status (1)

Country Link
CN (1) CN109299346B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111585955A (zh) * 2020-03-31 2020-08-25 中南大学 一种http请求异常检测方法及系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609450A (zh) * 2009-04-10 2009-12-23 南京邮电大学 基于训练集的网页分类方法
CN101692639A (zh) * 2009-09-15 2010-04-07 西安交通大学 一种基于url的不良网页识别方法
CN102819597A (zh) * 2012-08-13 2012-12-12 北京星网锐捷网络技术有限公司 网页分类方法及设备
CN102932348A (zh) * 2012-10-30 2013-02-13 常州大学 一种钓鱼网站的实时检测方法及系统
US8458227B1 (en) * 2010-06-24 2013-06-04 Amazon Technologies, Inc. URL rescue by identifying information related to an item referenced in an invalid URL
CN103605794A (zh) * 2013-12-05 2014-02-26 国家计算机网络与信息安全管理中心 一种网站分类方法
CN105357221A (zh) * 2015-12-04 2016-02-24 北京奇虎科技有限公司 识别钓鱼网站的方法及装置
WO2017049042A1 (en) * 2015-09-16 2017-03-23 RiskIQ, Inc. Identifying phishing websites using dom characteristics
CN106790102A (zh) * 2016-12-26 2017-05-31 中南林业科技大学 一种基于url特征的qr码网络钓鱼识别方法及系统
CN106776958A (zh) * 2016-12-05 2017-05-31 公安部第三研究所 基于关键路径的违法网站识别系统及其方法
CN107741960A (zh) * 2017-09-25 2018-02-27 厦门集微科技有限公司 Url的分类方法及装置
CN107948168A (zh) * 2017-11-29 2018-04-20 四川无声信息技术有限公司 网页检测方法及装置
CN108694325A (zh) * 2017-04-10 2018-10-23 北大方正集团有限公司 指定类型网站的辨别方法和指定类型网站的辨别装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609450A (zh) * 2009-04-10 2009-12-23 南京邮电大学 基于训练集的网页分类方法
CN101692639A (zh) * 2009-09-15 2010-04-07 西安交通大学 一种基于url的不良网页识别方法
US8458227B1 (en) * 2010-06-24 2013-06-04 Amazon Technologies, Inc. URL rescue by identifying information related to an item referenced in an invalid URL
CN102819597A (zh) * 2012-08-13 2012-12-12 北京星网锐捷网络技术有限公司 网页分类方法及设备
CN102932348A (zh) * 2012-10-30 2013-02-13 常州大学 一种钓鱼网站的实时检测方法及系统
CN103605794A (zh) * 2013-12-05 2014-02-26 国家计算机网络与信息安全管理中心 一种网站分类方法
WO2017049042A1 (en) * 2015-09-16 2017-03-23 RiskIQ, Inc. Identifying phishing websites using dom characteristics
CN105357221A (zh) * 2015-12-04 2016-02-24 北京奇虎科技有限公司 识别钓鱼网站的方法及装置
CN106776958A (zh) * 2016-12-05 2017-05-31 公安部第三研究所 基于关键路径的违法网站识别系统及其方法
CN106790102A (zh) * 2016-12-26 2017-05-31 中南林业科技大学 一种基于url特征的qr码网络钓鱼识别方法及系统
CN108694325A (zh) * 2017-04-10 2018-10-23 北大方正集团有限公司 指定类型网站的辨别方法和指定类型网站的辨别装置
CN107741960A (zh) * 2017-09-25 2018-02-27 厦门集微科技有限公司 Url的分类方法及装置
CN107948168A (zh) * 2017-11-29 2018-04-20 四川无声信息技术有限公司 网页检测方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
R.RAJALAKSHMI 等: "Experimental Study Of Feature Weighting Techniques For URL Based Webpage Classification", 《7THINTERNATIONALCONFERENCEONADVANCESINCOMPUTING&COMMUNICATIONS(ICACC-2017)》 *
凡友荣: "基于URL 特征检测的违法网站识别方法", 《计算机工程》 *
张蕾 等: "机器学习在网络空间安全研究中的应用", 《计算机学报》 *
赵佳林: "基于K-Means和SVM的钓鱼网站识别的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111585955A (zh) * 2020-03-31 2020-08-25 中南大学 一种http请求异常检测方法及系统

Also Published As

Publication number Publication date
CN109299346B (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
Cooper Bibliometrics basics
Cheng et al. Social media in tourism: a visual analytic approach
CN108776671A (zh) 一种网络舆情监控系统及方法
CN104809117B (zh) 视频数据聚合处理方法、聚合系统及视频搜索平台
CN109635120A (zh) 知识图谱的构建方法、装置和存储介质
CN107766371A (zh) 一种文本信息分类方法及其装置
CN103810251B (zh) 一种文本提取方法及装置
KR101073385B1 (ko) 연구자의 연구정보 분석 장치 및 그 방법 그리고 방법에 관한 컴퓨터가 실행할 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체
CN106383887A (zh) 一种环保新闻数据采集和推荐展示的方法及系统
CN101299217A (zh) 一种地图信息处理的方法、装置和系统
CN105718585B (zh) 文档与标签词语义关联方法及其装置
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
TW202001620A (zh) 自動化網站資料蒐集方法
CN104615701B (zh) 基于视频云平台的智慧城市嵌入式大数据可视化引擎集群
CN103559234A (zh) RESTful Web服务的自动化语义标注系统和方法
CN105117434A (zh) 一种网页分类方法和系统
CN107220325A (zh) 一种基于卷积神经网络的app相似图标检索方法和系统
CN102073641A (zh) 对消费者生成媒体信息进行处理的方法、装置和程序
CN106599215A (zh) 一种基于深度学习的问句生成方法和问句生成系统
US8266140B2 (en) Tagging system using internet search engine
CN104268214B (zh) 一种基于微博用户关系的用户性别识别方法及系统
CN1367446A (zh) 汉语个人简历信息处理系统和方法
CN109299346A (zh) 一种无效地址网页的识别方法及系统
CN107908749B (zh) 一种基于搜索引擎的人物检索系统及方法
Zhang et al. Ontology-based automatic semantic annotation method for iot data resources

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant