CN109299346A

CN109299346A - 一种无效地址网页的识别方法及系统

Info

Publication number: CN109299346A
Application number: CN201811282890.4A
Authority: CN
Inventors: 周超然; 刘妍; 张昕; 张莹; 赵建平; 冯欣; 张剑飞; 杨宏伟; 孙庚�
Original assignee: Changchun University of Science and Technology
Current assignee: Changchun University of Science and Technology
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2019-02-01
Anticipated expiration: 2038-10-31
Also published as: CN109299346B

Abstract

本发明的无效地址网页的识别系统及方法，从人为标记的无效地址网页中提取特征属性，将特征属性的稀疏哈希映射作为聚类算法的输入，得到多簇统一资源定位符；通过匹配度计算得到自起始位起多簇统一资源定位符共有的最长文本；根据最长文本确定第一、第二属性文本和无效地址黑名单。根据待识别的网页确定第一、第二文本；当黑名单的第一属性文本列包含第一文本，第二文本包含与第一文本相同的第一属性文本所对应的第二属性文本的全部内容时，将待识别的网页确定为无效地址网页。本发明中的方法或系统通过对无效地址网页聚类分析得到无效地址黑名单，通过黑名单对待分类网页进行识别，提高了该方法或系统的客观性及运行效率。

Description

一种无效地址网页的识别方法及系统

技术领域

本发明涉及网络文本自然语言处理技术领域，尤其涉及一种无效地址网页的识别方法及系统。

背景技术

当今，互联网给我们带来了很多生活方式或生产方式上的便利与快捷。庞大的网络信息资源，使人们通过浏览器就能便捷的获取到生活或生产过程中所需要的信息。但是，过分或不适当的网络资源访问不仅给企业带来了生产力和网络带宽的损失，也严重威胁着企业的网络安全架构和信息系统，同时网络上的不适当或非法内容极大危害着企业员工个人的身心健康，甚至给企业带来法律问题。

在中国互联网的实际应用中，当用户针对任意一类网页通过搜索引擎搜索时，搜索引擎会由于商业原因、用户点击量及中国网页分类系统不够规范等原因显示部分不符合用户所需的搜索内容的网页，如搜索地理信息类网页时，搜索引擎会显示如政府公告通知网页、房地产及招聘广告网页、网友关于搜索内容的热心问答网页、新闻资讯网页等无效地址网页。如何让搜索引擎返回的搜索结果显示更多的有效地址网页是急需解决的问题。目前，主要是依靠企业内部IT人员人工建立、更新与编辑站点黑白名单，以提高有效网页的显示比例。这一做法的缺点是，所有分类由一个或少数几个人自由决定，对于这种资源密集型而且缺乏客观性的站点分类方法，不仅会使许多被认可的网站被封锁或被禁止的网站允许通过，而且随着web站点的快速增长与相关技术的日益复杂，这种方案很难实现客观、细粒度的统一资源定位符(URL)分类。

发明内容

本发明的目的是提供一种无效地址网页的识别方法及系统，以解决现有技术中的无效地址网页识别方法效率较低且主观性强的问题。

一种无效地址网页的识别方法，包括：

获取用户人为标记的无效地址网页的统一资源定位符文本；

根据设定的前缀属性字段对所述用户人为标记的无效地址网页的统一资源定位符文本中的前缀属性字段进行删除，得到剔除前缀的统一资源定位符文本；所述设定的前缀属性字段包括“http://”和“https://”；

从所述剔除前缀的统一资源定位符文本中提取任意两个拆分标志间的文本，得到多个特征属性；所述拆分标志包括“.”和“/”；

对多个所述特征属性进行转换，得到多个特征属性文本的特征向量；

对多个所述特征属性文本的特征向量进行稀疏表示，得到多个特征向量的稀疏哈希映射；

将多个所述特征向量的稀疏哈希映射作为K-means聚类算法的输入，得到多簇统一资源定位符；

对多簇统一资源定位符进行匹配度计算，得到自起始位开始所述多簇统一资源定位符中共有的最长文本；

将所述最长文本中第一个斜线前的文本确定为第一属性文本，将所述最长文本中第一个斜线后的文本确定为第二属性文本；

将所述最长文本存入统一资源定位符列，将所述第一属性文本存入第一属性文本列，将所述第二属性文本存入第二属性文本列，得到无效地址黑名单；

获取待识别的网页的统一资源定位符文本；

将所述待识别的网页的统一资源定位符文本中第一个斜线前的文本确定为第一文本，将所述待识别的网页的统一资源定位符文本中第一个斜线后的文本确定为第二文本；

判断无效地址黑名单的第一属性文本列中是否包含所述第一文本，得到第一判断结果；

当所述第一判断结果表示无效地址黑名单的第一属性文本列中包含所述第一文本时，判断所述第二文本是否包含与所述第一文本相同的第一属性文本所对应的第二属性文本的全部内容，得到第二判断结果；

当所述第二判断结果表示所述第二文本包含与所述第一文本相同的第一属性文本所对应的第二属性文本的全部内容时，将所述待识别的网页确定为无效地址网页。

可选的，所述对多个特征属性进行转换，得到多个特征属性文本的特征向量，具体包括：采用Word2vec算法对多个所述特征属性进行转换，得到多个特征属性文本的特征向量。

可选的，所述对多簇统一资源定位符进行匹配度计算之前还包括：判断所述多簇统一资源定位符中的任意一簇统一资源定位符的样本数是否大于等于5，得到第三判断结果；当所述第三判断结果表示所述多簇统一资源定位符中的任意一簇统一资源定位符的样本数大于等于5时，将样本数大于等于5的一簇统一资源定位符确定为进行匹配度计算的多簇统一资源定位符中的一簇。

可选的，所述判断无效地址黑名单的第一属性文本列中是否包含所述第一文本，得到第一判断结果之后，还包括：当所述第一判断结果表示无效地址黑名单的第一属性文本列中未包含所述第一文本时，将所述待识别的网页确定为非无效地址网页。

可选的，所述判断所述第二文本是否包含与所述第一文本相同的第一属性文本所对应的第二属性文本的全部内容，得到第二判断结果之后，还包括：当所述第二判断结果表示所述第二文本未包含与所述第一文本相同的第一属性文本所对应的第二属性文本的全部内容时，将所述待识别的网页确定为非无效地址网页。

一种无效地址网页的识别系统，包括：

第一获取模块，用于获取用户人为标记的无效地址网页的统一资源定位符文本；

剔除前缀的统一资源定位符文本生成模块，用于根据设定的前缀属性字段对所述用户人为标记的无效地址网页的统一资源定位符文本中的前缀属性字段进行删除，得到剔除前缀的统一资源定位符文本；所述设定的前缀属性字段包括“http://”和“https://”；

特征属性生成模块，用于从所述剔除前缀的统一资源定位符文本中提取任意两个拆分标志间的文本，得到多个特征属性；所述拆分标志包括“.”和“/”；

特征属性文本的特征向量生成模块，用于对多个所述特征属性进行转换，得到多个特征属性文本的特征向量；

特征向量的稀疏哈希映射生成模块，用于对多个所述特征属性文本的特征向量进行稀疏表示，得到多个特征向量的稀疏哈希映射；

多簇统一资源定位符生成模块，用于将多个所述特征向量的稀疏哈希映射作为K-means聚类算法的输入，得到多簇统一资源定位符；

最长文本生成模块，用于对多簇统一资源定位符进行匹配度计算，得到自起始位开始所述多簇统一资源定位符中共有的最长文本；

第一属性文本和第二属性文本确定模块，用于将所述最长文本中第一个斜线前的文本确定为第一属性文本，将所述最长文本中第一个斜线后的文本确定为第二属性文本；

无效地址黑名单生成模块，用于将所述最长文本存入统一资源定位符列，将所述第一属性文本存入第一属性文本列，将所述第二属性文本存入第二属性文本列，得到无效地址黑名单；

第二获取模块，用于获取待识别的网页的统一资源定位符文本；

第一文本和第二文本确定模块，用于将所述待识别的网页的统一资源定位符文本中第一个斜线前的文本确定为第一文本，将所述待识别的网页的统一资源定位符文本中第一个斜线后的文本确定为第二文本；

第一判断模块，用于判断无效地址黑名单的第一属性文本列中是否包含所述第一文本，得到第一判断结果；

第二判断模块，用于当所述第一判断结果表示无效地址黑名单的第一属性文本列中包含所述第一文本时，判断所述第二文本是否包含与所述第一文本相同的第一属性文本所对应的第二属性文本的全部内容，得到第二判断结果；

无效地址网页确定模块，用于当所述第二判断结果表示所述第二文本包含与所述第一文本相同的第一属性文本所对应的第二属性文本的全部内容时，将所述待识别的网页确定为无效地址网页。

可选的，所述特征属性文本的特征向量生成模块具体包括特征属性文本的特征向量生成单元；所述特征属性文本的特征向量生成单元用于采用Word2vec算法对多个所述特征属性进行转换，得到多个特征属性文本的特征向量。

可选的，所述系统还包括：第三判断模块，用于判断所述多簇统一资源定位符中的任意一簇统一资源定位符的样本数是否大于等于5，得到第三判断结果；进行匹配度计算的多簇统一资源定位符确定模块，用于当所述第三判断结果表示所述多簇统一资源定位符中的任意一簇统一资源定位符的样本数大于等于5时，将样本数大于等于5的一簇统一资源定位符确定为进行匹配度计算的多簇统一资源定位符中的一簇。

可选的，所述系统还包括第一非无效地址网页确定模块；所述第一非无效地址网页确定模块，用于当所述第一判断结果表示无效地址黑名单的第一属性文本列中未包含所述第一文本时，将所述待识别的网页确定为非无效地址网页。

可选的，所述系统还包括第二非无效地址网页确定模块；所述第二非无效地址网页确定模块，用于当所述第二判断结果表示所述第二文本未包含与所述第一文本相同的第一属性文本所对应的第二属性文本的全部内容时，将所述待识别的网页确定为非无效地址网页。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明的一种无效地址网页的识别方法，从剔除前缀的人为标记的统一资源定位符文本中提取任意两个拆分标志间的文本作为特征属性；将特征属性转化的特征向量的稀疏哈希映射作为K-means聚类算法的输入，得到多簇统一资源定位符；通过匹配度计算得到自起始位开始所述多簇统一资源定位符中共有的最长文本；根据最长文本确定第一、第二属性文本和无效地址黑名单。根据待识别的网页的统一资源定位符确定第一、第二文本；当无效地址黑名单的第一属性文本列中包含第一文本，且第二文本包含与所述第一文本相同的第一属性文本所对应的第二属性文本的全部内容时，将待识别的网页确定为无效地址网页。本发明中的方法或系统通过对无效地址网页是统一资源定位符属性进行聚类分析得到无效地址黑名单，通过无效地址黑名单的第一、第二属性文本对待分类网页进行识别，提高了识别方法的客观性、准确性及运行效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的无效地址网页的识别方法流程图；

图2为本发明所提供的无效地址网页的识别系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明所提供的无效地址网页的识别方法流程图。如图1所示，该方法包括：

步骤S101:获取用户人为标记的无效地址网页的统一资源定位符文本；

步骤S102:根据设定的前缀属性字段对用户人为标记的无效地址网页的统一资源定位符文本中的前缀属性字段进行删除，得到剔除前缀的统一资源定位符文本；设定的前缀属性字段包括“http://”和“https://”；

步骤S103:从剔除前缀的统一资源定位符文本中提取任意两个拆分标志间的文本，得到多个特征属性；拆分标志包括“.”和“/”；

步骤S104:对多个特征属性进行转换，得到多个特征属性文本的特征向量；

步骤S105:对多个特征属性文本的特征向量进行稀疏表示，得到多个特征向量的稀疏哈希映射；

步骤S106:将多个特征向量的稀疏哈希映射作为K-means聚类算法的输入，得到多簇统一资源定位符；

步骤S107:对多簇统一资源定位符进行匹配度计算，得到自起始位开始多簇统一资源定位符中共有的最长文本；

步骤S108:将最长文本中第一个斜线前的文本确定为第一属性文本，将最长文本中第一个斜线后的文本确定为第二属性文本；

步骤S109:将最长文本存入统一资源定位符列，将第一属性文本存入第一属性文本列，将第二属性文本存入第二属性文本列，得到无效地址黑名单；

步骤S110:获取待识别的网页的统一资源定位符文本；

步骤S111:将待识别的网页的统一资源定位符文本中第一个斜线前的文本确定为第一文本，将待识别的网页的统一资源定位符文本中第一个斜线后的文本确定为第二文本；

步骤S112:判断无效地址黑名单的第一属性文本列中是否包含第一文本，得到第一判断结果；

步骤S113:当第一判断结果表示无效地址黑名单的第一属性文本列中包含第一文本时，判断第二文本是否包含与第一文本相同的第一属性文本所对应的第二属性文本的全部内容，得到第二判断结果；

步骤S114:当第二判断结果表示第二文本包含与第一文本相同的第一属性文本所对应的第二属性文本的全部内容时，将待识别的网页确定为无效地址网页。

本实施例中的方法通过对无效地址网页是统一资源定位符属性进行聚类分析得到无效地址黑名单，通过无效地址黑名单的第一、第二属性文本对待分类网页进行识别，提高了识别方法的客观性、准确性及运行效率。

在实际应用中，对多个特征属性进行转换，得到多个特征属性文本的特征向量，具体包括：采用Word2vec算法对多个特征属性进行转换，得到多个特征属性文本的特征向量。

在实际应用中，对多簇统一资源定位符进行匹配度计算之前还包括：判断多簇统一资源定位符中的任意一簇统一资源定位符的样本数是否大于等于5，得到第三判断结果；当第三判断结果表示该簇统一资源定位符的样本数大于等于5时，将该簇统一资源定位符确定为进行匹配度计算的多簇统一资源定位符中的一簇。

本实施例中，将类别样本数小于5个样本的任意簇统一资源定位符除去，从而提高进行匹配计算的多簇统一资源定位符的泛化性。

在实际应用中，判断无效地址黑名单的第一属性文本列中是否包含第一文本，得到第一判断结果之后，还包括：当第一判断结果表示无效地址黑名单的第一属性文本列中未包含第一文本时，将待识别的网页确定为非无效地址网页。

在实际应用中，判断第二文本是否包含与第一文本相同的第一属性文本所对应的第二属性文本的全部内容，得到第二判断结果之后，还包括步骤S115：当第二判断结果表示第二文本未包含与第一文本相同的第一属性文本所对应的第二属性文本的全部内容时，将待识别的网页确定为非无效地址网页。

图2为本发明所提供的无效地址网页的识别系统的结构示意图。如图2所示，该系统包括：

第一获取模块1，用于获取用户人为标记的无效地址网页的统一资源定位符文本；

剔除前缀的统一资源定位符文本生成模块2，用于根据设定的前缀属性字段对用户人为标记的无效地址网页的统一资源定位符文本中的前缀属性字段进行删除，得到剔除前缀的统一资源定位符文本；设定的前缀属性字段包括“http://”和“https://”；

特征属性生成模块3，用于从剔除前缀的统一资源定位符文本中提取任意两个拆分标志间的文本，得到多个特征属性；拆分标志包括“.”和“/”；

特征属性文本的特征向量生成模块4，用于对多个特征属性进行转换，得到多个特征属性文本的特征向量；

特征向量的稀疏哈希映射生成模块5，用于对多个特征属性文本的特征向量进行稀疏表示，得到多个特征向量的稀疏哈希映射；

多簇统一资源定位符生成模块6，用于将多个特征向量的稀疏哈希映射作为K-means聚类算法的输入，得到多簇统一资源定位符；

最长文本生成模块7，用于对多簇统一资源定位符进行匹配度计算，得到自起始位开始多簇统一资源定位符中共有的最长文本；

第一属性文本和第二属性文本确定模块8，用于将最长文本中第一个斜线前的文本确定为第一属性文本，将最长文本中第一个斜线后的文本确定为第二属性文本；

无效地址黑名单生成模块9，用于将最长文本存入统一资源定位符列，将第一属性文本存入第一属性文本列，将第二属性文本存入第二属性文本列，得到无效地址黑名单；

第二获取模块10，用于获取待识别的网页的统一资源定位符文本；

第一文本和第二文本确定模块11，用于将待识别的网页的统一资源定位符文本中第一个斜线前的文本确定为第一文本，将待识别的网页的统一资源定位符文本中第一个斜线后的文本确定为第二文本；

第一判断模块12，用于判断无效地址黑名单的第一属性文本列中是否包含第一文本，得到第一判断结果；

第二判断模块13，用于当第一判断结果表示无效地址黑名单的第一属性文本列中包含第一文本时，判断第二文本是否包含与第一文本相同的第一属性文本所对应的第二属性文本的全部内容，得到第二判断结果；

无效地址网页确定模块14，用于当第二判断结果表示第二文本包含与第一文本相同的第一属性文本所对应的第二属性文本的全部内容时，将待识别的网页确定为无效地址网页。

本实施例中的系统通过多个模块对无效地址网页是统一资源定位符属性进行聚类分析得到无效地址黑名单，通过无效地址黑名单的第一、第二属性文本对待分类网页进行识别，提高了识别方法的客观性、准确性及运行效率。

在实际应用中，特征属性文本的特征向量生成模块具体包括特征属性文本的特征向量生成单元；特征属性文本的特征向量生成单元用于采用Word2vec算法对多个特征属性进行转换，得到多个特征属性文本的特征向量。

在实际应用中，系统还包括：第三判断模块，用于判断多簇统一资源定位符中的任意一簇统一资源定位符的样本数是否大于等于5，得到第三判断结果；进行匹配度计算的多簇统一资源定位符确定模块，用于当第三判断结果表示该簇统一资源定位符的样本数大于等于5时，将该簇统一资源定位符确定为进行匹配度计算的多簇统一资源定位符中的一簇。

在实际应用中，系统还包括第一非无效地址网页确定模块；第一非无效地址网页确定模块，用于当第一判断结果表示无效地址黑名单的第一属性文本列中未包含第一文本时，将待识别的网页确定为非无效地址网页。

在实际应用中，系统还包括第二非无效地址网页确定模块；第二非无效地址网页确定模块，用于当第二判断结果表示第二文本未包含与第一文本相同的第一属性文本所对应的第二属性文本的全部内容时，将待识别的网页确定为非无效地址网页。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种无效地址网页的识别方法，其特征在于，包括：

获取用户人为标记的无效地址网页的统一资源定位符文本；

获取待识别的网页的统一资源定位符文本；

2.根据权利要求1所述的方法，其特征在于，所述对多个所述特征属性进行转换，得到多个特征属性文本的特征向量，具体包括：

采用Word2vec算法对多个所述特征属性进行转换，得到多个特征属性文本的特征向量。

3.根据权利要求1所述的方法，其特征在于，所述对多簇统一资源定位符进行匹配度计算之前还包括：

判断所述多簇统一资源定位符中的任意一簇统一资源定位符的样本数是否大于等于5，得到第三判断结果；

当所述第三判断结果表示所述多簇统一资源定位符中的任意一簇统一资源定位符的样本数大于等于5时，将样本数大于等于5的一簇统一资源定位符确定为进行匹配度计算的多簇统一资源定位符中的一簇。

4.根据权利要求1所述的方法，其特征在于，所述判断无效地址黑名单的第一属性文本列中是否包含所述第一文本，得到第一判断结果之后，还包括：

当所述第一判断结果表示无效地址黑名单的第一属性文本列中未包含所述第一文本时，将所述待识别的网页确定为非无效地址网页。

5.根据权利要求1所述的方法，其特征在于，所述判断所述第二文本是否包含与所述第一文本相同的第一属性文本所对应的第二属性文本的全部内容，得到第二判断结果之后，还包括：

当所述第二判断结果表示所述第二文本未包含与所述第一文本相同的第一属性文本所对应的第二属性文本的全部内容时，将所述待识别的网页确定为非无效地址网页。

6.一种无效地址网页的识别系统，其特征在于，包括：

7.根据权利要求6所述的系统，其特征在于，所述特征属性文本的特征向量生成模块具体包括特征属性文本的特征向量生成单元；

所述特征属性文本的特征向量生成单元用于采用Word2vec算法对多个所述特征属性进行转换，得到多个特征属性文本的特征向量。

8.根据权利要求6所述的系统，其特征在于，所述系统还包括：

第三判断模块，用于判断所述多簇统一资源定位符中的任意一簇统一资源定位符的样本数是否大于等于5，得到第三判断结果；

进行匹配度计算的多簇统一资源定位符确定模块，用于当所述第三判断结果表示所述多簇统一资源定位符中的任意一簇统一资源定位符的样本数大于等于5时，将样本数大于等于5的一簇统一资源定位符确定为进行匹配度计算的多簇统一资源定位符中的一簇。

9.根据权利要求6所述的系统，其特征在于，所述系统还包括第一非无效地址网页确定模块；

所述第一非无效地址网页确定模块，用于当所述第一判断结果表示无效地址黑名单的第一属性文本列中未包含所述第一文本时，将所述待识别的网页确定为非无效地址网页。

10.根据权利要求6所述的系统，其特征在于，所述系统还包括第二非无效地址网页确定模块；

所述第二非无效地址网页确定模块，用于当所述第二判断结果表示所述第二文本未包含与所述第一文本相同的第一属性文本所对应的第二属性文本的全部内容时，将所述待识别的网页确定为非无效地址网页。