CN108153872A

CN108153872A - 一种互联网网页信息过滤的方法和装置

Info

Publication number: CN108153872A
Application number: CN201711425556.5A
Authority: CN
Inventors: 胡静
Original assignee: Foshan Carpenter Carpenter Automobile Articles Co Ltd
Current assignee: Foshan Carpenter Carpenter Automobile Articles Co Ltd
Priority date: 2017-12-25
Filing date: 2017-12-25
Publication date: 2018-06-12

Abstract

本发明提供的一种互联网网页信息过滤的方法和装置，通过预处理网页信息，提取页面中有效信息文本；对文本中中文分词，采用字符串匹配算法中的正向迭代最大匹配算法；特征提取，将中文分词后的结果和我们已经准备好的语料库中的文本一起进行特征提取，得到特征向量；文本分类，如果该文本是含有不良信息的文本，那么系统就是显示该网页中含有不良信息，就会将该网页的URL地址列入URL地址黑名单中，这样如果下次再次访问；该网页那么系统就会立刻识别出该网页是不良网页，从而禁止用户进行访问；将不良信息在进入人们视野之前进行过滤，从而在一定程度上净化网络环境，可以使网民减少获取不良信息的途径，尤其对青少年身心健康的发展尤为重要。

Description

一种互联网网页信息过滤的方法和装置

技术领域

本发明涉及互联网技术领域，特别是涉及一种互联网网页信息过滤的方法和装置。

背景技术

网络是我们现代人获取信息的重要途径之一，是我们与外界进行沟通交流的重要窗口，其重要性已显得尤为重要。人们在日常的生活工作当中，总会或多或少的从网络中获取各种信息，然而那些反不良的信息也会悄然进入人们的视野，污染整个互联网环境。网络不良信息是指出现在互联网上的违反人类道德、法律，以煽动、蛊惑、迷信、蚕食人类精神健康等手段的各种信息。

因此，网络信息的识别和过滤技术的实现就显得尤为重要。通过将网络上的不良信息进行预处理，将不良信息在进入人们视野之前进行过滤，从而在一定程度上净化网络环境，可以使网民减少获取不良信息的途径，尤其对青少年身心健康的发展尤为重要。

发明内容

本发明的目的是提供一种互联网网页信息过滤的方法和装置，将不良信息在进入人们视野之前进行过滤，从而在一定程度上净化网络环境，可以使网民减少获取不良信息的途径，尤其对青少年身心健康的发展尤为重要。

为了解决上述技术问题，本发明提供了如下技术方案：

第一方面，一种互联网网页信息过滤的方法，所述方法包括：

步骤S101：预处理网页信息，提取页面中有效信息文本；

步骤S102：对文本中中文分词，采用字符串匹配算法中的正向迭代最大匹配算法；

步骤S103：特征提取，将中文分词后的结果和我们已经准备好的语料库中的文本一起进行特征提取，得到特征向量；

步骤S104：文本分类，如果该文本是含有不良信息的文本，那么系统就是显示该网页中含有不良信息，就会将该网页的URL地址列入URL地址黑名单中，这样如果下次再次访问；该网页那么系统就会立刻识别出该网页是不良网页，从而禁止用户进行访问。

结合本申请的第一方面，在本申请第一方面的第二种可实施方式中，步骤S101：预处理网页信息，提取页面中有效信息文本；有效信息文本包括唯一识别码。

结合本申请的第一方面，在本申请第一方面的第三种可实施方式中，步骤S102：对文本中中文分词，采用字符串匹配算法中的正向迭代最大匹配算法；包括从头到尾将文本中的几个连续字符与我们事先定义好的词语表相匹配。

结合本申请的第一方面，在本申请第一方面的第四种可实施方式中，步骤S103：特征提取，将中文分词后的结果和我们已经准备好的语料库中的文本一起进行特征提取；包括计算方法为CHI方法。

结合本申请的第一方面，在本申请第一方面的第五种可实施方式中，步骤S104：文本分类，如果该文本是含有不良信息的文本，那么系统就是显示该网页中含有不良信息，就会将该网页的URL地址列入URL地址黑名单中，这样如果下次再次访问；该网页那么系统就会立刻识别出该网页是不良网页，从而禁止用户进行访问，包括采用KNN算法分类文本。

第二方面，一种互联网网页信息过滤的装置，所述装置包括：

预处理单元：用于预处理网页信息，提取页面中有效信息文本；

分词单元：用于对文本中中文分词，采用字符串匹配算法中的正向迭代最大匹配算法；

提取单元：用于特征提取，将中文分词后的结果和我们已经准备好的语料库中的文本一起进行特征提取，得到特征向量；

分类单元：用于文本分类，如果该文本是含有不良信息的文本，那么系统就是显示该网页中含有不良信息，就会将该网页的URL地址列入URL地址黑名单中，这样如果下次再次访问；该网页那么系统就会立刻识别出该网页是不良网页，从而禁止用户进行访问。

结合本申请的第二方面，在本申请第二方面的第二种可实施方式中，预处理单元：用于预处理网页信息，提取页面中有效信息文本；有效信息文本包括唯一识别码。

结合本申请的第二方面，在本申请第二方面的第三种可实施方式中，分词单元：用于对文本中中文分词，采用字符串匹配算法中的正向迭代最大匹配算法；包括从头到尾将文本中的几个连续字符与我们事先定义好的词语表相匹配。

结合本申请的第二方面，在本申请第二方面的第四种可实施方式中，提取单元：用于特征提取，将中文分词后的结果和我们已经准备好的语料库中的文本一起进行特征提取；包括计算方法为CHI方法。

结合本申请的第二方面，在本申请第二方面的第五种可实施方式中，分类单元：用于文本分类，如果该文本是含有不良信息的文本，那么系统就是显示该网页中含有不良信息，就会将该网页的URL地址列入URL地址黑名单中，这样如果下次再次访问；该网页那么系统就会立刻识别出该网页是不良网页，从而禁止用户进行访问，包括采用KNN算法分类文本。

由以上技术方案可知：本发明的目的是提供一种互联网网页信息过滤的方法和装置，通过预处理单元，用于预处理网页信息，提取页面中有效信息文本；分词单元，用于对文本中中文分词，采用字符串匹配算法中的正向迭代最大匹配算法；提取单元，用于特征提取，将中文分词后的结果和我们已经准备好的语料库中的文本一起进行特征提取，得到特征向量；分类单元，用于文本分类，如果该文本是含有不良信息的文本，那么系统就是显示该网页中含有不良信息，就会将该网页的URL地址列入URL地址黑名单中，这样如果下次再次访问；该网页那么系统就会立刻识别出该网页是不良网页，从而禁止用户进行访问；将不良信息在进入人们视野之前进行过滤，从而在一定程度上净化网络环境，可以使网民减少获取不良信息的途径，尤其对青少年身心健康的发展尤为重要。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本发明的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1为本申请实施例提供的一种互联网网页信息过滤的方法流程图。

具体实施方式

本下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为一种互联网网页信息过滤方法流程图。

步骤S101：预处理网页信息，提取页面中有效信息文本；

本发明的目的是提供一种互联网网页信息过滤的方法，将不良信息在进入人们视野之前进行过滤，从而在一定程度上净化网络环境，可以使网民减少获取不良信息的途径，尤其对青少年身心健康的发展尤为重要。

进一步地，步骤S101：预处理网页信息，提取页面中有效信息文本；有效信息文本包括唯一识别码。

进一步地，步骤S102：对文本中中文分词，采用字符串匹配算法中的正向迭代最大匹配算法；包括从头到尾将文本中的几个连续字符与我们事先定义好的词语表相匹配。

进一步地，步骤S103：特征提取，将中文分词后的结果和我们已经准备好的语料库中的文本一起进行特征提取；包括计算方法为 CHI方法。

进一步地，步骤S104：文本分类，如果该文本是含有不良信息的文本，那么系统就是显示该网页中含有不良信息，就会将该网页的 URL地址列入URL地址黑名单中，这样如果下次再次访问；该网页那么系统就会立刻识别出该网页是不良网页，从而禁止用户进行访问，包括采用KNN算法分类文本。

本发明的目的是提供一种互联网网页信息过滤的装置，将不良信息在进入人们视野之前进行过滤，从而在一定程度上净化网络环境，可以使网民减少获取不良信息的途径，尤其对青少年身心健康的发展尤为重要。

进一步地，预处理单元：用于预处理网页信息，提取页面中有效信息文本；有效信息文本包括唯一识别码。

进一步地，分词单元：用于对文本中中文分词，采用字符串匹配算法中的正向迭代最大匹配算法；包括从头到尾将文本中的几个连续字符与我们事先定义好的词语表相匹配。

进一步地，提取单元：用于特征提取，将中文分词后的结果和我们已经准备好的语料库中的文本一起进行特征提取；包括计算方法为 CHI方法。

进一步地，分类单元：用于文本分类，如果该文本是含有不良信息的文本，那么系统就是显示该网页中含有不良信息，就会将该网页的URL地址列入URL地址黑名单中，这样如果下次再次访问；该网页那么系统就会立刻识别出该网页是不良网页，从而禁止用户进行访问，包括采用KNN算法分类文本。

至此，本领域技术人员应认识到，虽然本文已详尽示出和描述了本发明的多个示例性实施例，但是，在不脱离本发明精神和范围的情况下，仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此，本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。

Claims

1.一种互联网网页信息过滤的方法，其特征在于，所述方法包括：

步骤S101：预处理网页信息，提取页面中有效信息文本；

2.根据权利要求1所述的方法，其特征在于，步骤S101：预处理网页信息，提取页面中有效信息文本；有效信息文本包括唯一识别码。

3.根据权利要求1所述的方法，其特征在于，步骤S102：对文本中中文分词，采用字符串匹配算法中的正向迭代最大匹配算法；包括从头到尾将文本中的几个连续字符与我们事先定义好的词语表相匹配。

4.根据权利要求1所述的方法，其特征在于，步骤S103：特征提取，将中文分词后的结果和我们已经准备好的语料库中的文本一起进行特征提取；包括计算方法为CHI方法。

5.根据权利要求1所述的方法，其特征在于，步骤S104：文本分类，如果该文本是含有不良信息的文本，那么系统就是显示该网页中含有不良信息，就会将该网页的URL地址列入URL地址黑名单中，这样如果下次再次访问；该网页那么系统就会立刻识别出该网页是不良网页，从而禁止用户进行访问，包括采用KNN算法分类文本。

6.一种互联网网页信息过滤的装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，预处理单元：用于预处理网页信息，提取页面中有效信息文本；有效信息文本包括唯一识别码。

8.根据权利要求6所述的装置，其特征在于，分词单元：用于对文本中中文分词，采用字符串匹配算法中的正向迭代最大匹配算法；包括从头到尾将文本中的几个连续字符与我们事先定义好的词语表相匹配。

9.根据权利要求6所述的装置，其特征在于，提取单元：用于特征提取，将中文分词后的结果和我们已经准备好的语料库中的文本一起进行特征提取；包括计算方法为CHI方法。

10.根据权利要求6所述的装置，其特征在于，分类单元：用于文本分类，如果该文本是含有不良信息的文本，那么系统就是显示该网页中含有不良信息，就会将该网页的URL地址列入URL地址黑名单中，这样如果下次再次访问；该网页那么系统就会立刻识别出该网页是不良网页，从而禁止用户进行访问，包括采用KNN算法分类文本。