CN112199569A

CN112199569A - 一种违禁网址识别方法、系统、计算机设备及存储介质

Info

Publication number: CN112199569A
Application number: CN202011176369.XA
Authority: CN
Inventors: 龙非池; 张炫; 郭亚萌
Original assignee: Chongqing Shake Big Data Co ltd
Current assignee: Chongqing Shake Big Data Co ltd
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2021-01-08

Abstract

本发明提供一种违禁网址识别方法、系统、计算机设备及存储介质，其中，方法包括以下步骤：获取留言内容，所述留言内容中包含有网址；请求并解析所述网址中的网络页面信息，获取待检测信息；根据违禁识别模型对所述待检测信息进行分类；若所述待检测信息的分类存在至少一种违禁分类，对所述待检测信息对应的网址进行违禁标记；对含有违禁标记的网址进行掩码或封禁处理。本发明能够对留言内容中存在的网址进行违禁识别，并对违禁网址进行处理，避免了不能够对网址进行违禁识别从而导致出现违禁识别遗漏的情形。

Description

一种违禁网址识别方法、系统、计算机设备及存储介质

技术领域

本发明涉及网络技术领域，尤其涉及一种违禁网址识别方法、系统、计算机设备及存储介质。

背景技术

近年来，随着互联网网站、受众、媒介越来越多，互联网数据呈指数级增长，就需要确保各个网站上的网页内容符合国家政策规定，需要对网页中的额内容进行检测，确保网页中不存在违禁内容。

现有技术中，需要依靠人工审核或采集信息后经过庞大的敏感词违禁词词库的审核确定网页中的文本内容是否存在违禁内容。但是针对社区留言、回帖或产品评论等文字内容中留下的网址，却不能够被只针对文本内容进行违禁识别的系统识别，从而造成违禁识别的遗漏。

发明内容

基于此，有必要针对上述技术问题，提供一种违禁网址识别方法、系统、计算机设备及存储介质。

一种违禁网址识别方法，包括以下步骤：获取留言内容，所述留言内容中包含有网址；请求并解析所述网址中的网络页面信息，获取待检测信息；根据违禁识别模型对所述待检测信息进行分类；若所述待检测信息的分类存在至少一种违禁分类，对所述待检测信息对应的网址进行违禁标记；对含有违禁标记的网址进行掩码或封禁处理。

在其中一个实施例中，在所述获取留言内容，所述留言内容包含有网址之后，所述请求并解析所述网址中的网络页面信息，获取待检测信息之前，还包括：识别所述留言内容中包含的文本信息；对所述文本信息进行分词处理，获取高频词，所述高频词为在文本信息中出现至少三次的词；将所述高频词作为待检测信息。

在其中一个实施例中，所述请求并解析所述网址中的网络页面信息，获取待检测信息，包括：获取所述网络页面信息中的网站标题、关键词和网站描述；对所述网站标题、关键词和网站描述进行分词处理，获取网络页面信息中出现的全部词和对应的词频，所述词与词频形成待检测数组；将所述待检测数组与违禁文本数据库中的违禁数组进行相似度比较，判断所述待检测数组与所述违禁数组的相似度是否大于文本相似度阈值；将相似度大于预设文本相似度阈值的待检测数据提取出来，作为待检测信息。

在其中一个实施例中，所述获取所述网络页面信息中的网站标题、关键词和网站描述，具体包括：请求文本中的统一资源定位符；解析返回的页面网址数据；获取网址中的网站标题、关键词和网站描述的文本信息。

在其中一个实施例中，所述请求并解析所述网址中的网络页面信息，获取待检测信息，还包括：获取所述网络页面信息中的图片信息；通过预定采样边框对所述图片信息进行采样，获取样本图片；将所述样本图片与所述违禁图片数据库中的违禁图片进行相似度比较，判断所述样本图片与所述违禁图片之间的相似度是否大于预设图片相似度阈值；将相似度大于预设图片相似度阈值的图片信息提取出来，作为待检测信息。

在其中一个实施例中，所述所述通过预定采样边框对所述图片信息进行采样，获取样本图片，包括：所述预定采样边框设置有两个，分别为第一预定采样边框和第二预定采样边框；所述第一预定采样边框将所述图片信息的左下角作为所述预定采样边框的起始位置，向所述图片信息的右上角移动，在移动过程中，所述第一采样边框在相同间隔之间获取至少三张第一采样图片；所述第二预定采样边框将所述图片信息中的左上角作为预定采样边框的起始位置，向所述图片信息的右下角移动，在移动过程中，所述第二采样边框在相同间隔之间获取至少三张第二采样图片；将获取的所述第一采样图片和第二采样图片整合并作为样本图片。

在其中一个实施例中，所述违禁识别模型通过以下方式进行训练：获取训练检测信息，所述训练检测信息中包含有训练文本信息或训练图片信息；对所述训练文本信息或训练图片信息进行违禁分类，获取训练文本数据集和训练图片数据集，所述训练文本信息或训练图片信息可以存在一种或多种违禁分类；通过监督学习算法，在所述训练文本数据集和训练图片数据集中学习并获取违禁识别模型。

一种违禁网址识别系统，包括：内容获取模块，用于获取留言内容；信息获取模块，用于请求并解析所述网址中的网络页面信息，获取待检测信息；信息分类模块，用于根据违禁识别模型对所述待检测信息进行分类；网址标记模块，用于在所述待检测信息的分类存在至少一种违禁分类时，对所述待检测信息对应的网址进行违禁标记；网址处理模块，用于对含有违禁标记的网址进行掩码或封禁处理。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述各个实施例中所述的一种违禁网址识别方法的步骤。

一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述各个实施例中所述的一种违禁网址识别方法的步骤。

上述一种违禁网址识别方法，通过获取留言内容中的网址信息，请求并解析网址中的网络页面信息，获取待检测信息，在预先训练好的违禁识别模型中对待检测信息进行分类，在待检测信息的分类中存在至少一种违禁分类时，对该待检测信息对应的网址进行违禁标记，对含有违禁标记的网址进行掩码或封禁处理，通过对留言内容中的网址信息的识别，获取网址信息中的网页内容，并对网页内容进行对应的分类，判断该网址是否存在违禁分类，从而实现违禁网址的识别，并能够对违禁网址进行掩码或封禁处理，解决了现有技术中不能够对留言内容中的违禁网址进行封禁处理的问题，避免出现违禁识别遗漏的情形。

附图说明

图1一个实施例中一种违禁网址识别方法的流程示意图；

图2为一个实施例中获取待检测信息的流程示意图；

图3为另一个实施例中获取待检测信息的流程示意图；

图4为一个实施例中一种违禁网址识别系统的结构示意图；

图5为一个实施例中计算机设备的内部结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面通过具体实施方式结合附图对本发明做进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在一个实施例中，如图1所示，提供了一种违禁网址识别方法，包括以下步骤：

步骤S101，获取留言内容，留言内容中包含有网址。

具体地，留言内容可以是社区留言、论坛回帖或产品评论，留言内容中包含有网址；可以通过URL(uniform resource locator；统一资源定位)检测模块检测留言内容中是否包含有网址。

在步骤S101之后，步骤S102之前，还包括：识别留言内容中包含的文本信息；对文本信息进行分词处理，获取高频词，高频词为在文本信息中出现至少三次的词；将高频词作为待检测信息。

具体地，在留言内容中仅包含文本信息时，将文本信息中出现的高频词作为待检测信息，也可以实现对该留言的违禁识别。

步骤S102，请求并解析网址中的网络页面信息，获取待检测信息。

具体地，可以通过爬虫模块请求并解析网址中的网络页面信息，获取待检测信息，该待检测信息可以是文本信息或者图片信息。其中文本信息可以通过爬虫模块爬取网络页面信息中附带的网站标题、关键词和网站描述等信息。

步骤S103，根据违禁识别模型对待检测信息进行分类。

具体地，违禁识别模型能够对待检测信息进行分类，确定待检测信息的是否违禁以及违禁类别。

步骤S104，若待检测信息的分类存在至少一种违禁分类，对待检测信息对应的网址进行违禁标记。

具体地，违禁识别模型对待检测信息进行至少一种违禁分类时，对该待检测信息对应的网址进行违禁标记。

步骤S105，对含有违禁标记的网址进行掩码或封禁处理。

在本实施例中，通过获取留言内容中的网址信息，请求并解析网址中的网络页面信息，获取待检测信息，在预先训练好的违禁识别模型中对待检测信息进行分类，在待检测信息的分类中存在至少一种违禁分类时，对该网址进行违禁标记，对含有违禁标记的网址进行掩码或封禁处理，通过对留言内容中的网址信息的识别，获取网址信息中的网页内容，并对网页内容进行对应的分类，判断该网址是否存在违禁分类，从而实现违禁网址的识别，并能够对违禁网址进行掩码或封禁处理，解决了现有技术中不能够对留言内容中的违禁网址进行封禁处理的问题，避免出现违禁识别遗漏的情形。

如图2所示，为一个实施例中获取待检测信息的流程示意图，包括以下步骤：

步骤S201，获取网络页面信息中的网站标题、关键词和网站描述。

具体地，爬虫模块请求文本中的统一资源定位符，并解析返回的页面网址数据，获取网址中的网站标题、关键词和网站描述的文本信息。

步骤S202，对网站标题、关键词和网站描述进行分词处理，获取网络页面信息中出现的全部词和对应的词频，词与词频形成待检测数组。

具体地，可以采用结巴分词算法对网站标题、关键词和网站描述进行分词处理，获取网络页面信息中出现的全部词以及对应的词频，词与词频形成待检测数组。其中，词频为词在文本信息中出现的频次。

步骤S203，将待检测数组与违禁文本数据库中的违禁数组进行相似度比较，判断待检测数组与违禁数组的相似度是否大于文本相似度阈值。

具体地，违禁数据库中存在的违禁数组可以通过历史违禁网址中提取出来，可以通过特定词的词频判断待检测数组与违禁数组的相似度。例如，某个词在违禁数组中的词频为20次，则可以在该词在待检测数组中的词频在15次以上时认定待检测数组与违禁数组之间的相似度大于预设文本相似度阈值。

步骤S204，将相似度大于预设文本相似度阈值的待检测数据提取出来，作为待检测信息。

具体地，将待检测数组与违禁数组之间相似度大于预设文本相似度阈值的网络页面信息提取出来，作为待检测信息，能够提前将相似度低的待检测数组剔除，实现对待检测网址的精准筛选，从而提高违禁识别的准确度。

如图3所示，为另一个实施例中获取待检测信息的流程示意图，包括以下步骤：

步骤S301，获取网络页面信息中的图片信息。

具体地，由于网络页面也可能存在违禁图片信息，因此在除了获取网络页面信息中的文本信息之外，还可以获取网络页面信息中的图片信息，对网址进行全面的违禁检测。

步骤S302，通过预定采样边框对图片信息进行采样，获取样本图片。

具体地，预定采样边框可以设置有预定形状和预定大小，便于对不同的图片信息进行对应的采样。

步骤S302具体包括：预定采样边框设置有两个，分别为第一预定采样边框和第二预定采样边框；第一预定采样边框将图片信息的左下角作为预定采样边框的其实位置，向该图片信息的右上角移动，在移动过程中，第一预定采样边框在相同间隔之间获取至少三张第一采样图片，第一采样图片之间设置有相同的间隔；第二预定采样边框将图片信息的左上角作为预定采样边框的起始位置，向该图片信息的右下角移动，在移动过程中，第二预定采样边框在相同间隔之间获取至少三张第二采样图片；将获取的第一采样图片和第二采样图片整合并作为样本图片。

步骤S303，将样本图片与违禁图片数据库中的违禁图片进行相似度比较，判断样本图片与违禁图片之间的相似度是否大于预设图片相似度阈值。

具体地，违禁图片数据库中预先存储有多种违禁图片，将样本图片与违禁图片数据库中的违禁图片进行相似度比较，确定样本图片与违禁图片之间的相似度，并判断该相似度是否大于预设图片相似度阈值，若该相似度大于预设图片相似度，则提取该图片信息，作为待检测信息。

步骤S304，将相似度大于预设图片相似度阈值的图片信息提取出来，作为待检测信息。

具体地，在图片信息的样本图片与违禁图片之间的相似度大于预设图片相似度阈值时，将该图片信息提取出来，作为待检测信息，能够剔除大部分非违禁图片信息，从而实现对违禁图片的精准判断。

其中，违禁识别模型通过以下方式进行训练：获取训练检测信息，训练检测信息中包含有训练文本信息或训练图片信息；对训练文本信息或训练图片信息进行违禁分类，获取训练文本数据集和训练图片数据集，训练文本信息或训练图片信息可以存在一种或多种违禁分类；通过监督学习算法，在训练文本数据集和训练图片数据集中学习并获取违禁识别模型。

在一个实施例中，如图4所示，提供了一种违禁网址识别系统40，该系统包括内容获取模块41、信息获取模块42、信息分类模块43、网址标记模块44和网址处理模块45，其中：

内容获取模块41，用于获取留言内容，留言内容中包含有网址；

信息获取模块42，用于请求并解析网址中的网络页面信息，获取待检测信息；

信息分类模块43，用于根据违禁识别模型对待检测信息进行分类；

网址标记模块44，用于在待检测信息的分类存在至少一种违禁分类时，对待检测信息对应的网址进行违禁标记；

网址处理模块45，用于对含有违禁标记的网址进行掩码或封禁处理。

在本实施例中，通过内容获取模块41获取留言内容，留言内容中包含有网址，信息获取模块42请求并解析网址中的网络页面信息，获取待检测信息；信息分类模块43通过违禁识别模型对待检测信息进行分类，在待检测信息的分类存在至少一种违禁分类时，通过网址标记模块43对待检测信息对应的网址进行违禁标记，最后通过网址处理模块45对含有违禁标记的网址进行掩码或封禁处理，从而完成留言内容中的网址的违禁检测，并对检测出的违禁网址进行处理。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储配置模板，还可用于存储目标网页数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种违禁网址识别方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被计算机执行时使所述计算机执行如前述实施例所述的方法，所述计算机可以为上述提到的一种违禁网址识别系统的一部分。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

显然，本领域的技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在计算机存储介质(ROM/RAM、磁碟、光盘)中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。所以，本发明不限制于任何特定的硬件和软件结合。

以上内容是结合具体的实施方式对本发明所做的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种违禁网址识别方法，其特征在于，包括以下步骤：

获取留言内容，所述留言内容中包含有网址；

请求并解析所述网址中的网络页面信息，获取待检测信息；

根据违禁识别模型对所述待检测信息进行分类；

若所述待检测信息的分类存在至少一种违禁分类，对所述待检测信息对应的网址进行违禁标记；

对含有违禁标记的网址进行掩码或封禁处理。

2.根据权利要求1所述的一种违禁网址识别方法，其特征在于，在所述获取留言内容，所述留言内容包含有网址之后，所述请求并解析所述网址中的网络页面信息，获取待检测信息之前，还包括：

识别所述留言内容中包含的文本信息；

对所述文本信息进行分词处理，获取高频词，所述高频词为在文本信息中出现至少三次的词；

将所述高频词作为待检测信息。

3.根据权利要求1所述的一种违禁网址识别方法，其特征在于，所述请求并解析所述网址中的网络页面信息，获取待检测信息，包括：

获取所述网络页面信息中的网站标题、关键词和网站描述；

对所述网站标题、关键词和网站描述进行分词处理，获取网络页面信息中出现的全部词和对应的词频，所述词与词频形成待检测数组；

将所述待检测数组与违禁文本数据库中的违禁数组进行相似度比较，判断所述待检测数组与所述违禁数组的相似度是否大于文本相似度阈值；

将相似度大于预设文本相似度阈值的待检测数据提取出来，作为待检测信息。

4.根据权利要求3所述的一种违禁网址识别方法，其特征在于，所述获取所述网络页面信息中的网站标题、关键词和网站描述，具体包括：

请求文本中的统一资源定位符；

解析返回的页面网址数据；

获取网址中的网站标题、关键词和网站描述的文本信息。

5.根据权利要求1所述的一种违禁网址识别方法，其特征在于，所述请求并解析所述网址中的网络页面信息，获取待检测信息，还包括：

获取所述网络页面信息中的图片信息；

通过预定采样边框对所述图片信息进行采样，获取样本图片；

将所述样本图片与所述违禁图片数据库中的违禁图片进行相似度比较，判断所述样本图片与所述违禁图片之间的相似度是否大于预设图片相似度阈值；

将相似度大于预设图片相似度阈值的图片信息提取出来，作为待检测信息。

6.根据权利要求5所述的一种违禁网址识别方法，其特征在于，所述通过预定采样边框对所述图片信息进行采样，获取样本图片，包括：

所述预定采样边框设置有两个，分别为第一预定采样边框和第二预定采样边框；

所述第一预定采样边框将所述图片信息的左下角作为所述预定采样边框的起始位置，向所述图片信息的右上角移动，在移动过程中，所述第一采样边框在相同间隔之间获取至少三张第一采样图片；

所述第二预定采样边框将所述图片信息中的左上角作为预定采样边框的起始位置，向所述图片信息的右下角移动，在移动过程中，所述第二采样边框在相同间隔之间获取至少三张第二采样图片；

将获取的所述第一采样图片和第二采样图片整合并作为样本图片。

7.根据权利要求1所述的一种违禁网址识别方法，其特征在于，所述违禁识别模型通过以下方式进行训练：

获取训练检测信息，所述训练检测信息中包含有训练文本信息或训练图片信息；

对所述训练文本信息或训练图片信息进行违禁分类，获取训练文本数据集和训练图片数据集，所述训练文本信息或训练图片信息可以存在一种或多种违禁分类；

通过监督学习算法，在所述训练文本数据集和训练图片数据集中学习并获取违禁识别模型。

8.一种违禁网址识别系统，其特征在于，包括：

内容获取模块，用于获取留言内容；

信息获取模块，用于请求并解析所述网址中的网络页面信息，获取待检测信息；

信息分类模块，用于根据违禁识别模型对所述待检测信息进行分类；

网址标记模块，用于在所述待检测信息的分类存在至少一种违禁分类时，对所述待检测信息对应的网址进行违禁标记；

网址处理模块，用于对含有违禁标记的网址进行掩码或封禁处理。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。