CN113177409A

CN113177409A - 一种智能敏感字词识别系统

Info

Publication number: CN113177409A
Application number: CN202110490284.7A
Authority: CN
Inventors: 项超
Original assignee: Shanghai Huizhou Information Technology Co ltd
Current assignee: Shanghai Huizhou Information Technology Co ltd
Priority date: 2021-05-06
Filing date: 2021-05-06
Publication date: 2021-07-27

Abstract

本发明提供一种智能敏感字词识别系统，包括：获取模块、文本识别模块和图片识别模块；其中获取模块用于使用网络爬虫对目标网页的文本和图片进行抓取，获取目标网页的文本信息和图片信息；文本识别模块用于对获取的文本信息进行预处理，对预处理后的文本信息进行敏感词识别处理，获取文本敏感词识别结果；图片识别模块用于对获取的图片信息进行预处理，对预处理后的图片信息进行文本提取，并根据提取的文本信息进行敏感词识别处理，获取图片敏感词识别结果。本发明能够针对以图片形式发布的敏感文字信息进行识别，并进一步将网站上的敏感信息进行屏蔽，保证了网站的信息健康环境，同时也有助于提高网站管理者对网站的管理水平。

Description

一种智能敏感字词识别系统

技术领域

本发明涉及网络管理技术领域，特别是一种智能敏感字词识别系统。

背景技术

对于一个国家甚至世界来说，健康的网络环境十分重要的，这关乎到这个社会的健康发展。然而，由于部分网站对用户开放了较多的权限，例如论坛、贴吧、聊天室网站等，各用户能够在网站上自由发表信息或评论，因此也有一些不法用户利用这些网站大肆发布敏感信息，容易导致网站上泛滥大量的敏感性文字和词汇，如涉及色情、政治、民生、涉赌、涉毒等类别的词汇，这严重影响着网站环境，给网站管理者带来非常严峻的挑战，故越来越多的网站管理机构开始采用专门的软件来对自家的网站进行敏感性词汇的监测。

现有技术中，很多传统的监测软件都是基于规则匹配的，大都基于预先设置好的敏感词库，然后对网站进行爬虫，最后对网站进行词汇匹配；但是，由于这种检测方式模式过于单一，因此，容易被不法用户轻易规避，例如将文字信息转化成图片的文件格式(例如是在一幅图片的基础上的空白位置编辑需要发布的敏感文字信息，然后将整个图片进行发布)进行发布，以规避针对文本信息的敏感，影响针对网站敏感字词识别检测的可靠性。

发明内容

针对上述问题，本发明旨在提供一种智能敏感字词识别系统。

本发明的目的采用以下技术方案来实现：

本发明示出一种智能敏感字词识别系统，包括：获取模块、文本识别模块和图片识别模块；其中，

获取模块用于使用网络爬虫对目标网页的文本和图片进行抓取，获取目标网页的文本信息和图片信息；

文本识别模块用于对获取的文本信息进行预处理，对预处理后的文本信息进行敏感词识别处理，获取文本敏感词识别结果；

图片识别模块用于对获取的图片信息进行预处理，对预处理后的图片信息进行文本提取，并根据提取的文本信息进行敏感词识别处理，获取图片敏感词识别结果。

一种实施方式中，该系统还包括处理模块；其中，

处理模块用于当识别到目标网页包含敏感信息时，屏蔽该敏感信息。

一种实施方式中，获取模块包括文字获取单元和图片获取单元；其中，

文字获取单元用于获取目标网页中的文本信息；

图片获取单元用于获取目标网页中的图片信息。

一种实施方式中，文本识别模块，具体包括：分词单元、主题分类单元和识别单元；其中，

分词单元用于对获取的网页文本信息进行分词处理，将网页文本信息拆分成由若干个单词组成的词向量集；

主题分类单元用于根据获取的词向量集进行主题分类识别，获取该词向量集的主题分类标签；其中主题分类标签包括：体育、教育、游戏、政府和企业等不同主题的标签，每个主题分类标签对应设置有对应的敏感词库；

识别单元用于根据该词向量集的主题分类标签，调用相应的基于深度学习的敏感词识别模型对该词向量集进行敏感词识别，输出文本敏感词识别结果；其中调用的敏感词识别模型由根据与该主题分类标签对应的敏感词库训练所得。

一种实施方式中，图片识别模块，具体包括：图片文本提取单元、图片文本识别单元和图片敏感文本识别单元；其中，

图片文本提取单元用于对获取的目标网页中的网页图片进行文本识别，并对图片中的文本部分进行定位，并根据文本部分的定位从该图片中分割出文本部分图片；

图片文本识别单元用于根据获取的文本部分图片，基于卷积神经网络CNN模型对该文本部分图片进行文本识别处理(CNN：卷积神经网络，Convolutional NeuralNetwork)，输出该文本部分图片对应的图片文本信息；

图片敏感文本识别单元用于根据获取的图片文本信息，基于训练好的SVM分类器对该图片文本信息进行敏感信息识别处理(SVM：支持向量机，Support Vector Machine)，输出图片敏感词识别结果。

本发明的有益效果为：本发明系统能够基于网站中的文本信息和图片信息进行敏感字词的识别，其中特别能够针对以图片形式发布的敏感文字信息进行识别，并进一步将网站上的敏感信息进行屏蔽，保证了网站的信息健康环境，同时也有助于提高网站管理者对网站的管理水平。

附图说明

利用附图对本发明作进一步说明，但附图中的实施例不构成对本发明的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1为本发明一种智能敏感字词识别系统示例性实施例的框架结构图。

附图标记：

获取模块10，文本识别模块20，图片识别模块30，处理模块40。

具体实施方式

结合以下应用场景对本发明作进一步描述。

参见图1实施例所示一种智能敏感字词识别系统，包括：获取模块10、文本识别模块20和图片识别模块30；其中，

获取模块10用于使用网络爬虫对目标网页的文本和图片进行抓取，获取目标网页的文本信息和图片信息；

文本识别模块20用于对获取的文本信息进行预处理，对预处理后的文本信息进行敏感词识别处理，获取文本敏感词识别结果；

图片识别模块30用于对获取的图片信息进行预处理，对预处理后的图片信息进行文本提取，并根据提取的文本信息进行敏感词识别处理，获取图片敏感词识别结果。

本发明上述实施方式，智能敏感字词识别系统能够基于网站中的文本信息和图片信息进行敏感字词的识别，其中特别能够针对以图片形式发布的敏感文字信息进行识别，并进一步将网站上的敏感信息进行屏蔽，保证了网站的信息健康环境，同时也有助于提高网站管理者对网站的管理水平。

一种实施方式中，该系统还包括处理模块40；其中，

处理模块40用于当识别到目标网页包含敏感信息时，屏蔽该敏感信息。

一种场景中，当检测到目标网页的文本信息中存在敏感词时，则采用特殊的符号替换被识别到的敏感词；当检测到目标网页的图片信息中存在敏感文本信息时，则直接将该图片删除，用预先设定的特殊标识图片进行代替。

一种实施方式中，获取模块10包括文字获取单元和图片获取单元；其中，

文字获取单元用于获取目标网页中的文本信息；

图片获取单元用于获取目标网页中的图片信息。

在获取目标网页的图片信息时，首先设置在网站上抓取网页中图片获取规则,利用现有技术中的网络爬虫来通过网页的链接地址来寻找网页,一直循环下去,直到把这个网站所有的网页图片都抓取完为止。同时，上述方式也适用于目标网页中的文本信息抓取，利用现有技术中的网络爬虫来抓取网页中的所有文本信息。

基于文本识别模块20对目标网页中的文本信息进行敏感词识别处理，可以采用现有的基于敏感词识别模型进行。但是基于现有的针对网站敏感词识别的技术中，通常采用统一的敏感词库，但是在不同的应用场景或话题讨论下，相同的词汇也可能会存在不同的含义，使得一些虽然看起来敏感的词汇但是在某些特定情况下其实是属于正常使用的情况，例如：在电商销售平台相关的网站，“山寨”、“盗版”等词汇是属于敏感词，但是，在体育娱乐领域，这些词汇则被赋予正常的表达意思；例如，在大多数网站下，领导人的名字应该是属于敏感词；但是在政府信息发布网站发布的新闻稿中，这些名字应该被允许正常出现，等等。因此，采用统一的敏感词库对不同场景、功能或领域的网站进行敏感词检测，容易导致“误判”的情况，影响网站管理的效果。因此，本申请还提出了一种基于网页主题分类来对该网页中的文本信息进行敏感词识别的技术方案。

一种实施方式中，文本识别模块20具体包括：分词单元、主题分类单元和识别单元；其中，

分词单元用于对获取的网页文本信息进行分词和去冗等处理，将网页文本信息拆分成由若干个单词组成的词向量集；

识别单元用于根据该词向量集的主题分类标签，调用相应的基于深度学习的敏感词识别模型对该词向量集进行敏感词识别，输出文本敏感词识别结果；其中调用的敏感词识别模型由根据(采用)与该主题分类标签对应的敏感词库训练所得。

其中，分词单元中对网页文本信息进行分词处理的方式，在现有技术中已经有较为成熟的处理方法，本申请在此不作重复叙述。

一种实施方式中，主题分类单元中，根据获取的词向量集进行主题分类识别，具体包括：

1)根据词向量集C＝{C₁,C₂,…,C_i,…,C_I}中各单词提取特征词并组成特征词集Y＝{Y₁,Y₂,…,Y_j,…,Y_J}，C_i表示词向量集中的其中一个单词，I表示词向量集中的单词总数，Y_j表示特征词集中的其中一个特征词，J表示特征词集合中特征词的总数，其中J＜I；

2)计算词向量集C与不同分类主题的关联系数，其中采用的关联系数计算函数为：

式中，X(n)表示特征词集与第n个分类主题Z_n的关联系数，其中n∈[1,N]，N表示不同主题分类标签的总数，

表示特征词Y_j出现在分类主题Z_n下的概率，{C-Y}词向量集C中没有被提取为特征词集的非特征词集合，

表示词向量集C中的非特征词C_i出现在分类主题Z_n下的概率；δ表示设定的整体特征表征因子，μ表示设定的突出特征表征因子，β表示设定的非特征表征因子，α表示关联强度调节因子；

3)选取最大的关联系数对应的分类主题作为该词向量集的主题分类标签。

一种场景中，从词向量集中提取特征词集的方式可以是根据特征词的出现频率选取，将出现频率较高的若干个词语作为特征词。

针对大部分的网页没有特别明确的主题分类标识，因此上述实施方式中，还提出了一种基于网站本身包含的文本信息来对该网站主题进行识别的技术方案，能过自适应地根据分词后处理后的文本信息中选取特征词，并根据特征词进一步匹配最关联的主题分类，其中引入了一种关联系数计算函数来计算当前特征词最有关联度的主题分类，准确判断网页所属的分类主题。

在获取当前网页的分类主题之后，根据获取的分类主题调用相应的基于深度学习的敏感词识别模型来对获取的词向量集进行处理，输出敏感词识别结果。

其中，针对每个分类主题都建立有对应的敏感词库，该敏感词库中记载有与分类主题对应的敏感词或特殊非敏感词，以使得在根据该敏感词库进行基于深度学习的敏感词识别模型训练的时候，能够使得训练好的模型能够适应对应的分类主题来进行敏感词识别处理，提高了网页敏感词识别的适应性和可靠性。

针对不法用户估计将带有敏感词的文本内容通过修图的方式输入到图片中，然后将带有敏感词内容的图片进行发布，以规避敏感文本信息识别的情况。本申请还提出了一种专门针对图片中文本信息进行提取和敏感信息识别的技术方案。

一种实施方式中，图片识别模块30，具体包括：图片文本提取单元、图片文本识别单元和图片敏感文本识别单元；其中，

图片文本识别单元用于根据获取的文本部分图片，基于卷积神经网络CNN模型对该文本部分图片进行文本识别处理，输出该文本部分图片对应的图片文本信息；

图片敏感文本识别单元用于根据获取的图片文本信息，基于训练好的SVM分类器对该图片文本信息进行敏感信息识别处理，输出图片敏感词识别结果。

一种实施方式中，图片文本提取单元中，对获取的目标网页中的图片进行文本识别，并对图片中的文本部分进行定位，具体包括：

1)对获取的网页图片进行灰度化处理，获取灰度化网页图片；

为对图片中的文本内容进行检测，首先对网页图片进行灰度化处理，将网页图片从RGB空间转换到灰度空间；

2)基于灰度化网页图片进行边缘检测处理，获取灰度化网页图片中的边缘轮廓；

基于Canny算子和/或Sobel算子对灰度化网页图片进行边缘检测处理，获取灰度化网页图片中各像素点的边缘梯度值和梯度方向，并根据获取的边缘梯度值和梯度方向确定灰度化网页图片中的边缘轮廓；

其中，采用的Sobel算子为：

3)基于获取的边缘轮廓进行文本轮廓筛选，获取文本轮廓；

基于获取的边缘轮廓，根据设定的笔画宽度规则进行文本轮廓筛选，具体包括：

基于获取的边缘轮廓的梯度方向，获取边缘轮廓所包围区域的宽度作为笔画宽度，其中笔画宽度为从边缘轮廓上的一个像素点A出发，沿该像素点的梯度方向遍历直到该边缘轮廓上的另一个像素点B，则两个像素点之间的距离为像素点A处的笔画宽度；

针对每一个边缘轮廓，根据边缘轮廓区域的笔画宽度进行如下判断：

D1：同一边缘轮廓中各处的笔画宽度均大于设定的第一阈值；

D2：同一边缘轮廓中各处的笔画宽度的最大值和最小值之比大于设定的第二阈值；

D3：同一边缘轮廓中的单边长度小于设定的第三阈值；

当同时满足以上三个判断条件时，则判断该边缘轮廓为文本轮廓；

4)基于获取的文本轮廓进行文字连通区域提取，获取图片中的文本部分区域并分割出文本部分图片；

基于获取的文本轮廓进行膨胀处理，获取与文本轮廓对应的文本区域，并根据各文本轮廓的文本区域进行聚合，得到图片中的文本部分区域。

上述实施方式中，为了提高网页图片文本识别处理的效率和准确度，因此提出了一种在图片文本识别之前，对网页图片的文本部分进行分割的技术方案，能够适应图片文本的特性，准确获取文本轮廓，并根据各文本轮廓所在区域分割出图片中存在文本信息的文本部分图片进行进一步处理，有效提高了对网页图片进行敏感词(文本)识别的效率和准确性。

一种场景中，图片文本识别单元中，针对获取的文本部分图片，可以采用现有的基于卷积神经网络CNN的图片文本识别模型来对文本部分图片进行处理，获取图片中对应的文本信息。

一种场景中，由于隐藏在图片中的文本信息通常较为固定和直白，因此图片敏感文本识别单元中可以采用现有的敏感词识别模型，如SVM分类器来对获取的文本信息进行进一步的敏感词识别；而在另一种场景中，也可以采用本申请上述实施方式所提出的文本识别模块20来对获取的图片文本信息进行敏感词识别，本申请再次不作具体限定。

需要说明的是，在本发明各个实施例中的各功能单元/模块可以集成在一个处理单元/模块中，也可以是各个单元/模块单独物理存在，也可以是两个或两个以上单元/模块集成在一个单元/模块中。上述集成的单元/模块既可以采用硬件的形式实现，也可以采用软件功能单元/模块的形式实现。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解应当理解，可以以硬件、软件、固件、中间件、代码或其任何恰当组合来实现这里描述的实施例。对于硬件实现，处理器可以在一个或多个下列单元中实现：专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、设计用于实现这里所描述功能的其他电子单元或其组合。对于软件实现，实施例的部分或全部流程可以通过计算机程序来指令相关的硬件来完成。实现时，可以将上述程序存储在计算机可读介质中或作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。计算机可读介质可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。

最后应当说明的是，以上实施例仅用以说明本发明的技术方案，而非对本发明保护范围的限制，尽管参照较佳实施例对本发明作了详细地说明，本领域的普通技术人员应当分析，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

Claims

1.一种智能敏感字词识别系统，其特征在于，包括：获取模块、文本识别模块和图片识别模块；其中，

2.根据权利要求1所述的一种智能敏感字词识别系统，其特征在于，还包括处理模块；其中，

3.根据权利要求1所述的一种智能敏感字词识别系统，其特征在于，获取模块包括文字获取单元和图片获取单元；其中，

文字获取单元用于获取目标网页中的文本信息；

图片获取单元用于获取目标网页中的图片信息。

4.根据权利要求3所述的一种智能敏感字词识别系统，其特征在于，文本识别模块，具体包括：分词单元、主题分类单元和识别单元；其中，

主题分类单元用于根据获取的词向量集进行主题分类识别，获取该词向量集的主题分类标签；其中主题分类标签包括：体育、教育、游戏、政府和企业的不同主题的标签，每个主题分类标签对应设置有对应的敏感词库；

5.根据权利要求3所述的一种智能敏感字词识别系统，其特征在于，图片识别模块，具体包括：图片文本提取单元、图片文本识别单元和图片敏感文本识别单元；其中，