CN111339768A

CN111339768A - 敏感文本检测方法、系统、电子设备及介质

Info

Publication number: CN111339768A
Application number: CN202010124083.0A
Authority: CN
Inventors: 范博; 王乐; 陈宇; 周海刚
Original assignee: Ctrip Travel Network Technology Shanghai Co Ltd
Current assignee: Ctrip Travel Network Technology Shanghai Co Ltd
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2020-06-26
Anticipated expiration: 2040-02-27
Also published as: CN111339768B

Abstract

本发明公开了一种敏感文本检测方法、系统、电子设备及介质，其中敏感文本检测方法包括：至少一用户终端分别利用正则表达式对各自对应的检测文本进行敏感词匹配，并分别得到对应的预敏感文本；将预敏感文本分别输入至对应的训练后的深度学习模型进行预测，并得到对应的确定敏感文本。本发明利用正则表达式进行敏感词匹配能够快速地筛除未命中敏感词的文本，并通过后置的深度学习模型，与正则表达式的匹配方式相结合，提高检测正确率，并能够保障计算的实时性。

Description

敏感文本检测方法、系统、电子设备及介质

技术领域

本发明涉及数据处理领域，尤其涉及一种敏感文本检测方法、系统、电子设备及介质。

背景技术

随着互联网运用的发展，网络上会产生大量的用户原创内容的文本数据，例如旅游网站上的用户点评、旅游攻略等。针对这些用户原创内容的文本数据，需要结合国家网络安全法律法规进行审核，以防止不当言论与非法信息等敏感文本在网络上传播。

现有的审校方法通常是使用正则表达式匹配敏感词的方法，以对网站上的文本数据进行敏感词过滤。正则表达式匹配是用敏感词库中的敏感词去匹配文本，敏感词库为在标准词库基础上添加自定义敏感词。正则表达式匹配有两种形式，第一种为文本先分词再匹配，例如“买了把玩具手枪”，文本分词之后变成“买了”，“把”，“玩具”，“手枪”四个词，正则匹配会遍历这四个词，“手枪”命中了敏感词所以“买了把玩具手枪”不合规；第二种为直接匹配，在“买了把玩具手枪”中精确匹配到了手枪所以为不合规。

因为正则表达式匹配只关注文本中局部信息(敏感词是否出现)，并没有考虑到整个文本的语义，所以正则表达式在匹配敏感词时容易把合法的文本判为不合法，由此容易造成大量误报，还需要人工再对被判不合法的文本进行复检。随着数据量的增加,命中敏感词的文本量也增长迅速，人工复检效率慢而且精度不高，而且不合规文本占比低，人力大量浪费在对合法文本的重复判断上面。

发明内容

本发明要解决的技术问题是为了克服现有技术中用户原创内容的敏感文本检测方法的检测结果正确率低的缺陷，提供一种敏感文本检测方法、系统、电子设备及介质。

本发明是通过下述技术方案来解决上述技术问题：

一种敏感文本检测方法，所述敏感文本检测方法包括：

至少一用户终端分别利用正则表达式对各自对应的检测文本进行敏感词匹配，并分别得到对应的预敏感文本；

将所述预敏感文本分别输入至对应的训练后的深度学习模型进行预测，并得到对应的确定敏感文本。

优选地，所述敏感文本检测方法还包括分别对所述深度学习模型进行训练的步骤；

训练的步骤包括：

在所述将所述预敏感文本分别输入至对应的训练后的深度学习模型进行预测的步骤之前，

训练原始的所述深度学习模型得到预训练模型；

分别根据用户终端的样本文本对所述预训练模型进行fine-tuning训练，得到对应的所述训练后的深度学习模型。

优选地，所述深度学习模型包括RNN模型和CNN模型，所述将所述预敏感文本分别输入至对应的训练后的深度学习模型进行预测的步骤包括：

将对应的所述预敏感文本分别输入所述RNN模型和所述CNN模型；

将所述RNN模型和所述CNN模型通过模型融合方法对所述预敏感文本处理，得到对应的所述确定敏感文本。

优选地，所述RNN模型和所述CNN模型通过模型融合方法对所述预敏感文本处理的步骤包括：

利用所述RNN模型的特征提取层输出第一语义特征，利用所述CNN模型的特征提取层输出第二语义特征；

将所述第一语义特征和所述第二语义特征通过所述RNN模型和所述CNN模型的拼接层进行拼接；

将拼接后的结果输入至所述RNN模型和所述CNN模型的全连接层，所述全连接层输出所述预敏感文本的预测概率；

根据所述预测概率得到所述确定敏感文本。

一种敏感文本检测系统，所述敏感文本检测系统包括预检测模块和确定模块；

所述预检测模块用于利用正则表达式对检测文本进行敏感词匹配得到预敏感文本；

所述确定模块用于将所述预敏感文本分别输入至对应的训练后的深度学习模型进行预测，并得到对应的确定敏感文本。

优选地，所述敏感文本检测系统还包括训练模块；

所述训练模块用于训练原始的所述深度学习模型得到预训练模型；还用于分别根据用户终端的样本文本对所述预训练模型进行fine-tuning训练，并得到对应的所述训练后的深度学习模型。

优选地，所述深度学习模型包括RNN模型和CNN模型，所述确定模块还用于将对应的所述预敏感文本分别输入所述RNN模型和所述CNN模型，并将所述RNN模型和所述CNN模型通过模型融合方法对所述预敏感文本处理，得到对应的所述确定敏感文本。

优选地，所述确定模块还用于通过所述RNN模型的特征提取层输出第一语义特征，并通过所述CNN模型的特征提取层输出第二语义特征；

根据所述预测概率得到所述确定敏感文本。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的敏感文本检测方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的敏感文本检测方法的步骤。

本发明的积极进步效果在于：

本发明通过先利用正则表达式对检测文本进行敏感词匹配得到预匹配结果，再将预敏感文本输入至训练后的深度学习模型进行预测得到确定敏感文本，本发明利用正则表达式进行敏感词匹配能够快速地筛除未命中敏感词的文本，这样能够有效减少深度学习模型计算负担，不会造成队列积压，影响线上服务，并通过后置的深度学习模型，与正则表达式的匹配方式相结合，提高检测正确率，并能够保障计算的实时性。

附图说明

图1为本发明实施例1的敏感文本检测方法的流程图。

图2为本发明实施例1的敏感文本检测方法的步骤11’的流程图。

图3为本发明实施例1的敏感文本检测方法的步骤12的流程图。

图4为本发明实施例1的敏感文本检测方法的步骤122的流程图。

图5为本发明实施例2的敏感文本检测系统的模块示意图。

图6为本发明的实施例4提供的一种电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提供一种敏感文本检测方法，如图1所示，敏感文本检测方法包括：

步骤11、至少一用户终端分别利用正则表达式对各自对应的检测文本进行敏感词匹配，并分别得到对应的预敏感文本。

在本实施例中，多个用户终端分别设置于不同的部门，每个部门负责不同的业务，对应生成不同的检测文本。

在利用正则表达式进行敏感词匹配之前，通常进行数据清洗的预处理操作，本实施例的数据清洗参照经典NLP(自然语言处理)清洗规则，如去除乱码、中英文标点统一。同时对文本中的外文、人名、联系方式和切客等内容特征进行识别，生成标识符以区别不同的用户终端对应的敏感词规则。根据文本特征去重并保留了常用的几种标点符号，过滤表情等unicode(一种编码规则)的字符和其他一些乱码。

步骤12、将预敏感文本分别输入至对应的训练后的深度学习模型进行预测，并得到对应的确定敏感文本。

通过在正则表达式匹配后，加后置深度学习模型进行进一步的检测，正则表达式与深度学习模型的结合，能够在保障计算实时性，降低误报率。

通过对至少一用户终端的检测文本的并行检测，可使得在多个用户终端存在的时侯，实现并行处理，可提高检测文本的检测效率。具体的，可采用java(一种编程语言)部署，调用TensorFlow(一种开源软件库)模型，以支持高并发，并可达到低时延的效果。

本实施例通过在正则表达式匹配后，加后置深度学习模型进行进一步的检测，正则表达式与深度学习模型的结合，能够在保障计算实时性，降低误报率。还可以实现多用户终端发送的检测文本的并行检测，从而进一步提高大量检测文本的检测效率。

深度学习模型可设置于服务器，各部门可分别将各自的历史文本数据保存至服务器，以作为训练深度学习模型的样本文本数据。

步骤12之前，还包括训练步骤11’；

如图2所示，训练步骤11’包括：

步骤111’、训练原始的深度学习模型得到预训练模型；

步骤112’、分别根据用户终端的样本文本对预训练模型进行fine-tuning训练，得到对应的训练后的深度学习模型。

深度学习模型包括RNN模型和CNN模型，如图3所示，步骤12包括：

步骤121、将对应的预敏感文本分别输入RNN模型和CNN模型；

步骤122、将RNN模型和CNN模型通过模型融合方法对预敏感文本处理，得到对应的确定敏感文本。

如图4所示，步骤122包括：

步骤1221、利用RNN模型的特征提取层输出第一语义特征，利用CNN模型的特征提取层输出第二语义特征；

步骤1222、将第一语义特征和第二语义特征通过RNN模型和CNN模型的拼接层进行拼接；

步骤1223、将拼接后的结果输入至RNN模型和CNN模型的全连接层，全连接层输出预敏感文本的预测概率；

步骤1224、根据预测概率得到确定敏感文本。

本实施例中RNN(循环神经网络)模型选用LSTM(长短期记忆网络)模型，CNN(卷积神经网络)模型选用TextCNN(一种文本分类算法)模型。

LSTM属于RNN，考虑输入序列中上下文信息的连续。LSTM单元负责保留或遗忘上文信息，加入当前输入信息。输出最后一个单元的特征。它的优点在于能够取序列中上下文的整体特征，适合语义分析任务。

TextCNN属于CNN，使用不同大小的卷积核对所有输入的词执行卷积操作。最后使用最大池化层处理得到的特征映射，将提取到的特征进行浓缩或汇总并输出。它的优点在于能够提取序列中类似n-gram(一种语言模型)的局部特征，特征间相互独立，适合分类任务。

因此通过将LSTM和TextCNN的模型融合的方法，可提高检测结果的准确性。

服务器上还可以设置模型库以及模型策略库，模型库中包括多种RNN和多种CNN模型，模型策略库包括多种RNN和多种CNN模型的对应的配置，用户终端可通过需求选择不同配置的RNN模型和CNN模型内的搭配组合。

实施例2

本实施例提供一种敏感文本检测系统，如图5所示，敏感文本检测系统包括预检测模块21和确定模块22；

预检测模块21用于至少一用户终端分别利用正则表达式对各自对应的检测文本进行敏感词匹配，并分别得到对应的预敏感文本；

确定模块22用于将预敏感文本分别输入至对应的训练后的深度学习模型进行预测，并得到对应的确定敏感文本。

如图6所示，敏感文本检测系统还包括训练模块23；

训练原始的深度学习模型得到预训练模型；

分别根据用户终端的样本文本对预训练模型进行fine-tuning训练，得到对应的训练后的深度学习模型。

深度学习模型包括RNN模型和CNN模型，确定模块还用于将对应的预敏感文本分别输入RNN模型和CNN模型，并将RNN模型和CNN模型通过模型融合方法对预敏感文本处理，对应的得到确定敏感文本。

确定模块还用于通过RNN模型的特征提取层输出第一语义特征，并通过CNN模型的特征提取层输出第二语义特征；

将第一语义特征和第二语义特征通过RNN模型和CNN模型的拼接层进行拼接；

将拼接后的结果输入至RNN模型和CNN模型的全连接层，全连接层输出预敏感文本的预测概率；

根据预测概率得到确定敏感文本。

实施例3

图4为本发明实施例3提供的一种电子设备的结构示意图。电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现实施例1的敏感文本检测方法。图4显示的电子设备50仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，电子设备50可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备50的组件可以包括但不限于：上述至少一个处理器51、上述至少一个存储器52、连接不同系统组件(包括存储器52和处理器51)的总线53。

总线53包括数据总线、地址总线和控制总线。

存储器52可以包括易失性存储器，例如随机存取存储器(RAM)521和/或高速缓存存储器522，还可以进一步包括只读存储器(ROM)523。

存储器52还可以包括具有一组(至少一个)程序模块524的程序/实用工具525，这样的程序模块524包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器51通过运行存储在存储器52中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1所提供的敏感文本检测方法。

电子设备50也可以与一个或多个外部设备54(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口55进行。并且，模型生成的设备50还可以通过网络适配器56与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器56通过总线53与模型生成的设备50的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备50使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例4

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，程序被处理器执行时实现实施例1所提供的敏感文本检测方法的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行实现实施例1的敏感文本检测方法中的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种敏感文本检测方法，其特征在于，所述敏感文本检测方法包括：

2.如权利要求1所述的敏感文本检测方法，其特征在于，所述敏感文本检测方法还包括分别对所述深度学习模型进行训练的步骤；

训练的步骤包括：

训练原始的所述深度学习模型得到预训练模型；

3.如权利要求1所述的敏感文本检测方法，其特征在于，所述深度学习模型包括RNN模型和CNN模型，所述将所述预敏感文本分别输入至对应的训练后的深度学习模型进行预测的步骤包括：

4.如权利要求3所述的敏感文本检测方法，其特征在于，所述RNN模型和所述CNN模型通过模型融合方法对所述预敏感文本处理的步骤包括：

根据所述预测概率得到所述确定敏感文本。

5.一种敏感文本检测系统，其特征在于，所述敏感文本检测系统包括预检测模块和确定模块；

6.如权利要求5所述的敏感文本检测系统，其特征在于，所述敏感文本检测系统还包括训练模块；

7.如权利要求5所述的敏感文本检测系统，其特征在于，所述深度学习模型包括RNN模型和CNN模型，所述确定模块还用于将对应的所述预敏感文本分别输入所述RNN模型和所述CNN模型，并将所述RNN模型和所述CNN模型通过模型融合方法对所述预敏感文本处理，得到对应的所述确定敏感文本。

8.如权利要求7所述的敏感文本检测系统，其特征在于，所述确定模块还用于通过所述RNN模型的特征提取层输出第一语义特征，并通过所述CNN模型的特征提取层输出第二语义特征；

根据所述预测概率得到所述确定敏感文本。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-4中任一项所述的敏感文本检测方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-4中任一项所述的敏感文本检测方法的步骤。