CN111339768A - 敏感文本检测方法、系统、电子设备及介质 - Google Patents
敏感文本检测方法、系统、电子设备及介质 Download PDFInfo
- Publication number
- CN111339768A CN111339768A CN202010124083.0A CN202010124083A CN111339768A CN 111339768 A CN111339768 A CN 111339768A CN 202010124083 A CN202010124083 A CN 202010124083A CN 111339768 A CN111339768 A CN 111339768A
- Authority
- CN
- China
- Prior art keywords
- sensitive
- model
- texts
- text
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 81
- 238000013136 deep learning model Methods 0.000 claims abstract description 47
- 230000014509 gene expression Effects 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims description 41
- 230000015654 memory Effects 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000007500 overflow downdraw method Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 abstract description 7
- 238000013527 convolutional neural network Methods 0.000 description 37
- 238000004140 cleaning Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种敏感文本检测方法、系统、电子设备及介质,其中敏感文本检测方法包括:至少一用户终端分别利用正则表达式对各自对应的检测文本进行敏感词匹配,并分别得到对应的预敏感文本;将预敏感文本分别输入至对应的训练后的深度学习模型进行预测,并得到对应的确定敏感文本。本发明利用正则表达式进行敏感词匹配能够快速地筛除未命中敏感词的文本,并通过后置的深度学习模型,与正则表达式的匹配方式相结合,提高检测正确率,并能够保障计算的实时性。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种敏感文本检测方法、系统、电子设备及介质。
背景技术
随着互联网运用的发展,网络上会产生大量的用户原创内容的文本数据,例如旅游网站上的用户点评、旅游攻略等。针对这些用户原创内容的文本数据,需要结合国家网络安全法律法规进行审核,以防止不当言论与非法信息等敏感文本在网络上传播。
现有的审校方法通常是使用正则表达式匹配敏感词的方法,以对网站上的文本数据进行敏感词过滤。正则表达式匹配是用敏感词库中的敏感词去匹配文本,敏感词库为在标准词库基础上添加自定义敏感词。正则表达式匹配有两种形式,第一种为文本先分词再匹配,例如“买了把玩具手枪”,文本分词之后变成“买了”,“把”,“玩具”,“手枪”四个词,正则匹配会遍历这四个词,“手枪”命中了敏感词所以“买了把玩具手枪”不合规;第二种为直接匹配,在“买了把玩具手枪”中精确匹配到了手枪所以为不合规。
因为正则表达式匹配只关注文本中局部信息(敏感词是否出现),并没有考虑到整个文本的语义,所以正则表达式在匹配敏感词时容易把合法的文本判为不合法,由此容易造成大量误报,还需要人工再对被判不合法的文本进行复检。随着数据量的增加,命中敏感词的文本量也增长迅速,人工复检效率慢而且精度不高,而且不合规文本占比低,人力大量浪费在对合法文本的重复判断上面。
发明内容
本发明要解决的技术问题是为了克服现有技术中用户原创内容的敏感文本检测方法的检测结果正确率低的缺陷,提供一种敏感文本检测方法、系统、电子设备及介质。
本发明是通过下述技术方案来解决上述技术问题:
一种敏感文本检测方法,所述敏感文本检测方法包括:
至少一用户终端分别利用正则表达式对各自对应的检测文本进行敏感词匹配,并分别得到对应的预敏感文本;
将所述预敏感文本分别输入至对应的训练后的深度学习模型进行预测,并得到对应的确定敏感文本。
优选地,所述敏感文本检测方法还包括分别对所述深度学习模型进行训练的步骤;
训练的步骤包括:
在所述将所述预敏感文本分别输入至对应的训练后的深度学习模型进行预测的步骤之前,
训练原始的所述深度学习模型得到预训练模型;
分别根据用户终端的样本文本对所述预训练模型进行fine-tuning训练,得到对应的所述训练后的深度学习模型。
优选地,所述深度学习模型包括RNN模型和CNN模型,所述将所述预敏感文本分别输入至对应的训练后的深度学习模型进行预测的步骤包括:
将对应的所述预敏感文本分别输入所述RNN模型和所述CNN模型;
将所述RNN模型和所述CNN模型通过模型融合方法对所述预敏感文本处理,得到对应的所述确定敏感文本。
优选地,所述RNN模型和所述CNN模型通过模型融合方法对所述预敏感文本处理的步骤包括:
利用所述RNN模型的特征提取层输出第一语义特征,利用所述CNN模型的特征提取层输出第二语义特征;
将所述第一语义特征和所述第二语义特征通过所述RNN模型和所述CNN模型的拼接层进行拼接;
将拼接后的结果输入至所述RNN模型和所述CNN模型的全连接层,所述全连接层输出所述预敏感文本的预测概率;
根据所述预测概率得到所述确定敏感文本。
一种敏感文本检测系统,所述敏感文本检测系统包括预检测模块和确定模块;
所述预检测模块用于利用正则表达式对检测文本进行敏感词匹配得到预敏感文本;
所述确定模块用于将所述预敏感文本分别输入至对应的训练后的深度学习模型进行预测,并得到对应的确定敏感文本。
优选地,所述敏感文本检测系统还包括训练模块;
所述训练模块用于训练原始的所述深度学习模型得到预训练模型;还用于分别根据用户终端的样本文本对所述预训练模型进行fine-tuning训练,并得到对应的所述训练后的深度学习模型。
优选地,所述深度学习模型包括RNN模型和CNN模型,所述确定模块还用于将对应的所述预敏感文本分别输入所述RNN模型和所述CNN模型,并将所述RNN模型和所述CNN模型通过模型融合方法对所述预敏感文本处理,得到对应的所述确定敏感文本。
优选地,所述确定模块还用于通过所述RNN模型的特征提取层输出第一语义特征,并通过所述CNN模型的特征提取层输出第二语义特征;
将所述第一语义特征和所述第二语义特征通过所述RNN模型和所述CNN模型的拼接层进行拼接;
将拼接后的结果输入至所述RNN模型和所述CNN模型的全连接层,所述全连接层输出所述预敏感文本的预测概率;
根据所述预测概率得到所述确定敏感文本。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的敏感文本检测方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的敏感文本检测方法的步骤。
本发明的积极进步效果在于:
本发明通过先利用正则表达式对检测文本进行敏感词匹配得到预匹配结果,再将预敏感文本输入至训练后的深度学习模型进行预测得到确定敏感文本,本发明利用正则表达式进行敏感词匹配能够快速地筛除未命中敏感词的文本,这样能够有效减少深度学习模型计算负担,不会造成队列积压,影响线上服务,并通过后置的深度学习模型,与正则表达式的匹配方式相结合,提高检测正确率,并能够保障计算的实时性。
附图说明
图1为本发明实施例1的敏感文本检测方法的流程图。
图2为本发明实施例1的敏感文本检测方法的步骤11’的流程图。
图3为本发明实施例1的敏感文本检测方法的步骤12的流程图。
图4为本发明实施例1的敏感文本检测方法的步骤122的流程图。
图5为本发明实施例2的敏感文本检测系统的模块示意图。
图6为本发明的实施例4提供的一种电子设备的结构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本实施例提供一种敏感文本检测方法,如图1所示,敏感文本检测方法包括:
步骤11、至少一用户终端分别利用正则表达式对各自对应的检测文本进行敏感词匹配,并分别得到对应的预敏感文本。
在本实施例中,多个用户终端分别设置于不同的部门,每个部门负责不同的业务,对应生成不同的检测文本。
在利用正则表达式进行敏感词匹配之前,通常进行数据清洗的预处理操作,本实施例的数据清洗参照经典NLP(自然语言处理)清洗规则,如去除乱码、中英文标点统一。同时对文本中的外文、人名、联系方式和切客等内容特征进行识别,生成标识符以区别不同的用户终端对应的敏感词规则。根据文本特征去重并保留了常用的几种标点符号,过滤表情等unicode(一种编码规则)的字符和其他一些乱码。
步骤12、将预敏感文本分别输入至对应的训练后的深度学习模型进行预测,并得到对应的确定敏感文本。
通过在正则表达式匹配后,加后置深度学习模型进行进一步的检测,正则表达式与深度学习模型的结合,能够在保障计算实时性,降低误报率。
通过对至少一用户终端的检测文本的并行检测,可使得在多个用户终端存在的时侯,实现并行处理,可提高检测文本的检测效率。具体的,可采用java(一种编程语言)部署,调用TensorFlow(一种开源软件库)模型,以支持高并发,并可达到低时延的效果。
本实施例通过在正则表达式匹配后,加后置深度学习模型进行进一步的检测,正则表达式与深度学习模型的结合,能够在保障计算实时性,降低误报率。还可以实现多用户终端发送的检测文本的并行检测,从而进一步提高大量检测文本的检测效率。
深度学习模型可设置于服务器,各部门可分别将各自的历史文本数据保存至服务器,以作为训练深度学习模型的样本文本数据。
步骤12之前,还包括训练步骤11’;
如图2所示,训练步骤11’包括:
步骤111’、训练原始的深度学习模型得到预训练模型;
步骤112’、分别根据用户终端的样本文本对预训练模型进行fine-tuning训练,得到对应的训练后的深度学习模型。
深度学习模型包括RNN模型和CNN模型,如图3所示,步骤12包括:
步骤121、将对应的预敏感文本分别输入RNN模型和CNN模型;
步骤122、将RNN模型和CNN模型通过模型融合方法对预敏感文本处理,得到对应的确定敏感文本。
如图4所示,步骤122包括:
步骤1221、利用RNN模型的特征提取层输出第一语义特征,利用CNN模型的特征提取层输出第二语义特征;
步骤1222、将第一语义特征和第二语义特征通过RNN模型和CNN模型的拼接层进行拼接;
步骤1223、将拼接后的结果输入至RNN模型和CNN模型的全连接层,全连接层输出预敏感文本的预测概率;
步骤1224、根据预测概率得到确定敏感文本。
本实施例中RNN(循环神经网络)模型选用LSTM(长短期记忆网络)模型,CNN(卷积神经网络)模型选用TextCNN(一种文本分类算法)模型。
LSTM属于RNN,考虑输入序列中上下文信息的连续。LSTM单元负责保留或遗忘上文信息,加入当前输入信息。输出最后一个单元的特征。它的优点在于能够取序列中上下文的整体特征,适合语义分析任务。
TextCNN属于CNN,使用不同大小的卷积核对所有输入的词执行卷积操作。最后使用最大池化层处理得到的特征映射,将提取到的特征进行浓缩或汇总并输出。它的优点在于能够提取序列中类似n-gram(一种语言模型)的局部特征,特征间相互独立,适合分类任务。
因此通过将LSTM和TextCNN的模型融合的方法,可提高检测结果的准确性。
服务器上还可以设置模型库以及模型策略库,模型库中包括多种RNN和多种CNN模型,模型策略库包括多种RNN和多种CNN模型的对应的配置,用户终端可通过需求选择不同配置的RNN模型和CNN模型内的搭配组合。
实施例2
本实施例提供一种敏感文本检测系统,如图5所示,敏感文本检测系统包括预检测模块21和确定模块22;
预检测模块21用于至少一用户终端分别利用正则表达式对各自对应的检测文本进行敏感词匹配,并分别得到对应的预敏感文本;
确定模块22用于将预敏感文本分别输入至对应的训练后的深度学习模型进行预测,并得到对应的确定敏感文本。
在本实施例中,多个用户终端分别设置于不同的部门,每个部门负责不同的业务,对应生成不同的检测文本。
在利用正则表达式进行敏感词匹配之前,通常进行数据清洗的预处理操作,本实施例的数据清洗参照经典NLP(自然语言处理)清洗规则,如去除乱码、中英文标点统一。同时对文本中的外文、人名、联系方式和切客等内容特征进行识别,生成标识符以区别不同的用户终端对应的敏感词规则。根据文本特征去重并保留了常用的几种标点符号,过滤表情等unicode(一种编码规则)的字符和其他一些乱码。
通过在正则表达式匹配后,加后置深度学习模型进行进一步的检测,正则表达式与深度学习模型的结合,能够在保障计算实时性,降低误报率。
通过对至少一用户终端的检测文本的并行检测,可使得在多个用户终端存在的时侯,实现并行处理,可提高检测文本的检测效率。具体的,可采用java(一种编程语言)部署,调用TensorFlow(一种开源软件库)模型,以支持高并发,并可达到低时延的效果。
本实施例通过在正则表达式匹配后,加后置深度学习模型进行进一步的检测,正则表达式与深度学习模型的结合,能够在保障计算实时性,降低误报率。还可以实现多用户终端发送的检测文本的并行检测,从而进一步提高大量检测文本的检测效率。
深度学习模型可设置于服务器,各部门可分别将各自的历史文本数据保存至服务器,以作为训练深度学习模型的样本文本数据。
如图6所示,敏感文本检测系统还包括训练模块23;
训练原始的深度学习模型得到预训练模型;
分别根据用户终端的样本文本对预训练模型进行fine-tuning训练,得到对应的训练后的深度学习模型。
深度学习模型包括RNN模型和CNN模型,确定模块还用于将对应的预敏感文本分别输入RNN模型和CNN模型,并将RNN模型和CNN模型通过模型融合方法对预敏感文本处理,对应的得到确定敏感文本。
确定模块还用于通过RNN模型的特征提取层输出第一语义特征,并通过CNN模型的特征提取层输出第二语义特征;
将第一语义特征和第二语义特征通过RNN模型和CNN模型的拼接层进行拼接;
将拼接后的结果输入至RNN模型和CNN模型的全连接层,全连接层输出预敏感文本的预测概率;
根据预测概率得到确定敏感文本。
本实施例中RNN(循环神经网络)模型选用LSTM(长短期记忆网络)模型,CNN(卷积神经网络)模型选用TextCNN(一种文本分类算法)模型。
LSTM属于RNN,考虑输入序列中上下文信息的连续。LSTM单元负责保留或遗忘上文信息,加入当前输入信息。输出最后一个单元的特征。它的优点在于能够取序列中上下文的整体特征,适合语义分析任务。
TextCNN属于CNN,使用不同大小的卷积核对所有输入的词执行卷积操作。最后使用最大池化层处理得到的特征映射,将提取到的特征进行浓缩或汇总并输出。它的优点在于能够提取序列中类似n-gram(一种语言模型)的局部特征,特征间相互独立,适合分类任务。
因此通过将LSTM和TextCNN的模型融合的方法,可提高检测结果的准确性。
服务器上还可以设置模型库以及模型策略库,模型库中包括多种RNN和多种CNN模型,模型策略库包括多种RNN和多种CNN模型的对应的配置,用户终端可通过需求选择不同配置的RNN模型和CNN模型内的搭配组合。
实施例3
图4为本发明实施例3提供的一种电子设备的结构示意图。电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现实施例1的敏感文本检测方法。图4显示的电子设备50仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,电子设备50可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备50的组件可以包括但不限于:上述至少一个处理器51、上述至少一个存储器52、连接不同系统组件(包括存储器52和处理器51)的总线53。
总线53包括数据总线、地址总线和控制总线。
存储器52可以包括易失性存储器,例如随机存取存储器(RAM)521和/或高速缓存存储器522,还可以进一步包括只读存储器(ROM)523。
存储器52还可以包括具有一组(至少一个)程序模块524的程序/实用工具525,这样的程序模块524包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器51通过运行存储在存储器52中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1所提供的敏感文本检测方法。
电子设备50也可以与一个或多个外部设备54(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口55进行。并且,模型生成的设备50还可以通过网络适配器56与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器56通过总线53与模型生成的设备50的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备50使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例4
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现实施例1所提供的敏感文本检测方法的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行实现实施例1的敏感文本检测方法中的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (10)
1.一种敏感文本检测方法,其特征在于,所述敏感文本检测方法包括:
至少一用户终端分别利用正则表达式对各自对应的检测文本进行敏感词匹配,并分别得到对应的预敏感文本;
将所述预敏感文本分别输入至对应的训练后的深度学习模型进行预测,并得到对应的确定敏感文本。
2.如权利要求1所述的敏感文本检测方法,其特征在于,所述敏感文本检测方法还包括分别对所述深度学习模型进行训练的步骤;
训练的步骤包括:
在所述将所述预敏感文本分别输入至对应的训练后的深度学习模型进行预测的步骤之前,
训练原始的所述深度学习模型得到预训练模型;
分别根据用户终端的样本文本对所述预训练模型进行fine-tuning训练,得到对应的所述训练后的深度学习模型。
3.如权利要求1所述的敏感文本检测方法,其特征在于,所述深度学习模型包括RNN模型和CNN模型,所述将所述预敏感文本分别输入至对应的训练后的深度学习模型进行预测的步骤包括:
将对应的所述预敏感文本分别输入所述RNN模型和所述CNN模型;
将所述RNN模型和所述CNN模型通过模型融合方法对所述预敏感文本处理,得到对应的所述确定敏感文本。
4.如权利要求3所述的敏感文本检测方法,其特征在于,所述RNN模型和所述CNN模型通过模型融合方法对所述预敏感文本处理的步骤包括:
利用所述RNN模型的特征提取层输出第一语义特征,利用所述CNN模型的特征提取层输出第二语义特征;
将所述第一语义特征和所述第二语义特征通过所述RNN模型和所述CNN模型的拼接层进行拼接;
将拼接后的结果输入至所述RNN模型和所述CNN模型的全连接层,所述全连接层输出所述预敏感文本的预测概率;
根据所述预测概率得到所述确定敏感文本。
5.一种敏感文本检测系统,其特征在于,所述敏感文本检测系统包括预检测模块和确定模块;
所述预检测模块用于利用正则表达式对检测文本进行敏感词匹配得到预敏感文本;
所述确定模块用于将所述预敏感文本分别输入至对应的训练后的深度学习模型进行预测,并得到对应的确定敏感文本。
6.如权利要求5所述的敏感文本检测系统,其特征在于,所述敏感文本检测系统还包括训练模块;
所述训练模块用于训练原始的所述深度学习模型得到预训练模型;还用于分别根据用户终端的样本文本对所述预训练模型进行fine-tuning训练,并得到对应的所述训练后的深度学习模型。
7.如权利要求5所述的敏感文本检测系统,其特征在于,所述深度学习模型包括RNN模型和CNN模型,所述确定模块还用于将对应的所述预敏感文本分别输入所述RNN模型和所述CNN模型,并将所述RNN模型和所述CNN模型通过模型融合方法对所述预敏感文本处理,得到对应的所述确定敏感文本。
8.如权利要求7所述的敏感文本检测系统,其特征在于,所述确定模块还用于通过所述RNN模型的特征提取层输出第一语义特征,并通过所述CNN模型的特征提取层输出第二语义特征;
将所述第一语义特征和所述第二语义特征通过所述RNN模型和所述CNN模型的拼接层进行拼接;
将拼接后的结果输入至所述RNN模型和所述CNN模型的全连接层,所述全连接层输出所述预敏感文本的预测概率;
根据所述预测概率得到所述确定敏感文本。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-4中任一项所述的敏感文本检测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-4中任一项所述的敏感文本检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010124083.0A CN111339768B (zh) | 2020-02-27 | 2020-02-27 | 敏感文本检测方法、系统、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010124083.0A CN111339768B (zh) | 2020-02-27 | 2020-02-27 | 敏感文本检测方法、系统、电子设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111339768A true CN111339768A (zh) | 2020-06-26 |
CN111339768B CN111339768B (zh) | 2024-03-05 |
Family
ID=71185731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010124083.0A Active CN111339768B (zh) | 2020-02-27 | 2020-02-27 | 敏感文本检测方法、系统、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111339768B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329445A (zh) * | 2020-11-19 | 2021-02-05 | 北京明略软件系统有限公司 | 乱码判断方法、系统、信息抽取方法及信息抽取系统 |
CN112861507A (zh) * | 2021-03-12 | 2021-05-28 | 北京达佳互联信息技术有限公司 | 文本处理方法、装置、服务器及存储介质 |
CN116028750A (zh) * | 2022-12-30 | 2023-04-28 | 北京百度网讯科技有限公司 | 网页文本审核方法及装置、电子设备和介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103092979A (zh) * | 2013-01-31 | 2013-05-08 | 中国科学院对地观测与数字地球科学中心 | 遥感数据检索自然语言的处理方法及装置 |
CN107506349A (zh) * | 2017-08-04 | 2017-12-22 | 卓智网络科技有限公司 | 一种基于网络日志的用户负面情绪预测方法和系统 |
JP2018025956A (ja) * | 2016-08-09 | 2018-02-15 | 日本電信電話株式会社 | モデル作成装置、推定装置、方法、及びプログラム |
CN107783959A (zh) * | 2017-09-02 | 2018-03-09 | 南京中孚信息技术有限公司 | 一种基于贝叶斯预测的处警、接警信息评分方法 |
CN109299268A (zh) * | 2018-10-24 | 2019-02-01 | 河南理工大学 | 一种基于双通道模型的文本情感分析方法 |
CN109471920A (zh) * | 2018-11-19 | 2019-03-15 | 北京锐安科技有限公司 | 一种文本标识的方法、装置、电子设备及存储介质 |
CN109918676A (zh) * | 2019-03-18 | 2019-06-21 | 广东小天才科技有限公司 | 一种检测意图正则表达式的方法及装置、终端设备 |
CN110287320A (zh) * | 2019-06-25 | 2019-09-27 | 北京工业大学 | 一种结合注意力机制的深度学习多分类情感分析模型 |
US20190303796A1 (en) * | 2018-03-27 | 2019-10-03 | Microsoft Technology Licensing, Llc | Automatically Detecting Frivolous Content in Data |
CN110334210A (zh) * | 2019-05-30 | 2019-10-15 | 哈尔滨理工大学 | 一种基于bert与lstm、cnn融合的中文情感分析方法 |
CN110377739A (zh) * | 2019-07-19 | 2019-10-25 | 出门问问(苏州)信息科技有限公司 | 文本情感分类方法、可读存储介质和电子设备 |
CN110580416A (zh) * | 2019-09-11 | 2019-12-17 | 国网浙江省电力有限公司信息通信分公司 | 一种基于人工智能的敏感数据自动识别方法 |
CN110750981A (zh) * | 2019-10-16 | 2020-02-04 | 杭州安恒信息技术股份有限公司 | 一种基于机器学习的高准确度网站敏感词检测方法 |
-
2020
- 2020-02-27 CN CN202010124083.0A patent/CN111339768B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103092979A (zh) * | 2013-01-31 | 2013-05-08 | 中国科学院对地观测与数字地球科学中心 | 遥感数据检索自然语言的处理方法及装置 |
JP2018025956A (ja) * | 2016-08-09 | 2018-02-15 | 日本電信電話株式会社 | モデル作成装置、推定装置、方法、及びプログラム |
CN107506349A (zh) * | 2017-08-04 | 2017-12-22 | 卓智网络科技有限公司 | 一种基于网络日志的用户负面情绪预测方法和系统 |
CN107783959A (zh) * | 2017-09-02 | 2018-03-09 | 南京中孚信息技术有限公司 | 一种基于贝叶斯预测的处警、接警信息评分方法 |
US20190303796A1 (en) * | 2018-03-27 | 2019-10-03 | Microsoft Technology Licensing, Llc | Automatically Detecting Frivolous Content in Data |
CN109299268A (zh) * | 2018-10-24 | 2019-02-01 | 河南理工大学 | 一种基于双通道模型的文本情感分析方法 |
CN109471920A (zh) * | 2018-11-19 | 2019-03-15 | 北京锐安科技有限公司 | 一种文本标识的方法、装置、电子设备及存储介质 |
CN109918676A (zh) * | 2019-03-18 | 2019-06-21 | 广东小天才科技有限公司 | 一种检测意图正则表达式的方法及装置、终端设备 |
CN110334210A (zh) * | 2019-05-30 | 2019-10-15 | 哈尔滨理工大学 | 一种基于bert与lstm、cnn融合的中文情感分析方法 |
CN110287320A (zh) * | 2019-06-25 | 2019-09-27 | 北京工业大学 | 一种结合注意力机制的深度学习多分类情感分析模型 |
CN110377739A (zh) * | 2019-07-19 | 2019-10-25 | 出门问问(苏州)信息科技有限公司 | 文本情感分类方法、可读存储介质和电子设备 |
CN110580416A (zh) * | 2019-09-11 | 2019-12-17 | 国网浙江省电力有限公司信息通信分公司 | 一种基于人工智能的敏感数据自动识别方法 |
CN110750981A (zh) * | 2019-10-16 | 2020-02-04 | 杭州安恒信息技术股份有限公司 | 一种基于机器学习的高准确度网站敏感词检测方法 |
Non-Patent Citations (3)
Title |
---|
ASIRI RATHNAYAKE: "Regular Expression Matching and Operational Semantics", 《 LOGIC IN COMPUTER SCIENCE》 * |
刘智鹏;何中市;何伟东;张航;: "基于深度学习的商品评价情感分析与研究", 计算机与数字工程, no. 05 * |
郝志峰;黄浩;蔡瑞初;温雯;: "基于多特征融合与双向RNN的细粒度意见分析", 计算机工程, no. 07 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329445A (zh) * | 2020-11-19 | 2021-02-05 | 北京明略软件系统有限公司 | 乱码判断方法、系统、信息抽取方法及信息抽取系统 |
CN112861507A (zh) * | 2021-03-12 | 2021-05-28 | 北京达佳互联信息技术有限公司 | 文本处理方法、装置、服务器及存储介质 |
CN112861507B (zh) * | 2021-03-12 | 2023-11-14 | 北京达佳互联信息技术有限公司 | 文本处理方法、装置、服务器及存储介质 |
CN116028750A (zh) * | 2022-12-30 | 2023-04-28 | 北京百度网讯科技有限公司 | 网页文本审核方法及装置、电子设备和介质 |
CN116028750B (zh) * | 2022-12-30 | 2024-05-07 | 北京百度网讯科技有限公司 | 网页文本审核方法及装置、电子设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111339768B (zh) | 2024-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108897867B (zh) | 用于知识问答的数据处理方法、装置、服务器和介质 | |
US11093707B2 (en) | Adversarial training data augmentation data for text classifiers | |
CN106940788B (zh) | 智能评分方法及装置、计算机设备及计算机可读介质 | |
CN111339768B (zh) | 敏感文本检测方法、系统、电子设备及介质 | |
CN109614625B (zh) | 标题正文相关度的确定方法、装置、设备及存储介质 | |
CN110276023B (zh) | Poi变迁事件发现方法、装置、计算设备和介质 | |
US20150170051A1 (en) | Applying a Genetic Algorithm to Compositional Semantics Sentiment Analysis to Improve Performance and Accelerate Domain Adaptation | |
US11372942B2 (en) | Method, apparatus, computer device and storage medium for verifying community question answer data | |
US11308286B2 (en) | Method and device for retelling text, server, and storage medium | |
US20200227030A1 (en) | Adversarial Training Data Augmentation for Generating Related Responses | |
KR20160026892A (ko) | 논팩토이드형 질의 응답 시스템 및 방법 | |
US20220358292A1 (en) | Method and apparatus for recognizing entity, electronic device and storage medium | |
US20220067285A1 (en) | Learned evaluation model for grading quality of natural language generation outputs | |
CN114548110A (zh) | 语义理解方法、装置、电子设备及存储介质 | |
CN112364167A (zh) | 基于深度学习的意图识别方法、系统、设备及存储介质 | |
WO2021174829A1 (zh) | 众包任务的抽检方法、装置、计算机设备及存储介质 | |
US20180165277A1 (en) | Dynamic Translation of Idioms | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
US20200159824A1 (en) | Dynamic Contextual Response Formulation | |
CN115481031A (zh) | 南向网关检测方法、装置、设备及介质 | |
CN113761875B (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
CN112307183B (zh) | 搜索数据识别方法、装置、电子设备以及计算机存储介质 | |
CN114925757A (zh) | 多源威胁情报融合方法、装置、设备和存储介质 | |
CN114239602A (zh) | 会话方法、装置和计算机程序产品 | |
CN110276001B (zh) | 盘点页识别方法、装置、计算设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |