CN115048929A - 敏感文本监测方法及装置 - Google Patents
敏感文本监测方法及装置 Download PDFInfo
- Publication number
- CN115048929A CN115048929A CN202210749936.9A CN202210749936A CN115048929A CN 115048929 A CN115048929 A CN 115048929A CN 202210749936 A CN202210749936 A CN 202210749936A CN 115048929 A CN115048929 A CN 115048929A
- Authority
- CN
- China
- Prior art keywords
- text
- forbidden
- monitored
- words
- bert
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 47
- 238000004590 computer program Methods 0.000 claims description 29
- 238000012360 testing method Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000012806 monitoring device Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 239000013598 vector Substances 0.000 description 19
- 238000010586 diagram Methods 0.000 description 17
- 230000007246 mechanism Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种敏感文本监测方法及装置,涉及人工智能技术领域,其中该方法包括:根据预先构建的禁用词字典,对待监测文本进行禁用词匹配;在匹配到待监测文本中包含禁用词时,确定待监测文本为敏感文本;在未匹配到待监测文本中包含禁用词时,将待监测文本输入Bert识别模型,输出根据待监测文本的语义信息确定的待监测文本的文本类别;所述Bert识别模型根据历史文本及历史文本的文本类别训练得到;根据待监测文本的文本类别,确定待监测文本是否为敏感文本。本发明可以识别包含禁用词的、不包含禁用词但语义是敏感的敏感文本,可以准确识别敏感文本,降低敏感文本监测过程中的漏检率,提升敏感文本的监测成功率。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种敏感文本监测方法及装置。需要说明的是,本发明敏感文本监测方法及装置可用于人工智能技术领域,也可用于除人工智能技术领域之外的任意领域,本发明敏感文本监测方法及装置的应用领域不做限定。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随着互联网技术的快速发展,人们获取信息的渠道和种类变多的同时,容易被某些组织、个人发布的敏感、错误、不健康的言论误导或影响,因此有必要对平台上发布的内容进行实时监测,对敏感内容进行相应的筛查和屏蔽,创建干净、和谐的网络平台环境。目前,现有技术中出现了采用神经网络模型进行敏感文本监测的方案,但是这些方案容易漏检,监测成功率低,实际应用中效果欠佳。
发明内容
本发明实施例提供一种敏感文本监测方法,用以准确识别敏感文本,降低敏感文本的漏检率,提升敏感文本监测成功率,该方法包括:
根据预先构建的禁用词字典,对待监测文本进行禁用词匹配;
在匹配到待监测文本中包含禁用词时,确定待监测文本为敏感文本;
在未匹配到待监测文本中包含禁用词时,将待监测文本输入Bert识别模型,输出根据待监测文本的语义信息确定的待监测文本的文本类别;所述Bert识别模型根据历史文本及历史文本的文本类别训练得到;
根据待监测文本的文本类别,确定待监测文本是否为敏感文本。
本发明实施例还提供一种敏感文本监测装置,用以准确识别敏感文本,降低敏感文本的漏检率,提升敏感文本监测成功率,该装置包括:
禁用词匹配模块,用于根据预先构建的禁用词字典,对待监测文本进行禁用词匹配;
第一敏感文本确定模块,用于在禁用词匹配模块匹配到待监测文本中包含禁用词时,确定待监测文本为敏感文本;
Bert识别模型处理模块,用于在禁用词匹配模块未匹配到待监测文本中包含禁用词时,将待监测文本输入Bert识别模型,输出根据待监测文本的语义信息确定的待监测文本的文本类别;所述Bert识别模型根据历史文本及历史文本的文本类别训练得到;
第二敏感文本确定模块,用于根据待监测文本的文本类别,确定待监测文本是否为敏感文本。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述敏感文本监测方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述敏感文本监测方法。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述敏感文本监测方法。
本发明实施例中,根据预先构建的禁用词字典,对待监测文本进行禁用词匹配;在匹配到待监测文本中包含禁用词时,确定待监测文本为敏感文本;在未匹配到待监测文本中包含禁用词时,将待监测文本输入Bert识别模型,输出根据待监测文本的语义信息确定的待监测文本的文本类别;所述Bert识别模型根据历史文本及历史文本的文本类别训练得到;根据待监测文本的文本类别,确定待监测文本是否为敏感文本。本发明实施例利用禁用词字典和Bert识别模型双重监测机制,可以识别包含禁用词的、不包含禁用词但语义是敏感的敏感文本,可以准确识别敏感文本,降低敏感文本监测过程中的漏检率,提升敏感文本的监测成功率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中敏感文本监测方法的流程示意图;
图2为本发明实施例中敏感文本监测方法的一具体实例图;
图3为本发明实施例中敏感文本监测装置的示意图;
图4为本发明实施例中敏感文本监测装置的一具体实例图;
图5为本发明实施例中敏感文本监测装置的一具体实例图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
首先,对本发明实施例涉及的技术名词进行介绍:
自然语言处理(Natural Language Processing,NLP):主要研究用计算机理解和生成自然语言的各种理论与方法,以降低用户工作量并满足使用自然语言进行人机交互的愿望为目的,属于人工智能的核心分支。
Word2vec(Word to Vector)模型:Word2vec是一种词向量嵌入技术,将词向量化,假定句子中每个词与其相邻的词关系最密切,通过大量语料的训练来定量地度量词和词之间的关系。
自注意力模型:当表示序列中某一时刻的状态时,可以通过该状态与其他时刻状态间的相关性计算,越相关,则注意力值就越大,其他某一时刻的状态对该时刻状态的贡献越大。
Transformer模型:Transformer是“序列到序列”、基于自注意力机制的深度学习模型,可用于自然语言处理领域的序列翻译等任务。由编码器和解码器两部分组成,解码器和编码器实现基本相同,不过要将编码器的最后一层输出作为输入,还要将已经部分解码的输出结果作为输入。不同于LSTM(Long-Short Term Memory,长短期记忆循环神经网络)等序列模型,其考虑文本的位置信息,用三个不同的参数矩阵将输入向量映射为查询向量Q、键向量K、值向量V,使得输入向量更好地担任三种角色;其次,采用多头自注意力机制将模型注意力放到句子中不同位置;再者,在每层自注意力计算后,增加一个非线性感知器模型,并采用残差连接、层归一化增强模型的学习效果。
Bert(Bidirectional encoder representations from transformer,Transformer的双向编码器表示)模型:基于Transformer模型的改进,可以将Bert模型看作Transformer的编码器部分,Bert模型是基于深层Transformer的预训练语言模型。
发明人发现,随着互联网技术的快速发展,人们获取信息的渠道和种类变多的同时,容易被某些组织、个人发布的敏感、错误、不健康的言论误导或影响,因此有必要对平台上发布的内容进行实时监测,对敏感内容进行相应的筛查和屏蔽,创建干净、和谐的网络平台环境。而现有技术中出现了采用神经网络模型进行敏感文本监测的方案,但是这些方案容易漏检,监测成功率低,实际应用中效果欠佳。为此,发明人提出一种敏感文本监测方法。
图1为本发明实施例中敏感文本监测方法的流程示意图,如图1所示,该方法包括:
步骤101、根据预先构建的禁用词字典,对待监测文本进行禁用词匹配;
步骤102、在匹配到待监测文本中包含禁用词时,确定待监测文本为敏感文本;
步骤103、在未匹配到待监测文本中包含禁用词时,将待监测文本输入Bert识别模型,输出根据待监测文本的语义信息确定的待监测文本的文本类别;所述Bert识别模型根据历史文本及历史文本的文本类别训练得到;
步骤104、根据待监测文本的文本类别,确定待监测文本是否为敏感文本。
由图1所示流程可以得知,本发明实施例中,根据预先构建的禁用词字典,对待监测文本进行禁用词匹配;在匹配到待监测文本中包含禁用词时,确定待监测文本为敏感文本;在未匹配到待监测文本中包含禁用词时,将待监测文本输入Bert识别模型,输出根据待监测文本的语义信息确定的待监测文本的文本类别;所述Bert识别模型根据历史文本及历史文本的文本类别训练得到;根据待监测文本的文本类别,确定待监测文本是否为敏感文本。本发明实施例利用禁用词字典和Bert识别模型双重监测机制,可以识别包含禁用词的、不包含禁用词但语义是敏感的敏感文本,可以准确识别敏感文本,降低敏感文本监测过程中的漏检率,提升敏感文本的监测成功率。
需要说明的是,本发明实施例中,所有对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
实施例中,根据预先构建的禁用词字典,对待监测文本进行禁用词匹配之前,可以先进行前期的准备工作,如构建禁用词字典,训练Bert识别模型。其中,禁用词字典用来监测包含禁用词的文本,Bert识别模型用来监测不包含禁用词但语义是敏感的文本,该类文本一般不直接包含禁用词但整体语义涉及敏感信息,敏感信息隐藏度较高,因此后续在利用禁用词字典对待监测文本判断处理过确认文本中不包含禁用词后,再由Bert识别模型做进一步的判断,这样的双重监测机制可以有效的保证敏感文本被准确识别出来。
实施例中,根据预先构建的禁用词字典,对待监测文本进行禁用词匹配之前,在获得待监测文本后,可以先对该待监测文本进行预处理,这样可以进一步提高监测敏感文件的成功率,避免漏检。预处理可以包括:去除噪声数据,和/或,对待监测文本进行分词并去除指定字符。
预处理过程中,由于敏感文本常穿插表情、符号、数字等干扰项,所以要将这类噪声数据去除;对待监测文本进行分词处理时,可以借助HanLP分词器工具进行分词,并去除不合格字符、控制字符、多余空格等指定字符。HanLP分词器可自定义字典,使用HanLP分词器自定义的字典中除了添加标准词外,可以额外添加禁用词。本领域技术人员应当知晓,本发明实施例中敏感文本的预处理流程方法不仅限于以上内容,在此仅做示例。
对待监测文本预处理之后,在步骤101中,根据预先构建的禁用词字典,对待监测文本进行禁用词匹配。在此之前,需要提前构建禁用词字典。
在一个实施例中,本发明实施例中敏感文本监测方法还可以包括:收集禁用词;根据禁用词及禁用词的相关词,构建禁用词字典。
具体的,可以采用爬虫或者根据平台业务的数据收集禁用词,另外由于一些禁用词存在规避现象,例如采用同义词、拼音、拆字、同音字、形近字等代替,因此有必要将禁用词的相关词考虑进去。
在一个实施例中,禁用词的相关词包括:
禁用词的同义词、形近词、同音词、拆分词其中之一或任意组合。
例如,获取禁用词的常用同义词、形近词、同音词、拆分词、拼音等等,由于此类禁用词隐匿程度较高,还可以通过综合汉字结构、文字图像角度、汉字之间的相似性等方法获取禁用词的相关词,禁用词形式变化多样,可以根据实际情况进行处理,本发明实施例在此仅做示例,不再依次列举。
禁用词一旦出现就需要屏蔽,收集足够的禁用词及禁用词的相关词之后,就可以构建禁用词字典了。
在一个实施例中,根据禁用词及禁用词的相关词,构建禁用词字典,包括:
根据禁用词及禁用词的相关词,以DFA(Deterministic Finite Automation,确定有限自动机)方式,构建禁用词字典;
根据预先构建的禁用词字典,对待监测文本进行禁用词匹配,包括:
遍历以DFA方式构建的禁用词字典,对待监测文本进行禁用词匹配。
在一个实施例中,根据禁用词及禁用词的相关词,构建禁用词字典,包括:
根据禁用词及禁用词的相关词,以字典树(Trie)方式,构建禁用词字典;
根据预先构建的禁用词字典,对待监测文本进行禁用词匹配,包括:
遍历以字典树方式构建的禁用词字典,对待监测文本进行禁用词匹配。
具体的,以DFA方式或者字典树方式构建禁用词字典,然后采用遍历的思想,判断待监测文本中是否包含禁用词字典可识别的文本、汉字。本领域技术人员应当知晓,禁用词字典的构建方式不仅限于以上内容,本发明实施例在此仅做示例。多种方式构建禁用词字典可以有效的保证包含禁用词的敏感文本被准确识别出来。本发明还提供一个实施例,在该实施例中,根据预先构建的禁用词字典,对待监测文本进行禁用词匹配,包括:
根据预先构建的禁用词字典,采用Word2vec识别模型对待监测文本进行禁用词匹配;所述Word2vec识别模型根据历史文本及历史文本中的禁用词训练得到。
实施例中,可以搭建初始Word2vec识别模型,收集历史文本及历史文本中的禁用词并构建禁用词序列,进行独热(One-hot)编码后送入初始Word2vec识别模型,采用Soft-max分类函数进行分类训练和测试,Word2vec识别模型训练完成后,取中间隐藏层的嵌入特征来表示禁用词的特征向量并保存。当待监测文本经过预处理后,One-hot编码送入训练好的Word2vec识别模型,获取其隐藏层的嵌入特征,与提前保存的禁用词的特征向量进行余弦相似度计算,大于某个特定的阈值则表明该待监测文本含有禁用词,否则不含有禁用词,其中阈值可以根据实际情况设定。
步骤102中,在匹配到待监测文本中包含禁用词时,确定待监测文本为敏感文本,可以将该待监测文本执行屏蔽处理。
如果待监测文本不包含禁用词,执行步骤103,在未匹配到待监测文本中包含禁用词时,将待监测文本输入Bert识别模型,输出根据待监测文本的语义信息确定的待监测文本的文本类别;所述Bert识别模型根据历史文本及历史文本的文本类别训练得到。在此之前,需要提前训练Bert识别模型。
在一个实施例中,所述Bert识别模型按如下方式得到:
将历史文本及历史文本的文本类别作为样本数据,获得训练集和测试集;
利用训练集对所述Bert识别模型进行训练;
利用测试集对所述Bert识别模型进行测试;
其中,在将历史文本及历史文本的文本类别作为样本数据,获得训练集和测试集时,对样本数据以数据增强的方式进行文本类别平衡处理。
如前所述,Bert识别模型用来监测不包含禁用词,但语义是敏感的文本,该类文本一般敏感语义隐藏度较高,整体语义涉及一些敏感信息,Bert识别模型可以深度挖掘该类文本丰富的语义信息,可以识别该类文本的文本类别。
实施例中,可以采用爬虫或者根据平台业务数据收集包含禁用词的历史文本,将包含禁用词的历史文本按照信息的类别进行分类,作为训练集和测试集的样本数据;分别将各类别样本数据进行初步的预处理,One-hot编码并生成词向量矩阵,进一步转换成实值向量矩阵,一般来说,转换后词向量的维度会减少,且表示向量具有语义信息,方便输入Bert识别模型中;利用训练集、测试集对模型进行粗训练、精细训练之后得到一个训练好的Bert识别模型。
实施例中,考虑到Bert识别模型的自注意力机制,文本中的每个字都含有其他所有字的信息,对于每一个样本数据,在首位添加[CLS](Class,分类)标记,用于后续的分类处理,在结尾添加[SEP](Separation,分隔)标记,用于标记样本数据的结束,因此,利用样本数据首位的字符[CLS]和结尾的字符[SEP]汇总了该样本数据中所有字的信息;将预处理后的样本数据输入Bert识别模型后,词向量Vi(Vocable,词)与位置向量Li(Location,位置)的特征叠加后,送入Bert识别模型-编码器模块;Bert识别模型-编码器模块输出具有语义性的隐向量hi(Hide,隐藏)、hCLS和hSEP;将隐向量hi、hCLS和hSEP送入全连接层,经过多分类交叉熵损失监督训练后,利用归一化指数函数Softmax分类输出样本数据的文本类别;本实施例中i=1,2,3,…,N,其中N为样本数据长度。图2为本发明实施例中敏感文本监测方法的一具体实例图,图2示出了Bert识别模型的示意图。
在步骤104中,根据待监测文本的文本类别,确定待监测文本是否为敏感文本。本步骤中,根据预先训练好的Bert识别模型输出待监测文本的文本类别,进而确定待监测文本是否为敏感文本。
在一个实施例中,定期对禁用词字典进行更新;
和/或,将待监测文本、及Bert识别模型输出的根据待监测文本的语义信息确定的待监测文本的文本类别,作为历史数据,对Bert识别模型继续进行训练。
由于业务的不断发展,业务数据不断丰富,新的禁用词也会源源不断的产生,禁用词字典需要定期更新以提升敏感文本的监测范围和准确率;Bert识别模型也可以采用不断训练更新的方式,在原有的训练权重基础上,将待监测文本、及Bert识别模型输出的根据待监测文本的语义信息确定的待监测文本的文本类别,又作为历史数据,对Bert识别模型继续进行训练,实现Bert识别模型的快速更新与完善。
本发明实施例中的技术方案可用于社交媒体平台,也可用于各金融类APP中相关文本审核,包括直播间弹幕、评论、智能客服等,可高效、及时、准确地阻止敏感文本及相关敏感信息的传播,净化平台网络环境。
本发明实施例中还提供了一种敏感文本监测装置,如下面的实施例所述。由于该装置解决问题的原理与敏感文本监测方法相似,因此该装置的实施可以参见敏感文本监测方法的实施,重复之处不再赘述。
图3为本发明实施例中敏感文本监测装置的示意图,如图3所示,该装置包括:
禁用词匹配模块301,用于根据预先构建的禁用词字典,对待监测文本进行禁用词匹配;
第一敏感文本确定模块302,用于在禁用词匹配模块301匹配到待监测文本中包含禁用词时,确定待监测文本为敏感文本;
Bert识别模型处理模块303,用于在禁用词匹配模块301未匹配到待监测文本中包含禁用词时,将待监测文本输入Bert识别模型,输出根据待监测文本的语义信息确定的待监测文本的文本类别;所述Bert识别模型根据历史文本及历史文本的文本类别训练得到;
第二敏感文本确定模块304,用于根据待监测文本的文本类别,确定待监测文本是否为敏感文本。
在一个是实施例中,本发明实施例中敏感文本监测装置还包括:
预处理模块,用于在禁用词匹配模块301对待监测文本进行禁用词匹配之前,对待监测文本进行预处理,所述预处理包括:
去除噪声数据,和/或,对待监测文本进行分词并去除指定字符。
图4为本发明实施例中敏感文本监测装置的一具体实例图,如图4所示,在一个实施例中,本发明实施例中图3所示的装置还包括:
禁用词收集模块401,用于收集禁用词;
禁用词字典构建模块402,用于根据禁用词及禁用词的相关词,构建禁用词字典。
在一个实施例中,本发明实施例中敏感文本监测装置的禁用词的相关词包括:
禁用词的同义词、形近词、同音词、拆分词其中之一或任意组合。
在一个实施例中,禁用词字典构建模块402,具体用于:
根据禁用词及禁用词的相关词,以DFA方式,构建禁用词字典;
禁用词匹配模块301,具体用于:
遍历以DFA方式构建的禁用词字典,对待监测文本进行禁用词匹配。
在一个实施例中,禁用词字典构建模块402,具体用于:
根据禁用词及禁用词的相关词,以字典树方式,构建禁用词字典;
禁用词匹配模块301,具体用于:
遍历以字典树方式构建的禁用词字典,对待监测文本进行禁用词匹配。
在一个实施例中,禁用词匹配模块301,具体用于:
根据预先构建的禁用词字典,采用Word2vec识别模型对待监测文本进行禁用词匹配;所述Word2vec识别模型根据历史文本及历史文本中的禁用词训练得到。
在一个实施例中,本发明实施例中敏感文本监测装置所述Bert识别模型按如下方式得到:
将历史文本及历史文本的文本类别作为样本数据,获得训练集和测试集;
利用训练集对所述Bert识别模型进行训练;
利用测试集对所述Bert识别模型进行测试;
其中,在将历史文本及历史文本的文本类别作为样本数据,获得训练集和测试集时,对样本数据以数据增强的方式进行文本类别平衡处理。
图5为本发明实施例中敏感文本监测装置的一具体实例图,如图5所示,本发明实施例中图3所述装置还可以包括:
禁用词字典更新模块501,用于定期对禁用词字典进行更新;
和/或,Bert识别模型更新模块502,用于将待监测文本、及Bert识别模型输出的根据待监测文本的语义信息确定的待监测文本的文本类别,作为历史数据,对Bert识别模型继续进行训练。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述敏感文本监测方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述敏感文本监测方法。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述敏感文本监测方法。
本发明实施例中,根据预先构建的禁用词字典,对待监测文本进行禁用词匹配;在匹配到待监测文本中包含禁用词时,确定待监测文本为敏感文本;在未匹配到待监测文本中包含禁用词时,将待监测文本输入Bert识别模型,输出根据待监测文本的语义信息确定的待监测文本的文本类别;所述Bert识别模型根据历史文本及历史文本的文本类别训练得到;根据待监测文本的文本类别,确定待监测文本是否为敏感文本。本发明实施例利用禁用词字典和Bert识别模型双重监测机制,可以识别包含禁用词的、不包含禁用词但语义是敏感的敏感文本,可以准确识别敏感文本,降低敏感文本监测过程中的漏检率,提升敏感文本的监测成功率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (21)
1.一种敏感文本监测方法,其特征在于,包括:
根据预先构建的禁用词字典,对待监测文本进行禁用词匹配;
在匹配到待监测文本中包含禁用词时,确定待监测文本为敏感文本;
在未匹配到待监测文本中包含禁用词时,将待监测文本输入Bert识别模型,输出根据待监测文本的语义信息确定的待监测文本的文本类别;所述Bert识别模型根据历史文本及历史文本的文本类别训练得到;
根据待监测文本的文本类别,确定待监测文本是否为敏感文本。
2.如权利要求1所述的方法,其特征在于,还包括:
在对待监测文本进行禁用词匹配之前,对待监测文本进行预处理,所述预处理包括:
去除噪声数据,和/或,对待监测文本进行分词并去除指定字符。
3.如权利要求1所述的方法,其特征在于,还包括:
收集禁用词;
根据禁用词及禁用词的相关词,构建禁用词字典。
4.如权利要求3所述的方法,其特征在于,禁用词的相关词包括:
禁用词的同义词、形近词、同音词、拆分词其中之一或任意组合。
5.如权利要求3所述的方法,其特征在于,根据禁用词及禁用词的相关词,构建禁用词字典,包括:
根据禁用词及禁用词的相关词,以确定有限自动机DFA方式,构建禁用词字典;
根据预先构建的禁用词字典,对待监测文本进行禁用词匹配,包括:
遍历以DFA方式构建的禁用词字典,对待监测文本进行禁用词匹配。
6.如权利要求3所述的方法,其特征在于,根据禁用词及禁用词的相关词,构建禁用词字典,包括:
根据禁用词及禁用词的相关词,以字典树方式,构建禁用词字典;
根据预先构建的禁用词字典,对待监测文本进行禁用词匹配,包括:
遍历以字典树方式构建的禁用词字典,对待监测文本进行禁用词匹配。
7.如权利要求1所述的方法,其特征在于,根据预先构建的禁用词字典,对待监测文本进行禁用词匹配,包括:
根据预先构建的禁用词字典,采用Word2vec识别模型对待监测文本进行禁用词匹配;所述Word2vec识别模型根据历史文本及历史文本中的禁用词训练得到。
8.如权利要求1所述的方法,其特征在于,所述Bert识别模型按如下方式得到:
将历史文本及历史文本的文本类别作为样本数据,获得训练集和测试集;
利用训练集对所述Bert识别模型进行训练;
利用测试集对所述Bert识别模型进行测试;
其中,在将历史文本及历史文本的文本类别作为样本数据,获得训练集和测试集时,对样本数据以数据增强的方式进行文本类别平衡处理。
9.如权利要求1至8任一项所述的方法,其特征在于,还包括:
定期对禁用词字典进行更新;
和/或,将待监测文本、及Bert识别模型输出的根据待监测文本的语义信息确定的待监测文本的文本类别,作为历史数据,对Bert识别模型继续进行训练。
10.一种敏感文本监测装置,其特征在于,包括:
禁用词匹配模块,用于根据预先构建的禁用词字典,对待监测文本进行禁用词匹配;
第一敏感文本确定模块,用于在禁用词匹配模块匹配到待监测文本中包含禁用词时,确定待监测文本为敏感文本;
Bert识别模型处理模块,用于在禁用词匹配模块未匹配到待监测文本中包含禁用词时,将待监测文本输入Bert识别模型,输出根据待监测文本的语义信息确定的待监测文本的文本类别;所述Bert识别模型根据历史文本及历史文本的文本类别训练得到;
第二敏感文本确定模块,用于根据待监测文本的文本类别,确定待监测文本是否为敏感文本。
11.如权利要求10所述的装置,其特征在于,还包括:
预处理模块,用于在禁用词匹配模块对待监测文本进行禁用词匹配之前,对待监测文本进行预处理,所述预处理包括:
去除噪声数据,和/或,对待监测文本进行分词并去除指定字符。
12.如权利要求10所述的装置,其特征在于,还包括:
禁用词收集模块,用于收集禁用词;
禁用词字典构建模块,用于根据禁用词及禁用词的相关词,构建禁用词字典。
13.如权利要求12所述的装置,其特征在于,禁用词的相关词包括:
禁用词的同义词、形近词、同音词、拆分词其中之一或任意组合。
14.如权利要求12所述的装置,其特征在于,禁用词字典构建模块,具体用于:
根据禁用词及禁用词的相关词,以DFA方式,构建禁用词字典;
禁用词匹配模块,具体用于:
遍历以DFA方式构建的禁用词字典,对待监测文本进行禁用词匹配。
15.如权利要求12所述的装置,其特征在于,禁用词字典构建模块,具体用于:
根据禁用词及禁用词的相关词,以字典树方式,构建禁用词字典;
禁用词匹配模块,具体用于:
遍历以字典树方式构建的禁用词字典,对待监测文本进行禁用词匹配。
16.如权利要求10所述的装置,其特征在于,禁用词匹配模块,具体用于:
根据预先构建的禁用词字典,采用Word2vec识别模型对待监测文本进行禁用词匹配;所述Word2vec识别模型根据历史文本及历史文本中的禁用词训练得到。
17.如权利要求10所述的装置,其特征在于,所述Bert识别模型按如下方式得到:
将历史文本及历史文本的文本类别作为样本数据,获得训练集和测试集;
利用训练集对所述Bert识别模型进行训练;
利用测试集对所述Bert识别模型进行测试;
其中,在将历史文本及历史文本的文本类别作为样本数据,获得训练集和测试集时,对样本数据以数据增强的方式进行文本类别平衡处理。
18.如权利要求10至17任一项所述的装置,其特征在于,还包括:
禁用词字典更新模块,用于定期对禁用词字典进行更新;
和/或,Bert识别模型更新模块,用于将待监测文本、及Bert识别模型输出的根据待监测文本的语义信息确定的待监测文本的文本类别,作为历史数据,对Bert识别模型继续进行训练。
19.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9任一所述方法。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至9任一所述方法。
21.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现权利要求1至9任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210749936.9A CN115048929A (zh) | 2022-06-29 | 2022-06-29 | 敏感文本监测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210749936.9A CN115048929A (zh) | 2022-06-29 | 2022-06-29 | 敏感文本监测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115048929A true CN115048929A (zh) | 2022-09-13 |
Family
ID=83165647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210749936.9A Pending CN115048929A (zh) | 2022-06-29 | 2022-06-29 | 敏感文本监测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115048929A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116680419A (zh) * | 2023-08-01 | 2023-09-01 | 国家计算机网络与信息安全管理中心 | 一种多源数据映射关联细粒度不良信息检测方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190243904A1 (en) * | 2018-02-08 | 2019-08-08 | Ntt Docomo Inc. | Incremental generation of word embedding model |
CN111078879A (zh) * | 2019-12-09 | 2020-04-28 | 北京邮电大学 | 基于深度学习的卫星互联网文本敏感信息检测方法及装置 |
CN111966944A (zh) * | 2020-08-17 | 2020-11-20 | 中电科大数据研究院有限公司 | 一种多层级用户评论安全审核的模型构建方法 |
CN112036167A (zh) * | 2020-08-25 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、服务器及存储介质 |
CN112131352A (zh) * | 2020-10-10 | 2020-12-25 | 南京工业大学 | 一种网页文本类不良信息的检测方法与检测系统 |
CN112966068A (zh) * | 2020-11-09 | 2021-06-15 | 袭明科技(广东)有限公司 | 基于网页信息的简历识别方法和装置 |
CN113723083A (zh) * | 2021-07-15 | 2021-11-30 | 东华理工大学 | 基于bert模型的带权消极监督文本情感分析方法 |
WO2022111291A1 (zh) * | 2020-11-27 | 2022-06-02 | 北京沃东天骏信息技术有限公司 | 推荐信息的评估方法、装置、设备及计算机可读存储介质 |
-
2022
- 2022-06-29 CN CN202210749936.9A patent/CN115048929A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190243904A1 (en) * | 2018-02-08 | 2019-08-08 | Ntt Docomo Inc. | Incremental generation of word embedding model |
CN111078879A (zh) * | 2019-12-09 | 2020-04-28 | 北京邮电大学 | 基于深度学习的卫星互联网文本敏感信息检测方法及装置 |
CN111966944A (zh) * | 2020-08-17 | 2020-11-20 | 中电科大数据研究院有限公司 | 一种多层级用户评论安全审核的模型构建方法 |
CN112036167A (zh) * | 2020-08-25 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、服务器及存储介质 |
CN112131352A (zh) * | 2020-10-10 | 2020-12-25 | 南京工业大学 | 一种网页文本类不良信息的检测方法与检测系统 |
CN112966068A (zh) * | 2020-11-09 | 2021-06-15 | 袭明科技(广东)有限公司 | 基于网页信息的简历识别方法和装置 |
WO2022111291A1 (zh) * | 2020-11-27 | 2022-06-02 | 北京沃东天骏信息技术有限公司 | 推荐信息的评估方法、装置、设备及计算机可读存储介质 |
CN113723083A (zh) * | 2021-07-15 | 2021-11-30 | 东华理工大学 | 基于bert模型的带权消极监督文本情感分析方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116680419A (zh) * | 2023-08-01 | 2023-09-01 | 国家计算机网络与信息安全管理中心 | 一种多源数据映射关联细粒度不良信息检测方法 |
CN116680419B (zh) * | 2023-08-01 | 2023-12-26 | 国家计算机网络与信息安全管理中心 | 一种多源数据映射关联细粒度不良信息检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110348016B (zh) | 基于句子关联注意力机制的文本摘要生成方法 | |
CN107798140B (zh) | 一种对话系统构建方法、语义受控应答方法及装置 | |
CN110704621B (zh) | 文本处理方法、装置及存储介质和电子设备 | |
CN112231472B (zh) | 融入领域术语词典的司法舆情敏感信息识别方法 | |
CN113191148B (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN115357719B (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN112434514B (zh) | 基于多粒度多通道的神经网络的语义匹配方法、装置及计算机设备 | |
CN113821605A (zh) | 一种事件抽取方法 | |
CN115292520B (zh) | 一种面向多源移动应用知识图谱构建方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN114817932A (zh) | 基于预训练模型的以太坊智能合约漏洞检测方法及系统 | |
CN117648429A (zh) | 基于多模态自适应检索式增强大模型的问答方法及系统 | |
CN113239663A (zh) | 一种基于知网的多义词中文实体关系识别方法 | |
CN114742069A (zh) | 一种代码相似度检测方法及装置 | |
CN115408488A (zh) | 用于小说场景文本的分割方法及系统 | |
CN115048929A (zh) | 敏感文本监测方法及装置 | |
CN117591672A (zh) | 一种基于粗细粒度数据增强的虚假新闻识别方法与装置 | |
CN112667819A (zh) | 一种实体描述推理知识库构建与推理证据量化信息获取方法和装置 | |
CN116975161A (zh) | 电力设备局放文本的实体关系联合抽取方法、设备、介质 | |
CN116186241A (zh) | 基于语义学分析与提示学习的事件要素抽取方法、装置、电子设备及存储介质 | |
CN115840815A (zh) | 基于指针关键信息的自动摘要生成方法 | |
CN115759085A (zh) | 基于提示模型的信息预测方法、装置、电子设备及介质 | |
CN115203206A (zh) | 数据内容搜索方法、装置、计算机设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |