CN113204975A

CN113204975A - 一种基于远程监督的敏感文风识别方法

Info

Publication number: CN113204975A
Application number: CN202110558876.8A
Authority: CN
Inventors: 高剑奇; 景艳山
Original assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Current assignee: Miaozhen Information Technology Co Ltd
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2021-08-03

Abstract

本发明涉及一种基于远程监督的敏感文风识别方法，包括以下步骤：S1获取文本语料，针对互联网中获取的大量的文本语料利用word2vec训练词向量模型，获得文本中每一个词语的语义向量表示；S2根据业务需求进行类别划分并构建各个类别的种子词，针对各个类别的的种子词，利用训练好的词向量模型，对各个类别的种子词进行扩充，获得每个敏感类别的触发词集合；S3针对获得的每个触发词，利用自适应模板，回到原始文本语料中进行回标，获得带有目标敏感标签的训练语料；S4搭建BERT+self‑attention+softmax深度学习模型，选用adam优化算法对模型进行训练，训练好的模型用于对敏感文本进行识别；S5输出文本语料中具有敏感信息的文本。本发明提高了对敏感文本识别的准确率和召回率。

Description

一种基于远程监督的敏感文风识别方法

技术领域

本发明用于计算机信息处理技术领域，特别涉及一种基于远程监督的敏感文风识别方法。

背景技术

互联网中遍布着大量的新闻，评论等各种各样的文本数据，这些数据为用户们查询信息、沟通交流和拓宽视野等提供了极大的便利。然而这些数据中也包含了大量的涉政、色情、辱骂等大量噪音数据，严重的影响了用户的体验，同时污染我们的生活环境，内容安全的防治刻不容缓。

通过机器学习算法，精准高效识别各类场景涉政、色情、辱骂和广告法敏感词、垃圾广告等违规内容，可以帮助政府和企业提前发现敏感内容。然而，目前的方法仍然存在如下问题：第一、训练模型的标注数据不足，而人工的数据标注需要消耗大量的人力和物力；第二、模型的准确率有待提高。

现阶段的方法主要将敏感文本的识别看成一个多分类问题，然而由于训练语料的缺失，使得敏感文本识别模型准确率和召回率都有待提高，而对训练语料进行人工数据进行标注人工成本特别高。而远程监督是借助外部知识库为数据提供标签，从而省去人工标注的时间和成本。但是远程监督会产生噪音数据，因此还需要搭建模型来进行对敏感文本的识别。

Word2vec是Google公司在2013年提出的词向量模型，主要任务是将词映射到高维空间转化为相应词向量，该词向量具有语义相似度。Word2vec的原理是构造一个网络模型，该网络模型有两种主要结构，分别是skip-gram和CBOW(Continuous Bag Of Words，CBOW)模型。两个模型具有类似的结构，分别由输入层、映射层(隐藏层)和输出层组成。简单来说，skip-gram的核心思想是根据当前词来预测上下文窗口中每个词的生成概率，最大化背景词的输出概率。

BERT的全称是Bidirectional Encoder Representation from Transformers。BERT在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩：全部两个衡量指标上全面超越人类，并且在11种不同NLP测试中创出SOTA表现，包括将GLUE基准推高至80.4％(绝对改进7.6％)，MultiNLI准确度达到86.7％(绝对改进5.6％)，成为NLP发展史上的里程碑式的模型成就。

目前现有技术中，对敏感文风的识别常采用的技术方案多为以远程监督方法为主，将文本与现有知识库进行启发式地标注构建大规模语料后，再采用有监督的方法进行学习。例如，专利申请号为CN202010523627.0的发明专利，该发明公开了一种面向社交媒体的敏感数据发现方法，通过主题模型与词向量模型，利用词语相似度与文档中的词共现信息，实现弱监督的文本分类算法，通过依靠实现设定少量敏感信息相关的关键词，结合大规模语料训练的词向量，来对敏感信息进行分类过滤，高效率、低成本地解决社交媒体敏感数据发现问题，但是该专利没有考虑噪音数据对模型的干扰；例如，专利申请号为CN202011362711.5的发明专利，该专利公开了一种基于多任务多示例的远程监督关系抽取方法，采用多任务和多示例的学习架构，以及Word2vec词向量预训练和多示例的句子级别注意力机制方法进行远程监督关系抽取,具体包括:数据预处理、输入表征、抽象语义表示、实体类型表征和多任务多示例关系抽取等步骤；该发明有效解决了噪声、训练不充分和数据的类不均衡问题,有效降低噪声对分类的影响,提高真实句子对分类的贡献,对缓解噪声和NA对分类的影响,具有一定的实用价值。

目前并没有将远程监督与Word2vec词向量、BERT模型相结合的高准确率和召回率的识别方法，因此发明人在这一方向上进行了进一步的伸入研究。

发明内容

本发明为解决公知技术中存在的技术问题提供一种基于远程监督的敏感文风识别方法，很好的解决了训练语料不足可能导致的模型过拟合和召回率低的问题。针对远程监督产生的噪音数据，采用了融入BERT先验知识，使用自注意力机制获取关键特征的BERT+self-attention+softmax模型，降低噪声数据对模型的干扰，很好的提高对敏感文本识别的准确率和召回率。

本发明包括如下技术方案：一种基于远程监督的敏感文风识别方法，包括以下步骤：S1获取文本语料，针对互联网中获取的大量的文本语料利用word2vec训练词向量模型，获得文本中每一个词语的语义向量表示；S2根据业务需求进行类别划分并构建各个类别的种子词，针对各个类别的的种子词，利用训练好的词向量模型，对各个类别的种子词进行扩充，获得每个敏感类别的触发词集合；S3针对获得的每个触发词，利用自适应模板，回到原始文本语料中进行回标，获得带有目标敏感标签的训练语料；S4搭建BERT+self-attention+softmax深度学习模型，选用adam优化算法对模型进行训练，训练好的模型用于对敏感文本进行识别；S5输出文本语料中具有敏感信息的文本。

进一步的，S1中的所述文本语料从网络中爬取后利用分词软件(如HanLP、结巴分词、FudanNLP、LTP等)进行数据预处理，然后基于已经分词的文本数据训练word2vec词向量模型，训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系。根据当前词来预测上下文窗口中每个词的生成概率，最大化背景词的输出概率，以应对训练语料不足的情况。

进一步的，S2中类别划分主要为涉黄、反动、暴恐三类，S2中的敏感种子词扩充过程中进行人工校正。S2中的类别划分包括但不限于上述三类，类别划分可以根据具体识别需要进行修改或扩充，在每个类别下进行扩充来得到更多的触发词，应对word2vec词向量模型训练语料不足的情况。

进一步的，S3中如果词语命中，则将该句子打上相应的类别标签；如果没有命中的句子则打上相应的负类标签，最终形成模型的训练数据集。本发明通过S3这一步骤来达到减少人工标注的目的。

进一步的，S4中给定一条句子，输入到所述BERT+self-attention+softmax深度学习模型中，该模型自动输出该句子所属的类别。

进一步的，S4中利用BERT对待输入的句子进行编码，作为模型的输入。利用BERT能够自监督学习的特征来减少人工标注数据的工作。BERT模型具有进一步增加词向量模型泛化的能力，能够充分描述字符级、词级、句子级甚至句间关系特征，是真正的双向编码。

进一步的，在S4中搭建self-attention层并采用多头注意力机制自动的挖掘BERT编码的重要特征。由于训练数据是基于远程监督的方法构建的，因此训练数据中存在一定的噪声。为了减少噪音数据对训练模型的干扰，本发明采用多头注意力机制。多头注意力是利用多个查询，来平行地计算从输入信息中选取多个信息，每个注意力关注输入信息的不同部分。

进一步的，所述多头注意力机制的Query、Key、Value首先经过一个线性变换，然后输入到放缩点积attention，每次Query、Key、Value进行线性变换的参数W均不同，将多次的放缩点积attention结果进行拼接，再进行一次线性变换得到的值作为多头attention的结果。

进一步的，S4中在self-attention层后搭建一个softmax层，使用sigmoid作为激活函数用来对多分类的结果进行归一化，输出待预测文本在各个标签上的概率。Sigmoid函数常被用作神经网络的激活函数，将变量映射到0,1之间。Sigmoid作为激活函数有平滑、易于求导的优点。步骤S4降低了噪声数据对模型的干扰，很好的提高模型对敏感文本识别的准确率和召回率。

本发明具有的优点和积极效果：

1、本发明利用远程监督的思想，可以在缺少训练语料的情况下，通过半监督的方法生成训练集来训练模型，很好的解决了训练语料不足可能导致的模型过拟合和召回率低的问题。

2、本发明能够减少人工标注的工作，并且构建和训练准确率、召回率较高的深度学习模型。

3、本发明采用BERT编码结合self-attention层以及softmax层的敏感文风识别模型，使用BERT对文本进行编码，使用自注意力机制关注重要的敏感文本特征，从大规模文本数据中准确的识别出包含敏感字眼的文本数据，实现敏感文本的自动识别，进而为用户提供一个干净而且文明的网络环境，提高用户上网体验。

4、本发明采用多头注意力机制减少噪音数据对训练模型的干扰，通过多头注意力机制，模型能够使用不同序列位置的不同子空间的表征信息来进行序列数据处理，而在单一注意力机制中这些不同位置不同子空间的表征信息由于取均值操作的存在而将被模型丢弃，采用多头注意力机制很好的提高模型对敏感文本识别的准确率和召回率。

附图说明

图1是基于远程监督的敏感文风识别流程图。

具体实施方式

为能进一步公开本发明的发明内容、特点及功效，特例举以下实例并结合附图详细说明，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

实施例：参阅附图1，一种基于远程监督的敏感文风识别方法，包括以下步骤：S1获取文本语料，针对互联网中获取的大量的文本语料利用word2vec训练词向量模型，获得文本中每一个词语的语义向量表示；Word2vec是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学的词文本。神经网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。S1中的所述文本语料从网络中爬取后利用分词软件(如HanLP、结巴分词、FudanNLP、LTP等)进行数据预处理，然后基于已经分词的文本数据训练word2vec词向量模型；根据当前词来预测上下文窗口中每个词的生成概率，最大化背景词的输出概率，以应对训练语料不足的情况。

S2根据业务需求进行类别划分并构建各个类别的种子词，针对各个类别的的种子词，利用训练好的词向量模型，对各个类别的种子词进行扩充，获得每个敏感类别的触发词集合；S2中类别划分主要为涉黄、反动、暴恐三类，类别划分可以根据具体识别需要进行修改或扩充，S2中的敏感种子词扩充过程中进行人工校正，得到最终的各个类别的触发词词汇集合；S2中的类别划分包括但不限于上述三类，在每个类别下进行扩充来得到更多的触发词，应对word2vec词向量模型训练语料不足的情况。

S3针对获得的每个触发词，利用自适应模板，回到原始文本语料中进行回标，获得带有目标敏感标签的训练语料；S3中如果词语命中，则将该句子打上相应的类别标签；如果没有命中的句子则打上相应的负类标签，最终形成模型的训练数据集；本发明通过S3这一步骤来达到减少人工标注的目的。

S4搭建BERT+self-attention+softmax深度学习模型，选用adam优化算法对模型进行训练，训练好的模型用于对敏感文本进行识别。Adam优化算法是一种在深度学习模型中用来替代随机梯度下降的优化算法。Adam算法和传统的随机梯度下降不同。随机梯度下降保持单一的学习率(即alpha)更新所有的权重，学习率在训练过程中并不会改变。而Adam通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率。Adam结合了AdaGrad和RMSProp算法最优的性能，它还是能提供解决稀疏梯度和噪声问题的优化方法。Adam优化算法的调参相对简单，默认参数就可以处理绝大部分的问题。

BERT模型具有进一步增加词向量模型泛化的能力，能够充分描述字符级、词级、句子级甚至句间关系特征，是真正的双向编码：Masked LM类似完形填空，尽管仍旧看到所有位置信息，但需要预测的词已被特殊符号代替，可以放心双向编码。Transformer做encoder实现上下文相关可以有更深的层数、具有更好并行性。并且线性的Transformer比lstm更易免受mask标记影响，只需要通过self-attention减小mask标记权重即可。提升至句子级别：学习句子/句对关系表示，句子级负采样。首先给定的一个句子，下一句子正例(正确词)，随机采样一句负例(随机采样词),句子级上来做二分类(即判断句子是当前句子的下一句还是噪声)。S4中给定一条句子，输入到所述BERT+self-attention+softmax深度学习模型中，该模型自动输出该句子所属的类别；S4中利用BERT对待输入的句子进行编码，作为模型的输入。利用BERT能够自监督学习的特征来减少人工标注数据的工作。

在S4中搭建self-attention层并采用多头注意力机制自动的挖掘BERT编码的重要特征。由于训练数据是基于远程监督的方法构建的，因此训练数据中存在一定的噪声。为了减少噪音数据对训练模型的干扰，本发明采用多头注意力机制。多头注意力是利用多个查询，来平行地计算从输入信息中选取多个信息，每个注意力关注输入信息的不同部分。注意力机制本身是一个函数，该函数实现了从query和一系列键值对(key-value pair)到输出结果output的映射，其中query、key和value都是向量。输出结果output的计算通过对value进行加权求和来得到，而每一个value所对应的权值是由query和key通过一个相容性函数来计算获取。通过多头注意力机制，模型能够使用不同序列位置的不同子空间的表征信息来进行序列数据处理，而在单一注意力机制中这些不同位置不同子空间的表征信息由于取均值操作的存在而将被模型丢弃。S4中采用的所述多头注意力机制的Query、Key、Value首先经过一个线性变换，然后输入到放缩点积attention，每次Query、Key、Value进行线性变换的参数W均不同，将多次的放缩点积attention结果进行拼接，再进行一次线性变换得到的值作为多头attention的结果；

S4中在self-attention层后搭建一个softmax层，使用sigmoid作为激活函数用来对多分类的结果进行归一化，输出待预测文本在各个标签上的概率。Sigmoid函数是一个在生物学中常见的S型函数，也称为S型生长曲线。在信息科学中，由于其单增以及反函数单增等性质，Sigmoid函数常被用作神经网络的激活函数，将变量映射到0,1之间。Sigmoid函数也叫Logistic函数，用于隐层神经元输出，取值范围为(0,1)，它可以将一个实数映射到(0,1)的区间，可以用来做二分类。在特征相差比较复杂或是相差不是特别大时效果比较好。Sigmoid作为激活函数有平滑、易于求导的优点。

Sigmoid函数由下列公式定义：

其对x的导数可以用自身表示：

步骤S4降低了噪声数据对模型的干扰，很好的提高模型对敏感文本识别的准确率和召回率。

S5输出文本语料中具有敏感信息的文本。

工作原理：S1获取文本语料；S2构建扩展种子词；S3利用自适应模板，基于种子词抽取包含敏感文本的语料；S4训练BERT+self-attention+softmax模型，识别敏感文风；S5输出具有敏感信息的文本。

本发明利用远程监督的思想，可以在缺少训练语料的情况下，通过半监督的方法生成训练集来训练模型，很好的解决了训练语料不足可能导致的模型过拟合和召回率低的问题。本发明能够减少人工标注的工作，并且构建和训练准确率和召回率较高的深度学习模型。

本发明采用BERT编码结合self-attention层以及softmax层的敏感文风识别模型，使用BERT对文本进行编码，使用自注意力机制关注重要的敏感文本特征，从大规模文本数据中准确的识别出包含敏感字眼的文本数据，实现敏感文本的自动识别，进而为用户提供一个干净而且文明的网络环境，提高用户上网体验。

本发明采用多头注意力机制减少噪音数据对训练模型的干扰，通过多头注意力机制，模型能够使用不同序列位置的不同子空间的表征信息来进行序列数据处理，而在单一注意力机制中这些不同位置不同子空间的表征信息由于取均值操作的存在而将被模型丢弃，采用多头注意力机制很好的提高模型对敏感文本识别的准确率和召回率。

尽管上面对本发明的优选实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，并不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可以作出很多形式。这些均属于本发明的保护范围之内。

Claims

1.一种基于远程监督的敏感文风识别方法，其特征在于包括以下步骤：

S1获取文本语料，针对互联网中获取的大量的文本语料利用word2vec训练词向量模型，获得文本中每一个词语的语义向量表示；

S2根据业务需求进行类别划分并构建各个类别的种子词，针对各个类别的的种子词，利用训练好的词向量模型，对各个类别的种子词进行扩充，获得每个敏感类别的触发词集合；

S3针对获得的每个触发词，利用自适应模板，回到原始文本语料中进行回标，获得带有目标敏感标签的训练语料；

S4搭建BERT+self-attention+softmax深度学习模型，选用adam优化算法对模型进行训练，训练好的模型用于对敏感文本进行识别；

S5输出文本语料中具有敏感信息的文本。

2.根据权利要求1所述的基于远程监督的敏感文风识别方法，其特征在于：S1中的所述文本语料从网络中爬取后利用分词软件进行数据预处理，然后基于已经分词的文本数据训练word2vec词向量模型。

3.根据权利要求1所述的基于远程监督的敏感文风识别方法，其特征在于：S2中类别划分主要为涉黄、反动、暴恐三类，S2中的敏感种子词扩充过程中进行人工校正。

4.根据权利要求1所述的基于远程监督的敏感文风识别方法，其特征在于：S3中如果词语命中，则将该句子打上相应的类别标签；如果没有命中的句子则打上相应的负类标签，最终形成模型的训练数据集。

5.根据权利要求1所述的基于远程监督的敏感文风识别方法，其特征在于：S4中给定一条句子，输入到所述BERT+self-attention+softmax深度学习模型中，该模型自动输出该句子所属的类别。

6.根据权利要求1所述的基于远程监督的敏感文风识别方法，其特征在于：S4中利用BERT对待输入的句子进行编码，作为模型的输入。

7.根据权利要求6所述的基于远程监督的敏感文风识别方法，其特征在于：在S4中搭建self-attention层并采用多头注意力机制自动的挖掘BERT编码的重要特征。

8.根据权利要求7所述的基于远程监督的敏感文风识别方法，其特征在于：所述多头注意力机制的Query、Key、Value首先经过一个线性变换，然后输入到放缩点积attention，每次Query、Key、Value进行线性变换的参数W均不同，将多次的放缩点积attention结果进行拼接，再进行一次线性变换得到的值作为多头attention的结果。

9.根据权利要求7所述的基于远程监督的敏感文风识别方法，其特征在于：S4中在self-attention层后搭建一个softmax层，使用sigmoid作为激活函数用来对多分类的结果进行归一化，输出待预测文本在各个标签上的概率。