CN113204975A - 一种基于远程监督的敏感文风识别方法 - Google Patents

一种基于远程监督的敏感文风识别方法 Download PDF

Info

Publication number
CN113204975A
CN113204975A CN202110558876.8A CN202110558876A CN113204975A CN 113204975 A CN113204975 A CN 113204975A CN 202110558876 A CN202110558876 A CN 202110558876A CN 113204975 A CN113204975 A CN 113204975A
Authority
CN
China
Prior art keywords
sensitive
text
model
word
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110558876.8A
Other languages
English (en)
Inventor
高剑奇
景艳山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Miaozhen Information Technology Co Ltd
Original Assignee
Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Minglue Artificial Intelligence Group Co Ltd filed Critical Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority to CN202110558876.8A priority Critical patent/CN113204975A/zh
Publication of CN113204975A publication Critical patent/CN113204975A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于远程监督的敏感文风识别方法,包括以下步骤:S1获取文本语料,针对互联网中获取的大量的文本语料利用word2vec训练词向量模型,获得文本中每一个词语的语义向量表示;S2根据业务需求进行类别划分并构建各个类别的种子词,针对各个类别的的种子词,利用训练好的词向量模型,对各个类别的种子词进行扩充,获得每个敏感类别的触发词集合;S3针对获得的每个触发词,利用自适应模板,回到原始文本语料中进行回标,获得带有目标敏感标签的训练语料;S4搭建BERT+self‑attention+softmax深度学习模型,选用adam优化算法对模型进行训练,训练好的模型用于对敏感文本进行识别;S5输出文本语料中具有敏感信息的文本。本发明提高了对敏感文本识别的准确率和召回率。

Description

一种基于远程监督的敏感文风识别方法
技术领域
本发明用于计算机信息处理技术领域,特别涉及一种基于远程监督的敏感文风识别方法。
背景技术
互联网中遍布着大量的新闻,评论等各种各样的文本数据,这些数据为用户们查询信息、沟通交流和拓宽视野等提供了极大的便利。然而这些数据中也包含了大量的涉政、色情、辱骂等大量噪音数据,严重的影响了用户的体验,同时污染我们的生活环境,内容安全的防治刻不容缓。
通过机器学习算法,精准高效识别各类场景涉政、色情、辱骂和广告法敏感词、垃圾广告等违规内容,可以帮助政府和企业提前发现敏感内容。然而,目前的方法仍然存在如下问题:第一、训练模型的标注数据不足,而人工的数据标注需要消耗大量的人力和物力;第二、模型的准确率有待提高。
现阶段的方法主要将敏感文本的识别看成一个多分类问题,然而由于训练语料的缺失,使得敏感文本识别模型准确率和召回率都有待提高,而对训练语料进行人工数据进行标注人工成本特别高。而远程监督是借助外部知识库为数据提供标签,从而省去人工标注的时间和成本。但是远程监督会产生噪音数据,因此还需要搭建模型来进行对敏感文本的识别。
Word2vec是Google公司在2013年提出的词向量模型,主要任务是将词映射到高维空间转化为相应词向量,该词向量具有语义相似度。Word2vec的原理是构造一个网络模型,该网络模型有两种主要结构,分别是skip-gram和CBOW(Continuous Bag Of Words,CBOW)模型。两个模型具有类似的结构,分别由输入层、映射层(隐藏层)和输出层组成。简单来说,skip-gram的核心思想是根据当前词来预测上下文窗口中每个词的生成概率,最大化背景词的输出概率。
BERT的全称是Bidirectional Encoder Representation from Transformers。BERT在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩:全部两个衡量指标上全面超越人类,并且在11种不同NLP测试中创出SOTA表现,包括将GLUE基准推高至80.4%(绝对改进7.6%),MultiNLI准确度达到86.7%(绝对改进5.6%),成为NLP发展史上的里程碑式的模型成就。
目前现有技术中,对敏感文风的识别常采用的技术方案多为以远程监督方法为主,将文本与现有知识库进行启发式地标注构建大规模语料后,再采用有监督的方法进行学习。例如,专利申请号为CN202010523627.0的发明专利,该发明公开了一种面向社交媒体的敏感数据发现方法,通过主题模型与词向量模型,利用词语相似度与文档中的词共现信息,实现弱监督的文本分类算法,通过依靠实现设定少量敏感信息相关的关键词,结合大规模语料训练的词向量,来对敏感信息进行分类过滤,高效率、低成本地解决社交媒体敏感数据发现问题,但是该专利没有考虑噪音数据对模型的干扰;例如,专利申请号为CN202011362711.5的发明专利,该专利公开了一种基于多任务多示例的远程监督关系抽取方法,采用多任务和多示例的学习架构,以及Word2vec词向量预训练和多示例的句子级别注意力机制方法进行远程监督关系抽取,具体包括:数据预处理、输入表征、抽象语义表示、实体类型表征和多任务多示例关系抽取等步骤;该发明有效解决了噪声、训练不充分和数据的类不均衡问题,有效降低噪声对分类的影响,提高真实句子对分类的贡献,对缓解噪声和NA对分类的影响,具有一定的实用价值。
目前并没有将远程监督与Word2vec词向量、BERT模型相结合的高准确率和召回率的识别方法,因此发明人在这一方向上进行了进一步的伸入研究。
发明内容
本发明为解决公知技术中存在的技术问题提供一种基于远程监督的敏感文风识别方法,很好的解决了训练语料不足可能导致的模型过拟合和召回率低的问题。针对远程监督产生的噪音数据,采用了融入BERT先验知识,使用自注意力机制获取关键特征的BERT+self-attention+softmax模型,降低噪声数据对模型的干扰,很好的提高对敏感文本识别的准确率和召回率。
本发明包括如下技术方案:一种基于远程监督的敏感文风识别方法,包括以下步骤:S1获取文本语料,针对互联网中获取的大量的文本语料利用word2vec训练词向量模型,获得文本中每一个词语的语义向量表示;S2根据业务需求进行类别划分并构建各个类别的种子词,针对各个类别的的种子词,利用训练好的词向量模型,对各个类别的种子词进行扩充,获得每个敏感类别的触发词集合;S3针对获得的每个触发词,利用自适应模板,回到原始文本语料中进行回标,获得带有目标敏感标签的训练语料;S4搭建BERT+self-attention+softmax深度学习模型,选用adam优化算法对模型进行训练,训练好的模型用于对敏感文本进行识别;S5输出文本语料中具有敏感信息的文本。
进一步的,S1中的所述文本语料从网络中爬取后利用分词软件(如HanLP、结巴分词、FudanNLP、LTP等)进行数据预处理,然后基于已经分词的文本数据训练word2vec词向量模型,训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系。根据当前词来预测上下文窗口中每个词的生成概率,最大化背景词的输出概率,以应对训练语料不足的情况。
进一步的,S2中类别划分主要为涉黄、反动、暴恐三类,S2中的敏感种子词扩充过程中进行人工校正。S2中的类别划分包括但不限于上述三类,类别划分可以根据具体识别需要进行修改或扩充,在每个类别下进行扩充来得到更多的触发词,应对word2vec词向量模型训练语料不足的情况。
进一步的,S3中如果词语命中,则将该句子打上相应的类别标签;如果没有命中的句子则打上相应的负类标签,最终形成模型的训练数据集。本发明通过S3这一步骤来达到减少人工标注的目的。
进一步的,S4中给定一条句子,输入到所述BERT+self-attention+softmax深度学习模型中,该模型自动输出该句子所属的类别。
进一步的,S4中利用BERT对待输入的句子进行编码,作为模型的输入。利用BERT能够自监督学习的特征来减少人工标注数据的工作。BERT模型具有进一步增加词向量模型泛化的能力,能够充分描述字符级、词级、句子级甚至句间关系特征,是真正的双向编码。
进一步的,在S4中搭建self-attention层并采用多头注意力机制自动的挖掘BERT编码的重要特征。由于训练数据是基于远程监督的方法构建的,因此训练数据中存在一定的噪声。为了减少噪音数据对训练模型的干扰,本发明采用多头注意力机制。多头注意力是利用多个查询,来平行地计算从输入信息中选取多个信息,每个注意力关注输入信息的不同部分。
进一步的,所述多头注意力机制的Query、Key、Value首先经过一个线性变换,然后输入到放缩点积attention,每次Query、Key、Value进行线性变换的参数W均不同,将多次的放缩点积attention结果进行拼接,再进行一次线性变换得到的值作为多头attention的结果。
进一步的,S4中在self-attention层后搭建一个softmax层,使用sigmoid作为激活函数用来对多分类的结果进行归一化,输出待预测文本在各个标签上的概率。Sigmoid函数常被用作神经网络的激活函数,将变量映射到0,1之间。Sigmoid作为激活函数有平滑、易于求导的优点。步骤S4降低了噪声数据对模型的干扰,很好的提高模型对敏感文本识别的准确率和召回率。
本发明具有的优点和积极效果:
1、本发明利用远程监督的思想,可以在缺少训练语料的情况下,通过半监督的方法生成训练集来训练模型,很好的解决了训练语料不足可能导致的模型过拟合和召回率低的问题。
2、本发明能够减少人工标注的工作,并且构建和训练准确率、召回率较高的深度学习模型。
3、本发明采用BERT编码结合self-attention层以及softmax层的敏感文风识别模型,使用BERT对文本进行编码,使用自注意力机制关注重要的敏感文本特征,从大规模文本数据中准确的识别出包含敏感字眼的文本数据,实现敏感文本的自动识别,进而为用户提供一个干净而且文明的网络环境,提高用户上网体验。
4、本发明采用多头注意力机制减少噪音数据对训练模型的干扰,通过多头注意力机制,模型能够使用不同序列位置的不同子空间的表征信息来进行序列数据处理,而在单一注意力机制中这些不同位置不同子空间的表征信息由于取均值操作的存在而将被模型丢弃,采用多头注意力机制很好的提高模型对敏感文本识别的准确率和召回率。
附图说明
图1是基于远程监督的敏感文风识别流程图。
具体实施方式
为能进一步公开本发明的发明内容、特点及功效,特例举以下实例并结合附图详细说明,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
实施例:参阅附图1,一种基于远程监督的敏感文风识别方法,包括以下步骤:S1获取文本语料,针对互联网中获取的大量的文本语料利用word2vec训练词向量模型,获得文本中每一个词语的语义向量表示;Word2vec是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学的词文本。神经网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。S1中的所述文本语料从网络中爬取后利用分词软件(如HanLP、结巴分词、FudanNLP、LTP等)进行数据预处理,然后基于已经分词的文本数据训练word2vec词向量模型;根据当前词来预测上下文窗口中每个词的生成概率,最大化背景词的输出概率,以应对训练语料不足的情况。
S2根据业务需求进行类别划分并构建各个类别的种子词,针对各个类别的的种子词,利用训练好的词向量模型,对各个类别的种子词进行扩充,获得每个敏感类别的触发词集合;S2中类别划分主要为涉黄、反动、暴恐三类,类别划分可以根据具体识别需要进行修改或扩充,S2中的敏感种子词扩充过程中进行人工校正,得到最终的各个类别的触发词词汇集合;S2中的类别划分包括但不限于上述三类,在每个类别下进行扩充来得到更多的触发词,应对word2vec词向量模型训练语料不足的情况。
S3针对获得的每个触发词,利用自适应模板,回到原始文本语料中进行回标,获得带有目标敏感标签的训练语料;S3中如果词语命中,则将该句子打上相应的类别标签;如果没有命中的句子则打上相应的负类标签,最终形成模型的训练数据集;本发明通过S3这一步骤来达到减少人工标注的目的。
S4搭建BERT+self-attention+softmax深度学习模型,选用adam优化算法对模型进行训练,训练好的模型用于对敏感文本进行识别。Adam优化算法是一种在深度学习模型中用来替代随机梯度下降的优化算法。Adam算法和传统的随机梯度下降不同。随机梯度下降保持单一的学习率(即alpha)更新所有的权重,学习率在训练过程中并不会改变。而Adam通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率。Adam结合了AdaGrad和RMSProp算法最优的性能,它还是能提供解决稀疏梯度和噪声问题的优化方法。Adam优化算法的调参相对简单,默认参数就可以处理绝大部分的问题。
BERT模型具有进一步增加词向量模型泛化的能力,能够充分描述字符级、词级、句子级甚至句间关系特征,是真正的双向编码:Masked LM类似完形填空,尽管仍旧看到所有位置信息,但需要预测的词已被特殊符号代替,可以放心双向编码。Transformer做encoder实现上下文相关可以有更深的层数、具有更好并行性。并且线性的Transformer比lstm更易免受mask标记影响,只需要通过self-attention减小mask标记权重即可。提升至句子级别:学习句子/句对关系表示,句子级负采样。首先给定的一个句子,下一句子正例(正确词),随机采样一句负例(随机采样词),句子级上来做二分类(即判断句子是当前句子的下一句还是噪声)。S4中给定一条句子,输入到所述BERT+self-attention+softmax深度学习模型中,该模型自动输出该句子所属的类别;S4中利用BERT对待输入的句子进行编码,作为模型的输入。利用BERT能够自监督学习的特征来减少人工标注数据的工作。
在S4中搭建self-attention层并采用多头注意力机制自动的挖掘BERT编码的重要特征。由于训练数据是基于远程监督的方法构建的,因此训练数据中存在一定的噪声。为了减少噪音数据对训练模型的干扰,本发明采用多头注意力机制。多头注意力是利用多个查询,来平行地计算从输入信息中选取多个信息,每个注意力关注输入信息的不同部分。注意力机制本身是一个函数,该函数实现了从query和一系列键值对(key-value pair)到输出结果output的映射,其中query、key和value都是向量。输出结果output的计算通过对value进行加权求和来得到,而每一个value所对应的权值是由query和key通过一个相容性函数来计算获取。通过多头注意力机制,模型能够使用不同序列位置的不同子空间的表征信息来进行序列数据处理,而在单一注意力机制中这些不同位置不同子空间的表征信息由于取均值操作的存在而将被模型丢弃。S4中采用的所述多头注意力机制的Query、Key、Value首先经过一个线性变换,然后输入到放缩点积attention,每次Query、Key、Value进行线性变换的参数W均不同,将多次的放缩点积attention结果进行拼接,再进行一次线性变换得到的值作为多头attention的结果;
S4中在self-attention层后搭建一个softmax层,使用sigmoid作为激活函数用来对多分类的结果进行归一化,输出待预测文本在各个标签上的概率。Sigmoid函数是一个在生物学中常见的S型函数,也称为S型生长曲线。在信息科学中,由于其单增以及反函数单增等性质,Sigmoid函数常被用作神经网络的激活函数,将变量映射到0,1之间。Sigmoid函数也叫Logistic函数,用于隐层神经元输出,取值范围为(0,1),它可以将一个实数映射到(0,1)的区间,可以用来做二分类。在特征相差比较复杂或是相差不是特别大时效果比较好。Sigmoid作为激活函数有平滑、易于求导的优点。
Sigmoid函数由下列公式定义:
Figure BDA0003078342410000071
其对x的导数可以用自身表示:
Figure BDA0003078342410000072
步骤S4降低了噪声数据对模型的干扰,很好的提高模型对敏感文本识别的准确率和召回率。
S5输出文本语料中具有敏感信息的文本。
工作原理:S1获取文本语料;S2构建扩展种子词;S3利用自适应模板,基于种子词抽取包含敏感文本的语料;S4训练BERT+self-attention+softmax模型,识别敏感文风;S5输出具有敏感信息的文本。
本发明利用远程监督的思想,可以在缺少训练语料的情况下,通过半监督的方法生成训练集来训练模型,很好的解决了训练语料不足可能导致的模型过拟合和召回率低的问题。本发明能够减少人工标注的工作,并且构建和训练准确率和召回率较高的深度学习模型。
本发明采用BERT编码结合self-attention层以及softmax层的敏感文风识别模型,使用BERT对文本进行编码,使用自注意力机制关注重要的敏感文本特征,从大规模文本数据中准确的识别出包含敏感字眼的文本数据,实现敏感文本的自动识别,进而为用户提供一个干净而且文明的网络环境,提高用户上网体验。
本发明采用多头注意力机制减少噪音数据对训练模型的干扰,通过多头注意力机制,模型能够使用不同序列位置的不同子空间的表征信息来进行序列数据处理,而在单一注意力机制中这些不同位置不同子空间的表征信息由于取均值操作的存在而将被模型丢弃,采用多头注意力机制很好的提高模型对敏感文本识别的准确率和召回率。
尽管上面对本发明的优选实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,并不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可以作出很多形式。这些均属于本发明的保护范围之内。

Claims (9)

1.一种基于远程监督的敏感文风识别方法,其特征在于包括以下步骤:
S1获取文本语料,针对互联网中获取的大量的文本语料利用word2vec训练词向量模型,获得文本中每一个词语的语义向量表示;
S2根据业务需求进行类别划分并构建各个类别的种子词,针对各个类别的的种子词,利用训练好的词向量模型,对各个类别的种子词进行扩充,获得每个敏感类别的触发词集合;
S3针对获得的每个触发词,利用自适应模板,回到原始文本语料中进行回标,获得带有目标敏感标签的训练语料;
S4搭建BERT+self-attention+softmax深度学习模型,选用adam优化算法对模型进行训练,训练好的模型用于对敏感文本进行识别;
S5输出文本语料中具有敏感信息的文本。
2.根据权利要求1所述的基于远程监督的敏感文风识别方法,其特征在于:S1中的所述文本语料从网络中爬取后利用分词软件进行数据预处理,然后基于已经分词的文本数据训练word2vec词向量模型。
3.根据权利要求1所述的基于远程监督的敏感文风识别方法,其特征在于:S2中类别划分主要为涉黄、反动、暴恐三类,S2中的敏感种子词扩充过程中进行人工校正。
4.根据权利要求1所述的基于远程监督的敏感文风识别方法,其特征在于:S3中如果词语命中,则将该句子打上相应的类别标签;如果没有命中的句子则打上相应的负类标签,最终形成模型的训练数据集。
5.根据权利要求1所述的基于远程监督的敏感文风识别方法,其特征在于:S4中给定一条句子,输入到所述BERT+self-attention+softmax深度学习模型中,该模型自动输出该句子所属的类别。
6.根据权利要求1所述的基于远程监督的敏感文风识别方法,其特征在于:S4中利用BERT对待输入的句子进行编码,作为模型的输入。
7.根据权利要求6所述的基于远程监督的敏感文风识别方法,其特征在于:在S4中搭建self-attention层并采用多头注意力机制自动的挖掘BERT编码的重要特征。
8.根据权利要求7所述的基于远程监督的敏感文风识别方法,其特征在于:所述多头注意力机制的Query、Key、Value首先经过一个线性变换,然后输入到放缩点积attention,每次Query、Key、Value进行线性变换的参数W均不同,将多次的放缩点积attention结果进行拼接,再进行一次线性变换得到的值作为多头attention的结果。
9.根据权利要求7所述的基于远程监督的敏感文风识别方法,其特征在于:S4中在self-attention层后搭建一个softmax层,使用sigmoid作为激活函数用来对多分类的结果进行归一化,输出待预测文本在各个标签上的概率。
CN202110558876.8A 2021-05-21 2021-05-21 一种基于远程监督的敏感文风识别方法 Pending CN113204975A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110558876.8A CN113204975A (zh) 2021-05-21 2021-05-21 一种基于远程监督的敏感文风识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110558876.8A CN113204975A (zh) 2021-05-21 2021-05-21 一种基于远程监督的敏感文风识别方法

Publications (1)

Publication Number Publication Date
CN113204975A true CN113204975A (zh) 2021-08-03

Family

ID=77022976

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110558876.8A Pending CN113204975A (zh) 2021-05-21 2021-05-21 一种基于远程监督的敏感文风识别方法

Country Status (1)

Country Link
CN (1) CN113204975A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672732A (zh) * 2021-08-19 2021-11-19 胜斗士(上海)科技技术发展有限公司 用于对业务数据进行分类的方法和设备
CN117349889A (zh) * 2023-10-20 2024-01-05 深圳市志合创伟信息技术有限公司 一种基于云计算的安全数据的访问控制方法、系统及终端

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672732A (zh) * 2021-08-19 2021-11-19 胜斗士(上海)科技技术发展有限公司 用于对业务数据进行分类的方法和设备
CN113672732B (zh) * 2021-08-19 2024-04-26 胜斗士(上海)科技技术发展有限公司 用于对业务数据进行分类的方法和设备
CN117349889A (zh) * 2023-10-20 2024-01-05 深圳市志合创伟信息技术有限公司 一种基于云计算的安全数据的访问控制方法、系统及终端

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN109977416B (zh) 一种多层次自然语言反垃圾文本方法及系统
CN107203511B (zh) 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN108073677B (zh) 一种基于人工智能的多级文本多标签分类方法及系统
CN110765775A (zh) 一种融合语义和标签差异的命名实体识别领域自适应的方法
CN108228569B (zh) 一种基于松散条件下协同学习的中文微博情感分析方法
Wu et al. Linguistic steganalysis with graph neural networks
CN111125367B (zh) 一种基于多层次注意力机制的多种人物关系抽取方法
CN111309918A (zh) 一种基于标签关联性的多标签文本分类方法
CN113673254B (zh) 基于相似度保持的知识蒸馏的立场检测方法
CN111241828A (zh) 情感智能识别方法、装置及计算机可读存储介质
CN111563143A (zh) 一种新词的确定方法及装置
CN115658954B (zh) 一种基于提示学习的跨模态检索对抗防御方法
CN111581368A (zh) 一种基于卷积神经网络的面向智能专家推荐的用户画像方法
CN113204975A (zh) 一种基于远程监督的敏感文风识别方法
CN112417153A (zh) 文本分类方法、装置、终端设备和可读存储介质
CN113515632A (zh) 基于图路径知识萃取的文本分类方法
CN111581392B (zh) 一种基于语句通顺度的自动作文评分计算方法
CN114564563A (zh) 一种基于关系分解的端到端实体关系联合抽取方法及系统
CN115292490A (zh) 一种用于政策解读语义的分析算法
CN115329120A (zh) 一种知识图谱嵌入注意力机制的弱标注哈希图像检索架构
Kitada et al. Making attention mechanisms more robust and interpretable with virtual adversarial training
CN113722439B (zh) 基于对抗性类别对齐网络的跨领域情感分类方法及系统
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
CN112925907A (zh) 基于事件图卷积神经网络的微博评论观点对象分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20211227

Address after: A111, 1f, building 3, No. 1, zone 1, Lize Zhongyuan, Wangjing emerging industrial zone, Chaoyang District, Beijing 100020

Applicant after: MIAOZHEN INFORMATION TECHNOLOGY Co.,Ltd.

Address before: Floor 29, 30, 31, 32, No. 701, Yunjin Road, Xuhui District, Shanghai, 200030

Applicant before: Shanghai minglue artificial intelligence (Group) Co.,Ltd.

TA01 Transfer of patent application right