CN112131453A - 一种基于bert的网络不良短文本检测方法、装置及存储介质 - Google Patents

一种基于bert的网络不良短文本检测方法、装置及存储介质 Download PDF

Info

Publication number
CN112131453A
CN112131453A CN202010871788.9A CN202010871788A CN112131453A CN 112131453 A CN112131453 A CN 112131453A CN 202010871788 A CN202010871788 A CN 202010871788A CN 112131453 A CN112131453 A CN 112131453A
Authority
CN
China
Prior art keywords
short text
hidden state
bert
bad
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010871788.9A
Other languages
English (en)
Inventor
高望
朱珣
邓宏涛
刘哲
王煜炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jianghan University
Original Assignee
Jianghan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jianghan University filed Critical Jianghan University
Priority to CN202010871788.9A priority Critical patent/CN112131453A/zh
Publication of CN112131453A publication Critical patent/CN112131453A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于BERT的网络不良短文本检测方法、装置及计算机可读存储介质,一种基于BERT的网络不良短文本检测方法,包括以下步骤:采集短文本并进行标注,将标注后的短文本分为测试数据集和训练数据集,根据测试数据集和训练数据集训练BERT模型,得到基于不良短文本检测的BERT模型;将待检测短文本及其对应的额外信息输入至基于不良短文本检测的BERT模型中,获取对应的隐藏状态的语义表示,根据隐藏状态的语义表示,获取不良短文本标签;将不良短文本标签、待检测短文本及其对应的额外信息输入至基于不良短文本检测的BERT模型中,获取对应的隐藏状态的语义表示,根据隐藏状态的语义表示,判别出不良短文本的类型。该方法提高了不良短文本检测的性能。

Description

一种基于BERT的网络不良短文本检测方法、装置及存储介质
技术领域
本发明涉及不良文本信息检测技术领域,尤其涉及一种基于BERT的网络不良短文本检测方法、装置及计算机可读存储介质。
背景技术
随着移动互联网和信息技术的飞速发展,各种社交媒体平台的大量使用对人们的生活和行为方式带来了巨大的改变;例如:微博、论坛和微信等网络应用逐渐成为了人们对网络热点事件分享和讨论的主要阵地。然而,一部分用心不良的网民利用互联网的虚拟性、匿名性和便捷性等特点,在网络中传播大量不良短文本,如色情、暴恐和广告等信息。这些网络不良短文本可以迅速传播到互联网的各个角落,不仅严重污染网络环境,还影响青少年身心健康。因此,通过信息技术自动检测出网民在社交媒体平台上发布的不良短文本信息,可以大大减轻人工审核的工作量,有助于创建和谐网络环境,并提升网民信息检索效率。
网络不良短文本检测任务是将网络短文本信息划分为正常短文本和不良短文本两类;然而,由于短文本噪声大、长度短、信息稀疏等特点,传统分类方法在短文本上效果较差;很多研究者利用主题信息丰富短文本的语义特征,进而提高分类性能,但网民在社交平台上发表的短文本信息往往用语不规范,缺少词语共现信息,且主题非常宽泛。
传统主题模型从短文本中抽取高质量主题特征是非常困难的,导致了不良短文本检测的性能较低。
发明内容
有鉴于此,有必要提供一种基于BERT的网络不良短文本检测方法、装置及计算机可读存储介质,用以解决现有技术中网络不良短文本检测的性能较低的技术问题。
本发明提供一种基于BERT的网络不良短文本检测方法,包括以下步骤:
采集短文本,对所述短文本进行标注,将标注后的短文本分为测试数据集和训练数据集,根据所述测试数据集和训练数据集训练BERT模型,得到基于不良短文本检测的BERT模型;
将待检测短文本及其对应的额外信息输入至所述基于不良短文本检测的BERT模型中,获取对应的隐藏状态的语义表示,根据隐藏状态的语义表示,获取不良短文本标签;
将所述不良短文本标签、待检测短文本及其对应的额外信息输入至所述基于不良短文本检测的BERT模型中,获取对应的隐藏状态的语义表示,根据隐藏状态的语义表示,判别出不良短文本的类型。
进一步地,对所述短文本进行标注,将标注后的短文本分为测试数据集和训练数据集,根据所述测试数据集和训练数据集训练BERT模型,具体包括,将所述短文本标注为不良短文本或者正常短文本,将不良短文本标注为不同类型的不良短文本,将标注后的短文本分为测试数据集和训练数据集,利用测试数据集、训练数据集以及短文本的额外信息,训练BERT模型。
进一步地,利用测试数据集、训练数据集以及短文本的额外信息,训练BERT模型,具体包括,利用测试数据集、训练数据集以及短文本的额外信息,并使用Gelu作为激活函数,使用Adam优化器,使用交叉熵损失函数训练BERT模型,其中,交叉熵损失函数为
Figure BDA0002651324460000031
其中,y表示短文本数据集的真实标签,p表示模型预测的标签,m表示标签的数量,n表示短文本数据集的数量。
进一步地,将待检测短文本及其对应的额外信息输入至所述基于不良短文本检测的BERT模型中,获取对应的隐藏状态的语义表示,根据隐藏状态的语义表示,获取不良短文本标签,具体包括,将待检测短文本及其对应的额外信息进行向量化,得到输入向量,将所述输入向量输入至所述于不良短文本检测的BERT模型,将输入向量编码为隐藏状态,获取隐藏状态的注意力权重,根据所述隐藏状态及其注意力权重,获取隐藏状态的语义表示,根据所述隐藏状态的语义表示,获取不良短文本标签。
进一步地,根据所述隐藏状态的语义表示,判别出不良短文本,具体包括,将[CLS]代表的短文本与所有隐藏状态的语义表示连接起来,形成用于分类的向量R,将向量R输入全连接层,获取不良短文本标签。
进一步地,获取隐藏状态的注意力权重,具体包括,利用注意力权重计算公式,获取获取隐藏状态的注意力权重,其中,注意力权重计算公式为
Figure BDA0002651324460000032
f表示关系评分函数,f(Hi,T)=tanh(W[Hi:T]+b),tanh表示双曲正切激活函数,W和b表示模型的参数,Hi、T分别为隐藏状态和主题特征,Ai为注意力权重。
进一步地,根据所述隐藏状态及其注意力权重,获取隐藏状态的语义表示,具体包括,利用语义表示公式,获取隐藏状态的语义表示,其中,所述语义表示公式为
Figure BDA0002651324460000041
进一步地,将所述不良短文本标签、待检测短文本及其对应的额外信息输入至所述基于不良短文本检测的BERT模型中,获取对应的隐藏状态的语义表示,根据隐藏状态的语义表示,判别出不良短文本的类型,具体包括,所述不良短文本标签、待检测短文本及其对应的额外信息进行向量化,得到输入向量,将所述输入向量输入至所述于不良短文本检测的BERT模型,将输入向量编码为隐藏状态,获取隐藏状态的注意力权重,根据所述隐藏状态及其注意力权重,获取隐藏状态的语义表示,根据所述隐藏状态的语义表示,判别出不良短文本。
本发明还提供了一种基于BERT的网络不良短文本检测装置,包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如上述任一技术方案所述的基于BERT的网络不良短文本检测方法。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机该程序被处理器执行时,实现如上述任一技术方案的基于BERT的网络不良短文本检测方法。
与现有技术相比,本发明的有益效果包括:通过采集短文本,对所述短文本进行标注,将标注后的短文本分为测试数据集和训练数据集,根据所述测试数据集和训练数据集训练BERT模型,得到基于不良短文本检测的BERT模型;将待检测短文本及其对应的额外信息输入至所述基于不良短文本检测的BERT模型中,获取对应的隐藏状态的语义表示,根据隐藏状态的语义表示,获取不良短文本标签;将所述不良短文本标签、待检测短文本及其对应的额外信息输入至所述基于不良短文本检测的BERT模型中,获取对应的隐藏状态的语义表示,根据隐藏状态的语义表示,判别出不良短文本的类型;提高了不良短文本检测的性能。
附图说明
图1为本发明实施例1提供的基于BERT的网络不良短文本检测方法的流程示意图;
图2本发明实施例1提供的基于不良短文本检测的BERT模型的结构示意图;
图3本发明实施例1提供的TBERT模型与基准模型的性能对比实验结果。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
实施例1
本发明实施例提供了一种基于BERT的网络不良短文本检测方法,其流程示意图,如图1所示,所述方法包括以下步骤:
步骤S1、采集短文本,对所述短文本进行标注,将标注后的短文本分为测试数据集和训练数据集,根据所述测试数据集和训练数据集训练BERT模型,得到基于不良短文本检测的BERT模型;
S2、将待检测短文本及其对应的额外信息输入至所述基于不良短文本检测的BERT模型中,获取对应的隐藏状态的语义表示,根据隐藏状态的语义表示,获取不良短文本标签;
S3、将所述不良短文本标签、待检测短文本及其对应的额外信息输入至所述基于不良短文本检测的BERT模型中,获取对应的隐藏状态的语义表示,根据隐藏状态的语义表示,判别出不良短文本的类型。
一个具体实施例中,基于BERT的网络不良短文本检测方法包括TBERT的短文本表示生成过程,TBERT的额外信息融合过程及TBERT的两阶段分类过程;
短文本表示的生成过程是由BERT模型作为编码器完成的;在BERT模型结构中,利用Transformer对输入进行编码;
假设输入短文本用X=(字符1,字符2,……,字符N)表示,短文本的长度用N表示;分段向量、字符向量和位置向量共同表示输入短文本X;分段向量用于区分两个不同的文本段,字符向量用于表示短文本中的每个字符,位置向量用于为模型提供位置信息;在向量化表示之后,模型的输入为向量E=(E1,E2,……,EN);在BERT模型中,自注意力和多头注意力机制用于将向量E编码为隐藏状态H=(H1,H2,……,HN);自注意力机制指的是一个查询到一系列键—值对的映射;令Q、K和V分别表示查询、键和值,自注意力权重可通过如下公式计算得到;
Figure BDA0002651324460000061
多头注意力允许模型在不同的表示子空间里都能学习到相关的信息,具体指的是每次Q、K和V进行线性变换的参数都是不一样的;然后将多次的注意力结果进行拼接,再进行一次线性变换得到的值作为多头注意力的结果,如下公式所示,
MultiHead(Q,K,V)=Concat(head1,head2,...,headh)WO
Figure BDA0002651324460000062
其中,Concat表示连接操作,
Figure BDA0002651324460000063
Figure BDA0002651324460000064
表示参数矩阵;
一个具体实施例中,多头注意力层数h=12,dk=dv=dmodeL/h=64,由于每个多头层的维数减少,总的计算成本与全维度的单头注意力的计算成本相似,在原始的BERT模型中,[CLS]作为第一个字符被添加到字符序列,其隐藏状态Hc被用作分类任务的短文本表示Rc,本发明实施例中,将所有隐藏状态合并为用于分类的短文本向量表示,并融合了额外信息;
优选的,对所述短文本进行标注,将标注后的短文本分为测试数据集和训练数据集,根据所述测试数据集和训练数据集训练BERT模型,具体包括,将所述短文本标注为不良短文本或者正常短文本,将不良短文本标注为不同类型的不良短文本,将标注后的短文本分为测试数据集和训练数据集,利用测试数据集、训练数据集以及短文本的额外信息,训练BERT模型;
优选的,利用测试数据集、训练数据集以及短文本的额外信息,训练BERT模型,具体包括,利用测试数据集、训练数据集以及短文本的额外信息,并使用Gelu作为激活函数,使用Adam优化器,使用交叉熵损失函数训练BERT模型,其中,交叉熵损失函数为
Figure BDA0002651324460000071
其中,y表示短文本数据集的真实标签,p表示模型预测的标签,m表示标签的数量,n表示短文本数据集的数量;
优选的,将待检测短文本及其对应的额外信息输入至所述基于不良短文本检测的BERT模型中,获取对应的隐藏状态的语义表示,根据隐藏状态的语义表示,获取不良短文本标签,具体包括,将待检测短文本及其对应的额外信息进行向量化,得到输入向量,将所述输入向量输入至所述于不良短文本检测的BERT模型,将输入向量编码为隐藏状态,获取隐藏状态的注意力权重,根据所述隐藏状态及其注意力权重,获取隐藏状态的语义表示,根据所述隐藏状态的语义表示,获取不良短文本标签;
一个具体实施例中,基于不良短文本检测的BERT模型的结构示意图,如图2所示,图2中,粗粒度标签即为不良短文本标签,细粒度即为不良短文本类型,EL为粗粒度标签生成的向量,[SEP]为BERT模型中的字符,所述基于不良短文本检测的BERT模型,通过两种方式融合额外信息,第一种是将一部分额外信息直接添加到短文本的头部,形成一个更长的,语义特征更丰富的短文本表示,以缓解稀疏性问题;第二种是是利用主题特征来计算注意力,这决定了所有隐藏状态在输出短文本表示中的权重,与该短文本主题相关性更强的隐藏状态将在短文本表示中占有更大的权重;
优选的,根据所述隐藏状态的语义表示,判别出不良短文本,具体包括,将[CLS]代表的短文本与所有隐藏状态的语义表示连接起来,形成用于分类的向量R,将向量R输入全连接层,获取不良短文本标签。
优选的,获取隐藏状态的注意力权重,具体包括,利用注意力权重计算公式,获取获取隐藏状态的注意力权重,其中,注意力权重计算公式为
Figure BDA0002651324460000081
f表示关系评分函数,f(Hi,T)=tanh(W[Hi:T]+b),tanh表示双曲正切激活函数,W和b表示模型的参数,Hi、T分别为隐藏状态和主题特征,Ai为注意力权重。
一个具体实施例中,使用GPU-DMM主题模型抽取短文本的主题特征,并使用隐藏状态H和主题特征T之间的关系来计算注意力权重;
优选的,根据所述隐藏状态及其注意力权重,获取隐藏状态的语义表示,具体包括,利用语义表示公式,获取隐藏状态的语义表示,其中,所述语义表示公式为
Figure BDA0002651324460000091
一个具体实施中,将[CLS]代表的短文本表示Rc和所有隐藏状态的语义表示RH连接起来形成用于分类的向量表示R,R=Concat(Rc,RH)
优选的,将所述不良短文本标签、待检测短文本及其对应的额外信息输入至所述基于不良短文本检测的BERT模型中,获取对应的隐藏状态的语义表示,根据隐藏状态的语义表示,判别出不良短文本的类型,具体包括,所述不良短文本标签、待检测短文本及其对应的额外信息进行向量化,得到输入向量,将所述输入向量输入至所述于不良短文本检测的BERT模型,将输入向量编码为隐藏状态,获取隐藏状态的注意力权重,根据所述隐藏状态及其注意力权重,获取隐藏状态的语义表示,根据所述隐藏状态的语义表示,判别出不良短文本。
需要说明的是,在网络不良短文本检测任务中,难以明确界定某些短文本的标签,这是因为这些短文本是由用心不良的网民特意编造的,为了使它们具有误导性和迷惑性,这些短文本既包含普通内容又含有不良信息;因此,不应将网络不良短文本检测视为一个简单的文本二分类任务,不良短文本还应细分为暴恐、涉政、广告、色情等类别;
将短文本划分为“普通”和“不良”并不能适用于网络不良短文本的所有情况,应该使用更多类别对短文本进行分类,但是,细粒度多分类模型通常要比二类别分类模型更难以训练和建模,本发明实施例提供的基于不良短文本检测的BERT模型,可以用来区分不同粒度的标签,模型的两个阶段能够相互促进;
如图2所示,基于不良短文本检测的BERT模型在两个阶段是比较相似的,TBERT首先根据粗粒度标签划分网络短文本,即“普通”和“不良”两类;然后,模型再根据细粒度标签将短文本划分为多个类别,类别数量由数据集的特性决定;在第二个阶段,该模型将第一阶段得到的粗粒度标签(即不良短文本标签)作为第二阶段输入的一部分,并遵循同样的建模方式,对所有输入进行细粒度分类,即判别出不良短文本的类型。
另一个具体实施中,将现有的支持向量机、随机森林和BERT模型作为基准模块与本发明实施例所述的基于不良短文本检测的BERT模型,使用网络不良短文本检测常用的性能评价指标即准确率、召回率和F1值对实验结果进行分析;
采集并标注了4236条短文本,其中2118条为不良短文本,类别包括敏感短文本、灌水短文本、广告短文本和色情短文本;随机选择400条不良短文本和400条正常短文本作为测试数据集,剩余的短文本作为训练数据集;对于第一部分的额外信息,评论数、微博数、作者粉丝数、点赞数经过离散化后,直接作为模型输入序列中的一部分;对于第二部分的额外信息,短文本对应主题中概率最高的10个词语构成该短文本的主题特征,用于计算注意力权重;TBERT模型(基于不良短文本检测的BERT模型)使用预训练BERTBASE(Chinese)模型,使用Gelu作为激活函数,使用Adam优化器,学习率设置为5e-5,Dropout概率设置为0.1;TBERT模型与基准模型的性能对比实验结果,如图3所示,本发明实施例所述的基于不良短文本检测的BERT模型在3个评价指标上均要优于3种基准模型。
实施例2
本发明实施例提供了一种基于BERT的网络不良短文本检测装置,包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如实施例1所述的基于BERT的网络不良短文本检测方法。
实施例3
本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机该程序被处理器执行时,实现如实施例1所述的基于BERT的网络不良短文本检测方法。
本发明公开了一种基于BERT的网络不良短文本检测方法、装置及计算机可读存储介质,通过采集短文本,对所述短文本进行标注,将标注后的短文本分为测试数据集和训练数据集,根据所述测试数据集和训练数据集训练BERT模型,得到基于不良短文本检测的BERT模型;将待检测短文本及其对应的额外信息输入至所述基于不良短文本检测的BERT模型中,获取对应的隐藏状态的语义表示,根据隐藏状态的语义表示,获取不良短文本标签;将所述不良短文本标签、待检测短文本及其对应的额外信息输入至所述基于不良短文本检测的BERT模型中,获取对应的隐藏状态的语义表示,根据隐藏状态的语义表示,判别出不良短文本的类型;提高了不良短文本检测的性能;
本发明所述技术方案通过学习到更鲁棒更鲁棒的短文本表示,从而提取适合网络不良短文本检测的文本特征;充分考虑到不同类型的网络不良短文本之间的关联,将检测过程划分为两个阶段,并利用额外信息丰富短文本语义,还利用所有隐藏状态特征进行分类,从而缓解短文本信息稀疏问题;还通过粗粒度分类和细粒度分类相互促进,提高不良短文本检测准确率。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于BERT的网络不良短文本检测方法,其特征在于,包括以下步骤:
采集短文本,对所述短文本进行标注,将标注后的短文本分为测试数据集和训练数据集,根据所述测试数据集和训练数据集训练BERT模型,得到基于不良短文本检测的BERT模型;
将待检测短文本及其对应的额外信息输入至所述基于不良短文本检测的BERT模型中,获取对应的隐藏状态的语义表示,根据隐藏状态的语义表示,获取不良短文本标签;
将所述不良短文本标签、待检测短文本及其对应的额外信息输入至所述基于不良短文本检测的BERT模型中,获取对应的隐藏状态的语义表示,根据隐藏状态的语义表示,判别出不良短文本的类型。
2.根据权利要求1所述的基于BERT的网络不良短文本检测方法,其特征在于,对所述短文本进行标注,将标注后的短文本分为测试数据集和训练数据集,根据所述测试数据集和训练数据集训练BERT模型,具体包括,将所述短文本标注为不良短文本或者正常短文本,将不良短文本标注为不同类型的不良短文本,将标注后的短文本分为测试数据集和训练数据集,利用测试数据集、训练数据集以及短文本的额外信息,训练BERT模型。
3.根据权利要求1所述的基于BERT的网络不良短文本检测方法,其特征在于,利用测试数据集、训练数据集以及短文本的额外信息,训练BERT模型,具体包括,利用测试数据集、训练数据集以及短文本的额外信息,并使用Gelu作为激活函数,使用Adam优化器,使用交叉熵损失函数训练BERT模型,其中,交叉熵损失函数为
Figure FDA0002651324450000011
其中,y表示短文本数据集的真实标签,p表示模型预测的标签,m表示标签的数量,n表示短文本数据集的数量。
4.根据权利要求1所述的基于BERT的网络不良短文本检测方法,其特征在于,将待检测短文本及其对应的额外信息输入至所述基于不良短文本检测的BERT模型中,获取对应的隐藏状态的语义表示,根据隐藏状态的语义表示,获取不良短文本标签,具体包括,将待检测短文本及其对应的额外信息进行向量化,得到输入向量,将所述输入向量输入至所述于不良短文本检测的BERT模型,将输入向量编码为隐藏状态,获取隐藏状态的注意力权重,根据所述隐藏状态及其注意力权重,获取隐藏状态的语义表示,根据所述隐藏状态的语义表示,获取不良短文本标签。
5.根据权利要求4所述的基于BERT的网络不良短文本检测方法,其特征在于,根据所述隐藏状态的语义表示,判别出不良短文本,具体包括,将[CLS]代表的短文本与所有隐藏状态的语义表示连接起来,形成用于分类的向量R,将向量R输入全连接层,获取不良短文本标签。
6.根据权利要求5所述的基于BERT的网络不良短文本检测方法,其特征在于,获取隐藏状态的注意力权重,具体包括,利用注意力权重计算公式,获取获取隐藏状态的注意力权重,其中,注意力权重计算公式为
Figure FDA0002651324450000021
f表示关系评分函数,f(Hi,T)=tanh(W[Hi:T]+b),tanh表示双曲正切激活函数,W和b表示模型的参数,Hi、T分别为隐藏状态和主题特征,Ai为注意力权重。
7.根据权利要求6所述的基于BERT的网络不良短文本检测方法,其特征在于,根据所述隐藏状态及其注意力权重,获取隐藏状态的语义表示,具体包括,利用语义表示公式,获取隐藏状态的语义表示,其中,所述语义表示公式为
Figure FDA0002651324450000031
8.根据权利要求6所述的基于BERT的网络不良短文本检测方法,其特征在于,将所述不良短文本标签、待检测短文本及其对应的额外信息输入至所述基于不良短文本检测的BERT模型中,获取对应的隐藏状态的语义表示,根据隐藏状态的语义表示,判别出不良短文本的类型,具体包括,所述不良短文本标签、待检测短文本及其对应的额外信息进行向量化,得到输入向量,将所述输入向量输入至所述于不良短文本检测的BERT模型,将输入向量编码为隐藏状态,获取隐藏状态的注意力权重,根据所述隐藏状态及其注意力权重,获取隐藏状态的语义表示,根据所述隐藏状态的语义表示,判别出不良短文本。
9.一种基于BERT的网络不良短文本检测装置,其特征在于,包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1-8任一所述的基于BERT的网络不良短文本检测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机该程序被处理器执行时,实现如权利要求1-8任一所述的基于BERT的网络不良短文本检测方法。
CN202010871788.9A 2020-08-26 2020-08-26 一种基于bert的网络不良短文本检测方法、装置及存储介质 Pending CN112131453A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010871788.9A CN112131453A (zh) 2020-08-26 2020-08-26 一种基于bert的网络不良短文本检测方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010871788.9A CN112131453A (zh) 2020-08-26 2020-08-26 一种基于bert的网络不良短文本检测方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN112131453A true CN112131453A (zh) 2020-12-25

Family

ID=73848589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010871788.9A Pending CN112131453A (zh) 2020-08-26 2020-08-26 一种基于bert的网络不良短文本检测方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112131453A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240480A (zh) * 2021-01-25 2021-08-10 天津五八到家货运服务有限公司 订单处理方法、装置、电子终端及存储介质
CN113312452A (zh) * 2021-06-16 2021-08-27 哈尔滨工业大学 基于多任务学习的篇章级文本连贯性分类方法
CN113593611A (zh) * 2021-07-26 2021-11-02 平安科技(深圳)有限公司 语音分类网络训练方法、装置、计算设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273426A (zh) * 2017-05-18 2017-10-20 四川新网银行股份有限公司 一种基于深度语义路径搜索的短文本聚类方法
CN110134786A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于主题词向量与卷积神经网络的短文本分类方法
CN111309919A (zh) * 2020-03-23 2020-06-19 智者四海(北京)技术有限公司 文本分类模型的系统及其训练方法
CN111475617A (zh) * 2020-03-30 2020-07-31 招商局金融科技有限公司 事件主体抽取方法、装置及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273426A (zh) * 2017-05-18 2017-10-20 四川新网银行股份有限公司 一种基于深度语义路径搜索的短文本聚类方法
CN110134786A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于主题词向量与卷积神经网络的短文本分类方法
CN111309919A (zh) * 2020-03-23 2020-06-19 智者四海(北京)技术有限公司 文本分类模型的系统及其训练方法
CN111475617A (zh) * 2020-03-30 2020-07-31 招商局金融科技有限公司 事件主体抽取方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
倪海清;刘丹;史梦雨;: "基于语义感知的中文短文本摘要生成模型", 计算机科学, no. 06 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240480A (zh) * 2021-01-25 2021-08-10 天津五八到家货运服务有限公司 订单处理方法、装置、电子终端及存储介质
CN113312452A (zh) * 2021-06-16 2021-08-27 哈尔滨工业大学 基于多任务学习的篇章级文本连贯性分类方法
CN113593611A (zh) * 2021-07-26 2021-11-02 平安科技(深圳)有限公司 语音分类网络训练方法、装置、计算设备及存储介质

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN106570708B (zh) 一种智能客服知识库的管理方法及系统
CN108959270B (zh) 一种基于深度学习的实体链接方法
CN111966917B (zh) 一种基于预训练语言模型的事件检测与摘要方法
Zhao et al. Cyberbullying detection based on semantic-enhanced marginalized denoising auto-encoder
CN103049435B (zh) 文本细粒度情感分析方法及装置
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN111291188B (zh) 一种智能信息抽取方法及系统
CN109190117A (zh) 一种基于词向量的短文本语义相似度计算方法
CN110750640A (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
CN112131453A (zh) 一种基于bert的网络不良短文本检测方法、装置及存储介质
CN111046941A (zh) 一种目标评论检测方法、装置、电子设备和存储介质
CN103559191A (zh) 基于隐空间学习和双向排序学习的跨媒体排序方法
CN112256866A (zh) 一种基于深度学习的文本细粒度情感分析方法
CN114969275A (zh) 一种基于银行知识图谱的对话方法及其系统
CN115017303A (zh) 基于新闻文本进行企业风险评估的方法、计算设备和介质
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
CN112101040A (zh) 一种基于知识图谱的古代诗词语义检索方法
CN110019820B (zh) 一种病历中主诉与现病史症状时间一致性检测方法
WO2020074017A1 (zh) 基于深度学习的医学文献中关键词筛选方法及装置
CN114064901B (zh) 一种基于知识图谱词义消歧的书评文本分类方法
Medvet et al. Brand-related events detection, classification and summarization on twitter
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
Skondras et al. Efficient Resume Classification through Rapid Dataset Creation Using ChatGPT
CN112765940B (zh) 一种基于主题特征和内容语义的网页去重方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination