CN115827865A - 一种融合多特征图注意力机制的不良文本分类方法及系统 - Google Patents

一种融合多特征图注意力机制的不良文本分类方法及系统 Download PDF

Info

Publication number
CN115827865A
CN115827865A CN202211557661.5A CN202211557661A CN115827865A CN 115827865 A CN115827865 A CN 115827865A CN 202211557661 A CN202211557661 A CN 202211557661A CN 115827865 A CN115827865 A CN 115827865A
Authority
CN
China
Prior art keywords
text
output
graph
words
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211557661.5A
Other languages
English (en)
Inventor
彭闯
王丽娟
赵建强
陈诚
张辉极
韩名羲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN202211557661.5A priority Critical patent/CN115827865A/zh
Publication of CN115827865A publication Critical patent/CN115827865A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提出了一种融合多特征图注意力机制的不良文本分类方法,该方法包括如下步骤:响应于对获取的文本数据进行预处理;将获取的文本数据进行进一步处理,以构建文本图;利用图注意力机制对所述文本图进行特征学习;进一步将图注意力机制嵌入到Transformer网络中进行并行处理获得输出,同时利用Bi_GRU神经网络进行并行处理获得输出;以及将MGTransformer与Bi_GRU的输出拼接,得到最终的文本分类结果。本发明针对社交媒体中不良文本的分类任务,通过从不良文本的特征和文本语义角度出发,结合图注意力机制、Transformer和Bi_GRU构建了一种短文本分类模型。该模型为深度学习在不良文本分类任务上的应用提供了一种新的思路,解决了深度学习模型在不良文本分类问题泛化性差、精度较低的问题。

Description

一种融合多特征图注意力机制的不良文本分类方法及系统
技术领域
本发明属于文本分类的技术领域,具体涉及一种融合多特征图注意力机制的不良文本分类方法及系统。
背景技术
随着互联网技术的加速普及,社交媒体平台已经人们日常沟通交流不可或缺的工具,但由于社交媒体的虚拟性与网络信息传播的隐蔽性,一些非法用户借助于社交媒体平台发布和传播负面言论,如各种不良信息。社交媒体中不良信息的传播通常以聊天、评论等短文本形式为主,这类文本的文本长度短、用词无约束、特征稀疏,句式语法多变、口语化严重,此外,在表达上更加隐晦,为规避自动检测,通常以原不良词汇的谐音字词、形变词等变体形式出现。
目前广泛采用的不良文本分类方法主要有两种,一种是使用字符串匹配方法检索出待检测文本中的不良关键词,若文本语句中含有不良词汇,则认为该文本为不良文本,此类方法缺陷在于带有不良词汇的文本不一定是不良文本,误判率较高;另一种则是采用深度学习模型融合的方式进行文本分类,首先使用文本溯源的模型将不良文本拟合为正常文本,再使用溯源后的文本数据作为训练集训练一个文本分类器,最后利用训练好的文本分类器进行文本分类任务,这类方法的缺点在于溯源模型训练慢,分类的准确率过度依赖于文本溯源的结果。
因此,如何自动、高效地实现不良信息的分类与过滤,对提高用户的正常网络社交体验与维护社会的长治久安有着重要意义,如果能够设计出一种准确、高效的不良信息检测与分类模型,那么该模型将具有较高的现实意义及商业价值。
有鉴于此,提出一种融合多特征图注意力机制的不良文本分类方法及系统是非常具有意义的。
发明内容
为了解决现有的不良文本分类方法存在误判率较高,溯源模型训练慢,分类的准确率过度依赖于文本溯源的结果,深度学习模型的泛化性差、精度较低等问题,本发明提供一种融合多特征图注意力机制的不良文本分类方法及系统,以解决上述存在的技术缺陷问题。
第一方面,本发明提出了一种融合多特征图注意力机制的不良文本分类方法,该方法包括如下步骤:
响应于对获取的文本数据进行预处理;
将获取的文本数据进行进一步处理,以构建文本图;
利用图注意力机制对所述文本图进行特征学习;
进一步将图注意力机制嵌入到Transformer网络中进行并行处理获得输出,同时利用Bi_GRU神经网络进行并行处理获得输出;以及
将MGTransformer与Bi_GRU的输出拼接,得到最终的文本分类结果。
优选的,对获取的文本数据进行预处理包括去除干扰词和格式化语句,具体包括:
采用字符串匹配的方式将包含特殊标识符的干扰词进行去除;
采用正则表达式将社交文本中的自带的固有话语句进行去除。
优选的,将获取的文本数据进行进一步处理,以构建文本图,具体包括:
将获取的文本进行分词和词性标注:分词后的结果通过预训练模型转换为低维与稠密的词向量,进行词性分析后,去除连词、助词、副词的冗余词语,将名词、动词、形容词、副词作为图节点;
构建词语需要的变形词库:使用预先收集的不良文本变形词库,其中变形词的种类主要包括形变词、音变词、拆分词和同义词;
使用滑动窗口得到文本词的文本图:使用固定大小的滑动窗口作用在文本语句上作为构建边的规则,如果两个词语在同一窗口内则添加一条无向边,不良词汇与其变形词之间直接添加无向边。
优选的,利用图注意力机制对所述文本图进行特征学习包括利用图注意力机制进行特征聚合,具体包括:
已知节点i,其邻域为N(i),设节点j∈N(i),首先计算节点对(i,j)之间的注意力系数:
Figure BDA0003983300000000033
其中,σ表示任意非线性激活函数,W(l)是可训练的矩阵,拼接特征节点hi、hj的线性变换矩阵后与可学习的注意力函数α(l)做点积运算,再利用非线性激活函数σ对得到的节点进行激活处理得到原始注意力分数;
再对节点邻域内所有入边的原始注意力分数进行归一化,得到注意力聚合系数,对邻域节点特征加权求和,得到更新后的节点i的嵌入表示:
Figure BDA0003983300000000031
hi (l+1)=σ(∑j∈N(i)αij (l)zj (l))。
进一步优选的,还包括:
为促进图注意力机制更稳定地进行特征聚合,拼接K个多头注意力机制以丰富模型的提取能力,如果该层是模型的最后一层,则采用求K个头的平均值的方式表示节点:
Figure BDA0003983300000000032
Figure BDA0003983300000000041
优选的,将图注意力机制嵌入到Transformer网络中进行并行处理获得输出,具体包括:
第一层是对GAT进行并行操作的Transformer层:使用Transformer编码层部分,将Transformer编码层部分自注意力输入部分修改为GAT,实现多个GAT并行计算;
mhoutput=conca(head1,head2,...,headn)
其中,n表示GAT模块的个数;
第二层为全连接层和激活层,保留Transformer中的残差连接和归一化操作,将归一化的结果接入一个Feedword层,由全连接层和relu激活函数组成,得到MGAT-Transformer的输出;
Feedforwardoutput=ReLU(mhoutputW1+b1)W2+b2
优选的,将MGTransformer与Bi_GRU的输出拼接,得到最终的文本分类结果,具体包括:
将MGTransformer的输出与Bi_GRU的输出进行横向拼接,得到最终的文本向量表示;
然后将得到的文本向量接入到一个全连接和log_softmax函数进行分类结果预测,得到最终的类别置信分数;
最后利用置信分数得到文本对应的分类标签,并记录每条文本的分类结果;
Houtput=concat(hMGT+hBi_GRU)
output=softmax(fullconnect(Houtput))
其中,fullconnect(Houtput)=relu(HoutputW1+e1),output值即为整个模型对输入文本预测的结果。
第二方面,本发明实施例还公开一种融合多特征图注意力机制的不良文本分类系统,该系统具体包括:
预处理模块,用于响应于对获取的文本数据进行预处理;
构建文本图模块,用于将获取的文本数据进行进一步处理,以构建文本图;
特征学习模块,用于利用图注意力机制对所述文本图进行特征学习;
MGTransformer模块,用于将图注意力机制嵌入到Transformer网络中进行并行处理获得输出;
Bi_GRU神经网络模块,用于利用Bi_GRU神经网络进行并行处理获得输出;
输出拼接模块,用于将MGTransformer与Bi_GRU的输出拼接,得到最终的文本分类结果。
第三方面,本发明实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
与现有技术相比,本发明的有益成果在于:
(1)本发明针对不良文本的特征提出了一种改进的图神经网络分类方法。首先,发明了一种融合词语词性、可以自由连接外部词库的文本图构建方法,通过将不良关键词的变形体作为额外的自由节点连接到文本图中,不仅充分学习了词语间的非线性关系,而且也泛化了模型对形变词的能力。其次,提出了一种融合多特征图注意力机制的不良文本分类方法,模型的主体部分主要分为两个特征层,第一个特征层为多模块图注意力机制层,借助于transformer可以使用多个头实现快速并行的特点,并行多个模块的图注意力机制,从不同子空间多维度提取文本图特征;第二个特征层为Bi_GRU层,在多模块图注意力机制的基础上并行Bi_GRU,以学习文本的连续语义信息,弥补图神经网络的不足,最后,利用敏感文本的分类数据集进行测试,对比了其他的敏感文本分类方法,证明了图卷积分类模型在社交媒体不良文本分类的有效性。
(2)本发明针对社交媒体中不良文本的分类任务,从不良文本的特征和文本语义角度出发,结合图注意力机制、Transformer和Bi_GRU构建了一种短文本分类模型。该模型为深度学习在不良文本分类任务上的应用提供了一种新的思路,解决了深度学习模型在不良文本分类问题泛化性差、精度较低的问题。
附图说明
包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。附图的元件不一定是相互按照比例的。同样的附图标记指代对应的类似部件。
图1是本发明的一个实施例可以应用于其中的示例性装置架构图;
图2为本发明的实施例的融合多特征图注意力机制的不良文本分类方法的流程示意图;
图3为本发明的实施例的融合多特征图注意力机制的不良文本分类方法中MGAT_BiGRU模型的整体框架示意图;
图4为本发明的实施例的融合多特征图注意力机制的不良文本分类方法中文本图的示例示意图;
图5为本发明的实施例的融合多特征图注意力机制的不良文本分类方法中具体模型结构示意图;
图6为本发明的实施例的融合多特征图注意力机制的不良文本分类系统的结构示意图;
图7是适于用来实现本发明实施例的电子设备的计算机装置的结构示意图。
具体实施方式
在以下详细描述中,参考附图,该附图形成详细描述的一部分,并且通过其中可实践本发明的说明性具体实施例来示出。对此,参考描述的图的取向来使用方向术语,例如“顶”、“底”、“左”、“右”、“上”、“下”等。因为实施例的部件可被定位于若干不同取向中,为了图示的目的使用方向术语并且方向术语绝非限制。应当理解的是,可以利用其他实施例或可以做出逻辑改变,而不背离本发明的范围。因此以下详细描述不应当在限制的意义上被采用,并且本发明的范围由所附权利要求来限定。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图1示出了可以应用本发明实施例的用于处理信息的方法或用于处理信息的装置的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有通信功能的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103发送的校验请求信息进行处理的后台信息处理服务器。后台信息处理服务器可以对接收到的校验请求信息进行分析等处理,并得到处理结果(例如用于表征校验请求为合法请求的校验成功信息)。
需要说明的是,本发明实施例所提供的用于处理信息的方法一般由服务器105执行,相应地,用于处理信息的装置一般设置于服务器105中。另外,本发明实施例所提供的用于发送信息的方法一般由终端设备101、102、103执行,相应地,用于发送信息的装置一般设置于终端设备101、102、103中。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或多个软件模块,在此不做具体限定。
目前广泛采用的不良文本分类方法主要有两种,一种是使用字符串匹配方法检索出待检测文本中的不良关键词,若文本语句中含有不良词汇,则认为该文本为不良文本,此类方法缺陷在于带有不良词汇的文本不一定是不良文本,误判率较高;另一种则是采用深度学习模型融合的方式进行文本分类,首先使用文本溯源的模型将不良文本拟合为正常文本,再使用溯源后的文本数据作为训练集训练一个文本分类器,最后利用训练好的文本分类器进行文本分类任务,这类方法的缺点在于溯源模型训练慢,分类的准确率过度依赖于文本溯源的结果。
针对上述问题,本发明针对不良文本的特征提出了一种改进的图神经网络分类方法。首先,发明了一种融合词语词性、可以自由连接外部词库的文本图构建方法,通过将不良关键词的变形体作为额外的自由节点连接到文本图中,不仅充分学习了词语间的非线性关系,而且也泛化了模型对形变词的能力;其次,提出了一种融合多特征图注意力机制的不良文本分类方法,模型的主体部分主要分为两个特征层,第一个特征层为多模块图注意力机制层,借助于transformer可以使用多个头实现快速并行的特点,并行多个模块的图注意力机制,从不同子空间多维度提取文本图特征;第二个特征层为Bi_GRU层,在多模块图注意力机制的基础上并行Bi_GRU,以学习文本的连续语义信息,弥补图神经网络的不足。最后,利用敏感文本的分类数据集进行测试,对比了其他的敏感文本分类方法,证明了图卷积分类模型在社交媒体不良文本分类的有效性。
第一方面,图2示出了本发明的实施例公开了一种融合多特征图注意力机制的不良文本分类方法,如图2所示,该方法包括如下步骤:
S101、响应于对获取的文本数据进行预处理;
具体的,本发明从不良文本的语义理解角度出发,基于GAT(Graph AttentionTransformer)和Bi_GRU(Bi Gated Recurrent Unit),构建了一种适用于不良短文本分类的模型MGAT_BiGRU。该模型的整体框架如图3所示。
进一步的,预处理既可以降低无用词对模型结果的干扰,也可以减少后期构建文本图时冗余边和点。在本实施例中,本发明预处理的步骤主要为去干扰词和格式化语句两个步骤。其中,干扰词主要是指表情符号、“¥”、“&”等特殊标识符,本文采用字符串匹配的方式进行去除;格式化的语句则是指社交文本中的自带的固有化语句,例如“xxx加入了群聊”、“xxx添加你为朋友”等句子,本文采用正则表达式的方式进行去除。
S102、将获取的文本数据进行进一步处理,以构建文本图;
具体的,在本实施例中,首先将文本进行分词和词性标注,分词后的结果通过预训练模型转换为低维、稠密的词向量,进行词性分析后,去除连词、助词、副词等对分类效果影响较小的冗余词语,将名词、动词、形容词、副词作为图节点;
其次,构建词语需要的变形词库,本发明使用自己收集的不良文本变形词库,其中,变形词的种类主要包括形变词、音变词、拆分词和同义词;
最后,使用滑动窗口得到文本词的文本图,其中,构建边的规则是使用固定大小的滑动窗口作用在文本语句上,如果两个词语在同一窗口内则添加一条无向边;不良词汇与其变形词之间直接添加无向边。以“有认识六合彩庄家的吗?想找个长期合作”为例,假设滑动窗口大小设为3,经过词性筛选、变形词检索和连边后构建的文本图如图4所示。
S103、利用图注意力机制对所述文本图进行特征学习;
具体的,图注意力机制进行特征聚合的过程具体如下:
已知节点i,其邻域为N(i),设节点j∈N(i),首先计算节点对(i,j)之间的注意力系数:
Figure BDA0003983300000000104
其中,W(l)是可训练的矩阵,拼接特征节点hi、hj的线性变换矩阵后与可学习的注意力函数α(l)做点积运算,再利用非线性激活函数对得到的节点进行激活处理得到原始注意力分数,公式中的σ表示任意非线性激活函数。
之后,再对节点邻域内所有入边的原始注意力分数进行归一化,得到注意力聚合系数;对邻域节点特征加权求和,得到更新后的节点i的嵌入表示:
Figure BDA0003983300000000101
Figure BDA0003983300000000102
最后,为促进图注意力机制更稳定地进行特征聚合,拼接K个多头注意力机制以丰富模型的提取能力,如果该层是模型的最后一层,则采用求K个头的平均值的方式表示节点:
Figure BDA0003983300000000103
Figure BDA0003983300000000111
S104、进一步将图注意力机制嵌入到Transformer网络中进行并行处理获得输出,同时利用Bi_GRU神经网络进行并行处理获得输出;以及
作为优选的实施例,将图注意力机制嵌入到Transformer网络中,实现多个模块的图注意力机制快速并行。
在本发明中主要包含两个部分,第一层是对GAT进行并行操作的Transformer层。本发明使用了Transformer编码层部分,将Transformer编码层部分自注意力输入部分修改为GAT,实现了多个GAT并行计算;第二层为全连接层和激活层,其中为了加速模型的收敛,本发明保留了Transformer中的残差连接和归一化操作,最后将归一化的结果接入一个Feedword层,由全连接层和relu激活函数组成,得到MGAT-Transformer的输出。具体模型结构如图5所示。
具体的,MGAT部分的整体输入为词向量嵌入和邻接矩阵,邻接矩阵表示的是与改词相邻的词语的信息。使用多个并行的GAT学习文本图特征,将提取的特征横向拼接。GAT可以将形变和音变后的词向量信息进行整合,利用Transformer的并行计算从不同维度学习了GAT中词语的关联关系,具体公式如下:
mhoutput=conca(head1,head2,...,headn)
其中,n表示GAT模块的个数。
将Transformer并行拼接的结果接入到前馈神经网络层,前馈神经网络(FeedForward)主要由两个全连接和Relu激活函数组成。通过变换输出空间来提高模型的表现能力。
Feedforwardoutput=ReLU(mhoutputW1+b1)W2+b2
进一步的,由于图数据本质上是离散化的,无法建模句子的序列关系、获取文本语句丰富的上下文语义信息,循环神经网络作为一种时序数据处理模型,在序列相关的文本处理任务上有着天然的优势,因此在MGAT的基础上并行Bi_GRU。
一方面,Bi_GRU神经网络可以建模文本的时序信息,克服图神经网络无法获取上下文语义信息的缺陷;另一方面,将GAT与Transformer相结合,深层次挖掘文本图的特征的同时,弥补了循环神经网络无法实现并行且难以捕获长距离依赖关系的缺点。两个组成部分优势互补,相辅相成。
S105、将MGTransformer与Bi_GRU的输出拼接,得到最终的文本分类结果。
具体的,首先,将MGTransformer的输出与Bi_GRU的输出进行横向拼接,得到最终的文本向量表示,然后将得到的文本向量接入到一个全连接和log_softmax函数进行分类结果预测,得到最终的类别置信分数,最后利用置信分数得到文本对应的分类标签,记录每条文本的分类结果。
Houtput=concat(hMGT+hBi_GRU)
output=softmax(fullconnect(Houtput))
其中,fullconnect(Houtput)=relu(HoutputW1+e1),output值即为整个模型对输入文本预测的结果。
第二方面,本发明的实施例还公开了一种融合多特征图注意力机制的不良文本分类系统,如图6所示,该系统具体包括:预处理模块61,构建文本图模块62,特征学习模块63,MGTransformer模块64,Bi_GRU神经网络模块65以及输出拼接模块66。
再一个具体的实施例中,预处理模块61,用于响应于对获取的文本数据进行预处理;构建文本图模块62,用于将获取的文本数据进行进一步处理,以构建文本图;特征学习模块63,用于利用图注意力机制对所述文本图进行特征学习;MGTransformer模块64,用于将图注意力机制嵌入到Transformer网络中进行并行处理获得输出;Bi_GRU神经网络模块65,用于利用Bi_GRU神经网络进行并行处理获得输出;输出拼接模块66,用于将MGTransformer与Bi_GRU的输出拼接,得到最终的文本分类结果。
本发明针对社交媒体中不良文本的分类任务,从不良文本的特征和文本语义角度出发,结合图注意力机制、Transformer和Bi_GRU构建了一种短文本分类模型。主要思路是:先将文本建模为离散化的图结构形式同时,通过将不良词变形体作为自由节点加入到文本图的方式以提高模型对变形不良词的识别率,然后借助Transformer并行的优点并列多个GAT模块进行文本图特征提取,提升了模型的训练效率;然后并行与加入Bi_GRU模型获取词语间更多的序列信息,弥补图神经网络无法获取文本序列信息的不足。
该模型为深度学习在不良文本分类任务上的应用提供了一种新的思路,解决了深度学习模型在不良文本分类问题泛化性差、精度较低的问题。但是本发明的技术方案仍存在不足的地方,例如分类的结果过于依赖不良文本词库的收集,词语边的权重不好定义等等问题,需要进一步的研究解决。
下面参考图7,其示出了适于用来实现本发明实施例的电子设备(例如图1所示的服务器或终端设备)的计算机装置700的结构示意图。图7示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机装置700包括中央处理单元(CPU)701和图形处理器(GPU)702,其可以根据存储在只读存储器(ROM)703中的程序或者从存储部分709加载到随机访问存储器(RAM)706中的程序而执行各种适当的动作和处理。在RAM 704中,还存储有装置700操作所需的各种程序和数据。CPU 701、GPU702、ROM 703以及RAM 704通过总线705彼此相连。输入/输出(I/O)接口706也连接至总线705。
以下部件连接至I/O接口706:包括键盘、鼠标等的输入部分707;包括诸如、液晶显示器(LCD)等以及扬声器等的输出部分708;包括硬盘等的存储部分709;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分710。通信部分710经由诸如因特网的网络执行通信处理。驱动器711也可以根据需要连接至I/O接口706。可拆卸介质712,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器711上,以便于从其上读出的计算机程序根据需要被安装入存储部分709。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分710从网络上被下载和安装,和/或从可拆卸介质712被安装。在该计算机程序被中央处理单元(CPU)701和图形处理器(GPU)702执行时,执行本发明的方法中限定的上述功能。
需要说明的是,本发明所述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的装置、装置或器件,或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行装置、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行装置、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本发明各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的装置来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:响应于对获取的文本数据进行预处理;将获取的文本数据进行进一步处理,以构建文本图;利用图注意力机制对所述文本图进行特征学习;进一步将图注意力机制嵌入到Transformer网络中进行并行处理获得输出,同时利用Bi_GRU神经网络进行并行处理获得输出;以及将MGTransformer与Bi_GRU的输出拼接,得到最终的文本分类结果。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种融合多特征图注意力机制的不良文本分类方法,其特征在于,该方法包括如下步骤:
响应于对获取的文本数据进行预处理;
将获取的文本数据进行进一步处理,以构建文本图;
利用图注意力机制对所述文本图进行特征学习;
进一步将图注意力机制嵌入到Transformer网络中进行并行处理获得输出,同时利用Bi_GRU神经网络进行并行处理获得输出;以及
将MGTransformer与Bi_GRU的输出拼接,得到最终的文本分类结果。
2.根据权利要求1所述的融合多特征图注意力机制的不良文本分类方法,其特征在于,对获取的文本数据进行预处理包括去除干扰词和格式化语句,具体包括:
采用字符串匹配的方式将包含特殊标识符的干扰词进行去除;
采用正则表达式将社交文本中的自带的固有话语句进行去除。
3.根据权利要求1所述的融合多特征图注意力机制的不良文本分类方法,其特征在于,将获取的文本数据进行进一步处理,以构建文本图,具体包括:
将获取的文本进行分词和词性标注:分词后的结果通过预训练模型转换为低维与稠密的词向量,进行词性分析后,去除连词、助词、副词的冗余词语,将名词、动词、形容词、副词作为图节点;
构建词语需要的变形词库:使用预先收集的不良文本变形词库,其中变形词的种类主要包括形变词、音变词、拆分词和同义词;
使用滑动窗口得到文本词的文本图:使用固定大小的滑动窗口作用在文本语句上作为构建边的规则,如果两个词语在同一窗口内则添加一条无向边,不良词汇与其变形词之间直接添加无向边。
4.根据权利要求1所述的融合多特征图注意力机制的不良文本分类方法,其特征在于,利用图注意力机制对所述文本图进行特征学习包括利用图注意力机制进行特征聚合,具体包括:
已知节点i,其邻域为N(i),设节点j∈N(i),首先计算节点对(i,j)之间的注意力系数:
Figure FDA0003983299990000021
其中,σ表示任意非线性激活函数,W(l)是可训练的矩阵,拼接特征节点hi、hj的线性变换矩阵后与可学习的注意力函数α(l)做点积运算,再利用非线性激活函数σ对得到的节点进行激活处理得到原始注意力分数;
再对节点邻域内所有入边的原始注意力分数进行归一化,得到注意力聚合系数,对邻域节点特征加权求和,得到更新后的节点i的嵌入表示:
Figure FDA0003983299990000022
hi (l+1)=σ(∑j∈N(i)αij (l)zj (l))。
5.根据权利要求4所述的融合多特征图注意力机制的不良文本分类方法,其特征在于,还包括:
为促进图注意力机制更稳定地进行特征聚合,拼接K个多头注意力机制以丰富模型的提取能力,如果该层是模型的最后一层,则采用求K个头的平均值的方式表示节点:
Figure FDA0003983299990000023
Figure FDA0003983299990000024
6.根据权利要求1所述的融合多特征图注意力机制的不良文本分类方法,其特征在于,将图注意力机制嵌入到Transformer网络中进行并行处理获得输出,具体包括:
第一层是对GAT进行并行操作的Transformer层:使用Transformer编码层部分,将Transformer编码层部分自注意力输入部分修改为GAT,实现多个GAT并行计算;
mhoutput=concat(head1,head2,...,headn)
其中,n表示GAT模块的个数;
第二层为全连接层和激活层,保留Transformer中的残差连接和归一化操作,将归一化的结果接入一个Feedword层,由全连接层和relu激活函数组成,得到MGAT-Transformer的输出;
Feedforwardoutput=ReLU(mhoutputW1+b1)W2+b2
7.根据权利要求1所述的融合多特征图注意力机制的不良文本分类方法,其特征在于,将MGTransformer与Bi_GRU的输出拼接,得到最终的文本分类结果,具体包括:
将MGTransformer的输出与Bi_GRU的输出进行横向拼接,得到最终的文本向量表示;
然后将得到的文本向量接入到一个全连接和log_softmax函数进行分类结果预测,得到最终的类别置信分数;
最后利用置信分数得到文本对应的分类标签,并记录每条文本的分类结果;
Houtput=concat(hMGT+hBi_GRU)
output=softmax(fullconnect(Houtput))
其中,fullconnect(Houtput)=relu(HoutputW1+e1),output值即为整个模型对输入文本预测的结果。
8.一种融合多特征图注意力机制的不良文本分类系统,其特征在于,该系统具体包括:
预处理模块,用于响应于对获取的文本数据进行预处理;
构建文本图模块,用于将获取的文本数据进行进一步处理,以构建文本图;
特征学习模块,用于利用图注意力机制对所述文本图进行特征学习;
MGTransformer模块,用于将图注意力机制嵌入到Transformer网络中进行并行处理获得输出;
Bi_GRU神经网络模块,用于利用Bi_GRU神经网络进行并行处理获得输出;
输出拼接模块,用于将MGTransformer与Bi_GRU的输出拼接,得到最终的文本分类结果。
9.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至7中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7中任一所述的方法。
CN202211557661.5A 2022-12-06 2022-12-06 一种融合多特征图注意力机制的不良文本分类方法及系统 Pending CN115827865A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211557661.5A CN115827865A (zh) 2022-12-06 2022-12-06 一种融合多特征图注意力机制的不良文本分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211557661.5A CN115827865A (zh) 2022-12-06 2022-12-06 一种融合多特征图注意力机制的不良文本分类方法及系统

Publications (1)

Publication Number Publication Date
CN115827865A true CN115827865A (zh) 2023-03-21

Family

ID=85544253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211557661.5A Pending CN115827865A (zh) 2022-12-06 2022-12-06 一种融合多特征图注意力机制的不良文本分类方法及系统

Country Status (1)

Country Link
CN (1) CN115827865A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116311280A (zh) * 2023-05-17 2023-06-23 中国电子科技集团公司第十五研究所 基于图注意力网络的电子公文主题标引方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116311280A (zh) * 2023-05-17 2023-06-23 中国电子科技集团公司第十五研究所 基于图注意力网络的电子公文主题标引方法及系统
CN116311280B (zh) * 2023-05-17 2023-07-18 中国电子科技集团公司第十五研究所 基于图注意力网络的电子公文主题标引方法及系统

Similar Documents

Publication Publication Date Title
CN111444340B (zh) 文本分类方法、装置、设备及存储介质
US11288593B2 (en) Method, apparatus and device for extracting information
CN108255805B (zh) 舆情分析方法及装置、存储介质、电子设备
US11625573B2 (en) Relation extraction from text using machine learning
CN107679039B (zh) 用于确定语句意图的方法和装置
US20200042596A1 (en) On-Device Neural Networks for Natural Language Understanding
CN112015859A (zh) 文本的知识层次抽取方法及装置、计算机设备及可读介质
CN111709240A (zh) 实体关系抽取方法、装置、设备及其存储介质
CN112231569B (zh) 新闻推荐方法、装置、计算机设备及存储介质
CN113434683B (zh) 文本分类方法、装置、介质及电子设备
CN115688920A (zh) 知识抽取方法、模型的训练方法、装置、设备和介质
CN113705191A (zh) 样本语句的生成方法、装置、设备及存储介质
CN112528654A (zh) 自然语言处理方法、装置及电子设备
CN116775872A (zh) 一种文本处理方法、装置、电子设备及存储介质
CN115438149A (zh) 一种端到端模型训练方法、装置、计算机设备及存储介质
CN115269828A (zh) 用于生成评论回复的方法、设备和介质
CN114492661A (zh) 文本数据分类方法和装置、计算机设备、存储介质
CN115827865A (zh) 一种融合多特征图注意力机制的不良文本分类方法及系统
CN111767720B (zh) 一种标题生成方法、计算机及可读存储介质
CN111241273A (zh) 文本数据分类方法、装置、电子设备及计算机可读介质
CN112307738A (zh) 用于处理文本的方法和装置
Ermatita et al. Sentiment Analysis of COVID-19 using Multimodal Fusion Neural Networks.
WO2022073341A1 (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN114911940A (zh) 文本情感识别方法及装置、电子设备、存储介质
Strelnikoff et al. Causal maps for multi-document summarization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination