CN116719936B - 一种基于集成学习的网络不可靠信息早期检测方法 - Google Patents
一种基于集成学习的网络不可靠信息早期检测方法 Download PDFInfo
- Publication number
- CN116719936B CN116719936B CN202310708310.8A CN202310708310A CN116719936B CN 116719936 B CN116719936 B CN 116719936B CN 202310708310 A CN202310708310 A CN 202310708310A CN 116719936 B CN116719936 B CN 116719936B
- Authority
- CN
- China
- Prior art keywords
- training
- new
- model
- data
- unreliable information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 73
- 239000013598 vector Substances 0.000 claims abstract description 50
- 239000002775 capsule Substances 0.000 claims description 49
- 238000000034 method Methods 0.000 claims description 35
- 239000011159 matrix material Substances 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 10
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 230000008878 coupling Effects 0.000 claims description 3
- 238000010168 coupling process Methods 0.000 claims description 3
- 238000005859 coupling reaction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 20
- 230000004927 fusion Effects 0.000 abstract description 9
- 238000002474 experimental method Methods 0.000 description 19
- 238000012706 support-vector machine Methods 0.000 description 12
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000002679 ablation Methods 0.000 description 5
- DWJXYEABWRJFSP-XOBRGWDASA-N DAPT Chemical compound N([C@@H](C)C(=O)N[C@H](C(=O)OC(C)(C)C)C=1C=CC=CC=1)C(=O)CC1=CC(F)=CC(F)=C1 DWJXYEABWRJFSP-XOBRGWDASA-N 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 4
- 238000011977 dual antiplatelet therapy Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 241000288105 Grus Species 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于集成学习的网络不可靠信息早期检测方法,属于网络不可靠信息早期检测技术领域,包括以下步骤:1)将输入的文本序列转换成词向量序列;2)将词向量序列分别输入到三个基模型Transformer、Bi‑SATT‑CAPS、BiTCN中以完成不可靠信息检测的分类;3)对三个基模型进行训练和预测,得到三组新的训练数据和测试数据;4)将三组新的训练数据进行加权后合并作为新的训练集输入元学习器SVM中;5)元学习器SVM对新的训练集进行训练,并得到最终的分类结果。本发明采用上述结构的基于集成学习的网络不可靠信息早期检测方法,能够充分保留文本的语法和结构特征,仅需使用博文文本和早期少量转发评论即可进行较高准确度的不可靠信息检测,通过使用改进的加权融合策略,综合三个基模型的优势以提升早期检测效果。
Description
技术领域
本发明涉及网络不可靠信息早期检测领域,尤其是涉及一种基于集成学习的网络不可靠信息早期检测方法。
背景技术
不可靠信息检测在大多数研究中都被视作一个二分类问题,即将待检测的内容分为不可靠信息和可靠信息两类。其中,无论是基于传统机器学习还是深度学习的检测方法,核心都是从待检测博文本身及其相关的属性中提取有助于检测的特征,用于训练和预测,从而判断待检测博文是不可靠信息还是可靠信息。而这些不可靠信息检测方法中,主要依靠于选取文本内容特征、社交上下文特征以及传播结构特征中的一种或多种。
以上不可靠信息检测方法的缺陷主要体现在如下两个方面:
(1)提取内容特征时语法和结构特征丢失严重
不可靠信息的形式复杂多样,同时不可靠信息制造者也会采取各种手段来模糊其意图,以躲避检测。现有的不可靠信息检测方法在提取内容特征时存在语法和结构特征提取丢失严重,以至于不可靠信息检测效果差的问题。
(2)不可靠信息早期检测能力尚有较大提升空间
现有不可靠信息检测方法大多数基于待检测博文已经拥有大量特征信息,特别大量转发评论等社交上下文特征以及传播结构特征。然而,这些特征需要在不可靠信息发布的较长一段时间后才足够明显,此时不可靠信息可能已经造成了严重的负面影响。这些方法无法在不可靠信息发布早期尚未被广泛转发评论和传播前具有较高的准确率,不可靠信息早期检测能力有待提升。
因此,需要提出一种网络不可靠信息早期检测方法,仅需选择文本内容特征和社交上下文特征中的少量转发评论特征来提升不可靠信息检测效果,以达到网络不可靠信息早期检测的效果。
发明内容
本发明的目的是提供一种基于集成学习的网络不可靠信息早期检测方法,缓解现有不可靠信息检测方法存在语法语义和结构特征提取丢失严重的问题,最大程度保存网络不可靠信息数据文本中捕捉到的特征,以此提升网络不可靠信息检测的效果;同时,解决现有不可靠信息检测方法因依赖传播结构和社交上下文特征而造成的早期无法准确进行检测的问题。
为实现上述目的,本发明提供了如下技术方案:
一种基于集成学习的网络不可靠信息早期检测方法,包括以下步骤:
步骤1:将输入的文本序列转换成词向量序列:首先将原博文s整合对应的转发评论c,得到一个长度为n的文本序列M=[m1,m2,...,mn],然后利用经预训练得到的Glove将文本序列M转化成词向量序列x,x=x1,x2,...,xn(xi∈Rd),其中d代表维度;
步骤2:将词向量序列分别输入到三个基模型Transformer、Bi-SATT-CAPS、BiTCN中以完成不可靠信息检测的分类,利用基模型Bi-SATT-CAPS进行不可靠信息检测的分类方法步骤为:
(1)将词向量序列x输入到双向LSTM中进行特征提取,正向LSTM的和反向LSTM的隐藏状态向量拼接在一起得到的向量代表了提取的特征:
其中,表示正向LSTM的隐藏状态向量,/>表示反向LSTM的隐藏状态向量,[,]表示拼接操作;
(2)使用多头自注意力机制,对双向LSTM的输出hn进行多头自注意力计算,实现对不同位置上的输入信息进行共同关注;
(2.1)WQ、Wk、Wv是不同的权重矩阵,将这些权重矩阵分别与hn相乘后计算得到Q、K、V矩阵;
(2.2)多头自主注意力将得到的Q、K、V矩阵根据设计的多头自注意力的头的数量进行拆分,然后分别计算三部分的注意力分数;
其中,为第i个头的输出,Wi Q、Wi K、Wi V分别为第i个头中Q、K、V的参数矩阵;
(2.3)将计算结果进行合并
其中r为多头注意力的头数,WO为多头注意力机制将计算结果进行合并时的权重矩阵。
(2.4)最终多头自注意力计算结果合并拼接的结果Multihead(Q,K,V)经过线性层得到输出特征v;
(3)将上一步的输出特征v输入到卷积胶囊层中;
(3.1)卷积胶囊层中相邻的两个胶囊之间,i层的子胶囊vi乘以一个权重矩阵Wij得到子胶囊vi到第i+1层父胶囊的预测向量
(3.2)计算动态路由算法所决定的耦合系数cij,将对数概率bij的初始值设为0,并通过cij的连续变换,即使用softmax函数进行迭代更新:
(3.3)由所有来自子胶囊的预测向量加权求和可得到每个父胶囊的最终特征表示sj
(3.4)父胶囊sj通过激活函数Squash进行缩放,从而得到最终的父胶囊Vj:
(3.5)将卷积胶囊层的输出向量Vj输入到分类胶囊中进行分类:
Vf=f(W·Vj+B)
其中,W表示分类胶囊的权重矩阵,B表示分类胶囊的偏置项;
(3.6)将分类胶囊分类后得到的向量Vf输入到softmax分类器进行归一化,以此完成不可靠信息检测分类;
(3.7)其中选用交叉熵函数作模型的训练损失函数,目标是最小化训练预测值和实际值之间的交叉熵:
其中,y、分别为样本x的实际值和预测值,n为训练样本数,L为损失值;
步骤3:按照5折交叉检验步骤对三个基模型进行训练和预测,得到三组新的训练数据和测试数据,将三组新的测试数据进行拼接作为新的测试集new test date;
步骤4:为三个基模型各赋予一个可信度即权重,将三组新的训练数据进行加权后合并作为新的训练集输入元学习器SVM中,具体步骤为:
1)计算第t个基模型的错误率:
2)根据错误率计算权重αt:
3)对权重αt进行归一化得到最终的权重wt:
4)对三组新的训练数据进行加权后合并作为新的训练集new training date输入元学习器SVM中;
步骤5:元学习器SVM对新的训练集new training date进行训练,并得到最终的分类结果:
f(x)=sign(w·x+b)
其中,w为元学习器SVM的权重矩阵,b为元学习器SVM的偏置项。
优选的,步骤2中,将词向量序列x输入到基模型Transformer中的方法为:
y=softmax(WTrans·Transformer_Encoder(x))
其中,Transformer_Encoder(x)表示对输入文本的词向量序列x应用Transformer编码器后得到的输出;WTrans表示基模型Transformer中的输出层权重矩阵;softmax()函数将模型输出转换为概率分布,以此选出不可靠信息的类别;
将词向量序列x输入到基模型BiTCN模型中的方法为:
y=softmax(WBiTCH·BiTCN(x))
其中,BiTCN(x)表示对输入文本的词向量序列x应用BiTCN后得到的输出;WBiTCH表示基模型BiTCN中的输出层权重矩阵;softmax()函数将模型输出转换为概率分布,以此选出不可靠信息的类别。
优选的,步骤3的具体方法为:
1)首先将训练集数据分成5份,每次训练使用4份训练集数据作为训练集进行训练,剩下的1份训练集数据作为测试集进行预测;
2)在模型训练完成后,对测试集数据进行预测得到预测结果;
3)重复5次即模型进行5次训练后,将训练集上得到的5次预测结果进行拼接得到一组新的特征和训练数据training date,将测试集上的5次预测结果经过算术平均后得到一组新的测试数据test date;
4)对三个基模型分别经过上述步骤进行训练,得到三组新的训练数据trainingdate和测试数据test date,将三组新的测试数据进行拼接作为新的测试集new testdate。
本发明采用上述结构的基于集成学习的网络不可靠信息早期检测方法,具有如下有益效果:
(1)能够充分保留文本的语法和结构特征,以此提升网络不可靠信息检测的效果:
本发明提出的Bi-ATT-CAPS模型将胶囊网络引入不可靠信息检测任务中,胶囊网络中包含丰富的词语的位置方向等信息,且相邻节点之间具有强相关性,保留了原始数据中的底层细节,这些特征与网络平台上的博文及转发评论数据的上下文关系和顺序性十分契合,能够很好地提取其中的多元语法特征、语义特征和结构特征,最大程度保存网络不可靠信息数据文本中捕捉到的特征,以此提升网络不可靠信息检测的效果。
(2)仅需使用博文文本和早期少量转发评论即可进行较高准确度的不可靠信息检测,以此实现网络不可靠信息早期检测的需求:
本发明结合Bi-ATT-CAPS模型提出的基于集成学习的网络不可靠信息早期检测方法能够深度挖掘博文内容文本和前期少量转发评论中的深度语义特征,不依赖于传播结构特征以及其余社交上下文特征便能够取得较好的效果,能够在不可靠信息发布早期转发评论数较少时便具有较高的准确率,从而满足实际工作中不可靠信息早期检测的需求。
(3)通过使用改进的加权Stacking融合策略,综合三个基模型的优势以提升早期检测效果:
在经典的Stacking融合策略中,没有区分不同基模型在任务中的性能差异性,将三个基模型的预测结果视作同等重要输入到元学习器中,具体到不可靠信息检测任务中来说就是三个基模型对于不同长度的博文检测准确率不同,本发明利用三个基模型对于不同长度博文的检测效果不同的特点,为基模型赋予一个可信度即权重,然后将加权后的新的训练集再输入到元学习器中进行训练,并得到最终的分类结果。
附图说明
图1为本发明基于集成学习的网络不可靠信息早期检测方法的流程图;
图2为本发明基于集成学习的网络不可靠信息早期检测方法中Bi-SATT-CAPS模型的整体结构示意图;
图3为消融实验结果图;
图4为早期检测实验结果图。
具体实施方式
以下结合附图和实施例对本发明的技术方案作进一步说明。
如图所示的一种基于集成学习的网络不可靠信息早期检测方法,包括以下步骤:
步骤1:将输入的文本序列转换成词向量序列:首先将原博文s整合对应的转发评论c,得到一个长度为n的文本序列M=[m1,m2,...,mn],然后利用经预训练得到的Glove将文本序列M转化成词向量序列x,x=x1,x2,...,xn(xi∈Rd),其中d代表维度;
步骤2:将词向量序列分别输入到三个基模型Transformer、Bi-SATT-CAPS、BiTCN中以完成不可靠信息检测的分类:
利用基模型Bi-SATT-CAPS进行不可靠信息检测的分类方法步骤为:
(1)将词向量序列x输入到双向LSTM中进行特征提取,正向LSTM的和反向LSTM的隐藏状态向量拼接在一起得到的向量代表了提取的特征:
其中,表示正向LSTM的隐藏状态向量,/>表示反向LSTM的隐藏状态向量,[,]表示拼接操作;
(2)使用多头自注意力机制,对双向LSTM的输出hn进行多头自注意力计算,实现对不同位置上的输入信息进行共同关注;
(2.1)WQ、Wk、Wv是不同的权重矩阵,将这些权重矩阵分别与hn相乘后计算得到Q、K、V矩阵;权重矩阵的初值是通过Xavier初始化方式确定的,采样方式为将权重矩阵的初始值从高斯分布(均值为0、方差为2/n)中随机采样以获得初始值,以避免梯度消失和梯度爆炸的情况,通过优化算法(本方案选用的为Adam优化函数)计算损失函数对于权重矩阵的梯度,然后根据梯度信息对权重矩阵进行更新训练,在训练的每个迭代步骤中,通过优化算法对权重矩阵进行调整,以逐渐降低损失函数,提升模型的性能。
(2.2)多头自主注意力将得到的Q、K、V矩阵根据设计的多头自注意力的头的数量进行拆分,然后分别计算三部分的注意力分数;
其中,为第i个头的输出,Wi Q、Wi K、Wi V分别为第i个头中Q、K、V的参数矩阵;在多头注意力机制中,会为每个注意力头独立初始化查询、键和值的参数矩阵,每个参数矩阵均随机采样,随机采用的目的是在初始阶段引入一定的随机性,使模型能够从不同的初始状态开始学习。
(2.3)将计算结果进行合并
其中r为多头注意力的头数,WO为多头注意力机制将计算结果进行合并时的权重矩阵。
(2.4)最终多头自注意力计算结果合并拼接的结果Multihead(Q,K,V)经过线性层得到输出特征v;
(3)将上一步的输出特征v输入到卷积胶囊层中;
(3.1)卷积胶囊层中相邻的两个胶囊之间,i层的子胶囊vi乘以一个权重矩阵Wij得到子胶囊vi到第i+1层父胶囊的预测向量
(3.2)计算动态路由算法所决定的耦合系数cij,将对数概率bij的初始值设为0,并通过cij的连续变换,即使用softmax函数进行迭代更新:
(3.3)由所有来自子胶囊的预测向量加权求和可得到每个父胶囊的最终特征表示sj
(3.4)父胶囊sj通过激活函数Squash进行缩放,从而得到最终的父胶囊Vj:
(3.5)将卷积胶囊层的输出向量Vj输入到分类胶囊中进行分类:
Vf=f(W·Vj+B)
其中,W表示分类胶囊的权重矩阵,B表示分类胶囊的偏置项;
(3.6)将分类胶囊分类后得到的向量Vf输入到softmax分类器进行归一化,以此完成不可靠信息检测分类;
(3.7)其中选用交叉熵函数作模型的训练损失函数,目标是最小化训练预测值和实际值之间的交叉熵:
其中,y、分别为样本x的实际值和预测值,n为训练样本数,L为损失值。
将词向量序列x输入到基模型Transformer中的方法为:
y=softmax(WTrans·Transformer_Encoder(x))
其中,Transformer_Encoder(x)表示对输入文本的词向量序列x应用Transformer编码器后得到的输出;WTrans表示基模型Transformer中的输出层权重矩阵;softmax()函数将模型输出转换为概率分布,以此选出不可靠信息的类别。
将词向量序列x输入到基模型BiTCN模型中的方法为:
y=softmax(WBiTCH·BiTCN(x))
其中,BiTCN(x)表示对输入文本的词向量序列x应用BiTCN后得到的输出;WBiTCH表示基模型BiTCN中的输出层权重矩阵;softmax()函数将模型输出转换为概率分布,以此选出不可靠信息的类别。
步骤3:按照5折交叉检验步骤对三个基模型进行训练和预测,得到三组新的训练数据和测试数据,将三组新的测试数据进行拼接作为新的测试集new test date,具体方法为:
1)首先将训练集数据分成5份,每次训练使用4份训练集数据作为训练集进行训练,剩下的1份训练集数据作为测试集进行预测;
2)在模型训练完成后,对测试集数据进行预测得到预测结果;
3)重复5次即模型进行5次训练后,将训练集上得到的5次预测结果进行拼接得到一组新的特征和训练数据training date,将测试集上的5次预测结果经过算术平均后得到一组新的测试数据test date;
4)对三个基模型分别经过上述步骤进行训练,得到三组新的训练数据trainingdate和测试数据test date,将三组新的测试数据进行拼接作为新的测试集new testdate。
步骤4:为三个基模型各赋予一个可信度即权重,将三组新的训练数据进行加权后合并作为新的训练集输入元学习器SVM中,具体步骤为:
1)计算第t个基模型的错误率:
2)根据错误率计算权重αt:
3)对权重αt进行归一化得到最终的权重wt:
4)对三组新的训练数据进行加权后合并作为新的训练集new training date输入元学习器SVM中;
步骤5:元学习器SVM对新的训练集new training date进行训练,并得到最终的分类结果:
f(x)=sign(w·x+b)
其中,w为元学习器SVM的权重矩阵,b为元学习器SVM的偏置项。
为验证本发明的有效性,进行如下对比实验、消融实验和早期检测能力进一步对比实验:
在数据集的选择上,本发明选择使用一个不可靠信息检测任务经典数据集Ma-Weibo,数据集的基本信息如下表所示。Ma-Weibo数据集包括从新浪微博社区管理中心收集的大量博文,语言为中文。数据集中包含原始博文以及对应的转发评论,适合用于本发明的实验。实验在原始数据集的基础上,对博文对应的转发评论按照发表时间进行排序和划分,有利于选择早期的评论。
数据集的基本信息
(1)对比实验
首先可以确定的前提是,网络平台上的博文的转发评论数和博文的发布时间成正相关,对于同一事件,其发布的时间越久,相关的转发评论数会积累的越多。因此,对于同一事件,可以用转发评论的数量在一定程度上体现已发布时间,以此来评估模型的早期不可靠信息检测性能。因此,对比实验选择转发评论的数量作为时间截止线,将截止线设为150,即只使用对应事件的按时间排序的前150条转发评论用于实验。通过增加转发评论的数量,评估七个对比方法和本发明提出的方法在不同的评论数量下不可靠信息检测的性能的对比,以此检测本方法在早期转发评论数较少时的效果。本实验选取了7个不可靠信息检测模型进行对比实验,分别为:
1)SVM-TS:一种基于支持向量机(SVM)的时序模型,并手动提取了19种和不可靠信息相关的特征,并利用时间序列建模技术来融合这些特征,取得了基于机器学习的不可靠信息检测方法中最好的效果。
2)GRU-2:由Ma等人首次将深度神经网络运用到不可靠信息检测任务时提出,同时也提出了本实施例所用的中文数据集Ma-Weibo,后续被广泛使用和对比。该模型以事件为单位,利用两层GRU学习事件帖子的上下文信息,捕捉相关帖子随时间的变化特征,在任务中取得了显著的效果。
3)PLAN:PLAN模型于2020AAAI会议论文中提出,提出了一种Post-level注意力模型,同时利用Transformer网络中的多头注意力机制对推文之间的长距离依赖进行建模。
4)HSA-BiLSTM:该模型于第27届CIKM会议论文中提出,首先,它建立了一个层次化的双向长短期记忆模型来进行表示学习。然后,利用注意力机制将社交上下文信息整合到网络中,从而将重要的语义信息引入模型中,以提升不可靠信息检测任务的效果。HAS-BiLSTM模型在中英文数据集的实验中都取得了十分出色的效果。
5)ARC:该模型于第28届CIKM会议论文中提出,是一种结合CNN的注意残差网络模型,该模型基于内容特征进行不可靠信息检测。首先,利用微调注意力机制的残差网络来捕获长距离依赖。然后,利用不同窗口大小的卷积神经网络选择重要分量和局部特征,在不可靠信息检测任务中取得了超越其他基线模型的效果。
6)DAPT:该模型于2022年第12届CCWC会议论文中提出,DAPT模型利用文本分析技术、预训练方法来提升早期不可靠信息检测的效果,并利用数据增强技术来缓解不可靠信息数据稀缺带来的影响,以提高模型的性能。
7)BCMM-GRU:提出了一种基于帖子的增强表示方法BCMM,能够在不可靠信息事件传播的早期阶段对其内容进行处理,并将BCMM与三层GRU相结合,以表示帖子内容、帖子的拓扑网络以及从帖子数据集中提取的元数据,从而对帖子进行不可靠信息检测。
对比实验结果如表4.1。
当转发评论数为150以内时,可以将其理解为是事件发布的早期。此时,不可靠信息通常还未造成较大的影响,如果将其及时检测出来,能够在不可靠信息形成有效规模前及时检测出来,从而降低其带来的后续影响。根据上表中的实验结果可以看出,本发明提出的基于集成学习的网络不可靠信息早期检测方法在准确率Acc、精确率Prec、召回率Rec和F1值四项指标上均优于每一个对比模型。
(2)消融实验
为了验证多模型融合方法对实验效果的提升,本实施例还在数据集Ma-weibo进行了相应的消融实验。消融实验结果见图3。
从图3中可以看出,在转发评论数为150的情况下,Bi-SATT-CAPS相较于另外两个基模型,四个指标均取得了最优的效果,相较于BiGCN模型F1值高0.013,相较于Transformer模型F1值高0.02,这也进一步证明了本发明工作的有效性。与三个基模型相比,融合模型方法四个指标均提升较大,准确率相较于基模型中最高的Bi-SATT-CAPS提升了3.9%,精确率提升了3.9%,召回率提升了4.6%,F1值提升了0.049,证明集成学习方法能够整合不同模型间的优势、弥补劣势,得到比单个模型更佳的性能。
(3)早期检测能力进一步对比实验
实验在时间截止线设置为150的前提下,再次进行了细分,验证在使用0-150条转发评论的情况下,各种方法的效果,实验结果见图4。
根据图4可以看出,随着评论数的增多,所有模型的准确率都会随之提高。当转发评论数为150以内时,可以将其理解为是事件发布的早期。此时,不可靠信息通常还未造成较大的影响,如果将其及时检测出来,能够在不可靠信息形成有效规模前及时检测出来,从而降低其带来的后续影响。根据实验结果可以看出,本发明提出的融合模型方法的检测准确率在转发评论数为150以内时明显优于每一个对比模型。具体来说,在评论数为50时,融合模型方法相比于BCMM-GRU模型准确率高2.3%,比DAPT模型高2.1%。在评论数为150时,融合模型方法相比于BCMM-GRU模型准确率高1.5%,比DAPT模型2.4%。而从另一个角度来分析,要使模型的准确率达到90%,融合模型只需要50条不到的转发评论数,而其他模型至少需要在转发评论数为150时才达到。因此,有效验证了本发明提出的早期不可靠信息检测方法在不可靠信息发布早期转发评论数较少时进行检测的有效性。
因此,本发明采用上述基于集成学习的网络不可靠信息早期检测方法,将胶囊网络引入不可靠信息检测任务中,利用胶囊网络编码文本中部分和整体的关系,充分保留文本的语法和结构特征信息,该模型充分考虑了网络不可靠信息数据的特点,有效地提高网络不可靠信息检测的效果;通过利用改进的Stacking融合策略将本发明提出的模型Bi-SATT-CAPS和不同质的Transformer、BiTCN进行融合,整合三个基模型间的优势、弥补劣势,以提升网络不可靠信息早期检测性能,仅需使用博文文本和早期少量转发评论即可进行较高准确度的检测。
以上是本发明的具体实施方式,但本发明的保护范围不应局限于此。任何熟悉本领域的技术人员在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内,因此本发明的保护范围应以权利要求书所限定的保护范围为准。
Claims (3)
1.一种基于集成学习的网络不可靠信息早期检测方法,其特征在于:包括以下步骤:
步骤1:将输入的文本序列转换成词向量序列:首先将原博文s整合对应的转发评论c,得到一个长度为n的文本序列M=[m1,m2,...,mn],然后利用经预训练得到的Glove将文本序列M转化成词向量序列x,x=x1,x2,...,xn(xi∈Rd),其中d代表维度;
步骤2:将词向量序列分别输入到三个基模型Transformer、Bi-SATT-CAPS、BiTCN中以完成不可靠信息检测的分类,利用基模型Bi-SATT-CAPS进行不可靠信息检测的分类方法步骤为:
(1)将词向量序列x输入到双向LSTM中进行特征提取,正向LSTM的和反向LSTM的隐藏状态向量拼接在一起得到的向量代表了提取的特征:
其中,表示正向LSTM的隐藏状态向量,/>表示反向LSTM的隐藏状态向量,[,]表示拼接操作;
(2)使用多头自注意力机制,对双向LSTM的输出hn进行多头自注意力计算,实现对不同位置上的输入信息进行共同关注;
(2.1)WQ、Wk、Wv是不同的权重矩阵,将这些权重矩阵分别与hn相乘后计算得到Q、K、V矩阵;
(2.2)多头自主注意力将得到的Q、K、V矩阵根据设计的多头自注意力的头的数量进行拆分,然后分别计算三部分的注意力分数;
其中,为第i个头的输出,Wi Q、Wi K、Wi V分别为第i个头中Q、K、V的参数矩阵;
(2.3)将计算结果进行合并
其中r为多头注意力的头数,WO为多头注意力机制将计算结果进行合并时的权重矩阵;
(2.4)最终多头自注意力计算结果合并拼接的结果Multihead(Q,K,V)经过线性层得到输出特征v;
(3)将上一步的输出特征v输入到卷积胶囊层中;
(3.1)卷积胶囊层中相邻的两个胶囊之间,i层的子胶囊vi乘以一个权重矩阵Wij得到子胶囊vi到第i+1层父胶囊的预测向量
(3.2)计算动态路由算法所决定的耦合系数cij,将对数概率bij的初始值设为0,并通过cij的连续变换,即使用softmax函数进行迭代更新:
(3.3)由所有来自子胶囊的预测向量加权求和可得到每个父胶囊的最终特征表示sj
(3.4)父胶囊sj通过激活函数Squash进行缩放,从而得到最终的父胶囊Vj:
(3.5)将卷积胶囊层的输出向量Vj输入到分类胶囊中进行分类:
Vf=f(W·Vj+B)
其中,W表示分类胶囊的权重矩阵,B表示分类胶囊的偏置项;
(3.6)将分类胶囊分类后得到的向量Vf输入到softmax分类器进行归一化,以此完成不可靠信息检测分类;
(3.7)其中选用交叉熵函数作模型的训练损失函数,目标是最小化训练预测值和实际值之间的交叉熵:
其中,y、分别为样本x的实际值和预测值,n为训练样本数,L为损失值;
步骤3:按照5折交叉检验步骤对三个基模型进行训练和预测,得到三组新的训练数据和测试数据,将三组新的测试数据进行拼接作为新的测试集new test date;
步骤4:为三个基模型各赋予一个可信度即权重,将三组新的训练数据进行加权后合并作为新的训练集输入元学习器SVM中,具体步骤为:
1)计算第t个基模型的错误率:
2)根据错误率计算权重αt:
3)对权重αt进行归一化得到最终的权重wt:
4)对三组新的训练数据进行加权后合并作为新的训练集new training date输入元学习器SVM中;
步骤5:元学习器SVM对新的训练集new training date进行训练,并得到最终的分类结果:
f(x)=sign(w·x+b)
其中,w为元学习器SVM的权重矩阵,b为元学习器SVM的偏置项。
2.根据权利要求1所述的一种基于集成学习的网络不可靠信息早期检测方法,其特征在于:步骤2中,将词向量序列x输入到基模型Transformer中的方法为:
y=softmax(WTrans·Transformer_Encoder(x))
其中,Transformer_Encoder(x)表示对输入文本的词向量序列x应用Transformer编码器后得到的输出;WTrans表示基模型Transformer中的输出层权重矩阵;softmax()函数将模型输出转换为概率分布,以此选出不可靠信息的类别;
将词向量序列x输入到基模型BiTCN模型中的方法为:
y=softmax(WBiTCH·BiTCN(x))
其中,BiTCN(x)表示对输入文本的词向量序列x应用BiTCN后得到的输出;WBiTCH表示基模型BiTCN中的输出层权重矩阵;softmax()函数将模型输出转换为概率分布,以此选出不可靠信息的类别。
3.根据权利要求1所述的一种基于集成学习的网络不可靠信息早期检测方法,其特征在于:步骤3的具体方法为:
1)首先将训练集数据分成5份,每次训练使用4份训练集数据作为训练集进行训练,剩下的1份训练集数据作为测试集进行预测;
2)在模型训练完成后,对测试集数据进行预测得到预测结果;
3)重复5次即模型进行5次训练后,将训练集上得到的5次预测结果进行拼接得到一组新的特征和训练数据training date,将测试集上的5次预测结果经过算术平均后得到一组新的测试数据test date;
4)对三个基模型分别经过上述步骤进行训练,得到三组新的训练数据training date和测试数据test date,将三组新的测试数据进行拼接作为新的测试集new test date。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310708310.8A CN116719936B (zh) | 2023-06-15 | 2023-06-15 | 一种基于集成学习的网络不可靠信息早期检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310708310.8A CN116719936B (zh) | 2023-06-15 | 2023-06-15 | 一种基于集成学习的网络不可靠信息早期检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116719936A CN116719936A (zh) | 2023-09-08 |
CN116719936B true CN116719936B (zh) | 2023-12-26 |
Family
ID=87872980
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310708310.8A Active CN116719936B (zh) | 2023-06-15 | 2023-06-15 | 一种基于集成学习的网络不可靠信息早期检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116719936B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117609874B (zh) * | 2023-11-09 | 2024-05-10 | 中国地震局地球物理研究所 | 基于集成深度学习的岩石断层摩擦微震检测方法和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111815028A (zh) * | 2020-06-10 | 2020-10-23 | 湖北大学 | 一种突发热点事件的传播路径的预测方法和装置 |
CN114564565A (zh) * | 2022-03-02 | 2022-05-31 | 湖北大学 | 面向公共安全事件分析的深度语义识别模型及其构建方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377686B (zh) * | 2019-07-04 | 2021-09-17 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
-
2023
- 2023-06-15 CN CN202310708310.8A patent/CN116719936B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111815028A (zh) * | 2020-06-10 | 2020-10-23 | 湖北大学 | 一种突发热点事件的传播路径的预测方法和装置 |
CN114564565A (zh) * | 2022-03-02 | 2022-05-31 | 湖北大学 | 面向公共安全事件分析的深度语义识别模型及其构建方法 |
Non-Patent Citations (2)
Title |
---|
Method to Predict Bursty Hot Events on Twitter Based on User Relationship Network;Xichan Nie等;《IEEE Access 》;第8卷;44031-44040 * |
融合知识图谱与用户评论的商品推荐算法;汤伟韬;余敦辉;魏世伟;;计算机工程;第46卷(第08期);93-100 * |
Also Published As
Publication number | Publication date |
---|---|
CN116719936A (zh) | 2023-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN110990564B (zh) | 一种基于情感计算与多头注意力机制的负面新闻识别方法 | |
CN110232395B (zh) | 一种基于故障中文文本的电力系统故障诊断方法 | |
CN113806746B (zh) | 基于改进cnn网络的恶意代码检测方法 | |
CN112256939B (zh) | 一种针对化工领域的文本实体关系抽取方法 | |
CN110674252A (zh) | 一种面向司法领域的高精度语义搜索系统 | |
CN111143553B (zh) | 一种实时文本数据流的特定信息识别方法及系统 | |
CN113806554B (zh) | 面向海量会议文本的知识图谱构建方法 | |
CN112231477A (zh) | 一种基于改进胶囊网络的文本分类方法 | |
CN112507077B (zh) | 基于关系图注意力神经网络的事件时序关系识别方法 | |
CN116719936B (zh) | 一种基于集成学习的网络不可靠信息早期检测方法 | |
CN111506728B (zh) | 基于hd-mscnn的层次结构文本自动分类方法 | |
CN116484024A (zh) | 一种基于知识图谱的多层次知识库构建方法 | |
CN111651602A (zh) | 一种文本分类方法及系统 | |
CN113255366A (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN111435375A (zh) | 一种基于FastText的威胁情报自动化标注方法 | |
CN113901228A (zh) | 融合领域知识图谱的跨境民族文本分类方法及装置 | |
CN114547299A (zh) | 一种基于复合网络模型的短文本情感分类方法及装置 | |
CN113255360A (zh) | 基于层次化自注意力网络的文档评级方法和装置 | |
CN116150651A (zh) | 基于ai的深度合成检测方法和系统 | |
CN111191033A (zh) | 一种基于分类效用的开集分类方法 | |
CN113064967A (zh) | 基于深度迁移网络的投诉举报可信度分析方法 | |
CN113032612B (zh) | 一种多目标图像检索模型的构建方法及检索方法和装置 | |
CN117077680A (zh) | 问答意图识别方法及装置 | |
CN114036946B (zh) | 一种文本特征提取及辅助检索的系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |