CN109992703B

CN109992703B - 一种基于多任务学习的差异化特征挖掘的可信度评估方法

Info

Publication number: CN109992703B
Application number: CN201910082267.2A
Authority: CN
Inventors: 饶元; 吴连伟; 靳浩林
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2022-03-01
Anticipated expiration: 2039-01-28
Also published as: CN109992703A

Abstract

本发明公开的一种基于多任务学习的差异化特征挖掘的可信度评估方法，基于共享私有特征空间，利用强化学习指导对抗网络捕获更加纯净的公共特征，解决公共特征挖掘精确度不高与效能低下的问题；采纳两种有效策略——用于迫使私有特征与公共特征相互独立的正交约束策略以及用于强化私有特征与公共特征差异性的差分策略，改善了私有特征与公共特征混杂严重的现状，融合并权衡以上两个过程产生的损失用于参数训练。该方法不仅能够提高了可信度评估精确度，还减少了计算的时间复杂度。

Description

一种基于多任务学习的差异化特征挖掘的可信度评估方法

技术领域

本发明涉及到网络信息的可信度评估方法，具体为一种基于多任务学习的差异化特征挖掘的可信度评估方法。

背景技术

随着互联网的迅速发展，使人们获取、浏览、共享和发布信息变得越来越快捷与便利，改变了人们获取信息的传统方式。然而，人们在享受健康、积极且真实信息的同时，还遭受着各种偏激、谣言、虚假等不真实信息带来的困扰。Gupta的研究结果表明：在Twitter中，有将近52％的内容是确定可信的、35％的内容是大致可信的以及13％的内容是确定不可信的。大量的不可信信息极大地渲染消极和负面的社会情绪，不仅影响着社会和谐，同时也影响到国家的安全与政治生态。如何在网络环境下快速识别出信息的真伪，以确保网络中传播信息的真实性与可信性，并对传播信息内容的可信度进行度量，已成为亟需解决的重要问题。

大多数学者将信息可信度评估视为文本分类问题。现有方法利用机器学习、深度学习等技术来评估可信度已经获得了一定的成功。这些方法概括起来，大致可分为：基于深度语义分析方法、基于文本特征与社会环境特征结合的分析方法等。第一类方法主要是深入捕获与文本相关的语言、句法、语法、语义特征、情感特征乃至风格特征。这类方法虽然能够全面挖掘出语义信息特征，但仍然局限在文本特征上，缺乏了特征的广度；第二类方法则在深入挖掘文本特征的基础上，结合待评估信息所处的社会环境特征，包括基于信息来源的、基于用户的、基于帖子本身的、基于网络的等特征，全面而又广泛的挖掘可信度特征以用于可信度评估。遗憾的是，这类方法在通过增加相关特征来扩展特征范围的同时，带来了许多无用的、冗余的、噪声的特征。这不仅一定程度上降低了模型性能还加重了计算负担，从而导致了计算效率骤减。

发明内容

针对现有技术中存在的问题，本发明提供一种基于多任务学习的差异化特征挖掘的可信度评估方法，将信息的可信度特征划分为公共与私有特征，解决共享空间与私有空间特征之间精准分离的问题，从而获得针对不同类型信息更具差异化的可信度特征，提高了信息可信度评估的准确性。

本发明是通过以下技术方案来实现：

一种基于多任务学习的差异化特征挖掘的可信度评估方法，包括以下步骤；

步骤1、设定数量为N的双标签数据集

并提取数据集

中的文本和元数据特征作为输入特征；

其中，x_i指一条待进行可信度检测的信息，

表示真假二分类标签，

表示多分类的可信度标签；

步骤2、采用强化学习提供的激励计算动作期望值对抗网络中的生成器进行优化，优化后得到公共特征抽取器，公共特征抽取器抽取输入特征中的公共特征；

步骤3、利用数据集

中的真假二分类标签

将步骤2抽取的公共特征输入二分类判别器

得到判别损失L_adv；

步骤4、判别当前判别损失L_adv与上一次判别损失L_adv的关系；

如果当前判别损失L_adv大于之前所有判别损失L_adv的最大值时，则输出判别后的公共特征，执行步骤6；

步骤5、采用私有特征抽取器，编译输入特征进行私有特征的抽取，得到私有特征；

步骤6：对步骤4得到的判别后的公共特征和步骤5得到私有特征进行正交约束，得到独立化损失L_ind；

步骤7、判断判别后的公共特征与私有特征是否相互独立；

当独立化损失值L_ind的值为0，则判别后公共特征与私有特征相互独立，执行步骤10；

当独立化损失值L_ind的值不为0，则判别后公共特征与私有特征中存在相关联的特征，执行步骤8；

步骤8、采用负向的KL散度算法计算判别后的公共特征和私有特征之间的相似度，产生差异化损失L_diff，

步骤9、采用Softmax作为分类器，根据步骤5得到的私有特征对数据集

进行多可信度类型分类，得到多分类损失L_task，

步骤10、对判别损失L_adv、独立化损失L_ind、差异化损失L_diff和多分类损失L_task进行融合训练，使得多分类效果达到最优。

可选的，所述步骤2中生成器的优化方法具体如下：

在数据集

上采用经典的MLE算法预训练生成器的生成策略G_θ，采用最小化交叉熵预训练二分类判别器

循环遍历数据集

中的信息，开始进行GAN训练，执行g-steps次循环，其中，g-steps指该信息从当前词开始到所有词结束所产生的次数；生成一个长度为T的序列，根据生成的序列计算动作期望值，并基于该动作期望值，利用策略梯度优化生成器；其中，动作期望值的计算公式为：

其中，

代表动作期望值，s₀代表状态值，y₁代表信息中的词向量，

代表蒙特卡洛搜索从t到T，G_μ为生成模型G_θ的副本；

策略梯度更新的计算公式为：

其中，y₁表示选定的词向量，s₀表状态，

表这个生成序列所带来激励的期望，G_θ表生成器模型，

表该序列的状态值函数，θ表下降梯度。

可选的，所述步骤3中判别损失L_adv的计算公式如下；

其中，

表真实数据分布的期望，

表生成器分布的期望，

为判别器。

可选的，所述步骤4中当前判定损失小于或等于之前所有判定损失的最小值时，将该判别损失作为强化学习的激励输入到优化后的生成器中，重复执行步骤2和步骤3，直至当前判定损失大于之前所有判定损失的最大值，输出判别后公共特征，执行步骤6。

可选的，所述私有特征抽取器为BILSTM算法、RNN算法、GRU算法或CNN算法。

可选的，所述私有特征抽取器为BILSTM算法，计算公式为：

其中，x_t,P_t-1分别表示t步骤的输入和t-1步骤的隐藏层。

可选的，所述步骤6中独立化损失L_ind，计算公式如下；

其中，L_ind表私有特征S^T与公共特征P正交约束产生的损失。

可选的，所述步骤8中差异化损失L_diff的计算公式如下：

其中，S′_i表S向量中某一维向量的值，同样的P′_i也是P向量中某一维向量的值。

可选的，所述步骤9中多分类损失L_task的计算公式如下：

可选的，所述步骤10中多损失融合训练优化的计算公式为：

L＝L_task+αL_adv+βL_ind+γL_diff

其中，L为多特征融合的总损失。

与现有技术相比，本发明具有以下有益的技术效果：

本发明提供的一种基于多任务学习的差异化特征挖掘的可信度评估方法，基于共享私有特征空间，利用强化学习指导对抗网络捕获更加纯净的公共特征，解决公共特征挖掘精确度不高与效能低下的问题；采纳两种有效策略——用于迫使私有特征与公共特征相互独立的正交约束策略以及用于强化私有特征与公共特征差异性的差分策略，改善了私有特征与公共特征混杂严重的现状，融合并权衡以上两个过程产生的损失用于参数训练。该方法不仅能够提高了可信度评估精确度，还减少了计算的时间复杂度。

附图说明

图1为发明共享私有模型框架图；

图2为本发明的架构图；

图3为本发明的整体流程图；

图4为本发明所用数据标签图；

图5为本发明实验性能图；

图6为本发明组件分离性能图；

图7a为本发明的性能在LIAR数据集上随输入向量维度变化图；

图7b为本发明的性能在Weibo数据集上随输入向量维度变化图；

图8a为LIAR数据集上不同输入对本发明性能的影响；

图8b为Weibo数据集上不同输入对本发明性能的影响。

具体实施方式

下面结合附图对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

如图1-3所示，一种基于多任务学习的差异化特征挖掘的可信度评估方法，该方法主要包括两个部分，如下；

第一部分，利用强化学习指导对抗网络阻止真假二分类正确分类从而获得公共特征。

具体来说，公共特征抽取器从输入特征中捕获特征，混淆二分类判别器无法正确分类。当二分类判别器无法区分真假信息时，获得的特征即为公共特征。

第二部分，利用特征独立化和特征差异化两种方法来实现私有特征与公共特征的分离，从而获得差异化特征。

具体来说，将公共特征作为第二部分的输入特征，与利用私有特征抽取器抽取的私有特征进行特征对比使得两种特征分离。

这里，特征分离采用了两种方法，一种采用正交约束使得私有特征与公共特征互相独立的特征独立化方法，另一种采用KL散度增强公共特征与私有特征更具差异性的特征差异化方法。

最后通过多损失融合与协同方法来优化模型最终有效地实现信息可信度多分类。

其中，多损失融合与协同方法利用的是线性组合的方式。

优化模型利用到了四种类型的损失，包括：1)公共特征抽取时产生的判别损失；2)正交约束产生的特征独立化损失；3)KL散度产生的差异化损失；4)最终实现多分类时产生的多分类损失。

该评估方法具体包括以下步骤：

一、数据初始化

步骤1、设定数量为N的双标签数据集

并提取数据集

中的文本和元数据特征作为输入特征；

其中，x_i指一条待进行可信度检测的信息，

表示真假二分类标签，

表示多分类的可信度标签；

二、公共特征抽取

步骤2：采用强化学习提供的激励计算动作期望值对抗网络中的生成器进行优化，得到公共特征抽取器，公共特征抽取器抽取输入特征中的公共特征；

生成器的优化方法具体如下：

在数据集

循环遍历数据集

中的信息，开始进行GAN训练，执行g-steps次循环，其中，g-steps指该信息从当前词开始到所有词结束所产生的次数；生成一个长度为T的序列，根据生成的序列计算动作期望值，并基于该动作期望值，利用策略梯度更新生成器；其中，动作期望值的计算公式为：

其中，

代表蒙特卡洛搜索从t到T，G_μ为生成模型G_θ的副本；

策略梯度更新的计算公式为：

其中，y₁表示选定的词向量，s₀表状态，

表这个生成序列所带来激励的期望，G_θ表生成器模型，

表该序列的状态值函数，θ表下降梯度。

步骤3：利用数据集

中的真假二分类标签

将步骤2抽取的公共特征输入二分类判别器

进行计算，输出判别损失L_adv，计算公式如下；

其中，

表真实数据分布的期望，

表生成器分布的期望，

为判别器。

步骤4：判别当前判别损失与上一次判别损失的关系；

如果当前判定损失大于之前所有判定损失的最大值时，则输出判别后的公共特征，执行步骤6；

如果当前判定损失小于或等于之前所有判定损失的最小值时，将该判别损失作为强化学习的激励输入到优化后的生成器中，重复执行步骤2和步骤3，直至当前判定损失大于之前所有判定损失的最大值，输判别后的出公共特征，执行步骤6；

其中，判别后的公共特征为无法使真假二分类任务分类的特征。

阶段2：私有特征抽取

步骤5：采用私有特征抽取器，编译输入特征进行私有特征的抽取；

私有特征抽取器为BILSTM、RNN、GRU、CNN算法；

以BILSTM算法为例，私有特征抽取器的计算公式为：

其中，x_t,P_t-1分别表示t步骤的输入和t-1步骤的隐藏层。

阶段3：私有特征与公共特征分离

步骤6：特征独立化：为了使得判别后的公共特征与私有特征互相独立，利用步骤4获得的公共特征，以及步骤5获得私有特征进行正交约束，得到独立化损失L_ind，计算公式如下：

其中，L_ind表私有特征S^T与判别后的公共特征P正交约束产生的损失。

步骤7：判断判别后的公共特征与私有特征是否相互独立；

当独立化损失值L_ind的值为0，则判别后的公共特征与私有特征相互独立，执行步骤10；

当独立化损失值L_ind的值为不为0，则判别后的公共特征与私有特征中存在相关联的特征，执行步骤8；

步骤8：特征差异化：为了使得私有特征更具有差异性，采用负向的KL散度算法计算公共特征和私有特征之间的相似度，产生差异化损失L_diff，计算公式如下：

步骤9：采用Softmax作为分类器，利用步骤5得到的私有特征对数据集

进行多可信度类型分类，得到多分类损失L_task，计算公式如下：

其中，N_m为样本总数量，L_task为训练任务产生的损失，

表多分类标签的值，

表经过抽取器之后得到的特征。

阶段3：多损失融合与协同优化

步骤10：对判别损失L_adv、独立化损失L_ind、差异化损失L_diff和多分类损失L_task进行融合训练；根据线性组合的方式不断调整多损失之间的权重，实现多损失的融合训练及优化，使得该方法的多分类效果达到最优。

多损失融合训练优化的计算公式为：

L＝L_task+αL_adv+βL_ind+γL_diff (9)

其中，L为多特征融合的总损失。

本发明提供的基于多任务学习的差异化特征挖掘的可信度评估方法，在采用多任务学习的共享私有模型的基础上，典型的共享私有模型如图1所示，图中每个任务有两种特征空间，分别是存储各个任务独有特征的私有空间，以及存储所有任务共性特征的共享空间。共享空间特征是指在多种可信度类型信息中同时存在的特征。私有空间特征则表示不同类型信息各自独有的差异性特征。但是，共享私有模型存在着无法精确合理的将两个空间明确的区分开来的问题。也就是说，在共享空间中混杂着私有特征，私有特征中也包含着部分公共特征。基于此，本发明基于多任务联合求解机制，首先利用对抗网络模型抽取出更加准确的公共特征。然后采用特征独立化与特征差异化两种方法，实现私有特征与公共特征有效分离，从而挖掘出信息的差异化特征。最终采用协同优化方式实现信息可信度的精准评估。

仿真验证

本发明在两个真实数据集上进行大量实验证实了其性能的优越性，如图4-5所示，并从输入特征、组件分离、输入特征维度变化等多角度分析了本发明的可靠性、可扩展性等优点，详情如图6、图7a、图7b、图8a和图8所示。

如图5所示，本发明在LIAR数据集和Weibo数据集上进行实验验证发现，本发明分别获得了0.407和0.463的准确率；明显高于其他7种基线方法；该实验证实了本发明的性能优越性。

如图6所示，我们对本发明进行了组件分离操作，来验证不同组件的有效性。首先，根据本发明的结构，将本发明划分为以下几种方法：1、本发明的原始结构，即不包含对抗网络产生的判别损失、独立化损失、差异化损失的结构。在这里，我们将其定义为基本方法；2、在基本方法的基础上，在公共特征抽取器上增加对抗方法，我们定义为“基本方法+对抗方法”方法；3在2的基础上，我们增加正交约束作为独立化损失，我们定义为“基本方法+对抗方法+正交约束”方法；4在3的基础上，我们增加差分方法作为差异化损失，我们定义为“基本方法+对抗+正交约束+差分”方法(也就是本发明)。然后，这四种方法分别在LIAR数据集和Weibo数据集上进行了实验，实验验证发现，随着组件的增加，方法的准确率越来越高，并且第四种方法(即本发明)获得了最高的准确率。这表明这几种组件对性能的提升存在着不同程度的贡献。

基于两个数据集分别验证了文本特征的词向量维度大小对本发明性能的影响。实验结果如图7a与7b所示，我们可以看到，词向量维度大小对本发明性能的影响不大，整体准确率(A)在LIAR数据集上维持在0.41-0.43之间，在Weibo数据集上维持在0.44-0.46之间。另外，文本特征的词向量维度为200时，整体准确率在两个数据集上获得的性能最优。这表明，本发明具有良好的可靠性与可扩展性。

基于两个数据集分别验证了元数据特征中不同类型的元数据特征对本发明性能的影响。实验结果如图8a和8b所示，我们可以看到，当去掉不同类型元数据特征时，本发明的性能会随之发生不同程度的降低。本发明利用所有类型的元数据特征作为输入时，获得了最高的性能。这表明充分利用元数据特征有助于提高本发明的性能。

本发明在深入分析传统的信息可信度评估算法以及经典的共享私有模型缺陷的基础上，结合强化学习、对抗网络以及特征分离策略，重点解决了随着可信度特征的增加，冗余无用噪声特征随之增加，并导致可信度评估性能和效率低下的问题。本发明强化了多任务之间的公共特征的挖掘，以及与私有特征之间的分离，创造性的提出了一种基于共享私有特征空间中差异化特征挖掘的信息可信度评估方法。本发明充分利用信息可信度相关的文本及元数据特征，在真实环境下两类代表性的中英文数据集上进行了大量实验，证实了本发明在信息可信度评估上的有效性及可扩展性。该发明适用于网络环境(尤其是社交网络环境)以及能够提供信息可信度特征的相关环境中

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。