CN113590918A

CN113590918A - 基于课程式学习的社交媒体舆情热度监测的框架构建方法

Info

Publication number: CN113590918A
Application number: CN202110786417.5A
Authority: CN
Inventors: 陈维龙; 洪峰; 王岩; 张彦如
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-07-12
Filing date: 2021-07-12
Publication date: 2021-11-02

Abstract

本发明提供一种基于课程式学习的社交媒体舆情热度监测的框架构建方法，包括如下步骤：S1：使用基于目标检测的预训练模型获得图像特征，使用词嵌入将单词映射成向量从而获取标签特征；S2：构建基于目标和周围环境的全连接图模型，更新训练过程中的图片特征；S3：进行课程式学习的步骤；S4：使用长短期记忆和最大池化生成最终图像特征，将最终图像和标签特征结合经过全连接层的处理最终得到热度预测结果。本发明提出了一种新的方案CL‑WMTG，通过基于图片和文字的多模态信息以提高社交媒体舆情信息热度的准确度。该框架可以应用在其他用户各类交际信息场景和其他图文发表中进行相关预测。同时的wide transformer模型中的wide可以增加更多的各类信息。

Description

基于课程式学习的社交媒体舆情热度监测的框架构建方法

技术领域

本发明具体涉及一种基于课程式学习的社交媒体舆情热度监测的框架构建方法。

背景技术

目前使用各类社交媒体的用户越来越多，随之产生越来越多的包含图文的博文和访问记录。并且用户的发言行为会引导舆情的走向，从而会在行为上和思想上影响他人。为了控制舆情尤其是敏感舆情的传播，平台需要对大量包含舆情引导的博文数据进行分析，提取热门舆情。然而，传统的卷积神经网络可以提取图片中的目标，并针对图片数据进行分析，不能对图片中表示的含义进行深入理解。基于注意力机制的Transformer将文本信息并行处理，分析词语之间的联系，并决定为某一短语赋予一定的注意力，从而可用于提取文本信息及时间序列数据等特征。这些模型将图片和文字信息分开建模之后进行预测，没有有效利用图片信息和文字信息，也没有对多模态信息由深入的交叉感知，不能很好得提取文本和图像特征。利用简单的信息融合方式混合处理图片和文字信息，会使得模型混淆图片和文本信息，使得模型难以分辨出文字和图片各自的信息，导致预测结果非常差，模型收敛性弱。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于课程式学习的社交媒体舆情热度监测的框架构建方法，该基于课程式学习的社交媒体舆情热度监测的框架构建方法可以很好地解决上述问题。

为达到上述要求，本发明采取的技术方案是：提供一种基于课程式学习的社交媒体舆情热度监测的框架构建方法，该基于课程式学习的社交媒体舆情热度监测的框架构建方法包括如下步骤：

S1：使用基于目标检测的预训练模型获得图像特征，使用词嵌入将单词映射成向量从而获取标签特征；

S2：构建基于目标和周围环境的全连接图模型，更新训练过程中的图片特征；

S3：进行课程式学习的步骤；

第一步将目标图像特征、标签、用户其他信息输入Transformer中，学习图像特征和标签数据的组合特征；

第二步输出增强后的图像特征到Transformer中，进一步学习图像数据等数据的特征；

S4：使用长短期记忆和最大池化生成最终图像特征，并将最终图像特征和标签特征结合经过全连接层的处理最终得到热度预测结果。

该基于课程式学习的社交媒体舆情热度监测的框架构建方法具有的优点如下：

本发明使用更高效的CL-WMTG框架处理包含舆情信息的博文中的文字和图片，框架主体是transformer，输入文本和图片的特征后，该模型可以完全利用图片和文字之间的信息，并对多模态信息进行深入的交叉感知；同时，采用课程式学习方法，从易到难分步学习图片包含的特征，使得模型的收敛速度比原始模型快了数倍，热度预测的准确率也增强了很多。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，在这些附图中使用相同的参考标号来表示相同或相似的部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示意性地示出了根据本申请一个实施例的基于课程式学习的社交媒体舆情热度监测的框架构建方法的结构示意图。

图2示意性地示出了根据本申请一个实施例的基于课程式学习的社交媒体舆情热度监测的框架构建方法的图片目标特征聚合示意图。

图3示意性地示出了根据本申请一个实施例的基于课程式学习的社交媒体舆情热度监测的框架构建方法的总体模型框架示意图。

图4示意性地示出了根据本申请一个实施例的基于课程式学习的社交媒体舆情热度监测的框架构建方法的两阶段课程式学习示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，以下结合附图及具体实施例，对本申请作进一步地详细说明。

在以下描述中，对“一个实施例”、“实施例”、“一个示例”、“示例”等等的引用表明如此描述的实施例或示例可以包括特定特征、结构、特性、性质、元素或限度，但并非每个实施例或示例都必然包括特定特征、结构、特性、性质、元素或限度。另外，重复使用短语“根据本申请的一个实施例”虽然有可能是指代相同实施例，但并非必然指代相同的实施例。

为简单起见，以下描述中省略了本领域技术人员公知的某些技术特征。

根据本申请的一个实施例，提供一种基于课程式学习的社交媒体舆情热度监测的框架构建方法，包括：

步骤S1:使用基于目标检测的预训练模型获得图像特征，使用词嵌入(wordembedding)将单词映射成向量从而获取标签特征；

步骤S2:构建基于目标和周围环境的全连接图模型，更新训练过程中的图片特征；

步骤S3：使用课程式学习方法，第一步将目标图像特征、标签、用户其他信息输入Transformer中，学习图像特征和标签数据的组合特征；第二步输出增强后的图像特征到Transformer中，进一步学习图像数据等数据的特征；

步骤S4：使用长短期记忆(LSTM)和最大池化(Max-Pooling)生成最终图像特征，并将最终图像特征和标签特征结合经过全连接层的处理最终得到热度预测结果。

根据本申请的一个实施例，该基于课程式学习的社交媒体舆情热度监测的框架构建方法中步骤S1包括步骤：

通过Faster R-CNN预训练模型获得图像中包含的目标

其中K代表图像中有K个检测目标，每个目标所得的特征是d维。将整个图中所有目标整合起来就是：

通过word embedding提取标签汇总的文字信息，得到原始文字特征：

其中

代表标签的特征，k_t代表标签的长度。

根据本申请的一个实施例，该基于课程式学习的社交媒体舆情热度监测的框架构建方法中步骤S2包括步骤：

建立图

代表K个关系之间的关系矩阵，并且图G中每条边的权重定义为G＝(F₀·W_i+b_i)·((F₀·W_j+b_j)，其中

这些参数都是预先指定的参数。

根据本申请的一个实施例，如图2所示，该基于课程式学习的社交媒体舆情热度监测的框架构建方法中的聚合图G中的相关特征，图聚合后的特征定义为

该特征不仅考虑物体本身的特征，还考虑了周围环境的特征。该特征的基于图的组合可以解释不通图片中对象的差异。

根据本申请的一个实施例，如图3、图4所示，该基于课程式学习的社交媒体舆情热度监测的框架构建方法中步骤S3包括步骤：

课程式学习的第1阶段(phase1)输入的图像特征是由图像特征和标签特征组合在一起的特征，表示为：

其中f^ow为目标类别等信息的词嵌入，f^t是标签信息的词嵌入。

将这些特征输入到Transformer中，得到经过增强的特征

即：

课程式学习的第2阶段(phase2)输入的图像特征如下：

其中，

是经过S2聚合后的图像特征。

将这些特征输入到Transformer中，得到经过增强的特征

即：

根据本申请的一个实施例，该基于课程式学习的社交媒体舆情热度监测的框架构建方法中步骤S4包括步骤：

将经过长短期记忆和最大池化处理后的特征与标签特征拼接成一个向量。

将该向量输入全连接层后，得到最终博文的流行度：

其中W和b表示全连接网络的权重。

以上所述实施例仅表示本发明的几种实施方式，其描述较为具体和详细，但并不能理解为对本发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明保护范围。因此本发明的保护范围应该以所述权利要求为准。

Claims

1.一种基于课程式学习的社交媒体舆情热度监测的框架构建方法，其特征在于：包括如下步骤：

S3：进行课程式学习的步骤；

2.根据权利要求1所述的基于课程式学习的社交媒体舆情热度监测的框架构建方法，其特征在于，S1：使用基于目标检测的预训练模型获得图像特征，使用词嵌入将单词映射成向量从而获取标签特征包括如下步骤：

通过Faster R-CNN预训练模型获得图像中包含的目标

其中K代表图像中有K个检测目标，每个目标所得的特征是d维；

将整个图中所有目标整合起来为：

3.根据权利要求1所述的基于课程式学习的社交媒体舆情热度监测的框架构建方法，其特征在于，S1：使用基于目标检测的预训练模型获得图像特征，使用词嵌入将单词映射成向量从而获取标签特征包括如下步骤：

其中

代表标签的特征，k_t代表标签的长度。

4.根据权利要求1所述的基于课程式学习的社交媒体舆情热度监测的框架构建方法，其特征在于：S2：构建基于目标和周围环境的全连接图模型，更新训练过程中的图片特征包括如下步骤：

建立图

代表K个关系之间的关系矩阵，并且图G中每条边的权重定义为G＝(F₀·W_i+b_i)·((F₀·W_j+b_j)；

其中

均为预先指定的参数。

5.根据权利要求4所述的基于课程式学习的社交媒体舆情热度监测的框架构建方法，其特征在于：聚合图G中的相关特征，图聚合后的特征定义为

该特征不仅考虑物体本身的特征，还考虑了周围环境的特征；

该特征的基于图的组合可以解释不通图片中对象的差异。

6.根据权利要求1所述的基于课程式学习的社交媒体舆情热度监测的框架构建方法，其特征在于，S3：进行课程式学习的步骤具体包括：

课程式学习的第1阶段输入的图像特征是由图像特征和标签特征组合在一起的特征，表示为：

其中f^ow为目标类别等信息的词嵌入，f^t是标签信息的词嵌入；

将这些特征输入到Transformer中，得到经过增强的特征

即：

课程式学习的第2阶段输入的图像特征如下：

其中，

是经过S2聚合后的图像特征；

将这些特征输入到Transformer中，得到经过增强的特征

即：

7.根据权利要求1所述的基于课程式学习的社交媒体舆情热度监测的框架构建方法，其特征在于，S4：使用长短期记忆和最大池化生成最终图像特征，并将最终图像特征和标签特征结合经过全连接层的处理最终得到热度预测结果包括如下步骤：

将经过长短期记忆和最大池化处理后的特征与标签特征拼接成一个向量；

将该向量输入全连接层后，得到最终博文的流行度：

其中W和b表示全连接网络的权重。