CN112364168A

CN112364168A - 一种基于多属性信息融合的舆情分类方法

Info

Publication number: CN112364168A
Application number: CN202011329688.XA
Authority: CN
Inventors: 王亚珅; 张哲琦; 刘安安; 宋丹; 李阳阳; 金昊
Original assignee: Tianjin University; Electronic Science Research Institute of CTEC
Current assignee: Tianjin University; Electronic Science Research Institute of CTEC
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-02-12

Abstract

本发明公开了一种基于多属性信息融合的舆情分类方法，包括：利用基于连续词袋模型的文本预训练模型提取文本数据特征，并通过支持向量机分类器构造文本分类模型，进行文本属性的情绪分类；通过YOLO目标检测算法从检测网络中筛选出舆情相关的图像属性信息，并构造基于残差神经网络的图像分类模型进行图像属性的情绪分类；利用基于长短期记忆的模型提取并融合视频中的视觉、音频、文本信息，并构造视频属性的情绪分类模型；为同一发布者的不同属性情绪分类模型分配权重，并利用静态数据为不同的发布者分配权重，融合得到最终的舆情分类结果。本发明利用文本属性、图像属性和视频属性的数据，建立综合的分类模型，提升舆情信息分类的准确性。

Description

一种基于多属性信息融合的舆情分类方法

技术领域

本发明涉及多属性信息融合、情绪识别及分类、多模态特征提取、监督学习、自然语言处理、及计算机视觉等领域，尤其涉及一种基于多属性信息融合的舆情分类方法。

背景技术

随着互联网媒体数据的爆炸性增长，海量包含公众情绪信息的数据可供分析。通过多属性数据信息进行舆情解析，成为深度学习领域的一个新兴应用方向。由于互联网数据表现为不同属性，如文本属性、图像属性和视频属性，因此需要建立模型来对数据进行综合分析。近年来，多属性数据学习逐渐成为一个热门研究课题，吸引了越来越多的注意。如何将不同属性的数据信息进行融合，以得到综合的输出结果，是该领域的重要任务。

舆情信息反映的是公共事件所反映的公众情绪。情绪识别和分类是近年来的一个热门课题。现有大量研究关注情绪识别问题，如一些方法^[1,2,3]将情绪识别问题转化为概率分布问题，还有使用多分类器^[4]进行语音情绪分析，利用四个神经网络处理不同数据^[5]对视频进行情绪识别，混合CNN-RNN^[6]模型对视频中的面部表情进行情绪分析等。此外，在舆情信息分类中，需要融合社交媒体上大量用户的数据进行分析。相关的研究中，有基于多模态特征融合的景区推荐方法^[7]，综合图像与文本数据提出的场馆推荐系统^[8]，使用中间语义层探索社交媒体数据相关性^[9]的实时事件检测系统等。

多模态特征融合是多属性信息融合的基本方法，在相关问题中起着至关重要的作用。近年来许多研究关注这一领域，如将DocNADE应用于多模态数据^[10]并从图像视觉词、注释词、类标签信息以及视觉词的空间位置学习联合表示，将多模态多实例多标签潜在Dirichlet分配模型^[11]用于聚合图片、文本信息，将跨平台多模态主题模型^[11]用于场景情绪预测等。

在多属性舆情信息分类领域，现有研究成果不是很丰富，但是也提供了足够的思路和参考方法。目前，该领域主要面临的问题有以下几点：

1、如何选择适当的方法提取多模态特征；

2、如何对多属性的数据构建分类模型；

3、如何融合大量信息发布者的数据得到准确的舆情信息分类，如何处理三种不同属性的数据，以及如何融合其分类结果，是利用多属性信息进行舆情信息分类的关键。

发明内容

本发明提供了一种基于多属性信息融合的舆情分类方法，本发明利用文本属性、图像属性和视频属性的数据，建立综合的分类模型，提升舆情信息分类的准确性，详见下文描述：

一种基于多属性信息融合的舆情分类方法，所述方法包括：

利用基于连续词袋模型的文本预训练模型提取文本数据特征，并通过支持向量机分类器构造文本分类模型，进行文本属性的情绪分类；

通过YOLO目标检测算法从检测网络中筛选出舆情相关的图像属性信息，并构造基于残差神经网络的图像分类模型进行图像属性的情绪分类；

利用基于长短期记忆的模型提取并融合视频中的视觉、音频、文本信息，并构造视频属性的情绪分类模型；

为同一发布者的不同属性情绪分类模型分配权重，并利用静态数据为不同的发布者分配权重，融合得到最终的舆情分类结果。

其中，所述方法使用文本过滤器去除所有停顿词，并删除了所有与情感信息无关的链接地址、联系方式的文本。

进一步地，所述通过支持向量机分类器构造文本分类模型，进行文本属性的情绪分类具体为：

根据文本信息样本中包含的情绪信息，利用人工标注的主观方式，被划分为积极、消极和中性三类进行训练，同一句话中的所有单词特征向量被标注为一类；

训练支持向量机分类器时以单词特征向量为单位；

测试时，得到每个单词特征属于三个情绪类别的预测值，在同一句话中，通过统计这句话里每个单词特征的分类结果，选择概率最大的预测类别作为整句话的情绪分类结果；

将所有文本样本中所有句子的情绪预测类别的分布概率，作为文本样本属于各个情绪类别的置信度，用向量f_T(x_T)表示；

其中

分别为该文本样本属于积极、消极和中性的概率。

其中，所述方法还包括：

用W＝N/M_u表示每位用户的情绪有效度，N表示该用户所有的发布内容数量，M_u代表该用户发表的关于舆情相关事件和场景的内容数量；

舆情总的分类结果，由下式表示：

其中，n表示总的发布者数量，U(x_t,x_p,x_v)表示融合后的情绪预测结果。

本发明提供的技术方案的有益效果是：

1、本发明运用不同的方法，对舆情信息相关的不同属性数据进行了筛选，精简数据的同时提高了性能；本发明可以联合文本属性、图像属性和视频属性的大量数据，进行舆情信息分类的学习；

2、本发明所得的分类模型能够提高舆情分类的精确性，并综合大量信息发布者的情绪分类结果，得到更加客观的舆情信息；

3、本发明定义了可以提取文本特征并对文本情绪进行分类的模型，更好地实现文本情绪分类任务；

4、本发明对视频进行提取并融合了文本、声音和图像的数据，并用长时间记忆网络实现了视频情绪的分类，提高了视频情绪分类效果的精度；

5、本发明对不同用户的情绪分类模型，用静态数据对其进行加权，使得分类结果具有客观性。

附图说明

图1为一种基于多属性信息融合的舆情分类方法的流程图；

图2为基于多属性信息融合的舆情分类的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

一种基于多属性信息融合的舆情分类方法，参见图1和图2，该方法包括以下步骤：

101：利用基于CBOW(连续词袋模型)的文本预训练模型^[12]提取文本数据特征，并利用SVM(支持向量机)分类器构造文本分类模型，进行文本属性的情绪分类；

102：利用YOLO(You only look once，当前较为流行的目标检测算法)对象检测网络筛选出舆情相关的图像属性信息，并构造基于ResNet(残差神经网络)的图像分类模型进行图像属性的情绪分类；

103：利用基于LSTM(长短期记忆)的模型提取并融合视频中的视觉、音频、文本信息，并构造视频属性的情绪分类模型；

104：将同一发布者的不同属性情绪分类模型分配权重，并利用静态数据为不同的发布者分配权重，融合得到最终的舆情分类结果。

综上所述，本发明实施将图像、文本和视频数据特征融合起来进行舆情信息分类，设计了全新的模型结构，提高了舆情信息分类的精确性和客观性。

实施例2

下面结合具体的实例、计算公式对实施例1中的方案进行进一步地介绍，详见下文描述：

201：利用基于CBOW的文本预训练模型^[12]提取文本数据特征，并利用SVM分类器进行文本属性的情绪分类。

在本发明实施例中，使用了先前的研究者训练的文本预训练模型对文本信息进行迁移训练，目的是提高准确性、减少训练时间，该文本预训练模型为本领域技术人员所公知，本发明实施例对此不做赘述。

其中，上述步骤201主要包括：

1)文本数据筛选部分：

对于媒体平台用户发布的文本数据，应筛选出与舆情信息相关的文本信息。部分用户可能会发布无意义的文本信息，或故意留下恶意信息。本发明实施例使用文本过滤器去除所有停顿词，并删除了所有与情感信息无关的链接地址、联系方式等文本。此外，本发明实施例将所有少于五个单词的句子视作无意义信息，也一并去除。

2)文本特征提取过程：

本发明实施例使用到的文本特征提取网络为连续词袋模型(CBOW)，连续词袋模型是近年来较为流行的文本特征提取器，是一个能够快速训练文本以得到单词特征向量的神经网络模型，它的核心原理是中心词的前R个词和后R个词来预测中心词的特征(其中，R的取值根据实际应用中的需要进行设定，本发明实施例对此不做限制)。其整体架构与此前较为普遍的NNLM(神经网络语言模型)类似。NNLM模型由输入、映射、隐藏、输出层构成，而CBOW模型去除了非线性隐藏层，因此能够使网络的训练更加快速。

在本发明实施例中，使用了先前的相关研究训练出的模型来训练文本特征数据。首先将文本单词进行编码。N个词使用1-of-V coding编码，其中，V是词典的大小。编码后的单词使用共享的投影层，因此所有的单词被投影到同一位置(所有向量被平均)。此外，通过一个对数线性分类器，将前向和后向的四个单词的特征一并用于当前单词的特征表示。由此，CBOW模型可实现将上下文所包含的信息融合进当前单词特征向量的功能。

本发明实施例使用了预训练过的CBOW模型，从投影层中提取出对应的特征向量，便可作为文本的目标单词特征向量。

3)文本情绪信息分类：

对提取好的文本信息特征，本发明实施例利用SVM算法进行分类。事先进行训练的文本信息样本，根据文本中包含的情绪信息，利用人工标注的主观方式，被划分为积极、消极和中性三类进行训练(同一句话中的所有单词特征被标注为一类)。人工标注流程为：给定一个文本语句，由五名标注人员分别对该文本语句的情绪信息进行分类，判断该语句的情绪类别为积极、消极还是中性，最后将五名标注人员的标注结果汇总，选取标注人数最多的类别作为该语句的最终类别划分。若五名标注人员结果分布为2：2：1，则由标注类别与别人都不相同的一名标注人员重新进行标注，标注的范围是从第一次标注时该人员未选择的类别中选择一个。每个样本语句都使用相同的流程进行标注。

训练所用到的方法为SVM算法，利用SVM的多分类功能对文本样本进行分类，训练分类器时以单词特征向量为单位。测试时，可以得到每个单词特征属于三个情绪类别的预测值，在同一句话中，通过统计这句话里每个单词特征的分类结果，选择概率最大的预测类别作为整句话的情绪分类结果。然后将所有文本样本中所有句子的情绪预测类别的分布概率，作为文本样本属于各个情绪类别的置信度，用向量f_T(x_T)表示。

其中

分别为该文本样本属于积极、消极和中性的概率。

202：利用YOLO对象检测网络筛选出舆情相关的图像属性信息，并利用基于ResNet的卷积神经网络模型进行图像属性的情绪分类；

其中，上述步骤202主要包括：

1)筛选舆情相关图像：

对于用户发布的媒体图像，要筛选出含有反映舆情相关事件和场景的对象图像。对此本发明实施例使用了对象检测网络YOLO。首先将图像重置为同样的大小，将重置后的图像划分为S×S的网格，如果一个物体的中心落在某个网格内，则这个网格负责检测该物体。通过网络，每个网格会预测产生B个bounding box和其confidence score(置信度)，以及C个类别概率。最后通过非极大值抑制，筛选出含有对象目标的矩形框。使用YOLO网络能够筛选出含有舆情对象的图像，并将不相关的图像进行排除。

2)图像情绪分类：

在情绪分类部分，利用流行的图像情绪数据库来训练卷积神经网络模型。以ResNet-50为基础搭建网络进行图像的分类，最终输出结果为三分类。将图像样本属于每类的置信度，作为结果输出，用向量f_P(x_P)表示。

其中

分别为该图像样本属于积极、消极和中性的概率。

203：利用基于LSTM的模型提取并融合视频中的视觉、音频、文本信息，并构造视频属性的情绪分类模型；

其中，上述步骤203主要包括：

1)筛选舆情视频：

与图像和文本一样，本发明实施例首先需要筛选与舆情信息相关的视频作为样本。在本发明实施例中筛除的是10秒以下及不包含音频的视频样本。

2)提取视频中不同模态特征：

视频中的文本信息主要是话语部分的文本。本发明实施例利用test-CNN(文本卷积神经网络)来提取其特征。对每一句话，将其表示为组成单词的向量的串联，并包装成50个单词的窗口作为CNN的输入部分。使用的test-CNN有两个卷积层：第一个层有两个大小为3和4的卷积核，每个卷积核有50个feature map；第二层有一个大小为2的卷积核，包含100个feature map。卷积层与窗口2×2的max-pooling层交错。这之后是一个大小为500并包含softmax输出的全连接层。以全连接层的激活值作为话语文本的特征。

音频数据特征的提取使用的是openSMILE，这是一款开源软件，可以自动提取诸如音调和声音强度等音频特征。openSMILE提取的特征包含多个低层描述符(LLD)，如MFCC(梅尔频率倒谱系数)、声音强度、音高，以及它们的统计量，如均值、平方根二次均值等。音频特征提取在30赫兹帧率和滑动窗口的100毫秒，最终得到6373个特征。

视频中的帧图像部分，使用了3D-CNN来提取其中的特征。令video∈R^c×f×h×w表示一个视频，其中c为通道数，f表示帧数，h和w表示帧图像的长和宽，

表示卷积滤波器，其中f_m为特征图的数量，f_d为帧数。和2D-CNN一样，filter在视频中滑动，进行卷积运算并生成输出，对卷积运算的结果本发明实施例使用max-pooling(最大值池化)方法来选择相关特征。max-pooling层输出的数据输入到全连接层中，经过softmax输出作为视频特征数据。

3)基于LTSM的特征融合与情绪分类输出：

对于上下文信息可能的联系，使用了基于LSTM的递归神经网络(RNN)方案，使得一组特征进行分类时，其他特征可提供相应的语境信息。LSTM是RNN的一种，是传统前馈神经网络的扩展。LSTM单元格能够建模远程依赖关系。每个LSTM单元由输入门、输出门和遗忘门组成，用于控制信息流。在LSTM中，密集层的激活被当作上下文联系的特征输出。LSTM训练网络对每个视频使用交叉熵损失进行优化，损失函数定义如下：

损失函数的作用是作为视频训练分类的度量。经过训练过程的不断迭代优化，使得损失函数值由大收敛到小，训练模型的性能越来越高，经过测试后可应用于视频情绪分类。

其中，M_v为视频总数，L_i为第i个视频的所有特征向量集合，

为类c的原始输出，而

表示第i个视频中第j个特征向量所得到的输出结果。

利用LTSM网络，可以得到每个视频的情绪分类输出，用向量f_v(x_v)表示。

其中

分别为该视频样本属于积极、消极和中性的概率。

204：将同一发布者的不同属性情绪分类模型分配权重，并利用静态数据为不同的发布者分配权重，融合得到最终的舆情分类结果；

其中，上述步骤204主要包括：

在分别得到文本、图像以及视频的情绪预测输出之后，将单一发布者不同属性数据下的情绪预测结果进行融合。融合公式为：

U(x_t,x_p,x_v)＝a₁f_t(x_t)+a₂f_p(x_p)+a₃f_v(x_v) (2)

其中，U为该发布者发布数据测试到的情绪分类。a₁+a₂+a₃＝1。

因文本、图像、视频信息对用户情绪判断的有效性不同，需要将a₁,a₂,a₃设置为不同的权重，以达到最佳效果。本发明实施例设置文本为0.3，图像为0.2，视频为0.5。

对于同一事件或场景，不同的人具有不同的情绪强度。相信对于发布内容较多的用户，所传达的情绪信息较为强烈，因而有效性更强。基于此，本发明实施例用W＝N/M_u表示每位用户的情绪有效度。N代表的是该用户所有的发布内容数量，M_u代表该用户发表的关于舆情相关事件和场景的内容数量。

因此，对舆情总的分类结果，可由下式表示：

其中，n指的是总的发布者数量。由此，便得到了舆情信息的分类结果。

综上所述，本发明实施例从不同用户发布的数据当中筛选出舆情信息相关的多属性数据，利用自然语言处理、语音信号处理和计算机视觉的多种方法，提取不同属性的数据特征。然后将不同属性的数据特征构建不同模态的情绪分类模型，并将其在输出端融合，联合建立情绪分类模型，并综合考虑了不同数据发布者的有效度，得到综合的舆情信息分类结果。

参考文献：

[1]Z.Zheng,L.Zheng,M.Garrett,Y.Yang,Y.Shen,Dual-path convolutionalimage-text embedding,CoRR abs/1711.05535(2017).

[2]A.Eisenschtat,L.Wolf,Linking image and text with 2-way nets,in:2017IEEE Conference on Computer Vision and Pattern Recognition,CVPR 2017,Honolulu,HI,USA,July 21-26,2017,IEEE Computer Society,2017,pp.1855-1865.

[3]J.Gu,J.Cai,S.R.Joty,L.Niu,G.Wang,Look,imagine and match:Improvingtextual-visual cross-modal retrieval with generative models,in:2018IEEEConference on Computer Vision and Pattern Recognition,CVPR 2018,Salt LakeCity,UT,USA,June 18-22,2018,IEEE Computer Society,2018,pp.7181-7189.

[4]X.Xu,L.He,H.Lu,L.Gao,Y.Ji,Deep adversarial metric learning forcross-modal retrieval,World Wide Web 22(2)(2019)657-672.

[5]H.Wang,D.Sahoo,C.Liu,E.Lim,S.C.H.Hoi,Learning cross-modalembeddings with adversarial networks for cooking recipes and food images,in:IEEE Conference on Computer Vision and Pattern Recognition,CVPR 2019,LongBeach,CA,USA,June 16-20,2019,Computer Vision Foundation /IEEE,2019,pp.11572-11581.

[6]Lee K-H,Chen X,Hua G et al.Stacked Cross Attention for Image-TextMatching[A].Computer Vision –ECCV 2018[M].Cham:Springer InternationalPublishing,2018,11208:212-228.

[7]Ji Z,Wang H,Han J et al.Saliency-Guided Attention Network forImage-Sentence Matching[A].2019IEEE/CVF International Conference on ComputerVision(ICCV)[C].Seoul,Korea(South):IEEE,2019:5753-5762.

[8]Z.Zhong,L.Zheng,D.Cao,S.Li,Re-ranking person re-identificationwith k-reciprocal encoding,in:2017 IEEE Conference on Computer Vision andPattern Recognition,CVPR 2017,Honolulu,HI,USA,July 21-26,2017,IEEE ComputerSociety,2017,pp.3652-3661.

[9]M.Ye,C.Liang,Y.Yu,Z.Wang,Q.Leng,C.Xiao,J.Chen,R.Hu,Personreidentification via ranking aggregation of similarity pulling anddissimilarity pushing,IEEE Trans.Multimedia 18(12)(2016)2553-2566.

[10]A.Barman,S.K.Shah,Shape:A novel graph theoretic algorithm formaking consensus-based decisions in person re-identification systems,in:IEEEInternational Conference on Computer Vision,ICCV 2017,Venice,Italy,October22-29,2017,IEEE Computer Society,2017,pp.1124-1133.

[11]S.Bai,P.Tang,P.H.S.Torr,L.J.Latecki,Re-ranking via metric fusionfor object retrieval and person re-identification,in:IEEE Conference onComputer Vision and Pattern Recognition,CVPR 2019,Long Beach,CA,USA,June 16-20,2019,Computer Vision Foundation /IEEE,2019,pp.740-749.

[12]Mikolov T,Chen K,Corrado G,Dean J.Efficient estimation of wordrepresentations in vector space.Preprint(2013).arXiv:1301.3781

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多属性信息融合的舆情分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于多属性信息融合的舆情分类方法，其特征在于，所述方法使用文本过滤器去除所有停顿词，并删除了所有与情感信息无关的链接地址、联系方式的文本。

3.根据权利要求1所述的一种基于多属性信息融合的舆情分类方法，其特征在于，所述通过支持向量机分类器构造文本分类模型，进行文本属性的情绪分类具体为：

训练支持向量机分类器时以单词特征向量为单位；

将所有文本样本中所有句子的情绪预测类别的分布概率，作为文本样本属于各个情绪类别的置信度，用向量f_T(x_T)表示；f_T(x_T)＝[x_T1,x_T2,x_T3]，其中x_T1,x_T2,x_T3分别为该文本样本属于积极、消极和中性的概率。

4.根据权利要求1所述的一种基于多属性信息融合的舆情分类方法，其特征在于，所述方法还包括：

舆情总的分类结果，由下式表示：