CN110321918A

CN110321918A - 基于微博的舆论机器人系统情感分析和图像标注的方法

Info

Publication number: CN110321918A
Application number: CN201910350114.1A
Authority: CN
Inventors: 纪荣嵘; 苏劲松; 刘宗岳
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2019-10-11

Abstract

基于微博的舆论机器人系统情感分析和图像标注的方法，涉及情感分析和图像标注。1、基于微博的情感倾向性分析模块包括以下步骤：微博数据的特征抽取，多模态联合模型的建模，情感倾向分类器；2、话题导向的图像描述性文本生成模块包括以下步骤：图像数据特征处理，文本数据特征处理，话题导向的图像描述性文本生成。通过所提出的方案能够针对图片生成与指定话题相关的一段文本，同时通过与微博服务器进行交互实现将生成的文本自动发布到微博的功能。

Description

基于微博的舆论机器人系统情感分析和图像标注的方法

技术领域

本发明涉及情感分析和图像标注，尤其是涉及一个从输入所需要查询和发布的话题到给出查询的情感变化趋势和舆论走势结果并发布与该话题相关的微博的端到端(end-to-end)的全自动系统的基于微博的舆论机器人系统情感分析和图像标注的方法。

背景技术

随着互联网社交媒体的大量普及和高速发展，将自己的日常生活、娱乐活动、社会工作以及舆论观点等消息发布到网络社交媒体上，已经成为了人们日常生活中不可避免的一个环节，举一个新浪微博用户数据的例子，到2017年9月为止，每个月活跃在新浪微博的用户高达3.76亿，日活跃用户达1.65亿(《2017年微博用户发展报告》)。因此对于社交媒体上的情感分析以及基于图片生成与某一话题相关的文本则成为了一项非常有意义的研究。同时，能够让计算机自动生成文本并实现自动发送，也是人工智能领域在社交媒体上的一大研究方向。

在不同的领域上，情感分析(sentiment analysis)的具体内容也有相应的不同，在社交媒体领域，情感分析主要是从社交网络的舆论中挖掘出真实观点和情感。以微博为例，一条微博包括了微博文本以及图片，所以一条微博的情感也包括了文本和图片两部分的情感，因此基于新浪微博的情感分析任务是一项多模态的任务；而针对图片生成描述性文本的任务则涉及到图像标注(image caption)问题。同时，为了系统能够自动运行并能模拟真实用户进行微博相关操作，又涉及到了与服务器进行网络通信的问题。通过解决了这三个部分的问题，从而实现了舆论机器人系统。

文本的情感分析这一问题是自然语言处理领域的一个分支，它包括了情感辞典、机器分词、机器翻译等相关内容。通过计算文本中每一个词的情感倾向或者经过深度学习网络得到文本的语意结构，从而获得文本的情感。近年来，诸多学者机构对于文本的情感分析投入了大量研究，并构建了多个情感辞典和分词机器，如知网提出的HowNet词典，台湾大学提出的中文情感极性词典NTUSD，大连理工大学提出的情感词汇本题库，还有“jieba”和NLPIR的中文分词工具等，斯坦福大学的自然语言处理第七课也详细地介绍了情感分析，百度和腾讯也分别有推出支持API调用的情感分析的开发工具。

由于网络的迅速发展，社交媒体(微博、Twitter、Instagram)上累积了越来越多的用户上传的包含用户观点和倾向的不同图片，从这些图片中获得用户的真实观点以及情感的倾向一点点成为了热门的研究问题。现如今越来越多的用户会只发一张图片来表达自己当前的情感倾向，没有文本的来支持情感判断，因此对图片进行情感分析的需求更加的迫切。

基于图片来生成文本，也就是图像标注(image caption)也是关于社交媒体上的研究的一个重要领域。图像标注是指从图片的内容中自动生成出一段描述性的文字，机器需要检测出图片中包含的物体，同时还要需要理解各个物体之间的相互关系，最后还要用合理的文字表述出来。而社交媒体的出现无疑是为图像标注提供了一个十分合适的数据集，因为用户发布图片的同时都会配上一句简单的描述，相当于对图片进行了标注，因此，如何让生成的文本更像真实用户发布的、如何让生成的文本与特定话题相关等方向，则成为了社交媒体图像标注中重要的问题。

近年来，人工智能飞速发展，各领域的专家都在想方设法让机器的行为更接近人，有些实现了机器人模仿人脸部表情，有些实现了机器人模拟人的肢体动作，而在社交媒体领域中，机器最大的挑战就是模仿真实用户来生成文本并发布到社交网络中。新浪微博作为中国最大的社交媒体网站，有一套完整的反爬虫反机器人检测的系统，如果没有办法模仿真实用户的操作，那么账户会被视为机器人，然后被封停禁用。因此舆论机器人系统出了能够分析情感倾向、基于图片生成文本之外，还需要能够模拟用户登录微博发布微博的过程，成功地将生成的文本发布到微博上。

发明内容

本发明的目的在于提供可实现一个端到端的基于微博的舆论机器人系统情感分析和图像标注的方法。

本发明包括基于微博的情感倾向性分析模块和话题导向的图像描述性文本生成模块：

1、所述基于微博的情感倾向性分析模块包括以下步骤：

1.1微博数据的特征抽取；

在步骤1.1中，所述微博数据的特征抽取的具体方法可为：网络社交媒体中包含数据量极大、数据类型种类繁多的数据，选取的微博中出现有三种模态的数据：文本数据、图像数据和表情符号数据；首先需要对三种不同模态的数据进行特征的抽取，采用多模态联合情感分析模型，对于特征表示的选取需要选择获取简单、性能稳定、描述性强的情感特征，其中，文本数据选取基于情感辞典同时进行部分语法处理的情感特征，图像数据采用图像情感检测子ANP(Adjective Noun Pairs)，表情符号数据则使用在已收集大数据集下统计所得的在新浪微博中被用户最常使用的50个表情；

1.2多模态联合模型的建模；

在步骤1.2中，所述多模态联合模型的建模的具体方法可为：将各个模态抽取到的特征进行融合的过程，根据不同模态对于情感倾向的表达有这不同的影响，应用基于概率图的方法进行模型建立，每一个模态之间、单独模态与情感极性之间，同时还要考虑每一个模态自身信息对于情感倾向的作用。

1.3情感倾向分类器。

在步骤1.3中，所述情感倾向分类器的具体方法可为：通过联合模型对于多模态融合信息的处理，得到各个情感倾向的预测概率，根据概率大小来确定微博数据的情感倾向。

2、所述话题导向的图像描述性文本生成模块包括以下步骤：

话题导向的图像描述性文本生成模块方法如下：为图像描述性文本生成的方法，其最终目标在于针对一张图片生成与指定话题相关的一段文本并自动发布到新浪微博；模型的输入是所输入的话题和检索到的图像，模型的输出则是一个预测词的序列{y_t}＝y₁,...,y_T；所有的输入信息都被存储在记忆元件中，主要分为图像内存元件和话题内存元件，同时对于所有生成的预测词，也将其存入一个记忆元件——预测词内存元件；每一个存入内存元件的特征表示都被表示为输入和输出两种特征表示，同时将对数据集中进行筛选，选出其中使用最频繁的D个词用以构成字典，最终预测的词是从这D个词的字典D中通过CNN得到；具体步骤如下：

2.1图像数据特征处理；

在步骤2.1中，所述图像数据特征处理的具体方法可为：图像内存元件主要存储图片特征信息的向量化表示；使用的是在ImageNet数据集上预训练好的ResNet101的模型来抽取的图像特征信息；同时，对于不同层的特征表示，对于最终预测的结果也有不同的影响，因此设计了比对两种不同的图像特征，分别为：使用res5c层的特征图和使用pool5层的输出向量前者关注的更多是图像的空间特性，后者则着重表现图像的整体特征；与pool5层的输出向量不同，res5c的特征图占用了更多的内存(7×7＝49个细胞单元)，而pool5层的输出向量只占用1个细胞单元，后续列举的公式以res5c层的特征图为例；

存储在图像内存元件中的res5c层的特征图的向量表示是49维分开计算的，如公式(1.1)所示：

V_img＝ReLU(W_imgI^5c+b_img) (1.1)

其中，和都是模型需要通过训练得到的参数，ReLU表示的是修正线性单元激活函数。

2.2文本数据特征处理；

在步骤2.2中，所述文本数据特征处理的具体方法可为：在话题导向的图像描述性文本生成模型中，输入的查询图像是与某一个特定话题(即输入话题)相关的，因此在数据库中选取N个最热门的话题构建话题词汇表为了使CNN最终的预测结果更准确，将话题按照一个固定的顺序存储在话题内存元件中；由于话题内存元件对于话题关注的更多，因此能够提高整个模型生成预测词的准确率；话题内存元件的向量表示在公式(1.2)中展示：

v_tpc＝ReLU(W_w[W_kk_i]+b_w)；i∈1,...,N (1.2)

其中，k_i表示第i个话题；和三个参数都是需要网络学习；

预测词内存元件存储已经预测出的词的向量表示，由于存储所有的词，因此对于长期信息和上下文信息有保留，所有的预测词y₁,...,y_t-1在预测词内存中的表示如公式(1.3)所示：

v_tpc＝ReLU(W_w[W_ky_i]+b_w)；i∈1,...,t-1 (1.3)

其中，y_i指的是之前生成的第i个预测词的one-hot向量，参数W_w、W_K和b_w都是用与公式(1.2)中一样的参数；每一次迭代循环后，当网络产生一个新的预测词时，都将重新获取v_word,i的值并在内存元件中进行相应的修改操作；

2.3话题导向的图像描述性文本生成；

在步骤2.3中，所述话题导向的图像描述性文本生成的具体方法可为：将输入和输出的图像和预测词的特征表示分别连接起来得到整体特征表示(res5c的特征图表示对于图像内存占用了49个细胞单元，而pool5层的输出则是一个1,024维的向量，占用1个细胞单元)；整个记忆网络中的记忆内存元件的大小则表示为m＝m_img+m_word；

生成一个新的预测词y_t需要用到内存中所有的信息，首先使用上一次的预测词y_t-1的向量表示生成一个记忆网络在时刻t的输入向量s_t：

s_t＝ReLU(W_s(W_ey_t-1)+b_s) (1.4)

其中，和是需要通过训练学习，话题内存将使用计算得到的s_t计算“注意力”——输入向量s_t与输入内存V_t ⁱⁿ中每一个单元；为了强化话题对于生成文本的影响，同时预测出与话题更相关的文本，定义一个权重系数α_tpc，用于指导针对特定输入话题的文本生成：

M＝V_tpcU_tpcV_t ⁱⁿ

h_t＝softmax(α_tpcV_t ⁱⁿs_t) (1.5)

其中，是一个矩阵，i_o表示一个特定的输入话题，α_tpc是一个描述话题和预测词之间关联关系的权重因子，V_t ⁱⁿ是图像和已预测词的内存特征表示，h_t给出了输入向量s_t和输入内存之间的关系，通过话题指导下一个词将注意力放在内存中的哪一部分；然后通过将h_t与输出特征表示进行元素相乘改变特征表示的维度，如公式(1.5)所示：

V_t ^attention(*,i)＝h_t⊙V_t ^out(*,i) (1.6)

同时将输出的带有注意力信息的向量重新分成两个内存向量组成

设计使用卷积神经网络CNN对输出的特征表示预测下一个词，主要是因为CNN能够融合不同滤波器中不同单元的信息，使得模型能够生成更准确的文本序列；使用两个窗口大小不同的、深度为300的滤波器，窗口大小设定d＝[3，4，5]三种尺寸，对于任意一种内存元件类型，采用一层卷积层和一层max-pooling层，如公式(1.7)所示：

其中，表示的是卷积操作，是偏置项，而是滤波器；公式计算得到的尺寸为(300×[3,4,5])的结果被降维到(300×[1,1,1])时将得到的从d＝3到5连接起来得到a_img,t，另一个记忆内存也是用如公式(1.7)的相同操作得到a_word,t，将两个计算结果连接起来后得到一个1800＝2×3×300维度的特征向量a_t：

然后通过一个基于构建的词典D的softmax层获取预测词的概率

p_t＝softmax(W_p(ReLU(W_qa_t+b_q))) (1.9)

公式(1.9)中，和分别是隐藏状态的权重矩阵和偏置项；

为了能够得到最准确的预测词，选取在词典中概率最大的词作为下一个预测词：y_t＝argmax(p_t)；当且仅当，得到的y_t不是表示句子结束的符号时，下一个预测词y_t+1会通过将y_t输入到公式(1.3)和公式(1.4)中作为输入，通过模型生成的结果是最优的结果，主要是因为算法模型是贪心模型，因为模型每一步都是选取的最优解。

本发明的突出技术效果如下：

通过本发明所提出的方案能够针对图片生成与指定话题相关的一段文本，同时通过与微博服务器进行交互实现将生成的文本自动发布到微博的功能。

本发明在经典的图像数据集MSCOCO上做了对应的相关的验证性实验如表1所示。

表1

算法	BELU-1	BELU-2	BELU-3	BELU-4	CIDEr	METEOR	ROUGE-L
								Attend2U	0.093	0.035	0.012	0.006	0.103	0.043	0.108
OURS-5c	0.091	0.031	0.011	0.004	0.112	0.036	0.125
								OURS-p5	0.114	0.043	0.016	0.007	0.146	0.045	0.127
OURS-noTPC	0.098	0.039	0.014	0.006	0.105	0.037	0.120
								OURS-noWORD	0.088	0.033	0.002	0	0.055	0.026	0.117
OURS-noCNN	0.092	0.038	0.002	0	0.060	0.029	0.124

表1展示了MSCOCO数据集中本发明的算法与所有对比算法之间精度的比较，可以看出本发明算法在各种算法实现的结果上表现最优。

附图说明

图1为基于微博的情感倾向性分析模块的图像数据特征处理示意图。

图2为基于微博的情感倾向性分析模块的文本数据特征处理示意图。

图3为话题导向的图像描述性文本生成模块的结构示意图。

具体实施方式

以下实施例将结合附图对本发明作进一步的说明。

本发明实施例包括基于微博的情感倾向性分析模块和话题导向的图像描述性文本生成模块：

1、所述基于微博的情感倾向性分析模块包括以下步骤：

1.1微博数据的特征抽取，具体方法为：网络社交媒体中包含数据量极大、数据类型种类繁多的数据，选取的微博中出现有三种模态的数据：文本数据、图像数据和表情符号数据；首先需要对三种不同模态的数据进行特征的抽取，采用多模态联合情感分析模型，对于特征表示的选取需要选择获取简单、性能稳定、描述性强的情感特征，其中，文本数据选取基于情感辞典同时进行部分语法处理的情感特征，图像数据采用图像情感检测子ANP(Adjective Noun Pairs)，表情符号数据则使用在已收集大数据集下统计所得的在新浪微博中被用户最常使用的50个表情；

1.2多模态联合模型的建模，具体方法为：将各个模态抽取到的特征进行融合的过程，根据不同模态对于情感倾向的表达有这不同的影响，应用基于概率图的方法进行模型建立，每一个模态之间、单独模态与情感极性之间，同时还要考虑每一个模态自身信息对于情感倾向的作用。

1.3情感倾向分类器，具体方法为：通过联合模型对于多模态融合信息的处理，得到各个情感倾向的预测概率，根据概率大小来确定微博数据的情感倾向。

2、所述话题导向的图像描述性文本生成模块包括以下步骤：

2.1图像数据特征处理，具体方法为：图像内存元件主要存储图片特征信息的向量化表示；使用的是在ImageNet数据集上预训练好的ResNet101的模型来抽取的图像特征信息；同时，对于不同层的特征表示，对于最终预测的结果也有不同的影响，因此设计了比对两种不同的图像特征，分别为：使用res5c层的特征图和使用pool5层的输出向量前者关注的更多是图像的空间特性，后者则着重表现图像的整体特征；与pool5层的输出向量不同，res5c的特征图占用了更多的内存(7×7＝49个细胞单元)，而pool5层的输出向量只占用1个细胞单元，后续列举的公式以res5c层的特征图为例；

V_img＝ReLU(W_imgI^5c+b_img) (1.1)

2.2文本数据特征处理，具体方法为：在话题导向的图像描述性文本生成模型中，输入的查询图像是与某一个特定话题(即输入话题)相关的，因此在数据库中选取N个最热门的话题构建话题词汇表为了使CNN最终的预测结果更准确，将话题按照一个固定的顺序存储在话题内存元件中；由于话题内存元件对于话题关注的更多，因此能够提高整个模型生成预测词的准确率；话题内存元件的向量表示在公式(1.2)中展示：

v_tpc＝ReLU(W_w[W_kk_i]+b_w)；i∈1,...,N (1.2)

其中，k_i表示第i个话题；和三个参数都是需要网络学习；

v_tpc＝ReLU(W_w[W_ky_i]+b_w)；i∈1,...,t-1 (1.3)

2.3话题导向的图像描述性文本生成，具体方法为：将输入和输出的图像和预测词的特征表示分别连接起来得到整体特征表示(res5c的特征图表示对于图像内存占用了49个细胞单元，而pool5层的输出则是一个1,024维的向量，占用1个细胞单元)；整个记忆网络中的记忆内存元件的大小则表示为m＝m_img+m_word；

s_t＝ReLU(W_s(W_ey_t-1)+b_s) (1.4)

M＝V_tpcU_tpcV_t ⁱⁿ

h_t＝softmax(α_tpcV_t ⁱⁿs_t) (1.5)

V_t ^attention(*,i)＝h_t⊙V_t ^out(*,i) (1.6)

然后通过一个基于构建的词典D的softmax层获取预测词的概率

p_t＝softmax(W_p(ReLU(W_qa_t+b_q))) (1.9)

公式(1.9)中，和分别是隐藏状态的权重矩阵和偏置项；

以下给出具体实施例。

以微博数据为例进行说明，具体实施步骤如下(参见图1～3，分别给出输入的话题#Food、关键词rice等和CNN ResNet)：

a)从整个数据库中，根据输入的话题和关键词筛选出一定量的数据样本；

b)将筛选到的图片通过CNN抽取图像特征；

c)利用存放在图像内存元件的图像的特征向量、存放在话题内存元件的话题列表的向量和存放在预测词内存元件的已预测的词的词向量通过训练好的模型产生下一个预测词；

d)将所有预测词拼接成一句话，并通过与微博服务器的交互发布到微博。

Claims

1.基于微博的舆论机器人系统情感分析和图像标注的方法，其特征在于包括基于微博的情感倾向性分析模块和话题导向的图像描述性文本生成模块。

2.如权利要求1所述基于微博的舆论机器人系统情感分析和图像标注的方法，其特征在于所述基于微博的情感倾向性分析模块包括以下步骤：

1.1微博数据的特征抽取；

1.2多模态联合模型的建模；

1.3情感倾向分类器。

3.如权利要求2所述基于微博的舆论机器人系统情感分析和图像标注的方法，其特征在于在步骤1.1中，所述微博数据的特征抽取的具体方法为：网络社交媒体中包含数据量极大、数据类型种类繁多的数据，选取的微博中出现有三种模态的数据：文本数据、图像数据和表情符号数据；首先对三种不同模态的数据进行特征的抽取，采用多模态联合情感分析模型，对于特征表示的选取选择获取简单、性能稳定、描述性强的情感特征，其中，文本数据选取基于情感辞典同时进行部分语法处理的情感特征，图像数据采用图像情感检测子ANP，表情符号数据则使用在已收集大数据集下统计所得的在新浪微博中被用户最常使用的50个表情。

4.如权利要求2所述基于微博的舆论机器人系统情感分析和图像标注的方法，其特征在于在步骤1.2中，所述多模态联合模型的建模的具体方法为：将各个模态抽取到的特征进行融合的过程，根据不同模态对于情感倾向的表达有这不同的影响，应用基于概率图的方法进行模型建立，每一个模态之间、单独模态与情感极性之间，同时考虑每一个模态自身信息对于情感倾向的作用。

5.如权利要求2所述基于微博的舆论机器人系统情感分析和图像标注的方法，其特征在于在步骤1.3中，所述情感倾向分类器的具体方法为：通过联合模型对于多模态融合信息的处理，得到各个情感倾向的预测概率，根据概率大小确定微博数据的情感倾向。

6.如权利要求1所述基于微博的舆论机器人系统情感分析和图像标注的方法，其特征在于所述话题导向的图像描述性文本生成模块包括以下步骤：

2.1图像数据特征处理；

2.2文本数据特征处理；

2.3话题导向的图像描述性文本生成。

7.如权利要求6所述基于微博的舆论机器人系统情感分析和图像标注的方法，其特征在于在步骤2.1中，所述图像数据特征处理的具体方法为：图像内存元件主要存储图片特征信息的向量化表示；使用的是在ImageNet数据集上预训练好的ResNet101的模型抽取的图像特征信息；同时，设计比对两种不同的图像特征，分别为：使用res5c层的特征图和使用pool5层的输出向量

8.如权利要求7所述基于微博的舆论机器人系统情感分析和图像标注的方法，其特征在于所述使用res5c层的特征图是图像的空间特性；所述使用pool5层的输出向量是图像的整体特征；后续列举的公式以res5c层的特征图为例；

存储在图像内存元件中的res5c层的特征图的向量表示是分开计算的，如公式(1.1)所示：

V_img＝ReLU(W_imgI^5c+b_img) (1.1)

9.如权利要求6所述基于微博的舆论机器人系统情感分析和图像标注的方法，其特征在于在步骤2.2中，所述文本数据特征处理的具体方法为：在话题导向的图像描述性文本生成模型中，输入的查询图像是与某一个特定话题相关的，因此在数据库中选取N个最热门的话题构建话题词汇表为了使CNN最终的预测结果更准确，将话题按照一个固定的顺序存储在话题内存元件中；由于话题内存元件对于话题关注的更多，因此能够提高整个模型生成预测词的准确率；话题内存元件的向量表示在公式(1.2)中展示：

v_tpc＝ReLU(W_w[W_kk_i]+b_w)；i∈1,...,N (1.2)

其中，k_i表示第i个话题；和三个参数都是需要网络学习；

v_tpc＝ReLU(W_w[W_ky_i]+b_w)；i∈1,...,t-1 (1.3)

其中，y_i指的是之前生成的第i个预测词的one-hot向量，参数W_w、W_K和b_w都是用与公式(1.2)中一样的参数；每一次迭代循环后，当网络产生一个新的预测词时，都将重新获取v_word,i的值并在内存元件中进行相应的修改操作。

10.如权利要求6所述基于微博的舆论机器人系统情感分析和图像标注的方法，其特征在于在步骤2.3中，所述话题导向的图像描述性文本生成的具体方法为：将输入和输出的图像和预测词的特征表示分别连接起来得到整体特征表示整个记忆网络中的记忆内存元件的大小则表示为m＝m_img+m_word；

s_t＝ReLU(W_s(W_ey_t-1)+b_s) (1.4)

M＝V_tpcU_tpcV_t ⁱⁿ

h_t＝soft max(α_tpcV_t ⁱⁿs_t) (1.5)

其中，表示的是卷积操作，是偏置项，而是滤波器；公式计算得到的尺寸为300×[3,4,5]的结果被降维到300×[1,1,1]时将得到的从d＝3到5连接起来得到a_img,t，另一个记忆内存也是用如公式(1.7)的相同操作得到a_word,t，将两个计算结果连接起来后得到一个1800＝2×3×300维度的特征向量a_t：

然后通过一个基于构建的词典D的softmax层获取预测词的概率

p_t＝soft max(W_p(ReLU(W_qa_t+b_q))) (1.9)

公式(1.9)中，和分别是隐藏状态的权重矩阵和偏置项；

选取在词典中概率最大的词作为下一个预测词：y_t＝argmax(p_t)；当且仅当，得到的y_t不是表示句子结束的符号时，下一个预测词y_t+1通过将y_t输入到公式(1.3)和公式(1.4)中作为输入，通过模型生成的结果是最优的结果。