CN116561639A

CN116561639A - 一种面向开源情报的多模态数据情感分析方法

Info

Publication number: CN116561639A
Application number: CN202310596095.7A
Authority: CN
Inventors: 赵立永; 王又辰; 杨雨婷; 方志; 赵勤博
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2023-05-24
Filing date: 2023-05-24
Publication date: 2023-08-08

Abstract

本发明涉及一种面向开源情报的多模态数据情感分析方法，属于人工智能、大数据、情感分析领域。本发明通过在Spark Streaming框架内封装多模态情感分析模型，实现了资源分类矩阵算子、图文数据对增强算子、多模态算法算子和多标签内容算子；该方法处理过程如下：首先，对从HDFS接收的输入数据进行预处理操作，其次，调用资源分类矩阵算子对文本、视频、图像进行分类处理，再次，调用图文数据对增强算子进行图文数据增强，调用多模态算法算子和多标签内容算子实现情感预测，最后，将预测的结果写入到Kafka，完成情感预测的整个流程。本发明实现大数据+深度学习的技术融合，满足可扩展性和低资源应用，支持海量数据的智能挖掘分析。

Description

一种面向开源情报的多模态数据情感分析方法

技术领域

本发明属于人工智能、大数据、情感分析领域，具体涉及一种面向开源情报的多模态数据情感分析方法。

背景技术

随着数字技术、网络技术和移动通信技术发展，新媒体成为向用户提供信息和服务的重要传播形态，新媒体信息的情感分析也成为互联网内容安全监管和把控的重要研究方向，服务于政治、军事和经济等多个领域。新媒体信息的内容组成更加多样，既有纯文本、纯图片、纯视频的单模态形式，也有文本+图片、文本+视频的多模态形式。传统基于文本特征的情感分析方法，因缺少对多模态数据的建模，已不再适合处理新媒体信息的情感分析。现有的图文结合的情感分析方法也只适用于特定平台，比如微博、微信等自媒体平台的网民情感分析。而针对视频信息的情感分析，主要是利用视频中的文本、图像和声音等内容，通过抽取关键特征实现视频中人物情感倾向计算，对视频描述信息的利用存在不足，缺少整体的情感分析。另外，现有方法复杂度普遍较高，难以应对互联网海量的新媒体信息。

针对上述存在的不足，本发明提出了一种面向开源情报的多模态情感分析方法与系统，针对新媒体信息所包含的文本、视频、图像建立多模态情感分析模型，并结合大数据技术构建可扩展的多模态情感分析系统，实现了高效准确实时的新媒体信息的多模态情感分析，能够满足情报挖掘、舆情监测、话题监测与跟踪、品牌口碑挖掘等多种应用的实时/准实时的挖掘分析。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是如何提供一种面向开源情报的多模态数据情感分析方法，以解决新媒体多模态信息的融合处理、视频关键信息抽取、图文数据增强和计算模型构建问题，解决跨领域的技术融合和低资源问题。

(二)技术方案

为了解决上述技术问题，本发明提出一种面向开源情报的多模态数据情感分析方法，该方法包括：通过在Spark Streaming框架内封装多模态情感分析模型，实现了资源分类矩阵算子、图文数据对增强算子、多模态算法算子和多标签内容算子；该方法处理过程如下：首先，对从HDFS接收的输入数据进行预处理操作，其次，调用资源分类矩阵算子对文本、视频、图像进行分类处理，再次，调用图文数据对增强算子进行图文数据增强，调用多模态算法算子和多标签内容算子实现情感预测，最后，将预测的结果写入到Kafka，完成情感预测的整个流程。

(三)有益效果

本发明提出一种面向开源情报的多模态数据情感分析方法，有益效果体现在以下方面：

(1)设计了一种多模态资源分类矩阵，针对新媒体的文本、视频、图像信息，资源分类矩阵被划分为视频抽帧分解为图片类，纯文本词向量提取类，视频抽帧提取文本类和纯图像特征提取类，通过不同信息的分类聚合提取，统一输出为符合特征融合的网络结构特征信息，解决新媒体多模态信息的统一表征问题。

(2)提出一种图文对的数据增强方法，对于图片-文本对中的图片，利用增强pHash算法，通过离散余弦变换计算汉明距离增加图片正样本；对于图片-文本对中的描述文本，计算语料库中相关句子和该描述文本的TF-IDF相似度增加为文本正样本，弥补了训练样本的不足，降低了训练样本的不平衡性，提高了模型训练的效果。

(3)提出一种基于内容标签矩阵的多标签情感分类方法，该方法能够在多模态资源分类矩阵输出结果基础上，进一步融合内容的多层级标签特征，实现新媒体信息的多标签情感分类，弥补了单纯依赖内容本身进行分析的不足，提高了新媒体信息情感极性分类的合理性。

(4)提出一种新媒体信息多模态情感分析系统，以流式处理框架Spark Streaming为基础，通过将视频抽帧技术、Faster-RCNN目标检测网络、GRU模型、图文特征融合函数化，实现大数据+深度学习的技术融合，满足可扩展性和低资源应用，支持海量数据的智能挖掘分析。

附图说明

图1为本发明的资源分类矩阵流程图；

图2为本发明的图文数据对增强流程图；

图3为本发明的多模态情感分析模型示意图；

图4为本发明的图文数据对增强处理流程图；

图5为本发明的海量新媒体信息多模态情感分析系统框架图。

具体实施方式

为使本发明的目的、内容和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明公开一种面向开源情报的多模态情感分析方法与系统，主要解决海量新媒体信息的多模态情感分析，具体包括：(1)需要解决新媒体多模态信息的融合处理、视频关键信息抽取、图文数据增强和计算模型构建问题，提供高准确度的多模态情感极性计算模型；(2)需要解决跨领域的技术融合和低资源问题，支持根据计算任务规模进行扩展，提供海量数据的高效挖掘系统，满足海量多模态数据情感极性的实时预测。

1、数据预处理

在数据预处理阶段进行数据清洗及分词工作。其中运用正则匹配等进行数据清洗，主要过滤掉影响词语义连续性的干扰信息，包含链接部分、其他编码的特殊字符、无语义信息的#@￥％……&*等字符，数字和英文的部分信息。

2、资源分类矩阵算子

资源分类矩阵包括了对多模态数据的分类及处理过程，将输入数据分为视频、图像、文字三种情况进行处理。

其中

视频信息，则需要通过FFmpge抽帧技术进行关键帧提取，得到图像信息；

图像信息则需要判断图像有无文字信息，对于包含文字信息的图片，利用文字提取技术实现文字提取；

文字信息则需要进行文本内容过滤处理等操作。

具体资源分类矩阵流程如图1所示。

(1)视频抽帧

视频数据与图像数据非常类似，都是由像素点组成的数据。视频数据在非音频部分基本上可以视为多帧(张)图像数据的拼接，即三维图像的组合。本发明视频流数据分析采取抽取关键帧技术(IPB帧)，利用FFmpeg提取I帧，I帧在一段时间内数量少但包含的信息量是最多的。抽取多帧图像数据之后进行图像处理，经过文字提取之后，可以存储到图数据库和文本数据库，使用UUID作为图文对的唯一标识码。

(2)图像文字提取

在视频流抽帧的图像数据或者是单纯的图像数据会有文字存在，而提取这些文字对于整体多模态数据新闻信息情感表达起着重要的影响。所以，只有最大化程度的获取视频和图像的语义信息，才能更好分析整体情感表达。对于图像文字提取本方法采取最新技术PaddleOCR的Differentiable Binarization+CRNN算法的骨干网络MobileNetV3进行文本的检测与识别，提高整体的检出率和识别率。

3、图文数据对增强算子

图文数据对增强是在已有数据上实现图文数据库的构建，并通过数据增广，实现图文对中图文数据的平衡。图文数据对增强算子首先判断处理得到的图文对中图片和文本的占比，对于图片比重较小的情况，选择进行图片数据扩增，对于文本比重较小的情况，选择进行文本数据扩增。对于图文对中的图片扩增，采用增强pHash算法，和图片数据库中已有的图片进行相似比对，通过离散余弦变换计算汉明距离，若满足相似阈值，进行图片数据扩增，若遍历数据库之后均不满足阈值条件，则利用边缘拓展、随机剪裁、尺寸缩放、水平垂直翻转等技术进行图片样本扩增。对于图文对中的文本扩增，采用TF-IDF算法，和语料库中的句子计算相似度，若遍历数据库之后均满足阈值条件，则利用同义词替换、随机增加、随机交换等技术进行文本数据扩增。具体图文数据对增强模块流程如图2所示。

图文数据对增强时，图像是利用增强pHash算法，通过离散余弦变换计算汉明距离进行数据扩增；文本采用计算语料库中相关句子和该描述文本的TF-IDF相似度扩充数据，具体相关处理流程如图4所示。

如图4所示，对于图像处理流程如下：

S401、对图像进行尺寸变换，比如将图片缩小为32*32大小；

S402、对图像进行灰度化处理，比如通过平均值法进行处理，提高图片处理速度；

S403、进行离散余弦变换和区域选择，计算DCT及其均值，选取代表区域，比如选取左上角8*8的矩阵；

S404、Hash值计算，将每个DCT值转换成0或1，生成二进制数组；

S405、通过计算汉明距离，进行图片相似度计算；

S406、和预定义阈值比较，输出结果。

对文本处理流程如下：

S411、计算词在文档中的频率TF；

S412、TF进行标注化，避免受文本长度的影响；

S413、计算词的逆文档频率IDF；

S414、计算词的TF-IDF值，得到每个文本的多维数值向量；

S415、通过余弦相似度计算两个文本之间的相似度值；

S416、和预定义阈值比较，输出结果。

4、多模态情感分析模型

多模态情感分析模型是离线训练好的模型，训练数据来源于互联网海量新媒体信息，并进行多标签内容标注。将多模态情感分析模型封装为多模态算法算子。

如图3所示，算法模型利用Attention机制进行图像和文本信息的融合。

图像部分是通过预训练的Faster-RCNN模型提取每个region的pooled-ROI特征和定位特征，两种特征经过FC之后，投影到同一个embedding space。

文本部分首先将一个句子的所有词输入GRU层得到词向量，然后这些词向量经过自注意力机制计算得到对应的权重，最后加权累加得到句子的向量表示，将一个文档的所有句向量输入GRU层得到加强语义后的句向量。

最后一层是所有句向量分别跟每一个图像向量使用注意力计算得到相应的权重，然后加权累加得到一个文档向量，有M张图像就会得到M个文档向量，表示不同图像对应的不同向量描述。多个文档向量经过自注意力计算相应权重，然后加权求和得到最终的文档向量描述D，最后接任务层做Softmax得到多分类结果。

如图3所示，模型具体处理步骤如下：

S31、多模态特征抽取和融合

特征抽取是多模态框架的核心，首先构建文本信息的语义特征，在词向量阶段先输入Bert预训练好的词向量用W_it表示，i表示词编号，t表示当前的句子，经过双向GRU得到两个方向的隐状态表示然后使用Attention计算每个h_it的重要性权重α_it，对权重Softmax归一化之后，对h_it加权求和得到句子的嵌入向量表示s_i。

在图文特征融合阶段，首先输入句嵌入向量s_i，经过双向的GRU得到两个方向的隐状态，拼接得到每个句子的隐状态h_i，使用Faster-RCNN提取每个图像的特征向量m_j，然后使用m_j对h_i作Attention，通过计算两者的内积，实现图像向量和句向量的非线性转换，再经过Softmax得到每个转换后的h_i对应的重要性权重β_j，最后对转换后的h_i加权求和得到文档针对每张图像的文本表示D_i。

输入针对不同图像生成的文本表示D_i，使用Attention计算得到对应的权重r_i，然后进行加权求和得到最终的文档向量D，整体特征表示为I_n，n表示总的融合文本和图像个数。

S32、通过多标签内容算子实现多标签内容情感输出

多标签内容算子用于多标签内容情感输出，利用情感集合S＝{S_1(l,p,q),S_2(l,p,q),...,S_n(l,p,q),n∈输入数据量，(l,p,q)∈三级多标签组合}，根据整体特征向量I_n利用交叉熵作为目标损失函数更新模型参数，通过Softmax函数输出S情感集合的标签。多标签内容是根据新媒体新闻信息类型，进行多级标签分类，即整体情感标签不再是正负中三种，而是细粒度的多级分类标签。标签分类存储有三级，第一级是信息流类型，信息流类型集合＝{视频流,图像流,文本流,混合流，l∈信息流类型。第二级是新闻信息类型，新闻信息类型集合＝{法律,财经,娱乐,科技,体育,军事}，p∈新闻信息类型。第三级是情感表达类型，情感表达类型集合＝{赞扬，中立，抵触，批判}，对新闻信息类型进行多级情感分类，可以使读者更准确的把握新闻多领域情感。

5、海量新媒体信息多模态情感分析系统

海量新媒体信息多模态情感分析系统的处理框架如图5所示：

如图5所示，海量新媒体信息多模态情感分析系统融合了大数据+深度学习技术，通过在Spark Streaming框架内封装多模态情感分析模型，实现了资源分类矩阵算子、图文数据对增强算子、多模态算法算子和多标签内容算子等。系统处理过程如下：首先，对从HDFS接收的输入数据进行清洗和分词等预处理操作，其次，调用资源分类矩阵算子对文本、视频、图像进行分类处理，再次，调用图文数据对增强算子进行图文数据增强，调用多模态算法算子和多标签内容算子实现情感预测，最后，将预测的结果写入到Kafka，完成情感预测的整个流程。

本发明公开一种面向开源情报的多模态情感分析方法与系统，主要优势体现在以下方面：

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种面向开源情报的多模态数据情感分析方法，其特征在于，该方法包括：通过在SparkStreaming框架内封装多模态情感分析模型，实现了资源分类矩阵算子、图文数据对增强算子、多模态算法算子和多标签内容算子；该方法处理过程如下：首先，对从HDFS接收的输入数据进行预处理操作，其次，调用资源分类矩阵算子对文本、视频、图像进行分类处理，再次，调用图文数据对增强算子进行图文数据增强，调用多模态算法算子和多标签内容算子实现情感预测，最后，将预测的结果写入到Kafka，完成情感预测的整个流程。

2.如权利要求1所述的面向开源情报的多模态数据情感分析方法，其特征在于，所述预处理操作包括：数据清洗及分词工作，其中，运用正则匹配进行数据清洗，过滤掉影响词语义连续性的干扰信息，包含链接部分、其他编码的特殊字符、无语义信息的#@￥％……&*字符，数字和英文的部分信息。

3.如权利要求1所述的面向开源情报的多模态数据情感分析方法，其特征在于，资源分类矩阵算子包括了对多模态数据的分类及处理过程，将输入数据分为视频、图像、文字三种情况进行处理，其中，

对于视频信息，通过FFmpge抽帧技术进行关键帧提取，得到图像信息；

对于图像信息，判断图像有无文字信息，对于包含文字信息的图片，利用文字提取技术实现文字提取；

对于文字信息，进行文本内容过滤处理。

4.如权利要求3所述的面向开源情报的多模态数据情感分析方法，其特征在于，对于视频信息，视频流数据分析采取抽取关键帧技术，利用FFmpeg提取I帧，I帧在一段时间内数量少但包含的信息量是最多的，抽取多帧图像数据之后进行图像处理，经过文字提取之后，存储到图数据库和文本数据库，使用UUID作为图文对的唯一标识码。

5.如权利要求3所述的面向开源情报的多模态数据情感分析方法，其特征在于，对于图像信息，文字提取技术采取PaddleOCR的Differentiable Binarization+CRNN算法的骨干网络MobileNetV3进行文本的检测与识别。

6.如权利要求3-5任一项所述的面向开源情报的多模态数据情感分析方法，其特征在于，图文数据对增强算子首先判断处理得到的图文对中图片和文本的占比，对于图片比重较小的情况，选择进行图片数据扩增，对于文本比重较小的情况，选择进行文本数据扩增；对于图文对中的图片扩增，采用增强pHash算法，和图片数据库中已有的图片进行相似比对，通过离散余弦变换计算汉明距离，若满足相似阈值，进行图片数据扩增，若遍历数据库之后均不满足阈值条件，则利用边缘拓展、随机剪裁、尺寸缩放、水平垂直翻转技术进行图片样本扩增；对于图文对中的文本扩增，采用TF-IDF算法，和语料库中的句子计算相似度，若遍历数据库之后均满足阈值条件，则利用同义词替换、随机增加、随机交换技术进行文本数据扩增。

7.如权利要求6所述的面向开源情报的多模态数据情感分析方法，其特征在于，通过离散余弦变换计算汉明距离，若满足相似阈值，进行图片数据扩增包括：

S401、对图像进行尺寸变换；

S402、对图像进行灰度化处理；

S403、进行离散余弦变换和区域选择，计算DCT及其均值，选取代表区域；

S404、Hash值计算，将每个DCT值转换成0或1，生成二进制数组；

S405、通过计算汉明距离，进行图片相似度计算；

S406、和预定义阈值比较，输出结果。

8.如权利要求6所述的面向开源情报的多模态数据情感分析方法，其特征在于，采用TF-IDF算法，和语料库中的句子计算相似度，若遍历数据库之后均满足阈值条件包括：

S411、计算词在文档中的频率TF；

S412、TF进行标注化，避免受文本长度的影响；

S413、计算词的逆文档频率IDF；

S414、计算词的TF-IDF值，得到每个文本的多维数值向量；

S415、通过余弦相似度计算两个文本之间的相似度值；

S416、和预定义阈值比较，输出结果。

9.如权利要求6所述的面向开源情报的多模态数据情感分析方法，其特征在于，调用多模态算法算子和多标签内容算子实现情感预测包括：

算法模型利用Attention机制进行图像和文本信息的融合；

图像部分是通过预训练的Faster-RCNN模型提取每个region的pooled-ROI特征和定位特征，两种特征经过FC之后，投影到同一个embeddingspace；

文本部分首先将一个句子的所有词输入GRU层得到词向量，然后这些词向量经过自注意力机制计算得到对应的权重，最后加权累加得到句子的向量表示，将一个文档的所有句向量输入GRU层得到加强语义后的句向量；

最后一层是所有句向量分别跟每一个图像向量使用注意力计算得到相应的权重，然后加权累加得到一个文档向量，有M张图像就会得到M个文档向量，表示不同图像对应的不同向量描述；多个文档向量经过自注意力计算相应权重，然后加权求和得到最终的文档向量描述D，最后接任务层做Softmax得到多分类结果。

10.如权利要求6所述的面向开源情报的多模态数据情感分析方法，其特征在于，调用多模态算法算子和多标签内容算子实现情感预测包括：

S31、多模态特征抽取和融合

首先构建文本信息的语义特征，在词向量阶段先输入Bert预训练好的词向量用W_it表示，i表示词编号，t表示当前的句子，经过双向GRU得到两个方向的隐状态表示然后使用Attention计算每个h_it的重要性权重α_it，对权重Softmax归一化之后，对h_it加权求和得到句子的嵌入向量表示s_i；

在图文特征融合阶段，首先输入句嵌入向量s_i，经过双向的GRU得到两个方向的隐状态，拼接得到每个句子的隐状态h_i，使用Faster-RCNN提取每个图像的特征向量m_j，然后使用m_j对h_i作Attention，通过计算两者的内积，实现图像向量和句向量的非线性转换，再经过Softmax得到每个转换后的h_i对应的重要性权重β_j，最后对转换后的h_i加权求和得到文档针对每张图像的文本表示D_i；

输入针对不同图像生成的文本表示D_i，使用Attention计算得到对应的权重r_i，然后进行加权求和得到最终的文档向量D，整体特征表示为I_n，n表示总的融合文本和图像个数；

S32、通过多标签内容算子实现多标签内容情感输出

多标签内容算子用于多标签内容情感输出，利用情感集合S＝{S_1(l,p,q),S_2(l,p,q),...,S_n(l,p,q),n∈输入数据量，(l,p,q)∈三级多标签组合}，根据整体特征向量I_n利用交叉熵作为目标损失函数更新模型参数，通过Softmax函数输出S情感集合的标签；多标签内容是根据新媒体新闻信息类型，进行多级标签分类，即整体情感标签不再是正负中三种，而是细粒度的多级分类标签；标签分类存储有三级，第一级是信息流类型，信息流类型集合＝{视频流,图像流,文本流,混合流，l∈信息流类型；第二级是新闻信息类型，新闻信息类型集合＝{法律,财经,娱乐,科技,体育,军事}，p∈新闻信息类型；第三级是情感表达类型，情感表达类型集合＝{赞扬，中立，抵触，批判}，q∈情感表达类型；对新闻信息类型进行多级情感分类，使读者更准确的把握新闻多领域情感。