CN116561639A - 一种面向开源情报的多模态数据情感分析方法 - Google Patents
一种面向开源情报的多模态数据情感分析方法 Download PDFInfo
- Publication number
- CN116561639A CN116561639A CN202310596095.7A CN202310596095A CN116561639A CN 116561639 A CN116561639 A CN 116561639A CN 202310596095 A CN202310596095 A CN 202310596095A CN 116561639 A CN116561639 A CN 116561639A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- data
- emotion
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 88
- 238000004458 analytical method Methods 0.000 title claims abstract description 52
- 239000011159 matrix material Substances 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000005516 engineering process Methods 0.000 claims abstract description 18
- 230000004927 fusion Effects 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 46
- 238000000605 extraction Methods 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 19
- 230000003321 amplification Effects 0.000 claims description 12
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 claims description 2
- 238000005520 cutting process Methods 0.000 claims description 2
- 238000007405 data analysis Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 230000007935 neutral effect Effects 0.000 claims description 2
- 238000006467 substitution reaction Methods 0.000 claims description 2
- 230000005484 gravity Effects 0.000 claims 2
- 238000013434 data augmentation Methods 0.000 claims 1
- 238000005065 mining Methods 0.000 abstract description 7
- 238000013135 deep learning Methods 0.000 abstract description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 7
- 230000007547 defect Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 102100032202 Cornulin Human genes 0.000 description 1
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 1
- 238000005266 casting Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种面向开源情报的多模态数据情感分析方法,属于人工智能、大数据、情感分析领域。本发明通过在Spark Streaming框架内封装多模态情感分析模型,实现了资源分类矩阵算子、图文数据对增强算子、多模态算法算子和多标签内容算子;该方法处理过程如下:首先,对从HDFS接收的输入数据进行预处理操作,其次,调用资源分类矩阵算子对文本、视频、图像进行分类处理,再次,调用图文数据对增强算子进行图文数据增强,调用多模态算法算子和多标签内容算子实现情感预测,最后,将预测的结果写入到Kafka,完成情感预测的整个流程。本发明实现大数据+深度学习的技术融合,满足可扩展性和低资源应用,支持海量数据的智能挖掘分析。
Description
技术领域
本发明属于人工智能、大数据、情感分析领域,具体涉及一种面向开源情报的多模态数据情感分析方法。
背景技术
随着数字技术、网络技术和移动通信技术发展,新媒体成为向用户提供信息和服务的重要传播形态,新媒体信息的情感分析也成为互联网内容安全监管和把控的重要研究方向,服务于政治、军事和经济等多个领域。新媒体信息的内容组成更加多样,既有纯文本、纯图片、纯视频的单模态形式,也有文本+图片、文本+视频的多模态形式。传统基于文本特征的情感分析方法,因缺少对多模态数据的建模,已不再适合处理新媒体信息的情感分析。现有的图文结合的情感分析方法也只适用于特定平台,比如微博、微信等自媒体平台的网民情感分析。而针对视频信息的情感分析,主要是利用视频中的文本、图像和声音等内容,通过抽取关键特征实现视频中人物情感倾向计算,对视频描述信息的利用存在不足,缺少整体的情感分析。另外,现有方法复杂度普遍较高,难以应对互联网海量的新媒体信息。
针对上述存在的不足,本发明提出了一种面向开源情报的多模态情感分析方法与系统,针对新媒体信息所包含的文本、视频、图像建立多模态情感分析模型,并结合大数据技术构建可扩展的多模态情感分析系统,实现了高效准确实时的新媒体信息的多模态情感分析,能够满足情报挖掘、舆情监测、话题监测与跟踪、品牌口碑挖掘等多种应用的实时/准实时的挖掘分析。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是如何提供一种面向开源情报的多模态数据情感分析方法,以解决新媒体多模态信息的融合处理、视频关键信息抽取、图文数据增强和计算模型构建问题,解决跨领域的技术融合和低资源问题。
(二)技术方案
为了解决上述技术问题,本发明提出一种面向开源情报的多模态数据情感分析方法,该方法包括:通过在Spark Streaming框架内封装多模态情感分析模型,实现了资源分类矩阵算子、图文数据对增强算子、多模态算法算子和多标签内容算子;该方法处理过程如下:首先,对从HDFS接收的输入数据进行预处理操作,其次,调用资源分类矩阵算子对文本、视频、图像进行分类处理,再次,调用图文数据对增强算子进行图文数据增强,调用多模态算法算子和多标签内容算子实现情感预测,最后,将预测的结果写入到Kafka,完成情感预测的整个流程。
(三)有益效果
本发明提出一种面向开源情报的多模态数据情感分析方法,有益效果体现在以下方面:
(1)设计了一种多模态资源分类矩阵,针对新媒体的文本、视频、图像信息,资源分类矩阵被划分为视频抽帧分解为图片类,纯文本词向量提取类,视频抽帧提取文本类和纯图像特征提取类,通过不同信息的分类聚合提取,统一输出为符合特征融合的网络结构特征信息,解决新媒体多模态信息的统一表征问题。
(2)提出一种图文对的数据增强方法,对于图片-文本对中的图片,利用增强pHash算法,通过离散余弦变换计算汉明距离增加图片正样本;对于图片-文本对中的描述文本,计算语料库中相关句子和该描述文本的TF-IDF相似度增加为文本正样本,弥补了训练样本的不足,降低了训练样本的不平衡性,提高了模型训练的效果。
(3)提出一种基于内容标签矩阵的多标签情感分类方法,该方法能够在多模态资源分类矩阵输出结果基础上,进一步融合内容的多层级标签特征,实现新媒体信息的多标签情感分类,弥补了单纯依赖内容本身进行分析的不足,提高了新媒体信息情感极性分类的合理性。
(4)提出一种新媒体信息多模态情感分析系统,以流式处理框架Spark Streaming为基础,通过将视频抽帧技术、Faster-RCNN目标检测网络、GRU模型、图文特征融合函数化,实现大数据+深度学习的技术融合,满足可扩展性和低资源应用,支持海量数据的智能挖掘分析。
附图说明
图1为本发明的资源分类矩阵流程图;
图2为本发明的图文数据对增强流程图;
图3为本发明的多模态情感分析模型示意图;
图4为本发明的图文数据对增强处理流程图;
图5为本发明的海量新媒体信息多模态情感分析系统框架图。
具体实施方式
为使本发明的目的、内容和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明公开一种面向开源情报的多模态情感分析方法与系统,主要解决海量新媒体信息的多模态情感分析,具体包括:(1)需要解决新媒体多模态信息的融合处理、视频关键信息抽取、图文数据增强和计算模型构建问题,提供高准确度的多模态情感极性计算模型;(2)需要解决跨领域的技术融合和低资源问题,支持根据计算任务规模进行扩展,提供海量数据的高效挖掘系统,满足海量多模态数据情感极性的实时预测。
1、数据预处理
在数据预处理阶段进行数据清洗及分词工作。其中运用正则匹配等进行数据清洗,主要过滤掉影响词语义连续性的干扰信息,包含链接部分、其他编码的特殊字符、无语义信息的#@¥%……&*等字符,数字和英文的部分信息。
2、资源分类矩阵算子
资源分类矩阵包括了对多模态数据的分类及处理过程,将输入数据分为视频、图像、文字三种情况进行处理。
其中
视频信息,则需要通过FFmpge抽帧技术进行关键帧提取,得到图像信息;
图像信息则需要判断图像有无文字信息,对于包含文字信息的图片,利用文字提取技术实现文字提取;
文字信息则需要进行文本内容过滤处理等操作。
具体资源分类矩阵流程如图1所示。
(1)视频抽帧
视频数据与图像数据非常类似,都是由像素点组成的数据。视频数据在非音频部分基本上可以视为多帧(张)图像数据的拼接,即三维图像的组合。本发明视频流数据分析采取抽取关键帧技术(IPB帧),利用FFmpeg提取I帧,I帧在一段时间内数量少但包含的信息量是最多的。抽取多帧图像数据之后进行图像处理,经过文字提取之后,可以存储到图数据库和文本数据库,使用UUID作为图文对的唯一标识码。
(2)图像文字提取
在视频流抽帧的图像数据或者是单纯的图像数据会有文字存在,而提取这些文字对于整体多模态数据新闻信息情感表达起着重要的影响。所以,只有最大化程度的获取视频和图像的语义信息,才能更好分析整体情感表达。对于图像文字提取本方法采取最新技术PaddleOCR的Differentiable Binarization+CRNN算法的骨干网络MobileNetV3进行文本的检测与识别,提高整体的检出率和识别率。
3、图文数据对增强算子
图文数据对增强是在已有数据上实现图文数据库的构建,并通过数据增广,实现图文对中图文数据的平衡。图文数据对增强算子首先判断处理得到的图文对中图片和文本的占比,对于图片比重较小的情况,选择进行图片数据扩增,对于文本比重较小的情况,选择进行文本数据扩增。对于图文对中的图片扩增,采用增强pHash算法,和图片数据库中已有的图片进行相似比对,通过离散余弦变换计算汉明距离,若满足相似阈值,进行图片数据扩增,若遍历数据库之后均不满足阈值条件,则利用边缘拓展、随机剪裁、尺寸缩放、水平垂直翻转等技术进行图片样本扩增。对于图文对中的文本扩增,采用TF-IDF算法,和语料库中的句子计算相似度,若遍历数据库之后均满足阈值条件,则利用同义词替换、随机增加、随机交换等技术进行文本数据扩增。具体图文数据对增强模块流程如图2所示。
图文数据对增强时,图像是利用增强pHash算法,通过离散余弦变换计算汉明距离进行数据扩增;文本采用计算语料库中相关句子和该描述文本的TF-IDF相似度扩充数据,具体相关处理流程如图4所示。
如图4所示,对于图像处理流程如下:
S401、对图像进行尺寸变换,比如将图片缩小为32*32大小;
S402、对图像进行灰度化处理,比如通过平均值法进行处理,提高图片处理速度;
S403、进行离散余弦变换和区域选择,计算DCT及其均值,选取代表区域,比如选取左上角8*8的矩阵;
S404、Hash值计算,将每个DCT值转换成0或1,生成二进制数组;
S405、通过计算汉明距离,进行图片相似度计算;
S406、和预定义阈值比较,输出结果。
对文本处理流程如下:
S411、计算词在文档中的频率TF;
S412、TF进行标注化,避免受文本长度的影响;
S413、计算词的逆文档频率IDF;
S414、计算词的TF-IDF值,得到每个文本的多维数值向量;
S415、通过余弦相似度计算两个文本之间的相似度值;
S416、和预定义阈值比较,输出结果。
4、多模态情感分析模型
多模态情感分析模型是离线训练好的模型,训练数据来源于互联网海量新媒体信息,并进行多标签内容标注。将多模态情感分析模型封装为多模态算法算子。
如图3所示,算法模型利用Attention机制进行图像和文本信息的融合。
图像部分是通过预训练的Faster-RCNN模型提取每个region的pooled-ROI特征和定位特征,两种特征经过FC之后,投影到同一个embedding space。
文本部分首先将一个句子的所有词输入GRU层得到词向量,然后这些词向量经过自注意力机制计算得到对应的权重,最后加权累加得到句子的向量表示,将一个文档的所有句向量输入GRU层得到加强语义后的句向量。
最后一层是所有句向量分别跟每一个图像向量使用注意力计算得到相应的权重,然后加权累加得到一个文档向量,有M张图像就会得到M个文档向量,表示不同图像对应的不同向量描述。多个文档向量经过自注意力计算相应权重,然后加权求和得到最终的文档向量描述D,最后接任务层做Softmax得到多分类结果。
如图3所示,模型具体处理步骤如下:
S31、多模态特征抽取和融合
特征抽取是多模态框架的核心,首先构建文本信息的语义特征,在词向量阶段先输入Bert预训练好的词向量用Wit表示,i表示词编号,t表示当前的句子,经过双向GRU得到两个方向的隐状态表示然后使用Attention计算每个hit的重要性权重αit,对权重Softmax归一化之后,对hit加权求和得到句子的嵌入向量表示si。
在图文特征融合阶段,首先输入句嵌入向量si,经过双向的GRU得到两个方向的隐状态,拼接得到每个句子的隐状态hi,使用Faster-RCNN提取每个图像的特征向量mj,然后使用mj对hi作Attention,通过计算两者的内积,实现图像向量和句向量的非线性转换,再经过Softmax得到每个转换后的hi对应的重要性权重βj,最后对转换后的hi加权求和得到文档针对每张图像的文本表示Di。
输入针对不同图像生成的文本表示Di,使用Attention计算得到对应的权重ri,然后进行加权求和得到最终的文档向量D,整体特征表示为In,n表示总的融合文本和图像个数。
S32、通过多标签内容算子实现多标签内容情感输出
多标签内容算子用于多标签内容情感输出,利用情感集合S={S1(l,p,q),S2(l,p,q),...,Sn(l,p,q),n∈输入数据量,(l,p,q)∈三级多标签组合},根据整体特征向量In利用交叉熵作为目标损失函数更新模型参数,通过Softmax函数输出S情感集合的标签。多标签内容是根据新媒体新闻信息类型,进行多级标签分类,即整体情感标签不再是正负中三种,而是细粒度的多级分类标签。标签分类存储有三级,第一级是信息流类型,信息流类型集合={视频流,图像流,文本流,混合流,l∈信息流类型。第二级是新闻信息类型,新闻信息类型集合={法律,财经,娱乐,科技,体育,军事},p∈新闻信息类型。第三级是情感表达类型,情感表达类型集合={赞扬,中立,抵触,批判},对新闻信息类型进行多级情感分类,可以使读者更准确的把握新闻多领域情感。
5、海量新媒体信息多模态情感分析系统
海量新媒体信息多模态情感分析系统的处理框架如图5所示:
如图5所示,海量新媒体信息多模态情感分析系统融合了大数据+深度学习技术,通过在Spark Streaming框架内封装多模态情感分析模型,实现了资源分类矩阵算子、图文数据对增强算子、多模态算法算子和多标签内容算子等。系统处理过程如下:首先,对从HDFS接收的输入数据进行清洗和分词等预处理操作,其次,调用资源分类矩阵算子对文本、视频、图像进行分类处理,再次,调用图文数据对增强算子进行图文数据增强,调用多模态算法算子和多标签内容算子实现情感预测,最后,将预测的结果写入到Kafka,完成情感预测的整个流程。
本发明公开一种面向开源情报的多模态情感分析方法与系统,主要优势体现在以下方面:
(1)设计了一种多模态资源分类矩阵,针对新媒体的文本、视频、图像信息,资源分类矩阵被划分为视频抽帧分解为图片类,纯文本词向量提取类,视频抽帧提取文本类和纯图像特征提取类,通过不同信息的分类聚合提取,统一输出为符合特征融合的网络结构特征信息,解决新媒体多模态信息的统一表征问题。
(2)提出一种图文对的数据增强方法,对于图片-文本对中的图片,利用增强pHash算法,通过离散余弦变换计算汉明距离增加图片正样本;对于图片-文本对中的描述文本,计算语料库中相关句子和该描述文本的TF-IDF相似度增加为文本正样本,弥补了训练样本的不足,降低了训练样本的不平衡性,提高了模型训练的效果。
(3)提出一种基于内容标签矩阵的多标签情感分类方法,该方法能够在多模态资源分类矩阵输出结果基础上,进一步融合内容的多层级标签特征,实现新媒体信息的多标签情感分类,弥补了单纯依赖内容本身进行分析的不足,提高了新媒体信息情感极性分类的合理性。
(4)提出一种新媒体信息多模态情感分析系统,以流式处理框架Spark Streaming为基础,通过将视频抽帧技术、Faster-RCNN目标检测网络、GRU模型、图文特征融合函数化,实现大数据+深度学习的技术融合,满足可扩展性和低资源应用,支持海量数据的智能挖掘分析。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (10)
1.一种面向开源情报的多模态数据情感分析方法,其特征在于,该方法包括:通过在SparkStreaming框架内封装多模态情感分析模型,实现了资源分类矩阵算子、图文数据对增强算子、多模态算法算子和多标签内容算子;该方法处理过程如下:首先,对从HDFS接收的输入数据进行预处理操作,其次,调用资源分类矩阵算子对文本、视频、图像进行分类处理,再次,调用图文数据对增强算子进行图文数据增强,调用多模态算法算子和多标签内容算子实现情感预测,最后,将预测的结果写入到Kafka,完成情感预测的整个流程。
2.如权利要求1所述的面向开源情报的多模态数据情感分析方法,其特征在于,所述预处理操作包括:数据清洗及分词工作,其中,运用正则匹配进行数据清洗,过滤掉影响词语义连续性的干扰信息,包含链接部分、其他编码的特殊字符、无语义信息的#@¥%……&*字符,数字和英文的部分信息。
3.如权利要求1所述的面向开源情报的多模态数据情感分析方法,其特征在于,资源分类矩阵算子包括了对多模态数据的分类及处理过程,将输入数据分为视频、图像、文字三种情况进行处理,其中,
对于视频信息,通过FFmpge抽帧技术进行关键帧提取,得到图像信息;
对于图像信息,判断图像有无文字信息,对于包含文字信息的图片,利用文字提取技术实现文字提取;
对于文字信息,进行文本内容过滤处理。
4.如权利要求3所述的面向开源情报的多模态数据情感分析方法,其特征在于,对于视频信息,视频流数据分析采取抽取关键帧技术,利用FFmpeg提取I帧,I帧在一段时间内数量少但包含的信息量是最多的,抽取多帧图像数据之后进行图像处理,经过文字提取之后,存储到图数据库和文本数据库,使用UUID作为图文对的唯一标识码。
5.如权利要求3所述的面向开源情报的多模态数据情感分析方法,其特征在于,对于图像信息,文字提取技术采取PaddleOCR的Differentiable Binarization+CRNN算法的骨干网络MobileNetV3进行文本的检测与识别。
6.如权利要求3-5任一项所述的面向开源情报的多模态数据情感分析方法,其特征在于,图文数据对增强算子首先判断处理得到的图文对中图片和文本的占比,对于图片比重较小的情况,选择进行图片数据扩增,对于文本比重较小的情况,选择进行文本数据扩增;对于图文对中的图片扩增,采用增强pHash算法,和图片数据库中已有的图片进行相似比对,通过离散余弦变换计算汉明距离,若满足相似阈值,进行图片数据扩增,若遍历数据库之后均不满足阈值条件,则利用边缘拓展、随机剪裁、尺寸缩放、水平垂直翻转技术进行图片样本扩增;对于图文对中的文本扩增,采用TF-IDF算法,和语料库中的句子计算相似度,若遍历数据库之后均满足阈值条件,则利用同义词替换、随机增加、随机交换技术进行文本数据扩增。
7.如权利要求6所述的面向开源情报的多模态数据情感分析方法,其特征在于,通过离散余弦变换计算汉明距离,若满足相似阈值,进行图片数据扩增包括:
S401、对图像进行尺寸变换;
S402、对图像进行灰度化处理;
S403、进行离散余弦变换和区域选择,计算DCT及其均值,选取代表区域;
S404、Hash值计算,将每个DCT值转换成0或1,生成二进制数组;
S405、通过计算汉明距离,进行图片相似度计算;
S406、和预定义阈值比较,输出结果。
8.如权利要求6所述的面向开源情报的多模态数据情感分析方法,其特征在于,采用TF-IDF算法,和语料库中的句子计算相似度,若遍历数据库之后均满足阈值条件包括:
S411、计算词在文档中的频率TF;
S412、TF进行标注化,避免受文本长度的影响;
S413、计算词的逆文档频率IDF;
S414、计算词的TF-IDF值,得到每个文本的多维数值向量;
S415、通过余弦相似度计算两个文本之间的相似度值;
S416、和预定义阈值比较,输出结果。
9.如权利要求6所述的面向开源情报的多模态数据情感分析方法,其特征在于,调用多模态算法算子和多标签内容算子实现情感预测包括:
算法模型利用Attention机制进行图像和文本信息的融合;
图像部分是通过预训练的Faster-RCNN模型提取每个region的pooled-ROI特征和定位特征,两种特征经过FC之后,投影到同一个embeddingspace;
文本部分首先将一个句子的所有词输入GRU层得到词向量,然后这些词向量经过自注意力机制计算得到对应的权重,最后加权累加得到句子的向量表示,将一个文档的所有句向量输入GRU层得到加强语义后的句向量;
最后一层是所有句向量分别跟每一个图像向量使用注意力计算得到相应的权重,然后加权累加得到一个文档向量,有M张图像就会得到M个文档向量,表示不同图像对应的不同向量描述;多个文档向量经过自注意力计算相应权重,然后加权求和得到最终的文档向量描述D,最后接任务层做Softmax得到多分类结果。
10.如权利要求6所述的面向开源情报的多模态数据情感分析方法,其特征在于,调用多模态算法算子和多标签内容算子实现情感预测包括:
S31、多模态特征抽取和融合
首先构建文本信息的语义特征,在词向量阶段先输入Bert预训练好的词向量用Wit表示,i表示词编号,t表示当前的句子,经过双向GRU得到两个方向的隐状态表示然后使用Attention计算每个hit的重要性权重αit,对权重Softmax归一化之后,对hit加权求和得到句子的嵌入向量表示si;
在图文特征融合阶段,首先输入句嵌入向量si,经过双向的GRU得到两个方向的隐状态,拼接得到每个句子的隐状态hi,使用Faster-RCNN提取每个图像的特征向量mj,然后使用mj对hi作Attention,通过计算两者的内积,实现图像向量和句向量的非线性转换,再经过Softmax得到每个转换后的hi对应的重要性权重βj,最后对转换后的hi加权求和得到文档针对每张图像的文本表示Di;
输入针对不同图像生成的文本表示Di,使用Attention计算得到对应的权重ri,然后进行加权求和得到最终的文档向量D,整体特征表示为In,n表示总的融合文本和图像个数;
S32、通过多标签内容算子实现多标签内容情感输出
多标签内容算子用于多标签内容情感输出,利用情感集合S={S1(l,p,q),S2(l,p,q),...,Sn(l,p,q),n∈输入数据量,(l,p,q)∈三级多标签组合},根据整体特征向量In利用交叉熵作为目标损失函数更新模型参数,通过Softmax函数输出S情感集合的标签;多标签内容是根据新媒体新闻信息类型,进行多级标签分类,即整体情感标签不再是正负中三种,而是细粒度的多级分类标签;标签分类存储有三级,第一级是信息流类型,信息流类型集合={视频流,图像流,文本流,混合流,l∈信息流类型;第二级是新闻信息类型,新闻信息类型集合={法律,财经,娱乐,科技,体育,军事},p∈新闻信息类型;第三级是情感表达类型,情感表达类型集合={赞扬,中立,抵触,批判},q∈情感表达类型;对新闻信息类型进行多级情感分类,使读者更准确的把握新闻多领域情感。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310596095.7A CN116561639A (zh) | 2023-05-24 | 2023-05-24 | 一种面向开源情报的多模态数据情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310596095.7A CN116561639A (zh) | 2023-05-24 | 2023-05-24 | 一种面向开源情报的多模态数据情感分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116561639A true CN116561639A (zh) | 2023-08-08 |
Family
ID=87496346
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310596095.7A Pending CN116561639A (zh) | 2023-05-24 | 2023-05-24 | 一种面向开源情报的多模态数据情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116561639A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117877738A (zh) * | 2024-03-13 | 2024-04-12 | 简阳市人民医院 | 一种基于知信行健康教育模式的copd患者静脉血栓预防系统 |
-
2023
- 2023-05-24 CN CN202310596095.7A patent/CN116561639A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117877738A (zh) * | 2024-03-13 | 2024-04-12 | 简阳市人民医院 | 一种基于知信行健康教育模式的copd患者静脉血栓预防系统 |
CN117877738B (zh) * | 2024-03-13 | 2024-05-07 | 简阳市人民医院 | 一种基于知信行健康教育模式的copd患者静脉血栓预防系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110019812B (zh) | 一种用户自生产内容检测方法和系统 | |
CN107908715A (zh) | 基于Adaboost和分类器加权融合的微博情感极性判别方法 | |
WO2023065617A1 (zh) | 基于预训练模型和召回排序的跨模态检索系统及方法 | |
CN107871158A (zh) | 一种结合序列文本信息的知识图谱表示学习方法及装置 | |
CN104778224A (zh) | 一种基于视频语义的目标对象社交关系识别方法 | |
CN110956037B (zh) | 多媒体内容重复判断方法及装置 | |
CN111666400B (zh) | 消息获取方法、装置、计算机设备及存储介质 | |
CN114092742B (zh) | 一种基于多角度的小样本图像分类装置和方法 | |
CN111738169A (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN111858878A (zh) | 从自然语言文本中自动提取答案的方法、系统及存储介质 | |
CN116561639A (zh) | 一种面向开源情报的多模态数据情感分析方法 | |
CN107392229B (zh) | 一种基于最面向社会关系抽取的网络表示方法 | |
CN113656700A (zh) | 基于多相似度一致矩阵分解的哈希检索方法 | |
CN115408525A (zh) | 基于多层级标签的信访文本分类方法、装置、设备及介质 | |
CN114398505A (zh) | 目标词语的确定方法、模型的训练方法、装置及电子设备 | |
CN112084788B (zh) | 一种影像字幕隐式情感倾向自动标注方法及系统 | |
CN110674265B (zh) | 面向非结构化信息的特征判别与信息推荐系统 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
Li | A deep learning-based text detection and recognition approach for natural scenes | |
CN112069790A (zh) | 文本相似度识别方法、装置及电子设备 | |
CN114842301A (zh) | 一种图像注释模型的半监督训练方法 | |
CN114998809A (zh) | 一种基于albert和多模态循环融合的虚假新闻检测方法及系统 | |
CN115168609A (zh) | 一种文本匹配方法、装置、计算机设备和存储介质 | |
CN110879843B (zh) | 基于机器学习的构建自适应知识图谱技术的方法 | |
CN116756306A (zh) | 对象分类方法、装置、计算机设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |