CN112668559A

CN112668559A - 一种多模态信息融合的短视频情感判定装置及方法

Info

Publication number: CN112668559A
Application number: CN202110273165.6A
Authority: CN
Inventors: 苏旋; 郭轩; 魏凤仙
Original assignee: Guanchuan Network Technology Nanjing Co ltd
Current assignee: Guanchuan Network Technology Nanjing Co ltd
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2021-04-16
Anticipated expiration: 2041-03-15
Also published as: CN112668559B

Abstract

本发明公开了一种多模态信息融合的短视频情感判定方法、装置及存储介质。采用获取程序获取短视频，从所述短视频中分离出音视频，提取语音特征和文字特征，利用基于多注意力模型的融合交互信息的长短时记忆网络对上述特征进行编解码处理，得到短视频的情感分类特征向量，使用分类器进行情感分类，响应于用户的短视频展示和/或屏蔽请求，向用户展示与其查询请求相符的短视频。本发明一方面能够准确提取短视频中蕴含的有效信息，另一方面对这些独立的特征信息进行融合处理，可进一步挖掘其相互之间的内在关系，并能最终提高短视频的情感分类准确度。

Description

一种多模态信息融合的短视频情感判定装置及方法

技术领域

本发明涉及短视频内容理解和短视频情感分类领域，特别涉及一种基于多模态信息融合的短视频情感判定方法、装置及计算机存储介质。

背景技术

随着短视频平台的越来越流行，对短视频内容的监管一直是未解决的难题，有些短视频的内容并不适合未成年人观看，例如带有暴力和色情内容的视频。为了未成年人的健康成长，建立一个良好的网络环境是非常必要的。人们迫切希望可以利用计算机对规模急剧增长的短视频信息加以自动理解，准确识别不同视频的情感内容是建立一个良好的网络环境的基础。如何准确识别不同短视频的情感内容对很多研究者来说是个重要且具有挑战性的话题。目前的这些方法从视频特征及分类模型等不同方面展开了对视频情感分类和识别的研究。

短视频信息通常包括语音、文字、图像背景、颜色、人脸标签、姿势等多种特征数据，但已有的视频情感识别方法只采用图像或语音特征等单一特征，导致视频的情感特征判别性不明显，从而影响了视频分类和识别的准确率。同时，即使采用了短视频中的多种特征，现有技术中也并未给出很好的特征融合算法，都是采用某种规则或模型对最后获得的短视频情感特征数据进行一次简单的融合操作，因此如何更加精准的挖掘短视频中的有效信息，以及如何实现多种信息的有效融合以提高短视频情感的分类准确性，这是本领域中迫切需要解决的技术问题。

发明内容

有鉴于此，本发明提供了一种多模态信息融合的短视频情感判定方法，一方面能够准确提取短视频中蕴含的有效信息，另一方面对这些独立的特征信息进行融合处理，可进一步挖掘其相互之间的内在关系，并将其作为短视频情感的分类特征，提高短视频的情感分类准确度。

本发明提供一种多模态信息融合的短视频情感判定方法，包括如下步骤：

步骤1：接收用户发送的短视频获取请求，以消息队列请求的方式向短视频平台或者短视频网络存储数据库发送短视频获取请求，并接收获取结果；

步骤2：从所述短视频中分离出短视频的多帧图像、该短视频中的音频信息以及该短视频的视频标题信息；

步骤3：针对上述的提取的音频文件，提取其中的语音特征；

步骤4：对视频图像帧使用YOLOV3进行文字检测，使用CRNN结合CTC-loss进行文字识别；

步骤5：提取并识别视频标题中的文字信息，将视频帧的文字识别结果和视频标题的识别结果作为文字信息，并利用自然语言处理将文字信息转换为文本词向量空间表示；

步骤6：利用基于多注意力模型的融合交互信息的长短时记忆网络对上述语音特征和文本词向量空间进行编解码处理，输出短视频的情感分类特征向量；

步骤7：使用分类器对上述情感分类特征向量进行情感分类，得到该短视频的情感判定结果；

步骤8：将上述情感判定结果作为短视频的情感类型标签与该短视频对应保存到数据库中；

步骤9：接收用户的短视频展示和/或屏蔽请求，向用户展示与其查询请求相符的短视频；其中，用户的请求中包括用户设定的短视频情感类型。

本发明还提供了一种多模态信息融合的短视频情感判定装置，所述装置包括：获取模块、音视频分离模块、音频特征提取模块、图像文字检测模块、文字特征提取模块、特征融合模块、情感分类模块、情感判定结果存储模块、查询模块；

所述获取模块，具体用于接收用户发送的短视频获取请求，以消息队列请求的方式向短视频平台或者短视频网络存储数据库发送短视频获取请求，并接收获取结果；

所述音视频分离模块，具体用于从所述短视频中分离出短视频的多帧图像、该短视频中的音频信息、以及该短视频的视频标题；

所述音频特征提取模块，具体用于针对上述的提取的音频文件，提取其中的语音特征；

所述图像文字检测模块，具体用于对视频图像帧使用YOLOV3进行文字检测，使用CRNN结合CTC-loss进行文字识别；

所述文字特征提取模块，具体用于提取和识别短视频的视频标题文字信息，将视频帧的文字识别结果和视频标题的识别结果作为文字信息，并利用自然语言处理将文字信息转换为文本词向量空间表示；

所述特征融合模块，具体用于利用基于多注意力模型的融合交互信息的长短时记忆网络对上述语音特征和文本词向量空间进行编解码处理，输出短视频的情感分类特征向量；

所述情感分类模块，具体用于使用分类器对上述情感分类特征向量进行情感分类，得到该短视频的情感判定结果；

所述情感判定结果存储模块，具体用于将上述情感判定结果作为短视频的情感类型标签与该短视频对应保存到数据库中；

所述查询模块，具体用于接收用户的短视频展示和/或屏蔽请求，向用户展示与其查询请求相符的短视频；其中，用户的请求中包括用户设定的短视频情感类型。

与现有技术相比，本发明的有益效果为：对获取到的短视频利用语音识别技术和图像识别技术，能准确的对短视频中的信息进行有效的提取。同时对于如何融合上述多种信息，设计了一种基于多注意力模型的融合交互信息的长短时记忆网络，该网络能充分的挖掘时序数据之间的相互关系，实现了短视频情感特征的获取，并利用分类器最终判别得到短视频的情感结果。

附图说明

结合附图并参考以下详细说明，本公开的各实施例的特征、优点及其他方面将变得更加明显，在此以示例性而非限制性的方式示出了本公开的实施例，在附图中：

图1是本发明的一种多模态信息融合的短视频情感判定装置的一实施例的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面说明本发明实施例提供的一种多模态信息融合的短视频情感判定装置，如图1所示，所述装置包括：获取模块、音视频分离模块、音频特征提取模块、图像文字检测模块、文字特征提取模块、特征融合模块、情感分类模块、情感判定结果存储模块、查询模块；

所述获取模块，具体用于接收用户发送的短视频获取请求，采用获取程序以消息队列请求的方式向短视频平台或者短视频网络存储数据库发送短视频获取请求，并接收获取结果；

所述音视频分离模块，具体用于从所述短视频中分离出短视频的多帧图像、该短视频中的音频信息、以及该短视频的视频标题信息；

所述文字特征提取模块，具体用于提取和识别短视频的视频标题信息，将视频帧的文字识别结果和视频标题的识别结果作为文字信息，并利用自然语言处理将文字信息转换为文本词向量空间表示；

所述情感判定结果存储模块，具体用于将上述情感判定结果作为短视频的情感类型与该短视频对应保存到数据库中；

综上，本发明的实施例通过对获取到的短视频利用语音识别技术和图像识别技术，能准确的对视频中的信息进行有效的提取。同时对于如何融合上述多种信息，设计了一种基于多注意力模型的融合交互信息的长短时记忆网络，该网络能充分的挖掘时序数据之间的相互关系，实现了短视频情感特征的获取，并利用分类器最终判别得到短视频的情感结果。上述方案能更加准确地实现短视频的情感分类。

本发明的实施例还提供一种多模态信息融合的短视频情感判定方法，包括如下步骤：

步骤1：接收用户发送的短视频获取请求，采用获取程序以消息队列请求的方式向短视频平台或者短视频网络存储数据库发送短视频获取请求，并接收获取结果；

在该实施例中，所述以消息队列请求的方式向短视频平台或者短视频网络存储数据库发送短视频获取请求之前，所述方法还包括：接收所述获取程序发送的消息队列处理函数；根据所述消息队列处理函数对所述消息队列进行初始化，计算并获取所述消息队列的唯一标识码；将所述唯一标识码发送给所述获取程序，以使得所述获取程序通过所述唯一标识码向所述队列发送短视频获取请求信息，以便所述获取程序进行消息队列的调用。其中，所述消息队列处理函数用于指示消息队列如何对接收到的短视频获取请求信息进行处理的过程。因此根据处理函数初始化所述消息队列之后，每次调用只需要以该唯一标识码来代替处理函数即可，从而避免了处理函数过长而造成的网络开销。

步骤2：从所述短视频中分离出短视频的多帧图像、该短视频中的音频信息、以及该短视频的视频标题信息；

在该实施例中，本领域技术人员可以采用视频编辑软件分离待检测短视频文件中的多幅图像帧信息和音频信息，例如，将待检测的短视频文件导入视频轨(时间轴)，然后将音频数据分割出来，即将音频和视频图像分割开来，然后将音频保存为音频格式对应的文件即可得到音频信息，将视频帧图像保存为图像文件，得到短视频的多帧图像；

或者，也可以采用如下方式，包括如下：

步骤2.1：解复用短视频文件，获取视频流文件和音频流文件。解复用是指从所述音视频文件中分流出视频流和音频流。构建解复用后数据的数据结构，其数据结构包括音频数据结构和视频数据结构两种，在解复用过程中将识别出的音频流存入音频文件，将识别出的视频流存储视频文件。

步骤2.2：对所述视频流文件解码，并对解码后的视频流文件进行滤波去噪，获取视频数据。通过对解码后的视频流文件进行滤波可有效去除噪声，提高图像的清晰度。具体地，图像噪声接近高斯分布，通过使用高斯滤波器对视频流文件进行滤波去除噪声。

步骤2.3：所述音频流文件进行解码，并对解码后的音频流文件进行滤波去噪，获取音频数据。具体地，对所述音频流文件进行格式转换及编码压缩，调用解码器对所述音频流文件进行解码和滤波，通过滤波去除噪声，从而到音频数据。

在本发明实施例中，通过对分离出来的视频流文件和音频流文件进行处理，去除噪声，从而避免噪声干扰，有效提高视频图像的清晰度以及音频的清晰度，从而提高后续特征提取的准确性。

其中，对于视频标题的提取，可以通过识别视频网页的标题栏获取短视频的视频标题，也可以利用OCR等文字识别技术获取视频标题，也可以采用现有技术中的其他相关手段获取该视频标题。

步骤3：针对上述的提取的音频文件，提取其中的语音特征；

在该实施例中，在本领域中，语音识别技术已经越来越成熟，自然语言的理解力也越来越高，这主要取决于语音特征的有效提取和识别算法的精度。在情感识别中，可利用的语音识别参数包括多种，例如频谱信息、声调等。

本申请中采用的语音特征提取算法包括如下步骤：

步骤3.1:获取所述音频文件中语音信号的梅尔倒谱图；

步骤3.2：利用双向长短时记忆模型Bi-LSTM对所述梅尔倒谱图进行特征提取，获取第一特征；

步骤3.3：采用卷积算法对所述梅尔倒谱图进行卷积，得到卷积输出矩阵，将该卷积输出矩阵作为梅尔倒谱图的特征图；

步骤3.4：将所述梅尔倒谱图的特征图输入基于互操作的卷积神经网络模型中进行特征提取，得到第二特征；

步骤3.5：将所述第一特征和所述第二特征输入全连接层进行融合，得到最终的音频文件对应的语音特征；其中，所述基于互操作的卷积神经网络模型包括：第一卷积层，用于利用预设的参数对所述特征图进行分割并进行卷积，得到高频和低频特征图；交互卷积层，用于对所述高频特征图和所述低频特征图进行交互卷积，获取第一、第二高频特征图、第一、第二低频特征图；激活层，用于对所述第一、第二高频特征图进行融合，对所述第一、第二低频特征图进行融合，分别获得高频和低频输出；第二卷积层，用于将所述高频输出和所述低频输出合并，并输出与输入特征图大小一致的第二语音特征。上述提取语音特征的过程能提高语音特征的准确度。

在该实施例中，本申请中利用图像处理技术对视频图像帧进行预处理，后续再利用文字检测算法实现文本区域的检测，具体包括如下步骤：

步骤4.1：通过双线性样条插值算法将图片分辨率调整为416*416；

步骤4.2：通过YOLOV3检测并筛选图片中的有效文本信息；

步骤4.3：构建基于CRNN结合CTC-loss的文字识别模型，并基于该模型对上述文本区域结果进行文字识别，获取有效的文字信息。其中CRNN结合CTC-loss的文字识别模型采用本领域中通用的模型算法。

步骤4.2具体包括：

步骤4.2.1：通过样本数据集训练YOLOV3文本检测模型；

步骤4.2.2：通过YOLOV3模型粗定位图片中的文本位置，得到文本区域位置信息与文本置信度；

步骤4.2.3：对文本区域进行精定位，删除低于置信区间阈值的文本区域，过滤重复的文本区域，合并左右相邻的文本行，最后过滤低于最小文本长度的文本区域，输出剩余的文本区域结果。

在该实施例中，通过YOLOV3模型可以准确定位出文本的位置，可以解决文本位置提取的抗干扰能力差，普适性低的问题。其中CRNN结合CTC-loss的文字识别模型可以实现端到端的文字识别功能，有效提高文字识别的效率。

步骤5：提取短视频的视频标题的文字信息，将视频帧的文字识别结果和视频标题的识别结果作为文字信息，并利用自然语言处理技术将文字信息转换为词向量空间表示。

其中，自然语言处理包括分词、去噪、词向量空间表示等过程，将分词得到的结果以空间向量的形式进行表示，以便于后续的模型输入。

步骤6：利用基于多注意力模型的融合交互信息的长短时记忆网络对上述语音特征和文本特征进行编解码处理，输出短视频的情感分类特征向量。

在该实施中，为了能充分挖掘短视频中多个信息之间的相关性，本发明提出了一种基于多注意力模型的融合交互信息的长短时记忆网络，其主要包括基于混合交互信息的长短时记忆网络和多注意力网络模型，具体包括如下步骤：

步骤6.1：将上述提取的特征表示为具有时间维度的序列，

，其中

为在时刻t的输入特征，

为输入的模态m的数据维度；

步骤6.2：构建基于混合交互信息的长短时记忆网络，额外存储上述多模态数据之间的交互信息，包括：对于给定的第m个模态的输入数据，将交互信息编码Z_t传达到每个上述记忆网络中中，以便每个记忆网络利用该交互信息编码Z_t来获取多模态信息之间的相关性；

其中，

其中，W、U、V均为权重矩阵，

分别表示t时刻输入门、遗忘门、输出门、记忆单元和压缩输入的状态，tanh( )表示双曲正切函数；

步骤6.3：利用多注意力模型网络获取多个交互信息Z_t；包括如下步骤：

步骤6.3.1：设定在时刻t有K个交互信息，利用多注意力模型将上述h_t的结果作为输入，该多注意力模型的输出为K个注意力交互系数的集合，其中，该多注意力模型利用 softmax函数分布概率获取K个注意力交互系数

；

步骤6.3.2：将h_t利用broadcast机制进行维度扩充匹配，保持与上述注意力交互系数维度一致，并且分别与上述系数进行元素点乘，获取K维的交互信息h_t；

步骤6.3.3：将上述交互信息的结果划分为m个片段，每个片段对应于一个模态；

步骤6.3.4：对上述划分结果利用深度神经网络进行数据降维，获取每个模态下的稠密结果；其中，每个模态最终映射到相同的向量空间；

步骤6.3.5：将上述稠密结果进行拼接融合，并利用深度神经网络进行编码处理，获取t时刻的交互信息Z_t。

步骤7：使用分类器对上述情感分类特征向量进行情感分类，得到该短视频的情感判定结果。

在该实施例中，可以采用单个分类器实现上述情感分类，例如SVM、CNN等。在所属领域，基于分类器的学习模式主要有监督学习、半监督学习、无监督学习。

步骤8：将上述情感判定结果作为短视频的情感类型标签与该短视频对应保存到数据库中。

步骤9：接收用户的短视频展示和或屏蔽请求，向用户展示与其查询请求相符的短视频；其中，用户的请求中包括用户设定的短视频情感类型。

在该实施例中，在对短视频平台中的视频进行情感分类后，即每个短视频都有相应的情感标签，那么后续在响应用户的短视频展示请求时，可以针对性地向用户展示和或屏蔽与用户需求对应的短视频，例如，用户为未成年人，那么可以将灰色情感类短视频（包括暴力、血腥等）进行屏蔽，以此可以达到对短视频平台进行监管以及针对性的推送与用户需求匹配的短视频。

综上，本发明可以实现如下技术效果：1）、通过对获取到的短视频利用语音识别技术和图像识别技术，能准确的对视频中的信息进行有效的提取，同时通过预先对处理函数进行消息队列标识化，可以减少获取过程中网络资源开销。2）、通过本发明设计的语音特征提取算法和图像文字检测/提取算法能更加准确地提取短视频中的有效信息。3）、通过本发明设计的基于多注意力模型的融合交互信息的长短时记忆网络，该网络能充分的挖掘时序数据之间的相互关系，实现了短视频情感特征的获取。4）在利用分类器最终判别得到短视频的情感结果后，进行短视频的打标签，并且后续可以针对性的响应用户的短视频展示/屏蔽需求。综上所述，本发明的上述方案能更加准确地实现短视频的情感分类。

上文所描述的各种方法，在一些实施例中，可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元。在一些实施例中，计算机程序的部分或者全部可以经由ROM 和/或通信单元而被载入和/或安装到设备上。当计算机程序被加载到RAM 并由CPU 执行时，可以执行上文描述的方法中的一个或多个动作或步骤。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。

以上所述仅为本公开的实施例可选实施例，并不用于限制本公开的实施例，对于本领域的技术人员来说，本公开的实施例可以有各种更改和变化。凡在本公开的实施例的精神和原则之内，所作的任何修改、等效替换、改进等，均应包含在本公开的实施例的保护范围之内。

Claims

1.一种多模态信息融合的短视频情感判定装置，所述装置包括：获取模块、音视频分离模块、音频特征提取模块、图像文字检测模块、文字特征提取模块、特征融合模块、情感分类模块、情感判定结果存储模块、查询模块；

所述音视频分离模块，具体用于从所述短视频中分离出短视频的多帧图像、该短视频中的音频信息以及该短视频的视频标题；

所述音频特征提取模块，具体用于针对提取的音频文件，提取其中的语音特征；

所述文字特征提取模块，具体用于提取和识别短视频的视频标题中的文字信息，将视频帧的文字识别结果和视频标题的识别结果作为文字信息，并利用自然语言处理将文字信息转换为文本词向量空间表示；

2.一种利用权利要求1所述的装置实现的多模态信息融合的短视频情感判定方法，包括如下步骤：

步骤2：从所述短视频中分离出短视频的多帧图像、该短视频中的音频信息以及视频标题；

步骤3：针对上述的提取的音频文件，提取其中的语音特征；

步骤5:提取短视频的视频标题中的文字信息，将视频帧的文字识别结果和视频标题的识别结果作为文字信息，并利用自然语言处理技术将文字信息转换为词向量空间表示；

步骤6：利用基于多注意力模型的融合交互信息的长短时记忆网络对上述语音特征和文本特征进行编解码处理，输出短视频的情感分类特征向量；

步骤9：接收用户的短视频展示和/或屏蔽请求，向用户展示与其查询请求相符的短视频。

3.如权利要求2所述的方法，其特征在于：以消息队列请求的方式向短视频平台或者短视频网络存储数据库发送短视频获取请求之前，所述方法还包括：接收所述获取程序发送的消息队列处理函数；根据消息队列处理函数对所述消息队列进行初始化，计算并获取所述消息队列的唯一标识码；将所述唯一标识码发送给所述获取程序，以使得所述获取程序通过所述唯一标识码向所述队列发送短视频获取请求信息，以便所述获取程序进行消息队列的调用；其中，所述消息队列处理函数用于指示消息队列如何对接收到的短视频获取请求信息进行处理的过程。

4.如权利要求2所述的方法，其特征在于：从所述短视频中分离出短视频的多帧图像、该短视频中的音频信息以及视频标题的步骤，具体包括如下步骤：

步骤2.1：解复用短视频，获取视频流文件和音频流文件，构建解复用后数据的数据结构，其数据结构包括音频数据结构和视频数据结构两种，在解复用过程中将识别出的音频流存入音频文件，将识别出的视频流存储入视频文件；

步骤2.2：对所述视频流文件解码，并对解码后的视频流文件进行滤波去噪，获取视频数据；对所述音频流文件解码，并对解码后的音频流文件进行滤波去噪，获取音频数据；

步骤2.3：从短视频的视频标题栏中获取视频标题信息。

5.如权利要求2所述的方法，其特征在于：其中，针对提取的音频文件，提取其中的语音特征的步骤，具体包括如下步骤：

步骤3.1:获取所述音频文件中语音信号的梅尔倒谱图；

步骤3.5：将所述第一特征和所述第二特征输入全连接层进行融合，得到最终的音频文件对应的语音特征；

其中，所述基于互操作的卷积神经网络模型包括：第一卷积层，用于利用预设的参数对所述特征图进行分割并进行卷积，得到高频特征图和低频特征图；交互卷积层，用于对所述高频特征图和所述低频特征图进行交互卷积，获取第一、第二高频特征图以及第一、第二低频特征图；激活层，用于对所述第一、第二高频特征图进行融合，对所述第一、第二低频特征图进行融合，分别获得高频输出和低频输出；第二卷积层，用于将所述高频输出和所述低频输出合并，并输出与输入特征图大小一致的第二语音特征。

6.如权利要求2所述的方法，其特征在于：其中，对视频图像帧使用YOLOV3进行文字检测，使用CRNN结合CTC-loss进行文字识别的步骤，具体包括如下步骤：

步骤4.2：通过YOLOV3检测并筛选图片中的有效文本信息；步骤4.2具体包括：

步骤4.2.1：通过样本数据集训练YOLOV3文本检测模型；

步骤4.2.3：对文本区域进行精确定位，删除低于置信区间阈值的文本区域，过滤重复的文本区域，合并左右相邻的文本行，最后过滤低于最小文本长度的文本区域，输出剩余的文本区域结果；

步骤4.3：构建基于CRNN结合CTC-loss的文字识别模型，并基于该模型对上述文本区域结果进行文字识别，获取有效的文字信息。

7.如权利要求2所述的方法，其特征在于：利用基于多注意力模型的融合交互信息的长短时记忆网络对上述语音特征和文本特征进行编解码处理，输出短视频的情感分类特征向量的步骤，具体包括如下步骤：

步骤6.1：将上述提取的特征表示为具有时间维度的序列，