CN113269253B

CN113269253B - 视频描述中视觉特征融合语义检测方法及系统

Info

Publication number: CN113269253B
Application number: CN202110580006.0A
Authority: CN
Inventors: 毛琳; 高航; 杨大伟; 张汝波
Original assignee: Dalian Minzu University
Current assignee: Dalian Minzu University
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2023-08-22
Anticipated expiration: 2041-05-26
Also published as: CN113269253A

Abstract

本发明公开了一种视频描述中视觉特征融合语义检测方法及系统，其在多层感知机的特征处理过程中融合视觉信息，丰富特征内容的多样性，复用视觉特征融合结构得到视觉特征融合语义检测单元，获取具备视觉信息和语义信息双重表达的语义特征，提升语义特征的表达能力。将视觉保持支路得到的视觉特征和语义增强支路得到的语义特征，级联后作为视频编码特征，输入到长短时记忆网络进行解码，得到视频的文本描述，该方法得到的语义特征可以提升视频描述的准确度。

Description

视频描述中视觉特征融合语义检测方法及系统

技术领域

本发明涉及深度学习视频理解技术领域，具体涉及一种视频描述中视觉特征融合语义检测方法及系统。

背景技术

随着信息技术的快速发展，安防监控设备被应用的越来越广泛，同时伴随短视频平台的大量涌现，使监控和短视频内容的自动审查成为当前研究的热点之一。目前对视频内容的审查主要依靠人工手段，计算机自动审查技术不够成熟，其不能实现对视频内容充分认识与理解。

现有的视频描述算法越来越多地以视频语义特征作为辅助，将其与视觉信息共同作为编码特征，在长短时记忆网络中输出相应文本描述。名称为一种提高视频文本描述准确性的编码器网络模型设计方法，公开号为CN111985612A的发明专利申请中公开了一种视频文本描述的编解码方法，利用视频特征获取视频的语义特征，并且采用S-LSTM网络解码得到视频的文本描述，在编码阶段通过增大单词之间的差异得到更准确的语义特征。名称为一种新的基于深度学习模型的视频语义提取方法，公开号为CN108921032A的发明专利申请中公开了一种视频语义特征的提取方法，对视频序列进行组合与分割得到可以被三维卷积处理的视频特征，采用三维卷积和反向传播方法进行训练，得到视频语义特征。视频语义特征同样应用在视频理解的其他任务中，名称为一种基于视频序列深度学习的人物行为语义识别方法，公开号为CN107038419A的发明专利申请中公开了一种视频中人物动作识别方法，该方法对视频提取关键帧后，充分利用人体轮廓信息，以轮廓信息作为RBF神经网络的输入特征，得到代表人物行为的语义特征。名称为一种基于语义分解的短视频事件检测方法，公开号为CN111723649A的发明专利申请中公开了一种语义分解的视频事件检测方法，将视频的词标签信息与多模态信息结合得到语义分解项，经过自动编码器和图神经网络两个处理单元，获取视频事件的检测结果。

上述利用语义特征和视觉特征实现视频文本描述的方法中，语义信息仅能表示视频单词标签的语义特征，如果语义信息不准确会影响视频的文本描述结果，不利于安防监控和短视频内容审查等应用。如何利用视觉特征得到内容更具多样性的语义特征，更好地应用于安防监控和短视频内容审查系统，成为一个热点问题。

发明内容

本发明提出一种视频描述中视觉特征融合语义检测方法及系统，采用多层感知机提取语义特征的过程中，将每一层输出的多层感知机特征与视觉信息融合，使生成的语义特征具备视频场景和语义分类双重表达，增强语义特征的表征能力，将得到的语义特征应用于视频描述任务，提升视频描述模型的精度，获得准确的视频文本描述结果，可以很好地应用于安防监控、短视频内容审查等领域。

为实现上述目的，本发明的技术方案为：视频描述中视觉特征融合语义检测方法，包括：

将视频进行卷积处理后得到原始视觉特征V_F；

在视觉保持支路中，对所述原始视觉特征V_F进行处理，即采用n个尺寸为1的卷积核进行1维卷积操作，得到视觉保持特征V_e；

再次采用尺寸为1的卷积核进行1维卷积操作来缩小中间特征尺寸，得到视觉映射特征；

在语义增强支路中，采用多层感知机提取语义信息，并且将所述多层感知机的每一层输出，与相应层的所述视觉映射特征相加融合，获取语义特征S_F。

进一步的，采用n个尺寸为1的卷积核进行1维卷积操作，得到视觉保持特征V_e，具体实现过程为：

采用公式(1)获取第1层卷积后的特征；

其中，H₁(V_F,k₁,s₁)是视觉保持支路中，第1层一维卷积操作H₁的具体表达，V_F是输入的原始视觉特征，k₁是第1层卷积处理的卷积核大小，且k₁＝1，s₁表示卷积操作的步长，且s₁＝1；

将第1层卷积后的特征在第2层卷积进行处理，如公式(2)所示：

其中，H₂(V_e1,k₂,s₂)是视觉保持支路中，第2层一维卷积操作H₂的具体表达，以第1层卷积输出V_e1作为第2层卷积的输入，k₂是第2层卷积处理的卷积核大小，且k₂＝1，s₂代表卷积操作的步长，且s₂＝1；

······；

将第n-1层卷积后的特征在第n层卷积进行处理，如公式(3)所示：

其中，H_n(V_e(n-1),k_n,s_n)是视觉保持支路中，第n层一维卷积操作H_n的具体表达，以第n-1层卷积输出V_e(n-1)作为第n层卷积的输入，k_n是第n层卷积处理的卷积核大小，且k_n＝1，s_n代表卷积操作的步长，且s_n＝1；

对原始视觉特征V_F进行上述n层卷积操作，最终在视觉保持支路中得到视觉保持特征V_e，其表达式如下：

进一步的，再次采用尺寸为1的卷积核进行1维卷积操作来缩小中间特征尺寸，得到视觉映射特征，具体实现过程为：

采用公式(5)获取第1个视觉映射特征；

其中，H₁(V_F)是视觉保持支路第1层卷积处理，得到第1层输出特征V_e1；对该特征再次进行一维卷积操作，来得到相应尺寸的视觉映射特征，处理函数为M₁，表达式如下：

其中，M₁是一维卷积处理函数，k_m1是一维卷积的卷积核大小，s_m1是一维卷积的步长；

同理，第i个视觉映射特征V_Fi如公式(7)所示：

其中，i＝2,…,n；

经过以上操作，得到了n个视觉映射特征V_F1，V_F2，…，V_Fn。

进一步的，将所述多层感知机的每一层输出，与相应层的所述视觉映射特征相加融合，获取语义特征S_F，具体实现过程为：

首先，通过公式(8)获取特征向量a₀；

如公式(8)所示为语义增强支路中，第1层多层感知机的全连接计算，输入特征为原始视觉特征V_F，k₁是权值矩阵，将权值矩阵的每一行向量k_1(i)与原始视觉特征V_F做乘法运算，输出特征向量a₀，尺寸为q₁*1；

然后，将得到的全连接计算结果添加偏置项，表达式如下：

其中，d₁为偏置向量，尺寸为q₁*1。

再将得到的特征向量再做非线性激活处理，当待激活处理的特征值小于或等于0时，激活函数如公式(10)，反之，则激活函数如公式(11)所示：

其中，函数A为激活函数，采用激活函数对特征进行非线性处理可以提升特征的有效性，且令

最后对激活后的特征做随机删除部分神经元操作，如表达式(12)所示：

其中，函数是对特征进行随机删除部分神经元处理，k是随机删除神经元的比例，最终得到的第1层多层感知机输出特征的尺寸为q₁*1。

将第1层的多层感知机特征与第1个视觉映射特征相加融合，该操作表达式如下：

多层感知机的第2层、第3层、…、第n层进行上述处理后，输出语义特征S_F，表达式如下：

本发明还提供一种视频描述中视觉特征融合语义检测系统，包括：

卷积模块，用于将视频进行卷积处理后得到原始视觉特征V_F；

视觉保持特征获取模块，在视觉保持支路中，对所述原始视觉特征V_F进行处理，即采用n个尺寸为1的卷积核进行1维卷积操作，得到视觉保持特征V_e；

视觉映射特征获取模块，再次采用尺寸为1的卷积核进行1维卷积操作来缩小中间特征尺寸，得到视觉映射特征；

融合模块，在语义增强支路中，采用多层感知机提取语义信息，并且将所述多层感知机的每一层输出，与相应层的所述视觉映射特征相加融合，获取语义特征S_F。

本发明由于采用以上技术方案，能够取得如下的技术效果：

(1)适用于通过视觉信息获取语义特征情况

本发明中以视觉特征为输入，在采用多层感知机结构提取语义特征的过程中融合视觉信息，得到的语义特征具备视觉信息和语义信息的双重表达，增强语义特征的表达能力，适用于通过视觉信息获取语义特征的情况。

(2)适用于视频描述任务

本发明中可以获取表达能力更强的语义特征，将视频的语义特征和视觉保持特征，级联后作为视频编码输入，采用长短时记忆等网络进行解码，获取准确的视频文本描述结果。

(3)适用于图像描述任务

本发明可以有效提升视频描述模型性能，相对于视频序列，静态图像具有相对简单的目标、动作、属性等视觉因素，可以更好的应用于图像描述任务。

(4)适用于安防监控系统

本发明中可以得到表达能力较强的视频语义特征，将该语义特征应用于视频描述模型，提升模型性能，输出相对准确的文本描述，其中的目标、行为、属性等文本信息可以作为安防监控系统的提示信息，提升安防系统的工作效率。

(5)适用于短视频内容审查系统

本发明可以获取表达能力较强的语义特征，增强视频描述模型的性能，视频文本描述中目标、行为、属性等文本信息可以作为短视频内容审查系统的提示信息，有效降低短视频中违法、违规、不具正能量的因素，构造良好的网络环境。

附图说明

图1是视觉特征融合结构示意图；

图2是视频描述中视觉特征融合语义检测方法原理框架；

图3是视觉保持支路示意图；

图4是语义增强支路示意图；

图5是实施实例1中安防监控室内场景情况示意图；

图6是实施实例2中安防监控室外场景情况示意图；

图7是实施实例3中短视频内容审查情况示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施方式，对本发明进行进一步详细说明。下面的实施例可以使本专业的技术人员更全面地理解本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提出一种视频描述中视觉特征融合语义检测方法，如图1-4所示，具体实施步骤如下：

第1步：将视频进行卷积处理后得到的原始视觉特征向量V_F作为输入，读取该特征向量，尺寸为1*q，V_F的具体形式为V_F＝{v₁,v₂,…,v_q}。

第2步：将第1步读取的原始视觉特征V_F在视觉保持支路中进行处理，采用n个尺寸为1的卷积核做1维卷积操作，输出的视觉保持特征V_e尺寸仍为1*q，如下所示为该操作具体细节表达。

其中，H₁(V_F,k₁,s₁)是视觉保持支路中，第1层一维卷积操作H₁的具体表达，V_F是输入的原始视觉特征，k₁是第1层卷积处理的卷积核大小，且k₁＝1，s₁表示卷积操作的步长，且s₁＝1。

将第1层卷积后的特征在第2层卷积进行处理，表达如公式(2)所示。

同理，H₂(V_e1,k₂,s₂)是视觉保持支路中，第2层一维卷积操作H₂的具体表达，以第1层卷积输出V_e1作为第2层卷积的输入，k₂是第2层卷积处理的卷积核大小，且k₂＝1，s₂代表卷积操作的步长，且s₂＝1。

······；

同理，H_n(V_e(n-1),k_n,s_n)是视觉保持支路中，第n层一维卷积操作H_n的具体表达，以第n-1层卷积输出V_e(n-1)作为第n层卷积的输入，k_n是第n层卷积处理的卷积核大小，且k_n＝1，s_n代表卷积操作的步长，且s_n＝1。

经过对原始视觉特征V_F进行上述n层卷积操作，最终在视觉保持支路中输出视觉保持特征V_e，表达如下。

由于在每一阶段卷积处理中，一维卷积的卷积核大小和步长为1，最终输出的视觉特征V_e与原始视觉特征V_F的特征尺寸相同，且仍代表视频的视觉特征，保证了视觉特征处理前后的一致性并得到了有效增强。

第3步：在第2步每一层卷积操作后，再次采用尺寸为1的卷积核进行1维卷积来缩小特征尺寸，以适应语义增强支路中对应层的多层感知机特征尺寸。得到视觉映射特征V_F1，V_F2，…，V_Fn。具体操作细节的表达如下。

其中，H₁(V_F)是视觉保持支路第1层卷积处理，得到第1层输出特征V_e1。对该特征再次进行一维卷积操作，来得到相应尺寸的视觉映射特征，处理函数为M₁，具体表达如下。

其中，M₁是一维卷积处理函数，k_m1是一维卷积的卷积核大小，s_m1是一维卷积的步长。

同理，第i个视觉映射特征V_Fi的表达如公式(7)所示。

其中，i＝2,…,n；

经过以上操作，得到了n个视觉映射特征V_F1，V_F2，…，V_Fn。

第4步：在语义增强支路中采用多层感知机结构提取语义信息，并且将多层感知机的每一层输出，与第3步中得到的相应层的视觉映射特征相加融合，输出语义特征S_F。具体操作的表达如下。

如公式(8)所示为语义增强支路中，第1层多层感知机的全连接计算，输入特征为原始视觉特征V_F，k₁是权值矩阵，将权值矩阵的每一行向量k_1(i)与原始视觉特征V_F做乘法运算，输出特征向量a0，尺寸为q₁*1。

将得到的全连接计算结果添加偏置项做适当调整，表达如下。

其中，d₁为偏置向量，尺寸为q₁*1。

将得到的特征向量再做非线性激活处理，当待激活处理的特征值小于或等于0时，激活函数如公式(10)，反之，则激活函数如公式(11)所示。

最后对激活后的特征做随机删除部分神经元操作，表达如公式(12)所示。

其中，函数是对特征进行随机删除部分神经元处理，k是随机删除神经元的比例，随机删除部分神经元，具有防止过拟合等优点。最终得到的第1层多层感知机输出特征的尺寸为q₁*1。

上述操作为语义增强支路中多层感知机的第1层处理，包括对特征进行全连接计算、非线性激活和随机删除部分神经元处理，得到第1层的多层感知机特征，将该特征与第3步中得到的第1个视觉映射特征相加融合，该操作表达如下。

以上为语义增强支路第1层的融合操作，多层感知机的第2层、第3层、…、第n层进行上述处理后，输出语义特征S_F，表达如下。

该语义特征充分融合了视频的视觉信息，具备语义和视觉信息的双重表达，具备较强的表达能力，将其应用于视频描述任务中，提升模型性能，与第2步中得到的视觉保持特征级联后输入到长短时记忆网络，可以输出准确的文本描述结果。

本实施例还提供一种视频描述中视觉特征融合语义检测系统，包括：

具体的，输入的原始视觉特征V_F，是视频经过卷积处理，并且即将输入到视觉特征融合语义检测单元的特征向量。

具体的，输出的视觉保持特征V_e，是视觉保持支路中，原始视觉特征V_F经过n个尺寸为1的卷积核进行1维卷积处理得到的特征向量，卷积处理函数为H₁、H₂、…、H_n。

具体的，原始视觉特征经过i层卷积处理后，再次采用函数M_i进行卷积缩小尺寸得到的特征，以求与多层感知机第i层输出特征尺寸对应，等待在语义增强支路中进行融合处理，M_i是卷积核尺寸为1的1维卷积操作。

具体的，在语义增强支路中，将原始视觉特征经过n层多层感知机函数F₁、F₂、…、F_n处理，得到n层多层感知机特征，F₁、F₂、…、F_n是多层感知机中全连接操作。将每一个的视觉映射特征V_F1、V_F2、…、V_Fn与对应的多层感知机特征相加融合。

本系统有两个支路，在视觉保持支路，对原始视觉特征进一步处理，在保证特征尺寸不变、视觉特征表示视频场景的属性不变情况下，提升视觉特征的表达能力，同时为语义增强支路提供视觉映射特征。在语义增强支路，将多层感知机特征与视觉映射特征相加，使生成的语义特征具备语义和视觉信息的双重表达，得到具备较强表达能力的语义特征。有利于视频描述任务中获取准确的视频文本描述结果。

本发明实施例的视频描述中视觉特征融合语义检测系统与上述视频描述中视觉特征融合语义检测方法一一对应，在上述视频描述中视觉特征融合语义检测方法的实施例阐述的技术特征及其有益效果均适用于本系统的实施例中。

本实施例中视觉保持支路的卷积层数和语义增强支路的多层感知机层数均为n，视觉保持支路每一层卷积处理后再次进行卷积缩小尺寸，得到n个视觉映射特征。为了在输入不同视觉特征的情况下均能得到较好模型，本专利采用5种单元规模，如n∈{5,6,7,8,9}。其特征尺寸约束条件可以为：

(1)输入的原始视觉特征的尺寸是[1*2048]维度的特征向量。

(2)视觉保持支路中输出的视觉保持特征的尺寸是[1*2048]维度的特征向量。

(3)语义增强支路中输出的语义特征的尺寸是[1*256]维度的特征向量。

(4)当n＝5时，1到5层多层感知机输出特征尺寸为(1024,1024,512,512,256)。

(5)当n＝6时，1到6层多层感知机输出特征尺寸为(1024,1024,512,512,256,256)。

(6)当n＝7时，1到7层多层感知机输出特征尺寸为(1024,1024,1024,512,512,256,256)。

(7)当n＝8时(n为特征尺寸约束条件所定义的表示)，1到8层多层感知机输出特征尺寸为(1024,1024,1024,512,512,512,256,256)。

(8)当n＝9时，1到9层多层感知机输出特征尺寸为(1024,1024,1024,512,512,512,256,256,256)。

实施例1：

安防监控室内场景情况

将本实例应用于安防监控的室内场景，获取表达能力较强的视频语义特征和视觉特征，将其在解码网络中解码得到文本描述。该文本信息可以有效防止室内危险事故的发生，并且可以提高排查监控视频的效率，安防监控室内场景情况如图5所示。

实施例2：

安防监控室外场景情况

将本实例应用于安防监控的室外场景，获取表达能力较强的视频语义特征和视觉特征，将其在解码网络中解码得到文本描述。该文本信息可以有效防止室外危险事故的发生，并且可以提高排查监控视频的效率，安防监控室外场景情况如图6所示。

实施例3：

短视频内容审查情况

将本实例应用于短视频内容审查系统中，获取表达能力较强的视频语义特征和视觉特征，将其在解码网络中解码得到文本描述。该文本信息可以有效防止短视频中违法、违规等负能量的内容，有利于构造良好的网络环境，短视频内容审查情况如图7所示。

本发明的实施例有较佳的实施性，并非是对本发明任何形式的限定。本发明实施例中描述的技术特征或技术特征的组合不应当被认为是孤立的，它们可以被互相组合从而达到更好的技术效果。本发明优选实施方式的范围也可以包括另外的实现，且这应被发明实施例所属技术领域的技术人员所理解。

Claims

1.视频描述中视觉特征融合语义检测方法，其特征在于，包括：

将视频进行卷积处理后得到原始视觉特征V_F；

在语义增强支路中，采用多层感知机提取语义信息，并且将所述多层感知机的每一层输出，与相应层的所述视觉映射特征相加融合，获取语义特征S_F；

采用n个尺寸为1的卷积核进行1维卷积操作，得到视觉保持特征V_e，具体实现过程为：

采用公式(1)获取第1层卷积后的特征；

······；

再次采用尺寸为1的卷积核进行1维卷积操作来缩小中间特征尺寸，得到视觉映射特征，具体实现过程为：

采用公式(5)获取第1个视觉映射特征；

同理，第i个视觉映射特征V_Fi如公式(7)所示：

其中，i＝2,…,n；

经过以上操作，得到了n个视觉映射特征V_F1，V_F2，…，V_Fn；

将所述多层感知机的每一层输出，与相应层的所述视觉映射特征相加融合，获取语义特征S_F，具体实现过程为：

首先，通过公式(8)获取特征向量a₀；

然后，将得到的全连接计算结果添加偏置项，表达式如下：

其中，d₁为偏置向量，尺寸为q₁*1；

其中，函数是对特征进行随机删除部分神经元处理，k是随机删除神经元的比例，最终得到的第1层多层感知机输出特征的尺寸为q₁*1；

2.一种视频描述中视觉特征融合语义检测系统，用于实现权利要求1所述的方法，其特征在于，包括：