CN113269093B

CN113269093B - 视频描述中视觉特征分割语义检测方法及系统

Info

Publication number: CN113269093B
Application number: CN202110580008.XA
Authority: CN
Inventors: 杨大伟; 高航; 毛琳; 张汝波
Original assignee: Dalian Minzu University
Current assignee: Dalian Minzu University
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2023-08-22
Anticipated expiration: 2041-05-26
Also published as: CN113269093A

Abstract

本发明公开了一种视频描述中视觉特征分割语义检测方法及系统，将视觉特征分割为多个代表局部信息的视觉分割特征，通过多层感知机提取局部语义信息，融合全局语义特征后，得到具备全局和局部的双重表达的语义信息，增强语义特征的表征能力，将得到的语义特征应用于视频描述任务，提升视频描述模型的精度，获得准确的视频文本描述结果，可以很好地应用于安防监控、短视频内容审查等领域。

Description

视频描述中视觉特征分割语义检测方法及系统

技术领域

本发明涉及深度学习视频理解技术领域，具体涉及一种视频描述中视觉特征分割语义检测方法及系统。

背景技术

随着信息技术的快速发展，安防监控设备被应用的越来越广泛，同时伴随短视频平台的大量涌现，使监控和短视频内容的自动审查成为当前研究的热点之一。目前对视频内容的审查主要依靠人工手段，计算机自动审查技术不够成熟，其不能实现对视频内容充分认识与理解。

现有的视频描述算法越来越多地以视频语义特征作为辅助，将其与视觉信息共同作为编码特征，在长短时记忆网络中输出相应文本描述。名称为一种提高视频文本描述准确性的编码器网络模型设计方法，公开号为CN111985612A的发明专利申请中公开了一种视频文本描述的编解码方法，利用视频特征获取视频的语义特征，并且采用S-LSTM网络解码得到视频的文本描述，在编码阶段通过增大单词之间的差异得到更准确的语义特征。名称为一种新的基于深度学习模型的视频语义提取方法，公开号为CN108921032A的发明专利申请中公开了一种视频语义特征的提取方法，对视频序列进行组合与分割得到可以被三维卷积处理的视频特征，采用三维卷积和反向传播方法进行训练，得到视频语义特征。视频语义特征同样应用在视频理解的其他任务中，名称为一种基于视频序列深度学习的人物行为语义识别方法，公开号为CN107038419A的发明专利申请中公开了一种视频中人物动作识别方法，该方法对视频提取关键帧后，充分利用人体轮廓信息，以轮廓信息作为RBF神经网络的输入特征，得到代表人物行为的语义特征。名称为一种基于语义分解的短视频事件检测方法，公开号为CN111723649A的发明专利申请中公开了一种语义分解的视频事件检测方法，将视频的词标签信息与多模态信息结合得到语义分解项，经过自动编码器和图神经网络两个处理单元，获取视频事件的检测结果。

上述利用语义特征和视觉特征实现视频文本描述的方法中，语义特征仅表达全局语义信息，容易丢失视频某一片段中重要的局部语义信息，语义信息的错误会影响视频文本描述结果，不利于安防监控和短视频内容审查等应用。如何利用视觉特征得到全局与局部双重表达的语义特征，更好地应用于安防监控和短视频内容审查系统，成为一个热点问题。

发明内容

本发明提出一种视频描述中视觉特征分割语义检测方法及系统，其将视觉特征分割为多个代表局部信息的视觉分割特征，通过多层感知机提取局部语义信息，融合全局语义特征后，得到具备全局和局部的双重表达的语义信息，增强语义特征的表征能力；将得到的语义特征应用于视频描述任务，提升视频描述模型的精度，获得准确的视频文本描述结果，可以很好地应用于安防监控、短视频内容审查等领域。

为实现上述目的，本发明的技术方案为：视频描述中视觉特征分割语义检测方法，包括：

将视频进行卷积处理后得到原始视觉特征V_F；

在分割语义检测支路中，将所述原始视觉特征V_F均匀分割为p份，得到p个视觉分割特征；

采用p个多层感知机网络，对每个所述视觉分割特征进行处理获得局部语义特征；

在标准语义检测支路中，采用多层感知机网络对所述原始视觉特征V_F进行处理获得全局语义特征；

将所述局部语义特征和所述全局语义特征相加融合，得到语义增强特征。

本发明还提供一种视频描述中视觉特征分割语义检测系统，包括：

分割语义检测支路，获取表示局部信息的局部语义特征；

标准语义检测支路，获取表示全局信息的全局语义特征；

融合模块，将所述局部语义特征、全局语义特征融合后得到语义增强特征；

长短时记忆网络，将所述语义增强特征作为输入，输出视频文本描述。

本发明由于采用以上技术方案，能够取得如下的技术效果：

(1)适用于通过视觉信息获取语义特征情况

本发明中以视觉特征为输入，在两个支路中分别提取局部语义特征和全局语义特征，将二者相加融合得到的语义特征，具备局部和全局双重语义表达，其对语义特征进行了增强，适用于通过视觉信息获取语义特征的情况。

(2)适用于视频描述任务

本发明中将局部语义特征和全局语义特征结合，得到表达能力较强的语义增强特征，可以将该特征作为视频编码输入，采用长短时记忆等网络进行解码，获取准确的视频文本描述结果。

(3)适用于图像描述任务

本发明可以有效提升视频描述模型性能，相对于视频序列，静态图像具有相对简单的目标、动作、属性等视觉因素，可以更好的应用于图像描述任务。

(4)适用于安防监控系统

本发明中将局部语义特征和全局语义特征结合，得到表达能力较强的语义增强特征，可以将该特征应用于视频描述模型，提升模型性能，输出相对准确的文本描述，其中的目标、行为、属性等文本信息可以作为安防监控系统的提示信息，提升安防系统的工作效率。

(5)适用于短视频内容审查系统

本发明可以获取表达能力较强的语义特征，增强视频描述模型的性能，视频文本描述中目标、行为、属性等文本信息可以作为短视频内容审查系统的提示信息，有效降低短视频中违法、违规、不具正能量的因素，构造良好的网络环境。

附图说明

图1是视频描述中视觉特征分割语义检测方法及系统原理框架；

图2是分割语义检测支路示意图；

图3是标准语义检测支路示意图；

图4是实施实例1中安防监控室内场景情况示意图；

图5是实施实例2中安防监控室外场景情况示意图；

图6是实施实例3中短视频内容审查情况示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施方式，对本发明进行进一步详细说明。下面的实施例可以使本专业的技术人员更全面地理解本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提出一种视频描述中视觉特征分割语义检测方法，如图1-3所示，具体实施步骤如下：

第1步：将视频进行卷积处理后得到的原始视觉特征向量V_F作为输入，读取该特征向量，V_F的具体形式为V_F＝{v₁,v₂,...v_Q}的特征向量，尺寸为1*Q。

第2步：在分割语义检测支路中，将第1步中原始视觉特征V_F均匀分割为p份，得到p个视觉分割特征。如公式(1)和公式(2)所示，分割后得到视觉分割特征V_F1,V_F2,...,V_Fp。

q＝Q/p (2)

其中，F_a是均匀分割函数，Q为视觉特征V_F的维度，将其均匀分为p份，得到的视觉分割特征V_Fi的维度均为q，视觉分割特征的具体形式均为V_Fi＝{v_i1,v_i2,...v_iq}。

第3步：采用p个多层感知机网络，对第2步中视觉分割特征进行处理，对第i个视觉分割特征V_Fi采用多层感知机进行处理的如下，现以多层感知机的第一层处理为例，如公式(3)～(8)所示。

其中，k_i1(i)是第一层处理中权值矩阵的i行，尺寸为1*q。此时V_Fi的尺寸为q*1，将权值矩阵与视觉分割特征全连接计算后，得到特征a₁₀，尺寸为q₁*1。

将得到的全连接计算结果添加偏置项做适当调整，如下。

其中，d_i1为第一层处理的偏置向量，尺寸为q₁*1。

将得到的特征向量再做非线性激活处理，当待激活处理的特征值小于或等于0时，激活函数如公式(5)，反之，则激活函数如公式(6)所示。

其中，函数A为激活函数，采用激活函数对特征进行非线性处理可以提升特征的有效性，且令

最后对激活后的特征做随机删除部分神经元操作，如公式(7)所示。

其中，是对特征进行随机删除部分神经元处理函数，k为随机删除神经元的比例，该操作可以防止网络出现过拟合。

视觉分割特征V_Fi经过以上全连接计算、非线性激活和随机删除部分神经元操作处理，得到多层感知机第一层输出特征s₁(V_Fi)。

再进行第2层、第3层、…、第n层上述处理，如公式(8)所示，即可获得表示局部语义信息的特征S_i(V_Fi)。

将p个该特征相加融合后得到局部语义特征S(V_F)，式如公式(9)所示，S(V_F)的特征尺寸为1*q_n。

第4步：在标准语义检测支路中，采用多层感知机网络，对第1步中原始视觉特征进行处理，多层感知机的网络层数为n，现对网络第一层处理做详细分析。如公式(10)～(14)所示。

首先对输入特征做全连接计算，如下。

其中，k₁是第一层处理的权值矩阵，尺寸为Q₁*Q。此时V_F的尺寸为Q*1，将权值矩阵的每一行向量与原始视觉特征V_F进行乘法运算，输出特征a₀。

将得到的全连接计算结果添加偏置项做适当调整，如下。

其中，d₁为第一层处理的偏置向量，尺寸为Q₁*1。

将得到的特征向量再做非线性激活处理，当待激活处理的特征值小于或等于0时，激活函数如公式(12)，反之，则激活函数如公式(13)所示。

将非线性激活后的特征进行随机删除部分神经元处理，如公式(14)所示。

以上为第一层多层感知机的全连接计算、非线性激活和随机删除部分神经元处理过程，第2层、第3层、…、第n层上述处理，即可获得全局语义特征的特征T(V_F)，如下。

第5步：将第3步中局部语义特征S(V_F)和第4步中全局语义特征T(V_F)相加融合，得到语义增强特征S_e，如公式(16)所示。

其中，q_n＝Q_n，分别是局部语义特征和全局语义特征的特征维度。

该语义增强特征S_e具备全局和局部双重语义表达，具备较强的表达能力，将其应用于视频描述任务中，提升模型性能，输出准确的文本描述结果。

本实施例还提供一种视频描述中视觉特征分割语义检测系统，如图1-3所示，包括：

分割语义检测支路，获取表示局部信息的局部语义特征；

具体的，所述分割语义检测支路，输入一维的原始视觉特征V_F，输出一维的局部语义特征S(V_F)，具体为：

(1)输入的原始视觉特征V_F，是视频经过卷积处理，并且即将输入到分割语义检测支路的特征向量。

(2)进一步的，对上述原始视觉特征进行分割，将视觉特征均匀分割为p份，得到视觉分割特征V_F1、V_F2、…、V_Fp。

(3)进一步的，提取表示局部语义信息的语义特征，将原始视觉特征被分割为p份，则分割语义检测支路又被分成了p条小语义检测支路，i表示第i条小支路。每一条小支路采用多层感知机网络提取语义特征，多层感知机的层数均为n。则得到p个代表局部语义信息的特征S₁(V_F1)、S₂(V_F2)、…、S_p(V_Fp)。

(4)输出特征向量，是将p个代表局部语义信息的特征进行相加融合，得到局部语义特征S(V_F)。

分割语义检测支路，将原始视觉特征均匀分割成多份后，对每份进行语义特征提取，将这些代表局部语义信息的特征相加融合后，得到局部语义特征，该特征可以和标准语义检测支路得到的全局语义特征进行融合，提升语义特征的表达能力。

标准语义检测支路，获取表示全局信息的全局语义特征；

具体的，所述标准语义检测支路，输入一维的原始视觉特征V_F，输出一维的全局语义特征T(V_F)，具体为：

(1)输入的原始视觉特征V_F，是视频经过卷积处理，并且即将输入到标准语义检测支路的特征向量。

(2)输出的全局语义特征T(V_F)，是标准语义检测支路中采用多层感知机网络，对表示视频全局信息的原始视觉特征进行处理，得到的表示全局语义信息的特征。

标准语义检测支路利用视频全局信息提取全局语义特征，该特征可以和分割语义检测支路获取的局部语义信息融合，得到具备全局和局部双重表达的语义特征。

具体的，将分割语义检测支路得到的局部语义特征，与标准语义检测支路得到的全局语义特征相加融合，得到表达能力更强的语义增强特征S_e。

对语义信息进行增强，有利于视频描述任务中获取准确的视频文本描述结果。

长短时记忆网络，将所述语义增强特征作为输入，输出视频文本描述，得到的语义特征可以提升视频描述准确度。

本实施例分割语义检测支路中，采用p个多层感知机，对p份视觉分割特征进行处理，多层感知机的层数均为n，举例说明n＝3。标准语义检测支路中，多层感知机的层数为n，举例说明n＝3。在分割语义检测支路中，分割份数设为p，举例说明p∈{8,16,32}。其特征尺寸约束条件可以为：

(1)输入的原始视觉特征尺寸是[1*4096]维度的特征向量。

(2)输出的语义增强特征尺寸是[1*256]维度的特征向量。

(3)标准语义检测支路中，多层感知机网络1到3层输出的特征尺寸为(2048,512,256)。

(4)分割语义检测支路中，当分割份数p＝8时，每一个视觉分割特征尺寸为[1*512]维度，分别作为8个多层感知机的输入特征。8个多层感知机的结构相同，1到3层输出的特征尺寸为(512,512,256)。

(5)分割语义检测支路中，当分割份数p＝16时，每一个视觉分割特征尺寸为[1*256]维度，分别作为16个多层感知机的输入特征。16个多层感知机的结构相同，1到3层输出的特征尺寸为(256,256,256)。

(6)分割语义检测支路中，当分割份数p＝32时，每一个视觉分割特征尺寸为[1*128]维度，分别作为32个多层感知机的输入特征。32个多层感知机的结构相同，1到3层输出的特征尺寸为(128,256,256)。

实施例1：

安防监控室内场景情况

将本实例应用于安防监控的室内场景，获取表达能力较强的视频语义特征，从而得到文本描述。该文本信息可以有效防止室内危险事故的发生，并且可以提高排查监控视频的效率，安防监控室内场景情况如图4所示。

实施例2：

安防监控室外场景情况

将本实例应用于安防监控的室外场景，获取表达能力较强的视频语义特征，从而得到文本描述。该文本信息可以有效防止室外危险事故的发生，并且可以提高排查监控视频的效率，安防监控室外场景情况如图5所示。

实施例3：

短视频内容审查情况

将本实例应用于短视频内容审查系统中，获取表达能力较强的视频语义特征，从而得到文本描述。该文本信息可以有效防止短视频中违法、违规等负能量的内容，有利于构造良好的网络环境，短视频内容审查情况如图6所示。

本发明的实施例有较佳的实施性，并非是对本发明任何形式的限定。本发明实施例中描述的技术特征或技术特征的组合不应当被认为是孤立的，它们可以被互相组合从而达到更好的技术效果。本发明优选实施方式的范围也可以包括另外的实现，且这应被发明实施例所属技术领域的技术人员所理解。

Claims

1.一种视频描述中视觉特征分割语义检测方法，其特征在于，包括：

将视频进行卷积处理后得到原始视觉特征V_F；

所述原始视觉特征向量V_F的具体形式为V_F＝{v₁,v₂,...v_Q}，尺寸为1*Q；将其分割后得到视觉分割特征V_F1,V_F2,...,V_Fp，如公式(1)和公式(2)所示：

q＝Q/p (2)

其中，F_a是均匀分割函数，Q为视觉特征V_F的维度，将其均匀分为p份，得到的视觉分割特征V_Fi的维度均为q，所述视觉分割特征的具体形式均为V_Fi＝{v_i1,v_i2,...v_iq}；

采用p个多层感知机网络，对每个所述视觉分割特征进行处理获得局部语义特征，具体的：对第i个视觉分割特征V_Fi进行处理的数学表达如下：

其中，k_i1(i)是第一层处理中权值矩阵的i行，尺寸为1*q；此时视觉分割特征V_Fi的尺寸为q*1，将所述权值矩阵与所述视觉分割特征全连接计算后，得到特征a₁₀，尺寸为q₁*1；

将得到的全连接计算结果添加偏置项，如下：

其中，d_i1为第一层处理的偏置向量，尺寸为q₁*1；

将得到的特征向量再做非线性激活处理，当待激活处理的特征值小于或等于0时，激活函数如公式(5)，反之，则激活函数如公式(6)所示：

其中，函数A为激活函数，采用激活函数对特征进行非线性处理，且令

对激活后的特征做随机删除部分神经元操作，如下：

其中，是对特征进行随机删除部分神经元处理函数，k为随机删除神经元的比例；s₁(V_Fi)为多层感知机第一层输出特征；

将多层感知机的第2层、第3层、…、第n层进行上述处理后，即可获得表示局部语义信息的特征S_i(V_Fi)，如下：

将p个该特征S_i(V_Fi)相加融合后得到局部语义特征S(V_F)，如公式(9)所示，S(V_F)的特征尺寸为1*q_n；

在标准语义检测支路中，采用多层感知机网络对所述原始视觉特征V_F进行处理获得全局语义特征，具体的：

多层感知机的网络层数为n，首先对输入的原始视觉特征做全连接计算，如下：

其中，k₁是第一层处理的权值矩阵，尺寸为Q₁*Q；此时原始视觉特征V_F的尺寸为Q*1，将权值矩阵的每一行向量与原始视觉特征V_F进行乘法运算，输出特征a₀；

将得到的全连接计算结果添加偏置项，如下：

其中，d₁为第一层处理的偏置向量，尺寸为Q₁*1；

将得到的特征向量再做非线性激活处理，当待激活处理的特征值小于或等于0时，激活函数如公式(12)，反之，则激活函数如公式(13)所示：

将非线性激活后的特征进行随机删除部分神经元处理，如下：

其中，是对特征进行随机删除部分神经元处理函数，k为随机删除神经元的比例；

将多层感知机的第2层、第3层、…、第n层进行上述处理后，即可获得全局语义特征T(V_F)，如下：

将所述局部语义特征和所述全局语义特征相加融合，得到语义增强特征，如下：

2.一种视频描述中视觉特征分割语义检测系统，用于实现权利要求1所述的方法，其特征在于，包括：

分割语义检测支路，获取表示局部信息的局部语义特征；

标准语义检测支路，获取表示全局信息的全局语义特征；

3.根据权利要求2所述一种视频描述中视觉特征分割语义检测系统，其特征在于，所述分割语义检测支路，输入一维的原始视觉特征V_F，输出一维的局部语义特征S(V_F)，具体为：

视频经过卷积处理后得到原始视觉特征V_F；

对所述原始视觉特征分割为p份，得到视觉分割特征V_F1、V_F2、…、V_Fp；

通过多层感知机网络提取语义特征，得到p个代表局部语义信息的特征S₁(V_F1)、S₂(V_F2)、…、S_p(V_Fp)；

将p个代表局部语义信息的特征进行相加融合，得到局部语义特征S(V_F)。

4.根据权利要求2所述一种视频描述中视觉特征分割语义检测系统，其特征在于，所述标准语义检测支路，输入一维的原始视觉特征V_F，输出一维的全局语义特征T(V_F)，具体为：

视频经过卷积处理后得到原始视觉特征V_F；

采用多层感知机网络，对表示视频全局信息的原始视觉特征V_F进行处理，得到表示全局语义信息的特征。