CN114898280A

CN114898280A - 少数民族舞蹈视频描述中视觉互参考语义检测方法

Info

Publication number: CN114898280A
Application number: CN202210675177.6A
Authority: CN
Inventors: 杨大伟; 高航; 毛琳
Original assignee: Dalian Minzu University
Current assignee: Dalian Minzu University
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2022-08-12

Abstract

本发明公开了一种少数民族舞蹈视频描述中视觉互参考语义检测方法，其将输入视觉特征经过视觉互参考语义检测结构进行处理，输出表达能力较强的视频语义信息。所述视觉互参考语义检测结构以3D卷积神经网络和2D卷积神经网络处理得到的视频3D视觉特征和2D视觉特征为输入，分别经3D语义检测支路和2D语义检测支路提取语义特征，在语义提取过程中将3D视觉特征引入2D语义检测支路，将2D视觉特征引入3D语义检测支路，实现3D和2D信息的交互作用，同时采用多阶段迭代操作进一步提升语义特征表达能力，将两支路最终输出的3D语义特征和2D语义特征拼接融合来表达视频语义。将该语义特征输入至长短时记忆网络进行解码，可以得到较准确的视频文本描述。

Description

少数民族舞蹈视频描述中视觉互参考语义检测方法

技术领域

本发明涉及深度学习视频理解技术领域，具体涉及少数民族舞蹈视频描述中视觉互参考语义检测方法。

背景技术

近年来，我国在经济、技术等领域全面发展，少数民族地区的生活水平极大改善，少数民族文化宣传也成为重点工作之一，利用深度学习技术对少数民族舞蹈视频进行自动理解，有利于少数民族文化传播，同时伴随短视频平台的大量涌现，监控和自动审查短视频的内容也成为研究的热点问题。当前对于少数民族舞蹈视频的自动描述技术并不常见，对视频的自动审查也主要依靠人工手段，现有算法并不能实现对视频内容的充分认识和理解。

当前视频描述算法中越来越多地涉及到视频的语义特征，将语义特征作为编码特征，利用长短时记忆等网络对语义特征进行解析进而生成视频的文本描述结果。专利《一种提高视频文本描述准确性的编码器网络模型设计方法》(公开号： CN111985612A)公开了一种视频文本描述的编解码方法，利用视频特征获取语义特征，并且采用S-LSTM网络解码得到视频的文本描述，在编码阶段通过增大单词之间的差异得到更准确的语义特征。专利《基于目标空间语义对齐的视频描述方法》(公开号：CN114154016A)公开了一种视频描述方法，其利用时序高斯空洞卷积获取视频长期时序关系，通过语义重构网络得到句子级概率分布差异，增强视频内容和生成语句的内在关联，输出更准确的文本句子。

语义特征在其它视频理解任务中也应用广泛，专利《一种基于视频序列深度学习的人物行为语义识别方法》(公开号：CN107038419A)公开了一种视频中人物动作识别方法，该方法对视频提取关键帧后，充分利用人体轮廓信息，以轮廓信息作为RBF神经网络的输入特征，得到代表人物行为的语义特征。专利《双通道语义定位多粒度注意互增强的视频问答方法与系统》(公开号： CN114020891A)提出一种视频问答方法，采用多模块设计将不同粒度的特征信息定义为视觉和文本两个通道，并分别设计辅助定位机制，利用增强共享表征得到与问题最相关的特征信息。

上述利用语义特征获取视频文本描述的方法中，语义特征是一种多分类标签形式的特征表示，语义特征不准确会直接影响视频描述效果，不利于少数民族舞蹈视频的描述；不利于安防监控和短视频内容审查的实际应用。因此如何提升语义特征的表达能力，进而生成准确的文本描述成为一个热点问题。

发明内容

本发明的目的在于，提供一种少数民族舞蹈视频描述中视觉互参考语义检测方法，其通过3D和2D信息的互参考增强语义有效性，并采用多阶段迭代操作提升特征表达能力。

为实现上述目的，本申请提出一种少数民族舞蹈视频描述中视觉互参考语义检测方法，其将输入视觉特征经过视觉互参考语义检测结构进行处理，输出表达能力较强的视频语义信息。所述视觉互参考语义检测结构以3D卷积神经网络和 2D卷积神经网络处理得到的视频3D视觉特征和2D视觉特征为输入，分别经 3D语义检测支路和2D语义检测支路提取语义特征，在语义提取过程中将3D视觉特征引入2D语义检测支路，将2D视觉特征引入3D语义检测支路，实现3D 和2D信息的交互作用，同时采用多阶段迭代操作进一步提升语义特征表达能力，将两支路最终输出的3D语义特征和2D语义特征拼接融合来表达视频语义。将该语义特征输入至长短时记忆网络进行解码，可以得到较准确的视频文本描述。

所述视觉互参考语义检测结构包括3D语义检测支路和2D语义检测支路，其用于提取语义特征的基本单元均为语义检测单元。

所述视觉互参考语义检测结构输入3D视觉特征V_3D和2D视觉特征V_2D，输出语义特征S，三者均为一维特征向量，具体为：

(1)输入的3D视觉特征V_3D，是视频经过3D卷积神经网络处理后输出，并且即将输入到3D语义检测支路的特征向量。

(2)输入的2D视觉特征V_2D，是视频经过2D卷积神经网络处理后输出，并且即将输入到2D语义检测支路的特征向量。

(3)在3D语义检测支路中，对3D视觉特征采用语义检测单元A1处理，获取3D语义特征S_a1，将其与2D视觉特征V_2D拼接融合，得到新3D语义特征 S_A1。

(4)在2D语义检测支路中，对2D视觉特征采用语义检测单元B1处理，获取2D语义特征S_b1，将其与3D视觉特征V_3D拼接融合，得到新2D语义特征 S_B1。

(5)在3D语义检测支路中，将语义检测单元A1处理和特征拼接融合进行多阶段迭代操作，迭代m次后输出3D语义特征S_Am。同理在2D语义检测支路中，将语义检测单元B1处理和特征拼接融合进行多阶段迭代操作，迭代m次后输出2D语义特征S_Bm。

(6)在3D语义检测支路中，对3D语义特征S_Am再次采用语义检测单元 End-A处理，得到该支路的输出—3D语义特征S_end-A。在2D语义检测支路中，对2D语义特征S_Bm再次采用语义检测单元End-B处理，得到该支路的输出—2D 语义特征S_end-B。

(7)将3D语义特征S_end-A和2D语义特征S_end-B拼接融合，得到视觉互参考语义检测结构的最终输出—语义特征S。

具体的，视觉互参考语义检测结构有两个支路，在两个支路中均多次迭代使用语义检测单元生成语义特征，最终将两种语义特征拼接融合，提升语义特征的有效性。此外，在此过程中分别将3D视觉特征与2D语义特征拼接融合，2D视觉特征与3D语义特征拼接融合，实现3D和2D两支路信息的互参考，有效提升特征的表达能力。

具体的，所述语义检测单元是视觉互参考语义检测结构中，3D语义检测支路和2D语义检测支路的基本语义提取单元，除多层感知机的层数及相应层神经元个数可以不同外，两支路中语义检测单元结构均相同。以语义检测单元A1为例，输入3D视觉特征V_3D，输出3D语义特征S_a1，具体为：

(1)输入的3D视觉特征V_3D，是视频经过3D卷积神经网络处理后输出，并且即将输入到3D语义检测支路中语义检测单元A1的特征向量。

(2)将3D视觉特征V_3D与相应权重进行全连接计算，得到中间特征M₁。

(3)将中间特征M₁与相应偏置相加，输出中间特征N₁。

(4)对中间特征N₁进行非线性激活操作，得到中间特征W₁。

(5)对中间特征W₁进行随即删除神经元操作，得到中间特征X₁。

(6)上述全连接计算、偏置相加、非线性激活和随机删除神经元处理，属于语义检测单元的第1层，对以上操作进行多次迭代得到语义检测单元的第n 层特征X_n。

(7)对特征X_n，进行Softmax多分类操作，得到3D语义特征S_a1。

语义检测单元是3D语义检测支路和2D语义检测支路的基本单元，也是视觉互参考语义检测结构的最基本单元，该单元由多个特征提取层构成，可以生成表达多分类信息的语义特征。

本发明采用的以上技术方案，与现有技术相比，具有的优点是：

(1)适用于少数民族舞蹈视频描述

本发明中可以通过提升语义特征的表达能力，提升视频描述性能，可以对少数民族舞蹈视频进行自动文本描述，有利于少数民族舞蹈文化的推广传播。

(2)适用于利用视觉特征获取语义特征的情况

本发明中以视频视觉特征作为输入，分为两个支路提取语义信息，通过3D 和2D信息的互参考增强语义有效性，并采用多阶段迭代操作提升特征表达能力；适用于通过视觉特征获取语义特征的情况。

(3)适用于视频描述任务

本发明中以视频经过卷积神经网络输出的视觉特征为输入，通过本发明提出的方法生成语义特征，将语义特征和视觉特征作为长短时记忆网络的输入，输出准确的视频文本描述。

(4)适用于图像描述任务

本发明可以提升视频描述性能，相对于视频序列，静态图像所包含的目标、动作、属性等视觉因素更为简单，所以也可以更好地应用于图像描述任务。

(5)适用于安防监控系统

本发明中可以通过视觉互参考语义检测方法生成较为有效的语义特征，将该特征输入至视频描述模型，可提升视频描述性能，自动生成准确的视频文本描述，其中目标、行为、属性等文本信息可以作为安防监控系统的提示信息，提升安防监控系统工作效率。

(6)适用于短视频内容审查系统

本发明中可以通过视觉互参考语义检测方法生成较为有效的语义特征，将该特征输入至视频描述模型，可提升视频描述性能，自动生成准确的视频文本描述，其中目标、行为、属性等文本信息可以作为短视频内容审查系统的提示信息，高效降低短视频中违法、违规、不具正能量的因素，构造良好网络环境。

附图说明

图1是视觉互参考语义检测结构的示意图；

图2是语义检测单元示意图；

图3是3D语义检测支路示意图；

图4是2D语义检测支路示意图；

图5是实施例1中少数民族舞蹈视频描述场景情况示意图；

图6是实施例2中安防监控场景情况示意图；

图7是实施例3中短视频内容审查情况示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请，即所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。

本发明方法是在视觉互参考语义检测结构中实现的，如图1所示，该结构分为3D语义检测支路和2D语义检测支路，其均包括多层感知机形式的语义检测单元。两个支路分别对两种视觉特征初步提取语义信息，进一步与另一条支路的视觉信息融合，实现3D和2D信息的互参考，并通过多阶段迭代方式提升语义特征的有效性。互参考语义检测方法具体实施步骤如下：

第1步：将视频分别经过3D卷积神经网络和2D卷积神经网络处理后得到 3D视觉特征V_3D和2D视觉特征V_2D，尺寸分别为1*a和1*b，如V_3D的具体形式为V_3D＝{v₁,v₂,…,v_a}；

第2步：所述3D视觉特征V_3D在3D语义检测支路中进行特征提取、所述 2D视觉特征V_2D在2D语义检测支路中进行特征提取，分别得到3D语义特征S_a1和2D语义特征S_b1；

具体的，以3D视觉特征V_3D在3D语义检测支路中进行特征提取为例进行说明：

首先利用语义检测单元A1提取语义特征，输出3D语义特征S_a1，其网络示意图如图2所示，具体操作如式(1)～(6)；

如式(1)所示为语义检测单元A1的第1层全连接计算，其中U_1,i是权重 U₁的每一列向量，3D视觉特征V_3D与U_1,i做向量乘法计算，

表示特征的拼接融合，得到中间特征M₁，M₁的尺寸为1*q₁；

将得到的中间特征M₁与偏置相加：

其中，D₁是常数形式的偏置项，B_ro1(·)是广播操作，通过拓展该常量数字与向量相加，得到中间特征N₁，其尺寸为1*q₁。

所述中间特征N₁进行非线性激活处理，当特征中的元素小于或等于1时，将其置为0，否则特征元素值不变；如式(3)所示：

其中，N_1,i是N₁的每一个特征元素，函数A_ReLU(·)是非线性激活函数，对特征非线性激活可以提升特征有效性，得到中间特征W₁，其尺寸为1*q₁；

在以上操作基础上，进行随机删除神经元操作，如式(4)所示：

其中，函数

的作用是随机删除神经元操作，使其中的部分神经元暂时失去作用，在当前阶段不进行反向传播，防止过拟合。k₁是保留参数，可以取 k₁＝0.9；得到第1层输出特征X₁。

对第1层输出特征X₁提取过程进行多次循环操作，得到语义检测单元A1 的第1层、第2层、…、第n层输出特征：

对语义检测单元A1第n层特征进行Softmax多标签分类操作：

其中，X_n,i是特征X_n的每一个特征元素，函数exp(·)是指数函数表达，通过对该特征进行Softmax分类处理，得到多标签分类形式的语义特征向量S_a1，其向量尺寸是1*q_n；

以上操作由3D视觉特征V_3D经过语义检测单元A1处理得到3D语义特征 S_a1，采用同样的处理方式，2D视觉特征V_2D经过语义检测单元B1处理得到2D 语义特征S_b1。

第3步：将所述3D语义特征S_a1和2D视觉特征V_2D进行拼接融合获取新3D 语义特征：

其中，S_A1为特征向量拼接得到的新3D语义特征，其尺寸为1*(q_n+b)。

将所述2D语义特征S_b1和3D视觉特征V_3D进行拼接融合获取新2D语义特征：

其中，S_B1为特征向量拼接得到的新2D语义特征，其尺寸为1*(q_n+a)。

上述操作将3D语义特征和2D视觉特征拼接融合，2D语义特征和3D视觉特征拼接融合，实现两条支路信息，即3D和2D信息的交互作用，提升特征的表达能力。

第4步：在3D语义检测支路中，对第2步语义特征提取操作、第3步特征拼接融合操作进行多阶段迭代，迭代次数为m，则该支路逐次输出如下3D语义特征：

在2D语义检测支路中，对第2步语义特征提取操作、第3步特征拼接融合操作进行多阶段迭代，迭代次数为m，则该支路逐次输出如下2D语义特征：

对上述语义提取和特征拼接融合操作进行多阶段迭代，可以逐步提升语义特征的表达能力。

第5步：在3D语义检测支路中，对3D语义特征S_Am采用语义检测单元End-A 进行最后一次语义提取，获取3D语义特征S_end-A；在2D语义检测支路中，对2D 语义特征S_Bm采用语义检测单元End-B进行最后一次语义提取，得到2D语义特征S_end-B；其中语义检测单元End-A和语义检测单元End-B，与上述语义检测单元A1的特征提取方式相同。

第6步：将3D语义特征S_end-A和2D语义特征S_end-B进行拼接融合，输出尺寸为1*2q_n的语义特征S：

对本发明中技术名词进行解释：(1)3D视觉特征：对少数民族舞蹈等视频进行3D卷积处理，并且即将输入到视觉互参考语义检测结构中的3D语义检测支路的特征向量。(2)2D视觉特征：对少数民族舞蹈等视频进行2D卷积处理，并且即将输入到视觉互参考语义检测结构中的2D语义检测支路的特征向量。(3) 语义特征：可以表示视频中所涉及词汇的多分类标签向量，本发明中语义特征也特指，视觉互参考语义检测结构的最终输出特征。(4)3D语义检测支路：视觉互参考语义检测结构中，以3D视觉特征为输入，在中间过程引入2D视觉特征，并且输出3D语义特征的通道。(5)2D语义检测支路：视觉互参考语义检测结构中，以2D视觉特征为输入，在中间过程引入3D视觉特征，并且输出2D语义特征的通道。(6)语义检测单元：单元的结构为多层感知机，用于在两个支路中提取3D语义特征或2D语义特征。(7)3D语义特征：3D语义检测支路中，每一个语义检测单元输出的特征。(8)2D语义特征：2D语义检测支路中，每一个语义检测单元输出的特征。

本实施例中迭代次数和单元层数约束条件可以为：(1)两个支路的语义检测单元均一一对应，特征拼接融合操作同样对应，即两个支路中语义检测单元的个数相同，均为m+1个。(2)为保证在输入视觉特征不同的情况下，均能得到较好的互参考语义检测结构，本发明采用4种迭代次数，即上述m∈{1,2,3,4}。 (3)为保证在输入特征不同的情况下，均能得到性能较好的语义检测单元，本发明采用5种特征提取层数，即层数n∈{2,3,4,5,6}。语义检测单元A1、语义检测单元A2、…、语义检测单元Am、语义检测单元End-A、语义检测单元B1、语义检测单元B2、…、语义检测单元Bm、语义检测单元End-B均可以选择5 种特征提取层数中的1种。

本实施例中特征尺寸约束条件可以为：(1)3D语义检测支路输入的3D视觉特征V_3D尺寸是[1*a]的特征向量。该支路输出的3D语义特征S_end-A尺寸是[1*q_n] 的特征向量。其中a＝1536，q_n＝300。(2)2D语义检测支路输入的2D视觉特征 V_2D尺寸是[1*b]的特征向量。该支路输出的2D语义特征S_end-B尺寸是[1*q_n]的特征向量。其中b＝2048，q_n＝300。(3)视觉互参考语义检测结构输出的语义特征 S是[1*2q_n]维度的特征向量，是两支路输出特征的拼接融合操作所得，其中 2q_n＝600。(4)当n＝2时(n为语义检测单元的特征处理层数)，1到2层输出特征的尺寸分别为(1*512，1*300)。(5)当n＝3时(n为语义检测单元的特征处理层数)，1到3层输出特征的尺寸分别为(1*512，1*300，1*300)。(6) 当n＝4时(n为语义检测单元的特征处理层数)，1到4层输出特征的尺寸分别为(1*1024，1*512，1*300，1*300)。(7)当n＝5时(n为语义检测单元的特征处理层数)，1到5层输出特征的尺寸分别为(1*1024，1*512，1*512，1*300，1*300)。(8)当n＝6时(n为语义检测单元的特征处理层数)，1到6层输出特征的尺寸分别为(1*1024，1*1024，1*512，1*512，1*300，1*300)。

实施例1：

少数民族舞蹈视频描述场景情况

如图5所示，将本实例应用于少数民族舞蹈视频描述场景，采用本专利方法获取表达能力较强的语义特征，将其作为视频编码，在解码网络中解码得到舞蹈视频的文本描述，该文本信息可以让大众更熟悉少数民族舞蹈文化，有利于少数民族舞蹈文化的传播。

实施例2：

安防监控场景情况

如图6所示，将本实例应用于安防监控的场景，采用本专利方法获取表达能力较强的语义特征，将其作为视频编码，在解码网络中解码得到安防监控视频对应的文本描述，该文本信息可以有效防止危险和违法等情况的发生，并提高排查监控视频的效率。

实施例3：

短视频内容审查情况

如图7所示，将本实例应用于短视频内容审查，采用本专利方法获取表达能力较强的语义特征，将其作为视频编码，在解码网络中解码得到与短视频内容对应的文本描述，该文本信息可以有效防止短视频中违法、违规等负能量内容，有利于构造良好的网络环境。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.少数民族舞蹈视频描述中视觉互参考语义检测方法，其特征在于，包括：

将视频分别经过3D卷积神经网络和2D卷积神经网络处理后得到3D视觉特征V_3D和2D视觉特征V_2D；

所述3D视觉特征V_3D在3D语义检测支路中进行特征提取、所述2D视觉特征V_2D在2D语义检测支路中进行特征提取，分别得到3D语义特征S_a1和2D语义特征S_b1；

将所述3D语义特征S_a1和2D视觉特征V_2D进行拼接融合获取新3D语义特征；将所述2D语义特征S_b1和3D视觉特征V_3D进行拼接融合获取新2D语义特征；

在3D语义检测支路中，对特征提取操作、拼接融合操作进行多阶段迭代，得到3D语义特征S_Am；在2D语义检测支路中，对特征提取操作、拼接融合操作进行多阶段迭代，得到2D语义特征S_Bm：

在3D语义检测支路中，对3D语义特征S_Am采用语义检测单元End-A进行最后一次语义提取，获取3D语义特征S_end-A；在2D语义检测支路中，对2D语义特征S_Bm采用语义检测单元End-B进行最后一次语义提取，得到2D语义特征S_end-B；

将所述3D语义特征S_end-A和2D语义特征S_end-B进行拼接融合，得到语义特征S。

2.根据权利要求1所述少数民族舞蹈视频描述中视觉互参考语义检测方法，其特征在于，所述3D视觉特征V_3D在3D语义检测支路中进行特征提取、所述2D视觉特征V_2D在2D语义检测支路中进行特征提取，具体为：

3D语义检测支路中利用语义检测单元A1提取语义特征，得到3D语义特征S_a1，具体操作如式(1)～(6)所示：

式(1)所示为语义检测单元A1的第1层全连接计算，其中U_1,i是权重U₁的每一列向量，3D视觉特征V_3D与U_1,i做向量乘法计算，⊕表示特征的拼接融合，得到中间特征M₁；

将所述中间特征M₁与偏置相加，得到：

其中，D₁是常数形式的偏置项，B_ro1(·)是广播操作，通过拓展该常量数字与向量相加，得到中间特征N₁；

将所述中间特征N₁进行非线性激活处理，当特征中的元素小于或等于1时，将其置为0，否则特征元素值不变；如式(3)所示：

其中，N_1,i是N₁的每一个特征元素，函数A_ReLU(·)是非线性激活函数，得到中间特征W₁；

然后进行随机删除神经元操作，如式(4)所示：

其中，函数

的作用是随机删除神经元操作，使其中的部分神经元暂时失去作用，在当前阶段不进行反向传播，k₁是保留参数；得到第1层输出特征X₁；

对第一层输出特征X₁提取过程进行多次循环操作，得到语义检测单元A1的第1层、第2层、…、第n层输出特征：

对语义检测单元A1第n层特征进行Softmax多标签分类操作：

其中，X_n,i是特征X_n的每一个特征元素，函数exp(·)是指数函数表达，通过对该特征进行Softmax分类处理，得到多标签分类形式的语义特征向量S_a1；

采用上述的处理方式，2D语义检测支路中2D视觉特征V_2D经过语义检测单元B1处理得到2D语义特征S_b1。

3.根据权利要求1所述少数民族舞蹈视频描述中视觉互参考语义检测方法，其特征在于，将所述3D语义特征Sa1和2D视觉特征V_2D进行拼接融合，具体为：

其中，S_A1为特征向量拼接得到的新3D语义特征；

将所述2D语义特征S_b1和3D视觉特征V_3D进行拼接融合，具体为：

其中，S_B1为特征向量拼接得到的新2D语义特征。

4.根据权利要求1所述少数民族舞蹈视频描述中视觉互参考语义检测方法，其特征在于，在3D语义检测支路中，对特征提取操作、拼接融合操作进行多阶段迭代，迭代次数为m，则该支路逐次输出如下3D语义特征：

在2D语义检测支路中，对特征提取操作、拼接融合操作进行多阶段迭代，迭代次数为m，则该支路逐次输出如下2D语义特征：

5.根据权利要求1所述少数民族舞蹈视频描述中视觉互参考语义检测方法，其特征在于，将所述3D语义特征S_end-A和2D语义特征S_end-B进行拼接融合，得到语义特征S，具体为：

6.根据权利要求1所述少数民族舞蹈视频描述中视觉互参考语义检测方法，其特征在于，3D语义检测支路中语义检测单元A1的数量与2D语义检测支路中语义检测单元B1的数量相同。

7.根据权利要求1所述少数民族舞蹈视频描述中视觉互参考语义检测方法，其特征在于，所述3D语义检测支路输入的3D视觉特征V_3D尺寸是[1*a]的特征向量，该支路输出的3D语义特征S_end-A尺寸是[1*q_n]的特征向量；2D语义检测支路输入的2D视觉特征V_2D尺寸是[1*b]的特征向量，该支路输出的2D语义特征S_end-B尺寸是[1*q_n]的特征向量。

8.根据权利要求7所述少数民族舞蹈视频描述中视觉互参考语义检测方法，其特征在于，所述语义特征S是[1*2q_n]维度的特征向量，是3D语义检测支路与2D语义检测支路输出的特征拼接融合所得。