CN112580362A

CN112580362A - 一种基于文本语义监督的视觉行为识别方法、系统及计算机可读介质

Info

Publication number: CN112580362A
Application number: CN202011508103.0A
Authority: CN
Inventors: 朱光明; 冯明涛; 张亮; 张微微; 宋娟; 沈沛意
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-03-30
Anticipated expiration: 2040-12-18
Also published as: CN112580362B

Abstract

本发明公开了一种基于文本语义监督的视觉行为识别方法、系统及计算机可读介质，方法包括文本语义特征提取、基于文本语义监督的视觉特征提取、构建视觉行为识别；本发明以相同类别行为视频样本集的文本描述句子为基础归纳各类行为的文本描述范式，构建样本对数据集，在文本语义提取模型中提取出文本描述句子的动作语义特征向量和关系语义特征向量，使用动作语义特征向量和关系语义特征向量对提取的动作视觉特征向量、关系视觉特征向量进行监督，利用提取到的动作视觉特征向量和关系视觉特征向量进行行为识别，以解决目前视觉行为识别领域内存在的视觉行为识别的准确率不高，文本语义监督的效率不高、且不能准确识别行为之间的动作和关系的问题。

Description

一种基于文本语义监督的视觉行为识别方法、系统及计算机可读介质

技术领域

本发明属于自然语言处理、计算机视觉和行为识别技术领域，涉及一种基于文本语义监督的视觉行为识别方法、系统及计算机可读介质。

背景技术

人工智能特别是计算机视觉技术已经深入并影响人们生活的方方面面，与人们生活密不可分，如人机交互、物体定位、智能机器人等领域都与计算机视觉中的行为识别技术息息相关。自视觉行为识别问题表现出巨大的经济价值和应用前景，成为计算机视觉领域研究的热门话题，受到众多学者青睐。

视觉行为识别的研究可追溯到1975年，那时的视觉行为识别以人体行为识别为主，实验者提出由12个点组成的人体模型，这种行为描述的点模型为后面的人体行为识别算法起到重要的指导作用。视觉行为识别的研究进展大致分为20世纪70年代视觉行为识别研究的初步阶段、20世纪90年代视觉行为分析研究的逐步发展阶段、21世纪以来视觉行为分析研究的快速发展阶段。近年来，涌现出一系列相关模型算法针对视觉行为识别技术进行研究，如传统的IDT方法、Two Stream方法、TSN方法、SlowFast方法、C3D方法和LSTM方法，但是上述模型算法多基于深度学习网络模型的优化，只是充分利用了视觉特征信息方面，增加了行为识别的准确率，但是这种只利用单一的视觉特征信息实现视觉行为识别的准确率提升有限，目前的视觉行为识别的准确率仍有较大空间进行提升，有必要针对视觉特征进行语义信息监督，以进一步提高视觉行为识别的准确率。

目前，关于加入语义信息监督的视觉特征行为识别的研究，增加的多是视频中物体的语义、位置信息或是人与物之间的相对位置信息等，文本语义监督的效率不高，且不能准确识别行为之间的动作和关系，有待技术提升。

发明内容

为了达到上述目的，本发明实施例提供一种基于文本语义监督的视觉行为识别方法、系统及计算机可读介质，以相同类别行为视频样本集的文本描述句子为基础归纳各类行为的文本描述范式，通过随机选取文本描述句子和/或文本描述范式构建样本对数据集，在样本对数据集上训练文本语义提取模型，提取出文本描述句子的动作语义特征向量和关系语义特征向量，使用动作语义特征向量和关系语义特征向量对从视觉特征提取模型中提取的动作视觉特征向量、关系视觉特征向量进行监督，利用提取到的动作视觉特征向量和关系视觉特征向量进行行为识别，以解决目前视觉行为识别领域内存在的视觉行为识别的准确率不高，文本语义监督的效率不高、且不能准确识别行为之间的动作和关系的问题。

本发明所采用的技术方案是，一种基于文本语义监督的视觉行为识别方法，包括以下步骤：

文本语义特征提取：

通过对文本描述句子数据集中相同类别行为视频的文本描述句子进行成分分析，归纳出各类别行为的文本描述范式，形成文本描述范式数据集；

从文本描述句子数据集以及文本描述范式数据集中随机选择两个样本，形成一对样本对，根据两个样本的动词间的词性对应关系和关系词间的词性对应关系，生成四种匹配与否的标签，并生成四种类型样本对，进而构建大规模的样本对数据集；

基于文本语义提取模型对构建的大规模的样本对数据集进行训练，提取样本对数据集中每个样本全部文本信息的语义特征向量，通过语义分割算法，将样本对数据集中每个样本的语义特征向量进行分割，分别得到动作语义特征和关系语义特征；

基于文本语义监督的视觉特征提取：

构建视觉特征提取模型：面对行为视频样本集，构建视觉特征提取模型获取视觉信息，分别提取关系视觉特征向量和动作视觉特征向量；

文本语义特征监督视觉特征：在视觉特征提取模型训练过程中，针对每一个视频样本V_i及其对应的文本描述句子s_i，分别使用从文本描述句子s_i中提取到的动作语义特征VSFeat_i和关系语义特征RSFeat_i，利用KL散度分别对动作视觉特征向量VVFeat_i和关系视觉特征向量RVFeat_i进行监督，并由此构建基于KL散度的损失函数L_KL，用于训练过程；

构建视觉行为识别：

把提取到的动作视觉特征向量和关系视觉特征向量进行行为识别，具体是先把提取到的动作视觉特征向量和关系视觉特征向量进行拼接，得到拼接后的视觉特征向量VFeat，输入到识别行为网络模型Net_recog，再通过激活函数Softmax得到最后输出的分类预测概率o_k，即(o₀,o₁,……,o_k-1)，且

则分类结果为argmax_0≤i<K{o_i}，即分类概率输出最大的类别即为视觉行为识别结果，视觉行为识别的结果分为K类。

进一步地，四种类型样本对，具体包括：

动词和关系词都相同的样本对，comb1＝{(v_i,r_i),(v_j,r_j)|v_i＝v_j,r_i＝r_j}；

仅动词相同的样本对，comb2＝{(v_i,r_i),(v_j,r_j)|v_i＝v_j,r_i≠r_j}；

仅关系词相同的样本对，comb3＝{(v_i,r_i),(v_j,r_j)|v_i≠v_j,r_i＝r_j}；

动词和关系词都不相同的样本对，comb4＝{(v_i,r_i),(v_j,r_j)|v_i≠v_j,r_i≠r_j}；

式中，comb表示两个样本的联合，v_i表示样品对中一个样本的动词，v_j表示样本对中另一个样本的动词，r_i表示样品对中一个样本的关系词，r_j表示样品对中另一个样本的关系词。

进一步地，基于文本语义提取模型对构建的大规模的样本对数据集进行训练，提取样本对数据集中每个样本全部文本信息的语义特征向量，具体为：文本语义提取模型通过句子相似度计算模型计算样本对中两个样本的相似度，建立样本对及样本对中两个样本之间相似度的标签，根据建立的样本对及样本对中两个样本之间相似度的标签构建得到文本数据集，将文本数据集输入孪生神经网络模型S-Bert，利用孪生神经网络模型S-Bert中的Bert+pooling联合模型提取出样本对中样本全部文本信息的语义特征向量。

更进一步地，文本语义提取模型通过句子相似度计算模型计算样本对中两个样本的相似度，建立样本对及样本对中两个样本之间相似度的标签，具体为：

每个样本对的文本语义特征包括动作语义特征和关系语义特征，每个样本对都有两个用于句子相似度计算模型训练的基本标签，作为真实标签，两个基本标签分别表示样本对中两个样本的动词和关系词是否相似，下式为基本标签的公式，具体为：

s_i＝(v₁,r₁)＝{v₁,sth,r₁,sth},s_i∈S(i＝1,2,……,L)；

s_j＝(v₂,r₂)＝{v₂,sth,r₂,sth},s_j∈S(j＝1,2,……,L)；

式中，s_i表示样本对中一个样本，s_j表示样本对中另一个样本；L表示样本对数据集中所有样本的个数；s_i,s_j∈S,i≠j表示样本对内两个样本，S表示样本对集合；lab_v(s_i,s_j)表示动词基本标签集合，lab_v(s_i,s_j)中标签“1”表示样本对之间动词相似，记为动词正样本；标签“0”表示样本对之间动词不相似，记为动词负样本；lab_r(s_i,s_j)表示关系词基本标签集合，lab_r(s_i,s_j)中标签“1”表示样本对之间关系词相似，记为关系词正样本；标签“0”表示样本对之间关系词不相似，记为关系词负样本；

通过上述基本标签的训练学习，将大规模的样本对数据集输入训练后的句子相似度计算模型中，输出样本对数据集中样本对的标签，每个样本对都需要用2个基本标签来表示，分别表示样本对中两个样本的动词和关系词是否相似，基本标签的具体公式为：

式中，C_q表示某一样本对，

表示样本对中的一个样本，

表示样本对中的另一个样本，comb表示两个样本的联合，

表示样本对中的一个样本的动词，

表示样本对中的另一个样本的动词，

表示样本对中的一个样本的关系词，

表示样本对中的另一个样本的关系词，C_q∈C表示一个样本对，包括两个不同的样本

C表示数据样本对集合，Q表示样本对数据集中样本对的个数，label(C_q)表示样本对的基本标签集合，其中标签“1 1”表示样本对之间动词和关系词均相似；标签“1 0”表示样本对之间动词相似但关系词不相似；标签“0 1”表示样本对之间动词不相似但关系词相似；标签“0 0”表示样本对之间动词和关系词均不相似；

建立样本对及样本对之间相似程度的标签，以此构建文本数据集。

更进一步地，将文本数据集输入孪生神经网络模型S-Bert，利用孪生神经网络模型S-Bert中的Bert+pooling联合模型提取出样本对中样本全部文本信息的语义特征向量，具体为：

将文本数据集输入孪生神经网络模型S-Bert，利用孪生神经网络模型S-Bert中的Bert+pooling联合模型提取出样本对中样本全部文本信息的语义特征向量，通过语义分割算法对样本对中样本全部文本信息的语义特征向量进行分割，分离出动作语义特征VSFeat和关系语义特征RSFeat，具体为：

利用孪生神经网络模型S-Bert对文本数据集进行训练，提取出样本对中样本全部文本信息的语义特征向量，用公式表示为：

SFeat＝S-Bert(C_q)；

VSFeat,RSFeat＝split(SFeat)；

式中，SFeat表示样本对中样本全部文本信息的语义特征向量，S-Bert表示所使用的孪生神经网络模型，VSFeat表示动作语义特征，RSFeat表示动作语义特征，split表示样本对中样本全部文本信息的语义特征向量按维度分割成动作语义特征、关系语义特征。

进一步地，基于KL散度的损失函数L_KL，具体为：

以VSFeat_i作为真实的视频行为识别概率分布，VVFeat_i作为预测出的视频行为识别概率分布，通过VSFeat_i与VVFeat_i之间的视频行为识别概率分布差异来监督Netf_ast网络的动作视觉特征向量学习；对应地，以RSFeat_i作为真实的视频行为识别概率分布，RVFeat_i作为预测出的视频行为识别概率分布，通过RSFeat_i与RVFeat_i之间的视频行为识别概率分布差异来监督Net_slow网络的关系视觉特征向量学习；

其中，KL散度的具体计算公式为：

式中，KL(P||Q)表示用近似的视频行为识别概率分布Q来拟合真实视频行为识别分布P所损失的信息量，N表示视频行为识别概率分布中样本的个数，P(x_i)表示真实视频行为识别分布P中第i个样本分布，Q(x_i)表示用于拟合的视频行为识别概率分布Q中i个样本分布。

进一步地，拼接后的视觉特征向量VFeat的计算公式为：

VFeat＝[VVFeat,RVFeat]；

式中，VFeat表示拼接后的视觉特征向量，VVFeat表示动作视觉特征向量，RVFeat表示关系视觉特征向量。

进一步地，分类预测概率o_k的计算公式为：

o_k＝Softmax(Net_recog(VFeat))；

式中，o_k表示视觉行为识别输出的分类预测概率，Net_recog表示识别行为网络模型，Softmax表示激活函数。

本发明的另一发明目的，在于提供一种基于文本语义监督的视觉行为识别系统，包括：

存储器，用于存储可由处理器执行的指令；

处理器，用于执行所述指令以实现如上所述的方法。

本发明的再一发明目的，在于提供一种计算机可读介质，存储有计算机程序代码，所述计算机程序代码在由处理器执行时实现如上所述的方法。

本发明的有益效果是：

(1)本发明提出一种基于文本语义监督的视觉行为识别方法，在原有视觉行为特征的基础上增加了文本语义特征进行监督，使得行为识别过程从单一的视觉特征变成受文本语义监督的“多模态”的视觉信息。

(2)本发明视觉行为识别方法的监督方式是使用动作语义特征向量、关系语义特征向量对从视觉特征提取模型中提取的动作视觉特征向量、关系视觉特征向量分别进行文本语义监督，这种方法与当下利用单一的视觉信息进行行为识别的方式相比，在原来视觉信息的基础上增加了语义信息，这对行为识别有很大的监督作用，文本语义监督的方式是并行的，监督方式的效率较高。

(3)本发明用于训练文本语义特征提取模型的样本对数据集中的样本对是由文本描述句子和文本描述范式中动词和关系词成分两两对应组成的，从而保证了从文本描述句子中提取动作语义特征向量和关系语义特征向量的精确性和普遍性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于文本语义监督的视觉行为识别方法的工作流程图。

图2为本发明的文本描述句子的分析归纳图。

图3为本发明的正样本对的构建图。

图4为本发明的其他样本对的构建图。

图5为本发明的S-Bert网络提取文本语义特征图。

图6为本发明的特征提取与监督系统图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明一种基于文本语义监督的视觉行为识别方法的实现过程，包括以下步骤：

文本语义特征提取，包括：

通过对文本描述句子数据集中相同类别行为视频的文本描述句子进行成分分析，归纳出各类别行为的文本描述范式，形成文本描述范式数据集，具体为：

对文本描述句子数据集中相同类别行为视频样本集的文本描述句子进行成分分析，每个文本描述句子解析成动词(v)、名词(n)、关系词(r)，即每个文本描述句子都可表示为：(v,r)＝{v,n₁,r,n₂}；忽视名词(即宾语)成分差异，归纳出各类别行为的文本描述范式，形成文本描述范式数据集，文本描述范式的公式表示如下：

{v,sth,r,sth}＝(v,r)＝{v,n₁,r,n₂},{v,n₃,r,n₄},……,{v,n_2l-1,r,n_2l}；

式中，sth为“something”的缩写，表示可忽视的名词，l表示具有相同动词和关系词的文本描述句子的个数，即l个具有相同动词和关系词的文本描述句子均可用与其动词和关系词相同的文本描述范式表示。

文本描述范式的具体归纳实例见图2，图2中l为2，即有两个具有相同动词和关系词的文本描述句子，分别为“Holding mouse behind book”和“Holding toothpicksbehind mug”，二者具有相同的动词“Holding”和关系词“behind”，先根据词性把单词进行一一对应，再忽视名词的不同，提取只包含动词和关系词的文本描述范式，最后用sth替换忽视掉的名词，即提取一类行为的文本描述范式，用公式表示为：

{Holding,sth,behind,sth}＝(Holding,behind)

＝{Holding,mouse,behind,book},{Holding,toothpicks,behind,mug}；

从文本描述句子数据集以及文本描述范式数据集中随机选择两个样本，形成一对样本对，随机选择的两个样本可以是两个文本描述句子、一个文本描述句子和一个文本描述范式、或者两个文本描述范式，根据样本对中两个样本的动词间的词性对应关系和关系词间的词性对应关系，即样本对中两个样本之间的动词、关系词相同与否，可以生成四种匹配与否的标签，并生成四种类型样本对，进而构建大规模的样本对数据集。

其中，四种类型样本对分别为：

动词和关系词都相同的样本对：comb1＝{(v_i,r_i),(v_j,r_j)|v_i＝v_j,r_i＝r_j}；

仅动词相同的样本对：comb2＝{(v_i,r_i),(v_j,r_j)|v_i＝v_j,r_i≠r_j}；

仅关系词相同的样本对：comb3＝{(v_i,r_i),(v_j,r_j)|v_i≠v_j,r_i＝r_j}；

动词和关系词都不相同的样本对：comb4＝{(v_i,r_i),(v_j,r_j)|v_i≠v_j,r_i≠r_j}；

上式中，comb表示两个样本的联合，v_i表示样品对中一个样本的动词，v_j表示样本对中另一个样本的动词，r_i表示样品对中一个样本的关系词，r_j表示样品对中另一个样本的关系词。

动词和关系词都相同的样本对、仅动词相同的样本对、仅关系词相同的样本对，均为正样本。

动词和关系词都不相同的样本对，为负样本。

样本对数据集的构建过程具体实例如图3、图4所示，图3以文本描述句子和文本描述范式构建的正样本对为实例，左侧是以{Holding,mouse,behind,book}和{Holding,sth,behind,sth}(sth为“something”的缩写)为实例进行样本匹配的过程，图3的右上是形成样本对的图化方式示意图，右下是形成的样本对的简化模型。

图3中，{Holding,mouse,behind,book}的动词是Holding，关系词是behind，{Holding,sth,behind,sth}的动词是Holding，关系词是behind；将{Holding,mouse,behind,book}和{Holding,sth,behind,sth}联合，忽视名词，将{Holding,mouse,behind,book}中的动词、关系词{Holding，behind}，以及{Holding,sth,behind,sth}中的动词、关系词{Holding，behind}联合，转为样本对模板，得到comb{(v1,r1),(v2,r2)}，由于v1＝v2，r1＝r2，二者之间的动词和关系词均相同，得到comb{(v,r),(v,r)}。

图4分别为仅动词相同、仅关系词相同、动词和关系词都不同三种情况形成样本对的图化方式示意图，图4中示意图(a)为仅动词相同的样本对的图化方式，由于v1＝v2，r1≠r2，因此最终形成的是comb{(v,r1),(v,r2)}；图4中示意图(b)为仅关系词相同的样本对的图化方式，由于v1≠v2，r1＝r2，因此最终形成的是comb{(v1,r),(v2,r)}；图4中示意图(c)为动词和关系词都不同的样本对的图化方式，由于v1≠v2，r1≠r2，因此最终形成的是comb{(v1,r1),(v2,r2)}。

基于文本语义提取模型对构建的大规模的样本对数据集进行训练，提取样本对数据集中每个样本的语义特征向量，通过语义分割算法，将样本对数据集中每个样本的语义特征向量进行分割，分别得到动作语义特征和关系语义特征。

其中，基于文本语义提取模型对构建的大规模的样本对数据集进行训练，提取样本对数据集中每个样本全部文本信息的语义特征向量，具体为：

文本语义提取模型通过句子相似度计算模型计算样本对中两个样本的相似度，建立样本对及样本对中两个样本之间相似度的标签，根据建立的样本对及样本对中两个样本之间相似度的标签构建得到文本数据集，这样获得的相似度高的样本对方式可以大幅减少孪生神经网络模型Sentence-Bert(S-Bert)的运算时间，降低运算成本、提高运算效率，将文本数据集输入孪生神经网络模型S-Bert，利用孪生神经网络模型S-Bert中的Bert+pooling联合模型提取出样本对中样本全部文本信息的语义特征向量，通过语义分割算法对样本对中样本全部文本信息的语义特征向量进行分割，分离出动作语义特征VSFeat和关系语义特征RSFeat。

其中，文本语义提取模型通过句子相似度计算模型计算样本对中两个样本的相似度，建立样本对及样本对中两个样本之间相似度的标签，具体为：

s_i＝(v₁,r₁)＝{v₁,sth,r₁,sth},s_i∈S(i＝1,2,……,L)；

s_j＝(v₂,r₂)＝{v₂,sth,r₂,sth},s_j∈S(j＝1,2,……,L)；

通过上述基本标签的训练学习，将大规模的样本对数据集输入到训练后的句子相似度计算模型中，输出样本对数据集中样本对的标签，每个样本对都需要用2个基本标签来表示，分别表示样本对中两个样本的动词和关系词是否相似，基本标签的具体公式为：

式中，C_q表示某一样本对，

表示样本对中的一个样本，

表示样本对中的另一个样本，comb表示两个样本的联合，

表示样本对中的一个样本的动词，

表示样本对中的另一个样本的动词，

表示样本对中的一个样本的关系词，

C表示数据样本对集合，Q表示样本对数据集中样本对的个数，label(C_q)表示样本对的基本标签集合，其中标签“1 1”表示样本对之间动词和关系词均相似；标签“1 0”表示样本对之间动词相似但关系词不相似；标签“0 1”表示样本对之间动词不相似但关系词相似；标签“0 0”表示样本对之间动词和关系词均不相似。

利用上述样本对的基本标签集合label(C_q)分别对样本对中两个样本的动词和关系词的相似度进行监督，训练可得整个样本文本的动作语义特征VSFeat和关系语义特征RSFeat。

将文本数据集输入孪生神经网络模型S-Bert，利用孪生神经网络模型S-Bert中的Bert+pooling联合模型提取出样本对中样本全部文本信息的语义特征向量，通过语义分割算法对样本对中样本全部文本信息的语义特征向量进行分割，分离出动作语义特征VSFeat和关系语义特征RSFeat，语义分割算法可用向量分割函数split、一层FC或者多层FC来实现，本发明以向量分割函数split为例分离出动作语义特征VSFeat和关系语义特征RSFeat，具体为：

SFeat＝S-Bert(C_q)；

VSFeat,RSFeat＝split(SFeat)；

具体样本对数据集的特征提取与特征分割过程实例如图5所示，把样本对Cq中的两个样本Sentence 1和Sentence 2分别输出到孪生神经网络模型S-Bert中的Bert+Pooling联合模型中，分别输出两个样本对应的文本语义特征向量SFeat1和SFeat2，利用语义分割算法，从SFeat1分离出动作语义特征VSFeat1和关系语义特征RSFeat1，从SFeat2分离出动作语义特征VSFeat2和关系语义特征RSFeat2，最后利用Softmax_v分类器对动作语义特征VSFeat1和VSFeat2进行分类操作，Softmax_r分类器对关系语义特征RSFeat1和RSFeat2进行分类操作。

先用Softmax_v分类器和Softmax_r分类器对动作语义特征和关系语义特征分别进行分类训练，当分类网络训练好后，利用分类网络的Bert+Pooling联合模型获取文本语义特征，并通过语义分割算法分离出动作语义特征和关系语义特征，利用余弦相似度函数计算样本对的相似度，这样有利于后续文本语义特征对视觉特征的监督。

基于文本语义监督的视觉特征提取，包括：

构建视觉特征提取模型：

面对行为视频样本集，构建视觉特征提取模型获取视觉信息，重点构建时域多尺度的深度神经网络模型，分别提取面向时域局部小邻域的场景物体的关系视觉特征向量RVFeat和面向长时上下文的动作视觉特征向量VVFeat。其中，深度神经网络模型可以使用SlowFast模型、C3D卷积神经网络模型、2D+1D卷积神经网络模型或TSM神经网络模型等。

本发明以SlowFast模型为例，采用Fast通道提取动作视觉特征向量(VVFeat)，采用Slow通道提取关系视觉特征向量(RVFeat)。

动作视觉特征向量(VVFeat)，关系视觉特征向量(RVFeat)的具体计算公式为：

动作视觉特征向量

关系视觉特征向量

式中，V表示人体行为视频样本集，M表示人体行为视频样本集样本的个数，V_i表示人体行为视频样本集中第i个样本，Net_fast表示SlowFast网络中用于提取动作的Fast网络通道，VVFeat_i表示从样本V_i提取到的动作视觉特征向量；Net_slow表示SlowFast网络中用于提取动作的Slow网络通道，RVFeat_i表示从样本V_i提取到的关系视觉特征向量。

文本语义特征监督视觉特征：

在视觉特征提取模型训练过程中，针对每一个视频样本V_i及其对应的文本描述句子s_i，分别使用从文本描述句子s_i中提取到的动作语义特征VSFeat_i和关系语义特征RSFeat_i，利用KL散度分别对动作视觉特征向量VVFeat_i和关系视觉特征向量RVFeat_i进行监督，并由此构建基于KL散度的损失函数L_KL，用于训练过程：

以动作语义特征向量VSFeat_i作为真实的视频行为识别概率分布，动作视觉特征向量VVFeat_i作为预测出的视频行为识别概率分布，通过VSFeat_i与VVFeat_i之间的概率分布差异来监督Net_fast网络学习动作视觉特征向量；对应地，以关系语义特征向量RSFeat_i作为真实的视频行为识别概率分布，关系视觉特征向量RVFeat_i作为预测出的视频行为识别概率分布，通过RSFeat_i与RVFeat_i之间的概率分布差异来监督Net_slow网络学习关系视觉特征向量。

其中，KL散度的具体计算公式为：

式中，KL(P||Q)表示用近似的视频行为识别概率分布Q来拟合真实视频行为识别分布P所损失的信息量，N表示视频行为识别概率分布中样本的个数，P(x_i)表示真实视频行为识别分布P中第i个样本分布，Q(x_i)表示用于拟合的视频行为识别概率分布Q中第i个样本分布。

这样用损失函数L_KL作为文本语义监督视觉特征的损失函数，样本对中两个样本的概率分布越接近越好，这样更容易识别出视觉特征的行为。为了使视觉提取模型提取的视觉特征更接近文本语义信息，就需要不断地调整视觉提取模型中参数，此时L_KL作为模型损失函数就需要不断进行反馈，直到视觉提取模型提取的视觉特征满足要求为止。

构建视觉行为识别：

把提取到的动作视觉特征向量和关系视觉特征向量进行视觉行为识别，具体是先把提取到的动作视觉特征向量和关系视觉特征向量进行拼接，得到拼接后的视觉特征向量VFeat，输入到识别行为网络模型Net_recog，Net_recog使用一层(或多层)全连接层作为分类网络，再通过激活函数Softmax得到最后输出的分类预测概率o_k，即(o₀,o₁,……,o_k-1)，且

视觉行为识别的具体公式表示为：

VFeat＝[VVFeat,RVFeat]；

o_k＝Softmax(Net_recog(VFeat))；

式中，VFeat表示拼接后的视觉特征向量，VVFeat表示动作视觉特征向量，RVFeat表示关系视觉特征向量，o_k表示视觉行为识别输出的分类预测概率，Net_recog表示识别行为网络模型，Softmax表示激活函数。

本发明实施例还提供了一种基于文本语义监督的视觉行为识别系统，包括：存储器，用于存储可由处理器执行的指令；以及处理器，用于执行所述指令以实现如上所述的方法。

一种基于文本语义监督的视觉行为识别系统，如图1所示，由三个模块构成，包括文本特征提取模块、文本语义监督视觉特征模块、行为识别模块。

其中文本特征提取模块负责对文本描述句子数据集中的文本描述句子进行成分分析，归纳出各类行为的范式样本，构建样本对数据集，构建文本语义提取模型，然后对样本对中样本全部文本信息的语义特征向量进行分割，获得动作语义特征和关系语义特征。

文本语义监督视觉特征模块负责利用动作语义特征和关系语义特征分别对动作视觉特征和关系视觉特征进行监督，分别得到动作视觉特征向量和关系视觉特征向量。首先需要从视频数据集中构建视觉特征提取模型，在视觉特征提取模型中提取的视觉特征，包括动作视觉特征向量和关系视觉特征向量。

行为识别模块负责对动作视觉特征向量和关系视觉特征向量拼接成动作、关系视觉特征向量，进而构建视觉行为识别模型，通过视觉行为识别模型输出行为识别结构，完成基于文本语义监督的视觉行为识别。

上述的一种基于文本语义监督的视觉行为识别系统可以实施为计算机程序，保存在硬盘中，并可记载到处理器中执行，以实施本发明实施例的方法。

本发明实施例还提供了一种存储有计算机程序代码的计算机可读介质，所述计算机程序代码在由处理器执行时实现如上所述的一种基于文本语义监督的视觉行为识别方法。

一种基于文本语义监督的视觉行为识别方法实施为计算机程序时，也可以存储在计算机可读存储介质中作为制品。例如，计算机可读存储介质可以包括但不限于磁存储设备(例如，硬盘、软盘、磁条)、光盘(例如，压缩盘(CD)、数字多功能盘(DVD))、智能卡和闪存设备(例如，电可擦除可编程只读存储器(EPROM)、卡、棒、键驱动)。此外，本发明实施例描述的各种存储介质能代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可以包括但不限于能存储、包含和/或承载代码和/或指令和/或数据的无线信道和各种其它介质(和/或存储介质)。

应该理解，上述的实施例仅是示意。本发明描述的实施例可在硬件、软件、固件、中间件、微码或者其任意组合中实现。对于硬件实现，处理单元可以在一个或者多个特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器和/或设计为执行本发明所述功能的其它电子单元或者其结合内实现。

图6为本发明的特征提取与监督系统图，图6中文本语义特征提取以孪生神经网络模型S-Bert为例，视觉特征提取模型以SlowFast模型为例，图6中部分节点的含义如下表所示：

节点名称	节点含义
		Embed	文本句子的嵌入式向量
S-Bert	孪生神经网络模型
		SFeat	文本语义特征向量
Net<sub>v</sub>	提取文本动作特征网络模型
		Net<sub>r</sub>	提取文本关系特征网络模型
VSFeat	动作语义特征向量
		RSFeat	关系语义特征向量
VVFeat	动作视觉特征向量
		RVFeat	关系视觉特征向量
Net<sub>recog</sub>	识别行为网络模型
		VFeat	视觉特征向量

本发明所提出的基于文本语义监督的视觉行为识别方法，利用文本语义特征监督视觉特征的关键在于文本语义动作、关系的特征提取和文本语义监督视觉行为识别的过程，这两者的结合可保证视觉行为识别的高效性和准确性。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于文本语义监督的视觉行为识别方法，其特征在于，包括以下步骤：

文本语义特征提取：

基于文本语义监督的视觉特征提取：

构建视觉行为识别：

把提取到的动作视觉特征向量和关系视觉特征向量进行行为识别，具体是先把提取到的动作视觉特征向量和关系视觉特征向量进行拼接，得到拼接后的视觉特征向量VFeat，输入到识别行为网络模型Net_recog，再通过激活函数Softmax得到最后输出的分类预测概率o_k，即(o₀，o₁，......，o_k-1)，且

则分类结果为argmax_0≤i＜K{o_i}，即分类概率输出最大的类别即为视觉行为识别结果，视觉行为识别的结果分为K类。

2.根据权利要求1所述的一种基于文本语义监督的视觉行为识别方法，其特征在于，所述四种类型样本对，具体包括：

动词和关系词都相同的样本对，comb1＝{(v_i，r_i)，(v_j，r_j)|v_i＝v_j，r_i＝r_j}；

仅动词相同的样本对，comb2＝{(v_i，r_i)，(v_j，r_j)|v_i＝v_j，r_i≠r_j}；

仅关系词相同的样本对，comb3＝{(v_i，r_i)，(v_j，r_j)|v_i≠v_j，r_i＝r_j}；

动词和关系词都不相同的样本对，comb4＝{(v_i，r_i)，(v_j，r_j)|v_i≠v_j，r_i≠r_j}；

3.根据权利要求1所述的一种基于文本语义监督的视觉行为识别方法，其特征在于，所述基于文本语义提取模型对构建的大规模的样本对数据集进行训练，提取样本对数据集中每个样本全部文本信息的语义特征向量，具体为：文本语义提取模型通过句子相似度计算模型计算样本对中两个样本的相似度，建立样本对及样本对中两个样本之间相似度的标签，根据建立的样本对及样本对中两个样本之间相似度的标签构建得到文本数据集，将文本数据集输入孪生神经网络模型S-Bert，利用孪生神经网络模型S-Bert中的Bert+pooling联合模型提取出样本对中样本全部文本信息的语义特征向量。

4.根据权利要求3中的一种基于文本语义监督的视觉行为识别方法，其特征在于，所述文本语义提取模型通过句子相似度计算模型计算样本对中两个样本的相似度，建立样本对及样本对中两个样本之间相似度的标签，具体为：

s_i＝(v₁，r₁)＝{v₁，sth，r₁，sth}，s_i∈S(i＝1，2，......，L)；

s_j＝(v₂，r₂)＝{v₂，sth，r₂，sth}，s_j∈S(j＝1，2，......，L)；

式中，s_i表示样本对中一个样本，s_j表示样本对中另一个样本；L表示样本对数据集中所有样本的个数；s_i，s_j∈S，i≠j表示样本对内两个样本，S表示样本对集合；lab_v(s_i，s_j)表示动词基本标签集合，lab_v(s_i，s_j)中标签“1”表示样本对之间动词相似，记为动词正样本；标签“0”表示样本对之间动词不相似，记为动词负样本；lab_r(s_i，s_j)表示关系词基本标签集合，lab_r(s_i，s_j)中标签“1”表示样本对之间关系词相似，记为关系词正样本；标签“0”表示样本对之间关系词不相似，记为关系词负样本；