CN112580362A - 一种基于文本语义监督的视觉行为识别方法、系统及计算机可读介质 - Google Patents

一种基于文本语义监督的视觉行为识别方法、系统及计算机可读介质 Download PDF

Info

Publication number
CN112580362A
CN112580362A CN202011508103.0A CN202011508103A CN112580362A CN 112580362 A CN112580362 A CN 112580362A CN 202011508103 A CN202011508103 A CN 202011508103A CN 112580362 A CN112580362 A CN 112580362A
Authority
CN
China
Prior art keywords
sample
semantic
text
visual
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011508103.0A
Other languages
English (en)
Other versions
CN112580362B (zh
Inventor
朱光明
冯明涛
张亮
张微微
宋娟
沈沛意
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202011508103.0A priority Critical patent/CN112580362B/zh
Publication of CN112580362A publication Critical patent/CN112580362A/zh
Application granted granted Critical
Publication of CN112580362B publication Critical patent/CN112580362B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于文本语义监督的视觉行为识别方法、系统及计算机可读介质,方法包括文本语义特征提取、基于文本语义监督的视觉特征提取、构建视觉行为识别;本发明以相同类别行为视频样本集的文本描述句子为基础归纳各类行为的文本描述范式,构建样本对数据集,在文本语义提取模型中提取出文本描述句子的动作语义特征向量和关系语义特征向量,使用动作语义特征向量和关系语义特征向量对提取的动作视觉特征向量、关系视觉特征向量进行监督,利用提取到的动作视觉特征向量和关系视觉特征向量进行行为识别,以解决目前视觉行为识别领域内存在的视觉行为识别的准确率不高,文本语义监督的效率不高、且不能准确识别行为之间的动作和关系的问题。

Description

一种基于文本语义监督的视觉行为识别方法、系统及计算机 可读介质
技术领域
本发明属于自然语言处理、计算机视觉和行为识别技术领域,涉及一种基于文本语义监督的视觉行为识别方法、系统及计算机可读介质。
背景技术
人工智能特别是计算机视觉技术已经深入并影响人们生活的方方面面,与人们生活密不可分,如人机交互、物体定位、智能机器人等领域都与计算机视觉中的行为识别技术息息相关。自视觉行为识别问题表现出巨大的经济价值和应用前景,成为计算机视觉领域研究的热门话题,受到众多学者青睐。
视觉行为识别的研究可追溯到1975年,那时的视觉行为识别以人体行为识别为主,实验者提出由12个点组成的人体模型,这种行为描述的点模型为后面的人体行为识别算法起到重要的指导作用。视觉行为识别的研究进展大致分为20世纪70年代视觉行为识别研究的初步阶段、20世纪90年代视觉行为分析研究的逐步发展阶段、21世纪以来视觉行为分析研究的快速发展阶段。近年来,涌现出一系列相关模型算法针对视觉行为识别技术进行研究,如传统的IDT方法、Two Stream方法、TSN方法、SlowFast方法、C3D方法和LSTM方法,但是上述模型算法多基于深度学习网络模型的优化,只是充分利用了视觉特征信息方面,增加了行为识别的准确率,但是这种只利用单一的视觉特征信息实现视觉行为识别的准确率提升有限,目前的视觉行为识别的准确率仍有较大空间进行提升,有必要针对视觉特征进行语义信息监督,以进一步提高视觉行为识别的准确率。
目前,关于加入语义信息监督的视觉特征行为识别的研究,增加的多是视频中物体的语义、位置信息或是人与物之间的相对位置信息等,文本语义监督的效率不高,且不能准确识别行为之间的动作和关系,有待技术提升。
发明内容
为了达到上述目的,本发明实施例提供一种基于文本语义监督的视觉行为识别方法、系统及计算机可读介质,以相同类别行为视频样本集的文本描述句子为基础归纳各类行为的文本描述范式,通过随机选取文本描述句子和/或文本描述范式构建样本对数据集,在样本对数据集上训练文本语义提取模型,提取出文本描述句子的动作语义特征向量和关系语义特征向量,使用动作语义特征向量和关系语义特征向量对从视觉特征提取模型中提取的动作视觉特征向量、关系视觉特征向量进行监督,利用提取到的动作视觉特征向量和关系视觉特征向量进行行为识别,以解决目前视觉行为识别领域内存在的视觉行为识别的准确率不高,文本语义监督的效率不高、且不能准确识别行为之间的动作和关系的问题。
本发明所采用的技术方案是,一种基于文本语义监督的视觉行为识别方法,包括以下步骤:
文本语义特征提取:
通过对文本描述句子数据集中相同类别行为视频的文本描述句子进行成分分析,归纳出各类别行为的文本描述范式,形成文本描述范式数据集;
从文本描述句子数据集以及文本描述范式数据集中随机选择两个样本,形成一对样本对,根据两个样本的动词间的词性对应关系和关系词间的词性对应关系,生成四种匹配与否的标签,并生成四种类型样本对,进而构建大规模的样本对数据集;
基于文本语义提取模型对构建的大规模的样本对数据集进行训练,提取样本对数据集中每个样本全部文本信息的语义特征向量,通过语义分割算法,将样本对数据集中每个样本的语义特征向量进行分割,分别得到动作语义特征和关系语义特征;
基于文本语义监督的视觉特征提取:
构建视觉特征提取模型:面对行为视频样本集,构建视觉特征提取模型获取视觉信息,分别提取关系视觉特征向量和动作视觉特征向量;
文本语义特征监督视觉特征:在视觉特征提取模型训练过程中,针对每一个视频样本Vi及其对应的文本描述句子si,分别使用从文本描述句子si中提取到的动作语义特征VSFeati和关系语义特征RSFeati,利用KL散度分别对动作视觉特征向量VVFeati和关系视觉特征向量RVFeati进行监督,并由此构建基于KL散度的损失函数LKL,用于训练过程;
构建视觉行为识别:
把提取到的动作视觉特征向量和关系视觉特征向量进行行为识别,具体是先把提取到的动作视觉特征向量和关系视觉特征向量进行拼接,得到拼接后的视觉特征向量VFeat,输入到识别行为网络模型Netrecog,再通过激活函数Softmax得到最后输出的分类预测概率ok,即(o0,o1,……,ok-1),且
Figure BDA0002845510620000021
则分类结果为argmax0≤i<K{oi},即分类概率输出最大的类别即为视觉行为识别结果,视觉行为识别的结果分为K类。
进一步地,四种类型样本对,具体包括:
动词和关系词都相同的样本对,comb1={(vi,ri),(vj,rj)|vi=vj,ri=rj};
仅动词相同的样本对,comb2={(vi,ri),(vj,rj)|vi=vj,ri≠rj};
仅关系词相同的样本对,comb3={(vi,ri),(vj,rj)|vi≠vj,ri=rj};
动词和关系词都不相同的样本对,comb4={(vi,ri),(vj,rj)|vi≠vj,ri≠rj};
式中,comb表示两个样本的联合,vi表示样品对中一个样本的动词,vj表示样本对中另一个样本的动词,ri表示样品对中一个样本的关系词,rj表示样品对中另一个样本的关系词。
进一步地,基于文本语义提取模型对构建的大规模的样本对数据集进行训练,提取样本对数据集中每个样本全部文本信息的语义特征向量,具体为:文本语义提取模型通过句子相似度计算模型计算样本对中两个样本的相似度,建立样本对及样本对中两个样本之间相似度的标签,根据建立的样本对及样本对中两个样本之间相似度的标签构建得到文本数据集,将文本数据集输入孪生神经网络模型S-Bert,利用孪生神经网络模型S-Bert中的Bert+pooling联合模型提取出样本对中样本全部文本信息的语义特征向量。
更进一步地,文本语义提取模型通过句子相似度计算模型计算样本对中两个样本的相似度,建立样本对及样本对中两个样本之间相似度的标签,具体为:
每个样本对的文本语义特征包括动作语义特征和关系语义特征,每个样本对都有两个用于句子相似度计算模型训练的基本标签,作为真实标签,两个基本标签分别表示样本对中两个样本的动词和关系词是否相似,下式为基本标签的公式,具体为:
si=(v1,r1)={v1,sth,r1,sth},si∈S(i=1,2,……,L);
sj=(v2,r2)={v2,sth,r2,sth},sj∈S(j=1,2,……,L);
Figure BDA0002845510620000031
Figure BDA0002845510620000032
式中,si表示样本对中一个样本,sj表示样本对中另一个样本;L表示样本对数据集中所有样本的个数;si,sj∈S,i≠j表示样本对内两个样本,S表示样本对集合;lab_v(si,sj)表示动词基本标签集合,lab_v(si,sj)中标签“1”表示样本对之间动词相似,记为动词正样本;标签“0”表示样本对之间动词不相似,记为动词负样本;lab_r(si,sj)表示关系词基本标签集合,lab_r(si,sj)中标签“1”表示样本对之间关系词相似,记为关系词正样本;标签“0”表示样本对之间关系词不相似,记为关系词负样本;
通过上述基本标签的训练学习,将大规模的样本对数据集输入训练后的句子相似度计算模型中,输出样本对数据集中样本对的标签,每个样本对都需要用2个基本标签来表示,分别表示样本对中两个样本的动词和关系词是否相似,基本标签的具体公式为:
Figure BDA0002845510620000041
Figure BDA0002845510620000042
式中,Cq表示某一样本对,
Figure BDA0002845510620000043
表示样本对中的一个样本,
Figure BDA0002845510620000044
表示样本对中的另一个样本,comb表示两个样本的联合,
Figure BDA0002845510620000045
表示样本对中的一个样本的动词,
Figure BDA0002845510620000046
表示样本对中的另一个样本的动词,
Figure BDA0002845510620000047
表示样本对中的一个样本的关系词,
Figure BDA0002845510620000048
表示样本对中的另一个样本的关系词,Cq∈C表示一个样本对,包括两个不同的样本
Figure BDA0002845510620000049
C表示数据样本对集合,Q表示样本对数据集中样本对的个数,label(Cq)表示样本对的基本标签集合,其中标签“1 1”表示样本对之间动词和关系词均相似;标签“1 0”表示样本对之间动词相似但关系词不相似;标签“0 1”表示样本对之间动词不相似但关系词相似;标签“0 0”表示样本对之间动词和关系词均不相似;
建立样本对及样本对之间相似程度的标签,以此构建文本数据集。
更进一步地,将文本数据集输入孪生神经网络模型S-Bert,利用孪生神经网络模型S-Bert中的Bert+pooling联合模型提取出样本对中样本全部文本信息的语义特征向量,具体为:
将文本数据集输入孪生神经网络模型S-Bert,利用孪生神经网络模型S-Bert中的Bert+pooling联合模型提取出样本对中样本全部文本信息的语义特征向量,通过语义分割算法对样本对中样本全部文本信息的语义特征向量进行分割,分离出动作语义特征VSFeat和关系语义特征RSFeat,具体为:
利用孪生神经网络模型S-Bert对文本数据集进行训练,提取出样本对中样本全部文本信息的语义特征向量,用公式表示为:
SFeat=S-Bert(Cq);
VSFeat,RSFeat=split(SFeat);
式中,SFeat表示样本对中样本全部文本信息的语义特征向量,S-Bert表示所使用的孪生神经网络模型,VSFeat表示动作语义特征,RSFeat表示动作语义特征,split表示样本对中样本全部文本信息的语义特征向量按维度分割成动作语义特征、关系语义特征。
进一步地,基于KL散度的损失函数LKL,具体为:
Figure BDA0002845510620000051
以VSFeati作为真实的视频行为识别概率分布,VVFeati作为预测出的视频行为识别概率分布,通过VSFeati与VVFeati之间的视频行为识别概率分布差异来监督Netfast网络的动作视觉特征向量学习;对应地,以RSFeati作为真实的视频行为识别概率分布,RVFeati作为预测出的视频行为识别概率分布,通过RSFeati与RVFeati之间的视频行为识别概率分布差异来监督Netslow网络的关系视觉特征向量学习;
其中,KL散度的具体计算公式为:
Figure BDA0002845510620000052
式中,KL(P||Q)表示用近似的视频行为识别概率分布Q来拟合真实视频行为识别分布P所损失的信息量,N表示视频行为识别概率分布中样本的个数,P(xi)表示真实视频行为识别分布P中第i个样本分布,Q(xi)表示用于拟合的视频行为识别概率分布Q中i个样本分布。
进一步地,拼接后的视觉特征向量VFeat的计算公式为:
VFeat=[VVFeat,RVFeat];
式中,VFeat表示拼接后的视觉特征向量,VVFeat表示动作视觉特征向量,RVFeat表示关系视觉特征向量。
进一步地,分类预测概率ok的计算公式为:
ok=Softmax(Netrecog(VFeat));
式中,ok表示视觉行为识别输出的分类预测概率,Netrecog表示识别行为网络模型,Softmax表示激活函数。
本发明的另一发明目的,在于提供一种基于文本语义监督的视觉行为识别系统,包括:
存储器,用于存储可由处理器执行的指令;
处理器,用于执行所述指令以实现如上所述的方法。
本发明的再一发明目的,在于提供一种计算机可读介质,存储有计算机程序代码,所述计算机程序代码在由处理器执行时实现如上所述的方法。
本发明的有益效果是:
(1)本发明提出一种基于文本语义监督的视觉行为识别方法,在原有视觉行为特征的基础上增加了文本语义特征进行监督,使得行为识别过程从单一的视觉特征变成受文本语义监督的“多模态”的视觉信息。
(2)本发明视觉行为识别方法的监督方式是使用动作语义特征向量、关系语义特征向量对从视觉特征提取模型中提取的动作视觉特征向量、关系视觉特征向量分别进行文本语义监督,这种方法与当下利用单一的视觉信息进行行为识别的方式相比,在原来视觉信息的基础上增加了语义信息,这对行为识别有很大的监督作用,文本语义监督的方式是并行的,监督方式的效率较高。
(3)本发明用于训练文本语义特征提取模型的样本对数据集中的样本对是由文本描述句子和文本描述范式中动词和关系词成分两两对应组成的,从而保证了从文本描述句子中提取动作语义特征向量和关系语义特征向量的精确性和普遍性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于文本语义监督的视觉行为识别方法的工作流程图。
图2为本发明的文本描述句子的分析归纳图。
图3为本发明的正样本对的构建图。
图4为本发明的其他样本对的构建图。
图5为本发明的S-Bert网络提取文本语义特征图。
图6为本发明的特征提取与监督系统图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明一种基于文本语义监督的视觉行为识别方法的实现过程,包括以下步骤:
文本语义特征提取,包括:
通过对文本描述句子数据集中相同类别行为视频的文本描述句子进行成分分析,归纳出各类别行为的文本描述范式,形成文本描述范式数据集,具体为:
对文本描述句子数据集中相同类别行为视频样本集的文本描述句子进行成分分析,每个文本描述句子解析成动词(v)、名词(n)、关系词(r),即每个文本描述句子都可表示为:(v,r)={v,n1,r,n2};忽视名词(即宾语)成分差异,归纳出各类别行为的文本描述范式,形成文本描述范式数据集,文本描述范式的公式表示如下:
{v,sth,r,sth}=(v,r)={v,n1,r,n2},{v,n3,r,n4},……,{v,n2l-1,r,n2l};
式中,sth为“something”的缩写,表示可忽视的名词,l表示具有相同动词和关系词的文本描述句子的个数,即l个具有相同动词和关系词的文本描述句子均可用与其动词和关系词相同的文本描述范式表示。
文本描述范式的具体归纳实例见图2,图2中l为2,即有两个具有相同动词和关系词的文本描述句子,分别为“Holding mouse behind book”和“Holding toothpicksbehind mug”,二者具有相同的动词“Holding”和关系词“behind”,先根据词性把单词进行一一对应,再忽视名词的不同,提取只包含动词和关系词的文本描述范式,最后用sth替换忽视掉的名词,即提取一类行为的文本描述范式,用公式表示为:
{Holding,sth,behind,sth}=(Holding,behind)
={Holding,mouse,behind,book},{Holding,toothpicks,behind,mug};
从文本描述句子数据集以及文本描述范式数据集中随机选择两个样本,形成一对样本对,随机选择的两个样本可以是两个文本描述句子、一个文本描述句子和一个文本描述范式、或者两个文本描述范式,根据样本对中两个样本的动词间的词性对应关系和关系词间的词性对应关系,即样本对中两个样本之间的动词、关系词相同与否,可以生成四种匹配与否的标签,并生成四种类型样本对,进而构建大规模的样本对数据集。
其中,四种类型样本对分别为:
动词和关系词都相同的样本对:comb1={(vi,ri),(vj,rj)|vi=vj,ri=rj};
仅动词相同的样本对:comb2={(vi,ri),(vj,rj)|vi=vj,ri≠rj};
仅关系词相同的样本对:comb3={(vi,ri),(vj,rj)|vi≠vj,ri=rj};
动词和关系词都不相同的样本对:comb4={(vi,ri),(vj,rj)|vi≠vj,ri≠rj};
上式中,comb表示两个样本的联合,vi表示样品对中一个样本的动词,vj表示样本对中另一个样本的动词,ri表示样品对中一个样本的关系词,rj表示样品对中另一个样本的关系词。
动词和关系词都相同的样本对、仅动词相同的样本对、仅关系词相同的样本对,均为正样本。
动词和关系词都不相同的样本对,为负样本。
样本对数据集的构建过程具体实例如图3、图4所示,图3以文本描述句子和文本描述范式构建的正样本对为实例,左侧是以{Holding,mouse,behind,book}和{Holding,sth,behind,sth}(sth为“something”的缩写)为实例进行样本匹配的过程,图3的右上是形成样本对的图化方式示意图,右下是形成的样本对的简化模型。
图3中,{Holding,mouse,behind,book}的动词是Holding,关系词是behind,{Holding,sth,behind,sth}的动词是Holding,关系词是behind;将{Holding,mouse,behind,book}和{Holding,sth,behind,sth}联合,忽视名词,将{Holding,mouse,behind,book}中的动词、关系词{Holding,behind},以及{Holding,sth,behind,sth}中的动词、关系词{Holding,behind}联合,转为样本对模板,得到comb{(v1,r1),(v2,r2)},由于v1=v2,r1=r2,二者之间的动词和关系词均相同,得到comb{(v,r),(v,r)}。
图4分别为仅动词相同、仅关系词相同、动词和关系词都不同三种情况形成样本对的图化方式示意图,图4中示意图(a)为仅动词相同的样本对的图化方式,由于v1=v2,r1≠r2,因此最终形成的是comb{(v,r1),(v,r2)};图4中示意图(b)为仅关系词相同的样本对的图化方式,由于v1≠v2,r1=r2,因此最终形成的是comb{(v1,r),(v2,r)};图4中示意图(c)为动词和关系词都不同的样本对的图化方式,由于v1≠v2,r1≠r2,因此最终形成的是comb{(v1,r1),(v2,r2)}。
基于文本语义提取模型对构建的大规模的样本对数据集进行训练,提取样本对数据集中每个样本的语义特征向量,通过语义分割算法,将样本对数据集中每个样本的语义特征向量进行分割,分别得到动作语义特征和关系语义特征。
其中,基于文本语义提取模型对构建的大规模的样本对数据集进行训练,提取样本对数据集中每个样本全部文本信息的语义特征向量,具体为:
文本语义提取模型通过句子相似度计算模型计算样本对中两个样本的相似度,建立样本对及样本对中两个样本之间相似度的标签,根据建立的样本对及样本对中两个样本之间相似度的标签构建得到文本数据集,这样获得的相似度高的样本对方式可以大幅减少孪生神经网络模型Sentence-Bert(S-Bert)的运算时间,降低运算成本、提高运算效率,将文本数据集输入孪生神经网络模型S-Bert,利用孪生神经网络模型S-Bert中的Bert+pooling联合模型提取出样本对中样本全部文本信息的语义特征向量,通过语义分割算法对样本对中样本全部文本信息的语义特征向量进行分割,分离出动作语义特征VSFeat和关系语义特征RSFeat。
其中,文本语义提取模型通过句子相似度计算模型计算样本对中两个样本的相似度,建立样本对及样本对中两个样本之间相似度的标签,具体为:
每个样本对的文本语义特征包括动作语义特征和关系语义特征,每个样本对都有两个用于句子相似度计算模型训练的基本标签,作为真实标签,两个基本标签分别表示样本对中两个样本的动词和关系词是否相似,下式为基本标签的公式,具体为:
si=(v1,r1)={v1,sth,r1,sth},si∈S(i=1,2,……,L);
sj=(v2,r2)={v2,sth,r2,sth},sj∈S(j=1,2,……,L);
Figure BDA0002845510620000091
Figure BDA0002845510620000092
式中,si表示样本对中一个样本,sj表示样本对中另一个样本;L表示样本对数据集中所有样本的个数;si,sj∈S,i≠j表示样本对内两个样本,S表示样本对集合;lab_v(si,sj)表示动词基本标签集合,lab_v(si,sj)中标签“1”表示样本对之间动词相似,记为动词正样本;标签“0”表示样本对之间动词不相似,记为动词负样本;lab_r(si,sj)表示关系词基本标签集合,lab_r(si,sj)中标签“1”表示样本对之间关系词相似,记为关系词正样本;标签“0”表示样本对之间关系词不相似,记为关系词负样本;
通过上述基本标签的训练学习,将大规模的样本对数据集输入到训练后的句子相似度计算模型中,输出样本对数据集中样本对的标签,每个样本对都需要用2个基本标签来表示,分别表示样本对中两个样本的动词和关系词是否相似,基本标签的具体公式为:
Figure BDA0002845510620000093
Figure BDA0002845510620000101
式中,Cq表示某一样本对,
Figure BDA0002845510620000102
表示样本对中的一个样本,
Figure BDA0002845510620000103
表示样本对中的另一个样本,comb表示两个样本的联合,
Figure BDA0002845510620000104
表示样本对中的一个样本的动词,
Figure BDA0002845510620000105
表示样本对中的另一个样本的动词,
Figure BDA0002845510620000106
表示样本对中的一个样本的关系词,
Figure BDA0002845510620000107
表示样本对中的另一个样本的关系词,Cq∈C表示一个样本对,包括两个不同的样本
Figure BDA0002845510620000108
C表示数据样本对集合,Q表示样本对数据集中样本对的个数,label(Cq)表示样本对的基本标签集合,其中标签“1 1”表示样本对之间动词和关系词均相似;标签“1 0”表示样本对之间动词相似但关系词不相似;标签“0 1”表示样本对之间动词不相似但关系词相似;标签“0 0”表示样本对之间动词和关系词均不相似。
建立样本对及样本对之间相似程度的标签,以此构建文本数据集。
利用上述样本对的基本标签集合label(Cq)分别对样本对中两个样本的动词和关系词的相似度进行监督,训练可得整个样本文本的动作语义特征VSFeat和关系语义特征RSFeat。
将文本数据集输入孪生神经网络模型S-Bert,利用孪生神经网络模型S-Bert中的Bert+pooling联合模型提取出样本对中样本全部文本信息的语义特征向量,通过语义分割算法对样本对中样本全部文本信息的语义特征向量进行分割,分离出动作语义特征VSFeat和关系语义特征RSFeat,语义分割算法可用向量分割函数split、一层FC或者多层FC来实现,本发明以向量分割函数split为例分离出动作语义特征VSFeat和关系语义特征RSFeat,具体为:
利用孪生神经网络模型S-Bert对文本数据集进行训练,提取出样本对中样本全部文本信息的语义特征向量,用公式表示为:
SFeat=S-Bert(Cq);
VSFeat,RSFeat=split(SFeat);
式中,SFeat表示样本对中样本全部文本信息的语义特征向量,S-Bert表示所使用的孪生神经网络模型,VSFeat表示动作语义特征,RSFeat表示动作语义特征,split表示样本对中样本全部文本信息的语义特征向量按维度分割成动作语义特征、关系语义特征。
具体样本对数据集的特征提取与特征分割过程实例如图5所示,把样本对Cq中的两个样本Sentence 1和Sentence 2分别输出到孪生神经网络模型S-Bert中的Bert+Pooling联合模型中,分别输出两个样本对应的文本语义特征向量SFeat1和SFeat2,利用语义分割算法,从SFeat1分离出动作语义特征VSFeat1和关系语义特征RSFeat1,从SFeat2分离出动作语义特征VSFeat2和关系语义特征RSFeat2,最后利用Softmax_v分类器对动作语义特征VSFeat1和VSFeat2进行分类操作,Softmax_r分类器对关系语义特征RSFeat1和RSFeat2进行分类操作。
先用Softmax_v分类器和Softmax_r分类器对动作语义特征和关系语义特征分别进行分类训练,当分类网络训练好后,利用分类网络的Bert+Pooling联合模型获取文本语义特征,并通过语义分割算法分离出动作语义特征和关系语义特征,利用余弦相似度函数计算样本对的相似度,这样有利于后续文本语义特征对视觉特征的监督。
基于文本语义监督的视觉特征提取,包括:
构建视觉特征提取模型:
面对行为视频样本集,构建视觉特征提取模型获取视觉信息,重点构建时域多尺度的深度神经网络模型,分别提取面向时域局部小邻域的场景物体的关系视觉特征向量RVFeat和面向长时上下文的动作视觉特征向量VVFeat。其中,深度神经网络模型可以使用SlowFast模型、C3D卷积神经网络模型、2D+1D卷积神经网络模型或TSM神经网络模型等。
本发明以SlowFast模型为例,采用Fast通道提取动作视觉特征向量(VVFeat),采用Slow通道提取关系视觉特征向量(RVFeat)。
动作视觉特征向量(VVFeat),关系视觉特征向量(RVFeat)的具体计算公式为:
动作视觉特征向量
Figure BDA0002845510620000111
关系视觉特征向量
Figure BDA0002845510620000112
式中,V表示人体行为视频样本集,M表示人体行为视频样本集样本的个数,Vi表示人体行为视频样本集中第i个样本,Netfast表示SlowFast网络中用于提取动作的Fast网络通道,VVFeati表示从样本Vi提取到的动作视觉特征向量;Netslow表示SlowFast网络中用于提取动作的Slow网络通道,RVFeati表示从样本Vi提取到的关系视觉特征向量。
文本语义特征监督视觉特征:
在视觉特征提取模型训练过程中,针对每一个视频样本Vi及其对应的文本描述句子si,分别使用从文本描述句子si中提取到的动作语义特征VSFeati和关系语义特征RSFeati,利用KL散度分别对动作视觉特征向量VVFeati和关系视觉特征向量RVFeati进行监督,并由此构建基于KL散度的损失函数LKL,用于训练过程:
Figure BDA0002845510620000121
以动作语义特征向量VSFeati作为真实的视频行为识别概率分布,动作视觉特征向量VVFeati作为预测出的视频行为识别概率分布,通过VSFeati与VVFeati之间的概率分布差异来监督Netfast网络学习动作视觉特征向量;对应地,以关系语义特征向量RSFeati作为真实的视频行为识别概率分布,关系视觉特征向量RVFeati作为预测出的视频行为识别概率分布,通过RSFeati与RVFeati之间的概率分布差异来监督Netslow网络学习关系视觉特征向量。
其中,KL散度的具体计算公式为:
Figure BDA0002845510620000122
式中,KL(P||Q)表示用近似的视频行为识别概率分布Q来拟合真实视频行为识别分布P所损失的信息量,N表示视频行为识别概率分布中样本的个数,P(xi)表示真实视频行为识别分布P中第i个样本分布,Q(xi)表示用于拟合的视频行为识别概率分布Q中第i个样本分布。
这样用损失函数LKL作为文本语义监督视觉特征的损失函数,样本对中两个样本的概率分布越接近越好,这样更容易识别出视觉特征的行为。为了使视觉提取模型提取的视觉特征更接近文本语义信息,就需要不断地调整视觉提取模型中参数,此时LKL作为模型损失函数就需要不断进行反馈,直到视觉提取模型提取的视觉特征满足要求为止。
构建视觉行为识别:
把提取到的动作视觉特征向量和关系视觉特征向量进行视觉行为识别,具体是先把提取到的动作视觉特征向量和关系视觉特征向量进行拼接,得到拼接后的视觉特征向量VFeat,输入到识别行为网络模型Netrecog,Netrecog使用一层(或多层)全连接层作为分类网络,再通过激活函数Softmax得到最后输出的分类预测概率ok,即(o0,o1,……,ok-1),且
Figure BDA0002845510620000123
则分类结果为argmax0≤i<K{oi},即分类概率输出最大的类别即为视觉行为识别结果,视觉行为识别的结果分为K类。
视觉行为识别的具体公式表示为:
VFeat=[VVFeat,RVFeat];
ok=Softmax(Netrecog(VFeat));
式中,VFeat表示拼接后的视觉特征向量,VVFeat表示动作视觉特征向量,RVFeat表示关系视觉特征向量,ok表示视觉行为识别输出的分类预测概率,Netrecog表示识别行为网络模型,Softmax表示激活函数。
本发明实施例还提供了一种基于文本语义监督的视觉行为识别系统,包括:存储器,用于存储可由处理器执行的指令;以及处理器,用于执行所述指令以实现如上所述的方法。
一种基于文本语义监督的视觉行为识别系统,如图1所示,由三个模块构成,包括文本特征提取模块、文本语义监督视觉特征模块、行为识别模块。
其中文本特征提取模块负责对文本描述句子数据集中的文本描述句子进行成分分析,归纳出各类行为的范式样本,构建样本对数据集,构建文本语义提取模型,然后对样本对中样本全部文本信息的语义特征向量进行分割,获得动作语义特征和关系语义特征。
文本语义监督视觉特征模块负责利用动作语义特征和关系语义特征分别对动作视觉特征和关系视觉特征进行监督,分别得到动作视觉特征向量和关系视觉特征向量。首先需要从视频数据集中构建视觉特征提取模型,在视觉特征提取模型中提取的视觉特征,包括动作视觉特征向量和关系视觉特征向量。
行为识别模块负责对动作视觉特征向量和关系视觉特征向量拼接成动作、关系视觉特征向量,进而构建视觉行为识别模型,通过视觉行为识别模型输出行为识别结构,完成基于文本语义监督的视觉行为识别。
上述的一种基于文本语义监督的视觉行为识别系统可以实施为计算机程序,保存在硬盘中,并可记载到处理器中执行,以实施本发明实施例的方法。
本发明实施例还提供了一种存储有计算机程序代码的计算机可读介质,所述计算机程序代码在由处理器执行时实现如上所述的一种基于文本语义监督的视觉行为识别方法。
一种基于文本语义监督的视觉行为识别方法实施为计算机程序时,也可以存储在计算机可读存储介质中作为制品。例如,计算机可读存储介质可以包括但不限于磁存储设备(例如,硬盘、软盘、磁条)、光盘(例如,压缩盘(CD)、数字多功能盘(DVD))、智能卡和闪存设备(例如,电可擦除可编程只读存储器(EPROM)、卡、棒、键驱动)。此外,本发明实施例描述的各种存储介质能代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可以包括但不限于能存储、包含和/或承载代码和/或指令和/或数据的无线信道和各种其它介质(和/或存储介质)。
应该理解,上述的实施例仅是示意。本发明描述的实施例可在硬件、软件、固件、中间件、微码或者其任意组合中实现。对于硬件实现,处理单元可以在一个或者多个特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器和/或设计为执行本发明所述功能的其它电子单元或者其结合内实现。
图6为本发明的特征提取与监督系统图,图6中文本语义特征提取以孪生神经网络模型S-Bert为例,视觉特征提取模型以SlowFast模型为例,图6中部分节点的含义如下表所示:
节点名称 节点含义
Embed 文本句子的嵌入式向量
S-Bert 孪生神经网络模型
SFeat 文本语义特征向量
Net<sub>v</sub> 提取文本动作特征网络模型
Net<sub>r</sub> 提取文本关系特征网络模型
VSFeat 动作语义特征向量
RSFeat 关系语义特征向量
VVFeat 动作视觉特征向量
RVFeat 关系视觉特征向量
Net<sub>recog</sub> 识别行为网络模型
VFeat 视觉特征向量
本发明所提出的基于文本语义监督的视觉行为识别方法,利用文本语义特征监督视觉特征的关键在于文本语义动作、关系的特征提取和文本语义监督视觉行为识别的过程,这两者的结合可保证视觉行为识别的高效性和准确性。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种基于文本语义监督的视觉行为识别方法,其特征在于,包括以下步骤:
文本语义特征提取:
通过对文本描述句子数据集中相同类别行为视频的文本描述句子进行成分分析,归纳出各类别行为的文本描述范式,形成文本描述范式数据集;
从文本描述句子数据集以及文本描述范式数据集中随机选择两个样本,形成一对样本对,根据两个样本的动词间的词性对应关系和关系词间的词性对应关系,生成四种匹配与否的标签,并生成四种类型样本对,进而构建大规模的样本对数据集;
基于文本语义提取模型对构建的大规模的样本对数据集进行训练,提取样本对数据集中每个样本全部文本信息的语义特征向量,通过语义分割算法,将样本对数据集中每个样本的语义特征向量进行分割,分别得到动作语义特征和关系语义特征;
基于文本语义监督的视觉特征提取:
构建视觉特征提取模型:面对行为视频样本集,构建视觉特征提取模型获取视觉信息,分别提取关系视觉特征向量和动作视觉特征向量;
文本语义特征监督视觉特征:在视觉特征提取模型训练过程中,针对每一个视频样本Vi及其对应的文本描述句子si,分别使用从文本描述句子si中提取到的动作语义特征VSFeati和关系语义特征RSFeati,利用KL散度分别对动作视觉特征向量VVFeati和关系视觉特征向量RVFeati进行监督,并由此构建基于KL散度的损失函数LKL,用于训练过程;
构建视觉行为识别:
把提取到的动作视觉特征向量和关系视觉特征向量进行行为识别,具体是先把提取到的动作视觉特征向量和关系视觉特征向量进行拼接,得到拼接后的视觉特征向量VFeat,输入到识别行为网络模型Netrecog,再通过激活函数Softmax得到最后输出的分类预测概率ok,即(o0,o1,......,ok-1),且
Figure FDA0002845510610000011
则分类结果为argmax0≤i<K{oi},即分类概率输出最大的类别即为视觉行为识别结果,视觉行为识别的结果分为K类。
2.根据权利要求1所述的一种基于文本语义监督的视觉行为识别方法,其特征在于,所述四种类型样本对,具体包括:
动词和关系词都相同的样本对,comb1={(vi,ri),(vj,rj)|vi=vj,ri=rj};
仅动词相同的样本对,comb2={(vi,ri),(vj,rj)|vi=vj,ri≠rj};
仅关系词相同的样本对,comb3={(vi,ri),(vj,rj)|vi≠vj,ri=rj};
动词和关系词都不相同的样本对,comb4={(vi,ri),(vj,rj)|vi≠vj,ri≠rj};
式中,comb表示两个样本的联合,vi表示样品对中一个样本的动词,vj表示样本对中另一个样本的动词,ri表示样品对中一个样本的关系词,rj表示样品对中另一个样本的关系词。
3.根据权利要求1所述的一种基于文本语义监督的视觉行为识别方法,其特征在于,所述基于文本语义提取模型对构建的大规模的样本对数据集进行训练,提取样本对数据集中每个样本全部文本信息的语义特征向量,具体为:文本语义提取模型通过句子相似度计算模型计算样本对中两个样本的相似度,建立样本对及样本对中两个样本之间相似度的标签,根据建立的样本对及样本对中两个样本之间相似度的标签构建得到文本数据集,将文本数据集输入孪生神经网络模型S-Bert,利用孪生神经网络模型S-Bert中的Bert+pooling联合模型提取出样本对中样本全部文本信息的语义特征向量。
4.根据权利要求3中的一种基于文本语义监督的视觉行为识别方法,其特征在于,所述文本语义提取模型通过句子相似度计算模型计算样本对中两个样本的相似度,建立样本对及样本对中两个样本之间相似度的标签,具体为:
每个样本对的文本语义特征包括动作语义特征和关系语义特征,每个样本对都有两个用于句子相似度计算模型训练的基本标签,作为真实标签,两个基本标签分别表示样本对中两个样本的动词和关系词是否相似,下式为基本标签的公式,具体为:
si=(v1,r1)={v1,sth,r1,sth},si∈S(i=1,2,......,L);
sj=(v2,r2)={v2,sth,r2,sth},sj∈S(j=1,2,......,L);
Figure FDA0002845510610000021
Figure FDA0002845510610000022
式中,si表示样本对中一个样本,sj表示样本对中另一个样本;L表示样本对数据集中所有样本的个数;si,sj∈S,i≠j表示样本对内两个样本,S表示样本对集合;lab_v(si,sj)表示动词基本标签集合,lab_v(si,sj)中标签“1”表示样本对之间动词相似,记为动词正样本;标签“0”表示样本对之间动词不相似,记为动词负样本;lab_r(si,sj)表示关系词基本标签集合,lab_r(si,sj)中标签“1”表示样本对之间关系词相似,记为关系词正样本;标签“0”表示样本对之间关系词不相似,记为关系词负样本;
通过上述基本标签的训练学习,将大规模的样本对数据集输入到训练后的句子相似度计算模型中,输出样本对数据集中样本对的标签,每个样本对都需要用2个基本标签来表示,分别表示样本对中两个样本的动词和关系词是否相似,基本标签的具体公式为:
Figure FDA0002845510610000031
Figure FDA0002845510610000032
式中,Cq表示某一样本对,
Figure FDA0002845510610000033
表示样本对中的一个样本,
Figure FDA0002845510610000034
表示样本对中的另一个样本,comb表示两个样本的联合,
Figure FDA0002845510610000035
表示样本对中的一个样本的动词,
Figure FDA0002845510610000036
表示样本对中的另一个样本的动词,r1 q表示样本对中的一个样本的关系词,
Figure FDA0002845510610000037
表示样本对中的另一个样本的关系词,Cq∈C表示一个样本对,包括两个不同的样本
Figure FDA0002845510610000038
C表示数据样本对集合,Q表示样本对数据集中样本对的个数,label(Cq)表示样本对的基本标签集合,其中标签“1 1”表示样本对之间动词和关系词均相似;标签“1 0”表示样本对之间动词相似但关系词不相似;标签“0 1”表示样本对之间动词不相似但关系词相似;标签“0 0”表示样本对之间动词和关系词均不相似;
建立样本对及样本对之间相似程度的标签,以此构建文本数据集。
5.根据权利要求4所述的一种基于文本语义监督的视觉行为识别方法,其特征在于,所述将文本数据集输入孪生神经网络模型S-Bert,利用孪生神经网络模型S-Bert中的Bert+pooling联合模型提取出样本对中样本全部文本信息的语义特征向量,具体为:
将文本数据集输入孪生神经网络模型S-Bert,利用孪生神经网络模型S-Bert中的Bert+pooling联合模型提取出样本对中样本全部文本信息的语义特征向量,通过语义分割算法对样本对中样本全部文本信息的语义特征向量进行分割,分离出动作语义特征VSFeat和关系语义特征RSFeat,具体为:
利用孪生神经网络模型S-Bert对文本数据集进行训练,提取出样本对中样本全部文本信息的语义特征向量,用公式表示为:
SFeat=S-Bert(Cq);
VSFeat,RSFeat=split(SFeat);
式中,SFeat表示样本对中样本全部文本信息的语义特征向量,S-Bert表示所使用的孪生神经网络模型,VSFeat表示动作语义特征,RSFeat表示动作语义特征,split表示样本对中样本全部文本信息的语义特征向量按维度分割成动作语义特征、关系语义特征。
6.根据权利要求1所述的一种基于文本语义监督的视觉行为识别方法,其特征在于,所述基于KL散度的损失函数LKL,具体为:
Figure FDA0002845510610000041
以动作语义特征向量VSFeati作为真实的视频行为识别概率分布,动作视觉特征向量VVFeati作为预测出的视频行为识别概率分布,通过VSFeati与VVFeati之间的概率分布差异来监督Netfast网络学习动作视觉特征向量;对应地,以关系语义特征向量RSFeati作为真实的视频行为识别概率分布,关系视觉特征向量RVFeati作为预测出的视频行为识别概率分布,通过RSFeati与RVFeati之间的概率分布差异来监督Netslow网络学习关系视觉特征向量。
其中,KL散度的具体计算公式为:
Figure FDA0002845510610000042
式中,KL(P||Q)表示用近似的视频行为识别概率分布Q来拟合真实视频行为识别分布P所损失的信息量,N表示视频行为识别概率分布中样本的个数,P(xi)表示真实视频行为识别分布P中第i个样本分布,Q(xi)表示用于拟合的视频行为识别概率分布Q中第i个样本分布。
7.根据权利要求1所述的一种基于文本语义监督的视觉行为识别方法,其特征在于,所述拼接后的视觉特征向量VFeat的计算公式为:
VFeat=[VVFeat,RVFeat];
式中,VFeat表示拼接后的视觉特征向量,VVFeat表示动作视觉特征向量,RVFeat表示关系视觉特征向量。
8.根据权利要求1所述的一种基于文本语义监督的视觉行为识别方法,其特征在于,所述分类预测概率ok的计算公式为:
ok=Softmax(Netrecog(VFeat));
式中,ok表示视觉行为识别输出的分类预测概率,Netrecog表示识别行为网络模型,Softmax表示激活函数。
9.一种基于文本语义监督的视觉行为识别系统,其特征在于,包括:
存储器,用于存储可由处理器执行的指令;
处理器,用于执行所述指令以实现如权利要求1~8任一项所述的方法。
10.一种计算机可读介质,其特征在于,存储有计算机程序代码,所述计算机程序代码在由处理器执行时实现如权利要求1~8任一项所述的方法。
CN202011508103.0A 2020-12-18 2020-12-18 一种基于文本语义监督的视觉行为识别方法、系统及计算机可读介质 Active CN112580362B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011508103.0A CN112580362B (zh) 2020-12-18 2020-12-18 一种基于文本语义监督的视觉行为识别方法、系统及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011508103.0A CN112580362B (zh) 2020-12-18 2020-12-18 一种基于文本语义监督的视觉行为识别方法、系统及计算机可读介质

Publications (2)

Publication Number Publication Date
CN112580362A true CN112580362A (zh) 2021-03-30
CN112580362B CN112580362B (zh) 2024-02-20

Family

ID=75136163

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011508103.0A Active CN112580362B (zh) 2020-12-18 2020-12-18 一种基于文本语义监督的视觉行为识别方法、系统及计算机可读介质

Country Status (1)

Country Link
CN (1) CN112580362B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113192626A (zh) * 2021-04-13 2021-07-30 山东大学 基于孪生神经网络的用药方案推荐系统及方法
CN113626603A (zh) * 2021-08-19 2021-11-09 支付宝(杭州)信息技术有限公司 文本分类的方法和装置
CN113894779A (zh) * 2021-09-10 2022-01-07 人工智能与数字经济广东省实验室(广州) 一种应用于机器人交互的多模态数据处理方法
CN114495285A (zh) * 2022-04-18 2022-05-13 江西科技学院 复杂行为识别方法、系统、计算机设备及可读存储介质
CN114817637A (zh) * 2022-05-06 2022-07-29 桂林电子科技大学 一种基于句子语义的视频描述方法、装置及存储介质
CN117708706A (zh) * 2024-02-06 2024-03-15 山东未来网络研究院(紫金山实验室工业互联网创新应用基地) 一种端到端特征增强与选择的乳腺肿瘤分类方法及系统
CN117708706B (zh) * 2024-02-06 2024-05-28 山东未来网络研究院(紫金山实验室工业互联网创新应用基地) 一种端到端特征增强与选择的乳腺肿瘤分类方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2546360A (en) * 2016-01-13 2017-07-19 Adobe Systems Inc Image captioning with weak supervision
CN109447115A (zh) * 2018-09-25 2019-03-08 天津大学 基于多层语义监督式注意力模型的细粒度零样本分类方法
CN110097094A (zh) * 2019-04-15 2019-08-06 天津大学 一种面向人物交互的多重语义融合少样本分类方法
CN111985612A (zh) * 2020-07-21 2020-11-24 西安理工大学 一种提高视频文本描述准确性的编码器网络模型设计方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2546360A (en) * 2016-01-13 2017-07-19 Adobe Systems Inc Image captioning with weak supervision
CN109447115A (zh) * 2018-09-25 2019-03-08 天津大学 基于多层语义监督式注意力模型的细粒度零样本分类方法
CN110097094A (zh) * 2019-04-15 2019-08-06 天津大学 一种面向人物交互的多重语义融合少样本分类方法
CN111985612A (zh) * 2020-07-21 2020-11-24 西安理工大学 一种提高视频文本描述准确性的编码器网络模型设计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
林克正;李昊天;白婧轩;李骜;: "语义自编码结合关系网络的零样本图像识别算法", 模式识别与人工智能, no. 03, 15 March 2019 (2019-03-15) *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113192626A (zh) * 2021-04-13 2021-07-30 山东大学 基于孪生神经网络的用药方案推荐系统及方法
CN113192626B (zh) * 2021-04-13 2022-09-13 山东大学 基于孪生神经网络的用药方案推荐系统及方法
CN113626603A (zh) * 2021-08-19 2021-11-09 支付宝(杭州)信息技术有限公司 文本分类的方法和装置
CN113626603B (zh) * 2021-08-19 2024-03-29 支付宝(杭州)信息技术有限公司 文本分类的方法和装置
CN113894779A (zh) * 2021-09-10 2022-01-07 人工智能与数字经济广东省实验室(广州) 一种应用于机器人交互的多模态数据处理方法
CN113894779B (zh) * 2021-09-10 2023-10-17 人工智能与数字经济广东省实验室(广州) 一种应用于机器人交互的多模态数据处理方法
CN114495285A (zh) * 2022-04-18 2022-05-13 江西科技学院 复杂行为识别方法、系统、计算机设备及可读存储介质
CN114817637A (zh) * 2022-05-06 2022-07-29 桂林电子科技大学 一种基于句子语义的视频描述方法、装置及存储介质
CN114817637B (zh) * 2022-05-06 2024-03-22 桂林电子科技大学 一种基于句子语义的视频描述方法、装置及存储介质
CN117708706A (zh) * 2024-02-06 2024-03-15 山东未来网络研究院(紫金山实验室工业互联网创新应用基地) 一种端到端特征增强与选择的乳腺肿瘤分类方法及系统
CN117708706B (zh) * 2024-02-06 2024-05-28 山东未来网络研究院(紫金山实验室工业互联网创新应用基地) 一种端到端特征增强与选择的乳腺肿瘤分类方法及系统

Also Published As

Publication number Publication date
CN112580362B (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
Le-Khac et al. Contrastive representation learning: A framework and review
CN111914558B (zh) 基于句袋注意力远程监督的课程知识关系抽取方法及系统
Cao et al. Cross-modal hamming hashing
Hasani et al. Spatio-temporal facial expression recognition using convolutional neural networks and conditional random fields
CN112580362B (zh) 一种基于文本语义监督的视觉行为识别方法、系统及计算机可读介质
CN114064918B (zh) 一种多模态事件知识图谱构建方法
CN112347268A (zh) 一种文本增强的知识图谱联合表示学习方法及装置
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
CN111046179B (zh) 一种面向特定领域开放网络问句的文本分类方法
Shi et al. Deep adaptively-enhanced hashing with discriminative similarity guidance for unsupervised cross-modal retrieval
CN110598005A (zh) 一种面向公共安全事件的多源异构数据知识图谱构建方法
CN111930942A (zh) 文本分类方法、语言模型训练方法、装置及设备
CN111324765A (zh) 基于深度级联跨模态相关性的细粒度草图图像检索方法
Wang et al. Cross-modal dynamic networks for video moment retrieval with text query
Hong et al. Understanding blooming human groups in social networks
CN112131876A (zh) 一种基于相似度确定标准问题的方法及系统
CN116204706A (zh) 一种文本内容结合图像分析的多模态内容检索方法与系统
CN114936277A (zh) 相似问题匹配方法和户相似问题匹配系统
Sun et al. Multi-channel CNN based inner-attention for compound sentence relation classification
CN112733764A (zh) 一种基于多模态识别视频情感信息的方法
Yang et al. Bidirectional LSTM-CRF for biomedical named entity recognition
CN115659947A (zh) 基于机器阅读理解及文本摘要的多项选择答题方法及系统
Fu et al. RepSum: Unsupervised dialogue summarization based on replacement strategy
CN110765285A (zh) 基于视觉特征的多媒体信息内容管控方法及系统
Kumar et al. Semi-supervised annotation of faces in image collection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant