CN111723649B - 一种基于语义分解的短视频事件检测方法 - Google Patents
一种基于语义分解的短视频事件检测方法 Download PDFInfo
- Publication number
- CN111723649B CN111723649B CN202010383987.5A CN202010383987A CN111723649B CN 111723649 B CN111723649 B CN 111723649B CN 202010383987 A CN202010383987 A CN 202010383987A CN 111723649 B CN111723649 B CN 111723649B
- Authority
- CN
- China
- Prior art keywords
- node
- short video
- jth
- ith
- semantic decomposition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000354 decomposition reaction Methods 0.000 title claims abstract description 39
- 238000001514 detection method Methods 0.000 title claims abstract description 21
- 239000013598 vector Substances 0.000 claims abstract description 77
- 238000013528 artificial neural network Methods 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 11
- 230000004927 fusion Effects 0.000 claims abstract description 9
- 230000005540 biological transmission Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 description 9
- 230000000007 visual effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于语义分解的短视频事件检测方法,其特征在于,所述方法包括:将短视频多模态的原始特征向量与其对应的标签词向量相结合,得到语义分解后的多模态特征向量;将语义分解后的多模态特征向量按模态输入到不同的自动编码器中,并将自动编码器的中间层作为输出,最小化不同自动编码器输出的差距,得到多模态融合后的特征向量;将多模态融合后的特征向量作为节点初值输入到图神经网络中进行迭代更新,得到节点隐藏信息;将图神经网络迭代完成后的节点隐藏信息输出到分类器中,得到最终的事件检测结果。本发明能够找出不同标签之间的相关性,进而提高了短视频事件检测的准确率。
Description
技术领域
本发明涉及短视频事件检测领域,尤其涉及一种基于语义分解的短视频事件检测方法。
背景技术
当前,随着手机网络用户的日益增长,人们越来越多地在网络上发布“自创作”内容,如绘画,唱歌,表演等等。而短视频作为这些“自创作”内容的载体广泛出现在各大网络社交平台,且成为新一代青年人群的社交潮流。
短视频的特点为持续时间短,一般不超过30秒,由此导致其天然具有语义集中的特性,即短视频中出现的相应事件往往更为明确。现如今,在大量数据源的背景下,如果想用传统的人工标注的方法判明短视频的具体事件则显得过于笨拙,使得整个工程更加复杂且成本会极大增加。
因此,提出一种有效的短视频事件检测方法是很有意义的。
发明内容
本发明提供了一种基于语义分解的短视频事件检测方法,本发明能够找出不同标签之间的相关性,进而提高了短视频事件检测的准确率,详见下文描述:
一种基于语义分解的短视频事件检测方法,所述方法包括:
将短视频多模态的原始特征向量与其对应的标签词向量相结合,得到语义分解后的多模态特征向量;
将语义分解后的多模态特征向量按模态输入到不同的自动编码器中,并将自动编码器的中间层作为输出,最小化不同自动编码器输出的差距,得到多模态融合后的特征向量;
将多模态融合后的特征向量作为节点初值输入到图神经网络中进行迭代更新,得到节点隐藏信息;
将图神经网络迭代完成后的节点隐藏信息输出到分类器中,得到最终的事件检测结果。
其中,所述将短视频多模态的原始特征向量与其对应的标签词向量相结合,得到语义分解后的多模态特征向量具体为:
s.t.v=1,2,...,V i=1,2,...,N,j=1,2,...,C
其中,v为模态序号,i为短视频样本序号,j为标签序号,为第i个短视频样本第v模态的原始特征向量,为第j个标签的标签词向量,和为可学习参数,为第i个短视频样本第v模态在与第j个标签语义分解后未归一化的特征向量,R为实数集,Dv为第v模态的原始特征维数,Dw为词向量维数,D为语义分解后特征向量的维数,V为模态总数,N为短视频样本个数,C为标签总数,⊙为向量点积符号;同时需要归一化语义分解后的特征向量:
进一步地,所述将语义分解后的多模态特征向量按模态输入到不同的自动编码器中,并将自动编码器的中间层作为输出,最小化不同自动编码器输出的差距具体为:
s.t.i=1,2,...,N,j=1,2,...,C,v=1,2,...V
其中,
其中,AE(·)为自动编码器,L为自动编码器的总层数,l为自动编码器层数序号,k和q为模态序号,为短视频第i个样本的第v模态在与第j个标签语义分解后输入到自动编码器l层的特征表示,dl,v为第v模态在自动编码器第l层的节点数,
其中,所述将多模态融合后的特征向量作为节点初值输入到图神经网络中进行迭代更新,得到节点隐藏信息具体为:
其中,Ψ={ψ1,ψ2,...,ψC}表示图结构的节点,E={e11,e12,...,e1C,...,eCC}表示图结构的边,ψc为图结构的第c个节点,ecc’为连接图结构第c个节点与第c'个节点的边,代表了第c个标签出现时,第c'个标签同时出现的概率,利用标签相关性信息更新迭代图结构中每个节点的隐藏状态,图结构的初始化与消息传递公式为:
其中,t为图神经网络更新次数,为第i个短视频样本第j个节点的初始隐藏状态,为第t次更新时第i个短视频样本第j个节点的消息传递,为第i个短视频第j个节点t-1次更新的隐藏状态,为第j个节点的所有邻接节点,为连接图结构第j个节点与第个节点的边,代表了第j个标签出现时,第个标签同时出现的概率,为连接图结构第个节点与第j个节点的边,代表了第个标签出现时,第j个标签同时出现的概率。
由此得到第t次更新节点隐藏状态的表达式:
本发明提供的技术方案的有益效果是:
1、本发明利用特征与其标签语义的相关性,构建了特征向量与标签之间的联系,从而使最终结果更能贴合真实事件标签;
2、本发明将短视频的多模态特征数据利用自动编码器进行融合,使得框架能够根据多方面的信息运算,从而得到更为理想的结果;
3、本发明利用图神经网络获取了标签分布中的图结构信息,从而得到了标签之间的相关性,尤其适合短视频的事件检测。
附图说明
图1为一种基于语义分解的短视频事件检测方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
本发明实施例提供了一种基于语义分解的短视频事件检测方法,参见图1,该方法包括以下步骤:
101:将短视频多模态的原始特征向量与其对应的标签词向量相结合,得到语义分解后的多模态特征向量;
102:将语义分解后的多模态特征向量按模态输入到不同的自动编码器中,并将自动编码器的中间层作为输出,通过最小化不同自动编码器输出的差距,得到多模态融合后的特征向量;
103:将多模态融合后的特征向量作为节点初值输入到图神经网络中进行迭代更新,得到节点隐藏信息;
104:将图神经网络迭代完成后的节点隐藏信息输出到分类器中,即可得到最终的事件检测结果。
具体实现时,在步骤101之前,该方法还包括:
利用VGG-m-2048(视觉几何组网络)的倒数第一个全连接层从短视频数据集中提取2048维视觉(visual)语义特征;
利用TDD(轨迹合并的深度卷积描述符)模型和Fisher Vector(费舍尔矢量)从短视频数据集中提取2048维轨迹(trajectory)语义特征;
利用GloVe(单词表示的全局向量)模型从短视频标签词中提取512维标签词向量,其与上文两种原始特征向量共同输入到整体模型中。
实施例2
下面结合计算公式、实例对实施例1中的方案进行进一步地介绍,详见下文描述:
201:利用VGG-m-2048网络的倒数第一个全连接层提取2048维度的高级视觉语义特征,利用TDD模型和Fisher Vector从视频数据集中提取2048维度的轨迹特征,使用l2范数对每个模态的特征进行标准化处理,得到最终的标准化多模态特征矩阵X1和X2,其中其中N为短视频样本总数,为视觉原始特征向量,为轨迹原始特征向量。
202:为了将原始特征向量与标签词向量整合到同一维度从而形成向量表示,构建语义分解项:
s.t.v=1,2,...,V i=1,2,...,N,j=1,2,...,C
其中,v为模态序号,i为短视频样本序号,j为标签序号,为第i个短视频样本第v模态的原始特征向量,为第j个标签的标签词向量,和为可学习参数,为第i个短视频样本第v模态在与第j个标签语义分解后未归一化的特征向量,R为实数集,Dv为第v模态的原始特征维数,Dw为词向量维数,D为语义分解后特征向量的维数,V为模态总数,N为短视频样本个数,C为标签总数,⊙为向量点积符号;同时需要归一化语义分解后的特征向量:
s.t.v=1,2,...,V,i=1,2,...,N,j=1,2,...,C
203:将语义分解后的多模态特征向量按模态输入到不同的自动编码器中,并将自动编码器中间层作为输出,最小化不同自动编码器的输出差异:
s.t.i=1,2,...,N,j=1,2,...,C,v=1,2,...,V
其中,
其中,AE(·)为自动编码器,L为自动编码器的总层数,l为自动编码器层数序号,k和q为模态序号,为短视频第i个样本的第v模态在与第j个标签语义分解后输入到自动编码器l层的特征表示,dl,v为第v模态在自动编码器第l层的节点数,和分别为自动编码器l层的权重和偏置,∑(·)为求和符号,为F范数,λ为调节参数;由此构成模态融合项。
204:将融合后的特征向量作为节点初始状态,输入到图神经网络中,假设图结构用{Ψ,E}来表示,其中Ψ={ψ1,ψ2,...,ψC}表示图结构的节点,E={e11,e12,...,e1C,...,eCC}表示图结构的边,ψc为图结构的第c个节点,ecc’为连接图结构第c个节点与第c'个节点的边,代表了第c个标签出现时,第c'个标签同时出现的概率,利用标签相关性信息更新迭代图结构中每个节点的隐藏状态,图结构的初始化与消息传递公式为:
其中,t为图神经网络更新次数,为第i个短视频样本第j个节点的初始隐藏状态,为第t次更新时第i个短视频样本第j个节点的消息传递,为第i个短视频第j个节点t-1次更新的隐藏状态,为第j个节点的所有邻接节点,为连接图结构第j个节点与第个节点的边,代表了第j个标签出现时,第个标签同时出现的概率,为连接图结构第个节点与第j个节点的边,代表了第个标签出现时,第j个标签同时出现的概率。
由此可以得到第t次更新节点隐藏状态的表达式:
其中,Ws,Wr,W,Us,Ur,U为门控循环单元(GRU)参数,为中间变量,为第i个短视频第j个节点第t次更新的节点隐藏状态,σ(·)为sigmoid函数,tanh(·)为双曲正切函数,由此构成标签相关性学习项。门控循环单元为本领域技术人员公知,在此不再赘述。
205:将图神经网络学习得到的节点隐藏状态代入分类器中:
206:由此引出网络的目标损失函数:
其中,yij为第i个短视频是否属于第j个标签的真实结果,LF为损失函数,log(·)为对数函数,由最小化损失函数进行训练即可得到最终的网络模型参数。
207:将测试集的原始数据进行提取特征处理后带入训练好的整体网络模型中,依次经历语义分解,自动编码器和图神经网络,最终得到最后的事件检测结果。
综上所述,本发明实施例利用短视频多模态共存的特征,借助标签信息,将多模态的原始特征向量经语义分解后通过自动编码器融合成同一特征向量,使得最终结果的鲁棒性得到提高,结合标签空间的图结构信息,模型整体能够根据图节点之间的消息传递学习到不同标签对应特征向量之间的相关性,从而使最终学习结果更能贴合事件检测的需求;本发明将多种思想结合在一起以实现最优效果,尤其适合短视频的事件检测,最终得到了较好的输出结果。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于语义分解的短视频事件检测方法,其特征在于,所述方法包括:
将短视频多模态的原始特征向量与其对应的标签词向量相结合,得到语义分解后的多模态特征向量;
将语义分解后的多模态特征向量按模态输入到不同的自动编码器中,并将自动编码器的中间层作为输出,最小化不同自动编码器输出的差距,得到多模态融合后的特征向量;
将多模态融合后的特征向量作为节点初值输入到图神经网络中进行迭代更新,得到节点隐藏信息;
将图神经网络迭代完成后的节点隐藏信息输出到分类器中,得到最终的事件检测结果;
其中,所述将短视频多模态的原始特征向量与其对应的标签词向量相结合,得到语义分解后的多模态特征向量具体为:
s.t.v=1,2,...,V i=1,2,...,N,j=1,2,...,C
其中,v为模态序号,i为短视频样本序号,j为标签序号,为第i个短视频样本第v模态的原始特征向量,为第j个标签的标签词向量,和为可学习参数,为第i个短视频样本第v模态在与第j个标签语义分解后未归一化的特征向量,R为实数集,Dv为第v模态的原始特征维数,Dw为词向量维数,D为语义分解后特征向量的维数,V为模态总数,N为短视频样本个数,C为标签总数,⊙为向量点积符号;同时需要归一化语义分解后的特征向量:
2.根据权利要求1所述的一种基于语义分解的短视频事件检测方法,其特征在于,
所述将语义分解后的多模态特征向量按模态输入到不同的自动编码器中,并将自动编码器的中间层作为输出,最小化不同自动编码器输出的差距具体为:
s.t.i=1,2,...,N,j=1,2,...,C,v=1,2,...V
其中,
其中,AE为自动编码器,L为自动编码器的总层数,l为自动编码器层数序号,k和q为模态序号,为短视频第i个样本的第v模态在与第j个标签语义分解后输入到自动编码器l层的特征表示,dl,v为第v模态在自动编码器第l层的节点数,
3.根据权利要求1所述的一种基于语义分解的短视频事件检测方法,其特征在于,所述将多模态融合后的特征向量作为节点初值输入到图神经网络中进行迭代更新,得到节点隐藏信息具体为:
其中,Ψ={ψ1,ψ2,...,ψC}表示图结构的节点,E={e11,e12,...,e1C,...,eCC}表示图结构的边,ψc为图结构的第c个节点,ecc’为连接图结构第c个节点与第c'个节点的边,代表了第c个标签出现时,第c'个标签同时出现的概率,利用标签相关性信息更新迭代图结构中每个节点的隐藏状态,图结构的初始化与消息传递公式为:
其中,t为图神经网络更新次数,为第i个短视频样本第j个节点的初始隐藏状态,为第t次更新时第i个短视频样本第j个节点的消息传递,为第i个短视频第j个节点t-1次更新的隐藏状态,j为第j个节点的所有邻接节点,ejj为连接图结构第j个节点与第j个节点的边,代表了第j个标签出现时,第j个标签同时出现的概率,ejj为连接图结构第j个节点与第j个节点的边,代表了第j个标签出现时,第j个标签同时出现的概率;
由此得到第t次更新节点隐藏状态的表达式:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010383987.5A CN111723649B (zh) | 2020-05-08 | 2020-05-08 | 一种基于语义分解的短视频事件检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010383987.5A CN111723649B (zh) | 2020-05-08 | 2020-05-08 | 一种基于语义分解的短视频事件检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111723649A CN111723649A (zh) | 2020-09-29 |
CN111723649B true CN111723649B (zh) | 2022-08-12 |
Family
ID=72564786
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010383987.5A Active CN111723649B (zh) | 2020-05-08 | 2020-05-08 | 一种基于语义分解的短视频事件检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111723649B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287170B (zh) * | 2020-10-13 | 2022-05-17 | 泉州津大智能研究院有限公司 | 一种基于多模态联合学习的短视频分类方法及装置 |
CN113569717A (zh) * | 2021-07-26 | 2021-10-29 | 上海明略人工智能(集团)有限公司 | 基于标签语义的短视频事件分类方法、系统、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229440A (zh) * | 2018-02-06 | 2018-06-29 | 北京奥开信息科技有限公司 | 一种基于多传感器融合室内人体姿态识别方法 |
CN109829413A (zh) * | 2019-01-25 | 2019-05-31 | 清华大学 | 一种基于快速多图融合学习的立体视觉对象识别系统 |
CN110609891A (zh) * | 2019-09-18 | 2019-12-24 | 合肥工业大学 | 一种基于上下文感知图神经网络的视觉对话生成方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7039200B2 (en) * | 2003-03-31 | 2006-05-02 | Microsoft Corporation | System and process for time delay estimation in the presence of correlated noise and reverberation |
CN102629279B (zh) * | 2012-03-23 | 2014-06-11 | 天津大学 | 一种用于图像或视频搜索重排序的方法 |
US11301774B2 (en) * | 2017-02-28 | 2022-04-12 | Nec Corporation | System and method for multi-modal graph-based personalization |
CN106971154A (zh) * | 2017-03-16 | 2017-07-21 | 天津大学 | 基于长短记忆型递归神经网络的行人属性预测方法 |
CN108304795B (zh) * | 2018-01-29 | 2020-05-12 | 清华大学 | 基于深度强化学习的人体骨架行为识别方法及装置 |
CN108734210B (zh) * | 2018-05-17 | 2021-10-15 | 浙江工业大学 | 一种基于跨模态多尺度特征融合的对象检测方法 |
CN109344887B (zh) * | 2018-09-18 | 2020-07-07 | 山东大学 | 基于多模态字典学习的短视频分类方法、系统及介质 |
CN109858390B (zh) * | 2019-01-10 | 2020-11-24 | 浙江大学 | 基于端到端时空图学习神经网络的人体骨架行为识别方法 |
CN110337016B (zh) * | 2019-06-13 | 2020-08-14 | 山东大学 | 基于多模态图卷积网络的短视频个性化推荐方法、系统、可读存储介质以及计算机设备 |
CN110532861B (zh) * | 2019-07-18 | 2021-03-23 | 西安电子科技大学 | 基于骨架引导多模态融合神经网络的行为识别方法 |
CN110807335B (zh) * | 2019-09-02 | 2023-06-30 | 腾讯科技(深圳)有限公司 | 基于机器学习的翻译方法、装置、设备及存储介质 |
CN111079601A (zh) * | 2019-12-06 | 2020-04-28 | 中国科学院自动化研究所 | 基于多模态注意力机制的视频内容描述方法、系统、装置 |
-
2020
- 2020-05-08 CN CN202010383987.5A patent/CN111723649B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229440A (zh) * | 2018-02-06 | 2018-06-29 | 北京奥开信息科技有限公司 | 一种基于多传感器融合室内人体姿态识别方法 |
CN109829413A (zh) * | 2019-01-25 | 2019-05-31 | 清华大学 | 一种基于快速多图融合学习的立体视觉对象识别系统 |
CN110609891A (zh) * | 2019-09-18 | 2019-12-24 | 合肥工业大学 | 一种基于上下文感知图神经网络的视觉对话生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111723649A (zh) | 2020-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112164391B (zh) | 语句处理方法、装置、电子设备及存储介质 | |
CN110609891B (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
CN109299342B (zh) | 一种基于循环生成式对抗网络的跨模态检索方法 | |
CN108733792B (zh) | 一种实体关系抽取方法 | |
CN106845411B (zh) | 一种基于深度学习和概率图模型的视频描述生成方法 | |
CN109783666B (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
CN108829757A (zh) | 一种聊天机器人的智能服务方法、服务器及存储介质 | |
WO2022001333A1 (zh) | 基于双曲空间表示和标签文本互动的细粒度实体识别方法 | |
CN108830287A (zh) | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 | |
CN112287170B (zh) | 一种基于多模态联合学习的短视频分类方法及装置 | |
CN109919175B (zh) | 一种结合属性信息的实体多分类方法 | |
CN112131883B (zh) | 语言模型训练方法、装置、计算机设备和存储介质 | |
CN110263174B (zh) | —基于焦点关注的主题类别分析方法 | |
Islam et al. | A review on video classification with methods, findings, performance, challenges, limitations and future work | |
CN111460132A (zh) | 一种基于图卷积神经网络的生成式会议摘要方法 | |
CN114090780A (zh) | 一种基于提示学习的快速图片分类方法 | |
Zhang et al. | Sentiment classification for Chinese text based on interactive multitask learning | |
CN111723649B (zh) | 一种基于语义分解的短视频事件检测方法 | |
Wang et al. | One-shot learning for long-tail visual relation detection | |
CN111460157A (zh) | 用于多领域文本分类的循环卷积多任务学习方法 | |
Gupta et al. | Deep transfer learning with ontology for image classification | |
CN112131345B (zh) | 文本质量的识别方法、装置、设备及存储介质 | |
CN115796182A (zh) | 一种基于实体级跨模态交互的多模态命名实体识别方法 | |
CN113254675A (zh) | 基于自适应少样本关系抽取的知识图谱构建方法 | |
CN113627550A (zh) | 一种基于多模态融合的图文情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |