CN111368140B - 一种视频标签生成方法及系统 - Google Patents

一种视频标签生成方法及系统 Download PDF

Info

Publication number
CN111368140B
CN111368140B CN202010102731.2A CN202010102731A CN111368140B CN 111368140 B CN111368140 B CN 111368140B CN 202010102731 A CN202010102731 A CN 202010102731A CN 111368140 B CN111368140 B CN 111368140B
Authority
CN
China
Prior art keywords
video
label
tag
output
classification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010102731.2A
Other languages
English (en)
Other versions
CN111368140A (zh
Inventor
孔杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinhua Zhiyun Technology Co ltd
Original Assignee
Xinhua Zhiyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinhua Zhiyun Technology Co ltd filed Critical Xinhua Zhiyun Technology Co ltd
Priority to CN202010102731.2A priority Critical patent/CN111368140B/zh
Publication of CN111368140A publication Critical patent/CN111368140A/zh
Application granted granted Critical
Publication of CN111368140B publication Critical patent/CN111368140B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明披露一种视频标签生成方法及系统,包括构建视频标签库;根据视频标签库内标签训练多标签的图像分类模型;对待标注的视频抽取关键帧,获取每一关键帧对应时间戳,将关键帧送入训练好的图像分类模型,得到关键帧的标签向量;对得到的关键帧的标签向量进行整合,输出视频标签和标签对应的时间戳。本发明是一种带时间戳的多标签的视频标签生成方法和系统,能够对一段输入视频自动打上视频标签,并输出每个视频标签对应的在视频中的时间戳,从而得到完整精细的视频标签。

Description

一种视频标签生成方法及系统
技术领域
本发明涉及人工智能技术领域,尤其涉及一种自动视频标签生产方法及系统。
背景技术
视频标签是指用于描述视频特征的特定短语,给视频打上标签可以帮助用户对视频内容进行快速而高效的检索。目前视频标签的生成方法主要是靠人工打标,对于在线的视频标签生成方法,主要基于对图像、视频或语音文本理解等方面入手。从图像角度出发,主要是从视频中提取帧,得到图片,然后对图片进行打标,最后将视频的图像标签进行整合,得到视频标签。从视频角度出发,主要是运用视频理解的方法得到视频标签。从语音文本角度出发,主要是先提取视频的语音或字幕等信息,运用对语音文本的分析方法得到视频标签。
现有技术的主要缺陷有:(1)人工视频标签标注耗费大量的人力,效率极低;(2)现有的在线视频标签生成方法通常是对整段视频的描述,不能精确到视频的具体时间点,不包含时间信息,不够精细;(3)基于图像的视频标签生成方法,通常训练的是单标签的分类模型,对抽取的视频帧图像进行分类得到单标签的分类结果,但实际上视频帧图像可能对应多个标签,这样生成的视频标签不完整,不能充分描述视频特征。
发明内容
本发明针对现有技术中的缺点,提供了一种带时间戳的多标签的视频标签生成方法和系统。
为了解决上述技术问题,本发明通过下述技术方案得以解决:
一种视频标签生成方法,包括
构建视频标签库;
根据视频标签库内标签训练多标签的图像分类模型;
对待标注的视频抽取关键帧,获取每一关键帧对应时间戳,将关键帧送入训练好的图像分类模型,得到关键帧的标签向量;
对得到的关键帧的标签向量进行整合,输出视频标签和标签对应的时间戳。
其中,每一关键帧对应所述标签向量维度为1*N,抽取M组关键帧,将所有关键帧标签向量按行拼接,得到标签矩阵
Figure BDA0002387409880000011
i为关键帧编号,j为标签编号,*表示乘号;
对于标签Tj(j=0,1,…,N-1),若存在关键帧Fi(i=0,1,…,M-1),使得Gij=1,则输出视频标签Tj,此时,对所有关键帧Fi(i=0,1,…,M-1),若Gij=1,则输出视频标签Tj对应的时间戳为ti
可选的,训练多标签的图像分类模型步骤包括:
收集和整理与标签库内标签类别对应的图像,打上相应的类别标签;
将卷积神经网络最后一层设置为N个全连接层,每个全连接层的输出通道为2,共2N个输出通道;
训练时对每一张输入图像的真值表示为长度为2N的向量;
计算每个batch的损失函数;
训练模型迭代至指定迭代次数或损失函数收敛至指定值;
使用训练好的图像分类模型进行预测,得到标签向量。
可选的,所述真值采用独热编码,标签为Tk的图片的真值表示为(a0,a1,…,a2N-1),其中
Figure BDA0002387409880000021
k为标签编号。
其中,计算第j个样本对应于标签Ti(i=0,1,…,N-1)的损失函数:
Figure BDA0002387409880000022
式中,/>
Figure BDA0002387409880000023
分别表示第j个样本第2i个通道的真值和输出值,/>
Figure BDA0002387409880000024
分别表示第j个样本第2i+1个通道的真值和输出值(i=0,1,…,N-1);
计算每个batch的损失函数为:
Figure BDA0002387409880000025
式中,BS表示batchsize。
其中,使用训练好的图像分类模型进行预测,具体步骤如下:
输入待预测的关键帧至训练好的分类模型,模型输出2N个输出值分别为y0,y1,…,y2N-1
对输出值做sigmoid运算得到待预测的图像属于每一个类别标签的概率分别为p0,p1,…,pN-1,其中
Figure BDA0002387409880000026
对p0,p1,…,pN-1进行阈值判断,得到标签向量为G=(b0,b1,…,bN-1),其中
Figure BDA0002387409880000027
其中ths为标签阈值。
本发明还披露一种视频标签生成系统,包括:
输入端,输入待打标视频;
输出端,输出视频标签和每个视频标签对应在视频中的时间戳;
处理模块,连接输入端和输出端,包括图像分类模型和时间获取模块,图像分类模型用于对视频打标,时间获取模块用于获取每个标签对应时间。
本发明还披露一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述视频标签生成方法。
本发明还披露一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述视频标签生成方法。
本发明的有益效果:
1、本发明能够对一段输入视频自动打上视频标签;
2、输出的视频标签带有对应的在视频中的时间戳,从而得到完整精细的视频标签,更利于视频内容检索;
3、本发明方法输出的视频标签为多标签,对视频特征描述更充分、具体。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明视频标签生成方法流程图;
图2是实施例中待标注视频关键帧时间关系示意图。
具体实施方式
下面结合实施例对本发明做进一步的详细说明,以下实施例是对本发明的解释而本发明并不局限于以下实施例。
如图1是视频标签生成方法流程图,步骤如下:
步骤1:构建视频标签库;
步骤2:根据视频标签库内标签训练多标签的图像分类模型;
步骤3:对待标注的视频抽取关键帧,获取每一关键帧对应时间戳,将关键帧送入训练好的图像分类模型,得到关键帧的标签向量;
步骤4:对得到的关键帧的标签向量进行整合,输出视频标签和标签对应的时间戳。
具体的:
步骤1:构建视频标签库,规定视频标签的标签类别,分别计为Ti(i=0,1,…,N-1),其中N为标签库内标签的数量。
本实施例中,构建的视频标签库为:“云海”,“山”,“日出日落”,“星空”,“梯田”,“沙漠”,“水域”,“瀑布”,“竹林”,“雪景”,“兰花”,“塔”,“桥梁”,“樱花”,“熊猫”,“菊花”,“银杏”,“向日葵”,“枫树”,“梅花”,“油菜花”,“荷花”,“郁金香”等。其中构建的标签库类型越多,打标越精准,本实施例以景观作为标签库,可选的在其他实施例中可以有其他各类标签。
步骤2:训练多标签的图像分类模型,具体步骤如下:
(1)收集和整理与标签库内标签类别对应的图片,打上相应的类别标签,每类图片不宜少于5000张;
(2)图像分类模型采用基础的Resnet18网络,将网络最后一层的单个全连接层改为N个全连接层,每个全连接层的输出通道为2,共2N个输出通道;
(3)训练时对每一张输入图片的真值表示为长度为2N的向量,并采用独热编码,标签为Tk的图片的真值表示为(a0,a1,…,a2N-1),其中
Figure BDA0002387409880000041
(4)计算每个batch的损失函数,具体步骤为:
I.计算第j个训练样本对应于标签Ti(i=0,1,…,N-1)的损失函数:
Figure BDA0002387409880000042
式中,/>
Figure BDA0002387409880000043
分别表示第j个样本第2i个通道的真值和输出值,/>
Figure BDA0002387409880000044
分别表示第j个样本第2i+1个通道的真值和输出值(i=0,1,…,N-1)。
II.计算每个batch的损失函数为:
Figure BDA0002387409880000045
式中,BS表示batchsize。
(5)训练模型迭代至指定迭代次数或损失函数收敛至指定值。
(6)利用训练好的分类模型进行预测,具体步骤如下:
I.输入待预测的图像至训练好的分类模型,模型输出2N个输出值分别为y0,y1,…,y2N-1
II.对输出值做sigmoid运算得到待预测的图像属于每一个类别标签的概率分别为p0,p1,…,pN-1,其中
Figure BDA0002387409880000046
III.对p0,p1,…,pN-1进行阈值判断,得到标签向量为G=(b0,b1,…,bN-1),其中
Figure BDA0002387409880000047
其中ths为标签阈值,本实施例中ths=0.6。
步骤3:对待标注的视频抽取关键帧,得到关键帧图像Fi(i=0,1,…,M-1),关键帧对应的时间戳分别为ti(i=0,1,…,M-1),其中,M为抽取的关键帧总帧数。将每一帧的图像送入步骤2中训练好的多标签图像分类模型,得到关键帧Fi的标签向量为
Figure BDA0002387409880000048
步骤4:对关键帧标签向量进行处理,得到待标注视频的视频标签和对应的时间戳,具体步骤为:
(1)将步骤3中得到的M帧标签向量按行拼接,得到视频标签矩阵
Figure BDA0002387409880000049
i为关键帧编号,j为标签编号;
(2)对于标签Tj(j=0,1,…,N-1),若存在关键帧Fi(i=0,1,…,M-1),使得Gij=1,则输出视频标签Tj,此时,对所有关键帧Fi(i=0,1,…,M-1),若Gij=1,则输出视频标签Tj对应的时间戳为ti
实施例2:
一种视频标签生成系统,包括:
输入端,输入待打标视频;
输出端,输出视频标签和每个视频标签对应在视频中的时间戳;
处理模块,连接输入端和输出端,包括图像分类模型和时间获取模块,图像分类模型用于对视频打标,时间获取模块用于获取每个标签对应时间。
有待标注视频输入视频标签生成系统,输出结果为:
视频标签 时间戳
00:00:07
水域 00:00:05、00:00:12、00:00:41、00:00:45
00:00:34
如图2,实施例中待标注视频关键帧时间关系为:视频关键帧1(时间戳00:00:05),视频关键帧2(时间戳00:00:07),视频关键帧3(时间戳00:00:12),视频关键帧4(时间戳00:00:34),视频关键帧5(时间戳00:00:41),视频关键帧6(时间戳00:00:45)。对比上表输出结果可知,本系统生成的视频标签带有时间戳信息,更加精细,更利于视频内容检索;输出的视频标签为多标签,对视频特征描述更充分、具体。
本发明实施例还提供一种计算机存储介质,包括指令,执行上述方法步骤。具体的各个步骤之间的执行顺序详见上述实施例,本申请在此不再赘述。
本发明实施例还提供一种计算机程序产品,该计算机程序产品包括计算机执行指令,该计算机执行指令存储在计算机可读存储介质中;至少一个处理器执行该计算机执行指令使得上述实施例的方法步骤执行。需要说明的是,上述步骤的具体执行顺序可以参见上述实施例中的描述,本申请在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。
所述单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何在本发明揭露的技术范围内的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (8)

1.一种视频标签生成方法,其特征在于,包括:
构建视频标签库;
根据视频标签库内标签训练多标签的图像分类模型;
对待标注的视频抽取关键帧,获取每一关键帧对应时间戳,将关键帧送入训练好的图像分类模型,得到关键帧的标签向量;
对得到的关键帧的标签向量进行整合,输出视频标签和标签对应的时间戳每一关键帧对应所述标签向量维度为1*N,抽取M组关键帧,将所有关键帧标签向量按行拼接,得到标签矩阵
Figure QLYQS_1
,i为标签编号,j为关键帧编号,*表示乘号;
对于标签
Figure QLYQS_3
,若存在关键帧/>
Figure QLYQS_5
,使得/>
Figure QLYQS_8
,则输出视频标签/>
Figure QLYQS_4
,此时,对所有关键帧/>
Figure QLYQS_6
,若/>
Figure QLYQS_7
,则输出视频标签/>
Figure QLYQS_9
对应的时间戳为/>
Figure QLYQS_2
2.根据权利要求1所述的视频标签生成方法,其特征在于,训练多标签的图像分类模型步骤包括:
收集和整理与标签库内标签类别对应的图像,打上相应的类别标签;
将卷积神经网络最后一层设置为N个全连接层,每个全连接层的输出通道为2,共2N个输出通道;
训练时对每一张输入图像的真值表示为长度为2N的向量;
计算每个batch的损失函数;
训练模型迭代至指定迭代次数或损失函数收敛至指定值;
使用训练好的图像分类模型进行预测,得到标签向量。
3.根据权利要求2所述的视频标签生成方法,其特征在于,所述真值采用独热编码,标签为
Figure QLYQS_10
的图片的真值表示为/>
Figure QLYQS_11
,其中/>
Figure QLYQS_12
,k为标签编号。
4.根据权利要求3所述的视频标签生成方法,其特征在于,
计算第
Figure QLYQS_15
个关键帧样本对应于标签/>
Figure QLYQS_18
的损失函数:
Figure QLYQS_21
,式中,/>
Figure QLYQS_16
、/>
Figure QLYQS_19
分别表示第/>
Figure QLYQS_22
个样本第/>
Figure QLYQS_24
个通道的真值和输出值,/>
Figure QLYQS_13
、/>
Figure QLYQS_17
分别表示第/>
Figure QLYQS_20
个样本第/>
Figure QLYQS_23
个通道的真值和输出值/>
Figure QLYQS_14
计算每个batch的损失函数为:
Figure QLYQS_25
,式中,/>
Figure QLYQS_26
表示batch size。
5.根据权利要求2或3或4所述的视频标签生成方法,其特征在于,使用训练好的图像分类模型进行预测,具体步骤如下:
输入待预测的关键帧至训练好的分类模型,模型输出2N个输出值分别为
Figure QLYQS_27
对输出值做sigmoid运算得到待预测的图像属于每一个类别标签的概率分别为
Figure QLYQS_28
,其中/>
Figure QLYQS_29
Figure QLYQS_30
进行阈值判断,得到标签向量为/>
Figure QLYQS_31
,其中/>
Figure QLYQS_32
,其中/>
Figure QLYQS_33
为标签阈值。
6.一种视频标签生成系统,其特征在于,包括:
输入端,输入待打标视频;
输出端,输出视频标签和每个视频标签对应在视频中的时间戳;
处理模块,连接输入端和输出端,包括图像分类模型和时间获取模块,图像分类模型用于对视频打标,时间获取模块用于获取每个标签对应时间,
其中,每一关键帧对应所述标签向量维度为1*N,抽取M组关键帧,将所有关键帧标签向量按行拼接,得到标签矩阵
Figure QLYQS_34
,i为标签编号,j为关键帧编号,*表示乘号;
对于标签
Figure QLYQS_37
,若存在关键帧/>
Figure QLYQS_39
,使得/>
Figure QLYQS_40
,则输出视频标签/>
Figure QLYQS_36
,此时,对所有关键帧/>
Figure QLYQS_38
,若/>
Figure QLYQS_41
,则输出视频标签/>
Figure QLYQS_42
对应的时间戳为/>
Figure QLYQS_35
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5任意一项所述的方法。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-5任意一项所述的方法。
CN202010102731.2A 2020-02-19 2020-02-19 一种视频标签生成方法及系统 Active CN111368140B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010102731.2A CN111368140B (zh) 2020-02-19 2020-02-19 一种视频标签生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010102731.2A CN111368140B (zh) 2020-02-19 2020-02-19 一种视频标签生成方法及系统

Publications (2)

Publication Number Publication Date
CN111368140A CN111368140A (zh) 2020-07-03
CN111368140B true CN111368140B (zh) 2023-07-04

Family

ID=71208155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010102731.2A Active CN111368140B (zh) 2020-02-19 2020-02-19 一种视频标签生成方法及系统

Country Status (1)

Country Link
CN (1) CN111368140B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657230B (zh) * 2021-08-06 2024-04-23 北京百度网讯科技有限公司 训练新闻视频识别模型的方法、检测视频的方法及其装置
CN114697761B (zh) * 2022-04-07 2024-02-13 脸萌有限公司 一种处理方法、装置、终端设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108897899A (zh) * 2018-08-23 2018-11-27 深圳码隆科技有限公司 一种对视频流的目标区域的定位方法及其装置
CN109710800A (zh) * 2018-11-08 2019-05-03 北京奇艺世纪科技有限公司 模型生成方法、视频分类方法、装置、终端及存储介质
CN110413840A (zh) * 2019-07-10 2019-11-05 网易(杭州)网络有限公司 一种对视频确定标签的神经网络、方法、介质和计算设备
CN110490221A (zh) * 2019-07-05 2019-11-22 平安科技(深圳)有限公司 多标签分类方法、电子装置及计算机可读存储介质
CN110503081A (zh) * 2019-08-30 2019-11-26 山东师范大学 基于帧间差分的暴力行为检测方法、系统、设备及介质
CN110781347A (zh) * 2019-10-23 2020-02-11 腾讯科技(深圳)有限公司 一种视频处理方法、装置、设备以及可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108897899A (zh) * 2018-08-23 2018-11-27 深圳码隆科技有限公司 一种对视频流的目标区域的定位方法及其装置
CN109710800A (zh) * 2018-11-08 2019-05-03 北京奇艺世纪科技有限公司 模型生成方法、视频分类方法、装置、终端及存储介质
CN110490221A (zh) * 2019-07-05 2019-11-22 平安科技(深圳)有限公司 多标签分类方法、电子装置及计算机可读存储介质
CN110413840A (zh) * 2019-07-10 2019-11-05 网易(杭州)网络有限公司 一种对视频确定标签的神经网络、方法、介质和计算设备
CN110503081A (zh) * 2019-08-30 2019-11-26 山东师范大学 基于帧间差分的暴力行为检测方法、系统、设备及介质
CN110781347A (zh) * 2019-10-23 2020-02-11 腾讯科技(深圳)有限公司 一种视频处理方法、装置、设备以及可读存储介质

Also Published As

Publication number Publication date
CN111368140A (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
CN108416384B (zh) 一种图像标签标注方法、系统、设备及可读存储介质
CN110442707B (zh) 一种基于seq2seq的多标签文本分类方法
CN112241481B (zh) 基于图神经网络的跨模态新闻事件分类方法及系统
CN108537119B (zh) 一种小样本视频识别方法
CN102663015A (zh) 基于特征袋模型和监督学习的视频语义标注方法
CN109886294A (zh) 知识融合方法、装置、计算机设备和存储介质
CN111368140B (zh) 一种视频标签生成方法及系统
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN110334724B (zh) 基于lstm的遥感对象自然语言描述及多尺度矫正方法
CN109871454B (zh) 一种鲁棒离散监督跨媒体哈希检索方法
CN111242033A (zh) 一种基于视频和文字对判别分析的视频特征学习方法
CN107679501B (zh) 一种基于标签自提纯的深度学习方法
Xu et al. Image captioning with deep LSTM based on sequential residual
CN110196918B (zh) 一种基于目标检测的无监督深度哈希方法
Hua et al. Online multi-label active annotation: towards large-scale content-based video search
CN113111716A (zh) 一种基于深度学习的遥感影像半自动标注方法和装置
CN104794223A (zh) 一种基于图像检索的字幕匹配方法和系统
CN101213539B (zh) 使用无标签样本的交叉描述符学习系统及方法
CN113255394A (zh) 基于无监督学习的行人再识别方法及系统
Pei et al. Learning a condensed frame for memory-efficient video class-incremental learning
Mithun et al. Generating diverse image datasets with limited labeling
CN104700410A (zh) 基于协同过滤的教学视频标注方法
CN104331717A (zh) 一种整合特征字典结构与视觉特征编码的图像分类方法
Zhang et al. Associating spatially-consistent grouping with text-supervised semantic segmentation
CN111126297A (zh) 一种基于学习者表情的体验分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant