CN110933518B - 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法 - Google Patents
一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法 Download PDFInfo
- Publication number
- CN110933518B CN110933518B CN201911266940.4A CN201911266940A CN110933518B CN 110933518 B CN110933518 B CN 110933518B CN 201911266940 A CN201911266940 A CN 201911266940A CN 110933518 B CN110933518 B CN 110933518B
- Authority
- CN
- China
- Prior art keywords
- video
- query
- attention
- shot
- feature expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法。1)针对一组视频,切割构建视频片段。利用全卷积神经网络,提取视频每个镜头的视觉特征。2)利用局部自注意力机制,学习视频片段中所有镜头之间的语义关系,并生成视频镜头的视觉特征。3)利用查询相关的全局注意力机制,学习视频不同片段之间的语义关系,并生成面向查询的视频镜头的视觉特征。4)计算视频镜头和用户查询之间的相似度得分,用来生成查询相关的视频摘要。相比于一般视频摘要解决方案,本发明利用卷积多层注意力机制,能够更准确地反映查询相关的视频视觉特征,产生更加符合的视频摘要。本发明在视频摘要中所取得的效果相比于传统方法更好。
Description
技术领域
本发明涉及视频摘要生成,尤其涉及一种利用卷积多层注意力网络来生成与查询相关的视频摘要的方法。
背景技术
自动化的视频摘要技术广泛应用于诸多领域,例如运动识别,监视视频分析,基于个人生活日志视频的可视日记创建,以及视频站点的视频预览。
现有的视频摘要方法侧重于寻找最多样化和最具代表性的视觉内容,缺少对用户偏好的考虑。它可以分为两个领域:(1)通用视频摘要(2)面向查询的视频摘要。通用视频摘要通过选择长视频的亮点,并删除视频冗余内容来生成原始视频的紧凑版本;面向查询的视频摘要不仅删除视频的多余部分,找到视频中的关键帧或镜头,而且挑选出与用户查询相关的视频片段。面向查询的视频摘要相较于通用视频摘要的优越性主要体现在以下三点:首先,视频摘要需要考虑用户的主观性,因为不同的用户查询可能会收到不同的视频摘要;其次,通用视频摘要方法的性能评估通常是为了测量时间重叠,从而难以捕获摘要和原始视频之间的语义相似性;第三,文本查询可以为任务带来更多的语义信息。
近期面向查询的视频摘要的相关研究主要采取序列标记的思路,采用基于顺序结构的模型,例如长短期记忆网络(LSTM,Long Short-Term Memory)(Hochreiter andSchmidhuber,1997)。对于视频的每个时间步长,模型都会输出一个二进制分数,以判定此框架是否重要以及是否与给定查询相关。但是,顺序模型通常会逐步执行计算,当视频长度增加时,模型的计算时间也会变长。而且,由于梯度消失的问题,当视频太长时,顺序模型不能轻易处理视频之间的长距离关系。在(Rochan,Ye,and Wang 2018)中,使用完全卷积网络进行编码与解码,以解决视频摘要任务,这表明卷积网络可以生成高质量的视频摘要。
发明内容
为了克服现有技术中缺少对于用户主观性的考虑,针对于目前较少评估摘要与原始视频之间的语义相似性,并且文本查询会带来额外的语义信息的情况,本发明采用一种利用卷积多层注意力网络(CHAN)来生成面向查询的视频摘要,该方法由两部分组成:特征编码网络和查询相关性计算模块。在特征编码网络中,本发明结合局部自注意力机制和查询相关的全局注意力机制的卷积网络来学习每个镜头的视觉特征,并生成视频的融合特征表达。编码后的视觉特征通过计算视频镜头的查询相关性得分,生成面向查询的视频摘要。
本发明所采用的具体技术方案是:
1.构建卷积多层注意力网络,所述卷积多层注意力网络包括全卷积神经网络、局部自注意力机制和全局注意力机制;对于输入的视频及查询语句,利用卷积多层注意力网络机制生成查询相关的视频的融合特征表达;
1.1对于输入的视频,构建视频片段;
1.2对于步骤1.1形成的视频片段,首先利用残差神经网络提取视频片段的视觉特征,然后通过全卷积神经网络获取每一个视频片段的镜头级别的视觉特征表达;
1.3利用步骤1.2得到的视频片段的镜头级别的视觉特征表达,通过局部自注意力机制,得到每一个视频片段的局部自注意力特征表达;
1.4利用步骤1.2得到的视频片段的镜头级别的视觉特征表达,结合输入的查询语句,通过全局注意力机制,得到每一个视频片段的全局注意力特征表达;
1.5根据步骤1.2得到的视频片段的镜头级别的视觉特征表达、步骤1.3)得到的视频片段的局部自注意力特征表达和步骤1.4)得到的视频片段的全局注意力特征表达,得到查询相关的视频片段的融合特征表达,进一步生成查询相关的视频的融合特征表达;
2.根据步骤1得到的查询相关的视频的融合特征表达,结合查询语句的嵌入特征,得到视频镜头的查询相关性得分;根据给定的查询相关性的基本事实注释,对步骤1构建的卷积多层注意力网络进行训练,固定训练好的参数,得到卷积多层注意力网络模型;
3.将一段待处理的视频构建成视频片段,与查询语句一起输入到卷积多层注意力网络模型中,得到视频镜头的查询相关性得分,将得分最高的视频镜头作为查询相关的视频摘要。
本发明具备的有益效果:
(1)本发明率先提出利用自注意机制,解决面向查询的视频摘要任务。该方法可以从时序的角度以及视频特征的每个维度,学习视频相同片段内不同帧的相对语义关系,生成具有代表性的视频特征表达。
(2)本发明在特征编码时,利用全卷积网络以减少时间序列的维数和视频视觉特征的维数,从而减少模型中的参数数量。
(3)本发明通过计算视频镜头与查询语句之间的查询相关性得分,处理视频和文本查询之间的语义关系,以保证所生成的视频摘要与查询语句之间的语义相关性。
(4)本发明的模型在包含视频描述信息的数据集上训练,以对视觉内容和文本信息之间的语义关系进行建模,然后解决视频摘要的生成问题。这使模型可以获取足够的语义信息,从而生成高质量的视频摘要。
附图说明
图1是本发明所使用的对于生成面向查询的视频摘要的卷积多层注意力网络的整体示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明利用卷积多层注意力网络机制来生成面向查询的视频摘要的方法包括如下步骤:
步骤一、对于输入的视频,构建视频片段。
对于所给视频,使用名为“核时间分割”(Kemel Temporal Segmentation,Potapovetal.2014)的算法,构建视频片段,得到视频镜头序列(s1,s2,...,sn),其中n为视频的镜头数。
步骤二、利用残差神经网络提取视频片段的视觉特征,然后通过全卷积神经网络获取每一个视频片段的镜头级别的视觉特征表达。
其中,2k+1为过滤器的尺寸,f为过滤器,d为空洞因子;
步骤三、采用局部自注意力机制,得到每一个视频片段的局部自注意力特征表达。
其中,为第k个视频片段内第i个元素的特征向量,为第k个视频片段内第j个元素的特征向量,P与W1、W2为可训练的dc阶的实参数矩阵,dc为特征向量的维数,b为dc阶的实偏置向量,tanh(·)为反正切函数;视频片段内第i个元素和第j个元素的对齐分数矩阵规模为t×t×dc,其中t为输出特征序列的长度;
计算视频片段内第i个元素和第j个元素的注意力权重:
其中,⊙表示矩阵按位相乘。
步骤四、通过全局注意力机制,得到每一个视频片段的全局注意力特征表达。
步骤五、获取查询相关的视频的融合特征表达。
步骤六、根据查询相关的视频的融合特征表达,结合查询语句的嵌入特征,得到视频镜头的查询相关性得分;根据给定的查询相关性的基本事实注释,对卷积多层注意力网络进行训练,得到卷积多层注意力网络模型。
其中Wf与Wc是将视频视觉特征与概念的文本特征投射到同一向量空间的参数矩阵;
对于由两个概念(c1,c2)组成的查询q,共得到第k个视频片段每一个镜头与查询q之间基于距离的相似度di1和di2;对于di1和di2,通过多层感知器得到第i个镜头与查询q之间的两个相关性得分,取平均数作为第i个镜头的查询相关性得分si;
由于一段视频包含n个视频片段,根据得到的每一个视频片段中所有镜头的查询相关性得分,构成视频镜头的查询相关性得分s={s1,s2,...,sN},其中N为视频中的镜头总数;
随后将损失最小化,得到与查询相关性最强的视频镜头,输出查询相关的视频摘要。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在(Sharghi,Laurel和Gong 2017)中提出的针对查询的视频摘要数据集上进行实验验证。数据集包含4个视频,其中包含不同的日常生活场景,每个视频持续3到5个小时。数据集提供一组用于用户查询的概念,其中概念总数为48;数据集中有46个查询,每个查询由两个概念组成,查询共有四种场景,即1)查询中的所有概念都出现在同一视频中;2)查询中的所有概念都出现在视频中但不是同一张照片;3)查询中的一些概念出现在视频中;4)查询中的所有概念都没有出现在视频中。数据集提供了标注于视频镜头上的注释,每个镜头标记了几个概念。随后本发明对于针对查询的视频摘要数据集进行如下预处理:
1)将视频采样为1fps,然后将所有帧的大小调整为244×244。随后利用在ImageNet数据库中预训练好的ResNet获取每一帧的2048维的视觉特征表达。
2)以5秒作为视频的一个镜头,并计算出同一镜头中每一帧的平均值,作为镜头级别的特征表达。
3)利用KTS算法(Kernel Temporal Segmentation,Potapovetal.2014),将视频分成小片段,视频中的片段数不超过20并且同一片段内的镜头数不超过200。
4)对于每个查询中的概念单词,使用Glove向量(Pennington,Socher和Manning2014)提取其概念的单词级别表达。
为了客观地评价本发明的算法的性能,本发明在所选出的测试集中,使用了precision、recall及F1 score来对于本发明的效果进行评价。将本发明与其他针对查询的视频摘要方法进行比较,包括以下四个方法:SeqDPP method(Gong et al.2014),SH-DPP(Sharghi,Gong,and Shah 2016),QC-DPP(Sharghi,Laurel,and Gong 2017),TPAN(Wei etal.2018)。对于本发明提出的CHAN(Convolutional Hierarchical Attention Network)分为以下3类进行测试,CHAN w/o Local Att(不包含局部自注意力模块),CHAN w/o GlobalAtt(不包含查询相关的全局注意力模块),CHAN(既包含局部自注意力模块也包含查询相关的全局注意力模块)。对于实验中的全卷积神经网络,第一层输出通道的维数为256,第二层输出通道的维数为512。在局部自注意力模块和查询相关的全局注意力模块,视频的特征向量维数dc设置为256。在训练过程中,使用Adamoptimizer(Kingma and Ba 2014)将损失最小化,初始学习率为0.0001,衰减率为0.8。将批数据集大小(batch size)设置为5。获得相似度得分后,我们通过选择得分最高的视频镜头来创建与查询相关的视频摘要。按照具体实施方式中描述的步骤,所得的实验结果如表1-表2所示:
表1本发明针对于面向查询的视频摘要的数据集与不同方法的比较结果
表2本发明生成面向查询的视频摘要的消融实验结果
Model | Pre | Rec | F1 |
CHAN w/o Local Att | 42.72 | 49.04 | 43.26 |
CHAN w/o Global Att | 37.62 | 43.17 | 38.09 |
CHAN | 46.40 | 53.13 | 46.94 |
Claims (5)
1.一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法,其特征在于包括如下步骤:
1)构建卷积多层注意力网络,所述卷积多层注意力网络包括全卷积神经网络、局部自注意力机制和全局注意力机制;对于输入的视频及查询语句,利用卷积多层注意力网络机制生成查询相关的视频的融合特征表达;
1.1)对于输入的视频,构建视频片段;
1.2)对于步骤1.1)形成的视频片段,首先利用残差神经网络提取视频片段的视觉特征,然后通过全卷积神经网络获取每一个视频片段的镜头级别的视觉特征表达;
1.3)利用步骤1.2)得到的视频片段的镜头级别的视觉特征表达,通过局部自注意力机制,得到每一个视频片段的局部自注意力特征表达;
1.4)利用步骤1.2)得到的视频片段的镜头级别的视觉特征表达,结合输入的查询语句,通过全局注意力机制,得到每一个视频片段的全局注意力特征表达;
步骤1.4)所述的全局注意力机制的计算步骤如下:
1.5)根据步骤1.2)得到的视频片段的镜头级别的视觉特征表达、步骤1.3)得到的视频片段的局部自注意力特征表达和步骤1.4)得到的视频片段的全局注意力特征表达,得到查询相关的视频片段的融合特征表达,进一步生成查询相关的视频的融合特征表达;
2)根据步骤1)得到的查询相关的视频的融合特征表达,结合查询语句的嵌入特征,得到视频镜头的查询相关性得分;根据给定的查询相关性的基本事实注释,对步骤1)构建的卷积多层注意力网络进行训练,固定训练好的参数,得到卷积多层注意力网络模型;
3)将一段待处理的视频构建成视频片段,与查询语句一起输入到卷积多层注意力网络模型中,得到视频镜头的查询相关性得分,将得分最高的视频镜头作为查询相关的视频摘要。
3.如权利要求1所述的利用卷积多层注意力网络机制生成面向查询的视频摘要的方法,其特征在于,步骤1.3)所述的局部自注意力机制的计算步骤如下:
其中,为第k个视频片段内第i个元素的特征向量,为第k个视频片段内第j个元素的特征向量,P与W1、W2为可训练的dc阶的实参数矩阵,dc为特征向量的维数,b为dc阶的实偏置向量,tanh(·)为反正切函数;视频片段内第i个元素和第j个元素的对齐分数矩阵规模为t×t×dc,其中t为输出特征序列的长度;
1.3.2)计算视频片段内第i个元素和第j个元素的注意力权重:
其中,⊙表示矩阵按位相乘。
5.根据权利要求1所述的利用卷积多层注意力网络机制生成面向查询的视频摘要的方法,其特征在于,所述的步骤2)具体为:
其中Wf与Wc是将视频视觉特征与概念的文本特征投射到同一向量空间的参数矩阵;
对于由两个概念(c1,c2)组成的查询q,共得到第k个视频片段每一个镜头与查询q之间基于距离的相似度di1和di2;对于di1和di2,通过多层感知器得到第i个镜头与查询q之间的两个相关性得分,取平均数作为第i个镜头的查询相关性得分si;
由于一段视频包含n个视频片段,根据得到的每一个视频片段中所有镜头的查询相关性得分,构成视频镜头的查询相关性得分s={s1,s2,…,sN},其中N为视频中的镜头总数;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911266940.4A CN110933518B (zh) | 2019-12-11 | 2019-12-11 | 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911266940.4A CN110933518B (zh) | 2019-12-11 | 2019-12-11 | 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110933518A CN110933518A (zh) | 2020-03-27 |
CN110933518B true CN110933518B (zh) | 2020-10-02 |
Family
ID=69860013
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911266940.4A Active CN110933518B (zh) | 2019-12-11 | 2019-12-11 | 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110933518B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460979A (zh) * | 2020-03-30 | 2020-07-28 | 上海大学 | 一种基于多层时空框架的关键镜头视频摘要方法 |
CN111930999B (zh) * | 2020-07-21 | 2022-09-30 | 山东省人工智能研究院 | 逐帧跨模态相似度关联实施文本查询定位视频片段方法 |
CN112016406B (zh) * | 2020-08-07 | 2022-12-02 | 青岛科技大学 | 一种基于全卷积网络的视频关键帧提取方法 |
CN112733498B (zh) * | 2020-11-06 | 2024-04-16 | 北京工业大学 | 一种改进中文自动文本摘要自注意力计算的方法 |
CN112488111B (zh) * | 2020-12-18 | 2022-06-14 | 贵州大学 | 一种基于多层级表达引导注意力网络的指示表达理解方法 |
CN113139468B (zh) * | 2021-04-24 | 2023-04-11 | 西安交通大学 | 融合局部目标特征与全局特征的视频摘要生成方法 |
CN114390365B (zh) * | 2022-01-04 | 2024-04-26 | 京东科技信息技术有限公司 | 用于生成视频信息的方法和装置 |
CN115269913A (zh) * | 2022-07-01 | 2022-11-01 | 深圳先进技术研究院 | 一种基于注意力片段提示的视频检索方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647255A (zh) * | 2018-04-23 | 2018-10-12 | 清华大学 | 基于注意力回归的视频时序句子定位方法及装置 |
CN109344288A (zh) * | 2018-09-19 | 2019-02-15 | 电子科技大学 | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 |
CN109857906A (zh) * | 2019-01-10 | 2019-06-07 | 天津大学 | 基于查询的无监督深度学习的多视频摘要方法 |
CN110366050A (zh) * | 2018-04-10 | 2019-10-22 | 北京搜狗科技发展有限公司 | 视频数据的处理方法、装置、电子设备及存储介质 |
CN110362674A (zh) * | 2019-07-18 | 2019-10-22 | 中国搜索信息科技股份有限公司 | 一种基于卷积神经网络的微博新闻摘要抽取式生成方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170220869A1 (en) * | 2016-02-02 | 2017-08-03 | Verizon Patent And Licensing Inc. | Automatic supercut creation and arrangement |
US10171879B2 (en) * | 2016-10-04 | 2019-01-01 | International Business Machines Corporation | Contextual alerting for broadcast content |
GB2558582A (en) * | 2017-01-06 | 2018-07-18 | Nokia Technologies Oy | Method and apparatus for automatic video summarisation |
CN106980683B (zh) * | 2017-03-30 | 2021-02-12 | 中国科学技术大学苏州研究院 | 基于深度学习的博客文本摘要生成方法 |
US10192584B1 (en) * | 2017-07-23 | 2019-01-29 | International Business Machines Corporation | Cognitive dynamic video summarization using cognitive analysis enriched feature set |
CN107766447B (zh) * | 2017-09-25 | 2021-01-12 | 浙江大学 | 一种使用多层注意力网络机制解决视频问答的方法 |
CN108024158A (zh) * | 2017-11-30 | 2018-05-11 | 天津大学 | 利用视觉注意力机制的有监督视频摘要提取方法 |
CN109889923B (zh) * | 2019-02-28 | 2021-03-26 | 杭州一知智能科技有限公司 | 利用结合视频描述的分层自注意力网络总结视频的方法 |
CN109919114A (zh) * | 2019-03-14 | 2019-06-21 | 浙江大学 | 一种基于互补注意力机制循环卷积解码的视频描述方法 |
CN110287374B (zh) * | 2019-06-14 | 2023-01-03 | 天津大学 | 一种基于分布一致性的自注意力视频摘要方法 |
-
2019
- 2019-12-11 CN CN201911266940.4A patent/CN110933518B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110366050A (zh) * | 2018-04-10 | 2019-10-22 | 北京搜狗科技发展有限公司 | 视频数据的处理方法、装置、电子设备及存储介质 |
CN108647255A (zh) * | 2018-04-23 | 2018-10-12 | 清华大学 | 基于注意力回归的视频时序句子定位方法及装置 |
CN109344288A (zh) * | 2018-09-19 | 2019-02-15 | 电子科技大学 | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 |
CN109857906A (zh) * | 2019-01-10 | 2019-06-07 | 天津大学 | 基于查询的无监督深度学习的多视频摘要方法 |
CN110362674A (zh) * | 2019-07-18 | 2019-10-22 | 中国搜索信息科技股份有限公司 | 一种基于卷积神经网络的微博新闻摘要抽取式生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110933518A (zh) | 2020-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110933518B (zh) | 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法 | |
US11657230B2 (en) | Referring image segmentation | |
CN111159407B (zh) | 训练实体识别和关系分类模型的方法、装置、设备及介质 | |
Xiao et al. | Convolutional hierarchical attention network for query-focused video summarization | |
CN111400591A (zh) | 资讯信息推荐方法、装置、电子设备及存储介质 | |
Mei et al. | Patch based video summarization with block sparse representation | |
Anuranji et al. | A supervised deep convolutional based bidirectional long short term memory video hashing for large scale video retrieval applications | |
CN110163117B (zh) | 一种基于自激励判别性特征学习的行人重识别方法 | |
CN114549850B (zh) | 一种解决模态缺失问题的多模态图像美学质量评价方法 | |
Zhang et al. | Learning implicit class knowledge for RGB-D co-salient object detection with transformers | |
CN114358188A (zh) | 特征提取模型处理、样本检索方法、装置和计算机设备 | |
CN111984820B (zh) | 一种基于双自注意力胶囊网络的视频摘要方法 | |
CN113806554B (zh) | 面向海量会议文本的知识图谱构建方法 | |
CN113111836B (zh) | 基于跨模态哈希学习的视频解析方法 | |
CN111814844A (zh) | 一种基于位置编码融合的密集型视频描述方法 | |
Cheng et al. | Stack-VS: Stacked visual-semantic attention for image caption generation | |
Xing et al. | Ventral & dorsal stream theory based zero-shot action recognition | |
CN113239159A (zh) | 基于关系推理网络的视频和文本的跨模态检索方法 | |
CN110659392B (zh) | 检索方法及装置、存储介质 | |
Zha et al. | Deep position-sensitive tracking | |
Sun et al. | Learning deep semantic attributes for user video summarization | |
CN117332117A (zh) | 一种基于跨模态对应匹配和数据集解偏置的视频片段检索方法及系统 | |
CN117238034A (zh) | 一种基于时空Transformer的人体姿态估计方法 | |
CN111126056A (zh) | 一种识别触发词的方法及装置 | |
Huang et al. | Modeling Multiple Aesthetic Views for Series Photo Selection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |