CN113505266B - 两阶段的anchor-based动态视频摘要方法 - Google Patents

两阶段的anchor-based动态视频摘要方法 Download PDF

Info

Publication number
CN113505266B
CN113505266B CN202110779734.4A CN202110779734A CN113505266B CN 113505266 B CN113505266 B CN 113505266B CN 202110779734 A CN202110779734 A CN 202110779734A CN 113505266 B CN113505266 B CN 113505266B
Authority
CN
China
Prior art keywords
network
anchor
matrix
fragments
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110779734.4A
Other languages
English (en)
Other versions
CN113505266A (zh
Inventor
刘峰
徐达
赵峥涞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110779734.4A priority Critical patent/CN113505266B/zh
Publication of CN113505266A publication Critical patent/CN113505266A/zh
Application granted granted Critical
Publication of CN113505266B publication Critical patent/CN113505266B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification

Abstract

本发明是一种两阶段的anchor‑based动态视频摘要方法。该方法包括(1)构建anchor‑based神经网络,神经网络包括提取网络、自注意力机制网络、两阶段网络即区域推荐网络和回归分类网络;(2)确定区域推荐网络和回归分类网络中anchor的种类和长度,完成正负样本的分类,对步骤(1)构建的anchor‑based神经网络进行训练,固定训练好的参数,得到两阶段的anchor‑based神经网络模型,用得到的神经网络模型进行动态视频摘要。本发明提出的全新网络结构可以并行处理所有的视频帧,从而减少了训练的时间,有效提升了最终输出的精确度,并且本网络结构相对简单,对于计算能力的要求不高。

Description

两阶段的anchor-based动态视频摘要方法
技术领域
本发明涉及一种视频摘要方法,具体的说是涉及一种两阶段的anchor-based动态视频摘要方法。
背景技术
随着科学技术的发展,摄像设备变得普及,上传、下载视频的网络变得流畅,随之而来的是视频资源日益增多。因此,现实生活出现了这一技术需求——大幅缩短视频时长同时可以表达原来视频的主要含义。视频摘要方法的出现成功应对了这一需求,目前,视频摘要技术已经成功应用在众多领域,如监控视频分析、电影预告片的生成、运动识别等等。
目前,研究视频摘要的方法主要有两类方法:1)静态视频摘要方法,也称关键帧选择方法。该方法通过提取或选择具有代表性的帧来精简视频。2)动态视频摘要。该方法通过保留连续的小视频段来实现对视频内容的精简。
在视频摘要领域最主流的方法是使用长短期记忆网络,Long Short-TermMemory,简称LSTM,是一种特殊的循环神经网络,具有长期记忆功能。它利用“输入门限层”来决定需要丢弃或更新的值,保证各个信息实时存在且为最新的状态,同时能够一定程度上解决梯度爆炸,梯度消失问题。但该网络不能并行运行,所以其性能很大程度受到限制。后来,又提出了双向长短期记忆网络,Bi-directional Long Short-Term Memory,简称BiLSTM,是由前向LSTM与后向LSTM组合而成,成功解决LSTM不能并行运行的这一弊端,但是随之带来的问题是网络实现变得相当复杂而且对于计算要求较高。
发明内容
为了解决上述技术问题,本发明了一种两阶段的anchor-based动态视频摘要方法,该方法用过anchor机制和两阶段网络,提高视频摘要的准确性和鲁棒性。
为了达到上述目的,本发明是通过以下技术方案实现的:
本发明是一种两阶段的anchor-based动态视频摘要方法,包括如下步骤:
(1)构建两阶段的anchor-based神经网络,所述的两阶段的anchor-based神经网络包括特征提取网络、自注意力机制网络、两阶段网络;
具体包括如下步骤:
(1.1)将视频下采样至2fps,然后逐帧输入到特征提取网络(GoogLeNet),获取每帧图像1*1024维特征向量,用wi表示第i帧图像的1*1024维特征向量,所有帧图像的特征向量构成N*1024维特征矩阵,用W1表示:
W1=[w1,w2...wi...wN]
其中,N代表帧的数量;
(1.2)将获得的N*1024维特征矩阵W1输入到自注意力机制网络,获得特征矩阵W1的注意力权值矩阵,用A表示:
A=[a1,a2...ai...aN]
其中,ai表示所有特征向量关于第i帧特征向量的注意力向量
ai=[ai1,ai2...aij...aiN];
(1.3)将注意力权值矩阵A与特征矩阵W1加权求和,从而获得注意力强化特征矩,用W2表示:
W2=[a1*W1,a2*W1...ai*W1...aN*W1];
(1.4)将注意力强化特征矩阵W2输入至两阶段网络中的区域推荐网络,从而获得所有区域的得分;
包括如下步骤:
(1.4.1)通过LayerNorm归一化层,将步骤(1.3)的输出归一化;
(1.4.2)选取kernel_size=3的1D卷积核对上一层N*1024维特征矩阵进行卷积运算,输出通道数为1024,然后经过归一化层和非线性激活函数层,输出N*1024维矩阵,实现特征提取;
(1.4.3)选取kernel_size=3的1D卷积核对上一层的N*1024维特征矩阵进行卷积运算,输出通道数为1,输出N*1维矩阵,矩阵值为各个区域的得分;
(1.5)对步骤(1.4)的输出,采用非极大值抑制算法(NMS)去除重叠率高的区域,再从中筛选出得分前M个区域作为候选区域,其中,M表示最终输入到分类回归网络的候选区域的数量,将这M个区域所对应的位置映射到注意力强化特征矩阵W2上,提取与之位置对应的特征向量,构成候选区域特征矩阵,用W3表示;
包括如下步骤:
(1.5.1)使用非极大值抑制算法(NMS)去除高重叠率的区域;
(1.5.2)将其值按从大到小的顺序进行排列,从中筛选出前M个的候选区域,并将这些候选区域位置映射到特征矩阵W2上;
(1.5.3)提取对应位置上的特征向量,重新组合为M*L*1024维的候选区域特征矩阵,将其作为分类回归网络的输入,其中,L表示区域推荐网络中所采用anchor的长度。
(1.6)将候选区域特征矩阵W3输入到两阶段网络中的回归分类网络,从而分别获得更加精确的目标区域位置和目标区域得分。
包括如下步骤:
(1.6.1)通过全连接层,将步骤(1.5)的输出全连接至本层的128个输出神经元,输出M*L*128维的特征矩阵,然后再经过激活层、归一化层,从而实现特征的融合;
(1.6.2)通过全连接层,将步骤(1.6.1)的输出全连接至本层的4个输出神经元,输出M*4维的矩阵,用来判断候选区域的最终分类,其值代表的是每一个anchor所表示的区域的最终得分;
(1.6.3)通过全连接层,将步骤(1.6.1)的输出全连接至本层的8个输出神经元,输出M*8维的矩阵,然后对其进行重构,得到M*4*2维矩阵,用来判断候选区域的最终位置。
(2)训练时,对训练集中的数据进行分析,确定所述区域推荐网络和回归分类网络中anchor的种类和长度,完成正负样本的分类,对步骤(1)构建的anchor-based神经网络进行训练,固定训练好的参数,得到两阶段的anchor-based神经网络模型,用步骤(2)得到的神经网络模型提取动态视频摘要。
本发明的进一步改进在于:所述步骤(2)神经网络模型构建包括如下步骤:
(2.1)分析训练集中标签片段的长度,通过K-means算法得出anchor的长度,用[L1,L2,L3,L4]分别表示这四种anchor的长度,其中,L1至L4依次递增;
(2.2)区域推荐网络采用的是单尺度的anchor机制,所以anchor的种类为1,将步骤(2.1)结果的最大值L4确定为此网络anchor的长度,保证此网络anchor的长度大于数据集中大多数标签片段的长度;
(2.3)对于从视频中抽取的N帧,依次以每一帧为中心,以L4为长度,进行片段的截取,共产生N个片段,用S1表示这N个片段:
S1={s1,s2...si...sN}
其中,si表示截取产生的以第i帧为中心、L4为长度的片段,然后计算这些片段与标签片段的交集IOU的大小,若片段的IOU>=α,则将其标记为正样本,若片段的IOU<α,则将其标记为负样本,保证正负样本的数量比例为3∶1;
(2.4)回归分类网络采用的是多尺度的anchor机制,anchor的种类为4,长度分别为[L1,L2,L3,L4];
(2.5)对于从视频中抽取的N帧,依次以每一帧为中心,分别以L1,L2,L3,L4为长度,进行片段的截取,共产生4*N个片段,用S2表示这4*N个片段:
S2={s11,s12...sij...sN4}
其中,sij表示截取产生的以第i帧为中心,Lj为长度的片段,0<i<N+1,0<j<5,然后计算这些片段与标签片段的交集IOU的大小,若片段的IOU>=β,则将其标记为正样本,若片段的IOU<β,则将其标记为负样本,保证正负样本的数量比例为3∶1;
(2.6)利用步骤(2.1)至步骤(2.5)得到的正负样本,对步骤(1)构建的网络进行训练,固定训练好的参数,得到两阶段的anchor-based神经网络模型。
本发明的有益效果是:
(1)本发明率先提出了两阶段的动态视频摘要方法。首先第一阶段输出候选区域,筛除无关区域,从而减轻了第二阶段的运算量;第二阶段将候选区域输入到分类回归网络中去,对一阶段的结果进行更加细致的回归与分类,输出更加准确的区域位置和区域得分,有效提升了最终输出的精确度。
(2)本发明率先在两个阶段中同时使用anchor机制。第一阶段使用的是单一尺度的anchor,目的是筛选出与真实片段有较大交集的区域作为候选区域;第二阶段使用的是多尺度的anchor,多尺度的anchor对于不同尺度的区域位置有更好的预测能力;候选区域和最终目标区域的定位都是通过anchor的回归来实现,仅仅计算区域偏移量而不是直接计算区域的位置,大大降低了优化难度。
(3)本发明提出的全新网络结构可以并行处理所有的视频帧,从而减少了训练的时间,并且本网络结构相对简单,对于计算能力的要求不高。
附图说明
图1是本发明步骤(1)构建anchor-based神经网络的流程图。
图2是本发明anchor-based神经网络的结构图。
图3是本发明两阶段网络具体的神经网络结构图。
图4是本发明第一阶段区域推荐网络的单尺度anchor机制示意图。
图5是本发明第二阶段分类回归网络中的多尺度anchor机制示意图。
具体实施方式
以下将以图式揭露本发明的实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本发明。也就是说,在本发明的部分实施方式中,这些实务上的细节是非必要的。
本发明是一种两阶段的anchor-based动态视频摘要方法,该方法通过anchor机制和两阶段网络,提高视频摘要的准确性和鲁棒性,所述的两阶段的anchor-based神经网络包括特征提取网络、自注意力机制网络、两阶段网络即区域推荐网络和回归分类网络,具体包括如下步骤:
步骤1:获取tvsum和summe数据集并进行预处理。tvsum和summe是进行视频摘要研究最重要的数据集,其中,tvsum数据集包含了50个短视频,summe数据集包含了25个短视频;将数据集中的视频下采样至2fps,然后将该视频逐帧输入到特征提取网络(GoogLeNet),获取每帧图像1*1024维特征向量,用wi表示第i帧图像的1*1024维特征向量,该下采样视频所有帧的特征向量构成N*1024维特征矩阵,用W1表示这N*1024维特征矩阵:
W1=[w1,w2...wi...wN]
其中,N代表帧的数量。
步骤2:为每一帧的特征向量添加全局特征信息。将获得的N*1024维特征矩阵W1输入到自注意力机制网络,获得特征矩阵W1的注意力权值矩阵,用A表示注意力权值矩阵:
A=[a1,a2...ai...aN]
其中,ai表示所有特征向量关于第i帧特征向量的注意力权值向量:
ai=[ai1,ai2...aij...aiN]
将注意力权值矩阵A与特征矩阵W1加权求和,从而获得注意力强化特征矩阵,用W2表示此注意力强化特征矩阵:
W2=[a1*W1,a2*W1...ai*W1...aN*W1]。
步骤3:对训练集中的数据进行分析,确定区域推荐网络和回归分类网络中anchor的种类和长度,完成正负样本的分类:
1)分析训练集中标签片段的长度,将anchor的长度设置为[4,8,16,32];
2)区域推荐网络采用的是单尺度的anchor机制,所以anchor的种类为1,将此网络的anchor的长度设置为32,保证此网络anchor的长度大于数据集中大多数标签片段的长度;
3)对于从视频中抽取的N帧,依次以每一帧为中心,以32帧为长度,进行截取,共产生N个片段,然后计算这些片段与标签片段的交集IOU的大小,若片段的IOU>=0.3,则将其标记为正样本,若片段的IOU<0.3,则将其标记为负样本,保证正负样本的数量比例为3∶1;
4)回归分类网络采用的是多尺度的anchor机制,将anchor的种类设置为4,长度设置为[4,8,16,32];
5)对于从视频中抽取的N帧,依次以每一帧为中心,分别以4帧,8帧,16帧,32帧为长度,进行截取,共产生4*N个片段,然后计算这些片段与标签片段的交集IOU的大小,若片段的IOU>=0.6,则将其标记为正样本,若片段的IOU<0.6,则将其标记为负样本,保证正负样本的数量比例为3∶1;
步骤4:将新的特征矩阵W2输入至两阶段网络中的区域推荐网络,从而获得候选区域的得分,包括如下步骤:
1)通过LayerNorm归一化层,将步骤2的输出归一化;
2)选取kernel_size=3的1D卷积核对上一层N*1024维特征矩阵进行卷积运算,输出通道数为1024,然后经过归一化层和非线性激活函数层,输出N*1024维矩阵,实现特征提取;
3)选取kernel_size=3的1D卷积核对上一层的N*1024维特征矩阵进行卷积运算,输出通道数为1,输出N*1维矩阵,矩阵值为各个区域的得分;
(1.5)对步骤4的输出,采用非极大值抑制算法(NMS)去除重叠率高的区域,再从中筛选出得分前M个区域作为候选区域,其中,M表示最终输入到分类回归网络的候选区域的数量,将这M个区域所对应的位置映射到注意力强化特征矩阵W2上,提取与之位置对应的特征向量,构成候选区域特征矩阵,用W3表示;
具体为:
(1.5.1)使用非极大值抑制算法(NMS)去除高重叠率的区域;
(1.5.2)将其值按从大到小的顺序进行排列,从中筛选出前128个的区域作为候选区域,并将这些候选区域位置映射到注意力强化特征矩阵W2上;
(1.5.3)提取对应位置上的特征向量,重新组合为128*32*1024维的候选区域特征矩阵,用W3表示此候选区域特征矩阵,将其作为分类回归网络的输入,其中,L表示区域推荐网络中所采用anchor的长度。
步骤6:将候选区域特征矩阵W3输入到两阶段网络中的回归分类网络,从而分别获得更加精确的目标区域位置和目标区域得分,完成神经网络的构建。
具体包括如下步骤:
1)通过全连接层,将步骤5的输出全连接至本层的128个输出神经元,输出128*32*128维的特征矩阵,然后再经过激活层和归一化层;
2)通过全连接层,将1)的输出全连接至本层的4个输出神经元,输出128*4维矩阵,其值代表的是每一个anchor所表示的区域的最终得分,用来判断候选区域的最终分类;
3)通过全连接层,将1)的输出全连接至本层的8个输出神经元,输出128*8维的矩阵,然后对其进行重构,得到128*4*2维矩阵,用来判断候选区域的最终位置。
步骤7:通过误差反向传播算法调整网络模型的参数至最优,固定训练好的参数,得到两阶段的anchor-based神经网络模型,用得到的神经网络模型进行动态视频摘要。
本发明利用两阶段的anchor-based能够更加准确地预测区域位置和区域得分。
以上所述仅为本发明的实施方式而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等,均应包括在本发明的权利要求范围之内。

Claims (5)

1.一种两阶段的anchor-based动态视频摘要方法,其特征在于:所述方法包括如下步骤:
(1)构建anchor-based神经网络,所述神经网络包括提取网络、自注意力机制网络、两阶段网络即区域推荐网络和回归分类网络;
(2)确定所述区域推荐网络和回归分类网络中anchor的种类和长度,完成正负样本的分类,对步骤(1)构建的anchor-based神经网络进行训练,固定训练好的参数,得到两阶段的anchor-based神经网络模型;
(3)用步骤(2)得到的神经网络模型进行动态视频摘要,
其中:所述步骤(2)神经网络模型构建包括如下步骤:
(2.1)分析训练集中标签片段的长度,通过K-means算法得出anchor的长度,用[L1,L2,L3,L4]分别表示这四种anchor的长度,其中,L1至L4依次递增;
(2.2)将步骤(2.1)结果的最大值L4确定为此网络anchor的长度,保证此网络anchor的长度大于数据集中大多数标签片段的长度;
(2.3)对于从视频中抽取的N帧,依次以每一帧为中心,以L4为长度,进行片段的截取,共产生N个片段,用S1表示这N个片段:
S1={s1,s2...si...sN}
其中,si表示截取产生的以第i帧为中心、L4为长度的片段,然后计算这些片段与标签片段的交集IOU的大小,若片段的IOU>=α,则将其标记为正样本,若片段的IOU<α,则将其标记为负样本,保证正负样本的数量比例为3∶1;
(2.4)回归分类网络采用的是多尺度的anchor机制,anchor的种类为4,长度分别为[L1,L2,L3,L4];
(2.5)对于从视频中抽取的N帧,依次以每一帧为中心,分别以L1,L2,L3,L4为长度,进行片段的截取,共产生4*N个片段,用S2表示这4*N个片段:
S2={s11,s12...sij...sN4}
其中,sij表示截取产生的以第i帧为中心,Lj为长度的片段,0<i<N+1,0<j<5,然后计算这些片段与标签片段的交集IOU的大小,若片段的IOU>=β,则将其标记为正样本,若片段的IOU<β,则将其标记为负样本,保证正负样本的数量比例为3∶1;
(2.6)利用步骤(2.1)至步骤(2.5)得到的正负样本,对步骤(1)构建的网络进行训练,固定训练好的参数,得到两阶段的anchor-based神经网络模型。
2.根据权利要求1所述两阶段的anchor-based动态视频摘要方法,其特征在于:所述步骤(1)构建anchor-based神经网络具体包括如下步骤:
(1.1)将视频下采样至2fps,然后逐帧输入到特征提取网络,获取每帧图像1*1024维特征向量,用wi表示第i帧图像的1*1024维特征向量,所有帧图像的特征向量构成N*1024维特征矩阵,用W1表示:
W1=[w1,w2...wi...wN]
其中,N代表帧的数量;
(1.2)将获得的N*1024维特征矩阵W1输入到自注意力机制网络,获得特征矩阵W1的注意力权值矩阵,用A表示:
A=[a1,a2...ai...aN]
其中,ai表示所有特征向量关于第i帧特征向量的注意力向量
ai=[ai1,ai2...aij...aiN];
(1.3)将注意力权值矩阵A与特征矩阵W1加权求和,从而获得注意力强化特征矩,用W2表示:
W2=[a1*W1,a2*W1...ai*W1...aN*W1];
(1.4)将注意力强化特征矩阵W2输入至两阶段网络中的区域推荐网络,从而获得所有区域的得分;
(1.5)对步骤(1.4)的输出,对所有区域进行筛选,将筛选后区域的位置映射到注意力强化特征矩阵上,提取该位置上的特征向量,构成候选区域特征矩阵,用W3表示;
(1.6)将候选区域特征矩阵W3输入到两阶段网络中的回归分类网络,从而分别获得更加精确的目标区域位置和目标区域得分。
3.根据权利要求2所述两阶段的anchor-based动态视频摘要方法,其特征在于:所述步骤(1.4)包括如下步骤:
(1.4.1)通过LayerNorm归一化层,将步骤(1.3)的输出归一化;
(1.4.2)选取kernel_size=3的1D卷积核对上一层N*1024维特征矩阵进行卷积运算,输出通道数为1024,然后经过归一化层和非线性激活函数层,输出N*1024维矩阵,实现特征提取;
(1.4.3)选取kernel_size=3的1D卷积核对上一层的N*1024维特征矩阵进行卷积运算,输出通道数为1,输出N*1维矩阵,矩阵值为各个区域的得分。
4.根据权利要求2所述两阶段的anchor-based动态视频摘要方法,其特征在于:所述步骤(1.5)包括如下步骤:
(1.5.1)使用非极大值抑制算法去除高重叠率的区域;
(1.5.2)将其值按从大到小的顺序进行排列,从中筛选出前M个的候选区域,并将这些候选区域位置映射到特征矩阵W2上;
(1.5.3)提取对应位置上的特征向量,重新组合为M*L*1024维的候选区域特征矩阵,将其作为分类回归网络的输入,其中,L表示区域推荐网络中所采用anchor的长度。
5.根据权利要求2所述两阶段的anchor-based动态视频摘要方法,其特征在于:所述步骤(1.6)包括如下步骤:
(1.6.1)通过全连接层,将步骤(1.5)的输出全连接至本层的128个输出神经元,输出M*L*128维的特征矩阵,然后再经过激活层、归一化层,从而实现特征的融合;
(1.6.2)通过全连接层,将步骤(1.6.1)的输出全连接至本层的4个输出神经元,输出M*4维的矩阵,用来判断候选区域的最终分类,其值代表的是每一个anchor所表示的区域的最终得分;
(1.6.3)通过全连接层,将步骤(1.6.1)的输出全连接至本层的8个输出神经元,输出M*8维的矩阵,然后对其进行重构,得到M*4*2维矩阵,用来判断候选区域的最终位置。
CN202110779734.4A 2021-07-09 2021-07-09 两阶段的anchor-based动态视频摘要方法 Active CN113505266B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110779734.4A CN113505266B (zh) 2021-07-09 2021-07-09 两阶段的anchor-based动态视频摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110779734.4A CN113505266B (zh) 2021-07-09 2021-07-09 两阶段的anchor-based动态视频摘要方法

Publications (2)

Publication Number Publication Date
CN113505266A CN113505266A (zh) 2021-10-15
CN113505266B true CN113505266B (zh) 2023-09-26

Family

ID=78012522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110779734.4A Active CN113505266B (zh) 2021-07-09 2021-07-09 两阶段的anchor-based动态视频摘要方法

Country Status (1)

Country Link
CN (1) CN113505266B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001155169A (ja) * 1999-11-24 2001-06-08 Nec Corp ビデオ画像の分割、分類、および要約のための方法およびシステム
CN108805083A (zh) * 2018-06-13 2018-11-13 中国科学技术大学 单阶段的视频行为检测方法
WO2020173036A1 (zh) * 2019-02-26 2020-09-03 博众精工科技股份有限公司 基于深度学习的定位方法和系统
CN112468888A (zh) * 2020-11-26 2021-03-09 广东工业大学 基于gru网络的视频摘要生成方法与系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001155169A (ja) * 1999-11-24 2001-06-08 Nec Corp ビデオ画像の分割、分類、および要約のための方法およびシステム
CN108805083A (zh) * 2018-06-13 2018-11-13 中国科学技术大学 单阶段的视频行为检测方法
WO2020173036A1 (zh) * 2019-02-26 2020-09-03 博众精工科技股份有限公司 基于深度学习的定位方法和系统
CN112468888A (zh) * 2020-11-26 2021-03-09 广东工业大学 基于gru网络的视频摘要生成方法与系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
迁移学习模式下基于GoogLeNet网络的风电机组视觉检测;徐一鸣;张娟;刘成成;顾菊平;潘高超;;计算机科学(05);全文 *

Also Published As

Publication number Publication date
CN113505266A (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
Liu et al. Teinet: Towards an efficient architecture for video recognition
CN110059772B (zh) 基于多尺度解码网络的遥感图像语义分割方法
CN112507898B (zh) 一种基于轻量3d残差网络和tcn的多模态动态手势识别方法
CN113688723B (zh) 一种基于改进YOLOv5的红外图像行人目标检测方法
CN111369565B (zh) 一种基于图卷积网络的数字病理图像的分割与分类方法
Tursun et al. MTRNet++: One-stage mask-based scene text eraser
US11908457B2 (en) Orthogonally constrained multi-head attention for speech tasks
CN112150493A (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN107945210B (zh) 基于深度学习和环境自适应的目标跟踪方法
CN111353544B (zh) 一种基于改进的Mixed Pooling-YOLOV3目标检测方法
WO2023207742A1 (zh) 一种交通异常行为检测方法与系统
CN113128360A (zh) 基于深度学习的司机驾驶行为检测与识别方法
Ming et al. 3D-TDC: A 3D temporal dilation convolution framework for video action recognition
CN113628297A (zh) 一种基于注意力机制和迁移学习的covid-19深度学习诊断系统
CN109002808B (zh) 一种人体行为识别方法及系统
CN114140437A (zh) 一种基于深度学习的眼底硬渗出物分割方法
CN111339950B (zh) 一种遥感图像目标检测方法
CN113033371A (zh) 基于csp模型的多级特征融合行人检测方法
CN113505266B (zh) 两阶段的anchor-based动态视频摘要方法
Pahuja et al. Enhancing Salient Object Segmentation Through Attention.
CN116091763A (zh) 苹果叶部病害图像语义分割系统及分割方法、设备和介质
CN115546474A (zh) 一种基于学习者集成策略的少样本语义分割方法
CN112949344B (zh) 一种用于异常检测的特征自回归方法
Wang et al. Multilevel capsule weighted aggregation network based on a decoupled dynamic filter for remote sensing scene classification
CN113256685B (zh) 基于卷积神经网络字典对学习的目标跟踪方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant