CN108921032A - 一种新的基于深度学习模型的视频语义提取方法 - Google Patents

一种新的基于深度学习模型的视频语义提取方法 Download PDF

Info

Publication number
CN108921032A
CN108921032A CN201810564348.1A CN201810564348A CN108921032A CN 108921032 A CN108921032 A CN 108921032A CN 201810564348 A CN201810564348 A CN 201810564348A CN 108921032 A CN108921032 A CN 108921032A
Authority
CN
China
Prior art keywords
video
neural network
convolution neural
dimensional convolution
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810564348.1A
Other languages
English (en)
Other versions
CN108921032B (zh
Inventor
姚易佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SICHUAN TROY INFORMATION TECHNOLOGY CO LTD
Original Assignee
SICHUAN TROY INFORMATION TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SICHUAN TROY INFORMATION TECHNOLOGY CO LTD filed Critical SICHUAN TROY INFORMATION TECHNOLOGY CO LTD
Priority to CN201810564348.1A priority Critical patent/CN108921032B/zh
Publication of CN108921032A publication Critical patent/CN108921032A/zh
Application granted granted Critical
Publication of CN108921032B publication Critical patent/CN108921032B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种新的基于深度学习模型的视频语义提取方法,包括步骤如下:基于视频物理结构,通过对视频帧序列组合与分割,得到语义结构化的视频数据;通过使用滑动窗口将语义结构化的视频数据处理成三维卷积神经网络的输入数据;创建三维卷积神经网络模型,使用滑动窗口的输出数据作为训练数据;基于三维卷积神经网络的输出结果作为连续时序分类算法的输入,通过反向传播算法完成三维卷积神经网络参数的训练;将训练好的三维卷积神经网络‑连续时序分类算法作为体育视频语义提取模型提取视频语义。本发明通过提出的视频语义结构化方法结合三维卷积神经网络和连续时序分类算法能较好地捕捉动作之间的联系,提高体育视频语义提取准确度。

Description

一种新的基于深度学习模型的视频语义提取方法
技术领域
本发明涉及人工智能和模式识别技术领域,特别是涉及一种新的基于深度学习模型的视频语义提取方法。
背景技术
“语义”这一概念起源于19世纪末,是虚拟数据所对应的现实世界中的事物所代表的含义的表现,以及这些含义之间的关系,是虚拟数据在某个领域上的解释和逻辑表示。而且“视频语义”是针对人类思维而言的,当我们想用计算机来理解视频之中的“语义”时,计算机只能够识别诸如颜色、形状等底层特征。因此,我们需要采用一些方法将这些底层的特征联系起来,形成一些更高层的含义,从而将视频中所要展示的信息更好的表达出来。
视频数据通常是非结构化的,因此对视频的语义提取,需要从多方面进行考虑。从内容上,需要考虑视频含有的空间和时间属性。从语义上,需要考虑视频信息包括的图像特征、字幕文本特征、语音特征和视频描述信息文本特征等。视频在物理结构上分成了四个结构层次:帧、镜头、场景和视频。视频帧的内容记录了视频中对象的特征,如色彩、纹路和形态等;镜头是由若干连续帧组成的,其内容记录了连续帧中对象的运动特征,表现了对象的时间特性。在现实中,镜头是生成视频的基本单位,即是摄像机一次拍摄所得到的最小单位;场景由一系列语义内容相关并且时间上连续的镜头组成,其内容记录了较为复杂的语义信息。若干个场景组成一个视频文件,其内容记录了整个视频的语义信息。
(1)基于关键帧的视频语义提取,通常的关键帧语义提取技术流程为:对视频的帧截图;对帧截图进行关键帧识别,对取得的关键帧进行语义分析;将视频中包含的语音数据通过语音识别转换成文本;对语音文本进行语义识别;将上述关键帧语义和语音语义结合在一起,就得到了这个视频的语义;也就是将视频的图像特征和声音mfcc特征转换为语义特征,然后结合字幕的识别,通过Neuro-Linguistic Programming处理字幕得到词向量和文档相似度。这个方法的优势在于对视频上的文字内容较多的视频有较好的提取效果,比如一些教育类的视频。这种方法的劣势在于:对其他类型的文字较少的视频,因为其关键帧中的字幕信息较少,很难从中获得有用的文本信息。
(2)基于视频文本信息关键词提取,这种方法是对纯文本的提取,且此方法对词本身的重要程度、词所在的位置要求比较高,前面的词比后面的词重要,词频,词的整体出现顺序,也需要综合起来。也就是说标题的内容需要非常切合视频语义,否则这种方法的准确率会非常低。这种方法的优势是计算复杂度较低,业内有成熟的文本处理算法,并且各种算法开源包都很方便。这种方法的劣势在于:有一些网络用语其表达的意思与字面意思相差很大,对视频语义的提取会产生极大的干扰。
对于体育视频的语义分析,目前的方法很少从体育运动的语义结构化进行考虑,因此不能很好的捕捉动作之间的联系,体育视频语义提取准确度还较低。
发明内容
本发明的目的在于克服现有的技术不足,提供一种新的基于深度学习模型的视频语义提取方法,该方法使用三维卷积神经网络模型和连续时序分类算法对语义结构化的视频数据进行语义提取,能够解决体育类视频进行语义分析的问题。
具体的,一种新的基于深度学习模型的视频语义提取方法,其特征在于:包括以下步骤:
S1.基于视频物理结构,通过对视频帧序列组合与分割,得到语义结构化的视频数据:视频数据的物理结构从上自下分别为:视频、场景、镜头、帧;参考视频数据的物理结构而定义视频的语义结构从上至下为:视频、行为、子动作、帧;
S2.通过使用滑动窗口将语义结构化的视频数据处理成三维卷积神经网络的输入数据;
S3.创建三维卷积神经网络模型,使用滑动窗口的输出数据作为训练数据;
S4.基于三维卷积神经网络的输出结果作为连续时序分类算法的输入,通过反向传播算法完成三维卷积神经网络参数的训练;
S5.将训练好的三维卷积神经网络-连续时序分类算法作为体育视频语义提取模型提取视频语义。
优选地,步骤S1包括下列子步骤:
S11.对视频数据集视频预处理:视频数据库中的原始视频需要将视频按照一定的FPS转化为视频帧图片集,并对转化的图片进行图像预处理,所述图像预处理包括大小调整和噪声过滤;
S12.创建训练数据集:每一个训练视频对应数据形式s表示训练集数据;n 为训练视频个数;是视频经过预处理后的视频图片集合,其中, m为视频转化为图片帧的个数,使用ffmpeg将视频按照每秒20帧转化为图片序列;是视频对应的语义标签,其中,根据体育视频的种类有h 种选取方式,q为视频的语义标签数量,对于不同的视频其语义标签的取值不同,语义标签数量的取值也不同;
S13.创建测试数据集:每一个测试视频对应数据形式t表示测试集数据,n为测试视频个数,是视频经过预处理后的视频图片集合。是视频对应的语义标签,其中,根据体育视频的种类有h 种选取方式,q为视频的语义标签数量,对于不同的视频其语义标签的取值不同,语义标签数量的取值也不同。
优选地,步骤S2包括下列子步骤:
S21.将训练数据中视频帧图片数量m不满足m=kw(k为任意整数,w为滑动窗口的大小) 的视频帧图片集进行补充处理,将视频最后一帧的图片进行复制操作直到满足m为w的倍数;
S22.使用滑动窗口对视频帧序列进行滑动读取帧图片,滑动步长为滑动窗口的一半,每滑动一次,获取的帧图片为三维卷积神经网络的一次输入,本方法取滑动窗口大小w=16,因此测试数据形式经过处理变为w代表一次滑动窗口取得的图片集合,其中代表窗口滑动第k次滑动获得视频图片集。
优选地,步骤S3包括下列子步骤:
S31.创建一个有五层卷积层、池化层,两层全连接层的三维卷积神经网络做为视频子动作语义的提取模型;
S32.将三维卷积神经网络的第二层全连接层的输出固定为子动作种类个数h;
S33.三维卷积神经网络输入为步骤S22中定义的输出为S32中三维卷积神经网络第二层全连接层的输出,其格式为子动作概率序列Y'k=[y'1,y'2,....,y'h]。
优选地,步骤S4包括下列子步骤:
S41.通过滑动窗口对视频帧图片集的图片采集和三维卷积神经网络对滑动窗口采集的图片集进行子动作语义提取,得到了视频的子动作语义序列[Y'1,Y'2,...,Y'k],使用连续时序分类算法CTC完成子动作语义序列的去重和整合,该算法使用前向后向推导从而对重复的概率标签进行整合,最终得到可能性最大的标签序列,
S42.使用连续时序分类算法CTC算法将去重的子动作语义序列与视频语义标签构建损失函数,将损失反向传播,完成对三维神经网络的训练。
优选地,步骤S5包括下列子步骤:
S51.视频采集与预处理;
S52.将经过处理的视频图片集合输入模型得到语义序列从而得到视频的高层语义特征。
本发明的有益效果在于:本发明通过提出的视频语义结构化方法结合三维卷积神经网络和连续时序分类算法能较好地捕捉动作之间的联系,提高体育视频语义提取准确度。
附图说明
图1是本发明提出的一种新的基于深度学习模型的视频语义提取方法流程示意图。
图2是本发明提出的视频数据的物理结构示意图。
图3是本发明提出的视频的语义结构示意图。
图4是本发明提出的三维卷积神经网络模型架构图。
图5是本发明提出的基于三维卷积神经网络与连续时序分类算法的模型架构图。
图6是本发明提出的模型训练与测试流程示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。
本发明提出的一种新的基于深度学习模型的视频语义提取方法流程示意图如图1所示,包括以下步骤:
S1.基于视频物理结构,通过对视频帧序列组合与分割,得到语义结构化的视频数据:视频数据的物理结构从上自下分别为:视频、场景、镜头、帧,其结构示意图如图2所示;参考视频数据的物理结构而定义视频的语义结构从上至下为:视频、行为、子动作、帧,其结构示意图如图3所示;
S2.通过使用滑动窗口将语义结构化的视频数据处理成三维卷积神经网络的输入数据;
S3.创建三维卷积神经网络模型,使用滑动窗口的输出数据作为训练数据;
S4.基于三维卷积神经网络的输出结果作为连续时序分类算法的输入,通过反向传播算法完成三维卷积神经网络参数的训练;
S5.将训练好的三维卷积神经网络-连续时序分类算法作为体育视频语义提取模型提取视频语义。
作为一种优选实施例,步骤S1包括下列子步骤:
S11.对视频数据集视频预处理:视频数据库中的原始视频需要将视频按照一定的FPS转化为视频帧图片集,并对转化的图片进行图像预处理,所述图像预处理包括大小调整和噪声过滤;由于受到各种条件的限制和随机干扰,这些图片集往往不能直接使用,必须在图像处理的早期阶段对它们进行大小调整、噪声过滤等图像预处理;
S12.创建训练数据集:每一个训练视频对应数据形式s表示训练集数据;n 为训练视频个数;是视频经过预处理后的视频图片集合,其中, m为视频转化为图片帧的个数,使用ffmpeg将视频按照每秒20帧转化为图片序列;是视频对应的语义标签,其中,根据体育视频的种类有h 种选取方式,q为视频的语义标签数量,对于不同的视频其语义标签的取值不同,语义标签数量的取值也不同;
S13.创建测试数据集:每一个测试视频对应数据形式t表示测试集数据,n为测试视频个数,是视频经过预处理后的视频图片集合。是视频对应的语义标签,其中,根据体育视频的种类有h 种选取方式,q为视频的语义标签数量,对于不同的视频其语义标签的取值不同,语义标签数量的取值也不同。
作为一种优选实施例,步骤S2包括下列子步骤:
S21.将训练数据中视频帧图片数量m不满足m=kw(k为任意整数,w为滑动窗口的大小) 的视频帧图片集进行补充处理,将视频最后一帧的图片进行复制操作直到满足m为w的倍数;
S22.使用滑动窗口对视频帧序列进行滑动读取帧图片,滑动步长为滑动窗口的一半,每滑动一次,获取的帧图片为三维卷积神经网络的一次输入,本方法取滑动窗口大小w=16,因此测试数据形式经过处理变为w代表一次滑动窗口取得的图片集合,其中代表窗口滑动第k次滑动获得视频图片集。
作为一种优选实施例,步骤S3包括下列子步骤:
S31.创建一个有五层卷积层、池化层,两层全连接层的三维卷积神经网络做为视频子动作语义的提取模型,所构建的三维卷积神经网络模型架构图如图4所示;
S32.将三维卷积神经网络的第二层全连接层的输出固定为子动作种类个数h;
S33.三维卷积神经网络输入为步骤S22中定义的输出为S32中三维卷积神经网络第二层全连接层的输出,其格式为子动作概率序列Y'k=[y'1,y'2,....,y'h]。
作为一种优选实施例,步骤S4包括下列子步骤:
S41.通过滑动窗口对视频帧图片集的图片采集和三维卷积神经网络对滑动窗口采集的图片集进行子动作语义提取,得到了视频的子动作语义序列[Y'1,Y'2,...,Y'k],使用连续时序分类算法CTC完成子动作语义序列的去重和整合,该算法使用前向后向推导从而对重复的概率标签进行整合,最终得到可能性最大的标签序列;
S42.使用连续时序分类算法CTC算法将去重的子动作语义序列与视频语义标签构建损失函数,将损失反向传播,完成对三维神经网络的训练。
本发明实施例提出的基于三维卷积神经网络与连续时序分类算法的模型架构图如图5所示。
本发明实施例提出的模型训练与测试流程示意图如图6所示。
作为一种优选实施例,步骤S5包括下列子步骤:
S51.视频采集与预处理;
S52.将经过处理的视频图片集合输入模型得到语义序列从而得到视频的高层语义特征。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和单元并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、 ROM、RAM等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (6)

1.一种新的基于深度学习模型的视频语义提取方法,其特征在于:包括以下步骤:
S1.基于视频物理结构,通过对视频帧序列组合与分割,得到语义结构化的视频数据:视频数据的物理结构从上自下分别为:视频、场景、镜头、帧;参考视频数据的物理结构而定义视频的语义结构从上至下为:视频、行为、子动作、帧;
S2.通过使用滑动窗口将语义结构化的视频数据处理成三维卷积神经网络的输入数据;
S3.创建三维卷积神经网络模型,使用滑动窗口的输出数据作为训练数据;
S4.基于三维卷积神经网络的输出结果作为连续时序分类算法的输入,通过反向传播算法完成三维卷积神经网络参数的训练;
S5.将训练好的三维卷积神经网络-连续时序分类算法作为体育视频语义提取模型提取视频语义。
2.根据权利要求1所述的一种视频语义提取方法,其特征在于:步骤S1包括下列子步骤:
S11.对视频数据集视频预处理:视频数据库中的原始视频需要将视频按照一定的FPS转化为视频帧图片集,并对转化的图片进行图像预处理,所述图像预处理包括大小调整和噪声过滤;
S12.创建训练数据集:每一个训练视频对应数据形式s表示训练集数据;n为训练视频个数;是视频经过预处理后的视频图片集合,其中,m为视频转化为图片帧的个数,使用ffmpeg将视频按照每秒20帧转化为图片序列;是视频对应的语义标签,其中,根据体育视频的种类有h种选取方式,q为视频的语义标签数量,对于不同的视频其语义标签的取值不同,语义标签数量的取值也不同;
S13.创建测试数据集:每一个测试视频对应数据形式t表示测试集数据,n为测试视频个数,是视频经过预处理后的视频图片集合;是视频对应的语义标签,其中,根据体育视频的种类有h种选取方式,q为视频的语义标签数量,对于不同的视频其语义标签的取值不同,语义标签数量的取值也不同。
3.根据权利要求2所述的一种视频语义提取方法,其特征在于:步骤S2包括下列子步骤:
S21.将训练数据中视频帧图片数量m不满足m=kw(k为任意整数,w为滑动窗口的大小)的视频帧图片集进行补充处理,将视频最后一帧的图片进行复制操作直到满足m为w的倍数;
S22.使用滑动窗口对视频帧序列进行滑动读取帧图片,滑动步长为滑动窗口的一半,每滑动一次,获取的帧图片为三维卷积神经网络的一次输入,本方法取滑动窗口大小w=16,因此测试数据形式经过处理变为w代表一次滑动窗口取得的图片集合,其中代表窗口滑动第k次滑动获得视频图片集。
4.根据权利要求3所述的一种视频语义提取方法,其特征在于:步骤S3包括下列子步骤:
S31.创建一个有五层卷积层、池化层,两层全连接层的三维卷积神经网络做为视频子动作语义的提取模型;
S32.将三维卷积神经网络的第二层全连接层的输出固定为子动作种类个数h;
S33.三维卷积神经网络输入为步骤S22中定义的输出为S32中三维卷积神经网络第二层全连接层的输出,其格式为子动作概率序列Y'k=[y'1,y'2,....,y'h]。
5.根据权利要求4所述的一种视频语义提取方法,其特征在于:步骤S4包括下列子步骤:
S41.通过滑动窗口对视频帧图片集的图片采集和三维卷积神经网络对滑动窗口采集的图片集进行子动作语义提取,得到了视频的子动作语义序列[Y'1,Y'2,...,Y'k],使用连续时序分类算法CTC完成子动作语义序列的去重和整合,该算法使用前向后向推导从而对重复的概率标签进行整合,最终得到可能性最大的标签序列;
S42.使用连续时序分类算法CTC算法将去重的子动作语义序列与视频语义标签构建损失函数,将损失反向传播,完成对三维神经网络的训练。
6.根据权利要求5所述的一种视频语义提取方法,其特征在于:步骤S5包括下列子步骤:
S51.视频采集与预处理;
S52.将经过处理的视频图片集合输入模型得到语义序列从而得到视频的高层语义特征。
CN201810564348.1A 2018-06-04 2018-06-04 一种新的基于深度学习模型的视频语义提取方法 Active CN108921032B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810564348.1A CN108921032B (zh) 2018-06-04 2018-06-04 一种新的基于深度学习模型的视频语义提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810564348.1A CN108921032B (zh) 2018-06-04 2018-06-04 一种新的基于深度学习模型的视频语义提取方法

Publications (2)

Publication Number Publication Date
CN108921032A true CN108921032A (zh) 2018-11-30
CN108921032B CN108921032B (zh) 2022-04-29

Family

ID=64410782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810564348.1A Active CN108921032B (zh) 2018-06-04 2018-06-04 一种新的基于深度学习模型的视频语义提取方法

Country Status (1)

Country Link
CN (1) CN108921032B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635791A (zh) * 2019-01-28 2019-04-16 深圳大学 一种基于深度学习的视频取证方法
CN109670453A (zh) * 2018-12-20 2019-04-23 杭州东信北邮信息技术有限公司 一种提取短视频主题的方法
CN109948721A (zh) * 2019-03-27 2019-06-28 北京邮电大学 一种基于视频描述的视频场景分类方法
WO2020252922A1 (zh) * 2019-06-21 2020-12-24 平安科技(深圳)有限公司 基于深度学习的唇语识别方法、装置、电子设备及介质
CN113673318A (zh) * 2021-07-12 2021-11-19 浙江大华技术股份有限公司 一种动作检测方法、装置、计算机设备和存储介质
CN115982336A (zh) * 2023-02-15 2023-04-18 创意信息技术股份有限公司 动态对话状态图学习方法、装置、系统及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050226502A1 (en) * 2004-03-31 2005-10-13 Microsoft Corporation Stylization of video
US20160379055A1 (en) * 2015-06-25 2016-12-29 Kodak Alaris Inc. Graph-based framework for video object segmentation and extraction in feature space
US20170150235A1 (en) * 2015-11-20 2017-05-25 Microsoft Technology Licensing, Llc Jointly Modeling Embedding and Translation to Bridge Video and Language
CN106919903A (zh) * 2017-01-19 2017-07-04 中国科学院软件研究所 一种鲁棒的基于深度学习的连续情绪跟踪方法
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN107239801A (zh) * 2017-06-28 2017-10-10 安徽大学 视频属性表示学习方法及视频文字描述自动生成方法
CN107506740A (zh) * 2017-09-04 2017-12-22 北京航空航天大学 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法
CN107590442A (zh) * 2017-08-22 2018-01-16 华中科技大学 一种基于卷积神经网络的视频语义场景分割方法
CN107729821A (zh) * 2017-09-27 2018-02-23 浙江大学 一种基于一维序列学习的视频概括方法
CN107979764A (zh) * 2017-12-06 2018-05-01 中国石油大学(华东) 基于语义分割和多层注意力框架的视频字幕生成方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050226502A1 (en) * 2004-03-31 2005-10-13 Microsoft Corporation Stylization of video
US20160379055A1 (en) * 2015-06-25 2016-12-29 Kodak Alaris Inc. Graph-based framework for video object segmentation and extraction in feature space
US20170150235A1 (en) * 2015-11-20 2017-05-25 Microsoft Technology Licensing, Llc Jointly Modeling Embedding and Translation to Bridge Video and Language
CN106919903A (zh) * 2017-01-19 2017-07-04 中国科学院软件研究所 一种鲁棒的基于深度学习的连续情绪跟踪方法
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN107239801A (zh) * 2017-06-28 2017-10-10 安徽大学 视频属性表示学习方法及视频文字描述自动生成方法
CN107590442A (zh) * 2017-08-22 2018-01-16 华中科技大学 一种基于卷积神经网络的视频语义场景分割方法
CN107506740A (zh) * 2017-09-04 2017-12-22 北京航空航天大学 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法
CN107729821A (zh) * 2017-09-27 2018-02-23 浙江大学 一种基于一维序列学习的视频概括方法
CN107979764A (zh) * 2017-12-06 2018-05-01 中国石油大学(华东) 基于语义分割和多层注意力框架的视频字幕生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HE, T等: "Moving object recognition using multi-view three-dimensional convolutional neural networks", 《NEURAL COMPUTING AND APPLICATIONS》 *
王梦来: "复杂场景监控视频事件检测", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670453A (zh) * 2018-12-20 2019-04-23 杭州东信北邮信息技术有限公司 一种提取短视频主题的方法
CN109670453B (zh) * 2018-12-20 2023-04-07 杭州东信北邮信息技术有限公司 一种提取短视频主题的方法
CN109635791A (zh) * 2019-01-28 2019-04-16 深圳大学 一种基于深度学习的视频取证方法
CN109948721A (zh) * 2019-03-27 2019-06-28 北京邮电大学 一种基于视频描述的视频场景分类方法
WO2020252922A1 (zh) * 2019-06-21 2020-12-24 平安科技(深圳)有限公司 基于深度学习的唇语识别方法、装置、电子设备及介质
CN113673318A (zh) * 2021-07-12 2021-11-19 浙江大华技术股份有限公司 一种动作检测方法、装置、计算机设备和存储介质
CN113673318B (zh) * 2021-07-12 2024-05-03 浙江大华技术股份有限公司 一种动作检测方法、装置、计算机设备和存储介质
CN115982336A (zh) * 2023-02-15 2023-04-18 创意信息技术股份有限公司 动态对话状态图学习方法、装置、系统及存储介质

Also Published As

Publication number Publication date
CN108921032B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
Zhou et al. Mict: Mixed 3d/2d convolutional tube for human action recognition
CN108921032A (zh) 一种新的基于深度学习模型的视频语义提取方法
WO2021057424A1 (zh) 基于文本的虚拟形象行为控制方法、设备和介质
KR102148392B1 (ko) 동영상 메타데이터 태깅 시스템 및 그 방법
WO2022184117A1 (zh) 基于深度学习的视频剪辑方法、相关设备及存储介质
CN109886190A (zh) 一种基于深度学习的人脸表情和姿态双模态融合表情识别方法
CN109218629A (zh) 视频生成方法、存储介质和装置
CN108307229A (zh) 一种影音数据的处理方法及设备
CN108805036A (zh) 一种新的非监督的视频语义提取方法
WO2021050772A1 (en) Action recognition with high-order interaction through spatial-temporal object tracking
CN112487949B (zh) 一种基于多模态数据融合的学习者行为识别方法
Gökçe et al. Score-level multi cue fusion for sign language recognition
CN109948721A (zh) 一种基于视频描述的视频场景分类方法
CN111143617A (zh) 一种图片或视频文本描述自动生成方法及系统
Kindiroglu et al. Temporal accumulative features for sign language recognition
Dai et al. Tan: Temporal aggregation network for dense multi-label action recognition
CN111488813B (zh) 视频的情感标注方法、装置、电子设备及存储介质
Chen et al. Talking head generation with audio and speech related facial action units
Diamantini et al. Automatic annotation of corpora for emotion recognition through facial expressions analysis
KR102526263B1 (ko) 이미지 다중 캡션 자동 생성 방법 및 시스템
CN114022938A (zh) 视素识别的方法、装置、设备和存储介质
CN111599363B (zh) 一种语音识别的方法及其装置
YM et al. Analysis on Exposition of Speech Type Video Using SSD and CNN Techniques for Face Detection
Sharma et al. Analyzing the Need for Video Summarization for Online Classes Conducted During Covid-19 Lockdown
Liu et al. Specific action recognition method based on unbalanced dataset

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 7-9, Liyang Tianxia, 99 Wanhe Road, Qingyang District, Chengdu, Sichuan 610000

Applicant after: Creative Information Technology Co.,Ltd.

Address before: Room 7-9, Liyang Tianxia, 99 Wanhe Road, Qingyang District, Chengdu, Sichuan 610000

Applicant before: SICHUAN TROY INFORMATION TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant