CN112906561A - 用于获取动作识别模型的方法、装置及设备 - Google Patents
用于获取动作识别模型的方法、装置及设备 Download PDFInfo
- Publication number
- CN112906561A CN112906561A CN202110187730.7A CN202110187730A CN112906561A CN 112906561 A CN112906561 A CN 112906561A CN 202110187730 A CN202110187730 A CN 202110187730A CN 112906561 A CN112906561 A CN 112906561A
- Authority
- CN
- China
- Prior art keywords
- video data
- preset
- model
- data set
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000003062 neural network model Methods 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001680 brushing effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- 230000009182 swimming Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及深度学习技术领域,公开一种获取动作识别模型的方法,包括:获取第一视频数据集和第二视频数据集;第一视频数据集存储有第一视频数据,第一视频数据为无标签视频数据;第二视频数据集存储有第二视频数据,第二视频数据为带有第一标签的视频数据;在第一视频数据集中利用第一预设模型确定出第三视频数据集;第三视频数据集存储有第三视频数据,第三视频数据为带有第二标签的视频数据,第二标签为伪标签;利用第二视频数据集和第三视频数据集对第二预设模型进行训练,获得动作识别模型。利用带有伪标签的视频数据和带有第一标签的视频数据进行训练,这样获得的动作识别模型泛化性更好。本申请还公开一种获取动作识别模型的装置及设备。
Description
技术领域
本申请涉及深度学习技术领域,例如涉及一种用于获取动作识别模型的方法、装置及设备。
背景技术
近些年,深度学习模型在计算机视觉、自然语言处理等方面取得了巨大的进展。随着更多可用数据集的发布,视频分析也取得了很大的进步。由于进行视频分析需要对视频数据进行标注,而标注视频数据集是一项异常费时费力的工作,导致通常利用公开的已标注标签的视频数据来训练模型。
在实现本公开实施例的过程中,发现相关技术中至少存在如下问题:现有技术利用公开的已标注标签的视频数据对预设的深度神经网络模型进行训练,导致动作识别模型泛化性较差。
发明内容
为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
本公开实施例提供了一种获取动作识别模型的方法、装置及设备,使得动作识别模型的泛化性更好。
在一些实施例中,所述方法包括:获取第一视频数据集和第二视频数据集;所述第一视频数据集存储有第一视频数据,所述第一视频数据为无标签视频数据;所述第二视频数据集存储有第二视频数据,所述第二视频数据为带有第一标签的视频数据;在所述第一视频数据集中利用第一预设模型确定出第三视频数据集;所述第三视频数据集存储有第三视频数据,所述第三视频数据为带有第二标签的视频数据,所述第二标签为伪标签;利用所述第二视频数据集和所述第三视频数据集对第二预设模型进行训练,获得动作识别模型。
在一些实施例中,所述装置包括:处理器和存储有程序指令的存储器,所述处理器被配置为在执行所述程序指令时,执行上述的用于获取动作识别模型的方法。
在一些实施例中,所述设备包括上述的用于获取动作识别模型的装置。
本公开实施例提供的获取动作识别模型的方法、装置及设备,可以实现以下技术效果:通过获取无标签的第一视频数据和带有第一标签的第二视频数据,利用第一预设模型从第一视频数据中确定出带有第二标签的第三视频数据,并利用带有第一标签的第二视频数据和带有伪标签的第三视频数据对第二预设模型进行训练,获得动作识别模型。利用第一视频数据集中的无标签视频数据获取带有伪标签的视频数据,并利用带有伪标签的视频数据和带有第一标签的视频数据对预设模型进行训练,这样获得的动作识别模型泛化性更好。
以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。
附图说明
一个或多个实施例通过与之对应的附图进行示例性说明,这些示例性说明和附图并不构成对实施例的限定,附图中具有相同参考数字标号的元件示为类似的元件,附图不构成比例限制,并且其中:
图1是本公开实施例提供的一个用于获取动作识别模型的方法的示意图;
图2是本公开实施例提供的一个用于获取动作识别模型的装置的示意图。
具体实施方式
为了能够更加详尽地了解本公开实施例的特点与技术内容,下面结合附图对本公开实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本公开实施例。在以下的技术描述中,为方便解释起见,通过多个细节以提供对所披露实施例的充分理解。然而,在没有这些细节的情况下,一个或多个实施例仍然可以实施。在其它情况下,为简化附图,熟知的结构和装置可以简化展示。
本公开实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开实施例的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
除非另有说明,术语“多个”表示两个或两个以上。
本公开实施例中,字符“/”表示前后对象是一种“或”的关系。例如,A/B表示:A或B。
术语“和/或”是一种描述对象的关联关系,表示可以存在三种关系。例如,A和/或B,表示:A或B,或,A和B这三种关系。
结合图1所示,本公开实施例提供一种用于获取动作识别模型的方法,包括:
步骤S101,获取第一视频数据集和第二视频数据集;第一视频数据集存储有第一视频数据,第一视频数据为无标签视频数据;第二视频数据集存储有第二视频数据,第二视频数据为带有第一标签的视频数据。
步骤S102,在第一视频数据集中利用第一预设模型确定出第三视频数据集;第三视频数据集存储有第三视频数据,第三视频数据为带有第二标签的视频数据,第二标签为伪标签。
步骤S103,利用第二视频数据集和第三视频数据集对第二预设模型进行训练,获得动作识别模型。
采用本公开实施例提供的用于获取动作识别模型的方法,通过获取无标签的第一视频数据和带有第一标签的第二视频数据,利用第一预设模型从第一视频数据中确定出带有第二标签的第三视频数据,并利用带有第一标签的第二视频数据和带有伪标签的第三视频数据对第二预设模型进行训练,获得动作识别模型。利用第一视频数据集中的无标签视频数据获取带有伪标签的视频数据,并利用带有伪标签的视频数据和带有第一标签的视频数据对预设模型进行训练,这样获得的动作识别模型泛化性更好。
可选地,获取第一视频数据集包括:获取初始数据;初始数据的类型包括图像数据、视频数据、音频数据和文本数据中的一种或多种;将初始数据按照不同类型分别转换为预设格式的第一视频数据。
可选地,获取初始数据包括:从搜索引擎、社交网络、视频分享平台等获取无标签的初始数据。可选地,音频数据包括视频解说或视频动作描述的音频数据。可选地,文本数据包括视频摘要的文本数据。
可选地,预设格式包括预设时长和预设文件格式。可选地,预设时长为10秒。可选地,预设文件格式包括:ASF(Advanced Streaming Format,高级串流格式)、AVI(AudioVideo Interleaved,音频视频交错格式)、MP4(Moving Picture Experts Group 4,动态图像专家组)等。例如,预设格式为10秒的MP4格式。
在一些实施例中,在获取到的初始数据的类型为图像数据的情况下,根据该图像数据利用编码-解码器结构的视频生成框架生成预设格式的第一视频数据。例如,利用OFE(Optical Flow Encoder,光流编码器)和DVG(Dynamic Video Generator,动态视频生成器)生成预设格式的第一视频数据。
在一些实施例中,在获取到的初始数据的类型为视频数据的情况下,若视频数据的时长超过预设时长,则利用视频剪辑工具将该视频数据剪辑为预设格式的第一视频数据;若视频数据的时长低于预设时长,则利用动作预测技术生成预设格式的第一视频数据,或将该视频数据进行重复填充生成预设格式的第一视频数据。例如,基于3D-CNN(3DConvolutionnal Neural Network,三维卷积神经网络)进行动作预测。
在一些实施例中,在获取到的初始数据的类型为音频数据的情况下,利用音频合成视频技术生成预设格式的第一视频数据。在一些实施例中,输入任意一段音频数据和人物的视频,通过GAN(Generative Adversarial Networks,生成式对抗网络)和记忆网络结合生成预设格式的第一视频数据,该第一视频数据为该人物不同头部动作和面部动作的视频。例如,输入任意一个声音片段和一张人物头像,利用OneShotA2V生成预设格式的第一视频数据。
在一些实施例中,在获取到的初始数据的类型为文本数据的情况下,利用文本合成视频技术生成预设格式的第一视频数据。例如,从文本数据中提取静态信息和动态信息,并利用VAE(Variational Auto-Encoder,变分自动编码器)和GAN生成预设格式的第一视频数据。
这样,有效利用网络上大量无标签的初始数据,通过结合现有的图像转换技术、视频合成技术、音频合成技术和文本合成技术,将不同类初始数据按照不同类型分别转换为预设格式的第一视频数据,解决了已标注标签的视频数据不足的问题,便于后续训练动作识别模型。
可选地,第一预设模型通过以下方式获得:利用第二视频数据集对预设的第一深度神经网络模型进行训练,获得第一预设模型。
可选地,第一标签为人工标注的标签。可选地,第二视频数据集为公开的已标注过的Kinetics-400数据集,该Kinetics-400数据集包含400个动作类别的第一标签,如扫地、游泳、刷牙等。
可选地,在第一视频数据集中利用第一预设模型确定出第三视频数据集,包括:将第一视频数据集输入第一预设模型,获得第一视频数据对应的伪标签;根据带有伪标签的第一视频数据获取第三视频数据。
可选地,根据带有伪标签的第一视频数据获取第三视频数据,包括:将满足第一预设条件的伪标签所对应的第一视频数据确定为第三视频数据。
可选地,满足第一预设条件的伪标签包括:预测信心达到设定阈值的伪标签。可选地,设定阈值为0.8。
可选地,在伪标签的预测信心达到0.8的情况下,将该伪标签所对应的第一视频数据确定为第三视频数据;否则,将该伪标签所对应的第一视频数据丢弃。
这样,通过第一预设模型对第一视频数据集进行筛选,将满足第一预设条件的伪标签所对应的第一视频数据确定为第三视频数据,从而减少噪声数据,使得后续利用第三视频数据集训练出的动作识别模型具有更高的准确性。
可选地,第二预设模型为第二深度神经网络模型,利用第二视频数据集和第三视频数据集对第二预设模型进行训练,获得动作识别模型,包括:利用第二视频数据集和第三视频数据集对第二预设模型进行迭代训练;获取每次迭代训练后的第二预设模型的损失值;根据损失值确定动作识别模型。
可选地,利用第二视频数据集和第三视频数据集对第二预设模型进行迭代训练,包括:在第二视频数据集中选取第一预设数量的第二视频数据;在第三视频数据集中选取第二预设数量的第三视频数据;第一预设数量与第二预设数量成预设比例;利用选取的第二视频数据和第三视频数据对第二预设模型进行迭代训练。可选地,预设比例为1:1。
在一些实施例中,利用第二视频数据集和第三视频数据集中的全部数据对第二预设模型进行训练为一个Epoch(时期),即“一代训练”或“一轮训练”。在一个Epoch的数据量对于计算机而言过大的情况下,将一个Epoch的第二视频数据集和第三视频数据集分成若干个Batch(批)来进行训练;在第二视频数据集中选取第一预设数量的第二视频数据,和,在第三视频数据集中选取第二预设数量的第三视频数据作为一个Batch。利用一个Batch对第二预设模型进行一次参数更新,即“迭代训练一次”。
在一些实施例中,第二视频数据集中有2000个第二视频数据,第三视频数据集中有2000个第三视频数据,对所有第二视频数据和所有第三视频数据进行训练为一个Epoch;在一个Epoch中将第二视频数据集中的2000个第二视频数据分成4个Batch,和,将第三视频数据集中的2000个第三视频数据分成4个Batch;完成一个Epoch需要进行4次迭代训练,每次迭代训练从第二视频数据集选取1个Batch的第二视频数据数据Bt,和,从第三视频数据集中选取1个Batch的第三视频数据BA,即每次迭代从第二视频数据集获取500个第二视频数据并从第三视频数据集中获取500个第三视频数据;计算每次迭代训练后的第二预设模型的损失值。
在一些实施例中,由于内存和显存的限制,导致不能一次性把整个第二视频数据集和第三视频数据集都输入深度神经网络进行计算,通过将第二视频数据和第三视频数据分批输入第二预设模型,能够实现对第二预设模型进行迭代训练。同时,由于第二视频数据集和第三视频数据集的分布不一致,如果直接对第二视频数据训练出的第一预设模型进行微调,会导致模型的准确度不高。通过输入第一预设数量的第二视频数据和第二预设数量的第三视频数据,调整第一预设数量和第二预设数量之间的比例控制输入第二预设模型的视频数据分布,从而对第二预设模型进行迭代训练。这样,同时考虑了两个数据集之间的差异,提高了最后确定出的动作识别模型的准确性。
在一些实施例中,利用第二视频数据集和第三视频数据集中的全部数据对第二预设模型进行多轮训练;例如:利用第二视频数据集和第三视频数据集中的全部数据对第二预设模型训练50轮,即50个Epoch。
可选地,获取每次迭代训练后的第二预设模型的损失值,包括:通过计算L=Lt+LA,获取损失值;其中,L为一次迭代的第二预设模型的损失值,Lt为该次迭代利用的所有第二视频数据的交叉熵损失值,LA为该次迭代利用的所有第三视频数据的交叉熵损失值。
可选地,根据损失值确定动作识别模型,包括:将满足第二预设条件的损失值所对应的第二预设模型确定为动作识别模型。
可选地,将满足第二预设条件的损失值所对应的第二预设模型确定为动作识别模型,包括:在连续第一预设次数获取的损失值之间的差值都在第一预设范围的情况下,在该连续第一预设次数中任意选取一个损失值所对应的第二预设模型确定为动作识别模型。可选地,第一预设次数为10次。在一些实施例中,在连续10次获取的损失值之间的差值都在0.001以内的情况下,从这10次中任意选取一个损失值所对应的第二预设模型确定为动作识别模型。
可选地,将满足第二预设条件的损失值所对应的第二预设模型确定为动作识别模型,包括:在连续第一预设次数获取的损失值之间的差值都在第一预设范围的情况下,将该连续第一预设次数中的最后一次的损失值所对应的第二预设模型确定为动作识别模型。在一些实施例中,在连续10次获取的损失值之间的差值都在0.001以内的情况下,将第10次获取的损失值所对应的第二预设模型确定为动作识别模型。
可选地,将满足第二预设条件的损失值所对应的第二预设模型确定为动作识别模型,包括:在获取到第二预设次数的损失值的情况下,将最后一次获取的损失值所对应的第二预设模型确定为动作识别模型。可选地,第一预设次数为200次。在一些实施例中,获取到了200次损失值,说明第二预设模型迭代训练了200次,将第200次获取的损失值所对应的第二预设模型确定为动作识别模型。
这样,将满足第二预设条件的损失值所对应的第二预设模型确定为动作识别模型,使得最后确定出的动作识别模型的泛化性和准确性较好。
在一些实施例中,由于标注视频数据很困难,比如人工标注了1万个视频,包含100类动作,通过网络收集这100类动作的视频数据,能得到一个包含10万个视频数据的数据集。如果直接在1万个已标注标签的视频数据上训练,很难得到一个准确率高且鲁棒性强的识别模型。因此,利用第一视频数据集中的无标签视频数据获取带有伪标签的视频数据,并利用带有伪标签的视频数据和人工标注标签的视频数据共同对第二预设模型进行迭代训练,这样获得的动作识别模型泛化性更好,同时,提高了动作识别模型的准确性和鲁棒性。
结合图2所示,本公开实施例提供一种用于获取动作识别模型的装置,包括处理器(processor)100和存储有程序指令的存储器(memory)101。可选地,该装置还可以包括通信接口(Communication Interface)102和总线103。其中,处理器100、通信接口102、存储器101可以通过总线103完成相互间的通信。通信接口102可以用于信息传输。处理器100可以调用存储器101中的程序指令,以执行上述实施例的用于获取动作识别模型的方法。
此外,上述的存储器101中的程序指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器101作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令/模块。处理器100通过运行存储在存储器101中的程序指令/模块,从而执行功能应用以及数据处理,即实现上述实施例中用于获取动作识别模型的方法。
存储器101可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器101可以包括高速随机存取存储器,还可以包括非易失性存储器。
采用本公开实施例提供的用于获取动作识别模型的装置,通过获取无标签的第一视频数据和带有第一标签的第二视频数据,利用第一预设模型从第一视频数据中确定出带有第二标签的第三视频数据,并利用带有第一标签的第二视频数据和带有伪标签的第三视频数据对第二预设模型进行训练,获得动作识别模型。利用第一视频数据集中的无标签视频数据获取带有伪标签的视频数据,并利用带有伪标签的视频数据和带有第一标签的视频数据对预设模型进行训练,这样获得的动作识别模型泛化性更好。
本公开实施例提供了一种设备,包含上述的用于获取动作识别模型的装置。
可选地,设备包括:计算机、服务器等。
该设备通过获取无标签的第一视频数据和带有第一标签的第二视频数据,利用第一预设模型从第一视频数据中确定出带有第二标签的第三视频数据,并利用带有第一标签的第二视频数据和带有伪标签的第三视频数据对第二预设模型进行训练,获得动作识别模型。利用第一视频数据集中的无标签视频数据获取带有伪标签的视频数据,并利用带有伪标签的视频数据和带有第一标签的视频数据对预设模型进行训练,这样获得的动作识别模型泛化性更好。
本公开实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为执行上述用于获取动作识别模型的方法。
本公开实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述用于获取动作识别模型的方法。
上述的计算机可读存储介质可以是暂态计算机可读存储介质,也可以是非暂态计算机可读存储介质。
本公开实施例的技术方案可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括一个或多个指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开实施例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质,包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
以上描述和附图充分地示出了本公开的实施例,以使本领域的技术人员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施例的部分和特征可以被包括在或替换其他实施例的部分和特征。而且,本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的,除非上下文清楚地表明,否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地,如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外,当用于本申请中时,术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素,和/或组件的存在,但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。本文中,每个实施例重点说明的可以是与其他实施例的不同之处,各个实施例之间相同相似部分可以互相参见。对于实施例公开的方法、产品等而言,如果其与实施例公开的方法部分相对应,那么相关之处可以参见方法部分的描述。
本领域技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,可以取决于技术方案的特定应用和设计约束条件。所述技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能,但是这种实现不应认为超出本公开实施例的范围。所述技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本文所披露的实施例中,所揭露的方法、产品(包括但不限于装置、设备等),可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,可以仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例。另外,在本公开实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
附图中的流程图和框图显示了根据本公开实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。在附图中的流程图和框图所对应的描述中,不同的方框所对应的操作或步骤也可以以不同于描述中所披露的顺序发生,有时不同的操作或步骤之间不存在特定的顺序。例如,两个连续的操作或步骤实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
Claims (10)
1.一种用于获取动作识别模型的方法,其特征在于,包括:
获取第一视频数据集和第二视频数据集;所述第一视频数据集存储有第一视频数据,所述第一视频数据为无标签视频数据;所述第二视频数据集存储有第二视频数据,所述第二视频数据为带有第一标签的视频数据;
在所述第一视频数据集中利用第一预设模型确定出第三视频数据集;所述第三视频数据集存储有第三视频数据,所述第三视频数据为带有第二标签的视频数据,所述第二标签为伪标签;
利用所述第二视频数据集和所述第三视频数据集对第二预设模型进行训练,获得动作识别模型。
2.根据权利要求1所述的方法,其特征在于,所述获取第一视频数据集包括:
获取初始数据;所述初始数据的类型包括图像数据、视频数据、音频数据和文本数据中的一种或多种;
将所述初始数据按照不同类型分别转换为预设格式的第一视频数据。
3.根据权利要求1所述的方法,其特征在于,所述第一预设模型通过以下方式获得:
利用所述第二视频数据集对预设的第一深度神经网络模型进行训练,获得第一预设模型。
4.根据权利要求1所述的方法,其特征在于,在所述第一视频数据集中利用第一预设模型确定出第三视频数据集,包括:
将所述第一视频数据集输入第一预设模型,获得所述第一视频数据对应的伪标签;
根据带有所述伪标签的第一视频数据获取第三视频数据。
5.根据权利要求4所述的方法,其特征在于,根据带有所述伪标签的第一视频数据获取第三视频数据,包括:
将满足第一预设条件的伪标签所对应的第一视频数据确定为第三视频数据。
6.根据权利要求1至5任一项所述的方法,其特征在于,第二预设模型为第二深度神经网络模型,利用所述第二视频数据集和所述第三视频数据集对第二预设模型进行训练,获得动作识别模型,包括:
利用所述第二视频数据集和所述第三视频数据集对所述第二预设模型进行迭代训练;
获取每次迭代训练后的第二预设模型的损失值;
根据所述损失值确定动作识别模型。
7.根据权利要求6所述的方法,其特征在于,利用所述第二视频数据集和所述第三视频数据集对所述第二预设模型进行迭代训练,包括:
在所述第二视频数据集中选取第一预设数量的第二视频数据;
在所述第三视频数据集中选取第二预设数量的第三视频数据;所述第一预设数量与所述第二预设数量成预设比例;
利用选取的第二视频数据和第三视频数据对所述第二预设模型进行迭代训练。
8.根据权利要求6所述的方法,其特征在于,根据所述损失值确定动作识别模型,包括:
将满足第二预设条件的损失值所对应的第二预设模型确定为动作识别模型。
9.一种用于获取动作识别模型的装置,包括处理器和存储有程序指令的存储器,其特征在于,所述处理器被配置为在执行所述程序指令时,执行如权利要求1至8任一项所述的用于获取动作识别模型的方法。
10.一种设备,其特征在于,包括如权利要求9所述的用于获取动作识别模型的装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110187730.7A CN112906561A (zh) | 2021-02-18 | 2021-02-18 | 用于获取动作识别模型的方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110187730.7A CN112906561A (zh) | 2021-02-18 | 2021-02-18 | 用于获取动作识别模型的方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112906561A true CN112906561A (zh) | 2021-06-04 |
Family
ID=76123753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110187730.7A Pending CN112906561A (zh) | 2021-02-18 | 2021-02-18 | 用于获取动作识别模型的方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112906561A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263824A (zh) * | 2019-05-29 | 2019-09-20 | 阿里巴巴集团控股有限公司 | 模型的训练方法、装置、计算设备及计算机可读存储介质 |
WO2020081867A1 (en) * | 2018-10-18 | 2020-04-23 | Deepnorth Inc. | Semi-supervised person re-identification using multi-view clustering |
CN111062495A (zh) * | 2019-11-28 | 2020-04-24 | 深圳市华尊科技股份有限公司 | 机器学习方法及相关装置 |
CN111523510A (zh) * | 2020-05-08 | 2020-08-11 | 国家邮政局邮政业安全中心 | 行为识别方法、装置、系统、电子设备及存储介质 |
CN111565318A (zh) * | 2020-05-06 | 2020-08-21 | 中国科学院重庆绿色智能技术研究院 | 一种基于稀疏样本的视频压缩方法 |
CN111652320A (zh) * | 2020-06-10 | 2020-09-11 | 创新奇智(上海)科技有限公司 | 一种样本分类方法、装置、电子设备及存储介质 |
CN111898696A (zh) * | 2020-08-10 | 2020-11-06 | 腾讯云计算(长沙)有限责任公司 | 伪标签及标签预测模型的生成方法、装置、介质及设备 |
CN112149733A (zh) * | 2020-09-23 | 2020-12-29 | 北京金山云网络技术有限公司 | 模型训练、质量确定方法、装置、电子设备及存储介质 |
CN112287994A (zh) * | 2020-10-26 | 2021-01-29 | 北京嘀嘀无限科技发展有限公司 | 伪标签处理方法、装置、设备及计算机可读存储介质 |
-
2021
- 2021-02-18 CN CN202110187730.7A patent/CN112906561A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020081867A1 (en) * | 2018-10-18 | 2020-04-23 | Deepnorth Inc. | Semi-supervised person re-identification using multi-view clustering |
CN110263824A (zh) * | 2019-05-29 | 2019-09-20 | 阿里巴巴集团控股有限公司 | 模型的训练方法、装置、计算设备及计算机可读存储介质 |
CN111062495A (zh) * | 2019-11-28 | 2020-04-24 | 深圳市华尊科技股份有限公司 | 机器学习方法及相关装置 |
CN111565318A (zh) * | 2020-05-06 | 2020-08-21 | 中国科学院重庆绿色智能技术研究院 | 一种基于稀疏样本的视频压缩方法 |
CN111523510A (zh) * | 2020-05-08 | 2020-08-11 | 国家邮政局邮政业安全中心 | 行为识别方法、装置、系统、电子设备及存储介质 |
CN111652320A (zh) * | 2020-06-10 | 2020-09-11 | 创新奇智(上海)科技有限公司 | 一种样本分类方法、装置、电子设备及存储介质 |
CN111898696A (zh) * | 2020-08-10 | 2020-11-06 | 腾讯云计算(长沙)有限责任公司 | 伪标签及标签预测模型的生成方法、装置、介质及设备 |
CN112149733A (zh) * | 2020-09-23 | 2020-12-29 | 北京金山云网络技术有限公司 | 模型训练、质量确定方法、装置、电子设备及存储介质 |
CN112287994A (zh) * | 2020-10-26 | 2021-01-29 | 北京嘀嘀无限科技发展有限公司 | 伪标签处理方法、装置、设备及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
JIANGNING ZHANG等: "DTVNet: Dynamic Time-lapse Video Generation via Single Still Image", 《ARXIV:2008.04776V1 [CS.CV]》, pages 1 - 18 * |
NEERAJ KUMAR等: "Robust One Shot Audio to Video Generation", 《CVPR2020》, pages 1 - 10 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xiong et al. | Learning to generate time-lapse videos using multi-stage dynamic generative adversarial networks | |
CN109891897B (zh) | 用于分析媒体内容的方法 | |
CN111079532B (zh) | 一种基于文本自编码器的视频内容描述方法 | |
He et al. | Probabilistic video generation using holistic attribute control | |
CN107861938B (zh) | 一种poi文案生成方法及装置,电子设备 | |
CN111163359B (zh) | 弹幕生成方法、装置和计算机可读存储介质 | |
CN109960761B (zh) | 信息推荐方法、装置、设备及计算机可读存储介质 | |
US11727717B2 (en) | Data-driven, photorealistic social face-trait encoding, prediction, and manipulation using deep neural networks | |
WO2023273628A1 (zh) | 一种视频循环识别方法、装置、计算机设备及存储介质 | |
CN107992937B (zh) | 基于深度学习的非结构化数据判决方法和装置 | |
CN109241268A (zh) | 一种相似信息推荐方法、装置、设备及存储介质 | |
CN111598979A (zh) | 虚拟角色的面部动画生成方法、装置、设备及存储介质 | |
CN106407381A (zh) | 一种基于人工智能的推送信息的方法和装置 | |
US20230306258A1 (en) | Training video data generation neural networks using video frame embeddings | |
CN116363261A (zh) | 图像编辑模型的训练方法、图像编辑方法和装置 | |
CN114339409A (zh) | 视频处理方法、装置、计算机设备及存储介质 | |
CN108959388A (zh) | 信息生成方法及装置 | |
CN111914731A (zh) | 一种基于自注意力机制的多模态lstm的视频动作预测方法 | |
CN114596841A (zh) | 实时语音识别方法、模型训练方法、装置及设备 | |
CN114330514B (zh) | 一种基于深度特征与梯度信息的数据重建方法及系统 | |
CN117173497B (zh) | 一种图像生成方法、装置、电子设备及存储介质 | |
CN113657272B (zh) | 一种基于缺失数据补全的微视频分类方法及系统 | |
CN117474748A (zh) | 一种图像生成方法、装置、电子设备及存储介质 | |
CN116977714A (zh) | 图像分类方法、装置、设备、存储介质和程序产品 | |
CN116739647A (zh) | 一种营销数据智能分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |