CN113158920B

CN113158920B - 特定动作识别模型的训练方法、装置以及计算机设备

Info

Publication number: CN113158920B
Application number: CN202110454503.6A
Authority: CN
Inventors: 孙奥兰; 王健宗; 程宁
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2023-12-22
Anticipated expiration: 2041-04-26
Also published as: CN113158920A

Abstract

本发明提供了一种特定动作识别模型的训练方法、装置以及计算机设备，其中，方法包括：获取包含有特定动作的多个视频信息；将主视频数据输入至第一初步模型中进行二维数据训练，获取训练完成后的所述第一初步模型中的函数对应的第一函数参数；将所述第一函数参数输入至第二初步模型的函数中，得到对应的暂时模型；将所述视频信息输入至所述暂时模型中进行三维数据训练，训练完毕后得到特定动作识别模型。本发明的有益效果：根据特定动作识别模型可以识别出视频中的人物中的特定动作，从而实现了自动识别视频中的人物。

Description

特定动作识别模型的训练方法、装置以及计算机设备

技术领域

本发明涉及人工智能技术领域，特别涉及一种特定动作识别模型的训练方法、装置以及计算机设备。

背景技术

目前，在人脸检测技术逐渐成熟后，人脸检测已经可以相关人员确定出视频中的人物信息，但是其识别过程依赖于数据库中的人脸数据，故依然无法实现对不在数据库中的人员识别。目前，动作意图识别即将得到广泛应用，在以往，查找具有特定动作的人物往往需要相关人员对大量视频高度集中注意力筛选，人为筛选较为耗时耗力，因此亟需一种对人物识别的方法。

发明内容

本发明的主要目的为提供一种特定动作识别模型的训练方法、装置以及计算机设备，旨在解决人为筛选较为耗时耗力的问题。

本发明提供了一种特定动作识别模型的训练方法，包括：

获取包含有特定动作的多个视频信息；其中，所述视频信息包括一组主视频数据和至少一组辅视频数据；

将各所述视频信息中的所述主视频数据输入至第一初步模型中进行二维数据训练，获取训练完成后的所述第一初步模型中的函数对应的第一函数参数；其中所述第一初步模型是待训练的生成对抗网络；

将所述第一函数参数输入至第二初步模型的函数中，得到对应的暂时模型；其中所述第二初步模型是待训练的生成对抗网络；

将所述视频信息输入至所述暂时模型中进行三维数据训练，训练完毕后得到特定动作识别模型。

本发明还提供了一种特定动作识别模型的训练装置，包括：

获取模块，用于获取包含有特定动作的多个视频信息；其中，所述视频信息包括一组主视频数据和至少一组辅视频数据；

第一输入模块，用于将各所述视频信息中的所述主视频数据输入至第一初步模型中进行二维数据训练，获取训练完成后的所述第一初步模型中的函数对应的第一函数参数；其中所述第一初步模型是待训练的生成对抗网络；

第二输入模块，用于将所述第一函数参数输入至第二初步模型的函数中，得到对应的暂时模型；其中所述第二初步模型是待训练的生成对抗网络；

第三输入模块，用于将所述视频信息输入至所述暂时模型中进行三维数据训练，训练完毕后得到特定动作识别模型。

本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本发明的有益效果：通过获取视频信息，并先将视频信息中的主视频数据进行二维数据训练，以得到第一函数参数，由于平面数据对人物的识别具有相当大的局限性，故而再通过三维数据进行优化训练，最终得到特定动作识别模型，根据特定动作识别模型可以识别出视频中的人物中的特定动作，从而实现了自动识别视频中的人物。

附图说明

图1是本发明一实施例的一种特定动作识别模型的训练方法的流程示意图；

图2是本发明一实施例的一种特定动作识别模型的训练装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变，所述的连接可以是直接连接，也可以是间接连接。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

另外，在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参照图1，本发明提出一种特定动作识别模型的训练方法，包括：

S1：获取包含有特定动作的多个视频信息；其中，所述视频信息包括一组主视频数据和至少一组辅视频数据；

S2：将各所述视频信息中的所述主视频数据输入至第一初步模型中进行二维数据训练，获取训练完成后的所述第一初步模型中的函数对应的第一函数参数；其中所述第一初步模型是待训练的生成对抗网络；

S3：将所述第一函数参数输入至第二初步模型的函数中，得到对应的暂时模型；其中所述第二初步模型是待训练的生成对抗网络；

S4：将所述视频信息输入至所述暂时模型中进行三维数据训练，训练完毕后得到特定动作识别模型；其中所述第二初步模型是待训练的生成对抗网络。

如上述步骤S1所述，获取包含有特定动作的多个视频信息。获取的方式可以是从视频数据库中获取，例如，事先收集各类动作的视频数据，由于天网系统中，一般不会只有一个摄像头拍到做该特定动作的视频数据，所以可以得到主视频数据和至少一组辅视频数据，其中，主视频数据为特定动作记录最清晰的视频数据，辅视频数据的选择，优选通过便于构建三维模型的视频数据，也可以是将所有的视频数据都获取，以便于后续构建三维模型。其中特定动作可以是犯罪动作，也可以是运动人员所展示的特定动作等。

如上述步骤S2所述，将各所述视频信息中的所述主视频数据输入至第一初步模型中进行二维数据训练，获取训练完成后的所述第一初步模型中的函数对应的第一函数参数。具体地，第一初步模型的训练可以通过待训练的生成网络和待训练的判别网络进行对抗训练得到的模型，即先将得到的主视频数据每帧图片中的每个预设关节点进行标注，将其作为第一输出结果来调整第一初步模型中的函数参数，使第一初步模型的输出结果可以接近于第一输出结果，获取训练后的第一初步模型中的第一函数参数。具体地训练方式为，将各主视频数据对待训练的生成对抗网络和待训练的判别网络进行对抗训练，当对抗训练达到收敛条件后，即完成对生成对抗网络的训练，从而得到第一函数参数。其中，待训练的生成对抗网络(Generative Adversarial Network[1]，简称GAN)是非监督式学习的一种方法，其原理为通过两个神经网络相互博弈的方式进行训练。

如上述步骤S3所述，将所述第一函数参数输入至第二初步模型的函数中，得到对应的暂时模型。由于直接将视频信息输入至第二初步模型中，需要大量的训练数据，另外第二初步模型的运算也会相当复杂，甚至会导致训练后的模型无法准确识别出人体的动作。因此需要将第一初步模型的训练结果，即第一函数参数输入至第二初步模型中，以便于后续的参数计算。

如上述步骤S4所述，将所述视频信息输入至所述暂时模型中进行三维数据训练，训练完毕后得到特定动作识别模型。即在第一初步模型训练的基础上，对第二初步模型进行训练，训练的具体方式为先根据主视频数据和辅视频数据获取到人物的三维模型，将三维模型中的预设关节点进行标注，然后作为第二输出结果，然后与直接将视频信息输入至第二初步模型的结果进行比较，进行对抗训练，使第二初步模型的输出结果与第二输出结果相近。其中，对应主视频中的每帧图片都应当有对应的人物的三维模型，以达到对人物三维动作的识别。

在一个实施例中，所述将各所述视频信息中的所述主视频数据输入至第一初步模型中进行二维数据训练的步骤S2，包括：

S201：采集所述主视频数据中各帧图片的像素点；

S202：将各帧图片的像素点分别输入至RGB颜色模型中，得到各像素点的R颜色通道的数值、G颜色通道的数值和B颜色通道的数值，并根据预设的三值化法将各帧图片中的像素点的RGB颜色设置为(0,0,0)、(255,255,255)或者(P,P,P),其中P为大于0且小于 255的预设数值，得到各帧图片各自对应的暂时图片；

S203：将所述暂时图片构成的视频数据输入至所述第一初步模型中进行所述二维数据训练。

如上述步骤S201-S203所述，实现了对主视频数据的预处理，以使其可以充当训练数据，训练第一初步模型。具体的，采集主视频数据中各帧图片的像素点，采集的方式可以是通过处理视频的相关软件进行采集，例如PS(photoshop)，将各帧图片的像素点分别输入至RGB 模型中，可以得到各个像素点的R颜色通道的数值、G颜色通道的数值和B颜色通道的数值，然后根据预设的三值化法将RGB颜色设置为(0,0,0)、(255,255,255)或者(P,P,P)，从而得到各帧图片对应的三色图片，即暂时图片，然后再将暂时图片输入至第一模型中进行二维数据训练，从而减小了色彩图像对第一模型训练的影响，提高了训练的精度。

在一个实施例中，所述获取包含有特定动作的多个视频信息的步骤S1，包括：

S101：基于视频数据库，并通过预设的人脸识别技术识别各原始视频数据；其中，所述原始视频数据中包含有做所述特定动作的人物；

S102：根据识别结果，筛选出原始视频数据中具有所述视频数据库中的所述人物的主视频数据；

S103：基于所述主视频数据的时间轴，找出与所述主视频数据具有相同人物的辅视频数据。

如上述步骤S101-S103所述，实现了对视频信息的获取。即可以从视频数据库中，基于人脸识别获取到对应的人物做特定动作的主视频数据，其中，通过人脸识别的实现方式，可以从现有技术中进行选择，在此不做赘述，另外，在人物的识别过程中，视频数据库中一般都是保存人物做特定动作时的视频，故而通过人脸识别就可以得到对应的主视频数据，再基于时间轴可以找出其他的辅视频数据，具体地，即在相同的时间段内，基于人脸识别找出另一组具有人物的视频数据。

在一个实施例中，所述将各所述视频信息中的所述主视频数据输入至第一初步模型中进行二维数据训练，得到所述第一初步模型训练后的第一函数参数的步骤S2，包括：

S211：对所述主视频数据每帧图片中的人物的预设关节点进行标注作为第一输出结果；

S212：将各所述主视频数据以及对应的所述第一输出结果，输入至所述第一初步模型的计算函数中进行二维数据训练，得到所述第一函数参数。

如上述步骤S211-S212所述，实现了对第一初步模型的训练。即先对主视频数据每帧图片中的预设关节点进行标注，即对人体的关键部位进行标注，例如头部、颈椎、背部、腿部、手部等显示动作的关键部位，标注的方式可以是现有技术中的任意方式，可以顺利识别出各个标注即可，优选地，采用坐标对关键部位进行标注，并将其坐标值作为第一输出结果，然后将主视频数据和第一输出结果输入第一初步模型中，进行二维数据训练，训练的方式为将主视频数据输入至第一初步模型中，不断调整第一初步模型中的参数，使其输出结果不断向第一输出结果靠拢，最终完成对第一初步模型的训练。

在一个实施例中，所述将各所述主视频数据以及对应的所述第一输出结果，输入至所述第一初步模型的计算函数中进行二维数据训练，得到所述第一函数参数的步骤S212，包括：

S2121：将所述主视频数据输入至所述第一初步模型中的函数中，得到预测结果；

S2122：计算所述预测结果与所述第一输出结果构成的真样本数据的损失值；

S2123：判断所述损失值是否高于预设损失阈值；

S2124：若高于所述预设损失阈值，则将修改所述第一初步模型内的函数参数，直至损失值不高于所述预设损失阈值，以完成训练；

S2125：获取训练后的所述第一初步模型中的所述第一函数参数。

如上述步骤S2121-S2125所述，实现了对第一函数参数的获取。即先将主视频数据输入至未训练的第一初步模型中，由于第一初步模型中具有原始的参数，所以可以得到对应的输出结果，即预测结果。一般而言，未经训练的第一初步模型得到的预测结果与第一输出结果对应的真样本数据会有较大的差异，这个差异可以通过计算损失值来计算出，其中，计算损失值的公式可以从现有技术中获取，例如为平方损失函数、对数损失函数、绝对值损失函数、指数损失函数等，在此不再赘述，将计算出的损失值与预设损失阈值进行比较，当大于该预设损失阈值，则可以认为第一初步模型中的参数不对，需要调整，当不大于该预设损失阈值时，则可以认为第一初步模型已经训练完成，因此，通过预测结果和真样本数据的不断比对，可以使最终的损失值减小，即对第一初步模型进行收敛，得到训练后的第一初步模型，再获取其中的函数参数，即为第一函数参数。

在一个实施例中，所述将所述视频信息输入至所述暂时模型中进行三维数据训练，训练完毕后得到特定动作识别模型的步骤S4，包括：

S401：按照时间轴分析所述视频信息中的所述主视频数据和所述辅视频数据，得到所述视频信息各帧图片信息分别对应的目标人物的三维模型；

S402：对各所述三维模型中的预设关节点进行标注作为第二输出结果；

S403：将各所述三维模型和对应的所述第二输出结果，输入至第二初步模型中进行三维训练，训练完毕后得到所述特点动作识别模型。

如上述步骤S401-S403所述，实现了对第二初步模型的训练。即按照时间轴分析主视频数据和辅视频数据，其中，需要通过时间轴来获取到主视频数据和辅视频数据，并且使主视频数据中的每一帧图片都能对应上辅视频数据中的每帧图片，通过三维数据配准，将主视频数据每帧图片中的人物和辅视频数据每帧图片中的人物在同一三维空间中进行记录，从而得到该人物的三维模型，另外，对三维模型中的预设关节点进行坐标标注，即获取到了每个预设关节点的三维坐标，并将其作为第二输出结果，将第二输出结果和三维模型输入至第二初步模型中进行三维训练，其中，训练的方式为将三维模型输入至第二初步模型中，可以得到第三输出结果，计算第三输出结果与第二输出结果的误差，根据误差不断调整第二初步模型中的参数，使其第三输出结果不断向第三输出结果靠拢，最终完成对第二初步模型的训练。

参照图2，本发明还提供了一种特定动作识别模型的训练装置，包括：

获取模块10，用于获取包含有特定动作的多个视频信息；其中，所述视频信息包括一组主视频数据和至少一组辅视频数据；

第一输入模块20，用于将各所述视频信息中的所述主视频数据输入至第一初步模型中进行二维数据训练，获取训练完成后的所述第一初步模型中的函数对应的第一函数参数；其中所述第一初步模型是待训练的生成对抗网络；

第二输入模块30，用于将所述第一函数参数输入至第二初步模型的函数中，得到对应的暂时模型；其中所述第二初步模型是待训练的生成对抗网络；

第三输入模块40，用于将所述视频信息输入至所述暂时模型中进行三维数据训练，训练完毕后得到特定动作识别模型。

在一个实施例中，所述第一输入模块20包括：

采集子模块，用于采集所述主视频数据中各帧图片的像素点；

像素点输入子模块，用于将各帧图片的像素点分别输入至RGB 颜色模型中，得到各像素点的R颜色通道的数值、G颜色通道的数值和B颜色通道的数值，并根据预设的三值化法将各帧图片中的像素点的RGB颜色设置为(0,0,0)、(255,255,255)或者(P,P,P),其中P为大于0且小于255的预设数值，得到各帧图片各自对应的暂时图片；

视频数据输入子模块，用于将所述暂时图片构成的视频数据输入至所述第一初步模型中进行所述二维数据训练。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储各种视频数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时可以实现上述任一实施例所述的特定动作识别模型的训练方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时可以实现上述任一实施例所述的特定动作识别模型的训练方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM (EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM一多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM (SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM (RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性 (防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置 (风控审计)；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理(接口适配)，然后通过共识算法将业务信息加密(共识管理)，在加密之后完整一致的传输至共享账本上(网络通信)，并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上(合约注册)，根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种特定动作识别模型的训练方法，其特征在于，包括：

将所述视频信息输入至所述暂时模型中进行三维数据训练，训练完毕后得到特定动作识别模型；

所述获取包含有特定动作的多个视频信息的步骤，包括：

基于视频数据库，通过预设的人脸识别技术识别各原始视频数据；其中，所述原始视频数据中包含有做所述特定动作的人物；

根据识别结果，筛选出原始视频数据中具有所述视频数据库中的所述人物的主视频数据；

基于所述主视频数据的时间轴，找出与所述主视频数据具有相同人物的辅视频数据。

2.如权利要求1所述的特定动作识别模型的训练方法，其特征在于，所述将各所述视频信息中的所述主视频数据输入至第一初步模型中进行二维数据训练的步骤，包括：

采集所述主视频数据中各帧图片的像素点；

将各帧图片的像素点分别输入至RGB颜色模型中，得到各像素点的R颜色通道的数值、G颜色通道的数值和B颜色通道的数值，并根据预设的三值化法将各帧图片中的像素点的RGB颜色设置为(0,0,0)、(255,255,255)或者(P,P,P),其中P为大于0且小于255的预设数值，得到各帧图片各自对应的暂时图片；

将所述暂时图片构成的视频数据输入至所述第一初步模型中进行所述二维数据训练。

3.如权利要求1所述的特定动作识别模型的训练方法，其特征在于，所述将各所述视频信息中的所述主视频数据输入至第一初步模型中进行二维数据训练，得到所述第一初步模型训练后的第一函数参数的步骤，包括：

对所述主视频数据每帧图片中的人物的预设关节点进行标注作为第一输出结果；

将各所述主视频数据以及对应的所述第一输出结果，输入至所述第一初步模型的计算函数中进行二维数据训练，得到所述第一函数参数。

4.如权利要求3所述的特定动作识别模型的训练方法，其特征在于，所述将各所述主视频数据以及对应的所述第一输出结果，输入至所述第一初步模型的计算函数中进行二维数据训练，得到所述第一函数参数的步骤，包括：

将所述主视频数据输入至所述第一初步模型中的函数中，得到预测结果；

计算所述预测结果与所述第一输出结果构成的真样本数据的损失值；

判断所述损失值是否高于预设损失阈值；

若高于所述预设损失阈值，则将修改所述第一初步模型内的函数参数，直至损失值不高于所述预设损失阈值，以完成训练；

获取训练后的所述第一初步模型中的所述第一函数参数。

5.如权利要求1所述的特定动作识别模型的训练方法，其特征在于，所述将所述视频信息输入至所述暂时模型中进行三维数据训练，训练完毕后得到特定动作识别模型的步骤，包括：

按照时间轴分析所述视频信息中的所述主视频数据和所述辅视频数据，得到所述视频信息各帧图片信息分别对应的目标人物的三维模型；

对各所述三维模型中的预设关节点进行标注作为第二输出结果；

将各所述三维模型和对应的所述第二输出结果，输入至第二初步模型中进行三维训练，训练完毕后得到所述特定动作识别模型。

6.一种特定动作识别模型的训练装置，所述特定动作识别模型的训练装置用于执行权利要求1-5任一项特定动作识别模型的训练方法，其特征在于，包括：

7.如权利要求6所述的特定动作识别模型的训练装置，其特征在于，所述第一输入模块包括：

像素点输入子模块，用于将各帧图片的像素点分别输入至RGB颜色模型中，得到各像素点的R颜色通道的数值、G颜色通道的数值和B颜色通道的数值，并根据预设的三值化法将各帧图片中的像素点的RGB颜色设置为(0,0,0)、(255,255,255)或者(P,P,P),其中P为大于0且小于255的预设数值，得到各帧图片各自对应的暂时图片；

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。