CN116453204A

CN116453204A - 动作识别方法和装置、存储介质及电子设备

Info

Publication number: CN116453204A
Application number: CN202210011197.3A
Authority: CN
Inventors: 陈思宏; 陈宸; 鞠奇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-05
Filing date: 2022-01-05
Publication date: 2023-07-18

Abstract

本发明公开了一种动作识别方法和装置、存储介质及电子设备。其中，该方法包括：获取待识别的目标视频图像；提取目标视频图像中目标对象的动作特征；利用动作特征与异常动作识别系数，确定目标对象对应于各异常动作类别的置信度，其中，异常动作识别系数是利用虚拟仿真游戏图像及真实场景图像进行训练后所得到的模型系数，虚拟仿真游戏图像中包括虚拟对象执行动作的图像；基于置信度确定目标视频图像中目标对象匹配的异常动作类别。本发明解决了现有技术对异常动作的识别操作复杂度高的技术问题。

Description

动作识别方法和装置、存储介质及电子设备

技术领域

本发明涉及计算机领域，具体而言，涉及一种动作识别方法和装置、存储介质及电子设备。

背景技术

如今，为了及时发现真实场景中发生的异常情形，各个场景的负责方通常会在场景中安装多个图像采集设备，来对位于场景中的对象进行动态监测。在对采集到的视频图像进行识别分析后，若确定该视频图像中包含异常动作，则可以判断出当前场景下已发生异常情况，需要及时发出报警信息。其中，这里的异常动作识别过程是基于深度学习任务实现的。

为了得到用于完成上述深度学习任务的深度学习模型，往往需要大量的样本数据来进行训练。然而，实际上，真实场景中在一段时间内产生的包含异常动作的视频图像的数据量是很少的，如果要获取到足够量的样本数据，则需要获取大量的视频图像，这将导致对异常动作的识别操作复杂度被增加的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种动作识别方法和装置、存储介质及电子设备，以至少解决现有技术对异常动作的识别操作复杂度高的技术问题。

根据本发明实施例的一个方面，提供了一种动作识别方法，包括：获取待识别的目标视频图像；提取目标视频图像中目标对象的动作特征；利用动作特征与异常动作识别系数，确定目标对象对应于各异常动作类别的置信度，其中，异常动作识别系数是利用虚拟仿真游戏图像及真实场景图像进行训练后所得到的模型系数，虚拟仿真游戏图像中包括虚拟对象执行动作的图像；基于置信度确定目标视频图像中目标对象匹配的异常动作类别。

根据本发明实施例的另一个方面，提供了一种用于识别动作的网络模型的训练方法，包括：获取虚拟仿真游戏图像及真实场景图像，其中，虚拟仿真游戏图像包括虚拟仿真游戏应用中的虚拟对象执行动作的图像，真实场景图像包括真实场景风格图像及真实场景动作图像，虚拟仿真游戏图像由多个虚拟仿真游戏视频产生，每个虚拟仿真游戏视频分别配置有类别标签，类别标签包括用于指示虚拟仿真游戏视频为目标类异常动作的第一样本类别，及用于指示虚拟仿真游戏视频并非目标类异常动作的第二样本类别；利用虚拟仿真游戏图像及真实场景图像，对初始的动作识别网络进行训练，直至达到目标收敛条件，其中，初始的动作识别网络中包括用于将真实域图像转化为虚拟域图像的第一生成网络，用于将虚拟域图像转化为真实域图像的第二生成网络及多个判别网络，在达到目标收敛条件时，将第一生成网络的网络参数确定为异常动作识别系数。

根据本发明实施例的又一方面，还提供了一种动作识别装置，包括：获取单元，用于获取待识别的目标视频图像；提取单元，用于提取目标视频图像中目标对象的动作特征；第一确定单元，用于利用动作特征与异常动作识别系数，确定目标对象对应于各异常动作类别的置信度，其中，异常动作识别系数是利用虚拟仿真游戏图像及真实场景图像进行训练后所得到的模型系数，虚拟仿真游戏图像中包括虚拟对象执行动作的图像；第二确定单元，用于基于置信度确定目标视频图像中目标对象匹配的异常动作类别。

根据本发明实施例的又一个方面，提供了一种用于识别动作的网络模型的训练装置，包括：获取单元，用于获取虚拟仿真游戏图像及真实场景图像，其中，虚拟仿真游戏图像包括虚拟仿真游戏应用中的虚拟对象执行动作的图像，真实场景图像包括真实场景风格图像及真实场景动作图像，虚拟仿真游戏图像由多个虚拟仿真游戏视频产生，每个虚拟仿真游戏视频分别配置有类别标签，类别标签包括用于指示虚拟仿真游戏视频为目标类异常动作的第一样本类别，及用于指示虚拟仿真游戏视频并非目标类异常动作的第二样本类别；训练单元，用于利用虚拟仿真游戏图像及真实场景图像，对初始的动作识别网络进行训练，直至达到目标收敛条件，其中，初始的动作识别网络中包括用于将真实域图像转化为虚拟域图像的第一生成网络，用于将虚拟域图像转化为真实域图像的第二生成网络及多个判别网络，在达到目标收敛条件时，将第一生成网络的网络参数确定为异常动作识别系数。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述动作识别方法。

根据本申请实施例的又一个方面，提供一种计算机程序产品，该计算机程序产品包括计算机程序/指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序/指令，处理器执行该计算机程序/指令，使得该计算机设备执行如以上动作识别方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过上述计算机程序执行上述的动作识别方法。

在本发明实施例中，通过获取待识别的目标视频图像；提取目标视频图像中目标对象的动作特征；利用动作特征与异常动作识别系数，确定目标对象对应于各异常动作类别的置信度，其中，异常动作识别系数是利用虚拟仿真游戏图像及真实场景图像进行训练后所得到的模型系数，虚拟仿真游戏图像中包括虚拟对象执行动作的图像；基于置信度确定目标视频图像中目标对象匹配的异常动作类别。从而采用仿真游戏图像对异常动作识别模型进行训练，避免根据大量真实场景中的样本训练异常动作识别模型，实现了降低异常动作的识别操作的复杂度的技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的动作识别方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的动作识别方法的流程图；

图3是根据本发明实施例的一种可选的动作识别方法的示意图；

图4是根据本发明实施例的另一种可选的动作识别方法的示意图；

图5是根据本发明实施例的另一种可选的动作识别方法的示意图；

图6是根据本发明实施例的另一种可选的动作识别方法的示意图；

图7是根据本发明实施例的另一种可选的动作识别方法的示意图；

图8是根据本发明实施例的另一种可选的动作识别方法的示意图；

图9是根据本发明实施例的另一种可选的动作识别方法的示意图；

图10是根据本发明实施例的另一种可选的动作识别方法的流程图；

图11是根据本发明实施例的一种可选的动作识别装置的结构示意图；

图12是根据本发明实施例的一种可选的识别动作的网络模型的训练装置的结构示意图；

图13是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种数据采集方法，可选地，作为一种可选的实施方式，上述数据采集方法可以但不限于应用于如图1所示的硬件环境中的动作识别系统，其中，该动作识别系统可以但不限于终端设备102及服务器112。终端设备102可以是一种移动终端(以手机为例)，作为进行动作识别操作的硬件的对象，服务器112可以用于编写开发执行动作识别模型的训练以及执行动作识别的具体操作。上述终端设备102中包括人机交互屏幕104，处理器106以及存储器108。其中，人机交互屏幕104用于显示获取的视频图像以及识别结果，处理器106用于运行动作识别操作流程以及执行目标视频图像的获取操作，存储器108用于存储动作识别操作的中间数据和结果数据。上述服务器112中可以包括数据库114以及处理引擎116。其中，数据库114用于提供训练上述动作识别模型的基础源码，处理引擎116用于基于训练数据对动作识别模型进行训练以及利用动作识别模型对目标视频图像进行动作识别操作，具体地，可以基于终端设备102发送的目标视频图像序列进行动作识别操作。

具体过程如以下步骤：如步骤S102，通过终端设备102获取待识别的目标视频图像。然后如步骤S104，终端设备102向服务器112发送待识别的目标视频图像；接着服务器112执行步骤S106-S108，提取动作特征，并利用动作特征与异常动作识别系数，确定目标对象对应于各异常动作类别的置信度；基于置信度确定目标视频图像中目标对象匹配的异常动作类别，其中，异常动作识别系数是利用虚拟仿真游戏图像及真实场景图像进行训练后所得到的模型系数，虚拟仿真游戏图像中包括虚拟对象执行动作的图像；然后服务器112执行步骤S110，向终端设备102发送识别结果；最后在终端设备102上执行步骤S112，显示识别结果。

作为另一种可选的实施方式，在终端设备102具备较强大的计算处理能力时，上述步骤S106及S108也可以由终端设备102来完成。这里为示例，本实施例中对此不作任何限定。

可选地，在本实施例中，上述终端设备可以是用于运行动作识别业务的终端设备，可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、PAD、台式电脑、智能电视等。上述目标视频图像可以来源于目标客户端，目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等支持提供射击游戏任务的客户端。上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述仅是一种示例，本实施例中对此不作任何限定。

作为一种可选的实施方式，如图2所示，上述数据采集方法包括：

S202，获取待识别的目标视频图像；

S204，提取目标视频图像中目标对象的动作特征；

S206，利用动作特征与异常动作识别系数，确定目标对象对应于各异常动作类别的置信度，其中，异常动作识别系数是利用虚拟仿真游戏图像及真实场景图像进行训练后所得到的模型系数，虚拟仿真游戏图像中包括虚拟对象执行动作的图像；

S208，基于置信度确定目标视频图像中目标对象匹配的异常动作类别。

可以理解的是，上述用于获取目标视频图像的图像采集设备可以包括但不限于以下至少之一：手机(如Android手机、IOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、PAD、台式电脑、智能电视等。

进一步地，可以通过上述图像采集设备获取得到待识别的目标视频，再通过预处理将待识别的目标视频按视频帧提取以得到目标视频图像，再对目标视频图像进行后续处理操作。

可理解地，通过上述图像采集设备获取得到的是真实世界中的视频图像。因此，在本实施例中，是结合异常动作识别系数对真实世界中获取视频图像进行异常识别。由于包括了真实世界的视频图片样本中存在异常动作的样本较少，因此如果采用利用包括了真实世界的异常动作的视频图片样本来对上述异常动作识别系数进行训练，则会存在样本数量不足，训练效果较差的问题；如果要达到较好的训练效果，则需要采集大量真实世界的视频图片，又存在需要获取大量的视频图像，导致对异常动作的识别操作复杂度增加的技术问题。

为了解决上述问题，本实施例采用了虚拟仿真游戏图像以及真实场景图像结合训练得到的上述异常动作识别系数进行训练，由于虚拟仿真游戏图片样本与真实世界的图片样本类似，且可以通过直接控制虚拟仿真游戏参数以生成存在异常动作的样本图片，从而极大地降低了异常动作样本图片的获取难度。在本实施例中，如图3所示，上述虚拟仿真游戏具体而言可以是GTAV(Grand Theft Auto V，《侠盗猎车手5》)，进而采集其中的GTAV图像数据集，同时结合真实世界动作图像集合、真实世界风格图像集合对上述异常动作识别系数进行训练。可以理解的是，上述真实世界动作图像集可以来源于诸如Youtube8M等公开数据集，真实世界风格图像可以来源于诸如Youtube8M，Cityscape等开源数据集的任意数据。

如图4所示，对上述异常动作识别方法进行整体说明。在获取得到图像采集设备采集到的待识别的目标视频图像的情况下，提取待识别的图像中的目标对象所执行的动作特征，接着，将动作特征输入包括了模型G_Rea1→GTA的网络中，结合网络中通过训练得到的异常动作识别系数以得到置信度。如图4所示，置信度为2/3，达到了目标类异常动作匹配的识别条件，因此确定目标动作是目标类异常动作，且目标视频图像是异常图像。

在本发明实施例中，通过获取待识别的目标视频图像；提取目标视频图像中目标对象的动作特征；利用动作特征与异常动作识别系数，确定目标对象对应于各异常动作类别的置信度，其中，异常动作识别系数是利用虚拟仿真游戏图像及真实场景图像进行训练后所得到的模型系数，虚拟仿真游戏图像中包括虚拟对象执行动作的图像；基于置信度确定目标视频图像中目标对象匹配的异常动作类别。从而采用仿真游戏图像对异常动作识别模型进行训练，避免根据大量真实场景中的样本数据训练异常动作识别模型，实现了降低异常动作的识别操作的复杂度的技术效果。

作为一种可选的方式，在获取待识别的目标视频图像之前，还包括：

S1，获取虚拟仿真游戏图像及真实场景图像，其中，虚拟仿真游戏图像由多个虚拟仿真游戏视频产生，每个虚拟仿真游戏视频分别配置有类别标签，类别标签包括用于指示虚拟仿真游戏视频为目标类异常动作的第一样本类别，及用于指示虚拟仿真游戏视频并非目标类异常动作的第二样本类别；

S2，利用虚拟仿真游戏图像及真实场景图像，对初始的动作识别网络进行训练，直至达到目标收敛条件，其中，初始的动作识别网络中包括用于将真实域图像转化为虚拟域图像的第一生成网络，用于将虚拟域图像转化为真实域图像的第二生成网络及多个判别网络，在达到目标收敛条件时，将第一生成网络的网络参数确定为异常动作识别系数。

继续结合图3、图4对上述方法进行具体说明。如图3所示，用于参与网络训练的图像可以来自于三种数据集，其中，上述虚拟仿真游戏图像选自于包含了异常动作的GTAV数据集，上述真实场景图像可以选自于提供现实动作风格的真实世界动作数据集以及提供真实世界风格的数据集。进一步地，获取的GTAV数据集包含了视频以及对应的指示视频动作是否包括异常动作的视频动作标签(即一整个视频只有一个类别标签，没有具体到帧的类别标签)；真实世界动作数据集则是来源于诸如Youtube8M等公开数据集的动作类型数据；真实世界风格数据集则来源于类似Youtube8M，Cityscape等开源数据集的任意数据，后两种数据集只需要从公开数据集中随机采集少量(采集的数量为1000个视频片段)。在获取到上述三大数据集中包括的视频数据后，可以先对视频数据提取视频帧，以得到用于训练的虚拟仿真游戏图像和真实场景图像。

如图4示出了用于检测异常动作的识别网络。在识别网络进行训练的过程中，每次输入一个GTAV图像，则随机挑选一个真实世界动作视频帧和真实世界风格视频帧组成图像集合输入到初始网络中进行训练，直至达到收敛条件。图4示出了该识别网络中包括了将真实域图像转化为虚拟域图像的第一生成网络G_GTA→Real，而用于将虚拟域图像转化为真实域图像的第二生成网络及多个判别网络并未示出。需要说明的是，第一生成网络G_Real→GTA的下标“Real→GTA”指示该网络用于将真实域(Real)图像转化为虚拟域(GTA)图像。

通过本申请上述实施方法，以获取虚拟仿真游戏图像及真实场景图像，并利用虚拟仿真游戏图像及真实场景图像，对初始的动作识别网络进行训练，直至达到目标收敛条件的方式实现训练得到用于异常动作识别的网络，也就是说采用仿真游戏图像度异常动作识别模型进行训练，避免根据大量真实场景中的样本图像训练异常动作识别模型，实现了降低异常动作的识别操作的复杂度的技术效果。

作为一种可选的方式，利用虚拟仿真游戏图像及真实场景图像，对初始的动作识别网络进行训练，直至达到目标收敛条件包括：

S1，将虚拟仿真游戏图像输入第二生成网络，以生成得到第一参考真实域图像；在第一参考真实域图像的判别结果指示达到第一参考收敛条件的情况下，将第一参考真实域图像输入第一生成网络，以生成得到第一参考虚拟域图像；获取虚拟仿真游戏图像与第一参考虚拟域图像之间的第一损失值；

S2，将真实场景图像输入第一生成网络，以生成得到第二参考虚拟域图像；在第二参考虚拟域图像的判别结果指示达到第二参考收敛条件的情况下，将第二参考虚拟域图像输入第二生成网络，以生成得到第二参考真实域图像；获取真实场景图像与第二参考真实域图像之间的第二损失值；

S3，在第一损失值及第二损失值达到第一阈值条件的情况下，确定动作识别网络达到目标收敛条件。

需要说明的是，在本实施例的上述方法中，由于采用GTAV的相关虚拟游戏视频图像训练得到用于现实异常检测的神经网络，在通过上述步骤实现对网络参数的训练过程中，需要保证在GTAV和真实世界图像的风格适应。进而，除了需要关注画面的风格变化，还要注重游戏动作和真实动作的区别，同时也要保证视频动作在生成后的前后关系。考虑到上述几点，我们的域适应分支包含画面域适应(style)，动作连贯性域适应(action)以及时序因果约束(temporal)三个分支。在本实施例中，通过上述方法实现Style分支的参数训练，该分支主要负责视频图像风格的域适应。

在本实施例中，利用cyclygan的思想，避免了对成对的训练图像的需求。具体过程如图5所示，将一个GTAV视频图像集GTA_real输入网络，通过G_GTA→Real提取到特征后，用线性插值将特征插值回原图大小，此时得到由GTAV图像生成的假的真实世界风格视频图像Real_fake。再将Real_fake输入到判别器，即二分类网络D_{real_Real}中，用于判断类别分别为真的(real)真实世界风格(Real)视频以及假的(fake)真实世界风格视频。训练结束后，类别的概率趋向于0.5，即判别器将判断不出真假，说明生成器生成的图像以假乱真。此时，G_GTA→Real经过学习后具备将GTAV图像转化为真实世界风格图像的部分能力。Real_fake随后输入到生成器G_Real→GTA里，得到二次生成的GTA图像GTA_fake，GTA_fake返回和GTA_real做均方差误差使得GTA_fake和GTA_real越来越接近，此时，G_GTA→Real和G_Real→GTA经过学习后分别具备从GTAV转化为真实世界风格视频，从真实世界风格转化为GTAV视频的能力。

具体地，上述判别器D_{real_Real}的损失函数如下：

通过上述实施例，以将虚拟仿真游戏图像输入第二生成网络，以生成得到第一参考真实域图像；在第一参考真实域图像的判别结果指示达到第一参考收敛条件的情况下，将第一参考真实域图像输入第一生成网络，以生成得到第一参考虚拟域图像；获取虚拟仿真游戏图像与第一参考虚拟域图像之间的第一损失值；将真实场景图像输入第一生成网络，以生成得到第二参考虚拟域图像；在第二参考虚拟域图像的判别结果指示达到第二参考收敛条件的情况下，将第二参考虚拟域图像输入第二生成网络，以生成得到第二参考真实域图像；获取真实场景图像与第二参考真实域图像之间的第二损失值；在第一损失值及第二损失值达到第一阈值条件的情况下，确定动作识别网络达到目标收敛条件，从而训练得到适应于虚拟域至真实域视频风格的网络，实现了增强网络风格转化效率的技术效果。

作为一种可选地方式，上述实施方式之后，还包括：

S1，将虚拟仿真游戏图像输入第二生成网络，以生成得到第一参考真实域图像包括：将虚拟仿真游戏图像中的多个虚拟仿真游戏视频输入第二生成网络，得到参考风格真实域图像；

S2在第一参考真实域图像的判别结果指示达到第一参考收敛条件的情况下，将第一参考真实域图像输入第一生成网络，以生成得到第一参考虚拟域图像包括：将参考风格真实域图像输入第一判别网络，得到第一判别结果；在第一判别结果指示并未达到第一生成收敛条件的情况下，调整第二生成网络的网络参数；在第一判别结果指示达到第一生成收敛条件的情况下，将参考风格真实域图像输入第一生成网络，得到参考动作虚拟域图像；

S3，获取虚拟仿真游戏图像与第一参考虚拟域图像之间的第一损失值包括：获取虚拟仿真游戏视频中的虚拟动作图像与参考动作虚拟域图像之间的风格误差；在风格误差指示并未达到第二收敛条件的情况下，根据风格误差调整第一生成网络中的网络参数；在风格误差指示达到第二收敛条件的情况下，根据风格误差获取第一损失值。

以下结合图6对上述方法进行具体说明。上一过程中，由于监督信息的迂回，G_Real→GTA的能力有限，为了进一步保证网络的对偶性，上述过程将会逆行运行一遍，具体的做法是：将真实世界风格视频图像Real_real输入网络，经过G_Real→GTA提取到特征后，再用线性插值将特征插值回原图大小，此时得到由Real_real图像生成的虚假的GTAV图像Real_fake。经过G_Real→GTA后得到生成的GTA_fake，输入到二分类网络D_{real_GTA}判断是否为真的GTAV图像。训练结束后，二分类网络判断的概率趋向于0.5，即判别器将判断不出真假，说明生成器G_Real→GTA生成的图像以假乱真。此时，G_Real→GTA经过学习后具备将真实世界风格图像转化为GTAV图像的部分能力。GTA_fake随后输入到生成器G_GTA→Real里，得到二次生成的虚假的真实世界风格图像Real_fake，Real_fake返回和Real_real做均方差误差使得Real_fake和Real_real越来越接近，此时，G_GTA→Real和G_Real→GTA经过二次学习后分别强化了从GTAV转化为真实世界风格视频，从真实世界风格转化为GTAV视频的能力。

其中，上述判别网络D_{real_GTA}的损失函数如下：

通过本申请的上述实施例，通过对以上步骤进行逆行运行，保证了网络的对偶性，即增强了识别网络的可靠性，进而实现了提高异常动作识别的准确率的技术效果。

作为一种可选的方法，可以在上述实施方式运用的同时采用以下方式对上述网络进行训练，也可以单独采用以下方式对上述网络进行训练。包括：

S1，将虚拟仿真游戏图像输入第二生成网络，以生成得到第一参考真实域图像包括：将虚拟仿真游戏图像中的多个虚拟仿真游戏视频对应的动作光流图像输入第二生成网络，得到参考动作光流真实域图像；

S2，在第一参考真实域图像的判别结果指示达到第一参考收敛条件的情况下，将第一参考真实域图像输入第一生成网络，以生成得到第一参考虚拟域图像包括：将参考动作光流真实域图像输入第二判别网络，得到第二判别结果；在第二判别结果指示并未达到第三生成收敛条件的情况下，调整第二生成网络的网络参数；在第二判别结果指示达到第三生成收敛条件的情况下，将参考动作光流真实域图像输入第一生成网络，得到参考动作光流虚拟域图像；

S3，获取虚拟仿真游戏图像与第一参考虚拟域图像之间的第一损失值包括：获取虚拟仿真游戏视频中的虚拟动作图像与参考动作光流虚拟域图像之间的动作误差；在动作误差指示并未达到第四收敛条件的情况下，根据动作误差调整第一生成网络中的网络参数；在动作误差指示达到第四收敛条件的情况下，根据动作误差获取第一损失值。

可以理解的是，上述方法是对识别网络的虚拟域图像以及真实域图像的动作连贯性进行适应性训练。如图7所示，动作连贯性域适应的图像对分别为GTAV的光流图像和真实世界动作视频的光流图像/>G_GTA→Real和G_Real→GTA依旧是上面的网络，判别器分别为/>判断输入是否为真的真实世界动作光流视频；判断输入是否为真的GTAV光流视频。

如图具体而言可以包括：将一个GTAV视频的光流图像集输入网络，通过G_GTA→Real提取到特征后，用线性插值将特征插值回原图大小，此时得到由GTAV光流图像生成的假的真实世界光流视频图像/>再将/>输入到判别器，即二分类网络/>中，用于判断类别分别为真的(real)真实世界光流视频以及假的(fake)真实世界光流视频。训练结束后，类别的概率趋向于0.5，即判别器将判断不出真假，说明生成器生成的图像以假乱真。此时，G_GTA→Real经过学习后具备将GTAV图像转化为真实世界光流图像的部分能力。/>随后输入到生成器G_Real→GTA里，得到二次生成的GTA光流图像/> 返回和/>做均方差误差/>使得/>和/>越来越接近，此时，G_GTA→Real和G_Real→GTA经过学习后分别具备从GTAV光流图像转化为真实世界光流图像，从真实世界光流图像转化为GTAV光流图像的能力。

可选地，由于监督信息的迂回，G_Real→GTA的将真实世界光流图像转化为GTA光流图像能力有限。因此，为了进一步保证网络的对偶性，上述过程将会逆行运行一遍。具体方式如图8所示，与画面域适应的训练方法中的逆行运行方式相似，其中采用的判别网络为

在本实施例中，上述判别网络和/>的损失函数可以采用如下公式：

通过本申请的上述实施例，通过采用虚拟游戏视频的光流图像与真实世界动作视频的光流图像对网络进行训练，从而提高了网络对于虚拟游戏视频和真实世界动作视频的动作连贯性的转化能力，进而提高了识别网络的识别效率。

作为一种可选的方式，利用虚拟仿真游戏图像及真实场景图像，对初始的动作识别网络进行训练，直至达到目标收敛条件还包括：

S1，将虚拟仿真游戏图像划分为第一游戏图像及第二游戏图像，并将真实场景图像划分为第一场景图像及第二场景图像，其中，第一游戏图像的生成时间早于第二游戏图像的生成时间，第一场景图像的生成时间早于第二场景图像的生成时间；

S2，将第一游戏图像输入第二生成网络，得到参考时序虚拟域图像；获取第二游戏图像与参考时序虚拟域图像之间的第一时序误差；

S3，将第一场景图像输入第一生成网络，得到参考时序真实域图像；获取第二场景图像与参考时序真实域图像之间的第二时序误差；

S4，在第一时序误差及第二时序误差达到第二阈值条件的情况下，确定动作识别网络达到目标收敛条件。

可以理解的是，本实施例通过上述方法以实现识别提高网络对于时序因果关系的识别能力。如图9中的(a)图所示，本实施例中输入一个GTAV视频的前半部分视频帧图像和后半部分视频帧图像：GTA1_real和GTA2_real，真实世界(风格和动作均参与)图像Real1_real和Real2_real，GTA1_real输入到G_GTA→Real，得到GTA2_fake，GTA2_real和GTA2_fake做让生成的GTA2_fake更接近标签，GTA2_real和GTA2_fake输入到D_real_{_GTA2}判断是否为真的GTAV后半部分图像。如如图9中的(b)图所示，输入一个真实世界视频的前半部分视频帧图像和后半部分视频帧图像，将Real1_real输入到G_Real→GTA得到Real2_real，Real2_real和Real2_fake做/>让生成的Real2_real更接近标签，Real2_real和Real2_fake输入到D_{real_Real2}判断是否为真的真实世界后半部分视频帧图像。

在本实施例中，上述判别网络D_{real_Real2}和D_{real_GTA2}的损失函数可以采用以下公式：

进而，通过本实施例的上述方法，实现识别提高网络对于时序因果关系的识别能力，进而提高了识别网络对异常动作的识别效率。

作为一种可选的实施方式，确定动作识别网络达到目标收敛条件包括：

S1，获取第一损失值、第二损失值、第一时序误差及第二时序误差的加权求和结果；

S2，在加权求和结果指示达到目标阈值的情况下，确定动作识别网络达到目标收敛条件。

具体地，在上述实施例中的判别器可以采用以下损失函数：

总的判别器损失为以下式，训练过程中让判别器损失最大化。

在上述过程中，生成器的损失函数可以采用如下公式：

总的生成器损失为如下公式，训练时让生成器的损失最小化。

l_G＝G_GTA→Real+G_Real→GTA

通过本申请的上述实施方法，通过设定阈值使得训练效果最大化，从而提高了通过上述方法训练得到的识别网络的识别能力。

作为一种可选的方式，在利用虚拟仿真游戏图像及真实场景图像，对初始的动作识别网络进行训练，直至达到目标收敛条件之后，还包括：

S1，获取与达到目标收敛条件的动作识别网络中的第一生成网络及第二生成网络连接的全连接层的输出结果；

S2在输出结果指示达到识别条件的情况下，确定将第一生成网络的网络参数确定为异常动作识别系数，其中，识别条件指示输出结果所输出的类别和与输出结果匹配的虚拟仿真游戏视频的类别标签一致。

需要说明的是，在本实施方式中，采用每次输入一个GTAV图像，则随机挑选一个真实世界动作视频和真实世界风格视频组成图像组合输入到网络中进行训练，以得到适应于虚拟游戏是视频和真实世界视频的画面风格、动作连贯以及时序因果的网络，且该网络包括了生成器G_Real→GTA，并将该网络中的网络参与确定为异常动作识别系数，并通过包括了生成器G_Real→GTA的网络进行异常动作识别操作。

通过本申请的上述实施例，通过获取待识别的目标视频图像；提取目标视频图像中目标对象的动作特征；利用动作特征与异常动作识别系数，确定目标对象对应于各异常动作类别的置信度，其中，异常动作识别系数是利用虚拟仿真游戏图像及真实场景图像进行训练后所得到的模型系数，虚拟仿真游戏图像中包括虚拟对象执行动作的图像；基于置信度确定目标视频图像中目标对象匹配的异常动作类别。从而采用仿真游戏图像度异常动作识别模型进行训练，避免根据大量真实场景中的样本图像训练异常动作识别模型，实现了降低异常动作的识别操作的复杂度的技术效果。

作为一种可选的网络模型的训练方法，包括：

S1，获取虚拟仿真游戏图像及真实场景图像，其中，虚拟仿真游戏图像包括虚拟仿真游戏应用中的虚拟对象执行动作的图像，真实场景图像包括真实场景风格图像及真实场景动作图像，虚拟仿真游戏图像由多个虚拟仿真游戏视频产生，每个虚拟仿真游戏视频分别配置有类别标签，类别标签包括用于指示虚拟仿真游戏视频为目标类异常动作的第一样本类别，及用于指示虚拟仿真游戏视频并非目标类异常动作的第二样本类别；

具体地，上述网络训练方法共包括了图像预处理和画面域适应训练两个步骤。其中，获取的图像包括了包含异常动作的GTAV图像集，提供现实动作风格的真实世界动作图像集，和提供真实世界风格的图像集；具体的画面域适应训练可以如图5至图9所示的方式实现，与上述图像采集方法中的具体方式相同，在此不再赘述。

需要说明的是，通过本实施例训练得到的网络结构包含了两大分支，一大分支是利用GTAV和视频类别标签图像做弱监督异常片段检测任务，另外一大分支是利用GTAV和真实图像，基于cyclegan做风格域适应。两大分支的特征提取网络G_Real→GTA的参数共享。

通过本申请的上述实施例，以获取虚拟仿真游戏图像及真实场景图像，并利用虚拟仿真游戏图像及真实场景图像，对初始的动作识别网络进行训练，直至达到目标收敛条件，从而训练得到可以用于异常动作识别的网络结构，避免根据大量真实场景中的样本图像训练异常动作识别模型，实现了降低异常动作的识别操作的复杂度的技术效果。

以下结合图4至图10对本申请的一个具体实施例进行说明。

如图10所示，执行步骤S1002，获取目标视频图像；

S1004，提取动作特征；

S1006，利用识别网络对提取的动作特征进行识别；

S1008，在达到识别条件的情况下，确认目标视频图像为异常图像。

如图4所示，示出了上述步骤S1002至步骤S1008的过程。在获取得到图像采集设备采集到的待识别的目标视频图像的情况下，提取待识别的图像中的目标对象所执行的动作特征，接着，将动作特征输入包括了模型G_Real→GTA的网络中，结合网络中通过训练得到的异常动作识别系数以得到置信度。如图4所示，置信度为2/3，达到了目标类异常动作匹配的识别条件，因此确定目标动作是目标类异常动作，且目标视频图像是异常图像。

需要说明的是，在上述步骤S1006中使用的识别网络，可以通过步骤S1010至步骤S1012训练得到。

如步骤S1010，获取训练图像。

具体地，上述训练图像可以采用如图3所示的三种类型图像。也就是说，用于参与网络训练的网络图像可以选自于三大图像集，其中，上述虚拟仿真游戏图像可以选择包含了异常动作的GTAV图像集，上述真实场景图像可以包括提供现实动作风格的真实世界动作图像集以及提供真实世界风格的图像集。进一步地，获取的GTAV图像集包含了GTAV视频以及对应的指示视频动作是否包括异常动作的视频动作标签(即一整个视频只有一个类别标签，没有具体到帧的类别标签)；真实世界动作图像集则是来源于诸如Youtube8M等公开图像集的动作类型图像；真实世界风格图像集则来源于类似Youtube8M，Cityscape等开源图像集的任意图像，后两种图像集只需要从公开图像集中随机采集少量(采集的数量为1000个视频片段)。

如步骤S1010-1，S1010-2和步骤S1010-3，根据获取的图像同时对初始识别网络进行画面风格域适应训练、动作连贯性域适应训练和时序因果约束训练，从而使得识别网络在GTAV和真实世界图像的风格适应过程中，除了关注画面的风格变化，还注重游戏动作和真实动作的区别，同时也保证了视频动作在生成后的前后关系。

如图5至图9所示，Style分支主要负责视频画面风格的域适应，利用cyclygan的思想，避免了成对训练图像的需求。训练过程如图4所示，输入一个GTAV视频图像集GTA_real，通过G_GTA→Real提取到特征后，用线性插值将特征插值回原图大小，此时得到由GTA图像生成的假的真实世界风格视频图像Real_fake，Real_fake输入到判别器，即二分类网络D_{real_Real}中，类别分别为真的(real)真实世界风格(Real)视频以及假的(fake)真实世界风格视频，训练结束后，类别的概率趋向于0.5，判别器将判断不出真假，说明生成器生成的图像以假乱真。此时，G_GTA→Real经过学习后具备将GTAV图像转化为真实世界风格图像的部分能力。Real_fake随后输入到生成器G_Real→GTA里，得到二次生成的GTA图像GTA_fake，GTA_fake返回和GTA_real做均方差误差使得GTA_fake和GTA_real越来越接近，此时，G_GTA→Real和G_Real→GTA经过学习后分别具备从GTAV转化为真实世界风格视频，从真实世界风格转化为GTAV视频的能力。

上一过程中，由于监督信息的迂回，G_Real→GTA的能力有限，为了进一步保证网络的对偶性，上述过程将会逆行运行一遍，具体的做法是：输入真实世界风格视频Real_real，经过G_Real→GTA后得到生成的GTA_fake，输入到判别器Dreal-GTA判断是否为真的GTAV图像，GTA_fake输入到G_GTA→Real得到Real_fake，Real_fake和Real_real进行学习使得两者更加接近。

上述为画面域适应的流程。动作连贯性域适应以及时序因果约束同理；

动作连贯性域适应的图像对分别为GTAV的光流图像和真实世界动作视频的光流图像/>G_GTA→Real和G_Real→GTA依旧是上面的网络，判别器分别为判断输入是否为真的真实世界动作光流视频；/>判断输入是否为真的GTAV光流视频。

时序因果约束由于存在配对图像，流程相比上述更加简化，输入一个GTAV视频的前半部分和后半部分：GTA1_real和GTA2_real，真实世界(风格和动作均参与)图像Real1_real和Real2_real，GTA1_real输入到G_GTA→Real，得到GTA2_fake，GTA2_real和GTA2_fake做让生成的GTA2_fake更接近标签，GTA2_real和GTA2_fake输入到D_{real_GTA2}判断是否为真的GTAV后半部分图像。Real1_real输入到G_Real→GTA得到Real2_real，Real2_real和Real2_fake做/>让生成的Real2_real更接近标签，Real2_real和Real2_fake输入到D_{real_Real2}判断是否为真的真实世界后半部分视频。

进而如步骤S1012，通过上述方法训练得到识别网络。

通过本申请提供的上述实施例，通过获取待识别的目标视频图像；提取目标视频图像中目标对象的动作特征；利用动作特征与异常动作识别系数，确定目标对象对应于各异常动作类别的置信度，其中，异常动作识别系数是利用虚拟仿真游戏图像及真实场景图像进行训练后所得到的模型系数，虚拟仿真游戏图像中包括虚拟对象执行动作的图像；基于置信度确定目标视频图像中目标对象匹配的异常动作类别。从而采用仿真游戏图像度异常动作识别模型进行训练，避免根据大量真实场景中的样本图像训练异常动作识别模型，实现了降低异常动作的识别操作的复杂度的技术效果。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述动作识别方法的动作识别装置。如图11所示，该装置包括：

获取单元1102，用于获取待识别的目标视频图像；

提取单元1104，用于提取目标视频图像中目标对象的动作特征；

第一确定单元1106，用于利用动作特征与异常动作识别系数，确定目标对象对应于各异常动作类别的置信度，其中，异常动作识别系数是利用虚拟仿真游戏图像及真实场景图像进行训练后所得到的模型系数，虚拟仿真游戏图像中包括虚拟对象执行动作的图像；

第二确定单元1108，用于基于置信度确定目标视频图像中目标对象匹配的异常动作类别。

根据本发明实施例的另一个方面，还提供了一种用于识别动作的网络模型的训练装置。如图12所示，该装置包括：

获取单元1202，用于获取虚拟仿真游戏图像及真实场景图像，其中，虚拟仿真游戏图像包括虚拟仿真游戏应用中的虚拟对象执行动作的图像，真实场景图像包括真实场景风格图像及真实场景动作图像，虚拟仿真游戏图像由多个虚拟仿真游戏视频产生，每个虚拟仿真游戏视频分别配置有类别标签，类别标签包括用于指示虚拟仿真游戏视频为目标类异常动作的第一样本类别，及用于指示虚拟仿真游戏视频并非目标类异常动作的第二样本类别；

训练单元1204，用于利用虚拟仿真游戏图像及真实场景图像，对初始的动作识别网络进行训练，直至达到目标收敛条件，其中，初始的动作识别网络中包括用于将真实域图像转化为虚拟域图像的第一生成网络，用于将虚拟域图像转化为真实域图像的第二生成网络及多个判别网络，在达到目标收敛条件时，将第一生成网络的网络参数确定为异常动作识别系数。

可选地，在本实施例中，上述各个单元模块所要实现的实施例，可以参考上述各个方法实施例，这里不再赘述。

根据本发明实施例的又一个方面，还提供了一种用于实施上述动作识别方法的电子设备，该电子设备可以是图13所示的终端设备或服务器。本实施例以该电子设备为终端设备为例来说明。如图13所示，该电子设备包括存储器1302和处理器1304，该存储器1302中存储有计算机程序，该处理器1304被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取待识别的目标视频图像；

S2，提取目标视频图像中目标对象的动作特征；

S3，利用动作特征与异常动作识别系数，确定目标对象对应于各异常动作类别的置信度，其中，异常动作识别系数是利用虚拟仿真游戏图像及真实场景图像进行训练后所得到的模型系数，虚拟仿真游戏图像中包括虚拟对象执行动作的图像；

S4，基于置信度确定目标视频图像中目标对象匹配的异常动作类别。

可选地，本领域普通技术人员可以理解，图13所示的结构仅为示意，电子装置电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图13其并不对上述电子装置电子设备的结构造成限定。例如，电子装置电子设备还可包括比图13中所示更多或者更少的组件(如网络接口等)，或者具有与图13所示不同的配置。

其中，存储器1302可用于存储软件程序以及模块，如本发明实施例中的动作识别方法和装置对应的程序指令/模块，处理器1304通过运行存储在存储器1302内的软件程序以及模块，从而执行各种功能应用以及图像处理，即实现上述的动作识别方法。存储器1302可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1302可进一步包括相对于处理器1304远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1302具体可以但不限于用于存储硬件性能图像中的各个部分、动作识别信息等信息。作为一种示例，如图13所示，上述存储器1302中可以但不限于包括上述动作识别装置中的获取单元1102、提取单元1104、第一确定单元1106以及第二确定单元1108。此外，还可以包括但不限于上述动作识别装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1306用于经由一个网络接收或者发送图像。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1306包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1306为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器1308，用于显示动作识别进程；和连接总线1310，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序/指令，该计算机程序/指令包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理器执行时，执行本申请实施例提供的各种功能。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

根据本申请的一个方面，提供了一种计算机可读存储介质，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述动作识别方方法。

可选地，在本实施例中，上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取待识别的目标视频图像；

S2，提取目标视频图像中目标对象的动作特征；

可选地，在本实施例中，上述计算机可读存储介质还可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上上述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种动作识别方法，其特征在于，包括：

获取待识别的目标视频图像；

提取所述目标视频图像中目标对象的动作特征；

利用所述动作特征与异常动作识别系数，确定所述目标对象对应于各异常动作类别的置信度，其中，所述异常动作识别系数是利用虚拟仿真游戏图像及真实场景图像进行训练后所得到的模型系数，所述虚拟仿真游戏图像中包括虚拟对象执行动作的图像风格场景动作；

基于所述置信度确定所述目标视频图像中目标对象匹配的异常动作类别。

2.根据权利要求1所述的方法，其特征在于，在获取待识别的目标视频图像之前，还包括：

获取所述虚拟仿真游戏图像及所述真实场景图像，其中，所述虚拟仿真游戏图像由多个虚拟仿真游戏视频产生，每个所述虚拟仿真游戏视频分别配置有类别标签，所述类别标签包括用于指示所述虚拟仿真游戏视频为目标类异常动作的第一样本类别，及用于指示所述虚拟仿真游戏视频并非所述目标类异常动作的第二样本类别；

利用所述虚拟仿真游戏图像及所述真实场景图像，对初始的动作识别网络进行训练，直至达到目标收敛条件，其中，所述初始的动作识别网络中包括用于将真实域图像转化为虚拟域图像的第一生成网络，用于将虚拟域图像转化为真实域图像的第二生成网络及多个判别网络，在达到所述目标收敛条件时，将所述第一生成网络的网络参数确定为所述异常动作识别系数。

3.根据权利要求2所述的方法，其特征在于，所述利用所述虚拟仿真游戏图像及所述真实场景图像，对初始的动作识别网络进行训练，直至达到目标收敛条件包括：

将所述虚拟仿真游戏图像输入所述第二生成网络，以生成得到第一参考真实域图像；在所述第一参考真实域图像的判别结果指示达到第一参考收敛条件的情况下，将所述第一参考真实域图像输入所述第一生成网络，以生成得到第一参考虚拟域图像；获取所述虚拟仿真游戏图像与所述第一参考虚拟域图像之间的第一损失值；

将所述真实场景图像输入所述第一生成网络，以生成得到第二参考虚拟域图像；在所述第二参考虚拟域图像的判别结果指示达到第二参考收敛条件的情况下，将所述第二参考虚拟域图像输入所述第二生成网络，以生成得到第二参考真实域图像；获取所述真实场景图像与所述第二参考真实域图像之间的第二损失值；

在所述第一损失值及所述第二损失值达到第一阈值条件的情况下，确定所述动作识别网络达到所述目标收敛条件。

4.根据权利要求2所述的方法，其特征在于，

将所述虚拟仿真游戏图像输入所述第二生成网络，以生成得到第一参考真实域图像包括：将所述虚拟仿真游戏图像中的所述多个虚拟仿真游戏视频输入所述第二生成网络，得到参考风格真实域图像；

在所述第一参考真实域图像的判别结果指示达到第一参考收敛条件的情况下，将所述第一参考真实域图像输入所述第一生成网络，以生成得到第一参考虚拟域图像包括：将所述参考风格真实域图像输入第一判别网络，得到第一判别结果；在所述第一判别结果指示并未达到第一生成收敛条件的情况下，调整所述第二生成网络的网络参数；在所述第一判别结果指示达到所述第一生成收敛条件的情况下，将所述参考风格真实域图像输入所述第一生成网络，得到参考动作虚拟域图像；

获取所述虚拟仿真游戏图像与所述第一参考虚拟域图像之间的第一损失值包括：获取所述虚拟仿真游戏视频中的虚拟动作图像与所述参考动作虚拟域图像之间的风格误差；在所述风格误差指示并未达到第二收敛条件的情况下，根据所述风格误差调整所述第一生成网络中的网络参数；在所述风格误差指示达到所述第二收敛条件的情况下，根据所述风格误差获取所述第一损失值。

5.根据权利要求3或4所述的方法，其特征在于，

将所述虚拟仿真游戏图像输入所述第二生成网络，以生成得到第一参考真实域图像包括：将所述虚拟仿真游戏图像中的所述多个虚拟仿真游戏视频对应的动作光流图像输入所述第二生成网络，得到参考动作光流真实域图像；

在所述第一参考真实域图像的判别结果指示达到第一参考收敛条件的情况下，将所述第一参考真实域图像输入所述第一生成网络，以生成得到第一参考虚拟域图像包括：将所述参考动作光流真实域图像输入第二判别网络，得到第二判别结果；在所述第二判别结果指示并未达到第三生成收敛条件的情况下，调整所述第二生成网络的网络参数；在所述第二判别结果指示达到所述第三生成收敛条件的情况下，将所述参考动作光流真实域图像输入所述第一生成网络，得到参考动作光流虚拟域图像；

获取所述虚拟仿真游戏图像与所述第一参考虚拟域图像之间的第一损失值包括：获取所述虚拟仿真游戏视频中的虚拟动作图像与所述参考动作光流虚拟域图像之间的动作误差；在所述动作误差指示并未达到第四收敛条件的情况下，根据所述动作误差调整所述第一生成网络中的网络参数；在所述动作误差指示达到所述第四收敛条件的情况下，根据所述动作误差获取所述第一损失值。

6.根据权利要求3所述的方法，其特征在于，所述利用所述虚拟仿真游戏图像及所述真实场景图像，对初始的动作识别网络进行训练，直至达到目标收敛条件还包括：

将所述虚拟仿真游戏图像划分为第一游戏图像及第二游戏图像，并将所述真实场景图像划分为第一场景图像及第二场景图像，其中，所述第一游戏图像的生成时间早于所述第二游戏图像的生成时间，所述第一场景图像的生成时间早于所述第二场景图像的生成时间；

将所述第一游戏图像输入所述第二生成网络，得到参考时序虚拟域图像；获取所述第二游戏图像与所述参考时序虚拟域图像之间的第一时序误差；

将所述第一场景图像输入所述第一生成网络，得到参考时序真实域图像；获取所述第二场景图像与所述参考时序真实域图像之间的第二时序误差；

在所述第一时序误差及所述第二时序误差达到第二阈值条件的情况下，确定所述动作识别网络达到所述目标收敛条件。

7.根据权利要求6所述的方法，其特征在于，确定所述动作识别网络达到所述目标收敛条件包括：

获取所述第一损失值、所述第二损失值、所述第一时序误差及所述第二时序误差的加权求和结果；

在所述加权求和结果指示达到目标阈值的情况下，确定所述动作识别网络达到所述目标收敛条件。

8.根据权利要求2至7中任一项所述的方法，其特征在于，在所述利用所述虚拟仿真游戏图像及所述真实场景图像，对初始的动作识别网络进行训练，直至达到目标收敛条件之后，还包括：

获取与达到所述目标收敛条件的动作识别网络中的所述第一生成网络连接的全连接层的输出结果；

在所述输出结果指示达到识别条件的情况下，确定将所述第一生成网络的网络参数确定为所述异常动作识别系数，其中，所述识别条件指示所述输出结果所输出的类别和与所述输出结果匹配的虚拟仿真游戏视频的类别标签一致。

9.一种用于识别动作的网络模型的训练方法，其特征在于，包括：

获取虚拟仿真游戏图像及真实场景图像，其中，所述虚拟仿真游戏图像包括虚拟仿真游戏应用中的虚拟对象执行动作的图像，所述真实场景图像包括真实场景风格图像及真实场景动作图像，所述虚拟仿真游戏图像由多个虚拟仿真游戏视频产生，每个所述虚拟仿真游戏视频分别配置有类别标签，所述类别标签包括用于指示所述虚拟仿真游戏视频为目标类异常动作的第一样本类别，及用于指示所述虚拟仿真游戏视频并非所述目标类异常动作的第二样本类别；

10.根据权利要求9所述的方法，其特征在于，所述利用所述虚拟仿真游戏图像及所述真实场景图像，对初始的动作识别网络进行训练，直至达到目标收敛条件包括：

11.根据权利要求10所述的方法，其特征在于，所述利用所述虚拟仿真游戏图像及所述真实场景图像，对初始的动作识别网络进行训练，直至达到目标收敛条件还包括：

12.根据权利要求11所述的方法，其特征在于，确定所述动作识别网络达到所述目标收敛条件包括：

13.根据权利要求9至12中任一项所述的方法，其特征在于，在所述利用所述虚拟仿真游戏图像及所述真实场景图像，对初始的动作识别网络进行训练，直至达到目标收敛条件之后，还包括：

获取与达到所述目标收敛条件的动作识别网络中的所述第一生成网络及所述第二生成网络连接的全连接层的输出结果；

14.一种动作识别装置，其特征在于，包括：

获取单元，用于获取待识别的目标视频图像；

提取单元，用于提取所述目标视频图像中目标对象的动作特征；

第一确定单元，用于利用所述动作特征与异常动作识别系数，确定所述目标对象对应于各异常动作类别的置信度，其中，所述异常动作识别系数是利用虚拟仿真游戏图像及真实场景图像进行训练后所得到的模型系数，所述虚拟仿真游戏图像中包括虚拟对象执行动作的图像风格场景动作；

第二确定单元，用于基于所述置信度确定所述目标视频图像中目标对象匹配的异常动作类别。

15.一种用于识别动作的网络模型的训练装置，其特征在于，包括：

获取单元，用于获取虚拟仿真游戏图像及真实场景图像，其中，所述虚拟仿真游戏图像包括虚拟仿真游戏应用中的虚拟对象执行动作的图像，所述真实场景图像包括真实场景风格图像及真实场景动作图像，所述虚拟仿真游戏图像由多个虚拟仿真游戏视频产生，每个所述虚拟仿真游戏视频分别配置有类别标签，所述类别标签包括用于指示所述虚拟仿真游戏视频为目标类异常动作的第一样本类别，及用于指示所述虚拟仿真游戏视频并非所述目标类异常动作的第二样本类别；

训练单元，用于利用所述虚拟仿真游戏图像及所述真实场景图像，对初始的动作识别网络进行训练，直至达到目标收敛条件，其中，所述初始的动作识别网络中包括用于将真实域图像转化为虚拟域图像的第一生成网络，用于将虚拟域图像转化为真实域图像的第二生成网络及多个判别网络，在达到所述目标收敛条件时，将所述第一生成网络的网络参数确定为所述异常动作识别系数。

16.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行所述权利要求1至13任一项中所述的方法。

17.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至13任一项所述方法的步骤。

18.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至13任一项中所述的方法。