CN116719420B

CN116719420B - 一种基于虚拟现实的用户动作识别方法及系统

Info

Publication number: CN116719420B
Application number: CN202310997950.5A
Authority: CN
Inventors: 王英; 王新国
Original assignee: 4u Beijing Technology Co ltd
Current assignee: 4u Beijing Technology Co ltd
Priority date: 2023-08-09
Filing date: 2023-08-09
Publication date: 2023-11-21
Anticipated expiration: 2043-08-09
Also published as: CN116719420A

Abstract

本发明公开了一种基于虚拟现实的用户动作识别方法及系统，包括：首先响应于外部输入的虚拟现实场景启动指令，对穿戴式设备进行针对目标虚拟现实场景的初始化操作；然后将捕捉结果作为待识别内容；接着将待识别内容进行优化识别，得到待识别内容对应的最终动作划分结果；最终输出最终动作划分结果对应的目标指令，如此设计，通过对待识别内容的优化识别，能够提高针对用户动作识别的识别效率，避免了用户反复进行动作演示的问题。

Description

一种基于虚拟现实的用户动作识别方法及系统

技术领域

本发明涉及虚拟现实交互技术领域，具体而言，涉及一种基于虚拟现实的用户动作识别方法及系统。

背景技术

随着虚拟现实技术的发展，用户对虚拟现实技术的真实感要求也越来越高。在一些虚拟现实交互场景中，需要用户进行准确的动作输入，否则会使得用户反复尝试才能执行对应操作，这在一定程度上影响了用户体验，如何将用户在现实侧进行的动作演示准确进行指令识别，是本领域技术人员需要解决的问题。

发明内容

本发明的目的在于提供一种基于虚拟现实的用户动作识别方法。

第一方面，本发明实施例提供一种基于虚拟现实的用户动作识别方法，包括：

响应于外部输入的虚拟现实场景启动指令，对穿戴式设备进行针对目标虚拟现实场景的初始化操作；

通过穿戴式设备进行用户动作捕捉以及用户声音捕捉，并将捕捉结果作为待识别内容；

将待识别内容进行优化识别，得到待识别内容对应的最终动作划分结果；

根据最终动作划分结果，查找目标虚拟现实场景对应的动作指令数据库，输出最终动作划分结果对应的目标指令。

在一种可能的实施方式中，将待识别内容进行优化识别，得到待识别内容对应的最终动作划分结果，包括：

从待识别内容中获取现实演示动作视频和指令语音，现实演示动作视频包括至少两个视频区间；

对现实演示动作视频中的每一视频区间执行动作划分操作，得到每一视频区间的基础动作划分结果；

根据指令语音确定待识别内容对应的动作划分依据；

根据动作划分依据，对每一视频区间的基础动作划分结果执行有效动作提取操作，得到每一视频区间的最终动作划分结果。

在一种可能的实施方式中，方法还包括：

获取待识别内容的指令内容指令集合，指令内容指令集合中包括至少一个指令内容，现实演示动作视频中的每一视频区间是根据指令内容指令集合中的指令内容数量进行截取的，现实演示动作视频中的任意视频区间是对指令内容指令集合中的对应指令内容进行现实演示得到的视频数据；

根据每一视频区间对应的指令内容，对每一视频区间的最终动作划分结果执行校准操作，得到每一视频区间的范围校准信息。

在一种可能的实施方式中，现实演示动作视频中包括多个视频区间；多个视频区间中的任意视频区间表示为目标视频区间；指令内容指令集合包括多个指令内容，目标视频区间对应多个指令内容中的待定指令内容，待定指令内容中包括至少两个待定指定子内容；对目标视频区间执行动作划分操作获取至少两个指令动作；目标视频区间的最终动作划分结果包括各个指令动作的最终动作持续范围；

根据待定指令内容，对目标视频区间的最终动作划分结果执行校准操作，得到目标视频区间的范围校准信息，包括：

将目标视频区间的指令动作与待定指令内容的待定指定子内容执行指令内容校验操作；

若目标视频区间的指令动作与待定指令内容的待定指定子内容之间有异常的指令动作，则获取异常的指令动作；

对目标视频区间的最终动作划分结果中，异常的指令动作的最终动作持续范围执行动作持续范围校准操作，得到目标视频区间的范围校准信息；

异常的指令动作包括：目标视频区间中连续的多个错误指令动作，连续的多个错误指令动作是由待定指令内容中的目标待定指定子内容错误解析获取的；

对目标视频区间的最终动作划分结果中，异常的指令动作的最终动作持续范围执行动作持续范围校准操作，得到目标视频区间的范围校准信息，包括：

获取连续的多个错误指令动作的最终动作持续范围；

获取连续的多个错误指令动作的最终动作持续范围的持续范围集合；

将目标视频区间的最终动作划分结果中，异常的指令动作的最终动作持续范围调整为持续范围集合，得到目标视频区间的范围校准信息；

异常的指令动作还包括：目标视频区间中不应存在于待定指令内容中的指令动作；

对目标视频区间的最终动作划分结果中，异常的指令动作的最终动作持续范围执行动作持续范围校准操作，得到目标视频区间的范围校准信息，包括：将目标视频区间中不应存在于待定指令内容中的指令动作的最终动作持续范围，从目标视频区间的最终动作划分结果中移除，得到目标视频区间的范围校准信息；

异常的指令动作还包括：目标视频区间中未处理的指令动作，目标视频区间的指令动作中位于未处理的指令动作之前的连续指令动作为目标指令动作；对目标视频区间的最终动作划分结果中，异常的指令动作的最终动作持续范围执行动作持续范围校准操作，得到目标视频区间的范围校准信息，包括：

获取目标指令动作的最终动作持续范围；

确定目标指令动作的最终动作持续范围与参考动作持续范围之间的范围关系；

根据范围关系确定多个修复动作持续范围；

将多个修复动作持续范围，修复至目标视频区间的最终动作划分结果中，得到目标视频区间的范围校准信息。

在一种可能的实施方式中，方法还包括：

在目标视频区间的范围校准信息中动作持续范围的数目，与待定指令内容中待定指定子内容的数目之间进行数目核实；

若数量不一致，则获取动作范围校准规则，动作范围校准规则中包括多个范围校准内容，任意范围校准内容包括：每一视频区间的最终动作划分结果中指令动作与对应指令内容的待定指定子内容匹配的最终动作划分结果，或每一视频区间的范围校准信息中动作持续范围的数目与对应指令内容中待定指定子内容的数目匹配的范围校准信息；

获取目标视频区间的范围校准信息与每一范围校准内容之间的差异程度；

采用差异程度不超过差异程度阈值的目标范围校准内容，对目标视频区间的范围校准信息进行优化。

在一种可能的实施方式中，现实演示动作视频中包括多个视频区间；多个视频区间中的任意视频区间表示为目标视频区间；对目标视频区间执行动作划分操作获取至少两个指令动作；目标视频区间的基础动作划分结果包括各个指令动作的原始动作持续范围，目标视频区间的最终动作划分结果包括各个指令动作的最终动作持续范围；

根据动作划分依据，对目标视频区间的基础动作划分结果执行有效动作提取操作，得到目标视频区间的最终动作划分结果，包括：

根据动作划分依据，对目标视频区间的基础动作划分结果中每一指令动作的原始动作持续范围执行动作持续范围调整操作，得到目标视频区间的最终动作划分结果中每一指令动作的最终动作持续范围。

在一种可能的实施方式中，动作划分依据包括多个规范动作持续范围；对目标视频区间执行动作划分操作得到多个指令动作；多个指令动作中的任意指令动作表示为待处理指令动作；

根据动作划分依据，对待处理指令动作的原始动作持续范围执行动作持续范围调整操作，得到待处理指令动作的最终动作持续范围，包括：

获取待处理指令动作的原始动作持续范围与动作划分依据中的每一规范动作持续范围之间的范围差值；

确定获取得到的范围差值中的最小范围差值；

将获取最小范围差值对应的规范动作持续范围，作为待处理指令动作的最终动作持续范围。

在一种可能的实施方式中，对目标视频区间执行动作划分操作，得到目标视频区间的基础动作划分结果，包括：

对目标视频区间执行动作划分操作，得到至少两个指令动作，以及各个指令动作在目标视频区间中的动作开始帧和动作停止帧；

根据每一指令动作在目标视频区间中的动作开始帧和动作停止帧，确定每一指令动作的原始动作持续范围。

在一种可能的实施方式中，动作划分依据包括多个规范动作持续范围，各个规范动作持续范围对应一个有效计时范围，任意有效计时范围表示为目标有效计时范围；根据指令语音确定待识别内容对应的动作划分依据，包括：

对指令语音进行指令类型识别，得到待识别内容的指令动作构成数目；

根据指令动作构成数目获取待识别内容的指令动作计时单位；

获取待识别内容的指令动作时长信息，根据指令动作时长信息、指令动作计时单位、以及目标有效计时范围的标准化数值，获取目标有效计时范围对应的规范动作持续范围。

第二方面，本发明实施例提供一种服务器系统，包括服务器，服务器用于执行第一方面至少一种可能的实施方式中的方法。

相比现有技术，本发明提供的有益效果包括：采用本发明公开的一种基于虚拟现实的用户动作识别方法及系统，通过响应于外部输入的虚拟现实场景启动指令，对穿戴式设备进行针对目标虚拟现实场景的初始化操作；然后将捕捉结果作为待识别内容；接着将待识别内容进行优化识别，得到待识别内容对应的最终动作划分结果；最终输出最终动作划分结果对应的目标指令，如此设计，通过对待识别内容的优化识别，能够提高针对用户动作识别的识别效率，避免了用户反复进行动作演示的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍。应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定。对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的基于虚拟现实的用户动作识别方法的步骤流程示意图；

图2为本发明实施例提供的服务器的结构示意框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

下面结合附图，对本发明的具体实施方式进行详细说明。

为了解决前述背景技术中的技术问题，图1为本公开实施例提供的基于虚拟现实的用户动作识别方法的流程示意图，下面对该基于虚拟现实的用户动作识别方法进行详细介绍。

步骤S101，响应于外部输入的虚拟现实场景启动指令，对穿戴式设备进行针对目标虚拟现实场景的初始化操作；

步骤S102，通过穿戴式设备进行用户动作捕捉以及用户声音捕捉，并将捕捉结果作为待识别内容；

步骤S103，将待识别内容进行优化识别，得到待识别内容对应的最终动作划分结果；

步骤S104，根据最终动作划分结果，查找目标虚拟现实场景对应的动作指令数据库，输出最终动作划分结果对应的目标指令。

在本发明实施例中，穿戴式设备配置了视频采集设备（例如摄像头）以及语音采集设备（例如麦克风），在用户正确穿戴上本发明实施例提供的穿戴式设备后，能够被准确的采集做出的动作和发出的声音。本发明实施提供的穿戴式设备能够适配多个预先确定的场景，并且能够针对对应的目标虚拟现实场景进行初始化操作，例如，针对运动类的游戏，那么对应的视频采集设备就会调整位置，尽量采集到用户全身；针对普通交互虚拟现实场景，对应的视频采集设备会重点针对用户上半身进行采集，语音采集设备也会被强化。应当理解是，在本发明实施例中，例如在一些需要提高用户体验的游戏场景中，可以称之为真实交互场景，需要用户做出对应的动作并同时说出对应的语音指令后才能够输出正确的指令，而做出正确的动作也有助于增强用户在虚拟现实场景的交互体验（例如在某游戏场景中，进行技能的释放、物品宠物的召唤等等）。因此，可以通过穿戴式设备进行用户动作捕捉以及用户声音捕捉，并将捕捉结果作为待识别内容。然而由于用户的年龄、体型、运动能力的不同，为了能够使得前述虚拟现实场景广泛的被用户接收，可以对采集到的待识别内容进行优化识别，得到待识别内容对应的最终动作划分结果，进而根据最终动作划分结果，查找目标虚拟现实场景对应的动作指令数据库，输出最终动作划分结果对应的目标指令。如此设计，能够使得需要进行真实交互场景的用户无需担心因为动作些许的不标准导致的动作无法识别，进而需要重复动作的问题，提高了用户在虚拟现实交互时的体验。

为了能够更加清楚的描述本申请实施例提供的方案，前述步骤S103可以通过以下详细的步骤执行实施。

步骤S201，从待识别内容中获取现实演示动作视频和指令语音。

待识别内容中可以包括现实演示动作视频和指令语音，可以采用语音采集软件从待识别内容中获取现实演示动作视频和指令语音。

由前述内容可知，待识别内容的指令内容指令集合可以包括至少一个指令内容，现实演示动作视频可以根据指令内容指令集合中的指令内容数量划分为至少两个视频区间，一个视频区间对应一句指令内容，任意视频区间是待识别内容的现实演示者对该视频区间对应的指令内容进行现实演示得到的视频数据。为了便于对本发明实施例中的方案进行介绍，在此将现实演示动作视频中的视频区间的数目表示为多个，指令内容指令集合中的指令内容的数目表示为多个，即现实演示动作视频中包括多个视频区间，指令内容指令集合中包括多个指令内容，视频区间与指令内容一一对应。

步骤S202，对现实演示动作视频中的每一视频区间执行动作划分操作，得到每一视频区间的基础动作划分结果。

从待识别内容中获取现实演示动作视频之后，可以对现实演示动作视频中的每一视频区间执行动作划分操作，得到每一视频区间的基础动作划分结果。

在此以现实演示动作视频中的任意视频区间的动作时间范围划分过程为例进行介绍，现实演示动作视频中除该任意视频区间之外的其他视频区间的动作时间范围划分过程，均可以参见该任意视频区间的动作时间范围划分过程的相关描述。现实演示动作视频包括的多个视频区间中的任意视频区间可以表示为目标视频区间；对目标视频区间执行动作划分操作，得到目标视频区间的基础动作划分结果的过程，可以包括：

A、对目标视频区间执行动作划分操作，得到至少两个指令动作，以及各个指令动作在目标视频区间中的动作开始帧和动作停止帧。

B、根据每一指令动作在目标视频区间中的动作开始帧和动作停止帧，确定每一指令动作的原始动作持续范围，目标视频区间的基础动作划分结果包括每一指令动作的原始动作持续范围。其中，任意指令动作的原始动作持续范围等于该指令动作的动作停止帧减去该指令动作的动作开始帧；例如，指令动作“奔跑”的原始动作持续范围等于指令动作“奔跑”的动作停止帧为第10秒，减去指令动作“奔跑”的动作开始帧为第8秒，得到指令动作“奔跑”的原始动作持续范围2秒。

步骤S203，根据指令语音确定待识别内容对应的动作划分依据。

从待识别内容中获取指令语音之后，可以根据指令语音确定待识别内容对应的动作划分依据。动作划分依据是指待识别内容下的节奏标准，可以用于对每一视频区间的基础动作划分结果执行有效动作提取操作，动作划分依据可以包括多个规范动作持续范围，各个规范动作持续范围对应一个有效计时范围；也就是说，动作划分依据包括的是根据指令语音确定出的每一有效计时范围在指令语音（即待识别内容）下的准确的动作持续范围，这样的规范动作持续范围是能够满足对应业务服务器对动作指令的判定的。其中，有效计时范围规范动作范围时长的，有效计时范围可以包括第一有效计时范围、第二有效计时范围、第三有效计时范围、第四有效计时范围、第五有效计时范围、第六有效计时范围、第七有效计时范围等等；第二有效计时范围的有效计时范围时间长度（也可称为动作持续范围）是第一有效计时范围的一半，第三有效计时范围的有效计时范围时间长度是第二有效计时范围的一半，以此类推；第六有效计时范围的有效计时范围时间长度是第二有效计时范围的1.5倍，第七有效计时范围的有效计时范围时间长度是第三有效计时范围的1.5倍，以此类推；并且各个有效计时范围可以对应一个标准化数值，例如第二有效计时范围对应的标准化数值为4，第三有效计时范围对应的标准化数值为8。也就是说，待识别内容对应的动作划分依据可以理解为包括每一有效计时范围在待识别内容的指令语音下的规范动作持续范围。

在此以根据指令语音确定任意有效计时范围在待识别内容的指令语音下的规范动作持续范围为例进行介绍，除该任意有效计时范围之外的其他有效计时范围对应的规范动作持续范围的确定过程，可以参见该任意有效计时范围对应的规范动作持续范围的确定过程的相关描述。任意有效计时范围可以表示为目标有效计时范围，根据指令语音确定目标有效计时范围对应的规范动作持续范围的过程可以包括：

A、对指令语音进行指令类型识别，得到待识别内容的指令动作构成数目。其中，指令类型识别具体可以是采用指令类型识别工具进行的，指令类型识别工具可以包括但不限于以下任意一种：具备指令类型识别能力的应用程序、具备指令类型识别能力的插件、具备指令类型识别能力的应用程序接口等等。待识别内容的指令动作构成数目是指：待识别内容的指令语音在单位时间（例如1分钟、1秒等）内包含的指令数量。

B、根据指令动作构成数目获取待识别内容的指令动作计时单位。其中，指令动作计时单位是指待识别内容的各个指令所占的时长。根据指令动作构成数目获取待识别内容的指令动作计时单位的过程可以表示为指令动作计时单位=60/指令动作构成数目，其中，获取得到的指令动作计时单位的单位为秒。

C、获取待识别内容的指令动作时长信息，根据指令动作时长信息、指令动作计时单位、以及目标有效计时范围的标准化数值，获取目标有效计时范围对应的规范动作持续范围。其中，指令动作时长信息是指待识别内容中表示固定单位时间长度和动作幅度的表征形式；指令动作时长信息可以表示为M-N指令动作时长，M-N表示以M单位有效计时范围为一指令动作时长，每单位时长为M指令动作时长。例如，待识别内容的指令动作时长信息为4-4指令动作时长，表示该待识别内容以第二有效计时范围为一指令动作时长，每单位时长4指令动作时长；根据每一有效计时范围的有效计时范围时间长度之间的关系，当待识别内容的指令动作时长信息为4-4指令动作时长时，第二有效计时范围可以表示一指令动作时长，第三有效计时范围可以表示二分之一指令动作时长，第四有效计时范围可以表示四分之一指令动作时长。根据指令动作时长信息可以确定该指令动作时长信息对应的指令动作时长基准值；举例来说，当待识别内容的指令动作时长信息为4-4指令动作时长（即以第二有效计时范围为一指令动作时长）时，指令动作时长基准值的取值为4；当待识别内容的指令动作时长信息为4-2指令动作时长（即以第一有效计时范围为一指令动作时长）时，指令动作时长基准值的取值为2；根据指令动作时长信息、指令动作计时单位、以及目标有效计时范围的标准化数值，获取目标有效计时范围对应的规范动作持续范围，可以包括：根据指令动作时长信息对应的指令动作时长基准值、指令动作计时单位、以及目标有效计时范围的标准化数值，获取目标有效计时范围对应的规范动作持续范围。

步骤S204，根据动作划分依据，对每一视频区间的基础动作划分结果执行有效动作提取操作，得到每一视频区间的最终动作划分结果。

由于经动作时间范围划分得到的每一视频区间的基础动作划分结果可能有不准确的情况，例如基础动作划分结果中的某个指令动作在现实演示动作视频中的真实动作持续范围为3秒，但是识别出的该指令动作的原始动作持续范围为2.8秒；这样获取出的基础动作划分结果在进行复杂动作指令的过程中会影响后续的其他指令判定；因此需要对基础动作划分结果执行有效动作提取操作，避免动作指令输出不准确。动作有效范围校准是根据动作划分依据进行的，根据指令语音确定动作划分依据之后，可以根据动作划分依据，对每一视频区间的基础动作划分结果执行有效动作提取操作，得到每一视频区间的最终动作划分结果；对每一视频区间的基础动作划分结果执行有效动作提取操作，可以理解为是将基础动作划分结果中不准确的原始动作持续范围，校准为动作划分依据中的规范动作持续范围，从而得到准确的最终动作划分结果。

本发明实施例以对现实演示动作视频中的任意视频区间（即目标视频区间）的基础动作划分结果执行有效动作提取操作为例进行介绍；现实演示动作视频中除目标视频区间之外的其他视频区间的基础动作划分结果的动作持续范围处理过程，可以参见对目标视频区间的基础动作划分结果的动作持续范围处理过程的相关描述。由前述内容可知，目标视频区间的基础动作划分结果中可以包括每一指令动作的原始动作持续范围，对每一指令动作的原始动作持续范围执行有效动作提取操作可以得到每一指令动作的最终动作持续范围，也就是说，目标视频区间的最终动作划分结果中可以包括每一指令动作的最终动作持续范围。根据动作划分依据，对目标视频区间的基础动作划分结果执行有效动作提取操作，得到目标视频区间的最终动作划分结果的过程，可以包括：根据动作划分依据，对目标视频区间的基础动作划分结果中每一指令动作的原始动作持续范围执行动作持续范围调整操作，得到目标视频区间的最终动作划分结果中每一指令动作的最终动作持续范围。

为了便于对本发明实施例中的方案进行介绍，将对目标视频区间执行动作划分操作得到的指令动作的数目表示为多个；也就是说，目标视频区间的基础动作划分结果包括多个指令动作的初始动作持续范围，目标视频区间的最终动作划分结果包括多个指令动作的最终动作持续范围。在此以多个指令动作中的任意指令动作为例，介绍该任意指令动作对应的初始动作持续范围的动作持续范围校准处理过程，多个指令动作中除该任意指令动作之外的其他指令动作的动作持续范围校准处理过程，可以参见该任意指令动作的动作持续范围校准处理过程的相关描述。多个指令动作中的任意指令动作可以表示为待处理指令动作；根据动作划分依据，对待处理指令动作的原始动作持续范围执行动作持续范围调整操作，得到待处理指令动作的最终动作持续范围的过程，可以包括：获取待处理指令动作的原始动作持续范围与动作划分依据中的每一规范动作持续范围之间的范围差值；确定获取得到的范围差值中的最小范围差值；将获取最小范围差值对应的规范动作持续范围，作为待处理指令动作的最终动作持续范围。需要说明的是，此处的范围差值是指：待处理指令动作的原始动作持续范围减去动作划分依据中的规范动作持续范围后，得到的差值的绝对值。

本发明实施例中，获取待识别内容中的最终动作划分结果的过程可以是自动执行的。并且，动作划分依据中包括每一有效计时范围在待识别内容的指令语音下的规范动作持续范围，采用动作划分依据对基础动作划分结果中不准确的原始动作持续范围进行校准处理，可以将基础动作划分结果中不准确的原始动作持续范围，校准为最终动作划分结果中符合待识别内容的规范动作持续范围的、准确的最终动作持续范围。

在本发明实施例中，还提供以下具体的实施方式。

步骤S401，从待识别内容中获取现实演示动作视频和指令语音。

步骤S402，对现实演示动作视频中的每一视频区间执行动作划分操作，得到每一视频区间的基础动作划分结果。

步骤S403，根据指令语音确定待识别内容对应的动作划分依据。

步骤S404，根据动作划分依据，对每一视频区间的基础动作划分结果执行有效动作提取操作，得到每一视频区间的最终动作划分结果。

在本发明实施例中，通过将每一视频区间的指令动作与对应指令内容中的待定指定子内容进行匹配，确定出异常的指令动作，然后对基础动作划分结果中异常的指令动作的最终动作持续范围进行优化，确定每一视频区间的范围校准信息。下面通过本发明实施例中的步骤S405至步骤S406对动作有效范围的优化过程进行详细介绍。

步骤S405，获取待识别内容的指令内容指令集合。

除根据指令语音确定的动作划分依据可以用于对动作有效范围执行有效动作提取操作之外，待识别内容的指令内容指令集合也是一个有价值的标注信息，可用于对动作有效范围执行校准操作。由前述内容可知，指令内容指令集合中可以包括至少一个指令内容，现实演示动作视频中的每一视频区间可以是根据指令内容指令集合中的指令内容数量进行截取的，现实演示动作视频中的任意视频区间是对指令内容指令集合中的对应指令内容进行现实演示得到的视频数据。为了便于对本发明实施例中的方案进行介绍，在此将现实演示动作视频中的视频区间的数目表示为多个，指令内容指令集合中的指令内容的数目表示为多个，即现实演示动作视频中包括多个视频区间，指令内容指令集合中包括多个指令内容，视频区间与指令内容一一对应。

获取到的指令内容指令集合中除包括至少一个指令内容之外，还可以包括每句指令内容在对应视频区间中的现实演示起始时间和现实演示结束时间。

根据上述情况，在获取到指令内容指令集合之后，可以对各句指令内容在对应视频区间中的现实演示起始时间和现实演示结束时间进行优化，确保各句指令内容优化后的现实演示起始时间和现实演示结束时间所形成的时间区间，能够覆盖对应视频区间识别得到的所有指令动作的动作开始帧和动作停止帧。以指令内容指令集合中的待定指令内容为例，优化过程具体如下：将待定指令内容在目标视频区间中的旧的现实演示起始时间、以及对目标视频区间执行动作划分操作得到的第一个指令动作的动作开始帧中较早的时间，作为待定指令内容在目标视频区间中的新的现实演示起始时间；将待定指令内容在目标视频区间中的旧的现实演示结束时间、以及对目标视频区间执行动作划分操作得到的最后一个指令动作的动作停止帧中较晚的时间，作为待定指令内容在目标视频区间中的新的现实演示结束时间。

对各句指令内容在对应视频区间中的现实演示起始时间和现实演示结束时间进行优化之后，可以根据各句指令内容在对应视频区间中的新的现实演示起始时间和新的现实演示结束时间，对各句指令内容进行重新划分。

步骤S406，根据每一视频区间对应的指令内容，对每一视频区间的最终动作划分结果执行校准操作，得到每一视频区间的范围校准信息。

由前述内容可知，现实演示动作视频包括的多个视频区间中的任意视频区间可以表示为目标视频区间，目标视频区间对应指令内容指令集合包含的多个指令内容中的待定指令内容，待定指令内容中包括至少两个待定指定子内容；对目标视频区间执行动作划分操作得到至少两个指令动作；目标视频区间的最终动作划分结果包括各个指令动作的最终动作持续范围。在此以目标视频区间为例对执行校准处理过程为例进行介绍，多个视频区间中除目标视频区间之外的其他视频区间的执行校准处理过程，可以参见目标视频区间的执行校准处理过程。根据待定指令内容，对目标视频区间的最终动作划分结果执行校准操作，得到目标视频区间的范围校准信息的过程可以包括以下子步骤S4061至子步骤S4063：

步骤S4061，将目标视频区间的指令动作与待定指令内容的待定指定子内容执行指令内容校验操作。

在本发明实施例中，异常的指令动作可以包括但不限于以下至少一种：

（1）目标视频区间中未处理的指令动作。目标视频区间中未处理的指令动作是指：有于待定指令内容中，但对目标视频区间执行动作划分操作时未识别出的动作。

（2）目标视频区间中连续的多个错误指令动作。目标视频区间中连续的多个错误指令动作是指：对目标视频区间执行动作划分操作时，由待定指令内容中的单个待定指定子内容错误解析出的多个指令动作。

（3）目标视频区间中多余的指令动作。目标视频区间中多余的指令动作是指：不应存在于待定指令内容中动作，该动作可能是对现实演示动作视频中夹带的指令语音识别得到的。步骤S4062，若目标视频区间的指令动作与待定指令内容的待定指定子内容之间有异常的指令动作，则获取异常的指令动作。

步骤S4063，对目标视频区间的最终动作划分结果中异常的指令动作的最终动作持续范围执行动作持续范围校准操作，得到目标视频区间的范围校准信息。

子步骤S4062至子步骤S4063中，若目标视频区间的指令动作与待定指令内容的待定指定子内容之间有异常的指令动作，则可以获取异常的指令动作，以及对目标视频区间的最终动作划分结果中，异常的指令动作的最终动作持续范围执行动作持续范围校准操作，得到目标视频区间的范围校准信息。对应于上述三种异常的指令动作，在此提出针对上述三种异常的指令动作的动作有效范围校准方式：

（1）当异常的指令动作包括目标视频区间中未处理的指令动作时，目标视频区间的指令动作中位于未处理的指令动作之前的连续指令动作为目标指令动作，此处对目标视频区间的最终动作划分结果中，异常的指令动作的最终动作持续范围执行动作持续范围校准操作，得到目标视频区间的范围校准信息可以包括：获取目标指令动作的最终动作持续范围；确定目标指令动作的最终动作持续范围与参考动作持续范围之间的范围关系；根据范围关系确定多个修复动作持续范围；将多个修复动作持续范围，修复至目标视频区间的最终动作划分结果中。

需要注意以下三个方面：第一方面，由于有未处理的指令动作，因此目标指令动作的最终动作持续范围中应该包含的是目标指令动作和未处理的指令动作的总最终动作持续范围。第二方面，参考动作持续范围可以是指动作划分依据中的某个有效计时范围对应的规范动作持续范围，具体选取的是哪个有效计时范围，取决于有效计时范围的规范动作持续范围的长短。第三方面，多个修复动作持续范围中可以包括第一修复动作持续范围和第二修复动作持续范围，甚至可以包括第三、第四或更多的修复动作持续范围，在此以多个修复动作持续范围包括第一修复动作持续范围和第二修复动作持续范围为例进行介绍；根据范围关系确定多个修复动作持续范围的过程，可以是确定第一修复动作持续范围的数目和第二修复动作持续范围的数目的过程；任意修复动作持续范围可以是指动作划分依据中的某个有效计时范围对应的规范动作持续范围，具体选取哪一个有效计时范围，可以取决于有效计时范围在该虚拟现实场景中出现的频率。

下面详细介绍根据范围关系确定多个修复动作持续范围，将多个修复动作持续范围，修复至目标视频区间的最终动作划分结果中的过程，具体可以包括：根据范围关系确定第一修复动作持续范围的数目和第二修复动作持续范围的数目，根据数量将第一修复动作持续范围和第二修复动作持续范围，修复至目标视频区间的最终动作划分结果中目标指令动作和未处理的指令动作对应的位置处。上述过程中需要注意的是，在填补时优先填补第一修复动作持续范围，在第一修复动作持续范围全部填补完后，再填补第二修复动作持续范围；在填补过程中不保留目标指令动作的最终动作持续范围，可以理解为将目标指令动作作为未处理的指令动作重新填补。

（2）当异常的指令动作包括目标视频区间中连续的多个错误指令动作时，连续的多个错误指令动作是由待定指令内容中的目标待定指定子内容错误解析获取的，此处，对目标视频区间的最终动作划分结果中，异常的指令动作的最终动作持续范围执行动作持续范围校准操作，得到目标视频区间的范围校准信息可以包括：获取连续的多个错误指令动作的最终动作持续范围；获取连续的多个错误指令动作的最终动作持续范围的持续范围集合；将目标视频区间的最终动作划分结果中异常的指令动作的最终动作持续范围，调整为持续范围集合。也就是说，采用连续的多个错误指令动作的最终动作持续范围的持续范围集合，替换连续的多个错误指令动作的最终动作持续范围。

（3）当异常的指令动作包括目标视频区间中多余的指令动作时，多余的指令动作不应存在于待定指令内容中，多余的指令动作可能是对现实演示动作视频中夹带的指令语音识别得到的；此处，对目标视频区间的最终动作划分结果中，异常的指令动作的最终动作持续范围执行动作持续范围校准操作，得到目标视频区间的范围校准信息可以包括：将多余指令动作的最终动作持续范围，从目标视频区间的最终动作划分结果中移除。示例性的针对多余的指令动作的最终动作持续范围的优化过程参考前述方式，多余的指令动作“跳”不应存在于待定指令内容中，可以将目标视频区间的最终动作划分结果中该多余的指令动作“跳”的最终动作持续范围移除。

上述步骤S405至步骤S406描述了对每一视频区间的最终动作划分结果的第一次执行校准处理过程，第一次执行校准处理过程通过确定目标视频区间的指令动作中与目标指令内容中的待定指定子内容异常的指令动作，然后对目标视频区间的最终动作划分结果中异常的指令动作的最终动作持续范围执行校准操作，得到目标视频区间的范围校准信息；其中，异常的指令动作可以包括以下至少一种：目标视频区间中未处理的指令动作、目标视频区间中连续的多个错误指令动作、以及目标视频区间中多余的指令动作；经第一次优化后，可以得到每一视频区间的范围校准信息，获取到的每一视频区间的范围校准信息与每一视频区间的真实动作有效范围非常接近，有效提升了动作有效范围的准确率。但是由于在第一次优化过程中未考虑视频区间的指令动作与对应指令内容中的待定指定子内容之间的数目匹配情况，例如在对目标视频区间中未处理的指令动作的动作持续范围进行优化时，并未要求修复动作持续范围的数目与未处理的指令动作的数目保持一致；因此，视频区间的范围校准信息中每一指令动作的动作持续范围的数目，与对应指令内容中的待定指定子内容的数目可能不匹配，在此可以采用第二次执行校准处理过程执行校准操作。以目标视频区间为例，对目标视频区间的范围校准信息进行第二次执行校准处理的过程，可以包括：

A、在目标视频区间的范围校准信息中动作持续范围的数目，与待定指令内容中待定指定子内容的数目之间进行数目核实。此处，数量匹配是指：目标视频区间的范围校准信息中动作持续范围的数目，与待定指令内容中待定指定子内容的数目相同；数量不一致是指：目标视频区间的范围校准信息中动作持续范围的数目，与待定指令内容中待定指定子内容的数目不相同。

B、若数量不一致，则可以获取动作范围校准规则，动作范围校准规则中可以包括多个范围校准内容，任意范围校准内容可以包括：每一视频区间的最终动作划分结果中指令动作与对应指令内容的待定指定子内容匹配的最终动作划分结果，或每一视频区间的范围校准信息中动作持续范围的数目与对应指令内容中待定指定子内容的数目匹配的范围校准信息。由前述内容可知，当某个视频区间的指令动作与该视频区间对应指令内容中的待定指定子内容完全匹配，则可以将该视频区间的最终动作划分结果作为一个范围校准内容添加至范围校准内容集合中，范围校准内容集合就是动作范围校准规则。此处，当某个视频区间的范围校准信息中的动作持续范围的数目，与该视频区间对应指令内容中的待定指定子内容的数目匹配时，也可以将该视频区间的范围校准信息作为一个范围校准内容添加至动作范围校准规则中。也就是说，动作范围校准规则中的范围校准内容是获取到的准确的动作有效范围，动作范围校准规则可以用于对动作持续范围的数目与对应指令内容中待定指定子内容的数目之间不匹配的范围校准信息进行优化。

C、获取目标视频区间的范围校准信息与每一范围校准内容之间的差异程度。其中，范围校准信息与范围校准内容之间的差异程度是指：将范围校准信息转换为范围校准内容所需的执行步骤的次数，执行步骤可以包括插入操作、移除操作和替换操作中的任意一种或多种。范围校准信息与范围校准内容之间的差异程度越大，表示将范围校准信息转换为范围校准内容所需的执行步骤的次数越多，范围校准信息与范围校准内容之间的近似度越低；范围校准信息与范围校准内容之间的差异程度越小，表示将范围校准信息转换为范围校准内容所需的执行步骤的次数越少，范围校准信息与范围校准内容之间的近似度越高。

④采用差异程度不超过差异程度阈值的目标范围校准内容，对目标视频区间的范围校准信息进行优化。动作范围校准规则中与目标视频区间的范围校准信息之间的差异程度，不超过差异程度阈值的目标范围校准内容的数目可以为至少两个；当目标范围校准内容的数目为一个时，则可以采用该目标范围校准内容，对目标视频区间的范围校准信息进行优化；当目标范围校准内容的数目为多个时，可以将多个目标范围校准内容中随机选取的任意目标范围校准内容，或多个目标范围校准内容中与目标视频区间的范围校准信息之间差异程度最小的目标范围校准内容，对目标视频区间的范围校准信息进行优化。

动作范围校准规则中的范围校准内容是获取到的准确的动作有效范围，借助准确的动作有效范围对每一视频区间的范围校准信息进行进一步的执行校准处理，能够进一步提高动作有效范围的准确率。

本发明实施例中的一种实施方式中，获取到待识别内容之后，可以从待识别内容中分离出现实演示动作视频和指令语音；对于指令语音，可以根据对指令语音检测得到的指令动作构成数目确定动作划分依据，动作划分依据中可以包括每一有效计时范围在指令语音下的规范动作持续范围；对于现实演示动作视频，可以对现实演示动作视频中的每一视频区间执行动作划分操作，得到每一视频区间的基础动作划分结果，任一视频区间的基础动作划分结果中可以包括该视频区间的指令动作的原始动作持续范围；然后可以根据动作划分依据中的规范动作持续范围，对每一视频区间的基础动作划分结果中指令动作的原始动作持续范围执行动作持续范围调整操作，得到每一视频区间的最终动作划分结果中指令动作的最终动作持续范围。在这之后，还可以对每一视频区间的最终动作划分结果进行第一次执行校准处理，第一次执行校准处理主要针对的是，每一视频区间的最终动作划分结果中与对应指令内容中的待定指定子内容异常的指令动作的最终动作持续范围，第二次执行校准处理主要针对的是，每一视频区间的范围校准信息中动作持续范围的数目与对应指令内容中待定指定子内容的数目不匹配的范围校准信息。通过对识别出的各视频区间的基础动作划分结果执行有效动作提取操作以及两次执行校准处理，可以从待识别内容中获取准确的动作有效范围。

本发明实施例提供一种服务器100，服务器100包括处理器及存储有计算机指令的非易失性存储器，计算机指令被处理器执行时，服务器100执行前述的基于虚拟现实的用户动作识别方法。如图2所示，图2为本发明实施例提供的服务器100的结构框图。服务器100包括存储器111、处理器112及通信单元113。为实现数据的传输或交互，存储器111、处理器112以及通信单元113各元件相互之间直接或间接地电性连接。例如，可通过一条或多条通讯总线或信号线实现这些元件相互之间电性连接。

出于说明目的，前面的描述是参考具体实施例而进行的。但是，上述说明性论述并不打算穷举或将本公开局限于所公开的精确形式。根据上述教导，众多修改和变化都是可行的。选择并描述这些实施例是为了最佳地说明本公开的原理及其实际应用，从而使本领域技术人员最佳地利用本公开，并利用具有不同修改的各种实施例以适于预期的特定应用。出于说明目的，前面的描述是参考具体实施例而进行的。但是，上述说明性论述并不打算穷举或将本公开局限于所公开的精确形式。根据上述教导，众多修改和变化都是可行的。选择并描述这些实施例是为了最佳地说明本公开的原理及其实际应用，从而使本领域技术人员最佳地利用本公开，并利用具有不同修改的各种实施例以适于预期的特定应用。

Claims

1.一种基于虚拟现实的用户动作识别方法，其特征在于，包括：

通过所述穿戴式设备进行用户动作捕捉以及用户声音捕捉，并将捕捉结果作为待识别内容；

将所述待识别内容进行优化识别，得到所述待识别内容对应的最终动作划分结果；

根据所述最终动作划分结果，查找所述目标虚拟现实场景对应的动作指令数据库，输出所述最终动作划分结果对应的目标指令；

所述将所述待识别内容进行优化识别，得到所述待识别内容对应的最终动作划分结果，包括：

从所述待识别内容中获取现实演示动作视频和指令语音，所述现实演示动作视频包括至少两个视频区间；

对所述现实演示动作视频中的每一视频区间执行动作划分操作，得到所述每一视频区间的基础动作划分结果；

根据所述指令语音确定所述待识别内容对应的动作划分依据；

根据所述动作划分依据，对所述每一视频区间的基础动作划分结果执行有效动作提取操作，得到所述每一视频区间的最终动作划分结果；

所述方法还包括：

获取所述待识别内容的指令内容指令集合，所述指令内容指令集合中包括至少一个指令内容，所述现实演示动作视频中的每一视频区间是根据所述指令内容指令集合中的指令内容数量进行截取的，所述现实演示动作视频中的任意视频区间是对指令内容指令集合中的对应指令内容进行现实演示得到的视频数据；

根据所述每一视频区间对应的指令内容，对所述每一视频区间的最终动作划分结果执行校准操作，得到所述每一视频区间的范围校准信息；

所述现实演示动作视频中包括多个视频区间；所述多个视频区间中的任意视频区间表示为目标视频区间；所述指令内容指令集合包括多个指令内容，所述目标视频区间对应所述多个指令内容中的待定指令内容，所述待定指令内容中包括至少两个待定指定子内容；对所述目标视频区间执行动作划分操作获取至少两个指令动作；所述目标视频区间的最终动作划分结果包括各个指令动作的最终动作持续范围；

根据所述待定指令内容，对所述目标视频区间的最终动作划分结果执行校准操作，得到所述目标视频区间的范围校准信息，包括：

将所述目标视频区间的指令动作与所述待定指令内容的待定指定子内容执行指令内容校验操作；

若所述目标视频区间的指令动作与所述待定指令内容的待定指定子内容之间有异常的指令动作，则获取所述异常的指令动作；

对所述目标视频区间的最终动作划分结果中，所述异常的指令动作的最终动作持续范围执行动作持续范围校准操作，得到所述目标视频区间的范围校准信息；

所述异常的指令动作包括：所述目标视频区间中连续的多个错误指令动作，所述连续的多个错误指令动作是由所述待定指令内容中的目标待定指定子内容错误解析获取的；

所述对所述目标视频区间的最终动作划分结果中，所述异常的指令动作的最终动作持续范围执行动作持续范围校准操作，得到所述目标视频区间的范围校准信息，包括：

获取所述连续的多个错误指令动作的最终动作持续范围；

获取所述连续的多个错误指令动作的最终动作持续范围的持续范围集合；

将所述目标视频区间的最终动作划分结果中，所述异常的指令动作的最终动作持续范围调整为所述持续范围集合，得到所述目标视频区间的范围校准信息；

所述异常的指令动作还包括：所述目标视频区间中不应存在于所述待定指令内容中的指令动作；

所述对所述目标视频区间的最终动作划分结果中，所述异常的指令动作的最终动作持续范围执行动作持续范围校准操作，得到所述目标视频区间的范围校准信息，包括：将所述目标视频区间中不应存在于所述待定指令内容中的指令动作的最终动作持续范围，从所述目标视频区间的最终动作划分结果中移除，得到所述目标视频区间的范围校准信息；

所述异常的指令动作还包括：所述目标视频区间中未处理的指令动作，所述目标视频区间的指令动作中位于所述未处理的指令动作之前的连续指令动作为目标指令动作；所述对所述目标视频区间的最终动作划分结果中，所述异常的指令动作的最终动作持续范围执行动作持续范围校准操作，得到所述目标视频区间的范围校准信息，包括：

获取所述目标指令动作的最终动作持续范围；

确定所述目标指令动作的最终动作持续范围与参考动作持续范围之间的范围关系；

根据所述范围关系确定多个修复动作持续范围；

将所述多个修复动作持续范围，修复至所述目标视频区间的最终动作划分结果中，得到所述目标视频区间的范围校准信息。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述目标视频区间的范围校准信息中动作持续范围的数目，与所述待定指令内容中待定指定子内容的数目之间进行数目核实；

若数量不一致，则获取动作范围校准规则，所述动作范围校准规则中包括多个范围校准内容，任意范围校准内容包括：所述每一视频区间的最终动作划分结果中指令动作与对应指令内容的待定指定子内容匹配的最终动作划分结果，或所述每一视频区间的范围校准信息中动作持续范围的数目与对应指令内容中待定指定子内容的数目匹配的范围校准信息；

获取所述目标视频区间的范围校准信息与每一范围校准内容之间的差异程度；

采用差异程度不超过差异程度阈值的目标范围校准内容，对所述目标视频区间的范围校准信息进行优化。

3.根据权利要求1所述的方法，其特征在于，所述现实演示动作视频中包括多个视频区间；所述多个视频区间中的任意视频区间表示为目标视频区间；对所述目标视频区间执行动作划分操作获取至少两个指令动作；所述目标视频区间的基础动作划分结果包括各个指令动作的原始动作持续范围，所述目标视频区间的最终动作划分结果包括各个指令动作的最终动作持续范围；

根据所述动作划分依据，对所述目标视频区间的基础动作划分结果执行有效动作提取操作，得到所述目标视频区间的最终动作划分结果，包括：

根据所述动作划分依据，对所述目标视频区间的基础动作划分结果中每一指令动作的原始动作持续范围执行动作持续范围调整操作，得到所述目标视频区间的最终动作划分结果中每一指令动作的最终动作持续范围。

4.根据权利要求3所述的方法，其特征在于，所述动作划分依据包括多个规范动作持续范围；对所述目标视频区间执行动作划分操作得到多个指令动作；多个指令动作中的任意指令动作表示为待处理指令动作；

根据所述动作划分依据，对所述待处理指令动作的原始动作持续范围执行动作持续范围调整操作，得到所述待处理指令动作的最终动作持续范围，包括：

获取所述待处理指令动作的原始动作持续范围与所述动作划分依据中的每一规范动作持续范围之间的范围差值；

确定获取得到的范围差值中的最小范围差值；

将获取所述最小范围差值对应的规范动作持续范围，作为所述待处理指令动作的最终动作持续范围。

5.根据权利要求3所述的方法，其特征在于，对所述目标视频区间执行动作划分操作，得到所述目标视频区间的基础动作划分结果，包括：

对所述目标视频区间执行动作划分操作，得到至少两个指令动作，以及各个指令动作在所述目标视频区间中的动作开始帧和动作停止帧；

根据每一指令动作在所述目标视频区间中的动作开始帧和动作停止帧，确定每一指令动作的原始动作持续范围。

6.根据权利要求1所述的方法，其特征在于，所述动作划分依据包括多个规范动作持续范围，各个规范动作持续范围对应一个有效计时范围，任意有效计时范围表示为目标有效计时范围；所述根据所述指令语音确定所述待识别内容对应的动作划分依据，包括：

对所述指令语音进行指令类型识别，得到所述待识别内容的指令动作构成数目；

根据所述指令动作构成数目获取所述待识别内容的指令动作计时单位；

获取所述待识别内容的指令动作时长信息，根据所述指令动作时长信息、所述指令动作计时单位、以及所述目标有效计时范围的标准化数值，获取所述目标有效计时范围对应的规范动作持续范围。

7.一种服务器系统，其特征在于，包括服务器，所述服务器用于执行权利要求1-6中任一项所述的方法。