CN112788390B

CN112788390B - 一种基于人机交互的控制方法、装置、设备及存储介质

Info

Publication number: CN112788390B
Application number: CN202011564134.8A
Authority: CN
Inventors: 杨上超; 王轶丹; 崔宁
Original assignee: Ubtech Robotics Corp
Current assignee: Ubtech Robotics Corp
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2023-05-23
Anticipated expiration: 2040-12-25
Also published as: CN112788390A

Abstract

本发明实施例公开了一种基于人机交互的控制方法、装置、设备及存储介质。其中，该方法包括：根据采集到的屏幕前的至少两帧的候选视频帧，确定所述候选视频帧中是否存在起始帧；其中，所述至少两帧的候选视频帧为连续的视频帧；若存在，则采集所述起始帧后至少两帧的视频帧作为判断帧，获取所述判断帧中目标部位的姿态信息；其中，所述姿态信息包括位置坐标和朝向角度；根据所述判断帧中目标部位的姿态信息，基于预设的视频播放规则，控制目标视频进行播放。实现了通过获取屏幕前人体的动作对屏幕中的视频进行播放控制，减少用户操作，通过确定起始帧和判断帧，提高了基于人机交互的控制精度和控制效率。

Description

一种基于人机交互的控制方法、装置、设备及存储介质

技术领域

本发明实施例涉及视频播放技术，尤其涉及一种基于人机交互的控制方法、装置、设备及存储介质。

背景技术

随着人们娱乐活动的丰富，用户在观看视频时，追求对视频中各个对象的动作进行自主控制以及对声音的控制。

现有技术中，人们与可视化界面之间的人机交互形式单一，用户只能对目标视频进行简单的控制，趣味性和视频控制效率较低，影响用户的体验效果。

发明内容

本发明实施例提供一种基于人机交互的控制方法、装置、设备及存储介质，以提高人机交互的效率和趣味性。

第一方面，本发明实施例提供了一种基于人机交互的控制方法，该方法包括：

根据采集到的屏幕前的至少两帧的候选视频帧，确定所述候选视频帧中是否存在起始帧；其中，所述至少两帧的候选视频帧为连续的视频帧；

若存在，则采集所述起始帧后至少两帧的视频帧作为判断帧，获取所述判断帧中目标部位的姿态信息；其中，所述姿态信息包括位置坐标和朝向角度；

根据所述判断帧中目标部位的姿态信息，基于预设的视频播放规则，控制目标视频进行播放。

第二方面，本发明实施例还提供了一种基于人机交互的控制装置，该装置包括：

起始帧确定模块，用于根据采集到的屏幕前的至少两帧的候选视频帧，确定所述候选视频帧中是否存在起始帧；其中，所述至少两帧的候选视频帧为连续的视频帧；

判断帧获取模块，用于若存在，则采集起始帧后至少两帧的视频帧作为判断帧，获取所述判断帧中目标部位的姿态信息；其中，所述姿态信息包括位置坐标和朝向角度；

视频控制模块，用于根据所述判断帧中目标部位的姿态信息，基于预设的视频播放规则，控制目标视频进行播放。

第三方面，本发明实施例还提供了一种基于人机交互的控制设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明任意实施例所述的基于人机交互的控制方法。

第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如本发明任意实施例所述的基于人机交互的控制方法。

本发明实施例通过采集用户在屏幕前的候选视频帧，判断出一帧作为起始帧，将起始帧后的视频帧作为判断帧，根据判断帧中用户的动作确定用户对视频的控制指令，从而实现对视频的播放控制。解决了现有技术中，用户与机器之间人机交互形式单一的问题，使用户可以通过不同的动作对视频进行方便快捷的控制，减少用户操作，提高用户对视频的控制效率，通过确定起始帧和判断帧，有效提取用户的动作等姿态信息，提高对视频的控制精度，提升用户体验。

附图说明

图1是本发明实施例一中的一种基于人机交互的控制方法的流程示意图；

图2是本发明实施例二中的一种基于人机交互的控制方法的流程示意图；

图3是本发明实施例三中的一种基于人机交互的控制装置的结构框图；

图4是本发明实施例三中的一种基于人机交互的控制设备的流程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一所提供的一种基于人机交互的控制方法的流程示意图，本实施例可适用于用户通过人机交互进行视频控制的情况，该方法可以由一种基于人机交互的控制装置来执行。如图1所示，该方法具体包括如下步骤：

步骤110、根据采集到的屏幕前的至少两帧的候选视频帧，确定候选视频帧中是否存在起始帧；其中，至少两帧的候选视频帧为连续的视频帧。

其中，用户在对视频进行控制时需要站在屏幕前，屏幕上可以安装有摄像头等拍摄录像的装置，用户在屏幕前的动作可以由摄像头进行记录。摄像头实时采集屏幕前的场景。获取摄像头采集到的视频帧，将采集到的至少两帧视频帧作为候选视频帧。候选视频帧是连续时间内的视频帧，例如，将两秒钟内的所有视频帧作为候选视频帧。确定候选视频帧中是否存在起始帧，起始帧是用来判断用户对目标视频的控制指令的第一帧视频帧，也可以是提示服务器需要开始判断用户控制指令的预备视频帧。可以通过预设的起始帧确定规则来确定起始帧，例如，起始帧确定规则可以是将含有用户的候选视频帧作为起始帧，则从获取的候选视频帧中查找存在用户的视频帧，该视频帧即为起始帧。

本实施例中，可选的，根据采集到的屏幕前的至少两帧的候选视频帧，确定候选视频帧中是否存在起始帧，包括：将获取的屏幕前的至少两帧的视频帧作为候选视频帧；根据预设的图片整体判定规则，确定候选视频帧中是否存在目标对象；若存在，则根据预设的图片识别模型为候选视频帧的图片内容进行评分；根据评分结果，判断候选视频帧中是否存在起始帧。

具体的，获取摄像头采集的屏幕前实时的视频，例如，获取摄像头在两秒钟内的视频。将获取到的视频拆解为至少两帧的视频帧，将至少两帧的视频帧作为候选视频帧，候选视频帧为连续时间的视频帧，即候选视频帧可以组成一段完整的视频。预先存储有图片整体判定规则，图片整体判定规则用于对视频帧中的图片内容进行初步判断。例如，图片整体判定规则中可以规定候选视频帧中必须存在目标对象，若候选视频帧中不存在目标对象，则该候选视频帧一定不是起始帧，目标对象可以是人体即用户。根据预设的图片整体判定规则，可以确定候选视频帧中的是否存在目标对象，若存在，则可以进一步对候选视频帧进行判断。

可以根据预先存储的图片识别模型对含有目标对象的候选视频帧的图片内容进行评分，图片识别模型用于识别候选视频帧中用户的身体部位等信息。预先存储能够被识别的身体部位，例如，手腕、胳膊和人脸等。根据图片识别模型识别候选视频帧中是否存在预设的身体部位，根据识别结果对候选视频帧进行评分，例如，候选视频帧中识别出的预设身体部位越多，则该候选视频帧的评分就越高。根据评分结果，从候选视频帧中筛选出起始帧，若存在多个候选视频帧的评分最高，则可以将评分最高且获取时间在前的候选视频帧作为起始帧。这样设置的有益效果在于，可以对候选视频帧进行多次筛选，逐步得到起始帧，提高起始帧的判断精度，进而提高人机交互的控制精度。

本实施例中，可选的，根据预设的图片识别模型为候选视频帧的图片内容进行评分，包括：根据预设的人脸识别模型，确定连续时间的至少两帧的候选视频帧中的目标对象是否为同一个人；若是，则根据预设的姿势识别模型确定候选视频帧中目标部位的姿势评分。

具体的，图片识别模型可以包括人脸识别模型和姿势识别模型，在确定候选视频帧中存在目标对象后，可以根据预设的人脸识别模型，确定连续时间内的至少两帧的候选视频帧中目标对象的人脸是否为同一个人。若不是同一个人，则获取最后一帧候选视频帧的后一视频帧或后面的多个视频，将原先最后一帧候选视频帧与这之后的预设帧数的视频帧作为新的候选视频帧，再次进行起始帧的判断。若候选视频帧中的目标对象是同一个人，则根据预设的姿势识别模型，识别候选视频帧中的目标部位，对目标部位的姿势进行评分。可以先存储待识别的目标部位，例如，手腕和头部等，识别候选视频帧中是否存在用户头部，若存在，则进一步判断头部的姿势，例如，可以判断出头部处于低头的状态或面向屏幕的状态，低头状态的评分可以低于面向屏幕的评分。还可以识别视频帧的图片内容中目标部位的坐标，目标部位的坐标不能超出预设的坐标阈值，例如，坐标阈值可以是600*500像素的范围。若候选视频帧中目标部位的坐标超过坐标阈值，则可以不对目标部位的姿势进行评分，直接淘汰该候选视频帧。这样设置的有益效果在于，在对候选视频帧的图片内容进行评分时，可以再进行多次筛选，将图片中不是同一目标对象的候选视频帧进行淘汰，以及可以将目标部位不在预设坐标阈值的候选视频帧进行淘汰，减轻评分压力，提高计算速度，提高起始帧的确定效率和确定精度，进而提高人机交互的控制效率和控制精度。

本实施例中，可选的，根据评分结果，判断候选视频帧中是否存在起始帧，包括：将候选视频帧的评分结果与预设的评分阈值进行比较；若候选视频帧的评分结果大于评分阈值，则确定候选视频帧为起始帧。

具体的，可以预先设置一个评分阈值，将各个候选视频帧的评分结果与评分阈值进行比较，若候选视频帧的评分结果大于评分阈值，则确定该候选视频帧为起始帧。若存在多个候选视频帧的评分结果大于评分阈值，则从符合评分阈值要求的候选视频帧中选择获取时间最早或评分最高的候选视频帧作为起始帧。若没有候选视频帧的评分结果大于评分阈值，则重新获取新的候选视频帧进行起始帧的判断。这样设置的有益效果在于，可以得到满足要求的起始帧，便于根据起始帧获取后面的判断帧，实现对判断帧中用户的控制指令的判断，提高人机交互的控制精度。

步骤120、若存在，则采集起始帧后至少两帧的视频帧作为判断帧，获取判断帧中目标部位的姿态信息；其中，姿态信息包括位置坐标和朝向角度。

其中，若候选视频帧中存在起始帧，则从起始帧开始，获取起始帧后面的至少两帧的视频帧作为判断帧，判断帧是用来判断用户对视频的控制指令的视频帧。例如，可以获取起始帧后面的三帧视频帧作为判断帧。根据预设的姿态信息提取模型，从判断帧中获取目标部位的姿态信息。姿态信息可以包括位置坐标和朝向角度，姿态信息提取模型可以提取图片中目标部位的位置坐标和朝向角度，例如，可以确定人脸的朝向角度和手腕的位置坐标。

步骤130、根据判断帧中目标部位的姿态信息，基于预设的视频播放规则，控制目标视频进行播放。

其中，目标视频可以是动态图像，例如，可以是动画或其他视频。可以采用起始帧和判断帧共同确定用户对视频的控制指令，也可以只采用判断帧来确定用户的控制指令。预先设置视频播放规则，可以在视频播放规则中存储有各个视频播放控制指令与目标部位的姿态信息之间的关联关系，例如，可以设置当目标部位人脸的姿态信息为朝向屏幕时，则确定人机交互的控制指令为界面中朝向人脸的动画形象执行唱歌的动作；当目标部位胳膊的姿态信息为放下时，则确定人机交互的控制指令为停止播放。

本实施例中，可选的，根据判断帧中目标部位的姿态信息，基于预设的视频播放规则，控制目标视频进行播放，包括：根据至少两帧判断帧中目标部位的位置坐标和判断帧的获取时间，确定目标部位的运动速度；根据预设的视频播放规则和目标部位的运动速度，确定目标视频中声音或动态图像的播放速度。

具体的，在确定判断帧中目标部位的姿态信息后，得到判断帧中目标部位的位置坐标，根据不同判断帧中目标部位的位置坐标，得到目标部位的运动路线，获取各个判断帧的获取时间，根据获取时间和运动路线，得到目标部位的运动速度。预先设置视频播放规则，例如，可以规定视频中声音的播放速度与目标部位的运动速度一致，当目标部位运动速度变快，则视频声音的播放速度变快。根据视频播放规则和目标部位的运动速度，确定目标视频中声音的播放速度，控制目标视频进行播放。也可以在确定声音播放速度后，设定维持该播放速度，即设置该播放速度为指定速度。视频按指定速度进行播放，例如，可以按指定速度播放歌曲，因此播放时长是确定的。播放完的时候判定此时有没有满足起始帧的图像，有的话重复播放，无则停止音乐，视为用户没有再进行控制。若目标视频为没有声音的动画，则可以根据用户目标部位的运动速度，确定动画中动态图像的播放速度。这样设置的有益效果在于，可以根据用户目标部位的运动情况对视频播放进行实时控制，减少用户的操作步骤，提高视频播放的趣味性和控制效率，提升用户体验。

本实施例中，可选的，根据判断帧中目标部位的姿态信息，基于预设的视频播放规则，控制目标视频进行播放，还包括：根据预设帧中目标部位的位置坐标，确定目标部位在预设帧中的高度位置；其中，预设帧为判断帧中的视频帧；根据目标部位的高度位置和预设的音量控制规则，确定目标视频的播放音量。

具体的，预设帧为判断帧中的一个视频帧，例如，可以将判断帧中的最后一帧作为预设帧。获取预设帧中目标部位的位置坐标，确定位置坐标中的纵坐标，根据纵坐标确定目标部位的高度位置。预先存储音量控制规则，确定不同音量与目标部位的高度之间的关联关系。根据目标部位的高度，确定目标视频的播放音量。例如，目标部位为手腕，获取预设帧中手腕的位置坐标。设定手腕举的越高声音越大。获取到两个手腕纵坐标的平均值为Y，可以根据如下公式计算播放音量：

V＝(Y/500)×0.8+0.2；

其中，V为播放音量，视频像素高度为500，音量取值为比例，音量范围为0到1。这样设置的有益效果在于，用户可以通过简单的动作实时控制播放音量，减少操作过程，提高趣味性和基于人机交互的控制效率。

本实施例的技术方案，通过采集用户在屏幕前的候选视频帧，判断出一帧作为起始帧，将起始帧后的视频帧作为判断帧，根据判断帧中用户的动作确定用户对视频的控制指令，从而实现对视频的播放控制。解决了现有技术中，用户人机交互形式单一以及对用户动作判断错误的问题，使用户可以对视频音量和声音速度等进行方便快捷的控制，减少用户操作，提高用户对视频的控制效率，通过确定起始帧和判断帧，有效提取用户的动作等姿态信息，提高对视频的控制精度，提升用户体验。

实施例二

图2为本发明实施例二所提供的一种基于人机交互的控制方法的流程示意图，本实施例以上述实施例为基础进行进一步的优化，该方法可以由一种基于人机交互的控制装置来执行。如图2所示，该方法具体包括如下步骤：

步骤210、根据采集到的屏幕前的至少两帧的候选视频帧，确定候选视频帧中是否存在起始帧；其中，至少两帧的候选视频帧为连续的视频帧。

步骤220、若存在，则采集起始帧后至少两帧的视频帧作为判断帧，获取判断帧中目标部位的姿态信息；其中，姿态信息包括位置坐标和朝向角度。

步骤230、根据判断帧中目标部位的朝向角度，确定可视化界面中的目标乐器区域。

其中，屏幕的可视化界面中播放目标视频，目标视频可以是乐队演奏动画，可视化界面上可以显示出乐队演奏时所需的乐器，用户在屏幕外，面对整个乐队，相当于乐队的指挥家。乐队演奏动画的界面中划分有至少两种乐器的乐器区域，例如，可以将界面划分为左、中和右三个部分，左侧部分显示小提琴，中间部分显示大提琴，右侧部分显示低音提琴。乐队演奏动画可以是卡通动画版的乐队演奏视频，例如，由不同的动物形象演奏不同的乐器，当音乐进行到某一乐器的演奏时，演奏该乐器的动物形象可以做出预设的动画动作。用户为目标对象，作为指挥家站在屏幕前，摄像头采集用户的起始帧和判断帧。根据判断帧中目标部位的朝向角度，可以确定可视化界面中的目标乐器区域，即确定用户当前要指挥的目标乐器。例如，目标部位是人脸，若用户人脸朝向左侧区域，则左侧区域为目标乐器区域；又或者目标部位是手腕，获取用户左手腕和与右手腕之间的中点位置，当两手腕中点的横坐标的像素位于250到350之间视为面向中间，小于250为面向左边，大于350为面向右边，视频帧的像素宽度为600。

本实施例中，可选的，在根据判断帧中目标部位的朝向角度，确定可视化界面中的目标乐器区域之后，还包括：根据预先存储的音乐与乐器的关联关系，确定与目标乐器关联的目标音乐，并播放目标音乐。

具体的，在确定目标乐器区域后，确定目标乐器区域中的目标乐器，预先存储不同乐器与音乐的关联关系，当确定了目标乐器后，查找与目标乐器关联的目标音乐，播放目标音乐。对于同一首乐曲，可以预先存储不同乐器演奏的该乐曲的声音。例如，可以存储小提琴版本和大提琴版本的同一首乐曲，当目标乐器为小提琴时，播放小提琴版本的该乐曲，当目标乐器为大提琴时，播放大提琴版本的该乐曲。这样设置的有益效果在于，可以使视频的播放动画与播放音乐一致，当用户控制视频中某乐器动作时，相应地可以播放该乐器的声音，使动画和音乐的控制可以自然又协调，提升用户人机交互的控制体验。

本实施例中，可选的，播放目标音乐，包括：确定目标视频播放的当前音乐中的当前播放位置；根据当前播放位置，确定目标音乐中当前播放位置对应的目标播放位置；从目标音乐中的目标播放位置开始播放目标音乐。

具体的，针对同一首乐曲，不同乐器的播放乐谱一致，即各乐器播放的是同一首歌曲。在乐曲演奏过程中，用户从面向原先的乐器改为面向另一种目标乐器，则播放的声音也相应进行切换。在切换乐器的声音时，确定目标视频中乐曲的当前播放内容，即确定切换时原先乐器演奏的乐曲中的当前播放位置。获取目标乐器的乐曲，查找目标乐器的乐曲中当前播放位置对应的目标播放位置，从目标播放位置开始继续播放乐曲。这样设置的有益效果在于，可以实现乐器之间的无缝切换，提高视频中声音播放的流畅性，提升用户体验。

本实施例中，可选的，乐队演奏动画的界面中显示虚拟指挥家，虚拟指挥家面向乐器，背向用户，虚拟指挥家手中设置有指挥棒；相应地，根据判断帧中目标部位的姿态信息，控制目标视频进行播放，还包括：根据判断帧中目标部位的高度位置，确定虚拟指挥家手中指挥棒的高度；根据判断帧中目标部位的朝向角度，基于指挥家朝向规则，确定虚拟指挥家的朝向角度。

具体的，可视化界面中还可以显示出一个虚拟指挥家，虚拟指挥家手中可以设置一个指挥棒，指挥家面向乐队，背对用户。预设一个指挥棒控制规则，指挥棒控制规则可以是目标部位与指挥棒的对应规则，也可以是视频音量与指挥棒的对应规则。当用户的目标部位举高，例如，手腕举高，视频音量增大时，指挥家手中的指挥棒也可以相应抬高，使用户更好的代入为指挥家，提升用户的控制体验。例如，设定视频中指挥家指挥棒的高度为高和低两个状态，当音量大于0.65的时候，判定为高音，指挥棒举高，反之放低。还可以根据用户的朝向角度确定指挥家的朝向角度，预先设置指挥家朝向规则，可以规定虚拟指挥家的朝向角度与用户的朝向角度一致，例如，可以根据用户人脸的朝向角度，确定虚拟指挥家的朝向角度。

步骤240、控制目标乐器区域中的目标形象按照预设动画进行动作的播放。

其中，目标形象可以是目标乐器也可以是乐队演奏动画中的动画形象，例如，动画形象可以是演奏乐器的虚拟动物形象。各个区域可以设定不同的乐器，预先设置不同乐器在视频播放时的动画，例如，预设动画可以是目标乐器进行放大和抖动，或演奏目标乐器的动物形象起立或跳舞等。在确定目标乐器区域后，根据预设动画进行动作的播放。

本发明实施例通过采集用户在屏幕前的候选视频帧，判断出一帧作为起始帧，将起始帧后的视频帧作为判断帧，根据判断帧中用户的动作确定用户对视频的控制指令，从而实现对视频的播放控制。解决了现有技术中，人机交互形式单一的问题，使用户可以对视频中各个形象的动作、视频音量和声音速度等进行方便快捷的控制，使动画和音乐的控制相互协调，减少用户操作，提高用户对视频的控制效率，通过确定起始帧和判断帧，有效提取用户的动作等姿态信息，提高对视频的控制精度，提升用户体验。

实施例三

图3为本发明实施例三所提供的一种基于人机交互的控制装置的结构框图，可执行本发明任意实施例所提供的一种基于人机交互的控制方法，具备执行方法相应的功能模块和有益效果。如图3所示，该装置具体包括：

起始帧确定模块301，用于根据采集到的屏幕前的至少两帧的候选视频帧，确定所述候选视频帧中是否存在起始帧；其中，所述至少两帧的候选视频帧为连续的视频帧；

判断帧获取模块302，用于若存在，则采集起始帧后至少两帧的视频帧作为判断帧，获取所述判断帧中目标部位的姿态信息；其中，所述姿态信息包括位置坐标和朝向角度；

视频控制模块303，用于根据所述判断帧中目标部位的姿态信息，基于预设的视频播放规则，控制目标视频进行播放。

可选的，起始帧确定模块301，包括：

候选帧获取单元，用于将获取的屏幕前的至少两帧的视频帧作为候选视频帧；

目标对象确定单元，用于根据预设的图片整体判定规则，确定所述候选视频帧中的是否存在目标对象；

内容评分单元，用于若存在，则根据预设的图片识别模型为所述候选视频帧的图片内容进行评分；

起始帧判断单元，用于根据评分结果，判断所述候选视频帧中是否存在起始帧。

可选的，内容评分单元，具体用于：

根据预设的人脸识别模型，确定连续时间的至少两帧的候选视频帧中的目标对象是否为同一个人；

若是，则根据预设的姿势识别模型确定所述候选视频帧中目标部位的姿势评分。

可选的，起始帧判断单元，具体用于：

将所述候选视频帧的评分结果与预设的评分阈值进行比较；

若所述候选视频帧的评分结果大于所述评分阈值，则确定所述候选视频帧为起始帧。

可选的，视频控制模块303，包括：

运动速度确定单元，用于根据至少两帧判断帧中目标部位的位置坐标和所述判断帧的获取时间，确定目标部位的运动速度；

播放速度确定单元，用于根据预设的视频播放规则和目标部位的运动速度，确定目标视频中声音或动态图像的播放速度。

可选的，视频控制模块303，还包括：

高度确定单元，用于根据预设帧中目标部位的位置坐标，确定目标部位在所述预设帧中的高度位置；其中，所述预设帧为所述判断帧中的视频帧；

音量确定单元，用于根据所述目标部位的高度位置和预设的音量控制规则，确定所述目标视频的播放音量。

可选的，所述目标视频为乐队演奏动画，所述乐队演奏动画的界面中划分有至少两种乐器的乐器区域；

相应地，视频控制模块303，包括：

乐器确定单元，用于根据所述判断帧中目标部位的朝向角度，确定可视化界面中的目标乐器区域；

动作播放单元，用于控制所述目标乐器区域中的目标形象按照预设动画进行动作的播放。

可选的，该装置还包括：

音乐播放模块，用于在根据所述判断帧中目标部位的朝向角度，确定可视化界面中的目标乐器区域之后，根据预先存储的音乐与乐器的关联关系，确定与目标乐器关联的目标音乐，并播放所述目标音乐。

可选的，乐队演奏动画的界面中显示虚拟指挥家，所述虚拟指挥家面向乐器，背向用户，所述虚拟指挥家手中设置有指挥棒；

相应地，视频控制模块303，还包括：

指挥棒高度确定单元，用于根据所述判断帧中目标部位的高度位置，确定虚拟指挥家手中指挥棒的高度；

指挥家角度确定单元，用于根据所述判断帧中目标部位的朝向角度，确定虚拟指挥家的朝向角度。

可选的，音乐播放模块，具体用于：

确定目标视频播放的当前音乐中的当前播放位置；

根据所述当前播放位置，确定所述目标音乐中当前播放位置对应的目标播放位置；

从所述目标音乐中的目标播放位置开始播放所述目标音乐。

本发明实施例通过采集用户在屏幕前的候选视频帧，判断出一帧作为起始帧，将起始帧后的视频帧作为判断帧，根据判断帧中用户的动作确定用户对视频的控制指令，从而实现对视频的播放控制。解决了现有技术中，人机交互形式单一的问题，使用户可以通过简单的动作对视频进行方便快捷的控制，减少用户操作，提高用户对视频的控制效率，通过确定起始帧和判断帧，有效提取用户的动作等姿态信息，提高对视频的控制精度，提升用户体验。

实施例四

图4是本发明实施例四提供的一种基于人机交互的控制设备的结构示意图。基于人机交互的控制设备可以是一种计算机设备，图4示出了适于用来实现本发明实施方式的示例性计算机设备400的框图。图4显示的计算机设备400仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，计算机设备400以通用计算设备的形式表现。计算机设备400的组件可以包括但不限于：一个或者多个处理器或者处理单元401，系统存储器402，连接不同系统组件(包括系统存储器402和处理单元401)的总线403。

总线403表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备400典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备400访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器402可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)404和/或高速缓存存储器405。计算机设备400可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统406可以用于读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线403相连。存储器402可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块407的程序/实用工具408，可以存储在例如存储器402中，这样的程序模块407包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块407通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备400也可以与一个或多个外部设备409(例如键盘、指向设备、显示器410等)通信，还可与一个或者多个使得用户能与该计算机设备400交互的设备通信，和/或与使得该计算机设备400能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口411进行。并且，计算机设备400还可以通过网络适配器412与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图4所示，网络适配器412通过总线403与计算机设备400的其它模块通信。应当明白，尽管图4中未示出，可以结合计算机设备400使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元401通过运行存储在系统存储器402中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的一种基于人机交互的控制方法，包括：

实施例五

本发明实施例五还提供一种包含计算机可执行指令的存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例所提供的一种基于人机交互的控制方法，包括：

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于人机交互的控制方法，其特征在于，包括：

根据所述判断帧中目标部位的姿态信息，基于预设的视频播放规则，控制目标视频进行播放；

根据采集到的屏幕前的至少两帧的候选视频帧，确定所述候选视频帧中是否存在起始帧，包括：

将获取的屏幕前的至少两帧的视频帧作为候选视频帧；

根据预设的图片整体判定规则，确定所述候选视频帧中的是否存在目标对象，所述目标对象为用户；

若存在，则根据预设的图片识别模型为所述候选视频帧的图片内容进行评分；

根据评分结果，判断所述候选视频帧中是否存在起始帧；

根据预设的图片识别模型为所述候选视频帧的图片内容进行评分，包括：

根据图片识别模型识别候选视频帧中是否存在预设的与所述用户对应的身体部位，候选视频帧中识别出的预设身体部位越多，则该候选视频帧的评分就越高；

根据评分结果，判断所述候选视频帧中是否存在起始帧，包括：

选择评分结果最高的候选视频帧作为起始帧；若存在多个候选视频帧的评分结果最高，则将评分结果最高且获取时间在前的候选视频帧作为起始帧。

2.根据权利要求1所述的方法，其特征在于，根据评分结果，判断所述候选视频帧中是否存在起始帧，还包括：

将所述候选视频帧的评分结果与预设的评分阈值进行比较；

3.根据权利要求1所述的方法，其特征在于，根据所述判断帧中目标部位的姿态信息，基于预设的视频播放规则，控制目标视频进行播放，包括：

根据至少两帧判断帧中目标部位的位置坐标和所述判断帧的获取时间，确定目标部位的运动速度；

根据预设的视频播放规则和目标部位的运动速度，确定目标视频中声音或动态图像的播放速度。

4.根据权利要求1所述的方法，其特征在于，根据所述判断帧中目标部位的姿态信息，基于预设的视频播放规则，控制目标视频进行播放，还包括：

根据预设帧中目标部位的位置坐标，确定目标部位在所述预设帧中的高度位置；其中，所述预设帧为所述判断帧中的视频帧；

根据所述目标部位的高度位置和预设的音量控制规则，确定所述目标视频的播放音量。

5.根据权利要求1所述的方法，其特征在于，所述目标视频为乐队演奏动画，所述乐队演奏动画的界面中划分有至少两种乐器的乐器区域；

相应地，根据所述判断帧中目标部位的姿态信息，基于预设的视频播放规则，控制目标视频进行播放，包括：

根据所述判断帧中目标部位的朝向角度，确定可视化界面中的目标乐器区域；

控制所述目标乐器区域中的目标形象按照预设动画进行动作的播放。

6.根据权利要求5所述的方法，其特征在于，在根据所述判断帧中目标部位的朝向角度，确定可视化界面中的目标乐器区域之后，还包括：

根据预先存储的音乐与乐器的关联关系，确定与目标乐器关联的目标音乐，并播放所述目标音乐。

7.根据权利要求5所述的方法，其特征在于，所述乐队演奏动画的界面中显示虚拟指挥家，所述虚拟指挥家面向乐器，背向用户，所述虚拟指挥家手中设置有指挥棒；

相应地，根据所述判断帧中目标部位的姿态信息，基于预设的视频播放规则，控制目标视频进行播放，还包括：

根据所述判断帧中目标部位的高度位置，确定虚拟指挥家手中指挥棒的高度；

根据所述判断帧中目标部位的朝向角度，确定虚拟指挥家的朝向角度。

8.根据权利要求6所述的方法，其特征在于，播放所述目标音乐，包括：

确定目标视频播放的当前音乐中的当前播放位置；

从所述目标音乐中的目标播放位置开始播放所述目标音乐。

9.一种基于人机交互的控制装置，其特征在于，包括：

视频控制模块，用于根据所述判断帧中目标部位的姿态信息，基于预设的视频播放规则，控制目标视频进行播放；

所述起始帧确定模块，包括：

目标对象确定单元，用于根据预设的图片整体判定规则，确定所述候选视频帧中的是否存在目标对象，所述目标对象为用户；

起始帧判断单元，用于根据评分结果，判断所述候选视频帧中是否存在起始帧；

所述内容评分单元，具体用于：根据图片识别模型识别候选视频帧中是否存在预设的与所述用户对应的身体部位，候选视频帧中识别出的预设身体部位越多，则该候选视频帧的评分就越高；

所述起始帧判断单元，具体用于选择评分结果最高的候选视频帧作为起始帧；若存在多个候选视频帧的评分结果最高，则将评分结果最高且获取时间在前的候选视频帧作为起始帧。

10.一种基于人机交互的控制设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-8中任一所述的基于人机交互的控制方法。

11.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8中任一所述的基于人机交互的控制方法。