CN113051435B

CN113051435B - 服务器及媒资打点方法

Info

Publication number: CN113051435B
Application number: CN202110275148.6A
Authority: CN
Inventors: 王光强; 刘金刚; 宁静
Original assignee: Juhaokan Technology Co Ltd
Current assignee: Juhaokan Technology Co Ltd
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2023-10-27
Anticipated expiration: 2041-03-15
Also published as: CN113051435A

Abstract

本申请实施例提供了一种服务器及媒资打点方法，所述服务器被配置为：确定待打点的目标媒资；对所述目标媒资的视频帧进行人物动作识别；若所述视频帧中的人物动作为所述动作库对应的其中一个人物动作，生成一条打点记录，所述打点记录至少包括所述视频帧的播放时间；根据所述目标媒资的全部打点记录和所述目标媒资的时间轴生成打点标签，所述打点标签用于在所述目标媒资的播放过程中，在检测到所述打点标签后对视频采集装置采集的用户图像进行动作比对。本申请解决了跟练模式的评分准确性低的技术问题。

Description

服务器及媒资打点方法

技术领域

本申请涉及显示技术领域，尤其涉及一种服务器及媒资打点方法。

背景技术

电视是人们家居生活中的一种重要显示设备，与移动设备、计算机等小屏显示设备相比，电视以其独特的大屏显示优势，在播放视频时提供了多种可能的播放方式。相关技术中，电视在播放健身视频时可选择跟练模式进行播放，在跟练模式下，电视可显示两个播放窗口，一个播放窗口播放健身视频，另一个播放窗口播放电视的摄像头采集的用户图像，使用户可在电视上比较自己的健身动作与健身视频中的健身动作是否一致。为了方便用户专心锻炼，电视还可将用户的健身动作与健身视频中的健身动作进行实时比较，进而生成并显示评分。然而，由于用户跟随健身视频进行健身时有一定滞后性，因此，电视得出的评分通常偏低，导致用户体验不佳。

发明内容

为解决跟练模式的评分准确性低的技术问题，本申请提供了一种服务器及媒资打点方法。

第一方面，本申请提供了一种服务器，该服务器被配置为：

确定待打点的目标媒资；

对所述目标媒资的视频帧进行人物动作识别；

若所述视频帧中的人物动作为所述动作库对应的其中一个人物动作，生成一条打点记录，所述打点记录至少包括所述视频帧的播放时间；

根据所述目标媒资的全部打点记录和所述目标媒资的时间轴生成打点标签，所述打点标签用于在所述目标媒资的播放过程中，在检测到所述打点标签后对视频采集装置采集的用户图像进行动作比对。

在一些实施例中，所述生成一条打点记录，包括：

获取所述视频帧在所述目标媒资中的播放时间；

获取所述视频帧中的人物动作对应的动作标识，其中，所述动作库对应的每一个人物动作分别设置有一个动作标识；

根据所述播放时间和动作标识生成一条打点记录。

在一些实施例中，所述若所述视频帧中的人物动作为所述动作库对应的其中一个人物动作，生成一条打点记录，包括：

在所述视频帧中的人物动作为所述动作库对应的其中一个人物动作时，若所述视频帧的播放时间距离上一打点记录对应的播放时间大于预设时间，则生成一条打点记录；若否，则不进行打点记录的生成。

在一些实施例中，所述对所述目标媒资的视频帧进行人物动作识别包括：间隔距离上一打点记录对应的播放时间小于预设时间的视频帧，对所述目标媒资的视频帧进行人物动作识别。

第二方面，本申请提供了一种服务器，所述服务器被配置为：

接收来自显示设备的媒资图像和多张时间递进的用户图像，所述媒资图像为目标媒资的打点记录对应的视频帧；

计算所述用户图像中的用户动作和媒资图像中的人物动作的相似度，得到所述用户图像的动作评分；

将多个动作评分中的最高分作为所述媒资图像的跟练得分；

向所述显示设备发送所述跟练得分。

第三方面，本申请提供了一种服务器，所述服务器被配置为：

接收来自显示设备的多张时间递进的用户图像和动作标识；

从动作库中获取所述动作标识对应的目标图像；

计算所述用户图像中的用户动作和目标图像中的人物动作的相似度，得到所述用户图像的动作评分；

将多个动作评分中的最高分作为跟练得分；

向所述显示设备发送所述跟练得分。

第四方面，本申请提供了一种媒资打点方法，该方法包括：

确定待打点的目标媒资；

对所述目标媒资的视频帧进行人物动作识别；

本申请提供的服务器及媒资打点方法的有益效果包括：

本申请实施例通过预先对目标媒资进行打点，使得在进行评分时，可根据打点的视频帧对用户图像进行评分，解决了实时比较时用户做出动作时可能目标媒资已经播放到其他动作而导致用户动作评分偏低的问题，提升了跟练模式的评分准确性，提升了用户体验。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1中示例性示出了根据一些实施例的显示设备与控制装置之间操作场景的示意图；

图2中示例性示出了根据一些实施例的控制装置100的硬件配置框图；

图3中示例性示出了根据一些实施例的显示设备200的硬件配置框图；

图4中示例性示出了根据一些实施例的显示设备200中软件配置示意图；

图5中示例性示出了根据一些实施例的跟练模式的界面示意图；

图6中示例性示出了根据一些实施例的目标媒资的打点交互示意图；

图7中示例性示出了根据一些实施例的目标媒资的评分交互示意图；

图8中示例性示出了根据一些实施例的跟练过程中的评分示意图；

图9中示例性示出了根据一些实施例的跟练结束后的评分示意图；

图10中示例性示出了根据一些实施例的显示设备的异常处理界面的示意图；

图11中示例性示出了根据一些实施例的显示设备的异常处理界面的示意图；

图12中示例性示出了根据一些实施例的显示设备的异常处理界面的示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

图1为根据实施例中显示设备与控制装置之间操作场景的示意图。如图1所示，用户可通过智能设备300或控制装置100操作显示设备200。

在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式，通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等输入用户指令，来控制显示设备200。

在一些实施例中，也可以使用智能设备300(如移动终端、平板电脑、计算机、笔记本电脑等)以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。

在一些实施例中，显示设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制，例如，可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制，也可以通过显示设备200设备外部设置的语音控制设备来接收用户的语音指令控制。

在一些实施例中，显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。

图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。

图3示出了根据示例性实施例中显示设备200的硬件配置框图。

在一些实施例中，显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。

在一些实施例中控制器包括处理器，视频处理器，音频处理器，图形处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。

在一些实施例中，显示器260包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面。

在一些实施例中，显示器260可为液晶显示器、OLED显示器、以及投影显示器，还可以为一种投影装置和投影屏幕。

在一些实施例中，通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。显示设备200可以通过通信器220与外部控制设备100或服务器400建立控制信号和数据信号的发送和接收。

在一些实施例中，用户接口，可用于接收控制装置100(如：红外遥控器等)的控制信号。

在一些实施例中，检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

在一些实施例中，外部装置接口240可以包括但不限于如下：高清多媒体接口接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。

在一些实施例中，调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及EPG数据信号。

在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。

在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器260上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中，所述对象可以是可选对象中的任何一个，例如超链接、图标或其他可操作的控件。与所选择的对象有关操作有：显示连接到超链接页面、文档、图像等操作，或者执行与所述图标相对应程序的操作。

在一些实施例中控制器包括中央处理器(Central Processing Unit，CPU)，视频处理器，音频处理器，图形处理器(Graphics Processing Unit，GPU)，RAM RandomAccessMemory，RAM)，ROM(Read-Only Memory,ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

CPU处理器。用于执行存储在存储器中操作系统和应用程序指令，以及根据接收外部输入的各种交互指令，来执行各种应用程序、数据和内容，以便最终显示和播放各种音视频内容。CPU处理器，可以包括多个处理器。如，包括一个主处理器以及一个或多个子处理器。

在一些实施例中，图形处理器，用于产生各种图形对象，如：图标、操作菜单、以及用户输入指令显示图形等。图形处理器包括运算器，通过接收用户输入各种交互指令进行运算，根据显示属性显示各种对象；还包括渲染器，对基于运算器得到的各种对象，进行渲染，上述渲染后的对象用于显示在显示器上。

在一些实施例中，视频处理器，用于将接收外部视频信号，根据输入信号的标准编解码协议，进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等视频处理，可得到直接可显示设备200上显示或播放的信号。

在一些实施例中，视频处理器，包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等。其中，解复用模块，用于对输入音视频数据流进行解复用处理。视频解码模块，用于对解复用后的视频信号进行处理，包括解码和缩放处理等。图像合成模块，如图像合成器，其用于将图形生成器根据用户输入或自身生成的GUI信号，与缩放处理后视频图像进行叠加混合处理，以生成可供显示的图像信号。帧率转换模块，用于对转换输入视频帧率。显示格式化模块，用于将接收帧率转换后视频输出信号，改变信号以符合显示格式的信号，如输出RGB数据信号。

在一些实施例中，音频处理器，用于接收外部的音频信号，根据输入信号的标准编解码协议，进行解压缩和解码，以及降噪、数模转换、和放大处理等处理，得到可以在扬声器中播放的声音信号。

在一些实施例中，用户可在显示器260上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

在一些实施例中，“用户界面”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

在一些实施例中，显示设备的系统可以包括内核(Kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构，它们让用户可以管理文件、运行程序并使用系统。上电后，内核启动，激活内核空间，抽象硬件、初始化硬件参数等，运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后，再加载Shell和用户应用程序。应用程序在启动后被编译成机器码，形成一个进程。

显示设备的系统可以包括内核(Kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构，它们让用户可以管理文件、运行程序并使用系统。上电后，内核启动，激活内核空间，抽象硬件、初始化硬件参数等，运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后，再加载Shell和用户应用程序。应用程序在启动后被编译成机器码，形成一个进程。

参见图4，在一些实施例中，将系统分为四层，从上至下分别为应用程序(Applications)层(简称“应用层”)，应用程序框架(Application Framework)层(简称“框架层”)，安卓运行时(Android runtime)和系统库层(简称“系统运行库层”)，以及内核层。

在一些实施例中，应用程序层中运行有至少一个应用程序，这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序或时钟程序等；也可以是第三方开发者所开发的应用程序。在具体实施时，应用程序层中的应用程序包不限于以上举例。

框架层为应用程序提供应用编程接口(application programming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心，这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口，可在执行中访问系统中的资源和取得系统的服务。

如图4所示，本申请实施例中应用程序框架层包括管理器(Managers)，内容提供者(Content Provider)等，其中管理器包括以下模块中的至少一个：活动管理器(ActivityManager)用与和系统中正在运行的所有活动进行交互；位置管理器(Location Manager)用于给系统服务或应用提供了系统位置服务的访问；文件包管理器(Package Manager)用于检索当前安装在设备上的应用程序包相关的各种信息；通知管理器(NotificationManager)用于控制通知消息的显示和清除；窗口管理器(Window Manager)用于管理用户界面上的括图标、窗口、工具栏、壁纸和桌面部件。

在一些实施例中，活动管理器用于管理各个应用程序的生命周期以及通常的导航回退功能，比如控制应用程序的退出、打开、后退等。窗口管理器用于管理所有的窗口程序，比如获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕，控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。

在一些实施例中，系统运行库层为上层即框架层提供支撑，当框架层被使用时，安卓操作系统会运行系统运行库层中包含的C/C++库以实现框架层要实现的功能。

在一些实施例中，内核层是硬件和软件之间的层。如图4所示，内核层至少包含以下驱动中的至少一种：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，压力传感器等)、以及电源驱动等。

在一些实施例中的硬件或软件架构可以基于上述实施例中的介绍，在一些实施例中可以是基于相近的其他硬件或软件架构，可以实现本申请的技术方案即可。

在一些实施例中，显示设备可设置有摄像组件，摄像组件可包括升降摄像头或非升降摄像头，摄像组件可拍摄用户图像，显示设备的控制器可将摄像组件拍摄到的用户图像显示在显示设备的显示器上。

在一些实施例中，显示设备没有设置摄像组件，但可连接一个摄像组件，如通过USB连接一个外置摄像头，利用该摄像头拍摄用户图像，显示设备的控制器可将摄像组件拍摄到的用户图像显示在显示设备的显示器上。

在一些实施例中，显示设备可安装多个使用摄像组件的应用，如视频聊天应用、镜子应用、拍照应用等等。

在一些实施例中，使用摄像组件的应用还可为视频播放应用，该视频播放应用可为显示设备自带的视频播放应用或者显示设备上安装的第三方视频播放应用。

在一些实施例中，视频播放应用的首页可为显示设备的首页。该视频播放应用的播放模式可包括普通模式和跟练模式，其中，在普通模式下，视频播放应用将生成一个播放窗口，在该播放窗口播放用户选中的媒资，该播放窗口可为全屏窗口；在跟练模式下，视频播放应用将生成两个播放窗口，在一个播放窗口播放该目标媒资，在另一个播放窗口播放摄像组件采集的用户图像。为了方便观看目标媒资，目标媒资的播放窗口可被默认设置为大于用户图像的播放窗口，且这两个播放窗口的位置不重叠，例如，目标媒资的播放窗口位于显示器的左侧，用户图像的播放窗口位于显示器的右侧，当然，这两个播放窗口也可被默认设置为大小相同，或者用户图像的播放窗口大于目标媒资的播放窗口，还可将这两个播放窗口的大小及位置还可被配置为可自由调节。

参见图5，为根据一些实施例的跟练模式的界面示意图，如图5所示，目标媒资可为健身视频，在一些播放模式如跟练模式下，用户可在观看目标媒资时，跟随目标媒资中的人物做出相同的动作，从而实现跟练。用户可在显示设备上将自己的动作与目标媒资中的动作进行对比，从而判断自己的动作是否规范。

在一些实施例中，视频播放应用的播放模式还可包括其他模式，如AR模式，在该模式下，视频播放应用将生成一个播放窗口，在该播放窗口播放该目标媒资，并将摄像组件采集的用户图像中的用户身体贴图到该播放窗口中。

在一些实施例中，在一些实施例中，视频播放应用还可根据一些预设的评分规则对用户的动作进行评分，使用户不用自己去对比自己的动作与目标媒资中的动作，也能得知自己的动作是否规范。

在一些实施例中，一种预设的评分规则是：将目标媒资的图像与用户图像进行实时对比，根据用户图像中的用户动作与目标媒资中的动作的相似度，确定用户动作的评分，相似度越高，则评分越高，相似度越低，则评分越低。

然而，在目标媒资的播放过程中，用户从看到目标媒资中的动作到做出动作需要一些时间，用户图像采集的过早或过晚，都容易导致用户动作的评分偏低，而且，目标媒资是持续播放的，如果用户在做出目标媒资中的动作后，目标媒资的画面已经切换为其他动作，将直接导致用户评分较低。

为解决上述技术问题，一种预设的评分规则是：在目标媒资播放到一个特定的动作时，获取此时的目标媒资的图像，然后连续采集多张用户图像，将用户图像中的动作与目标媒资的图像中的动作进行动作比对，得到多个评分，将最高的评分作为该动作的评分，从而提高评分准确性。

在一些实施例中，目标媒资中用于进行评分的特定动作可根据动作库确定，其中，动作库可包括多张包含不同人物动作的样本图片和样本图片对应的动作数据，样本图片中的人物动作可为一些常见的健身动作，如下蹲动作，抬手动作等等。

在一些实施例中，动作库的动作数据可包括样本图片中人物的骨骼关键点的坐标位置和骨骼关键点类型，其中，骨骼关键点可通过已训练好的骨骼关键点检测模型得到，一种示例性地骨骼关键点类型可包括鼻部骨骼关键点、脖子骨骼关键点、左肩骨骼关键点、左手肘骨骼关键点、左手腕骨骼关键点、右肩骨骼关键点、右手肘骨骼关键点、右手腕骨骼关键点、左髋部骨骼关键点、左膝部骨骼关键点、左脚腕骨骼关键点、右髋部骨骼关键点、右膝部骨骼关键点、右脚腕骨骼关键点、左眼骨骼关键点、右眼骨骼关键点、左耳骨骼关键点和右耳骨骼关键点。骨骼关键点检测模型可为基于深度神经网络的模型，将大量人工标注好骨骼关键点的图片输入深度神经网络模型，然后对深度神经网络进行训练，可使深度神经网络具有识别骨骼关键点的功能。当然，骨骼关键点也可通过人工标注得到。

在一些实施例中，动作库的动作数据还可包括相邻骨骼关键点之间的位置关系，根据相邻骨骼关键点之间的位置关系可区分不同的人物动作。

在一些实施例中，动作库的动作数据还包括样本图片中的人物动作的动作难度，动作难度可由运营人员确定，一种示例性地动作难度范围为0～10，动作难度的数值越大，则代表难度越大。

在一些实施例中，动作库的动作数据还包括动作标识，每一个人物动作可对应一个不同的动作标识，一种示例性地动作标识可为动作编号，根据该动作编号，可从动作库中快速查找出该动作编号对应的其他动作数据以及样本图片。

在一些实施例中，确定目标媒资中用于进行评分的特定动作所在的图像帧的这一过程可称为对目标媒资进行打点，参见图6，为根据一些实施例的目标媒资的打点交互示意图。

如图6所示，运营人员可利用第一工具处理服务器、媒资业务服务器和媒资内容服务器对目标媒资的打点。其中，第一工具处理服务器可对目标媒资进行打点，动作库可存储于该第一工具处理服务器中；媒资业务处理器可设置有每个目标媒资的媒资信息，该媒资信息可为目标媒资的提供者提供的原始信息，如媒资播放地址、媒资分辨率、媒资时长、媒资类型等信息，也可为运营人员对原始信息进行加工处理后的媒资信息，例如，加工处理后的媒资可包括校正后的媒资类型、媒资标签等一些新信息，原来的媒资类型被删除，示例性的，在原始信息中，媒资类型为运动，校正后的媒资类型可为健身；媒资内容服务器可为目标媒资的内容提供者上传目标媒资的视频流文件与原始信息的服务器。

在图6中，第一工具处理服务器、媒资业务服务器和媒资内容服务器是按照各自的功能进行区分的，在实际实施中，每个服务器可能部署在一个硬件设备上，也可能部署在多个硬件设备，这三个服务器也可能均部署在一个硬件设备上，本申请实施例对此不做具体限定。

在一些实施例中，运营人员可向第一工具处理服务器输入目标媒资的打点指令，该打点指令可包括目标媒资的媒资ID，第一工具处理服务器可根据该媒资ID，向媒资业务服务器获取该媒资ID对应的媒资信息，即目标媒资的媒资信息。

在一些实施例中，内容提供者在媒资内容服务器上传了一个新的媒资后，媒资业务服务器可根据该新上传的媒资的原始信息生成对应的媒资信息，第一工具处理服务器可实时主动监测媒资业务服务器上新生成的媒资信息，根据媒资信息中的媒资类型判断是否将该新上传的媒资作为目标媒资，如果媒资类型为预设的打点类型，如健身类型，可将该新上传的媒资作为目标媒资，如果媒资类型不是预设的打点类型，可不将该新上传的媒资作为待打点的目标媒资，跳过该媒资，继续判断下一个新上传的媒资是否为目标媒资。

在一些实施例中，内容提供者在媒资内容服务器上传了一个新的媒资后，已经对该媒资进行了打点，并在该媒资的原始信息中设置了一个打点标签，用于表示该媒资已经打点，媒资业务处理服务器在处理该原始信息以得到媒资信息时，若检测到打点标签，且该打点标签符合预设的规范，例如，打点标签中含有基于时间轴的打点视频帧的播放时间，则可在媒资信息中保留该打点标签，若否，则删除该打点标签。因此，第一工具处理服务器在处理一个目标媒资时，可判断该目标媒资的媒资信息中是否有打点标签，如果目标媒资的媒资信息中有打点标签，第一工具处理服务器可确定目标媒资已经打点，如果没有打点便签，则将该媒资作为待打点的目标媒资。

在一些实施中，内容提供者在媒资内容服务器上传了一个新的媒资后，媒资业务服务器生成的媒资信息中的媒资类型不属于打点类型，但过了一段时间后，媒资业务服务器重新对该媒资信息进行核对后，在该媒资的媒资信息中增加了一个类型属性为打点类型，对于这种情况，第一工具处理服务器可实时主动监测媒资业务服务器上发生变化的媒资信息，如果变化的媒资信息中的媒资类型为打点类型，且该媒资信息中没有打点标签，则将该媒资确定为作为待打点的目标媒资。

在一些实施例中，内容提供者对媒资进行打点后，还可生成一个打点文件，该打点文件可存储在该媒资的原始信息中，媒资业务处理服务器在处理该原始信息以得到媒资信息时，可在媒资信息中保留该打点文件。因此，第一工具处理服务器在处理一个目标媒资时，可判断该目标媒资的媒资信息中是否有上述打点文件，如果目标媒资的媒资信息中有上述打点文件，第一工具处理服务器可确定目标媒资已经打点，如果没有打点文件，也没有打点标签，则可将该媒资作为待打点的目标媒资。

在一些实施例中，第一工具处理服务器在确定目标媒资已经打点后，如果之前是根据打点指令获取了该目标媒资的媒资信息，则可生成目标媒资打点完毕的提示信息，使运营人员得知该目标媒资已经打点；如果之前是第一工具处理服务器自动从媒资业务服务器中获取的目标媒资的媒资信息，则可直接跳过该目标媒资，继续处理下一个目标媒资。

在一些实施例中，内容提供者对目标媒资的打点方法可能与第一工具处理服务器的打点方法不相同，因此，运营人员得知目标媒资已经打点后，可向第一工具处理服务器输入重新打点指令，使第一工具处理服务器对该目标媒资进行打点。

在一些实施例中，第一工具处理服务器在确认需要对目标媒资进行打点后，可根据媒资信息中的媒资播放地址，向媒资内容服务器获取目标媒资的视频流文件，然后对视频流文件进行解析，得到目标媒资的视频帧，然后逐帧检测目标视频的视频帧，对视频帧进行人物动作识别，如果识别出的人物动作为所述动作库对应的其中一个人物动作，则生成一条打点记录，所述打点记录至少包括所述视频帧的播放时间。

在一些实施例中，第一工具处理服务器可通过已训练好的骨骼关键点检测模型检测视频帧中的骨骼关键点，然后将视频帧中相邻骨骼关键点之间的相对位置关系与动作库中的每个样本图片中的相应骨骼关键点之间的相对位置关系进行比较，根据相对位置关系的误差在预设的范围内，判定视频帧中的人物动作为与动作库中的样本图片中的人物动作。例如，在目标媒资的一个视频帧中，左肩骨骼关键点、左手肘骨骼关键点和左手腕骨骼关键点在一条直线上，而在动作库中，一个样本图片对应的动作数据中，左肩骨骼关键点、左手肘骨骼关键点和左手腕骨骼关键点也在一条直线上，而则可认定为该视频帧中的动作为伸左手。

在一些实施例中，在检测出目标媒资的视频帧中的人物动作为所述动作库对应的其中一个人物动作后，可获取所述视频帧在所述目标媒资中的播放时间，以及所述视频帧中的动作对应的动作标识，然后根据所述播放时间和动作标识生成一条打点记录，打点记录中可包括视频帧的播放时间和视频帧对应的动作标识。其中，相邻的视频帧之间的时间间隔通常为毫秒级，因此，在打点记录中，播放时间可精确到毫秒，便于确定视频帧。

在一些实施例中，如果一个目标媒资中打点的视频帧过于密集，则有可能导致目标媒资在播放时，用户由于没有来得及跟上目标媒资中的动作而导致打分偏低，因此，在目标媒资的视频帧中检测到人物动作为所述动作库对应的其中一个人物动作后，可先判断下是否满足打点条件，满足打点条件再打点，不满足打点条件则不打点，跳过该视频帧，继续检测下一个视频帧。一种示例性地打点条件可为：在所述视频帧中的人物动作为所述动作库对应的其中一个人物动作时，若所述视频帧的播放时间距离上一打点记录对应的播放时间大于预设时间，则可进行打点，生成一条打点记录，即在预设时间内，最多进行一次打点，预设时间可设置为10秒或其他时长。

在一些实施例中，为防止目标媒资中打点的视频帧过于密集，还可在进行一次打点后，对目标媒资在本次打点后预设时间内的视频帧不进行人物动作识别，对预设时间后的视频帧再进行人物动作识别。

在一些实施例中，目标媒资的全部视频帧检测完毕后，或者当目标媒资检测完距离目标媒资的最后一个视频帧在预设时间内的视频帧后，可汇总打点记录，根据全部打点记录和目标媒资的时间轴生成打点文件和/或打点标签，将打点文件和/或打点标签存储到目标媒资的媒资信息中。

在一些实施例中，也可只生成打点文件，不生成打点标签，或只生成打点标签，不生成打点文件。

在一些实施例中，第一工具处理服务器在生成目标媒资的打点文件和/或打点标签后，如果之前是根据打点指令进行打点的，则可生成目标媒资打点完毕的提示信息，使运营人员得知该目标媒资已经打点完毕；如果之前是自动识别出目标媒资，则可继续处理下一个目标媒资。

在一些实施例中，第一工具处理服务器还可根据打点记录对应的人物动作的动作数据，生成所述目标媒资对应的打点库。第一工具处理服务器可将打点库存储在媒资业务服务器中该目标媒资的媒资信息中，媒资业务服务器在向显示设备下发目标媒资的媒资信息时，可被配置为下发打点库。当然，第一工具处理服务器也可将打点库直接存储在第一工具处理服务器内。

在用户使用跟练模式观看目标媒资时，显示设备可根据上述实施例中得到的打点记录，在达到打点记录中的视频帧的播放时间时，采集用户图像，对用户图像中的用户动作进行动作比对，在比对后，还可为对用户动作进行评分。

参见图7，为根据一些实施例的目标媒资的评分交互示意图，如图7所示，用户在显示设备观看一个来源于媒资内容服务器上的一个目标媒资时，第二工具处理服务器可与显示设备进行交互，进而对用户动作进行评分，生成跟练记录，将跟练记录反馈给显示设备，使显示设备可显示跟练记录。

在图7中，第二工具处理服务器和媒资内容服务器是按照各自的功能进行区分的，在实际实施中，每个服务器可能部署在一个硬件设备上，也可能部署在多个硬件设备，这两个服务器也可能均部署在一个硬件设备上，本申请实施例对此不做具体限定。

在一些实施例中，用户可在显示设备的首页或其他页面选择一个媒资推荐位上显示的目标媒资的图片，向显示设备输入目标媒资的播放指令。显示设备在接收到该播放指令后，可获取目标媒资的媒资信息，从媒资信息中找到目标媒资的播放地址，然后根据该播放地址向媒资内容服务器获取目标媒资的视频流。其中，媒资信息可包含在媒资业务服务器向显示设备下发的媒资推荐位数据中，即在用户输入播放指令之前，显示设备已经将目标媒资的媒资信息存储到本地，在接收到播放指令后只需要根据目标媒资所在的媒资推荐位，从媒资推荐位数据中查找到目标媒资的媒资信息。

在一些实施例中，该播放指令中可包含播放模式，播放模式可为跟练模式，显示设备可响应于播放模式为跟练模式，启动摄像组件采集用户图像，并生成两个播放窗口，在其中一个播放窗口播放目标视频，在另一个播放窗口播放用户图像。

在一些实施例中，显示设备可从媒资信息中检测到打点标签，根据打点标签确认该目标媒资支持动作评分，进而从媒资信息中获取目标媒资的打点文件，得到目标媒资的打点记录。

在一些实施例中，显示设备也可对媒资信息进行检测，判断媒资信息中是否包含打点文件和/或打点标签，如果包含，则可从打点文件和/或打点标签中得到目标媒资的打点记录。

在目标视频的播放过程中，用户可跟随目标视频做出相应的动作。

在一些实施例中，显示设备在检测到目标视频播放到一条打点记录对应的时间时，可获取目标视频此时的媒资图像，并开始采集多张时间递进的用户图像，将目标视频的媒资图像和用户图像发送给第二工具处理服务器。示例性地，在目标视频播放到一条打点记录对应的时间时，显示设备可每间隔一段时间，就向第二工具处理服务器上传一张用户图像，针对一条打点记录，显示设备可上传预设数量的用户图像，其中，上传的用户图像的时间间隔可为100毫秒，预设数量可为10张，或者上传的用户图像的时间间隔为50毫秒，预设数量为20张。

在一些实施例中，第二工具处理服务器在接收到媒资图像和用户图像后，可按照用户图像的时间顺序，将用户图像与媒资图像进行动作比对，得到用户图像的动作评分。示例性地，动作比对方法包括：通过已训练好的骨骼关键点检测模型检测用户图像中的骨骼关键点和媒资图像中的骨骼关键点，将用户图像中相邻骨骼关键点之间的相对位置与媒资图像中相应骨骼关键点之间的相对位置进行比较，即将用户图像中的动作数据与媒资图像中的动作数据进行比较，得到相对位置的误差，根据两张图像中所有相对位置的误差，以及媒资图像的动作难度，计算得到用户图像中的用户动作与媒资图像中的动作的相似度，根据相似度得到用户动作的动作评分。其中，相对位置的误差与相似度之间的映射关系，以及相似度、动作难度与动作评分的映射关系可预先制定，并可进行调整。例如，在误差在预设范围内的相对位置的数量一定时，动作难度越大，则动作评分相对较高。

在一些实施例中，为提高评分效率，以及减小显示设备上传数据量，显示设备还可将目标媒资的播放指令发送给第二工具处理服务器，使第二工具处理服务器可响应于目标媒资的播放指令，从媒资业务服务器或第一工具处理服务器中下动作库。显示设备可上传用户图像以及动作标识，不上传媒资图像，第二工具处理服务器根据动作标识，将用户图像中的动作数据与动作库中相应样本图片的动作数据进行比对，得到用户动作的动作评分。

在一些实施例中，第二工具处理服务器可响应于目标媒资的播放指令，从第一工具处理服务器中下载打点库，第二工具处理服务器还可将用户图像的动作数据与目标媒资的打点库中相应的动作数据进行比对，得到用户动作的动作评分，避免了动作库可能较大，下载动作库和从动作库中查找动作数据较慢的问题。

在一些实施例中，动作库和/或打点库还可直接存储在第二工具处理服务器上，避免了第二工具处理服务器需要下载动作库和/或打点库而耗费时间的问题。

在一些实施例中，第二工具处理服务器在达到本次比对的终止条件时，则停止比对下一张用户图像与媒资图像。示例性地，终止条件可为已经比对了第一预设数量的用户图像，或需要进行下一个动作的比对，如接收到下一张媒资图像，或连续第二预设数量的动作评分呈下降趋势，第一预设数量可为10，第二预设数量可为3。

由于用户看到目标媒资的图像后，需要一定时间才能做出目标媒资中的动作，在做完动作后，可能会恢复到初始状态，如立正状态，或着接着去做下一个动作，因此，将时间递进的用户图像进行评分后，多个动作评分按照时间顺序可构成一个近似开口向下的抛物线，抛物线的顶点即动作评分中的最高分，可将该最高分最为本次动作的跟练得分，当然，也可根据其他方式确定跟练得分，例如，去掉几个较低的分数后，将剩余分数的平均分作为本次动作的跟练得分。

在一些实施例中，在得到一个跟练得分后，第二工具处理服务器可将该跟练得分发送给显示设备，使显示设备可显示该得分对应的评分提示，参见图8，一种评分提示可为“GOOD”，评分提示可叠加显示在用户图像上方。

在一些实施例中，在得到一个跟练得分后，第二工具处理服务器可根据目标媒资开始播放后累计的跟练得分计算出用户动作的准确率，并将准确率发送给显示设备，使显示设备可将准确率进行显示。

在一些实施例中，在目标媒资播放过程中，用户如果想停止跟练，可向显示设备输入结束播放视频的指令，显示设备可根据该指令结束播放目标媒资，并向第二工具处理服务器发送跟练结束的信息，第二工具处理服务器接收到该跟练结束的信息，根据所有跟练得分生成跟练记录，然后将跟练记录发送给显示设备，使显示设备可向用户展示该跟练记录。

在一些实施例中，在目标媒资播放结束后，显示设备可向第二工具处理服务器发送跟练结束的信息，第二工具处理服务器接收到该跟练结束的信息，根据所有跟练得分生成跟练记录，然后将跟练记录发送给显示设备，使显示设备可向用户展示该跟练记录。

参见图9，为一种示例性的跟练结束后的评分示意图，如图9所示，跟练记录可显示训练评分、能量消耗、准确度和训练时长，示例性地，训练评分可为跟练评分的平均分，准确度可为相似度的平均分，训练时长为目标媒资的播放时长，能量消耗可根据一些预设的计算规则确定。

在一些实施例中，在跟练之前或跟练过程中，显示设备还可针对一些异常情况进行处理，例如，在显示设备的控制器接收不到摄像组件的信号后，显示设备可暂停播放目标媒资，并显示异常提示，参见图10，异常提示可包括：“未检测到摄像头”，该异常提示可显示在用户图像的窗口。

在一些实施例中，在跟练过程中，第二工具处理服务器还可针对一些异常情况进行处理，例如，第二工具处理服务器在用户图像中没有检测到骨骼关键点，则可向显示设备发送异常提示以及暂停播放指令，使显示设备可根据暂停播放指令暂停播放目标媒资，并显示该异常提示。参见图11，异常提示可包括：“摄像头前无人，暂停播放”，该异常提示可显示在用户图像的窗口。

在一些实施例中，第二工具处理服务器对异常情况的处理还包括：在跟练过程中，如果第二工具处理服务器在用户图像中检测到骨骼关键点的位置在一段时间内没有变化，则可向显示设备发送异常提示以及暂停播放指令，使显示设备可根据暂停播放指令暂停播放目标媒资，并显示该异常提示。参见图12，异常提示可为两个箭头指向用户图像中的人物，该异常提示可显示在用户图像的窗口。

可见，在跟练过程中，可由第二工具处理服务器执行对用户动作进行评分的操作以及异常处理的操作，在这种操作方式中，显示设备不需要存储动作库、打点库、也不需要进行骨骼点检测、计算评分等复杂的数据处理，对显示设备的硬件水平要求较低，有利于显示设备地流畅运行。而在一些实施例中，当显示设备的硬件水平较高时，上述第二工具处理服务器执行的操作也可由显示设备完成，这种情况下，显示设备在评分之前需要下载好动作库或打点库，在评分时就不需要与第二工具处理服务器进行交互了，能够减少对网络资源的占用。

由上述实施例可见，本申请实施例通过预先对目标媒资进行打点，使得在进行评分时，可根据打点的视频帧对用户图像进行评分，解决了实时比较时用户做出动作时可能目标媒资已经播放到其他动作而导致用户动作评分偏低的问题，提升了跟练模式的评分准确性；并且通过比较多张用户图像与打点记录对应的视频帧得出多个评分，将最高的评分作为跟练得分，减少了跟练得分偏低的几率；进一步的，在对目标媒资进行打点时，通过间隔一定数量的视频帧进行打点，避免了由于打点过于密集而导致用户不能及时跟上每一个动作的情况，提升了用户体验。

由于以上实施方式均是在其他方式之上引用结合进行说明，不同实施例之间均具有相同的部分，本说明书中各个实施例之间相同、相似的部分互相参见即可。在此不再详细阐述。

需要说明的是，在本说明书中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或暗示这些实体或操作之间存在任何这种实际的关系或顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的电路结构、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种电路结构、物品或者设备所固有的要素。在没有更多限制的情况下，有语句“包括一个……”限定的要素，并不排除在包括要素的电路结构、物品或者设备中还存在另外的相同要素。

本领域技术人员在考虑说明书及实践这里发明的公开后，将容易想到本申请的其他实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性地，本申请的真正范围和精神由权利要求的内容指出。

以上的本申请实施方式并不构成对本申请保护范围的限定。

Claims

1.一种服务器，其特征在于，所述服务器中设置有未打点的目标媒资和动作库，所述动作库中包括多张包含不同人物动作的样本图片和样本图片对应的动作数据，以及和动作数据对应的动作标识，所述服务器被配置为：

响应于接收的媒资文件，获取所述媒资文件对应的媒资信息，判断所述媒资信息中的媒资类型是否为预设打点类型；

如果所述媒资信息中的媒资类型为预设打点类型，将所述媒资文件确定为待打点的目标媒资；

如果所述媒资信息中的媒资类型为非预设打点类型，核对所述媒资信息，如果所述经过核对的媒资信息中增加了一个类型属性为预设打点类型且没有设置打点标签，将所述经过核对的媒资信息对应的媒资文件确定为待打点的目标媒资；

识别所述目标媒资的视频帧；

若第一视频帧中的人物动作的动作数据和所述动作库中的第一样本图片对应的第一动作数据相匹配，为所述目标媒资生成第一打点记录，所述第一打点记录至少包括所述第一视频帧在所述目标媒资中的播放时间和对应所述第一动作数据的第一动作标识；

根据所述目标媒资的全部打点记录和所述目标媒资的时间轴生成打点标签，其中，对应所述第一打点记录的标签为第一打点标签，所述第一打点标签用于使显示设备在播放所述目标媒资的过程中，在检测到所述第一打点标签后，向服务器发送所述第一动作标识和视频采集装置采集的用户图像，不发送所述目标媒资的图像，使所述服务器根据所述第一动作标识对所述用户图像进行动作比对。

2.根据权利要求1所述的服务器，其特征在于，若第一视频帧中的人物动作的动作数据和所述动作库中的第一样本图片对应的第一动作数据相匹配，为所述目标媒资生成第一打点记录，包括：

在第一视频帧中的人物动作的动作数据和所述动作库中的第一样本图片对应的第一动作数据相匹配时，若所述视频帧的播放时间距离上一打点记录对应的播放时间大于预设时间，则生成所述第一打点记录；若否，则不生成所述第一打点记录。

3.根据权利要求1所述的服务器，其特征在于，识别所述目标媒资的视频帧中的动作数据，包括：间隔距离上一打点记录对应的播放时间小于预设时间的视频帧，识别所述目标媒资中的动作数据。

4.根据权利要求1所述的服务器，其特征在于，所述服务器还被配置为：

根据全部打点记录对应的人物动作的动作数据，生成所述目标媒资对应的打点库。

5.根据权利要求1所述的服务器，其特征在于，所述服务器被配置为：

接收来自显示设备对应所述第一视频帧的多张时间递进的用户图像和第一动作标识，其中，所述显示设备根据目标媒资中的第一打点标签向所述服务器发送所述用户图像和第一动作标识；

从动作库中获取所述第一动作标识对应的目标图像；

计算所述用户图像中的动作数据和目标图像中的第一动作数据的相似度，得到所述用户图像的动作评分；

将多个动作评分中的最高分作为跟练得分；

向所述显示设备发送所述跟练得分。

6.根据权利要求5所述的服务器，其特征在于，计算所述用户图像中的动作数据和目标图像中的第一动作数据的相似度，得到所述用户图像的动作评分，包括：

按照时间顺序计算多张用户图像中的动作数据和目标图像中的第一动作数据的相似度，得到所述用户图像的动作评分，直到所述目标图像下的动作评分数量达到第一预设数量，或需要进行下一个动作的比对，或连续第二预设数量的动作评分呈下降趋势。

7.根据权利要求5所述的服务器，其特征在于，所述服务器还被配置为：

接收来自所述显示设备的结束播放视频的指令；

响应于所述结束播放视频的指令，根据每个目标图像的跟练得分生成跟练记录。

8.一种媒资打点方法，其特征在于，用于服务器，所述服务器中设置有未打点的目标媒资和动作库，所述动作库中包括多张包含不同人物动作的样本图片和样本图片对应的动作数据，以及和动作数据对应的动作标识，所述方法包括：

响应于接收的媒资文件，获取所述媒资文件对应的媒资信息，判断所述媒资信息中的媒资类型是否为预设打点类型，如果是预设打点类型，将是预设打点类型的媒资信息对应的媒资文件确定为待打点的目标媒资；

核对非预设打点类型的媒资信息，如果所述经过核对的媒资信息中的媒资类型变为预设打点类型且没有设置打点标签，将所述媒资类型变为预设打点类型且没有设置打点标签的媒资信息对应的媒资文件确定为待打点的目标媒资；

识别所述目标媒资的视频帧；