CN111523402B

CN111523402B - 一种视频处理方法、移动终端及可读存储介质

Info

Publication number: CN111523402B
Application number: CN202010250376.3A
Authority: CN
Inventors: 李洋; 陈松; 王磊; 张丽娜; 解云华
Original assignee: Chezhi Interconnection Beijing Technology Co ltd
Current assignee: Chezhi Interconnection Beijing Technology Co ltd
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2023-12-12
Anticipated expiration: 2040-04-01
Also published as: CN111523402A

Abstract

本发明公开了一种视频处理方法，适于在移动终端中执行，该方法包括：获取待处理视频流，待处理视频流包含多个视频帧；对视频流中的视频帧进行目标检测，获取视频帧中的目标对象的边界框；根据边界框从视频帧中分割出包含目标对象的目标图像，对目标图像进行关键点检测，得到该目标图像中的初始关键点坐标；对当前视频帧以及当前视频帧之前的预定数目个视频帧中的关键点坐标，输入时序神经网络进行处理，得到当前视频帧的最终关键点坐标。本发明一并公开了相应的移动终端及可读存储介质。

Description

一种视频处理方法、移动终端及可读存储介质

技术领域

本发明涉及视频处理领域，特别涉及一种视频处理方法、移动终端及可读存储介质。

背景技术

随着深度学习技术的发展和应用，视频处理技术迅速发展并得到广泛关注，视频中关键点定位成为视频处理技术中的一个重点，主要包含两个步骤，首先使用端到端的检测网络检测出目标位置，然后使用关键点定位网络进行关键点检测，但是通常会因为检测网络中正样本过少，样本不均衡导致准确率较低，同时由于关键点定位网络中正向传播中存在信息损失，导致定位误差较大，对于视频中关键点定位算法，由于视频中关键点存在抖动的情况，视频播放时体验较差。

发明内容

为此，本发明提供了一种视频处理方法、移动终端及可读存储介质，以力图解决或者至少缓解上面存在的问题。

根据本发明的一个方面，提供一种视频处理方法，适于在移动终端中执行，方法包括：获取待处理视频流，待处理视频流包含多个视频帧；对视频流中的视频帧进行目标检测，获取视频帧中的目标对象的边界框；根据边界框从视频帧中分割出包含目标对象的目标图像，对目标图像进行关键点检测，得到该目标图像中的初始关键点坐标；对当前视频帧以及当前视频帧之前的预定数目个视频帧中的关键点坐标，输入时序神经网络进行处理，得到当前视频帧的最终关键点坐标。

可选的，再根据本发明视频处理方法中，对视频流中的视频帧进行目标检测，获取视频帧中的目标对象的边界框包括：若当前视频帧为关键视频帧，则将该帧输入目标检测网络进行目标检测，得到目标对象的边界框，其中关键视频帧为根据预定间隔从所述视频流中抽取的视频帧；若当前视频帧为非关键视频帧，则根据该视频帧的上一帧的最终关键点坐标计算当前帧中的目标对象的边界框。

可选的，再根据本发明视频处理方法中，对视频流中的视频帧进行目标检测，获取视频帧中的目标对象的边界框还包括：对视频帧中的目标对象的边界框进行非极大值抑制处理。

可选的，再根据本发明视频处理方法中，根据该视频帧的上一帧的关键点位置计算当前帧中的目标对象的边界框包括：获取该视频帧的上一帧的最终关键点坐标；根据预设的边界框算法计算出目标对象的边界框。

可选的，再根据本发明视频处理方法中，对目标图像进行关键点检测，得到该目标图像中的初始关键点坐标包括：将目标图像输入关键点检测网络得到目标图像的初始关键点坐标。

可选的，再根据本发明视频处理方法中，目标检测网络包括SSD-MobileNet神经网络。

可选的，再根据本发明视频处理方法中，SSD-MobileNet神经网络的分类损失函数为聚焦损失函数。

可选的，再根据本发明视频处理方法中，关键点检测网络为深度对齐网络。

可选的，再根据本发明视频处理方法中，深度对齐网络中的前馈神经网络模块包含有门控机制。

可选的，再根据本发明视频处理方法中，时序神经网络为基于门控循环单元的时序神经网络。

可选的，再根据本发明视频处理方法中，目标对象为汽车，获取视频帧中的目标对象的边界框包括获取车辆的边界框和车辆方向。

可选的，再根据本发明视频处理方法中，对目标图像进行关键点检测包括：根据车辆方向选取对应的关键点检测网络；将包含汽车的目标图像输入对应的关键点检测网络得到汽车的初始关键点坐标。

可选的，再根据本发明视频处理方法中，根据车辆最终关键点坐标给当前视频帧中的汽车添加虚拟装饰物。

根据本发明的另一方面，提供一种移动终端，包括：一个或多个处理器；存储器；以及一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括用于执行上述视频处理方法的指令。

根据本发明的又一方面，提供一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，指令当由移动终端执行时，使得移动终端执行上述视频处理方法。

根据本发明的技术方案，提供了一种视频处理方法，该方法涉及目标检测网络、关键点检测网络和时序神经网络，通过时序神经网络对视频中连续帧中的关键点进行滤波，防止关键点在连续的视频画面中抖动，提高了定位精度和使用体验。

进一步，在SSD_MobileNet目标检测网络中使用了聚焦损失Focal Loss作为目标检测网络的分类损失，克服了训练过程中正例较少的问题；关键点检测网络DAN网络中的Feed Forward NN模块中加入了门控机制，增强了模型的学习能力。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个实施例的移动终端100的框图；

图2示出了根据本发明一个实施例的视频处理方法200的流程；

图3示出了根据本发明一个实施例的车辆的8个方向；

图4示出了根据本发明一个实施例的SSD-MobileNet的示意图；

图5示出了根据本发明一个实施例的用于训练汽车关键点检测网络的训练样本的标注示例；

图6示出了根据本发明一个实施例的关键点检测网络DAN的示意图；

图7示出了根据本发明一个实施例的前馈神经网络的示意图；

图8示出了根据本发明一个实施例的基于GRU的时序神经网络的示意图；

图9示出了根据本发明一个实施例的给汽车添加虚拟装饰物的效果图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1是移动终端100的结构框图，移动终端100可以包括存储器接口102、一个或多个数据处理器、图像处理器和/或中央处理单元104，以及外围接口106。

存储器接口102、一个或多个处理器104和/或外围接口106既可以是分立元件，也可以集成在一个或多个集成电路中。在移动终端100中，各种元件可以通过一条或多条通信总线或信号线来耦合。传感器、设备和子系统可以耦合到外围接口106，以便帮助实现多种功能。

例如，运动传感器110、光线传感器112和距离传感器114可以耦合到外围接口106，以方便定向、照明和测距等功能。其他传感器116同样可以与外围接口106相连，例如定位系统(例如GPS接收机)、温度传感器、生物测定传感器或其他感测设备，由此可以帮助实施相关的功能。

相机子系统120和光学传感器122可以用于方便诸如记录照片和视频剪辑的相机功能的实现，其中所述相机子系统和光学传感器例如可以是电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)光学传感器。可以通过一个或多个无线通信子系统124来帮助实现通信功能，其中无线通信子系统可以包括射频接收机和发射机和/或光(例如红外)接收机和发射机。无线通信子系统124的特定设计和实施方式可以取决于移动终端100所支持的一个或多个通信网络。例如，移动终端100可以包括被设计成支持LTE、3G、GSM网络、GPRS网络、EDGE网络、Wi-Fi或WiMax网络以及Bluebooth^TM网络的通信子系统124。

音频子系统126可以与扬声器128以及麦克风130相耦合，以便帮助实施启用语音的功能，例如语音识别、语音复制、数字记录和电话功能。I/O子系统140可以包括触摸屏控制器142和/或一个或多个其他输入控制器144。触摸屏控制器142可以耦合到触摸屏146。举例来说，该触摸屏146和触摸屏控制器142可以使用多种触摸感测技术中的任何一种来检测与之进行的接触和移动或是暂停，其中感测技术包括但不局限于电容性、电阻性、红外和表面声波技术。一个或多个其他输入控制器144可以耦合到其他输入/控制设备148，例如一个或多个按钮、摇杆开关、拇指旋轮、红外端口、USB端口、和/或指示笔之类的指点设备。所述一个或多个按钮(未显示)可以包括用于控制扬声器128和/或麦克风130音量的向上/向下按钮。

存储器接口102可以与存储器150相耦合。该存储器150可以包括高速随机存取存储器和/或非易失性存储器，例如一个或多个磁盘存储设备，一个或多个光学存储设备，和/或闪存存储器(例如NAND，NOR)。存储器150可以存储操作系统172，例如Android、iOS或是Windows Phone之类的操作系统。该操作系统172可以包括用于处理基本系统服务以及执行依赖于硬件的任务的指令。存储器150还可以存储程序174。在移动设备运行时，会从存储器150中加载操作系统172，并且由处理器104执行。程序174在运行时，也会从存储器150中加载，并由处理器104执行。程序174运行在操作系统之上，利用操作系统以及底层硬件提供的接口实现各种用户期望的功能，如即时通信、网页浏览、图片管理等。程序174可以是独立于操作系统提供的，也可以是操作系统自带的。另外，程序174被安装到移动终端100中时，也可以向操作系统添加驱动模块。在一些实施例中，移动终端100被配置为执行根据本发明的视频处理方法。其中，移动终端100的一个或多个程序174包括用于执行根据本发明的视频处理方法200的指令。

图2示出了根据本发明一个实施例的视频处理方法200的流程图。视频处理方法200适于在移动终端中执行，移动终端100中存储有用于对视频帧进行目标检测的目标检测网络，用于关键点检测的关键点检测网络和用于对关键点进行滤波的时序神经网络，根据本发明的一个实施例，目标检测网络、关键点定位网络和时序神经网络存储于移动终端100的存储器150中。目标检测网络、关键点定位网络和时序神经网络可以是预先训练好后存储到移动终端中。

目标检测网络模型的训练过程包含下面几步：

A、准备训练数据：根据本发明的一个实施例，目标对象为汽车，目标检测网络为汽车检测网络，训练数据为足够数量的汽车图片，并在汽车图片标注车辆的边界框和方向，车辆分为8个方向，包括前后左右和4个斜45度，每个方向之前相差45度，如图3所示。每个方向准备足够数量张图片作为训练数据，本实施例中的目标检测网络为基于MobileNet的单发多盒探测神经网络(Single Shot MultiBox Detector，SSD)，该网络的输出为车辆位置和车辆方向。目标检测网络还可以采用其他的深度神经网络，本发明对目标检测网络的具体类型不做限制。

B、对图片数据做增强：对于汽车检测网络，主要是对汽车图片进行镜像、旋转、加噪声等操作，以此来扩大样本集，增加模型泛化能力。

C、训练目标检测网络：利用准备好的训练数据对目标检测网络进行训练，对于上述汽车检测网络SSD-MobileNet而言，不仅输出车辆的位置，还输出车辆的方向，由于图片中车辆检测的正例远少于负例，造成样本不均衡，且其中基本为容易样本，因此，在跟据本发明的一个实施例中，将原来的交叉熵Loss改为聚焦损失Focal Loss，可控调节样本负例中容易样本的权重。Focal Loss定义如下：

FL(p_t)＝-(1-p_t)^γlog(p_t) (1)

其中，为重新定义的概率，y为样本标签，p为类别的概率。γ用来平衡容易样本的常量。

具体地，是将训练数据输入到目标检测网络，根据目标检测网络的输出与标注的边界框的差异，根据差异计算模型损失，根据模型损失调整目标检测网络的网络参数，直到训练次数达到预设次数或者模型收敛时，停止训练，输出训练好的目标检测网络。

具体网络结构如图4所示，其包含多个卷积层，根据本发明的一个实施例，输入一幅300x300的图片，可以获得不同大小的特征图(feature map)，该网络采用多尺度的feature map进行预测，如图4，抽取Conv11、Conv13、Conv14_2、Conv15_2、Conv16_2、Conv17_2层6个尺寸的feature map完成检测结果的分类，其中C是类别个数，Detections为分类和回归函数。

关键点检测网络模型的训练过程包括下面几个步骤：

A、准备训练数据：继续以汽车关键点检测为例，根据汽车的方向，因为其中6个方向45°、90°、45°和315°、270°、225°分别两两对称，所以只需要0°到180°五个方向关键点定位模型，另外三个方向225°、270°和315°只需要镜像到对称方向。每个方向选取足够数量张图片标注关键点的位置，用于训练关键点定位网络，本实施例中使用了深度对齐网络(DeepAlignment Network，DAN)，本发明对关键点检测网络不做限制。

图5示出了训练图片标注示例，包括关键点和汽车边界框。

C、训练关键点定位模型：利用准备好的训练数据对关键点检测网络进行训练，最终得到五个方向的车辆关键点定位模型，具体网络结构如图6所示。

具体地，是从训练图片中根据汽车边界框分割出汽车图片，将汽车图片输入到关键点检测网络，根据根据检测网络的输出与标注的关键点坐标的差异，根据差异计算模型损失，根据模型损失调整关键点检测网络的网络参数，直到训练次数达到预设次数或者模型收敛时，停止训练，输出训练好的关键点检测网络。

原有的DAN网络结构较为简单，在正向传播过程中信息存在损失，因此，基于本发明的一个实施例中，在前馈神经网络(Feed Forward NN)模块最后的全连接层前加入门控机制SE Gating，提高网络学习能力，其具体结构如图7所示。

时序神经网络模型的训练过程包括下面几步：

A、准备训练数据：继续以汽车关键点检测为例，该时序神经网络是基于视频的，上述汽车图片的关键点数据是基于图片的，基于视频每帧去标注关键点任务量太大，因此，利用上面已经训练出来的车辆检测和关键点定位模块用于基于视频的关键点检测，在对其中偏差较大的点人工修正，得到大量标注的视频关键点，节省了大量人力。根据本发明的一个实施例，采用基于门控循环单元(Gated Recurrent Unit，GRU)的时序神经网络。

B、训练时序神经网络：用准备好的训练数据对时序神经网络进行训练，对于汽车关键点检测网络中的基于GRU的时序神经网络，每个时刻的输入向量为该时刻当前帧中关键点的坐标，输出为滤波后的关键点坐标，具体网络结构如图8所示。相较于LSTM，GRU网络更加简洁，有利于部署到移动端。

具体地，是将训练数据输入到时序神经网络，根据时序神经网络的输出与标注的关键点的差异，根据差异计算模型损失，根据模型损失调整时序神经网络的网络参数，直到训练次数达到预设次数或者模型收敛时，停止训练，输出训练好的时序神经网络网络。

在目标检测网络、关键点检测网络和时序神经网络训练好之后，可以实现视频处理方法200的处理流程。

如图2所示，方法200始于步骤S210，获取待处理视频，所述待处理视频可以是本地实施录制视频也可以是网络下载视频，视频中包含若干视频帧，在播放或录制视频时，获取当前视频帧。

随后进入步骤S220，判断当前视频帧是否为关键帧。由于检测网络整个系统中的算法很多，如果每帧图像都将全部算法执行一遍，实时性得不到保证，因此，目标检测网络隔预定间隔才检测一帧。在步骤S220中判断当前帧是否为第预定间隔的整数倍帧，根据本实施例的一个具体示例，若预定间隔为5帧，则在本步骤中将检测当前帧是否为第0、5、10、15、20……帧。

若步骤S220中的判断结果为真，则进入步骤S230，将当前帧输入目标检测网络进行目标检测，得到目标对象的边界框。

根据本发明的一个实施例，目标检测网络可以是SSD-Mobilenet，若目标对象是汽车，则目标检测网络SSD-Mobilenet的输出为车辆位置和车辆方向，车辆位置为车辆的边界框。

该步骤结束后在进入步骤S250前还包括对视频帧中的目标对象的边界框进行非极大值抑制处理，以去掉同一目标对象检测出的重复的边界框。

若步骤S220中的判断结果为假，则进入步骤S240，当前视频帧为非第预定间隔整数倍帧，则根据该视频帧的上一帧的最终关键点坐标计算当前帧中的目标对象的边界框。

根据本发明的一个实施例，目标图像位于一个标准平面坐标系中，X轴右端趋于正无穷，Y轴上端趋于正无穷，上一帧所有关键点坐标中取最小的x坐标和最小的y坐标以及最大的x坐标和最大的y坐标，根据上述四个值计算目标对象的边界框。

经过步骤S230和S240的目标检测后，进入步骤S250，若检测到目标对象则进入步骤S260，若没有检测到目标对象，则当前帧处理完毕。

根据本发明的一个实施例，检测到目标对象，进入步骤S260，根据边界框从视频帧中分割出包含目标对象的目标图像，对所述目标图像进行关键点检测，得到该目标图像中的初始关键点坐标。

根据一个实施例，关键点检测网络可以是DAN网络，关键点检测网络会输出目标对象的关键点坐标，当目标对象为汽车时，由于汽车的方向不同，关键点检测网络不同，根据目标检测网络输出的车辆的方向选择对应的关键点检测网络。

随后进入步骤S270，对当前视频帧以及当前视频帧之前的预定数目个视频帧中的关键点坐标，输入时序神经网络进行处理，得到当前视频帧的最终关键点坐标。该步骤中的时序神经网络可以是GRU神经网络，本发明对此不做限制，通过该时序神经网络对关键点进行滤波，防止关键点在连续的视频画面中抖动，提高了用户体验。

当目标对象为汽车时，在步骤S270后可以根据关键点位置给汽车的关键点位置添加装饰，效果如图9所示。

根据本发明的技术方案，提供了一种视频处理方法，该方法涉及目标检测网络、关键点检测网络和时序神经网络，在SSD_MobileNet目标检测网络中使用了Focal Loss损失作为所述目标检测网络的分类损失，克服了训练过程中正例较少的问题；关键点检测网络DAN网络中的Feed Forward NN模块中加入了门控机制，增强了模型的学习能力；并通过时序神经网络对视频中连续帧中的关键点进行滤波，防止关键点在连续的视频画面中抖动，提高定位精度和使用体验。

在此处所提供的说明书中，算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

A9、如A8所述的方法，其中，所述深度对齐网络中的前馈神经网络模块包含有门控机制。

A10、如A1-9中任意一项所述的方法，其中所述时序神经网络为基于门控循环单元的时序神经网络。

A11、如A1-10中任意一项所述的方法，其中，所述目标对象为汽车，所述获取视频帧中的目标对象的边界框包括获取车辆的边界框和车辆方向。

A12、如A11所述的方法，其中，所述对所述目标图像进行关键点检测包括：

根据所述车辆方向选取对应的关键点检测网络；

将包含汽车的目标图像输入所述对应的关键点检测网络得到汽车的初始关键点坐标。

A13、如A11或A12所述的方法，还包括：

根据车辆最终关键点坐标给当前视频帧中的汽车添加虚拟装饰物。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种视频处理方法，适于在移动终端中执行，所述方法包括：

获取待处理视频流，所述待处理视频流包含多个视频帧；

对所述视频流中的视频帧进行目标检测，获取视频帧中的目标对象的边界框；

根据边界框从视频帧中分割出包含目标对象的目标图像，对所述目标图像进行关键点检测，得到该目标图像中的初始关键点坐标；

对当前视频帧以及当前视频帧之前的预定数目个视频帧中的关键点坐标，输入时序神经网络进行处理，得到当前视频帧的最终关键点坐标，所述时序神经网络为基于门控循环单元的时序神经网络；

其中，所述目标对象为汽车，所述获取视频帧中的目标对象的边界框包括获取车辆的边界框和车辆方向；

其中，所述对所述目标图像进行关键点检测包括：

根据所述车辆方向选取对应的关键点检测网络，所述关键点检测网络为深度对齐网络，所述深度对齐网络中的前馈神经网络模块包含有门控机制；

将包含汽车的目标图像输入所述对应的关键点检测网络得到汽车的初始关键点坐标；

其中，所述对所述视频流中的视频帧进行目标检测，获取视频帧中的目标对象的边界框包括：若当前视频帧为关键视频帧，则将该帧输入目标检测网络进行目标检测，得到目标对象的边界框，所述关键视频帧为根据预定间隔从所述视频流中抽取的视频帧，若当前视频帧为非关键视频帧，则根据该视频帧的上一帧的最终关键点坐标计算当前帧中的目标对象的边界框，所述目标检测网络包括SSD-MobileNet神经网络，所述SSD-MobileNet神经网络的分类损失函数为聚焦损失函数。

2.如权利要求1所述的方法，其中，所述对所述视频流中的视频帧进行目标检测，获取视频帧中的目标对象的边界框还包括：

对所述视频帧中的目标对象的边界框进行非极大值抑制处理。

3.如权利要求1或2所述的方法，其中，所述根据该视频帧的上一帧的关键点位置计算当前帧中的目标对象的边界框包括：

获取所述该视频帧的上一帧的最终关键点坐标；

根据预设的边界框算法计算出目标对象的边界框。

4.如权利要求1或2所述的方法，其中，所述对所述目标图像进行关键点检测，得到该目标图像中的初始关键点坐标包括：

将所述目标图像输入关键点检测网络得到所述目标图像的初始关键点坐标。

5.如权利要求1所述的方法，还包括：

6.一种移动终端，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-5所述的方法中的任一方法的指令。

7.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由移动终端执行时，使得所述移动终端执行根据权利要求1-5所述的方法中的任一方法。