CN109034049A

CN109034049A - 跳舞视频的识别方法及装置

Info

Publication number: CN109034049A
Application number: CN201810813438.XA
Authority: CN
Inventors: 陈竑; 刘志勇; 王鸣辉; 王洋; 杨鑫勇
Original assignee: Beijing Environment And Wind Technology Co Ltd
Current assignee: Beijing Environment And Wind Technology Co Ltd
Priority date: 2018-07-23
Filing date: 2018-07-23
Publication date: 2018-12-18

Abstract

本发明提供了一种跳舞视频的识别方法及装置，该方法包括：获取直播平台上在线的直播视频；按照预设时间间隔从获取到的直播视频中截取多张图片，对截取到的多张图片进行预处理；将预处理后的多张图片输入至预先部署在服务器上的网络模型，由网络模型识别预处理后的多张图片，得到图片的识别结果；根据图片的识别结果确定直播视频为跳舞视频或未跳舞视频。本发明实施例通过使用网络模型来识别直播视频是否为跳舞的视频，视频识别过程耗时极短，能够大大满足线上的速度要求，同时还可以有效提高跳舞视频的识别效率和准确性。同时可以帮助直播平台的用户在后续基于直播视频的识别结果直接且快速地找到当前正在跳舞的直播视频。

Description

跳舞视频的识别方法及装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种跳舞视频的识别方法及装置。

背景技术

随着电子信息技术的飞速发展，网络也已经改变了人们的生活方式，越来越多的用户通过网络进入网络直播室观看网络直播。网络直播吸取和延续了互联网的优势，利用视讯方式进行网上现场直播，可以将电视剧、体育竞技、综艺娱乐、教育培训、游戏直播等内容现场发布到互联网上，利用互联网的直观、快速、内容丰富、交互性强、地域不受限制、受众可划分等特点，加强活动现场的推广效果。

但是，目前网络直播的分类仅仅是静态的分类，如游戏直播、综艺娱乐、教育培训等等，当用户想要看关于跳舞的直播时，并不知道当前哪个主播正在跳舞，还需用户进入不同的直播间去一一查看该直播间的主播是否正在跳舞，特别是，当直播平台上跳舞的主播较多时，采用一一查看的方式必然会浪费用户的大量时间。并且，还可能出现当用户找到想要观看的正在跳舞的主播时，舞蹈已经接近尾声，使用户错过了最佳观看时间，造成用户体验不佳的问题。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种跳舞视频的识别方法及装置。

依据本发明的一方面，还提供了一种跳舞视频的识别方法，包括：

获取直播平台上在线的直播视频；

按照预设时间间隔从获取到的直播视频中截取多张图片，对截取到的多张图片进行预处理；

将预处理后的多张图片输入至预先部署在服务器上的网络模型，由所述网络模型识别预处理后的多张图片，得到图片的识别结果；其中，所述网络模型基于携带有跳舞或非跳舞标识的图片迭代训练得到；

根据图片的识别结果确定所述直播视频为跳舞视频或未跳舞视频。

可选地，获取直播平台上在线的直播视频，包括：

通过预置接口获取直播平台上在线的跳舞频道的直播信息；

根据直播信息获取对应的在线的直播视频，其中，所述直播信息为直播视频的唯一标识。

可选地，所述直播信息的内容包括以下任意一项：视频房间号、主播id、直播视频对应的url。

可选地，对截取到的多张图片进行预处理，包括：

对截取到的多张图片的大小、像素、颜色中至少一项进行调整，以使调整后的图片符合所述网络模型的识别标准；和/或

将截取到的多张图片的格式转换成符合所述网络模型识别标准的指定格式的图片。

可选地，将预处理后的多张图片输入至预先部署在服务器上的网络模型之前，还包括：

构建所述网络模型；

利用携带有跳舞或非跳舞标识的图片迭代训练构建的网络模型；

将迭代训练后的网络模型导出为预设格式的网络模型，将预设格式的网络模型部署在服务器上。

可选地，构建所述网络模型，包括：

设置网络模型的参数，所述参数包含批尺寸Batch_Size、图片的长宽，通道channl数量中的至少之一。

利用设置的网络模型的参数且基于网络inception-resnet和alexnet构建网络模型。

可选地，利用携带有跳舞或非跳舞标识的图片迭代训练构建的网络模型，包括：

从预置视频数据库中提取携带跳舞或非跳舞标识的视频，基于视频提取多张图片，所述图片携带跳舞或非跳舞标识；

对提取的多张图片进行预处理，利用预处理后的多张图片对构建的网络模型进行迭代训练，直到所述网络模型符合预设网络模型指标。

可选地，所述预设网络模型指标包括以下至少之一：识别准确率、逻辑回归损失、泛化误差值。

可选地，根据图片的识别结果确定所述直播视频为跳舞视频或未跳舞视频之后，还包括：

为识别出的跳舞视频添加标识跳舞的标签，为识别出的非跳舞视频添加标识非跳舞的标签；

将直播视频的直播信息及对应的标签存储至结果数据库中，进而根据预设时间规则调取所述结果数据库中的直播信息，且按照预置策略将不同标签对应的直播信息和/或直播信息对应的直播视频推荐至直播平台的显示界面上。

可选地，按照预置策略将不同标签对应的直播信息推荐至直播平台的显示界面上，包括：

在所述直播平台的跳舞频道中，将标识有跳舞标签的直播信息和/或直播信息对应的直播视频、推荐展示在标识有非跳舞标签的直播信息和/或直播信息对应的直播视频的前面。

可选地，所述方法还包括：

基于直播平台中的回放视频更新所述预置视频数据库；

利用更新的预置视频数据库中的视频内容迭代训练所述网络模型，更新所述网络模型。

可选地，更新所述预置视频数据库，包括：

下载直播平台中指定时间段内的回放视频；

按照预设时间间隔从下载的回放视频中截取多张图片，对截取到的多张图片进行预处理；

将预处理后的多张图片输入至所述网络模型中，由所述网络模型识别预处理后的多张图片，得到图片的识别结果；

若根据图片的识别结果确定所述回放视频为跳舞视频，查找回放视频中跳舞的视频片段的开始帧和结束帧；

利用所述开始帧和结束帧之间的图片组成视频片段，对组成的视频片段添加跳舞标识，将添加跳舞标识后视频片段存储至所述预置视频数据库中。

依据本发明的另一实施例，还提供了一种跳舞视频的识别装置，包括：

获取模块，适于获取直播平台上在线的直播视频；

图片截取及预处理模块，适于按照预设时间间隔从获取到的直播视频中截取多张图片，对截取到的多张图片进行预处理；

识别模块，适于将预处理后的多张图片输入至预先部署在服务器上的网络模型，由所述网络模型识别预处理后的多张图片，得到图片的识别结果；其中，所述网络模型基于携带有跳舞或非跳舞标识的图片迭代训练得到；

确定模块，适于根据图片的识别结果确定所述直播视频为跳舞视频或未跳舞视频。

可选地，所述获取模块，还适于：

通过预置接口获取直播平台上在线的跳舞频道的直播信息；

可选地，所述图片截取及预处理模块，还适于：

可选地，所述装置还包括：

模型构建模块，适于构建所述网络模型；

模型训练模块，适于利用携带有跳舞或非跳舞标识的图片迭代训练构建的网络模型；

模型部署模块，适于将迭代训练后的网络模型导出为预设格式的网络模型，将预设格式的网络模型部署在服务器上。

可选地，所述模型构建模块，还适于：

可选地，所述模型训练模块，还适于：

可选地，所述装置还包括：

添加模块，适于在所述确定模块根据图片的识别结果确定所述直播视频为跳舞视频或未跳舞视频之后，为识别出的跳舞视频添加标识跳舞的标签，为识别出的非跳舞视频添加标识非跳舞的标签；

存储模块，适于将直播视频的直播信息及对应的标签存储至结果数据库中；

推荐模块，适于根据预设时间规则调取所述结果数据库中的直播信息，且按照预置策略将不同标签对应的直播信息和/或直播信息对应的直播视频推荐至直播平台的显示界面上。

可选地，所述推荐模块，还适于：

可选地，所述装置还包括更新模块，适于：

基于直播平台中的回放视频更新所述预置视频数据库；

可选地，所述更新模块，还适于：

下载直播平台中指定时间段内的回放视频；

依据本发明再一实施例，还提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序代码，当所述计算机程序代码在计算设备上运行时，导致所述计算设备执行上文任意实施例所述的跳舞视频的识别方法。

依据本发明再一实施例，还提供了一种计算设备，包括：处理器；存储有计算机程序代码的存储器；当所述计算机程序代码被所述处理器运行时，导致所述计算设备执行文任意实施例所述的跳舞视频的识别方法。

在本发明实施例中，首先获取直播平台上在线的直播视频，然后按照预设时间间隔从获取到的直播视频中截取多张图片，对截取到的多张图片进行预处理后，采用预先部署在服务器上的网络模型对预处理后的多张图片进行识别，以得到图片的识别结果，进而根据图片的识别结果确定直播视频为跳舞视频或未跳舞视频。由此，本发明实施例通过获取直播平台上在线的直播视频，从直播视频中截取多张图片，从而可以利用预先部署在服务器上的网络模型识别图片是否为跳舞的图片，进而确定出图片对应的视频是否为正在跳舞的直播视频，通过使用相应的网络模型来识别确定直播视频是否为跳舞的视频，视频识别过程耗时极短，能够大大满足线上的速度要求，同时还可以有效地提高跳舞视频的识别效率和准确性。进一步，直播平台的用户在后续基于直播视频的识别结果，可以直接且快速地找到当前正在跳舞的直播视频，极大地提高了直播平台用户的使用体验。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的跳舞视频的识别方法的流程示意图；

图2示出了根据本发明一个实施例的网络模型的网络结构示意图；

图3示出了根据本发明另一个实施例的跳舞视频的识别方法的流程示意图；

图4示出了根据本发明一个实施例的跳舞视频的识别装置的结构示意图；以及

图5示出了根据本发明另一个实施例的跳舞视频的识别装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为解决上述技术问题，本发明实施例提供了一种跳舞视频的识别方法。图1示出了根据本发明一个实施例的跳舞视频的识别方法的流程示意图。参见图1，该方法至少包括步骤S102至步骤S108。

步骤S102，获取直播平台上在线的直播视频。

步骤S104，按照预设时间间隔从获取到的直播视频中截取多张图片，对截取到的多张图片进行预处理。

该步骤中，预设时间间隔可以是每隔1秒、或2秒、或3秒等时间从直播视频中截取一次图片，此处对预设时间间隔不做具体的限定。

步骤S106，将预处理后的多张图片输入至预先部署在服务器上的网络模型，由网络模型识别预处理后的多张图片，得到图片的识别结果。

该步骤中，网络模型是在线下基于携带有跳舞或非跳舞标识的图片迭代训练得到的，通过将网络模型部署在服务器上可以实现对直播平台中直播视频的实时识别。

步骤S108，根据图片的识别结果确定直播视频为跳舞视频或未跳舞视频。

本发明实施例通过获取直播平台上在线的直播视频，从直播视频中截取多张图片，从而可以利用预先部署在服务器上的网络模型识别图片是否为跳舞的图片，进而确定出图片对应的视频是否为正在跳舞的直播视频，通过使用相应的网络模型来识别确定直播视频是否为跳舞的视频，视频识别过程耗时极短，能够大大满足线上的速度要求，同时还可以有效地提高跳舞视频的识别效率和准确性。进一步，直播平台的用户在后续基于直播视频的识别结果，可以直接且快速地找到当前正在跳舞的直播视频，极大地提高了直播平台用户的使用体验。

参见上文步骤S102，在本发明一实施例中，在获取直播平台上在线的直播视频时，可以通过预置的接口来获取直播平台上在线的跳舞频道的直播信息，从而根据直播信息获取对应的在线的直播视频。此处，直播信息指的是直播视频的唯一标识，直播信息可以包括直播视频的视频房间号、主播id、直播视频对应的url(Uniform Resource Locator，统一资源定位符)等等。

参见上文步骤S104，在获取到在线的直播视频之后，需要截取直播视频中的多张图片，并对图片进行预处理，进而在后续利用网络模型通过识别图片来确定直播视频是否为跳舞视频。例如，若通过预置接口获取到的直播信息为直播视频对应的url，则可以打开该url进入其对应的直播间，从而对直播间的直播视频进行截屏，以截取得到多张图片。

在该实施例中，对截取到的多张图片进行预处理可以是对截取到的多张图片的大小、像素、颜色中至少一项进行调整，以使调整后的图片符合网络模型的识别标准，还可以是将截取到的多张图片的格式转换成符合网络模型识别标准的指定格式的图片。其中，网络模型的识别标准指的是网络模型识别图片时对图片的要求，比如识别标准中图片长宽比例为1:1，如长宽为199、199等等。另外，未经预处理的图片格式可以是jpg格式，也可以是其他的格式。

例如，截取的图片原本为jpg格式，网络模型识别标准对应的指定格式为tfrecord格式(tensorflow框架下的一种输入格式)，那么在对截取的图片进行预处理的过程中，可以先调用tensorflow中的一些函数将jpg格式的图片处理成RGB三通道的向量，进而对图片的大小、像素、颜色等参数进行调整，最后调用tensorflow定义的接口函数将调整后的图片转换成tfrecord格式。其中，tensorflow是一种可以将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。

在该实施例中，在截取得到多张图片之后，还可以将截取的图片下载到本地存储中，从而对存储的图片进行预处理。

为了能够更加有效、准确地识别出跳舞视频，本发明实施例还提供了一种关于网络模型的设计方案，该设计方案涉及到构建网络模型的过程，利用携带有跳舞或非跳舞标识的图片迭代训练构建的网络模型的过程，网络模型的部署过程。下面对各个过程分别进行介绍。

构建网络模型的过程。

首先，需要设置网络模型的一些参数，例如参数可以包含批尺寸Batch_Size、图片的长宽，通道channl数量等等。例如，设置图片输入参数为[32，199,199,3]，即批尺寸Batch_Size为32，图片长和宽分别为199、199，通道channl数量为3。当然，为了满足网络模型在实际线上使用时对速度的要求，还可以设置图片的长宽参数为128x100，因此在对图片进行预处理时，需要将图片的长宽调整为128x100。本发明实施例所列举的各项参数仅仅是示意性的，还可以是其他的参数，本发明实施例对此不做具体的限定。

然后，利用设置的网络模型的参数且基于网络inception-resnet和alexnet构建网络模型。

例如，可以基于tensorflow代码构建inception-resnet网络，对网络模型先做一个类似AlexNet的步骤用于对网络模型输入的图片降维，之后采用经典inception V1模型解决无法得知采用1，3，5哪种卷积核的问题，并使用1x1降低通道数来减少计算量。进而基于inception-resnet-A结构并采用reduction A来降低图片的长宽，增加通道数。继而基于inception-resnet-C结构来进一步地完善网络模型。图2所示内容是与该实施例相对应的网络模型的网络结构示意图，图2中输入的图片参数为包括[199,199,3]，即图片长宽分别为199、199，通道channl数量为3。当然，在该实施例中，在基于inception-resnet-A结构并采用reduction A来降低图片的长宽，增加通道数之后，若图片的长宽及通道数不能满足需要，还可以再基于inception-resnet-B结构并采用reduction B来进一步降低图片长宽，增加通道数。

在本发明实施例中，除了可以基于网络inception-resnet和alexnet构建网络模型之外，还可以基于卷积神经网络(CNN，Convolutional Neural Networks)、卷积神经网络densenet等网络构建网络模型，进而进行模型训练。

接下来，介绍利用携带有跳舞或非跳舞标识的图片迭代训练构建的网络模型的过程。

首先，从预置视频数据库中提取携带跳舞或非跳舞标识的视频，并基于视频提取多张图片，图片中携带跳舞或非跳舞标识。

其中，预置视频数据库中视频的跳舞或非跳舞标识可以是由人工标记的，例如将跳舞视频标识为正样本，将非跳舞视频标识为负样本。该实施例中的视频可以是mp4格式，也可以是m3u8格式，当然还可以是其他的格式，此处不做具体的限定。基于视频提取多张图片时，可以从视频中截取jpg格式的多张图片。

然后，对提取的多张图片进行预处理，利用预处理后的多张图片对构建的网络模型进行迭代训练，直到网络模型符合预设网络模型指标。

本发明实施例是以预置视频数据库中视频的多帧图片作为对网络模型进行迭代训练的训练集。此处对图片进行预处理的过程与上文介绍的对直播视频中截取的图片进行预处理的过程类似，具体可以参见上文实施例，此处不再赘述。

在该实施例中，若预处理后的图片为tfrecord格式的图片，则将tfrecord格式的图片输入至构建的网络模型中进行迭代训练，直到网络模型符合预设网络模型指标。其中，预设网络模型的指标可以包括识别准确率、逻辑回归损失(Logloss，Logistic regressionloss)、泛化误差值等中的至少之一。

在对网络模型进行迭代训练的过程中，为了得到更优的网络模型，还可以通过调整优化网络模型在训练集、验证集上的衡量指标(即预设网络模型指标)对网络模型进行调优。其中，训练集和验证集都是指基于视频提取的多张图片，通过将这些图片分成训练集和验证集两部分，以利用训练集来训练模型，验证集来评估模型。

在对网络模型进行调优时，可以是提高网络模型识别准确率及其泛化能力，其中，泛化误差越小泛化能力越好。还可以控制logloss最小化等等。当然，在提高网络模型识别准确率及泛化能力的同时也不能使网络模型出现过拟合。

最后，介绍网络模型的部署过程。

由于训练好的网络模型不能直接用于线上服务，因此，还需先将迭代训练后的网络模型导出为预设格式(如servable的格式)的网络模型。然后将预设格式的网络模型部署在服务器上。该实施例中，若将迭代训练后的网络模型导出成servable的格式，还可以先将调整优化后的网络模型存在checkpoint中，进而加载checkpoint并定义好网络模型的输入和输出，将网络模型导出成servable的格式。

在将预设格式的网络模型部署在服务器上时，可以利用tensorflow serving服务框架部署，首先加载上文导出的预设格式的网络模型，然后采用python语言基于grpc接口协议编写engine、serving程序，从而服务器可以实现与线上网络模型的交互，以实现网络模型的部署。利用编写的程序可以实现上文中获取直播平台上在线的直播视频，并对直播视频中提取的图片进行预处理，且将预处理的图片输入至网络模型进行识别的功能。

本发明实施例采用tensorflow serving服务框架部署网络模型，可以检测网络模型最新版本并自动加载最新版本，由此一旦将网络模型部署至TensorFlow Serving后，无需关心为线上的服务，而只需要关心线下的网络模型的训练，以及对网络模型的更新即可，从而提高了工作效率。后文将会对网络模型的的更新进行介绍。

在本发明一实施例中，在识别出直播视频是跳舞视频或未跳舞视频之后，还可以根据识别的结果将直播视频按照预置策略推荐至直播平台上。

具体的实现过程是，首先，为识别出的跳舞视频添加标识跳舞的标签，为识别出的非跳舞视频添加标识非跳舞的标签。然后，将直播视频的直播信息及对应的标签存储至结果数据库中。进而，可以按照预设时间规则来调取结果数据库中的直播信息。其中，预设时间规则可以是每隔半个小时、或1个小时等时间从结果数据库中调取直播信息，并且，本发明实施例还可以采用PHP(Hypertext Preprocessor，超文本预处理器)从结果数据库中调取直播信息。最后，按照预置策略将调取的不同标签对应的直播信息和/或直播信息对应的直播视频推荐至直播平台的显示界面上。

在该实施例中，预设策略可以是，在直播平台的跳舞频道中，将标识有跳舞标签的直播信息和/或直播信息对应的直播视频、推荐展示在标识有非跳舞标签的直播信息和/或直播信息对应的直播视频的前面。这样想看跳舞的用户在跳舞频道中的前面就可以看到主播正在跳舞的直播视频，而不用去一个一个的查找正在在跳舞的主播，从而极大地提高了用户的使用体验，并且，通过实际数据统计也表明采用本发明方案推荐跳舞的直播视频，跳舞频道的流量有显著提高。当然，还可以采用其他的策略展示直播视频，此处不做具体的介绍。

为了保证网络模型识别直播视频的准确性，还可以对网络模型进行更新，对网络模型更新时可以采用最新的训练集对网络模型进行训练，根据前文介绍的内容可知，对网络模型进行训练的训练集来自于预置视频数据库，因此，在更新网络模型之前需要先对预置视频数据库中的内容进行更新，例如，可以基于直播平台中的回放视频更新预置视频数据库。

下面对介绍一种更新网络模型的方法，参见图3，该方法至少可以包括以下步骤S302至步骤S314。

步骤S302，下载直播平台中指定时间段内的回放视频。其中，指定时间段内的回放视频可以是当前时间的前一天的回放视频、或者前两天的回放视频，当然，还可以是其他时间段内的回放视频，此处不做具体的限定。

步骤S304，按照预设时间间隔从下载的回放视频中截取多张图片，对截取到的多张图片进行预处理。

该步骤中，在从回放视频中截取多张图片时，若回放视频为m3u8格式，还可以先将其转换为mp4格式的视频，进而对格式转换后的视频进行截屏。另外，此处的预处理过程与上文中的图片预处理过程类似，此处不做赘述。

步骤S306，将预处理后的多张图片输入至网络模型中，由网络模型识别预处理后的多张图片，得到图片的识别结果。

步骤S308，根据图片的识别结果确定回放视频是否为跳舞视频。若是，执行步骤S310；若否，结束。

步骤S310，查找回放视频中跳舞的视频片段的开始帧和结束帧，利用开始帧和结束帧之间的图片组成视频片段。

步骤S312，对组成的视频片段添加跳舞标识，将添加跳舞标识后视频片段存储至预置视频数据库中，对预置视频数据库更新。

该步骤中，对组成的视频片段添加跳舞标识时之前，还可以对视频片段进行人工审核，即由工作人员来确定视频片段是否为跳舞视频以确保添加标识的准确性，人工审核后若确定视频片段是跳舞视频，则为其打上跳舞视频的标签。

步骤S314，利用更新的预置视频数据库中的视频内容迭代训练网络模型，更新网络模型。

该步骤中，为了节约迭代训练网络模型的时间，可以仅仅提取预置视频数据库中新存储的添加跳舞标识后视频片段，并基于从新添加的视频片段中提取的图片对网络模型进行训练，从而实现对网络模型的更新。

基于同一发明构思，本发明实施例还提供了一种跳舞视频的识别装置，图4示出了根据本发明一个实施例的跳舞视频的识别装置的结构示意图，参见图4，跳舞视频的识别装置400包括获取模块410、图片截取及预处理模块420、识别模块430、以及确定模块440。

现介绍本发明实施例的基于跳舞视频的识别装置400的各组成或器件的功能以及各部分间的连接关系：

获取模块410，适于获取直播平台上在线的直播视频；

图片截取及预处理模块420，与获取模块410耦合，适于按照预设时间间隔从获取到的直播视频中截取多张图片，对截取到的多张图片进行预处理；

识别模块430，与图片截取及预处理模块420耦合，适于将预处理后的多张图片输入至预先部署在服务器上的网络模型，由网络模型识别预处理后的多张图片，得到图片的识别结果；其中，网络模型基于携带有跳舞或非跳舞标识的图片迭代训练得到；

确定模块440，与识别模块430耦合，适于根据图片的识别结果确定直播视频为跳舞视频或未跳舞视频。

在本发明一实施例中，获取模块410还适于，通过预置接口获取直播平台上在线的跳舞频道的直播信息，根据直播信息获取对应的在线的直播视频，其中，直播信息为直播视频的唯一标识。

在该实施例中，直播信息的内容包括视频房间号、主播id、直播视频对应的url等等中的任意一项。

在本发明一实施例中，图片截取及预处理模块420还适于，对截取到的多张图片的大小、像素、颜色中至少一项进行调整，以使调整后的图片符合网络模型的识别标准；和/或将截取到的多张图片的格式转换成符合网络模型识别标准的指定格式的图片。

本发明实施例还提供了另一种跳舞视频的识别装置，图5示出了根据本发明一个实施例的跳舞视频的识别装置的结构示意图，参见图5，跳舞视频的识别装置400除了包括上述各个模块之外，还可以包括模型构建模块450、模型训练模块460、模型部署模块470、更新模块480、添加模块490、存储模块500及推荐模块510。

模型构建模块450，与图片截取及预处理模块420耦合，适于构建网络模型；

模型训练模块460，与模型构建模块450耦合，适于利用携带有跳舞或非跳舞标识的图片迭代训练构建的网络模型；

模型部署模块470，与模型训练模块460耦合，适于将迭代训练后的网络模型导出为预设格式的网络模型，将预设格式的网络模型部署在服务器上。

更新模块480，与模型部署模块470耦合，适于基于直播平台中的回放视频更新预置视频数据库，利用更新的预置视频数据库中的视频内容迭代训练网络模型，更新网络模型。

添加模块490，与确定模块440耦合，适于在确定模块440根据图片的识别结果确定直播视频为跳舞视频或未跳舞视频之后，为识别出的跳舞视频添加标识跳舞的标签，为识别出的非跳舞视频添加标识非跳舞的标签；

存储模块500，与添加模块490耦合，适于将直播视频的直播信息及对应的标签存储至结果数据库中；

推荐模块510，与存储模块500耦合，适于根据预设时间规则调取结果数据库中的直播信息，且按照预置策略将不同标签对应的直播信息和/或直播信息对应的直播视频推荐至直播平台的显示界面上。

在本发明一实施例中，模型构建模块450还适于，首先，设置网络模型的参数，参数包含批尺寸Batch_Size、图片的长宽，通道channl数量等等中的至少之一。然后，利用设置的网络模型的参数且基于网络inception-resnet和alexnet构建网络模型。

在本发明一实施例中，模型训练模块460还适于，从预置视频数据库中提取携带跳舞或非跳舞标识的视频，基于视频提取多张图片，图片携带跳舞或非跳舞标识。对提取的多张图片进行预处理，利用预处理后的多张图片对构建的网络模型进行迭代训练，直到网络模型符合预设网络模型指标。

其中，预设网络模型指标可以包括以下至少之一：识别准确率、逻辑回归损失、泛化误差值等等。

在本发明一实施例中，更新模块480还适于，下载直播平台中指定时间段内的回放视频，按照预设时间间隔从下载的回放视频中截取多张图片，对截取到的多张图片进行预处理，将预处理后的多张图片输入至网络模型中，由网络模型识别预处理后的多张图片，得到图片的识别结果。若根据图片的识别结果确定回放视频为跳舞视频，查找回放视频中跳舞的视频片段的开始帧和结束帧，利用开始帧和结束帧之间的图片组成视频片段，对组成的视频片段添加跳舞标识，将添加跳舞标识后视频片段存储至预置视频数据库中。

在本发明一实施例中，推荐模块510还适于，在直播平台的跳舞频道中，将标识有跳舞标签的直播信息和/或直播信息对应的直播视频、推荐展示在标识有非跳舞标签的直播信息和/或直播信息对应的直播视频的前面。

本发明实施例还提供了一种计算机存储介质，计算机存储介质存储有计算机程序代码，当计算机程序代码在计算设备上运行时，导致计算设备执行上文任一实施例中跳舞视频的识别方法。

本发明实施例还提供了一种计算设备，包括处理器；存储有计算机程序代码的存储器；当计算机程序代码被处理器运行时，导致计算设备执行上文任一实施例中的跳舞视频的识别方法。

根据上述任意一个优选实施例或多个优选实施例的组合，本发明实施例能够达到如下有益效果：

所属领域的技术人员可以清楚地了解到，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，为简洁起见，在此不另赘述。

另外，在本发明各个实施例中的各功能单元可以物理上相互独立，也可以两个或两个以上功能单元集成在一起，还可以全部功能单元都集成在一个处理单元中。上述集成的功能单元既可以采用硬件的形式实现，也可以采用软件或者固件的形式实现。

本领域普通技术人员可以理解：集成的功能单元如果以软件的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，其包括若干指令，用以使得一台计算设备(例如个人计算机，服务器，或者网络设备等)在运行指令时执行本发明各实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)，磁碟或者光盘等各种可以存储程序代码的介质。

或者，实现前述方法实施例的全部或部分步骤可以通过程序指令相关的硬件(诸如个人计算机，服务器，或者网络设备等的计算设备)来完成，程序指令可以存储于一计算机可读取存储介质中，当程序指令被计算设备的处理器执行时，计算设备执行本发明各实施例方法的全部或部分步骤。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：在本发明的精神和原则之内，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案脱离本发明的保护范围。

本发明实施例提供了A1、一种跳舞视频的识别方法，包括：

获取直播平台上在线的直播视频；

A2、根据A1所述的方法，其中，获取直播平台上在线的直播视频，包括：

通过预置接口获取直播平台上在线的跳舞频道的直播信息；

A3、根据A2所述的方法，其中，所述直播信息的内容包括以下任意一项：视频房间号、主播id、直播视频对应的url。

A4、根据A1-A3任一项所述的方法，其中，对截取到的多张图片进行预处理，包括：

A5、根据A1-A3任一项所述的方法，其中，将预处理后的多张图片输入至预先部署在服务器上的网络模型之前，还包括：

构建所述网络模型；

A6、根据A5所述的方法，其中，构建所述网络模型，包括：

A7、根据A5所述的方法，其中，利用携带有跳舞或非跳舞标识的图片迭代训练构建的网络模型，包括：

A8、根据A7所述的方法，其中，所述预设网络模型指标包括以下至少之一：识别准确率、逻辑回归损失、泛化误差值。

A9、根据A2或A3所述的方法，其中，根据图片的识别结果确定所述直播视频为跳舞视频或未跳舞视频之后，还包括：

A10、根据A9所述的方法，其中，按照预置策略将不同标签对应的直播信息推荐至直播平台的显示界面上，包括：

A11、根据A7所述的方法，其中，还包括：

基于直播平台中的回放视频更新所述预置视频数据库；

A12、根据A11所述的方法，其中，更新所述预置视频数据库，包括：

下载直播平台中指定时间段内的回放视频；

B13、一种跳舞视频的识别装置，包括：

获取模块，适于获取直播平台上在线的直播视频；

B14、根据B13所述的装置，其中，所述获取模块，还适于：

通过预置接口获取直播平台上在线的跳舞频道的直播信息；

B15、根据B14所述的装置，其中，所述直播信息的内容包括以下任意一项：视频房间号、主播id、直播视频对应的url。

B16、根据B13-B15任一项所述的装置，其中，所述图片截取及预处理模块，还适于：

B17、根据B13-B15任一项所述的装置，其中，还包括：

模型构建模块，适于构建所述网络模型；

B18、根据B17所述的装置，其中，所述模型构建模块，还适于：

B19、根据B17所述的装置，其中，所述模型训练模块，还适于：

B20、根据B19所述的装置，其中，所述预设网络模型指标包括以下至少之一：识别准确率、逻辑回归损失、泛化误差值。

B21、根据B14或B15所述的装置，其中，还包括：

B22、根据B21所述的装置，其中，所述推荐模块，还适于：

B23、根据B19所述的装置，其中，还包括更新模块，适于：

基于直播平台中的回放视频更新所述预置视频数据库；

B24、根据B23所述的装置，其中，所述更新模块，还适于：

下载直播平台中指定时间段内的回放视频；

C25、一种计算机存储介质，所述计算机存储介质存储有计算机程序代码，当所述计算机程序代码在计算设备上运行时，导致所述计算设备执行A1-A12所述的跳舞视频的识别方法。

C26、一种计算设备，包括：处理器；存储有计算机程序代码的存储器；当所述计算机程序代码被所述处理器运行时，导致所述计算设备执行A1-A12所述的跳舞视频的识别方法。

Claims

1.一种跳舞视频的识别方法，包括：

获取直播平台上在线的直播视频；

2.根据权利要求1所述的方法，其中，获取直播平台上在线的直播视频，包括：

通过预置接口获取直播平台上在线的跳舞频道的直播信息；

3.根据权利要求2所述的方法，其中，所述直播信息的内容包括以下任意一项：视频房间号、主播id、直播视频对应的url。

4.根据权利要求1-3任一项所述的方法，其中，对截取到的多张图片进行预处理，包括：

5.根据权利要求1-3任一项所述的方法，其中，将预处理后的多张图片输入至预先部署在服务器上的网络模型之前，还包括：

构建所述网络模型；

6.根据权利要求5所述的方法，其中，构建所述网络模型，包括：

7.根据权利要求5所述的方法，其中，利用携带有跳舞或非跳舞标识的图片迭代训练构建的网络模型，包括：

8.一种跳舞视频的识别装置，包括：

获取模块，适于获取直播平台上在线的直播视频；

9.一种计算机存储介质，所述计算机存储介质存储有计算机程序代码，当所述计算机程序代码在计算设备上运行时，导致所述计算设备执行权利要求1-7所述的跳舞视频的识别方法。

10.一种计算设备，包括：处理器；存储有计算机程序代码的存储器；当所述计算机程序代码被所述处理器运行时，导致所述计算设备执行权利要求1-7所述的跳舞视频的识别方法。