CN112487940B

CN112487940B - 视频的分类方法和装置

Info

Publication number: CN112487940B
Application number: CN202011350031.1A
Authority: CN
Inventors: 徐东; 刘承诚
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2023-02-28
Anticipated expiration: 2040-11-26
Also published as: WO2022111168A1; US20240296657A1; CN112487940A

Abstract

本申请公开了一种视频的分类方法和装置，属于数据处理技术领域。所述方法包括：获取目标音频及相应的包括人体动作的目标视频；基于所述目标视频中每个目标图像帧相对于基准视频中对应的基准图像帧的人体动作匹配度，确定所述目标视频相对于所述基准视频的人体动作总匹配度评分；基于所述目标音频中每个目标音频段相对于所述基准视频的基准音频中对应的基准音频段的音频匹配度，确定所述目标音频相对于所述基准音频的音频总匹配度评分；基于所述人体动作总匹配度评分和所述音频总匹配度，确定综合分类结果。本申请提供了一种能够对唱跳视频进行分类的方法。

Description

视频的分类方法和装置

技术领域

本申请涉及数据处理技术领域，特别涉及一种视频的分类方法和装置。

背景技术

随着经济发展，人们休闲娱乐的方式越来越多，唱歌跳舞成为人们娱乐方式的一种，且越来越多的人在唱歌跳舞时进行录制。

在一些应用程序中，用户可以在播放视频和伴奏的同时对视频中的人物动作进行模仿并进行歌唱，同时对自己进行音视频录制。

在使用上述应用程序的上述功能时，缺少一种能够对唱跳视频的模仿情况进行分类的方法。

发明内容

本申请实施例提供了一种视频的分类方法,能够解决现有技术中缺少一种能够对唱跳视频的模仿情况进行分类的方法的问题。

第一方面，提供了一种视频的分类方法，所述方法包括：

获取目标音频及相应的包括人体动作的目标视频；

基于所述目标视频中每个目标图像帧相对于基准视频中对应的基准图像帧的人体动作匹配度，确定所述目标视频相对于所述基准视频的人体动作总匹配度评分；

基于所述目标音频中每个目标音频段相对于所述基准视频的基准音频中对应的基准音频段的音频匹配度，确定所述目标音频相对于所述基准音频的音频总匹配度评分；

基于所述人体动作总匹配度评分和所述音频总匹配度评分，确定综合分类结果。

在一种可能的设计中，所述方法还包括：

确定所述目标图像帧相对于所述基准图像帧的人体动作匹配度对应的人体动作匹配度评分，并确定所述目标音频段相对于所述基准音频段的音频匹配度对应的音频匹配度评分；

基于每个目标图像帧对应的人体动作匹配度评分，显示人体动作匹配度评分曲线，并基于每个目标音频段对应的音频匹配度评分，显示音频匹配度评分曲线。

在一种可能的设计中，所述方法还包括：

显示所述目标视频和所述目标音频对应的时间轴；

当接收到对所述时间轴上目标时间点的选择指令时，确定所述目标时间点对应的目标图像帧和目标音频段；

显示所述目标时间点对应的目标图像帧的人体动作匹配度评分、以及所述目标时间点对应的目标音频段的音频匹配度评分。

在一种可能的设计中，所述方法还包括：

基于所述目标图像帧相对于所述基准图像帧的人体动作匹配度，确定对应的人体动作匹配度评分；

在所述目标视频中与所述目标图像帧对应的位置，以图像形式添加所述人体动作匹配度评分。

在一种可能的设计中，所述方法还包括：

基于所述目标音频段相对于所述基准音频段的音频匹配度，确定对应的音频匹配度评分；

在所述目标视频中与所述目标音频段对应的位置，以图像形式添加所述音频匹配度评分。

在一种可能的设计中，所述基于所述目标视频中每个目标图像帧相对于基准视频中对应的基准图像帧的人体动作匹配度，确定所述目标视频相对于所述基准视频的人体动作总匹配度评分之前，还包括：

按预设的第一间隔时长在所述目标视频中获取目标图像帧，每获取一个目标图像帧，确定所述目标图像帧中多个人体关键点的位置，基于所述目标图像帧中多个人体关键点的位置，确定所述目标图像帧和基准图像帧中相同的人体关键点连线的夹角，基于确定出的夹角，确定所述目标图像帧相对于所述基准图像帧的人体动作匹配度。

在一种可能的设计中，所述多个人体关键点中包括预设的参考人体关键点和非参考人体关键点，所述基于所述目标图像帧中多个人体关键点的位置，确定所述目标图像帧和基准图像帧中相同的人体关键点连线的夹角，包括：

对于每个非参考人体关键点，在所述目标图像帧中，基于所述非参考人体关键点的位置和所述参考人体关键点的位置，确定所述非参考人体关键点和所述参考人体关键点的第一连线，获取所述基准图像帧中所述非参考人体关键点和所述参考人体关键点的第二连线，确定第一连线与所述第二连线的夹角。

在一种可能的设计中，所述按预设的第一间隔时长在所述目标视频中获取目标图像帧之后，还包括：

获取在基准视频中播放时间点与所述目标图像帧在目标视频中的播放时间点相同的基准图像帧；或者，

获取在所述目标图像帧的采集时间点播放的基准图像帧。

在一种可能的设计中，所述基于确定出的夹角，确定所述目标图像帧相对于所述基准图像帧的人体动作匹配度，包括：

基于预设函数对确定出的每个夹角进行处理，得到每个夹角对应的处理结果值；

基于每个夹角对应的处理结果值，确定所述目标图像帧相对于所述基准图像帧的人体动作匹配度。

在一种可能的设计中，所述基于所述目标音频中每个目标音频段相对于所述基准视频的基准音频中对应的基准音频段的音频匹配度，确定所述目标音频相对于所述基准音频的音频总匹配度评分之前，还包括：

逐个获取所述目标音频包括的目标音频段，每获取一个目标音频段，确定所述目标音频段相对于基准音频中对应的基准音频段的基频相似度，基于所述目标音频段相对于所述基准音频中对应的基准音频段的基频相似度，确定所述目标音频段相对于对应的基准音频段的音频匹配度。

在一种可能的设计中，所述确定所述目标音频段相对于基准音频中对应的基准音频段的基频相似度，包括：

确定所述目标音频段在所述基准音频中对应的基准音频段；

确定所述目标音频段中的每个目标音频帧的基频与所述基准音频段中对应的基准音频帧的基频的差值，确定对应的差值在预设范围内的目标音频帧的数目在目标音频段的总帧数中占的比例，作为所述目标音频段相对于基准音频中对应的基准音频段的基频相似度。

在一种可能的设计中，所述方法还包括：

确定所述目标音频段相对于所述基准音频中对应的基准音频段的文本相似度；

所述基于所述目标音频段相对于所述基准音频中对应的基准音频段的基频相似度，确定所述目标音频段相对于对应的基准音频段的音频匹配度，包括：

基于所述目标音频段相对于所述基准音频中对应的基准音频段的基频相似度和文本相似度，确定所述目标音频段相对于对应的基准音频段的音频匹配度。在一种可能的设计中，所述确定所述目标音频段相对于所述基准音频中对应的基准音频段的文本相似度，包括：

对所述目标音频段进行文本识别得到目标识别文本；

确定所述目标音频段在所述基准音频中对应的基准音频段，获取所述基准音频段对应的基准识别文本；

基于所述目标识别文本和所述基准识别文本的相似度，作为所述目标音频段相对于所述基准音频中对应的基准音频段的文本相似度。

第二方面，提供一种视频的分类装置，所述装置包括：

获取模块，用于获取目标音频及相应的包括人体动作的目标视频；

视频确定模块，用于基于所述目标视频中每个目标图像帧相对于基准视频中对应的基准图像帧的人体动作匹配度，确定所述目标视频相对于所述基准视频的人体动作总匹配度评分；

音频确定模块，用于基于所述目标音频中每个目标音频段相对于所述基准视频的基准音频中对应的基准音频段的音频匹配度，确定所述目标音频相对于所述基准音频的音频总匹配度评分；

综合确定模块，用于基于所述人体动作总匹配度评分和所述音频总匹配度评分，确定综合分类结果。

在一种可能的设计中，所述装置还包括：

第一确定模块，用于确定所述目标图像帧相对于所述基准图像帧的人体动作匹配度对应的人体动作匹配度评分，并确定所述目标音频段相对于所述基准音频段的音频匹配度对应的音频匹配度评分；

第一显示模块，用于基于每个目标图像帧对应的人体动作匹配度评分，显示人体动作匹配度评分曲线，并基于每个目标音频段对应的音频匹配度评分，显示音频匹配度评分曲线。

在一种可能的设计中，所述装置还包括：

第二显示模块，用于显示所述目标视频和所述目标音频对应的时间轴；

在一种可能的设计中，所述装置还包括：

第一确定模块，用于基于所述目标图像帧相对于所述基准图像帧的人体动作匹配度，确定对应的人体动作匹配度评分；

第一添加模块，用于在所述目标视频中与所述目标图像帧对应的位置，以图像形式添加所述人体动作匹配度评分。

在一种可能的设计中，所述装置还包括：

第一确定模块，用于基于所述目标音频段相对于所述基准音频段的音频匹配度，确定对应的音频匹配度评分；

第二添加模块，用于在所述目标视频中与所述目标音频段对应的位置，以图像形式添加所述音频匹配度评分。

在一种可能的设计中，所述第一确定模块，还用于：

在一种可能的设计中，所述多个人体关键点中包括预设的参考人体关键点和非参考人体关键点，所述第一确定模块，用于：

在一种可能的设计中，所述第一确定模块，还用于：

获取在所述目标图像帧的采集时间点播放的基准图像帧。

在一种可能的设计中，所述第一确定模块，还用于：

在一种可能的设计中，所述第一确定模块，用于：

确定所述目标音频段在所述基准音频中对应的基准音频段；

在一种可能的设计中，所述第一确定模块，还用于：

基于所述目标音频段相对于所述基准音频中对应的基准音频段的基频相似度和文本相似度，确定所述目标音频段相对于对应的基准音频段的音频匹配度。

在一种可能的设计中，所述第一确定模块，用于：

对所述目标音频段进行文本识别得到目标识别文本；

第三方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，存储器中存储有至少一条指令，指令由处理器加载并执行以实现视频的分类方法所执行的操作。

第四方面，提供了一种计算机可读存储介质，存储介质中存储有至少一条指令，指令由处理器加载并执行以实现视频的分类方法所执行的操作。

本申请实施例提供的技术方案带来的有益效果是：本申请实施例中提到的方案，可以获取目标音频和目标视频，基于目标视频中每个目标图像帧相对于基准视频中对应的基准图像帧的人体动作匹配度，确定目标视频相对于基准视频的人体动作总匹配度评分，基于目标音频中每个目标音频段相对于基准视频的基准音频中对应的基准音频段的音频匹配度，确定目标音频相对于基准音频的音频总匹配度评分，然后基于人体动作总匹配度评分和音频总匹配度评分，确定综合分类结果。综合分类结果可以反应视频和音频的总的模仿情况，因此，本申请实施例提供了一种能够对唱跳视频的模仿情况进行分类的方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频的分类方法流程图；

图2是本申请实施例提供的一种评分窗口的显示示意图；

图3是本申请实施例提供的一种确定人体动作匹配度的方法流程图；

图4是本申请实施例提供的一种人体关键点的示意图；

图5是本申请实施例提供的一种确定第一连线与第二连线的夹角的示意图；

图6是本申请实施例提供的一种确定音频匹配度的方法流程图；

图7是本申请实施例提供的一种视频的分类装置的结构示意图；

图8是本申请实施例提供的一种终端的结构框图；

图9是本申请实施例提供的一种服务器的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供了一种视频的分类方法，该方法可以由计算机设备实现。计算机设备可以是终端和服务器等，终端可以是台式计算机、笔记本计算机、平板电脑、手机等。

计算机设备可以包括处理器、存储器、输入部件、输出部件、通信部件等。存储器可以是各种非易失性存储设备或易失性存储设备，可以用于数据存储，例如，具有视频拍摄和测评功能的应用程序的数据、预先存储的用于确定匹配度并显示评分的数据、在用户录制视频和音频时产生的数据、在确定匹配度的处理过程中生成的中间数据，等等。处理器可以用于运行具有视频拍摄和测评功能的应用程序、对用户录制的视频和音频进行处理，等等。输入部件可以包括鼠标、键盘、触控板、手写板、麦克风等，用于获取用户的输入的数据。输出部件可以包括图像输出部件、音频输出部件、震动输出部件等，图像输出部件可以用于对具有视频拍摄和测评功能的应用程序的界面进行显示，以便用户操作，还可以对基准视频和目标视频进行显示，还可以对匹配度评分的结果进行显示，音频输出部件可以用于播放基准音频，还可以用于播放用户录制的音频，震动输出部件可以用于输出一些提示信号。另外，计算机设备可以连接有图像采集设备，例如摄像头等，可以用于视频拍摄，该图像采集设备可以是独立的设备，也可以是计算机设备的配套部件。

计算机设备中安装有具有视频拍摄和测评功能的应用程序，例如，短视频应用程序、直播应用程序、K歌应用程序等，该应用程序用于用户对视频和音频等进行模仿并显示用户模仿的完成情况，即评分情况。本申请实施例以用户在终端上用具有视频拍摄和测评功能的应用程序对一段视频进行模仿为例进行方案的说明，其他情况与之类似，本实施例不再赘述。

需要说明的是，本申请中的视频指的是不具有音频部分、只有图像部分的视频。

图1是本申请实施例提供的一种视频的分类方法流程图。参见图1，该实施例包括：

101、获取目标音频及相应的包括人体动作的目标视频。

其中，目标音频是用户录制的音视频中的音频，例如，可以是用户录制的一段歌舞音视频的歌唱音频，目标视频是用户录制的音视频中的视频，例如，可以是用户录制的一段歌舞音视频中的舞蹈视频。

在实施中，用户可以在终端上点击运行具有视频拍摄和测评功能的应用程序，在该应用程序上录制用户想要模仿的音视频，然后计算机设备可以获取用户录制的音视频，获取音视频中包含的目标音频和目标视频。执行步骤101的执时间节点可以有多种可能性，可以在音视频录制完成进入完成界面时获取录制完成的完整的目标音频和目标视频，还可以是在我的作品的界面内选择之前录制完成的目标音频和目标视频，等等。

102、基于目标视频中每个目标图像帧相对于基准视频中对应的基准图像帧的人体动作匹配度，确定目标视频相对于基准视频的人体动作总匹配度评分。

其中，基准视频是用户模仿的基准音视频中的视频，例如，可以是用户模仿的MV(Music Vedio，音乐短片)中的视频。

在实施中，技术人员可以预先设置的两个相邻的目标图像帧的时长间隔。在录制过程中，计算机设备可以周期性的获取目标图像帧和对应的基准图像帧，然后对其进行处理，计算出目标图像帧和对应的基准图像帧的人体动作匹配度(人体动作匹配度的计算方法在下文中会有详细描述，在这里不再赘述)。确定出目标视频中的每个目标图像帧相对于基准图像帧的人体动作匹配度之后，可以基于每个人体动作匹配度，以及技术人员预设的算法，确定出人体动作匹配度对应的人体动作匹配度评分。例如，人体动作匹配度是0.8，则人体动作匹配度评分可以设置为人体动作匹配度的100倍，即为80分。然后将得到的人体动作匹配度评分存储到预定的位置。在获取到下一个目标图像帧后，再计算该目标图像帧和对应的基准图像帧的人体动作匹配度评分，然后再存储起来，一直到用户录制完成。

基于目标视频中的人体动作匹配度，计算出每个人体动作匹配度评分之后，可以计算出目标视频相对于基准视频的总的评分，即人体动作总匹配度评分。在用户录制完成时，触发显示完成界面，此时会调取录制过程中计算并保存的每个目标图像帧对应的人体动作匹配度评分，然后可以计算出人体动作总匹配度评分，显示在完成界面中。对于人体动作总匹配度评分的计算，可以有多种计算方法，可以选取目标视频中的每个图像帧的人体动作匹配度评分的平均值作为人体动作总匹配度评分，也可以选取目标视频中的每个图像帧的人体动作匹配度评分的中间值作为人体动作总匹配度评分，也可以通过去掉一个最低值、去掉一个最高值，然后选取平均值来作为人体动作总匹配度评分等，本申请对此算法不做限定。

103、基于目标音频中每个目标音频段相对于基准视频的基准音频中对应的基准音频段的音频匹配度，确定目标音频相对于基准音频的音频总匹配度评分。

其中，基准音频是用户模仿的基准音视频中的音频，例如，可以是用户模仿的MV(Music Vedio，音乐短片)中的音频。

在实施中，技术人员预先设置目标音频段的时长。在录制过程中，计算机设备可以周期性的获取目标音频段和对应的基准音频段，然后对其进行处理，计算出目标音频段和对应的基准音频段的匹配度，即音频匹配度(音频匹配度的计算方法在下文中会有详细描述，在这里不再赘述)。确定出目标音频中的每个目标音频段相对于基准音频段的音频匹配度之后，可以基于每个音频匹配度，以及技术人员预设的算法，确定出音频匹配度对应的音频匹配度评分。例如，音频匹配度是0.5，则音频匹配度评分可以设置为人体动作匹配度的100倍，即为50分。然后将得到的音频匹配度评分存储到预定的位置。在获取到下一个目标音频段后，再计算该目标音频段和对应的基准音频段的音频匹配度评分，然后再进行存储，一直到用户录制完成。

基于目标音频中的音频匹配度，计算出每个音频匹配度评分之后，可以计算出目标音频相对于基准音频的总的评分，即音频总匹配度评分。在用户录制完成、显示完成界面时，会调取录制过程中计算并保存的每个目标音频段对应的音频匹配度评分，然后可以计算出音频总匹配度评分，显示在完成界面中。对于音频总匹配度评分的计算，可以有多种计算方法，可以选取目标音频中的每个音频段的音频匹配度评分的平均值作为音频总匹配度评分，也可以选取目标音频中的每个音频段的音频匹配度评分的中间值作为音频总匹配度评分，也可以通过去掉一个最低值、去掉一个最高值，然后选取平均值来作为音频总匹配度评分等，本申请对此算法不做限定。

104、基于人体动作总匹配度评分和音频总匹配度评分，确定综合分类结果。

其中，综合分类结果可以认为是用户录制的音视频中人体动作和音频的综合评分或综合评级。

在实施中，可以在确定了人体动作总匹配度评分和音频总匹配度评分之后，基于技术人员预设的加权值，对人体动作总匹配度评分和音频总匹配度评分进行加权处理，从而得到对于用户模仿的目标视频和目标音频的综合评分或综合评级，然后将其显示在完成界面中。对于综合分类结果是综合评分的情况，可以通过对人体动作总匹配度评分和音频总匹配度评分进行加权处理得到综合评分。而对于综合分类结果是综合评级的情况，技术人员需要预先对综合分类结果进行分类，在计算出综合评分后根据分类情况确定出综合评级。例如，技术人员可以预先将综合分类结果分为B、A、S、SS和SSS五类，这五类分别对应着综合评分为0-20、21-40、41-60、61-80和81-100，人体动作总匹配度评分为80分，音频总匹配度评分为60分，视频权重为0.6，音频权重为0.4，综合评分计算为80*0.6+60*0.4＝72分，则综合评级对应为SS。

可选的，可以计算录制的音频和视频每一部分的评分，并用曲线的形式呈现这些评分，以便用户后续的查看，相应的处理可以如下：

确定目标图像帧相对于所述基准图像帧的人体动作匹配度对应的人体动作匹配度评分，并确定所述目标音频段相对于所述基准音频段的音频匹配度对应的音频匹配度评分；基于每个目标图像帧对应的人体动作匹配度评分，显示人体动作匹配度评分曲线，并基于每个目标音频段对应的音频匹配度评分，显示音频匹配度评分曲线。

在实施中，完成界面中除了会显示人体动作总匹配度评分、音频总匹配度评分和综合分类结果外，还设置有“生成”按钮，用户可以点击该“生成”按钮，会触发将目标音频、目标视频和伴奏合成，得到合成后的音视频，然后会触发显示发布界面，其中设置有“发布”按钮，点击该“发布”按钮，然后用户可以点击该按钮，触发将之前计算出的人体动作匹配度评分、音频匹配度评分、人体动作总匹配度评分、音频总匹配度评分和综合分类结果和合成后的音视频存储到服务器中。用户可以在“我的作品”界面中点击该被模仿音视频的图标，触发显示该音视频的作品界面，然后查看评分以及合成后的音视频。

我的作品界面中设置有音视频选项和评分选项，点击音视频选项，会触发从服务器中调取存储的合成后的音视频，然后播放用户录制的目标音频和目标视频、以及伴奏合成之后的音视频，点击评分选项，则会触发调取服务器中存储的评分，显示评分界面，其中显示有人体动作总匹配度评分、音频总匹配度评分和综合分类结果，以及每句音频文本的缩写图标，点击任一句音频文本的缩写图标，可以触发显示评分窗口，窗口内显示有该句音频文本缩写所对应的时间段的人体动作匹配度评分和音频匹配度评分绘制成的人体动作匹配度评分曲线和音频匹配度评分曲线。例如，如图2所示，为一段1分15秒至1分24秒的音视频的评分，其中动作对应的曲线为人体动作匹配度评分曲线，声音对应的曲线为音频匹配度评分曲线。

可选的，在评分界面中，可以相应的显示人体动作匹配度评分曲线和音频匹配度评分曲线对应的时间轴，以便用户根据时间点进行查看，相应处理可以如下：

显示所述目标视频和所述目标音频对应的时间轴；当接收到对所述时间轴上目标时间点的选择指令时，确定所述目标时间点对应的目标图像帧和目标音频段；显示所述目标时间点对应的目标图像帧的人体动作匹配度评分、以及所述目标时间点对应的目标音频段的音频匹配度评分。

在实施中，在评分窗口中，可以在人体动作匹配度评分曲线和音频匹配度评分曲线对应的位置，显示对应的时间轴，当用户想要查看某个确定时间点的人体动作匹配度评分和音频匹配度评分时，可以将鼠标放置在时间轴的该时间点处，可以触发显示一个放大窗口，在该放大窗口中显示有该时间点对应的目标图像帧的人体动作匹配度评分、以及对应的目标音频段的音频匹配度评分，用户将鼠标移开该目标时间点对应的位置时，则会触发关闭放大窗口。例如，图2中显示有1分15秒至1分24秒的时间轴，鼠标位于时间轴的1分20秒位置处，鼠标下方的放大窗口中显示有1分20秒对应的人体动作匹配度评分和音频匹配度评分。

可选的，可以将音频和视频每部分的评分以图像形式融入到目标视频中，生成一个新的视频，其中显示有相应的评分，相应的处理可以如下：

基于所述目标图像帧相对于所述基准图像帧的人体动作匹配度，确定对应的人体动作匹配度评分；在所述目标视频中与所述目标图像帧对应的位置，以图像形式添加所述人体动作匹配度评分。

基于所述目标音频段相对于所述基准音频段的音频匹配度，确定对应的音频匹配度评分；在所述目标视频中与所述目标音频段对应的位置，以图像形式添加所述音频匹配度评分。

用户可以在完成界面中点击“生成”按钮，会触发修改目标视频中所有图像帧的对应位置的像素，将人体动作总匹配度评分、音频总匹配度评分和综合分类结果显示在该位置上，修改每个目标图像帧以及之后与之相邻的连续的预设时长的图像帧的对应位置的像素，将目标图像帧对应的人体动作匹配度评分显示在该位置上，修改每个目标音频段对应的时间段的图像帧的对应位置的像素，将该目标音频帧对应的音频匹配度评分显示在该位置上，或者预设时长内的多个目标音频段对应的时间段的图像帧的对应位置的像素，将多个目标音频段对应的音频匹配度评分的平均值显示在该位置上。这样，可以将各种评分以图像的形式融入到目标视频中。

然后可以将添加了评分的视频与目标音频和伴奏合成，生成合成后的音视频，然后会触发显示发布界面，点击“发布”按钮，会触发将合成后的音视频存储到服务器中。用户可以在“我的作品”界面中点击该被模仿音视频的图标，触发显示该音视频的作品界面，然后查看合成后的音视频。

我的作品界面中设置有音视频选项，点击音视频选项，会触发调取服务器中存储的合成后的音视频，然后进行播放，播放界面中，除了会播放目标视频、目标音频和伴奏以外，还会在视频中显示人体动作总匹配度评分、音频总匹配度评分和综合分类结果、以及当前播放时间点对应的视频的人体动作匹配度评分和音频的音频匹配度评分。

这样，用户可以在观看该音视频时，既可以看到自己模仿的动作视频，听到伴奏和自己录制的音频，还可以查看录制的音频总分、视频总分、音视频的分类，以及当前播放时间点对应的视频和音频的分数。

可选的，在录制过程中，可以对音频和视频的每部分的评分进行实时显示，相应的处理可以如下：

对于人体动作匹配度评分的显示方式，可以在获取到目标图像帧和对应的基准图像帧的时间点之后经过预设时长时对处理得到的该目标图像帧对应的人体动作匹配度评分开始进行显示，可以在录制界面中以浮层显示的方式将人体动作匹配度评分的数值显示一段预设的显示时长。例如，技术人员可以预先设置相邻目标图像帧之间的间隔时长和显示时长都是3秒，计算机设备在整个目标视频的第2秒获取到目标图像帧和对应的基准图像帧，则会在第5秒对计算得到的人体动作匹配度评分进行显示，同时会在第5秒获取到下一个目标图像帧和对应的基准图像帧，然后会在第8秒更新人体动作匹配度评分，对这一目标图像帧对应的人体动作匹配度评分进行显示，以此类推。

还可以在获取到目标图像帧和对应的基准图像帧之后对其进行处理，计算人体动作匹配度评分，计算出人体动作匹配度评分的时间点就将其在录制界面中以浮层显示的方式显示出来，在得到下一个目标图像帧对应的人体动作匹配度评分之后就触发更新。例如，技术人员可以预先设置相邻目标图像帧之间的间隔时长为a秒，计算机设备在整个目标视频的第b秒获取到第一个目标图像帧和对应的基准图像帧，则在计算出该目标图像帧对应的人体动作匹配度评分时就将其进行显示，在第a+b秒时计算机设备获取到第二个目标图像帧和对应的基准图像帧，然后对其进行处理得到第二个目标图像帧对应的人体动作匹配度评分，则对录制界面中的人体动作匹配度评分进行更新，显示第二个目标图像帧对应的人体动作匹配度评分，以此类推。对于此种显示方式，人体动作匹配度评分可以显示为数值形式，也可以显示为曲线形式。若人体动作匹配度评分以数值形式进行显示，则将其显示在录制界面中，进行实时更新。若人体动作匹配度评分以曲线形式进行显示，则计算出一个人体动作匹配度评分，将该人体动作匹配度评分对应的点与前一个人体动作匹配度评分对应的点连线，绘制在录制界面中，形成人体动作匹配度评分曲线，整条人体动作匹配度评分曲线可以随着播放在录制界面中同步的向左移动，以确保用户可以看到每次更新的实时人体动作匹配度评分，可以理解的是，人体动作匹配度评分曲线是从0开始的。

对于音频匹配度评分的显示方式，音频匹配度评分可以显示为数值形式，也可以显示为曲线形式。若音频匹配度评分以数值形式进行显示，则可以计算出预设数目个目标音频段对应的音频匹配度评分，然后取平均值，将平均值进行显示，在将下一个预设数目个目标音频段对应的音频匹配度评分的平均值后，对显示的评分进行更新，显示最新计算出的平均值。若音频匹配度评分以曲线形式进行显示，则在录制界面内，录制的时候会实时的显示正在演唱或者即将要演唱的一句歌词，歌词的颜色会随着播放的时间逐渐变为别的颜色，播放到哪一个音频帧，则该音频帧对应的时间点以前的音频对应的歌词将变为其他颜色，而随着用户的演唱，每演唱完成一个目标音频段，则会在歌词上方对应的位置以浮层显示的方式，显示出该目标音频段对应的音频匹配度评分和上一个音频匹配度评分的连线，即音频匹配度评分曲线。当一整句歌词都演唱完成时，显示的音频匹配度评分曲线就是用户演唱的这一整句歌词对应的多个音频匹配度评分的连线，然后在下一句歌词出来后，则会产生新的一段曲线。可以理解的是，每段曲线都是从0开始，每生成一个音频匹配度评分，则曲线就向右延伸一段，一直到下一句歌词出现，则又是一条新的从0开始的曲线。

图3是本申请实施例提供的一种确定人体动作匹配度的方法流程图。参见图3，该实施例包括：

301、获取图像采集设备采集的目标图像帧。

其中，目标图像帧为图像采集设备采集的目标视频中的图像帧。

在实施中，用户可以在终端上点击运行具有视频拍摄和测评功能的应用程序，触发显示应用程序的主界面，主界面内设置有推荐的热门视频的选项和搜索栏，用户可以点击最近热门的视频的选项，也在搜索栏搜索用户想要模仿的视频，点击该视频的选项，触发显示要模仿的视频的界面，点击视频界面的“录制”按钮，可以触发播放该被模仿视频，即基准视频，此时，用户可以对基准视频中的动作进行模仿，而通过应用程序调用的图像采集设备，则会录制用户模仿的视频，即目标视频。此时，应用程序的界面可以同时显示基准视频与目标视频。

可选的，目标图像帧可以是目标视频中的全部图像帧，即目标视频中的全部图像帧都进行本方案流程的处理。或者，目标图像帧也可以是在目标视频中周期性的获取的图像帧，即只对目标视频中的部分图像帧进行本方案流程的处理，例如每20个图像帧选取20个图像帧中的第一个图像帧作为目标视频的目标图像帧。周期性的获取目标图像帧对确定用户模仿动作的匹配度并不会产生太大影响，且需要处理的数据量也不会太大。

可选的，上述处理中除了获取目标图像帧，还可以获取对应的基准图像帧，即用户所模仿的视频的图像帧，相应的处理方式可以如下：

方式一，在获取图像采集设备采集的目标图像帧之后，还可以获取在基准视频中播放时间点与目标图像帧在目标视频中的播放时间点相同的基准图像帧。

在实施中，技术人员可以对目标视频和基准视频的帧间隔预先设置，两者的帧间隔可以相同，也可以不同。当目标视频和基准视频的帧间隔相同时，通过图像采集设备采集了目标图像帧之后，根据目标图像帧在目标视频中的播放时间点，在基准视频中确定出与该播放时间点最接近的播放时间点，然后选取出该播放时间点基准视频中的图像帧作为该目标图像帧对应的基准图像帧。当目标视频和基准视频的帧间隔不同时，通过图像采集设备采集了目标图像帧之后，根据目标图像帧的播放时间点，确定出与该播放时间点相同的基准视频中的播放时间点，然后选取出基准视频中与该播放时间点最近的图像帧作为该目标图像帧对应的基准图像帧。

方式二，在获取图像采集设备采集的目标图像帧之后，还可以获取在目标图像帧的采集时间点播放的基准图像帧。

在实施中，通过图像采集设备采集了目标图像帧之后，可以确定采集目标图像帧时的时钟时刻，然后可以与提前获取到的基准视频开始播放时的时钟时刻进行对比得到一个差值，该差值就是基准视频帧在基准视频中对应的播放时间点。因此根据该差值，可以确定基准视频中该播放时间点对应的基准图像帧。

302、确定目标图像帧中多个人体关键点的位置。

其中，人体关键点是人体运动时可以显示每个部位的相对位置的特征明显的人体的特征点，例如，手腕点、脚腕点、膝点、肘点等。

在实施中，技术人员可以预先设置多个人体关键点，本申请实施例中设置17个人体关键点，如图4所示，将其设定为头点(即眉心点)、喉点、胸腔点、肚脐点、下巴点、左肩点、右肩点、左肘点、右肘点、左手腕点、右手腕点、左跨点、右胯点、左膝点、右膝点、左脚腕点、右脚腕点。

技术人员可以提前对人体中17个关键点进行机器学习模型训练，然后将目标图像帧输入到机器学习模型中，可以输出目标图像帧中17个人体关键点的位置坐标。

303、基于目标图像帧中多个人体关键点的位置，确定目标图像帧和基准图像帧中相同的人体关键点连线的夹角。

在实施中，确定了目标图像帧中多个人体关键点的位置后，还可以利用机器学习模型对基准图像帧中相同的人体关键点进行位置确定，得到基准图像帧中17个人体关键点的位置坐标。此时，可以选取任意两个人体关键点分别在目标图像帧和基准图像帧中进行连线，将两条连线至于同一坐标系中，将其中一条连线进行二维平面的平移使两条连线的一个端点重合，此时可以得到这两条连线的夹角。也可以通过基准图像帧中的连线得到连线的斜率，然后基于两个连线的斜率，可以计算这两条连线的夹角。

可选的，可以设置一个或多个具有参考意义的人体关键点(如吼点或肚脐点等)为参考人体关键点，进一步，可以确定非参考关键点与参考关键点之间的连线，进而确定夹角。相应的，多个人体关键点中可以包括预设的参考人体关键点和非参考人体关键点，步骤303的处理可以如下：

对于每个非参考人体关键点，在目标图像帧中，基于非参考人体关键点的位置和参考人体关键点的位置，确定非参考人体关键点和参考人体关键点的第一连线，获取基准图像帧中非参考人体关键点和参考人体关键点的第二连线，确定第一连线与所述第二连线的夹角。

在实施中，技术人员可以在多个人体关键点中预先设置其中一个为参考人体关键点，本实施例中选取喉点为参考人体关键点，其他16个人体关键点为非参考人体关键点，根据这17个人体关键点的位置坐标，在目标图像帧中的参考人体关键点和非参考人体关键点进行连线得到第一连线，在基准图像帧中的参考人体关键点和相同的非参考人体关键点进行连线得到第二连线，将其中一条连线在同一个坐标系内进行平移，使得参考人体关键点(本实施例中即为喉点)重合，此时可以确定第一连线和第二连线的夹角。例如，如图5所示，对于喉点和左手腕点，获取在目标图像帧中的喉点A1和左手腕点B1的第一连线，和在基准图像帧中的喉点A2和左手腕点B2的第二连线，此时将第一连线在两条连线的二维平面内平移使喉点A1和喉点A2重合，可以得到两条连线的夹角1，夹角1就是对应于喉点和左手腕点的夹角。以相同的处理过程，可以得到对应于喉点和右手腕点的夹角2、对应于喉点和头点的夹角3、对应于喉点和胸腔点的夹角4等。此时，对于目标图像帧和基准图像帧可以得到共16个夹角。

304、基于确定出的夹角，确定目标图像帧相对于基准图像帧的人体动作匹配度。

其中，人体动作匹配度是用户的动作相对于被模仿视频中人物动作的相似度。

在实施中，确定出16个夹角后，根据逻辑推理即夹角越大则人体动作匹配度越低，将夹角数值进行转化，得到16个夹角对应的处理结果值，然后根据这16个处理结果值，可以确定出可以反馈给用户、用于给用户显示其人体动作匹配度的评分。

可选的，确定目标图像帧相对于基准图像帧的人体动作匹配度的处理可以如下：

基于预设函数对确定出的每个夹角进行处理，得到每个夹角对应的处理结果值；基于每个夹角对应的处理结果值，确定所述目标图像帧相对于所述基准图像帧的人体动作匹配度。

在实施中，确定出16个夹角后，可以通过技术人员预设的函数对每个夹角数值进行转化，转化为可以显示用户的模仿动作的完整性的处理结果值，例如，可以采用下列公式(1)进行计算：

公式(1)中的y为处理结果值，θ为夹角。

将16的夹角带入公式中，得到16个处理结果值，然后可以获取这16个处理结果值的平均数，作为目标图像帧对于基准图像帧的人体动作匹配度。这一个图像帧的人体动作匹配度可以作为评分显示在应用程序的界面上，让用户可以实时的观看到自己动作模仿程度的评分，以便进行调整。

本申请实施例中，给出了上述的视频评分的处理方式，另外，还给出了一种对音频评分的处理方式，图6是本申请实施例提供的一种确定音频匹配度的方法流程图。参照图6，处理过程可以如下：

601、对于目标视频对应的目标音频中的每个目标音频段，确定目标音频段相对于基准音频中对应的基准音频段的基频相似度。

在实施中，在应用程序中，用户除了可以对视频进行模仿并获取评分以外，还可以对音频进行模仿并获取评分。例如，用户可以选择K歌，或者选择既跳舞又唱歌的模式，即模仿基准视频中的动作的同时也要对其对应的基准音频进行模仿。需要注意的是，本申请实施例中音频可以为无伴奏音乐的干声，或称人声音频。

用户可以在应用程序中选择既有视频又有音频的模仿文件，点击“录制”按钮，可以触发播放基准视频、基准视频对应的基准音频和伴奏音频，可以理解的是，基准视频对应的基准音频可以根据用户在界面内的操作选择播放或者不播放。此时，除了录制用户的视频外，还可以通过终端的麦克风录制用户的声音，即为目标音频。然后可以获取目标音频段和相应的基准音频段的基频，通过判断目标音频段的基频和基准音频段的相应的基频是否一致或者在差值范围内，来确定目标音频段和相应的基准音频段的基频相似度。

可选的，确定基频相似度的处理可以如下：

确定目标音频段在基准音频中对应的基准音频段；

确定目标音频段中的每个目标音频帧的基频与基准音频段中对应的基准音频帧的基频的差值，确定对应的差值在预设范围内的目标音频帧的数目在目标音频段的总帧数中占的比例，作为目标音频段相对于基准音频中对应的基准音频段的基频相似度。

在实施中，技术人员可以预先设置基准音频，将基准音频分成多个基准音频段，可选的，基准音频中每段基准音频段的时长可以是相同的，也可以是不同的。在用户录制目标音频时，根据基准音频的预先设置的每段基准音频段的时长，将相应的目标音频也进行划分，分为多个目标音频段。可以理解的是，每个目标音频段和相应的基准音频段的开始时间点和结束时间点是相同的。

技术人员可以预先设置基准视频中每一帧对应的时长，然后可以获取每一帧音频对应的基频。此时，获取目标音频段和基准音频段中的所有音频帧的基频，将目标音频段中的基频与基准音频段中的相应的基频分别进行对比，可以得到其差值在预设范围内的基频数目，将其与目标音频段中的总的基频数目进行对比，得到的比例就是目标音频段相对于基准音频中对应的基准音频段的基频相似度。例如，目标音频段和基准音频段都包含1000个音频帧，即都会得到1000个基频信息，基频信息差值的预设范围选取为8HZ，此时，若确定出的基频的差值范围在8HZ之内的基频有800个，则目标音频段的音频相似度为800/1000，即0.8。

602、基于目标音频中每个目标音频段相对于基准音频中对应的基准音频段的基频相似度，确定每个目标音频段相对于对应的基准音频段的音频匹配度。

在实施中，在只根据基频确定音频匹配度的情况下，每个目标音频段相对于基准音频中对应的基准音频段的基频相似度就是每个目标音频段相对于对应的基准音频段的音频匹配度。

在确定目标音频段与基准音频段的音频匹配度时，除了可以考虑基频，还可以考虑用户歌唱的歌词是否准确，相应的，步骤602的处理可以如下：

对于每个目标音频段，确定所述目标音频段相对于所述基准音频中对应的基准音频段的文本相似度；

基于所述目标音频中每个目标音频段相对于所述基准音频中对应的基准音频段的基频相似度和文本相似度，确定所述每个目标音频段相对于对应的基准音频段的音频匹配度。

在实施中，确定了每个目标音频段与基准音频段的音频匹配度之后，还可以确定该目标音频段用户的歌词唱的是否准确。根据目标音频段和对应的基准音频段的文本对比，得到文本相似度，此时，对于目标音频段来说，既有基频相似度，又有文本相似度，可以通过处理得到目标音频段的音频匹配度。

可选的，确定目标音频段的文本相似度的处理可以如下：

对目标音频段进行文本识别得到目标识别文本；确定目标音频段在所述基准音频中对应的基准音频段，获取基准音频段对应的基准识别文本；基于目标识别文本和基准识别文本的相似度，作为目标音频段相对于基准音频中对应的基准音频段的文本相似度。

在实施中，可以通过语音识别技术获取目标音频段中用户的声音文本，即目标识别文本，然后获取目标音频段对应的基准音频段的文本，即基准识别文本，基准识别文本可以是技术人员预先存储的，目标识别文本和基准识别文本进行对比，根据其中的每个字和顺序是否一致来确定文本相似度。例如，预先存储的基准音频段的文本为“今天天气好晴朗”，通过语音识别技术获取到的用户声音的文本为“天气好晴朗”，用户未唱出“今天”两个字，则文本相似度为5/7。或者，预先存储的基准音频段的文本为“今天天气好晴朗”，通过语音识别技术获取到的用户声音的文本为“我们今天天气好晴朗”，用户多唱出“我们”两个字，则文本相似度为7/9。再例如，预先存储的基准音频段的文本为“今天天气好晴朗”，通过语音识别技术获取到的用户声音的文本为“今天天空好晴朗”，用户唱错“气”这个字，则文本相似度为6/7。

另外，也可以直接计算目标识别文本和基准识别文本的欧氏距离，作为相似度。

在确定出目标音频中每个目标音频段相对于基准音频中对应的基准音频段的基频相似度和文本相似度后，可以对基频相似度和文本相似度进行加权处理，得到目标音频段相对于对应的基准音频段的音频匹配度。例如，当目标音频段相对于基准音频中对应的基准音频段的基频相似度为0.8，文本相似度为1，基频相似度和文本相似度加权的权重分别为0.4和0.6，则目标音频段相对于对应的基准音频段的音频匹配度为0.8×0.4+1×0.6，即为0.92。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

本申请实施例中提到的方案，可以获取目标音频和目标视频，基于目标视频中每个目标图像帧相对于基准视频中对应的基准图像帧的人体动作匹配度，确定目标视频相对于基准视频的人体动作总匹配度评分，基于目标音频中每个目标音频段相对于基准视频的基准音频中对应的基准音频段的音频匹配度，确定目标音频相对于基准音频的音频总匹配度评分，然后基于人体动作总匹配度评分和音频总匹配度评分，确定综合分类结果。综合分类结果可以反应视频和音频的总的模仿情况，因此，本申请实施例提供了一种能够对唱跳视频的模仿情况进行分类的方法。

本申请实施例提供了一种视频的分类装置，该装置可以是上述实施例中的计算机设备，如图7所示，所述装置包括：

获取模块710，用于获取目标音频及相应的包括人体动作的目标视频；

视频确定模块720，用于基于所述目标视频中每个目标图像帧相对于基准视频中对应的基准图像帧的人体动作匹配度，确定所述目标视频相对于所述基准视频的人体动作总匹配度评分；

音频确定模块730，用于基于所述目标音频中每个目标音频段相对于所述基准视频的基准音频中对应的基准音频段的音频匹配度，确定所述目标音频相对于所述基准音频的音频总匹配度评分；

综合确定模块740，用于基于所述人体动作总匹配度评分和所述音频总匹配度评分，确定综合分类结果。

在一种可能的设计中，所述装置还包括：

在一种可能的设计中，所述第一确定模块，还用于：

获取在所述目标图像帧的采集时间点播放的基准图像帧。

在一种可能的设计中，所述第一确定模块，还用于：

在一种可能的设计中，所述第一确定模块，用于：

确定所述目标音频段在所述基准音频中对应的基准音频段；

在一种可能的设计中，所述第一确定模块，还用于：

在一种可能的设计中，所述第一确定模块，用于：

对所述目标音频段进行文本识别得到目标识别文本；

需要说明的是：上述实施例提供的视频的分类装置在视频的分类时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频的分类装置与视频的分类方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8示出了本申请一个示例性实施例提供的终端800的结构框图。该终端可以是上述实施例中的计算机设备。该终端800可以是：智能手机、平板电脑、MP3播放器(MovingPicture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的生成测试脚本代码的方法。

在一些实施例中，终端800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、显示屏805、摄像头806、音频电路807、定位组件808和电源809中的至少一种。

外围设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置终端800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在终端800的不同表面或呈折叠设计；在再一些实施例中，显示屏805可以是柔性显示屏，设置在终端800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

定位组件808用于定位终端800的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。

加速度传感器811可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测终端800的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对终端800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在终端800的侧边框和/或显示屏805的下层。当压力传感器813设置在终端800的侧边框时，可以检测用户对终端800的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在显示屏805的下层时，由处理器801根据用户对显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器814用于采集用户的指纹，由处理器801根据指纹传感器814采集到的指纹识别用户的身份，或者，由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器801授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置终端800的正面、背面或侧面。当终端800上设置有物理按键或厂商Logo时，指纹传感器814可以与物理按键或厂商Logo集成在一起。

光学传感器815用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器815采集的环境光强度，控制显示屏805的显示亮度。具体地，当环境光强度较高时，调高显示屏805的显示亮度；当环境光强度较低时，调低显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器815采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器816，也称距离传感器，通常设置在终端800的前面板。接近传感器816用于采集用户与终端800的正面之间的距离。在一个实施例中，当接近传感器816检测到用户与终端800的正面之间的距离逐渐变小时，由处理器801控制显示屏805从亮屏状态切换为息屏状态；当接近传感器816检测到用户与终端800的正面之间的距离逐渐变大时，由处理器801控制显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对终端800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图9是本申请实施例提供的一种服务器的结构示意图，该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)901和一个或一个以上的存储器902，其中，所述存储器902中存储有至少一条指令，所述至少一条指令由所述处理器901加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中视频的分类方法。该计算机可读存储介质可以是非暂态的。例如，所述计算机可读存储介质可以是ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频的分类方法，其特征在于，所述方法包括：

获取目标音频及相应的包括人体动作的目标视频；

逐个获取所述目标音频包括的目标音频段，每获取一个目标音频段，确定所述目标音频段在所述基准视频的基准音频中对应的基准音频段，确定所述目标音频段中的每个目标音频帧的基频与所述基准音频段中对应的基准音频帧的基频的差值，确定对应的差值在预设范围内的目标音频帧的数目在目标音频段的总帧数中占的比例，作为目标音频段相对于基准音频中对应的基准音频段的基频相似度；

基于所述每个目标音频段相对于所述基准音频中对应的基准音频段的基频相似度和文本相似度，确定所述每个目标音频段相对于所述基准音频中对应的基准音频段的音频匹配度；

基于所述目标音频中每个目标音频段相对于所述基准音频中对应的基准音频段的音频匹配度，确定所述目标音频相对于所述基准音频的音频总匹配度评分；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

显示所述目标视频和所述目标音频对应的时间轴；

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述目标视频中每个目标图像帧相对于基准视频中对应的基准图像帧的人体动作匹配度，确定所述目标视频相对于所述基准视频的人体动作总匹配度评分之前，还包括：

7.一种视频的分类装置，其特征在于，所述装置包括：

音频确定模块，用于逐个获取所述目标音频包括的目标音频段，每获取一个目标音频段，确定所述目标音频段在所述基准视频的基准音频中对应的基准音频段，确定所述目标音频段中的每个目标音频帧的基频与所述基准音频段中对应的基准音频帧的基频的差值，确定对应的差值在预设范围内的目标音频帧的数目在目标音频段的总帧数中占的比例，作为目标音频段相对于基准音频中对应的基准音频段的基频相似度；对于每个目标音频段，确定所述目标音频段相对于所述基准音频中对应的基准音频段的文本相似度；基于所述每个目标音频段相对于所述基准音频中对应的基准音频段的基频相似度和文本相似度，确定所述每个目标音频段相对于所述基准音频中对应的基准音频段的音频匹配度；基于所述目标音频中每个目标音频段相对于所述基准音频中对应的基准音频段的音频匹配度，确定所述目标音频相对于所述基准音频的音频总匹配度评分；

综合确定模块，用于基于所述人体动作总匹配度评分和所述音频总匹配度，确定综合分类结果。

8.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至权利要求6任一项所述的视频的分类方法所执行的操作。

9.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求6任一项所述的视频的分类方法所执行的操作。