CN107944056B

CN107944056B - 多媒体文件的识别方法、装置、终端及存储介质

Info

Publication number: CN107944056B
Application number: CN201711440858.XA
Authority: CN
Inventors: 陈岩; 刘耀勇
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2020-08-18
Anticipated expiration: 2037-12-27
Also published as: CN107944056A

Abstract

本申请公开了一种多媒体文件的识别方法、装置、终端及存储介质，属于终端技术领域。所述方法包括：获取目标对象的运动数据和多媒体文件的节拍数据，根据运动数据和节拍数据，采用分数预测模型得到多媒体文件的评定分数，当评定分数大于预定阈值时，将多媒体文件识别为目标文件。本申请通过目标对象的运动数据和节拍数据的相似程度得到评定分数，使得终端能够基于该评定分数，自动识别出该多媒体文件是否为符合用户兴趣偏好的目标文件，避免了繁琐的手动操作，提高了对多媒体文件的识别效率。

Description

多媒体文件的识别方法、装置、终端及存储介质

技术领域

本申请实施例涉及终端技术领域，特别涉及一种多媒体文件的识别方法、装置、终端及存储介质。

背景技术

多媒体文件包括视频文件和/或音频文件。随着终端技术的不断发展，用户通常会通过终端来播放多媒体文件。

相关技术中，终端对多媒体文件的识别方法包括：当用户对播放的多媒体文件比较感兴趣时，终端会接收与该多媒体文件对应的设置操作，根据该设置操作将该多媒体文件识别为该用户所喜爱的文件。其中，设置操作包括对该多媒体文件的评分进行喜爱标记的操作。

发明内容

本申请实施例提供了一种多媒体文件的识别方法、装置、终端及存储介质，可以用于解决多媒体文件的识别效率较低的问题。所述技术方案如下：

根据本申请实施例的第一方面，提供了一种多媒体文件的识别方法，所述方法包括：

获取目标对象的运动数据和多媒体文件的节拍数据，所述运动数据是在播放所述多媒体文件的过程中采集到的运动数据；

根据所述运动数据和所述节拍数据，采用分数预测模型得到所述多媒体文件的评定分数，所述分数预测模型用于表示基于历史运动数据和历史节拍数据训练得到的相似程度；

当所述评定分数大于预定阈值时，将所述多媒体文件识别为目标文件，所述目标文件为符合所述目标对象的兴趣偏好的文件。

根据本申请实施例的第二方面，提供了一种多媒体文件的识别装置，所述装置包括：

获取模块，用于获取目标对象的运动数据和多媒体文件的节拍数据，所述运动数据是在播放所述多媒体文件的过程中采集到的运动数据；

评分模块，用于根据所述运动数据和所述节拍数据，采用分数预测模型得到所述多媒体文件的评定分数，所述分数预测模型用于表示基于历史运动数据和历史节拍数据训练得到的相似程度；

识别模块，用于当所述评定分数大于预定阈值时，将所述多媒体文件识别为目标文件，所述目标文件为符合所述目标对象的兴趣偏好的文件。

根据本申请实施例的第三方面，提供了一种终端，所述终端包括处理器、与所述处理器相连的存储器，以及存储在所述存储器上的程序指令，所述处理器执行所述程序指令时实现如本申请第一方面及其可选实施例任一所述的多媒体文件的识别方法。

根据本申请实施例的第四方面，提供了一种计算机可读存储介质，其上存储有程序指令，所述程序指令被处理器执行时实现如本申请第一方面及其可选实施例任一所述的多媒体文件的识别方法。

本申请实施例提供的技术方案带来的有益效果是：

通过获取目标对象的运动数据和多媒体文件的节拍数据，根据运动数据和节拍数据，采用分数预测模型得到多媒体文件的评定分数，当评定分数大于预定阈值时，将多媒体文件识别为目标文件；使得能够通过目标对象的运动数据和节拍数据的相似程度得到评定分数，进而使得终端能够基于该评定分数，自动识别出该多媒体文件是否为符合用户兴趣偏好的目标文件，避免了繁琐的手动操作，提高了对多媒体文件的识别效率。

附图说明

图1是本申请一个示例性实施例提供的终端的结构示意图；

图2是本申请一个实施例提供的文件识别系统的结构示意图；

图3是本申请一个实施例提供的多媒体文件的识别方法的流程图；

图4是本申请一个实施例提供的多媒体文件的识别方法涉及的模型训练方法的流程图；

图5是本申请一个实施例提供的多媒体文件的识别方法涉及的原理示意图；

图6是本申请另一个实施例提供的多媒体文件的识别方法的流程图；

图7是本申请另一个实施例提供的多媒体文件的识别方法的流程图；

图8是本申请另一个实施例提供的多媒体文件的识别方法涉及的原理示意图；

图9是本申请一个实施例提供的多媒体文件的识别装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请涉及到的名词进行介绍。

分数预测模型：是一种用于根据输入的数据确定多媒体文件的评定分数的数学模型。

可选地，第一分数预测模型包括但不限于：深度神经网络(Deep Neural Network，DNN)模型、循环神经网络(Recurrent Neural Networks，RNN)模型、嵌入(embedding)模型、梯度提升决策树(Gradient Boosting Decision Tree，GBDT)模型、逻辑回归(LogisticRegression，LR)模型中的至少一种。

DNN模型是一种深度学习框架。DNN模型包括输入层、至少一层隐层(或称，中间层)和输出层。可选地，输入层、至少一层隐层(或称，中间层)和输出层均包括至少一个神经元，神经元用于对接收到的数据进行处理。可选地，不同层之间的神经元的数量可以相同；或者，也可以不同。

RNN模型是一种具有反馈结构的神经网络。在RNN模型中，神经元的输出可以在下一个时间戳直接作用到自身，即，第i层神经元在m时刻的输入，除了(i-1)层神经元在该时刻的输出外，还包括其自身在(m-1)时刻的输出。

embedding模型是基于实体和关系分布式向量表示，将每个三元组实例中的关系看作从实体头到实体尾的翻译。其中，三元组实例包括主体、关系、客体，三元组实例可以表示成(主体，关系，客体)；主体为实体头，客体为实体尾。比如：小张的爸爸是大张，则通过三元组实例表示为(小张，爸爸，大张)。

GBDT模型是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结果累加起来作为最终结果。决策树的每个节点都会得到一个预测值，以年龄为例，预测值为属于年龄对应的节点的所有人年龄的平均值。

LR模型是指在线性回归的基础上，套用一个逻辑函数建立的模型。

相关技术中，在多媒体文件的播放过程中，当用户对播放的多媒体文件比较感兴趣时，会手动对该多媒体文件设置较高的评分或者将该多媒体文件进行标记，对应的，终端会接收与该多媒体文件对应的设置操作，根据该设置操作将该多媒体文件识别为该用户所喜爱的文件。但是，在上述方法中，终端识别该多媒体文件是否为用户所喜爱的文件依赖于用户手动的设置操作，操作复杂，也降低了对多媒体文件的识别效率。为此，本申请提供了一种多媒体文件的识别方法、装置、终端及存储介质，以解决上述相关技术中存在的问题。本申请提供的技术方案中，通过基于目标对象的运动数据和节拍数据的相似程度，得到多媒体文件的评定分数，当评定分数大于预定阈值时将多媒体文件识别为符合用户兴趣偏好的目标文件，避免了繁琐的手动操作，提高了对多媒体文件的识别效率。下面采用示意性的实施例进行说明。

在对本申请实施例进行解释说明之前，先对本申请实施例的应用场景进行说明。图1示出了本申请一个示例性实施例所提供的终端100的结构示意图。

终端100也称为便携式终端100，该终端100可以是手机、MP3播放器(MovingPicture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器等设备。

可选的，终端100中内置有运动传感器，该运动传感器用于采集目标对象的运动数据。

运动数据包括目标对象的速度、加速度、角速度、运动方向、运动频率中的至少一种。

终端100中存储有第一分数预测模型，该第一分数预测模型用于表示基于历史运动数据和历史节拍数据训练得到的相似程度。

可选的，该终端100是安装有多媒体应用程序的终端。该多媒体应用程序是具有播放多媒体文件的功能的应用程序。

多媒体文件包括视频文件和/或音频文件。在本申请实施例中，仅以多媒体文件为音乐文件为例进行说明。

可选的，该终端100包括一个或多个如下部件：处理器110和存储器120。

处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个电梯调度设备内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行电梯调度设备的各种功能和处理数据。可选的，处理器110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit，CPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统和应用程序等；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块芯片进行实现。

可选的，处理器110执行存储器120中的程序指令时实现下面各个方法实施例提供的多媒体文件的识别方法。

存储器120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器120包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令、用于实现下面各个方法实施例的指令等；存储数据区可存储下面各个方法实施例中涉及到的数据等。

请参考图2，其示出了本申请一个实施例提供的文件识别系统的结构示意图。该文件识别系统包括：终端100和可穿戴设备120。

可穿戴设备120是可穿戴在目标对象身上，具有预设功能的便携式设备。在本实施例中，可穿戴设备120包括智能手环、智能手表、智能眼镜、智能头盔、耳机、耳塞中的至少一种。

需要说明的是，图2中仅以可穿戴设备120为耳机为例示意性地进行表示。本实施例对可穿戴设备120的类型不加以限定。

目标对象为穿戴有该可穿戴设备120的具有运动能力的客体，包括人类、动物或者机器人等。本申请实施例中仅以目标对象为人类为例进行说明。

可穿戴设备120用于采集目标对象的运动数据。运动数据包括目标对象的速度、加速度、角速度、运动方向、运动频率中的至少一种。可选的，可穿戴设备120中包括内置的运动传感器，该运动传感器包括重力传感器、光电传感器、温度传感器、振动传感器、压力传感器、陀螺仪中的至少一种传感器。可穿戴设备120通过上述至少一种运动传感器，采集到目标对象的运动数据。

可穿戴设备120通过无线网络或有线网络与终端100建立通信连接。

其中，可穿戴设备120和终端100之间的通信模式包括蓝牙、近场通信(Near FieldCommunication，NFC)、无线保真(Wireless-Fidelity，WiFi)、红外等任一种通信模式。

可选的，可穿戴设备120将采集到目标对象的运动数据发送至终端100；对应的，终端100接收可穿戴设备120发送的运动数据。

请参考图3，其示出了本申请一个实施例提供的多媒体文件的识别方法的流程图。本申请实施例以该多媒体文件的识别方法应用于图1或图2所提供的终端100来举例说明。该多媒体文件的识别方法包括：

步骤301，获取目标对象的运动数据和多媒体文件的节拍数据，运动数据是在播放多媒体文件的过程中采集到的运动数据。

可选的，终端获取目标对象的运动数据，包括但不限于以下两种可能的获取方式。

在一种可能的获取方式中，当终端在第一时刻开始播放多媒体文件时，通过内置的运动传感器开始采集目标对象的运动数据。当终端在第二时刻结束播放多媒体文件时，终端将从第一时刻至第二时刻采集到的运动数据确定为目标对象的运动数据。

在另一种可能的获取方式中，当终端在第一时刻开始播放多媒体文件时，向可穿戴设备发送采集标识，该采集标识用于指示可穿戴设备开始采集目标对象的运动数据。可穿戴设备接收到采集标识，根据采集标识开始采集目标对象的运动数据，并将采集到的运动数据实时发送至终端。对应的，终端接收到可穿戴设备发送的运动数据。当终端在第二时刻结束播放多媒体文件时，终端将从第一时刻至第二时刻接收到的运动数据确定为目标对象的运动数据。

可选的，在该种获取方式中，运动数据包括目标对象中与该可穿戴设备对应的目标部位的运动数据。

示意性的，当可穿戴设备为耳机或者耳塞时，与该可穿戴设备对应的目标部位为目标对象的头部，运动数据包括目标对象的头部对应的运动数据。

比如，运动数据包括目标对象的头部对应的运动角度、运动方向和运动频率中的至少一种。

示意性的，当可穿戴设备为智能手环或者智能手表时，与该可穿戴设备对应的目标部位为目标对象的手部，运动数据包括目标对象的手部对应的运动数据。

比如，运动数据包括目标对象的手部对应的运动角度、运动方向和运动频率中的至少一种。

需要说明的是，目标对象的运动数据的采集工作可以由终端中内置的运动传感器完成，也可以由与终端连接的可穿戴设备完成，本实施例对此不加以限定，为了方便说明，下面仅以终端获取目标对象的运动数据为第一种可能的获取方式为例进行说明。

可选的，当终端在第二时刻结束播放多媒体文件时，终端获取多媒体文件的多媒体数据，多媒体数据包括该多媒体文件的音频信息和画面信息；终端从多媒体数据中提取节拍数据，节拍数据用于指示该多媒体文件的节奏信息。

在一个示意性的例子中，终端在9:00时开始播放音乐文件1，启动内置的运动传感器开始采集用户的运动数据，在9:03时终端结束播放音乐文件1，将从9:00至9:03采集到的运动数据确定为目标对象的运动数据，并从音乐文件1的音乐数据中提取节拍数据。

步骤302，根据运动数据和节拍数据，采用分数预测模型得到多媒体文件的评定分数，分数预测模型用于表示基于历史运动数据和历史节拍数据训练得到的相似程度。

终端获取分数预测模型，根据运动数据和节拍数据，采用分数预测模型得到多媒体文件的评定分数。其中，分数预测模型为第一分数预测模型或者第二分数预测模型。

可选的，终端中存储有第一分数预测模型，该第一分数预测模型是根据至少一组历史数据组训练得到的，每组历史数据组包括：历史运动数据、历史节拍数据和历史相似度分数，历史相似度分数为预先计算的用于表示历史运动数据和历史节拍数据之间的相似程度的分数。

其中，第一分数预测模型的训练过程可参考下面的实施例中的相关描述，在此先不介绍。

可选的，终端中存储有第二分数预测模型，第二分数预测模型是根据至少一组历史数据组训练得到的，每组历史数据组包括：历史运动数据、历史运动类型、历史节拍数据和历史相似度分数。

每组历史数据组中历史相似度分数是指通过对历史运动数据和历史节拍数据进行相似度计算得到的分数，或者预先设置的分数，该历史相似度分数用于表示历史运动数据和历史节拍数据之间的相似程度。

其中，第二分数预测模型的训练过程可类比参考下面的实施例中第一分数预测模型的训练过程，在此先不介绍。

需要说明的是，终端根据运动数据和节拍数据，采用分数预测模型得到多媒体文件的评定分数的过程可参考下面的实施例中的相关描述，在此先不介绍。

可选的，评定分数用于指示目标对象对多媒体文件的喜爱程度。评定分数与对多媒体文件的喜爱程度呈正相关关系，即评定分数越高，表示目标对象对多媒体文件的喜爱程度越高；评定分数越低，表示目标对象对多媒体文件的喜爱程度越低。

步骤303，当评定分数大于预定阈值时，将多媒体文件识别为目标文件，目标文件为符合目标对象的兴趣偏好的文件。

终端判断评定分数是否大于预定阈值，若大于预定阈值，则将多媒体文件识别为目标文件；若小于预定阈值，则将多媒体文件识别为非目标文件。

当评定分数大于预定阈值时，表示目标对象对多媒体文件的喜爱程度较高，确定该多媒体文件符合目标对象的兴趣偏好，将多媒体文件识别为目标文件。

可选的，当终端将多媒体文件识别为目标文件时，将第一标记添加至该目标文件中，该第一标记用于指示该目标文件是符合目标对象的兴趣偏好的文件。

可选的，当终端将多媒体文件识别为目标文件时，将目标文件添加至兴趣文件集合中，该兴趣文件集合是用于存储多个符合目标对象的兴趣偏好的文件的集合。

综上所述，本申请实施例通过获取目标对象的运动数据和多媒体文件的节拍数据，根据运动数据和节拍数据，采用分数预测模型得到多媒体文件的评定分数，当评定分数大于预定阈值时，将多媒体文件识别为目标文件；使得能够通过目标对象的运动数据和节拍数据的相似程度得到评定分数，进而使得终端能够基于该评定分数，自动识别出该多媒体文件是否为符合用户兴趣偏好的目标文件，避免了繁琐的手动操作，提高了对多媒体文件的识别效率。

需要说明的是，在终端获取分数预测模型之前，终端需要对历史运动数据和历史节拍数据进行训练得到分数预测模型。可选的，分数预测模型包括第一分数预测模型或者第二分数预测模型。

可选的，第一分数预测模型的训练过程包括：终端获取训练样本集，训练样本集包括至少一组历史数据组，根据至少一组历史数据组，采用误差反向传播算法对原始参数模型进行训练，得到第一分数预测模型。

其中，每组历史数据组包括：历史运动数据、历史节拍数据和历史相似度分数。每组历史数据组中的历史运动数据和历史节拍数据为同一时间段对应的数据。

可选的，第二分数预测模型的训练过程包括：终端获取训练样本集，训练样本集包括至少一组历史数据组，根据至少一组历史数据组采用误差反向传播算法对原始参数模型进行训练，得到第二分数预测模型。

其中，每组历史数据组包括：历史运动数据、历史运动类型、历史节拍数据和历史相似度分数。运动类型包括步行、骑行、跑步和跳舞中的一种。

下面，仅以分数预测模型为第一分数预测模型为例进行说明。第二分数预测模型的训练过程可类比参考第一分数预测模型的训练过程，在此不再赘述。

示意性的，终端根据至少一组历史数据组，采用误差反向传播算法对原始参数模型进行训练，得到第一分数预测模型，包括但不限于以下几个步骤，请参考图4：

步骤401，对于至少一组历史数据组中的每组历史数据组，从历史运动数据中提取历史运动特征，并从历史节拍数据中提取历史节拍特征。

需要说明的是，终端从历史运动数据中提取历史运动特征，并从历史节拍数据中提取历史节拍特征的过程可类比参考下面实施例中从运动数据中提取运动特征，并从节拍数据中提取节拍特征的相关细节。在此暂不介绍。

步骤402，将历史运动特征和历史节拍特征输入原始参数模型，得到训练结果。

终端将历史运动特征和历史节拍特征输入原始参数模型，得到训练结果。

可选的，原始参数模型是根据神经网络模型建立的，比如：原始参数模型是根据DNN模型或者RNN模型建立的。

示意性的，对于每组历史数据组，终端创建该组历史数据组对应的输入输出对，输入输出对的输入参数为该组历史数据组中的历史运动特征和历史节拍特征，输出参数为该组历史数据组中的历史相似度分数；终端将输入参数输入预测模型，得到训练结果。

比如，历史运动特征为“运动特征1”，历史节拍特征“节拍特征1”，历史相似度分数为“评分标识1”，终端创建的输入输出对为：(运动特征1，节拍特征1)->(评分标识1)；其中，(运动特征1，节拍特征1)为输入参数，(评分标识1)为输出参数。

可选的，输入输出对通过特征向量表示。

步骤403，将训练结果与历史相似度分数进行比较，得到计算损失，计算损失用于指示训练结果与历史相似度分数之间的误差。

可选地，计算损失通过交叉熵(cross-entropy)来表示，

可选地，终端通过下述公式计算得到计算损失H(p，q)：

其中，p(x)和q(x)是长度相等的离散分布向量，p(x)表示表示训练结果；q(x)表示输出参数；x为训练结果或输出参数中的一个向量。

步骤404，根据至少一组历史数据组各自对应的计算损失，采用误差反向传播算法训练得到第一分数预测模型。

可选地，终端通过反向传播算法根据计算损失确定第一分数预测模型的梯度方向，从第一分数预测模型的输出层逐层向前更新第一分数预测模型中的模型参数。

示意性的，如图5所示，终端训练得到第一分数预测模型的过程包括：终端获取训练样本集，该训练样本集包括至少一组历史数据组，每组数据组包括：历史运动数据、历史节拍数据和历史相似度分数。对于每组历史数据组，终端将历史运动数据和历史节拍数据输入至原始参数模型，输出得到训练结果，将训练结果与历史相似度分数进行比较，得到计算损失，根据至少一组历史数据组各自对应的计算损失，采用误差反向传播算法训练得到第一分数预测模型。在训练得到的第一分数预测模型之后，用户终端将训练得到的第一分数预测模型进行存储。在终端播放多媒体文件的过程中，终端获取目标对象的运动数据，当终端结束播放多媒体文件时获取该多媒体文件的节拍数据，终端根据目标对象的运动数据和多媒体文件的节拍数据，采用训练好的第一分数预测模型输出得到多媒体文件的评定分数。

基于上述训练得到第一分数预测模型，请参考图6，其示出了本申请一个实施例提供的多媒体文件的识别方法的流程图。本实施例以该多媒体文件的识别方法应用于图1或者图2所示出的终端100中来举例说明。该多媒体文件的识别方法包括：

步骤601，获取目标对象的运动数据和多媒体文件的节拍数据。

终端获取到在多媒体文件的播放过程中所采集的目标对象的运动数据。终端获取在多媒体文件结束播放后该多媒体文件的节拍数据。终端获取运动数据和节拍数据的过程可参考上述实施例中的相关描述，在此不再赘述。

步骤602，从运动数据中提取运动特征，并从节拍数据中提取节拍特征。

终端从运动数据中提取运动特征，并从节拍数据中提取节拍特征。

可选的，终端获取到的运动数据为波形数据，从该波形数据中提取运动特征，运动特征包括加速度的平均值、均方根、标准差、偏度，峰度系数和波峰因数中的至少一个特征。

可选的，终端从节拍数据中提取节拍特征，节拍特征包括节拍数、节拍类型和节拍频率中的至少一种。节拍特征用于指示该节拍数据的强拍和弱拍的组合规律。

步骤603，获取第一分数预测模型。

终端获取上述训练得到的第一分数预测模型。第一分数预测模型的训练过程可参考上述实施例中的相关描述，在此不再赘述。

步骤604，将运动特征和节拍特征输入至第一分数预测模型，得到多媒体文件的评定分数。

可选的，终端根据运动数据和节拍数据，采用上述训练得到的第一分数预测模型得到多媒体文件的评定信息，该评定信息包括多媒体文件的评定分数或者评分标识，该评分标识用于指示该多媒体文件的评定分数或者评分范围。

可选的，当评分标识用于指示该多媒体文件的评定分数时，终端中存储有多媒体文件的评分标识与评定分数之间的对应关系。或者，当评分标识用于指示该多媒体文件的评分范围时，终端中存储有多媒体文件的评分标识与评分范围之间的对应关系。

其中，评定分数范围包括第一评分范围和除了第一评分范围之外的n个其它评分范围，第一评分范围用于指示目标对象对多媒体文件的喜爱程度高于第二预定阈值。

示意性的，终端中存储的多媒体文件的评分标识与评分范围之间的对应关系如表一所示。在表一中，评分标识为“0”时，对应的评分范围为[0，5)；评分标识为“1”时，对应的评分范围为[5，8)；评分标识为“2”时，对应的评分范围为[8，10]。

表一

评分标识	评分范围
		0	[0，5)
1	[5，8)
		2	[8，10]

需要说明的是，本实施例仅以评定信息包括多媒体文件的评定分数为例进行说明。当评定信息包括多媒体文件的评分标识时可类比参考评定信息包括多媒体文件的评定分数的相关描述。

步骤605，当评定分数大于预定阈值时，将多媒体文件识别为目标文件，目标文件为符合目标对象的兴趣偏好的文件。

可选的，终端在将多媒体文件识别为目标文件之后，确定需要推荐的候选多媒体文件，并在该多媒体文件播放结束后，开始播放需要推荐的候选多媒体文件。

在一种可能的实现方式中，多媒体文件为音乐文件，终端获取音乐库中的n个候选音乐文件各自对应的类型标识，根据目标文件的类型标识，在n个候选音乐文件中筛选出m个相似音乐文件，在目标文件播放结束后，开始播放相似音乐文件。其中，相似音乐文件是类型标识与目标文件的类型标识相匹配的候选音乐文件，n和m均为正整数。

可选的，终端在目标文件播放结束后，开始播放相似音乐文件，包括：终端在目标文件播放结束后，开始播放m个相似音乐文件中的任意一个相似音乐文件。

可选的，音乐库中的每个候选音乐文件携带有类型标识，类型标识用于指示候选音乐文件的音乐类型。在一种可能的实现方式中，类型标识与音乐类型的对应关系如表二所示。

表二

类型标识	音乐类型
		0	古典音乐
1	流行音乐
		2	摇滚音乐
3	爵士音乐
		4	蓝调音乐

在一个示意性的例子中，目标文件的类型标识“2”，终端获取音乐库中的50个候选音乐文件各自对应的类型标识，在50个候选音乐文件中查找到10个类型标识为“2”的候选音乐文件，将这10个候选音乐文件确定为与目标文件的类型标识相匹配的相似音乐文件，在目标文件播放结束后，开始播放10个相似音乐文件中的任意一个相似音乐文件。

需要说明的是，终端在确定出多媒体文件的评定分数后，可以将运动数据、节拍数据和评定分数添加至训练样本集，得到更新后的训练样本集；根据更新后的训练样本集对第一分数预测模型进行训练，得到更新后的第一分数预测模型。

可选的，终端将运动数据、节拍数据和评定分数添加至训练样本集，包括：将运动数据确定为历史运动数据，将节拍数据确定为历史节拍数据，将评定分数确定为历史相似度分数，将确定出的历史运动数据、历史节拍数据和历史相似度分数作为一组历史数据组添加至训练样本集。

其中，根据更新后的训练样本集对第一分数预测模型进行训练，得到更新后的第一分数预测模型的过程可类比参考上述实施例中第一分数预测模型的训练过程，在此不再赘述。

在本申请实施例中，还通过根据更新后的训练样本集对第一分数预测模型进行训练，得到更新后的第一分数预测模型，使得终端可以根据新的训练样本不断提高第一分数预测模型的精度，提高终端确定多媒体文件的评定信息的准确性。

需要说明的是，分数预测模型还可以是第二分数预测模型，基于上述训练得到第二分数预测模型，上述步骤603和步骤604可被替换实现成为如下几个步骤，请参考图7：

步骤701，对运动数据进行分析，得到运动数据对应的属性值，属性值用于指示目标对象的运动类型。

可选的，终端中存储有运动参数模型，终端将运动数据输入至运动参数模型中，得到运动数据对应的属性值，根据存储的属性值与运动类型的对应关系，确定与该属性值对应的运动类型。

可选的，属性值与运动类型的对应关系如表三所示。在表三中，运动类型包括4类，分别为步行、骑行、跑步和跳舞，运动类型为“步行”时对应的属性值为“0”，运动状态为“骑行”时对应的属性值为“1”，运动状态为“跑步”时对应的属性值为“2”，运动状态为“跳舞”时对应的属性值为“3”。

表三

属性值	运动类型
		0	步行
1	骑行
		2	跑步
3	跳舞

基于表三提供的属性值与运动状态的对应关系，在一个示意性的例子中，终端将运动特征输入至运动参数模型中，得到属性值“2”，终端根据该属性值“2”确定对应的运动类型为“跑步”。

步骤702，获取第二分数预测模型，第二分数预测模型是根据至少一组历史数据组训练得到的，每组历史数据组包括：历史运动数据、历史运动类型、历史节拍数据和历史相似度分数。

终端获取上述训练得到的第二分数预测模型。第二分数预测模型的训练过程可类比参考上述实施例中第一分数预测模型的相关描述，在此不再赘述。

步骤703，将运动特征、属性值和节拍特征输入至第二分数预测模型，得到多媒体文件的评定分数。

终端将运动特征、属性值和节拍特征输入至第二分数预测模型，得到多媒体文件的评定分数。

可选的，当终端对运动数据进行分析得到运动数据对应的属性值时，终端确定属性值所指示的运动类型，根据预设对应关系，确定与目标对象的运动类型对应的目标多媒体文件集合，在目标文件播放结束后，开始播放目标多媒体文件集合中的候选多媒体文件。其中，预设对应关系包括运动类型与多媒体文件集合之间的对应关系，多媒体文件集合中包括至少一个候选多媒体文件。

其中，预设对应关系可以是终端默认设置的，也可以是用户自定义设置的。本实施例对比不加以限定。

可选的，终端中存储有运动类型与多媒体文件集合之间的对应关系，或者运动类型对应的属性值与多媒体文件集合之间的对应关系。

不同的运动类型各自对应的多媒体文件集合均不存在交集，或者至少两个运动类型各自对应的多媒体文件集合存在交集。本实施例对此不加以限定。

可选的，多媒体文件集合也称为音乐文件集合，每个运动类型对应的音乐文件集合中包括至少两个候选音乐文件，至少两个候选音乐文件的音乐类型均相同，或者存在至少两个候选音乐文件的音乐类型是相同的。

示意性的，运动类型与多媒体文件集合之间的对应关系如表四所示。在表四中，当运动类型为“步行”时，对应的多媒体文件集合为“多媒体文件集合0”；当运动类型为“骑行”时，对应的多媒体文件集合为“多媒体文件集合1”；当运动类型为“跑步”时，对应的多媒体文件集合为“多媒体文件集合2”；当运动类型为“跳舞”时，对应的多媒体文件集合为“多媒体文件集合3”。

表四

运动类型	多媒体文件集合
		步行	多媒体文件集合0
骑行	多媒体文件集合1
		跑步	多媒体文件集合2
跳舞	多媒体文件集合3

示意性的，基于表四提供的对应关系，目标对象的运动类型为“跑步”，终端根据预设对应关系，确定与运动类型“跑步”对应的目标多媒体文件集合“多媒体文件集合2”，在目标文件播放结束后，开始播放“多媒体文件集合2”中的任意一个候选多媒体文件。

在本申请实施例中，还通过根据预设对应关系，确定与运动类型对应的目标多媒体文件集合，在目标文件播放结束后，开始播放目标多媒体文件集合中的候选多媒体文件；使得若用户在播放目标文件时处于运动状态，则终端能够在目标文件播放结束后向用户推荐并开始播放与该运动类型对应的多媒体文件，进而使得后续播放的多媒体文件满足用户的个性化需求。

在一个示意性的例子中，如图8所示，终端82在播放音乐文件1的过程中采集用户的运动数据，在结束播放音乐文件1时获取运动数据1和音乐文件1的节拍数据1，从运动数据1中提取运动特征1，并对运动数据1进行分析得到运动类型对应的属性值为“2”，该属性值“2”用于指示用户的运动类型为“跑步”，从节拍数据1中提取节拍特征1。终端82将运动特征1、属性值“2”和节拍特征1输入至分数预测模型中，输出得到音乐文件1的评定分数，终端82判断评定分数是否大于预定阈值，若评定分数大于预定阈值，则将多媒体文件识别为用户所喜爱的文件。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图9，其示出了本申请一个实施例提供的多媒体文件的识别装置的结构示意图。该多媒体文件的识别装置可以通过专用硬件电路，或者，软硬件的结合实现成为图1或图2中的终端100的全部或一部分，该多媒体文件的识别装置包括：获取模块910、评分模块920和识别模块930。

获取模块910，用于获取目标对象的运动数据和多媒体文件的节拍数据，运动数据是在播放多媒体文件的过程中采集到的运动数据；

评分模块920，用于根据运动数据和节拍数据，采用分数预测模型得到多媒体文件的评定分数，分数预测模型用于表示基于历史运动数据和历史节拍数据训练得到的相似程度；

识别模块930，用于当评定分数大于预定阈值时，将多媒体文件识别为目标文件，目标文件为符合目标对象的兴趣偏好的文件。

可选的，评分模块920，包括：第一提取单元、第一获取单元和第一输入单元。

第一提取单元，用于从运动数据中提取运动特征，并从节拍数据中提取节拍特征；

第一获取单元，用于获取第一分数预测模型；

第一输入单元，用于将运动特征和节拍特征输入至第一分数预测模型，得到多媒体文件的评定分数；

其中，第一分数预测模型是根据至少一组历史数据组训练得到的，每组历史数据组包括：历史运动数据、历史节拍数据和历史相似度分数，历史相似度分数为预先计算的用于表示历史运动数据和历史节拍数据之间的相似程度的分数。

可选的，获取单元，还用于获取训练样本集，训练样本集包括至少一组历史数据组，每组历史数据组包括：历史运动数据、历史节拍数据和历史相似度分数，历史相似度分数为预先计算的用于表示历史运动数据和历史节拍数据之间的相似程度的分数；根据至少一组历史数据组，采用误差反向传播算法对原始参数模型进行训练，得到第一分数预测模型。

可选的，获取单元，还用于对于至少一组历史数据组中的每组历史数据组，从历史运动数据中提取历史运动特征，并从历史节拍数据中提取历史节拍特征；

将历史运动特征和历史节拍特征输入原始参数模型，得到训练结果；将训练结果与历史相似度分数进行比较，得到计算损失，计算损失用于指示训练结果与历史相似度分数之间的误差；根据至少一组历史数据组各自对应的计算损失，采用误差反向传播算法训练得到第一分数预测模型。

可选的，该装置还包括：更新模块，用于将运动数据、节拍数据和评定分数添加至训练样本集，得到更新后的训练样本集；根据更新后的训练样本集对第一分数预测模型进行训练，得到更新后的第一分数预测模型。

可选的，评分模块920，包括：第二提取单元、分析单元、第二获取单元和第二输入单元。

第二提取单元，用于从运动数据中提取运动特征，并从节拍数据中提取节拍特征；

分析单元，用于对运动数据进行分析，得到运动数据对应的属性值，属性值用于指示目标对象的运动类型，运动类型包括步行、骑行、跑步和跳舞中的一种；

第二获取单元，用于获取第二分数预测模型，第二分数预测模型是根据至少一组历史数据组训练得到的，每组历史数据组包括：历史运动数据、历史运动类型、历史节拍数据和历史相似度分数，历史相似度分数为预先计算的用于表示历史运动数据和历史节拍数据之间的相似程度的分数；

第二输入单元，用于将运动特征、属性值和节拍特征输入至第二分数预测模型，得到多媒体文件的评定分数。

可选的，该装置还包括：第一播放模块，该第一播放模块，用于根据预设对应关系，确定与运动类型对应的目标多媒体文件集合，预设对应关系包括运动类型与多媒体文件集合之间的对应关系，多媒体文件集合中包括至少一个候选多媒体文件；在目标文件播放结束后，开始播放目标多媒体文件集合中的候选多媒体文件。

可选的，多媒体文件为音乐文件，该装置还包括：第一播放模块，该第一播放模块，用于获取音乐库中的n个候选音乐文件各自对应的类型标识，类型标识用于指示候选音乐文件的音乐类型；根据目标文件的类型标识，在n个候选音乐文件中筛选出m个相似音乐文件，相似音乐文件是类型标识与目标文件的类型标识相匹配的候选音乐文件，n和m均为正整数；在目标文件播放结束后，开始播放相似音乐文件。

相关细节可结合参考图3至图8所示的方法实施例。其中，获取模块910还用于实现上述方法实施例中其他任意隐含或公开的与获取步骤相关的功能；评分模块920还用于实现上述方法实施例中其他任意隐含或公开的与评分步骤相关的功能；识别模块930还用于实现上述方法实施例中其他任意隐含或公开的与识别步骤相关的功能。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请还提供一种计算机可读介质，其上存储有程序指令，程序指令被处理器执行时实现上述各个方法实施例提供的多媒体文件的识别方法。

本申请还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各个实施例所述的多媒体文件的识别方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种多媒体文件的识别方法，其特征在于，所述方法包括：

获取目标对象的运动数据和多媒体文件的节拍数据，所述运动数据是在播放所述多媒体文件的过程中采集到的运动数据，所述节拍数据用于指示所述多媒体文件的节奏信息；

当所述评定分数大于预定阈值时，将所述多媒体文件识别为目标文件，所述目标文件为符合所述目标对象的兴趣偏好的文件；

其中，根据所述运动数据和所述节拍数据，采用分数预测模型得到所述多媒体文件的评定分数，包括：

从所述运动数据中提取运动特征，并从所述节拍数据中提取节拍特征；

获取第一分数预测模型；

将所述运动特征和所述节拍特征输入至所述第一分数预测模型，得到所述多媒体文件的评定分数；

其中，所述第一分数预测模型是根据至少一组历史数据组训练得到的，每组所述历史数据组包括：历史运动数据、历史节拍数据和历史相似度分数，所述历史相似度分数为预先计算的用于表示所述历史运动数据和所述历史节拍数据之间的相似程度的分数。

2.根据权利要求1所述的方法，其特征在于，所述获取第一分数预测模型，包括：

获取训练样本集，所述训练样本集包括至少一组历史数据组，每组所述历史数据组包括：历史运动数据、历史节拍数据和历史相似度分数，所述历史相似度分数为预先计算的用于表示所述历史运动数据和所述历史节拍数据之间的相似程度的分数；

根据所述至少一组历史数据组，采用误差反向传播算法对原始参数模型进行训练，得到所述第一分数预测模型。

3.根据权利要求2所述的方法，其特征在于，所述根据所述至少一组历史数据组，采用误差反向传播算法对原始参数模型进行训练，得到所述第一分数预测模型，包括：

对于所述至少一组历史数据组中的每组历史数据组，从所述历史运动数据中提取所述历史运动特征，并从所述历史节拍数据中提取所述历史节拍特征；

将所述历史运动特征和所述历史节拍特征输入所述原始参数模型，得到训练结果；

将所述训练结果与所述历史相似度分数进行比较，得到计算损失，所述计算损失用于指示所述训练结果与所述历史相似度分数之间的误差；

根据所述至少一组历史数据组各自对应的计算损失，采用所述误差反向传播算法训练得到所述第一分数预测模型。

4.根据权利要求1所述的方法，其特征在于，所述方法，还包括：

将所述运动数据、所述节拍数据和所述评定分数添加至所述训练样本集，得到更新后的训练样本集；

根据所述更新后的训练样本集对所述第一分数预测模型进行训练，得到更新后的第一分数预测模型。

5.根据权利要求1所述的方法，其特征在于，所述根据所述运动数据和所述节拍数据，采用分数预测模型得到所述多媒体文件的评定分数，包括：

对所述运动数据进行分析，得到所述运动数据对应的属性值，所述属性值用于指示所述目标对象的运动类型，所述运动类型包括步行、骑行、跑步和跳舞中的一种；

获取第二分数预测模型，所述第二分数预测模型是根据至少一组历史数据组训练得到的，每组所述历史数据组包括：历史运动数据、历史运动类型、历史节拍数据和历史相似度分数，所述历史相似度分数为预先计算的用于表示所述历史运动数据和历史节拍数据之间的相似程度的分数；

将所述运动特征、所述属性值和所述节拍特征输入至所述第二分数预测模型，得到所述多媒体文件的评定分数。

6.根据权利要求5所述的方法，其特征在于，所述方法，还包括：

根据预设对应关系，确定与所述运动类型对应的目标多媒体文件集合，所述预设对应关系包括所述运动类型与所述多媒体文件集合之间的对应关系，所述多媒体文件集合中包括至少一个候选多媒体文件；

在所述目标文件播放结束后，开始播放所述目标多媒体文件集合中的候选多媒体文件。

7.根据权利要求1至6任一所述的方法，其特征在于，所述多媒体文件为音乐文件，所述方法，还包括：

获取音乐库中的n个候选音乐文件各自对应的类型标识，所述类型标识用于指示所述候选音乐文件的音乐类型；

根据所述目标文件的类型标识，在所述n个候选音乐文件中筛选出m个相似音乐文件，所述相似音乐文件是类型标识与所述目标文件的类型标识相匹配的候选音乐文件，n和m均为正整数；

在所述目标文件播放结束后，开始播放所述相似音乐文件。

8.一种多媒体文件的识别装置，其特征在于，所述装置包括：

获取模块，用于获取目标对象的运动数据和多媒体文件的节拍数据，所述运动数据是在播放所述多媒体文件的过程中采集到的运动数据，所述节拍数据用于指示所述多媒体文件的节奏信息；

识别模块，用于当所述评定分数大于预定阈值时，将所述多媒体文件识别为目标文件，所述目标文件为符合所述目标对象的兴趣偏好的文件；

所述评分模块，包括第一提取单元、第一获取单元和第一输入单元；

所述第一提取单元，用于从所述运动数据中提取运动特征，并从所述节拍数据中提取节拍特征获取第一分数预测模型；

所述第一获取单元，用于将所述运动特征和所述节拍特征输入至所述第一分数预测模型，得到所述多媒体文件的评定分数；

所述第一输入单元，用于；其中，第一分数预测模型是根据至少一组历史数据组训练得到的，每组历史数据组包括：历史运动数据、历史节拍数据和历史相似度分数，历史相似度分数为预先计算的用于表示历史运动数据和历史节拍数据之间的相似程度的分数。

9.一种终端，其特征在于，所述终端包括处理器、与所述处理器相连的存储器，以及存储在所述存储器上的程序指令，所述处理器执行所述程序指令时实现如权利要求1至7任一所述的多媒体文件的识别方法。

10.一种计算机可读存储介质，其特征在于，其上存储有程序指令，所述程序指令被处理器执行时实现如权利要求1至7任一所述的多媒体文件的识别方法。