CN110070891A

CN110070891A - 一种歌曲识别方法、装置以及存储介质

Info

Publication number: CN110070891A
Application number: CN201910293209.4A
Authority: CN
Inventors: 黄安麒; 李深远; 董治
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2019-04-12
Filing date: 2019-04-12
Publication date: 2019-07-30
Anticipated expiration: 2039-04-12
Also published as: CN110070891B

Abstract

本申请实施例公开了一种歌曲识别方法、装置以及存储介质，其中，本申请实施例获取歌曲的至少一个多媒体数据，根据多媒体数据，获取多媒体数据的特征矩阵，从多媒体数据的特征矩阵中选取出若干歌曲片段对应的子特征矩阵，基于歌曲识别网络模型和子特征矩阵对歌曲片段进行识别，得到子特征矩阵的片段类型标识，基于子特征矩阵对应的片段类型标识，获取歌曲中参考时间点对应的可信度，根据参考时间点对应的可信度，从参考时间点中选择目标片段类型的歌曲片段所对应的起止时间点，该方案采用深度学习网络模型对歌曲进行识别，无需依赖人工对于歌曲进行识别，减少了人工工作量，可以提高歌曲识别效率。

Description

一种歌曲识别方法、装置以及存储介质

技术领域

本申请涉及歌曲识别技术领域，具体涉及一种歌曲识别方法、装置以及存储介质。

背景技术

音乐已经成为人们娱乐生活的重要组成部分，在音乐试听、音乐榜单、音乐合辑、背景音乐播放等场景下，人们往往会直接播放歌曲的精彩片段。

目前识别音乐精彩片段的方式主要是通过分析音乐文件，识别出音乐文件中音量和音高上扬的部分，之后基于歌词和时间的关系数据，将该部分的起止时间人工标记为音乐精彩片段的起止时间。

由于目前识别音乐精彩片段的方式依赖于人工，比如，需要人工整理歌词和时间的关系数据，并且需要人工标记起止时间，因此，会导致音乐精彩片段的识别效率较低。

发明内容

本申请实施例提供了一种歌曲识别方法、装置以及存储介质，可以提高歌曲识别的效率。

第一方面，本申请实施例提供了一种歌曲识别方法，包括：

获取歌曲的至少一个多媒体数据；

根据所述多媒体数据，获取所述多媒体数据的特征矩阵；

从所述多媒体数据的特征矩阵中选取出若干歌曲片段对应的子特征矩阵；

基于歌曲识别网络模型和所述子特征矩阵对所述歌曲片段进行识别，得到所述子特征矩阵的片段类型标识；

基于所述子特征矩阵对应的片段类型标识，获取歌曲中参考时间点对应的可信度；

根据所述参考时间点对应的可信度，从参考时间点中选择目标片段类型的歌曲片段所对应的起止时间点。

第二方面，本申请实施例提供了一种歌曲识别装置，包括：

数据获取模块，用于获取歌曲的至少一个多媒体数据；

矩阵获取模块，用于根据所述多媒体数据，获取所述多媒体数据的特征矩阵；

选取模块，用于从所述多媒体数据的特征矩阵中选取出若干歌曲片段对应的子特征矩阵；

识别模块，用于基于歌曲识别网络模型和所述子特征矩阵对所述歌曲片段进行识别，得到所述子特征矩阵的片段类型标识；

可信度获取模块，用于基于所述子特征矩阵对应的片段类型标识，获取歌曲中参考时间点对应的可信度；

时间点选择模块，用于根据所述参考时间点对应的可信度，从参考时间点中选择目标片段类型的歌曲片段所对应的起止时间点。

第三方面，本申请实施例提供的存储介质，其上存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如本申请任一实施例提供的歌曲识别方法。

本申请实施例公开了一种歌曲识别方法、装置以及存储介质，其中，本申请实施例获取歌曲的至少一个多媒体数据，根据多媒体数据，获取多媒体数据的特征矩阵，从多媒体数据的特征矩阵中选取出若干歌曲片段对应的子特征矩阵，基于歌曲识别网络模型和子特征矩阵对歌曲片段进行识别，得到子特征矩阵的片段类型标识，基于子特征矩阵对应的片段类型标识，获取歌曲中参考时间点对应的可信度，根据参考时间点对应的可信度，从参考时间点中选择目标片段类型的歌曲片段所对应的起止时间点，由于方案采用深度学习网络模型对歌曲进行识别，无需依赖人工对于歌曲进行识别，减少了人工工作量，提高了歌曲识别效率；同时，由于方案基于歌曲对应的多个音频文件和多个视频文件，对歌曲进行识别，从而提高了识别结果的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的歌曲识别方法的应用场景示意图。

图2是本申请实施例提供的歌曲识别方法的第一流程示意图。

图3是本申请实施例提供的歌曲识别方法的第二流程示意图。

图4是本申请实施例提供的歌曲识别装置的第一结构示意图。

图5是本申请实施例提供的歌曲识别装置的第二结构示意图。

图6是本申请实施例提供的歌曲识别装置的第三结构示意图。

图7是本申请实施例提供的歌曲识别装置的第四结构示意图。

图8是本申请实施例提供的网络设备的结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

在以下的说明中，本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明，除非另有述明。因此，这些步骤及操作将有数次提到由计算机执行，本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处，其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置，其具有由该数据格式所定义的特定特性。但是，本申请原理以上述文字来说明，其并不代表为一种限制，本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。

本文所使用的术语“模块”可看做为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法可以以软件的方式进行实施，当然也可在硬件上进行实施，均在本申请保护范围之内。

本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块，而是某些实施例还包括没有列出的步骤或模块，或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例提供一种歌曲识别方法，该歌曲识别方法的执行主体可以是本申请实施例提供的歌曲识别装置，或者集成了该歌曲识别装置的网络设备，其中该歌曲识别装置可以采用硬件或者软件的方式实现。其中，网络设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。

请参阅图1，图1是本申请实施例提供的歌曲识别方法的应用场景示意图，以歌曲识别装置集成在网络设备中为例，网络设备可以获取歌曲的至少一个多媒体数据，根据多媒体数据，获取多媒体数据的特征矩阵，从多媒体数据的特征矩阵中选取出若干歌曲片段对应的子特征矩阵，基于歌曲识别网络模型和子特征矩阵对歌曲片段进行识别，得到子特征矩阵的片段类型标识，基于子特征矩阵对应的片段类型标识，获取歌曲中参考时间点对应的可信度，根据参考时间点对应的可信度，从参考时间点中选择目标片段类型的歌曲片段所对应的起止时间点。

请参阅图2，图2是本申请实施例提供的歌曲识别方法的第一流程示意图。本申请实施例提供的歌曲识别方法的具体流程可以如下：

201、获取歌曲的至少一个多媒体数据；

其中，歌曲包括记录音乐的文件，可以有多种格式。多媒体数据为数字化的声音数据或者视频数据，比如，可以将音频文件或者视频文件进行模数转换得到的数据称为多媒体数据。

其中，歌曲可以对应多个多媒体文件，比如，一首歌曲可以对应该歌曲的音频文件，也可以对应该歌曲的mv(Music Video，音乐短片)等等。获取多媒体文件的方式可以有多种，比如，可以通过本地获取多媒体文件、从网络设备获取多媒体文件、利用多媒体处理软件捕获截取多媒体文件，或者通过麦克风或者摄像设备录制多媒体文件。获取到多媒体文件后，可以对多媒体文件进行模数转换，得到多媒体数据。

202、根据多媒体数据，获取多媒体数据的特征矩阵。

其中，多媒体数据的特征矩阵为描述多媒体文件特征的矩阵，比如，对于音频文件而言，每个时间点都会对应一个向量，将所有时间点对应的向量按照时间顺序进行排列，会得到一个矩阵，该矩阵即为音频数据的特征矩阵；对于视频文件而言，每个时间点会对应一帧图像，每个图像对应一个矩阵，将所有时间点对应的矩阵按照时间顺序进行排列，会得到一个矩阵，该矩阵即为视频数据的特征矩阵。

其中，根据多媒体数据，获取多媒体数据的特征矩阵的方式可以有多种，对于音频数据而言，比如，可以通过傅里叶变换的方式获取音频数据的特征矩阵，也就是通过傅里叶变换的方式，将音频数据的时域信号转变为频域信号，然后可以用矩阵的形式进行表示。

在一实施例中，还可以通过常数Q变换的方式获取音频数据的特征矩阵，常数Q变换与傅里叶变换类似，将音频数据的时域信号转变为频域信号，并用矩阵的形式进行表示，但是常数Q变换在频率轴为对数标度而不是线性标度，且窗口长度会随着频率而改变。

在一实施例中，还可以通过梅尔频率倒谱系数的方式获取音频数据的特征矩阵，比如，可以先对音频数据进行预加重、分帧和加窗，之后对每一个短时分析窗，通过FFT(Fast Fourier Transformation，快速傅氏变换)得到对应的频谱，然后将上面得到的频谱通过Mel(梅尔)滤波器组得到Mel频谱，然后在Mel频谱上面进行倒谱分析(取对数，做逆变换)，获得Mel频率倒谱系数MFCC(梅尔频率倒谱系数)，这个MFCC就是该音频数据的特征，最后通过一系列的倒谱向量(每个向量为每帧的MFCC特征向量)描述音频文件，从而获取到音频数据的特征矩阵。

在一实施例中，还可以通过神经网络等机器学习算法获取音频数据的特征矩阵，比如，可以预先获取音频数据、以及音频数据对应的特征矩阵作为样本对神经网络进行训练，得到训练后的神经网络，然后对未识别的音频数据进行识别，获取音频数据对应的特征矩阵。

其中，根据多媒体数据，获取多媒体数据的特征矩阵的方式可以有多种，对于视频数据而言，比如，可以通过卷积神经网络获取视频数据的特征矩阵，由于视频文件包括多帧图像，视频文件中一帧图像的特征矩阵可以通过将该帧图像输入卷积神经网络中，提取隐藏层，从而获取到视频文件中一帧图像的特征矩阵，之后将视频文件中多帧图像对应的特征矩阵按时间排列起来，从而得到视频数据的特征矩阵。

在一实施例中，比如，还可以通过使用视频文件中一帧图像与前一帧图像的差值图，将该差值图输入卷积神经网络中，提取隐藏层，从而获取到视频数据的特征矩阵。

在一实施例中，比如，还可以通过使用视频文件中一帧图像与预设时长(比如1秒)的前一帧图像的差值图，将差值图输入卷积神经网络中，提取隐藏层，从而获取到视频数据的特征矩阵。

203、从多媒体数据的特征矩阵中选取出若干歌曲片段对应的子特征矩阵。

其中，子特征矩阵为多媒体数据的特征矩阵中的一部分矩阵，代表歌曲中的歌曲片段所对应的矩阵。在实际应用中，从多媒体数据的特征矩阵中选取出若干歌曲片段对应的子特征矩阵，比如，多媒体数据的特征矩阵由歌曲每个时间点对应的向量组成，可以每相隔时长t₁，从多媒体数据的特征矩阵中截取出时长为t₂的子特征矩阵，则可以获取到若干个相隔时长t₁的子特征矩阵，该子特征矩阵对应时长为t₂的歌曲片段。

在一实施例中，还可以获取若干子特征矩阵的时间点，比如，可以将子特征矩阵对应时长的中心点时间作为子特征矩阵的时间点。

204、基于歌曲识别网络模型和子特征矩阵对歌曲片段进行识别，得到子特征矩阵的片段类型标识。

其中，歌曲识别网络模型可以为深度学习神经网络模型，比如，可以为卷积神经网络模型(Convolutional Neural Networks，CNN)、SVM(Support Vector Machine，支持向量机)、Long Short-Term Memory(长短时间记忆网络，RNN)，等等。

其中，片段类型是指歌曲片段的类型，比如，可以为歌曲精彩片段等等，歌曲中情感最饱满、感染力最强的部分，为歌曲精彩片段。通过歌曲精彩片段的出现，使得听众对整首歌曲留有一个完满而深刻的印象。歌曲精彩片段可出现在歌曲的前部分，也可出现在中间，但绝大多数歌曲精彩片段布置在歌曲的最后部分。子特征矩阵的片段类型标识可以包括根据子特征矩阵的时间点与目标片段类型的歌曲片段(比如歌曲精彩片段等等)之间的关系，而对子特征矩阵进行标记，从而得到的标识。

在一实施例中，可以通过卷积神经网络模型对歌曲片段进行识别，得到子特征矩阵的片段类型标识，卷积神经网络模型(Convolutional Neural Networks,CNN)是一类包含卷积或相关计算且具有深度结构的前馈神经网络模型。卷积神经网络模型可以包括卷积层、池化层、全联接层等。比如，可以通过卷积神经网络模型中的卷积层提取子特征矩阵的特征，之后通过池化层进行特征选择和信息过滤，然后通过全联接层进行全联接运算，得到子特征矩阵的片段类型标识。

在一实施例中，可以通过SVM对歌曲片段进行识别，得到子特征矩阵的片段类型标识，SVM是一个有监督的学习模型，通常用来进行模式识别、分类以及回归分析。比如，可以通过训练好的权重系数对子特征矩阵信息进行分类，从而根据分类结果，识别出子特征矩阵的片段类型标识。

在一实施例中，可以通过Long Short-Term Memory对歌曲片段进行识别，得到子特征矩阵的片段类型标识，Long Short-Term Memory是一种时间递归神经网络模型(RNN)，Long Short-Term Memory适合于处理和预测时间序列中间隔和延迟非常长的重要事件。传统神经网络模型的一个主要缺点是——做不到信息的时序关联。递归神经网络模型(RNN)可以解决这一问题，它的网络结构中存在回环，使得之前的信息得以保留。比如，可以通过忘记门层确定丢弃信息，通过输入门层和tanh层确定更新信息，然后根据确定的丢弃信息和更新信息更新细胞状态，通过sigmoid层和tanh层输出信息，从而识别出子特征矩阵的片段类型标识。

其中，通过Long Short-Term Memory识别出的子特征矩阵的片段类型标识的准确率高于卷积神经网络模型和SVM，而卷积神经网络模型和SVM识别出的子特征矩阵的片段类型标识的计算耗时优于Long Short-Term Memory。

在一实施例中，具体地，步骤“基于歌曲识别网络模型和子特征矩阵对歌曲片段进行识别，得到子特征矩阵的片段类型标识”可以包括：

将所述子特征矩阵输入所述歌曲识别网络模型中，获取多媒体数据中子特征矩阵的片段类型标识；

根据所述多媒体数据中子特征矩阵的片段类型标识，确定歌曲中子特征矩阵的片段类型标识。

其中，歌曲可以对应多个多媒体文件，比如，一首歌曲可以对应该歌曲的音频文件，也可以对应该歌曲的mv(Music Video，音乐短片)等等。因此，歌曲可以对应多个多媒体数据，可以通过对歌曲对应的多个多媒体数据中子特征矩阵的片段类型标识进行综合，确定出歌曲中子特征矩阵的片段类型标识，从而提高获取歌曲中子特征矩阵的片段类型标识的准确性。

在一实施例中，比如，可以将歌曲对应的多个多媒体文件中子特征矩阵的片段类型标识进行综合，取多个多媒体文件中子特征矩阵的片段类型标识的中值或者均值或者最大值等等，作为歌曲中子特征矩阵的片段类型标识。

在一实施例中，比如，还可以将歌曲对应的多个视频文件中子特征矩阵的片段类型标识进行综合，取多个视频文件中子特征矩阵的片段类型标识的中值或者均值或者最大值等等，作为歌曲视频中子特征矩阵的片段类型标识，之后将歌曲视频中子特征矩阵的片段类型标识与音频文件中子特征矩阵的片段类型标识进行综合，得到歌曲中子特征矩阵的片段类型标识。

在一实施例中，比如，还可以将歌曲对应的多个音频文件中子特征矩阵的片段类型标识进行综合，取多个音频文件中子特征矩阵的片段类型标识的中值或者均值或者最大值等等，作为歌曲音频中子特征矩阵的片段类型标识，之后将歌曲音频中子特征矩阵的片段类型标识与视频文件中子特征矩阵的片段类型标识进行综合，得到歌曲中子特征矩阵的片段类型标识。

本申请实施例中，歌曲识别网络模型可以为利用样本多媒体数据对预设歌曲识别网络模型训练后的网络模型。歌曲识别方法还可以包括歌曲识别网络模型的训练过程；具体地，训练过程可以包括：

(1)获取已标注的样本多媒体数据、以及样本多媒体数据的样本特征矩阵。

其中，样本多媒体数据为数字化的样本声音数据或者样本视频数据，比如，可以将样本音频文件或者样本视频文件进行模数转换得到的数据称为样本多媒体数据。样本多媒体数据包括样本歌曲中目标片段类型的歌曲片段所对应的起止时间点，该样本歌曲中目标片段类型的歌曲片段所对应的起止时间点可以通过人工进行识别并进行标记，还可以通过深度学习网络方式进行标记，等等。

其中，样本多媒体数据的样本特征矩阵为描述样本多媒体文件特征的矩阵，比如，对于样本音频文件而言，每个时间点都会对应一个向量，将所有时间点对应的向量按照时间顺序进行排列，会得到一个矩阵，该矩阵即为样本音频数据的样本特征矩阵；对于样本视频文件而言，每个时间点会对应一帧图像，每个图像对应一个矩阵，将所有时间点对应的矩阵按照时间顺序进行排列，会得到一个矩阵，该矩阵即为样本视频数据的样本特征矩阵。

其中，根据样本多媒体数据，获取样本多媒体数据的样本特征矩阵的方式可以有多种，比如，可以通过傅里叶变换、常数Q变换、梅尔频率倒谱系数、神经网络等机器学习算法等方式获取样本多媒体数据的样本特征矩阵。

(2)从样本多媒体数据的样本特征矩阵中选取出若干样本歌曲片段对应的样本子特征矩阵。

其中，样本子特征矩阵为样本多媒体数据的样本特征矩阵中的一部分矩阵，代表样本歌曲中的样本歌曲片段所对应的矩阵。在实际应用中，从样本多媒体数据的样本特征矩阵中选取出若干样本歌曲片段对应的样本子特征矩阵，比如，样本多媒体数据的样本特征矩阵由样本歌曲每个时间点对应的向量组成，可以每相隔时长t₁，从样本多媒体数据的样本特征矩阵中截取出时长为t₂的样本子特征矩阵，则可以获取到若干个相隔时长t₁的样本子特征矩阵，该样本子特征矩阵对应时长为t₂的样本歌曲片段。

在一实施例中，还可以获取若干样本子特征矩阵的时间点，比如，可以将样本子特征矩阵对应时长的中心点时间作为样本子特征矩阵的时间点。

(3)根据样本子特征矩阵的时间点与样本歌曲中目标片段类型的歌曲片段所对应的起止时间点之间的关系，确定出样本子特征矩阵的片段类型标识。

其中，片段类型是指歌曲片段的类型，比如，可以为歌曲精彩片段等等，歌曲中情感最饱满、感染力最强的部分，为歌曲精彩片段。通过歌曲精彩片段的出现，使得听众对整首歌曲留有一个完满而深刻的印象。歌曲精彩片段可出现在歌曲的前部分，也可出现在中间，但绝大多数歌曲精彩片段布置在歌曲的最后部分。样本子特征矩阵的片段类型标识可以包括根据样本子特征矩阵的时间点与样本歌曲中目标片段类型的歌曲片段所对应的起止时间点(比如歌曲精彩片段等等)之间的关系，而对样本子特征矩阵进行标记，从而得到的标识。

在一实施例中，具体地，步骤“根据所述样本子特征矩阵的时间点与样本歌曲中目标片段类型的歌曲片段所对应的起止时间点之间的关系，确定出样本子特征矩阵的片段类型标识”可以包括：

当所述样本子特征矩阵的时间点在样本歌曲中目标片段类型的歌曲片段所对应的起始时间点之前，用第一片段类型标识对所述样本子特征矩阵进行标记；

当所述样本子特征矩阵的时间点在样本歌曲中目标片段类型的歌曲片段所对应的起止时间点之间，用第二片段类型标识对所述样本子特征矩阵进行标记；

当所述样本子特征矩阵的时间点在样本歌曲中目标片段类型的歌曲片段所对应的终止时间点之后，用第三片段类型标识对所述样本子特征矩阵进行标记。

在实际应用中，比如，可以用F表示片段类型标识，当样本子特征矩阵的时间点在样本歌曲中目标片段类型的歌曲片段所对应的起始时间点之前，可以使得F＝0；当样本子特征矩阵的时间点在样本歌曲中目标片段类型的歌曲片段所对应的起止时间点之间，可以使得F＝1；当样本子特征矩阵的时间点在样本歌曲中目标片段类型的歌曲片段所对应的终止时间点之后，可以使得F＝2。

在一实施例中，比如，还可以用F表示片段类型标识，当样本子特征矩阵的时间点不在样本歌曲中目标片段类型的歌曲片段所对应的起止时间点之间，可以使得F＝0；当样本子特征矩阵的时间点在样本歌曲中目标片段类型的歌曲片段所对应的起止时间点之间，可以使得F＝1。

(4)基于样本子特征矩阵、以及样本子特征矩阵的片段类型标识，对预设歌曲识别网络模型进行训练，得到歌曲识别网络模型。

其中，预设歌曲识别网络模型可以为深度学习神经网络模型，比如，可以为卷积神经网络模型(Convolutional Neural Networks，CNN)、SVM(Support Vector Machine，支持向量机)、Long Short-Term Memory(长短时间记忆网络，RNN)，等等。

其中，可以利用样本子特征矩阵和样本子特征矩阵的片段类型标识，来训练预设歌曲识别网络模型，比如，可以将这些样本子特征矩阵和样本子特征矩阵的片段类型标识，添加至该预设歌曲识别网络模型中，然后，便可以根据这些样本子特征矩阵和样本子特征矩阵的片段类型标识，对预设歌曲识别网络模型进行训练，得到歌曲识别网络模型。

具体地，步骤“基于所述样本子特征矩阵、以及所述样本子特征矩阵的片段类型标识，对预设歌曲识别网络模型进行训练，得到歌曲识别网络模型”可以包括：

将所述样本子特征矩阵输入预设歌曲识别网络模型中，得到预测片段类型标识；

根据所述预测片段类型标识和所述样本子特征矩阵的片段类型标识，对所述预设歌曲识别网络模型进行收敛，得到歌曲识别网络模型。

比如，在需要进行模型训练时，可以从这些样本子特征矩阵和样本子特征矩阵的片段类型标识中，选择一个样本子特征矩阵和对应的片段类型标识作为当前训练样本，然后，将该当前训练样本导入该预设歌曲识别网络模型中，得到预测片段类型标识，获取当前训练样本对应的预测片段类型标识，并采用预设损失函数对该预测片段类型标识和样本子特征矩阵的片段类型标识进行收敛，以调整该预设歌曲识别网络模型中的各个参数至合适数值。再然后，可以返回执行从这些样本子特征矩阵和样本子特征矩阵的片段类型标识中，选择一个样本子特征矩阵和对应的片段类型标识作为当前训练样本的步骤，以对这些样本子特征矩阵和对应的片段类型标识中的其他样本进行计算和收敛，直至这些样本均计算和收敛完毕，即可得到所需的歌曲识别网络模型。

205、基于子特征矩阵对应的片段类型标识，获取歌曲中参考时间点对应的可信度。

其中，可信度为对事物可以信赖的程度。参考时间点为歌曲中需要计算可信度的时间点，比如，可以选取歌曲中的两个时间点，作为参考时间点。

在实际应用中，可以通过子特征矩阵的片段类型标识，获取歌曲中参考时间点对应的可信度。由于歌曲中每对时间点都可能成为目标片段类型的歌曲片段所对应的起止时间点，因此，通过对歌曲中每对时间点可信度的计算，确定出目标片段类型的歌曲片段所对应的起止时间点。

具体地，步骤“基于所述子特征矩阵对应的片段类型标识，获取歌曲中参考时间点对应的可信度”可以包括：

获取歌曲中参考时间点；

根据所述参考时间点以及所述子特征矩阵对应的片段类型标识，获取歌曲中参考时间点对应的可信度。

在实际应用中，可以从歌曲的多个时间点中，获取参考时间点，之后可以根据子特征矩阵的片段类型标识，确定出歌曲中参考时间点对应的可信度。比如，可以从歌曲的多个时间点中，获取两个参考时间点，将时间靠前的时间点作为参考起始点，将时间靠后的时间点作为参考终止点，之后根据子特征矩阵的片段类型标识，分别计算两个参考时间点对应的可信度。

具体地，步骤“根据所述参考时间点以及所述子特征矩阵对应的片段类型标识，获取歌曲中参考时间点对应的可信度”可以包括：

根据子特征矩阵的时间点和参考时间点之间的关系，更新所述子特征矩阵对应的片段类型标识；

根据更新后的子特征矩阵对应的片段类型标识，获取歌曲中参考时间点对应的可信度。

在实际应用中，比如，可以从歌曲的多个时间点中，获取两个参考时间点，将时间靠前的时间点作为参考起始点用K表示，将时间靠后的时间点作为参考终止点用L表示，用F表示片段类型标识，可以通过向量J的形式对F进行表示，当样本子特征矩阵的时间点不在样本歌曲中目标片段类型的歌曲片段所对应的起止时间点之间，可以使得F＝0；当样本子特征矩阵的时间点在样本歌曲中目标片段类型的歌曲片段所对应的起止时间点之间，可以使得F＝1，J可以用下式进行表示：

J＝(P(F＝0)，P(F＝1))

可信度可以用M表示，子特征矩阵的时间点可以用t表示，当子特征矩阵的时间点t在参考起始点K和参考终止点L之间，将子特征矩阵的片段类型标识更新为本身的片段类型标识，当子特征矩阵的时间点t不在参考起始点K和参考终止点L之间，将子特征矩阵的片段类型标识更新为0，并对所有更新后的子特征矩阵的片段类型标识进行总计，得到可信度M，可信度M的计算公式可以如下：

M＝sum(J(t<＝K)[0])+sum(J(K<t<L)[1])+sum(J(t>＝L)[0])

在实际应用中，比如，可以从歌曲的多个时间点中，获取两个参考时间点，将时间靠前的时间点作为参考起始点用K表示，将时间靠后的时间点作为参考终止点用L表示，用F表示片段类型标识，可以通过向量J的形式对F进行表示，当样本子特征矩阵的时间点在样本歌曲中目标片段类型的歌曲片段所对应的起始时间点之前，可以使得F＝0；当样本子特征矩阵的时间点在样本歌曲中目标片段类型的歌曲片段所对应的起止时间点之间，可以使得F＝1；当样本子特征矩阵的时间点在样本歌曲中目标片段类型的歌曲片段所对应的终止时间点之后，可以使得F＝2，J可以用下式进行表示：

J＝(P(F＝0)，P(F＝1)，P(F＝2))

可信度可以用M表示，子特征矩阵的时间点可以用t表示，当子特征矩阵的时间点t在参考起始点K之前，将子特征矩阵的片段类型标识更新为0，当子特征矩阵的时间点t在参考起始点K和参考终止点L之间，将子特征矩阵的片段类型标识更新为本身的片段类型标识，当子特征矩阵的时间点t在参考终止点L之后，将子特征矩阵的片段类型标识更新为本身的片段类型标识的二倍，并对所有更新后的子特征矩阵的片段类型标识进行总计，得到可信度M，可信度M的计算公式可以如下：

M＝sum(J(t<＝K)[0])+sum(J(K<t<L)[1])+sum(J(t>＝L)[2])

在一实施例中，又比如，还可以从歌曲的多个时间点中，获取两个参考时间点，将时间靠前的时间点作为参考起始点用K表示，将时间靠后的时间点作为参考终止点用L表示，用F表示片段类型标识，可以通过向量J的形式对音频数据中F进行表示，通过向量N的形式对视频数据中F进行表示，当样本子特征矩阵的时间点不在样本歌曲中目标片段类型的歌曲片段所对应的起止时间点之间，可以使得F＝0；当样本子特征矩阵的时间点在样本歌曲中目标片段类型的歌曲片段所对应的起止时间点之间，可以使得F＝1，J可以用下式进行表示：

J＝(P(F＝0)，P(F＝1))

N可以用下式进行表示：

N＝(P(F＝0),P(F＝1))

M＝sum(J(t<＝K)[0]·N(t<＝K)[0])+sum(J(K<t<L)[1]·N(K<t<L)[1])+sum(J(t>＝L)[0]·N(t>＝L)[0])

在一实施例中，又比如，还可以从歌曲的多个时间点中，获取两个参考时间点，将时间靠前的时间点作为参考起始点用K表示，将时间靠后的时间点作为参考终止点用L表示，用F表示片段类型标识，可以通过向量J的形式对音频数据中F进行表示，通过向量N的形式对视频数据中F进行表示，当样本子特征矩阵的时间点在样本歌曲中目标片段类型的歌曲片段所对应的起始时间点之前，可以使得F＝0；当样本子特征矩阵的时间点在样本歌曲中目标片段类型的歌曲片段所对应的起止时间点之间，可以使得F＝1；当样本子特征矩阵的时间点在样本歌曲中目标片段类型的歌曲片段所对应的终止时间点之后，可以使得F＝2，J可以用下式进行表示：

J＝(P(F＝0)，P(F＝1)，P(F＝2))

N可以用下式进行表示：

N＝(P(F＝0)，P(F＝1)，P(F＝2))

M＝sum(J(t<＝K)[0]·N(t<＝K)[0])+sum(J(K<t<L)[1]·N(K<t<L)[1])+sum(J(t>＝L)[2]·N(t>＝L)[2])

206、根据参考时间点对应的可信度，从参考时间点中选择目标片段类型的歌曲片段所对应的起止时间点。

其中，目标片段类型的歌曲片段所对应的起止时间点可以为歌曲中目标片段类型的歌曲片段所对应的起始时间点和终止时间点，比如，可以为歌曲精彩片段的起始时间点和终止时间点，等等。根据歌曲中参考时间点对应的可信度，可以从参考时间点中选择目标片段类型的歌曲片段所对应的起止时间点。

在一实施例中，具体地，步骤“根据所述参考时间点对应的可信度，从参考时间点中选择目标片段类型的歌曲片段所对应的起止时间点”可以包括：

从所述参考时间点对应的可信度中选取目标可信度；

根据所述目标可信度对应的参考时间点，确定目标片段类型的歌曲片段所对应的起止时间点。

在实际应用中，可以从多个参考时间点对应的可信度中选取目标可信度，比如，可以选取最大的可信度，作为目标可信度，等等。获取到目标可信度后，可以根据该目标可信度对应的参考时间点，确定目标片段类型的歌曲片段所对应的起止时间点，比如，将可信度对应的参考时间点，作为目标片段类型的歌曲片段所对应的起止时间点。

由上可知，本申请实施例获取歌曲的至少一个多媒体数据，根据多媒体数据，获取多媒体数据的特征矩阵，从多媒体数据的特征矩阵中选取出若干歌曲片段对应的子特征矩阵，基于歌曲识别网络模型和子特征矩阵对歌曲片段进行识别，得到子特征矩阵的片段类型标识，基于子特征矩阵对应的片段类型标识，获取歌曲中参考时间点对应的可信度，根据参考时间点对应的可信度，从参考时间点中选择目标片段类型的歌曲片段所对应的起止时间点，由于方案采用深度学习网络模型对多媒体信息进行识别，无需依赖人工对于多媒体信息进行识别，减少了人工工作量，提高了歌曲识别效率；同时，由于方案基于歌曲对应的多个音频文件和多个视频文件，对歌曲进行识别，从而提高了识别结果的准确性。

根据上述实施例所描述的方法，如图3所示，以下将举例作进一步详细说明。

在本实施例中，将以该歌曲识别装置具体集成在网络设备中为例进行说明。

301、网络设备获取歌曲的至少一个多媒体数据；

网络设备获取多媒体文件的方式可以有多种，比如，可以通过本地获取多媒体文件、从网络设备获取多媒体文件、利用多媒体处理软件捕获截取多媒体文件，或者通过麦克风或者摄像设备录制多媒体文件。获取到多媒体文件后，可以对多媒体文件进行模数转换，得到多媒体数据。

302、网络设备根据多媒体数据，获取多媒体数据的特征矩阵。

其中，网络设备根据多媒体数据，获取多媒体数据的特征矩阵的方式可以有多种，比如，可以通过傅里叶变换、常数Q变换、梅尔频率倒谱系数、神经网络等机器学习算法等方式获取多媒体数据的特征矩阵。

303、网络设备从多媒体数据的特征矩阵中选取出若干歌曲片段对应的子特征矩阵。

在实际应用中，网络设备从多媒体数据的特征矩阵中选取出若干歌曲片段对应的子特征矩阵，比如，多媒体数据的特征矩阵由歌曲每个时间点对应的向量组成，可以每相隔时长t₁，从多媒体数据的特征矩阵中截取出时长为t₂的子特征矩阵，则可以获取到若干个相隔时长t₁的子特征矩阵，该子特征矩阵对应时长为t₂的歌曲片段。

在一实施例中，网络设备还可以获取若干子特征矩阵的时间点，比如，可以将子特征矩阵对应时长的中心点时间作为子特征矩阵的时间点。

304、网络设备基于歌曲识别网络模型和子特征矩阵对歌曲片段进行识别，得到子特征矩阵的片段类型标识。

在实际应用中，比如，网络设备可以通过卷积神经网络模型、SVM、Long Short-Term Memory等等对歌曲片段进行识别，并得到子特征矩阵的片段类型标识。通过LongShort-Term Memory识别出的子特征矩阵的片段类型标识的准确率高于卷积神经网络模型和SVM，而卷积神经网络模型和SVM识别出的子特征矩阵的片段类型标识的计算耗时优于Long Short-Term Memory。

其中，歌曲可以对应多个多媒体数据，网络设备可以通过对歌曲对应的多个多媒体数据中子特征矩阵的片段类型标识进行综合，确定出歌曲中子特征矩阵的片段类型标识，从而提高获取歌曲中子特征矩阵的片段类型标识的准确性。

在一实施例中，比如，网络设备可以将歌曲对应的多个多媒体文件中子特征矩阵的片段类型标识进行综合，取多个多媒体文件中子特征矩阵的片段类型标识的中值或者均值或者最大值等等，作为歌曲中子特征矩阵的片段类型标识。

在一实施例中，比如，网络设备还可以将歌曲对应的多个视频文件中子特征矩阵的片段类型标识进行综合，取多个视频文件中子特征矩阵的片段类型标识的中值或者均值或者最大值等等，作为歌曲视频中子特征矩阵的片段类型标识，之后将歌曲视频中子特征矩阵的片段类型标识与音频文件中子特征矩阵的片段类型标识进行综合，得到歌曲中子特征矩阵的片段类型标识。

在一实施例中，比如，网络设备还可以将歌曲对应的多个音频文件中子特征矩阵的片段类型标识进行综合，取多个音频文件中子特征矩阵的片段类型标识的中值或者均值或者最大值等等，作为歌曲音频中子特征矩阵的片段类型标识，之后将歌曲音频中子特征矩阵的片段类型标识与视频文件中子特征矩阵的片段类型标识进行综合，得到歌曲中子特征矩阵的片段类型标识。

(1)网络设备获取已标注的样本多媒体数据、以及样本多媒体数据的样本特征矩阵。

其中，网络设备根据样本多媒体数据，获取样本多媒体数据的样本特征矩阵的方式可以有多种，比如，网络设备可以通过傅里叶变换、常数Q变换、梅尔频率倒谱系数、神经网络等机器学习算法等方式获取样本多媒体数据的样本特征矩阵。

(2)网络设备从样本多媒体数据的样本特征矩阵中选取出若干样本歌曲片段对应的样本子特征矩阵。

在实际应用中，网络设备从样本多媒体数据的样本特征矩阵中选取出若干样本歌曲片段对应的样本子特征矩阵，比如，样本多媒体数据的样本特征矩阵由样本歌曲每个时间点对应的向量组成，可以每相隔时长t₁，从样本多媒体数据的样本特征矩阵中截取出时长为t₂的样本子特征矩阵，则可以获取到若干个相隔时长t₁的样本子特征矩阵，该样本子特征矩阵对应时长为t₂的样本歌曲片段。

在一实施例中，网络设备还可以获取若干样本子特征矩阵的时间点，比如，可以将样本子特征矩阵对应时长的中心点时间作为样本子特征矩阵的时间点。

(3)网络设备根据样本子特征矩阵的时间点与样本歌曲中目标片段类型的歌曲片段所对应的起止时间点之间的关系，确定出样本子特征矩阵的片段类型标识。

在实际应用中，比如，网络设备可以用F表示片段类型标识，当样本子特征矩阵的时间点在样本歌曲中目标片段类型的歌曲片段所对应的起始时间点之前，可以使得F＝0；当样本子特征矩阵的时间点在样本歌曲中目标片段类型的歌曲片段所对应的起止时间点之间，可以使得F＝1；当样本子特征矩阵的时间点在样本歌曲中目标片段类型的歌曲片段所对应的终止时间点之后，可以使得F＝2。

在一实施例中，比如，网络设备还可以用F表示片段类型标识，当样本子特征矩阵的时间点不在样本歌曲中目标片段类型的歌曲片段所对应的起止时间点之间，可以使得F＝0；当样本子特征矩阵的时间点在样本歌曲中目标片段类型的歌曲片段所对应的起止时间点之间，可以使得F＝1。

(4)网络设备基于样本子特征矩阵、以及样本子特征矩阵的片段类型标识，对预设歌曲识别网络模型进行训练，得到歌曲识别网络模型。

其中，网络设备可以利用样本子特征矩阵和样本子特征矩阵的片段类型标识，来训练预设歌曲识别网络模型，比如，可以将这些样本子特征矩阵和样本子特征矩阵的片段类型标识，添加至该预设歌曲识别网络模型中，然后，便可以根据这些样本子特征矩阵和样本子特征矩阵的片段类型标识，对预设歌曲识别网络模型进行训练，得到歌曲识别网络模型。

305、网络设备基于子特征矩阵对应的片段类型标识，获取歌曲中参考时间点对应的可信度。

在实际应用中，网络设备可以通过子特征矩阵的片段类型标识，获取歌曲中参考时间点对应的可信度。由于歌曲中每对时间点都可能成为目标片段类型的歌曲片段所对应的起止时间点，因此，通过对歌曲中每对时间点可信度的计算，确定出目标片段类型的歌曲片段所对应的起止时间点。

在实际应用中，网络设备可以从歌曲的多个时间点中，获取参考时间点，之后可以根据子特征矩阵的片段类型标识，确定出歌曲中参考时间点对应的可信度。比如，可以从歌曲的多个时间点中，获取两个参考时间点，将时间靠前的时间点作为参考起始点，将时间靠后的时间点作为参考终止点，之后根据子特征矩阵的片段类型标识，分别计算两个参考时间点对应的可信度。

在实际应用中，比如，网络设备可以从歌曲的多个时间点中，获取两个参考时间点，将时间靠前的时间点作为参考起始点用K表示，将时间靠后的时间点作为参考终止点用L表示，用F表示片段类型标识，可以通过向量J的形式对F进行表示，当样本子特征矩阵的时间点不在样本歌曲中目标片段类型的歌曲片段所对应的起止时间点之间，可以使得F＝0；当样本子特征矩阵的时间点在样本歌曲中目标片段类型的歌曲片段所对应的起止时间点之间，可以使得F＝1，J可以用下式进行表示：

J＝(P(F＝0)，P(F＝1))

M＝sum(J(t<＝K)[0])+sum(J(K<t<L)[1])+sum(J(t>＝L)[0])

在实际应用中，比如，网络设备可以从歌曲的多个时间点中，获取两个参考时间点，将时间靠前的时间点作为参考起始点用K表示，将时间靠后的时间点作为参考终止点用L表示，用F表示片段类型标识，可以通过向量J的形式对F进行表示，当样本子特征矩阵的时间点在样本歌曲中目标片段类型的歌曲片段所对应的起始时间点之前，可以使得F＝0；当样本子特征矩阵的时间点在样本歌曲中目标片段类型的歌曲片段所对应的起止时间点之间，可以使得F＝1；当样本子特征矩阵的时间点在样本歌曲中目标片段类型的歌曲片段所对应的终止时间点之后，可以使得F＝2，J可以用下式进行表示：

J＝(P(F＝0)，P(F＝1)，P(F＝2))

M＝sum(J(t<＝K)[0])+sum(J(K<t<L)[1])+sum(J(t>＝L)[2])

在一实施例中，又比如，网络设备还可以从歌曲的多个时间点中，获取两个参考时间点，将时间靠前的时间点作为参考起始点用K表示，将时间靠后的时间点作为参考终止点用L表示，用F表示片段类型标识，可以通过向量J的形式对音频数据中F进行表示，通过向量N的形式对视频数据中F进行表示，当样本子特征矩阵的时间点不在样本歌曲中目标片段类型的歌曲片段所对应的起止时间点之间，可以使得F＝0；当样本子特征矩阵的时间点在样本歌曲中目标片段类型的歌曲片段所对应的起止时间点之间，可以使得F＝1，J可以用下式进行表示：

J＝(P(F＝0)，P(F＝1))

N可以用下式进行表示：

N＝(P(F＝0),P(F＝1))

在一实施例中，又比如，网络设备还可以从歌曲的多个时间点中，获取两个参考时间点，将时间靠前的时间点作为参考起始点用K表示，将时间靠后的时间点作为参考终止点用L表示，用F表示片段类型标识，可以通过向量J的形式对音频数据中F进行表示，通过向量N的形式对视频数据中F进行表示，当样本子特征矩阵的时间点在样本歌曲中目标片段类型的歌曲片段所对应的起始时间点之前，可以使得F＝0；当样本子特征矩阵的时间点在样本歌曲中目标片段类型的歌曲片段所对应的起止时间点之间，可以使得F＝1；当样本子特征矩阵的时间点在样本歌曲中目标片段类型的歌曲片段所对应的终止时间点之后，可以使得F＝2，J可以用下式进行表示：

J＝(P(F＝0)，P(F＝1)，P(F＝2))

N可以用下式进行表示：

N＝(P(F＝0)，P(F＝1)，P(F＝2))

306、网络设备根据参考时间点对应的可信度，从参考时间点中选择目标片段类型的歌曲片段所对应的起止时间点。

在实际应用中，网络设备可以从多个参考时间点对应的可信度中选取目标可信度，比如，可以选取最大的可信度，作为目标可信度，等等。获取到目标可信度后，可以根据该目标可信度对应的参考时间点，确定目标片段类型的歌曲片段所对应的起止时间点，比如，将可信度对应的参考时间点，作为目标片段类型的歌曲片段所对应的起止时间点。

由上可知，本申请实施例通过网络设备获取歌曲的至少一个多媒体数据，根据多媒体数据，获取多媒体数据的特征矩阵，从多媒体数据的特征矩阵中选取出若干歌曲片段对应的子特征矩阵，基于歌曲识别网络模型和子特征矩阵对歌曲片段进行识别，得到子特征矩阵的片段类型标识，基于子特征矩阵对应的片段类型标识，获取歌曲中参考时间点对应的可信度，根据参考时间点对应的可信度，从参考时间点中选择目标片段类型的歌曲片段所对应的起止时间点，由于方案采用深度学习网络模型对多媒体信息进行识别，无需依赖人工对于多媒体信息进行识别，减少了人工工作量，提高了歌曲识别效率；同时，由于方案基于歌曲对应的多个音频文件和多个视频文件，对歌曲进行识别，从而提高了识别结果的准确性。

为了更好地实施以上方法，本申请实施例还提供一种歌曲识别装置，该歌曲识别装置具体可以集成在网络设备，比如终端或服务器等设备中。

例如，如图4所示，该歌曲识别装置可以包括数据获取模块41、矩阵获取模块42、选取模块43、识别模块44、可信度获取模块45和时间点选择模块46，如下：

数据获取模块41，用于获取歌曲的至少一个多媒体数据；

矩阵获取模块42，用于根据所述多媒体数据，获取所述多媒体数据的特征矩阵；

选取模块43，用于从所述多媒体数据的特征矩阵中选取出若干歌曲片段对应的子特征矩阵；

识别模块44，用于基于歌曲识别网络模型和所述子特征矩阵对所述歌曲片段进行识别，得到所述子特征矩阵的片段类型标识；

可信度获取模块45，用于基于所述子特征矩阵对应的片段类型标识，获取歌曲中参考时间点对应的可信度；

时间点选择模块46，用于根据所述参考时间点对应的可信度，从参考时间点中选择目标片段类型的歌曲片段所对应的起止时间点。

在一实施例中，参考图5，所述识别模块44，可以包括：

第一标识获取子模块441，用于将所述子特征矩阵输入所述歌曲识别网络模型中，获取多媒体数据中子特征矩阵的片段类型标识；

第二标识获取子模块442，用于根据所述多媒体数据中子特征矩阵的片段类型标识，确定歌曲中子特征矩阵的片段类型标识。

在一实施例中，参考图6，所述可信度获取模块45，可以包括：

参考时间点获取子模块451，用于获取歌曲中参考时间点；

可信度获取子模块452，用于根据所述参考时间点以及所述子特征矩阵对应的片段类型标识，获取歌曲中参考时间点对应的可信度。

在一实施例中，可信度获取子模块452还可以具体用于：

在一实施例中，参考图7，所述时间点选择模块46，可以包括：

目标可信度选取子模块461，用于从所述参考时间点对应的可信度中选取目标可信度；

起止时间点确定子模块462，用于根据所述目标可信度对应的参考时间点，确定目标片段类型的歌曲片段所对应的起止时间点。

在一实施例中，歌曲识别装置还可以具体用于：

获取已标注的样本多媒体数据、以及所述样本多媒体数据的样本特征矩阵；

从所述样本多媒体数据的样本特征矩阵中选取出若干样本歌曲片段对应的样本子特征矩阵；

根据所述样本子特征矩阵的时间点与样本歌曲中目标片段类型的歌曲片段所对应的起止时间点之间的关系，确定出样本子特征矩阵的片段类型标识；

基于所述样本子特征矩阵、以及所述样本子特征矩阵的片段类型标识，对预设歌曲识别网络模型进行训练，得到歌曲识别网络模型。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本申请实施例通过数据获取模块41获取歌曲的至少一个多媒体数据，通过矩阵获取模块42根据多媒体数据，获取多媒体数据的特征矩阵，通过选取模块43从多媒体数据的特征矩阵中选取出若干歌曲片段对应的子特征矩阵，通过识别模块44基于歌曲识别网络模型和子特征矩阵对歌曲片段进行识别，得到子特征矩阵的片段类型标识，通过可信度获取模块45基于子特征矩阵对应的片段类型标识，获取歌曲中参考时间点对应的可信度，通过时间点选择模块46根据参考时间点对应的可信度，从参考时间点中选择目标片段类型的歌曲片段所对应的起止时间点，由于方案采用深度学习网络模型对多媒体信息进行识别，无需依赖人工对于多媒体信息进行识别，减少了人工工作量，提高了歌曲识别效率；同时，由于方案基于歌曲对应的多个音频文件和多个视频文件，对歌曲进行识别，从而提高了识别结果的准确性。

本申请实施例还提供一种网络设备，该网络设备可以为服务器或终端等设备，其集成了本申请实施例所提供的任一种歌曲识别装置。如图8所示，图8是本申请实施例提供的网络设备的结构示意图，具体来讲：

该网络设备可以包括一个或者一个以上处理核心的处理器801、一个或一个以上计算机可读存储介质的存储器802、电源803和输入单元804等部件。本领域技术人员可以理解，图8中示出的网络设备结构并不构成对网络设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器801是该网络设备的控制中心，利用各种接口和线路连接整个网络设备的各个部分，通过运行或执行存储在存储器802内的软件程序和/或模块，以及调用存储在存储器802内的数据，执行网络设备的各种功能和处理数据，从而对网络设备进行整体监控。可选的，处理器801可包括一个或多个处理核心；优选的，处理器801可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器801中。

存储器802可用于存储软件程序以及模块，处理器801通过运行存储在存储器802的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器802可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据网络设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器802还可以包括存储器控制器，以提供处理器801对存储器802的访问。

网络设备还包括给各个部件供电的电源803，优选的，电源803可以通过电源管理系统与处理器801逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源803还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该网络设备还可包括输入单元804，该输入单元804可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，网络设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，网络设备中的处理器801会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器802中，并由处理器801来运行存储在存储器802中的应用程序，从而实现各种功能，如下：

获取歌曲的至少一个多媒体数据，根据多媒体数据，获取多媒体数据的特征矩阵，从多媒体数据的特征矩阵中选取出若干歌曲片段对应的子特征矩阵，基于歌曲识别网络模型和子特征矩阵对歌曲片段进行识别，得到子特征矩阵的片段类型标识，基于子特征矩阵对应的片段类型标识，获取歌曲中参考时间点对应的可信度，根据参考时间点对应的可信度，从参考时间点中选择目标片段类型的歌曲片段所对应的起止时间点。

处理器801还可以运行存储在存储器802中的应用程序，从而实现如下功能：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种歌曲识别方法中的步骤。例如，该指令可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种歌曲识别方法中的步骤，因此，可以实现本申请实施例所提供的任一种歌曲识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种歌曲识别方法、装置以及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种歌曲识别方法，其特征在于，包括：

获取歌曲的至少一个多媒体数据；

根据所述多媒体数据，获取所述多媒体数据的特征矩阵；

2.根据权利要求1所述的歌曲识别方法，其特征在于，基于所述子特征矩阵对应的片段类型标识，获取歌曲中参考时间点对应的可信度，包括：

获取歌曲中参考时间点；

3.根据权利要求2所述的歌曲识别方法，其特征在于，根据所述参考时间点以及所述子特征矩阵对应的片段类型标识，获取歌曲中参考时间点对应的可信度，包括：

4.根据权利要求1所述的歌曲识别方法，其特征在于，根据所述参考时间点对应的可信度，从参考时间点中选择目标片段类型的歌曲片段所对应的起止时间点，包括：

从所述参考时间点对应的可信度中选取目标可信度；

5.根据权利要求1所述的歌曲识别方法，其特征在于，基于歌曲识别网络模型和所述子特征矩阵对所述歌曲片段进行识别，得到所述子特征矩阵的片段类型标识，包括：

6.根据权利要求1所述的歌曲识别方法，其特征在于，所述歌曲识别方法，还包括：

7.根据权利要求6所述的歌曲识别方法，其特征在于，根据所述样本子特征矩阵的时间点与样本歌曲中目标片段类型的歌曲片段所对应的起止时间点之间的关系，确定出样本子特征矩阵的片段类型标识，包括：

8.根据权利要求6所述的歌曲识别方法，其特征在于，基于所述样本子特征矩阵、以及所述样本子特征矩阵的片段类型标识，对预设歌曲识别网络模型进行训练，得到歌曲识别网络模型，包括：

9.一种歌曲识别装置，其特征在于，包括：

数据获取模块，用于获取歌曲的至少一个多媒体数据；

10.一种存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1至8任一项所述的歌曲识别方法。