CN111723235A

CN111723235A - 音乐内容识别方法、装置及设备

Info

Publication number: CN111723235A
Application number: CN201910208192.8A
Authority: CN
Inventors: 王群
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2020-09-29
Anticipated expiration: 2039-03-19
Also published as: CN111723235B

Abstract

本发明提出了一种音乐内容识别方法、装置及设备，其中，方法包括：获取当前浏览页面的音频内容，并提取音频内容的特征信息；将特征信息与预设的音乐索引进行匹配，根据匹配结果获取与音频内容对应的音乐识别结果并展示。由此，实现了从浏览页面中识别音乐内容，使用户可以在浏览网页或观看视频时获取正在播放的音乐的信息。

Description

音乐内容识别方法、装置及设备

技术领域

本发明涉及互联网技术领域，尤其涉及一种音乐内容识别方法、装置及设备。

背景技术

随着互联网技术的发展，越来越多的富媒体信息充斥着网页内容。在网页上存在着各种背景音乐和可以播放音乐的标签内容，例如文本中插入的音乐、视频中的音乐、网页的背景音乐等。

目前，用户在浏览网页时听到某首喜欢的音乐，通常会希望获取该音乐的相关信息，以根据相关信息下载或收藏喜欢的音乐。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种音乐内容识别方法，以实现从浏览页面中识别音乐内容，使用户可以在浏览网页或观看视频时获取正在播放的音乐的信息。

本发明的第二个目的在于提出一种音乐内容识别装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种计算机可读存储介质。

本发明第一方面实施例提出了一种音乐内容识别方法，包括：

获取当前浏览页面的音频内容，并提取所述音频内容的特征信息；

将所述特征信息与预设的音乐索引进行匹配，根据匹配结果获取与所述音频内容对应的音乐识别结果并展示。

本发明实施例的音乐内容识别方法，通过获取当前浏览页面的音频内容，并提取音频内容的特征信息，进而将特征信息与预设的音乐索引进行匹配，根据匹配结果获取与音频内容对应的音乐识别结果并展示。由此，实现了从浏览页面中识别音乐内容，使用户可以在浏览网页或观看视频时获取正在播放的音乐的信息，满足了用户从网页中获取音乐的需求，操作便捷，提升了用户体验。

另外，根据本发明上述实施例的音乐内容识别方法还可以具有如下附加技术特征：

可选地，在获取当前浏览页面的音频内容之前，还包括：检测所述当前浏览页面的音频内容是否为音乐类型；若是，则展现交互控件；

所述获取当前浏览页面的音频内容包括：接收用户触发所述交互控件的指令，获取触发所述交互控件前预设时间内的音频内容。

可选地，所述检测所述当前浏览页面的音频内容是否为音乐包括：将所述当前浏览页面的音频内容的频谱特征输入到预先训练的机器学习模型中进行处理，获取所述音频内容的类型，其中，所述类型至少包括音乐类型。

可选地，在将所述音频内容的频谱特征输入到预先训练的机器学习模型中进行处理之前，还包括：获取包含频谱特征和对应类型标记的音频训练样本；根据预设的目标函数和所述音频训练样本训练预设模型的处理参数，生成所述机器学习模型。

可选地，所述特征信息包括频谱信息，所述将所述特征信息与预设的音乐索引进行匹配，根据匹配结果确定与所述音频内容对应的音乐识别结果并展示包括：根据所述音频内容的频谱信息与预设的音乐索引进行匹配，其中，所述音乐索引包括音乐的频谱信息和对应的音乐信息；若所述音频内容的频谱信息与目标音乐的频谱信息一致，则将所述目标音乐对应的音乐信息展示给用户。

可选地，所述特征信息包括资源标识和播放时间，所述将所述特征信息与预设的音乐索引进行匹配，根据匹配结果确定与所述音频内容对应的音乐识别结果并展示包括：根据所述音频内容的资源标识和播放时间与预设的音乐索引进行匹配，其中，所述音乐索引包括音乐的资源标识、播放时间和对应的音乐信息；若所述音频内容的资源标识、播放时间与目标音乐的资源标识、播放时间一致，则将所述目标音乐对应的音乐信息展示给用户。

可选地，所述的方法还包括：若匹配结果均不一致，则根据所述音频内容提取音频文件并反馈给用户。

本发明第二方面实施例提出了一种音乐内容识别装置，包括：

获取模块，用于获取当前浏览页面的音频内容；

提取模块，用于提取所述音频内容的特征信息；

识别模块，用于将所述特征信息与预设的音乐索引进行匹配，根据匹配结果获取与所述音频内容对应的音乐识别结果并展示。

本发明实施例的音乐内容识别装置，通过获取当前浏览页面的音频内容，并提取音频内容的特征信息，进而将特征信息与预设的音乐索引进行匹配，根据匹配结果获取与音频内容对应的音乐识别结果并展示。由此，实现了从浏览页面中识别音乐内容，使用户可以在浏览网页或观看视频时获取正在播放的音乐的信息，满足了用户从网页中获取音乐的需求，操作便捷，提升了用户体验。

另外，根据本发明上述实施例的音乐内容识别装置还可以具有如下附加技术特征：

可选地，所述的装置还包括：检测模块，用于检测所述当前浏览页面的音频内容是否为音乐类型；若是，则展现交互控件；所述获取模块具体用于：接收用户触发所述交互控件的指令，获取触发所述交互控件前预设时间内的音频内容。

可选地，所述检测模块具体用于：将所述当前浏览页面的音频内容的频谱特征输入到预先训练的机器学习模型中进行处理，获取所述音频内容的类型，其中，所述类型至少包括音乐类型。

可选地，所述的装置还包括：训练模块，用于获取包含频谱特征和对应类型标记的音频训练样本；根据预设的目标函数和所述音频训练样本训练预设模型的处理参数，生成所述机器学习模型。

可选地，所述特征信息包括频谱信息，所述识别模块具体用于：根据所述音频内容的频谱信息与预设的音乐索引进行匹配，其中，所述音乐索引包括音乐的频谱信息和对应的音乐信息；若所述音频内容的频谱信息与目标音乐的频谱信息一致，则将所述目标音乐对应的音乐信息展示给用户。

可选地，所述特征信息包括资源标识和播放时间，所述识别模块具体用于：根据所述音频内容的资源标识和播放时间与预设的音乐索引进行匹配，其中，所述音乐索引包括音乐的资源标识、播放时间和对应的音乐信息；若所述音频内容的资源标识、播放时间与目标音乐的资源标识、播放时间一致，则将所述目标音乐对应的音乐信息展示给用户。

可选地，所述识别模块还用于：若匹配结果均不一致，则根据所述音频内容提取音频文件并反馈给用户。

本发明第三方面实施例提出了一种计算机设备，包括处理器和存储器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如第一方面实施例所述的音乐内容识别方法。

本发明第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面实施例所述的音乐内容识别方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1为本发明实施例所提供的一种音乐内容识别方法的流程示意图；

图2为本发明实施例所提供的另一种音乐内容识别方法的流程示意图；

图3为本发明实施例所提供的一种应用场景示意图；

图4为本发明实施例所提供的另一种应用场景示意图；

图5为本发明实施例所提供的一种音乐内容识别装置的结构示意图；

图6为本发明实施例所提供的另一种音乐内容识别装置的结构示意图；

图7示出了适于用来实现本发明实施例的示例性计算机设备的框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的音乐内容识别方法、装置及设备。

图1为本发明实施例所提供的一种音乐内容识别方法的流程示意图，如图1所示，该方法包括：

步骤101，获取当前浏览页面的音频内容，并提取音频内容的特征信息。

本发明实施例中，在对浏览页面中播放的音乐进行识别获取时，可以先获取当前浏览页面的音频内容，例如，可以接收用户触发音乐内容识别的指令，根据指令获取当前浏览页面的音频内容。

作为一种可能的实现方式，可以分析网页中的DOM(Document Object Model，文档对象模型)结构，匹配出当前浏览页面中的音频标签和视频标签。例如，<audio src＝"song.ogg">代表音频标签，<video src＝"movie.ogg">代表视频标签。进而，获取标签通过链接指向的音频资源、视频资源，进而从音频资源、视频资源中提取特征信息。其中，特征信息可以包括频谱信息、资源标识和播放时间。

作为一种示例，针对视频资源，通过监听视频中的声道内容以采集视频中的音频内容，获取视频中声道内二进制数据形式的音频流，通过预设的音频播放组件将音频流转化为声音频谱曲线。针对音频资源，可以通过音频播放组件将音频流转化为声音频谱曲线。

作为另一种示例，还可以提取音频内容的资源链接和当前播放时间。比如，针对同一链接，在整个视频或音频中的不同时间段可能播放不同的音乐，因此，可以根据资源链接和播放时间作为音频内容的特征信息，以根据该特征信息确定音乐识别结果。

步骤102，将特征信息与预设的音乐索引进行匹配，根据匹配结果获取与音频内容对应的音乐识别结果并展示。

在本发明的一个实施例中，可以预先设置音乐索引，并将音乐对应的特征信息和音乐信息存储在音乐索引中。其中，音乐信息可以包括音乐名称、词曲信息、指向该音乐资源的链接等。

作为一种示例，可以根据音频内容的频谱信息与预设的音乐索引进行匹配，其中，音乐索引包括音乐的频谱信息和对应的音乐信息。若音频内容的频谱信息与索引中目标音乐的频谱信息一致，则将目标音乐对应的音乐信息展示给用户。

作为另一种示例，可以根据音频内容的资源标识和播放时间与预设的音乐索引进行匹配，其中，音乐索引包括音乐的资源标识、播放时间和对应的音乐信息。若音频内容的资源标识、播放时间与索引中目标音乐的资源标识、播放时间一致，则将目标音乐对应的音乐信息展示给用户。

相关技术中，在网页上存在着各种背景音乐和可以播放音乐的标签内容，例如文本中插入的音乐、视频中的音乐、网页的背景音乐等。用户在浏览网页的时候会存在获取完整音乐和音乐详细信息的需求。

基于上述实施例，进一步地，还可以检测当前浏览页面播放的音频内容是否为音乐，若是，则向用户展示交互控件，以使用户根据交互控件触发当前浏览页面的音乐内容识别。

图2为本发明实施例所提供的另一种音乐内容识别方法的流程示意图，如图2所示，该方法包括：

步骤201，检测当前浏览页面的音频内容是否为音乐类型。

在实际应用中，浏览页面播放的音频内容可能是音乐类型，也可能是语音等非音乐类型。因此，在本发明实施例中，在当前浏览页面播放音频内容时，可以先检测该音频内容是否为音乐类型。

在本发明的一个实施例中，可以预先获取包含频谱特征和对应类型标记的音频训练样本，根据预设的目标函数和音频训练样本训练预设模型的处理参数，生成机器学习模型，使得将音频内容的频谱特征输入到机器学习模型中，可以识别出该音频内容的类型。其中，类型标记至少包括音乐类型。例如，可以收集声音频谱曲线样本，并通过人工标记为音乐类型或非音乐类型，进而通过有监督的分类训练生成机器学习模型。

本实施例中，在当前浏览页面播放音频内容时，提取该音频内容的频谱特征，将提取到的频谱特征输入到预先训练的机器学习模型中进行处理，获取该音频内容的类型。例如，可以分析网页结构匹配当前浏览页面中的音频标签和视频标签，根据标签指向的资源提取相应的频谱特征，并将频谱特征输入到机器学习模型中进行处理，获取识别出的类型。前述实施例中获取当前浏览页面的音频内容以及提取音频内容的频谱特征的实现方式同样适用于本实施例，此处不再赘述。

可选地，可以将机器学习模型置于用户端运行，以实现实时检测当前浏览页面中的音频内容的类型。并且，还可以在音乐停止播放时，隐藏交互控件。

在本发明的另一个实施例中，还可以预先设置数据库并存储音频内容的资源标识、播放时间和对应的类型。进而，在当前浏览页面播放音频内容时，根据该音频内容的资源标识与播放时间与数据库进行匹配，获取该音频内容的类型。

步骤202，若是，则展现交互控件。

步骤203，接收用户触发交互控件的指令，获取触发交互控件前预设时间内的音频内容，并提取音频内容的特征信息。

本发明实施例中，若检测到当前浏览页面中播放的音频内容为音乐类型，则展现交互控件，以使用户通过触发该交互控件触发音乐内容识别。若检测到当前浏览页面中播放的音频内容不为音乐类型，则不展现交互控件。

作为一种示例，在展现交互控件之后，用户通过点击该交互控件触发音乐内容识别，电子设备接收用户触发该交互控件的指令，获取触发前预设时间内播放的音频片段，并提取该音频片段的特征信息。其中，特征信息可以包括频谱信息、资源标识和播放时间。

其中，用户触发交互控件的指令包括但不限于点击、触摸轨迹、语音等形式，预设时间可以根据大量实验数据确定，也可以根据需要自行设置，此处不作限制。

步骤204，将特征信息与预设的音乐索引进行匹配，根据匹配结果获取与音频内容对应的音乐识别结果并展示。

本发明实施例中，可以预先设置服务端缓存，并在缓存中存储音乐的资源标识、播放时间和对应的音乐信息。进而，将获取的音频片段的资源标识和播放时间进行缓存匹配，若匹配成功则返回对应的音乐信息。

作为一种示例，视频对应资源链接1，在播放时间段t1内对应音乐A，在播放时间段t2内对应音乐B，将音乐A的音乐信息、资源链接1、播放时间t1，以及音乐B的音乐信息、资源链接1、播放时间t2存储在缓存中。进而，获取的音频内容对应资源链接1，播放时间落在t1范围内时，确定对应的音乐识别结果为音乐A的音乐信息，将音乐A的名称、词曲信息、指向音乐A的链接反馈给用户。

本发明实施例中，可以预先设置音乐索引并存储音乐的频谱信息和对应的音乐信息。若缓存匹配失败，则进一步将该音频片段的频谱信息与音乐索引进行匹配，若与音乐索引匹配成功则返回对应的音乐信息。

作为一种示例，可以对音频片段对应的频谱曲线1与音乐索引中的频谱曲线进行相似度匹配，并确定与频谱曲线1相似度大于预设阈值的频谱曲线2，将频谱曲线2对应音乐的音乐名称、词曲信息、指向该音乐的链接反馈给用户。

可选地，在将音乐信息反馈给用户后，还可以将该音频片段的资源标识、播放时间以及索引匹配出的音乐信息存储在缓存中。

下面结合实际应用场景进行说明，参照图3和图4，交互控件可以如图3、图4中所示。

图3以音频为例，当检测到当前网页中有音频播放，且类型为音乐类型时，展现图中所示的交互控件。进而，通过交互控件接收用户触发音乐内容识别的指令，并根据识别结果将音乐名称和音乐识别结果列表提供给用户，通过点击列表可以跳转到相应的音乐网站进行播放。图4以视频为例，在用户观看视频时，若检测到视频中的音频的类型为音乐类型，则展现图中所示的交互控件。进而，通过交互控件接收用户触发音乐内容识别的指令，并根据识别结果将音乐名称和音乐识别结果列表提供给用户，通过点击列表可以跳转到相应的音乐网站进行播放。

可选地，还可以将识别的音乐信息和网页中的媒体信息相关联，在其他用户点击识别时或者播放视频时在相关时间点展现该关联的音乐信息，或者以其他与识别结果相关的展现形式进行展示，由此，可以实现音乐识别结果的共享。

在本发明的一个实施例中，若缓存匹配与音乐索引匹配均未匹配出音乐信息，还可以直接根据音频内容提取音频文件，并将音频文件反馈给用户。例如，可以根据链接指向的音频资源，提取出音频文件并反馈给用户。再例如，可以根据链接指向的视频资源，根据视频中的音频部分提取出音频文件并反馈给用户。其中，音频文件格式包括但不限于MP3、WAVE等。

本发明实施例的音乐内容识别方法，可以识别当前浏览页面中的音频内容是否为音乐类型，若是，则展现交互控件，提示用户当前浏览页面存在音乐内容，以使用户通过交互控件触发音乐识别和获取。进而，通过频谱信息匹配获取音乐信息，实现了从浏览页面中识别并获取音乐内容，并且，还可以将音频内容的资源标识、播放时间和匹配成功的音乐信息存储在缓存中，以在通过频谱信息匹配前先进行缓存匹配，减少运算量提高处理效率。进一步地，在未匹配出音乐信息时，提取相应的音频文件作为音乐识别结果提供给用户，以使用户根据音频文件进一步识别音乐，并且满足了用户从浏览页面中获取音乐的需求。

为了实现上述实施例，本发明还提出一种音乐内容识别装置。

图5为本发明实施例所提供的一种音乐内容识别装置的结构示意图，如图5所示，该装置包括：获取模块100，提取模块200，识别模块300。

其中，获取模块100，用于获取当前浏览页面的音频内容。

提取模块200，用于提取音频内容的特征信息。

识别模块300，用于将特征信息与预设的音乐索引进行匹配，根据匹配结果获取与音频内容对应的音乐识别结果并展示。

在图5的基础上，图6所示的装置还包括：检测模块400，训练模块500。

其中，检测模块400，用于检测当前浏览页面的音频内容是否为音乐类型；若是，则展现交互控件；

获取模块100具体用于：接收用户触发交互控件的指令，获取触发交互控件前预设时间内的音频内容。

可选地，检测模块400具体用于：将当前浏览页面的音频内容的频谱特征输入到预先训练的机器学习模型中进行处理，获取音频内容的类型，其中，类型至少包括音乐类型。

训练模块500，用于获取包含频谱特征和对应类型标记的音频训练样本；根据预设的目标函数和音频训练样本训练预设模型的处理参数，生成机器学习模型。

可选地，特征信息包括频谱信息，识别模块300具体用于：根据音频内容的频谱信息与预设的音乐索引进行匹配，其中，音乐索引包括音乐的频谱信息和对应的音乐信息；若音频内容的频谱信息与目标音乐的频谱信息一致，则将目标音乐对应的音乐信息展示给用户。

可选地，特征信息包括资源标识和播放时间，识别模块300具体用于：根据音频内容的资源标识和播放时间与预设的音乐索引进行匹配，其中，音乐索引包括音乐的资源标识、播放时间和对应的音乐信息；若音频内容的资源标识、播放时间与目标音乐的资源标识、播放时间一致，则将目标音乐对应的音乐信息展示给用户。

可选地，识别模块300还用于：若匹配结果均不一致，则根据音频内容提取音频文件并反馈给用户。

需要说明的是，前述实施例对音乐内容识别方法的解释说明同样适用与本实施例的装置，此处不再赘述。

为了实现上述实施例，本发明还提出一种计算机设备，包括处理器和存储器；其中，处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于实现如前述任一实施例所述的音乐内容识别方法。

为了实现上述实施例，本发明还提出一种计算机程序产品，当计算机程序产品中的指令被处理器执行时实现如前述任一实施例所述的音乐内容识别方法。

为了实现上述实施例，本发明还提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如前述任一实施例所述的音乐内容识别方法。

图7示出了适于用来实现本发明实施例的示例性计算机设备的框图。图7显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘驱动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local AreaNetwork；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的方法。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种音乐内容识别方法，其特征在于，包括：

2.如权利要求1所述的音乐内容识别方法，其特征在于，在获取当前浏览页面的音频内容之前，还包括：

检测所述当前浏览页面的音频内容是否为音乐类型；

若是，则展现交互控件；

所述获取当前浏览页面的音频内容包括：

接收用户触发所述交互控件的指令，获取触发所述交互控件前预设时间内的音频内容。

3.如权利要求2所述的音乐内容识别方法，其特征在于，所述检测所述当前浏览页面的音频内容是否为音乐类型包括：

将所述当前浏览页面的音频内容的频谱特征输入到预先训练的机器学习模型中进行处理，获取所述音频内容的类型，其中，所述类型至少包括音乐类型。

4.如权利要求3所述的音乐内容识别方法，其特征在于，在将所述当前浏览页面的音频内容的频谱特征输入到预先训练的机器学习模型中进行处理之前，还包括：

获取包含频谱特征和对应类型标记的音频训练样本；

根据预设的目标函数和所述音频训练样本训练预设模型的处理参数，生成所述机器学习模型。

5.如权利要求1所述的音乐内容识别方法，其特征在于，所述特征信息包括频谱信息，所述将所述特征信息与预设的音乐索引进行匹配，根据匹配结果获取与所述音频内容对应的音乐识别结果并展示包括：

根据所述音频内容的频谱信息与预设的音乐索引进行匹配，其中，所述音乐索引包括音乐的频谱信息和对应的音乐信息；

若所述音频内容的频谱信息与目标音乐的频谱信息一致，则将所述目标音乐对应的音乐信息展示给用户。

6.如权利要求1所述的音乐内容识别方法，其特征在于，所述特征信息包括资源标识和播放时间，所述将所述特征信息与预设的音乐索引进行匹配，根据匹配结果获取与所述音频内容对应的音乐识别结果并展示包括：

根据所述音频内容的资源标识和播放时间与预设的音乐索引进行匹配，其中，所述音乐索引包括音乐的资源标识、播放时间和对应的音乐信息；

若所述音频内容的资源标识、播放时间与目标音乐的资源标识、播放时间一致，则将所述目标音乐对应的音乐信息展示给用户。

7.如权利要求5或6所述的音乐内容识别方法，其特征在于，还包括：

若匹配结果均不一致，则根据所述音频内容提取音频文件并反馈给用户。

8.一种音乐内容识别装置，其特征在于，包括：

获取模块，用于获取当前浏览页面的音频内容；

提取模块，用于提取所述音频内容的特征信息；

9.如权利要求8所述的音乐内容识别装置，其特征在于，还包括：

检测模块，用于检测所述当前浏览页面的音频内容是否为音乐类型；

若是，则展现交互控件；

所述获取模块具体用于：接收用户触发所述交互控件的指令，获取触发所述交互控件前预设时间内的音频内容。

10.如权利要求9所述的音乐内容识别装置，其特征在于，所述检测模块具体用于：

11.如权利要求10所述的音乐内容识别装置，其特征在于，还包括：

训练模块，用于获取包含频谱特征和对应类型标记的音频训练样本；

12.如权利要求8所述的音乐内容识别装置，其特征在于，所述特征信息包括频谱信息，所述识别模块具体用于：

13.如权利要求8所述的音乐内容识别装置，其特征在于，所述特征信息包括资源标识和播放时间，所述识别模块具体用于：

14.如权利要求12或13所述的音乐内容识别装置，其特征在于，所述识别模块还用于：

15.一种计算机设备，其特征在于，包括处理器和存储器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1-7中任一项所述的音乐内容识别方法。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的音乐内容识别方法。