CN113392262A

CN113392262A - 音乐识别方法、推荐方法、装置、设备及存储介质

Info

Publication number: CN113392262A
Application number: CN202011347012.3A
Authority: CN
Inventors: 陈小帅
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-09-14

Abstract

本申请公开了一种音乐识别方法、推荐方法、装置、设备及存储介质。该方法获取待识别的第一音频数据；提取第一音频数据的第一音频指纹信息和第一歌词信息；确定第一音频指纹信息与第二音频指纹信息的第一相似度，并确定第一歌词信息与第二歌词信息的第二相似度；然后根据第一歌词信息的字符长度，确定第一相似度对应的第一权重和第二相似度对应的第二权重，对第一相似度和第二相似度的第一加权和，当第一加权和高于预设阈值时，根据第二音频数据确定第一音频数据的音乐来源信息。本申请中的方法可有效提高识别音乐的精度，有利于精准识别出用户需求的音乐来源信息，提高用户查找音乐资源的搜索体验。本申请可广泛应用于网络媒体技术领域。

Description

音乐识别方法、推荐方法、装置、设备及存储介质

技术领域

本申请涉及网络媒体技术领域，尤其是一种音乐识别方法、推荐方法、装置、设备及存储介质。

背景技术

互联网信息时代，由于网络媒体的传播效率高、范围广，因此人们很容易从各类渠道接触到信息，但却十分缺乏对信息进行溯源的手段。在娱乐休闲中，用户常常会因无法找寻到喜爱的音乐的出处而感到苦恼，例如当下流行的短视频中，一般都会配置至少一个背景音乐来烘托气氛，短视频的作者可能并不会给出所用背景音乐的具体来源信息，对于喜爱该背景音乐的用户来说寻找起来相当麻烦。而且，由于对音频数据进行二次创作的门槛正在逐步降低，不少音乐会拥有各式各样的改编版本以及翻唱版本，可能用户即使知道了某个音乐作品的名称，也容易出现找错的情况。综上，相关技术存在的问题亟需得到解决。

发明内容

本申请的目的在于至少一定程度上解决相关技术中存在的技术问题之一。

为此，本申请实施例的一个目的在于提供一种音乐识别方法，该方法可有效识别出音频数据的音乐来源信息，且识别的精度较高。

为了达到上述技术目的，本申请实施例所采取的技术方案包括：

一方面，本申请实施例提供一种音乐识别方法，该方法包括以下步骤：

获取待识别的第一音频数据；

提取所述第一音频数据的第一音频指纹信息和第一歌词信息；

确定所述第一音频指纹信息与第二音频指纹信息的第一相似度，并确定所述第一歌词信息与第二歌词信息的第二相似度；所述第二音频指纹信息和所述第二歌词信息从第二音频数据提取得到；

根据所述第一歌词信息的字符长度，确定所述第一相似度对应的第一权重和所述第二相似度对应的第二权重；

根据所述第一权重和所述第二权重，对所述第一相似度和所述第二相似度进行加权求和，得到第一加权和；

当所述第一加权和高于第一阈值，根据所述第二音频数据确定所述第一音频数据的音乐来源信息。

另一方面，本申请实施例提供一种音频文件的推荐方法，该方法包括以下步骤：

获取第一音频数据；

通过如前面所述的音乐识别方法对所述第一音频数据进行识别，获得所述第一音频数据的音乐来源信息；

推荐所述音乐来源信息对应的音乐文件或者视频文件。

另一方面，本申请实施例提供一种音乐识别装置，包括：

获取模块，用于获取待识别的第一音频数据；

提取模块，用于提取所述第一音频数据的第一音频指纹信息和第一歌词信息；

处理模块，用于确定所述第一音频指纹信息与第二音频指纹信息的第一相似度，并确定所述第一歌词信息与第二歌词信息的第二相似度；所述第二音频指纹信息和所述第二歌词信息从第二音频数据提取得到；

权重确定模块，用于根据所述第一歌词信息的字符长度，确定所述第一相似度对应的第一权重和所述第二相似度对应的第二权重；

求和模块，用于根据所述第一权重和所述第二权重，对所述第一相似度和所述第二相似度进行加权求和，得到第一加权和；

识别模块，用于当所述第一加权和高于第一阈值，根据所述第二音频数据确定所述第一音频数据的音乐来源信息。

另一方面，本申请实施例提供了一种计算机设备，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行时，使得所述至少一个处理器实现前面所述的音乐识别方法或者音频文件的推荐方法。

另一方面，本申请实施例还提供了一种计算机可读存储介质，其中存储有处理器可执行的程序，前面所述处理器可执行的程序在由处理器执行时用于实现前面所述的音乐识别方法或者音频文件的推荐方法。

另一方面，本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在前面所述的计算机可读存储介质中；前面所述的计算机设备的处理器可以从前面所述的计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面所述的音乐识别方法或者音频文件的推荐方法。

本申请的优点和有益效果将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到：

本申请实施例中的音乐识别方法，通过提取待识别的第一音频数据的音频指纹信息和歌词信息，然后使用该音频指纹信息和数据库中第二音频数据的音频指纹信息进行匹配，确定两者音频指纹匹配的第一相似度；使用该歌词信息和第二音频数据的歌词信息进行匹配，确定两者歌词匹配的第二相似度；然后根据第一歌词信息的字符长度，确定第一相似度对应的第一权重和第二相似度对应的第二权重，对第一相似度和第二相似度的第一加权和，当第一加权和高于预设阈值时，根据第二音频数据确定第一音频数据的音乐来源信息。本申请实施例中的音乐识别方法，通过音频指纹和歌词的双重匹配来对音频数据的音乐来源进行识别，并根据歌词信息的字符长度调整两种识别手段得到相似度的匹配权重，从而有效提高识别的精度，有利于精准识别出用户需求的音乐来源信息。

附图说明

为了更清楚地说明本申请实施例或者相关技术中的技术方案，下面对本申请实施例或者相关技术中的技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本申请的技术方案中的部分实施例，对于本领域的技术人员来说，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1为本申请实施例中提供的一种音乐识别方法的实施环境示意图；

图2为本申请实施例中提供的一种音乐识别方法的流程示意图；

图3为本申请实施例中提供的一种音乐播放应用程序的终端界面示意图；

图4为本申请实施例中提供的一种视频播放应用程序的终端界面示意图；

图5为本申请实施例中提供的另一种视频播放应用程序的终端界面示意图；

图6为本申请实施例中提供的音乐识别方法中一种根据第一相似度和第二相似度确定识别结果的示意图；

图7为本申请实施例中提供的音乐识别方法中另一种根据第一相似度和第二相似度确定识别结果的示意图；

图8为本申请实施例中提供的一种音乐识别方法中匹配资源库的示意图；

图9为本申请实施例中提供的一种音乐识别方法中匹配第一音频数据和第二音频数据的示意图；

图10为本申请实施例中提供的另一种音乐播放应用程序的终端界面示意图；

图11为本申请实施例中提供的一种音频文件推荐方法的流程示意图；

图12为本申请实施例中提供的一种音乐识别装置的结构示意图；

图13为本申请实施例中提供的一种计算机设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的部分名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

音频指纹技术(Audio fingerprinting technology)：该技术指的是通过特定的算法将一段音频数据中的数据特征以标识符的形式提取出来，方便用于识别海量的声音样本，因为不同音频数据的数据特征具有差异性，类似于人的指纹，故该数据特征也被称为音频指纹。

自动语音识别技术(Automatic Speech Recognition，ASR)：该技术是让计算机能够“听写”出不同人所说出的连续语音，也就是俗称的“语音听写机”，是实现“声音”到“文字”转换的技术，可以将人的语音信息转换为文本信息。

光学字符识别技术(Optical Character Recognition，OCR)：该技术是指电子设备(例如扫描仪或数码相机)检查图像的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成文字的技术。

自然语言处理技术(Natural Language Processing，NLP)，该技术是现代计算机科学和人工智能领域的一个重要分支，是一门融合了语言学、数学、计算机科学的科学。这一领域的研究将涉及自然语言，即人们日常使用的语言。但自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，主要应用包括词法分析、词向量表示、词义相似度、短文本相似度和情感倾向分析等。

本申请实施例中所提供的音乐识别方法、音频文件的推荐方法主要涉及人工智能技术。人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。其中，人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术；人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

具体地，本申请实施例中提供的音乐识别方法、音频文件的推荐方法可以采用人工智能领域内的计算机视觉技术和自然语言处理技术处理音频数据的歌词信息，也可以采用语音处理技术、机器学习/深度学习技术处理音频数据的指纹信息。该音乐识别方法、音频文件的推荐方法可以在各种人工智能系统的应用场景中被执行：例如，用户希望知道终端中播放音乐的信息，可以采用能够执行本申请提供的音乐识别方法的人工智能系统对其进行识别；音频播放平台希望对平台内的音乐资源做到有效推广，则可以通过人工智能系统基于本申请实施例中的音频文件的推荐方法向用户推荐合适的音乐资源。本领域技术人员可以理解的是，以上的应用场景仅起到示例性的作用，并不意味着对本申请实施例中的音乐识别方法及音频文件的推荐方法的实际应用形成限制。在不同应用场景中，人工智能系统都可以利用本申请实施例中提供的方法执行指定的任务。

当下，移动互联网的发展深刻地改变了人们的生活方式，各类音频资源呈现的内容能够给人以丰富的视听体验，极大地满足了大家娱乐休闲的需求。但是与此同时，这些音频资源的爆炸式增长，也给用户或者资源平台带来了溯源不便、检索困难的问题，例如用户希望找寻到某个自己心仪的歌曲、平台希望对音频文件做到更好的管理和推荐工作，都离不开良好的检索识别技术。

相关技术中的音乐检索方式，一般是基于音频文件的简介信息来检索，例如需要用户提供视频文件或者音乐文件的名称信息、作者信息或者类型信息等来查询。而部分情况下，用户可能只是在某处听到了觉得喜爱的歌曲，并不知道歌曲的名称、演唱者等详细信息，所以这些需要用于音乐检索的信息是用户无法事先得到的，检索工作根本就无从下手。另一方面，由于音频处理技术的发展和门槛的降低、歌曲素材的易得，某些小众的音乐爱好者或者视频创作者也能自行创作出受欢迎的音乐作品。这些音乐作品可能出自不知名的非专职作者，只是用于某个视频文件的背景配乐，并无具体的名称信息，又容易被其他的作者拿来进行使用或者二次创作，由于这些作品之间关联的信息很少，查询起来非常困难。并且，这种情况也导致了很多音乐作品会出现各式各样的改编、翻唱版本，可能搜索同一个音乐的名称，会出现非常多不同版本的搜索结果，找到目标版本的难度相当高。综合来看，当前的音乐检索技术，检索的方式比较单一，面对数据量日益庞大、复杂的音乐资源应用难度大，且检索的准确率不高，用户经常难以找到心仪的音乐，即当前的音乐检索技术无法较好地适应用户需求，在一定程度上影响了用户体验。

有鉴于此，本申请实施例中提供一种音乐识别方法，通过音频指纹信息和歌词信息的双重匹配来对音频数据的音乐来源信息进行识别，并根据歌词信息的字符长度调整两种识别手段得到相似度的匹配权重，从而有效提高识别的精度，有利于精准识别出用户需求的音乐来源信息，提高用户查找音乐资源的搜索体验。

参照图1，图1中示出了本申请实施例中提供的音乐识别方法一种实施环境的示意图，该实施环境主要包括终端11和服务器12。其中，终端11上可以运行具有音频播放功能的相关软件或者网络平台，例如该软件或者网络平台可以是音频播放程序、音频播放网页或者依赖宿主程序运行的音频播放小程序等。在一些实施例中，终端11可以是音乐播放器、视频播放器、智能手机、平板电脑、笔记本电脑或者台式计算机等的任意一种。

服务器12可以是前述软件或者网络平台对应的后台服务器，其主要用于存储或者获取大量的音乐资源建立匹配资源库，并基于该匹配资源库实现本申请实施例中的音乐识别方法。在一些实施例中，服务器12可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云存储、网络服务等业务的云服务器。在一些实施例中，终端11与服务器12之间可以通过无线网络或有线网络建立通信连接。该无线网络或有线网络使用标准通信技术和/或协议，网络可以设置为因特网，也可以是其它任何网络，例如包括但不限于局域网(Local AreaNetwork，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。

在图1所示出的实施例中，用户可以通过终端11将想要进行识别的音频数据发送给服务器12，服务器12接收到该音频数据后，执行本申请实施例中的音乐识别方法，并将识别结果返回给终端11，用户即可获取到该音频数据的音乐来源信息。

应当理解的是，在本申请实施例中，该音乐识别方法既可以应用于服务器12中，也可以应用于终端11中，还可以应用于终端11或服务器12中的软件，用于实现一部分的软件功能，但并不局限于以上形式。为方便描述起见，本申请实施例中以该音乐识别方法的各步骤的执行主体为服务器12来进行说明。参照图2，图2是本申请实施例提供的音乐识别方法的一个可选的流程图，图2中的方法包括步骤110至步骤160。

步骤110、获取待识别的第一音频数据；

本申请实施例中，音频数据是数字化的声音数据，音频数据的种类一般包括语音类型和音乐类型，本申请实施例中的音频数据主要是指音乐类型的音频数据。待识别的第一音频数据指的是需要识别出音乐来源的音频数据。此处，音乐来源表示第一音频数据的音乐出处，即出自于哪个音频文件。音频文件是保存、传输音频数据的一种数据编码格式，音频数据以音频文件的形式发布或传输。本申请实施例中的音频文件主要包括音乐文件和视频文件，其中，音乐文件中主要含有歌曲的音频数据，视频文件中主要含有包括背景音乐的视频的视频数据，该视频数据中含有背景音乐的音频数据。对应地，本申请实施例中的音乐出处可以是某个音乐文件或者带有背景音乐的视频文件，具体地，在一些实施例中，音乐来源的识别结果可以是某首歌曲的简介信息，例如歌曲名称、歌曲版本、创作者、所在专辑、发布渠道等信息的任意组合，基于这些简介信息可以搜索到包括该音频数据的音乐文件；在一些实施例中，音乐来源的识别结果可以是某个视频的简介信息，例如视频名称、视频创作者、发布渠道等信息的任意组合，基于这些简介信息可以搜索到背景音乐中包括该音频数据的视频文件；在一些实施例中，识别结果也可以是指向某个音乐文件或者视频文件本身的关联信息，例如音乐文件或者视频文件的资源链接。需要补充说明的是，本申请实施例中，第一音频数据可以包括至少一首完整的歌曲的音频数据，也可以包括至少一首歌曲的部分片段的音频数据，且该片段的长度、在歌曲中的位置均可以是任意的。

本申请实施例中，以图1所示的实施环境为例，对于服务器12而言，其从终端11处获取第一音频数据或者包含有第一音频数据的数据源。而对于终端11而言，其获取第一音频数据的渠道来源及手段可以是多种多样的：在一些实施例中，终端11可以通过自带的拾音设备从外界环境中采集获取第一音频数据。参照图3，例如可以在终端11上安装有具备“听歌识曲”功能的应用程序，当使用“听歌识曲”的功能时，终端11可以基于自身的麦克风获取到外界环境中播放的第一音频数据，然后将第一音频数据发送给服务器12进行识别，从而获取到第一音频数据所对应的歌曲的简介信息，并可以在应用程序的界面中显示出来，如图3中应用程序的听歌识曲显示框31中示出：当前外界环境中播放的歌曲是《今天是个好日子》。

在一些实施例中，终端11也可以从本地端获取到包含第一音频数据的数据源，参照图4和图5，例如在终端11的一些视频播放应用程序中，可以设置相应的“识别视频的背景音乐”的功能，当用户点击该功能对应的图标按钮41时，终端11从本地端获取正在播放的视频数据，然后将该视频数据发送给服务器12进行处理，服务器12获取到视频数据后，可以采用FFmpeg等处理工具从其中抽取得到第一音频数据，并对第一音频数据进行识别，从而获取到该视频中背景音乐所对应的歌曲的简介信息。该简介信息同样可以在应用程序的界面中显示出来，例如图5中，应用程序的背景音乐识别显示框51中示出：当前视频中背景音乐播放的歌曲是《滚滚长江东逝水》。在一些实施例中，由于视频中背景音乐的第一音频数据可能和视频中其他类型的音频数据有重叠，例如人物的对话声和背景音乐混在了一起。这种情况下，直接对视频中的音频数据进行识别，其他类型的音频数据会对音乐识别结果造成干扰，可能导致识别的精度下降。对此，本申请实施例中，在获取第一音频数据时还可以选择先从视频数据的音轨中分离出背景音乐的音频数据，将部分音乐类型的音频数据作为第一音频数据进行处理，便可得到背景音乐的识别结果，从而有效提高对视频背景音乐识别时的准确性。

应当理解的是，以上仅为一些可选的获取第一音频数据的实施例，并不意味着对第一音频数据的实际来源渠道和获取手段作具体限制。

步骤120、提取第一音频数据的第一音频指纹信息和第一歌词信息；

本申请实施例中，通过音频指纹技术提取第一音频数据的音频指纹信息，记为第一音频指纹信息。此处，音频指纹信息可以是音频数据的频谱的数字特征，例如从音频数据的频谱中按照预定的规则选取一些时间频率点，将其编码为数字，该数字即可以作为音频数据的音频指纹信息。具体地，本申请中采用的音频指纹提取算法可以根据需要任选，例如在一些实施例中，可以对音频数据按照一定的帧叠进行分帧和加窗，得到多个音频帧，具体地，此处分帧指的是按预设规则将整段的音频数据切成多段，每一段即为一个音频帧，加窗指的是使用预设的窗函数对每个音频帧进行截取，从而使分帧后的音频数据更加连贯，表现出更好的周期函数特征，该窗函数可以是矩形窗、汉明窗或者高斯窗等的任意一种。然后对获取的音频帧进行快速傅里叶变换(FFT，Fast Fourier Transformation)，得到每个音频帧的频谱，选取每帧频谱中的峰值信号作为该频谱的数字特征来构造音频数据的音频指纹信息；在一些实施例中，在得到音频帧的频谱后，也可以在频域上将每个音频帧划分出多个子带，然后计算任意两个相邻子带之间的能量差分的差值，基于得到的差值来构造音频数据的音频指纹信息。上述的方式在编码时一般都是将数字特征转换为哈希序列，即以哈希序列作为音频数据的音频指纹信息。在一些实施例中，还可以通过神经网络模型提取音频数据频谱的数字特征，得到的数据格式可以是数值、向量或者矩阵中的任一种。举例来说，可以对音频数据进行抽帧，构建梅尔频谱图后通过VGGish深度模型进行提取，将VGGish深度模型中最后的全连接层输出作为每个音频帧的深度表示，然后将各音频帧的深度表示拼接成的序列作为该音频数据的音频指纹信息。其中，该VGGish深度模型可以是在大量的音频分类数据上训练得到的。当然，以上提取音频指纹信息的方式仅为一些可选的实施例，并且，在实际应用中，既可以采用任意一种音频指纹技术提取第一音频指纹信息用于识别；也可以采用多种音频指纹技术提取多种第一音频指纹信息，然后可以采用各种第一音频指纹信息对同一个第一音频数据进行多次的音乐识别，以提高识别准确性。

本申请实施例中，将第一音频数据的歌词信息记为第一歌词信息。具体地，第一歌词信息可以包括第一歌词文本信息和第一歌词发音信息，对于第一歌词文本信息来说，其可以采用多种方法提取得到：以图3中所示的具有“听歌识曲”功能的应用程序为例，服务器12获取到终端11发送的第一音频数据后，可以采用自动语音识别技术(Automatic SpeechRecognition，ASR)对第一音频数据进行语音识别，从而得到第一歌词文本信息；以图4和图5中所示的具有“识别视频的背景音乐”功能的应用程序为例，服务器12获取到视频数据后，可以提取视频数据的至少一个视频帧，采用文字识别技术，例如OCR(Optical CharacterRecognition，光学字符识别)技术对视频帧中的歌词信息进行识别，得到第一歌词文本信息。例如在图4中，可以对视频下方的字幕框42进行文字识别，得到播放的背景音乐所对应的第一歌词文本信息“滚滚长江东逝水”。当然，应当理解的是，本申请实施例中，对于视频数据来说，其同样也可以采用先提取第一音频数据，然后对第一音频数据进行语音识别处理的方式来得到第一歌词文本信息。

本申请实施例中，在提取歌词文本信息时有可能会出现识别错误的情况，例如文本中可能会出现错别字的现象，因此单纯以歌词文本信息进行音乐识别存在一定的弊端，可能会影响到识别的精度。本申请实施例中，在得到第一歌词文本信息后，还可以对第一歌词文本信息进行转换，提取第一歌词文本信息的发音，记为第一歌词发音信息，将其用于音乐识别。举例来说，如针对某个第一音频数据识别出的第一歌词文本信息中含有“想去还边看海鸥”的内容，这部分文本存在着错误，正确的文本应该是“想去海边看海鸥”，此时如果用“想去还边看海鸥”去进行识别，和原本的歌词文本信息存在差异，可能会难以识别到第一音频数据的音乐来源信息。而将此第一歌词文本信息中的“想去还边看海鸥”转换为发音信息时，得到的第一歌词发音信息为“xiang’qu’hai’bian’kan’hai’ou”，这和正确的歌词文本信息所转换得到的发音信息是一致的，所代表的发音含义是正确无误的，因此在这种情况下，采用第一歌词发音信息可以在一定程度上提高音乐识别的正确率。本申请实施例中，对第一歌词文本信息进行转换时，可以将其与预先构建的分词词条(词条含有对应的发音信息)进行匹配，匹配到歌词文本最可能出现的分词形式，然后查询每个匹配到的词条的发音信息进行拼接，即可得到第一歌词发音信息。需要补充说明的是，本申请实施例中，在采用第一音频数据的第一歌词信息进行音乐识别时，既可以单独使用第一歌词文本信息或者第一歌词发音信息，也可以一同使用第一歌词文本信息和第一歌词发音信息。

步骤130、确定第一音频指纹信息与第二音频指纹信息的第一相似度，并确定第一歌词信息与第二歌词信息的第二相似度；第二音频指纹信息和第二歌词信息从第二音频数据提取得到；

本申请实施例中，将待识别的第一音频数据的第一音频指纹信息与第二音频数据的第二音频指纹信息进行匹配，得到第一相似度；将待识别的第一音频数据的第一歌词信息与第二音频数据的第二歌词信息进行匹配，得到第二相似度，第一相似度和第二相似度可以用于确定第一音频数据和第二音频数据之间相关性的高低。具体地，第二音频数据可以来自现有的音乐文件或者带有背景音乐的视频文件，这些音乐文件或者视频文件就是用户希望找寻的第一音频数据的音乐出处，即音乐来源信息所对应的文件。若第一音频数据和第二音频数据的相关性很高，说明第一音频数据很可能和第二音频数据具有相同的来源，此时即可以通过第二音频数据来确定第一音频数据的音乐来源信息。

具体地，本申请实施例中，确定第一相似度的具体方式可以视第一音频指纹信息和第二音频指纹信息的提取方式或者数据格式的情况而定，在一些实施例中，可以按照第一音频指纹信息和第二音频指纹信息的数字特征的重合程度确定，例如可以通过两者哈希序列的最长公共子序列占哈希序列的比例确定其重合程度，对于同一组的第一音频指纹信息和第二音频指纹信息，最长公共子序列越长，第一相似度越大，反之，最长公共子序列越短，第一相似度越小。

在一些实施例中，可以先确定第一音频指纹信息和第二音频指纹信息的数字特征之间的差异值，然后根据该差异值来确定第一相似度，差异值越大，第一相似度越小，反之，差异值越小，第一相似度越大。以前述的VGGish深度模型提取第一音频指纹信息和第二音频指纹信息的方式为例，可以先计算第一音频指纹信息和第二音频指纹信息对应的序列间的方差，然后将方差的绝对值作为差异值，通过差异值和预定的函数确定第一相似度，该函数使得第一相似度和差异值之间为负相关关系。应当理解的是，此处差异值的计算方式可以有多种方式，例如可以是数值间的差值、向量间的欧氏距离、矩阵间的范数差等。本申请实施例中，可以以百分比的形式来表征相似度，例如当第一相似度的数值为100％时，可以认为第一音频指纹信息和第二音频指纹信息完全相同。

类似地，本申请实施例中，第二歌词信息可以包括第二歌词文本信息和第二歌词发音信息，将第一歌词文本信息和第二歌词文本信息之间的相似度记为第三相似度，第三相似度的确定方式可以有多种：在一些实施例中，可以直接根据第一歌词文本信息和第二歌词文本信息中相同的字符所占的比例来确定第三相似度，例如第一歌词文本信息和第二歌词文本信息中均有10个字符，其中第一歌词文本信息中有8个字符和第二歌词文本信息相同，则第三相似度可以确定为80％。在一些实施例中，可以自然语言处理技术(NaturalLanguage Processing，NLP)提取第一歌词文本信息和第二歌词文本信息对应的语义向量，然后通过计算二者提取到的语义向量的欧氏距离来确定第三相似度，当欧氏距离越大时，第三相似度越小，反之，当欧氏距离越小时，第三相似度越大。在一些实施例中，也可以直接采用深度匹配模型对第一歌词文本信息和第二歌词文本信息进行相似匹配，例如采用BERT(Bidirectional Encoder Representations from Transformers)模型对进行分词处理后的第一歌词文本信息和第二歌词文本信息进行短文本相似度分析，得到二者的相似度作为第三相似度。BERT模型是深度的双向系统，进行短文本相似度匹配时具有很好的表现，比较适合歌词文本信息的处理。本申请实施例中，将第一歌词发音信息和第二歌词发音信息之间的相似度记为第四相似度，第四相似度的确定方式和上述第三相似度的确定方式类似，在此不再赘述。

对于第一歌词信息与第二歌词信息之间的第二相似度，既可以单独以第三相似度作为第二相似度，也可以单独以第四相似度作为第二相似度，还可以先确定第三相似度和第四相似度的加权和，记为第二加权和，然后将第二加权和作为第二相似度。举例来说，例如某组第一歌词信息和第二歌词信息中，文本信息的相似度即第三相似度为80％，发音信息的相似度即第四相似度为90％，则第一歌词信息和第二歌词信息之间的第二相似度可以按第三相似度取作80％，也可以按第四相似度取作90％，并且可选地，还可以通过第三相似度和第四相似度的加权和，即a*80％+b*90％来确定，其中a和b的取值可以预先设定，一般可以约束a+b＝1。例如设定a和b的取值均为0.5时，则第二相似度求得为85％。当然，以上a、b的数值仅为举例说明，实际的加权比例可以根据需要灵活设定，在此不作限制。

本申请实施例中，对第一音频数据和第二音频数据进行匹配后，根据匹配的相似度结果确定二者的相关性是否达到了预定的标准，如果相关性高于预定的标准则可以根据第二音频数据确定第一音频数据的音乐来源信息。具体地，可以预先对二者的音频指纹信息的第一相似度设定一个阈值，记为第三阈值，当第一相似度高于第三阈值时，可以认为第一音频数据和第二音频数据在音频特征上较为相似，很可能属于同一个音乐；类似地，也可以预先对第一音频数据和第二音频数据的歌词信息的第二相似度设定一个阈值，记为第四阈值，当第二相似度高于第四阈值时，可以认为从歌词特征的角度考量，第一音频数据和第二音频数据属于同一个音乐的可能性较大。当第一音频数据和第二音频数据在音频特征和歌词特征上匹配的相似度均较高时，则说明两者的相关性很强。

基于以上的考虑，参照图6，本申请实施例中，在确定到第一音频数据和第二音频数据之间的第一相似度和第二相似度后，可以将第一相似度与第三阈值进行对比，第二相似度与第四阈值进行对比，当第一相似度高于第三阈值且第二相似度高于第四阈值时，判定第一音频数据和第二音频数据具有较高的相关性，识别结果可以认为第一音频数据和第二音频数据的音乐来源相同；当第一相似度低于第三阈值或者第二相似度低于第四阈值时，判定第一音频数据和第二音频数据的相关性较低，识别结果可以认为第一音频数据和第二音频数据的音乐来源不同。举例来说，可以将第三阈值设置为80％，第四阈值设置为90％，若某组第一音频数据和第二音频数据的第一相似度为85％，第二相似度为95％，此时第一相似度高于第三阈值，第二相似度高于第四阈值，认为第一音频数据和第二音频数据之间高度相关，因而可以基于第二音频数据去确定第一音频数据的音乐来源信息。

步骤140、根据第一歌词信息的字符长度，确定第一相似度对应的第一权重和第二相似度对应的第二权重；

本申请实施例中，对于不同的音乐，其歌词的分布情况可能有较大区别，例如有的歌曲歌词较少，用于匹配时可能容易出现误识别。因此在确定第一相似度和第二相似度时，可以通过第一歌词信息的字符长度对第一相似度和第二相似度参与音乐识别时的可靠程度进行调整。具体地，若第一歌词信息的字符长度较长，则说明第一音频数据中歌词所能提供的信息比较丰富，通过歌词信息进行匹配识别时可能精确度较高，可以相应地提高第二相似度对应的第二权重，降低第一相似度对应的第一权重(可以将第一相似度和第二相似度之和固定设置为1)；反之，若第一歌词信息的字符长度较短，则说明第一音频数据中歌词所能提供的信息比较匮乏，通过歌词信息进行匹配识别时可能精确度较低，因此可以相应地降低第二相似度对应的第二权重，提高第一相似度对应的第一权重。此处字符长度对应的权重，可以是预先设定的一些区间，举例来说，例如当第一歌词信息的字符长度小于10个字符时，将第一权重设置为0.8，第二权重设置为0.2；当第一歌词信息的字符长度在10到20个字符时，将第一权重设置为0.5，第二权重设置为0.5；当第一歌词信息的字符长度大于20个字符时，将第一权重设置为0.2，第二权重设置为0.8。应当理解是，上述的权重设置方式只是一种可选的实施方式，实际应用过程设置的具体字符长度区间、权重大小都可以根据需要灵活调整。本申请实施例中，字符长度既可以根据歌词文本信息确定，也可以根据歌词发音信息确定，还可以根据二者的均值或者加权和确定。

在一些实施例中，还可以以单位时间内的第一歌词信息中的字符长度作为调整第一权重和第二权重的依据，即以第一歌词信息的字符在时间维度上的分布密度来判断第一歌词信息是否能够提供较多用于识别的信息。具体地，通过第一歌词信息的字符长度和第一音频数据的播放时长，确定第一歌词信息的字符密度，若得到的字符密度较高，则提高第二相似度对应的第二权重，降低第一相似度对应的第一权重；反之，若字符密度较低，则降低第二相似度对应的第二权重，提高第一相似度对应的第一权重。

步骤150、根据第一权重和第二权重，对第一相似度和第二相似度进行加权求和，得到第一加权和；

步骤160、当第一加权和高于第一阈值，根据第二音频数据确定第一音频数据的音乐来源信息。

参照图7，本申请实施例中，将第一相似度与第二相似度按照前述得到的对应权重进行加权求和，得到的数值记为第一加权和，然后将第一加权和与预先设定的第一阈值进行比较，当第一加权和高于第一阈值时，判定第一音频数据和第二音频数据具有较高的相关性，识别结果可以认为第一音频数据和第二音频数据的音乐来源相同；当第一加权和低于第一阈值时，判定第一音频数据和第二音频数据的相关性较低，识别结果可以认为第一音频数据和第二音频数据的音乐来源不同。例如，可以将第一阈值设置为92％，同样以前述的第一音频数据和第二音频数据的第一相似度为85％，第二相似度为95％为例，第一加权和的计算公式可以表示为85％*c+95％*d，其中，c记为第一权重，d记为第二权重，一般c+d的和可以约束为1。本申请实施例中，假设第一歌词信息的字符长度为15个字符，对应的第一权重为0.5，第二权重为0.5，即c和d的值均为0.5，则第一加权和的数值为90％，此时第一加权和小于第一阈值，可以认为第一音频数据和第二音频数据相关性不足，很可能不是来源于同一个音乐。应当说明的是，本申请实施例中，各个阈值设置的大小可以灵活调整，并不固定为所列举的实施方式。

本申请实施例中，当确定到第一音频数据和第二音频数据的相关性较高时，认为第一音频数据和第二音频数据具有相同的音乐来源，可以根据第二音频数据来确定第一音频数据的出处，并可以提供给方便用户搜索第一音频数据出处的音乐来源信息。由于当前音频数据的来源情况可能较复杂，因此确定的音乐来源信息的结果形式可能有所不同，举例来说，在一些实施例中，例如第二音频数据可能来自于某个专辑中的歌曲，则可以将该首歌曲的歌曲名、作者或者专辑信息等返回作为第一音频数据音乐来源信息的识别结果，表明第一音频数据来自于该首歌曲；在一些实施例中，第二音频数据可能来自于某个视频创作者自行创作的歌曲或者歌曲片段，只是用在了一个视频中作为背景音乐，并没有对歌曲进行署名，此时可以将该视频的发布平台、视频名称或者创作者名称等返回作为第一音频数据音乐来源信息的识别结果，表明第一音频数据来自于该视频的背景音乐。应当理解的是，以上仅为音乐来源信息可能的一些实施方式，具体的应用中可以采用任意的信息指向含有第二音频数据的音乐文件或者视频文件，该信息即为确定到的第一音频数据的音乐来源信息。

下面对本申请实施例的具体实现过程进行说明，应当理解的是，以下实施例仅为对本申请的示范性说明，并不对本申请的实际应用形成限制。

本申请实施例中，对于需要执行音乐识别方法的服务器12而言，首先获取大量的音乐资源建立匹配资源库，具体地，该匹配资源库可以通过批量获取音乐文件和带有背景音乐的视频文件来建立。参照图8，匹配资源库中可以包括种子音乐库81和种子视频库82，用以提供与待识别的第一音频数据进行匹配的第二音频数据。具体地，种子音乐库81可以通过抓取大量的音乐文件建立，例如从现有的音乐播放器平台、音乐数据库中提取得到，种子视频库82则可以通过抓取各类电影、短视频文件建立得到。建立种子音乐库81和种子视频库82以后，将其中的音乐文件作为第二音频数据或者提取视频文件背景音乐中的音频数据作为第二音频数据，并提取第二音频数据的音频指纹信息(即前述的第二音频指纹信息)和歌词信息(即前述的第二歌词信息)，其中第二歌词信息包括第二歌词文本信息和第二歌词发音信息。此处，提取第二音频指纹信息的方式与前述第一音频指纹信息的方式类似，转换得到第二歌词发音文本信息的方式和前述第一歌词发音信息的方式类似，不再赘述。在进行相似度匹配时，一般将采用同种音频指纹提取技术得到的第一音频指纹信息和第二音频指纹信息进行匹配。另外，对于第二歌词文本信息，本申请实施例中，除了按照前述第一歌词文本信息的方式进行提取外，还可以直接下载其公开的歌词文本文件或者视频背景音乐的字幕文件得到。对于提取到的每个第二音频数据，本申请实施例中，可以基于其第二音频指纹信息和第二歌词信息建立倒排索引，倒排的信息为第二音频指纹信息和第二歌词信息，正排的信息为第二音频数据对应的音乐来源信息，当识别过程中认为第一音频数据和该第二音频数据相关性较高时，将返回索引中的音乐来源信息作为第一音频数据的识别结果。

参照图9，当服务器12执行本申请实施例中的音乐识别方法时，其获取待识别的第一音频数据，并与建立的匹配资源库中的至少一个第二音频数据进行匹配，即匹配第一音频指纹信息与第二音频指纹信息，确定第一相似度；匹配第一歌词信息与第二歌词信息，确定第二相似度，具体地，第二相似度可以通过第一歌词文本信息和第二歌词文本信息的相似度，或者第一歌词发音信息和第二歌词发音信息的相似度中的至少一个确定得到。在得到第一相似度和第二相似度后，按照图6或者图7中的方式确定第一音频数据和第二音频数据是否具有较高的相关性，若二者的相关性达到了预定的标准，则可以选择停止匹配并基于当前的第二音频数据返回第一音频数据音乐来源信息作为识别结果。在一些实施例中，也可以选择继续匹配，当匹配到多个第二音频数据时，可能对应有多个音乐文件或者视频文件，此时可以选择第一加权和最高的第二音频数据所对应的音乐文件或者视频文件作为音乐来源信息的识别结果，也可以选择发布时间最早的音乐文件或者视频文件作为音乐来源信息的识别结果。例如参照图10，以具有“听歌识曲”功能的应用程序为例，若对匹配资源库中的第二音频数据进行匹配后，发现有多个相关性较高的第二音频数据，则可以以第一加权和最高的第二音频数据所对应的文件作为第一音频数据音乐来源信息的识别结果，例如图10中可以设定第一显示框101，用以显示“最接近的音乐版本”，其中显示的“《今天是个好日子—电音版》、歌手张三”即为第一音频数据最有可能的出处；其余的第二音频数据所对应的文件的信息，则归类为“可能相关的音乐版本”，可以在设定的第二显示框102显示出来，在准确给出用户需求的音乐版本信息的同时，也能方便用户欣赏该音乐存在的其他版本。

若第一音频数据和第二音频数据的相关性较低，则可以更换其他的第二音频数据继续与第一音频数据进行匹配，当匹配资源库中所有的第二音频数据都匹配过且未找到与第一音频数据较为相关的第二音频数据时，可以将第一音频数据的音乐来源信息识别为原创音乐类型，即现有的音乐资源中没有公开第一音频数据。当然，在一些实施例中，也可以设置第二阈值，第二阈值小于或者等于前述的第一阈值，当匹配资源库中所有的第二音频数据对应的第一加权和低于第二阈值时，将第一音频数据的音乐来源信息识别为原创音乐类型。通过设置较低的相似度阈值，可以筛选掉一些改编较大、无法识别到原版音乐但仍和原版音乐存在部分相关性的二次创作音乐。并且，在一些实施例中，对于识别为原创音乐类型的第一音频数据，也可以进一步获取其关联的简介信息，将其也加入到匹配资源库中作为第二音频数据。

应当说明的是，本申请实施例中的音乐识别方法，既可以用于帮助用户查询喜爱的音乐，也可以用于帮助音频平台进行音乐资源的检索和管理，例如，在一些实施例中，平台可以采用上述实施例中的音乐识别方法确定创作者上传的音乐是否属于原创类型的音乐，是否存在较为严重的抄袭行为，即该音乐识别方法可以用于确定音乐资源的版权信息；在一些实施例中，平台可以采用上述实施例中的音乐识别方法确定出视频中用到的背景音乐信息，可以生成如图5所示出的提示信息，并提供相应的链接帮助用户更快、更好地找到原版的音乐文件或者视频文件，方便了视听资源的推广。

参照图11，本申请实施例中，还提供一种音频文件的推荐方法，类似地，该音频文件的推荐方法可应用于终端中，也可应用于服务器中，还可以应用于终端或服务器中的软件，用于实现一部分的软件功能。在一些实施例中，终端可以是音乐播放器、视频播放器、智能手机、平板电脑、笔记本电脑或者台式计算机等；服务器可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务以及大数据和人工智能平台等服务的云服务器；软件可以是音频或者视频播放的应用程序等，但并不局限于以上形式。图11中示出的是本申请实施例中提供的音频文件的推荐方法一个可选的流程示意图，该方法主要包括步骤1110至步骤1130：

步骤1110、获取第一音频数据；

步骤1120、通过前述的音乐识别方法对第一音频数据进行识别，获得第一音频数据的音乐来源信息；

步骤1130、推荐音乐来源信息对应的音乐文件或者视频文件。

本申请实施例中，采用如图2所示出的音乐识别方法对第一音频数据进行识别，获取其音乐来源信息，即确定第一音频数据来自哪个音乐文件或者视频文件，然后推荐对应的音乐文件或者视频文件给用户。具体地，请参照图5，图5中通过前述的音乐识别方法识别出当前视频的背景音乐为歌曲《滚滚长江东逝水》之后，还提供了“听一听”的推荐功能，当用户点击右侧对应的链接图标511时，可以自动转到该音乐文件进行欣赏，省去了用户自行查找的步骤，有助于提高用户的音频浏览体验。在一些实施例中，请参照图10，当基于前述的音乐识别方法识别到第一音频数据可能出自某个视频文件中的背景音乐时，也可以将该视频文件推荐给用户，例如图10中第二显示框102内向用户推荐了“电影《好日子》”的相关信息。并且，可以理解的是，图2所示的音乐识别方法实施例中的内容均适用于本音频文件的推荐方法实施例中，本音频文件的推荐方法实施例在搜索音频文件过程中所具体实现的功能与图2所示的音乐识别方法实施例相同，并且达到的有益效果与图2所示的音乐识别方法实施例所达到的有益效果也相同。

参照图12，本申请实施例还公开了一种音乐识别装置，包括：

获取模块1210，用于获取待识别的第一音频数据；

提取模块1220，用于提取第一音频数据的第一音频指纹信息和第一歌词信息；

处理模块1230，用于确定第一音频指纹信息与第二音频指纹信息的第一相似度，并确定第一歌词信息与第二歌词信息的第二相似度；第二音频指纹信息和第二歌词信息从第二音频数据提取得到；

权重确定模块1240，用于根据第一歌词信息的字符长度，确定第一相似度对应的第一权重和第二相似度对应的第二权重；

求和模块1250，用于根据第一权重和第二权重，对第一相似度和第二相似度进行加权求和，得到第一加权和；

识别模块1260，用于当第一加权和高于第一阈值，根据第二音频数据确定第一音频数据的音乐来源信息。

可以理解的是，图2所示的音乐识别方法实施例中的内容均适用于本音乐识别装置实施例中，本音乐识别装置实施例所具体实现的功能与图2所示的音乐识别方法实施例相同，并且达到的有益效果与图2所示的音乐识别方法实施例所达到的有益效果也相同。

参照图13，本申请实施例还公开了一种计算机设备，包括：

至少一个处理器1310；

至少一个存储器1320，用于存储至少一个程序；

当至少一个程序被至少一个处理器1310执行，使得至少一个处理器1310实现如图2所示的音乐识别方法实施例或者图11所示的音频文件的推荐方法实施例。

可以理解的是，如图2所示的音乐识别方法实施例或者图11所示的音频文件的推荐方法实施例中的内容均适用于本计算机设备实施例中，本计算机设备实施例所具体实现的功能与如图2所示的音乐识别方法实施例或者图11所示的音频文件的推荐方法实施例相同，并且达到的有益效果与如图2所示的音乐识别方法实施例或者图11所示的音频文件的推荐方法实施例所达到的有益效果也相同。

本申请实施例还公开了一种计算机可读存储介质，其中存储有处理器可执行的程序，处理器可执行的程序在由处理器执行时用于实现如图2所示的音乐识别方法实施例或者图11所示的音频文件的推荐方法实施例。

可以理解的是，图2所示的音乐识别方法实施例或者图11所示的音频文件的推荐方法实施例中的内容均适用于本计算机可读存储介质实施例中，本计算机可读存储介质实施例所具体实现的功能与图2所示的音乐识别方法实施例或者图11所示的音频文件的推荐方法实施例相同，并且达到的有益效果与图2所示的音乐识别方法实施例或者图11所示的音频文件的推荐方法实施例所达到的有益效果也相同。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在上述的计算机可读存储介质中；图13所示的计算机设备的处理器可以从上述的计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图2所示的音乐识别方法实施例或者图11所示的音频文件的推荐方法实施例。

可以理解的是，图2所示的音乐识别方法实施例或者图11所示的音频文件的推荐方法实施例中的内容均适用于本计算机程序产品或计算机程序实施例中，本计算机程序产品或计算机程序实施例所具体实现的功能与图2所示的音乐识别方法实施例或者图11所示的音频文件的推荐方法实施例相同，并且达到的有益效果与图2所示的音乐识别方法实施例或者图11所示的音频文件的推荐方法实施例所达到的有益效果也相同。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外，在本申请的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本申请，但应当理解的是，除非另有相反说明，功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本申请是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本申请。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本申请的范围，本申请的范围由所附权利要求书及其等同方案的全部范围来决定。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读存储介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本申请的实施方式，本领域的普通技术人员可以理解：在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本申请的范围由权利要求及其等同物限定。

以上是对本申请的较佳实施进行了具体说明，但本申请并不限于实施例，熟悉本领域的技术人员在不违背本申请精神的前提下可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种音乐识别方法，其特征在于，包括以下步骤：

获取待识别的第一音频数据；

2.根据权利要求1所述的方法，其特征在于，所述获取待识别的第一音频数据，包括：

获取待识别的视频数据；

从所述视频数据中抽取得到所述第一音频数据。

3.根据权利要求1所述的方法，其特征在于，所述第一歌词信息包括第一歌词文本信息；

所述提取所述第一音频数据的第一歌词信息，包括：

对所述第一音频数据进行语音识别，得到所述第一歌词文本信息。

4.根据权利要求2所述的方法，其特征在于，所述第一歌词信息包括第一歌词文本信息；

所述提取所述第一音频数据的第一歌词信息，包括：

提取所述视频数据的视频帧；

对所述视频帧进行文字识别，得到所述第一歌词文本信息。

5.根据权利要求3或4中任一项所述的方法，其特征在于，所述第一歌词信息还包括第一歌词发音信息；

所述提取所述第一音频数据的第一歌词信息，还包括：

对所述第一歌词文本信息进行转换，得到所述第一歌词发音信息。

6.根据权利要求5所述的方法，其特征在于，所述第二歌词信息包括第二歌词文本信息和第二歌词发音信息；

所述确定所述第一歌词信息与第二歌词信息的第二相似度，包括：

将所述第一歌词文本信息和所述第二歌词文本信息的相似度作为所述第二相似度；

或者，

将所述第一歌词发音信息和所述第二歌词发音信息的相似度作为所述第二相似度；

或者，

确定所述第一歌词文本信息和所述第二歌词文本信息的第三相似度，确定所述第一歌词发音信息和所述第二歌词发音信息的第四相似度，并根据所述第三相似度和所述第四相似度的第二加权和确定所述第二相似度。

7.根据权利要求1所述的方法，其特征在于，所述根据所述第一歌词信息的字符长度，确定所述第一相似度对应的第一权重和所述第二相似度对应的第二权重，包括：

根据所述第一歌词信息的字符长度和所述第一音频数据的播放时长，确定所述第一歌词信息的字符密度；

根据所述字符密度，确定所述第一权重和所述第二权重。

8.根据权利要求1所述的方法，其特征在于，所述第二音频数据通过以下步骤得到：

批量获取音乐文件和带有背景音乐的视频文件，建立匹配资源库；

将所述匹配资源库中的所述音乐文件作为所述第二音频数据；

或者，

对所述匹配资源库中的所述视频文件进行处理，得到所述第二音频数据。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括以下步骤：

确定所述匹配资源库中所有所述第二音频数据对应的所述第一加权和低于第二阈值，将所述第一音频数据的所述音乐来源信息识别为原创音乐类型。

10.一种音频文件的推荐方法，其特征在于，包括以下步骤：

获取第一音频数据；

通过如权利要求1-8中任一项所述的方法对所述第一音频数据进行识别，获得所述第一音频数据的音乐来源信息；

推荐所述音乐来源信息对应的音乐文件或者视频文件。

11.一种音乐识别装置，其特征在于，包括：

获取模块，用于获取待识别的第一音频数据；

12.一种计算机设备，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-10任一项所述的方法。

13.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于：所述处理器可执行的程序在由所述处理器执行时用于实现如权利要求1-10中任一项所述的方法。