CN115064184A

CN115064184A - 一种音频文件乐器含量识别向量表示方法及装置

Info

Publication number: CN115064184A
Application number: CN202210750836.8A
Authority: CN
Inventors: 夏妍; 林锋
Original assignee: Mgjia Beijing Technology Co ltd
Current assignee: Mgjia Beijing Technology Co ltd
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2022-09-16

Abstract

本发明提供了一种音频文件乐器含量识别向量表示方法及装置，其中，音频文件乐器含量识别向量表示方法包括：将待识别音频文件划分为若干音频数据；将每一音频数据输入乐器识别模型，得到每一音频数据中各乐器的出现概率；在当前音频数据中第一乐器的出现概率超过预设值时，判定所述当前音频数据中存在所述第一乐器；分别统计包含每一乐器对应音频数据的个数；计算各乐器在所述待识别音频文件中的含量；将各乐器在待识别音频文件中的含量进行汇总，得到待识别音频文件的乐器含量向量。在对音频文件中多种乐器的准确识别的同时，更好地评估乐器含量对音频文件的影响以及更好地对音频文件进行分析、分类和推荐，满足用户的多种需求。

Description

一种音频文件乐器含量识别向量表示方法及装置

技术领域

本发明涉及多媒体音频识别领域，具体涉及一种音频文件乐器含量识别向量表示方法及装置。

背景技术

随着数字格式音乐文件的急速增加，用户越来越倾向于播放音乐软件或者硬件能够根据用户的播放历史，找到用户喜爱的音乐特点，自动推荐出自己喜欢的歌曲。一首歌曲中往往包含有多种乐器，每种乐器音色不同、占整首歌的比例不同，对应歌曲想表达的感情也不尽相同。为了更好地对音乐文件进行推荐，需要对音频文件中乐器进行更加准确地识别，现有技术虽然可以判断乐器是否在音频文件中出现，但很少考虑到乐器含量在音频文件中的作用。

发明内容

因此，本发明要解决的技术问题在于克服现有技术中的无法准确对歌曲中多种乐器进行准确识别，同时忽略不同乐器在歌曲中所占比重对歌曲影响的缺陷，从而提供一种音频文件乐器含量识别向量表示方法及装置。

根据第一方面，本发明实施例提供了一种音频文件乐器含量识别向量表示方法，所述方法包括：

将待识别音频文件划分为若干音频数据；

将每一音频数据输入乐器识别模型，得到每一音频数据中各乐器的出现概率；

依次判断每一音频数据中各乐器的出现概率是否超过预设值；

在当前音频数据中第一乐器的出现概率超过预设值时，判定所述当前音频数据中存在所述第一乐器；

分别统计包含每一乐器对应音频数据的个数；

基于每一乐器对应音频数据的个数及音频数据的总数，计算各乐器在所述待识别音频文件中的含量；

将各乐器在所述待识别音频文件中的含量进行汇总，得到所述待识别音频文件的乐器含量向量表示结果。

可选地，所述将待识别音频文件划分为若干音频数据，包括：

对所述待识别音频文件进行划分，得到所述待识别音频文件的若干中间音频数据；

对每一中间音频数据进行梅尔标度处理，得到各所述中间音频数据的梅尔谱图数据。

可选地，所述将每一音频数据输入乐器识别模型，得到每一音频数据中各乐器的出现概率，包括：

基于乐器识别模型，获取各所述中间音频数据的梅尔谱图数据对应的特征向量；

基于所述乐器识别模型和特征向量，计算得到每一音频数据中各乐器的出现概率。

可选地，所述乐器识别模型包括不同乐器对应的分类模型，所述基于所述乐器识别模型和特征向量，计算得到每一音频数据中各乐器的出现概率，包括：

将当前中间音频数据的梅尔谱图数据对应的特征向量分别输入至不同乐器对应的分类模型中，得到当前音频数据中不同乐器的出现概率。

可选地，计算各乐器在所述待识别音频文件中的含量的公式如下：

其中，f为当前乐器在所述待识别音频文件中的含量，s为当前乐器对应音频数据的个数，N为音频数据的总数。

可选地，所述方法还包括：

基于各乐器在所述待识别音频文件中的含量，判断所述待识别音频文件的曲风。

根据第二方面，本发明实施例提供了一种音频文件乐器含量识别向量表示装置，所述装置包括：

划分模块，用于将待识别音频文件划分为若干音频数据；

第一处理模块，用于将每一音频数据输入乐器识别模型，得到每一音频数据中各乐器的出现概率；

第二处理模块，用于依次判断每一音频数据中各乐器的出现概率是否超过预设值；

第三处理模块，用于在当前音频数据中第一乐器的出现概率超过预设值时，判定所述当前音频数据中存在所述第一乐器；

统计模块，用于分别统计包含每一乐器对应音频数据的个数；

计算模块，用于基于每一乐器对应音频数据的个数及音频数据的总数，计算各乐器在所述音频文件中的含量；

表示模块，用于将各乐器在所述待识别音频文件中的含量进行汇总，得到所述待识别音频文件的乐器含量向量表示结果。

可选地，所述划分模块包括：

第一处理子模块，用于对所述待识别音频文件进行划分，得到所述待识别音频文件的若干中间音频数据；

第二处理子模块，用于对每一中间音频数据进行梅尔标度处理，得到各所述中间音频数据的梅尔谱图数据。

根据第三方面，本发明实施例提供了一种电子设备，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行第一方面，或者第一方面任意一种可选实施方式中所述的方法。

根据第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行第一方面，或者第一方面任意一种可选实施方式中所述的方法。

本发明技术方案，具有如下优点：

本发明提供的音频文件乐器含量识别向量表示方法及装置，通过将待识别音频文件划分为若干音频数据；将每一音频数据输入乐器识别模型，得到每一音频数据中各乐器的出现概率；依次判断每一音频数据中各乐器的出现概率是否超过预设值；在当前音频数据中第一乐器的出现概率超过预设值时，判定所述当前音频数据中存在所述第一乐器；分别统计包含每一乐器对应音频数据的个数；基于每一乐器对应音频数据的个数及音频数据的总数，计算各乐器在所述待识别音频文件中的含量；将各乐器在所述待识别音频文件中的含量进行汇总，得到所述待识别音频文件的乐器含量向量表示结果。通过将待识别音频文件划分为若干音频数据，基于乐器识别模型，对每一段音频数据中的各乐器进行识别，通过判断待识别音频文件中的乐器种类，并对识别出的乐器在待识别音频文件中的含量进行计算，汇总各乐器含量，得到所述待识别音频文件的乐器含量向量表示结果，不仅可以实现对音频文件中多种乐器的准确识别，还充分考虑了乐器在音频文件中的含量，从而可以更好地评估乐器含量对音频文件的影响以及更好地对音频文件进行分析、分类和推荐，满足用户的多种需求。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的音频文件乐器含量识别向量表示方法的流程图；

图2为本发明实施例的音频文件乐器含量识别向量表示方法的聚类结果图；

图3为本发明实施例的音频文件乐器含量识别向量表示装置的结构示意图；

图4为本发明实施例的音频文件乐器含量识别向量表示装置的划分模块结构示意图；

图5为本发明实施例的一种电子设备的结构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明实施例提供了一种音频文件乐器含量识别向量表示方法，如图1所示，该音频文件乐器含量识别向量表示方法具体包括如下步骤：

步骤S101：将待识别音频文件划分为若干音频数据。

具体地，在实际应用中，本发明实施例为提高对待识别音频文件中乐器含量的准确性，采用小时间粒度对待识别文件进行划分。优选地，划分的时间单元为1秒钟。将待识别文件划分为N个1秒钟的音频数据，提高了对音频数据中的各乐器进行识别判断的准确性。

具体地，在一实施例中，上述步骤S101具体包括如下步骤：

步骤S201：对所述待识别音频文件进行划分，得到所述待识别音频文件的若干中间音频数据。

步骤S202：对每一中间音频数据进行梅尔标度处理，得到各所述中间音频数据的梅尔谱图数据。

具体地，在实际应用中，本发明实施例对所述待识别音频文件进行划分，分成相同时间长度的若干段中间音频数据，通过对每一段中间音频数据进行时域到频域的转换，再转换为梅尔标度，得到若干梅尔谱图的音频数据，将梅尔谱图形式的音频数据输入至乐器识别模型进行后续的乐器识别。

优选地，划分时间长度可为1秒钟，但实际情况不限于此，为保证对待识别音频文件中乐器含量进行确定的准确性而进行划分时间数量和数值的改变，也在本发明实施例提供的音频文件乐器含量识别向量表示方法的保护范围之内。

优选地，在进行短时傅里叶变换时，本发明实施例采用每25毫秒一个窗口，窗口移动的步长是10毫秒，所以1秒钟的音频会被分为有重叠的100个窗口。通过将上述预设窗口数量的频域信号从频率标度转换为梅尔标度，得到待识别音频文件的梅尔谱图数据。

步骤S102：将每一音频数据输入乐器识别模型，得到每一音频数据中各乐器的出现概率。

具体地，在实际应用中，由于人声也具有其独特的音色性质，本发明实施例也可对人声进行识别，具体地，本发明实施例可对人声、吉他、小提琴、鼓等20种乐器进行识别，但实际情况不限于此，通过训练乐器识别模型，本发明实施例可对更多种类的乐器进行识别。

优选地，本发明实施例采用的是VGG卷积神经网络模型作为乐器识别模型的主体模型，VGG模型是来自计算机视觉领域的经典模型，包含6个卷积层和3个全连接层，通过将梅尔谱图形式的音频数据输入VGG模型中，生成128维的特征向量。本发明实施例使用的乐器识别模型中的主体VGG模型为现有技术中已有的VGG卷积神经网络模型，其构建、训练和识别过程均可参照现有技术中的相关描述进行实施，在此不再进行赘述。

具体地，在一实施例中，在执行上述步骤S201和步骤S202之后，上述步骤S102具体还包括如下步骤：

步骤S301：基于乐器识别模型，获取各所述中间音频数据的梅尔谱图数据对应的特征向量。

步骤S302：基于乐器识别模型和特征向量，计算得到每一音频数据中各乐器的出现概率。

具体地，为提高识别音频数据中各乐器的准确性和效率，本发明实施例在主体VGG模型的基础上，加入分类器模型，优选地，本发明实施例采用的分类器模型为随机森林模型。随机森林模型是一种由多棵决策树组成的分类器，其输出的类别是由个别树输出的类别的众数而定，随机森林模型的优点包括：不容易过拟合，模型效果更好等，其中特别的，随机森林在不同乐器上的表现会更平均。本发明实施例对支持的20种乐器各分配一个单独的随机森林模型，由对应的随机森林模型对该种乐器的存在进行判定，不仅提高了识别的准确性，还可实现同步对多乐器的识别，提高了识别效率。

具体地，在实际应用中，本发明实施例基于乐器识别模型中的主体VGG模型得到各中间音频数据的梅尔谱图对应的特征向量，将特征向量输入至乐器识别模型中的随机森林模型，计算得到每一音频数据中各乐器的出现概率。

具体地，本发明实施例可识别的乐器为吉他、小提琴、鼓、镲、钢琴、班卓、槌击乐、大提琴、长笛、尤克里里、曼陀林、萨克斯，此外，还可对于人声以及合成器进行识别，在处理过程中，本发明实施例也将人声和合成器作为乐器进行识别，识别和计算过程与其他乐器的处理方式相似。

具体地，在一实施例中，上述步骤S302具体包括如下步骤：

步骤S401：将当前中间音频数据的梅尔谱图数据对应的特征向量分别输入至不同乐器对应的分类模型中，得到当前音频数据中不同乐器的出现概率。

具体地，在实际应用中，需要对随机森林模型的深度和树的数量进行选择，树的数量太少容易欠拟合，太大则浪费资源，也不能提升很多，而树的深度在高输入维度低样本量的时候非常有用，可以有效防止模型过度拟合，本发明实施例采用的随机森林模型的最大深度为8，树的数量为100，通过合理设置深度和数量，提高识别速度。

步骤S103：依次判断每一音频数据中各乐器的出现概率是否超过预设值。

具体地，随机森林模型由分类决策树构成，分类决策树的输出结果是出现或者不出现，本发明实施例采用的随机森林模型中一共有100棵树，统计输出结果为出现的数量，即可得到该种乐器的出现概率。

示例性地，如果有85棵的结果是出现，其余是不出现，则可认为这种乐器在这一秒的音频内出现的概率是0.85，通过用概率的形式来表示乐器出现的概率，为后续判定乐器是否存在于音频数据中奠定基础。

步骤S104：在当前音频数据中第一乐器的出现概率超过预设值时，判定所述当前音频数据中存在所述第一乐器。

具体地，在实际应用中，本发明实施例通过计算待识别音频文件中某一乐器是否出现的概率，将计算得到的出现概率与预设值进行比较，当该种乐器的出现概率大于或等于预设值时，则判定该种乐器在当前音频数据中出现。

优选地，本发明实施例对每1秒钟的音频数据进行判断，通过将待识别音频文件划分为若干小粒度的音频数据，基于小粒度的音频数据对音频数据内的乐器存在情况进行计算判断，提高了识别的准确性，为评估乐器含量对音频文件的影响提供数据支撑。

优选地，本发明实施例提供的预设值为0.5，即当该种乐器的出现概率大于0.5时，则判定该种乐器在当前音频数据中出现。

步骤S105：分别统计包含每一乐器对应音频数据的个数。

步骤S106：基于每一乐器对应音频数据的个数及音频数据的总数，计算各乐器在所述待识别音频文件中的含量。

具体地，在实际应用中，计算各乐器在所述待识别音频文件中的含量的公式如下：

具体地，在实际应用中，本发明实施例是基于小粒度的音频数据对多种乐器进行识别，s可用当前乐器在当前音频数据的出现秒数进行表示；N可用待识别音频文件的时长进行表示。

步骤S107：将各乐器在待识别音频文件中的含量进行汇总，得到待识别音频文件的乐器含量向量表示结果。

具体地，在实际应用中，如果一首歌一共有N秒，这种乐器在其中s秒中都出现了，则乐器的得分认为是s/N；最后，我们可以用各个乐器的得分组成向量来表示这首歌。

示例性地，将整首歌曲按1秒钟切开，得到N段1秒钟的音频，每种乐器初始的分数是0分，每在1秒钟的时间出现，加1分，用累加的最终分数除以N，作为这种乐器的得分，比如：人声：94％、吉他：41％、小提琴：29％、鼓：23％、镲：22％、钢琴：8％、班卓：4％、槌击乐：3％、合成器：3％、大提琴：3％、长笛：2％、尤克里里：1％、曼陀林：1％、萨克斯：1％。最后把所有乐器的得分汇总在一起，得到一个20维的向量，本发明实施例通过用向量的方式表示各乐器的含量，不仅可以直观看到各乐器在待识别音频文件中的占比情况，在后期进行歌曲分类时，还可将各乐器比重对不同曲风音频文件的影响直接可视化，增强了评估的直观感受。

具体地，在实际应用中，本发明实施例对乐器识别的准确性进行了评估，计算公式如下：

其中，P为当前乐器识别结果的精确率；R为当前乐器识别结果的召回率。

具体地，F1数值的评估标准可根据应用场景进行调整，示例性地，本发明实施例通过计算得到吉他/人声/鼓/钢琴四种主要乐器的F1在0.9左右，这四种乐器是流行音乐的基石，这四种乐器的预测准确率高会比较重要；而整体的F1虽然稍微低了一些，但是也可以接受。

具体地，在一实施例中，在执行上述步骤S107之后，还包括如下步骤：

步骤S108：基于各乐器在所述待识别音频文件中的含量，判断所述待识别音频文件的曲风。

具体地，在实际应用中，通过前期对多个音频文件中各乐器的含量进行计算，分别得到多个音频文件的向量，通过对比向量以及各音频文件中各乐器含量情况，不仅可以更好地评估乐器含量对音频文件的影响，还可以以乐器含量的方式对音乐文件进行分析、分类和推荐，判断待识别音频文件的曲风、流派和情绪等等，从而满足用户的多种需求。

为了验证基于本发明实施例提供的音频文件乐器含量识别向量表示方法最终生成的乐器含量向量的有效性，本发明实施例还在一批音乐数据的乐器向量上进行了聚类，通过对聚类结果的观察，得出聚类结果合理性的结论，证明乐器含量向量的意义。

1.将700首歌曲作为聚类验证的输入，基于本发明实施例提供的音频文件乐器含量识别向量表示方法，分别得到各首歌中的乐器含量情况，例如：

(1)S.H.E-候鸟：人声76％；吉他31％；钢琴25％；镲24％；鼓15％；小提琴12％；合成器5％；长笛5％。

(2)蔡依林-骑士精神：人声68％；鼓58％；镲47％；合成器21％；小提琴10％；槌击乐9％；长笛4％。

(3)陈奕迅-好久不见：钢琴77％；人声63％；大提琴34％；小提琴28％；吉他10％；合成器10％。

(4)101金帆交响乐团-李斯特《前奏曲》(Live)：小提琴84％；大提琴62％；人声27％；钢琴27％；合成器26％；小号9％；萨克斯7％；长号4％；鼓3％；管风琴2％。

(5)胡歌-六月的雨-《仙剑奇侠传》电视剧插曲：人声81％；吉他42％；钢琴25％；镲22％；鼓10％；小提琴9％；合成器6％。

2.基于各首歌的乐器含量结果，得到对应的20维乐器向量，具体情况如下：

(1)S.H.E-候鸟：[0.31，0.76，0.0，0.0，0.0，0.0，0.05，0.15，0.05，0.25，0.0，0.0，0.24，0.0，0.0，0.12，0.0，0.0，0.0，0.0]

(2)蔡依林-骑士精神：[0.0，0.68，0.0，0.09，0.0，0.0，0.04，0.58，0.21，0.0，0.0，0.0，0.47，0.0，0.0，0.1，0.0，0.0，0.0，0.0]

(3)陈奕迅-好久不见：[0.1，0.63，0.0，0.0，0.0，0.0，0.0，0.0，0.1，0.77，0.0，0.34，0.0，0.0，0.0，0.28，0.0，0.0，0.0，0.0]

(4)101金帆交响乐团-李斯特《前奏曲》(Live)：[0.0，0.27，0.0，0.0，0.0，0.0，0.0，0.03，0.26，0.27，0.07，0.62，0.0，0.0，0.04，0.84，0.0，0.0，0.09，0.02]

(5)胡歌-六月的雨-《仙剑奇侠传》电视剧插曲：[0.42，0.81，0.0，0.0，0.0，0.0，0.0，0.1，0.06，0.25，0.0，0.0，0.22，0.0，0.0，0.09，0.0，0.0，0.0，0.0]

3.使用20维乐器向量对700首歌曲进行聚类，优选地，本发明实施例采用层次聚类的方式对歌曲文件进行聚类，层次聚类可一次性地得到了整个聚类的过程，只要得到了聚类树，想要将距离阈值设置为多少都可以直接根据树结构来得到结果，即使改变距离阈值也不需要再次计算数据点的归属；此外，层次聚类还适用于任意形状的聚类，并且对样本的输入顺序是不敏感的。

通过设定距离阈值，可以得到聚类结果如图2所示。当距离阈值大于7.5时，由纵坐标轴7.5位置横向画一条平行于横坐标轴的射线，可得到0个交点，即所有歌曲文件为同一类；通过合理设置距离阈值，即可实现对音频文件的聚类分析，优选地，当距离阈值为1.5时(如图2虚线所示)，聚类数量为15。

为更好地判断聚为一类的歌曲文件是否存在某些共性，本发明实施例将聚类的数量定的稍微多一点，通过层次聚类的层次聚类树，选择聚类的数量是15类。聚类完成后，可以得到聚类结果如下：

(1)第一类：

陶喆-Melody：人声84％；吉他46％；钢琴33％；镲20％；小提琴11％；鼓9％；合成器8％；大提琴5％。

陶喆-爱我还是他：人声72％；钢琴49％；吉他45％；镲14％；大提琴9％；鼓9％；小提琴8％。

孙燕姿-遇见-《向左走，向右走》电影主题曲：人声62％；钢琴58％；吉他49％；合成器11％；大提琴9％；小提琴9％；镲7％。

南拳妈妈-下雨天：人声78％；吉他49％；钢琴23％；镲23％；鼓14％；小提琴11％；合成器5％；大提琴5％。

………

(2)第二类：

S.H.E-美丽新世界：人声87％；合成器29％；鼓29％；小提琴7％；镲6％；钢琴5％。

郑秀文-眉飞色舞-《煞科》国语版：人声89％；合成器45％；鼓37％；镲6％。

潘玮柏-快乐崇拜：人声94％；鼓63％；合成器38％；镲11％。

萧亚轩-爱的主打歌：人声90％；鼓60％；合成器28％；镲23％；小提琴9％。

……

(8)第八类：

张学友-谁想轻轻偷走我的吻：镲63％；人声55％；吉他55％；萨克斯44％；小号35％；鼓30％；长号28％；长笛16％；小提琴13％；贝斯9％；钢琴7％；手风琴5％；班卓4％。

小野丽莎-Fly Me To The Moon：吉他59％；人声43％；萨克斯37％；小号31％；钢琴30％；镲29％；长号24％；长笛7％；尤克里里7％；曼陀林5％；大提琴5％；单簧管5％；合成器5％。

Miles Davis Sextet-So What：萨克斯82％；小号73％；镲72％；长号57％；鼓39％；吉他19％；钢琴18％；合成器7％；贝斯7％；长笛4％；单簧管3％；小提琴2％；大提琴2％。

Miles Davis Sextet-Freddie Freeloader：萨克斯92％；小号84％；镲76％；长号68％；鼓37％；吉他15％；钢琴12％；小提琴4％；长笛3％；单簧管3％；合成器2％；贝斯2％。

Miles Davis Sextet-All Blues：萨克斯85％；小号77％；长号58％；镲58％；鼓31％；吉他27％；钢琴17％；大提琴12％；小提琴11％；单簧管10％；长笛6％；手风琴4％；班卓3％；合成器3％；曼陀林2％；尤克里里2％。

……

(9)第九类：

Classical Artists-巴赫：第一号无伴奏大提琴组曲前奏曲《寻羊冒险记》(Instrumental)：大提琴94％；小提琴81％；钢琴34％；吉他7％。

Edita Gruberova-Die Zauberflote-Der Holle Rache(Akt II)：小提琴92％；大提琴76％；人声63％；小号20％；钢琴16％；合成器12％；长号8％。

Alan Loveday-Violin Concerto in E Minor；RV 279La strava：小提琴97％；大提琴90％；钢琴18％；长笛10％；人声6％。

Concertgebouw Orchestra-Symphony No.94in G Major Supris：小提琴96％；大提琴78％；人声23％；钢琴21％；合成器8％；萨克斯7％；小号7％；长号3％。

101金帆交响乐团-李斯特《前奏曲》(Live)：小提琴84％；大提琴62％；人声27％；钢琴27％；合成器26％；小号9％；萨克斯7％；长号4％；鼓3％；管风琴2％。

上海音乐学院室内乐团-海顿：C大调弦乐四重奏《皇帝》第一乐章Haydn：StringQuartet The Emperor In C Major Movement No.1：小提琴97％；大提琴96％；钢琴28％；手风琴9％；人声4％。

……

经聚类结果可以得到，第一类内的音频文件均为抒情类的慢歌；第二类内的音频文件均为节奏很欢快的歌曲；……；第八类内的音频文件除了“张学友-谁想轻轻偷走我的吻”之外，其他的都是爵士乐，但是经过对歌曲文件《谁想轻轻偷走我的吻》内的乐器含量以及根据用户主观感受进行综合分析，该歌曲具有爵士乐风格，因此第八类内的音频文件均为爵士乐风格；第九类内的音频文件均为古典乐……通过使用歌曲的乐器含量向量进行聚类，可以把一些相似的歌曲聚在一起，说明了乐器含量向量表示方式可有效对待识别音频文件的曲风、流派和情绪进行展示和表达。

通过执行上述步骤，本发明实施例提供的音频文件乐器含量识别向量表示方法，通过将待识别音频文件划分为若干音频数据；将每一音频数据输入乐器识别模型，得到每一音频数据中各乐器的出现概率；依次判断每一音频数据中各乐器的出现概率是否超过预设值；在当前音频数据中第一乐器的出现概率超过预设值时，判定所述当前音频数据中存在所述第一乐器；分别统计包含每一乐器对应音频数据的个数；基于每一乐器对应音频数据的个数及音频数据的总数，计算各乐器在所述待识别音频文件中的含量；将各乐器在所述待识别音频文件中的含量进行汇总，得到所述待识别音频文件的乐器含量向量表示结果。通过将待识别音频文件划分为若干音频数据，基于乐器识别模型，对每一段音频数据中的各乐器进行识别，通过判断待识别音频文件中的乐器种类，并对识别出的乐器在待识别音频文件中的含量进行计算，汇总各乐器含量，得到所述待识别音频文件的乐器含量向量表示结果，不仅可以实现对音频文件中多种乐器的准确识别，还充分考虑了乐器在音频文件中的含量，从而可以更好地评估乐器含量对音频文件的影响以及更好地对音频文件进行分析、分类和推荐，满足用户的多种需求。

下面将结合具体应用示例，对本发明实施例提供的音频文件乐器含量识别向量表示方法进行详细的说明。

如图1所示，将待识别音频文件按1秒钟时间长度进行划分，得到N段1秒钟的中间音频数据，通过进行时频域转换、梅尔标度处理，最终得到若干梅尔谱图数据，将每段音频输入至乐器识别模型中，通过VGG模型获取每段音频数据对应的特征向量，将特征向量输入至随机森林模型中进行每段音频数据内各乐器的识别，并输出各乐器的出现概率，通过将乐器的出现概率与预设值进行比较，当乐器的出现概率大于等于0.5时，判定当前音频数据中该乐器出现，每种乐器初始的分数是0分，每在1秒钟的时间出现，加1分，用累加的最终分数除以N，作为这种乐器的得分，把所有乐器的得分汇总在一起，得到一个20维的向量，采用向量的方式对待识别音频文件进行聚类判断，将待识别音频文件中各乐器的含量进行直观展示的同时，还可以实现对待识别音频文件的曲风、流派和情绪的判断。

本发明实施例提供了一种音频文件乐器含量识别向量表示装置，如图3所示，该音频文件乐器含量识别向量表示装置包括：

划分模块101，用于将待识别音频文件划分为若干音频数据。详细内容参见上述方法实施例中步骤S101的相关描述，在此不再进行赘述。

第一处理模块102，用于将每一音频数据输入乐器识别模型，得到每一音频数据中各乐器的出现概率。详细内容参见上述方法实施例中步骤S102的相关描述，在此不再进行赘述。

第二处理模块103，用于依次判断每一音频数据中各乐器的出现概率是否超过预设值。详细内容参见上述方法实施例中步骤S103的相关描述，在此不再进行赘述。

第三处理模块104，用于在当前音频数据中第一乐器的出现概率超过预设值时，判定所述当前音频数据中存在所述第一乐器。详细内容参见上述方法实施例中步骤S104的相关描述，在此不再进行赘述。

统计模块105，用于分别统计包含每一乐器对应音频数据的个数。详细内容参见上述方法实施例中步骤S105的相关描述，在此不再进行赘述。

计算模块106，用于基于每一乐器对应音频数据的个数及音频数据的总数，计算各乐器在所述音频文件中的含量。详细内容参见上述方法实施例中步骤S106的相关描述，在此不再进行赘述。

表示模块107，用于将各乐器在所述待识别音频文件中的含量进行汇总，得到所述待识别音频文件的乐器含量向量表示结果。详细内容参见上述方法实施例中步骤S107的相关描述，在此不再进行赘述。

具体地，如图4所示，划分模块101包括：

第一处理子模块201，用于对所述待识别音频文件进行划分，得到所述待识别音频文件的若干中间音频数据。详细内容参见上述方法实施例中步骤S201的相关描述，在此不再进行赘述。

第二处理子模块202，用于对每一中间音频数据进行梅尔标度处理，得到各所述中间音频数据的梅尔谱图数据。详细内容参见上述方法实施例中步骤S202的相关描述，在此不再进行赘述。

上述的音频文件乐器含量识别向量表示装置的更进一步描述参见上述音频文件乐器含量识别向量表示方法实施例的相关描述，在此不再进行赘述。

通过上述各个组成部分的协同合作，本发明实施例提供的音频文件乐器含量识别向量表示装置，通过将待识别音频文件划分为若干音频数据，基于乐器识别模型，对每一段音频数据中的各乐器进行识别，通过判断待识别音频文件中的乐器种类，并对识别出的乐器在待识别音频文件中的含量进行计算，汇总各乐器含量，得到所述待识别音频文件的乐器含量向量表示结果，不仅可以实现对音频文件中多种乐器的准确识别，还充分考虑了乐器在音频文件中的含量，从而可以更好地评估乐器含量对音频文件的影响以及更好地对音频文件进行分析、分类和推荐，满足用户的多种需求。

本发明实施例提供了一种电子设备，如图5所示，该电子设备包括处理器901和存储器902，所述存储器902和所述处理器901之间互相通信连接，其中处理器901和存储器902可以通过总线或者其他方式连接，图5中以通过总线连接为例。

处理器901可以为中央处理器(Central Processing Unit，CPU)。处理器901还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器902作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中方法所对应的程序指令/模块。处理器901通过运行存储在存储器902中的非暂态软件程序、指令以及模块，从而执行处理器901的各种功能应用以及数据处理，即实现上述方法实施例中的方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器901所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至处理器901。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器902中，当被处理器901执行时，执行上述方法实施例中的方法。

上述电子设备具体细节可以对应参阅上述方法实施例中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，实现的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种音频文件乐器含量识别向量表示方法，其特征在于，包括：

将待识别音频文件划分为若干音频数据；

分别统计包含每一乐器对应音频数据的个数；

2.根据权利要求1所述的方法，其特征在于，所述将待识别音频文件划分为若干音频数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述将每一音频数据输入乐器识别模型，得到每一音频数据中各乐器的出现概率，包括：

4.根据权利要求3所述的方法，其特征在于，所述乐器识别模型包括不同乐器对应的分类模型，所述基于所述乐器识别模型和特征向量，计算得到每一音频数据中各乐器的出现概率，包括：

5.根据权利要求4所述的方法，其特征在于，计算各乐器在所述待识别音频文件中的含量的公式如下：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.一种音频文件乐器含量识别向量表示装置，其特征在于，包括：

划分模块，用于将待识别音频文件划分为若干音频数据；

8.根据权利要求7所述的音频文件乐器含量识别向量表示装置，其特征在于，所述划分模块包括：

9.一种电子设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行如权利要求1-6中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机从而执行如权利要求1-6中任一项所述的方法。