CN111462776A

CN111462776A - 一种歌曲寻点方法及其终端

Info

Publication number: CN111462776A
Application number: CN202010256735.6A
Authority: CN
Inventors: 牛嵩峰; 黎捷
Original assignee: Hunan Mango Hearing Technology Co ltd
Current assignee: Hunan Mango Hearing Technology Co ltd
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2020-07-28

Abstract

本发明公开了一种歌曲寻点方法及其终端，方法包括：获取精准标注时间点位的若干音乐素材；提取若干音乐素材中的声学特征；根据声学特征，进行训练，建立模型；接收待标注的音乐；将待标注音乐与模型进行匹配；输出待标注音乐时间点位。本方法通过对现有的少量音乐素材进行精准的标注，然后对精准标注的音乐素材进行学习，建立标准模型；然后将带标注的音乐放置模型中，进行自动地智能地对音乐进行寻点标注，极大地提升音频节目制作效率；从原来人工处理流转为人工智能处理，节约人力成本。

Description

一种歌曲寻点方法及其终端

技术领域

本发明涉及智能寻点技术领域，尤其涉及一种歌曲寻点方法及其终端。

背景技术

歌曲打点(打点)是指为一首歌标注相关的时间点位(人声起止、音乐副歌起止)，可提示主持人当前歌曲播放的实时状态，主持人在歌曲无人声有背景乐时进行在线主持，或进行音频节目的制作，根据标注点剪辑形成音乐节目。

现有主流音频剪辑软件的歌曲打点都是通过人工完成，即由人在听完一首歌后，在软件中标注出歌曲的人声起止与副歌起止时间节点，存在无法形成批量处理，消耗大量人力成本，不能及时提供音频素材的情况。

发明内容

有鉴于此，本发明的一种歌曲寻点方法及其终端，通过本方法，可智能地对歌曲进行寻点，极大地提升音频节目制作效率。

一种歌曲寻点方法，方法包括：

S1.获取精准标注时间点位的若干音乐素材；

S2.提取若干音乐素材中的声学特征；

S3.根据声学特征，进行训练，建立模型；

S4.接收待标注的音乐；

S5.将待标注音乐与模型进行匹配；

S6.输出待标注音乐时间点位。

优选地，所述步骤S3具体为：

根据提取的声学特征，进行若干次的训练；

将训练后的声学特征进行参数调整，建立模型。

优选地，所述声学特征参数调整为通过调整卷积神经网络和声音活跃侦测算法。

优选地，所述步骤S5与步骤S6之间还包括：

将匹配的信息低频滤波进行去噪。

优选地，所述声学特征包括梅尔频谱倒谱系数、过零率以及线性预测编码。

一种歌曲寻点终端，终端包括获取单元、提取单元、训练建模单元、接收单元、匹配单元以及输出单元；所述获取单元、提取单元、训练建模单元、接收单元、匹配单元以及输出单元依次连接，其中：

获取单元，用于获取精准标注时间点位的若干音乐素材；

提取单元，用于提取若干音乐素材中的声学特征；

训练建模单元，用于根据声学特征，进行训练，建立模型；

接收单元，用于接收待标注的音乐；

匹配单元，用于将待标注音乐与模型进行匹配；

输出单元，用于输出待标注音乐时间点位。

优选地，所述训练建模单元包括训练单元以及调参建模单元，其中：

训练单元，用于根据提取的声学特征，进行若干次的训练；

调参建模单元，用于将训练后的声学特征进行参数调整，建立模型。

优选地，所述调参建模单元中的声学特征参数调整为通过调整卷积神经网络和声音活跃侦测算法。

优选地，所述匹配单元与输出单元之间还设置有去噪单元，所述去噪单元两端分别连接于匹配单元、输出单元；所述去噪单元用于将匹配的信息低频滤波进行去噪。

优选地，所述提取单元提取的声学特征包括梅尔频谱倒谱系数、过零率以及线性预测编码。

本发明的有益效果在于：本发明的一种歌曲寻点方法及其终端，本方法通过对现有的少量音乐素材进行精准的标注，然后对精准标注的音乐素材进行学习，建立标准模型；然后将带标注的音乐放置模型中，进行自动地智能地对音乐进行寻点标注，极大地提升音频节目制作效率；从原来人工处理流转为人工智能处理，节约人力成本。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一种歌曲寻点方法实施例1的流程图；

图2为一种歌曲寻点方法实施例2的流程图；

图3为一种歌曲寻点终端实施例1的框图示意图；

图4为一种歌曲寻点终端实施例2的框图示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参看图1，一种歌曲寻点方法实施例1的流程图，一种歌曲寻点方法，方法包括：

S11.获取精准标注时间点位的若干音乐素材；对现有的音乐素材进行精准的标注；一般来说，获取的音乐素材越多、标注越精准，对后续的带寻点的音乐识别标注越精准，但是在实际过程中，考虑效率及精准的平衡，一般会选取有代表性的音乐进行精准标注时间位点；在标注时，对标注的音乐需精细到每一段时间内是纯音乐还是包括人声。对现有的音乐素材进行精准的时间点位标注后，获取该标注后的若干音乐素材。时间位点一般包括人声起止点、音乐副歌起止点。

S12.提取若干音乐素材中的声学特征；对获取的精准标注了时间点位的若干音乐素材进行声学特征提取；其中，声学特征主要包括梅尔频谱倒谱系数、过零率、线性预测编码；一般将梅尔频谱倒谱系数MFCC设置低20位。提取特征采样时，取连续帧长约0.2秒的数据作为一次采样结果，尽量保证样本正反例的均匀；其中，时间点位以人声演唱为例：人声演唱具有连续的特点，选择第一个峰值超过3秒的时间点作为人声起点，选择最后一个峰值超过3秒的时间点作为人声终止。

S13.根据声学特征，进行训练，建立模型；根据提取的声学特征(梅尔频谱倒谱系数、过零率、线性预测编码)，多音乐素材、多声学特征、多次不断地进行训练，将精准标注时间点位声学特征进行提取获得，得到训练结果，根据训练的结果，建立模型；一般地，建立的模型为标准模型。

S14.接收待标注的音乐；将一些待标注的音乐输入至模型；待标注的音乐为用户需要标注的音乐；即接收待标注的音乐。

S15.将待标注音乐与模型进行匹配；将接收的待标注音乐与模型进行匹配，即待标注音乐与模型声学特征进行定位，将待标注音乐中的声学特征标注出来，在一段时间内的音乐上进行确定时间点位。

S16.输出待标注音乐时间点位；在一段时间内的音乐上进行了时间点位后，输出待标注音乐时间点位，呈现给用户。

请参看图3，一种歌曲寻点终端实施例1的流程图，一种歌曲寻点终端，终端300包括获取单元31、提取单元32、训练建模单元33、接收单元34、匹配单元35以及输出单元36；获取单元31、提取单元32、训练建模单元33、接收单元34、匹配单元35以及输出单元36依次连接，其中：

获取单元31，用于获取精准标注时间点位的若干音乐素材；对现有的音乐素材进行精准的标注；一般来说，获取的音乐素材越多、标注越精准，对后续的带寻点的音乐识别标注越精准，但是在实际过程中，考虑效率及精准的平衡，一般会选取有代表性的音乐进行精准标注时间位点；在标注时，对标注的音乐需精细到每一段时间内是纯音乐还是包括人声。对现有的音乐素材进行精准的时间点位标注后，获取该标注后的若干音乐素材。时间位点一般包括人声起止点、音乐副歌起止点。

提取单元32，用于提取若干音乐素材中的声学特征；对获取的精准标注了时间点位的若干音乐素材进行声学特征提取；其中，声学特征主要包括梅尔频谱倒谱系数、过零率、线性预测编码；一般将梅尔频谱倒谱系数MFCC设置低20位。提取特征采样时，取连续帧长约0.2秒的数据作为一次采样结果，尽量保证样本正反例的均匀；其中，时间点位以人声演唱为例：人声演唱具有连续的特点，选择第一个峰值超过3秒的时间点作为人声起点，选择最后一个峰值超过3秒的时间点作为人声终止。

训练建模单元33，用于根据声学特征，进行训练，建立模型；根据提取的声学特征(梅尔频谱倒谱系数、过零率、线性预测编码)，多音乐素材、多声学特征、多次不断地进行训练，将精准标注时间点位声学特征进行提取获得，得到训练结果，根据训练的结果，建立模型；一般地，建立的模型为标准模型。

接收单元34，用于接收待标注的音乐；将一些待标注的音乐输入至模型；待标注的音乐为用户需要标注的音乐；即接收待标注的音乐。

匹配单元35，用于将待标注音乐与模型进行匹配；将接收的待标注音乐与模型进行匹配，即待标注音乐与模型声学特征进行定位，将待标注音乐中的声学特征标注出来，在一段时间内的音乐上进行确定时间点位。

输出单元36，用于输出待标注音乐时间点位；在一段时间内的音乐上进行了时间点位后，输出待标注音乐时间点位，呈现给用户。

请参看图2，一种歌曲寻点方法实施例2的流程图，一种歌曲寻点方法，方法包括：

S21.获取精准标注时间点位的若干音乐素材；对现有的音乐素材进行精准的标注；一般来说，获取的音乐素材越多、标注越精准，对后续的带寻点的音乐识别标注越精准，但是在实际过程中，考虑效率及精准的平衡，一般会选取有代表性的音乐进行精准标注时间位点；在标注时，对标注的音乐需精细到每一段时间内是纯音乐还是包括人声。对现有的音乐素材进行精准的时间点位标注后，获取该标注后的若干音乐素材。时间位点一般包括人声起止点、音乐副歌起止点。

S22.提取若干音乐素材中的声学特征；对获取的精准标注了时间点位的若干音乐素材进行声学特征提取；其中，声学特征主要包括梅尔频谱倒谱系数、过零率、线性预测编码；一般将梅尔频谱倒谱系数MFCC设置低20位。提取特征采样时，取连续帧长约0.2秒的数据作为一次采样结果，尽量保证样本正反例的均匀；其中，时间点位以人声演唱为例：人声演唱具有连续的特点，选择第一个峰值超过3秒的时间点作为人声起点，选择最后一个峰值超过3秒的时间点作为人声终止。

S23.根据声学特征，进行训练；根据提取的声学特征，进行若干次的训练；根据提取的声学特征(梅尔频谱倒谱系数、过零率、线性预测编码)，多音乐素材、多声学特征、多次不断地进行训练，将精准标注时间点位声学特征进行提取获得，得到训练结果；一般地，训练的次数取决于音乐素材的多少。

S24.对声学特征参数进行调整，建立模型；将训练后的声学特征进行参数调整，建立模型；由于训练的结果不一定会符合目标模型，所以一般需要对声学特征参数进行调整；一般调整为通过不断调整CNN(卷积神经网络)和VAD(声音活跃侦测)算法，实现智能寻点，调整模型；选出最优的模型。

S25.接收待标注的音乐；将一些待标注的音乐输入至模型；待标注的音乐为用户需要标注的音乐；即接收待标注的音乐。

S26.用于将待标注音乐与模型进行匹配；将接收的待标注音乐与模型进行匹配，即待标注音乐与模型声学特征进行定位，将待标注音乐中的声学特征标注出来，在一段时间内的音乐上进行确定时间点位。

S27.将匹配的信息低频滤波进行去噪；由于匹配出来的信息可能会有很多不想关，但是会干扰目标信息；所以需要对信息进行低频滤波去噪。例如：有的乐器与人声的音色较接近，经过分析，模型将纯音乐预测为人声的错误率较高。因此在预测阶段，在预测曲线上增加低频滤波器，过滤小于中位数的值。

S28.用于输出待标注音乐时间点位；在一段时间内的音乐上进行了时间点位后，输出待标注音乐时间点位，呈现给用户。

请参看图4，一种歌曲寻点终端实施例2的流程图，一种歌曲寻点终端，终端400包括获取单元41、提取单元42、训练单元43、调参建模单元44、接收单元45、匹配单元46、去噪单元47以及输出单元48；获取单元41、提取单元42、训练单元43、调参建模单元44、接收单元45、匹配单元46、去噪单元47以及输出单元48依次连接；其中：

获取单元41，用于用于获取精准标注时间点位的若干音乐素材；对现有的音乐素材进行精准的标注；一般来说，获取的音乐素材越多、标注越精准，对后续的带寻点的音乐识别标注越精准，但是在实际过程中，考虑效率及精准的平衡，一般会选取有代表性的音乐进行精准标注时间位点；在标注时，对标注的音乐需精细到每一段时间内是纯音乐还是包括人声。对现有的音乐素材进行精准的时间点位标注后，获取该标注后的若干音乐素材。时间位点一般包括人声起止点、音乐副歌起止点。

提取单元42，用于用于提取若干音乐素材中的声学特征；对获取的精准标注了时间点位的若干音乐素材进行声学特征提取；其中，声学特征主要包括梅尔频谱倒谱系数、过零率、线性预测编码；一般将梅尔频谱倒谱系数MFCC设置低20位。提取特征采样时，取连续帧长约0.2秒的数据作为一次采样结果，尽量保证样本正反例的均匀；其中，时间点位以人声演唱为例：人声演唱具有连续的特点，选择第一个峰值超过3秒的时间点作为人声起点，选择最后一个峰值超过3秒的时间点作为人声终止。

训练单元43，用于根据声学特征，进行训练；根据提取的声学特征，进行若干次的训练；根据提取的声学特征(梅尔频谱倒谱系数、过零率、线性预测编码)，多音乐素材、多声学特征、多次不断地进行训练，将精准标注时间点位声学特征进行提取获得，得到训练结果；一般地，训练的次数取决于音乐素材的多少。

调参建模单元44，用于对声学特征参数进行调整，建立模型；将训练后的声学特征进行参数调整，建立模型；由于训练的结果不一定会符合目标模型，所以一般需要对声学特征参数进行调整；一般调整为通过不断调整CNN(卷积神经网络)和VAD(声音活跃侦测)算法，实现智能寻点，调整模型；选出最优的模型。

接收单元45，用于接收待标注的音乐；将一些待标注的音乐输入至模型；待标注的音乐为用户需要标注的音乐；即接收待标注的音乐。

匹配单元46，用于用于将待标注音乐与模型进行匹配；将接收的待标注音乐与模型进行匹配，即待标注音乐与模型声学特征进行定位，将待标注音乐中的声学特征标注出来，在一段时间内的音乐上进行确定时间点位。

去噪单元47，用于将匹配的信息低频滤波进行去噪；由于匹配出来的信息可能会有很多不想关，但是会干扰目标信息；所以需要对信息进行低频滤波去噪。例如：有的乐器与人声的音色较接近，经过分析，模型将纯音乐预测为人声的错误率较高。因此在预测阶段，在预测曲线上增加低频滤波器，过滤小于中位数的值。

输出单元48，用于用于输出待标注音乐时间点位；在一段时间内的音乐上进行了时间点位后，输出待标注音乐时间点位，呈现给用户。

以上所描述的实施例仅仅是示意性的，本发明实施例可以根据实际需要进行顺序调整、合并和删减。

实施例对本方案进行了详细的介绍，本文中应用了具体个例对本发明的结构原理及实施方式进行了阐述，以上实施例只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种歌曲寻点方法，其特征在于，方法包括：

S1.获取精准标注时间点位的若干音乐素材；

S2.提取若干音乐素材中的声学特征；

S3.根据声学特征，进行训练，建立模型；

S4.接收待标注的音乐；

S5.将待标注音乐与模型进行匹配；

S6.输出待标注音乐时间点位。

2.根据权利要求1所述的歌曲寻点方法，其特征在于，所述步骤S3具体为：

根据提取的声学特征，进行若干次的训练；

将训练后的声学特征进行参数调整，建立模型。

3.根据权利要求2所述的歌曲寻点方法，其特征在于，所述声学特征参数调整为通过调整卷积神经网络和声音活跃侦测算法。

4.根据权利要求1所述的歌曲寻点方法，其特征在于，所述步骤S5与步骤S6之间还包括：

将匹配的信息低频滤波进行去噪。

5.根据权利要求1所述的歌曲寻点方法，其特征在于，所述声学特征包括梅尔频谱倒谱系数、过零率以及线性预测编码。

6.一种歌曲寻点终端，其特征在于，终端包括获取单元、提取单元、训练建模单元、接收单元、匹配单元以及输出单元；所述获取单元、提取单元、训练建模单元、接收单元、匹配单元以及输出单元依次连接，其中：

获取单元，用于获取精准标注时间点位的若干音乐素材；

提取单元，用于提取若干音乐素材中的声学特征；

训练建模单元，用于根据声学特征，进行训练，建立模型；

接收单元，用于接收待标注的音乐；

匹配单元，用于将待标注音乐与模型进行匹配；

输出单元，用于输出待标注音乐时间点位。

7.根据权利要求6所述的歌曲寻点终端，其特征在于，所述训练建模单元包括训练单元以及调参建模单元，其中：

训练单元，用于根据提取的声学特征，进行若干次的训练；

8.根据权利要求7所述的歌曲寻点终端，其特征在于，所述调参建模单元中的声学特征参数调整为通过调整卷积神经网络和声音活跃侦测算法。

9.根据权利要求6所述的歌曲寻点终端，其特征在于，所述匹配单元与输出单元之间还设置有去噪单元，所述去噪单元两端分别连接于匹配单元、输出单元；所述去噪单元用于将匹配的信息低频滤波进行去噪。

10.根据权利要求6所述的歌曲寻点终端，其特征在于，所述提取单元提取的声学特征包括梅尔频谱倒谱系数、过零率以及线性预测编码。