CN111326171A

CN111326171A - 一种基于简谱识别和基频提取的人声旋律提取方法及系统

Info

Publication number: CN111326171A
Application number: CN202010059062.5A
Authority: CN
Inventors: 尹学渊; 刘鑫忠; 江天宇
Original assignee: Chengdu Hifive Technology Co ltd
Current assignee: Chengdu Potential Artificial Intelligence Technology Co ltd
Priority date: 2020-01-19
Filing date: 2020-01-19
Publication date: 2020-06-23
Anticipated expiration: 2040-01-19
Also published as: CN111326171B

Abstract

本发明公开了一种基于简谱识别和基频提取的人声旋律提取方法及系统，系统应用该方法，方法包括：将待处理歌曲对应的简谱文件进行二值化处理，将歌曲原始音频文件处理为降采样后的单声道音频，从单声道音频中分离出人声波形；识别简谱中的音符与歌词对，得到歌词与音符的列表；根据唱词文件，检索歌词与音符的列表，得到行唱词与音符的匹配结果序列；选择一个音符，根据分离得到的人声波形计算音符的基频频率，根据计算得到的基频频率及各音符的相对关系，计算各音符的频率，并将各音符的频率转换为midi音高；平移行歌词与音符的匹配结果序列，得到音高与各音符的midi音高相匹配的行歌词与音符的匹配结果序列。能够提取音高与旋律匹配的人声旋律。

Description

一种基于简谱识别和基频提取的人声旋律提取方法及系统

技术领域

本发明属于音频处理技术领域，具体地说，涉及一种基于简谱识别和基频提取的人声旋律提取方法及系统。

背景技术

随着计算机技术的发展，音乐的主要传播途径由原来的基于磁带、CD等载体，转变成基于数字音乐的网络下载和点击。为了适应这种传播方式的改变，音乐的识别和检索技术也应用的越来越广。在音乐信息检索中，主要使用的是音乐的主旋律，音乐的主旋律可以用于进行音乐分析、音乐检索、音乐辨识、相似音乐推荐等。

申请号为201810537265.3的发明专利公开了一种提取音频数据中主旋律音轨的方法、装置、终端及存储介质，该方法包括：提取目标音频数据中的多个音轨，确定每个音轨中的人声时间段的时间段信息，得到每个音轨对应的时间段信息集合；在目标音频数据对应的歌词信息中，确定每句歌词的时间段信息，得到歌词信息对应的时间段信息集合；确定每个音轨对应的时间段信息集合与歌词信息对应的时间段信息集合的匹配度；将对应的匹配度最高的音轨，确定为目标音频数据的主旋律音轨。本申请解决了目前的音轨逐一排除方法不适用于编曲风格小众另类的音频，易将音频中非主旋律音轨确定为该音频的主旋律的问题，达到了提高识别音频中的主旋律音轨的普适性和准确性的效果。

该方法的目标是从多个音轨中提取出主旋律音轨，而不能够从主旋律音轨中提取出旋律，同时该方法对于包含分轨信息的歌词信息很难获得。无法得到匹配的唱词和音高。

发明内容

针对现有技术中上述的不足，本发明提供一种基于简谱识别和基频提取的人声旋律提取方法及系统，该方法结合简谱识别与波形识别，从而能够更准确的获取主旋律数据，简谱识别能够获取准确的音高，基频识别得到的频率与唱词能够对应的上。系统采用该方法，能够提取音高与旋律匹配的人声旋律。

为了达到上述目的，本发明采用的解决方案是：一种基于简谱识别和基频提取的人声旋律提取方法，包括如下步骤：

S1：数据预处理，将待处理歌曲对应的简谱文件进行二值化处理，将歌曲原始音频文件处理为降采样后的单声道音频，从降采样后的单声道音频中分离出人声波形；具体包括：

S101：将歌曲原始音频文件解码为wave格式，并归一化至-1～1；

S102：将wave格式的音频通过平均得到单声道的音频；

S103：将单声道音频降采样至8000～44100之间，最佳的降采样频率为20050；

S104：将歌曲对应的简谱文件做二值化处理；

S105：从降采样后的单声道音频中分离出人声波形；

S106：根据歌词文件将人声波形按句分割成多个波形文件。一句歌词对应一个波形文件，便于后续基频提取过程中提取出的基频与歌词句子对应。

S2：简谱识别，识别简谱中的音符与歌词对，得到歌词与对应音符的列表，所述的简谱识别采用OCR api或者开源OCR。

S3：唱词与简谱识别结果对齐，根据唱词文件，检索歌词与音符的列表，得到行唱词与音符的匹配结果序列；具体包括：

S301：解析唱词文件，按句获得唱词文件中的所有唱词序列；

S302：在简谱识别得到的歌词与音符的列表中检索每一句唱词的文字序列；

S303：将歌词与音符对按唱词序列进行排序，实现唱词与音高对齐。通过唱词与简谱识别结果对齐使得识别得到的音高与歌词对的顺序与人声波形中唱的顺序对齐，并进行补全，从而使识别出的音高与人声波形中的唱词在时间上对齐。

S4：基频提取，选择一个音符，根据分离得到的人声波形计算音符的基频频率，根据计算得到的基频频率及各音符的相对关系，计算各音符的频率，并将各音符的频率转换为midi音高；具体包括：

S401：选定一个音符，这个音符可以是do、re、mi、fa、so、la、si中的任意一个，由于简谱上的key值一般采用do音来表示，因此，在选定音符时，最好是选择do音；

S402：遍历唱词与音高对齐之后的序列，找到选定的音符对应的人声波形片段；

S403：剪裁所有找到的人声波形片段；

S404：识别所有剪裁的片段的基频；

S405：统计所有剪裁片段的基频，以数量最多的频率作为选定音符的基础频率；

S406：根据选定音符与各音符的相对关系，计算各音符的频率，根据简谱上的音乐key值关系，可以根据音乐基础知识得到各个音符之间相差的半音数，根据这个半音数与选定音符的基础频率，可以计算得到各音符的频率；

S407：将各音符的频率转换为midi音高。

S5：音高平移，平移行歌词与音符的匹配结果序列，得到音高与各音符的midi音高相匹配的行歌词与音符的匹配结果序列，并保存成midi文件。通过音高平移得到音高与唱词匹配的人声旋律。

应用所述的基于简谱识别和基频提取的人声旋律提取方法的系统，包括数据处理模块、简谱识别模块、唱词与音符对齐模块、基频模块和音高平移模块；

所述的数据处理模块将待处理歌曲对应的简谱文件进行二值化处理，将歌曲原始音频文件处理为降采样后的单声道音频，从降采样后的单声道音频中分离出人声波形；

所述的简谱识别模块用于识别简谱中的音符与歌词对，得到歌词与音符的列表；

所述的唱词与音符对齐模块用于根据唱词文件，检索歌词与音符的列表，得到行唱词与音符的匹配结果序列；

所述的基频模块用于选择一个音符计算音符的基频频率，根据计算得到的基频频率及各音符的相对关系，计算各音符的频率，并将各音符的频率转换为midi音高；

所述的音高平移模块用于平移行歌词与音符的匹配结果序列，得到音高与各音符的midi音高相匹配的行歌词与音符的匹配结果序列。

本发明的有益效果是：

(1)该方法结合简谱识别与波形识别，从而能够更准确的获取主旋律数据，简谱识别能够获取准确的音高，基频识别得到的频率与唱词能够对应的上。系统采用该方法，能够提取音高与旋律匹配的人声旋律。

附图说明

图1为本发明人声旋律提取方法流程图；

图2为本发明简谱识别流程图；

图3为本发明唱词与简谱识别结果对齐流程图；

图4为本发明基频提取流程图；

图5为本发明人声旋律提取系统框图。

具体实施方式

以下结合附图对本发明作进一步描述：

如图1所示，一种基于简谱识别和基频提取的人声旋律提取方法，包括如下步骤：

S102：将wave格式的音频通过平均得到单声道的音频；

S103：将单声道音频降采样至8000～44100之间；

S104：将歌曲对应的简谱文件做二值化处理；

S105：从降采样后的单声道音频中分离出人声波形；

S2：简谱识别，识别简谱中的音符与歌词对，得到歌词与对应音符的列表，所述的简谱识别采用OCR api或者开源OCR，简谱识别流程如图3所示，歌词简谱输入载入的简谱识别模型识别后得到音符和歌词对的列表。

S3：唱词与简谱识别结果对齐，根据唱词文件，检索歌词与音符的列表，得到行唱词与音符的匹配结果序列；如图3所示，具体包括：

S301：解析唱词文件，按句获得唱词文件中的所有唱词序列，按句获得唱词相当于将全部唱词按句进行简单分割；

S401：选定一个音符，这个音符可以是do、re、mi、fa、so、la、si中的任意一个，由于简谱上的key值一般采用do音来表示，因此，在选定音符时，最好是选择do音，图4所示的基频提取流程采用do音进行基频提取；

S403：剪裁所有找到的人声波形片段；

S404：识别所有剪裁的片段的基频；

S407：将各音符的频率转换为midi音高。

如图5所示，应用所述的基于简谱识别和基频提取的人声旋律提取方法的系统，包括数据处理模块、简谱识别模块、唱词与音符对齐模块、基频模块和音高平移模块；

在本方案的其他替代方案中，基频提取还可以采用YIN算法等基频提取方法来提取基频。

以上所述实施例仅表达了本发明的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于简谱识别和基频提取的人声旋律提取方法，其特征在于：包括如下步骤：

S1：数据预处理，将待处理歌曲对应的简谱文件进行二值化处理，将歌曲原始音频文件处理为降采样后的单声道音频，从降采样后的单声道音频中分离出人声波形；

S2：简谱识别，识别简谱中的音符与歌词对，得到歌词与音符的列表；

S3：唱词与简谱识别结果对齐，根据唱词文件，检索歌词与音符的列表，得到行唱词与音符的匹配结果序列；

S4：基频提取，选择一个音符，根据分离得到的人声波形计算音符的基频频率，根据计算得到的基频频率及各音符的相对关系，计算各音符的频率，并将各音符的频率转换为midi音高；

S5：音高平移，平移行歌词与音符的匹配结果序列，得到音高与各音符的midi音高相匹配的行歌词与音符的匹配结果序列。

2.根据权利要求1所述的基于简谱识别和基频提取的人声旋律提取方法，其特征在于：所述的数据预处理具体包括：

S102：将wave格式的音频通过平均得到单声道的音频；

S103：将单声道音频降采样至8000～44100之间；

S104：将歌曲对应的简谱文件做二值化处理；

S105：从降采样后的单声道音频中分离出人声波形。

3.根据权利要求2所述的基于简谱识别和基频提取的人声旋律提取方法，其特征在于：所述的数据预处理还包括：S106：根据歌词文件将人声波形按句分割成多个波形文件。

4.根据权利要求1所述的基于简谱识别和基频提取的人声旋律提取方法，其特征在于：所述的简谱识别采用OCR api或者开源OCR。

5.根据权利要求1所述的基于简谱识别和基频提取的人声旋律提取方法，其特征在于：所述的歌词与简谱识别结果对齐具体包括：

S301：解析唱词文件，按句获得唱词文件中的所有唱词序列；

S303：将歌词与音符对按唱词序列进行排序，实现唱词与音高对齐。

6.根据权利要求1所述的基于简谱识别和基频提取的人声旋律提取方法，其特征在于：所述的基频提取具体包括：

S401：选定一个音符；

S403：剪裁所有找到的人声波形片段；

S404：识别所有剪裁的片段的基频；

S406：根据选定音符与各音符的相对关系，计算各音符的频率；

S407：将各音符的频率转换为midi音高。

7.根据权利要求6所述的基于简谱识别和基频提取的人声旋律提取方法，其特征在于：所述的音符为do、re、mi、fa、so、la、si中的任意一个。

8.根据权利要求7所述的基于简谱识别和基频提取的人声旋律提取方法，其特征在于：所述的音符最好为do音。

9.应用权利要求1-8中任意一项所述的基于简谱识别和基频提取的人声旋律提取方法的系统，其特征在于：包括数据处理模块、简谱识别模块、唱词与音符对齐模块、基频模块和音高平移模块；