CN114005460A - 音乐文件的人声分离方法和装置 - Google Patents
音乐文件的人声分离方法和装置 Download PDFInfo
- Publication number
- CN114005460A CN114005460A CN202111262469.9A CN202111262469A CN114005460A CN 114005460 A CN114005460 A CN 114005460A CN 202111262469 A CN202111262469 A CN 202111262469A CN 114005460 A CN114005460 A CN 114005460A
- Authority
- CN
- China
- Prior art keywords
- voice
- coefficient matrix
- singer
- accompaniment
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 239000011159 matrix material Substances 0.000 claims abstract description 150
- 238000001228 spectrum Methods 0.000 claims abstract description 45
- 238000000926 separation method Methods 0.000 claims abstract description 29
- 238000004458 analytical method Methods 0.000 claims abstract description 24
- 238000013528 artificial neural network Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000001914 filtration Methods 0.000 claims description 30
- 230000001755 vocal effect Effects 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 12
- 230000009467 reduction Effects 0.000 claims description 11
- 238000005520 cutting process Methods 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 claims description 10
- 238000000556 factor analysis Methods 0.000 claims description 8
- 230000035772 mutation Effects 0.000 claims description 6
- 239000012634 fragment Substances 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000002238 attenuated effect Effects 0.000 claims description 4
- 230000037433 frameshift Effects 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 4
- 230000033764 rhythmic process Effects 0.000 claims description 4
- 238000003860 storage Methods 0.000 abstract description 9
- 238000000605 extraction Methods 0.000 abstract description 7
- 230000002829 reductive effect Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000009193 crawling Effects 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 210000000214 mouth Anatomy 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 101150036841 minJ gene Proteins 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 210000002105 tongue Anatomy 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种音乐文件的人声分离方法、装置、计算机设备以及计算机可读存储介质;所述方法包括:获取歌手的有效语料信息;对所述有效语料信息进行神经网络分析得到该歌手声纹的人声特征系数矩阵,并存储在所述歌手的特征库中;导入目标音乐,识别所述目标音乐的歌手,并从所述特征库查找出该歌手声纹的人声特征系数矩阵;将所述目标音乐的频谱信息与所述人声特征系数矩阵相乘得到目标音乐的人声文件;该技术方案,通过歌手人物的声纹特征提取和神经网络的训练从而得到该歌手最优的人声特征系数矩阵,利用该人声特征系数矩阵可以体现该歌手的发声音色,作用于目标音乐的频谱可使得纯人声还原度更高,提升了人声分离的纯净度,降低了失真度。
Description
技术领域
本申请涉及音乐处理技术领域,尤其是一种音乐文件的人声分离方法、装置、计算机设备以及计算机可读存储介质。
背景技术
随着人们的生活水平不断提高,人们更多的追求精神上的享受,听歌,唱歌表达自己的情绪,甚至希望通过音乐唱出自己心中所想,由此往往需要对音乐进行伴奏和人声分离,可以为用户创作自己的回放歌曲,练习自己的唱功,向歌手致敬等,另外,在卡拉OK中,经常需要对唱歌者的演唱歌曲进行评分,也需要分离出纯净的人声来进行评定;因此,人声分离就显得格外重要。
目前,从音频中分离出人声的技术方案,有的是采用声纹识别的方式,提取声纹特征,根据声纹特征与数据库内的音乐信息进行查找,寻找对应的伴奏音乐;也有技术是采集每个参加音频会议的参会人员的声音数据和个人特征,对该声音数据进行声纹特征提取,构建关联该个人特征和该声纹特征的声纹特征数据库,对音频会议内容进行对应该声纹特征数据库中的声纹特征的人声分离。还有技术是通过人工智能技术实现,通过获取各音频样本以及相应的人声分离标注信息并训练人声分离模型,采用粗分离确定待识别的音频的语音用户的用户标识信息,将目标音频的每一用户标识信息以及目标音频输入至人声分离模型获得每一语音用户为目标音频中的每一目标音频片段对应的用户的概率,并根据概率确定目标语音用户。再有的技术,是对说话人超过2人的音频按语音单元切割,计算语音特征参数之间的匹配值,判断两个单元语音特征参数之间的匹配值是否高于预设阈值确定两单元在统一音频集内从而将同一集单元拼接。还有的技术还是采用人声中的音色特征分离人声和伴奏等等。
通过对当前各种人声分离技术的分析发现,上述技术主要是基于声纹特征的人声分离多用于分离出目标人声、多个人声或者特定人声分离等,这些方案更多是声纹识别范畴,其在分离过程中,分离出来的人声纯净度不足,存在失真的缺陷。
发明内容
针对于上述技术缺陷之一,本申请提供一种音乐文件的人声分离方法、装置、计算机设备以及计算机可读存储介质,以提高分离的人声纯净度,降低失真。
一种音乐文件的人声分离方法,包括:
获取歌手的有效语料信息;
对所述有效语料信息进行神经网络分析得到该歌手声纹的人声特征系数矩阵,并存储在所述歌手的特征库中;
导入目标音乐,识别所述目标音乐的歌手,并从所述特征库查找出该歌手声纹的人声特征系数矩阵;
将所述目标音乐的频谱信息与所述人声特征系数矩阵相乘得到目标音乐的人声文件。
在一个实施例中,所述的音乐文件的人声分离方法,还包括:
获取歌手的每首音乐的伴奏特征系数矩阵,并存储在所述歌手的特征库中;
识别所述目标音乐的歌手,并从所述特征库查找出该歌手对应该目标音乐的伴奏特征系数矩阵;
将所述目标音乐的频谱信息与所述伴奏特征系数矩阵相乘得到目标音乐的伴奏文件;
利用所述伴奏文件对人声文件进行降噪滤波处理,得到纯人声文件。
在一个实施例中,所述将所述目标音乐的频谱信息与所述人声特征系数矩阵相乘得到目标音乐的人声文件,包括:
采用STFT技术对所述目标音乐进行分帧和添加汉宁窗得到音乐幅度谱;
将所述音乐幅度谱与所述人声特征系数矩阵相乘得到人声幅度谱;
将所述人声幅度谱进行逆STFT处理得到人声文件;
所述将所述目标音乐的频谱信息与所述伴奏特征系数矩阵相乘得到目标音乐的伴奏文件,包括:
将所述音乐幅度谱与所述伴奏特征系数矩阵相乘得到伴奏幅度谱;
将所述伴奏幅度谱进行逆STFT处理得到伴奏文件。
在一个实施例中,所述利用所述伴奏文件对人声文件进行降噪滤波处理,得到纯人声文件,包括:
将所述伴奏文件按设定衰减量比例进行衰减;
将衰减后的伴奏文件作为所述人声文件中的伴奏残留的参考信息;
根据所述参考信息采用归一化最小均方误差滤波器对所述人声文件中的伴奏信息残留以及过滤引入噪声进行过滤,输出纯人声文件。
在一个实施例中,所述对所述有效语料信息进行神经网络分析得到该歌手声纹的人声特征系数矩阵,包括:
对所述歌手的所有有效语料信息提取特征信息;其中,所述特征信息包括基音、共振峰、谐波特性、倒频谱、元音、辅音、反射系数、音量、音色和/或节奏;
根据所述特征信息构造人声特征系数矩阵和伴奏特征系数矩阵;根据所述歌手的纯人声文件和纯伴奏文件分别修正人声特征系数矩阵和伴奏特征系数矩阵的系数;
通过计算纯人声文件与人声特征系数矩阵输出之间的均方偏差值训练所述人声特征系数矩阵,以及计算纯伴奏文件与伴奏特征系数矩阵输出之间的均方偏差值优化所述伴奏特征系数矩阵。
在一个实施例中,所述根据所述特征信息构造人声特征系数矩阵和伴奏特征系数矩阵;根据所述歌手的纯人声文件和纯伴奏文件分别修正人声特征系数矩阵和伴奏特征系数矩阵的系数,包括:
对所述特征信息进行因子分析得到低维特征系数矩阵;
基于神经网络技术和所述低维特征系数矩阵构造人声特征系数矩阵和伴奏特征系数矩阵;
根据所述歌手的纯人声歌曲和带伴奏的歌曲来获取纯人声文件和纯伴奏文件;
以所述纯人声文件和纯伴奏文件为样本分别导入所述人声特征系数矩阵和伴奏特征系数矩阵以修正人声特征系数矩阵和伴奏特征系数矩阵的系数。
在一个实施例中,所述获取歌手的有效语料信息,包括:
基于公开数据来源采集歌手的原始语料;
对所述歌手的所述原始语料进行过滤静音段和裁剪成语音片段;
通过聚类方式对所述歌手的各个语音分段进行独立语音分析获得有效语料信息。
在一个实施例中,所述对所述歌手的所述原始语料进行过滤静音段和裁剪成语音片段,包括:
将所述歌手的所有原始语料进行去均值化处理;
采用设定帧长和帧移的长度对原始语料进行定长切分为多段原始语料;
根据能量包络曲线和过零率曲线确定各段原始语料的话音突变点;
根据所述突变点位置和设定阈值判断出静音段,对所述静音段进行过滤;
对各段原始语料进行裁剪成语音片段。
在一个实施例中,所述通过聚类方式对所述歌手的各个语音片段进行独立语音分析获得有效语料信息,包括:
分别计算各个语音片段的梅尔倒频谱;
利用所述梅尔倒频谱计算两两语音片段的信息熵、欧氏距离和共振峰的包络曲线的余弦相似度;
获取所述信息熵、欧氏距离和共振峰的包络曲线的余弦相似度三个维度中概率较高的语料集合,作为对应歌手的有效语料信息。
一种音乐文件的人声分离装置,包括:
语料获取模块,用于获取歌手的有效语料信息;
模型训练模块,用于对所述有效语料信息进行神经网络分析得到该歌手声纹的人声特征系数矩阵,并存储在所述歌手的特征库中;
模型查找模块,用于导入目标音乐,识别所述目标音乐的歌手,并从所述特征库查找出该歌手声纹的人声特征系数矩阵;
人声分离模块,用于将所述目标音乐的频谱信息与所述人声特征系数矩阵相乘得到目标音乐的人声文件。
一种计算机设备,其包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行上述的音乐文件的人声分离方法。
一种计算机可读存储介质,所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行上述的音乐文件的人声分离方法。
上述音乐文件的人声分离方法、装置、计算机设备以及计算机可读存储介质,预先获取歌手的有效语料信息并通过神经网络分析得到该歌手声纹的人声特征系数矩阵并存储在歌手的特征库中;在识别目标音乐时,查找到目标音乐的歌手对应的声纹特征系数矩阵;将目标音乐的频谱信息与人声特征系数矩阵相乘得到目标音乐的人声文件;该技术方案,通过歌手人物的声纹特征提取和神经网络的训练从而得到该歌手最优的人声特征系数矩阵,利用该人声特征系数矩阵可以体现该歌手的发声音色,作用于目标音乐的频谱可使得纯人声还原度更高,提升了人声分离的纯净度,降低了失真度。
进一步的,采用声纹特征系数矩阵作为神经网络的输入层,极大程度提高了个人声纹的准确性,针对于声纹特征元素较多的情况,采用因子分析法进行处理,不仅起到降维作用,而且能够被很好的解释,寻找到最优的人声特征系数矩阵。
进一步的,利用分离后得到的伴奏文件作为人声文件中残留的伴奏信息及引入的噪声信息,利用该特点使用归一化均方误差滤波器对人声文件进行滤波,对人声文件进行二次提炼,有效消除人声中含有伴奏残留及过滤过程引入的噪声,进一步提升了分离的人声文件的保真度。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是一个实施例的音乐文件的人声分离方法流程图;
图2是一个实施例的有效语料信息处理流程图;
图3是一个示例的获取语料流程图;
图4是一个实施例的训练特征系数矩阵流程图;
图5是一个示例的人声特征系数矩阵寻优流程图;
图6是一个示例的神经网络分析流程图;
图7是一个实施例的分离人声文件流程图;
图8是一个示例的降噪滤波处理流程图;
图9是一个实施例的音乐文件的人声分离装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作。
本申请的音乐文件的人声分离方案,可以应用于任意终端设备上,比如智能音箱、智能手机、平板、个人电脑等等,该终端设备可以通过网络连接服务器,为歌手建立个人的语料库和特征库,从而在进行人声分离时,通过服务器中查找到该歌手保存的带有个人声纹信息的人声特征系数矩阵,可以对该歌手的音乐中纯净的人声信息。
参考图1所示,图1是一个实施例的音乐文件的人声分离方法流程图,主要包括如下步骤:
步骤S10:获取歌手的有效语料信息。
此步骤,在进行人声分离前,预先获取到歌手的语料信息,从而可以对其声纹进行特征提取,并应用于后期的人声分离。
在一个实施例中,对于上述获取有效语料信息的方法,参考图2,图2是一个实施例的有效语料信息处理流程图,可以包括如下步骤:
S101,基于公开数据来源采集歌手的原始语料。
具体的,可以通过python编写程序,从网络爬取公开网站上的音乐、影视作品、歌手演唱会、相关新闻、综艺节目和采访等渠道,爬取该歌手的语料。
例如,在公开网站上爬取对应歌手刘德华的歌曲,如《一起走过的日子》《十七岁》,影视作品《如无间道》等;然后利用MoviePy库进行保存,保存为PCM格式;MoviePy库是Python视频编辑库,可裁剪、拼接、视频合成以及视频处理等效果;由此,实现对所有音视频的音频流提取操作。
S102,对所述歌手的所述原始语料进行过滤静音段和裁剪成语音片段。
具体的,针对每一个歌手独立做语音分析,包括语料裁剪,根据语料的静音信息和说话人断句来划分语料中的每一段话,以此来划分语料段落。
优选的,上述对原始语料进行裁剪的方法,可以包括如下:
(a)将歌手的所有原始语料进行去均值化处理。
(b)采用设定帧长(如1s)和帧移(如0.5s)的长度对原始语料进行定长切分为多段原始语料。
(c)根据能量包络曲线和过零率曲线确定各段原始语料的话音突变点。
(d)根据所述突变点位置和设定阈值判断出静音段,对所述静音段进行过滤。
(e)对各段原始语料进行裁剪成语音片段。
上述实施例的方案,先进行均值处理,然后采用帧长为1s、帧移为0.5s的长度对音频文件进行定长切分,再根据能量包络曲线和过零率曲线联合划分出说话人突变点,从而实现精准划分;划分方式可以采用阈值设置,其中“1”为满能量,阈值设置为“0.2”,即能量低于阈值“0.2”的音量值被认为静音段,过滤静音段并对语音分段进行裁剪。
S103,通过聚类方式对歌手的各个语音分段进行独立语音分析获得有效语料信息;具体的,通过聚类的方式来获取该歌手的有效语料信息,从而排除其他干扰语料。
优选的,上述聚类分析过程,可以包括如下步骤:
(f)分别计算各个语音片段的梅尔倒频谱。
(g)利用所述梅尔倒频谱计算两两语音片段的信息熵、欧氏距离和共振峰的包络曲线的余弦相似度。
(h)获取所述信息熵、欧氏距离和共振峰的包络曲线的余弦相似度三个维度中概率较高的语料集合,作为对应歌手的有效语料信息。
具体的,可以将裁剪后的语音段计算其梅尔倒频谱,梅尔倒频谱符合人耳的听觉效应,更好的反映人声的频率特征,利用梅尔倒频谱计算每个语音段的信息熵,欧氏距离和共振峰的包络曲线的余弦相似度,通过三维信息,联合求得三个维度概率较高的集合。即为刘德华的语料库。
上述实施例的技术方案,考虑到由于公开环境中爬取的音视频语料来源复杂,而且除了歌手外还有许多其他人物和嘈杂的背景声,为了更好的获得纯音的音频语料,采用三维特征联合分析法来去除干扰的语料保留有效语料。
综上所述,可以通过多种公开途径来获取歌手的语料,从而丰富了数据来源,同时对于语料中的静音段进行过滤和分段,减少了数据量和提升了处理效率;进一步的通过聚类方式对语音分段进行独立语音分析获得有效语料信息,去除了干扰的语料,进一步提升了数据处理效率和模型训练的准确度。
为了更加清晰上述语料处理技术方案,下面阐述一个应用示例,参考3所示,图3是一个示例的获取语料流程图,主要包括如下:
(1)通过Python爬取公开网站上歌手的音乐、影视作品、歌手演唱会、相关新闻、综艺节目和采访等音视频材料,如爬取歌星XX的所有音视频材料;将所爬取的音视频语料进行音频流提取为PCM形式进行保存。
(2)对音视频语料进行提取音频流,对音频流进行定长切分,将窗口长度设置为1.0s,整段音频帧移为0.5s进行切片。
(3)通过能量包络曲线和过零率曲线来确定音频中每个说话者的语速和说话时段和说话语速,从而切割音频流中所有说话者的个人语音段。
(4)提取每一个语音段的梅尔倒频谱,采用无监督聚类方法(K-means聚类),该算法在多个语音片段的梅尔频谱中两两计算其信息熵值P,欧氏距离值distance,和共振峰曲线cos(a,b)的相似度,三个维度将属于当前该搜索歌手XX的较高概率的语音集提取出来;计算公式如下:
(5)选择三维特征的概率均较高的集合作为同一集语料,说明该语料即为歌星XX的有效语料,其他语料均为干扰语料,直接去除。
(6)执行上述的步骤(1)-(5),把各个歌手的有效语料都收集并以歌手ID保存在服务器的个人特征库中,用于后续对相应歌手的音乐进行人声分离使用。
步骤S20:对所述有效语料信息进行神经网络分析得到该歌手声纹的人声特征系数矩阵,并存储在所述歌手的特征库中。
此步骤中,利用有效语料信息进行神经网络分析,通过从语料中提取的歌手声纹的特征信息,训练出声纹特征系数矩阵,存储在服务器的个人特征库中,以供人声分离时调用。
优选的,本申请提供的声纹分析方法中,还可以获取歌手的每首音乐的伴奏特征系数矩阵,并存储在所述歌手的特征库中;从而可以在初步获得人声文件和伴奏文件后,还可以利用伴奏文件来对人声文件进行二次提炼,据此,可以在此过程中训练伴奏特征系数矩阵。
据此,在一个实施例中,对于步骤S20中分析得到该歌手声纹的人声特征系数矩阵的方法,参考图4所示,图4是一个实施例的训练特征系数矩阵流程图,可以包括如下步骤:
S201,对歌手的所有有效语料信息提取特征信息;其中,所述特征信息可以包括基音、共振峰、谐波特性、倒频谱、元音、辅音、反射系数、音量、音色、节奏等等。
S202,根据所述特征信息构造人声特征系数矩阵和伴奏特征系数矩阵;根据所述歌手的纯人声文件和纯伴奏文件分别修正人声特征系数矩阵和伴奏特征系数矩阵的系数。
在一个实施例中,对于特征系数矩阵的系数修正过程,可以包括如下:
(i)对所述特征信息进行因子分析得到低维特征系数矩阵;
(j)基于神经网络技术和所述低维特征系数矩阵构造人声特征系数矩阵和伴奏特征系数矩阵;
(k)根据所述歌手的纯人声歌曲和带伴奏的歌曲来获取纯人声文件和纯伴奏文件;
(l)以所述纯人声文件和纯伴奏文件为样本分别导入所述人声特征系数矩阵和伴奏特征系数矩阵以修正人声特征系数矩阵和伴奏特征系数矩阵的系数。
上述技术方案中,由于不同的人在说话时所使用的发声器官如(舌头、鼻腔、声带、口腔空间、嘴巴等)在尺寸和形态上有着极大的差异性,同时每个人在不同年龄、性格、语音习惯(国语、北京腔、粤语、闽南话、上海话等)因素的差异,导致每个人的发音能量和发音频率,谐波分量等特性大不相同,因此,采用声纹特征法为每一位歌手构造了声纹特征系数矩阵,利用声纹特征去除伴奏中非歌手音色部分信息,最大程度保留歌手声纹的信息。
S203,通过计算纯人声文件与人声特征系数矩阵输出之间的均方偏差值训练所述人声特征系数矩阵,以及计算纯伴奏文件与伴奏特征系数矩阵输出之间的均方偏差值优化所述伴奏特征系数矩阵。
参考图5所示,图5是一个示例的人声特征系数矩阵寻优流程图,具体的,基于上述实施例的方案,可以将收集到的有效语料信息与歌手对应的音乐文件相配对,分别对语料进行STFT短时傅立叶变换,分别计算该歌手的有效语料的声纹特征(基音pitch、共振峰peak、谐波特性harmonic、梅尔倒频谱mel、元音vowels、辅音consonants、反射系数Reflection coefficient、音量volume、音色、节奏tempo等等)对声纹特征采用因子分析,将高维信息转化为低维矩阵,添加音乐文件的原曲和纯人声,修正人声特征系数矩阵;采用预测人声与纯人声的时域和频域的距离偏差最小值,即转化为多目标优化问题,寻找最佳前沿曲线即为最优的人声特征系数矩阵。
上述实施例的技术方案,参考图6所示,图6是一个示例的神经网络分析流程图,对该歌手的所有语料计算其基音、共振峰、谐波特性、倒频谱、元音、辅音、反射系数、音量、音色、节奏等信息,构造人声特征系数矩阵和伴奏特征系数矩阵,根据该歌手的纯人声和纯伴奏来修正人声特征系数矩阵和伴奏特征系数矩阵的系数;再通过计算人声与伴奏的均方偏差值来训练模型,采用因子分析法,将声纹特征系数矩阵作为神经网络的输入层,结合神经网络及纯人声文件,导入该歌手带伴奏的音乐文件来修正人声特征系数矩阵的系数,每一个歌手都将保存相应的人声特征系数矩阵。
综上所述,采用声纹特征矩阵作为神经网络的输入层,极大程度提高个人声纹的准确性,由于声纹特征元素较多,处理时间也较为繁杂,采用因子分析法进行降维,在提取公因子时,不仅注意变量之间是否相关,而且考虑相关关系的强弱,使得提取出来的公因子不仅起到降维的作用,而且能够被很好的解释,便于寻找到最优的人声特征系数矩阵。
步骤S30:导入目标音乐,识别所述目标音乐的歌手,并从所述特征库查找出该歌手声纹的人声特征系数矩阵。
此步骤中,针对于需要进行人声分离的目标音乐,首先识别其歌手信息,然后从服务器中进行查找对应的歌手,然后找到该歌手声纹的人声特征系数矩阵,用于对目标音乐进行分离。
优选的,进一步识别所述目标音乐的歌手,并从所述特征库查找出该歌手对应该目标音乐的伴奏特征系数矩阵;据此,可以用于从目标音乐中分离出去除伴奏的人声文件和去人声的伴奏文件。
步骤S40:将所述目标音乐的频谱信息与所述人声特征系数矩阵相乘得到目标音乐的人声文件。
此步骤中,可以对同一个歌手的不同歌曲,分别进行预测对每一首歌曲先进行STFT处理后的频谱信息与人声特征系数矩阵进行相乘得到获得目标音乐的去除伴奏的人声文件。
在一个实施例中,对于步骤S40获得人声文件的过程,参考图7所示,图7是一个实施例的分离人声文件流程图,可以包括如下:
S401,采用STFT技术对所述目标音乐进行分帧和添加汉宁窗得到音乐幅度谱;具体的,该过程为滤波过程,滤除伴奏部分即为对应的纯人声文件,采用STFT把歌曲进行分帧加窗处理,经过hanning窗,窗长为1024。
S402,将所述音乐幅度谱与所述人声特征系数矩阵相乘得到人声幅度谱;将所述音乐幅度谱与所述伴奏特征系数矩阵相乘得到伴奏幅度谱。
具体的,将音乐幅度谱与人声特征系数矩阵相乘可以获得目标音乐的去除伴奏的人声文件,将频谱信息与伴奏特征系数矩阵相乘可以得到目标音乐去除人声的伴奏文件。
S403,将所述人声幅度谱进行逆STFT处理得到人声文件;将所述伴奏幅度谱进行逆STFT处理得到伴奏文件。
S404,利用所述伴奏文件对人声文件进行降噪滤波处理,得到纯人声文件;作为实施例,对于降噪滤波处理方法,具体可以包括如下:
(Ⅰ)将所述伴奏文件按设定衰减量比例进行衰减。
(Ⅱ)将衰减后的伴奏文件作为所述人声文件中的伴奏残留的参考信息。
(Ⅲ)根据所述参考信息采用归一化最小均方误差滤波器对所述人声文件中的伴奏信息残留以及过滤引入噪声进行过滤,输出纯人声文件。
优选的,参考图8所示,图8是一个示例的纯人声文件生成流程图,导入目标音乐,进行STFT获得幅度谱,然后分别将幅度谱与人声特征系数矩阵和伴奏特征系数矩阵相乘,得到人声频谱和伴奏频谱进行逆STFT处理,得到人声文件和伴奏文件,把伴奏文件按衰减量95%的比例进行衰减,衰减后的伴奏文件作为人声文件的残留的参考信息,采用归一化最小均方误差滤波器过滤人声文件中的伴奏残留及其过滤过程引入的噪声,最终输出纯人声文件。
对于归一化最小均方误差滤波器(NLMS)滤波过程,表示如下:
s.t.d(k)=w(k+1)x(k)
上式中,目标函数为minJ,约束函数为s.t.d(k);
对于上述目标函数,权重更新计算式为:
误差计算式为:
e(k)=d(k)-y(k)
输出值:
y(k)=w(k)Tx(k)
综上所述的方案,利用每个歌手独特的声纹特征过滤不属于声纹部分的信息,以最大程度提高人声文件和伴奏文件的保真度,同时采用最小均方误差滤波器把伴奏信息衰减充当人声残留信息的参考信息,对人声文件进行二次过滤,把人声提取干净得到纯人声文件。
下面阐述音乐文件的人声分离装置的实施例。
参考图9所示,图9是一个实施例的音乐文件的人声分离装置的结构示意图,包括:
语料获取模块10,用于获取歌手的有效语料信息;
模型训练模块20,用于对所述有效语料信息进行神经网络分析得到该歌手声纹的人声特征系数矩阵,并存储在所述歌手的特征库中;
模型查找模块30,用于导入目标音乐,识别所述目标音乐的歌手,并从所述特征库查找出该歌手声纹的人声特征系数矩阵;
人声分离模块40,用于将所述目标音乐的频谱信息与所述人声特征系数矩阵相乘得到目标音乐的人声文件。
本实施例的音乐文件的人声分离装置可执行本公开的实施例所提供的一种音乐文件的人声分离方法,其实现原理相类似,本公开各实施例中的音乐文件的人声分离装置中的各模块所执行的动作是与本公开各实施例中的音乐文件的人声分离方法中的步骤相对应的,对于音乐文件的人声分离装置的各模块的详细功能描述具体可以参见前文中所示的对应的音乐文件的人声分离方法中的描述,此处不再赘述。
下面阐述本申请的计算机设备的实施例,该计算机设备,其包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据上述任意实施例的音乐文件的人声分离方法。
下面阐述本申请的计算机可读存储介质的实施例,,所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行上述任意实施例的音乐文件的人声分离方法。
上述音乐文件的人声分离装置、计算机设备以及计算机可读存储介质的技术方案,通过歌手人物的声纹特征提取和神经网络的训练从而得到该歌手最优的人声特征系数矩阵,利用该人声特征系数矩阵可以体现该歌手的发声音色,作用于目标音乐的频谱可使得纯人声还原度更高,提升了人声分离的纯净度,降低了失真度。
同时,采用声纹特征系数矩阵作为神经网络的输入层,极大程度提高了个人声纹的准确性,针对于声纹特征元素较多的情况,采用因子分析法进行处理,不仅起到降维作用,而且能够被很好的解释,寻找到最优的人声特征系数矩阵。
再者,利用分离后得到的伴奏文件作为人声文件中残留的伴奏信息及引入的噪声信息,利用该特点使用归一化均方误差滤波器对人声文件进行滤波,对人声文件进行二次提炼,有效消除人声中含有伴奏残留及过滤过程引入的噪声,进一步提升了分离的人声文件的保真度。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种音乐文件的人声分离方法,其特征在于,包括:
获取歌手的有效语料信息;
对所述有效语料信息进行神经网络分析得到该歌手声纹的人声特征系数矩阵,并存储在所述歌手的特征库中;
导入目标音乐,识别所述目标音乐的歌手,并从所述特征库查找出该歌手声纹的人声特征系数矩阵;
将所述目标音乐的频谱信息与所述人声特征系数矩阵相乘得到目标音乐的人声文件。
2.根据权利要求1所述的音乐文件的人声分离方法,其特征在于,还包括:
获取歌手的每首音乐的伴奏特征系数矩阵,并存储在所述歌手的特征库中;
识别所述目标音乐的歌手,并从所述特征库查找出该歌手对应该目标音乐的伴奏特征系数矩阵;
将所述目标音乐的频谱信息与所述伴奏特征系数矩阵相乘得到目标音乐的伴奏文件;
利用所述伴奏文件对人声文件进行降噪滤波处理,得到纯人声文件。
3.根据权利要求2所述的音乐文件的人声分离方法,其特征在于,所述将所述目标音乐的频谱信息与所述人声特征系数矩阵相乘得到目标音乐的人声文件,包括:
采用STFT技术对所述目标音乐进行分帧和添加汉宁窗得到音乐幅度谱;
将所述音乐幅度谱与所述人声特征系数矩阵相乘得到人声幅度谱;
将所述人声幅度谱进行逆STFT处理得到人声文件;
所述将所述目标音乐的频谱信息与所述伴奏特征系数矩阵相乘得到目标音乐的伴奏文件,包括:
将所述音乐幅度谱与所述伴奏特征系数矩阵相乘得到伴奏幅度谱;
将所述伴奏幅度谱进行逆STFT处理得到伴奏文件。
4.根据权利要求2所述的音乐文件的人声分离方法,其特征在于,所述利用所述伴奏文件对人声文件进行降噪滤波处理,得到纯人声文件,包括:
将所述伴奏文件按设定衰减量比例进行衰减;
将衰减后的伴奏文件作为所述人声文件中的伴奏残留的参考信息;
根据所述参考信息采用归一化最小均方误差滤波器对所述人声文件中的伴奏信息残留以及过滤引入噪声进行过滤,输出纯人声文件。
5.根据权利要求2所述的音乐文件的人声分离方法,其特征在于,所述对所述有效语料信息进行神经网络分析得到该歌手声纹的人声特征系数矩阵,包括:
对所述歌手的所有有效语料信息提取特征信息;其中,所述特征信息包括基音、共振峰、谐波特性、倒频谱、元音、辅音、反射系数、音量、音色和/或节奏;
根据所述特征信息构造人声特征系数矩阵和伴奏特征系数矩阵;根据所述歌手的纯人声文件和纯伴奏文件分别修正人声特征系数矩阵和伴奏特征系数矩阵的系数;
通过计算纯人声文件与人声特征系数矩阵输出之间的均方偏差值训练所述人声特征系数矩阵,以及计算纯伴奏文件与伴奏特征系数矩阵输出之间的均方偏差值优化所述伴奏特征系数矩阵。
6.根据权利要求5所述的音乐文件的人声分离方法,其特征在于,所述根据所述特征信息构造人声特征系数矩阵和伴奏特征系数矩阵;根据所述歌手的纯人声文件和纯伴奏文件分别修正人声特征系数矩阵和伴奏特征系数矩阵的系数,包括:
对所述特征信息进行因子分析得到低维特征系数矩阵;
基于神经网络技术和所述低维特征系数矩阵构造人声特征系数矩阵和伴奏特征系数矩阵;
根据所述歌手的纯人声歌曲和带伴奏的歌曲来获取纯人声文件和纯伴奏文件;
以所述纯人声文件和纯伴奏文件为样本分别导入所述人声特征系数矩阵和伴奏特征系数矩阵以修正人声特征系数矩阵和伴奏特征系数矩阵的系数。
7.根据权利要求1所述的音乐文件的人声分离方法,其特征在于,所述获取歌手的有效语料信息,包括:
基于公开数据来源采集歌手的原始语料;
对所述歌手的所述原始语料进行过滤静音段和裁剪成语音片段;
通过聚类方式对所述歌手的各个语音分段进行独立语音分析获得有效语料信息。
8.根据权利要求7所述的音乐文件的人声分离方法,其特征在于,所述对所述歌手的所述原始语料进行过滤静音段和裁剪成语音片段,包括:
将歌手的所有原始语料进行去均值化处理;
采用设定帧长和帧移的长度对原始语料进行定长切分为多段原始语料;
根据能量包络曲线和过零率曲线确定各段原始语料的话音突变点;
根据所述突变点位置和设定阈值判断出静音段,对所述静音段进行过滤;
对各段原始语料进行裁剪成语音片段。
9.根据权利要求8所述的音乐文件的人声分离方法,其特征在于,所述通过聚类方式对歌手的各个语音片段进行独立语音分析获得有效语料信息,包括:
分别计算各个语音片段的梅尔倒频谱;
利用所述梅尔倒频谱计算两两语音片段的信息熵、欧氏距离和共振峰的包络曲线的余弦相似度;
获取所述信息熵、欧氏距离和共振峰的包络曲线的余弦相似度三个维度中概率较高的语料集合,作为对应歌手的有效语料信息。
10.一种音乐文件的人声分离装置,其特征在于,包括:
语料获取模块,用于获取歌手的有效语料信息;
模型训练模块,用于对所述有效语料信息进行神经网络分析得到该歌手声纹的人声特征系数矩阵,并存储在所述歌手的特征库中;
模型查找模块,用于导入目标音乐,识别所述目标音乐的歌手,并从所述特征库查找出该歌手声纹的人声特征系数矩阵;
人声分离模块,用于将所述目标音乐的频谱信息与所述人声特征系数矩阵相乘得到目标音乐的人声文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111262469.9A CN114005460A (zh) | 2021-10-28 | 2021-10-28 | 音乐文件的人声分离方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111262469.9A CN114005460A (zh) | 2021-10-28 | 2021-10-28 | 音乐文件的人声分离方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114005460A true CN114005460A (zh) | 2022-02-01 |
Family
ID=79924556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111262469.9A Pending CN114005460A (zh) | 2021-10-28 | 2021-10-28 | 音乐文件的人声分离方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114005460A (zh) |
-
2021
- 2021-10-28 CN CN202111262469.9A patent/CN114005460A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789290B2 (en) | Audio data processing method and apparatus, and computer storage medium | |
Bu et al. | Aishell-1: An open-source mandarin speech corpus and a speech recognition baseline | |
Gupta et al. | Automatic lyrics alignment and transcription in polyphonic music: Does background music help? | |
Kim et al. | MPEG-7 audio and beyond: Audio content indexing and retrieval | |
Fujihara et al. | Lyrics-to-audio alignment and its application | |
Sharma et al. | NHSS: A speech and singing parallel database | |
CN110675886A (zh) | 音频信号处理方法、装置、电子设备及存储介质 | |
Urbain et al. | Arousal-driven synthesis of laughter | |
CN109102800A (zh) | 一种确定歌词显示数据的方法和装置 | |
Mesaros | Singing voice identification and lyrics transcription for music information retrieval invited paper | |
WO2023221345A1 (zh) | 一种情感语音的合成方法及合成装置 | |
Gao et al. | Genre-conditioned acoustic models for automatic lyrics transcription of polyphonic music | |
US20200105244A1 (en) | Singing voice synthesis method and singing voice synthesis system | |
Londhe et al. | Chhattisgarhi speech corpus for research and development in automatic speech recognition | |
Hu et al. | Singer identification based on computational auditory scene analysis and missing feature methods | |
Nakano et al. | A drum pattern retrieval method by voice percussion | |
CN114005460A (zh) | 音乐文件的人声分离方法和装置 | |
JP6849977B2 (ja) | テキスト表示用同期情報生成装置および方法並びに音声認識装置および方法 | |
CN111681674B (zh) | 一种基于朴素贝叶斯模型的乐器种类识别方法和系统 | |
CN110610721B (zh) | 一种基于歌词演唱准确度的检测系统及方法 | |
JP2004347732A (ja) | 言語自動識別方法及び装置 | |
Seo | Speech/music classification based on the higher-order moments of subband energy | |
Hosain et al. | Deep-learning-based speech emotion recognition using synthetic bone-conducted speech | |
Bous | A neural voice transformation framework for modification of pitch and intensity | |
Vishnu et al. | An approach for Mridanga stroke transcription in Carnatic music using HGCC |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |