CN110516102B - 一种基于语谱图识别的歌词时间戳生成方法 - Google Patents

一种基于语谱图识别的歌词时间戳生成方法 Download PDF

Info

Publication number
CN110516102B
CN110516102B CN201910650229.2A CN201910650229A CN110516102B CN 110516102 B CN110516102 B CN 110516102B CN 201910650229 A CN201910650229 A CN 201910650229A CN 110516102 B CN110516102 B CN 110516102B
Authority
CN
China
Prior art keywords
audio
line
time
lyric
division
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910650229.2A
Other languages
English (en)
Other versions
CN110516102A (zh
Inventor
鄢腊梅
郑杰文
蒋琤琤
袁友伟
王奕菲
施振浪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201910650229.2A priority Critical patent/CN110516102B/zh
Publication of CN110516102A publication Critical patent/CN110516102A/zh
Application granted granted Critical
Publication of CN110516102B publication Critical patent/CN110516102B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明公开了一种基于语谱图识别的歌词时间戳生成方法,步骤S1:利用音频空间位置差异分离人声与伴奏;步骤S2:根据响度与BPM对处理后的音频作基于行的时间分割;步骤S3:将上述分割后的音频转化为语谱图,并利用图像识别对其进行基于单字的时间分割,得到所需的歌词时间戳。采用本发明的技术方案,将原始音频进行人声提取,并结合Adaboost模型对其语谱图进行识别,能有效提高对齐准确性,并大大降低人工对齐的成本。

Description

一种基于语谱图识别的歌词时间戳生成方法
技术领域
本发明涉及音乐信息检索领域,具体地,涉及一种依据给定歌词及音频生成歌词时间戳的方法。
背景技术
在现代流行音乐中,歌词作为一种传达歌曲内容与思想的媒介,对于帮助观众更好的理解歌曲有着不可替代的作用,而歌词与歌曲不同步则严重影响观众的欣赏体验。现有技术在歌词对齐时需要人员凭听觉确定歌词在歌曲中的位置,不同人员对同一首歌曲的时间戳划分往往相差较大,人工方法不仅工作量大,成本高,耗时长,而且准确度也与个人水平有很大关系。
并且现有的一些对齐方法对原始音频要求高,往往只对纯净的人声音频分划效果较为理想,而实际情况下的音频多为双声道乐曲,因此对齐准确度低。同时,传统方法对于不同风格乐曲对齐准确性差异巨大,具体与学习样本有很大关联,因此其鲁棒性较差,难以应用于实际问题中。
此外,现有的手工歌词对齐方法多应用于逐行歌词对齐中,而逐字歌词对齐因需要较对的内容显著增加,且无统一的文件格式和标准,导致带有逐字歌词时间戳的歌词文本数量稀少。
针对上述问题,目前仍未有有效的解决方法被提出。
发明内容
本发明目的在于,针对当前需要手动对齐歌词时间戳,特别是逐字歌词时间戳文本稀少这一现状,提供一种方便,快捷,自动的时间戳生成方法,解决歌词与歌曲同步放映中的时间对齐问题。
为实现上述目的,本发明提供了一种基于语谱图识别的歌词时间戳生成方法,该方法包括如下步骤:对输入的歌曲音频应用主旋律提取技术,得到分离后的人声音频;依据给定的歌词文件进行基于行的片段提取;生成对应音频文件的语谱图;利用图像识别模块对该部分的语谱图分划,判断出可能的单字位置,与给定的歌词在该行字数做匹配,优化识别结果,最终得到带有时间戳的歌词文本。
本发明的技术方案如下:
一种基于语谱图识别的歌词时间戳生成方法,包含以下步骤:
步骤S1:音频预处理,利用输入声源的空间位置差异作人声伴奏分离,具体包括以下步骤:
步骤S1.1:分别获取音频左右声道的音频信息,并对左声道音频作反转处理,反转处理公式如下:
Figure GDA0002806259160000021
其中,
Figure GDA0002806259160000022
代表左声道每个采样点反转后的信息,
Figure GDA0002806259160000023
代表左声道每个原始采样点信息,即对应时间i下的振幅x;此外,左声道每个采样点信息还可表示为:
Figure GDA0002806259160000024
其中
Figure GDA0002806259160000025
表示位于中置声道的每个采样点信息,
Figure GDA0002806259160000026
表示左声道中偏离中置声道的音频信息。
步骤S1.2:将反转后的左声道音频叠加至右声道上,得到远离中置声道的音频,其叠加公式如下:
Figure GDA0002806259160000027
式中
Figure GDA0002806259160000028
为每个远离中置声道的音频采样点,
Figure GDA0002806259160000029
为右声道每个采样点的原始数据,
Figure GDA0002806259160000031
为右声道中偏离中置声道的音频信息。
步骤S1.3:依据上述得到的远离中置声道的音频作中置声道析取,得到中置声道音频,中置声道表达式为:
Figure GDA0002806259160000032
Figure GDA0002806259160000033
其中
Figure GDA0002806259160000034
为每个位于中置声道音频信息的采样信息,sign(*)为符号函数,xi是原始音频合并左右声道合并后的采样点信息。
步骤S1.4:对得到的中置声道作滤波处理:
Figure GDA0002806259160000035
其中
Figure GDA0002806259160000036
为滤波后得到的音频采样点信息,f(*)函数表示滤波函数,在本例中将使用减谱法作为滤波函数,其步骤如下:
步骤S1.4.1:优选地,使用线性预测的方法估计噪声;
步骤S1.4.2:对原始音频及估计噪声作DFT(离散傅里叶变换)处理,解得其功率谱;
步骤S1.4.3:对两者功率谱相减后求其二范数;
步骤S1.4.4:利用噪声相位作相位变换;
步骤S1.4.5:对最终结果作IDFT(离散傅里叶逆变换)处理。
步骤S1.5:对原始音频及上述步骤S1.4得到的音频作基音检测,基音检测公式如下:
Figure GDA0002806259160000037
其中T表示基音周期,τmin表示基音周期最小值,τmax表示基音周期最大值,ar gmin表示取最小自变量。具体地,步骤如下:
步骤S1.5.1:对输入的音频数据作DFT处理,得到其复数谱;
步骤S1.5.2:对复数谱的模长作平方运算,得到功率谱;
步骤S1.5.3:对功率谱取对数后作IDFT,最终得到其倒谱。
步骤S1.6:将两者基音作比较,判断差异点,并依据差异点返回步骤S1.4调整该时间范围内的滤波参数,最终得到分离后的人声
Figure GDA0002806259160000041
需要注意的是,也可以对右声道音频作上述操作,最终得到的结果相同。
步骤S2:基于行的音频分离及歌词对齐,包括以下步骤:
步骤S2.1:以音频响度为阈值分隔音频,并与输入的歌词行数作对比,得到可能的基于行的分划Sj,j=1,2,…。
步骤S2.2:对每个分划Sj作BPM(每分钟节拍数)检测,具体地:
步骤S2.2.1:对某个小区间作相位估计,若其相位估计值与实践值相差过大,则认定其为起始点;
步骤S2.2.2:对起始点信息作平滑滤波处理;
步骤S2.2.3:对上述经平滑滤波处理的信息作移动均值门限预处理;
步骤S2.2.4:计算其自相关函数;
步骤S2.2.5:通过构建HMM(隐马尔可夫模型)预测下一帧的节拍速度;
步骤S2.2.5:输出节拍周期。
BPM计算公式如下:
Figure GDA0002806259160000042
Figure GDA0002806259160000043
Figure GDA0002806259160000044
其中Φi表示每个时间点处估计相位与实际相位的差,Φi是实际相位,
Figure GDA0002806259160000051
为估计相位,ti为给定时间点,N表示在该分划下的时间点总个数,Time是该分划总时间,单位为分钟,A表示相位差阈值,由经验给出。
步骤S2.3:对BPM值突变的分划做出标记,记作
Figure GDA0002806259160000052
步骤S2.4:采用二分法,对每个标记的分划取时间中点为分划点作再分划
Figure GDA0002806259160000053
并对每个分划再次检测BPM,直到BPM变化值小于给定值A或循环次数超过给定范围。如BPM变化值小于给定值,则取消该分划的标记,否则将BPM突变的点视作一个新的分划点,将原本标记的分划修改成两个新的分划。
步骤S2.5:对新的分划个数与歌词行数对比,可能有如下三种情况:分划个数与歌词行数相等,则进行步骤S3;分划个数小于歌词行数,减小BPM变化值阈值,返回步骤S2.4,得到新的分划;分划个数大于歌词行数的,加大BPM变化值阈值,返回步骤S2.4,得到新的分划;直到分划个数与歌词行数相等,进入步骤S3。
步骤S3:基于词的歌词对齐及时间戳生成,具体包括以下步骤:
步骤S3.1:将步骤S1分离出的人声转化为语谱图,具体地:
步骤S3.1.1:预加重处理:
Figure GDA0002806259160000054
其中
Figure GDA0002806259160000055
为处理后的音频数据;
步骤S3.1.2:以10ms为帧长进行分帧;
步骤S3.1.3:对每一帧加窗,优选地,使用汉明窗;
步骤S3.1.4:对每帧信号补零使其长度等于2的幂;
步骤S3.1.5:对上述数据作DFT变换,并计算其功率谱;
步骤S3.1.6:计算梅尔频率:
Mel(M,N)=10log10(X(m,n)·X(m,n)T)
其中m是帧个数,n为帧长,M为时间,N为频率,X(m,n)是经DFT变换得到的数据,符号T为转置符号,Mel(M,N)是所求的在给定时间及频率时的能量密度。
步骤S3.1.7:对上述输出取对数;
步骤S3.1.8:对S3.1.7中的输出进行DCT(离散余弦变换);
步骤S3.1.9:对上述结果进行归一化处理。
步骤S3.2:引入图像识别模块,优选地,使用Adaboost机器学习算法,对步骤S2给出的每行音频的语谱图作检测,找出其中能量密度最大的部分,并基于能量密度对该行音频的时间再次分割,得到每部分的音频时间Tj,w及总分割数Nj。在本方法中,Adaboost算法主要包括以下几个步骤:
步骤S3.2.1:弱分类器建立,对输入数据的权重初始化;
步骤S3.2.2:求解其权向量的最优解;
步骤S3.2.3:计算误差,输出置信度;
步骤S3.2.4:利用上述结论更新权重,并对权重作归一化处理;
步骤S3.2.5:读入一组新的数据并得用上述解得的弱分类器计算下一个弱分类器;
步骤S3.2.6:当计算完所有弱分类器后输出强分类器,得到模型结果。
步骤S3.3:对给定的歌词在该行字数与步骤S3.2分割总数对比,若字数与分割总数相等,则将分割时间作为该行歌词的时间戳;其它情况则返回步骤S3.2,修改分类器权重后重新计算。
同时记录下该行的循环次数,同之前对比的行的循环次数作比较,若循环次数不断递增,则以之前行中循环次数最小的行为基准,在该行之后的行返回步骤S2重新分划音频,该行及该行之前的语句则保留歌词时间戳。
步骤S3.4:输出整首歌曲的歌词时间戳。
与现有技术比较,本发明具有的有益效果如下:
准确性高:相较于传统方法直接对歌曲进行歌词对齐,本发明采用了基于音频空间差异的中置声道析取方法,对人声与伴奏进行分离,减少了无关信息的干扰。
鲁棒性强:使用了先行对齐后字对齐的方法,有效避免了歌曲中语气词对歌词对齐的影响,同时在基于字对齐的模块时采用了返回参数防止误差累积。
成本低:由于本方法只需要歌曲音频与歌词即可完成歌词时间戳生成,不需要人工参与,极大地降低了歌词对齐的成本。
附图说明
图1为本发明提供的一种基于语谱图识别的歌词时间戳生成方法的框架流程图;
图2为步骤1中人声分离的流程图;
图3(a)为原始音频左声道波形图;
图3(b)为左声道反转后波形图;
图3(c)为远离中置声道的音频波形图;
图3(d)为中置声道析取后得到的音频波形图;
图3(e)为分离后的人声音频波形图;
图4为步骤2中基于行的音频分划流程图;
图5为基于行的音频波形时间划分;
图6为该行某小区间上的音频相位图;
图7为步骤3中基于单字的音频分割流程图;
图8为以对数刻度为坐标的音频语谱图;
图9为基于单字的语谱图分割;
图10为不同对齐方案对各音乐风格的平均对齐准确率;
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
以下将结合附图对本发明提供的方法作进一步说明。
基于语谱图图像识别的歌词时间戳生成,在音乐信息检索领域,通过使用机器学习对语谱图作图像识别,将传统的音频分析问题转化为图像处理问题,较以往方法有着更直观的、更简洁的优势,同时在多数情况下有更理想的结果。利用基音检测能优化基于究竟位置差异的旋律分离效果,较单纯的重混缩计算有巨大优势。而利用BPM判断语句分行则在效果可控的基础上很大程度地提高了运算效率。利用Adaboost模型对人声语谱图作图像识别,能有效排除噪声、伴奏等因此的干扰。因此,本发明提供了一种基于语谱图识别的歌词时间戳生成方法。
本发明提供一种基于语谱图识别的歌词时间戳生成方法,整体而方,本发明包括三大步骤,步骤S1:音频预处理,分离人声与伴奏;步骤S2:对预处理后的音频作基于行的时间分割;步骤S3:对上述每行音频作基于单字的时间分割,得到所需的歌词时间戳。
参见图1,为本发明方法实施例的步骤流程图,包括以下步骤:
步骤S1:音频预处理,利用输入声源的空间位置差异作人声伴奏分离,参见图2所示为本发明提供的一种基于语谱图识别的歌词时间戳生成方法中人声分离流程图,其具体包括以下步骤:
步骤S1.1:分别获取音频左右声道的音频信息,并对左声道音频作反转处理,如图3(a)、图3(b)所示,分别展示了左声道原始音频波形图与左声道反转处理后的音频的波形图,可以看到从图像上反转处理即将图像沿振幅为0的轴翻转,其反转处理公式如下:
Figure GDA0002806259160000091
其中,
Figure GDA0002806259160000092
代表左声道每个采样点反转后的信息,
Figure GDA0002806259160000093
代表左声道每个原始采样点信息,即对应时间i下的振幅x;此外,左声道每个采样点信息还可表示为:
Figure GDA0002806259160000094
其中
Figure GDA0002806259160000095
表示位于中置声道的每个采样点信息,
Figure GDA0002806259160000096
表示左声道中偏离中置声道的音频信息。
步骤S1.2:将反转后的左声道音频叠加至右声道上,得到远离中置声道的音频,如图3(c)所示,不难看出经步骤S1.2处理后波形振幅的均值较原本单声道下更大,表明该首歌曲左右声道信息差异可能较大。其叠加处理公式如下:
Figure GDA0002806259160000097
式中
Figure GDA0002806259160000098
为每个远离中置声道的音频采样点,
Figure GDA0002806259160000099
为右声道每个采样点的原始数据,
Figure GDA00028062591600000910
为右声道中偏离中置声道的音频信息。
步骤S1.3:依据上述得到的远离中置声道的音频作中置声道析取,得到中置声道音频,中置声道表达式为:
Figure GDA00028062591600000911
Figure GDA0002806259160000101
其中xci为每个位于中置声道音频信息的采样信息,sign(*)为符号函数,xi是原始音频合并左右声道合并后的采样点信息,最终的结果见图3(d)所示,在该图中有明显的波形变化点,是为可能的分割点,但在其开始端仍可以看到有明显的不属于人声的伴奏存在,因此下一步需要对该部分进行处理。
步骤S1.4:对得到的中置声道作滤波处理:
Figure GDA0002806259160000102
其中
Figure GDA0002806259160000103
为滤波后得到的音频采样点信息,f(*)函数表示滤波函数,在本例中将使用减谱法作为滤波函数,其步骤如下:
步骤S1.4.1:优选地,使用线性预测的方法估计噪声;
步骤S1.4.2:对原始音频及估计噪声作DFT(离散傅里叶变换)处理,解得其功率谱;
步骤S1.4.3:对两者功率谱相减后求其二范数;
步骤S1.4.4:利用噪声相位作相位变换;
步骤S1.4.5:对最终结果作IDFT(离散傅里叶逆变换)处理。
步骤S1.5:对原始音频及上述步骤S1.4得到的音频作基音检测,公式如下:
Figure GDA0002806259160000104
其中T表示基音周期,τmin表示基音周期最小值,τmax表示基音周期最大值,argmin表示取最小自变量。具体地,步骤如下:
步骤S1.5.1:对输入的音频数据作DFT处理,得到其复数谱;
步骤S1.5.2:对复数谱的模长作平方运算,得到功率谱;
步骤S1.5.3:对功率谱取对数后作IDFT,最终得到其倒谱。
步骤S1.6:将两者基音作比较,判断差异点,并依据差异点返回步骤S1.4调整该时间范围内的滤波参数,最终得到分离后的人声
Figure GDA0002806259160000111
最终输出的人声音频波形图见图3(e)所示,从图上可以看到在时域上已经将无人声部分较好的剔除,人声与伴奏混合部分经过上述处理后的音频已经较为纯净,可以用于下一步的歌词对齐操作。
需要注意的是,也可以对右声道音频作上述操作,最终得到的结果相同。
步骤S2:参见图4基于行的音频分离及歌词对齐流程图,包括以下步骤:
步骤S2.1:以音频响度为阈值分隔音频,并与输入的歌词行数作对比,得到可能的基于行的分划Sj,j=1,2,…。
步骤S2.2:对每个分划Sj作BPM(Beat Per Minute,每分钟节拍数)检测,具体地:
步骤S2.2.1:对某个小区间作相位估计,若其相位估计值与实践值相差过大,则认定其为起始点。图5展示了在一段小区间内的双声道音频相位图,图中颜色亮的部分表明了带有高能量的音频所在的声相位置。本步骤所要作的即预测亮色音频在下一时间可能的声相位置并与实际值作对比;
步骤S2.2.2:对起始点信息作平滑滤波处理;
步骤S2.2.3:对经平滑滤波处理的信息作移动均值门限预处理;
步骤S2.2.4:计算其自相关函数;
步骤S2.2.5:通过构建HMM(隐马尔可夫模型)预测下一帧的节拍速度;
步骤S2.2.5:输出节拍周期。
BPM计算公式如下:
Figure GDA0002806259160000121
Figure GDA0002806259160000122
Figure GDA0002806259160000123
其中Φi表示每个时间点处估计相位与实际相位的差,φi是实际相位,
Figure GDA0002806259160000124
为估计相位,ti为给定时间点,N表示在该分划下的时间点总个数,Time是该分划总时间,单位为分钟,A表示相位差阈值,由经验给出。
步骤S2.3:对BPM值突变的分划作出标记,记作
Figure GDA0002806259160000125
步骤S2.4:采用二分法,对每个标记的分划取时间中点为分划点作再分划
Figure GDA0002806259160000126
并对每个分划再次检测BPM,直到BPM变化值小于给定值A或循环次数超过给定范围。如BPM变化值小于给定值,则取消该分划的标记,否则将BPM突变的点视作一个新的分划点,将原本标记的分划修改成两个新的分划。
步骤S2.5:对新的分划个数与歌词行数对比,可能有如下三种情况:分划个数与歌词行数相等,则进行步骤S3;分划个数小于歌词行数,减小BPM变化值阈值,返回步骤S2.4,得到新的分划;分划个数大于歌词行数的,加大BPM变化值阈值,返回步骤S2.4,得到新的分划;直到分划个数与歌词行数相等,进入步骤S3。通过该方法分划的以文本行为分划标准的结果见图6,通过该步骤已经能输出常见的基于行对齐的歌词时间戳。
步骤S3:图7展示了一种基于词的歌词对齐及时间戳生成流程图,具体包括以下步骤:
步骤S3.1:将步骤S1分离出的人声转化为语谱图,具体地:
步骤S3.1.1:预加重处理:
Figure GDA0002806259160000131
其中
Figure GDA0002806259160000132
为处理后的音频数据;
步骤S3.1.2:以10ms为帧长进行分帧;
步骤S3.1.3:对每一帧加窗,优选地,使用汉明窗;
步骤S3.1.4:对每帧信号补零使其长度等于2的幂;
步骤S3.1.5:对上述数据作DFT变换,并计算其功率谱;
步骤S3.1.6:计算梅尔频率:
Mel(M,N)=10log10(X(m,n)·X(m,n)T)
其中m是帧个数,n为帧长,M为时间,N为频率,X(m,n)是经DFT变换得到的数据,符号T为转置符号,Mel(M,N)是所求的在给定时间及频率时的能量密度。
步骤S3.1.7:对上述输出取对数;
步骤S3.1.8:对S3.1.7中的输出进行DCT(离散余弦变换);
步骤S3.1.9:对上述结果进行归一化处理。
图8即为上述步骤作出的语谱图,特别地,在图8中纵轴使用了对数刻度坐标,能更加清晰的观察到高能音频所在处置,有利于下一步图像识别。
步骤S3.2:引入图像识别模块,优选地,使用Adaboost机器学习算法,对步骤S2给出的每行音频的语谱图作检测,找出其中能量密度最大的部分,并基于能量密度对该行音频的时间再次分割,得到每部分的音频时间Tj,w及总分割数Nj。在本方法中,Adaboost算法主要包括以下几个步骤:
步骤S3.2.1:弱分类器建立,对输入数据的权重初始化;
步骤S3.2.2:求解其权向量的最优解;
步骤S3.2.3:计算误差,输出置信度;
步骤S3.2.4:利用上述结论更新权重,并对权重作归一化处理;
步骤S3.2.5:读入一组新的数据并得用上述解得的弱分类器计算下一个弱分类器;
步骤S3.2.6:当计算完所有弱分类器后输出强分类器,得到模型结果。
步骤S3.3:对给定的歌词在该行字数与步骤S3.2分割总数对比,若字数与分割总数相等,则将分割时间作为该行歌词的时间戳;其它情况则返回步骤S3.2,修改分类器权重后重新计算。
同时记录下该行的循环次数,同之前对比的行的循环次数作比较,若循环次数不断递增,则以之前行中循环次数最小的行为基准,在该行之后的行返回步骤S2重新分划音频,该行及该行之前的语句则保留歌词时间戳。
步骤S3.4:输出整首歌曲的歌词时间戳。图9则展示了其中一句的分划,可以看到在该方法下能自动找到给定歌词文本中每个字的发音时间,进而生成时间戳。
为验证本发明的技术效果,以下将对基于语谱图识别的歌词时间戳生成方法与其他传统歌词对齐方法进行比较:
实验所使用测试歌曲采样率为44.1KHz,采样位深度16位(无抖动)的wav文件,以人工对齐的时间戳作为标准,将本发明所提供的方法与LyricAlly系统、基于GMM-HMM(高斯混合模型-隐马尔可夫模型)的对齐方法进行比较。需要注意的是,因人工对齐总存在误差,在本次实验中认为误差小于0.1s的时间戳为有效时间戳(假设一首歌曲平均BPM为240,则大约一个音符时间为0.25s,而绝大多数流行歌曲的BPM小于200)。其中LyricAlly系统作为本领域早期的对齐方案,通过将一首流行歌曲拆分为前奏、合声、高潮等部分,并对可能的部分作人声检测,后使用音素时长估计语句时长并与歌词文本对齐;而GMM-HMM对齐方法是通过将歌曲音频转化为MFCC(梅尔频率倒谱系数)后利用GMM-HMM模型行进对齐,是现最主流的对齐方法。
图10展示了不同对齐方案对各音乐风格的平均对齐准确率,因LyricAlly系统为基于英文歌曲开发的系统,移植难度较大,故本实验选取了不同乐曲风格的英文歌曲共计25首,每种风格各5首。可以看到LyricAlly系统作为本领域早期方案,仅具有研究意义,无法在实际工作中应用;而GMM-HMM模型对齐则具有相对较好的对齐准确率,配合人工能极大的降低人员的工作量;本发明提出的基于语谱图识别的歌词时间戳生成方法则全面优于上述两种方案,对齐准确率高,且能适应不同风格的乐曲。
下表1为上述对比实验的详细数据。可以看到,本发明提供的方法较GMM-HMM模型在25首不同风格乐曲中有21首(84%)对齐准确率更高,其平均对齐准确率达81.91%,最低对齐准确率70.52%,较传统方法表现优异。
表1本发明与其它传统方法对齐准确率百分比
Figure GDA0002806259160000151
Figure GDA0002806259160000161
以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (1)

1.一种基于语谱图识别的歌词时间戳生成方法,其特征在于,至少包括以下步骤:
步骤S1:利用音频空间位置差异分离人声与伴奏;
步骤S2:根据响度与BPM对处理后的音频作基于行的时间分割;
步骤S3:将经步骤S2分割后的音频转化为语谱图,并利用图像识别对其进行基于单字的时间分割,得到所需的歌词时间戳;
其中,所述步骤S1进一步包括:
步骤S1.1:分别获取音频左右声道的音频信息,并对左声道音频作反转处理,反转处理公式如下:
Figure FDA0002806259150000011
其中,
Figure FDA0002806259150000012
代表左声道每个采样点反转后的信息,
Figure FDA0002806259150000013
代表左声道每个原始采样点信息,即对应时间i下的振幅x;左声道每个采样点信息表示为:
Figure FDA0002806259150000014
其中
Figure FDA0002806259150000015
表示位于中置声道的每个采样点信息,
Figure FDA0002806259150000016
表示左声道中偏离中置声道的音频信息;
步骤S1.2:将反转后的左声道音频叠加至右声道上,得到远离中置声道的音频,其叠加公式如下:
Figure FDA0002806259150000017
式中
Figure FDA0002806259150000018
为每个远离中置声道的音频采样点,
Figure FDA0002806259150000019
为右声道每个采样点的原始数据,
Figure FDA00028062591500000110
为右声道中偏离中置声道的音频信息;
步骤S1.3:依据上述得到的远离中置声道的音频作中置声道析取,得到中置声道音频,中置声道表达式为:
Figure FDA0002806259150000021
Figure FDA0002806259150000022
其中
Figure FDA0002806259150000023
为每个位于中置声道音频信息的采样信息,sign(*)为符号函数,xi是原始音频合并左右声道合并后的采样点信息;
步骤S1.4:对得到的中置声道作滤波处理:
Figure FDA0002806259150000024
其中
Figure FDA0002806259150000025
为滤波后得到的音频采样点信息,f(*)函数表示滤波函数;
步骤S1.5:对原始音频及上述步骤S1.4得到的音频作基音检测,基音检测公式如下:
Figure FDA0002806259150000026
其中T表示基音周期,τmin表示基音周期最小值,τmax表示基音周期最大值,argmin表示取最小自变量;
步骤S1.6:将两者基音作比较,判断差异点,并依据差异点返回步骤S1.4调整该时间范围内的滤波参数,最终得到分离后的人声
Figure FDA0002806259150000027
所述步骤S1.4进一步包括:
步骤S1.4.1:使用线性预测的方法估计噪声;
步骤S1.4.2:对原始音频及估计噪声作DFT处理,解得其功率谱;
步骤S1.4.3:对两者功率谱相减后求其二范数;
步骤S1.4.4:利用噪声相位作相位变换;
步骤S1.4.5:对最终结果作IDFT处理;
所述步骤S1.5进一步包括:
步骤S1.5.1:对输入的音频数据作DFT处理,得到其复数谱;
步骤S1.5.2:对复数谱的模长作平方运算,得到功率谱;
步骤S1.5.3:对功率谱取对数后作IDFT,最终得到其倒谱;
所述步骤S2进一步包括:
步骤S2.1:以音频响度为阈值分隔音频,并与输入的歌词行数作对比,得到基于行的分划Sj,j=1,2,…;
步骤S2.2:对每个分划Sj作BPM检测,其中BPM表示每分钟节拍数;
步骤S2.3:对BPM值突变的分划做出标记,记作
Figure FDA0002806259150000031
步骤S2.4:采用二分法,对每个标记的分划取时间中点为分划点作再分划
Figure FDA0002806259150000032
并对每个分划再次检测BPM,直到BPM变化值小于给定值A或循环次数超过给定范围;如BPM变化值小于给定值,则取消该分划的标记,否则将BPM突变的点视作一个新的分划点,将原本标记的分划修改成两个新的分划;
步骤S2.5:对新的分划个数与歌词行数对比,其中,如果分划个数与歌词行数相等,则进行步骤S3;如果分划个数小于歌词行数,减小BPM变化值阈值,返回步骤S2.4,得到新的分划;如果分划个数大于歌词行数的,加大BPM变化值阈值,返回步骤S2.4,得到新的分划;直到分划个数与歌词行数相等,进入步骤S3;
所述步骤S2.2进一步包括:
步骤S2.2.1:对某个小区间作相位估计,若其相位估计值与实践值相差过大,则认定其为起始点;
步骤S2.2.2:对起始点信息作平滑滤波处理;
步骤S2.2.3:对经平滑滤波处理后的起始点信息作移动均值门限预处理;
步骤S2.2.4:计算其自相关函数;
步骤S2.2.5:通过构建HMM预测下一帧的节拍速度;
步骤S2.2.5:输出节拍周期;
其中,BPM计算公式如下:
Figure FDA0002806259150000041
Figure FDA0002806259150000042
Figure FDA0002806259150000043
其中Φi表示每个时间点处估计相位与实际相位的差,φi是实际相位,
Figure FDA0002806259150000044
为估计相位,ti为给定时间点,N表示在该分划下的时间点总个数,Time是该分划总时间,单位为分钟,A表示相位差阈值;
所述步骤S3进一步包括:
步骤S3.1:将步骤S1分离出的人声转化为语谱图;
步骤S3.2:设置图像识别模块,使用Adaboost机器学习算法,对步骤S2给出的每行音频的语谱图作检测,找出其中能量密度最大的部分,并基于能量密度对该行音频的时间再次分割,得到每部分的音频时间Tj,w及总分割数Nj;其中,下标w表示该行音频中第w个分割,Tj,w表示第j行音频的第w个分割的音频时间;
步骤S3.3:对给定的歌词在该行字数与步骤S3.2分割总数对比,若字数与分割总数相等,则将分割时间作为该行歌词的时间戳;其它情况则返回步骤S3.2,修改分类器权重后重新计算;同时记录下该行的循环次数,同之前对比的行的循环次数作比较,若循环次数不断递增,则以之前行中循环次数最小的行为基准,在该行之后的行返回步骤S2重新分划音频,该行及该行之前的语句则保留歌词时间戳;
步骤S3.4:输出整首歌曲的歌词时间戳;
所述步骤S3.1进一步包括:
步骤S3.1.1:预加重处理:
Figure FDA0002806259150000051
其中
Figure FDA0002806259150000052
为处理后的音频数据;
步骤S3.1.2:以10ms为帧长进行分帧;
步骤S3.1.3:使用汉明窗对 每一帧加窗;
步骤S3.1.4:对每帧信号补零使其长度等于2的幂;
步骤S3.1.5:对上述数据作DFT变换,并计算其功率谱;
步骤S3.1.6:计算梅尔频率:
Mel(M,N)=10log10(X(m,n)·X(m,n)T)
其中m是帧个数,n为帧长,M为时间,N为频率,X(m,n)是经DFT变换得到的数据,符号T为转置符号,Mel(M,N)是所求的在给定时间及频率时的能量密度;
步骤S3.1.7:对上述输出取对数;
步骤S3.1.8:对S3.1.7中的输出进行DCT(离散余弦变换);
步骤S3.1.9:对上述结果进行归一化处理;
所述步骤S3.2进一步包括:
步骤S3.2.1:弱分类器建立,对输入数据的权重初始化;
步骤S3.2.2:求解其权向量的最优解;
步骤S3.2.3:计算误差,输出置信度;
步骤S3.2.4:利用上述结论更新权重,并对权重作归一化处理;
步骤S3.2.5:读入一组新的数据并得用上述解得的弱分类器计算下一个弱分类器;
步骤S3.2.6:当计算完所有弱分类器后输出强分类器,得到模型结果。
CN201910650229.2A 2019-07-18 2019-07-18 一种基于语谱图识别的歌词时间戳生成方法 Active CN110516102B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910650229.2A CN110516102B (zh) 2019-07-18 2019-07-18 一种基于语谱图识别的歌词时间戳生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910650229.2A CN110516102B (zh) 2019-07-18 2019-07-18 一种基于语谱图识别的歌词时间戳生成方法

Publications (2)

Publication Number Publication Date
CN110516102A CN110516102A (zh) 2019-11-29
CN110516102B true CN110516102B (zh) 2021-05-11

Family

ID=68624014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910650229.2A Active CN110516102B (zh) 2019-07-18 2019-07-18 一种基于语谱图识别的歌词时间戳生成方法

Country Status (1)

Country Link
CN (1) CN110516102B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110600055B (zh) * 2019-08-15 2022-03-01 杭州电子科技大学 一种使用旋律提取与语音合成技术的歌声分离方法
CN111126247B (zh) * 2019-12-20 2021-11-05 中南大学 一种基于二分查找的行人检测器训练方法及系统
CN111210850B (zh) * 2020-01-10 2021-06-25 腾讯音乐娱乐科技(深圳)有限公司 歌词对齐方法及相关产品
CN112786020B (zh) * 2021-01-21 2024-02-23 腾讯音乐娱乐科技(深圳)有限公司 一种歌词时间戳生成方法及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894552A (zh) * 2010-07-16 2010-11-24 安徽科大讯飞信息科技股份有限公司 基于语谱切分的唱歌评测系统
US9305530B1 (en) * 2014-09-30 2016-04-05 Amazon Technologies, Inc. Text synchronization with audio
CN106448630A (zh) * 2016-09-09 2017-02-22 腾讯科技(深圳)有限公司 歌曲的数字乐谱文件的生成方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894552A (zh) * 2010-07-16 2010-11-24 安徽科大讯飞信息科技股份有限公司 基于语谱切分的唱歌评测系统
US9305530B1 (en) * 2014-09-30 2016-04-05 Amazon Technologies, Inc. Text synchronization with audio
CN106448630A (zh) * 2016-09-09 2017-02-22 腾讯科技(深圳)有限公司 歌曲的数字乐谱文件的生成方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Automatic lyrics alignment for Cantonese popular music";Chi Hang Wong等;《Multimedia Systems》;20070331;第12卷(第4-5期);全文 *
"基于旋律的音乐哼唱检索系统的设计与实现";叶飞;《中国优秀硕士学位论文全文数据库 信息科技辑》;20131215;全文 *

Also Published As

Publication number Publication date
CN110516102A (zh) 2019-11-29

Similar Documents

Publication Publication Date Title
CN110516102B (zh) 一种基于语谱图识别的歌词时间戳生成方法
Papadopoulos et al. Large-scale study of chord estimation algorithms based on chroma representation and HMM
CN110600055B (zh) 一种使用旋律提取与语音合成技术的歌声分离方法
Li et al. Separation of singing voice from music accompaniment for monaural recordings
Durrieu et al. A musically motivated mid-level representation for pitch estimation and musical audio source separation
Deshmukh et al. Use of temporal information: Detection of periodicity, aperiodicity, and pitch in speech
Tachibana et al. Melody line estimation in homophonic music audio signals based on temporal-variability of melodic source
US9093056B2 (en) Audio separation system and method
Virtanen et al. Combining pitch-based inference and non-negative spectrogram factorization in separating vocals from polyphonic music.
US20150025892A1 (en) Method and system for template-based personalized singing synthesis
Peeters Musical key estimation of audio signal based on hidden Markov modeling of chroma vectors
Gómez et al. Predominant Fundamental Frequency Estimation vs Singing Voice Separation for the Automatic Transcription of Accompanied Flamenco Singing.
Pertusa et al. Multiple fundamental frequency estimation using Gaussian smoothness
Hu et al. Separation of singing voice using nonnegative matrix partial co-factorization for singer identification
Han et al. Improving melody extraction using probabilistic latent component analysis
CN103915093A (zh) 一种实现语音歌唱化的方法和装置
Durrieu et al. An iterative approach to monaural musical mixture de-soloing
Zhang et al. Melody extraction from polyphonic music using particle filter and dynamic programming
Li et al. Detecting pitch of singing voice in polyphonic audio
Gurunath Reddy et al. Predominant melody extraction from vocal polyphonic music signal by time-domain adaptive filtering-based method
Hsu et al. Singing Pitch Extraction from Monaural Polyphonic Songs by Contextual Audio Modeling and Singing Harmonic Enhancement.
Barthet et al. Speech/music discrimination in audio podcast using structural segmentation and timbre recognition
Reddy et al. Predominant melody extraction from vocal polyphonic music signal by combined spectro-temporal method
Shiu et al. Musical structure analysis using similarity matrix and dynamic programming
Sridhar et al. Music information retrieval of carnatic songs based on carnatic music singer identification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant