CN108206026A - 确定音频内容音高偏差的方法及装置 - Google Patents

确定音频内容音高偏差的方法及装置 Download PDF

Info

Publication number
CN108206026A
CN108206026A CN201711269010.5A CN201711269010A CN108206026A CN 108206026 A CN108206026 A CN 108206026A CN 201711269010 A CN201711269010 A CN 201711269010A CN 108206026 A CN108206026 A CN 108206026A
Authority
CN
China
Prior art keywords
pitch
sound
fundamental frequency
sequence
song
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711269010.5A
Other languages
English (en)
Other versions
CN108206026B (zh
Inventor
王国腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sing Sing Technology Co Ltd
Original Assignee
Beijing Sing Sing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sing Sing Technology Co Ltd filed Critical Beijing Sing Sing Technology Co Ltd
Priority to CN201711269010.5A priority Critical patent/CN108206026B/zh
Publication of CN108206026A publication Critical patent/CN108206026A/zh
Application granted granted Critical
Publication of CN108206026B publication Critical patent/CN108206026B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

本申请公开了一种确定音频内容音高偏差的方法及装置。方法包括:采集用户演唱歌曲时的歌声;将所述歌声的节奏调整为与所述歌曲的标准节奏一致,得到节奏标准的人声基频序列;根据所述人声基频序列确定所述人声基频序列中每个演唱音的基频数值、起始时间和结束时间;根据所述每个演唱音的起始时间、结束时间及所述基频数值确定每个演唱音的用户音高;根据所述每个演唱音的用户音高和所述歌曲对应的音高模板,确定每个相同时间点的用户音高与标准音高之间的音高差,并得到音高差序列。达到了确定用户演唱音频内容音高偏差的目的,进而解决了由于用户无法准确演唱歌曲造成的音高不准,而导致输出的音频也存在音高不准的技术问题。

Description

确定音频内容音高偏差的方法及装置
技术领域
本申请涉及声音处理技术领域,具体而言,涉及一种确定音频内容音高偏差的方法及装置。
背景技术
随着人们生活水平的提高,人们对文化娱乐生活的追求也随之提高,并且得益于通信及信息技术的高速发展,音乐功能已经成为计算机或手机等终端中的一项必备应用。具有KTV功能的音乐类产品越来越多的出现在用户的终端中,大都是按照用户选择的音乐播放伴奏并跟随音乐伴奏显示字幕,用户则按照显示字幕上的字体颜色提示或其他标记提示对应歌词的演唱时间,直至完成整首歌曲;使得用户在任何场景都能够获得与在KTV 中类似的演唱体验。
但是,并不是每个用户都能准确唱出每个音的正确音高,导致演唱结果出现走音跑调等演唱瑕疵。相关技术中虽然能够提示用户正确的演唱音高及用户自身的演唱音高,但是并不能计算用户的演唱结果与相应的音频内容之间的音高偏差。
发明内容
本申请的主要目的在于提供一种确定音频内容音高偏差的方法及装置,以解决无法获知用户演唱结果与相应的音频内容之间的音高偏差问题。
为了实现上述目的,根据本申请的一个方面,提供了一种确定音频内容音高偏差的方法。
根据本申请的一种确定音频内容音高偏差的方法,包括:
采集用户演唱歌曲时的歌声;
将所述歌声的节奏调整为与所述歌曲的标准节奏一致,得到节奏标准的人声基频序列;
根据所述人声基频序列确定所述人声基频序列中每个演唱音的基频序列、起始时间和结束时间;
根据所述每个演唱音的起始时间、结束时间及所述每个演唱音的基频序列确定每个演唱音的用户音高;
根据所述每个演唱音的用户音高和所述歌曲对应的音高模板,确定每个相同时间点的用户音高与标准音高之间的音高差,并得到音高差序列;所述音高模板中包含用户演唱歌曲中每个音符的标准音高、起始时间和结束时间。
进一步的,如前述的确定音频内容音高偏差的,所述根据所述人声基频序列得到所述人声基频序列中每个演唱音的基频序列,包括:
对所述人声基频序列每隔固定时间进行分帧计算;
得到每帧所述人声基频序列的基频数值;
确定每个演唱音中所有帧所对应的基频数值;
根据所有帧所对应的基频数值确定所述演唱音的基频序列。
进一步的,如前述的确定音频内容音高偏差的,所述根据所述每个演唱音的起始时间、结束时间及每个演唱音的基频序列确定每个演唱音的用户音高,包括:
划分所述基频特征中每个演唱音的音头、音腹和音尾;
确定所述每个演唱音的音腹的基频序列;
计算所述每个演唱音的音腹中的基频数值的平均数x;
通过式得到所述每个演唱音的用户音高y。
进一步的,如前述的确定音频内容音高偏差的,所述根据所述每个演唱音的用户音高和所述歌曲对应的音高模板,确定每个相同时间点的用户音高与标准音高之间的音高差,包括:
根据所述每个演唱音的起始时间和结束时间确定所述音高模板中对应时间的每个标准音的标准音高;
计算每个时间点的所述用户音高和所述标准音高之间的音高差。
进一步的,如前述的确定音频内容音高偏差的,在确定所述人声基频序列和音高模板之间的音高差序列之后,还包括:
将所述音高差序列做平滑处理得到平滑音高差序列;
根据所述平滑音高差序列修正所述人声基频序列。
进一步的,如前述的确定音频内容音高偏差的,所述将所述音高差序列做平滑处理得到平滑音高差序列,包括:
将所述音高差序列中相邻的音尾与音头进行平滑处理,将阶跃的音高差序列转换为连续的平滑音高差序列。
进一步的,如前述的确定音频内容音高偏差的,所述将所述音高差序列中相邻的音尾与音头进行平滑处理,包括:
通过下示函数替换相邻两个音的音头音尾部分的音高差序列值,得到平滑的音高差序列进行平滑处理:
其中,n1为音尾的音高,n2为音头的音高,t1为第一个音的音尾开始时间, t2为第二个音的音头结束时间为。
为了实现上述目的,根据本申请的另一方面,提供了一种确定音频内容音高偏差的装置。
根据本申请的一种确定音频内容音高偏差的装置,包括:
歌声采集单元,用于采集用户演唱歌曲时的歌声;
人声基频序列获得单元,用于将所述歌声的节奏调整为与所述歌曲的标准节奏一致,得到节奏标准的人声基频序列;
演唱音信息确定单元,用于根据所述人声基频序列确定每个演唱音的基频数值、起始时间和结束时间;
演唱音音高确定单元,用于根据所述人声基频序列中每个演唱音的起始时间、结束时间及所述基频数值确定每个演唱音的用户音高;
音高差序列获得单元,用于根据所述每个演唱音的用户音高和所述歌曲对应的音高模板确定所述歌声中每个时间点的音高差,得到音高差序列;所述音高模板中包含用户演唱歌曲中每个音符的标准音高、起始时间和结束时间。
进一步的,如前述的确定音频内容音高偏差的,所述演唱音信息确定单元,包括:
演唱音基频数值采样模块,用于对所述人声基频序列每隔固定时间进行分帧计算;
单帧基频数值获得模块,用于得到每帧所述人声基频序列的基频数值;
基频数值匹配模块,用于确定每个演唱音中所有帧所对应的基频数值;
演唱音基频序列确定模块,根据所有帧所对应的基频数值确定所述演唱音的基频序列。
进一步的,如前述的确定音频内容音高偏差的,所述音高差序列获得单元,包括:
对应模块,用于根据所述每个演唱音的起始时间和结束时间确定所述音高模板中对应时间的每个标准音的标准音高;
音高差序列获得模块,用于通过计算每个时间点的所述用户音高和所述标准音高之间的音高差,得到完整的所述音高差序列。
在本申请实施例中,采用与音高模板进行比对获取音高差的方式,通过采集用户演唱歌曲时的歌声;将所述歌声的节奏调整为与所述歌曲的标准节奏一致,得到节奏标准的人声基频序列;根据所述人声基频序列确定所述人声基频序列中每个演唱音的基频数值、起始时间和结束时间;根据所述每个演唱音的起始时间、结束时间及所述基频数值确定每个演唱音的用户音高;根据所述每个演唱音的用户音高和所述歌曲对应的音高模板,确定每个相同时间点的用户音高与标准音高之间的音高差,并得到音高差序列;所述音高模板中包含用户演唱歌曲中每个音符的标准音高、起始时间和结束时间。达到了确定用户演唱音频内容音高偏差的目的,进而解决了由于用户无法准确演唱歌曲造成的音高不准,而导致输出的音频也存在音高不准的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种确定音频内容音高偏差的方法流程图;
图2是根据本申请实施例的又一种确定音频内容音高偏差的方法流程图;
图3是根据图2所示实施例中步骤S2的一种具体实施方法流程图;
图4是根据图2所示实施例中步骤S3的一种具体实施方法流程图;
图5是根据图2所示实施例中步骤S4的一种具体实施方法流程图;
图6是根据图2所示实施例中步骤S6的一种具体实施方法流程图;
图7是根据本申请实施例的又一种确定音频内容音高偏差的方法流程图;
图8是根据图8所示实施例中步骤S9的一种具体实施方法流程图;
图9是根据图2所示实施例中步骤S7后还包括的具体实施方法流程图;
图10是本申请实施例的一种确定音频内容音高偏差的装置结构图;
图11是根据图10所示实施例中人声基频序列获得单元的一种结构图;
图12是根据图10所示实施例中演唱音信息确定单元的一种结构图;
图13是根据图10所示实施例中演唱音音高确定单元的一种结构图;
图14是根据图10所示实施例中音高差序列获得单元的一种结构图;
图15是本申请实施例的又一种确定音频内容音高偏差的装置结构图;
图16是根据图13所示实施例中待修正音高确定单元的一种结构图;以及
图17是根据图10所示实施例中共振峰矫正单元的一种结构图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本发明及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本发明中的具体含义。
此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
如图1所示,本发明又提供一种确定音频内容音高偏差的方法,该方法包括如下的步骤:
S1.采集用户演唱歌曲时的歌声;
S2.将所述歌声的节奏调整为与所述歌曲的标准节奏一致,得到节奏标准的人声基频序列;
S3.根据所述人声基频序列确定所述人声基频序列中每个演唱音的基频数值、起始时间和结束时间;
S4.根据所述每个演唱音的起始时间、结束时间及所述基频序列确定每个演唱音的用户音高;
S6.根据所述每个演唱音的用户音高和所述歌曲对应的音高模板,确定每个相同时间点的用户音高与标准音高之间的音高差,并得到音高差序列;所述音高模板中包含用户演唱歌曲中每个音符的标准音高、起始时间和结束时间。
如图2所示,本发明又提供一种确定音频内容音高偏差的方法,该方法包括如下的步骤S1至步骤S7:
为了实现上述目的,根据本申请的一个方面,提供了一种确定音频内容音高偏差的方法,包括:
S1.采集用户演唱歌曲时的歌声;
S2.将所述歌声的节奏调整为与所述歌曲的标准节奏一致,得到节奏标准的人声基频序列;
S3.根据所述人声基频序列确定所述人声基频序列中每个演唱音的基频序列、起始时间和结束时间;
S4.根据所述每个演唱音的起始时间、结束时间及每个演唱音的基频序列确定每个演唱音的用户音高;
S5.根据所述每个演唱音的用户音高和所述歌曲对应的音高模板,确定每个相同时间点的用户音高与标准音高之间的音高差;
S6.根据个相同时间点的用户音高与标准音高之间的音高差,得到音高差序列;所述音高模板中包含用户演唱歌曲中每个音符的标准音高、起始时间和结束时间。
S7.将所述人声基频序列中待修正的音高对应的音高差作为输入参数,依次通过重采样及PSOLA算法,一般的,除了通过重采样及PSOLA算法精心变调之外,还可以通过:时域变调(重采样后变速)、频域插值、基于正弦模型变调完成对所述待修正的音高的变调计算,得到音高准确的标准音高人声基频序列。
根据本发明实施例,提供了一种所述步骤S2的具体处理方法,如图3所示,该方法包括:
S21.根据所述声音信息获得所述歌声中每个音的声音基频;
S22.将所述声音基频按照时间序列进行排序获得所述用户的人声基频序列。
根据本发明实施例,提供了一种所述步骤S3中的根据所述人声基频序列确定所述人声基频序列中每个演唱音的基频数值的具体处理方法,如图4所示,该方法包括:
S31.对所述人声基频序列每隔固定时间进行分帧计算;
具体的,对用户演唱音频每隔固定时间(通常是10~100ms)计算一次演唱歌声的基频数值;
S32.得到每帧所述人声基频序列的基频数值;
S33.确定每个演唱音中所有帧所对应的基频数值;
S34.根据每个演唱音中所有帧所对应的基频数值确定所述每个演唱音的基频序列。
根据本发明实施例,提供了一种所述步骤S4的具体处理方法,如图5所示,该方法包括:
S41.划分所述基频特征中每个演唱音的音头、音腹和音尾;具体的,人类演唱是声带的发声规律是在一个音的前面一小段时间(通常在1~30ms)基频向目标音高收敛,称为音头;中间较长的时间会稳定在一个固定的基频,称为音腹;结尾以小段时间(通常在0~20ms)会偏离目标音高,称为音尾。例如下图是一个典型的音,蓝线是基频线,两条红色的虚线中间的部分基频比较稳定,既音腹。前后分别为音头和音尾。本专利中固定音头时间为30ms,音尾时间为20ms。如果整个音时长小于70ms,将音头和音尾的时长按比例缩小,既音头为30*t/70,音尾为20*t/70。剩下的部分为音腹。
S42.确定所述每个演唱音的音腹的基频序列;
S43.计算所述每个演唱音的音腹中的基频数值的平均数x;
S44.通过式得到所述每个演唱音的用户音高y。
根据本发明实施例,提供了一种所述步骤S5的具体处理方法,如图6所示,该方法包括:
S61.根据所述每个演唱音的起始时间和结束时间确定所述音高模板中对应时间的每个标准音的标准音高;
S62.计算每个时间点的所述用户音高和所述标准音高之间的音高差。
根据本发明实施例,提供了一种所述步骤S6和S7之间还包括S8和S9,如图7所示,该方法包括:
S8.将所述音高差序列做平滑处理得到平滑音高差序列;
S9.对所述人声基频序列中的所有音高差进行筛选,确定待修正的音高;优选的,只对音高差在(-7,7)区间内的人声基频序列中的音进行修正。。
根据本发明实施例,提供了一种所述步骤S7的具体处理方法,该方法包括:
将所述音高差序列中相邻的音尾与音头进行平滑处理,将阶跃的音高差序列转换为连续的平滑音高差序列。
其中,将所述音高差序列中相邻的音尾与音头进行平滑处理,具体包括:
通过下示函数替换相邻两个音的音头音尾部分的音高差序列值,得到平滑的音高差序列进行平滑处理:
其中,n1为音尾的音高,n2为音头的音高,t1为第一个音的音尾开始时间, t2为第二个音的音头结束时间为。
具体的,由于每个音的只有一个音高值,且音高模版中的音符音高也是不连续的阶跃数据。因此得到的音高差序列也是不连续的阶跃数据值,对音头音尾的音高差序列做平滑处理,可以将不连续的阶跃数据变成连续数据。平滑处理可以采用上述方法之外也可以采用高斯平滑等平滑算法、sigmoid、sin或线性函数达到连接相邻的音的目的。
根据本发明实施例,提供了一种所述步骤S9的具体实施方法,如图8所示,该方法包括:
S91.所述对所述人声基频序列中的所有音高差进行筛选,确定待修正音高;
S92.筛选出所有待修正音高差,所述待修正音高差为在设定音差区间内的音高差;
S93.根据所述待修正音高差确定所述人声基频序列中待修正的音高。
根据本发明实施例,提供了在所述步骤S6中得到音高准确的标准音高人声基频序列后,包括:
S10.对所述标准音高人声基频序列进行共振峰的矫正,得到矫正后的人声基频序列。
根据本发明实施例,提供了一种所述步骤S9的具体实施方法,如图9所示,该方法包括:具体包括:
S101.将每个音高差作为所述标准音高人声基频序列中对应时刻的共振峰的变调系数;通过确定所述变调系数,其中d为音高差;
S102.将所述标准音高人声基频序列中的每个共振峰按照对应的变调系数进行反向共振峰偏移得到所述矫正后的人声基频序列。
从以上的描述中,可以看出,本发明实现了如下技术效果:
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例,还提供了一种用于实施上述确定音频内容音高偏差的方法的装置,如图10所示,该装置包括:
歌声采集单元1,用于采集用户演唱歌曲时的歌声;
人声基频序列获得单元2,用于将所述歌声的节奏调整为与所述歌曲的标准节奏一致,得到节奏标准的人声基频序列
演唱音信息确定单元3,用于根据所述人声基频序列确定每个演唱音的基频序列、起始时间和结束时间;
演唱音音高确定单元4,用于根据所述每个演唱音的起始时间、结束时间及所述每个演唱音的基频序列确定每个演唱音的用户音高;
音高差确定单元5,用于将所述人声基频序列和所述歌曲的标准音高进行对比,确定所述人声基频序列中每个时间点的音高差;
音高差序列获得单元6,用于根据所述每个演唱音的用户音高和所述歌曲对应的音高模板,确定每个相同时间点的用户音高与标准音高之间的音高差,并得到音高差序列;所述音高模板中包含用户演唱歌曲中每个音符的标准音高、起始时间和结束时间;
变调单元7,用于将所述人声基频序列中待修正的音高对应的音高差作为输入参数,依次通过重采样及PSOLA算法,完成对所述待修正的音高的变调计算,得到音高准确的标准音高人声基频序列。
根据本发明实施例,如图11所示,所述人声基频序列获得单元2,包括:
声音基频获得模块21,用于根据所述声音信息获得所述歌声中每个音的声音基频;
人声基频序列获得模块22,用于将所述声音基频按照时间序列进行排序获得所述用户的人声基频序列。
根据本发明实施例,如图12所示,演唱音信息确定单元3包括:
演唱音基频数值采样模块31,用于对所述人声基频序列每隔固定时间进行分帧计算;
单帧基频数值获得模块32,用于得到每帧所述人声基频序列的基频数值;
基频数值匹配模块33,用于确定每个演唱音中所有帧所对应的基频数值;
演唱音基频序列确定模块34,根据所有帧所对应的基频数值确定所述演唱音的基频序列。
根据本发明实施例,如图13所示,演唱音音高确定单元4,包括
演唱音划分模块41,用于划分所述基频特征中每个演唱音的音头、音腹和音尾;
音腹确定模块42,用于确定所述每个演唱音的音腹的基频序列;
基频平均数计算模块43,用于计算所述每个演唱音的音腹中的基频数值的平均数x;
根据本发明实施例,如图14所示,音高差序列获得单元6,包括:
对应模块61,用于根据所述每个演唱音的起始时间和结束时间确定所述音高模板中对应时间的每个标准音的标准音高;
音高差序列获得模块62,用于计算每个时间点的所述用户音高和所述标准音高之间的音高差。
根据本发明实施例,提供了一种装置还包括平滑处理模块8和待修正音高确定单元9,如图15所示:
平滑处理模块8,用于将所述音高差序列做平滑处理得到平滑音高差序列;
待修正音高确定单元9,用于对所述人声基频序列中的所有音高差进行筛选,确定待修正的音高。
根据本发明实施例,所述平滑处理模块8具体用于:
将所述音高差序列中相邻的音尾与音头进行平滑处理,将阶跃的音高差序列转换为连续的平滑音高差序列。
其中,将所述音高差序列中相邻的音尾与音头进行平滑处理,具体包括:
通过下示函数替换相邻两个音的音头音尾部分的音高差序列值,得到平滑的音高差序列进行平滑处理:
其中,n1为音尾的音高,n2为音头的音高,t1为第一个音的音尾开始时间, t2为第二个音的音头结束时间为。
根据本发明实施例,所述待修正音高确定单元9:
用于对所述人声基频序列中的所有音高差进行筛选,确定待修正音高;
如图16所示,其中所述待修正音高确定单元9,包括:
待修正音高差确定模块91,用于筛选出所有待修正音高差,所述待修正音高差为在设定音差区间内的音高差;
待修正音高确定模块92,用于根据所述待修正音高差确定所述人声基频序列中待修正的音高。
根据本发明实施例,所述装置,还包括共振峰矫正单元10:
用于对所述标准音高人声基频序列进行共振峰的矫正,得到矫正后的人声基频序列。
根据本发明实施例,如图17所示,所述共振峰矫正单元10,具体包括:
变调系数计算模块101,用于将每个音高差作为所述标准音高人声基频序列中对应时刻的共振峰的变调系数;通过确定所述变调系数,其中d 为音高差;例如,音高差为7时,变调系数为1.5;共振峰偏移为1/1.5,既0.67。
共振峰偏移模块102,用于将所述标准音高人声基频序列中的每个共振峰按照对应的变调系数进行反向共振峰偏移得到所述矫正后的人声基频序列。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种确定音频内容音高偏差的方法,其特征在于,包括:
采集用户演唱歌曲时的歌声;
将所述歌声的节奏调整为与所述歌曲的标准节奏一致,得到节奏标准的人声基频序列;
根据所述人声基频序列确定所述人声基频序列中每个演唱音的基频序列、起始时间和结束时间;
根据所述每个演唱音的起始时间、结束时间及所述每个演唱音的基频序列确定每个演唱音的用户音高;
根据所述每个演唱音的用户音高和所述歌曲对应的音高模板,确定每个相同时间点的用户音高与标准音高之间的音高差,并得到音高差序列;所述音高模板中包含用户演唱歌曲中每个音符的标准音高、起始时间和结束时间。
2.根据权利要求1所述的确定音频内容音高偏差的,其特征在于,所述根据所述人声基频序列得到所述人声基频序列中每个演唱音的基频序列,包括:
对所述人声基频序列每隔固定时间进行分帧计算;
得到每帧所述人声基频序列的基频数值;
确定每个演唱音中所有帧所对应的基频数值;
根据所有帧所对应的基频数值确定所述演唱音的基频序列。
3.根据权利要求1所述的确定音频内容音高偏差的,其特征在于,所述根据所述每个演唱音的起始时间、结束时间及所述每个演唱音的基频序列确定每个演唱音的用户音高,包括:
划分所述基频特征中每个演唱音的音头、音腹和音尾;
确定所述每个演唱音的音腹的基频序列;
计算所述每个演唱音的音腹中的基频数值的平均数x;
通过式得到所述每个演唱音的用户音高y。
4.根据权利要求1所述的确定音频内容音高偏差的,其特征在于,所述根据所述每个演唱音的用户音高和所述歌曲对应的音高模板,确定每个相同时间点的用户音高与标准音高之间的音高差,包括:
根据所述每个演唱音的起始时间和结束时间确定所述音高模板中对应时间的每个标准音的标准音高;
计算每个时间点的所述用户音高和所述标准音高之间的音高差。
5.根据权利要求1所述的确定音频内容音高偏差的,其特征在于,在确定所述人声基频序列和音高模板之间的音高差序列之后,还包括:
将所述音高差序列做平滑处理得到平滑音高差序列;
根据所述平滑音高差序列修正所述人声基频序列。
6.根据权利要求5所述的确定音频内容音高偏差的,其特征在于,所述将所述音高差序列做平滑处理得到平滑音高差序列,包括:
将所述音高差序列中相邻的音尾与音头进行平滑处理,将阶跃的音高差序列转换为连续的平滑音高差序列。
7.根据权利要求6所述的确定音频内容音高偏差的,其特征在于,所述将所述音高差序列中相邻的音尾与音头进行平滑处理,包括:
通过下示函数替换相邻两个音的音头音尾部分的音高差序列值,得到平滑的音高差序列进行平滑处理:
其中,n1为音尾的音高,n2为音头的音高,t1为第一个音的音尾开始时间,t2为第二个音的音头结束时间为。
8.一种确定音频内容音高偏差的装置,其特征在于,包括:
歌声采集单元,用于采集用户演唱歌曲时的歌声;
人声基频序列获得单元,用于将所述歌声的节奏调整为与所述歌曲的标准节奏一致,得到节奏标准的人声基频序列;
演唱音信息确定单元,用于根据所述人声基频序列确定每个演唱音的基频序列、起始时间和结束时间;
演唱音音高确定单元,用于根据所述人声基频序列中每个演唱音的起始时间、结束时间及所述每个演唱音的基频序列确定每个演唱音的用户音高;
音高差序列获得单元,用于根据所述每个演唱音的用户音高和所述歌曲对应的音高模板确定所述歌声中每个时间点的音高差,得到音高差序列;所述音高模板中包含用户演唱歌曲中每个音符的标准音高、起始时间和结束时间。
9.根据权利要求1所述的确定音频内容音高偏差的装置,其特征在于,所述演唱音信息确定单元,包括:
演唱音基频数值采样模块,用于对所述人声基频序列每隔固定时间进行分帧计算;
单帧基频数值获得模块,用于得到每帧所述人声基频序列的基频数值;
基频数值匹配模块,用于确定每个演唱音中所有帧所对应的基频数值;
演唱音基频序列确定模块,根据所有帧所对应的基频数值确定所述演唱音的基频序列。
10.根据权利要求1所述的确定音频内容音高偏差的,其特征在于,所述音高差序列获得单元,包括:
对应模块,用于根据所述每个演唱音的起始时间和结束时间确定所述音高模板中对应时间的每个标准音的标准音高;
音高差序列获得模块,用于通过计算每个时间点的所述用户音高和所述标准音高之间的音高差,得到完整的所述音高差序列。
CN201711269010.5A 2017-12-05 2017-12-05 确定音频内容音高偏差的方法及装置 Active CN108206026B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711269010.5A CN108206026B (zh) 2017-12-05 2017-12-05 确定音频内容音高偏差的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711269010.5A CN108206026B (zh) 2017-12-05 2017-12-05 确定音频内容音高偏差的方法及装置

Publications (2)

Publication Number Publication Date
CN108206026A true CN108206026A (zh) 2018-06-26
CN108206026B CN108206026B (zh) 2021-12-03

Family

ID=62604216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711269010.5A Active CN108206026B (zh) 2017-12-05 2017-12-05 确定音频内容音高偏差的方法及装置

Country Status (1)

Country Link
CN (1) CN108206026B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109272975A (zh) * 2018-08-14 2019-01-25 无锡冰河计算机科技发展有限公司 演唱伴奏自动调整方法、装置及ktv点唱机
CN110060702A (zh) * 2019-04-29 2019-07-26 北京小唱科技有限公司 用于演唱音高准确性检测的数据处理方法及装置
CN110120216A (zh) * 2019-04-29 2019-08-13 北京小唱科技有限公司 用于演唱评价的音频数据处理方法及装置
CN110838304A (zh) * 2018-08-16 2020-02-25 深圳市伊诺乐器有限公司 一种准确视唱判断方法和装置
WO2020078120A1 (zh) * 2018-10-15 2020-04-23 腾讯音乐娱乐科技(深圳)有限公司 音频识别方法、装置及存储介质
CN111179890A (zh) * 2018-11-09 2020-05-19 百度在线网络技术(北京)有限公司 语音伴奏方法、装置、计算机设备及存储介质
CN111583894A (zh) * 2020-04-29 2020-08-25 长沙市回音科技有限公司 一种实时修正音色的方法、装置、终端设备及计算机存储介质
CN111785238A (zh) * 2020-06-24 2020-10-16 腾讯音乐娱乐科技(深圳)有限公司 音频校准方法、装置及存储介质
CN112270913A (zh) * 2020-10-27 2021-01-26 腾讯音乐娱乐科技(深圳)有限公司 音高调节方法、装置及计算机存储介质
CN112820255A (zh) * 2020-12-30 2021-05-18 北京达佳互联信息技术有限公司 音频处理方法及装置
CN113192477A (zh) * 2021-04-28 2021-07-30 北京达佳互联信息技术有限公司 音频处理方法及装置
CN115331682A (zh) * 2021-05-11 2022-11-11 北京奇音妙想科技有限公司 修正音频的音高的方法和装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030009336A1 (en) * 2000-12-28 2003-01-09 Hideki Kenmochi Singing voice synthesizing apparatus, singing voice synthesizing method, and program for realizing singing voice synthesizing method
CN101025918A (zh) * 2007-01-19 2007-08-29 清华大学 一种语音/音乐双模编解码无缝切换方法
US20110054902A1 (en) * 2009-08-25 2011-03-03 Li Hsing-Ji Singing voice synthesis system, method, and apparatus
CN102426834A (zh) * 2011-08-30 2012-04-25 中国科学院自动化研究所 测试英文口语韵律水平的方法
WO2013149188A1 (en) * 2012-03-29 2013-10-03 Smule, Inc. Automatic conversion of speech into song, rap or other audible expression having target meter or rhythm
CN104538011A (zh) * 2014-10-30 2015-04-22 华为技术有限公司 一种音调调节方法、装置及终端设备
CN106057208A (zh) * 2016-06-14 2016-10-26 科大讯飞股份有限公司 一种音频修正方法及装置
CN106157976A (zh) * 2015-04-10 2016-11-23 科大讯飞股份有限公司 一种唱歌评测方法及系统
CN106372257A (zh) * 2016-10-09 2017-02-01 华中师范大学 一种乐器检索方法和装置
CN107103915A (zh) * 2016-02-18 2017-08-29 广州酷狗计算机科技有限公司 一种音频数据处理方法以及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030009336A1 (en) * 2000-12-28 2003-01-09 Hideki Kenmochi Singing voice synthesizing apparatus, singing voice synthesizing method, and program for realizing singing voice synthesizing method
CN101025918A (zh) * 2007-01-19 2007-08-29 清华大学 一种语音/音乐双模编解码无缝切换方法
US20110054902A1 (en) * 2009-08-25 2011-03-03 Li Hsing-Ji Singing voice synthesis system, method, and apparatus
CN102426834A (zh) * 2011-08-30 2012-04-25 中国科学院自动化研究所 测试英文口语韵律水平的方法
WO2013149188A1 (en) * 2012-03-29 2013-10-03 Smule, Inc. Automatic conversion of speech into song, rap or other audible expression having target meter or rhythm
CN104538011A (zh) * 2014-10-30 2015-04-22 华为技术有限公司 一种音调调节方法、装置及终端设备
CN106157976A (zh) * 2015-04-10 2016-11-23 科大讯飞股份有限公司 一种唱歌评测方法及系统
CN107103915A (zh) * 2016-02-18 2017-08-29 广州酷狗计算机科技有限公司 一种音频数据处理方法以及装置
CN106057208A (zh) * 2016-06-14 2016-10-26 科大讯飞股份有限公司 一种音频修正方法及装置
CN106372257A (zh) * 2016-10-09 2017-02-01 华中师范大学 一种乐器检索方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIAN LI: "A HMM-based mandarin chinese singing voice synthesis system", 《IEEE/CAA JOURNAL OF AUTOMATICA SINICA》 *
肖凌: "浅析人声修正软件Melodyne的应用技巧", 《黄河之声》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109272975B (zh) * 2018-08-14 2023-06-27 无锡冰河计算机科技发展有限公司 演唱伴奏自动调整方法、装置及ktv点唱机
CN109272975A (zh) * 2018-08-14 2019-01-25 无锡冰河计算机科技发展有限公司 演唱伴奏自动调整方法、装置及ktv点唱机
CN110838304A (zh) * 2018-08-16 2020-02-25 深圳市伊诺乐器有限公司 一种准确视唱判断方法和装置
WO2020078120A1 (zh) * 2018-10-15 2020-04-23 腾讯音乐娱乐科技(深圳)有限公司 音频识别方法、装置及存储介质
CN111179890A (zh) * 2018-11-09 2020-05-19 百度在线网络技术(北京)有限公司 语音伴奏方法、装置、计算机设备及存储介质
CN111179890B (zh) * 2018-11-09 2022-09-23 百度在线网络技术(北京)有限公司 语音伴奏方法、装置、计算机设备及存储介质
CN110120216B (zh) * 2019-04-29 2021-11-12 北京小唱科技有限公司 用于演唱评价的音频数据处理方法及装置
CN110060702A (zh) * 2019-04-29 2019-07-26 北京小唱科技有限公司 用于演唱音高准确性检测的数据处理方法及装置
CN110120216A (zh) * 2019-04-29 2019-08-13 北京小唱科技有限公司 用于演唱评价的音频数据处理方法及装置
CN111583894A (zh) * 2020-04-29 2020-08-25 长沙市回音科技有限公司 一种实时修正音色的方法、装置、终端设备及计算机存储介质
CN111583894B (zh) * 2020-04-29 2023-08-29 长沙市回音科技有限公司 一种实时修正音色的方法、装置、终端设备及计算机存储介质
CN111785238B (zh) * 2020-06-24 2024-02-27 腾讯音乐娱乐科技(深圳)有限公司 音频校准方法、装置及存储介质
CN111785238A (zh) * 2020-06-24 2020-10-16 腾讯音乐娱乐科技(深圳)有限公司 音频校准方法、装置及存储介质
CN112270913A (zh) * 2020-10-27 2021-01-26 腾讯音乐娱乐科技(深圳)有限公司 音高调节方法、装置及计算机存储介质
CN112270913B (zh) * 2020-10-27 2022-11-18 腾讯音乐娱乐科技(深圳)有限公司 音高调节方法、装置及计算机存储介质
WO2022089098A1 (zh) * 2020-10-27 2022-05-05 腾讯音乐娱乐科技(深圳)有限公司 音高调节方法、装置及计算机存储介质
CN112820255A (zh) * 2020-12-30 2021-05-18 北京达佳互联信息技术有限公司 音频处理方法及装置
CN113192477A (zh) * 2021-04-28 2021-07-30 北京达佳互联信息技术有限公司 音频处理方法及装置
CN115331682A (zh) * 2021-05-11 2022-11-11 北京奇音妙想科技有限公司 修正音频的音高的方法和装置

Also Published As

Publication number Publication date
CN108206026B (zh) 2021-12-03

Similar Documents

Publication Publication Date Title
CN108206026A (zh) 确定音频内容音高偏差的方法及装置
CN108257613A (zh) 修正音频内容音高偏差的方法及装置
CN106057208B (zh) 一种音频修正方法及装置
US5715179A (en) Performance evaluation method for use in a karaoke apparatus
CN108231048B (zh) 修正音频节奏的方法及装置
CN104395953B (zh) 来自音乐音频信号的拍子、和弦和强拍的评估
CN106373580A (zh) 基于人工智能的合成歌声的方法和装置
CN105825844A (zh) 一种修音的方法和装置
JP2014071138A (ja) カラオケ装置
JPS63285598A (ja) 音素接続形パラメ−タ規則合成方式
CN105161087A (zh) 一种自动和声方法、装置及终端自动和声操作方法
US20120234158A1 (en) Auto-synchronous vocal harmonizer
TWI742486B (zh) 輔助歌唱系統、輔助歌唱方法及其非暫態電腦可讀取記錄媒體
CN101667422A (zh) 一种调节歌曲伴奏的调式的方法及装置
CN108257609A (zh) 音频内容修正的方法及其智能装置
CN105702249A (zh) 自动选择伴奏的方法和装置
CN111292717A (zh) 语音合成方法、装置、存储介质和电子设备
CN105321526A (zh) 音频处理方法和电子设备
KR101813704B1 (ko) 사용자 음색 분석 장치 및 음색 분석 방법
JP6514874B2 (ja) リファレンスの音高差と歌唱音声の音高差を比較して採点を行うカラオケ採点装置
CN105869614B (zh) 音频文件导出方法和装置
JP2008165079A (ja) 歌唱者属性対抗歌合戦システム
US20230335090A1 (en) Information processing device, information processing method, and program
CN108281130B (zh) 音频修正方法及装置
JP5807754B2 (ja) 弦楽器演奏評価装置及び弦楽器演奏評価プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant