CN111583894B

CN111583894B - 一种实时修正音色的方法、装置、终端设备及计算机存储介质

Info

Publication number: CN111583894B
Application number: CN202010356506.1A
Authority: CN
Inventors: 沈平; 邓小保; 余佩佩
Original assignee: Changsha Echo Technology Co ltd
Current assignee: Changsha Echo Technology Co ltd
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2023-08-29
Anticipated expiration: 2040-04-29
Also published as: CN111583894A

Abstract

本发明涉及音频技术领域。本发明实施例提供一种实时修正音色的方法，该方法包括：用户以歌曲的标准节奏进行演唱，实时采集用户演唱歌曲时的歌声；提取所述用户歌声中的音高，与预先存储好的歌曲的标准音高进行对比，根据音高差对用户的歌声进行修正；提取修正音高后用户歌声的共振峰值，对所述共振峰值进行逆向矫正；预先存储好固定共振峰参数，对逆向矫正后的用户歌声的共振峰值与预先存储好的固定共振峰参数进行加权处理，对用户的歌声进行美化。通过本发明的技术方案，可以实时修正用户演唱的歌声。不仅可以修正唱歌跑调的问题，还能保证修正后的用户歌声的音色自然好听，另外还可以对修正后的歌声进行美化，大大提升了用户演唱歌曲的听感。

Description

一种实时修正音色的方法、装置、终端设备及计算机存储介质

技术领域

本发明涉及音频技术领域，特别涉及一种实时修正音色的方法、装置、终端设备及计算机存储介质。

背景技术

唱歌是大众十分热爱的一种休闲娱乐活动，人们可以选择在KTV内唱歌，也可以选择通过唱吧、K歌达人等唱歌软件一展歌喉。用户在唱歌时一般是跟着字幕上的节奏和歌词进行演唱。但是由于大部分普通用户缺乏专业的歌唱训练以及每个人所能演唱的音域范围也存在区别，往往无法很好的完成整首歌的演唱，即使是用户在保证节奏不唱错的情况下，也还是存在唱跑调的问题。现有技术中存在一些修音方法，通过修正演唱者在演唱时唱的不准的音调，以使其调整到准确的音调上，以使得用户演唱的歌曲与原唱接近，但是这种方法也存在一些缺陷。当修正的音高差在三个半音内时，修正后的用户歌声是悦耳自然的，但是当修正的音高差超过三个半音时，修正后的用户歌声丧失了其原有的音色，比如，当用户是一个女生时，对其演唱的歌声修正音高后，可能就会变成一个娃娃音。

音色，也即是音质，是声音的本质特征，是一个音与其他音进行区别的最根本的特征。它在很大程度商取决于人的发声器官的外形。共振峰是指声腔的共鸣频率，是在声音的频谱中能量相对集中的一些区域，其反映了声道(共振腔)的物理特征和声道谐振特性的重要特征，因此共振峰的分布位置、高度和数量是音色的决定因素。

发明内容

本发明的目的在于提供一种实时修正音色的方法、装置、终端设备及计算机存储介质，能够实时修正用户演唱的歌声，使其演唱的歌曲音调与原唱音调一致，且不会改变用户自身的音色，使用户的歌声听起来悦耳自然，同时还可对用户的歌声进行美化，使其歌声带有其他歌手的音色特质。

为实现这一目的，本发明的技术方案为：

第一方面，本发明实施例提供一种实时修正音色的方法，该方法包括：

用户以歌曲的标准节奏进行演唱，实时采集用户演唱歌曲时的歌声；

提取所述用户歌声中的音高，与预先存储好的歌曲的标准音高进行对比，根据音高差对用户的歌声进行修正；

提取修正音高后用户歌声的共振峰值，对所述共振峰值进行逆向矫正；

预先存储好固定共振峰参数，对逆向矫正后的用户歌声的共振峰值与预先存储好的固定共振峰参数进行加权处理，对用户的歌声进行美化。

进一步地，所述预先存储好的歌曲的标准音高是按分短时帧或者采样点的形式存储，并且按相同短时帧或者采样点实时采集用户的歌声，以实现对用户歌声进行处理后，可将对应时间点的音高进行一一对比。

进一步地，通过自相关函数法或者倒谱法对用户歌声中的音高进行提取，得到用户歌声的基音频率。

进一步地，通过对用户歌声进行短时傅里叶变换，求取用户歌声的谱包络，根据谱包络的峰值特点得到共振峰参数值。

进一步地，用SOLA-FS算法对用户歌声进行升降调处理，以进行音高差的修正。

进一步地，根据音高修正系数，将共振峰逆向矫正，使其接近用户真实发出的共振峰范围。

进一步地，所述预先存储好的固定共振峰参数，可为一组或者多组。

进一步地，所述固定共振峰参数可以通过分析某歌手演唱过的若干歌曲，提取这些歌曲中每个音高的共振峰值，求取同一音高的共振峰均值，按照用户当前演唱的歌曲的标准音高的顺序依次调取对应音高下的共振峰均值。

进一步地，所述固定共振峰参数可以通过提取某歌手实时演唱用户当前演唱的歌曲时的共振峰值进行存储。

第二方面，本发明实施例提供一种实时修正音色的装置，该装置包括：

歌声采集单元，在用户以歌曲的标准节奏进行演唱时，实时采集用户演唱歌曲时的歌声；

音高修正单元，提取所述用户歌声中的音高，与预先存储好的歌曲的标准音高进行对比，根据音高差对用户的歌声进行修正；

共振峰矫正单元，提取修正音高后用户歌声的共振峰值，对所述共振峰值进行逆向矫正；

歌声美化单元，预先存储好固定共振峰参数，对逆向矫正后的用户歌声的共振峰值与预先存储好的固定共振峰参数进行加权处理，对用户的歌声进行美化。

进一步地，所述预先存储的歌曲的标准音高是按分短时帧或者采样点的形式存储的，并且按相同短时帧或者采样点实时采集用户的歌声，以实现对用户歌声进行处理后，可将对应时间点的音高进行一一对比。

进一步地，所述音高修正单元包括一音高提取单元，所述音高提取单元通过自相关函数法或者倒谱法对用户歌声中的音高进行提取，得到用户歌声的基音频率。

进一步地，所述共振峰矫正单元包括一共振峰提取单元，所述共振峰提取单元通过对用户歌声进行短时傅里叶变换，求取用户歌声的谱包络，根据谱包络的峰值特点得到共振峰参数值。

进一步地，所述音高修正单元通过采用SOLA-FS算法对用户歌声进行升降调处理，以进行音高差的修正。

进一步地，所述共振峰矫正单元根据音高修正系数，将修正音高后的用户歌声的共振峰逆向矫正，使其接近用户真实发出的共振峰范围。

进一步地，所述固定共振峰参数可以通过分析某歌手演唱过的若干歌曲，提取这些歌曲中每个音高的共振峰值，求取同一音高的共振峰均值，按照用户当前演唱的歌曲的标准音高的顺序依次调取对应音高下的某歌手的共振峰均值。

进一步地，所述固定共振峰参数可以通过提取某歌手实时演唱用户当前演唱的歌曲时的共振峰值来进行存储。

第三方面，本发明实施例提供一种终端设备，其特征在于，所述终端设备包括：存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如第一方面所述的实时修正音色的方法。

第四方面，本发明实施例提供一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如第一方面所述的音频处理方法。

有益效果

与现有技术相比，本发明的有益效果是：本发明提供的实时修正音色的方法、装置、终端设备及计算机存储介质，可以实时修正用户演唱的歌声，因此，用户实时听到的歌声即是修正后的音色，不需要等录制完整首歌曲后再来离线修正。另外本发明的方案不仅可以修正唱歌跑调的问题，还能保证修正后的用户歌声的音色自然好听，不会因修正音高而导致用户歌声的音色发生改变，提升了对歌曲等音频数据的修正效果，另外还可以对修正后的歌声进行美化，使用户的歌声带有某个想要模仿的歌手的音色特质，大大提升了用户演唱歌曲的听感，有利于提高演唱者的演唱热情。

附图说明

图1为本发明实施例提供的一种实时修正音色的方法的方法流程图。

图2为本发明实施例提供的一种实时修正音色的装置的结构示意图。

图3为本发明实施例提供的一种实时修正音色的方法的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清除、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

参见附图1，本发明实施例提供的一种实时修正音色的方法的流程图，具体包括以下步骤：

S101、用户以歌曲的标准节奏进行演唱，实时采集用户演唱歌曲时的歌声；

用户以歌曲的标准节奏进行演唱，是指用户能跟上歌曲的原唱伴奏，既不抢拍也不慢拍，只有在保证用户演唱的节奏与原唱演唱的节奏一致的情况下，才能实现实时修正音色。

S102、提取所述用户歌声中的音高，与预先存储好的歌曲的标准音高进行对比，根据音高差对用户的歌声进行修正；

音高也称音调，表示人耳对声音调子高低的主观感受。客观上音高的大小主要取决于声波基频的高低，频率高则音调高，频率低则音调低，其与个人声带的长短、厚薄、韧性和发音习惯有关，还与发音者的性别、年龄、发音时的力度及情感有关。

可采用基音检测算法对用户歌声的音高进行提取检测，获取基音频率。现有技术中存在多种基音检测方法，这些方法大致可以分为三类：(1)时域估计法，直接由波形来估计基音周期，常见的有：自相关法、平均幅度差法等；(2)频域估计法，利用同态分析方法将声道的影响消除，得到属于激励部分的信息，然后求取基因周期，常见的有：谐波积谱法，简化逆滤波法，倒谱法等；(3)混合法，基于以上方法的衍生组合算法，如：自相关法和平均幅度差法相结合。

在本实施例中，优选地，通过自相关函数法或者倒谱法对用户歌声中的音高进行提取，得到用户歌声的基音频率。

进一步地，为方便比对音高，所述预先存储的歌曲的标准音高是按分短时帧或者采样点的形式存储的，并且按相同短时帧或者采样点实时采集用户的歌声，以实现对用户歌声进行处理后，可将对应时间点的音高进行一一对比。

需指出的是，本实施例中的标准音高是指用户点的歌曲是哪位歌手演唱的，则认为该歌手即为原唱者，其演唱时的音高即为标准音高，演唱时的节奏即为标准节奏。

进一步地，在比较出用户歌声与原唱歌声的音高差后，需对用户的歌声进行升降调处理以修正音高差。关于音频转调的算法，目前比较成熟的算法有时域算法、频域插值法和相位声码器法。

优选地，本实施例中，用SOLA-FS算法对用户歌声进行升降调处理，以进行音高差的修正。即通过采样率变换和时长规整两个步骤实现语音的变调不变速。

S103、提取修正音高后用户歌声的共振峰值，对所述共振峰值进行逆向矫正；

进一步地，通过对用户歌声进行短时傅里叶变换，求取用户歌声的谱包络，根据谱包络的峰值特点得到共振峰参数值。现有较成熟的求取谱包络的方法有：倒谱法、LPC(线性预测编码)谱估计法、LPC倒谱法等。为了满足实时性的要求，本实施例中优选倒谱法来提取用户歌声的共振峰值。

由于对音高进行修正后，用户歌声的共振峰值也会随之发生偏移，因而导致用户的音色发生改变，因此，为使修正后的歌声保留用户自身的音质特征，需对发生偏移的共振峰值进行逆向矫正，以使其接近用户真实发出的共振峰范围。具体地即为，根据音高差d确定音高修正系数α＝2^d/12，则共振峰逆向偏移1/α，即可恢复为自身的音色特质。

S104、预先存储好固定共振峰参数，对逆向矫正后的用户歌声的共振峰值与预先存储好的固定共振峰参数进行加权处理，对用户的歌声进行美化。

本实施例中，进一步地，为对用户的歌声进行美化，预先存储好一组或多组固定共振峰参数，以供用户选择，所述固定共振峰参数优选地提取自一些较为好听悦耳的歌手的共振峰特征，比如说张学友、刘德华、王菲、那英等知名歌手。当然，也可以提取自任何一个人的音色，只要被认为是好听的。

将逆向矫正后的用户共振峰值与预先存储好的固定共振峰参数进行加权处理，从而使得用户的歌声听起来有点像某知名歌手的声音，但是又还有自己的音色特质在，至于加权处理的系数，则根据用户喜好自行定义，如果想听起来更像某明星的音色特质，则固定共振峰参数的比例系数就大一些，如果想听起来自身的音色特质多一些，则用户共振峰值的比例系数就大一些。

进一步地，所述固定共振峰参数可以通过分析某歌手演唱过的若干歌曲，提取这些歌曲中的每个音高的共振峰值，求取同一音高的共振峰均值，从而形成为某歌手的所有音高的共振峰均值，认为其唱所有歌曲时共振峰的特征都近似是这个共振峰均值，因而提取出了某歌手的个人音色特质，按照用户当前演唱的歌曲的标准音高的顺序依次调取对应音高下的某歌手的共振峰均值。

进一步地，所述固定共振峰参数也可以是通过提取某歌手实时演唱用户当前演唱的歌曲时的共振峰值来进行存储。例如，用户演唱《我只在乎你》这首歌曲，邓丽君原唱，还有张靓颖、刘惜君、杨钰莹等都翻唱过，那么，如果用户想模仿的歌手音色正好是演唱过《我只在乎你》这首歌的，比如说邓丽君、杨钰莹，考虑到演唱同一首歌时不同歌手音高的差异不大，因此，可直接提取邓丽君、杨钰莹实时演唱《我只在乎你》这首歌时的共振峰值来进行存储，而不必采用求取共振峰均值的方式来获取他们的个人音色特质。

当对用户的歌声通过本实施例的修正音色的方法进行修正后，用户的歌声不仅听起来好听，而且还可以带有其他歌手的音色特质，大大提升了用户演唱歌曲的听感，有利于提高演唱者的演唱热情。

实施例二

参见图2，本发明实施例提供一种实时修正音色的装置的结构示意图，该装置为实施例一所述的实时修正音色的方法的执行主体。

具体的，参见附图2，实时修正音色的装置包括：

歌声采集单元1，在用户以歌曲的标准节奏进行演唱时，实时采集用户演唱歌曲时的歌声；

音高修正单元2，提取所述用户歌声中的音高，与预先存储好的歌曲的标准音高进行对比，根据音高差对用户的歌声进行修正；

共振峰矫正单元3，提取修正音高后用户歌声的共振峰值，对所述共振峰值进行逆向矫正；

歌声美化单元4，预先存储好固定共振峰参数，对逆向矫正后的用户歌声的共振峰值与预先存储好的固定共振峰参数进行加权处理，对用户的歌声进行美化。

进一步地，所述音高修正单元2包括一音高提取单元21，所述音高提取单元21通过自相关函数法或者倒谱法对用户歌声中的音高进行提取，得到用户歌声的基音频率。

进一步地，所述共振峰矫正单元3包括一共振峰提取单元31，所述共振峰提取单元通过对用户歌声进行短时傅里叶变换，求取用户歌声的谱包络，根据谱包络的峰值特点得到共振峰参数值。

进一步地，所述音高修正单元2通过采用SOLA-FS算法对用户歌声进行升降调处理，以进行音高差的修正。

进一步地，所述共振峰矫正单元3根据音高修正系数，将修正音高后的用户歌声的共振峰逆向矫正，使其接近用户真实发出的共振峰范围。

实施例三

为了实现上述实时修正音色的方法，本发明实施例还提供了一种实时修正音色的方法的硬件结构。下面对本发明实施例的实时修正音色的方法的硬件结构做进一步说明，图3是本申请实施例提供的终端设备的示意框图。

本实施例提供一种终端设备100，如图3所示，所述终端设备100包括：存储器110和处理器120，所述存储器110中存储有计算机程序，所述计算机程序由所述处理器120加载并执行以实现如实施例1中所述的步骤。或者，所述计算机程序由所述处理器120加载并执行以实现如实施例2中各单元的功能。

其中，处理器120可以是一个处理器，也可以是多个处理元件的统称。存储器110可以是只读存储器或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器、只读光盘或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

其中，本终端设备100还可以包括通信接口130和通信总线140，通信接口130用于使终端设备100和其他设备进行通信，通信总线140用于处理器120、存储器110和通信接口130之间的连接。

实施例四

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成。

因此，本发明实施例提供一种计算机可读存储介质，其上存储有可执行的计算机程序，其特征在于，所述可执行计算机程序被处理器执行时实现如前述实施例1中所述的实时修正音色的方法。

其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种实时修正音色的方法，其特征在于，该方法包括：

提取所述用户演唱歌曲时的歌声中的音高，与预先存储好的歌曲的标准音高进行对比，根据音高差对用户的歌声进行修正；所述预先存储好的歌曲的标准音高是按分短时帧或者采样点的形式存储，并且按相同短时帧或者采样点实时采集用户的歌声，以实现对用户歌声进行处理后，可将对应时间点的音高进行一一对比；

预先存储好固定共振峰参数，对逆向矫正后的用户歌声的共振峰值与预先存储好的固定共振峰参数进行加权处理，对用户的歌声进行美化；

所述固定共振峰参数的获取方式包括：所述固定共振峰参数可以通过分析某歌手演唱过的若干歌曲，提取这些歌曲中每个音高的共振峰值，求取同一音高的共振峰均值，按照用户当前演唱的歌曲的标准音高的顺序依次调取对应音高下的某歌手的共振峰均值；

所述固定共振峰参数也可以通过提取某歌手实时演唱用户当前演唱的歌曲时的共振峰值来进行存储。

2.根据权利要求1所述的一种实时修正音色的方法，其特征在于，通过自相关函数法或者倒谱法对用户歌声中的音高进行提取，得到用户歌声的基音频率。

3.根据权利要求1所述的一种实时修正音色的方法，其特征在于，通过对用户歌声进行短时傅里叶变换，求取用户歌声的谱包络，根据谱包络的峰值特点得到共振峰参数值。

4.根据权利要求3所述的一种实时修正音色的方法，其特征在于，用SOLA-FS算法对用户歌声进行升降调处理，以进行音高差的修正。

5.根据权利要求4所述的一种实时修正音色的方法，其特征在于，根据音高修正系数，将共振峰逆向矫正，使其接近用户真实发出的共振峰范围。

6.根据权利要求1所述的一种实时修正音色的方法，其特征在于，所述预先存储好的固定共振峰参数，可为一组或者多组。

7.一种实时修正音色的装置，其特征在于，该装置包括：

音高修正单元，提取所述用户演唱歌曲时的歌声中的音高，与预先存储好的歌曲的标准音高进行对比，根据音高差对用户的歌声进行修正；所述预先存储的歌曲的标准音高是按分短时帧或者采样点的形式存储的，并且按相同短时帧或者采样点实时采集用户的歌声，以实现对用户歌声进行处理后，可将对应时间点的音高进行一一对比；

歌声美化单元，预先存储好固定共振峰参数，对逆向矫正后的用户歌声的共振峰值与预先存储好的固定共振峰参数进行加权处理，对用户的歌声进行美化；

所述固定共振峰参数也可以通过提取某歌手实时演唱用户当前演唱的歌曲时的共振峰值进行存储。

8.根据权利要求7所述的一种实时修正音色的装置，其特征在于，所述音高修正单元包括一音高提取单元，所述音高提取单元通过自相关函数法或者倒谱法对用户歌声中的音高进行提取，得到用户歌声的基音频率。

9.根据权利要求7所述的一种实时修正音色的装置，其特征在于，所述共振峰矫正单元包括一共振峰提取单元，所述共振峰提取单元通过对用户歌声进行短时傅里叶变换，求取用户歌声的谱包络，根据谱包络的峰值特点得到共振峰参数值。

10.根据权利要求7所述的一种实时修正音色的装置，其特征在于，所述音高修正单元通过采用SOLA-FS算法对用户歌声进行升降调处理，以进行音高差的修正。

11.根据权利要求7所述的一种实时修正音色的装置，其特征在于，所述共振峰矫正单元根据音高修正系数，将修正音高后的用户歌声的共振峰逆向矫正，使其接近用户真实发出的共振峰范围。

12.根据权利要求7所述的一种实时修正音色的装置，其特征在于，所述预先存储好的固定共振峰参数，可为一组或者多组。

13.一种终端设备，其特征在于，所述终端设备包括：存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1-6任一项所述的实时修正音色的方法。

14.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的实时修正音色的方法。