CN114765029A

CN114765029A - 语音至歌声的实时转换技术

Info

Publication number: CN114765029A
Application number: CN202110608545.0A
Authority: CN
Inventors: 冯建元; 杭睿翔; 赵林生; 李凡
Original assignee: Dayin Network Technology Shanghai Co ltd
Current assignee: Dayin Network Technology Shanghai Co ltd
Priority date: 2021-01-14
Filing date: 2021-06-01
Publication date: 2022-07-19
Also published as: US11495200B2; US20220223127A1

Abstract

本发明提出了一种将样本语音帧转换为歌声帧的方法，包括：获得音频帧的音高值；使用该音高值获得该帧的共振峰信息；使用该音高值获得该帧的非周期性信息；获取主音音高以及和弦音高；使用共振峰信息、非周期性信息、主音音高以及和弦音高获得歌声帧；以及输出或保存歌声帧。

Description

语音至歌声的实时转换技术

相关申请的交叉引用

本申请要求2021年1月14日提交的标题为“语音至歌声的实时转换技术”的美国专利申请号为17/149,224的专利申请的权益，其全部内容通过引用纳入本文。

技术领域

本发明总体上涉及语音增强领域，更具体而言，本发明涉及领域在实时应用中将说话语音转换为演唱歌声的技术。

背景技术

交互沟通很多时候是在不同的通信渠道中通过不同的媒体类型在线发生的。比如使用视频会议或视频流进行传输的实时通信(RTC)。视频可包含音频和视频内容。一个用户(即发送方用户)可以将用户生成的内容(如视频)发送给一个或多个接收方用户。比如，可将一场音乐会直播给许多观众观看。又比如，老师可以向学生直播上课。再如，用户也可进行包含实时视频的实时聊天。

在实时通信中，有些用户可能希望添加滤镜、遮罩和其他视觉效果，为通信增添乐趣。比如说，用户可以选择一个太阳镜滤镜，该滤镜由通信应用程序通过数码方式添加到用户的面部。类似地，用户有可能想改变他们的声音。更具体而言，用户可能希望将自己的语音根据参考样本变换成歌声的效果。

发明内容

一方面，本发明提出了一种将语音样本帧转换为歌声帧的方法。该方法包括获得音频帧的音高值；使用该音高值获得该帧的共振峰信息；使用音高值获得该帧的非周期性信息；获取主音音高以及和弦音高；使用共振峰信息、非周期性信息、主音音高以及和弦音高获得歌声帧；以及输出或保存该歌声帧。

另一方面，本发明提出了一种用于将语音样本帧转换成歌声帧的设备。该设备包括一台处理器，该处理器被配置为获得音频帧的音高值；使用该音高值获得该帧的共振峰信息；使用音高值获得该帧的非周期性信息；获取主音音高以及和弦音高；使用共振峰信息、非周期性信息、主音音高以及和弦音高获得歌声帧；以及输出或保存该歌声帧。

第三方面，本发明提出了一种非暂时性计算机可读存储介质，该存储介质中包含由处理器执行的指令，该指令可运行的操作包括：获得音频帧的音高值；使用该音高值获得该帧的共振峰信息；使用音高值获得该帧的非周期性信息；获取主音音高以及和弦音高；使用共振峰信息、非周期性信息、主音音高以及和弦音高获得歌声帧；以及输出或保存该歌声帧。

以上各个方面可以采用各种不同的实施方式来实现。例如，可以通过合适的计算机程序来实现以上各方面，这些计算机程序可以在合适的载体介质上实现，该合适的载体介质可以是有形的载体介质(如磁盘)或无形的载体介质(如通信信号)。也可以使用合适的设备来实现各方面功能，该合适的设备可以采取运行计算机程序的可编程计算机的形式，该计算机程序被配置为可实现本发明所述的方法和/或技术。以上各方面也可以组合使用，以使得某一方面技术所述的功能可以在另一方面的技术中实现。

附图说明

本文的描述以附图作为参考，其中在各个附图中相同的标识指代相同的组件。

图1是根据本发明实施例所绘制的将语音转换为歌声的系统的示例图。

图2A是根据本发明实施例所绘制的用于特征提取模块的技术流程图。

图2B是根据本发明实施例所绘制的计算音高值的技术流程图。

图2C是根据本发明实施例所绘制的计算非周期性信息的技术流程图。

图2D是根据本发明实施例所绘制的提取共振峰信息的技术流程图。

图3A是根据本发明实施例所绘制的在静态模式下生成歌声特征的技术流程图。

图3B是根据本发明实施例所绘制的在动态模式下生成歌声特征的技术流程图。

图3C示出了一个示例MIDI文件的可视化视图。

图3D示出了一个示例音高轨迹文件的可视化视图。

图3E示出了完全五度音程(the perfect fifth rule)的可视化视图。

图4是根据本发明实施例所绘制的歌声合成的技术流程图。

图5是根据本发明实施例所绘制的语音到歌声转换的技术示例流程图。

图6是根据本发明实施例所绘制的一台计算设备的示例框图。

具体实施方式

如上所述，用户可能希望根据参考样本将他/她的声音(即语音)转换为歌声。也就是说，当用户以他/她的常规语音(即源语音样本)讲话时，远程接收方可能会听到该用户语音根据参考样本演唱出来的用户语音。也就是说，将说话者的音高修改(如经过调音)为唱出参考样本的旋律，该参考样本可以是歌曲、曲调、音乐作品等。

尽管传统的音高调整技术，如相位声码器或音高同步重叠和加法(PSOLA))等都可以修改语音的音高，但由于整个频带的能量分布可能被均匀展开或挤压，从而也可能会改变语音的共振峰，因此这种技术的输出(如效果)是与说话者的语音并不相似的语音(如语音)，听起来可能像是另一个人的声音，或者变得不自然(如机器人的声音等)。也就是说，传统技术往往会丢失原说话者的语音特性。

我们希望在根据参考样本将语音样本转换为歌声时能保持说话者的语音特性。可以将说话者的语音特性(如说话者语音的独一无二特性)嵌入(如通过编码等)共振峰信息中。共振峰是声波中某特定频率附近的声能浓度。当发出元音时，共振峰表示声道的共振特性。声道内的每个腔可以以相应的频率发生谐振。这些共鸣特性可用于识别一个人的语音质量。

对于参考样本而言，参考样本的音高轨迹以及和弦将被应用于语音样本。音高是指用于音乐创作的音阶的开始和结束音符。我们将音符定义为自然音阶、音高中心和/或最终解析音高的第一个音级。例如，将参考样本(如一个音乐作品)称为“C”大调意味着该参考样本和谐地以音符C为中心围绕，并且主音阶的第一个音符或音高是C。我们将参考样本中的主音高定义为产生振幅最大的那个音。音高轨迹是指参考样本中的音高序列。和弦是指由音程分隔的一串音符。和弦可以是一起演奏的一组音符。

传统的歌声生成技术可以基于音高轨迹来产生和弦的多个轨道，然后将和弦轨道与音高轨道混合来产生歌声信号。这样的技术会导致计算成本增加，缺点是在便携式设备(如手机)上无法实现。

本发明所述的实施方式可以根据参考样本将语音样本(如说话语音样本)转换为歌声。本文描述的语音转换为歌声的技术可以根据给定旋律的参考音高来修改原始语音的音高轨迹，而不改变说话者的特性。转换过程可以实时地实现。转换可以基于静态参考样本，也可以基于动态参考样本。在使用静态参考样本的情况下，可以将预设的主音音高以及和弦音高的轨迹进行循环使用。在使用动态参考样本(即动态模式)的情况下，可以实时地从输入设备(或虚拟设备)处(如键盘或触摸屏等)接收(如计算、提取、分析等)主音音高以及和弦音高信号。例如，当用户讲话时，可能正在后台播放乐器的演奏，于是可以根据所播放音乐的音高以及和弦来修改用户的声音。

图1是根据本发明实施例所绘制的将语音转换为歌声的系统的示例图。设备100可以将接收到的音频样本转换为歌声。设备100可以是发送方的发送设备，可以在该发送设备中实现，也可以是该发送设备的一部分。设备100可以是接收方的接收设备，可以在该接收设备中实现，也可以是该接收设备的一部分。

设备100可以接收发送用户的音频样本(如语音)。例如，音频样本可以是发送用户说话的语音，比如可以是在与一个或多个接收用户的音频或视频电话会议的场景中。在一个示例中，发送用户的发送设备可以将发送用户的语音转换为歌声，然后将该歌声发送给接收用户。在另一个示例中，可以将发送用户的语音原样发送给接收用户，而接收用户的接收设备可以在将歌声输出给接收用户之前将接收到的语音转换为歌声，例如使用接收设备的麦克风。该歌声音频可以被输出至一个存储介质，以便稍后播放。

设备100以帧的形式接收源语音，如源音频帧108。在另一个示例中，设备100可以将接收到的音频信号按帧划分，其中包括源音频帧108。设备100对源语音进行逐帧处理。一帧可以是m毫秒的音频。在一个示例中，m可以是20毫秒。当然m也可以是其他值。设备100输出(如生成、获得、产生、计算等)歌声音频帧112。源音频帧108是发送用户的原始语音，而歌声音频帧112是根据参考信号110而转换的歌声音频帧。

设备100包括特征提取模块102、歌声特征生成模块104和歌声合成模块106。特征提取模块102可以估算每个接收到的音频帧(即源音频帧108)的音高和共振峰信息。在本发明中，“估算”可以表示以任何方式计算、获得、识别、选择、构造、导出、形成、产生或其他形式的估算。歌声特征生成模块104可以从参考信号110处得到主音音高以及和弦音高并将其应用至每一帧。歌声合成模块106使用特征提取模块102和歌声特征生成模块104提供的信息来逐帧生成歌声信号(即歌声音频帧112)。

总结以上内容并举例说明，当说话者讲话时，特征提取模块102提取实时语音信号的特征；同时，歌声特征生成模块104生成诸如主音音高以及和弦音高等歌声信息；然后歌声合成模块106根据语音和歌声特征生成歌声信号。

下面参考图2A-2D、图3A-3D和图4进一步描述特征提取模块102、歌声特征生成模块104和歌声合成模块106。

设备100的每个模块可以由计算设备(如图6中的计算设备600)来实现。技术600可以被实现为由计算设备(如计算设备600)执行的软件程序。软件程序可以包括机器可读指令，该机器可读指令可以存储在存储器(如存储器604或辅助存储器614)中，并且在由处理器(如处理器602)运行时可以使计算设备执行技术600。可以使用专用硬件或固件来实现技术600。也可以使用多个处理器和/或多个存储器。

图2A-2D是根据本发明实施例所绘制的从音频帧中提取特征的细节示例图。

图2A是根据本发明实施例所绘制的用于特征提取模块的技术200的流程图。技术200可以由图1的特征提取模块102来实现。技术200包括音高检测模块(通过自相关模块204的自相关技术来检测音高)；以及非周期性估算模块208，用于提取源音频帧108的非周期性特征。共振峰提取模块210可以采用频谱平滑技术来提取共振峰信息，详见下述。

音高检测模块(即共振峰提取模块210)可以针对语音信号的每个源音频帧108计算音高值(F0)。音高值可用于确定快速傅立叶变换(FFT)206的窗口长度，共振峰提取模块210和非周期性估算模块208都会用到该值。FFT206还可用于获取执行FFT所需的音频信号长度。如下所述，非周期性估算和共振峰提取所得到的长度可以分别为2*T0和3*T0，其中T0由音高F0(如T0＝1/F0)决定。例如，特征提取模块102可以在音高搜索范围内搜索音高值(F0)。又如，音高搜索范围可以是75Hz至800Hz，覆盖了人类音高的正常范围。自相关模块204可获取音高值(F0)，自相关模块204对存储在信号缓冲器202中的一部分信号执行自相关操作。信号缓冲器202的长度可以至少为40ms，该值由音高检测范围的最低音高(75Hz)得出。信号缓冲器202可以包括源音频信号中至少2帧的采样数据。信号缓冲器202可用于存储特定总长度(如40ms)的音频帧。

特征提取模块102可以通过串联模块212为歌声合成模块106提供共振峰(即频谱包络)和非周期性信息，如图2所示。

图2B是根据本发明实施例所绘制的计算音高值的技术流程图。通过图2中的自相关模块204可以获得音高值(F0)，从而实现技术220。更具体而言，可以使用自相关技术(即技术220)来计算(如检测、选取、识别、选择等)音高值(F0)。

在222处，技术220计算信号缓冲器中的信号的自相关信息。自相关计算可用于识别数据(如时间序列数据)中的模式。自相关函数可用于识别特定延迟时间内一对数值之间的相关性。例如，lag-1自相关计算可以测量直接相邻数据点之间的相关性。lag-2自相关计算可以测量相隔2个时间段(即2个时间距离)的一对数值之间的相关性。等式(1)可用于计算自相关值：

r_n＝r(nΔτ) (1)

在等式(1)中，r()是用于计算具有不同时延(如nΔτ)数值之间自相关值的自相关函数；Δτ为采样时间。例如，给定源音频帧108的采样频率f_s为10K，则Δτ为0.1毫秒(ms)；n可以在[12，134]的范围内，对应于音高搜索范围。

在224处，技术220在自相关计算中获取(如计算、确定、获得等)局部最大值。例如，在每一对(m-1)Δτ和(m+1)Δτ中可以得到自相关的局部最大值，其中m与n范围相等。也就是说，在所有计算出的r_n’s中，可得到局部最大值r_m’s。每个局部最大值r_m使得：

r_m>r_m+1且r_m>r_m-1 (2)

在226处，对于每个局部最大值r_m，分别使用等式(3)和(4)来计算局部最大值(τ_max)的帧内对应时间位置以及自相关局部最大值(r_max)的内插值。τ_max可以是具有最大自相关(r_max)的延迟时间。当然也可以用其他方法得到τ_max和r_max。

在228处，技术220设定(如计算、选择、识别等)音高值(F0)。例如，如果存在具有r_max>0.5的局部最大值，则可以通过等式(5)使用具有最大r_max的τ_max来计算音高值，并将标志Pitch_flag设为true；否则(即如果不存在局部最大值r_max>0.5)，则可以将F0设为预定值，并将Pitch_flag设置为false。预定值可以是在音高检测范围内的值，比如该范围内的中间值。又如，预定值可以是75，即音高检测范围内的最低音高值。

图2C是根据本发明实施例所绘制的计算非周期性信息的技术流程图。非周期性是基于群延迟来计算的。通过图2A的非周期性估算模块208获得源音频帧108的频带非周期性信息(即至少一些频率子带的非周期性)，从而实现技术240。

在242处，技术240计算群延迟。群延迟表示(如描述等)频谱包络如何在不同时间点上或时间内发生变化。因此，可采用以下方法计算源音频帧108的群延迟。

对于每个帧，使用长度为(2*T0)的信号s(t)计算群延迟τ_D，其中T0＝1/F0。群延迟通过等式(6)定义：

在等式(6)中，

和

分别表示复数值的实部和虚部；S(ω)表示信号s(t)的频谱，S′(ω)是使用等式(7)计算的加权频谱，其中

表示傅立叶变换：

在244处，技术240使用群延迟来计算每个子频带的非周期性。整个人声频率范围(即[0-15]kHz)可被划分为预定数量的频带。例如，频带的预定数量可以是5。当然也可以划分为其他数量。因此，在一个示例中，频带可以是子频带[0-3kHz]，[3kHz-6kHz]，[6kHz-9kHz]，[9kHz-12kHz]和[12kHz-15kHz]。当然也可以采用不同的声音频率范围划分。使用等式8-10可计算子频带的非周期性

在等式8-10中，

其中

是第i个子频带的中心频率。w(w)是窗函数；w_l是窗口长度(可以等于子频率带宽的2倍)；

是傅里叶逆变换。因此，可以使用傅立叶逆变换来计算波形

在参数

(等式(9))中，p_s(t，ω_c)表示在时间轴上通过以降序对功率波形

进行排序而计算出的参数。在等式(10)中，w_bw表示窗口函数w(w)的主瓣带宽，具有时间维度。由于主瓣带宽可以定义为从0Hz到幅度为0的频率之间的最短频率范围，因此可以使用2w_bw。

在一个示例中，具有低旁瓣的窗函数可以用于防止数据在频域中被混叠(或复制)。例如，可以使用Nuttall窗，因为该窗口功能的旁瓣较低。在另一个示例中，也可以使用Blackman窗。

图2D是根据本发明实施例所绘制的提取共振峰信息的技术流程图。通过图2A的共振峰提取模块210获得源音频帧108的共振峰信息，从而实现技术260。共振峰信息可以由频谱包络(如平滑频谱)表示。可将滤波功能应用于窗信号的倒频谱(cepstrum)以实现对幅度谱的平滑化处理。由于人类语音或语音信号可以具有边带，因此在语音处理中可以使用倒频谱来理解(如分析等)发音和不同单词之间的差异。倒频谱是一种技术，通过该技术可以将来自一个信号源的一组边带聚集为一个参数。当然也可以采用其他方式提取共振峰信息。

在262处，技术260通过加窗信号计算功率倒频谱。如人们所熟知的，信号的倒频谱是信号的傅立叶变换的傅立叶逆变换及其傅立叶变换的对数。如上所述，窗口的长度可以是3*T0，其中T0＝1/F0。由于使用逆傅立叶变换获得倒频谱，因此倒频谱在时域中。可以在等式(11)中采用汉宁窗(Hamming window)w(t)计算功率倒频谱：

p_s(t)＝F^-1[log(|F{s(t)*w(t)}|²)] (11)

在264处，技术260使用等式(12)通过倒频谱计算出平滑频谱(即共振峰)：

根据经验导出常数1.18和0.18，以获得平滑的共振峰。当然也可以采用其他值。

现在来看图1的歌声特征生成模块104。如上所述，歌声特征生成模块104既可以在静态模式下操作，也可以在动态模式下操作。歌声特征生成模块104可以获得(如使用、计算、导出、选择等)主音音高以及和弦音高(如零个或多个和弦音高)，用于将源音频帧108转换为歌声音频帧112。

图3A是根据本发明实施例所绘制的在静态模式下生成歌声特征的技术300的流程图。可以通过图1的歌声特征生成模块104来实现技术300。在静态模式下，在对输入语音信号执行实时语音到歌声转换之前，将图1的参考信号110(即参考样本302)发送至歌声特征生成模块104。

例如，参考样本302可以是乐器数字接口(MIDI)文件。一个MIDI文件可以包含从录制到演奏(如在钢琴上演奏)的各方面详细信息。可以将MIDI文件视为包含演奏的一个副本。例如，一个MIDI文件包括演奏的音符、音符的顺序、每个演奏音符的长度、是否(在钢琴的情况下)踩下踏板等等信息。图3C示出了一个示例MIDI文件的可视化视图360。例如，通道362表示E2音符相对于其他音符的演奏位置以及每个E2音符的持续时间。

在一个示例中，参考样本302可以是一个音高轨迹文件。图3D示出了一个音高轨迹文件的可视化视图370。可视化视图370示出了音频文件的每一帧(水平轴)使用的音高(垂直轴)信息。实线372表示主音音高；虚线374表示第一个和弦音高；点划线376表示第二个和弦音高。

在静态模式下，歌声特征生成模块104(如其中的主音音高循环模块304)根据参考样本302处所述(如配置、记录、设置等)的预设音高轨迹在每帧重复提供主音音高。当参考样本302的所有音高都用尽时，主音音高循环模块304将从参考样本302的第一帧重新开始循环。在一个示例中，参考样本302(如MIDI文件)还可以包括和弦音高信息。因此，和弦音高生成模块306还可以通过参考样本302来获得每帧的和弦音高(如一个或多个和弦音高)。在另一个示例中，和弦音高生成模块306可以使用和弦规则(如三合音、完全五度音程或一些其他规则)获得(如导出、计算等)和弦音高。图3E中示出了使用完全五度音程的和弦音高的一个示例。图3E示出了完全五度音程的可视化视图380。虚线382表示主音音高；虚线384表示第一个和弦音高；长短点相间的点线图386表示第二个和弦音高。

对于源音频帧108的每个帧，串联模块308将主音音高以及和弦音高串联起来并将其提供给图1的歌声合成模块106。

图3B是根据本发明实施例所绘制的在动态模式下生成歌声特征的技术流程图。可以通过图1的歌声特征生成模块104在动态模式下实现技术350。在动态模式下，门户设备(如智能手机触摸屏)或数字乐器(如电吉他等)上演奏的虚拟乐器(如虚拟键盘、虚拟吉他或其他虚拟乐器)可实时提供主音音高以及和弦音高信息。又如，当用户讲话时，背景音乐作品可能正在背景中播放。这样，用户可能以他/她弹奏乐器的任何旋律来“演奏”他/她的声音。信号转换模块354可以实时地从演奏音乐中逐帧提取主音音高以及和弦音高，以提供给图1的歌声合成模块106。在一个示例中，可以通过信号转换模块354获得包含音高和音量信息的媒体流(如MIDI流)，从中逐帧提取主音音高以及和弦音高。例如，被弹奏的乐器或用于播放音乐的软件(如乐器软件)可以支持并发送包含音高和音量信息的MIDI流。

需要指出的是，正常人的音高分布是从55Hz到880Hz。因此，在一个示例中，

可以在正常人的音高范围内分配主音音高以及和弦音高，以期获得自然的歌声。也就是说，可以将主音音高和/或和弦音高限制在[55，880]的范围内。例如，如果音高小于55Hz，则可以将其设置(如限幅)在55Hz；如果大于880，则可以将其设置(如限幅)在880。在另一个示例中，由于限幅可能会产生不协调的声音，因此不会产生超出该范围的音高。

图4是根据本发明实施例所绘制的歌声合成的技术流程图。可以通过图1的歌声合成模块106来实现技术400。技术400可以在输入层412处接收频谱包络402(即共振峰)和非周期性信息404，该信息从特征提取模块102处获得。技术400还可以接收主音音高406以及零个或多个和弦音高(如第一和弦音高408和第二和弦音高410)，这些信息从歌声特征生成模块104处获得。技术400使用这些输入逐帧生成歌声信号(即歌声音频帧112)。

技术400可以生成两种声音：从脉冲信号模块(即模块416)产生的周期性声音，以及从噪声信号模块处(即模块418)产生的白噪声。脉冲信号是信号幅度的快速瞬态变化，然后返回到基线值。例如，插入到信号中或信号中自带的拍手声就是一个脉冲信号的示例。

在模块416处，存储事先准备的脉冲信号

并且在模块418处为每个频率子带(如上述五个子带)存储事先准备(如计算、导出等)白噪声信号

这样，在实时计算时可以直接读取至少一些(例如，每个)频率子带相应的脉冲信号和噪声信号，以避免重复计算。

模块414可使用该脉冲信号生成周期响应(即周期性声音)。

可以使用任何已知技术来获得脉冲信号

例如，可以使用等式(13)-(14)来计算脉冲信号

在获得每个子带的频域脉冲信号的等式(13)中，索引i表示子频带，索引j表示频率仓。参数a，b和c可以是根据经验导出的常数。例如，常数a，b和c可以分别取值为0.5、3000和1500，这将近似于人类语音的脉冲信号。f(j)是脉冲信号频谱的第j个频点的频率，f(j)的范围可以是整个频带(如0-24kHz)。例如，如果第i个频带为150-440Hz，则当f(j)在150-440Hz内时，

将取值为一个数值，而当f(j)在此范围之外时，则

等于0。等式(14)通过执行逆傅立叶变换来获得每个频率子带的时域脉冲信号。因此，针对子频带的每个频率仓将或获取各自的脉冲频谱；然后将这些脉冲频谱组合成一个时域脉冲信号。

可以使用任何已知技术通过模块420获得噪声信号

例如，可以使用等式(15)-(17)来计算噪声信号

使用等式(15)获得频率仓(以j为索引)的频谱噪声(即白噪声)

其中x₁和x₂是从[0,1]开始的随机数矢量，长度等于采样频率的一半(0.5f_s)。等式(15)将频谱噪声

划分为各个子带噪声。也就是说，等式(15)将频谱噪声划分成不同的子带。等式(17)通过执行傅立叶逆变换从频谱信号中获得噪声波信号。

模块414可以计算源音频帧108内需要添加脉冲(如开始、插入等)的位置。首先获得源音频帧108的每个采样点的音高值。对于当前的源语音帧(即帧k)(即源音频帧108)中帧k的每个采样点j的音高值(即定时索引)，可以使用前一帧的音高值获得内插音高值F0^int(j)。也就是说，可以通过对F0(k)和F0(k-1)进行插值来获得F0^int(j)。插值可以是线性插值。举例说明，假设F0(k)＝100且F0(k-1)＝148，并且在每一帧中有480个采样点，则第k帧的内插音高值F0^int(j)可以是[147.9,147.8,…,100]，其中j＝1,..,480。

给定帧大小为F_size个样本，且采样频率为f_s，每个采样位置都可能是潜在的脉冲位置。通过使用等式(18)获得采样位置j处的相移，可以获得第k帧中的脉冲位置，该等式(18)计算出相位模(MOD)2π。相位可以在[-π,π]的范围内。如表I的伪代码所示，如果当前定时点(j)与紧随其后的定时点(j+1)之间的相位差大于π，则将当前定时点认定为脉冲位置。因此，根据不同的音高，在一帧中有可能有0个或更多位置可添加脉冲。当相位差较大(如大于π)时，可以为其添加脉冲以避免相位不连续。

在模块422处，通过在每个脉冲位置处将相应的脉冲和噪声信号进行组合(如混合等)来获得激励信号。所使用的脉冲信号和噪声信号的数量取决于信号的非周期性。每个子带中的非周期性

可以用作激励信号中脉冲噪声比的百分比分配。可以使用等式(19)获得激励信号

其中s表示脉冲位置，k表示当前帧。

模块424(即波形发生模块)可以使用激励信号来获得歌声音频帧112。如上所述，可以使用等式(20)-(22)将激励信号与倒频谱(计算方式如上所述)进行组合以获得生成的波形信号S_wav，也就是歌声音频帧112。

等式(20)获得平滑频谱(即共振峰)的傅立叶变换，由特征提取模块102如上所述进行计算。在等式(21)中，fft_size是快速傅立叶变换(FFT)的大小，与用于计算平滑频谱的FFT大小相同。等式(21)是计算S_wav的中间步骤。在一个示例中，fft_size可以等于2048，以保证足够的频率分辨率。在等式(22)中，w_han是指汉宁窗(Hanning window)。

图5是根据本发明实施例所绘制的语音到歌声转换的技术示例流程图。技术500将语音(讲话)样本的帧转换为歌声帧。语音样本的帧如源音频帧108所述，而歌声帧可以是图1中的歌声音频帧112。

技术500可以由计算设备(如图1中的计算设备100)来实现。技术500可以被实现为由计算设备(如图6中的计算设备600)执行的软件程序。软件程序可以包括机器可读指令，该机器可读指令可以存储在存储器(如存储器604或辅助存储器614)中，并且在由处理器(如处理器602)运行时可以使计算设备执行技术500。可以使用专用硬件或固件来实现技术500。也可以使用多个处理器和/或多个存储器。

在502处，技术500获得音频帧的音高值。关于获取音高值的方法详见上述有关F0的说明。因此，如上所述，获取帧的音高值可以包括计算信号缓冲器中的信号自相关值；在自相关值中找到局部最大值；并使用局部最大值获得音高值。

在504处，技术500使用音高值获得帧的共振峰信息。获取共振峰信息的方法如上所述。因此，使用音高值获得帧的共振峰信息可以包括：使用音高值获得窗口长度；使用窗口长度计算该帧的功率倒频谱；以及从倒频谱中获得共振峰信息。

在506处，技术500使用音高值获得帧的非周期性信息。获得非周期性信息的方法如上所述。因此，获得非周期性信息可以包括：使用音高值来计算群时延；为该帧的每个频率子带计算各自的非周期性值。

在508处，技术500获得需要应用于(如进行组合等)音频帧的主音音高以及和弦音高。在一个示例中，如上所述，可以根据预设的音高轨迹静态地分配一个或多个主音音高。在另一个示例中，可使用和弦规则来计算和弦音高。在又一个示例中，可以通过参考样本实时地计算出主音音高以及和弦音高。参考样本可以是与语音同时进行的真实或虚拟的乐器演奏。

在510处，技术500使用共振峰信息、非周期性信息以及主音音高以及和弦音高来获得歌声帧。获得歌声帧的方法如上所述。因此，获得歌声帧可以包括：获得该帧各个频率子带的相应脉冲信号；获得该帧各个频率子带的相应噪声信号；获取帧内须插入相应的脉冲信号和相应的噪声信号的位置；获得激励信号；利用激励信号获得歌声帧。

在512处，技术500输出或保存歌声帧。例如，歌声帧可以被转换为可保存的格式，并被存储以供以后播放。例如，歌声帧可以被传输至发送用户或接收用户处。又如，如果歌声帧是使用发送用户的设备而生成的，那么输出歌声帧可能意味着将歌声帧发送(或通过其他设备发送)到接收用户处。再如，如果歌声帧是使用接收用户的设备而生成的，则输出歌声帧可能意味着将歌声帧输出，以便接收用户可以听到。

图6是根据本发明实施例所绘制的一台计算设备的示例框图。计算设备600可以是包括多个计算设备的计算系统，也可以是一个计算设备，如移动电话、平板电脑、膝上电脑、笔记本电脑、台式计算机等等。

计算设备600中的处理器602可以是常规的中央处理器。处理器602也可以是能够操纵或处理现存或今后开发的信息的其他类型的设备或多个设备。例如，尽管本文示例中可以用所示的单个处理器(如处理器602)来实现，但是如果使用多个处理器将可体现速度和效率方面的优势。

在一个实现中，计算设备600中的存储器604可以是只读存储器(ROM)设备或随机存取存储器(RAM)设备。其他合适类型的存储设备也可以用作存储器604。存储器604可以包含由处理器602使用总线612访问的代码和数据606。存储器604还可以包含操作系统608和应用程序610，其中应用程序610包含至少一个程序，该程序允许处理器602执行本文所述的一个或多个技术。例如，应用程序610可以包括应用程序1到N，该应用程序1到N中包含在实时语音到歌声转换应用中可用到的程序和技术。例如，应用程序610可以包括技术200、220、240、250、300、350、400或500中的一种或多种技术。计算设备600还可以包括辅助存储设备614，比如与移动计算设备一起使用的存储卡。

计算设备600还可以包括一个或多个输出设备，如显示器618。例如，显示器618可以是显示器与可操作触摸输入的触敏元件组合而成的触敏显示器。显示器618可以通过总线612耦合到处理器602上。也可以使用其他允许用户编程或使用计算设备600的输出设备作为显示器618之外的附加或替代输出设备。如果输出设备是显示器或包含显示器，则该显示器可以以各种方式实现，包括液晶显示器(LCD)、阴极射线管(CRT)显示器或发光二极管(LED)显示器，如有机LED(OLED)显示器等。

计算设备600还可以包括图像传感设备620(如相机)，或者包括现存或以后开发的可以感测图像(如一幅用户操作计算设备600的图像)的任何其他图像传感设备620，或者与上述图像传感设备620通信。可将图像传感设备620摆放至面对操作计算设备600的用户的位置。例如，可以配置图像传感设备620的位置和光轴，使得视场范围包括与显示器618直接相邻并且可见到显示器618的区域。

计算设备600还可以包括声音传感设备622(如麦克风)，或者包括现存或以后开发的可以感测设备600附近的声音的任何其他声音传感设备622，或者与上述声音传感设备622通信。可将声音传感设备622摆放至面对操作计算设备600的用户的位置，并可以对其进行配置使其接收声音，并且可以被配置为接收声音，比如用户操作计算设备600时由用户发出的声音，如语音或其他声音。计算设备400还可以包括声音播放设备624或与之通信，如扬声器、头戴式耳机或现存或以后开发的可以根据计算设备600指令播放声音的任何其他声音播放设备。

图6仅描绘了计算设备600的处理器602和存储器604被集成到单个处理单元中的情况，除此之外也可以采用其他配置。处理器602的操作可以分布在多个机器(每个机器包含一个或多个处理器)上，这些机器可以直接耦合或跨局域或其他网络耦合。存储器604可以分布在多个机器上，例如基于网络的存储器或运行计算设备600的操作的多个机器中的存储器。本文仅描述了单个总线的情况，除此之外计算设备600的总线612也可以由多个总线组成。此外，辅助存储器614可以直接耦合到计算设备600的其他组件，也可以通过网络访问，或者也可以包括诸如存储卡的单个集成单元或诸如多个存储卡的多个单元。因此，计算设备600可以通过各种各样的配置实现。

为了简化说明，将图2A、图2B、图2C、图2D、图3A、图3B、图4或图5中的技术200、220、240、250、300、350、400或500分别由一系列模块、步骤或操作绘制而成。但根据本发明，这些模块、步骤或操作可以以各种顺序和/或同时发生。另外，也可以使用本文未提到和描述的其他步骤或操作。此外，根据本发明设计的技术也可能不需要采用所有示出的步骤或操作即可实现。

本文采用“示例”一词来表示举例、实例或说明。本文所述用于“示例”的任何功能或设计不一定表示其优于或胜于其他功能或设计。相反，使用“示例”一词是为了以具体的方式呈现概念。本文中所使用的“或”字旨在表示包含性的“或”而不是排他性的“或”。也就是说，“X包括A或B”意在表示任何自然的包含性排列，除非另有说明，或者从上下文可明确判断则另当别论。换句话说，如果X包含A，X包含B，或X包含A和B，那么在任何前述实例下“X包含A或B”都成立。此外，在本申请以及所附权利要求书中，“一”、“一个”通常应该被解释为表示“一个或多个”，除非另有说明或从上下文中明确指出是单数形式。另外，本文通篇中的“一个功能”或“一项功能”这两个短语并不意味着同一个实施方式或同一项功能，除非另有特别说明。

图6所示的计算设备600和/或其中的任何组件以及图1所示的任何模块或组件(以及存储在其上和/或由此执行的技术、算法、方法、指令等)可以用硬件、软件或其任何组合来实现。硬件包括如知识产权(IP)内核、专用集成电路(ASIC)、可编程逻辑阵列、光处理器、可编程逻辑控制器、微代码、固件、微控制器、服务器、微处理器、数字信号处理器或任何其他适用的电路。在本发明中，“处理器”一词应理解为包含任何上述内容中的一项或多项的组合。“信号”和“数据”等术语可互换使用。

此外，一方面该技术可以使用具有计算机程序的通用计算机或处理器来实现，该计算机程序在被运行时可执行本文所述的任何相应的技术、算法和/或指令。另一方面，也可以有选择地使用专用计算机或处理器，配备专用硬件设备用以执行本文描述的任何方法、算法或指令。

另外，本发明的全部或部分实施方式可采取计算机程序产品的形式，该程序产品可通过计算机使用或可由计算机可读介质进行访问等。计算机可用或计算机可读介质可以是任何设备，该设备可以具体包含、存储、传送或传输供任何处理器使用或与其结合使用的程序或数据结构。该介质可以是电子的、磁的、光学的、电磁的或半导体设备等等，也可包含其他适用的介质。

虽然已经结合某些实施例对本发明进行描述说明，但应理解为本发明并不限于所公开的实施方式，另一方面，本发明旨在覆盖权利要求范围之内所涵盖的各种变体和等同设置，该范围应被赋予最宽泛的解释以涵盖法律允许的所有上述变体和等同设置。

Claims

1.一种将语音帧转换为歌声帧的方法，包括：

获得音频帧的音高值；

使用该音高值获得该帧的共振峰信息；

使用该音高值获得该帧的非周期性信息；

获取主音音高以及和弦音高；

使用共振峰信息、非周期性信息、主音音高以及和弦音高获得歌声帧；以及

输出或保存该歌声帧。

2.根据权利要求1所述的方法，其中获得音频帧的音高值包括：

计算信号缓冲器中的信号自相关值；

在自相关值中找到局部最大值；以及

使用局部最大值获得音高值。

3.根据权利要求1所述的方法，其中使用该音高值获得该帧的共振峰信息包括：

使用音高值获得窗口长度；

使用窗口长度计算该帧的功率倒频谱；以及

从倒频谱中获得共振峰信息。

4.根据权利要求1所述的方法，其中使用该音高值获得该帧的非周期性信息包括：

使用音高值来计算群时延；以及

为该帧的每个频率子带计算各自的非周期性值。

5.根据权利要求1所述的方法，其中根据预设的音高轨迹静态地分配主音音高。

6.根据权利要求5所述的方法，其中静态地分配和弦音高。

7.根据权利要求5所述的方法，其中使用和弦规则来计算和弦音高。

8.根据权利要求1所述的方法，其中通过参考样本实时地计算主音音高以及和弦音高。

9.根据权利要求1所述的方法，其中使用共振峰信息、非周期性信息以及主音音高和和弦音高来获得歌声帧包括：

获得该帧各个频率子带的相应脉冲信号；

获得该帧的各个频率子带的相应噪声信号；

获取帧内须插入相应脉冲信号和相应噪声信号的位置；

获得激励信号；以及

使用激励信号获得歌声帧。

10.一种将样本语音帧转换为歌声帧的设备，包括：

一台处理器，配置为可执行以下操作：

获得音频帧的音高值；

使用该音高值获得该帧的共振峰信息；

使用该音高值获得该帧的非周期性信息；

获取主音音高以及和弦音高；

输出或保存该歌声帧。

11.根据权利要求10所述的设备，其中获得音频帧的音高值包括：

计算信号缓冲器中的信号自相关值；

在自相关值中找到局部最大值；以及

使用局部最大值获得音高值。

12.根据权利要求10所述的设备，其中使用该音高值获得该帧的共振峰信息包括：

使用音高值获得窗口长度；

使用窗口长度计算该帧的功率倒频谱；以及

从倒频谱中获得共振峰信息。

13.根据权利要求10所述的设备，其中使用该音高值获得该帧的非周期性信息包括：

使用音高值来计算群时延；以及

为该帧的每个频率子带计算各自的非周期性值。

14.根据权利要求10所述的设备，其中根据预设的音高轨迹静态地分配主音音高。

15.根据权利要求14所述的设备，其中静态地分配和弦音高。

16.根据权利要求14所述的设备，其中使用和弦规则来计算和弦音高。

17.根据权利要求10所述的设备，其中通过参考样本实时地计算主音音高以及和弦音高。

18.根据权利要求10所述的设备，其中使用共振峰信息、非周期性信息以及主音音高和和弦音高来获得歌声帧包括：

获得该帧各个频率子带的相应脉冲信号；

获得该帧的各个频率子带的相应噪声信号；

获取帧内须插入相应脉冲信号和相应噪声信号的位置；

获得激励信号；以及

使用激励信号获得歌声帧。

19.一种非暂时性计算机可读存储介质，该存储介质中包含由处理器执行的指令，该指令可运行的操作包括：

获得音频帧的音高值；

使用该音高值获得该帧的共振峰信息；

使用该音高值获得该帧的非周期性信息；

获取主音音高以及和弦音高；

输出或保存该歌声帧。

20.根据权利要求19所述的非暂时性计算机可读存储介质，

其中根据预设的音高轨迹静态地分配主音音高，并且

静态地分配和弦音高，或者使用和弦规则来计算和弦音高。