CN103915093B

CN103915093B - 一种实现语音歌唱化的方法和装置

Info

Publication number: CN103915093B
Application number: CN201210591777.0A
Authority: CN
Inventors: 孙见青; 凌震华; 江源; 何婷婷; 胡国平; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2012-12-31
Filing date: 2012-12-31
Publication date: 2019-07-30
Anticipated expiration: 2032-12-31
Also published as: WO2014101168A1; CN103915093A

Abstract

本发明实施例公开了一种实现语音歌唱化的方法和装置，所述方法包括：接收用户输入的语音信号；将所述语音信号切分获得各基本考察单元的语音片断；根据预置的简谱，确定简谱中的各音符与所述各基本考察单元的对应关系；根据简谱中各音符的音高，和所述对应关系，分别确定其所对应的基本考察单元的目标基频值；根据简谱中各音符的节拍数，和所述对应关系，分别确定其所对应的基本考察单元的目标时长；根据所述目标基频值和目标时长调整各基本考察单元的语音片断，使得调整后的语音片段的基频为所述目标基频值，调整后的语音片段的时长为所述目标时长。该方法避免了多次信号转换的损失，实现了对任意长度及任意内容的语音向任意歌曲的唱歌语音转换。

Description

一种实现语音歌唱化的方法和装置

技术领域

本发明涉及语音信号处理领域，具体涉及一种实现语音歌唱化的方法和装置。

背景技术

近年来，歌唱合成系统，即将用户输入的文本数据转换为歌唱语音的方法以及得到了广泛的研究和应用。歌唱合成系统的实现首先要求录制大量的歌曲数据，包括语音数据和简谱数据等，以提供合成系统所需的语音片段或训练可靠的模型参数。然后，由于歌曲数据录制的代价较大，歌唱合成系统通常只能选择录制某个特定发音人的数据，相应的提供的歌唱合成效果限定为特定发音人的音色，不适合个性化定制，无法实现到特定音色的演绎，特别是用户自身音色的重现。

针对上述问题，现有技术中开发了一种歌唱合成方法，允许设备接收用户以说话风格方式输入的语音数据，系统按照预设的简谱对语音数据进行优化实现歌曲合成。这种方式保留了用户语音数据的音色，实现个性化合成。具体操作包括：（1）系统接收用户说话风格的歌词语音输入；（2）通过人工切分的方式将语音信号切分为各个独立的基于音素单元的语音片段；（3）并根据简谱标注确定各音素单元和简谱音符的对应关系；（4）系统从各音素单元的语音片段中提取声学频谱特征，基频特征等；（5）系统根据简谱标注信息确定目标歌曲的基频F0特征参数和时长特征，并据此调整各音素单元的基频特征和时长；（6）系统根据各音素单元的声学频谱特征，以及韵律特征（如：基频特征及时长特征等），合成歌唱语音输出。

该现有技术虽然实现了从说话风格语音信号到歌唱风格的转换，但具有如下问题：

一方面，该方案只能实现简谱对应的歌词的说话风格语音输入的转换。也就是说用户只能输入指定歌曲的歌词，无法实现对任意长度的，任意内容的歌曲合成效果转换，应用方法受限，同时也降低了娱乐效果；

进一步，该方案通过人工切分方式，实现了说话风格的连续语音信号的切分，以及简谱音符的对应。对人工要求较高，受到语种的限制，无法普适推广。

而且，该方案采用的是参数合成方式，即首先将语音信号转换为声学特征，随后在特征层面上按照歌唱标准进行优化，最后按照合成方式从优化特征中合成得到连续语音信号。显然从语音信号到特征参数的转换，以及特征参数到语音信号的合成中均存在信号的损失，音质有明显的下降。

发明内容

本发明实施例提供了一种实现语音歌唱化的方法和装置，能够自动对语音进行切分，而且可以将任意长度和任意内容的说话语音转换为用户需要的歌曲。

本发明实施例提供了一种实现语音歌唱化的方法，所述方法包括：

接收用户输入的语音信号；

将所述语音信号切分获得各基本考察单元的语音片断；

根据预置的简谱，确定简谱中的各音符与所述各基本考察单元的对应关系；

根据简谱中各音符的音高，和所述对应关系，分别确定其所对应的基本考察单元的目标基频值；

根据简谱中各音符的节拍数，和所述对应关系，分别确定其所对应的基本考察单元的目标时长；

根据所述目标基频值和目标时长调整各基本考察单元的语音片断，使得调整后的语音片段的基频为所述目标基频值，调整后的语音片段的时长为所述目标时长。

本发明实施例还提供了一种实现语音歌唱化的装置，该装置包括：接收单元，切分单元，获取对应关系单元，获取基频单元，获取时长单元，和调整单元；

所述接收单元，用于接收用户输入的语音信号；

所述切分单元，用于将所述语音信号切分获得各基本考察单元的语音片断；

所述获取对应关系单元，用于确定简谱中的各音符与所述各基本考察单元的对应关系；

所述获取基频单元，用于根据简谱中各音符的音高，和所述对应关系，分别确定其所对应的基本考察单元的目标基频值；

所述获取时长单元，用于根据简谱中各音符的节拍数，和所述对应关系，分别确定其所对应的基本考察单元的目标时长；

所述调整单元，用于根据所述目标基频值和目标时长调整各基本考察单元的语音片断，使得调整后的语音片段的基频为所述目标基频值，调整后的语音片段的时长为所述目标时长。

从以上技术方案可以看出，本发明实施例具有以下优点：可以将输入的语音信号波形直接进行调整，通过对波形的直接优化，避免了多次信号转换的损失；且本发明实施例提供的技术方案，可以对任意长度及任意内容的说话语音向任意歌曲的唱歌语音转换也就是说本案不局限于对特定歌曲的歌词输入，而是允许用户输入任意内容，实现任意歌曲的转换。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种实现语音歌唱化的方法流程示意简图；

图2为本发明实施例提供的另一种实现语音歌唱化的方法流程示意简图；

图3为本发明实施例中将语音信号切分为基本考察单元的语音片段的流程示意简图；

图4为预先定义的搜索网络示例；

图5为本发明实施例中获取简谱中的音符与基本考察单元的对应关系流程示意简图；

图6为本发明实施例中实现可根据不同发音人的音域特点对获取的目标基频值进行优化的操作流程示意简图；

图7a为本发明实施例中获取每个基本考察单元的目标时长操作流程示意简图；

图7b所示获取音符的节拍数的举例；

图8为本发明实施例提供的一种实现语音歌唱化的装置示意简图；

图9为本发明实施例提供的切分单元示意简图；

图10为本发明实施例提供的获取对应关系单元示意简图；

图11为本发明实施例提供的调整基调单元示意简图；

图12为本发明实施例提供的获取时长单元示意简图。

具体实施方式

本发明实施例提供了一种实现语音歌唱化的方法和装置，可以对用户任意语音输入，通过对该语音输入自动切分为基本考察单元的语音片段，再对划分的各基本考察单元进行语音片断的歌唱化调整，实现将用户语音转换为歌唱语音输出。

实施例一

如图1所示本发明实施例提供的一种实现语音歌唱化的方法流程示意图。

步骤101，接收用户输入的语音信号；

步骤102，将所述语音信号切分获得各基本考察单元的语音片断；其中，所述基本考察单元为单个音符所对应的最小的发音单元，如中文歌曲的字符，英文歌曲的音节等。

步骤103，根据预置的简谱，确定简谱中的各音符与所述各基本考察单元的对应关系；

步骤104，根据简谱中各音符的音高，和所述对应关系，分别确定其所对应的基本考察单元的目标基频值；

步骤105，根据简谱中各音符的节拍数，和所述对应关系，分别确定其所对应的基本考察单元的目标时长；

步骤106，根据所述目标基频值和目标时长调整各基本考察单元的语音片断，使得调整后的语音片段的基频为所述目标基频值，调整后的语音片段的时长为所述目标时长。

本发明实施例提供的一种实现语音歌唱化的方法，在确定简谱中的音符与基本考察单元的对应关系后，可以根据简谱中各音符的音高，和简谱中各音符的节拍数，确定每个基本考察单元的目标基频值，和每个基本考察单元的目标时长；随后对每个基本考察单元的对应语音片断进行调整使得调整后的语音的基频为确定的目标基频值，调整后的语音的时长为确定的目标时长。因此，该方法通过对输入的语音信号波形直接进行调整，避免了多次信号转换的损失；且本发明实施例提供的技术方案，可以对任意长度及任意内容的用户语音输入向任意歌曲的唱歌语音转换；也就是说本案不局限于对特定歌曲的歌词输入，而是允许用户输入任意内容，实现任意歌曲的转换。

实施例二

如图2所示，本发明实施例提供的一种实现语音歌唱化的方法流程示意图。

步骤S10，接收用户输入的语音信号。

步骤S11，将语音信号切分为基本考察单元的语音片断。

在本发明实施例中将语音信号切分为基本考察单元的语音片断，具体的操作如图3所示，包括：

步骤S111，对语音信号进行预处理，该预处理操作具体可以是对语音信号进行降噪处理；具体可以是通过维纳滤波等技术对语音片断进行语音增强，提高后续系统对该信号的处理能力。

步骤S112，从语音信号中逐帧提取语音声学特征矢量，生成声学特征矢量序列；

其中，语音信号中逐帧提取语音声学特征矢量具体可以：是提取语音的Mel频率倒谱系数（MFCC，Mel Frequency Cepstrum Coefficient）特征，对窗长25ms帧移10ms的每帧语音数据做短时分析得到MFCC参数及其一阶二阶差分，共计39维度。因此，在设备的缓冲区的语音段表征为一39维特征序列。

步骤S113，对所述声学特征矢量序列执行语音识别，确定基本语音识别单元模型序列及各基本语音识别模型对应的语音片段。

其中，基本语音识别模型，可以包括：静音识别模型，浊音识别模型和清音识别模型三种。

需要理解的是，人的发音过程可以看作是一个双重随机过程，语音信号本身是一个可观测的时变序列，是由大脑根据语法知识和语言需要（不可观测的状态）发出的音素的参数流。现有技术中，通过隐马尔可夫模型（HMM，Hidden Markov Model）可以合理地模仿了这一过程，很好地描述了语音信号的整体非平稳性和局部平稳性，是一种理想的语音信号模型。在本发明实施例采用HMM来模拟静音片段，浊音片段以及清音片段的发音特点。对每个模型分别定义从左到右不可跳转的N（本方案中可以采用N=3）状态HMM模型，且可以确定每个状态的高斯分量为确定的K个(K=8)。

为了准确模拟静音片断，浊音片段以及清音片段的发音特点，系统预先收集语音数据并对模型参数进行训练。具体可以是：通过对训练语音数据集的人工切分和标注，确定静音（silence）、浊音（voiced）和清音（unvoiced）的训练数据集；随后从所述各对应训练数据集中提取声学特征，如MFCC特征；接着系统在预设的如最大似然估计（MLE，MaximumLikelihood Estimation）训练准则下训练得到静音片断，浊音片断以及清音片断的模型参数。

当在步骤S112中从语音信号中提取声学特征矢量之后，具体可以是MFCC参数，根据所述MFCC参数和预设HMM模型可以识别得到静音片段段，浊音片段以及清音片段的模型序列，并且，将所述语音信号切片为：静音片段，浊音片段，和清音片段。

如图4所示预先定义的搜索网络示例，其中，每条路径都表示一种可能的静音片段，浊音片断，清音片断的组合方式。

优选的，为了得到更好的切分效果，本发明实施例中可以采用对语音信号切分两遍，即：将上述步骤S113中切分确定的语音片段作为自适应数据，更新其相应的模型参数得到新的模型；根据新的模型再次执行步骤S113，从而将语音信号切分为语音片段。

步骤S114，合并基本语音识别单元对应的语音片段得到基本考察单元的语音片段。当基本语音识别模型包括：静音识别模型，浊音识别模型和清音识别模型三种；则合并基本语音识别单元对应的语音片段得到基本考察单元的语音片断，具体包括：将浊音片断和清音片断合并构成基本考察单元的语音片断。

由于步骤S113中确定的语音片段的单元相应于音符往往过小，因而不能和简谱的音符很好的对应。本发明实施例还考虑根据实际需要对模型语音片断进行合并，构成基本考察单元。具体操作可以是：将每个浊音片断和其之前的清音片断合并构成新的基本考察单元。

例如：“本”的发音“ben”，可以划分为清音片段“b”和浊音片段“en”，“本”字可以作为基本考察单元。

或者，基本语音识别模型，包括：各音素识别模型或音节识别模型；

因此，合并基本语音识别单元对应的语音片段得到基本考察单元的语音片断，包括：将相邻音素单元片断合并构成基于音节的基本考察单元的语音片断。

通过执行上述步骤S111~S114实现了将语音信号切分为基本考察单元的一种具体操作。

步骤S12，根据预置的简谱，确定简谱中的音符与基本考察单元的对应关系。

其中，对步骤S12一种具体实现方式，如图5所示：

步骤S121，获取用户输入的语音信号所对应的基本考察单元的个数K;

步骤S122，获得简谱子片断序列；

系统预先在歌曲库制作时根据原歌曲的歌词将简谱划分为多个简谱子片段，每个子片段可以表达完整歌词意义，例如，将《爱你一万年》这首歌中的每句歌词，作为子片段。该子片段可以是划分好存储在设备中。

步骤S123，依次统计每个子片段中音符的个数M；

步骤S124，判断当前子片段中音符的个数M是否大于基本考察单元的个数K，

步骤S125，如果M大于K，具体可以是根据如下式子（1）获得参数r，即对M与K的比值下取整，即

步骤S126，将基本考察单元序列复制r遍顺序拼接，其中，复制后的总的基本考察单元个数为rK，满足rK<=M；

步骤S127，将复制后的rK个基本考察单元，与简谱子片段中的M个音符的线性对齐方法可以参考如下式子（2），

NotIdx_j=[j*rK/M] (2)

其中，NotIdx_j表示简谱子片段组合中第j个音符所对应基本考察单元的序号，即j*rK/M四舍五入取整。

若步骤S124中判断出当前音符子片段中音符个数M是小于基本考察单元个数K，即M<K时，执行步骤S128，判断该简谱是否结束，如果该简谱还未结束，则执行步骤S129，将简谱中后一个子片段与当前的子片段联合，与基本考察单元序列进行对应。具体的对应的方法与上述步骤S124~S127相同。

通过执行步骤S128与S129，使得当简谱子片段中的音符个数小于基本考察单元的个数时，考虑将下一个子片段中音符合并，使得合并后的子片段中音符个数大于基本考察单元的个数，进行对应。

若步骤S128中判断出该简谱结束，且此时子片段中的音符的个数小于基本考察单元的个数，执行步骤S130，将当前音符子片段中的音符与基本考察单元一一对应后，删除未对应上的基本考察单元。

对于一整首歌，设备可以以简谱中的子片段为单位，重复上述步骤S121~S130将整首歌中的简谱音符与基本考察单元进行对齐。

步骤S13，根据简谱中音符的音高，和步骤S12中确定的简谱中的音符与基本考察单元的对应关系，确定每个基本考察单元的目标基频值。

其中，确定每个基本考察单元的目标基频值的具体操作可以是参考如下式（1）：

F0_rule=440*2^(p-69)/12 （1）

其中，F0_rule为目标基频值，440表示中央C上A音符发出的频率（单位为HZ），p为基本考察单元所对应的音符的音高与中央C上A音符的距离，单位为半音。

优选的，考虑到不同发音人音域上存在差异，在演唱相同歌曲时选择的基调也往往并不一致，如果直接根据目标基频值对基本考察单元进行优化，容易导致发音变声等现象，影响合成效果。因此，本发明实施例还提供如下操作，可以根据不同发音人的音域特点对确定的目标基频值进行优化，使其自适应于发音人的发音特点。

步骤S14,根据发音人的音域特点，对所述基本考察单元的目标基频值进行调整。

其中，对步骤S14一种具体实现方式，如图6所示：

步骤S141，对确定的每个基本考察单元的目标基频值进行升降调处理，获取在不同基调下的对应基频值；

其中，步骤S141中对确定的每个基本考察单元的目标基频值进行升降调处理，是为了获取更广音域的基频序列。具体的升降调处理可以包括：遍历-N~+N（单位为半音）基调，结合之前生成的F0_rule，参考如下式（2），得到新的基频F0_new_bt：

F0_new_bt=F0_rule*2^bt/12 （2）

因此，进行升降调处理后的每个基本考察单元都得到了2N+1个调整基频值，其中，bt的取值为（-N~+N）。

考虑计算量和计算效果，本实施例中优选的设置参数N为15，但是不应该理解为对本发明实施例的限制。

步骤S142，获取不同基调下的基本考察单元序列的调整基频值序列；

步骤S143，提取每个基本考察单元的语音片断的基频特征序列，并计算平均，生成基频特征值F0_nat。

步骤S144,获取基本考察单元序列的语音片段的基频特征值序列；

步骤S145，计算不同基调下的基本考察单元序列的调整基频值序列，与提取的基本考察单元序列的语音片断的基频特征值序列之间的差值；即参考式（3）所示，

RMSE_bt表示在确定基调bt下的调整基频值序列和基频特征值序列的差值，其中K表示基本考察单元的个数，F0_new_bt，i是第i个基本考察单元的调整基频值，F0_nat i是第i个基本考察单元的语音片段的基频特征值。bt的取值为（-N~+N）。

步骤S146，根据步骤S145中计算出的差值，选择使得差值最小的基调下的各基本考察单元的调整基频值作为相应优化的目标基频值，记为F0_use。

通过执行上述步骤S141至步骤S146，使得本发明实施例提供的方法可以根据不同发音人的音域特点对确定的目标基频值进行优化，使其自适应于发音人的发音特点，从而提供更好的用户体验。

步骤S15，根据简谱中音符的节拍数，和步骤S12中确定的简谱中的音符与基本考察单元的对应关系，确定每个基本考察单元的目标时长。

其中，步骤S15的具体操作参考图7a所示，可以包括：

步骤S151，根据简谱中音符的节拍数，和步骤S12中获取的简谱中的音符与基本考察单元的对应关系，获得每个基本考察单元对应的节拍数。

需要理解的是，计算每个基本考察单元对应的节拍数，可以是根据基本考察单元和简谱中音符的对应关系，和简谱中音符的节拍数，统计获得每个基本考察单元对应的节拍数。如图7b所示，例如：假设“雪”音节对应音符“3”，则“雪”对应的节拍数为1/2拍。

步骤S152，根据确定的每个基本考察单元对应的节拍数，和简谱中描述的节奏，获取每个基本考察单元的目标时长。

其中，获取每个基本考察单元的目标时长的具体操作，可以参考式（4）所示，计算获得。

d_use=60/tempo*d_note （4）

其中，d_use为基本考察单元的目标时长，单位为秒，tempo为简谱中描述的节奏，即每分钟含有的拍数，d_note为步一统计得到的所述基本考察单元对应的节拍数。

步骤S16，对输入的语音进行调整，使得调整后的语音的基频为获取的目标基频，调整后的语音的时长为目标时长。

其中，步骤S16的具体操作可以是采用PSOLA算法对输入的语音进行时长和基频的调整，使各基本考察单元的语音片段均满足各自对应的所述的目标时长d_use和目标基频F0_use的调整目标。若未对获取的目标基频值进行优化，也可将未优化的目标基频值作为调整的标准。

进一步，本发明实施例提供的技术方案，可以对任意长度及任意内容的说话语音向任意歌曲的唱歌语音转换也就是说本案不局限于对特定歌曲的歌词输入，而是允许用户输入任意内容，实现任意歌曲的转换。

再次，本发明实施例提供的技术方案，可以实现自动语音切分，避免了传统人工切分的负担，不受语种的限制，具有更普遍的娱乐效果。

实施例三

如图8所示，一种实现语音歌唱化的装置示意简图，该装置可以包括：接收单元801，切分单元802，获取对应关系单元803，获取基频单元804，获取时长单元805，和调整单元806；

接收单元801，用于接收用户输入的语音信号；

所述切分单元802，用于将所述语音信号切分获得各基本考察单元的语音片断；

所述获取对应关系单元803，用于确定简谱中的各音符与所述各基本考察单元的对应关系；

所述获取基频单元804，用于根据简谱中各音符的音高，和所述对应关系，分别确定其所对应的基本考察单元的目标基频值；

所述获取时长单元805，用于根据简谱中各音符的节拍数，和所述对应关系，分别确定其所对应的基本考察单元的目标时长；

所述调整单元806，用于根据所述目标基频值和目标时长调整各基本考察单元的语音片断，使得调整后的语音片段的基频为所述目标基频值，调整后的语音片段的时长为所述目标时长。

本发明实施例提供的一种实现语音歌唱化的装置，在确定简谱中的音符与基本考察单元的对应关系后，可以根据简谱中各音符的音高，和简谱中各音符的节拍数，确定每个基本考察单元的目标基频值，和每个基本考察单元的目标时长；随后对每个基本考察单元的对应语音片断进行调整使得调整后的语音的基频为确定的目标基频值，调整后的语音的时长为确定的目标时长。因此，该方法通过对输入的语音信号波形直接进行调整，避免了多次信号转换的损失；且本发明实施例提供的技术方案，可以对任意长度及任意内容的用户语音输入向任意歌曲的唱歌语音转换；也就是说本案不局限于对特定歌曲的歌词输入，而是允许用户输入任意内容，实现任意歌曲的转换。

进一步，如图9所示，所述切分单元802还可以包括：

提取单元8021，确定单元8022，和合并单元8023；

所述提取单元8021，用于从语音信号中逐帧提取语音声学特征矢量，生成声学特征矢量序列；

所述确定单元8022，用于对所述声学特征矢量序列执行语音识别，确定基本语音识别单元模型序列及各基本语音识别模型对应的语音片段；

当在从语音信号中提取声学特征矢量之后，具体可以是MFCC参数，根据所述MFCC参数和预设HMM模型可以识别得到静音片段段，浊音片段以及清音片段的模型序列，并且，将所述语音信号切片为：静音片段，浊音片段，和清音片段。

所述合并单元8023；用于合并所述基本语音识别单元对应的语音片段得到基本考察单元的语音片段。

当基本语音识别模型包括：静音识别模型，浊音识别模型和清音识别模型三种；则合并基本语音识别单元对应的语音片段得到基本考察单元的语音片断，具体包括：将浊音片断和清音片断合并构成基本考察单元的语音片断。

由于确定的语音片段的单元相应于音符往往过小，因而不能和简谱的音符很好的对应。本发明实施例还考虑根据实际需要对模型语音片断进行合并，构成基本考察单元。具体操作可以是：将每个浊音片断和其之前的清音片断合并构成新的基本考察单元。

进一步，如图10所示，所述获取对应关系单元803具体包括：第一统计单元8031，第一获取单元8032，第二统计单元8033，第一判断单元8034，第二获取单元8035，复制单元8036，对齐单元8037；

所述第一统计单元8031，用于获取用户输入的语音信号所对应的基本考察单元的个数K;

所述第一获取单元8032，用于获得简谱子片断序列；

所述第二统计单元8033，用于依次统计每个子片段中音符的个数M；

所述第一判断单元8034，用于判断当前子片段中音符的个数M是否大于所述基本考察单元个数K；

所述第二获取单元8035，用于如果M大于K，根据如下式子获取参数r，

所述复制单元8036，用于将基本考察单元序列复制r遍顺序拼接，其中，复制后的总的基本考察单元个数为rK，满足rK<=M；

所述对齐单元8037，用于将所述复制后的rK个基本考察单元，与所述简谱子片段中的M个音符进行线性对齐。

优选的，所述对齐单元8037，具体用于根据公式：NotIdx_j＝[j*rK/M]，将所述复制后的rK个基本考察单元，与所述简谱子片段中的M个音符，进行线性对齐；

所述NotIdx_j表示简谱子片段中第j个音符所对应基本考察单元的序号。

优选的，所述装置还包括：第二判断单元，

所述第二判断单元，用于判断所述简谱是否结束；

所述对齐单元8037，具体用于若所述简谱未结束，将所示简谱中后一个子片段与当前的子片段联合，与基本考察单元进行对应；若判断所述简谱结束，将当前音符子片段中的音符与基本考察单元一一对应后删除未对应上的基本考察单元。

优选的，所述获取基频单元：具体用于根据公式F0_rule=440*2^(p-69)/12，计算所述音符音高对应的目标基频值，作为对应的基本考察单元的目标基频值；其中F0_rule为目标基频值，440表示中央C上A音符发出的频率，p为当前简谱中标注的音高与中央C上A音符的距离。

优选的，如图11所示，所述装置还包括：调整基调单元807，用于根据发音人的音域特点，对所述获取的目标基频值进行调整；

所述调整基调单元807具体包括：第三获取单元8071，第四获取单元8072，生成单元8073，第五获取单元8074，第六获取单元8075，选择单元8076；

第三获取单元8071，用于对每个基本考察单元的目标基频值进行升降调处理，获取在不同基调下的调整基频值；

第四获取单元8072，用于获取在不同基调下的基本考察单元序列的调整基频值序列；

生成单元8073，用于提取每个基本考察单元的语音片断的基频特征序列，并计算平均，生成基频特征值；

第五获取单元8074，用于获取基本考察单元序列的语音片段的基频特征值序列；

第六获取单元8075，用于计算不同基调下的基本考察单元序列的调整基频值序列，与提取的基本考察单元序列的语音片断的基频特征值序列之间的差值；

选择单元8076，用于选择使得差值最小的基调下的各基本考察单元的调整基频值作为相应优化的目标基频值。

优选的，如图12所示，所述获取时长单元805具体包括：获取节拍数单元8051，和获取目标单元8052，

所述获取节拍数单元8051，用于根据简谱中音符的节拍数，和所述简谱中的音符与基本考察单元的对应关系，获得每个基本考察单元对应的节拍数，

所述获取目标单元8052，用于根据获取的每个基本考察单元对应的节拍数，和所述简谱中描述的节奏，获取每个基本考察单元的目标时长。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上对本发明所提供的一种实现语音歌唱化的方法和装置进行了详细介绍，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种实现语音歌唱化的方法，其特征在于，所述方法包括：

接收用户输入的语音信号；

将所述语音信号切分获得各基本考察单元的语音片断；

根据所述目标基频值和目标时长调整各基本考察单元的语音片断，使得调整后的语音片段的基频为所述目标基频值，调整后的语音片段的时长为所述目标时长，以得到所述语音信号向唱歌语音的转换结果。

2.根据权利要求1所述的方法，其特征在于，所述将所述语音信号切分获得各基本考察单元的语音片断，具体包括：

从语音信号中逐帧提取语音声学特征矢量，生成声学特征矢量序列；

对所述声学特征矢量序列执行语音识别，确定基本语音识别单元模型序列及各基本语音识别单元模型对应的语音片段；

合并所述基本语音识别单元模型对应的语音片段得到基本考察单元的语音片段。

3.根据权利要求2所述的方法，其特征在于，

所述基本语音识别单元模型，包括：静音识别模型，浊音识别模型和清音识别模型三种；

所述合并基本语音识别单元模型对应的语音片段得到基本考察单元的语音片断，包括：将浊音片断和清音片断合并构成基本考察单元的语音片断。

4.根据权利要求2所述的方法，其特征在于，

所述基本语音识别单元模型，包括：各音素识别模型或音节识别模型；

所述合并基本语音识别单元模型对应的语音片段得到基本考察单元的语音片断，包括：将相邻音素单元片断合并构成基于音节的基本考察单元的语音片断。

5.根据权利要求1所述的方法，其特征在于，所述根据预置的简谱，确定简谱中的音符与基本考察单元的对应关系，具体包括：

获取用户输入的语音信号所对应的基本考察单元的个数K；

获得简谱子片断序列；

依次统计每个子片段中音符的个数M；

判断当前子片段中音符的个数M是否大于所述基本考察单元个数K，如果M大于K，根据如下式子获取参数r，

将基本考察单元序列复制r遍顺序拼接，其中，复制后的总的基本考察单元个数为rK，满足rK<＝M；

将所述复制后的rK个基本考察单元，与所述简谱子片段中的M个音符进行线性对齐。

6.根据权利要求5所述的方法，其特征在于，所述将所述复制后的rK个基本考察单元，与所述简谱子片段中的M个音符，进行线性对齐，具体包括：

根据公式：NotIdx_j＝[j*rK/M]，将所述复制后的rK个基本考察单元，与所述简谱子片段中的M个音符，进行线性对齐；

所述NotIdx_j表示简谱子片段中第j个音符所对应基本考察单元的序号，[j*rK/M]表示对j*rK/M四舍五入取整。

7.根据权利要求5所述的方法，其特征在于，当判断当前音符子片段中音符总个数M小于基本考察单元个数K，即M<K时，所述方法还包括：

判断所述简谱是否结束，如果未结束，将所示简谱中后一个子片段与当前的子片段联合，与基本考察单元进行对应；

若判断所述简谱结束，将当前音符子片段中的音符与基本考察单元一一对应后删除未对应上的基本考察单元。

8.根据权利要求1所述的方法，其特征在于，所述根据简谱中各音符的音高，和所述对应关系，确定其所对应的基本考察单元的目标基频值，包括：

根据公式F0_rule＝440*2^(p-69)/12，计算所述音符音高对应的目标基频值，作为对应的基本考察单元的目标基频值；其中F0_rule为目标基频值，440表示中央C上A音符发出的频率，p为当前简谱中标注的音高与中央C上A 音符的距离。

9.根据权利要求8所述的方法，其特征在于，在获取基本考察单元的目标基频值后，还包括：

根据发音人的音域特点，对所述基本考察单元的目标基频值进行调整；

在获取基本考察单元的目标基频值后，还根据发音人的音域特点，对所述基本考察单元的目标基频值进行优化，具体包括：

对每个基本考察单元的目标基频值进行升降调处理，获取在不同基调下的调整基频值；

获取在不同基调下的基本考察单元序列的调整基频值序列；

提取每个基本考察单元的语音片断的基频特征序列，并计算平均，生成基频特征值；

获取基本考察单元序列的语音片段的基频特征值序列；

计算不同基调下的基本考察单元序列的调整基频值序列，与提取的基本考察单元序列的语音片断的基频特征值序列之间的差值；

选择使得差值最小的基调下的各基本考察单元的调整基频值作为相应优化的目标基频值。

10.根据权利要求1所述的方法，其特征在于，所述根据简谱中音符的节拍数，和所述对应关系，确定其所对应的基本考察单元的目标时长，具体包括：

根据简谱中音符的节拍数，和所述简谱中的音符与基本考察单元的对应关系，获得每个基本考察单元对应的节拍数，

根据获取的每个基本考察单元对应的节拍数，和所述简谱中描述的节奏，获取每个基本考察单元的目标时长。

11.一种实现语音歌唱化的装置，其特征在于，该装置包括：接收单元，切分单元，获取对应关系单元，获取基频单元，获取时长单元，和调整单元；

所述接收单元，用于接收用户输入的语音信号；

所述调整单元，用于根据所述目标基频值和目标时长调整各基本考察单元的语音片断，使得调整后的语音片段的基频为所述目标基频值，调整后的语音片段的时长为所述目标时长，以得到所述语音信号向唱歌语音的转换结果。

12.根据权利要求11所述的装置，其特征在于，所述切分单元包括：

提取单元，确定单元，和合并单元；

所述提取单元，用于从语音信号中逐帧提取语音声学特征矢量，生成声学特征矢量序列；

所述确定单元，用于对所述声学特征矢量序列执行语音识别，确定基本语音识别单元模型序列及各基本语音识别单元模型对应的语音片段；

所述合并单元；用于合并所述基本语音识别单元模型对应的语音片段得到基本考察单元的语音片段。

13.根据权利要求12所述装置，其特征在于，

14.根据权利要求12所述装置，其特征在于，

15.根据权利要求11所述的装置，其特征在于，所述获取对应关系单元具体包括：第一统计单元，第一获取单元，第二统计单元，第一判断单元，第二获取单元，复制单元，对齐单元；

所述第一统计单元，用于获取用户输入的语音信号所对应的基本考察单元的个数K；

所述第一获取单元，用于获得简谱子片断序列；

所述第二统计单元，用于依次统计每个子片段中音符的个数M；

所述第一判断单元，用于判断当前子片段中音符的个数M是否大于所述基本考察单元个数K；

所述第二获取单元，用于如果M大于K，根据如下式子获取参数r，

所述复制单元，用于将基本考察单元序列复制r遍顺序拼接，其中，复制后的总的基本考察单元个数为rK，满足rK<＝M；

所述对齐单元，用于将所述复制后的rK个基本考察单元，与所述简谱子片段中的M个音符进行线性对齐。

16.根据权利要求15所述装置，其特征在于，所述对齐单元，具体用于根据公式：NotIdx_j＝[j*rK/M]，将所述复制后的rK个基本考察单元，与所述简谱子片段中的M个音符，进行线性对齐；

17.根据权利要求15所述装置，其特征在于，所述装置还包括：第二判断单元，

所述第二判断单元，用于判断所述简谱是否结束；

所述对齐单元，具体用于若所述简谱未结束，将所示简谱中后一个子片段与当前的子片段联合，与基本考察单元进行对应；若判断所述简谱结束，将当前音符子片段中的音符与基本考察单元一一对应后删除未对应上的基本考察单元。

18.根据权利要求11所述装置，其特征在于，

所述获取基频单元：具体用于根据公式F0_rule＝440*2^(p-69)/12，计算所述音符音高对应的目标基频值，作为对应的基本考察单元的目标基频值；其中F0_rule为目标基频值，440表示中央C上A音符发出的频率，p为当前简谱中标注的音高与中央C上A音符的距离。

19.根据权利要求18所述装置，其特征在于，所述装置还包括：调整基调单元，用于根据发音人的音域特点，对所述获取的目标基频值进行调整；

所述调整基调单元具体包括：第三获取单元，第四获取单元，生成单元，第五获取单元，第六获取单元，选择单元；

第三获取单元，用于对每个基本考察单元的目标基频值进行升降调处理，获取在不同基调下的调整基频值；

第四获取单元，用于获取在不同基调下的基本考察单元序列的调整基频值序列；

生成单元，用于提取每个基本考察单元的语音片断的基频特征序列，并计算平均，生成基频特征值；

第五获取单元，用于获取基本考察单元序列的语音片段的基频特征值序列；

第六获取单元，用于计算不同基调下的基本考察单元序列的调整基频值序列，与提取的基本考察单元序列的语音片断的基频特征值序列之间的差值；

选择单元，用于选择使得差值最小的基调下的各基本考察单元的调整基频值作为相应优化的目标基频值。

20.根据权利要求11所述的装置，其特征在于，所述获取时长单元具体包括：获取节拍数单元，和获取目标单元，

所述获取节拍数单元，用于根据简谱中音符的节拍数，和所述简谱中的音符与基本考察单元的对应关系，获得每个基本考察单元对应的节拍数，

所述获取目标单元，用于根据获取的每个基本考察单元对应的节拍数，和所述简谱中描述的节奏，获取每个基本考察单元的目标时长。