CN103440862B

CN103440862B - 一种语音与音乐合成的方法、装置以及设备

Info

Publication number: CN103440862B
Application number: CN201310359564.XA
Authority: CN
Inventors: 蒋金峰
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2013-08-16
Filing date: 2013-08-16
Publication date: 2016-03-09
Anticipated expiration: 2033-08-16
Also published as: CN103440862A

Abstract

本发明实施例提供了一种语音与音乐合成的方法、装置以及设备，其中，所述方法包括：获得输入的语音数据以及背景音乐数据；从所述语音数据识别出组成所述语音数据的一个或多个单字或单词，获得所述一个或多个单字或单词的音调及持续时长；获取所述背景音乐数据的音调及持续时长；按照所述背景音乐数据的音调及持续时长，对所述一个或多个单字或单词的音调及持续时长进行变速和/或变调处理；将所述处理后的语音数据及背景音乐数据合成为新的音频文件。本发明实施例可以将各个孤立的语音数据和音乐数据完美地“融合”在一起，将单调的语音数据赋予音乐属性，提高整个语流的质量，满足用户日益提高和变化的语音与音乐合成的需求。

Description

一种语音与音乐合成的方法、装置以及设备

技术领域

本发明实施例涉及语音合成的技术领域，特别是涉及一种语音与音乐合成的方法，一种语音与音乐合成的装置，以及，一种设备。

背景技术

随着电子技术的发展，用户常有将语音与音乐进行合成的需求。已有技术中普通采用的是波形拼接技术（或称波形合成技术）。波形拼接技术的发展与语音的编、解码技术的发展密不可分，其中LPC技术（线性预测编码技术）的发展对波形拼接技术产生了巨大的影响。LPC技术本质上是一种时间波形的编码技术，目的是为了降低时间域信号的传输速率。LPC技术的优点是简单直观。其合成过程实质上只是一种简单的解码和拼接过程。另外，由于波形拼接技术的合成基元是语音的波形数据，保存了语音的全部信息，因而对于单个合成基元来说能够获得很高的自然度。但是，由于自然语流中的语音和孤立状况下的语音有着极大的区别，如果只是简单地把各个孤立的语音生硬地拼接在一起，其整个语流的质量势必是不太理想的。而LPC技术从本质上来说只是一种录音加重放，对于合成整个连续语流LPC合成技术的效果是不理想的。

中国专利号为200410078189.2，发明名称为“移动通信终端的音乐及语音合成装置及方法”，在2005年8月3日公开了一种可以使用一般波形合成方式，在移动通信终端下载的歌厅用音乐中合成用户的语音并保存，然后进行播放的装置及方法，该专利主要采用了如下音乐与语音合成的机制：

在播放背景音乐数据的同时，将其转换为WAV格式并存储于内部存储器：

把在播放所述音乐的同时通过麦克风输入的用户的语音转换为数字信号，再将数字信号转换为WAV格式，并存储于内部存储器；

合成所述转换为WAV格式的各音乐及语音WAV文件；

把所述合成的音乐及语音WAV文件转换为MIDI文件。

然而，上述处理机制的实质仍然是简单地把各个孤立的用户语音的波形数据和音乐的波形数据生硬地合成在一起，用户语音与音乐仅仅是一种“叠加”，而非“融合”，其整个语流的质量仍然是不太理想的，并且也无法满足用户日益提高和变化的语音与音乐合成的需求，例如，用户希望把自己录制的语音，与音乐融合变成一段说唱音乐（Rap），采用已有技术则完全无法实现。

发明内容

本发明实施例提供了一种语音与音乐合成的方法，用于将各个孤立的语音数据和音乐数据完美地“融合”在一起，将单调的语音数据赋予音乐属性，提高整个语流的质量，满足用户日益提高和变化的语音与音乐合成的需求。

相应的，本发明实施例还提供了一种语音与音乐合成的装置，以及，一种设备，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种语音与音乐合成的方法，包括：

获得输入的语音数据以及背景音乐数据；

从所述语音数据识别出组成所述语音数据的一个或多个单字或单词，获得所述一个或多个单字或单词的音调及持续时长；

获取所述背景音乐数据的音调及持续时长；

按照所述背景音乐数据的音调及持续时长，对所述一个或多个单字或单词的音调及持续时长进行变速和/或变调处理；

将所述处理后的语音数据及背景音乐数据合成为新的音频文件。

可选地，在所述将处理后的语音数据及背景音乐数据合成为新的音频文件的步骤之前，还包括：

针对所述变速和/或变调处理后的语音数据进行特效处理，所述特效处理包括：回音特效处理，和/或，T-Pain特效处理。

可选地，所述从语音数据识别出组成所述语音数据的一个或多个单字或单词，获得所述一个或多个单字或单词的音调及持续时长的步骤包括：

从所述语音数据中检测出一段或多段连续语音数据；

分别识别出所述一段或多段连续语音数据中的一个或多个单字或单词；

获得所述一个或多个单字或单词的音调及持续时长。

可选地，所述从语音数据中检测出一段或多段连续语音数据的步骤包括：

对所述输入的语音数据进行去噪处理；

针对经过所述去噪处理的语音数据进行端点检测，提取其中连续语音信号的起始点和结束点；

依据所有连续语音信号的起始点和结束点，确定所述语音数据中的一段或多段连续语音数据。

可选地，所述分别识别出一段或多段连续语音数据中的一个或多个单字或单词的步骤包括：

分别针对所述一段或多段连续语音数据，按照预设的短时能量阈值分割出单字或单词；

当存在无法分割出的连词时，采用如下方式将所述连词分割成单字或单词：

采用短时过零率检测算法分割所述连词中的清音和浊音，获得单字或单词；

和/或，

计算所述分割出的单字或单词的平均持续时长；

采用所述平均持续时长对所述连词进行分割，获得单字或单词。

可选地，所述单字为单个中文字符，所述单词为具有特定语义的中文词，或，不具有特定语义的单个中文字符的组合。

可选地，所述获取背景音乐数据的音调及持续时长的步骤包括：

获取背景音乐数据的乐谱数据；

分析所述乐谱数据，获得所述背景音乐数据的音调及持续时长。

可选地，所述变速处理为，将所述语音数据的语速在音调不变的情况下拉长或减慢。

可选地，所述按照背景音乐数据的音调及持续时长，对所述一个或多个单字或单词的音调及持续时长进行变速处理的步骤包括：

按照所述背景音乐数据各音调的持续时长，分别计算对应的一个或多个单字或单词的持续时长的调整幅度；

依据所述持续时长的调整幅度采用波形相似叠加算法调整所述一个或多个单字或单词的持续时长；

可选地，所述变调处理为，所述语音数据的音调在语速不变的情况下变成趋于女性声音频率甚至更高频率，或者，变成趋于男性声音频率甚至更低频率。

可选地，所述按照背景音乐数据的音调及持续时长，对所述一个或多个单字或单词的音调及持续时长进行变调处理的步骤包括：

将所述一个或多个单字或单词的音调转换成频率；

按照所述背景音乐数据的音调，分别计算对应的一个或多个单字或单词的音调的调整幅度；

分别根据所述音调的调整幅度对所述频率进行线性插值，获得所述一个或多个单字或单词的调整后的音调，所述调整后的音调中包括调高的音调；

按照预设放大系数增加所述调高的音调的音量。

本发明实施例还公开了一种语音与音乐合成的装置，包括：

获取模块，用于获得输入的语音数据以及背景音乐数据；

语音单字检测模块，用于从所述语音数据识别出组成所述语音数据的一个或多个单字或单词，获得所述一个或多个单字或单词的音调及持续时长；

音乐检测模块，用于获取所述背景音乐数据的音调及持续时长；

语音变速变调处理模块，用于按照所述背景音乐数据的音调及持续时长，对所述一个或多个单字或单词的音调及持续时长进行变速和/或变调处理；

合成模块，用于将所述处理后的语音数据及背景音乐数据合成为新的音频文件。

可选地，所述的装置，还包括：

语音特效处理模块，连接在所述语音变速变调处理模块与所述合成模块之间，用于针对所述变速和/或变调处理后的语音数据进行特效处理，所述特效处理包括：回音特效处理，和/或，T-Pain特效处理。

可选地，所述语音单字检测模块包括：

连续语音段检测子模块，用于从所述语音数据中检测出一段或多段连续语音数据；

单字识别子模块，用于分别识别出所述一段或多段连续语音数据中的一个或多个单字或单词；

单字音调时长获取子模块，获得所述一个或多个单字或单词的音调及持续时长。

可选地，所述连续语音段检测子模块包括：

去噪单元，用于对所述输入的语音数据进行去噪处理；

端点检测单元，用于针对经过所述去噪处理的语音数据进行端点检测，提取其中连续语音信号的起始点和结束点；

语音段提取单元，用于依据所有连续语音信号的起始点和结束点，确定所述语音数据中的一段或多段连续语音数据。

可选地，所述单字识别子模块包括：

单字分割单元，分别针对所述一段或多段连续语音数据，按照预设的短时能量阈值分割出单字或单词；

连词分割单元，用于在存在无法分割出的连词时，采用如下方式将所述连词分割成单字或单词：

和/或，

计算所述分割出的单字或单词的平均持续时长；

可选地，所述音乐检测模块包括：

乐谱获取子模块，用于获取背景音乐数据的乐谱数据；

乐谱分析子模块，用于分析所述乐谱数据，获得所述背景音乐数据的音调及持续时长。

可选地，所述语音变速变调处理模块包括：

时长调整幅度计算子模块，用于按照所述背景音乐数据各音调的持续时长，分别计算对应的一个或多个单字或单词的持续时长的调整幅度；

波形相似叠加算法调整子模块，用于依据所述持续时长的调整幅度采用波形相似叠加算法调整所述一个或多个单字或单词的持续时长；

可选地，所述语音变速变调处理模块包括：

频率转换子模块，用于将所述一个或多个单字或单词的音调转换成频率；

音调调整幅度计算子模块，用于按照所述背景音乐数据的音调，分别计算对应的一个或多个单字或单词的音调的调整幅度；

线性插值子模块，用于分别根据所述音调的调整幅度对所述频率进行线性插值，获得所述一个或多个单字或单词的调整后的音调，所述调整后的音调中包括调高的音调；

音量放大子模块，用于按照预设放大系数增加所述调高的音调的音量。

本发明实施例还公开了一种设备，包括：

一个或多个处理器；

存储器；和

一个或多个模块，所述一个或多个模块存储于所述存储器中并被配置成由所述一个或多个处理器执行，其中，所述一个或多个模块具有如下功能：

获得输入的语音数据以及背景音乐数据；

获取所述背景音乐数据的音调及持续时长；

与背景技术相比，本发明实施例包括以下优点：

第一，本发明实施例通过对用户输入的语音数据中的单字或单词进行识别分析，获得各个单字或单词的音调及持续时长；同时，还会获取用户选择的背景音乐数据的音调及持续时长，然后按照所述背景音乐数据的音调及持续时长，对语音数据的各个单字或单词的音调及持续时长进行变速和/或变调处理；从而使得各个孤立的用户语音数据和背景音乐数据完美融合，从而提高整个融合的语流的质量，满足用户日益提高和变化的语音与音乐合成的需求，提升用户的使用体验。

第二，采用本发明优选提供的端点检测算法进行单字或单词的识别无需存入庞大的中文字库，能大大节省计算机设备的存储资源，提高其读写性能，其算法过程相比于应用这种复杂的语音识别算法也更为简单和快速，更能节省计算机设备的性能资源和提高处理效率，尤其适用于在移动终端上的实现，其识别精度也足以满足用户需求。

第三，本发明实施例还可以进一步增加针对所述变速和/或变调处理后的语音数据进行特效处理的步骤，以使用户获得更佳的使用体验。

附图说明

图1是本发明实施例提供的一种语音与音乐合成的方法实施例1的步骤流程图；

图2是一种波形相似叠加算法WSOLA的时长调整算法图；

图3是本发明实施例提供的一种采用波形相似叠加算法调整语音数据的一个或多个单字或单词的持续时长的示意图；

图4是本发明实施例提供的一种语音与音乐合成的方法实施例2的步骤流程图；

图5是本发明实施例提供的一种语音与音乐合成的装置实施例1的结构框图；

图6是本发明实施例提供的一种语音与音乐合成的装置实施例2的结构框图；

图7是本发明实施例提供的一种终端设备结构示意图。

具体实施方式

为使本发明实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明实施例作进一步详细的说明。

本发明实施例的核心构思之一在于，通过对用户输入的语音数据中的单字或单词进行识别分析，获得各个单字或单词的音调及持续时长；同时，还会获取用户选择的背景音乐数据的音调及持续时长，然后按照所述背景音乐数据的音调及持续时长，对语音数据的各个单字或单词的音调及持续时长进行变速和/或变调处理；从而使得各个孤立的用户语音数据和背景音乐数据完美融合，从而提高整个融合的语流的质量，满足用户日益提高和变化的语音与音乐合成的需求，提升用户的使用体验。

方法实施例一：

参照图1，示出了本发明实施例提供的一种语音与音乐合成的方法实施例1的步骤流程图，具体可以包括如下步骤：

步骤101，获得输入的语音数据以及背景音乐数据；

在本发明实施例中，所述语音数据可以理解为不要求具有规律性，语音和语速可以变化无常的人们说话所形成的语音数据；所述背景音乐数据可以理解为具有一定节奏和有规律的音调的组合形成的音乐数据。本发明实施例中所指“背景音乐数据”实质上就是“音乐数据”，加入“背景”二字仅用于强调其作为语音数据合成的背景，而并非意指其具有某种技术上的特性。

在具体实现中，所述语音数据可以为用户通过录音设备和录音软件传输至计算机设备中的语音数据，例如，用户按下移动终端（如手机，平板计算机设备等）上的“录音”控件录制自己所说的一段话语而形成在移动终端中的语音数据；或如，用户通过话筒（或称麦克风）和录音软件录制自己所说的一段话语而形成在PC中的语音数据。所述语音数据还可以为用户采用其它方式存储至计算机设备中的语音数据，如从外部存储介质导入的语音数据，从网上下载的语音数据等，本发明对此不作限制。在实际中，所述语音数据可以为一段连续的语音数据，也可以为一段非连续的语音数据，还可以为包含多段连续语音数据和/或非连续语音数据的组合，本发明对此亦不作限制。

相应地，所述背景音乐数据也可以为用户采用任一种方式存储至计算机设备中的音乐数据，如从外部存储介质导入的音乐数据，从网上下载或缓存的音乐数据等，本发明对此亦不作限制。在实际中，所述背景音乐数据优选为单个音乐文件，应用本发明实施例并非无法实现多个音乐文件与语音数据的融合，只是从用户感官体验角度而言，多个音乐文件与语音数据的融合势必嘈杂，混乱，并不符合用户的实际需求。

步骤102，从所述语音数据识别出组成所述语音数据的一个或多个单字或单词，获得所述一个或多个单字或单词的音调及持续时长；

在本发明的一种优选实施例中，所述步骤102可以包括如下子步骤：

子步骤S11，从所述语音数据中检测出一段或多段连续语音数据；

子步骤S12，分别识别出所述一段或多段连续语音数据中的一个或多个单字或单词；

子步骤S13，获得所述一个或多个单字或单词的音调及持续时长。

作为本发明实施例具体应用的一种示例，所述子步骤S11可以进一步包括如下子步骤：

子步骤S111，对所述输入的语音数据进行去噪处理；

子步骤S112，针对经过所述去噪处理的语音数据进行端点检测，提取其中连续语音信号的起始点和结束点；

子步骤S113，依据所有连续语音信号的起始点和结束点，确定所述语音数据中的一段或多段连续语音数据。

作为本发明实施例具体应用的一种示例，所述子步骤S12可以进一步包括如下子步骤：

子步骤S121，分别针对所述一段或多段连续语音数据，按照预设的短时能量阈值分割出单字或单词；

子步骤S122，当存在无法分割出的连词时，采用如下方式将所述连词分割成单字或单词：

和/或，

计算所述分割出的单字或单词的平均持续时长；

在具体实现中，本发明实施例可以通过端点检测来从语音数据中检测出一段或多段连续语音数据，以及，从所述一段或多段连续语音数据中识别出单字或单词。

所谓端点检测就是将输入的语音信号从背景噪声和环境噪声中准确地判断出语音信号中各种段落的开始点和结束点。端点检测本质上是通过语音和噪声对于相同参数所表现出的不同特征来区分两者的。语音端点检测的一般流程通常包括预处理，参数提取，端点判决和后处理四个步骤，其中预处理通常包括分帧和预滤波等。分帧是指将语音信号分段（称为语音帧，各帧通常是有交叠的），预滤波一般是指采用高通滤波器滤除低频噪声；参数提取是指选取可以反映语音和噪声差别的特征参数；端点判决是指采用一种判决准则（如门限判决或模式分类等）来区分语音帧与非语音帧；后处理是指对上述判决结果进行平滑滤波等处理，得到最终的语音端点判决结果。

在语音端点检测的流程中，参数提取和端点判决是两个关键步骤。参数提取是指选取能够反映语音和噪声差别的特征参数，是以语音和噪声的特性为基础。语音信号是一种典型的非平稳信号。但是，语音的形成过程是与发音器官的运动密切相关的，这种物理运动比起声音振动速度要缓慢得多，因此语音信号常常可假定为短时平稳的。语音可粗略分为清音和浊音两大类。浊音在时域上呈现出明显的周期性，在频域上出现共振峰，而且能量大部分集中在较低频段内。但清音段相对于很大一类噪声没有明显的时域和频域特征，类似于白噪声。在语音端点检测中，可利用浊音的周期性特征，而清音则难以与宽带噪声区分。噪声来源于实际的应用环境，因而其特性变化无穷。混入语音中的噪声可以是加性的，也可以是非加性的。考虑到加性噪声更普遍且易于分析问题，并且对于非加性噪声，有些可以通过一定变换转换为加性噪声。端点判决通常是通过门限判决的方式实现的，即设定一定的判决门限，当所提参数大于（小于）该门限时认为是语音，而小于（大于）该门限时认为是噪声。

在本发明实施例中，优选采用基于短时能量和短时过零率进行端点检测。在采用端点检测算法检测一段或多段连续语音数据时，可以以短时能量检测为主，短时过零率检测为辅。根据语音的统计特性，可以把语音段分为清音、浊音以及静音（包括背景噪声）三种。短时能量检测可以较好地区分出浊音和静音。对于清音，由于其能量较小，在短时能量检测中会因为低于能量门限而被误判为静音；短时过零率则可以从语音中区分出静音和清音。将两种检测结合起来，就可以检测出语音段（清音和浊音）及静音段。

例如，在用户发声前获取背景噪音的输入，并检测所述背景噪音的平均幅值ave_noise，以及，通过短时能量检测得到短时平均能量ave_noise。然后，在用户发声后获取包含背景噪音的语音数据的输入，并检测该输入语音数据的幅值，若该幅值小于前述ave_noise，则将该值置0。上述去噪处理过程即可以把背景噪音置为0，同时保留了用户的发声语音信号。然后，针对经过所述去噪处理的语音数据采用短时能量和短时过零率进行端点检测，并参考语句之间停顿时长的经验值T和短时能量判决阈值K1，即可检测出语音段及静音段。需要说明的是，在采用端点检测算法检测一段或多段连续语音数据时，所述短时能量判决阈值K1可以设置得较为宽松，例如，设置短时能量判决阈值K1为5，当检测到某个语音段为静音段时，则要维持5个语音段都是静音段，才判定为真正的静音段。

在采用端点检测算法检测连续语音数据中的单字或单词时，可以设置较为严格的短时能量判决阈值K2，即针对上一步检测出的一段或多段连续语音数据，按照该短时能量阈值K2分割出单字或单词；例如，设置短时能量判决阈值K2为2，当检测到某个语音段为静音段时，则维持2个语音段都是静音段，就判定为真正的静音段，即就认为是两个单字或单词语音段的间隔，从而将连续语音数据中的单字或单词逐个识别出来。

在实际中往往会存在无法分割出的连词（例如，有3个以上的单个字符相连），在这种情况下，采用短时过零率检测可以分割所述连词中的清音和浊音，获得单字或单词；如果还存在无法分割出的连词，可以利用计算好的分割出的单字或单词的平均持续时长ave_time，将所述连词进一步分割，获得单字或单词。

需要说明的是，在本发明实施例中，所述单字为单个中文字符，所述单词为具有特定语义的中文词，或，不具有特定语义的单个中文字符的组合。

本发明实施例采用语音端点检测算法简单实现了从所述语音数据识别出组成所述语音数据的一个或多个单字或单词的处理，而无需采用复杂的语音识别算法，例如，一种现有的语音识别算法是将语音信号经过相同的通道得到语音特征参数，生成测试模板，与参考模板进行匹配，将匹配分数最高的参考模板作为识别结果。就是人的声音（语音）经麦克风传入计算机设备的识别软件，软件自动提取人声（字、词的发音）的特征参数并与计算机设备里预存并建立的每个字或单词的语音特征参数模型进行匹配，将匹配最接近语音特征的模板作为识别结果。例如，计算机设备里预存有“我”的发音“wo”的特征参数，该特征参数与计算机设备内部预存的的单字“我”对应。当人的声音“wo”经麦克风传入计算机设备的识别软件，识别软件就自动提取“wo”的特征参数并与计算机设备里预存的“我”的发音“wo”的特征参数进行分析、比较、寻找和匹配，找到并匹配成功后，识别软件获得“我”的文本匹配结果。从识别过程来看，首先计算机设备内部必须预存有该单词（或单字），其次计算机设备内部必须预存有该单词（或单字）的语音特征参数。我们知道，汉字是以一个个单字（不是词组）的方式存人计算机设备内部的，常用汉字3500个，通用汉字7000个，东汉的《说文解字》收录9353字，清代的《康熙字典》收录4万7千多字，当代的《中华字海》更是收录了8万6千多字。要使所有这些汉字都能够在计算机设备上被使用，则要把这么多汉字都存入计算机设备内部。

显然，采用本发明优选提供的端点检测算法进行单字或单词的识别无需存入如此庞大的中文字库，能大大节省计算机设备的存储资源，提高其读写性能，其算法过程相比于应用这种复杂的语音识别算法也更为简单和快速，更能节省计算机设备的性能资源和提高处理效率，尤其适用于在移动终端上的实现，其识别精度也足以满足用户需求。

当识别出语音数据中的所有单字或单词后，所述各个单字或单词的持续时长采用上述端点检测算法已经得到，对于各个单字或单词的音调可以采用YIN音调检测算法获得，也可以采用快速傅立叶变换（FFT）算法和Goertzel算法获得，本领域技术人员采用任一种方式获得所述单字或单词的音调及持续时长都是可行的，本发明对此无需加以限制。

步骤103，获取所述背景音乐数据的音调及持续时长；

在本发明的一种优选实施例中，所述步骤103可以包括如下子步骤：

子步骤S31，获取背景音乐数据的乐谱数据；

子步骤S32，分析所述乐谱数据，获得所述背景音乐数据的音调及持续时长。

乐谱数据是音乐数据本身所具有的属性，在具体实现中，如果本地没有背景音乐的乐谱数据，用户可以从服务器提取获得或从网上下载获得。通过分析乐谱数据就可以直接获得当前音乐的每个音调及每个音调的持续时长。

在具体实现中，也可以在本地直接存储所述背景音乐数据的音调及持续时长的数据，从而可以更进一步节省处理时间，提高处理效率。

当然，上述获取背景音乐数据的音调及持续时长的方式仅仅用作示例，本领域技术人员采用其它方式均是可行的，本发明对此不作限制。例如，本领域技术人员也可以采用音调追踪（pitchtracking，或称音高追踪）算法，其原理是利用相关算法对音乐进行短时间分段（例如，20ms为一段），然后针对每一小段音调进行计算得出整个语音或者音乐的音调走势图（time，pitch）；其中time参数的检测可采用小波变换，熵信息，过零率以及短时能量谱算法进行推导得出；pitch参数的检测可以采用自相关函数推导得出相应的频率，并利用如下公式（1）将频率转化为音调参数，也就是pitch。

pitch=69+12*log2(F+440)（1）

其中，F为计算出来的音调对应的频率，440为A4音调对应的基准音调。

在单字或单词分开之后，应用本发明实施例可以将单字或单词的音调变成背景音乐对应的音调，并且通过时间的伸缩来实现单字或单词的音调持续时长和背景音乐对应的音调持续时长一样。

步骤104，按照所述背景音乐数据的音调及持续时长，对所述一个或多个单字或单词的音调及持续时长进行变速和/或变调处理；

在本发明实施例中，所述变速处理为，将所述语音数据的语速在音调不变的情况下拉长或减慢。

在本发明的一种优选实施例中，按照所述背景音乐数据的音调及持续时长，对所述一个或多个单字或单词的音调及持续时长进行变速处理可以采用如下子步骤实现：

子步骤S41，按照所述背景音乐数据各音调的持续时长，分别计算对应的一个或多个单字或单词的持续时长的调整幅度；

子步骤S42，依据所述持续时长的调整幅度采用波形相似叠加算法（waveformsimilarityoverlap-and-add，WSOLA）调整所述一个或多个单字或单词的持续时长。

在实际中，所述“变速处理”亦可称之为“音频时长调整”，即在保持音频原始特性（如基音周期、共振峰等）不变的前提下，调整音频信号的时间长度。

本发明实施例中优选的波形相似叠加算法WSOLA的基本原理是，在每次迭代过程中选择与前一帧合成信号最匹配的帧合成下一帧音频数据，从而保证合成信号的连续性。关于WSOLA的时长调整算法图具体可以参考图2，在图2中，（A）表示前一帧匹配音频；（B）表示当前参考帧；（C）为当前搜索区间；（D）为在当前搜索区间（C）中找到的与（B）帧匹配的目标帧，并输出到合成音频与前一目标帧（A）进行合成。

在本发明实施例中应用波形相似叠加算法WSOLA的原理是，采用时域的自相关函数，找到相关性最大的波段为波形相似性最大，所述自相关函数可以通过如下公式计算获得：

C (m, δ) = Σ_{m = 0}^{L - 1} [x (m + k * Sa + δ) * x (m + (k - 1) Sa + Sb + δ_{k - 1})]

其中，δ为在移动窗口中的取值，Sa为分析窗帧移，Sb为合成窗帧移，k表示当前第k个帧窗，δ_k-1为前一最佳匹配帧的相对偏移量。

参考图3所示的一种采用波形相似叠加算法调整语音数据的一个或多个单字或单词的持续时长的示例，首先计算当前语音数据的搜索区间，然后通过产生汉宁窗，对语音数据进行加窗取帧处理，基于当前的搜索区间和加窗取帧处理结果采用上述波形相似叠加算法进行计算，得到波形相似的位置的语音段；将当前语音段和所述波形相似的位置的语音段进行合成，即通过按照背景音乐数据各音调的持续时长，分别计算的对应的一个或多个单字或单词的持续时长的调整幅度，拉长或缩短当前语音段，即可获得变速后的语音数据进行输出。

当然，上述变速处理的方法仅仅用作示例，本领域技术人员依据实际情况采用任一种语音变速不变调的处理方式均是可行的，本发明对此无需加以限制。

在本发明实施例中，所述变调处理为，所述语音数据的音调在语速不变的情况下变成趋于女性声音频率甚至更高频率，或者，变成趋于男性声音频率甚至更低频率。

在本发明的一种优选实施例中，按照所述背景音乐数据的音调及持续时长，对所述一个或多个单字或单词的音调及持续时长进行变调处理可以采用如下子步骤实现：

子步骤S43，将所述一个或多个单字或单词的音调转换成频率；

子步骤S44，按照所述背景音乐数据的音调，分别计算对应的一个或多个单字或单词的音调的调整幅度；

子步骤S45，分别根据所述音调的调整幅度对所述频率进行线性插值，获得所述一个或多个单字或单词的调整后的音调，所述调整后的音调中包括调高的音调；

子步骤S46，按照预设放大系数增加所述调高的音调的音量。

在具体实现中，所述预设放大系数a=1+0.02*z，其中，z为需要增加半音的个数，半音是指，十二音律中一个八度分成12等分，每个等分即为一个半音。

当然，上述变调处理的方法仅仅用作示例，本领域技术人员依据实际情况采用任一种语音变调不变速的处理方式均是可行的，本发明对此无需加以限制。

在具体实现中，为便于算法的统一处理，在所述步骤104之前，还可以将经过步骤102的单字检测处理的语音数据，转换为单声道的浮点型数据后，再进行上述变速和/或变调处理。

步骤105，将所述处理后的语音数据及背景音乐数据合成为新的音频文件。

本领域技术人中采用任一种音频合成方法将所述处理后的语音数据及背景音乐数据合成为新的音频文件均是可行的，本发明对此不作限制。例如，采用如下代码对所述处理后的语音数据及背景音乐数据进行合成：

应用本发明实施例，当用户希望把自己录制的语音，与音乐融合变成一段说唱音乐（Rap）时，只需要提供语音及背景音乐的输入，通过预定义的控件（如“一键合成”）即可在后台运行本发明实施例中的相关算法，将语音及背景音乐完美融合，获得质量极高的语流输出，满足用户的听觉及娱乐体验。

方法实施例二：

参照图4，示出了本发明实施例提供的一种语音与音乐合成的方法实施例2的步骤流程图，具体可以包括如下步骤：

步骤201，获得输入的语音数据以及背景音乐数据；

步骤202，从所述语音数据识别出组成所述语音数据的一个或多个单字或单词，获得所述一个或多个单字或单词的音调及持续时长；

步骤203，获取所述背景音乐数据的音调及持续时长；

步骤204，按照所述背景音乐数据的音调及持续时长，对所述一个或多个单字或单词的音调及持续时长进行变速和/或变调处理；

步骤205，针对所述变速和/或变调处理后的语音数据进行特效处理，所述特效处理包括：回音特效处理，和/或，T-Pain特效处理；

步骤206，将所述处理后的语音数据及背景音乐数据合成为新的音频文件。

与方法实施例1相比，方法实施例2增加了针对所述变速和/或变调处理后的语音数据进行特效处理的步骤，以使用户获得更佳的使用体验。

所述回音特效即指使语音具有回音效果，作为本发明实施例具体应用的一种示例，所述回音特效可以采用如下公式实现：

Out=input（t）+input（t-T）*b+input（t-2*T）*b*b+input（t-3*T）*b*b*b+…

其中，t为当前时间，T为回音延迟时间，b为回音衰减因子。

所述T-Pain特效即指使语音具有电音效果。

当然，本领域技术人员还可以采用其它特效，也可以选用任一种特效的处理方式完成对语音的特效处理，本发明对此无需加以限制。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明实施例所必须的。

装置实施例一

参照图5，示出了本发明实施例提供的一种语音与音乐合成的装置实施例1的结构框图，具体可以包括如下模块：

获取模块501，用于获得输入的语音数据以及背景音乐数据；

语音单字检测模块502，用于从所述语音数据识别出组成所述语音数据的一个或多个单字或单词，获得所述一个或多个单字或单词的音调及持续时长；

音乐检测模块503，用于获取所述背景音乐数据的音调及持续时长；

语音变速变调处理模块504，用于按照所述背景音乐数据的音调及持续时长，对所述一个或多个单字或单词的音调及持续时长进行变速和/或变调处理；

合成模块505，用于将所述处理后的语音数据及背景音乐数据合成为新的音频文件。

在本发明的一种优选实施例中，所述语音单字检测模块502可以包括如下子模块：

作为本发明实施例具体应用的一种示例，所述连续语音段检测子模块可以进一步包括如下单元：

去噪单元，用于对所述输入的语音数据进行去噪处理；

在具体实现中，所述连续语音段检测子模块还可以包括如下单元：

格式转换单元，与所述语音单字检测模块相连，用于将所述语音单字检测模块处理后的语音数据转换为单声道的浮点型数据。

作为本发明实施例具体应用的一种示例，所述单字识别子模块可以进一步包括如下单元：

和/或，

计算所述分割出的单字或单词的平均持续时长；

在本发明实施例中，所述单字为单个中文字符，所述单词为具有特定语义的中文词，或，不具有特定语义的单个中文字符的组合。

在本发明的一种优选实施例中，所述音乐检测模块503可以包括如下子模块：

乐谱获取子模块，用于获取背景音乐数据的乐谱数据；

在本发明实施例中，所述变速处理为，将所述语音数据的语速在音调不变的情况下拉长或减慢；在这种情况下，所述语音变速变调处理模块504可以包括如下子模块：

波形相似叠加算法调整子模块，用于依据所述持续时长的调整幅度采用波形相似叠加算法调整所述一个或多个单字或单词的持续时长。

在本发明实施例中，所述变调处理为，所述语音数据的音调在语速不变的情况下变成趋于女性声音频率甚至更高频率，或者，变成趋于男性声音频率甚至更低频率；在这种情况下，所述语音变速变调处理模块504可以包括如下子模块：

对于图5所述的装置实施例一而言，由于其与图1所示的方法实施例一基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

装置实施例二

参照图6，示出了本发明实施例提供的一种语音与音乐合成的装置实施例2的结构框图，具体可以包括如下模块：

获取模块601，用于获得输入的语音数据以及背景音乐数据；

语音单字检测模块602，用于从所述语音数据识别出组成所述语音数据的一个或多个单字或单词，获得所述一个或多个单字或单词的音调及持续时长；

音乐检测模块603，用于获取所述背景音乐数据的音调及持续时长；

语音变速变调处理模块604，用于按照所述背景音乐数据的音调及持续时长，对所述一个或多个单字或单词的音调及持续时长进行变速和/或变调处理；

语音特效处理模块605，连接在所述语音变速变调处理模块与所述合成模块之间，用于针对所述变速和/或变调处理后的语音数据进行特效处理，所述特效处理包括：回音特效处理，和/或，T-Pain特效处理；

合成模块606，用于将所述处理后的语音数据及背景音乐数据合成为新的音频文件。

对于图6所述的装置实施例二而言，由于其与图4所示的方法实施例二基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

设备实施例

本发明实施例还提供了一种设备，所述设备包括：

一个或多个处理器；

存储器；和

一个或多个模块（programs），所述一个或多个模块存储于所述存储器中并被配置成由所述一个或多个处理器执行，其中，所述一个或多个模块具有如下功能：

获得输入的语音数据以及背景音乐数据；

获取所述背景音乐数据的音调及持续时长；

较佳地，在所述将处理后的语音数据及背景音乐数据合成为新的音频文件的步骤之前，所述一个或多个模块还具有如下功能：

较佳地，所述从语音数据识别出组成所述语音数据的一个或多个单字或单词，获得所述一个或多个单字或单词的音调及持续时长的步骤包括：

从所述语音数据中检测出一段或多段连续语音数据；

获得所述一个或多个单字或单词的音调及持续时长。

较佳地，所述从语音数据中检测出一段或多段连续语音数据的步骤包括：

对所述输入的语音数据进行去噪处理；

较佳地，所述分别识别出一段或多段连续语音数据中的一个或多个单字或单词的步骤包括：

和/或，

计算所述分割出的单字或单词的平均持续时长；

较佳地，所述单字为单个中文字符，所述单词为具有特定语义的中文词，或，不具有特定语义的单个中文字符的组合。

较佳地，所述获取背景音乐数据的音调及持续时长的步骤包括：

获取背景音乐数据的乐谱数据；

较佳地，所述变速处理为，将所述语音数据的语速在音调不变的情况下拉长或减慢；

较佳地，所述按照背景音乐数据的音调及持续时长，对所述一个或多个单字或单词的音调及持续时长进行变速处理的步骤包括：

较佳地，所述变调处理为，所述语音数据的音调在语速不变的情况下变成趋于女性声音频率甚至更高频率，或者，变成趋于男性声音频率甚至更低频率；

较佳地，所述按照背景音乐数据的音调及持续时长，对所述一个或多个单字或单词的音调及持续时长进行变调处理的步骤包括：

将所述一个或多个单字或单词的音调转换成频率；

按照预设放大系数增加所述调高的音调的音量。

非易失性可读存储介质实施例

本实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块（programs），该一个或多个模块被应用在具有触摸屏幕的设备时，可以使得该设备执行如下步骤的指令（instructions）：

获得输入的语音数据以及背景音乐数据；

获取所述背景音乐数据的音调及持续时长；

较佳地，在所述将处理后的语音数据及背景音乐数据合成为新的音频文件的步骤之前，还可以使得该设备执行如下步骤的指令（instructions）：

从所述语音数据中检测出一段或多段连续语音数据；

获得所述一个或多个单字或单词的音调及持续时长。

对所述输入的语音数据进行去噪处理；

和/或，

计算所述分割出的单字或单词的平均持续时长；

获取背景音乐数据的乐谱数据；

将所述一个或多个单字或单词的音调转换成频率；

按照预设放大系数增加所述调高的音调的音量。

终端设备实施例

参照图7是本发明实施例提供的一种终端设备结构示意图。参见图7，该终端设备可以用于实施上述实施例中提供的语音与音乐合成的方法。其中，该终端设备可以为手机、平板计算机设备pad、穿戴式移动设备（如智能手表）等。优选的：

终端设备700可以包括通信单元110、包括有一个或一个以上计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、WiFi（wirelessfidelity，无线保真）模块170、包括有一个或者一个以上处理核心的处理器180、以及电源190等部件。本领域技术人员可以理解，图7中示出的终端设备结构并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

通信单元110可用于收发信息或通话过程中，信号的接收和发送，该通信单元110可以为RF（RadioFrequency，射频）电路、路由器、调制解调器、等网络通信设备。特别地，当通信单元110为RF电路时，将基站的下行信息接收后，交由一个或者一个以上处理器180处理；另外，将涉及上行的数据发送给基站。通常，作为通信单元的RF电路包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块（SIM）卡、收发信机、耦合器、LNA（LowNoiseAmplifier，低噪声放大器）、双工器等。此外，通信单元110还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM（GlobalSystemofMobilecommunication，全球移动通讯系统）、GPRS（GeneralPacketRadioService，通用分组无线服务）、CDMA（CodeDivisionMultipleAccess，码分多址）、WCDMA（WidebandCodeDivisionMultipleAccess,宽带码分多址）、LTE（LongTermEvolution,长期演进）、电子邮件、SMS（ShortMessagingService，短消息服务）等。存储器120可用于存储软件程序以及模块，处理器180通过运行存储在存储器120的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据终端设备700的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器120还可以包括存储器控制器，以提供处理器180和输入单元130对存储器120的访问。

输入单元130可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。优选地，输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器180，并能接收处理器180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131，输入单元130还可以包括其他输入设备132。优选地，其他输入设备132可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端设备700的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141，可选的，可以采用LCD（LiquidCrystalDisplay，液晶显示器）、OLED（OrganicLight-EmittingDiode,有机发光二极管）等形式来配置显示面板141。进一步的，触敏表面131可覆盖显示面板141，当触敏表面131检测到在其上或附近的触摸操作后，传送给处理器180以确定触摸事件的类型，随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图7中，触敏表面131与显示面板141是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面131与显示面板141集成而实现输入和输出功能。

终端设备700还可包括至少一种传感器150，比如光传感器、运动传感器以及其他传感器。优选地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板141的亮度，接近传感器可在终端设备700移动到耳边时，关闭显示面板141和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等;至于终端设备700还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路160、扬声器161，传声器162可提供用户与终端设备700之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出；另一方面，传声器162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出处理器180处理后，经RF电路110以发送给比如另一终端设备，或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔，以提供外设耳机与终端设备700的通信。

为了实现无线通信，该终端设备上可以配置有无线通信单元170，该无线通信单元170可以为WiFi模块。WiFi属于短距离无线传输技术，终端设备700通过无线通信单元170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图5示出了无线通信单元170，但是可以理解的是，其并不属于终端设备700的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器180是终端设备700的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行终端设备700的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器180可包括一个或多个处理核心；优选的，处理器180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器180中。

终端设备700还包括给各个部件供电的电源190（比如电池），优选的，电源可以通过电源管理系统与处理器180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端设备700还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端设备的显示单元是触摸屏显示器，终端设备还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获得输入的语音数据以及背景音乐数据；

获取所述背景音乐数据的音调及持续时长；

可选地，在所述将处理后的语音数据及背景音乐数据合成为新的音频文件的步骤之前，存储器还包括进行以下操作的指令：

可选地，存储器还包括进行以下操作的指令：所述从语音数据识别出组成所述语音数据的一个或多个单字或单词，获得所述一个或多个单字或单词的音调及持续时长的步骤包括：

从所述语音数据中检测出一段或多段连续语音数据；

获得所述一个或多个单字或单词的音调及持续时长。

可选地，存储器还包括进行以下操作的指令：所述从语音数据中检测出一段或多段连续语音数据的步骤包括：

对所述输入的语音数据进行去噪处理；

可选地，存储器还包括进行以下操作的指令：所述分别识别出一段或多段连续语音数据中的一个或多个单字或单词的步骤包括：

和/或，

计算所述分割出的单字或单词的平均持续时长；

可选地，存储器还包括进行以下操作的指令：所述单字为单个中文字符，所述单词为具有特定语义的中文词，或，不具有特定语义的单个中文字符的组合。

可选地，存储器还包括进行以下操作的指令：所述获取背景音乐数据的音调及持续时长的步骤包括：

获取背景音乐数据的乐谱数据；

可选地，存储器还包括进行以下操作的指令：所述变速处理为，将所述语音数据的语速在音调不变的情况下拉长或减慢；

可选地，存储器还包括进行以下操作的指令：所述按照背景音乐数据的音调及持续时长，对所述一个或多个单字或单词的音调及持续时长进行变速处理的步骤包括：

可选地，存储器还包括进行以下操作的指令：所述变调处理为，所述语音数据的音调在语速不变的情况下变成趋于女性声音频率甚至更高频率，或者，变成趋于男性声音频率甚至更低频率；

可选地，存储器还包括进行以下操作的指令：所述按照背景音乐数据的音调及持续时长，对所述一个或多个单字或单词的音调及持续时长进行变调处理的步骤包括：

将所述一个或多个单字或单词的音调转换成频率；

按照预设放大系数增加所述调高的音调的音量。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。本领域技术人员应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明实施例所必须的。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、系统、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明实施例所提供的一种语音与音乐合成的方法、一种语音与音乐合成的装置，以及，一种设备，进行了详细介绍，本文中应用了具体个例对本发明实施例的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明实施例的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明实施例的限制。

Claims

1.一种语音与音乐合成的方法，其特征在于，包括：

获得输入的语音数据以及背景音乐数据；

获取所述背景音乐数据的音调及持续时长；

将所述处理后的语音数据及背景音乐数据合成为新的音频文件；

所述从语音数据识别出组成所述语音数据的一个或多个单字或单词，获得所述一个或多个单字或单词的音调及持续时长的步骤包括：

从所述语音数据中检测出一段或多段连续语音数据；

获得所述一个或多个单字或单词的音调及持续时长；

所述从语音数据中检测出一段或多段连续语音数据的步骤包括：

对所述输入的语音数据进行去噪处理；

2.根据权利要求1所述的方法，其特征在于，在所述将处理后的语音数据及背景音乐数据合成为新的音频文件的步骤之前，还包括：

3.根据权利要求1所述的方法，其特征在于，所述分别识别出一段或多段连续语音数据中的一个或多个单字或单词的步骤包括：

和/或，

计算所述分割出的单字或单词的平均持续时长；

4.根据权利要求1或3所述的方法，其特征在于，所述单字为单个中文字符，所述单词为具有特定语义的中文词，或，不具有特定语义的单个中文字符的组合。

5.根据权利要求1所述的方法，其特征在于，所述获取背景音乐数据的音调及持续时长的步骤包括：

获取背景音乐数据的乐谱数据；

6.根据权利要求1所述的方法，其特征在于，所述变速处理为，将所述语音数据的语速在音调不变的情况下拉长或减慢。

7.根据权利要求6所述的方法，其特征在于，所述按照背景音乐数据的音调及持续时长，对所述一个或多个单字或单词的音调及持续时长进行变速处理的步骤包括：

依据所述持续时长的调整幅度采用波形相似叠加算法调整所述一个或多个单字或单词的持续时长。

8.根据权利要求1所述的方法，其特征在于，所述变调处理为，所述语音数据的音调在语速不变的情况下变成趋于女性声音频率甚至更高频率，或者，变成趋于男性声音频率甚至更低频率。

9.根据权利要求8所述的方法，其特征在于，所述按照背景音乐数据的音调及持续时长，对所述一个或多个单字或单词的音调及持续时长进行变调处理的步骤包括：

将所述一个或多个单字或单词的音调转换成频率；

按照预设放大系数增加所述调高的音调的音量。

10.一种语音与音乐合成的装置，其特征在于，包括：

获取模块，用于获得输入的语音数据以及背景音乐数据；

合成模块，用于将所述处理后的语音数据及背景音乐数据合成为新的音频文件；

所述语音单字检测模块包括：

单字音调时长获取子模块，获得所述一个或多个单字或单词的音调及持续时长；

所述连续语音段检测子模块包括：

去噪单元，用于对所述输入的语音数据进行去噪处理；

11.根据权利要求10所述的装置，其特征在于，还包括：

12.根据权利要求10所述的装置，其特征在于，所述单字识别子模块包括：

和/或，

计算所述分割出的单字或单词的平均持续时长；

13.根据权利要求10或12所述的装置，其特征在于，所述单字为单个中文字符，所述单词为具有特定语义的中文词，或，不具有特定语义的单个中文字符的组合。

14.根据权利要求10所述的装置，其特征在于，所述音乐检测模块包括：

乐谱获取子模块，用于获取背景音乐数据的乐谱数据；

15.根据权利要求10所述的装置，其特征在于，所述变速处理为，将所述语音数据的语速在音调不变的情况下拉长或减慢。

16.根据权利要求15所述的装置，其特征在于，所述语音变速变调处理模块包括：

17.根据权利要求10所述的装置，其特征在于，所述变调处理为，所述语音数据的音调在语速不变的情况下变成趋于女性声音频率甚至更高频率，或者，变成趋于男性声音频率甚至更低频率。

18.根据权利要求17所述的装置，其特征在于，所述语音变速变调处理模块包括：

19.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器；和

获得输入的语音数据以及背景音乐数据；

获取所述背景音乐数据的音调及持续时长；

从所述语音数据中检测出一段或多段连续语音数据；

获得所述一个或多个单字或单词的音调及持续时长；

对所述输入的语音数据进行去噪处理；