CN111739544B

CN111739544B - 语音处理方法、装置、电子设备及存储介质

Info

Publication number: CN111739544B
Application number: CN201910227101.5A
Authority: CN
Inventors: 陈岩
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-03-25
Filing date: 2019-03-25
Publication date: 2023-10-20
Anticipated expiration: 2039-03-25
Also published as: CN111739544A

Abstract

本公开提供了一种语音处理方法、装置、电子设备及计算机可读存储介质，涉及音频处理技术领域，所述语音处理方法包括：接收由音频采集设备获取并发送的语音信号；对所述语音信号对应的时域信号进行用于调整采样频率的变调处理，得到变调后的语音信号；将变调后的语音信号对应的时域信号进行播放时间保持，以得到目标语音信号；其中，所述变调后的语音信号的播放时间与所述语音信号的播放时间相同。本公开能够快速精准地进行语音变调。

Description

语音处理方法、装置、电子设备及存储介质

技术领域

本公开涉及音频处理技术领域，具体而言，涉及一种语音处理方法、语音处理装置、电子设备以及计算机可读存储介质。

背景技术

在音频处理过程中，音频变调处理是非常重要的功能。相关技术中，变调方法主要包括以下几种：通过改变播放的采样率来实现语音音频的变调；采用线性预测编码技术和微分声门波相结合的方法合成变调语音；或者是采用计算语音信号的频谱包络以及变调算法来改变音调；或者是通过延时因子进行延迟处理从而实现变调效果。

上述方式中，改变播放的采样率来实现变调时会影响语音的播放时长，进而还可能影响语音的音质，并且计算量较大，不能实现语音的快速变调。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种语音处理方法、装置、电子设备及计算机可读存储介质，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的无法快速精准地实现语音变调的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一个方面，提供一种语音处理方法，包括：接收由音频采集设备获取并发送的语音信号；对所述语音信号对应的时域信号进行用于调整采样频率的变调处理，得到变调后的语音信号；将变调后的语音信号对应的时域信号进行播放时间保持，以得到目标语音信号；其中，所述变调后的语音信号的播放时间与所述语音信号的播放时间相同。

在本公开的一种示例性实施例中，对所述语音信号对应的时域信号进行用于调整采样频率的变调处理，得到变调后的语音信号包括：对所述语音信号对应的时域信号进行分帧；对分帧后的语音信号对应的时域信号进行加窗处理，得到加窗后的语音信号对应的时域信号；根据内插算法或抽取算法对所述加窗后的语音信号对应的时域信号进行处理，得到所述变调后的语音信号。

在本公开的一种示例性实施例中，对分帧后的时域信号进行加窗处理包括：采用汉明窗对所述分帧后的语音信号的时域信号进行所述加窗处理。

在本公开的一种示例性实施例中，根据内插算法或抽取算法对所述加窗后的语音信号对应的时域信号进行处理，得到所述变调后的语音信号包括：根据所述语音信号的采样频率、变调后的语音信号的采样频率以及每帧语音信号的长度确定所述变调后的语音信号。

在本公开的一种示例性实施例中，所述语音信号升调对应于变调后的语音信号的播放时间增加，所述语音信号降调对应于变调后的语音信号的播放时间减少。

在本公开的一种示例性实施例中，将变调后的语音信号对应的时域信号进行播放时间保持，以得到目标语音信号包括：确定时序变量与分帧得到的两帧语音信号之间的重叠长度的对比结果；结合所述对比结果，根据每帧语音信号的长度对变调后的每帧语音信号的长度进行处理，并在变调后的语音信号的播放时间与所述语音信号的播放时间相同时确定所述目标语音信号。

在本公开的一种示例性实施例中，结合所述对比结果，根据每帧语音信号的长度对变调后的每帧语音信号的长度进行处理，并在变调后的语音信号的播放时间与所述语音信号的播放时间相同时确定所述目标语音信号包括：若所述时序变量小于所述重叠长度，则根据所述每帧语音信号的长度、所述变调后的每帧语音信号的长度以及所述重叠长度确定所述目标语音信号；若所述时序变量大于等于所述重叠长度，则将变调后的语音信号作为所述目标语音信号。

根据本公开的一个方面，提供一种语音处理装置，包括：语音获取模块，用于接收由音频采集设备获取并发送的语音信号；语音变调模块，用于对所述语音信号对应的时域信号进行用于调整采样频率的变调处理，得到变调后的语音信号；时间保持模块，用于将变调后的语音信号对应的时域信号进行播放时间保持，以得到目标语音信号；其中，所述变调后的语音信号的播放时间与所述语音信号的播放时间相同。

根据本公开的一个方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的语音处理方法。

根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的语音处理方法。

本示例性实施例提供的语音处理方法、装置、电子设备及计算机可读存储介质中，一方面，通过对发送至所述音频处理器的语音信号对应的时域信号进行用于调整采样频率的变调处理，由于是对时域信号进行变调处理，避免了处理过程中引入谐波并影响语音音质的问题，提高了音频质量以及精准度；另一方面，通过将变调后的语音信号的时域信号进行播放时间保持，以得到目标语音信号，避免了对播放时间的影响，使得语音能够正常准确地进行播放；再一方面，由于只是通过对语音信号对应的时域信号进行变调处理，避免了复杂的计算过程，减小了计算量，提高了计算效率，能够快速实现语音变调。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本公开示例性实施例中语音处理方法的示意图。

图2示意性示出本公开示例性实施例中变调处理的具体流程图。

图3示意性示出本公开示例性实施例中播放时间保持的流程图。

图4示意性示出本公开示例性实施例中语音处理装置的框图。

图5示意性示出本公开示例性实施例中语音处理系统的框图。

图6示意性示出本公开示例性实施例中的电子设备的示意图。

图7示意性示出本公开示例性实施例中的计算机可读存储介质的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

相关技术中的变调方法包括以下几种：通过改变播放的采样率来实现语音音频的变调，当提高采样率播放，语音的播放速度加快，会产生升调的效果，但同时播放时间也变短了，当降低采样率播放，语音的播放速度减慢，会产生将调的效果，但同时播放时间也变长了。在频域上用内插的方法实现音调的变化，例如，需要两倍的频率的音调，则会内插一些能量为原频点能量一半的频率分量。在频域上采用内插的方法实现音调变化，会引入谐波，影响音质。采用线性预测编码技术和微分声门波相结合的方法合成变调语音，将语音信号通过线性预测编码技术中的逆滤波器得到的残差信号，用微分声门波模型对其进行更细致的模拟得到高质量的声门激励信号，从而合成高质量的变调语音；或者是利用语音信号的倒谱序列导出频谱包络，然后利用频谱包络分离出语音信号的激励分量，并将激励分量通过变调算法处理改变其音调；计算频谱包络等过程需要对语音信号进行傅里叶变换和反变换，计算量比较大，不适合在DSP上运行。

为了解决上述问题，本示例性实施例中，首先提供了一种语音处理方法，该语音处理方法可以应用于能够使用语音交互的游戏或者是其它应用程序的应用场景。参考图1所示，对本示例性实施例中的语音处理方法进行详细说明。

在步骤S110中，接收由音频采集设备获取并发送的语音信号。

本示例性实施例中，音频采集设备可以为终端上的麦克风，终端可以为智能手机、电脑、智能手表、智能音箱等可以进行通话的终端，此处以智能手机为例进行说明。另外，本示例性实施例可以应用于游戏、或者其它应用程序中，为了满足保密性或者是满足其它需求而需要对采集到的语音进行特殊处理的应用场景中，即语音交互或者是语音通话具有变调音效。

本示例性实施例中，以游戏中的语音聊天为例进行说明。在语音通话具有变调音效的基础上，首先可以判断是否开启了变调音效，具体可通过判断用于表示变调音效的控件或者是按钮的状态来判断，也可以通过其它方式来判断，此处不作具体描述。若检测到开启了变调音效，则音频采集设备(麦克风)可以采集处于手机游戏的用户发出的语音信号。进一步地，麦克风可将采集到的语音信号发送至手机中的DSP(Digital SignalProcessing，数字信号处理)器，以使DSP器对接收到的语音信号进行处理。

在步骤S120中，对所述语音信号对应的时域信号进行用于调整采样频率的变调处理，得到变调后的语音信号。

本示例性实施例中，语音信号可以包括时域信号和频域信号。其中，时域信号是描述数学函数或物理信号对时间的关系，一个语音信号的时域波形可以表达语音信号随着时间的变化。频域信号指的是把语音信号变为以频率轴为坐标表示出来。在从时域信号转换到频域信号时，需要通过傅里叶级数和傅里叶变换实现。

变调处理的主要功能可以包括但不限于：在时域上对语音信号进行变调处理，也就是说，对语音信号对应的时域信号进行处理以实现变调。变调指的是将语音信号的音调升高(升调)或者是降低(降调)。除此之外，语音信号的音调的变化情况可与采样频率相关联。例如，若变调后的采样频率升高，则升调；若变调后的采样频率降低，则降调。基于此，可认为变调处理用于调整采样频率。采样频率定义了每秒从连续的语音信号中提取并组成离散信号的采样个数。步骤S120的具体执行过程可以如图2中所示。

图2中示意性示出了变调处理的流程图。参考图2中所示，主要包括步骤S210至步骤S230，其中：

在步骤S210中，对所述语音信号对应的时域信号进行分帧。

在本步骤中，为了保持语音信号的稳定性，以满足信号处理的要求，可对语音信号进行分帧。分帧指的是将语音信号分段来分析其特征参数，其中每一段称为一帧，帧长一般取为20～50ms。这样，对于整体的语音信号来讲，分析出的是由每一帧特征参数组成的特征参数时间序列。本示例性实施例中，麦克风采集的语音信号可用x(n)来表示。该语音信号经过分帧后，每帧的长度可以为N，用于防止两帧之间的不连续的前后两帧之间的重叠长度(帧移)可以为W。x(n)中的n表示的是时序上的一个点，可称为时序变量，n为整数，且n＝0,1,1,3,…N-1。对语音信号x(n)进行分帧，得到的分帧后的语音信号可以表示为x_m(n)，其中m代表帧数为第m帧，语音信号每帧的长度N可以取值为512，当然也可以取其它值，此处不作特殊限定。需要说明的是，本步骤中是对语音信号的时域信号进行分帧处理。

在步骤S220中，对分帧后的语音信号对应的时域信号进行加窗处理，得到加窗后的语音信号对应的时域信号。

本步骤中，依然是对语音信号的时域信号进行处理。加窗处理的目的在于让语音信号中不太连续的地方(最后一个点和第一个点的连接处)变得光滑，避免了明显的突变，即加窗处理用于平滑帧信号的边缘。对于加窗处理而言，就是在傅里叶积分中，将原来的被积函数与特定的窗函数做积，这样的结果可以起到时频局域化的效果。加窗一般是滤波器，通带内的系统函数不一定是常数值，加窗在时域进行，窗函数的频域形状是一个窗，把带外的分量滤除，相当于低通滤波器；若是矩形滤波器，相当于低通滤波，把带外高频分量直接滤除。

本示例性实施例中，在对分帧后的语音信号的时域信号进行加窗处理时，具体可以采用汉明窗或者是矩形窗等进行处理，此处以汉明窗为例进行说明。汉明窗对应的窗函数的主要部分的形状像sin(x)在0到pi区间的形状，而其余部分都是0，这样的函数乘上其他任何一个函数，均只有一部分有非零值。汉明窗可对原有的语音信号的序列进行一定的修正，从而得到更好的语音信号。

汉明窗具体可以用公式(1)来表示：

其中，n为表示时序上的一个点(时序参数)的整数，且n＝0,1,2,3...N-1。

采用公式(1)中的汉明窗对分帧后的语音信号的时域信号进行加窗处理，可以得到如公式(2)所示的加窗后的时域信号：

通过步骤S210和步骤S220，对采集的语音信号进行分帧以及加窗等预处理操作，能够消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素，对语音信号质量的影响；尽可能保证后续语音处理得到的信号更均匀、平滑，为信号参数提取提供优质的参数，提高语音处理质量。

在步骤S230中，根据内插算法或抽取算法对所述加窗后的语音信号对应的时域信号进行处理，得到所述变调后的语音信号。

本步骤中，内插算法和抽取算法都是通过调整语音信号的采样点数或者是采样频率，以对语音信号进行变调的变调算法，且此处的变调算法均是针对语音信号的时域信号执行。具体而言，内插算法指的是在需要插值的地方插入零值(即0)从而组成新的语音信号的序列。内插算法例如可以包括但不限于线性函数插值、立方插值等等，且内插算法用于增加音调即升调。具体的过程例如可以包括对语音信号进行补零扩展以及内插滤波。抽取算法指的是将语音信号中每几个点中抽取一个依次组成新的语音信号的序列，且抽取算法的目的在于降低音调即降调。

根据内插算法或抽取算法对所述加窗后的语音信号对应的时域信号进行处理，得到所述变调后的语音信号的具体过程包括：根据所述语音信号的采样频率、变调后的语音信号的采样频率以及每帧语音信号的长度确定所述变调后的语音信号。

举例而言，若变调前的语音信号的采样频率为f，变调后的语音信号的采样频率为f₀，则可以用公式(3)表示抽取处理或者是内插处理之后的语音信号：

其中，n＝0,1,2...(N-1)×L+1，[]表示取整运算，mod表示取余运算。其中M，L均为正整数，且/>为最简分数。

进一步地，在进行内插或者是抽取之后，可得到如公式(4)所示的变调后的语音信号：

y_m(n)＝z_m(Mn) (4)

其中，n＝0,1,2...N×L/M。

由此可见，当f>f₀时，M>L，则变调后的语音信号升调；当f<f₀时，M<L，则变调后的语音信号降调。

在步骤S130中，将变调后的语音信号对应的时域信号进行播放时间保持，以得到目标语音信号；其中，所述变调后的语音信号的播放时间与所述语音信号的播放时间相同。

本示例性实施例中，若采用内插算法对语音信号进行升调，则变调后的语音信号的播放时间增加；若采用抽取算法对语音信号进行降调，则变调后的语音信号的播放时间减少。为了避免变调处理对播放时间的影响，可对变调后的语音信号执行播放时间保持处理。播放时间保持指的是对变调后的语音信号的时域信号进行处理，使得变调后的语音信号的播放时间与变调后的语音信号的播放时间相同，避免了相关技术中通过采样率实现音调变化时，由于语音播放速度的变化而导致的对语音的播放时间的影响。

进一步地，图3中示意性实处播放时间保持的流程图，参考图3中所示，根据将变调后的语音信号对应的时域信号进行播放时间保持，以得到目标语音信号包括步骤S310和步骤S320，其中：

步骤S310，确定时序变量与分帧得到的两帧语音信号之间的重叠长度的对比结果。具体指的是判断时序变量n(即时序上的一个点)与分帧得到的两帧语音信号之间的重叠长度W的大小关系。例如，当n＝1,2…W-1时可确定时序变量n小于重叠长度。当n＝W,W+1…N时，可确定时序变量n大于等于重叠长度。

步骤S320，结合所述对比结果，根据每帧语音信号的长度对变调后的每帧语音信号的长度进行处理，并在变调后的语音信号的播放时间与所述语音信号的播放时间相同时确定所述目标语音信号。也就是说，结合时序变量n与重叠长度W之间的大小关系，将变调后的语音信号的播放时间变更为变调前的语音信号的播放时间。由于播放时间与每帧语音信号的长度之间存在对应关系，即每帧语音信号的长度相同，则可以确定语音信号的播放时间相同。基于此，可将变调后的语音信号拼接起来，以使得语音信号的长度保持一致。进一步地，在变调后的每帧语音信号的长度等于原本的语音信号的长度时，即变调后的语音信号的播放时间与原本的语音信号的播放时间相同时，可以将该语音信号确定为目标语音信号。

具体而言，结合所述对比结果，根据每帧语音信号的长度对变调后的每帧语音信号的长度进行处理，并在变调后的语音信号的播放时间与所述语音信号的播放时间相同时确定所述目标语音信号包括以下两种情况：情况一、若所述时序变量小于所述重叠长度，则根据所述每帧语音信号的长度、所述变调后的每帧语音信号的长度以及所述重叠长度确定所述目标语音信号。举例而言，假设变调前语音信号的每帧语音信号的长度为N，变调后信号y_m(n)的每帧语音信号的长度变为N/α，若要保持语音信号的播放时间不变，则变调后的语音信号的每帧长度需要仍为N。如果时序变量小于重叠长度，则可以根据两帧之间的重叠长度、合成位移(即每帧语音信号的长度与重叠长度之间的差值)、偏移量(两帧重叠的起始位置)来根据公式(5)确定目标语音信号。

情况二、若所述时序变量大于等于所述重叠长度，则将变调后的语音信号作为所述目标语音信号。若时序变量大于等于重叠长度且不超过变前的每帧语音信号的长度N，则在进行长度对齐之后，可以直接将变调后的语音信号作为最终的目标语音信号，目标语音信号具体可由公式(5)确定。

其中，W为两帧的重叠长度，s为合成位移且s＝N-W，k_m为偏移量。偏移量的意义在于：对变调后的语音信号进行播放时间还原合成时，帧与帧之间有重叠，但是不能直接叠加合成，这样会造成有噪音杂声。为了减小这个现象，可确定两帧重叠的起始位置，并将该起始位置确定为偏移量。由于偏移量是动态变化的，当满足定义公式(6)时，可以使得噪音杂声最小，偏移量可以如公式(6)所示：

其中，偏移量表示最优匹配点与第m个窗之间的距离。

本示例性实施例中，通过步骤S110至步骤S130，对语音信号对应的时域信号进行内插和抽取的同时，能够保持播放时间不变，从而实现语音信号的快速变调，且避免了对播放时间的影响。另外，由于是在时域上对语音信号进行内插，避免了引入谐波导致的影响音质的问题，提高了语音信号的质量。进一步地，由于是对语音信号的时域信号进行的内插和播放时间还原，因此不需要对语音信号进行傅里叶变换和反变化等复杂操作，减少了计算量，使得整个变调过程可以直接在DSP中运行，而不占用CPU，减小了延迟，提高了游戏性能和用户体验。

本示例性实施例中，还提供一种语音处理装置，参考图4所示，该语音处理装置400主要包括：语音获取模块401、语音变调模块402以及时间保持模块403，其中：

语音获取模块401，可以用于接收由音频采集设备获取并发送的语音信号；

语音变调模块402，可以用于对所述语音信号对应的时域信号进行用于调整采样频率的变调处理，得到变调后的语音信号；

时间保持模块403，可以用于将变调后的语音信号对应的时域信号进行播放时间保持，以得到目标语音信号；其中，所述变调后的语音信号的播放时间与所述语音信号的播放时间相同。

在本公开的一种示例性实施例中，语音变调模块包括：分帧模块，用于对所述语音信号对应的时域信号进行分帧；加窗模块，用于对分帧后的语音信号对应的时域信号进行加窗处理，得到加窗后的语音信号对应的时域信号；变调控制模块，用于根据内插算法或抽取算法对所述加窗后的语音信号对应的时域信号进行处理，得到所述变调后的语音信号。

在本公开的一种示例性实施例中，加窗模块包括：加窗控制模块，用于采用汉明窗对所述分帧后的语音信号的时域信号进行所述加窗处理。

在本公开的一种示例性实施例中，变调控制模块包括：语音确定模块，用于根据所述语音信号的采样频率、变调后的语音信号的采样频率以及每帧语音信号的长度确定所述变调后的语音信号。

在本公开的一种示例性实施例中，时间保持模块包括：信号对比模块，用于确定时序变量与分帧得到的两帧语音信号之间的重叠长度的对比结果；目标语音确定模块，用于结合所述对比结果，根据每帧语音信号的长度对变调后的每帧语音信号的长度进行处理，并在变调后的语音信号的播放时间与所述语音信号的播放时间相同时确定所述目标语音信号。

在本公开的一种示例性实施例中，目标语音确定模块包括：第一确定模块，用于若所述时序变量小于所述重叠长度，则根据所述每帧语音信号的长度、所述变调后的每帧语音信号的长度以及所述重叠长度确定所述目标语音信号；第二确定模块，用于若所述时序变量大于等于所述重叠长度，则将变调后的语音信号作为所述目标语音信号。

需要说明的是，上述语音处理装置中各模块的具体细节已经在对应的语音处理方法中进行了详细描述，因此此处不再赘述。

除此之外，还提供一种语音处理系统，参考图5所示，语音处理系统50主要包括：数字信号处理器51和中央处理器52，其中：

数字信号处理器51，可以用于对语音信号进行变调，并对变调后的语音信号进行播放时间保持，得到目标语音信号。参考图5中所示，数字信号处理器51主要包括以下模块：变调模块511，用于对语音信号对应的时域信号进行变调处理；以及播放时间保持模块512，用于对变调后的语音信号进行播放时间保持，使得变调后的语音信号的播放时间与变调之前的语音信号的播放时间相同。具体地，变调模块511主要包括用于进行分帧的分帧模块5111、用于进行加窗处理的加窗模块5112、用于进行变调的变调控制模块5113。

中央处理器52，用于运行游戏或者是应用程序。

除此之外，语音处理系统50还可以包括音频采集设备53，用于收集语音信号，并将收集的语音信号发送至数字信号处理器51。

如此一来，整个过程可以包括：游戏运行在手机CPU上，当用户开启语音通话的变调音效时，麦克风首先收集语音信号，并将收集的语音信号发送到DSP；然后，变调模块对语音信号对应的时域信号进行升调或者降调处理；再次，经由变调模块处理的语音信号，播放时间会变长或者变短，因此将语音信号传输至播放时间保持模块，以使变调前后的播放时间保持不变；进一步地，将经过播放时间保持模块的语音，由DSP送到CPU上运行的游戏进程。如此一来，在游戏聊天时，语音信号的音调就发生改变，但是语音信号的播放时间并不会发生变化，能够快速精准地实现语音变调效果。由于进行变调和播放时间保持的算法可以运行在DSP上，因此不占用CPU，不影响游戏性能和用户体验，且能够提高处理效率。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图6来描述根据本发明的这种实施方式的电子设备600。图6显示的电子设备600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：上述至少一个处理单元610、上述至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元610执行，使得所述处理单元610执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元610可以执行如图1中所示的步骤。

存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(ROM)6203。

存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

显示单元640可以为具有显示功能的显示器，以通过该显示器展示由处理单元610执行本示例性实施例中的方法而得到的处理结果。显示器包括但不限于液晶显示器或者是其它显示器。

电子设备600也可以与一个或多个外部设备800(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器660通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

参考图7所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品700，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种语音处理方法，其特征在于，包括：

在开启变调音效后，接收由音频采集设备获取并发送的语音信号；

对所述语音信号对应的时域信号进行分帧，对分帧后的语音信号对应的时域信号进行加窗，并根据内插算法或抽取算法对加窗后的语音信号对应的时域信号进行用于调整采样频率的变调处理，得到变调后的语音信号；

根据播放时间与每帧语音信号的长度之间的对应关系将变调后的语音信号进行拼接以使得语音信号的长度保持一致，将变调后的语音信号对应的时域信号进行播放时间保持，在所述变调后的语音信号的播放时间与所述语音信号的播放时间相同时得到目标语音信号；

其中，所述将变调后的语音信号对应的时域信号进行播放时间保持，在所述变调后的语音信号的播放时间与所述语音信号的播放时间相同时得到目标语音信号包括：

确定时序变量与对语音信号对应的时域信号进行分帧得到的两帧语音信号之间的重叠长度的对比结果；

若所述时序变量小于所述重叠长度，在偏移量使得对变调后的语音信号进行播放时间还原合成的噪音杂声最小时，根据偏移量、每帧语音信号的长度与重叠长度之间的差值、以及所述变调后的两帧语音信号之间的重叠长度确定所述目标语音信号；所述偏移量表示最优匹配点与第m个窗之间的距离；

若所述时序变量大于等于所述重叠长度且不超过变调前的每帧语音信号的长度，则在进行长度对齐后，将变调后的语音信号作为所述目标语音信号。

2.根据权利要求1所述的语音处理方法，其特征在于，对分帧后的时域信号进行加窗处理包括：

采用汉明窗对所述分帧后的语音信号的时域信号进行所述加窗处理。

3.根据权利要求1所述的语音处理方法，其特征在于，根据内插算法或抽取算法对所述加窗后的语音信号对应的时域信号进行处理，得到所述变调后的语音信号包括：

根据所述语音信号的采样频率、变调后的语音信号的采样频率以及每帧语音信号的长度确定所述变调后的语音信号。

4.根据权利要求1所述的语音处理方法，其特征在于，所述语音信号升调对应于变调后的语音信号的播放时间增加，所述语音信号降调对应于变调后的语音信号的播放时间减少。

5.一种语音处理装置，其特征在于，包括：

语音获取模块，用于在开启变调音效后，接收由音频采集设备获取并发送的语音信号；

语音变调模块，用于对所述语音信号对应的时域信号进行分帧，对分帧后的语音信号对应的时域信号进行加窗，并根据内插算法或抽取算法对加窗后的语音信号对应的时域信号进行用于调整采样频率的变调处理，得到变调后的语音信号；

时间保持模块，用于根据播放时间与每帧语音信号的长度之间的对应关系将变调后的语音信号进行拼接以使得语音信号的长度保持一致，将变调后的语音信号对应的时域信号进行播放时间保持，在所述变调后的语音信号的播放时间与所述语音信号的播放时间相同时得到目标语音信号；其中，所述变调后的语音信号的播放时间与所述语音信号的播放时间相同；

6.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-4任意一项所述的语音处理方法。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-4任意一项所述的语音处理方法。