CN104575487A

CN104575487A - 一种语音信号的处理方法及装置

Info

Publication number: CN104575487A
Application number: CN201410763961.8A
Authority: CN
Inventors: 田彪
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Yinzhibang Culture Technology Co ltd
Priority date: 2014-12-11
Filing date: 2014-12-11
Publication date: 2015-04-29

Abstract

本发明实施例提供了一种语音信号的处理方法及装置。一方面，本发明实施例通过获得文本信息；从而，对所述文本信息进行转换处理，以获得第一语音信号；进而，对所述第一语音信号进行变音处理，以获得第二语音信号。因此，本发明实施例提供的技术方案可以实现对语音信号进行变音处理，用以提高语音信号的多样性。

Description

一种语音信号的处理方法及装置

【技术领域】

本发明涉及音频处理技术领域，尤其涉及一种语音信号的处理方法及装置。

【背景技术】

互联网资源一般采用文本格式或者语音格式输出，其中，语音格式的互联网资源一般是由自然人录制的，因此为了提高语音格式的互联网资源的生成效率，目前采用语音合成技术对文本格式的互联网资源进行自动转换处理来获得语音格式的互联网资源。

然而，现有技术中因为成本限制，利用语音合成技术对文本格式的互联网资源进行转换过程中，需要使用的声音模型库中一般只有几种语料，使得输出的语音格式的互联网资源只有固定的一种或几种声音，因此语音信号的声音单一，缺乏变化，长久使用，重复率较高。

【发明内容】

有鉴于此，本发明实施例提供了一种语音信号的处理方法及装置，可以实现对语音信号进行变音处理，用以提高语音信号的多样性。

本发明实施例的一方面，提供一种语音信号的处理方法，包括：

获得文本信息；

对所述文本信息进行转换处理，以获得第一语音信号；

对所述第一语音信号进行变音处理，以获得第二语音信号。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述对所述第一语音信号进行变音处理，以获得第二语音信号，包括：

获得变音参数，所述变音参数包括以下参数中至少一个：音效、音色、音调和音速；

依据所述变音参数，对所述第一语音信号进行变音处理，以获得所述第二语音信号。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述获得变音参数，包括：

获得输入的所述变音参数；或者，

获得变音模式，以及依据所述变音模式在变音资源库中进行匹配，以获得所述变音模式对应的变音参数。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述依据所述变音参数，对所述第一语音信号进行变音处理，以获得第二语音信号，包括：

依据获得的所述变音参数，确定所述第一语音信号中需要修改的至少一个语音信号特征值；

依据所述变音参数，修改所述至少一个语音信号特征值，以获得所述第二语音信号。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述对所述文本信息进行转换处理，以获得第一语音信号，包括：

对所述文本信息进行分析处理，以获得文本分析结果和发音提示信息；

依据所述发音提示信息，获得语音信号特征；

依据所述文本分析结果、发音提示信息和所述语音信号特征，进行语音合成处理，以获得所述第一语音信号。

本发明实施例的一方面，提供一种语音信号的处理装置，包括：

信息获取模块，用于获得文本信息；

信息转换模块，用于对所述信息获取模块获得的所述文本信息进行转换处理，以获得第一语音信号；

语音变音模块，用于对所述信息转换模块获得的所述第一语音信号进行变音处理，以获得第二语音信号。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述语音变音模块，具体用于：

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述语音变音模块用于获得变音参数时，具体用于：

获得输入的所述变音参数；或者，

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述语音变音模块用于依据所述变音参数，对所述第一语音信号进行变音处理，以获得第二语音信号时，具体用于：

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述信息转换模块，具体用于：

依据所述发音提示信息，获得语音信号特征；

由以上技术方案可以看出，本发明实施例具有以下有益效果：

本发明实施例通过获得文本信息；从而，对所述文本信息进行转换处理，以获得第一语音信号；进而，对所述第一语音信号进行变音处理，以获得第二语音信号。与现有技术中对文本信息转换为语音信号后，该语音信号只有固定的一种或几种声音的方案相比，本发明实施例可以进一步对语音信号进行变音处理，从而可以得到多种声音的语音信号，用以解决现有技术中语音信号的声音单一、缺乏变化和重复率较高的问题，可以提高语音信号的多样性，降低语音信号的声音重复率。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例所提供的技术方案使用的系统示例图；

图2是本发明实施例所提供的语音信号的处理方法的流程示意图；

图3是本发明实施例所提供的语音信号的处理方法的实施例一的流程示意图；

图4是本发明实施例所提供的语音信号的处理装置的功能方块图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二等来描述语音信号，但这些关键词不应限于这些术语。这些术语仅用来将关键词彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一语音信号也可以被称为第二语音信号，类似地，第二语音信号也可以被称为第一语音信号。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

本发明实施例所提供的技术方案使用的系统如图1所示，主要由客户端和服务器组成，本发明实施例所提供的方法和装置既可以在服务器侧实现，也可以在客户端侧实现。

本发明实施例给出一种语音信号的处理方法，请参考图2，其为本发明实施例所提供的语音信号的处理方法的流程示意图，如图所示，该方法包括以下步骤：

S201，获得文本信息。

S202，对所述文本信息进行转换处理，以获得第一语音信号。

S203，对所述第一语音信号进行变音处理，以获得第二语音信号。

基于上述语音信号的处理方法，本发明实施例对S201的方法进行具体描述。该步骤具体可以包括：

本发明实施例中，为了实现能够向用户提供语音格式的互联网资源，需要获得文本信息。例如，该文本信息可以为文本格式的互联网资源。

举例说明，本发明实施例中获得文本信息的方法可以包括但不限于以下三种：

第一种：请参考图3，其为本发明实施例所提供的语音信号的处理方法的实施例一的流程示意图，如图所示，利用爬虫工具从互联网上获取网页内容，将获取到的网页内容作为等待处理的文本信息。其中，爬虫工具可以包括但不限于传统爬虫工具和聚焦爬虫工具。

第二种：如图3所示，通过调用能够提供文本信息的服务器所提供的应用程序编程接口(Application Programming Interface，API)，从该服务器获得文本信息。

例如，提供新闻信息的服务器所提供的新闻API。

再例如，提供小说的服务器所提供的小说API。

第三种：接收用户配置的文本信息。

基于上述语音信号的处理方法，本发明实施例对S202的方法进行具体描述。该步骤具体可以包括：

如图3所示，在获得文本信息后，需要对获得的文本信息进行转换处理，以获得第一语音信号；其中，该文本信息相当于文本格式的互联网资源，该第一语音信号相当于语音格式的互联网资源。

可以理解的是，通过将文本信息自动转换成第一语音信号，用以避免现有技术中需要依据文本信息人工录制第一语音信号的问题，从而解决语音格式的互联网资源的获取效率较低的问题。

举例说明，本发明实施例中，可以但不限于利用从文本到语音(Text ToSpeech，TTS)技术对获得的文本信息进行转换处理，以获得第一语音信号，其具体实现方法可以包括但不限于：

首先，对所述文本信息进行分析处理，以获得文本分析结果和发音提示信息。这里主要是模拟人对自然语言的理解过程，分析处理可以包括但不限于对文本进行规整处理、词语切分处理、语法分析和语义分析。

然后，依据所述发音提示信息，获得语音信号特征。这里，用于为合成语音操作规划出语音信号特征，如音高、音长和音强等，使合成语音能够真确表达出语义，听起来更加自然，用以模仿自然人在念读文本时的声调、语气、停顿方式、发音长短等韵律特征。

最后，依据所述文本分析结果、发音提示信息和所述语音信号特征，进行语音合成处理，以获得所述第一语音信号。这里，需要按照前两部分处理结果的要求输出语音信号，即进行语音信号的合成。

基于上述语音信号的处理方法，本发明实施例对S203的方法进行具体描述。该步骤具体可以包括：

如图3所示，本发明实施例中，为了提高语音信号的多样性，需要在获得第一语音信号之后，对该第一语音信号进行变音处理，以获得第二语音信号。

举例说明，对第一语音信号进行变音处理，以获得第二语音信号的方法可以包括但不限于：首先，获得变音参数。然后，依据获得的变音参数，对第一语音信号进行变音处理，以获得第二语音信号。

优选的，所述变音参数可以包括但不限于以下参数中至少一个：音效、音色、音调和音速。

其中，所述音效指的是语音信号所制造的效果，用于增进场面的真实感、气氛等，通过对音效的改变可以改善语音信号的质量。所述音效可以包括但不限于均衡器特征参数、混响特征参数和3D环绕声特征参数中至少一个。

其中，所述音色是表征语音信号个性化的最重要的特征。音色可以包括但不限于共振峰的位置、共振峰的带宽、频谱倾斜率、基音频率中至少一个。

其中，所述音调是声音的频率高低。所述音调主要由声音的频率决定，如第一语音信号的基音频率和共振峰频率。

其中，所述音速指的是语音信号的传播速度，与语音信号的振幅、频率、振动方式有关；该振动方式可以包括纵波音速、横波音速等。

举例说明，获得变音参数的方法可以包括但不限于以下两种：

第一种：获得输入的所述变音参数。

例如，显示变音参数的输入框，然后获得用户输入的变音参数。或者，显示变音参数的选项框，然后获得用户选出的变音参数。

第二种：获得变音模式，依据所述变音模式在变音资源库中进行匹配，以获得所述变音模式对应的变音参数。

其中，可以显示至少一种变音模式，然后接收用户在至少一种变音模式中选出的一种变音模式。或者，也可以获得预先设置的变音模式。

如图3所示，在获得变音模式之后，可以依据该变音模式在变音资源库中进行匹配，可以获得该变音模式对应的变音参数。优选的，所述变音资源库中可以包括但不限于至少一个变音模式，以及每个变音模式所对应的变音参数。

再例如，终端显示的变音模式可以包括但不限于“加菲猫”、“汤姆猫”、“机器猫”、“林志玲”和“梁朝伟”五种，用户选择“汤姆猫”，则依据选择的“汤姆猫”，获得“汤姆猫”对应的变音参数。

举例说明，依据变音参数，对第一语音信号进行变音处理，以获得第二语音信号的方法可以包括但不限于：首先，依据获得的所述变音参数，确定所述第一语音信号中需要修改的至少一个语音信号特征值。然后，依据所述变音参数，修改所述至少一个语音信号特征值，以获得所述第二语音信号。

优选的，所述语音信号特征值可以包括但不限于以下特征值中至少一个：音效、音色、音调和音速。

需要说明的是，依据获得的变音参数，才可以确定需要对第一语音信号中哪些语音信号特征值进行修改，从而才能将语音信号特征值修改为变音参数所指定的那些数值，修改后的第一语音信号称为第二语音信号。

例如，变音参数为音调，则确定需要进行修改的语音信号特征值是第一语音信号的音调。

再例如，变音参数为因素，则确定需要进行修改的语音信号特征值是第一语音信号的音速。

需要说明的是，本发明实施例中，若获得的变音参数中包含有音效，那么依据语音参数中包含的该音效，既可以在第一语音信号中新增加音效，也可以对第一语音信号的音效进行调整。

可以理解的是，变音处理实际上是对第一语音信号的语音信号特征值进行改变，使得改变后获得的第二语音信号在感官上与第一语音信号不同。

例如，对均衡器特征参数进行修改的方法可以是：利用分析滤波器(AnalysisFilter Band，AFB)对输入的第一语音信号进行分析滤波处理，以获得N个频带(Band)，然后依据获得的变音参数中均衡器的具体数值，对每个频带的增益值(Gain)进行修改，最后利用合成滤波器(Synthesis Filter Band，SFB)对修改了增益值的N个频带进行合成滤波处理后，就可以得到第二语音信号。其中，N可以为大于或者等于2的整数。

再例如，混响特征参数可以是在对第一语音信号进行混响处理的过程中，对有限长单位冲激响应(Finite Impulse Response，FIR)滤波器和无限脉冲响应(Infinite Impulse Response，IIR)数字滤波器中至少一个滤波器的特征参数进行修改，以获得第二语音信号。其中，滤波器的特征参数可以包括滤波器自身参数和增益值中至少一个。

再例如，可以通过修改第一语音信号的声源位置和/或声场宽度实现第一语音信号的3D环绕声的修改。

例如，可以通过修改共振峰的位置、共振峰的带宽、频谱倾斜率、基音频率中至少一个，来实现对第一语音信号的音色的修改，以获得第二语音信号。

再例如，对第一语音信号进行音速修改处理，以获得第二语音信号的方法可以是：可以通过修改第一语音信号的振幅、频率和振动方式中至少一个，来实现对第一语音信号的音速的修改，以获得第二语音信号。

再例如，对第一语音信号进行音调修改，以获得第二语音信号的方法可以是：音调修改包括变调处理和时长规整两个步骤。首先，利用改变采样率的方法实现第一语音信号的变调处理，然后采用同步叠加(Synchronous Overlap-and-add，SOLA)算法实现时长规整。

例如，可以通过基于时域抽取或者内插的方法实现改变采样率。通过在相邻两个采样点之间线性插入新的采样点来达到增加采样率的目的，或者通过每间隔一定时间抽取一些采样点来达到降低采样率的目的。增加采样率可以实现第一语音信号的频谱的压缩，起到降低音调的作用；降低采样率可以实现第一语音信号的频谱的扩展，起到升高音调的作用。

或者，也可以将时域抽取与内插相结合，以实现任意倍数频率的变调处理。假设变调前频率为f₀，变调后频率为f，变调系数为α，假设α＝M×L，M和L均为正整数。要实现任意有理数倍的频率的变调，可以采用如下公式：

\{\begin{matrix} x_{1} (n) = x ([\frac{n}{L}]) + \frac{\mod (n, L)}{L} \\ y (n) = x_{1} (M \times n^{'}) \end{matrix} \times {x ([\frac{n}{L} + 1] - x (\frac{n}{L}))}

其中，n＝0,1,2,…,(N-1)×L+1；

其中，N表示帧长，[]表示取整运算；当M＞L时，实现提升音调，当M＜L时，实现降低音调。x₁(n)表示输入的第一语言信号，y(n)表示输出的第二语音信号。

需要说明的是，为了保证变调处理的实时性，帧长N的取值不易过大。另外，由于对第一语音信号进行改变采样率之后，在变调处理的同时也会改变第一语音信号的播放时间，所以需要对变调后的第一语音信号进行时长规整，从而得到第二语音信号。

另外，在获得第二语音信号后，若上述操作在服务器侧实现，服务器需要将第二语音信号发送给客户端，以使得客户端可以通过扬声器播放该第二语音信号。或者，若上述操作在客户端侧实现，客户端可以直接通过扬声器播放该第二语音信号。

需要说明的是，本发明实施例中所涉及的终端可以包括但不限于个人计算机(Personal Computer，PC)、个人数字助理(Personal Digital Assistant，PDA)、无线手持设备、平板电脑(Tablet Computer)、手机、MP3播放器、MP4播放器等。

需要说明的是，S201～S203的执行主体可以为语音信号的处理装置，该装置可以位于本地终端的应用，或者还可以为位于本地终端的应用中的插件或软件开发工具包(Software Development Kit，SDK)等功能单元，或者还可以位于服务器，本发明实施例对此不进行特别限定。

可以理解的是，所述应用可以是安装在终端上的应用程序(nativeApp)，或者还可以是终端上的浏览器的一个网页程序(webApp)，本发明实施例对此不进行限定。

本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。

请参考图4，其为本发明实施例所提供的语音信号的处理装置的功能方块图。如图所示，该装置包括：

信息获取模块401，用于获得文本信息；

信息转换模块402，用于对所述信息获取模块获得的所述文本信息进行转换处理，以获得第一语音信号；

语音变音模块403，用于对所述信息转换模块获得的所述第一语音信号进行变音处理，以获得第二语音信号。

优选的，所述语音变音模块403，具体用于：

优选的，所述语音变音模块403用于获得变音参数时，具体用于：

获得输入的所述变音参数；或者，

优选的，所述语音变音模块403用于依据所述变音参数，对所述第一语音信号进行变音处理，以获得第二语音信号时，具体用于：

优选的，所述信息转换模块402，具体用于：

依据所述发音提示信息，获得语音信号特征；

由于本实施例中的各单元能够执行图2所示的方法，本实施例未详细描述的部分，可参考对图2的相关说明。

本发明实施例的技术方案具有以下有益效果：

另外，本发明实施例提供的技术方案可以依据用户的选择将第一语音信号处理为个性化语音信号，以满足用户的趣味性需求。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种语音信号的处理方法，其特征在于，所述方法包括：

获得文本信息；

对所述文本信息进行转换处理，以获得第一语音信号；

对所述第一语音信号进行变音处理，以获得第二语音信号。

2.根据权利要求1所述的方法，其特征在于，所述对所述第一语音信号进行变音处理，以获得第二语音信号，包括：

3.根据权利要求2所述的方法，其特征在于，所述获得变音参数，包括：

获得输入的所述变音参数；或者，

4.根据权利要求2所述的方法，其特征在于，所述依据所述变音参数，对所述第一语音信号进行变音处理，以获得第二语音信号，包括：

5.根据权利要求1所述的方法，其特征在于，所述对所述文本信息进行转换处理，以获得第一语音信号，包括：

依据所述发音提示信息，获得语音信号特征；

6.一种语音信号的处理装置，其特征在于，所述装置包括：

信息获取模块，用于获得文本信息；

7.根据权利要求6所述的装置，其特征在于，所述语音变音模块，具体用于：

8.根据权利要求7所述的装置，其特征在于，所述语音变音模块用于获得变音参数时，具体用于：

获得输入的所述变音参数；或者，

9.根据权利要求7所述的装置，其特征在于，所述语音变音模块用于依据所述变音参数，对所述第一语音信号进行变音处理，以获得第二语音信号时，具体用于：

10.根据权利要求6所述的装置，其特征在于，所述信息转换模块，具体用于：

依据所述发音提示信息，获得语音信号特征；