CN108847215B

CN108847215B - 基于用户音色进行语音合成的方法及装置

Info

Publication number: CN108847215B
Application number: CN201810996446.2A
Authority: CN
Inventors: 吴千瑜
Original assignee: Beijing Yunzhisheng Information Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2018-08-29
Filing date: 2018-08-29
Publication date: 2020-07-17
Anticipated expiration: 2038-08-29
Also published as: CN108847215A

Abstract

本发明提供了一种基于用户音色进行语音合成的方法及装置，其中，该方法包括：获取用户输入的用户音频数据，并确定用户音频数据的用户音色特征；根据用户音色特征和测试数据合成与测试数据对应的测试音频数据并播放，并接收用户指向测试音频数据的播放调整指令；根据播放调整指令修正用户音色特征，将修正后的用户音色特征作为最终的标准音色特征；根据标准音色特征和待播放数据合成与待播放数据对应的目标音频数据并播放。该方法提取用户的音色特征并基于用户的音色特征来播放音频数据，从而可以模仿用户发声，提高播放音频时的真实性；基于用户的播放调整指令可对音色特征进行调整，使得最终播放音频数据时更加符合用户的特征和需求。

Description

基于用户音色进行语音合成的方法及装置

技术领域

本发明涉及语音处理技术领域，特别涉及一种基于用户音色进行语音合成的方法及装置。

背景技术

随着智能设备的普及，目前大多数智能设备(比如智能手机、机器人等)具有自动发音功能。但目前大部分智能设备只是单纯的发出机器声音，对于需要通过语音进行人机交互的智能设备，机器声音比较单调乏味，听起来没有自然语言那样生动形象，且过于生硬，并不能体现出用户本身的特色。而现有智能设备并不支持用户自主改变机器发声的音色。

发明内容

本发明提供一种基于用户音色进行语音合成的方法及装置，用以解决用户不能自主改变机器发声的音色的缺陷。

本发明提供的一种基于用户音色进行语音合成的方法，包括：

获取用户输入的用户音频数据，并确定所述用户音频数据的用户音色特征；

根据所述用户音色特征和测试数据合成与所述测试数据对应的测试音频数据并播放，并接收用户指向所述测试音频数据的播放调整指令；

根据所述播放调整指令修正所述用户音色特征，将修正后的用户音色特征作为最终的标准音色特征；

根据所述标准音色特征和待播放数据合成与所述待播放数据对应的目标音频数据；

获取用户输入的发送指令，所述发送指令中包括音频接收端标识；

将所述目标音频数据发送给所述音频接收端标识所对应的音频接收端，由所述音频接收端将所述目标音频数据作为自身的音频播放源。

在一种可能的实现方式中，所述获取用户输入的用户音频数据包括：

以预设采样率依次采集当前的环境噪声和用户音频数据，所述预设采样率不小于预设阈值；

在所述环境噪声和所述用户音频数据的幅值均不超过相应的预设幅值时，根据所述环境噪声和所述用户音频数据确定信噪比；

在所述信噪比不小于预设信噪比阈值时，将当前采集的所述用户音频数据作为有效的用户音频数据。

在一种可能的实现方式中，在所述信噪比不小于预设信噪比阈值时，将当前采集的所述用户音频数据作为有效的用户音频数据包括：

根据所述环境噪声对所述用户音频数据进行补偿处理，将补偿处理后的用户音频数据作为最终有效的用户音频数据。

分段获取用户输入的用户音频子数据，将所有的所述用户音频子数据组合成为与所述用户对应的用户音频数据。

在一种可能的实现方式中，所述将所有的所述用户音频子数据组合成为与所述用户对应的用户音频数据包括：

对每段用户音频子数据进行声纹识别处理，并确定每段用户音频子数据的声纹特征；

分别确定当前用户音频子数据与其他用户音频子数据之间的声纹特征相似度，在所述当前用户音频子数据的声纹特征相似度小于预设相似度的相似度数量大于预设数值或预设比例时，将所述当前用户音频子数据作为无效的用户音频子数据；

清除无效的用户音频子数据，并将剩余的所有的用户音频子数据组合成为与所述用户对应的用户音频数据。

基于同样的发明构思，本发明还提供一种基于用户音色进行语音合成的装置，包括：

获取模块，用于获取用户输入的用户音频数据，并确定所述用户音频数据的用户音色特征；

第一合成模块，用于根据所述用户音色特征和测试数据合成与所述测试数据对应的测试音频数据并播放，并接收用户指向所述测试音频数据的播放调整指令；

修正模块，用于根据所述播放调整指令修正所述用户音色特征，将修正后的用户音色特征作为最终的标准音色特征；

第二合成模块，用于根据所述标准音色特征和待播放数据合成与所述待播放数据对应的目标音频数据；

第二获取模块，用于获取用户输入的发送指令，所述发送指令中包括音频接收端标识；

发送模块，用于将所述目标音频数据发送给所述音频接收端标识所对应的音频接收端，由所述音频接收端将所述目标音频数据作为自身的音频播放源。

在一种可能的实现方式中，所述第一获取模块包括：

采集单元，用于以预设采样率依次采集当前的环境噪声和用户音频数据，所述预设采样率不小于预设阈值；

处理单元，用于在所述环境噪声和所述用户音频数据的幅值均不超过相应的预设幅值时，根据所述环境噪声和所述用户音频数据确定信噪比；在所述信噪比不小于预设信噪比阈值时，将当前采集的所述用户音频数据作为有效的用户音频数据。

在一种可能的实现方式中，在所述信噪比不小于预设信噪比阈值时，所述处理单元用于：

在一种可能的实现方式中，所述第一获取模块用于：

在一种可能的实现方式中，所述第一获取模块包括：

声纹识别单元，用于对每段用户音频子数据进行声纹识别处理，并确定每段用户音频子数据的声纹特征；

相似度确定单元，用于分别确定当前用户音频子数据与其他用户音频子数据之间的声纹特征相似度，在所述当前用户音频子数据的声纹特征相似度小于预设相似度的相似度数量大于预设数值或预设比例时，将所述当前用户音频子数据作为无效的用户音频子数据；

组合单元，用于清除无效的用户音频子数据，并将剩余的所有的用户音频子数据组合成为与所述用户对应的用户音频数据。

本发明提供的一种基于用户音色进行语音合成的方法及装置，提取用户的音色特征并基于用户的音色特征来播放音频数据，从而可以模仿用户发声，提高播放音频时的真实性；基于用户的播放调整指令可对音色特征进行调整，使得最终播放音频数据时更加符合用户的特征和需求。通过检测环境噪声以及用户音频数据的噪声比来确定用户当前所处的环境是否符合要求，从而可以提高用户音频数据的质量，使得提取的音色特征更加精准，方便用户实时定制自己的音色。通过噪声补偿可有效消除环境噪声对采集的用户音频数据的影响，进一步提高用户音频数据的质量。分段录制用户音频数据，可以降低重录成本，方便用户快速准确地完成录制；基于声纹特征相似度可以剔除无效的音频数据，进一步提高采集音频数据的准确性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中基于用户音色进行语音合成的方法流程图；

图2为本发明实施例中基于用户音色进行语音合成的装置结构图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供的一种基于用户音色进行语音合成的方法，由本地终端执行，该本地终端具体可以为智能手机、平板电脑、掌上电脑、PC等，该方法可依托于安装在本地终端的APP(应用程序)、微信小程序、或其他载体实现，本实施例对此不做限定。参见图1所示，该方法包括步骤101-106：

步骤101：获取用户输入的用户音频数据，并确定用户音频数据的用户音色特征。

本发明实施例中，当用户需要调整设备发声的音色、或者将设备发声的音色改成自己的音色时，可以利用设备(比如智能手机等)的录音功能输入音频数据，即步骤101中的用户音频数据；也可采用其他方式输入，此处不做限定。在获取到用户音频数据后，即可确定该用户音频数据的音色特征，即“用户音色特征”。其中，音色特征一般包括音频数据的频谱特征和基频特征，还可包括幅值特征、声纹特征等。

步骤102：根据用户音色特征和测试数据合成与测试数据对应的测试音频数据并播放，并接收用户指向测试音频数据的播放调整指令。

本发明实施例中，在获取到用户音频数据后还包括试播的过程，即该步骤102。其中，测试数据为用于测试的文本或音频；当测试数据为文本格式时，基于TTS(Text ToSpeech，从文本到语音)技术可将该测试文本转换为语音格式，此时根据该用户音色特征即可生成与该测试文本对应的测试音频数据；若测试数据本身即为音频格式，此时可以基于语音音色变换技术(VC，Voice Conversion)生成与该音频格式的测试数据对应的测试音频数据。之后播放该测试音频数据以方便用户确定该测试音频数据与用户自己的音色特征或播放习惯是否相符。具体的，可基于隐马尔科夫模型(HMM，Hidden Markov Model)构建语音库，进而进行语音合成。

在播放该测试音频数据时，可以接收用户输入的用来调整播放参数的播放调整指令，该播放调整指令具体可用于调整语速、音高、音量中的一项或多项。用户通过播放调整指令来调整测试音频数据的播放情况，以使得更加符合用户自身的特征或需求。例如，用户希望听到更快的播放效果，则可调高语速；若用户听力不是很好，则可适当的调高音量等。当直接生成的测试音频数据与用户的音色特征相符时，用户也可不输入播放调整指令，此时的播放调整指令为空(null)。

步骤103：根据播放调整指令修正用户音色特征，将修正后的用户音色特征作为最终的标准音色特征。

本发明实施例中，根据用户输入的播放调整指令来修正音色特征，可以使得最终生成的音色特征(即标准音色特征)更加符合该用户的特点或需求。

步骤104：根据标准音色特征和待播放数据合成与待播放数据对应的目标音频数据。

本发明实施例中，上述步骤101-103为预处理过程，在完成该预处理过程后即可确定后续语音合成过程所需的标准音色特征。当用户需要播放某个数据(即待播放数据)时，此时基于该标准音色特征即可生成与该待播放数据对应的音频数据，即目标音频数据；播放目标音频数据时可以模仿是该用户在发出相应的声音，可以提高发声的真实性。例如，家长可以设置与自己音色对应的标准音色特征，在需要利用设备给孩子讲故事时，基于家长的音色特征合成目标音频数据并播放，营造家长给孩子讲故事的体验感。其中，合成目标音频数据与上述合成测试音频数据的原理相同，此处不做赘述。

步骤105：获取用户输入的发送指令，发送指令中包括音频接收端标识。

步骤106：将目标音频数据发送给音频接收端标识所对应的音频接收端，由音频接收端将目标音频数据作为自身的音频播放源。

本发明实施例中，在合成目标音频数据后，本地终端可以将该目标音频数据发送至其他设备播放；具体的，用户通过本地终端输入发送指令，之后本地终端将该目标音频数据发送至相应的音频接收端。例如，本地终端可以为智能手机，音频接收端为某一简单的音乐播放设备，比如儿童用的音乐播放玩具或机器人等；本地终端合成具有特定音色的目标音频数据后即可发送至其他的音乐播放设备，使得其他的音乐播放设备也可播放具有用户音色的音频。

本发明实施例提供的一种基于用户音色进行语音合成的方法，提取用户的音色特征并基于用户的音色特征来播放音频数据，从而可以模仿用户发声，提高播放音频时的真实性；基于用户的播放调整指令可对音色特征进行调整，使得最终播放音频数据时更加符合用户的特征和需求。通过将目标音频数据发送至音频接收端，还可使得音频接收端不具有较强处理能力的情况下也可播放具有用户音色的音频。

本发明另一实施例提供一种基于用户音色进行语音合成的方法，该方法包括上述实施例中的步骤101-104，其实现原理以及技术效果参见图1对应的实施例。同时，本发明实施例中，步骤101“获取用户输入的用户音频数据”具体包括步骤A1-A3：

步骤A1：以预设采样率依次采集当前的环境噪声和用户音频数据，预设采样率不小于预设阈值。

步骤A2：在环境噪声和用户音频数据的幅值均不超过相应的预设幅值时，根据环境噪声和用户音频数据确定信噪比。

步骤A3：在信噪比不小于预设信噪比阈值时，将当前采集的用户音频数据作为有效的用户音频数据。

由于一般用户录制声音的环境比较复杂，很难保证用户所在环境没有噪声污染；使用专业录音棚谁会减小噪声影响，但会产生额外的消费、且不方便。本发明实施例中，同时采集环境噪声，以确定用户所处环境是否符合要求。具体的，为了提高采集精度，采集时所使用的预设采样率需要大于预设阈值(例如22050Hz)；其中，可以先采集环境噪声、再采集用户音频噪声。同时，环境噪声和用户音频数据均需要不存在截幅现象，即环境噪声和用户音频数据的幅值均不超过相应的预设幅值；其中，环境噪声和用户音频数据对应的预设幅值可以相同，也可以不同，具体根据实际情况而定。可选的，还可检测混响时长，以避免混响时长过大。

在在环境噪声和用户音频数据的幅值均不超过相应的预设幅值时，说明采集的环境噪声和用户音频数据均符合基本的要求，此时确定信噪比，在用户音频数据的信噪比大于预设信噪比阈值(比如20dB)时，说明用户音频数据中的噪声比较小，此时可以基于该用户音频数据来进行后续处理。

本发明实施例中，通过检测环境噪声以及用户音频数据的噪声比来确定用户当前所处的环境是否符合要求，从而可以提高用户音频数据的质量，使得提取的音色特征更加精准，方便用户实时定制自己的音色。

在上述实施例的基础上，在信噪比不小于预设信噪比阈值时，步骤A3“将当前采集的用户音频数据作为有效的用户音频数据”具体包括：根据环境噪声对用户音频数据进行补偿处理，将补偿处理后的用户音频数据作为最终有效的用户音频数据。

本发明实施例中，通过噪声补偿可有效消除环境噪声对采集的用户音频数据的影响，进一步提高用户音频数据的质量。

在上述实施例的基础上，步骤101“获取用户输入的用户音频数据”中具体可以分段获取数据，具体的，获取用户音频数据的过程包括：分段获取用户输入的用户音频子数据，将所有的用户音频子数据组合成为与用户对应的用户音频数据。

本发明实施例中，可预先设置用户需要录制的内容，用户根据该内容发出相应的声音即可。例如，预设20个句子，用户依次念出每个句子即可，每个句子可以对应一段音频子数据。分段获取用户输入的音频数据(每段对应一个用户音频子数据)，方便用户录制音频，避免因一次性录制时间过长导致出错率过高；同时，某一段的用户音频子数据若存在问题或用户不满意，用户可重新录制，不需要从头全部重新录制，从而降低重录成本，方便用户快速准确地完成录制。

在上述实施例的基础上，“将所有的用户音频子数据组合成为与用户对应的用户音频数据”具体包括步骤B1-B3：

步骤B1：对每段用户音频子数据进行声纹识别处理，并确定每段用户音频子数据的声纹特征。

步骤B2：分别确定当前用户音频子数据与其他用户音频子数据之间的声纹特征相似度，在当前用户音频子数据的声纹特征相似度小于预设相似度的相似度数量大于预设数值或预设比例时，将当前用户音频子数据作为无效的用户音频子数据。

步骤B3：清除无效的用户音频子数据，并将剩余的所有的用户音频子数据组合成为与用户对应的用户音频数据。

本发明实施例中，在确定所有的用户音频子数据的声纹特征后，即可两两确定两段用户音频子数据的声纹特征之间的相似度，若该相似度大于预设相似度，则说明该两段用户音频子数据的声纹相似，是同一个人发出的声音；相反的，若相似度小于预设相似度，则说明该两段用户音频子数据的声纹差异较大，可能是两个人的声音，或者用户在录制某一个音频子数据时因为某些原因导致与自己本身的声纹不同，则该段的用户音频子数据应该删除以避免影响最终结果的准确性。

具体的，在步骤B2中，对于所有用户音频子数据中的一个数据(即当前用户音频子数据)，分别确定该当前用户音频子数据与其他用户音频子数据之间的声纹特征相似度，并确定小于预设相似度的声纹特征相似度的数量(即相似度数量)，该数量表示该当前用户音频子数据与多少个其他用户音频子数据的差异较大；若该相似度数量大于预设数值或相似度数量占总数量的比例大于预设比例时，说明该当前用户音频子数据与较多的其他用户音频子数据是不同的，该当前用户音频子数据可能是异常数据，需要删除。之后在将另一个用户音频子数据作为当前用户音频子数据并执行步骤B2，直至遍历所有的用户音频子数据。

同时，若当确定一个用户音频子数据为无效后立即清除，则后续确定另一个用户音频子数据是否有效时，不能基于该被清除的用户音频子数据作为参考，可能会影响判断是否有效的准确性。故在步骤B3中，在确定所有的无效的用户音频子数据后，一次性清楚无效的用户音频子数据。可选的，若某个用户音频子数据为无效的，可以提醒用户重新录制，直至录制的用户音频子数据为有效的。

本发明实施例提供的一种基于用户音色进行语音合成的方法，提取用户的音色特征并基于用户的音色特征来播放音频数据，从而可以模仿用户发声，提高播放音频时的真实性；基于用户的播放调整指令可对音色特征进行调整，使得最终播放音频数据时更加符合用户的特征和需求。通过检测环境噪声以及用户音频数据的噪声比来确定用户当前所处的环境是否符合要求，从而可以提高用户音频数据的质量，使得提取的音色特征更加精准，方便用户实时定制自己的音色。通过噪声补偿可有效消除环境噪声对采集的用户音频数据的影响，进一步提高用户音频数据的质量。分段录制用户音频数据，可以降低重录成本，方便用户快速准确地完成录制；基于声纹特征相似度可以剔除无效的音频数据，进一步提高采集音频数据的准确性。

以上详细介绍了基于用户音色进行语音合成的方法流程，该方法也可以通过相应的装置实现，下面详细介绍该装置的结构和功能。

本发明实施例提供的一种基于用户音色进行语音合成的装置，参见图2所示，包括：

获取模块21，用于获取用户输入的用户音频数据，并确定用户音频数据的用户音色特征；

第一合成模块22，用于根据用户音色特征和测试数据合成与测试数据对应的测试音频数据并播放，并接收用户指向测试音频数据的播放调整指令；

修正模块23，用于根据播放调整指令修正用户音色特征，将修正后的用户音色特征作为最终的标准音色特征；

第二合成模块24，用于根据标准音色特征和待播放数据合成与待播放数据对应的目标音频数据；

第二获取模块25，用于获取用户输入的发送指令，所述发送指令中包括音频接收端标识；

发送模块26，用于将所述目标音频数据发送给所述音频接收端标识所对应的音频接收端，由所述音频接收端将所述目标音频数据作为自身的音频播放源。

在一种可能的实现方式中，第一获取模块21包括：

采集单元，用于以预设采样率依次采集当前的环境噪声和用户音频数据，预设采样率不小于预设阈值；

处理单元，用于在环境噪声和用户音频数据的幅值均不超过相应的预设幅值时，根据环境噪声和用户音频数据确定信噪比；在信噪比不小于预设信噪比阈值时，将当前采集的用户音频数据作为有效的用户音频数据。

在一种可能的实现方式中，在信噪比不小于预设信噪比阈值时，处理单元用于：

根据环境噪声对用户音频数据进行补偿处理，将补偿处理后的用户音频数据作为最终有效的用户音频数据。

在一种可能的实现方式中，第一获取模块21用于：

分段获取用户输入的用户音频子数据，将所有的用户音频子数据组合成为与用户对应的用户音频数据。

在一种可能的实现方式中，第一获取模块21包括：

相似度确定单元，用于分别确定当前用户音频子数据与其他用户音频子数据之间的声纹特征相似度，在当前用户音频子数据的声纹特征相似度小于预设相似度的相似度数量大于预设数值或预设比例时，将当前用户音频子数据作为无效的用户音频子数据；

组合单元，用于清除无效的用户音频子数据，并将剩余的所有的用户音频子数据组合成为与用户对应的用户音频数据。

本发明提供的一种基于用户音色进行语音合成的装置，提取用户的音色特征并基于用户的音色特征来播放音频数据，从而可以模仿用户发声，提高播放音频时的真实性；基于用户的播放调整指令可对音色特征进行调整，使得最终播放音频数据时更加符合用户的特征和需求。通过检测环境噪声以及用户音频数据的噪声比来确定用户当前所处的环境是否符合要求，从而可以提高用户音频数据的质量，使得提取的音色特征更加精准，方便用户实时定制自己的音色。通过噪声补偿可有效消除环境噪声对采集的用户音频数据的影响，进一步提高用户音频数据的质量。分段录制用户音频数据，可以降低重录成本，方便用户快速准确地完成录制；基于声纹特征相似度可以剔除无效的音频数据，进一步提高采集音频数据的准确性。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于用户音色进行语音合成的方法，其特征在于，包括：

将所述目标音频数据发送给所述音频接收端标识所对应的音频接收端，由所述音频接收端将所述目标音频数据作为自身的音频播放源；

所述获取用户输入的用户音频数据包括：

2.根据权利要求1所述的方法，其特征在于，在所述信噪比不小于预设信噪比阈值时，将当前采集的所述用户音频数据作为有效的用户音频数据包括：

3.根据权利要求1所述的方法，其特征在于，所述获取用户输入的用户音频数据包括：

4.根据权利要求3所述的方法，其特征在于，所述将所有的所述用户音频子数据组合成为与所述用户对应的用户音频数据包括：

5.一种基于用户音色进行语音合成的装置，其特征在于，包括：

第一获取模块，用于获取用户输入的用户音频数据，并确定所述用户音频数据的用户音色特征；

发送模块，用于将所述目标音频数据发送给所述音频接收端标识所对应的音频接收端，由所述音频接收端将所述目标音频数据作为自身的音频播放源；

所述第一获取模块包括：

6.根据权利要求5所述的装置，其特征在于，在所述信噪比不小于预设信噪比阈值时，所述处理单元用于：

7.根据权利要求5所述的装置，其特征在于，所述第一获取模块用于：

8.根据权利要求7所述的装置，其特征在于，所述第一获取模块包括：