CN109903748A

CN109903748A - 一种基于自定义语音库的语音合成方法及装置

Info

Publication number: CN109903748A
Application number: CN201910113373.2A
Authority: CN
Inventors: 吴壮伟
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-02-14
Filing date: 2019-02-14
Publication date: 2019-06-18

Abstract

本发明公开了一种基于自定义语音库的语音合成方法及装置。其中，一种基于自定义语音库的语音合成方法如下：分别在每一个场景类别下训练对应的语音模型，所述场景类别的数量为至少一个；判断所需场景，选择所述场景类别下的所述语音模型；所述语音模型接收外部信息输入，并根据外部信息输出符合所需场景的合成语音。以上方案中用户构建语音库，并划分为多种场景类别，基于场景类别的语音素材，从而训练出该场景模式下的语音模型，具有用户自定义训练，多声音输出等特点。同时地，该语音合成方法还包括自学习建模过程，能够应对当前场景，具有声音输出自然贴切等特点。

Description

一种基于自定义语音库的语音合成方法及装置

技术领域

本发明涉及语音处理领域及语音处理装置，特别是涉及一种基于自定义语音库的语音合成方法及装置。

背景技术

语音处理技术是以语音语言学和数字信号处理作为基础的一门综合性学科。语音合成技术的日益成熟，一方面使其在人们的生活中得到了越来越广泛的应用，而另一方面也使人们对语音合成系统的要求越来越高。

另外，申请号为201711205386.X、公开日为2018.04.20的语音合成方法和装置的专利申请中提出了一种技术方案，通过将待处理文本的音素序列输入至预先训练的语音模型，以便得到与音素序列中的每一个音素相对应的声学特征，而后基于预置的、音素与语音波形单元的索引确定与每一个音素相对应的至少一个语音波形单元，并基于该音素对应的声学特征和预设的代价函数，确定该音素对应的目标语音波形单元，最后将各个音素对应的目标语音波形单元进行合成，生成语音。然而合成声音仍然存在声音过于机械、不能自然贴切地据不同场景改变等问题。

发明内容

本发明主要解决的技术问题是提供一种基于自定义语音库的语音合成方法及装置，能够解决传统方法合成然而合成声音仍然存在声音过于机械、不能自然贴切地据不同场景改变的问题。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种基于自定义语音库的语音合成方法，方法如下：

分别在每一个场景类别下训练对应的语音模型，所述场景类别的数量为至少一个；

判断所需场景，选择所述场景类别下的所述语音模型；

所述语音模型接收外部信息输入，并根据外部信息输出符合所需场景的合成语音。

其中，在每一个场景类别下训练对应的语音模型的方法如下：

建立语音数据库；

所述语音数据库接收自定义的语音素材并存储，所述语音素材包括文本信息以及与文本信息相对应的声音信息；

提取所述声音信息的声学特征进行分类聚合，并将具有相同或相近声学特征所对应的语音素材归类为不同的场景类别；

通过不同场景类别的语音素材，训练出每一个场景类别下对应的语音模型，所述语音模型用于表征音素序列中的每一音素与声学特征的对应关系。

其中，在每一个场景类别下训练对应的语音模型的方法，还包括：

获取任一场景的语音，根据所述语音获得当前场景类别下的语音素材，并训练出当前场景类别下对应的语音模型；

若当前场景类别下的的语音素材与已存在的场景类别下的语音素材相同或相近，则用当前场景下对应的语音模型替换已存在的场景类别下对应的语音模型；

若当前场景类别下的的语音素材与已存在的场景类别下的语音素材不相同或不相近，则将当前场景类别归类为新的场景类别。

其中，所述语音模型的训练方法如下：

语音素材中的文本信息转换为音素序列，所述音素序列作为输入源，声音信息提取的声学特征作为输出源，利用机器学习方法，训练得到相应的语音模型。

其中，选择所述场景类别下的所述语音模型的方法为：

选择上一次输出符合所需场景的合成语音的语音模型，或

随机选择所有场景类别下对应的语音模型。

其中，外部信息包括文本信息或语音信息；

文本信息转换为音素序列，语音模型根据所述音素序列输出所述语音模型对应场景类别下的合成语音；

语音信息转换为中间文本信息，中间文本信息转换为中间音素序列，语音模型根据所述中间音素序列输出所述语音模型对应场景类别下的合成语音。

为解决上述技术问题，本发明还采用的一个技术方案是：提供一种基于自定义语音库的语音合成装置，其特征在于，包括，

信息输入模块，用于接收文本信息或语音信息，生成音素序列，并输送至语音模型存储模块；

语音模型存储模块，存储至少一个场景类别对应的语音模型，用于接收音素序列，并输入至相应的语音模型；

语音输出模块，用于输出通过语音模型得到的合成语音。

其中，还包括，

语音库模块，用于存储和管理自定义的语音素材，所述语音素材包括文本信息以及与文本信息相对应的声音信息；

语音模型训练模块，用于训练出语音模型，所述语音模型用于表征音素序列中的每一音素与声学特征的对应关系。

语音信息预处理模块，用于语音信息的滤波、以及将滤波后的语音信息转换为中间文本信息。

为解决上述技术问题，本发明还采用的一个技术方案是：提供一种基于语音合成设备，包括，

一个或多个处理器；

存储器，用于存储一个或多个程序，使得一个或多个处理器实现上述的语音合成方法。

为解决上述技术问题，本发明还采用的一个技术方案是：提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的语音合成方法。

以上方案中的一种基于自定义语音库的语音合成方法及装置，用户构建语音库，并划分为多种场景类别，基于场景类别的语音素材，从而训练出该场景模式下的语音模型，具有用户自定义训练，多声音输出等特点。

同时地，该语音合成方法还包括自学习建模过程，能够应对当前场景，具有声音输出自然贴切等特点。

附图说明

为了更清楚地说明本发明的方案，下面将对实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一种基于自定义语音库的语音合成方法一实施例的流程图；

图2为图1实施例中在每一个场景类别下训练对应的语音模型的方法的流程图；

图3为图2实施例中在每一个场景类别下训练对应的语音模型的方法的附加步骤的流程图；

图4为一种基于自定义语音库的语音合成装置一实施例的硬件结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

下面结合附图和实施方式对本发明进行详细说明。

请参阅图1，图1为一种基于自定义语音库的语音合成方法一实施例的流程图。

本实施例的一种基于自定义语音库的语音合成方法，方法如下：

S101：分别在每一个场景类别下训练对应的语音模型，所述场景类别的数量为至少一个；

上述的场景类别，可以包括有播音场景，聊天场景，娱乐场景等不同情境下的场景。

S102：判断所需场景，选择所述场景类别下的所述语音模型；

该判断所需场景，可以通过人工选择判断，也可以系统自动判断。

若采用用户人工判断，则人工根据当前场景类型选择对应场景类型下的语音模型，而则在外部信息输入后，用户认为当初选择的场景类别不合适，也可以再次发送重新选择语音模型指令，重新进行语音模型的选择输出。系统在接收到用户的选择指令后，调出语音模型选项，以供用户进行选择。系统在获取用户确认某一语音模型指令，则用以合成语音，并输出声音。

而系统自动判断，是在进行多次外部信息输入后之后，通过机器学习方法或预加载的上下文识别算法，系统会根据上下文判断场景类别，是否对应于某一种语音模型，若与当前使用的语音模型不符时，则发送选择语音模型指令给用户，确认是否要更换更为相符合的语音模型，用户进行确认后，更改为相符合的语音模型；或者，用户预先设置为默认自动更换语音模型，则自动进行语音模型的更换。

S103：所述语音模型接收外部信息输入，并根据外部信息输出符合所需场景的合成语音。

比如，输入“您好！欢迎使用语音合成！”(文本或语音)，在播音模式的语音模型下，从而能够输出具有严肃的声音输出。

当转换为聊天模式的语音模型时，也即改变声音输出，具有平缓的声音输出。

如果外部信息输入的为语音，通过语音模型输出的声音相当于对该语音进行不同场景类型下的处理，这种使用方式可以用于进行配音、广播等艺术创作等领域。

其中，外部信息包括文本信息或语音信息；

音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看，音素是从音质角度划分出来的最小语音单位。从生理性质来看，一个发音动作形成一个音素。而音素序列包括为多个音素的集合。

音素序列输入训练好的语音模型中，由于语音模型是表征音素与每一音素与声学特征的对应关系，则通过对应的语音模型能够得到一段音素序列对应的声学特征信号，从而利用该声学特征信号合成对应场景类型下的合成语音。

上述方案中，在不同的场景类型下具有不同的语音模型，该语音模型基于对应场景类型下的语音素材进行训练，因此能够将因素序列转换为更为贴合当前场景的声学特征信号，从而让语音的输出更加自然生动。

请参阅图2，图2为图1实施例中在每一个场景类别下训练对应的语音模型的方法的流程图。

进步一地，在每一个场景类别下训练对应的语音模型的方法如下：

S201：建立语音数据库；

语音库用于存储用户预置的语音素材，其中，上述的语音素材包括文本信息及与文本信息相对应的声音信息。并且通过数据库管理工具，从而能够对语音数据库中的语音素材进行增加、删除、查找或更新等数据操作。

S202：所述语音数据库接收自定义的语音素材并存储，所述语音素材包括文本信息以及与文本信息相对应的声音信息；

该文本信息以及文本相对应的声音信息，可以是用户预先在多种场景下进行收录的声音以及将该声音对应的文字，同一文字信息可以对应于多个声音信息，该声音信息可以根据不同场景、情绪、上下文等因素有所变化，从而具备不同的声学特征。

S203：提取所述声音信息的声学特征进行分类聚合，并将具有相同或相近声学特征所对应的语音素材归类为不同的场景类别；

对语音素材中的声音信息进行声学特征提取，比如，将具有相同或相似的声色和/或声调的语音素材进行分类聚合，归为一种场景类别。

声学特征包括但不限于韵律特征(语速、过零率、能量、基频、共振峰)和MFCC(MEL频率倒谱系数)。

MFCC在一定程度上模拟了人耳对语音的处理特点，是一种特征，这个特征在自动语音和说话人识别中广泛的使用。

对于人类来说，人类听觉的感知至聚焦在某些特定的区域而不是整个频谱包络，而MEL频率分析就是基于人类听觉感知实验的。实验观测发现人耳就像一个滤波器组一样，它只关注某些特定的频率分量。它在低频区域有很多的滤波器，在高频区域则较少。

人耳听觉的特性与Mel频率的增长一致，Mel滤波器(用于提取MFCC)能向人一样的去提取声学特征。

S204：通过不同场景类别的语音素材，训练出每一个场景类别下对应的语音模型，所述语音模型用于表征音素序列中的每一音素与声学特征的对应关系。

上述的语音模型可以利用机器学习方法进行监督训练现有的通用模型得到语音模型，通用模型包括但不限于PAD三维情绪模型等。

上述的技术方案中，详述了语音模型训练的具体方法，通过对声学特征的提取，将具有相似声色或/和声调的语音素材进行分类聚合，得到不同的语音模型，不同的语音模型可以对应为不同的场景类别。这样在同一个场景类别中，能够产生具有相同或相似的声学特征信息，进而根据该相同或相似声学特征信息生成的合成语音能够相比采用别的语音模型生成的合成语音更加符合该场景类别中对声音分类。

请参阅图3，图3为图2实施例中在每一个场景类别下训练对应的语音模型的方法的附加步骤的流程图。

进一步地，在每一个场景类别下训练对应的语音模型的方法，还包括：

S301：获取任一场景的语音，根据所述语音获得当前场景类别下的语音素材，并训练出当前场景类别下对应的语音模型；

该步骤为进一步训练语音模型，但是所选取的数据源并不是用户自定义的语音素材，而是在特定场景中所录制的语音，由于录制的场景类型已知，因此能够专门针对某种场景类型对应的语音模型进行训练。

S302：若当前场景类别下的的语音素材与已存在的场景类别下的语音素材相同或相近，则用当前场景下对应的语音模型替换已存在的场景类别下对应的语音模型；

由于语音素材来源于真实场景，从而能够使得语音合成的声音输出更贴近于真实场景。

上述的，语音素材相同或相近的判断为：对语音素材中的声音信息进行特征提取，比如，将具有相同或相似的声色和/或声调的语音素材进行分类聚合，若当前场景的大部分语音素材能够归为某一已存在的场景类别时，则，判定为相同或相近。

比如，获取播音室内的语音作为语音素材时，构建当前场景的语音模型，并替换已存在的播音声景下的语音模型。

当然，在做出这一操作之前，可以根据需要获取用户的确认指令，否则不进行替换操作。

S303：若当前场景类别下的的语音素材与已存在的场景类别下的语音素材不相同或不相近，则将当前场景类别归类为新的场景类别。

上述技术方案中，为进一步训练语音模型，所选取的数据源是在特定场景中所录制的语音，由于录制的场景类型已知，因此能够专门针对场景类型对应的语音模型进行训练。从而得到更加完善的语音模型，能够输出更加自然状态下的合成语音，并且通过不断训练新的语音模型，替换旧的语音模型，使系统得到良性进步。

用户事先收集大量的语音素材，该语音素材分别对应为不同场景类型。但是，有哪些场景类型事先均未知。

选用通用模型，将语音素材中音素序列作为该通用模型的输入，而对应声音信息中的声学特征对应输出，训练该通用模型，并通过听辨语音素材或者语音素材本身的标注，将训练得到的语音模型分别对应归类到不同场景类型下。

然后，用户可以根据上述得到的场景类型，专门针对各场景类型采集语音，并将不同场景类型下的语音作为语音素材，进一步对不同场景类型对应的语音模型进行训练并替换旧的语音模型。

语音模型训练结束后，可将一段文本信息根据所需的场景类型合成贴合该场景类型的语音，或者可以将一段语音信息，根据所需的场景类型转换并合成贴合该场景类型的语音。

而场景类型的选择，则可以人工进行选择，或者根据上下文进行场景类型判断，进行自动转换或人工确认后转换。

场景类型判断的方法可以采用现有自然语言处理模型或类似算法等进行判断。

请参阅图4，图4为一种基于自定义语音库的语音合成装置一实施例的硬件结构示意图，包括，

信息输入模块401、语音模型存储模块402和语音输出模块403一次电性连接。

信息输入模块401，用于接收文本信息或语音信息，生成音素序列，并输送至语音模型存储模块；

上述的信息输入模块401，是输入数据和信息的设备，包括但不限于键盘、鼠标、光笔、手写输入板等文本信息输入装置，以及麦克风、相机、录音笔等语音输入装置。

语音模型存储模块402，存储至少一个场景类别对应的语音模型，用于接收音素序列，并输入至相应的语音模型；

上述的语音模型存储模块402，为至少一种类型的可读存储介质。用于将多种语音模型作为数据类型存储至数据库，以能够对语音模型进行增加、删除、查找或更新等操作。

语音输出模块403，用于输出通过语音模型得到的合成语音。

上述的语音输出模块403，为扬声器、喇叭、音响等语音输出装置。

上述的信息输入模块401、语音模型存储模块402和语音输出模块402分别集成有或共同集成有至少一个处理器，用于实现对输入信息通过语音模型得到合成语音的过程。

进一步地，还包括，语音库模块404，用于存储和管理自定义的语音素材，所述语音素材包括文本信息以及与文本信息相对应的声音信息；

语音模型训练模块405，用于训练出语音模型，所述语音模型用于表征音素序列中的每一音素与声学特征的对应关系。

其中，语音库模块404与语音模型训练模块405电性连接、语音模型训练模块405与语音模型存储模块402电性连接。

上述的，语音模型训练模块405可以是包括至少一个处理器在内的电路，还可以是包括至少一个单片机在内的电路，也可以为多种电路或者芯片的组合形式，只要可以实现相应功能即可。可以理解的是，对于本领域技术人员来说，还可以为常见的由CPU、MCU、晶振、电阻器、电容器、放大器、比较器、三极管、MOS管等常见电子元器件，以任意一种组合方式组合且电连接的电路以纯粹硬件方式实现其相应的功能。

其中，语音模型训练模块还可以集成有至少一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。

进一步地，还包括，语音信息预处理模块406，用于语音信息的滤波、以及将滤波后的语音信息转换为中间文本信息。

语音信息预处理模块406位于信息输入模块401和语音模型存储模块402之间，分别与信息输入模块401和语音模型存储模块402之间电性连接。

语音信息预处理模块可以是包括至少一个处理器在内的电路，还可以是包括至少一个单片机在内的电路，也可以为多种电路或者芯片的组合形式，只要可以实现下述功能即可，对信息输入模块获取当前的语音后，对语音做预处理。以音色和/或音调作为判断条件，滤去细小杂音，以重点突出主要声音。将语音进行语音识别，以获得相对应文本信息，和与该文本信息相对应的声音信息。以该语音作为源素材，训练出当前场景模式的语音模型。

进一步地，一种基于语音合成设备，包括，

一个或多个处理器；

所述处理器在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。

上述的存储器至少包括一种类型的可读存储介质，在一些实施例中，所述存储器可以是所述计算机设备的内部存储单元，例如计算机设备的硬盘或内存。在另一些实施例中，所述存储器也可以是所述计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。

进一步地，一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的语音合成方法。

该计算机可读介质可以是上述实施例中描述的装置中所包含的，也可以是单独存在，而未装配入该装置中。

在本发明所提供的几个实施方式中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本发明各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于自定义语音库的语音合成方法，其特征在于，方法如下：

判断所需场景，选择所述场景类别下的所述语音模型；

2.根据权利要求1所述的一种基于自定义语音库的语音合成方法，其特征在于，在每一个场景类别下训练对应的语音模型的方法如下：

建立语音数据库；

3.根据权利要求2所述的一种基于自定义语音库的语音合成方法，其特征在于，在每一个场景类别下训练对应的语音模型的方法，还包括：

4.根据权利要求2所述的一种基于自定义语音库的语音合成方法，其特征在于，所述语音模型的训练方法如下：

5.根据权利要求1所述的一种基于自定义语音库的语音合成方法，其特征在于，选择所述场景类别下的所述语音模型的方法为：

选择上一次输出符合所需场景的合成语音的语音模型，或

随机选择所有场景类别下对应的语音模型。

6.根据权利要求2所述的一种基于自定义语音库的语音合成方法，其特征在于，外部信息包括文本信息或语音信息；

7.一种基于自定义语音库的语音合成装置，其特征在于，包括，

语音输出模块，用于输出通过语音模型得到的合成语音。

8.根据权利要求7所述的一种基于自定义语音库的语音合成装置，其特征在于，还包括，

语音模型训练模块，用于训练出语音模型，所述语音模型用于表征音素序列中的每一音素与声学特征的对应关系；

9.一种基于语音合成设备，其特征在于，包括，

一个或多个处理器；

存储器，用于存储一个或多个程序，使得一个或多个处理器实现权利要求1-6任一一项所述的语音合成方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一一项所述的语音合成方法。