CN104485100B

CN104485100B - 语音合成发音人自适应方法及系统

Info

Publication number: CN104485100B
Application number: CN201410797377.4A
Authority: CN
Inventors: 张伟; 顿双保; 于淼; 郭正欧
Original assignee: TIANJIN XUNFEI INFORMATION TECHNOLOGY Co Ltd
Current assignee: TIANJIN XUNFEI INFORMATION TECHNOLOGY Co Ltd
Priority date: 2014-12-18
Filing date: 2014-12-18
Publication date: 2018-06-15
Anticipated expiration: 2034-12-18
Also published as: CN104485100A

Abstract

本发明公开了一种语音合成发音人自适应方法及系统，该方法包括：在接收到需要进行语音合成的待处理文本后，获取用户信息；从原始发音人模型集合中筛选出满足用户信息要求的发音人模型，形成有效发音人模型集合；在有效发音人模型集合中指定一发音人模型播报所述待处理文本。本发明方法及系统可以根据用户信息自适应地调整发音人模型，因此，可使基于本发明方法及系统的语音合成技术激起用户对播报内容的兴趣，并增强用户对播报内容的理解和记忆。

Description

语音合成发音人自适应方法及系统

技术领域

本发明涉及语音合成技术，尤其涉及一种语音合成发音人自适应方法及系统。

背景技术

语音合成技术主要是指将文本转化为语音(text-to-speech，TTS)输出的技术，该技术解决如何将文字信息转化为声音信息的问题，从而变看为听，使得人们获取信息的方式更加丰富和自然。TTS的实现主要包括语言学处理、韵律处理和声学处理，语言学处理在文本转化为语音的过程中起着重要的作用，主要模拟人对自然语言的理解过程，进行文本规整、词的切分、语法分析和语义分析，使计算机对输入的文本能完全理解，并给出韵律处理和声学处理所需要的各种发音提示；韵律处理主要是为合成语音规划出音段特征，如音高、音长和音强等，使合成语音能正确表达语意，听起来更加自然；声学处理则是按照语言学处理结果和韵律处理结果的要求输出语音，即合成语音。TTS与一些用预先录制的声音文件实现发声的应用相比，TTS的发声引擎只有几兆大小，不需要大量的声音文件支持，因此可以节省很大的储存空间，并且可以朗读预先未知的任何语句。现在已经有许多应用利用TTS技术实现语音功能，例如一些播音应用可以用来读小说或者作校对工作，还可以朗读电子邮件。

由于TTS技术最终是将文本转化为语音输出，因此在声学处理过程中就需要指定发音人模型，当前使用TTS技术的应用，其发音人模型的指定主要有以下两种策略：

默认策略：即应用只提供一种发音人模型，大部分应用均是采用该种设定默认发音人模型的策略，例如百度地图，用户在使用百度地图时，一般听到的只有一种发音人声音，不可以通过设置项来改变。该种默认策略存在的缺陷是发音人模型单一，适应性差，用户只能被迫接受系统提供的TTS发音人模型选项。

手动设置策略：即应用支持用户手动切换发音人模型，这类应用比较少，例如灵犀语音助手，该种应用是在设置项中列出可供选择的语言选项，用户可以通过选择具体的语言选项完成TTS发音人模型的修改，目前灵犀语音助手支持中文、粤语的语言选项。该种手动设置策略虽然提高了适应性，但是需要手动设置，增加了用户操作步骤，影响用户体验效果。

发明内容

本发明的实施例针对现有TTS发音人模型指定策略存在的适应性差、操作繁琐的技术问题，提供一种TTS发音人自适应方法及系统。

为实现上述目的，本发明采用的技术方案为：一种语音合成发音人自适应方法，包括：

在接收到需要进行语音合成的待处理文本后，获取用户信息；

从原始发音人模型集合中筛选出满足所述用户信息要求的发音人模型，形成有效发音人模型集合；

在所述有效发音人模型集合中指定一发音人模型播报所述待处理文本，具体包括：对于播报过的待处理文本，在有效发音人模型集合中优先指定最近播报过该待处理文本的发音人模型；对于未播报过的待处理文本，在有效发音人模型集合中优先指定从未播报过的发音人模型，次之选择播报次数最少的发音人模型。

优选的是，所述从原始发音人模型集合中筛选出满足所述用户信息要求的发音人模型，形成有效发音人模型集合包括：

根据所述用户信息中各信息类型的优先级，在原始发音人模型集合中逐层筛选出满足对应信息类型要求的发音人模型，形成有效发音人模型集合。

优选的是，所述用户信息包括用户地理位置坐标、用户性别和用户年龄段中的至少一种。

优选的是，所述用户信息包括用户地理位置坐标；所述方法还包括：

根据所述用户地理位置坐标，确定用户所在地域；

获取对应所述用户所在地域的地方性语言；

将对应所述地方性语言的发音人模型作为满足所述用户地理位置坐标要求的发音人模型。

优选的是，所述用户信息包括用户性别及/或用户年龄段；所述获取用户信息还包括：

获取用户录制的音频数据；

根据所述音频数据获取所述用户性别及/或所述用户年龄段；

所述方法还包括：

将异性发音人模型作为满足所述性别信息要求的发音人模型；及/或，

将同年龄段发音人模型作为满足所述年龄段信息要求的发音人模型。

为了实现上述目的，本发明采用的技术方案包括：一种语音合成发音人自适应系统，包括：

信息获取模块，用于在接收到需要进行语音合成的待处理文本后，获取用户信息；

发音人筛选模块，用于从原始发音人模型集合中筛选出满足所述用户信息要求的发音人模型，形成有效发音人模型集合；以及，

发音人指定模块，用于在所述有效发音人模型集合中指定一发音人模型播报所述待处理文本，具体包括：对于播报过的待处理文本，在有效发音人模型集合中优先指定最近播报过该待处理文本的发音人模型；对于未播报过的待处理文本，在有效发音人模型集合中优先指定从未播报过的发音人模型，次之选择播报次数最少的发音人模型。

优选的是，所述发音人筛选模块还用于根据所述用户信息中各信息类型的优先级，从原始发音人模型集合中逐层筛选出满足对应信息类型要求的发音人模型，形成有效发音人模型集合。

优选的是，所述用户信息包括用户地理位置坐标；所述系统还包括：

地域划分模块，用于根据所述用户地理位置坐标，确定用户所在地域；

语言获取模块，用于获取对应所述用户所在地域的地方性语言；以及，

筛选条件指定模块，用于将对应所述地方性语言的发音人模型作为满足所述用户地理位置坐标要求的发音人模型。

优选的是，所述用户信息包括用户性别及/或用户年龄段；所述信息获取模块还包括：

音频获取单元，用于获取用户录制的音频数据；以及，

信息获取单元，用于根据所述音频数据获取所述用户性别及/或所述用户年龄段；

所述系统还包括：

筛选条件指定模块，将异性发音人模型作为满足所述性别信息要求的发音人模型；及/或，将同年龄段发音人模型作为满足所述年龄段信息要求的发音人模型。

本发明的有益效果在于，本发明的语音合成发音人自适应方法及系统可以在接收到用户指定的需要进行语音合成的待处理文本后，自动获取例如是用户地理位置坐标、用户性别、用户年龄段等的用户信息，并筛选出满足用户信息要求的发音人模型进行待处理文本的播报，因此可以实现根据用户信息自适应地调整发音人模型的目的。在此，由于可以根据人们日常交流的喜好设定用户信息中不同信息类型的筛选要求，因此，基于本发明的语音合成发音人自适应方法及系统的TTS技术可以激起用户对播报内容的兴趣，并增强用户对播报内容的理解和记忆。

附图说明

图1示出了根据本发明语音合成发音人自适应方法的一种实施方式的流程图；

图2示出了逐层筛选出满足对应信息类型要求的发音人模型的一种实施方式的流程图；

图3示出了根据本发明语音合成发音人自适应系统的一种实施结构的方框原理图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本发明为了解决现有发音人指定策略存在的适应性差、操作繁琐的问题，提供一种语音合成发音人自适应方法，如图1所示，该方法包括如下步骤：

步骤S1：在接收到需要进行语音合成的待处理文本后，获取用户信息，该用户信息可包括反映用户属性的各种信息类型，例如用户性别、用户年龄段、用户地理位置等。

步骤S2：从原始发音人模型集合中筛选出满足该用户信息要求的发音人模型，形成有效发音人模型集合。该原始发音人模型集合由语音合成(TTS)系统支持的所有发音人模型构成。

步骤S3：在有效发音人模型集合中指定一发音人模型播报待处理文本。

从有效发音人模型集合中选择用于播报待处理文本的发音人模型的条件可以根据需要预先设定，也可以由用户设置，该条件例如是在有效发音人模型集合中随机指定一发音人模型播报待处理文本；对于播报过的待处理文本，在有效发音人模型集合中优先指定最近播报过该待处理文本的发音人模型；或者对于未播报过的待处理文本，在有效发音人模型集合中优先指定从未播报过的发音人模型，次之选择播报次数最少的发音人模型等。

由此可见，本发明的语音合成发音人自适应方法可以在接收到用户指定的需要进行语音合成的待处理文本后，自动获取用户信息，并可以筛选出满足用户信息要求的发音人模型进行待处理文本的播报，因此可以实现根据用户信息自适应地调整发音人模型的目的；在此，由于可以根据人们日常交流的喜好设定对应各信息类型的筛选要求，因此，基于本发明的语音合成发音人自适应方法的TTS技术可以激起用户对播报内容的兴趣，并增强用户对播报内容的理解和记忆。

由于人们在进行日常交流时，通常会通过多个标准来选择交流对象，而不同标准之间会有不同的重要性，例如人们会优先选择会相同地方性语言的对象进行交流，因此，为了使本发明方法更贴近人们日常交流习惯，上述步骤S2中从原始发音人模型集合中筛选出满足该用户信息要求的发音人模型，形成有效发音人模型集合可进一步包括：根据用户信息中各信息类型的优先级，在原始发音人模型集合中逐层筛选出满足对应信息类型要求的发音人模型，形成有效发音人模型集合，如图2所示，具体可包括如下步骤：

步骤S21：根据各信息类型的优先级，确定当前筛选信息类型；对于首次筛选，该当前筛选信息类型应该为最高优先级。

步骤S22：获取对应当前筛选信息类型的筛选前发音人模型集合；如果该当前筛选信息类型为最高优先级，则该筛选前发音人模型集合为上述原始发音人模型集合；如果该当前筛选信息类型为其他优先级，则该筛选前发音人模型集合为对应上一筛选信息类型的筛选后发音人模型集合。

步骤S23：判断筛选前发音人模型集合中是否存在满足当前筛选信息类型的发音人模型，如是，则筛选出满足当前筛选信息类型要求的发音人模型，形成对应当前筛选信息类型的筛选后发音人模型集合；如否，则将筛选前发音人模型集合作为所述筛选后发音人模型集合。

步骤S24：判断当前筛选信息类型是否为最低优先级，如是，则将筛选后发音人模型集合作为上述有效发音人模型集合，并结束筛选；如否，则将筛选后发音人模型集合作为对应下一筛选信息类型的筛选前发音人模型集合，之后继续执行步骤S21。

在此，各信息类型的优先级可预先设定，也可以根据用户的选择设定。

另外，上述步骤S2中从原始发音人模型集合中筛选出满足该用户信息要求的发音人模型，形成有效发音人模型集合还可进一步包括：从原始发音人模型集合中筛选出满足用户信息中最多信息类型要求的发音人模型，形成有效发音人模型集合。例如，在用户信息包括三种信息类型时，优先筛选出满足三种信息类型要求的发音人模型，形成有效发音人模型；如果不存在满足三种信息类型要求的发音人模型，则筛选出满足二种信息类型要求的发音人模型，形成有效发音人模型；如果不存在满足三种信息类型要求和二种信息类型要求的发音人模型，则筛选出满足一种信息类型要求的发音人模型，形成有效发音人模型。

而且，按照满足信息类型要求最多筛选的实施例还可以与按照各信息类型优先级筛选的实施例相结合，例如，在用户信息包括三种信息类型时，如果只能筛选出满足二种信息类型要求的发音人模型，则还可在满足二种信息类型要求的发音人模型中，再次筛选能够满足最高优先级信息类型要求的发音人模型，形成有效发音人模型。

根据人们日常交流中用于选择交流对象的主要信息类型，该用户信息可包括用户地理位置坐标、用户性别和用户年龄段中的至少一种。对于用户地理位置坐标的信息类型，可将对应地方性语言的发音人模型作为满足用户地理位置坐标要求的发音人模型。对于用户性别的信息类型，可将异性发音人模型作为满足所述性别信息要求的发音人模型。而对于用户年龄段的信息类型，则可将同年龄段发音人模型作为满足所述年龄段信息要求的发音人模型。

对于用户信息包括用户地理位置坐标的实施例，本发明的方法还可以包括如下步骤：

步骤S1a：根据用户地理位置坐标，确定用户所在地域。

该用户地理位置坐标可利用全球定位系统(GPS)获取。该用户所在地域可以为对应用户地理位置坐标的地区、省份等，也可以为根据TTS能够提供的语言类型预先划分区域。

步骤S1b：获取对应该用户所在地域的地方性语言。

在此可预先储存反映用户所在地域与地方性语言之间对应关系的对照表，因此，该步骤可通过查找该对照表获取对应该用户所在地域的地方性语言；或者可以直接为各地域绑定对应的地方性语言。

步骤S1c：将对应地方性语言的发音人模型作为满足用户地理位置坐标要求的发音人模型。

对于用户信息包括用户性别及/或用户年龄段的实施例，上述步骤S1中获取用户信息还可包括：

步骤S101：获取用户录制的音频数据。

该音频数据可以是之前与用户进行语音交互时录制并储存的音频数据；也可以在接收到待处理文本后，直接提示用户录制音频数据，或者在没有查找到已储存的音频数据后，再提示用户录制音频数据。

步骤S102：根据音频数据获取用户性别及/或所述用户年龄段。

根据音频数据识别用户性别可采用的特征参数例如是基音、线性预测倒谱系数(Linear prediction Cepstrum coefficient，LPCC)和梅尔频率倒谱系数(Mel-FrequencyCepstrum Coefficient，MFCC)。例如，采用基音识别的方法可为：将音频数据还原为波形数据；从波形数据中提取基音，并分析基音频率，最后，将得出的基音频率与性别语音基频特性值比对，判断用户的性别；人类声道发声的基音频率普遍在50Hz～500Hz，而根据男女声道结构的不同，男女发生的基音频率以200Hz分界，男性声音低沉，低于200Hz，而女性声音高亢，高于200Hz。

根据音频数据识别用户年龄段的方法可包括：先建立存储多个不同年龄段说话者的语音信号的语音库；提取不同语音库中语音信号的语音特征参数及音频数据的语音特征参数；将音频数据的语音特征参数分别与不同语音库中语音信号的语音特征参数相匹配；将匹配度得分最高的语音特征参数对应的语音库所属的年龄段作为用户年龄段。例如可以根据该方法基于向量机(Support Vector Machine，SVM)识别说话者年龄段。

在此，本领域技术人员应当清楚的是，本发明方法中同样适于采用其他已知手段根据音频数据获取用户性别及用户年龄段。

步骤S101′：通过摄像头获取用户脸部图像。

步骤S102′:根据脸部图像获取用户性别及/或所述用户年龄段。

根据脸部图像获取用户性别的方法例如可先对脸部图像进行预处理；再从预处理后的脸部图像上提取局部二值模式(Local Binary Pattern，LBP)特征；最后利用LBP特征，通过SVM模型进行性别识别。在此，本领域技术人员应当清楚的是，本发明方法中同样适于采用例如是局部环形模式(Local Circular Pattern，LCP)编码等其他已知手段根据脸部图像获取用户性别。

根据脸部图像获取用户年龄段的方法可包括：建立不同年龄组的人脸特征库；提取脸部图像中的纹理和形状特征；将脸部图像中的纹理和形状特征与不同年龄组的人脸特征库相匹配；将匹配度得分最高的人脸特征库对应的年龄组作为用户所属年龄段。在此，本领域技术人员应当清楚的是，本发明方法中同样适于采用其他已知手段根据脸部图像获取用户年龄段。

与上述语音合成发音人自适应方法相对应，如图3所示，本发明的语音合成发音人自适应系统包括信息获取模块1、发音人筛选模块2和发音人指定模块3，该信息获取模块用于在接收到需要进行语音合成的待处理文本后，获取用户信息；该发音人筛选模块2用于从原始发音人模型集合中筛选出满足所述用户信息要求的发音人模型，形成有效发音人模型集合；该发音人指定模块3用于在所述有效发音人模型集合中指定一发音人模型播报所述待处理文本。

进一步地，上述发音人筛选模块2还可用于根据所述用户信息中各信息类型的优先级，从原始发音人模型集合中逐层筛选出满足对应信息类型要求的发音人模型，形成有效发音人模型集合。

进一步地，上述用户信息可包括用户地理位置坐标、用户性别和用户年龄段中的至少一种。

在用户信息包括用户地理位置坐标的实施例中，本发明的系统还可进一步包括地域划分模块、语言获取模块和筛选条件指定模块(图中未示出)，该地域划分模块用于根据所述用户地理位置坐标，确定用户所在地域；该语言获取模块用于获取对应所述用户所在地域的地方性语言；该筛选条件指定模块用于将对应所述地方性语言的发音人模型作为满足所述用户地理位置坐标要求的发音人模型。

在用户信息包括用户性别及/或用户年龄段的实施例中；上述信息获取模块1还可进一步包括音频获取单元和信息获取单元(图中未示出)，该音频获取单元用于获取用户录制的音频数据；该信息获取单元用于根据所述音频数据获取用户性别及/或所述用户年龄段；在此基础上，本发明的系统还进一步包括筛选条件指定模块(图中未示出)，该筛选条件指定模块用于将异性发音人模型作为满足所述性别信息要求的发音人模型；及/或，将同年龄段发音人模型作为满足所述年龄段信息要求的发音人模型。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的模块或单元可以是或者也可以不是物理上分开的，作为模块或单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果，以上所述仅为本发明的较佳实施例，但本发明不以图面所示限定实施范围，凡是依照本发明的构想所作的改变，或修改为等同变化的等效实施例，仍未超出说明书与图示所涵盖的精神时，均应在本发明的保护范围内。

Claims

1.一种语音合成发音人自适应方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述从原始发音人模型集合中筛选出满足所述用户信息要求的发音人模型，形成有效发音人模型集合包括：

根据所述用户信息中各信息类型的优先级，从原始发音人模型集合中逐层筛选出满足对应信息类型要求的发音人模型，形成有效发音人模型集合。

3.根据权利要求1或2所述的方法，其特征在于，所述用户信息包括用户地理位置坐标、用户性别和用户年龄段中的至少一种。

4.根据权利要求3所述方法，其特征在于，所述用户信息包括用户地理位置坐标；所述方法还包括：

根据所述用户地理位置坐标，确定用户所在地域；

获取对应所述用户所在地域的地方性语言；

5.根据权利要求3所述的方法，其特征在于，所述用户信息包括用户性别及/或用户年龄段；所述获取用户信息还包括：

获取用户录制的音频数据；

根据所述音频数据获取所述用户性别及/或所述用户年龄段；

所述方法还包括：

6.一种语音合成发音人自适应系统，其特征在于，包括：

7.根据权利要求6所述的系统，其特征在于，所述发音人筛选模块还用于根据所述用户信息中各信息类型的优先级，从原始发音人模型集合中逐层筛选出满足对应信息类型要求的发音人模型，形成有效发音人模型集合。

8.根据权利要求6或7所述的系统，其特征在于，所述用户信息包括用户地理位置坐标、用户性别和用户年龄段中的至少一种。

9.根据权利要求8所述系统，其特征在于，所述用户信息包括用户地理位置坐标；所述系统还包括：

10.根据权利要求8所述的系统，其特征在于，所述用户信息包括用户性别及/或用户年龄段；所述信息获取模块还包括：

音频获取单元，用于获取用户录制的音频数据；以及，

所述系统还包括：