CN107644637B

CN107644637B - 语音合成方法和装置

Info

Publication number: CN107644637B
Application number: CN201710147062.9A
Authority: CN
Inventors: 邹芳; 李晋; 周涛
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2017-03-13
Filing date: 2017-03-13
Publication date: 2018-09-25
Anticipated expiration: 2037-03-13
Also published as: CN107644637A

Abstract

本发明涉及一种语音合成方法和装置。所述方法包括：获取被触发的语音合成指令，所述语音合成指令中携带用户标识；根据所述语音合成指令确定对应的待合成的单位语音、语音组合顺序以及相邻两个单位语音之间的停顿时长；从与所述用户标识对应的语音库中提取与用户的音色相匹配的待合成的单位语音；根据所提取的待合成的单位语音、语音组合顺序以及相邻两个单位语音之间的停顿时长合成目标语音。上述的语音合成方法和装置可提高语音合成的灵活性。

Description

语音合成方法和装置

技术领域

本发明涉及信息处理技术领域，特别是涉及一种语音合成方法和装置。

背景技术

文字转语音系统(TextToSpeech，从文本到语言，简称TTS)的语音合成技术已经被应用到很多领域，但合成的语音均是来源于提前设定好的某一种或几种音色的固定语音库，这样播报出来的语音比较单调。

发明内容

基于此，有必要针对上述的技术问题，提供一种能够提高语音合成的灵活性的语音合成方法和装置。

一种语音合成方法，所述方法包括：

获取被触发的语音合成指令，所述语音合成指令中携带用户标识；

根据所述语音合成指令确定对应的待合成的单位语音、语音组合顺序以及相邻两个单位语音之间的停顿时长；

从与所述用户标识对应的语音库中提取与用户的音色相匹配的待合成的单位语音；

根据所提取的待合成的单位语音、语音组合顺序以及相邻两个单位语音之间的停顿时长合成目标语音。

在其中一个实施例中，所述根据所述语音合成指令确定对应的待合成的单位语音、语音组合顺序以及相邻两个单位语音之间的停顿时长的步骤，包括：

根据所述语音合成指令确定对应的文本信息；

获取构成所述文本信息的单位文字和文字组合顺序；

根据所述单位文字确定对应的待合成的单位语音；

根据所述文字组合顺序确定对应的语音组合顺序；

根据所述单位文字和文字组合顺序确定相邻两个单位语音之间的停顿时长。

在其中一个实施例中，所述从与所述用户标识对应的语音库中提取与用户的音色相匹配的待合成的单位语音的步骤，包括：

根据所述用户标识确定用于存储与所述用户的语音具有相同音色的单位语音的语音库；

从所述语音库中查询所有待合成的单位语音，并提取所述语音库中存在的待合成的单位语音；

当所述语音库中不存在待合成的单位语音时，从与所述用户的音色的匹配度最高的一个或多个语音库中，提取剩余不存在的待合成单位语音，直到所有的待合成语音均提取完毕。

在其中一个实施例中，所述语音库中包括与用户音色相同的第一单位语音，和与用户音色的匹配度超过预设阈值但不与所述用户音色相同的第二单位语音；

所述从与所述用户标识对应的语音库中提取与用户的音色相匹配的待合成的单位语音的步骤，包括：

优先从所述语音库中的第一单位语音中提取待合成的单位语音；

从所述第二单位语音中提取所述第一单位语音中不存在的剩余待合成的单位语音。

在其中一个实施例中，所述方法还包括：

获取语音信号；

提取所述语音信号中所包含的单位语音和对应的音色；

根据所提取的单位语音更新与所述语音信号的音色对应的语音库中的单位语音。

一种语音合成装置，所述装置包括：

语音合成指令获取模块，用于获取被触发的语音合成指令，所述语音合成指令中携带用户标识；

解析模块，用于根据所述语音合成指令确定对应的待合成的单位语音、语音组合顺序以及相邻两个单位语音之间的停顿时长；

单位语音提取模块，用于从与所述用户标识对应的语音库中提取与用户的音色相匹配的待合成的单位语音；

目标语音合成模块，用于根据所提取的待合成的单位语音、语音组合顺序以及相邻两个单位语音之间的停顿时长合成目标语音。

在其中一个实施例中，所述解析模块还用于根据所述语音合成指令确定对应的文本信息；获取构成所述文本信息的单位文字和文字组合顺序；根据所述单位文字确定对应的待合成的单位语音；根据所述文字组合顺序确定对应的语音组合顺序；根据所述单位文字和文字组合顺序确定相邻两个单位语音之间的停顿时长。

在其中一个实施例中，所述单位语音提取模块还用于根据所述用户标识确定用于存储与所述用户的语音具有相同音色的单位语音的语音库；从所述语音库中查询所有待合成的单位语音，并提取所述语音库中存在的待合成的单位语音；当所述语音库中不存在待合成的单位语音时，从与所述用户的音色的匹配度最高的一个或多个语音库中，提取剩余不存在的待合成单位语音，直到所有的待合成语音均提取完毕。

所述单位语音提取模块还用于优先从所述语音库中的第一单位语音中提取待合成的单位语音；从所述第二单位语音中提取所述第一单位语音中不存在的剩余待合成的单位语音。

在其中一个实施例中，所述装置还包括：

语音库更新模块，用于获取语音信号；提取所述语音信号中所包含的单位语音和对应的音色；根据所提取的单位语音更新与所述语音信号的音色对应的语音库中的单位语音。

上述的语音合成方法和装置，通过根据用户标识对应的语音库中提取与用户的音色相匹配的待合成的单位语音，再根据所提取的待合成的单位语音、语音组合顺序以及相邻两个单位语音之间的停顿时长合成目标语音。由于所提取的单位语音与用户的音色相对应，使得所合成的目标语音的灵活性更高，并且提高了语音合成的逼真度。

附图说明

图1为一个实施例中的语音合成方法的应用环境图；

图2为一个实施例中的终端的内部结构示意图；

图3为一个实施例中的语音合成方法的流程示意图；

图4为一个实施例中从与用户标识对应的语音库中提取与用户的音色相匹配的待合成的单位语音的步骤的流程示意图；

图5为一个实施例中对语音库中的单位语音进行更新的步骤的流程示意图；

图6为一个实施例中语音合成装置的结构框图；

图7为另一个实施例中语音合成装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例所提供的语音合成方法，可应用于如图1所示的应用环境中。参考图1，终端110可通过网络与服务器120相连接。终端110获取被触发的语音合成指令，并根据语音合成指令从终端110和/或服务器120上存储的语音库中提取单位语音，根据所提取的单位语音合成目标语音。或者终端110可向服务器120发送该语音合成指令，由服务器120根据该语音合成指令获取对应的单位语音，并进行语音合成，将所合成的目标语音发送至终端110。终端110可获取该目标语音。

如图2所示，为一个实施例中终端的内部结构图。该终端包括通过系统总线连接的处理器、非易失性存储介质、内存储器、网络接口、显示屏、声音采集装置和扬声器。其中，该终端的处理器用于提供计算和控制能力，支撑整个终端的运行。该终端的非易失性存储介质存储有操作系统、数据库和计算机可执行指令。数据库用于存储实现以下各实施例提供的一种语音合成方法过程中所涉及的相关信息，比如可存储有单位语音信息。该计算机可执行指令可被处理器所执行以实现以下各实施例提供的一种语音合成方法。该终端的内存储器为非易失性存储介质中的操作系统、数据库和计算机可执行指令提供高速缓存的运行环境。该终端的网络接口用于与外部的终端和/或服务器通过网络连接通信，比如可从连接的服务器上获取语音信息。显示屏可以是触摸屏，比如为电容屏或电子屏，可通过接收作用于该触摸屏上显示的控件的点击操作，生成相应的指令。声音采集装置可用于采集终端周围的声音信号，比如采用用户的语音信号。扬声器可用于播放音频信号，比如可播放所合成的语音。

本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的终端的限定，具体的终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，如图3所示，提供了一种语音合成方法，该方法可应用于多种包含语音合成功能的设备中，比如，手机、笔记本电脑、智能手环，还可应用于具有语音播报等功能的车载导航设备之中。本实施例以该方法应用于如图1所示的终端中来说明。该方法包括以下步骤：

步骤S302，获取被触发的语音合成指令，语音合成指令中携带用户标识。

本实施例中，语音合成指令为被用于通过触发来合成相关的语音的指令。根据应用场景的不同，语音合成指令可被动触发或主动触发。被动触发包括：通过在终端界面上提供相应的语音合成的控件，通过对该控件的触摸或按压等操作，生成相应的而语音合成指令。可在界面的预设区域内设置待合成的文本信息，通过对该控件的点击操作，生成对该文本信息进行语音合成的语音合成指令。比如，该文本信息为文字描述的新闻，或者即时通信应用中的文本信息等等。

主动触发包括：当检测到终端处于某一预设状态时，则自动触发该语音合成指令。比如，在进行导航的过程中，根据预设的起点信息和终点信息，生成导航路径，根据所生成的导航路径触发语音合成指令，或者在检测到终端处于导航路径中的某一位置处时，触发语音合成指令。

用户标识用于唯一标识对应的用户身份，可由预设位数的数字、字母和特殊字符等其中的一种或多种的组合而构成。

步骤S304，根据语音合成指令确定对应的待合成的单位语音、语音组合顺序以及相邻两个单位语音之间的停顿时长。

本实施例中，单位语音是指构成单个文字和/或词语的读音，一个单位语音可以关联多个相同读音的文字或词语。比如，单位语音“yī”可被用来表示“一、依、依、伊”等相同读音的汉字；“yì”表示“亿、意、义、亦”等汉字。语音自合顺序用于反映构成的一段语音中，每个单位语音中所处的位置，根据语音合成顺序可确定相应单位语音的播放顺序。

相邻两个单位语音之间的停顿时长可为固定时长或非固定时长。固定时长为可包括一种或几种固定时长。当为几种固定时长时，则可使得连续的相邻单位语音之间的停顿时长为一个固定时长，而非连续的相邻单位语音之间的停顿时长则不同。其中，连续的相邻单位语音，在所表达的语句中不存在标点符号，而非连续的相邻单位语音，两者之间还存在标点符号。比如，表示一句话的语音中，相邻的单位语音之间的停顿时长相对较小，而一句话的最后一个单位语音，和下一句话的起始单位语音之间的停顿时长则相对较长。

针对相邻单位语音之间的停顿时长为非固定时长，可根据待合成的目标语音所表示的语义来确定。

在一个实施例中，可根据语音合成指令确定对应的文本信息；获取构成文本信息的单位文字和文字组合顺序；根据单位文字确定对应的待合成的单位语音；根据文字组合顺序确定对应的语音组合顺序；根据单位文字和文字组合顺序确定相邻两个单位语音之间的停顿时长。

本实施例中，不同的语音合成指令对应的文本信息不相同。可预先设置该文本信息为一段固定或非固定的文本信息，根据该对应关系获取该文本信息。比如，直接对应一段具体的文本信息，或者对应处于某一文本框内的文本信息，或者对应终端界面上的某一区域上的文本信息，该区域可为固定的区域，或者由用户所选中的区域。

与单位语音相类似，单位文字包括单个文字和/或词语。文字组合顺序用于反映该文本信息中，每个单位文字所处的位置。该文本信息中的单位文字对应的单位语音，即为待合成的单位语音。该单位文字在该文本信息中所处的位置，即为对应的单位语音在待合成的目标语音中所处的位置。

还可分析每个单位文字在文本中所表示的文字含义，从而分析出该文本信息所表达的语义，根据该文字含义和语义。结合单位文字所表示的文字含义和词性，以及文本信息的语音，来确定语音组合顺序中，相邻单位语音之间的停顿时长。词性为对应的文字或词语在一段语句中所的词性，比如为名词、动词、形容词、介词以及语气助词等。进一步的，还可结合该单位文字和组合顺序，以及文本中的标点符号等特殊字符，确定相邻两个单位语音之间的停顿时长。通过确定相邻单位语音之间的停顿时长，使得合成的语音更能接近正常人的说话，提高了语音合成的逼真度。

比如，一段“nǐhǎo hěn gāo xìng rèn shínǐ(你好，很高兴认识你)”的语音即为语音合成指令所对应的语音。对应的文本信息为“你好，很高兴认识你”。根据该语音可确定所包含的待合成的语音分别为：nǐ、hǎo、hěn、gāo、xìng、rèn和shí。其中，单位语音“nǐ”需要被使用两次，分别位于待合成的语音中的首位和末尾。

终端可根据该文本信息中所包含的单位文字、组合顺序，以及文本中的标点符号等特殊字符，来确定每个相邻单位语音之间的停顿时长。比如，“hǎo(好)”和“hěn(很)”之间，由于存在相应的标点符号，可根据该标点符号与停顿时长之间的关系，确定“hǎo(好)”和“hěn(很)”之间的停顿时长，“gāo(高)”和“xìng(兴)”之间，在判定出为一个词语“高兴”，可根据词语和停顿时长之间的关系，确定“gāo(高)”和“xìng(兴)”之间的停顿时长。且相较而言，“hǎo(好)”和“hěn(很)”之间的停顿时长较长，“gāo(高)”和“xìng(兴)”之间之间的停顿时长较短。

步骤S306，从与用户标识对应的语音库中提取与用户的音色相匹配的待合成的单位语音。

本实施例中，预先建立了语音库和用户标识之间的对应关系。其中，语音库为存储了一种、几种或某一类型的声色的单位语音。语音库中的单位语音根据所采集到的语音信息，并对该语音信息进行解析，确定该语音信息的音色的特征信息，根据该音色的特征信息确定其所对应的语音库，并提取出其中所包含的单位语音，将该单位语音存储到该语音库中。所采集的语音信息越多，则语音库中所包含的单位语音则更加全面。

在一个实施例中，一个语音库可与一个或多个用户标识具有对应关系。其中，根据该用户标识可获取到对应用户的声音的音色的特征信息，根据该用户的音色，查询是否存在专门用于存储与其音色的相似度超过预设阈值的单位语音的语音库。若存在，则将所查询出的语音库与该用户标识建立对应关系。且当存在多个时，进一步设置用户的音色与每个对应的语音库所存储的单位语音的音色之间的相似度的大小，使得后续根据相似度的大小，优先从相似度最大的语音库中选取单位语音。否则，创建一个语音库，将所创建的语音库与用户标识之间建立对应关系。

比如，若存在两个用户(记为第一用户和第二用户，两个用户实际为同卵双胞胎)，并预先为第一用户创建了一个语音库后，首次获取到第二用户的音色的特征数据后，判定该两个用户的音色之间的相似度大于第一预设阈值时，则可使得该两个用户共享一个语音库。其中，超过第一预设阈值则判定该两个用户的音色极为相同，无需再创建一个新的语音库。

与用户标识对应的语音库可存储在终端本地，也可存储在远端服务器上。远端服务器上包含多个语音库。当存在远端服务器上时，可根据用户标识从该远端服务器上确定对应的语音库。终端可从所确定的语音库中提取与该语音合成指令对应的待合成的单位语音。

比如，比如，一段“nǐhǎo hěn gāo xìng rèn shínǐ(你好，很高兴认识你)”的语音，可从对应的语音库中提取nǐ、hǎo、hěn、gāo、xìng、rèn和shí。

步骤S308，根据所提取的待合成的单位语音、语音组合顺序以及相邻两个单位语音之间的停顿时长合成目标语音。

在一个实施例中，所合成的目标语音可被立刻播放和/或存储。或者，在侦测到被触发的播放指令后，可播放所合成的目标语音。

本实施例所提供的语音合成方法，通过根据用户标识对应的语音库中提取与用户的音色相匹配的待合成的单位语音，再根据所提取的待合成的单位语音、语音组合顺序以及相邻两个单位语音之间的停顿时长合成目标语音。由于所提取的单位语音与用户的音色相对应，使得所合成的目标语音的灵活性更高，并且提高了语音合成的逼真度。

在一个实施例中，如图4所示，从与用户标识对应的语音库中提取与用户的音色相匹配的待合成的单位语音的步骤，包括：

步骤S402，根据用户标识确定用于存储与用户的语音具有相同音色的单位语音的语音库。

本实施例中，与用户的语音具有相同音色的单位语音的语音库，是指该语音库中所存储的单位语音的音色与用户的语音的音色超过第一预设阈值、且在所有的语音库中，匹配度最高的语音库。通常的，该语音库为专门为用户所创建的一个语音库。

用户的语音是指所存储的用户自身的语音，可为在首次创建用户信息的时候，所预留的用户的语音。进一步的，还可定期更新用户所预留的语音。

步骤S404，从语音库中查询所有待合成的单位语音，并提取语音库中存在的待合成的单位语音。

本实施例中，可根据所确定的待合成的单位语音，从该数据中查找与之读音相同的单位语音，提取所查找到的单位语音，作为待合成的单位语音。

步骤S406，当语音库中不存在所有待合成的单位语音时，从与用户的音色的匹配度最高的一个或多个语音库中，提取剩余不存在的待合成单位语音，直到所有的待合成语音均提取完毕。

本实施例中，由于与用户的音色相同的对应语音库中的单位语音可能并不全面。因此，会存在一部分待合成的单位语音并不存在于该语音库中。因此，可进一步确定存储的单位语音与用户的音色的匹配度最高的一个或多个语音库。具体的，可按照匹配度从大到小的顺序，选取最高匹配度的语音库，并按照步骤S404，从其中查找并未查找到的单位语音。

若还有未查询到的单位语音，则进一步选取匹配度次于上一个匹配度的语音库，并继续从该语音库中查询剩余不存在的待合成单位语音。按照这一逻辑，直到所有的待合成语音均提取完毕。

步骤S308中，所提取的待合成的单位语音，包括从上述的多个语音库中所提取出的待合成的单位语音。

本实施例中，通过优先从与用户的语音具有相同音色的单位语音的语音库中提取待合成的单位语音，当该语音库中不存在所有的待合成的单位语音时，则根据音色匹配度从大到小地在其它语音库中提取剩余不存在的待合成的单位语音，直到所有的语音均提取完毕，从而可提高了对单位语音的提取的完整性。

在一个实施例中，语音库中包括与用户音色相同的第一单位语音，和与用户音色的匹配度超过预设阈值但不与用户音色相同的第二单位语音。

本实施例中，可对第一单位语音和第二单位语音设置语音标记，通过该语音标记，可区分出对应的单位语音的音色是否与用户的音色相同。与用户音色相同的第一单位语音不一定全面，因而，可进一步向该语音库中添加第二单位语音。该语音库中的第二单位语音，可从其它的用于存储和用户音色的匹配度大于预设阈值的单位语音的语音库中获取。

在一个实施例中，第二单位语音作为语音合成的备用语音，语音库中的所有第二单位语音可构成一个完整的语音集合，使得通过该第二单位语音即可合成所有的语音，或者能够合成该语音合成指令所对应的场景中，所需的大部分常用的语音。

或者，第二单位语音作为第一单位语音的补充，第二单位语音所对应的读音均与第一单位语音不相同。语音库中的所有二单位语音与第一单位语音共同构成一个完整的语音集合。比如，第一单位语音中存在语音“yī”，则第二单位语音中则不存在该语音“yī”；当第一单位语音中不存在语音“yì”，则第二语音会存在语音“yì”。通过第一单位语音和第二单位语音共同构成一个完整的语音集合，可既保证语音库中的单位语音的完整性，又能降低语音库中所存在的重复语音。

从与用户标识对应的语音库中提取与用户的音色相匹配的待合成的单位语音的步骤，包括：优先从语音库中的第一单位语音中提取待合成的单位语音；从第二单位语音中提取第一单位语音中不存在的剩余待合成的单位语音。

本实施例中，可从该语音库中查询出每个与待合成的单位语音的读音相同的第一单位语音和第二单位语音。当同一待合成的单位语音，在语音库中既存在对应的第一单位语音，又存在第二单位语音时，则提取该第二单位语音。其中，可通过每个单位语音对应的语音标记识别该单位语音是第一单位语音，还是第二单位语音。若查询到同一待合成的单位语音，在该语音库中仅存在一个对应的单位语音(该单位语音可能为第一单位语音，也可能为第二单位语音)，则直接提取该单位语音。从而实现了优先对第一单位语音的提取。

本实施例中，通过优先提取第一单位语音，使得所合成的目标语音中，整体的音色与用户的音色最接近，提高了所合成的目标语音的音色和用户的音色之间的相似度。

在一个实施例中，当所合成的目标语音中的第一单位语音所占数量的比例小于预设比例时，则重新从该语音库中提取与每个待合成的单位语音对应的第二单位语音，通过所提取的第二单位语音重新合成目标语音，使重新合成的目标语音全部由第二单位语音所构成，以尽量保持所合成的目标语音的音色的统一性。其中，预设比例可为所设置的任意比例，比如，可设置为50％。

在一个实施例中，上述的方法还包括对语音库中的单位语音进行更新的步骤，如图5所示，该步骤包括：

步骤S502，获取语音信号。

本实施例中，语音信号可为获取到的任意用户的声音信号，比如为用户在通话过程中所获取到的语音信号，也可以为用户的录音信号。

步骤S504，提取语音信号中所包含的单位语音和对应的音色。

本实施例中，可对所获取的语音信号进行解析，识别该语音信号的音色，并提取构成该语音信号的单位语音。

步骤S506，根据所提取的单位语音更新与语音信号的音色对应的语音库中的单位语音。

本实施例中，可根据该音色确定用于存储该音色的单位语音的语音库。还可获取该语音信号对应的用户标识，根据该用户标识确定对应的语音库。将所提取到的单位语音存储到该语音库中，实现对该语音库中的单位语音的更新。若该语音库中包含该相同读音的单位语音，则可将该单位语音和相同读音的单位语音同时保留，或者只保留其中的一个。

具体的，若所提取的单位语音的读音与某一第一单位语音的读音相同，则将该提取的单位语音替换掉该第一单位语音。若不存在于第一单位语音与其相同，则可将该单位语音作为一个新增的第一单位语音，以提高对第一单位语音的完整性。

若所提取的单位语音的读音与某一第二单位语音的读音相同(比如均为“yī”)，当该语音库中被设置为第二单位语音构成一个完整的语音集合时，则不对该第二单位语音进行删除，若被设置为由第一单位语音和第二单位语音构成一个完整的语音集合时，则删除该第二单位语音。

本实施例中，通过获取语音信号，并确定对应的语音库，根据该语音信号提取对应的单位语音，根据所提取的单位语音对该语音库进行更新，从而可不断地提高语音库中的与用户的音色相同的单位语音的完整性。

图6为一个实施例中语音合成装置的结构框图。如图6所示，一种语音合成装置，可运行于如图1所示的终端上，包括语音合成指令获取模块602、解析模块604。单位语音提取模块606和目标语音合成模块608。其中：

语音合成指令获取模块602，用于获取被触发的语音合成指令，语音合成指令中携带用户标识。

解析模块604，用于根据语音合成指令确定对应的待合成的单位语音、语音组合顺序以及相邻两个单位语音之间的停顿时长。

单位语音提取模块606，用于从与用户标识对应的语音库中提取与用户的音色相匹配的待合成的单位语音。

目标语音合成模块608，用于根据所提取的待合成的单位语音、语音组合顺序以及相邻两个单位语音之间的停顿时长合成目标语音。

在一个实施例中，解析模块604还用于根据语音合成指令确定对应的文本信息；获取构成文本信息的单位文字和文字组合顺序；根据单位文字确定对应的待合成的单位语音；根据文字组合顺序确定对应的语音组合顺序；根据单位文字和文字组合顺序确定相邻两个单位语音之间的停顿时长。

在一个实施例中，单位语音提取模块606还用于根据用户标识确定用于存储与用户的语音具有相同音色的单位语音的语音库；从语音库中查询所有待合成的单位语音，并提取语音库中存在的待合成的单位语音；当语音库中不存在待合成的单位语音时，从与用户的音色的匹配度最高的一个或多个语音库中，提取剩余不存在的待合成单位语音，直到所有的待合成语音均提取完毕。

单位语音提取模块606还用于优先从语音库中的第一单位语音中提取待合成的单位语音；从第二单位语音中提取第一单位语音中不存在的剩余待合成的单位语音。

在一个实施例中，如图7所示，提供了另一种语音合成装置，该装置还包括：

语音库更新模块610，用于获取语音信号；提取语音信号中所包含的单位语音和对应的音色；根据所提取的单位语音更新与语音信号的音色对应的语音库中的单位语音。

上述的语音合成装置，通过根据用户标识对应的语音库中提取与用户的音色相匹配的待合成的单位语音，再根据所提取的待合成的单位语音、语音组合顺序以及相邻两个单位语音之间的停顿时长合成目标语音。由于所提取的单位语音与用户的音色相对应，使得所合成的目标语音的灵活性更高，并且提高了语音合成的逼真度。

在一个实施例中，提供了一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行程序时实现以下步骤：

获取被触发的语音合成指令，语音合成指令中携带用户标识；

根据语音合成指令确定对应的待合成的单位语音、语音组合顺序以及相邻两个单位语音之间的停顿时长；

从与用户标识对应的语音库中提取与用户的音色相匹配的待合成的单位语音；

上述语音合成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。其中，网络接口可以是以太网卡或无线网卡等。上述各模块可以硬件形式内嵌于或独立于终端中的处理器中，也可以以软件形式存储于终端中的存储器中，以便于处理器调用执行以上各个模块对应的操作。该处理器可以为中央处理单元(CPU)、微处理器、单片机等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

根据所述语音合成指令确定对应的文本信息；

获取构成所述文本信息的单位文字和文字组合顺序；

根据所述单位文字确定对应的待合成的单位语音；

根据所述文字组合顺序确定对应的语音组合顺序；

根据所述单位文字和文字组合顺序确定相邻两个单位语音之间的停顿时长；

从与所述用户标识对应的语音库中提取与用户的音色相匹配的待合成的单位语音；所述待合成的单位语音包括与所述用户的音色相同的第一单位语音，和与所述用户的音色的匹配度超过预设阈值但不与所述用户的音色相同的第二单位语音；

根据所提取的第一单位语音和第二单位语音、语音组合顺序以及相邻两个单位语音之间的停顿时长合成目标语音。

2.根据权利要求1所述的方法，其特征在于，所述从与所述用户标识对应的语音库中提取与用户的音色相匹配的待合成的单位语音的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述语音库中包括与用户音色相同的第一单位语音，和与用户音色的匹配度超过预设阈值但不与所述用户音色相同的第二单位语音；

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法还包括：

获取语音信号；

提取所述语音信号中所包含的单位语音和对应的音色；

5.一种语音合成装置，其特征在于，所述装置包括：

解析模块，用于根据所述语音合成指令确定对应的文本信息；获取构成所述文本信息的单位文字和文字组合顺序；根据所述单位文字确定对应的待合成的单位语音；根据所述文字组合顺序确定对应的语音组合顺序；根据所述单位文字和文字组合顺序确定相邻两个单位语音之间的停顿时长；

单位语音提取模块，用于从与所述用户标识对应的语音库中提取与用户的音色相匹配的待合成的单位语音；所述待合成的单位语音包括与所述用户的音色相同的第一单位语音，和与所述用户的音色的匹配度超过预设阈值但不与所述用户的音色相同的第二单位语音；

目标语音合成模块，用于根据所提取的第一单位语音和第二单位语音、语音组合顺序以及相邻两个单位语音之间的停顿时长合成目标语音。

6.根据权利要求5所述的装置，其特征在于，所述单位语音提取模块还用于根据所述用户标识确定用于存储与所述用户的语音具有相同音色的单位语音的语音库；从所述语音库中查询所有待合成的单位语音，并提取所述语音库中存在的待合成的单位语音；当所述语音库中不存在待合成的单位语音时，从与所述用户的音色的匹配度最高的一个或多个语音库中，提取剩余不存在的待合成单位语音，直到所有的待合成语音均提取完毕。

7.根据权利要求5所述的装置，其特征在于，所述语音库中包括与用户音色相同的第一单位语音，和与用户音色的匹配度超过预设阈值但不与所述用户音色相同的第二单位语音；

8.根据权利要求5至7中任一项所述的装置，其特征在于，所述装置还包括：

9.一种终端，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。