CN107871495A

CN107871495A - 文字转语音方法及系统

Info

Publication number: CN107871495A
Application number: CN201610852935.1A
Authority: CN
Inventors: 王颂文
Original assignee: MStar Semiconductor Inc Taiwan
Current assignee: MStar Semiconductor Inc Taiwan
Priority date: 2016-09-27
Filing date: 2016-09-27
Publication date: 2018-04-03

Abstract

一种文字转语音方法，包含有接收一文字串行，并产生对应于该文字串行的多个音素，其中该多个音素形成一音素串行；于该音素串行中，插入暂停音素；以该暂停音素为分割点，将该音素串行与该暂停音素分割成多个音素子串行，并根据该多个音素子串行，产生多个语音片段；以及逐一地对该多个语音片段进行一语音合成操作，以产生对应于该多个语音片段的多个语音输出；其中，该暂停音素系为其所属音素子串行的最后一个音素。

Description

文字转语音方法及系统

技术领域

本发明系指一种文字转语音方法及文字转语音系统，尤指一种降低语音合成所需的运算量以及提升语音合成质量的文字转语音方法及文字转语音系统。

背景技术

文字转语音(Text-to-Speech，TTS)系统主要的功能在于将所输入的文字转换成自然流畅的语音输出，其已广泛地应用于日常生活当中，举例来说，文字转语音系统可应用于车站、机场、学校等所需的公众广播，或是应用于医院或法院等所需的自动唱名(或唱号)系统，甚至可应用于有声书制作，降低有声书制作所需的生产成本。其中，以隐藏式马可夫模型为基础(Hidden Markov Model Based，HMM-based)的语音合成技术广为本领域技术所采用。

然而，HMM-based语音合成技术必须先将一文字串行全部分析完后，再根据其分析结果产生相关于该文字串行的声学参数，如激励参数(Excitation Parameter)或是频谱参数(Spectral Parameter)，在此情形下，习知HMM-based语音合成技术需要相当大的运算量及存储器空间，反而不利于实时(real-time)语音合成的应用。另外，若断然将文字串行(或其对应的音素串行)切割，语音合成后会产生突然中断的不连续效果，实际上，语音合成后会在切割处产生“波”一声，使而合成后的语音听起来具有不连续感，而降低语音合成的质量。

因此，如何降低语音合成所需的运算量以及提升语音合成质量，也就成为业界所努力的目标之一。

发明内容

因此，本发明的主要目的即在于提供一种降低语音合成所需的运算量以及提升语音合成质量的文字转语音方法及文字转语音系统，以改善习知技术的缺点。

本发明揭露一种文字转语音(Text-to-Speech，TTS)方法，包含有接收一文字串行，并产生对应于该文字串行的多个音素(Phoneme)，其中该多个音素形成一音素串行；于该音素串行中，插入至少一暂停音素(Pause Phoneme)；以该至少一暂停音素为分割点，将该音素串行与该至少一暂停音素分割成多个音素子串行，并根据该多个音素子串行，产生多个语音片段(Segment)，其中每一语音片段包含多个文本标示(Label)，多个文本标示包含该多个音素之间的关系；以及逐一地对该多个语音片段进行一语音合成操作，以产生对应于该多个语音片段的多个语音输出；其中，该插入至少一暂停音素系为其所属音素子串行的最后一个音素。

本发明另揭露一种文字转语音系统，包含有一音素产生器，用来接收一文字串行，并产生对应于该文字串行的多个音素(Phoneme)，其中该多个音素形成一音素串行；一暂停音素插入器，用来于该音素串行中，插入至少一暂停音素(Pause Phoneme)；一分割器，用来以该至少一暂停音素为分割点，将该音素串行与该至少一暂停音素分割成多个音素子串行，并根据该多个音素子串行，产生多个语音片段(Segment)，其中每一语音片段包含多个文本标示(Label)，多个文本标示包含该多个音素之间的关系；以及一语音合成器，用来逐一地对该多个语音片段进行一语音合成操作，以产生对应于该多个语音片段的多个语音输出；其中，该插入至少一暂停音素系为其所属音素子串行的最后一个音素。

本发明另揭露一种文字转语音系统，包含有一处理单元；以及一储存单元，耦接于该处理单元，用来储存一程序代码，该程序代码指示该处理单元执行以下步骤：接收一文字串行，并产生对应于该文字串行的多个音素(Phoneme)，其中该多个音素形成一音素串行；于该音素串行中，插入至少一暂停音素(Pause Phoneme)；以该至少一暂停音素为分割点，将该音素串行与该至少一暂停音素分割成多个音素子串行，并根据该多个音素子串行，产生多个语音片段(Segment)，其中每一语音片段包含多个文本标示(Label)，多个文本标示包含该多个音素之间的关系；以及逐一地对该多个语音片段进行一语音合成操作，以产生对应于该多个语音片段的多个语音输出；其中，该插入至少一暂停音素系为其所属音素子串行的最后一个音素。

附图说明

图1为本发明实施例一文字转语音系统的方块图。

图2为本发明实施例一文字转语音方法的流程图。

图3为本发明实施例一音素串行、多个暂停音素以及多个语音片段的示意图。

图4为本发明实施例一语音合成方法的流程图。

图5为本发明实施例一文字转语音系统的示意图。

符号说明

10、50 文字转语音系统

100 处理单元

102 储存单元

106 程序代码

106 缓冲存储器

20 文字转语音方法

200～206、400～406 步骤

40 语音合成方法

500 音素产生器

502 暂停音素插入器

504 分割器

506 语音合成器

560 声学参数产生器

562 激励信号产生器

564 合成滤波器

pau_i、pau_j、pau_k 暂停音素

pn_1～pn_M 音素

PN 音素串行

PN_1、PN_2、PN_3、PN_4 音素子串行

S_1、S_2、S_3、S_4 语音片段

TXT 文字串行

VO_1～VO_N 语音输出

具体实施方式

为了解决习知技术的缺点，本发明利用插入暂停音素并以暂停音素为分割点将一文字串行分批/次处理，以降低运算量及对存储器空间的需求，同时避免因语音突然中断所产生的不连续感，以提升语音合成的质量。详细来说，请参考图1，图1为本发明实施例一文字转语音系统10的示意图。文字转语音系统10包含一处理单元100以及一储存单元102，处理单元100耦接于储存单元102，处理单元100可为一般用途(General Purpose)的处理器，其可为一中央处理器(CPU)或是一微处理器(Microprocessor)，而不限于此，储存单元102可为一只读式存储器(read-only memory，ROM)或是一非挥发性存储器(non-volatilememory，例如，一电子抹除式可复写只读存储器(electrically erasable programmableread only memory,EEPROM)或一闪存(flash memory))，而不限于此。储存单元102用来储存一程序代码106，程序代码106用来指示处理单元100执行一文字转语音流程。另外，储存单元102包含有一缓冲存储器106，缓冲存储器106用来当作语音合成时的一缓冲区。

请参考图2，图2为本发明实施例一文字转语音方法20的流程图。文字转语音方法20可由文字转语音系统10来执行，其包含以下步骤：

步骤200：接收一文字串行TXT，并产生对应于文字串行TXT的多个音素pn_1～pn_M，其中多个音素pn_1～pn_M形成一音素串行PN。

步骤202：于音素串行PN中，插入至少一暂停音素。

步骤204：以该至少一暂停音素为分割点，将音素串行PN与该至少一暂停音素分割成多个音素子串行PN_1～PN_N，并根据该多个音素子串行，产生多个语音片段(Segment)S_1～S_N。

步骤206：逐一地对语音片段S_1～S_N进行一语音合成操作，以产生对应于语音片段S_1～S_N的多个语音输出VO_1～VO_N。

文字转语音流程20的操作细节叙述如下。于步骤中200中，文字转语音系统10接收文字串行TXT，并产生对应于文字串行TXT的多个音素pn_1～pn_M，其中，文字串行TXT可为一文章段落，或是包含多个段落的长篇文章，换句话说，文字串行TXT系由大量文字(或单字)及标点符号所构成。详细来说，文字转语音系统10可将文字串行TXT中每一单字转换成为其对应的有声音素，或将文字串行TXT中的标点符号转换成为暂停音素(PausePhoneme)，文字转语音系统10需将所有对应于单字的有声音素与对应于标点符号的暂停音素按照顺序排列，以形成音素串行PN，其中多个音素pn_1～pn_M可为有声音素或暂停音素。

于步骤202中，文字转语音系统10于音素串行PN中，插入至少一暂停音素。于步骤204中，以该至少一暂停音素为分割点，将音素串行PN分割并产生多个语音片段S_1～S_N。举例来说，文字转语音系统10可于多个音素pn_1～pn_M中插入暂停音素pau_i、暂停音素pau_j及暂停音素pau_k(以插入3个暂停音素为例)，并以暂停音素pau_i、暂停音素pau_j及暂停音素pau_k为分割点，将音素串行PN分割成音素子串行PN_1～PN_4，并根据音素子串行PN_1～PN_4，产生语音片段S_1～S_4。具体来说，请参考图3，图3为本发明实施例音素串行PN、暂停音素pau_i、pau_j、pau_k以及语音片段S_1～S_4的示意图，为了方便说明，图3仅绘示欲插入的暂停音素pau_i、pau_j、pau_k与音素串行PN之间的相对关系，而省略文字串行TXT中因标点符号所转换的暂停音素。如图3所示，文字转语音系统10可将暂停音素pau_i、pau_j、pau_k插入音素串行PN，并以暂停音素pau_i、pau_j、pau_k为分割点，将音素串行PN分割成音素子串行PN_1、音素子串行PN_2、音素子串行PN_3及音素子串行PN_4，其中，音素子串行PN_1包含音素pn_1～pn_i及暂停音素pau_i，音素子串行PN_2包含音素pn_i+1～pn_j及暂停音素pau_j，音素子串行PN_3包含音素pn_j+1～pn_k及暂停音素pau_k，音素子串行PN_4包含音素pn_k+1～pn_M。如此一来，文字转语音系统10可根据文字串行TXT及音素子串行PN_1、PN_2、PN_3、PN_4，分别产生语音片段S_1、S_2、S_3、S_4，即将相关于音素子串行PN_1、PN_2、PN_3、PN_4的文本标示(文本标示将详述于后)分别加入语音片段S_1、S_2、S_3、S_4中。需注意的是，将暂停音素pau_i、pau_j、pau_k皆分别位于音素子串行PN_1、PN_2、PN_3的结尾处，换句话说，以音素子串行PN_1为例，暂停音素pau_i为音素子串行PN_1的最后一个音素，以此类推，暂停音素pau_j为音素子串行PN_2的最后一个音素，暂停音素pau_k为音素子串行PN_3的最后一个音素。经实验证实，当暂停音素位于其所属的音素子串行的结尾处时，可降低语音信号因突然中断而产生的不连续感。

另外，文字转语音系统10可先决定暂停位置i、j、k，再将暂停音素pau_i、pau_j、pau_k插入对应于音素串行PN中暂停位置i、j、k之处，换句话说，文字转语音系统10系将暂停音素pau_i插入于音素pn_i与音素pn_i+1之间，将暂停音素pau_j插入于音素pn_j与音素pn_j+1之间，并将暂停音素pau_k插入于音素pn_k与音素pn_k+1之间。文字转语音系统10决定暂停位置i、j、k的方式并未有所限，于一实施例中，文字转语音系统10可于对应于文字串行TXT的一标点符号处插入一暂停音素，换句话说，文字转语音系统10先判断文字串行TXT是否具有一标点符号，若有，文字转语音系统10决定一暂停位置为文字串行TXT中对应于该标点符号的位置。于一实施例中，文字转语音系统10可(根据一数据库)判断文字串行TXT是否具有一词组(Phrase)，若有，于对应于该词组的一结尾处插入一暂停音素，换句话说，当字转语音系统10判断文字串行TXT具有一词组时，文字转语音系统10决定一暂停位置为对应于该词组的结尾处。于一实施例中，文字转语音系统10可根据缓冲存储器106的一长度，决定于音素串行PN插入暂停音素的一暂停位置g，并于暂停位置g插入一暂停音素pau_g。

另外，语音片段S_1～S_N中每一语音片段S_n包含多个文本标示(Label)，文本标示为本领域具通常知识者所熟知，其用来标示多个音素pn_1～pn_M之间的关系，更精确的说，文本标示用来标示文字串行TXT中单字与单字间(或单字与标点符号间)音素的关系，举例来说，一第一单字及一第二单字为文字串行TXT所包含的相邻单字，第一单字在前而第二单字在后，文本标示即用来标示第一单字的一后音素与一第二单字的一前音素之间的关系。

另外，文字转语音系统10可采用并行式处理(Parallel Processing)或序列式处理(Serial Processing)的方式执行步骤202及步骤204，换句话说，文字转语音系统10可一次决定多个暂停位置(举例来说，文字转语音系统10一次决定H个暂停位置，H>1)并将H个/多个暂停音素插入音素串行PN，并以该H个/多个暂停音素为分割点，将音素串行PN分割并产生H+1个/多个语音片段(即并行式处理)。或者，文字转语音系统10可于一第一时间决定一第一暂停位置，将一第一暂停音素插入音素串行PN的该第一暂停位置，并将第一暂停音素及其之前的多个音素从音素串行PN切割出去(切割出去后剩下的音素串行称为一音素串行PN’)，并根据第一暂停音素及其之前的多个音素产生一第一语音片段，尔后，文字转语音系统10可于一第二时间决定一第二暂停位置，将一第二暂停音素插入音素串行PN的该第二暂停位置，并将第二暂停音素及其之前的多个音素从音素串行PN’切割出去，并根据第二暂停音素及其之前的多个音素产生一第二语音片段，如此循环操作(即序列式处理)。

于步骤中206中，文字转语音系统10逐一地对语音片段S_1～S_N进行语音合成操作，以产生对应于语音片段S_1～S_N的多个语音输出VO_1～VO_N，此时，文字转语音系统10对语音片段S_1～S_N采序列式处理，换句话说，文字转语音系统10一次仅处理单一语音片段S_n(即对进行语音合成操作)，当处理完语音片段S_n(或大致处理完语音片段S_n)后，文字转语音系统10才处理下一个语音片段S_n+1。

另外，文字转语音系统10可采用以隐藏式马可夫模型为基础(Hidden MarkovModel Based，HMM-based)的语音合成技术来对语音片段S_n进行语音合成操作，以产生对应于语音片段S_n的语音输出VO_n，具体来说，请参考图4，图4为本发明实施例一语音合成方法40的流程图。语音合成方法40可由文字转语音系统10来执行，其包含以下步骤：

步骤400：根据语音片段S_n中的文本标示，参考一马可夫模型数据库。

步骤402：根据该马可夫模型数据库，产生至少一激励参数(ExcitationParameter)以及至少一频谱参数(Spectral Parameter)。

步骤404：根据该至少一激励参数，产生至少一激励信号(Excitation Signal)。

步骤406：根据该至少一激励信号以及该至少一频谱参数，产生对应于语音片段S_n的语音输出VO_n。

以隐藏式马可夫模型为基础的语音合成技术为本领域具通常知识者所熟知，其细节及原理可参考下列网站，于此不再赘述。

http://hts.sp.nitech.ac.jp/archives/2.3/HTS_Slides.zip

由上述可知，本发明于音素串行PN中插入暂停音素，以暂停音素为分割点将音素串行PN分割并产生多个语音片段S_1～S_N，并逐一地对语音片段S_1～S_N进行语音合成操作，以产生对应于语音片段S_1～S_N的多个语音输出VO_1～VO_N。相较于习知技术，本发明既可降低对运算量及存储器空间的需求，又可消除因语音突然中断所产生的不连续感，进而提升语音合成的质量。

需注意的是，前述实施例系用以说明本发明的概念，本领域具通常知识者当可据以做不同的修饰，而不限于此。举例来说，文字转语音系统可视实际情况，于文字串行TXT中插入额外的标点符号，如此一来，文字转语音系统所插入的标点符号即可转换成为暂停音素而插入于音素串行PN中。

另外，本发明的文字转语音系统不限于以图1所绘示的架构实现，举例来说，文字转语音系统可由不同功能单元来实现，请参考图5，图5为本发明实施例一文字转语音系统50的示意图。文字转语音系统50包含一音素产生器500、一暂停音素插入器502、一分割器504以及一语音合成器506，其中音素产生器500用来执行文字转语音流程20的步骤200，暂停音素插入器502用来执行步骤202，分割器504用来执行步骤204，而语音合成器506用来执行步骤206，此外，音素产生器500可另于文字串行TXT中插入额外的标点符号。更进一步地，语音合成器506包含一声学参数产生器560、一激励信号产生器562以及一合成滤波器564，其中声学参数产生器560用来执行语音合成方法40的步骤400及步骤402，激励信号产生器562用来执行步骤404，合成滤波器564用来执行步骤406。本技术领域人员当知图5内的各功能单元可由数字逻辑电路来实现或进行实作。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种文字转语音方法，包含有：

接收一文字串行，并产生对应于该文字串行的多个音素，其中该多个音素形成一音素串行；

于该音素串行中，插入至少一暂停音素；以及

以该至少一暂停音素为分割点，将该音素串行与该至少一暂停音素分割成多个音素子串行，并根据该多个音素子串行，产生多个语音片段，其中每一语音片段包含多个文本标示，多个文本标示包含该多个音素之间的关系；

其中，该至少一暂停音素系为其所属音素子串行的最后一个音素。

2.如权利要求1所述的文字转语音方法，其特征在于，于该音素串行中，插入该至少一暂停音素的步骤包含有：

于对应于该文字串行的一标点符号处，插入该至少一暂停音素的一暂停音素。

3.如权利要求1所述的文字转语音方法，其特征在于，于该音素串行中，插入该至少一暂停音素的步骤包含有：

根据一缓冲存储器的一长度，决定插入该至少一暂停音素的一暂停音素的一暂停位置；以及

于该暂停位置插入该暂停音素。

4.如权利要求1所述的文字转语音方法，其特征在于，于该音素串行中，插入该至少一暂停音素的步骤包含有：

判断该文字串行中是否具有一词组；以及

当该文字串行具有该词组时，于对应于该词组的一结尾处插入该至少一暂停音素的一暂停音素。

5.如权利要求1所述的文字转语音方法，其特征在于，另包含：

于该文字串行中插入一标点符号。

6.如权利要求1所述的文字转语音方法，其特征在于，另包含：

逐一地对该多个语音片段进行一语音合成操作，以产生对应于该多个语音片段的多个语音输出。

7.如权利要求6所述的文字转语音方法，其特征在于，对该多个语音片段的一第一语音片段进行该语音合成操作，以产生对应于该第一语音片段的一第一语音输出的步骤包含有：

根据该第一语音片段，产生至少一激励参数以及至少一频谱参数；

根据该至少一激励参数，产生至少一激励信号；以及

根据该至少一激励信号以及该至少一频谱参数，产生对应于该第一语音片段的该第一语音输出。

8.一种文字转语音系统，包含有：

一音素产生器，用来接收一文字串行，并产生对应于该文字串行的多个音素，其中该多个音素形成一音素串行；

一暂停音素插入器，用来于该音素串行中，插入至少一暂停音素；以及

一分割器，用来以该至少一暂停音素为分割点，将该音素串行与该至少一暂停音素分割成多个音素子串行，并根据该多个音素子串行，产生多个语音片段，其中每一语音片段包含多个文本标示，多个文本标示包含该多个音素之间的关系；

9.如权利要求8所述的文字转语音系统，其特征在于，该暂停音素插入器另用来执行以下步骤，以于该多个音素中，插入该至少一暂停音素：

10.如权利要求8所述的文字转语音系统，其特征在于，该暂停音素插入器另用来执行以下步骤，以于该多个音素中，插入该至少一暂停音素：

于该暂停位置插入该暂停音素。

11.如权利要求8所述的文字转语音系统，其特征在于，该暂停音素插入器另用来执行以下步骤，以于该多个音素中，插入该至少一暂停音素：

判断该文字串行中是否具有一词组；以及

12.如权利要求8所述的文字转语音系统，其特征在于，该音素产生器另用来执行以下步骤：

于该文字串行中插入一标点符号。

13.如权利要求7所述的文字转语音系统，其特征在于，另包含：

一语音合成器，用来逐一地对该多个语音片段进行一语音合成操作，以产生对应于该多个语音片段的多个语音输出。

14.如权利要求13所述的文字转语音系统，其特征在于，该语音合成器包含：

一声学参数产生器，用来根据该第一语音片段，产生多个激励参数以及多个频谱参数；

一激励信号产生器，用来根据该多个激励参数，产生多个激励信号；以及

一合成滤波器，根据该多个激励信号以及该多个频谱参数，产生对应于该第一语音片段的该第一语音输出。

15.一种文字转语音系统，包含有：

一处理单元；以及

一储存单元，耦接于该处理单元，用来储存一程序代码，该程序代码指示该处理单元执行以下步骤：

于该音素串行中，插入至少一暂停音素；以及

16.如权利要求15所述的文字转语音方法，其特征在于，该程序代码另指示该处理单元执行以下步骤，以于该音素串行中，插入该至少一暂停音素：

17.如权利要求15所述的文字转语音方法，其特征在于，该程序代码另指示该处理单元执行以下步骤，以于该音素串行中，插入该至少一暂停音素：

于该暂停位置插入该暂停音素。

18.如权利要求15所述的文字转语音方法，其特征在于，该程序代码另指示该处理单元执行以下步骤，以于该音素串行中，插入该至少一暂停音素：

判断该文字串行中是否具有一词组；以及

19.如权利要求15所述的文字转语音方法，其特征在于，该程序代码另指示该处理单元执行以下步骤：

于该文字串行中插入一标点符号。

20.如权利要求15所述的文字转语音方法，其特征在于，该程序代码另指示该处理单元执行以下步骤：

21.如权利要求20所述的文字转语音方法，其特征在于，该程序代码另指示该处理单元执行以下步骤，以对该多个语音片段的一第一语音片段进行该语音合成操作，以产生对应于该第一语音片段的一第一语音输出：

根据该至少一激励参数，产生至少一激励信号；以及