CN112562636B

CN112562636B - 一种语音合成纠错的方法和装置

Info

Publication number: CN112562636B
Application number: CN202011402089.6A
Authority: CN
Inventors: 王鸣
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2024-07-05
Anticipated expiration: 2040-12-03
Also published as: CN112562636A

Abstract

本发明涉及一种语音合成纠错的方法和装置，该方法包括：获取用户录入的需要纠正读音的目标词条的参考读音；预测所述目标词条的至少一个音素序列；根据所述参考读音，计算每个所述至少一个音素序列的声学置信度；根据声学置信度最高的音素序列纠正所述目标词条的读音。本发明中，当需要纠正词条读音时，用户仅需要读出词条的正确读音，即可根据该正确读音自动给出声学置信度最高的音素序列，从而对语音合成系统合成的读音进行纠正，大大降低了用户纠正语音合成系统多音字读音的成本，解决用户在纠错过程中“会说不会标”的问题。

Description

一种语音合成纠错的方法和装置

技术领域

本发明涉及语音识别领域，具体涉及一种语音合成纠错的方法和装置。

背景技术

当前语音合成系统的发音多是根据词典和字表来确定的，当合成语音出现多音字读音错误时，往往需要用户通过更新词典中词条的注音来进行纠正，纠正时需要用户手动标注音标，对用户在语言方面的专业性有一定要求，特别是当纠正的语种为方言时，对专业性要求更高。

发明内容

本发明提供一种语音合成纠错的方法和装置，能够解决提高对于语音合成后出现的发音错误予以正音的便捷性的技术问题。

本发明解决上述技术问题的技术方案如下：

第一方面，本发明提供一种语音合成纠错的方法，包括：

获取用户录入的需要纠正读音的目标词条的参考读音；

预测所述目标词条的至少一个音素序列；

根据所述参考读音，计算每个所述至少一个音素序列的声学置信度；

根据声学置信度最高的音素序列纠正所述目标词条的读音。

本发明的有益效果是：当需要纠正词条读音时，用户仅需要读出词条的正确读音，即可根据该正确读音自动给出声学置信度最高的音素序列，从而对语音合成系统合成的读音进行纠正，大大降低了用户纠正语音合成系统多音字读音的成本，解决用户在纠错过程中“会说不会标”的问题。

进一步，所述预测所述目标词条的至少一个音素序列，具体包括：

通过内置的字典，获取所述目标词条中每个单字的全部读音；

将每个单字的全部读音排列组合，形成音素序列。

上述进一步方案的有益效果是：通过获取多音字的全部读音进行排列组合，自动形成所有可能的音素序列。

进一步，所述根据所述参考读音，计算每个所述至少一个音素序列的声学置信度，具体包括：

通过声学模型确定每一帧所述参考读音对应的所述音素序列中的音素和后验概率；

根据每一帧参考读音的后验概率，确定所述音素序列中每个音素的后验概率；

根据所述音素序列中每个音素的后验概率，确定所述音素序列的后验概率，作为所述音素序列的声学置信度。

上述进一步方案的有益效果是：通过将参考读音输入声学模型，进一步计算出了每个音素序列的声学置信度。

进一步，所述根据声学置信度最高的音素序列纠正所述目标词条的读音，具体包括：

使用语音合成引擎合成所述声学置信度最高的音素序列的合成读音并播放；

响应于用户确认所述合成读音正确，将所述目标词条和所述合成读音更新到语音合成系统的注音词典中。

上述进一步方案的有益效果是：便于用户根据听到的合成读音来确认其是否正确，从而完成读音纠正。

第二方面，本发明提供一种语音合成纠错的装置，包括：

获取模块，用于获取用户录入的需要纠正读音的目标词条的参考读音；

预测模块，用于预测所述目标词条的至少一个音素序列；

计算模块，用于根据所述参考读音，计算每个所述至少一个音素序列的声学置信度；

纠正模块，用于根据声学置信度最高的音素序列纠正所述目标词条的读音。

进一步，所述预测模块，具体包括：

获取单元，用于通过内置的字典，获取所述目标词条中每个单字的全部读音；

形成单元，用于将每个单字的全部读音排列组合，形成音素序列。

进一步，所述计算模块，具体包括：

第一确定单元，用于通过声学模型确定每一帧所述参考读音对应的所述音素序列中的音素和后验概率；

第二确定单元，用于根据每一帧参考读音的后验概率，确定所述音素序列中每个音素的后验概率；

第三确定单元，用于根据所述音素序列中每个音素的后验概率，确定所述音素序列的后验概率，作为所述音素序列的声学置信度。

进一步，所述纠正模块，具体包括：

合成单元，用于使用语音合成引擎合成所述声学置信度最高的音素序列的合成读音并播放；

更新单元，用于响应于用户确认所述合成读音正确，将所述目标词条和所述合成读音更新到语音合成系统的注音词典中。

第三方面，本发明提供一种终端设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行上述的方法。

第四方面，本发明提供一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行上述的方法。

附图说明

图1为本发明实施例提供的一种语音合成纠错的方法的流程图；

图2为本发明实施例提供的一种语音合成纠错的方法的业务流程图；

图3为本发明实施例提供的一种语音合成纠错的装置的结构图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明实施例提供的一种语音合成纠错的方法的流程图，如图1所示，该方法包括：

S1、获取用户录入的需要纠正读音的目标词条的参考读音；

具体的，本发明实施例中，如图2所示，用户首先在交互界面输入待合成的文本，语音合成系统根据文本合成对应的语音并播放给用户，由于可能存在多音字，尤其是方言等具有地方特色发音等情形，语音合成系统合成的语音会存在读音错误的情况，当用户发现文本中的某个词条或短语的语音中存在读音错误时，可在交互界面中选中该词条或短语，然后通过麦克风等语音录入设备录入该词条或短语的正确读音作为参考读音。

S2、预测所述目标词条的至少一个音素序列；

具体的，本发明实施例中，可由语音合成系统通过查询内置的字典，获取目标词条中每个单字的读音，然后将每个单字可能的读音排列组合，从而得到至少一个音素序列。

S3、根据所述参考读音，计算每个所述至少一个音素序列的声学置信度；

具体的，如图2所示，该步骤中，采用语音识别引擎根据录入的参考读音，预测出输入的文本序列中每个字(音节)的声学置信度打分。特别的，对于多音字要输出所有可能读音的声学相似度置信度打分。

S4、根据声学置信度最高的音素序列纠正所述目标词条的读音。

具体的，如图2所示，语音合成系统输出声学置信度最高的音素序列，合成对应的语音，用户确认发音正确后，即可将词条及其对应的注音更新到语音合成系统的注音词典中，并进行动态加载，完成发音的纠正和更新。

本发明实施例提供的一种语音合成纠错的方法，当需要纠正词条读音时，用户仅需要读出词条的正确读音，即可根据该正确读音自动给出声学置信度最高的音素序列，从而对语音合成系统合成的读音进行纠正，大大降低了用户纠正语音合成系统多音字读音的成本，解决用户在纠错过程中“会说不会标”的问题。

可选地，步骤S2具体包括：

S21、通过内置的字典，获取所述目标词条中每个单字的全部读音；

S22、将每个单字的全部读音排列组合，形成音素序列。

该实施例通过获取多音字的全部读音进行排列组合，自动形成所有可能的音素序列。

可选地，步骤S3具体包括：

S31、通过声学模型确定每一帧所述参考读音对应的所述音素序列中的音素和后验概率；

S32、根据每一帧参考读音的后验概率，确定所述音素序列中每个音素的后验概率；

S33、根据所述音素序列中每个音素的后验概率，确定所述音素序列的后验概率，作为所述音素序列的声学置信度。

具体的，在语音识别引擎中，每一个音素都会对应一个声学模型，这个模型是使用不同语音中发音相同的音素通过统计方法训练得到的。

该实施例中，为了将每一帧语音对应到音素的声学模型上，即得到每一帧语音与对应音素的映射关系，需要首先将语音和每一个音素序列进行强制对齐。具体的，首先通过提取每一帧语音的声学特征，得到声学特征序列，然后通过计算语音的声学特征和音素的声学模型的后验概率来得到当前帧语音对应到哪个音素。

在完成了强制对齐，得到了每一帧语音对应的音素之后，同时也得到了每一帧语音和它对应的音素的后验概率，这样通过音素对应语音帧的后验概率做加权求和，就可以得到每一个音素的后验概率。

根据之前计算的每个音素的后验概率，可以加权求和得到对应音素序列的后验概率。最后取后验概率最高的音素序列作为预测结果输出。

举例说明如下：用户用上海话输入一段的语音，语音长度共60帧，其对应的文本是【一个人】，按照上海话的音系标注音素序列，由于多音字的存在，那么对应的可能音素序列是【iIk55 eek55 n inT23】(简称序列一)或者【iIk55 eek55 z eenT23】(简称序列二)。强制对齐时，分别计算每一帧语音和序列一、序列二之间的音素对应关系。比如，第1～10帧语音对应的是序列一中的音素【iIk55】，其中，第一帧语音对应的后验概率是80％，第二帧语音对应的后延概率是95％，以此类推。在加权求和时，最简单的一种方法是算术平均数，比如，音素【eek55】对应的是第11到第15帧语音，它们的后验概率分别是95％、96％、95％、96％、95.5％，那这个音素对应的语音段的后验概率就是95.5％。通过单个音素的后延概率计算整个序列的后验概率的方法也是同理。假设最后算出来序列一的后验概率是85％，序列二的后验概率是65％，那么，序列一就是置信度更高的音素序列。

本实施例中，通过将参考读音输入声学模型，进一步计算出了每个音素序列的声学置信度。

可选地，步骤S4具体包括：

S41、使用语音合成引擎合成所述声学置信度最高的音素序列的合成读音并播放；

S42、响应于用户确认所述合成读音正确，将所述目标词条和所述合成读音更新到语音合成系统的注音词典中。

本实施例中，语音合成系统输出声学置信度最高的音素序列，合成对应的语音，用户确认发音正确后，即可将词条及其对应的注音更新到语音合成系统的注音词典中，并进行动态加载，完成发音的纠正和更新。

下面通过一个具体实例对本发明实施例的进行具体说明：

1、上海话合成系统中输入合成文本为：【一个人去旅行】，其中【一个人】的正确读音为【iIk55 eek55 n-inT23】，而合成系统将该文本的发音预测成了【iIk55 eek55 z-eenT23】，即【一个人】出现了发音错误。

2、用户在图形界面中选中【一个人】这个词条。

3、用户将【一个人】这个词条的正确发音读出来，系统收集并存储用户的语音。

4、合成系统预测出可能的音素序列，分别是【iIk55 eek55 n inT23】和【iIk55eek55 z eenT23】。

5、识别引擎预测出这段语音对于两个音素序列的置信度打分，并挑选置信度高的序列作为预测输出，比如【iIk55 eek55 n inT23】的置信度是95％，【iIk55 eek55 zeenT23】的置信度是65％，那就认为【iIk55 eek55 n inT23】是正确的读音。

6、使用上一步中输出的音素序列为句子重新注音，并合成语音给用户进行确认。

7、用户确认通过后，将该词条及其发音加入到注音词典，并加载到合成系统中，这样下一次合成的时候就可以正确播报了。

图3为本发明实施例提供的一种语音合成纠错的装置的结构图，该装置的各个模块的功能原理已在上述方法实施例中进行了对应说明，以下不再赘述。

如图3所示，该装置包括：

预测模块，用于预测所述目标词条的至少一个音素序列；

进一步，所述预测模块，具体包括：

进一步，所述计算模块，具体包括：

进一步，所述纠正模块，具体包括：

本发明实施例还提供一种终端设备，包括：

处理器；以及

其中，处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

本发明实施例还提供一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行上述的方法。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音合成纠错的方法，其特征在于，包括：

在交互界面输入待合成的文本，语音合成系统根据所述待合成的文本合成对应的需要纠正语音，获取用户录入的需要纠正读音的目标词条的参考读音；

预测所述目标词条的至少一个音素序列；

其中，所述根据所述参考读音，计算每个所述至少一个音素序列的声学置信度，具体包括：通过声学模型确定每一帧所述参考读音对应的所述音素序列中的音素和后验概率；根据每一帧参考读音的后验概率，确定所述音素序列中每个音素的后验概率；根据所述音素序列中每个音素的后验概率，确定所述音素序列的后验概率，作为所述音素序列的声学置信度；

根据声学置信度最高的音素序列纠正所述目标词条的读音；

所述根据声学置信度最高的音素序列纠正所述目标词条的读音，具体包括：

使用语音合成引擎合成所述声学置信度最高的音素序列的合成读音并播放；响应于用户确认所述合成读音正确，将所述目标词条和所述合成读音更新到语音合成系统的注音词典中。

2.根据权利要求1所述的语音合成纠错的方法，其特征在于，所述预测所述目标词条的至少一个音素序列，具体包括：

将每个单字的全部读音排列组合，形成音素序列。

3.一种语音合成纠错的装置，其特征在于，包括：

获取模块，用于在交互界面输入待合成的文本，语音合成系统根据所述待合成的文本合成对应的需要纠正语音，获取用户录入的需要纠正读音的目标词条的参考读音；

预测模块，用于预测所述目标词条的至少一个音素序列；

其中，所述计算模块，具体包括：第一确定单元，用于通过声学模型确定每一帧所述参考读音对应的所述音素序列中的音素和后验概率；第二确定单元，用于根据每一帧参考读音的后验概率，确定所述音素序列中每个音素的后验概率；第三确定单元，用于根据所述音素序列中每个音素的后验概率，确定所述音素序列的后验概率，作为所述音素序列的声学置信度；

纠正模块，用于根据声学置信度最高的音素序列纠正所述目标词条的读音；

所述纠正模块，具体包括：

合成单元，用于使用语音合成引擎合成所述声学置信度最高的音素序列的合成读音并播放；更新单元，用于响应于用户确认所述合成读音正确，将所述目标词条和所述合成读音更新到语音合成系统的注音词典中。

4.根据权利要求3所述的语音合成纠错的装置，其特征在于，所述预测模块，具体包括：

5.一种终端设备，其特征在于，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1或2所述的方法。

6.一种非暂时性机器可读存储介质，其上存储有可执行代码，其特征在于，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1或2所述的方法。