CN112530406A

CN112530406A - 一种语音合成方法、语音合成装置及智能设备

Info

Publication number: CN112530406A
Application number: CN202011376239.0A
Authority: CN
Inventors: 钱程浩
Original assignee: Ubtech Robotics Corp
Current assignee: Ubtech Robotics Corp
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-03-19

Abstract

本申请公开了一种语音合成方法、语音合成装置、智能设备及计算机可读存储介质。其中，该方法包括：检测输入文本中所存在的语种；若所述输入文本中存在两个以上语种，则对所述输入文本进行分词处理，获得所述两个以上语种所分别对应的词列表；分别根据所述两个以上语种所采用的发音标识方式，确定对应的词列表中各个词的发音标识；根据每个词列表中各个词的发音标识，进行所述输入文本的语音合成。通过本申请方案，可提升智能设备在面对包含多语种的文本时的语音合成效果。

Description

一种语音合成方法、语音合成装置及智能设备

技术领域

本申请属于人工智能技术领域，尤其涉及一种语音合成方法、语音合成装置及智能设备。

背景技术

在进行语音合成时，智能设备搭载的语音合成系统会先对所要进行语音合成的文本进行分析，其分析的目的是使计算机能从这些文本中认识文字，进而知道要发什么音及怎么发音，并将发音的方式告诉智能设备；除此之外，语音合成系统还会让智能设备知道文本中哪些是词，哪些是短语或句子，使得智能设备可获知在发音时应该进行怎样的停顿，以获得更流畅的语音表达。然而，当前的语音合成系统仅能基于单一语种的文本进行语音合成，在基于多语种的文本的语音合成方面表现较差。

发明内容

本申请提供了一种语音合成方法、语音合成装置、智能设备及计算机可读存储介质，可提升智能设备在面对包含多语种的文本时的语音合成效果。

第一方面，本申请提供了一种语音合成方法，包括：

检测输入文本中所存在的语种；

若上述输入文本中存在两个以上语种，则对上述输入文本进行分词处理，获得上述两个以上语种所分别对应的词列表；

分别根据上述两个以上语种所采用的发音标识方式，确定对应的词列表中各个词的发音标识；

根据每个词列表中各个词的发音标识，进行上述输入文本的语音合成。

第二方面，本申请提供了一种语音合成装置，包括：

检测单元，用于检测输入文本中所存在的语种；

分词单元，用于若上述输入文本中存在两个以上语种，则对上述输入文本进行分词处理，获得上述两个以上语种所分别对应的词列表；

确定单元，用于分别根据上述两个以上语种所采用的发音标识方式，确定对应的词列表中各个词的发音标识；

合成单元，用于根据每个词列表中各个词的发音标识，进行上述输入文本的语音合成。

第三方面，本申请提供了一种智能设备，上述智能设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时实现如上述第一方面的方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现如上述第一方面的方法的步骤。

第五方面，本申请提供了一种计算机程序产品，上述计算机程序产品包括计算机程序，上述计算机程序被一个或多个处理器执行时实现如上述第一方面的方法的步骤。

本申请与现有技术相比存在的有益效果是：在面对待处理的输入文本时，会先去检测输入文本中所存在的语种；一旦检测发现该输入文本中存在两个以上语种，就会在对输入文本进行分词处理后，获得每个语种所分别对应的词列表，也即，每个词列表中，仅包含同一语种的分词结果；之后，考虑到对不同语种的文本来说，发音规则存在有区别，因而可根据各个语种所采用的发音标识方式，确定每个语种所对应的词列表中的各个词的发音标识，并在最后根据每个词列表中各个词的发音标识，进行输入文本的语音合成。由上述过程可知，本方案针对输入文本中的不同语种的词，不再采用单一的发音规则进行处理，而是会基于语种的不同分开进行处理，以得到各个词在对应语种下的正确的发音标识，以此实现最终的语音合成操作，可大大提升智能设备在面对包含多语种的文本时的语音合成效果。可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的语音合成方法的实现流程示意图；

图2是本申请实施例提供的语音合成方法中，有向无环图的示例图；

图3是本申请实施例提供的语音合成装置的结构框图；

图4是本申请实施例提供的智能设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

为了说明本申请所提出的技术方案，下面通过具体实施例来进行说明。

下面对本申请实施例提供的一种语音合成方法进行描述。请参阅图1，该语音合成方法包括：

步骤101，检测输入文本中所存在的语种。

在本申请实施例中，智能设备在接收到需要进行语音合成的输入文本，也即待发音的输入文本后，可先对该输入文本中所存在的语种进行检测。其中，智能设备可以是接收用户输入的文字，以获得输入文本；或者，智能设备也可以是导入并解析用户所指定的文件，以获得输入文本，此处不对输入文本的获取方式作出限定。示例性地，可以采用langid算法或langdetect算法等来检测输入文本中所存在的语种。

步骤102，若上述输入文本中存在两个以上语种，则对上述输入文本进行分词处理，获得上述两个以上语种所分别对应的词列表。

在本申请实施例中，若输入文本中仅存在一个语种，则可知该输入文本为单语种文本；也即，该输入文本中的所有词均遵循同一套发音规则。基于此，可直接根据该输入文本的语种所对应的发音标识方式来确定输入文本中所有词的发音标识，以实现该输入文本的语音合成，此处不作赘述。

反之，若输入文本中存在有两个以上语种，则可知该输入文本为多语种混合文本；这可能导致输入文本中的词可能遵循不同发音规则(也即不同的发音标识方式)。举例来说，属于中文的词基于拼音而进行语音合成，属于英文的词基于音素而进行语音合成。基于此，本申请考虑先对输入文本进行分词处理，来获得上述两个以上语种所分别对应的词列表，实现基于词所属的语种来针对性的对词进行处理。

在一种应用场景下，若输入文本中仅存在英文及中文，则本步骤可表现为：对输入文本进行分词处理，得到中文词语列表及英文单词列表，其中，中文词语列表包括组成输入文本的各个中文词语，英文单词列表包括组成输入文本的各个英文单词。也即，对于中英文混合文本来说，会以词语来作为划分中文文本的最小单元，以单词来作为划分英文文本的最小单元。具体地，可通过jieba分词来对仅存在英文及中文的输入文本进行分词，其工作原理简述如下：

jieba分词可先对中英文混合的输入文本进行初步分析，将该输入文本中的各个英文单词分割出来，以完成对英文的分词；然后，对剔除了英文单词的输入文本切分，也即基于标点符号将语句从输入文本中剥离出来，组成各个语句所对应的语句数组；接着，再以语句为单位进行进一步处理，也即对各个语句数组进行进一步处理。具体地，针对每个语句数组，其进一步处理的过程包括：基于该语句数组构造有向无环图，然后进行最大概率路径计算，并基于该最大概率路径所对应的切分方式获得该语句数组所对应的切分结果；最终，可得到组成各个语句的若干个中文词语，以完成对中文的分词。

举例来说，输入文本为“编程的第一课是学习hello world”；jieba分词在处理该输入文本时，首先分割出该输入文本的英文单词，也即“hello”及“world”；然后，由于该输入文本仅包含一句话，因而不需要进行语句切分，该剔除了英文单词的内容“编程的第一课是学习”即可构成一语句数组；继续对该语句数组进行处理，构造该语句数组的有向无环图，如图2所示；再对每个路径，从语句数组的最末位开始计算每个词语的成词概率；最终，可基于成词概率之和最大的路径所对应的切分位置获得切分结果，则语句数组“编程的第一课是学习”的切分结果为：编程、的、第一课、是及学习。基于上述过程，可得到英文单词列表为[hello，world]，中文词语列表为[编程，的，第一课，是，学习]。

当然，也可以采用其它分词工具对输入文本进行分词，例如SnowNLP，pkuseg，THULAC及pyhanlp等，此处不作限定。

步骤103，分别根据上述两个以上语种所采用的发音标识方式，确定对应的词列表中各个词的发音标识。

在本申请实施例中，考虑到不同语种所对应的发音标识可能不同，针对每个词列表，均会以该词列表所属的语种对应的发音标识方式来对该词列表中的各个词进行处理，以得到该词列表中各个词的发音标识。

在一种应用场景下，若上述输入文本中仅存在英文及中文，则步骤102可得到中文词语列表及英文单词列表。考虑到中文采用拼音进行发音，英文采用音素进行发音，本步骤可表现为：确定中文词语列表中的每个中文词语所分别对应的拼音，并确定英文单词列表中的每个英文单词所分别对应的音素。

示例性地，对于中文词语列表来说，可基于预设的拼音转换工具，例如pypinyin来确定中文词语列表中的每个中文词语所分别对应的拼音；对于英文单词列表来说，可基于预设的单词前缀词典CMU dict查找英文单词列表中的每个英文单词所分别对应的音素，其中，该单词前缀词典配置有至少一个英文单词及对应的音素。下面给出该单词前缀词典的一个示例：

单词	音素
		HELLO	HH AH L OW
WORLD	W ER L D
		……	……

在一些实施例中，可在得到中文词语列表后，基于输入文本对该中文词语列表中的每个中文词语进行词性标注，获得每个中文词语的词性；相应地，拼音转换工具可基于各个中文词语的词性来进行拼音转换；也即，基于该拼音转换工具及该中文词语列表中的每个中文词语的词性，来确定每个中文词语所分别对应的拼音。通过这种方式，可在输入文本中有多音字出现时，通过各个中文词语的词性来确定其准确的拼音，使得输入文本中的中文词语的语音合成更加准确。

举例来说，在前文示例中，对于英文单词列表[hello，world]来说，通过拼音转换工具可得：

“hello”对应的音素为“HH AH L OW”

“world”对应的音素为“W ER L D”

对于中文词语列表[编程，的，第一课，是，学习]来说，通过单词前缀词典可得：

“编程”对应的拼音为“biān chéng”

“的”对应的拼音为“de”

“第一课”对应的拼音为“dìyīkè”

“是”对应的拼音为“shì”

“学习”对应的拼音为“xuéxí”

步骤104，根据每个词列表中各个词的发音标识，进行上述输入文本的语音合成。

在本申请实施例中，语音合成系统在获取到每个词列表中各个词的发音标识后，即可确认该输入文本中的每个词该如何发音，以此来实现输入文本的语音合成。具体地，智能设备可先根据每个词列表中各个词的发音标识，生成输入文本的发音列表，该发音列表罗列有输入文本中的各个词所对应的发音标识，然后将该发音列表输入至预设的语音合成系统，以指示该语音合成系统基于该发音列表对输入文本进行语音合成。

在一种应用场景下，若上述输入文本中仅存在英文及中文，则步骤103可得到中文词语列表中的各个中文词语的拼音，以及英文单词列表中的各个英文单词的音素；基于此，本步骤可表现为：根据中文词语列表中的每个中文词语所分别对应的拼音，以及英文单词列表中的每个英文单词所分别对应的音素，进行输入文本的语音合成。再结合前文所提出的发音列表，本步骤可进一步具体表现为：根据中文词语列表中的每个中文词语所分别对应的拼音，以及英文单词列表中的每个英文单词所分别对应的音素，生成输入文本的发音列表，并将该发音列表输入至语音合成系统，以指示该语音合成系统基于该发音列表对输入文本进行语音合成。

举例来说，对于输入文本“编程的第一课是学习hello world”来说，所生成的发音列表可以为：

由上可见，通过本申请实施例，在面对待处理的输入文本时，会先去检测输入文本中所存在的语种；一旦检测发现该输入文本中存在两个以上语种，就会在对输入文本进行分词处理后，获得每个语种所分别对应的词列表，也即，每个词列表中，仅包含同一语种的分词结果；之后，考虑到对不同语种的文本来说，发音规则存在有区别，因而可根据各个语种所采用的发音标识方式，确定每个语种所对应的词列表中的各个词的发音标识，并在最后根据每个词列表中各个词的发音标识，进行输入文本的语音合成。由上述过程可知，本方案针对输入文本中的不同语种的词，不再采用单一的发音规则进行处理，而是会基于语种的不同分开进行处理，以得到各个词在对应语种下的正确的发音标识，以此实现最终的语音合成操作，可大大提升智能设备在面对包含多语种的文本时的语音合成效果。

对应于前文所提出的语音合成方法，本申请实施例提供了一种语音合成装置，上述语音合成装置集成于智能设备。请参阅图3，本申请实施例中的语音合成装置300包括：

检测单元301，用于检测输入文本中所存在的语种；

分词单元302，用于若上述输入文本中存在两个以上语种，则对上述输入文本进行分词处理，获得上述两个以上语种所分别对应的词列表；

确定单元303，用于分别根据上述两个以上语种所采用的发音标识方式，确定对应的词列表中各个词的发音标识；

合成单元304，用于根据每个词列表中各个词的发音标识，进行上述输入文本的语音合成。

可选地，若上述检测单元301检测到上述输入文本中仅存在英文及中文，则上述分词单元302，具体用于对上述输入文本进行分词处理，得到中文词语列表及英文单词列表，其中，上述中文词语列表包括组成上述输入文本的各个中文词语，上述英文单词列表包括组成上述输入文本的各个英文单词。

相应地，上述确定单元303，具体用于确定上述中文词语列表中的每个中文词语所分别对应的拼音，以及确定上述英文单词列表中的每个英文单词所分别对应的音素；

相应地，上述合成单元304，具体用于根据上述中文词语列表中的每个中文词语所分别对应的拼音，以及上述英文单词列表中的每个英文单词所分别对应的音素，进行上述输入文本的语音合成。

可选地，上述确定单元303，包括：

拼音确定子单元，用于基于预设的拼音转换工具确定上述中文词语列表中的每个中文词语所分别对应的拼音。

可选地，上述语音合成装置300还包括：

词性标注单元，用于基于上述输入文本对上述中文词语列表中的每个中文词语进行词性标注，获得每个中文词语的词性；

相应地，上述拼音确定子单元，具体用于基于预设的拼音转换工具及上述中文词语列表中的每个中文词语的词性，确定每个中文词语所分别对应的拼音。

可选地，上述确定单元303，包括：

音素确定子单元，用于基于预设的单词前缀词典查找上述英文单词列表中的每个英文单词所分别对应的音素，其中，上述单词前缀词典配置有至少一个英文单词及对应的音素。

可选地，上述合成单元304，包括：

列表生成子单元，用于根据每个词列表中各个词的发音标识，生成上述输入文本的发音列表；

列表输入子单元，用于将上述发音列表输入至预设的语音合成系统，以指示上述语音合成系统基于上述发音列表对上述输入文本进行语音合成。

本申请实施例还提供了一种智能设备，请参阅图4，本申请实施例中的智能设备4包括：存储器401，一个或多个处理器402(图4中仅示出一个)及存储在存储器401上并可在处理器上运行的计算机程序。其中：存储器401用于存储软件程序以及单元，处理器402通过运行存储在存储器401的软件程序以及单元，从而执行各种功能应用以及数据处理，以获取上述预设事件对应的资源。具体地，处理器402通过运行存储在存储器401的上述计算机程序时实现以下步骤：

检测输入文本中所存在的语种；

假设上述为第一种可能的实施方式，则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中，若上述输入文本中仅存在英文及中文，则上述对上述输入文本进行分词处理，获得上述两个以上语种所分别对应的词列表，包括：

对上述输入文本进行分词处理，得到中文词语列表及英文单词列表，其中，上述中文词语列表包括组成上述输入文本的各个中文词语，上述英文单词列表包括组成上述输入文本的各个英文单词；

相应地，上述分别根据上述两个以上语种所采用的发音标识方式，确定对应的词列表中各个词的发音标识，包括：

确定上述中文词语列表中的每个中文词语所分别对应的拼音；

确定上述英文单词列表中的每个英文单词所分别对应的音素；

相应地，上述根据每个词列表中各个词的发音标识，进行上述输入文本的语音合成，包括：

根据上述中文词语列表中的每个中文词语所分别对应的拼音，以及上述英文单词列表中的每个英文单词所分别对应的音素，进行上述输入文本的语音合成。

在上述第二种可能的实施方式作为基础而提供的第三种可能的实施方式中，上述确定上述中文词语列表中的每个中文词语所分别对应的拼音，包括：

基于预设的拼音转换工具确定上述中文词语列表中的每个中文词语所分别对应的拼音。

在上述第三种可能的实施方式作为基础而提供的第四种可能的实施方式中，在上述对上述输入文本进行分词处理，得到中文词语列表及英文单词列表之后，处理器402通过运行存储在存储器401的上述计算机程序时还实现以下步骤：

基于上述输入文本对上述中文词语列表中的每个中文词语进行词性标注，获得每个中文词语的词性；

相应地，上述基于预设的拼音转换工具确定上述中文词语列表中的每个中文词语所分别对应的拼音，包括：

基于预设的拼音转换工具及上述中文词语列表中的每个中文词语的词性，确定每个中文词语所分别对应的拼音。

在上述第二种可能的实施方式作为基础而提供的第五种可能的实施方式中，上述确定上述英文单词列表中的每个英文单词所分别对应的音素，包括：

基于预设的单词前缀词典查找上述英文单词列表中的每个英文单词所分别对应的音素，其中，上述单词前缀词典配置有至少一个英文单词及对应的音素。

在上述第一种可能的实施方式作为基础，或者上述第二种可能的实施方式作为基础，或者上述第三种可能的实施方式作为基础，或者上述第四种可能的实施方式作为基础，或者上述第五种可能的实施方式作为基础而提供的第六种可能的实施方式中，上述根据每个词列表中各个词的发音标识，进行上述输入文本的语音合成，包括：

根据每个词列表中各个词的发音标识，生成上述输入文本的发音列表；

将上述发音列表输入至预设的语音合成系统，以指示上述语音合成系统基于上述发音列表对上述输入文本进行语音合成。

应当理解，在本申请实施例中，所称处理器402可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器401可以包括只读存储器和随机存取存储器，并向处理器402提供指令和数据。存储器401的一部分或全部还可以包括非易失性随机存取存储器。例如，存储器401还可以存储设备类别的信息。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者外部设备软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关联的硬件来完成，上述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，上述计算机程序包括计算机程序代码，上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读存储介质可以包括：能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机可读存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括是电载波信号和电信信号。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种语音合成方法，其特征在于，包括：

检测输入文本中所存在的语种；

若所述输入文本中存在两个以上语种，则对所述输入文本进行分词处理，获得所述两个以上语种所分别对应的词列表；

分别根据所述两个以上语种所采用的发音标识方式，确定对应的词列表中各个词的发音标识；

根据每个词列表中各个词的发音标识，进行所述输入文本的语音合成。

2.如权利要求1所述的语音合成方法，其特征在于，若所述输入文本中仅存在英文及中文，则所述对所述输入文本进行分词处理，获得所述两个以上语种所分别对应的词列表，包括：

对所述输入文本进行分词处理，得到中文词语列表及英文单词列表，其中，所述中文词语列表包括组成所述输入文本的各个中文词语，所述英文单词列表包括组成所述输入文本的各个英文单词；

相应地，所述分别根据所述两个以上语种所采用的发音标识方式，确定对应的词列表中各个词的发音标识，包括：

确定所述中文词语列表中的每个中文词语所分别对应的拼音；

确定所述英文单词列表中的每个英文单词所分别对应的音素；

相应地，所述根据每个词列表中各个词的发音标识，进行所述输入文本的语音合成，包括：

根据所述中文词语列表中的每个中文词语所分别对应的拼音，以及所述英文单词列表中的每个英文单词所分别对应的音素，进行所述输入文本的语音合成。

3.如权利要求2所述的语音合成方法，其特征在于，所述确定所述中文词语列表中的每个中文词语所分别对应的拼音，包括：

基于预设的拼音转换工具确定所述中文词语列表中的每个中文词语所分别对应的拼音。

4.如权利要求3所述的语音合成方法，其特征在于，在所述对所述输入文本进行分词处理，得到中文词语列表及英文单词列表之后，所述语音合成方法还包括：

基于所述输入文本对所述中文词语列表中的每个中文词语进行词性标注，获得每个中文词语的词性；

相应地，所述基于预设的拼音转换工具确定所述中文词语列表中的每个中文词语所分别对应的拼音，包括：

基于预设的拼音转换工具及所述中文词语列表中的每个中文词语的词性，确定每个中文词语所分别对应的拼音。

5.如权利要求2所述的语音合成方法，其特征在于，所述确定所述英文单词列表中的每个英文单词所分别对应的音素，包括：

基于预设的单词前缀词典查找所述英文单词列表中的每个英文单词所分别对应的音素，其中，所述单词前缀词典配置有至少一个英文单词及对应的音素。

6.如权利要求1至5任一项所述的语音合成方法，其特征在于，所述根据每个词列表中各个词的发音标识，进行所述输入文本的语音合成，包括：

根据每个词列表中各个词的发音标识，生成所述输入文本的发音列表；

将所述发音列表输入至预设的语音合成系统，以指示所述语音合成系统基于所述发音列表对所述输入文本进行语音合成。

7.一种语音合成装置，其特征在于，包括：

检测单元，用于检测输入文本中所存在的语种；

分词单元，用于若所述输入文本中存在两个以上语种，则对所述输入文本进行分词处理，获得所述两个以上语种所分别对应的词列表；

确定单元，用于分别根据所述两个以上语种所采用的发音标识方式，确定对应的词列表中各个词的发音标识；

合成单元，用于根据每个词列表中各个词的发音标识，进行所述输入文本的语音合成。

8.如权利要求7所述的语音合成装置，其特征在于，若所述检测单元检测到所述输入文本中仅存在英文及中文，则所述分词单元，具体用于对所述输入文本进行分词处理，得到中文词语列表及英文单词列表，其中，所述中文词语列表包括组成所述输入文本的各个中文词语，所述英文单词列表包括组成所述输入文本的各个英文单词；

相应地，所述确定单元，具体用于确定所述中文词语列表中的每个中文词语所分别对应的拼音，以及确定所述英文单词列表中的每个英文单词所分别对应的音素；

相应地，所述合成单元，具体用于根据所述中文词语列表中的每个中文词语所分别对应的拼音，以及所述英文单词列表中的每个英文单词所分别对应的音素，进行所述输入文本的语音合成。

9.一种智能设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。