CN109389968B

CN109389968B - 基于双音节混搭的波形拼接方法、装置、设备及存储介质

Info

Publication number: CN109389968B
Application number: CN201811153693.2A
Authority: CN
Inventors: 房树明; 程宁; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2023-08-18
Anticipated expiration: 2038-09-30
Also published as: CN109389968A; WO2020062680A1

Abstract

本发明公开了一种基于双音节混搭的波形拼接方法，属于语音拼接合成术领域。该方法包括：音库制作：将双音节词的标准音频按韵母切分为前、中、后三段音频，每段音频作为波形拼接所需的基元语音片段保存至音库中；文本预处理：将待转化成语音的文本正则化，对正则化后的文本按说话规则分词以形成短语，并标注拼音和声调；短语波形拼接：以分词之后的短语为单位，将短语中每两个相邻的字作为一个待转化双音节词，根据拼接规则从音库中查找与所述待转化双音节词相对应的基元语音片段；文本音频拼接：按各个短语的顺序，依次拼接各个短语的音频文件为所述文本的语音文件。本发明通过双音节混搭和韵母分割，可合成非常逼真的离线和实时中文语音。

Description

基于双音节混搭的波形拼接方法、装置、设备及存储介质

技术领域

本发明涉及语音拼接合成术领域，涉及一种基于双音节混搭的波形拼接方法、装置、设备及存储介质。

背景技术

现有语音合成方法有基于语音特征参数和基于波形拼接两种方法。相对于基于参数的方法，基于波形拼接的语音合成能够得到质量更高的合成语音，声音听起来也更自然，更为接近原始发音人的音色。因此，目前主流的在线语音合成都是偏重于采用基于波形拼接的语音合成方案。

所谓波形拼接就是使用不同长度的录音作为语音库的基础单元，用于合成任意长度的话语。根据输入的文本，拼接音库中相应的基础单元，是一个简单和有效地产生非常自然语音的方案。另一方面从计算复杂度来看，它比其它所有的语音合成方案的复杂度都要小。

但是在进行波形拼接前，找出最合适的语音单元是波形拼接的一项重要任务。一个通用的原则是选取的语音单元越长，合成的语音越自然，但是语音库的规模越庞大，大到可能在一定的工程周期内无法覆盖整个连续发音系统。

发明内容

本发明要解决的技术问题是为了克服现有技术中合成语音的自然度与缩小语音库规模之间的矛盾，提出了一种基于双音节混搭的波形拼接方法、装置、设备及存储介质，既能保证合成高质量的连续语音，又能在较短的时间内覆盖特定场景下的连续发音系统。

本发明是通过下述技术方案来解决上述技术问题：

一种基于双音节混搭的波形拼接方法，包括以下步骤：

音库制作：将双音节词的标准音频按韵母切分为前、中、后三段音频，每段音频作为波形拼接所需的基元语音片段保存至音库中；

文本预处理：将待转化成语音的文本正则化，对正则化后的文本按说话规则分词以形成短语，并标注拼音和声调；

短语波形拼接：以分词之后的短语为单位，将所述短语中每两个相邻的字作为一个待转化双音节词，从音库中查找所述短语中首个待转化双音节词的前、中两段基元语音片段、末个待转化双音节词的中、后两个基元语音片段以及其他待转化双音节词的中段基元语音片段，并按各个待转化双音节词在所述短语中的顺序，将查到的各段基元语音片段依次拼接为所述短语的音频文件；

文本音频拼接：按各个短语在所述待转化成语音的文本中的顺序，将获得的各个短语的音频文件依次直接拼接为所述文本的语音文件。

优选地，在音库制作之前还包括以下步骤：

音频录制：录制专业客服朗读的双音节词，并以双音节词为单位保存为原始音频文件；

静音段分割：切除所述原始音频文件中音频前后的静音部分，将所述音频中的发音部分作为所述双音节词的标准音频保存。

优选地，所述基元语音片段的文件名以该基元语音片段对应的双音节词的拼音、声调和段位命名。

优选地，所述将双音节词的音频按韵母切分为前、中、后三段音频时，以汉字韵母发声波形中部最高点的左边零点作为分界点。

优选地，所述文本预处理具体包括以下步骤：

文本正则化：将所述文本中包含的非中英文字符根据预设的处理规则进行转换；

文本分词：根据汉语的说话习惯将所述文本划分为若干个短语，并在各个短语之间加入空格以示停顿；

拼音标注：给分词后的所述文本标注拼音和声调。

优选地，在所述短语波形拼接中，根据各个所述待转化双音节词上标注的拼音和声调，从所述音库中查找文件名中包含有所述双音节词上标注的拼音和声调的基元语音片段；再根据拼接规则，从查找到的基元语音片段中获取文件名中包含有相应段位的基元语音片段。

本发明还公开了一种基于双音节混搭的波形拼接装置，包括：

音库制作模块，用于将双音节词的音频按韵母切分为前、中、后三段音频，每段音频作为波形拼接所需的基元语音片段保存至音库中；

文本预处理模块，用于将待转化成语音的文本正则化，对正则化后的文本按说话规则分词以形成短语，并标注拼音和声调；

短语波形拼接模块，用于以分词之后的短语为单位，将所述短语中每两个相邻的字作为一个待转化双音节词，从音库中查找所述短语中首个待转化双音节词的前、中两段基元语音片段、末个待转化双音节词的中、后两个基元语音片段以及其他待转化双音节词的中段基元语音片段，并按各个待转化双音节词在所述短语中的顺序，将查到的各段基元语音片段依次拼接为所述短语的音频文件；

文本音频拼接模块，用于按各个短语在所述待转化成语音的文本中的顺序，将获得的各个短语的音频文件依次直接拼接为所述文本的语音文件。

优选地，该装置还包括：

音频录制模块，用于录制专业客服朗读的双音节词，并以双音节词为单位保存为原始音频文件；

静音段分割模块，用于切除所述原始音频文件中音频前后的静音部分，将所述音频中的发音部分作为所述双音节词的音频保存。

本发明还公开了一种计算机设备，包括存储器和处理器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时实现如前述任一项所述的基于双音节混搭的波形拼接方法的步骤。

本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以实现如前述任一项所述的基于双音节混搭的波形拼接方法的步骤。

本发明的积极进步效果在于：

1)通过双音节混搭和韵母分割的技术，可以合成非常逼真的离线和实时中文语音；

2)既能保证合成高质量的连续语音，又能在较短的时间内覆盖特定场景下的连续发音系统。

附图说明

图1示出了本发明基于双音节混搭的波形拼接方法实施例一的流程图；

图2示出了本发明基于双音节混搭的波形拼接方法实施例一中文本预处理步骤的流程图；

图3示出了本发明基于双音节混搭的波形拼接方法实施例二的流程图；

图4示出了原始音频波形图；

图5示出了标准音频波形图；

图6示出了本发明基于双音节混搭的波形拼接装置第一实施例的结构图；

图7示出了本发明基于双音节混搭的波形拼接装置第二实施例的结构图；

图8示出了本发明计算机设备一实施例的硬件架构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

首先，本发明提出一种基于双音节混搭的波形拼接方法。

在实施例一中，如图1所示，所述的基于双音节混搭的波形拼接方法包括如下步骤：

步骤10、音库制作：将双音节词的标准音频按韵母切分为前、中、后三段音频，每段音频作为波形拼接所需的基元语音片段保存至音库中。

所谓标准音频是指仅包含有发音部分的音频。

标准音频切分时，优选为以汉字韵母发声波形(专业客服朗读双音节词时的声音振动会产生声波，声波可以波形的形式展示出来，所述韵母发声波形是指该声波中属于韵母部分的那部分发声对应的波形)中部最高点的左边零点作为分界点。切分后得到的三段音频就作为基元语音片段保存至音库中，保存时，每段基元语音片段的文件名以该基元语音片段对应的双音节词的拼音、声调和段位命名，其中声调一般用数字1-4分别表示第一声至第四声，且每个字的声调直接跟在该字的拼音之后，段位表示切分后三段音频的排序，可以使用数字0-2表示第一段音频至第三段音频。

例如：双音节词“你好”的标准音频文件为“ni2_hao3.wav”，第一个切分位置为你的元音的中部，第二个切分位置为好的元音的中部；经过切分以后三段音频作为基元语音片段保存到音库中，三段基元语音片段的文件名分别为“ni2_hao3_0.wav”，“ni2_hao3_1.wav”和“ni2_hao3_2.wav”。

步骤20、文本预处理：将待转化成语音的文本正则化，对正则化后的文本按说话规则分词以形成短语，并标注拼音和声调。

如图2所示，所述文本预处理具体包括以下三个步骤：

步骤21、文本正则化：将所述文本中包含的非中英文字符根据预设的处理规则进行转换，最终使得文本只包含中英文和空格。

其中的英文采用英文的语音波形拼接方法，有别于中文的语音波形拼接方法，本发明仅针对中文的语音波形拼接方法，英文部分在文本正则化过程中作保留处理。

预设的处理规则具体可以是，将阿拉伯数字用中文字代替，标点符号用空格代替。例如：将十一位数字电话号码“13888886666”处理为“幺三八八八八八六六六六”。假设其中包含字母，则对字母不做处理。

步骤22、文本分词：根据汉语的说话规则将所述文本划分为若干个短语，并在各个短语之间加入空格以示停顿。

所述说话规则为汉语言朗读时的断句规则。以电话号码为例，区号+7位或8位号码，我们习惯说完区号后停顿，7位或8位号码则通常会被划分为两部分并在中间加以停顿；以阅读为例，通常遇到标点符号会加以停顿，长句中间也会加以停顿。

例如：前述的电话号码“幺三八八八八八六六六六”经过分词后为“幺三八八八八八六六六六”。假设其中包含字母，则将连续的字母按类似一个短语的处理，例如“一二三BC四五”经过分词后为“一二三BC四五”。

步骤23、拼音标注：给分词后的所述文本标注拼音和声调。其中声调用数字1-4表示。

例如：前述分词后的文本“幺三八八八八八六六六六”标注的拼音为“yao1 san1ba1 ba1 ba1 ba1 ba1 liu4 liu4 liu4 liu4”，其中每两个字对应的拼音之间的空格可用于代表设定的可以调节的空白时长。

步骤30、短语波形拼接：以分词之后的短语为单位，将所述短语中每两个相邻的字作为一个待转化双音节词，从音库中查找所述短语中首个待转化双音节词的前、中两段基元语音片段、末个待转化双音节词的中、后两个基元语音片段以及其他待转化双音节词的中段基元语音片段，并按各个待转化双音节词在所述短语中的顺序，将查到的各段基元语音片段依次拼接为所述短语的音频文件。

分词后的每个短语的音频是最小的音频文件，这个最小的音频文件由若干基元语音片段经拼接后得到。

这里的短语由一句话中无需停顿的若干字和/或词组组成，由于基元语音片段是从双音节词的音频中切分而来的，需要通过两两语音波形的拼接，以达到语音揉合的目的。因此，这里将短语中每两个相邻的字作为一个待转化双音节词进行划分，即假设短语由n个字组成，那么通过划分会得到n+1个待转化双音节词，每个待转化双音节词中的第二个字就是后一个待转化双音节词中的第一个字。需要注意的是，划分得到的n+1个待转化双音节词按其在短语中的顺序进行排序，以判断n+1个待转化双音节词中的第1个待转化双音节词和第n+1个待转化双音节词。

在将短语划分为n+1个待转化双音节词的同时，所述短语上对应标注的拼音和声调也以相同的规则进行划分，并且划分后的n+1对拼音和声调和划分后的n+1个待转化双音节词是一一对应的。需要注意的是，标注的拼音和声调是与所述短语中的每个字一一对应的，即短语中的每个字都会对应标注上一对拼音和声调，识别时，每识别到一个数字就表示为一个字上对应标注的结束。以前述11位的电话号码中的第一个短语“幺三八”为例，将“幺三八”划分出两个待转化双音节词“幺三”和“三八”的同时，该短语上对应标注的拼音和声调“yao1san1ba1”也以相同规则进行划分。从第一个字母y开始，识别到第一个1时，表示第一个字“幺”对应的拼音和声调结束即“yao1”，接着从后面一个字母s开始，识别到第二个1时，表示第二个字“三”对应的拼音和声调结束即“san1”，进而得到第一个待转化双音节词“幺三”对应的拼音和声调即“yao1san1”，第二个待转化双音节词“三八”对应的拼音和声调划分同上，此处不再赘述。根据每个待转化双音节词上标注的拼音和声调，具体而言就是以待转化双音节词为单位，获取待转化双音节词对应的标注拼音和声调的文本，从音库中查找文件名中包含有该待转化双音节词的标注的拼音和声调的基元语音片段而根据拼接规则，首个双音节词取其相对应的前、中两段基元语音片段，末个双音节取其相对应的中、后两个基元语音片段，如果中间还包含有其他双音节词，那么只取其相对应的中段基元语音片段。也就是说，假设短语由n个字组成，那么其应该由n+2个基元语音片段拼接而成。

以前述11位的电话号码为例：

第一个短语“幺三八”划分出两个待转化双音节词“幺三”和“三八”，找到待转化双音节词“幺三”对应的前、中两段基元语音片段分别为“yao1_san1_0.wav”和“yao1_san1_1.wav”，找到待转化双音节词“三八”对应的中、后两个基元语音片段分别为“san1_ba1_1”和“san1_ba1_2”，将这四段基元语音片段通过波形拼接后，就得到了第一个短语“幺三八”的音频文件，根据音频文件的命名规则(所述命名规则就是文件名与短语上标注的拼音和声调相对应，然后在拼音和声调后加个后缀作为文件名)，将这个音频文件的文件名设为“yao1_san1_ba1.wav”暂存。

第二个短语“八八八八”划分出三个待转化双音节词“八八”、“八八”和“八八”，第一个待转化双音节词“八八”对应的前、中两段基元语音片段分别为“ba1_ba1_0”和“ba1_ba1_1”，第二个待转化双音节词“八八”对应的中段基元语音片段为“ba1_ba1_1”，第三个待转化双音节词“八八”对应的中、后两个基元语音片段分别为“ba1_ba1_1”和“ba1_ba1_2”，将这五段基元语音片段通过波形拼接后，就得到了第二个短语“八八八八”的音频文件，根据音频文件的命名规则，将这个音频文件的文件名设为“ba1_ba1_ba1_ba1.wav”暂存。

第三个短语“六六六六”划分出三个待转化双音节词“六六”、“六六”和“六六”，第一个待转化双音节词“六六”对应的前、中两段基元语音片段分别为“liu1_liu1_0”和“liu1_liu1_1”，第二个待转化双音节词“六六”对应的中段基元语音片段为“liu1_liu1_1”，第三个待转化双音节词“六六”对应的中、后两个基元语音片段分别为“liu1_liu1_1”和“liu1_liu1_2”，将这五段基元语音片段通过波形拼接后，就得到了第二个短语“六六六六”的音频文件，根据音频文件的命名规则，将这个音频文件的文件名设为“liu1_liu1_liu1_liu1.wav”暂存。

步骤40、文本音频拼接：按各个短语在所述待转化成语音的文本中的顺序，将获得的各个短语的音频文件依次直接拼接为所述文本的语音文件。

短语的音频文件拼接为文本的语音文件时，直接拼接即可，但是由于各个短语之间会有停顿，因此，优选地，在直接拼接时，可以根据需要在各短语的音频文件之间加入适当长度的静音。

在实施例二中，基于实施例一的基础上，如图3所示，所述的基于双音节混搭的波形拼接方法包括如下步骤：

步骤01、音频录制：录制专业客服朗读的双音节词，并以双音节词为单位保存为原始音频文件。

由于这里的音频文件是用作波形拼接的，而中文字有很多同音不同字，在录原始音频文件中，这些同音不同字只需录一次即可。例如：双音节词“结余”和“婕妤”，只需要录一次即可。换言之，双音节词的数量由拼音和声调决定，具有相同的拼音和声调的若干个词语，在录制音频的时候作为同一个双音节词处理。

步骤02、静音段分割：切除所述原始音频文件中音频前后的静音部分，将所述音频中的发音部分作为所述双音节词的标准音频保存。

通常来说，原始音频都会有静音部分，波形如图4所示，中间波纹起伏大的部分为发音部分，两端波纹起伏较小的部分为静音部分。经静音部分切除后，得到标准音频的波形如图5所示。

步骤10-40同实施例一，此处不再赘述。

其次，本发明提出了一种基于双音节混搭的波形拼接装置，所述装置20可以被分割为一个或者多个模块。

例如，图6示出了所述基于双音节混搭的波形拼接装置20第一实施例的结构图，该实施例中，所述装置20可以被分割为音库制作模块201、文本预处理模块202、短语波形拼接模块203和文本音频拼接模块204。以下描述将具体介绍所述模块201-204的具体功能。

所述音库制作模块201用于将双音节词的标准音频按韵母切分为前、中、后三段音频，每段音频作为波形拼接所需的基元语音片段保存至音库中；

所述文本预处理模块202用于将待转化成语音的文本正则化，对正则化后的文本按说话规则分词以形成短语，并标注拼音和声调；

所述短语波形拼接模块203用于以分词之后的短语为单位，将所述短语中每两个相邻的字作为一个待转化双音节词，从音库中查找所述短语中首个待转化双音节词的前、中两段基元语音片段、末个待转化双音节词的中、后两个基元语音片段以及其他待转化双音节词的中段基元语音片段，并按各个待转化双音节词在所述短语中的顺序，将查到的各段基元语音片段依次拼接为所述短语的音频文件；

所述文本音频拼接模块204用于按各个短语在所述待转化成语音的文本中的顺序，将获得的各个短语的音频文件依次直接拼接为所述文本的语音文件。

又例如，图7示出了所述基于双音节混搭的波形拼接装置20第二实施例的结构图，该实施例中，所述基于双音节混搭的波形拼接装置20还可以被分割为音库制作模块201、文本预处理模块202、短语波形拼接模块203、文本音频拼接模块204、音频录制模块205和静音段分割模块206。

其中，模块201-204同第一实施例，此处不再赘述。

所述音频录制模块205用于录制专业客服朗读的双音节词，并以双音节词为单位保存为原始音频文件；

所述静音段分割模块206用于切除所述原始音频文件中音频前后的静音部分，将所述音频中的发音部分作为所述双音节词的标准音频保存。

再次，本发明还提出来一种计算机设备。

参阅图8所示，是本发明计算机设备一实施例的硬件架构示意图。本实施例中，所述计算机设备2是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。例如，可以是智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图所示，所述计算机设备2至少包括，但不限于，可通过系统总线相互通信连接存储器21、处理器22以及网络接口23。其中：

所述存储器21至少包括一种类型的计算机可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器21可以是所述计算机设备2的内部存储单元，例如该计算机设备2的硬盘或内存。在另一些实施例中，所述存储器21也可以是所述计算机设备2的外部存储设备，例如该计算机设备2上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器21还可以既包括所述计算机设备2的内部存储单元也包括其外部存储设备。本实施例中，所述存储器21通常用于存储安装于所述计算机设备2的操作系统和各类应用软件，例如用于实现所述基于双音节混搭的波形拼接方法的计算机程序等。此外，所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述计算机设备2的总体操作，例如执行与所述计算机设备2进行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据，例如运行用于实现所述基于双音节混搭的波形拼接方法的计算机程序等。

所述网络接口23可包括无线网络接口或有线网络接口，该网络接口23通常用于在所述计算机设备2与其他计算机设备之间建立通信连接。例如，所述网络接口23用于通过网络将所述计算机设备2与外部终端相连，在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(WidebandCode Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图8仅示出了具有组件21-23的计算机设备2，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

在本实施例中，存储于存储器21中的用于实现所述基于双音节混搭的波形拼接方法的计算机程序可以被一个或多个处理器(本实施例为处理器22)所执行，以完成以下步骤的操作：

步骤10、音库制作：将双音节词的标准音频按韵母切分为前、中、后三段音频，每段音频作为波形拼接所需的基元语音片段保存至音库中；

步骤20、文本预处理：将待转化成语音的文本正则化，对正则化后的文本按说话规则分词以形成短语，并标注拼音和声调；

步骤30、短语波形拼接：以分词之后的短语为单位，将所述短语中每两个相邻的字作为一个待转化双音节词，从音库中查找所述短语中首个待转化双音节词的前、中两段基元语音片段、末个待转化双音节词的中、后两个基元语音片段以及其他待转化双音节词的中段基元语音片段，并按各个待转化双音节词在所述短语中的顺序，将查到的各段基元语音片段依次拼接为所述短语的音频文件；

在一实施例中，在步骤10之前还包括以下步骤：

步骤01、音频录制：录制专业客服朗读的双音节词，并以双音节词为单位保存为原始音频文件；

此外，本发明一种计算机可读存储介质，所述计算机可读存储介质为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以实现上述基于双音节混搭的波形拼接方法或装置的操作。

其中，计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，计算机可读存储介质可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，计算机可读存储介质也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，计算机可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件，例如前述用于实现所述基于双音节混搭的波形拼接方法的计算机程序等。此外，计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种基于双音节混搭的波形拼接方法，其特征在于，包括以下步骤：

文本音频拼接：按各个短语在所述待转化成语音的文本中的顺序，将获得的各个短语的音频文件依次直接拼接为所述文本的语音文件；

其中，所述将双音节词的音频按韵母切分为前、中、后三段音频时，以汉字韵母发声波形中部最高点的左边零点作为分界点。

2.根据权利要求1所述的基于双音节混搭的波形拼接方法，其特征在于，在音库制作之前还包括以下步骤：

3.根据权利要求1或2所述的基于双音节混搭的波形拼接方法，其特征在于，所述基元语音片段的文件名以该基元语音片段对应的双音节词的拼音、声调和段位命名。

4.根据权利要求1或2所述的基于双音节混搭的波形拼接方法，其特征在于，所述文本预处理具体包括以下步骤：

拼音标注：给分词后的所述文本标注拼音和声调。

5.根据权利要求3所述的基于双音节混搭的波形拼接方法，其特征在于，在所述短语波形拼接中，根据各个所述待转化双音节词上标注的拼音和声调，从所述音库中查找文件名中包含有所述双音节词上标注的拼音和声调的基元语音片段；再根据拼接规则，从查找到的基元语音片段中获取文件名中包含有相应段位的基元语音片段。

6.一种基于双音节混搭的波形拼接装置，其特征在于，包括：

音库制作模块，用于将双音节词的标准音频按韵母切分为前、中、后三段音频，每段音频作为波形拼接所需的基元语音片段保存至音库中；其中，所述将双音节词的音频按韵母切分为前、中、后三段音频时，以汉字韵母发声波形中部最高点的左边零点作为分界点；

7.根据权利要求6所述的基于双音节混搭的波形拼接装置，其特征在于，还包括：

静音段分割模块，用于切除所述原始音频文件中音频前后的静音部分，将所述音频中的发音部分作为所述双音节词的标准音频保存。

8.一种计算机设备，包括存储器和处理器，其特征在于，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-5中任一项所述的基于双音节混搭的波形拼接方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以实现如权利要求1-5中任一项所述的基于双音节混搭的波形拼接方法的步骤。