CN111696519A

CN111696519A - 藏语声学特征模型的构建方法及系统

Info

Publication number: CN111696519A
Application number: CN202010522472.9A
Authority: CN
Inventors: 刘亚祝
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2020-09-22

Abstract

本发明实施例提供一种藏语声学特征模型的构建方法。该方法包括：将与多个发音人分别对应的藏语语音训练音频转换成与多个发音人对应的音素序列；构建注意力机制编解码框架的藏语声学特征模型；将多个发音人对应的音素序列作为编码层的输入，得到各发音人身份属性的拟藏语语音特征；通过注意力机制层确定各发音人身份属性的拟藏语语音特征的注意力概率；将各发音人身份属性的拟藏语语音特征以及对应的注意力概率作为解码层的输入，输出处理后的多个发音人身份属性的藏语语音特征。本发明实施例还提供一种藏语声学特征模型的构建系统。本发明实施例基于注意力机制的编解码设计，可以同时训练多个发音人，实现一个模型合成多种声音。

Description

藏语声学特征模型的构建方法及系统

技术领域

本发明涉及语音合成领域，尤其涉及一种藏语声学特征模型的构建方法及系统。

背景技术

语音合成是将文本转换成语音的技术，是人工智能的重要研究领域，是人际语音交互中的重要组成部分。在新闻播报、电台、站台报站以及导航中有着越来越重要的应用。藏语的总使用人数约为800万，广泛分布于国内的西藏、青海、甘肃以及云南等地，另外不丹、印度、尼泊尔和巴基斯坦等国也分布有使用藏语的人群。因此，藏语合成有着广泛的应用前景，对促进藏语地区的人经济建设、基础服务、自动化教育等均有着非常重要的意义。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

现有的藏语语音合成系统往往采用一个藏语音库训练一个合成系统，且局限于参与训练的藏语音频必须具有非常高的音质，一个模型只能合成一个发音人的音频。当新增新的发音人时，需要重复之前相同的操作，费时费力不说，更要大量的财力支持。

发明内容

为了至少解决现有技术中模型需要高音质，且只能合成一个发音人的音频，对于处理多发音人需要费时费财力的问题。

第一方面，本发明实施例提供一种藏语声学特征模型的构建方法，包括：

将与多个发音人分别对应的藏语语音训练音频转换成与所述多个发音人对应的音素序列；

构建注意力机制编解码框架的藏语声学特征模型，其中，所述藏语声学特征模型包括：编码层、注意力机制层以及解码层；

将所述多个发音人对应的音素序列作为所述编码层的输入，得到各发音人身份属性的拟藏语语音特征；

通过注意力机制层确定所述各发音人身份属性的拟藏语语音特征的注意力概率；

将所述各发音人身份属性的拟藏语语音特征以及对应的注意力概率作为解码层的输入，输出处理后的多个发音人身份属性的藏语语音特征。

第二方面，本发明实施例提供一种藏语语音合成方法，包括：

将待合成语音的藏语文本以及待合成发音人，输入至所述权利要求1训练的藏语声学特征模型，输出与所述待合成发音人对应的藏语文本的语音特征，其中，所述待合成发音人从所述多个发音人中选取；

将所述待合成发音人对应的藏语文本的语音特征转换成藏语语音。

第三方面，本发明实施例提供一种藏语声学特征模型的构建系统，包括：

音素序列确定程序模块，用于将与多个发音人分别对应的藏语语音训练音频转换成与所述多个发音人对应的音素序列；

模型构建程序模块，用于构建注意力机制编解码框架的藏语声学特征模型，其中，所述藏语声学特征模型包括：编码层、注意力机制层以及解码层；

拟藏语语音特征确定程序模块，用于将所述多个发音人对应的音素序列作为所述编码层的输入，得到各发音人身份属性的拟藏语语音特征；

注意力概率确定程序模块，用于通过注意力机制层确定所述各发音人身份属性的拟藏语语音特征的注意力概率；

语音特征确定程序模块，用于将所述各发音人身份属性的拟藏语语音特征以及对应的注意力概率作为解码层的输入，输出处理后的多个发音人身份属性的藏语语音特征。

第四方面，本发明实施例提供一种藏语语音合成系统，包括：

语音特征确定程序模块，用于将待合成语音的藏语文本以及待合成发音人，输入至所述权利要求1训练的藏语声学特征模型，输出与所述待合成发音人对应的藏语文本的语音特征，其中，所述待合成发音人从所述多个发音人中选取；

语音合成程序模块，用于将所述待合成发音人对应的藏语文本的语音特征转换成藏语语音。

第五方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的藏语声学特征模型的构建方法以及藏语语音合成方法的步骤。

第六方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的藏语声学特征模型的构建方法以及藏语语音合成方法的步骤。

本发明实施例的有益效果在于：将藏文单词按照罗马音转写规则，转写成罗马音格式的单词，再将每个单词拆分成音色列表，标点符号也按韵律等级表示成为特殊的符号，这样一句话就可以用一个音素序列表示。每个发音人拥有一个独立的编号，并将发音人信息作为条件参与藏语模型的训练，基于注意力机制的编解码设计，既可以同时训练多个发音人的小规模数据，又可以充分利用不同发音人音频中所涉及的不同的上下文信息。实现了一个藏语声学特征模型，可以生成多种不同的发音人的藏语语音。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种藏语声学特征模型的构建方法的流程图；

图2是本发明一实施例提供的一种藏语声学特征模型的seq2seq流程图；

图3是本发明一实施例提供的一种藏语声学特征模型的藏语合成系统流程图；

图4是本发明一实施例提供的一种藏语语音合成方法的流程图；

图5是本发明一实施例提供的一种藏语声学特征模型的构建系统的结构示意图；

图6是本发明一实施例提供的一种藏语语音合成系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种藏语声学特征模型的构建方法的流程图，包括如下步骤：

S11：将与多个发音人分别对应的藏语语音训练音频转换成与所述多个发音人对应的音素序列；

S12：构建注意力机制编解码框架的藏语声学特征模型，其中，所述藏语声学特征模型包括：编码层、注意力机制层以及解码层；

S13：将所述多个发音人对应的音素序列作为所述编码层的输入，得到各发音人身份属性的拟藏语语音特征；

S14：通过注意力机制层确定所述各发音人身份属性的拟藏语语音特征的注意力概率；

S15：将所述各发音人身份属性的拟藏语语音特征以及对应的注意力概率作为解码层的输入，输出处理后的多个发音人身份属性的藏语语音特征。

在本实施方式中，藏语语音训练音频来自40个藏语母语者，每个发音人均采用极其自然极其放松的状态下进行录音，每个人录音时长均在一个小时左右，录音质量要求并没有传统中那么严格，对录音人的专业要求并没有那么高，因此在录音收集中可使用素人，从而降低数据收集的成本。

对于步骤S11，为了区分这40个藏语发音人，可以对这40个藏语发音人使用ID进行标记，通过不同的ID号码来对应不同发音人的藏语语音。例如，男生的藏语发音人、女高生的藏语发音人，萝莉的藏语发音人，磁性小哥哥的藏语发音人，儿童的藏语发音人。

作为一种实施方式，对所述多个发音人分别对应的藏语语音训练音频进行音节点划分，确定所述藏语语音训练音频的音节；

将所述音节转换成罗马音格式，其中，所述音节包括：基字、上加字、下加字、前加字、后加字以及后后加字；

基于所述罗马音格式内的空格作为分隔符，确定多个发音人对应的音素序列。

在本实施方式中，由于藏文有着非常独特的文字结构，一个藏语单词可分为基字、上加字、下加字、前加字、后加字以及后后加字，上加字之上和下加字之下也可跟上元音，藏文中基字是必须要有的。藏文拥有丰富多样的标点符号，不同与其他语言，藏文以音节点进行音节点划分，另外藏文中共有30个辅音和4个元音。将包括各种标点符号在内的藏文，按音节转写成罗马音格式，罗马音格式以空格作为分隔符，最后将被转换成音素序列的形式参与模型的训练。

对于步骤S12，在模型构建中，主要是用基于Attention注意力机制的End-End框架，这种框架，可以从复杂的基于规则的前端分析中抽离出来，并且相较于传统的语音合成框架，避免单独训练时长模型成为可能。将时长模型隐藏于声学模型的训练中，合成的藏语音频更加自然，更加细腻。

对于步骤S13，将这40个藏语发音人各自对应的音素序列作为编码层的输入，作为一种实施方式，通过双向长短时记忆网络以及卷积层对所述音素序列附加上下文信息，以获得藏语语音特征；对所述多个发音人的身份属性进行词嵌入处理，得到各发音人身份特征；将所述藏语语音特征与各自对应的发音人身份特征拼接，得到各发音人身份属性的拟藏语语音特征。在本实施方式中，

综合利用卷积层和双向长短时记忆网络的优势，卷积可以将简单的单个词的信息，加上附近的前后文信息，使文本具有上下文属性，利用双向长短时记忆网络的长时记忆能力，能够将当前时刻的编码同时兼顾整个文本的上下文信息，可以获得更高维度的文本信息。同时在编码阶段，发音人的身份ID信息将被进行词嵌入处理，处理后的发音人身份信息将和文本信息进行拼接，拼接后的新的特征将作为具有发音人身份属性的拟藏语语音特征。拼接后的拟藏语语音特征如下所示：

语音特征

发音人身份特征

对于步骤S14，seq2seq是本方法中基于多发音人机制藏语合成系统的核心，其本质为加入Attention注意力机制的Encoder-Decoder框架，具体如图2所述，seq2seq的输入是一个序列，输出也是一个序列。在当前时刻的Attention计算中，将上一时刻Decoder的输出和上一时刻Attention的输出，以及所有的Encoder编码后的信息一起进行运算，输出当前时刻的对Encoder编码的注意力概率，概率值的大小反应了Attention注意力的强弱，概率值的总和为1。

对于步骤S15，Decoder为解码阶段，将Attention的输出概率与Encoder的所有文本信息进行加权求和，得到decoder当前步计算时所需的上下文信息，与上一步Decoder的输出作为当前时刻Decoder的输入，输出作为当前时刻的特征输出decoder_output。后接Post网络模块和残差网络，并将残差网络的输出加上decoder_output作为模型输出的声学特征，经过简化的藏语合成系统流程图如图3所示，

通过该实施方式可以看出，将藏文单词按照罗马音转写规则，转写成罗马音格式的单词，再将每个单词拆分成音色列表，标点符号也按韵律等级表示成为特殊的符号，这样一句话就可以用一个音素序列表示。每个发音人拥有一个独立的编号，并将发音人信息作为条件参与藏语模型的训练，基于注意力机制的编解码设计，既可以同时训练多个发音人的小规模数据，又可以充分利用不同发音人音频中所涉及的不同的上下文信息。

作为一种实施方式，在本实施例中，在所述将与多个发音人分别对应的藏语语音训练音频转换成与所述多个发音人对应的音素序列之前，所述方法还包括：

通过语音活动检测去除所述藏语语音训练音频的首尾静音帧。

例如，使用的音频格式可以为16k采样率，16位bits，单通道。在音频处理阶段，为避免首尾静音过长而增加模型训练的代价以及之后合成阶段因静音段过长而是整段合成音频的不连续，首先将去除音频前后静音段，以达到合适的静音段长度。例如，可以进行语音活动检测进行处理。音频特征提取的工具使用world，world在音质的还原度上有很好的表现，且能够实时提取和合成。在声学特征方面，采用61维的mgc、1维的lf0、1维的bap以及1维的uv。

通过该实施方式可以看出，将去除音频前后静音段，达到合适的静音段长度，可以提高音频处理的效率。

如图4所示为本发明一实施例提供的一种藏语语音合成方法的流程图，包括如下步骤：

S21：将待合成语音的藏语文本以及待合成发音人，输入至所述权利要求1训练的藏语声学特征模型，输出与所述待合成发音人对应的藏语文本的语音特征，其中，所述待合成发音人从所述多个发音人中选取；

S22：将所述待合成发音人对应的藏语文本的语音特征转换成藏语语音。

在本实施方式中，在藏语声学特征模型训练完陈之后，当用户输入任意藏文文本时，首先需要将藏文转写为罗马音格式，之后转换成音素序列，同时需要指定需要进行语音合成的发音人ID(例如，用户指定生成男声)。

对于步骤S21，将准备好的待合成语音的藏语文本和指定的发音人输入到训练好的藏语声学特征模型中。通过藏语声学特征模型输出与所述待合成发音人(男声)对应的藏语文本的语音特征。

对于步骤S22，在音频合成阶段，步骤S21中已经得到了男声的藏语文本的语音特征，使用world合成器就可以将声学特征转换成男声藏语音频数据。同样的，如果待合成发音人指定为女高音时，藏语声学特征模型输出女高音对应的藏语文报的语音特征，从而得到女高音藏语音频数据。

通过该实施方式可以看出，实现了一个藏语声学特征模型，可以生成多种不同的发音人的藏语语音。

如图5所示为本发明一实施例提供的一种藏语声学特征模型的构建系统的结构示意图，该系统可执行上述任意实施例所述的藏语声学特征模型的构建方法，并配置在终端中。

本实施例提供的一种藏语声学特征模型的构建系统包括：音素序列确定程序模块11，模型构建程序模块12，拟藏语语音特征确定程序模块13，注意力概率确定程序模块14和语音特征确定程序模块15。

其中，音素序列确定程序模块11用于将与多个发音人分别对应的藏语语音训练音频转换成与所述多个发音人对应的音素序列；模型构建程序模块12用于构建注意力机制编解码框架的藏语声学特征模型，其中，所述藏语声学特征模型包括：编码层、注意力机制层以及解码层；拟藏语语音特征确定程序模块13用于将所述多个发音人对应的音素序列作为所述编码层的输入，得到各发音人身份属性的拟藏语语音特征；注意力概率确定程序模块14用于通过注意力机制层确定所述各发音人身份属性的拟藏语语音特征的注意力概率；语音特征确定程序模块15用于将所述各发音人身份属性的拟藏语语音特征以及对应的注意力概率作为解码层的输入，输出处理后的多个发音人身份属性的藏语语音特征。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的藏语声学特征模型的构建方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

如图6所示为本发明一实施例提供的一种藏语语音合成系统的结构示意图，该系统可执行上述任意实施例所述的藏语语音合成方法，并配置在终端中。

本实施例提供的一种藏语语音合成系统：语音特征确定程序模块21和语音合成程序模块22。

其中，语音特征确定程序模块21用于将待合成语音的藏语文本以及待合成发音人，输入至所述权利要求1训练的藏语声学特征模型，输出与所述待合成发音人对应的藏语文本的语音特征，其中，所述待合成发音人从所述多个发音人中选取；语音合成程序模块22用于将所述待合成发音人对应的藏语文本的语音特征转换成藏语语音。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的藏语语音合成方法；

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的藏语声学特征模型的构建方法以及藏语语音合成方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的藏语声学特征模型的构建方法以及藏语语音合成方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种藏语声学特征模型的构建方法，包括：

2.根据权利要求1所述的方法，其中，所述将所述多个发音人对应的音素序列作为所述编码层的输入包括：

通过双向长短时记忆网络以及卷积层对所述音素序列附加上下文信息，以获得藏语语音特征；

对所述多个发音人的身份属性进行词嵌入处理，得到各发音人身份特征；

将所述藏语语音特征与各自对应的发音人身份特征拼接，得到各发音人身份属性的拟藏语语音特征。

3.根据权利要求1所述的方法，其中，所述将所述各发音人身份属性的拟藏语语音特征以及对应的注意力概率作为解码层的输入，输出处理后的多个发音人身份属性的藏语语音特征包括：

将所述各发音人身份属性的拟藏语语音特征以及对应的注意力概率加权求和后输入至Postnet模块和残差网络，得到发音人身份属性的藏语语音特征。

4.根据权利要求1所述的方法，其中，所述将与多个发音人分别对应的藏语语音训练音频转换成与所述多个发音人对应的音素序列包括：

对所述多个发音人分别对应的藏语语音训练音频进行音节点划分，确定所述藏语语音训练音频的音节；

5.根据权利要求1所述的方法，其中，在所述将与多个发音人分别对应的藏语语音训练音频转换成与所述多个发音人对应的音素序列之前，所述方法还包括：

6.一种藏语语音合成方法，包括：

7.一种藏语声学特征模型的构建系统，包括：

8.一种藏语语音合成系统，包括：

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。