CN114120973A

CN114120973A - 一种语音语料生成系统训练方法

Info

Publication number: CN114120973A
Application number: CN202210110278.9A
Authority: CN
Inventors: 陈佩云; 曹艳艳
Original assignee: Chipintelli Technology Co Ltd
Current assignee: Chipintelli Technology Co Ltd
Priority date: 2022-01-29
Filing date: 2022-01-29
Publication date: 2022-03-01
Anticipated expiration: 2042-01-29
Also published as: CN114120973B

Abstract

一种语音语料生成系统训练方法，包括发音人身份编码器训练、场景编码器训练、转换器训练，所述发音人身份编码器训练包括如下步骤：S11.搭建发音人身份编码器的初始网络结构；采集不同发音人的不同音频作为编码器训练样本；S12.将梅尔特征输入发音人身份编码器，获取每一条有效音频的发音人编码；S13.计算映射点形成的质心，S14.将损失函数得到的梯度反向传导，更新发音人身份编码器；S15.重复步骤S13‑S14进行反复迭代，直至发音人身份编码器收敛。本发明能够快速大批量自动生成不同场景、不同发音人、不同语速、不同音量的语音语料；并能针对性的对特定的场景补充场景语料，或识别率较低命令词的语料。

Description

一种语音语料生成系统训练方法

技术领域

本发明属于语音识别技术领域，具体涉及一种语音语料生成系统训练方法。

背景技术

随着人工智能、计算机技术和信号处理技术的发展，语音识别技术也在快速发展；语音识别正在逐渐融入到人们的生活中，各种语音识别应用软件，各种带语音识别功能的家电随处可见。

但目前的语音识别的准确率仍然不能满足人们日益增长的需求，特别是在针对某一个人，某一种特定场景，某一个特定的词时常会出现识别率大幅降低的情况。而目前针对这些情况通常都只能增加这些特殊情况的训练语料，而大部分情况录制训练语料的工作周期都较长成本较高，包含了找人录制，校验等流程。另一方面，现在的语音识别框架都比较成熟，而对绝大多数行业内人员而言大批量的语料价格昂贵，是限制语音识别功能开发的难点。因此如何高效，低成本的获取丰富的语音数据是亟待解决的问题。

发明内容

为克服现有技术存在的技术缺陷，本发明公开了一种语音语料生成系统训练方法。

本发明所述语音语料生成系统训练方法包括发音人身份编码器训练、场景编码器训练、转换器训练，所述发音人身份编码器训练包括如下步骤：

S11.搭建发音人身份编码器的初始网络结构；采集不同发音人的不同音频作为编码器训练样本，每一发音人需要采集大量同一场景下的音频；将采集的音频提取梅尔特征；

S12.将梅尔特征输入发音人身份编码器，获取每一条有效音频的发音人编码；

S13. 以E_ij表示第i个类别第j条音频得到的发音人身份编码在Q维空间中的映射点，C_i表示第i类别所有的映射点形成的质心，质心C_i计算公式如下：

Q为发音人身份编码器输出向量维度；M为第i个类别的音频总数；

以S_ij,k表示E_ij与C_k的余弦相似度值, C_k表示第k类别所有的映射点形成的质心；

则损失函数L（E_ij）定义如下：

其中

为正相关的损失函数，定义其收敛方向是同一类别的点在高维空间中要越靠近，不同类别的质心越远离，k表示映射点类别，N为映射点类别总数；

S14.将损失函数L（E_ij）进行梯度反向传导，更新发音人身份编码器；

S15.重复步骤S13-S14 进行反复迭代，直至发音人身份编码器收敛；

所述转换器训练包括如下步骤：

S21. 以fastspeech模型作为转换器的初始网络结构，采集大量带有文本标注的音频数据作为转换器训练样本；将每段音频对应文本做标点、数字、单位以及特殊符号的正则处理，并将处理好的文本转化为音素，得到每段音频对应的音频文本；提取转换器训练样本中音频数据的梅尔特征；

S22.利用训练好的发音人身份编码器提取转换器训练样本每段音频的发音人身份向量；

S23.将音频文本作为fastspeech模型的输入，经过fastspeech模型内的文本序列结构得到文本序列向量，将文本序列向量与发音人身份向量合并后作为fastspeech后续网络的输入，音频文本对应音频的梅尔特征作为目标训练fastspeech模型；

当训练过程中转换器模型输出的梅尔特征与真实梅尔特征的误差即损失函数值小于设定阈值时认为模型收敛，结束转换器训练。

优选的，还包括声码器训练，具体为：

S31.将编码器训练样本、转换器训练样本一起作为声码器训练样本，提取声码器训练样本中音频的梅尔特征，提取方式步骤S21中提取梅尔特征的方式参数完全一致；

S32.以S31中提取的梅尔特征为输入，对应的声码器训练样本中的音频为目标训练声码器模型。

优选的，步骤S11中，发音人身份编码器的初始网络结构如下：

采用四层串联的LSTM网络，每层LSTM网络包括一个长短期记忆网络层和与其连接的Relu函数层，最后再接线性输出层。

优选的，所述场景编码器训练具体为：

S21.采集音频按照不同场景进行分类，每一类场景包含多个不同发音人的音频,根据场景类别数量搭建初始分类模型；

所述初始分类模型包括三层LSTM网络，每层LSTM网络后接Tanh激活函数层，最后一层LSTM网络后接一个线性输出层;

S22.训练场景编码器，提取每一类场景下音频的梅尔特征，将梅尔特征做拼帧处理作为初始分类模型的输入特征,

S23.根据音频的场景类别作为分类目标，直到初始分类模型收敛；得到场景编码器。

本发明能够快速大批量自动生成不同场景、不同发音人、不同语速、不同音量的语音语料；并能针对性的对特定的场景补充场景语料，或识别率较低命令词的语料。本发明针对语音识别领域的新开发者，可以批量生成训练语料；一定程度上解决了语音识别获取语料困难的问题，降低语音识别开发的门槛。

附图说明

图1为本发明所述语音语料生成系统的一个具体使用方式示意图；

图2为本发明所述发音人身份编码器的初始网络的一个具体实施方式示意图；

图3为本发明所述场景编码器的初始网络一个具体实施方式示意图。

具体实施方式

下面对本发明的具体实施方式作进一步的详细说明。

本发明所述语音语料生成系统训练方法，包括发音人身份编码器训练、场景编码器训练、转换器训练，所述发音人身份编码器训练包括如下步骤：

S11.搭建发音人身份编码器的初始网络结构；采集不同发音人的不同音频作为编码器训练样本，每一发音人需要采集大量不同场景下的音频；将采集的音频提取梅尔特征；

则损失函数L（E_ij）定义如下：

其中

S14.将损失函数L（E_ij）得到的梯度反向传导，更新发音人身份编码器；

所述发场景编码器训练包括如下步骤：

S21.采集的音频按照相同场景进行分类，可按照场景的底噪种类，底噪大小，混响大小来进行分类。每一类场景包含不同发音人的音频。根据场景类别数量搭建分类模型；

S22.训练场景编码器时，所采用梅尔特征训练场景分类模型；

S23.根据音频的场景类别作为分类目标，直到场景分类器收敛；

所述转换器训练包括如下步骤：

S31.以fastspeech模型作为转换器的初始网络结构，采集大量带有文本标注的音频数据作为转换器训练样本；将每段音频对应文本做标点、数字、单位以及特殊符号的正则处理，并将处理好的文本转化为音素，得到每段音频对应的音频文本；提取转换器训练样本中音频数据的梅尔特征；

S32.利用训练好的发音人身份编码器以及场景编码器提取转换器训练样本每段音频的发音人身份向量与场景编码向量；

S33.将音频文本作为fastspeech模型的输入，经过fastspeech模型内的文本序列结构得到文本序列向量，将文本序列向量与发音人身份向量和场景编码拼接后作为fastspeech后续网络的输入，音频文本对应音频的梅尔特征作为目标训练fastspeech模型；

当训练过程中转换器模型输出的梅尔特征与真实梅尔特征的误差即损失函数值小于设定阈值时认为模型收敛，结束转换器训练。设定阈值一般在工程的实际操作中会用中间模型来进行测试，人为试听合成效果来确定是否结束，一般会得到一个模型收敛的经验值。

整个语音语料生成系统包含发音人身份编码器，场景编码器，可将文本、发音人身份编码和场景编码转换到梅尔频谱的转换器，以及可将梅尔频谱转换成语音音频的声码器。

一、发音人身份编码器

发音人身份编码器主要作用是能够将发音人的语音音色、语音中的噪声类型和大小、混响大小等音频特征进行编码，实现音色相似和噪声相似，混响越相似的音频编码的余弦相似度值越接近1，反之，越不相似则余弦相似度值越接近0。

发音人身份编码器的初始网络结构可采用四层LSTM网络，每层LSTM网络包括一个长短期记忆网络层和与其连接的Relu函数层，最后再接线性输出层之后再接Tanh函数作为输出，可得到发音人身份的向量，一个具体实现方式如图2所示。

发音人身份编码器的训练方法如下：

发音人身份编码器训练数据的采集，需要大量同一发音人在同一场景下的录音分为一个类别，对发音人说的语种没有要求。类别越多编码器的效果会更好。

所谓大量是指每一类别的数据量要足够，以同一个发音人在同一个环境下的录音为一个类别，同一发音人在不同环境下的录音为不同类别，不同发音人在同一环境下的录音也是不同类别。在训练数据的采集过程中需要采集大量不同类别的数据每种类别的音频数据1-10分钟即可，通常类别数尽可能多，如尽量大于10000，每一类别对应的音频数据数量大于10，其中，说话人或者录制场景任意一个不同都可划分为不同的类别。

数据预处理，将采集的数据去除静音保留有效音频。

提取音频的梅尔特征作为编码器的输入，例如：将每一段音频音频以2s进行切分不足2s的部分去除得到k段。以10ms为帧移提取80通道数的梅尔特征，梅尔特征的提取为现有技术不做详细描述。可得到k*200*80的梅尔特征。

在训练开始，先随机初始化编码器网络参数，将一段音频的k*200*80的梅尔特征作为输入可得到一个k*256维的输出，将这k个向量相加求平均可得到该段音频一个256维的发音人身份编码。256维由编码器网络的输出层结构维度决定。

损失函数的定义及网络参数的更新。将N个类别，每个类别M条音频的梅尔特征输入模型可得到N*M个256维的发音人身份编码。每一个编码可映射到一个256维空间中的一个点。

以E_ij表示第i个类别第j条音频得到发音人身份编码在高维空间中的点。C_i表示第i类别所有的映射点形成的质心。质心计算公式如下：

以S_ij,k表示E_ij与C_k的余弦相似度值, C_k表示第k类别所有的映射点形成的质心,S_ij,k的值越接近1则E_ij与C_k在高维空间上越接近，S_ij,k的值越接近0在空间上越远；

损失函数L（E_ij）定义如下：

其中

为正相关损失函数，收敛方向是同一类别的点在高维空间中要越靠近，不同类别的质心越远离；k表示映射点类别，N为映射点类别总数。

例如目前的总共的类别数有10000个分类，在每一次训练步骤中取N=100个类别，M=20条音频作为每一个训练步骤的训练数据。经过编码器每一条数据都能计算一个256维的高维空间上的点，每一个类别的所有点都能计算出一个质心C。

将损失函数进行梯度反向传导，更新编码器网络参数，反复迭代直至网络模型收敛，所谓收敛是指损失函数不再变化或变化幅度低于某个设定阈值。

损失函数的设计能够将同一发音人的编码，编码到一个高维空间中较为接近的范围，而不同发音人的编码在高维空间中尽可能的远即高维空间中计算欧式距离尽可能大，并且模型收敛速度较快。

场景编码器的主要作用是获取指定音频中录制场景的场景编码，编码中包含了录制场景的底噪，混响信息。

在采集音频时应当采集不同说话人在不同场景下的语音，包括录制时环境的底噪类型，底噪大小，环境的混响大小。

如图3所示，场景编码器的初始网络采用三层长短期记忆网络（LSTM），每层网络后接Tanh激活函数，最后一层为线性输出层，映射到分类个数。以梅尔特征作为输入，以场景分类作为目标训练分类模型直至模型收敛，分类正确率达到设定值结束训练。

在获取场景编码时将最后一层线性层去除，将最后一层Tanh之后的函数作为场景编码。

场景编码器具体训练方法如下：

训练数据按照相同底噪类型，底噪大小，混响大小进行数据分类。例如底噪类型有3种，底噪大小4种，混响大小5种，则共分为3*4*5=60个类别。

分类别提取音频梅尔特征，按照帧移位10ms提取，每一帧提取80维特征，如有3s的音频可得到300*80的梅尔特征。

将梅尔特征做拼帧处理,例如将5帧的特征合并为一维作为一个初始分类模型的输入特征，那么600*80的特征可得到60*400的输入特征；分类模型用于根据输入音频判断该音频属于哪一个分类。

初始分类模型的一个典型方式如下：

第一层LSTM的输入结构为400*256维度,之后接Tanh激活函数，第二层与第三层的结构为256*256维度之后接Tanh激活函数，由于分类数量为60，则各个线性层的结构为256*60。场景编码器以场景类别作为训练目标直至模型收敛。例如60个类别的分类输出维度就是60，分别代表这60个类别的概率。在60维输出的上一层为256维的向量，该256维向量为场景编码器的编码。

在使用场景编码器时，将给定音频按照训练时的方式提取梅尔特征，拼帧转化并输入场景编码器，去除场景编码器最后的线性层，将最后一帧特征在计算最后一个Tanh激活函数时得到的256维向量作为场景编码器编码。

三、转换器

转换器在本发明中是将指定的发音人身份、发音人发音场景与文本信息转换成带有这三个信息的梅尔频谱特征。

转换器在本发明中可使用现有公开模型fastspeech作为基础模型框架。

采集大量带有文本标注的音频数据作为转换器训练样本，采集时可区别于高质量语音合成的数据采集，对音频质量的好坏并无特别的要求。

利用训练好的发音人身份编码器提取转换器训练样本每段音频的发音人身份向量。

利用训练好的场景编码器提取转换器训练样本每段音频的场景向量。

将每段音频对应文本做标点，数字，单位以及特殊符号的正则处理，并将处理好的文本转化为音素，得到每段音频对应的音频文本。

将音频文本作为fastspeech模型的输入，经过fastspeech模型内的文本序列结构得到文本序列向量，将文本序列向量与发音人身份向量合并后作为fastspeech后续网络的输入，音频文本对应音频的梅尔特征作为目标训练fastspeech模型，此处梅尔特征为训练转换器的音频数据提取的梅尔特征。

fastspeech网络结构包含文本序列编码结构，编码器结构，解码器结构。本发明做出的修改是在文本序列编码之后的特征并不直接输入编码器，而是将说话人编码器与场景编码器得到的特征与文本序列编码拼接之后再输入编码器结构。

在转换器前向计算时只需给定一个发音人身份编码，一个场景编码和一段音频文本作为模型输入，得到的梅尔特征中包含了发音人身份中对应的发音人音色信息、语音场景信息，以及文本内容信息的梅尔特征。

声码器在本发明中是将转换器输出的梅尔特征生成音频。

声码器可采用常规声码器，也可以进行训练得到，训练声码器可利用现有公开模型Hifi-gan作为基础模型框架进行训练。

具体为：

S32.以步骤S31中提取的梅尔特征为输入，对应的声码器训练样本中的音频为目标训练声码器模型。

声码器训练中训练集需要音频场景包含多，发音人多，以得到泛化性较高的通用声码器，可将之前所有的语音音频数据作为训练数据。训练数据可包含安静环境下、噪声环境下、带混响或大量不同发音人的语音音频数据。

发音人身份编码器、转换器、声码器都训练完成后，得到所述语音语料生成系统。

语音语料生成系统训练完成后，可针对不同的语音语料获取需求获取语音预料。

1.对于缺乏大规模语音识别训练语料的场景：

如图所示，根据语音识别训练需求准备待合成文本，并随机批量生成发音人身份向量与场景编码。

由于说话人编码网络的最后一层线性层输出经过Tanh函数，提取的发音人的身份向量的每一维的值会在（-1,1）之间，所以初始化一个256维向量每一维向量的值在（-1,1）之间随机取值，得到的随机向量作为发音人的身份向量，场景编码的获取也是通过Tanh函数之后得到，也可在（-1,1）之间随机取值，得到一个256维的编码。

将每一个随机发音人身份向量和一个场景编码与语料文本中的每一条文本组合一一对应搭配组合作为转换器模型的输入，例如训练语料有100条，随机生成的发音人身份向量有10个，场景编码十个则可组合成100*10*10=10000个输入，进而得到10000个梅尔特征。

将所有梅尔特征利用声码器生成音频。一个具体流程如图1所示。

在该方法中通过随机生成发音人身份的方式，可以得到大量虚拟发音人以及语音场景的信息，使得转换器生成的梅尔特征带有这些信息。生成的语音中由于发音人身份的改变，语音的发音人音色可变，场景编码可变音频的背景噪，混响等也会改变。能够大量生成语音数据，且本发明生成的带噪带混响音频相比较于以往的软件加噪音频更接近于真实录制情况，更有利于语音识别领域的模型训练。

2．对于单个词句识别效果不佳，需补充数据的场景：

补充训练文本即为需要补充的单个词或者是单句话，随机批量生成发音人身份向量以及场景编码。将每一个发音人身份向量以及场景编码与补充训练文本组合作为转换器模型的输入，得到梅尔特征。

将梅尔特征利用声码器生成音频。

该方法得到的音频可加入原有的识别模型做增强训练，改善原有识别模型对这些句子或词语识别率较低的问题。

3．对于某个发音人或某种音频场景下的识别不佳：

收集上述识别不佳情况下的音频，若是对某个发音人的识别不佳，将该发音人的音频利用发音人身份编码器编码，得到对应的发音人身份向量。

根据训练需求准备语料文本，将发音人身份向量和随机生成的场景编码与语料文本相互组合作为转换器输入得到梅尔特征，最后将梅尔特征转化生成音频，可生成大量该发音人在不同场景下的各种文本的音频用于识别模型的增强训练。

若是由于在某种场景下识别不佳，可利用场景编码得到该场景的场景编码，并随机发音人身份向量与语料文本相互组合作为转换器输入得到大量该场景的梅尔特征，最后将梅尔特征转化为音频。将生成的音频作为识别模型增强训练的数据可提高该场景下的识别效果。

该方法能够获取识别不好的音频的发音人，环境特征得到发音人身份向量与场景编码，批量生成带有这些特征的其他音频，扩充到语音识别训练集中来提升识别效果。

上述所述的生成数据均可通过对音频进行变速，变音量的处理以得到更为丰富的音频数据。

前文所述的为本发明的各个优选实施例，各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提，各个优选实施方式都可以任意叠加组合使用，所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种语音语料生成系统训练方法，其特征在于，包括发音人身份编码器训练、场景编码器训练、转换器训练，所述发音人身份编码器训练包括如下步骤：

；

则损失函数L（E_ij）定义如下：

其中

所述转换器训练包括如下步骤：

S23. 将音频文本作为fastspeech模型的输入，经过fastspeech模型内的文本序列结构得到文本序列向量，将文本序列向量与发音人身份向量合并后作为fastspeech后续网络的输入，音频文本对应音频的梅尔特征作为目标训练fastspeech模型；

2.如权利要求1所述语音语料生成系统训练方法，其特征在于，还包括声码器训练，具体为：

3.如权利要求1所述语音语料生成系统训练方法，其特征在于，步骤S11中，发音人身份编码器的初始网络结构如下：

4.如权利要求1所述语音语料生成系统训练方法，其特征在于，所述场景编码器训练具体为：