CN111429927A

CN111429927A - 提升个性化合成语音质量的方法

Info

Publication number: CN111429927A
Application number: CN202010163515.9A
Authority: CN
Inventors: 丁少为; 关海欣
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2020-07-17
Anticipated expiration: 2040-03-11
Also published as: CN111429927B

Abstract

本发明涉及语音处理技术领域，提供了一种提升个性化合成语音质量的方法，包括以下步骤：S100采集用户语音作为原始语音数据；S200对原始语音数据进行降噪处理；S300利用降噪后的语音数据，通过模型转换将基底模型生成个性化语音模型；S400采用所述个性化模型与用户语音进行合成，得到个性化合成语音。本专利的提升个性化合成语音质量的方法，提通过对用户采集数据进行离线降噪处理，提升个性化语音模型质量，之后采用该质量较好的个性化语音模型对用户语音进行个性化语音合成的模型训练，达到提升个性化合成语音质量的目的。

Description

提升个性化合成语音质量的方法

技术领域

本发明涉及语音处理技术领域，特别涉及一种提升个性化合成语音质量的方法。

背景技术

语音合成技术应用广泛，由于现在合成语音的音质和自然度都不错，大家对合成系统提出了更多的需求，语音合成有向多样化和个性化发展的趋势，比如多样化的语音合成，包括多个发音人、多种发音风格、多语种等，现在带有语音合成功能的技术软件非常多，例如在可训练语音合成技术基础上发展起来的模型自适应技术软件等。

用户数据在采集过程中难免会有噪声、信道等影响，与基底模型间存在不匹配情况，从而使得生成出的个性化语音合成模型质量下降较多，进而导致了个性化合成语音质量下降。

发明内容

为了解决上述技术问题，本发明提供了一种提升个性化合成语音质量的方法，包括以下步骤：

S100采集用户语音作为原始语音数据；

S200对原始语音数据进行降噪处理；

S300利用降噪后的语音数据，通过模型转换将基底模型生成个性化语音模型；

S400采用所述个性化模型进行语音合成，得到个性化合成语音。

可选的，在S200步骤中，采用离线降噪处理方式对语音数据进行降噪处理。

可选的，所述离线降噪处理方式包括以下步骤：

S210对原始语音数据进行预加重处理，然后进行短时傅里叶变换；

S250采用降噪滤波器对变换后的语音数据进行滤波降噪处理；

S290对处理后数据进行短时傅里叶逆变换，恢复到时域，然后去加重，得到降噪后的语音数据。

可选的，所述降噪滤波器由以下步骤得到：

S220采用全局噪声估计方式，对短时傅里叶变换后的语音数据进行噪声和有效语音估计；

S230根据噪声估计和有效语音估计结果生成降噪滤波器；

S240对降噪滤波器进行平滑处理。

可选的，在S220步骤中，所述全局噪声估计方式包括以下步骤：

S222计算短时傅里叶变换后的语音数据每个时频点的信号能量值，在各时频点中筛选出所有能量值大于零的，按时间帧取对数平均值，以此对数平均值的指数运算值作为第一阈值；在各时频点中筛选出能量值大于零且低于第一阈值的时频点能量值，再次按时间帧取对数平均值，以该对数平均值的指数运算值作为第二阈值；把信号能量值与第二阈值对比，其中大于或者等于第二阈值的时频点为有效语音时频点并标记为1，小于第二阈值的时频点为噪声时频点并标记为0，由此得到时频点掩蔽的初步估计结果；

S224根据时频点掩蔽的初步估计，将每帧中各个时频点的标记取和值，将各帧和值中非零的取对数平均值，以此对数平均值的指数运算值为第三阈值；在各帧中筛选出和值大于零且小于第三阈值的取对数平均值，以该对数平均值的指数运算值为第四阈值，把每帧的和值与第四阈值对比，大于第四阈值的为语音帧，否则为噪声帧，得到帧掩蔽估计结果；

S226根据帧掩蔽估计和各时频点信号能量，进行噪声和有效语音估计。

可选的，所述全局噪声估计方式还包括以下步骤：

S225先对所述帧掩蔽估计结果进行腐蚀处理，然后再进行膨胀处理，增加其准确性。

可选的，在S100步骤中，采集不同主持人语音进行自适应模型训练，得到语音美化模型；在S400步骤中，采用语音美化模型对个性化合成语音进行美化处理。

可选的，在S100步骤中，采集不同用户语音，重复S200和S300步骤得到针对不同用户的个性化语音模型，建立个性化语音模型库，在S400步骤中，接收语音指令信息，进行用户识别调取相应的个性化语音模型用于进行语音合成。

可选的，所述用户识别包括：提取S100步骤中采集的各用户语音的语音特性作为第一特性信息，把第一特性信息和个性化语音模型存储在个性化语音模型库内，且分别以同一用户的第一特性信息和个性化语音模型建立各自的对应关系；在S400步骤中，提取语音指令信息的语音特性作为第二特性信息，以第二特性信息与存储各第一特性信息进行逐一比对，若两者一致则选取存在对应关系的个性化语音模型用于进行语音合成。

可选的，语音特性至少包括音波频率、音波振幅、音长和音色。

本专利的提升个性化合成语音质量的方法，提通过对用户采集数据进行离线降噪处理，提升个性化语音模型质量，之后采用该质量较好的个性化语音模型对用户语音进行个性化语音合成的模型训练，达到提升个性化合成语音质量的目的。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明的提升个性化合成语音质量的方法实施例流程图；

图2为本发明采用的离线降噪处理方式实施例一流程图；

图3为本发明采用的离线降噪处理方式实施例二流程图；

图4为本发明采用的全局噪声估计方式实施例一流程图；

图5为本发明采用的全局噪声估计方式实施例二流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

如图1所示的本发明提升个性化合成语音质量的方法的可选实施例流程，包括以下步骤：

S100采集用户语音作为原始语音数据；

S200对原始语音数据进行降噪处理；

上述技术方案的工作原理为：通过语音降噪处理，去掉原始语音数据中的背景噪声，从而降低语音数据与基底模型间的不适配影响，提高所生成的个性化语音模型的质量，采用此个性化语音模型与用户语音进行合成，就能够生成质量更高的个性化语音。

上述技术方案的有益效果为：通过对生成个性化语音模型的语音数据先行进行降噪处理，能够提高个性化语音模型的质量，采用经此处理的个性化语音模型进行个性化合成，从而提升个性化合成语音的质量。

在一个实施例中，在S200步骤中，采用离线降噪处理方式对语音数据进行降噪处理。

上述技术方案的有益效果为：离线降噪处理方式减少了传输过程干扰和不利影响，处理更加快速，防止语音数据失真，可以较好地保持用户语音数据的个性化特点。

在一个实施例中，如图2所示，本发明提升个性化合成语音质量的方法采用的所述离线降噪处理方式包括以下步骤：

S250采用降噪滤波器对变换后的语音数据进行滤波降噪处理；

上述技术方案的工作原理为：预加重是一种在发送端对输入信号高频分量进行补偿的信号处理方式，先通过预加重处理增强原始语音数据信号，预加重对噪声并没有影响，因此可能有效地提高信号输出的信噪比；再进行短时傅里叶变换确定时变信号局部区域正弦波的频率与相位；然后进行滤波降噪处理，之后反向先后进行短时傅里叶逆变换和去加重得到降噪后的语音数据。

上述技术方案的有益效果为：降噪前通过预加重处理提高信噪比，可以提高对噪音的识别率，有利于增加降噪效果，提高语音数据纯度，后继再以相逆过程恢复即可得到降噪后的语音数据。

在一个实施例中，如图3所示，所述离线降噪处理方式包括以下步骤：

S230根据噪声估计结果和有效语音估计结果生成降噪滤波器；

S240对降噪滤波器进行平滑处理；

S250采用降噪滤波器对变换后的语音数据进行滤波降噪处理；

上述技术方案的工作原理为：采用全局噪声估计方式进行噪声和有效语音估计，然后生成降噪滤波器，再进行平滑处理提高降噪滤波器的数据质量，再以此用于对变换后的语音数据进行滤波降噪处理。

上述技术方案的有益效果为：采用全局噪声估计方式进行噪声和有效语音估计生成降噪滤波器，性能稳定，抗噪能力强，失真可能性小，可以进一步增强降噪效果。

在一个实施例中，如图4所示，在S220步骤中，所述全局噪声估计方式包括以下步骤：

S222计算短时傅里叶变换后的语音数据每个时频点的信号能量值，在各时频点中筛选出所有能量值大于零的，以自然常数e为底，按时间帧取对数平均值，以此对数平均值的指数运算值作为第一阈值；在各时频点中筛选出能量值大于零且低于第一阈值的时频点能量值，再次按时间帧取对数平均值，以该对数平均值的指数运算值作为第二阈值；把信号能量值与第二阈值对比，其中大于或者等于第二阈值的时频点为有效语音时频点并标记为1，小于第二阈值的时频点为噪声时频点并标记为0，由此得到时频点掩蔽的初步估计结果；

S224根据时频点掩蔽的初步估计，将每帧中各个时频点的标记取和值，以自然常数e为底，将各帧和值中非零的取对数平均值，以此对数平均值的指数运算值为第三阈值；在各帧中筛选出和值大于零且小于第三阈值的取对数平均值，以该对数平均值的指数运算值为第四阈值，把每帧的和值与第四阈值对比，大于第四阈值的为语音帧并标记为1，否则为噪声帧并标记为0，得到帧掩蔽估计结果；

S226根据帧掩蔽估计结果和各时频点信号能量，进行噪声和有效语音估计。

上述技术方案的工作原理为：每帧包含很多时频点，对每帧语音数据每个时频点计算信号能量值，采用阈值对比，分辨有效语音时频点和噪声时频点，语音时频点越多，该帧为语音的可能行就比较大，再用类似方法分析各帧语音数据属于有效语音帧还是噪声帧，方便后续进行降噪处理。

上述技术方案的有益效果为：由于可以使用全部语音数据处理，对全部语音数据进行噪声估计，得到更加准确的噪声估计，噪声判断更准确，为后继高效降噪提供了基础。

在一个实施例中，如图5所示，在S220步骤中，所述全局噪声估计方式包括以下步骤：

S225先对所述帧掩蔽估计结果进行腐蚀处理，然后再进行膨胀处理，增加其准确性；

上述技术方案的工作原理为：在全局噪声估计方式中引入了图像处理中的腐蚀膨胀技术，先对所述帧掩蔽估计结果进行腐蚀处理去，然后再反向进行膨胀处理，用来消除一些较小且无意义的目标物。

上述技术方案的有益效果为：结合图像处理中的腐蚀膨胀技术对噪声进一步抑制，增加帧掩蔽估计结果的准确性，可以得到比一般降噪方法更好的效果。

在一个实施例中，在S100步骤中，采集不同主持人语音进行自适应模型训练，得到语音美化模型；在S400步骤中，采用语音美化模型对个性化合成语音进行美化处理。

上述技术方案的工作原理为：使用语音较好的主持人群体的语音，通过语音训练建立语音美化模型，用来对个性化合成语音进行美化处理，美化个性化合成语音的品质。

上述技术方案的有益效果为：通过语音美化模型的美化处理，弥补个性化合成语音中可能存在的缺陷，使得个性化合成语音变得更加优美、悦耳、动听，提高个性化合成语音的感观效果。

在一个实施例中，在S100步骤中，采集不同用户语音，重复S200和S300步骤得到针对不同用户的个性化语音模型，建立个性化语音模型库，在S400步骤中，接收语音指令信息，进行用户识别调取相应的个性化语音模型用于进行语音合成。

上述技术方案的工作原理为：采用同样方法就不同用户对应的个性化语音模型，组建有高质量的个性化语音模型库进行存储，以接收到的语音指令信息作为触发指令，调取相应用户的个性化语音模型用于个性化语音合成。

上述技术方案的有益效果为：采集不同用户语音建立个性化语音模型库，后续各用户即可随通过语音指令调取使用，若把个性化语音模型库接入互联网络，还可以使得用户不受地域限制，随时随地都能够方便调用。

在一个实施例中，在S100步骤中，采集不同用户语音，提取用户语音的语音特性作为第一特性信息，重复S200和S300步骤得到针对不同用户的个性化语音模型，建立个性化语音模型库，把第一特性信息和个性化语音模型存储在个性化语音模型库内，且分别以同一用户的第一特性信息和个性化语音模型建立各自的对应关系；在S400步骤中，接收语音指令信息，提取语音指令信息的语音特性作为第二特性信息，以第二特性信息与第一特性信息进行比对，若两者一致则选取存在对应关系的个性化语音模型用于进行语音合成；所述语音特性至少包括音波频率、音波振幅、音长和音色。

上述技术方案的工作原理为：以用户语音的语音特性作为其个性化语音模型的对应关系信息触发器，在对接收到的语音指令信息的语音特性进行提取后，与建立个性化语音模型库内的用户语音的语音特性比对一致作为触发条件，以调取用户相对应的个性化语音模型用于进行语音合成。

上述技术方案的有益效果为：调取用户相对应的个性化语音模型的触发条件简单方便，不需要手动操作，可适合一些特殊人群如非哑残疾人和未学习过文字的老人与儿童使用。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种提升个性化合成语音质量的方法，其特征在于，包括以下步骤：

S100采集用户语音作为原始语音数据；

S200对原始语音数据进行降噪处理；

2.根据权利要求1所述的提升个性化合成语音质量的方法，其特征在于，在S200步骤中，采用离线降噪处理方式对语音数据进行降噪处理。

3.根据权利要求2所述的提升个性化合成语音质量的方法，其特征在于，所述离线降噪处理方式包括以下步骤：

S250采用降噪滤波器对变换后的语音数据进行滤波降噪处理；

4.根据权利要求3所述的提升个性化合成语音质量的方法，其特征在于，所述降噪滤波器由以下步骤得到：

S230根据噪声估计结果和有效语音估计结果生成降噪滤波器；

S240对降噪滤波器进行平滑处理。

5.根据权利要求4所述的提升个性化合成语音质量的方法，其特征在于，在S220步骤中，所述全局噪声估计方式包括以下步骤：

6.根据权利要求5所述的提升个性化合成语音质量的方法，其特征在于，所述全局噪声估计方式还包括以下步骤：

7.根据权利要求1所述的提升个性化合成语音质量的方法，其特征在于，在S100步骤中，采集不同主持人语音进行自适应模型训练，得到语音美化模型；在S400步骤中，采用语音美化模型对个性化合成语音进行美化处理。

8.根据权利要求1-7中任意一项所述的提升个性化合成语音质量的方法，其特征在于，在S100步骤中，采集不同用户语音，重复S200和S300步骤得到针对不同用户的个性化语音模型，建立个性化语音模型库，在S400步骤中，接收语音指令信息，进行用户识别调取相应的个性化语音模型用于进行语音合成。

9.根据权利要求8所述的提升个性化合成语音质量的方法，其特征在于，所述用户识别包括：提取S100步骤中采集的各用户语音的语音特性作为第一特性信息，把第一特性信息和个性化语音模型存储在个性化语音模型库内，且分别以同一用户的第一特性信息和个性化语音模型建立各自的对应关系；在S400步骤中，提取语音指令信息的语音特性作为第二特性信息，以第二特性信息与存储各第一特性信息进行逐一比对，若两者一致则选取存在对应关系的个性化语音模型用于进行语音合成。

10.根据权利要求9所述的提升个性化合成语音质量的方法，其特征在于，语音特性至少包括音波频率、音波振幅、音长和音色。