CN109256142A

CN109256142A - 语音转换基于扩展内核类网格法处理零散数据建模方法及设备

Info

Publication number: CN109256142A
Application number: CN201811131244.8A
Authority: CN
Inventors: 徐宁; 潘安顺; 倪亚南; 刘妍妍; 刘小峰
Original assignee: Changzhou Campus of Hohai University
Current assignee: Changzhou Campus of Hohai University
Priority date: 2018-09-27
Filing date: 2018-09-27
Publication date: 2019-01-22
Anticipated expiration: 2038-09-27
Also published as: CN109256142B

Abstract

本发明公开了一种语音转换基于可扩展内核类网格法处理零散数据建模方法,语音数据根据时间间隔经过前期的预处理分帧,语音转换通过取源语音某一音色的多维数据与目标语音的对应一维数据进行映射拟合，源语音的多维数据和一维目标语音数据作为训练数据，经过高斯回归模型进行训练，高斯过程采取可扩展性内核，建立类似网格结构，从中设置合适数量代表点通过局部三次插值和反距离权重插值法来作结构性内核逼近，从而大大加快高斯回归模型快速拟合;本发明通过设置合适数量代表点作精确内核逼近得到近似内核，这样既降低高斯过程计算量，大幅减小数据训练时间，又不会降低回归预测精度，做到同时兼顾。

Description

语音转换基于扩展内核类网格法处理零散数据建模方法及设备

技术领域

本发明涉及语音转换数据处理领域，具体涉及语音转换类网格法和近似内核构建的高斯回归模型建模方法。

背景技术

语音转换依靠现代信息数据处理才可实现，语音的每一帧数据可以用多维特征参数来描述，比如说用共振峰有关参数，就是一帧语音数据的共振峰频率(第一维)，带宽(第二维)，能量频谱倾斜(第三维)等。在语音转换中可以将源语音的多维特征参数与目标语音的一维特征参数通过标准高斯进行模型训练，然后输入训练数据进行回归及预测。

高斯过程回归可以用于大数据类型建模的灵活的函数逼近器，通过可诠释和可表达的协方差内核使用大数据信息，学习复杂的结构模型。但是它们O(n³)的计算和O(n²) 的储存限制了它们，n为训练数据量，当n变大时，计算量成三次方倍增长。这就使高斯过程只满足小数据集，最多包涵几千训练点。而可扩展性高斯内核函数和类网格法解决了这一问题。将高斯过程建模放到更大的数据集中建模训练。

高斯过程回归计算量极大，为了解决这个问题，就会推导协方差内核的现有结构，为了达到更高精度和扩展性，有利于对大数据集的灵活学习。类网格法的使用极大加速了高斯回归映射的计算速度。其中克罗内克(Kronecker)方法需要输入(预测)在多维网格上，这使得它不适用于大多数数据集，虽然也扩展了部分网格结构，但扩展后的网格不适用于训练数据任意定位输入。同样，托普列兹(Toeplitz)法受限制于数据限制在有规律空间的一维网格，最常见的是图像数据。但是一般取少量代表点作近似内核来作标准高斯过程回归，精度的影响非常大，所以代表点的数量也决定着预测回归的精度。

当今已存在的语音转换零散数据建模中，在神经网络回归过程对数据要求严格，对数据预处理，归一化，调参都非常繁琐，甚至回归预测精度都严重不符。而传统标准高斯过程的零散数据做回归拟合，虽然精度很好，但是计算速度过于缓慢，不适用于更大数据集的训练测试。

发明内容

为了解决语音转换过程中高斯回归模型由于计算量不能用于大数据集，训练用时过长问题，本发明公开一种语音转换基于可扩展内核类网格法处理零散数据建模方法，在处理零散状语音数据时，因为一般的网格法用于处理图像数据，图像数据可以直接放入规律网格，而语音数据则需要作预处理，再把零散数据放入类似网格中，解除对网格的依赖。然后在输入数据中选取代表点用三次插值和反距离权重插值求出稀疏权重矩阵得到对精确内核的逼近内核，再通过高斯过程做回归预测。这样大幅减小计算量，提高计算速度，并且对预测精度几乎无损。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种语音转换基于可扩展内核类网格法处理零散数据建模方法，截取训练数据和测试数据，经过高斯回归模型进行训练，高斯过程采取的是可扩展性内核，建立类似像网格结构，设置固定数量代表点，结合输入的训练数据，通过局部三次插值和反距离权重插值法进行结构性内核逼近，测试数据基于结构性内核逼近输出的逼近内核来做高斯过程回归映射。

具体包括以下步骤：

S01，输入截取源语音音色特征的多维数据A和目标语音特征多维数据B的其中一维数据B₁，截取多维数据A和一维数据B₁的前三分之二作为训练数据，截取源语音音色特征多维数据A的后三分之一数据作为测试数据；

S02，基于克罗内克(Kronecker)算法和托普列兹(Toeplite)算法建立包含固定数量代表点的类似网格化数据，将训练数据作为零散数据输入建立的类似网格化数据中；

S03，固定代表点为类似网格化的点，采用局部三次插值算法和反距离权重插值算法，结合输入的训练数据进行结构内核逼近，得到近似精确的高斯内核协方差函数；

S04，基于近似精确内核协方差函数对测试数据进行高斯过程回归映射。

所述步骤S02具体包括以下步骤：

(a1)输入训练数据，定义精确标准高斯过程协方差内核为K(x,z)＝cov(f(x),f(z))， K(x,z)表示标准高斯过程精确协方差内核函数，x与z分别表示两个不同函数变量，cov() 表示协方差函数，f(x)表示协方差函数内的变量(矩阵元素)；

内核RBF的标准高斯过程精确协方差函数K_RBF(x,z)，长度尺度内核超参数为l，K_RBF(x,z)＝exp(-0.5||x-z||/l²)，其中||x-z||表示x-z的二范数；

(a2)对带有高斯噪声的高斯过程进行建模：y(x)|f1(x)～N(y(x)；f1(x),σ²)表示高斯分布，N(y(x)；f1(x),σ²)为高斯分布函数，y(x)为目标函数，f1(x)为训练数据集，σ²为高斯噪声，预测分布由n_*个测试点x_*得出：

cov(f_*)＝K(x_*,x_*)-K(x_*,a)[K(a,a)+σ²I]^-1K(a,x_*) (3)

其中f_*表示高斯过程预测随机变量，x_*为测试点(变量)，a和b分别表示训练数据和目标语音数据(目标语音数据为S01步骤中的目标语音特征多维数据其中的一维数据)，为高斯过程后预测随机变量，θ为高斯过程内核超参数，μ为平均向量，I为单位矩阵， K(a,x_*)为训练数据为a与变量x_*的协方差内核函数，K(x_*,a)为变量x_*与训练数据a的协方差内核函数，K(a,a)为训练数据a与训练数据a的协方差内核函数；

(a3)通过高斯过程内核超参数θ求最大边际似然：

logP(y|θ)∝-[y^T(k_θ+σ²I)^-1y+log|k_θ+σ²I|]， (4)

其中，k_θ为n×n的协方差矩阵，I为单位矩阵，P(y|θ)为在θ条件下y的概率，y为目标函数；

y^T(k_θ+σ²I)^-1y为自动校准模型拟合，log|k_θ+σ²I|为复杂性惩罚项，用于优化高斯过程内核超参数θ，防止模型过拟合；使用高斯过程计算的瓶颈在于计算克列斯基(Cholesky)的分解；

(a4)取代表点，用类似网格法将训练数据作精确内核逼近，得到近似内核，用近似内核函数k(x,z)取代标准高斯过程精确协方差内核函数K(x,z),，显示回归子集(SOR) 和完全独立训练条件方法(FITC)使用近似内核：

对于n个训练点数量，使用代表点结合类似网格法对训练数据训练产生于近似内核函数代表点u＝[u_i],i＝1,......m，m为代表点的u数量；K(x,u)、K(u,u)和K(u,z)分别是1×n,m×m和n×1的协方差矩阵，x、z表示标准高斯过程精确协方差内核函数K的函数变量；表示克罗内克函数(Kronecker)；表示变量为x和z 的显示回归子集(SOR)近似内核函数，表示变量为x和z的完全独立训练(FITC) 近似内核函数，n为训练点数量；

(a5)类似网格化过程中，在笛卡尔(cartesian)网格上有多维输出x∈x,x₂,......x_p和跨网格维度内核函数的m×m协方差矩阵k，表达为克罗内克(Kronecker)函数表示内积符号，k₁到k_p表示不同的协方差矩阵；表示K(xi^(p),xj^(p))从第1项到第p项连乘，p为网格维度，xi^(p)和xj^(p)表示p维xi和xj变量，xi,xj为K的两个不同变量；

(a6)如果是由静态协方差内核k2(x,x’)＝k2(x-x’)生成在有规律空间维度上，则托普列兹矩阵延对角线是恒定的，k2是一个Toeplitz协方差矩阵,即k2_i,j＝k2_i+1,j+1＝k2(x_i-x_j)， i,j表示k2里的不同变量下标。

所述步骤S03工作过程包括如下步骤：

(b1)通过三次立方插值和反距离权重插值算法结合代表点和输入训练点进行结构化内核插值逼近，使用四个对称代表点三次插值和两个非对称点反距离权重方法建立系数权重矩阵W，与输入训练点的协方差矩阵相乘得到近似内核函数，

K(x,z)≈WK(u,u) (7)

其中K(x,z)为精确内核协方差函数，K(u,u)为代表点的精确内核协方差函数；

(b2)回归子集SOR的精确内核协方差函数K(x,x)： K(x,x)≈K(x,u)K(u,u)^-1K(u,x)≈WK(u,u)K(u,u)^-1K(u,u)W^T＝WK(u,u)W^T＝K_SKI。

类网格法输入训练数据x固定，自由落选代表点位置，解除x对网格的依赖。

一种计算设备，包括：一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行一种语音转换基于可扩展内核类网格法零散数据处理建模方法的指令。

一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行一种语音转换基于可扩展内核类网格法零散数据处理建模方法。

本发明的有益效果包括：本发明公开一种语音转换基于可扩展内核类网格法零散数据处理建模方法，将零散数据也能通过类似于网格法，输入训练数据，选取合适数量代表带点构建网格，即可利用克罗内克和托普列兹方法结合，减小计算量，大大加快计算速度。选取的代表点通过局部三次插值和反距离权重插值得到权重稀疏矩阵，然后求得近似协方差矩阵内核，做高斯回归模型预测，而与精确内核相比的标准高斯过程，精度几乎没有影响。最大收益就是更大程度将高斯过程应用于大数据机器学习，摆脱计算量大的问题。

附图说明

图1为本发明一种语音转换基于扩展内核类网格法处理零散数据建模方法流程图；

图2为本发明代表点选取产生的类网格的图示说明，’+’代表所取得代表点为类网格状，密集点代表训练点。

图3为本发明近似内核和标准高斯内核回归预测图示说明，红色线代表扩展内核类网格法回归预测，绿色线代表标准高斯过程回归，测试数据为其中的270个样本数据。

具体实施方式

下面结合附图并通过具体实施例对本发明作进一步详述，以下实施例只是描述性的，不是限定性的，不能以此限定本发明的保护范围。

为了使本发明的技术手段、创作特征、工作流程、使用方法达成目的与功效，且为了使该评价方法易于明白了解，下面结合具体实施例，进一步阐述本发明。

如图1所示，一种语音转换基于可扩展内核类网格法处理零散数据建模方法，

截取训练数据和测试数据，经过高斯回归模型进行训练，高斯过程采取的是可扩展性内核，建立类似像网格结构，设置固定数量代表点，结合输入的训练数据，通过局部三次插值和反距离权重插值法进行结构性内核逼近，测试数据基于结构性内核逼近输出的逼近内核来做高斯过程回归映射，从而大大加快高斯回归模型快速拟合，而不影响训练预测精度。

语音数据属于零散数据点，它与图像数据相比，图像数据可以直接利用图片特性直接采用网格法，将图片网格化。而语音数据的零散性也大大增加构建类似网格的难度。本公开发明是以诱导点法一族在克罗内克(Kronecker)与托普列兹(Toeplitz)结构中应用前提下，这样才可利用类网格结构进行快速计算。而用代表点逼近的内核并不影响预测回归精度。

语音转换基于扩展内核类网格法处理零散数据建模方法，具体包括以下步骤：

语音数据按时间间隔分帧，一个人的说话对应的音色可以提取特征参数到例如25维，语音特征数据比较多，包括共振峰、共振峰频率、带宽、能量频谱倾斜和各种倒谱参数。在做语音转换过程中，分别取源语音某一音色的多维数据和目标语音对应音色的一维数据，且要注意维数为多维映射到一维，但是对应帧数要保持一致。输入截取的多维源语音数据与一维目标语音数据的前三分之二作为训练数据，源语音多维数据的后三分之一数据(其中不包括目标语音数据)作测试数据；

如图2所示，S02，基于克罗内克(Kronecker)算法和托普列兹(Toeplite)算法建立包含固定数量代表点的类似网格化数据，将训练数据作为零散数据输入建立的类似网格化数据中

S03，固定代表点即类似网格化的点采用局部三次插值和反距离权重插值算法，结合输入的训练数据进行结构内核逼近，得到近似精确的高斯内核协方差函数；

S04，对输入测试数据即S01步骤中的数据，采用S03中近似精确内核协方差函数进行高斯过程回归映射。如图3所示，本实施例近似内核和标准高斯内核回归预测图示说明，红色线代表扩展内核类网格法回归预测，绿色线代表标准高斯过程回归，测试数据为其中的270个样本数据。

所述步骤S02具体包括以下步骤：

cov(f_*)＝K(x_*,x_*)-K(x_*,a)[K(a,a)+σ²I]^-1K(a,x_*) (3)

(a3)通过高斯过程内核超参数θ求最大边际似然：

logP(y|θ)∝-[y^T(k_θ+σ²I)^-1y+log|k_θ+σ²I|]， (4)

y^T(k_θ+σ²I)^-1y为自动校准模型拟合，log|k_θ+σ²I|为复杂性惩罚项，用于优化高斯过程内核超参数θ，防止模型过拟合；使用高斯过程计算的瓶颈在于计算克列斯基(Cholesky)的分解，需要O(n³)计算和O(n²)的储存(当n训练点数据量越大时，时间计算复杂度即计算量随着n的三次方增长)；假如数据量为c，计算复杂度为c³，当数据量为2c时，计算量就变为8c³。这里O(n)整体表示时间计算复杂度。

(a4)取代表点，用类似网格法将训练数据作精确内核逼近，得到近似内核，用近似内核函数取代标准高斯过程精确协方差内核函数K(x,z),，显示回归子集(SOR) 和完全独立训练条件方法(FITC)使用近似内核：

对于n个训练点数量，使用代表点结合类似网格法对训练数据训练产生于近似内核函数代表点u＝[u_i],i＝1,......m，m为代表点的u数量；(U)；Kx(u,)、K(u,u)和K(u,z) 分别是1×n,m×m和n×1的协方差矩阵，x、z表示标准高斯过程精确协方差内核函数K的函数变量；表示克罗内克函数(Kronecker)；近似内核的计算复杂度为O(m²n+m³)，存储量为O(mn+m²)，用来高斯过程推理和学习，为取得好的实际效果，通常选取m<<n；表示变量为x和z的显示回归子集(SOR)近似内核函数，表示变量为x和z的完全独立训练(FITC)近似内核函数，n为训练点数量。

(a6)如果是由静态协方差内核k2(x,x’)＝k2(x-x’)生成在有规律空间维度上，则托普列兹矩阵延对角线是恒定的，k2是一个Toeplitz协方差矩阵,即k2_i,j＝k2_i+1,j+1＝k2(x_i-x_j)， i,j表示k2里的不同变量下标；

一个静态协方差核托普列兹(Toeplitz)方法与克罗内克(Kronecker)方法优势互补，在类网格建立中，我们将托普列兹矩阵嵌入到循环矩阵，用快速傅里叶转换来进行快速矩阵矢量产生，可以用线性共轭梯度求解线性系统。这样输入的训练数据被放入建模出的网格中。

所述步骤S03工作过程包括如下步骤：

K(x,z)≈WK(u,u) (7)

其中K(x,z)为精确内核协方差函数，K(u,u)为代表点的精确内核协方差函数。

(b2)回归子集SOR的精确内核协方差函数K(x,x)：

K(x,x)≈K(x,u)K(u,u)^-1K(u,x)≈WK(u,u)K(u,u)^-1K(u,u)W^T＝WK(u,u)W^T＝K_SKI类网格法输入训练数据x固定，自由落选代表点位置，解除x对网格的依赖。

基于本发明公开的语音转换基于扩展内核类网格法处理零散数据建模方法与标准高过程运行时间和标准高斯过程预测回归精度相比较，选取源语音某一音色连续三维和目标语音对应源语音音色其中的一维，各4000帧，用可扩展内核类网格法和标准高斯过程作对比；仿真结果如表1：

表1扩展内核类网格法和标准高斯过程回归作比较

由上表格可以看出，标准高斯过程回归和扩展内核类网格法采用的近似内核回归误差很小，几乎一样，由于计算限制了高斯过程被用于大数据集的机器学习，所以在训练测试的计算量和时间上，扩展内核类网格法要大大优于标准高斯过程回归，本申请的技术方案解决了上述的缺点问题。

一种计算设备，包括：一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行语音数据基于扩展内核类网格法处理零散数据建模方法的指令。

一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行语音数据基于扩展内核类网格法处理零散数据建模方法。

本领域内的技术人员可以对本发明进行改动或变型的设计但不脱离本发明的思想和范围。因此，如果本发明的这些修改和变型属于本发明权利要求及其等同的技术范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音转换基于可扩展内核类网格法处理零散数据建模方法，其特征在于，

截取训练数据和测试数据，经过高斯回归模型进行训练，高斯过程采取的是可扩展性内核，建立类似像网格结构，设置固定数量代表点，结合输入的训练数据，通过局部三次插值和反距离权重插值法进行结构性内核逼近，测试数据基于结构性内核逼近输出的逼近内核来做高斯过程回归映射。

2.根据权利要求1所述的语音转换基于扩展内核类网格法处理零散数据建模方法，其特征在于，

具体包括以下步骤：

S02，基于克罗内克算法和托普列兹算法建立包含固定数量代表点的类似网格化数据，将训练数据作为零散数据输入建立的类似网格化数据中；

3.根据权利要求1所述的语音转换基于扩展内核类网格法处理零散数据建模方法，其特征在于，

所述步骤S02具体包括以下步骤：

(a1)输入训练数据，定义精确标准高斯过程协方差内核为K(x,z)＝cov(f(x),f(z))，K(x,z)表示标准高斯过程精确协方差内核函数，x与z分别表示两个不同函数变量，cov()表示协方差函数，f(x)表示协方差函数内的变量；

cov(f_*)＝K(x_*,x_*)-K(x_*,a)[K(a,a)+σ²I]^-1K(a,x_*) (3)

其中f_*表示高斯过程预测随机变量，x_*为测试点，a和b分别表示训练数据和目标语音数据，为高斯过程后预测的随机变量，θ为高斯过程内核超参数，μ为平均向量，I为单位矩阵，K(a,x_*)为训练数据为a与变量x_*的协方差内核函数，K(x_*,a)为变量x_*与训练数据a的协方差内核函数，K(a,a)为训练数据a与训练数据a的协方差内核函数；

(a3)通过高斯过程内核超参数θ求最大边际似然：

logP(y|θ)∝-[y^T(k_θ+σ²I)^-1y+log|k_θ+σ²I|]， (4)

y^T(k_θ+σ²I)^-1y为自动校准模型拟合，log|k_θ+σ²I|为复杂性惩罚项，用于优化高斯过程内核超参数θ，防止模型过拟合；使用高斯过程计算的瓶颈在于计算克列斯基的分解；

(a4)取代表点，用类似网格法将训练数据作精确内核逼近，得到近似内核，用近似内核函数取代标准高斯过程精确协方差内核函数K(x,z),，显示回归子集和完全独立训练条件方法使用近似内核：

对于n个训练点数量，使用代表点结合类似网格法对训练数据训练产生于近似内核函数代表点u＝[u_i],i＝1,......m，m为代表点的u数量；K(x,u)、K(u,u)和K(u,z)分别是1×n,m×m和n×1的协方差矩阵，x、z表示标准高斯过程精确协方差内核函数K的函数变量；表示克罗内克函数；表示变量为x和z的显示回归子集近似内核函数，表示变量为x和z的完全独立训练近似内核函数，n为训练点数量；

(a5)类似网格化过程中，在笛卡尔网格上有多维输出x∈x,x₂,......x_p和跨网格维度内核函数的m×m协方差矩阵k，表达为克罗内克函数表示内积符号，k₁到k_p表示不同的协方差矩阵；表示K(xi^(p),xj^(p))从第1项到第p项连乘，p为网格维度，xi^(p)和xj^(p)表示p维xi和xj变量，xi,xj为K的两个不同变量；

(a6)如果是由静态协方差内核k2(x,x’)＝k2(x-x’)生成在有规律空间维度上，则托普列兹矩阵延对角线是恒定的，k2是一个Toeplitz协方差矩阵,即k2_i,j＝k2_i+1,j+1＝k2(x_i-x_j)，i,j表示k2里的不同变量下标。

4.根据权利要求2所述的语音数据基于扩展内核类网格法处理零散数据建模方法，其特征在于，

所述步骤S03工作过程包括如下步骤：

K(x,z)≈WK(u,u) (7)

(b2)回归子集SOR的精确内核协方差函数K(x,x)：K(x,x)≈K(x,u)K(u,u)^-1K(u,x)≈WK(u,u)K(u,u)^-1K(u,u)W^T＝WK(u,u)W^T＝K_SKI。

5.根据权利要求1所述的语音数据基于扩展内核类网格法处理零散数据建模方法，其特征在于，

6.一种计算设备，其特征在于，包括：

一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1至5所述的方法中的任一方法的指令。

7.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1至5所述的方法中的任一方法。