CN111048116A

CN111048116A - 一种数据处理方法、装置及电子设备

Info

Publication number: CN111048116A
Application number: CN201911337330.9A
Authority: CN
Inventors: 杨森; 刘鹏; 张洪亮; 李博
Original assignee: Shanghai Youyang New Media Information Technology Co ltd
Current assignee: Du Xiaoman Technology Beijing Co Ltd
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2020-04-21
Anticipated expiration: 2039-12-23
Also published as: CN111048116B

Abstract

本发明提供了一种数据处理方法、装置及电子设备，获取同一文本对应的合成语音和实际参考语音，将合成语音和实际参考语音分别输入至判断器网络，得到判断器网络的网络层输出的合成语音的特征矩阵和实际参考语音的特征矩阵；判断器网络用于提取合成语音和实际参考语音的特征，基于判断器网络的网络层输出的合成语音的特征矩阵和实际参考语音的特征矩阵，计算合成语音相对于实际参考语音的内容损失和语态损失。通过本发明，可以了解客服机器人语音合成结果与真实语音之间的差别，进而对优化客服机器人的语音合成技术起到数据指导作用。

Description

一种数据处理方法、装置及电子设备

技术领域

本发明涉及语音处理领域，更具体的说，涉及一种数据处理方法、装置及电子设备。

背景技术

随着互联网、移动互联网的快速发展，我国中小企业的数量快速增长。伴随着国内中小企业数量的快速发展，人工客服市场需求呈多元化、指数级增长。由于客服人员存在招人难、培训成本高、流动性大、不易管理等问题，而客服机器人可以全天24小时工作，还能通过实时数据反馈不断学习，企业对于使用客服机器人取代一部分人工客服存在很大需求。

客服机器人是在大规模知识处理基础上发展起来的一项面向具体行业应用的综合性技术，包括大规模知识处理技术、语音识别技术、语音合成技术、自然语言理解等技术。语音合成技术作为其中重要的一环，它可以将任意文字信息转化为标准流畅的语音朗读出来。亟需了解客服机器人语音合成结果与真实语音之间的差别，才能进一步优化客服机器人的语音合成技术。

发明内容

有鉴于此，本发明提供一种数据处理方法、装置及电子设备，以解决亟需了解客服机器人语音合成结果与真实语音之间的差别的问题。

为解决上述技术问题，本发明采用了如下技术方案：

一种数据处理方法，包括：

获取同一文本对应的合成语音和实际参考语音；

将所述合成语音和所述实际参考语音分别输入至判断器网络，得到所述判断器网络的网络层输出的所述合成语音的特征矩阵和所述实际参考语音的特征矩阵；所述判断器网络用于提取所述合成语音和所述实际参考语音的特征；

基于所述判断器网络的网络层输出的所述合成语音的特征矩阵和所述实际参考语音的特征矩阵，计算所述合成语音相对于所述实际参考语音的内容损失和语态损失。

可选地，所述合成语音相对于参考语音的内容损失L_content的计算公式为：

其中,

表示所述判断器网络φ的第z个网络层的第j个通道的第i个卷积的激活函数；

和

分别代表所述合成语音y_o和实际参考语音y_l分别经过所述判断器网络第z个网络层变换后得到的特征矩阵；C_z表示特征的通道数量。

可选地，所述基于所述判断器网络的网络层输出的所述合成语音的特征矩阵和所述实际参考语音的特征矩阵，计算所述合成语音相对于所述实际参考语音的语态损失，包括：

计算所述判断器网络的每一网络层不同通道输出的所述合成语音的特征矩阵的内积和所述判断器网络的每一网络层不同通道输出的所述实际参考语音的特征矩阵的内积；其中，所述判断器网络的每一网络层的不同通道输出的所述合成语音的特征矩阵的内积和所述判断器网络的每一网络层不同通道输出的所述实际参考语音的特征矩阵的内积

的计算公式为：

和

分别表示所述判断器网络φ的第z个网络层第i个通道和第j个通道输出的所述合成语音的特征矩阵或所述实际参考语音的特征矩阵；

依据所述判断器网络的每一网络层不同通道输出的所述合成语音的特征矩阵的内积和所述判断器网络的每一网络层不同通道输出的所述实际参考语音的特征矩阵的内积，计算得到所述语态损失。

可选地，依据所述判断器网络的每一网络层不同通道输出的所述合成语音的特征矩阵的内积和所述判断器网络的每一网络层不同通道输出的所述实际参考语音的特征矩阵的内积，计算得到所述语态损失，包括：

计算所述判断器网络的每一网络层输出的所述合成语音和所述实际参考语音之间的语态损失；其中，所述判断器网络的每一网络层输出的所述合成语音和所述实际参考语音之间的语态损失

的计算公式为：

其中，

和

分别表示所述合成语音和所述实际参考语音对应所述判断器网络中第z个网络层输出的第i个通道和第j个通道的特征矩阵之间的内积；

表示特征的尺寸，C_z表示特征矩阵的通道数量；

对所述判断器网络的每一网络层输出的所述合成语音和所述实际参考语音之间的语态损失进行加权求和，得到所述语态损失。

一种数据处理装置，包括：

语音获取模块，用于获取同一文本对应的合成语音和实际参考语音；

矩阵获取模块，用于将所述合成语音和所述实际参考语音分别输入至判断器网络，得到所述判断器网络的网络层输出的所述合成语音的特征矩阵和所述实际参考语音的特征矩阵；所述判断器网络用于提取所述合成语音和所述实际参考语音的特征；

损失计算模块，用于基于所述判断器网络的网络层输出的所述合成语音的特征矩阵和所述实际参考语音的特征矩阵，计算所述合成语音相对于所述实际参考语音的内容损失和语态损失。

其中,

和

可选地，所述损失计算模块包括：

第一计算子模块，用于计算所述判断器网络的每一网络层不同通道输出的所述合成语音的特征矩阵的内积和所述判断器网络的每一网络层不同通道输出的所述实际参考语音的特征矩阵的内积；其中，所述判断器网络的每一网络层的不同通道输出的所述合成语音的特征矩阵的内积和所述判断器网络的每一网络层不同通道输出的所述实际参考语音的特征矩阵的内积

的计算公式为：

和

第二计算子模块，用于依据所述判断器网络的每一网络层不同通道输出的所述合成语音的特征矩阵的内积和所述判断器网络的每一网络层不同通道输出的所述实际参考语音的特征矩阵的内积，计算得到所述语态损失。

可选地，所述第二计算子模块包括：

第一计算单元，用于计算所述判断器网络的每一网络层输出的所述合成语音和所述实际参考语音之间的语态损失；其中，所述判断器网络的每一网络层输出的所述合成语音和所述实际参考语音之间的语态损失

的计算公式为：

其中，

和

表示特征的尺寸，C_z表示特征矩阵的通道数量；

第二计算单元，用于对所述判断器网络的每一网络层输出的所述合成语音和所述实际参考语音之间的语态损失进行加权求和，得到所述语态损失。

一种电子设备，包括：存储器和处理器；

其中，所述存储器用于存储程序；

处理器调用程序并用于：

获取同一文本对应的合成语音和实际参考语音；

相较于现有技术，本发明具有以下有益效果：

本发明提供了一种数据处理方法、装置及电子设备，获取同一文本对应的合成语音和实际参考语音，将所述合成语音和所述实际参考语音分别输入至判断器网络，得到所述判断器网络的网络层输出的所述合成语音的特征矩阵和所述实际参考语音的特征矩阵；所述判断器网络用于提取所述合成语音和所述实际参考语音的特征，基于所述判断器网络的网络层输出的所述合成语音的特征矩阵和所述实际参考语音的特征矩阵，计算所述合成语音相对于所述实际参考语音的内容损失和语态损失。通过本发明，可以了解客服机器人语音合成结果与真实语音之间的差别，进而对优化客服机器人的语音合成技术起到数据指导作用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种数据处理方法的方法流程图；

图2为本发明实施例提供的一种语音监督学习的场景示意图；

图3为本发明实施例提供的一种判断器网络的结构示意图；

图4为本发明实施例提供的另一种数据处理方法的方法流程图；

图5为本发明实施例提供的一种基于相对熵的监督学习合成语音的梅尔谱图；

图6为本发明实施例提供的一种基于判断器网络的监督学习合成语音的梅尔谱图；

图7为本发明实施例提供的一种数据处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种数据处理方法，该数据处理方法用于比较合成语音和真实参考语音之间的差别。

参照图1，数据处理方法可以包括：

S11、获取同一文本对应的合成语音和实际参考语音。

参照图2，一个文本，如“今天吃饭了吗”，将该文本输入至语音合成模型中，得到合成语音，其中，该合成语音可以认为是客服机器人合成的语音。另外，还需要获取该文本对应的实际参考语音，即真实的人说出的“今天吃饭了吗”的语音。然后将合成语音和实际参考语音输入至判断器网络VGG16中，执行步骤S12和S13。

S12、将合成语音和实际参考语音分别输入至判断器网络，得到判断器网络的网络层输出的合成语音的特征矩阵和实际参考语音的特征矩阵。

判断器网络就是图2中的VGG16模型，判断器网络用于提取合成语音和实际参考语音的特征。

参照图3，图3给出了判断器网络的结构图，该判断器网络是一个预训练好的VGG16，包括输入层、一维卷积层、一维最大池化层、和全连接层。每一网络层会输出相应的特征。由于声音是序列化的一串数据，因此需要将判断器网络中的所有的二维卷积层和池化层全部用一维卷积层和池化层替换。

合成语音和实际参考语音均为语音波形，将该语音波形输入到判断器网络中，可以得到判断器网络的每一网络层(如卷积层)输出的合成语音的特征矩阵以及实际参考语音的特征矩阵。

S13、基于判断器网络的网络层输出的合成语音的特征矩阵和实际参考语音的特征矩阵，计算合成语音相对于实际参考语音的内容损失和语态损失。

具体的，通过设计内容损失函数和语态损失函数，计算得到合成语音和实际参考语音在每个网络层(如卷积层)输出特征矩阵之间的差值，用于监督语音合成过程中内容和语态的合成，使模型合成得到的语音更准确、自然。

本实施例中，获取同一文本对应的合成语音和实际参考语音，将合成语音和实际参考语音分别输入至判断器网络，得到判断器网络的网络层输出的合成语音的特征矩阵和实际参考语音的特征矩阵；判断器网络用于提取合成语音和实际参考语音的特征，基于判断器网络的网络层输出的合成语音的特征矩阵和实际参考语音的特征矩阵，计算合成语音相对于实际参考语音的内容损失和语态损失。通过本发明，可以了解客服机器人语音合成结果与真实语音之间的差别，进而对优化客服机器人的语音合成技术起到数据指导作用。

在上述内容中提及了内容损失函数和语态损失函数，现对内容损失函数和语态损失函数的监督作用进行详细阐述：

(1)内容损失监督。

为了使合成得到的合成语音和实际参考语音在语音内容上可以实现精确匹配，设计了内容损失函数用于监督语音内容的合成。在模型训练过程中，把语音合成模型合成得到的合成语音和实际参考语音分别送入预训练好的判断器网络，经过网络中各个层的变换之后，每个卷积层将得到对应的特征矩阵输出。通过计算合成语音和实际参考语音在每个层的输出特征矩阵对应于每个通道上特征之间的均方差，再经过求和平均化得到最终的语音内容损失，其定义如下：

合成语音相对于参考语音的内容损失L_content的计算公式为：

其中,

表示判断器网络φ的第z个网络层的第j个通道的第i个卷积的激活函数；

和

分别代表合成语音y_o和实际参考语音y_l分别经过判断器网络第z个网络层变换后得到的特征矩阵；C_z表示特征的通道数量。

相比于现有技术中，直接计算合成语音和实际参考语音之间的相对熵，内容损失函数通过利用判断器网络可以更好地计算出合成语音和实际参考语音在语音内容上细微的差别，并且可以对语音合成模型的学习过程起到更好的监督作用。

(2)语态损失监督。

本发明的另一实现方式中，参照图4，基于判断器网络的网络层输出的合成语音的特征矩阵和实际参考语音的特征矩阵，计算合成语音相对于实际参考语音的语态损失，包括：

S21、计算判断器网络的每一网络层不同通道输出的合成语音的特征矩阵的内积和判断器网络的每一网络层不同通道输出的实际参考语音的特征矩阵的内积。

面对具体的业务场景，仅仅满足语音内容上的匹配是完全不够的，还需要满足语音在语态上与自然语音上的接近或匹配。为了满足合成语音在语态上的要求，基于判断器网络，我们设计了语态损失函数用于语音语态的合成。在这一过程中，首先把合成语音和实际参考语音分别送入判断器网络，得到两个语音波形在每个网络层对应的特征输出。

由于语音中的语态信息可以通过特征之间的关联信息体现，所以在计算语态损失的过程中，先对每个语音波形在判断器网络中每个网络层的特征做内积变换，得到判断器网络的每一网络层的不同通道输出的合成语音的特征矩阵的内积和判断器网络的每一网络层不同通道输出的实际参考语音的特征矩阵的内积，具体的，任意两个特征之间的内积

和

分别表示判断器网络φ的第z个网络层第i个通道和第j个通道输出的合成语音的特征矩阵或实际参考语音的特征矩阵。

S22、依据判断器网络的每一网络层不同通道输出的合成语音的特征矩阵的内积和判断器网络的每一网络层不同通道输出的实际参考语音的特征矩阵的内积，计算得到语态损失。

在实际应用中，步骤S22可以包括：

1)计算判断器网络的每一网络层输出的合成语音和实际参考语音之间的语态损失；

2)对判断器网络的每一网络层输出的合成语音和实际参考语音之间的语态损失进行加权求和，得到语态损失。

具体的，对应于合成语音和实际参考语音两个不同的输入，可以分别得到两个语音在判断器模型中每个网络层输出特征之间的内积结果。因此，可计算出合成语音和实际参考语音在判断器网络中每一层的语态损失

其中，

和

分别表示合成语音和实际参考语音对应判断器网络中第z个网络层输出的第i个通道和第j个通道的特征矩阵之间的内积；

表示特征的尺寸，C_z表示特征矩阵的通道数量。

最后，通过将判断器网络中所有网络层的语态损失以不同的权重连接起来，则可以得到最终的语态损失L_style：

其中，w_z表示判断器网络第z个网络层的语态损失连接权重，L_style代表了每一网络层中合成语音与实际参考语音通过判断器网络计算出的语态损失。

通过设计判断器网络，优化语音合成模型，相比于现有监督学习方式，实现了更好的语音合成，根据如图5和6。由此可以看出，在语音合成模型的学习过程中，通过利用判断器网络计算出合成语音与实际参考语音之间的内容损失和语态损失，可以实现对语音合成模型更好的监督，从而使得语音合成模型可以合成出更准确、自然的语音。

本实施例中，通过利用判断器网络可以更好地计算出合成语音与参考语音之间的内容损失和语态损失，从而实现对语音合成模型在学习过程中起到更好的监督作用，进而可以合成出更准确、自然、原生态的语音。

可选的，在上述数据处理方法的实施例的基础上，本发明的另一实施例提供了一种数据处理装置，参照图7，可以包括：

语音获取模块101，用于获取同一文本对应的合成语音和实际参考语音；

矩阵获取模块102，用于将合成语音和实际参考语音分别输入至判断器网络，得到判断器网络的网络层输出的合成语音的特征矩阵和实际参考语音的特征矩阵；判断器网络用于提取合成语音和实际参考语音的特征；

损失计算模块103，用于基于判断器网络的网络层输出的合成语音的特征矩阵和实际参考语音的特征矩阵，计算合成语音相对于实际参考语音的内容损失和语态损失。

需要说明的是，本实施例中的各个模块的工作过程，请参照上述实施例中的相应说明，在此不再赘述。

可选的，在上述数据处理装置的实施例的基础上，合成语音相对于参考语音的内容损失L_content的计算公式为：

其中,

和

进一步，损失计算模块包括：

第一计算子模块，用于计算判断器网络的每一网络层不同通道输出的合成语音的特征矩阵的内积和判断器网络的每一网络层不同通道输出的实际参考语音的特征矩阵的内积；其中，判断器网络的每一网络层的不同通道输出的合成语音的特征矩阵的内积和判断器网络的每一网络层不同通道输出的实际参考语音的特征矩阵的内积

的计算公式为：

和

分别表示判断器网络φ的第z个网络层第i个通道和第j个通道输出的合成语音的特征矩阵或实际参考语音的特征矩阵；

第二计算子模块，用于依据判断器网络的每一网络层不同通道输出的合成语音的特征矩阵的内积和判断器网络的每一网络层不同通道输出的实际参考语音的特征矩阵的内积，计算得到语态损失。

进一步，第二计算子模块包括：

第一计算单元，用于计算判断器网络的每一网络层输出的合成语音和实际参考语音之间的语态损失；其中，判断器网络的每一网络层输出的合成语音和实际参考语音之间的语态损失

的计算公式为：

其中，

和

表示特征的尺寸，C_z表示特征矩阵的通道数量；

第二计算单元，用于对判断器网络的每一网络层输出的合成语音和实际参考语音之间的语态损失进行加权求和，得到语态损失。

需要说明的是，本实施例中的各个模块、子模块和单元的工作过程，请参照上述实施例中的相应说明，在此不再赘述。

可选的，在上述数据处理方法及装置的实施例的基础上，本发明的另一实施例提供了一种电子设备，包括：存储器和处理器；

其中，存储器用于存储程序；

处理器调用程序并用于：

获取同一文本对应的合成语音和实际参考语音；

将合成语音和实际参考语音分别输入至判断器网络，得到判断器网络的网络层输出的合成语音的特征矩阵和实际参考语音的特征矩阵；判断器网络用于提取合成语音和实际参考语音的特征；

基于判断器网络的网络层输出的合成语音的特征矩阵和实际参考语音的特征矩阵，计算合成语音相对于实际参考语音的内容损失和语态损失。

进一步，合成语音相对于参考语音的内容损失L_content的计算公式为：

其中,

和

进一步，基于判断器网络的网络层输出的合成语音的特征矩阵和实际参考语音的特征矩阵，计算合成语音相对于实际参考语音的语态损失，包括：

计算判断器网络的每一网络层不同通道输出的合成语音的特征矩阵的内积和判断器网络的每一网络层不同通道输出的实际参考语音的特征矩阵的内积；其中，判断器网络的每一网络层的不同通道输出的合成语音的特征矩阵的内积和判断器网络的每一网络层不同通道输出的实际参考语音的特征矩阵的内积

的计算公式为：

和

依据判断器网络的每一网络层不同通道输出的合成语音的特征矩阵的内积和判断器网络的每一网络层不同通道输出的实际参考语音的特征矩阵的内积，计算得到语态损失。

进一步，依据判断器网络的每一网络层不同通道输出的合成语音的特征矩阵的内积和判断器网络的每一网络层不同通道输出的实际参考语音的特征矩阵的内积，计算得到语态损失，包括：

计算判断器网络的每一网络层输出的合成语音和实际参考语音之间的语态损失；其中，判断器网络的每一网络层输出的合成语音和实际参考语音之间的语态损失

的计算公式为：

其中，

和

表示特征的尺寸，C_z表示特征矩阵的通道数量；

对判断器网络的每一网络层输出的合成语音和实际参考语音之间的语态损失进行加权求和，得到语态损失。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。