CN116188637A

CN116188637A - 数据同步方法及装置

Info

Publication number: CN116188637A
Application number: CN202310436808.3A
Authority: CN
Inventors: 王英; 陈若含
Original assignee: 4u Beijing Technology Co ltd
Current assignee: Shiyou Beijing Technology Co ltd
Priority date: 2023-04-23
Filing date: 2023-04-23
Publication date: 2023-05-30
Anticipated expiration: 2043-04-23
Also published as: CN116188637B

Abstract

本申请提供了一种数据同步方法及装置，该方法包括：响应于接收到用户问询，生成待虚拟数字人语音播报的语音数据；对所述语音数据进行处理，从处理后的所述语音数据中提取频谱特征，并使用生成器网络来生成与所述频谱特征对应的唇形序列；利用动态时间规整方法，来同步所述唇形序列和所述语音数据。本申请解决了现有技术中虚拟数字人语音播报时语音和唇形不同步的技术问题。

Description

数据同步方法及装置

技术领域

本申请涉及数据同步技术领域，具体而言，涉及一种数据同步方法及装置。

背景技术

现有的唇形同步算法可以分为两种：基于规则的唇形同步算法和基于数据驱动的唇形同步算法。

基于规则的唇形同步算法通过预定义的规则来确定每个发音所对应的嘴唇形状，例如根据发音的元音和辅音，推断出嘴唇的张合程度和形状。这种算法需要手动编写规则，不够灵活，而且可能存在模型和数据不匹配的问题。

基于数据驱动的唇形同步算法则通过训练数据集来确定唇形与语音的对应关系。这种算法需要大量的训练数据，同时也需要考虑到各种语音和唇形的变化因素，例如不同人的发音习惯、语速、情感色彩等。现有的数据驱动算法已经取得了很大的进展，可以实现比较准确的唇形同步，但是仍然存在一些问题例如非线性问题。唇形同步问题本质上是一个非线性问题，而且唇形与语音之间的关系非常复杂。现有的算法仍然存在非线性建模能力不足的问题，导致算法的效果无法完全达到理想状态，进而导致唇形和语音存在不同步的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种数据同步方法及装置，以至少解决现有技术中虚拟数字人语音播报时语音和唇形不同步的技术问题。

根据本申请实施例的一个方面，提供了一种数据同步方法，包括：响应于接收到用户问询，生成待虚拟数字人语音播报的语音数据；对所述语音数据进行处理，从处理后的所述语音数据中提取频谱特征，并使用生成器网络来生成与所述频谱特征对应的唇形序列；利用动态时间规整方法，来同步所述唇形序列和所述语音数据。

根据本申请实施例的另一方面，还提供了一种数据同步装置，包括：语音生成模块，被配置为响应于接收到用户问询，生成待虚拟数字人语音播报的语音数据；唇形生成模块，被配置为对所述语音数据进行处理，从处理后的所述语音数据中提取频谱特征，并使用生成器网络来生成与所述频谱特征对应的唇形序列；同步模块，被配置为利用动态时间规整方法，来同步所述唇形序列和所述语音数据。

在本申请实施例中，响应于接收到用户问询，生成待虚拟数字人语音播报的语音数据；对所述语音数据进行处理，从处理后的所述语音数据中提取频谱特征，并使用生成器网络来生成与所述频谱特征对应的唇形序列；利用动态时间规整方法，来同步所述唇形序列和所述语音数据。通过上述方案，解决了现有技术中虚拟数字人语音播报时语音和唇形对不准的技术问题。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种数据同步方法的流程图；

图2是根据本申请实施例的另一种数据同步方法的流程图；

图3是根据本申请实施例的提取频谱特征的方法的流程图；

图4是根据本申请实施例的训练生成器网络的方法的流程图；

图5是根据本申请实施例的在光照下的虚拟数字人的渲染方法的流程图；

图6是根据本申请实施例的加入绒毛的方法的流程图；

图7是根据本申请实施例的获取的顶点与法向量的示意图；

图8是根据本申请实施例的基于顶点与法向量生成面片的示意图；

图9是根据本申请实施例的数据同步装置的结构示意图；

图10示出了适于用来实现本公开实施例的电子设备的结构示意图。

其中，上述附图包括以下附图标记：

1001、CPU；1002、ROM；1003、RAM；1004、总线；1005、I/O接口；1006、输入部分；1007、输出部分；1008、存储部分；1009、通信部分；1010、驱动器；1011、可拆卸介质；92、语音生成模块；94、唇形生成模块；96、同步模块。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

实施例1

本申请实施例提供了一种数据同步方法，如图1所示，该方法包括以下步骤：

步骤S102，响应于接收到用户问询，生成待虚拟数字人语音播报的语音数据；

响应于接收到用户问询，生成待虚拟数字人语音播报的文本内容，并对所述文本内容进行分割，得到多个文本片段；针对所述多个文本片段中的每个文本片段，基于所述每个文本片段中的文字，来生成每个文本片段的所述语音数据。

这样，可以将用户问询的文本内容转换成语音数据，以便后续步骤使用。这有助于提高语音合成的效率和准确性，因为可以直接使用已经生成的语音数据，而避免在每次问询时重新合成语音。此外，基于每个文本片段来生成对应的语音数据，可以进一步提高语音合成的准确性和自然度，因为可以针对每个文本片段进行更细致的调整和处理。

步骤S104，对所述语音数据进行处理，从处理后的所述语音数据中提取频谱特征，并使用生成器网络来生成与所述频谱特征对应的唇形序列。

首先，对所述语音数据进行处理。例如，对所述语音数据进行分帧处理，对分帧处理得到的每一帧语音数据进行加窗处理；将加窗处理后的每一帧所述语音数据通过快速傅里叶变换转换为频域信号，以得到所述处理后的语音数据。

这样，通过对语音数据进行分帧处理和加窗处理可以将语音信号分割成若干个较短的时间窗口，从而可以在一定程度上解决语音信号在时间域上的非平稳性和不稳定性。通过快速傅里叶变换将加窗后的语音信号转换为频域信号可以将信号从时域转换到频域，这可以使得一些复杂的操作，如频谱分析和滤波等更加方便和高效。因此，这些处理步骤有助于提取语音信号的频谱特征，为后续的处理步骤提供有用的数据。

接着，从处理后的所述语音数据中提取频谱特征。可以将所述处理后的语音数据按照频率划分为多个频带，并使用三角滤波器对所述多个频带中每个频带内的能量进行加权。通过将语音信号按照频率划分为多个频带，使用三角滤波器对每个频带内的能量进行加权，可以更好地模拟人耳对声音的感知特性。然后，基于加权后的能量值，得到所述频谱特征。例如，通过取对数对所述加权后的能量值进行压缩，得到压缩后的能量值；通过离散余弦变换对所述压缩后的能量值进行正交变换，得到一组不同频率的特征，作为所述频谱特征。本实施例通过对加权后的能量值进行对数压缩，可以更好地反映人类听觉系统对声音强度的感知特性。通过离散余弦变换对压缩后的能量值进行正交变换，可以将时域的能量变化转换为频域上的能量分布，得到一组不同频率的特征，这些特征对于语音识别任务非常有用。

本实施例，从处理后的语音数据中提取频谱特征，可以将语音信号转换为特征向量，这种特征向量表示更适合用于语音识别任务。这个过程的主要作用是提取语音信号的频域特征，并且减少特征的维度，使得特征向量更易于处理。

最后，使用训练好的生成器网络来生成与所述频谱特征对应的唇形序列。

具体地，将训练集中的语音频谱特征输入到所述生成器网络中，并利用通过均方误差构建的损失函数来度量所述生成器网络生成的唇形序列与实际唇形序列的差异；基于所度量的差异，使用反向传播算法来更新所述生成器网络的权重和偏置。例如，循环执行以下步骤直到所述损失函数最小化：利用反向传播算法，从所述损失函数的输出开始，逐层计算所述生成器网络中每个神经元对所述损失函数的贡献，并所计算出的贡献累加到所述每个神经元的偏置和权重的梯度上；利用所述梯度，更新所述生成器网络的所述权重和所述偏置。训练好生成器网络之后，将频谱特征输入到训练好的生成器网络中，输出唇形序列。

本实施例中，生成器网络可以根据输入的训练数据自适应地调整权重和偏置，以最小化损失函数。这可以使生成器网络在学习过程中逐步提高其性能和准确性。并且，通过度量生成唇形序列与实际唇形序列之间的差异并使用反向传播算法来调整生成器网络，可以提高生成唇形序列的准确性和质量。此外，通过在训练集中使用多个不同的语音频谱特征来训练生成器网络，可以提高其泛化能力，使其能够更好地处理来自不同说话者、语速和语调的语音信号。最后，使用语音频谱特征作为输入可以减少训练数据的要求，因为语音频谱特征通常比原始语音信号更容易获取和处理。这可以使训练过程更高效，并且可以在更小的数据集上实现良好的性能。

步骤S106，利用动态时间规整方法，来同步所述唇形序列和所述语音数据。

计算所述唇形序列中的每个唇形和所述每一帧语音数据之间的距离，并将所计算出的距离保存在距离矩阵中；利用动态时间规整方法计算所述距离矩阵中的最小路径，并基于所述最小路径来对齐所述唇形序列和所述每一帧语音数据，其中，所述最小路径是从所述距离矩阵的左上角到右下角的所有路径中距离总和最小的路径。

本实施例中，通过使用动态时间规整方法来同步唇形序列和语音数据，可以进一步地确保虚拟数字人的嘴唇运动和语音播报的同步，从而使虚拟数字人的表现更加自然和逼真。此外，使用动态时间规整方法可以有效地解决唇形序列和语音数据之间的不匹配问题，从而提高虚拟数字人的表现质量。

实施例2

虚拟数字人是一种由人工智能和自然语言处理技术构建的虚拟代理人，可以模拟人类的语言、行为和思考方式，提供各种服务，例如客户支持、销售礼宾、日程管理、财务顾问、品牌大使、医疗保健顾问、数字影响者以及数据输入和处理等。

虚拟数字人通常由人工智能和机器学习技术驱动，能够理解人类语言的含义和意图，并使用语音或文本与用户进行交流。它们可以根据用户的要求和输入执行任务，编程识别和响应特定的指令，快速处理大量数据，并在需要时提供信息和建议。

本申请实施例提供了一种虚拟数字人的数据同步方法，如图2所示，该方法包括以下步骤：

步骤S202，生成并处理语音数据。

虚拟数字人接收到用户问询后，基于AI算法生成待播报的语音数据。接着对语音数据进行分帧处理和加窗处理。分帧处理是将语音信号分割成若干长度相等的帧，目的是将时间上连续的语音信号离散化，方便后续处理。通常采用固定窗长的方式，相邻帧之间有重叠，如常用的帧长为20ms，重叠长度为10ms。加窗处理是对分帧后的每一帧语音信号进行的处理，即在时间域上对语音信号进行乘窗，以使其在频域上具有良好的性质。本实施例采用的窗函数使窗内部分样本值权重较大，窗外部分样本值权重较小，从而使得加窗后的语音信号在频域上具有较好的平滑性和连续性。然后，将加窗处理后的每一帧所述语音数据通过快速傅里叶变换转换为频域信号，以得到所述处理后的语音数据。

步骤S204，从处理后的语音数据中提取频谱特征。

提取频谱特征的方法如图3所示，可以包括如下步骤：

步骤S2042，将频域信号按照频率划分为若干个频带，使用三角滤波器对每个频带内的能量进行加权。

使用滤波器组对频域信号进行加权。这是因为人耳对音频信号的感知不同于线性的频率响应，而是更接近于对频率的响应。因此，将频域信号转换为频率空间可以更好地模拟人耳对音频信号的感知。滤波器组是由一系列三角滤波器组成的，这些滤波器在频率空间中是等间距的。每个滤波器的中心频率对应着一个特定的频率，滤波器的带宽和响应特性由其中心频率和相邻滤波器的中心频率确定。

将频域信号按照频率划分为若干个频带，每个频带内的能量通过对应的三角滤波器进行加权。具体地，对于每个频带，将其对应的三角滤波器的响应与频域信号取乘积，然后将乘积的结果求和得到该频带内的能量值，即频率能量谱，其表示音频信号在频率空间内的分布情况。

步骤S2044，对加权后的能量值取对数，得到对数频谱系数。

对上一步骤中得到的能量值进行取对数操作，得到对数频谱系数。这样可以减小能量值的范围，使其更加适合用于后续的计算。具体来说，对于每个频带，将其能量值取对数，并将其作为对数频谱系数的值。取对数的操作可以使用自然对数或其他对数函数。这一步骤的结果是一组对数频谱系数，它们表示音频信号在频率空间内的分布情况，并包含更多的信息比频率能量谱。对数频谱系数用于语音信号处理中的特征提取和模式识别任务，如语音识别、说话人识别等。

步骤S2046，对对数频谱系数进行离散余弦变换。

对上一步骤中得到的对数频谱系数进行离散余弦变换。这样，可以进一步提取语音数据的特征，以便用于后续的分析和识别。对于每个帧的对数频谱系数，将其看作一个向量，然后对该向量进行离散余弦变换，得到一组不同频率的特征，即频谱特征。

步骤S206，利用生成器网络来生成唇形序列。

首先，训练生成器网络。

如图4所示，训练生成器网络的方法可以包括以下步骤：

步骤S2062，利用均方误差构建损失函数。

采用均方误差作为损失函数来度量预测值与真实值之间的距离。具体地，假设预测的唇部关键点位置为y，真实的唇部关键点位置为y_true，则均方误差损失函数可以定义为：

其中，N是训练集中的语音频谱特征的样本数量，M是每个样本的预测目标数量，y_i,j表示第i个样本的第j个目标的预测值，y_true,i,j表示第i个样本的第j个目标的真实值，σ_i,j和σ_true,i,j表示第i个样本的第j个目标的预测值和真实值的方差，ω_i,j是每个目标的权重系数。

本实施例的损失函数包括三部分。第一部分是均方误差，用于度量预测值和真实值之间的距离。其中，a是均方误差的权重系数。第二部分是KL散度，用于度量预测值的分布与真实值分布之间的差异。其中，ϐ是KL散度的权重系数，Є是为了避免分母为0而引入的一个小常数。第三部分是带权重的平均方差，用于度量预测值和真实值之间的比例差异。其中，γ是平均方差的权重系数。

本实施例的损失函数可以带来以下有益效果：1）通过综合考虑不同方面的信息，从而更准确地预测结果。2）通过引入KL散度和带权重的平均方差等损失函数，可以促使模型对数据的分布和比例差异进行建模，从而提高模型的泛化能力。3）通过调整不同损失函数的权重系数，可以平衡不同方面的损失，从而实现模型的可控调整。

步骤S2064，逐层计算所述生成器网络中每个神经元对所述损失函数的贡献。

通过链式法则，将损失函数的梯度从输出层向输入层反向传播，以确定每个神经元的梯度。具体地说，反向传播算法将损失函数的梯度与每个神经元的输出值相乘，以确定每个神经元对于损失函数的贡献。

步骤S2066，更新所述生成器网络的所述权重和所述偏置。

在计算每个神经元的贡献后，将其累加到该神经元的偏置和权重的梯度上，以计算该神经元的梯度。最后，使用梯度下降算法来更新生成器网络的权重和偏置，以最小化损失函数。

步骤S2068，判断损失函数是否最小化。

如果损失函数尚未最小化，则执行步骤S2064，否则，训练生成器网络完毕，结束本流程。

最后，将步骤S204中得到的频谱特征输入到训练好的生成器网络中，得到唇形序列。

步骤S208，同步语音数据和唇形序列。

首先，使用例如欧氏距离、曼哈顿距离等计算算法来计算唇形序列中每个唇形与每一帧语音数据之间的距离，并将距离保存在距离矩阵中。

接着，使用动态时间规整方法计算距离矩阵中的最小路径。例如，通过对齐两个序列中的相似子序列来找到它们之间的最佳匹配。然后，基于最小路径来对齐唇形序列和语音数据。在这个过程中，将唇形序列和语音数据映射到同一个时间轴上，使它们在时间上对齐。具体来说，沿着最小路径从距离矩阵的左上角到右下角，将每个唇形与相应的语音数据帧对齐。

步骤S210，渲染虚拟数字人，得到用于响应用户的音视频数据。

在虚拟数字人的脸部建立骨架，并将唇形序列映射到骨架上。这可以通过建立一个包含唇部骨骼的骨架来实现，然后将唇形序列中的每个唇形与相应的骨骼相关联。对于每个语音帧，根据唇形序列中相应的帧，确定每个骨骼的位置、旋转和缩放参数，并将其应用于虚拟数字人的脸部模型上。

在渲染过程中，根据当前的语音帧，将唇部骨架的位置、旋转和缩放参数传递给着色器。着色器可以根据这些参数动态地变换虚拟数字人的脸部模型，并将其渲染到屏幕上。

在渲染虚拟数字人的过程中，还可以为其添加一些其他的视觉效果，例如光照、阴影、纹理等，以提高虚拟数字人的真实感和视觉吸引力。如图5所示，在光照下的虚拟数字人的衣服的渲染的方法包括以下步骤：

步骤S502，基于所述衣物的散射系数、透光面高度以及物体颜色，来对所述衣物上的每个像素点进行透光拟合，得到透光图像。

基于所述衣物的散射系数、透光面高度以及物体颜色，来确定光穿过所述每个像素点的透光能量；基于光穿过所述每个像素点的透光能量，来拟合透光部分，得到所述透光图像。具体地，拟合的透光部分也就是光穿过绒毛的能量。

其中，f_subtrure表示光穿过绒毛的透光能量，w_i表示光方向，w₀表示视方向，N表示法向量，P_color表示物体颜色，P表示相位函数，k表示散射系数，取值范围为（-1,1），a表示透光面高度。

这里，相位函数可以通过以下公式确定：

这样，可以更真实地反映出棉绒或丝绸等材质的透光效果，提高渲染的逼真度。此外，通过该步骤还能够增强衣物渲染的细节，使得渲染效果更加真实。

步骤S504，基于视方向、光方向、法向量以及所述透光面高度，来对所述每个像素点进行高光渲染，得到高光图像；

先基于所述光方向、所述视方向以及所述散射系数，确定相位函数；然后，基于所述相位函数、所述透光面高度、所述视方向、所述光方向和所述法向量，确定所述每个像素点的高光能量；最后，基于所述每个像素点的高光能量，来对所述每个像素点进行高光渲染，得到所述高光图像。

例如，可以通过以下公式来确定所述高光能量：

其中，f_specular表示高光能量，p为所述相位函数，a为所述透光面高度，N为所述法向量。

通过上述方法，提高了衣物渲染的逼真度。本实施例，基于衣物的散射系数、透光面高度和物体颜色，对衣物上每个像素点进行透光拟合和高光渲染，得到透高光图像，能够更加真实地反映衣物的材质和光照效果，提高渲染的逼真度。此外，还增强了衣物渲染的细节。通过向透高光图像上添加绒毛，能够增加衣物表面的细节，使渲染效果更加真实。最后，还改善了渲染效率并增强了渲染的灵活性。此外，通过确定光穿过每个像素点的透光能量和拟合透光部分，得到透光图像，能够有效地减少渲染的计算量，提高渲染效率；通过根据衣物的散射系数、透光面高度和物体颜色来确定光的透过程，能够适应不同类型的衣物材质，增强渲染的灵活性。

步骤S506，基于所述散射系数和所述透光面高度，来合成所述透光图像和所述高光图像，得到合成的透高光图像。

例如，通过以下公式对全部光照进行拟合，得到合成的透高光图像

其中，fr表示对全部光照进行拟合的能量，kd表示在透光时产生的能量（能量守恒）。

本实施例利用散射系数和透光面高度等参数，对透光图像和高光图像进行合成，得到更为真实、清晰的透高光图像。具体来说，散射系数可以影响光线在介质中的传播和散射，而透光面高度则可以影响光线穿透介质后的强度和方向等因素，因此利用这些参数进行透高光图像合成可以更好地模拟物体表面的真实光学特性，提高图像的真实度和清晰度，从而提升图像处理、计算机视觉等领域的应用效果。

步骤S508，向所述透高光图像上添加绒毛，以实现对所述衣物的渲染。

例如，先获取所述衣物的顶点与法向量，并沿着所述法向量生成多个面片；然后，在所述多个面片上添加所述绒毛。再基于离物体距离、相机位置、以及偏移距离，来确定所述多个面片上需去除掉的绒毛，并去除掉所确定的绒毛，得到绒毛去除图像；最后，基于所述视方向和所述法向量来确定所述衣物的边缘，保留所述边缘部分的绒毛，得到边缘绒毛图像；并融合所述绒毛去除图像和所述边缘绒毛图像，得到添加所述绒毛的图像。

具体地，加入绒毛的方法如图6所示，包括以下步骤：

步骤S5082，获取顶点与法向量。

如图7所示，圆点表示顶点，带箭头的直线表示法向量。

步骤S5084，沿着法向量生成面片。

如图8所示，长方形表示所生成的面片。

步骤S5086，对面片进行光照建模。

对面片进行光照建模，保证当镜头推进时有过渡，只有边缘处有渲染出的绒毛。具体地，建模公式如下：

其中，f_{opacitycamera}表示基于摄像机透明，opacity表示透明度，Distance表示相机距离物体的距离，fov表示相机视野夹角，offset表示偏移距离，pixlDepth表示像素深度，Edge表示数量，w0表示视方向，N表示法向量，f_opacity表示菲尼尔方程，f_Fresnel表示上相机透明方程。

本实施例通过添加绒毛，实现了对衣物的真实渲染。添加绒毛可以增加衣物的真实感和立体感，使渲染出的图像更加逼真。这可以提高用户对产品的满意度。此外，还考虑了光照和视角的影响。本实施例对面片进行光照建模，可以保证只有边缘处有渲染出的绒毛，从而增加渲染效果的真实性。同时，通过视角的变化来决定添加绒毛的数量，可以让绒毛看起来更加自然。最后，还能够优化绒毛的形状和数量。通过基于离物体距离、相机位置、以及偏移距离来确定需要去除的绒毛的数量，可以避免过多的绒毛对渲染效果的干扰。同时，通过基于视方向和法向量来确定衣物的边缘，只保留边缘部分的绒毛，可以增加绒毛的形状和数量的准确性。

实施例3

本申请实施例提供了一种数据同步装置，如图9所示，包括：语音生成模块92、唇形生成模块94和同步模块96。

语音生成模块92被配置为响应于接收到用户问询，生成待虚拟数字人语音播报的语音数据；唇形生成模块94被配置为对所述语音数据进行处理，从处理后的所述语音数据中提取频谱特征，并使用生成器网络来生成与所述频谱特征对应的唇形序列；同步模块96被配置为利用动态时间规整方法，来同步所述唇形序列和所述语音数据。

需要说明的是：上述实施例提供的数据同步装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的数据同步装置与数据同步方法实施例属于同一构思，其具体实现过程详见方法实施例，此处赘述。

实施例4

图10示出了适于用来实现本公开实施例的电子设备的结构示意图。需要说明的是，图10示出的电子设备仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示，该电子设备包括中央处理单元(CPU)1001，其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中，还存储有系统操作所需的各种程序和数据。CPU1001、ROM1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时，执行本申请的方法和装置中限定的各种功能。在一些实施例中，电子设备还可以包括AI( ArtificialIntelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现上述方法实施例的各个步骤等。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的终端设备，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种数据同步方法，其特征在于，包括：

响应于接收到用户问询，生成待虚拟数字人语音播报的语音数据；

对所述语音数据进行处理，从处理后的所述语音数据中提取频谱特征，并使用生成器网络来生成与所述频谱特征对应的唇形序列；

利用动态时间规整方法，来同步所述唇形序列和所述语音数据。

2.根据权利要求1所述的方法，其特征在于，对所述语音数据进行处理包括：

对所述语音数据进行分帧处理，对分帧处理得到的每一帧语音数据进行加窗处理；

将加窗处理后的所述每一帧语音数据通过快速傅里叶变换转换为频域信号，以得到所述处理后的语音数据。

3.根据权利要求2所述的方法，其特征在于，从处理后的所述语音数据中提取频谱特征，包括：

将所述处理后的语音数据按照频率划分为多个频带，并使用三角滤波器对所述多个频带中每个频带内的能量进行加权；

基于加权后的能量值，得到所述频谱特征。

4.根据权利要求3所述的方法，其特征在于，基于加权后的能量值，得到所述频谱特征：包括：

通过取对数对所述加权后的能量值进行压缩，得到压缩后的能量值；

通过离散余弦变换对所述压缩后的能量值进行正交变换，得到一组不同频率的特征，作为所述频谱特征。

5.根据权利要求2所述的方法，其特征在于，利用动态时间规整方法，来同步所述唇形序列和所述语音数据，包括：

计算所述唇形序列中的每个唇形和所述每一帧语音数据之间的距离，并将所计算出的距离保存在距离矩阵中；

利用动态时间规整方法计算所述距离矩阵中的最小路径，并基于所述最小路径来对齐所述唇形序列和所述每一帧语音数据，其中，所述最小路径是从所述距离矩阵的左上角到右下角的所有路径中距离总和最小的路径。

6.根据权利要求1所述的方法，其特征在于，在使用生成器网络来生成与所述频谱特征对应的唇形序列之前，所述方法还包括：

将训练集中的语音频谱特征输入到所述生成器网络中，并利用通过均方误差构建的损失函数来度量所述生成器网络生成的唇形序列与实际唇形序列的差异；

基于所度量的差异，使用反向传播算法来更新所述生成器网络的权重和偏置，以训练所述生成器网络。

7.根据权利要求6所述的方法，其特征在于，基于所度量的差异，使用反向传播算法来更新所述生成器网络的权重和偏置，包括循环执行以下步骤直到所述损失函数最小化：

利用所述反向传播算法，从所述损失函数的输出开始，逐层计算所述生成器网络中每个神经元对所述损失函数的贡献，并将所计算出的贡献累加到所述每个神经元的偏置和权重的梯度上；

利用所述梯度，更新所述生成器网络中所述每个神经元的偏置和权重。

8.根据权利要求1所述的方法，其特征在于，响应于接收到用户问询，生成待虚拟数字人语音播报的语音数据，包括：

响应于接收到用户问询，生成待虚拟数字人语音播报的文本内容，并对所述文本内容进行分割，得到多个文本片段；

针对所述多个文本片段中的每个文本片段，基于所述每个文本片段中的文字，来生成所述每个文本片段的语音数据。

9.一种数据同步装置，其特征在于，包括：

语音生成模块，被配置为响应于接收到用户问询，生成待虚拟数字人语音播报的语音数据；

唇形生成模块，被配置为对所述语音数据进行处理，从处理后的所述语音数据中提取频谱特征，并使用生成器网络来生成与所述频谱特征对应的唇形序列；

同步模块，被配置为利用动态时间规整方法，来同步所述唇形序列和所述语音数据。

10.一种计算机可读存储介质，其上存储有程序，其特征在于，在所述程序运行时，使得计算机执行如权利要求1至8中任一项所述的方法。