CN111930900A

CN111930900A - 标准发音生成方法及相关装置

Info

Publication number: CN111930900A
Application number: CN202011039390.5A
Authority: CN
Inventors: 汪光璟; 杨嵩; 李成飞
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2020-11-13
Anticipated expiration: 2040-09-28
Also published as: CN111930900B

Abstract

本发明实施例提供了一种标准发音生成方法及相关装置，标准发音生成方法包括：获取标准文本和所述标准文本对应的用户音频；根据所述标准文本获取各个标准文本特征向量，根据所述用户音频获取各个用户音频帧特征向量，并根据各个所述用户音频帧特征向量和预定的各个基准身份特征向量获取所述用户的各个用户声学特征向量；将相互对应的所述用户声学特征向量和所述标准文本特征向量进行融合，得到各个融合特征向量；根据各个融合特征向量获取对应所述标准文本的标准发音。本发明实施例所提供的标准发音生成方法及相关装置，可以生成具有准确用户特征的标准发音，以提高用户语言学习的效率。

Description

标准发音生成方法及相关装置

技术领域

本发明实施例涉及计算机领域，尤其涉及一种标准发音生成方法及相关装置。

背景技术

随着计算机技术和互联网技术的发展，用户可以利用语言教学系统进行语言的学习和发音矫正。

首先用户根据给定的文本进行发音，然后语言教学系统对用户的发音进行识别和评估，输出评估结果，同时还会给出一段对应给定文本的标准发音音频，用户可以根据标准发音音频进行跟读，以纠正自己的发音。

然而，通过上述方式进行语言学习时，语言教学系统中的标准发音大多是采用人工录制或者借助语言合成模型生成的方式获取，对于人工录制的方式，由于语言学习文本丰富多样且数量巨大，人工录制的成本非常高，而且随着教学内容的更新，需要重新录制标准发音，时间成本也高；对于语音合成的方式，现有的语言合成模型，只能合成固定说话人音色的标准音频，无法根据当前用户进行改变，而由于每个人的发音特点、音调以及音域的不同，用户基于标准发音的模仿效果不好，在一定程度上影响了学习效率和学习体验。

为此，如何生成具有准确用户特征的标准发音，以提高用户语言学习的效率就成为亟需解决的技术问题。

发明内容

本发明实施例提供一种标准发音生成方法及相关装置，可以生成具有准确用户特征的标准发音，以提高用户语言学习的效率。

为解决上述问题，本发明实施例提供一种标准发音生成方法，包括：

获取标准文本和所述标准文本对应的用户音频；

根据所述标准文本获取各个标准文本特征向量，根据所述用户音频获取各个用户音频帧特征向量，并根据各个所述用户音频帧特征向量和预定的各个基准身份特征向量获取所述用户的各个用户声学特征向量；

将相互对应的所述用户声学特征向量和所述标准文本特征向量进行融合，得到各个融合特征向量；

根据各个融合特征向量获取对应所述标准文本的标准发音。

为解决上述问题，本发明实施例提供一种标准发音生成装置，包括：

标准文本和用户音频获取单元，适于获取标准文本和所述标准文本对应的用户音频；

特征向量获取单元，适于根据所述标准文本获取各个标准文本特征向量，根据所述用户音频获取各个用户音频帧特征向量，并根据各个所述用户音频帧特征向量和预定的各个基准身份特征向量获取所述用户的各个用户声学特征向量；

融合特征向量获取单元，适于将相互对应的所述用户声学特征向量和所述标准文本特征向量进行融合，得到各个融合特征向量；

标准发音获取单元，根据各个融合特征向量获取对应所述标准文本的标准发音。

为解决上述问题，本发明实施例提供一种存储介质，所述存储介质存储有适于标准发音生成的程序，以实现如前述任一项所述的标准发音生成方法。

为解决上述问题，本发明实施例提供一种设备，包括至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述程序，以执行如前述任一项所述的标准发音生成方法。

与现有技术相比，本发明的技术方案具有以下优点：

本发明实施例所提供的标准发音生成方法及相关装置，其中，标准发音生成方法，包括根据所述标准文本获取各个标准文本特征向量，根据与标准文本对应的用户音频获取各个用户音频帧特征向量，并根据各个所述用户音频帧特征向量和预定的各个基准身份特征向量获取所述用户的各个用户声学特征向量，通过将相互对应的所述用户声学特征向量和所述标准文本特征向量进行融合，得到各个融合特征向量，再根据各个融合特征向量获取对应所述标准文本的标准发音。可以看出，标准发音的获取过程，是基于融合了用户声学特征向量和标准文本特征向量的各个融合特征向量，一方面，用户声学特征向量通过用户音频帧特征向量和预定的各个基准身份特征向量获取，使得用户声学特征向量中不仅包含了用户音频的声学特征，且通过了预定的基准身份特征向量突出了用户的声学特征，可以尽可能地避免用户音频获取时，环境、设备等音素造成的影响，使得所获取的用户声学特征向量更准确地表达用户的声学特点，另一方面，标准文本特征向量能够准确定地表示标准文本，从而可以使得融合特征向量中即包括了标准文本特征也包括了具有较高准确性的用户声学特征，从而可以得到更为准确地具有用户声学特征的标准发音。这样，本发明实施例所提供的标准发音生成方法，能够生成具有用户声学特点的个性化的标准发音，从而用户在进行语言学习时，能够更好地进行模仿，提高学习效率，并保证学习体验。

可选方案中，本发明实施例所提供的标准发音生成方法，在获取各个用户声学特征向量时，首先确定各个所述用户音频帧特征向量中的当前用户音频帧特征向量；然后，获取所述当前用户音频帧特征向量与预定的各个基准身份特征向量的各个关联度；再根据各个所述关联度和与所述关联度对应的所述基准身份特征向量，获取所述当前用户音频帧特征向量的用户声学特征向量，直至得到所述用户音频的全部音频帧的用户声学特征向量。这样，通过确定当前用户音频帧特征向量与各个基准身份特征向量的关联度，可以得到与用户声学特征向量更接近的基准身份特征向量，同时基于关联度和与其对应的基准身份特征向量获取用户声学特征向量，不仅可以保证利用基准身份特征向量实现用户声学特征的表示，避免直接使用受到环境和设备等音素影响的用户音频获取的用户音频帧特征向量中噪音信息的影响，提高用户声学特征向量所表示的用户声学特征的准确性，而且通过此方式获取用户声学特征向量的计算方式简单，运算量小，准确度高。

可选方案中，本发明实施例所提供的标准发音生成方法，还包括通过语音识别，获取所述用户音频对应的识别文本；获取所述识别文本和所述基准文本的相似度，当所述相似度小于预定的相似度阈值时，执行所述相互对应的所述用户声学特征向量和所述标准文本特征进行融合，得到各个融合特征向量的步骤。可以看出，本发明实施例所提供的标准发音生成方法，在进行融合特征向量获取之前，通过语音识别，得到用户音频的识别文本，并将其与标准文本比较，确定二者的相似度，只有当相似度小于相似度阈值时，才进行融合特征向量获取和标准音频的获取，从而可以减少标准音频的生成，减少运算量，降低对设备的要求。

附图说明

图1是本发明实施例所提供的标准发音生成方法的一流程示意图；

图2为本发明实施例所提供的标准发音生成方法的获取用户声学特征向量步骤的一流程示意图；

图3为本发明实施例所提供的标准发音生成方法的另一流程示意图；

图4为本发明实施例所提供的标准发音生成装置的一框图；

图5为本发明实施例所提供的标准发音生成装置的另一框图；

图6是本发明实施例提供的设备一种可选硬件设备架构。

具体实施方式

现有技术中，难以生成具有用户特征的标准发音，影响了用户的学习效率和学习体验。

为了生成具有用户特征的标准发音，以提高用户语言学习的效率，本发明实施例提供了一种标准发音生成方法，包括：

获取标准文本和所述标准文本对应的用户音频；

根据各个融合特征向量获取对应所述标准文本的标准发音。

从而，本发明实施例所提供的标准发音生成方法，标准发音的获取，是基于融合了用户声学特征向量和标准文本特征向量的各个融合特征向量，一方面，用户声学特征向量通过用户音频帧特征向量和预定的各个基准身份特征向量获取，使得用户声学特征向量中不仅包含了用户音频的声学特征，且通过了预定的基准身份特征向量突出了用户的声学特征，可以尽可能地避免用户音频获取时，环境、设备等音素造成的影响，使得所获取的用户声学特征向量更准确地表达用户的声学特点，另一方面，标准文本特征向量能够准确定地表示标准文本，从而可以使得融合特征向量中即包括了标准文本特征也包括了具有较高准确性的用户声学特征，从而可以得到更为准确地具有用户声学特征的标准发音。

这样，本发明实施例所提供的标准发音生成方法，能够生成具有用户声学特点的个性化的标准发音，从而用户在进行语言学习时，能够更好地进行模仿，提高学习效率，并保证学习体验。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1是本发明实施例所提供的标准发音生成方法的一流程示意图。

如图中所示，本发明实施例所提供的标准发音生成方法，包括以下步骤：

步骤S10：获取标准文本和所述标准文本对应的用户音频。

为了生成标准发音，首先获取标准文本和标准文本对应的用户音频，为后续标准发音的生成提供基本信息。

容易理解的是，标准文本是指在语言学习时，用户所看到的文本，可以为后续获取标准发音提供准确的文本信息；用户音频是指用户基于标准文本利用所学习的语言进行发音，通过具有录音功能的设备获取到的音频，可以为后续获取标准发音提供用户的声学特征信息。

步骤S11：根据所述标准文本获取各个标准文本特征向量，根据所述用户音频获取各个用户音频帧特征向量，并根据各个所述用户音频帧特征向量和预定的各个基准身份特征向量获取所述用户的各个用户声学特征向量。

当然，标准文本特征向量与用户音频帧特征向量的获取顺序不做限制，标准文本特征向量与用户声学特征向量的获取顺序也不做限制。

基于标准文本，获取各个标准文本特征向量，可以理解的是，各个标准文本特征向量组成标准文本特征向量序列，是基于标准文本的文本排列顺序依次生成的，可以与基于用户音频获取的各个用户音频帧特征向量在排列上相互对应。

当然，标准文本特征向量可以利用现有的模型进行获取，比如编码器模块获取。编码器的结构成熟，可以保证标准文本特征向量获取的准确性。

在一种具体实施方式中，编码器包含一个字符嵌入层，一个3层卷积和一个双向LSTM层。比如：利用编码器的字符嵌入层，将输入的标准文本编码成512维的字符向量，然后依次输入至3个卷积层，每层卷积包含512个5*1的卷积核，卷积层后接批归一化，使用ReLu（Rectified Linear Unit，线性整流函数）进行激活，最后一个卷积层的输出被依次输入至一个双向的LSTM层以生成编码特征，即依次生成各个标准文本特征向量，具体地，双向的LSTM层可以包含512个单元（每个方向256个单元）。

根据用户音频，获取各个用户音频帧特征向量，各个用户音频帧特征向量分别与用户音频帧对应，得到基于用户音频帧的时间顺序排列的各个用户音频帧特征向量。

当然，在基于用户音频获取用户音频帧特征向量时，用户音频帧特征向量也可以利用现有的模型进行获取，比如可以先进行声学特征MFCC（梅尔频率倒谱系数）提取，然后进一步用编码器模块获取，同样可以保证标准文本特征向量获取的准确性。

由于用户音频是用户在进行语言学习时获取的，因此用户音频的质量，一方面会受到用户录制音频时的环境、所使用的设备的影响，另一方面还可能会受到用户发音时的情感、生理状态等的影响，因此如果基于用户音频直接获取用户的声学特征信息，可能会存在较大的误差。

为了保证所得到的标准发音具有较为准确的用户特征，本发明实施例所提供的标注发音生成方法，还需要根据各个用户音频帧特征向量和预定的各个基准身份特征向量获取用户的各个用户声学特征向量。

当然，由于用户音频声学特征向量的获取为基于音频帧的顺序不断得到的，可以在得到一个用户音频声学特征向量后，就获取该用户音频声学特征向量对应的用户声学特征向量，得到下一时刻的用户音频声学特征向量后，就获取下一时刻的用户音频声学特征向量对应的用户声学特征向量；也可以在得到用户音频声学特征向量后，再开始用户声学特征向量的获取。

需要说明的是，基准身份特征向量是指基于基准用户的音频得到的音频帧声学特征向量，是用来描述基准用户的发音特征，包括音高、音色等特征，能够准确描述基准用户发音特征，并且对不同的基准用户具有一定区分度，并且音频是具有较高质量的，即在采集环境相对安静、噪声干扰少，设备的接收效果好的情况下获得的音频。

进一步地，为了提高所得到的基准身份特征向量与用户的匹配性，还可以根据本发明实施例所提供的标准发音生成方法的目标用户，确定基准用户。

当然，基准身份特征向量是在标准发音生成前，提前获取的，在生成标准发音时，仅需要直接到相应的位置提取即可。

容易理解的是，基准身份特征向量的数量越大，所得到的用户声学特征向量的性能也会越好，当相应的运算量也会越大。

得到各个用户音频帧特征向量和预定的各个基准身份特征向量后，进一步基于二者获取用户声学特征向量。

请参考图2，图2为本发明实施例所提供的标准发音生成方法的获取用户声学特征向量步骤的一流程示意图。

如图2所示，在一种具体实施方式中，所述根据各个所述用户音频帧特征向量和预定的各个基准身份特征向量获取所述用户的各个用户声学特征向量的步骤可以包括：

步骤S110：获取各个所述用户音频帧特征向量与预定的各个基准身份特征向量的各个关联度。

为了得到各个用户声学特征向量，首先获取用户音频帧特征向量与基准身份特征向量的关联度，为基于基准身份特征向量获取用户声学特征向量做好准备。

当然，在一实施例中，由于用户音频帧特征向量是按照音频帧的时间顺序逐渐产生，因此，在获取关联度时，可以按照用户音频帧特征向量获得的顺序，依次计算当下时刻得到的用户音频帧特征向量与预定的各个基准身份特征向量的关联度；在另一实施例中，还可以在获取完用户音频的全部用户音频帧特征向量后，再进行关联度的获取。

由于用户音频帧特征向量和基准身份特征向量的维数可能不同，而为了实现关联度的获取，需要二者的维数相同，为此，可以通过以下步骤实现关联度的获取：

首先，对各个用户音频帧特征向量和各个基准身份特征向量进行向量维数转换，得到向量维数相同的各个维数转换音频特征向量和各个维数转换身份特征向量；然后再计算所述当前维数转换音频特征向量和各个维数转换身份特征向量的关联度，得到各个所述用户音频帧特征向量与预定的各个基准身份特征向量的各个关联度。

当然，各个维数转换音频特征向量的获取可以随着用户音频帧特征向量的获取不断进行，也可以再得到全部用户音频帧特征向量后统一获取。

具体地，维数转换音频特征向量通过以下公式获取：

其中：

--t时刻的维数转换音频特征向量；

--t时刻的用户音频帧特征向量；

--第一维数转换矩阵。

这样，利用第一维数转换矩阵，可以很方便地实现用户音频帧特征向量的维数转换。

而维数转换身份特征向量，则可以通过以下公式获取：

其中：

--第n个维数转换身份特征向量；

--第n个基准身份特征向量；

--第二维数转换矩阵。

利用第二维数转换矩阵，可以很方便地实现用户音频帧特征向量的维数转换。

第一维数转换矩阵和第二维数转换矩阵可以通过模型训练提前获取。

当然，经过维数转换后，各个维数转换音频特征向量和各个维数转换身份特征向量的维数相同，可以方便地进行关联度的计算。

在一种具体实施方式中，所述关联度可以通过以下公式获取：

其中：

--t时刻的用户音频帧特征向量与第n个基准身份特征向量的关联度；

--t时刻的维数转换音频特征向量；

--第n个维数转换身份特征向量；

--调整系数。

而利用调整系数，则可以使得到的关联度能够在一个较大的范围内，避免全部的关联度落入过小的区域，使得得到的关联度的差别不明显。

步骤S111：根据对应于同一个用户音频帧特征向量的各个所述关联度和与所述关联度对应的所述基准身份特征向量，获取所述用户音频帧特征向量的用户声学特征向量，得到每个所述用户音频帧特征向量的用户声学特征向量。

得到关联度后，进一步获取各个用户声学特征向量，在一种具体实施方式中，可以在得到当前时刻的一个用户音频帧特征向量的各个关联度后，就获取当前时刻的用户音频帧特征向量的用户声学特征向量，随着时间的推移，得到每个用户音频帧特征向量的用户声学特征向量；在其他实施例中，还可以在得到全部用户音频帧特征向量的各个关联度后，获取各个用户音频帧特征向量的用户声学特征向量。

具体地，可以利用加权求和的方式获取用户声学特征向量，即用户声学特征向量通过以下公式获取：

其中：

--t时刻的用户声学特征向量；

-- t时刻的用户音频帧特征向量与第n个基准身份特征向量的关联度；

--第n个基准身份特征向量；

N--基准身份特征向量的个数。

时刻t不断变换，从而可以获取到每个用户音频帧特征向量对应的用户声学特征向量，上述计算方式简单，且得到的用户声学特征能够准确地涵盖用户的声学信息。

这样，通过确定当前用户音频帧特征向量与各个基准身份特征向量的关联度，可以得到与用户声学特征向量更接近的基准身份特征向量，同时基于关联度和与其对应的基准身份特征向量获取用户声学特征向量，不仅可以保证利用基准身份特征向量实现用户声学特征的表示，避免直接使用受到环境和设备等音素影响的用户音频获取的用户音频帧特征向量中噪音信息的影响，提高用户声学特征向量所表示的用户声学特征的准确性，而且通过此方式获取用户声学特征向量的计算方式简单，运算量小，准确度高。

步骤S12：将相互对应的所述用户声学特征向量和所述标准文本特征向量进行融合，得到各个融合特征向量。

得到用户声学特征向量和标准文本特征向量后，进一步将二者融合，为后续基于融合特征向量获取标准音频提供基础。

如前所述，各个标准文本特征向量构成了标准文本特征向量序列，随着时间的推移不断生成，而各个用户声学特征向量也构成了用户声学特征向量，因此，融合特征向量的获取既可以得到一组相互对应的用户声学特征向量和标准文本特征向量就进行一个融合特征向量的获取，也可以在得到标准文本对应的全部标准文本特征向量，以及用户音频的全部用户声学特征向量后，进行向量融合，的搭配各个融合特征向量。

具体地，用户声学特征向量和标准文本特征向量的融合方式可以通过二者的向量拼接实现。

步骤S13：根据各个融合特征向量获取对应所述标准文本的标准发音。

得到融合特征向量，通过对融合特征向量的进一步处理，获取具有用户声学特点的标准发音。

如前所述，标准发音的获取既可以随着每个融合特征向量的获取而获取逐渐得到不同标准发音的音频帧，进而得到标准音频，也可以在全部融合特征向量获取后，再获取对应标准文本的标准发音。

在一具体实施例中，可以通过以下步骤获取标准发音：

首先对各个所述融合特征向量进行解码，得到对应所述标准文本的梅尔频谱；然后，根据所述梅尔频谱获取所述标准文本的标准发音。

获取梅尔频谱可以利用具有自回归循环神经网络结构的解码器进行，根据输入的各个融合特征向量输出梅尔频谱，一次预测一帧。比如：上一个时间步预测出的梅尔频谱首先被传入一个pre-net，它每层由256个隐藏ReLU单元组成的双层全连接层，pre-net的输出和注意力上下文向量拼接在一起，传给一个两层堆叠的由1024个单元组成的单向LSTM，LSTM的输出再次和注意力上下文向量拼接在一起，然后经过预测得到目标梅尔频谱帧，最后，梅尔频谱帧经过一个5层卷积的“post-net”来预测一个残差叠加到卷积前的频谱帧上，用以改善频谱重构的整个过程。

根据所述梅尔频谱获取所述标准文本的标准发音，可以利用声码器实现，具体地，声码器可以为WaveRNN模型，根据解码器的输出，获取具有当前用户声音特征的标准发音。

可以看出，标准发音的获取过程，是基于融合了用户声学特征向量和标准文本特征向量的各个融合特征向量，一方面，用户声学特征向量通过用户音频帧特征向量和预定的各个基准身份特征向量获取，使得用户声学特征向量中不仅包含了用户音频的声学特征，且通过了预定的基准身份特征向量突出了用户的声学特征，可以尽可能地避免用户音频获取时，环境、设备等音素造成的影响，使得所获取的用户声学特征向量更准确地表达用户的声学特点，另一方面，标准文本特征向量能够准确定地表示标准文本，从而可以使得融合特征向量中即包括了标准文本特征也包括了具有较高准确性的用户声学特征，从而可以得到更为准确地具有用户声学特征的标准发音。

为了减少标准音频生成的运算量，在必要的时候生成标准音频，本发明实施例还提供一种标准发音生成方法，请参考图3，图3为本发明实施例所提供的一种标准发音生成方法的流程示意图。

如图中所示，本发明实施例所提供的标准发音生成方法包括：

步骤S20：获取标准文本和所述标准文本对应的用户音频。

步骤S20的具体内容请参考图1所示的步骤S10，在此不再赘述。

步骤S21：根据所述标准文本获取各个标准文本特征向量，根据所述用户音频获取各个用户音频帧特征向量，并根据各个所述用户音频帧特征向量和预定的各个基准身份特征向量获取所述用户的各个用户声学特征向量。

步骤S21的具体内容请参考图1所示的步骤S11，在此不再赘述。

步骤S22：至少根据各个所述用户音频帧特征向量，获取所述用户音频对应的识别文本。

在进一步获取标准文本之前，至少根据已经得到的用户音频帧特征向量，获取与其对应的识别文本，从而为确定是否需要进行标准音频的获取做好基础。

具体地，可以利用语音识别模型的解码器，对用户音频帧特征向量进行解码，以获取识别文本。

当然，为了提高语音识别的准确性，在一种具体实施方式中，识别文本可以通过以下步骤获取：

将相互对应的所述用户音频帧特征向量和所述用户声学特征向量进行融合，得到各个融合向量；

根据各个所述融合向量获取所述识别文本。

通过将用户音频帧特征向量与用户声学特征向量的融合，可以在进行语音识别时，同时结合用户声学特征向量中的信息，提高语音识别的准确性。

步骤S23：获取所述识别文本和所述基准文本的相似度。

经过语音识别，得到识别文本后，将识别文本与基准文本进行比较，确定二者之间的相似程度，容易理解的是，相同的文本越多则相似程度越高。

在一种具体实施方式中，可以将相似文本的数量与基准文本的数量的比值，作为二者的相似度。

步骤S24：判断相似度是否小于预定的相似度阈值，若是，执行步骤S25，若否，执行步骤S27。

将得到的识别文本与基准文本的相似度与预定的相似度阈值进行比较，如果所得到的相似度小于预定的相似度阈值，那么说明，用户音频对标准文本的表达不准确，需要进一步对用户的发音进行纠正，从而执行步骤S25，以获取具有用户声学特点的标准发音；否则，则说明，用户音频对标准文本的表达满足准确性的要求，可以不用对用户的发音进行纠正，则只需执行步骤S27。

步骤S25：将相互对应的所述用户声学特征向量和所述标准文本特征向量进行融合，得到各个融合特征向量。

步骤S25的具体内容请参考图1所示的步骤S12，在此不再赘述。

步骤S26：根据各个融合特征向量获取对应所述标准文本的标准发音。

步骤S26的具体内容请参考图1所示的步骤S13，在此不再赘述。

步骤S27：停止。

可以看出，本发明实施例所提供的标准发音生成方法，在进行融合特征向量获取之前，通过语音识别，得到用户音频的识别文本，并将其与标准文本比较，确定二者的相似度，只有当相似度小于相似度阈值时，才进行融合特征向量获取和标准音频的获取，从而可以减少标准音频的生成，减少运算量，降低对设备的要求。

下面对本发明实施例提供的标准发音生成装置进行介绍，下文描述的标准发音生成装置可以认为是，电子设备（如：PC）为分别实现本发明实施例提供的标准发音生成方法所需设置的功能模块架构。下文描述的标准发音生成装置的内容，可分别与上文描述的标准发音生成方法的内容相互对应参照。

图4为本发明实施例所提供的标准发音生成装置的一框图，该标准发音生成装置即可应用于客户端，也可应用于服务器端，参考图4，该标准发音生成装置可以包括：

标准文本和用户音频获取单元100，适于获取标准文本和所述标准文本对应的用户音频；

特征向量获取单元110，适于根据所述标准文本获取各个标准文本特征向量，根据所述用户音频获取各个用户音频帧特征向量，并根据各个所述用户音频帧特征向量和预定的各个基准身份特征向量获取所述用户的各个用户声学特征向量；

融合特征向量获取单元120，适于将相互对应的所述用户声学特征向量和所述标准文本特征向量进行融合，得到各个融合特征向量；

标准发音获取单元130，根据各个融合特征向量获取对应所述标准文本的标准发音。

为了生成标准发音，标准文本和用户音频获取单元100首先获取标准文本和标准文本对应的用户音频，为后续标准发音的生成提供基本信息。

然后，特征向量获取单元110基于标准文本，获取各个标准文本特征向量，可以理解的是，各个标准文本特征向量组成标准文本特征向量序列，是基于标准文本的文本排列顺序依次生成的，可以与基于用户音频获取的各个用户音频帧特征向量在排列上相互对应。

特征向量获取单元110还根据用户音频，获取各个用户音频帧特征向量，各个用户音频帧特征向量分别与用户音频帧对应，得到基于用户音频帧的时间顺序排列的各个用户音频帧特征向量。

为了保证所得到的标准发音具有较为准确的用户特征，本特征向量获取单元110还需要根据各个用户音频帧特征向量和预定的各个基准身份特征向量获取用户的各个用户声学特征向量。

特征向量获取单元110，适于根据各个所述用户音频帧特征向量和预定的各个基准身份特征向量获取所述用户的各个用户声学特征向量可以包括：

获取各个所述用户音频帧特征向量与预定的各个基准身份特征向量的各个关联度；

根据对应于同一个用户音频帧特征向量的各个所述关联度和与所述关联度对应的所述基准身份特征向量，获取所述用户音频帧特征向量的用户声学特征向量，得到每个所述用户音频帧特征向量的用户声学特征向量。

为了得到各个用户声学特征向量，特征向量获取单元110首先获取用户音频帧特征向量与基准身份特征向量的关联度，为基于基准身份特征向量获取用户声学特征向量做好准备。

具体地，维数转换音频特征向量通过以下公式获取：

其中：

--t时刻的维数转换音频特征向量；

--t时刻的用户音频帧特征向量；

--第一维数转换矩阵。

而维数转换身份特征向量，则可以通过以下公式获取：

其中：

--第n个维数转换身份特征向量；

--第n个基准身份特征向量；

--第二维数转换矩阵。

其中：

--t时刻的维数转换音频特征向量；

--第n个维数转换身份特征向量；

--调整系数。

得到关联度后，特征向量获取单元110进一步获取各个用户声学特征向量，在一种具体实施方式中，可以在得到当前时刻的一个用户音频帧特征向量的各个关联度后，就获取当前时刻的用户音频帧特征向量的用户声学特征向量，随着时间的推移，得到每个用户音频帧特征向量的用户声学特征向量；在其他实施例中，还可以在得到全部用户音频帧特征向量的各个关联度后，获取各个用户音频帧特征向量的用户声学特征向量。

其中：

--t时刻的用户声学特征向量；

--第n个基准身份特征向量；

N--基准身份特征向量的个数。

得到用户声学特征向量和标准文本特征向量后，融合特征向量获取单元120，进一步将二者融合，为后续基于融合特征向量获取标准音频提供基础。

得到融合特征向量，标准发音获取单元130通过对融合特征向量的进一步处理，获取具有用户声学特点的标准发音。

在一具体实施例中，标准发音获取单元130，适于根据各个融合特征向量获取对应所述标准文本的标准发音，包括：

对各个所述融合特征向量进行解码，得到对应所述标准文本的梅尔频谱；根据所述梅尔频谱获取所述标准文本的标准发音。

这样，本发明实施例所提供的标准发音生成装置，能够生成具有用户声学特点的个性化的标准发音，从而用户在进行语言学习时，能够更好地进行模仿，提高学习效率，并保证学习体验。

为了减少标准音频生成的运算量，在必要的时候生成标准音频，本发明实施例还提供一种标准发音生成装置，请参考图5，图5为本发明实施例所提供的标准发音生成装置的另一框图。

如图中所示，本发明实施例所提供的标准发音生成装置还包括：

识别文本获取单元140，适于至少根据各个所述用户音频帧特征向量，获取所述用户音频对应的识别文本；

相似度获取及比较单元150，适于获取所述识别文本和所述基准文本的相似度，并判断相似度是否小于预定的相似度阈值。

在进一步获取标准文本之前，识别文本获取单元140至少根据已经得到的用户音频帧特征向量，获取与其对应的识别文本，从而为确定是否需要进行标准音频的获取做好基础。

当然，为了提高语音识别的准确性，在一种具体实施方式中，识别文本获取单元140，适于至少根据各个所述用户音频帧特征向量，获取所述用户音频对应的识别文本可以包括：

根据各个所述融合向量获取所述识别文本。

经过语音识别，得到识别文本后，相似度获取及比较单元150，将识别文本与基准文本进行比较，确定二者之间的相似程度，容易理解的是，相同的文本越多则相似程度越高。

可以看出，本发明实施例所提供的标准发音生成装置，在进行融合特征向量获取之前，通过语音识别，得到用户音频的识别文本，并将其与标准文本比较，确定二者的相似度，只有当相似度小于相似度阈值时，才进行融合特征向量获取和标准音频的获取，从而可以减少标准音频的生成，减少运算量，降低对设备的要求。

当然，本发明实施例还提供一种设备，本发明实施例提供的设备可以通过程序形式装载上述所述的程序模块架构，以实现本发明实施例提供的标准发音生成方法；该硬件设备可以应用于具体数据处理能力的电子设备，该电子设备可以为：例如终端设备或者服务器设备。

可选的，图6示出了本发明实施例提供的设备一种可选硬件设备架构，可以包括：至少一个存储器3和至少一个处理器1；所述存储器存储有程序，所述处理器调用所述程序，以执行前述的标准发音生成方法，另外，至少一个通信接口2和至少一个通信总线4；处理器1和存储器3可以位于同一电子设备，例如处理器1和存储器3可以位于服务器设备或者终端设备；处理器1和存储器3也可以位于不同的电子设备。

作为本发明实施例公开内容的一种可选实现，存储器3可以存储程序，处理器1可调用所述程序，以执行本发明上述实施例提供的标准发音生成方法。

本发明实施例中，电子设备可以是能够进行标准发音生成的平板电脑、笔记本电脑等设备。

在本发明实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；显然，图6所示的处理器1、通信接口2、存储器3和通信总线4的通信连接示意仅是可选的一种方式；

可选的，通信接口2可以为通信模块的接口，如GSM模块的接口；

处理器1可能是中央处理器CPU，或者是特定集成电路ASIC（Application SpecificIntegrated Circuit），或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatilememory），例如至少一个磁盘存储器。

需要说明的是，上述的设备还可以包括与本发明实施例公开内容可能并不是必需的其他器件（未示出）；鉴于这些其他器件对于理解本发明实施例公开内容可能并不是必需，本发明实施例对此不进行逐一介绍。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，当该指令被处理器执行时可以实现如上所述标准发音生成方法。

本发明实施例所提供的存储介质所存储的计算机可执行指令，在进行标准发音的获取过程，基于融合了用户声学特征向量和标准文本特征向量的各个融合特征向量，一方面，用户声学特征向量通过用户音频帧特征向量和预定的各个基准身份特征向量获取，使得用户声学特征向量中不仅包含了用户音频的声学特征，且通过了预定的基准身份特征向量突出了用户的声学特征，可以尽可能地避免用户音频获取时，环境、设备等音素造成的影响，使得所获取的用户声学特征向量更准确地表达用户的声学特点，另一方面，标准文本特征向量能够准确定地表示标准文本，从而可以使得融合特征向量中即包括了标准文本特征也包括了具有较高准确性的用户声学特征，从而可以得到更为准确地具有用户声学特征的标准发音，这样，用户在进行语言学习时，能够更好地进行模仿，提高学习效率，并保证学习体验。

上述本发明的实施方式是本发明的元件和特征的组合。除非另外提及，否则所述元件或特征可被视为选择性的。各个元件或特征可在不与其它元件或特征组合的情况下实践。另外，本发明的实施方式可通过组合部分元件和/或特征来构造。本发明的实施方式中所描述的操作顺序可重新排列。任一实施方式的一些构造可被包括在另一实施方式中，并且可用另一实施方式的对应构造代替。对于本领域技术人员而言明显的是，所附权利要求中彼此没有明确引用关系的权利要求可组合成本发明的实施方式，或者可在提交本申请之后的修改中作为新的权利要求包括。

本发明的实施方式可通过例如硬件、固件、软件或其组合的各种手段来实现。在硬件配置方式中，根据本发明示例性实施方式的方法可通过一个或更多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器等来实现。

在固件或软件配置方式中，本发明的实施方式可以模块、过程、功能等形式实现。软件代码可存储在存储器单元中并由处理器执行。存储器单元位于处理器的内部或外部，并可经由各种己知手段向处理器发送数据以及从处理器接收数据。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是符合与本文所公开的原理和新颖特点相一致的最宽的范围。

虽然本发明实施例披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种变动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。