CN114333900A

CN114333900A - 端到端提取bnf特征的方法、网络模型、训练方法及系统

Info

Publication number: CN114333900A
Application number: CN202111443128.1A
Authority: CN
Inventors: 司马华鹏; 毛志强; 孙雨泽
Original assignee: Nanjing Silicon Intelligence Technology Co Ltd
Current assignee: Nanjing Silicon Intelligence Technology Co Ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-04-12
Anticipated expiration: 2041-11-30
Also published as: CN114333900B

Abstract

本申请公开一种端到端提取BNF特征的方法、网络模型、训练方法及系统，其中，网络模型包括循环网络模块和编码模块：所述循环网络模块，用于输入源说话人音频的梅尔频率倒谱系数特征，输出下采样特征；所述编码模块，用于输入所述下采样特征，基于自注意力算法和深度卷积学习，得到第一特征，以及对所述第一特征全连接处理，输出所述源说话人音频的BNF特征，其中，所述第一特征包括所述源说话人音频的帧与帧之间的全局依赖关系和局部依赖关系。本申请的网络模型，可以实现端到端提取BNF特征，时效性更佳，不会叠加中间误差，从而保证提取的BNF特征的准确性。

Description

端到端提取BNF特征的方法、网络模型、训练方法及系统

技术领域

本申请属于语音识别技术领域，尤其涉及一种端到端提取BNF特征的方法、网络模型、训练方法及系统。

背景技术

伴随着互联网及人工智能技术的发展，语音交互业务场景越来越丰富，例如，各行各业中应用有电话机器人，虚拟数字人等的相关场景，语音交互业务具体涉及的语音技术可包括：ASR(Automatic Speech Recognition，自动语音识别)、TTS(Text-To-Speech，从文本到语音)、声音克隆、语音转换、降噪等等，

其中，语音转换是语音信号处理的一个研究分支，它涵盖了说话人识别、语音识别及语音合成等领域的内容，拟在保留原有的语义信息不变的情况下改变语音的个性化信息，使特定说话人(即源说话人)的语音听起来像另一个特定说话人(即目标说话人)的语音。语音转换在实现过程中，其中最核心的任务就是提取源说话人音频的文本信息、韵律信息，本质上就是剔除源说话人音频特征中的音色信息。其中，源说话人音频的文本信息、韵律信息可以使用瓶颈特征表示，也称为BNF特征。

在一种实现方式中，使用与源说话人无关的自动语音识别系统(SI-ASR)来提取BNF特征，这种提取BNF特征的方法，首先基于Kaldi工具，将音频与文本信息进行对齐，得到对齐信息，其中，对齐信息包括每帧音频对应的音素；再基于对齐信息训练一个带有瓶颈层的DNN(Deep Neural Networks，深度神经网络)，用于提取BNF特征。

由此可知，上述提取BNF特征的实现方式，需要使用两个网络来提取BNF特征，其中，第一个网络用于输出对齐信息，第二个网络以第一个网络输出的对齐信息作为输入，然后输出BNF特征。这样，该实现方式，第二个网络受到第一个网络输出的对齐效果的影响，从而无法保证第二个网络输出BNF特征的准确性。

发明内容

为解决现有技术中需要使用两个网络来提取BNF特征，从而无法保证第二个网络输出BNF特征的准确性的技术问题，本申请提供一种端到端提取BNF特征的方法、网络模型、训练方法及系统。

第一方面，本申请提供一种端到端提取BNF特征的网络模型，包括循环网络模块和编码模块：

所述循环网络模块，用于输入源说话人音频的梅尔频率倒谱系数特征，输出下采样特征；

所述编码模块，用于输入所述下采样特征，基于自注意力算法和深度卷积学习，得到第一特征，以及对所述第一特征全连接处理，输出所述源说话人音频的BNF特征，其中，所述第一特征包括所述源说话人音频的帧与帧之间的全局依赖关系和局部依赖关系。

在一种可实现方式中，所述循环网络模块由输入至输出包括多组循环设置的第一卷积层和第一全连接层；

所述第一卷积层，用于对所述源说话人音频的梅尔频率倒谱系数特征进行卷积计算，降低所述梅尔频率倒谱系数特征的维度；

所述第一全连接层，用于对经过所述第一卷积层卷积计算的所述源说话人音频的梅尔频率倒谱系数特征重新抽象映射，得到下采样特征。

在一种可实现方式中，所述编码模块由输入至输出依次包括transformer层、两个第二卷积层和第二全连接层；

所述transformer层，用于输入所述下采样特征，基于自注意力算法，输出第二特征，所述第二特征包括所述源说话人音频的帧与帧之间的全局依赖关系；

所述两个CNN卷积层，用于输入所述第二特征，计算学习得到所述第一特征，所述第一特征包括所述源说话人音频的帧与帧之间的全局依赖关系和局部依赖关系；

所述第二全连接层，用于输入所述第一特征，输出所述源说话人音频的BNF特征。

在一种可实现方式中，在所述transformer层之前，还包括第一归一化处理层、第三全连接层、第一残差处理层和第二归一化处理层处理。

在一种可实现方式中，在所述两个CNN卷积层之前，还包括第二残差处理层和第三归一化处理层处理。

在一种可实现方式中，在所述第二全连接层之前，还包括第四归一化处理层处理。

第二方面，本申请提供一种端到端提取BNF特征的方法，包括循环网络模块和编码模块，所述方法包括：

将源说话人音频的梅尔频率倒谱系数特征输入所述循环网络模块，得到下采样特征；

将所述下采样特征输入所述编码模块，基于自注意力算法和深度卷积学习，得到第一特征，其中，所述第一特征包括所述源说话人音频的帧与帧之间的全局依赖关系和局部依赖关系；

对所述第一特征全连接处理，输出所述源说话人音频的BNF特征。

通过所述第一卷积层对所述源说话人音频的梅尔频率倒谱系数特征进行卷积计算，降低所述梅尔频率倒谱系数特征的维度；

通过所述第一全连接层对经过所述第一卷积层卷积计算的所述源说话人音频的梅尔频率倒谱系数特征重新抽象映射，得到下采样特征。

将所述下采样特征输入transformer层，基于自注意力算法，输出第二特征，所述第二特征包括所述源说话人音频的帧与帧之间的全局依赖关系；

将所述第二特征输入所述两个CNN卷积层，计算学习得到所述第一特征，所述第一特征包括所述源说话人音频的帧与帧之间的全局依赖关系和局部依赖关系；

将所述第一特征输入第二全连接层处理，输出所述源说话人音频的BNF特征。

在一种可实现方式中，在将下采样特征输入所述transformer层之前，将所述下采样特征依次经过第一归一化处理层、第三全连接层、第一残差处理层和第二归一化处理层处理。

在一种可实现方式中，在将所述第二特征输入所述两个CNN卷积层之前，将所述第二特征依次经过过第二残差处理层和第三归一化处理层处理。

在一种可实现方式中，在将所述第一特征输入第二全连接层之前，将所述第一特征经过第四归一化处理层处理。

第三方面，本申请提供一种对所述的端到端提取BNF特征的网络模型的训练方法，所述训练方法包括：

获取训练语料，所述训练语料包括多条训练音频、以及与每条训练音频对应的文本信息，其中，所述多条训练音频包括多个源说话人的音频；

提取每条训练音频的梅尔频率倒谱系数特征，以及，将所述文本信息转换为拼音标签；

以所述尔频率倒谱系数特征作为输入，所述训练音频的拼音标签作为输出，将所述网络模型训练至收敛。

在一种可实现方式中，所述以音频的拼音标签作为输出，将所述网络模型训练至收敛，包括：

将编码模块输出的BNF特征的维度与目标输出维度对齐，输出与所述BNF特征中文本信息对应的第二拼音标签，所述目标输出维度是指拼音字典中拼音的个数；

根据第一拼音标签和所述第二拼音标签，计算损失值，其中，所述第一拼音标签是指与输入的训练音频对应的拼音标签；

判断所述损失值是否收敛，如果是，则训练结束；或，如果否，继续训练直至所述损失值收敛。

在一种可实现方式中，所述将所述文本信息转换为拼音标签，包括：

使用转拼音工具包将所述文本信息转换成拼音标签，其中，所述拼音标签由多个ID编码组成，每个ID编码表示与文字对应的拼音和音调组合。

在一种可实现方式中，所述将所述BNF特征的维度与目标输出维度对齐，包括：

通过四层第四全连接层，将所述BNF特征的维度转化为与目标输出维度相同的维度，其中，所述目标输出维度为2088维。

第四方面，本申请提供一种端到端提取BNF特征的网络模型的训练系统，所述系统包括：

获取模块，用于获取训练语料，所述训练语料包括多条训练音频、以及与每条训练音频对应的文本信息，其中，所述多条训练音频包括多个源说话人的音频；

提取模块，用于提取每条训练音频的梅尔频率倒谱系数特征，以及，将所述文本信息转换为拼音标签；

循环网络模块，用于输入训练音频的梅尔频率倒谱系数特征，输出下采样特征；

编码模块，用于输入所述下采样特征，基于自注意力算法和深度卷积学习，得到第一特征，以及对所述第一特征全连接处理，输出所述训练音频的BNF特征；

输出模块，用于输入所述训练音频的BNF特征，输出与所述BNF特征中文本信息对应的第二拼音标签；

计算模块，用于根据第一拼音标签和所述第二拼音标签，计算损失值，其中，所述第一拼音标签是指与输入的训练音频对应的拼音标签；

判断模块，用于判断所述损失值是否收敛，在所述损失值为收敛时，训练结束；或，在所述损失值为未收敛时，继续训练直至所述损失值收敛。

综上，本申请提供的一种端到端提取BNF特征的方法、网络模型、训练方法及系统，可以实现端到端提取BNF特征，时效性更佳，不会叠加中间误差。另外，本申请采用拼音作为收敛目标，对多音字有很好的容错性，因此，可以明显提升BNF特征表达音频的准确率。实验中证明，在aishell1数据集下，采用现有的ASR提取的BNF特征的错误率为5％，而采用本申请的网络模型提取的BNF特征的错误率为2％。此外，本申请提供的网络模型简单，能够很容易的接入到人机交互系统当中。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A为本申请实施例提供的一种端到端提取BNF特征的网络模型的结构示意图；

图1B为本申请实施例提供的一种循环网络模块的结构示意图；

图1C为本申请实施例提供的一种编码模块的结构示意图；

图2A为本申请实施例提供的一种端到端提取BNF特征的网络模型的训练方法的流程图；

图2B为本申请实施例提供的又一种端到端提取BNF特征的网络模型的训练方法的流程图。

附图标记说明

100-循环网络模块，200-编码模块，300-输出模块；

110-第一卷积层，120-第一全连接层，210-transformer层，220-第二卷积层，230B-第二全连接层，240A-第一归一化处理层，230A-第三全连接层，250A-第一残差处理层，240B-第二归一化处理层,250B-第二残差处理层,240C-第三归一化处理层，240D-第四归一化处理层，310-第四全连接层。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其他组件。术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

现有技术中，为了提取音频中的BNF特征，首先基于Kaldi工具，将音频与文本信息进行对齐，得到对齐信息，其中，对齐信息包括每帧音频对应的音素；再基于对齐信息训练一个带有瓶颈层的DNN网络，用于提取BNF特征。因此，现有技术中需要使用两个网络来提取BNF特征，其中，第一个网络用于输出对齐信息，第二个网络以第一个网络输出的对齐信息作为输入，然后输出BNF特征。这样，该实现方式，第二个网络受到第一个网络输出的对齐效果的影响，从而无法保证第二个网络输出BNF特征的准确性。因此，为了解决上述技术问题，本申请提供一种端到端提取BNF特征的方法、网络模型、训练方法及系统。

下面首先对本申请实施例提供的一种端到端提取BNF特征的网络模型进行详细说明。

本申请提供的端到端提取BNF特征的网络模型，采用一个网络模型即可根据源说话人音频，输出与该源说话人音频对应的BNF特征，网络模型简单、时效性更佳，不会叠加中间误差。

如图1A所示，本申请提供的端到端提取BNF特征的网络模型，包括循环网络模块100和编码模块200。

循环网络模块100，用于输入源说话人音频的梅尔频率倒谱系数特征，输出下采样特征。

源说话人音频的梅尔频率倒谱系数特征，可通过现有的任一种可行的梅尔频率倒谱系数特征提取方法提取。本申请对输入的梅尔频率倒谱系数特征的维度不进行限定，例如可以是80维的梅尔频率倒谱系数特征。

本申请对循环网络模块100的结构不进行限定，在一种可实现方式中，循环网络模块100由输入至输出包括多组循环设置的第一卷积层110和第一全连接层120。

如图1B所示，图1B示出了一种循环网络模块100的结构框图，循环网络模块100由输入至输出依次包括两组交替设置的第一卷积层110和第一全连接层120，即循环网络模块100由输入至输出依次包括第一卷积层110、第一全连接层120、第一卷积层110和第一全连接层120。这样，输入的梅尔频率倒谱系数特征先经过第一次卷积计算，再经过全连接计算实现特征的重新抽象映射；然后再经过一次卷积计算和全连接计算，输出下采样特征，这样，可以通过卷积计算，降低梅尔频率倒谱系数特征的维度，以及通过全连接计算，对降低维度后的梅尔频率倒谱系数特征重新抽象映射。

编码模块200，用于输入下采样特征，基于自注意力算法和深度卷积学习，得到第一特征，以及对第一特征全连接处理，输出所述源说话人音频的BNF特征，其中，第一特征包括源说话人音频的帧与帧之间的全局依赖关系和局部依赖关系。

首先需要说明的是，源说话人音频中包括音色信息、文本信息和韵律信息，不同人说同一句话，文本信息是一致的，但音色信息是不一样的，本申请中BNF特征即用于表征将音频中的音色信息去除，仅保留音频的文本信息与韵律信息的特征，具有很强的容错性及泛化性。

本申请中的编码模块200是经过训练收敛后的，因此，可以自分析学习下采样特征，得到帧与帧之间的全局依赖关系和局部依赖关系，进而得到全局依赖关系的特征向量和局部依赖信息的特征向量，将全局依赖关系的特征向量和局部依赖信息的特征向量融合即可表达音频的BNF特征，其中，帧与帧之间的时长信息，可以反映音频的韵律信息。

以源说话人音频为“我是中国人”进行示例说明，例如“我是中国人”总共包括100帧音频，通过编码模块200可以学习得到前50帧和后50帧之间的依赖关系，这种依赖关系可以理解为全局依赖关系；还可以学习到前50帧中第0-49帧与第50帧之间的依赖关系，这种依赖关系可以理解为局部依赖关系。

需要说明的是，依赖关系的学习不限于上述关于帧数的粒度划分。

本申请对编码模块200的结构不进行限定，在一种可实现方式中，如图1C所示，图1C示出了一种编码模块200的结构框图。编码模块200由输入至输出依次包括transformer层210、两个第二卷积层220和第二全连接层230B。

其中，transformer层210，用于输入所述下采样特征，基于自注意力算法，输出第二特征，所述第二特征包括所述源说话人音频的帧与帧之间的全局依赖关系。

transformer层210能够基于自注意力算法，计算学习下采样特征之间的全局依赖关系，进而得到全局依赖关系的特征向量。

两个第二卷积层220，用于输入所述第二特征，计算学习得到所述第一特征，所述第一特征包括所述源说话人音频的帧与帧之间的全局依赖关系和局部依赖关系。

第二特征经过第二卷积层220进行卷积计算，得到包括所述源说话人音频的帧与帧之间的全局依赖关系和局部依赖关系的特征。

第二全连接层230B，用于输入所述第一特征，输出所述源说话人音频的BNF特征，其中，BNF特征即为包含帧与帧之间的全局依赖关系和局部依赖关系的特征。

进一步的，编码模块200还可以包括归一化处理层和残差处理层。

在一种可实现方式中，在transformer层210之前，还包括第一归一化处理层240A、第三全连接层230A、第一残差处理层250A和第二归一化处理层240B处理。

在一种可实现方式中，在两个第二卷积层220之前，还包括第二残差处理层250B和第三归一化处理层240C处理。

进一步的，在第二全连接层230B之前，还可以包括第四归一化处理层240D处理。

这样，下采样特征首先输入第一归一化处理层240A进行归一化计算，然后通过第三全连接层230A对特征进行重新抽象映射，接着通过第一残差处理层250A对第三全连接层230A的输入和输出进行残差连接，再经过第二归一化处理层240B归一化计算后的数据流入transformer层210，通过自注意力计算学习特征之间的全局依赖关系，得到前后依赖关系的抽象特征，经过第二残差处理层250C对transformer层210的输入和输出进行残差连接，再通过第三归一化处理层240C对抽象特征进行的正则化计算，数据流入2层第二卷积层220对特征进行卷积操作，计算特征之间的短时依赖关系，得到局部依赖关系，再通过第四归一化处理层240D对抽象特征进行正则化计算，最后，使用第二全连接层230B对特征进行重新抽象映射，输出包含全局依赖关系和局部依赖关系的特征，作为BNF特征。

需要说明的是，本申请中循环网络模块100和编码模块200是串行形式，其中，循环网络模块100中各层，以及编码模块200中各层也是串行形式。

还需要说明的是，上述实施例是以编码模块200中单个块的结构进行示例说明，并不表示对编码模块200结构的限定，本申请中编码模块200可以由多个块串行组成。例如，编码模块200由12个块串行形成，其中，每个块包括transformer层、两个第二卷积层和第二全连接层。这样，下采样特征输入编码模块200后，经过12次transformer层、两个第二卷积层和第二全连接层的处理后，输出源说话人音频的BNF特征。

还需要说明的是，本申请上述实施例中的端到端提取BNF特征的网络模型是经过训练收敛后得到的网络模型，下面对本申请实施例提供的一种端到端提取BNF特征的网络模型的训练方法进行说明。

如图2A所示，本申请实施例提供的一种端到端提取BNF特征的网络模型的训练方法，包括以下步骤：

步骤110、获取训练语料，所述训练语料包括多条训练音频、以及与每条训练音频对应的文本信息，其中，所述多条训练音频包括多个源说话人的音频。

本申请中提取BNF特征的本质是要去除源说话人的音色信息，因此，本申请的训练语料中选用多个源说话人的音频，从而可以通过训练，消除源说话人的音色信息。例如，本申请中选用准确度在98％以上的ASR语料，其中，包括大概20000人左右，总时长在8000小时左右，采样率16k，16bit的wav格式的音频。

例如，本申请中训练语料包括20000条音频，其中，每条音频为10-20秒。

举例说明，例如训练语料中的一条音频为“我是中国人”，那么与之对应的文本信息为“我是中国人”这段文字，但是，需要说明的是，本申请训练预料中不知道该条音频中，哪一秒讲的是对应的文本信息中某个字，这也是本申请实施例提供的训练系统需要对训练语料进行训练的一部分。

在获得训练语料后，还可以对训练语料中音频进行预处理，例如可以通过随机加噪声、音调扰动、音速扰动的形式处理训练语料中音频，这样可以对训练语料中音频起到泛化作用。

步骤120、提取每条训练音频的梅尔频率倒谱系数特征，以及，将所述文本信息转换为拼音标签。

梅尔频率倒谱系数特征是一种声学特征，提取出的梅尔频率倒谱系数特征可以反映与该训练音频对应的音色信息、文本信息和韵律信息。

本申请对将训练语料中的文本信息转换为拼音标签的方式不进行限定，例如，可以使用转拼音工具包将训练语料中文本信息转换成拼音标签，其中，拼音标签由多个ID编码组成，每个ID编码表示与文字对应的拼音和音调组合。

举例说明，文本信息“我是中国人”对应的拼音标签为“wo3 shi4 zhong1 guo2ren2”，其中，每个文字通过对应的拼音和声调表达，例如“我”对应的ID编码为“wo3”。

步骤130、以所述尔频率倒谱系数特征作为输入，所述训练音频的拼音标签作为输出，将所述网络模型训练至收敛。

首先需要说明的是，拼音的个数为2088，汉字的个数为8000多个。因此，相比于以汉字作为输出，本申请以拼音标签作为输出，通过反向传播，将网络模型训练至收敛，可以大大降低收敛难度。

其中，待训练的网络模型结构与上述实施例中的端到端提取BNF特征的网络模型结构相同，不同之处在于，上述实施例中的端到端提取BNF特征的网络模型中的模型参数为训练至收敛对应的模型参数，而待训练的网络模型中的模型参数为初始的、未进行训练之前的模型参数。因此，对于待训练的网络模型结构，可以参见上述端到端提取BNF特征的网络模型实施例中描述，此处不再赘述。

这样，如图2B所示，在训练时，向待训练的网络模型的循环网络模块100输入训练音频的梅尔频率倒谱系数特征，经过循环网络模块100处理后输出下采样特征；然后下采样特征再输入待训练的网络模型的编码模块200，基于自注意力算法和深度卷积学习，得到第一特征，以及对所述第一特征全连接处理，输出与该条训练音频对应的BNF特征，其中，所述第一特征包括该条训练音频的帧与帧之间的全局依赖关系和局部依赖关系；然后，将BNF特征输入输出模块300，经过输出模块300处理后，输出一个拼音标签；最后，根据训练语料中的拼音标签和输出模块300输出的拼音标签，计算损失值。本申请中为了便于描述，将训练预料中与该条输入的训练音频对应的拼音标签称为第一拼音标签，将输出模块300输出的拼音标签称为第二拼音标签。

进一步，通过判断损失值是否收敛，确定是否结束训练。具体的，如果损失值收敛，则训练结束，如果损失值未收敛，则继续训练直至损失值收敛。

如果在编码模块中包括归一化处理层和残差处理层，则在训练时，归一化处理层可以加快网络模型的收敛速度，残差处理层可以防止网络模型加深引起的梯度消失。

其中，输出模块可以将编码模块输出的BNF特征的维度与目标输出维度对齐，输出与BNF特征对应的第二拼音标签。其中，目标输出维度是指拼音字典中拼音的个数，例如，BNF特征的维度是128，目标输出维度为2088，2088是指拼音字典中拼音的个数。

本申请对输出模块300的结构不进行限定，在一种实现方式中，如图2B所示，输出模块300可以包括四层第四全连接层310。其中，第一层第四全连接层可以将128维的BNF特征映射到256维，第二层第四全连接层可以将256维的BNF特征映射到512维，第三层第四全连接层可以将512维的BNF特征映射到1024维，第四层第四全连接层可以将1024维的BNF特征映射到2088维，这样，经过四次全连接处理，将编码模块输出的BNF特征的维度与目标输出维度对齐。

需要说明的是，本申请以拼音标签作为收敛目标对网络模型进行训练，这样一方面可以降低网络模型的收敛难度，另一方面也可以在整个训练过程中完成音频与文本信息的对齐，这样，采用本申请训练后的网络模型时，可以同时完成音频与文本信息的对齐，以及BNF特征的提取，从而实现端到端提取BNF特征。

还需要说明的是，本申请仅以拼音标签作为收敛目标对网络模型进行训练，而利用训练后的网络模型提取BNF特征时，不需要输出拼音标签，因此，本申请中的端到端提取BNF特征的网络模型可以不包括输出模块，这样，能够使网络模型更加简洁。

综上，采用本申请实施例提供的训练方法训练后的网络模型提取BNF特征，可以实现端到端提取BNF特征，时效性更佳，不会叠加中间误差。另外，本申请采用拼音作为收敛目标，对多音字有很好的容错性，因此，可以明显提升BNF特征表达音频的准确率。实验中证明，在aishell1数据集下，采用现有的ASR提取的BNF特征的错误率为5％，而采用本申请的网络模型提取的BNF特征的错误率为2％。此外，本申请提供的网络模型简单，能够很容易的接入到人机交互系统当中。

对应于上述网络模型训练方法，本申请提供一种端到端提取BNF特征的网络模型的训练系统，包括：

需要说明的是，本申请实施例提供的端到端提取BNF特征的方法、网络模型、训练方法及系统可以应用于人机协同处理系统，如电话机器人、声音变换系统、数字人、声音克隆等，本申请对此不进行限定。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于端到端提取BNF特征的网络模型的训练系统的实施例而言，由于其基本相似于训练方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

具体实现中，本发明还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的动作迁移方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：read-only memory，简称：ROM)或随机存储记忆体(英文：random access memory，简称：RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上结合具体实施方式和范例性实例对本申请进行了详细说明，不过这些说明并不能理解为对本申请的限制。本领域技术人员理解，在不偏离本申请精神和范围的情况下，可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。

Claims

1.一种端到端提取BNF特征的网络模型，其特征在于，包括循环网络模块和编码模块：

2.根据权利要求1所述的网络模型，其特征在于，所述循环网络模块由输入至输出包括多组循环设置的第一卷积层和第一全连接层；

3.根据权利要求1所述的网络模型，其特征在于，所述编码模块由输入至输出依次包括transformer层、两个第二卷积层和第二全连接层；

4.根据权利要求3所述的网络模型，其特征在于，在所述transformer层之前，还包括第一归一化处理层、第三全连接层、第一残差处理层和第二归一化处理层处理。

5.根据权利要求3所述的网络模型，其特征在于，在所述两个CNN卷积层之前，还包括第二残差处理层和第三归一化处理层处理。

6.一种端到端提取BNF特征的方法，其特征在于，包括循环网络模块和编码模块，所述方法包括：

7.根据权利要求6所述的方法，其特征在于，所述循环网络模块由输入至输出包括多组循环设置的第一卷积层和第一全连接层；

8.根据权利要求6所述的方法，其特征在于，所述编码模块由输入至输出依次包括transformer层、两个第二卷积层和第二全连接层；

9.根据权利要求8所述的方法，其特征在于，在将下采样特征输入所述transformer层之前，将所述下采样特征依次经过第一归一化处理层、第三全连接层、第一残差处理层和第二归一化处理层处理。

10.根据权利要求8所述的方法，其特征在于，在将所述第二特征输入所述两个CNN卷积层之前，将所述第二特征依次经过过第二残差处理层和第三归一化处理层处理。

11.一种对权利要求1-5任一所述的端到端提取BNF特征的网络模型的训练方法，其特征在于，所述训练方法包括：

12.根据权利要求11所述的训练方法，其特征在于，所述以训练音频的拼音标签作为输出，将所述网络模型训练至收敛，包括：

13.根据权利要求12所述的训练方法，其特征在于，所述将所述文本信息转换为拼音标签，包括：

14.根据权利要求12所述的训练方法，其特征在于，所述将所述BNF特征的维度与目标输出维度对齐，包括：

15.一种端到端提取BNF特征的网络模型的训练系统，其特征在于，所述系统包括：