CN112542160B

CN112542160B - 声学模型的建模单元的编码方法、声学模型的训练方法

Info

Publication number: CN112542160B
Application number: CN201910837084.7A
Authority: CN
Inventors: 刘秀敏
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2022-10-28
Anticipated expiration: 2039-09-05
Also published as: CN112542160A

Abstract

本申请提供了一种声学模型的建模单元的编码方法、声学模型的训练方法，编码方法包括：对建模单元的经过预处理的语音流信号片段进行增量式扫描，其中，语音流信号片段包括至少一个音频帧，以及增量式扫描包括，根据增量式扫描的当前时间步所对应的扫描范围，对由扫描范围确定的音频帧进行扫描，其中扫描范围包括从增量式扫描的第一个时间步到当前时间步包含的全部音频帧对应的宽度；根据扫描范围在增量式扫描中对语音流信号片段的覆盖程度，计算指示覆盖程度的概率值，概率值用于表示扫描范围覆盖的语音流信号片段与建模单元的特定属性相符合的似然概率；以及将用于指示特定属性的一个或多个编码位的值更新为概率值。

Description

声学模型的建模单元的编码方法、声学模型的训练方法

技术领域

本申请的一个或多个实施例通常涉及语音信号处理技术领域，具体涉及语音识别中建模单元的编码方法，以及基于该编码方法训练声学模型的方法、可读存储介质以及相应的系统。

背景技术

在深度学习技术应用到语音识别中之后，声学模型的性能得到了极大提升。

但在目前通行的声学建模技术中，无论是DL-HMM(Deep Learning-HMM)框架下的混合声学模型，还是基于RNN的序列到序列模型，还是基于注意力机制的Encoder-Decoder框架下的序列到序列声学模型，还是基于CTC技术的声学模型，还是基于Transformer的声学模型，在训练任务中，声学模型的输出端，都以表征建模单元在单元集中身份的One-hot(独热码)编码向量作为监督训练数据来训练声学模型。在确定建模单元的类型后，所有可能出现的该类建模单元构成一个容量为N的集合，该集合中任一个建模单元对象都可以用一个只含一位为1其余位均为0的维数是N的One-hot向量表示。在监督训练过程中，One-hot编码向量中具有和输入端语音帧信号相同建模单元标签的编码位赋值为1，其余编码位赋值为0。这种对建模单元身份和属性的单一化表征方法，构成了现有声学模型建模技术中的明显缺陷，即，不利于声学模型提取语音流信号中不同侧重方面的语音特征，不利于提取语音信号中跨范畴(不同粒度)的层次化结构特征。

此外，从人类发音的物理过程来看，每一个建模单元代表着一种发音过程中多个发音器官连续的、协同的运动过程，且是该发音过程中全部动态信息的载体。现有的one-hot编码仅仅是标记出了这种发音过程，本身并不携带其发音过程中的全部动态信息。

因此，在现有技术中，采用语音学意义不明确的one-hot编码监督训练声学模型，限制了对发音过程的动态信息的有效和全面提取。

发明内容

为了解决上述问题。本发明针对one-hot编码的上述缺陷，提出建模单元的跨范畴多头层次化结构编码，及其基于该类编码的声学建模技术。

本申请的一个或多个实施例提供一种声学模型的建模单元的编码方法、声学模型的训练方法、可读存储介质和系统。

根据本申请的一些方面，公开一种声学模型的建模单元的编码方法，包括：

对所述建模单元的经过预处理的语音流信号片段进行增量式扫描，其中，所述语音流信号片段包括至少一个音频帧，以及所述增量式扫描包括，根据所述增量式扫描的当前时间步所对应的扫描范围，对由所述扫描范围确定的所述音频帧进行扫描，其中所述扫描范围包括从所述增量式扫描的第一个时间步到所述当前时间步包含的全部所述音频帧对应的宽度；

根据所述扫描范围在所述增量式扫描中对所述语音流信号片段的覆盖程度，计算指示所述覆盖程度的概率值，所述概率值用于表示所述扫描范围覆盖的所述语音流信号片段与所述建模单元的特定属性相符合的似然概率；以及

将用于指示所述特定属性的一个或多个编码位的值更新为所述概率值。

第二方面，本申请的实施方式提供了一种声学模型的建模单元的编码方法，包括：

针对所述声学模型的建模对象，选择一种或多种建模单元；

确定与所述建模单元的对应种类相关联的多个预先确定的声学属性，以及所述多个预先确定的声学属性对应的多个编码头，所述编码头用于指示所述声学属性；

对所述建模单元的经过预处理的语音流信号片段进行增量式扫描，以及计算指示所述增量式扫描的扫描范围对所述语音流信号片段的覆盖程度的概率值，其中，所述概率值用于表示所述扫描范围覆盖的所述语音流信号片段与所述建模单元的至少一个特定属性相符合的似然概率；以及

将所述概率值提供给与所述至少一个特定属性相关联的所述编码头；

其中，所述多个预先确定的声学属性中的每一个声学属性包括一个或多个所述特定属性。

第三方面，本申请的实施方式提供了一种声学模型的训练方法，包括：

预处理用于所述声学模型训练的训练数据，所述训练数据包括标注数据，所述标注数据包括针对所述声学模型的建模对象所选择的对应种类的建模单元以及所述建模单元的编码头方案，所述编码头方案中包括至少一个用于指示所述建模单元的声学属性的编码头；

对所述建模单元的经过预处理的语音流信号片段进行增量式扫描，获得所述语音流信号片段的级联特征向量；

计算指示所述增量式扫描的扫描范围对所述语音流信号片段的覆盖程度的概率值，其中，所述概率值用于表示所述扫描范围覆盖的所述语音流信号片段与所述建模单元的至少一个特定属性相符合的似然概率；

将所述概率值提供给与所述至少一个特定属性相关联的所述编码头，生成所述编码头的监督训练数据；以及

采用所述级联特征向量和所述监督训练数据对至少一个待训练的神经网络进行训练。

第四方面，本申请的实施方式提供了一种计算机可读介质，所述计算机可读存储介质上存储有指令，该指令在计算机上执行时使所述计算机执行上述第一方面所述的声学模型的训练方法。

第五方面，本申请的实施方式提供了一种系统，包括：

存储器，用于存储由系统的一个或多个处理器执行的指令，以及

处理器，用于执行所述存储器中的所述指令，以执行上述第一方面所述的声学模型的训练方法。

本申请根据本申请的一些方面，其效果包括，但不局限于：

本发明首次提出针对建模单元的跨范畴多头层次化结构编码的方法，实现对某建模单元在单元集中身份的编码描述，对其语音学、音系学、语言学或自定义属性的编码描述，对建模单元内部或外部结构特征等多个不同侧重方面的多角度、全方位的编码描述。使声学模型充分利用这些不同侧重方面的语音信号特征，克服仅仅使用one-hot向量训练声学模型时存在的技术缺陷。

采用增量扫描能够有效捕捉到单词发音中音素到音素、音素到音节、音节到音节、音节到音素的过渡时的协同发音现象。此外，将增量式扫描和根据增量式扫描对编码头中编码位进行概率赋值的技术相结合，实现对建模单元的动态发音过程的全方位、多个侧面的刻画。

建模单元的各种编码方案体现了编码方案中的跨范畴、层次化的特点。使声学模型不仅能够对语音流信号分层次建模，还能实现对语音流信号动态特性的建模。利用分层结构特征构建声学模型将能有效提升模型的识别率和鲁棒性，不易受到环境噪声、干扰语音、说话人口音等因素的影响。

附图说明

图1示出了根据本发明实施例的实施声学模型的编码或训练方法的计算设备的结构示意图。

图2示出了根据本申请实施例的声学模型的建模单元的编码方法的流程示意图。

图3示出了根据本申请实施例的声学模型的建模单元的编码方法中增量式扫描的过程的示意图。

图4示出了根据本申请另一实施例的声学模型的建模单元的编码方法的示意图。

图5示出了根据本申请实施例的建模单元为音素的跨范畴多头层次化结构编码的示意图。

图6示出了根据本申请实施例的建模单元为音节的跨范畴多头层次化结构编码方案的示意图。

图7示出了根据本申请实施例的声学模型的训练方法的流程示意图。

图8示出了根据本申请实施例的声学模型的训练系统的示意图。

图9示出了根据本申请另一实施例的声学模型的训练系统的监督训练数据变化过程的示意图。

图10示出了根据本申请另一实施例的声学模型的训练系统的示意图。

具体实施方式

为使本申请实施例的目的和技术方案更加清楚，下面将结合本申请实施例的附图，对本申请实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于所描述的本申请的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

根据本发明实施方式，提供了一种声学模型的建模单元的编码方法、声学模型的训练方法的实施方式，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请所提供的方法实施方式可以在计算设备中执行。图1是根据本发明实施方式的声学模型的训练方法的计算设备的结构示意图。计算设备100包括，但不局限于，膝上型设备、台式机、手持PC、个人数字助理、工程工作站、服务器、网络设备、网络集线器、交换机、嵌入式处理器、数字信号处理器(Digital Signal Processor，简称DSP)、图形设备、视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持设备、可穿戴设备(例如，显示眼镜或护目镜，头戴式显示器(Head-Mounted Display，简称HMD)，手表，头戴设备，臂带，珠宝等)，虚拟现实(Virtual Reality，简称VR)和/或增强现实(Augment Reality，简称AR)设备，物联网(Internet of Things，IoT)设备，工业控制设备，车载信息娱乐设备，流媒体客户端设备，电子书阅读设备，POS机，电动车辆的控制系统，以及各种其他电子设备。一般地，能够包含本文中所公开的处理器和/或其它执行逻辑的多个装置和电子设备一般都是合适的。

如图1所示，计算设备100可以包括一个或多个(图中仅示出一个)处理器101(处理器101可以包括但不限于中央处理器CPU、图像处理器GPU、数字信号处理器DSP、微处理器MCU或可编程逻辑器件FPGA等的处理装置)、总线102、用于存储数据的存储器103、以及用于通信功能的通信接口104。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算设备100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器103可用于存储数据库、各种语料数据，包括用于模型训练的语料数据、用于模型调整的语料数据，还可以存储神经网络模型的软件程序以及模块，以及其他应用软件的软件程序以及模块，例如本发明实施方式中的声学模型的建模单元的编码方法、声学模型的训练方法对应的程序指令/模块，处理器101通过运行存储在存储器103内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现声学模型的建模单元的编码方法、声学模型的训练方法和语音识别方法。

存储器103可包括高速随机存储器，诸如，SRAM、DRAM，还可包括非易失性存储器，例如一个或者多个非易失性随机存取存储器(NVRAM)、诸如SPI闪存、NAND闪存的各种闪存、或者其他非易失性固态存储器。

根据本申请的一些实施方式，存储器103可进一步包括相对于处理器101远程设置的存储器，这些远程存储器可以通过网络经由通信接口104连接至计算设备100。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

通信接口104用于经由网络接收或者发送数据，网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。上述的网络具体实例可包括计算设备100的通信供应商提供的互联网。

根据本申请一个或多个实施方式的建模单元编码方案，对于同一个建模单元，其编码表征中包含一个或多个编码头。每一个编码头都是一个向量，其维度大于或等于1。

其中，编码头分别是对建模单元在单元集中的身份，其语音学、音系学、语言学或自定义属性，建模单元内部或外部某种结构特征的一种量化表征。

多编码头所涉及的属性应尽量全面覆盖建模单元所有的属性，不同编码头应针对不同的属性进行编码，相互之间达成互相补充的效果，避免重复、重合。

在本申请的一个或多个实施方式中，针对建模单元的每一个编码头都要分别独立训练一个特征提取器，该特征提取器从语音信号中所提取的特征即是对编码头所表征的建模单元的身份、属性或结构特征在特征空间的另一种表示。独立训练是指，每一个编码头的特征提取器的结构和模型参数都分别独立设计而获得，不同编码头的特征提取器的结构和模型参数互不相同。

相反地，传统的表征建模单元身份的one-hot向量只能算一个编码头，其原因在于，one-hot向量是作为一个整体对建模单元的在单元集中的身份进行表征，使建模单元集合中的每一个建模单元各有一个独一无二的标签；而且，针对建模单元的one-hot向量表征只会训练一个特征提取器，因此对建模单元的one-hot向量表征只能被视为单头编码，而不能被视为多头编码。

以下参考图2和图3描述上述建模单元的编码方法200。在一些实施方式中，方法200例如在电子设备上实施，例如，如图1所示的计算设备100上实施。

如图2所示，在块201、对建模单元的经过预处理的语音流信号片段进行增量式扫描。

在块202、根据扫描范围在增量式扫描中对语音流信号片段的覆盖程度，计算指示覆盖程度的概率值。

概率值用于表示扫描范围覆盖的语音流信号片段与建模单元的特定属性相符合的似然概率。

在块203、将用于指示特定属性的一个或多个编码位的值更新为概率值。

其中，语音流信号片段包括至少一个音频帧，以及增量式扫描包括，根据增量式扫描的当前时间步所对应的扫描范围，对由扫描范围确定的音频帧进行扫描，其中扫描范围包括从增量式扫描的第一个时间步到当前时间步包含的全部音频帧对应的宽度。

在本申请的一个或多个实施方式中，每一个编码头的向量中的每一编码位都以概率赋值，对编码头的概率赋值与对建模单元的语音信号的增量式扫描过程相对应。

参考图3描述本申请的增量式扫描300的过程。如图3所示，302为增量式扫描中该建模单元所对应的语音流信号片段，其中建模单元可以是音素、音节或词等，在此不作限定。在增量式扫描前，已经对语音流信号片段302完成预加重、分帧和加窗等操作。在图3中，示出了从t₁时间步到t₅时间步的过程中，每一个时间步增量式扫描窗口304的宽度增大1帧的增量式扫描过程。在t₁时间步增量式扫描窗口304中只有1帧信号，到t₂时间步增量式扫描窗口304宽度增大到2帧，……，直到t₅时间步增量式扫描窗口304增大到5帧，在此之后增量式扫描窗口304将继续增大直至建模单元的语音流信号片段被增量式扫描窗口304完全覆盖。需要指出的是，图3中为了使图的表意清楚，并未将增量式扫描窗口304中帧与帧之间的重叠示意画出。

在每一个增量式扫描的时间步中，对扫描窗口304中的每一帧信号提取特征向量306，这种特征可以是MFCC特征，也可以是fBank滤波器组、PLP、GFCC或PNCC等特征。将增量式扫描窗口304中的帧序列所对应的特征向量序列按照增量式扫描的时间先后顺序级联成为一个维数更高的级联特征向量308，如图3中t₁时间步到t₅时间步所示，级联特征向量308的维数随时间逐步增加，直到对建模单元的语音流信号片段302的增量式扫描完成。增量式扫描获得的级联特征向量308被填充进增量式扫描输入层310中，增量式扫描输入层310在以下实施方式中，将被用于建模单元的各个编码头的瓶颈特征提取器的训练，也将被用于建模单元的跨范畴多头层次化结构编码分类器的训练。

概率赋值时主要有两个因素需要考量：其一，在编码头中的哪一位或哪些位赋非零概率值，决定了编码头的表征含义；其二，非零概率值的量的大小，由被赋非零概率值的编码位所对应的语音流信号片段被增量式扫描窗口覆盖的程度决定。

具体而言，在一些实施方式中，如果编码位是对建模单元本身在单元集中的身份或某属性的表征，则概率值取决于增量式扫描窗口304对该建模单元的语音流信号片段302的覆盖程度，概率值的大小可分别根据增量式扫描的时间完成度、增量式扫描窗口中语音流信号的短时能量和占比来确定。

设该建模单元的语音流信号片段的起始和结束时间分别为t₁和t_n，且时间单位为帧。那么，增量式扫描窗口304的左边沿对应t₁帧的起始时刻，增量式扫描窗口304的右边沿对应t_i帧的结束时刻。

根据增量式扫描的时间完成度对编码位赋概率值为

在根据式(1)确定概率值p之后，将概率值p赋给编码头中的一个或多个编码位，从而实现对建模单元的在单元集中的身份或某属性的概率表征。例如，建模单元为音素时，某编码位表征该音素的身份，则可将概率值p赋给该编码位，表示增量式扫描窗口304中的语音流信号片段是该音素的似然概率，从而使概率值p从0到1.0的逐步增大过程与对该音素语音流信号片段t₁～t_n的增量式扫描过程严格对应起来。

根据增量式扫描窗口中语音流信号的短时能量和占比赋概率值。设y_j(l)表示一帧信号中采样点的信号值，且l＝1,2,...,L，则语音信号帧中采样点的数目为L；j＝t₁,t₂,...,t_n，则建模单元的语音流信号中的总帧数为n。在t_i时间步，增量式扫描窗口中的语音流信号的短时能量和为

设建模单元语音流信号片段的短时能量总和为E_element，则有

根据增量式扫描窗口中语音流信号片段的短时能量和占比计算概率p值可得

式(3)和式(4)中的建模单元可以是音素、音节或词，其分别对应的语音流信号片段的短时能量总和为E_phoneme、E_syllable和E_word。式(1)和式(4)所示的概率值p，都可以作为增量式扫描窗口中语音流信号与建模单元的身份或某属性相符合的似然概率。实际测试结果表明，式(4)计算得到的概率值p更有利于神经网络的训练，但是其计算量相对较大。

在一些不同的实施方式中，对于多种不同粒度的建模单元的组合的情况，诸如，粒度大的建模单元中可能包含粒度更小的其它的建模单元(例如，子建模单元)，举例来说，音节中包含音素，词中包含音节、音素等。

如果编码位是对子建模单元的身份或某属性进行表征，则概率值的大小取决于增量式扫描窗口304对编码位所要描述的子建模单元的语音流信号片段的覆盖程度。

设该建模单元的语音流信号片段的起始和结束时间分别为t₁帧和t_n帧。编码位所对应的子建模单元的语音流信号片段的起始时间和结束时间分别为

帧和

帧，且有

其中，

表示建模单元语音流信号片段中的第k个子建模单元的语音流信号片段，其中包含了n_k帧语音流信号。增量式扫描窗口304的左边沿对应t₁帧的起始时刻，且在t_i时间步，增量式扫描窗口304的右边沿对应t_i帧的结束时刻。

根据扫描时间完成度，增量式扫描窗口对该子建模单元的语音流信号片段可能是部分覆盖

也可能是全部覆盖

或完全没有覆盖

三种情况下的概率值p_k分别为

在根据式(6)确定概率值p_k之后，将概率值p_k赋给编码头中的某个或某些编码位，从而实现对建模单元中第k个子建模单元的身份或某属性的概率表征。例如，建模单元为音节时，某编码位表征音节中第2个音素的身份，则可将概率值p₂赋给该编码位，表示增量式扫描窗口304中的语音流信号片段包含该音素的似然概率，从而使概率值p₂从0到1.0的逐步增大过程与对音节中该音素的语音流信号片段

的增量式扫描过程严格对应起来。

针对子建模单元的编码位，也可以根据增量式扫描窗口中子建模单元的语音流信号的短时能量和占比计算概率值。建模单元中第k个子建模单元的语音流信号片段

的短时能量和为

该子建模单元的语音流信号片段可能被增量式扫描窗口部分覆盖

也可能是全部覆盖

或完全没有覆盖

在此三种情况下对应编码位的概率赋值为

在一些其他的实施方式中，建模单元中包含的子建模单元中还包含粒度更小的子建模单元，例如词中包含音节，而音节中包含更小的子建模单元音素。若某编码位是对子建模单元中更小的子建模单元的身份或某属性的似然概率表征，且该子建模单元所对应的语音流信号片段的起始和终止时刻分别为

帧和

帧，则根据式(6)或式(8)计算该编码位的概率赋值p_k。

根据本申请的实施方式，采用增量扫描能够有效捕捉到单词发音中音素到音素、音素到音节、音节到音节、音节到音素的过渡时的协同发音现象。此外，将增量式扫描和根据增量式扫描对编码头中编码位进行概率赋值的技术相结合，实现对建模单元的动态发音过程的全方位、多个侧面的刻画。

以下描述根据本申请的声学模型的建模单元的编码方法的其他的一个或多个实施方式。在一些实施方式中，以下方法400例如在电子设备上实施，例如，如图1所示的计算设备100上实施。

如图4所示的声学模型的建模单元的编码方法400中，在块401、针对声学模型的建模对象，选择一种或多种建模单元。

在块402、确定与建模单元的对应种类相关联的多个预先确定的声学属性，以及多个预先确定的声学属性对应的多个编码头。

在块403、对建模单元的经过预处理的语音流信号片段进行增量式扫描，以及计算指示增量式扫描的扫描范围对语音流信号片段的覆盖程度的概率值。

在块404、将概率值提供给与至少一个特定属性相关联的编码头。

其中，概率值用于表示扫描范围覆盖的语音流信号片段与建模单元的至少一个特定属性相符合的似然概率。多个预先确定的声学属性中的每一个声学属性包括一个或多个特定属性。

对于前述实施方式中未描述的内容，可以参见以下实施方式；同样地，对于以下实施方式中未描述的内容，可参见上述实施方式，例如，对增量式扫描和概率赋值的具体实施方式的相同部分在此不再赘述。以下对上述实施方式中涉及的多头编码方案进行具体描述。

根据本申请的一个或多个实施方式，可以选择音素、音节和词作为三种基本的建模单元的至少一种。选择不同种类的建模单元，可以设计相应的跨范畴多头层次化结构编码。

对于多头编码方案可以根据以下方面来设计，包括但不限于，建模单元的身份属性、语音学属性、音系学属性、语言学属性、自定义属性和结构属性。

音素的跨范畴多头层次化结构编码

在本申请的一些实施方式中，可以根据建模对象，选择音素为建模单元。针对音素，可以设计跨范畴多头层次化结构编码，分别从不同的侧重方面对音素在音素集中的身份编码标注，对音素的语音学、音系学、语言学或某些自定义属性编码标注，针对音素包含于音节的外部结构等特征编码标注，等等。例如，音素的具体的声学属性可以包括音素在音素集中的身份属性，也可以是元音属性，各种不同舌位和唇形的元音属性，辅音属性，清辅音属性，浊辅音属性，塞音属性，擦音属性，塞擦音属性，鼻音属性，流音属性，半元音和滑音属性，嘎裂化属性和长短音属性等等，还可以是音素分别位于音节首、音节核或音节尾的音素外部结构属性，等等。表1示出了一些常用的音素的语音学属性，根据这些属性可以设计相应的编码头从而构成因素的多头编码表征。

表1

作为一个示例，图5是建模单元为音素的跨范畴多头层次化结构编码500的一个实施例。在图5中的每一个编码头分别从不同的侧重方面对同一个建模单元——音素进行描述，这些编码头可以包括表明音素身份的Probability-Hot(概率热)编码，也可以包括表明音素某种或某些语音学、音系学、语言学属性的概率赋值编码；还可以包括声学建模人员根据一定的规则主观赋予音素的某些属性，例如通过前期的无监督聚类获得的音素的所属类别的属性等；还可以包括描述音素所处外部结构的量化编码表征，例如eh音素是其所处音节的音节核，且是音节的非首音素。

图5示出了音素的多头编码格式502，其中共包含8个编码头，它们分别是表示音素扫描完成标志的PC编码头(Phoneme Completion)504，共1个编码位；表示非静音信号的PNS编码头(Phoneme No Silence)506，共1个编码位；表示元音的PVW编码头(Phoneme Vowel)508，共1个编码位；以Probability-Hot编码表示元音身份的PVPH编码头(Phoneme VowelProbability-Hot)510，共多个编码位；表示辅音的PCN编码头(Phoneme Consonant)512，共1个编码位；以Probability-Hot编码表示辅音身份的PCPH编码头(Phoneme ConsonantProbability-Hot)514，共多个编码位；表示该音素为音节首音的PF编码头(PhonemeFirst)516，共1个编码位；以Probability-Hot编码表示音素在音素集中身份的PPH编码头(Phoneme Probability-Hot)518，共多个编码位。

本发明中用Probability-Hot(概率热)编码头表征音素的身份，可以是音素在音素集中的身份，也可以是音素在元音音素集或辅音音素集中的身份。Probability-Hot编码与传统的one-hot编码不同。Probability-Hot编码的每一个编码位都是一个概率值，表示所描述对象与该编码位的标签所指示的身份或属性相符合的概率。例如针对TIMITBET音素集的PPH编码头，音素集中共有61个音素，则PPH编码头共有61个编码位，每一个编码位以TIMITBET音素集中的某一个音素为标签，该编码位的概率值表示增量式扫描窗口中的语音流信号片段对应该编码位的音素标签的似然概率。在以下描述的声学模型的训练阶段，由于正在被增量式扫描的语音流信号片段所对应的音素由监督数据给出，因此根据监督数据所指示的音素的身份而将Probability-Hot编码头中与该音素标签对应的编码位赋概率值，概率值的大小则随增量式扫描的过程逐渐从0增加到1；其余的编码位在整个增量式扫描过程中都赋值为0。在对该音素标签所对应的编码位赋概率值时，可以根据式(1)所示的增量式扫描时间完成度来赋值，也可以根据式(4)所示的增量式扫描窗口中语音流信号的短时能量和占比来赋值。

进一步参考图5，518表示的PPH编码头的维数为N，即音素集中音素的数目。音素集可以是上下文无关的音素集(Context Independent Phone set)，也可以是上下文相关的音素集(Context Dependent Phone set)。在518表示的PPH编码头中，518A对应音素集中的第一个音素，518B对应音素集中的第二个音素……依次类推；518C则对应音素集中当前正在被增量式扫描的音素，518D表示音素集中第N个音素，即音素集中的最后一个音素。

在本实施方式中，选用TIMIT语音数据集来训练声学模型，故518表示的PPH编码头的维数等于TIMIT数据集中音素集TIMITBET的容量61，其中包括20个元音，38个非元音和3个不发音符号。

在一些实施方式中，伴随着对音素语音流信号片段的增量式扫描，502中的每一个编码位的概率赋值要么是0，要么是根据式(1)或式(4)计算得到的概率值。测试任务中，每一个编码位的输出结果也都是一个似然概率。例如，若508表示的PVW头的值为0.6，则表明当前增量式扫描窗口中语音流信号片段的标签为元音的似然概率是0.6。

作为一个示例，可以根据所扫描的语音流信号片段的音素身份、属性和外部结构特点确定在该编码头中的哪一个编码位赋予同步于增量式扫描进度的概率值p，该概率值p的大小按照式(1)或式(4)来计算。对于只有1个编码位的PC编码头，根据增量式扫描进度直接赋概率值p。

对于PNS编码头，如果音素是58个非静音音素中的某一个，则给唯一的编码位赋概率值p；如果是3个静音音素中的某一个则给该唯一的编码位赋概率值0。

PVW和PCN编码头分别表征音素的元音和辅音属性，故而对于元音音素，PVW的单个编码位赋概率值p，PCN的单个编码位赋概率值0；对于辅音音素，PVW的单个编码位赋概率值0，PCN的单个编码位赋概率值p；对于静音音素，在增量式扫描时PVW和PCN都赋概率值0。

PVPH是Probability-Hot类型的编码头，对于元音语音流信号片段，在增量式扫描过程中，PVPH中与该元音标签对应的编码位赋概率值p，其余编码位赋值为0。对于辅音语音流信号片段，在增量式扫描过程中，PVPH的每一个编码位都赋概率值0。

PCPH也是Probability-Hot类型的编码头，对于辅音语音流信号片段，在增量式扫描过程中，PCPH中与该辅音标签对应的编码位赋概率值p，其余编码位赋值为0；对于元音语音流信号片段，在增量式扫描过程中，PCPH的每一个编码位都赋概率值0。

PPH编码头是表征音素在音素集中身份的Probability-Hot类型编码，因此，在PPH编码头中与该音素标签对应的编码位赋概率值p，其余编码位均赋概率值0。

在以下描述的声学模型的训练阶段，由与增量式扫描过程同步的概率赋值方法得到的Probability-Hot编码将作为监督数据被用来训练对应的瓶颈特征提取器。而在语音识别任务中，Probability-Hot编码常出现每一个编码位的预测值都为一个非零概率值的情况，一般而言，哪一位的概率值越高就说明增量式扫描语音流信号片段具有其所对应标签所指示的身份或属性的可能性就越大。

根据本申请的实施方式，Probability-Hot编码头所描述的对象一般指人类语音流信号的某一片段；但是Probability-Hot编码头的描述对象并不局限于某一段语音信号，它也可以是人脸图像、手写字符、医学影像或某种待识别的信号等。

音节的跨范畴多头层次化结构编码

根据本申请的一个或多个实施方式，可以根据建模对象，选择音节为建模单元。针对音节，可以设计跨范畴多头层次化结构编码，分别从不同的侧重方面对音节的身份编码标注，对音节的语音学、音系学、语言学或自定义属性编码标注，对音节包含音素的内部结构编码标注，或者对音节包含于词的外部结构特征进行编码标注，等等。由于音节范畴与音素范畴是整体-部分关系，音节范畴与词范畴又是部分-整体关系，因此针对音节的多头编码将具备明显的跨范畴特点。音节内部结构特征包括其中的音素数目，分别是哪些音素，音节首(onset)、音节核(nucleus)和音节尾(coda)分别是哪个或那些音素，音节首音是否是元音等等。

可以理解，在对语音流信号的片段作标注时，音节是不同于音素的范畴。音节一般包含一个或多个音素，是构成语音序列的单位，也是语音中最自然的语音结构单位。在一些实施方式中，根据英文中音节的划分规则，由语音数据集中的音素集和字典可生成一个音节集合，基于该音节集合可对每个英文单词作音节划分。因此，将音节作为建模单元时，可以建立针对音节的跨范畴多头层次化结构编码。

在针对音节的跨范畴多头层次化结构编码中，多个编码头可分别从不同的侧重方面针对音节的在音节集中的身份编码，针对音节的语音学、音系学、语言学或某些自定义属性编码，针对音节所包含音素的内部结构特征进行编码，或者针对音节包含于词的外部结构特征进行编码，等等。例如，身份属性包括音节在音节集中的身份属性、音节首的音素身份属性、音节核的音素身份属性、音节尾的音素身份属性和音节中一个或多个音素的身份属性。结构属性包括音节中所包含音素构成的音节内部结构属性，音节首、音节核以及音节尾中所包含音素构成的音节内部结构属性。

在一些实施方式中，音节的各编码头中的编码位主要分为两类，其一，是表征音节本身的身份或属性的编码位，其概率值取决于编码位的表征意义和增量式扫描窗口对该音节的语音流信号片段的覆盖程度；其二，是表征音节中音素的身份或属性的编码位，其概率值的大小取决于增量式扫描窗口对编码位的音素标签所对应的语音流信号片段的覆盖程度。

以下参考图6说明音节的各个编码头，以及在增量式扫描过程中的概率赋值方法。

图6示出了根据本申请实施方式的采用的音节的跨范畴多头层次化结构编码方案的实施例600。编码方案602中一共有5个编码头，即SC编码头604、SPH编码头606(A-C)、SNU-PPH编码头608、SK编码头610(A-G)和PISMHC编码头612(A-G)。

SC(Syllable Completion)编码头604表征对音节语音流信号片段的增量式扫描完成度，相当于增量式扫描窗口中的语音流信号片段是待识别音节的似然概率。SPH(Syllable Probability-Hot)编码头606则用Probability-Hot编码表征音节在音节集中的身份。

另外的三个编码头，SNU-PPH编码头608、SK编码头610和PISMHC编码头612是针对音节中音素进行描述的编码头，其意义不同于SC编码头604和SPH编码头606，它们的概率赋值方法也有所不同。

SNU-PPH(Syllable Nucleus-Phoneme Probability-Hot)编码头608表征音节中音节核的身份，是一个用Probability-Hot编码表征的音素。

SK(Syllable Keys)编码头610表征对音节中的7个音素的增量式扫描完成度，相当于增量式扫描窗口中语音信号分别包含第一至第七个音素的似然概率。根据ChrisBarker对音节数目的统计，英语中共有15831个音节，一个音节中最多含有7个音素，因此SK编码头610中共有7个编码位。对于SK头中的K1编码位，在训练任务中，随着扫描窗口从音节语音流信号片段t₁～t_n的第t₁帧开始逐渐覆盖第一个音素的语音流信号片段

其概率值p₁根据式(6)或式(8)来计算。在语音识别任务中，K1编码位则表示增量式扫描窗口中的语音流信号片段包含第一个音素语音流信号片段的概率。对于SK头中的K2编码位，在训练任务中，随着扫描窗口完全覆盖第一个音素的语音流信号片段t₁～t_n，并开始覆盖第二个音素的语音流信号片段

其概率值p₂根据式(6)或式(8)来计算。在识别任务中，K2编码位则表示增量式扫描窗口中的语音流信号片段包含第二个音素的语音流信号片段

的概率。对于SK头中的K3～K7编码位，其物理含义和赋值方法以此类推，在此不再赘述。如果音节中所包含音素的数目少于7个，则声音模型的监督训练过程中，没有音素与之对应的编码位的概率赋值始终为0。

PISMHC(Phoneme In Syllable Multi-Head Coding)编码头612共有7个编码块PIS1～PIS7，分别表示音节中可能存在的7个音素，每一个音素所对应的编码块PIS(aPhoneme In a Syllable)就是一个音素的跨范畴多头层次化结构编码。

根据本申请的实施方式，建模单元的各种编码方案体现了编码方案中的跨范畴、层次化的特点。使声学模型不仅能够对语音流信号分层次建模，还能实现对语音流信号动态特性的建模。利用分层结构特征构建声学模型将能有效提升模型的识别率和鲁棒性，不易受到环境噪声、干扰语音、说话人口音等因素的影响。本申请的编码方案解决了one-hot编码方式单一化缺陷，以及避免了one-hot编码不利于声学模型从多个不同的方面去学习建模单元的特性，导致声学模型存在性能上的缺陷。

以下描述根据本申请的声学模型的训练方法的一个或多个实施例。该方法用于训练先前提及的基于本申请建模单元编码方案的声学模型。

图7示出了根据本申请的声学模型的训练方法的一个实施例。在一些实施方式中，方法700例如在电子设备上实施，例如，如图1所示的计算设备100上实施。

对于上述计算设备和建模单元的实施方式中未描述的内容，可以参见下述声学模型的训练方法实施方式；同样地，对于训练方法实施方式中未描述的内容，可参见上述计算设备和建模单元实施方式。

如图7所示，在块701、预处理用于声学模型训练的训练数据，训练数据包括标注数据，标注数据包括针对声学模型的建模对象所选择的对应种类的建模单元以及建模单元的编码头方案，编码头方案中包括至少一个用于指示建模单元的声学属性的编码头。

在块702、对建模单元的经过预处理的语音流信号片段进行增量式扫描，获得语音流信号片段的级联特征向量。

在块703、计算指示增量式扫描的扫描范围对语音流信号片段的覆盖程度的概率值，其中，概率值用于表示扫描范围覆盖的语音流信号片段与建模单元的至少一个特定属性相符合的似然概率。

在块704、将概率值提供给与至少一个特定属性相关联的编码头，生成编码头的监督训练数据。

在块705、采用级联特征向量和监督训练数据对至少一个待训练的神经网络进行训练。

以下参考图8描述声学模型中建模单元多个编码头的训练系统800，并详细描述训练瓶颈特征提取器和瓶颈特征分类器的细节，以及在多头编码中，根据多个瓶颈特征提取器训练瓶颈特征组分类器的细节。

在编码方案中共有M个编码头，需要对每一个编码头独立设计含有瓶颈层的DNN网络，从而获得与编码头一一对应的M个瓶颈特征提取器。含瓶颈层的DNN网络的设计、网络参数初始化和训练都已经有成熟的技术方案，也有多种成套工具可以借用，因此本发明中的实施例将重点阐述与建模单元单头编码训练密切相关的增量式扫描和概率赋值技术在训练系统中的应用情况。

特征提取器可以是带瓶颈层的DNN网络在去掉瓶颈层之上的分类器部分之后得到的网络结构，也可以是任何由DNN、RNN、CNN等网络构成的具备提取建模单元特征向量的混合网络结构。如果DNN网络中没有瓶颈层，那么其中任意一个隐层都可以看作特征提取层，去除该隐层到输出层之间的部分即可以得到建模单元对应的特征提取器。

在图8中，802表示用于训练DNN的训练数据，其中主要包括音频训练数据810和标注数据804，其中也包括用于标注的建模单元集806。从训练数据中可以获得音素、音节、词等建模单元的分割时间戳808。

可以理解，在一些情况下，系统800可以被改变以用于单个编码头模型的训练。如图所示，在单个编码头的训练模型中，814中将只含有一个瓶颈特征提取器，并且相应地，822中将只针对该一个瓶颈特征提取器生成监督数据。

对于单个编码头模型来说，根据建模单元分割时间戳808，建模单元语音信号增量式扫描控制组件812将音频训练数据810中的语音流信号进行分割，分割后的建模单元语音信号在预加重、分帧、加窗等标准预处理后，依据图3示出的增量式扫描方法，在每一个时间步将增量式扫描窗口304中其维度逐步增加的特征向量308放入增量式扫描输入层310中，也即814A中。图3中的310和图8中的814A所指的是同一个增量式扫描输入层，也是包含瓶颈层的DNN网络814的输入层。

以单头编码对应的瓶颈特征提取器是814B为例，814B是多个隐藏层叠加得到的深度前馈神经网络，隐藏层的激活函数、层数、每层的节点数根据实际的训练任务确定。瓶颈特征提取器814B中的瓶颈层，也是814B中的最后一个隐藏层，专门用于提取针对语音信号某个编码头的瓶颈特征。瓶颈层是一个单层结构，其节点数根据实际的训练任务确定。瓶颈特征分类器818将瓶颈层的输出作为输入，包含一个可选的多隐藏层叠加形成的前馈型神经网络结构818A，即818A中的隐藏层可以是若干层也可以是0层，然后叠加一个线性回归层818B。来自于增量式扫描输入层中的特征向量，在经过DNN网络814处理后，从线性回归层818B输出与增量式扫描输入层814A中语音信号对应的建模单元的单头编码结果。

在包含瓶颈层DNN的训练流程800中，向上箭头表示训练数据在深层网络结构中的正向传播，向下箭头则表示训练误差在深层网络结构中的反向传播。建模单元的编码监督数据生成组件822接收812的增量式扫描同步信息，根据从标注数据中分割出的建模单元和建模单元的多头编码方案826，在训练阶段的每一个时间步按照概率赋值的方法生成被训练的建模单元编码头的监督数据。监督数据被送入输出层误差计算组件820中，并且根据瓶颈特征组分类器818输出到输出层误差计算组件820的编码头的预测值，在每一个时间步模拟计算向下箭头所示的误差反向传播的过程，从而实现含瓶颈层DNN网络814的训练。

在一些实施方式中，训练完成后得到的神经网络由瓶颈特征提取器和瓶颈特征分类器组成，有两种处理办法：其一，整体保留，作为针对单头编码的声学模型；其二，丢弃瓶颈特征分类器，保留瓶颈特征提取器，用于后续多头编码声学模型的训练。

对于多头编码模型来说，在建模单元的跨范畴多头层次化结构编码分类器824中，814B～814D是分别针对建模单元的M个编码头分别训练得到的M个瓶颈特征提取器，与增量式扫描技术相结合时，它们有公共的增量式扫描输入层814A。瓶颈特征提取器组和公共的增量式扫描输入层814A一起构成了瓶颈特征组提取器814。瓶颈特征组提取器组814的输出层816是由M个独立的瓶颈特征提取器的瓶颈层的输出向量级联而得到的级联瓶颈特征向量816，同时816也是建模单元的跨范畴多头层次化结构编码分类器818的输入层，因此作为一个示例，可以将其称为建模单元的跨范畴多头层次化结构编码的瓶颈特征组提取器和分类器之间的输出-输入中间层816。

建模单元的跨范畴多头层次化结构编码的瓶颈特征组分类器818则由两部分构成，其一是多隐层叠加形成的前馈型网络结构818A，其二是由线性回归层构成的建模单元的跨范畴多头层次化结构编码输出层818B。其中，多隐层叠加818A至少包含一层全连接层，其具体层数、激活函数和网络结构参数可根据具体任务来设计。由线性回归层818B输出的分类结果对应于建模单元的跨范畴多头层次化结构编码表征。

在训练期间，建模单元的多头编码监督数据生成组件822依据增量式扫描控制组件812所提供的建模单元分割的时间戳信息，和建模单元的跨范畴多头层次化结构编码方案826，按照每一个编码位的增量式扫描的概率赋值方法，在每一个时间步生成建模单元的跨范畴多头层次化结构编码监督训练数据，并将该监督训练数据送入多头编码输出层误差计算组件820，并且根据瓶颈特征组分类器818输出到输出层误差计算组件820的编码头的预测值，使用误差反向传播算法训练分类器网络818。

根据本申请的一些实施方式，如前述实施方式中所描述的，针对不同的建模单元，例如音素、音节或词等，将给出不同的编码方案。此外，同一种建模单元的编码方案也会随着声学模型的需求不同而不同。

训练完成后，得到针对建模单元的跨范畴多头层次化结构编码声学模型824。此时，该模型中的多头瓶颈特征提取器组和分类器均已经训练完成，可以应用于建模单元的分类识别任务，其输出层818B的输出结果即是建模单元的跨范畴多头层次化结构编码。

根据本申请的一个或多个实施方式，进一步参考图8说明建模单元为音素的跨范畴多头层次化结构编码500的声学模型的训练过程。

基于音素的跨范畴多头层次化结构编码500的声学模型的训练主要包括两个阶段。第一阶段，针对502中的每个编码头，训练相应的带瓶颈层的DNN网络。第二阶段，将502中8个编码头所对应的瓶颈特征提取器组合成为一个瓶颈特征提取器组，基于该瓶颈特征提取器组训练一个瓶颈特征组的分类器，所训练的分类器将在输出层输出502所示的音素的跨范畴多头层次化结构编码。

目前，DNN网络的设计、网络参数初始化和训练都已经有成熟的技术方案，也有多种成套工具Tensorflow、PyTorch和Kaldi等可以利用。作为一个示例，本实施例中采用TIMIT语音数据库，该语音数据库对每个音频文件有精准的音素级标注，完全满足本发明中对训练数据的要求。音素的不同编码头的训练可以采用相同的训练数据集，也可以采用不同的训练数据集。

可选地或替代地，在另外的实施方式中，采用其它的语音数据库作为训练数据，例如SwitchBoard、LibriSpeech、WSJ等，它们都没有对训练语料作精准的音素标注。在此情况下，需要借助于已有的语音识别工具、产品或者技术为训练语料生成音素级的标注。

继续参考图8，图8中806、808、812、818B、822和826中所指的建模单元，在本实施例中即是音素。在音素的多头编码分类器824中，814B～814D是分别针对502所示的音素的8个编码头训练得到的8个瓶颈特征提取器，它们一起构成了一个瓶颈特征提取器组814。由于都是针对音素语音流信号片段的瓶颈特征提取器，因此瓶颈特征提取器组814共用一个增量式扫描输入层814A。814中的瓶颈特征提取器已经逐个训练完成且参数都固定不变。

多隐层叠加形成的网络结构818A和由线性回归层构成的音素的多头编码输出层818B组合成为待训练的音素跨范畴多头层次化结构编码分类器818。其中，多隐层叠加818A至少包含一层全连接层，其具体层数和网络结构参数可根据具体任务来设计。在本实施例中，818A的隐层数目为4层，每层2048个节点，所采用的激活函数为线性整流函数ReLU。由线性回归层构成的音素的多头编码输出层818B对应于音素的多头编码表征502，即用502所示编码格式的数据作为监督训练数据。在训练过程中，音素的多头编码监督数据生成组件822利用音素标注数据，根据音素的跨范畴多头层次化结构编码方案826和音素语音信号增量式扫描控制组件812所提供的增量式扫描进度的情况，在每一个时间步生成音素的跨范畴多头层次化结构编码表征502的概率赋值的监督数据，然后由多头编码输出层误差计算组件820实时计算输出层的误差，从而完成音素跨范畴多头层次化结构编码分类器818的训练。

在已训练好的瓶颈特征提取器组814B～814D和音素跨范畴多头层次化结构编码分类器818之间是一个输出-输入中间层816。由瓶颈特征提取器组814B～814D输出的8个瓶颈特征级联而得到的特征向量构成了816中的数据，该级联瓶颈特征向量也是音素跨范畴多头层次化结构编码分类器818的输入层。在818训练的过程中，向上的黑色实心箭头表示训练数据在深层网络结构中的正向传播，向下的黑色实心箭头则表示训练误差在待训练的深层网络结构中的反向传播。

在传统的DNN-HMM声学模型训练中，输入层中的特征向量来自于一个固定宽度的窗口沿语音流信号逐帧移动时所提取的特征向量，即整个训练过程中，窗口的宽度不变，其位置则随时间而在语音信号上滑动。本发明中均采用图3示出的增量式扫描技术获得814A中的输入特征向量。

参考图9，描述与音素eh的语音流信号片段的增量式扫描过程相对应的音素eh的跨范畴8头层次化结构编码908输出层818的监督训练数据的同步变化过程900。

如图9所示，以音素eh的语音流信号片段的增量式扫描过程为例。音频信号902对应英文单词Question中的第三个音素eh。音频信号902的持续时间是90ms，将其分成18帧。对每一帧分别提取维数为40的fBank滤波器组特征。训练过程中，根据音素分割的时间戳808，确定动态扫描输入层开始eh音素语音信号扫描的第一个时间步t₁帧，并将增量式扫描窗口904左侧边沿与该音素的起始时刻对齐。在后续的扫描过程中，增量式扫描窗口904的宽度每一个时间步增大1帧，即在t₁时刻增量式扫描窗口904的宽度为1帧，在t₂时刻宽度增大为2帧，…，依次类推。

在本实施例中的eh音素对应的语音流信号片段持续时间为18帧，则在t₉时刻增量式扫描窗口904的宽度增加到9帧，在t₁₈时刻增量式扫描窗口904的宽度增加到18帧，此时针对eh音素的语音流信号片段的增量式扫描过程完毕，同时将开始下一个音素的语音流信号片段的增量式扫描。此时，增量式扫描窗口904的宽度将重新从1帧开始增加，其左边沿的位置与下一音素的起始时刻对齐。在从上述t₁时刻到t₁₈时刻的增量式扫描过程中，增量式扫描输入层中的特征向量906同步变化。

为了在整个扫描过程中能够将级联特征向量完全容纳，增量式扫描输入层中的节点数或者维数需要足够大。若设建模单元的语音流信号片段的最大长度为F帧，每一帧提取的特征向量的维数是D，则增量式扫描输入层的维度将大于或等于F*D。因此，如果以词为建模单元，增量式扫描输入层的维度一般大于以音素为建模单元的情况。

由于增量式扫描输入层在设置时会预留多余的节点数，未被级联特征向量占用的节点的输入值将直接置为零。在本实施例中，增量式扫描输入层的节点数为2000，级联特征向量最大维数为720，则整个扫描过程中，增量式扫描输入层右侧的1280个节点的输入信号始终都为零。

概率值p由式(1)计算得到，在t₁、t₂、t₉、t₁₄和t₁₈这5个时间步，其值分别为0.05、0.11、0.5、0.77和1.00。根据各编码头中编码位的意义，在每一个时间步，概率值p分别赋给PC编码头，PNS编码头，PVW编码头，PVPH编码头中与元音eh对应的编码位(第3编码位)，以及PPH编码头中与音素eh对应的编码位(Pi编码位)。

对于PVPH编码头910，由于TIMITBET音素集中的元音共有20个，故其每个元音的Probability-Hot编码均有20个编码位，例如根据TIMITBET中的元音音素集，其中第3编码位对应元音eh。

对于PPH编码头，则共有61个编码位，设其中与音素eh对应的是Pi编码位。除上述赋概率值p的编码位之外，音素eh的8头编码中其余的编码位均赋概率值0。

此外，由于音素eh是元音，因此表征辅音属性的PCN编码头和PCPH编码头中的每一个编码位在增量式扫描过程中都赋概率值0。

各个编码头的编码位在监督训练期间的赋值都是概率赋值，编码位的概率赋值与声学模型输入端的增量式扫描技术相配合，实现基于跨范畴多头层次化结构编码的声学模型的监督训练。

以上描述了建模单元为音素的声学模型的训练过程。以下参考图6和8描述针对音节的声学模型的训练过程。

根据本申请的实施方式，图8中806、808、812、818B、822和826中示出的建模单元在此即是音节。

如图8所示，对音节的多头编码方案中的每一个编码头训练对应的瓶颈特征提取器。

在本实施例中，如图6所示，音节的跨范畴多头层次化结构编码中共有5个编码头：SC编码头、SPH编码头、SNU-PPH编码头、SK编码头、PISMHC编码头；因此需要对应训练5个瓶颈特征提取器。

每个音节的编码头对应的DNN网络的结构可以相同也可以不同，视实际需要而定，但是DNN网络的参数都是分开独立训练的。每个编码头的训练数据集可以相同，也可以不同。

训练完成后，每个编码头的瓶颈特征提取器被保留下来，参数从此固定不再改变，后续将用于瓶颈特征组分类器的训练和用于构建跨范畴多头层次化结构编码声学模型。由于每个编码头的瓶颈特征提取器的增量式扫描输入层是一致的，因此，将本实施例中音节的5个编码头对应的瓶颈特征提取器并联排放构成瓶颈特征提取器组814，音节的瓶颈特征提取组814共用一个增量式扫描输入层814A，并从输入信号中提取出分别与5个编码头相对应的瓶颈特征，5个瓶颈特征构成一个瓶颈特征组，它们将被级联成为一个维度更高的级联瓶颈特征向量816，用于音节的跨范畴多头层次化结构编码的分类器818的训练。

在训练过程中，随着对音节语音信号的增量式扫描的推进，对应音节的5个编码头的监督数据也将发生变化。

相应地，在图8中，824即是本实施例中训练任务的目标，即音节的跨范畴5头层次化结构编码声学模型。

根据本申请的实施例，根据建模单元(音素、音节)的跨范畴多头层次化结构编码构建声学模型，能够针对建模单元的身份、属性、内外部结构等不同侧重方面对其语音流信号片段针对性极强地、全面地提取瓶颈特征组，有利于提高声学模型对建模单元的分类识别能力。建模单元的跨范畴多头层次化结构编码在与增量式扫描、概率赋值等监督训练技术相结合时，具备刻画语音流信号的动态层次化结构特征的潜能。

根据本申请的另一些实施方式，可以采用编码器-解码器结构来实施上述声学模型。在以编码器-解码器(Encoder-Decoder)为框架的端到端声学模型训练中，应用增量式扫描技术、编码位的概率赋值技术，针对建模单元的跨范畴多头层次化结构编码训练声学模型。

如图10所示，建模单元可以是音素、音节、词或者声韵母等。图10中，1002～1010分别和图8中的802～810相同，为模型训练中的输入端和输出端提供所需的数据。通过如图4所示的增量式扫描技术，建模单元语音流信号增量式扫描控制组件1012在每一个时间步将增量扫描得到的级联特征向量308送入编码器1016的增量式扫描输入层1016A。图中，1014示出了语音流信号片段，在每一个时间步由增量式扫描控制组件送入编码器(组)1016的过程。

表示语音流信号中第i个建模单元的信号片段中的帧序列。对第i个建模单元的语音流信号

增量式扫描的过程中，在

时间步，将该建模单元的语音流信号的第一帧

送入增量式扫描输入层1016A；在

时间步，将该建模单元的语音流信号的级联帧

送入增量式扫描输入层1016A；后续的增量式扫描过程依次类推，直到

时间步，将该建模单元的所有语音帧信号

级联后送入增量式扫描输入层1016A；此时完成对第i个建模单元语音流信号

的增量式扫描。在下一个时间步，将开始对建模单元的下一个语音流信号片段进行新一轮的增量式扫描。

在一些实施方式中，针对单头编码的情况，图10示出了针对建模单元的单头编码训练上下文特征向量提取器1016的系统功能框图1000，此时1016中只包含一个编码器UE1，即其中的K＝1。编码器UE1可以由RNN、LSTM、CNN等网络构成；可以是增加注意力机制的RNN网络；也可以是纯注意力或自注意力的编码器，例如Transformer，等等。编码器1016也称为上下文特征提取器1016。编码器UE1分别在不同的时间步输出上下文特征向量，例如在

时间步向解码器1020输出上下文特征向量

因为只有一个编码头，故在每一个时间步t的级联上下文特征向量1018中都只有来自于一个编码头的上下文特征向量

图10中示出了不同时间步时1018中的上下文特征向量级联的情况。建模单元语音流信号单头编码的特征解码器1020向建模单元单头编码误差计算组件1022输出单头编码的预测值，1022据此根据单头编码的监督数据计算输出层的误差，通过误差反向传播算法，完成编码器1016和解码器1020的训练。一般情况下，若编码器-解码器结构中有循环神经网络(RNN或LSTM)模块，训练时采用误差沿时反向传播算法(Back Propagation ThroughTime,BPTT)。若编码器-解码器中没有循环神经网络(RNN或LSTM)模块，而只包含前馈网络，例如基于纯注意力机制的Transformer模型，训练时一般采用普通的误差反向传播算法(Back Propagation,BP)。

训练完成后1016作为对应编码头的上下文特征提取器保留，1020则被丢弃。在逐一针对每个单头编码完成编码器1016的训练后，这些编码器将组成编码器组，被用于针对多头编码的解码器的训练。

在一些实施方式中，针对多头编码的情况，图10还示出了针对建模单元的跨范畴多头层次化结构编码训练解码器1020的系统功能框图1000，此时1016所包含的编码器的数目K与建模单元的编码头数相同。若此时的建模单元是音素，且音素的多头编码方案如图5所示，则1016中包含8个与编码头对应的编码器UE1～UE8，即K＝8。此时，1016中针对每一个编码头的编码器都已经独立训练完成，它们一起形成针对该建模单元的上下文特征提取器组1016，也可称为编码器组1016。1016在每一个时间步向级联特征解码器1020输出级联的上下文特征向量1018。

图10中示出了不同时间步时1018中的上下文特征向量级联的情况。因有K个编码头，故在每一个时间步t的级联上下文特征向量1018都是分别来自于K个编码头的上下文特征向量级联的结果

建模单元语音流信号多头编码的级联特征解码器1020向建模单元多头编码输出误差计算组件1022输出针对建模单元的多头编码的预测结果，系统根据1022计算的输出层误差，利用误差反向传播或沿时误差反向传播算法，训练多头编码的级联特征解码器1020。在一些示例中，级联特征解码器1020，也可以称为上下文特征组解码器1020。

在分别针对建模单元的每个编码头训练上下文特征提取器后，组合得到特征提取器组，并基于该特征提取器组训练多头编码的级联上下文特征分类器，从而完成针对该建模单元的声学模型的训练。

根据本申请的一个或多个实施例，还公开了一种计算机可读介质，机器可读介质上存储有指令，该指令在机器上执行时使机器执行上述任一个声学模型的编码方法或训练方法。

根据本申请的一个或多个实施例，还公开了一种系统，包括：

处理器，用于执行存储器中的指令，以执行上述任一项的声学模型的编码方法或训练方法。本申请的各方法实施方式均可以以软件、磁件、固件等方式实现。

可将程序代码应用于输入指令，以执行本文描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的，处理系统包括具有诸如例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何系统。

程序代码可以用高级程序化语言或面向对象的编程语言来实现，以便与处理系统通信。在需要时，也可用汇编语言或机器语言来实现程序代码。事实上，本文中描述的机制不限于任何特定编程语言的范围。在任一情形下，该语言可以是编译语言或解释语言。

这样的机器可读存储介质可以包括但不限于通过机器或设备制造或形成的物品的非瞬态的有形安排，其包括存储介质，诸如：硬盘任何其它类型的盘，包括软盘、光盘、紧致盘只读存储器(CD-ROM)、紧致盘可重写(CD-RW)以及磁光盘；半导体器件，例如只读存储器(ROM)、诸如动态随机存取存储器(DRAM)和静态随机存取存储器(SRAM)之类的随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、闪存、电可擦除可编程只读存储器(EEPROM)；相变存储器(PCM)；磁卡或光卡；或适于存储电子指令的任何其它类型的介质。

因此，本申请的各实施例还包括非瞬态的有形计算机可读介质，该介质包含指令或包含设计数据，诸如硬件描述语言(HDL)，它定义本文中描述的结构、电路、装置、处理器和/或系统特征。这些实施例也被称为程序产品。

在一些情况下，指令转换器可用来将指令从源指令集转换至目标指令集。例如，指令转换器可以变换(例如使用静态二进制变换、包括动态编译的动态二进制变换)、变形、仿真或以其它方式将指令转换成将由核来处理的一个或多个其它指令。指令转换器可以用软件、硬件、固件、或其组合实现。指令转换器可以在处理器上、在处理器外、或者部分在处理器上且部分在处理器外。

以下段落提供了本文公开的各种实施例的示例。

示例1、一种声学模型的建模单元的编码方法，其特征在于，包括：

示例2、根据示例1所述的编码方法，其特征在于，所述增量式扫描还包括：

从所述增量式扫描的所述第一个时间步到最后一个时间步，将所述扫描范围在每个时间步增大一个所述音频帧的宽度。

示例3、根据示例1所述的编码方法，其特征在于，所述增量式扫描还包括：

所述扫描范围的左边沿对应于在所述第一个时间步的所述音频帧的起始时刻，所述扫描范围的右边沿对应于在所述当前时间步的所述音频帧的结束时刻。

示例4、根据示例1至3中任一项所述的编码方法，其特征在于，所述扫描范围在所述扫描中对所述语音流信号片段的覆盖程度包括：所述扫描的时间完成度和所述扫描范围中的所述语音流信号片段的短时能量和占比。

示例5、根据示例4所述的编码方法，其特征在于，计算指示所述覆盖程度的概率值还包括，根据所述扫描的所述时间完成度，计算所述概率值。

示例6、根据示例4所述的编码方法，其特征在于，计算指示所述覆盖程度的概率值还包括，根据所述扫描范围中的所述语音流信号片段的所述短时能量和占比，计算所述概率值。

示例7、根据示例1至6中任一项所述的编码方法，其特征在于，所述特定属性来自于与所述建模单元的种类相关联的至少一个预先确定的声学属性，其中，所述声学属性包括身份属性、语音学属性、音系学属性、语言学属性、自定义属性和结构属性中的至少一个。

示例8、一种声学模型的建模单元的编码方法，其特征在于，包括：

针对所述声学模型的建模对象，选择一种或多种建模单元；

示例9、根据示例8所述的编码方法，其特征在于，针对所述声学模型的建模对象，选择一种或多种建模单元还包括，从音素建模单元和音节建模单元中选择至少一种。

示例10、根据示例8所述的编码方法，其特征在于，所述声学属性包括身份属性、语音学属性、音系学属性、语言学属性、自定义属性和结构属性中的至少一个。

示例11、根据示例10所述的编码方法，其特征在于，在所述建模单元的种类是音素的情况下，所述身份属性包括音素在音素集中的身份属性；

所述语音学属性包括元音属性、辅音属性、鼻音属性、边音属性、嘎裂化属性和长短音属性；以及

所述结构属性包括音素分别位于音节首、音节核或音节尾的音素外部结构属性。

示例12、根据示例11所述的编码方法，其特征在于，所述元音属性包括各种不同舌位和唇形的元音属性，以及所述辅音属性包括清辅音属性，浊辅音属性，塞音属性，擦音属性和塞擦音属性。

示例13、根据示例10所述的编码方法，其特征在于，在所述建模单元的种类是音节的情况下，所述身份属性包括音节在音节集中的身份属性、音节首的音素身份属性、音节核的音素身份属性、音节尾的音素身份属性和音节中一个或多个音素的身份属性；以及

所述结构属性包括音节中所包含音素构成的音节内部结构属性，音节首、音节核以及音节尾中所包含音素构成的音节内部结构属性。

示例14、根据示例11所述的编码方法，其特征在于，确定与所述建模单元的对应种类相关联的多个预先确定的声学属性，以及所述多个预先确定的声学属性对应的多个编码头还包括，从包括音素在音素集中的身份属性、元音属性、辅音属性、鼻音属性、边音属性、嘎裂化属性、长短音属性、音素分别位于音节首、音节核或音节尾的音素外部结构属性的所述多个预先确定的声学属性中确定多个所述声学属性以及与确定的各个所述声学属性相对应的所述编码头。

示例15、根据示例13所述的编码方法，其特征在于，确定与所述建模单元的对应种类相关联的多个预先确定的声学属性，以及所述多个预先确定的声学属性对应的多个编码头还包括，从包括音节在音节集中的身份属性、音节首的音素身份属性、音节核的音素身份属性、音节尾的音素身份属性和音节中一个或多个音素的身份属性，音节中所包含音素构成的音节内部结构属性，音节首、音节核以及音节尾中所包含音素构成的音节内部结构属性的所述多个预先确定的声学属性中确定多个所述声学属性以及与确定的各个所述声学属性相对应的所述编码头。

示例16、根据示例8所述的编码方法，其特征在于，对所述建模单元的经过预处理的语音流信号片段进行增量式扫描，以及计算指示所述增量式扫描的扫描范围对所述语音流信号片段的覆盖程度的概率值还包括：

根据所述增量式扫描的当前时间步所对应的所述扫描范围，对所述语音流信号片段中由所述扫描范围确定的音频帧进行扫描，其中所述扫描范围包括从所述增量式扫描的第一个时间步到所述当前时间步包含的全部所述音频帧对应的宽度；

对所述扫描范围中的每个所述音频帧提取特征向量，获得由所述特征向量顺序组成的特征向量序列；以及

将所述特征向量序列按所述增量式扫描的时间顺序级联为级联特征向量。

示例17、根据示例8所述的编码方法，其特征在于，所述扫描范围对所述语音流信号片段的覆盖程度包括：所述扫描的时间完成度和所述扫描范围中的所述语音流信号片段的短时能量和占比。

示例18、根据示例17所述的编码方法，其特征在于，计算指示所述增量式扫描的扫描范围对所述语音流信号片段的覆盖程度的概率值还包括，根据所述增量式扫描的所述时间完成度，计算所述概率值。

示例19、根据示例17所述的编码方法，其特征在于，计算指示所述增量式扫描的扫描范围对所述语音流信号片段的覆盖程度的概率值还包括，根据所述扫描范围中的所述语音流信号片段的所述短时能量和占比，计算所述概率值。

示例20、根据示例8所述的声学模型的训练方法，其特征在于，将所述概率值提供给与所述至少一个特定属性相关联的所述编码头还包括：

根据所述编码头中的每个编码位的预定标签所指示的所述建模单元的具体声学属性，确定与所述至少一个特定属性对应的所述编码位；

将确定的所述编码位的值更新为所述概率值。

示例21、一种声学模型的训练方法，其特征在于，包括：

示例22、根据示例21所述的声学模型的训练方法，其特征在于，对所述建模单元的经过预处理的语音流信号片段进行增量式扫描，获得所述语音流信号片段的级联特征向量还包括：

将所述特征向量序列按所述增量式扫描的时间顺序级联为所述级联特征向量。

示例23、根据示例21所述的编码方法，其特征在于，所述扫描范围对所述语音流信号片段的覆盖程度包括：所述扫描的时间完成度和所述扫描范围中的所述语音流信号片段的短时能量和占比。

示例24、根据示例23所述的编码方法，其特征在于，计算指示所述增量式扫描的扫描范围对所述语音流信号片段的覆盖程度的概率值还包括，根据所述增量式扫描的所述时间完成度，计算所述概率值。

示例25、根据示例23所述的编码方法，其特征在于，计算指示所述增量式扫描的扫描范围对所述语音流信号片段的覆盖程度的概率值还包括，根据所述扫描范围中的所述语音流信号片段的所述短时能量和占比，计算所述概率值。

示例26、根据示例21所述的声学模型的训练方法，其特征在于，将所述概率值提供给与所述至少一个特定属性相关联的所述编码头，生成所述编码头的监督训练数据还包括：

根据所述编码头中的每个编码位的预定标签所指示的所述建模单元的具体声学属性，确定与所述至少一个特定属性对应的所述编码位；以及

将确定的所述编码位的值更新为所述概率值，以生成所述编码头的所述监督训练数据。

示例27、根据示例21所述的声学模型的训练方法，其特征在于，采用所述级联特征向量和所述监督训练数据对至少一个待训练的神经网络进行训练还包括：

针对单个所述编码头，训练对应于所述编码头的所述神经网络的瓶颈特征提取器和瓶颈特征分类器。

示例28、根据示例27所述的声学模型的训练方法，其特征在于，训练对应于所述编码头的所述神经网络的瓶颈特征提取器和瓶颈特征分类器还包括，将所述级联特征向量输入所述神经网络的增量式扫描输入层，以训练对应于所述编码头的所述瓶颈特征提取器和瓶颈特征分类器。

示例29、根据示例28所述的声学模型的训练方法，其特征在于，所述增量式扫描输入层的节点的数目根据所述建模单元的种类或粒度大小确定。

示例30、根据示例28所述的声学模型的训练方法，其特征在于，所述增量式扫描输入层的节点的数目大于或等于所述级联特征向量的最大维数；

在所述节点的数目大于所述最大维数的情况下，未被所述级联特征向量占用的节点的输入值将直接设为零。

示例31、根据示例27所述的声学模型的训练方法，其特征在于，训练对应于所述编码头的所述神经网络的瓶颈特征提取器和瓶颈特征分类器还包括，

在所述神经网络中，将所述瓶颈特征提取器输出的瓶颈特征输入所述瓶颈特征分类器，以生成单头编码的预测值；

利用所述监督训练数据和所述预测值，计算所述瓶颈特征分类器的输出层的误差，并基于所述误差使用误差反向传播算法训练所述瓶颈特征提取器和瓶颈特征分类器。

示例32、根据示例21所述的声学模型的训练方法，其特征在于，采用所述级联特征向量和所述监督训练数据对至少一个待训练的神经网络进行训练还包括：

针对多个所述编码头，分别训练与各个所述编码头对应的各个所述神经网络的瓶颈特征提取器和瓶颈特征分类器；

基于由各个已训练的所述瓶颈特征提取器组成的瓶颈特征提取器组，训练所述瓶颈特征提取器组的瓶颈特征组分类器。

示例33、根据示例32所述的声学模型的训练方法，其特征在于，针对多个所述编码头，分别训练与各个所述编码头对应的各个所述神经网络的瓶颈特征提取器和瓶颈特征分类器还包括，将所述级联特征向量输入所述神经网络的增量式扫描输入层，以训练对应于各个所述编码头的所述瓶颈特征提取器和瓶颈特征分类器。

示例34、根据示例32所述的声学模型的训练方法，其特征在于，基于由各个已训练的所述瓶颈特征提取器组成的瓶颈特征提取器组，训练所述瓶颈特征提取器组的瓶颈特征组分类器还包括，将各个所述瓶颈特征提取器输出的瓶颈特征向量进行级联，并将级联后的所述瓶颈特征向量作为所述瓶颈特征组分类器的输入。

示例35、根据示例32所述的声学模型的训练方法，其特征在于，基于由各个已训练的所述瓶颈特征提取器组成的瓶颈特征提取器组，训练所述瓶颈特征提取器组的瓶颈特征组分类器还包括，

将所述瓶颈特征提取器组输出的级联瓶颈特征向量输入所述瓶颈特征组分类器，以生成多头编码的预测值；

利用所述监督训练数据和所述预测值，计算所述瓶颈特征组分类器的输出层的误差，并基于所述误差使用误差反向传播算法训练所述瓶颈特征组分类器。

示例36、根据示例21所述的声学模型的训练方法，其特征在于，采用所述级联特征向量和所述监督训练数据对至少一个待训练的神经网络进行训练还包括：

针对单个所述编码头，训练对应于所述编码头的编码器-解码器结构中的编码器和解码器。

示例37、根据示例36所述的声学模型的训练方法，其特征在于，训练对应于所述编码头的所述编码器-解码器结构还包括，将所述级联特征向量输入所述编码器的增量式扫描输入层，以训练对应于所述编码头的所述编码器-解码器结构。

示例38、根据示例36所述的声学模型的训练方法，其特征在于，训练对应于所述编码头的所述编码器-解码器结构，还包括，

将所述编码器生成的上下文特征向量输入所述解码器，以生成单头编码的预测值；

利用所述监督训练数据和所述预测值计算所述解码器的输出层的误差，并基于所述误差使用误差反向传播算法训练所述编码器-解码器结构。

示例39、根据示例21所述的声学模型的训练方法，其特征在于，采用所述级联特征向量和所述监督训练数据对至少一个待训练的神经网络进行训练还包括：

针对多个所述编码头，分别训练与各个所述编码头对应的各个编码器-解码器结构；

基于由各个已训练的所述编码器-解码器结构中的编码器组成的编码器组，训练所述编码器组的上下文特征组解码器。

示例40、根据示例39所述的声学模型的训练方法，其特征在于，针对多个所述编码头，分别训练与各个所述编码头对应的各个编码器-解码器结构还包括，将所述级联特征向量输入所述编码器-解码器结构的增量式扫描输入层，以训练对应于各个所述编码头的所述编码器-解码器结构。

示例41、根据示例39所述的声学模型的训练方法，其特征在于，基于由各个已训练的所述编码器组成的编码器组，训练所述编码器组的上下文特征组解码器还包括，将各个所述编码器输出的上下文特征向量进行级联，并将级联后的所述上下文特征向量作为所述上下文特征组解码器的输入。

示例42、根据示例39所述的声学模型的训练方法，其特征在于，基于由各个已训练的所述编码器组成的编码器组，训练所述编码器组的上下文特征组解码器还包括，获得所述上下文特征组解码器输出的多头编码的预测值；

利用所述监督训练数据和所述预测值计算所述上下文特征组解码器的输出层的误差，并基于所述误差使用误差反向传播算法训练所述上下文特征组解码器。

示例43、根据示例21至42中任一项所述的声学模型的训练方法，其特征在于，在所述编码头方案包括单个所述编码头的情况下，在所述神经网络训练完成后，所述编码头对应的瓶颈特征提取器或编码器作为所述神经网络的一部分被保留，瓶颈特征分类器或解码器被丢弃；或者

所述编码头对应的瓶颈特征提取器和瓶颈特征分类器，或编码器和解码器作为所述神经网络的一部分被保留。

示例44、一种计算机可读介质，其特征在于，所述计算机可读存储介质上存储有指令，该指令在计算机上执行时使所述计算机执行根据示例1至43中任一项所述的方法。

示例45、一种系统，其特征在于，包括：

处理器，用于执行所述存储器中的所述指令，以执行示例1至43中任一项所述的方法。

Claims

1.一种声学模型的建模单元的编码方法，其特征在于，包括：

2.根据权利要求1所述的编码方法，其特征在于，所述增量式扫描还包括：

3.根据权利要求1所述的编码方法，其特征在于，所述增量式扫描还包括：

4.根据权利要求1至3中任一项所述的编码方法，其特征在于，所述扫描范围在所述扫描中对所述语音流信号片段的覆盖程度包括：所述扫描的时间完成度和所述扫描范围中的所述语音流信号片段的短时能量和占比。

5.根据权利要求4所述的编码方法，其特征在于，计算指示所述覆盖程度的概率值还包括，根据所述扫描的所述时间完成度，计算所述概率值。

6.根据权利要求4所述的编码方法，其特征在于，计算指示所述覆盖程度的概率值还包括，根据所述扫描范围中的所述语音流信号片段的所述短时能量和占比，计算所述概率值。

7.根据权利要求1至3中任一项所述的编码方法，其特征在于，所述特定属性来自于与所述建模单元的种类相关联的至少一个预先确定的声学属性，其中，所述声学属性包括身份属性、语音学属性、音系学属性、语言学属性、自定义属性和结构属性中的至少一个。

8.一种声学模型的建模单元的编码方法，其特征在于，包括：

针对所述声学模型的建模对象，选择一种或多种建模单元；

9.根据权利要求8所述的编码方法，其特征在于，针对所述声学模型的建模对象，选择一种或多种建模单元还包括，从音素建模单元和音节建模单元中选择至少一种。

10.根据权利要求8所述的编码方法，其特征在于，所述声学属性包括身份属性、语音学属性、音系学属性、语言学属性、自定义属性和结构属性中的至少一个。

11.根据权利要求10所述的编码方法，其特征在于，在所述建模单元的种类是音素的情况下，所述身份属性包括音素在音素集中的身份属性；

12.根据权利要求11所述的编码方法，其特征在于，所述元音属性包括各种不同舌位和唇形的元音属性，以及所述辅音属性包括清辅音属性，浊辅音属性，塞音属性，擦音属性和塞擦音属性。

13.根据权利要求10所述的编码方法，其特征在于，在所述建模单元的种类是音节的情况下，所述身份属性包括音节在音节集中的身份属性、音节首的音素身份属性、音节核的音素身份属性、音节尾的音素身份属性和音节中一个或多个音素的身份属性；以及

14.根据权利要求11所述的编码方法，其特征在于，确定与所述建模单元的对应种类相关联的多个预先确定的声学属性，以及所述多个预先确定的声学属性对应的多个编码头还包括，从包括音素在音素集中的身份属性、元音属性、辅音属性、鼻音属性、边音属性、嘎裂化属性、长短音属性、音素分别位于音节首、音节核或音节尾的音素外部结构属性的所述多个预先确定的声学属性中确定多个所述声学属性以及与确定的各个所述声学属性相对应的所述编码头。

15.根据权利要求13所述的编码方法，其特征在于，确定与所述建模单元的对应种类相关联的多个预先确定的声学属性，以及所述多个预先确定的声学属性对应的多个编码头还包括，从包括音节在音节集中的身份属性、音节首的音素身份属性、音节核的音素身份属性、音节尾的音素身份属性和音节中一个或多个音素的身份属性，音节中所包含音素构成的音节内部结构属性，音节首、音节核以及音节尾中所包含音素构成的音节内部结构属性的所述多个预先确定的声学属性中确定多个所述声学属性以及与确定的各个所述声学属性相对应的所述编码头。

16.根据权利要求8所述的编码方法，其特征在于，对所述建模单元的经过预处理的语音流信号片段进行增量式扫描，以及计算指示所述增量式扫描的扫描范围对所述语音流信号片段的覆盖程度的概率值还包括：

17.根据权利要求8所述的编码方法，其特征在于，所述扫描范围对所述语音流信号片段的覆盖程度包括：所述扫描的时间完成度和所述扫描范围中的所述语音流信号片段的短时能量和占比。

18.根据权利要求17所述的编码方法，其特征在于，计算指示所述增量式扫描的扫描范围对所述语音流信号片段的覆盖程度的概率值还包括，根据所述增量式扫描的所述时间完成度，计算所述概率值。

19.根据权利要求17所述的编码方法，其特征在于，计算指示所述增量式扫描的扫描范围对所述语音流信号片段的覆盖程度的概率值还包括，根据所述扫描范围中的所述语音流信号片段的所述短时能量和占比，计算所述概率值。

20.根据权利要求8所述的编码方法，其特征在于，将所述概率值提供给与所述至少一个特定属性相关联的所述编码头还包括：

将确定的所述编码位的值更新为所述概率值。

21.一种声学模型的训练方法，其特征在于，包括：

22.根据权利要求21所述的声学模型的训练方法，其特征在于，对所述建模单元的经过预处理的语音流信号片段进行增量式扫描，获得所述语音流信号片段的级联特征向量还包括：

23.根据权利要求21所述的声学模型的训练方法，其特征在于，所述扫描范围对所述语音流信号片段的覆盖程度包括：所述扫描的时间完成度和所述扫描范围中的所述语音流信号片段的短时能量和占比。

24.根据权利要求23所述的声学模型的训练方法，其特征在于，计算指示所述增量式扫描的扫描范围对所述语音流信号片段的覆盖程度的概率值还包括，根据所述增量式扫描的所述时间完成度，计算所述概率值。

25.根据权利要求23所述的声学模型的训练方法，其特征在于，计算指示所述增量式扫描的扫描范围对所述语音流信号片段的覆盖程度的概率值还包括，根据所述扫描范围中的所述语音流信号片段的所述短时能量和占比，计算所述概率值。

26.根据权利要求21所述的声学模型的训练方法，其特征在于，将所述概率值提供给与所述至少一个特定属性相关联的所述编码头，生成所述编码头的监督训练数据还包括：

27.根据权利要求21所述的声学模型的训练方法，其特征在于，采用所述级联特征向量和所述监督训练数据对至少一个待训练的神经网络进行训练还包括：

28.根据权利要求27所述的声学模型的训练方法，其特征在于，训练对应于所述编码头的所述神经网络的瓶颈特征提取器和瓶颈特征分类器还包括，将所述级联特征向量输入所述神经网络的增量式扫描输入层，以训练对应于所述编码头的所述瓶颈特征提取器和瓶颈特征分类器。

29.根据权利要求28所述的声学模型的训练方法，其特征在于，所述增量式扫描输入层的节点的数目根据所述建模单元的种类或粒度大小确定。

30.根据权利要求28所述的声学模型的训练方法，其特征在于，所述增量式扫描输入层的节点的数目大于或等于所述级联特征向量的最大维数；

31.根据权利要求27所述的声学模型的训练方法，其特征在于，训练对应于所述编码头的所述神经网络的瓶颈特征提取器和瓶颈特征分类器还包括，

32.根据权利要求21所述的声学模型的训练方法，其特征在于，采用所述级联特征向量和所述监督训练数据对至少一个待训练的神经网络进行训练还包括：

33.根据权利要求32所述的声学模型的训练方法，其特征在于，针对多个所述编码头，分别训练与各个所述编码头对应的各个所述神经网络的瓶颈特征提取器和瓶颈特征分类器还包括，将所述级联特征向量输入所述神经网络的增量式扫描输入层，以训练对应于各个所述编码头的所述瓶颈特征提取器和瓶颈特征分类器。

34.根据权利要求32所述的声学模型的训练方法，其特征在于，基于由各个已训练的所述瓶颈特征提取器组成的瓶颈特征提取器组，训练所述瓶颈特征提取器组的瓶颈特征组分类器还包括，将各个所述瓶颈特征提取器输出的瓶颈特征向量进行级联，并将级联后的所述瓶颈特征向量作为所述瓶颈特征组分类器的输入。

35.根据权利要求32所述的声学模型的训练方法，其特征在于，基于由各个已训练的所述瓶颈特征提取器组成的瓶颈特征提取器组，训练所述瓶颈特征提取器组的瓶颈特征组分类器还包括，

36.根据权利要求21所述的声学模型的训练方法，其特征在于，采用所述级联特征向量和所述监督训练数据对至少一个待训练的神经网络进行训练还包括：

37.根据权利要求36所述的声学模型的训练方法，其特征在于，训练对应于所述编码头的所述编码器-解码器结构还包括，将所述级联特征向量输入所述编码器的增量式扫描输入层，以训练对应于所述编码头的所述编码器-解码器结构。

38.根据权利要求36所述的声学模型的训练方法，其特征在于，训练对应于所述编码头的所述编码器-解码器结构，还包括，

39.根据权利要求21所述的声学模型的训练方法，其特征在于，采用所述级联特征向量和所述监督训练数据对至少一个待训练的神经网络进行训练还包括：

40.根据权利要求39所述的声学模型的训练方法，其特征在于，针对多个所述编码头，分别训练与各个所述编码头对应的各个编码器-解码器结构还包括，将所述级联特征向量输入所述编码器-解码器结构的增量式扫描输入层，以训练对应于各个所述编码头的所述编码器-解码器结构。

41.根据权利要求39所述的声学模型的训练方法，其特征在于，基于由各个已训练的所述编码器组成的编码器组，训练所述编码器组的上下文特征组解码器还包括，将各个所述编码器输出的上下文特征向量进行级联，并将级联后的所述上下文特征向量作为所述上下文特征组解码器的输入。

42.根据权利要求39所述的声学模型的训练方法，其特征在于，基于由各个已训练的所述编码器组成的编码器组，训练所述编码器组的上下文特征组解码器还包括，获得所述上下文特征组解码器输出的多头编码的预测值；

43.根据权利要求21至42中任一项所述的声学模型的训练方法，其特征在于，在所述编码头方案包括单个所述编码头的情况下，在所述神经网络训练完成后，所述编码头对应的瓶颈特征提取器或编码器作为所述神经网络的一部分被保留，瓶颈特征分类器或解码器被丢弃；或者

44.一种计算机可读介质，其特征在于，所述计算机可读存储介质上存储有指令，该指令在计算机上执行时使所述计算机执行根据权利要求1至43中任一项所述的方法。

45.一种计算机设备，其特征在于，包括：

处理器，用于执行所述存储器中的所述指令，以执行权利要求1至43中任一项所述的方法。