CN112735392B

CN112735392B - 语音处理方法、装置、设备及存储介质

Info

Publication number: CN112735392B
Application number: CN202011634031.4A
Authority: CN
Inventors: 吴明辉; 方昕; 刘俊华
Original assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Current assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2024-04-16
Anticipated expiration: 2040-12-31
Also published as: CN112735392A

Abstract

本申请实施例公开了一种语音处理方法、装置、设备及存储介质，通过对用于解码文本单元的权重序列进行改进，使得每一文本单元对应的权重序列与各语音帧的时间信息的关联关系趋近于目标函数关系，由于每一文本单元对应的目标函数关系表示，该文本单元与各个语音帧的时间信息的关联度，与各个语音帧的时间信息间的关联关系，这就使得，利用权重序列进行解码得到的文本单元与语音帧的时间信息是强相关的，因此，利用各个语音帧的时间信息，以及各文本单元对应的目标函数能够准确实现语音帧的时间信息与文本单元的对应关系，也就是将语音帧的时间信息与文本单元准确对齐，从而提高了将语音识别结果与音频对齐的准确率。

Description

语音处理方法、装置、设备及存储介质

技术领域

本申请涉及语音处理技术领域，更具体地说，涉及一种语音处理方法、装置、设备及存储介质。

背景技术

在语音识别任务中，端到端建模方法具有声学和语言联合建模的优点，理论上的潜力很大。但端到端语音识别任务摒弃了传统语音识别的时序解码方式，采用自回归递推方式解码，使得最终只能获取到对音频进行语音识别的语音识别结果，而无法将语音识别结果与音频对齐，即无法获取语音识别结果中的各个字或词在音频中的位置。

为了使得端到端语音识别任务也能够将语音识别结果与音频对齐，有方案提出基于端到端语音识别任务中的各个语音帧对文字结果中的字或词的注意力权重来将语音识别结果与语音信号的时间边界信息对齐，但基于目前的方法得到对齐结果的错误率较高。

因此，如何提高将语音识别结果与音频对齐的准确率成为亟待解决的技术问题。

发明内容

有鉴于此，本申请提供了一种语音处理方法、装置、设备及存储介质，以提高将语音识别结果与音频对齐的准确率。

为了实现上述目的，现提出的方案如下：

一种语音处理方法，包括：

对待识别的语音数据的各个语音帧进行编码，得到各个语音帧的编码结果；

利用所述各个语音帧的编码结果，获取与待解码的每一个文本单元对应的目标函数关系和用于解码得到该文本单元的权重序列；每一个文本单元对应的权重序列表示该文本单元与每一语音帧的关联度；每一个文本单元对应的目标函数关系用于表示：该文本单元与各个语音帧的时间信息的关联度，与各个语音帧的时间信息间的关联关系；每一个文本单元对应的权重序列与所述各个语音帧的时间信息的关联关系趋近于该文本单元对应的目标函数关系；

在基于各个文本单元对应的权重序列解码得到所有的文本单元后，利用所述各个语音帧的时间信息，以及各个文本单元对应的目标函数关系，确定各语音帧的时间信息与文本单元的对应关系。

上述方法，优选的，所述利用各个语音帧的时间信息，以及各个文本单元对应的目标函数关系，确定各个语音帧的时间信息与文本单元的对应关系，包括：

对于每一个语音帧，将该语音帧的时间信息输入各个目标函数关系，得到各个目标函数关系输出的关联度，每一个目标函数关系输出的关联度为该语音帧的时间信息与该目标函数对应的文本单元的关联度；

基于各个语音帧的时间信息与每一个文本单元的关联度，确定语音帧的时间信息与文本单元的对应关系。

上述方法，优选的，所述基于各个语音帧的时间信息与每一个文本单元的关联度，确定语音帧的时间信息与文本单元的对应关系，包括：

根据各个语音帧的时间信息与每一个文本单元的关联度构建概率图模型；所述概率图模型中每个状态节点对应一个语音帧和一个文本单元，每个状态节点的发射概率为该状态节点对应的语音帧的时间信息和文本单元的关联度；不同状态节点对应不同语音帧的时间信息和/或不同文本单元；

利用所述概率图模型确定语音帧的时间信息与文本单元的对应关系。

上述方法，优选的，所述概率图模型为隐马尔科夫模型或条件随机场模型。

上述方法，优选的，所述利用所述各个语音帧的编码结果，获取与待解码的每一个文本单元对应的目标函数关系，包括：

利用所述各个语音帧的编码结果，获取与每一个文本单元对应的目标参数值；其中，目标参数与目标函数模型中的待定参数相关；

对于每一个文本单元，基于该文本单元对应的目标参数值确定所述目标函数模型中的待定参数的值，得到该文本单元对应的目标函数关系。

上述方法，优选的，所述目标函数模型，包括：高斯分布函数模型。

上述方法，优选的，所述目标参数值包括：

高斯分布的中心位置处的数值γ，相邻两个文本单元对应的高斯分布的中心位置之差Δμ，高斯分布的尖锐程度σ；或者，所述目标参数包括：相邻两个文本单元对应的高斯分布的中心位置之差Δμ，高斯分布的尖锐程度σ。

上述方法，优选的，还包括：

在获取到相邻两个文本单元对应的高斯分布的中心位置之差Δμ时，若所述相邻两个文本单元对应的高斯分布的中心位置之差Δμ小于或等于0，将所述相邻两个高斯分布的中心位置之差Δμ赋值为第一预设值，所述第一预设值大于0；

和/或，

在获取到高斯分布的尖锐程度σ时，若所述高斯分布的尖锐程度σ不在预置范围内，将所述高斯分布的尖锐程度σ赋值为第二预设值，所述第二预设值在所述预置范围内。

上述方法，优选的，对待识别的语音数据的各个语音帧进行编码，利用所述各个语音帧的编码结果，获取与待解码的每一个文本单元对应的目标函数关系和用于解码得到该文本单元的权重序列；基于各个文本单元对应的权重序列解码得到所有的文本单元的过程包括：

通过预先训练好的语音处理模型对待识别的语音数据的各个语音帧进行编码，得到各个语音帧的编码结果；利用所述各个语音帧的编码结果，获取与待解码的每一个文本单元对应的目标函数关系和用于解码得到该文本单元的权重序列；基于各个文本单元对应的权重序列解码得到所有的文本单元。

上述方法，优选的，所述语音处理模型的训练过程包括：

通过所述语音处理模型对样本语音数据的各个语音帧进行编码，得到所述样本语音数据的各个语音帧的编码结果；

通过所述语音处理模型利用所述样本语音数据的各个语音帧的编码结果，获取与待解码的每一个文本单元对应的目标函数关系和用于解码得到该文本单元的权重序列；

通过所述语音处理模型基于各个文本单元对应的权重序列解码得到所有的文本单元；

以解码得到的所有文本单元趋近于所述样本语音数据的语音内容，每一个文本单元对应的权重序列与各个语音帧的时间信息的关联关系趋近于该文本单元对应的目标函数关系，不同文本单元对应的目标函数关系不同为目标，对所述语音处理模型的参数进行更新。

上述方法，优选的，对所述语音处理模型的参数进行更新的过程包括：

基于损失函数对所述语音处理模型的参数进行更新，所述损失函数由第一损失函数，第二损失函数和第三损失函数加权求和得到；其中，

所述第一损失函数表征所述解码得到的所有文本单元与所述样本语音数据的语音内容的差异；

所述第二损失函数表征各个文本单元对应的权重序列与所述各个语音帧的时间信息的关联关系，与各个目标函数关系的总的差异；

所述第三损失函数表征将所述样本语音数据的边界标签输入所述边界标签对应的文本单元对应的目标函数关系得到的关联度的对数损失。

一种语音处理装置，包括：

编码模块，用于对待识别的语音数据的各个语音帧进行编码，得到各个语音帧的编码结果；

获取模块，用于利用所述各个语音帧的编码结果，获取与待解码的每一个文本单元对应的目标函数关系和用于解码得到该文本单元的权重序列；每一个文本单元对应的权重序列表示该文本单元与每一语音帧的关联度；每一个文本单元对应的目标函数关系用于表示：该文本单元与各个语音帧的时间信息的关联度，与各个语音帧的时间信息间的关联关系；每一个文本单元对应的权重序列与所述各个语音帧的时间信息的关联关系趋近于该文本单元对应的目标函数关系；

对齐模块，用于在基于各个文本单元对应的权重序列解码得到所有的文本单元后，利用所述各个语音帧的时间信息，以及各个文本单元对应的目标函数关系，确定各语音帧的时间信息与文本单元的对应关系。

一种语音处理设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现上任一项所述的语音处理方法的各个步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上任一项所述的语音处理方法的各个步骤。

从上述的技术方案可以看出，本申请实施例提供的语音处理方法，对待识别的语音数据的各个语音帧进行编码，得到各个语音帧的编码结果，利用各个语音帧的编码结果，获取与待解码的每一个文本单元对应的目标函数关系和用于解码得到该文本单元的权重序列；每一个文本单元对应的权重序列表示该文本单元与每一语音帧的关联度；每一个文本单元对应的目标函数关系用于表示：该文本单元与各个语音帧的时间信息的关联度，与各个语音帧的时间信息间的关联关系；每一个文本单元对应的权重序列与各个语音帧的时间信息的关联关系趋近于该文本单元对应的目标函数关系；在基于各个文本单元对应的权重序列解码得到所有的文本单元后，利用各个语音帧的时间信息，以及各个文本单元对应的目标函数关系，确定各语音帧的时间信息与文本单元的对应关系。本申请的方案，通过对用于解码文本单元的权重序列进行改进，使得每一文本单元对应的权重序列与各语音帧的时间信息的关联关系趋近于目标函数关系，由于每一文本单元对应的目标函数关系表示，该文本单元与各个语音帧的时间信息的关联度，与各个语音帧的时间信息间的关联关系，这就使得，利用权重序列进行解码得到的文本单元与语音帧的时间信息是强相关的，因此，利用各个语音帧的时间信息，以及各文本单元对应的目标函数能够准确实现语音帧的时间信息与文本单元的对应关系，也就是将语音帧的时间信息与文本单元准确对齐，从而提高了将语音识别结果与音频对齐的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的已有的将语音识别结果与时间边界信息对齐的一种实现方式；

图2为本申请实施例公开的语音处理方法的一种实现流程图；

图3为本申请实施例公开的利用各个语音帧的时间信息，以及各个文本单元对应的目标函数关系，确定各个语音帧的时间信息与文本单元的对应关系的一种实现流程图；

图4为本申请实施例公开的基于各个语音帧的时间信息与每一个文本单元的关联度，确定语音帧的时间信息与文本单元的对应关系的一种流程图；

图5为本申请实施例公开的等跳转概率的隐马尔科夫模型的一种示例图；

图6为本申请实施例公开的利用各个语音帧的编码结果，获取与待解码的每一个文本单元对应的目标函数关系的一种实现流程图；

图7为本申请实施例公开的语音处理模型的一种结构示意图；

图8本申请实施例公开的语音处理装置的一种结构示意图；

图9为本申请实施例公开的语音处理设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

自从2014年基于注意力机制的端到端机器翻译框架提出以来，端到端建模思路已经成为机器翻译、手写识别、语音识别等序列建模任务中的研究热点。在语音识别任务中，端到端建模方法具有声学和语言联合建模的有点，理论上的潜力很大。配合互联网时代累计的海量语音数据，在大数据的加持下，声学语言联合建模的端到端语音识别已经超越了声学和语言分开建模的传统语音识别，成为现阶段最优的语音识别系统。

在基于注意力机制的端到端机器翻译框架提出以前，基于深度神经网络/隐马尔可夫模型(DNN/HMM)框架的语音识别系统被广泛研究。基于DNN/HMM框架的语音识别系统，借助HMM时序框架体系采用维特比解码方式，在解码识别结果的同时就可以同步获取识别结果中的字或词对应时间边界信息。而基于注意力机制的端到端语音识别系统摒弃了传统语音识别的时序解码方式，采用自回归递推式解码使得最终只能获取到语音识别的文字结果，从而无法获取解码结果中每个字或词对应的时间边界信息，这种现象的根本是由于基于编码器-解码器(Encoder-Decoder)的网络结构最初是基于翻译任务设计的，没有充分考虑到语音识别任务的特殊性，从而导致其在实际使用中存在一定的缺陷。

为了能够在基于注意力机制的端到端的语音识别系统的基础上获取语音识别结果的时间边界信息，如图1所示，为本申请实施例提供的已有的将语音识别结果与时间边界信息对齐的一种实现方式，其中，X_i表示第i(i＝1，2，3，……，T)个语音帧的编码结果，y_t-1表示已解码得到的第t-1个识别结果，y_t表示待解码的第t个识别结果，a_t，i表示y_t与第i个语音帧的编码结果间的关联度，可以基于y_t对应的权重序列[a_t，1，a_t，2，a_t，3，...，a_t，T]解码得到y_t，具体如图1所示，利用y_t对应的权重序列[a_t，1，a_t，2，a_t，3，...，a_t，T]，各个语音帧的编码结果和已解码得到的y_t-1进行解码，得到y_t。现有技术中将语音识别结果与时间边界信息对齐的实现方式是：对y_t对应的权重序列[a_t，1，a_t，2，a_t，3，…，a_t，T]取最大值，然后把该最大值对应的语音帧的时间信息当作y_t的时间边界信息。但这种对齐方式的准确率较低，无法满足后续任务(比如，音频检索，字幕展示等)的需求。

为了提高将语音识别结果与音频对齐的准确率，提出本方案。本申请实施例提供的语音处理方法的一种实现流程图如图2所示，可以包括：

步骤S201：对待识别的语音数据的各个语音帧进行编码，得到各个语音帧的编码结果。

步骤S202：利用各个语音帧的编码结果，获取与待解码的每一个文本单元对应的目标函数关系和用于解码得到该文本单元的权重序列。

其中，每一个文本单元对应的权重序列表示该文本单元与每一语音帧的关联度；每一个文本单元对应的目标函数关系用于表示：该文本单元与各个语音帧的时间信息的关联度，与各个语音帧的时间信息间的关联关系；每一个文本单元对应的权重序列与所述各个语音帧的时间信息的关联关系趋近于该文本单元对应的目标函数关系。

现有技术中，每一个文本单元对应的权重序列与各个语音帧的时间信息的关联关系是不确定的，或者说每一个文本单元对应的权重序列与各个语音帧的时间信息的关联关系是任意函数关系。

而本申请实施例中，在获取每个一个待解码的文本单元对应的权重序列的同时，还获取每一个待解码的文本单元对应的目标函数关系。而且，每一个文本单元对应的权重序列与各个语音帧的时间信息的关联关系不再是任意函数关系，而是趋近于该文本单元对应的目标函数关系，其中，每一个文本单元对应的目标函数关系用于表示：该文本单元与各个语音帧的时间信息的关联度，与各个语音帧的时间信息间的关联关系。

具体的，第t个文本单元y_t对应的目标函数关系用于表示：文本单元y_t与各个语音帧X_i(i＝1，2，3，……，T)的时间信息的关联度p_t，i，与各个语音帧的时间信息间的关联关系，也就是说，第t个文本单元y_t对应的目标函数关系用于表示：p_t，i(i＝1，2，3，……，T)与各个语音帧的时间信息间的关联关系。T为待识别的语音数据的语音帧的数量。

对于任意一个语音帧，该语音帧的时间信息可以是该语音帧的序号，或者，可以是该语音帧的起始位置的时间点，或者，可以是该语音帧的结束位置的时间点。

可选的目标函数关系可以为高斯分布关系，或者，可以为其他函数关系，比如，卡方分布关系，伽马分布关系，贝塔分布关系等。

可选的，不同的文本单元对应的目标函数关系为同一类型的不同函数关系，比如，不同文本单元对应的不同的高斯分布关系。基于此，每一个文本单元对应的目标函数关系用于表示：该文本单元与各个语音帧的时间信息的关联度，在各个语音帧的时间信息上服从高斯分布，不同的文本单元与各个语音帧的时间信息的关联度，在各个语音帧的时间信息上服从不同的高斯分布。具体的，假设文本单元y_t-1与各个语音帧的时间信息的关联度，在各个语音帧的时间信息上服从第一高斯分布，文本单元y_t与各个语音帧的时间信息的关联度，在各个语音帧的时间信息上服从第二高斯分布，则第一高斯分布与第二高斯分布不同。

可选，每一个文本单元对应的目标函数关系可以利用各个语音帧的编码结果，以及在该文本单元之前已解码得到的文本单元得到。比如，文本单元y_t对应的目标函数关系可以利用各个语音帧的编码结果，以及已解码得到的t-1个文本单元(y₁，y₂，……，y_t-1)得到。

可选的，每一个文本单元对应的权重序列可以利用各个语音帧的编码结果，以及在该文本单元之前已解码得到的文本单元得到。比如，文本单元y_t对应的权重序列可以利用各个语音帧的编码结果，以及已解码得到的t-1个文本单元(y₁，t₂，……，y_t-1)得到。

步骤S203：在基于各个文本单元对应的权重序列解码得到所有的文本单元后，利用各个语音帧的时间信息，以及各个文本单元对应的目标函数关系，确定各语音帧的时间信息与文本单元的对应关系。

本申请实施例中，基于各个文本单元对应的权重序列解码得到所有文本单元的过程可以采用已有或未来可以用的解码方法，具体采用哪种解码方式不做具体限定。

解码得到所有的文本单元即为语音识别结果。文本单元可以是词，也可以是字，本申请不做具体限定。

在得到语音识别结果后，利用各个语音帧的时间信息，以及各个文本单元对应的目标函数关系，确定各语音帧的时间信息与文本单元的对应关系。

本申请实施例提供的语音处理方法，通过对用于解码文本单元的权重序列进行改进，使得每一文本单元对应的权重序列与各语音帧的时间信息的关联关系趋近于目标函数关系，由于每一文本单元对应的目标函数关系表示，该文本单元与各个语音帧的时间信息的关联度，与各个语音帧的时间信息间的关联关系，这就使得，利用权重序列进行解码得到的文本单元与语音帧的时间信息是强相关的，因此，利用各个语音帧的时间信息，以及各文本单元对应的目标函数能够准确实现语音帧的时间信息与文本单元的对应关系，也就是将语音帧的时间信息与文本单元准确对齐，从而提高了将语音识别结果与音频对齐的准确率。

在一可选的实施例中，上述利用各个语音帧的时间信息，以及各个文本单元对应的目标函数关系，确定各个语音帧的时间信息与文本单元的对应关系的一种实现流程图如图3所示，可以包括：

步骤S301：对于每一个语音帧，将该语音帧的时间信息输入各个目标函数关系，得到各个目标函数关系输出的关联度，每一个目标函数关系输出的关联度为该语音帧的时间信息与该目标函数对应的文本单元的关联度。

由于每一个文本单元对应的目标函数关系用于表示：该文本单元与各个语音帧的时间信息的关联度，与各个语音帧的时间信息间的关联关系，因此，将语音帧X_i的时间信息输入该文本单元对应的目标函数关系后，可以得到该语音帧X_i的时间信息与该文本单元的关联度。

步骤S302：基于各个语音帧的时间信息与每一个文本单元的关联度，确定语音帧的时间信息与文本单元的对应关系。

其中，文本单元与语音帧的时间信息的关联度越大，文本单元与语音帧的时间信息对齐的可能性越高。

在一可选的实施例中，基于各个语音帧的时间信息与每一个文本单元的关联度，确定语音帧的时间信息与文本单元的对应关系的一种流程图如图4所示，可以包括：

步骤S401：根据各个语音帧的时间信息与每一个文本单元的关联度构建概率图模型；该概率图模型中每个状态节点对应一个语音帧和一个文本单元，每个状态节点的发射概率为该状态节点对应的语音帧的时间信息和文本单元的关联度；不同状态节点对应不同语音帧的时间信息和/或不同文本单元。

概率图模型可以为隐马尔科夫模型，可选的，可以将同一语音帧的时间信息与各个文本单元的关联度作为为一个隐马尔科夫链，则T个语音帧一共对应T个隐马尔科夫链，每个隐马尔科夫链中包括Y个状态节点，Y为解码得到的文本单元的数量。属于不同隐马尔科夫链的任意两个状态节点间的跳转概率为预设值，也就说，隐马尔科夫模型为等跳转概率的隐马尔科夫模型。

概率图模型也可以为条件随机场模型。可选的，条件随机场模型可以为等跳转概率的条件随机场模型，任意一个状态节点的似然概率(也就是发射概率)由该状态节点对应的语音帧的时间信息和文本单元的关联度，以及该节点的前一个状态节点对应的语音帧的时间信息和文本单元的关联度确定。具体确定方式可以参看已有的实现方式，这里不再详述。

步骤S402：利用概率图模型确定语音帧的时间信息与文本单元的对应关系。

通过构建概率图模型，可以采用维特比算法或beam-search算法进行解码，以得到文本单元与语音帧的时间信息的对应关系。

如图5所示，为本申请实施例提供的等跳转概率的隐马尔科夫模型的一种示例图，该示例中，语音识别结果为8个字“今天真是阳光明媚”，即每个文本单元为一个字。“<s>”表示语音识别结果的开始，“<\s>”表示语音识别结果的结束，图5中的每个点代表一个状态节点，该状态节点的发射概率即为基于目标函数关系确定的该状态节点对应的文本单元和语音帧的时间信息的关联度。图5所示示例中，状态节点的发射概率为基于高斯分布关系确定的该状态节点对应的文本单元和语音帧的时间信息的关联度。图5所示示例中，加粗的黑实线即为搜索到的最优路径。

基于维特比算法或beam-search算法进行解码的过程，就是从最左边的隐马尔科夫链开始，找出从最左边的隐马尔科夫链到最右边的隐马尔科夫链的最短路径或者最优路径的过程，维特比算法或beam-search算法的实现方式可以参看已有的实现方式，这里不再详述。

在一可选的实施例中，上述利用各个语音帧的编码结果，获取与待解码的每一个文本单元对应的目标函数关系的一种实现流程图如图6所示，可以包括：

步骤S601：利用各个语音帧的编码结果，获取与每一个文本单元对应的目标参数值；其中，目标参数与目标函数模型中的待定参数相关。

目标函数模型体现的是：语音识别结果中的文本单元与语音数据的各个语音帧的时间信息关联度，与各个语音帧的时间信息的关联关系。其中，目标函数关系中的待定参数的取值确定了，就可以得到目标函数关系。目标函数模型的待定参数的取值不同，得到的目标函数关系就不同。

本申请实施例中，根据各个语音帧的编码结果，获取与每个文本单元对应的目标参数值，不同的文本单元对应的目标参数值可以不同。

步骤S602：对于每一个文本单元，基于该文本单元对应的目标参数值确定目标函数模型中的待定参数的值，得到该文本单元对应的目标函数关系。

在得到文本单元对应的目标参数值后，就可以基于该文本单元对应的目标参数值确定与该文本单元对应的，上述目标函数模型中的待定参数的值，待定参数值的确定了，文本单元对应的目标函数关系也就确定了。

比如，目标函数模型可以为高斯分布函数模型：

其中，该模型中的待定参数为μ和σ，或者，该模型中的待定参数为γ、μ和σ。μ为高斯分布的中心位置，为高斯分布的中心位置处的数值，σ为高斯分布的尖锐程度。

j表示第j个文本单元，i表示第i个语音帧的时间信息。

基于此，文本单元对应的目标参数值可以为文本单元对应的μ和σ。或者，

文本单元对应的目标参数值可以为γ、μ和σ。

在一可选的实施例中，在目标函数模型为高斯分布函数模型的情况下，目标参数值可以为高斯分布的中心位置处的数值γ，相邻两个文本单元对应的高斯分布的中心位置之差Δμ，高斯分布的尖锐程度σ。

本申请实施例中，相邻两个文本单元对应的高斯分布函数关系是不同的，可选的，各个文本单元对应的高斯分布函数关系可以为中心位置单调递增的高斯分布函数关系，基于此，本申请实施例中，不是直接预测高斯分布的中心位置μ，而是预测相邻文本单元对应的高斯分布的中心位置之差Δμ，只要Δμ大于零，便能保证各个文本单元对应的高斯分布函数关系可以为中心位置单调递增的高斯分布函数关系。

基于此，默认第一个文本单元对应的高斯分布的中心位置为0，此后，文本单元y_t对应的高斯分布的中心位置μ_t为前一个文本单元y_t-1对应的高斯分布的中心位置μ_t-1与Δμ的和值，即：

μ_t＝μ_t-1+Δμ (2)

在一可选的实施例中，在目标函数模型为高斯分布函数模型的情况下，所述目标参数包括：相邻两个文本单元对应的高斯分布的中心位置之差Δμ，高斯分布的尖锐程度σ。

与前一实施例不同，实施例中，只预测Δμ和σ，高斯分布的中心位置处的数值γ可以在通过Δμ计算得到μ后，根据μ和σ计算得到γ。

在一可选的实施例中，为保证各个文本单元对应的高斯分布的中心位置的单调性，需要Δμ大于0。基于此，在获取到相邻两个文本单元对应的高斯分布的中心位置之差Δμ时，若相邻两个文本单元对应的高斯分布的中心位置之差Δμ小于或等于0，将相邻两个高斯分布的中心位置之差Δμ赋值为第一预设值，该第一预设值大于0；

在一可选的实施例中，参数σ表示高斯分布的尖锐程度，如果σ太大，则分布过于尖锐，使得语音处理方法对某一个位置过于自信，可能导致获取信息不全等问题，而σ太小，则趋向于均匀分布，语音处理方法无法有效对应到任何位置。因此，可通过截断将σ数值控制在上下阈值范围内。基于此，在获取到高斯分布的尖锐程度σ时，若高斯分布的尖锐程度σ不在预置范围内，将高斯分布的尖锐程度σ赋值为第二预设值，所述第二预设值在预置范围内。

在一可选的实施例中，上述对待识别的语音数据的各个语音帧进行编码，利用各个语音帧的编码结果，获取与待解码的每一个文本单元对应的目标函数关系和用于解码得到该文本单元的权重序列；基于各个文本单元对应的权重序列解码得到所有的文本单元的过程包括：

通过预先训练好的语音处理模型对待识别的语音数据的各个语音帧进行编码，得到各个语音帧的编码结果；利用各个语音帧的编码结果，获取与待解码的每一个文本单元对应的目标函数关系和用于解码得到该文本单元的权重序列；基于各个文本单元对应的权重序列解码得到所有的文本单元。

可选的，该预先训练好的语音处理模型可以为基于注意力机制的端到端语音处理模型，比如可以为Transformer结构的语音处理模型。

可选的，该语音处理模型的一种结构示意图如图7所示，可以包括：

编码模块701，用于对待识别的语音数据的各个语音帧进行编码，得到各个语音帧的编码结果；

函数关系获取模块702，用于利用各个语音帧的编码结果，获取与待解码的每一个文本单元对应的目标函数关系。获取与代码的每一个文本单元对应的目标函数关系的过程可以参看前述实施例，这里不再赘述。

可选的，对于每一个待解码的文本单元，函数关系获取模块702可以利用各个语音帧的编码结果，以及在该文本单元之前已解码得到的所有文本单元，获取该待解码的文本单元对应的目标函数关系。

在基于目标参数值获取目标函数关系的情况下，函数关系获取模块702可以包括：

目标参数获取模块，用于利用所述各个语音帧的编码结果，获取与每一个文本单元对应的目标参数值；其中，目标参数与目标函数模型中的待定参数相关。

关系获取模块，用于对于每一个文本单元，基于该文本单元对应的目标参数值确定所述目标函数模型中的待定参数的值，得到该文本单元对应的目标函数关系。

可选的，根据目标参数值的组成数量不同，参数预测模块702的结构不同。

比如，如果目标参数值包括：高斯分布的中心位置处的数值γ，相邻两个文本单元对应的高斯分布的中心位置之差Δμ，高斯分布的尖锐程度σ，则参数预测模块702可以包括第一预测模块，第二预测模块和第三预测模块，其中，第一预测模块用于获取高斯分布的中心位置处的数值γ，第二预测模块用于获取相邻两个文本单元对应的高斯分布的中心位置之差Δμ，第三预测模块用于获取高斯分布的尖锐程度σ。可选的，第一预测模块，第二预测模块和第三预测模块的输入相同，可以均为各个语音帧的编码结果，或者，可以均为各个语音帧的编码结果以及已解码得到的所有文本单元。

如果目标参数值包括：相邻两个文本单元对应的高斯分布的中心位置之差Δμ，高斯分布的尖锐程度σ，则参数预测模块702可以包括第一预测模块，第二预测模块和计算模块，其中，第一预测模块用于获取相邻两个文本单元对应的高斯分布的中心位置之差Δμ，第二预测模块用于获取高斯分布的尖锐程度σ；计算模块用于基于Δμ和σ，计算得到高斯分布的中心位置处的数值γ。可选的，第一预测模块和第二预测模块的输入相同，可以均为各个语音帧的编码结果，或者，可以均为各个语音帧的编码结果以及已解码得到的所有文本单元。

识别模块703，用于利用各个语音帧的编码结果，获取与待解码的每一个文本单元对应的权重序列；基于各个文本单元对应的权重序列解码得到所有的文本单元。

在一可选的实施例中，语音处理模型的训练过程可以包括：

通过语音处理模型对样本语音数据的各个语音帧进行编码，得到样本语音数据的各个语音帧的编码结果。

通过语音处理模型利用样本语音数据的各个语音帧的编码结果，获取与待解码的每一个文本单元对应的目标函数关系和用于解码得到该文本单元的权重序列。

可选的，对于每一个待解码的文本单元，可以利用各个语音帧的编码结果，以及在该文本单元之前已解码得到的所有文本单元，获取该待解码的文本单元对应的目标函数关系。

通过语音处理模型基于各个文本单元对应的权重序列解码得到所有的文本单元。

以解码得到的所有文本单元趋近于样本语音数据的语音内容，每一个文本单元对应的权重序列与各个语音帧的时间信息的关联关系趋近于该文本单元对应的目标函数关系，不同文本单元对应的目标函数关系不同为目标，对语音处理模型的参数进行更新。

具体可以基于损失函数对语音处理模型的参数进行更新，该损失函数由第一损失函数，第二损失函数和第三损失函数加权求和得到；其中，

第一损失函数表征解码得到的所有文本单元与样本语音数据的语音内容的差异。

第一损失函数可以采用交叉熵损失函数，或者，其它损失函数，这里不做具体限定。

第二损失函数表征各个文本单元对应的权重序列与各个语音帧的时间信息的关联关系，与各个目标函数关系的总的差异。可选的，第二损失函数可以为：

其中，t_in表示输入模型的语音帧的长度，该长度与时间相关，比如，该长度为输入模型的语音帧的帧数。t_out为模型输出的长度，也就是语音识别结果中文本单元的数量。p_j，i为基于目标函数关系确定的第j个文本单元与第i个语音帧的时间信息的关联度，a_j，i为语音识别模型根据各个语音帧的编码结果得到第j个文本单元与第i个语音帧的时间信息的关联度。

第三损失函数表征将样本语音数据的边界标签输入边界标签对应的文本单元对应的目标函数关系得到的关联度的对数损失。可选的，第三损失函数可以为：

其中，m，n表示第j个输出的文本单元在样本语音数据中对应的起始点和终止点。

在一可选的实施例中，第一损失函数的权重大于第二损失函数的权重，第一损失函数的权重大于第三损失函数的权重。

与方法实施例相对应，本申请实施例还提供一种语音处理装置，本申请实施例提供的语音处理装置的一种结构示意图如图8所示，可以包括：

编码模块801，获取模块802和对齐模块803；其中，

编码模块801用于对待识别的语音数据的各个语音帧进行编码，得到各个语音帧的编码结果；

获取模块802用于利用所述各个语音帧的编码结果，获取与待解码的每一个文本单元对应的目标函数关系和用于解码得到该文本单元的权重序列；每一个文本单元对应的权重序列表示该文本单元与每一语音帧的关联度；每一个文本单元对应的目标函数关系用于表示：该文本单元与各个语音帧的时间信息的关联度，与各个语音帧的时间信息间的关联关系；每一个文本单元对应的权重序列与所述各个语音帧的时间信息的关联关系趋近于该文本单元对应的目标函数关系；

对齐模块803用于在基于各个文本单元对应的权重序列解码得到所有的文本单元后，利用所述各个语音帧的时间信息，以及各个文本单元对应的目标函数关系，确定各语音帧的时间信息与文本单元的对应关系。

本申请实施例提供的语音处理装置，通过对用于解码文本单元的权重序列进行改进，使得每一文本单元对应的权重序列与各语音帧的时间信息的关联关系趋近于目标函数关系，由于每一文本单元对应的目标函数关系表示，该文本单元与各个语音帧的时间信息的关联度，与各个语音帧的时间信息间的关联关系，这就使得，利用权重序列进行解码得到的文本单元与语音帧的时间信息是强相关的，因此，利用各个语音帧的时间信息，以及各文本单元对应的目标函数能够准确实现语音帧的时间信息与文本单元的对应关系，也就是将语音帧的时间信息与文本单元准确对齐，从而提高了将语音识别结果与音频对齐的准确率。

在一可选的实施例中，对齐模块803包括：

关联度获取模块，用于对于每一个语音帧，将该语音帧的时间信息输入各个目标函数关系，得到各个目标函数关系输出的关联度，每一个目标函数关系输出的关联度为该语音帧的时间信息与该目标函数对应的文本单元的关联度；

对应关系获取模块，用于基于各个语音帧的时间信息与每一个文本单元的关联度，确定语音帧的时间信息与文本单元的对应关系。

在一可选的实施例中，对应关系获取模块具体用于：

在一可选的实施例中，所述概率图模型为隐马尔科夫模型或条件随机场模型。

在一可选的实施例中，所述获取模块802利用所述各个语音帧的编码结果，获取与待解码的每一个文本单元对应的目标函数关系时，具体用于：

在一可选的实施例中，所述目标函数模型，包括：高斯分布函数模型。

在一可选的实施例中，所述目标参数值包括：

在一可选的实施例中，还包括修正模块，用于：

和/或，

在一可选的实施例中，编码模块801对待识别的语音数据的各个语音帧进行编码，获取模块802利用所述各个语音帧的编码结果，获取与待解码的每一个文本单元对应的目标函数关系和用于解码得到该文本单元的权重序列；以及基于各个文本单元对应的权重序列解码得到所有的文本单元的过程通过预先训练好的语音处理模型得到，其中，预先训练好的语音处理模型用于对待识别的语音数据的各个语音帧进行编码，得到各个语音帧的编码结果；利用所述各个语音帧的编码结果，获取与待解码的每一个文本单元对应的目标函数关系和用于解码得到该文本单元的权重序列；基于各个文本单元对应的权重序列解码得到所有的文本单元。

在一可选的实施例中，还包括训练模块，用于对语音处理模型进行训练，具体用于：

在一可选的实施例中，训练模块对所述语音处理模型的参数进行更新的过程包括：

本申请实施例提供的语音处理装置可应用于语音处理设备，如PC终端、云平台、服务器及服务器集群等。可选的，图9示出了语音处理设备的硬件结构框图，参照图9，语音处理设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用所述各个语音帧的时间信息，以及各个文本单元对应的目标函数关系，确定各语音帧的时间信息与文本单元的对应关系，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于各个语音帧的时间信息与每一个文本单元的关联度，确定语音帧的时间信息与文本单元的对应关系，包括：

4.根据权利要求3所述的方法，其特征在于，所述概率图模型为隐马尔科夫模型或条件随机场模型。

5.根据权利要求1所述的方法，其特征在于，所述利用所述各个语音帧的编码结果，获取与待解码的每一个文本单元对应的目标函数关系，包括：

6.根据权利要求5所述的方法，其特征在于，所述目标函数模型，包括：高斯分布函数模型。

7.根据权利要求5所述的方法，其特征在于，所述目标参数值包括：

8.根据权利要求7所述的方法，其特征在于，还包括：

和/或，

9.根据权利要求1-8任意一项所述的方法，其特征在于，对待识别的语音数据的各个语音帧进行编码，利用所述各个语音帧的编码结果，获取与待解码的每一个文本单元对应的目标函数关系和用于解码得到该文本单元的权重序列；基于各个文本单元对应的权重序列解码得到所有的文本单元的过程包括：

10.根据权利要求9所述的方法，其特征在于，所述语音处理模型的训练过程包括：

11.根据权利要求10所述的方法，其特征在于，对所述语音处理模型的参数进行更新的过程包括：

12.一种语音处理装置，其特征在于，包括：

13.一种语音处理设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1-11中任一项所述的语音处理方法的各个步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-11中任一项所述的语音处理方法的各个步骤。