CN111640423A

CN111640423A - 一种词边界估计方法、装置及电子设备

Info

Publication number: CN111640423A
Application number: CN202010473529.0A
Authority: CN
Inventors: 陈孝良; 王江; 冯大航
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2020-09-08
Anticipated expiration: 2040-05-29
Also published as: CN111640423B

Abstract

本发明提供一种词边界估计方法、装置及电子设备，语音数据中的最小解码单元的WFST解码结果包括所述最小解码单元对应的解码结果以及所述解码结果的时间信息；若所述最小解码单元解码过程中识别出所述预设标识，则将所述时间信息中，识别出所述预设标识的时间确定为所述解码结果的词尾时间边界。即由于本发明中用于生成所述WFST优化模型的样本中的词的词尾设置有一预设标识；所述预设标识表示所述词结束，这样在WFST优化模型解码过程中，若识别出预设标识，则认为当前词结束，将识别出预设标识的时间作为当前词的词尾时间边界，从而可以准确的确定出词尾时间边界。

Description

一种词边界估计方法、装置及电子设备

技术领域

本发明涉及语音识别领域，更具体的说，涉及一种词边界估计方法、装置及电子设备。

背景技术

对于一段给定的语音信号，可以通过语音识别技术得到对应的文本信息。但是在一些特定场景下，需要在识别的过程中，对每个词添加时间边界信息。比如，客服场景中，可以根据为词添加的时间边界信息快速定位到想要查找的目标词在语音数据中的位置。若词的时间边界信息添加不准确，则会导致在语音数据中定位该词的定位结果不准确。

发明内容

有鉴于此，本发明提供一种词边界估计方法、装置及电子设备，以解决亟需对语音识别过程中的每个词添加准确的时间边界信息的问题。

为解决上述技术问题，本发明采用了如下技术方案：

一种词边界估计方法，包括：

获取待进行语音识别的语音数据，以及所述语音数据对应的后验概率集；所述后验概率集包括所述语音数据的每一帧语音的声学特征对应的后验概率；

调用预先设定的WFST优化模型，以使所述WFST优化模型依据所述后验概率集按照预先确定的最小解码单元对所述语音数据进行解码，得到所述语音数据中最小解码单元对应的不同WFST解码结果，并将所述最小解码单元对应的不同WFST解码结果分别存储；其中，用于生成所述WFST优化模型的样本中的词的词尾设置有一预设标识；所述预设标识表示所述词结束；

所述WFST解码结果包括所述最小解码单元对应的解码结果以及所述解码结果的时间信息；若所述最小解码单元解码过程中识别出所述预设标识，则将所述时间信息中，识别出所述预设标识的时间确定为所述解码结果的词尾时间边界。

可选地，所述WFST优化模型的生成过程包括：

获取样本集；所述样本集包括多个词，所述词的词尾设置有一预设标识；所述预设标识表示所述词结束；

利用所述样本集，对预设WFST模型进行训练，得到所述WFST优化模型。

可选地，将所述最小解码单元对应的不同WFST解码结果分别存储，包括：

将所述最小解码单元对应的不同WFST解码结果分别存储至不同的令牌中。

可选地，在将所述最小解码单元对应的不同WFST解码结果分别存储至不同的令牌中之后，还包括：

在确定出所述语音数据中每一最小解码单元对应的解码结果的词尾时间边界的情况下，选取所有令牌中满足预设选取条件的令牌，并作为目标令牌；

将所述目标令牌对应的每一最小解码单元的解码结果组合得到所述语音数据的语音识别结果，以及将所述最小解码单元的解码结果对应的词尾时间边界作为所述语音识别结果中相应解码结果的词尾时间边界。

可选地，所述预设标识在WFST优化模型中对应的输入不为空。

可选地，所述最小解码单元包括音素。

一种词边界估计装置，包括：

数据获取模块，用于获取待进行语音识别的语音数据，以及所述语音数据对应的后验概率集；所述后验概率集包括所述语音数据的每一帧语音的声学特征对应的后验概率；

解码模块，用于调用预先设定的WFST优化模型，以使所述WFST优化模型依据所述后验概率集按照预先确定的最小解码单元对所述语音数据进行解码，得到所述语音数据中最小解码单元对应的不同WFST解码结果，并将所述最小解码单元对应的不同WFST解码结果分别存储；其中，用于生成所述WFST优化模型的样本中的词的词尾设置有一预设标识；所述预设标识表示所述词结束；

可选地，还包括模型生成模块，所述模型生成模块包括：

样本集获取子模块，用于获取样本集；所述样本集包括多个词，所述词的词尾设置有一预设标识；所述预设标识表示所述词结束；

训练子模块，用于利用所述样本集，对预设WFST模型进行训练，得到所述WFST优化模型。

可选地，所述解码模块用于将所述最小解码单元对应的不同WFST解码结果分别存储时，具体用于：

一种电子设备，包括：存储器和处理器；

其中，所述存储器用于存储程序；

处理器调用程序并用于：

相较于现有技术，本发明具有以下有益效果：

本发明提供一种词边界估计方法、装置及电子设备，用于生成所述WFST优化模型的样本中的词的词尾设置有一预设标识；所述预设标识表示所述词结束，这样在WFST优化模型解码过程中，若识别出预设标识，则认为当前词结束，将识别出预设标识的时间作为当前词的词尾时间边界，从而可以准确的确定出词尾时间边界。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的WFST模型的内部结构示意图；

图2为本发明实施例提供的一种词边界估计方法的方法流程图；

图3为本发明实施例提供的另一种词边界估计方法的方法流程图；

图4为本发明实施例提供的一种词边界估计装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种词边界估计方法，该词边界估计方法主要依赖加权有限状态转换器WFST模型，现对WFST模型进行解释说明。

WFST模型通常由以下几个基本模块所构成：

1、声学模型；语音识别系统多采用基于一阶隐马尔科夫模型(HMM)进行建模。声学模型本身定义了一些更具推广性的声学建模单元。一般来说，一个HMM由多个状态组成，状态就是声学模型的最小建模单元。

2、发音词典；发音词典包含语音识别系统所能处理的词汇集及其发音。发音词典实际提供了声学模型与语言模型的映射。

3、语言模型；语言模型对语音识别系统所针对的语言进行建模，建立语言词汇之间相关性。通常情况下，规则语言模型、统计语言模型都可以作为语音识别语言模型。在实际应用中，有限资源的离线命令词识别系统基于规则的语言模型，大词汇量连续语音识别系统基于统计语言模型，包括并不限于N元文法模型、递归神经网络模型等。

4、上下文模型。

5、解码器；解码器是语音识别系统的核心之一，其任务是对输入的信号，根据声学、语言模型及词典，寻找能够以最大概率输出该信号的词串。从数学角度可以更加清楚的了解上述模块之间的关系。

在本发明实施例中，可以使用GMM(GaussianMixtureModel，高斯混合模型)和DNN(DeepNeuralNetworks，深度神经网络模型)建模出的声学模型中建模单元的分类模型。

由于HMM(HiddenMarkovModel，隐马尔可夫模型)模型能够很好地描述语音的时变性和短时平稳性，已被广泛应用于大词表连续语音识别系统的声学建模。

本发明对现有的WSFT进行了进一步的改进，使其能够准确的识别语音数据中每一词的词尾时间边界。

参照图1，WFST是一种用于大规模的语音识别的加权有限状态转换器，每一个状态转换均用输入A和输出B符号标记。因此，所构建的网络(WFST)用于生成从输入符号序列或字符串到输出字符串的映射。WFST除了输入和输出符号之外还对状态转换进行加权。权重值可以是编码概率，持续时间或沿路径积累的任何其他数量，如图1中的0.5，以计算将输入字符串映射到输出字符串的总体权重。WFST用于语音识别通常是表示在语音处理中输入语音信号后输出识别结果的各种可能的路径选择及其相应的概率。

在本实施例中，为了识别词的词尾时间边界，可以将WFST优化模型中出现空边的末尾时间确定为一词尾时间边界的方式，但空边可能表征两种含义，一种是词尾，一种是回退边，进而也会将回退边作为确定词尾时间边界的条件，但此时并不是出现了词尾，进而使得使用空边确定词尾时间边界不准确。本发明为了区分空边是真实的词尾结束还是回退边，直接在发音词典(即生成WFST优化模型的样本)的词的末尾添加预设标识，进而若在使用WFST优化模型解码过程中识别出词尾，即出现空边时，若存在预设标识，则可以直接确定为词尾，避免了回退边对词尾的影响，进而通过本发明可以避免将WFST优化模型中空边的末尾时间确定为一词尾时间边界而带来的词尾时间边界不准确的问题。

具体的，参照图2，词边界估计方法可以包括：

S11、获取待进行语音识别的语音数据，以及所述语音数据对应的后验概率集。

所述后验概率集包括所述语音数据的每一帧语音的声学特征对应的后验概率。

在具体实现中，用户可以通过配置有麦克风等声卡设备的电子设备输入语音数据。

其中，该电子设备可以为移动设备，如手机、平板电脑、个人数字助理、穿戴设备(如眼镜、手表等)等等，也可以为固定设备，如个人电脑、智能电视、智能家居/家电(如空调、电饭煲)等等，本发明实施例对此不加以限制。

得到语音数据之后，对所述语音数据分帧，并提取每一帧语音的声学特征，声学特征可以包括：MFCC(Mel-scaleFrequency Cepstral Coefficients，梅尔倒谱系数)、Fbank(Filter bank)等。

对于每一帧语音，计算所述声学特征在各声学建模单元上的后验概率。

本实施例中，采用深度神经网络算法DNN估计每一帧语音在各声学建模单元上的后验概率。DNN是通过大量的数据训练得到，DNN的输入为声学特征，输入为后验概率。后验概率与WFST的边的权重值有关，用来寻找最优路径，本实施例中，将所述语音数据的每一帧语音的声学特征对应的后验概率组成一个后验概率集。

S12、调用预先设定的WFST优化模型，以使所述WFST优化模型依据所述后验概率集按照预先确定的最小解码单元对所述语音数据进行解码，得到所述语音数据中最小解码单元对应的不同WFST解码结果，并将所述最小解码单元对应的不同WFST解码结果分别存储。

其中，用于生成所述WFST优化模型的样本中的词的词尾设置有一预设标识。所述预设标识表示所述词结束。

具体的，本实施例中，对WFST优化模型进行了改进，具体的，所述WFST优化模型的生成过程包括：

S21、获取样本集；所述样本集包括多个词，所述词的词尾设置有一预设标识；所述预设标识表示所述词结束；

S22、利用所述样本集，对预设WFST模型进行训练，得到所述WFST优化模型。

本实施例中的样本集，即为发音词典，发音词典中包括多个词，在每一词的词尾设置一预设标识，该预设标识可以标识词结束，举例来说，可以是#、&、*等，由于预设标识仅表征词结束，并不表征词的具体含义，则每一词的预设标识可以设置为同一个，此外，若还想让预设标识表征具体词的含义，如使用预设标识区分同音词，则可以使用不同的预设标识表示不同同音词，如使用#1表征郭(guo)，用#2表征锅(guo)。需要说明的是，若某一词的词尾处已经添加了用于区分同音词的特殊标识，则直接将该特殊标识作为本实施例中的预设标识，也表征词的结束。

对发音词典中的每一词添加了预设标识之后，可以对上述包括声学模型、发音词典、语言模型、上下文模型以及解码器的现有的预设WFST模型进行训练，即可得到用于解码过程中可以识别预设标识的WFST优化模型。

得到WFST优化模型之后，本实施例中的处理器或服务器会调用该WFST优化模型对语音数据进行解码，在解码的过程中，可以采用维特比算法在WFST优化模型中解码。

在WFST优化模型解码过程中，会使用到上述的后验概率集，该后验概率集用来寻找最优路径。另外，在对语音数据解码时，是按照预先确定的最小解码单元对语音数据进行解码，最小解码单元可以是音素，即按照音素对语音数据进行解码，一音素包括多帧语音。实际应用中，WFST优化模型会对语音数据中最开始的第一个最小解码单元进行解码，得到WFST解码结果，其中，对于一最小解码单元，其WFST解码结果是不同的，举例来说，最小解码单元是“xingfu”，解码结果可以是“幸福”或“醒肤”。此时可以将该最小解码单元对应的不同的WFST解码结果保存到不同的令牌中。所述WFST解码结果包括所述最小解码单元对应的解码结果(如上述的“幸福”)以及所述解码结果的时间信息(如在0.5s-1s解析处该最小解码单元对应的解码结果)。

由于本实施例中设置了表征词结束的预设标识，则若所述最小解码单元解码过程中识别出所述预设标识，即认为该词结束，则将所述时间信息中，识别出所述预设标识的时间确定为所述解码结果的词尾时间边界。举例来说，若在1s的时候识别到该预设标识，则认为1s是“幸福”的词尾时间边界。需要说明的是，在识别到预设标识时，预设标识对应的输入不为空，输出可以为空或不为空。

在识别得到第一个最小解码单元的WFST解码结果之后，则会释放令牌，并按照顺序对第二个最小解码单元进行解码，并将第二个最小解码单元的WFST解码结果保存到相对应的令牌中，其中，WFST优化模型在解码时，会产生多个解码路径，对于每一条解码路径，将第一个最小解码单元的WFST解码结果保存到令牌中之后，释放令牌，然后保存第二个最小解码单元的WFST解码结果。

同理，语音数据中的第三个、第三个以及之后的每一最小解码单元均按照上述的方法进行解码，得到相应的WFST解码结果。

根据上述论述，所述的令牌可能为多个，在WFST优化模型进行解码时，为每一条WFST解码路径都配置一个令牌以保存时间信息，即令牌的数量与解码路径的数量相同。在本发明的另一实施例中，当一次WFST运算完毕，在确定出所述语音数据中每一最小解码单元对应的解码结果的词尾时间边界的情况下，会从所有的可能中保留概率高的1个或多个，所以令牌的数量是动态变化的。最终输出时选择概率最高(也即代价最小)的那一个边对应的令牌，即选取所有令牌中满足预设选取条件(上述的概率最高或代价最小，概率最高或代价最小可以依据上述的后验概率确定)的令牌，并作为目标令牌；将所述目标令牌对应的每一最小解码单元的解码结果组合得到所述语音数据的语音识别结果，以及将所述最小解码单元的解码结果对应的词尾时间边界作为所述语音识别结果中相应解码结果的词尾时间边界，即在本次解码过程中，将该令牌中保存过的信息取出作为最终的识别结果，以及将每一解码结果对应的词尾时间边界作为语音识别结果中相应解码结果对应的词尾时间边界。需要说明的是，本实施例中，选取出目标令牌以及确定语音数据的语音识别结果，可以是本实施例中的处理器或服务器调用上述的WFST优化模型实现。

本实施例中，用于生成所述WFST优化模型的样本中的词的词尾设置有一预设标识；所述预设标识表示所述词结束，这样在WFST优化模型解码过程中，若识别出预设标识，则认为当前词结束，将识别出预设标识的时间作为当前词的词尾时间边界，从而可以准确的确定出词尾时间边界。

可选的，在上述词边界估计方法的实施例的基础上，本发明的另一实施例提供了一种词边界估计装置，参照图4，可以包括：

数据获取模块11，用于获取待进行语音识别的语音数据，以及所述语音数据对应的后验概率集；所述后验概率集包括所述语音数据的每一帧语音的声学特征对应的后验概率；

解码模块12，用于调用预先设定的WFST优化模型，以使所述WFST优化模型依据所述后验概率集按照预先确定的最小解码单元对所述语音数据进行解码，得到所述语音数据中最小解码单元对应的不同WFST解码结果，并将所述最小解码单元对应的不同WFST解码结果分别存储；其中，用于生成所述WFST优化模型的样本中的词的词尾设置有一预设标识；所述预设标识表示所述词结束；

进一步，还包括模型生成模块，所述模型生成模块包括：

进一步，所述解码模块用于将所述最小解码单元对应的不同WFST解码结果分别存储时，具体用于：

进一步，还包括：

令牌选择模块，用于在确定出所述语音数据中每一最小解码单元对应的解码结果的词尾时间边界的情况下，选取所有令牌中满足预设选取条件的令牌，并作为目标令牌；

结果确定模块，用于将所述目标令牌对应的每一最小解码单元的解码结果组合得到所述语音数据的语音识别结果，以及将所述最小解码单元的解码结果对应的词尾时间边界作为所述语音识别结果中相应解码结果的词尾时间边界。

进一步，所述预设标识在WFST优化模型中对应的输入不为空。

进一步，所述最小解码单元包括音素。

需要说明的是，本实施例中的各个模块、子模块的工作过程，请参照上述实施例中的相应说明，在此不再赘述。

可选的，在上述词边界估计方法的实施例的基础上，本发明的另一实施例提供了一种电子设备，包括：存储器和处理器；

其中，所述存储器用于存储程序；

处理器调用程序并用于：

进一步，所述WFST优化模型的生成过程包括：

进一步，将所述最小解码单元对应的不同WFST解码结果分别存储，包括：

进一步，在将所述最小解码单元对应的不同WFST解码结果分别存储至不同的令牌中之后，还包括：

进一步，所述预设标识在WFST优化模型中对应的输入不为空。

进一步，所述最小解码单元包括音素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种词边界估计方法，其特征在于，包括：

2.根据权利要求1所述的词边界估计方法，其特征在于，所述WFST优化模型的生成过程包括：

3.根据权利要求1所述的词边界估计方法，其特征在于，将所述最小解码单元对应的不同WFST解码结果分别存储，包括：

4.根据权利要求3所述的词边界估计方法，其特征在于，在将所述最小解码单元对应的不同WFST解码结果分别存储至不同的令牌中之后，还包括：

5.根据权利要求1所述的词边界估计方法，其特征在于，所述预设标识在WFST优化模型中对应的输入不为空。

6.根据权利要求1所述的词边界估计方法，其特征在于，所述最小解码单元包括音素。

7.一种词边界估计装置，其特征在于，包括：

8.根据权利要求7所述的词边界估计装置，其特征在于，还包括模型生成模块，所述模型生成模块包括：

9.根据权利要求7所述的词边界估计装置，其特征在于，所述解码模块用于将所述最小解码单元对应的不同WFST解码结果分别存储时，具体用于：

10.一种电子设备，其特征在于，包括：存储器和处理器；

其中，所述存储器用于存储程序；

处理器调用程序并用于：