CN116612750A

CN116612750A - 一种语言模型自动训练方法

Info

Publication number: CN116612750A
Application number: CN202310583488.4A
Authority: CN
Inventors: 张恩侨; 周剑; 楚建霞
Original assignee: Suzhou Kopat Information Technology Co ltd
Current assignee: Suzhou Kopat Information Technology Co ltd
Priority date: 2023-05-23
Filing date: 2023-05-23
Publication date: 2023-08-18

Abstract

本发明提供一种语言模型自动训练方法，涉及自然语言处理技术领域。该语言模型自动训练方法，包括以下步骤：S1.获取包括大量语言样本文本的语言模型训练数据；S2.利用无类别标签的语言模型对上述样本文本进行分词处理，得到每一个分词对应的无类别标签的分词数据，该分词标签包括对应分词中的每一字在对应分词中的位置信息；S3.对每一个无类别标签的分词数据执行相关词类替换，以获得有类别标签的第一分词数据。本发明中，通过将样本文本的分词标签作为训练数据对语言模型进行训练，使得训练语言模型所使用的数据更为全面，从而能够降低语言模型的PPL值，提升了语言模型的训练效果。

Description

一种语言模型自动训练方法

技术领域

本发明涉及自然语言处理技术领域，具体为一种语言模型自动训练方法。

背景技术

随着计算机使用的日益普及，人们越来越期望能够与计算机直接进行语言交流，因为语言是人类进行沟通最方便、快捷、有效的方式。语音识别技术就是让计算机通过识别和理解过程，把人类语音信号转变为相应文本的一项技术，语言模型在其中扮演着提高语音识别正确率的重要角色。

语言模型可以对一段文本的概率进行估计，即，描述一个字符串属于自然语言的概率。语言模型可以使用在许多自然语言处理方面，比如，语音识别、机器翻译、词性标注、句法分析，以及资讯检索等等。

由于硬件性能和软件算法的局限，当前语音识别系统对语言模型大小有着比较严格的限制。与此相对，语言模型随包含词汇数量的增加，其模型大小呈指数级增长。基于这两个原因，语音识别系统可容纳的词汇数量是不能无限扩充的。当前技术条件下，语音识别系统的词表容量上限在十几万的量级。对于词表之外的词汇，语音识别系统的识别准确率会下降很多。

然而，现有的语言模型的效果还不够理想，因此，如何提高语言模型的效果是目前亟待解决的技术问题。

因此，本领域技术人员提供了一种语言模型自动训练方法，以解决上述背景技术中提出的问题。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种语言模型自动训练方法，解决了语音识别系统可容纳的词汇数量是不能无限扩充的，当前技术条件下，语音识别系统的词表容量上限在十几万的量级，对于词表之外的词汇，语音识别系统的识别准确率会下降很多的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

一种语言模型自动训练方法，包括以下步骤：

S1.获取包括大量语言样本文本的语言模型训练数据；

S2.利用无类别标签的语言模型对上述样本文本进行分词处理，得到每一个分词对应的无类别标签的分词数据，该分词标签包括对应分词中的每一字在对应分词中的位置信息；

S3.对每一个无类别标签的分词数据执行相关词类替换，以获得有类别标签的第一分词数据；

S4.根据样本文本中每一分词的分词标签，对有类别标签的第一分词数据进行训练，以获得有类别标签的语言模型；

S5.利用上述有类别标签的语言模型对该语言训练数据进行分词，以获得有类别标签的第二分词数据；

S6.利用该有类别标签的第二分词数据获取需要的语言模型。

进一步地，所述步骤S2中的对每一个无类别标签的分词数据执行相关词类替换，以获得有类别标签的第一分词数据具体包括：在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇，并将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。

进一步地，在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇之后，进一步包括：先判断在分类词汇表中检索出的词汇长度是否大于预先设定的匹配词长度门限值，如果是，则将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签；

再判断在分类词汇表中检索出的词汇的出现频率是否大于预先设定的词频门限值，如果是，则将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。

进一步地，所述步骤S5中在获得有类别标签的第二分词数据之后，还包括：判断有类别标签的第一分词数据与有类别标签的第二分词数据的类别标签替换位置是否相同；如果是，则利用该有类别标签的第二分词数据获取所需语言模型，如果不是，则对有类别标签的第二分词数据执行词类替换。

进一步地，所述自动训练方法还包括：

1)在利用无类别标签的语言模型对训练样本进行分词之前，对该训练样本作出归一化处理；

2)：接收输入的语音；

3)利用该语言模型针对输入语音执行语音识别处理，然后获得需要的语言模型。

进一步地，所述步骤S4中的根据样本文本中每一分词的分词标签，对有类别标签的第一分词数据进行训练具体包括：

1)将样本文本中的每一字作为目标字；

2)生成样本文本中每一目标字的标签向量，该标签向量表征了对应目标字所属分词的分词标签中包含的对应目标字的相关信息；

3)根据样本文本中每一目标字的标签向量，对语言模型进行训练；

4)获取样本文本中每一目标字的字向量；

5)将样本文本中同一目标字的字向量和标签向量进行向量融合，得到第一融合向量；

6)根据样本文本中每一目标字的第一融合向量，对语言模型进行训练。

进一步地，所述将样本文本中同一目标字的字向量和标签向量进行向量融合，具体包括：

1)将样本文本中同一目标字的标签向量，插入同一目标字的字向量的预设位置处；

2)将样本文本中同一目标字的标签向量，替换同一目标字的字向量中的向量元素；

3)将样本文本中的每一分词作为目标分词；

4)生成样本文本中每一目标分词的标签向量，该标签向量表征了对应目标分词的分词标签的信息；

5)根据样本文本中每一目标分词的标签向量，对语言模型进行训练。

进一步地，所述根据样本文本中每一目标分词的标签向量，对语言模型进行训练，具体包括：

1)获取样本文本中每一目标分词的词向量；

2)将样本文本中同一目标分词的词向量和标签向量进行向量融合，得到第二融合向量；

3)根据样本文本中每一目标分词的第二融合向量，对语言模型进行训练

4)将样本文本中同一目标分词的标签向量，插入同一目标分词的分词向量的预设位置处；

5)再将样本文本中同一目标分词的标签向量，替换同一目标分词的分词向量中的向量元素。

(三)有益效果

本发明提供了一种语言模型自动训练方法。具备以下有益效果：

1、本发明提供了一种语言模型自动训练方法，该方法利用无类别标签的语言模型对训练样本进行分词，以获得无类别标签的分词数据；对无类别标签的分词数据执行词类替换，以获得有类别标签的第一分词数据；对有类别标签的第一分词数据进行训练，以获得有类别标签的语言模型，并利用该有类别标签的语言模型对该训练样本进行分词，以获得有类别标签的第二分词数据；利用该有类别标签的第二分词数据获取声学语言模型，实现了基于词类分词的语言模型训练。

2、本发明提供了一种语言模型自动训练方法，在获取到包括大量样本文本的语言模型训练数据后，可以将这些样本文本进行分词处理，以得到每一分词的分词标签，其中，分词标签包括对应分词中的每一字在对应分词中的位置信息，接着，可以根据这些样本文本中每一分词的分词标签，对语言模型进行训练。

3、本发明提供了一种语言模型自动训练方法，通过将样本文本的分词标签作为训练数据对语言模型进行训练，使得训练语言模型所使用的数据更为全面，从而能够降低语言模型的PPL值，提升了语言模型的训练效果。

附图说明

图1为本发明的语言模型自动训练方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：

如图1所示，本发明实施例提供一种语言模型自动训练方法，包括以下步骤：

S1.获取包括大量语言样本文本的语言模型训练数据；

S6.利用该有类别标签的第二分词数据获取需要的语言模型。

步骤S2中的对每一个无类别标签的分词数据执行相关词类替换，以获得有类别标签的第一分词数据具体包括：在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇，并将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。

在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇之后，进一步包括：先判断在分类词汇表中检索出的词汇长度是否大于预先设定的匹配词长度门限值，如果是，则将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签；

步骤S5中在获得有类别标签的第二分词数据之后，还包括：判断有类别标签的第一分词数据与有类别标签的第二分词数据的类别标签替换位置是否相同；如果是，则利用该有类别标签的第二分词数据获取所需语言模型，如果不是，则对有类别标签的第二分词数据执行词类替换。

该自动训练方法还包括：

2)：接收输入的语音；

步骤S4中的根据样本文本中每一分词的分词标签，对有类别标签的第一分词数据进行训练具体包括：

1)将样本文本中的每一字作为目标字；

4)获取样本文本中每一目标字的字向量；

6)根据样本文本中每一目标字的第一融合向量，对语言模型进行训练。将样本文本中同一目标字的字向量和标签向量进行向量融合，具体包括：

3)将样本文本中的每一分词作为目标分词；

根据样本文本中每一目标分词的标签向量，对语言模型进行训练，具体包括：

1)获取样本文本中每一目标分词的词向量；

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种语言模型自动训练方法，其特征在于，包括以下步骤：

S1.获取包括大量语言样本文本的语言模型训练数据；

S6.利用该有类别标签的第二分词数据获取需要的语言模型。

2.根据权利要求1所述的一种语言模型自动训练方法，其特征在于，所述步骤S2中的对每一个无类别标签的分词数据执行相关词类替换，以获得有类别标签的第一分词数据具体包括：在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇，并将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。

3.根据权利要求2所述的一种语言模型自动训练方法，其特征在于，在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇之后，进一步包括：先判断在分类词汇表中检索出的词汇长度是否大于预先设定的匹配词长度门限值，如果是，则将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签；

4.根据权利要求1所述的一种语言模型自动训练方法，其特征在于，所述步骤S5中在获得有类别标签的第二分词数据之后，还包括：判断有类别标签的第一分词数据与有类别标签的第二分词数据的类别标签替换位置是否相同；如果是，则利用该有类别标签的第二分词数据获取所需语言模型，如果不是，则对有类别标签的第二分词数据执行词类替换。

5.根据权利要求1所述的一种语言模型自动训练方法，其特征在于，所述自动训练方法还包括：

2)：接收输入的语音；

6.根据权利要求1所述的一种语言模型自动训练方法，其特征在于，所述步骤S4中的根据样本文本中每一分词的分词标签，对有类别标签的第一分词数据进行训练具体包括：

1)将样本文本中的每一字作为目标字；

4)获取样本文本中每一目标字的字向量；

7.根据权利要求6所述的一种语言模型自动训练方法，其特征在于，所述将样本文本中同一目标字的字向量和标签向量进行向量融合，具体包括：

3)将样本文本中的每一分词作为目标分词；

8.根据权利要求7所述的一种语言模型自动训练方法，其特征在于，所述根据样本文本中每一目标分词的标签向量，对语言模型进行训练，具体包括：

1)获取样本文本中每一目标分词的词向量；