CN116612750A - 一种语言模型自动训练方法 - Google Patents

一种语言模型自动训练方法 Download PDF

Info

Publication number
CN116612750A
CN116612750A CN202310583488.4A CN202310583488A CN116612750A CN 116612750 A CN116612750 A CN 116612750A CN 202310583488 A CN202310583488 A CN 202310583488A CN 116612750 A CN116612750 A CN 116612750A
Authority
CN
China
Prior art keywords
word
label
language model
vector
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310583488.4A
Other languages
English (en)
Inventor
张恩侨
周剑
楚建霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Kopat Information Technology Co ltd
Original Assignee
Suzhou Kopat Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Kopat Information Technology Co ltd filed Critical Suzhou Kopat Information Technology Co ltd
Priority to CN202310583488.4A priority Critical patent/CN116612750A/zh
Publication of CN116612750A publication Critical patent/CN116612750A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种语言模型自动训练方法,涉及自然语言处理技术领域。该语言模型自动训练方法,包括以下步骤:S1.获取包括大量语言样本文本的语言模型训练数据;S2.利用无类别标签的语言模型对上述样本文本进行分词处理,得到每一个分词对应的无类别标签的分词数据,该分词标签包括对应分词中的每一字在对应分词中的位置信息;S3.对每一个无类别标签的分词数据执行相关词类替换,以获得有类别标签的第一分词数据。本发明中,通过将样本文本的分词标签作为训练数据对语言模型进行训练,使得训练语言模型所使用的数据更为全面,从而能够降低语言模型的PPL值,提升了语言模型的训练效果。

Description

一种语言模型自动训练方法
技术领域
本发明涉及自然语言处理技术领域,具体为一种语言模型自动训练方法。
背景技术
随着计算机使用的日益普及,人们越来越期望能够与计算机直接进行语言交流,因为语言是人类进行沟通最方便、快捷、有效的方式。语音识别技术就是让计算机通过识别和理解过程,把人类语音信号转变为相应文本的一项技术,语言模型在其中扮演着提高语音识别正确率的重要角色。
语言模型可以对一段文本的概率进行估计,即,描述一个字符串属于自然语言的概率。语言模型可以使用在许多自然语言处理方面,比如,语音识别、机器翻译、词性标注、句法分析,以及资讯检索等等。
由于硬件性能和软件算法的局限,当前语音识别系统对语言模型大小有着比较严格的限制。与此相对,语言模型随包含词汇数量的增加,其模型大小呈指数级增长。基于这两个原因,语音识别系统可容纳的词汇数量是不能无限扩充的。当前技术条件下,语音识别系统的词表容量上限在十几万的量级。对于词表之外的词汇,语音识别系统的识别准确率会下降很多。
然而,现有的语言模型的效果还不够理想,因此,如何提高语言模型的效果是目前亟待解决的技术问题。
因此,本领域技术人员提供了一种语言模型自动训练方法,以解决上述背景技术中提出的问题。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种语言模型自动训练方法,解决了语音识别系统可容纳的词汇数量是不能无限扩充的,当前技术条件下,语音识别系统的词表容量上限在十几万的量级,对于词表之外的词汇,语音识别系统的识别准确率会下降很多的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
一种语言模型自动训练方法,包括以下步骤:
S1.获取包括大量语言样本文本的语言模型训练数据;
S2.利用无类别标签的语言模型对上述样本文本进行分词处理,得到每一个分词对应的无类别标签的分词数据,该分词标签包括对应分词中的每一字在对应分词中的位置信息;
S3.对每一个无类别标签的分词数据执行相关词类替换,以获得有类别标签的第一分词数据;
S4.根据样本文本中每一分词的分词标签,对有类别标签的第一分词数据进行训练,以获得有类别标签的语言模型;
S5.利用上述有类别标签的语言模型对该语言训练数据进行分词,以获得有类别标签的第二分词数据;
S6.利用该有类别标签的第二分词数据获取需要的语言模型。
进一步地,所述步骤S2中的对每一个无类别标签的分词数据执行相关词类替换,以获得有类别标签的第一分词数据具体包括:在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇,并将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。
进一步地,在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇之后,进一步包括:先判断在分类词汇表中检索出的词汇长度是否大于预先设定的匹配词长度门限值,如果是,则将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签;
再判断在分类词汇表中检索出的词汇的出现频率是否大于预先设定的词频门限值,如果是,则将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。
进一步地,所述步骤S5中在获得有类别标签的第二分词数据之后,还包括:判断有类别标签的第一分词数据与有类别标签的第二分词数据的类别标签替换位置是否相同;如果是,则利用该有类别标签的第二分词数据获取所需语言模型,如果不是,则对有类别标签的第二分词数据执行词类替换。
进一步地,所述自动训练方法还包括:
1)在利用无类别标签的语言模型对训练样本进行分词之前,对该训练样本作出归一化处理;
2):接收输入的语音;
3)利用该语言模型针对输入语音执行语音识别处理,然后获得需要的语言模型。
进一步地,所述步骤S4中的根据样本文本中每一分词的分词标签,对有类别标签的第一分词数据进行训练具体包括:
1)将样本文本中的每一字作为目标字;
2)生成样本文本中每一目标字的标签向量,该标签向量表征了对应目标字所属分词的分词标签中包含的对应目标字的相关信息;
3)根据样本文本中每一目标字的标签向量,对语言模型进行训练;
4)获取样本文本中每一目标字的字向量;
5)将样本文本中同一目标字的字向量和标签向量进行向量融合,得到第一融合向量;
6)根据样本文本中每一目标字的第一融合向量,对语言模型进行训练。
进一步地,所述将样本文本中同一目标字的字向量和标签向量进行向量融合,具体包括:
1)将样本文本中同一目标字的标签向量,插入同一目标字的字向量的预设位置处;
2)将样本文本中同一目标字的标签向量,替换同一目标字的字向量中的向量元素;
3)将样本文本中的每一分词作为目标分词;
4)生成样本文本中每一目标分词的标签向量,该标签向量表征了对应目标分词的分词标签的信息;
5)根据样本文本中每一目标分词的标签向量,对语言模型进行训练。
进一步地,所述根据样本文本中每一目标分词的标签向量,对语言模型进行训练,具体包括:
1)获取样本文本中每一目标分词的词向量;
2)将样本文本中同一目标分词的词向量和标签向量进行向量融合,得到第二融合向量;
3)根据样本文本中每一目标分词的第二融合向量,对语言模型进行训练
4)将样本文本中同一目标分词的标签向量,插入同一目标分词的分词向量的预设位置处;
5)再将样本文本中同一目标分词的标签向量,替换同一目标分词的分词向量中的向量元素。
(三)有益效果
本发明提供了一种语言模型自动训练方法。具备以下有益效果:
1、本发明提供了一种语言模型自动训练方法,该方法利用无类别标签的语言模型对训练样本进行分词,以获得无类别标签的分词数据;对无类别标签的分词数据执行词类替换,以获得有类别标签的第一分词数据;对有类别标签的第一分词数据进行训练,以获得有类别标签的语言模型,并利用该有类别标签的语言模型对该训练样本进行分词,以获得有类别标签的第二分词数据;利用该有类别标签的第二分词数据获取声学语言模型,实现了基于词类分词的语言模型训练。
2、本发明提供了一种语言模型自动训练方法,在获取到包括大量样本文本的语言模型训练数据后,可以将这些样本文本进行分词处理,以得到每一分词的分词标签,其中,分词标签包括对应分词中的每一字在对应分词中的位置信息,接着,可以根据这些样本文本中每一分词的分词标签,对语言模型进行训练。
3、本发明提供了一种语言模型自动训练方法,通过将样本文本的分词标签作为训练数据对语言模型进行训练,使得训练语言模型所使用的数据更为全面,从而能够降低语言模型的PPL值,提升了语言模型的训练效果。
附图说明
图1为本发明的语言模型自动训练方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
如图1所示,本发明实施例提供一种语言模型自动训练方法,包括以下步骤:
S1.获取包括大量语言样本文本的语言模型训练数据;
S2.利用无类别标签的语言模型对上述样本文本进行分词处理,得到每一个分词对应的无类别标签的分词数据,该分词标签包括对应分词中的每一字在对应分词中的位置信息;
S3.对每一个无类别标签的分词数据执行相关词类替换,以获得有类别标签的第一分词数据;
S4.根据样本文本中每一分词的分词标签,对有类别标签的第一分词数据进行训练,以获得有类别标签的语言模型;
S5.利用上述有类别标签的语言模型对该语言训练数据进行分词,以获得有类别标签的第二分词数据;
S6.利用该有类别标签的第二分词数据获取需要的语言模型。
步骤S2中的对每一个无类别标签的分词数据执行相关词类替换,以获得有类别标签的第一分词数据具体包括:在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇,并将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。
在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇之后,进一步包括:先判断在分类词汇表中检索出的词汇长度是否大于预先设定的匹配词长度门限值,如果是,则将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签;
再判断在分类词汇表中检索出的词汇的出现频率是否大于预先设定的词频门限值,如果是,则将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。
步骤S5中在获得有类别标签的第二分词数据之后,还包括:判断有类别标签的第一分词数据与有类别标签的第二分词数据的类别标签替换位置是否相同;如果是,则利用该有类别标签的第二分词数据获取所需语言模型,如果不是,则对有类别标签的第二分词数据执行词类替换。
该自动训练方法还包括:
1)在利用无类别标签的语言模型对训练样本进行分词之前,对该训练样本作出归一化处理;
2):接收输入的语音;
3)利用该语言模型针对输入语音执行语音识别处理,然后获得需要的语言模型。
步骤S4中的根据样本文本中每一分词的分词标签,对有类别标签的第一分词数据进行训练具体包括:
1)将样本文本中的每一字作为目标字;
2)生成样本文本中每一目标字的标签向量,该标签向量表征了对应目标字所属分词的分词标签中包含的对应目标字的相关信息;
3)根据样本文本中每一目标字的标签向量,对语言模型进行训练;
4)获取样本文本中每一目标字的字向量;
5)将样本文本中同一目标字的字向量和标签向量进行向量融合,得到第一融合向量;
6)根据样本文本中每一目标字的第一融合向量,对语言模型进行训练。将样本文本中同一目标字的字向量和标签向量进行向量融合,具体包括:
1)将样本文本中同一目标字的标签向量,插入同一目标字的字向量的预设位置处;
2)将样本文本中同一目标字的标签向量,替换同一目标字的字向量中的向量元素;
3)将样本文本中的每一分词作为目标分词;
4)生成样本文本中每一目标分词的标签向量,该标签向量表征了对应目标分词的分词标签的信息;
5)根据样本文本中每一目标分词的标签向量,对语言模型进行训练。
根据样本文本中每一目标分词的标签向量,对语言模型进行训练,具体包括:
1)获取样本文本中每一目标分词的词向量;
2)将样本文本中同一目标分词的词向量和标签向量进行向量融合,得到第二融合向量;
3)根据样本文本中每一目标分词的第二融合向量,对语言模型进行训练
4)将样本文本中同一目标分词的标签向量,插入同一目标分词的分词向量的预设位置处;
5)再将样本文本中同一目标分词的标签向量,替换同一目标分词的分词向量中的向量元素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种语言模型自动训练方法,其特征在于,包括以下步骤:
S1.获取包括大量语言样本文本的语言模型训练数据;
S2.利用无类别标签的语言模型对上述样本文本进行分词处理,得到每一个分词对应的无类别标签的分词数据,该分词标签包括对应分词中的每一字在对应分词中的位置信息;
S3.对每一个无类别标签的分词数据执行相关词类替换,以获得有类别标签的第一分词数据;
S4.根据样本文本中每一分词的分词标签,对有类别标签的第一分词数据进行训练,以获得有类别标签的语言模型;
S5.利用上述有类别标签的语言模型对该语言训练数据进行分词,以获得有类别标签的第二分词数据;
S6.利用该有类别标签的第二分词数据获取需要的语言模型。
2.根据权利要求1所述的一种语言模型自动训练方法,其特征在于,所述步骤S2中的对每一个无类别标签的分词数据执行相关词类替换,以获得有类别标签的第一分词数据具体包括:在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇,并将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。
3.根据权利要求2所述的一种语言模型自动训练方法,其特征在于,在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇之后,进一步包括:先判断在分类词汇表中检索出的词汇长度是否大于预先设定的匹配词长度门限值,如果是,则将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签;
再判断在分类词汇表中检索出的词汇的出现频率是否大于预先设定的词频门限值,如果是,则将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。
4.根据权利要求1所述的一种语言模型自动训练方法,其特征在于,所述步骤S5中在获得有类别标签的第二分词数据之后,还包括:判断有类别标签的第一分词数据与有类别标签的第二分词数据的类别标签替换位置是否相同;如果是,则利用该有类别标签的第二分词数据获取所需语言模型,如果不是,则对有类别标签的第二分词数据执行词类替换。
5.根据权利要求1所述的一种语言模型自动训练方法,其特征在于,所述自动训练方法还包括:
1)在利用无类别标签的语言模型对训练样本进行分词之前,对该训练样本作出归一化处理;
2):接收输入的语音;
3)利用该语言模型针对输入语音执行语音识别处理,然后获得需要的语言模型。
6.根据权利要求1所述的一种语言模型自动训练方法,其特征在于,所述步骤S4中的根据样本文本中每一分词的分词标签,对有类别标签的第一分词数据进行训练具体包括:
1)将样本文本中的每一字作为目标字;
2)生成样本文本中每一目标字的标签向量,该标签向量表征了对应目标字所属分词的分词标签中包含的对应目标字的相关信息;
3)根据样本文本中每一目标字的标签向量,对语言模型进行训练;
4)获取样本文本中每一目标字的字向量;
5)将样本文本中同一目标字的字向量和标签向量进行向量融合,得到第一融合向量;
6)根据样本文本中每一目标字的第一融合向量,对语言模型进行训练。
7.根据权利要求6所述的一种语言模型自动训练方法,其特征在于,所述将样本文本中同一目标字的字向量和标签向量进行向量融合,具体包括:
1)将样本文本中同一目标字的标签向量,插入同一目标字的字向量的预设位置处;
2)将样本文本中同一目标字的标签向量,替换同一目标字的字向量中的向量元素;
3)将样本文本中的每一分词作为目标分词;
4)生成样本文本中每一目标分词的标签向量,该标签向量表征了对应目标分词的分词标签的信息;
5)根据样本文本中每一目标分词的标签向量,对语言模型进行训练。
8.根据权利要求7所述的一种语言模型自动训练方法,其特征在于,所述根据样本文本中每一目标分词的标签向量,对语言模型进行训练,具体包括:
1)获取样本文本中每一目标分词的词向量;
2)将样本文本中同一目标分词的词向量和标签向量进行向量融合,得到第二融合向量;
3)根据样本文本中每一目标分词的第二融合向量,对语言模型进行训练
4)将样本文本中同一目标分词的标签向量,插入同一目标分词的分词向量的预设位置处;
5)再将样本文本中同一目标分词的标签向量,替换同一目标分词的分词向量中的向量元素。
CN202310583488.4A 2023-05-23 2023-05-23 一种语言模型自动训练方法 Pending CN116612750A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310583488.4A CN116612750A (zh) 2023-05-23 2023-05-23 一种语言模型自动训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310583488.4A CN116612750A (zh) 2023-05-23 2023-05-23 一种语言模型自动训练方法

Publications (1)

Publication Number Publication Date
CN116612750A true CN116612750A (zh) 2023-08-18

Family

ID=87683121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310583488.4A Pending CN116612750A (zh) 2023-05-23 2023-05-23 一种语言模型自动训练方法

Country Status (1)

Country Link
CN (1) CN116612750A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971677A (zh) * 2013-02-01 2014-08-06 腾讯科技(深圳)有限公司 一种声学语言模型训练方法和装置
CN109800435A (zh) * 2019-01-29 2019-05-24 北京金山数字娱乐科技有限公司 一种语言模型的训练方法及装置
US20230096821A1 (en) * 2021-09-30 2023-03-30 Ronny Huang Large-Scale Language Model Data Selection for Rare-Word Speech Recognition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971677A (zh) * 2013-02-01 2014-08-06 腾讯科技(深圳)有限公司 一种声学语言模型训练方法和装置
CN109800435A (zh) * 2019-01-29 2019-05-24 北京金山数字娱乐科技有限公司 一种语言模型的训练方法及装置
US20230096821A1 (en) * 2021-09-30 2023-03-30 Ronny Huang Large-Scale Language Model Data Selection for Rare-Word Speech Recognition

Similar Documents

Publication Publication Date Title
CN110298033B (zh) 关键词语料标注训练提取系统
CN107729468B (zh) 基于深度学习的答案抽取方法及系统
US7412383B1 (en) Reducing time for annotating speech data to develop a dialog application
CN110765759B (zh) 意图识别方法及装置
CN110197279B (zh) 变换模型训练方法、装置、设备和存储介质
WO2009084554A1 (ja) テキスト分割装置とテキスト分割方法およびプログラム
CN111339750B (zh) 去除停用语并预测句子边界的口语文本处理方法
CN110377695B (zh) 一种舆情主题数据聚类方法、装置及存储介质
CN111753524A (zh) 文本断句位置的识别方法及系统、电子设备及存储介质
CN111737991A (zh) 文本断句位置的识别方法及系统、电子设备及存储介质
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN108364655B (zh) 语音处理方法、介质、装置和计算设备
CN110705272A (zh) 一种面向汽车发动机故障诊断的命名实体识别方法
CN111291168A (zh) 图书检索方法、装置及可读存储介质
CN113934909A (zh) 基于预训练语言结合深度学习模型的金融事件抽取方法
CN113947086A (zh) 样本数据生成方法、训练方法、语料生成方法和装置
CN117332789A (zh) 一种面向对话场景的语义分析方法及系统
CN113555133A (zh) 一种医疗问诊数据处理方法和装置
CN116933782A (zh) 一种电商文本关键词提取处理方法及系统
CN114722822B (zh) 命名实体识别方法、装置、设备和计算机可读存储介质
CN110472032A (zh) 医疗自定义实体词词性标签的多分类智能问答检索方法
CN116612750A (zh) 一种语言模型自动训练方法
CN113408287B (zh) 实体识别方法、装置、电子设备及存储介质
CN114741512A (zh) 一种文本自动分类方法及系统
CN114564942A (zh) 一种用于监管领域的文本纠错方法、存储介质和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination