CN109033079B

CN109033079B - 语言模型的训练方法、训练装置及检验方法

Info

Publication number: CN109033079B
Application number: CN201810738937.7A
Authority: CN
Inventors: 郑权; 张峰; 聂颖
Original assignee: Longma Zhixin Zhuhai Hengqin Technology Co ltd
Current assignee: Longma Zhixin Zhuhai Hengqin Technology Co ltd
Priority date: 2018-07-06
Filing date: 2018-07-06
Publication date: 2020-08-04
Anticipated expiration: 2038-07-06
Also published as: CN109033079A

Abstract

本发明公开了一种语言模型的训练方法、训练装置及检验方法。所述训练方法包括：以特定的字和/或词初始化字表和/或词表，使用字表和/或词表以及原存语料对语言模型进行训练，生成训练好的语言识别模型。采用本发明，可以解决现有技术中旧语料字表和词表未能全部包含新语料中的字或词时需要使用全部的旧语料加新语料重新生成字表和词表对语言模型重新训练从而大量增加计算时间和成本的问题，大大增加了旧语料字表和词表全部包含新增语料中的字或词的概率，从而减少训练时间。

Description

语言模型的训练方法、训练装置及检验方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种语言模型的训练方法、训练装置及检验方法。

背景技术

现有语言模型的建立都是基于对语句或词组进行大量训练，字表和词表的生成也是基于使用语料内出现的字和词生成的。当有新的语料加入时（新的语料指的是其中含有已有旧语料未出现过的字或词），需要使用全部的旧语料加全部的新语料重新生成字表和词表，然后使用全部语料对语言模型重新训练。这种情况下会增加大量的计算时间和成本。

例如，一般情况下，300小时到1200小时的语料中包含的字表的容量大约3000-5000字左右，但常用汉字大约8000字左右。当有新语料加入时，即使仅有一个未被包含的字出现，旧的模型将无法用来训练新语料，从而导致整个模型需要从头训练，造成训练时间和之前训练成果的浪费。

现有技术是在训练样本齐全的前提条件下设计，但是当今社会是一个信息量不断增长的社会，现有的语言模型无法在信息不断增加过程中持续可用且不断进化。

发明内容

为了解决现有技术存在的旧语料字表和词表未能全部包含新语料中的字或词时需要使用全部的旧语料加新语料重新生成字表和词表对语言模型重新训练从而大量增加计算时间和成本的问题，本发明提供了一种语言模型的训练方法、训练装置及检验方法，大大增加旧语料字表和词表全部包含新增语料中的字或词的概率，在信息量不断增长的情况下，节约训练时间。

在第一方面，本发明提供了一种语言模型的训练方法，具体包括：

以特定的字和/或词初始化字表和/或词表；

使用所述字表和/或词表以及原存语料对语言模型进行训练，生成训练好的语言识别模型。

进一步地，当接收到新语料时，和/或当所述语言识别模型使用周期不小于设定值时，对所述语言识别模型进行增量训练。

进一步地，当所述新语料的数量不小于设定的阈值时，和/或当所述新语料的字错误率和/或词错误率不小于设定的阈值时，对所述语言识别模型进行增量训练。

进一步地，当接收到所述新语料后先根据来源的不同对所述新语料进行分类，然后对每类所述新语料分别判断，当某一类或某几类所述新语料的数量不小于设定的阈值时和/或字错误率和/或词错误率不小于设定的阈值时，对所述语言识别模型进行增量训练。

进一步地，所述增量训练包括：

随机抽取部分现存语料或者使用全部现存语料对所述语言识别模型进行增量训练。

进一步地，所述增量训练还包括：

计算所述新语料的总数量为m个，随机抽取α*m个旧语料，将所述m个新语料与所述α*m个旧语料混合生成新旧语料混合集，使用所述新旧语料混合集对所述语言识别模型进行增量训练。

进一步地，所述α的值不小于1。

进一步地，所述α的值为9或者10或者20。

在第二方面，本发明还提供了一种语言模型的训练装置，包括：

初始化模块，用于以特定的字和/或词初始化字表和/或词表；

训练模块，用于使用所述字表和/或词表以及原存语料对语言模型进行训练，生成训练好的语言识别模型。

进一步地，所述训练装置执行以上任意一项所述的语言模型的训练方法，还包括：

语料获取模块，用于接收新语料；

统计分析模块，用于对所述新语料的数量、字错误率、词错误率以及所述语言识别模型的使用周期进行分析统计；

判定模块，用于判定是否满足对所述语言识别模型进行增量训练的条件，满足条件则传递启动增量训练信号给增量训练模块；

增量训练模块，用于从所述判定模块接收所述启动增量训练信号，并对所述语言识别模型进行增量训练。

在第三方面，本发明还提供了一种语言模型的检验方法，包括：

S1：旧语料和新语料混合形成混合集，计算所述混合集的语料总量h，设置参数 i、j、k分别为训练集、监督集及测试集的旧新语料比例，且i+j+k=1，随机在所述混合集中抽取i*h个语料生成所述训练集，在剩余的语料中随机抽取j*h个语料生成所述监督集，剩余语料生成所述测试集；

S2：用S1生成的所述训练集和所述监督集训练语言模型，从而得到新的语言模型；

S3：用S1生成的所述测试集测试所述新的语言模型，得出识别错误率，当所述识别错误率小于预先设定的阈值时，执行S4，否则执行S2；

S4：判定测试合格。

本发明提供了一种语言模型的训练方法、训练装置及检验方法。通过利用特定的字和/或词初始化字表和/或词表，使用字表和/或词表以及原存语料对语言模型进行训练，生成训练好的语言识别模型，解决了现有技术中旧语料字表和词表未能全部包含新语料中的字或词时需要使用全部的旧语料加新语料重新生成字表和词表对语言模型重新训练从而大量增加计算时间和成本的问题，大大增加了旧语料字表和词表全部包含新增语料中的字或词的概率，从而减少训练时间。

附图说明

图1是本发明实施例一提供的一种语言模型的训练方法的流程示意图；

图2是本发明实施例二提供的一种语言模型的训练方法的流程示意图；

图3是本发明实施例三提供的一种语言模型的训练方法的流程示意图；

图4是本发明实施例四提供的一种语言模型的训练装置的结构图；

图5是本发明实施例五提供的一种语言模型的检验方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。

还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

另外需要说明的是，本发明实施例中的“字”包含普通意义上的汉字、英文字母、中英文符号等，为广义的“字”。

实施例一

如图1所示，为本发明实施例一提供的一种语言模型的训练方法的流程示意图，包括步骤S11至S12，具体如下：

S11：以特定的字和词初始化字表和词表。

S12：使用初始化后的字表和词表以及原存语料对语言模型进行训练，生成训练好的语言识别模型。

在本实施例中，特定的字和词可以是根据用户的使用频率自动获取的一部分使用频率最多的字和词，也可以是内部存储库中的字和词，本实施例对此不进行限制。内部存储库中的字和词包含国家官方给出的常用字。如此以该特定的字和词初始化字表和词表后，则大大增加了旧语料字表和词表全部包含新语料中的字或词的概率。若新语料中出现字表范畴外的字，则将该字修改为在字表中的同音同义字。

本发明实施例通过以特定的字和词初始化字表和词表，使用初始化后的字表和词表以及原存语料对语言模型进行训练，生成训练好的语言识别模型，解决了现有技术中旧语料字表和词表未能全部包含新语料中的字或词时需要使用全部的旧语料加新语料重新生成字表和词表对语言模型重新训练从而大量增加计算时间和成本的问题，大大增加了旧语料字表和词表全部包含新增语料中的字或词的概率，从而减少训练时间，节约了训练时间和成本。

实施例二

图2是本发明实施例二提供的一种语言模型的训练方法的流程示意图。本实施例以实施例一为基础进行优化，在本实施例中，将针对训练好的语言识别模型进行增量训练，具体为：当接收到新语料时，对新语料进行计数并统计分析其字错误率和词错误率。

进一步地，当新语料的数量不小于设定的阈值时，或当新语料的字错误率或词错误率不小于设定的阈值时，对语言识别模型进行增量训练。

进一步地，随机抽取部分现存语料或者使用全部现存语料对语言识别模型进行增量训练。

进一步地，计算新语料的总数量为m个，随机抽取α*m个旧语料，将m个新语料与α*m个旧语料混合生成新旧语料混合集，使用新旧语料混合集对语言识别模型进行增量训练。

进一步地，α的值不小于1，优选取值9或者10或者20。

相应的，本实施例的方法具体包括：

S21：以特定的字和词初始化字表和词表。

S22：使用初始化后的字表和词表以及原存语料对语言模型进行训练，生成训练好的语言识别模型。

S23：当接收到新语料时，对新语料进行计数并统计分析其字错误率和词错误率；当新语料的数量不小于设定的阈值时，或当新语料的字错误率或词错误率不小于设定的阈值时，执行S24；否则继续执行S23。

在本实施例中，对新语料进行计数可以得到计数周期内接收到的新语料的数量。新语料的字错误率即新语料中出现字表中没有的字的数量与新语料总字数的比值，新语料的词错误率即新语料中出现词表中没有的词的数量与新语料总词数的比值。

在本实施例中，当新语料的数量达到一定的阈值时则启动增量训练，一方面避免对语言识别模型训练过于频繁的问题，同时避免新语料积累过多时才训练则训练效果差的问题。当新语料的字错误率或词错误率不小于设定的阈值时则启动增量训练，使增量训练更有针对性，一方面避免新增语料中没有新字/词或新字/词过少时就对语言识别模型进行增量则训练过于频繁且价值不大的问题，另外避免新字/词已经积累过多仍迟迟不对语言识别模型启动增量训练的问题。

S24：随机抽取部分现存语料或者使用全部现存语料对语言识别模型进行增量训练；或者，计算新语料的总数量为m个，随机抽取α*m个旧语料，将m个新语料与α*m个旧语料混合生成新旧语料混合集，使用新旧语料混合集对语言识别模型进行增量训练。

在本实施例中，随机抽取截止到当前时间点语料库中的部分现存语料对语言识别模型进行增量训练，可以节省每次训练的时间。使用截止到当前时间点语料库中的全部现存语料中对语言识别模型进行增量训练，可以提高每次训练的效果。在截止到当前时间点的语料库中抽取α*m个旧语料（其中m为当前新语料的总数量）与m个新语料混合生成新旧语料混合集，使用新旧语料混合集对语言识别模型进行增量训练，可以保证总训练效果的同时使总训练时间最短。另外，α的值不小于1，优选取值9或者10或者20。

实施例三

图3是本发明实施例三提供的一种语言模型的训练方法的流程示意图。本实施例以实施例一为基础进行优化，在本实施例中，将针对训练好的语言识别模型进行增量训练，具体为：当接收到新语料时，首先分析判断新语料的来源是否相同。

如果新语料来源相同，则进入以下流程：

对新语料进行计数并统计分析其字错误率和词错误率。

进一步地，α的值不小于1，优选取值9或者10或者20。

如果新语料来源不同，则进入以下流程：

根据来源不同对新语料进行分类，对于来源相同的新语料归为一类。

进一步地，针对每一类新语料分别进行计数并统计分析其字错误率和词错误率。

进一步地，当某一类或某几类新语料的数量不小于设定的阈值时，或当某一类或某几类新语料的字错误率或词错误率不小于设定的阈值时，对语言识别模型进行增量训练。

进一步地，随机抽取部分现存语料或者使用全部现存语料对语言识别模型进行增量训练，或者随机抽取部分触发了对语言识别模型进行增量训练的新语料和部分语料库中的旧语料混合对语言识别模型进行增量训练。

进一步地，计算触发了对语言识别模型进行增量训练的新语料的总数量为M个，随机抽取α*M个旧语料，将M个新语料与α*M个旧语料混合生成新旧语料混合集，使用新旧语料混合集对语言识别模型进行增量训练。

进一步地，α的值不小于1，优选取值9或者10或者20。

相应的，本实施例的方法具体包括：

S31：以特定的字和词初始化字表和词表。

S32：使用初始化后的字表和词表以及原存语料对语言模型进行训练，生成训练好的语言识别模型。

S33：当接收到新语料时，首先判断新语料的来源是否相同，如果来源相同则执行步骤S34至S35，如果来源不同则执行步骤S36至38。

在本实施例中，新语料的来源具体包括：根据来源途径不同，分为视频、广播、电视、现场实时录制等；根据使用场景不同，分为室内、室外、野外、马路上等；根据口音不同，分为东北普通话、四川普通话、广东普通话、西部普通话、中部地区普通话等。

S34：对新语料进行计数并统计分析其字错误率和词错误率；当新语料的数量不小于设定的阈值时，或当新语料的字错误率或词错误率不小于设定的阈值时，执行S35；否则继续执行S34。

S35：随机抽取部分现存语料或者使用全部现存语料对语言识别模型进行增量训练；或者，计算新语料的总数量为m个，随机抽取α*m个旧语料，将m个新语料与α*m个旧语料混合生成新旧语料混合集，使用新旧语料混合集对语言识别模型进行增量训练。

S36：根据来源不同对新语料进行分类，对于来源相同的新语料归为一类。

S37：针对每一类新语料分别进行计数并统计分析其字错误率和词错误率；当某一类或某几类新语料的数量不小于设定的阈值时，或当某一类或某几类新语料的字错误率或词错误率不小于设定的阈值时，执行S38；否则继续执行S37。

在本实施例中，先判断有哪些类别的新语料触发了对语言识别模型进行增量训练，若只有一类触发，则基于该一类新语料对语言识别模型进行增量训练；若有多类别同时触发，则基于该多类新语料同时对语言识别模型进行增量训练。

S38：随机抽取部分现存语料或者使用全部现存语料对语言识别模型进行增量训练；或者随机抽取部分触发了对语言识别模型进行增量训练的新语料和部分语料库中的旧语料混合对语言识别模型进行增量训练；或者，计算触发了对语言识别模型进行增量训练的新语料的总数量为M个，随机抽取α*M个旧语料，将M个新语料与α*M个旧语料混合生成新旧语料混合集，使用新旧语料混合集对语言识别模型进行增量训练。

在本实施例中，随机抽取截止到当前时间点语料库中的部分现存语料对语言识别模型进行增量训练，可以节省每次训练的时间。使用截止到当前时间点语料库中的全部现存语料中对语言识别模型进行增量训练，可以提高每次训练的效果。随机抽取部分触发了对语言识别模型进行增量训练的新语料和部分语料库中的旧语料混合对语言识别模型进行增量训练，节省每次训练的时间且可以通过训练达到后续对该新语料的识别效果。在截止到当前时间点的语料库中抽取α*M个旧语料（其中M为触发了对语言识别模型进行增量训练的新语料的总数量）与所述M个新语料混合生成新旧语料混合集，使用新旧语料混合集对语言识别模型进行增量训练，可以在保证通过训练达到后续对该新语料识别效果的同时使总训练时间最短。另外，α的值不小于1，可以取值9或者10或者20。

实施例四

如图4所示，为本发明实施例四提供的一种语言模型的训练装置的结构示意图，具体如下：

初始化模块11，用于以特定的字和词初始化字表和词表；

训练模块12，用于使用初始化后的字表和词表以及原存语料对语言模型进行训练，生成训练好的语言识别模型。

在本实施例中，特定的字和词可以是根据用户的使用频率自动获取的一部分使用频率最多的字和词，也可以是内部存储库中的字和词，本实施例对此不进行限制。内部存储库中的字和词包含国家官方给出的常用字。

本发明实施例提供的语言模型的训练装置，通过对字表和/或词表进行初始化，从而能够解决旧语料字表和词表未能全部包含新语料中的字或词时需要使用全部的旧语料加新语料重新生成字表和词表对语言模型重新训练从而大量增加计算时间和成本的问题，大大增加了旧语料字表和词表全部包含新增语料中的字或词的概率，从而减少训练时间。

在上述实施例的基础上，语言模型的训练装置还包括：

语料获取模块，用于接收新语料；

统计分析模块，用于对新语料的数量、字错误率、词错误率以及语言识别模型的使用周期进行分析统计；

判定模块，用于判定是否满足对语言识别模型进行增量训练的条件，满足条件则传递启动增量训练信号给增量训练模块；

增量训练模块，用于从判定模块接收启动增量训练信号，并对语言识别模型进行增量训练。

在一种可选的方案中，对语言识别模型进行增量训练的条件包括以下任意一种：当接收到新语料时，或者当语言识别模型的使用周期不小于设定值时，或者当新语料的数量不小于设定的阈值时，或者当新语料的字错误率和/或词错误率不小于设定的阈值时。

在一种可选的方案中，统计分析模块还用于在接收到新语料时分析判断新语料的来源是否相同，如果来源相同则用于对新语料的数量、字错误率、词错误率以及语言识别模型的使用周期进行分析统计；如果来源不同则用于对每一类新语料的数量、字错误率、词错误率分别进行分析统计以及对语言识别模型的使用周期进行分析统计。对语言识别模型进行增量训练的条件包括以下任意一种：当接收到新语料时，或者当语言识别模型的使用周期不小于设定值时，或者当某一类或某几类新语料的数量不小于设定的阈值时，或者当某一类或某几类新语料的字错误率和/或词错误率不小于设定的阈值时。

本发明实施例所提供的语言模型的训练装置可用于执行本发明任意实施例提供的语言模型的训练方法，具备相应的功能模块，实现相同的有益效果。

实施例五

本发明还提供了一种语言模型的检验方法，具体包括：

S1：旧语料和新语料混合形成混合集，计算混合集的语料总量h，设置参数 i、j、k分别为训练集、监督集及测试集的旧新语料比例，且i+j+k=1，随机在混合集中抽取i*h个语料生成训练集，在剩余的语料中随机抽取j*h个语料生成监督集，剩余语料生成测试集；

S2：用S1生成的训练集和监督集训练语言模型，从而得到新的语言模型；

S3：用S1生成的测试集测试新的语言模型，得出识别错误率，当识别错误率小于预先设定的阈值时，执行S4，否则执行S2；

S4：判定测试合格。

本发明实施例所提供的语言模型的检验方法可用于检验本发明任意实施例提供的语言模型的训练方法所训练的语言模型和本发明任意实施例提供的语言模型的训练装置所训练的语言模型，具备相应的功能模块，实现相同的有益效果。

需要说明的是，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要进一步说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种语言模型的训练方法，其特征在于，包括：

以特定的字和/或词初始化字表和/或词表；

使用所述字表和/或词表以及原存语料对语言模型进行训练，生成训练好的语言识别模型；

当接收到新语料时，和/或当所述语言识别模型使用周期不小于设定值时，对所述语言识别模型进行增量训练；

所述增量训练还包括：计算所述新语料的总数量为m个，随机抽取α*m个旧语料，将所述m个新语料与所述α*m个旧语料混合生成新旧语料混合集，使用所述新旧语料混合集对所述语言识别模型进行增量训练，其中，所述α的值不小于1。

2.如权利要求1所述的语言模型的训练方法，其特征在于，当所述新语料的数量不小于设定的阈值时，和/或当所述新语料的字错误率和/或词错误率不小于设定的阈值时，对所述语言识别模型进行增量训练。

3.如权利要求2中所述的语言模型的训练方法，其特征在于，当接收到所述新语料后先根据来源的不同对所述新语料进行分类，然后对每类所述新语料分别分析判断，当某一类或某几类所述新语料的数量不小于设定的阈值时和/或字错误率和/或词错误率不小于设定的阈值时，对所述语言识别模型进行增量训练。

4.如权利要求1-3中任一项所述的语言模型的训练方法，其特征在于，所述增量训练包括：

5.如权利要求1所述的语言模型的训练方法，其特征在于，所述α的值不小于1。

6.如权利要求5所述的语言模型的训练方法，其特征在于，所述α的值为9或者10或者20。

7.一种语言模型的训练装置，所述训练装置执行权利要求1至6中任意一项所述的语言模型的训练方法，其特征在于，包括：

训练模块，用于使用所述字表和/或词表以及原存语料对语言模型进行训练，生成训练好的语言识别模型；

语料获取模块，用于接收新语料；