CN111599349A

CN111599349A - 一种训练语言模型的方法及系统

Info

Publication number: CN111599349A
Application number: CN202010258562.1A
Authority: CN
Inventors: 沈华东
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2020-08-28
Anticipated expiration: 2040-04-01
Also published as: CN111599349B

Abstract

本发明提供了一种训练语言模型的方法及系统，所述方法包括：对目标语言模型进行若干次测试，获取若干次测试结果；对获取的若干次测试结果进行分析，获取目标语言模型的性能分析结果和所述目标语言模型的参数调节信息；根据性能分析结果和参数调节信息对目标语言模型进行训练。系统包括：获取模块、模型生成模块、模型测试模块、分析模块和调参模块；本发明实现根据若干次测试结果对语言模型的性能分析结果和参数调节信息的自动获取，并根据参数调节信息对语言模型进行训练，进一步实现了对语言模型参数的智能调节；解决了传统语言模型的方法中对语言模型的性能分析和参数调节完全依赖于工作人员的技术能力和经验的缺陷。

Description

一种训练语言模型的方法及系统

技术领域

本发明涉及语言处理技术领域，特别涉及一种训练语言模型的方法及系统。

背景技术

目前，语言模型的训练方法主要包括以下几个过程(如附图3)：数据处理、参数调节、模型训练、测试分析、模型发布，即语言模型的训练方法通过获取语言数据，生成语言模型，并对语言模型进行测试，获取测试结果；工作人员根据测试结果，进行人工分析性能，进一步调节语言模型的参数，从而实现对语言模型的训练；该方法存在以下问题：

1、模型的性能分析和参数调节需要花费人员大量的时间精力；

2、调整参数的过程很大依赖调参者的经验，导致训练周期无法具体估计。

发明内容

本发明提供一种训练语言模型的方法及系统，用以解决上述技术问题。

本发明实施例中提供了一种训练语言模型的方法，包括以下步骤：

对目标语言模型进行若干次测试，获取若干次测试结果；

对获取的所述若干次测试结果进行分析，获取所述目标语言模型的性能分析结果和所述目标语言模型的参数调节信息；

根据所述性能分析结果和所述参数调节信息对所述目标语言模型进行训练。

优选的，所述对目标语言模型进行若干次测试前，还包括：获取预设语言数据；根据所述预设语言数据生成目标语言模型；

所述根据所述预设语言数据生成目标语言模型；包括：

获取若干领域的语言数据库，其中，所述若干领域的语言数据库包括所述预设语言数据；

将所述预设语言数据进行划分处理，生成所述预设语言数据的多个元素；

将所述预设语言数据的多个元素与所述若干领域的语言数据库中的语言数据进行比对，获取所述若干领域的语言数据库中与所述预设语言数据的多个元素相似度最高的语言数据对应的语言数据库；

获取所述预设语言数据的多个元素的关联信息；

获取预设语言模型；

根据获取的相似度最高的语言数据对应的语言数据库和所述预设语言数据的多个元素的关联信息基于所述预设语言模型，生成所述目标语言模型。

优选的，所述预设语言数据的多个元素，包括字、词以及句中的一种或多种；

所述预设语言数据的多个元素的关联信息，包括字与字、字与词、字与句、词与词、词与句以及句与句中的一种或多种。

优选的，所述：对目标语言模型进行若干次测试，获取若干次测试结果；包括：

获取所述目标语言模型；

将多个不同的预设测试样本向所述目标语言模型传输，所述目标语言模型根据多个不同的所述预设测试样本生成多个不同的所述预设测试样本对应的多个输出结果；

将所述目标语言模型根据多个不同的所述预设测试样本生成的多个输出结果与多个不同的所述预设测试样本对应的标准结果进行比对，获取所述多个输出结果与多个不同的所述预设测试样本对应的标准结果之间的多个误差信息，并将所述多个误差信息作为所述若干次测试结果。

优选的，所述：对获取的所述若干次测试结果进行分析，获取所述目标语言模型的性能分析结果和所述目标语言模型的参数调节信息；包括：

获取多个所述预设测试样本和多个所述预设测试样本对应的测试结果；

对多个所述预设测试样本的长度、语义和语言种类进行分析，获取多个所述预设测试样本对应的多个复杂度信息；

根据多个所述预设测试样本的多个复杂度信息和多个所述预设测试样本对应的多个测试结果进行加权分析，获取所述目标语言模型的性能分析结果。

当所述目标语言模型的性能分析结果为性能稳定时，则停止获取所述目标语言模型的参数调节信息，并将所述目标语言模型输出显示。

优选的，所述：对获取的所述若干次测试结果进行分析，获取所述目标语言模型的性能分析结果和所述目标语言模型的参数调节信息；还包括：

当所述目标语言模型的性能分析结果为性能不稳定时，则根据所述若干次测试结果分析所述目标语言模型的误差原因，进一步获取所述目标语言模型的参数调节信息，并根据所述参数调节信息对所述目标语言模型进行训练；并对训练后的所述目标语言模型再次进行若干次测试，获取若干次测试结果；

对获取的所述若干次测试结果进行分析，获取所述目标语言模型的性能分析结果；当所述目标语言模型的性能分析结果为性能稳定时，则停止获取所述目标语言模型的参数调节信息，并将所述目标语言模型输出显示；

当所述目标语言模型的性能分析结果为性能不稳定时，则根据所述若干次测试结果分析所述目标语言模型的误差原因，获取所述目标语言模型的参数调节信息，再次根据所述参数调节信息对所述目标语言模型进行训练，重复上述步骤，直至所述目标语言模型的性能分析结果为性能稳定时，将所述目标语言模型输出显示。

优选的，所述：根据所述性能分析结果和所述参数调节信息对所述目标语言模型进行训练；包括：

记录所述参数调节信息对所述目标语言模型的训练次数；

当所述训练次数达到预设训练次数时，停止对所述目标语言模型的训练，并将所述目标语言模型输出显示。

一种训练语言模型的系统，所述系统包括：获取模块、模型生成模块、模型测试模块、分析模块和调参模块；其中，

所述获取模块，用于获取预设语言数据，并将所述预设语言数据向所述模型生成模块传输；

所述模型生成模块，用于根据所述获取模块传输的所述预设语言数据生成目标语言模型，并将所述目标语言模型向所述模型测试模块传输；

所述模型测试模块，用于对所述模型生成模块传输的所述目标语言模型进行若干次测试，获取若干次测试结果，并将所述若干次测试结果向所述分析模块传输；

所述分析模块，用于对所述模型测试模块传输的所述若干次测试结果进行分析，获取所述目标语言模型的性能分析结果和所述目标语言模型的参数调节信息，并将所述目标语言模型的性能分析结果和所述目标语言模型的参数调节信息向所述调参模块传输；

所述调参模块，用于根据所述分析模块传输的所述性能分析结果和所述参数调节信息对所述目标语言模型进行训练。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明所提供一种训练语言模型的方法的结构示意图；

图2为本发明所提供一种训练语言模型的系统的结构示意图。

图3为现有语言模型的训练过程。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供了一种训练语言模型的方法，如图1所示，方法包括：

对所述目标语言模型进行若干次测试，获取若干次测试结果；

根据所述性能分析结果(包括能稳定和性能不稳定)和所述参数调节信息对所述目标语言模型进行训练。

其中，对获取的若干次测试结果进行分析，获取目标语言模型的性能分析结果和目标语言模型的参数调节信息；具体可包括：

根据多轮测试结果性能相对值，自动的进行参数更新；根据各个参数的调节经验，设置更新权重；

假设预设置句式权重为1，每次迭代权重加2；

假设预设词语权重为100，每次迭代权重加50；等

设置迭代次数，语音识别是声学模型和语言模型共同作用，其中语言模型具有强敏感性，防止语言模型训练过拟合，设置最大迭代次数，一般经验设置4或5；

每轮模型训练完成即开始性能测试，测试结果如果不超过阈值或者达到最大阈值即停止训练。

上述方法的工作原理为：对目标语言模型进行若干次测试，获取若干次测试结果；并对获取的若干次测试结果进行分析，获取目标语言模型的性能分析结果和目标语言模型的参数调节信息；并根据性能分析结果和参数调节信息对目标语言模型进行训练。

上述方法的有益效果为：通过对目标语言模型的若干次测试，实现了对若干次测试结果的获取；根据对获取的若干次测试结果进行分析，从而实现了对目标语言模型的性能分析结果和目标语言模型的参数调节信息的获取；并通过获取的参数调节信息，实现了对目标目标语言模型的训练；通过上述技术方案实现了根据若干次测试结果对目标语言模型的性能分析结果和参数调节信息的自动获取，并根据性能分析结果和参数调节信息对目标语言模型进行训练，进一步实现了对目标语言模型参数的智能调节；解决了传统语言模型的方法中对目标语言模型的性能分析和参数调节过程很大依赖调参者的经验、导致训练周期无法具体估计的缺陷，并且工作人员能够根据获取的性能分析结果和参数调节信息，获取该目标语言模型的训练方向，为工作人员对目标语言模型的性能分析和参数调节提供经验，节省传统语言模型调参技术中耗费的时间和经验。

在一个实施例中，所述对所述目标语言模型进行若干次测试前，还包括：获取预设语言数据；根据所述预设语言数据生成目标语言模型；

所述：根据所述预设语言数据生成目标语言模型；包括：

将所述预设语言数据的多个元素与所述若干领域的语言数据库中的语言数据进行比对，获取所述预设语言数据的多个元素与所述若干领域的语言数据库中的语言数据与所述预设语言数据的多个元素比对概率相似度最高的语言数据对应的所述语言数据库；

获取所述预设语言数据的多个元素的关联信息；

获取预设语言模型；

根据获取的比对概率相似度最高的语言数据对应的所述语言数据库和所述预设语言数据的多个元素的关联信息基于所述预设语言模型，生成所述目标语言模型。

上述技术方案的工作原理和有益效果为：通过获取的预设语言数据，实现了对目标语言模型的生成。

上述技术方案中通过将预设语言数据划分为多个元素，并将预设语言数据的多个元素与若干领域的语言数据库中的语言数据进行比对，获取预设语言数据的多个元素与若干领域的语言数据库中的语言数据相似度最高的语言数据对应的语言数据库；例如：预设语言数据为“某地今日空气质量良、温度-6℃-12℃、天气晴转多云”，则预设语言数据中的元素“空气质量、温度、天气、晴、多云”与气象领域语言数据库中的语言数据相似度最高，则获取气象领域语言数据库；并根据预设语言数据的多个元素的关联信息和获取的语言数据库基于预设语言模型，从而实现了目标语言模型生成。

在一个实施例中，预设语言数据的多个元素，包括字、词以及句中的一种或多种；

上述技术方案的有益效果为：上述技术方案中实现了对预设语言数据的多个元素到的划分。

预设语言数据的多个元素的关联信息，包括字与字、字与词、字与句、词与词、词与句以及句与句中的一种或多种。具体可包括：字与字、字与词、字与句、词与词、词与句以及句与句的，在语言数据中的前后位置关系。

上述技术方案的有益效果为：上述技术方案中实现了对预设语言数据的多个元素的关联信息的获取。

在一个实施例中，所述：对所述目标语言模型进行若干次测试，获取若干次测试结果；包括：

获取所述目标语言模型；

上述技术方案的有益效果为：上述技术方案通过将个不同的预设测试样本向目标语言模型传输，目标语言模型生成多个输出结果，通过将多个输出结果与多个不同的预设测试样本对应的标准结果的比对，从而实现了对多个输出结果与多个标准结果之间的多个误差信息的获取；进一步实现了对若干次测试结果的获取。

在一个实施例中，所述：对获取的所述若干次测试结果进行分析，获取所述目标语言模型的性能分析结果和所述目标语言模型的参数调节信息；包括：

所述复杂度信息为：根据样本的长度、语义和语言种类，判断样本的难度(复杂等级)，比如说采集的样本是日语，长度较长，语义是文学类深层次问题，就判断样本的复杂度信息为较难。

上述技术方案的工作原理为：根据多个预设测试样本的多个复杂度信息和多个预设测试样本对应的多个测试结果进行加权分析，获取目标语言模型的性能分析结果。

上述技术方案的有益效果为：上述技术方案中通过对预设测试样本的长度、语义和语言种类进行分析，从而实现了对预设测试样本的复杂度信息的获取；并通过对复杂度信息和复杂度信息对应的预设测试样本对应的测试结果的加权分析，实现了对语言模型的性能分析结果的获取；并且通过采用加权分析，有效地提高了性能分析结果的准确性。

上述技术方案的有益效果为：上述技术方案中当目标语言模型的性能分析结果为性能稳定时，则停止获取目标语言模型的参数调节信息，避免对目标语言模型的过度训练，并将目标语言模型输出显示。

在一个实施例中，所述：对获取的所述若干次测试结果进行分析，获取所述目标语言模型的性能分析结果和所述目标语言模型的参数调节信息；还包括：

上述技术方案的工作原理为：当语言模型的性能分析结果为性能不稳定时，则根据若干次测试结果分析语言模型的误差原因，获取语言模型的参数调节信息，再次根据参数调节信息对语言模型进行训练，重复上述步骤，直至语言模型的性能分析结果为性能稳定时，将语言模型输出显示。

上述技术方案的有益效果为：上述技术方案中当目标语言模型的性能分析结果为性能不稳定时，则根据若干次测试结果分析目标语言模型的误差原因，从而进一步实现了对目标语言模型的参数调节信息的获取，并根据所获取到的参数调节信息，实现了对目标模型的训练；并对训练后的目标语言模型再次进行若干次测试，获取若干次测试结果，并根据若干次测试结果判断当前目标语言模型的性能分析结果是否稳定，当判断当前的明白不语言模型的性能分析结果为性能稳定时，则将当前语言模型输出显示；当判断当前的目标语言模型的性能分析结果为性能不稳定时，则根据若干次测试结果再次获取参数调节信息对目标语言模型进行训练；直至目标语言模型的性能分析结果为性能稳定时将语言模型输出显示；上述技术方案通过对目标语言模型的性能分析结果性能稳定的判断，实现了对参数调节信息的更新和对语言模型的多次训练，进一步实现了对性能稳定的语言模型的获取。

在一个实施例中，所述：根据参数调节信息对语言模型进行训练；包括：

记录参数调节信息对语言模型的训练次数；

上述技术方案的工作原理为：当训练次数达到预设训练次数时，停止对语言模型的训练，并将语言模型输出显示。

上述技术方案的有益效果为：上述技术方案中通过记录参数调节信息对语言模型的训练次数，并将训练次数与预设训练次数进行比对，当训练次数达到预设训练次数时，停止对语言模型的训练，并将语言模型输出显示，从而有效地避免了因语言模型具有强敏感性，对语言模型的过度训练。

一种训练语言模型的系统，如图2所示，系统包括：获取模块21、模型生成模块22、模型测试模块23、分析模块24和调参模块25；其中，

获取模块21，用于获取预设语言数据，并将预设语言数据向模型生成模块22传输；

模型生成模块22，用于根据获取模块21传输的预设语言数据生成目标语言模型，并将目标语言模型向模型测试模块23传输；

模型测试模块23，用于对模型生成模块22传输的目标语言模型进行若干次测试，获取若干次测试结果，并将若干次测试结果向分析模块24传输；

分析模块24，用于对模型测试模块23传输的若干次测试结果进行分析，获取目标语言模型的性能分析结果和目标语言模型的参数调节信息，并将目标语言模型的参数调节信息向调参模块25传输；

调参模块25，用于根据分析模块24传输的性能分析结果和参数调节信息对语言模型进行训练。

上述系统的工作原理为：获取模块21将获取的预设语言数据向模型生成模块22传输；模型生成模块22根据获取模块21传输的预设语言数据生成语言模型，并将语言模型向模型测试模块23传输；模型测试模块23对模型生成模块22传输的语言模型进行若干次测试，获取若干次测试结果，并将若干次测试结果向分析模块24传输；分析模块24对模型测试模块传输的若干次测试结果进行分析，获取语言模型的性能分析结果和语言模型的参数调节信息，并将语言模型的参数调节信息向调参模块25传输；调参模块25根据分析模块24传输的参数调节信息对语言模型进行训练。

上述系统的有益效果为：通过获取模块，实现了对预设语言数据的获取；并通过模型生成模块，实现了根据获取模块传输的预设语言数据对语言模型的生成；通过模型测试模块，实现了对模型生成模块传输的语言模型的若干次测试，并将所获取的若干次测试结果向分析模块传输；分析模块对模型测试模块传输的若干次测试结果进行分析，从而实现了对语言模型的性能分析结果和语言模型的参数调节信息的获取；通过调参模块，实现了根据分析模块传输的参数调节信息对语言模型的训练；通过上述技术方案实现了根据若干次测试结果对语言模型的性能分析结果和参数调节信息的自动获取，并根据参数调节信息对语言模型进行训练，进一步实现了对语言模型参数的智能调节；解决了传统语言模型的方法中对语言模型的性能分析和参数调节完全依赖于工作人员的技术能力和经验的缺陷，并且工作人员能够根据获取的性能分析结果和参数调节信息，获取该语言模型的训练方向，为工作人员对语言模型调参提供经验，节省了传统语言模型调参技术中耗费的时间和经验。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种训练语言模型的方法，其特征在于，包括以下步骤：

对目标语言模型进行若干次测试，获取若干次测试结果；

2.根据权利要求1所述的训练语言模型的方法，其特征在于，所述对目标语言模型进行若干次测试前，还包括：获取预设语言数据；根据所述预设语言数据生成目标语言模型；

所述根据所述预设语言数据生成目标语言模型；包括：

获取所述预设语言数据的多个元素的关联信息；

获取预设语言模型；

3.根据权利要求2所述的训练语言模型的方法，其特征在于，

所述预设语言数据的多个元素，包括字、词以及句中的一种或多种；

4.根据权利要求1所述的训练语言模型的方法，其特征在于，所述：对目标语言模型进行若干次测试，获取若干次测试结果；包括：

获取所述目标语言模型；

5.根据权利要求4所述的训练语言模型的方法，其特征在于，所述：对获取的所述若干次测试结果进行分析，获取所述目标语言模型的性能分析结果和所述目标语言模型的参数调节信息；包括：

6.根据权利要求5所述的训练语言模型的方法，其特征在于，所述：对获取的所述若干次测试结果进行分析，获取所述目标语言模型的性能分析结果和所述目标语言模型的参数调节信息；包括：

7.根据权利要求6所述的训练语言模型的方法，其特征在于，所述：对获取的所述若干次测试结果进行分析，获取所述目标语言模型的性能分析结果和所述目标语言模型的参数调节信息；还包括：

8.根据权利要求1所述的训练语言模型的方法，其特征在于，所述：根据所述性能分析结果和所述参数调节信息对所述目标语言模型进行训练；包括：

记录所述参数调节信息对所述目标语言模型的训练次数；

9.一种如权利要求1-8中任一项所述的训练语言模型的方法所采用的系统，其特征在于，所述系统包括：获取模块、模型生成模块、模型测试模块、分析模块和调参模块；其中，