CN111539223A

CN111539223A - 语言模型的训练方法、装置、电子设备及可读存储介质

Info

Publication number: CN111539223A
Application number: CN202010479744.1A
Authority: CN
Inventors: 李宇琨; 李臻; 孙宇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2020-08-14
Anticipated expiration: 2040-05-29
Also published as: JP2021190070A; KR20210148873A; EP3916614A1; JP7214954B2; US20210374334A1; CN111539223B

Abstract

本申请公开了一种语言模型的训练方法、装置、电子设备及可读存储介质，涉及人工智能中的自然语言处理技术领域。具体实现方案为：预先使用语料库中的预设文本语料对语言模型进行预训练学习；将样本文本语料中的至少一个词分别替换为词掩码，得到包括至少一个词掩码的样本文本语料并输入所述语言模型，经所述语言模型输出所述至少一个词掩码中每个所述词掩码的上下文向量；分别基于每个所述词掩码的上下文向量和词向量参数矩阵确定每个所述词掩码对应的词向量；基于每个所述词掩码对应的词向量对所述语言模型进行训练。由于引入了更大粒度语义信息表示，增强了语言模型对词义信息的学习能力，可以有效避免基于字的全词覆盖可能引起的信息泄露风险。

Description

语言模型的训练方法、装置、电子设备及可读存储介质

技术领域

涉及计算机技术领域，具体涉及人工智能中的自然语言处理技术，尤其涉及一种语言模型的训练方法、装置、电子设备及可读存储介质。

背景技术

在中文自然语言处理(Natural Language Processing，NLP)领域，使用大量的无监督文本进行语言模型自监督的预训练学习(pre-training)，接着采用有监督的任务数据对语言模型进行参数精调(fine-tuning)，是当前NLP领域中先进的语言模型训练技术。

现有技术在语言模型自监督的预训练学习中，为了不使语言模型的训练效果受到分词器性能的影响，都是基于字粒度进行语言模型的自监督预训练学习，从而使得语言模型很难学出更大语义粒度(例如词)的信息，可能存在信息泄露的风险，可能会破坏语言模型对词本身语义的学习，从而影响语言模型的预测性能。

发明内容

本申请的多个方面提供一种语言模型的训练方法、装置、电子设备及可读存储介质，用以增强语言模型对词义信息的学习能力，避免基于字粒度学习引起信息泄露风险。

根据第一方面，提供了一种语言模型的训练方法，包括：

预先使用语料库中的预设文本语料对语言模型进行预训练学习；

将样本文本语料中的至少一个词分别替换为词掩码，得到包括至少一个词掩码的样本文本语料；

将所述包括至少一个词掩码的样本文本语料输入所述语言模型，经所述语言模型输出所述至少一个词掩码中每个所述词掩码的上下文向量；

分别基于每个所述词掩码的上下文向量和词向量参数矩阵确定每个所述词掩码对应的词向量；

基于每个所述词掩码对应的词向量对所述语言模型进行训练，直至满足预设训练完成条件。

根据第二方面，提供了一种语言模型的训练装置，包括：

预训练单元，用于预先使用语料库中的预设文本语料对语言模型进行预训练学习；

替换单元，用于将所述包括至少一个样本文本语料中的至少一个词分别替换为词掩码，得到包括至少一个词掩码的样本文本语料；

所述语言模型，用于接收包括词掩码的样本文本语料，输出所述至少一个词掩码中每个所述词掩码的上下文向量；

确定单元，用于分别基于每个所述词掩码的上下文向量和词向量参数矩阵确定每个所述词掩码对应的词向量；

训练单元，用于基于每个所述词掩码对应的词向量对所述语言模型进行训练，直至满足预设训练完成条件。

根据第三方面，提供一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方面和任一可能的实现方式的方法。

根据第四方面，提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上所述的方面和任一可能的实现方式的方法。

由上述技术方案可知，本申请实施例通过预先使用中的预设文本语料对语言模型进行预训练学习，然后将样本文本语料中的至少一个词分别替换为词掩码，得到包括至少一个词掩码的样本文本语料，并将所述包括至少一个词掩码的样本文本语料输入所述语言模型，经所述语言模型输出所述至少一个词掩码中每个所述词掩码的上下文向量，再分别基于每个所述词掩码的上下文向量和词向量参数矩阵确定每个所述词掩码对应的词向量，进而基于每个所述词掩码对应的词向量对所述语言模型进行训练，直至满足预设训练完成条件，即可得到训练好的语言模型。由于引入了更大粒度语义信息表示，相对于字向量，词向量蕴含了更丰富的语义信息表示，基于上下文建模词向量，加强了语言模型对词义信息的建模，增强了语言模型对词义信息的学习能力。

另外，采用本申请所提供的技术方案，由于将样本文本语料中的词替换为词掩码来对语言模型进行训练，可以有效避免基于字的全词覆盖可能引起的信息泄露风险。

另外，采用本申请所提供的技术方案，能够有效提高语言模型的预测性能。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。附图仅仅用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的示意图；

图2是根据本申请第二实施例的示意图；

图3是根据本申请第三实施例的示意图；

图4是根据本申请第四实施例的示意图；

图5是用来实现本申请实施例的语言模型的训练方法的电子设备的示意图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中所涉及的终端可以包括但不限于手机、个人数字助理(Personal Digital Assistant，PDA)、无线手持设备、平板电脑(Tablet Computer)、个人电脑(Personal Computer，PC)、MP3播放器、MP4播放器、可穿戴设备(例如，智能眼镜、智能手表、智能手环等)、智能家居设备等智能设备。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

现有技术在语言模型自监督的预训练学习中，都是基于字粒度进行语言模型的自监督预训练学习，从而使得语言模型很难学出更大语义粒度(例如词)的信息，可能存在信息泄露的风险，可能会破坏语言模型对词本身语义的学习，从而影响语言模型的预测性能。

例如，现有语言模型中的知识增强语义表示(Enhanced Representation fromkNowledge IntEgration，ERNIE)模型的预训练学习中，采用基于字的全词覆盖方式，来使ERNIE模型学习实体的表达。但是，基于字的全词覆盖方式，仍然没有显式引入更大语义粒度的信息，例如词向量；另外，可能存在信息泄露的风险，例如针对文本“哈尔滨是黑龙江的省会”，分别将“哈”、“尔”、“滨”三个字替换为三个掩码(MASK)，得到“[MASK][MASK][MASK]是黑龙江的省会”，期望ERNIE模型学出三个[MASK]对应“哈”、“尔”、“滨”三个字，等于提前告诉ERNIE模型要预测的信息是由三个字组成，这种信息可能会破坏模型对词本身语义的学习。

本申请针对上述问题，提出一种语言模型的训练方法、装置、电子设备及可读存储介质，以增强语言模型对词义信息的学习能力，避免基于字粒度学习引起信息泄露风险。

图1是根据本申请第一实施例的示意图，如图1所示。

101、预先使用语料库中的预设文本语料对语言模型进行预训练学习。

预先使用语料库中的预设文本语料对语言模型进行预训练学习，可以使语言模型学习文本语料中的词、实体及实体关系。

102、将样本文本语料中的至少一个词分别替换为词掩码，得到包括至少一个词掩码的样本文本语料。

其中的样本文本语料可以是语料库中的预设文本语料中的一个预设文本语料，也可以是不同于语料库中的预设文本语料的其他文本语料。

可选地，在本实施例的一个可能的实现方式中，将样本文本语料中的至少一个词分别替换为词掩码时，仍然基于字表示词掩码的上下文。

103、将所述包括至少一个词掩码的样本文本语料输入所述语言模型，经所述语言模型输出所述至少一个词掩码中每个所述词掩码的上下文向量。

104、分别基于每个所述词掩码的上下文向量和词向量参数矩阵确定每个所述词掩码对应的词向量。

105、基于每个所述词掩码对应的词向量对所述语言模型进行训练，直至满足预设训练完成条件。

其中，上述102～105可以为一个迭代执行的过程，通过迭代执行102～105实现对语言模型的训练，在满足预设训练完成条件时，对语言模型的训练完成。

可选地，在本实施例的一个可能的实现方式中，所述预设训练完成条件可以根据实际需求设置，例如可以包括：语言模型输出的词向量对应样本文本语料的困惑度(perplexity)达到第一预设阈值，和/或，语言模型的训练次数(即，102～105的迭代执行次数)达到第二预设阈值。

需要说明的是，101～105的执行主体的部分或全部可以为位于本地终端的应用，或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopment Kit，SDK)等功能单元，或者还可以为位于网络侧服务器中的处理引擎，本实施例对此不进行特别限定。

可以理解的是，所述应用可以是安装在终端上的本地程序(nativeApp)，或者还可以是终端上的浏览器的一个网页程序(webApp)，本实施例对此不进行限定。

例如，在一个具体例子中，预先使用语料库中的预设文本语料对语言模型进行预训练学习，学习了“哈尔滨”是“黑龙江”的省会以及“哈尔滨”是个冰雪城市，将样本文本语料“哈尔滨是黑龙江的省会”中的“哈尔滨”替换为一个词掩码(MASK)输入语言模型，经语言模型输出一个词向量，基于该语言模型输出的词向量是否正确来对语言模型进行训练，使得训练完成后，向语言模型输入“[MASK]是黑龙江的省会”时，语言模型可以正确的输出“哈尔滨”的词向量。

本实施例中，通过预先使用中的预设文本语料对语言模型进行预训练学习，然后将样本文本语料中的至少一个词分别替换为词掩码，得到包括至少一个词掩码的样本文本语料，并将所述包括至少一个词掩码的样本文本语料输入所述语言模型，经所述语言模型输出所述至少一个词掩码中每个所述词掩码的上下文向量，再分别基于每个所述词掩码的上下文向量和词向量参数矩阵确定每个所述词掩码对应的词向量，进而基于每个所述词掩码对应的词向量对所述语言模型进行训练，直至满足预设训练完成条件，即可得到训练好的语言模型。由于引入了更大粒度语义信息表示，相对于字向量，词向量蕴含了更丰富的语义信息表示，基于上下文建模词向量，加强了语言模型对词义信息的建模，增强了语言模型对词义信息的学习能力。

可选地，在本实施例的一个可能的实现方式中，在102中，可以对所述样本文本语料进行分词，并基于分词结果，将所述样本文本语料中至少一个词中的每个词分别替换为一个词掩码。除了替换为掩码的词外，所述样本文本语料中仍然基于字表示词掩码的上下文。

该实现方式中，通过对样本文本语料进行分词，根据分词结果，可以准确的确定样本文本语料中的词，并将其中的一个或多个词中的每个词分别替换为一个词掩码，从而可以正确的设置词掩码用于训练语言模型，使得语言模型基于上下文建模词向量，加强了语言模型对词义信息的建模，增强了语言模型对词义信息的学习能力。

可选地，在本实施例的一个可能的实现方式中，在104中，可以将每个所述词掩码的上下文向量与所述词向量参数矩阵相乘，得到每个所述词掩码对应多个词向量的概率值；然后，对每个所述词掩码对应多个词向量的概率值进行归一化处理，例如，可以通过归一化指数函数(softmax)，对每个所述词掩码对应多个词向量的概率值进行归一化处理，得到每个所述词掩码对应多个词向量的多个归一化概率值，进而，基于每个所述词掩码对应多个词向量的多个归一化概率值，确定每个所述词掩码对应的词向量，具体来说，将归一化概率值最高的词向量确定为所述词掩码对应的词向量。通过softmax对每个所述词掩码对应多个词向量的概率值进行归一化处理时，词向量参数矩阵也可以称为softmax参数矩阵或者softmax词向量参数矩阵。

在一个具体的实现方式中，可以通过一次词表来包含可能的词，词向量参数矩阵中包括多个词向量的具体表示，词向量参数矩阵中的词向量为词表中各词的词向量的具体表示，将每个所述词掩码的上下文向量与所述词向量参数矩阵进行矩阵相乘，可以得到每个所述词掩码的上下文向量与所述词向量参数矩阵中每个词向量之间的相关性，从而得到每个所述词掩码分别对应于词表中各词向量的概率值，每个概率值表示所述词掩码对应于一个词向量的概率。

该实现方式中，通过将词掩码的上下文向量与词向量参数矩阵相乘，并将得到的概率值进行归一化处理，基于归一化的概率值，例如可以选取概率值最高的词向量作为词掩码对应的词向量，从而准确确定词掩码对应的词向量。

可选地，在本实施例的一个可能的实现方式中，104中的词向量参数矩阵可以是预先训练好的词向量参数矩阵，也可以是初始化的词向量参数矩阵(即，未经训练的或者未训练好的词向量参数矩阵)，词向量参数矩阵的维度可以是[词向量维度，词表大小]，其中的词表大小即词表中包含的词的数量，本申请实施例对此不进行限制。

其中，所述词向量参数矩阵采用预先训练好的词向量参数矩阵时，可以加快语言模型的训练速度，从而提高训练效率。

在一个具体的实现方式中，104中的词向量参数矩阵采用初始化的词向量参数矩阵时，在105中，可以基于每个所述词掩码对应的词向量，对语言模型和初始化词向量参数矩阵进行联合训练，直至满足预设训练完成条件，例如，利用多个样本文本语料执行本申请实施例的方法，多个样本文本语料中被替换为词掩码的词包括了词表中的多个词(可以是部分词或者全部词)，基于上述实施例，得到每个词掩码对应多个词向量的多个归一化概率值后，以参与训练的所有词掩码的归一化概率值最大化为目标，确定所有词掩码中每个词掩码的词向量和词向量参数矩阵中各词向量的表示，从而得到训练好的词向量参数矩阵，可以准确表示词表中各词的词向量，因此以训练好的词向量参数矩阵作为整体的词向量。

该实现方式中，在采用初始化的词向量参数矩阵时，对语言模型和初始化词向量参数矩阵进行联合训练，可以加快语言模型与词向量的收敛速度，从而提升训练效果。

可选地，在本实施例的一个可能的实现方式中，本申请上述实施例中的所述语言模型可以是任意的语言模型，例如可以采用ERNIE模型。

ERNIE模型可以通过建模海量数据中的实体概念等先验语义知识，学习完整概念的语义表示，通过对词和实体概念等语义单元进行掩码来预训练ERNIE模型，从而使得ERNIE模型对语义知识单元的表示更贴近真实世界，ERNIE模型在基于字特征输入建模的同时，直接对先验语义知识单元进行建模，具有较强的语义表示能力。本实施例中，以ERNIE模型作为语言模型，可以利用ERNIE模型较强的语义表示能力，来建模海量数据中的词、实体及实体关系，学习真实世界的语义知识，从而增强了模型语义表示能力，例如，ERNIE模型通过学习词与实体的表达，能够建模出“哈尔滨”与“黑龙江”的关系，学到“哈尔滨”是“黑龙江”的省会以及“哈尔滨”是个冰雪城市。

图2是根据本申请第二实施例的示意图，如图2所示。

在第一实施例的基础之上，满足预设训练完成条件得到训练好的语言模型之后，还可以通过有监督的NLP任务对语言模型进行进一步优化，进一步提高语言模型在NLP任务中的预测性能。

在第二实施例中，通过有监督的NLP任务对语言模型进行的优化可以具体由如下步骤实现：

201、利用训练好的语言模型进行NLP任务，得到处理结果。

可选地，在本实施例的一个可能的实现方式中，其中的NLP任务例如可以是分类、匹配、序列标注等NLP任务中的任意一个或多个，本实施例对此不进行特别限定。相应地，处理结果为具体NLP任务的处理结果，例如分类结果、匹配结果、序列标注结果等。

可选地，在本实施例的一个可能的实现方式中，在201中，具体利用训练好的语言模型结合其他用于实现分类、匹配、序列标注的网络模型，例如卷积神经网络(convolutional neural network，CNN)、长短期记忆(Long Short Term Memory，LSTM)模型、词袋(Bag ofWord，BOW)模型，进行NLP任务，得到处理结果，例如，其他网络模型用于实现分类、匹配、序列标注的网络模型基于语言模型的输出进行分类、匹配、序列标注等处理，得到相应的分类结果、匹配结果、序列标注结果等处理结果。

202、根据所述处理结果与标注结果信息之间的差异，对所述语言模型中的参数值进行精调(fine-tuning)，直至满足预设条件，例如所述处理结果与标注结果信息之间的差异小于预设差异，和/或对所述语言模型的训练次数达到预设次数。

其中，所述标注结果信息为预先针对所要进行的NLP任务人工标注的正确处理结果。

本实施例中，由于不需要词向量参数矩阵，可以在不改变语言模型整体结构的情况下，通过有监督数据(即标注结果信息)的NLP任务对语言模型进行进一步优化，提高了语言模型的预测性能，便于根据各NLP任务对语言模型进行优化迭代。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

图3是根据本申请第三实施例的示意图，如图3所示。本实施例的语言模型的训练装置300可以包括预训练单元301、替换单元302、所述语言模型303、确定单元304和训练单元305。其中，预训练单元301，用于预先使用语料库中的预设文本语料对语言模型进行预训练学习；替换单元302，替换单元，用于将所述包括至少一个样本文本语料中的至少一个词分别替换为词掩码，得到包括至少一个词掩码的样本文本语料；语言模型303，用于接收包括词掩码的样本文本语料，输出所述至少一个词掩码中每个所述词掩码的上下文向量；确定单元304，用于分别基于每个所述词掩码的上下文向量和词向量参数矩阵确定每个所述词掩码对应的词向量；训练单元305，用于基于每个所述词掩码对应的词向量对所述语言模型进行训练，直至满足预设训练完成条件。

需要说明的是，本实施例的语言模型的训练装置的执行主体的部分或全部可以为位于本地终端的应用，或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(Software Development Kit，SDK)等功能单元，或者还可以为位于网络侧服务器中的处理引擎，本实施例对此不进行特别限定。

本实施例中，引入了更大粒度语义信息表示，相对于字向量，词向量蕴含了更丰富的语义信息表示，直接基于上下文建模词向量，加强了语言模型对词义信息的建模，增强了语言模型对词义信息的学习能力。

图4是根据本申请第四实施例的示意图，如图4所示，在图3所示实施例的基础上，本实施例的语言模型的训练装置300还可以包括：分词单元401，用于对所述样本文本语料进行分词。相应地，本实施例中，所述替换单元302，具体用于基于所述分词单元得到的分词结果，将所述样本文本语料中至少一个词中的每个词分别替换为一个词掩码。

可选地，再参见图4，在本实施例的一个可能的实现方式中，上述实施例的语言模型的训练装置300还可以包括：所述词向量参数矩阵402和归一化单元403。其中，所述词向量参数矩阵402，用于与每个所述词掩码的上下文向量相乘，得到每个所述词掩码对应多个词向量的概率值；归一化单元403，用于对每个所述词掩码对应多个词向量的概率值进行归一化处理，得到每个所述词掩码对应多个词向量的多个归一化概率值。相应地，本实施例中，所述确定单元304，具体用于基于每个所述词掩码对应多个词向量的多个归一化概率值，确定每个所述词掩码对应的词向量。

可选地，在本实施例的一个可能的实现方式中，所述词向量参数矩阵402可以是预先训练好的词向量参数矩阵，也可以是初始化的词向量参数矩阵(即，未经训练的或者未训练好的词向量参数矩阵)，本申请实施例对此不进行限制。

在一个具体的实现方式中，所述词向量参数矩阵402为初始化的词向量参数矩阵时，所述训练单元305，具体用于基于每个所述词掩码对应的词向量对所述语言模型和所述初始化词向量参数矩阵进行训练，直至满足预设训练完成条件。

可选地，在本实施例的一个可能的实现方式中，所述语言模型303可以是任意的语言模型，例如ERNIE模型。

可选地，在本实施例的一个可能的实现方式中，所述语言模型303，还可以用于在满足预设训练完成条件后，进行自然语言处理任务，得到处理结果。相应地，再参见图4，上述实施例的语言模型的训练装置300还可以包括：精调单元404，用于根据所述处理结果与标注结果信息之间的差异，对所述语言模型303中的参数值进行精调。

需要说明的是，图1～图2对应的实施例中的方法可以由上述图3～图4实施例提供的语言模型的训练装置实现。详细描述可以参见图1～图2对应的实施例中的相关内容，此处不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种存储有计算机指令的非瞬时计算机可读存储介质。

图5是用来实现本申请实施例的语言模型的训练方法的电子设备的示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示，该电子设备包括：一个或多个处理器501、存储器502，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI(图形用户界面)的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。

存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的语言模型的训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的语言模型的训练方法。

存储器502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及单元，如本申请实施例中的语言模型的训练方法对应的程序指令/单元(例如，附图3所示的预训练单元301、替换单元302、所述语言模型303、确定单元304和训练单元305)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及单元，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的语言模型的训练方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据实现本申请实施例提供的语言模型的训练方法的电子设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至实现本申请实施例提供的语言模型的训练方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

语言模型的训练方法的电子设备还可以包括：输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接，图5中以通过总线连接为例。

输入装置503可接收输入的数字或字符信息，以及产生与实现本申请实施例提供的语言模型的训练方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，LCD(液晶显示器)、LED(发光二极管)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、PLD(可编程逻辑器件))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语言输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：LAN(局域网)、WAN(广域网)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，引入了更大粒度语义信息表示，相对于字向量，词向量蕴含了更丰富的语义信息表示，直接基于上下文建模词向量，加强了语言模型对词义信息的建模，增强了语言模型对词义信息的学习能力。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种语言模型的训练方法，包括：

2.根据权利要求1所述的方法，其中，所述将样本文本语料中的至少一个词分别替换为词掩码，包括：

对所述样本文本语料进行分词，并基于分词结果，将所述样本文本语料中的至少一个词中的每个词分别替换为一个词掩码。

3.根据权利要求1所述的方法，其中，所述基于每个所述词掩码的上下文向量和词向量参数矩阵确定每个所述词掩码对应的词向量，包括：

将每个所述词掩码的上下文向量与所述词向量参数矩阵相乘，得到每个所述词掩码对应多个词向量的概率值；

对每个所述词掩码对应多个词向量的概率值进行归一化处理，得到每个所述词掩码对应多个词向量的多个归一化概率值；

基于每个所述词掩码对应多个词向量的多个归一化概率值，确定每个所述词掩码对应的词向量。

4.根据权利要求1所述的方法，其中，所述词向量参数矩阵包括预先训练好的词向量参数矩阵；或者，所述词向量参数矩阵包括初始化词向量参数矩阵；

所述基于每个所述词掩码对应的词向量对所述语言模型进行训练，直至满足预设训练完成条件，包括：

基于每个所述词掩码对应的词向量对所述语言模型和所述初始化词向量参数矩阵进行训练，直至满足预设训练完成条件。

5.根据权利要求1所述的方法，其中，所述语言模型包括知识增强语义表示ERNIE模型。

6.根据权利要求1-5中任一项所述的方法，其中，所述满足预设训练完成条件之后，还包括：

利用训练好的语言模型进行自然语言处理任务，得到处理结果；

根据所述处理结果与标注结果信息之间的差异，对所述语言模型中的参数值进行精调。

7.一种语言模型的训练装置，包括：

8.根据权利要求7所述的装置，所述装置还包括：

分词单元，用于对所述样本文本语料进行分词；

所述替换单元，具体用于基于所述分词单元得到的分词结果，将所述样本文本语料中的至少一个词中的每个词分别替换为一个词掩码。

9.根据权利要求7所述的装置，所述装置还包括：

所述词向量参数矩阵，用于与每个所述词掩码的上下文向量相乘，得到每个所述词掩码对应多个词向量的概率值；

归一化单元，用于对每个所述词掩码对应多个词向量的概率值进行归一化处理，得到每个所述词掩码对应多个词向量的多个归一化概率值；

所述确定单元，具体用于基于每个所述词掩码对应多个词向量的多个归一化概率值，确定每个所述词掩码对应的词向量。

10.根据权利要求7所述的装置，其中，所述词向量参数矩阵包括预先训练好的词向量参数矩阵；或者，

所述词向量参数矩阵包括初始化词向量参数矩阵；

所述训练单元，具体用于基于每个所述词掩码对应的词向量对所述语言模型和所述初始化词向量参数矩阵进行训练，直至满足预设训练完成条件。

11.根据权利要求7所述的装置，其中，所述语言模型包括知识增强语义表示ERNIE模型。

12.根据权利要求7-11中任一项所述的装置，其中，所述语言模型，还用于在满足预设训练完成条件后，进行自然语言处理任务，得到处理结果；

所述装置还包括：

精调单元，用于根据所述处理结果与标注结果信息之间的差异，对所述语言模型中的参数值进行精调。

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。