CN115630630B

CN115630630B - 语言模型处理方法、业务处理方法、装置、设备及介质

Info

Publication number: CN115630630B
Application number: CN202211329891.6A
Authority: CN
Inventors: 丁思宇; 赵晏彬; 王硕寰; 孙宇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-10-25
Filing date: 2022-10-25
Publication date: 2024-02-13
Anticipated expiration: 2042-10-25
Also published as: CN115630630A

Abstract

本公开提供了语言模型处理方法、业务处理方法、装置、设备及介质，涉及人工智能技术领域，尤其涉及深度学习、自然语言处理等技术领域，可应用于智慧城市场景。具体实现方案为：确定分布阈值；在分布阈值的约束下，确定正态分布；通过正态分布，对语言模型中的输入层进行初始化。从而，通过对输入层的参数值进行约束的方式，从源头降低语言模型的参数值，有效降低语言模型发生“增量爆炸”的概率，而且没有增加过多的额外参数和其它成本。

Description

语言模型处理方法、业务处理方法、装置、设备及介质

技术领域

本公开涉及人工智能技术领域中的深度学习、自然语言处理等技术领域，可应用于智慧城市场景，尤其涉及一种语言模型处理方法、业务处理方法、装置、设备及介质。

背景技术

随着自然语言处理技术的发展，基于大规模语料训练得到的预训练语言模型逐渐成为自然语言处理的经典模型框架。为进一步迈向“通用人工智能”，研究者们也将目光集中于大模型领域，在研究者们的努力下，大规模的预训练语言模型在零样本、小样本、全量样本场景下刷新了众多下游任务常用的数据集效果，取得了重大突破。

大规模模型在训练数据和训练策略上不同于传统规模模型。在训练数据上，大规模模型需要更多的训练数据；在训练策略上，大规模模型在模型的“宽度”和“深度”上都远超传统规模模型。然而，对于神经网络模型而言，模型越深则更新量越大，导致神经网络的更新“增量爆炸”，这意味着神经网络模型在训练过程中容易进入局部最优点，导致神经网络模型训练停滞甚至崩溃。因此，大规模模型在训练过程中更容易出现“增量爆炸”。

如何降低大规模模型在训练过程中出现“增量爆炸”的概率，是目前亟需解决的问题。

发明内容

本公开提供了一种用于降低大规模模型在训练中出现“增量”爆炸的概率的语言模型处理方法、业务处理方法、装置、设备以及介质。

根据本公开的第一方面，提供了一种语言模型处理方法，包括：确定分布阈值；在所述分布阈值的约束下，确定正态分布；通过所述正态分布，对语言模型中的输入层进行初始化。

根据本公开的第二方面，提供了一种业务处理方法，包括：获取待处理文本；通过语言模型对所述待处理文本进行自然语言处理，得到处理结果；其中，所述语言模型是根据第一方面提供的语言模型处理方法进行模型初始化后再进行模型训练得到。

根据本公开的第三方面，提供了一种语言模型处理装置，包括：阈值确定单元，用于确定分布阈值；分布确定单元，用于在所述分布阈值的约束下，确定正态分布；第一初始化单元，用于通过所述正态分布，对语言模型中的输入层进行初始化。

根据本公开的第四方面，提供了一种业务处理装置，包括：获取单元，用于获取待处理文本；处理单元，用于通过语言模型对所述待处理文本进行自然语言处理，得到处理结果；其中，所述语言模型是根据第三方面提供的语言模型处理装置进行模型初始化后再进行模型训练得到。

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面提供的语言模型处理方法或者执行第二方面提供的业务处理方法。

根据本公开的第六方面，提供了存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行第一方面提供的语言模型处理方法或者执行第二方面提供的业务处理方法。

根据本公开的第七方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面提供的语言模型处理方法或者执行第二方面提供的业务处理方法。

根据本公开的技术，通过分布阈值对用于对语言模型的输入层进行初始化的正态分布进行约束，再通过约束得到的正态分布，对语言模型的输入层进行初始化。在分布阈值的约束下，正态分布的数值能够得到一定控制，进而能够对输入层的参数值进行一定控制，避免输入层的参数值过大而导致语言模型发生“增量爆炸”。从而，有效地降低语言模型发生“增量爆炸”的概率，而且本公开所采用的方案未给语言模型引入过多的额外参数，能够适应于多种任务，没有任务迁移成本。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示出了本公开实施例适用的一种应用场景的示意图；

图2示出了根据本公开实施例提供的语言模型处理方法的流程示意图一；

图3示出了根据本公开实施例提供的语言模型处理方法的流程示意图二；

图4示出了根据本公开实施例提供的语言模型处理方法的流程示意图三；

图5示出了根据本公开实施例提供的业务处理方法的流程示意图；

图6示出了根据本公开实施例提供的语言模型处理装置的结构示意图一；

图7示出了根据本公开实施例提供的语言模型处理装置的结构示意图二；

图8示出了根据本公开实施例提供的业务处理装置的结构示意图；

图9示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

针对大规模模型容易出现“增量爆炸”，导致模型训练困难的问题，有可如下相关的解决策略：

策略一，在模型训练的初始阶段中，采用较小的学习率进行模型训练，随着训练次数的增加慢慢增大学习率。初始阶段的小学习率会降低模型的更新量，防止模型过早陷入局部最优，后期慢慢增大学习率有利于保持模型的更新量，加快模型的收敛。如此，缓解了模型的“增量爆炸”问题。然而，策略一存在局限性，模型越深，对“增量爆炸”的缓解效果越差。

策略二，基于“调整初始化方案，使得模型参数的梯度量级缩小到指定规模，以抵消模型深度对更新量的影响”的思想，Deepnorm策略被提出，该策略融合post-layer-norm策略的模型训练效果更优和pre-layer-norm策略的模型训练更稳定这两种优点，实现极深模型的稳定高效训练。其中，Deepnorm策略、post-layer-norm策略和pre-layer-norm策略均为模型训练策略。在Deepnorm策略中，在进行归一化处理之前，对残差连接进行了放大，并在初始化器件对模型的全链接层、输出层中指定网络层的参数进行缩小。然而，该方式引入了更多的超参数，增加了深层模型训练的试错成本，而且未关注到模型的输入层。

为解决上述缺陷，本公开提供一种语言模型处理方法、业务处理方法、装置、设备及存储介质，应用于人工智能技术领域中的深度学习、自然语言处理等技术领域，可应用于智慧城市场景。其中，在语言模型处理方法中，通过分布阈值对正态分布进行约束，使得正态分布的数值能够得到一定控制，进而实现对输入层的参数值的控制，避免输入层的参数值过大而导致语言模型发生“增量爆炸”。从而，从源头降低模型整体的参数值，以此来降低语言模型发生“增量爆炸”的概率，未引入过多的额外参数，未增加模型的计算量，而且能够适应于多种自然语言处理任务，没有任务迁移成本。

其中，业务处理方法是利用语言模型处理方法进行初始化后再训练得到的语言模型进行自然语言业务处理。由于在语言模型处理方法中降低了语言模型发生“增量爆炸”的概率，提高了语言模型的训练效果和稳定性，因此在业务处理方法中可提高自然语言业务处理的准确性。

其中，装置的实现原理和技术效果可参照方法内容。

图1示出了本公开实施例适用的一种应用场景的示意图。在该应用场景中，涉及的设备包括用于训练目标检测网络的模型处理设备，模型处理设备可以为服务器或者终端，图1以模型处理设备为第一服务器101为例。在第一服务器101上，进行语言模型的初始化，尤其是基于分布阈值进行语言模型的输入层的初始化，以对语言模型的输入层的参数值进行约束。

在第一服务器101上，还可进行语言模型的其他网络层的初始化，并对初始化后的语言模型进行模型训练。

如图1所示，应用场景涉及的设备还可包括用于通过语言模型实现自然语言处理的自然语言处理设备，自然语言处理设备可以为服务器或者终端，图1以自然语言处理设备为第二服务器102为例。在第一服务器101上训练得到语言模型后，将第一服务器101上训练的语言模型部署至第二服务器102上，在第二服务器102上，通过语言模型进行自然语言处理。

如图1所示，应用场景涉及到设备还可包括终端103，终端103可将待处理文本发送给第二服务器102，第二服务器102通过语言模型对待处理文本进行自然语言处理后，将处理结果返回给终端103。

尤其地，应用场景可包括智慧城市场景，在智慧城市场景中，可训练语言模型，并将训练后的语言模型应用于实现智慧问答、文本处理、个性化推荐、知识检索等人工智能任务。

其中，服务器可以为集中式服务器，也可以为分布式服务器，还可以为云端服务器。终端可以是个人数字处理(personal digital assistant，简称PDA)设备、具有无线通信功能的手持设备(例如智能手机、平板电脑)、计算设备(例如个人电脑(personalcomputer，简称PC))、车载设备、可穿戴设备(例如智能手表、智能手环)、智能家居设备(例如智能音箱、智能显示设备)、智能机器人等。

下面以具体的实施例对本公开的技术方案以及本公开的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本公开的实施例进行描述。

图2示出了根据本公开实施例提供的语言模型处理方法的流程示意图一。如图2所示，语言模型处理方法包括：

S201，确定分布阈值。

其中，分布阈值用于对正态分布的参数值进行约束。分布阈值可体现为一个阈值，也可体现为由至少两个阈值，该至少两个阈值构成至少一个取值范围，该取值范围用于对正态分布的参数值进行约束。

本实施例中，可获取预先设置的分布阈值，也可获取用户输入的分布阈值，还可接收其它设备发送的分布阈值。

S202，在分布阈值的约束下，确定正态分布。

本实施例中，在分布阈值的约束下，确定正态分布的参数值，根据正态分布的公式和正态分布的参数值，得到正态分布。因此，基于分布阈值限制了正态分布的参数值的大小，进而限制了正态分布的分布值的大小，限制了通过正态分布进行输入层的初始化所得到的参数值的大小。

在一种可能的实现方式中，可为正态分布确定小于分布阈值的参数值。从而，在仅依赖分布阈值的情况下为正态分布确定一个较小的参数值，进而降低基于正态分布对输入层进行初始化得到的参数值。其中，小于分布阈值的参数值可以是随机确定，也可通过分布阈值减去某一数值得到。

在又一种可能的实现方式中，在分布阈值为多个的情况下，可在多个分布阈值构成的取值范围内，确定正态分布的参数值。从而，在分布阈值的约束下为正态分布确定符合一定取值范围的参数值。其中，符合一定取值范围的参数值可以是在该取值范围内随机确定的，也可以获取该取值范围内的最小值作为正态分布的参数值。

S203，通过正态分布，对语言模型中的输入层进行初始化。

本实施例中，确定正态分布后，基于正态分布得到多个分布值，确定语言模型的输入层的参数值为该多个分布值，如此，实现对语言模型的输入层的初始化。由于在分布阈值的约束下正态分布的分布值减小，语言模型的输入层的参数值随之减小，避免输入层参数过大引起“增量爆炸”。

本公开实施例中，在分布阈值的约束下，为正态分布确定较小的参数值，基于参数值较小的正态分布，对语言模型的输入层进行初始化。从而，从源头降低了语言模型的参数值，降低了语言模型发生“增量爆炸”的概率。在整个过程中未引入过多的额外参数，未增加模型的计算量，而且能够适应于多种自然语言处理任务，没有任务迁移成本。

图3为根据本公开实施例提供的语言模型处理方法的流程示意图二。如图3所示，语言模型处理方法包括：

S301，确定分布阈值。

其中，S301的实现原理和技术效果可参照前述实施例，不再赘述。

在一些实施例中，S301的一种可能的实现方式包括：根据语言模型的模型结构，确定分布阈值。从而，考虑到不同模型结构的神经网络模型可能采用不同的分布函数进行初始化，或者，不同模型结构的神经网络采用的分布函数的参数值可能不同，基于语言模型的模型结构来确定适用于语言模型的分布阈值，可有效地提高分布阈值的准确性和合理性。

本实现方式中，如果语言模型的模型结构采用了目标结构，则可确定分布阈值为目标结构所采用的正态分布的参数值。例如，目标结构为编解码器结构(Transformer结构)，其中，Transformer结构是一种编码器-解码器结构(Encoder-Decoder结构)，可基于用于对基于Transformer结构的语言模型进行初始化的正态分布的参数值，确定分布阈值。从而，在某一模型结构所采用的正态分布的参数值的约束下，为用于对语言模型的输入层进行初始化的正态分布确定更小的参数值，有效地降低语言模型的输入层的参数值大小，降低了语言模型发生“增量爆炸”的概率。

S302，在分布阈值的约束下，确定正态分布的均值。

其中，均值小于分布阈值。

本实施例中，在分布阈值的约束下，确定正态分布的均值，从而，减小了正态分布的均值，正态分布的均值决定了正态分布的分布值的大小，由此有效地减小了正态分布的分布值的大小。

在一些实施例中，S302的一种可能的实现方式包括：在分布阈值的约束下，随机确定正态分布的均值。从而，在确保正态分布的均值小于分布阈值的情况下，通过为正态分布随机确定小于分布阈值的均值，提高为正态分布确定均值的效率，也提高均值的多样性。

在一些实施例中，正态分布的均值与语言模型的深度有关，S302的又一种可能的实现方式包括：根据分布阈值和语言模型的模型层数，确定正态分布的均值，模型层数越大则正态分布的均值越小。从而，考虑到模型越深则模型越可能发生“增量爆炸”，在确定均值时综合考虑分布阈值和反映模型深度的模型层数，在确保正态分布的均值小于分布阈值的情况下，适应于模型层数来减小正态分布的均值，降低语言模型发生“增量爆炸”的概率。其中，模型层数是指语言模型中神经网络层的层数。

在根据分布阈值和语言模型的模型层数，确定正态分布的均值的过程中，一种可能的实现方式包括：确定模型层数的倒数；根据模型层数的倒数和分布阈值，确定正态分布的均值。从而，利用模型层数的倒数实现模型层数越大则正态分布的均值越小。

本实现方式中，确定语言模型的模型层数的倒数，基于模型层数的倒数和分布阈值，为正态分布确定与模型层数的倒数成正比且小于分布阈值的均值，如此，模型层数越大则均值越小且均值小于分布阈值。

进一步地，在根据语言模型的模型层数的倒数和分布阈值，确定正态分布的均值的过程中，可确定语言模型的模型层数的倒数与分布阈值的乘积；根据该乘积，确定正态分布的均值。其中，均值与该乘积成正相关。由于模型层数大于1，模型层数的倒数小于1，模型层数的倒数与分布阈值的乘积小于分布阈值且模型层数越大该乘积越小，因此，根据该乘积可确定得到小于分布阈值的均值且模型层数越大该均值越小。从而，通过较少的计算量计算得到符合要求的均值，提高了为正态分布确定均值的效率。

作为示例地，正态分布的均值的计算公式可表示为：

u∝1/L*base

其中，u表示正态分布的均值，L表示语言模型的模型层数，base表示分布阈值，∝表示正相关。

因此，一种方式中，可确定正态分布的均值为模型层数的倒数与分布阈值的乘积；另一种方式中，可确定正态分布的均值为该乘积与某一数值的乘积，均值依旧要求小于模型层数。

在根据分布阈值和语言模型的模型层数，确定正态分布的均值的过程中，还可采用其他方式来确定正态分布的均值。在又一种可能的实现方式中，可根据语言模型的模型层数，确定正态分布的均值的变化量；确定均值为分布阈值与该变化量的差值。其中，模型层数越大，则正态分布的均值的变化量越大，正态分布的均值越小。在根据语言模型的模型层数，确定正态分布的均值的变化量的过程中，例如可对模型层数进行哈希运算，或者建立模型层数与变化量的映射关系，根据该映射关系确定正态分布的均值的变化量为与模型层数对应的变化量。如此，结合模型层数和分布阈值，实现小于分布阈值的均值的确定且模型层数越大均值越小。

S303，根据正态分布的均值，得到正态分布。

本实施例中，正态分布的其他参数值可预先设置，因此，在得到正态分布的均值后，可结合正态分布的均值和正态分布的其他参数值，得到正态分布。例如，正态分布的方差为0，将正态分布的均值和正态分布的方差输入正态分布的公式中可得到正态分布的完整公式。

S304，通过正态分布，对语言模型中的输入层进行初始化。

其中，S304的实现原理和技术效果可参照前述实施例，不再赘述。

本公开实施例中，在分布阈值的约束下，确定正态分布的均值；根据该均值，确定正态分布；通过正态分布，对语言模型的输入层进行初始化。从而，基于分布阈值有效地减小了正态分布的均值，正态分布的均值决定了正态分布的分布值的大小，由此有效地减小了正态分布的分布值的大小。进而有效地减小了语言模型的输入层的参数值，降低了语言模型发生“增量爆炸”的概率。整个过程未引入过多参数，运算量小，而且能够适应于多种自然语言处理任务，没有任务迁移成本。

基于前述任一实施例，语言模型还包括中间层和输出层，其中，中间层是指位于语言模型中间的网络层。基于此，通过如下实施例：

以基于图3所示的实施例为例，图4为根据本公开实施例提供的语言模型处理方法的流程示意图二。如图4所示，语言模型处理方法包括：

S401，确定分布阈值。

S402，在分布阈值的约束下，确定正态分布的均值。

S403，根据正态分布的均值，得到正态分布。

S404，通过正态分布，对语言模型中的输入层进行初始化。

其中，S401～S403的实现原理和技术效果可参照前述实施例，不再赘述。

S405，对语言模型的中间层和输出层进行初始化，得到初始化后的语言模型。

其中，S405可与S401～S404中的任一步骤同步执行，也可在S401～S404中的任一步骤之后执行。

S406，对初始化后的语言模型进行训练，得到训练后的语言模型。

本实施例中，由于语言模型包括输入层、中间层和输出层，在语言模型的训练过程中，除了对输入层进行初始化之外，还需对中间层和输出层进行初始化。其中，中间层和输出层的初始化方式可采用现有方式，也可参照输入层的初始化方式进行初始化，在此不进行赘述。在初始化后，对初始化后的语言模型进行训练，例如，基于带有标签的训练数据对语言模型进行有监督训练，或者基于不带标签的训练数据对语言模型进行训练，最终得到训练后的语言模型。在此对语言模型的具体训练过程不做限制。

本公开实施例中，从源头减小了语言模型的参数值，降低了语言模型在训练过程中发生“增量爆炸”的概率，提高了语言模型的训练效果和训练稳定性；在初始化过程中未引入过多参数、运算量小，提高了语言模型的训练效率。从而，从多方面对语言模型的训练进行了改善。

图5为根据本公开实施例提供的业务处理方法的流程示意图。如图5所示，业务处理方法包括：

S501，获取待处理文本。

其中，待处理文本例如待处理的文档文件、词语、句子、段落等，文档文件的格式可以是图片格式或者是其他文本格式。比如，在翻译任务中，待处理文本可为待翻译的词语、句子或者段落；在文本识别任务中，待处理文本可为待识别的文档图像。

本实施例中，可接收用户输入的待处理文本；或者，可从数据库中，获取待处理文本；或者，可接收其它设备发送的待处理文本。

S502，通过语言模型对待处理文本进行自然语言处理，得到处理结果。

其中，语言模型是根据前述任一实施例提供的语言模型处理方法进行模型初始化后再进行模型训练得到。例如，可采用图2或者图3所示的实施例对语言模型进行初始化，之后对该语言模型进行训练，得到应用于图5所示实施例的语言模型。又如，可基于图4所示的实施例进行模型初始化和模型训练，得到应用于图5所示实施例的语言模型。

本实施例中，可将待处理文本输入至语言模型中，或者对待处理文本进行预处理后，将预处理后的待处理文本输入至语言模型中，在语言模型中对待处理文本进行自然语言处理，得到处理结果。例如，在翻译任务中，在语言模型中对待处理文本进行特征提取、识别以及翻译，得到待处理文本对应的翻译结果；又如，在问答任务中，在语言模型中对待处理文本进行特征提取和识别，得到待处理文本对应的答案。

本公开实施例中，由于在训练过程中，通过从源头减小了语言模型的参数值，降低了语言模型在训练过程中发生“增量爆炸”的概率，提高了语言模型的训练效果和训练稳定性，因此采用该语言模型对待处理文本进行自然语言处理，可有效地提高自然语言处理的准确性。

图6为本公开实施例提供的语言模型处理装置的结构示意图一。如图6所示，语言模型处理装置600包括：

阈值确定单元601，用于确定分布阈值；

分布确定单元602，用于在分布阈值的约束下，确定正态分布；

第一初始化单元603，用于通过正态分布，对语言模型中的输入层进行初始化。

图7为本公开实施例提供的模型处理置的结构示意图二。如图7所示，语言模型处理装置700包括：

阈值确定单元701，用于确定分布阈值；

分布确定单元702，用于在分布阈值的约束下，确定正态分布；

第一初始化单元703，用于通过正态分布，对语言模型中的输入层进行初始化。

在一些实施例中，如图7所示，分布确定单元702包括：均值确定模块7021，用于在分布阈值的约束下，确定正态分布的均值，均值小于分布阈值；分布确定模块7022，用于根据均值，得到正态分布。

在一些实施例中，均值确定模块7021包括：第一确定子模块(图中未示出)，用于在分布阈值的约束下，随机确定均值；或者，第二确定子模块(图中未示出)，用于根据分布阈值和语言模型的模型层数，确定均值，模型层数越大则均值越小。

在一些实施例中，第二确定子模块具体用于：确定模型层数的倒数；根据倒数和分布阈值，确定均值。

在一些实施例中，在根据倒数和分布阈值，确定均值的过程中，第二确定子模块具体用于：确定倒数与分布阈值的乘积；根据乘积，确定均值，均值与乘积成正相关。

在一些实施例中，如图7所示，语言模型还包括中间层和输出层，语言模型处理装置还包括：第二初始化单元704，用于对中间层和输出层进行初始化，得到初始化后的语言模型；训练单元705，用于对初始化后的语言模型进行训练，得到训练后的语言模型。

图6～7提供的语言模型处理装置，可以执行上述语言模型处理方法对应的方法实施例，其实现原理和技术效果类似，在此不再赘述。

图8为本公开实施例提供的业务处理装置的结构示意图二。如图8所示，业务处理装置800包括：

获取单元801，用于获取待处理文本；

处理单元802，用于通过语言模型对待处理文本进行自然语言处理，得到处理结果。

其中，语言模型是根据图6或者图7所示的实施例提供的语言模型处理装置进行模型初始化后再进行模型训练得到。

图8提供的业务处理装置，可以执行上述业务处理方法对应的方法实施例，其实现原理和技术效果类似，在此不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述任一实施例提供的方案。

根据本公开的实施例，本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行上述任一实施例提供的方案。

根据本公开的实施例，本公开还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

图9为可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，电子设备900包括计算单元901，其可以根据存储在只读存储器(ReadOnly Memory，ROM)(例如ROM 902)中的计算机程序或者从存储单元908加载到随机访问存储器(Random Access Memory，RAM)(例如RAM 903)中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储电子设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口(例如I/O接口905)也连接至总线904。

电子设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许电子设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(Central Processing Unit，CPU)、图形处理单元(Graphic Processing Unit，GPU)、各种专用的人工智能(Artificial Intelligence，AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(Digital SignalProcess，DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如语言模型处理方法。例如，在一些实施例中，语言模型处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到电子设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的语言模型处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语言模型处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(Field Program Gate Array，FPGA)、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、专用标准产品(Application Specific StandardParts，ASSP)、芯片上系统的系统(System On a Chip，SOC)、复杂可编程逻辑设备(ComplexProgramming Logic Device，CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种语言模型处理方法，包括：

根据语言模型的模型结构，确定分布阈值，所述分布阈值用于对正态分布的参数值进行约束；

根据所述分布阈值和所述语言模型的模型层数，确定所述正态分布的均值，所述模型层数越大则所述均值越小，所述均值小于所述分布阈值；

根据所述均值，得到所述正态分布；

通过所述正态分布，对语言模型中的输入层进行初始化；

对所述语言模型的中间层和输出层进行初始化，得到初始化后的语言模型；

对所述初始化后的语言模型进行训练，得到训练后的语言模型；

所述通过所述正态分布，对语言模型中的输入层进行初始化，包括：

基于所述正态分布得到多个分布值，确定所述语言模型的输入层的参数值为该多个分布值。

2.根据权利要求1所述的语言模型处理方法，其中，所述根据所述分布阈值和所述语言模型的模型层数，确定所述均值，包括：

确定所述模型层数的倒数；

根据所述倒数和所述分布阈值，确定所述均值。

3.根据权利要求2所述的语言模型处理方法，其中，所述根据所述倒数和所述分布阈值，确定所述均值，包括：

确定所述倒数与所述分布阈值的乘积；

根据所述乘积，确定所述均值，所述均值与所述乘积成正相关。

4.一种业务处理方法，包括：

获取待处理文本；

通过语言模型对所述待处理文本进行自然语言处理，得到处理结果；

其中，所述语言模型是根据权利要求1-3中任一项所述的语言模型处理方法进行模型初始化后再进行模型训练得到。

5.一种语言模型处理装置，包括：

阈值确定单元，用于根据语言模型的模型结构，确定分布阈值，所述分布阈值用于对正态分布的参数值进行约束；

分布确定单元，用于在所述分布阈值的约束下，确定正态分布；

第一初始化单元，用于通过所述正态分布，对语言模型中的输入层进行初始化；

第二初始化单元，用于对所述语言模型的中间层和输出层进行初始化，得到初始化后的语言模型；

训练单元，用于对所述初始化后的语言模型进行训练，得到训练后的语言模型；

所述第一初始化单元，具体用于基于所述正态分布得到多个分布值，确定所述语言模型的输入层的参数值为该多个分布值；

所述分布确定单元包括：

均值确定模块，用于在所述分布阈值的约束下，确定所述正态分布的均值，所述均值小于所述分布阈值；

分布确定模块，用于根据所述均值，得到所述正态分布；

所述均值确定模块包括：

第二确定子模块，用于根据所述分布阈值和所述语言模型的模型层数，确定所述均值，所述模型层数越大则所述均值越小。

6.根据权利要求5所述的语言模型处理装置，其中，所述第二确定子模块具体用于：

确定所述模型层数的倒数；

根据所述倒数和所述分布阈值，确定所述均值。

7.根据权利要求6所述的语言模型处理装置，其中，在所述根据所述倒数和所述分布阈值，确定所述均值的过程中，所述第二确定子模块具体用于：

确定所述倒数与所述分布阈值的乘积；

8.一种业务处理装置，包括：

获取单元，用于获取待处理文本；

处理单元，用于通过语言模型对所述待处理文本进行自然语言处理，得到处理结果；

其中，所述语言模型是根据权利要求5-7中任一项所述的语言模型处理装置进行模型初始化后再进行模型训练得到。

9. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-3中任一项所述的语言模型处理方法或者执行权利要求4所述的业务处理方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-3中任一项所述的语言模型处理方法或者执行权利要求4所述的业务处理方法。