CN114330297A

CN114330297A - 语言模型的预训练方法、语言文本的处理方法及装置

Info

Publication number: CN114330297A
Application number: CN202111445237.7A
Authority: CN
Inventors: 侯逸帆; 杨奕凡
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-04-12

Abstract

本申请公开了一种语言模型的预训练方法、语言文本的处理方法及装置，涉及自然语言处理领域。该方法在对初始模型进行预训练的过程中，能够通过知识探针对预训练后的初始模型的准确度进行检测，并能够在检测到准确度收敛时停止预训练，得到语言模型。由此，可以避免语言模型在预训练的过程中出现过拟合或者欠拟合的现象，确保预训练得到的语言模型的性能较好。并且，通过知识探针对初始模型进行检测，可以较为准确地确定出初始模型对训练样本集合中各个训练样本的学习情况，进而能准确地确定预训练的较佳停止点。

Description

语言模型的预训练方法、语言文本的处理方法及装置

技术领域

本申请实施例涉及自然语言处理(Natural Language Processing，NLP)领域，特别涉及一种语言模型的预训练方法、装置及存储介质。

背景技术

在自然语言处理过程中，可以采用大量无标注的语言文本对初始模型进行预训练(Pre-training)从而得到与具体任务无关的语言模型。之后，可以基于具体任务(例如阅读理解或实体识别等)对该语言模型进行微调(Fine-tuning)，以得到用于执行具体任务的目标语言模型。

但是，在对初始模型进行预训练的过程中，容易出现过拟合或者欠拟合的现象，导致语言模型的预训练效果较差。

发明内容

本申请实施例提供了一种语言模型的预训练方法、语言文本的处理方法及装置，能够有效提高语言模型的预训练效果。所述技术方案如下。

一方面，提供了一种语言模型的预训练方法，所述方法包括：

采用训练样本集合对初始模型进行预训练；

在对所述初始模型进行预训练的过程中，采用知识探针对预训练后的所述初始模型进行检测，得到所述初始模型的准确度；

若所述准确度未收敛，则继续采用所述训练样本集合对所述初始模型进行预训练；

若所述准确度收敛，则停止采用所述训练样本集合对所述初始模型进行预训练，得到预训练后的语言模型。

另一方面，提供了一种语言文本的处理方法，所述方法包括：

获取用于描述目标对象的生理健康状况的语言文本；

将所述语言文本输入预测模型，得到所述预测模型输出的预测结果，所述预测结果用于指示所述目标对象与目标疾病的关联性；其中，所述预测模型采用上述方面所述的语言模型的预训练方法训练得到。

又一方面，提供了一种语言模型的预训练装置，所述装置包括：

训练模块，用于采用训练样本集合对初始模型进行预训练；

检测模块，用于在对所述初始模型进行预训练的过程中，采用知识探针对预训练后的所述初始模型进行检测，得到所述初始模型的准确度；

所述训练模块，还用于：

再一方面，提供了一种语言文本的处理装置，所述装置包括：

获取模块，用于获取用于描述目标对象的生理健康状况的语言文本；

处理模块，用于将所述语言文本输入预测模型，得到所述预测模型输出的预测结果，所述预测结果用于指示所述目标对象与目标疾病的关联性；

其中，所述预测模型采用上述方面所述的语言模型的预训练装置训练得到。

再一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的语言模型的预训练方法，或如上述方面所述的语言文本的处理方法。

再一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的语言模型的预训练方法，或如上述方面所述的语言文本的处理方法。

再一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面所述的语言模型的预训练方法，或上述方面所述的语言文本的处理方法。

本申请提供的技术方案带来的有益效果至少包括：

本申请提供了一种语言模型的预训练方法、语言文本的处理方法及装置。本申请提供的方案在对初始模型进行预训练的过程中，能够通过知识探针对预训练后的初始模型的准确度进行检测，并能够在检测到准确度收敛时停止预训练，得到语言模型。由此，可以避免语言模型在预训练的过程中出现过拟合或者欠拟合的现象，确保预训练得到的语言模型的性能较好。并且，通过知识探针对初始模型进行检测，可以较为准确地确定出初始模型对训练样本集合中各个训练样本的学习情况，进而能准确地确定预训练的较佳停止点。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种语言模型的预训练系统的结构示意图；

图2是本申请实施例提供的一种语言模型的预训练方法的流程图；

图3是本申请实施例提供的另一种语言模型的预训练方法的流程图；

图4是本申请实施例提供的一种语言模型的准确度随训练样本的数量变化的示意图；

图5是本申请实施例提供的另一种语言模型的准确度随训练样本的数量变化的示意图；

图6是本申请实施例提供的又一种语言模型的准确度随训练样本的数量变化的示意图；

图7是本申请实施例提供的再一种语言模型的准确度随训练样本的数量变化的示意图；

图8是本申请实施例提供的一种语言文本的处理方法的流程图；

图9是本申请实施例提供的一种语言模型的预训练装置的结构框图；

图10是本申请实施例提供的一种语言文本的处理装置的结构框图；

图11是本申请实施例提供的一种服务器的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供的方案可以应用于云技术、人工智能、智慧交通等各种场景。首先，针对本申请实施例中涉及的名词进行简单介绍。

人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

自然语言处理：是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

语言模型(Language Model，LM)：是NLP领域中用于对语言文本进行分析和处理的模型，通常可以分为文法规则语言模型、统计语言模型和神经网络语言模型等。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

图1是本申请实施例提供的一种语言模型的预训练系统。参见图1，该系统包括：服务器110和终端120。该服务器110与终端120之间建立有线或无线通信连接。可选地，该服务器110可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。该终端120可以是个人计算机(PersonalComputer，PC)、平板电脑、智能手机、可穿戴设备、智能机器人等具备数据计算、处理和存储能力的终端。

在本申请实施例中，该系统中的终端设备120可以用于获取训练样本集合，并将该训练样本集合发送至服务器110。服务器110进而可以采用该训练样本集合对初始模型进行预训练。之后，服务器可以对该预训练后的初始模型进行微调，得到能够执行具体任务的目标语言模型。

或者，该系统可以是一种能够执行具体任务的目标语言模型系统。相应的，该系统中的终端设备120可以用于获取待检测的语言文本，并将该待检测的语言文本发送至服务器110进行检测。服务器110中预先存储有已完成预训练和微调的目标语言模型。服务器获取到待检测的语言文本后，可以将该语言文本输入至目标语言模型，该目标语言模型进而能够对该语言文本进行检测和识别，并输出检测结果。之后，服务器110可以将该检测结果发送至终端120。

可选地，该目标语言模型可以是用于执行下述任一种任务的模型：文本预处理(Text preprocessing)、语义理解(Semantic understanding)、机器翻译(Machinetranslation)、机器人问答、知识图谱和疾病预测等。

示例的，该目标语言模型可以是医疗领域的疾病预测模型。相应的，该目标语言模型的输入文本可以是用于描述目标对象的生理健康状况(例如症状和/或生命体征)的语言文本。该目标语言模型输出的预测结果可以指示目标对象与目标疾病的关联性，即预测结果可以指示目标对象患有目标疾病的概率。

或者，该目标语言模型可以是机器翻译模型。相应的，该目标语言模型的输入文本可以是待翻译的第一语言的语言文本，该目标语言模型输出的检测结果可以是对该输入文本进行翻译得到的第二语言的语言文本。

又或者，该目标语言模型可以是语义理解模型。相应的，该目标语言模型的输入文本可以是待理解语境或情感的语言文本，该目标语言模型输出的检测结果可以是该输入文本的使用语境或情感分类。

再或者，该目标语言模型可以是机器人问答模型。相应的，该目标语言模型的输入文本可以是待解答的问题文本，该目标语言模型输出的检测结果可以是该问题的答案。

结合上述名词简介和应用场景，对本申请实施例提供的语言模型的预训练方法进行说明。该方法可以应用于计算机设备，该计算机设备可以是图1所示场景中的服务器110。下文以该预训练方法应用于服务器为例进行说明，如图2所示，该方法包括如下步骤。

步骤101、采用训练样本集合对初始模型进行预训练。

在本申请实施例中，服务器中预先存储有NLP的初始模型。服务器获取到训练样本集合后，能够采用该训练样本集合对初始模型进行预训练。其中，该训练样本集合包括多个训练样本，每个训练样本可以是无标注的语言文本，或者，也可以是有标注的语言文本。该初始模型可以为基于变换器的双向编码器表征量(Bidirectional EncoderRepresentations from Transformers，BERT)模型。

步骤102、在对该初始模型进行预训练的过程中，采用知识探针对预训练后的初始模型进行检测，得到该初始模型的准确度。

在对该初始模型进行预训练的过程中，服务器可以在每采用训练样本集合对初始模型进行一次或多次预训练后，采用知识探针来检测该预训练后的初始模型对训练样本集合中各个训练样本的学习情况。之后，该知识探针可以依据该预训练后的初始模型已学习到的训练样本的占比，确定该初始模型的准确度(Accuracy)。可以理解的是，该初始模型的准确度与该占比正相关，即初始模型学习到的训练样本的数量越多，该初始模型的准确度越高。

步骤103、若准确度未收敛，则继续采用训练样本集合对该初始模型进行预训练。

服务器在对初始模型进行预训练的过程中，可以确定出该初始模型在不同预训练阶段的准确度。若服务器检测到该初始模型的准确度未收敛，则可以确定该预训练后的初始模型对训练样本集合中的训练样本的学习情况还不满足要求。或者可以理解为：预训练后的初始模型对训练样本集合中的知识的掌握程度不满足要求。相应的，服务器可以继续采用该训练样本集合对该初始模型进行预训练。

步骤104、若准确度收敛，则停止采用训练样本集合对该初始模型进行预训练，得到预训练后的语言模型。

服务器若确定该初始模型的准确度收敛，则可以确定该预训练后的初始模型对训练样本集合中的训练样本的学习情况已满足要求。或者可以理解为：预训练后的初始模型对训练样本集合中的知识的掌握程度已满足要求，该初始模型的预训练过程已达到一个较佳停止点。相应的，服务器便可以停止采用该训练样本集合对该初始模型进行训练，得到与具体任务无关的语言模型。之后，服务器可以基于该语言模型要实现的具体任务，对该语言模型进行微调，从而得到能够用于执行具体任务的目标语言模型。

综上所述，本申请实施例提供了一种语言模型的预训练方法，该方法在对初始模型进行预训练的过程中，能够通过知识探针对预训练后的初始模型的准确度进行检测，并可以在检测到该初始模型的准确度收敛时，停止该初始模型的预训练，得到语言模型。由此，可以避免语言模型在预训练的过程中出现过拟合或者欠拟合的现象，确保预训练得到的语言模型的性能较好。

并且，本申请实施例提供的方法通过知识探针对初始模型进行检测，可以较为准确地确定出初始模型对训练样本集合中各个训练样本的学习情况。也即是，可以在知识的层面(Knowledge level)去评估该初始模型的预训练情况，进而可以准确地确定该初始模型预训练的较佳停止点，有效提高了初始模型的预训练效果。

图3是本申请实施例提供的另一种语言模型的预训练方法的流程示意图。本实施例以该方法应用于服务器进行举例说明。参见图3，该方法包括：

步骤201、采用训练样本集合对初始模型进行预训练。

在本申请实施例中，服务器中预先存储有NLP的初始模型。服务器获取到训练样本集合后，能够采用该训练样本集合对初始模型进行预训练。该初始模型可以为BERT或者其他类型的模型，例如可以是具有信息实体的增强语言表示(Enhanced LanguageRepresentation with Informative Entities，ERNIE)模型。其中，该训练样本集合包括多个训练样本，每个训练样本可以是无标注的语言文本，或者，也可以是有标注的语言文本。该训练样本集合可以来源于各类百科知识语料库，且该训练样本集合中的各个训练样本可以是基于该知识语料库中的通用知识、新闻相关的知识以及故事相关的知识得到的。

对初始模型进行预训练，能够实现对该初始模型的初始化，从而提高该初始模型的泛化能力并加速该初始模型收敛。预训练可以看作是一种在小数据集上避免过拟合的正则化方法。根据预训练过程中采用的训练样本是否具有标注，可以将初始模型的预训练任务分为监督学习和非监督学习。非监督学习即表示采用大量无标注的训练样本对初始模型进行训练。

步骤202、在每采用训练样本集合对初始模型进行一次或多次预训练后，将知识探针中每个探测样本的输入文本输入至预训练后的初始模型，得到该初始模型输出的预测文本。

其中，该知识探针可以包括多个探测样本，且每个探测样本可以包括基于一个训练样本得到的输入文本和输出文本。也即是，每个探测样本可以包括输入文本和输出文本，该输入文本和输出文本均是基于训练样本集合中的一个训练样本得到的。例如，该输出文本可以是训练样本中的一个单词或短句，该输入文本可以是训练样本中除该单词或短句之外的部分，或者可以是基于该单词或短句之外的部分生成的提问文本。

可选地，为了提高对预训练后的初始模型的检测效率，该知识探针包括的探测样本的数量可以小于训练样本集合中的训练样本的数量。也即是，可以对训练样本集合中的训练样本进行采样，以得到多个探测样本。

在本申请实施例中，服务器在每采用训练样本集合对初始模型进行一次或多次预训练后，可以将知识探针中每个探测样本的输入文本输入至预训练后的初始模型，该预训练后的初始模型进而能够输出预测文本。服务器通过将该预测文本与探测样本中的输出文本进行对比，即可确定出预训练后的初始模型对训练样本的学习情况。

可选地，若该初始模型为BERT模型，则可以采用语言模型分析(LAnguage ModelAnalysis，LAMA)探针作为知识探针。BERT模型是一个多任务模型，其任务可以包括掩码语言模型(Masked Language Model，MLM)和下一句预测(Next Sentence Prediction，NSP)模型。其中，MLM和NSP也可以理解为BERT的两个目标函数。该MLM可以用于学习单词与单词之间的关系；NSP是一个二分类任务，其用于预测第二个句子是不是第一句子的下一句，即NSP用于学习句子与句子之间的关系。

本申请实施例以MLM为目标函数为例进行说明。在预训练过程中，可以随机用掩码：[MASK]替换训练样本中的一些单词，BERT模型能够预测该训练样本中被[MASK]替换的单词。相应的，LAMA探针能够将采样得到的每个训练样本转换为完型填空样式的语句。其中，每个探测样本的输出文本为训练样本中被[MASK]随机替换的单词，即提问语句的答案，探测样本的输入文本为针对该训练样本中被[MASK]替换的单词的完型填空样式的语句。服务器将LAMA探针中每个探测样本的输入文本输入至预训练后的初始模型，该初始模型能够对该输入文本中被[MASK]替换的单词进行预测，并输出针对该输入文本的预测文本。或者可以理解为：初始模型能够完成该完型填空。

基于上述分析可知，LAMA探针能够提供一套由知识源组成的事实语料库。事实可以是主体(Subject)-关系(Relation)-客体(Object)组成的三元组，或者可以是问答对。每一个事实被转换成一个完形填空样式的语句，用于供预训练后的初始模型预测缺失的单词，即被[MASK]替换的单词。

示例的，假设训练样本集合中的每个训练样本均为一个三元组(Subject，Relation，Object)，且某个训练样本为(Dante，born-in，Florence)。若用[MASK]替换该训练样本中的客体“Florence”，则可以得到一个探测样本。该探测样本的输入文本可以为“Dante was born in[MASK]”，该探测样本的输出文本为“Florence”。将该输入文本输入至预训练后的初始模型，该初始模型可以对该输入文本中被[MASK]替换的单词进行预测，并输出预测文本。

步骤203、基于多个探测样本中目标探测样本的占比，确定初始模型的准确度。

其中，目标探测样本为输出文本与初始模型输出的预测文本相匹配的探测样本。服务器获取到预训练后的初始模型输出的预测文本后，可以将该预测文本与探测样本中的输出文本进行对比。若该预测文本与探测样本中的输出文本相匹配，则服务器可以确定预训练后的初始模型已学习到该探测样本所对应的训练样本，或者可以理解为预训练后的初始模型已掌握了一条知识。相应的，服务器可以确定该探测样本为目标探测样本。若预测文本与探测样本中的输出文本不匹配，则服务器可以确定预训练后的初始模型未学习到该探测样本所对应的训练样本。

其中，探测样本所对应的训练样本是指该探测样本的输入文本和输出文本是基于该训练样本得到的。预测文本与输出文本匹配是指：预测文本与输出文本相同，或者，当预测文本包括多个不同概率的文本时，该预测文本中概率最高的前k个文本中存在与输出文本相同的文本。其中，k为大于或等于1的整数，且k小于该预测文本包括的不同概率的文本的总数。

服务器在将初始模型输出的多个预测文本与探测样本中的输出文本进行对比后，可以基于该多个探测样本中目标探测样本的占比，确定该初始模型的准确度。该准确度与目标探测样本的占比正相关，即目标探测样本的占比越高，服务器可以确定该初始模型的准确度越高。例如，服务器可以直接将该占比作为初始模型的准确度。

示例的，假设探测样本的输入文本为“Dante was born in[MASK]”，该探测样本的输出文本为“Florence”。服务器可以将该输入文本输入至预训练后的初始模型，若该初始模型输出的预测文本也为“Florence”，则服务器可以确定该预测文本与输出文本相匹配，并将该探测样本确定为目标探测样本。若知识探针中包括的探测样本的总数为100，该100个探测样本中存在90个目标探测样本，则服务器可以确定目标探测样本的占比为90％，进而可以确定该初始模型的准确度为0.9。

可选地，服务器采用LAMA探针来确定初始模型对于训练样本的学习情况时(即确定初始模型的准确度时)，可以采用如下目标函数：

其中，

表示LAMA探针的损失(Loss)，该目标函数也即为LAMA探针的损失函数。该损失函数可以用于表征初始模型的准确度。s表示三元组中的主体，o表示三元组中的客体，r表示三元组中的关系，D_r表示各个关系相同的主体-客体对。|D_r|表示LAMA探针所包括的探测样本集合，即LAMA探针所包括的探测样本的数量，此处以探测样本集合中各个探测样本的关系相同为例进行说明。(s,o)∈D_r表示LAMA探针中所包括的各个探测样本，t_r(s)表示被[MASK]替换客体后的输入文本，P[MASK]＝o|t_r(s)表示初始模型正确预测出被[MASK]替换的单词的概率。log函数的底数为2。

步骤204、检测预训练后的初始模型的准确度是否收敛。

在本申请实施例中，服务器每确定出一个准确度后，可以检测该准确度相比于上一次确定出的准确度的增幅。若连续确定出的N个准确度的增幅均小于阈值，则服务器可以确定该初始模型的准确度收敛，并执行步骤207。若未检测到连读N个准确度的增幅均小于阈值，则可以确定该初始模型的准确度未收敛，并执行步骤205。其中，N为大于1的整数，例如N可以为10。

服务器在连续确定出N个准确度的增幅均小于阈值时，才确定该初始模型的准确度收敛，由此可以使得服务器确定出的该初始模型的预训练的停止点更加准确，从而保障该初始模型的预训练效果。

可选地，服务器还可以在检测到准确度上升至某一阈值后，若连续M次获取到的准确度均小于该某一阈值，则可以确定该准确度收敛。其中，M为大于1的整数，例如N可以为10。

步骤205、将训练样本集合中已被初始模型学习到的目标训练样本删除。

服务器在对初始模型进行预训练的过程中，可以确定出该初始模型在不同预训练阶段的准确度。服务器若确定该初始模型的准确度未收敛，则可以确定该预训练后的初始模型对训练样本集合中的训练样本的学习情况还不满足要求。相应的，服务器可以确定需要继续采用该训练样本集合对该初始模型进行预训练。在本申请实施例中，为了提高预训练的效率，服务器可以将训练样本集合中已被初始模型学习到的目标训练样本删除。其中，该目标训练样本是指用于生成目标探测样本的训练样本，即目标探测样本基于目标训练样本得到。

可选的，服务器可以在每采用训练样本集合对初始模型进行一轮(Epoch)训练后，确定该初始模型在该轮预训练过程中的准确度，若该准确度未收敛，则删除该轮预训练过程中已被初始模型学习到的训练样本。

步骤206、采用删除目标训练样本后的训练样本集合对初始模型进行预训练。

服务器将训练样本集合中已被初始模型学习到的目标训练样本删除后，可以采用训练样本集合中未被初始模型学习到的训练样本，继续对该初始模型进行训练。

可以理解的是，删除训练样本集合中已被初始模型学习到的训练样本，可以有效缩短该初始模型进行下一轮预训练所需要的时长。并且，采用删除目标训练样本后的训练样本集合对初始模型进行预训练，使得该初始模型在预训练过程中能够对样本集合中未被学习到的训练样本进行重复学习，从而确保该初始模型能够较为全面地掌握该训练集合中的训练样本。由此，可以确保预训练得到的语言模型的性能较好。

步骤207、停止采用训练样本集合对所述初始模型进行预训练，得到预训练后的语言模型。

在上述步骤204中，服务器若确定该初始模型的准确度收敛，则可以停止采用训练样本集合对该初始模型进行预训练，从而完成对该初始模型的预训练，得到与具体任务无关的语言模型。之后，服务器可以基于该语言模型要实现的具体任务，对该语言模型进行微调，从而得到能够用于执行具体任务的目标语言模型。

基于上述步骤203至步骤207可知，本申请实施例提供的方法可以基于初始模型当前预训练的状态，动态调节初始模型在预训练中所需要的轮数和训练样本，从而可以有效提升预训练的效率和效果。

图4和图5是相关技术中的预训练方法训练得到的语言模型的准确度随训练样本的数量变化的示意图。图4和图5中的纵轴为预训练过程中该初始模型的准确度，横轴为预训练过程中累计采用的训练样本的数量。该累计采用的训练样本的数量可以用于表征初始模型的预训练轮次，进而可以表征初始模型的预训练时长。其中，图4中分别示出了下述语言模型的准确度：采用知识百科语料库中的通用知识训练得到的语言模型，采用知识百科语料库中有关新闻与故事的知识训练得到的语言模型，采用知识百科语料库中部分通用知识训练得到的语言模型。图5中分别示出了下述语言模型的准确度：采用知识百科语料库中的通用知识训练得到的语言模型，采用知识百科语料库中仅仅与故事相关的知识训练得到的语言模型，采用知识百科语料库中仅仅与新闻相关的知识训练得到的语言模型。

图4和图5中各个语言模型的准确度可以是采用本申请实施例提供的方法检测得到的。并且从图4和图5可以看出，上述各个语言模型均是在训练样本的数量达到1兆(M)左右时停止预训练的。参考图4和图5可知，采用相关技术中的预训练方法时，大部分的语言模型都是在处于知识欠拟合的状态就停止预训练了。

图6是未对训练样本集合进行动态调整时，初始模型的准确度随训练样本的数量变化的示意图。图7是对训练样本集合进行动态调整时，初始模型的准确度随训练样本的数量变化的示意图。对比图6和图7可以看出，未对训练样本集合进行动态调整时，需要累计采用约1.1M的训练样本对初始模型进行预训练，才能使得预训练后的初始模型的准确度达到0.9。若对训练样本集合进行动态调整时，则累计采用约370千(K)的训练样本对初始模型进行预训练，即可使得预训练后的初始模型的准确度达到0.9。

基于上述分析可知，对训练样本集合进行动态调整后，初始模型对于训练样本集合中各个训练样本的学习速度，明显快于不对训练样本集合进行动态调整时，初始模型对于训练样本集合中各个训练样本的学习速度。相应的，对训练样本集合进行动态调整后，初始模型的准确度呈收敛趋势所需的预训练时长，远小于未对训练样本集合进行动态调整时，该初始模型呈收敛趋势所需的预训练时长。

可以理解的是，对初始模型进行预训练后，可以得到与具体任务无关的语言模型。之后，服务器可以基于该语言模型要实现的具体任务，对该语言模型进行微调，从而得到能够用于执行具体任务的目标语言模型。下文对基本的语言模型进行简要介绍。

在NLP中，语言模型可以用于预测输入至该语言模型中的语言文本中某个句子或词语的概率分布。输入至语言模型的语言文本可以用文本序列x_{1:T}＝[x₁，x₂，…，x_T]表示。该文本序列的联合概率p(x_1:T)可以表示为：

其中，x₀表示该文本序列中的第一个词语，x_t表示该文本序列中待预测的词语，该词语x_t存在的可能性(即条件概率p(x_t|x_0:t-1))可以通过给定的语言上下文x_0:t-1的概率分布进行建模估计。相应的，该语言模型可以预测该文本序列中的各个词语能够依次组成一句通顺的语句的概率。上下文x_0:t-1可以通过神经编码器进行建模，则条件概率p(x_t|x_0:t-1)可以表示为：

p(x_t|x_0:t-1)＝g_LM(f_enc(x_0:t-1))；

其中，f_enc为神经编码器，用于获取文本序列中的前t-1个词语，g_LM为该神经编码器的预测层，用于预测第t个词语存在的可能性。

可选地，在本申请实施例中，除LAMA探针外，服务器还可以采用线性分类器或互信息预测器等其它探针作为知识探针。并且，依据预训练过程所采用的目标函数，可以对知识探针进行改进和优化，从而使得该知识探针能够更好地检测预训练过程中初始模型的准确度(即初始模型对训练样本的学习情况)，进而较为准确地确定出该初始模型预训练过程的较佳停止点。

可以理解的是，本申请实施例提供的语言模型的预训练方法的步骤的先后顺序可以进行适当调整，步骤也可以根据情况进行相应增减。例如，上述步骤205可以根据情况删除。任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化的方法，都应涵盖在本申请的保护范围之内，因此不再赘述。

并且，本申请实施例提供的方法通过知识探针对初始模型进行检测，可以较为准确地确定出初始模型对训练样本集合中各个训练样本的学习情况，并依据学习情况对训练样本集合进行动态调整，从而有效缩短初始模型进行预训练的时长，并确保该初始模型能够全面地掌握训练样本集合中的各个训练样本，有效提高了该初始模型的预训练效果。

图8是本申请实施例提供的一种语言文本的处理方法的流程示意图。该方法可以应用于终端，例如可以应用于图1所示场景中的终端120。下文以语言文本的处理方法应用于终端为例进行说明，如图8所示，该方法包括如下步骤。

步骤301、获取用于描述目标对象的生理健康状况的语言文本。

在本申请实施例中，该目标对象为待进行疾病预测的人员。该语言文本可以为反映该目标对象在一段时间内的生理健康状况的数据(例如症状和/或生命体征)。目标对象或目标对象的医护人员可以将用于描述目标对象的生理健康状况的语言文本输入至终端。

步骤302、将该语言文本输入预测模型，得到预测模型输出的预测结果。

终端中预先存储有预测模型，该预测模型可以是采用上述实施例提供的语言模型的预训练方法进行预训练，并经过微调后得到的。终端获取到语言文本后，可以将该语言文本输入预测模型，得到该预测模型输出的预测结果。该预测结果用于指示目标对象与目标疾病的关联性，即该目标对象患有目标疾病的概率。该预测结果可以辅助医护人员对该目标对象所患有的目标疾病进行预测和诊断，从而确定出更为准确和有效的治疗方案。

综上所述，本申请实施例提供了一种语言文本的处理方法，该方法能够将用于描述目标对象的生理健康状况的语言文本输入至预测模型，该预测模型进而能够输出用于指示该目标对象与目标疾病的关联性的预测结果。由于该预测模型是基于上述方法实施例提供的预训练方法训练得到的，因此该预测模型的性能较好。也即是，该预测模型能够较为准确地确定该目标对象与目标疾病的关联性，进而能够有效地辅助医护人员对目标对象所患有的疾病进行诊断。

图9是本申请实施例提供的一种语言模型的预训练装置的结构框图，如图9所示，该装置包括：

训练模块410，用于采用训练样本集合对初始模型进行预训练；

检测模块420，用于在对初始模型进行预训练的过程中，采用知识探针对预训练后的初始模型进行检测，得到该初始模型的准确度；

该训练模块410，还用于：

若准确度未收敛，则继续采用该训练样本集合对初始模型进行预训练；若准确度收敛，则停止采用该训练样本集合对初始模型进行预训练，得到预训练后的语言模型。

在一个可选的实施例中，该训练样本集合包括多个训练样本；该知识探针包括多个探测样本，每个探测样本包括基于一个训练样本得到的输入文本和输出文本；

该检测模块410，用于将每个探测样本中的输入文本输入至预训练后的初始模型，得到该初始模型输出的预测文本；基于多个探测样本中目标探测样本的占比，确定该初始模型的准确度，其中，目标探测样本为输出文本与初始模型输出的预测文本相匹配的探测样本。

在一个可选的实施例中，该训练模块420用于：

若准确度未收敛，则将该训练样本集合中已被初始模型学习到的目标训练样本删除，该目标探测样本基于目标训练样本得到；采用删除目标训练样本后的训练样本集合对该初始模型进行预训练。

在一个可选的实施例中，该知识探针包括的探测样本的数量小于训练样本集合中的训练样本的数量。

在一个可选的实施例中，该检测模块410用于若连续确定出的N个准确度的增幅均小于阈值，则确定准确度收敛，N为大于1的整数。

在一个可选的实施例中，该检测模块410用于在每采用训练样本集合对初始模型进行一次或多次预训练后，采用该知识探针对预训练后的初始模型进行检测。

在一个可选的实施例中，知识探针包括LAMA探针、线性分类器或互信息预测器。

综上所述，本申请实施例提供了一种语言模型的预训练装置，在对初始模型进行预训练的过程中，该装置能够通过知识探针对预训练后的初始模型的准确度进行检测，并在检测到该初始模型的准确度收敛时，停止该初始模型的预训练，得到语言模型。由此，可以避免语言模型在预训练的过程中出现过拟合或者欠拟合的现象，确保预训练得到的语言模型的性能较好。并且，该装置通过知识探针对初始模型进行检测，可以较为准确地确定出初始模型对训练样本集合中各个训练样本的学习情况。也即是，可以在知识的层面去评估该初始模型的预训练情况，进而准确地确定该初始模型预训练的较佳停止点，有效提高了初始模型的预训练效果。

图10是本申请实施例提供的一种语言文本的处理装置的结构框图，如图10所示，该装置包括：

获取模块510，用于获取用于描述目标对象的生理健康状况的语言文本；

处理模块520，用于将该语言文本输入预测模型，得到该预测模型输出的预测结果，该预测结果用于指示该目标对象与目标疾病的关联性；其中，该预测模型可以采用本申请实施例提供的如图9所示的语言模型的预训练装置训练得到。

综上所述，本申请实施例提供了一种语言文本的处理装置。该装置能够获取用于描述目标对象的生理健康状况的语言文本，并将该语言文本输入预测模型。该预测模型可以对该语言文本进行的分析，输出能够指示该目标对象与目标疾病的关联性的预测结果。由于该方法能够基于目标对象的健康状况数据，较为准确地确定该目标对象与目标疾病的关联性，因此能够有效地辅助医护人员对目标对象所患有的疾病进行诊断。

可以理解的是：上述实施例提供的语言模型的预训练装置和语言文本的处理装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语言模型的预训练装置和语言模型的预训练方法实施例属于同一构思，语言文本的处理装置与语言文本的处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图11是本申请实施例提供的一种服务器的结构示意图。

具体来讲：服务器110包括中央处理单元(Central Processing Unit，CPU)111、包括随机存取存储器(Random Access Memory，RAM)1121和只读存储器(Read Only Memory，ROM)1122的系统存储器112，以及连接系统存储器112和中央处理单元111的系统总线113。服务器110还包括用于存储操作系统1141、应用程序1142和其他程序模块1143的大容量存储设备114。

大容量存储设备114通过连接到系统总线113的大容量存储控制器(未示出)连接到中央处理单元111。大容量存储设备114及其相关联的计算机可读介质为服务器110提供非易失性存储。也就是说，大容量存储设备114可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory，EEPROM)、闪存或其他固态存储其技术，CD-ROM、数字通用光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器112和大容量存储设备114可以统称为存储器。

根据本申请的各种实施例，服务器110还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器110可以通过连接在系统总线113上的网络接口单元115连接到网络116，或者说，也可以使用网络接口单元115来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

本申请的实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的语言模型的预训练方法，或语言文本的处理方法。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行，以实现上述各方法实施例提供的语言模型的预训练方法，或语言文本的处理方法。

本申请的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的语言模型的预训练方法，或语言文本的处理方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

可以理解的是，本申请中术语“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上。本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语言模型的预训练方法，其特征在于，所述方法包括：

采用训练样本集合对初始模型进行预训练；

2.根据权利要求1所述的方法，其特征在于，所述训练样本集合包括多个训练样本；所述知识探针包括多个探测样本，每个所述探测样本包括基于一个所述训练样本得到的输入文本和输出文本；

所述采用知识探针对预训练后的所述初始模型进行检测，得到所述初始模型的准确度，包括：

将每个所述探测样本中的输入文本输入至预训练后的所述初始模型，得到所述初始模型输出的预测文本；

基于所述多个探测样本中目标探测样本的占比，确定所述初始模型的准确度，其中，所述目标探测样本为输出文本与所述初始模型输出的预测文本相匹配的探测样本。

3.根据权利要求2所述的方法，其特征在于，若所述准确度未收敛，则继续采用所述训练样本集合对所述初始模型进行预训练，包括：

若所述准确度未收敛，则将所述训练样本集合中已被所述初始模型学习到的目标训练样本删除，所述目标探测样本基于所述目标训练样本得到；

采用删除目标训练样本后的所述训练样本集合对所述初始模型进行预训练。

4.根据权利要求2所述的方法，其特征在于，所述知识探针包括的探测样本的数量小于所述训练样本集合中的训练样本的数量。

5.根据权利要求1至4任一所述的方法，其特征在于，所述方法还包括：

若连续确定出的N个所述准确度的增幅均小于阈值，则确定所述准确度收敛，所述N为大于1的整数。

6.根据权利要求1至4任一所述的方法，其特征在于，所述在对所述初始模型进行预训练的过程中，采用知识探针对预训练后的所述初始模型进行检测，包括：

在每采用所述训练样本集合对初始模型进行一次或多次预训练后，采用知识探针对预训练后的所述初始模型进行检测。

7.根据权利要求1至4任一所述的方法，其特征在于，所述知识探针包括语言模型分析LAMA探针、线性分类器或互信息预测器。

8.一种语言文本的处理方法，其特征在于，所述方法包括：

获取用于描述目标对象的生理健康状况的语言文本；

将所述语言文本输入预测模型，得到所述预测模型输出的预测结果，所述预测结果用于指示所述目标对象与目标疾病的关联性；

其中，所述预测模型采用如权利要求1至7任一所述的方法训练得到。

9.一种语言模型的预训练装置，其特征在于，所述装置包括：

训练模块，用于采用训练样本集合对初始模型进行预训练；

所述训练模块，还用于：

10.一种语言文本的处理装置，其特征在于，所述语言文本的处理装置包括：

其中，所述预测模型采用如权利要求9所述的语言模型的预训练装置训练得到。

11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的语言模型的预训练方法，或如权利要求8所述的语言文本的处理方法。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一所述的语言模型的预训练方法，或如权利要求8所述的语言文本的处理方法。