CN114723073A

CN114723073A - 语言模型预训练、产品搜索方法、装置以及计算机设备

Info

Publication number: CN114723073A
Application number: CN202210635740.7A
Authority: CN
Inventors: 刘克松; 蒋建慧; 吕非非
Original assignee: Ali Health Technology Hangzhou Co ltd
Current assignee: Ali Health Technology Hangzhou Co ltd
Priority date: 2022-06-07
Filing date: 2022-06-07
Publication date: 2022-07-08
Anticipated expiration: 2042-06-07
Also published as: CN114723073B

Abstract

本说明书实施方式提供一种语言模型预训练、产品搜索方法、装置以及计算机设备。通过提供包括非结构化的文本数据集和结构化的产品数据集的语料集，利用文本数据集训练所述辅助转化器和所述主转化器执行RTD预训练任务，利用产品数据集训练所述主转化器执行PAP预训练任务。在达到模型训练的停止条件时，将主转换器作为目标语言模型，通过引入新的PAP预训练任务，不仅实现将产品知识注入到目标语言模型中，不再需要费力构建相应的产品知识图谱，而且提升目标语言模型在下游任务中的表现能力。

Description

语言模型预训练、产品搜索方法、装置以及计算机设备

技术领域

本说明书实施方式涉及自然语言处理技术领域，具体涉及一种语言模型预训练、产品搜索方法、装置以及计算机设备。

背景技术

近年来，预训练语言模型（PLM，Pre-trained Language Model）极大地提高了各种自然语言处理（NLP）任务的性能。在NLP模型的训练任务中通常采用预训练和微调的方法。

在传统技术中，预训练语言模型通常使用大型语料库中的文本序列以自我监督方式学习的方式捕获词义。进一步地，预训练语言模型可以应用在搜索引擎上用来解决一些查询任务。

发明内容

有鉴于此，本说明书实施方式致力于至少提供一种语言模型预训练、产品搜索方法、装置以及计算机设备，实现以产品的结构化信息训练语言模型，并将产品的相关知识信息注入语言模型中，从而不再需要费力构建相应的产品知识图谱的技术效果。

本说明书实施方式提供了一种语言模型预训练方法，所述方法还包括：提供用于训练初始语言模型的语料集，其中，所述初始语言模型包括主转化器和为所述主转化器提供输入文本序列的辅助转化器；所述语料集包括非结构化的文本数据集和结构化的产品数据集；基于所述语料集对所述初始语言模型进行训练得到目标语言模型；其中，所述文本数据集用于训练所述辅助转化器和所述主转化器，得到第一语言模型；所述产品数据集用于对所述主转化器进行训练，得到第二语言模型；其中，所述目标语言模型包括所述第一语言模型中的主转化器或者所述第二语言模型中的主转化器。

本说明书实施方式提供一种产品搜索方法，所述方法还包括：获取目标产品的搜索关键词和候选产品的标题；其中，所述搜索关键词与所述目标产品的属性名称相关；将所述搜索关键词和所述候选产品的标题输入至目标语言模型进行预测，得到所述搜索关键词以及所述候选产品的标题之间的相关数据；其中，所述目标语言模型是通过上述任一实施方式所述的语言模型预训练方法得到的；基于所述相关数据，在所述候选产品中确定所述目标产品。

本说明书实施方式提供一种语言模型预训练装置，所述装置包括：语料集提供模块，用于提供用于训练初始语言模型的语料集，其中，所述初始语言模型包括主转化器和为所述主转化器提供输入文本序列的辅助转化器；其中，所述语料集包括非结构化的文本数据集和结构化的产品数据集；语言模型训练模块，用于基于所述语料集对所述初始语言模型进行训练得到目标语言模型；其中，所述文本数据集用于训练所述辅助转化器和所述主转化器，得到第一语言模型；所述产品数据集用于对所述主转化器进行训练，得到第二语言模型；其中，所述目标语言模型包括所述第一语言模型中的主转化器或者所述第二语言模型中的主转化器。

本说明书实施方式提供一种产品搜索装置，所述装置包括：获取模块，用于获取目标产品的搜索关键词和候选产品的标题；其中，所述搜索关键词与所述目标产品的属性名称相关；预测模块，用于将所述搜索关键词和所述候选产品的标题输入至目标语言模型进行预测，得到所述搜索关键词以及所述候选产品的标题之间的相关数据；其中，所述目标语言模型是通过上述任一实施方式所述的语言模型预训练方法得到的；确定模块，用于基于所述相关数据，在所述候选产品中确定所述目标产品。

本说明书实施方式提供一种计算设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述实施方式中的方法步骤。

本说明书实施方式提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述实施方式中的方法步骤。

本说明书实施方式提供一种计算机程序产品，所述计算机程序产品中包括指令，所述指令被计算机设备的处理器执行时，使得所述计算机设备能够执行上述实施方式中的方法步骤。

本说明书实施方式，通过提供包括非结构化的文本数据集和结构化的产品数据集的语料集，利用文本数据集训练所述辅助转化器和所述主转化器执行RTD预训练任务，利用产品数据集训练所述主转化器执行PAP预训练任务。在达到模型训练的停止条件时，将主转换器作为目标语言模型，通过引入新的PAP预训练任务，不仅实现将产品知识注入到目标语言模型中，不再需要费力构建相应的产品知识图谱，而且提升目标语言模型在下游任务中的表现能力。

附图说明

图1所示为一实施方式提供的场景示例中目标数据确定方法的交互图。

图2所示为一实施方式提供的语言模型预训练方法的流程示意图。

图3所示为一实施方式提供的第一语言模型的训练方式的流程示意图。

图4所示为一实施方式提供的第二语言模型的训练方式的流程示意图。

图5所示为一实施方式提供的确定第二语言模型损失值的流程示意图。

图6为一实施方式提供的语言模型预训练装置的结构框图。

图7为一实施方式提供的产品搜索装置的结构框图。

图8为一实施方式提供的计算机设备的内部结构图。

具体实施方式

下面将结合本说明书实施方式中的附图，对本说明书实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅是本说明书一部分实施方式，而不是全部的实施方式。基于本说明书中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本说明书保护的范围。

请参阅图1。在一个具体地场景示例中，搭建初始语言模型，初始语言模型可以是ELECTRA模型。ELECTRA模型可以是使用替换标记检测（Replaced Token Detection，RTD）作为目标的预训练语言模型。初始语言模型包括主转化器和为主转化器提供输入文本序列的辅助转化器。可以理解的是，ELECTRA是一种自监督语言表征学习方法。它可以用较少的计算量对转换器（transformer）行预训练。

本场景示例中，需要对初始语言模型进行初始化，并构建用于训练初始语言模型的语料集。语料集包括非结构化的文本数据集和结构化的产品数据集。非结构化的文本数据集可以包括上下文语义关系的句子文本数据。本场景示例中，文本数据集可以包括通用领域文本和生物医学文本。具体地，可以从中文维基百科和中文新闻文章数据中收集通用领域文本，可以从医学文献语料库收集生物医学文本。结构化的产品数据集可以包括具有数据结构的产品数据。本场景示例中，产品数据集可以是药品数据集。电商企业具有内部的药品数据库，从药品数据库中获取药品的标题、属性名称、属性取值，构成药品的三元组数据，即结构化的药品数据集。

本场景示例中，对文本数据集中的通用领域文本、生物医学文本（记为X=(x₁，x₂，…，

)）进行分词，并进行命名实体识别，为通用领域文本、生物医学文本中的词组进行边界标记，得到标记文本序列（记为S=(s₁，s₂，…，s_n)）。

本场景示例中，构建的语料集包括两种不同类型的语料集，分别为非结构化的文本数据集和结构化的产品数据集。由于主转化器和辅助转化器对输入数据的格式具有不同的要求，因此将初始语言模型的预训练任务进行划分，非结构化的文本数据集和结构化的产品数据集可以分别用于执行两个不同的预训练任务，分别为替换标记检测任务（Replaced Token Detection，RTD）和产品属性预测任务（Product AttributePrediction，PAP）。非结构化的文本数据集适配于辅助转化器的输入数据的格式，则非结构化的文本数据集在执行替换标记检测任务时使用。结构化的产品数据集适配于主转化器的输入数据的格式，则结构化的产品数据集在执行产品属性预测任务时使用。

本场景示例中，利用文本数据集的训练文本数据执行RTD预训练任务，对辅助转化器和主转化器进行训练。RTD预训练任务的损失函数取决于辅助转化器的损失值和文本数据集对主转化器进行训练时的损失值。根据RTD预训练任务的损失函数对辅助转化器的模型参数和主转化器的模型参数进行调整。

具体地，以预设比例（约15%的比例）对标记文本序列的中文整词或者生物医学名称实体进行掩盖，得到遮盖文本序列（记为X^mask=(x₁ ^mask，x₂ ^mask，…，

^mask)）。将遮盖文本序列输入至辅助转化器中，辅助转化器可以认为是一个遮盖语言模型（MaksedLanguageModel，MLM）。利用辅助转化器预测遮盖文本序列中被遮盖的词组（Masked Token），得到损坏文本序列（记为X^corrupt=(x₁ ^corrupt，x₂ ^corrupt，…，

^corrupt)）。可以理解的是，损坏文本序列为辅助转化器为主转化器提供的输入文本序列。

将损坏文本序列输入至主转化器中，通过主转化器比较损坏文本序列和训练文本数据，识别损坏文本序列中每个词组为原始词组或者是被替换词组（replaced token）。需要说明的是，如果辅助转化器生成的词组和原始词组一致，那么辅助转化器生成的这个词组仍然是原始词组。示例性地，请参阅图1中的（a）部分，输入文本序列ABCD，得到遮盖文本序列A[MASK][MASK]D。将遮盖文本序列A[MASK][MASK]D输入辅助转化器，辅助转化器输出损坏文本序列ABED。将坏文本序列ABED输出至主转化器，主转化器输出监督信号序列L。L为（1，1，0，1）。其中，监督信号序列中的1用于表示在对应位置上损坏文本序列中的词组与训练文本数据中的词组相同，监督信号序列中的0用于表示在对应位置上损坏文本序列中的词组与训练文本数据中的词组不同。

示例性地说明RTD预训练任务，文本数据集中的训练文本数据X可以是“小孩扁桃体一边大正常么”，对该训练文本数据进行分词，医学实体识别后，可以得到标记文本序列S“小孩”“扁桃体”“一边”“大”“正常”“么”。采用等长的[MASK]对该训练文本数据中的“大”进行掩盖，可以得到遮盖文本序列X^mask“小孩扁桃体一边[MASK]正常么”。

进一步地，将遮盖文本序列X^mask“小孩扁桃体一边[MASK]正常么”输入至辅助转化器，辅助转化器对“小孩扁桃体一边[MASK]正常么”进行预测，可以得到损坏文本序列X^corrupt“小孩扁桃体一边小正常么”。将损坏文本序列X^corrupt“小孩扁桃体一边小正常么”输入至主转化器进行替换标记检测，将损坏文本序列X^corrupt“小孩扁桃体一边小正常么”与训练文本数据X“小孩扁桃体一边大正常么”进行比较，发现损坏文本序列X^corrupt中的词组“小”于训练文本数据X中的词组“大”不同，主转化器可以输出监督信号序列L。L为（1，1，1，0，1，1）。其中，监督信号序列中的1用于表示在对应位置上损坏文本序列中的词组与训练文本数据中的词组相同，监督信号序列中的0用于表示在对应位置上损坏文本序列中的词组与训练文本数据中的词组不同。

本场景示例中，在RTD预训练任务的基础上，引入新的PAP预训练任务，将药品知识注入语言模型中，因此，利用结构化的产品数据集执行PAP预训练任务，对主转化器进行训练。PAP预训练任务的损失函数取决于产品数据集对主转化器进行训练时的损失值。根据PAP预训练任务的损失函数对主转化器的模型参数进行调整。

具体地，从药品数据库中获取药品的三元组数据，药品的三元组数据包括药品的标题（t）、属性名称（n）、对应属性取值（v）。获取药品的负采样属性取值（v'）。比如，请参阅图1中的（b）部分，药品的标题（t）可以是999感冒灵颗粒，属性名称（n）可以是症状，对应属性取值（v）可以是流鼻涕，负采样属性取值（v'）可以是胃疼。

将药品的标题（t）、属性名称（n）、对应属性取值（v）、负采样属性取值（v'）输入至主转化器，主转化器对药品的标题（t）、属性名称（n）、对应属性取值（v）、负采样属性取值（v'）进行编码，得到标题的文本表征数据（E（t））、属性名称的文本表征数据（E（n））、对应属性取值的文本表征数据（E（v））、负采样属性取值文本表征数据（E（v'））。主转化器后连接有一层全连接网络层（FNN）。对E（t）和E（n）进行特征拼接，得到E（t）⊕E（n）。利用全连接网络层对E（t）⊕E（n）进行处理，得到FNN（E（t）⊕E（n））。利用全连接网络层对E（v）进行处理，得到FNN（E（v））。利用全连接网络层对E（v'）进行处理，得到FNN（E（v'））。计算FNN（E（t）⊕E（n））与FNN（E（v'））之间的第一欧式距离，计算FNN（E（t）⊕E（n））与FNN（E（v））之间的第二欧式距离，根据第一欧式距离和第二欧式距离确定主转化器的损失值。根据该损失值调整主转化器的模型参数，使得E（t）⊕E（n）的投影靠近E（v）的投影，远离E（v'）的投影。

本场景示例中，在RTD预训练任务和PAP预训练任务之间切换，切换任务时，上一轮次RTD预训练任务中所优化的主转化器的模型参数可以用于下一轮次的PAP预训练任务，或者上一轮次PAP预训练任务中所优化的主转化器的模型参数可以用于下一轮次的RTD预训练任务。重复执行RTD预训练任务和PAP预训练任务，直至模型参数收敛或者达到最大迭代轮次后，停止模型训练。将RTD预训练任务中的主转化器或者RTD预训练任务中的主转化器作为目标语言模型。进一步地，可以将目标语言模型应用于查询标题相关性（Query-RitleRelevance，QTRel）、查询意图分类（Query Intent Classification，QIC）和查询中命名实体识别（Named Entity Recognition in Query，NERQ）等下游任务中，且目标语言模型在这些下游任务上可以实现更好的性能。

本说明书实施方式提供一种语言模型预训练系统，且本说明书提供的语言模型预训练方法应用于该语言模型预训练系统。该语言模型预训练系统可以包括服务器形成的硬件环境。其中，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。随着科学技术的发展，可能会出现一些新型计算设备，比如量子计算服务器，这些新型计算设备也可以应用于本说明书的实施方式中。

请参阅图2，本说明书实施方式提供一种语言模型预训练方法。该语言模型预训练方法可以包括以下步骤。

步骤S210：提供用于训练初始语言模型的语料集。

其中，初始语言模型包括主转化器和为主转化器提供输入文本序列的辅助转化器。辅助转化器可以理解为生成器（generator）。辅助转化器的结构可以采用转换器（transformer）的编码（encoder）结构。辅助转化器可以看做是一个小的遮盖语言模型（Maksed Language Model，MLM）。与辅助转化器连接的主转化器可以理解为判别器（discriminator），主转化器同样采用转换器（transformer）的编码（encoder）结构。主转化器接收辅助转化器的输出。主转化器和辅助转化器的尺寸（size）不同，辅助转化器的尺寸小于主转化器的尺寸。在一些实施方式中，辅助转化器可以是主转化器尺寸的四分之一。

其中，语料集包括非结构化的文本数据集和结构化的产品数据集。非结构化的文本数据集可以是上下文语义关系显著关联且没有固定数据结构的句子文本组成的训练样本集合。比如文本数据集可以是从收集到的文本提取的一句话。结构化的产品数据集可以是从电商品台数据库中提取的上下文语义关系不明显且具有特定数据结构的产品数据。比如，结构化的产品数据集可以是电子产品数据，结构化的产品数据集也可以是服装产品数据，结构化的产品数据集还可以是药品数据。

在一些情况下，用户通过终端访问电商平台，可以购买电子产品、药品、图书、服装、食品中的至少一种产品。终端向电商平台发送用户针对任意产品的搜索关键词。电商平台上部署有搜索引擎，搜索引擎上可以应用语言模型对搜索关键词进行预测，以提供与搜索关键词高度相关且满足用户搜索意图的产品。然而，一方面，由于传统技术中大多数语言模型是在通用语料库上训练的模型，比较缺乏电子商务产品知识，在搜索引擎上使用此类语言模型并不能够向用户提供满足用户搜索意图的产品。另一方面，随着电子商务的发展，在电商平台上已经产生有产品数据，可以从这些电商平台上的产品数据中提取结构化的产品数据集，因此，利用提取结构化的产品数据集进行语言模型的预训练，将电商产品知识注入到语言模型中。因此，可以从互联网站比如维基百科等中获取非结构化的文本数据集。可以从电商品台上产生的产品数据中提取结构化的产品数据集。利用非结构化的文本数据集和结构化的产品数据集组成语料集，将语料集用于训练初始语言模型。

步骤S220：基于语料集对初始语言模型进行训练得到目标语言模型。

其中，文本数据集用于训练辅助转化器和主转化器，得到第一语言模型。产品数据集用于对主转化器进行训练，得到第二语言模型。其中，目标语言模型包括第一语言模型中的主转化器或者第二语言模型中的主转化器。

具体地，由于文本数据集和产品数据集为不同结构的数据集，且初始语言模型中主转化器和辅助转化器对输入数据格式要求不同，文本数据集适配于辅助转化器对输入数据的格式要求，产品数据集适配于主转化器对输入数据的格式要求。在训练初始语言模型的不同轮次中，从语料集中随机的获取文本数据集或者产品数据集。文本数据集和产品数据集具有各自的数据类型标签，数据类型标签用于表示当前轮次所使用的训练样本数据是来自文本数据集还是来自产品数据集。

当从语料集中获取到非结构化的文本数据集时，利用文本数据集对辅助转化器和主转化器进行训练，执行RTD预训练任务，参数优化之后的辅助转化器和主转化器看作是第一语言模型。具体地，在文本数据集中的训练文本数据已经完成边界标记的情况下，对训练文本数据中的部分词组进行遮盖，当遮盖后的训练文本数据输入至辅助转化器中，辅助转化器对训练文本数据中被遮盖的部分词组进行预测。辅助转化器的输出文本序列作为主转化器的输入文本序列，主转化器将辅助转化器的输出文本序列与被遮盖之前的训练文本数据进行比较，主转化器对该输出文本序列中的每个词组进行二分类，判别该输出文本序列中的每个词组是否还是被遮盖之前的训练文本数据中的原始词组。在文本数据集中的训练文本数据是没有边界标记的情况下，首先对训练文本数据进行边界标记，然后再输入至辅助转化器中，对辅助转化器和主转化器进行训练。

当从语料集中获取到结构化的产品数据集时，利用产品数据集对初始语言模型的主转化器进行训练，执行PAP预训练任务，参数优化之后的主转化器看作是第二语言模型。具体地，从产品数据集中获取训练产品数据，将训练产品数据输入至主转化器进行预训练，使得主转化器能够学习到训练产品数据中的产品知识。

重复执行以上利用文本数据集对辅助转化器和主转化器进行训练、利用产品数据集对主转化器进行训练的步骤，直至满足模型训练的停止条件，将第一语言模型中的主转换器或者第二语言模型中的主转换器作为目标语言模型。

上述语言模型预训练方法，通过提供包括非结构化的文本数据集和结构化的产品数据集的语料集，利用文本数据集训练辅助转化器和主转化器执行RTD预训练任务，利用产品数据集训练主转化器执行PAP预训练任务。在达到模型训练的停止条件时，将主转换器作为目标语言模型，通过引入新的PAP预训练任务，不仅实现将产品知识注入到目标语言模型中，不再需要费力构建相应的产品知识图谱，而且提升目标语言模型在下游任务中的表现能力。

在一些实施方式中，该语言模型预训练方法可以包括：在第一语言模型和第二语言模型之间切换训练，且第一语言模型中的主转化器和第二语言模型中的主转化器之间共享模型参数。

具体地，若第N数据批次来自文本数据集，利用文本数据集对第一语言模型进行训练，执行RTD预训练任务，根据第一语言模型中辅助转化器的损失值和主转化器的损失值确定第一语言模型的损失值，根据第一语言模型的损失值对第一语言模型中辅助转化器和主转化器进行参数调整。

若第N+1数据批次来自产品数据集，由于第一语言模型中的主转化器和第二语言模型中的主转化器之间共享模型参数，将第N数据批次训练得到的第一语言模型中的主转化器作为第二语言模型。

利用产品数据集对第二语言模型进行训练，执行PAP预训练任务，根据第二语言模型的损失值对第二语言模型中的主转化器进行参数调整。

若第N+2数据批次来自文本数据集，由于第一语言模型中的主转化器和第二语言模型中的主转化器之间共享模型参数，第一语言模型包括第N数据批次训练得到的辅助转化器和第N+1数据批次训练得到的主转化器。利用第N+2数据批次的文本数据集对该第一语言模型进行预训练。

依次类推，在第一语言模型和第二语言模型之间切换训练，直至满足模型训练的停止条件，将第一语言模型中的主转换器或者第二语言模型中的主转换器作为目标语言模型。

本实施方式中，通过在PAP预训练任和RTD预训练任务之间切换，使得主转化器的模型参数得到共享，使得主转换器既可以学到文本数据集中知识，又可以学到产品数据集中的电商产品知识，提升语言模型在电商搜索应用场景中的语义理解能力，更好地匹配用户搜索意图。

在一些实施方式中，请参阅图3，第一语言模型的训练方式，可以包括以下步骤。

步骤S310：对文本数据集中的训练文本数据进行边界标记和遮盖，得到遮盖文本序列。

步骤S320：将遮盖文本序列输入至辅助转化器中进行被遮盖词组的预测，得到损坏文本序列。

步骤S330：将损坏文本序列输入至主转化器进行损坏文本序列中被替换词组的识别，得到监督信号序列。

其中，损坏文本序列为辅助转化器为主转化器提供的输入文本序列。监督信号序列中元素用于表示损坏文本序列与训练文本数据之间的词组是否相同。

具体地，从语料集中获取样本数据，在当前数据批次来自于文本数据集时，对文本数据集中的训练文本数据进行分词，基于分词结果标记训练文本数据中词组的边界。训练文本数据中的词组已经被标记边界，可以依据词组边界对部分词组进行完整的遮盖，得到遮盖文本序列。将遮盖文本序列输入至辅助转化器中。利用辅助转化器对被遮盖词组进行预测，通过采样得到被遮盖词组的预测结果词组，利用预测结果词组替换遮盖文本序列中的遮盖标记，得到损坏文本序列。损坏文本序列中预测结果词组可以与训练文本数据中的原始词组一致，也可以与训练文本数据中的原始词组不一致。

由于损坏文本序列为辅助转化器为主转化器提供的输入文本序列，因此将损坏文本序列输入至主转化器中。主转化器将损坏文本序列与训练文本数据进行比较，判别损坏文本序列中的各词组与训练文本数据中原始词组是否相同，识别出损坏文本序列中的被替换词组，得到监督信号序列。监督信号序列中元素用于表示损坏文本序列与训练文本数据之间的词组是否相同。比如，监督信号序列中元素包括1和0。1用于表示损坏文本序列中词组与训练文本数据中对应位置上的词组相同。0用于表示损坏文本序列中词组与训练文本数据中对应位置上的词组不同。

本实施方式中，利用数据量大的文本数据集训练初始语言模型中的辅助转化器和主转化器，通过主转化器预测辅助转化器输出的每个词组是不是原始词组的，从而高效地更新主转化器的各个参数，使得模型的熟练速度加快。

在一些实施方式中，对文本数据集中的训练文本数据进行边界标记和遮盖，得到遮盖文本序列，可以包括：对文本数据集中的训练文本数据进行中文分词和命名实体识别，得到分词结果和命名实体识别结果；根据分词结果和命名实体识别结果对训练文本数据中的词组进行边界标记，得到标记文本序列；对标记文本序列中的部分词组进行遮盖，得到遮盖文本序列。

其中，命名实体识别（NER）是指在文本中识别出特殊对象。这些对象的语义类别通常会在识别前被预定义，预定义类别如人、地址、组织等。命名实体识别不仅是独立的信息抽取任务，而且在许多NLP应用系统如信息检索、自动文本摘要、问答系统、机器翻译以及知识建库（知识图谱）中也扮演了关键的角色。

在一些情况下，针对中文自然语言处理任务，中文词组可以包括两个甚至更多字词，这些字词需要作为一个整体，而不能够被随意拆分。文本数据集中的训练文本数据可以是从中文维基百科等中文网站中获取的中文文本数据，因此，对文本数据集中的训练文本数据进行中文分词，得到对应的分词结果。可以利用一些深度学习模型（比如LSTM模型）对文本数据集中的训练文本数据进行命名实体识别，确定训练文本数据中的命名实体，命名实体也应该被看待为一个整体。根据分词结果和命名实体识别结果对训练文本数据进行边界标记，训练文本数据被划分为一系列具有边界的词组，这些词组构成标记文本序列（也可以称为文本跨度序列）。以预设百分比（比如约15%）对标记文本序列中的部分词组进行遮盖，利用与被遮盖词组等长的遮盖标记符号替换标记文本序列中的被遮盖词组，得到遮盖文本序列。

在一些实施方式中，对标记文本序列中的部分词组进行遮盖，得到遮盖文本序列，可以包括：对标记文本序列中的中文整词和/或实体词进行遮盖，得到遮盖文本序列。

在一些情况下，预训练语言模型时不会考虑中文词组和医学实体词的内部标记的内在关系，存在有的词只有部分被遮盖，降低了初始语言模型中辅助器恢复原始输入的难度，不利于学习训练文本数据内部之间长程的关联。因此，对标记文本序列中的中文整词和/或实体词进行遮盖。具体地，标记文本序列中可以包括中文整词，可以包括实体词。以预设百分比利用等长的遮盖标记（[MASK]）可以替换标记文本序列的中文整词，也可以替换标记文本序列的实体词，生成遮盖文本序列。比如，文本数据集中的训练文本数据X可以是“小孩扁桃体一边大正常么”，对该训练文本数据进行分词，医学实体识别后，可以得到标记文本序列S“小孩”“扁桃体”“一边”“大”“正常”“么”。采用等长的[MASK]对该训练文本数据中的“扁桃体”进行掩盖，可以得到遮盖文本序列X^mask“小孩[MASK]一边大正常么”。

本实施方式中，通过中文分词和命名实体识别遮盖标记文本序列中的部分词组，改进RTD预训练任务，从而使得主转换器学习到更好的上下文词表征。

在一些实施方式中，请参阅图4，第二语言模型的训练方式，可以包括以下步骤。

步骤S410：将产品数据集中的训练产品数据输入至主转化器中。

步骤S420：对训练产品数据对应的文本描述数据进行编码，得到文本描述数据对应的文本表征数据。

步骤S430：根据文本表征数据确定第二语言模型的损失值。

其中，损失值用于调整第二语言模型的模型参数。训练产品数据可以是电商平台销售电商产品所产生的数据，比如可以是电子产品的数据，且电子产品数据可以包括电子产品的标题、处理器型号、内存大小。比如可以是服装产品数据，服装产品数据可以包括服装产品的标题、面料、款式、规格。

具体地，主转化器可以由若干个编码器堆叠在一起构成，将产品数据集中的训练产品数据输入至主转化器中的编码器中。每个解码器都可以分解成两个子层，分别为自注意力（self-attention）层和接收自注意力层输出的前馈（feed-forward）神经网络。一个编码器接收向量列表作为输入，接着将向量列表中的向量传递到自注意力层进行处理，然后传递到前馈神经网络层中，将输出结果传递到下一个编码器中，以此类推，直至最后一个编码器，输出文本描述数据对应的文本表征数据。为了优化第二语言模型的模型参数，根据文本表征数据确定第二语言模型的损失值。

示例性地，产品数据集中的训练产品数据包括产品的标题（t）、属性名称（n）、对应属性取值（v）。将产品的标题（t）、属性名称（n）、对应属性取值（v）输入至主转化器，主转化器对产品的标题（t）、属性名称（n）、对应属性取值（v）进行编码，得到标题的文本表征数据（E（t））、属性名称的文本表征数据（E（n））、对应属性取值的文本表征数据（E（v））。主转化器后连接有一层全连接网络层（FNN）。对E（t）和E（n）进行特征拼接，得到E（t）⊕E（n）。利用全连接网络层对E（t）⊕E（n）进行处理，得到FNN（E（t）⊕E（n））。利用全连接网络层对E（v）进行处理，得到FNN（E（v））。计算FNN（E（t）⊕E（n））与FNN（E（v））之间的欧式距离，根据该欧式距离确定主转化器的损失值。

本实施方式中，利用结构化的产品数据集对初始语言模型中的主转化器进行训练，引入PAP预训练任务，使得主转化器学习到产品数据集中的产品知识，无需提前构造产品知识图谱，使得主转化器在产品属性预测任务上具有更佳表现。

在一些实施方式中，请参阅图5，训练产品数据包括产品的标题、属性名称、对应属性取值。根据文本表征数据确定第二语言模型的损失值，可以包括以下步骤。

步骤S510：根据标题的文本表征数据和属性名称的文本表征数据进行特征拼接，得到拼接表征数据。

具体地，产品数据集中的训练产品数据包括产品的标题（t）、属性名称（n）、对应属性取值（v）。将产品的标题（t）、属性名称（n）、对应属性取值（v）输入至主转化器，主转化器对产品的标题（t）、属性名称（n）、对应属性取值（v）进行编码，得到标题的文本表征数据（E（t））、属性名称的文本表征数据（E（n））、对应属性取值的文本表征数据（E（v））。对E（t）和E（n）进行特征拼接，得到拼接表征数据E（t）⊕E（n）。

步骤S520：获取产品的负采样属性取值的文本表征数据。

具体地，在产品数据集中针对产品的标题（t）、属性名称（n）进行负采样，得到产品的负采样属性取值（v'）。将产品的负采样属性取值与产品的标题（t）、属性名称（n）、对应属性取值（v）一起输入至主转化器中，通过主转化器对产品的负采样属性取值（v'）进行编码，得到产品的负采样属性取值的文本表征数据E（v'）。

步骤S530：确定拼接表征数据与负采样属性取值的文本表征数据之间的第一欧式距离，以及拼接表征数据与对应属性取值的文本表征数据之间的第二欧式距离。

步骤S540：根据第一欧式距离和第二欧式距离确定第二语言模型的损失值。

在一些情况下，利用非结构化的文本数据集并不能令预训练的语言模型学习到电商产品知识，因此，设置PAP预训练任务的损失函数包括两个方面：拼接表征数据与负采样属性取值的文本表征数据之间的第一欧式距离和拼接表征数据与对应属性取值的文本表征数据之间的第二欧式距离，且利用第一欧式距离和第二欧式距离设置PAP预训练任务的对比损失值。由于PAP预训练任务的对比损失值，产品属性与产品名称之间的语义关系得到明确的学习，从而可以将电子商务产品知识注入到预先训练的语言模型中。

具体地，主转化器后连接有一层全连接网络层（FNN）。利用全连接网络层对E（t）⊕E（n）进行处理，得到FNN（E（t）⊕E（n））。利用全连接网络层对E（v）进行处理，得到FNN（E（v））。利用全连接网络层对E（v'）进行处理，得到FNN（E（v'））。计算FNN（E（t）⊕E（n））与FNN（E（v'））之间的第一欧式距离，计算FNN（E（t）⊕E（n））与FNN（E（v））之间的第二欧式距离。根据第一欧式距离和第二欧式距离确定第二语言模型的损失值。可以对第一欧式距离取正，对第二欧式距离取负，使得拼接表征数据的投影距离对应属性取值的E（v）越来越近，拼接表征数据的投影距离负采样属性取值的E（v'）越来越远。

示例性地，利用如下公式计算第二欧式距离d（t，n，v）或者第一欧式距离d（t，n，v'）：

利用以下公式计算第二语言模型的损失值L_PAP：

其中，

大于0，为边界的超参数，

是sigmoid函数，v'是抽取负采样得到的属性值，k是负样本的个数。

本实施方式中，通过第二语言模型的损失值使得模型可以明确学习产品属性与产品名称之间的语义关系，从而将电子商务产品知识注入到预先训练的语言模型中。

在一些实施方式中，文本数据集包括通用领域文本和生物医学文本。产品数据集包括若干个药品的三元组数据。其中，三元组数据包括药品的标题、属性名称、属性取值。

具体地，药品的标题可以是药品在电商平台是售卖时的产品名称。药品的标题可以是“999头孢克肟片0.1g*7片/盒”，可以是“999阿奇霉素片0.25g*6片/盒”，可以是“信谊美唯宁枸橼酸莫沙必利胶囊5mg*24粒”。属性名称可以与药品所涉及的适应症或者疾病。属性名称可以是症状，也可以是疾病。属性取值可以是属性名称对应的取值。比如，属性名称为症状时，对应的属性取值为咳嗽。比如，属性名称为疾病时，对应的属性取值为高血压。

本实施方式中，将预训练的语言模型应用于药品搜索场景中，特别是查询理解和搜索相关性等应用场景中，提升药品相关文本语义理解、相关性语义匹配性能。用户在药品搜索时，可以向用户提供与用户搜索词高度相关且满足用户搜索意图的药品。

在一些实施方式中，初始语言模型的损失值取决于第一语言模型的损失值和第二语言模型损失值。其中，第一语言模型的损失值取决于辅助转化器的损失值和文本数据集对主转化器进行训练时的损失值。

示例性地，利用以下公式计算初始语言模型的损失值L：

其中，第一语言模型的损失值记为L_RTD。第二语言模型的损失值记为L_PAP。通过在第一语言模型和第二语言模型之间反复切换来训练模型参数。还可以设置超参数

，表示在每个梯度下降迭代中选择第二语言模型训练批次的概率。

利用以下公式计算第一语言模型的损失值L_RTD：

其中，x是输入文本序列；x^mask经过中文和医学实体整词遮盖后的标记序列；x^corrput是经过辅助转化器（生成器网络）生成的被破坏后的文本标记序列。p_G是辅助转化器（生成器网络）在遮盖位置生成标记的概率；p_D是主转化器（判别器网络）在所有位置判断标记是否发生替换的概率，

是平衡生成器网络和判别器网络的超参数。

本说明书实施方式还提供一种产品搜索方法。该产品搜索方法包括以下步骤：获取目标产品的搜索关键词和候选产品的标题；其中，搜索关键词与目标产品的属性名称相关；将搜索关键词和候选产品的标题输入至目标语言模型进行预测，得到搜索关键词以及候选产品的标题之间的相关数据；其中，目标语言模型是通过上述任一实施方式中所提到的语言模型预训练方法得到的。

关于应用于产品搜索方法的具体限定可以参见上文中对于语言模型预训练的限定，在此不再赘述。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

请参阅图6，本说明书实施方式提供了一种语言模型预训练装置，语言模型预训练装置包括语料集提供模块和语言模型训练模块。

语料集提供模块，用于提供用于训练初始语言模型的语料集，其中，初始语言模型包括主转化器和为主转化器提供输入文本序列的辅助转化器；其中，语料集包括非结构化的文本数据集和结构化的产品数据集。

语言模型训练模块，用于基于语料集对初始语言模型进行训练得到目标语言模型；其中，文本数据集用于训练辅助转化器和主转化器，得到第一语言模型；产品数据集用于对主转化器进行训练，得到第二语言模型；其中，目标语言模型包括第一语言模型中的主转化器或者第二语言模型中的主转化器。

关于语言模型预训练装置的具体限定可以参见上文中对于语言模型预训练方法的限定，在此不再赘述。上述语言模型预训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

请参阅图7，本说明书实施方式提供了一种产品搜索装置，产品搜索装置可以包括获取模块、预测模块和确定模块。

获取模块，用于获取目标产品的搜索关键词和候选产品的标题；其中，搜索关键词与目标产品的属性名称相关。

预测模块，用于将搜索关键词和候选产品的标题输入至语言模型进行预测，得到搜索关键词以及候选产品的标题之间的相关数据；其中，语言模型是通过上述任一实施方式中所提到的语言模型预训练方法得到的。

确定模块，用于基于相关数据，在候选产品中确定目标产品。

关于产品搜索装置的具体限定可以参见上文中对于语言模型预训练方法的限定，在此不再赘述。上述产品搜索装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一些实施方式中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种语言模型预训练方法或者产品搜索方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本说明书所公开方案相关的部分结构的框图，并不构成对本说明书所公开方案所应用于其上的计算机设备的限定，具体地，计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一些实施方式中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述实施方式中的方法步骤。

在一些实施方式中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施方式中的方法步骤。

在一些实施方式中，还提供一种计算机程序产品，所述计算机程序产品中包括指令，上述指令可由计算机设备的处理器执行时实现上述实施方式中的方法步骤。

本领域普通技术人员可以理解实现上述实施方式方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施方式的流程。其中，本说明所提供的各实施方式中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施方式的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施方式中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述仅为本说明书的较佳实施方式而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所作的任何修改、等同替换等，均应包含在本说明书的保护范围之内。

Claims

1.一种语言模型预训练方法，其特征在于，所述方法还包括：

提供用于训练初始语言模型的语料集，其中，所述初始语言模型包括主转化器和为所述主转化器提供输入文本序列的辅助转化器；所述语料集包括非结构化的文本数据集和结构化的产品数据集；

基于所述语料集对所述初始语言模型进行训练得到目标语言模型；其中，所述文本数据集用于训练所述辅助转化器和所述主转化器，得到第一语言模型；所述产品数据集用于对所述主转化器进行训练，得到第二语言模型；其中，所述目标语言模型包括所述第一语言模型中的主转化器或者所述第二语言模型中的主转化器。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述第一语言模型和所述第二语言模型之间切换训练，且所述第一语言模型中的主转化器和所述第二语言模型中的主转化器之间共享模型参数。

3.根据权利要求1所述的方法，其特征在于，所述第一语言模型的训练方式，包括：

对所述文本数据集中的训练文本数据进行边界标记和遮盖，得到遮盖文本序列；

将所述遮盖文本序列输入至所述辅助转化器中进行被遮盖词组的预测，得到损坏文本序列；其中，所述损坏文本序列为所述辅助转化器为所述主转化器提供的所述输入文本序列；

将所述损坏文本序列输入至所述主转化器进行所述损坏文本序列中被替换词组的识别，得到监督信号序列；其中，所述监督信号序列中元素用于表示所述损坏文本序列与所述训练文本数据之间的词组是否相同。

4.根据权利要求3所述的方法，其特征在于，所述对所述文本数据集中的训练文本数据进行边界标记和遮盖，得到遮盖文本序列，包括：

对所述文本数据集中的训练文本数据进行中文分词和命名实体识别，得到分词结果和命名实体识别结果；

根据所述分词结果和所述命名实体识别结果对所述训练文本数据中的词组进行边界标记，得到标记文本序列；

对所述标记文本序列中的部分词组进行遮盖，得到所述遮盖文本序列。

5.根据权利要求4所述的方法，其特征在于，所述对所述标记文本序列中的部分词组进行遮盖，得到遮盖文本序列，包括：

对所述标记文本序列中的中文整词和/或实体词进行遮盖，得到所述遮盖文本序列。

6.根据权利要求1所述的方法，其特征在于，所述第二语言模型的训练方式，包括：

将所述产品数据集中的训练产品数据输入至所述主转化器中；

对所述训练产品数据对应的文本描述数据进行编码，得到所述文本描述数据对应的文本表征数据；

根据所述文本表征数据确定所述第二语言模型的损失值；其中，所述损失值用于调整所述第二语言模型的模型参数。

7.根据权利要求6所述的方法，其特征在于，所述训练产品数据包括产品的标题、属性名称、对应属性取值；所述根据所述文本表征数据确定所述第二语言模型的损失值，包括：

根据所述标题的文本表征数据和所述属性名称的文本表征数据进行特征拼接，得到拼接表征数据；

获取所述产品的负采样属性取值的文本表征数据；

确定所述拼接表征数据与所述负采样属性取值的文本表征数据之间的第一欧式距离，以及所述拼接表征数据与所述对应属性取值的文本表征数据之间的第二欧式距离；

根据所述第一欧式距离和所述第二欧式距离确定所述第二语言模型的损失值。

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述文本数据集包括通用领域文本和生物医学文本；所述产品数据集包括若干个药品的三元组数据；其中，所述三元组数据包括所述药品的标题、属性名称、属性取值。

9.根据权利要求1至7中任一项所述的方法，其特征在于，所述初始语言模型的损失值取决于所述第一语言模型的损失值和所述第二语言模型损失值；其中，所述第一语言模型的损失值取决于所述辅助转化器的损失值和所述文本数据集对所述主转化器进行训练时的损失值。

10.一种产品搜索方法，其特征在于，所述方法还包括：

获取目标产品的搜索关键词和候选产品的标题；其中，所述搜索关键词与所述目标产品的属性名称相关；

将所述搜索关键词和所述候选产品的标题输入至目标语言模型进行预测，得到所述搜索关键词以及所述候选产品的标题之间的相关数据；其中，所述目标语言模型是通过权利要求1至9中任一项所述的语言模型预训练方法得到的；

基于所述相关数据，在所述候选产品中确定所述目标产品。

11.一种语言模型预训练装置，其特征在于，所述装置包括：

语料集提供模块，用于提供用于训练初始语言模型的语料集，其中，所述初始语言模型包括主转化器和为所述主转化器提供输入文本序列的辅助转化器；其中，所述语料集包括非结构化的文本数据集和结构化的产品数据集；

语言模型训练模块，用于基于所述语料集对所述初始语言模型进行训练得到目标语言模型；其中，所述文本数据集用于训练所述辅助转化器和所述主转化器，得到第一语言模型；所述产品数据集用于对所述主转化器进行训练，得到第二语言模型；其中，所述目标语言模型包括所述第一语言模型中的主转化器或者所述第二语言模型中的主转化器。

12.一种产品搜索装置，其特征在于，所述装置包括：

获取模块，用于获取目标产品的搜索关键词和候选产品的标题；其中，所述搜索关键词与所述目标产品的属性名称相关；

预测模块，用于将所述搜索关键词和所述候选产品的标题输入至目标语言模型进行预测，得到所述搜索关键词以及所述候选产品的标题之间的相关数据；其中，所述目标语言模型是通过权利要求1至9中任一项所述的语言模型预训练方法得到的；

确定模块，用于基于所述相关数据，在所述候选产品中确定所述目标产品。

13.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。