CN111401077B

CN111401077B - 语言模型的处理方法、装置和计算机设备

Info

Publication number: CN111401077B
Application number: CN202010487518.8A
Authority: CN
Inventors: 黄展鹏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-06-02
Filing date: 2020-06-02
Publication date: 2020-09-18
Anticipated expiration: 2040-06-02
Also published as: CN111401077A

Abstract

本申请涉及一种语言模型的处理方法、装置、计算机设备和存储介质。所述方法包括：获取语句样本；对所述语句样本进行分词，得到样本分词序列；将所述样本分词序列输入至预训练语言模型中；通过所述预训练语言模型中依次连接的多个处理层处理所述样本分词序列，获得每个处理层对应的第一层处理结果，所述依次连接的多个处理层分别输出的第一层处理结果，分别是不同级别的语言表示；基于处理层所对应的语言表示，对相应的第一层处理结果进行特征增强处理，得到所述处理层对应的第二层处理结果；根据第二层处理结果调整所述预训练语言模型，并继续训练，直至获得训练完成的语言模型。采用本申请的方法能够提高训练完成的语言模型的识别准确性。

Description

语言模型的处理方法、装置和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种语言模型训练方法、装置、和计算机设备。

背景技术

自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。例如，在对医疗相关语句的处理过程中，传统的自然语言处理方式不能很好地了解医疗意图。即，目前的语言模型的处理方法，存在训练完成的语言模型的识别准确率不高的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高语言模型识别准确率的语言模型的处理方法、装置、计算机设备和存储介质。

一种语言模型的处理方法，所述方法包括：

获取语句样本；

对所述语句样本进行分词，得到样本分词序列；

将所述样本分词序列输入至预训练语言模型中；

通过所述预训练语言模型中依次连接的多个处理层处理所述样本分词序列，获得每个处理层对应的第一层处理结果，所述依次连接的多个处理层分别输出的第一层处理结果，分别是不同级别的语言表示；

基于每个所述处理层所对应的语言表示，对所述第一层处理结果进行特征增强处理，得到每个所述处理层对应的第二层处理结果；

根据所述第二层处理结果调整所述预训练语言模型，并继续训练，直至获得训练完成的语言模型。

在其中一个实施例中，所述语句样本包括搜索语句样本和对应的搜索结果样本；

所述对所述语句样本进行分词，得到样本分词序列，包括：

将所述搜索语句样本和对应的搜索结果样本拼接，获得拼接语句；

对所述拼接语句进行分词，得到样本分词序列；

所述方法还包括：

获取搜索语句；

将所述搜索语句和搜索结果集中每个搜索结果分别拼接并分词，输入训练完成的语言模型，输出所述搜索语句和每个搜索结果的相似度；

按照相似度筛选符合相似度条件的搜索结果并输出。

在其中一个实施例中，在所述获取搜索语句之后，所述方法还包括：

在搜索结果库中，搜索与所述搜索语句相匹配的预设数量的搜索结果，构成搜索结果集；

所述按照相似度筛选符合相似度条件的搜索结果并输出，包括：

将所述搜索结果集中的搜索结果按照相似度降序排序并输出。

一种语句处理方法，所述方法包括：

获取语句；

对所述语句进行分词，得到分词序列；

将所述分词序列输入至语言模型中；

通过所述语言模型中依次连接的多个处理层处理所述分词序列，获得每个处理层对应的第一层处理结果，所述依次连接的多个处理层分别输出的第一层处理结果，分别是不同级别的语言表示；

基于处理层所对应的语言表示，对相应的第一层处理结果进行特征增强处理，得到所述处理层对应的第二层处理结果；

根据第二层处理结果确定所述语句的类别预测概率；

基于所述类别预测概率确定所述语句的类别。

一种语句搜索方法，所述方法包括：

获取搜索语句；

将所述搜索语句和搜索结果集中每个搜索结果分别拼接，将拼接后的拼接语句进行分词得到拼接序列，并将所述拼接序列输入语言模型；

通过所述语言模型中依次连接的多个处理层处理所述拼接序列，获得每个处理层对应的第一层处理结果，所述依次连接的多个处理层分别输出的第一层处理结果，分别是不同级别的语言表示；

基于处理层所对应的语言表示，对相应的第一层处理结果进行特征增强处理，得到所述处理层对应的第二层处理结果；根据每个拼接语句对应的第二层处理结果，分别确定所述搜索语句和搜索结果集中每个搜索结果之间的相似度；

按照相似度筛选符合相似度条件的搜索结果并输出。

一种语言模型的处理装置，所述装置包括：

样本获取模块，用于获取语句样本；

样本分词模块，用于对所述语句样本进行分词，得到样本分词序列；

样本分词序列输入模块，用于将所述样本分词序列输入至预训练语言模型中；

层处理模块，用于通过所述预训练语言模型中依次连接的多个处理层处理所述样本分词序列，获得每个处理层对应的层处理结果；

特征增强模块，用于基于处理层所对应的语言表示，对相应的第一层处理结果进行特征增强处理，得到所述处理层对应的第二层处理结果；

调整模块，用于根据第二层处理结果调整所述预训练语言模型，并继续训练，直至获得训练完成的语言模型。

在其中一个实施例中，所述层处理模块用于基于处理层所对应的语言表示，获取与所述语言表示对应的语言特征；所述不同级别的语言表示包括表面级别、短语级别、句法级别、语义级别的语言表示中至少一种；将所述处理层的所述语言特征与所述第一层处理结果进行融合，得到第二层处理结果。

在其中一个实施例中，所述层处理模块用于对所述语句样本进行一元分词，得到一元样本分词序列；当所述处理层所对应的语言表示为表面级别的语言表示时，获取二元样本分词序列、三元样本分词序列中至少一种；所述二元样本分词序列是对所述语句样本进行二元分词得到的；所述三元样本分词序列是对所述语句样本进行三元分词得到的。所述特征增强模块用于将所述处理层的所述二元样本分词序列、所述三元样本分词序列中至少一种与所述第一层处理结果进行融合，得到第二层处理结果。

在其中一个实施例中，所述层处理模块用于当所述处理层的语言表示为短语级别的语言表示时，获取样本词嵌入向量、样本关系向量表示中至少一种；所述样本词嵌入向量是对所述语句样本分词后再进行向量转换得到的；所述样本关系向量表示是对所述语句样本进行命名实体识别，得到样本命名实体，并将所述样本命名实体输入至知识图谱向量表示模型中得到的。所述特征增强模块用于将所述处理层的样本词嵌入向量、样本关系向量表示中至少一种与所述第一层处理结果进行融合，得到第二层处理结果。

在其中一个实施例中，所述层处理模块用于当所述处理层的语言表示为句法级别的语言表示时，获取所述语句样本对应的样本句法分析向量、样本词性特征向量中至少一种；所述样本句法分析向量是对所述语句样本进行句法分析得到的；所述样本词性特征向量是对所述语句样本进行词性分析得到的。所述特征增强模块用于将所述处理层的所述样本句法分析向量、样本词性特征向量中至少一种与所述第一层处理结果进行融合，得到第二层处理结果。

在其中一个实施例中，所述层处理模块用于当所述处理层的语言表示为语义级别的语言表示时，对所述语句样本进行向量转换，获得所述语句样本对应的语句样本嵌入向量。所述特征增强模块用于将所述语句样本嵌入向量和所述第一层处理结果进行融合，得到第二层处理结果。

在其中一个实施例中，所述层处理模块用于将每个处理层的层权重进行归一化处理，得到每一处理层的归一化权重；按照每个处理层的归一化权重，将每个处理层对应的层处理结果进行加权求和，得到融合结果。

在其中一个实施例中，调整模块用于根据所述融合结果确定相应的类别预测概率；获取所述语句样本对应的标注值；根据所述类别预测概率与所述标注值确定损失值；将所述损失值在所述预训练语言模型中的每一处理层进行反向传播，以调整所述预训练语言模型的模型参数，所述模型参数包括所述层权重。

在其中一个实施例中，所述融合结果为融合矩阵；所述模型参数包括所述预训练语言模型中权重层中的权重矩阵；所述调整模块还用于将所述融合结果输入所述预训练语言模型中的权重层；通过所述权重层中的权重矩阵，对所述融合矩阵进行加权处理，获得类别预测概率向量。

在其中一个实施例中，所述语句样本包括搜索语句样本和对应的搜索结果样本；所述样本分词模块用于将所述搜索语句样本和对应的搜索结果样本拼接，获得拼接语句；对所述拼接语句进行分词，得到样本分词序列。所述语言模型的处理装置还包括搜索语句获取模块、相似度确定模块和输出模块；所述搜索语句获取模块用于获取搜索语句；所述相似度确定模块用于将所述搜索语句和搜索结果集中每个搜索结果分别拼接并分词，输入训练完成的语言模型，输出所述搜索语句和每个搜索结果的相似度；所述输出模块用于按照相似度筛选符合相似度条件的搜索结果并输出。

在其中一个实施例中，所述语言模型的处理装置还包括搜索模块；所述搜索模块用于在搜索结果库中，搜索与所述搜索语句相匹配的预设数量的搜索结果，构成搜索结果集；所述输出模块用于将所述搜索结果集中的搜索结果按照相似度降序排序并输出。

一种语句处理装置，所述装置包括：

获取模块，用于获取语句；

分词模块，用于对所述语句进行分词，得到分词序列；

序列输入模块，用于将所述分词序列输入至语言模型中；

层处理模块，用于通过所述语言模型中依次连接的多个处理层处理所述分词序列，获得每个处理层对应的第一层处理结果，所述依次连接的多个处理层分别输出的第一层处理结果，分别是不同级别的语言表示；

确定模块，用于根据第二层处理结果确定所述语句的类别预测概率；

所述确定模块，还用于基于所述类别预测概率确定所述语句的类别。

在其中一个实施例中，所述确定模块用于将所述融合结果输入所述预训练语言模型中的权重层；通过所述权重层中的权重矩阵，对所述融合矩阵进行加权处理，获得类别预测概率向量。

一种语句搜索装置，所述装置包括：

搜索语句获取模块，用于获取搜索语句；

拼接序列输入模块，用于将所述搜索语句和搜索结果集中每个搜索结果分别拼接，将拼接后的拼接语句进行分词得到拼接序列，并将所述拼接序列输入语言模型；

层处理模块，用于通过所述语言模型中依次连接的多个处理层处理所述拼接序列，获得每个处理层对应的第一层处理结果，所述依次连接的多个处理层分别输出的第一层处理结果，分别是不同级别的语言表示

相似度确定模块，用于根据每个拼接语句对应的第二层处理结果，分别确定所述搜索语句和搜索结果集中每个搜索结果之间的相似度；

输出模块，用于按照相似度筛选符合相似度条件的搜索结果并输出。

在其中一个实施例中，所述语句搜索装置还包括搜索模块；所述搜索模块用于在搜索结果库中，搜索与所述搜索语句相匹配的预设数量的搜索结果，构成搜索结果集；所述输出模块用于将所述搜索结果集中的搜索结果按照相似度降序排序并输出。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取语句样本；

对所述语句样本进行分词，得到样本分词序列；

将所述样本分词序列输入至预训练语言模型中；

根据第二层处理结果调整所述预训练语言模型，并继续训练，直至获得训练完成的语言模型。

获取语句；

对所述语句进行分词，得到分词序列；

将所述分词序列输入至语言模型中；

根据第二层处理结果确定所述语句的类别预测概率；

基于所述类别预测概率确定所述语句的类别。

获取搜索语句；

根据每个拼接语句对应的第二层处理结果，分别确定所述搜索语句和搜索结果集中每个搜索结果之间的相似度；

按照相似度筛选符合相似度条件的搜索结果并输出。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取语句样本；

对所述语句样本进行分词，得到样本分词序列；

将所述样本分词序列输入至预训练语言模型中；

获取语句；

对所述语句进行分词，得到分词序列；

将所述分词序列输入至语言模型中；

根据第二层处理结果确定所述语句的类别预测概率；

基于所述类别预测概率确定所述语句的类别。

获取搜索语句；

按照相似度筛选符合相似度条件的搜索结果并输出。

上述语言模型的处理方法、装置、计算机设备和存储介质，获取语句样本，对语句样本进行向量转换，得到样本分词序列，将样本分词序列输入至预训练语言模型中，通过预训练语言模型中依次连接的多个处理层处理样本分词序列，获得每个处理层对应的第一层处理结果，且不同的第一层处理结果有不同级别的语言表示，再基于处理层所对应的语言表示，对相应的第一层处理结果进行特征增强处理，得到特征增强处理后的第二层处理结果，再根据第二层处理结果调整预训练语言模型，直至获得训练完成的语言模型，能够依据处理层所反映的不同语言表示，提取到增强的相应语言表示特征，提高训练完成的语言模型的识别准确率。

附图说明

图1为一个实施例中语言模型的处理方法的流程示意图；

图2为一个实施例中加权融合的示意图；

图3为一个实施例中变换器模块的架构示意图；

图4为一个实施例中BERT模型的传输示意图；

图5为另一个实施例中BERT模型的传输示意图；

图6为一个实施例中训练完成的模型的结构示意图；

图7为一个实施例中语句处理方法的流程示意图；

图8为一个实施例中语句搜索方法的流程示意图；

图9为一个实施例中搜索界面入口的示意图；

图10为一个实施例中搜索界面的示意图；

图11为一个实施例中语言模型的处理装置的结构框图；

图12为一个实施例中语句处理装置的结构框图；

图13为一个实施例中语句搜索装置的结构框图；

图14为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种语言模型的处理方法。该方法可通过模型训练程序实现。本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。如图1所示，提供了一种语言模型的处理方法，以该方法应用于服务器为例进行说明，包括以下步骤：

步骤102，获取语句样本。

其中，语句样本用于微调预训练语言模型。语句样本例如可以是搜索语句样本、待识别语句样本、问答语句样本、待翻译语句样本等不限于此。具体地，搜索语句样本、待识别语句样本、问答语句样本和待翻译语句样本均可以是用于搜索医疗相关信息的语句样本，例如“新型冠状病毒自查”、“医保报销”等。语句样本的数量不限。微调是指在已训练好的语言模型的基础上再进行调整。通过微调的方式能够大大降低语言模型的训练时长。

步骤104，对语句样本进行分词，得到样本分词序列。

具体地，服务器可采用BPE分词、结巴分词等方式，对语句样本进行分词，得到样本分词序列。例如，“其实冠状病毒是个啥”的得到的样本分词序列就是“其实冠状病毒是个啥”。

步骤106，将样本分词序列输入至预训练语言模型中。

其中，预训练语言模型是指包含了预训练模型参数值的模型。而该预训练模型参数值不是随机的，而是通过其他类似的语句样本集中学习得到的。例如，本实施例中的语句样本是医疗相关的语句样本，预训练语言模型也可以是通过医疗相关的语句样本预训练而成的。

步骤108，通过预训练语言模型中依次连接的多个处理层处理样本分词序列，获得每个处理层对应的第一层处理结果，依次连接的多个处理层分别输出的第一层处理结果，分别是不同级别的语言表示。

其中，预训练语言模型可以是BERT（Bidirectional Encoder Representationsfrom Transformers, 双向编码器表征量）模型、LSTM（Long Short-Term Memory，长短时记忆网络）模型等不限于此。其中，BERT模型中的处理层可以是transformer模块，也可以是transformer-XL模块或Reformer模块。层处理结果的表现形式可以是一个层处理矩阵。BERT模型是采用Transformer的编码器，使用了Masked LM（Masked Language Model，遮蔽语言模型）和Next Sentence Prediction（下一句预测）两种方法分别捕捉词语和句子级别的representation（表示）。层处理结果可用于表示该语句样本的表面级别的、短语级别的、句法级别的、语义级别的语言表示中至少一种。依照连接的次序，各成梳理结果的语义级别逐渐提高。具体地，以BERT模型为例，BERT模型中包括12个处理层，其中12个处理层依次连接，即第一层与第二层相连、第二层与第三层相连……第十一层与第十二层相连。样本分词序列先输入第一层中，第一层会得到一个层处理结果；再经过第二层，而经过第一层和第二层的样本分词序列也会从第二层输出，得到一个层处理结果……以此类推，得到12个处理层中每个处理层对应的层处理结果。那么对于一个L层的BERT模型，一共有L个[CLS]的层处理结果：

C_j={C_j | j=1，…，L}，其中j表示层数，Cj表示第j层的第一层处理结果。

步骤110，基于处理层所对应的语言表示，对相应的第一层处理结果进行特征增强处理，得到处理层对应的第二层处理结果。

其中，不同处理层属于不同级别的语言表示，特征提取的重点也不相同。例如，表面级别的语言表示，应当提取与字面意思相关的特征。短语级别的语言表示，应当提取与短语相关的特征等。第一层处理结果为通过预训练语言模型中处理层直接输出的层处理结果。第二层处理结果为对第一层处理结果进行特征增强后得到的层处理结果。

具体地，基于预训练语言模型中的某一处理层所对应的语言表示，服务器对与该处理层相应的第一层处理结果进行特征增强处理，得到该处理层对应的第二层处理结果。特征增强方式可以是在第一层处理结果的基础上增加与该处理层的语言表示相关的语言特征。

例如，第一处理层、第二处理层和第三处理层分别输出的第一层处理结果均为表面级别的语言表示。那么，通过预训练语言模型的第一处理层处理样本序列，得到第一处理层的第一层处理结果C₁。服务器对C₁进行特征增强处理，得到第一处理层对应的第二层处理结果C₁’。将C₁’输入预训练语言模型中的第二处理层，得到第二处理层对应的第一层处理结果C₂。服务器对C₂进行特征增强处理得到第二处理层对应的第二处理结果C₂’…。直至得到预训练语言模型中最后一个处理层所对应的第二层处理结果。

本实施例中，基于每个处理层所对应的语言表示，对相应的第一层处理结果进行特征增强处理，得到每个处理层对应的第二层处理结果。则能够对预训练语言模型中每个处理层的输出结果进行特征增强，增加获得的特征，提高语言模型的识别准确率。

步骤112，根据第二层处理结果调整预训练语言模型，并继续训练，直至获得训练完成的语言模型。

具体地，服务器根据第二层处理结果调整预训练语言模型中的模型参数，并继续训练，直到达到训练停止条件，获得训练完成的语言模型。训练停止条件可以是损失值达到最小值、训练次数达到预设次数等不限于此。

本实施例中，服务器可根据该预训练语言模型中最后一个处理层所得到的第二层处理结果调整预训练语言模型，并继续训练，直至获得训练完成的语言模型。

上述语言模型的处理方法，获取语句样本，对语句样本进行向量转换，得到样本分词序列，将样本分词序列输入至预训练语言模型中，通过预训练语言模型中依次连接的多个处理层处理样本分词序列，获得每个处理层对应的第一层处理结果，且不同的第一层处理结果有不同级别的语言表示，再基于处理层所对应的语言表示，对相应的第一层处理结果进行特征增强处理，得到特征增强处理后的第二层处理结果，再根据第二层处理结果调整预训练语言模型，直至获得训练完成的语言模型，能够依据处理层所反映的不同语言表示，提取到增强的相应语言表示特征，提高训练完成的语言模型的识别准确率。

在一个实施例中，基于处理层所对应的语言表示，对相应的第一层处理结果进行特征增强处理，得到处理层对应的第二层处理结果，包括：基于处理层所对应的语言表示，获取与语言表示对应的语言特征；不同级别的语言表示包括表面级别、短语级别、句法级别、语义级别的语言表示中至少一种；将处理层的语言特征与第一层处理结果进行融合，得到第二层处理结果。

其中，不同级别的语言表示可以包括表面级别、短语级别、句法级别、语义级别中至少一种。表面级别是指字的表示意思。例如“中”的意思。短语级别是指词的表示意思。例如“中文”的意思。句法级别是指句子语法的表示意思。例如“翻译成中文”这个句子的语法信息。语义级别是指句子的整体语义表示。预训练语言模型在预训练过程中不同的处理层能够学习到不同的语言表示信息，从模型的浅层到高层分别能学习到表面级别的、短语级别的、句法级别的和语义级别的信息。例如，模型的第一层学到的更多的是表面级别的、短语级别的而不是语义级别，最后一层学到的更多的是句法级别的和语义级别的而不是表面级别的、短语级别，但不是明确学不到，只是一个程度大小的区别。

具体地，基于处理层所对应的语言表示，服务器获取与语言表示对应的语言特征。语言特征是将语句进行特征提取得到的，不同的语言表示所对应的语言特征不完全相同。服务器基于处理层所对应的语言表示，获取与该语言表示对应的语言特征。例如，该处理层所对应的语言表示为表面级别的语言表示时，获取与表面级别相关的语言特征。预训练语言模型中依次连接的多个处理层输出的第一层处理结果，可以包括表面级别、短语级别、句法级别、语言级别的语言表示中至少一种。服务器将该处理层的语言特征与相应的第一层处理结果进行融合，得到第二层处理结果。

上述语言模型的处理方法，基于处理层所对应的语言表示，获取与语言表示对应的语言特征，不同级别的语言表示包括表面级别、短语级别、句法级别、语义级别的语言表示中至少一种，将处理层的语言特征与第一层处理结果进行融合，得到第二层处理结果，能够提取到更多的与该层的语言表示相关的语言特征，提高训练完成的语言模型的识别准确率。

在一个实施例中，对语句样本进行分词，得到样本分词序列，包括：对语句样本进行一元分词，得到一元样本分词序列；基于每个处理层所对应的语言表示，获取与语言表示对应的语言特征，包括：当处理层所对应的语言表示为表面级别的语言表示时，获取二元样本分词序列、三元样本分词序列中至少一种；二元样本分词序列是对语句样本进行二元分词得到的；三元样本分词序列是对语句样本进行三元分词得到的。

将处理层的语言特征与第一层处理结果进行融合，得到第二层处理结果，包括：将处理层的二元样本分词序列、三元样本分词序列中至少一种与第一层处理结果进行融合，得到第二层处理结果。

其中，一元分词（unigram）是指按照一个字对语句样本进行分词。那么一元样本分词序列可以是，新/冠/病/毒/是/个/啥。二元分词（bigram）是指按照两个字对语句样本进行分词。那么二元样本分词序列可以是，新冠/冠病/病毒/毒是/是个/个啥。三元分词（trigram）是指按照三个字对语句样本进行分词。那么三元样本分词序列可以是，新冠病/冠病毒/病毒是/毒是个/是个啥。

具体地，服务器对语句样本进行一元分词，得到一元样本分词序列，将一元样本分词序列输入至预训练语言模型中。表面级别的语言表示的着重点在于字面意思，因此可在表面级别对应的处理层增加二元样本分词序列、三元样本分词序列中至少一种语言特征，用于预训练语言模型的微调。当处理层所对应的语言表示为表面级别的语言表示时，获取二元样本分词序列、三元样本分词序列中至少一种，将二元样本分词序列、三元样本分词序列中至少一种与第一层处理结果进行融合，得到第二层处理结果。例如，服务器可将二元样本分词序列、三元样本分词序列中至少一种与第一层处理结果相加，得到第二层处理结果。例如公式可如下：

C_j’=C_j+C_bigram+C_trigram

或者，C_j’=C_j+C_bigram

或者，C_j’=C_j+ C_trigram

其中，C_j’表示第二层处理结果，C_j表示第一层处理结果，C_bigram表示二元样本分词序列，C_trigram表示三元样本分词序列。可依据上述式子进行适当变形，例如对第一层处理结果、二元样本分析序列、三元样本分词序列中至少一种增加权重等不限于此。

本实施例中，表面级别所对应的处理层具体可以是预训练语言模型的前3层。通过预训练语言模型的第一处理层处理样本序列，得到第一处理层的第一层处理结果C₁。服务器依照上述公式中的一个对C₁进行特征增强处理，得到第一处理层对应的第二层处理结果C₁’。将C₁’输入预训练语言模型中的第二处理层，得到第二处理层对应的第一层处理结果C₂。服务器依照上述公式中的一个对C₂进行特征增强处理得到第二处理层对应的第二处理结果C₂’。将C₂’输入预训练语言模型中的第三处理层，得到第三处理层对应的第一层处理结果C₃。服务器依照上述公式中的一个对C₃进行特征增强处理，得到第三处理层对应的第二处理结果C₃’。

上述语言模型的处理方法，对语句样本进行一元分词，得到一元样本分词序列，当处理层所对应的语言表示为表面级别的语言表示时，将处理层的二元样本分词序列、三元样本分词序列中至少一种与第一层处理结果进行融合，得到第二层处理结果，能够增加表面级别的语言特征，提到预训练语言模型中表面级别的处理层的特征丰富度，从而提高训练完成的语言模型的识别准确率。

在一个实施例中，基于每个处理层所对应的语言表示，获取与语言表示对应的语言特征，包括：当处理层的语言表示为短语级别的语言表示时，获取样本词嵌入向量、样本关系向量表示中至少一种；样本词嵌入向量是对语句样本进行分词后再进行向量转换得到的；样本关系向量表示是对语句样本进行命名实体识别，得到样本命名实体，并将样本命名实体输入至知识图谱向量表示模型中得到的。

将处理层的语言特征与第一层处理结果进行融合，得到第二层处理结果，包括：将处理层的样本词嵌入向量、样本关系向量表示中至少一种与第一层处理结果进行融合，得到第二层处理结果。

其中，样本词嵌入向量是对语言样本分词后再进行向量转换得到的。命名实体(named entity)包括人名、机构名、地名以及其他所有以名称为标识的实体但不限于此。例如，深圳为一个命名实体。知识图谱向量表示模型具体可以是transR模型等不选于此。知识图谱向量表示模型可用于表示各命名实体之间的关系。

具体地，由于短语级别的处理层更侧重于词的表示意思。因此服务器对语句样本进行分词后对词语进行向量转换，得到样本词嵌入向量。向量转换的具体方式可以是word2vec等不限于此。服务器对语句样本进行命名实体识别，得到样本命名实体。服务器将样本命名实体输入至知识图谱向量表示模型中，得到样本关系向量表示。服务器将处理层的样本词嵌入向量、样本关系向量表示中至少一种与第一层处理结果进行融合，得到第二层处理结果。公式如下：

C_j’=C_j+C_word2vec+C_transR

或者，C_j’=C_j+ C_word2vec

或者，C_j’=C_j+ C_transR

C_j’表示第二层处理结果，C_j表示第一层处理结果，C_word2vec表示语句样本嵌入向量，C_transR表示样本关系向量表示。可依据上述式子进行适当变形，例如对第一层处理结果、语句样本嵌入向量、样本关系向量表示中至少一种增加权重等不限于此。

本实施例中，当语句样本中未检测到命名实体时，则不输入至知识图谱向量表示模型中。

本实施例中，短语级别所对应的处理层具体可以是预训练语言模型的在表面级别对应的处理层后的相邻的3层。通过预训练语言模型的第四处理层处理样本序列，得到第四处理层的第一层处理结果C₄。服务器依照上述公式中的一个对C₄进行特征增强处理，得到第四处理层对应的第二层处理结果C₄’。将C₄’输入预训练语言模型中的第五处理层，得到第五处理层对应的第一层处理结果C₅。服务器依照上述公式中的一个对C₅进行特征增强处理得到第五处理层对应的第五处理结果C₅’。将C₅’输入预训练语言模型中的第六处理层，得到第六处理层对应的第一层处理结果C₆。服务器依照上述公式中的一个公式对C₆进行特征增强处理得到第六处理层对应的第二层处理结果C₆’。

上述语言模型的处理方法，当处理层的语言表示为短语级别的语言表示时，将该处理层的样本词嵌入向量、样本关系向量表示中至少一种与第一层处理结果进行融合，能够增加短语级别的语言特征，提高预训练语言模型中短语级别的处理层的特征丰富度，从而提高训练完成的语言模型的识别准确率。

在一个实施例中，基于每个处理层所对应的语言表示，获取与语言表示对应的语言特征，包括：当处理层的语言表示为句法级别的语言表示时，获取语句样本对应的样本句法分析向量、样本词性特征向量中至少一种；样本句法分析向量是对语句样本进行句法分析得到的；样本词性特征向量是对语句样本进行词性分析得到的。

将处理层的语言特征与第一层处理结果进行融合，得到第二层处理结果，包括：将处理层的样本句法分析向量、样本词性特征向量中至少一种与第一层处理结果进行融合，得到第二层处理结果。

其中，句法级别的语言表示更侧重于句子的语法、句子中各词的词性等不限于此。句法分析可用于分析句子的语法，确定句子的语法结构。例如“我爱你”，进行句法分析后，可得“我”是主语，“爱”是谓语，“你”是宾语。词性分析即分析句子中的词语的词性。例如，“我”是名词，“爱”是动词，“你”是名词。

具体地，当处理层的语言表示为句法级别的语言表示时，服务器对语句样本进行句法分析得到样本句法分析向量。服务器对语句样本进行词性分析，得到样本词性特征向量。服务器获取样本句法分析向量、样本词性特征向量中至少一种，与第一层处理结果进行融合，得到第二层处理结果。公式如下：

C_j’=C_j+C_句法+C_词性

或者，C_j’=C_j+ C_句法

或者，C_j’=C_j+ C_词性

其中，C_j’表示第二层处理结果，C_j表示第一层处理结果，C_句法表示样本句法分析向量，C_词性表示样本词性特征向量。可依据上述式子进行适当变形，例如对第一层处理结果、样本句法分析向量、样本词性特征向量中至少一种增加权重等不限于此。

本实施例中，句法级别所对应的处理层具体可以是预训练语言模型的在短语级别对应的处理层后的相邻的3层。通过预训练语言模型的第七处理层处理样本序列，得到第七处理层的第一层处理结果C₇。服务器依照上述公式中的一个对C₇进行特征增强处理，得到第七处理层对应的第二层处理结果C₇’。将C₇’输入预训练语言模型中的第八处理层，得到第八处理层对应的第一层处理结果C₈。服务器依照上述公式中的一个对C₈进行特征增强处理得到第八处理层对应的第八处理结果C₈’。将C₈’输入预训练语言模型中的第九处理层，得到第九处理层对应的第一层处理结果C₉。服务器依照上述公式中的一个公式对C₉进行特征增强处理得到第九处理层对应的第二层处理结果C₉’。

上述语言模型的处理方法，当处理层的语言标识为句法级别的语言表示时，将样本句法分析向量、样本词性特征向量中至少一种与第一层处理结果进行融合，能够增加句法级别的语言特征，提到预训练语言模型中句法级别的处理层的特征丰富度，从而提高训练完成的语言模型的识别准确率。

在一个实施例中，基于每个处理层所对应的语言表示，获取与语言表示对应的语言特征，包括：当处理层的语言表示为语义级别的语言表示时，对语句样本进行向量转换，获得语句样本对应的语句样本嵌入向量。

将处理层的语言特征与第一层处理结果进行融合，得到第二层处理结果，包括：将语句样本嵌入向量和第一层处理结果进行融合，得到第二层处理结果。

其中，语义级别是指句子的整体语义表示。语义级别的处理层更侧重于对整个句子的特征提取。语句样本嵌入向量是对语句样本进行向量转化得到的。具体可以使用doc2vec的方式，doc2vec的目的是创建句子或者文档等的向量化表示。

具体地，当处理层的语言表为语义级别的语言表示时，对样本语句进行向量转换，获得样本语句对应的语句样本嵌入向量。服务器将语句样本嵌入向量和第一层处理结果进行融合，得到第二层处理结果。公式如下：

C_j’=C_j+C_doc2vec

其中，C_j’表示第二层处理结果，C_j表示第一层处理结果，C_doc2vec表示语句样本嵌入向量。

本实施例中，语义级别所对应的处理层具体可以是预训练语言模型的在句法级别对应的处理层后的相邻的3层。通过预训练语言模型的第十处理层处理样本序列，得到第十处理层的第一层处理结果C₁₀。服务器依照上述公式中的一个对C₁₀进行特征增强处理，得到第十处理层对应的第二层处理结果C₁₀’。将C₁₀’输入预训练语言模型中的第十一处理层，得到第十一处理层对应的第一层处理结果C₁₁。服务器依照上述公式中的一个对C₁₁进行特征增强处理得到第十一处理层对应的第十一处理结果C₁₁’。将C₁₁’输入预训练语言模型中的第十二处理层，得到第十二处理层对应的第一层处理结果C₁₂。服务器依照上述公式中的一个公式对C₁₂进行特征增强处理得到第十二处理层对应的第二层处理结果C₁₂’。

上述语言模型的处理方法，当处理层的语言标识为语义级别的语言表示时，将语句样本嵌入向量与第一层处理结果进行融合，能够增加语义级别的语言特征，提到预训练语言模型中语义级别的处理层的特征丰富度，从而提高训练完成的语言模型的识别准确率。

自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。在预训练语言模型进行下游任务的微调过程中，常见的做法只采用最后一层的输入句子语言表示，然后再根据不同的训练任务设计损失函数进行训练。例如，基于大多预训练语言模型的每一处理层都能学习到输入语句的不同的语言表示，但通常只采用最后一个处理层的语言表示。只采用最后一个处理层的语言表示会损失预训练语言模型在其他处理层获取得到的语言表示。那么，在不同的自然语言处理任务中，例如句法依存分析，只使用句子的语义表示是难以获得较好的效果，因为该任务更应该关注句子的句法表示。

本申请针对这些情况，提出了基于端到端加权融合多层预训练语言模型的微调任务方法，能有效融合预训练语言模型的所有的处理层的语言表示，并能在微调过程中通过端到端反向传播自主学习每个处理层的对应的权重，以适应在不同的自然语言处理任务所需要的表示层信息。其中，端到端是指深度学习模型在训练过程中，基于反向传播来调整预测结果和真实结果的误差，直到模型收敛或达到预期的效果才结束。通过自主学习的得到的层权重融合模型各个处理层的语言表示，从而能让最后的语言表示能适应不同的自然语言处理任务。

在一个实施例中，根据第二层处理结果调整预训练语言模型，并继续训练，直至获得训练完成的语言模型，包括：将每个第二层处理结果按照相应处理层的层权重进行加权融合，获得融合结果；根据融合结果调整预训练语言模型，并继续训练，直至获得训练完成的语言模型，其中，对预训练语言模型的调整至少包括对层权重的调整。

其中，每个处理层均有对应的层权重。例如，BERT模型总共有12层，那么总共有12个层权重，分别是第1层的层权重、第2层的层权重、第3层的层权重…和第12层的权重。对预训练语言模型的调整至少包括对层权重的调整，还可以包括对其他模型参数的调整。训练完成的语言模型可应用于文本分类或者文本相似度匹配等场景。

具体地，服务器将每个第二层处理结果按照相应处理层的层权重进行加权融合，获得融合结果。例如，第一层的第二层处理结果与第一层的层权重相乘、第二层的第二层处理结果与第二层的层权重相乘…并进行加权融合，则得到一个融合结果。该融合结果融合了每一层的层处理结果。服务器根据融合结果调整预训练语言模型中的模型参数，并继续训练，直到达到训练停止条件，获得训练完成的语言模型。训练停止条件可以是损失值达到最小值、训练次数达到预设次数等不限于此。

本实施例中，如图2所示，为一个实施例中加权融合的示意图。对于每个处理层的输出，语言模型学到的语言表示是不一样的。针对每个任务上的每个处理层的语言表示的重要性也是不一样的。所以在融合这些信息的时候，不能只是对这些处理层的输出进行简单的求平均操作，因为简单的平均融合有可能造成有用的语言表示信息丢失。因此对每一层的输出上乘以一个权重可以解决这个问题。其中，处理层可以是transformer（变换器）模块、transformer-XL模块或者Reformer模块等，总共有12个处理层，也就是12个transformer模块、12个transformer-XL模块或者12个Reformer模块等不限于此。每层有对应的权重w_j，第二层处理结果C_j’，j表示层数。C’即为融合结果。

上述语言模型的处理方法，获取语句样本，对语句样本进行向量转换，得到样本分词序列，将样本分词序列输入至预训练语言模型中，通过预训练语言模型中依次连接的多个处理层处理样本分词序列，获得每个处理层对应的层处理结果，将每个第二层处理结果按照响应处理层的层权重进行加权融合，获得融合结果，根据融合结果调整预训练语言模型，并继续训练，直至获得训练完成的语言模型，对预训练语言模型的调整至少包括对层权重的调整，通过层权重融合所有层处理结果，即可融合不同的语言表示信息，并且层权重可以在对预训练语言模型的微调过程中进行训练，自主学习不同训练任务中不同的语言表示，使训练完成的语言模型可以提取不同重要程度的语句信息，提高训练完成的语言模型的语句识别准确率，提升了训练完成的语言模型的性能，且训练完成的语言模型可用于句子分类如意图识别、句子相似度、自然语言推断等场景中，不影响模型的可用性。

在一个实施例中，将每个层处理结果按照相应处理层的层权重进行加权融合，获得融合结果，包括：将每个处理层的层权重进行归一化处理，得到每一处理层的归一化权重；按照每个处理层的归一化权重，将每个处理层对应的第二层处理结果进行加权求和，得到融合结果。

其中，归一化处理是指将每个处理层的层权重之和归为1的处理。那么，每个处理层的归一化权重之和，即为1。

具体地，在预训练语言模型的训练过程中，且在模型的最后一层输出后，服务器将每个处理层的层权重进行归一化处理，得到每个处理层的归一化权重。服务器按照每个处理层的归一化权重，将每个处理层对应的第二层处理结果进行加权求和，得到融合结果。

例如，每层对应的权重为w_j，其中j为第j层，w表示层权重，w_j表示第j层的层权重。

那么w_j’ = softmax（w_j），w_j’为归一化权重。C_j’为j层的第二层处理结果。

融合结果为

该式子也可以写成

上述语言模型的处理方法，由于在预训练语言模型的训练过程中，每个处理层的层权重不与其他层的层权重产生联系，而在模型的自主训练过程中，层权重的调整难以预知，那么，在每次的训练过程中，层权重之和不一定能够保持和为一，因此，应将每个处理层的层权重进行归一化处理，得到每一处理层的归一化权重，按照每个处理层的归一化权重，将每个处理层对应的第二层处理结果进行加权求和，得到融合结果，则能得到更为准确的融合结果，从而提高语言模型的预测能力。

在一个实施例中，根据融合结果调整预训练语言模型，包括：根据融合结果确定相应的类别预测概率；获取语句样本对应的标注值；根据类别预测概率与标注值确定损失值；将损失值在预训练语言模型中的每一处理层进行反向传播，以调整预训练语言模型的模型参数，模型参数包括层权重。

其中，预训练语言模型中的模型参数数量不限，在每次训练的过程中，预训练语言模型均可能调整该语言模型中的任何模型参数。语言模型通常构建为字符串s的概率分布P(s)，这里的P(s)实际上反映的是s作为一个句子出现的概率。损失值是通过损失函数计算得到的。在不过拟合的情况下，损失值越小越正确。而损失函数根据不同的具体任务确定的。例如文本分类任务的损失函数是交叉熵，回归任务是RMSE（Root Mean Squared Error，均方根误差）函数。

具体地，类别的数量是预训练语言模型中预设的。类别预测概率是指每个类别对应的预测概率。例如，以医疗相关数据为例，类别预测概率可以是医保问题的预测概率、查找医院的预测概率等不限于此。类别预测概率的表现形式可以是每个类别对应的概率值，也可以是表现概率的向量。语句样本对应的标注值是指语句样本对应的正确标注。例如，语句样本为“如何使用医保报销”，那么对应的标注应该是医保类别为1，其他类别均为0。类别预测概率可以是医保类别是0.8、查找医院类别为0.2，其他类别为0。那么标注值和类别预测概率之间会有损失值。该损失值可通过损失函数计算得到。服务器将损失值在预训练模型中的每一处理层进行反向传播，以调整预训练语言模型的模型参数，该模型参数包括层权重。损失函数可以是L(Y, P(Y|X))=﹣log（P(Y|X)），表达的是样本X在分类Y的情况下，使概率P(Y|X)达到最大值时，损失函数值达到最小值。服务器将损失值在预训练语言模型中的每一处理层进行反向传播，以调整预训练语言模型中的模型参数，当损失值达到最小时，得到训练完成的预训练语言模型。

上述语言模型的处理方法，根据融合结果确定相应的类别预测概率；获取语句样本对应的标注值，根据类别预测概率与标注值确定损失值，将损失值在预训练语言模型中的每一处理层进行反向传播，以调整预训练语言模型的模型参数，模型参数包括层权重，能够根据损失值不断优化预训练语言模型，获得每一处理层的层权重，从而获得每一处理层提取的特征的重要性，提高预训练模型的预测能力。

在一个实施例中，融合结果为融合矩阵；模型参数包括预训练语言模型中权重层中的权重矩阵。根据融合结果确定相应的类别预测概率，包括：将融合结果输入预训练语言模型中的权重层；通过权重层中的权重矩阵，对融合矩阵进行加权处理，获得类别预测概率向量。

其中，融合结果的表现形式为矩阵。模型参数包括预训练语言模型的权重层中的权重矩阵。权重层是预训练语言模型中的最后一层。

具体地，将融合结果输入预训练语言模型中的权重层，通过权重层中的权重矩阵，对融合矩阵进行加权处理，获取类别预测概率向量。例如，对加权融合得到的融合矩阵C’∈R^H输出加一层权重W∈R^K×H后，计算预测类别的概率值P：

其中，R表示实数集，K和H均表示维度值，T表示转置矩阵。

上述语言模型的处理方法，将融合结果输入预训练语言模型中的权重层，通过权重层中的权重矩阵，对融合矩阵进行加权处理，获得类别预测概率向量，能够对融合结果进行微调，提高训练完成的语言模型的语句识别准确性。

在一个实施例中，语句样本包括搜索语句样本和搜索结果样本。语句样本进行分词，得到样本分词序列，包括：将搜索语句样本和对应的搜索结果样本拼接，获得拼接语句；对拼接语句进行分词，得到样本分词序列。

该语言模型的训练方法还包括：获取搜索语句；将搜索语句和搜索结果集中每个搜索结果分别拼接并分词，输入训练完成的语言模型，输出搜索语句和每个搜索结果的相似度；按照相似度筛选符合相似度条件的搜索结果并输出。

其中，搜索语句样本是指用于搜索的语句样本，称为query（询问）。搜索结果样本即为根据该搜索语句样本进行搜索得到的搜索结果样本。例如，搜索语句样本可以是“新冠自查”，对应的搜索结果样本可以是“新冠肺炎最新实况，万人医生团免费问诊”。搜索语句可以是服务器从终端的搜索界面上获取的。搜索结果集可以是搜索结果库中的所有结果的集合，也可以是搜索结果库中的部分搜索结果。搜索结果集中包括至少一个搜索结果。

具体地，服务器将搜索语句样本和对应的搜索结果样本通过[SEP]进行拼接，得到拼接语句。例如，拼接语句为：[CLS]搜索语句样本[SEP]搜索结果样本。服务器对拼接语句进行分词，得到样本分词序列。例如，样本分词序列为：[CLS] 搜索语句样本 [SEP]搜索结果样本。

获取搜索语句，将搜索语句和搜索结果集中每个搜索结果分别拼接并分词。例如，搜索结果集中有5个搜索结果。那么搜索语句与搜索结果1进行拼接并分词、搜索语句与搜索结果2进行拼接并分词……搜索语句与搜索结果5进行拼接并分词，得到5个分词后的拼接语句。将这5个分词后的拼接语句分别输入至训练完成的语言模型中，那么每个分词后的拼接语句均会输出一个相似度，则有5个相似度。服务器按照相似度筛选符合相似度条件的搜索结果并输出。例如，相似度条件可以是必须高于预设相似度，或者是取预设数量个搜索结果等不限于此。那么服务器可输出高于预设相似度的搜索结果，也可输出相似度最高的预设数量个搜索结果。

本实施例中，搜索结果集中包括搜索文本标题集。将搜索语句和搜索文本标题集中每个搜索文本标题分别拼接并分词，输入训练完成的语言模型中，输出搜索语句和每个搜索文本标题的相似度。搜索语句仅与搜索文本标题进行拼接并分词，输入至训练完成的语言模型中，能够提高语言模型的处理效率，进而提高搜索的效率。

上述语言模型的处理方法，将搜索语句样本和对应的搜索结果样本拼接，获得拼接语句，对拼接语句进行分词，得到样本分词序列，通过样本分词序列进行语言模型的训练，能够使训练完成的语言模型实现搜索功能；将搜索语句和搜索结果集中每个搜索结果分别拼接并分词，输入训练完成的语言模型，输出搜索语句和每个搜索结果的相似度，按照相似度筛选符合相似度条件的搜索结果并输出，能够使得训练完成的语言模型准确地得到搜索结果，减少用户获取正确搜索结果的时长。

在一个实施例中，在获取搜索语句之后，该语言模型的处理方法还包括：在搜索结果库中，搜索与搜索语句相匹配的预设数量的搜索结果，构成搜索结果集。按照相似度筛选符合相似度条件的搜索结果并输出，包括：将搜索结果集中的搜索结果按照相似度降序排序并输出。

其中，搜索结果库用于存储媒体信息，且该媒体信息中包含文本。媒体信息中还可以包括其他表现形式的信息，例如视频、图片等不限于此。例如搜索结果库用于保存百科知识、用户发表的文章、公众号发表的文章、文学名著、视频等不限于此。预设数量可按照需求配置。例如，预设数量可以是100个、50个等不限于此。预设数量较小时，输出的搜索结果较少，但能够迅速输出对应数量的搜索结果。预设数量较大时，输出的搜索结果较多，则输出对应数量的搜索结果耗费的时间较长。而由于用户检索时，一般不会点击或查看排序较后的搜索结果，因此预设数量可以依据经验值设定。

具体地，服务器可先按照关键词搜索的方式，预先从搜索结果库中搜索与搜索语句相匹配的预设数量个搜索结果。将搜索结果集中的搜索结果按照相似度降序排序并输出。例如，相似度最高的搜索结果排在第一位，相似度第二的搜索结果排在第二位。

本实施例中，服务器可从终端的搜索界面上获取搜索语句，在搜索结果库中，搜索与搜索语句相匹配的预设数量的搜索结果，构成搜索结果集。将搜索结果集中的搜索结果按照相似度降序排序，并向终端发送该搜索结果，以使终端按照相似度降序排序在搜索界面上显示相应的搜索结果。

本实施例中，搜索结果库可依据发布的内容进行实时更新。那么由于搜索结果库中的内容发生变化，那么不同时间进行搜索得到的搜索结果集也可以不相同。

上述语言模型的处理方法，由于搜索结果库中的搜索结果数量较多，将搜索语句与搜索结果库中的每个搜索结果分别拼接并分词，输入训练完成的语言模型，得到搜索结果的方式效率较低，那么可在搜索结果库中预先搜索与搜索语句相匹配的预设数量个搜索结果，构成搜索结果集，则减小了拼接语句的数量，提高搜索效率；将搜索结果集中的搜索结果按照相似度降序排序并输出，能够使得相似度较高的搜索结果显示在前，减少用户获得正确搜索结果的时长。

在一个实施例中，如图3所示，为一个实施例中变换器模块的架构示意图。其中，多头注意力机制headⁱ的计算过程为

其中，Attention（Q,K,V）即为Attention(QW_i ^Q,KW_i ^K,VW_i ^V)的简写形式。Q、K、V是每个句子的不同表示，可将Q称为查询向量、K称为键向量、V称为值向量，以区分不同的句子表示。W_i ^Q、W_i ^K和W_i ^V均是权重矩阵，可在反向传播的过程中进行优化。headⁱ表示每个注意力表示，i表示数量，或者说第几个。head^h表示最后一个多头注意力表示。例如h为4，多头注意力的拼接为 Concat(head¹, head², head³, head⁴)，这里每个head都是headⁱ，head^h是head⁴。d_k是隐藏层的维度，一般为512。W⁰也是一个随机初始化权重矩阵，在反向传播的过程中优化。通过Attention（Q,K,V）的式子可以捕获句子中的表面级别的、短语级别的、句法级别的和语义级别等语言表示信息。

前馈神经网络的计算过程为：

其中，W1、W2、b1和b2均是权重参数，在反向传播的过程中优化。x是多头注意力经过残差网络和全连接层之后得到的输出矩阵。前馈神经网络用于优化处理层中的参数。

在一个实施例中，如图4所示，为一个实施例中BERT模型的传输示意图。服务器对语句样本进行分词，得到[CLS] Tok1....TokM。其中，[CLS]分类输出的特殊符号。在模型的每一层都有每个token的表示输出，一般取[CLS]这个token作为代表输出。E表示某个输出的嵌入向量，例如[CLS]的嵌入向量为E[CLS],Tok 1的嵌入向量为E₁，Tok 2的嵌入向量为E₂…TokM的嵌入向量为Em’不限于此。嵌入向量的多少取决于输入的token的数量。而通过BERT模型中各处理层的处理后，能够得到T₁’....T_M’等语境表征。那么最后取融合结果C进行处理得到类别预测概率。

在一个实施例中，如图5所示，为另一个实施例中BERT模型的传输示意图。服务器将语句1和语句2通过[SEP]进行拼接后得到拼接语句。其中，[SEP]是用于分割非连续分词序列的特殊符号。通过BERT模型将每个Tok转化为嵌入向量，如图中的嵌入向量E₁、E_N、E_[SEP]、E₁’ 和E_M’。那么通过BERT模型中各处理层的处理后，能够得到语句1对应的语境表征T₁、T₂…T_N，E[SEP]对应的语境表征T_[SEP],语句2对应的语境表征T₁、T₂...T_M。那么最后取融合结果C进行处理得到相似度。

在一个实施例中，如图6所示，为一个实施例中训练完成的模型的结构示意图。其中包括若干个处理层。服务器可将样本分词序列输入至第一处理层，而由于第一处理层、第二处理层和第三处理层均为表面级别的处理层。那么可将样本分词序列输入至第一处理层，输出得到第一层处理结果；对第一层处理结果进行特征增强，得到第二层处理结果....依次类推，直到预训练语言模型的最后一层得到第一层处理结果，再对最后一个第一层处理结果进行特征增强，得到第二层处理结果，输出第二层处理结果。

在一个实施例中，本申请实施例能够在预训练模型下的微调任务中，通过自主学习每个处理层对应的层权重，用于表示对具体任务重要性的权重，有效融合表面级别的、短语级别的、句法级别的和语义级别的信息。在业务训练中均有明显提升，如下表1，为医疗意图识别任务的精度和F1值。其中，精度的计算可以是Accuracy=1-错误率，错误率是指错误样本数/样本总数。或者，精度即为样本正确率，即正确样本数/样本总数。F1=2/[(1/P)+(1/R)]=2×P×R/（P+R）。其中，P表示准确率（Precision）：P=TP/（TP+FP）。R表示召回率（Recall）：R=TP/(TP+FN)。通俗地说，准确率即预测正确的正例数据占预测为正例数据的比例。召回率即预测为正例的数据占实际为正例数据的比例。F1值用于结合正负样本结果进行模型的评估。

真正例（True Positive，TP）：真实类别为正例，预测类别为正例。

假正例（False Positive，FP）：真实类别为负例，预测类别为正例。

假负例（False Negative，FN）：真实类别为正例，预测类别为负例。

真负例（True Negative，TN）：真实类别为负例，预测类别为负例。

本申请中的Accuracy是将N个样本，输入至对应模型中，得到N个预测结果。如此重复M次，求M次的精度的平均得到的。例如，样本数为10个，那么将这10个分别输入至对应模型中，得到10个预测结果，计算这个10个预测结果的精度。然后，再次将这10个样本分别输入至对应模型中…如此重复20次，得到20个精度，这20个精度求平均则得到Accuracy。Bert模型和Bert-ww 所使用的测试数据相同。Bert表示预训练语言模型，Bert-ww表示本申请中训练完成的模型，医疗意图识别任务的评估数据如表1：

由表1可得知，相同的测试数据，在医疗意图识别的场景下，训练完成的语言模型的精确度和F1值均较预训练语言模型有较大提升。

在一个实施例中，如表2，为一个实施例中，医疗问题相似度的精度以及F1值数据。医疗问题相似度的精度和F1值的计算方式如医疗意图识别任务中精度和F1值的方式，在此不再赘述。

由表2可见，相同的训练数据，在医疗问题相似度的场景下，训练完成的语言模型的精确度和F1值均较预训练语言模型有较大提升。

在一个实施例中，如图7所示，为一个实施例中语句处理方法的流程示意图，以该方法应用于服务器为例进行说明，包括：

步骤702，获取语句。

具体地，该语句是指文本类型的语句，或者音频语句经语音识别后得到的文本语句。该语句具体可以是医疗相关语句、情绪相关语句、待翻译语句等不限于此。例如，“医保报销”、“我生气了”、“who are you”等。

步骤704，对语句进行分词，得到分词序列。

具体地，服务器可采用BPE分词或结巴分词等方式对该语句进行分词，得到分词序列。例如，“其实冠状病毒是个啥”的得到的分词序列就是“其实冠状病毒是个啥”。

步骤706，将分词序列输入至语言模型中。

具体地，该语言模型为训练完成的语言模型。该语言模型的训练方式为：获取语句样本；对语句样本进行分词，得到样本分词序列；将样本分词序列输入至预训练语言模型中；通过预训练语言模型中依次连接的多个处理层处理样本分词序列，获得每个处理层对应的层处理结果；将每个层处理结果按照相应处理层的层权重进行加权融合，获得融合结果；根据融合结果调整预训练语言模型，并继续训练，直至获得训练完成的语言模型；其中，对预训练语言模型的调整至少包括对层权重的调整。预训练语言模型可以是BERT（Bidirectional Encoder Representations from Transformers, 双向编码器表征量）模型、LSTM（Long Short-Term Memory，长短时记忆网络）。其中，BERT模型中的处理层可以是transformer模块，也可以是transformer-XL或Reformer模块等不限于此。

步骤708，通过语言模型中依次连接的多个处理层处理分词序列，获得每个处理层对应的第一层处理结果，依次连接的多个处理层分别输出的第一层处理结果，分别是不同级别的语言表示。

其中，多个表示至少两个，多个处理层即至少两个处理层。

具体地，以BERT模型为例，BERT模型中包括12个处理层，其中12个处理层依次连接，即第一层与第二层相连、第二层与第三层相连……第十一层与第十二层相连。样本分词序列先输入第一层中，第一层会得到一个层处理结果；再经过第二层，而经过第一层和第二层的样本分词序列也会从第二层输出，得到一个层处理结果……以此类推，得到12个处理层中每个处理层对应的层处理结果。那么对于一个L层的BERT模型，一共有L个[CLS]的层处理结果：

Cj={Cj | j=1，…，L}，其中j表示层数，Cj表示第j层的层处理结果。那么通过语言模型中依次连接的多个处理层处理分词序列，能够得到每个处理层对应的第一层处理结果。

步骤710，基于处理层所对应的语言表示，对相应的第一层处理结果进行特征增强处理，得到处理层对应的第二层处理结果。具体地，基于预训练语言模型中的某一处理层所对应的语言表示，服务器对与该处理层相应的第一层处理结果进行特征增强处理，得到该处理层对应的第二层处理结果。特征增强方式可以是在第一层处理结果的基础上增加与该处理层的语言表示相关的语言特征。

本实施例中，每个处理层均有对应的层权重。例如，BERT模型总共有12层，那么总共有12个层权重，分别是第1层的层权重、第2层的层权重、第3层的层权重…和第12层的权重。

服务器将每个第二层处理结果按照相应处理层的层权重进行加权融合，获得融合结果。例如，第一层的第二层处理结果与第一层的层权重相乘、第二层的第二层处理结果与第二层的层权重相乘…并进行加权融合，则得到一个融合结果。该融合结果融合了每一层的第二层处理结果。

本实施例中，例如，每层对应的权重为w_j，其中j为第j层，w表示层权重，w_j表示第j层的层权重。

融合结果为

该式子也可以写成

步骤712，根据第二层处理结果确定语句的类别预测概率。

具体地，服务器通过softmax或者sigmoid等函数，根据融合结果，确定语句的类别预测概率。类别预测概率可以是指意图识别的预测概率，也可以是指分类的预测概率，如用户输入一个语句，通过该语言模型判断用户输入的语句是否医疗相关语句。

本实施例中，服务器也可以将融合结果输入预训练语言模型中的权重层，通过权重层中的权重矩阵，对融合矩阵进行加权处理，获取类别预测概率向量。例如，对加权融合得到的融合矩阵C’∈R^H输出加一层权重W∈R^K×H后，计算预测类别的概率值P：

其中，R表示实数集，K和H均表示维度值，T表示转置矩阵。

步骤714，基于类别预测概率确定语句的类别。

具体地，服务器将类别预测概率最大值所对应的类别作为该语句的类别。例如，语句为“如何使用医保报销”，那么类别预测概率可以是医保类别是0.8、查找医院类别为0.2，其他类别为0。则取医保类别作为该语句的类别。

上述语句处理方法，获取语句，对语句进行分词，得到分词序列，将分词序列输入至语言模型中，通过语言模型中依次连接的多个处理层处理分词序列，基于处理层所对应的语言表示，对相应的第一层处理结果进行特征增强处理，得到特征增强处理后的第二层处理结果，基于处理层所对应的语言表示，对相应的第一层处理结果进行特征增强处理，得到特征增强处理后的第二层处理结果，从而提高语句的类别预测概率的准确性，进而提高语句处理的准确性。

本申请提供一个应用场景，该应用场景应用于上述的语句处理方法。具体地，该语句处理方法在该应用场景的应用如下：获取语句；对语句进行分词，得到分词序列；将分词序列输入至语言模型中，通过语言模型中依次连接的多个处理层处理分词序列，获得每个处理层对应的层处理结果；基于处理层所对应的语言表示，对相应的第一层处理结果进行特征增强处理，得到特征增强处理后的第二层处理结果，根据第二层处理结果确定该语句的类别预测概率，基于类别预测概率确定语句的类别，类别可包括医疗类别或者非医疗类别。例如，输入一个语句，“新冠自查”，那么通过该语言模型的处理后，可知该语句的类别为医疗类别。而语句“如何学会快速翻译”，则可知该语句的类别为非医疗类别。类别的数量为至少两种类别。

在一个实施例中，如图8所示，为一个实施例中语句搜索方法的流程示意图，以该方法应用于服务器为例进行说明，包括；

步骤802，获取搜索语句。

其中，搜索语句是用于搜索的语句，称为query（询问）。

具体地，服务器从终端界面上获取用户输入的搜索语句。例如，搜索语句可以是“新冠自查”。

步骤804，将搜索语句和搜索结果集中每个搜索结果分别拼接，将拼接后的拼接语句进行分词得到拼接序列，并将拼接序列输入语言模型。

具体地，服务器将搜索语句和对应的搜索结果通过[SEP]进行拼接，得到拼接语句。例如，拼接语句为：[CLS]搜索语句[SEP]搜索结果。服务器对拼接语句进行分词，得到拼接序列。例如，分词序列为：[CLS] 搜索语句 [SEP] 搜索结果。服务器将拼接序列输入语言模型中。

步骤806，通过语言模型中依次连接的多个处理层处理拼接序列，获得每个处理层对应的第一层处理结果，依次连接的多个处理层分别输出的第一层处理结果，分别是不同级别的语言表示。

Cj={Cj | j=1，…，L}，其中j表示层数，Cj表示第j层的第一层处理结果。那么通过语言模型中依次连接的多个处理层处理拼接序列，能够得到每个处理层对应的第一层处理结果。

步骤808，基于处理层所对应的语言表示，对相应的第一层处理结果进行特征增强处理，得到处理层对应的第二层处理结果。

本实施例中，服务器将每个第二层处理结果按照相应处理层的层权重进行加权融合，获得融合结果。例如，第一层的第二层处理结果与第一层的层权重相乘、第二层的第二层处理结果与第二层的层权重相乘…并进行加权融合，则得到一个融合结果。该融合结果融合了每一层的第二层处理结果。

那么w_j’ = softmax（w_j），w_j’为归一化权重。

融合结果为

该式子也可以写成

步骤810，根据每个拼接语句对应的第二层处理结果，分别确定搜索语句和搜索结果集中每个搜索结果之间的相似度。

具体地，服务器通过softmax或者sigmoid等函数，根据每个拼接语句对应的融合结果，分别确定搜索语句和搜索结果集中每个搜索结果之间的相似度。例如，搜索结果集中包括搜索结果A、搜索结果B、搜索结果C。那么，服务器确定搜索语句与搜索结果A之间的相似度、搜索语句与搜索结果B之间的相似度和搜索语句与搜索结果C之间的相似度。

本实施例中，服务器也可以将融合结果输入预训练语言模型中的权重层，通过权重层中的权重矩阵，对融合矩阵进行加权处理，得到相似度。例如，对加权融合得到的融合矩阵C’∈R^H输出加一层权重W∈R^K×H后，计算相似度P：

其中，R表示实数集，K和H均表示维度值，T表示转置矩阵。

步骤812，按照相似度筛选符合相似度条件的搜索结果并输出。

具体地，服务器按照相似度筛选符合相似度条件的搜索结果并输出。例如，相似度条件可以是必须高于预设相似度，或者是取预设数量个搜索结果。那么服务器可输出高于预设相似度的搜索结果，也可输出相似度最高的预设数量个搜索结果。

本实施例中，搜索结果集中包括搜索文本标题集。将搜索语句和搜索文本标题集中每个搜索文本标题分别拼接并分词，输入训练完成的语言模型中，输出搜索语句和每个搜索文本标题的相似度。搜索语句仅与搜索文本标题进行拼接并分词，输入至训练完成的语言模型中，能够提高搜索的效率。

本实施例中，如图9所示，为一个实施例中搜索界面入口的示意图。终端响应于微信的触发操作，显示微信相关界面。终端响应于支付的触发操作，显示如图9的界面。如图10所示，为一个实施例中搜索界面的示意图。终端响应于医疗健康的触发操作，显示如图10的界面。在搜索界面上中的搜索输入区域显示输入的搜索语句。如图10中的“新冠自查”。那么可在搜索结果区域显示“新冠肺炎最新实况，万人医生团免费问诊”、“新冠肺炎可能不“发烧”，如何做好防护”、“新型冠状病毒有没有自测试纸，可以在家自行检测吗”等搜索结果。该搜索结果是按照相似度筛选并输出的。例如排行首位的“新冠肺炎最新实况，万人医生团免费问诊”即为相似度最高的搜索结果。

上述语句搜索方法，获取搜索语句，将搜索语句和搜索结果集中每个搜索结果分别拼接，将拼接后的拼接语句进行分词得到拼接序列，并将拼接序列输入语言模型，通过语言模型中依次连接的多个处理层处理拼接序列，获得每个处理层对应的层处理结果，将每个层处理结果按照相应处理层的层权重进行加权融合，获得拼接语句对应的融合结果，分别确定搜索语句和搜索结果集中每个搜索结果之间的相似度，按照相似度筛选符合相似度条件的搜索结果并输出，使得训练完成的语言模型准确地得到搜索结果，能够实现对搜索相关功能的优化，减少用户获取正确搜索结果的时长。

在一个实施例中，在获取搜索语句之后，该语句搜索方法还包括：在搜索结果库中，搜索与搜索语句相匹配的预设数量的搜索结果，构成搜索结果集。按照相似度筛选符合相似度条件的搜索结果并输出，包括：将搜索结果集中的搜索结果按照相似度降序排序并输出。

具体地，服务器可先按照关键词搜索的方式，预先从搜索结果库中搜索与搜索语句相匹配的预设数量个搜索结果。将搜索结果集中的搜索结果按照相似度降序排序并输出。如图9所示，相似度最高的搜索结果排在第一位，相似度第二的搜索结果排在第二位。

上述语句搜索方法，由于搜索结果库中的搜索结果数量较多，将搜索语句与搜索结果库中的每个搜索结果分别拼接并分词，输入训练完成的语言模型，得到搜索结果的方式效率较低，那么可在搜索结果库中预先搜索与搜索语句相匹配的预设数量个搜索结果，构成搜索结果集，则减小了拼接语句的数量，提高搜索效率；将搜索结果集中的搜索结果按照相似度降序排序并输出，能够使得相似度较高的搜索结果显示在前，减少用户获得正确搜索结果的时长。

在一个实施例中，如表3，为一个实施例中医疗问题搜索排序。其中NDCG（Normalized Discounted cumulative gain，归一化折损累计增益）是一种信息检索指标。NDCG@1表示输出的第一篇文本即为用户点击的第一篇文本，NDCG@3表示输出的排序结果的前三篇中有用户点击的文本。如表3：

由表3可见，相同的训练数据，在医疗问题相似度的场景下，训练完成的语言模型的NDCG@1值和NDCG@3值均较预训练语言模型有较大提升，从而使得搜索更加智能化，能够使用户快速查找到自身所需的信息。

在一个实施例中，云技术（Cloud technology）是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术（Cloud technology）是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

医疗云（Medical cloud），是指在云计算、移动技术、多媒体、4G通信、大数据、以及物联网等新技术基础上，结合医疗技术，使用“云计算”来创建医疗健康服务云平台，实现了医疗资源的共享和医疗范围的扩大。因为云计算技术的运用与结合，医疗云提高医疗机构的效率，方便居民就医。像现在医院的预约挂号、电子病历、医保等，都是云计算与医疗领域结合的产物，医疗云还具有数据安全、信息共享、动态扩展、布局全局的优势。可将医疗云技术结合语言模型，例如，服务器通过医疗云技术获取用户输入的语句，并对语句进行分词，得到分词序列，再通过语言模型确定语句的类别。或者，搜索结果集在云存储中保存。服务器通过医疗云技术获取用户输入的搜索语句，并对语句进行分词，得到分词序列，再通过语言模型确定搜索语句与搜索结果集中每个搜索结果之间的相似度，通过医疗云技术按照相似度筛选符合相似度条件的搜索结果并输出。

本申请还提供一种应用场景，该应用场景应用上述的语句搜索方法。具体地，该语句搜索方法在该应用场景的应用如下：获取医疗相关搜索语句；在搜索结果库中，搜索与医疗相关搜索语句相匹配的预设数量的搜索结果，构成搜索结果集；将医疗相关搜索语句和搜索结果集中每个搜索结果分别拼接，将拼接后的语句进行分词得到拼接序列，并将拼接序列输入语言模型；通过所述语言模型中依次连接的多个处理层处理所述拼接序列，获得每个处理层对应的第一层处理结果，所述依次连接的多个处理层分别输出的第一层处理结果，分别是不同级别的语言表示；基于处理层所对应的语言表示，对相应的第一层处理结果进行特征增强处理，得到所述处理层对应的第二层处理结果，根据每个拼接语句对应的第二层处理结果，分别确定医疗相关搜索语句和搜索结果集中每个医疗搜索结果之间的相似度；将搜索结果集中的搜索结果按照相似度降序排序并输出，从而提升了医疗服务分发和搜索的质量。

本申请还另外提供一种应用场景，该应用场景应用上述的语句搜索方法。具体地，该语言模型的处理方法在该应用场景的应用如下：从终端界面上获取论文搜索语句；在论文数据库中，搜索与该论文搜索语相匹配的预设数量的搜索结果，构成搜索结果集；将论文相关搜索语句和搜索结果集中每个搜索结果分别拼接，将拼接后的语句进行分词得到拼接序列，并将拼接序列输入语言模型；通过所述语言模型中依次连接的多个处理层处理所述拼接序列，获得每个处理层对应的第一层处理结果，所述依次连接的多个处理层分别输出的第一层处理结果，分别是不同级别的语言表示；基于处理层所对应的语言表示，对相应的第一层处理结果进行特征增强处理，得到所述处理层对应的第二层处理结果，根据每个拼接语句对应的第二层处理结果，分别确定论文搜索语句和搜索结果集中每个搜索结果之间的相似度，将搜索结果集中的搜索结果按照相似度降序排序并输出，从而提高搜索的准确性。

应该理解的是，虽然图1、7和8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1、7和8中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图11所示，提供了一种语言模型的处理装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：样本获取模块1102、样本分词模块1104、样本分词序列输入模块1106、层处理模块1108、特征增强模块1110、和调整模块1112，其中：

样本获取模块1102，用于获取语句样本；

样本分词模块1104，用于对语句样本进行分词，得到样本分词序列；

样本分词序列输入模块1106，用于将样本分词序列输入至预训练语言模型中；

层处理模块1108，用于通过所述预训练语言模型中依次连接的多个处理层处理所述样本分词序列，获得每个处理层对应的第一层处理结果，所述依次连接的多个处理层分别输出的第一层处理结果，分别是不同级别的语言表示；

特征增强模块1110，用于基于处理层所对应的语言表示，对相应的第一层处理结果进行特征增强处理，得到所述处理层对应的第二层处理结果；

调整模块1112，用于根据第二层处理结果调整所述预训练语言模型，并继续训练，直至获得训练完成的语言模型。

上述语言模型的处理装置，获取语句样本，对语句样本进行向量转换，得到样本分词序列，将样本分词序列输入至预训练语言模型中，通过预训练语言模型中依次连接的多个处理层处理样本分词序列，获得每个处理层对应的第一层处理结果，且不同的第一层处理结果有不同级别的语言表示，再基于处理层所对应的语言表示，对相应的第一层处理结果进行特征增强处理，得到特征增强处理后的第二层处理结果，再根据第二层处理结果调整预训练语言模型，直至获得训练完成的语言模型，能够依据处理层所反映的不同语言表示，提取到增强的相应语言表示特征，提高训练完成的语言模型的识别准确率。

在一个实施例中，特征增强模块1110用于基于处理层所对应的语言表示，获取与语言表示对应的语言特征；不同级别的语言表示包括表面级别、短语级别、句法级别、语义级别的语言表示中至少一种；将处理层的语言特征与第一层处理结果进行融合，得到第二层处理结果。

上述语言模型的处理装置，基于处理层所对应的语言表示，获取与语言表示对应的语言特征，不同级别的语言表示包括表面级别、短语级别、句法级别、语义级别的语言表示中至少一种，将处理层的语言特征与第一层处理结果进行融合，得到第二层处理结果，能够提取到更多的与该层的语言表示相关的语言特征，提高训练完成的语言模型的识别准确率。

在一个实施例中，样本分词模块1104用于对语句样本进行一元分词，得到一元样本分词序列；特征增强模块1110用于当处理层所对应的语言表示为表面级别的语言表示时，获取二元样本分词序列、三元样本分词序列中至少一种；二元样本分词序列是对语句样本进行二元分词得到的；三元样本分词序列是对语句样本进行三元分词得到的；将处理层的二元样本分词序列、三元样本分词序列中至少一种与第一层处理结果进行融合，得到第二层处理结果。上述语言模型的处理装置，对语句样本进行一元分词，得到一元样本分词序列，当处理层所对应的语言表示为表面级别的语言表示时，将处理层的二元样本分词序列、三元样本分词序列中至少一种与第一层处理结果进行融合，得到第二层处理结果，能够增加表面级别的语言特征，提到预训练语言模型中表面级别的处理层的特征丰富度，从而提高训练完成的语言模型的识别准确率。

在一个实施例中，特征增强模块1110用于当处理层的语言表示为短语级别的语言表示时，获取样本词嵌入向量、样本关系向量表示中至少一种；样本词嵌入向量是对语句样本进行向量转换得到的；样本关系向量表示是对语句样本进行命名实体识别，得到样本命名实体，并将样本命名实体输入至知识图谱向量表示模型中得到的；将处理层的样本词嵌入向量、样本关系向量表示中至少一种与第一层处理结果进行融合，得到第二层处理结果。

上述语言模型的处理装置，当处理层的语言表示为短语级别的语言表示时，将该处理层的样本词嵌入向量、样本关系向量表示中至少一种与第一层处理结果进行融合，能够增加短语级别的语言特征，提到预训练语言模型中短语级别的处理层的特征丰富度，从而提高训练完成的语言模型的识别准确率。

在一个实施例中，特征增强模块1110用于当处理层的语言表示为句法级别的语言表示时，获取语句样本对应的样本句法分析向量、样本词性特征向量中至少一种；样本句法分析向量是对语句样本进行句法分析得到的；样本词性特征向量是对语句样本进行词性分析得到的；将处理层的样本句法分析向量、样本词性特征向量中至少一种与第一层处理结果进行融合，得到第二层处理结果。

上述语言模型的处理装置，当处理层的语言标识为句法级别的语言表示时，将样本句法分析向量、样本词性特征向量中至少一种与第一层处理结果进行融合，能够增加句法级别的语言特征，提到预训练语言模型中句法级别的处理层的特征丰富度，从而提高训练完成的语言模型的识别准确率。

在一个实施例中，特征增强模块1110用于当处理层的语言表示为语义级别的语言表示时，对语句样本进行向量转换，获得语句样本对应的语句样本嵌入向量；将语句样本嵌入向量和第一层处理结果进行融合，得到第二层处理结果。

上述语言模型的处理装置，当处理层的语言标识为语义级别的语言表示时，将语句样本嵌入向量与第一层处理结果进行融合，能够增加语义级别的语言特征，提到预训练语言模型中语义级别的处理层的特征丰富度，从而提高训练完成的语言模型的识别准确率。

在一个实施例中，调整模块用于将每个第二层处理结果按照相应处理层的层权重进行加权融合，获得融合结果；根据融合结果调整预训练语言模型，并继续训练，直至获得训练完成的语言模型，其中，对预训练语言模型的调整至少包括对层权重的调整。

上述语言模型的处理装置，获取语句样本，对语句样本进行向量转换，得到样本分词序列，将样本分词序列输入至预训练语言模型中，通过预训练语言模型中依次连接的多个处理层处理样本分词序列，获得每个处理层对应的层处理结果，将每个第二层处理结果按照响应处理层的层权重进行加权融合，获得融合结果，根据融合结果调整预训练语言模型，并继续训练，直至获得训练完成的语言模型，对预训练语言模型的调整至少包括对层权重的调整，通过层权重融合所有层处理结果，即可融合不同的语言表示信息，并且层权重可以在对预训练语言模型的微调过程中进行训练，自主学习不同训练任务中不同的语言表示，使训练完成的语言模型可以提取不同重要程度的语句信息，提高训练完成的语言模型的语句识别准确率，提升了训练完成的语言模型的性能，且训练完成的语言模型可用于句子分类如意图识别、句子相似度、自然语言推断等场景中，不影响模型的可用性。

在一个实施例中，层处理模块1108用于将每个处理层的层权重进行归一化处理，得到每一处理层的归一化权重；按照每个处理层的归一化权重，将每个处理层对应的第二层处理结果进行加权求和，得到融合结果。

上述语言模型的处理装置，由于在预训练语言模型的训练过程中，每个处理层的层权重不与其他层的层权重产生联系，而在模型的自主训练过程中，层权重的调整难以预知，那么，在每次的训练过程中，层权重之和不一定能够保持和为一，因此，应将每个处理层的层权重进行归一化处理，得到每一处理层的归一化权重，按照每个处理层的归一化权重，将每个处理层对应的第二层处理结果进行加权求和，得到融合结果，则能得到更为准确的融合结果，从而提高语言模型的预测能力。

在一个实施例中，调整模块1112用于根据融合结果确定相应的类别预测概率；获取语句样本对应的标注值；根据类别预测概率与标注值确定损失值；将损失值在预训练语言模型中的每一处理层进行反向传播，以调整预训练语言模型的模型参数，模型参数包括层权重。

上述语言模型的处理装置，根据融合结果确定相应的类别预测概率；获取语句样本对应的标注值，根据类别预测概率与标注值确定损失值，将损失值在预训练语言模型中的每一处理层进行反向传播，以调整预训练语言模型的模型参数，模型参数包括层权重，能够根据损失值不断优化预训练语言模型，获得每一处理层的层权重，从而获得每一处理层提取的特征的重要性，提高预训练模型的预测能力。

在一个实施例中，融合结果为融合矩阵；模型参数包括预训练语言模型中权重层中的权重矩阵；调整模块1112还用于将融合结果输入预训练语言模型中的权重层；通过权重层中的权重矩阵，对融合矩阵进行加权处理，获得类别预测概率向量。

上述语言模型的处理装置，将融合结果输入预训练语言模型中的权重层，通过权重层中的权重矩阵，对融合矩阵进行加权处理，获得类别预测概率向量，能够对融合结果进行微调，提高训练完成的语言模型的语句识别准确性。

在一个实施例中，语句样本包括搜索语句样本和对应的搜索结果样本；样本分词模块1104用于将搜索语句样本和对应的搜索结果样本拼接，获得拼接语句；对拼接语句进行分词，得到样本分词序列。语言模型的处理装置还包括搜索语句获取模块、相似度确定模块和输出模块；搜索语句获取模块用于获取搜索语句；相似度确定模块用于将搜索语句和搜索结果集中每个搜索结果分别拼接并分词，输入训练完成的语言模型，输出搜索语句和每个搜索结果的相似度；输出模块用于按照相似度筛选符合相似度条件的搜索结果并输出。

上述语言模型的处理装置，将搜索语句样本和对应的搜索结果样本拼接，获得拼接语句，对拼接语句进行分词，得到样本分词序列，通过样本分词序列进行语言模型的训练，能够使训练完成的语言模型实现搜索功能；将搜索语句和搜索结果集中每个搜索结果分别拼接并分词，输入训练完成的语言模型，输出搜索语句和每个搜索结果的相似度，按照相似度筛选符合相似度条件的搜索结果并输出，能够使得训练完成的语言模型准确地得到搜索结果，减少用户获取正确搜索结果的时长。

在一个实施例中，语言模型的处理装置还包括搜索模块；搜索模块用于在搜索结果库中，搜索与搜索语句相匹配的预设数量的搜索结果，构成搜索结果集；输出模块用于将搜索结果集中的搜索结果按照相似度降序排序并输出。

上述语言模型的处理装置，由于搜索结果库中的搜索结果数量较多，将搜索语句与搜索结果库中的每个搜索结果分别拼接并分词，输入训练完成的语言模型，得到搜索结果的方式效率较低，那么可在搜索结果库中预先搜索与搜索语句相匹配的预设数量个搜索结果，构成搜索结果集，则减小了拼接语句的数量，提高搜索效率；将搜索结果集中的搜索结果按照相似度降序排序并输出，能够使得相似度较高的搜索结果显示在前，减少用户获得正确搜索结果的时长。

在一个实施例中，依次连接的多个处理层分别输出的层处理结果，分别是不同级别的语言表示，且依照连接的次序，各层处理结果的语义级别逐渐提高。

上述语言模型的处理装置，依次连接的多个处理层分别输出的层处理结果，分别是不同级别的语言表示，且依照连接的次序，各层处理结果的语义级别逐渐提高，即预训练语言模型中每一层都能学习到输入句子的不同语言表示，那么通过训练得到每层的层权重，不单单只是取最后一层的输出作为最终输出，能够融合所有层的语言表示，从而能让最后的表示信息能适应不同的自然语言处理任务。

在一个实施例中，如图12所示，提供了一种语句处理装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括获取模块1202、分词模块1204、序列输入模块1206、层处理模块1208、特征增强模块1210和确定模块1212，其中：

获取模块1202，用于获取语句；

分词模块1204，用于对语句进行分词，得到分词序列；

序列输入模块1206，用于将分词序列输入至语言模型中；

层处理模块1208，用于通过语言模型中依次连接的多个处理层处理分词序列，获得每个处理层对应的第一层处理结果，依次连接的多个处理层分别输出的第一层处理结果，分别是不同级别的语言表示；

特征增强模块1210，用于基于处理层所对应的语言表示，对相应的第一层处理结果进行特征增强处理，得到处理层对应的第二层处理结果；

确定模块1212，用于根据第二层处理结果确定语句的类别预测概率；

确定模块1212，还用于基于类别预测概率确定语句的类别。

上述语句处理装置，获取语句，对语句进行分词，得到分词序列，将分词序列输入至语言模型中，通过语言模型中依次连接的多个处理层处理分词序列，基于处理层所对应的语言表示，对相应的第一层处理结果进行特征增强处理，得到特征增强处理后的第二层处理结果，基于处理层所对应的语言表示，对相应的第一层处理结果进行特征增强处理，得到特征增强处理后的第二层处理结果，从而提高语句的类别预测概率的准确性，进而提高语句处理的准确性。

在一个实施例中，确定模块1212用于将融合结果输入预训练语言模型中的权重层；通过权重层中的权重矩阵，对融合矩阵进行加权处理，获得类别预测概率向量。

上述语句处理装置，将融合结果输入预训练语言模型中的权重层，通过权重层中的权重矩阵，对融合矩阵进行加权处理，获得类别预测概率向量，能够对融合结果进行微调，提高训练完成的语言模型的语句识别准确性。

在一个实施例中，如图13所示，提供了一种语句搜索装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括搜索语句获取模块1302、拼接序列输入模块1304、层处理模块1306、特征增强模块1308、相似度确定模块1310和输出模块1312，其中：

搜索语句获取模块1302，用于获取搜索语句；

拼接序列输入模块1304，用于将搜索语句和搜索结果集中每个搜索结果分别拼接，将拼接后的拼接语句进行分词得到拼接序列，并将拼接序列输入语言模型；

层处理模块1306，用于通过语言模型中依次连接的多个处理层处理拼接序列，获得每个处理层对应的第一层处理结果，依次连接的多个处理层分别输出的第一层处理结果，分别是不同级别的语言表示；

特征增强模块1308，用于基于处理层所对应的语言表示，对相应的第一层处理结果进行特征增强处理，得到处理层对应的第二层处理结果；

相似度确定模块1310，用于根据每个拼接语句对应的第二层处理结果，分别确定搜索语句和搜索结果集中每个搜索结果之间的相似度；

输出模块1312，用于按照相似度筛选符合相似度条件的搜索结果并输出。

上述语句搜索装置，获取搜索语句，将搜索语句和搜索结果集中每个搜索结果分别拼接，将拼接后的拼接语句进行分词得到拼接序列，并将拼接序列输入语言模型，通过语言模型中依次连接的多个处理层处理拼接序列，获得每个处理层对应的层处理结果，将每个层处理结果按照相应处理层的层权重进行加权融合，获得拼接语句对应的融合结果，分别确定搜索语句和搜索结果集中每个搜索结果之间的相似度，按照相似度筛选符合相似度条件的搜索结果并输出，使得训练完成的语言模型准确地得到搜索结果，能够实现对搜索相关功能的优化，减少用户获取正确搜索结果的时长。

在一个实施例中，语句搜索装置还包括搜索模块；搜索模块用于在搜索结果库中，搜索与搜索语句相匹配的预设数量的搜索结果，构成搜索结果集；输出模块1312用于将搜索结果集中的搜索结果按照相似度降序排序并输出。

上述语句搜索装置，由于搜索结果库中的搜索结果数量较多，将搜索语句与搜索结果库中的每个搜索结果分别拼接并分词，输入训练完成的语言模型，得到搜索结果的方式效率较低，那么可在搜索结果库中预先搜索与搜索语句相匹配的预设数量个搜索结果，构成搜索结果集，则减小了拼接语句的数量，提高搜索效率；将搜索结果集中的搜索结果按照相似度降序排序并输出，能够使得相似度较高的搜索结果显示在前，减少用户获得正确搜索结果的时长。

关于语言模型的处理装置的具体限定可以参见上文中对于语言模型的处理方法的限定，在此不再赘述。上述语言模型的处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语句数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语言模型的处理方法。

本领域技术人员可以理解，图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语言模型的处理方法，其特征在于，所述方法包括：

获取语句样本；

对所述语句样本进行分词，得到样本分词序列；

将所述样本分词序列输入至预训练语言模型中；

基于处理层所对应的语言表示，获取与所述语言表示对应的语言特征；

将所述处理层的所述语言特征与所述第一层处理结果进行融合，得到处理层的第二层处理结果；

根据所述预训练语言模型的最后一层的第二层处理结果调整所述预训练语言模型，并继续训练，直至获得训练完成的语言模型。

2.根据权利要求1所述的方法，其特征在于，所述不同级别的语言表示包括表面级别、短语级别、句法级别、语义级别的语言表示中至少一种，所述表面级别是指字面级别。

3.根据权利要求1或2所述的方法，其特征在于，所述对所述语句样本进行分词，得到样本分词序列，包括：

对所述语句样本进行一元分词，得到一元样本分词序列；

所述基于每个所述处理层所对应的语言表示，获取与所述语言表示对应的语言特征，包括：

当所述处理层所对应的语言表示为表面级别的语言表示时，获取二元样本分词序列、三元样本分词序列中至少一种；所述二元样本分词序列是对所述语句样本进行二元分词得到的；所述三元样本分词序列是对所述语句样本进行三元分词得到的；

所述将所述处理层的所述语言特征与所述第一层处理结果进行融合，得到第二层处理结果，包括：

将所述处理层的所述二元样本分词序列、所述三元样本分词序列中至少一种与所述第一层处理结果进行融合，得到第二层处理结果。

4.根据权利要求1或2所述的方法，其特征在于，所述基于每个所述处理层所对应的语言表示，获取与所述语言表示对应的语言特征，包括：

当所述处理层的语言表示为短语级别的语言表示时，获取样本词嵌入向量、样本关系向量表示中至少一种；

所述样本词嵌入向量是对所述语句样本分词后再进行向量转换得到的；

所述样本关系向量表示是对所述语句样本进行命名实体识别，得到样本命名实体，并将所述样本命名实体输入至知识图谱向量表示模型中得到的；

将所述处理层的样本词嵌入向量、样本关系向量表示中至少一种与所述第一层处理结果进行融合，得到第二层处理结果。

5.根据权利要求1或2所述的方法，其特征在于，所述基于每个所述处理层所对应的语言表示，获取与所述语言表示对应的语言特征，包括：

当所述处理层的语言表示为句法级别的语言表示时，获取所述语句样本对应的样本句法分析向量、样本词性特征向量中至少一种；

所述样本句法分析向量是对所述语句样本进行句法分析得到的；

所述样本词性特征向量是对所述语句样本进行词性分析得到的；

将所述处理层的所述样本句法分析向量、样本词性特征向量中至少一种与所述第一层处理结果进行融合，得到第二层处理结果。

6.根据权利要求1或2所述的方法，其特征在于，所述基于每个所述处理层所对应的语言表示，获取与所述语言表示对应的语言特征，包括：

当所述处理层的语言表示为语义级别的语言表示时，对所述语句样本进行向量转换，获得所述语句样本对应的语句样本嵌入向量；

将所述语句样本嵌入向量和所述第一层处理结果进行融合，得到第二层处理结果。

7.一种语言模型的处理方法，其特征在于，所述方法包括：

获取语句样本；

对所述语句样本进行分词，得到样本分词序列；

将所述样本分词序列输入至预训练语言模型中；

将每个第二层处理结果按照相应处理层的层权重进行加权融合，获得融合结果；

根据所述融合结果调整所述预训练语言模型，并继续训练，直至获得训练完成的语言模型。

8.根据权利要求7所述的方法，其特征在于，所述不同级别的语言表示包括表面级别、短语级别、句法级别、语义级别的语言表示中至少一种，所述表面级别是指字面级别。

9.根据权利要求7或8所述的方法，其特征在于，所述对所述语句样本进行分词，得到样本分词序列，包括：

对所述语句样本进行一元分词，得到一元样本分词序列；

10.根据权利要求7或8所述的方法，其特征在于，所述基于每个所述处理层所对应的语言表示，获取与所述语言表示对应的语言特征，包括：

11.根据权利要求7或8所述的方法，其特征在于，所述基于每个所述处理层所对应的语言表示，获取与所述语言表示对应的语言特征，包括：

12.根据权利要求7或8所述的方法，其特征在于，所述基于每个所述处理层所对应的语言表示，获取与所述语言表示对应的语言特征，包括：

13.根据权利要求7所述的方法，其特征在于，对所述预训练语言模型的调整至少包括对所述层权重的调整。

14.根据权利要求13所述的方法，其特征在于，所述将每个第二层处理结果按照相应处理层的层权重进行加权融合，获得融合结果，包括：

将每个处理层的层权重进行归一化处理，得到每一处理层的归一化权重；

按照每个处理层的归一化权重，将每个处理层对应的第二层处理结果进行加权求和，得到融合结果。

15.根据权利要求13所述的方法，其特征在于，所述根据所述融合结果调整所述预训练语言模型，包括：

根据所述融合结果确定相应的类别预测概率；

获取所述语句样本对应的标注值；

根据所述类别预测概率与所述标注值确定损失值；

将所述损失值在所述预训练语言模型中的每一处理层进行反向传播，以调整所述预训练语言模型的模型参数，所述模型参数包括所述层权重。

16.根据权利要求15所述的方法，其特征在于，所述融合结果为融合矩阵；所述模型参数包括所述预训练语言模型中权重层中的权重矩阵；

所述根据所述融合结果确定相应的类别预测概率，包括：

将所述融合结果输入所述预训练语言模型中的权重层；

通过所述权重层中的权重矩阵，对所述融合矩阵进行加权处理，获得类别预测概率向量。

17.一种语句处理方法，其特征在于，所述方法包括：

获取语句；

对所述语句进行分词，得到分词序列；

将所述分词序列输入至语言模型中；

根据所述语言模型的最后一层的第二层处理结果确定所述语句的类别预测概率；

基于所述类别预测概率确定所述语句的类别。

18.一种语句处理方法，其特征在于，所述方法包括：

获取语句；

对所述语句进行分词，得到分词序列；

将所述分词序列输入至语言模型中；

根据所述融合结果确定所述语句的类别预测概率；

基于所述类别预测概率确定所述语句的类别。

19.一种语句搜索方法，其特征在于，所述方法包括：

获取搜索语句；

根据每个拼接语句对应的所述语言模型的最后一层的第二层处理结果，分别确定所述搜索语句和搜索结果集中每个搜索结果之间的相似度；

按照相似度筛选符合相似度条件的搜索结果并输出。

20.根据权利要求19所述的方法，其特征在于，在所述获取搜索语句之后，所述方法还包括：

21.一种语句搜索方法，其特征在于，所述方法包括：

获取搜索语句；

根据所述融合结果分别确定所述搜索语句和搜索结果集中每个搜索结果之间的相似度；

按照相似度筛选符合相似度条件的搜索结果并输出。

22.根据权利要求21所述的方法，其特征在于，在所述获取搜索语句之后，所述方法还包括：

23.一种语言模型的处理装置，其特征在于，所述装置包括：

样本获取模块，用于获取语句样本；

层处理模块，用于通过所述预训练语言模型中依次连接的多个处理层处理所述样本分词序列，获得每个处理层对应的第一层处理结果，所述依次连接的多个处理层分别输出的第一层处理结果，分别是不同级别的语言表示；

特征增强模块，用于基于处理层所对应的语言表示，获取与所述语言表示对应的语言特征；

所述特征增强模块，用于将所述处理层的所述语言特征与所述第一层处理结果进行融合，得到处理层的第二层处理结果；

调整模块，用于根据所述预训练语言模型的最后一层的第二层处理结果调整所述预训练语言模型，并继续训练，直至获得训练完成的语言模型。

24.根据权利要求23所述的装置，其特征在于，所述不同级别的语言表示包括表面级别、短语级别、句法级别、语义级别的语言表示中至少一种。

25.根据权利要求23或24所述的装置，其特征在于，所述层处理模块用于对所述语句样本进行一元分词，得到一元样本分词序列；当所述处理层所对应的语言表示为表面级别的语言表示时，获取二元样本分词序列、三元样本分词序列中至少一种；所述二元样本分词序列是对所述语句样本进行二元分词得到的；所述三元样本分词序列是对所述语句样本进行三元分词得到的；

所述特征增强模块用于将所述处理层的所述二元样本分词序列、所述三元样本分词序列中至少一种与所述第一层处理结果进行融合，得到第二层处理结果。

26.根据权利要求23或24所述的装置，其特征在于，所述层处理模块用于当所述处理层的语言表示为短语级别的语言表示时，获取样本词嵌入向量、样本关系向量表示中至少一种；所述样本词嵌入向量是对所述语句样本分词后再进行向量转换得到的；所述样本关系向量表示是对所述语句样本进行命名实体识别，得到样本命名实体，并将所述样本命名实体输入至知识图谱向量表示模型中得到的；

所述特征增强模块用于将所述处理层的样本词嵌入向量、样本关系向量表示中至少一种与所述第一层处理结果进行融合，得到第二层处理结果。

27.根据权利要求23或24所述的装置，其特征在于，所述层处理模块用于当所述处理层的语言表示为句法级别的语言表示时，获取所述语句样本对应的样本句法分析向量、样本词性特征向量中至少一种；所述样本句法分析向量是对所述语句样本进行句法分析得到的；所述样本词性特征向量是对所述语句样本进行词性分析得到的；

所述特征增强模块用于将所述处理层的所述样本句法分析向量、样本词性特征向量中至少一种与所述第一层处理结果进行融合，得到第二层处理结果。

28.根据权利要求23或24所述的装置，其特征在于，所述层处理模块用于当所述处理层的语言表示为语义级别的语言表示时，对所述语句样本进行向量转换，获得所述语句样本对应的语句样本嵌入向量；

所述特征增强模块用于将所述语句样本嵌入向量和所述第一层处理结果进行融合，得到第二层处理结果。

29.一种语言模型的处理装置，其特征在于，所述装置包括：

样本获取模块，用于获取语句样本；

调整模块，用于将每个第二层处理结果按照相应处理层的层权重进行加权融合，获得融合结果；

所述调整模块，用于根据所述融合结果调整所述预训练语言模型，并继续训练，直至获得训练完成的语言模型。

30.根据权利要求29所述的装置，其特征在于，所述不同级别的语言表示包括表面级别、短语级别、句法级别、语义级别的语言表示中至少一种。

31.根据权利要求29或30所述的装置，其特征在于，所述层处理模块用于对所述语句样本进行一元分词，得到一元样本分词序列；当所述处理层所对应的语言表示为表面级别的语言表示时，获取二元样本分词序列、三元样本分词序列中至少一种；所述二元样本分词序列是对所述语句样本进行二元分词得到的；所述三元样本分词序列是对所述语句样本进行三元分词得到的；

32.根据权利要求29或30所述的装置，其特征在于，所述层处理模块用于当所述处理层的语言表示为短语级别的语言表示时，获取样本词嵌入向量、样本关系向量表示中至少一种；所述样本词嵌入向量是对所述语句样本分词后再进行向量转换得到的；所述样本关系向量表示是对所述语句样本进行命名实体识别，得到样本命名实体，并将所述样本命名实体输入至知识图谱向量表示模型中得到的；

33.根据权利要求29或30所述的装置，其特征在于，所述层处理模块用于当所述处理层的语言表示为句法级别的语言表示时，获取所述语句样本对应的样本句法分析向量、样本词性特征向量中至少一种；所述样本句法分析向量是对所述语句样本进行句法分析得到的；所述样本词性特征向量是对所述语句样本进行词性分析得到的；

34.根据权利要求29或30所述的装置，其特征在于，所述层处理模块用于当所述处理层的语言表示为语义级别的语言表示时，对所述语句样本进行向量转换，获得所述语句样本对应的语句样本嵌入向量；

35.根据权利要求29所述的装置，其特征在于，对所述预训练语言模型的调整至少包括对所述层权重的调整。

36.根据权利要求35所述的装置，其特征在于，所述层处理模块用于将每个处理层的层权重进行归一化处理，得到每一处理层的归一化权重；按照每个处理层的归一化权重，将每个处理层对应的层处理结果进行加权求和，得到融合结果。

37.根据权利要求35所述的装置，其特征在于，所述调整模块用于根据所述融合结果确定相应的类别预测概率；获取所述语句样本对应的标注值；根据所述类别预测概率与所述标注值确定损失值；将所述损失值在所述预训练语言模型中的每一处理层进行反向传播，以调整所述预训练语言模型的模型参数，所述模型参数包括所述层权重。

38.根据权利要求37所述的装置，其特征在于，所述融合结果为融合矩阵；所述模型参数包括所述预训练语言模型中权重层中的权重矩阵；

所述调整模块用于将所述融合结果输入所述预训练语言模型中的权重层；通过所述权重层中的权重矩阵，对所述融合矩阵进行加权处理，获得类别预测概率向量。

39.根据权利要求29或30所述的装置，其特征在于，所述语句样本包括搜索语句样本和对应的搜索结果样本；

所述样本分词模块用于将所述搜索语句样本和对应的搜索结果样本拼接，获得拼接语句；

所述样本分词模块用于对所述拼接语句进行分词，得到样本分词序列；

所述语言模型的处理装置还包括搜索语句获取模块、相似度确定模块和输出模块；

所述搜索语句获取模块用于获取搜索语句；

所述相似度确定模块用于将所述搜索语句和搜索结果集中每个搜索结果分别拼接并分词，输入训练完成的语言模型，输出所述搜索语句和每个搜索结果的相似度；

所述输出模块用于按照相似度筛选符合相似度条件的搜索结果并输出。

40.根据权利要求39所述的装置，其特征在于，所述语言模型的处理装置还包括搜索模块，所述搜索模块用于在搜索结果库中，搜索与所述搜索语句相匹配的预设数量的搜索结果，构成搜索结果集；

所述输出模块用于将所述搜索结果集中的搜索结果按照相似度降序排序并输出。

41.一种语句处理装置，其特征在于，所述装置包括：

获取模块，用于获取语句；

分词模块，用于对所述语句进行分词，得到分词序列；

序列输入模块，用于将所述分词序列输入至语言模型中；

确定模块，用于根据所述语言模型的最后一层的第二层处理结果确定所述语句的类别预测概率；

42.一种语句处理装置，其特征在于，所述装置包括：

获取模块，用于获取语句；

分词模块，用于对所述语句进行分词，得到分词序列；

序列输入模块，用于将所述分词序列输入至语言模型中；

确定模块，用于将每个第二层处理结果按照相应处理层的层权重进行加权融合，获得融合结果；

所述确定模块，用于根据所述融合结果确定所述语句的类别预测概率；

43.根据权利要求42所述的装置，其特征在于，所述融合结果为融合矩阵；所述确定模块用于将所述融合结果输入所述语言模型中的权重层；通过所述权重层中的权重矩阵，对所述融合矩阵进行加权处理，获得类别预测概率向量。

44.一种语句搜索装置，其特征在于，所述装置包括：

搜索语句获取模块，用于获取搜索语句；

层处理模块，用于通过所述语言模型中依次连接的多个处理层处理所述拼接序列，获得每个处理层对应的第一层处理结果，所述依次连接的多个处理层分别输出的第一层处理结果，分别是不同级别的语言表示；

相似度确定模块，用于根据每个拼接语句对应的所述语言模型的最后一层的第二层处理结果，分别确定所述搜索语句和搜索结果集中每个搜索结果之间的相似度；

45.根据权利要求44所述的装置，其特征在于，所述语句搜索装置还包括搜索模块；所述搜索模块用于在搜索结果库中，搜索与所述搜索语句相匹配的预设数量的搜索结果，构成搜索结果集；

46.一种语句搜索装置，其特征在于，所述装置包括：

搜索语句获取模块，用于获取搜索语句；

相似度确定模块，用于将每个第二层处理结果按照相应处理层的层权重进行加权融合，获得融合结果；

所述相似度确定模块，用于根据所述融合结果分别确定所述搜索语句和搜索结果集中每个搜索结果之间的相似度；

47.根据权利要求46所述的装置，其特征在于，所述语句搜索装置还包括搜索模块；所述搜索模块用于在搜索结果库中，搜索与所述搜索语句相匹配的预设数量的搜索结果，构成搜索结果集；

48.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至22中任一项所述的方法的步骤。

49.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至22中任一项所述的方法的步骤。