CN115392218B

CN115392218B - 一种预训练语言模型的构建方法及系统

Info

Publication number: CN115392218B
Application number: CN202210837482.0A
Authority: CN
Inventors: 丁效; 陈薄文; 杜理
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2023-06-20
Anticipated expiration: 2042-07-15
Also published as: CN115392218A

Abstract

本申请公开了一种预训练语言模型的构建方法及系统，方法包括：获取认知语言数据；收录认知语言数据和眼动数据；根据认知语言数据诱导出细化的粒度的认知特征；将加权之后的各认知特征和眼动数据纳入BERT中进行训练，得到一种改进版本的预训练语言模型。本申请通过将人类的眼球运动轨迹捕捉数据与心理语言学关于人类语言学习的相关理论进行结合，并设计新的训练手段和方法，将这两者与预训练模型进行进一步融合，通过这一方法，能够使得预训练模型具有一定程度的人类认知特征，从而使得模型原本的模型更加优秀的任务表现。

Description

一种预训练语言模型的构建方法及系统

技术领域

本申请涉及自然语言处理技术，具体涉及一种预训练语言模型的构建方法及系统。

背景技术

现有的预训练模型通过在文本数据上的大规模预训练的这一崭新的训练手段，大幅提高了模型相比于之前的人工智能模型的表现，使得基于预训练技术产生的模型成为人工智能研究领域的新主流并在各个工业领域和学术领域都得到了广泛的应用，但是现有技术依旧有其局限性。

尽管预训练模型是人工智能模型的新一代演进，但是实际上其依旧不能称之为智能模型，这是因为预训练模型并不能像人类一样进行思考，预训练模型的知识均来自于对大规模文本的学习。因此尽管预训练模型能在许多任务上达到较高的预测准确率，但是其并不能做出人类一样的学习行为。这一点主要体现在人工智能模型多数是一个黑箱(BlackBox)模型,即当我们给一个输入时，模型会给出一个输出，而黑箱意味着从输入到输出的不可解释性。通俗的来说，即模型给出了一个正确的输出，但是并不能解释给出该输出的原因。

发明内容

本申请将人类的眼球运动轨迹捕捉数据与心理语言学关于人类语言学习的相关理论进行结合，并设计新的训练手段和方法，将这两者与预训练模型进行进一步的融合，使得预训练模型具有一定程度的人类认知特征，从而使得模型更加的智能的同时还能够得到比原本的模型更加优秀的任务表现。

为实现上述目的，本申请提供了一种预训练语言模型的构建方法，包括以下步骤：

收录认知语言数据和眼动数据；

根据所述认知语言数据诱导出细化的粒度的认知特征；

将加权之后的各所述认知特征和所述眼动数据纳入BERT中进行训练，得到一种预训练语言模型。

可选的，所述认知语言特征包括：细粒度的句法结构特征和心理语言学特征。

可选的，提取所述心理语言学特征的方法包括：

构建初始认知特征集；

根据所述认知特征集提取若干细粒度的认知特征；

将所述认知特征分为下层特征和上层特征。

可选的，过滤所述眼动数据中统计学上不重要的所述心理语言学特征。

可选的，所述加权的方法包括：

给定一个句子，确定该句子的可读性评估得分V和一层HCLS的 [CLS]标记的嵌入；

将所述可读性评估得分V和所述HCLS的[CLS]标记的嵌入映射到一个八维向量O；

计算各所述认知特征的集合T与所述八维向量O的哈达玛积，得到加权后的特征集T'。

本申请还提供了一种预训练语言模型的构建系统，包括：收录模块、诱导模块和训练模块；

所述收录模块用于收录认知语言数据和眼动数据；

所述诱导模块用于根据所述认知语言数据诱导出细化的粒度的认知特征；

训练模块用于将加权之后的各所述认知特征和所述眼动数据纳入BERT中进行训练，得到一种预训练语言模型。

可选的，利用所述诱导模块提取心理语言学特征的工作流程包括：

构建初始认知特征集；

根据所述认知特征集提取若干细粒度的认知特征；

将所述认知特征分为下层特征和上层特征。

可选的，所述训练模块确定权重的工作流程包括：

给定一个句子，确定该句子的可读性评估得分V和一层H_CLS；

将所述可读性评估得分V和所述H_CLS映射到一个八维向量O；

本申请的有益效果为：

本申请通过将人类的眼球运动轨迹捕捉数据与心理语言学关于人类语言学习的相关理论进行结合，并设计新的训练手段和方法，将这两者与预训练模型进行进一步融合，通过这一方法，能够使得预训练模型具有一定程度的人类认知特征，从而使得模型更加智能的同时还能够得到比原本的模型更加优秀的任务表现。

附图说明

为了更清楚地说明本申请的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中的方法流程示意图；

图2为人类注意力示意图；

图3为Bi-LSTM模型示意图；

图4为CogBERT模型示意图；

图5为本申请系统结构示意图；

图6为特征插入层实验示意图；

图7为模型的输出注意力示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

实施例一

如图一所示为本申请方法流程示意图，主要解决的问题是将认知语言处理信号整合到预先训练好的语言模型中。现有的方法通常是在在认知数据上对预训练的模型进行微调，从而使识别文本和认知信号之间的语义差距。

为了填补这一空白，本申请提出了CogBERT，一个可以从认知数据中诱导出细化的粒度的认知特征，并将认知特征纳入BERT并通过自适应调整认知特征的权重，将认知特征纳入BERT中并适应性地调整不同自然语言处理任务的认知特征的权重，广泛的实验表明了所提出的模型具有如下的相关特性：

(1)认知指导下的预训练模型在10个任务上的表现始终优于基本预训练模型；本申请在10个自然语言处理任务上比基本的预训练模型表现更好。

(2)不同的认知特征对不同的自然语言处理任务有不同的贡献。基于这个观察，本申请给出了一个细化的解释，这也有助于了解为什么认知数据对自然语言处理有帮助。

(3)预训练模型的不同转换层其他不同的转换层应该编码不同的认知特征，即词汇层面的认知特征在底部和语义层面的认知特征在顶部。

(4)注意力的可视化证明了CogBERT与人类的眼动数据模式相一致，并且提高了其自然语言的理解能力。

预训练的模型，如BERT、GPT和RoBERTa，给自然语言处理任务带来了较大的表现改进。现有的工作主要是通过微调预训练的模型来预测语言诱导的大脑记录，从而纳入认知信号。

然而，这类工作不能对认知数据为何对自然语言处理有帮助给出精细的分析和解释，而对于这一点的进一步研究对于指导未来受认知启发的自然语言处理研究非常重要，即应该从认知数据中诱导出什么样的认知特征，以及这些认知特征如何有助于自然语言处理任务。

例如，图2显示了以英语为母语的人的眼球追踪数据，其中图 2(a)行说明了人类在正常阅读过程中的固定次数。图2(b)行和(c)行分别显示了在自然语言处理任务中的情感分类和命名实体识别的固定次数。可以看到，对于同一个句子，在不同的自然语言处理任务下，人类的注意力是不同的。特别是，在情感分类任务中，人们更关注情感词，如“new”和“huge improvement”，这一类往往会带来正面评价的词。而对于命名实体识别任务，人们倾向于关注命名的实体词，如“Apple”和“AirPods”。现有的研究不能通过简单地在认知数据上微调预先训练好的模型来给出这种细粒度的分析。

为了促进这一点，本申请提出了CogBERT，一个认知指导的预训练模型。具体地，本申请专注于使用眼球追踪数据的来提高当前预训练语言模型，该数据通过追踪眼球运动和测量固定时间来提供母语者的眼球追踪信息。首先根据心理语言学认知理论提取经过sPacy分类之后的特征。然后，过滤掉眼动数据中统计学上不重要的特征，这意味着具有这些特征的单词的人类注意力并不明显高于/低于单词的平均注意力。随后，通过在不同的自然语言处理任务上进行微调，将这些经过认知验证的特征纳入BERT。在微调过程中，根据不同的自然语言处理任务为每一类特征学习不同的权重。

结果表明，CogBERT可以在三个基准数据集上的十个自然语言处理任务中表现得更好。

CogBERT所使用的特征及其相关分类如表1所示：

表1

CogBERT以两阶段的方式进行工作。第一阶段是从文本中诱导出认知特征，并在人类阅读信号的指导下为这些特征分配权重。在第二阶段，将认知特征整合到BERT中，并为不同的自然语言处理任务学习任务特定的特征权重。

心理语言学研究表明，人类阅读能力的获得主要体现在两个方面, 包括：下层线索和上层线索。下层线索包括语音和形态等特征，对于下层特征的识别随着阅读者的重复和练习而变得准确和自动。同时，上层线索包括语言结构和语义理解等,相互促进，并与下层结构交织在一起，形成一个熟练的读者。在本实施例中，构建了一个初始认知特征集，包括使用spaCy工具从文本中提取的46个细粒度的认知特征，并将其分为下层特征(单词级)和上层特征(语义/语法级)。

然而，并不是所有的认知特征在眼球追踪数据中都具有统计学意义。因此，本申请过滤掉了具有这些特征的词语的人类注意力不明显高于/低于词语的平均注意力的认知特征，保留了14个可用的认知特征，并将它们归为表1所示的8个独立特征。

通过使用spaCy工具从文本中提取特征。然而，这些特征不应该被赋予相同或随机的权重，因为它们对适应人类对句子的理解的贡献是不同的。因此，如图3所示，给定一个输入句子S＝{s₁,s₂,…,s_l} 有l个单词，通过训练一个两层的Bi-LSTM，将每个单词嵌入到一个加权的八维认知特征向量。

根据认知理论，认知特征可以解释人类凝视信息的分配。因此，本实施例使用眼球追踪数据的人类关注次数信息作为监督信号来训练Bi-LSTM。本实施例采用均方误差损失

其中x∈R^l是预测的固定次数得分，y∈R^l是预测目标值得分。

为了避免预测不合理的特征分数，本实施例还计算了预测的特征分数P_lf＝{p_l1,…,p_lr}∈R^l×r与预测目标值Q_lt＝{q_l1,…,q_lr}∈R^l×r；例如：如果一个词w_i是一个命名实体识别词，它的预测特征分数在命名实体识别的特征维度上是1，把它表示为损失

其中r为特征数量。然后用loss_T＝loss_G+ loss_F的目标来训练模型。

通过训练Bi-LSTM模型，得到了不同线索的预测特征向量，这些特征向量是通过模仿人类的阅读行为来学习的，一个预测目标值特征分数被用来限制特征向量的预测，以定位在一个合理的数值范围，这两个过程分别对应于loss_G和loss_F,预测的特征向量将在以下过程中被用于纳入预训练的模型。

通过Bi-LSTM，如果一个句子的长度是L，采用Bi-LSTM模型预测的特征向量来生成特征向量和矩阵，过程如下:

1.对于下层句子，Bi-LSTM模型直接输出每个词的每个维度的加权认知分数，使得下层句子的每个特征形成一个长度为的向量。

2.对于上层词组，由于上层词组的特征应该被理解为一个群体，所以上层词组的每个特征形成一个长度为的矩阵。例如，名词短语或句法关系中的单个词没有实际意义，除非它们与对应的词组合在一起，形成一个有意义的单元。因此，每个上层线索特征形成一个矩阵，矩阵的加权认知分数是Bi-LSTM模型在该维度的平均输出。

此外，在学习不同的自然语言处理任务时，不同的认知特征也被赋予了不同的权重。例如，对于情感分类任务，情感词特征应该比其他特征更重要。为了解决这个问题，利用Flesch可读性评估来评估认知特征对不同自然语言处理任务的句子可读性的贡献。具体地，使用不同的特征权重组合来适应Flesch可读性，学习对难读的句子使用什么特征组合，对易读的句子使用什么特征。

形式上，本实施例采用了Flesch可读性评估得分和V一层H_CLS的[CLS]标记的嵌入来控制不同特征的权重。给定一个句子S，一个句子中的单词数为s_w，一个句子中的音节数为s_s。那么这个句子的可读性得分计算为

其中V(S)中的常数是来自之前研究的人工经验值。

由于V∈R¹是一个一维数，H_CLS∈R^n×1是一个的维度向量，对于 BERT-Base来说n＝768，认知特征集T包含八个特征，包括{t₁，...，t_r}。这些认知特征是由Bi-LSTM模型产生的。首先，将V和H_CLS映射到一个八维向量O，为每个特征分配一个合理的权重。

如图4所示，将V和H_CLS映射为正态分布的B～Norm(0，σ²)方差集σ＝{σ₁，...σ_r}，其中B的平均值为零，σ的计算方法为：

其中

是Hadamard积，f是tanh激活函数。N∈R^1×r是一个映射向量，M∈R^n×r是一个映射矩阵。然后计算出加权的特征集T′：

其中O是从正态分布B中抽取的特征权重，样本点x＝0。

本实施例把不同的认知特征放在不同的层中，其中低层的特征嵌入到低层，高层的特征嵌入到高层。使用卷积神经网络来计算下层特征和上层特征的特征增强的注意力得分，分别表示为M_L∈R^l×l和 M_U∈R^l×l。

M_L＝Diag(1DCNN(t₁，t₂，t₃，t₄))

M_U＝Diag(1DCNN(t₁，t₂，t₃，t₄)

M_U＝2DCNN(t₅，t₆，t₇，t₈)。

其中Diag指的是将1DCNN的输出填充到特征增强注意力矩阵的对角线上，，1DCNN和2DCNN指的是一维和二维的CNN网络。然后得到特征增强的下层注意矩阵A'_L∈R^l×l和高层注意力矩阵A'_U∈R^l×l。

G_L＝f(J^TH_L)，G_U＝f(J^TH_U)

其中A_L∈R^l×l和A_U∈R^l×l是低层和高层预训练模型的原始注意矩阵。G∈R^k×l是每个Transformer头的门控向量，用于平衡原始注意力和特征增强注意力的组合。H＝{H_CLS,H₀…,H_l}∈R^n×l是输入句子S的嵌入，其中H_CLS是由BERT产生的[CLS]标记的嵌入。J∈R^n×k是一个映射矩阵，将H映射到门向量G，k是转换头的数量。这个过程对所有预训练模型的层都是一样的。本申请系统结构示意图如图5所示。

实施例二

下面将结合本实施例，通过以下几个人工智能领域的评价框架来说明本申请在解决实际问题上的优越性。

1.GLUE Benchmark:这一评价框架包含了数个人工智能领域的相关任务，包括了情感识别、转述句识别、问答推理、文本蕴含、文本语法可接收性、文本相似度识别、多类型文本推理和疑问句相似度判别。

2.CoNLL2000 Chunking任务：该任务出自CoNLL评测会议，该会议由国际计算语义学会自然语言学习特别兴趣组(ACL’s Special Interest Group on Natural LanguageLearning)举办，本实施例所选用任务选自于CoNLL2000会议中的Chunking任务，该任务要求模型要能够识别文本中的语义块，即能够组成具体意义的一段文字，并在原文本当中进行标注。

3.CoNLL2003命名实体识别任务：该任务选自于CoNLL2003会议中的命名实体识别任务，该任务要求模型能够识别文本当中的实体信息，即能够识别具体在现实世界中存在的实体，例如公司，组织，机构，时间等，并在原本的输入文本当中进行标注。

4.人类眼动数据预测任务：该任务主要目标为要求模型能根据输入的文本，预测每一个词会被人类在多大程度上关注，例如人类会在某一个词上的驻留时间或者驻留次数，该预测任务主要由之前关于人类眼动数据的相关研究构成，例如Zuco 1.0,Zuco 2.0,Geco数据等，这些数据通过特殊的捕捉设备记录了人类阅读文本时的眼球观测数据，本任务的目的是为了让模型来对人类的眼动数据进行预测。

GLUE实验效果

GLUE Benchmark是一组测试模型理解自然语言能力的任务。采用Transformer、BERT、RoBERTa和T5中实施本申请的方法。结果如表2所示。

表2

由表2可见：

(1)与BERT和RoBERTa相比，CogBERT取得了更好的结果。

(2)Syntax-BERT与CogBERT的比较表明，认知特征可以进一步提高BERT在自然语言处理任务上的性能。这主要是因为本申请使用的认知特征，一方面包括细粒度的句法结构特征。另一方面，本申请涉及更多的心理语言学特征，并通过眼动数据进行验证。

(3)CogBERT优于fMRI-EEG BERT和Eye-tracking BERT，这表明在认知数据上的微调不能完全发挥认知数据的价值。通过从认知数据中诱导出细粒度的认知特征，可以为这一工作思路提供一个新的视角。

(4)与CogBERT(随机)相比，CogBERT取得了持续更好的表现，这证实了不同的认知特征对大脑的语言理解有不同的贡献。学习加权的认知特征向量对CogBERT是有效的。

序列标注实验结果如表3所示：

表3

除了GLUE Benchmark，本实施例还在两个序列标签基准数据集上评估了CogBERT。CoNLL-2000用于文本分块，CoNLL-2003用于命名实体识别。结果见表3，命名实体识别的结果如表2所示。对于 Chunking和命名实体识别任务，CogBERT的NP Chunk和命名实体识别特征权重设置为0，以确保特征的数据没有没有数据泄漏。

本实施例将CogBERT与SeqVat进行了比较，后者使用虚拟对抗训练来提高模型的性能和鲁棒性，在CoNLL-2000文本分块任务上。本申请的方法在基准数据集上的表现优于所有基线，这表明CogBERT 也可以使序列标签任务受益。

眼动数据预测实验效果如表4所示：

表4

CogBERT不仅可以用于自然语言处理任务，还可以用于大脑的语言理解。同时，本实施例评估了CogBERT在眼球跟踪预测上的有效性，使用三个眼球跟踪基准数据集，包括Zuco(Zuco 1.0和Zuco 2.0)， Geco(EN)和Geco(NL)。这项任务测试了模型在八个人类眼球动作特征上学习人类阅读行为的能力，包括首次阅读时间、总阅读时间、固定次数、平均固定时间、首次通过时间、固定比例、再注意次数和重新阅读比例。任务的表现是由100减去平均绝对误差来评估的。

本实施例还与BERT-EN、BERT-NL、BERT-MULTI和XLM进行比较。 CogBERT分别基于BERT-EN和BERT-NL，结果如表4所示。

结果表明，CogBERT的性能优于BERT-EN、BERT-NL、BERT-MULTI 和XLM-17，并取得了与XLM-100相当的性能，尽管CogBERT是基于 BERT的，且只基于一种语言进行了预训练，而XLM-100则对100多种语言进行了预训练。这也显示了从认知数据中诱导出的认知特征对于理解和解释人类眼动行为的有效性。

表5

如表5所示，本实施例进行了一个CogBERT的解释性测试，以输出CogBERT在不同任务中的特征权重。本实施例中展示了文本语法可接收性、转述句识别、文本蕴含、CoNLL-2000Chunking和CoNLL-2003 命名实体识别任务中的特征权重，特征权重C'_f∈Rⁱ按数据大小和特征密度的比例计算如下：

C'_f＝C_s/max(C_s) (3)

其中一个任务的数据大小为Z∈R^z，CogBERT的12层平均特征权重为C∈R^r×z，特征密度为f_d∈R^r。C_s是由f_d缩放的特征权重，任务中每个特征的计数为U∈R^r×z；例如：如果一个训练例子中有3个实体词，这个例子的命名实体识别特征计数为3。

CogBERT可以在各种任务中为不同的特征分配合理的权重。在语言可接受性判断任务中，CogBERT将名词短语评价为最重要的特征，并给其他语法相关的特征打高分。例如：在一个句子转述任务中，CogBERT认为命名实体识别和情感是两个最重要的特征。因为如果两个句子没有共享相同的实体和情感，它们可能不是一个转述。而在一个文本蕴含任务中，CogBERT认为NP Chunk是最重要的特征，这可能是因为如果一个句子可以从另一个句子中推断出来，它们可能有类似的短语结构或意义。所以在CoNLL-2000Chunking和CoNLL-2003命名实体识别任务中，CogBERT分别将NP Chunk和实体列为最关键的特征。

表6

如表6所示，通过对CogBERT在下游任务上的表现有关的几个因素进行重要性研究；并在情感识别，转述句识别和问答推理的开发集上得到实验结果。可知，替换下层或上层的认知特征会导致模型性能的下降，而去除所有层的认知特征会进一步影响模型性能。

同时，尽管可读性对于模型来说没有认知特征那么重要，但去除它也会损害性能。不分层是指将所有的特征整合到BERT的每一层，证明以分层的方式纳入特征是认知增强自然语言处理的有效方式。

特征插入层分析

如图6所示，为对情感识别、转述句识别、问答推理和Geco(EN) 任务的开发集的比较实验，用于确定BERT的哪一层应该是下层和上层认知特征的边界，其中左边和右边的Y轴分别是自然语言处理和眼球追踪预测任务的性能。X轴是特征嵌入所在的层，例如，如果层数为6，则将下层认知特征纳入BERT的1-6层，上层认知特征纳入其余层。

其中，以第4层为界，所有任务的表现都达到了最佳，这意味着 BERT的低层更适合低层线索认知特征，而高级线索认知特征在高层更有用，这一实验结果可以有效地指导未来认知增强预训练模型的研究。

为了定性地分析本申请方法的有效性，将CogBERT的注意力进行可视化，并与BERT的注意力和人类进行比较。从情感识别、命名实体识别和转述句识别任务中选择案例。为了与人类的认知进行比较，给定一个特定的自然语言处理任务，本实施例设定四个标注者，在阅读输入的句子时标注他们的注意词。从预训练模型的高层中选择注意力矩阵，这些分数可以捕捉到特定的任务特征。图7说明了情感识别和命名实体识别的注意力可视化。

图7(a)展示了CoNLL-2003命名实体识别任务的注意力可视化，说明CogBERT像人类一样对命名实体识别词“Asian Cup”、“Japan”和“Syria”给予更多的关注，而BERT对这些词的关注很少。图7(b) 展示了情感识别任务的注意力可视化，显示CogBERT捕捉到了关键的情感词“fun”和“okay”，这两个词从人类的判断来讲也十分重要。相比之下，BERT未能关注这些词。这些实验结果表明，认知指导的预训练模型可以通过学习人类的阅读行为从而接近人类的认知。

以上所述的实施例仅是对本申请优选方式进行的描述，并非对本申请的范围进行限定，在不脱离本申请设计精神的前提下，本领域普通技术人员对本申请的技术方案做出的各种变形和改进，均应落入本申请权利要求书确定的保护范围内。

Claims

1.一种预训练语言模型的构建方法，其特征在于，包括以下步骤：

收录认知语言数据和眼动数据；

根据所述认知语言数据诱导出细化的粒度的认知特征；具体步骤包括：使用眼球追踪数据的人类关注次数信息作为监督信号来训练Bi-LSTM；采用均方误差损失，定义一个输入句子S＝{s₁，s₂，…，s_l}有l个单词；

其中，x∈R^l是预测的固定次数得分，y∈R^l是预测目标值得分；之后，计算预测的特征分数P_lf＝{p_l1，…，p_lr}∈R^l×r与预测目标值Q_lt＝{q_l1，…，q_lr}∈R^l×r；对于命名实体识别词w_i，所述w_i的预测特征分数在命名实体识别的特征维度上是1，将所述w_i表示为损失

其中，r为特征数量；然后用loss_T＝loss_G+loss_F的目标来训练模型；通过训练Bi-LSTM模型，得到不同线索的预测特征向量；

将加权之后的各所述认知特征和所述眼动数据纳入BERT中进行训练，得到一种改进后的预训练语言模型；其中，所述认知语言特征包括：细粒度的句法结构特征和心理语言学特征；

基于心理语言学的特征构建方法包括：

构建初始认知特征集；

根据所述认知特征集提取若干细粒度的认知特征；

将所述根据所述认知特征集提取出的若干细粒度的认知特征分为下层特征和上层特征；

所述加权的方法包括：

给定一个句子，确定该句子的可读性评估得分V和一层H_CLS的[CLS]标记的嵌入；

将所述可读性评估得分V和所述H_CLS的[CLS]标记的嵌入映射到一个八维向量O；其中，H_CLS是由BERT产生的[CLS]标记的嵌入；

计算各所述认知特征的集合T与所述八维向量O的哈达玛积，得到加权后的特征集T'；进行所述训练的方法包括：把不同的所述认知特征放在不同的层中，其中低层的特征嵌入到低层，高层的特征嵌入到高层；使用卷积神经网络来计算下层特征和上层特征的特征增强的注意力得分，分别表示为ML∈R^l×l和MU∈R^l×l。

2.根据权利要求1所述的预训练语言模型的构建方法，其特征在于，过滤所述眼动数据中统计学上不重要的语言特征。

3.一种预训练语言模型的构建系统，包括：收录模块、诱导模块和训练模块；

所述收录模块用于收录认知语言数据和眼动数据；

所述诱导模块用于根据所述认知语言数据诱导出细化的粒度的认知特征；具体流程包括：使用眼球追踪数据的人类关注次数信息作为监督信号来训练Bi-LSTM；采用均方误差损失，定义一个输入句子S＝{s₁，s₂，…，s_l}有l个单词；

其中，x∈R^l是预测的固定次数得分，y∈R^l是预测目标值得分；

之后，计算预测的特征分数P_lf＝{p_l1，…，p_lr}∈R^l×r与预测目标值Q_lt＝{q_l1，…，q_lr}∈R^l×r；对于命名实体识别词w_i，所述w_i的预测特征分数在命名实体识别的特征维度上是1，将所述w_i表示为损失

所述训练模块用于将加权之后的各所述认知特征和所述眼动数据纳入BERT中进行训练，得到一种改进后的预训练语言模型；其中，所述认知语言特征包括：细粒度的句法结构特征和心理语言学特征；

基于心理语言学的特征构建流程包括：

构建初始认知特征集；

根据所述认知特征集提取若干细粒度的认知特征；

所述加权的流程包括：

4.根据权利要求3所述的预训练语言模型的构建系统，其特征在于，所述训练模块确定权重的工作流程包括：

给定一个句子，确定该句子的可读性评估得分V和一层H_CLS；

将所述可读性评估得分V和所述H_CLS映射到一个八维向量O；其中，H_CLS是由BERT产生的[CLS]标记的嵌入；