CN114861643A

CN114861643A - 一种基于类脑注意机制优化机器阅读理解能力的方法

Info

Publication number: CN114861643A
Application number: CN202210364206.7A
Authority: CN
Inventors: 丁鼐; 马树楷; 邹家杰
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2022-08-05

Abstract

本发明公开了一种基于类脑注意机制优化机器阅读理解能力的方法，该方法通过认知科学实验采集阅读眼动数据，以注视时长作为指标，量化人脑的阅读注意分布；提取自下而上的文本特征、视觉特征和自上而下的问题相关特征，采用线性回归方法拟合人脑阅读注意分布；最后通过最大化模型准确率和最小化注意力模型输出层单词注意权重与人脑单词注意分布估计值的交叉熵损失函数，利用反向传播更新阅读理解模型参数得到最优模型注意机制。本发明既有效提升了机器阅读理解任务的准确性，又可以用于解释模型阅读理解行为，为机器阅读理解系统进一步优化提供基础。

Description

一种基于类脑注意机制优化机器阅读理解能力的方法

技术领域

本发明涉及自然语言处理技术领域，更具体地说，涉及一种基于类脑注意机制优化机器阅读理解能力的方法。

背景技术

阅读理解作为经典的信息处理问题，可以分为顺序浏览和搜索式阅读两种模式，后者通常以满足特定信息需求为目的，更常见于真实场景。这种问题导向型阅读理解涉及对长时程动态信息流进行筛选与整合，而人脑加工信息的认知资源有限，因此，人脑会采用注意机制，有选择性地分配认知资源，对阅读问题相关的关键信息进行深入加工。近年来，人工智能领域在人工神经网络中也引入注意机制的概念，对于文本序列信息加工问题，注意力模型对序列中的各个单元依据其重要性赋予不同权重，从而有效提升了模型自然语言理解能力。

机器阅读理解要求机器阅读并理解人类自然语言文本，在此基础上，解答与文本信息相关的问题。该任务通常被用来衡量机器自然语言理解能力，是自然语言处理领域的研究热点之一。典型的机器阅读理解系统一般包括嵌入编码、特征抽取、文章-问题交互和答案预测四个模块(ref:Neural Machine Reading Comprehension:Methods andTrends)：嵌入编码负责将自然语言形式的文章和问题转化为固定维度的向量，以便机器进行处理。常见的编码方式有one-hot表示、分布式词向量(Glove,Word2Vec)，以及ELMo、GPT、Bert等基于上下文的词表示方法。特征提取模块用于提取上下文信息，常用的神经网络模型包括RNN\CNN和基于多头自注意力机制的transformer结构。交互模块负责捕获文章和问题的关系，通常通过注意力机制来计算文章和问题每一个词之间的语义相关程度，以此模拟人类在进行阅读理解重复阅读、挖掘关键信息的行为。最后，预测层根据不同任务类型，基于前三个模块累计得到的信息进行最终的答案预测。近年来，基于注意机制的深度学习阅读理解模型提出，这类模型能更好地挖掘文本的上下文语义信息，有效提升机器阅读理解能力；同时，一系列大规模机器阅读理解数据集公布，为训练和测评深度网络模型提供数据基础。

然而，有研究(Jia&Liang)指出，现有的机器阅读理解系统在具有干扰句的对抗样本上效果明显下降，而人类却能够免受此类对抗攻击的影响进行正常的阅读理解，一定程度上说明现有模型并不能像人一样真正理解自然语言。另一方面，目前大多数神经网络阅读理解模型的训练都依赖于答案预测准确率的优化，而忽略了模型中间结果——注意机制的审查和校正，导致模型无法从机制层面具备类人的阅读理解能力。

发明内容

本发明的目的在于针对现有方法的不足，提供一种基于类脑注意机制优化机器阅读理解能力的方法。

本发明的目的是通过以下技术方案来实现的：一种基于类脑注意机制优化机器阅读理解能力的方法，包括以下步骤：

步骤一：获取阅读文本与相应的阅读理解问题，采集人类阅读的眼动数据，并对眼动数据进行量化处理，得到人类阅读注意分布。

步骤二：对阅读文本进行特征工程，选取自上而下的任务相关度与自下而上的统计值作为特征，得到用于预测人类注意分布的文本特征向量。

步骤三：将语料对应的文本特征向量作为线性回归模型的输入，语料中文章上的人类阅读注意分布作为观测值，对文章单词序列的人类注意分布进行建模；

步骤四：将预测的人类注意分布作为类脑注意机制，引入人工神经网络注意力模型，通过最小化人脑和模型在文本上的注意分布差异，以引导模型产生问题相关的类脑注意力分数计算机制。

步骤五：将问题与问题所对应的阅读文本输入到训练好的类脑注意机制机器阅读模型中，根据输出层计算得到答案。

进一步地，所述步骤一通过以下子步骤来实现：

(1.1)根据认知科学实验需求筛选、改编阅读理解题目，形成适用于特定实验范式的阅读理解语料。

(1.2)依据“先阅读问题，再阅读文章，最后看问题答题”的实验范式，开展认知科学实验，记录被试阅读理解过程中的眼动数据。

(1.3)对于每一篇文章，其所包含的所有单词构成文章单词序列P＝{t₁，t₂，...，t_n}，其中n为文章序列长度，t₁，t₂，...，t_n表示文章P中不同的单词t，获取所有正确回答其对应问题的被试的文章单词序列注视时长，计算每个单位兴趣区上的平均注视时间(此处以单词作为单位兴趣区，方法具体实施时并不限于单词)，作为文章单词序列上的人类注意分布

其中

为每个单词t上的权值。

进一步地，所述步骤二通过以下子步骤来实现：

(2.1)针对文章单词序列进行单词级别特征提取：选取词性标注、命名实体识别、词长分别作为特征F¹、特征F²、特征F³；

(2.2)针对文章单词序列进行篇章级别特征提取：根据语料中文章和问题包含的所有单词获取语料词汇表，计算每篇文章中每个单词的词频作为特征F4，具体计算过程如下公式，其中

表示第i篇文章中第j个词的频次，d表示语料库中文章篇数，n为对应文章的单词数量；

(2.3)针对文章序列进行视觉特征提取：采用自然语言处理工具对文章文本进行分段、分句和词干提取处理，获得文章句子-单词序列

其中上标的第一位数字表示单词对应的文章段落序号，第二位数字表示单词对应的文章句子序号，p、s分别为文章段落和句子数量；选取单词段落序号、单词句子序号、单词序号分别作为特征F⁵、特征F⁶、特征F⁷；

(2.4)针对问题序列和文章序列提取语义相似度特征：采用自然语言处理工具，对文章文本和问题文本进行词干提取和去停用词处理，分别获得文章单词序列P＝{t₁，t₂，...，t_n}和问题单词序列Q＝{q₁，q₂，...，q_m}，其中m为问题序列长度，q₁，q₂，...，q_m表示问题文本中不同的单词q；选用维度为300的Glove向量，对文章单词序列和问题单词序列中的单词进行词嵌入表示，将问题序列中的所有向量加权平均，获得问题序列向量；利用余弦相似度，计算文章单词序列中的各个单词和问题序列向量的相似度，作为特征F⁸；

(2.5)针对问题文本提取问题相关特征：选取词性标注、命名实体识别、问题类型作为分别作为特征F⁹、特征F¹⁰、特征F¹¹。

进一步地，所述步骤三通过以下子步骤来实现：

(3.1)采用线性回归模型，将步骤三提取文章中每个单词的特征值作为输入，建模阅读理解过程中人脑注意分布，获得对应文章中每个单词的人类阅读理解注意力分数预测值

其中，

表示单词t_i第k个特征对应的特征值，k为步骤三中11种不同的文本特征，β_k和b为模型参数，初始化为随机值；

(3.2)步骤一中得到人类注意分布观测值

作为模型优化目标，通过最小化均方误差MSE，更新模型参数β_k和b，从而得到训练用于预测人类注意分布的线性回归模型：

其中，d和n分别为文章篇数和对应文章的单词数量，

和

分别表示第i篇文章第j个单词的人脑注意权重的观测值和预测值。

进一步地，所述步骤四通过以下子步骤来实现：

(4.1)对语料中的文章和问题文本进行预处理，输入训练好的注意力模型，通过注意力层输出，获得模型对于文章单词序列的注意力分布预测值

具体计算公式如下：

其中，

表示文章中每个单词的注意权重预测值，P表示输入文本序列，W和b是模型参数。

(4.2)针对同一组文章-问题数据，根据步骤四所述方法，计算每个单词的人类注意分布权重

通过交叉熵损失函数

最小化人脑注意分布与注意力模型注意分布的差值：

(4.3)针对同一组文章-问题数据，其问题正确答案为y_i，注意力模型预测答案为

通过交叉熵损失函数

最大化模型的阅读理解准确率：

(4.4)对于语料中的每组数据，获得其整体交叉熵损失函数Loss_total，通过训练集语料中的所有文章-问题数据，最小化模型的答题错误率和模型注意分布与类脑注意分布的差异，以引导模型产生问题相关的类脑注意力分数计算机制：

进一步地，将问题和对应文章输入到训练好的阅读理解模型，通过类脑注意机制的计算，得到输出层中用于执行具体任务的注意力表征，该表征可用于得到最终答案。

本发明的有益效果是，本发明通过认知科学实验采集阅读眼动数据，以注视时长作为指标，量化人脑的阅读注意分布；提取自下而上的文本特征、视觉特征和自上而下的问题相关特征，采用线性回归方法拟合人脑阅读注意分布；最后通过最大化模型准确率和最小化注意力模型输出层单词注意权重与人脑单词注意分布估计值的交叉熵损失函数，利用反向传播更新阅读理解模型参数得到最优模型注意机制。这种基于类脑注意机制的阅读理解模型，既有效提升了机器阅读理解任务的准确性，又可以用于解释模型阅读理解行为，为机器阅读理解系统进一步优化提供基础。

具体实施方式

本发明提供一种基于类脑注意机制优化机器阅读理解能力的方法，包括以下步骤：

步骤一：获取阅读文本与相应的阅读理解问题，采集人类阅读的眼动数据，并对眼动数据进行量化处理，得到人类阅读注意分布。该步骤一通过以下子步骤来实现：

(1.3)对于每一篇文章，其所包含的所有单词构成文章单词序列P＝{t₁，t₂，...，t_n}，其中n为文章序列长度，获取所有正确回答其对应问题的被试的文章单词序列注视时长，计算每个单位兴趣区上的平均注视时间(此处以单词作为单位兴趣区，方法具体实施时并不限于单词)，作为文章单词序列上的人类注意分布

步骤二：对阅读文本进行特征工程，选取自上而下的任务相关度与自下而上的统计值作为特征，得到用于预测人类注意分布的文本特征向量。该步骤通过以下子步骤来实现：

(2.1)针对文章单词序列进行单词级别特征提取：选取词性标注、命名实体识别、词长分别作为特征F¹、特征F²、特征F³。

(2.2)针对文章单词序列进行篇章级别特征提取：根据语料中文章和问题包含的所有单词获取语料词汇表，计算每篇文章中每个单词的词频作为特征F⁴，具体计算过程如下公式，其中

为第i篇文章中第j个词的频次，d表示语料库中文章篇数，n为对应文章的单词数量。

其中上标的第一位数字表示单词对应的文章段落序号，第二位数字表示单词对应的文章句子序号，p、s分别为文章段落和句子数量；选取单词段落序号、单词句子序号、单词序号分别作为特征F⁵、特征F⁶、特征F⁷。

(2.4)针对问题序列和文章序列提取语义相似度特征：采用自然语言处理工具，对文章文本和问题文本进行词干提取和去停用词处理，分别获得文章单词序列P＝{t₁，t₂，...，t_n}和问题单词序列Q＝{q₁，q₂，...，q_m}，其中m为问题序列长度，q₁，q₂，...，q_m表示问题文本中不同的单词q；选用维度为300的Glove向量，对文章单词序列和问题单词序列中的单词进行词嵌入表示，将问题序列中的所有向量加权平均，获得问题序列向量；利用余弦相似度，计算文章单词序列中的各个单词和问题序列向量的相似度，作为特征F8。

步骤三、将语料对应的文本特征向量作为线性回归模型的输入，语料中文章上的人类阅读注意分布作为观测值，对文章单词序列的人类注意分布进行建模；该步骤通过以下子步骤来实现：

其中，

表示单词t_i第k个特征对应的特征值，k为步骤三中11种不同的文本特征，β_k和b为模型参数，初始化为随机值。

(3.2)步骤一中得到人类注意分布观测值

其中，d和n分别为文章篇数和对应文章的单词数量，

和

步骤四：将预测的人类注意分布作为类脑注意机制，引入人工神经网络注意力模型，通过最小化人脑和模型在文本上的注意分布差异，以引导模型产生问题相关的类脑注意力分数计算机制。该步骤通过以下子步骤来实现：

具体计算公式如下：

其中，

通过交叉熵损失函数

最小化人脑注意分布与注意力模型注意分布的差值：

通过交叉熵损失函数

最大化模型的阅读理解准确率：

步骤五：将问题和对应文章输入到训练好的阅读理解模型，通过类脑注意机制的计算，得到输出层中用于执行具体任务的注意力表征，该表征可用于得到最终答案。

Claims

1.一种基于类脑注意机制优化机器阅读理解能力的方法，其特征在于，包括以下步骤：

步骤一：获取阅读文本与相应的阅读理解问题，采集人类阅读的眼动数据，并对眼动数据进行量化处理，得到人类阅读注意分布；

步骤二：对阅读文本进行特征工程，选取自上而下的任务相关度与自下而上的统计值作为特征，得到用于预测人类注意分布的文本特征向量；

步骤四：将预测的人类注意分布作为类脑注意机制，引入人工神经网络注意力模型，通过最小化人脑和模型在文本上的注意分布差异，以引导模型产生问题相关的类脑注意力分数计算机制；

2.根据权利要求1中所述的一种基于类脑注意机制优化机器阅读理解能力的方法，其特征在于，所述步骤一通过以下子步骤来实现：

(1.1)根据认知科学实验需求筛选、改编阅读理解题目，形成适用于特定实验范式的阅读理解语料；

(1.2)依据“先阅读问题，再阅读文章，最后看问题答题”的实验范式，开展认知科学实验，记录被试阅读理解过程中的眼动数据；

(1.3)对于每一篇文章，其所包含的所有单词构成文章单词序列P＝{t₁，t₂，…，t_n}，其中n为文章序列长度，t₁，t₂，...，t_n表示文章P中不同的单词t，获取所有正确回答其对应问题的被试的文章单词序列注视时长，计算每个单位兴趣区上的平均注视时间(此处以单词作为单位兴趣区，方法具体实施时并不限于单词)，作为文章单词序列上的人类注意分布

其中

为每个单词t上的权值。

3.根据权利要求1中所述的一种基于类脑注意机制优化机器阅读理解能力的方法，其特征在于，所述步骤二通过以下子步骤来实现：

(2.4)针对问题序列和文章序列提取语义相似度特征：采用自然语言处理工具，对文章文本和问题文本进行词干提取和去停用词处理，分别获得文章单词序列P＝{t₁，t₂，…，t_n}和问题单词序列Q＝{q₁，q₂，…，q_m}，其中m为问题序列长度，q₁，q₂，...，q_m表示问题文本中不同的单词q；选用维度为300的Glove向量，对文章单词序列和问题单词序列中的单词进行词嵌入表示，将问题序列中的所有向量加权平均，获得问题序列向量；利用余弦相似度，计算文章单词序列中的各个单词和问题序列向量的相似度，作为特征F⁸；

4.根据权利要求1中所述的一种基于类脑注意机制优化机器阅读理解能力的方法，其特征在于，所述步骤三通过以下子步骤来实现：