CN114861643A - 一种基于类脑注意机制优化机器阅读理解能力的方法 - Google Patents
一种基于类脑注意机制优化机器阅读理解能力的方法 Download PDFInfo
- Publication number
- CN114861643A CN114861643A CN202210364206.7A CN202210364206A CN114861643A CN 114861643 A CN114861643 A CN 114861643A CN 202210364206 A CN202210364206 A CN 202210364206A CN 114861643 A CN114861643 A CN 114861643A
- Authority
- CN
- China
- Prior art keywords
- article
- word
- attention
- reading
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于类脑注意机制优化机器阅读理解能力的方法,该方法通过认知科学实验采集阅读眼动数据,以注视时长作为指标,量化人脑的阅读注意分布;提取自下而上的文本特征、视觉特征和自上而下的问题相关特征,采用线性回归方法拟合人脑阅读注意分布;最后通过最大化模型准确率和最小化注意力模型输出层单词注意权重与人脑单词注意分布估计值的交叉熵损失函数,利用反向传播更新阅读理解模型参数得到最优模型注意机制。本发明既有效提升了机器阅读理解任务的准确性,又可以用于解释模型阅读理解行为,为机器阅读理解系统进一步优化提供基础。
Description
技术领域
本发明涉及自然语言处理技术领域,更具体地说,涉及一种基于类脑注意机制优化机器阅读理解能力的方法。
背景技术
阅读理解作为经典的信息处理问题,可以分为顺序浏览和搜索式阅读两种模式,后者通常以满足特定信息需求为目的,更常见于真实场景。这种问题导向型阅读理解涉及对长时程动态信息流进行筛选与整合,而人脑加工信息的认知资源有限,因此,人脑会采用注意机制,有选择性地分配认知资源,对阅读问题相关的关键信息进行深入加工。近年来,人工智能领域在人工神经网络中也引入注意机制的概念,对于文本序列信息加工问题,注意力模型对序列中的各个单元依据其重要性赋予不同权重,从而有效提升了模型自然语言理解能力。
机器阅读理解要求机器阅读并理解人类自然语言文本,在此基础上,解答与文本信息相关的问题。该任务通常被用来衡量机器自然语言理解能力,是自然语言处理领域的研究热点之一。典型的机器阅读理解系统一般包括嵌入编码、特征抽取、文章-问题交互和答案预测四个模块(ref:Neural Machine Reading Comprehension:Methods andTrends):嵌入编码负责将自然语言形式的文章和问题转化为固定维度的向量,以便机器进行处理。常见的编码方式有one-hot表示、分布式词向量(Glove,Word2Vec),以及ELMo、GPT、Bert等基于上下文的词表示方法。特征提取模块用于提取上下文信息,常用的神经网络模型包括RNN\CNN和基于多头自注意力机制的transformer结构。交互模块负责捕获文章和问题的关系,通常通过注意力机制来计算文章和问题每一个词之间的语义相关程度,以此模拟人类在进行阅读理解重复阅读、挖掘关键信息的行为。最后,预测层根据不同任务类型,基于前三个模块累计得到的信息进行最终的答案预测。近年来,基于注意机制的深度学习阅读理解模型提出,这类模型能更好地挖掘文本的上下文语义信息,有效提升机器阅读理解能力;同时,一系列大规模机器阅读理解数据集公布,为训练和测评深度网络模型提供数据基础。
然而,有研究(Jia&Liang)指出,现有的机器阅读理解系统在具有干扰句的对抗样本上效果明显下降,而人类却能够免受此类对抗攻击的影响进行正常的阅读理解,一定程度上说明现有模型并不能像人一样真正理解自然语言。另一方面,目前大多数神经网络阅读理解模型的训练都依赖于答案预测准确率的优化,而忽略了模型中间结果——注意机制的审查和校正,导致模型无法从机制层面具备类人的阅读理解能力。
发明内容
本发明的目的在于针对现有方法的不足,提供一种基于类脑注意机制优化机器阅读理解能力的方法。
本发明的目的是通过以下技术方案来实现的:一种基于类脑注意机制优化机器阅读理解能力的方法,包括以下步骤:
步骤一:获取阅读文本与相应的阅读理解问题,采集人类阅读的眼动数据,并对眼动数据进行量化处理,得到人类阅读注意分布。
步骤二:对阅读文本进行特征工程,选取自上而下的任务相关度与自下而上的统计值作为特征,得到用于预测人类注意分布的文本特征向量。
步骤三:将语料对应的文本特征向量作为线性回归模型的输入,语料中文章上的人类阅读注意分布作为观测值,对文章单词序列的人类注意分布进行建模;
步骤四:将预测的人类注意分布作为类脑注意机制,引入人工神经网络注意力模型,通过最小化人脑和模型在文本上的注意分布差异,以引导模型产生问题相关的类脑注意力分数计算机制。
步骤五:将问题与问题所对应的阅读文本输入到训练好的类脑注意机制机器阅读模型中,根据输出层计算得到答案。
进一步地,所述步骤一通过以下子步骤来实现:
(1.1)根据认知科学实验需求筛选、改编阅读理解题目,形成适用于特定实验范式的阅读理解语料。
(1.2)依据“先阅读问题,再阅读文章,最后看问题答题”的实验范式,开展认知科学实验,记录被试阅读理解过程中的眼动数据。
(1.3)对于每一篇文章,其所包含的所有单词构成文章单词序列P={t1,t2,...,tn},其中n为文章序列长度,t1,t2,...,tn表示文章P中不同的单词t,获取所有正确回答其对应问题的被试的文章单词序列注视时长,计算每个单位兴趣区上的平均注视时间(此处以单词作为单位兴趣区,方法具体实施时并不限于单词),作为文章单词序列上的人类注意分布 其中为每个单词t上的权值。
进一步地,所述步骤二通过以下子步骤来实现:
(2.1)针对文章单词序列进行单词级别特征提取:选取词性标注、命名实体识别、词长分别作为特征F1、特征F2、特征F3;
(2.2)针对文章单词序列进行篇章级别特征提取:根据语料中文章和问题包含的所有单词获取语料词汇表,计算每篇文章中每个单词的词频作为特征F4,具体计算过程如下公式,其中表示第i篇文章中第j个词的频次,d表示语料库中文章篇数,n为对应文章的单词数量;
(2.3)针对文章序列进行视觉特征提取:采用自然语言处理工具对文章文本进行分段、分句和词干提取处理,获得文章句子-单词序列其中上标的第一位数字表示单词对应的文章段落序号,第二位数字表示单词对应的文章句子序号,p、s分别为文章段落和句子数量;选取单词段落序号、单词句子序号、单词序号分别作为特征F5、特征F6、特征F7;
(2.4)针对问题序列和文章序列提取语义相似度特征:采用自然语言处理工具,对文章文本和问题文本进行词干提取和去停用词处理,分别获得文章单词序列P={t1,t2,...,tn}和问题单词序列Q={q1,q2,...,qm},其中m为问题序列长度,q1,q2,...,qm表示问题文本中不同的单词q;选用维度为300的Glove向量,对文章单词序列和问题单词序列中的单词进行词嵌入表示,将问题序列中的所有向量加权平均,获得问题序列向量;利用余弦相似度,计算文章单词序列中的各个单词和问题序列向量的相似度,作为特征F8;
(2.5)针对问题文本提取问题相关特征:选取词性标注、命名实体识别、问题类型作为分别作为特征F9、特征F10、特征F11。
进一步地,所述步骤三通过以下子步骤来实现:
进一步地,所述步骤四通过以下子步骤来实现:
(4.4)对于语料中的每组数据,获得其整体交叉熵损失函数Losstotal,通过训练集语料中的所有文章-问题数据,最小化模型的答题错误率和模型注意分布与类脑注意分布的差异,以引导模型产生问题相关的类脑注意力分数计算机制:
进一步地,将问题和对应文章输入到训练好的阅读理解模型,通过类脑注意机制的计算,得到输出层中用于执行具体任务的注意力表征,该表征可用于得到最终答案。
本发明的有益效果是,本发明通过认知科学实验采集阅读眼动数据,以注视时长作为指标,量化人脑的阅读注意分布;提取自下而上的文本特征、视觉特征和自上而下的问题相关特征,采用线性回归方法拟合人脑阅读注意分布;最后通过最大化模型准确率和最小化注意力模型输出层单词注意权重与人脑单词注意分布估计值的交叉熵损失函数,利用反向传播更新阅读理解模型参数得到最优模型注意机制。这种基于类脑注意机制的阅读理解模型,既有效提升了机器阅读理解任务的准确性,又可以用于解释模型阅读理解行为,为机器阅读理解系统进一步优化提供基础。
具体实施方式
本发明提供一种基于类脑注意机制优化机器阅读理解能力的方法,包括以下步骤:
步骤一:获取阅读文本与相应的阅读理解问题,采集人类阅读的眼动数据,并对眼动数据进行量化处理,得到人类阅读注意分布。该步骤一通过以下子步骤来实现:
(1.1)根据认知科学实验需求筛选、改编阅读理解题目,形成适用于特定实验范式的阅读理解语料。
(1.2)依据“先阅读问题,再阅读文章,最后看问题答题”的实验范式,开展认知科学实验,记录被试阅读理解过程中的眼动数据。
(1.3)对于每一篇文章,其所包含的所有单词构成文章单词序列P={t1,t2,...,tn},其中n为文章序列长度,获取所有正确回答其对应问题的被试的文章单词序列注视时长,计算每个单位兴趣区上的平均注视时间(此处以单词作为单位兴趣区,方法具体实施时并不限于单词),作为文章单词序列上的人类注意分布
步骤二:对阅读文本进行特征工程,选取自上而下的任务相关度与自下而上的统计值作为特征,得到用于预测人类注意分布的文本特征向量。该步骤通过以下子步骤来实现:
(2.1)针对文章单词序列进行单词级别特征提取:选取词性标注、命名实体识别、词长分别作为特征F1、特征F2、特征F3。
(2.2)针对文章单词序列进行篇章级别特征提取:根据语料中文章和问题包含的所有单词获取语料词汇表,计算每篇文章中每个单词的词频作为特征F4,具体计算过程如下公式,其中为第i篇文章中第j个词的频次,d表示语料库中文章篇数,n为对应文章的单词数量。
(2.3)针对文章序列进行视觉特征提取:采用自然语言处理工具对文章文本进行分段、分句和词干提取处理,获得文章句子-单词序列其中上标的第一位数字表示单词对应的文章段落序号,第二位数字表示单词对应的文章句子序号,p、s分别为文章段落和句子数量;选取单词段落序号、单词句子序号、单词序号分别作为特征F5、特征F6、特征F7。
(2.4)针对问题序列和文章序列提取语义相似度特征:采用自然语言处理工具,对文章文本和问题文本进行词干提取和去停用词处理,分别获得文章单词序列P={t1,t2,...,tn}和问题单词序列Q={q1,q2,...,qm},其中m为问题序列长度,q1,q2,...,qm表示问题文本中不同的单词q;选用维度为300的Glove向量,对文章单词序列和问题单词序列中的单词进行词嵌入表示,将问题序列中的所有向量加权平均,获得问题序列向量;利用余弦相似度,计算文章单词序列中的各个单词和问题序列向量的相似度,作为特征F8。
(2.5)针对问题文本提取问题相关特征:选取词性标注、命名实体识别、问题类型作为分别作为特征F9、特征F10、特征F11。
步骤三、将语料对应的文本特征向量作为线性回归模型的输入,语料中文章上的人类阅读注意分布作为观测值,对文章单词序列的人类注意分布进行建模;该步骤通过以下子步骤来实现:
步骤四:将预测的人类注意分布作为类脑注意机制,引入人工神经网络注意力模型,通过最小化人脑和模型在文本上的注意分布差异,以引导模型产生问题相关的类脑注意力分数计算机制。该步骤通过以下子步骤来实现:
(4.4)对于语料中的每组数据,获得其整体交叉熵损失函数Losstotal,通过训练集语料中的所有文章-问题数据,最小化模型的答题错误率和模型注意分布与类脑注意分布的差异,以引导模型产生问题相关的类脑注意力分数计算机制:
步骤五:将问题和对应文章输入到训练好的阅读理解模型,通过类脑注意机制的计算,得到输出层中用于执行具体任务的注意力表征,该表征可用于得到最终答案。
Claims (6)
1.一种基于类脑注意机制优化机器阅读理解能力的方法,其特征在于,包括以下步骤:
步骤一:获取阅读文本与相应的阅读理解问题,采集人类阅读的眼动数据,并对眼动数据进行量化处理,得到人类阅读注意分布;
步骤二:对阅读文本进行特征工程,选取自上而下的任务相关度与自下而上的统计值作为特征,得到用于预测人类注意分布的文本特征向量;
步骤三:将语料对应的文本特征向量作为线性回归模型的输入,语料中文章上的人类阅读注意分布作为观测值,对文章单词序列的人类注意分布进行建模;
步骤四:将预测的人类注意分布作为类脑注意机制,引入人工神经网络注意力模型,通过最小化人脑和模型在文本上的注意分布差异,以引导模型产生问题相关的类脑注意力分数计算机制;
步骤五:将问题与问题所对应的阅读文本输入到训练好的类脑注意机制机器阅读模型中,根据输出层计算得到答案。
2.根据权利要求1中所述的一种基于类脑注意机制优化机器阅读理解能力的方法,其特征在于,所述步骤一通过以下子步骤来实现:
(1.1)根据认知科学实验需求筛选、改编阅读理解题目,形成适用于特定实验范式的阅读理解语料;
(1.2)依据“先阅读问题,再阅读文章,最后看问题答题”的实验范式,开展认知科学实验,记录被试阅读理解过程中的眼动数据;
3.根据权利要求1中所述的一种基于类脑注意机制优化机器阅读理解能力的方法,其特征在于,所述步骤二通过以下子步骤来实现:
(2.1)针对文章单词序列进行单词级别特征提取:选取词性标注、命名实体识别、词长分别作为特征F1、特征F2、特征F3;
(2.2)针对文章单词序列进行篇章级别特征提取:根据语料中文章和问题包含的所有单词获取语料词汇表,计算每篇文章中每个单词的词频作为特征F4,具体计算过程如下公式,其中表示第i篇文章中第j个词的频次,d表示语料库中文章篇数,n为对应文章的单词数量;
(2.3)针对文章序列进行视觉特征提取:采用自然语言处理工具对文章文本进行分段、分句和词干提取处理,获得文章句子-单词序列其中上标的第一位数字表示单词对应的文章段落序号,第二位数字表示单词对应的文章句子序号,p、s分别为文章段落和句子数量;选取单词段落序号、单词句子序号、单词序号分别作为特征F5、特征F6、特征F7;
(2.4)针对问题序列和文章序列提取语义相似度特征:采用自然语言处理工具,对文章文本和问题文本进行词干提取和去停用词处理,分别获得文章单词序列P={t1,t2,…,tn}和问题单词序列Q={q1,q2,…,qm},其中m为问题序列长度,q1,q2,...,qm表示问题文本中不同的单词q;选用维度为300的Glove向量,对文章单词序列和问题单词序列中的单词进行词嵌入表示,将问题序列中的所有向量加权平均,获得问题序列向量;利用余弦相似度,计算文章单词序列中的各个单词和问题序列向量的相似度,作为特征F8;
(2.5)针对问题文本提取问题相关特征:选取词性标注、命名实体识别、问题类型作为分别作为特征F9、特征F10、特征F11。
4.根据权利要求1中所述的一种基于类脑注意机制优化机器阅读理解能力的方法,其特征在于,所述步骤三通过以下子步骤来实现:
5.根据权利要求1中所述的一种基于类脑注意机制优化机器阅读理解能力的方法,其特征在于,所述步骤四通过以下子步骤来实现:
(4.4)对于语料中的每组数据,获得其整体交叉熵损失函数Losstotal,通过训练集语料中的所有文章-问题数据,最小化模型的答题错误率和模型注意分布与类脑注意分布的差异,以引导模型产生问题相关的类脑注意力分数计算机制:
6.根据权利要求1中所述的一种基于类脑注意机制优化机器阅读理解能力的方法,其特征在于,将问题和对应文章输入到训练好的阅读理解模型,通过类脑注意机制的计算,得到输出层中用于执行具体任务的注意力表征,该表征可用于得到最终答案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210364206.7A CN114861643A (zh) | 2022-04-07 | 2022-04-07 | 一种基于类脑注意机制优化机器阅读理解能力的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210364206.7A CN114861643A (zh) | 2022-04-07 | 2022-04-07 | 一种基于类脑注意机制优化机器阅读理解能力的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114861643A true CN114861643A (zh) | 2022-08-05 |
Family
ID=82629348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210364206.7A Pending CN114861643A (zh) | 2022-04-07 | 2022-04-07 | 一种基于类脑注意机制优化机器阅读理解能力的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114861643A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115601825A (zh) * | 2022-10-25 | 2023-01-13 | 扬州市职业大学(扬州开放大学)(Cn) | 一种基于视觉定位技术评价阅读能力的方法 |
-
2022
- 2022-04-07 CN CN202210364206.7A patent/CN114861643A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115601825A (zh) * | 2022-10-25 | 2023-01-13 | 扬州市职业大学(扬州开放大学)(Cn) | 一种基于视觉定位技术评价阅读能力的方法 |
CN115601825B (zh) * | 2022-10-25 | 2023-09-19 | 扬州市职业大学(扬州开放大学) | 一种基于视觉定位技术评价阅读能力的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188272B (zh) | 一种基于用户背景的社区问答网站标签推荐方法 | |
CN111222340B (zh) | 基于多标准主动学习的乳腺电子病历实体识别系统 | |
CN110647612A (zh) | 一种基于双视觉注意力网络的视觉对话生成方法 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN112990296B (zh) | 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统 | |
CN106095749A (zh) | 一种基于深度学习的文本关键词提取方法 | |
CN108549658A (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN116450796B (zh) | 一种智能问答模型构建方法及设备 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN112232087A (zh) | 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法 | |
CN111985243B (zh) | 情感模型的训练方法、情感分析方法、装置及存储介质 | |
CN113220865B (zh) | 一种文本相似词汇检索方法、系统、介质及电子设备 | |
CN111242033A (zh) | 一种基于视频和文字对判别分析的视频特征学习方法 | |
CN114722805B (zh) | 基于大小导师知识蒸馏的少样本情感分类方法 | |
KR20200105057A (ko) | 질의 문장 분석을 위한 질의 자질 추출 장치 및 방법 | |
CN116303977B (zh) | 一种基于特征分类的问答方法及系统 | |
CN114265937A (zh) | 科技情报的智能分类分析方法、系统、存储介质及服务器 | |
CN111859916A (zh) | 古诗关键词提取、诗句生成方法、装置、设备及介质 | |
CN111078546A (zh) | 一种表达页面特征的方法和电子设备 | |
CN113723083A (zh) | 基于bert模型的带权消极监督文本情感分析方法 | |
CN114677631B (zh) | 一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法 | |
Chen et al. | Research on automatic essay scoring of composition based on CNN and OR | |
CN113505583A (zh) | 基于语义决策图神经网络的情感原因子句对提取方法 | |
CN111783464A (zh) | 一种面向电力的领域实体识别方法、系统及存储介质 | |
CN114861643A (zh) | 一种基于类脑注意机制优化机器阅读理解能力的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |