CN113553402A - 一种基于图神经网络的考试阅读理解自动问答方法 - Google Patents

一种基于图神经网络的考试阅读理解自动问答方法 Download PDF

Info

Publication number
CN113553402A
CN113553402A CN202110859073.6A CN202110859073A CN113553402A CN 113553402 A CN113553402 A CN 113553402A CN 202110859073 A CN202110859073 A CN 202110859073A CN 113553402 A CN113553402 A CN 113553402A
Authority
CN
China
Prior art keywords
nodes
question
node
candidate
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110859073.6A
Other languages
English (en)
Other versions
CN113553402B (zh
Inventor
杨陟卓
李沫谦
张虎
李茹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi University
Original Assignee
Shanxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi University filed Critical Shanxi University
Priority to CN202110859073.6A priority Critical patent/CN113553402B/zh
Publication of CN113553402A publication Critical patent/CN113553402A/zh
Application granted granted Critical
Publication of CN113553402B publication Critical patent/CN113553402B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于图神经网络的考试阅读理解自动问答方法,包括以下步骤:从互联网的考试网站中爬取考试阅读理解真题和模拟题,并对其进行预处理,构建考试阅读理解问答数据集;利用异构图神经网络构建问答模型;利用异构图神经网络对答案句进行推理分析;对问答模型进行训练,将一个新的考试问题与背景材料中的所有候选句组成测试样本,送入问答模型并获取答案。本发明采用一种基于端对端的神经网络模型对高考阅读理解中复杂问题进行建模。该方法可以方便地将丰富的语义节点和语义关系融入图神经网络中,更加合理的对答案句进行推理分析。

Description

一种基于图神经网络的考试阅读理解自动问答方法
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于图神经网络的考试阅读理解自动问答方法。
背景技术
近年来,让计算机通过不同层次的入学考试成为人工智能领域的一项重大挑战。基础教育考试中所涉及的复杂问题包含大量主观问答题,其特点是需要深度理解文本语义,综合各类信息才能正确回答,因此,阅读理解问答任务是基础教育考试中的重点和难点。此外,高考是基础教育考试中具有选拔性质的考试,在各类考试中难度系数最大。
高考阅读理解中的问答题与一般问答型阅读理解任务相比更具有多样性和复杂性,且通常篇幅较长,不同答案句在材料中相隔较远。句子间的语义关联对句子的表征学习起着至关重要的作用,采用传统的序列编码模型,例如RNN,LSTM等,难以捕捉句子级的长距离依赖关联,尤其对于篇幅较长的阅读材料而言,进而影响模型的句子表征能力。因此,采用传统的词语匹配的方式或序列编码模型难以高性能地召回高考阅读理解问答的中答案句。
发明内容
本发明的目的在于提供一种基于图神经网络的考试阅读理解自动问答方法。
为实现上述目的,本发明是通过以下技术方案来实现:
一种基于图神经网络的考试阅读理解自动问答方法,其特征在于,包括以下步骤:
步骤S1,从互联网的考试网站中爬取考试阅读理解真题和模拟题,并对其进行预处理,构建考试阅读理解问答数据集;
步骤S2,利用异构图神经网络构建问答模型;
步骤S3,利用异构图神经网络对答案句进行推理分析;
步骤S4,对问答模型进行训练,将一个新的考试问题与背景材料中的所有候选句组成测试样本,送入问答模型并获取答案。
进一步,所述步骤S1的具体步骤为:
步骤S101、互联网上有着大量的考试阅读理解真题和模拟题,其内容是开放可获取的,利用爬虫技术,从互联网的考试网站中爬取考试阅读理解真题和模拟题;
步骤S102、对步骤S101中爬取的考试阅读理解真题和模拟题进行预处理,包括标注背景材料中的答案句、构建训练集中的正例和负例以及问题和候选句中的断字处理,得到问句q、候选句s以及问句和候选句的共现词语w。
进一步,所述步骤S2的具体步骤为:
步骤S201、对问句、候选句以及词语节点进行初始化:从训练数据集中取出问句与候选句,使用BERT模型得到问句和候选句的编码表示,Xs和Xq分别表示背景材料句子节点和问题节点的输入特征矩阵;找出问句和候选句的共现词语w,利用word2Vector获得训练好的词向量,Xw表示词语的输入特征矩阵,dw为嵌入词语的维数;
步骤S202、对节点之间的语义关联进行初始化,包括构建词语节点与问句节点、候选句节点的语义关联,问句节点与候选句节点的语义关联;
步骤S203、基于步骤S201和S202的结果,构建异构网络图G=(V,E),其中,V为图的节点集合,包括问句节点、候选句节点以及词语节点;E为图中节点间的边集合,包括词语节点与问句节点、候选句节点的相似度,问句节点与候选句节点的相似度。
进一步,所述步骤S202中构建词语节点与问句节点、候选句节点的语义关联时,利用TF-IDF值计算词语节点和问句节点、候选句节点之间的关联,词频(TF)是句子中出现的词频,而反文档频率(IDF)是逆文本频率指数,相似度分数记为ewqs;所述构建问句节点与候选句节点的语义关联时,利用知网HowNet计算问句节点与候选句节点之间的关联,相似度分数记为eqs
进一步,所述步骤S3的具体步骤为:
步骤S301、利用图注意网络对图节点表示学习:根据步骤S203得到的异构网络图G,使用图注意网络更新节点的表示,以i、j表示网络图中的节点,以hi∈Rd(i∈{1,...,(m+n)})作为所有输入句子节点和词语节点的隐藏状态,图注意力层GAT的更新规则如下:
zij=LeakyReLU(Wa[Wqhi;Wkhj;eqs;ewqs]) (1)
Figure BDA0003185171530000031
Figure BDA0003185171530000032
式式中Wa、Wq、Wk、Wv为可训练权重,eqs为问句节点与所有候选句节点之间的语义关联,ewqs为词语节点与所有候选句节点和问题节点之间的语义关联,Zij表示节点间的注意力系数,αij为hi和hj之间的注意力权重,Ni表示与节点i有关联的邻居节点,ui表示节点i的注意力,多头注意可表示为:
Figure BDA0003185171530000033
式中K表示维度,
Figure BDA0003185171530000034
和Wk表示在不同维度上的注意力权重和训练权重;
为了避免多次迭代后梯度消失,还添加了一个残差连接,最终输出可以表示为:
hi′=ui+hi (5)
式中hi′表示加入多头注意力后的i节点的隐藏状态;
步骤S302、对节点进行迭代更新:对词语节点、背景材料候选句节点和问题节点的表示进行更新,直到节点的重要度不再发生变化;在节点及边初始化之后,通过GAT和FFN层来更新词语节点,即聚合其相邻的候选句节点和问题节点更新词语节点:
Figure BDA0003185171530000041
Figure BDA0003185171530000042
式中
Figure BDA0003185171530000043
为通过候选句节点和问题节点更新词语节点的多头注意力,GAT
Figure BDA0003185171530000044
表示使用
Figure BDA0003185171530000045
作为注意查询,
Figure BDA0003185171530000046
Figure BDA0003185171530000047
作为键和值,
Figure BDA0003185171530000048
为更新后的词语节点;
然后使用更新后的词语节点和初始化后的文章候选句节点获得问题节点的表示:
Figure BDA0003185171530000049
Figure BDA00031851715300000410
式中
Figure BDA00031851715300000411
为通过候选句节点和词语节点更新问题节点的多头注意力,以相同的方式可以得到第一轮迭代过程中最终的候选句表示,迭代t次结束时,使用时间t时刻的词语节点和问题节点更新得到候选句节点:
Figure BDA00031851715300000412
Figure BDA00031851715300000413
其中
Figure BDA00031851715300000414
为t-1时刻通过词语节点和问题节点更新候选句节点的多头注意力,
Figure BDA00031851715300000415
为t时刻的词语节点,
Figure BDA00031851715300000416
为t时刻的问题节点,
Figure BDA00031851715300000417
表示t时刻的候选句节点。
进一步,所述步骤S4的具体步骤为:
步骤S401、构建交叉熵损失函数,并对问答模型进行训练,具体为:首先,在学习到问答异构图中的节点表示之后,从异构图中提取文章中包含的句子节点;其次,对句子进行节点分类,并以交叉熵损失作为问答模型的训练目标,交叉熵损失表达式如下:
Figure BDA0003185171530000051
式中
Figure BDA0003185171530000052
为候选句节点Si的隐藏状态,N为候选句节点的总数,yi为节点i的标签,当yi=0时,表示节点i不是答案候选句,当yi=1时,表示节点i是答案候选句;
步骤S402、将一个新的考试问题与背景材料中的所有候选句组成输入样本,送入利用步骤S401训练完成的考试问答模型,计算问题与候选答案之间相关度;根据候选句的分数高低进行排序,从所有结果中选取概率值最高的6个候选句作为答案推送给用户。
与现有技术相比,本发明的有益效果如下:
(1)本发明采用一种基于端对端的神经网络模型对考试阅读理解中复杂问题进行建模,在端到端的框架中,注意力权重和神经网络参数共同被学习得到。
(2)本发明构建异构关系神经网络图,在神经网络模型中加入了不同粒度的语义节点,包括词语、问题和候选句。在神经网络模型中融入了丰富的语义关联,包括问词语与问题、候选句之间的关联,问句和候选句之间的语义关联。
(3)本发明在所构建的神经网络图模型中,综合考虑全局语义信息,对答案句进行获取和推理,在一定程度上提高了答案句的召回率和准确率。
(4)本发明提出的方法可以为我国中小学生、老师和家长提供高科技教育产品和服务,产生直接的实用价值和经济效益。
附图说明
图1是基于图神经网络的阅读理解自动问答流程图;
图2是步骤S1构建考试阅读理解问答数据集的流程框图;
图3是步骤S2问答模型构建单元流程框图;
图4是步骤S3语义推理单元流程框图;
图5是步骤S4答案获取单元流程框图;
图6是步骤S2所构建的异构网络结构框图;
图7是本发明中异构图词语、句子和问题节点的更新示意图。
具体实施方式
以下所述实例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但并不限制本发明专利的保护范围,凡采用等同替换或等效变换的形式所获得的技术方案,均应落在本发明的保护范围之内。
实施例1
如图1所示,本发明基于图神经网络的考试阅读理解自动问答方法,包括如下步骤:
步骤S1,构建考试阅读理解问答数据集;
步骤S2,利用异构图神经网络构建问答模型;
步骤S3,利用异构图神经网络对答案句进行推理分析;
步骤S4,构建交叉熵损失函数,对问答模型进行训练,将测试样本输入将一个新的考试问题与背景材料中的所有候选句组成测试样本,送入问答模型并获取答案。
如图2所示,步骤S1中构建考试阅读理解问答数据集的具体步骤如下:
S101、利用Scrapy爬虫工具,从互联网的考试网站上爬取各省的高考真题和模拟题,构建考试阅读理解问答数据集,问答型阅读理解中的阅读材料和问题示例,如表1所示:
表1
Figure BDA0003185171530000071
Figure BDA0003185171530000081
Figure BDA0003185171530000091
S102、对步骤S101中从互联网的考试网站上爬取各省的高考真题和模拟题进行预处理,主要包括答案句标注和对阅读材料、问题和答案进行分词,得到问句q、候选句s以及问句和候选句的共现词语w;
S10201、根据参考答案对阅读材料中问题对应的答案句进行标注,答案句如表2所示:
表2
Figure BDA0003185171530000092
S10202、构建训练集的正例和负例,其中正例形式为:问题-答案句,标签为1,其中答案句为问题对应的标注的相关答案句,负例的形式为:问题-答案句,标签为0,其中1和0分别表示正例和负例,如表3所示:
表3
Figure BDA0003185171530000101
S10203、利用jieba分词工具对表1中阅读材料、问题和答案以及表2中的标注答案句进行分词处理,具体为:去停用词后,用空格分割;然后利用python中代码sentences=word2vec.Text8Corpus("file.txt")将其读取为参数格式:。
如图3所示,步骤S2中利用异构图神经网络构建问答模型的具体步骤如下:
S201、对表1中的问题、表2中的答案候选句,以及分词得到的词语节点进行初始化,网络图中的节点如表4所示:(受到篇幅限制,这里仅仅列举出10个候选句和候选句中的词语节点)
表4
Figure BDA0003185171530000102
Figure BDA0003185171530000111
从表4中的训练数据集中取出问题与答案候选句,使用BERT模型得到问题和候选句的编码表示,Xs和Xq分别表示背景材料句子节点和问题节点的输入特征矩阵;找出将问句和候选句的共现词语w,利用word2Vector获得训练好的词向量表示词语的输入特征矩阵Xw。具体地,利用python中gensim.models.Word2Vec实现词向量的学习,需要设置的主要参数包括用于去除小于某阈值单词的min_count、神经网络层数size、算法选择sg、句子中当前词与目标词之间的最大距离window和线程数workers。
S202、对节点之间的语义关联进行初始化,包括词语节点与问句节点、候选句节点的关联,问句节点与候选句节点的关联;
S20201、构建词语节点与问句节点、候选句节点的关联:使用TF-IDF值计算词语w和问句q、候选句s之间的关联。词频(TF)是句子中出现的词频,而反文档频率(IDF)是逆文本频率指数,相似度分数记为ewqs。具体地,调用sklearn中的TfidfVectorizer类计算TF-IDF值,词语w的TF-IDF值计算结果示例如下:
表5
词语 TF-IDF值 词语 TF-IDF值
全球 0.0075 系统 0.0038
人口 0.0025 生物 0.0163
增长 0.0013 资源 0.0038
科学 0.0038 土地 0.0013
技术 0.0013 利用 0.0013
发展 0.0013 导致 0.0013
人类 0.0063 动植物 0.0063
创造 0.0013 栖息地 0.0025
文明 0.0038
生态 0.0075
S20202、构建问句节点与候选句节点的关联:使用知网HowNet计算问句q与所有候选句s节点之间的语义关联,相似度分数记为eqs,问句q与候选句s的相似度分数计算结果示例如下:
表6
Figure BDA0003185171530000121
S203、基于步骤S201和S202的结果,构建异构网络图G=(V,E),构建的异构网络结构框图如图6所示。
步骤S3中利用异构图神经网络对答案句进行推理分析,具体步骤如下:
S301、如图4所示,用图注意网络对图节点表示学习:
给定步骤S203中构造的具有节点特征和边特征的图G,使用图注意网络更新节点的表示。以i、j表示网络图中的节点,以hi∈Rd(i∈{1,...,(m+n)})作为所有输入句子节点和词语节点的隐藏状态。
根据输入节点的特征,使用自注意力机制计算得到的节点i对节点j的影响力系数,例如问题节点“就城市化与生物多样性的关系,上面三则材料分别表达了什么观点?说说这些观点对你认识这一关系有何启发。”对句子节点“长期以来对生物资源及土地的过度利用,导致了动植物栖息地丧失、环境污染等一系列问题的出现,生态环境及生物系统遭受了严重破坏。”的影响力系数,并且在此基础上加入步骤S20201和S20202计算得出的边权重,如公式(1)-(5)所示。
zij=LeakyReLU(Wa[Wqhi;Wkhj;eqs;ewqs]) (1)
Figure BDA0003185171530000131
Figure BDA0003185171530000132
式中Wa、Wq、Wk、Wv为可训练权重,eqs为问句节点与所有候选句节点之间的语义关联,ewqs为词语节点与所有候选句节点和问题节点之间的语义关联,Zij表示节点间的注意力系数,αij为hi和hj之间的注意力权重,Ni表示与节点i有关联的邻居节点,ui表示节点i的注意力,多头注意可表示为:
Figure BDA0003185171530000133
式中K表示维度,
Figure BDA0003185171530000134
和Wk表示在不同维度上的注意力权重和训练权重;
为了避免多次迭代后梯度消失,还添加了一个残差连接,最终输出可以表示为:
hi′=ui+hi (5)
式中hi′表示加入多头注意力后的i节点的隐藏状态;
S302、对所有节点进行迭代更新,更新示意图如图7所示。
对词语节点、背景材料候选句节点和问题节点的表示进行更新,直到节点的重要度不再发生变化。在节点及边初始化之后,通过GAT和FFN层来更新词语节点,即聚合其相邻的候选句节点和问题节点更新词语节点。以相同的方式可以得到第一轮迭代过程中最终的候选句表示,迭代t次结束时,使用时间t时刻的词语节点和问题节点更新得到候选句节点。例如学习词语节点“生物”,背景材料候选句节点“长期以来对生物资源及土地的过度利用,导致了动植物栖息地丧失、环境污染等一系列问题的出现,生态环境及生物系统遭受了严重破坏。”和问题节点“就城市化与生物多样性的关系,上面三则材料分别表达了什么观点?说说这些观点对你认识这一关系有何启发。”的表示,直到节点的重要度不再发生变化,如公式(6)-(11)所示。
Figure BDA0003185171530000141
Figure BDA0003185171530000142
式中
Figure BDA0003185171530000143
为通过候选句节点和问题节点更新词语节点的多头注意力,GAT
Figure BDA0003185171530000144
表示使用
Figure BDA0003185171530000145
作为注意查询,
Figure BDA0003185171530000146
Figure BDA0003185171530000147
作为键和值,
Figure BDA0003185171530000148
为更新后的词语节点;
然后使用更新后的词语节点和初始化后的文章候选句节点获得问题节点的表示:
Figure BDA0003185171530000149
Figure BDA00031851715300001410
式中
Figure BDA00031851715300001411
为通过候选句节点和词语节点更新问题节点的多头注意力,以相同的方式可以得到第一轮迭代过程中最终的候选句表示,迭代t次结束时,使用时间t时刻的词语节点和问题节点更新得到候选句节点:
Figure BDA00031851715300001412
Figure BDA00031851715300001413
其中
Figure BDA00031851715300001414
为t-1时刻通过词语节点和问题节点更新候选句节点的多头注意力,
Figure BDA00031851715300001415
为t时刻的词语节点,
Figure BDA00031851715300001416
为t时刻的问题节点,
Figure BDA00031851715300001417
表示t时刻的候选句节点。
如图5所示,步骤S4中答案获取单元,具体步骤如下:
S401、构建交叉熵损失函数,并对整个系统进行训练:
根据S302中学到的节点表示计算问题与句子的匹配程度并排序,具体为:在学习到问答异构图中的节点表示之后,需要从异构图中提取文章中包含的句子节点,然后对句子进行节点分类,并以交叉熵损失作为整个系统的训练目标,计算方法如公式(12)所示:
Figure BDA0003185171530000151
式中
Figure BDA0003185171530000152
为候选句节点Si的隐藏状态,N为候选句节点的总数,yi为节点i的标签,当yi=0时,表示节点i不是答案候选句,当yi=1时,表示节点i是答案候选句;
S402,将一个新的考试问题与背景材料中的所有候选句组成输入样本,送入利用S401训练完成的考试问答模型,计算问题与候选句之间相关度。问题q与候选句s之间的相关度如表7所示:
表7
候选句 与问句的关联度 候选句 与问句的关联度
S<sub>1</sub> 0.427 S<sub>21</sub> 0.809
S<sub>2</sub> 0.419 S<sub>22</sub> 0.467
S<sub>3</sub> 0.513 S<sub>23</sub> 0.456
S<sub>4</sub> 0.398 S<sub>24</sub> 0.376
S<sub>5</sub> 0.324 S<sub>25</sub> 0.453
S<sub>6</sub> 0.334 S<sub>26</sub> 0.342
S<sub>7</sub> 0.423 S<sub>27</sub> 0.167
S<sub>8</sub> 0.389 S<sub>28</sub> 0.488
S<sub>9</sub> 0.540 S<sub>29</sub> 0.752
S<sub>10</sub> 0.497 S<sub>30</sub> 0.453
S<sub>11</sub> 0.326 S<sub>31</sub> 0.257
S<sub>12</sub> 0.388 S<sub>32</sub> 0.501
S<sub>13</sub> 0.169 S<sub>33</sub> 0.628
S<sub>14</sub> 0.321 S<sub>34</sub> 0.463
S<sub>15</sub> 0.219 S<sub>35</sub> 0.456
S<sub>16</sub> 0.137 S<sub>36</sub> 0.502
S<sub>17</sub> 0.286 S<sub>37</sub> 0.421
S<sub>18</sub> 0.162 S<sub>38</sub> 0.837
S<sub>19</sub> 0.289
S<sub>20</sub> 0.314
从所有结果中选取概率值最高的6个候选句作为答案推送给用户。输出候选句排序中得分最高的前六句作为答案句,具体地,根据候选句的分数高低进行排序,其中得分将图神经网络学习到的节点表示输入Softmax计算得出,而后选取前六句作为答案句,输出示例如表8所示。
表8
Figure BDA0003185171530000161

Claims (6)

1.一种基于图神经网络的考试阅读理解自动问答方法,其特征在于,包括以下步骤:
步骤S1,从互联网的考试网站中爬取考试阅读理解真题和模拟题,并对其进行预处理,构建考试阅读理解问答数据集;
步骤S2,利用异构图神经网络构建问答模型;
步骤S3,利用异构图神经网络对答案句进行推理分析;
步骤S4,对问答模型进行训练,将一个新的考试问题与背景材料中的所有候选句组成测试样本,送入问答模型并获取答案。
2.根据权利要求1所述的一种基于图神经网络的考试阅读理解自动问答方法,其特征在于,所述步骤S1的具体步骤为:
步骤S101、利用爬虫技术,从互联网的考试网站中爬取考试阅读理解真题和模拟题;
步骤S102、对步骤S101中爬取的考试阅读理解真题和模拟题进行预处理,包括标注背景材料中的答案句、构建训练集中的正例和负例以及问题和候选句中的断字处理,得到问句q、候选句s以及问句和候选句的共现词语w。
3.根据权利要求1所述的一种基于图神经网络的考试阅读理解自动问答方法,其特征在于,所述步骤S2的具体步骤为:
步骤S201、对问句、候选句以及词语节点进行初始化:从训练数据集中取出问句与候选句,使用BERT模型得到问句和候选句的编码表示,Xs和Xq分别表示背景材料句子节点和问题节点的输入特征矩阵;找出问句和候选句的共现词语w,利用word2Vector获得训练好的词向量,Xw表示词语的输入特征矩阵,dw为嵌入词语的维数;
步骤S202、对节点之间的语义关联进行初始化,包括构建词语节点与问句节点、候选句节点的语义关联,问句节点与候选句节点的语义关联;
步骤S203、基于步骤S201和S202的结果,构建异构网络图G=(V,E),其中,V为图的节点集合,包括问句节点、候选句节点以及词语节点;E为图中节点间的边集合,包括词语节点与问句节点、候选句节点的相似度,问句节点与候选句节点的相似度。
4.根据权利要求1所述的一种基于图神经网络的考试阅读理解自动问答方法,其特征在于,所述步骤S202中构建词语节点与问句节点、候选句节点的语义关联时,利用TF-IDF值计算词语节点和问句节点、候选句节点之间的关联,相似度分数记为ewqs;所述构建问句节点与候选句节点的语义关联时,利用知网HowNet计算问句节点与候选句节点之间的关联,相似度分数记为eqs
5.根据权利要求1所述的一种基于图神经网络的考试阅读理解自动问答方法,其特征在于,所述步骤S3的具体步骤为:
步骤S301、利用图注意网络对图节点表示学习:根据步骤S203得到的异构网络图G,使用图注意网络更新节点的表示,以i、j表示网络图中的节点,以hi∈Rd(i∈{1,...,(m+n)})作为所有输入句子节点和词语节点的隐藏状态,图注意力层GAT的更新规则如下:
zij=LeakyReLU(Wa[Wqhi;Wkhj;eqs;ewqs]) (1)
Figure FDA0003185171520000021
Figure FDA0003185171520000022
式中Wa、Wq、Wk、Wv为可训练权重,eqs为问句节点与所有候选句节点之间的语义关联,ewqs为词语节点与所有候选句节点和问题节点之间的语义关联,Zij表示节点间的注意力系数,αij为hi和hj之间的注意力权重,Ni表示与节点i有关联的邻居节点,ui表示节点i的注意力,多头注意可表示为:
Figure FDA0003185171520000031
式中K表示维度,
Figure FDA0003185171520000032
和Wk表示在不同维度上的注意力权重和训练权重;
为了避免多次迭代后梯度消失,还添加了一个残差连接,最终输出可以表示为:
h′i=ui+hi (5)
式中h′i表示加入多头注意力后的i节点的隐藏状态;
步骤S302、对节点进行迭代更新:对词语节点、背景材料候选句节点和问题节点的表示进行更新,直到节点的重要度不再发生变化;在节点及边初始化之后,通过GAT和FFN层来更新词语节点,即聚合其相邻的候选句节点和问题节点更新词语节点:
Figure FDA0003185171520000033
Figure FDA0003185171520000034
式中
Figure FDA0003185171520000035
为通过候选句节点和问题节点更新词语节点的多头注意力,
Figure FDA0003185171520000036
Figure FDA0003185171520000037
表示使用
Figure FDA0003185171520000038
作为注意查询,
Figure FDA0003185171520000039
Figure FDA00031851715200000310
作为键和值,
Figure FDA00031851715200000311
为更新后的词语节点;
然后使用更新后的词语节点和初始化后的文章候选句节点获得问题节点的表示:
Figure FDA00031851715200000312
Figure FDA00031851715200000313
式中
Figure FDA00031851715200000314
为通过候选句节点和词语节点更新问题节点的多头注意力,以相同的方式可以得到第一轮迭代过程中最终的候选句表示,迭代t次结束时,使用时间t时刻的词语节点和问题节点更新得到候选句节点:
Figure FDA0003185171520000041
Figure FDA0003185171520000042
其中
Figure FDA0003185171520000043
为t-1时刻通过词语节点和问题节点更新候选句节点的多头注意力,
Figure FDA0003185171520000044
为t时刻的词语节点,
Figure FDA0003185171520000045
为t时刻的问题节点,
Figure FDA0003185171520000046
表示t时刻的候选句节点。
6.根据权利要求1所述的一种基于图神经网络的考试阅读理解自动问答方法,其特征在于,所述步骤S4的具体步骤为:
步骤S401、构建交叉熵损失函数,并对问答模型进行训练,具体为:首先,在学习到问答异构图中的节点表示之后,从异构图中提取文章中包含的句子节点;其次,对句子进行节点分类,并以交叉熵损失作为问答模型的训练目标,交叉熵损失表达式如下:
Figure FDA0003185171520000047
式中
Figure FDA0003185171520000048
为候选句节点Si的隐藏状态,N为候选句节点的总数,yi为节点i的标签,当yi=0时,表示节点i不是答案候选句,当yi=1时,表示节点i是答案候选句;
步骤S402、将一个新的考试问题与背景材料中的所有候选句组成输入样本,送入利用步骤S401训练完成的考试问答模型,计算问题与候选答案之间相关度;根据候选句的分数高低进行排序,从所有结果中选取概率值最高的6个候选句作为答案推送给用户。
CN202110859073.6A 2021-07-28 2021-07-28 一种基于图神经网络的考试阅读理解自动问答方法 Active CN113553402B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110859073.6A CN113553402B (zh) 2021-07-28 2021-07-28 一种基于图神经网络的考试阅读理解自动问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110859073.6A CN113553402B (zh) 2021-07-28 2021-07-28 一种基于图神经网络的考试阅读理解自动问答方法

Publications (2)

Publication Number Publication Date
CN113553402A true CN113553402A (zh) 2021-10-26
CN113553402B CN113553402B (zh) 2022-09-20

Family

ID=78104759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110859073.6A Active CN113553402B (zh) 2021-07-28 2021-07-28 一种基于图神经网络的考试阅读理解自动问答方法

Country Status (1)

Country Link
CN (1) CN113553402B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115017276A (zh) * 2022-03-28 2022-09-06 连芷萱 结合模糊逻辑与r-gcn的政务咨询多轮对话方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7912863B1 (en) * 2004-07-30 2011-03-22 Microsoft Corporation Compositional lifting of operations over structural types
CN108960319A (zh) * 2018-06-29 2018-12-07 哈尔滨工业大学 一种面向全局的机器阅读理解建模中的候选答案筛选方法
CN109344234A (zh) * 2018-09-06 2019-02-15 和美(深圳)信息技术股份有限公司 机器阅读理解方法、装置、计算机设备和存储介质
CN110688491A (zh) * 2019-09-25 2020-01-14 暨南大学 基于深度学习的机器阅读理解方法、系统、设备及介质
CN111309891A (zh) * 2020-03-16 2020-06-19 山西大学 一种阅读机器人进行自动问答的系统及其应用方法
CN111488460A (zh) * 2019-04-30 2020-08-04 北京京东尚科信息技术有限公司 数据处理方法、装置和计算机可读存储介质
CN112084299A (zh) * 2020-08-05 2020-12-15 山西大学 一种基于bert语义表示的阅读理解自动问答方法
CN112269868A (zh) * 2020-12-21 2021-01-26 中南大学 一种基于多任务联合训练的机器阅读理解模型的使用方法
CN112732888A (zh) * 2021-04-01 2021-04-30 中国人民解放军国防科技大学 一种基于图推理模型的答案预测方法及装置
CN113076483A (zh) * 2021-04-27 2021-07-06 昆明理工大学 基于案件要素异构图的舆情新闻抽取式摘要方法
US20210209139A1 (en) * 2020-01-02 2021-07-08 International Business Machines Corporation Natural question generation via reinforcement learning based graph-to-sequence model

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7912863B1 (en) * 2004-07-30 2011-03-22 Microsoft Corporation Compositional lifting of operations over structural types
CN108960319A (zh) * 2018-06-29 2018-12-07 哈尔滨工业大学 一种面向全局的机器阅读理解建模中的候选答案筛选方法
CN109344234A (zh) * 2018-09-06 2019-02-15 和美(深圳)信息技术股份有限公司 机器阅读理解方法、装置、计算机设备和存储介质
CN111488460A (zh) * 2019-04-30 2020-08-04 北京京东尚科信息技术有限公司 数据处理方法、装置和计算机可读存储介质
CN110688491A (zh) * 2019-09-25 2020-01-14 暨南大学 基于深度学习的机器阅读理解方法、系统、设备及介质
US20210209139A1 (en) * 2020-01-02 2021-07-08 International Business Machines Corporation Natural question generation via reinforcement learning based graph-to-sequence model
CN111309891A (zh) * 2020-03-16 2020-06-19 山西大学 一种阅读机器人进行自动问答的系统及其应用方法
CN112084299A (zh) * 2020-08-05 2020-12-15 山西大学 一种基于bert语义表示的阅读理解自动问答方法
CN112269868A (zh) * 2020-12-21 2021-01-26 中南大学 一种基于多任务联合训练的机器阅读理解模型的使用方法
CN112732888A (zh) * 2021-04-01 2021-04-30 中国人民解放军国防科技大学 一种基于图推理模型的答案预测方法及装置
CN113076483A (zh) * 2021-04-27 2021-07-06 昆明理工大学 基于案件要素异构图的舆情新闻抽取式摘要方法

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
XIAODONG HE等: "《Introduction to the Special Issue on Deep Learning for Multi-Modal Intelligence Across Speech, Language, Vision, and Heterogeneous Signals》", 《IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING》 *
YANG WEI等: "《Keyword extraction method over blog community》", 《2016 12TH INTERNATIONAL CONFERENCE ON NATURAL COMPUTATION, FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY (ICNC-FSKD)》 *
YANG WEI等: "《Query based summarization using topic background knowledge》", 《 2017 13TH INTERNATIONAL CONFERENCE ON NATURAL COMPUTATION, FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY (ICNC-FSKD)》 *
于亚新等: "《EBSN中基于潜在好友关系的活动推荐算法》", 《计算机科学》 *
刘奕洋等: "《基于机器阅读理解的中文命名实体识别方法》", 《模式识别与人工智能》 *
孙一博等: "《基于迁移学习的中文阅读理解》", 《智能计算机与应用》 *
张虎等: "《基于MHSA和句法关系增强的机器阅读理解方法研究》", 《自动化学报》 *
杨陟卓等: "《基于CFN和篇章主题的概括型问答题的解答》", 《中文信息学报》 *
王元龙等: "《阅读理解中因果关系类选项的研究》", 《清华大学学报(自然科学版)》 *
郭少茹等: "《面向高考阅读理解的句子语义相关度》", 《清华大学学报(自然科学版)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115017276A (zh) * 2022-03-28 2022-09-06 连芷萱 结合模糊逻辑与r-gcn的政务咨询多轮对话方法及系统
CN115017276B (zh) * 2022-03-28 2022-11-29 连芷萱 政务咨询多轮对话方法、系统、政务机器人和存储介质

Also Published As

Publication number Publication date
CN113553402B (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
CN109902298B (zh) 一种自适应学习系统中领域知识建模及知识水平估测方法
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN108804654A (zh) 一种基于智能问答的虚拟学习环境构建方法
CN111753098A (zh) 一种基于跨媒体动态知识图谱的教学方法及系统
CN107562812A (zh) 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN107967318A (zh) 一种采用lstm神经网络的中文短文本主观题自动评分方法和系统
CN107220237A (zh) 一种基于卷积神经网络的企业实体关系抽取的方法
CN107967254A (zh) 知识点预测方法及装置、存储介质、电子设备
CN112380325A (zh) 基于联合知识嵌入模型和事实记忆网络的知识图谱问答系统
CN111710428B (zh) 一种建模全局和局部上下文交互的生物医学文本表示方法
CN112559723B (zh) 一种基于深度学习的faq检索式问答构建方法及系统
CN111274790A (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN112800229B (zh) 基于知识图嵌入的涉案领域的半监督方面级情感分析方法
Kim et al. The nonparametric metadata dependent relational model
CN110322959B (zh) 一种基于知识的深度医疗问题路由方法及系统
CN112287037A (zh) 一种多实体混合知识图谱构建方法、装置及存储介质
CN111079018A (zh) 习题个性化推荐方法、装置、设备、计算机可读存储介质
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN105701225A (zh) 一种基于统一关联超图规约的跨媒体检索方法
CN116127099A (zh) 基于图卷积网络的联合文本增强的表实体与类型注释方法
CN113553402B (zh) 一种基于图神经网络的考试阅读理解自动问答方法
CN114021584B (zh) 基于图卷积网络和翻译模型的知识表示学习方法
CN115238036A (zh) 一种基于图注意力网络和文本信息的认知诊断方法及装置
CN113011196B (zh) 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型
CN117574858A (zh) 一种基于大语言模型的类案检索报告自动生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant