CN113553402A - 一种基于图神经网络的考试阅读理解自动问答方法 - Google Patents
一种基于图神经网络的考试阅读理解自动问答方法 Download PDFInfo
- Publication number
- CN113553402A CN113553402A CN202110859073.6A CN202110859073A CN113553402A CN 113553402 A CN113553402 A CN 113553402A CN 202110859073 A CN202110859073 A CN 202110859073A CN 113553402 A CN113553402 A CN 113553402A
- Authority
- CN
- China
- Prior art keywords
- nodes
- question
- node
- candidate
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于图神经网络的考试阅读理解自动问答方法,包括以下步骤:从互联网的考试网站中爬取考试阅读理解真题和模拟题,并对其进行预处理,构建考试阅读理解问答数据集;利用异构图神经网络构建问答模型;利用异构图神经网络对答案句进行推理分析;对问答模型进行训练,将一个新的考试问题与背景材料中的所有候选句组成测试样本,送入问答模型并获取答案。本发明采用一种基于端对端的神经网络模型对高考阅读理解中复杂问题进行建模。该方法可以方便地将丰富的语义节点和语义关系融入图神经网络中,更加合理的对答案句进行推理分析。
Description
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于图神经网络的考试阅读理解自动问答方法。
背景技术
近年来,让计算机通过不同层次的入学考试成为人工智能领域的一项重大挑战。基础教育考试中所涉及的复杂问题包含大量主观问答题,其特点是需要深度理解文本语义,综合各类信息才能正确回答,因此,阅读理解问答任务是基础教育考试中的重点和难点。此外,高考是基础教育考试中具有选拔性质的考试,在各类考试中难度系数最大。
高考阅读理解中的问答题与一般问答型阅读理解任务相比更具有多样性和复杂性,且通常篇幅较长,不同答案句在材料中相隔较远。句子间的语义关联对句子的表征学习起着至关重要的作用,采用传统的序列编码模型,例如RNN,LSTM等,难以捕捉句子级的长距离依赖关联,尤其对于篇幅较长的阅读材料而言,进而影响模型的句子表征能力。因此,采用传统的词语匹配的方式或序列编码模型难以高性能地召回高考阅读理解问答的中答案句。
发明内容
本发明的目的在于提供一种基于图神经网络的考试阅读理解自动问答方法。
为实现上述目的,本发明是通过以下技术方案来实现:
一种基于图神经网络的考试阅读理解自动问答方法,其特征在于,包括以下步骤:
步骤S1,从互联网的考试网站中爬取考试阅读理解真题和模拟题,并对其进行预处理,构建考试阅读理解问答数据集;
步骤S2,利用异构图神经网络构建问答模型;
步骤S3,利用异构图神经网络对答案句进行推理分析;
步骤S4,对问答模型进行训练,将一个新的考试问题与背景材料中的所有候选句组成测试样本,送入问答模型并获取答案。
进一步,所述步骤S1的具体步骤为:
步骤S101、互联网上有着大量的考试阅读理解真题和模拟题,其内容是开放可获取的,利用爬虫技术,从互联网的考试网站中爬取考试阅读理解真题和模拟题;
步骤S102、对步骤S101中爬取的考试阅读理解真题和模拟题进行预处理,包括标注背景材料中的答案句、构建训练集中的正例和负例以及问题和候选句中的断字处理,得到问句q、候选句s以及问句和候选句的共现词语w。
进一步,所述步骤S2的具体步骤为:
步骤S201、对问句、候选句以及词语节点进行初始化:从训练数据集中取出问句与候选句,使用BERT模型得到问句和候选句的编码表示,Xs和Xq分别表示背景材料句子节点和问题节点的输入特征矩阵;找出问句和候选句的共现词语w,利用word2Vector获得训练好的词向量,Xw表示词语的输入特征矩阵,dw为嵌入词语的维数;
步骤S202、对节点之间的语义关联进行初始化,包括构建词语节点与问句节点、候选句节点的语义关联,问句节点与候选句节点的语义关联;
步骤S203、基于步骤S201和S202的结果,构建异构网络图G=(V,E),其中,V为图的节点集合,包括问句节点、候选句节点以及词语节点;E为图中节点间的边集合,包括词语节点与问句节点、候选句节点的相似度,问句节点与候选句节点的相似度。
进一步,所述步骤S202中构建词语节点与问句节点、候选句节点的语义关联时,利用TF-IDF值计算词语节点和问句节点、候选句节点之间的关联,词频(TF)是句子中出现的词频,而反文档频率(IDF)是逆文本频率指数,相似度分数记为ewqs;所述构建问句节点与候选句节点的语义关联时,利用知网HowNet计算问句节点与候选句节点之间的关联,相似度分数记为eqs。
进一步,所述步骤S3的具体步骤为:
步骤S301、利用图注意网络对图节点表示学习:根据步骤S203得到的异构网络图G,使用图注意网络更新节点的表示,以i、j表示网络图中的节点,以hi∈Rd(i∈{1,...,(m+n)})作为所有输入句子节点和词语节点的隐藏状态,图注意力层GAT的更新规则如下:
zij=LeakyReLU(Wa[Wqhi;Wkhj;eqs;ewqs]) (1)
式式中Wa、Wq、Wk、Wv为可训练权重,eqs为问句节点与所有候选句节点之间的语义关联,ewqs为词语节点与所有候选句节点和问题节点之间的语义关联,Zij表示节点间的注意力系数,αij为hi和hj之间的注意力权重,Ni表示与节点i有关联的邻居节点,ui表示节点i的注意力,多头注意可表示为:
为了避免多次迭代后梯度消失,还添加了一个残差连接,最终输出可以表示为:
hi′=ui+hi (5)
式中hi′表示加入多头注意力后的i节点的隐藏状态;
步骤S302、对节点进行迭代更新:对词语节点、背景材料候选句节点和问题节点的表示进行更新,直到节点的重要度不再发生变化;在节点及边初始化之后,通过GAT和FFN层来更新词语节点,即聚合其相邻的候选句节点和问题节点更新词语节点:
然后使用更新后的词语节点和初始化后的文章候选句节点获得问题节点的表示:
进一步,所述步骤S4的具体步骤为:
步骤S401、构建交叉熵损失函数,并对问答模型进行训练,具体为:首先,在学习到问答异构图中的节点表示之后,从异构图中提取文章中包含的句子节点;其次,对句子进行节点分类,并以交叉熵损失作为问答模型的训练目标,交叉熵损失表达式如下:
步骤S402、将一个新的考试问题与背景材料中的所有候选句组成输入样本,送入利用步骤S401训练完成的考试问答模型,计算问题与候选答案之间相关度;根据候选句的分数高低进行排序,从所有结果中选取概率值最高的6个候选句作为答案推送给用户。
与现有技术相比,本发明的有益效果如下:
(1)本发明采用一种基于端对端的神经网络模型对考试阅读理解中复杂问题进行建模,在端到端的框架中,注意力权重和神经网络参数共同被学习得到。
(2)本发明构建异构关系神经网络图,在神经网络模型中加入了不同粒度的语义节点,包括词语、问题和候选句。在神经网络模型中融入了丰富的语义关联,包括问词语与问题、候选句之间的关联,问句和候选句之间的语义关联。
(3)本发明在所构建的神经网络图模型中,综合考虑全局语义信息,对答案句进行获取和推理,在一定程度上提高了答案句的召回率和准确率。
(4)本发明提出的方法可以为我国中小学生、老师和家长提供高科技教育产品和服务,产生直接的实用价值和经济效益。
附图说明
图1是基于图神经网络的阅读理解自动问答流程图;
图2是步骤S1构建考试阅读理解问答数据集的流程框图;
图3是步骤S2问答模型构建单元流程框图;
图4是步骤S3语义推理单元流程框图;
图5是步骤S4答案获取单元流程框图;
图6是步骤S2所构建的异构网络结构框图;
图7是本发明中异构图词语、句子和问题节点的更新示意图。
具体实施方式
以下所述实例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但并不限制本发明专利的保护范围,凡采用等同替换或等效变换的形式所获得的技术方案,均应落在本发明的保护范围之内。
实施例1
如图1所示,本发明基于图神经网络的考试阅读理解自动问答方法,包括如下步骤:
步骤S1,构建考试阅读理解问答数据集;
步骤S2,利用异构图神经网络构建问答模型;
步骤S3,利用异构图神经网络对答案句进行推理分析;
步骤S4,构建交叉熵损失函数,对问答模型进行训练,将测试样本输入将一个新的考试问题与背景材料中的所有候选句组成测试样本,送入问答模型并获取答案。
如图2所示,步骤S1中构建考试阅读理解问答数据集的具体步骤如下:
S101、利用Scrapy爬虫工具,从互联网的考试网站上爬取各省的高考真题和模拟题,构建考试阅读理解问答数据集,问答型阅读理解中的阅读材料和问题示例,如表1所示:
表1
S102、对步骤S101中从互联网的考试网站上爬取各省的高考真题和模拟题进行预处理,主要包括答案句标注和对阅读材料、问题和答案进行分词,得到问句q、候选句s以及问句和候选句的共现词语w;
S10201、根据参考答案对阅读材料中问题对应的答案句进行标注,答案句如表2所示:
表2
S10202、构建训练集的正例和负例,其中正例形式为:问题-答案句,标签为1,其中答案句为问题对应的标注的相关答案句,负例的形式为:问题-答案句,标签为0,其中1和0分别表示正例和负例,如表3所示:
表3
S10203、利用jieba分词工具对表1中阅读材料、问题和答案以及表2中的标注答案句进行分词处理,具体为:去停用词后,用空格分割;然后利用python中代码sentences=word2vec.Text8Corpus("file.txt")将其读取为参数格式:。
如图3所示,步骤S2中利用异构图神经网络构建问答模型的具体步骤如下:
S201、对表1中的问题、表2中的答案候选句,以及分词得到的词语节点进行初始化,网络图中的节点如表4所示:(受到篇幅限制,这里仅仅列举出10个候选句和候选句中的词语节点)
表4
从表4中的训练数据集中取出问题与答案候选句,使用BERT模型得到问题和候选句的编码表示,Xs和Xq分别表示背景材料句子节点和问题节点的输入特征矩阵;找出将问句和候选句的共现词语w,利用word2Vector获得训练好的词向量表示词语的输入特征矩阵Xw。具体地,利用python中gensim.models.Word2Vec实现词向量的学习,需要设置的主要参数包括用于去除小于某阈值单词的min_count、神经网络层数size、算法选择sg、句子中当前词与目标词之间的最大距离window和线程数workers。
S202、对节点之间的语义关联进行初始化,包括词语节点与问句节点、候选句节点的关联,问句节点与候选句节点的关联;
S20201、构建词语节点与问句节点、候选句节点的关联:使用TF-IDF值计算词语w和问句q、候选句s之间的关联。词频(TF)是句子中出现的词频,而反文档频率(IDF)是逆文本频率指数,相似度分数记为ewqs。具体地,调用sklearn中的TfidfVectorizer类计算TF-IDF值,词语w的TF-IDF值计算结果示例如下:
表5
词语 | TF-IDF值 | 词语 | TF-IDF值 |
全球 | 0.0075 | 系统 | 0.0038 |
人口 | 0.0025 | 生物 | 0.0163 |
增长 | 0.0013 | 资源 | 0.0038 |
科学 | 0.0038 | 土地 | 0.0013 |
技术 | 0.0013 | 利用 | 0.0013 |
发展 | 0.0013 | 导致 | 0.0013 |
人类 | 0.0063 | 动植物 | 0.0063 |
创造 | 0.0013 | 栖息地 | 0.0025 |
文明 | 0.0038 | … | … |
生态 | 0.0075 |
S20202、构建问句节点与候选句节点的关联:使用知网HowNet计算问句q与所有候选句s节点之间的语义关联,相似度分数记为eqs,问句q与候选句s的相似度分数计算结果示例如下:
表6
S203、基于步骤S201和S202的结果,构建异构网络图G=(V,E),构建的异构网络结构框图如图6所示。
步骤S3中利用异构图神经网络对答案句进行推理分析,具体步骤如下:
S301、如图4所示,用图注意网络对图节点表示学习:
给定步骤S203中构造的具有节点特征和边特征的图G,使用图注意网络更新节点的表示。以i、j表示网络图中的节点,以hi∈Rd(i∈{1,...,(m+n)})作为所有输入句子节点和词语节点的隐藏状态。
根据输入节点的特征,使用自注意力机制计算得到的节点i对节点j的影响力系数,例如问题节点“就城市化与生物多样性的关系,上面三则材料分别表达了什么观点?说说这些观点对你认识这一关系有何启发。”对句子节点“长期以来对生物资源及土地的过度利用,导致了动植物栖息地丧失、环境污染等一系列问题的出现,生态环境及生物系统遭受了严重破坏。”的影响力系数,并且在此基础上加入步骤S20201和S20202计算得出的边权重,如公式(1)-(5)所示。
zij=LeakyReLU(Wa[Wqhi;Wkhj;eqs;ewqs]) (1)
式中Wa、Wq、Wk、Wv为可训练权重,eqs为问句节点与所有候选句节点之间的语义关联,ewqs为词语节点与所有候选句节点和问题节点之间的语义关联,Zij表示节点间的注意力系数,αij为hi和hj之间的注意力权重,Ni表示与节点i有关联的邻居节点,ui表示节点i的注意力,多头注意可表示为:
为了避免多次迭代后梯度消失,还添加了一个残差连接,最终输出可以表示为:
hi′=ui+hi (5)
式中hi′表示加入多头注意力后的i节点的隐藏状态;
S302、对所有节点进行迭代更新,更新示意图如图7所示。
对词语节点、背景材料候选句节点和问题节点的表示进行更新,直到节点的重要度不再发生变化。在节点及边初始化之后,通过GAT和FFN层来更新词语节点,即聚合其相邻的候选句节点和问题节点更新词语节点。以相同的方式可以得到第一轮迭代过程中最终的候选句表示,迭代t次结束时,使用时间t时刻的词语节点和问题节点更新得到候选句节点。例如学习词语节点“生物”,背景材料候选句节点“长期以来对生物资源及土地的过度利用,导致了动植物栖息地丧失、环境污染等一系列问题的出现,生态环境及生物系统遭受了严重破坏。”和问题节点“就城市化与生物多样性的关系,上面三则材料分别表达了什么观点?说说这些观点对你认识这一关系有何启发。”的表示,直到节点的重要度不再发生变化,如公式(6)-(11)所示。
然后使用更新后的词语节点和初始化后的文章候选句节点获得问题节点的表示:
如图5所示,步骤S4中答案获取单元,具体步骤如下:
S401、构建交叉熵损失函数,并对整个系统进行训练:
根据S302中学到的节点表示计算问题与句子的匹配程度并排序,具体为:在学习到问答异构图中的节点表示之后,需要从异构图中提取文章中包含的句子节点,然后对句子进行节点分类,并以交叉熵损失作为整个系统的训练目标,计算方法如公式(12)所示:
S402,将一个新的考试问题与背景材料中的所有候选句组成输入样本,送入利用S401训练完成的考试问答模型,计算问题与候选句之间相关度。问题q与候选句s之间的相关度如表7所示:
表7
候选句 | 与问句的关联度 | 候选句 | 与问句的关联度 |
S<sub>1</sub> | 0.427 | S<sub>21</sub> | 0.809 |
S<sub>2</sub> | 0.419 | S<sub>22</sub> | 0.467 |
S<sub>3</sub> | 0.513 | S<sub>23</sub> | 0.456 |
S<sub>4</sub> | 0.398 | S<sub>24</sub> | 0.376 |
S<sub>5</sub> | 0.324 | S<sub>25</sub> | 0.453 |
S<sub>6</sub> | 0.334 | S<sub>26</sub> | 0.342 |
S<sub>7</sub> | 0.423 | S<sub>27</sub> | 0.167 |
S<sub>8</sub> | 0.389 | S<sub>28</sub> | 0.488 |
S<sub>9</sub> | 0.540 | S<sub>29</sub> | 0.752 |
S<sub>10</sub> | 0.497 | S<sub>30</sub> | 0.453 |
S<sub>11</sub> | 0.326 | S<sub>31</sub> | 0.257 |
S<sub>12</sub> | 0.388 | S<sub>32</sub> | 0.501 |
S<sub>13</sub> | 0.169 | S<sub>33</sub> | 0.628 |
S<sub>14</sub> | 0.321 | S<sub>34</sub> | 0.463 |
S<sub>15</sub> | 0.219 | S<sub>35</sub> | 0.456 |
S<sub>16</sub> | 0.137 | S<sub>36</sub> | 0.502 |
S<sub>17</sub> | 0.286 | S<sub>37</sub> | 0.421 |
S<sub>18</sub> | 0.162 | S<sub>38</sub> | 0.837 |
S<sub>19</sub> | 0.289 | ||
S<sub>20</sub> | 0.314 |
从所有结果中选取概率值最高的6个候选句作为答案推送给用户。输出候选句排序中得分最高的前六句作为答案句,具体地,根据候选句的分数高低进行排序,其中得分将图神经网络学习到的节点表示输入Softmax计算得出,而后选取前六句作为答案句,输出示例如表8所示。
表8
Claims (6)
1.一种基于图神经网络的考试阅读理解自动问答方法,其特征在于,包括以下步骤:
步骤S1,从互联网的考试网站中爬取考试阅读理解真题和模拟题,并对其进行预处理,构建考试阅读理解问答数据集;
步骤S2,利用异构图神经网络构建问答模型;
步骤S3,利用异构图神经网络对答案句进行推理分析;
步骤S4,对问答模型进行训练,将一个新的考试问题与背景材料中的所有候选句组成测试样本,送入问答模型并获取答案。
2.根据权利要求1所述的一种基于图神经网络的考试阅读理解自动问答方法,其特征在于,所述步骤S1的具体步骤为:
步骤S101、利用爬虫技术,从互联网的考试网站中爬取考试阅读理解真题和模拟题;
步骤S102、对步骤S101中爬取的考试阅读理解真题和模拟题进行预处理,包括标注背景材料中的答案句、构建训练集中的正例和负例以及问题和候选句中的断字处理,得到问句q、候选句s以及问句和候选句的共现词语w。
3.根据权利要求1所述的一种基于图神经网络的考试阅读理解自动问答方法,其特征在于,所述步骤S2的具体步骤为:
步骤S201、对问句、候选句以及词语节点进行初始化:从训练数据集中取出问句与候选句,使用BERT模型得到问句和候选句的编码表示,Xs和Xq分别表示背景材料句子节点和问题节点的输入特征矩阵;找出问句和候选句的共现词语w,利用word2Vector获得训练好的词向量,Xw表示词语的输入特征矩阵,dw为嵌入词语的维数;
步骤S202、对节点之间的语义关联进行初始化,包括构建词语节点与问句节点、候选句节点的语义关联,问句节点与候选句节点的语义关联;
步骤S203、基于步骤S201和S202的结果,构建异构网络图G=(V,E),其中,V为图的节点集合,包括问句节点、候选句节点以及词语节点;E为图中节点间的边集合,包括词语节点与问句节点、候选句节点的相似度,问句节点与候选句节点的相似度。
4.根据权利要求1所述的一种基于图神经网络的考试阅读理解自动问答方法,其特征在于,所述步骤S202中构建词语节点与问句节点、候选句节点的语义关联时,利用TF-IDF值计算词语节点和问句节点、候选句节点之间的关联,相似度分数记为ewqs;所述构建问句节点与候选句节点的语义关联时,利用知网HowNet计算问句节点与候选句节点之间的关联,相似度分数记为eqs。
5.根据权利要求1所述的一种基于图神经网络的考试阅读理解自动问答方法,其特征在于,所述步骤S3的具体步骤为:
步骤S301、利用图注意网络对图节点表示学习:根据步骤S203得到的异构网络图G,使用图注意网络更新节点的表示,以i、j表示网络图中的节点,以hi∈Rd(i∈{1,...,(m+n)})作为所有输入句子节点和词语节点的隐藏状态,图注意力层GAT的更新规则如下:
zij=LeakyReLU(Wa[Wqhi;Wkhj;eqs;ewqs]) (1)
式中Wa、Wq、Wk、Wv为可训练权重,eqs为问句节点与所有候选句节点之间的语义关联,ewqs为词语节点与所有候选句节点和问题节点之间的语义关联,Zij表示节点间的注意力系数,αij为hi和hj之间的注意力权重,Ni表示与节点i有关联的邻居节点,ui表示节点i的注意力,多头注意可表示为:
为了避免多次迭代后梯度消失,还添加了一个残差连接,最终输出可以表示为:
h′i=ui+hi (5)
式中h′i表示加入多头注意力后的i节点的隐藏状态;
步骤S302、对节点进行迭代更新:对词语节点、背景材料候选句节点和问题节点的表示进行更新,直到节点的重要度不再发生变化;在节点及边初始化之后,通过GAT和FFN层来更新词语节点,即聚合其相邻的候选句节点和问题节点更新词语节点:
然后使用更新后的词语节点和初始化后的文章候选句节点获得问题节点的表示:
6.根据权利要求1所述的一种基于图神经网络的考试阅读理解自动问答方法,其特征在于,所述步骤S4的具体步骤为:
步骤S401、构建交叉熵损失函数,并对问答模型进行训练,具体为:首先,在学习到问答异构图中的节点表示之后,从异构图中提取文章中包含的句子节点;其次,对句子进行节点分类,并以交叉熵损失作为问答模型的训练目标,交叉熵损失表达式如下:
步骤S402、将一个新的考试问题与背景材料中的所有候选句组成输入样本,送入利用步骤S401训练完成的考试问答模型,计算问题与候选答案之间相关度;根据候选句的分数高低进行排序,从所有结果中选取概率值最高的6个候选句作为答案推送给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110859073.6A CN113553402B (zh) | 2021-07-28 | 2021-07-28 | 一种基于图神经网络的考试阅读理解自动问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110859073.6A CN113553402B (zh) | 2021-07-28 | 2021-07-28 | 一种基于图神经网络的考试阅读理解自动问答方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113553402A true CN113553402A (zh) | 2021-10-26 |
CN113553402B CN113553402B (zh) | 2022-09-20 |
Family
ID=78104759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110859073.6A Active CN113553402B (zh) | 2021-07-28 | 2021-07-28 | 一种基于图神经网络的考试阅读理解自动问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113553402B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115017276A (zh) * | 2022-03-28 | 2022-09-06 | 连芷萱 | 结合模糊逻辑与r-gcn的政务咨询多轮对话方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7912863B1 (en) * | 2004-07-30 | 2011-03-22 | Microsoft Corporation | Compositional lifting of operations over structural types |
CN108960319A (zh) * | 2018-06-29 | 2018-12-07 | 哈尔滨工业大学 | 一种面向全局的机器阅读理解建模中的候选答案筛选方法 |
CN109344234A (zh) * | 2018-09-06 | 2019-02-15 | 和美(深圳)信息技术股份有限公司 | 机器阅读理解方法、装置、计算机设备和存储介质 |
CN110688491A (zh) * | 2019-09-25 | 2020-01-14 | 暨南大学 | 基于深度学习的机器阅读理解方法、系统、设备及介质 |
CN111309891A (zh) * | 2020-03-16 | 2020-06-19 | 山西大学 | 一种阅读机器人进行自动问答的系统及其应用方法 |
CN111488460A (zh) * | 2019-04-30 | 2020-08-04 | 北京京东尚科信息技术有限公司 | 数据处理方法、装置和计算机可读存储介质 |
CN112084299A (zh) * | 2020-08-05 | 2020-12-15 | 山西大学 | 一种基于bert语义表示的阅读理解自动问答方法 |
CN112269868A (zh) * | 2020-12-21 | 2021-01-26 | 中南大学 | 一种基于多任务联合训练的机器阅读理解模型的使用方法 |
CN112732888A (zh) * | 2021-04-01 | 2021-04-30 | 中国人民解放军国防科技大学 | 一种基于图推理模型的答案预测方法及装置 |
CN113076483A (zh) * | 2021-04-27 | 2021-07-06 | 昆明理工大学 | 基于案件要素异构图的舆情新闻抽取式摘要方法 |
US20210209139A1 (en) * | 2020-01-02 | 2021-07-08 | International Business Machines Corporation | Natural question generation via reinforcement learning based graph-to-sequence model |
-
2021
- 2021-07-28 CN CN202110859073.6A patent/CN113553402B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7912863B1 (en) * | 2004-07-30 | 2011-03-22 | Microsoft Corporation | Compositional lifting of operations over structural types |
CN108960319A (zh) * | 2018-06-29 | 2018-12-07 | 哈尔滨工业大学 | 一种面向全局的机器阅读理解建模中的候选答案筛选方法 |
CN109344234A (zh) * | 2018-09-06 | 2019-02-15 | 和美(深圳)信息技术股份有限公司 | 机器阅读理解方法、装置、计算机设备和存储介质 |
CN111488460A (zh) * | 2019-04-30 | 2020-08-04 | 北京京东尚科信息技术有限公司 | 数据处理方法、装置和计算机可读存储介质 |
CN110688491A (zh) * | 2019-09-25 | 2020-01-14 | 暨南大学 | 基于深度学习的机器阅读理解方法、系统、设备及介质 |
US20210209139A1 (en) * | 2020-01-02 | 2021-07-08 | International Business Machines Corporation | Natural question generation via reinforcement learning based graph-to-sequence model |
CN111309891A (zh) * | 2020-03-16 | 2020-06-19 | 山西大学 | 一种阅读机器人进行自动问答的系统及其应用方法 |
CN112084299A (zh) * | 2020-08-05 | 2020-12-15 | 山西大学 | 一种基于bert语义表示的阅读理解自动问答方法 |
CN112269868A (zh) * | 2020-12-21 | 2021-01-26 | 中南大学 | 一种基于多任务联合训练的机器阅读理解模型的使用方法 |
CN112732888A (zh) * | 2021-04-01 | 2021-04-30 | 中国人民解放军国防科技大学 | 一种基于图推理模型的答案预测方法及装置 |
CN113076483A (zh) * | 2021-04-27 | 2021-07-06 | 昆明理工大学 | 基于案件要素异构图的舆情新闻抽取式摘要方法 |
Non-Patent Citations (10)
Title |
---|
XIAODONG HE等: "《Introduction to the Special Issue on Deep Learning for Multi-Modal Intelligence Across Speech, Language, Vision, and Heterogeneous Signals》", 《IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING》 * |
YANG WEI等: "《Keyword extraction method over blog community》", 《2016 12TH INTERNATIONAL CONFERENCE ON NATURAL COMPUTATION, FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY (ICNC-FSKD)》 * |
YANG WEI等: "《Query based summarization using topic background knowledge》", 《 2017 13TH INTERNATIONAL CONFERENCE ON NATURAL COMPUTATION, FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY (ICNC-FSKD)》 * |
于亚新等: "《EBSN中基于潜在好友关系的活动推荐算法》", 《计算机科学》 * |
刘奕洋等: "《基于机器阅读理解的中文命名实体识别方法》", 《模式识别与人工智能》 * |
孙一博等: "《基于迁移学习的中文阅读理解》", 《智能计算机与应用》 * |
张虎等: "《基于MHSA和句法关系增强的机器阅读理解方法研究》", 《自动化学报》 * |
杨陟卓等: "《基于CFN和篇章主题的概括型问答题的解答》", 《中文信息学报》 * |
王元龙等: "《阅读理解中因果关系类选项的研究》", 《清华大学学报(自然科学版)》 * |
郭少茹等: "《面向高考阅读理解的句子语义相关度》", 《清华大学学报(自然科学版)》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115017276A (zh) * | 2022-03-28 | 2022-09-06 | 连芷萱 | 结合模糊逻辑与r-gcn的政务咨询多轮对话方法及系统 |
CN115017276B (zh) * | 2022-03-28 | 2022-11-29 | 连芷萱 | 政务咨询多轮对话方法、系统、政务机器人和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113553402B (zh) | 2022-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902298B (zh) | 一种自适应学习系统中领域知识建模及知识水平估测方法 | |
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
CN108804654A (zh) | 一种基于智能问答的虚拟学习环境构建方法 | |
CN111753098A (zh) | 一种基于跨媒体动态知识图谱的教学方法及系统 | |
CN107562812A (zh) | 一种基于特定模态语义空间建模的跨模态相似性学习方法 | |
CN107967318A (zh) | 一种采用lstm神经网络的中文短文本主观题自动评分方法和系统 | |
CN107220237A (zh) | 一种基于卷积神经网络的企业实体关系抽取的方法 | |
CN107967254A (zh) | 知识点预测方法及装置、存储介质、电子设备 | |
CN112380325A (zh) | 基于联合知识嵌入模型和事实记忆网络的知识图谱问答系统 | |
CN111710428B (zh) | 一种建模全局和局部上下文交互的生物医学文本表示方法 | |
CN112559723B (zh) | 一种基于深度学习的faq检索式问答构建方法及系统 | |
CN111274790A (zh) | 基于句法依存图的篇章级事件嵌入方法及装置 | |
CN112800229B (zh) | 基于知识图嵌入的涉案领域的半监督方面级情感分析方法 | |
Kim et al. | The nonparametric metadata dependent relational model | |
CN110322959B (zh) | 一种基于知识的深度医疗问题路由方法及系统 | |
CN112287037A (zh) | 一种多实体混合知识图谱构建方法、装置及存储介质 | |
CN111079018A (zh) | 习题个性化推荐方法、装置、设备、计算机可读存储介质 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
CN105701225A (zh) | 一种基于统一关联超图规约的跨媒体检索方法 | |
CN116127099A (zh) | 基于图卷积网络的联合文本增强的表实体与类型注释方法 | |
CN113553402B (zh) | 一种基于图神经网络的考试阅读理解自动问答方法 | |
CN114021584B (zh) | 基于图卷积网络和翻译模型的知识表示学习方法 | |
CN115238036A (zh) | 一种基于图注意力网络和文本信息的认知诊断方法及装置 | |
CN113011196B (zh) | 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型 | |
CN117574858A (zh) | 一种基于大语言模型的类案检索报告自动生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |