CN113553402A

CN113553402A - 一种基于图神经网络的考试阅读理解自动问答方法

Info

Publication number: CN113553402A
Application number: CN202110859073.6A
Authority: CN
Inventors: 杨陟卓; 李沫谦; 张虎; 李茹
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2021-10-26
Anticipated expiration: 2041-07-28
Also published as: CN113553402B

Abstract

本发明提供了一种基于图神经网络的考试阅读理解自动问答方法，包括以下步骤：从互联网的考试网站中爬取考试阅读理解真题和模拟题，并对其进行预处理，构建考试阅读理解问答数据集；利用异构图神经网络构建问答模型；利用异构图神经网络对答案句进行推理分析；对问答模型进行训练，将一个新的考试问题与背景材料中的所有候选句组成测试样本，送入问答模型并获取答案。本发明采用一种基于端对端的神经网络模型对高考阅读理解中复杂问题进行建模。该方法可以方便地将丰富的语义节点和语义关系融入图神经网络中，更加合理的对答案句进行推理分析。

Description

一种基于图神经网络的考试阅读理解自动问答方法

技术领域

本发明属于自然语言处理技术领域，具体涉及一种基于图神经网络的考试阅读理解自动问答方法。

背景技术

近年来，让计算机通过不同层次的入学考试成为人工智能领域的一项重大挑战。基础教育考试中所涉及的复杂问题包含大量主观问答题，其特点是需要深度理解文本语义，综合各类信息才能正确回答，因此，阅读理解问答任务是基础教育考试中的重点和难点。此外，高考是基础教育考试中具有选拔性质的考试，在各类考试中难度系数最大。

高考阅读理解中的问答题与一般问答型阅读理解任务相比更具有多样性和复杂性，且通常篇幅较长，不同答案句在材料中相隔较远。句子间的语义关联对句子的表征学习起着至关重要的作用，采用传统的序列编码模型，例如RNN，LSTM等，难以捕捉句子级的长距离依赖关联，尤其对于篇幅较长的阅读材料而言，进而影响模型的句子表征能力。因此，采用传统的词语匹配的方式或序列编码模型难以高性能地召回高考阅读理解问答的中答案句。

发明内容

本发明的目的在于提供一种基于图神经网络的考试阅读理解自动问答方法。

为实现上述目的，本发明是通过以下技术方案来实现：

一种基于图神经网络的考试阅读理解自动问答方法，其特征在于，包括以下步骤：

步骤S1，从互联网的考试网站中爬取考试阅读理解真题和模拟题，并对其进行预处理，构建考试阅读理解问答数据集；

步骤S2，利用异构图神经网络构建问答模型；

步骤S3，利用异构图神经网络对答案句进行推理分析；

步骤S4，对问答模型进行训练，将一个新的考试问题与背景材料中的所有候选句组成测试样本，送入问答模型并获取答案。

进一步，所述步骤S1的具体步骤为：

步骤S101、互联网上有着大量的考试阅读理解真题和模拟题，其内容是开放可获取的，利用爬虫技术，从互联网的考试网站中爬取考试阅读理解真题和模拟题；

步骤S102、对步骤S101中爬取的考试阅读理解真题和模拟题进行预处理，包括标注背景材料中的答案句、构建训练集中的正例和负例以及问题和候选句中的断字处理，得到问句q、候选句s以及问句和候选句的共现词语w。

进一步，所述步骤S2的具体步骤为：

步骤S201、对问句、候选句以及词语节点进行初始化：从训练数据集中取出问句与候选句，使用BERT模型得到问句和候选句的编码表示，X_s和X_q分别表示背景材料句子节点和问题节点的输入特征矩阵；找出问句和候选句的共现词语w，利用word2Vector获得训练好的词向量，X_w表示词语的输入特征矩阵，d_w为嵌入词语的维数；

步骤S202、对节点之间的语义关联进行初始化，包括构建词语节点与问句节点、候选句节点的语义关联，问句节点与候选句节点的语义关联；

步骤S203、基于步骤S201和S202的结果，构建异构网络图G＝(V,E)，其中，V为图的节点集合，包括问句节点、候选句节点以及词语节点；E为图中节点间的边集合，包括词语节点与问句节点、候选句节点的相似度，问句节点与候选句节点的相似度。

进一步，所述步骤S202中构建词语节点与问句节点、候选句节点的语义关联时，利用TF-IDF值计算词语节点和问句节点、候选句节点之间的关联，词频(TF)是句子中出现的词频，而反文档频率(IDF)是逆文本频率指数，相似度分数记为e_wqs；所述构建问句节点与候选句节点的语义关联时，利用知网HowNet计算问句节点与候选句节点之间的关联，相似度分数记为e_qs。

进一步，所述步骤S3的具体步骤为：

步骤S301、利用图注意网络对图节点表示学习：根据步骤S203得到的异构网络图G，使用图注意网络更新节点的表示，以i、j表示网络图中的节点，以h_i∈R^d(i∈{1,...,(m+n)})作为所有输入句子节点和词语节点的隐藏状态，图注意力层GAT的更新规则如下:

z_ij＝LeakyReLU(W_a[W_qh_i；W_kh_j；e_qs；e_wqs]) (1)

式式中W_a、W_q、W_k、W_v为可训练权重，e_qs为问句节点与所有候选句节点之间的语义关联，e_wqs为词语节点与所有候选句节点和问题节点之间的语义关联，Z_ij表示节点间的注意力系数，α_ij为h_i和h_j之间的注意力权重，N_i表示与节点i有关联的邻居节点，u_i表示节点i的注意力，多头注意可表示为：

式中K表示维度，

和W^k表示在不同维度上的注意力权重和训练权重；

为了避免多次迭代后梯度消失，还添加了一个残差连接，最终输出可以表示为：

h_i′＝u_i+h_i (5)

式中h_i′表示加入多头注意力后的i节点的隐藏状态；

步骤S302、对节点进行迭代更新：对词语节点、背景材料候选句节点和问题节点的表示进行更新，直到节点的重要度不再发生变化；在节点及边初始化之后，通过GAT和FFN层来更新词语节点，即聚合其相邻的候选句节点和问题节点更新词语节点：

式中

为通过候选句节点和问题节点更新词语节点的多头注意力，GAT

表示使用

作为注意查询，

和

作为键和值，

为更新后的词语节点；

然后使用更新后的词语节点和初始化后的文章候选句节点获得问题节点的表示：

式中

为通过候选句节点和词语节点更新问题节点的多头注意力，以相同的方式可以得到第一轮迭代过程中最终的候选句表示，迭代t次结束时，使用时间t时刻的词语节点和问题节点更新得到候选句节点：

其中

为t-1时刻通过词语节点和问题节点更新候选句节点的多头注意力，

为t时刻的词语节点，

为t时刻的问题节点，

表示t时刻的候选句节点。

进一步，所述步骤S4的具体步骤为：

步骤S401、构建交叉熵损失函数，并对问答模型进行训练，具体为：首先，在学习到问答异构图中的节点表示之后，从异构图中提取文章中包含的句子节点；其次，对句子进行节点分类，并以交叉熵损失作为问答模型的训练目标，交叉熵损失表达式如下：

式中

为候选句节点S_i的隐藏状态，N为候选句节点的总数，y_i为节点i的标签，当y_i＝0时，表示节点i不是答案候选句，当y_i＝1时，表示节点i是答案候选句；

步骤S402、将一个新的考试问题与背景材料中的所有候选句组成输入样本，送入利用步骤S401训练完成的考试问答模型，计算问题与候选答案之间相关度；根据候选句的分数高低进行排序，从所有结果中选取概率值最高的6个候选句作为答案推送给用户。

与现有技术相比，本发明的有益效果如下：

(1)本发明采用一种基于端对端的神经网络模型对考试阅读理解中复杂问题进行建模，在端到端的框架中，注意力权重和神经网络参数共同被学习得到。

(2)本发明构建异构关系神经网络图，在神经网络模型中加入了不同粒度的语义节点，包括词语、问题和候选句。在神经网络模型中融入了丰富的语义关联，包括问词语与问题、候选句之间的关联，问句和候选句之间的语义关联。

(3)本发明在所构建的神经网络图模型中，综合考虑全局语义信息，对答案句进行获取和推理，在一定程度上提高了答案句的召回率和准确率。

(4)本发明提出的方法可以为我国中小学生、老师和家长提供高科技教育产品和服务，产生直接的实用价值和经济效益。

附图说明

图1是基于图神经网络的阅读理解自动问答流程图；

图2是步骤S1构建考试阅读理解问答数据集的流程框图；

图3是步骤S2问答模型构建单元流程框图；

图4是步骤S3语义推理单元流程框图；

图5是步骤S4答案获取单元流程框图；

图6是步骤S2所构建的异构网络结构框图；

图7是本发明中异构图词语、句子和问题节点的更新示意图。

具体实施方式

以下所述实例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但并不限制本发明专利的保护范围，凡采用等同替换或等效变换的形式所获得的技术方案，均应落在本发明的保护范围之内。

实施例1

如图1所示，本发明基于图神经网络的考试阅读理解自动问答方法，包括如下步骤：

步骤S1，构建考试阅读理解问答数据集；

步骤S2，利用异构图神经网络构建问答模型；

步骤S3，利用异构图神经网络对答案句进行推理分析；

步骤S4，构建交叉熵损失函数，对问答模型进行训练，将测试样本输入将一个新的考试问题与背景材料中的所有候选句组成测试样本，送入问答模型并获取答案。

如图2所示，步骤S1中构建考试阅读理解问答数据集的具体步骤如下：

S101、利用Scrapy爬虫工具，从互联网的考试网站上爬取各省的高考真题和模拟题，构建考试阅读理解问答数据集，问答型阅读理解中的阅读材料和问题示例，如表1所示：

表1

S102、对步骤S101中从互联网的考试网站上爬取各省的高考真题和模拟题进行预处理，主要包括答案句标注和对阅读材料、问题和答案进行分词，得到问句q、候选句s以及问句和候选句的共现词语w；

S10201、根据参考答案对阅读材料中问题对应的答案句进行标注，答案句如表2所示：

表2

S10202、构建训练集的正例和负例，其中正例形式为：问题-答案句，标签为1，其中答案句为问题对应的标注的相关答案句，负例的形式为：问题-答案句，标签为0，其中1和0分别表示正例和负例，如表3所示：

表3

S10203、利用jieba分词工具对表1中阅读材料、问题和答案以及表2中的标注答案句进行分词处理，具体为：去停用词后，用空格分割；然后利用python中代码sentences＝word2vec.Text8Corpus("file.txt")将其读取为参数格式：。

如图3所示，步骤S2中利用异构图神经网络构建问答模型的具体步骤如下：

S201、对表1中的问题、表2中的答案候选句，以及分词得到的词语节点进行初始化，网络图中的节点如表4所示：(受到篇幅限制，这里仅仅列举出10个候选句和候选句中的词语节点)

表4

从表4中的训练数据集中取出问题与答案候选句，使用BERT模型得到问题和候选句的编码表示，X_s和X_q分别表示背景材料句子节点和问题节点的输入特征矩阵；找出将问句和候选句的共现词语w，利用word2Vector获得训练好的词向量表示词语的输入特征矩阵X_w。具体地，利用python中gensim.models.Word2Vec实现词向量的学习，需要设置的主要参数包括用于去除小于某阈值单词的min_count、神经网络层数size、算法选择sg、句子中当前词与目标词之间的最大距离window和线程数workers。

S202、对节点之间的语义关联进行初始化，包括词语节点与问句节点、候选句节点的关联，问句节点与候选句节点的关联；

S20201、构建词语节点与问句节点、候选句节点的关联：使用TF-IDF值计算词语w和问句q、候选句s之间的关联。词频(TF)是句子中出现的词频，而反文档频率(IDF)是逆文本频率指数，相似度分数记为e_wqs。具体地，调用sklearn中的TfidfVectorizer类计算TF-IDF值，词语w的TF-IDF值计算结果示例如下：

表5

词语	TF-IDF值	词语	TF-IDF值
				全球	0.0075	系统	0.0038
人口	0.0025	生物	0.0163
				增长	0.0013	资源	0.0038
科学	0.0038	土地	0.0013
				技术	0.0013	利用	0.0013
发展	0.0013	导致	0.0013
				人类	0.0063	动植物	0.0063
创造	0.0013	栖息地	0.0025
				文明	0.0038	…	…
生态	0.0075

S20202、构建问句节点与候选句节点的关联：使用知网HowNet计算问句q与所有候选句s节点之间的语义关联，相似度分数记为e_qs，问句q与候选句s的相似度分数计算结果示例如下：

表6

S203、基于步骤S201和S202的结果，构建异构网络图G＝(V,E)，构建的异构网络结构框图如图6所示。

步骤S3中利用异构图神经网络对答案句进行推理分析，具体步骤如下：

S301、如图4所示，用图注意网络对图节点表示学习：

给定步骤S203中构造的具有节点特征和边特征的图G，使用图注意网络更新节点的表示。以i、j表示网络图中的节点，以h_i∈R^d(i∈{1,...,(m+n)})作为所有输入句子节点和词语节点的隐藏状态。

根据输入节点的特征，使用自注意力机制计算得到的节点i对节点j的影响力系数，例如问题节点“就城市化与生物多样性的关系，上面三则材料分别表达了什么观点？说说这些观点对你认识这一关系有何启发。”对句子节点“长期以来对生物资源及土地的过度利用，导致了动植物栖息地丧失、环境污染等一系列问题的出现，生态环境及生物系统遭受了严重破坏。”的影响力系数，并且在此基础上加入步骤S20201和S20202计算得出的边权重，如公式(1)-(5)所示。

z_ij＝LeakyReLU(W_a[W_qh_i；W_kh_j；e_qs；e_wqs]) (1)

式中W_a、W_q、W_k、W_v为可训练权重，e_qs为问句节点与所有候选句节点之间的语义关联，e_wqs为词语节点与所有候选句节点和问题节点之间的语义关联，Z_ij表示节点间的注意力系数，α_ij为h_i和h_j之间的注意力权重，N_i表示与节点i有关联的邻居节点，u_i表示节点i的注意力，多头注意可表示为：

式中K表示维度，

和W^k表示在不同维度上的注意力权重和训练权重；

h_i′＝u_i+h_i (5)

式中h_i′表示加入多头注意力后的i节点的隐藏状态；

S302、对所有节点进行迭代更新，更新示意图如图7所示。

对词语节点、背景材料候选句节点和问题节点的表示进行更新，直到节点的重要度不再发生变化。在节点及边初始化之后，通过GAT和FFN层来更新词语节点，即聚合其相邻的候选句节点和问题节点更新词语节点。以相同的方式可以得到第一轮迭代过程中最终的候选句表示，迭代t次结束时，使用时间t时刻的词语节点和问题节点更新得到候选句节点。例如学习词语节点“生物”，背景材料候选句节点“长期以来对生物资源及土地的过度利用，导致了动植物栖息地丧失、环境污染等一系列问题的出现，生态环境及生物系统遭受了严重破坏。”和问题节点“就城市化与生物多样性的关系，上面三则材料分别表达了什么观点？说说这些观点对你认识这一关系有何启发。”的表示，直到节点的重要度不再发生变化，如公式(6)-(11)所示。

式中

表示使用

作为注意查询，

和

作为键和值，

为更新后的词语节点；

式中

其中

为t时刻的词语节点，

为t时刻的问题节点，

表示t时刻的候选句节点。

如图5所示，步骤S4中答案获取单元，具体步骤如下：

S401、构建交叉熵损失函数，并对整个系统进行训练：

根据S302中学到的节点表示计算问题与句子的匹配程度并排序，具体为：在学习到问答异构图中的节点表示之后，需要从异构图中提取文章中包含的句子节点，然后对句子进行节点分类，并以交叉熵损失作为整个系统的训练目标，计算方法如公式(12)所示：

式中

S402，将一个新的考试问题与背景材料中的所有候选句组成输入样本，送入利用S401训练完成的考试问答模型，计算问题与候选句之间相关度。问题q与候选句s之间的相关度如表7所示：

表7

候选句	与问句的关联度	候选句	与问句的关联度
				S<sub>1</sub>	0.427	S<sub>21</sub>	0.809
S<sub>2</sub>	0.419	S<sub>22</sub>	0.467
				S<sub>3</sub>	0.513	S<sub>23</sub>	0.456
S<sub>4</sub>	0.398	S<sub>24</sub>	0.376
				S<sub>5</sub>	0.324	S<sub>25</sub>	0.453
S<sub>6</sub>	0.334	S<sub>26</sub>	0.342
				S<sub>7</sub>	0.423	S<sub>27</sub>	0.167
S<sub>8</sub>	0.389	S<sub>28</sub>	0.488
				S<sub>9</sub>	0.540	S<sub>29</sub>	0.752
S<sub>10</sub>	0.497	S<sub>30</sub>	0.453
				S<sub>11</sub>	0.326	S<sub>31</sub>	0.257
S<sub>12</sub>	0.388	S<sub>32</sub>	0.501
				S<sub>13</sub>	0.169	S<sub>33</sub>	0.628
S<sub>14</sub>	0.321	S<sub>34</sub>	0.463
				S<sub>15</sub>	0.219	S<sub>35</sub>	0.456
S<sub>16</sub>	0.137	S<sub>36</sub>	0.502
				S<sub>17</sub>	0.286	S<sub>37</sub>	0.421
S<sub>18</sub>	0.162	S<sub>38</sub>	0.837
				S<sub>19</sub>	0.289
S<sub>20</sub>	0.314

从所有结果中选取概率值最高的6个候选句作为答案推送给用户。输出候选句排序中得分最高的前六句作为答案句，具体地，根据候选句的分数高低进行排序，其中得分将图神经网络学习到的节点表示输入Softmax计算得出，而后选取前六句作为答案句，输出示例如表8所示。

表8

Claims

1.一种基于图神经网络的考试阅读理解自动问答方法，其特征在于，包括以下步骤：

步骤S2，利用异构图神经网络构建问答模型；

步骤S3，利用异构图神经网络对答案句进行推理分析；

2.根据权利要求1所述的一种基于图神经网络的考试阅读理解自动问答方法，其特征在于，所述步骤S1的具体步骤为：

步骤S101、利用爬虫技术，从互联网的考试网站中爬取考试阅读理解真题和模拟题；

3.根据权利要求1所述的一种基于图神经网络的考试阅读理解自动问答方法，其特征在于，所述步骤S2的具体步骤为：

4.根据权利要求1所述的一种基于图神经网络的考试阅读理解自动问答方法，其特征在于，所述步骤S202中构建词语节点与问句节点、候选句节点的语义关联时，利用TF-IDF值计算词语节点和问句节点、候选句节点之间的关联，相似度分数记为e_wqs；所述构建问句节点与候选句节点的语义关联时，利用知网HowNet计算问句节点与候选句节点之间的关联，相似度分数记为e_qs。

5.根据权利要求1所述的一种基于图神经网络的考试阅读理解自动问答方法，其特征在于，所述步骤S3的具体步骤为：

z_ij＝LeakyReLU(W_a[W_qh_i；W_kh_j；e_qs；e_wqs]) (1)