CN112084299B

CN112084299B - 一种基于bert语义表示的阅读理解自动问答方法

Info

Publication number: CN112084299B
Application number: CN202010779366.9A
Authority: CN
Inventors: 杨陟卓; 韩晖; 张虎; 钱揖丽; 李茹
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2020-08-05
Filing date: 2020-08-05
Publication date: 2022-05-31
Anticipated expiration: 2040-08-05
Also published as: CN112084299A

Abstract

本发明公开了一种基于BERT语义表示的阅读理解自动问答方法，属于自然语言处理技术领域。本发明通过段落评价对篇章段落进行筛选，去除不包含答案的区域，减少无用信息对模型的解题干扰，利用BERT模型对多片段答案进行了探索，借助预训练的知识进行作答，有效地提高了自动问答的得分率。本申请的成果可应用到基础教育学习考试产品中，为我国中小学生、老师和家长提供高科技教育产品和服务。

Description

一种基于BERT语义表示的阅读理解自动问答方法

技术领域

本发明属于自然语言处理技术领域，具体涉及一种基于BERT语义表示的阅读理解自动问答方法。

背景技术

机器阅读理解的目标是让机器像人类一样阅读文本，提炼文本信息并准确地回答相关问题。目前，机器阅读理解作为自然语言处理的核心领域，借助于深度学习技术，获得了快速发展，成为了学术界研究的焦点。

常见问答题的数据集代表有SQuAD、DuReader和CMRC等数据集。而这些问答数据集中的问题较简单，而高考阅读理解的问题较为复杂，必须对问题和全文信息进行深度理解和推理才能获取正确答案。

2018年，自然语言领域的研究人员研究出新的模型架构-预训练模型加微调。该架构在大规模语料上进行无监督的训练模型，完成训练后针对不同的下游任务进行特定的有监督训练任务。谷歌推出的BERT是具有代表性的模型， Devlin J，Chang MW，Lee K，etal.BERT:Pre-training of Deep Bidirectional Transformers for LanguageUnderstanding[C]//Proceedings of the 2019Conference of the North AmericanChapter of the Association for Computational Linguistics: Human LanguageTechnologies，Vol.1(Long and Short Papers).2019:4171-4186.该模型预先进行大量的知识训练，之后只需根据自己的任务形式进行微调就可以直接运用，而无需对特定任务的体系结构进行大量修改。

该模型在绝大多数问答数据集上取得了不错的结果，但是直接应用在中考或高考题上效果欠佳，这是由于中、高考阅读理解问题相比一般阅读理解问题更加复杂，同时中、高考问答任务中的训练数据比较缺乏。本发明针对以上问题提出了一些解决方案。同时，本项目成果可应用到基础教育学习考试产品中，为我国中小学生、老师和家长提供高科技教育产品和服务。此外，类人答题的研发经验也能为各个行业的知识服务和人工智能研发提供先进的技术解决方案，有望在医疗、客服、政府、安全等多领域推广应用，实现显著的社会和经济效益。

发明内容

针对上述问题本发明提供了一种基于BERT语义表示的阅读理解自动问答方法。

为了达到上述目的，本发明采用了下列技术方案：

一种基于BERT语义表示的阅读理解自动问答方法，包括以下步骤：

步骤S1，对背景材料与问题进行形式化处理；

步骤S2，根据停用词表对问题信息进行精简；

步骤S3，通过段落评价对非答案区域的片段进行剔除；

步骤S4，利用BERT模型获取答案候选句集；

步骤S5，通过随机游走模型对候选答案句集进行重排序；

步骤S6，输出排序的前六句作为答案句。

进一步，所述步骤S1，对背景材料与问题进行形式化处理，具体为：通过给定问题s₀和材料D＝{s₁,s₂，…，s_i}，s_i表示阅读材料中的第i个句子，从材料D中抽取与问题s₀最相关的片段A^*＝{a₁,a₂,…,a_k}，其中a_k为材料D中的一个句子，在材料D中答案句之间连续或不连续。

再进一步，所述步骤S2，根据停用词表对问题信息进行精简，具体为剔除问句中的非关键信息，保留单句中所有的句子成分。

再进一步，所述步骤S3，通过段落评价对非答案区域的片段进行剔除，还包括以下步骤：步骤S3.1，首先将能够代表段落的句子抽出，计算公式如下所示：

其中，sim(s₀,s_i)表示篇章段落中的某个句子S_i与问句S₀的相关度，sim(D_i,s_i)表示S_i与句子所在整个段落D_i的相关度，sim(s_i,s_j)表示S_i与段落D_j抽取出的句子 S_j的相关度，β₁，β₂用于调节公式(1)中三个部分的权重；[β₁sim(s0,s_i)+β₂sim(D_i,s_i) 表示待抽取句子与问句和整篇文档的相关程度，

]表示待抽取句子和已抽取句子的相关程度；

步骤S3.2，将各个段落的句子S_Di与问句S₀进行相关度计算，返回需要剔除的段落索引D_index，计算公式如下所示：

再进一步，所述步骤S4，利用BERT模型获取答案候选句集，还包括以下步骤：

步骤S4.1，通过BERT模型的输入和输出，获取到问句和答案候选句的特征向量，输入分类器分类；

训练样本：

{(x₁,y₁,z),(x₁,y₂,z),...,(x₁,y_n,z)；(x₂,y₁,z),(x₂,y₂,z),...,(x₂,y_n,z)；...；(x_i,y₁,z),(x_i,y₂,z),...,(x_i,y_n,z)) (3)

其中(x_i,y₁,z)表示试题中第i个问题对应第n条候选句的类别z，z∈{0,1}，z为1表示为答案句，为0表示为非答案句；

步骤S4.2，利用回归模型输出条件概率，概率最大的类别即为当前样本所属的类别，计算公式如下所示：

其中，h_θ(x,y)表示回归模型的判别函数，θ₀和θ₁是模型参数，T代表转置；

p(z|x_i,y_n)可以实现对候选句是否为答案句的概率值的预测，选取概率较大的Top-15候选句作为BERT模型的输出结果。

再进一步，所述步骤S4.1中BERT模型的输入是由两个句子组成的句子对，即问句-答案候选句；BERT模型的输出是经过多层编码器对应的融合问句和答案候选句信息的语义表示。

再进一步，所述步骤S5，通过随机游走模型对候选答案句集进行重排序，还包括以下步骤：

步骤S5.1，在原始随机游走模型基础上，添加问句信息，形成融合问句信息的随机游走模型，计算公式如下所示：

其中，PR(S_i)是候选句节点S_i的重要度，n表示句子数，d为阻尼因子 (0<d<1)，d用来平衡相近句子节点和初始分数句子节点对其他句子的影响； M_(Si)表示与候选句节点S_i有关联的其它句子节点集合，degree(S_j)表示节点 S_j的出度，weight_ij为候选句节点S_i和其他节点S_j之间的相似度权重；

步骤S5.2，采用word2vec度量问句和BERT模型输出的前15个候选句的相似度，构建16*16的相似度矩阵，如下所示：

其中，s₀s_i表示问句s₀和候选句s_i的相似度；

预先设定问句的重要度为1，其他候选句重要度为0，按照随机游走模型进行迭代排序。

再进一步，所述步骤S6，输出排序的前六句作为答案句具体方法是：经多次迭代计算，当所有句子的重要度不再发生变化，最终选取Top-6作为最终的答案句。

与现有技术相比本发明具有以下优点：

(1)本发明建立了面向高考问答的问句停用词表，有效删减问句的冗余信息，聚焦问句的关键信息。

(2)本发明通过段落评价对篇章段落进行筛选，去除不包含答案的区域，减少无用信息对模型的解题干扰。

(3)本发明利用预训练模型对多片段答案进行了探索，有效弥补BERT模型所面临的数据稀疏问题。

(4)本发明利用图模型排序方法来确定最终的答案句，在一定程度上提高了答案句的召回率和准确率。

(5)本发明提出的方法也可以应用在文本分类、文本摘要、以及复杂问题求解等自然语言处理任务中。此外，类人答题的研发经验也能为各个行业的知识服务和人工智能研发提供先进的技术解决方案，有望在医疗、客服、政府、安全等多领域推广应用，实现显著的社会效益和经济效益。

附图说明

图1是本发明自动问答系统流程图；

图2是本发明自动问答方法的具体流程图；

图3是本发明中段落评价的具体流程图；

图4是本发明中BERT答案句抽取的具体流程图；

图5是本发明中随机游走模型的具体流程图。

具体实施方式

实施例1

本实施例选用的背景资料为2018年北京高考真题：

材料一

①当年，科学技术的巨大进步推动了人工智能的迅猛发展，人工智能成了全球产业界、学术界的高频词。有研究者将人工智能定义为：对一种通过计算机实现人脑思维结果，能从环境中获取感知并执行行动的智能体的描述和构建。

②人工智能并不是新鲜事物。20世纪中叶，“机器思维”就已出现在这个世界上。1936年，英国数学家阿兰·麦席森·图灵从模拟人类思考和证明的过程入手，提出利用机器执行逻辑代码来模拟人类的各种计算和逻辑思维过程的设想。1950年，他发表了《计算机器与智能》一文，提出了判断机器是否具有智能的标准，即“图灵测试”。“图灵测试”是指一台机器如果能在5分钟内回答由人类测试者提出的一系列问题，且超过30％的回答让测试者误认为是人类所答，那么就可以认为这机器具有智能。

③20世纪80年代，美国哲学家约翰·希尔勒教授用“中文房间”的思维实验，表达了对“智能”的不同思考。一个不懂中文只会说英语的人被关在一个封闭的房间里，他只有铅笔、纸张和一大本指导手册，不时会有画着陌生符号的纸张被递进来。被测试者只能通过阅读指导手册找寻对应指令来分析这些符号。之后，他向屋外的人交出一份同样写满符号的答卷。被测试者全程都不知道，其实这些纸上用来记录问题和答案的符号是中文。他完全不懂中文，但他的回答是完全正确的。上述过程中，被测试者代表计算机，他所经历的也正是计算机的工作内容，即遵循规则，操控符号。“中文房间”实验说明，看起来完全智能的计算机程序其实根本不理解自身处理的各种信息。希尔勒认为，如果机器有“智能”，就意味着它具有理解能力。既然机器没有理解能力，那么所谓的“让机器拥有人类智能”的说法就是无稽之谈了。

④18在人工智能研究领域中，不同学派的科学家对“何为智能”的理解不尽相同。符号主义学派认为“智能”的实质就是具体问题的求解能力，他们会为所设想的智能机器规划好不同的问题求解路径，运用形式推理和数理逻辑的方法，让计算机模仿人类思维进行决策和推理。联结主义学派认为“智能”的实质就是非智能部件相互作为的产物，在他们眼里人类也是一种机器，其智能来源于许多非智能但半自主的组成大脑的物质间的相互作用。他们研究大脑的结构，让计算机去模仿人类的大脑，并且用某种教学模型去重建一个简化的神经元网络。行为主义学派认为“智能”的实质是机器和人类的行为相似，研究人工智能应该研究人类感知和行动的本能，而不是高级的逻辑推理，不解决基本问题就无法实现复杂的思维模拟。因而他们让计算机模仿人的行为，建立人工智能系统。

⑤时至今日，研究者们对“智能”的理解仍未形成共识。25但是，正是对“何为智能”这个核心问题的不断思考和解答，推动了人工智能技术在不同层面的发展。

材料二

⑥2018年5月，谷歌Duplex人工智能语音技术(部分)通过了“图灵测试”。这个消息进一步引发了人们对于人工智能的思考：当机器人越来越像人，我们应该怎样做？

⑦在人工智能的开发过程中，设计者会遇到伦理问题的挑战。比如著名的“隧道问题”：一辆自动驾驶的汽车在通过黑暗的隧道时前方突然出现一个小孩，面对撞向隧道还是撞向行人这种进退维谷的突发情况，自动驾驶汽车会怎么做？

⑧自动驾驶汽车依靠的是人工智能“大脑”，它会从以往案例数据库中选取一个与当前情景较相似的案例，然后根据所选案例来实施本次决策。当遇到完全陌生的情景时，汽车仍然会进行搜索，即在“大脑”中迅速搜索与当前场景相似度大于某个固定值的过往场景，形成与之对应的决断。如果计算机搜索出来的场景相似度小于那个值，自动驾驶汽车将随机选择一种方式处理。

⑨那么，如果自动驾驶汽车伤害了人类，谁来负责呢？有的学者认为不能将人工智能体作为行为主体对待。因为“主体”概念有一系列限定，譬如具有反思能力、主观判断能力以及情感和价值目标设定等。人工智能不是严格意义上的“智能”，它所表现出来的智能以及对人类社会道德行为规范的掌握和遵循，是基于大数据学习的结果，和人类主观意识有本质的不同。因此，人工智能体不可以作为社会责任的承担者。以上述自动驾驶汽车为例，究竟由人工智能开发者负责，还是由汽车公司负责甚至任何的第三方负责，或者各方在何种情形下如何分担责任，应当在相关人工智能的法律法规框架下通过制订商业合同进行约定。

⑩人工智能在未来还可能产生的一个问题就是“奇点(singularity)”。所谓“奇点”就是指机器智能有朝一日超越人类智能，那时机器将能够进行自我编程而变得更加智能，它们也将持续设计更加先进的机器，直到将人类远远甩开。尽管研究者对“奇点”到来的时间和可能性还有争议，但是不管“奇点”时刻能否真的到来，在技术不断完善的过程中，我们都要小心被人工智能“异化”。在我们训练人工智能的同时，有可能也被人工智能“训练”了。我们的一举一动、生活爱好都将被人工智能塑造，人工智能在无形中暗暗决定了我们的思维方式，当我们还在为自己的自由意志而骄傲的时候，也许已不知不觉地沦为了数据的囚徒。

面对人工智能可能带来的种种冲击，上世纪50年代美国科幻小说家阿西莫夫提出的机器人三大定律，今天对我们依然有借鉴意义。这三大定律是：机器人不得伤害人，也不得见到人受伤害而袖手旁观；机器人应服从人的一切命令，但不得违反第一定律；机器人应保护自身安全，但不得违反第一、第二定律。归根结底，人是智能行为的总开关。人工智能的开发者应该始终把对社会负责的原则，放在对技术进步的渴望之上。人类完全可以做到未雨绸缪，应对人工智能可能带来的威胁。

问题：根据材料一、材料二，简要说明人类对人工智能的认识是如何不断深化的？

标准答案：(1)对于“人工智能”的理解、思考不断深入，深化了对人工智能的认识。20世纪中叶：“机器思维”，图灵提出利用计算机模拟人类思考和证明的过程；20世纪80年代，希尔勒用“中文房间”提出“智能”需意味着具有理解能力；不同学派对“智能”的不同认识，也推动了对其认识的不断深化。 (2)“人工智能”的发展引发了如何认识、应对“人工智能”的思考，深化了对人工智能的认识。“人工智能”开发过程中，设计者对伦理问题的思考；“奇点”概念的提出，对人类可能被人工智能“异化”的思考；面对可能存在的冲击，阿西莫夫提出的三大定律都不断深化着对于人工智能的认识。

步骤S1，对背景材料与问题进行形式化处理：通过给定问题s₀和材料 D＝{s₁,s₂，…，s_i}，s_i表示阅读材料中的第i个句子，从材料D中抽取与问题s₀最相关的片段A^*＝{a₁,a₂,…,a_k}，其中a_k为材料D中的一个句子，在材料D中答案句之间连续或不连续。

步骤S2，根据停用词表对问题信息进行精简：

事先建立面向高考问答题的停用词表；通过停用词表对问句进行过滤精简，剔除问句中的非关键信息，保留单句中所有的句子成分。

原句为“根据材料一、材料二，简要说明人类对人工智能的认识是如何不断深化的。”根据停用词表，对‘根据’、‘材料一’、‘材料二’、‘，’、‘简要’、‘说明’进行去除。具体停用词部分及精简句展示如下表1所示：

表1

步骤S3，通过段落评价对非答案区域的片段进行剔除；如附图3所示

利用改进的MMR算法，剔除每篇材料中与解题无关的段落，降低非答案区域对模型的干扰的具体步骤如下：

以2018年北京真题中第一段为例子进行计算，“当年，科学技术的巨大进步推动了人工智能的迅猛发展，人工智能成了全球产业界、学术界的高频词。有研究者将人工智能定义为：对一种通过计算机实现人脑思维结果，能从环境中获取感知并执行行动的智能体的描述和构建。”

步骤S3.1，首先，将能够代表段落的句子抽出计算公式如下所示：

其中，sim(s₀,s_i)表示篇章段落中的某个句子S_i与问句S₀的相关度，以第一段为例，该段共有两句话，“当年，科学技术的巨大进步推动了人工智能的迅猛发展，人工智能成了全球产业界、学术界的高频词。”表示为s₁；“有研究者将人工智能定义为：对一种通过计算机实现人脑思维结果，能从环境中获取感知并执行行动的智能体的描述和构建。”表示为s₂。

将精简之后的问句“人类对人工智能的认识是如何不断深化的”表示为s₀。计算句子s₁与问句s₀的相关度为0.364，句子s₂与问句s₀的相关度为 0.384。

sim(D_i,s_i)表示S_i与句子所在整个段落D_i的相关度，以第一段为例，将该段表示为D₁，计算句子s₁和该段D₁的相关度为0.659、句子s₂和该段D₁的相似度为 0.814。该算法将句子与所在段落的相关度最高句作为初始化段落代表句，故s₂作为初始化段落代表句。

sim(s_i,s_j)表示S_i与段落D_j抽取出的句子S_j的相关度，故计算句子s₁和句子s₂的相似度为0.366。

按照公式(1)计算，最终抽取出句子s₂作为第一段的段落代表句。

同理，将篇章材料全部按照此算法来计算段落代表句

将相关度最低的段落③、⑦剔除。

步骤S4，利用BERT模型获取答案候选句集；如附图4所示，

利用BERT模型对多片段答案进行探索，利用BERT模型对句子进行向量表示，之后利用sorfmax进行概率排序；

每个句子首部都会添加一个特殊符号“[CLS]”。为了对不同的句子进行区分，在输入序列中每个句子的末尾加入了特殊符号“[SEP]”

其中[CLS]是模型额外增加的开始标志，说明这是句首位置。[SEP]代表分隔符，我们会将两句话拼接成一句话，通过分隔符来识别。第二句话拼接完成后也会加上一个分隔符。

[CLS]人类对人工智能的认识是如何不断深化的[SEP]当年，科学技术的巨大进步推动了人工智能的迅猛发展，人工智能成了全球产业界、学术界的高频词[SEP]，将问句与背景材料切句全部组合成句子对。

将文字映射成向量表示，其中一条语句对示例如下表2所示：

表2

字符	映射	字符	映射	字符	映射	字符	映射	字符	映射	字符	映射	字符	映射
														[CLS]	1	认	10	的	19	的	28	工	37	人	46	业	55
人	2	识	11	[SEP]	20	巨	29	智	38	工	47	界	56
														类	3	是	12	当	21	大	30	能	39	智	48	、	57
对	4	如	13	年	22	进	31	的	40	能	49	学	58
														人	5	何	14	，	23	步	32	迅	41	成	50	术	59
工	6	不	15	科	24	推	33	猛	42	了	51	界	60
														智	7	断	16	学	25	动	34	发	43	全	52	的	61
能	8	深	17	技	26	了	35	展	44	球	53	...	...
														的	9	化	18	术	27	人	36	，	45	产	54	[SEP]	20

BERT的输入有三部分：token_embedding、segment_embedding、 position_embedding，它们分别指得是词的向量表示、词位于哪句话中、词的位置信息，将三个向量部分进行相加，得到最终的输入序列。

当输入句子长度与最大长度不一样，Bert作了填充处理，将不足设定长度的部分标记为0，其余标记为1。

对于输入序列中的每个字，会对应三个向量，Query向量(Q)、Key向量(K)和 Value向量(V)。输入序列中每个向量的重要程度X_score由Query向量和Key向量相乘得到，计算公式如下所示。

X_score＝Q·K

通过使用softmax对X_score做平滑得到attention值，平滑后的结果与Value向量相乘，其中，d_k为输入向量维度，计算公式如下所示：

之后将attention(Q，K，V)拼接在一起并做线性变换，再经过残差连接和层规范，得到最终的句子对向量表征，pooled_output：维度是[batch_size, hidden_size]，每个句子对第一个位置CLS的向量输出，用于分类任务。

获取到BERT输出的向量后，对输出做softmax操作，进行分类操作。

步骤S4.2，利用回归模型输出条件概率，概率最大的类别即为当前样本所属的类别，

{人类对人工智能的认识是如何不断深化的。当年，科学技术的巨大进步推动了人工智能的迅猛发展，人工智能成了全球产业界、学术界的高频词}，计算公式如下所示：

其中，h_θ(x,y)表示回归模型的判别函数，θ₀和θ₁是模型参数，T代表转置； (x_i,y_n)表示试题中第i个问题对应第n条候选句的类别概率；

p(z|x_i,y_n)可以实现对候选句是否为答案句的概率值的预测，同理，将篇章材料与问题整理成句子对的形式执行上面操作，将softmax的概率结果按照从高到低排序，选取概率较大的Top-15候选句作为BERT语义表示的输出结果，示例如下表3所示。

表3

步骤S5，通过随机游走模型对候选答案句集进行重排序；如附图5所示，

以候选句集合中第十五句为例：“人工智能并不是新鲜事物。”

其中，PR(s₁₅)表示第十五个候选句节点s₁₅的重要度。n为15，表示候选句集合中的句子数，d为阻尼因子(0<d<1)，d用来平衡相近句子节点和初始分数句子节点对其他句子的影响。

表示与第十五个候选句节点s₁₅有关联的其它句子节点集合。degree(s₁₅)表示句子节点s₁₅的出度，weight_15j表示第十五个候选句节点s₁₅和其他十四个节点{s₁，…，s_j，…s₁₄}之间的相似度权重。

其中，s₀s₁₅表示问句s₀“人类对人工智能的认识是如何不断深化的”和候选句s₁₅“人工智能并不是新鲜事物”的相似度，同理，其他候选句与问句同样进行相似度计算。预先设定问句的重要度为1，其他候选句重要度为0，按照随机游走模型进行迭代排序；

步骤S6，输出排序的前六句作为答案句具体方法是：经多次迭代计算，当所有句子的重要度不再发生变化，最终选取Top-6作为最终的答案句，具体结果如表4所示；

表4

本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于BERT语义表示的阅读理解自动问答方法，其特征在于：包括以下步骤：

步骤S1，对背景材料与问题进行形式化处理；

步骤S2，根据停用词表对问题信息进行精简；

步骤S3，通过段落评价对非答案区域的片段进行剔除；

步骤S4，利用BERT模型获取答案候选句集；

步骤S5，通过随机游走模型对候选答案句集进行重排序；

步骤S6，输出排序的前六句作为答案句；

所述步骤S3，通过段落评价对非答案区域的片段进行剔除，还包括以下步骤：步骤S3.1，首先将能够代表段落的句子抽出，计算公式如下所示：

其中，sim(s₀,s_i)表示篇章段落中的某个句子S_i与问句S₀的相关度，sim(D_i,s_i)表示S_i与句子所在整个段落D_i的相关度，sim(s_i,s_j)表示S_i与段落D_j抽取出的句子S_j的相关度，β₁，β₂用于调节公式(1)中三个部分的权重；β₁sim(s₀,s_i)+β₂sim(D_i,s_i)表示待抽取句子与问句和整篇文档的相关程度，

表示待抽取句子和已抽取句子的相关程度；

所述步骤S4，利用BERT模型获取答案候选句集，还包括以下步骤：

训练样本：

p(z|x_i,y_n)可以实现对候选句是否为答案句的概率值的预测，选取概率较大的Top-15候选句作为BERT模型的输出结果；

所述步骤S4.1中BERT模型的输入是由两个句子组成的句子对，即问句-答案候选句；BERT模型的输出是经过多层编码器对应的融合问句和答案候选句信息的语义表示；

所述步骤S5，通过随机游走模型对候选答案句集进行重排序，还包括以下步骤：

其中，PR(S_i)是候选句节点S_i的重要度，n表示句子数，d为阻尼因子(0<d<1)，d用来平衡相近句子节点和初始分数句子节点对其他句子的影响；M_(Si)表示与候选句节点S_i有关联的其它句子节点集合，degree(S_j)表示节点S_j的出度，weight_ij为候选句节点S_i和其他节点S_j之间的相似度权重；

其中，s₀s_i表示问句s₀和候选句s_i的相似度；

2.根据权利要求1所述的一种基于BERT语义表示的阅读理解自动问答方法，其特征在于：所述步骤S1，对背景材料与问题进行形式化处理，具体为：通过给定问题s₀和材料D＝{s₁,s₂，…，s_i}，s_i表示阅读材料中的第i个句子，从材料D中抽取与问题s₀最相关的片段A^*＝{a₁,a₂,…,a_k}，其中a_k为材料D中的一个句子，在材料D中答案句之间连续或不连续。

3.根据权利要求2所述的一种基于BERT语义表示的阅读理解自动问答方法，其特征在于：所述步骤S2，根据停用词表对问题信息进行精简，具体为剔除问句中的非关键信息，保留单句中所有的句子成分。

4.根据权利要求3所述的一种基于BERT语义表示的阅读理解自动问答方法，其特征在于：所述步骤S6，输出排序的前六句作为答案句具体方法是：经多次迭代计算，当所有句子的重要度不再发生变化，最终选取Top-6作为最终的答案句。