CN112084299B - 一种基于bert语义表示的阅读理解自动问答方法 - Google Patents
一种基于bert语义表示的阅读理解自动问答方法 Download PDFInfo
- Publication number
- CN112084299B CN112084299B CN202010779366.9A CN202010779366A CN112084299B CN 112084299 B CN112084299 B CN 112084299B CN 202010779366 A CN202010779366 A CN 202010779366A CN 112084299 B CN112084299 B CN 112084299B
- Authority
- CN
- China
- Prior art keywords
- sentence
- question
- answer
- sentences
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于BERT语义表示的阅读理解自动问答方法,属于自然语言处理技术领域。本发明通过段落评价对篇章段落进行筛选,去除不包含答案的区域,减少无用信息对模型的解题干扰,利用BERT模型对多片段答案进行了探索,借助预训练的知识进行作答,有效地提高了自动问答的得分率。本申请的成果可应用到基础教育学习考试产品中,为我国中小学生、老师和家长提供高科技教育产品和服务。
Description
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于BERT语义表示的阅读理解自动问答方法。
背景技术
机器阅读理解的目标是让机器像人类一样阅读文本,提炼文本信息并准确地回答相关问题。目前,机器阅读理解作为自然语言处理的核心领域,借助于深度学习技术,获得了快速发展,成为了学术界研究的焦点。
常见问答题的数据集代表有SQuAD、DuReader和CMRC等数据集。而这些问答数据集中的问题较简单,而高考阅读理解的问题较为复杂,必须对问题和全文信息进行深度理解和推理才能获取正确答案。
2018年,自然语言领域的研究人员研究出新的模型架构-预训练模型加微调。该架构在大规模语料上进行无监督的训练模型,完成训练后针对不同的下游任务进行特定的有监督训练任务。谷歌推出的BERT是具有代表性的模型, Devlin J,Chang MW,Lee K,etal.BERT:Pre-training of Deep Bidirectional Transformers for LanguageUnderstanding[C]//Proceedings of the 2019Conference of the North AmericanChapter of the Association for Computational Linguistics: Human LanguageTechnologies,Vol.1(Long and Short Papers).2019:4171-4186.该模型预先进行大量的知识训练,之后只需根据自己的任务形式进行微调就可以直接运用,而无需对特定任务的体系结构进行大量修改。
该模型在绝大多数问答数据集上取得了不错的结果,但是直接应用在中考或高考题上效果欠佳,这是由于中、高考阅读理解问题相比一般阅读理解问题更加复杂,同时中、高考问答任务中的训练数据比较缺乏。本发明针对以上问题提出了一些解决方案。同时,本项目成果可应用到基础教育学习考试产品中,为我国中小学生、老师和家长提供高科技教育产品和服务。此外,类人答题的研发经验也能为各个行业的知识服务和人工智能研发提供先进的技术解决方案,有望在医疗、客服、政府、安全等多领域推广应用,实现显著的社会和经济效益。
发明内容
针对上述问题本发明提供了一种基于BERT语义表示的阅读理解自动问答方法。
为了达到上述目的,本发明采用了下列技术方案:
一种基于BERT语义表示的阅读理解自动问答方法,包括以下步骤:
步骤S1,对背景材料与问题进行形式化处理;
步骤S2,根据停用词表对问题信息进行精简;
步骤S3,通过段落评价对非答案区域的片段进行剔除;
步骤S4,利用BERT模型获取答案候选句集;
步骤S5,通过随机游走模型对候选答案句集进行重排序;
步骤S6,输出排序的前六句作为答案句。
进一步,所述步骤S1,对背景材料与问题进行形式化处理,具体为:通过给定问题s0和材料D={s1,s2,…,si},si表示阅读材料中的第i个句子,从材料D中抽取与问题s0最相关的片段A*={a1,a2,…,ak},其中ak为材料D中的一个句子,在材料D中答案句之间连续或不连续。
再进一步,所述步骤S2,根据停用词表对问题信息进行精简,具体为剔除问句中的非关键信息,保留单句中所有的句子成分。
再进一步,所述步骤S3,通过段落评价对非答案区域的片段进行剔除,还包括以下步骤:步骤S3.1,首先将能够代表段落的句子抽出,计算公式如下所示:
其中,sim(s0,si)表示篇章段落中的某个句子Si与问句S0的相关度,sim(Di,si)表示Si与句子所在整个段落Di的相关度,sim(si,sj)表示Si与段落Dj抽取出的句子 Sj的相关度,β1,β2用于调节公式(1)中三个部分的权重;[β1sim(s0,si)+β2sim(Di,si) 表示待抽取句子与问句和整篇文档的相关程度,]表示待抽取句子和已抽取句子的相关程度;
步骤S3.2,将各个段落的句子SDi与问句S0进行相关度计算,返回需要剔除的段落索引Dindex,计算公式如下所示:
再进一步,所述步骤S4,利用BERT模型获取答案候选句集,还包括以下步骤:
步骤S4.1,通过BERT模型的输入和输出,获取到问句和答案候选句的特征向量,输入分类器分类;
训练样本:
{(x1,y1,z),(x1,y2,z),...,(x1,yn,z);(x2,y1,z),(x2,y2,z),...,(x2,yn,z);...;(xi,y1,z),(xi,y2,z),...,(xi,yn,z)) (3)
其中(xi,y1,z)表示试题中第i个问题对应第n条候选句的类别z,z∈{0,1},z为1表示为答案句,为0表示为非答案句;
步骤S4.2,利用回归模型输出条件概率,概率最大的类别即为当前样本所属的类别,计算公式如下所示:
其中,hθ(x,y)表示回归模型的判别函数,θ0和θ1是模型参数,T代表转置;
p(z|xi,yn)可以实现对候选句是否为答案句的概率值的预测,选取概率较大的Top-15候选句作为BERT模型的输出结果。
再进一步,所述步骤S4.1中BERT模型的输入是由两个句子组成的句子对,即问句-答案候选句;BERT模型的输出是经过多层编码器对应的融合问句和答案候选句信息的语义表示。
再进一步,所述步骤S5,通过随机游走模型对候选答案句集进行重排序,还包括以下步骤:
步骤S5.1,在原始随机游走模型基础上,添加问句信息,形成融合问句信息的随机游走模型,计算公式如下所示:
其中,PR(Si)是候选句节点Si的重要度,n表示句子数,d为阻尼因子 (0<d<1),d用来平衡相近句子节点和初始分数句子节点对其他句子的影响; M(Si)表示与候选句节点Si有关联的其它句子节点集合,degree(Sj)表示节点 Sj的出度,weightij为候选句节点Si和其他节点Sj之间的相似度权重;
步骤S5.2,采用word2vec度量问句和BERT模型输出的前15个候选句的相似度,构建16*16的相似度矩阵,如下所示:
其中,s0si表示问句s0和候选句si的相似度;
预先设定问句的重要度为1,其他候选句重要度为0,按照随机游走模型进行迭代排序。
再进一步,所述步骤S6,输出排序的前六句作为答案句具体方法是:经多次迭代计算,当所有句子的重要度不再发生变化,最终选取Top-6作为最终的答案句。
与现有技术相比本发明具有以下优点:
(1)本发明建立了面向高考问答的问句停用词表,有效删减问句的冗余信息,聚焦问句的关键信息。
(2)本发明通过段落评价对篇章段落进行筛选,去除不包含答案的区域,减少无用信息对模型的解题干扰。
(3)本发明利用预训练模型对多片段答案进行了探索,有效弥补BERT模型所面临的数据稀疏问题。
(4)本发明利用图模型排序方法来确定最终的答案句,在一定程度上提高了答案句的召回率和准确率。
(5)本发明提出的方法也可以应用在文本分类、文本摘要、以及复杂问题求解等自然语言处理任务中。此外,类人答题的研发经验也能为各个行业的知识服务和人工智能研发提供先进的技术解决方案,有望在医疗、客服、政府、安全等多领域推广应用,实现显著的社会效益和经济效益。
附图说明
图1是本发明自动问答系统流程图;
图2是本发明自动问答方法的具体流程图;
图3是本发明中段落评价的具体流程图;
图4是本发明中BERT答案句抽取的具体流程图;
图5是本发明中随机游走模型的具体流程图。
具体实施方式
实施例1
本实施例选用的背景资料为2018年北京高考真题:
材料一
①当年,科学技术的巨大进步推动了人工智能的迅猛发展,人工智能成了全球产业界、学术界的高频词。有研究者将人工智能定义为:对一种通过计算机实现人脑思维结果,能从环境中获取感知并执行行动的智能体的描述和构建。
②人工智能并不是新鲜事物。20世纪中叶,“机器思维”就已出现在这个世界上。1936年,英国数学家阿兰·麦席森·图灵从模拟人类思考和证明的过程入手,提出利用机器执行逻辑代码来模拟人类的各种计算和逻辑思维过程的设想。1950年,他发表了《计算机器与智能》一文,提出了判断机器是否具有智能的标准,即“图灵测试”。“图灵测试”是指一台机器如果能在5分钟内回答由人类测试者提出的一系列问题,且超过30%的回答让测试者误认为是人类所答,那么就可以认为这机器具有智能。
③20世纪80年代,美国哲学家约翰·希尔勒教授用“中文房间”的思维实验,表达了对“智能”的不同思考。一个不懂中文只会说英语的人被关在一个封闭的房间里,他只有铅笔、纸张和一大本指导手册,不时会有画着陌生符号的纸张被递进来。被测试者只能通过阅读指导手册找寻对应指令来分析这些符号。之后,他向屋外的人交出一份同样写满符号的答卷。被测试者全程都不知道,其实这些纸上用来记录问题和答案的符号是中文。他完全不懂中文,但他的回答是完全正确的。上述过程中,被测试者代表计算机,他所经历的也正是计算机的工作内容,即遵循规则,操控符号。“中文房间”实验说明,看起来完全智能的计算机程序其实根本不理解自身处理的各种信息。希尔勒认为,如果机器有“智能”,就意味着它具有理解能力。既然机器没有理解能力,那么所谓的“让机器拥有人类智能”的说法就是无稽之谈了。
④18在人工智能研究领域中,不同学派的科学家对“何为智能”的理解不尽相同。符号主义学派认为“智能”的实质就是具体问题的求解能力,他们会为所设想的智能机器规划好不同的问题求解路径,运用形式推理和数理逻辑的方法,让计算机模仿人类思维进行决策和推理。联结主义学派认为“智能”的实质就是非智能部件相互作为的产物,在他们眼里人类也是一种机器,其智能来源于许多非智能但半自主的组成大脑的物质间的相互作用。他们研究大脑的结构,让计算机去模仿人类的大脑,并且用某种教学模型去重建一个简化的神经元网络。行为主义学派认为“智能”的实质是机器和人类的行为相似,研究人工智能应该研究人类感知和行动的本能,而不是高级的逻辑推理,不解决基本问题就无法实现复杂的思维模拟。因而他们让计算机模仿人的行为,建立人工智能系统。
⑤时至今日,研究者们对“智能”的理解仍未形成共识。25但是,正是对“何为智能”这个核心问题的不断思考和解答,推动了人工智能技术在不同层面的发展。
材料二
⑥2018年5月,谷歌Duplex人工智能语音技术(部分)通过了“图灵测试”。这个消息进一步引发了人们对于人工智能的思考:当机器人越来越像人,我们应该怎样做?
⑦在人工智能的开发过程中,设计者会遇到伦理问题的挑战。比如著名的“隧道问题”:一辆自动驾驶的汽车在通过黑暗的隧道时前方突然出现一个小孩,面对撞向隧道还是撞向行人这种进退维谷的突发情况,自动驾驶汽车会怎么做?
⑧自动驾驶汽车依靠的是人工智能“大脑”,它会从以往案例数据库中选取一个与当前情景较相似的案例,然后根据所选案例来实施本次决策。当遇到完全陌生的情景时,汽车仍然会进行搜索,即在“大脑”中迅速搜索与当前场景相似度大于某个固定值的过往场景,形成与之对应的决断。如果计算机搜索出来的场景相似度小于那个值,自动驾驶汽车将随机选择一种方式处理。
⑨那么,如果自动驾驶汽车伤害了人类,谁来负责呢?有的学者认为不能将人工智能体作为行为主体对待。因为“主体”概念有一系列限定,譬如具有反思能力、主观判断能力以及情感和价值目标设定等。人工智能不是严格意义上的“智能”,它所表现出来的智能以及对人类社会道德行为规范的掌握和遵循,是基于大数据学习的结果,和人类主观意识有本质的不同。因此,人工智能体不可以作为社会责任的承担者。以上述自动驾驶汽车为例,究竟由人工智能开发者负责,还是由汽车公司负责甚至任何的第三方负责,或者各方在何种情形下如何分担责任,应当在相关人工智能的法律法规框架下通过制订商业合同进行约定。
⑩人工智能在未来还可能产生的一个问题就是“奇点(singularity)”。所谓“奇点”就是指机器智能有朝一日超越人类智能,那时机器将能够进行自我编程而变得更加智能,它们也将持续设计更加先进的机器,直到将人类远远甩开。尽管研究者对“奇点”到来的时间和可能性还有争议,但是不管“奇点”时刻能否真的到来,在技术不断完善的过程中,我们都要小心被人工智能“异化”。在我们训练人工智能的同时,有可能也被人工智能“训练”了。我们的一举一动、生活爱好都将被人工智能塑造,人工智能在无形中暗暗决定了我们的思维方式,当我们还在为自己的自由意志而骄傲的时候,也许已不知不觉地沦为了数据的囚徒。
面对人工智能可能带来的种种冲击,上世纪50年代美国科幻小说家阿西莫夫提出的机器人三大定律,今天对我们依然有借鉴意义。这三大定律是:机器人不得伤害人,也不得见到人受伤害而袖手旁观;机器人应服从人的一切命令,但不得违反第一定律;机器人应保护自身安全,但不得违反第一、第二定律。归根结底,人是智能行为的总开关。人工智能的开发者应该始终把对社会负责的原则,放在对技术进步的渴望之上。人类完全可以做到未雨绸缪,应对人工智能可能带来的威胁。
问题:根据材料一、材料二,简要说明人类对人工智能的认识是如何不断深化的?
标准答案:(1)对于“人工智能”的理解、思考不断深入,深化了对人工智能的认识。20世纪中叶:“机器思维”,图灵提出利用计算机模拟人类思考和证明的过程;20世纪80年代,希尔勒用“中文房间”提出“智能”需意味着具有理解能力;不同学派对“智能”的不同认识,也推动了对其认识的不断深化。 (2)“人工智能”的发展引发了如何认识、应对“人工智能”的思考,深化了对人工智能的认识。“人工智能”开发过程中,设计者对伦理问题的思考;“奇点”概念的提出,对人类可能被人工智能“异化”的思考;面对可能存在的冲击,阿西莫夫提出的三大定律都不断深化着对于人工智能的认识。
步骤S1,对背景材料与问题进行形式化处理:通过给定问题s0和材料 D={s1,s2,…,si},si表示阅读材料中的第i个句子,从材料D中抽取与问题s0最相关的片段A*={a1,a2,…,ak},其中ak为材料D中的一个句子,在材料D中答案句之间连续或不连续。
步骤S2,根据停用词表对问题信息进行精简:
事先建立面向高考问答题的停用词表;通过停用词表对问句进行过滤精简,剔除问句中的非关键信息,保留单句中所有的句子成分。
原句为“根据材料一、材料二,简要说明人类对人工智能的认识是如何不断深化的。”根据停用词表,对‘根据’、‘材料一’、‘材料二’、‘,’、‘简要’、‘说明’进行去除。具体停用词部分及精简句展示如下表1所示:
表1
步骤S3,通过段落评价对非答案区域的片段进行剔除;如附图3所示
利用改进的MMR算法,剔除每篇材料中与解题无关的段落,降低非答案区域对模型的干扰的具体步骤如下:
以2018年北京真题中第一段为例子进行计算,“当年,科学技术的巨大进步推动了人工智能的迅猛发展,人工智能成了全球产业界、学术界的高频词。有研究者将人工智能定义为:对一种通过计算机实现人脑思维结果,能从环境中获取感知并执行行动的智能体的描述和构建。”
步骤S3.1,首先,将能够代表段落的句子抽出计算公式如下所示:
其中,sim(s0,si)表示篇章段落中的某个句子Si与问句S0的相关度,以第一段为例,该段共有两句话,“当年,科学技术的巨大进步推动了人工智能的迅猛发展,人工智能成了全球产业界、学术界的高频词。”表示为s1;“有研究者将人工智能定义为:对一种通过计算机实现人脑思维结果,能从环境中获取感知并执行行动的智能体的描述和构建。”表示为s2。
将精简之后的问句“人类对人工智能的认识是如何不断深化的”表示为s0。计算句子s1与问句s0的相关度为0.364,句子s2与问句s0的相关度为 0.384。
sim(Di,si)表示Si与句子所在整个段落Di的相关度,以第一段为例,将该段表示为D1,计算句子s1和该段D1的相关度为0.659、句子s2和该段D1的相似度为 0.814。该算法将句子与所在段落的相关度最高句作为初始化段落代表句,故s2作为初始化段落代表句。
sim(si,sj)表示Si与段落Dj抽取出的句子Sj的相关度,故计算句子s1和句子s2的相似度为0.366。
按照公式(1)计算,最终抽取出句子s2作为第一段的段落代表句。
步骤S3.2,将各个段落的句子SDi与问句S0进行相关度计算,返回需要剔除的段落索引Dindex,计算公式如下所示:
将相关度最低的段落③、⑦剔除。
步骤S4,利用BERT模型获取答案候选句集;如附图4所示,
步骤S4.1,通过BERT模型的输入和输出,获取到问句和答案候选句的特征向量,输入分类器分类;
利用BERT模型对多片段答案进行探索,利用BERT模型对句子进行向量表示,之后利用sorfmax进行概率排序;
每个句子首部都会添加一个特殊符号“[CLS]”。为了对不同的句子进行区分,在输入序列中每个句子的末尾加入了特殊符号“[SEP]”
其中[CLS]是模型额外增加的开始标志,说明这是句首位置。[SEP]代表分隔符,我们会将两句话拼接成一句话,通过分隔符来识别。第二句话拼接完成后也会加上一个分隔符。
[CLS]人类对人工智能的认识是如何不断深化的[SEP]当年,科学技术的巨大进步推动了人工智能的迅猛发展,人工智能成了全球产业界、学术界的高频词[SEP],将问句与背景材料切句全部组合成句子对。
将文字映射成向量表示,其中一条语句对示例如下表2所示:
表2
字符 | 映射 | 字符 | 映射 | 字符 | 映射 | 字符 | 映射 | 字符 | 映射 | 字符 | 映射 | 字符 | 映射 |
[CLS] | 1 | 认 | 10 | 的 | 19 | 的 | 28 | 工 | 37 | 人 | 46 | 业 | 55 |
人 | 2 | 识 | 11 | [SEP] | 20 | 巨 | 29 | 智 | 38 | 工 | 47 | 界 | 56 |
类 | 3 | 是 | 12 | 当 | 21 | 大 | 30 | 能 | 39 | 智 | 48 | 、 | 57 |
对 | 4 | 如 | 13 | 年 | 22 | 进 | 31 | 的 | 40 | 能 | 49 | 学 | 58 |
人 | 5 | 何 | 14 | , | 23 | 步 | 32 | 迅 | 41 | 成 | 50 | 术 | 59 |
工 | 6 | 不 | 15 | 科 | 24 | 推 | 33 | 猛 | 42 | 了 | 51 | 界 | 60 |
智 | 7 | 断 | 16 | 学 | 25 | 动 | 34 | 发 | 43 | 全 | 52 | 的 | 61 |
能 | 8 | 深 | 17 | 技 | 26 | 了 | 35 | 展 | 44 | 球 | 53 | ... | ... |
的 | 9 | 化 | 18 | 术 | 27 | 人 | 36 | , | 45 | 产 | 54 | [SEP] | 20 |
BERT的输入有三部分:token_embedding、segment_embedding、 position_embedding,它们分别指得是词的向量表示、词位于哪句话中、词的位置信息,将三个向量部分进行相加,得到最终的输入序列。
当输入句子长度与最大长度不一样,Bert作了填充处理,将不足设定长度的部分标记为0,其余标记为1。
对于输入序列中的每个字,会对应三个向量,Query向量(Q)、Key向量(K)和 Value向量(V)。输入序列中每个向量的重要程度Xscore由Query向量和Key向量相乘得到,计算公式如下所示。
Xscore=Q·K
通过使用softmax对Xscore做平滑得到attention值,平滑后的结果与Value向量相乘,其中,dk为输入向量维度,计算公式如下所示:
之后将attention(Q,K,V)拼接在一起并做线性变换,再经过残差连接和层规范,得到最终的句子对向量表征,pooled_output:维度是[batch_size, hidden_size],每个句子对第一个位置CLS的向量输出,用于分类任务。
获取到BERT输出的向量后,对输出做softmax操作,进行分类操作。
步骤S4.2,利用回归模型输出条件概率,概率最大的类别即为当前样本所属的类别,
{人类对人工智能的认识是如何不断深化的。当年,科学技术的巨大进步推动了人工智能的迅猛发展,人工智能成了全球产业界、学术界的高频词},计算公式如下所示:
其中,hθ(x,y)表示回归模型的判别函数,θ0和θ1是模型参数,T代表转置; (xi,yn)表示试题中第i个问题对应第n条候选句的类别概率;
p(z|xi,yn)可以实现对候选句是否为答案句的概率值的预测,同理,将篇章材料与问题整理成句子对的形式执行上面操作,将softmax的概率结果按照从高到低排序,选取概率较大的Top-15候选句作为BERT语义表示的输出结果,示例如下表3所示。
表3
步骤S5,通过随机游走模型对候选答案句集进行重排序;如附图5所示,
步骤S5.1,在原始随机游走模型基础上,添加问句信息,形成融合问句信息的随机游走模型,计算公式如下所示:
以候选句集合中第十五句为例:“人工智能并不是新鲜事物。”
其中,PR(s15)表示第十五个候选句节点s15的重要度。n为15,表示候选句集合中的句子数,d为阻尼因子(0<d<1),d用来平衡相近句子节点和初始分数句子节点对其他句子的影响。表示与第十五个候选句节点s15有关联的其它句子节点集合。degree(s15)表示句子节点s15的出度,weight15j表示第十五个候选句节点s15和其他十四个节点{s1,…,sj,…s14}之间的相似度权重。
步骤S5.2,采用word2vec度量问句和BERT模型输出的前15个候选句的相似度,构建16*16的相似度矩阵,如下所示:
其中,s0s15表示问句s0“人类对人工智能的认识是如何不断深化的”和候选句s15“人工智能并不是新鲜事物”的相似度,同理,其他候选句与问句同样进行相似度计算。预先设定问句的重要度为1,其他候选句重要度为0,按照随机游走模型进行迭代排序;
步骤S6,输出排序的前六句作为答案句具体方法是:经多次迭代计算,当所有句子的重要度不再发生变化,最终选取Top-6作为最终的答案句,具体结果如表4所示;
表4
本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (4)
1.一种基于BERT语义表示的阅读理解自动问答方法,其特征在于:包括以下步骤:
步骤S1,对背景材料与问题进行形式化处理;
步骤S2,根据停用词表对问题信息进行精简;
步骤S3,通过段落评价对非答案区域的片段进行剔除;
步骤S4,利用BERT模型获取答案候选句集;
步骤S5,通过随机游走模型对候选答案句集进行重排序;
步骤S6,输出排序的前六句作为答案句;
所述步骤S3,通过段落评价对非答案区域的片段进行剔除,还包括以下步骤:步骤S3.1,首先将能够代表段落的句子抽出,计算公式如下所示:
其中,sim(s0,si)表示篇章段落中的某个句子Si与问句S0的相关度,sim(Di,si)表示Si与句子所在整个段落Di的相关度,sim(si,sj)表示Si与段落Dj抽取出的句子Sj的相关度,β1,β2用于调节公式(1)中三个部分的权重;β1sim(s0,si)+β2sim(Di,si)表示待抽取句子与问句和整篇文档的相关程度,表示待抽取句子和已抽取句子的相关程度;
步骤S3.2,将各个段落的句子SDi与问句S0进行相关度计算,返回需要剔除的段落索引Dindex,计算公式如下所示:
所述步骤S4,利用BERT模型获取答案候选句集,还包括以下步骤:
步骤S4.1,通过BERT模型的输入和输出,获取到问句和答案候选句的特征向量,输入分类器分类;
训练样本:
{(x1,y1,z),(x1,y2,z),...,(x1,yn,z);(x2,y1,z),(x2,y2,z),...,(x2,yn,z);...;(xi,y1,z),(xi,y2,z),...,(xi,yn,z)) (3)
其中(xi,y1,z)表示试题中第i个问题对应第n条候选句的类别z,z∈{0,1},z为1表示为答案句,为0表示为非答案句;
步骤S4.2,利用回归模型输出条件概率,概率最大的类别即为当前样本所属的类别,计算公式如下所示:
其中,hθ(x,y)表示回归模型的判别函数,θ0和θ1是模型参数,T代表转置;
p(z|xi,yn)可以实现对候选句是否为答案句的概率值的预测,选取概率较大的Top-15候选句作为BERT模型的输出结果;
所述步骤S4.1中BERT模型的输入是由两个句子组成的句子对,即问句-答案候选句;BERT模型的输出是经过多层编码器对应的融合问句和答案候选句信息的语义表示;
所述步骤S5,通过随机游走模型对候选答案句集进行重排序,还包括以下步骤:
步骤S5.1,在原始随机游走模型基础上,添加问句信息,形成融合问句信息的随机游走模型,计算公式如下所示:
其中,PR(Si)是候选句节点Si的重要度,n表示句子数,d为阻尼因子(0<d<1),d用来平衡相近句子节点和初始分数句子节点对其他句子的影响;M(Si)表示与候选句节点Si有关联的其它句子节点集合,degree(Sj)表示节点Sj的出度,weightij为候选句节点Si和其他节点Sj之间的相似度权重;
步骤S5.2,采用word2vec度量问句和BERT模型输出的前15个候选句的相似度,构建16*16的相似度矩阵,如下所示:
其中,s0si表示问句s0和候选句si的相似度;
预先设定问句的重要度为1,其他候选句重要度为0,按照随机游走模型进行迭代排序。
2.根据权利要求1所述的一种基于BERT语义表示的阅读理解自动问答方法,其特征在于:所述步骤S1,对背景材料与问题进行形式化处理,具体为:通过给定问题s0和材料D={s1,s2,…,si},si表示阅读材料中的第i个句子,从材料D中抽取与问题s0最相关的片段A*={a1,a2,…,ak},其中ak为材料D中的一个句子,在材料D中答案句之间连续或不连续。
3.根据权利要求2所述的一种基于BERT语义表示的阅读理解自动问答方法,其特征在于:所述步骤S2,根据停用词表对问题信息进行精简,具体为剔除问句中的非关键信息,保留单句中所有的句子成分。
4.根据权利要求3所述的一种基于BERT语义表示的阅读理解自动问答方法,其特征在于:所述步骤S6,输出排序的前六句作为答案句具体方法是:经多次迭代计算,当所有句子的重要度不再发生变化,最终选取Top-6作为最终的答案句。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010779366.9A CN112084299B (zh) | 2020-08-05 | 2020-08-05 | 一种基于bert语义表示的阅读理解自动问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010779366.9A CN112084299B (zh) | 2020-08-05 | 2020-08-05 | 一种基于bert语义表示的阅读理解自动问答方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112084299A CN112084299A (zh) | 2020-12-15 |
CN112084299B true CN112084299B (zh) | 2022-05-31 |
Family
ID=73736067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010779366.9A Active CN112084299B (zh) | 2020-08-05 | 2020-08-05 | 一种基于bert语义表示的阅读理解自动问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112084299B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112328777B (zh) * | 2021-01-05 | 2021-04-23 | 北京金山数字娱乐科技有限公司 | 一种答案检测方法及装置 |
CN112800205B (zh) * | 2021-02-26 | 2022-05-31 | 中国人民解放军国防科技大学 | 基于语义变化流形分析获取问答相关段落的方法、装置 |
CN113282977A (zh) * | 2021-03-19 | 2021-08-20 | 广州天越电子科技有限公司 | 一种基于NLP技术bert模型的CAD中文输入快捷命令方法 |
CN113326866B (zh) * | 2021-04-16 | 2022-05-31 | 山西大学 | 一种融合语义场景的摘要自动生成方法及系统 |
CN113065360B (zh) * | 2021-04-16 | 2023-02-07 | 平安国际智慧城市科技股份有限公司 | 词语语义模型的构建方法、装置、计算机设备及存储介质 |
CN113722452B (zh) * | 2021-07-16 | 2024-01-19 | 上海通办信息服务有限公司 | 一种问答系统中基于语义的快速知识命中方法及装置 |
CN113553402B (zh) * | 2021-07-28 | 2022-09-20 | 山西大学 | 一种基于图神经网络的考试阅读理解自动问答方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015062482A1 (en) * | 2013-11-01 | 2015-05-07 | Tencent Technology (Shenzhen) Company Limited | System and method for automatic question answering |
WO2017222738A1 (en) * | 2016-06-24 | 2017-12-28 | Mind Lakes, Llc | Architecture and processes for computer learning and understanding |
CN108804654A (zh) * | 2018-06-07 | 2018-11-13 | 重庆邮电大学 | 一种基于智能问答的虚拟学习环境构建方法 |
CN109408680A (zh) * | 2018-10-08 | 2019-03-01 | 腾讯科技(深圳)有限公司 | 自动问答方法、装置、设备和计算机可读存储介质 |
CN110134967A (zh) * | 2019-05-22 | 2019-08-16 | 北京金山数字娱乐科技有限公司 | 文本处理方法、装置、计算设备及计算机可读存储介质 |
CN111027327A (zh) * | 2019-10-29 | 2020-04-17 | 平安科技(深圳)有限公司 | 机器阅读理解方法、设备、存储介质及装置 |
CN111309891A (zh) * | 2020-03-16 | 2020-06-19 | 山西大学 | 一种阅读机器人进行自动问答的系统及其应用方法 |
-
2020
- 2020-08-05 CN CN202010779366.9A patent/CN112084299B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015062482A1 (en) * | 2013-11-01 | 2015-05-07 | Tencent Technology (Shenzhen) Company Limited | System and method for automatic question answering |
WO2017222738A1 (en) * | 2016-06-24 | 2017-12-28 | Mind Lakes, Llc | Architecture and processes for computer learning and understanding |
CN108804654A (zh) * | 2018-06-07 | 2018-11-13 | 重庆邮电大学 | 一种基于智能问答的虚拟学习环境构建方法 |
CN109408680A (zh) * | 2018-10-08 | 2019-03-01 | 腾讯科技(深圳)有限公司 | 自动问答方法、装置、设备和计算机可读存储介质 |
CN110134967A (zh) * | 2019-05-22 | 2019-08-16 | 北京金山数字娱乐科技有限公司 | 文本处理方法、装置、计算设备及计算机可读存储介质 |
CN111027327A (zh) * | 2019-10-29 | 2020-04-17 | 平安科技(深圳)有限公司 | 机器阅读理解方法、设备、存储介质及装置 |
CN111309891A (zh) * | 2020-03-16 | 2020-06-19 | 山西大学 | 一种阅读机器人进行自动问答的系统及其应用方法 |
Non-Patent Citations (3)
Title |
---|
Dynamic and multi-match answer selection model for automobile question answering;jia kun zhao等;《2019 international conference on computer science communications and big data》;20191231;1-7 * |
基于深度学习的领域本体概念自动获取方法研究;王思丽等;《情报理论与实践》;20191028;第43卷(第3期);145-152+144 * |
面向高考阅读理解的句子语义相关度;郭少茹等;《清华大学学报(自然科学版)》;20170615;第57卷(第6期);575-579+585 * |
Also Published As
Publication number | Publication date |
---|---|
CN112084299A (zh) | 2020-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112084299B (zh) | 一种基于bert语义表示的阅读理解自动问答方法 | |
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
CN108021616B (zh) | 一种基于循环神经网络的社区问答专家推荐方法 | |
Nattinger | Some current trends in vocabulary teaching | |
Drigas et al. | Decade review (1999-2009): artificial intelligence techniques in student modeling | |
CN110134954B (zh) | 一种基于Attention机制的命名实体识别方法 | |
CN111310474A (zh) | 基于激活-池化增强bert模型的在线课程评论情感分析方法 | |
Zhao et al. | ZYJ123@ DravidianLangTech-EACL2021: Offensive language identification based on XLM-RoBERTa with DPCNN | |
Chaplot et al. | Learning cognitive models using neural networks | |
Darwish | Optimality in translation | |
CN115329200A (zh) | 一种基于知识图谱和用户相似度的教学资源推荐方法 | |
CN110222344B (zh) | 一种针对小学生作文辅导的作文要素分析算法 | |
Joundy Hazar et al. | Automated scoring for essay questions in e-learning | |
Tian et al. | Research on MOOC teaching mode in higher education based on deep learning | |
Jiménez et al. | Sentiment Analysis of Student Surveys--A Case Study on Assessing the Impact of the COVID-19 Pandemic on Higher Education Teaching. | |
CN107092593A (zh) | 初等数学分层抽样应用题的句子语义角色识别方法及系统 | |
Chakraborty et al. | Intelligent fuzzy spelling evaluator for e-Learning systems | |
Les et al. | Shape Understanding System–Knowledge Implementation and Learning | |
Niu | Classification of learning sentiments of college students based on topic discussion texts of online learning platforms | |
Eken | Ethic wars: student and educator attitudes in the context of ChatGPT | |
He et al. | Automatically predict question difficulty for reading comprehension exercises | |
Shin et al. | An exploratory study on the potential of machine reading comprehension as an instructional scaffolding device in second language reading lessons | |
Boateng et al. | Real-World Deployment and Evaluation of Kwame for Science, An AI Teaching Assistant for Science Education in West Africa | |
Gupta et al. | EDUVI: An Educational-Based Visual Question Answering and Image Captioning System for Enhancing the Knowledge of Primary Level Students | |
CN112434152B (zh) | 基于多通道卷积神经网络的教育类选择题解答方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |