CN110147436A - 一种基于教育知识图谱与文本的混合自动问答方法 - Google Patents
一种基于教育知识图谱与文本的混合自动问答方法 Download PDFInfo
- Publication number
- CN110147436A CN110147436A CN201910203301.7A CN201910203301A CN110147436A CN 110147436 A CN110147436 A CN 110147436A CN 201910203301 A CN201910203301 A CN 201910203301A CN 110147436 A CN110147436 A CN 110147436A
- Authority
- CN
- China
- Prior art keywords
- answer
- confidence level
- template
- question
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于智慧教育问答技术领域,尤其涉及一种基于教育知识图谱与文本的混合自动问答方法,包括:通过构建基础教育本体、语义标注、信息抽取来构建基础教育知识图谱;根据关键词结合正则表达式,构建问题的通用模板;搭建全文搜索引擎,对海量文本进行预处理;将试题问答对作为训练集合,训练至深度文本匹配模型收敛;对用户问题进行识别得到主语列表,并赋予置信度;进行模板匹配得到谓语列表,并赋予置信度;根据主语和谓语列表查询知识图谱得到答案列表,并赋予置信度;使用词性标注方法得到关键词,进行粗、细粒度匹配得到答案并排序;如果基于教育知识图谱的答案的最高置信度超过阈值,则返回该答案;否则返回基于文本的排序最前的答案。
Description
技术领域
本发明属于智慧教育问答技术领域,尤其涉及一种基于教育知识图谱与文本的混合自动问答方法。
背景技术
智慧教育(Smart Education),已成为信息化时代背景下教育领域发展的一个重要形态。智慧教育的本质在于利用智能化的技术手段构建智能环境,使学生能够更快更好的获取知识,解答问题。而自动问答系统,无疑是一个非常行之有效的方法。一方面,自动问答系统可以帮助中小学生答疑解惑,让他们在每天的学习过程中,都能够及时得到问题的答案。另一方面,因其良好的人机交互性,能显著提高学生们学习知识的积极性。因此,构建一个能够准确理解学生提出的问题,并迅速给出精确答案的问答系统十分必要。
早期的问答系统是基于模板的“专家系统”,方法是针对特定领域人工制定规则来构造模板,这种系统最明显的缺点是只能在特定领域针对少量的数据进行处理;随着搜索技术发展,诞生了开放域的检索式问答(IE-QA),即根据问题中的关键字及语义关系,在大量的文本中抽取出问题的答案,如IBM的“Waston”、“TREC”等,这种问答方式在一定程度上解决了覆盖领域狭窄的问题,但是由于文本质量的良莠不齐,因此抽取出的答案精确程度不高;后来,互联网社区逐步兴起,很多的互联网公司开发出了面向社区的问答,如“知乎”、“Stack Overflow”等,该种问答形式的本质是指给用户提供了一个聚合的平台,答案的正确性需要用户自己判断。
谷歌提出的“知识图谱”的概念,定义了一种全新的知识组织方式。其试图从数据本身出发,将非结构化的数据转变为结构化的数据,并将各种数据连通在一起形成一个包含海量结构化数据的图模型。这种结构化的图模型数据,为问答系统的发展提供了一个新的发展方向,即基于知识图谱的问答系统(KB-QA),由于其能够充分利用知识图谱中的结构化数据为用户提供非常简洁、精确的答案,因而逐步成为较为重要的问答系统研究方向。同时,也能够为“下一代智能检索”、“类人机器人”的发展提供非常有效的帮助。
目前,人们已经对基础教育领域问答系统开展了一些工作,但是这些工作存在着以下问题:只基于知识图谱或文本等单一来源做问答,未能综合利用两种来源各自的优势,具体体现在:知识图谱中的知识精确、结构化程度高,但是对知识的覆盖率不如文本;文本中蕴含所有知识,但是由于非结构化,语义解析较为困难;如果只基于知识图谱来回答用户问题,那么很多问题都回答不了;如果只基于文本回答用户问题,则很多问题都会回答错误。只有很好地结合以上两种来源的知识,对两种来源的答案进行综合排序,才有可能充分利用两种来源的优势,针对用户提出的问题返回最全面最准确的答案。此外,对于基础教育领域而言,教材教辅是最权威的资源,已有基础教育问答系统并未对教材教辅中的知识进行精细的挖掘和加工;基础教育领域中知识点的跨学科关联较多,已有基础教育问答系统并未对全学科的知识进行综合考虑。
发明内容
针对上述技术问题,本发明提出了一种基于教育知识图谱与文本的混合自动问答方法,该方法包括:
步骤1:构建基础教育本体,对多种学科教材教辅进行语义标注后对教材教辅和互联网百科文本资源进行信息抽取来构建全学科基础教育知识图谱;根据关键词结合正则表达式语法,构建问题的通用模板;
步骤2:搭建全文搜索引擎,对教材教辅和互联网百科的海量文本进行预处理来符合所述搜索引擎的索引格式;将基础教育大规模试题问答对作为训练集合,并使用深度文本匹配模型训练至模型收敛;
步骤3:对用户问题进行实体识别得到主语列表,并赋予每个主语相应的置信度;对用户问题进行模板匹配得到谓语列表,并赋予每个谓语相应的置信度;根据主语列表和谓语列表查询所述知识图谱得到基于教育知识图谱的答案列表,并赋予每个答案相应的置信度;
步骤4:使用词性标注方法得到问题中的不同等级的关键词,输入所述搜索引擎进行粗粒度匹配得到基于文本的答案列表;使用预训练好的深度文本匹配模型,对基于文本的答案列表进行细粒度的匹配,得到答案并排序;
步骤5:如果基于教育知识图谱的答案的最高置信度超过阈值,则返回该答案;否则返回基于文本的排序最前的答案。
所述基础教育本体通过半自动本体构建方法构建。
所述信息抽取用于扩充知识的实例、关系和属性。
所述构建问题的通用模板具体包括:
基于教育知识图谱中的关系或属性作为关键词,结合正则表达式语法,形成针对该类型问题的通用模板;
利用句法分析工具对大规模教育问答数据集中的问题进行分析,抽取出关键词,结合正则表达式语法,形成针对该类型问题的通用模板;
基于高区分度疑问词生成模板;
基于通用疑问词生成模板。
所述全文搜索引擎为可扩展的开源全文搜索和分析引擎elasticsearch。
所述赋予每个主语相应的置信度具体包括:
与实例表中实例完全匹配,置信度为1;
通过模板分割得到并去除停用词后的实例,置信度为0.8;
通过模糊匹配相似度计算、最长公共子串匹配得到的实例,置信度为0.6。
所述赋予每个谓语相应的置信度具体包括:
基于教育知识图谱中关系或属性生成的模板,置信度为1;
基于句法分析提取出的关键词生成的模板,置信度为1;
基于高区分度疑问词生成的模板,置信度为2;
基于通用疑问词生成的模板,置信度为3。
所述赋予每个答案相应的置信度具体包括:
对主语列表和谓语列表进行逐一组合,生成sparql查询语句;
查询教育知识图谱,得到答案列表;
按照预设规则赋予每个答案相应置信度,置信度计算法包括:
计算公式为:score=subjectscore×pscore;pscore是谓语的得分,subjectscore 是主语得分;
pscore由模板置信度确定,pscore=1/模板置信度;
subjectScore由主语置信度确定,subjectScore=20×rate×主语的置信度;
rate由主语和问句的最长公共子串所确定:
rate=平方根函数Math.sqrt(最长公共子串的长度/主语的长度)×幂函数Math.pow(主语的长度,1.0/2)。
所述词性标注方法具体包括:
将词性为名词n、动词v、人名nr和其他主语或谓语的词语设为一级关键词;
将副词d,数词m,名语素Ng和其他修饰主语或谓语的词语设为二级关键词;
将连词c,副语素Dg,叹词e,方位词f和关键词无关的词语设为三级关键词。
所述粗粒度匹配具体包括:
对每个一级关键词都进行严格的词组查询,并对所有的词组查询进行或逻辑连接,设定至少匹配50%的查询;
对每个二级关键词都进行为严格的词组查询,并对所有的词组查询进行或逻辑连接,不设定至少匹配查询数量;
不对三级关键词做任何查询。
本发明的有益效果:
本发明实现了语文、数学、英语、政治、历史、地理、物理、化学和生物九门基础教育学科全覆盖,以教材教辅为主,海量互联网资源为辅,充分发挥 KB-QA回答高效精确的特点及IE-QA覆盖面广的特点,保证针对用户的问题,返回最准确的答案。
附图说明
图1:本发明实施例提供的一种基于教育知识图谱的混合问答系统系统结构图。
图2:本发明实施例提供的深度文本匹配模型结构图。
具体实施方式
下面结合附图,对实施例作详细说明。
图1示出了本发明实施例提出的一种基于教育知识图谱的混合自动问答方法的流程图。
参照图1,本发明实施例提出的基础教育知识图谱的构建方法包括:
S1、教育知识图谱及模板构建;
S2、电子化纸质教材教辅及互联网文本预处理;
S3、基于教育知识图谱的问答及评分;
S4、基于文本的问答及评分;
S5、基于教育知识图谱和基于文本两种来源的答案选择。
本实施例中,步骤S1中的离线处理步骤,进一步包括以下图1中已示出的步骤:
S11、使用本体构建、语义标注、和信息抽取等手段,以教材教辅为主、互联网资源为辅,构建基础教育知识图谱。
S12、根据已有基础教育领域知识图谱建立模板库,主要为知识图谱内关系 (或属性)建立一对多的正则表达式模板。
本实施例中,在步骤S11中的使用本体构建、语义标注、和信息抽取等手段,以教材教辅为主、互联网资源为辅,构建基础教育知识图谱,进一步包括以下步骤:
使用TF-IDF和TextRank算法,对教材教辅文本进行处理,得到基础教育领域候选术语;
参考例如schema.org、DBpedia等通用领域知识图谱,完善本体;
根据百科类网站信息框来确定概念和概念之间的关系及其约束;
邀请教育领域专家和老师们进行审核,完成本体构建过程;
根据本体,采取众包半自动语义标注的方式,对各学科的知识清单进行标注,得到了各学科最核心的知识;
从互联网相关网站上扩充所需要的结构化数据,比如从国家统计局网站上得到中国行政区划信息,并加入知识图谱中;
利用机器学习方法从文本中进行信息抽取,包括实体集扩展、关系抽取等步骤;
本实施例中,在步骤S12中的根据已有基础教育领域知识图谱建立模板库,主要为知识图谱内关系(或属性)建立一对多的正则表达式模板,进一步包括以下步骤:
利用正则表达式构造模板,主要来源有两个方面:
1.根据步骤S11所构建的教育知识图谱所包含的关系及属性,结合正则表达式生成相应的模板。
2.对预先获取到的问题进行处理,根据句法分析获取相应的关键词,主要是谓词、疑问词等。结合正则表达式语法生成相应模板。
本实施例中,模板使用mysql数据库进行存储,每个模板表除了具体的正则模板外,还有模板对应的属性、优先级等多个字段,具体结构如表1所示。
表1为本发明实例提供的IE-QA的词性优先级信息。
下面详细介绍每个模板各个字段的用法:
1.content这一列是步骤S12所构建的模板的内容,用正则表达式写成。例如有一个模板“(?<title>(.*)?)地理位置(.*)?”,如果问句匹配到该模板,就认为“地理位置”是问句可能的谓语。该模板中的“(?<title>(.*)?)”是正则表达式中的命名捕获组,用以确定主语的位置。例如问句“东岳泰山的地理位置是?”匹配到这一模板时捕获到的主语是“东岳泰山”;
2.subject表示模板主语是否确定,如果主语未知就用false,其他默认为true;如“被称为天可汗的是谁”,这就是主语未知的,为false。
3.value表示宾语是否确定;
4.type表示此模板所对应的关系或属性。所谓关系,即知识图谱中将两个实体连通的“边”,如“中国”与“北京”两个实体间通过“首都”这个关系建立连接。所谓属性,即实体本身所具有的一些知识,如“北京”这个实体具有“气候类型”这个属性,其属性值为“暖温带大陆性季风气候”。
5.class表示问句主语的class,用于某些特殊问题限定主语的类型。Class主要包括:“time”、“person”等,大部分为空,主要是对于特定领域的主语类型进行标识;
6.usage在解决某些无法通过sparql查询得到结果时,会针对这类问题、进行专门的处理,usage用以标识这类问题。
7.priority标识模板的优先级,模板的优先级主要用于计算谓语的评分。
表2为本发明实施例提供的基础教育领域问题模板示意。
模板的共有三个优先级:
第一优先级为根据问题的谓语、知识图谱中的关系或属性、以及特定类型问题针对性生成的模板,具有很高的置信度,如“(?<title>(.*)?)产生(.*)?条件(.*)?”,在数据库中标识为“1”;
第二优先级为利用具有明显特征的疑问词生成的模板,主要是针对第一优先级无法匹配的一些关于属性的问题,如“(?<title>(.*)?)何时(.*)?”,其置信度相对于第一优先级模板较低一些,在数据库中的标识为“2”;
第三优先级是在第一、第二优先级都无法匹配时,利用一些较为宽泛的疑问词进行匹配,如“(?<title>(.*)?)什么(.*)?”,相较与前两个优先级,该类模板置信度最低,其在数据库中的标识为“3”。
本实施例中,在步骤S2中的电子化纸质教材教辅及互联网文本预处理,进一步包括以下步骤:
S21、搭建高可扩展的开源全文搜索和分析引擎elasticsearch,以支持海量文本的即时查询和检索。
S22、对教材教辅、百度百科等海量文本进行预处理,并按照elasticsearch索引格式,加入elasticsearch索引。
S23、将基础教育大规模试题问答对作为训练集合,并使用深度文本匹配模型训练至模型收敛;
本实施例中,在步骤S22中的对教材教辅、百度百科等海量文本进行预处理,并按照elasticsearch索引格式,加入elasticsearch索引,进一步包括以下步骤:
对教材教辅进行电子化,并过滤掉html标签等网页元素和无关知识的文本;
获取百度百科等百科类网站文本资源;
将以上文本按照段落切分,形成段文本;
如果切分后的段文本能够链接上知识库中实体,则加入elasticsearch索引中;
将知识库中三元组知识连接起来,也加入elasticsearch索引中;
本实施例中,在步骤S23中的将基础教育大规模试题问答对作为训练集合,并使用深度文本匹配模型训练至模型收敛,进一步包括以下步骤:
对试题教辅进行电子化,并过滤掉html标签等网页元素和无关知识的文本;
从题目中挑出选择题和填空题,将题目中的空缺部分替换为最合适的疑问词后作为问题,将题目中的正确答案做为答案,生成问答对;
按照7:3的比例将问答对划分为训练集和验证集;
将问答对输入图2示出的深度文本匹配模型中,训练至模型收敛;
参照图2,深度文本匹配模型包括Embedding层,多个中间层和输出层,中间层可采用多层感知机或者LSTM模块,输出层最后输出一个置信度,表明输入答案是否为输入问题的正确答案。
本实施例中,步骤S3中的基于教育知识图谱的问答及评分,进一步包括以下图1中已示出的步骤:
S31、对用户问题进行实体识别及实体链接得到可能的主语列表,并按照预设规则赋予每个主语相应的置信度。
S32、对用户问题和模板库进行模板匹配得到可能的谓语列表,并按照预设规则赋予每个谓语相应的置信度。
S33、根据上述得到的主语列表和谓语列表,生成sparql语句,查询知识图谱,得到答案列表,并按照预设规则赋予每个答案相应的置信度;
本实施例中,在步骤S31中的对用户问题进行实体识别及实体链接得到可能的主语列表,并按照预设规则赋予每个主语相应的置信度,进一步包括以下步骤:
对用户输入的自然语言问题进行实体识别及实体链接得到可能的主语列表,并按照预设规则赋予每个主语相应的置信度;主要采用了实例表匹配、模板分割、同义词词林查询、相似度计算、最长公共子串匹配等方法,根据各方法的置信度设置优先级,得到候选的实体集合。各优先级设置规则如下:
实例表匹配,即为能够与知识图谱中的某一实体完全匹配,其置信度为1;
模板分割匹配,即利用正则表达式的捕获功能,获取主语,如“《静夜思》的作者是谁?”首先匹配到模板“(?<title>(.*)?)作者(.*)?”;
通过正则表达式,获取到捕获组“《静夜思》的”,去除停用词后,得到主语“《静夜思》”,该方法的置信度为0.8;
同义词词林查询、相似度计算、最长公共子串匹配这三类方法由于都用到了相似的思想,因此我们将其置信度设置为0.6。
本实施例中,在步骤S32中的对用户问题和模板库进行模板匹配得到可能的谓语列表,并按照预设规则赋予每个谓语相应的置信度,进一步包括以下步骤:
对用户问题和模板库进行模板匹配得到可能的谓语列表,并按照预设规则赋予每个谓语相应的置信度;
谓语的确定过程就是逐个模板进行匹配,匹配到了就认为此模板对应的属性是问题的谓语。例如问题“习惯上,以什么山为界把我国分为季风区和非季风区”匹配到模板“(?<title>(.*)?)以(.*)?为界”,确定其对应属性为【分界线】。
相应的置信度制定规则为:
对于利用知识图谱中的关系(或属性)直接生成的模板,及针对特殊类型问题制定的模板,其置信度设置为1;
对于利用区分度较高的疑问词(如“谁,何时”)等生成的模板,其置信度设置为2;
对于利用模糊性短语或疑问词(如“什么”)生成的模板,其置信度设置为3;
本实施例中,在步骤S33中的根据上述得到的主语列表和谓语列表,生成 sparql语句,查询知识图谱,得到答案列表,并按照预设规则赋予每个答案相应的置信度,进一步包括以下步骤:根据步骤S22、S23得到的主语列表和谓语列表,生成sparql语句,查询知识图谱,得到答案列表,并按照预设规则赋予每个答案相应的置信度;主语和和谓语都可能有多个,生成查询语句时是逐一组合成三元组,各生成一条查询语句,并确定每一条查询语句的得分。例如“习惯上,以什么山为界把我国分为季风区和非季风区”的查询语句为:
根据步骤S31,S32得到的实体及谓语的置信度,并结合其各自的类型,对候选答案集合中的候选答案进行打分排序,筛选达到阈值的答案作为正确答案。根据模板的查询结果的评分主要根据主语和模板的优先级进行评分的,计算公式为:score=subjectScore*pscore。pscore是指谓语的得分,由模板的优先级确定,具体的规则为:
1.pscore=1/模板的优先级;
2.subjectScore是主语的得分,其公式为:subjectScore=20*rate*主语的置信度;
3.rate是由主语与问句的最长公共子串所确定的:
rate=Math.sqrt(最长公共子串的长度/主语的长度)*Math.pow(主语的长度,1.0/2)
本实施例中,步骤S4中的基于文本的问答及评分,进一步包括以下图1中已示出的步骤:
S41、使用词性标注方法根据预设策略得到问题中的不同等级的关键词。
S42、将语义解析步骤中的不同等级关键词,输入elasticsearch引擎,根据预设查询策略,对海量索引进行粗粒度匹配,得到粗粒度答案列表。
S43、使用S23步骤中已训练好的深度文本匹配模型,对上述步骤中得到的粗粒度答案列表进行细粒度的匹配,得到答案并排序,返回排序最高的答案。
本实施例中,在步骤S41中的使用词性标注方法根据预设策略得到问题中的不同等级的关键词,进一步包括以下步骤:
首先对用户输入问题进行分词和词性标注,得到每个词语的词性信息;
利用表1示出的各词性的关键等级信息,将问题中的每个词加入到对应关键等级列表中;
本实施例中,在步骤S42中的将语义解析步骤中的不同等级关键词,输入elasticsearch引擎,根据预设查询策略,对海量索引进行粗粒度匹配,得到粗粒度答案列表,进一步包括以下步骤:
对每个一级关键词都进行较严格的词组查询,并对所有的词组查询进行或逻辑连接,设定至少匹配50%的查询;
对每个二级关键词都进行较为严格的词组查询,并对所有的词组查询进行或逻辑连接,不设定至少匹配查询数量;
不对三级关键词做任何查询;
elasticsearch根据上述策略给出候选答案和每个候选答案相应的置信度得分;
本实施例中,在步骤S43中的使用S23步骤中已训练好的深度文本匹配模型,对上述步骤中得到的粗粒度答案列表进行细粒度的匹配,得到答案并排序,返回排序最高的答案,进一步包括以下步骤:
获取S42得到的候选答案置信度得分最高的10个答案;
将每个答案都和问题输入到S23训练好的深度文本匹配模型中,得到每个答案的置信度得分;
选择置信度得分最高的答案,返回给用户。
本实施例中,在步骤S5中的基于教育知识图谱和基于文本两种来源的答案选择,进一步包括以下步骤,包括:
将基于知识图谱的答案按照评分排序;
将基于文本的答案按照评分排序;
如果基于知识图谱来源的评分最高的答案如果超过预设阈值,则返回该答案。
如果基于知识图谱来源的评分最高的答案如果未超过预设阈值,则返回基于文本来源的评分最高的答案。
本系统是在基础教育知识图谱及大量电子文本的基础上构建的混合自动问答系统。基础教育知识图谱共包含2200多万条三元组,162万多个实例,1000 多个概念,4000多个属性。其知识来源包括标注库和外源库,标注库从教材中标注知识点获得,外源库从大百科全书、互联网数据中抽取获得。基本涵盖了中小学阶段九门学科的所有知识点。电子文本主要包括当今中国主要基础教育出版社的基础教育教材教辅1300本,电子课外读物10011本。
在前期准备工作中,从现有的教材教辅试卷通过数字化得到大量试题,同时从互联网上收集到大量试题。题目类型主要包括填空题、选择题、阅读理解题、作文题等等,而这些问题无法被KB-QA系统直接解析,必须对这些题目进行采样抽取,同时进行题目改造,把他们转换成可被系统解析的题目。比如“世界上陆地与海洋的比例大约是()”转换为“世界上陆地与海洋的比例大约是多少?”。
经过规则转换,各学科题量详细情况见表3。
表3为本发明实例提供的在基础教育领域九门学科测试用例统计信息。
以答题正确率作为评测指标,针对各学科题库,在问答系统中输入学科问题进行测试时,记录问答系统给出的答案,针对每门学习分别设计测试用例。学科包括语文、数学、英语、物理、化学、历史、地理、生物、政治,一共设计测试用例9020个,测试结果如表4所示。
表4为本发明实例提供的是在基础教育领域九门学科测试用例的测试结果。
测试学科 | 用例总数 | 实际执行用例 | 正确用例 | 错误用例 | 正确率 |
语文 | 1007 | 1007 | 787 | 220 | 78.15% |
数学 | 926 | 926 | 862 | 64 | 93.09% |
英语 | 1033 | 1033 | 887 | 146 | 85.87% |
物理 | 1000 | 1000 | 911 | 89 | 88.40% |
化学 | 1001 | 1001 | 897 | 104 | 89.61% |
历史 | 1040 | 1040 | 904 | 136 | 83.17% |
地理 | 1017 | 1017 | 739 | 278 | 72.66% |
生物 | 1000 | 1000 | 860 | 140 | 85.5% |
政治 | 996 | 996 | 885 | 111 | 88.86% |
合计 | 9020 | 9020 | 7732 | 1288 | 85.72% |
示例:
在政治学科中,对于问题“企业兼并的含义?”,由于知识图谱中包含“企业兼并”这个实体,且该实体具有“含义”这个属性,因此,在本发明实施例中可以直接使用KB-QA的方法得到精确的答案“经营管理好、经济效益好的优势企业,兼并那些相对劣势的企业的经济现象”。而对于“我国地位最高的国家机关是?”,由于知识图谱中缺少与其相关的实体及关系,因此,通过IE-QA的检索与筛选匹配,我们可以得到答案“全国人民代表大会在我国的国家机构中居于最高地位,其他中央国家机关都由它产生,对它负责,受它监督”。
此实施例仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种基于教育知识图谱与文本的混合自动问答方法,其特征在于,包括:
步骤1:构建基础教育本体,对多种学科教材教辅进行语义标注后对教材教辅和互联网百科文本资源进行信息抽取来构建全学科基础教育知识图谱;根据关键词结合正则表达式语法,构建问题的通用模板;
步骤2:搭建全文搜索引擎,对教材教辅和互联网百科的海量文本进行预处理来符合所述搜索引擎的索引格式;将基础教育大规模试题问答对作为训练集合,并使用深度文本匹配模型训练至模型收敛;
步骤3:对用户问题进行实体识别得到主语列表,并赋予每个主语相应的置信度;对用户问题进行模板匹配得到谓语列表,并赋予每个谓语相应的置信度;根据主语列表和谓语列表查询所述知识图谱得到基于教育知识图谱的答案列表,并赋予每个答案相应的置信度;
步骤4:使用词性标注方法得到问题中的不同等级的关键词,输入所述搜索引擎进行粗粒度匹配得到基于文本的答案列表;使用预训练好的深度文本匹配模型,对基于文本的答案列表进行细粒度的匹配,得到答案并排序;
步骤5:如果基于教育知识图谱的答案的最高置信度超过阈值,则返回该答案;否则返回基于文本的排序最前的答案。
2.根据权利要求1所述自动问答方法,其特征在于,所述基础教育本体通过半自动本体构建方法构建。
3.根据权利要求1所述自动问答方法,其特征在于,所述信息抽取用于扩充知识的实例、关系和属性。
4.根据权利要求1所述自动问答方法,其特征在于,所述构建问题的通用模板具体包括:
基于教育知识图谱中的关系或属性作为关键词,结合正则表达式语法,形成针对该类型问题的通用模板;
利用句法分析工具对大规模教育问答数据集中的问题进行分析,抽取出关键词,结合正则表达式语法,形成针对该类型问题的通用模板;
基于高区分度疑问词生成模板;
基于通用疑问词生成模板。
5.根据权利要求1所述自动问答方法,其特征在于,所述全文搜索引擎为可扩展的开源全文搜索和分析引擎elasticsearch。
6.根据权利要求1所述自动问答方法,其特征在于,所述赋予每个主语相应的置信度具体包括:
与实例表中实例完全匹配,置信度为1;
通过模板分割得到并去除停用词后的实例,置信度为0.8;
通过模糊匹配相似度计算、最长公共子串匹配得到的实例,置信度为0.6。
7.根据权利要求1所述自动问答方法,其特征在于,所述赋予每个谓语相应的置信度具体包括:
基于教育知识图谱中关系或属性生成的模板,置信度为1;
基于句法分析提取出的关键词生成的模板,置信度为1;
基于高区分度疑问词生成的模板,置信度为2;
基于通用疑问词生成的模板,置信度为3。
8.根据权利要求1所述自动问答方法,其特征在于,所述赋予每个答案相应的置信度具体包括:
对主语列表和谓语列表进行逐一组合,生成sparql查询语句;
查询教育知识图谱,得到答案列表;
按照预设规则赋予每个答案相应置信度,置信度计算法包括:
计算公式为:score=subjectscore×pscore;pscore是谓语的得分,subjectscore是主语得分;
pscore由模板置信度确定,pscore=1/模板置信度;
subjectScore由主语置信度确定,subjectScore=20×rate×主语的置信度;
rate由主语和问句的最长公共子串所确定:
rate=平方根函数Math.sqrt(最长公共子串的长度/主语的长度)×幂函数Math.pow(主语的长度,1.0/2)。
9.根据权利要求1所述自动问答方法,其特征在于,所述词性标注方法具体包括:
将词性为名词n、动词v、人名nr和其他主语或谓语的词语设为一级关键词;
将副词d,数词m,名语素Ng和其他修饰主语或谓语的词语设为二级关键词;
将连词c,副语素Dg,叹词e,方位词f和关键词无关的词语设为三级关键词。
10.根据权利要求1所述自动问答方法,其特征在于,所述粗粒度匹配具体包括:
对每个一级关键词都进行严格的词组查询,并对所有的词组查询进行或逻辑连接,设定至少匹配50%的查询;
对每个二级关键词都进行为严格的词组查询,并对所有的词组查询进行或逻辑连接,不设定至少匹配查询数量;
不对三级关键词做任何查询。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910203301.7A CN110147436B (zh) | 2019-03-18 | 2019-03-18 | 一种基于教育知识图谱与文本的混合自动问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910203301.7A CN110147436B (zh) | 2019-03-18 | 2019-03-18 | 一种基于教育知识图谱与文本的混合自动问答方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110147436A true CN110147436A (zh) | 2019-08-20 |
CN110147436B CN110147436B (zh) | 2021-02-26 |
Family
ID=67588923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910203301.7A Active CN110147436B (zh) | 2019-03-18 | 2019-03-18 | 一种基于教育知识图谱与文本的混合自动问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110147436B (zh) |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597957A (zh) * | 2019-09-11 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种文本信息检索的方法及相关装置 |
CN110688838A (zh) * | 2019-10-08 | 2020-01-14 | 北京金山数字娱乐科技有限公司 | 一种成语同义词列表的生成方法及装置 |
CN110717025A (zh) * | 2019-10-08 | 2020-01-21 | 北京百度网讯科技有限公司 | 一种问答方法、装置、电子设备及存储介质 |
CN110807325A (zh) * | 2019-10-18 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 谓词识别方法、装置及存储介质 |
CN110852109A (zh) * | 2019-11-11 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 语料生成方法、语料生成装置、和存储介质 |
CN111026834A (zh) * | 2019-12-10 | 2020-04-17 | 苏州思必驰信息科技有限公司 | 问答语料生成方法及系统 |
CN111178770A (zh) * | 2019-12-31 | 2020-05-19 | 安徽知学科技有限公司 | 答题数据评估和学习图像构建方法、装置及存储介质 |
CN111339269A (zh) * | 2020-02-20 | 2020-06-26 | 来康科技有限责任公司 | 模板自动生成的知识图谱问答训练及应用服务系统 |
CN111460119A (zh) * | 2020-03-27 | 2020-07-28 | 海信集团有限公司 | 经济知识智能问答方法、系统及智能设备 |
CN111475629A (zh) * | 2020-03-31 | 2020-07-31 | 渤海大学 | 一种面向数学辅导问答系统的知识图谱构建方法及其系统 |
CN111475623A (zh) * | 2020-04-09 | 2020-07-31 | 北京北大软件工程股份有限公司 | 基于知识图谱的案件信息语义检索方法及装置 |
CN111639171A (zh) * | 2020-06-08 | 2020-09-08 | 吉林大学 | 一种知识图谱问答方法及装置 |
CN111666425A (zh) * | 2020-06-10 | 2020-09-15 | 深圳开思时代科技有限公司 | 基于语义知识的汽配件搜索方法 |
CN111782824A (zh) * | 2020-08-14 | 2020-10-16 | 中国工商银行股份有限公司 | 信息查询方法、装置、系统和介质 |
CN112037905A (zh) * | 2020-07-16 | 2020-12-04 | 朱卫国 | 医用问答方法、设备及存储介质 |
CN112182150A (zh) * | 2020-09-23 | 2021-01-05 | 中国建设银行股份有限公司 | 基于多元数据的聚合检索方法、装置、设备及存储介质 |
CN112307171A (zh) * | 2020-10-30 | 2021-02-02 | 中国电力科学研究院有限公司 | 一种基于电力知识库的制度标准检索方法及系统和可读存储介质 |
CN112883151A (zh) * | 2021-01-25 | 2021-06-01 | 济南浪潮高新科技投资发展有限公司 | 一种智能问答实现方法及一种智能问答系统 |
CN112905806A (zh) * | 2021-03-25 | 2021-06-04 | 哈尔滨工业大学 | 基于强化学习的知识图谱实体化视图生成器及生成方法 |
WO2021120707A1 (zh) * | 2019-12-20 | 2021-06-24 | 中兴通讯股份有限公司 | 智能问答方法、装置、计算机设备和计算机可读介质 |
CN113609265A (zh) * | 2021-07-09 | 2021-11-05 | 中山大学南方学院 | 基于知识图谱面向自主学习的pec课程问答方法及机器人 |
CN113688269A (zh) * | 2021-07-21 | 2021-11-23 | 北京三快在线科技有限公司 | 图文匹配结果确定方法、装置、电子设备及可读存储介质 |
CN113704499A (zh) * | 2020-09-24 | 2021-11-26 | 广东昭阳信息技术有限公司 | 一种准确而高效的智能化教育知识图谱构建方法 |
CN113918686A (zh) * | 2021-08-30 | 2022-01-11 | 杭州摸象大数据科技有限公司 | 智能问答模型构建方法、装置、计算机设备及存储介质 |
CN114461814A (zh) * | 2022-01-21 | 2022-05-10 | 中国船舶重工集团公司第七0九研究所 | 一种基于知识图谱的问答交互方法及系统 |
CN114610954A (zh) * | 2022-03-09 | 2022-06-10 | 上海弘玑信息技术有限公司 | 信息处理方法及装置、存储介质和电子设备 |
CN114861112A (zh) * | 2022-07-05 | 2022-08-05 | 广州趣米网络科技有限公司 | 基于数据存取和大数据分类的信息分发方法及系统 |
CN116028614A (zh) * | 2023-03-29 | 2023-04-28 | 北京中关村科金技术有限公司 | 一种信息处理方法、装置、设备及可读存储介质 |
CN117149988A (zh) * | 2023-11-01 | 2023-12-01 | 广州市威士丹利智能科技有限公司 | 基于教育数字化的数据管理处理方法及系统 |
CN117708306A (zh) * | 2024-02-06 | 2024-03-15 | 神州医疗科技股份有限公司 | 基于层进式问答结构的医学问答架构生成方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104484433A (zh) * | 2014-12-19 | 2015-04-01 | 东南大学 | 一种基于机器学习的图书本体匹配方法 |
CN104933027A (zh) * | 2015-06-12 | 2015-09-23 | 华东师范大学 | 一种利用依存分析的开放式中文实体关系抽取方法 |
CN105701253A (zh) * | 2016-03-04 | 2016-06-22 | 南京大学 | 中文自然语言问句语义化的知识库自动问答方法 |
CN107766483A (zh) * | 2017-10-13 | 2018-03-06 | 华中科技大学 | 一种基于知识图谱的交互式问答方法及系统 |
-
2019
- 2019-03-18 CN CN201910203301.7A patent/CN110147436B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104484433A (zh) * | 2014-12-19 | 2015-04-01 | 东南大学 | 一种基于机器学习的图书本体匹配方法 |
CN104933027A (zh) * | 2015-06-12 | 2015-09-23 | 华东师范大学 | 一种利用依存分析的开放式中文实体关系抽取方法 |
CN105701253A (zh) * | 2016-03-04 | 2016-06-22 | 南京大学 | 中文自然语言问句语义化的知识库自动问答方法 |
CN107766483A (zh) * | 2017-10-13 | 2018-03-06 | 华中科技大学 | 一种基于知识图谱的交互式问答方法及系统 |
Non-Patent Citations (2)
Title |
---|
YANG LIU等: "Constructing a Hybrid Automatic Q&A System Integrating Knowledge Graph and Information Retrieval Technologies", 《FOUNDATIONS AND TRENDS IN SMART LEARNING》 * |
杨玉基等: "一种准确而高效的领域知识图谱构建方法", 《软件学报》 * |
Cited By (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597957B (zh) * | 2019-09-11 | 2022-04-22 | 腾讯科技(深圳)有限公司 | 一种文本信息检索的方法及相关装置 |
CN110597957A (zh) * | 2019-09-11 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种文本信息检索的方法及相关装置 |
CN110688838A (zh) * | 2019-10-08 | 2020-01-14 | 北京金山数字娱乐科技有限公司 | 一种成语同义词列表的生成方法及装置 |
CN110717025A (zh) * | 2019-10-08 | 2020-01-21 | 北京百度网讯科技有限公司 | 一种问答方法、装置、电子设备及存储介质 |
CN110688838B (zh) * | 2019-10-08 | 2023-07-18 | 北京金山数字娱乐科技有限公司 | 一种成语同义词列表的生成方法及装置 |
CN110717025B (zh) * | 2019-10-08 | 2022-08-12 | 北京百度网讯科技有限公司 | 一种问答方法、装置、电子设备及存储介质 |
CN110807325A (zh) * | 2019-10-18 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 谓词识别方法、装置及存储介质 |
CN110807325B (zh) * | 2019-10-18 | 2023-05-26 | 腾讯科技(深圳)有限公司 | 谓词识别方法、装置及存储介质 |
CN110852109A (zh) * | 2019-11-11 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 语料生成方法、语料生成装置、和存储介质 |
CN111026834B (zh) * | 2019-12-10 | 2022-07-08 | 思必驰科技股份有限公司 | 问答语料生成方法及系统 |
CN111026834A (zh) * | 2019-12-10 | 2020-04-17 | 苏州思必驰信息科技有限公司 | 问答语料生成方法及系统 |
WO2021120707A1 (zh) * | 2019-12-20 | 2021-06-24 | 中兴通讯股份有限公司 | 智能问答方法、装置、计算机设备和计算机可读介质 |
CN111178770B (zh) * | 2019-12-31 | 2023-11-10 | 安徽知学科技有限公司 | 答题数据评估和学习图像构建方法、装置及存储介质 |
CN111178770A (zh) * | 2019-12-31 | 2020-05-19 | 安徽知学科技有限公司 | 答题数据评估和学习图像构建方法、装置及存储介质 |
CN111339269A (zh) * | 2020-02-20 | 2020-06-26 | 来康科技有限责任公司 | 模板自动生成的知识图谱问答训练及应用服务系统 |
CN111339269B (zh) * | 2020-02-20 | 2023-09-26 | 来康科技有限责任公司 | 模板自动生成的知识图谱问答训练及应用服务系统 |
CN111460119A (zh) * | 2020-03-27 | 2020-07-28 | 海信集团有限公司 | 经济知识智能问答方法、系统及智能设备 |
CN111460119B (zh) * | 2020-03-27 | 2024-04-12 | 海信集团有限公司 | 经济知识智能问答方法、系统及智能设备 |
CN111475629A (zh) * | 2020-03-31 | 2020-07-31 | 渤海大学 | 一种面向数学辅导问答系统的知识图谱构建方法及其系统 |
CN111475623A (zh) * | 2020-04-09 | 2020-07-31 | 北京北大软件工程股份有限公司 | 基于知识图谱的案件信息语义检索方法及装置 |
CN111475623B (zh) * | 2020-04-09 | 2023-08-22 | 北京北大软件工程股份有限公司 | 基于知识图谱的案件信息语义检索方法及装置 |
CN111639171B (zh) * | 2020-06-08 | 2023-10-27 | 吉林大学 | 一种知识图谱问答方法及装置 |
CN111639171A (zh) * | 2020-06-08 | 2020-09-08 | 吉林大学 | 一种知识图谱问答方法及装置 |
CN111666425A (zh) * | 2020-06-10 | 2020-09-15 | 深圳开思时代科技有限公司 | 基于语义知识的汽配件搜索方法 |
CN111666425B (zh) * | 2020-06-10 | 2023-04-18 | 深圳开思时代科技有限公司 | 基于语义知识的汽配件搜索方法 |
CN112037905B (zh) * | 2020-07-16 | 2024-09-13 | 朱卫国 | 医用问答方法、设备及存储介质 |
CN112037905A (zh) * | 2020-07-16 | 2020-12-04 | 朱卫国 | 医用问答方法、设备及存储介质 |
CN111782824B (zh) * | 2020-08-14 | 2024-04-19 | 中国工商银行股份有限公司 | 信息查询方法、装置、系统和介质 |
CN111782824A (zh) * | 2020-08-14 | 2020-10-16 | 中国工商银行股份有限公司 | 信息查询方法、装置、系统和介质 |
CN112182150A (zh) * | 2020-09-23 | 2021-01-05 | 中国建设银行股份有限公司 | 基于多元数据的聚合检索方法、装置、设备及存储介质 |
CN113704499A (zh) * | 2020-09-24 | 2021-11-26 | 广东昭阳信息技术有限公司 | 一种准确而高效的智能化教育知识图谱构建方法 |
CN112307171B (zh) * | 2020-10-30 | 2022-02-11 | 中国电力科学研究院有限公司 | 一种基于电力知识库的制度标准检索方法及系统和可读存储介质 |
CN112307171A (zh) * | 2020-10-30 | 2021-02-02 | 中国电力科学研究院有限公司 | 一种基于电力知识库的制度标准检索方法及系统和可读存储介质 |
CN112883151A (zh) * | 2021-01-25 | 2021-06-01 | 济南浪潮高新科技投资发展有限公司 | 一种智能问答实现方法及一种智能问答系统 |
CN112905806B (zh) * | 2021-03-25 | 2022-11-01 | 哈尔滨工业大学 | 基于强化学习的知识图谱实体化视图生成器及生成方法 |
CN112905806A (zh) * | 2021-03-25 | 2021-06-04 | 哈尔滨工业大学 | 基于强化学习的知识图谱实体化视图生成器及生成方法 |
CN113609265A (zh) * | 2021-07-09 | 2021-11-05 | 中山大学南方学院 | 基于知识图谱面向自主学习的pec课程问答方法及机器人 |
CN113688269A (zh) * | 2021-07-21 | 2021-11-23 | 北京三快在线科技有限公司 | 图文匹配结果确定方法、装置、电子设备及可读存储介质 |
CN113918686A (zh) * | 2021-08-30 | 2022-01-11 | 杭州摸象大数据科技有限公司 | 智能问答模型构建方法、装置、计算机设备及存储介质 |
CN114461814A (zh) * | 2022-01-21 | 2022-05-10 | 中国船舶重工集团公司第七0九研究所 | 一种基于知识图谱的问答交互方法及系统 |
CN114461814B (zh) * | 2022-01-21 | 2024-10-01 | 中国船舶重工集团公司第七0九研究所 | 一种基于知识图谱的问答交互方法及系统 |
CN114610954B (zh) * | 2022-03-09 | 2022-11-25 | 上海弘玑信息技术有限公司 | 信息处理方法及装置、存储介质和电子设备 |
CN114610954A (zh) * | 2022-03-09 | 2022-06-10 | 上海弘玑信息技术有限公司 | 信息处理方法及装置、存储介质和电子设备 |
CN114861112B (zh) * | 2022-07-05 | 2022-09-20 | 广州趣米网络科技有限公司 | 基于数据存取和大数据分类的信息分发方法及系统 |
CN114861112A (zh) * | 2022-07-05 | 2022-08-05 | 广州趣米网络科技有限公司 | 基于数据存取和大数据分类的信息分发方法及系统 |
CN116028614A (zh) * | 2023-03-29 | 2023-04-28 | 北京中关村科金技术有限公司 | 一种信息处理方法、装置、设备及可读存储介质 |
CN117149988A (zh) * | 2023-11-01 | 2023-12-01 | 广州市威士丹利智能科技有限公司 | 基于教育数字化的数据管理处理方法及系统 |
CN117149988B (zh) * | 2023-11-01 | 2024-02-27 | 广州市威士丹利智能科技有限公司 | 基于教育数字化的数据管理处理方法及系统 |
CN117708306A (zh) * | 2024-02-06 | 2024-03-15 | 神州医疗科技股份有限公司 | 基于层进式问答结构的医学问答架构生成方法及系统 |
CN117708306B (zh) * | 2024-02-06 | 2024-05-03 | 神州医疗科技股份有限公司 | 基于层进式问答结构的医学问答架构生成方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110147436B (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110147436A (zh) | 一种基于教育知识图谱与文本的混合自动问答方法 | |
CN111475623B (zh) | 基于知识图谱的案件信息语义检索方法及装置 | |
CN109800284B (zh) | 一种面向任务的非结构化信息智能问答系统构建方法 | |
KR102094934B1 (ko) | 자연어 질의 응답 시스템 및 방법 | |
CN102262634B (zh) | 一种自动问答方法及系统 | |
RU2488877C2 (ru) | Идентификация семантических взаимоотношений в косвенной речи | |
KR20050036541A (ko) | 백과사전 질의응답 시스템의 지식베이스 반자동 구축 방법 | |
CN111625622B (zh) | 领域本体构建方法、装置、电子设备及存储介质 | |
CN105760462B (zh) | 基于关联数据查询的人机交互方法及装置 | |
CN111274327B (zh) | 一种面向非结构化表格文档的实体与关系抽取方法 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
Mindner et al. | Classification of human-and ai-generated texts: Investigating features for chatgpt | |
Chandurkar et al. | Information retrieval from a structured knowledgebase | |
Almotairi et al. | Developing a Semantic Question Answering System for E-Learning Environments Using Linguistic Resources. | |
CN108255812B (zh) | 基于语义标注的微积分能力测试题智能生成方法 | |
Atapattu et al. | Educational question answering motivated by question-specific concept maps | |
Riza et al. | Natural language processing and levenshtein distance for generating error identification typed questions on TOEFL | |
CN114661856A (zh) | 一种融合图谱构建方法 | |
López Monroy et al. | Link analysis for representing and retrieving legal information | |
CN110750632B (zh) | 一种改进的中文alice智能问答方法及系统 | |
Kumar et al. | A Hindi question answering system for E-learning documents | |
Hasan et al. | Pattern-matching based for Arabic question answering: a challenge perspective | |
Aguiar et al. | A categorization of technological approaches to concept maps construction | |
Znotiņa | Computer-aided error analysis for researching Baltic interlanguage | |
CN114417008A (zh) | 一种面向建设工程领域的知识图谱构建方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |