CN116401341A - 面向理解的互动答疑系统 - Google Patents

面向理解的互动答疑系统 Download PDF

Info

Publication number
CN116401341A
CN116401341A CN202111623703.6A CN202111623703A CN116401341A CN 116401341 A CN116401341 A CN 116401341A CN 202111623703 A CN202111623703 A CN 202111623703A CN 116401341 A CN116401341 A CN 116401341A
Authority
CN
China
Prior art keywords
knowledge
corpus
text
knowledge points
answering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111623703.6A
Other languages
English (en)
Inventor
朱潇
李银胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Zhuhai Fudan Innovation Research Institute
Original Assignee
Fudan University
Zhuhai Fudan Innovation Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University, Zhuhai Fudan Innovation Research Institute filed Critical Fudan University
Priority to CN202111623703.6A priority Critical patent/CN116401341A/zh
Publication of CN116401341A publication Critical patent/CN116401341A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种面向理解的互动答疑系统,其原始语料采集模块能够从多种途径采集某技术领域内的文本,保证有充足的领域内相关原始语料供后续处理;语料自动构建模块能够对采集到的原始语料进行预处理,提取多个知识点并组成知识树,然后基于知识树生成该技术领域的知识图谱,进而基于知识图谱生成可以直接用于训练对话模型的训练用语料,实现训练用语料的自动构建,摆脱了人工标注语料的需求,解决了训练用语料匮乏的问题,同时节省大量人力;互动答疑模块能够提供与用户进行交互的对话模型,采用引导式的对话问答模式对用户输入的原始问题进行引导及回答,相较于传统问答模式,还能引导用户进行思考及关联学习,保证了教学与答疑的有效性。

Description

面向理解的互动答疑系统
技术领域
本发明属于自然语言处理技术领域,具体涉及一种面向理解的互动答疑系统。
背景技术
在典型的教学场景中,答疑以知识理解为目标,根据学生问题、学生状态,有针对性的采用启发式回答、直接回答、关联回答、举例回答等答疑方式,引领学生能够在问答中重新学习、掌握遗漏,实现“找出问者不理解的地方,以及使其理解的答复路径”的目的。
在线教育蓬勃发展背景下,面向无人环境的知识答疑对提升教学效果具有重要意义。然而,当前的教育问答系统在互动模式及语料构造模型方面存在明显的局限。
首先,传统的一问一答式的答疑模型不能满足教育场景下的答疑需求。目前教育领域中的答疑系统,往往以一问一答的交互方式进行,在学生提出问题后,系统直接给出问题的答案,这种简单的交互方式并不能真正解决学生的疑问,达不到答疑的目的,对于学生理解知识的帮助极为局限,不是真正的答疑系统,因此迫切需要面向知识点理解、模拟师生交互模式的答疑系统。
其次,缺少人工标注语料难以训练出优质的答疑系统。目前,教育领域中的答疑系统,通常采用基于深度学习的互动模型,这些模型在模型训练时需要大量经过标注的语料,从原始的文本中构建出可用于实际训练的语料往往需要大量人力财力的投入,这种做法导致目前可用的高质量语料只集中于少数特定的领域中,而且这些语料往往并不对公众开放,以至于在开发答疑模型时常常面临严重的语料缺乏问题,要克服该问题则往往需要付出大量的额外成本。
发明内容
本发明是为解决上述问题而进行的,目的之一在于提供一种面向知识点理解、模拟师生交互模式的互动答疑系统,从而满足学生的答疑需要,目的之二在于提供一种语料构建模型,从而提供充足的语料,提升答疑模型训练的有效性,本发明采用了如下技术方案:
本发明提供了一种面向理解的互动答疑系统,用于对用户输入的问题进行引导以及回答,其特征在于,包括:原始语料采集模块,用于通过多种渠道采集技术领域内的文本作为原始语料;语料自动构建模块,基于所述原始语料生成训练用语料;以及互动答疑模块,用于提供与所述用户交互的对话模型,该对话模型采用引导式的对话问答模式,其中,所述语料自动构建模块包括:预处理单元,对所述原始语料进行预处理,得到知识树,该知识树包含有呈树状结构的多个知识点;知识图谱构建单元,基于所述知识树生成所述技术领域的知识图谱;以及训练语料生成单元,基于所述知识图谱生成所述训练用语料,该训练用语料可直接应用于所述对话模型的训练。
本发明提供的面向理解的互动答疑系统,还可以具有这样的技术特征,其中,所述预处理单元对所述文本进行以下操作:提取所述文本的章节结构;基于所述章节结构搭建所述树状结构;按照所述树状结构将所述文本分割为多个知识实体并进行归纳存储;以及在所述归纳存储的基础上对所述文本进行知识再抽取,将所述文本转换为结构化的所述知识树。
本发明提供的面向理解的互动答疑系统,还可以具有这样的技术特征,其中,所述知识点包括从所述文本的章节提取出的章节知识点以及从所述文本的正文提取出的正文知识点,所述知识图谱构建单元包括:多个一级属性分类器,用于对多个所述章节知识点以及对应的多个所述正文知识点进行属性分类;多个二级属性分类器,用于对多个所述正文知识点进行进一步分类;知识实体抽取器,用于根据所述知识点从所述文本中抽取对应的文本段作为对应的知识实体;以及多个知识关系提取器,用于提取多个所述知识点之间的相互关系。
本发明提供的面向理解的互动答疑系统,还可以具有这样的技术特征,其中,所述一级属性分类器的数量为三个,分别用于进行属性分类,将所述知识点以及对应的所述知识实体分类为概念、过程、原理,所述二级属性分类器的数量为二十一个,分别用于将所述知识实体进行进一步属性分类,将分类为所述概念的所述知识实体进一步分类为定义、功能、分类、特点,将分类为所述过程的所述知识实体进一步分类为方法、策略,将分类为所述原理的所述知识实体进一步分类为知识原理。
本发明提供的面向理解的互动答疑系统,还可以具有这样的技术特征,其中,所述一级属性分类器和所述二级属性分类器均为基于置信度及网格搜索的OVO-SVM分类器,所述知识实体抽取器为HM-SVM识别器。
本发明提供的面向理解的互动答疑系统,还可以具有这样的技术特征,其中,所述一级属性分类器和所述二级属性分类器利用所述置信度来区分所述文本的一个句子中是否包含有所述知识点,并给出所述属性归类的可信程度,所述置信度的计算公式为:
Figure BDA0003439182950000041
Figure BDA0003439182950000042
式中,A、B为拟合的参数,f是样本输出,将训练集定义为(fi,hi),其中hi为目标概率。
本发明提供的面向理解的互动答疑系统,还可以具有这样的技术特征,其中,所述知识关系提取器的数量为四个,分别用于将两个所述知识点之间的关系分类为父子关系、前驱关系、相似关系、事例关系,所述相似关系根据两个所述知识点之间的余弦相似度或jaccard相似度进行判断。
本发明提供的面向理解的互动答疑系统,还可以具有这样的技术特征,其中,所述训练语料生成单元根据所述知识图谱中的所述知识点以及预定的问题生成模板生成相关的问题,并将所述问题和对应的所述知识点组合成所述训练用语料。
本发明提供的面向理解的互动答疑系统,还可以具有这样的技术特征,其中,所述互动答疑模块具有引导状态、解释状态以及回答状态,处于所述引导状态时,所述互动答疑模块根据所述用户的输入确定所述问题以及对应的所述知识点,记作目标知识点,处于所述解释状态时,所述互动答疑模块使用与所述目标知识点为所述前驱关系的所述知识点、为所述相似关系的所述知识点或者为事例关系的所述知识点对所述问题进行解释,处于所述回答状态时,所述互动答疑模块使用所述目标知识点进行回答。
本发明提供的面向理解的互动答疑系统,还可以具有这样的技术特征,还包括:用户管理模块,用于为每个所述用户维护该用户的知识网络,在所述引导以及所述回答过程中更新不同的所述知识点的掌握情况,计算所述知识点的掌握情况的公式为:
Figure BDA0003439182950000051
式中,S′为所述知识点之前的掌握分数,α、β为系数,pre、sim、child分别代表与所述知识点相关联的前驱知识点、相似知识点和子知识点,N为对应的所述知识点的数量,D为不同的所述知识点的权重系数。
发明作用与效果
根据本发明的面向理解的互动答疑系统,由于具有原始语料采集模块,因此能够从互联网、纸质教材等多种渠道采集某一技术领域内的文本内容作为原始语料,保证有充足的领域内相关原始语料供后续处理,提供了整个系统运行的基础;由于具有语料自动构建立模块,因此能够对采集到的原始语料进行预处理,提取得到多个知识点并将其组成知识树,然后基于知识树生成该技术领域的知识图谱,进而基于知识图谱生成可以直接用于训练对话模型的训练用语料,实现训练用语料的自动构建,摆脱了人工标注语料的需求,解决了训练用语料匮乏的问题,同时节省大量人力;由于具有互动答疑模块,因此能够提供与用户进行交互的对话模型,采用引导式的对话问答模式对用户输入的原始问题进行引导及回答,相较于一问一答的传统问答模式,更多地引导用户进行思考及关联学习,从而保证了教学与答疑的有效性。
附图说明
图1是本发明实施例中面向理解的互动答疑系统的结构框图;
图2是本发明实施例中面向理解的互动答疑系统的系统交互原理图;
图3是本发明实施例中面向理解的互动答疑系统的状态转移示意图。
附图标记:
面向理解的互动答疑系统10;原始语料采集模块20;人工录入单元21;自动采集单元22;语料自动构建模块30;预处理单元31;知识图谱构建单元32;训练语料生成单元33;互动答疑模块40;用户管理模块50;信息存储模块60;知识库61;问答对语料库62;控制模块70。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的面向理解的互动答疑系统作具体阐述。
<实施例>
本实施例提供一种面向理解的互动答疑系统,应用于线上教育环境,用于对用户输入的原始问题进行引导以及回答。
图1是本发明实施例中面向理解的互动答疑系统的结构框图。
图2是本发明实施例中面向理解的互动答疑系统的系统交互原理图。
如图1和图2所示,面向理解的互动答疑系统10主要包括原始语料采集模块20、语料自动构建模块30、互动答疑模块40、用户管理模块50、信息存储模块60以及控制模块70。
原始语料采集模块20用于从多种途径采集某个技术领域内的文本作为原始语料,为整个系统提供充足的原始语料。原始语料采集模块20包括人工录入单元21以及自动采集单元22。
人工录入单元21用于为人工录入提供相应的交互界面以及录入信息处理,工作人员可以通过人工录入单元21以人工方式录入本技术领域内的文本内容,文本内容主要包括教材文本、教师提供的答疑记录等。
自动采集单元22采用网络爬虫等方式自动采集互联网上的本技术领域内的文本内容,文本内容主要包括相关测试记录、百科词条等,并通过后续文本处理方式将其转化为可读可用的原始语料文本。
语料自动构建模块30用于基于采集得到的原始语料自动生成训练用语料,该训练用语料可直接用于对话模型的训练。语料自动构建模块30包括预处理单元31、知识图谱构建单元32以及训练语料生成单元33。
预处理单元31对原始语料进行预处理,以一本教材为例,预处理包括:按照章节内容划分教材,提取章节结构以及章节文本中的知识点;同时,根据章节结构塔建树状框架,然后,按照树状框架将教材的正文分割为多个文本段(也称作知识实体),并将文本段按章节归纳存储,接着,在归纳存储的基础上继续进行知识再抽取,目的是将非结构化的教材文本转化为结构化的知识树。其中,采用规则匹配的方式来提取章节结构,应用的正则表达式如表1所示:
表1用于提取章节结构的正则表达式表
Figure BDA0003439182950000081
Figure BDA0003439182950000091
以下,为便于说明,将从章节文本中抽取出的知识点记作章节知识点,将从正文中抽取出的知识点记作正文知识点,显然,一般一个章节知识点对应于一个或多个正文知识点。
知识图谱构建单元32用于基于预处理单元31得到的知识树生成该技术领域的知识图谱。所述知识图谱构建单元31包括多个一级属性分类器、多个二级属性分类器、知识实体抽取器以及知识关系提取器。
多个一级属性分类器用于对章节知识点以及对应的正文知识点进行属性分类。本实施例中,将章节知识点和对应的正文知识点分类为概念、过程、原理,共3个子类,因此一级属性分类器的数量为三个。
多个二级属性分类器用于对正文知识点进行进一步的属性分类。本实施例中,将一级分类为“概念”的正文知识点进行一步细分为{定义、功能、分类、特点},将一级分类为“过程”的正文知识点进一步细分为{方法、策略},将一级分类为“原理”的正文知识点进一步细分为{原理}(为避免歧义,以下将二级分类的原理记作知识原理),共7个子类,因此二级属性分类器的数量为二十一个。
本实施例中,一级属性分类器和二级属性分类器均为基于置信度以及网格搜索的OVO-SVM分类器,即采用网格搜索法对相关参数进行优化。单纯利用OVO-SVM分类器只可以获得相对较可能的知识属性分类结果,不论任何输入,都会有一个属性分类的输出结果。然而在知识抽取过程中,特别是对正文知识点抽取过程中,会面临如何判别文本中的一句话是否存在知识点的问题,以及分类器的分类结果是否可信的问题,因此采用了基于置信度的分类器,额外利用置信度来区分一个句子中是否包含知识点并给出知识点的属性归类的可信程度。置信度计算公式如下:
Figure BDA0003439182950000101
Figure BDA0003439182950000102
式中,A、B为拟合的参数,f是样本输出,将训练集定义为(fi,hi),其中hi为目标概率,将求解获得的概率作为置信度。
知识实体抽取器用于根据知识点从文本中抽取对应的文本段作为对应的知识实体。本实施例中,知识实体抽取器为HM-SVM识别器。
知识关系提取器用于提取多个知识点之间的相互关系。本实施例中,将两个知识点之间的相互关系分为以下几类:{父子关系、前驱关系、相似关系、事例关系},共4个子类,因此知识关系提取器的数量为四个。其中,父子关系的产生依赖于语料预处理过程中根节点与章节点、章节点与节节点、节节点与小标题节点、小标题与对应的正文知识点之间的关系,根据预处理得到的树状框架进行提取;前驱关系的提取基于以下假设:假设在解释A知识点的过程中提及了B知识点并且没有给B足够的解释,那么B就有可能是A的前驱知识点;相似关系的提取根据余弦相似度和Jaccard相似度判断相似关系,余弦相似度的计算公式如下:
Figure BDA0003439182950000111
式中,(x11,x12,…,x1k),(x21,x22,…,x2k)分别为两个不同知识点的词向量表示。
Jaccard相似度的计算公式如下:
Figure BDA0003439182950000112
式中,Name代表句子的词汇集合。该式的计算为两个句子词汇的交集除以两个句子词汇的并集。
事例关系通过正则表达式捕捉正文中出现的关键词来提取,使用的正则表达式为:*[,|.|]*Term(例如:|例题|举例).*。
训练语料生成单元33根据知识图谱中的多个知识点自动生成相关的问题,并将问题和对应的知识点组成问答对语料,该问答对语料也即为训练用语料。具体地,首先将知识图谱中的知识点作为问题的答案,根据答案来生成问题,本质上是根据{文档,答案}来生成一个关联性较强的问题,这是一个典型的问题生成任务。通过类似于完形填空的方式,获取文档中包含答案的语句,将其记为原生语句。若直接使用原生语句进行训练,那么可能会导致语言模型较差的泛化性。本实施例中,在此选择继续寻找衍生语句,目的是寻找到另一条既包含同样答案,又与原生语句存在差异的语句。通过加入wiki语料库以寻找到衍生语句。在进行寻找时,若想被判定为衍生语句,需要满足以下的几点要求:1、该语句必须包含答案。因为必须保证原生语句和衍生语句之间不能毫无关联,它们之间应当共享答案,使得在使用该衍生语句作为问题之后,训练出的模型依然能够给出正确的答案;2、该语句不能在原文档中出现。同样,必须保证原生语句和衍生语句之间仍存有一定的差异;3、与原生语句的相似度既不能过高也不能过低。在相似度过高时,使用这条约束来防止出现高度相似或者是剽窃的情况;在相似度过低时,使用这条约束来跳过几乎没有关联的语句。对于任意一句衍生语句,根据答案在句中所处的位置,可以句子分割成以下三种情况:[片段1][答案][片段2]、[片段1][答案]、[答案][片段2]。当得到分割后的语句后,使用预先定义的模版构造出需要的问题。当给定这三种分割形式的衍生语句时,将语句中的[答案]部分使用疑问词代替,并且以固定的模版将该衍生语句进行重新构造。疑问词,包括“什么”、“谁”、“哪里”、“何时”这几种类型。具体的疑问词的选定取决于答案的具体词性。答案可能是人物、地点、时间等不同的类型,以此来选择不同的疑问词。具体的构造模版如表2所示。
表2问题构造模板表
分割情况 构造模版
[片段1][答案] 片段1+疑问词?
[答案][片段2] 疑问词+片段2?
[片段1][答案][片段2] 片段2+片段1+疑问词?
构造后的问题与对应的答案(即知识点)作为训练用语料,对用于与用户交互的对话模型进行训练,得到训练好的对话模型,应用于互动答疑模块40。
互动答疑模块40用于供用户进行互动答疑,互动答疑模块40采用引导式的对话问答模式,根据用户当前的状态和用户提出的原始问题,选择采用不同的答疑方式进行回答,最终形成一个完整的互动答疑周期。
互动答疑模块40具有三个状态:引导状态、解释状态以及回答状态。当用户第一次输入问题时,一个答疑周期开始,此时互动答疑模块40处于引导状态中。互动答疑模块40尝试根据用户的输入,帮助用户确定真正想问的问题。之后根据用户问题相关联的知识和用户对该问题的掌握程度,分别可能进入解释状态或者回答状态。在解释状态中,互动答疑模块40使用前驱知识解释、相似知识解释和示例解释这三种解释方式分别对问题进行解答;在回答状态中,互动答疑模块40直接对该问题给出答案。
用户管理模块50用于为每个用户维护该用户独有的知识网络,在答疑过程中更新不同知识点的掌握情况,并将沿知识网络不断传播更新。计算知识点掌握情况的公式如下:
Figure BDA0003439182950000131
信息存储模块60用于存储多种信息,包括知识库61以及问答对语料库62,知识库61用于存储语料自动构建模块30构建的知识树、知识图谱、各知识点等,问答对语料库62用于存储问答对语料等。
控制模块70用于对上述的原始语料采集模块20、语料自动构建模块30、互动答疑模块40、用户管理模块50以及信息存储模块60的工作以及协同工作进行控制。
此外,本实施例的面向理解的互动答疑系统10还具有用户终端,用于供用户输入原始问题并获得引导或回答,该用户终端可以为智能手机客户端、电脑客户端、网页端、智能手机小程序中的一种或多种。
图3是本发明实施例中面向理解的互动答疑系统的状态转移示意图。
如图3所示,本实施例中,面向理解的互动答疑系统10(以下简称答疑系统10)与用户的交互过程主要由引导、解释、评分、告知答案四个行为实现。
首先用户提问向互动答疑系统10提问问题,随后答疑系统10会将用户的问题发送至知识库60开放的接口中。若知识图谱中存在该问题对应的知识点,则接口会返回支持各类答疑方式的所需的信息,比如:知识点名称、内容、属性、实体,子知识点、相似知识点、前驱知识点、事例等等。随后互动答疑系统会根据知识库返回内容引导学生,并根据交互结果对学生进行评分,将相关知识点都讲述清楚后再告知答案。若知识图谱中不存在相关问题,答疑系统10则会检索问答对语料库查看有无相关直接问答。
本实施例中,以学生提问:“我想了解客房服务与管理方法”为例来展现互动答疑系统在真实场景下的运行过程。
如图3所示,在答疑系统10首次收到用户的原始问题后,答疑系统10此时处于引导状态。首先答疑系统10根据知识库60提供的接口,获得到该原始问题在知识图谱上对应的信息内容。输入原始问题,获得的接口内容如表3所示:
表3原始问题的接口内容表
Figure BDA0003439182950000151
互动答疑系统根据知识图谱提供的知识分解关系可知,该知识点可以利用分解理解的方法进行分解讲解,之后进入引导过程,展示子知识点,与学生进行交互。
“学生”:我想了解客房服务与实践管理。
“互动答疑系统”:客房服务与管理实践涉及到:1、如何进行客房物品管理;2、如何管理客房清洁服务;3、如何管理客房常规服务;4、如何管理客房特殊服务;5、客房服务的工作内容;6、客房部的岗位职责;7、客房部的组织结构;8、客房服务的特点和作用;请问是想要对哪一块进行进一步的了解?
“学生”:给我讲讲如何管理客房常规服务。
(互动答疑系统10访问知识库60的接口,获取“客房常规服务”的相关内容,如表4所示)
表4第二次问题的接口内容表
Figure BDA0003439182950000161
因为学生对于该知识点的掌握程度不足,且在知识图谱中存在相似的知识点。因此通过相似关系知识点,互动答疑系统尝试通过对比理解来引导学生。
“互动答疑系统”:请仔细回想一下如何管理客房特殊服务,这与你的问题有些相似,也许从这个知识中你会得到一些启发?
“学生”:我不了解。
(互动答疑系统访问知识库接口,获取“客房特殊服务”的相关内容,如表5所示)
表5第三次问题的接口内容表
Figure BDA0003439182950000162
“互动答疑系统”:客房服务特殊服务的直接解释如下,客房特殊服务包含病客服务、残疾宾客服务、托婴服务。1.病客服务:为患病宾客提供必要的关怀和照料……(略)
“互动答疑系统”:现在对如何管理客房常规服务有什么新的看法了吗。
“学生”:还是不太清楚。
(依托知识库系统,互动答疑系统尝试使用前驱知识进行推理理解答疑)
“互动答疑系统”:请问你了解管理客房常规服务的前置知识点吗?比如客房服务的特点?
“学生”:请直接告诉我答案吧。
“互动答疑系统”:客房服务以时间单位出售使用权,服务随机性强,对私密与安全性有着高度要求。掌握了这些前置知识,再尝试回答一下如何管理客房常规服务?
“学生”:还是不可以。
“互动答疑系统”:如何管理客房常规服务包含:擦鞋服务、对客租借用品服务、洗衣服务、送客服务。如果还想了解详细内容可以进一步向我提问哟。
此时,一轮完整的互动答疑交互过程已经完成。
在完成上述所有过程后,互动答疑系统都会根据用户交互过程进行评分,并在其内部更新用户对于不同知识点的掌握情况,以便为后续展开进一步的答疑对话做准备。
实施例作用与效果
根据本实施例提供的面向理解的互动答疑系统,由于具有原始语料采集模块,因此能够从互联网、纸质教材等多种渠道采集某一技术领域内的文本内容作为原始语料,保证有充足的领域内相关原始语料供后续处理,提供了整个系统运行的基础;由于具有语料自动构建立模块,因此能够对采集到的原始语料进行预处理,提取得到多个知识点并将其组成知识树,然后基于知识树生成该技术领域的知识图谱,进而基于知识图谱生成可以直接用于训练对话模型的训练用语料,实现训练用语料的自动构建,摆脱了人工标注语料的需求,解决了训练用语料匮乏的问题,同时节省大量人力;由于具有互动答疑模块,因此能够提供与用户进行交互的对话模型,采用引导式的对话问答模式对用户输入的原始问题进行引导及回答,相较于一问一答的传统问答模式,更多地引导用户进行思考及关联学习,从而保证了教学与答疑的有效性。
具体地,原始语料采集模块能够自动地从互联网通过网络爬虫等方式自动地爬取网页上的相关文本,也可以通过人工方式录入教材、教师提供的答疑等文本,因此能够为系统提供充足的原始语料,作为整个系统运行的基础。
进一步,语料自动构建模块包括预处理单元、知识图谱构建单元以及训练语料生成单元,预处理单元能够对采集到的原始语料进行预处理,提取知识点并生成知识树;知识图谱构建单元能够根据知识树生成本领域的知识图谱,训练语料生成单元能够根据知识图谱生成相关问题,并将问题和对应的知识点组合成问答语料对,作为训练用语料,因此,能够自动地生成充足的训练用语料,用于训练与用户交互的对话模型,节省了大量人工打标签的时间,并且由于基于知识树、知识图谱来生成训练用语料,因此生成的训练用语料质量高、误标少,也利用于训练得到更高质量的对话模型。
进一步,互动答疑模块采用引导式的对话问题模式与用户进行交互,互动答疑模块具有引导状态、解释状态和回答状态,在引导状态时,根据用户的输入确定用户真正想问的问题并得到对应的目标知识点;在解释状态时,使用与目标知识点的前驱知识点、相似知识点或事例知识点进行解释,而不直接给出答案,从而引导用户进行思考、更好地掌握相关知识点;在回答状态时,直接给出答案。因此,与传统的一问一答方式不同,不仅给出答案,还进行多方位的引导,使得用户能够得到更好的学习效果。
上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。

Claims (10)

1.一种面向理解的互动答疑系统,用于对用户输入的原始问题进行引导以及回答,其特征在于,包括:
原始语料采集模块,用于从多种途径采集技术领域内的文本作为原始语料,所述多种途径至少包括互联网;
语料自动构建模块,基于所述原始语料生成训练用语料;以及
互动答疑模块,用于提供与所述用户交互的对话模型,该对话模型采用引导式的对话问答模式,
其中,所述语料自动构建模块包括:
预处理单元,对所述原始语料进行预处理,得到知识树,该知识树包含有呈树状结构的多个知识点;
知识图谱构建单元,基于所述知识树生成所述技术领域的知识图谱;以及
训练语料生成单元,基于所述知识图谱生成所述训练用语料,该训练用语料可直接应用于所述对话模型的训练。
2.根据权利要求1所述的面向理解的互动答疑系统,其特征在于:
其中,所述预处理单元对所述文本进行以下操作:
提取所述文本的章节结构;
基于所述章节结构搭建所述树状结构;
按照所述树状结构将所述文本分割为多个知识实体并进行归纳存储;以及
在所述归纳存储的基础上对所述文本进行知识再抽取,将所述文本转换为结构化的所述知识树。
3.根据权利要求2所述的面向理解的互动答疑系统,其特征在于:
其中,所述知识点包括从所述文本的章节提取出的章节知识点以及从所述文本的正文提取出的正文知识点,
所述知识图谱构建单元包括:
多个一级属性分类器,用于对多个所述章节知识点以及对应的多个所述正文知识点进行属性分类;
多个二级属性分类器,用于对多个所述正文知识点进行进一步分类;
知识实体抽取器,用于根据所述知识点从所述文本中抽取对应的文本段作为对应的知识实体;以及
多个知识关系提取器,用于提取多个所述知识点之间的相互关系。
4.根据权利要求3所述的面向理解的互动答疑系统,其特征在于:
其中,所述一级属性分类器的数量为三个,分别用于进行属性分类,将所述知识点以及对应的所述知识实体分类为概念、过程、原理,
所述二级属性分类器的数量为二十一个,分别用于将所述知识实体进行进一步属性分类,将分类为所述概念的所述知识实体进一步分类为定义、功能、分类、特点,将分类为所述过程的所述知识实体进一步分类为方法、策略,将分类为所述原理的所述知识实体进一步分类为知识原理。
5.根据权利要求3所述的面向理解的互动答疑系统,其特征在于:
其中,所述一级属性分类器和所述二级属性分类器均为基于置信度及网格搜索的OVO-SVM分类器,
所述知识实体抽取器为HM-SVM识别器。
6.根据权利要求5所述的面向理解的互动答疑系统,其特征在于:
其中,所述一级属性分类器和所述二级属性分类器利用所述置信度来区分所述文本的一个句子中是否包含有所述知识点,并给出所述属性归类的可信程度,
所述置信度的计算公式为:
Figure RE-FDA0003477306320000031
Figure RE-FDA0003477306320000032
式中,A、B为拟合的参数,f是样本输出,将训练集定义为(fi,hi),其中hi为目标概率。
7.根据权利要求3所述的面向理解的互动答疑系统,其特征在于:
其中,所述知识关系提取器的数量为四个,分别用于将两个所述知识点之间的关系分类为父子关系、前驱关系、相似关系、事例关系,
所述相似关系根据两个所述知识点之间的余弦相似度或jaccard相似度进行判断。
8.根据权利要求7所述的面向理解的互动答疑系统,其特征在于:
其中,所述训练语料生成单元根据所述知识图谱中的所述知识点以及预定的问题生成模板生成相关的问题,并将所述问题和对应的所述知识点组合成所述训练用语料。
9.根据权利要求8所述的面向理解的互动答疑系统,其特征在于:
其中,所述互动答疑模块具有引导状态、解释状态以及回答状态,
处于所述引导状态时,所述互动答疑模块根据所述用户的输入确定所述问题以及对应的所述知识点,记作目标知识点,
处于所述解释状态时,所述互动答疑模块使用与所述目标知识点为所述前驱关系的所述知识点、为所述相似关系的所述知识点或者为事例关系的所述知识点对所述问题进行解释,
处于所述回答状态时,所述互动答疑模块使用所述目标知识点进行回答。
10.根据权利要求7所述的面向理解的互动答疑系统,其特征在于,还包括:
用户管理模块,用于为每个所述用户维护该用户的知识网络,在所述引导以及所述回答过程中更新不同的所述知识点的掌握情况,计算所述知识点的掌握情况的公式为:
Figure RE-FDA0003477306320000051
式中,S'为所述知识点之前的掌握分数,α、β为系数,pre、sim、child分别代表与所述知识点相关联的前驱知识点、相似知识点和子知识点,N为对应的所述知识点的数量,D为不同的所述知识点的权重系数。
CN202111623703.6A 2021-12-28 2021-12-28 面向理解的互动答疑系统 Pending CN116401341A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111623703.6A CN116401341A (zh) 2021-12-28 2021-12-28 面向理解的互动答疑系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111623703.6A CN116401341A (zh) 2021-12-28 2021-12-28 面向理解的互动答疑系统

Publications (1)

Publication Number Publication Date
CN116401341A true CN116401341A (zh) 2023-07-07

Family

ID=87012825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111623703.6A Pending CN116401341A (zh) 2021-12-28 2021-12-28 面向理解的互动答疑系统

Country Status (1)

Country Link
CN (1) CN116401341A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117668166A (zh) * 2024-02-01 2024-03-08 安徽教育网络出版有限公司 一种智慧作业学习知识库快速构建方法与系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117668166A (zh) * 2024-02-01 2024-03-08 安徽教育网络出版有限公司 一种智慧作业学习知识库快速构建方法与系统
CN117668166B (zh) * 2024-02-01 2024-04-16 安徽教育网络出版有限公司 一种智慧作业学习知识库快速构建方法与系统

Similar Documents

Publication Publication Date Title
Hawkins Social class, the nominal group and verbal strategies
CN102262634B (zh) 一种自动问答方法及系统
CN109940627B (zh) 一种面向绘本阅读机器人的人机交互方法和系统
Hjorland Fundamentals of knowledge organization
CN111475629A (zh) 一种面向数学辅导问答系统的知识图谱构建方法及其系统
CN113610680A (zh) 一种基于ai的交互式阅读材料个性化推荐方法及系统
CN113609103A (zh) 一种基于ai的交互式阅读支持数据库构建方法及系统
CN111311459A (zh) 一种面向国际汉语教学的交互式出题方法及系统
CN116070599A (zh) 智能化题库生成及辅助管理系统
Zhu et al. Construction and analysis of intelligent english teaching model assisted by personalized virtual corpus by big data analysis
CN116401341A (zh) 面向理解的互动答疑系统
CN112966518A (zh) 一种面向大规模在线学习平台的优质答案识别方法
CN116595188A (zh) 一种基于人工智能和大数据的教育知识图谱系统
CN116561274A (zh) 一种基于数字人技术与自然语言大模型的知识问答方法
Crafton The reading process as a transactional learning experience
CN116362331A (zh) 一种基于人机协同构建知识图谱的知识点填充方法
Al-Faris et al. Memory strategies and vocabulary learning Strategies: Implications on teaching and learning vocabulary
CN115640403A (zh) 基于知识图谱的知识管控方法及装置
Karpagam et al. Deep learning approaches for answer selection in question answering system for conversation agents
Suleimanova et al. Digital Engines at work: promoting research skills in students
CN112115275A (zh) 一种面向数学辅导问答系统的知识图谱构建方法及其系统
CN112015920A (zh) 一种基于知识图谱和边缘计算智能辅助学习系统
Wang et al. Design of an Intelligent Support System for English Writing Based on Rule Matching and Probability Statistics.
Liu Informatization of Constructive English Learning Platform Based on Improved GLR Algorithm
CN112506945B (zh) 基于知识图谱的自适应导学方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination