CN115455167A - 一种基于知识引导的地理考题生成方法和装置 - Google Patents

一种基于知识引导的地理考题生成方法和装置 Download PDF

Info

Publication number
CN115455167A
CN115455167A CN202211175334.3A CN202211175334A CN115455167A CN 115455167 A CN115455167 A CN 115455167A CN 202211175334 A CN202211175334 A CN 202211175334A CN 115455167 A CN115455167 A CN 115455167A
Authority
CN
China
Prior art keywords
geographic
knowledge
event
verb
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211175334.3A
Other languages
English (en)
Inventor
沈知雨
刘思榆
艾陶
侯一鸣
陈诗瑜
余建兴
印鉴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202211175334.3A priority Critical patent/CN115455167A/zh
Publication of CN115455167A publication Critical patent/CN115455167A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Remote Sensing (AREA)
  • Educational Technology (AREA)
  • Human Computer Interaction (AREA)
  • Educational Administration (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于知识引导的地理考题生成方法,包括以下步骤:S1:获取非结构化的地理知识文本语料构建地理文本语料库;S2:设置句法模板,从地理文本语料库识别得到相应的事理句子;S3:从事理句子中抽取地理事件;S4:对地理事件进行泛化,并根据泛化后的地理事件构建结构化的地理知识图谱;S5:根据结构化的地理知识图谱构建图知识引导的序列模型;S6:基于图知识引导的序列模型生成地理考题。本发明还提供一种基于知识引导的地理考题生成装置,用于实现所述的一种基于知识引导的地理考题生成方法。本发明提供一种基于知识引导的地理考题生成方法和装置,解决了目前的机器自动命题技术只能生成简单的地理考题的问题。

Description

一种基于知识引导的地理考题生成方法和装置
技术领域
本发明涉及考题自动生成的技术领域,更具体的,涉及一种基于知识引导的地理考题生成方法和装置。
背景技术
地理考查的必备知识,是由地理学科的基本事实、基本概念、基本逻辑、基本素养组成的学科基础知识体系。人们一般通过考试来衡量考生对地理知识的掌握程度。高质量的考题一般不单单考核对知识点的字面匹配记忆能力,还能够衡量学生对基础知识和基本原理的综合运用。考试旨在让学生能够从几个基本事实出发,逐步认识不同自然人文等事物特性,形成良好的认知结构。然而,命题是一件非常耗费人力物力的事情,而且人力命题的主观性较大。在涉及如高考等影响广泛的考试,人们需要一种低成本且更加客观的命题方法。因此促使了机器自动命题的快速发展。
对于机器自动命题,传统的图谱构建模型擅长于处理一些事实类的知识,譬如在自然地理方面的河流长度、天体顺序等事实,但却很难处理歧义性更大的人文事理类知识。而在地理高考题目中,人文事理类的考题占比却很大,传统方法难以满足这类考题的生成需求。此外,由于传统基于模板的命题方法,模板是人工设计的,导致模型的覆盖度和可扩展性很弱;而且题型较为老套,无法满足考题多样性的需求。另一方面,基于序列模型的神经模型,由于缺乏对高阶关联知识的理解,容易产生无需推理的简单题或者语义不相关的考题。这种方法主要用于生成简单的字面理解题,但简单题难以全面地评价学生知识结构,促使其自学能力,更不利于培养学生的发散思维和逻辑推理等能力。
因此,目前的机器自动命题技术只能生成简单的地理考题,难以满足地理考试的考题生成需求。
发明内容
本发明为克服目前的机器自动命题技术只能生成简单的地理考题的技术缺陷,提供一种基于知识引导的地理考题生成方法和装置。
为解决上述技术问题,本发明的技术方案如下:
一种基于知识引导的地理考题生成方法,包括以下步骤:
S1:获取非结构化的地理知识文本语料构建地理文本语料库;
S2:设置句法模板,并根据句法模板从地理文本语料库识别得到相应的事理句子;
S3:基于依存句法分析和语义角色标注的方式从事理句子中抽取地理事件;
S4:对地理事件进行泛化,得到泛化后的地理事件,并根据泛化后的地理事件构建结构化的地理知识图谱;
S5:根据结构化的地理知识图谱构建图知识引导的序列模型;
S6:基于图知识引导的序列模型生成地理考题。
上述方案中,从非结构化的数据中提取地理事件并进行泛化,根据泛化后的地理事件构建地理知识图谱,并进一步构建图知识引导的序列模型,展现了知识点的上下位关联,提高了模型的知识推理能力,增强了机器提问能力,能够生成更加贴近实际的高质量地理考题。
优选的,所述句法模板包括:
由因到果前端式句法模板:
<Conj...>{Cause},{Effect};
由因到果居中式句法模板:
{Cause}<Verb>{Effect};
由因到果居中配套式句法模板:
<Conj>{Cause}<Conj/Verb>{Effect};
由因到果前端配套式句法模板:
<Conj>{Cause}<Verb>,{Effect};
由果溯因居中式句法模板:
{Effect}<Conj...>{Cause};
由果溯因配套式句法模板:
<Conj...>{Effect}<Conj...>{Cause};
由因到果居中配套三层因果关系式句法模板:
<Conj...>{Cause1}<verb>{effect1/Cause2},<verb>{effect2/cause3},<verb>{effect3};
由因到果动词引导三层因果关系式句法模板:
{Cause1}<verb>{effect1/Cause2},<verb>{effect2/cause3},<verb>{effect3};
由因到果前端配套动词引导三层因果关系式句法模板:
<Conj>{Cause1}<Conj>,{Effect1/cause2},<verb>{effect2/cause3},<verb>{effect3};
由因到果居中引导二层因果关系式句法模板:
<Conj>{Cause1}<Conj/Verb>,{Effect1/cause2},<verb>{effect2};
由因到果前端配套动词引导二层因果关系式句法模板:
<Conj>{Cause1}<Conj>,{Effect1/cause2},<verb>{effect2};
由因到果居中动词引导二层因果关系式句法模板:
{Cause1}<verb>{effect1/Cause2},<verb>{effect2/cause2}。
优选的,步骤S3的具体步骤为:
对任一事理句子,先根据句法模板确定该事理句子中地理事件的触发词,并通过语义角色标注识别该事理句子中地理事件的参与者,然后通过依存句法分析识别该事理句子中地理事件的主谓宾结构,从而抽取出该事理句子的地理事件;
其中,判断语义角色标注的结果中是否存在动作的施事者A0或动作的承受者A1;
如果存在A0,则地理事件的主语用A0表示,否则用依存句法结构SBV的依存子节点作为主语;若依存句法结构SBV也缺失,则将地理事件表示为动宾结构;
如果存在A1,则地理事件的宾语用A1表示,否则用依存句法结构VOB的依存子节点作为宾语;若依存句法结构VOB也缺失,则将地理事件表示为主谓结构;
如果未出现动词,则用名词表示地理事件。
优选的,通过以下步骤对地理事件进行泛化:
S4.1:采用地理文本语料库中出现频率最高的句法组合对地理事件进行抽象化,得到抽象地理事件;
S4.2:计算抽象地理事件的余弦相似度;
S4.3:根据余弦相似度对抽象地理事件进行泛化:
若一抽象地理事件E至少存在5个相似抽象地理事件,则提取抽象地理事件E及其相似抽象地理事件中的公共成分作为泛化后的地理事件;
否则认为抽象地理事件E缺少一般性而不泛化;
其中,若两抽象地理事件的相似度大于预设的相似度阈值则互为相似抽象地理事件。
优选的,所述图知识引导的序列模型包括图谱编码器、K-BERT文本编码器和解码器;先将步骤S4得到的地理知识图谱输入图谱编码器来把握地理知识图谱中的结构上下文信息,以及将任意地理知识文本语料输入K-BERT文本编码器以捕捉文本的上下文信息,然后利用解码器生成相应的地理考题。。
优选的,所述图谱编码器包括图谱预处理单元和图转换单元;
在所述图谱预处理单元中,采用TransH方法将地理知识图谱的高维的谓词和实体表示为低维的矩阵P和矩阵E;通过训练矩阵P和矩阵E,使所有事实(s,r,o)的总距离
Figure BDA0003864989760000041
最小;其中,s表示头实体,r表示关系,o表示尾实体,es表示宾语实体的语义向量,pr表示谓词的语义向量,eo表示主语实体的语义向量;
在所述图转换单元中,通过以下公式计算抓取语义信息:
Figure BDA0003864989760000042
其中,
Figure BDA0003864989760000043
表示和注意力拼接后的编码信息,ei表示原始输入的编码信息,|表示N个attn的连接操作,j∈N,attnj为点积计算;
Figure BDA0003864989760000044
Figure BDA0003864989760000045
qi、ki、vi是第i个堆叠块对输入进行线性变换后的dk维的向量表示;
Figure BDA0003864989760000046
Figure BDA0003864989760000047
FF(·)为两层前馈网络,LN为标准化层;
e1=Concat(es;pr;eo)
对最终的输出结果eN实行层标准化:
eN=LNoutput(eN)。
优选的,所述K-BERT文本编码器包括知识层、嵌入层、噪音过滤层和掩码学习层;
在所述知识层中,给定一个输入句子s=[w0,w1,w2,...,wn]和一个知识图谱,
通过以下公式选择句子s中涉及的所有实体名称,从图谱中查询它们相应的三元组:
E=K-Query(s,KG)
E=[(wi,ri0,wi0),...,(wi,rik,wik)]
其中,E表示三元组集合,K-Query()函数是知识查询的公式化表示,KG表示知识图谱,(wi,rik,wik)表示查询出的对应三元组;
通过K-Inject函数将E中的三元组关联到实体关系图t中的合适位置:
t=K-Inject(s,E);
在所述嵌入层中,采用Google-BERT提供的词汇表,通过一个可训练的查找表,将实体关系图中的每个标记转换为维度为H的嵌入向量,再使用[CLS]作为分类标记,并使用[MASK]屏蔽标记,然后通过在软位置嵌入,为词向量排序,添加输入句子失去的结构信息;最后,通过分段嵌入来识别包含多个句子的不同句子;
在所述噪音过滤层中,使用可见矩阵来限制每个向量的可见区域:
Figure BDA0003864989760000051
其中,Mij表示可视化矩阵,
Figure BDA0003864989760000052
表示词语wj和词语wi在同一分支;
在所述掩码学习层中有多个Mask-self-attention的堆栈,所述Mask-self-attention为:
Qi+1Ki+1,Vi+1=hiWq,hiWk,hiWv
Figure BDA0003864989760000053
hi+1=Si+1Vi+1
其中,Qi+1是要查询的信息,Ki+1是被查询的向量,Vi+1是查询到的值,hi是第i个掩码自我注意块的隐藏状态,Si+1是注意力分数,M是视觉层计算的可见矩阵,dk是比例因子,Wq、Wk和Wv是可训练的模型参数,hi+1是第i+1个掩码自我注意块的隐藏状态。
优选的,所述解码器采用GPT-2语言模型来解码生成地理考题;所述解码器由多个解码模块堆叠而成,每个解码模块均包括位置编码层、多头注意力机制层和批归一化层;
在得到了K-BERT文本编码器的输出向量h和图谱编码器的输出向量En后,还包括将h和En拼接得到向量z=[h:En],然后将z=[h:En]输入多头注意力机制层作为编码层的输出;
通过对条件概率p(T|S)进行采样,生成高质量的地理考题:
Figure BDA0003864989760000061
其中,T表示输出的目标序列T=xm+1,…,xN,S表示已经生成的序列S=x1,…,xm,N表示目标输出序列总长度,p(xn|x1,...,xn-1)表示基于已经生成的序列预测下一单词的条件概率分布。
优选的,还包括结合负采样机制CTRL生成干扰项,具体步骤为:
CTRL通过输入带有条件c的文本序列学习p(xi|x<i,c):
Figure BDA0003864989760000062
采用链式法则进行分解,并注入损失函数进行训练,将答案作为条件,调节生成的干扰因素D:
Figure BDA0003864989760000063
将获得的n个序列用d维向量表示,即获得矩阵
Figure BDA0003864989760000064
并将其注入多头注意力机制层和批归一化层,最终通过评分选择最好的三个干扰项:
Scores(X0)=LayerNorm(xt)Wvocab
其中,Scores(X0)是生成的干扰项得分,LayerNorm(Xt)是归一化层,Wvocab是词汇权重矩阵。
一种基于知识引导的地理考题生成装置,用于实现所述的一种基于知识引导的地理考题生成方法,包括数据构建模块、地理知识图谱构建模块、提问生成模块和干扰项生成模块;
所述数据构建模块,用于获取非结构化的地理知识文本语料构建地理文本语料库;
所述地理知识图谱构建模块,用于构建结构化的地理知识图谱;其中,包括:
句子识别模块,用于根据句法模板从地理文本语料库识别得到相应的事理句子;
事件抽取模块,用于从事理句子中抽取地理事件;
知识泛化模块,用于对地理事件进行泛化;
所述提问生成模块,用于根据图知识引导的序列模型生成地理考题;
所述干扰项生成模块,用于结合负采样机制CTRL生成干扰项。
与现有技术相比,本发明技术方案的有益效果是:
本发明提供了一种基于知识引导的地理考题生成方法和装置,从非结构化的数据中提取地理事件并进行泛化,根据泛化后的地理事件构建地理知识图谱,并进一步构建图知识引导的序列模型,展现了知识点的上下位关联,提高了模型的知识推理能力,增强了机器提问能力,能够生成更加贴近实际的高质量地理考题。
附图说明
图1为本发明的技术方案实施步骤流程图;
图2为本发明中图转换单元的结构示意图;
图3为本发明中K-BERT文本编码器的数据处理过程示意图;
图4为本发明的模块连接示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于知识引导的地理考题生成方法,包括以下步骤:
S1:获取非结构化的地理知识文本语料构建地理文本语料库;
S2:设置句法模板,并根据句法模板从地理文本语料库识别得到相应的事理句子;
S3:基于依存句法分析和语义角色标注的方式从事理句子中抽取地理事件;
S4:对地理事件进行泛化,得到泛化后的地理事件,并根据泛化后的地理事件构建结构化的地理知识图谱;
S5:根据结构化的地理知识图谱构建图知识引导的序列模型;
S6:基于图知识引导的序列模型生成地理考题。
在具体实施过程中,从非结构化的数据中提取地理事件并进行泛化,根据泛化后的地理事件构建地理知识图谱,并进一步构建图知识引导的序列模型,展现了知识点的上下位关联,提高了模型的知识推理能力,增强了机器提问能力,能够生成更加贴近实际的高质量地理考题。
实施例2
一种基于知识引导的地理考题生成方法,包括以下步骤:
S1:获取非结构化的地理知识文本语料构建地理文本语料库;
S2:设置句法模板,并根据句法模板从地理文本语料库识别得到相应的事理句子;
更具体的,所述句法模板包括:
(1)由因到果前端式句法模板:
<Conj...>{Cause},{Effect};
因果线索词为连词,出现在因果句的开头,其引导的因果句含有明显的因果关系,通过正则表达式构建规则对原因部分和结果部分进行匹配识别。其中线索词为“因[为]、由于”。
(2)由因到果居中式句法模板:
{Cause}<Verb>{Effect};
一般由因果提示动词引导因果句,这些动词前面表示原因,之后表示结果,可以直接通过构建正则表达式匹配识别因果句。其中线索词为“导致,造成,引发,致使,诱发,引起“等动词。此外,考虑到线索词可以是两个连词,也可以使一个连词和一个动词,也可能是两个动词。在地理领域文本中,后者引导的事理关系比较多。由于这类句子有明显的事理关系,可以直接构建正则表示式匹配识别事理相关句。
(3)由因到果居中配套式句法模板:
<Conj>{Cause}<Conj/Verb>{Effect};
由以下的因果提示词对构成因果关系,每个词对的第一个词引导原因,第二个提示词引导结果。因果提示词的位置一般位于子句中间,构建正则表达式识别因果句。其中线索词对为“<因为,造成>,<因为,引起>,<因为,导致>,<因,而>,<由于,引发>,<因为,使>,<由于,以至于>,<由于,从而>,<由,致>,<由于,致使>“等连词对。
(4)由因到果前端配套式句法模板:
<Conj>{Cause}<Verb>,{Effect};
由配套因果提示词对表示因果关系,出现在因果句的开头,由逗号隔开,两个因果提示词之间是原因部分,因果提示词之后是结果部分,通过正则表达式构建规则对原因部分和结果部分进行匹配识别。其中线索词对为“<受,影响>”。
(5)由果溯因居中式句法模板:
{Effect}<Conj...>{Cause};
因果提示词位于句子的中间,前面引导结果,后面引导原因,可以通过构建正则表达式识别因果句。其中线索词为“是因为,是由于”。
(6)由果溯因配套式句法模板:
<Conj...>{Effect}<Conj...>{Cause};
由因果线索词对引导因果关系,两个因果线索词之间表示结果,后一个因果线索词之后引导原因。通过构建正则表达式规则进行原因部分和结果部分的识别抽取。其中线索词为“<造成,原因>,<导致,原因>”等动名词组合。
(7)由因到果居中配套三层因果关系式句法模板:
<Conj...>{Cause1}<verb>{effect1/Cause2},<verb>{effect2/cause3},<verb>{effect3};
通过构建如下因果句法模式,直接正则匹配获取各个原因部分和结果部分;线索词为连词-动词对和因果提示动词的组合。
(8)由因到果动词引导三层因果关系式句法模板:
{Cause1}<verb>{effect1/Cause2},<verb>{effect2/cause3},<verb>{effect3};
由三元因果提示动词引导三层因果关系,可以看作是句法模板(2)的嵌套组合。可以直接通过构建正则表达式匹配识别各原因部分和结果部分;线索词为三元因果提示动词。
(9)由因到果前端配套动词引导三层因果关系式句法模板:
<Conj>{Cause1}<Conj>,{Effect1/cause2},<verb>{effect2/cause3},<verb>{effect3};
由因果提示词对和因果提示动词组合而成,句法模板(4)和句法模板(2)的组合,可以通过匹配正则表达式识别因果句;线索词为句法模板(4)的提示词和因果提示动词组合。
(10)由因到果居中引导二层因果关系式句法模板:
<Conj>{Cause1}<Conj/Verb>,{Effect1/cause2},<verb>{effect2};
由配套连词和因果提示动词引导二层因果关系,直接通过句法模板构建正则表达式匹配识别因果句;线索词为配套连词对加所有因果提示动词。
(11)由因到果前端配套动词引导二层因果关系式句法模板:
<Conj>{Cause1}<Conj>,{Effect1/cause2},<verb>{effect2};
由配套动词和因果提示动词引导二层因果关系,直接通过句法模板构建正则表达式匹配识别因果句;线索词为受影响加所有因果提示动词。
(12)由因到果居中动词引导二层因果关系式句法模板:
{Cause1}<verb>{effect1/Cause2},<verb>{effect2/cause2}
由两个因果提示动词引导两层因果关系,直接通过匹配句法模板识别和抽取因果句线索词为二元因果提示动词。
S3:基于依存句法分析和语义角色标注的方式从事理句子中抽取地理事件;
通过依存句法分析器识别相关事理句子中的“主谓宾”、“定状补”等句法成分,获得地理事件的合适表示方法,常见的依存句法分析类型有主谓关系(SBV)、动宾关系(VOB)、定中关系(ATT)、动补结构(CMP)、并列关系(COO)等;通过语义角色标注器识别句子中谓词与各成分之间的关系,包括核心语义角色(如施事者A0、受事者A1等)和附属语义角色(如时间TMP、地点LOC等)。
更具体的,步骤S3的具体步骤为:
对任一事理句子,先根据句法模板确定该事理句子中地理事件的触发词(本实施例将距离线索词位置最近的动词作为地理事件的触发词),并通过语义角色标注识别该事理句子中地理事件的参与者,然后通过依存句法分析识别该事理句子中地理事件的主谓宾结构,从而抽取出该事理句子的地理事件;
比如句子“山洪肆虐,河水暴涨,造成严重灾害”中,“暴涨”是地理事件的触发词,“河水”是动作的施事者,也可称为参与者;
其中,判断语义角色标注的结果中是否存在动作的施事者A0或动作的承受者A1;
如果存在A0,则地理事件的主语用A0表示,否则用依存句法结构SBV的依存子节点作为主语;若依存句法结构SBV也缺失,则将地理事件表示为动宾结构;
如果存在A1,则地理事件的宾语用A1表示,否则用依存句法结构VOB的依存子节点作为宾语;若依存句法结构VOB也缺失,则将地理事件表示为主谓结构;
如果未出现动词,则用名词表示地理事件。
S4:对地理事件进行泛化,得到泛化后的地理事件,并根据泛化后的地理事件构建结构化的地理知识图谱;
更具体的,通过以下步骤对地理事件进行泛化:
S4.1:采用地理文本语料库中出现频率最高的句法组合对地理事件进行抽象化,得到抽象地理事件;
句法组合即主-谓组合,谓-宾组合,或是其他动词或名词的组合;本实施例中动词用因果提示词典中的动词类别进行抽象替换,名词用因果提示词典中的高频同义词进行替换。本实施例使用深度学习词嵌入技术确定种子触发词同义词,构建因果提示字典。采用了自然语言处理领域广泛应用的词嵌入模型Word2vec来扩展地理领域因果提示词词典。首先将人工标注的因果提示词作为种子词,通过Word2vec模型对因果提示词进行拓展,即找到这些种子词语义相关度高的词语,人工判断是否为因果关系提示词并加入到因果提示词词典中。本实施例通过计算得到与每个种子词最相关的15个词语,分析这些词语是否在语料库中引导因果句子决定其是否是因果提示词。然后删除不相关的词,把符合条件的词语添加到因果提示词词典中。
S4.2:计算抽象地理事件的余弦相似度;
S4.3:根据余弦相似度对抽象地理事件进行泛化:
余弦相似度是通过衡量两个向量间的夹角大小,通过夹角的余弦值表示结果,余弦相似度的取值为[-1,1],值越大表示越相似。本实施例从地理事件中出现的词语的词频入手,以出现词语的种类为事件向量的维度,单个种类词语出现的次数作为每一维度的长度构成的事件向量来计算其相似性;
若一抽象地理事件E至少存在5个相似抽象地理事件,则提取抽象地理事件E及其相似抽象地理事件中的公共成分作为泛化后的地理事件;
否则认为抽象地理事件E缺少一般性而不泛化;
其中,若两抽象地理事件的相似度大于预设的相似度阈值(本实施例中设置相似度阈值为0.8)则互为相似抽象地理事件。
在具体实施过程中,通过对抽取的因果地理事件进行抽象,从而避免单个事例所造成的对地理知识理解的片面性。
还包括通过结合现有文献研究和咨询领域专家进行因果关系验证,过滤掉不是因果关系的地理事件对。
S5:根据结构化的地理知识图谱构建图知识引导的序列模型;;
S6:基于图知识引导的序列模型生成地理考题
更具体的,所述图知识引导的序列模型包括图谱编码器、K-BERT文本编码器和解码器;先将步骤S4得到的地理知识图谱输入图谱编码器来把握地理知识图谱中的结构上下文信息,以及将任意地理知识文本语料输入K-BERT文本编码器以捕捉文本的上下文信息,然后利用解码器生成相应的地理考题。
在具体实施过程中,通过图谱编码器Graph Transformer解决了以往图神经网络(GNN)无法使用于异质图的困境,实现每个结点之间进行显式地信息交互,并将结点之间的最短路径关系表征作为保留图结构信息的依据,此外,相比于GNN-based方法只考虑到单跳范围内的结点信息聚集,Graph Transformer能够实现多跳的高质量领域知识推理。
更具体的,所述图谱编码器包括图谱预处理单元和图转换单元;
在所述图谱预处理单元中,采用TransH方法将地理知识图谱的高维的谓词和实体表示为低维的矩阵P和矩阵E;通过训练矩阵P和矩阵E,使所有事实(s,r,o)的总距离
Figure BDA0003864989760000121
最小;其中,s表示头实体,r表示关系,o表示尾实体,es表示宾语实体的语义向量,pr表示谓词的语义向量,eo表示主语实体的语义向量;
如图2所示,在所述图转换单元中,通过以下公式计算抓取语义信息:
Figure BDA0003864989760000122
其中,
Figure BDA0003864989760000123
表示和注意力拼接后的编码信息,ei表示原始输入的编码信息,|表示N个attn的连接操作,j∈N,attnj为点积计算;
Figure BDA0003864989760000131
Figure BDA0003864989760000132
qi、ki、vi是第i个堆叠块对输入进行线性变换后的dk维的向量表示;
Figure BDA0003864989760000133
Figure BDA0003864989760000134
FF(·)为两层前馈网络,LN为标准化层;
e1=Concat(es;pr;eo)
对最终的输出结果eN实行层标准化:
eN=LNoutput(eN)。
在具体实施过程中,通过基于翻译模型的transH技术将实体向量化,实现在考虑关系路径上的实体语义信息的同时表示出非关系路径上实体描述的语义信息,规避了实体信息一词多义导致的信息异质化问题,进一步提高模型的推理能力,同时在更多没有关系的实体间建立联系,对知识图谱关系补齐,达到挖掘深层关系的作用。
更具体的,所述K-BERT文本编码器包括知识层、嵌入层、噪音过滤层和掩码学习层;
在所述知识层中,给定一个输入句子s=[w0,w1,w2,…,wn]和一个知识图谱,
通过以下公式选择句子s中涉及的所有实体名称,从图谱中查询它们相应的三元组:
E=K-Query(s,KG)
E=[(wi,ri0,wi0),...,(wi,rik,wik)]
其中,E表示三元组集合,K-Query()函数是知识查询的公式化表示,KG表示知识图谱,(wi,rik,wik)表示查询出的对应三元组;
通过K-Inject函数将E中的三元组关联到实体关系图t中的合适位置:
t=K-Inject(s,E);
在所述嵌入层中,采用Google-BERT提供的词汇表,通过一个可训练的查找表,将句子树中的每个标记转换为维度为H的嵌入向量,再使用[CLS]作为分类标记,并使用[MASK]屏蔽标记,然后通过在软位置嵌入,为词向量排序,添加输入句子失去的结构信息;最后,通过分段嵌入来识别包含多个句子的不同句子;
在所述噪音过滤层中,使用可见矩阵来限制每个向量的可见区域:
Figure BDA0003864989760000141
其中,Mij表示可视化矩阵,
Figure BDA0003864989760000142
表示词语wj和词语wi在同一分支;
在所述掩码学习层中有多个Mask-self-attention的堆栈,所述Mask-self-attention为:
Qi+1,Ki+1,Vi+1=hiWq,hiWk,hiWv
Figure BDA0003864989760000143
hi+1=Si+1Vi+1
其中,Qi+1是要查询的信息,Ki+1是被查询的向量,Vi+1是查询到的值,hi是第i个掩码自我注意块的隐藏状态,Si+1是注意力分数,M是视觉层计算的可见矩阵,dk是比例因子,Wq、Wk和Wv是可训练的模型参数,hi+1是第i+1个掩码自我注意块的隐藏状态。如图3所示,将句子“灌溉农业是在干旱时以大水灌溉的方式保证农业生产的模式”输入K-BERT文本编码器进行处理。
更具体的,所述解码器采用GPT-2语言模型来解码生成地理考题;所述解码器由多个解码模块堆叠而成,每个解码模块均包括位置编码层、多头注意力机制层和批归一化层;
在得到了K-BERT文本编码器的输出向量h和图谱编码器的输出向量En后,还包括将h和En拼接得到向量z=[h:En],然后将z=[h:En]输入多头注意力机制层作为编码层的输出;
通过对条件概率p(T|S)进行采样,生成高质量的地理考题:
Figure BDA0003864989760000144
其中,T表示输出的目标序列T=xm+1,...,xN,S表示已经生成的序列S=x1,...,xm,N表示目标输出序列总长度,p(xn|x1,...,xn-1)表示基于已经生成的序列预测下一单词的条件概率分布。
在具体实施过程中,为完善三元组的特征表示采用图和词级的表示,结合知识图和K-BERT分别进行初始化,再用神经网络进行泛化,最后接入GPT-2语言模型进行干扰项和问题生成,对问题生成的语义理解能力具有一定提升,极大地提升了问题生成模型的泛化能力。
更具体的,还包括结合负采样机制CTRL(A Conditional Transformer LanguageModel For Controllable Generation)生成干扰项,具体步骤为:
CTRL通过输入带有条件c的文本序列学习p(xi|x<i,c):
Figure BDA0003864989760000151
采用链式法则进行分解,并注入损失函数进行训练,将答案作为条件,调节生成的干扰因素D:
Figure BDA0003864989760000152
将获得的n个序列用d维向量表示,即获得矩阵
Figure BDA0003864989760000153
并将其注入多头注意力机制层和批归一化层,
Figure BDA0003864989760000154
MultiHead(X,k)=[h1;...;hk]Wo
where hj=Attention(XWj 1,XWj 2,XWj 3)
使用带有ReLU激活函数的前馈神经网络层,将输入投影到内部维度f,其中
Figure BDA0003864989760000155
FF(X)=max(0,XU)V
最终通过评分选择最好的三个干扰项:
Scores(X0)=LayerNorm(Xt)Wvocab
其中,Scores(X0)是生成的干扰项得分,LayerNorm(Xt)是归一化层,Wvocab是词汇权重矩阵。通过评分选择最好的三个干扰项,当模型有时只能生成少于三个干扰性,可以通过多次迭代直至生成三个干扰项。
在具体实施过程中,通过控制条件c惩罚生成相似文本以生成语法上不同的分布,避免生成的干扰项与答案一致,同时能够使生成的干扰项与原考题选项答案相近,且具有迷惑性,但错误的特点。
实施例3
如图4所示,一种基于知识引导的地理考题生成装置,用于实现所述的一种基于知识引导的地理考题生成方法,包括数据构建模块、地理知识图谱构建模块、提问生成模块和干扰项生成模块;
所述数据构建模块,用于获取非结构化的地理知识文本语料构建地理文本语料库;
所述地理知识图谱构建模块,用于构建结构化的地理知识图谱;其中,包括:
句子识别模块,用于根据句法模板从地理文本语料库识别得到相应的事理句子;
事件抽取模块,用于从事理句子中抽取地理事件;
知识泛化模块,用于对地理事件进行泛化;
所述提问生成模块,用于根据图知识引导的序列模型生成地理考题;
所述干扰项生成模块,用于结合负采样机制CTRL生成干扰项。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于知识引导的地理考题生成方法,其特征在于,包括以下步骤:
S1:获取非结构化的地理知识文本语料构建地理文本语料库;
S2:设置句法模板,并根据句法模板从地理文本语料库识别得到相应的事理句子;
S3:基于依存句法分析和语义角色标注的方式从事理句子中抽取地理事件;
S4:对地理事件进行泛化,得到泛化后的地理事件,并根据泛化后的地理事件构建结构化的地理知识图谱;
S5:根据结构化的地理知识图谱构建图知识引导的序列模型;
S6:基于图知识引导的序列模型生成地理考题。
2.根据权利要求1所述的一种基于知识引导的地理考题生成方法,其特征在于,所述句法模板包括:
由因到果前端式句法模板:
<Conj...>{Cause},{Effect};
由因到果居中式句法模板:
{Cause}<Verb>{Effect};
由因到果居中配套式句法模板:
<Conj>{Cause}<Conj/Verb>{Effect};
由因到果前端配套式句法模板:
<Conj>{Cause}<Verb>,{Effect};
由果溯因居中式句法模板:
{Effect}<Conj...>{Cause};
由果溯因配套式句法模板:
<Conj...>{Effect}<Conj...>{Cause};
由因到果居中配套三层因果关系式句法模板:
<Conj...>{Cause1}<verb>{effect1/Cause2},<verb>{effect2/cause3},<verb>{effect3};
由因到果动词引导三层因果关系式句法模板:
{Cause1}<verb>{effect1/Cause2},<verb>{effect2/cause3},<verb>{effect3};
由因到果前端配套动词引导三层因果关系式句法模板:
<Conj>{Cause1}<Conj>,{Effect1/cause2},<verb>{effect2/cause3},<verb>{effect3};
由因到果居中引导二层因果关系式句法模板:
<Conj>{Cause1}<Conj/Verb>,{Effect1/cause2},<verb>{effect2};
由因到果前端配套动词引导二层因果关系式句法模板:
<Conj>{Cause1}<Conj>,{Effect1/cause2},<verb>{effect2};
由因到果居中动词引导二层因果关系式句法模板:
{Cause1}<verb>{effect1/Cause2},<verb>{effect2/cause2}。
3.根据权利要求2所述的一种基于知识引导的地理考题生成方法,其特征在于,步骤S3的具体步骤为:
对任一事理句子,先根据句法模板确定该事理句子中地理事件的触发词,并通过语义角色标注识别该事理句子中地理事件的参与者,然后通过依存句法分析识别该事理句子中地理事件的主谓宾结构,从而抽取出该事理句子的地理事件;
其中,判断语义角色标注的结果中是否存在动作的施事者A0或动作的承受者A1;
如果存在A0,则地理事件的主语用A0表示,否则用依存句法结构SBV的依存子节点作为主语;若依存句法结构SBV也缺失,则将地理事件表示为动宾结构;
如果存在A1,则地理事件的宾语用A1表示,否则用依存句法结构VOB的依存子节点作为宾语;若依存句法结构VOB也缺失,则将地理事件表示为主谓结构;
如果未出现动词,则用名词表示地理事件。
4.根据权利要求1所述的一种基于知识引导的地理考题生成方法,其特征在于,通过以下步骤对地理事件进行泛化:
S4.1:采用地理文本语料库中出现频率最高的句法组合对地理事件进行抽象化,得到抽象地理事件;
S4.2:计算抽象地理事件的余弦相似度;
S4.3:根据余弦相似度对抽象地理事件进行泛化:
若一抽象地理事件E至少存在5个相似抽象地理事件,则提取抽象地理事件E及其相似抽象地理事件中的公共成分作为泛化后的地理事件;
否则认为抽象地理事件E缺少一般性而不泛化;
其中,若两抽象地理事件的相似度大于预设的相似度阈值则互为相似抽象地理事件。
5.根据权利要求1所述的一种基于知识引导的地理考题生成方法,其特征在于,所述图知识引导的序列模型包括图谱编码器、K-BERT文本编码器和解码器;先将步骤S4得到的地理知识图谱输入图谱编码器来把握地理知识图谱中的结构上下文信息,以及将任意地理知识文本语料输入K-BERT文本编码器以捕捉文本的上下文信息,然后利用解码器生成相应的地理考题。
6.根据权利要求5所述的一种基于知识引导的地理考题生成方法,其特征在于,所述图谱编码器包括图谱预处理单元和图转换单元;
在所述图谱预处理单元中,采用TransH方法将地理知识图谱的高维的谓词和实体表示为低维的矩阵P和矩阵E;通过训练矩阵P和矩阵E,使所有事实(s,r,o)的总距离
Figure FDA0003864989750000031
最小;其中,s表示头实体,r表示关系,o表示尾实体,es表示宾语实体的语义向量,pr表示谓词的语义向量,eO表示主语实体的语义向量;
在所述图转换单元中,通过以下公式计算抓取语义信息:
Figure FDA0003864989750000032
其中,
Figure FDA0003864989750000033
表示和注意力拼接后的编码信息,ei表示原始输入的编码信息,|表示N个attn的连接操作,j∈N,attnj为点积计算;
Figure FDA0003864989750000034
Figure FDA0003864989750000035
qi、ki、vi是第i个堆叠块对输入进行线性变换后的dk维的向量表示;
Figure FDA0003864989750000036
Figure FDA0003864989750000037
FF(·)为两层前馈网络,LN为标准化层;
e1=Concat(es;pr;eo)
对最终的输出结果eN实行层标准化:
eN=LNoutput(eN)。
7.根据权利要求5所述的一种基于知识引导的地理考题生成方法,其特征在于,所述K-BERT文本编码器包括知识层、嵌入层、噪音过滤层和掩码学习层;
在所述知识层中,给定一个输入句子s=[w0,w1,w2,...,wn]和一个知识图谱,
通过以下公式选择句子s中涉及的所有实体名称,从图谱中查询它们相应的三元组:
E=K-Query(s,KG)
E=[(wi,ri0,wi0),...,(wi,rik,wik)]
其中,E表示三元组集合,K-Query()函数是知识查询的公式化表示,KG表示知识图谱,(wi,rik,wik)表示查询出的对应三元组;
通过K-Inject函数将E中的三元组关联到实体关系图t中的合适位置:
t=K-Inject(s,E);
在所述嵌入层中,采用Google-BERT提供的词汇表,通过一个可训练的查找表,将实体关系图中的每个标记转换为维度为H的嵌入向量,再使用[CLS]作为分类标记,并使用[MASK]屏蔽标记,然后通过在软位置嵌入,为词向量排序,添加输入句子失去的结构信息;最后,通过分段嵌入来识别包含多个句子的不同句子;
在所述噪音过滤层中,使用可见矩阵来限制每个向量的可见区域:
Figure FDA0003864989750000041
其中,Mij表示可视化矩阵,
Figure FDA0003864989750000042
表示词语wj和词语wi在同一分支;
在所述掩码学习层中有多个Mask-self-attention的堆栈,所述Mask-self-attention为:
Qi+1,Ki+1,Vi+1=hiWq,hiWk,hiWv
Figure FDA0003864989750000043
hi+1=Si+1Vi+1
其中,Qi+1是要查询的信息,Ki+1是被查询的向量,Vi+1是查询到的值,hi是第i个掩码自我注意块的隐藏状态,Si+1是注意力分数,M是视觉层计算的可见矩阵,dk是比例因子,Wq、Wk和Wv是可训练的模型参数,hi+1是第i+1个掩码自我注意块的隐藏状态。
8.根据权利要求5所述的一种基于知识引导的地理考题生成方法,其特征在于,所述解码器采用GPT-2语言模型来解码生成地理考题;所述解码器由多个解码模块堆叠而成,每个解码模块均包括位置编码层、多头注意力机制层和批归一化层;
在得到了K-BERT文本编码器的输出向量h和图谱编码器的输出向量En后,还包括将h和En拼接得到向量z=[h:En],然后将z=[h:En]输入多头注意力机制层作为编码层的输出;
通过对条件概率p(T|S)进行采样,生成高质量的地理考题:
Figure FDA0003864989750000051
其中,T表示输出的目标序列T=xm+1,...,xN,S表示已经生成的序列S=x1,...,xm,N表示目标输出序列总长度,p(xn|x1,...,xn-1)表示基于已经生成的序列预测下一单词的条件概率分布。
9.根据权利要求8所述的一种基于知识引导的地理考题生成方法,其特征在于,还包括结合负采样机制CTRL生成干扰项,具体步骤为:
CTRL通过输入带有条件c的文本序列学习p(xi|x<i,c):
Figure FDA0003864989750000052
x=(x1,...xn)
采用链式法则进行分解,并注入损失函数进行训练,将答案作为条件,调节生成的干扰因素D:
Figure FDA0003864989750000053
将获得的n个序列用d维向量表示,即获得矩阵
Figure FDA0003864989750000054
并将其注入多头注意力机制层和批归一化层,最终通过评分选择最好的三个干扰项:
Scores(X0)=LayerNorm(Xt)Wvocab
其中,Scores(X0)是生成的干扰项得分,LayerNorm(Xt)是归一化层,Wvocab是词汇权重矩阵。
10.一种基于知识引导的地理考题生成装置,其特征在于,包括数据构建模块、地理知识图谱构建模块、提问生成模块和干扰项生成模块;
所述数据构建模块,用于获取非结构化的地理知识文本语料构建地理文本语料库;
所述地理知识图谱构建模块,用于构建结构化的地理知识图谱;其中,包括:
句子识别模块,用于根据句法模板从地理文本语料库识别得到相应的事理句子;
事件抽取模块,用于从事理句子中抽取地理事件;
知识泛化模块,用于对地理事件进行泛化;
所述提问生成模块,用于根据图知识引导的序列模型生成地理考题;
所述干扰项生成模块,用于结合负采样机制CTRL生成干扰项。
CN202211175334.3A 2022-09-26 2022-09-26 一种基于知识引导的地理考题生成方法和装置 Pending CN115455167A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211175334.3A CN115455167A (zh) 2022-09-26 2022-09-26 一种基于知识引导的地理考题生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211175334.3A CN115455167A (zh) 2022-09-26 2022-09-26 一种基于知识引导的地理考题生成方法和装置

Publications (1)

Publication Number Publication Date
CN115455167A true CN115455167A (zh) 2022-12-09

Family

ID=84306203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211175334.3A Pending CN115455167A (zh) 2022-09-26 2022-09-26 一种基于知识引导的地理考题生成方法和装置

Country Status (1)

Country Link
CN (1) CN115455167A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385330A (zh) * 2023-06-06 2023-07-04 之江实验室 一种利用图知识引导的多模态医学影像生成方法和装置
CN116756340A (zh) * 2023-06-25 2023-09-15 森纵艾数(北京)科技有限公司 一种试题自动生成方法、系统及设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385330A (zh) * 2023-06-06 2023-07-04 之江实验室 一种利用图知识引导的多模态医学影像生成方法和装置
CN116385330B (zh) * 2023-06-06 2023-09-15 之江实验室 一种利用图知识引导的多模态医学影像生成方法和装置
CN116756340A (zh) * 2023-06-25 2023-09-15 森纵艾数(北京)科技有限公司 一种试题自动生成方法、系统及设备

Similar Documents

Publication Publication Date Title
Hong et al. Learning to compose and reason with language tree structures for visual grounding
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN110895932B (zh) 基于语言种类和语音内容协同分类的多语言语音识别方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN110489760A (zh) 基于深度神经网络文本自动校对方法及装置
CN108519890A (zh) 一种基于自注意力机制的鲁棒性代码摘要生成方法
CN115455167A (zh) 一种基于知识引导的地理考题生成方法和装置
CN114116994A (zh) 一种迎宾机器人对话方法
CN111310474A (zh) 基于激活-池化增强bert模型的在线课程评论情感分析方法
CN110851599A (zh) 一种中文作文自动评分方法及教辅系统
CN112765345A (zh) 一种融合预训练模型的文本摘要自动生成方法及系统
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
KR102654480B1 (ko) 언어학습을 위한 지식 기반 대화 시스템 및 방법
Van Nguyen et al. Enhancing lexical-based approach with external knowledge for Vietnamese multiple-choice machine reading comprehension
CN110222344B (zh) 一种针对小学生作文辅导的作文要素分析算法
Sun et al. Convolutional neural networks for correcting English article errors
Mitra et al. Declarative question answering over knowledge bases containing natural language text with answer set programming
Lagakis et al. Automated essay scoring: A review of the field
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN112818106A (zh) 一种生成式问答的评价方法
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
CN111666374A (zh) 一种在深度语言模型中融入额外知识信息的方法
CN116561251A (zh) 一种自然语言处理方法
CN110675292A (zh) 一种基于人工智能的儿童语言能力评测方法
Gleize et al. Limsiiles: Basic english substitution for student answer assessment at semeval 2013

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination