CN111324709A - 基于学科知识图谱和卷积神经网络的智能答疑方法 - Google Patents
基于学科知识图谱和卷积神经网络的智能答疑方法 Download PDFInfo
- Publication number
- CN111324709A CN111324709A CN202010083679.0A CN202010083679A CN111324709A CN 111324709 A CN111324709 A CN 111324709A CN 202010083679 A CN202010083679 A CN 202010083679A CN 111324709 A CN111324709 A CN 111324709A
- Authority
- CN
- China
- Prior art keywords
- concept
- question
- neural network
- relation
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于知识图谱和神经网络的智能答疑方法,包括以下步骤:S1.形成用户问句q指向领域本体的候选概念集合;S2.形成用户问句指向领域本体排名前N的候选概念集合TOP(N),以及在问句q中相对应的概念提及集合M(N);S3.计算得出用户问句与候选概念的所有概念关系对的相似度;S4.将与用户问句q相似度值最大的概念关系对作为答案知识源;S5.在学科知识图谱的关系记录库中查询概念关系对,得到用户问句的答案并呈现给用户。本发明以学科知识图谱作为知识库,以学科知识图谱关系记录库中的关系记录作为问句的答案来源,同时通过卷积神经网络实现问句的处理与分类,提高了问句在概念关系对上的分类精度。
Description
技术领域
本发明属于计算机技术与教育技术交叉的技术领域,具体涉及基于知识图谱和神经网络的智能答疑方法。
背景技术
智能答疑系统是智能教学系统与自动问题系统的一个交叉领域,在大型开放式网络课程系统中,答疑是一个重要环节,智能答疑系统的研发,有助于提高教学的效能。智能答疑系统是一个与知识高度相关的系统,现行的智能答疑系统在知识库的组织上普遍存在以下问题:(1)许多智能答疑系统的答案直接建立在非结构化的文档内容,没有构建基于语义网的知识库;(2)在基于语义网和本体的知识结构中,普遍存在语义关系过于单一的现象,如许多系统只采用类似教材目录的整体-部分的包含关系组织语义网的知识点,许多系统的本体只存在“is-a”单一的语义关系;(3)教学内容普遍采用单一的文字或文本形式,缺乏对多媒体教学内容的有效管理与使用;(4)部分使用知识图谱的智能答疑系统,基于语义关系的知识挖掘不到位,表征认知的外化与形式化的知识太少,无法正真做到通过语义关系实现所有答案的推理、检索,以及无法实现通过语义关系实现对学习者认知状态的诊断、评测与补救。此外,目前的智能答疑系统的问句分类方法大多数都是采用基于人工特征的语义分析方法,难以适应当前大数据时代,答疑系统问句形式复杂、多变的现状,同时也因语义分析的各个环节的错误传递,造成问句分类的精度不高。
知识图谱的概念是谷歌公司为应对智能化语义检索的挑战而提出的.2012年5月17日,谷歌公司发布知识图谱项目,并宣布以此为基础构建下一代智能化搜索引擎,其目标是将互联网的链接从网页的链接迈向数据甚至知识的链接。知识图谱.是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体一关系一实体”三元组,以及实体及其相关属性一值对,实体间通过关系相互联结,构成网状的知识结构。随着近年来谷歌知识图谱相关产品的不断上线,这一技术也引起了业界和学术界的广泛关注,已成为各行各业从网络化向智能化转型升级的关键技术之一,也为个性化自适应学习系统中领域知识建模这一核心和基础问题,提供了新的技术手段。知识图谱有利于解决目前智能答疑系统存在的问题,但目前尚没有文献公开相关的基于知识图谱的智能答疑方法。
发明内容
本发明提供了一种基于知识图谱和神经网络的智能答疑方法,以学科知识图谱作为知识库,以学科知识图谱关系记录库中的关系记录作为问句的答案来源,同时通过卷积神经网络实现问句的处理与分类,确保系统教学知识的完备性和具有端到端的特点,极大丰富了系统的知识库,避免了语义分析的各个环节的错误传递,提高了问句在概念关系对上的分类精度。
为实现上述目的,本发明的技术方案为:
一种基于知识图谱和神经网络的智能答疑方法,包括以下步骤:
S1.使用用户问句q中的每个汉字,检索领域本体中包含该汉字的概念,形成用户问句q指向领域本体的候选概念集合ConSet;
S2.通过候选概念集合ConSet及其与问句q基于字表面的相似度,自动识别用户问句q中的概念提及,形成用户问句q指向领域本体排名前N的候选概念集合TOP(N),以及在问句q中相对应的概念提及集合M(N);
S3.从概念提及集合M(N)中选择一个概念提及m,逐一检索m在TOP(N)中对应候选概念c的每一个形如t(c,r)的概念关系对,通过基于字表面的问句q与候选概念c的相似度sim(q,c)、基于标准卷积神经网络的概念提及m与候选概念c之间的相似度sim(c,m)、基于多级蕴涵卷积神经网络的问句q与语义关系r的相似度sim(q,r),计算得出用户问句q与候选概念c的所有概念关系对的相似度;
S4.重复步骤S3,直至集合M(N)中的每个概念提及被处理完毕,并将通过步骤S3得到的与用户问句q相似度值最大的概念关系对t(c’,r’)作为答案知识源;
S5.在学科知识图谱的关系记录库中查询概念关系对t(c’,r’),得到用户问句q的答案并呈现给用户。
进一步的,所述的知识图谱是指答疑领域所在学科的知识图谱,包括反映概念间联系的语义关系,以及反映概念与多媒体知识或事实性知识之间联系的属性关系;
所述学科知识图谱的关系定义为由斜扛分隔的三元组:概念类型/主题/媒体类型;
所述概念类型用于给出关系的定义域,所述主题用于解释关系的含义,所述媒体类型用于给出关系定义域的媒体类别。
进一步的,所述步骤S2包括如下子步骤:
2.1计算ConSet中的每一个候选概念c与用户问句q的最长连续公共子序列LCCS(c,q):
LCCS(c,q)=Ui≤|c|{s(i)∈c∩q|s(i)是s(i-1)在c中的后继}
2.2通过最长连续公共子序列LCCS(c,q),计算在ConSet中的每一个候选概念c与用户问句q的基于字表面的相似度sim(q,c):
保留相似度排名前N的候选概念,形成用户问句q在领域本体排名前N的候选概念集合TOP(N);
2.3对于集合TOP(N)中的每一个候选概念c与用户问句q的最长连续公共子序列LCCS(c,q),按如下方法进行扩展,形成用户问句q的N个概念提及集合M(N):如果LCCS(c,q)与对应的候选概念c的长度相同,则c就是用户问句q的一个概念提及;如果c比其LCCS(c,q)更长并且在左边有L1个汉字,或c比LCCS(c,q)更长并且在右边有L2个汉字,则在问句q中逐字扩展LCCS(c,q)左侧L1个汉字或右侧L2个汉字,直到在问句q中出现c的左边界字或右边界字为止,此时扩展后的LCCS(c,q)就是c在q中对应的概念提及;所述用户问句q的一个概念提及是指q中可能包含的一个提问概念。
进一步的,所述步骤S3中,标准神经网络的处理过程包括:
3.1.1使用标准卷积神经网络S_CNN的输入层来统一处理文本片段,形成文本片段的输入特征矩阵,所述文本片段包括概念提及、领域本体中的候选概念,以及关系成份中的概念类型、主题与媒体类型;
3.1.2S_CNN通过卷积层从文本片段中提取n-gram特征,产生n-gram特征的语义向量;
3.1.2将所有的n-gram特征的语义向量通过逐行最大池化输出所述文本片段的语义向量,包括领域本体中的候选概念、概念提及、概念类型、主题与媒体类型的语义向量vc、vm、vr1、vr2与vr3。
进一步的,步骤3.1.1包括:S_CNN的输入层将长度为s个汉字的输入序列x转换为维度为d×s的实数特征矩阵,其中d表示每个汉字随机初始化的实数嵌入向量的维数,且所述实数特征矩阵等价于s个维度为d的向量序列:v1,v2,…,vs;
所述步骤3.1.2包括:S_CNN通过一个卷积层从滑动的n-grams中进行语义向量学习,对于长度为s个汉字的输入序列x:v1,v2,…,vs,令向量ci∈Rnd表示如下n个汉字嵌入向量的联接嵌入:vi-n+1,...,vi,其中n为卷积滑动过滤器filter的宽度,Rnd表示维度为n*d的实数向量集合,i为n-gram在输入序列x中的结束位置,且有0<i<s+n,以及对于i<1或i>s的嵌入向量vi使用零值填充;卷积层使用卷积权重W∈Rdxnd为n-gram的向量序列vi-n+1,...,vi产生一个n-gram特征的语义向量pi∈Rd,计算公式如下:
pi=tanh(W·ci+b)
其中,偏置b∈Rd,Rd表示维度为d的实数向量集合,Rd×nd表示维度为d行、n*d列的实数矩阵集合,tanh(·)为双曲正切函数;
所述步骤3.1.3包括:将所有n-gram特征的语义向量pi(i=1,...,s+n-1),通过最大池化生成输入序列x的语义向量vx∈Rd,计算公式如下:
vx={xj∈R|j=1,...,d}
xj=max{pi(j)|i=1,...,s+n-1}
其中,max{·}表示求最大值,pi(j)表示pi中的第j个元素,R表示实数集合,xj表示所有pi中第j个元素的最大值。
进一步的,所述基于标准卷积神经网络的概念提及m与候选概念c之间的相似度的计算方法为:
进一步的,所述步骤S3中,多级蕴涵卷积神经网络的处理过程包括:
步骤3.2.1和步骤3.2.2分别采用与步骤3.1.1和3.1.2相同的方法处理关系成份中的概念类型、主题与媒体类型的语义特征,得到相对应的关系成份语义向量vr1、vr2与vr3;
3.2.3根据语义向量vr1、vr2与vr3,采用多级蕴涵卷积神经网络MI_CNN的三级池化过程,分别输出与关系成份概念类型、主题与媒体类型相对应的问句语义向量vq1、vq2与vq3:
(1)设Fq∈Rd×(s+n-1)表示问句q经MI_CNN卷积层处理后生成的n-gram特征矩阵,o为问句q所要匹配的关系成份,vo∈Rd表示经S_CNN处理得到的关系成份o的语义向量,MI_CNN的每一级池化过程首先计算Fq中每一列与vo的余弦相似度ui,并将其中的最大值作为问句q对关系成份o的蕴涵度,记作计算过程如下:
Fq={pi∈Rd|i=1,...,s+n-1}
pi={tji∈R|j=1,...,d}
ui=cos(vo,pi)
其中,tji为第i个n-gram特征的语义向量pi的第j维度上的值;
F′q={p′i∈Rd|i=1,...,s+n-1}
p′i={t′ji∈R|j=1,...,d}
其中,p′i表示衰减后的pi向量,t′ji表示p′i向量的第j维度上的值;
(3)根据衰减后特征矩阵F′q中每一行最大值的位置检索特征矩阵Fq,得到Fq每一行的池化结果,并最终得到每一级池化后问句q的语义向量vq∈Rd,计算过程如下:
vq={qj∈R|j=1,...,d}
qj=pk(j)
k′=argmax{p′k(j)|k=1,...,s+n-1}
其中,argmax{p′k(j)|k=1,...,s+n-1}表示求使得p′k(j)为最大值的k,qj表示vq向量的第j个元素,p′k(j)表示p′k的第j个元素。
进一步的,所述步骤S3中,基于多级蕴涵卷积神经网络的问句q与语义关系r的相似度的计算方法为:
3.3.1分别计算问句q与不同关系成份r的相似度,分别记作sim(vq1,vr1)、sim(vq2,vr2)与sim(vq3,vr3):
3.3.2计算问句q与语义关系r的相似度sim(q,r):
进一步的,所述步骤S3中,用户问句q与候选概念c的概念关系对t(c,r)的相似度sim(q,t(c,r))计算方法为:
sim(q,t(c,r))=sim(q,c)+sim(c,m)+sim(q,r)。
多级蕴涵卷积神经网络MI_CNN与标准卷积神经网络S_CNN共享权重,并以端到端的方式共同训练输入层汉字的词嵌入向量与卷积层的卷积权重W,模型训练设置如下:
(1)对于在训练集中的任意用户问句q,将所标注用于提供答案的概念关系对作为q所期望概念关系对的正样本,记作t+,将q在领域本体中所有候选概念的其他概念关系对作为负样本,记作t-,并且对于任意用户问句q随机选取NG个负样本,NG∈[1,100];
(2)分别计算问句q与正样本t+及与负样本t-的相似度,分别记作sim(q,t+)和sim(q,t-);
(3)对S_CNN与MI_CNN卷积神经网络模型的训练目标是最小化如下相似度排名损失:
其中,δ为补偿因子常量,并且δ∈[0,1)。
本发明以学科知识图谱中的领域本体作为概念词典,以学科知识图谱的关系记录作为问句的答案来源,通过多级蕴涵卷积神经网络确定提供答案的概念关系对,相比传统的智能答疑系统,本发明具有如下特点与优势:
(1)本发明通过学科知识图谱有效整合了各种多媒体知识、事实性知识、属性知识与语义知识,为智能答疑提供了丰富的知识来源;
(2)本发明在学科知识图谱中将各类知识通过关系与领域中的概念相关联,以学科知识图谱关系记录库中的关系记录作为问句的答案线索,提高了系统答疑的准确率;
(3)本发明通过卷积神经网络提取问句中的n-grams特征,不依赖任意词性分析与语法分析,具有完全端到端的特点;
(4)通过一个多级蕴涵卷积神经网络,根据对所要匹配关系成份的蕴涵度,分别生成问句的不同语义向量,提高了问句与概念关系对的相似度精度;
(5)将问句中的概念提及与本体中的候选概念之间的相似度和问句与概念关系之间的相似度进行联合计算与联合训练,可简化模型的训练过程,同时通过概念与概念关系的相互制约,提高了概念关系对选择的准确率。
附图说明
图1是本发明的方法示意图。
图2是学科知识图谱的结构示意图。
图3是标准卷积神经网络的示意图。
具体实施方法
以下结合具体实施例和附图对本发明作进一步说明,但本发明的保护范围不限于以下实施例。
一种基于知识图谱和神经网络的智能答疑方法,结合图1所示,包括以下步骤:
S1.使用用户问句q中的每个汉字,检索领域本体中包含该汉字的概念,形成用户问句q指向领域本体的候选概念集合ConSet;
S2.通过候选概念集合ConSet及其与问句q基于字表面的相似度,自动识别用户问句q中的概念提及,形成用户问句q指向领域本体排名前N的候选概念集合TOP(N),以及在问句q中相对应的概念提及集合M(N);
S3.从概念提及集合M(N)中选择一个概念提及m,逐一检索m在TOP(N)中对应候选概念c的每一个形如t(c,r)的概念关系对,通过基于字表面的问句q与候选概念c的相似度sim(q,c)、基于标准卷积神经网络的概念提及m与候选概念c之间的相似度sim(c,m)、基于多级蕴涵卷积神经网络的问句q与语义关系r的相似度sim(q,r),计算得出用户问句q与候选概念c的所有概念关系对的相似度;
S4.重复步骤S3,直至集合M(N)中的每个概念提及被处理完毕,并将通过步骤S3得到的与问句q相似度值最大的概念关系对t(c’,r’)作为答案知识源;
S5.在学科知识图谱的关系记录库中查询概念关系对t(c’,r’),得到问句q的答案并呈现给用户。
1、本实施例对学科知识图谱作一个介绍:
如图2所示,学科知识图谱分为的四个层次:(1)非结构化的多媒体知识,包括文档、图片、动画与视频等多种形态的多媒体教学内容单元,用于反映描述性知识,如概念的定义、作用与功能,或过程性知识,如计算机的组装过程,每个多媒体教学单元讲解概述的某一方面的知识点;(2)事实性知识,包括用于反映概念特征的数据实体,以及概念实例,其中数据实体包括文本、人名、时间与数值等;(3)结构化的关系记录,包括语义关系记录与属性关系记录,语义关系记录用于反映概念间的联系,属性关系记录用于反映概念与事实性知识之间的联系;(4)基于“is-a”分类关系的领域本体,用于反映本领域概念间的分类结构、概念的名称及其同义词,该领域本体是答疑系统知识图谱的约束模型,每个多媒体知识和事实性知识都通过某种属性关系与领域本体中的概念相关联,而语义关系中的定义域和值域都来自于领域本体中的概念。
2、关系结构定义
本发明学科知识图谱中的关系包括反映概念间联系的语义关系,以及反映概念与多媒体知识或事实性知识之间联系的属性关系,这两类关系有着相同的结构。为增强关系的自我解释能力,并发明将适用于智能答疑方法的知识图谱中的关系定义成一个由斜扛“/”分隔的三元组:概念类型/主题/媒体类型。
其中,概念类型:用于给出关系的定义域,表明本体中哪些概念具有该种关系,使用本体中的一个概念或多个概念及其连接词“和”或“与”,如果本体中的所有概念都可具有某种关系,则使用“本体”表示该关系的概念类型;
主题:用于解释关系的含义,可以是动词,如“存储”,也可以是动词短语,如“存储于”、“用于存储”,以及可以是名词,如“颜色”,或可以是名词短语,如“网络类别”;
媒体类型:用于给出关系定义域的媒体类别,表明关系指向何种类型的知识,本发明规定关系可以具有“概念”、“多媒体”、“实例”与“数据”四种不同的媒体类型,其中“概念”代表关系指向本体中的概念,“多媒体”代表关系指向多媒体知识,“实例”代表关系指向本体中概念的实例,“数据”代表关系指向文本、时间与数值等数据。
例如:磁盘与内存/用于存储/概念
硬件/组装过程/多媒体
计算机网络/组网过程/多媒体。
3、用户问句中概念提及的自动识别即步骤S2包括如下子步骤:
2.1计算ConSet中的每一个候选概念c与用户问句q的最长连续公共子序列LCCS(c,q):
LCCS(c,q)=Ui≤|c|{s(i)∈c∩q|s(i)是s(i-1)在c中的后继} (1)
2.2通过最长连续公共子序列LCCS(c,q),计算在ConSet中的每一个候选概念c与用户问句q的基于字表面的相似度sim(q,c):
保留相似度排名前N的候选概念,形成用户问句q在领域本体排名前N的候选概念集合TOP(N),本实施例取N∈[1,100];
2.3对于集合TOP(N)中的每一个候选概念c与用户问句q的最长连续公共子序列LCCS(c,q),按如下方法进行扩展,形成用户问句q的N个概念提及集合M(N):如果LCCS(c,q)与对应的候选概念c的长度相同,则c就是用户问句q的一个概念提及;如果c比其LCCS(c,q)更长并且在左边有L1个汉字,或c比LCCS(c,q)更长并且在右边有L2个汉字,则在问句q中逐字扩展LCCS(c,q)左侧L1个汉字或右侧L2个汉字,直到在问句q中出现c的左边界字或右边界字为止,此时扩展后的LCCS(c,q)就是c在q中对应的概念提及;所述用户问句q的一个概念提及是指q中可能包含的一个提问概念。例如,相对于本体概念“计算机网络”,带有拼写错误的问句“计算机络的组网过程是什么?”所包含的概念提及为“计算机络”。
4、本实施例用于处理n-grams特征的标准卷积神经网络
即步骤S3中,计算基于标准卷积神经网络的概念提及m与候选概念c之间的相似度、基于多级蕴涵卷积神经网络的问句q与语义关系r的相似度都需要使用的标准卷积神经网络。
结合图3所示,标准神经网络的处理过程包括:
3.1.1输入层:使用标准卷积神经网络S_CNN的输入层来统一处理文本片段,形成文本片段的输入特征矩阵,文本片段包括概念提及、领域本体中的候选概念,以及关系成份中的概念类型、主题与媒体类型;
3.1.2卷积层:S_CNN通过卷积层从文本片段中提取n-gram特征,产生n-gram特征的语义向量;
3.1.2最大池化:将所有的n-gram特征的语义向量通过逐行最大池化输出文本片段的语义向量,包括领域本体中的候选概念、概念提及、概念类型、主题与媒体类型的语义向量vc、vm、vr1、vr2与vr3。
更具体的,步骤3.1.1包括:S_CNN的输入层将长度为s个汉字的输入序列x转换为维度为d×s的实数特征矩阵,其中d表示每个汉字随机初始化的实数嵌入向量的维数,且该实数特征矩阵等价于s个维度为d的向量序列:v1,v2,…,vs;
步骤3.1.2包括:S_CNN通过一个卷积层从滑动的n-grams中进行语义向量学习,对于长度为s个汉字的输入序列x:v1,v2,…,vs,令向量ci∈Rnd表示如下n个汉字嵌入向量的联接嵌入:vi-n+1,...,vi,其中n为卷积滑动过滤器filter的宽度,Rnd表示维度为n*d的实数向量集合,i为n-gram在输入序列x中的结束位置,且有0<i<s+n,以及对于i<1或i>s的嵌入向量vi使用零值填充;卷积层使用卷积权重W∈Rd×nd为n-gram的向量序列vi-n+1,...,vi产生一个n-gram特征的语义向量pi∈Rd,计算公式如下:
pi=tanh(W·ci+b) (3)
其中,偏置b∈Rd,Rd表示维度为d的实数向量集合,Rd×nd表示维度为d行、n*d列的实数矩阵集合,tanh(·)为双曲正切函数;
步骤3.1.3包括:将所有n-gram特征的语义向量pi(i=1,...,s+n-1),通过最大池化生成输入序列x的语义向量vx∈Rd,计算公式如下:
vx={xj∈R|j=1,...,d} (4)
xj=max{pi(j)|i=1,...,s+n-1} (5)
其中,max{·}表示求最大值,pi(j)表示pi中的第j个元素,R表示实数集合,xj表示所有pi中第j个元素的最大值pi使用公式(3)来计算。
5、用于处理问句特征的多级蕴涵卷积神经网络
即步骤S3中,计算基于多级蕴涵卷积神经网络的问句q与语义关系r的相似度需要使用的标准卷积神经网络。
具体的,多级蕴涵卷积神经网络的处理过程包括:
使用一个多级蕴涵卷积神经网络MI_CNN,根据问句对所要匹配关系成份的蕴涵度,分别生成问句的不同语义向量。本发明的多级蕴涵卷积神经网络MI_CNN与标准卷积神经网络S_CNN二者具有相同的输入层和卷积层,并共享神经网络卷积权重W,MI_CNN与S_CNN的区别在于:MI_CNN通过注意力根据问句对所要匹配的关系成份向量的蕴涵度分别进行最大池化,而不是直接进行逐行最大池化。根据关系结构三种不同的结构成份,MI_CNN具有三级池化过程,每一级的池化过程类似,以下进行更具体的说明:
步骤3.2.1和步骤3.2.2分别采用与步骤3.1.1和3.1.2相同的方法处理关系成份中的概念类型、主题与媒体类型的语义特征,得到相对应的关系成份语义向量vr1、vr2与vr3;
3.2.3根据语义向量vr1、vr2与vr3,采用多级蕴涵卷积神经网络MI_CNN的三级池化过程,分别输出与关系成份概念类型、主题与媒体类型相对应的问句语义向量vq1、vq2与vq3:
(1)设Fq∈Rd×(s+n-1)表示问句q经MI_CNN卷积层处理后生成的n-gram特征矩阵,o为问句q所要匹配的关系成份,vo∈Rd表示经S_CNN处理得到的关系成份o的语义向量,MI_CNN的每一级池化过程首先计算Fq中每一列与vo的余弦相似度ui,并将其中的最大值作为问句q对关系成份o的蕴涵度,记作计算过程如下:
Fq={pi∈Rd|i=1,...,s+n-1} (6)
pi={tji∈R|j=1,...,d} (7)
ui=cos(vo,pi) (9)
其中,tji为第i个n-gram特征的语义向量pi的第j维度上的值。
F′q={p′i∈Rd|i=1,...,s+n-1} (11)
p′i={t′ji∈R|j=1,...,d} (12)
(3)根据衰减后特征矩阵F′q中每一行最大值的位置检索特征矩阵Fq,得到Fq每一行的池化结果,并最终得到每一级池化后问句q的语义向量vq∈Rd,计算过程如下:
vq={qj∈R|j=1,...,d} (14)
qj=pk′(j) (15)
k′=argmax{p′k(j)|k=1,...,s+n-1} (16)
其中,argmax{p′k(j)|k=1,...,s+n-1}表示求使得p′k(j)为最大值的k,qj表示vq向量的第j个元素,p′k(j)表示p′k的第j个元素。
对三种不同的结构成份按照上述过程分别进行计算输出,得到概念类型、主题与媒体类型的语义向量vq1、vq2与vq3。
6、问句与概念关系对相似度计算
问句与概念关系对相似度计算需要依据三个参数,包括:基于字表面的问句q与候选概念c的相似度、基于标准卷积神经网络的概念提及m与候选概念c之间的相似度、基于多级蕴涵卷积神经网络的问句q与语义关系r的相似度,以下详细说明计算过程:
(1)按照公式(1)和(2)计算基于字表面的问句q与候选概念c的相似度,记作sim(q,c);
(2)使用步骤3.1.1-3.1.3分别处理候选概念c及其在用户问句q中对应的概念提及m,分别得到输出语义向量vc与vm,并使用如下的向量余弦公式计算基于标准卷积神经网络的概念提及m与候选概念c之间的相似度:
(3)使用步骤3.1.1-3.1.3分别处理关系成份中的概念类型、主题与媒体类型,得到输出语义向量vr1、vr2与vr3;然后使用步骤3.2.1-3.2.3分别处理关系成份r中的概念类型、主题与媒体类型,分别得到问句q的不同语义向量vq1、vq2与vq3,然后按照下述步骤计算基于多级蕴涵卷积神经网络的问句q与语义关系r的相似度:
3.3.1分别计算问句q与不同关系成份r的相似度,分别记作sim(vq1,vr1)、sim(vq2,vr2)与sim(vq3,vr3):
3.3.2计算问句q与语义关系r的相似度sim(q,r):
(4)计算问句q与候选概念c的概念关系对t(c,r)的相似度sim(q,t(c,r)):
sim(q,t(c,r))=sim(q,c)+sim(c,m)+sim(g,r) (20)
sim(q,c)由公式(1)获得,sim(c,m)由公式(17)计算,sim(q,r)由公式(19)计算。
7、步骤S4中,取sim(q,t(c,r))最大的概念关系对t(c’,r’)作为答案知识源。
8、卷积神经网络模型训练
本发明的多级蕴涵卷积神经网络MI_CNN与标准卷积神经网络S_CNN二者共享权重,并以端到端的方式共同训练输入层汉字的词嵌入向量与卷积层的卷积权重W,模型训练设置如下:
(1)对于在训练集中的任意用户问句q,将所标注用于提供答案的概念关系对作为q所期望概念关系对的正样本,记作t+,将q在领域本体中所有候选概念的其他概念关系对作为负样本,记作t-,并且对于任意用户问句q随机选取NG个负样本,NG∈[1,100];
(2)使用公式(20)分别计算问句q与正样本t+及与负样本t-的相似度,分别记作sim(q,t+)和sim(q,t-);
(3)本发明对S_CNN与MI_CNN卷积神经网络模型的训练目标是最小化如下相似度排名损失:
其中,δ为补偿因子常量,并且δ∈[0,1)。
即训练W使得l(q,t+,t-)获得最小值。
Claims (10)
1.一种基于知识图谱和神经网络的智能答疑方法,其特征在于包括以下步骤:
S1.使用用户问句q中的每个汉字,检索领域本体中包含该汉字的概念,形成用户问句q指向领域本体的候选概念集合ConSet;
S2.通过候选概念集合ConSet及其与问句q基于字表面的相似度,自动识别用户问句q中的概念提及,形成用户问句q指向领域本体排名前N的候选概念集合TOP(N),以及在问句q中相对应的概念提及集合M(N);
S3.从概念提及集合M(N)中选择一个概念提及m,逐一检索m在TOP(N)中对应候选概念c的每一个形如t(c,r)的概念关系对,通过基于字表面的问句q与候选概念c的相似度sim(q,c)、基于标准卷积神经网络的概念提及m与候选概念c之间的相似度sim(c,m)、基于多级蕴涵卷积神经网络的问句q与语义关系r的相似度sim(q,r),计算得出用户问句q与候选概念c的所有概念关系对的相似度;
S4.重复步骤S3,直至集合M(N)中的每个概念提及被处理完毕,并将通过步骤S3得到的与用户问句q相似度值最大的概念关系对t(c’,r’)作为答案知识源;
S5.在学科知识图谱的关系记录库中查询概念关系对t(c’,r’),得到用户问句q的答案并呈现给用户。
2.根据权利要求1所述的基于知识图谱和神经网络的智能答疑方法,其特征在于:
所述的知识图谱是指答疑领域所在学科的知识图谱,包括反映概念间联系的语义关系,以及反映概念与多媒体知识或事实性知识之间联系的属性关系;
所述学科知识图谱的关系定义为由斜扛分隔的三元组:概念类型/主题/媒体类型;
所述概念类型用于给出关系的定义域,所述主题用于解释关系的含义,所述媒体类型用于给出关系定义域的媒体类别。
3.根据权利要求1所述的基于知识图谱和神经网络的智能答疑方法,其特征在于:
所述步骤S2包括如下子步骤:
2.1计算ConSet中的每一个候选概念c与用户问句q的最长连续公共子序列LCCS(c,q):
LCCS(c,q)=Ui≤|c|{s(i)∈c∩q|s(i)是s(i-1)在c中的后继}
2.2通过最长连续公共子序列LCCS(c,q),计算在ConSet中的每一个候选概念c与用户问句q的基于字表面的相似度sim(q,c):
保留相似度排名前N的候选概念,形成用户问句q在领域本体排名前N的候选概念集合TOP(N);
2.3对于集合TOP(N)中的每一个候选概念c与用户问句q的最长连续公共子序列LCCS(c,q),按如下方法进行扩展,形成用户问句q的N个概念提及集合M(N):如果LCCS(c,q)与对应的候选概念c的长度相同,则c就是用户问句q的一个概念提及;如果c比其LCCS(c,q)更长并且在左边有L1个汉字,或c比LCCS(c,q)更长并且在右边有L2个汉字,则在问句q中逐字扩展LCCS(c,q)左侧L1个汉字或右侧L2个汉字,直到在问句q中出现c的左边界字或右边界字为止,此时扩展后的LCCS(c,q)就是c在q中对应的概念提及;所述用户问句q的一个概念提及是指q中可能包含的一个提问概念。
4.根据权利要求1所述的基于知识图谱和神经网络的智能答疑方法,其特征在于:
所述步骤S3中,标准神经网络的处理过程包括:
3.1.1使用标准卷积神经网络S_CNN的输入层来统一处理文本片段,形成文本片段的输入特征矩阵,所述文本片段包括概念提及、领域本体中的候选概念,以及关系成份中的概念类型、主题与媒体类型;
3.1.2 S_CNN通过卷积层从所述文本片段中提取n-grams特征,产生n-gram特征的语义向量;
3.1.2将所有的n-gram特征的语义向量通过逐行最大池化输出所述文本片段的语义向量,包括领域本体中的候选概念、概念提及、概念类型、主题与媒体类型的语义向量vc、vm、vr1、vr2与vr3。
5.根据权利要求4所述的基于知识图谱和神经网络的智能答疑方法,其特征在于:
所述步骤3.1.1包括:S_CNN的输入层将长度为s个汉字的输入序列x转换为维度为d×s的实数特征矩阵,其中d表示每个汉字随机初始化的实数嵌入向量的维数,且所述实数特征矩阵等价于s个维度为d的向量序列:v1,v2,…,vs;
所述步骤3.1.2包括:S_CNN通过一个卷积层从滑动的n-gram中进行语义向量学习,对于长度为s个汉字的输入序列x:v1,v2,…,vs,令向量ci∈Rnd表示如下n个汉字嵌入向量的联接嵌入:vi-n+1,...,vi,其中n为卷积滑动过滤器filter的宽度,Rnd表示维度为n*d的实数向量集合,i为n-gram在输入序列x中的结束位置,且有0<i<s+n,以及对于i<1或i>s的嵌入向量vi使用零值填充;卷积层使用卷积权重W∈Rd×nd为n-gram的向量序列vi-n+1,...,vi产生一个n-gram特征的语义向量pi∈Rd,计算公式如下:
pi=tanh(W·ci+b)
其中,偏置b∈Rd,Rd表示维度为d的实数向量集合,Rd×nd表示维度为d行、n*d列的实数矩阵集合,tanh(·)为双曲正切函数;
所述步骤3.1.3包括:将所有n-gram特征的语义向量pi(i=1,...,s+n-1),通过最大池化生成输入序列x的语义向量vx∈Rd,计算公式如下:
vx={xj∈R|j=1,...,d}
xj=max{pi(j)|i=1,...,s+n-1}
其中,max{·}表示求最大值,pi(j)表示pi中的第j个元素,R表示实数集合,xj表示所有pi中第j个元素的最大值。
7.根据权利要求5所述的基于知识图谱和神经网络的智能答疑方法,其特征在于:
所述步骤S3中,多级蕴涵卷积神经网络MI_CNN的处理过程包括:
步骤3.2.1和步骤3.2.2分别采用与步骤3.1.1和3.1.2相同的方法处理关系成份中的概念类型、主题与媒体类型的语义特征,得到相对应的关系成份语义向量vr1、vr2与vr3;
3.2.3根据语义向量vr1、vr2与vr3,采用多级蕴涵卷积神经网络MI_CNN的三级池化过程,分别输出与关系成份概念类型、主题与媒体类型相对应的问句语义向量vq1、vq2与vq3:
(1)设Fq∈Rd×(s+n-1)表示问句q经MI_CNN卷积层处理后生成的n-gram特征矩阵,o为问句q所要匹配的关系成份,vo∈Rd表示经S_CNN处理得到的关系成份o的语义向量,MI_CNN的每一级池化过程首先计算Fq中每一列与vo的余弦相似度ui,并将其中的最大值作为问句q对关系成份o的蕴涵度,记作计算过程如下:
Fq={pi∈Rd|i=1,...,s+n-1}
pi={tji∈R|j=1,...,d}
ui=cos(vo,pi)
其中,tji为第i个n-gram特征的语义向量pi的第j维度上的值;
F′q={p′i∈Rd|i=1,...,s+n-1}
p′i={t′ji∈R|j=1,...,d}
其中,p′i表示衰减后的pi向量,t′ji表示p′i向量的第j维度上的值;
(3)根据衰减后特征矩阵F′q中每一行最大值的位置检索特征矩阵Fq,得到Fq每一行的池化结果,并最终得到每一级池化后问句q的语义向量vq∈Rd,计算过程如下:
vq={qj∈R|j=1,...,d}
qj=pk′(j)
k′=argmax{p′k(j)|k=1,...,s+n-1}
其中,argmax{p′k(j)|k=1,...,s+n-1}表示求使得p'k(j)为最大值的k,qj表示vq向量的第j个元素,p′k(j)表示p′k的第j个元素。
9.根据权利要求1所述的基于知识图谱和神经网络的智能答疑方法,其特征在于:
所述步骤S3中,用户问句q与候选概念c的概念关系对t(c,r)的相似度sim(q,t(c,r))计算方法为:
sim(q,t(c,r))=sim(q,c)+sim(c,m)+sim(q,r)。
10.根据权利要求9所述的基于知识图谱和神经网络的智能答疑方法,其特征在于:
多级蕴涵卷积神经网络MI_CNN与标准卷积神经网络S_CNN共享权重,并以端到端的方式共同训练输入层汉字的词嵌入向量与卷积层的卷积权重W,模型训练设置如下:
(1)对于在训练集中的任意用户问句q,将所标注用于提供答案的概念关系对作为q所期望概念关系对的正样本,记作t+,将q在领域本体中所有候选概念的其他概念关系对作为负样本,记作t-,并且对于任意用户问句q随机选取NG个负样本,NG∈[1,100];
(2)分别计算问句q与正样本t+及与负样本t-的相似度,分别记作sim(q,t+)和sim(q,t-);
(3)对S_CNN与MI_CNN卷积神经网络模型的训练目标是最小化如下相似度排名损失:
其中,δ为补偿因子常量,并且δ∈[0,1)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010083679.0A CN111324709B (zh) | 2020-02-10 | 2020-02-10 | 基于学科知识图谱和卷积神经网络的智能答疑方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010083679.0A CN111324709B (zh) | 2020-02-10 | 2020-02-10 | 基于学科知识图谱和卷积神经网络的智能答疑方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111324709A true CN111324709A (zh) | 2020-06-23 |
CN111324709B CN111324709B (zh) | 2021-08-13 |
Family
ID=71165164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010083679.0A Active CN111324709B (zh) | 2020-02-10 | 2020-02-10 | 基于学科知识图谱和卷积神经网络的智能答疑方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111324709B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112580370A (zh) * | 2020-12-24 | 2021-03-30 | 内蒙古工业大学 | 一种融合语义知识的蒙汉神经机器翻译方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150382A (zh) * | 2013-03-14 | 2013-06-12 | 中国科学院计算技术研究所 | 基于开放知识库的短文本语义概念自动化扩展方法及系统 |
US20160180217A1 (en) * | 2014-12-18 | 2016-06-23 | Nuance Communications, Inc. | Question answering with entailment analysis |
CN108509519A (zh) * | 2018-03-09 | 2018-09-07 | 北京邮电大学 | 基于深度学习的通用知识图谱增强问答交互系统及方法 |
CN108763284A (zh) * | 2018-04-13 | 2018-11-06 | 华南理工大学 | 一种基于深度学习和主题模型的问答系统实现方法 |
CN109271506A (zh) * | 2018-11-29 | 2019-01-25 | 武汉大学 | 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法 |
CN109766546A (zh) * | 2018-12-25 | 2019-05-17 | 华东师范大学 | 一种基于神经网络的自然语言推理方法 |
CN109766417A (zh) * | 2018-11-30 | 2019-05-17 | 浙江大学 | 一种基于知识图谱的文学编年史问答系统的构建方法 |
CN110019839A (zh) * | 2018-01-03 | 2019-07-16 | 中国科学院计算技术研究所 | 基于神经网络和远程监督的医学知识图谱构建方法和系统 |
US20190392066A1 (en) * | 2018-06-26 | 2019-12-26 | Adobe Inc. | Semantic Analysis-Based Query Result Retrieval for Natural Language Procedural Queries |
CN110737763A (zh) * | 2019-10-18 | 2020-01-31 | 成都华律网络服务有限公司 | 一种融合知识图谱和深度学习的中文智能问答系统及方法 |
-
2020
- 2020-02-10 CN CN202010083679.0A patent/CN111324709B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150382A (zh) * | 2013-03-14 | 2013-06-12 | 中国科学院计算技术研究所 | 基于开放知识库的短文本语义概念自动化扩展方法及系统 |
US20160180217A1 (en) * | 2014-12-18 | 2016-06-23 | Nuance Communications, Inc. | Question answering with entailment analysis |
CN110019839A (zh) * | 2018-01-03 | 2019-07-16 | 中国科学院计算技术研究所 | 基于神经网络和远程监督的医学知识图谱构建方法和系统 |
CN108509519A (zh) * | 2018-03-09 | 2018-09-07 | 北京邮电大学 | 基于深度学习的通用知识图谱增强问答交互系统及方法 |
CN108763284A (zh) * | 2018-04-13 | 2018-11-06 | 华南理工大学 | 一种基于深度学习和主题模型的问答系统实现方法 |
US20190392066A1 (en) * | 2018-06-26 | 2019-12-26 | Adobe Inc. | Semantic Analysis-Based Query Result Retrieval for Natural Language Procedural Queries |
CN109271506A (zh) * | 2018-11-29 | 2019-01-25 | 武汉大学 | 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法 |
CN109766417A (zh) * | 2018-11-30 | 2019-05-17 | 浙江大学 | 一种基于知识图谱的文学编年史问答系统的构建方法 |
CN109766546A (zh) * | 2018-12-25 | 2019-05-17 | 华东师范大学 | 一种基于神经网络的自然语言推理方法 |
CN110737763A (zh) * | 2019-10-18 | 2020-01-31 | 成都华律网络服务有限公司 | 一种融合知识图谱和深度学习的中文智能问答系统及方法 |
Non-Patent Citations (2)
Title |
---|
ANNERVAZ KM: "Learning beyond datasets:Knowledge Graph Augmented Neural Networks for Natural language Processing", 《ARXIV》 * |
胡婕等: "基于深度学习的领域问答系统的设计与实现", 《成都信息工程大学学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112580370A (zh) * | 2020-12-24 | 2021-03-30 | 内蒙古工业大学 | 一种融合语义知识的蒙汉神经机器翻译方法 |
CN112580370B (zh) * | 2020-12-24 | 2023-09-26 | 内蒙古工业大学 | 一种融合语义知识的蒙汉神经机器翻译方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111324709B (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8332394B2 (en) | System and method for providing question and answers with deferred type evaluation | |
Deepak et al. | OntoQuest: an ontological strategy for automatic question generation for e-assessment using static and dynamic knowledge | |
CN111143672B (zh) | 基于知识图谱的专业特长学者推荐方法 | |
Gracia et al. | Querying the web: A multiontology disambiguation method | |
Cheng et al. | Image inspired poetry generation in xiaoice | |
Simon | Artificial Intelligence Systems That Understand. | |
Santhanavijayan et al. | Automatic generation of multiple choice questions for e-assessment | |
Do et al. | Some Techniques for Intelligent Searching on Ontology-based Knowledge Domain in e-Learning. | |
Atapattu et al. | Automated extraction of semantic concepts from semi-structured data: Supporting computer-based education through the analysis of lecture notes | |
CN111324709B (zh) | 基于学科知识图谱和卷积神经网络的智能答疑方法 | |
Goulart | Register variation in L1 and L2 student writing: A multidimensional analysis | |
Almotairi et al. | Developing a Semantic Question Answering System for E-Learning Environments Using Linguistic Resources. | |
Graham | Investigating Google’s Search Engine: Ethics, Algorithms, and the Machines Built to Read Us | |
Reddy et al. | A novel approach for similarity and indexing-based ontology for semantic web educational system | |
Aguiar et al. | Towards technological approaches for concept maps mining from text | |
Singh et al. | Computer Application for Assessing Subjective Answers using AI | |
ALMUAYQIL et al. | Towards an Ontology-Based Fully Integrated System for Student E-Assessment | |
Abbas | Smoothing the information seeking path: Removing representational obstacles in the middle school digital library environment | |
Almotairi et al. | A review on question answering systems: domains, modules, techniques and challenges | |
Abdoune et al. | Disciplinary e-tutoring based on the domain ontology ONTO-TDM | |
Yu | [Retracted] PageRank Topic Finder based Algorithm for Multimedia Resources in Preschool Education | |
Yuan et al. | Robustness analysis on natural language processing based AI Q&A robots | |
Amin | Building Intelligent Semantic Educational System (ISES) Based on Ontology and Semantic Web Mining | |
US12001805B2 (en) | Explainable natural language understanding platform | |
Bali et al. | A Study on Components, Benchmark Criteria and Techniques used in Ontology-based Question Answering Systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220124 Address after: 200433 room 701B-1, 18 Guo Bin Road, Yangpu District, Shanghai. Patentee after: SHANGHAI HENGQI EDUCATION AND TRAINING CO.,LTD. Address before: 541004 No. 15 Yucai Road, Qixing District, Guilin, the Guangxi Zhuang Autonomous Region Patentee before: Guangxi Normal University |
|
TR01 | Transfer of patent right |