CN116629361A - 基于本体学习和注意力机制的知识推理方法 - Google Patents
基于本体学习和注意力机制的知识推理方法 Download PDFInfo
- Publication number
- CN116629361A CN116629361A CN202310224363.2A CN202310224363A CN116629361A CN 116629361 A CN116629361 A CN 116629361A CN 202310224363 A CN202310224363 A CN 202310224363A CN 116629361 A CN116629361 A CN 116629361A
- Authority
- CN
- China
- Prior art keywords
- sequence
- ontology
- model
- vector
- decoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000013598 vector Substances 0.000 claims description 85
- 238000012549 training Methods 0.000 claims description 30
- 239000011159 matrix material Substances 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 238000009826 distribution Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000005295 random walk Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 238000005065 mining Methods 0.000 claims description 4
- 230000000873 masking effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 208000000044 Amnesia Diseases 0.000 claims description 2
- 208000026139 Memory disease Diseases 0.000 claims description 2
- 238000013461 design Methods 0.000 claims description 2
- 230000006984 memory degeneration Effects 0.000 claims description 2
- 208000023060 memory loss Diseases 0.000 claims description 2
- 125000004122 cyclic group Chemical group 0.000 claims 1
- 230000007787 long-term memory Effects 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于本体学习和注意力机制的知识推理方法,以本体作为语义网形式化的知识表示,对本体进行表示学习,从而进行知识推理,本方法适用于优化大型复杂结构本体的知识推理效率,通过挖掘本体中结构和语义的信息,将本体中的概念嵌入到向量空间,使用唯一向量来表示该概念,更好地表示概念之间的关系,应用于下游任务,并且基于推理规则,根据注意力机制,建立适用于序列预测的神经网络模型,充分学习推理成功的序列特性,针对需求中的概念集合,预测出可行的推理路径,针对一些较为困难、传统算法复杂度较高的推理问题。
Description
技术领域
本发明属于人工智能中的语义网和机器学习交叉领域,具体涉及一种基于本体学习和注意力机制的知识推理方法。
背景技术
在语义网中,本体(Ontology)作为知识的形式化表示发挥着重要作用。本体为不同领域提供的共享数据源,便于提供给计算机处理Web信息。OWL(Web Ontology Language)网络本体语言于2004年2月成为一项W3C的推荐标准。OWL DL作为其中一种子语言,在描述逻辑(Description Logics,DL)语言中具有语义等价性,与一阶谓词逻辑中能够确定的子语言相对应。一个本体通常由ABox和TBox组成,ABox由一组描述实体之间关系的公理组成,TBox是由一组描述概念和属性的公理组成,如包含关系。DL有两个重要特性:可以确定(decidable),即具有在有限时间内可终止的推理机制;且这个推理系统能够保证计算的完全性(computational completeness),即所有的结论都能够保证被计算出来。OWL DL提供了描述逻辑的推理功能,具有良好的计算性质,满足较强表达力的推理需求,为语义网提供逻辑推理。
本体中的推理算法,可以从整体去推理出细节隐藏的知识,其中需要遗忘,即删除部分知识。与自然语言不同的是,推理算法处理的是数据离散型的逻辑语言,且要求正确性。算法复杂度很高,很多问题都是ExpTime-complete之上,甚至是不可解的。模型的评估方式是对于大型的OWL本体,需求给出进行推理的概念集合,模型生成推理序列,经过推理验算得到是否成功推理的结果。其中推理失败的原因有:超出时间或者计算机算力限制,以及概念集合无论以怎样的序列组合方式都无法产生解。传统的算法可通过遍历每一种序列,直到找到解为止,时间复杂度为O(n!),在n较大时显然不适用。所以推理问题本身较为困难,复杂度较高,推理本身的效率成为能否把推理技术应用到实际问题上去的关键。本发明提出结合机器学习的表示学习以及模型辅助推理决策,去优化推理效率问题,有助于推动知识驱动的人工智能和数据驱动的人工智能一样广泛应用在各个领域。
随着语义网的发展,互联网上出现了海量语义数据。在信息检索方面,为提高搜索质量,Google公司于2012年构建知识图谱(Knowledge Graph),此后百度、阿里等公司相继加入。海量的语义数据极大地推动了语义网的实现,使得语义网在各个领域有更广泛的应用。OWL本体表达力要强于知识图谱,受到知识图谱成功嵌入的启发,本体的表示学习也愈发被研究人员关注。本体学习是信息提取的一个子任务,目标是自动或者半自动地从给定的语料库或者数据源中提取上述概念、关系或者公理以构建本体。本体学习的数据源可以是结构化数据如数据库,或者是半结构化数据如XML,也可以是非结构化数据如文本。Jiaoyan Chen等人提出一种基于随机游走和词嵌入的本体嵌入方法(OWL2Vec*)。此方法考虑了OWL本体的图结构、文本信息和逻辑结构来表征本体的语义,将本体中的概念和公理等表示为向量空间中的一组向量,从而可以被下游的机器学习预测任务所利用。
在自然语言处理中,Transformer模型是一种广泛用于序列预测的神经网络架构,适合处理长序列数据。其中注意力机制用于计算输入序列中每个元素对输出的影响。模型使用的是多头注意力机制,这种机制允许模型从多个不同的角度同时查看输入序列,从而更好地捕捉序列之间的关系。不仅如此,注意力机制通过计算输入序列中每个元素与输出的相关性来实现。每个注意力机制都包含一个查询向量,用于表示输出,和一个键值对,用于表示输入序列。注意力机制会计算查询向量与每个键向量之间的相似性,并使用这些相似性来计算加权平均值,从而得到输出。注意力机制通常用于编码器和解码器的层之间的信息传递。在编码器层中,注意力机制可以帮助提取序列中的高级特征;在解码器层中,注意力机制可以帮助解码器查找和解码器输入相关的信息。
发明内容
本发明目的是提供一种OWL本体中基于描述逻辑的推理序列预测方法,该方法通过本体学习技术对OWL本体进行表示,把概念嵌入到向量空间中,得到矢量空间中本体的每个概念的表示,对于已给出的大型概念集合,通过注意力机制预测生成推理序列,以达到提高推理效率的目的。
为达到上述目的,本发明的技术方案如下:
基于本体学习和注意力机制的知识推理方法,包括以下步骤:
(1)从本体中提取语料库,将原始的OWL本体转化成由RDF三元组组成的图G;
(2)对图G进行随机游走,构建结构文档。随机游走中每次游走生成的实体IRI序列,组成了结构文档中的句子;
(3)根据步骤(2)中结构文档里生成的实体IRI,以及从本体的相关文本注释中提取的两部分中构建词文档;
(4)从步骤(2)(3)结构文档和词文档中提取一个组合文档用来保留实体和词信息之间的相关性,并且将结构文档、词文档、组合文档合并成语料库;
(5)将语料库中出现的每一个实体进行One-hot编码输入Skip-gram模型学习得到嵌入向量;
(6)本体利用推理规则进行采样,在给定的概念元素的概念集合F中,随机选择概念元素进行推理,推理成功的序列则加入已采样序列的数据集;
(7)已采样序列样本分成有序的两部分,第一部分是训练序列,第二部分是标签序列。训练序列中的每个概念元素经过步骤(5)模型输出唯一标识该概念元素的向量,最后进行拼接,还原成序列,得到序列的向量表示;
(8)将数据集打散,划分训练集和验证集;
(9)基于注意力机制构建序列预测模型,主要由输入层、编码层、解码器、输出层构成;
(10)模型训练,将输入的推理序列转换成嵌入向量,使用编码器进行编码,解码器进行解码,对于解码器的每个输出,经过全连接层和Softmax函数,将其转成序列。对比目标序列,序列交叉熵计算损失,通过反向传播更新参数;
(11)训练完成之后,通过滑动窗口进行预测。每次选择一定步长的序列通过序列预测模型进行多步预测,模型的输出作为下一次预测的输入,迭代该过程直到预测的推理序列长度大于等于概念集合大小;
(12)模型预测的推理序列经过推理器验算得到推理结果。
进一步,所述步骤(1)中将本体/>中给定的概念集合表示为F,/>是/>在F上进行遗忘推理的结果,其中F中进行推理的n个概念Ci集合表示为F={C1,C1,...,Cn}。为探索本体结构,将原始的OWL本体/>转化成由RDF三元组组成的图G。
进一步,所述步骤(2)中为了探索本体的图结构和逻辑结构,使用随机游走的方法,在三元组图中提取出结构文档。在图G上随机游走,重复一定的次数,每次游走后得出一个概率分布,该概率分布刻画了图中每一个顶点被访问到的概率。此概率分布作为下一次游走的输入并反复迭代这一过程直到收敛。其中每次游走都是实体IRI序列,游走的序列生成了结构文档中的句子。
进一步,所述步骤(3)中根据生成的结构文档中句子里的实体IRI,以及OWL本体中相关文本注释里提取词汇文档。
进一步,所述步骤(4)中根据生成的结构文档和实体注释中提取出组合文档。词文档和组合文档是以结构文档为核心,结合了本体中的各种词汇信息来构建的,这些文档挖掘了本体中的词汇信息、图结构、逻辑结构以及它们的组合特征,捕捉本体语义信息,将这些文档进行合并就生成了该本体的语料库。
进一步,所述步骤(5)中根据从本体中提取到的语料库,对于其中出现每一个实体,进行One-hot编码,输入Skip-gram模型。将语句分割成若干个窗口,每个窗口包含中心词和它的上下文。在每个窗口中,使用目标单词的嵌入向量和线性转换矩阵计算中间向量,再用偏置向量和中间向量计算周围单词的预测概率,并用周围单词的实际概率和预测概率计算损失。反向传播算法优化模型参数,在每一轮迭代中,计算单词嵌入矩阵、线性转换矩阵和偏置向量的梯度,使用梯度下降算法更新模型参数。重复以上步骤,直到损失函数值低于阈值结束。训练结束,词大小参数设置为1,这样可保证每个出现在文档中的实体都可以被嵌入编码。
进一步,所述步骤(6)中根据本体的推理规则,本体进行推理序列采样。采样的序列长度表示为l,且l<<n,在给定的概念集合F中,随机选择l个概念集合F中的概念元素进行推理,生成s个已采样序列。
进一步,所述步骤(7)中对于每个已经采样好的序列,将长度为l的序列分成有序的两部分L1:C1,C1,...,Ck,L2:Ck+1,...,Cl,其中L1表示为长度为k的训练序列,L2表示为长度为l-k的标签序列。L1中每个概念元素经过Skip-gram模型输出进行拼接,还原成序列,得到序列的向量表示。生成维度为s·mk的数据集,其中m代表嵌入向量embedding的维度。
进一步,所述步骤(8)中将数据集shuffle打散,划分训练集和验证集。
进一步,所述步骤(9)中构建的序列预测模型需要对于推理规则进行学习,参考AEDKRM模型引入注意力机制,每个注意力机制都包含一个查询向量Q,用于表示输出,和一个键值对(K,V),用于表示输入序列。注意力机制会计算查询向量与每个键向量之间的相似性,并使用这些相似性来计算加权平均值,从而得到输出:
模型主要由以下几个部分组成:
输入层:将输入序列中的每个元素表示为一个向量;
编码器:通过多个编码器来提取序列中的高级特征。编码器的每个输入的embedding与权重矩阵相乘得到K、Q、V,计算QKT注意力得分,将得分分别除以一个特定数值(K向量的维度的平方根),让梯度更加稳定,进行Softmax运算,乘以V,加权得到Self-attention值。为了扩展了模型关注不同位置的能力,引入多头注意力机制,即输入和多个多个权重矩阵相乘,进行上述Self-attention计算,将结果拼接成一个矩阵,进行前向传播计算;
解码器:通过解码器来对输入序列进行预测。和编码器相同,解码器也有多头注意力机制,可以帮助解码器查找和解码器输入相关的信息。不同的是,解码器是多头注意力机制存在掩码,用于隐藏未来的信息。编码器-解码器注意力部分的K,Q,V三个向量中:Q是解码器的属性,K,V是编码器端最后的输出。这样编码器可以捕捉编码器的输出信息。训练时解码器的输出作为下一个输入,并继续迭代这个过程直到解码器生成特殊的结束标记或者达到最大序列长度,然后使用输出层将解码器的输出转换为最终预测序列;
输出层:通过线性层,即一个全连接神经网络,再经过Softmax函数来将输出转换为概率分布,将产生的向量投影到一个更高维度的向量上,其中每个元素表示为下一个输入序列中的一个特定元素的概率。
进一步,所述步骤(10)中根据已构建好的模型进行模型训练,具体步骤:
1)序列向量化,将长度为k的输入序列转换为长度为mk的嵌入向量;
2)使用编码器对输入序列进行编码,对每个词向量embedding与多个权重矩阵相乘,得到K、Q、V矩阵,Q和K做点积得到注意力得分,将注意力得分分别除以K向量的维度的平方根,一般是8,让梯度更加稳定,通过Softmax函数运算,最后和V相乘,加权求得Self-attention值,将所有结果拼接成一个矩阵,与权重矩阵相乘,将多头注意力机制的结果压缩成一个矩阵,作为前馈神经网络的输入;
3)一个起始的token输入解码器,通过掩码多头注意力层、编码器-解码器注意力层、全连接层输出得到这个token的表示。每一步解码器都只解码一个词,输出的词放入解码器,重复上述操作直到解码到结束符为止;
4)对于每个输出,经一个全连接层和Softmax,将其转换为l-k个概率分布,每个预测的概率分布对应词汇表n个类别,一个输出的样本维度表示为n·(l-k);
5)通过反向传播算法来更新模型参数,并且对比真实的目标序列计算损失函数,损失函数改进交叉熵,一个样本序列的损失计算为每个交叉熵损失的均值,则所有样本的损失函数表示为:
其中,n为类别数量;M为训练样本序列数量;yic为符号函数,如果样本i的真实类别等于c取1,否则取0;pic为观测样本i属于类别c的预测概率。
进一步,所述步骤(11)中根据训练完成的模型对于推理序列进行预测。采用滑动窗口预测,即每次选择一定步长的序列进行多步预测,模型的输出作为下一次预测的输入,并继续迭代此过程直到达到需求中的最大序列长度,即预测的序列长度≥n,生成最终预测序列。
进一步,所述步骤(12)中根据预测生成的推理序列,经过OWL本体推理验算得到判断是否推理成功。
本发明的有益效果为:
(1)传统的推理算法以探索本体结构,进行严谨的推理为主。与自然语言不同的是,推理算法处理的是数据离散型的逻辑语言,且要求正确性,算法的复杂度较高。例如本任务中,传统算法通过遍历每一种序列,直到找到解为止,时间复杂度为O(n!),显然不适用于n较大的情形,即待推理的集合较大的情况。本发明提出的结合机器学习的方法可以提升推理效率,恰好适合给定需求中概念集合较大、本体结构复杂的情形。
(2)本体嵌入方面,OWL2Vec*模型能够很好的通过挖掘本体中结构和语义的信息,将本体中的概念嵌入到向量空间,使用唯一向量来表征该概念,应用于下游任务。模型除了在论文中测试过的类成员预测、类包含预测任务取得较好的效果之外,而且能够较好地表征类之间的关系,便于对于后续的研究。
(3)给基于OWL本体的推理问题一些解决思路,即可以通过结合机器学习的方法,来辅助推理进行决策,优化推理效率,有助于推动知识驱动的人工智能,使其和数据驱动的人工智能一样,广泛应用在各个领域。
附图说明
图1本发明的主要流程图;
图2为本发明本体嵌入模块OWL2Vec*算法流程图;
图3为本发明AEDKRM模型结构图;
图4为本发明AEDKRM模型中编码器具体示意图;
图5为本发明AEDKRM模型中解码器具体示意图;
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
本发明所述的基于本体学习和注意力机制的知识推理方法,在给定本体以及概念集合的情况下,给出概念的推理路径。该方法不需要大量的搜索计算,消耗算力和时间,而是通过模型学习推理规则,进而预测出推理的序列。
基于本体学习和注意力机制的知识推理方法,如图1所示,具体包括以下步骤:
(1)根据定义:给定本体/>和/> 表示/>中出现的符号(包括概念),F表示/>的子集。如果以下条件成立:
(i)且/>
(ii)对于任意的解释存在∑上等价于/>的解释/>当且仅当/>成立时成立。那么/>就是/>在∑上进行遗忘推理的结果。
本发明仅讨论概念推理,用F表示需要进行推理的n个概念Ci集合:
F={C1,C2,...,Cn}
在实际需求中,时常会面临给定的F集合较大,大型本体结构复杂,公理较多的情况。为了在集合F中得到一条成功的本体推理序列,进而得到在F上进行遗忘推理的结果O′,现挖掘本体的逻辑结构、词汇语义信息,提取本体语料库,先将原始的OWL本体/>转化成由RDF三元组组成的图G,如图2所示。
(2)生成RDF图G之后,对图进行随机游走,每次游走都会产生实体IRI序列,游走的序列生成了结构文档中的句子。首先把图G转成有向图G′,即对于图G的每个RDF三元组<X,r,Y>转成三个顶点主语X、谓语r、宾语Y,并且连接从顶点X到顶点r以及顶点r到顶点Y的单向边。随机游走,即从给定起始顶点出发,以1一p的概率游走到其邻接节点,以概率p重新选择起点进行游走,并将此操作重复一定的次数。每次游走后得出一个概率分布,该概率分布刻画了图G′中每一个顶点被访问到的概率。此概率分布作为下一次游走的输入并反复迭代这一过程直到收敛。
(3)构建词文档,其中包括(2)中结构文档句子生成的实体IRI,以及从本体的相关文本注释中提取两部分。词文档和结构文档旨在挖掘本体中的图结构、逻辑结构以及词汇信息。
(4)进一步从结构文档和实体注释中提取一个组合文档用来保留实体和词信息之间的相关性。对于结构文档来说,在句子中随机选择一个实体,保留实体IRI,然后用从其标签或IRI名称中提取的小写单词标记替换这个句子中的其他实体;或者对一个句子中的随机选择某一个实体用小写单词标记替换成其他实体,生成一个组合句子。将结构文档、词文档和组合文档合并,词文档和组合文档是以结构文档为核心,结合了本体中的各种词汇信息来构建的,这些文档挖掘了本体中的词汇信息、图结构、逻辑结构以及它们的组合特征,捕捉本体语义信息,将这些文档进行合并,生成该本体的语料库。
(5)对于其中出现每一个实体,进行One-hot编码,为避免维度灾难,得到更加稠密的向量,用Word2Vec学习得到实体的嵌入向量。Word2Vec是一种将词转为向量的方法,分成Skip-gram和CROW两种模型。Skip-gram模型是用中心词去预测中心词周围上下文的词,CBOW是用上下文去预测中心词。这里使用Skip-gram模型,通过中心词去预测周围的词,来表征该中心词,得到向量空间中的表示。
模型将语句分割成若干个窗口,每个窗口包含中心词和它的上下文。在训练之前,先初始化模型参数,包括单词嵌入矩阵、线性转换矩阵和偏置向量。在每个窗口中,使用目标单词的嵌入向量和线性转换矩阵计算中间向量,再用偏置向量和中间向量计算周围单词的预测概率,并用周围单词的实际概率和预测概率计算损失。反向传播算法优化模型参数,在每一轮迭代中,计算单词嵌入矩阵、线性转换矩阵和偏置向量的梯度,使用梯度下降算法更新模型参数。重复以上步骤,直到损失函数值趋于稳定或者低于阈值时结束。训练结束,词大小参数设置为1,这样可以保证每个出现在文档中的实体都可以被嵌入编码。
(6)根据(1)中的定义,本体利用推理规则进行采样。假设初始序列长度l(较小),且l<<n,在给定的概念集合F中,随机选择l个概念集合F中的概念元素进行推理,全部推理成功则加入已采样序列,假设生成s个已采样序列。
(7)将长度为l的序列分成有序的两部分L1:[C1,C1,...,Ck],L2:[Ck+1,...,Cl],其中L1表示为长度为k的训练序列,L2表示为长度为l-k的标签序列。L1中每个概念元素必定出现在(4)的合并文档中,所以经过(4)中的模型可以输出唯一标识该概念元素的向量,最后进行拼接,还原成序列,得到序列的向量表示。生成维度为s·mk的数据集,其中m代表嵌入向量embedding的维度。
(8)将数据集shuffle打散,根据合适的比例划分好训练集和验证集,构建序列预测模型。
(9)模型需要对于推理规则进行学习,并且对于较长序列,我们设计基于注意力机制的编码-解码推理模型AEDKRM,其引入的注意力机制可以更好解决长记忆丢失问题,适合处理长序列数据。注意力机制用于计算输入序列中每个元素对输出的影响。模型使用的是多头注意力机制,这种机制允许模型从多个不同的角度同时查看输入序列,从而更好地捕捉序列之间的关系。注意力机制通过计算输入序列中每个元素与输出的相关性来实现。每个注意力机制都包含一个查询向量Q,用于表示输出,和一个键值对(K,V),用于表示输入序列。注意力机制会计算查询向量与每个键向量之间的相似性,并使用这些相似性来计算加权平均值,从而得到输出:
在AEDKRM模型中,注意力机制用于编码器和解码器的层之间的信息传递。在编码器层中,注意力机制可以帮助提取序列中的高级特征;在解码器层中,注意力机制可以帮助解码器查找和解码器输入相关的信息。如图3所示,模型主要由以下几个部分组成:
输入层:通过(4)的模型将输入序列中的每个元素表示为一个向量;
编码器:通过多个编码器来提取序列中的高级特征。如图4所示,编码器的每个输入的embedding与权重矩阵相乘得到K、Q、V,计算QKT注意力得分,将得分分别除以一个特定数值(K向量的维度的平方根),让梯度更加稳定,进行Softmax运算,乘以V,加权得到Self-attention值。为了扩展了模型关注不同位置的能力,引入多头注意力机制,即输入和多个多个权重矩阵相乘,进行上述Self-attention计算,将结果拼接成一个矩阵,进行前向传播计算;
解码器:通过解码器来对输入序列进行预测。如图5所示,和编码器相同,解码器也有多头注意力机制,可以帮助解码器查找和解码器输入相关的信息。不同的是,解码器是多头注意力机制存在掩码,用于隐藏未来的信息。编码器-解码器注意力部分的K,Q,V三个向量中:Q是解码器的属性,K,V是编码器端最后的输出。这样编码器可以捕捉编码器的输出信息。训练时解码器的输出作为下一个输入,并继续迭代这个过程直到解码器生成特殊的结束标记或者达到最大序列长度,然后使用输出层将解码器的输出转换为最终预测序列;
输出层:通过线性层,即一个全连接神经网络,再经过Softmax函数来将输出转换为概率分布,将产生的向量投影到一个更高维度的向量上,其中每个元素表示为下一个输入序列中的一个特定元素的概率。
(10)模型训练过程包括以下步骤:
1)将长度为k的输入序列转换为长度为mk的嵌入向量;
2)使用编码器对输入序列进行编码,对每个词向量embedding与多个权重矩阵相乘,得到K、Q、V矩阵,Q和K做点积得到注意力得分,将注意力得分分别除以K向量的维度的平方根,一般是8,让梯度更加稳定,通过Sofimax函数运算,最后和V相乘,加权求得Self-attention值,将所有结果拼接成一个矩阵,与权重矩阵相乘,将多头注意力机制的结果压缩成一个矩阵,作为前馈神经网络的输入;
3)一个起始的token输入解码器,通过掩码多头注意力层、编码器-解码器注意力层、全连接层输出得到这个token的表示。每一步解码器都只解码一个词,输出的词放入解码器,重复上述操作直到解码到结束符为止;
4)对于每个输出,经一个全连接层和Softmax,将其转换为l-k个概率分布,每个预测的概率分布对应词汇表n个类别,一个输出的样本维度表示为n·(l-k);
5)最后通过反向传播算法来更新模型参数,并且对比真实的目标序列计算损失函数,损失函数为序列均值交叉熵:
其中,n为类别数量;
M为训练样本序列数量;
yic为符号函数,如果样本i的真实类别等于c取1,否则取0;
pic为观测样本i属于类别c的预测概率。
(11)模型训练完成之后可对于推理序列进行预测。预测过程采用滑动窗口预测,即每次选择一定步长的序列进行多步预测,模型的输出作为下一次预测的输入,并继续迭代这个过程直到达到需求中的最大序列长度,生成最终预测序列。
(12)模型的评估方式一般是对于大型的OWL本体,随机选择进行推理的概念集合,通过上述(1)-(11)步骤,生成推理序列,经过推理验算得到是否成功推理的结果。
需要说明的是,以上内容仅仅说明了本发明的技术思想,不能以此限定本发明的保护范围,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰均落入本发明权利要求书的保护范围之内。
Claims (10)
1.基于本体学习和注意力机制的知识推理方法,其特征在于:包括以下步骤:
(1)从本体中提取语料库,将原始的OWL本体转化成由RDF三元组组成的图G;
(2)OWL2Vec*算法进行本体嵌入,对图G进行随机游走,构建结构文档,根据结构文档里句子生成的实体IRI,以及从本体的相关文本注释中提取的两部分中构建词文档,从结构文档和词文档中提取一个组合文档,并且将结构文档、词文档、组合文档合并成语料库;
(3)将语料库中出现的每一个实体进行One-hot编码输入Skip-gram模型学习得到嵌入向量;
(4)本体利用推理规则进行采样,在给定的n个概念元素的概念集合F中,随机选择l个概念元素进行推理,推理成功的序列则加入已采样序列的数据集,用s表示采样数量;
(5)已采样序列样本分成有序的两部分L1:[C1,C2,...,Ck],L2:[Ck+1,...,Cl],其中L1表示为长度为k的训练序列,L2表示为长度为l-k的标签序列,L1中每个概念元素经过步骤(3)模型输出唯一标识该概念元素的向量,进行拼接得到序列的向量表示,生成维度为s.mk的数据集,其中m代表嵌入向量embedding的维度,最后将数据集打散,划分训练集和验证集;
(6)基于注意力机制构建序列预测模型AEDKRM(Attention Encoder-DecoderKnowledge Reasoning Model,AEDKRM),主要由输入层、编码层、解码器、输出层构成;
(7)模型训练,将输入的推理序列转换成嵌入向量,使用编码器进行编码,解码器进行解码,对于编码器的每个输出,经过全连接层和Softmax函数,将其转成序列,对比目标序列,序列交叉熵计算损失,通过反向传播更新参数;
(8)训练完成之后,通过滑动窗口进行预测,每次选择一定步长的序列通过序列预测模型进行多步预测,模型的输出作为下一次预测的输入,迭代该过程直到预测的推理序列长度大于等于n;
(9)模型预测的推理序列经过推理器验算得到推理结果。
2.根据权利要求1所述的基于本体学习和注意力机制的知识推理方法,其特征在于:步骤(1)中将本体/>中需求给定的概念集合表示为F,其中进行推理的n个概念Ci集合表示为F={C1,C2,...,Cn},为了在集合F中得到一条成功的本体推理序列,进而得到/>在F上进行遗忘推理的结果O′,现挖掘本体的逻辑结构、词汇语义信息,提取本体语料库,先将原始的OWL本体/>转化成由RDF三元组组成的图G。
3.根据权利要求2所述的基于本体学习和注意力机制的知识推理方法,其特征在于:步骤(2)中为了探索本体的图结构和逻辑结构,使用随机游走的方法,在三元组图中提取出结构文档,在图G上随机游走,重复一定的次数,每次游走后得出一个概率分布,该概率分布刻画了图中每一个顶点被访问到的概率,此概率分布作为下一次游走的输入并反复迭代这一过程直到收敛,其中每次游走都是生成实体IRI序列,构成了结构文档中的句子,根据生成的结构文档中句子里的实体IRI,以及OWL本体中相关文本注释里提取词汇文档,根据生成的结构文档和实体注释中提取出组合文档,旨在保留实体IRI和词信息之间的相关性,词文档和组合文档是以结构文档为核心,结合了本体中的各种词汇信息来构建的,这些文档挖掘了本体中的词汇信息、图结构、逻辑结构以及它们的组合特征,捕捉本体语义信息,将这些文档进行合并就生成了该本体的语料库。
4.根据权利要求3所述的基于本体学习和注意力机制的知识推理方法,其特征在于:步骤(3)中根据从本体中提取到的语料库,对于其中出现每一个实体,进行One-hot编码,为了避免维度灾难,需要将其转化成更加稠密的向量用于下游应用,Word2Vec作为一种将词转成向量的方法,包含Skip-gram以及CROW两种模型,在本情形下选择Skip-gram模型,通过中心词去预测周围的词,来表征该中心词,得到向量空间中的表示;
Skip-gram将语句分割成若干个窗口,每个窗口包含中心词和它的上下文,在每个窗口中,使用目标单词的嵌入向量和线性转换矩阵计算中间向量,再用偏置向量和中间向量计算周围单词的预测概率,并用周围单词的实际概率和预测概率计算损失,反向传播算法优化模型参数,在每一轮迭代中,计算单词嵌入矩阵、线性转换矩阵和偏置向量的梯度,使用梯度下降算法更新模型参数,重复以上步骤,直到损失函数值低于阈值结束,训练结束,词大小参数设置为1,这样可保证每个出现在文档中的实体都可以被嵌入编码。
5.根据权利要求4所述的基于本体学习和注意力机制的知识推理方法,其特征在于:步骤(4)中根据本体的推理规则,本体进行推理序列采样,采样的序列是模型训练数据集的来源,模型能够更好的学习到推理规则进而更好的预测,采样的序列长度表示为l,且l<<n,在给定的概念集合F中,随机选择l个概念集合F中的概念元素进行推理,序列推理成功表明该序列是成功的推理序列,则加入已采样序列,生成s个己采样序列。
6.根据权利要求5所述的基于本体学习和注意力机制的知识推理方法,其特征在于:步骤(5)中对于每个已经采样好的序列,将序列中每个元素通过词向量模型转成嵌入向量再进行合并得到该推理序列的表征,将长度为l的序列分成有序的两部分L1:[C1,C1,...,Ck],L2:[Ck+1,...,Cl],其中L1表示为长度为k的训练序列,L2表示为长度为l-k的标签序列,L1中每个概念元素经过Skip-gram模型输出唯一标识该概念元素的向量,最后进行拼接,还原成序列,得到序列的向量表示,生成维度为s·mk的数据集,其中m代表嵌入向量embedding的维度。
7.根据权利要求6所述的基于本体学习和注意力机制的知识推理方法,其特征在于:步骤(6)中构建的序列预测模型需要对于推理规则进行学习,并且具有长期记忆,对长序列进行预测,基于Transformer模型设计AEDKRM模型,引入注意力机制更好地解决传统的循环神经网络中长记忆丢失问题,适合处理长序列数据,其注意力机制用于计算输入序列中每个元素对输出的影响,注意力机制通过计算输入序列中每个元素与输出的相关性来实现,每个注意力机制都包含一个查询向量Q,用于表示输出,和一个键值对(K,V),用于表示输入序列,注意力机制会计算查询向量与每个键向量之间的相似性,并使用这些相似性来计算加权平均值,从而得到输出:
注意力机制通常用于编码器和解码器的层之间的信息传递,模型使用的是多头注意力机制,这种机制允许模型从多个不同的角度同时查看输入序列,从而更好地捕捉序列之间的关系,在编码器层中,注意力机制可以帮助提取序列中的高级特征;在解码器层中,注意力机制可以帮助解码器查找和解码器输入相关的信息,模型主要由以下几个部分组成:
输入层:将输入序列中的每个元素表示为一个向量;
编码器:通过多个编码器来提取序列中的高级特征,编码器的每个输入的embedding与权重矩阵相乘得到K、Q、V,计算QKT注意力得分,将得分分别除以一个特定数值(K向量的维度的平方根),让梯度更加稳定,进行Softmax运算,乘以V,加权得到Self-attention值,为了扩展了模型关注不同位置的能力,引入多头注意力机制,即输入和多个多个权重矩阵相乘,进行上述Self-attention计算,将结果拼接成一个矩阵,进行前向传播计算;
解码器:通过解码器来对输入序列进行预测,和编码器相同,解码器也有多头注意力机制,可以帮助解码器查找和解码器输入相关的信息,不同的是,解码器是多头注意力机制存在掩码,用于隐藏未来的信息,编码器-解码器注意力部分的K,Q,V三个向量中:Q是解码器的属性,K,V是编码器端最后的输出,这样编码器可以捕捉编码器的输出信息,训练时解码器的输出作为下一个输入,并继续迭代这个过程直到解码器生成特殊的结束标记或者达到最大序列长度,然后使用输出层将解码器的输出转换为最终预测序列;
输出层:通过线性层,即一个全连接神经网络,再经过Softmax函数来将输出转换为概率分布,将产生的向量投影到一个更高维度的向量上,其中每个元素表示为下一个输入序列中的一个特定元素的概率。
8.根据权利要求7所述的基于本体学习和注意力机制的知识推理方法,其特征在于:步骤(7)中根据已构建好的模型进行模型训练,具体步骤:
1)序列向量化,将长度为k的输入序列转换为长度为mk的嵌入向量;
2)使用编码器对输入序列进行编码,对每个词向量embedding与多个权重矩阵相乘,得到K、Q、V矩阵,Q和K做点积得到注意力得分,将注意力得分分别除以K向量的维度的平方根,一般是8,让梯度更加稳定,通过Softmax函数运算,最后和V相乘,加权求得Self-attention值,将所有结果拼接成一个矩阵,与权重矩阵相乘,将多头注意力机制的结果压缩成一个矩阵,作为前馈神经网络的输入;
3)一个起始的token输入解码器,通过掩码多头注意力层、编码器-解码器注意力层、全连接层输出得到这个token的表示,每一步解码器都只解码一个词,输出的词放入解码器,重复上述操作直到解码到结束符为止;
4)对于每个输出,经一个全连接层和Softmax,将其转换为l-k个概率分布,每个预测的概率分布对应词汇表n个类别,一个输出的样本维度表示为n·(l-k);
5)通过反向传播算法来更新模型参数,并且对比真实的目标序列计算损失函数,损失函数改进交叉熵,一个样本序列的损失计算为每个交叉熵损失的均值,则所有样本的损失函数表示为:
其中,n为类别数量;M为训练样本序列数量;yic为符号函数,如果样本i的真实类别等于c取1,否则取0;pic为观测样本i属于类别c的预测概率。
9.根据权利要求8所述的基于本体学习和注意力机制的知识推理方法,其特征在于:步骤(8)中根据训练完成的模型对于推理序列进行预测,由于是长序列预测,所以预测过程采用滑动窗口预测,即每次选择一定步长的序列进行多步预测,模型的输出作为下一次预测的输入,并继续迭代此过程直到达到需求中的最大序列长度,即预测的序列长度≥n,生成最终预测序列。
10.根据权利要求9所述的基于本体学习和注意力机制的知识推理方法,其特征在于:步骤(9)中根据预测生成的推理序列,经OWL本体推理验算得到判断是否推理成功。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310224363.2A CN116629361A (zh) | 2023-03-09 | 2023-03-09 | 基于本体学习和注意力机制的知识推理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310224363.2A CN116629361A (zh) | 2023-03-09 | 2023-03-09 | 基于本体学习和注意力机制的知识推理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116629361A true CN116629361A (zh) | 2023-08-22 |
Family
ID=87625429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310224363.2A Pending CN116629361A (zh) | 2023-03-09 | 2023-03-09 | 基于本体学习和注意力机制的知识推理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116629361A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117592571A (zh) * | 2023-12-05 | 2024-02-23 | 武汉华康世纪医疗股份有限公司 | 基于大数据的空调机组故障类型诊断方法和系统 |
-
2023
- 2023-03-09 CN CN202310224363.2A patent/CN116629361A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117592571A (zh) * | 2023-12-05 | 2024-02-23 | 武汉华康世纪医疗股份有限公司 | 基于大数据的空调机组故障类型诊断方法和系统 |
CN117592571B (zh) * | 2023-12-05 | 2024-05-17 | 武汉华康世纪医疗股份有限公司 | 基于大数据的空调机组故障类型诊断方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Abu-El-Haija et al. | Watch your step: Learning node embeddings via graph attention | |
CN114169330B (zh) | 融合时序卷积与Transformer编码器的中文命名实体识别方法 | |
CN111079409B (zh) | 一种利用上下文和方面记忆信息的情感分类方法 | |
CN112784532B (zh) | 用于短文本情感分类的多头注意力记忆系统 | |
CN111985205A (zh) | 一种方面级情感分类模型 | |
Zhou | A review of text classification based on deep learning | |
CN116204674B (zh) | 一种基于视觉概念词关联结构化建模的图像描述方法 | |
Body et al. | Using back-and-forth translation to create artificial augmented textual data for sentiment analysis models | |
CN116629361A (zh) | 基于本体学习和注意力机制的知识推理方法 | |
Xiao et al. | Expert knowledge-guided length-variant hierarchical label generation for proposal classification | |
Tan et al. | Walklm: A uniform language model fine-tuning framework for attributed graph embedding | |
CN117033423A (zh) | 一种注入最优模式项和历史交互信息的sql生成方法 | |
Chen et al. | Cnfrd: A few-shot rumor detection framework via capsule network for COVID-19 | |
CN116956228A (zh) | 一种技术交易平台的文本挖掘方法 | |
Gao et al. | Citation entity recognition method using multi‐feature semantic fusion based on deep learning | |
Zhang et al. | Weakly supervised setting for learning concept prerequisite relations using multi-head attention variational graph auto-encoders | |
CN113111288A (zh) | 一种融合非结构化和结构化信息的Web服务分类方法 | |
Benarab et al. | Global ontology entities embeddings | |
Wang et al. | Event extraction via dmcnn in open domain public sentiment information | |
CN113239703B (zh) | 基于多元因素融合的深层逻辑推理金融文本分析方法及系统 | |
Liu et al. | Chinese Semantic Role Labeling Based on BILSTM-CRF Extended Model | |
CN117576710B (zh) | 用于大数据分析的基于图生成自然语言文本的方法及装置 | |
CN117473083B (zh) | 一种基于提示知识和混合神经网络的方面级情感分类模型 | |
Yu et al. | PLM-PGHC: A novel de-biasing framework for robust question answering | |
Sun et al. | GCNs-Based Context-Aware Short Text Similarity Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |