CN115455146A - 基于Transformer深度强化学习的知识图谱多跳推理方法 - Google Patents

基于Transformer深度强化学习的知识图谱多跳推理方法 Download PDF

Info

Publication number
CN115455146A
CN115455146A CN202211099324.6A CN202211099324A CN115455146A CN 115455146 A CN115455146 A CN 115455146A CN 202211099324 A CN202211099324 A CN 202211099324A CN 115455146 A CN115455146 A CN 115455146A
Authority
CN
China
Prior art keywords
graph
knowledge graph
knowledge
state
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211099324.6A
Other languages
English (en)
Inventor
姚章俊
路高勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 10 Research Institute
Original Assignee
CETC 10 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 10 Research Institute filed Critical CETC 10 Research Institute
Priority to CN202211099324.6A priority Critical patent/CN115455146A/zh
Publication of CN115455146A publication Critical patent/CN115455146A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于Transformer深度强化学习的知识图谱多跳推理方法,包括以下步骤:S1、接入大量RDF三元组,通过关系补全,创建关系完备的知识图谱;S2、分别对知识图谱的拓扑结构和三元组语义做表征学习,并以线性组合的方式综合拓扑结构和三元组语义的表征张量,将知识图谱的表征层映射到统一的知识空间;S3、使用基于Transformer解码层堆叠的GPT‑2模型为知识图谱的推理层建模,利用集束搜索,自回归地生成收益最大的下一时间步动作AT+1。本发明规避了传统强化学习中利用人工经验分配信度,设计行为策略约束等不可控的缺陷。

Description

基于Transformer深度强化学习的知识图谱多跳推理方法
技术领域
本发明属于知识图谱多跳推理技术领域,具体涉及一种基于Transformer深度强化学习的知识图谱多跳推理方法。
背景技术
知识图谱以结构化的形式描述客观世界中概念、实体及其之间的关系,提供一种更好地组织、管理和理解互联网海量信息的能力。稀疏的知识密度限制了知识图谱功能的发挥,多跳推理作为知识补全的一种重要手段,接受实体和关系查询条件,计算起始实体满足关系映射的目标实体,在原本不相关的多个实体间构建合适的关系。由此连接的稠密关系才能提供更加丰富的知识信息,提高知识图谱下游任务模型的泛化能力。
多步推理是一个序列决策问题,因此可以用强化学习来学习这个过程基于策略的强化学习的智能体通过知识图谱环境之间的交互来学习推理路径。DeepPath是首先提出的基于强化学习的多步推理模型但是其只能在给定两个实体的情况下去推测中间的关系链MINERVA改进了这一点,并将LSTM引入至策略函数中,用于编码序列历史信息M-Walk引入了蒙特卡罗树搜索到强化学习模型的搜索推理路径中,有效降低了路径稀疏问题,同时其历史信息由RNN来编码Multi-Hop指出强化学习过程的奖赏函数需要人为定义为了解决这个问题,该方法提出了一个可学习的奖赏函数,从而可以自适应地调节路径的探索,同时其还在策略选择时采用了类似Dropout的技术。
为了解决知识图谱多跳推理中的冲突消解困难,泛化能力差,结果解释性不强,可信度低等问题,知识图谱多跳推理可以被建模为有限视界的确定部分可观测马尔可夫决策过程,求解近似最优策略时,时序差分类算法在自举值函数时,值函数的一点小误差可能被不断放大,容易出现高估问题;基于Bellman最优方程的更新方式传播得比较慢,在稀疏奖励场景中效果不好。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于Transformer深度强化学习的知识图谱多跳推理方法解决了现有知识图谱多跳推理方法存在泛化能力差、不可解释和难以应用于大规模知识图谱的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于Transformer深度强化学习的知识图谱多跳推理方法,包括以下步骤:
S1、接入大量RDF三元组,通过关系补全,创建关系完备的知识图谱,降低知识图谱节点与边的稀疏分布,提高用于推理的知识图谱的知识密度;
S2、分别对知识图谱的拓扑结构和三元组语义做表征学习,并以线性组合的方式综合拓扑结构和三元组语义的表征张量,将知识图谱的表征层映射到统一的知识空间;
S3、使用基于Transformer解码层堆叠的GPT-2模型为知识图谱的推理层建模,利用前序时间步的历史轨迹Ht=(T0,T1,…,Tt),利用集束搜索,自回归地生成收益最大的下一时间步动作AT+1
进一步地:所述步骤S1中创建关系完备的知识图谱的具体步骤为:
S11、对于现有知识图谱,将RDF三元组接入JanusGraph图数据库,方便后续图谱关系补全、查询及读取操作;
其中,现有知识图谱建模为Φ=(E,Γ,Λ),
Figure BDA0003838783590000021
表示知识图谱中所有实体的集合,
Figure BDA0003838783590000022
是知识图谱中所有关系的集合,
Figure BDA0003838783590000023
是所有事实三元组的集合,在事实三元组(εμ,γ,εv)∈Λ中,εμ是事实三元组的头实体,εv是事实三元组的尾实体,γ是事实三元组从头实体εμ映射到尾实体εv的关系;
S12、在知识图谱现有关系的基础上,主动补全平等互关系中缺失的关系,以及有利于完善计算路径的镜像逆关系,如(εμ,γ,εv)∈Λ的镜像逆关系三元组为(εμ-1v)∈Λ,γ-1为γ的镜像逆关系;
S13、为每一个顶点增加实体自回环关系,为每一个顶点的实体增加一个与自身的环路关系,即(εμμμμ)∈Λ,有利于增加推理智能体的搜索空间,扩展推理智能体的搜索路径,帮助推理智能体的探索能力;γμμ为知识图谱节点μ的自回环关系;
S14、将新增关系回写到JanusGraph图数据库,得到关系完备的知识图谱。
进一步地:所述步骤S2中表征层的映射具体步骤为:
S21、将图谱层生成的完备图网络剥离出不包含文字内容的纯拓扑结构和只包含文字内容的语义三元组,一次性导入全部的拓扑结构图网络和语义三元组;
S22、将图网络的拓扑结构送入图卷积网络GCN训练,学习图网络节点εi的拓扑表征
Figure BDA0003838783590000031
和边γj的拓扑表征
Figure BDA0003838783590000032
S23、将图网络的事实三元组送入ConvE网络训练,学习图网络节点εi的语义表征
Figure BDA0003838783590000033
和边γj的语义表征
Figure BDA0003838783590000034
S24、将拓扑表征张量和语义表征张量线性连接,得到节点εi的知识表征
Figure BDA0003838783590000035
和边γj的知识表征
Figure BDA0003838783590000036
进一步地:所述步骤S3中推理层建模的具体步骤为:
S31、建模基于知识图谱的多跳推理强化学习环境,包括状态、动作、及时收益、后续累积收益和轨迹;
S32、使用GPT做序列建模训练,选择收益最大化的轨迹;
S33、基于集束搜索对轨迹中的隐藏动作进行搜索,构成完整的动作序列;
S34、回溯动作序列的轨迹生成可解释推理路径,呈现支撑结论的解释项。
进一步地:所述步骤S31中的状态
Figure BDA0003838783590000044
其中εt为时刻t所处的实体节点,εμσ和γσ为时刻t=0时所处的起始实体节点和关系边,ενσ为最终答案节点,S为状态空间,初始状态S0=(εμσμσσνσ),终止状态ST=(ενσμσσνσ);
所述动作At定义为:
Figure BDA0003838783590000041
其中γt为时刻t所处的关系边,ε为知识图谱节点;
所述及时收益Rt即为R(St),定义为:
R(St)=Ι(εt=ενσ)-Ι(εt≠ενσ)
上式中,Ι(·)为二元收益函数;
所述后续累积收益Gt定义为:
Figure BDA0003838783590000042
上式中,T为智能体推理结束时间步,K为智能体推理开始时间步,α为及时收益的惩罚系数;
将轨迹定义为:
Figure BDA0003838783590000043
上式中,τ为轨迹。
进一步地:所述步骤S32中序列建模训练为:
训练时使用真实轨迹,直接并行输入轨迹字段,经过自回归模型和集束搜索输出所有的预测节点,每个节点是一个多维向量,经过softmax归一化处理得到概率分布,再计算与之对应的真实标签的交叉熵,得到对数似然;
最大化对数似然的目标L(τ)是:
Figure BDA0003838783590000051
对于状态的条件概率Pθ(St|S<t<t),含义为在给定当前时刻t之前的状态和当前时刻之前的轨迹τ条件下,发生当前状态St的概率,logPθ(St|S<t<t)为状态的对数条件概率;对于动作的条件概率Pθ(At|A<t,St<t),含义为在给定当前时刻t的状态,在该状态下时刻t之前采取的动作及当前时刻之前的轨迹τ条件下,发生当前状态At的概率,logPθ(At|A<t,St<t)为动作的对数条件概率;对于累积回报的条件概率Pθ(Gt|At,St<t),含义为在给定当前时刻t的状态,在该状态下时刻t之前采取的动作及当前时刻之前的轨迹τ条件下,发生累积回报Gt的概率,logPθ(Gt|At,St<t)为累计回报的对数条件概率;对于及时收益的条件概率Pθ(Rt|At,St<t),含义为在给定当前时刻t的状态,在该状态下采取的动作及当前时刻之前的轨迹τ条件下,发生及时收益Rt的概率,logPθ(Rt|At,St<t)为收益的对数条件概率,θ为轨解空间参数,Pθ(St|Si<t)为状态的条件概率,Pθ(At|Aj,St<t)为及时动作的条件概率,Pθ(Gt|Ak,St<t)为累计回报条件概率,Pθ(Rt|At,St<t)为及时收益的条件概率;
使用对数概率对所有中间过程(St,At,Rt,Gt)进行重要度采样,重要度采样比计算方法定义:给定起始状态St和时间步t后的所有可能动作集合At:T-1,后续的状态-动作交替轨迹At,St+1,At+1,...,ST在策略π下发生的概率是:
Figure BDA0003838783590000052
其中,P是状态转移概率函数,Ak为推理体在时间步t时采取的动作,Sk为知识图谱在时间步t时的状态,目标策略π和行动策略b轨迹下的重要度采样比ρ被定义为:
Figure BDA0003838783590000061
上式中,ρt:T-1为智能体在时间步t到T-1时间段内的重要度采样比。
进一步地:所述步骤S33具体为:在时间步t中,选择条件概率
Figure BDA0003838783590000062
Figure BDA0003838783590000063
最大的前两个动作
Figure BDA0003838783590000064
Figure BDA0003838783590000065
集束搜索算法让这两个动作分别作为下一时间步的动作输入,假定
Figure BDA0003838783590000066
分支在下一时间步的条件概率趋于无穷小,只考虑
Figure BDA0003838783590000067
作为下一时间步动作输入的情况,到最终时间步T时,集束搜索只会选取使得条件概率
Figure BDA0003838783590000068
最大的动作,最终构成完整的动作序列
Figure BDA0003838783590000069
进一步地:所述步骤S34具体为:集束搜索的搜索宽度B,在第一个时间步中,选取当前条件概率最大的B个候选项输出序列的第一个词,之后的每个时间步中,基于上个时间步的输出序列,挑选出所有组合中条件概率最大的B个候选项,作为该时间步的候选输出序列,始终保持B个候选,最后从B个候选中挑出最优的,集束搜索的过程可描述为:
Figure BDA00038387835900000610
上式中,α是可调节的参数,Bα用以惩罚超长序列,yt是时间步t时的候选项,yB是时间步B时的候选项,d为序列结束符。
本发明的有益效果为:本发明提出TDRL-MHR(Transformer based DeepReinforcement Learning for Multi-Hop Reasoning)算法,是一种基于Transformer深度强化学习,将知识图谱多跳推理任务转化为条件序列生成任务的框架,Transformer编码器将知识图谱映射到高维知识空间,据此建模的状态、动作和收益,被送入Transformer解码器GPT(General Presentation Transformer)自回归向后预测下一步候选动作,使用集束搜索选取期望回报条件概率最大的动作。该算法规避了传统强化学习中利用人工经验分配信度,设计行为策略约束等不可控的缺陷。经实验表明,Transformer建模方法可以模拟广泛的行为分布,提升多跳推理在不同量级知识图谱上的泛化和迁移能力。
附图说明
图1是本发明基于Transformer深度强化学习的知识图谱多跳推理处理流程图;
图2是图1的架构原理框图;
图3是本发明完备图谱构建模块的流程图;
图4是本发明完备图谱拓扑语义综合表征模块的流程图;
图5是本发明基于轨迹序列多跳推理模块的流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,一种基于Transformer深度强化学习的知识图谱多跳推理方法,包括以下步骤:
S1、接入大量RDF三元组,通过关系补全,创建关系完备的知识图谱,降低知识图谱节点与边的稀疏分布,提高用于推理的知识图谱的知识密度;
S2、分别对知识图谱的拓扑结构和三元组语义做表征学习,并以线性组合的方式综合拓扑结构和三元组语义的表征张量,将知识图谱的表征层映射到统一的知识空间;
S3、使用基于Transformer解码层堆叠的GPT-2模型为知识图谱的推理层建模,利用前序时间步的历史轨迹Ht=(T0,T1,...,Tt),利用集束搜索,自回归地生成收益最大的下一时间步动作AT+1
图2是本发明多跳推理的架构原理框图。以大量三元组和待查询问题为输入,以问题解答和推理路径为输出,本发明采用层次化结构,分为图谱层、表征层和推理层。图谱层将大量RDF三元组转化为标准化的图网络,将其作为后续表征推理的操作对象;表征层通过拓扑语义综合网络将图谱层映射到知识空间;推理层首先按照标准的强化学习定义,结合知识图谱特点,生成知识空间中各个强化学习要素组件建模,将知识空间环境转换为强化学习环境,以强化学习维度下的知识空间状态、推理智能体在知识图谱上的搜索动作、基于收益塑造技术对推理智能体行为的奖励和后续累积收益等强化学习要素组件为输入,送入GPT-2网络架构,计算得出概率路径,综合考虑计算性能和路径探索覆盖率,使用集束搜索推导出推理智能体概率最大的运动路径,直至耗尽规定范围内的跳数,通过反向回溯每一跳的路径组合成完整的全流程推理路径。
图3是本发明图谱层的补全构建过程。知识图谱建模为Φ=(E,Γ,Λ),
Figure BDA0003838783590000081
表示知识图谱中所有实体的集合,
Figure BDA0003838783590000082
是知识图谱中所有关系的集合,
Figure BDA0003838783590000083
是所有事实三元组的集合,在事实三元组(εμ,γ,εv)∈Λ中,εμ是事实三元组的头实体,εv是事实三元组的尾实体,γ是事实三元组从头实体εμ映射到尾实体εv的关系。(S11)三元组的内容、质量及其存储方式不在本发明考虑范围之内,本发明为了获得更好的数据ACID操作性能,本发明首先将假设已经存在的大量RDF三元组导入JanusGraph图数据库,方便后续图谱关系补全、查询及读取操作;(S12)本发明在现有关系的基础上,主动补全平等互关系中缺失的关系,以及逻辑上并非自洽,但是有利于完善计算路径的镜像逆关系,比如(εμ,γ,εv)∈Λ的镜像逆关系三元组为(εμ-1v)∈Λ;(S13)本发明为每一个顶点添加自回环关系,为每一个顶点的实体增加一个与自身的环路关系,即(εμμμμ)∈Λ,该操作有利于增加推理智能体的搜索空间,扩展推理智能体的搜索路径,帮助推理智能体的探索能力;(S14)将新增关系回写到JanusGraph图数据库,使用Graphexp可视化工具,既能方便使用者查看图谱整体内容与结构细节,又能在推理结束后查看完整推理路径。
图4是本发明表征层的学习映射过程。(S21)本发明将图谱层生成的完备图网络剥离出不包含文字内容的纯拓扑结构和只包含文字内容的语义三元组,一次性导入全部的拓扑结构图网络和语义三元组;(S22)将图网络的拓扑结构送入图卷积网络GCN训练,学习图网络节点εi的拓扑表征
Figure BDA0003838783590000091
和边γj的拓扑表征
Figure BDA0003838783590000092
(S23)将图网络的事实三元组送入ConvE网络训练,学习图网络节点εi的语义表征
Figure BDA0003838783590000093
和边γj的语义表征
Figure BDA0003838783590000094
(S24)将拓扑表征张量和语义表征张量线性连接,得到节点εi的知识表征
Figure BDA0003838783590000095
和边γj的知识表征
Figure BDA0003838783590000096
图5是本发明推理层的建模推理过程。推理智能体是学习及实施决策的主体,知识图谱是推理智能体活动的环境。推理智能体根据知识图谱环境的状态和收益,决定下一时刻跳转的行为路径,并向推理智能体呈现出新的知识图谱子图状态。知识图谱环境产生的累计收益,就是推理智能体在不断地路径选择探索中需要最大化的目标。(S31)建模基于知识图谱的多跳推理强化学习环境,包括状态、动作、及时收益、后续累积收益和轨迹。
1)状态
状态空间S包含所有知识图谱节点信息的有效地组合,推理智能体的状态不仅包含时刻t所处的实体节点εt,还包括时刻t=0时所处的起始实体节点εμσ和关系边γσ,以及最终答案节点ενσ。因此可以定义时间步t时的状态:
Figure BDA0003838783590000103
初始状态S0=(εμσμσσνσ),终止状态ST=(ενσμσσνσ)。状态更新函数是解决部门可观测性问题的核心部分,在看到状态之前,不能采取任何动作或者做出任何预测。
2)动作
动作空间A是推理智能体处于状态
Figure BDA0003838783590000101
时,其所处知识图谱环境有效边信息的组合。在状态St下动作At被定义为:
Figure BDA0003838783590000102
即在时刻t选择的下一步实体节点不在遍历过的历史节点列表中。推理智能体从查询条件σ的起始节点εμσ开始,通过策略网络预测最有可能的路径,不断探索直至达到目标答案实体节点ενσ
3)及时收益
在传统的知识图谱强化学习路径推理中,一般采用二元收益函数:
R(St)=Ι(εt=ενσ)
即只有在当前实体节点是答案节点的时候才会获取的收益+1,否则其他时间步获得的收益都是0。推理智能体在不断地执行策略和策略评估后,只能得到很少的反馈,即便基于序列生成的强化学习行动策略,收益信号能够长期传播而衰减很小,但是收益信号的延迟和稀疏依然会导致强化学习收敛放缓,甚至不收敛,而无法学习到有效的推理策略。通过将“收益最大”思路转换为“损失最少”思路,及时收益函数可以被设定为:
R(St)=Ι(εt=ενσ)-Ι(εt≠ενσ)
4)后续累积收益
为了使Transformer能够学习到有意义的模式,并且应该能够在测试时有条件地生成动作。建立奖励模型非常重要,TDRL-MHR希望推理智能体能够根据未来期望的回报而不是过去的收益生成行动,即最大化推理智能体接收到的标量信号(收益)累积和的概率期望值。推理智能体尝试选择动作,使得它在未来受到的经过折扣系数加权后的收益总和是最大化的。其中后续累积期望回报被定义为:
Figure BDA0003838783590000111
5)轨迹
本发明所示算法的核心是将轨迹数据作为结构化序列送入Transformer建模,对状态和动作联合建模产生分配行动的倾向。轨迹τ由状态、动作、收益和后续累积回报组成:
Figure BDA0003838783590000112
受益于大规模无监督学习结果的可伸缩性,轨迹张量中可以容纳足够多的元素。
(S32)TDRL-MHR使用GPT做序列建模训练
GPT中的注意力是具备因果关联的,即当前字段只会与它之前的字段做注意力计算。训练时使用真实轨迹,可以直接并行输入轨迹字段,经过自回归模型和集束搜索输出所有的预测节点,每个节点是一个多维向量,经过softmax归一化处理得到概率分布,再计算与之对应的真实标签的交叉熵,得到对数似然。θ为轨解空间参数,模型训练中最大化对数似然的目标是:
Figure BDA0003838783590000121
目标函数是预测的状态、动作、收益和回报的对数似然。对于状态的条件概率Pθ(St|S<t<t),含义为在给定当前时刻t之前的状态和当前时刻之前的轨迹τ条件下,发生当前状态St的概率,log Pθ(St|S<t<t)为状态的对数条件概率;对于动作的条件概率Pθ(At|A<t,St<t),含义为在给定当前时刻t的状态,在该状态下时刻t之前采取的动作及当前时刻之前的轨迹τ条件下,发生当前状态At的概率,logPθ(At|A<t,St<t)为动作的对数条件概率;对于累积回报的条件概率Pθ(Gt|At,St<t),含义为在给定当前时刻t的状态,在该状态下时刻t之前采取的动作及当前时刻之前的轨迹τ条件下,发生累积回报Gt的概率,log Pθ(Gt|At,St<t)为累计回报的对数条件概率;对于及时收益的条件概率Pθ(Rt|At,St<t),含义为在给定当前时刻t的状态,在该状态下采取的动作及当前时刻之前的轨迹τ条件下,发生及时收益Rt的概率,log Pθ(Rt|At,St<t)为收益的对数条件概率。
TDRL-MHR使用大量随机成分的蒙特卡洛方法产生训练值估计,这样做是因为蒙特卡洛算法在与真实的环境交互中采样得到状态、动作、收益序列时,不需要关于环境动态变化规律的先验知识,也不需要动态规划那样生成所有可能转移的概率分布,更不需要用后继状态的估计更新当前的估计,即它不需要自举。TDRL-MHR算法通过轨迹自回归网络和集束搜索策略实现收益最大化。相较于传统的蒙特卡洛算法通过平均样本的回报解决强化学习问题,蒙特卡洛值估计会导致样本复杂度降低,推理轨迹收敛到次优行为,通过使用预测的收益信号代替字段预测的对数概率,规避了这个难题;相较于贪婪搜索,集束搜索方法优化了数据分布下序列的概率,但是在计算收益最大化时,依然会存在短视行为的风险,为了解决这个问题,TDRL-MHR算法在会在每一次训练轨迹更新中添加后续累积回报Gt,并提高惩罚项系数。
所有的学习控制方法都面临一个困境:它们希望学到的动作可以使随后的智能体行为是最优的,但是为了搜索所有的动作,它们需要采取非最优的行动。妥协方法就是并不学习最优目标策略的动作值,而是学习一个接近最优而且仍能进行试探的行动策略动作值。使用蒙特卡洛值估计而不依赖于Bellman最优解的更新,学习行动策略的值函数要比学习目标策略的值函数简单。
TDRL-MHR使用对数概率对所有中间过程(St,At,Rt,Gt)进行重要度采样,重要度采样是一种在给定来自其他分布样本条件下,估计某种分布期望值的通用方法。重要度采样比计算方法定义:给定起始状态St和时间步t后的所有可能动作集合At:T-1,后续的状态-动作交替轨迹At,St+1,At+1,...,ST在策略π下发生的概率是
Figure BDA0003838783590000131
其中P是状态转移概率函数。目标策略π和行动策略b轨迹下的重要度采样比ρ被定义为:
Figure BDA0003838783590000132
重要度采样比只与两个策略的样本序列数据相关,而与马尔可夫决策过程的动态特性,即状态转移概率无关。
TDRL-MHR采用序列建模的方法,可以将其描述为一种基于模型的规划算法:对候选动作序列进行采样,使用预测模型评估其效果,并选择收益最大化的轨迹。通过将动作、状态、收益和回报联合建模并使用相同的过程对它们进行采样,可以防止模型被查询到分布外的动作。将动作序列视为不依赖于状态的无约束优化变量,这种方法更容易充分利用模型,因为学习模型下的最大回报问题与为分类器寻找对抗性示例的问题非常相似。
(S33)对于生成任务,在每一个时间步,模型给出的都是基于历史生成结果的条件概率。为了生成完整的句子,需要解码融合模型多个时间步的输出,而且使得最终得到的序列的每一步条件概率连乘结果最大。通过每一个时间步都取出一个条件概率最大的输出,再将从开始到当前步的结果作为输入以获得下一个时间步的输出,直到模型给出生成结束的标志。尽管这样做能够将指数级别的求解空间压缩到线性长度,但是却丢弃了绝大多数的可能解,这种关注当下的策略无法保证最终得到的序列概率是最优的。集束搜索模块在每一个时间步,保留特定数量分数最高的输出,以时间换性能的方式获得近似最优解。
为方便叙述,假定集束搜索的搜索宽度是2,在时间步t中,选择条件概率
Figure BDA0003838783590000141
Figure BDA0003838783590000142
最大的前两个动作
Figure BDA0003838783590000143
Figure BDA0003838783590000144
集束搜索算法会让这两个动作分别作为下一时间步的动作输入。假定
Figure BDA0003838783590000145
分支在下一时间步的条件概率趋于无穷小,同时为方便作图,只考虑
Figure BDA0003838783590000146
作为下一时间步动作输入的情况,其他时间步的情况亦如此。到最终时间步T时,集束搜索只会选取使得条件概率
Figure BDA0003838783590000147
最大的动作,最终构成完整的动作序列
Figure BDA0003838783590000148
(S34)回溯行为轨迹生成可解释推理路径
TDRL-MHR算法建立状态、动作、收益和累计回报等四者之间的关系。TDRL-MHR算法通过收益约束隐式地拟合一个Q函数,比较形象的描述是在一个三维坐标系中,X轴、Y轴和Z轴分别是状态、动作和收益,通过已有的数据不断拟合Q函数,在推理的时候,输入目标收益和当前状态,TDRL-MHR算法可以在这个函数上找到最可能的行为,学到的Q函数具备一定的泛化能力和探索能力。
GPT的因果关联注意力掩码,确保预测只依赖于序列中前面的标记。落实到知识图谱多跳推理场景,意味着不允许未来的选择影响过去的决策。可以直接将其作为一种通过调节期望的最终状态来达到目标的方法。在一个最终的目标状态上调整序列,保持下对角线的注意力遮蔽不变,而不需要修改标准的注意力实现。Transformer会根据事件持续更新奖励概率,形成了Raposo等人讨论的状态奖励关联,并实现了准确的价值预测。
使用集束搜索从每一时间步的候选轨迹中选择较优的动作,推理完成后就形成了一个完整的动作序列。集束搜索的搜索宽度B,在第一个时间步中,选取当前条件概率最大的B个候选项输出序列的第一个词。之后的每个时间步中,基于上个时间步的输出序列,挑选出所有组合中条件概率最大的B个候选项,作为该时间步的候选输出序列,始终保持B个候选,最后从B个候选中挑出最优的。集束搜索的过程可以用下面的公式描述:
Figure BDA0003838783590000151
其中,α是可调节的参数,Bα用以惩罚超长序列,yt是时间步t时的候选项,d为序列结束符,使用对数的原因是可以将乘法转化为加法。

Claims (8)

1.一种基于Transformer深度强化学习的知识图谱多跳推理方法,其特征在于,包括以下步骤:
S1、接入大量RDF三元组,通过关系补全,创建关系完备的知识图谱;
S2、分别对知识图谱的拓扑结构和三元组语义做表征学习,并以线性组合的方式综合拓扑结构和三元组语义的表征张量,将知识图谱的表征层映射到统一的知识空间;
S3、使用基于Transformer解码层堆叠的GPT-2模型为知识图谱的推理层建模,利用集束搜索,自回归地生成收益最大的下一时间步动作AT+1,T为时间步计数。
2.根据权利要求1所述的基于Transformer深度强化学习的知识图谱多跳推理方法,其特征在于,所述步骤S1中创建关系完备的知识图谱的具体步骤为:
S11、对于现有知识图谱,将RDF三元组接入JanusGraph图数据库,方便后续图谱关系补全、查询及读取操作;
其中,现有知识图谱建模为Φ=(E,Γ,Λ),
Figure FDA0003838783580000011
表示知识图谱中所有实体的集合,
Figure FDA0003838783580000012
是知识图谱中所有关系的集合,
Figure FDA0003838783580000013
是所有事实三元组的集合,在事实三元组(εμ,γ,εv)∈Λ中,εμ是事实三元组的头实体,εv是事实三元组的尾实体,γ是事实三元组从头实体εμ映射到尾实体εv的关系;
S12、在知识图谱现有关系的基础上,主动补全平等互关系中缺失的关系,以及有利于完善计算路径的镜像逆关系,如(εμ,γ,εv)∈Λ的镜像逆关系三元组为(εμ-1v)∈Λ,γ-1为γ的镜像逆关系;
S13、为每一个顶点增加实体自回环关系,为每一个顶点的实体增加一个与自身的环路关系,即(εμμμμ)∈Λ,有利于增加推理智能体的搜索空间,扩展推理智能体的搜索路径,帮助推理智能体的探索能力;γμμ为知识图谱节点μ的自回环关系;
S14、将新增关系回写到JanusGraph图数据库,得到关系完备的知识图谱。
3.根据权利要求2所述的基于Transformer深度强化学习的知识图谱多跳推理方法,其特征在于,所述步骤S2中表征层的映射具体步骤为:
S21、将图谱层生成的完备图网络剥离出不包含文字内容的纯拓扑结构和只包含文字内容的语义三元组,一次性导入全部的拓扑结构图网络和语义三元组;
S22、将图网络的拓扑结构送入图卷积网络GCN训练,学习图网络节点εi的拓扑表征
Figure FDA0003838783580000021
和边γj的拓扑表征
Figure FDA0003838783580000022
S23、将图网络的事实三元组送入ConvE网络训练,学习图网络节点εi的语义表征
Figure FDA0003838783580000023
和边γj的语义表征
Figure FDA0003838783580000024
S24、将拓扑表征张量和语义表征张量线性连接,得到节点εi的知识表征
Figure FDA0003838783580000025
和边γj的知识表征
Figure FDA0003838783580000026
4.根据权利要求3所述的基于Transformer深度强化学习的知识图谱多跳推理方法,其特征在于,所述步骤S3中推理层建模的具体步骤为:
S31、建模基于知识图谱的多跳推理强化学习环境,包括状态、动作、及时收益、后续累积收益和轨迹;
S32、使用GPT做序列建模训练,选择收益最大化的轨迹;
S33、基于集束搜索对轨迹中的隐藏动作进行搜索,构成完整的动作序列;
S34、回溯动作序列的轨迹生成可解释推理路径,呈现支撑结论的解释项。
5.根据权利要求4所述的基于Transformer深度强化学习的知识图谱多跳推理方法,其特征在于,
所述步骤S31中的状态
Figure FDA0003838783580000027
其中εt为时刻t所处的实体节点,εμσ和γσ为时刻t=0时所处的起始实体节点和关系边,ενσ为最终答案节点,S为状态空间,初始状态S0=(εμσμσσνσ),终止状态ST=(ενσμσσνσ);
所述动作At定义为:
At={(εtt,ε)∈Λ|St=(εtμσσνσ),
Figure FDA0003838783580000033
其中γt为时刻t所处的关系边,ε为知识图谱节点;
所述及时收益Rt即为R(St),定义为:
R(St)=Ι(εt=ενσ)-Ι(εt≠ενσ)
上式中,Ι(·)为二元收益函数;
所述后续累积收益Gt定义为:
Figure FDA0003838783580000031
上式中,T为智能体推理结束时间步,K为智能体推理开始时间步,α为及时收益的惩罚系数;
将轨迹定义为:
Figure FDA0003838783580000032
上式中,τ为轨迹。
6.根据权利要求5所述的基于Transformer深度强化学习的知识图谱多跳推理方法,其特征在于,所述步骤S32中序列建模训练为:
训练时使用真实轨迹,直接并行输入轨迹字段,经过自回归模型和集束搜索输出所有的预测节点,每个节点是一个多维向量,经过softmax归一化处理得到概率分布,再计算与之对应的真实标签的交叉熵,得到对数似然;
最大化对数似然的目标L(τ)是:
Figure FDA0003838783580000041
对于状态的条件概率Pθ(St|S<t<t),含义为在给定当前时刻t之前的状态和当前时刻之前的轨迹τ条件下,发生当前状态St的概率,logPθ(St|S<t<t)为状态的对数条件概率;对于动作的条件概率Pθ(At|A<t,St<t),含义为在给定当前时刻t的状态,在该状态下时刻t之前采取的动作及当前时刻之前的轨迹τ条件下,采取当前动作At的概率,logPθ(At|A<t,St<t)为动作的对数条件概率;对于累积回报的条件概率Pθ(Gt|At,St<t),含义为在给定当前时刻t的状态,在该状态下时刻t之前采取的动作及当前时刻之前的轨迹τ条件下,发生累积回报Gt的概率,logPθ(Gt|At,St<t)为累计回报的对数条件概率;对于及时收益的条件概率Pθ(Rt|At,St<t),含义为在给定当前时刻t的状态,在该状态下采取的动作及当前时刻之前的轨迹τ条件下,发生及时收益Rt的概率,logPθ(Rt|At,St<t)为收益的对数条件概率,θ为轨解空间参数,Pθ(St|Si<t)为状态的条件概率,Pθ(At|Aj,St<t)为及时动作的条件概率,Pθ(Gt|Ak,St<t)为累计回报条件概率;
使用对数概率对所有中间过程(St,At,Rt,Gt)进行重要度采样,重要度采样比计算方法定义:给定起始状态St和时间步t后的所有可能动作集合At:T-1,后续的状态-动作交替轨迹At,St+1,At+1,...,ST在策略π下发生的概率是:
Figure FDA0003838783580000042
其中,P是状态转移概率函数,Ak为推理体在时间步t时采取的动作,Sk为知识图谱在时间步t时的状态。
目标策略π和行动策略b轨迹下的重要度采样比ρ被定义为:
Figure FDA0003838783580000051
上式中,ρt:T-1为智能体在时间步t到T-1时间段内的重要度采样比。
7.根据权利要求6所述的基于Transformer深度强化学习的知识图谱多跳推理方法,其特征在于,所述步骤S33具体为:在时间步t中,选择条件概率
Figure FDA0003838783580000052
Figure FDA0003838783580000053
最大的前两个动作
Figure FDA0003838783580000054
Figure FDA0003838783580000055
集束搜索算法让这两个动作分别作为下一时间步的动作输入,假定
Figure FDA0003838783580000056
分支在下一时间步的条件概率趋于无穷小,只考虑
Figure FDA0003838783580000057
作为下一时间步动作输入的情况,到最终时间步T时,集束搜索只会选取使得条件概率
Figure FDA0003838783580000058
最大的动作,最终构成完整的动作序列
Figure FDA0003838783580000059
8.根据权利要求7所述的基于Transformer深度强化学习的知识图谱多跳推理方法,其特征在于,所述步骤S34具体为:集束搜索的搜索宽度B,在第一个时间步中,选取当前条件概率最大的B个候选项输出序列的第一个词,之后的每个时间步中,基于上个时间步的输出序列,挑选出所有组合中条件概率最大的B个候选项,作为该时间步的候选输出序列,始终保持B个候选,最后从B个候选中挑出最优的,集束搜索的过程可描述为:
Figure FDA00038387835800000510
上式中,α是可调节的参数,Bα用以惩罚超长序列,yt是时间步t时的候选项,yB是时间步B时的候选项,d为序列结束符。
CN202211099324.6A 2022-09-08 2022-09-08 基于Transformer深度强化学习的知识图谱多跳推理方法 Pending CN115455146A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211099324.6A CN115455146A (zh) 2022-09-08 2022-09-08 基于Transformer深度强化学习的知识图谱多跳推理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211099324.6A CN115455146A (zh) 2022-09-08 2022-09-08 基于Transformer深度强化学习的知识图谱多跳推理方法

Publications (1)

Publication Number Publication Date
CN115455146A true CN115455146A (zh) 2022-12-09

Family

ID=84303120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211099324.6A Pending CN115455146A (zh) 2022-09-08 2022-09-08 基于Transformer深度强化学习的知识图谱多跳推理方法

Country Status (1)

Country Link
CN (1) CN115455146A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117829298A (zh) * 2024-03-05 2024-04-05 南京信息工程大学 一种多跳时序知识图谱问答方法及系统
CN118095445A (zh) * 2024-04-24 2024-05-28 武汉纺织大学 一种基于知识图谱的少样本多跳推理优化方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117829298A (zh) * 2024-03-05 2024-04-05 南京信息工程大学 一种多跳时序知识图谱问答方法及系统
CN117829298B (zh) * 2024-03-05 2024-05-14 南京信息工程大学 一种多跳时序知识图谱问答方法及系统
CN118095445A (zh) * 2024-04-24 2024-05-28 武汉纺织大学 一种基于知识图谱的少样本多跳推理优化方法

Similar Documents

Publication Publication Date Title
Benidis et al. Deep learning for time series forecasting: Tutorial and literature survey
US11461654B2 (en) Multi-agent cooperation decision-making and training method
Chen et al. Deep reinforcement learning in recommender systems: A survey and new perspectives
CN111080400B (zh) 一种基于门控图卷积网络的商品推荐方法及系统、存储介质
CN115455146A (zh) 基于Transformer深度强化学习的知识图谱多跳推理方法
US7580813B2 (en) Systems and methods for new time series model probabilistic ARMA
Chen et al. Experiments with repeating weighted boosting search for optimization signal processing applications
Li et al. Video recommendation with multi-gate mixture of experts soft actor critic
CN112149359A (zh) 信任域引导裁剪的策略优化方法、系统、存储介质及应用
CN116542720B (zh) 一种基于图卷积网络的时间增强信息序列推荐方法及系统
Ye et al. Dynamic self-supervised teacher-student network learning
CN116975782A (zh) 基于多层次信息融合的层次化时间序列预测方法和系统
Huang et al. A novel policy based on action confidence limit to improve exploration efficiency in reinforcement learning
Mazoure et al. Contrastive value learning: Implicit models for simple offline rl
Zhang et al. Dynamics-adaptive continual reinforcement learning via progressive contextualization
CN116912620A (zh) 一种具有抗视觉干扰的表征强化学习方法
CN115453880A (zh) 基于对抗神经网络的用于状态预测的生成模型的训练方法
Zheng et al. Variance reduction based partial trajectory reuse to accelerate policy gradient optimization
WO2022011603A1 (en) Video recommendation with multi-gate mixture of experts soft actor critic
CN113673773A (zh) 一种融合知识背景和学习时间预测的学习路径推荐方法
Hong et al. Offline RL with Observation Histories: Analyzing and Improving Sample Complexity
Lee et al. Unsupervised skill discovery for learning shared structures across changing environments
CN117688472B (zh) 一种基于因果结构的无监督域适应多元时间序列分类方法
Gao et al. A Survey of Markov Model in Reinforcement Learning
CN111428744A (zh) 一种保留类型序列信息的异构信息网络表示学习方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination