CN112434171A - 一种基于强化学习的知识图谱推理补全方法及系统 - Google Patents

一种基于强化学习的知识图谱推理补全方法及系统 Download PDF

Info

Publication number
CN112434171A
CN112434171A CN202011345623.4A CN202011345623A CN112434171A CN 112434171 A CN112434171 A CN 112434171A CN 202011345623 A CN202011345623 A CN 202011345623A CN 112434171 A CN112434171 A CN 112434171A
Authority
CN
China
Prior art keywords
strategy network
network
training
knowledge graph
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011345623.4A
Other languages
English (en)
Inventor
李金键
卓汉逵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
National Sun Yat Sen University
Original Assignee
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Sun Yat Sen University filed Critical National Sun Yat Sen University
Priority to CN202011345623.4A priority Critical patent/CN112434171A/zh
Publication of CN112434171A publication Critical patent/CN112434171A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于强化学习的知识图谱推理补全方法及系统,该方法包括:加载数据并对数据进行解析,得到知识图谱的实体和关系的向量表示;基于TranE模型将实体和关系做嵌入并对预构建的策略网络进行预训练,得到预训练策略网络;通过多个奖励函数对预训练策略网络进行再训练,得到训练完成的策略网络;将待测知识图谱输入到训练完成的策略网络,完成对知识图谱的补全。该系统包括:解析模块、预训练模块、再训练模块和补全模块。本发明通过对奖励函数的设计,使得补全的关系推理路径更加可靠且具有多样性。本发明作为一种基于强化学习的知识图谱推理补全方法及系统,可广泛应用于知识图谱领域。

Description

一种基于强化学习的知识图谱推理补全方法及系统
技术领域
本发明属于知识图谱领域,尤其涉及一种基于强化学习的知识图谱推理补全方法及系统。
背景技术
知识图谱是一种大规模语义网络,包括实体、概念及其之间的各种语义关系。其中,强化学习的方法做知识图谱推理则是基于路径的推理,通过强化学习的方法推理出两个实体之间的路径,即实体间包含的关系集,从而找到实体对之间可靠的预测路径,实现知识图谱的补全,但是,目前的知识图谱表示学习模型忽略了这一方面,缺乏对知识图谱中实体之间关系多样性的问题的考虑。
发明内容
为了解决上述技术问题,本发明的目的是提供一种基于强化学习的知识图谱推理补全方法及系统,通过把找到的关系路径作为特征来学习目标关系,实现知识图谱补全的方法。
本发明所采用的第一技术方案是:一种基于强化学习的知识图谱推理补全方法,包括以下步骤:
加载数据并对数据进行解析,得到知识图谱的实体和关系的向量表示;
基于TranE模型将实体和关系做嵌入并对预构建的策略网络进行预训练,得到预训练策略网络;
通过多个奖励函数对预训练策略网络进行再训练,得到训练完成的策略网络;
将待测知识图谱输入到训练完成的策略网络,完成对知识图谱的补全。
进一步,所述加载数据并对数据进行解析,得到知识图谱的实体和关系的向量表示这一步骤,其具体包括:
加载数据并对数据进行解析,得到知识图谱的三元组数据;
为知识图谱的三元组数据中的实体和关系编码并初始化实体和关系的向量表示。
进一步,所述得到训练完成的策略网络后还包括对训练完成的策略网络进行验证,评估策略网络的补全效果。
进一步,所述基于TranE模型将实体和关系做嵌入并对预构建的策略网络进行预训练,得到预训练策略网络这一步骤,其具体包括:
基于TranE模型做嵌入,将知识图谱映射到低维向量空间中;
基于强化学习的路径寻找方法寻找实体之间的关系路径;
对于关系路径,使用蒙塔卡洛策略梯度来最大化期望的累积奖励并更新策略网络,得到预训练策略网络。
进一步,所述使用蒙塔卡洛策略梯度来最大化期望的累积奖励并更新策略网络的表达式如下:
Figure BDA0002799825590000021
上式中,J(θ)为期望的总奖励值,θ为梯度,T为寻找路径的事件总数,R(ST|eS,r)为对应的奖励值,πθ(at|st)为策略网络输出的动作选择的概率,es为头实体,r为查询的关系,at为当前动作,St为当前状态。
进一步,所述多个奖励函数包括全局奖励函数、路径高效性奖励函数、路径多样性奖励函数和有效动作奖励函数。
进一步,所述通过多个奖励函数对预训练策略网络进行再训练,得到训练完成的策略网络这一步骤,其具体还包括:
通过全局奖励函数根据找到的路径的长度给予奖励,更新预训练策略网络;
通过路径高效性奖励函数根据找到的路径的高效性给予奖励,更新预训练策略网络;
通过路径多样性奖励函数根据找到的路径的相似度给予奖励,更新预训练策略网络;
通过有效动作奖励函数根据找到的路径的有效动作给予奖励,更新预训练策略网络;
得到训练完成的策略网络。
进一步,所述预构建的训练网络的输入层为lstm神经网络,输出层通过softmax函数归一化和REINFORCE算法梯度更新策略网络。
本发明所采用的第二技术方案是:一种基于强化学习的知识图谱推理补全系统,包括以下模块:
解析模块,用于加载数据并对数据进行解析,得到知识图谱的实体和关系的向量表示;
预训练模块,基于TranE模型将实体和关系做嵌入并对预构建的策略网络进行预训练,得到预训练策略网络;
再训练模块,用于通过多个奖励函数对预训练策略网络进行再训练,得到训练完成的策略网络;
补全模块,用于将待测知识图谱输入到训练完成的策略网络,完成对知识图谱的补全。
本发明方法及系统的有益效果是:本发明将强化学习领域的技术应用到知识图谱推理补全上,设计特定的奖励函数以及路径寻找中的算法,并且在强化学习模型的基础上加入lstm和图注意力机制,通过特定的奖励函数来控制的关系路径推理,更加可靠且具有多样性。
附图说明
图1是本发明具体实施例一种基于强化学习的知识图谱推理补全方法的步骤流程图;
图2是本发明具体实施例一种基于强化学习的知识图谱推理补全系统的结构框图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
如图1所示,本发明提供了一种基于强化学习的知识图谱推理补全方法,该方法包括以下步骤:
S1、加载数据并对数据进行解析,得到知识图谱的实体和关系的向量表示;
S2、基于TranE模型将实体和关系做嵌入并对预构建的策略网络进行预训练,得到预训练策略网络;
S3、通过多个奖励函数对预训练策略网络进行再训练,得到训练完成的策略网络;
S4、将待测知识图谱输入到训练完成的策略网络,完成对知识图谱的补全。
进一步作为本方法的优选实施例,所述加载数据并对数据进行解析,得到知识图谱的实体和关系的向量表示这一步骤,其具体包括:
加载数据并对数据进行解析,得到知识图谱的三元组数据;
为知识图谱的三元组数据中的实体和关系编码并初始化实体和关系的向量表示。
进一步作为本方法优选实施例,所述得到训练完成的策略网络后还包括对训练完成的策略网络进行验证,评估策略网络的补全效果。
进一步作为本发明的优选实施例,所述基于TranE模型将实体和关系做嵌入并对预构建的策略网络进行预训练,得到预训练策略网络这一步骤,其具体包括:
基于TranE模型做嵌入,将知识图谱映射到低维向量空间中;
基于强化学习的路径寻找方法寻找实体之间的关系路径;
对于关系路径,使用蒙塔卡洛策略梯度来最大化期望的累积奖励并更新策略网络,得到预训练策略网络。
具体地,为了捕捉到实体和关系间的语义信息,使用TranE模型做嵌入,将其映射到低维向量空间中,在该框架中,每个状态捕捉智能体在知识图谱中的位置。在执行一个动作后,智能体会从一个实体移动到另一个实体,两个状态通过刚执行的动作由智能体连接。i实体第t步的状态向量包括:
si,t=[mi,t;ht;ai]
上式中,mi,t表示实体嵌入部分,利用TranE将实体和关系做嵌入,ht为lstm神经网络输出的隐向量,负责记录历史信息,ai为图注意力神经网络输出的注意力向量,代表着i实体邻接的实体对应的权重。
进一步作为本发明优选实施例,所述使用蒙塔卡洛策略梯度来最大化期望的累积奖励并更新策略网络的表达式如下:
Figure BDA0002799825590000041
上式中,J(θ)为期望的总奖励值,θ为梯度,T为寻找路径的事件总数,R(ST|eS,r)为对应的奖励值,πθ(at|st)为策略网络输出的动作选择的概率,es为头实体,r为查询的关系,at为当前动作,St为当前状态。
具体地,对每一个关系,我们首先使用所有正样本(实体对)的子集来学习有监督的策略。对于每个正样本,一个两端BFS被用于找到实体之间的正确路径。
进一步作为本发明优选实施例,所述多个奖励函数包括全局奖励函数、路径高效性奖励函数、路径多样性奖励函数和有效动作奖励函数。
具体地,通过奖励再训练,为了找到受奖励函数控制的推理路径,使用奖励函数来限制监督策略网络,对每个关系,一个实体对的推理被视为一个episode。从源节点开始,智能体根据随机策略选择关系,它是所有关系上的概率分布,以扩展推理路径。关系链接可能引向一个新实体,或者失败,这些失败的步骤会使智能体获得负奖励。
进一步作为本方法的优选实施例,所述通过多个奖励函数对预训练策略网络进行再训练,得到训练完成的策略网络这一步骤,其具体还包括:
通过全局奖励函数根据找到的路径的长度给予奖励,更新预训练策略网络;
具体地,对于当前的强化学习环境,智能体可以执行的操作数量可能非常大,错误的顺序决策比正确的顺序决策多得多,这些错误的决策序列的数量会随着路径的长度呈指数增长,所以设置的全局奖励函数定义如下:
rGLOBAL=+1
通过路径高效性奖励函数根据找到的路径的高效性给予奖励,更新预训练策略网络;
具体地,第二个奖励函数为路径高效性奖励函数,短路径相比长路径通常能提供更多可靠的推理证据,因此该奖励定义为:
Figure BDA0002799825590000051
通过路径多样性奖励函数根据找到的路径的相似度给予奖励,更新预训练策略网络;
具体地,第三个奖励函数为路径多样性奖励函数,为了鼓励智能体找到多样化的路径,使用当前路径和已有路径之间的余弦相似度定义一个多样化奖励函数:
Figure BDA0002799825590000052
通过有效动作奖励函数根据找到的路径的有效动作给予奖励,更新预训练策略网络;
具体地,第四个奖励函数为有效动作奖励函数,在寻找路径失败时对其失败路径中的有效动作,设计算法来选出来对有效动作集进行奖励:
rvalid=+1
得到训练完成的策略网络。
具体地,本专利主要特色之一在于对奖励函数的设计,通过对找到路径的高效性、长度、路径相似度分别给予奖励,使找到的路径具有多样性、找路径的速率以及路径的长度满足特定的要求。
进一步作为本方法的优选实施例,所述预构建的训练网络的输入层为lstm神经网络,输出层通过softmax函数归一化和REINFORCE算法梯度更新策略网络。
如图2所示,一种基于强化学习的知识图谱推理补全系统,包括以下模块:
解析模块,用于加载数据并对数据进行解析,得到知识图谱的实体和关系的向量表示;
预训练模块,基于TranE模型将实体和关系做嵌入并对预构建的策略网络进行预训练,得到预训练策略网络;
再训练模块,用于通过多个奖励函数对预训练策略网络进行再训练,得到训练完成的策略网络;
补全模块,用于将待测知识图谱输入到训练完成的策略网络,完成对知识图谱的补全。
进一步作为本系统的优选实施例,所解析模块还包括以下子模块:
加载子模块,用于加载数据并对数据进行解析,得到知识图谱的三元组数据;。
初始化子模块,用于为知识图谱的三元组数据中的实体和关系编码并初始化实体和关系的向量表示。
进一步作为本系统的优选实施例,所述预训练模块还包括以下子模块:
嵌入子模块,基于TranE模型做嵌入,将知识图谱映射到低维向量空间中;
路径寻找子模块模块,基于强化学习的路径寻找方法寻找实体之间的关系路径;
策略更新子模块,对于关系路径,使用蒙塔卡洛策略梯度来最大化期望的累积奖励并更新策略网络,得到预训练策略网络。
上述系统实施例中的内容均适用于本方法实施例中,本方法实施例所具体实现的功能与上述系统实施例相同,并且达到的有益效果与上述系统实施例所达到的有益效果也相同。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (9)

1.一种基于强化学习的知识图谱推理补全方法,其特征在于,包括以下步骤:
加载数据并对数据进行解析,得到知识图谱的实体和关系的向量表示;
基于TranE模型将实体和关系做嵌入并对预构建的策略网络进行预训练,得到预训练策略网络;
通过多个奖励函数对预训练策略网络进行再训练,得到训练完成的策略网络;
将待测知识图谱输入到训练完成的策略网络,完成对知识图谱的补全。
2.根据权利要求1所述一种基于强化学习的知识图谱推理补全方法,其特征在于,所述加载数据并对数据进行解析,得到知识图谱的实体和关系的向量表示这一步骤,其具体包括:
加载数据并对数据进行解析,得到知识图谱的三元组数据;
为知识图谱的三元组数据中的实体和关系编码并初始化实体和关系的向量表示。
3.根据权利要求2所述一种基于强化学习的知识图谱推理补全方法,其特征在于,所述得到训练完成的策略网络还包括对训练完成的策略网络进行验证,评估策略网络的补全效果。
4.根据权利要求3所述一种基于强化学习的知识图谱推理补全方法,其特征在于,所述基于TranE模型将实体和关系做嵌入并对预构建的策略网络进行预训练,得到预训练策略网络这一步骤,其具体包括:
基于TranE模型做嵌入,将知识图谱映射到低维向量空间中;
基于强化学习的路径寻找方法寻找实体之间的关系路径;
对于关系路径,使用蒙塔卡洛策略梯度来最大化期望的累积奖励并更新策略网络,得到预训练策略网络。
5.根据权利要求4所述一种基于强化学习的知识图谱推理补全方法,其特征在于,所述使用蒙塔卡洛策略梯度来最大化期望的累积奖励并更新策略网络的表达式如下:
Figure FDA0002799825580000011
上式中,J(θ)为期望的总奖励值,θ为梯度,T为寻找路径的事件总数,R(ST|eS,r)为对应的奖励值,πθ(at|st)为策略网络输出的动作选择的概率,es为头实体,r为查询的关系,at为当前动作,St为当前状态。
6.根据权利要求5所述一种基于强化学习的知识图谱推理补全方法,其特征在于,所述多个奖励函数包括全局奖励函数、路径高效性奖励函数、路径多样性奖励函数和有效动作奖励函数。
7.根据权利要求6所述一种基于强化学习的知识图谱推理补全方法,其特征在于,所述通过多个奖励函数对预训练策略网络进行再训练,得到训练完成的策略网络这一步骤,其具体还包括:
通过全局奖励函数根据找到的路径的长度给予奖励,更新预训练策略网络;
通过路径高效性奖励函数根据找到的路径的高效性给予奖励,更新预训练策略网络;
通过路径多样性奖励函数根据找到的路径的相似度给予奖励,更新预训练策略网络;
通过有效动作奖励函数根据找到的路径的有效动作给予奖励,更新预训练策略网络;
得到训练完成的策略网络。
8.根据权利要求7所述一种基于强化学习的知识图谱推理补全方法,其特征在于,所述预构建的训练网络的输入层为lstm神经网络,输出层通过softmax函数归一化和REINFORCE算法梯度更新策略网络。
9.一种基于强化学习的知识图谱推理补全系统,其特征在于,包括以下模块:
解析模块,用于加载数据并对数据进行解析,得到知识图谱的实体和关系的向量表示;
预训练模块,基于TranE模型将实体和关系做嵌入并对预构建的策略网络进行预训练,得到预训练策略网络;
再训练模块,用于通过多个奖励函数对预训练策略网络进行再训练,得到训练完成的策略网络;
补全模块,用于将待测知识图谱输入到训练完成的策略网络,完成对知识图谱的补全。
CN202011345623.4A 2020-11-26 2020-11-26 一种基于强化学习的知识图谱推理补全方法及系统 Pending CN112434171A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011345623.4A CN112434171A (zh) 2020-11-26 2020-11-26 一种基于强化学习的知识图谱推理补全方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011345623.4A CN112434171A (zh) 2020-11-26 2020-11-26 一种基于强化学习的知识图谱推理补全方法及系统

Publications (1)

Publication Number Publication Date
CN112434171A true CN112434171A (zh) 2021-03-02

Family

ID=74697785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011345623.4A Pending CN112434171A (zh) 2020-11-26 2020-11-26 一种基于强化学习的知识图谱推理补全方法及系统

Country Status (1)

Country Link
CN (1) CN112434171A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966591A (zh) * 2021-03-03 2021-06-15 河北工业职业技术学院 面向机械臂抓取任务的知识图谱深度强化学习迁移系统
CN113470811A (zh) * 2021-06-16 2021-10-01 广州中康健数智能科技有限公司 一种基于深度强化学习的辅助智能问诊系统
CN113965450A (zh) * 2021-09-30 2022-01-21 西安交通大学 一种数据中心虚拟基础设施的故障时间分析方法及装置
CN114626530A (zh) * 2022-03-14 2022-06-14 电子科技大学 一种基于双边路径质量评估的强化学习知识图谱推理方法
CN114912637A (zh) * 2022-05-21 2022-08-16 重庆大学 人机物知识图谱制造产线运维决策方法及系统、存储介质
CN115391553A (zh) * 2022-08-23 2022-11-25 西北工业大学 一种自动搜索时序知识图谱补全模型的方法
WO2022262320A1 (zh) * 2021-06-15 2022-12-22 广东电网有限责任公司湛江供电局 基于知识图谱的配电网cim模型信息补全方法及系统
CN115640410A (zh) * 2022-12-06 2023-01-24 南京航空航天大学 基于强化学习路径推理的知识图谱多跳问答方法
CN116010621A (zh) * 2023-01-10 2023-04-25 华中师范大学 一种基于规则引导的自适应路径生成方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190362246A1 (en) * 2018-05-23 2019-11-28 Salesforce.Com, Inc. Multi-hop knowledge graph reasoning with reward shaping
CN111104522A (zh) * 2019-12-20 2020-05-05 武汉理工大学 一种基于知识图谱的区域产业关联效应趋势预测方法
CN111401556A (zh) * 2020-04-22 2020-07-10 清华大学深圳国际研究生院 一种对抗式模仿学习中奖励函数的选择方法
CN111581343A (zh) * 2020-04-24 2020-08-25 北京航空航天大学 基于图卷积神经网络的强化学习知识图谱推理方法及装置
CN111914091A (zh) * 2019-05-07 2020-11-10 四川大学 一种基于强化学习的实体和关系联合抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190362246A1 (en) * 2018-05-23 2019-11-28 Salesforce.Com, Inc. Multi-hop knowledge graph reasoning with reward shaping
CN111914091A (zh) * 2019-05-07 2020-11-10 四川大学 一种基于强化学习的实体和关系联合抽取方法
CN111104522A (zh) * 2019-12-20 2020-05-05 武汉理工大学 一种基于知识图谱的区域产业关联效应趋势预测方法
CN111401556A (zh) * 2020-04-22 2020-07-10 清华大学深圳国际研究生院 一种对抗式模仿学习中奖励函数的选择方法
CN111581343A (zh) * 2020-04-24 2020-08-25 北京航空航天大学 基于图卷积神经网络的强化学习知识图谱推理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈曦 等: ""规则增强的知识图谱表示学习方法"", 《情报工程》, vol. 3, no. 1 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966591A (zh) * 2021-03-03 2021-06-15 河北工业职业技术学院 面向机械臂抓取任务的知识图谱深度强化学习迁移系统
CN112966591B (zh) * 2021-03-03 2023-01-20 河北工业职业技术学院 面向机械臂抓取任务的知识图谱深度强化学习迁移系统
WO2022262320A1 (zh) * 2021-06-15 2022-12-22 广东电网有限责任公司湛江供电局 基于知识图谱的配电网cim模型信息补全方法及系统
CN113470811A (zh) * 2021-06-16 2021-10-01 广州中康健数智能科技有限公司 一种基于深度强化学习的辅助智能问诊系统
CN113965450A (zh) * 2021-09-30 2022-01-21 西安交通大学 一种数据中心虚拟基础设施的故障时间分析方法及装置
CN114626530A (zh) * 2022-03-14 2022-06-14 电子科技大学 一种基于双边路径质量评估的强化学习知识图谱推理方法
CN114912637A (zh) * 2022-05-21 2022-08-16 重庆大学 人机物知识图谱制造产线运维决策方法及系统、存储介质
CN114912637B (zh) * 2022-05-21 2023-08-29 重庆大学 人机物知识图谱制造产线运维决策方法及系统、存储介质
CN115391553A (zh) * 2022-08-23 2022-11-25 西北工业大学 一种自动搜索时序知识图谱补全模型的方法
CN115391553B (zh) * 2022-08-23 2023-10-13 西北工业大学 一种自动搜索时序知识图谱补全模型的方法
CN115640410A (zh) * 2022-12-06 2023-01-24 南京航空航天大学 基于强化学习路径推理的知识图谱多跳问答方法
CN116010621A (zh) * 2023-01-10 2023-04-25 华中师范大学 一种基于规则引导的自适应路径生成方法
CN116010621B (zh) * 2023-01-10 2023-08-11 华中师范大学 一种基于规则引导的自适应路径生成方法

Similar Documents

Publication Publication Date Title
CN112434171A (zh) 一种基于强化学习的知识图谱推理补全方法及系统
Abdar et al. A review of uncertainty quantification in deep learning: Techniques, applications and challenges
CN110569443B (zh) 一种基于强化学习的自适应学习路径规划系统
Weber et al. Beyond explaining: Opportunities and challenges of XAI-based model improvement
Zhan et al. Learning-aided evolution for optimization
Kye et al. Meta-learned confidence for few-shot learning
CN112949929B (zh) 一种基于协同嵌入增强题目表示的知识追踪方法及系统
CN111914094A (zh) 一种基于三元交互的知识图谱表示学习方法
Li et al. Hierarchical diffusion for offline decision making
Shimin et al. Efficient relation-aware scoring function search for knowledge graph embedding
CN115269861A (zh) 基于生成式对抗模仿学习的强化学习知识图谱推理方法
CN111882042A (zh) 用于液体状态机的神经网络架构自动搜索方法、系统及介质
Jeeveswaran et al. Birt: Bio-inspired replay in vision transformers for continual learning
Wei et al. MoCo4SRec: A momentum contrastive learning framework for sequential recommendation
Cui et al. Intelligent fault quantitative identification via the improved deep deterministic policy gradient (DDPG) algorithm accompanied with imbalanced sample
Huang et al. Harnessing deep learning for population genetic inference
CN113326884A (zh) 大规模异构图节点表示的高效学习方法及装置
Caccia et al. Task-Agnostic Continual Reinforcement Learning: Gaining Insights and Overcoming Challenges
CN116561302A (zh) 基于混合知识图谱推理的故障诊断方法、装置及存储介质
CN111882124B (zh) 一种基于生成对抗模仿学习的同质平台发展效应预测方法
Tang et al. Deep sparse representation via deep dictionary learning for reinforcement learning
Iqbal Improving the scalability of XCS-based learning classifier systems
CN110046746B (zh) 一种基于强化学习的网络舆情装置的调度方法
Bacanin et al. Enhanced seagull optimization algorithm adapted for artificial neural network training
Zhang et al. Graph attention MLP with reliable label utilization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination