CN116882503A

CN116882503A - 基于知识推理模型的科技创新服务决策支持方法

Info

Publication number: CN116882503A
Application number: CN202311009175.4A
Authority: CN
Inventors: 陈一立; 王涵
Original assignee: Zhuhai Institute Of Advanced Technology Chinese Academy Of Sciences Co ltd
Current assignee: Zhuhai Institute Of Advanced Technology Chinese Academy Of Sciences Co ltd
Priority date: 2023-08-11
Filing date: 2023-08-11
Publication date: 2023-10-13

Abstract

本发明公开了基于知识推理模型的科技创新服务决策支持方法，所述包括以下操作步骤：S1：实体嵌入；S2：图卷积；S3：顺序处理；S4：基于GAN的强化学习；S5：生成对抗网络。本发明所述的基于知识推理模型的科技创新服务决策支持方法，此方法利用知识图谱本身具有的关联信息，从而利用深度学习与知识图谱结合，实现端到端的可解释性匹配流程，该匹配算法与经典深度学习算法相比，克服了黑盒子缺点，其透明度、可解释程度较高，较容易理解，其决策支持依据可信度较高，基于图结构的推理，并有效地处理序列信息，这可以提高知识推理任务的性能，以此实现更稳健和有效的知识推理。

Description

基于知识推理模型的科技创新服务决策支持方法

技术领域

本发明涉及知识图的推理领域，特别涉及基于知识推理模型的科技创新服务决策支持方法。

背景技术

知识图推理是知识图构建的关键技术之一，在垂直搜索、智能问答等应用场景中发挥着重要作用，它旨在从知识图中已经存在的实体和关系中推断出所需的实体，大多数当前的推理方法，如基于嵌入的方法，全局嵌入所有实体和关系，然后使用向量的相似性来推断实体之间的关系，或者给定的三元组是否为真，然而，在实际应用场景中，一个清晰且可解释的目标实体作为输出推理结果，是知识图谱得以应用的关键。

在解决企业科技创新需求和新型研发机构科技创新人才、机构或部门、服务和成果匹配时，运用到的知识图推理技术，不能对数据进行深度学习，导致其透明度和可解释程度会受到一定的影响，准确率较低且不方便进行理解，导致整体决策支持依据可信度较较低。

因此，提出基于知识推理模型的科技创新服务决策支持方法来解决上述问题很有必要。

发明内容

本发明的主要目的在于提供基于知识推理模型的科技创新服务决策支持方法，可以有效解决背景技术中的问题。

为实现上述目的，本发明采取的技术方案为：

基于知识推理模型的科技创新服务决策支持方法，所述包括以下操作步骤：

S1：实体嵌入：基于BERT模型将知识图谱转化为向量，应用BERT对知识图中与每个实体相关的文本信息进行编码，此步骤允许获取实体的上下文感知表示；

S2：图卷积：应用GCN对知识图进行推理，GCN可以聚合来自相邻实体的信息，并基于图结构更新它们的表示，此步骤可以捕获关系信息并执行推理任务，如链接预测或实体分类；

S3：顺序处理：应用BiLSTM来处理顺序数据，如句子或段落，可以为推理提供额外的上下文信息，可以运用在处理顺序知识上，如文本专利档或叙述；

S4：基于GAN的强化学习：使用GAN框架生成类似于真实世界知识的合成数据样本，生成器组件可以被训练以生成可信的知识表示，而鉴别器组件可以提供关于生成的样本的质量的反馈，随着时间的推移，这种反馈可以用于改进生成器，基于该模型构建指示推理系统，利用建立的知识图谱表示、图形推理、顺序处理和生成模型来执行知识推理任务，最终将输出的知识子图输送给强化学习模型进行将奖励分值计算和结果输出，GAN的目标函数如下：

其中强化学习是一种通过与环境的交互，从而学习决策以达到特定目标的机器学习算法，在强化学习中，机器通过环境从而进行选择，在这个过程会接收到来自环境的反馈，包括奖励或者惩罚以及状态来调整自己的行为准则，并期盼最大化累积奖励从而实现特定的目标，以此催生出智能体，智能体的当前的行为将会影响到后续的决策，以此归纳出强化学习的基本序列，在t时刻，智能体根据对于当前的环境的评估状态为，从而做出来决策行为，环境根据智能体的决策行为给予奖励，智能体接收，并可以获得新的环境评估，并做出下一次的决策行为，其中使用Q-learning进行单步更新算法，其包括以下步骤：

A：定义状态空间和动作空间：确定问题的状态和可执行的动作，状态可以是离散的或连续的，动作可以是离散的或连续的；

B：初始化Q值函数：创建一个Q值表或函数，将所有状态和动作的初始Q值设置为0或随机值；

C：选择动作：根据当前状态和Q值函数选择一个动作，可以使用ε-greedy策略，以一定的概率选择当前最优的动作，以一定的概率选择随机动作；

D：执行动作并观察奖励和下一个状态：将选择的动作应用于环境，并观察得到的奖励和转移到的下一个状态；

E：更新Q值函数：使用更新规则根据观察到的奖励和下一个状态更新Q值函数，Q-earning算法的更新规则是基于贝尔曼方程，通过迭代更新Q值逼近最优值函数；

F：循环执行步骤C到E：在环境中反复执行步骤C到E，直到达到停止条件，例如达到最大迭代次数或Q值收敛；

其中在智能体的状态转移可以看作如下的步骤进行：

a：Score_t表示在时刻t的状态；

b：ACT_t表示在时刻t的动作；

c：P(ACT_t|Score_t…Score_O)表示在给定所有状态Score_o到Score_t的条件下，选择动作的ACT_t的条件概率，其可以被看作为一个概率网络π_Θ，其中Θ作为概率网络的参数，其含义是在t时刻状态下采取ACT的概率，换言之概率网络π_Θ其代表着输出动作的概率分布，并会依据概率采样从而执行动作，执行动作之后，环境状态由Score_t变换到Score_t+1；

在上述的过程中，智能体在每个时间步长中根据策略网络的采样动作，通过执行的动作，完成了整个环境状态的转移的过程，在强化学习中，其奖励函数定义为：其中V(π_θ,D_ψ)表示生成器π_θ和判别器D_ψ之间的价值函数，E_X～data[D_ψ(x)]是对真实数据data的期望，/>是对生成数据x～πθ的期望；

S5：生成对抗网络：其记为GAN，对抗网络是一个由两个神经网络组成的框架，生成器网络和判别器网络，GANs的目标是通过训练生成器网络生成真实样本来生成与真实数据相似的合成数据，而鉴别器网络则学习区分真实样本和伪样本，生成器网络将来自正态分布的随机噪声作为输入，并生成合成样本，它学习将随机噪声映射到所需输出的数据空间，生成器的目标是生成与真实数据相似的样本，从而欺骗判别器，判别器网络从真实数据和生成器中提取样本，并试图将其正确分类为真实数据或虚假数据，它学习区分真实样本和生成的样本，鉴别器的目标是准确地对样本进行分类，GANs的训练过程可以被公式化为两人的极大极小博弈。

优选的，根据步骤S5所述其中生成器试图最小化鉴别器区分真实样本和生成样本的能力，而鉴别器试图最大化其区分能力，在训练期间，生成器和鉴别器网络交替更新，生成器试图最小化目标函数，而鉴别器试图最大化目标函数，这种对抗性训练过程鼓励生成器随着时间的推移产生越来越真实的样本，通过在生成器和鉴别器之间找到平衡。

优选的，根据步骤S4所述目标函数由两个项组成：第一项旨在最大化鉴别器正确分类真实样本的概率，其为：logD(x)，而第二项旨在最大限度地提高鉴别器将生成的样本正确分类为伪样本的可能性，其为：log(1-D(G(z)，其中min_θ表示针对生成器的参数θ进行最小化，max_ψ表示针对判别器的参数ψ进行最大化，V(π_θ,D_ψ)表示生成器π_θ和判别器D_ψ之间的价值函数，E_X～data[D_ψ(x)]是对真实数据data的期望，是对生成数据π_θ的期望。

有益效果

与现有技术相比，本发明提供了基于知识推理模型的科技创新服务决策支持方法，具备以下有益效果：

1、该基于知识推理模型的科技创新服务决策支持方法，通过建立的知识推理模型，其具有情境化表示：BERT、GCN和BiLSTM一起为捕获知识的情境化表示提供了强大的框架，这使得能够更好地理解知识图中实体之间的关系和依赖关系。

2、该基于知识推理模型的科技创新服务决策支持方法，通过建立的知识推理模型，其具有基于可解释性图结构的推理：GCN允许基于图结构进行推理，捕获实体之间的关系信息，这在处理结构化知识，如知识图时尤其有益，因为它有助于执行链接预测和实体分类等推理任务。

3、该基于知识推理模型的科技创新服务决策支持方法，通过建立的知识推理模型，其具有顺序处理：BiLSTM可以捕获句子或段落中的顺序依赖关系，这在处理顺序知识时较有优势，例如文本专利档或叙述，它允许模型理解知识图中信息的顺序和上下文。

4、该基于知识推理模型的科技创新服务决策支持方法，通过建立的知识推理模型，其具有基于生成对抗性网络的推理图生成：GANs提供了一个生成建模框架，可以生成类似真实数据的合成样本，这有利于知识推理，因为它可以生成看似合理的子图或样本，以帮助Q学习中的决策和探索。

5、该基于知识推理模型的科技创新服务决策支持方法，通过建立的知识推理模型，其具有基于Q-learning的决策支持：Q学习是一种公认的强化学习算法，允许模型学习最优行动值函数，通过结合Q学习，系统可以根据学习到的Q值做出明智的决策，同时考虑预期的累积奖励。

6、该基于知识推理模型的科技创新服务决策支持方法，其中增强知识推理促使模型收敛和准确率提高，BERT、GCN和BiLSTM的集成使该模型能够捕获上下文化的表示、基于图结构的推理，并有效地处理序列信息，这可以提高知识推理任务的性能，如链接预测、实体分类和问题回答，此外GANs可以生成类似于真实世界知识的合成子图或样本，这种能力可以用于数据扩充、生成不同的训练示例或探索新的知识场景，从而实现更稳健和有效的知识推理，结合Q学习使模型能够根据学习到的行动价值函数做出明智的决策，这有助于在复杂的知识图中进行决策，并能够探索图的结构，从而实现更有效的推理和行动选择，结构化和非结构化数据的集成：BERT、GCN、BiLSTM和GAN的组合允许结构化知识图和非结构化文本数据的集成，这种集成通过利用自然语言处理中的显式图结构和上下文化表示，实现了全面的推理，从而对知识有了更全面的理解，迁移学习和领域适应：像BERT这样的预训练模型可以在特定领域的知识图上进行微调，促进迁移学习和对特定知识推理任务和领域的适应，这减少了对大量标记数据的需求，并允许更好地概括新的或看不见的知识场景，可解释的知识推理：可以努力开发组合模型的可解释性技术，为其推理过程和决策提供解释，这可以增强模型在实际应用中的可信度和可用性，与现实世界应用程序的集成：这种方法的未来在于将其应用于现实世界的知识密集型领域，如医疗保健、金融或自然语言理解系统，这种组合有可能提高涉及知识推理的应用程序的性能和准确性，包括问答、信息检索、推荐系统和决策支持系统，持续学习和终身推理：探索持续学习和终生推理的技术可以使模型在动态知识环境中有效地适应和推理，这包括增量学习、在线学习和对不断发展的知识图的推理，使模型能够不断更新和完善其知识和推理能力。

附图说明

图1是本发明Bert+GCN+BiLSTM+generativeadversarialnet(GAN)-basedreinforcementle arning的框架图；

图2是本发明强化学习的流程图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

基于知识推理模型的科技创新服务决策支持方法，包括以下操作步骤：

S1：实体嵌入：基于BERT模型将知识图谱转化为向量，应用BERT对知识图中与每个实体相关的文本信息进行编码，此步骤允许获取实体的上下文感知表示。

S2：图卷积：应用GCN对知识图进行推理，GCN可以聚合来自相邻实体的信息，并基于图结构更新它们的表示，此步骤可以捕获关系信息并执行推理任务，如链接预测或实体分类。

S3：顺序处理：应用BiLSTM来处理顺序数据，如句子或段落，可以为推理提供额外的上下文信息，可以运用在处理顺序知识上，如文本专利档或叙述。

目标函数由两个项组成：第一项旨在最大化鉴别器正确分类真实样本的概率，其为：logD(x)，而第二项旨在最大限度地提高鉴别器将生成的样本正确分类为伪样本的可能性，其为：log(1-D(G(z)，其中min_θ表示针对生成器的参数θ进行最小化，max_ψ表示针对判别器的参数ψ进行最大化，V(π_θ,D_ψ)表示生成器π_θ和判别器D_ψ之间的价值函数，E_X～data[D_ψ(x)]是对真实数据data的期望，/>是对生成数据π_θ的期望，其中强化学习是一种通过与环境的交互，从而学习决策以达到特定目标的机器学习算法，在强化学习中，机器通过环境从而进行选择，在这个过程会接收到来自环境的反馈，包括奖励或者惩罚以及状态来调整自己的行为准则，并期盼最大化累积奖励从而实现特定的目标，以此催生出智能体，智能体的当前的行为将会影响到后续的决策，以此归纳出强化学习的基本序列，在t时刻，智能体根据对于当前的环境的评估状态为，从而做出来决策行为，环境根据智能体的决策行为给予奖励，智能体接收，并可以获得新的环境评估，并做出下一次的决策行为，其中使用Q-learning进行单步更新算法，如图2所示，其包括以下步骤：

其中在智能体的状态转移可以看作如下的步骤进行：

a：Score_t表示在时刻t的状态；

b：ACT_t表示在时刻t的动作；

在上述的过程中，智能体在每个时间步长中根据策略网络的采样动作，通过执行的动作，完成了整个环境状态的转移的过程，在强化学习中，其奖励函数定义为：其中V(π_θ,D_ψ)表示生成器π_θ和判别器D_ψ之间的价值函数，E_X～data[D_ψ(x)]是对真实数据data的期望，/>是对生成数据x～πθ的期望。

S5：生成对抗网络：其记为GAN，对抗网络是一个由两个神经网络组成的框架，生成器网络和判别器网络，GANs的目标是通过训练生成器网络生成真实样本来生成与真实数据相似的合成数据，而鉴别器网络则学习区分真实样本和伪样本，生成器网络将来自正态分布的随机噪声作为输入，并生成合成样本，它学习将随机噪声映射到所需输出的数据空间，生成器的目标是生成与真实数据相似的样本，从而欺骗判别器，判别器网络从真实数据和生成器中提取样本，并试图将其正确分类为真实数据或虚假数据，它学习区分真实样本和生成的样本，鉴别器的目标是准确地对样本进行分类，GANs的训练过程可以被公式化为两人的极大极小博弈，其中生成器试图最小化鉴别器区分真实样本和生成样本的能力，而鉴别器试图最大化其区分能力，在训练期间，生成器和鉴别器网络交替更新，生成器试图最小化目标函数，而鉴别器试图最大化目标函数，这种对抗性训练过程鼓励生成器随着时间的推移产生越来越真实的样本，通过在生成器和鉴别器之间找到平衡。

具体实施例一：

Bert+GCN+BiLSTM+generativeadversarialnet(GAN)-basedreinforcementlearning框架如下图1所示，图1中描述了整个框架过程，通过BERT模型将KG中的知识进行嵌入操作，并使用GCN模型进行建模，使用BILSTM来捕获上下文的信息，需要注意的是并不是所有的知识推理过程都需要通过GAN网络进行生成，在上述框架汇总，GAN网络层以及强化学习层，只有在现在有的知识结构中，无法完成相应的操作的时候，才会进一步的进行GAN网络生成操作，强化学习用来控制GAN网络的生成，从而拟合一个好的框架，就如图中所述的信息内容，当询问李明的技术领域的时候，如果图谱中没有关于李明技术领域的信息，则需要通过GAN网络来生成以及推理，最终从李明的部门所属关系以及部门职能推理获得李明的技术领域为人工智能。

具体实施例二：

其中生成对抗网络是一个由两个神经网络组成的框架：生成器网络和判别器网络，GANs的目标是通过训练生成器网络生成真实样本来生成与真实数据相似的合成数据，而鉴别器网络则学习区分真实样本和伪样本，生成器网络将来自正态分布的随机噪声作为输入，并生成合成样本，它学习将随机噪声映射到所需输出的数据空间，生成器的目标是生成与真实数据相似的样本，从而欺骗判别器，判别器网络从真实数据和生成器中提取样本，并试图将其正确分类为真实数据或虚假数据，它学习区分真实样本和生成的样本，鉴别器的目标是准确地对样本进行分类，GANs的训练过程可以被公式化为两人的极大极小博弈，其中生成器试图最小化鉴别器区分真实样本和生成样本的能力，而鉴别器试图最大化其区分能力，在训练期间，生成器和鉴别器网络交替更新，生成器试图最小化目标函数，而鉴别器试图最大化目标函数，这种对抗性训练过程鼓励生成器随着时间的推移产生越来越真实的样本，通过在生成器和鉴别器之间找到平衡，本发明中，生成器通过对节点的生成，结合节点关系，完成知识推理子图的生成，判别器通过对所有节点的误差平均值计算，实现判别器功能。

具体实施例三：

该模型如伪代码7所示，该伪代码概述了一个训练循环，该循环结合了BERT、GCN、BiLSTM和基于GAN的强化学习，其中，知识推理模型BERT、GCN、BiLSTM为决策提供上下文化表示，基于GAN的强化学习用于知识推理和决策，在训练期间，基于鉴别器的反馈，使用GAN框架来训练生成器和鉴别器，使用Q学习来训练Q网络以近似最优动作值函数，经验回放用于存储和采样用于训练Q网络的经验，在伪代码7中，定义了BERT+GCN+BiLSTM+generativeadversarialnet(GAN)-basedreinforcementle arning知识推理模型框架，定义的Bert模型能够学习文本的语义表示，为知识推理提供语义基础，GCN模型可以学习知识图谱的结构信息，为关系推理提供依据，以及BiLSTM双向循环神经网络，可以学习文本的上下信息，GCN网络模型结构，生成器采用Adam优化，判别器采用RMSProp优化，同时定义了强化学习网络，在强化学习结构中，q_networkQ网络模型，用于估计状态-动作价值：Q值，target_q_network是目标Q网络，用于计算优化的目标Q值，q_optimizer为Q网络的优化器，使用Adam优化算法来优化Q网络的参数，gamma为用于计算未来回报的衰减程度，epsilon为探索率，用于ε-贪心策略中的随机探索概率，replay_buffer为经验回放缓冲区，用于存储过往的状态转移经验，随机采样以打破数据相关性，上述结构构建了Qlearning算法的主体模块，算法核心，首先构建模型层，将BERT+GCN+BiLSTM用于构建语义信息，将模型的输出放入到GAN网络中，利用GAN网络并搭配Qlearning算法从而实现模型的推理工作，

/>

伪代码7中的GAN通过输入一个完整的降维和上下文关系学习后的科技创新知识图谱向量以及一些编码后的关键节点，以此生产科技创新需求和子推理知识图，详细展开如伪代码8所示，该伪代码概述了GAN的训练循环，该训练循环根据给定的知识图和一些关键节点生成子图，生成器负责生成子图，而鉴别器试图区分实子图和生成的子图，生成器被训练来欺骗鉴别器，鉴别器被训练来准确地分类真实的和生成的子图，在训练过程中，鉴别器和生成器交替训练，鉴别器的目标是最大限度地提高其区分真实子图和生成子图的能力，而生成器的目标是最小化鉴别器这样做的能力，此外，生成器被训练以生成与通过计算子图损失提供的关键节点相匹配的子图，训练后，生成器可以通过调用sample_generated_subgraph来生成子图。

伪代码8中主要完成的任务为生成图，生成器使用Adam优化器，判别器使用RMSProp优化器，并使用交叉熵损失函数，整个GAN网络生成，分为了判别器和生成器的训练，在判别器的训练中，首先从真实数据采样得到真实图的标签数据以及生成子图的标签数据，使用判别器对真实数据以及子图数据进行判别，并计算损失值，其中包含了生成子图的对抗损失以及真实图的损失两个部分，反向传播计算梯度值从而更新模型参数，同理，在生成器的训练中，首先生成一张子图并获取子图的标签数据，使用判别器对生成子图数据进行判别，并计算损失值，其为计算生成图的对抗损失以及生成图本身的损失两个部分，反向传播计算梯度值从而更新模型参数，

/>

代码7中的基于强化学习实现知识推理主要包括利用Q-learning的奖励机制，判断GAN生成的节点图，即为推理子图是否满足需求和知识事实，伪代码9概述了用于知识推理和决策的Q学习的完整框架，在训练循环期间，基于Q学习更新规则来初始化和更新Q表，ε贪婪策略用于在训练和决策阶段选择动作，在训练之后，通过在决策循环期间选择给定状态的Q值最高的动作，可以使用训练后的Q表来做出决策并执行知识推理，

/>

具体实施例四：

本发明提出的基于知识图谱可解释性知识推理框架在基于事实的分类任务中，通过模型判断三元组的正确与错误，换言之即在的预测的三元组，即为主题-关系-对象中来判别是否正确，这是一项典型的知识推理任务，本发明使用YAGO3-10，FB15k-237作为该任务的基准数据集，在该任务中本发明采用的是MAP作为评测指标，如表1所示，本发明的提出的模型BGRI在与多种模型的对比实验中展现了更好的性能，从而侧面说明了本发明提出的网络结构的可行，模型很好的结合了各个模块的能力，以下为表1：

表1在基准数据集YAGO3-10，FB15k-237性能对比(MAP)

当实现了信息抽取，以及需求匹配功能，当自然语言语句为：“我需要人工智能领域的专家学者，学历为研究生以上，”经过信息抽取任务，将人工智能抽取，并归类于技术领域通过创新服务需求算法，获取到人才需求，组建三元组，选取新型研发机构中提供人工智能的机构，再根据人才需求，选择出所有该技术领域的专家，获取到到子图之后，筛选学历为研究生以上的人才，又因为图谱中对于研究生的节点的包含了硕士，博士，从而推理出学历为硕士，博士的人工智能方向的人才。

综上所述，本发明提出的算法，算法逐层构建推理工程，并利用知识图谱的网状结构，从中推理生成新的信息，模型的总体效果较好。

通过建立的知识推理模型，可以实现基于新型研发机构科技创新服务和企业创新服务需求的知识推理，研究表明，该方法在以下几个方面具有较好的优势：

一：情境化表示：BERT、GCN和BiLSTM一起为捕获知识的情境化表示提供了强大的框架，这使得能够更好地理解知识图中实体之间的关系和依赖关系。

二：基于可解释性图结构的推理：GCN允许基于图结构进行推理，捕获实体之间的关系信息，这在处理结构化知识，如知识图时尤其有益，因为它有助于执行链接预测和实体分类等推理任务。

三：顺序处理：BiLSTM可以捕获句子或段落中的顺序依赖关系，这在处理顺序知识时较有优势，例如文本专利档或叙述，它允许模型理解知识图中信息的顺序和上下文。

四：基于生成对抗性网络的推理图生成：GANs提供了一个生成建模框架，可以生成类似真实数据的合成样本，这有利于知识推理，因为它可以生成看似合理的子图或样本，以帮助Q学习中的决策和探索。

五：基于Q-learning的决策支持：Q学习是一种公认的强化学习算法，允许模型学习最优行动值函数，通过结合Q学习，系统可以根据学习到的Q值做出明智的决策，同时考虑预期的累积奖励。

其中增强知识推理促使模型收敛和准确率提高，BERT、GCN和BiLSTM的集成使该模型能够捕获上下文化的表示、基于图结构的推理，并有效地处理序列信息，这可以提高知识推理任务的性能，如链接预测、实体分类和问题回答，此外GANs可以生成类似于真实世界知识的合成子图或样本，这种能力可以用于数据扩充、生成不同的训练示例或探索新的知识场景，从而实现更稳健和有效的知识推理，结合Q学习使模型能够根据学习到的行动价值函数做出明智的决策，这有助于在复杂的知识图中进行决策，并能够探索图的结构，从而实现更有效的推理和行动选择，结构化和非结构化数据的集成：BERT、GCN、BiLSTM和GAN的组合允许结构化知识图和非结构化文本数据的集成，这种集成通过利用自然语言处理中的显式图结构和上下文化表示，实现了全面的推理，从而对知识有了更全面的理解，迁移学习和领域适应：像BERT这样的预训练模型可以在特定领域的知识图上进行微调，促进迁移学习和对特定知识推理任务和领域的适应，这减少了对大量标记数据的需求，并允许更好地概括新的或看不见的知识场景，可解释的知识推理：可以努力开发组合模型的可解释性技术，为其推理过程和决策提供解释，这可以增强模型在实际应用中的可信度和可用性，与现实世界应用程序的集成：这种方法的未来在于将其应用于现实世界的知识密集型领域，如医疗保健、金融或自然语言理解系统，这种组合有可能提高涉及知识推理的应用程序的性能和准确性，包括问答、信息检索、推荐系统和决策支持系统，持续学习和终身推理：探索持续学习和终生推理的技术可以使模型在动态知识环境中有效地适应和推理，这包括增量学习、在线学习和对不断发展的知识图的推理，使模型能够不断更新和完善其知识和推理能力。

本发明提出了一种新的基于Bert+GCN+BiLSTM+generativeadversarialnet(GAN)-basedreinforcementle arning框架，用于学习多跳关系路径，该框架通过深度学习的结构化感知和强化学习的关系推理，提高了传统方法的效率、泛化能力和可解释性，我们将整个推理过程定义为马尔可夫决策过程，我们使用BERT+GCN将知识图映射到低维空间，并使用消息传递机制来感知每个级别的邻居实体，然后使用BiLSTM来记忆和生成一系列历史轨迹，以形成策略和价值函数，本专利设计了一个GAN生成推理图模块，该模块包括一个生成机制和一个判断机制，生成机制通过生成相关的节点图，该节点携带节点间关系生成知识推理图，由判断器判断正误，最后采用强化学习的奖励机制实现推理输出。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于知识推理模型的科技创新服务决策支持方法，其特征在于：所述包括以下操作步骤：

其中在智能体的状态转移可以看作如下的步骤进行：

a：Score_t表示在时刻t的状态；

b：ACT_t表示在时刻t的动作；

c：P9ACT_t|Score_t…Score_O)表示在给定所有状态Score_o到Score_t的条件下，选择动作的ACT_t的条件概率，其可以被看作为一个概率网络π_Θ，其中Θ作为概率网络的参数，其含义是在t时刻状态下采取ACT的概率，换言之概率网络π_Θ其代表着输出动作的概率分布，并会依据概率采样从而执行动作，执行动作之后，环境状态由Score_t变换到Score_t+1；

2.根据权利要求1所述的基于知识推理模型的科技创新服务决策支持方法，其特征在于：根据步骤S5所述其中生成器试图最小化鉴别器区分真实样本和生成样本的能力，而鉴别器试图最大化其区分能力，在训练期间，生成器和鉴别器网络交替更新，生成器试图最小化目标函数，而鉴别器试图最大化目标函数，这种对抗性训练过程鼓励生成器随着时间的推移产生越来越真实的样本，通过在生成器和鉴别器之间找到平衡。

3.根据权利要求1所述的基于知识推理模型的科技创新服务决策支持方法，其特征在于：根据步骤S4所述目标函数由两个项组成：第一项旨在最大化鉴别器正确分类真实样本的概率，其为：logD(x)，而第二项旨在最大限度地提高鉴别器将生成的样本正确分类为伪样本的可能性，其为：log(1-D(G(z)，其中min_θ表示针对生成器的参数θ进行最小化，max_ψ表示针对判别器的参数ψ进行最大化，V(π_θ,D_ψ)表示生成器π_θ和判别器D_ψ之间的价值函数，E_X～data[D_ψ(x)]是对真实数据data的期望，是对生成数据π_θ的期望。