CN111882124A

CN111882124A - 一种基于生成对抗模仿学习的同质平台发展效应预测方法

Info

Publication number: CN111882124A
Application number: CN202010697890.1A
Authority: CN
Inventors: 熊盛武; 陈小英; 王盛; 陈伟; 谢泽丰
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2020-11-03
Anticipated expiration: 2040-07-20
Also published as: CN111882124B

Abstract

本发明公开了一种基于生成对抗模仿学习的同质平台发展效应预测方法，首先针对智能网联汽车产业构建完整的产业图谱，将产业图谱内的实体和关系映射到低维的向量空间；然后构建基于生成对抗模仿学习的路径推理模型；接着对路径鉴别器进行训练，使路径鉴别器能够尽可能的区分路径生成器生成的路径和路径采样器采集的路径之间的区别；提取各个区域的时序经济指标的特征；最后基于路径生成器生成路径的语义特征和时序经济指标特征，结合政策、产业布局、经济指标，在政府同质化的引导下对各个区域的发展效应进行预测。本发明避免了人为设计奖励函数，以区域政策、区域产业布局、区域经济指标等多视角方式预测各个区域在同质化引导下的发展效应。

Description

一种基于生成对抗模仿学习的同质平台发展效应预测方法

技术领域

本发明属于生成对抗模仿学习与知识图谱技术领域，涉及一种发展效应预测方法，具体涉及一种基于生成对抗模仿学习的同质平台发展效应预测方法，结合各个区域的产业布局，对各个区域的发展效应进行预测，以求在同质化现象下脱颖而出。

背景技术

随着互联网技术的高速发展，知识图谱的规模也日渐庞大。大规模的知识图谱在很多应用中起到支撑作用，例如问答系统、智能推荐、趋势预测等。一个包含产业结构、产业分布、产业分工、产业内企业关系等因素的完整湖北省智能网联汽车产业图谱内，蕴含了各个区域的产业布局，以及各个产业的上中下游关系。这种产业布局以及上中下游关系在产业图谱内可以以路径的形式体现，基于路径的知识推理可以通过推理模型在产业图谱内搜寻需要的路径。而同质平台发展效应预测则是在产业图谱内各种与政策和产业布局相关的路径上，结合各个区域的经济指标，为各个区域进行发展效应预测。

常见的路径推理模型主要包括路径排序算法RPA和基于强化学习的推理模型。PRA算法通过随机游走来执行多个有界深度优先搜索过程以找到关系路径，但PRA算法在完全离散的空间中运行，难以评估和比较知识图谱中的相似实体和关系。基于强化学习的路径推理模型将推理顺序决策问题，并利用强化学习(RL)来逐步的进行路径搜索，以求让代理获得最大的奖励。但是这种方法需要针对不同的数据集设计不同的奖励函数，常用的终端奖励函数也会造成奖励稀疏问题。

发明内容

为了解决上述技术问题，本发明提出一种基于生成对抗模仿学习的同质平台发展效应预测方法，使用基于生成对抗模仿学习的路径推理模型，将鉴别器提取的生成路径的语义特征作为代理搜寻路径的奖励，从而避免了人为设计奖励函数，并且通过模仿学习能够加快生成器的训练过程。

本发明所采用的技术方案是：一种基于生成对抗模仿学习的同质平台发展效应预测方法，其特征在于，包括以下步骤：

步骤1：针对智能网联汽车产业，构建完整的产业图谱，使用知识图谱嵌入模型将产业图谱内的实体和关系映射到低维的向量空间，实现实体和关系的向量化；

其中，使用TransE模型对产业图谱内的实体和关系进行表示学习，将实体和关系映射到低维的向量空间，实现实体和关系的向量化，后续步骤的实体和关系均以嵌入向量的方式输入；

步骤2：构建基于生成对抗模仿学习的路径推理模型；

所述路径推理模型包括路径生成器、路径采样器以及路径鉴别器；

其中，将基于策略的强化学习模型作为路径生成器，并初始化路径生成器的图谱环境空间，包括状态空间S_t、动作空间A_t、奖励函数R(s_t)；并使用长短期记忆网络LSTM和多层感知器MLP构建策略网络，其中长短期记忆网络LSTM用于提取代理Agent历史路径的路径历史特征；策略网络的输出为代理Agent所在的当前实体e_t的动作空间概率分布，根据概率分布引导代理Agent进行下一步动作；代理Agent在策略网络和问题三元组(e_head,r,e_tail)的引导下，在产业图谱上逐步搜寻多视角路径，为后续的同质平台发展效应预测作支撑；其中，e_head和r表示问题的起始实体和问题关系，e_tail表示该问题的答案实体；

路径采样器使用BI-BFS算法在产业图谱中搜索训练集问题三元组中头实体和尾实体之间的多条路径，并将搜索的路径进行拓扑结构的过滤；其过滤过程是针对每个问题三元组(e_head,r,e_tail)，引入一个关注关系集合R_att，让每条路径的起始关系在关注关系集合之内，以此提高采样路径的有效性；

路径鉴别器使用卷积神经网络CNN抽取生成路径的语义特征D(p)或采样路径的语义特征D(p)，以此区分路径生成器生成的路径p_g和路径采样器采集的路径p_e；使用路径语义特征D(p_g)作为路径生成器代理Agent的奖励，并使用REINFORCE算法训练路径生成器，让代理Agent尽可能多的获得奖励；

步骤3：对路径鉴别器进行训练，使路径鉴别器能够尽可能的区分路径生成器生成的路径p_g和路径采样器采集的路径p_e之间的区别；

步骤4：使用长短期记忆网络LSTM提取各个区域的时序经济指标的特征；

步骤5：基于路径生成器生成路径的语义特征和时序经济指标特征，结合政策、产业布局、经济指标，使用基于生成对抗模仿学习的路径推理模型对各个区域的发展效应进行预测，其中政策和产业布局以路径的形式体现。

本发明的有益效果在于：本发明基于构建完善的湖北省智能网联汽车产业图谱，在政府同质化的引导下，结合区域政策、区域产业布局、区域经济指标等多视角的方式进行各个区域发展效应预测。通过生成对抗模仿学习从产业图谱上寻找与政策和产业布局紧密相关的路径，通过模仿学习代理能够自适应的获得奖励，而不需要人为的设计奖励函数。各个区域的时序经济指标则通过LSTM抽取指标特征，能够在一定程度上反应各个区域发展的好坏。寻找到的路径和经济指标特征能够评估区域内产业底盘与产业布局的质量。进而能够进行各个区域在同质平台下的发展效应预测。

附图说明

图1为本发明实施例的流程图；

图2为本发明实施例的原理图；

图3为本发明实施例的路径生成器结构图；

图4为本发明实施例的路径评估器结构图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1和图2，本发明提供的一种基于生成对抗模仿学习的同质平台发展效应预测方法，包括以下步骤：

步骤1：针对湖北省智能网联汽车产业，构建完整的湖北省智能网联汽车产业图谱，使用知识图谱嵌入模型将产业图谱内的实体和关系映射到低维的向量空间，实现实体和关系的向量化(Embedding)；

本实施例中，将知识图谱内的每个知识三元组(,,)中的关系向量看作头实体向量到尾实体向量的翻译；通过不断调整关系向量的值，使得头实体向量和关系向量之和尽可能与尾实体向量相等，即h+r≈t；

TransE模型的目标函数如下所示：

其中，T表示产业图谱中的知识三元组，T′表示将三元组随机打乱后的负采样三元组，h,r,t分别表示T中三元组的头实体、关系和尾实体，h′,t′分别表示T′中随机打乱三元组中的头实体和尾实体。γ为TransE模型中的超参数；L表示TransE模型中的损失函数，通过训练让其逐渐变小；d表示距离函数，用来衡量h+r和t之间的距离，在这里

步骤2：构建基于生成对抗模仿学习的路径推理模型；

路径推理模型包括路径生成器(Path Generator)、路径采样器(Path Sampler)以及路径鉴别器(Path Discriminator)；

请见图3，本实施例将基于策略的强化学习模型作为路径生成器，并初始化路径生成器的图谱环境空间，包括状态空间S_t、动作空间A_t、奖励函数R(s_t)；并使用长短期记忆网络LSTM和多层感知器MLP构建策略网络，其中长短期记忆网络LSTM用于提取代理Agent历史路径的路径历史特征；策略网络的输出为代理Agent所在的当前实体e_t的动作空间概率分布，根据概率分布引导代理Agent进行下一步动作；代理Agent在策略网络和问题三元组(e_head,r,e_tail)的引导下，在产业图谱上逐步搜寻多视角路径，为后续的同质平台发展效应预测作支撑；其中，e_head和r表示问题的起始实体和问题关系，e_tail表示该问题的答案实体。如问题三元组(湖北，政策影响，应用创新)表示问题湖北发布的政策造成了什么影响，以及答案实体“应用创新”。

其中，状态空间S_t＝(e_s,r_q,e_t)，e_s表示代理Agent起始的实体，r_q表示问题关系，e_t表示代理Agent在第t步时所在的实体；(e_s,r_q)为问题三元组中的问题实体和问题关系，看作推理的全局信息；

动作空间A_t用代理Agent第t步所在的实体e_t的所有邻接实体表示，A_t＝{(r,e)|(e_t,r,e)∈G}，其中r表示关系，e表示邻接实体，G表示产业图谱；为了可以终止搜索和撤销潜在的错误决定，给每个实体加上自循环关系和相反关系；

奖励函数R(s_t)通过路径鉴别器抽取的路径语义信息D(p)来确定，这样避免了人为设计的奖励函数造成的奖励稀疏问题。

在策略网络中，使用长短期记忆网络LSTM对历史路径信息进行编码，提取历史特征；

其中历史路径信息包括代理Agent在t-1步所选择的关系r_t-1以及到达的新实体e_t-1，通过长短期记忆网络LSTM对历史路径(r_t-1,e_t-1)进行编码，提取其特征h_t；

h_t＝LSTM(h_t-1,[r_t-1；e_t-1])

基于提取的路径历史特征，使用多层感知器MLP构建策略网络，引导代理Agent进行下一步动作，策略网络的输出为当前代理Agent动作空间的概率分布π_θ(a_t|s_t,A_t)；

π_θ(a_t|s_t,A_t)＝f(A_t×W₂ReLu(W₁[e_t；h_t；r_q]))

其中f表示softmax函数，W₁和W₂表示可训练的参数，e_t表示当前节点的向量化表示，h_t表示提取的历史路径特征，r_q表示问题关系，A_t表示代理Agent的动作空间，a_t表示代理Agent通过策略网络选择的下一步动作，s_t表示代理Agent在t时刻的状态，[；]表示级联操作；在策略网络中，使用ReLu函数作为激活函数。

路径采样器使用BI-BFS(bi-directional breadth-first search)算法在产业图谱中搜索人为定义的训练集问题三元组中头实体和尾实体之间的多条路径，并将搜索的路径进行拓扑结构的过滤；

其过滤过程是针对每个问题三元组(e_head,r,e_tail)，引入一个关注关系集合R_att，让每条路径的起始关系在关注关系集合之内，以此提高采样路径的有效性；

Ω_e＝bibfs(e_head,e_tail)

p_e＝{x|x(r₁)∈R_att,x∈Ω_e}

其中Ω_e为使用BI-BFS算法抽取的问题三元组中头尾实体之间的所有路径，p_e为使用拓扑结构过滤后的采样路径。

x表示一条路径x＝{(r₁,e₁),(r₂,e₂),…,(r_n,e_n)}，x(r₁)表示路径x中与头实体直接相连的关系。

请见图3，本实施例中路径鉴别器使用卷积神经网络CNN抽取生成路径的语义特征D(p)或采样路径的语义特征D(p)，以此区分路径生成器生成的路径p_g和路径采样器采集的路径(演示)p_e；为了让生成器生成的路径尽可能的与采样器采集的路径(演示)相似，使用路径语义特征D(p_g)作为路径生成器代理Agent的奖励，并使用REINFORCE算法训练路径生成器，其目标是让代理Agent尽可能多的获得奖励；具体如下所示：

其中

为路径的嵌入表示，通过将路径中的关系r和实体e的嵌入向量累加求和得到。

为包含N条路径的路径集合p的实值矩阵表示，

表示级联操作。基于生成或采样的路径实值矩阵

鉴别器使用卷积神经网络CNN提取初步语义特征c，然后通过多层感知器MLP将初步语义特征c转换为更深层次的语义特征D(p)，其中

表示CNN中的卷积核，b_c表示偏置。具体公式如下所示：

D(p)＝sigmoid(W₂ReLU(W₁c))

为了让路径生成器生成的路径与路径采样器采样的路径尽可能的相似，将路径生成器生成路径的语义特征D(p_g)作为奖励函数，其目标函数是使得路径生成器中代理获得最大的奖励，并使用REINFORCE算法训练路径生成器；

具体如下所示：

其中J(θ)为目标函数，

为梯度；

表示知识图谱G中所有的问题三元组，e_s,r_q,e_o分别起始实体、问题关系和答案实体；θ表示策略网络中所有可训练的参数。

步骤3：对路径鉴别器进行训练，使路径鉴别器能够尽可能的区分路径生成器生成的路径p_g和路径采样器采集的路径(演示)p_e之间的区别；

使用WGAN-GP算法对路径鉴别器进行训练，让路径鉴别器能够尽可能的区分路径生成器生成的路径p_g和路径采样器采集的路径(演示)p_e之间的区别，其中损失函数包括评论家损失(original criticloss)和梯度惩罚(gradient penalty)；

具体如下所示：

其中

表示评论家损失，

表示梯度惩罚，

为最后路径鉴别器的损失函数，λ为梯度惩罚系数，

为路径生成器生成的路径p_g和路径采样器采集的路径p_e直接的均匀直线采样，

表示路径

的语义特征，

表示梯度；

表示所有路径语义特征的期望值，D(p_e)表示采样器采集路径的语义特征。

步骤4：使用长短期记忆网络LSTM提取各个区域的时序经济指标的特征，具体包括区域GDP、行业规上工业增加值，区域规上工业增加值等；

经济指标在一定程度上能够很好的衡量一个区域发展的好坏，对于同质平台的发展效应预测有一定的指导作用。因此使用长短期记忆网络LSTM提取各个区域的时序经济指标的特征。具体公式如下所示，其中I_t表示提取出来的时序经济指标的特征，EI_t为t时刻经济指标的值。

I_t＝LSTM(I_t-1,EI_t)

其中EI_t为t时刻各类经济指标的值，，如行业规上工业增加值，区域规上工业增加值等。通过对大量时序的经济指标有选择的记忆和遗忘，LSTM实现了对相关特征的长期记忆，从而提取了时间特征I_t。I_t能够反映出期间内各个区域经济指标的增加或减少的趋势，能够衡量区域内发展的稳定程度。结合区域内的经济指标和全省汽车产业经济指标，动态的评价各个区域在全省产业发展的景气程度下区域内的产业发展情况。

其中政策和产业布局以路径的形式体现，通过训练好的路径生成器在问题三元组的引导下生成与政策和产业布局有关的路径，并通过语义特征提取方法对生成的路径进行特征提取。而经济指标则是通过提取时序经济指标的特征。最后基于路径生成器生成路径的语义特征和时序经济指标特征，各个区域的发展效应进行预测，如图4所示。具体公式如下所示：

t_τ＝sigmoid(W₂ReLU(W₁[I_t×D(p_g)]))

其中t_τ表示考虑政策、产业布局、经济指标等多视角的情况下区域内同质平台发展效应得分，以此来衡量某个区域是否能够在同质化的引导下脱颖而出。I_t表示区域内的时序经济指标特征，D(p_g)表示提取的生成路径特征。

本发明公开了一种基于生成对抗模仿学习的同质平台发展效应预测方法，在各个区域针对智能网联汽车发展的引导和策略最后都会趋于相似的同质化前提下，以多视角的方式进行同质平台的发展效应预测，主要包括政府发布的政策、各种经济数据指标、以及产业的丰富程度，主要考虑产业结构、产业分工、产业分布以及产业内的企业关系等。其中政策和产业的丰富程度在产业图谱上可以以路径的形式体现出来，通过各个区域的路径的数量、丰富程度以及联系的紧密程度来衡量区域内产业底盘的好坏程度。而经济数据指标能够直接的衡量一个区域产业发展的质量。因此使用生成对抗模仿学习去训练生成器在产业图谱上搜寻各个区域与政策、产业布局有关的路径，使用LSTM提取各个区域的时序经济指标的特征，最后基于多层感知器对各个区域的同质平台发展效应进行预测。

应当理解的是，本说明书未详细阐述的部分均属于现有技术；上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于生成对抗模仿学习的同质平台发展效应预测方法，其特征在于，包括以下步骤：

步骤2：构建基于生成对抗模仿学习的路径推理模型；

其中，将基于策略的强化学习模型作为路径生成器，并初始化路径生成器的图谱环境空间，包括状态空间S_t、动作空间A_t、奖励函数R(s_t)；并使用长短期记忆网络LSTM和多层感知器MLP构建策略网络，其中长短期记忆网络LSTM用于提取代理Agent历史路径的路径历史特征；策略网络的输出为代理Agent所在的当前实体e_t的动作空间概率分布，根据概率分布引导代理Agent进行下一步动作；代理Agent在策略网络和问题三元组(e_head，r，e_tail)的引导下，在产业图谱上逐步搜寻多视角路径，为后续的同质平台发展效应预测作支撑；其中，e_head和r表示问题的起始实体和问题关系，e_tail表示该问题的答案实体；

路径采样器使用BI-BFS算法在产业图谱中搜索训练集问题三元组中头实体和尾实体之间的多条路径，并将搜索的路径进行拓扑结构的过滤；其过滤过程是针对每个问题三元组(e_head，r，e_tail)，引入一个关注关系集合R_att，让每条路径的起始关系在关注关系集合之内，以此提高采样路径的有效性；

2.根据权利要求1所述的基于生成对抗模仿学习的同质平台发展效应预测方法，其特征在于：步骤1中，基于TransE模型，将知识图谱内的每个知识三元组(h，r，t)中的关系向量看作头实体向量到尾实体向量的翻译；通过不断调整关系向量的值，使得头实体向量和关系向量之和尽可能与尾实体向量相等，即h+r≈t；

TransE模型的目标函数如下所示：

其中，T表示产业图谱中的知识三元组，T′表示将三元组随机打乱后的负采样三元组，h，r，t分别表示T中三元组的头实体、关系和尾实体，h′，t′分别表示T′中随机打乱三元组中的头实体和尾实体；γ为TransE模型中的超参数；L表示TransE模型中的损失函数，通过训练让其逐渐变小；d表示距离函数，用来衡量h+r和t之间的距离，在这里

3.根据权利要求1所述的基于生成对抗模仿学习的同质平台发展效应预测方法，其特征在于：步骤2中，状态空间S_t＝(e_s，r_q，e_t)，e_s表示代理Agent起始的实体，r_q表示问题关系，e_t表示代理Agent在第t步时所在的实体；(e_s，r_q)为问题三元组中的问题实体和问题关系，看作推理的全局信息；

动作空间A_t用代理Agent第t步所在的实体e_t的所有邻接实体表示，A_t＝{(r，e)|(e_t，r，e)∈G}，其中r表示关系，e表示邻接实体，G表示产业图谱；每个实体具有自循环关系和相反关系；

奖励函数R(s_t)通过路径鉴别器抽取的路径语义信息D(p)来确定。

4.根据权利要求1所述的基于生成对抗模仿学习的同质平台发展效应预测方法，其特征在于：步骤2中，在策略网络中，使用长短期记忆网络LSTM对历史路径信息进行编码，提取历史特征；

其中历史路径信息包括代理Agent在t-1步所选择的关系r_t-1以及到达的新实体e_t-1，通过长短期记忆网络LSTM对历史路径(r_t-1，e_t-1)进行编码，提取其特征h_t；

h_t＝LSTM(h_t-1，[r_t-1；e_t-1])

基于提取的路径历史特征，使用多层感知器MLP构建策略网络，引导代理Agent进行下一步动作，策略网络的输出为当前代理Agent动作空间的概率分布π_θ(a_t|s_t，A_t)；

π_θ(a_t|s_t，A_t)＝f(A_t×W₂ReLu(W₁[e_t；h_t；r_q]))

5.根据权利要求1所述的基于生成对抗模仿学习的同质平台发展效应预测方法，其特征在于：步骤2中，针对每个问题三元组(e_head，r，e_tail)，引入一个关注关系集合R_att，让每条路径的起始关系在关注关系集合之内；

Ω_e＝bibfs(e_head，e_tail)

p_e＝{x|x(r₁)∈R_att，x∈Ω_e}

其中Ω_e为使用BI-BFS算法抽取的问题三元组中头尾实体之间的所有路径，p_e为使用拓扑结构过滤后的采样路径；

x表示一条路径x＝{(r₁，e₁)，(r₂，e₂)，...，(r_n，e_n)}，x(r₁)表示路径x中与头实体直接相连的关系。

6.根据权利要求1所述的基于生成对抗模仿学习的同质平台发展效应预测方法，其特征在于：步骤2中，

其中

为路径的嵌入表示，通过将路径中的关系r和实体e的嵌入向量累加求和得到；

为包含N条路径的路径集合p的实值矩阵表示，

表示级联操作；

基于生成或采样的路径实值矩阵

路径鉴别器使用卷积神经网络CNN提取初步语义特征c，然后通过多层感知器MLP将初步语义特征c转换为更深层次的语义特征D(p)；

D(p)＝sigmoid(W₂ReLU(W₁c))

其中

表示CNN中的卷积核，b_c表示偏置；

为了让生成器生成的路径与采样器采样的路径尽可能的相似，将路径生成器生成路径的语义特征D(p_g)作为奖励函数，其目标函数是使得生成器中代理获得最大的奖励，并使用REINFORCE算法训练路径生成器；

其中J(θ)为目标函数，

为梯度；

表示知识图谱G中所有的问题三元组，e_s，r_q，e_o分别起始实体、问题关系和答案实体；θ表示策略网络中所有可训练的参数。

7.根据权利要求1所述的基于生成对抗模仿学习的同质平台发展效应预测方法，其特征在于：步骤3中，使用WGAN-GP算法对路径鉴别器进行训练，让路径鉴别器能够尽可能的区分路径生成器生成的路径p_g和路径采样器采集的路径p_e之间的区别，其中损失函数包括评论家损失和梯度惩罚；

具体如下所示：

其中

表示评论家损失，

表示梯度惩罚，

为最后路径鉴别器的损失函数，λ为梯度惩罚系数，

表示路径

的语义特征，

表示梯度；

8.根据权利要求1所述的基于生成对抗模仿学习的同质平台发展效应预测方法，其特征在于：步骤4中，使用长短期记忆网络LSTM提取各个区域的时序经济指标的特征；

I_t＝LSTM(I_t-1，EI_t)

其中I_t表示提取出来的时序经济指标的特征，EI_t为t时刻各类经济指标的值，包括行业规上工业增加值，区域规上工业增加值。

9.根据权利要求1-8任意一项所述的基于生成对抗模仿学习的同质平台发展效应预测方法，其特征在于：步骤5中，通过训练好的路径生成器在问题三元组的引导下生成与政策和产业布局有关的路径，并对生成的路径进行路径语义特征提取；最后基于路径生成器生成路径的语义特征和时序经济指标特征，各个区域的发展效应进行预测；

t_τ＝sigmoid(w₂ReLU(W₁[I_t×D(p_g)]))

其中t_τ表示考虑政策、产业布局、经济指标等多视角的情况下区域内同质平台发展效应得分，以此来衡量某个区域是否能够在同质化的引导下脱颖而出；I_t表示区域内的时序经济指标特征，D(p_g)表示提取的生成路径特征。