CN111882124A - 一种基于生成对抗模仿学习的同质平台发展效应预测方法 - Google Patents

一种基于生成对抗模仿学习的同质平台发展效应预测方法 Download PDF

Info

Publication number
CN111882124A
CN111882124A CN202010697890.1A CN202010697890A CN111882124A CN 111882124 A CN111882124 A CN 111882124A CN 202010697890 A CN202010697890 A CN 202010697890A CN 111882124 A CN111882124 A CN 111882124A
Authority
CN
China
Prior art keywords
path
entity
representing
generator
agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010697890.1A
Other languages
English (en)
Other versions
CN111882124B (zh
Inventor
熊盛武
陈小英
王盛
陈伟
谢泽丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202010697890.1A priority Critical patent/CN111882124B/zh
Publication of CN111882124A publication Critical patent/CN111882124A/zh
Application granted granted Critical
Publication of CN111882124B publication Critical patent/CN111882124B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于生成对抗模仿学习的同质平台发展效应预测方法,首先针对智能网联汽车产业构建完整的产业图谱,将产业图谱内的实体和关系映射到低维的向量空间;然后构建基于生成对抗模仿学习的路径推理模型;接着对路径鉴别器进行训练,使路径鉴别器能够尽可能的区分路径生成器生成的路径和路径采样器采集的路径之间的区别;提取各个区域的时序经济指标的特征;最后基于路径生成器生成路径的语义特征和时序经济指标特征,结合政策、产业布局、经济指标,在政府同质化的引导下对各个区域的发展效应进行预测。本发明避免了人为设计奖励函数,以区域政策、区域产业布局、区域经济指标等多视角方式预测各个区域在同质化引导下的发展效应。

Description

一种基于生成对抗模仿学习的同质平台发展效应预测方法
技术领域
本发明属于生成对抗模仿学习与知识图谱技术领域,涉及一种发展效应预测方法,具体涉及一种基于生成对抗模仿学习的同质平台发展效应预测方法,结合各个区域的产业布局,对各个区域的发展效应进行预测,以求在同质化现象下脱颖而出。
背景技术
随着互联网技术的高速发展,知识图谱的规模也日渐庞大。大规模的知识图谱在很多应用中起到支撑作用,例如问答系统、智能推荐、趋势预测等。一个包含产业结构、产业分布、产业分工、产业内企业关系等因素的完整湖北省智能网联汽车产业图谱内,蕴含了各个区域的产业布局,以及各个产业的上中下游关系。这种产业布局以及上中下游关系在产业图谱内可以以路径的形式体现,基于路径的知识推理可以通过推理模型在产业图谱内搜寻需要的路径。而同质平台发展效应预测则是在产业图谱内各种与政策和产业布局相关的路径上,结合各个区域的经济指标,为各个区域进行发展效应预测。
常见的路径推理模型主要包括路径排序算法RPA和基于强化学习的推理模型。PRA算法通过随机游走来执行多个有界深度优先搜索过程以找到关系路径,但PRA算法在完全离散的空间中运行,难以评估和比较知识图谱中的相似实体和关系。基于强化学习的路径推理模型将推理顺序决策问题,并利用强化学习(RL)来逐步的进行路径搜索,以求让代理获得最大的奖励。但是这种方法需要针对不同的数据集设计不同的奖励函数,常用的终端奖励函数也会造成奖励稀疏问题。
发明内容
为了解决上述技术问题,本发明提出一种基于生成对抗模仿学习的同质平台发展效应预测方法,使用基于生成对抗模仿学习的路径推理模型,将鉴别器提取的生成路径的语义特征作为代理搜寻路径的奖励,从而避免了人为设计奖励函数,并且通过模仿学习能够加快生成器的训练过程。
本发明所采用的技术方案是:一种基于生成对抗模仿学习的同质平台发展效应预测方法,其特征在于,包括以下步骤:
步骤1:针对智能网联汽车产业,构建完整的产业图谱,使用知识图谱嵌入模型将产业图谱内的实体和关系映射到低维的向量空间,实现实体和关系的向量化;
其中,使用TransE模型对产业图谱内的实体和关系进行表示学习,将实体和关系映射到低维的向量空间,实现实体和关系的向量化,后续步骤的实体和关系均以嵌入向量的方式输入;
步骤2:构建基于生成对抗模仿学习的路径推理模型;
所述路径推理模型包括路径生成器、路径采样器以及路径鉴别器;
其中,将基于策略的强化学习模型作为路径生成器,并初始化路径生成器的图谱环境空间,包括状态空间St、动作空间At、奖励函数R(st);并使用长短期记忆网络LSTM和多层感知器MLP构建策略网络,其中长短期记忆网络LSTM用于提取代理Agent历史路径的路径历史特征;策略网络的输出为代理Agent所在的当前实体et的动作空间概率分布,根据概率分布引导代理Agent进行下一步动作;代理Agent在策略网络和问题三元组(ehead,r,etail)的引导下,在产业图谱上逐步搜寻多视角路径,为后续的同质平台发展效应预测作支撑;其中,ehead和r表示问题的起始实体和问题关系,etail表示该问题的答案实体;
路径采样器使用BI-BFS算法在产业图谱中搜索训练集问题三元组中头实体和尾实体之间的多条路径,并将搜索的路径进行拓扑结构的过滤;其过滤过程是针对每个问题三元组(ehead,r,etail),引入一个关注关系集合Ratt,让每条路径的起始关系在关注关系集合之内,以此提高采样路径的有效性;
路径鉴别器使用卷积神经网络CNN抽取生成路径的语义特征D(p)或采样路径的语义特征D(p),以此区分路径生成器生成的路径pg和路径采样器采集的路径pe;使用路径语义特征D(pg)作为路径生成器代理Agent的奖励,并使用REINFORCE算法训练路径生成器,让代理Agent尽可能多的获得奖励;
步骤3:对路径鉴别器进行训练,使路径鉴别器能够尽可能的区分路径生成器生成的路径pg和路径采样器采集的路径pe之间的区别;
步骤4:使用长短期记忆网络LSTM提取各个区域的时序经济指标的特征;
步骤5:基于路径生成器生成路径的语义特征和时序经济指标特征,结合政策、产业布局、经济指标,使用基于生成对抗模仿学习的路径推理模型对各个区域的发展效应进行预测,其中政策和产业布局以路径的形式体现。
本发明的有益效果在于:本发明基于构建完善的湖北省智能网联汽车产业图谱,在政府同质化的引导下,结合区域政策、区域产业布局、区域经济指标等多视角的方式进行各个区域发展效应预测。通过生成对抗模仿学习从产业图谱上寻找与政策和产业布局紧密相关的路径,通过模仿学习代理能够自适应的获得奖励,而不需要人为的设计奖励函数。各个区域的时序经济指标则通过LSTM抽取指标特征,能够在一定程度上反应各个区域发展的好坏。寻找到的路径和经济指标特征能够评估区域内产业底盘与产业布局的质量。进而能够进行各个区域在同质平台下的发展效应预测。
附图说明
图1为本发明实施例的流程图;
图2为本发明实施例的原理图;
图3为本发明实施例的路径生成器结构图;
图4为本发明实施例的路径评估器结构图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1和图2,本发明提供的一种基于生成对抗模仿学习的同质平台发展效应预测方法,包括以下步骤:
步骤1:针对湖北省智能网联汽车产业,构建完整的湖北省智能网联汽车产业图谱,使用知识图谱嵌入模型将产业图谱内的实体和关系映射到低维的向量空间,实现实体和关系的向量化(Embedding);
其中,使用TransE模型对产业图谱内的实体和关系进行表示学习,将实体和关系映射到低维的向量空间,实现实体和关系的向量化,后续步骤的实体和关系均以嵌入向量的方式输入;
本实施例中,将知识图谱内的每个知识三元组(,,)中的关系向量看作头实体向量到尾实体向量的翻译;通过不断调整关系向量的值,使得头实体向量和关系向量之和尽可能与尾实体向量相等,即h+r≈t;
TransE模型的目标函数如下所示:
Figure BDA0002591915660000041
其中,T表示产业图谱中的知识三元组,T′表示将三元组随机打乱后的负采样三元组,h,r,t分别表示T中三元组的头实体、关系和尾实体,h′,t′分别表示T′中随机打乱三元组中的头实体和尾实体。γ为TransE模型中的超参数;L表示TransE模型中的损失函数,通过训练让其逐渐变小;d表示距离函数,用来衡量h+r和t之间的距离,在这里
Figure BDA0002591915660000042
步骤2:构建基于生成对抗模仿学习的路径推理模型;
路径推理模型包括路径生成器(Path Generator)、路径采样器(Path Sampler)以及路径鉴别器(Path Discriminator);
请见图3,本实施例将基于策略的强化学习模型作为路径生成器,并初始化路径生成器的图谱环境空间,包括状态空间St、动作空间At、奖励函数R(st);并使用长短期记忆网络LSTM和多层感知器MLP构建策略网络,其中长短期记忆网络LSTM用于提取代理Agent历史路径的路径历史特征;策略网络的输出为代理Agent所在的当前实体et的动作空间概率分布,根据概率分布引导代理Agent进行下一步动作;代理Agent在策略网络和问题三元组(ehead,r,etail)的引导下,在产业图谱上逐步搜寻多视角路径,为后续的同质平台发展效应预测作支撑;其中,ehead和r表示问题的起始实体和问题关系,etail表示该问题的答案实体。如问题三元组(湖北,政策影响,应用创新)表示问题湖北发布的政策造成了什么影响,以及答案实体“应用创新”。
其中,状态空间St=(es,rq,et),es表示代理Agent起始的实体,rq表示问题关系,et表示代理Agent在第t步时所在的实体;(es,rq)为问题三元组中的问题实体和问题关系,看作推理的全局信息;
动作空间At用代理Agent第t步所在的实体et的所有邻接实体表示,At={(r,e)|(et,r,e)∈G},其中r表示关系,e表示邻接实体,G表示产业图谱;为了可以终止搜索和撤销潜在的错误决定,给每个实体加上自循环关系和相反关系;
奖励函数R(st)通过路径鉴别器抽取的路径语义信息D(p)来确定,这样避免了人为设计的奖励函数造成的奖励稀疏问题。
在策略网络中,使用长短期记忆网络LSTM对历史路径信息进行编码,提取历史特征;
其中历史路径信息包括代理Agent在t-1步所选择的关系rt-1以及到达的新实体et-1,通过长短期记忆网络LSTM对历史路径(rt-1,et-1)进行编码,提取其特征ht
ht=LSTM(ht-1,[rt-1;et-1])
基于提取的路径历史特征,使用多层感知器MLP构建策略网络,引导代理Agent进行下一步动作,策略网络的输出为当前代理Agent动作空间的概率分布πθ(at|st,At);
πθ(at|st,At)=f(At×W2ReLu(W1[et;ht;rq]))
其中f表示softmax函数,W1和W2表示可训练的参数,et表示当前节点的向量化表示,ht表示提取的历史路径特征,rq表示问题关系,At表示代理Agent的动作空间,at表示代理Agent通过策略网络选择的下一步动作,st表示代理Agent在t时刻的状态,[;]表示级联操作;在策略网络中,使用ReLu函数作为激活函数。
路径采样器使用BI-BFS(bi-directional breadth-first search)算法在产业图谱中搜索人为定义的训练集问题三元组中头实体和尾实体之间的多条路径,并将搜索的路径进行拓扑结构的过滤;
其过滤过程是针对每个问题三元组(ehead,r,etail),引入一个关注关系集合Ratt,让每条路径的起始关系在关注关系集合之内,以此提高采样路径的有效性;
Ωe=bibfs(ehead,etail)
pe={x|x(r1)∈Ratt,x∈Ωe}
其中Ωe为使用BI-BFS算法抽取的问题三元组中头尾实体之间的所有路径,pe为使用拓扑结构过滤后的采样路径。
x表示一条路径x={(r1,e1),(r2,e2),…,(rn,en)},x(r1)表示路径x中与头实体直接相连的关系。
请见图3,本实施例中路径鉴别器使用卷积神经网络CNN抽取生成路径的语义特征D(p)或采样路径的语义特征D(p),以此区分路径生成器生成的路径pg和路径采样器采集的路径(演示)pe;为了让生成器生成的路径尽可能的与采样器采集的路径(演示)相似,使用路径语义特征D(pg)作为路径生成器代理Agent的奖励,并使用REINFORCE算法训练路径生成器,其目标是让代理Agent尽可能多的获得奖励;具体如下所示:
Figure BDA0002591915660000061
Figure BDA0002591915660000062
其中
Figure BDA0002591915660000063
为路径的嵌入表示,通过将路径中的关系r和实体e的嵌入向量累加求和得到。
Figure BDA0002591915660000064
为包含N条路径的路径集合p的实值矩阵表示,
Figure BDA0002591915660000065
表示级联操作。基于生成或采样的路径实值矩阵
Figure BDA0002591915660000066
鉴别器使用卷积神经网络CNN提取初步语义特征c,然后通过多层感知器MLP将初步语义特征c转换为更深层次的语义特征D(p),其中
Figure BDA00025919156600000612
表示CNN中的卷积核,bc表示偏置。具体公式如下所示:
Figure BDA0002591915660000067
D(p)=sigmoid(W2ReLU(W1c))
为了让路径生成器生成的路径与路径采样器采样的路径尽可能的相似,将路径生成器生成路径的语义特征D(pg)作为奖励函数,其目标函数是使得路径生成器中代理获得最大的奖励,并使用REINFORCE算法训练路径生成器;
具体如下所示:
Figure BDA0002591915660000068
Figure BDA0002591915660000069
其中J(θ)为目标函数,
Figure BDA00025919156600000610
为梯度;
Figure BDA00025919156600000611
表示知识图谱G中所有的问题三元组,es,rq,eo分别起始实体、问题关系和答案实体;θ表示策略网络中所有可训练的参数。
步骤3:对路径鉴别器进行训练,使路径鉴别器能够尽可能的区分路径生成器生成的路径pg和路径采样器采集的路径(演示)pe之间的区别;
使用WGAN-GP算法对路径鉴别器进行训练,让路径鉴别器能够尽可能的区分路径生成器生成的路径pg和路径采样器采集的路径(演示)pe之间的区别,其中损失函数包括评论家损失(original criticloss)和梯度惩罚(gradient penalty);
具体如下所示:
Figure BDA0002591915660000071
Figure BDA0002591915660000072
Figure BDA0002591915660000073
其中
Figure BDA0002591915660000074
表示评论家损失,
Figure BDA0002591915660000075
表示梯度惩罚,
Figure BDA0002591915660000076
为最后路径鉴别器的损失函数,λ为梯度惩罚系数,
Figure BDA0002591915660000077
为路径生成器生成的路径pg和路径采样器采集的路径pe直接的均匀直线采样,
Figure BDA0002591915660000078
表示路径
Figure BDA0002591915660000079
的语义特征,
Figure BDA00025919156600000710
表示梯度;
Figure BDA00025919156600000711
表示所有路径语义特征的期望值,D(pe)表示采样器采集路径的语义特征。
步骤4:使用长短期记忆网络LSTM提取各个区域的时序经济指标的特征,具体包括区域GDP、行业规上工业增加值,区域规上工业增加值等;
经济指标在一定程度上能够很好的衡量一个区域发展的好坏,对于同质平台的发展效应预测有一定的指导作用。因此使用长短期记忆网络LSTM提取各个区域的时序经济指标的特征。具体公式如下所示,其中It表示提取出来的时序经济指标的特征,EIt为t时刻经济指标的值。
It=LSTM(It-1,EIt)
Figure BDA00025919156600000712
其中EIt为t时刻各类经济指标的值,,如行业规上工业增加值,区域规上工业增加值等。通过对大量时序的经济指标有选择的记忆和遗忘,LSTM实现了对相关特征的长期记忆,从而提取了时间特征It。It能够反映出期间内各个区域经济指标的增加或减少的趋势,能够衡量区域内发展的稳定程度。结合区域内的经济指标和全省汽车产业经济指标,动态的评价各个区域在全省产业发展的景气程度下区域内的产业发展情况。
步骤5:基于路径生成器生成路径的语义特征和时序经济指标特征,结合政策、产业布局、经济指标,使用基于生成对抗模仿学习的路径推理模型对各个区域的发展效应进行预测,其中政策和产业布局以路径的形式体现。
其中政策和产业布局以路径的形式体现,通过训练好的路径生成器在问题三元组的引导下生成与政策和产业布局有关的路径,并通过语义特征提取方法对生成的路径进行特征提取。而经济指标则是通过提取时序经济指标的特征。最后基于路径生成器生成路径的语义特征和时序经济指标特征,各个区域的发展效应进行预测,如图4所示。具体公式如下所示:
tτ=sigmoid(W2ReLU(W1[It×D(pg)]))
其中tτ表示考虑政策、产业布局、经济指标等多视角的情况下区域内同质平台发展效应得分,以此来衡量某个区域是否能够在同质化的引导下脱颖而出。It表示区域内的时序经济指标特征,D(pg)表示提取的生成路径特征。
本发明公开了一种基于生成对抗模仿学习的同质平台发展效应预测方法,在各个区域针对智能网联汽车发展的引导和策略最后都会趋于相似的同质化前提下,以多视角的方式进行同质平台的发展效应预测,主要包括政府发布的政策、各种经济数据指标、以及产业的丰富程度,主要考虑产业结构、产业分工、产业分布以及产业内的企业关系等。其中政策和产业的丰富程度在产业图谱上可以以路径的形式体现出来,通过各个区域的路径的数量、丰富程度以及联系的紧密程度来衡量区域内产业底盘的好坏程度。而经济数据指标能够直接的衡量一个区域产业发展的质量。因此使用生成对抗模仿学习去训练生成器在产业图谱上搜寻各个区域与政策、产业布局有关的路径,使用LSTM提取各个区域的时序经济指标的特征,最后基于多层感知器对各个区域的同质平台发展效应进行预测。
应当理解的是,本说明书未详细阐述的部分均属于现有技术;上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (9)

1.一种基于生成对抗模仿学习的同质平台发展效应预测方法,其特征在于,包括以下步骤:
步骤1:针对智能网联汽车产业,构建完整的产业图谱,使用知识图谱嵌入模型将产业图谱内的实体和关系映射到低维的向量空间,实现实体和关系的向量化;
其中,使用TransE模型对产业图谱内的实体和关系进行表示学习,将实体和关系映射到低维的向量空间,实现实体和关系的向量化,后续步骤的实体和关系均以嵌入向量的方式输入;
步骤2:构建基于生成对抗模仿学习的路径推理模型;
所述路径推理模型包括路径生成器、路径采样器以及路径鉴别器;
其中,将基于策略的强化学习模型作为路径生成器,并初始化路径生成器的图谱环境空间,包括状态空间St、动作空间At、奖励函数R(st);并使用长短期记忆网络LSTM和多层感知器MLP构建策略网络,其中长短期记忆网络LSTM用于提取代理Agent历史路径的路径历史特征;策略网络的输出为代理Agent所在的当前实体et的动作空间概率分布,根据概率分布引导代理Agent进行下一步动作;代理Agent在策略网络和问题三元组(ehead,r,etail)的引导下,在产业图谱上逐步搜寻多视角路径,为后续的同质平台发展效应预测作支撑;其中,ehead和r表示问题的起始实体和问题关系,etail表示该问题的答案实体;
路径采样器使用BI-BFS算法在产业图谱中搜索训练集问题三元组中头实体和尾实体之间的多条路径,并将搜索的路径进行拓扑结构的过滤;其过滤过程是针对每个问题三元组(ehead,r,etail),引入一个关注关系集合Ratt,让每条路径的起始关系在关注关系集合之内,以此提高采样路径的有效性;
路径鉴别器使用卷积神经网络CNN抽取生成路径的语义特征D(p)或采样路径的语义特征D(p),以此区分路径生成器生成的路径pg和路径采样器采集的路径pe;使用路径语义特征D(pg)作为路径生成器代理Agent的奖励,并使用REINFORCE算法训练路径生成器,让代理Agent尽可能多的获得奖励;
步骤3:对路径鉴别器进行训练,使路径鉴别器能够尽可能的区分路径生成器生成的路径pg和路径采样器采集的路径pe之间的区别;
步骤4:使用长短期记忆网络LSTM提取各个区域的时序经济指标的特征;
步骤5:基于路径生成器生成路径的语义特征和时序经济指标特征,结合政策、产业布局、经济指标,使用基于生成对抗模仿学习的路径推理模型对各个区域的发展效应进行预测,其中政策和产业布局以路径的形式体现。
2.根据权利要求1所述的基于生成对抗模仿学习的同质平台发展效应预测方法,其特征在于:步骤1中,基于TransE模型,将知识图谱内的每个知识三元组(h,r,t)中的关系向量看作头实体向量到尾实体向量的翻译;通过不断调整关系向量的值,使得头实体向量和关系向量之和尽可能与尾实体向量相等,即h+r≈t;
TransE模型的目标函数如下所示:
Figure FDA0002591915650000021
其中,T表示产业图谱中的知识三元组,T′表示将三元组随机打乱后的负采样三元组,h,r,t分别表示T中三元组的头实体、关系和尾实体,h′,t′分别表示T′中随机打乱三元组中的头实体和尾实体;γ为TransE模型中的超参数;L表示TransE模型中的损失函数,通过训练让其逐渐变小;d表示距离函数,用来衡量h+r和t之间的距离,在这里
Figure FDA0002591915650000022
3.根据权利要求1所述的基于生成对抗模仿学习的同质平台发展效应预测方法,其特征在于:步骤2中,状态空间St=(es,rq,et),es表示代理Agent起始的实体,rq表示问题关系,et表示代理Agent在第t步时所在的实体;(es,rq)为问题三元组中的问题实体和问题关系,看作推理的全局信息;
动作空间At用代理Agent第t步所在的实体et的所有邻接实体表示,At={(r,e)|(et,r,e)∈G},其中r表示关系,e表示邻接实体,G表示产业图谱;每个实体具有自循环关系和相反关系;
奖励函数R(st)通过路径鉴别器抽取的路径语义信息D(p)来确定。
4.根据权利要求1所述的基于生成对抗模仿学习的同质平台发展效应预测方法,其特征在于:步骤2中,在策略网络中,使用长短期记忆网络LSTM对历史路径信息进行编码,提取历史特征;
其中历史路径信息包括代理Agent在t-1步所选择的关系rt-1以及到达的新实体et-1,通过长短期记忆网络LSTM对历史路径(rt-1,et-1)进行编码,提取其特征ht
ht=LSTM(ht-1,[rt-1;et-1])
基于提取的路径历史特征,使用多层感知器MLP构建策略网络,引导代理Agent进行下一步动作,策略网络的输出为当前代理Agent动作空间的概率分布πθ(at|st,At);
πθ(at|st,At)=f(At×W2ReLu(W1[et;ht;rq]))
其中f表示softmax函数,W1和W2表示可训练的参数,et表示当前节点的向量化表示,ht表示提取的历史路径特征,rq表示问题关系,At表示代理Agent的动作空间,at表示代理Agent通过策略网络选择的下一步动作,st表示代理Agent在t时刻的状态,[;]表示级联操作;在策略网络中,使用ReLu函数作为激活函数。
5.根据权利要求1所述的基于生成对抗模仿学习的同质平台发展效应预测方法,其特征在于:步骤2中,针对每个问题三元组(ehead,r,etail),引入一个关注关系集合Ratt,让每条路径的起始关系在关注关系集合之内;
Ωe=bibfs(ehead,etail)
pe={x|x(r1)∈Ratt,x∈Ωe}
其中Ωe为使用BI-BFS算法抽取的问题三元组中头尾实体之间的所有路径,pe为使用拓扑结构过滤后的采样路径;
x表示一条路径x={(r1,e1),(r2,e2),...,(rn,en)},x(r1)表示路径x中与头实体直接相连的关系。
6.根据权利要求1所述的基于生成对抗模仿学习的同质平台发展效应预测方法,其特征在于:步骤2中,
Figure FDA0002591915650000031
Figure FDA0002591915650000032
其中
Figure FDA0002591915650000033
为路径的嵌入表示,通过将路径中的关系r和实体e的嵌入向量累加求和得到;
Figure FDA0002591915650000034
为包含N条路径的路径集合p的实值矩阵表示,
Figure FDA0002591915650000035
表示级联操作;
基于生成或采样的路径实值矩阵
Figure FDA0002591915650000036
路径鉴别器使用卷积神经网络CNN提取初步语义特征c,然后通过多层感知器MLP将初步语义特征c转换为更深层次的语义特征D(p);
Figure FDA0002591915650000041
D(p)=sigmoid(W2ReLU(W1c))
其中
Figure FDA0002591915650000042
表示CNN中的卷积核,bc表示偏置;
为了让生成器生成的路径与采样器采样的路径尽可能的相似,将路径生成器生成路径的语义特征D(pg)作为奖励函数,其目标函数是使得生成器中代理获得最大的奖励,并使用REINFORCE算法训练路径生成器;
Figure FDA0002591915650000043
Figure FDA0002591915650000044
其中J(θ)为目标函数,
Figure FDA0002591915650000045
为梯度;
Figure FDA0002591915650000046
表示知识图谱G中所有的问题三元组,es,rq,eo分别起始实体、问题关系和答案实体;θ表示策略网络中所有可训练的参数。
7.根据权利要求1所述的基于生成对抗模仿学习的同质平台发展效应预测方法,其特征在于:步骤3中,使用WGAN-GP算法对路径鉴别器进行训练,让路径鉴别器能够尽可能的区分路径生成器生成的路径pg和路径采样器采集的路径pe之间的区别,其中损失函数包括评论家损失和梯度惩罚;
具体如下所示:
Figure FDA0002591915650000047
Figure FDA0002591915650000048
Figure FDA0002591915650000049
其中
Figure FDA00025919156500000410
表示评论家损失,
Figure FDA00025919156500000411
表示梯度惩罚,
Figure FDA00025919156500000412
为最后路径鉴别器的损失函数,λ为梯度惩罚系数,
Figure FDA00025919156500000413
为路径生成器生成的路径pg和路径采样器采集的路径pe直接的均匀直线采样,
Figure FDA00025919156500000414
表示路径
Figure FDA00025919156500000415
的语义特征,
Figure FDA00025919156500000416
表示梯度;
Figure FDA00025919156500000417
表示所有路径语义特征的期望值,D(pe)表示采样器采集路径的语义特征。
8.根据权利要求1所述的基于生成对抗模仿学习的同质平台发展效应预测方法,其特征在于:步骤4中,使用长短期记忆网络LSTM提取各个区域的时序经济指标的特征;
It=LSTM(It-1,EIt)
Figure FDA0002591915650000051
其中It表示提取出来的时序经济指标的特征,EIt为t时刻各类经济指标的值,包括行业规上工业增加值,区域规上工业增加值。
9.根据权利要求1-8任意一项所述的基于生成对抗模仿学习的同质平台发展效应预测方法,其特征在于:步骤5中,通过训练好的路径生成器在问题三元组的引导下生成与政策和产业布局有关的路径,并对生成的路径进行路径语义特征提取;最后基于路径生成器生成路径的语义特征和时序经济指标特征,各个区域的发展效应进行预测;
tτ=sigmoid(w2ReLU(W1[It×D(pg)]))
其中tτ表示考虑政策、产业布局、经济指标等多视角的情况下区域内同质平台发展效应得分,以此来衡量某个区域是否能够在同质化的引导下脱颖而出;It表示区域内的时序经济指标特征,D(pg)表示提取的生成路径特征。
CN202010697890.1A 2020-07-20 2020-07-20 一种基于生成对抗模仿学习的同质平台发展效应预测方法 Active CN111882124B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010697890.1A CN111882124B (zh) 2020-07-20 2020-07-20 一种基于生成对抗模仿学习的同质平台发展效应预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010697890.1A CN111882124B (zh) 2020-07-20 2020-07-20 一种基于生成对抗模仿学习的同质平台发展效应预测方法

Publications (2)

Publication Number Publication Date
CN111882124A true CN111882124A (zh) 2020-11-03
CN111882124B CN111882124B (zh) 2022-06-07

Family

ID=73156196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010697890.1A Active CN111882124B (zh) 2020-07-20 2020-07-20 一种基于生成对抗模仿学习的同质平台发展效应预测方法

Country Status (1)

Country Link
CN (1) CN111882124B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836511A (zh) * 2021-01-27 2021-05-25 北京计算机技术及应用研究所 基于协同关系的知识图谱上下文嵌入方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256065A (zh) * 2018-01-16 2018-07-06 智言科技(深圳)有限公司 基于关系检测和强化学习的知识图谱推理方法
CN108268643A (zh) * 2018-01-22 2018-07-10 北京邮电大学 一种基于多粒度lstm网络的深层语义匹配实体链接方法
US20190005024A1 (en) * 2017-06-28 2019-01-03 Microsoft Technology Licensing, Llc Virtual assistant providing enhanced communication session services
CN110298042A (zh) * 2019-06-26 2019-10-01 四川长虹电器股份有限公司 基于Bilstm-crf与知识图谱影视实体识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190005024A1 (en) * 2017-06-28 2019-01-03 Microsoft Technology Licensing, Llc Virtual assistant providing enhanced communication session services
CN108256065A (zh) * 2018-01-16 2018-07-06 智言科技(深圳)有限公司 基于关系检测和强化学习的知识图谱推理方法
CN108268643A (zh) * 2018-01-22 2018-07-10 北京邮电大学 一种基于多粒度lstm网络的深层语义匹配实体链接方法
CN110298042A (zh) * 2019-06-26 2019-10-01 四川长虹电器股份有限公司 基于Bilstm-crf与知识图谱影视实体识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨建梁等: "从电子文件到知识图谱:电子文件知识服务新途径", 《档案学通讯》, no. 02, 18 March 2020 (2020-03-18), pages 12 - 21 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836511A (zh) * 2021-01-27 2021-05-25 北京计算机技术及应用研究所 基于协同关系的知识图谱上下文嵌入方法
CN112836511B (zh) * 2021-01-27 2024-01-30 北京计算机技术及应用研究所 基于协同关系的知识图谱上下文嵌入方法

Also Published As

Publication number Publication date
CN111882124B (zh) 2022-06-07

Similar Documents

Publication Publication Date Title
Gan et al. Knowledge structure enhanced graph representation learning model for attentive knowledge tracing
CN112434171A (zh) 一种基于强化学习的知识图谱推理补全方法及系统
CN113360664B (zh) 一种知识图谱补全方法
CN115511082A (zh) 一种基于图神经网络和强化学习的事实验证方法
Bai et al. RLAT: Multi-hop temporal knowledge graph reasoning based on Reinforcement Learning and Attention Mechanism
CN114818682A (zh) 基于自适应实体路径感知的文档级实体关系抽取方法
CN114648092A (zh) 一种个性化联邦学习加速方法、装置
Setiawan et al. Fuzzy membership functions analysis for usability evaluation of online credit hour form
CN115269861A (zh) 基于生成式对抗模仿学习的强化学习知识图谱推理方法
CN111882124B (zh) 一种基于生成对抗模仿学习的同质平台发展效应预测方法
Kang et al. Generative knowledge-based transfer learning for few-shot health condition estimation
Wei et al. Diff-rntraj: A structure-aware diffusion model for road network-constrained trajectory generation
CN117634599A (zh) 基于知识图谱的路径推理方法、装置、电子设备及介质
Gong et al. Optimization of Local Prediction Algorithm of Financial Time Series Based on Fuzzy Neural Network
CN115204372B (zh) 一种基于项游走图神经网络的前提选择方法及系统
CN116629362A (zh) 一种基于路径搜索的可解释时间图推理方法
CN116719947A (zh) 一种用于电力巡检缺陷检测的知识处理方法及装置
CN116524316A (zh) 强化学习框架下场景图骨架构建方法
Li [Retracted] Forecast and Simulation of the Public Opinion on the Public Policy Based on the Markov Model
CN114372618A (zh) 一种学生成绩的预测方法、系统、计算机设备及存储介质
CN114611990A (zh) 一种网络信息体系要素体系贡献率评估方法和装置
Wang et al. Learning path design on knowledge graph by using reinforcement learning
Wu et al. CenLight: Centralized traffic grid signal optimization via action and state decomposition
Duckham et al. Artificial Intelligence and GIS
Su et al. Deep Reinforcement Learning Algorithm Combining Different Representations to Solve the Traveling Salesman Problem

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant