CN112949988B - 一种基于强化学习的服务流程构造方法 - Google Patents

一种基于强化学习的服务流程构造方法 Download PDF

Info

Publication number
CN112949988B
CN112949988B CN202110139090.2A CN202110139090A CN112949988B CN 112949988 B CN112949988 B CN 112949988B CN 202110139090 A CN202110139090 A CN 202110139090A CN 112949988 B CN112949988 B CN 112949988B
Authority
CN
China
Prior art keywords
service flow
service
neural network
graph
flow chart
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110139090.2A
Other languages
English (en)
Other versions
CN112949988A (zh
Inventor
谭哲越
尹建伟
尚永衡
李莹
邓水光
崔颖华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110139090.2A priority Critical patent/CN112949988B/zh
Publication of CN112949988A publication Critical patent/CN112949988A/zh
Application granted granted Critical
Publication of CN112949988B publication Critical patent/CN112949988B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于强化学习的服务流程构造方法。将流程构造过程视作图生成过程,使用有向无环图来表示服务流程图,并使用基于深度随机游走的方法来生成服务流程图的图嵌入表示向量;将图嵌入向量输入策略神经网络和价值神经网络,策略神经网络的输出为对服务流程图中的下一条边的预测,价值神经网络的输出为对当前服务流程图价值的估计;根据服务流程构造的不同优化目标来设计奖励函数,将其作为神经网络参数学习的信号,并使用基于策略梯度的方法来学习神经网络参数。本发明提供的基于强化学习的服务流程构造方法能根据不同的流程构造目标来学习流程构造方法的参数,并自动化挑选合适的服务实体来进行流程构造。

Description

一种基于强化学习的服务流程构造方法
技术领域
本发明属于人工智能自动化领域,特别地涉及一种基于强化学习的服务流程构造方法。
背景技术
对服务流程进行快速迭代和更新是现代企业在面对高速变化的市场需求时的必然选择,此过程通常由领域专家进行设计和实施,普遍需要大量的人力物力。近年来,国内外提出了许多辅助服务流程创新的方法和工具,例如流程挖掘技术和流程检索技术,前者通过对系统运行日志进行分析和挖掘,提取出实际的服务流程执行过程,为建模人员提供参考;后者通过相似度匹配算法从流程库中匹配满足需求的服务流程,从而辅助业务专家进行流程的改进和创新。这些技术为服务流程的建模和创新提供了辅助参考,然而实际迭代中仍然需要投入大量人力。此外,为用户构造和推荐服务流程也是现代新型服务业的主要业务手段之一,现代服务业企业通过自动化的流程构造和推荐,能够为用户提供多样的个性化的服务流程。
特别地,在为特定的目的设计服务流程、进行流程构造时,面对大量的候选服务实体,业务专家很难通过人工操作来设计和构造合适的服务流程。同时,对候选的服务流程进行评估也需要大量的时间和人力。为了辅助业务专家的服务流程设计和创新,我们需要对相关方法和工具进行研究和开发。
发明内容
为解决上述问题,本发明的目的在于提供一种基于强化学习的服务流程构造方法,它能够使用价值网络对当前的服务流程图进行价值估计,并通过策略网络输出对当前服务流程图的下一条可行边的预测,以对挑选合适的服务实体来进行服务流程的构造。
为实现上述目的,本发明的解决方案为:
一种基于强化学习的服务流程构造方法,将流程构造过程视作图生成过程;使用有向无环图来表示服务流程图,并使用基于深度随机游走来生成服务流程图的图嵌入表示矩阵;其中,服务流程图的特征矩阵初始化为各个服务实体的特征向量;最终的服务流程图的特征向量是由各个服务实体的最终特征向量聚合得到的;将所生成的图嵌入向量作为强化学习方法中的策略神经网络和价值神经网络的输入,策略神经网络的输出为对服务流程图中的下一条边的预测,价值神经网络的输出为对当前服务流程图的价值估计;根据当前服务构造任务的优化目标来设计奖励函数,并将其作为神经网络参数学习的信号;其中,用于学习神经网络参数的强化学习方法是近端策略优化算法。
所述服务流程图由有向无环图来表示,其中图的节点集是服务实体的集合,每个节点为可选的服务实体,图的边集是表示服务流程中两个服务实体之间执行的先后顺序的边的集合;所述的服务流程构造过程被视作图生成过程具体为,使用服务实体作为服务流程中的节点,依次添加有向边来进行服务流程构造;所述的服务流程图可以表示为图嵌入特征向量,具体过程为:首先初始化服务流程图的特征矩阵为各服务实体的特征向量构成的矩阵,并使用深度随机游走来生成服务流程图的各个服务实体的嵌入表示,之后,聚合各个服务实体的特征向量作为此服务流程图的特征向量。
所述神经网络的结构设计为,策略神经网络的输出为服务流程图中的下一条有向边的预测,包含三个输出头,分别输出有向边的先序服务实体的概率分布和后续服务实体的概率分布,以及是否停止流程构造的概率分布;价值神经网络的输出为对当前服务流程图的价值估计,输出头为单个标量数值。
根据当前的服务流程构造任务来设计奖励函数,所述的奖励函数是由当前的服务流程计算对应的指标,并根据最大化和最小化的需求构造得出,奖励函数的数值等于需要最大化的指标减去需要最小化的指标;使用此根据当前服务流程计算奖励数值的函数来提供训练信号,即使用近端策略优化算法来学习神经网络的参数。
与现有技术相比,本发明的有益效果为:本发明提供的基于强化学习的服务流程构造方法能根据不同的流程构造目标来学习流程构造方法的参数,并自动化挑选合适的服务实体来进行流程构造。
附图说明
图1是将服务流程构造过程建模为有向图生成的过程示意图。
图2是使用服务实体特征信息和当前服务流程图来预测下一条边的示意图。
图3是训练时归一化后的奖励参数。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
一种基于强化学习的服务流程构造方法,将流程构造问题视作有向图生成问题,即循环预测和添加候选服务实体之间的有向边,以构造服务流程图。使用有向无环图来表示服务流程图,并通过基于深度随机游走的方法来学习每个服务实体的特征向量,之后将各个服务实体的特征向量聚合得到服务流程图的特征向量;将服务流程图的特征向量用作策略神经网络和价值神经网络的输入,策略神经网络的输出为对下一条可行有向边的预测,价值神经网络的输出则是对当前服务流程的价值估计;训练过程所需要的奖励信号由根据当前服务流程构造的优化目标设计得到的奖励函数来提供。
具体的服务流程构造过程为:如图1所示,初始化所有服务实体,此时的服务流程图中不包含任何边;观察此时的服务实体特征和服务流程图结构,对下一条边进行预测,并将其加入服务流程图,预测;在停止预测边之后,移除未使用的服务实体,此时留下的服务流程即为最终输出的服务流程。
具体的服务流程图的图嵌入特征向量计算方法为:
初始化服务流程图的特征矩阵X为各个服务实体的特征向量矩阵:
X=[…,xi,…]T
其中,xi是第i个服务实体的初始特征向量。然后使用基于深度随机游走方法来计算每个服务实体的嵌入表示,具体为从图中每个连通组件启动若干次随机游走,并收集游走得到的路径,然后根据每个节点在路径中出现的概率来更新每个节点的特征向量。如图2所示,得到的特征向量会用作策略神经网络和价值神经网络的输入。
具体的策略神经网络和价值神经网络的设计结构为:
策略神经网络的输入为服务流程图的图嵌入特征向量,输出头包含三个组件,分别预测第一个节点的概率分布、第二个节点的概率分布,以及是否终止流程构造的概率分布。其中,第二、三个组件的输入同时包含第一、二个组件的输出。
价值神经网络的输入为服务流程图的图嵌入特征向量,输出头则用于输出标量数值,为当前的服务流程图的价值估计。
具体的奖励函数设计方法和训练方法为:
奖励函数是根据服务流程构造的目标来进行设计的,即根据当前服务流程计算其对应的指标,并根据最大化和最小化的需求来构造奖励函数。奖励函数的数值等于需要最大化的指标减去需要最小化的指标。使用此根据当前服务流程来计算奖励数值的函数来提供训练信号,即按照强化学习的训练方法来学习上述策略神经网络和价值神经网络的参数。
实施例
需要进行服务流程构造的一个常见场景是自动为用户构造Web服务流程。例如,用户在定制旅行计划的时候,会用到很多不同的服务实体如车票/机票预定服务、酒店预订服务、路径规划服务和景点导航服务等。通常,在用户规划自己的旅行计划时,会自己根据时间和预算来挑选合适的服务实体来定制计划,这需要用户花费大量的时间和精力。现在,新型服务提供商承担起平台的角色,将多种多样的服务实体整合在一个应用中,减轻用户的使用负担,提高用户体验。同时,新型服务提供商也会提供自动化的规划服务,即根据用户的预算,参照不同的服务实体的QoS指标和使用成本,来自动组织和构造合适的服务流程。这就是常见的服务流程构造问题的优化目标,即在保证完成服务流程所需要的功能的前提下,构造出一条最大化QoS指标且最小化使用成本的服务流程。
也就是说,服务流程构造问题,等价于从若干个不同功能不同指标的候选服务实体中选择出合适的服务实体,来构造高效低成本的服务流程。如图1所示,本发明提出的方法将服务流程构造的过程建模为一个图生成过程,即观察当前的服务流程和服务实体的信息,预测下一条可行的有向边,并将其加入当前的服务流程图。停止生成时,移除未加入服务流程图的服务实体,构造完成的服务实体则为最终的输出。
在本例中,可供选择的服务实体会拥有不同类型的功能,且拥有各自不同的QoS指标。因此,对于服务实体i,我们用一个包含三个组件的向量:
来描述此服务实体的特征,其中,是服务实体i的QoS指标,/>是服务实体i的使用成本,/>是服务实体i的功能向量,它是一个0-1编码。此时,可以将所有候选服务实体的特征向量矩阵记为:
X=[…,xi,…]T
如图2所示,除特征矩阵外,图嵌入部分的输入还包括当前的服务流程图。注意,在初始状态下,服务流程图中不包含任何边,每次预测会给服务流程图添加一条边。图2所示的服务流程图是服务流程构造过程中可能的一种中间状态,此图和上述的特征矩阵一起输入图嵌入层,以计算当前服务流程图的特征向量,其详细过程为:
(1)从每个连通组件的每个结点出发启动一次随机游走;
(2)使用游走得到的路径,按滑动窗口的大小来最大化出现结点的概率,并以此为梯度方向调整对应特征矩阵的权重值。
(3)聚合得到的特征矩阵X中的每个服务实体的特征向量,得到此服务流程图的特征向量:
s=aggregation(X)
然后,使用此特征向量用作策略网络和价值网络的输入。
将上述生成特征向量的过程记作s←f(X),将策略神经网络的计算和价值神经网络分别记作:
(afirst,asecond,astop)←π(s)
v←V(s)
则从原始的服务流程图输入预测得到下一条有向边的完整过程可以由图2所示的结构图来表示。
上述过程是通过当前流程构造的信息来决定下一条边的计算流程,我们使用策略梯度算法来学习神经网络模型的参数。首先我们对强化学习中的奖励函数进行设计,因为流程构造的目标是构造出成本低且最大化QoS指标的服务流程,所以奖励函数的设计为:
R(s,a)=fQoS(s)-fcost(s)-w*(1-Iability(s))
其中,fQoS(S)计算当前服务流程图s的QoS指标,fcost(s)对当前服务流程图s的构造成本进行了评估,在当前的场景下,它们的计算方式分别为:
此外,w为服务流程功能完备性的惩罚系数,Iability(s)输出服务流程s的功能完备性指示,若功能完备则输出1,反之为0。
在上述计算过程的基础上,我们可以与流程构造环境进行交互,以学习策略神经网络和价值神经网络的参数。将策略神经网络和价值神经网络的参数分别记作θ和φ,具体的参数学习的循环过程如下:
(1)运行π(·;θ),收集构造好的流程,并分别计算奖励;
(2)计算每条服务流程的累积奖励R;
(3)根据V(s;φ)计算策略梯度,更新策略网络参数θ;
(4)根据损失函数L=(V(s;φ)-R)2更新价值网络参数φ。
在得到训练好的参数φ和θ之后,则可以使用π(;θ)作为流程构造的策略。本例中,训练过程中的奖励曲线如图3所示,可以看到,随着循环迭代的次数增加,获得的奖励也随之增加,并最终收敛。在进行流程构造时,使用此训练好的策略可以进行自动化的流程构造,构造得到的流程具有优秀的QoS指标和较低的成本。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的一个实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于强化学习的服务流程构造方法,其特征在于,将流程构造过程视作图生成过程;使用有向无环图来表示服务流程图,并使用基于深度随机游走来生成服务流程图的图嵌入表示矩阵;其中,服务流程图的特征矩阵初始化为各个服务实体的特征向量;最终的服务流程图的特征向量是由各个服务实体的最终特征向量聚合得到的;将所生成的图嵌入向量作为强化学习方法中的策略神经网络和价值神经网络的输入,策略神经网络的输出为对服务流程图中的下一条边的预测,价值神经网络的输出为对当前服务流程图的价值估计;根据当前服务构造任务的优化目标来设计奖励函数,并将其作为神经网络参数学习的信号;其中,用于学习神经网络参数的强化学习方法是近端策略优化算法。
2.如权利要求1所述的方法,其特征在于,所述服务流程图由有向无环图来表示,其中图的节点集是服务实体的集合,每个节点为可选的服务实体,图的边集是表示服务流程中两个服务实体之间执行的先后顺序的边的集合;所述的服务流程构造过程被视作图生成过程具体为,使用服务实体作为服务流程中的节点,依次添加有向边来进行服务流程构造;所述的服务流程图可以表示为图嵌入特征向量,具体过程为:首先初始化服务流程图的特征矩阵为各服务实体的特征向量构成的矩阵,并使用深度随机游走来生成服务流程图的各个服务实体的嵌入表示,之后,聚合各个服务实体的特征向量作为此服务流程图的特征向量。
3.如权利要求1所述方法,其特征在于,所述神经网络的结构设计为,策略神经网络的输出为服务流程图中的下一条有向边的预测,包含三个输出头,分别输出有向边的先序服务实体的概率分布和后续服务实体的概率分布,以及是否停止流程构造的概率分布;价值神经网络的输出为对当前服务流程图的价值估计,输出头为单个标量数值。
4.如权利要求1所述方法,其特征在于,根据当前的服务流程构造任务来设计奖励函数,所述的奖励函数是由当前的服务流程计算对应的指标,并根据最大化和最小化的需求构造得出,奖励函数的数值等于需要最大化的指标减去需要最小化的指标;使用此根据当前服务流程计算奖励数值的函数来提供训练信号,即使用近端策略优化算法来学习神经网络的参数。
CN202110139090.2A 2021-02-01 2021-02-01 一种基于强化学习的服务流程构造方法 Active CN112949988B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110139090.2A CN112949988B (zh) 2021-02-01 2021-02-01 一种基于强化学习的服务流程构造方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110139090.2A CN112949988B (zh) 2021-02-01 2021-02-01 一种基于强化学习的服务流程构造方法

Publications (2)

Publication Number Publication Date
CN112949988A CN112949988A (zh) 2021-06-11
CN112949988B true CN112949988B (zh) 2024-01-05

Family

ID=76241173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110139090.2A Active CN112949988B (zh) 2021-02-01 2021-02-01 一种基于强化学习的服务流程构造方法

Country Status (1)

Country Link
CN (1) CN112949988B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110114783A (zh) * 2016-11-04 2019-08-09 渊慧科技有限公司 利用辅助任务的强化学习
CN110971683A (zh) * 2019-11-28 2020-04-07 海南大学 基于强化学习的服务组合方法
CN111401828A (zh) * 2020-02-28 2020-07-10 上海近屿智能科技有限公司 一种强化排序的动态智能面试方法、装置、设备及计算机存储介质
CN111556173A (zh) * 2020-06-24 2020-08-18 中国电子科技集团公司第五十四研究所 一种基于强化学习的服务链映射方法
AU2020103384A4 (en) * 2020-11-11 2021-01-28 Beijing University Of Technology Method for Constructing Energy-efficient Network Content Distribution Mechanism Based on Edge Intelligent Caches

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110114783A (zh) * 2016-11-04 2019-08-09 渊慧科技有限公司 利用辅助任务的强化学习
CN110971683A (zh) * 2019-11-28 2020-04-07 海南大学 基于强化学习的服务组合方法
CN111401828A (zh) * 2020-02-28 2020-07-10 上海近屿智能科技有限公司 一种强化排序的动态智能面试方法、装置、设备及计算机存储介质
CN111556173A (zh) * 2020-06-24 2020-08-18 中国电子科技集团公司第五十四研究所 一种基于强化学习的服务链映射方法
AU2020103384A4 (en) * 2020-11-11 2021-01-28 Beijing University Of Technology Method for Constructing Energy-efficient Network Content Distribution Mechanism Based on Edge Intelligent Caches

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于近距离最大子图优先的业务流程推荐技术;曹斌;尹建伟;邓水光;王东京;徐悦;;计算机学报(第02期);57-68 *

Also Published As

Publication number Publication date
CN112949988A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
Coles et al. Forward-chaining partial-order planning
Xiao et al. Solving software project scheduling problems with ant colony optimization
CN111104522A (zh) 一种基于知识图谱的区域产业关联效应趋势预测方法
Cheng et al. Evolutionary fuzzy hybrid neural network for project cash flow control
CN113762595B (zh) 通行时间预测模型训练方法、通行时间预测方法及设备
CN110007235A (zh) 一种电动汽车蓄电池soc在线预测方法
CN117541026B (zh) 一种智能物流运输车辆调度方法及系统
Zulvia et al. Solving CVRP with time window, fuzzy travel time and demand via a hybrid ant colony optimization and genetic algortihm
CN115099606A (zh) 一种电网调度模型的训练方法及终端
CN114896899A (zh) 一种基于信息交互的多智能体分散式决策方法及系统
CN113326919A (zh) 一种基于计算图的交通出行方式选择预测方法
CN108681751A (zh) 确定事件影响因素的方法及终端设备
CN104537446A (zh) 二层带模糊随机时间窗口车辆路径优化方法
de Mars et al. Reinforcement learning and A* search for the unit commitment problem
KR102656115B1 (ko) 연료전지 시스템의 잔여 수명 예측 방법 및 이를 수행하는 디지털 트윈 장치
CN112949988B (zh) 一种基于强化学习的服务流程构造方法
CN111767991B (zh) 一种基于深度q学习的测控资源调度方法
Goel et al. Evolutionary ant colony algorithm using firefly-based transition for solving vehicle routing problems
CN114648178B (zh) 一种基于ddpg算法的电能计量装置运维策略优化方法
CN114444737B (zh) 基于迁移学习的路面养护智能规划方法
Soroor et al. An advanced adoption model and an algorithm of evaluation agents in automated supplier ranking
Xirogiannis et al. Fuzzy causal maps in business modeling and performance-driven process re-engineering
Pavón et al. A model for parameter setting based on Bayesian networks
CN111882124A (zh) 一种基于生成对抗模仿学习的同质平台发展效应预测方法
Sedlak et al. Active inference on the edge: A design study

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant