CN109063870A - 基于q学习的组合服务策略优化方法及系统 - Google Patents
基于q学习的组合服务策略优化方法及系统 Download PDFInfo
- Publication number
- CN109063870A CN109063870A CN201810821480.6A CN201810821480A CN109063870A CN 109063870 A CN109063870 A CN 109063870A CN 201810821480 A CN201810821480 A CN 201810821480A CN 109063870 A CN109063870 A CN 109063870A
- Authority
- CN
- China
- Prior art keywords
- services
- sub
- study
- state
- qos model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000002131 composite material Substances 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000005457 optimization Methods 0.000 title claims abstract description 13
- 239000011159 matrix material Substances 0.000 claims abstract description 22
- 238000010606 normalization Methods 0.000 claims abstract description 16
- 238000011156 evaluation Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 11
- 230000003068 static effect Effects 0.000 claims abstract description 10
- 230000004044 response Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 abstract description 13
- 238000004422 calculation algorithm Methods 0.000 abstract description 4
- 230000008901 benefit Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000005530 etching Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/02—Reservations, e.g. for tickets, services or events
- G06Q10/025—Coordination of plural reservations, e.g. plural trip segments, transportation combined with accommodation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/12—Hotels or restaurants
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/14—Travel agencies
Landscapes
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Engineering & Computer Science (AREA)
- Marketing (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于Q学习的组合服务策略优化方法,该方法包括步骤:步骤1,定义组合服务W中子服务F的QoS模型,根据子服务F的QoS模型确定子服务F的静态信任度;步骤2,根据QoS模型中的属性及业务相同的子服务的个数,得到二维Q矩阵,并将该二维Q矩阵归一化处理,并计算得到每个子服务F的综合评价值;进行Q学习算法学习,根据系统状态Xn做出决策,选择相应的动作直至学习结束,得到组合服务最优策略。本发明基于组合服务中子服务的个数以及每个子服务属性生成状态空间,将组合服务的综合评价值列入效益函数,用于寻找使整个QoS最优的策略,解决单一子服务组合运行时的差异问题。
Description
技术领域
本发明涉及机器学习和云计算技术领域,特别涉及一种基于Q学习的组合服务策略优化方法及系统。
背景技术
组合服务是将多个已经存在的服务按照功能、语义以及它们之间的逻辑关系组合成新的综合服务。而单个服务的供应商一般只关注某一领域业务,开发的服务具有单一和功能有限的特点,往往只能满足某个应用,如天气预报服务、酒店预订服务等等,不能满足大型、复杂的综合服务,如旅游路线规划。服务组合的核心是可靠性问题,组合服务可靠性取决于组合服务信任度,组合服务信任度越高,用户的满意度也越高。
传统的组合服务信任度较多的考虑安全问题,基本上以子服务提供的QoS为基础选择子服务,较少考虑子服务实际组合运行时的差异,并且很少涉及服务组合方式,因此不能适应云计算环境。
发明内容
本发明的目的在于改善现有技术中所存在的上述不足,提供一种基于Q学习的组合服务策略优化方法及系统。
为了实现上述发明目的,本发明实施例提供了以下技术方案:
一种基于Q学习的组合服务策略优化方法,包括以下步骤:
步骤1,定义组合服务W中子服务F的QoS模型,根据子服务F的QoS模型确定子服务F的静态信任度;
步骤2,根据QoS模型中的属性及业务相同的子服务的个数,得到二维Q矩阵,并将该二维Q矩阵归一化处理,并计算得到每个子服务F的综合评价值;
步骤3,初始化Q学习中的折扣因子β、学习步长γh、学习片段数H、状态-行动对的Q值;
步骤4,令决策时刻n=0,选定初始状态并设定总报酬r=0;
步骤5,在当前状态下,根据ε-greedy方法选择行动并执行行动及计算当前状态下的报酬r;
步骤6,判断当前状态是否是终止状态,若不是,则令n:=n+1,并返回步骤5;若是,则更新状态-行动对的Q值,并令h:=h+1,然后判断是否h=H,是则学习结束,得到组合服务最优策略,否则转步骤4,直至学习结束,得到组合服务最优策略;
步骤7,按照得到的组合服务最优策略执行工作流。
本发明同时提供了一种基于Q学习的组合服务策略优化系统,包括以下模块:
QoS模型定义模块,用于定义组合服务W中子服务F的QoS模型,根据子服务F的QoS模型确定子服务F的静态信任度;
综合评价模块,用于根据QoS模型中的属性及业务相同的子服务的个数,得到二维Q矩阵,并将该二维Q矩阵归一化处理,并计算得到每个子服务F的综合评价值;
学习模块,用于按照以下步骤进行学习:
步骤A,初始化Q学习中的折扣因子β、学习步长γh、学习片段数H、状态-行动对的Q值;
步骤B,令决策时刻n=0,选定初始状态并设定总报酬r=0;
步骤C,在当前状态下,根据ε-greedy方法选择行动并执行行动及计算当前状态下的报酬r;
步骤D,判断当前状态是否处于终止状态,若不是,则令n:=n+1,返回步骤C,若是,则进一步判断学习是否结束,若未结束,则更新状态-行动对的Q值,并返回步骤B,进入下一个学习片段,直至学习结束,得到组合服务最优策略;
任务执行模块,用于按照学习模块得到的组合服务最优策略执行工作流。
与现有技术相比,本发明方法及系统,具有以下有益效果:
本发明使用强化学习中的Q学习算法设计组合服务的策略动态制定机制。在传统的服务组合中,子服务实际组合运行时的差异较大,可靠性难以预测。Q学习算法训练组合服务的综合QoS,使其能得到最优或者次优的服务组合策略,取得良好的服务组合可靠性,使其信任度更高,从而使用户的满意度更高。
本发明基于组合服务中子服务的个数以及每个子服务属性生成状态空间,将组合服务的综合评价值列入效益函数,用于寻找使整个QoS最优的策略,解决单一子服务组合运行时的差异问题。更进一步的通过调节综合评价值的效益,满足大型的复杂综合服务需求。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为实施例中所述基于Q学习的组合服务策略优化方法的流程图。
图2为实施例中所述基于Q学习的组合服务策略优化系统的功能模块图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本实施例中提供的基于Q学习的组合服务策略优化方法,包括以下步骤:
步骤1,定义组合服务W中子服务F的QoS模型,根据子服务F的QoS模型确定子服务F的静态信任度。
本步骤中,执行时,子服务F的QoS模型记为QoS(F)=(C(F),T(F),A(F)),子服务F的静态信任度为:
Ts(W,F)=C(F)×r1+A(F)×r2+T(F)×r3
式中,A(F),C(F),T(F)为QoS模型中的属性元素,r1,r2,r3分别是子服务F的各属性元素对应的权重,Ts(W,F)的取值范围为[0,1]。服务费用C(F),响应时间T(F),有效性A(F),本步骤中仅选择了3个具有代表性的QoS属性元素,当前也可以有更多的属性元素,当有新属性元素需要添加时,只需在此模型基础上添加即可。
步骤2,根据QoS模型中的属性及业务相同的子服务的个数,得到二维Q矩阵,并将该二维Q矩阵归一化处理,并计算得到每个子服务F的综合评价值。
本步骤中,具体执行时,将业务相同(即功能相同个体不同)的子服务设为n个,用{F1,F2......Fn}表示,则所述二维Q矩阵为:
其中,m为QoS模型中属性的个数,基于上述步骤1,此处m=3,n为子服务的个数;
将上述二维Q矩阵归一化处理有:
根据归一化后的值,设wij是每个指标的权值,计算每个子服务F的综合评价值为:
由此可见,组合服务的系统状态可用k(此处k指子服务的个数)元组<t1,t2...ti...tk>表示,其中ti=1,2...k∈{0,1},ti=1表示ti节点已经绑定了一项子服务,ti=0表示ti节点还未绑定某项子服务。将Tn表示第n个决策时刻,第n个决策时刻系统的状态记作Xn,Φ表示状态空间。在学习过程中,将从初始状态到下一个目标状态的过程称为学习片段,记为h。
步骤3,初始化Q学习中的折扣因子β、学习步长γh、学习片段数H、状态-行动对的Q值。
步骤4,令决策时刻n=0,选定初始状态并设定总报酬r=0。
步骤5,在状态Xn下,调用子服务F,由状态Xn转移到状态Xn+1的概率为在当前状态下,根据ε-greedy方法选择行动并执行行动
再根据公式计算报酬,有
步骤6,判断状态是否处于终止状态,若不是,则n:=n+1,返回步骤5,若是,则进一步判断学习是否结束,若未结束,则更新状态-行动对的Q值,并返回步骤4,进入下一个学习片段,直至学习结束,得到组合服务最优策略;
更新状态-行动对的Q值时,根据公式
计算差分并根据公式更新h:=h+1,若h=H,学习结束,否则转入步骤3,进入下一个学习片段,直到得到一个收敛的理想Q值表。
步骤7,按照得到的组合服务最优策略执行工作流。
应用举例
在旅游路线推荐服务中,将旅游路线规划总体设为W。其中,酒店预订子服务设为F,其QoS模型记为QoS(F)=(C(F),T(F),A(F)),酒店入住费用C(F),酒店应答时间T(F),酒店的安全程度A(F)。酒店预订子服务F的静态信任度为:
Ts(W,F)=C(F)×0.5+A(F)×0.5+T(F)×0.5
这里取r1=r2=r3=0.5,是各属性元素对应的权重。权重的实际取值跟子服务功能有关,根据实际经验和历史交互数据进行选择。
此处,将酒店预订子服务的个数设为10个,用{F1,F2......F10}表示,并选取上述3个属性来衡量每个子服务的性能,列出二维Q矩阵:
将其归一化:
根据以上归一化后的值,设wij是每个指标的权值,根据客户的偏好选取。
计算每个子服务的综合评价值:
由此可见,在旅游路线推荐服务W中,当子服务包括且仅包括酒店预订服务和天气预报服务这两项子服务时,系统状态可用2元组<t1,t2>表示,其中ti=1,2∈{0,1},ti=1表示ti节点已经绑定了一项子服务,ti=0表示ti节点还未绑定某项子服务。将Tn表示第n个决策时刻,第n个决策时刻系统的状态记作Xn,Φ表示状态空间。在学习过程中,将初始状态到下一个目标状态的学习片段,记为h。
将组合服务使用Q学习算法学习,根据系统状态Xn做出决策,选择相应的动作具体步骤如下:
(1)初始化参数。令h=0,设置折扣因子β=0.5,学习步长γh,学习片段数H,初始化所有状态-行动对的Q值。
(2)令决策时刻n=0,选定初始状态(不是终止状态),并令总报酬r=0;
(3)在状态Xn下,调用子服务F,转移到状态Xn+1的概率为
在状态下,根据ε-greedy方法选择行动并执行行动根据公式
计算报酬,有
(4)判断状态是否处于终止状态,若不是,则n:=n+1,转到(3)。
(5)根据公式
计算差分并根据公式
更新
(6)令h:=h+1,若h=H,学习结束,否则转(2),直到得到一个收敛的理想Q值表。
(7)经过以上步骤可得结果:在Q学习的初期,实验效果欠佳。在子服务数确定的情况下,候选子服务数量将决定组合服务的成功率。但是在经过一定步数的迭代后,最终结果会收敛,从而得到最优或次优的组合服务策略。
请参阅图2,基于相同的发明构思,本实施例中还提供了一种基于Q学习的组合服务策略优化系统,包括以下模块:
QoS模型定义模块,用于定义组合服务W中子服务F的QoS模型,根据子服务F的QoS模型确定子服务F的静态信任度;
综合评价模块,用于根据QoS模型中的属性及业务相同的子服务的个数,得到二维Q矩阵,并将该二维Q矩阵归一化处理,并计算得到每个子服务F的综合评价值;
学习模块,用于按照以下步骤进行学习:
步骤A,初始化Q学习中的折扣因子β、学习步长γh、学习片段数H、状态-行动对的Q值;
步骤B,令决策时刻n=0,选定初始状态并设定总报酬r=0;
步骤C,在当前状态下,根据ε-greedy方法选择行动并执行行动及计算当前状态下的报酬r;
步骤D,判断当前状态是否处于终止状态,若不是,则令n:=n+1,返回步骤C,若是,则更新状态-行动对的Q值,并返回步骤B,进入下一个学习片段,直至学习结束,得到组合服务最优策略;
任务执行模块,用于按照学习模块得到的组合服务最优策略执行工作流。
其中,QoS模型定义模块中,子服务F的QoS模型记为QoS(F)=(C(F),T(F),A(F)),其中,服务费用C(F),响应时间T(F),安全性A(F);子服务F的静态信任度为:
Ts(W,F)=C(F)×r1+A(F)×r2+T(F)×r3
式中,r1,r2,r3分别是子服务F的各属性对应的权重,Ts(W,F)的取值范围为[0,1]。
综合评价模块中,将业务相同的子服务设为n个,用{F1,F2......Fn}表示,则所述二维Q矩阵为:
其中,m为QoS模型中属性的个数,n为子服务的个数;
将上述二维Q矩阵归一化处理有:
根据归一化后的值,设wij是每个指标的权值,计算每个子服务F的综合评价值为:
对于其他模块的具体执行过程,可以参见前述方法实施例中的相应描述,此处不再赘述。
需要说明的是,在本申请所提供的实施例中,应该理解到,所揭露的系统和方法,也可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read‐Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于Q学习的组合服务策略优化方法,其特征在于,包括以下步骤:
步骤1,定义组合服务W中子服务F的QoS模型,根据子服务F的QoS模型确定子服务F的静态信任度;
步骤2,根据QoS模型中的属性及业务相同的子服务的个数,得到二维Q矩阵,并将该二维Q矩阵归一化处理,并计算得到每个子服务F的综合评价值;
步骤3,初始化Q学习中的折扣因子β、学习步长γh、学习片段数H、状态-行动对的Q值;
步骤4,令决策时刻n=0,选定初始状态并设定总报酬r=0;
步骤5,在当前状态下,根据ε-greedy方法选择行动并执行行动及计算当前状态下的报酬r;
步骤6,判断当前状态是否是终止状态,若不是,则令n:=n+1,并返回步骤5;若是,则更新状态-行动对的Q值,并令h:=h+1,然后判断是否h=H,是则学习结束,得到组合服务最优策略,否则转步骤4,直至学习结束,得到组合服务最优策略;
步骤7,按照得到的组合服务最优策略执行工作流。
2.根据权利要求1所述的方法,其特征在于,所述步骤1中,子服务F的QoS模型记为QoS(F)=(C(F),T(F),A(F)),子服务F的静态信任度为:
Ts(W,F)=C(F)×r1+A(F)×r2+T(F)×r3
式中,A(F),C(F),T(F)为QoS模型中的属性元素,r1,r2,r3分别是子服务F的各属性元素对应的权重,Ts(W,F)的取值范围为[0,1]。
3.根据权利要求2所述的方法,其特征在于,所述步骤2中,将业务相同的子服务设为n个,用{F1,F2......Fn}表示,则所述二维Q矩阵为:
其中,m为QoS模型中属性的个数,n为子服务的个数;
将上述二维Q矩阵归一化处理有:
根据归一化后的值,设wij是每个指标的权值,计算每个子服务F的综合评价值为:
4.根据权利要求3所述的方法,其特征在于,所述步骤5中,在状态Xn下,调用子服务F,计算由状态Xn转移到状态Xn+1的概率为
再根据公式:计算当前状态下的报酬,有
5.根据权利要求4所述的方法,其特征在于,所述步骤6中,更新状态-行动对的Q值的过程为:
根据公式计算差分并根据公式更新Q值为
6.一种基于Q学习的组合服务策略优化系统,其特征在于,包括以下模块:
QoS模型定义模块,用于定义组合服务W中子服务F的QoS模型,根据子服务F的QoS模型确定子服务F的静态信任度;
综合评价模块,用于根据QoS模型中的属性及业务相同的子服务的个数,得到二维Q矩阵,并将该二维Q矩阵归一化处理,并计算得到每个子服务F的综合评价值;
学习模块,用于按照以下步骤进行学习:
步骤A,初始化Q学习中的折扣因子β、学习步长γh、学习片段数H、状态-行动对的Q值;
步骤B,令决策时刻n=0,选定初始状态并设定总报酬r=0;
步骤C,在当前状态下,根据ε-greedy方法选择行动并执行行动及计算当前状态下的报酬r;
步骤D,判断当前状态是否处于终止状态,若不是,则令n:=n+1,返回步骤C,若是,则进一步判断学习是否结束,若未结束,则更新状态-行动对的Q值,并返回步骤B,进入下一个学习片段,直至学习结束,得到组合服务最优策略;
任务执行模块,用于按照学习模块得到的组合服务最优策略执行工作流。
7.根据权利要求6所述的系统,其特征在于,QoS模型定义模块中,子服务F的QoS模型记为QoS(F)=(C(F),T(F),A(F)),其中,服务费用C(F),响应时间T(F),安全性A(F);子服务F的静态信任度为:
Ts(W,F)=C(F)×r1+A(F)×r2+T(F)×r3
式中,r1,r2,r3分别是子服务F的各属性对应的权重,Ts(W,F)的取值范围为[0,1]。
8.根据权利要求6所述的系统,其特征在于,综合评价模块中,将业务相同的子服务设为n个,用{F1,F2......Fn}表示,则所述二维Q矩阵为:
其中,m为QoS模型中属性的个数,n为子服务的个数;
将上述二维Q矩阵归一化处理有:
根据归一化后的值,设wij是每个指标的权值,计算每个子服务F的综合评价值为:
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-5任一所述方法包含的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810821480.6A CN109063870B (zh) | 2018-07-24 | 2018-07-24 | 基于q学习的组合服务策略优化方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810821480.6A CN109063870B (zh) | 2018-07-24 | 2018-07-24 | 基于q学习的组合服务策略优化方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109063870A true CN109063870A (zh) | 2018-12-21 |
CN109063870B CN109063870B (zh) | 2022-10-21 |
Family
ID=64835250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810821480.6A Active CN109063870B (zh) | 2018-07-24 | 2018-07-24 | 基于q学习的组合服务策略优化方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109063870B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110971683A (zh) * | 2019-11-28 | 2020-04-07 | 海南大学 | 基于强化学习的服务组合方法 |
CN112862295A (zh) * | 2021-02-02 | 2021-05-28 | 上海市城市建设设计研究总院(集团)有限公司 | 基于q学习的路桥隧养护自主决策方法 |
CN113255347A (zh) * | 2020-02-10 | 2021-08-13 | 阿里巴巴集团控股有限公司 | 实现数据融合的方法和设备及实现无人驾驶设备的识别方法 |
CN117151431A (zh) * | 2023-10-30 | 2023-12-01 | 四川省致链数字科技有限公司 | 一种木质家具订单任务的自动分发方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013023178A1 (en) * | 2011-08-11 | 2013-02-14 | The Trustees Of Columbia University In The City Of New York | Adaptive stochastic controller for dynamic treatment of cyber-physical systems |
CN103248693A (zh) * | 2013-05-03 | 2013-08-14 | 东南大学 | 基于多智能体强化学习的大规模服务组合优化方法 |
CN106878403A (zh) * | 2017-01-25 | 2017-06-20 | 东南大学 | 基于最近探索的启发式服务组合方法 |
CN107070704A (zh) * | 2017-03-22 | 2017-08-18 | 东南大学 | 一种基于QoS的可信Web服务组合优化方法 |
CN107241213A (zh) * | 2017-04-28 | 2017-10-10 | 东南大学 | 一种基于深度强化学习的Web服务组合方法 |
CN107743074A (zh) * | 2017-10-17 | 2018-02-27 | 海南大学 | 一种组合服务的信任度估算方法 |
-
2018
- 2018-07-24 CN CN201810821480.6A patent/CN109063870B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013023178A1 (en) * | 2011-08-11 | 2013-02-14 | The Trustees Of Columbia University In The City Of New York | Adaptive stochastic controller for dynamic treatment of cyber-physical systems |
CN103248693A (zh) * | 2013-05-03 | 2013-08-14 | 东南大学 | 基于多智能体强化学习的大规模服务组合优化方法 |
CN106878403A (zh) * | 2017-01-25 | 2017-06-20 | 东南大学 | 基于最近探索的启发式服务组合方法 |
CN107070704A (zh) * | 2017-03-22 | 2017-08-18 | 东南大学 | 一种基于QoS的可信Web服务组合优化方法 |
CN107241213A (zh) * | 2017-04-28 | 2017-10-10 | 东南大学 | 一种基于深度强化学习的Web服务组合方法 |
CN107743074A (zh) * | 2017-10-17 | 2018-02-27 | 海南大学 | 一种组合服务的信任度估算方法 |
Non-Patent Citations (2)
Title |
---|
TING SHI: "An energy-efficient scheduling scheme for time-constrained tasks in local mobile clouds", 《PERVASIVE AND MOBILE COMPUTING》 * |
刘卫红等: "强化学习方法在Web服务组合中的应用比较研究", 《计算机应用与软件》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110971683A (zh) * | 2019-11-28 | 2020-04-07 | 海南大学 | 基于强化学习的服务组合方法 |
CN110971683B (zh) * | 2019-11-28 | 2021-06-15 | 海南大学 | 基于强化学习的服务组合方法 |
CN113255347A (zh) * | 2020-02-10 | 2021-08-13 | 阿里巴巴集团控股有限公司 | 实现数据融合的方法和设备及实现无人驾驶设备的识别方法 |
CN112862295A (zh) * | 2021-02-02 | 2021-05-28 | 上海市城市建设设计研究总院(集团)有限公司 | 基于q学习的路桥隧养护自主决策方法 |
CN112862295B (zh) * | 2021-02-02 | 2022-06-24 | 上海市城市建设设计研究总院(集团)有限公司 | 基于q学习的路桥隧养护自主决策方法 |
CN117151431A (zh) * | 2023-10-30 | 2023-12-01 | 四川省致链数字科技有限公司 | 一种木质家具订单任务的自动分发方法及系统 |
CN117151431B (zh) * | 2023-10-30 | 2024-01-26 | 四川省致链数字科技有限公司 | 一种木质家具订单任务的自动分发方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109063870B (zh) | 2022-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109063870A (zh) | 基于q学习的组合服务策略优化方法及系统 | |
WO2020147594A1 (zh) | 获取实体间关系表达的方法、系统和设备、广告召回系统 | |
Mistry et al. | Metaheuristic optimization for long-term IaaS service composition | |
Harbaoui Dridi et al. | Optimisation of the multi-depots pick-up and delivery problems with time windows and multi-vehicles using PSO algorithm | |
Huang et al. | A novel two-step procedure for tourism demand forecasting | |
CN103399858A (zh) | 基于信任的社会化协同过滤推荐方法 | |
CN109902823A (zh) | 一种基于生成对抗网络的模型训练方法及设备 | |
Li et al. | An ant colony optimization metaheuristic hybridized with tabu search for open vehicle routing problems | |
CN108665156B (zh) | 区块链下基于马尔科夫链的供应链选择评价方法 | |
Monroy et al. | Time series-based bibliometric analysis of the dynamics of scientific production | |
CN105761154A (zh) | 一种社会化推荐方法及装置 | |
CN112785005A (zh) | 多目标任务的辅助决策方法、装置、计算机设备及介质 | |
CN110334278A (zh) | 一种基于改进深度学习的web服务推荐方法 | |
Ahamed et al. | A recommender system based on deep neural network and matrix factorization for collaborative filtering | |
CN110502701B (zh) | 引入注意力机制的好友推荐方法、系统和存储介质 | |
Sampath et al. | A generalized decision support framework for large‐scale project portfolio decisions | |
Park et al. | IRIS: A goal-oriented big data analytics framework on Spark for better Business decisions | |
KR101522306B1 (ko) | 유사도 특성을 이용한 메타휴리스틱 알고리즘에 기반한 시스템 및 그 제어방법 | |
Ma et al. | Dynamic hybrid multiple attribute decision-making problem based on reference point adaptation | |
Raikov et al. | Import countries ranking with econometric and artificial intelligence methods | |
Zarandi et al. | Design of a reliable hub-and-spoke network using an interactive fuzzy goal programming | |
Souchkov | Systematic business innovation: a roadmap | |
Ludwig | Memetic algorithms applied to the optimization of workflow compositions | |
Frohmann | Digital Pricing: A Guide to Strategic Pricing for the Digital Economy | |
Sundar et al. | An actor–critic algorithm for multi-agent learning in queue-based stochastic games |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |