CN112801731B - 一种接单辅助决策的联邦强化学习方法 - Google Patents

一种接单辅助决策的联邦强化学习方法 Download PDF

Info

Publication number
CN112801731B
CN112801731B CN202110010968.2A CN202110010968A CN112801731B CN 112801731 B CN112801731 B CN 112801731B CN 202110010968 A CN202110010968 A CN 202110010968A CN 112801731 B CN112801731 B CN 112801731B
Authority
CN
China
Prior art keywords
model
agent
action
reinforcement learning
aggregation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110010968.2A
Other languages
English (en)
Other versions
CN112801731A (zh
Inventor
冷杰武
张虎
刘强
阮国磊
苏倩怡
王德文
周满
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202110010968.2A priority Critical patent/CN112801731B/zh
Publication of CN112801731A publication Critical patent/CN112801731A/zh
Application granted granted Critical
Publication of CN112801731B publication Critical patent/CN112801731B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0633Lists, e.g. purchase orders, compilation or processing
    • G06Q30/0635Processing of requisition or of purchase orders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Evolutionary Computation (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Development Economics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种接单辅助决策的联邦强化学习方法,各智能体分别收集历史订单数据,将历史订单数据作为训练数据;建立环境模型,各智能体建立本地决策模型,环境模型设有奖励函数,环境模型对本地决策模型的接受或拒绝动作做出相应的奖励;各智能体各自利用训练数据对本地决策模型进行训练;各智能体将训练过程中的所得到的梯度信息加密成加密信息,然后发送至聚合方;聚合方接受各智能体的加密信息,然后解密得到各智能体的梯度信息,聚合方对所有的智能体的梯度信息进行整合,并训练聚合模型,然后将训练后的聚合模型发送至各个智能体。本发明能够在保护各方隐私数据不泄露的情况下,利用各智能体的数据建立聚合模型。

Description

一种接单辅助决策的联邦强化学习方法
技术领域
本发明涉及信息技术领域,尤其涉及一种接单辅助决策的联邦强化学习方法。
背景技术
目前,企业的订单接受决策一般由销售部门负责,目标是尽可能多的利润,在一段时间内,客户订单分散的随机动态达到,后续订单什么时间到达以及订单的特性都不能提前获知。为了对现有客户订单进行实时反馈,需要在后续订单还没到达时就做出实时决策。此时若一味接受已有订单,则有可能由于产能、交货期等条件的约束而无法在未来接受更有价值的订单,从而造成客户流失,损失利润。若为后续订单预留产能,则可能造成一定的产能浪费。目前并没有一种能够在现有环境下联合多方,在并不泄露数据隐私的情况下,对企业的决策模型进行训练的方法。
发明内容
本发明的目的在于提出一种接单辅助决策的联邦强化学习方法,以解决上述问题。
为达此目的,本发明采用以下技术方案:
一种基于联邦强化学习的接单辅助决策方法,包括:
数据采集和处理,各智能体分别收集历史订单数据,然后提取历史订单数据的属性,将所述历史订单数据作为训练数据;
建立模型,根据历史订单数据建立环境模型,各所述智能体建立本地决策模型,所述环境模型模拟当前状态S;所述环境模型设有奖励函数,当所述本地决策模型根据当前状态S对新订单做出接受或拒绝动作后,环境模型对所述本地决策模型的接受或拒绝动作做出相应的奖励;
训练本地决策模型,各所述智能体各自利用所述训练数据对所述本地决策模型进行训练;
联合各方数据进行联邦强化学习,各智能体将训练过程中的所得到的梯度信息加密成加密信息,然后发送至聚合方;所述聚合方接受各智能体的加密信息,然后解密得到各智能体的梯度信息,所述聚合方对所有的智能体的梯度信息进行整合,并训练聚合模型,然后将训练后的聚合模型发送至各个智能体。
优选地,依次按照以下步骤进行联邦强化学习:
步骤A、各个所述智能体分别根据对所述环境模型的观察结果进行动作决策;
步骤B、所述环境模型向所述智能体反馈结果,反馈结果包括新的状态St+1和奖励;
步骤C、各个所述智能体将得到的反馈结果放入各自的所述强化学习算法中对所述本地决策模型进行强化学习训练,并计算中间结果,然后将所述中间结果加密并发送给所述聚合方;
步骤D、所述聚合方对所有的中间结果进行解密,并使用全部聚合的梯度信息对聚合模型进行训练;
步骤E、聚合方将训练后的聚合模型发送给各个所述智能体。
优选地,当所述本地决策模型作出接受动作,所述环境模型计算立即接受订单的奖励ra
Figure BDA0002884993280000021
其中,R为订单利润,Tw为完工期,b为订单成本,c为订单碳耗量,Ty为延期时间,w为延期单位惩罚,J为客户等级;
当所述本地决策模型作出拒绝动作后,所述环境模型给予的奖励为0或者所述环境模型根据客户等级给予惩罚。
优选地,采用强化学习算法对本地决策模型进行训练;所述强化学习算法包括策略网络π和价值网络q,所述策略网络π用于计算所述本地决策模型做出模拟的接受或拒绝动作的概率分布,然后随机抽样得到动作;所述价值网络q用于对每一个模拟的动作根据当前状态S进行打分,并选出分值最大的动作。
优选地,对所述本地决策模型的训练过程包括以下步骤:
步骤1、所述本地决策模型观察旧的状态St,策略网络π根据所述旧的状态St计算出每个动作的概率分布,然后根据概率分布随机抽样获得动作at
步骤2、所述智能体执行动作at,所述环境模型更新到新的状态St+1,并给出奖励rt
步骤3、以新的状态St+1作为输入,策略网络π计算每个动作的概率分布,然后根据概率分布随机抽样得到新的动作a't+1
步骤4、所述价值网络q先以所述旧的状态St和动作at作为输入,算出打分qt;然后所述价值网络q以新的状态St+1和新的动作a't+1作为输入,算出打分qt+1
步骤5、计算TD-error的值δt
δt=qt-(rt+γ·qt+1)
其中,γ为价值网络的学习率;
步骤6、对所述价值网络q进行求导,计算价值网络q关于w的剃度dw,t
Figure BDA0002884993280000031
其中,w价值网络参数;
步骤7、使用TD算法用梯度下降来对所述价值网络q进行更新;
步骤8、对策略网络π进行求导:
Figure BDA0002884993280000041
其中,θ为策略网络参数;
步骤9、用梯度上升来对策略网络π进行更新:
θt+1=θt+β·qt·dθ,t
其中,β为策略网络的学习率;
每次训练依次执行以上步骤,每次训练中只执行一次动作,观测一个奖励,并更新一次所述价值网络参数和所述策略网络参数。
优选地,在联邦强化学习的过程中,各所述智能体采用同态加密、多方安全计算或随机噪声对训练过程中的梯度信息进行加密。
优选地,各智能体在收集历史订单数据后,对历史订单数据进行预处理:
1)、通过One-hot编码对顾客等级具有多个候选值的订单进行处理,除了所述订单的顾客等级设置为1,其他顾客的等级都设置为0;
2)、采用画箱线图的方法对历史订单数据中存在的异常数据进行剔除;
3)、对订单样本进行均衡化,增加小类样本的权重,并降低大类样本的权重。
本发明的有益效果是:采用联邦强化学习的方式来对聚合模型进行训练,通过设置聚合方,聚合方为一个智能体或者一个可信赖的第三方,由聚合方接收各智能体在对本地决策模型训练过程中所得到的梯度信息,并对各方的梯度信息进行聚合,然后训练聚合模型,由于在对聚合模型进行训练的过程中可以利用到各智能体的数据,从而能够拥有足够的数据量对聚合模型进行训练,并且由于训练过程有足够数量和类型的数据支持,因此聚合模型的训练效果更好,且由于智能体将梯度信息送至聚合方时,会对梯度信息进行加密,因此能够有效地防止数据泄露,从而保护各智能体的数据隐私。
附图说明
附图对本发明做进一步说明,但附图中的内容不构成对本发明的任何限制。
图1是本发明其中一个实施例的交互流程示意图;
附图中:1-智能体,2-聚合方。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
本实施例的一种基于联邦强化学习的接单辅助决策方法,包括:
数据采集和处理,各智能体1分别收集历史订单数据,然后提取历史订单数据的属性,将所述历史订单数据作为训练数据;
建立模型,根据历史订单数据建立环境模型,各所述智能体1建立本地决策模型,所述环境模型模拟当前状态S;所述环境模型设有奖励函数,当所述本地决策模型根据当前状态S对新订单做出接受或拒绝动作后,环境模型对所述本地决策模型的接受或拒绝动作做出相应的奖励;
训练本地决策模型,各所述智能体1各自利用所述训练数据对所述本地决策模型进行训练;
联合各方数据进行联邦强化学习,各智能体1将训练过程中的所得到的梯度信息加密成加密信息,然后发送至聚合方2;所述聚合方2接受各智能体1的加密信息,然后解密得到各智能体1的梯度信息,所述聚合方2对所有的智能体1的梯度信息进行整合,并训练聚合模型,然后将训练后的聚合模型发送至各个智能体1。
由于训练和强化本地决策模型所需要的数据分散在不同的智能体1,智能体1为公司或者部门,且各公司或部门有自己的数据隐私保护需求。此时,若一个客户订单产生了,销售部门、生产部门等都要做决策接不接受这个订单。此时,销售部门为了提升业绩,倾向于多接受订单。但生产部门受到产能、成本等限制,一味的接受订单并不可取。若前面接受了价值较低的订单可能会导致后面价值较大的订单无法接受。本发明通过建立环境模型,能够使得多个部门维持对同一环境的同一观察,环境是指订单状况,现有产能情况等,每一个部门维护一个对应的动作策略,当然,部分辅助类型的部门会没有动作策略,如行政部门,但他们的最终目标是一致的,都是使一段时间内的整体收益最大化。环境模型中的当前状态S根据各智能体1的不同情况来模拟,并尽可能充分利用已有数据来模拟现实状态的变化,比如可以由订单编号、订单特征、下单时间、该下单时刻完成已接受订单还需消耗时间、交货期等决定,同时需要加入一些随机变量来模型环境变化的随机性。
本发明采用联邦强化学习的方式来对聚合模型进行训练,通过设置聚合方2,聚合方2为一个智能体1或者一个可信赖的第三方,由聚合方2接收各智能体1在对本地决策模型训练过程中所得到的梯度信息,并对各方的梯度信息进行聚合,然后训练聚合模型,由于在对聚合模型进行训练的过程中可以利用到各智能体1的数据,从而能够拥有足够的数据量对聚合模型进行训练,并且由于训练过程有足够数量和类型的数据支持,因此聚合模型的训练效果更好。在聚合方2对聚合模型训练完毕后,聚合方2将聚合模型发送至各个智能体1,各个智能体1可以利用聚合模型对本地决策模型进行更新,从而提高决策收益。此外,由于聚合模型是利用各方的数据共同训练的,因此能够适用于各个智能体1,各个智能体1在利用聚合模型做出决策时,能够实现最大化的整体利益。
进一步地,依次按照以下步骤进行联邦强化学习:
步骤A、各个所述智能体1分别根据对所述环境模型的观察结果进行动作决策;
步骤B、所述环境模型向所述智能体1反馈结果,反馈结果包括新的状态St+1和奖励;
步骤C、各个所述智能体1将得到的反馈结果放入各自的所述强化学习算法中对所述本地决策模型进行强化学习训练,并计算中间结果,然后将所述中间结果加密并发送给所述聚合方2;
步骤D、所述聚合方2对所有的中间结果进行解密,并使用全部聚合的梯度信息对聚合模型进行训练;
步骤E、聚合方2将训练后的聚合模型发送给各个所述智能体1。
由于强化学习模型的训练往往需要用到大量的数据,而这些数据往往分布在不同公司的不同部门。比如产能数据由生产部门掌握,而顾客等级,订单报价等又由销售部门掌握。若采用外包的生产模式,则会涉及到两个不同的公司。由于产能、成本、利润等训练强化模型所需要的数据是一个公司或部门的核心数据,并不能轻易泄露出去,由此会对强化学习模型的训练造成不小的阻力。本发明采用联邦强化学习的方式对聚合模型进行训练,在各智能体1向聚合方2发送数据时,均会对数据进行加密,由于各智能体1发送的是加密后的梯度信息,并未泄露原始数据信息,从而保证了数据的安全性,同时也保护了各个智能体1之间的数据隐私。
进一步地,当所述本地决策模型作出接受动作,所述环境模型计算立即接受订单的奖励ra
Figure BDA0002884993280000071
其中,R为订单利润,Tw为完工期,b为订单成本,c为订单碳耗量,Ty为延期时间,w为延期单位惩罚,J为客户等级;
当所述本地决策模型作出拒绝动作后,所述环境模型给予的奖励为0或者所述环境模型根据客户等级给予惩罚。
当智能体1根据当前状态s对新来的订单做出接受或拒绝的动作后,环境会给与一定的奖励,训练本地决策模型的目的就是让奖励在一段时间内最大化。对于订单的决策动作,只有接受和拒绝两种动作;当本地决策模型做出接受动作时,则环境模型根据订单的信息计算接受订单的奖励ra,并且对环境模型进行更新;相反地,当本地决策模型做出拒绝动作后,则环境模型给予本地决策的奖励为0,当然也在本地模型做出拒绝动作后给予本地决策模型惩罚。由于不同客户的订单具有不同的重要程度,可以根据客户等级来对订单进行评价,从而在拒绝不同客户的订单时给予不同的惩罚,这样使得本地决策模型可以更加贴近真实情况。
进一步地,采用强化学习算法对本地决策模型进行训练;所述强化学习算法包括策略网络π和价值网络q,所述策略网络π用于计算所述本地决策模型做出模拟的接受或拒绝动作的概率分布,然后随机抽样得到动作;所述价值网络q用于对每一个模拟的动作根据当前状态S进行打分,并选出分值最大的动作。
策略网络与价值网络共同对本地决策模型进行训练,其中策略网络控制智能体1做出模拟的接受或拒绝动作,而价值网络对智能体1所做出的每一个模拟的动作根据当前状态S进行打分,从而能够选出分值最大的动作并执行,通过对本地决策模型的训练,使本地决策模型能够做出分数更高的动作,从而使得获得更高的利益。
进一步地,对所述本地决策模型的训练过程包括以下步骤:
步骤1、所述本地决策模型观察旧的状态St,策略网络π根据所述旧的状态St计算出每个动作的概率分布,然后根据概率分布随机抽样获得动作at
步骤2、所述智能体1执行动作at,所述环境模型更新到新的状态St+1,并给出奖励rt
步骤3、以新的状态St+1作为输入,策略网络π计算每个动作的概率分布,然后根据概率分布随机抽样得到新的动作a't+1
步骤4、所述价值网络q先以所述旧的状态St和动作at作为输入,算出打分qt;然后所述价值网络q以新的状态St+1和新的动作a't+1作为输入,算出打分qt+1
步骤5、计算TD-error的值δt
δt=qt-(rt+γ·qt+1)
其中,γ为价值网络的学习率;
步骤6、对所述价值网络q进行求导,计算价值网络q关于w的剃度dw,t
Figure BDA0002884993280000091
其中,w价值网络参数;
步骤7、使用TD算法用梯度下降来对所述价值网络q进行更新;
步骤8、对策略网络π进行求导:
Figure BDA0002884993280000092
其中,θ为策略网络参数;
步骤9、用梯度上升来对策略网络π进行更新:
θt+1=θt+β·qt·dθ,t
其中,β为策略网络的学习率;
每次训练依次执行以上步骤,每次训练中只执行一次动作,观测一个奖励,并更新一次所述价值网络参数和所述策略网络参数。
其中,在步骤3中,新的动作a't+1为一个假想的动作,其用于计算价值网络q,智能体1并不会实际执行,在每一轮的训练循环中,智能体1只做出一次实际动作;各个智能体1分别利用本地的训练数据对本地决策模型进行训练,从而训练出一个适用智能体1自身的本地决策模型。
进一步地,在联邦强化学习的过程中,各所述智能体1采用同态加密、多方安全计算或随机噪声对训练过程中的梯度信息进行加密。
各个智能体1在发送数据时均采用加密的形式发送,从而能够有效地避免原始数据的泄露,因此能够保证各智能体1的数据隐私。
进一步地,各智能体1在收集历史订单数据后,对历史订单数据进行预处理:
1)、通过One-hot编码对顾客等级具有多个候选值的订单进行处理,除了所述订单的顾客等级设置为1,其他顾客的等级都设置为0;
2)、采用画箱线图的方法对历史订单数据中存在的异常数据进行剔除;
3)、对订单样本进行均衡化,增加小类样本的权重,并降低大类样本的权重。
通过对历史订单数据进行预处理,这样能够更好地对本地决策模型进行训练,在对异常数据进行剔除时,可以选择历史订单数据中的几个较为重要的属性,如订单成本、数量、报价等,将分布在直方图3δ以外的数据进行剔除,从而避免异常的数据对训练的结果造成影响,能够有效地提高训练效果;而增加小类样本的权重和降低大类样本的权重能够使样本数据更加均衡,让模型的小类样本能够有所集中,从而提高对本地决策模型的训练效果。
以上结合具体实施例描述了本发明的技术原理。这些描述只是为了解释本发明的原理,而不能以任何方式解释为对本发明保护范围的限制。基于此处的解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式,这些等同的变型或替换均包含在本申请权利要求所限定的范围内。

Claims (5)

1.一种接单辅助决策的联邦强化学习方法,其特征在于,包括:
数据采集和处理,各智能体分别收集历史订单数据,然后提取历史订单数据的属性,将所述历史订单数据作为训练数据;
建立模型,根据历史订单数据建立环境模型,各所述智能体建立本地决策模型,所述环境模型模拟当前状态S;所述环境模型设有奖励函数,当所述本地决策模型根据当前状态S对新订单做出接受或拒绝动作后,环境模型对所述本地决策模型的接受或拒绝动作做出相应的奖励;
训练本地决策模型,各所述智能体各自利用所述训练数据对所述本地决策模型进行训练;
联合各方数据进行联邦强化学习,各智能体将训练过程中的所得到的梯度信息加密成加密信息,然后发送至聚合方;所述聚合方接受各智能体的加密信息,然后解密得到各智能体的梯度信息,所述聚合方对所有的智能体的梯度信息进行整合,并训练聚合模型,然后将训练后的聚合模型发送至各个智能体;
依次按照以下步骤进行联邦强化学习:
步骤A、各个所述智能体分别根据对所述环境模型的观察结果进行动作决策;
步骤B、所述环境模型向所述智能体反馈结果,反馈结果包括新的状态St+1和奖励;
步骤C、各个所述智能体将得到的反馈结果放入各自的所述强化学习算法中对所述本地决策模型进行强化学习训练,并计算中间结果,然后将所述中间结果加密并发送给所述聚合方;
步骤D、所述聚合方对所有的中间结果进行解密,并使用全部聚合的梯度信息对聚合模型进行训练;
步骤E、聚合方将训练后的聚合模型发送给各个所述智能体;
当所述本地决策模型作出接受动作,所述环境模型计算立即接受订单的奖励ra
Figure FDA0003220497900000021
其中,R为订单利润,Tw为完工期,b为订单成本,c为订单碳耗量,Ty为延期时间,w为延期单位惩罚,J为客户等级;
当所述本地决策模型作出拒绝动作后,所述环境模型给予的奖励为0或者所述环境模型根据客户等级给予惩罚。
2.根据权利要求1所述的一种接单辅助决策的联邦强化学习方法,其特征在于,采用强化学习算法对本地决策模型进行训练;所述强化学习算法包括策略网络π和价值网络q,所述策略网络π用于计算所述本地决策模型做出模拟的接受或拒绝动作的概率分布,然后随机抽样得到动作;所述价值网络q用于对每一个模拟的动作根据当前状态S进行打分,并选出分值最大的动作。
3.根据权利要求2所述的一种接单辅助决策的联邦强化学习方法,其特征在于,对所述本地决策模型的训练过程包括以下步骤:
步骤1、所述本地决策模型观察旧的状态St,策略网络π根据所述旧的状态St计算出每个动作的概率分布,然后根据概率分布随机抽样获得动作at
步骤2、所述智能体执行动作at,所述环境模型更新到新的状态St+1,并给出奖励rt
步骤3、以新的状态St+1作为输入,策略网络π计算每个动作的概率分布,然后根据概率分布随机抽样得到新的动作a't+1
步骤4、所述价值网络q先以所述旧的状态St和动作at作为输入,算出打分qt;然后所述价值网络q以新的状态St+1和新的动作a't+1作为输入,算出打分qt+1
步骤5、计算TD-error的值δt
δt=qt-(rt+γ·qt+1)
其中,γ为价值网络的学习率;
步骤6、对所述价值网络q进行求导,计算价值网络q关于w的剃度dw,t
Figure FDA0003220497900000031
其中,w价值网络参数;
步骤7、使用TD算法用梯度下降来对所述价值网络q进行更新;
步骤8、对策略网络π进行求导:
Figure FDA0003220497900000032
其中,θ为策略网络参数;
步骤9、用梯度上升来对策略网络π进行更新:
θt+1=θt+β·qt·dθ,t
其中,β为策略网络的学习率;
每次训练依次执行以上步骤,每次训练中只执行一次动作,观测一个奖励,并更新一次所述价值网络参数和所述策略网络参数。
4.根据权利要求3所述的一种接单辅助决策的联邦强化学习方法,其特征在于:在联邦强化学习的过程中,各所述智能体采用同态加密、多方安全计算或随机噪声对训练过程中的梯度信息进行加密。
5.根据权利要求4所述的一种接单辅助决策的联邦强化学习方法,其特征在于,各智能体在收集历史订单数据后,对历史订单数据进行预处理:
1)、通过One-hot编码对顾客等级具有多个候选值的订单进行处理,除了所述订单的顾客等级设置为1,其他顾客的等级都设置为0;
2)、采用画箱线图的方法对历史订单数据中存在的异常数据进行剔除;
3)、对订单样本进行均衡化,增加小类样本的权重,并降低大类样本的权重。
CN202110010968.2A 2021-01-06 2021-01-06 一种接单辅助决策的联邦强化学习方法 Active CN112801731B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110010968.2A CN112801731B (zh) 2021-01-06 2021-01-06 一种接单辅助决策的联邦强化学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110010968.2A CN112801731B (zh) 2021-01-06 2021-01-06 一种接单辅助决策的联邦强化学习方法

Publications (2)

Publication Number Publication Date
CN112801731A CN112801731A (zh) 2021-05-14
CN112801731B true CN112801731B (zh) 2021-11-02

Family

ID=75808372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110010968.2A Active CN112801731B (zh) 2021-01-06 2021-01-06 一种接单辅助决策的联邦强化学习方法

Country Status (1)

Country Link
CN (1) CN112801731B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114037521A (zh) * 2021-11-25 2022-02-11 工银科技有限公司 融资预授信方法、装置、设备及介质
CN116011757B (zh) * 2022-12-28 2024-03-29 广州汽车集团股份有限公司 订单接收和调度方法、装置以及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110517002A (zh) * 2019-08-29 2019-11-29 烟台大学 基于强化学习的生产控制方法
US20200210884A1 (en) * 2018-12-29 2020-07-02 International Business Machines Corporation Removing unnecessary history from reinforcement learning state
CN111580970A (zh) * 2020-05-07 2020-08-25 电子科技大学 一种联邦学习的模型分发与聚合的传输调度方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241291B (zh) * 2018-07-18 2022-02-15 华南师范大学 基于深度强化学习的知识图谱最优路径查询系统及其方法
KR102111857B1 (ko) * 2018-07-31 2020-05-15 한국과학기술원 인공지능 기반 게임 전략 유도 시스템 및 방법
CN110245510B (zh) * 2019-06-19 2021-12-07 北京百度网讯科技有限公司 用于预测信息的方法和装置
CN110688419A (zh) * 2019-10-09 2020-01-14 京东城市(南京)科技有限公司 一种联邦建模系统和联邦建模方法
CN110796266B (zh) * 2019-10-30 2021-06-15 深圳前海微众银行股份有限公司 基于公共信息的强化学习实现方法、设备及存储介质
CN110766169A (zh) * 2019-10-31 2020-02-07 深圳前海微众银行股份有限公司 强化学习的迁移训练优化方法、装置、终端及存储介质
CN111080408B (zh) * 2019-12-06 2020-07-21 广东工业大学 一种基于深度强化学习的订单信息处理方法
CN111126609B (zh) * 2019-12-20 2021-04-23 深圳前海微众银行股份有限公司 基于联邦学习的知识迁移方法、装置、设备及介质
CN111091200B (zh) * 2019-12-20 2021-03-19 深圳前海微众银行股份有限公司 训练模型的更新方法、系统、智能设备、服务器及存储介质
CN111416771B (zh) * 2020-03-20 2022-02-25 深圳市大数据研究院 基于多智能体强化学习路由策略控制路由动作的方法
CN111950703A (zh) * 2020-08-03 2020-11-17 清华大学深圳国际研究生院 一种强化学习方法及计算机可读存储介质
CN112084721A (zh) * 2020-09-23 2020-12-15 浙江大学 一种多代理强化学习合作任务下的奖励函数建模方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200210884A1 (en) * 2018-12-29 2020-07-02 International Business Machines Corporation Removing unnecessary history from reinforcement learning state
CN110517002A (zh) * 2019-08-29 2019-11-29 烟台大学 基于强化学习的生产控制方法
CN111580970A (zh) * 2020-05-07 2020-08-25 电子科技大学 一种联邦学习的模型分发与聚合的传输调度方法

Also Published As

Publication number Publication date
CN112801731A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN112801731B (zh) 一种接单辅助决策的联邦强化学习方法
CN106897861A (zh) 一种工程管理系统
CN107194808A (zh) 一种用区块链来实现金融交易的管理方法
CN115795518B (zh) 一种基于区块链的联邦学习隐私保护方法
CN113793208A (zh) 一种基于区块链的小额金融债权纠纷智慧诉讼系统
CN116777294A (zh) 区块链协助下基于联邦学习的众包质量安全评估方法
Deuber et al. Sok: Assumptions underlying cryptocurrency deanonymizations
CN111461851A (zh) 一种基于区块链的双盲招投标系统和招投标方法
CN110728568A (zh) 一种面向征信空白客户的授信额度方法以及系统
CN114491616A (zh) 基于区块链和同态加密的联邦学习方法和应用
CN113807736A (zh) 一种数据质量评估方法、计算机设备及存储介质
Bakmaz et al. Application of internal audit in processes of reducing corruption in a transitional economy like the Republic of Serbia
CN110245959A (zh) 针对性请求的处理方法和装置
CN110298582A (zh) 一种构建专利价值分析评价模型的方法
CN110489394A (zh) 中间数据处理方法及设备
Xue et al. Research on comprehensive evaluation of network marketing performance in O2O model-measuring by GIOWA operator
CN112288582A (zh) 一种提高保单审批效率的信息处理方法和装置
CN114037091B (zh) 一种基于专家联合评价的网络安全信息共享系统、方法、电子设备及存储介质
CN110516075A (zh) 基于机器学习的预警报告生成方法、装置和计算机设备
CN116597498B (zh) 一种基于区块链和联邦学习的公平人脸属性分类方法
Zhu et al. Shapley-value-based Contribution Evaluation in Federated Learning: A Survey
Wang et al. Risk Assessment of Highway Engineering Investment Based on Broad Learning System
Elbeltagi et al. Bid/no bid decision using fuzzy risk assessment
CN117370644A (zh) 一种基于联盟链的联邦学习课程推荐方法
CN115525922A (zh) 基于隐私计算的金融隐私数据安全决策方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant