CN112288341B - 基于多智能体强化学习的信贷工厂订单调度方法及装置 - Google Patents

基于多智能体强化学习的信贷工厂订单调度方法及装置 Download PDF

Info

Publication number
CN112288341B
CN112288341B CN202011591872.1A CN202011591872A CN112288341B CN 112288341 B CN112288341 B CN 112288341B CN 202011591872 A CN202011591872 A CN 202011591872A CN 112288341 B CN112288341 B CN 112288341B
Authority
CN
China
Prior art keywords
credit
agent
factory
order
environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011591872.1A
Other languages
English (en)
Other versions
CN112288341A (zh
Inventor
崔润邦
王�琦
邓江
贾宁
黄超琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao fantike Technology Co.,Ltd.
Original Assignee
Qingdao Fantike Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Fantike Technology Co ltd filed Critical Qingdao Fantike Technology Co ltd
Priority to CN202011591872.1A priority Critical patent/CN112288341B/zh
Publication of CN112288341A publication Critical patent/CN112288341A/zh
Application granted granted Critical
Publication of CN112288341B publication Critical patent/CN112288341B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06315Needs-based resource requirements planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Technology Law (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种基于多智能体强化学习的信贷工厂订单调度方法及装置。该方法包括:多智能体将行动发送至环境;环境计算出所述多智能体共享的状态以及各个智能体的奖励;环境将所述多智能体共享的状态以及各个智能体的奖励发送至对应的各个智能体;各个智能体根据收到的状态以及奖励选择行动;其中,所述多智能体依次处理所述信贷工厂订单。本申请能够缩短订单审批时间,实现信贷工厂的智能化调度管理;能够使得信贷工厂可以在动态环境下制定出科学合理的调度方案,极大的增强了信贷工厂中订单调度的抗干扰能力。

Description

基于多智能体强化学习的信贷工厂订单调度方法及装置
技术领域
本发明涉及大数据处理领域,尤其涉及一种基于多智能体强化学习的信贷工厂订单调度方法及装置。
背景技术
近年来消费信贷在中国取得了巨大的成功。消费金融公司需要审批客户提交的贷款订单,然后确定是否授予贷款。信贷工厂是加速贷款审批的重要手段。消费信贷的特点是额度小,频率高。考虑到消费信贷的这些特征,许多公司引入了信贷工厂模式。信贷工厂是新加坡淡马锡集团发明的一种新型贷款审批模式。信贷工厂模式已被包括中国银行,中国建设银行和招商银行在内的多家金融机构采用。类似于工厂流水线,信贷工厂将信贷审批分为几个流程,并为每个流程制定标准化的操作。信贷工厂通过引入流程标准化来提高信贷审批流程的效率。
信贷工厂中的一个关键部分是信贷工厂订单调度。合理的信贷工厂订单调度可以大大减少申请时间。在金融公司中(如银行、保险或信托等领域),时间对客户来说非常宝贵。同时时间也是成本,减少贷款申请时间意味着降低成本。因此,信贷工厂订单调度可以增强公司的成本优势并提高贷款审批效率。
强化学习是优化序贯决策问题的强大工具。现有技术中存在采用多智能体强化学习(MARL)来解决车间调度问题,该算法实现了分散调度,可用于未知情况而无需重新训练,但该工作中每个作业的到达时间和处理时间是已知的,相比之下,到达时间和处理时间未知的信贷工厂订单调度则更为复杂。
尽管已经有不少工作进行了MARL算法在订单调度问题中的应用研究,但是对于具有多机器、多过程、随机到达时间和处理时间等特点的大规模实时订单调度问题还没有成熟的技术方案。
发明内容
有鉴于此,本申请提出了一种基于多智能体强化学习的信贷工厂订单调度方法及装置,以提高信贷工厂订单处理效率。
根据本申请的一个方面,提出了一种基于多智能体强化学习的信贷工厂订单调度方法,该方法包括:
多智能体将行动发送至环境;
环境计算出所述多智能体共享的状态以及各个智能体的奖励;
环境将所述多智能体共享的状态以及各个智能体的奖励发送至对应的各个智能体;
各个智能体根据收到的状态以及奖励选择行动;
其中,所述多智能体依次处理所述信贷工厂订单。
优选地,所述多智能体的数量为多个(如4个),所述环境为信贷工厂。
优选地,所述行动为选择的调度规则。
优选地,所述调度规则为、先到先服务、最短松弛时间、最早截止时间、以及后到先服务中的一者,其中松弛时间为截止时间与到达时间之差。
优选地,所述环境根据下述步骤计算奖励:
环境计算
Figure 560230DEST_PATH_IMAGE001
,其中
Figure 562821DEST_PATH_IMAGE002
为在状态s下 采取动作a的衡量指标,
Figure 555048DEST_PATH_IMAGE003
为第t步信贷工厂订单的平均等待时间,
Figure 453734DEST_PATH_IMAGE004
为 第t步信贷工厂订单的超时率;
环境将
Figure 616731DEST_PATH_IMAGE002
与状态s下的平均衡量指标相关的参数进行比较,并根据比较 结果给出奖励。
优选地,所述环境根据如下步骤分配奖励:
获取各个智能体处理信贷工厂订单的松弛时间;至少获取各个智能体中信贷工厂订单的输入时间、结束时间和等待时间;
如果结束时间和到达之间之差大于松弛时间,则该智能体处理信贷工厂订单超时;
计算各个智能体处理信贷工厂订单的平均等待时间和超时率;
根据信贷工厂订单的平均等待时间和超时率,将奖励分配给各个智能体。
优选地,环境根据如下步骤计算多智能体共享的状态:
使用编码器对信贷工厂订单处理信息矩阵进行降维处理;
对降维处理后的信贷工厂订单处理信息矩阵进行聚类,得到多智能体共享的状态。
本申请提供了一种基于多智能体强化学习的信贷工厂订单调度装置,该信贷工厂订单调度装置包括多智能体和环境;
多智能体,用于根据收到的状态以及奖励选择行动;将行动发送至环境;
环境,用于计算出所述多智能体共享的状态以及各个智能体的奖励;将所述多智能体共享的状态以及各个智能体的奖励发送至对应的各个智能体;
其中,所述多智能体依次处理所述信贷工厂订单。
优选地,所述多智能体的数量为多个(如4个),所述环境为信贷工厂。
优选地,所述行动为选择的调度规则。
优选地,所述调度规则为、先到先服务、最短松弛时间、最早截止时间、以及后到先服务中的一者,其中松弛时间为截止时间与到达时间之差。
优选地,所述环境还用于计算
Figure 157434DEST_PATH_IMAGE001
,其中
Figure 4167DEST_PATH_IMAGE002
为在状态s下采取动作a的衡量指标,
Figure 73754DEST_PATH_IMAGE003
为第t步信贷工厂订单的平 均等待时间,
Figure 724047DEST_PATH_IMAGE004
为第t步信贷工厂订单的超时率;将
Figure 6124DEST_PATH_IMAGE002
与状态s下的平均 衡量指标相关的参数进行比较,并根据比较结果给出奖励。
优选地,所述环境还用于获取各个智能体处理信贷工厂订单的松弛时间;至少获取各个智能体中信贷工厂订单的输入时间、结束时间和等待时间,其中,如果结束时间和到达之间之差大于松弛时间,则判定该智能体处理信贷工厂订单超时;计算各个智能体处理信贷工厂订单的平均等待时间和超时率;根据信贷工厂订单的平均等待时间和超时率,将奖励分配给各个智能体。
优选地,环境还用于使用编码器对订单处理信息矩阵进行降维处理;对降维处理后的订单处理信息矩阵进行聚类,得到多智能体共享的状态;其中信贷工厂订单处理信息矩阵包含信贷工厂订单的平均等待时间和超时率。
根据本申请的技术方案,能够缩短订单审批时间,提高顾客满意度,进而在同行业竞争中占据优势地位;能够实现信贷工厂的智能化调度管理;能够使得信贷工厂可以在动态环境下制定出科学合理的调度方案,极大的增强了信贷工厂中订单调度的抗干扰能力。
本申请的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施方式及其说明用于解释本申请。在附图中:
图1为信贷工厂订单处理流程;
图2为基于多智能体强化学习的系统框架;
图3为奖励分配流程图;
图4为状态计算流程图;
图5为基于多智能体强化学习的订单调度方法流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施方式及各个实施方式中的特征可以相互组合。
下面将参考附图并结合实施方式来详细说明本申请。
本申请以信贷工厂订单处理流程为例,将信贷工厂中的信贷工厂订单调度问题建模为多智能体强化学习(MARL)任务。信贷工厂的贷款审批过程被分解为几个连续的流程。每个流程的信贷工厂订单调度都可以建模为队列调度问题,并与一个强化学习智能体相关联。智能体通过奖励分配策略和状态共享来进行协作,这一部分将在下文中进行介绍。本申请提供了一种新的奖励机制,包括奖励计算和奖励分配。此外,本申请使用卷积自编码器和K-Means聚类分析来生成智能体的状态。
需要说明的是,下述优选的实施方式以信贷工厂的处理流程为例,本领域技术人员应当知晓,本申请的方案可以用于其它需要连续进行信贷工厂订单处理(如信贷工厂所述的连续订单处理流程)的应用场景中。
信贷工厂中贷款订单审批的典型流程如图1所示。信贷工厂订单需要经过四个流程(流程1-4)才能完成整个贷款审批流程。流程1(分类)将信贷工厂订单中所包含的材料分为不同的类别,例如身份证,合同,担保信息等。流程2(切片)对关键文档信息进行截图并存储。例如,从身份证中获取姓名切片。流程3(录入)将在流程2中生成的切片信息录入数据库。流程3将非结构化数据转换为结构化数据。流程4(复核)检查并确认来自不同信息源的信息。例如,需要确认身份证上的姓名与贷款合同中的姓名是否匹配。
而在本申请的技术方案中,信贷工厂订单审批过程可以建模为由四个连续的订单队列组成的排队系统。客户到达信贷工厂并发送贷款申请订单。在信贷工厂中,每个过程都由一个排队区和一个处理区组成。排队区中有若干排队的订单。在排队区中,排队顺序由强化学习选择的调度规则确定。处理区从排队区依次接收信贷工厂订单。每个流程的处理区中都有若干工人。假设信贷工厂中的所有工人都是同质。离开处理区后,订单将被发送到下一个流程的排队区。审批过程将继续进行,直到信贷工厂订单完成所有四个流程为止。由于订单的异质性,使用简单的先到先服务规则通常不能达到效率最优化。因此本申请基于强化学习针对不同的情况自适应的选取合适的规则,从而优化贷款审批流程。
本申请的信贷工厂订单调度问题主要考虑两个目标:1)超时率,即在一批订单(例如30个订单)中未完成订单的比例;2)平均等待时间。这两个目标旨在从不同角度满足客户需求。消费金融公司通常向客户承诺贷款审批不超过一小时,并将低超时率视为一种竞争优势。超时率越低,公司损失越少。但是,过分追求低超时率会导致系统总处理能力下降,不再处理那些已超时的信贷工厂订单。为避免这种情况,本申请的技术方案中还添加了第二个目标:平均等待时间。
本申请将信贷工厂订单调度问题表述为多智能体强化学习任务。图2显示了基于MARL订单调度框架。具体来说,此框架中的组成部分包括智能体和环境,环境可以计算状态、奖励、以及应当分配至各个智能体的奖励。
MARL框架由四个智能体组成,每个智能体均根据经典的Q学习算法进行训练并做出决策。每个智能体负责其对应流程的信贷工厂订单排序。在每个时间步,每个智能体都根据其Q值表做出决策。Q值表将当前状态作为输入,然后输出动作。接下来,将所有智能体的动作输入到环境中。环境根据这些动作来对订单进行排序,并计算下一步的状态和总体奖励。信贷工厂包括四个连续的信贷工厂订单队列,每个队列中的信贷工厂订单处理均受其上游和下游信贷工厂订单队列的影响。因此,智能体之间需要进行协调合作,这可以通过奖励分配和共享状态生成来实现。奖励分配策略根据贡献将总体奖励分配给每个智能体,奖励分配策略和共享状态体现了多个智能体之间的协作关系。每个智能体根据状态及其相应的奖励更新Q值表。
信贷工厂的订单调度问题包括例如四个流程。每个流程都被建模为单独的智能体。每个智能体控制每个流程的订单调度。奖励分配策略和状态共享体现了多个智能体之间的协作关系。
环境:环境就是信贷工厂。智能体选择动作并将其输入到环境中。环境再根据这些动作来调度信贷工厂订单。然后,环境从调度结果计算得到奖励和状态。
行动是从调度规则子集(SRS)中选择一个调度规则。本申请选择调度规则作为动作,并选择四个调度规则组成调度规则子集,具体调度规则如下调度规则列表所示。调度规则的选择基于现有技术实现,例如Panwalkar等的研究成果。
Figure 707364DEST_PATH_IMAGE005
环境可以计算应当给予多个智能体的奖励,奖励函数本质上是用于引导智能体实 现目标。智能体的目标是优化超时率和平均等待时间。本申请结合超时率和平均等待时间 作为奖励R。在t步调度周期完成后,从环境中获取t步的调度结果。根据调度结果,可以计算 第t步信贷工厂订单的平均等待时间
Figure 462699DEST_PATH_IMAGE003
和超时率
Figure 616600DEST_PATH_IMAGE004
。然后,在状态s下 采取动作a的衡量指标
Figure 764684DEST_PATH_IMAGE002
就可以被计算出来。
Figure 789272DEST_PATH_IMAGE001
环境将
Figure 449929DEST_PATH_IMAGE002
与标签为s的状态类中的平均性能进行比较。
Figure 153443DEST_PATH_IMAGE006
被定 义为标签为s的状态类中所有动作的平均性能的一个1σ置信上限(即68.27%)。如果
Figure 42902DEST_PATH_IMAGE002
大于
Figure 984313DEST_PATH_IMAGE006
,那么智能体会收到+1的奖励。此外,
Figure 566604DEST_PATH_IMAGE007
被定义为标签 为s的状态类中平均性能的一个1σ下置信限(即31.73%)。 如果
Figure 944365DEST_PATH_IMAGE002
小于
Figure 434252DEST_PATH_IMAGE007
, 那么智能体收到-1的奖励;否则,智能体将获得0的奖励。
环境可以从调度结果中获得总体奖励。然后,将总体奖励分配给每个智能体,作为它们各自的奖励。总体奖励的分配基于每个智能体对超时率和平均等待时间的贡献。奖励分配流程如图3所示,具体包括:
步骤301,根据处理时间将每个信贷工厂订单的总体松弛时间分配给每个智能体。然后,获得第k个智能体中信贷工厂订单的松弛时间(k = 1,2,3,4)。总体松弛时间可以根据不同信贷工厂订单的属性提前给定。分配松弛时间可以按照平均处理时间所占总处理时间的比例进行分配。
步骤303,环境运行调度方案产生调度结果,从调度结果中获得第k个智能体中信贷工厂订单的输入时间,结束时间和等待时间等信息。
步骤305,如果结束时间与到达时间之差大于松弛时间,则执行步骤309,判定订单在该智能体中超时;否则,执行步骤307,判定为未超时。
步骤311,计算第k个智能体中信贷工厂订单的平均等待时间和超时率。
步骤313,根据第k个智能体中一批信贷工厂订单的平均等待时间和超时率,将总奖励分配给第k个智能体。例如,根据各个智能体的等待时间计算各个智能体的权重,然后根据权重和总奖励分配各个智能体对应的奖励。
环境可以生成多智能体共享的状态。为了提取状态s,本申请基于自动编码器的状态表示。该方法首先使用编码器(encoder)将最新的信贷工厂订单处理信息矩阵L映射到低维表示矩阵E中。 然后,将矩阵E应用于K-均值(K-Means)聚类分析以获得最终状态类别标签。
在本申请的优选实施方式中,强化学习的一步确定了一批信贷工厂订单的调度。例如,一批包含30个订单。作为示例,本申请从最近两批已处理信贷工厂订单的处理信息中提取状态表示,以便能反映当前调度情况的状态。订单的处理信息包括每个流程中信贷工厂订单的到达,等待,处理和延迟时间。
K-Means聚类通常用于强化学习中的状态提取。高维数据通常会转换为低维数据,在低维数据中K-Means可以更清晰地检测到相关模式。自动编码器可以有效降低维度。自动编码器包含一个编码器和一个解码器。编码器可以将高维输入映射为低维表示。解码器可以根据低维表示重建输出。自动编码器通过使原始输入和重建输出之间的重建损失最小化,来保证信息压缩的质量。因此,本申请使用自动编码器来降低高维数据(60 * 5 = 300像素)的维度,然后使用K-Means获得最终状态标签。为了从调度结果中得到准确的状态表示,本申请使用了一种基于自动编码器的状态表示方法。
基于自编码器的状态表示方法如图4所示,具体分为如下四个步骤。
步骤1:提取步骤t + 1的状态时,选择t和t-1的订单信息作为最新的订单处理信息。最新订单处理信息矩阵L包含例如60个信贷工厂订单的处理信息。每个信贷工厂订单的信息包括每个智能体处理信贷工厂订单的平均等待时间(图4中的I1-I4)以及是否已超时(图4中的I5)。
Figure 699011DEST_PATH_IMAGE008
步骤2:矩阵L的维数为60*5。使用卷积自动编码器将L转换为维度为m * n的编码矩阵E。
步骤3:将矩阵E中的每一列链接到长度为m * n的状态向量
Figure 452203DEST_PATH_IMAGE009
中,并将
Figure 130309DEST_PATH_IMAGE009
添加至状态向量集SVS中。
步骤4:当SVS中状态向量的数量等于g时,使用k-均值聚类对SVS进行分类。
输入:状态向量集SVS,聚类中心的数量k(k<g)
(a) 选择k个状态向量
Figure 361571DEST_PATH_IMAGE010
作为初始聚类中心。
(b) 根据
Figure 526842DEST_PATH_IMAGE011
计算并找到任一状态 向量
Figure 919777DEST_PATH_IMAGE012
与所有聚类中心之间的最短距离,形成一个新的状态向量集
Figure 85179DEST_PATH_IMAGE013
(1≤ h≤ k), 然后将
Figure 120131DEST_PATH_IMAGE012
从SVS中删除。
(c)根据公式
Figure 625062DEST_PATH_IMAGE014
计算状态向量集合
Figure 251215DEST_PATH_IMAGE013
的 集合中心
Figure 356443DEST_PATH_IMAGE015
(d) 重复(b),直到SVS中的所有状态向量都已划分为相应的状态向量集合。
(e) 形成k个状态向量集合和k个聚类中心。
步骤5:最后,当出现一个新的状态向量
Figure 929507DEST_PATH_IMAGE009
时,根据公式
Figure 85682DEST_PATH_IMAGE016
来计算它与每个状态向量集合之间的相似度,然后将 其分类至具有最高相似度的状态向量集合
Figure 85999DEST_PATH_IMAGE013
,并获得最终状态类别标签s。
基于上述的方案,本申请提供的基于多智能体强化学习的信贷工厂订单调度方法如图5所示,具体包括:
步骤501,多智能体将行动发送至环境;
步骤503,环境计算出所述多智能体共享的状态以及各个智能体的奖励;
步骤505,环境将所述多智能体共享的状态以及各个智能体的奖励发送至对应的各个智能体。
基于上述提供的方案,本申请能够缩短信贷工厂订单审批时间,提高顾客满意度,进而在同行业竞争中占据优势地位;能够实现信贷工厂的智能化调度管理;能够使得信贷工厂可以在动态环境下制定出科学合理的调度方案,极大的增强了信贷工厂中订单调度的抗干扰能力。
以上所述仅为本申请的较佳实施方式而已,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (12)

1.基于多智能体强化学习的信贷工厂订单调度方法,其特征在于,该信贷工厂订单调度方法包括:
多智能体将行动发送至环境;
环境计算出所述多智能体共享的状态以及各个智能体的奖励;
环境将所述多智能体共享的状态以及各个智能体的奖励发送至对应的各个智能体;
各个智能体根据收到的状态以及奖励选择行动;
其中,所述多智能体依次处理所述信贷工厂订单,
所述环境根据下述步骤计算奖励:
环境计算
Figure 776096DEST_PATH_IMAGE001
,其中
Figure 981950DEST_PATH_IMAGE002
为在状态s下采取动作a的 衡量指标,
Figure 974176DEST_PATH_IMAGE003
为第t步信贷工厂订单的平均等待时间,
Figure 122130DEST_PATH_IMAGE004
为第t步信贷工 厂订单的超时率;
环境将
Figure 832597DEST_PATH_IMAGE002
与状态s下的平均衡量指标相关的参数进行比较,并根据比较结果给 出奖励。
2.根据权利要求1所述的基于多智能体强化学习的信贷工厂订单调度方法,其特征在于,所述多智能体的数量为多个,所述环境为所述信贷工厂。
3.根据权利要求1或2所述的基于多智能体强化学习的信贷工厂订单调度方法,其特征在于,所述行动为选择的调度规则。
4.根据权利要求3所述的基于多智能体强化学习的信贷工厂订单调度方法,其特征在于,所述调度规则为先到先服务、最短松弛时间、最早截止时间、以及后到先服务中的一者,其中松弛时间为截止时间与到达时间之差。
5.根据权利要求1所述的基于多智能体强化学习的信贷工厂订单调度方法,其特征在于,所述环境根据如下步骤分配奖励:
获取各个智能体处理信贷工厂订单的松弛时间;
至少获取各个智能体中信贷工厂订单的输入时间、结束时间和等待时间;如果结束时间和到达之间之差大于松弛时间,则该智能体处理信贷工厂订单超时;
计算各个智能体处理信贷工厂订单的平均等待时间和超时率;
根据信贷工厂订单的平均等待时间和超时率,将奖励分配给各个智能体。
6.根据权利要求1所述的基于多智能体强化学习的信贷工厂订单调度方法,其特征在于,环境根据如下步骤计算多智能体共享的状态:
使用编码器对信贷工厂订单处理信息矩阵进行维度处理;
对维度处理后的信贷工厂订单处理信息矩阵进行聚类,得到多智能体共享的状态。
7.基于多智能体强化学习的信贷工厂订单调度装置,其特征在于,该信贷工厂订单调度装置包括多智能体和环境;
多智能体,用于根据收到的状态以及奖励选择行动;将行动发送至环境;
环境,用于计算出所述多智能体共享的状态以及各个智能体的奖励;将所述多智能体共享的状态以及各个智能体的奖励发送至对应的各个智能体;
其中,所述多智能体依次处理所述信贷工厂订单,
所述环境还用于计算
Figure 576562DEST_PATH_IMAGE005
,其中
Figure 688874DEST_PATH_IMAGE006
为在状态s下 采取动作a的衡量指标,
Figure 742150DEST_PATH_IMAGE007
为第t步信贷工厂订单的平均等待时间,
Figure 939913DEST_PATH_IMAGE008
为 第t步信贷工厂订单的超时率;将
Figure 487569DEST_PATH_IMAGE006
与状态s下的平均衡量指标相关的参数进行比 较,并根据比较结果给出奖励。
8.根据权利要求7所述的基于多智能体强化学习的信贷工厂订单调度装置,其特征在于,所述多智能体的数量为多个,所述环境为所述信贷工厂。
9.根据权利要求7或8所述的基于多智能体强化学习的信贷工厂订单调度装置,其特征在于,所述行动为选择的调度规则。
10.根据权利要求9所述的基于多智能体强化学习的信贷工厂订单调度装置,其特征在于,所述调度规则为先到先服务、最短松弛时间、最早截止时间、以及后到先服务中的一者,其中松弛时间为截止时间与到达时间之差。
11.根据权利要求7所述的基于多智能体强化学习的信贷工厂订单调度装置,其特征在于,所述环境还用于获取各个智能体处理信贷工厂订单的松弛时间;至少获取各个智能体中信贷工厂订单的输入时间、结束时间和等待时间,其中,如果结束时间和到达之间之差大于松弛时间,则判定该智能体处理信贷工厂订单超时;计算各个智能体处理信贷工厂订单的平均等待时间和超时率;根据信贷工厂订单的平均等待时间和超时率,将奖励分配给各个智能体。
12.根据权利要求7所述的基于多智能体强化学习的信贷工厂订单调度装置,其特征在于,环境还用于使用编码器对信贷工厂订单处理信息矩阵进行降维处理;对降维处理后的信贷工厂订单处理信息矩阵进行聚类,得到多智能体共享的状态;其中信贷工厂订单处理信息矩阵包含订单的平均等待时间和超时率。
CN202011591872.1A 2020-12-29 2020-12-29 基于多智能体强化学习的信贷工厂订单调度方法及装置 Active CN112288341B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011591872.1A CN112288341B (zh) 2020-12-29 2020-12-29 基于多智能体强化学习的信贷工厂订单调度方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011591872.1A CN112288341B (zh) 2020-12-29 2020-12-29 基于多智能体强化学习的信贷工厂订单调度方法及装置

Publications (2)

Publication Number Publication Date
CN112288341A CN112288341A (zh) 2021-01-29
CN112288341B true CN112288341B (zh) 2021-04-13

Family

ID=74426205

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011591872.1A Active CN112288341B (zh) 2020-12-29 2020-12-29 基于多智能体强化学习的信贷工厂订单调度方法及装置

Country Status (1)

Country Link
CN (1) CN112288341B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633996B (zh) * 2021-03-05 2021-09-14 中邮消费金融有限公司 信贷订单分发方法、计算机设备及其可读存储介质
CN116011757B (zh) * 2022-12-28 2024-03-29 广州汽车集团股份有限公司 订单接收和调度方法、装置以及电子设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101196605B1 (ko) * 2010-10-29 2012-11-02 성균관대학교산학협력단 멀티 에이전트 시스템에서의 동적 로드 밸런싱 방법
CN106094759B (zh) * 2016-07-19 2018-08-14 南京航空航天大学 一种复杂生产环境下车间调度实时控制方法
CN108346029A (zh) * 2017-01-23 2018-07-31 纬创软件(北京)有限公司 一种支撑信贷工厂模式的定制化信贷系统
CN110728406B (zh) * 2019-10-15 2022-07-29 南京邮电大学 基于强化学习的多智能体发电优化调度方法

Also Published As

Publication number Publication date
CN112288341A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
US20200364664A1 (en) Method for determining transportation scheme, method for training fast loading model, and device
CN107766929B (zh) 模型分析方法及装置
CN112288341B (zh) 基于多智能体强化学习的信贷工厂订单调度方法及装置
EP1866851A2 (en) Constrained tree structure method and system
Terekhov et al. Queueing-theoretic approaches for dynamic scheduling: a survey
Shahvari et al. A bi-objective batch processing problem with dual-resources on unrelated-parallel machines
CN112328646B (zh) 多任务课程推荐方法、装置、计算机设备及存储介质
Chen A hybrid SOM-BPN approach to lot output time prediction in a wafer fab
Shih et al. Efficient computer experiment-based optimization through variable selection
Nagahara et al. Toward data-driven production simulation modeling: dispatching rule identification by machine learning techniques
Wang et al. Logistics-involved task scheduling in cloud manufacturing with offline deep reinforcement learning
Kashfi et al. A model for selecting suitable dispatching rule in FMS based on fuzzy multi attribute group decision making
Chen Estimating job cycle time in a wafer fabrication factory: A novel and effective approach based on post-classification
CN116777568A (zh) 金融市场交易事前智能对话下单方法、装置及存储介质
CN117215785A (zh) 一种行情回放系统微服务资源调度方法
Peng et al. Simulation Optimization in the New Era of AI
CN112514352A (zh) 更新调度规则的方法、设备、系统、存储介质和终端
Terekhov et al. Long-run stability in dynamic scheduling
Wei et al. Composite rules selection using reinforcement learning for dynamic job-shop scheduling
Sim et al. Job shop scheduling problem neural network solver with dispatching rules
Costanzo Robots, Jobs, and Optimal Fertility Timing
Aravinth et al. Secure Intelligence and Prediction in Crisp Business Using Artificial Intelligence Techniques
Kolm et al. Improving Deep Learning of Alpha Term Structures from the Order Book
Klemmt et al. Investigation of modified heuristic algorithms for simulation-based optimization
Mokao Multi criteria decision making model for producing multiple products at the same time

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210322

Address after: Room 201-17, building 1, Wanggu fund Valley, No.66, Huazhong Road, high tech Zone, Qingdao, Shandong 266114

Applicant after: Qingdao fantike Technology Co.,Ltd.

Address before: 100086 Zhongguancun Information Valley, No.1 Zhongguancun South Street, Haidian District, Beijing

Applicant before: Beijing fantike Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant