CN116843151A

CN116843151A - 资源分配方法、装置、计算机设备和存储介质

Info

Publication number: CN116843151A
Application number: CN202310860812.2A
Authority: CN
Inventors: 刘兴
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-07-13
Filing date: 2023-07-13
Publication date: 2023-10-03

Abstract

本申请涉及一种资源分配方法、装置、计算机设备和存储介质，涉及人工智能技术领域。所述方法包括：获取待分析数据；待分析数据包括多个账户信息和多个产品信息；将待分析数据输入训练好的强化学习模型中，得到资源分配策略；强化学习模型是以资源管理单位的所有账户的收益最大化为训练目标进行训练得到。采用本方法能够对各账户中的资源进行合理分配。

Description

资源分配方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种资源分配方法、装置、计算机设备和存储介质。

背景技术

资源管理单位将用户购买该公司的各产品所需的资源分别存储在不同的账户中，资源管理单位会对各账户中资源进行统筹管理。然而，较为受欢迎的产品对应的账户会获得资源管理人更多的关注度，导致利用账户中的资源在后期进行产品分配时出现分配不合理的问题。

因此，如何将各账户中的资源进行合理分配成为目前亟待解决的技术问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够对各账户中的资源进行合理分配的资源分配方法、装置、计算机设备和存储介质。

第一方面，本申请提供了一种资源分配方法。所述方法包括：

获取待分析数据；所述待分析数据包括多个账户信息和多个产品信息；

将所述待分析数据输入训练好的强化学习模型中，得到资源分配策略；所述强化学习模型是以资源管理单位的所有账户的收益最大化为训练目标进行训练得到。

在其中一个实施例中，所述方法还包括：

根据奖励函数建立初始强化学习模型；

以资源管理单位的所有账户的收益最大化为训练目标，将样本数据输入至所述初始强化学习模型进行训练，得到所述强化学习模型；所述样本数据包括多个样本账户对应的历史账户信息和多个历史产品信息。

在其中一个实施例中，所述根据奖励函数建立初始强化学习模型，包括：

根据各所述样本账户中存储的资源总量为各所述样本账户分配相应的权重值；

根据分配后的各所述样本账户的权重值设置所述奖励函数中的权重参数，得到赋值后的奖励函数；

根据所述赋值后的奖励函数建立初始强化学习模型。

在其中一个实施例中，所述以资源管理单位的所有账户的收益最大化为训练目标，将样本数据输入至所述初始强化学习模型进行训练，得到所述强化学习模型，包括：

将样本数据输入至所述初始强化学习模型进行计算，得到所述奖励函数的输出值；所述输出值表示所述资源管理单位的所有账户的收益值；

以所述奖励函数的输出值为最大的训练目标，调整所述初始强化学习模型的参数进行训练，得到所述强化学习模型。

在其中一个实施例中，所述方法还包括：

对所述待分析数据进行标准化处理，得到处理后的待分析数据；

所述将所述待分析数据输入训练好的强化学习模型中，得到资源分配策略，包括：

将所述处理后的待分析数据输入训练好的强化学习模型中，得到资源分配策略。

在其中一个实施例中，所述方法还包括：

对所述待分析数据进行数据清洗，得到清洗后的待分析数据；

所述对所述待分析数据进行标准化处理，得到处理后的待分析数据，包括：

对所述清洗后的待分析数据进行标准化处理，得到处理后的待分析数据。

在其中一个实施例中，所述方法还包括：

根据所述资源分配策略对初始资源分配策略进行优化，确定目标资源分配策略；所述初始资源分配策略为决策人员根据待分析数据进行资源优化确定的；

根据所述目标资源分配策略，为所述资源管理单位的各产品分配相应的资源。

第二方面，本申请还提供了一种资源分配装置。所述装置包括：

获取模块，用于获取待分析数据；所述待分析数据包括多个账户信息和多个产品信息；

确定模块，用于将所述待分析数据输入训练好的强化学习模型中，得到资源分配策略；所述强化学习模型是以资源管理单位的所有账户的收益最大化为训练目标进行训练得到。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述资源分配方法、装置、计算机设备和存储介质，获取待分析数据，待分析数据包括多个账户信息和多个产品信息，将待分析数据输入训练好的强化学习模型中，得到资源分配策略，强化学习模型是以资源管理单位的所有账户的收益最大化为训练目标进行训练得到。上述方法以资源管理单位的所有账户的收益最大化为训练目标训练得到强化学习模型，使训练得到的强化学习模型可以综合所有账户信息和产品信息，获得的资源分配策略更加合理准确，与现有技术相比，避免了因资源管理人对各账户的关注度不同而造成资源分配不合理的问题。

附图说明

图1为一个实施例中资源分配方法的应用环境图；

图2为一个实施例中资源分配方法的流程示意图；

图3为另一个实施例中资源分配方法的流程示意图；

图4为另一个实施例中资源分配方法的流程示意图；

图5为另一个实施例中资源分配方法的流程示意图；

图6为另一个实施例中资源分配方法的流程示意图；

图7为另一个实施例中资源分配方法的流程示意图；

图8为一个实施例中资源分配装置的结构框图；

图9为另一个实施例中资源分配装置的结构框图；

图10为另一个实施例中资源分配装置的结构框图；

图11为另一个实施例中资源分配装置的结构框图；

图12为另一个实施例中资源分配装置的结构框图；

图13为另一个实施例中资源分配装置的结构框图；

图14为另一个实施例中资源分配装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。

在本申请实施例的描述中，技术术语“第一”“第二”等仅用于区别不同对象，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量、特定顺序或主次关系。在本申请实施例的描述中，“多个”的含义是两个以上，除非另有明确具体的限定。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例提供的资源分配方法，可以应用于如图1所示的应用环境中。其中，该计算机设备可以是终端，其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种资源分配方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的应用环境的框图，并不构成对本申请方案所应用于其上的应用环境的限定，具体的应用环境可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，如图2所示，提供了一种资源分配方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

S201，获取待分析数据；待分析数据包括多个账户信息和多个产品信息。

其中，待分析数据用于表征资源管理单位的需要进行资源分配的资源信息，账户信息用于表征需要进行资源分配的账户的当前状态信息，各产品信息对应的产品为各账户的资源转移对象。示例性地，账户信息可以包括账户编号、账户的资源值、账户当前持有的产品等，产品信息可以包括产品编号、产品对应的资源转移值、产品类型等，产品类型可以为股票、基金、证券等投资品。

在本实施例中，可以通过响应数据获取指令，在终端中获取待分析数据；或者，可以向用户展示输入界面，将用户输入的数据作为待分析数据；或者，通过向管理账户和产品信息的服务器发送数据获取请求，从而获取待分析数据。

S202，将待分析数据输入训练好的强化学习模型中，得到资源分配策略；强化学习模型是以资源管理单位的所有账户的收益最大化为训练目标进行训练得到。

其中，资源分配策略为各账户为各产品投入的资源值，资源管理人员可以根据资源分配策略执行增加资源投入和减少资源投入等操作。

在本实施例中，将待分析数据输入预先训练好的强化学习模型中，得到可以使得资源管理单位的所有账户的收益最大化的资源分配策略。可选的，可以使用数据模拟软件生成模拟数据，将模拟数据作为强化学习模型的样本数据对强化学习模型进行训练，强化学习模型根据样本数据预测所有账户的总收益值，在训练过程优化强化学习模型的参数，直至资源管理单位的所有账户的收益最大化，得到训练好的资源分配策略。

上述资源分配方法中，获取待分析数据，待分析数据包括多个账户信息和多个产品信息，将待分析数据输入训练好的强化学习模型中，得到资源分配策略，强化学习模型是以资源管理单位的所有账户的收益最大化为训练目标进行训练得到。上述方法以资源管理单位的所有账户的收益最大化为训练目标训练得到强化学习模型，使训练得到的强化学习模型可以综合所有账户信息和产品信息，获得的资源分配策略更加合理准确，与现有技术相比，避免了因资源管理人对各账户的关注度不同而造成资源分配不合理的问题。

在一个实施例中，还提供了一种资源分配方法，如图3所示，即图2实施例的资源分配方法还包括步骤：

S203，根据奖励函数建立初始强化学习模型。

在本实施例中，可以将各账户中产品的持有情况、产品的资源值、产品的数量作为奖励函数的参数，来构建奖励函数，从而根据奖励函数建立初始强化学习模型，进一步地可以对初始强化学习模型进行训练，得到强化学习模型，示例性地，奖励函数可以如关系式1所示：

其中，i为第i个账户，α_i表示第i个账户的权重值，fund_i表示第i个账户的头寸，c_j表示第j个产品的资源值，δ_ij表示第i个账户是否持有第j个产品，若第i个账户持有第j个产品，则δ_ij为1，若第i个账户没有持有第j个产品，则δ_ij为0，quantity_ij表示第i个账户持有第j个产品的数量，t为时长。

可选的，可以根据资源管理单位的历史数据确定初始强化学习模型的约束条件，示例性地，约束条件可以包括各账户持有的产品的最大数量、各产品的最大持有量、各账户对产品的最大投入资源值等。

S204，以资源管理单位的所有账户的收益最大化为训练目标，将样本数据输入至初始强化学习模型进行训练，得到强化学习模型；样本数据包括多个样本账户对应的历史账户信息和多个历史产品信息。

在本实施例中，将多个样本账户对应的历史账户信息和多个历史产品信息作为样本数据，将样本数据输入初始强化学习模型中，得到样本资源分配策略，根据奖励函数的输出值判断初始强化学习模型输出的样本资源分配策略是否可以使资源管理单位的所有账户的收益最大化。若样本资源分配策略未使资源管理单位的所有账户的收益最大化，则对初始强化学习模型进行优化，将优化后的初始强化学习模型作为下一次训练的初始强化模型，继续执行训练步骤；若样本资源分配策略使资源管理单位的所有账户的收益最大化，则结束训练，将初始强化学习模型确定为强化学习模型。示例性地，可以使用DQN(deep Q-network)算法对初始强化学习模型进行训练。

可选的，奖励函数的初始值可以为奖励值，当奖励值大于预设阈值时，表示当前资源分配策略为最优策略，该资源分配策略可以使资源管理单位的所有账户的收益最大化；当奖励值小于预设阈值时，表示当前资源分配策略不是最优策略。

本实施例中，根据奖励函数建立初始强化学习模型，将多个样本账户对应的历史账户信息和多个历史产品信息作为初始强化学习模型的样本数据，使用资源管理单位的历史数据作为样本数据使得训练好的强化学习模型对该资源管理单位的适用性更高，从而使得得到的资源分配策略更加准确。

在一个实施例中，提供了上述S203的一种实现方式，如图4所示，上述S203“根据奖励函数建立初始强化学习模型”，包括：

S301，根据各样本账户中存储的资源总量为各样本账户分配相应的权重值。

其中，权重值用于表征各样本账户的重要程度，各样本账户中存储的资源总量越高，该样本账户的权重值越高。

可选的，可以根据各样本账户中存储的资源总量对各样本账户进行排序，根据样本账户的排序位置与权重值的对应关系为各样本账户分配相应的权重值，示例性地，样本账户的排序位置与权重值的对应关系可以为排序位置为1的样本账户的权重值为0.5、排序位置为2的样本账户的权重值为0.3、排序位置为3的样本账户的权重值为0.2，若样本账户A中存储的资源总量为150、样本账户B中存储的资源总量为50、样本账户C中存储的资源总量为200，则样本账户的排序为样本账户C、样本账户A、样本账户B，因此，样本账户C的权重值为0.5，样本账户A的权重值为0.3，样本账户B的权重值为0.2。

可选的，各样本账户的权重值之和为1，可以根据各样本账户中存储的资源总量占所有资源总量之和的比重，确定各样本账户的权重值，示例性地，若样本账户A中存储的资源总量为150、样本账户B中存储的资源总量为50、样本账户C中存储的资源总量为200，则样本账户A的权重值为则样本账户B的权重值为/>则样本账户C的权重值为

S302，根据分配后的各样本账户的权重值设置奖励函数中的权重参数，得到赋值后的奖励函数。

在本实施例中，奖励函数如式1所示，根据各样本账户的权重值为奖励函数中的权重参数赋值，得到赋值后的奖励函数。示例性地，当样本账户1的权重值为0.6，则样本账户2的权重值为0.4时，赋值后的奖励函数如关系式2所示：

其中，fund₁表示第1个账户的头寸，fund₂表示第2个账户的头寸，c_j表示第j个产品的资源值，δ_1j表示第2个账户是否持有第j个产品，δ_2j表示第2个账户是否持有第j个产品，quantity_1j表示第2个账户持有第j个产品的数量，quantity_2j表示第2个账户持有第j个产品的数量，t为时长。

S303，根据赋值后的奖励函数建立初始强化学习模型。

在本实施例中，将赋值后的奖励函数作为初始强化学习模型的奖励函数，从而获得初始强化学习模型，从而可以进一步地对初始强化学习模型进行训练，得到强化学习模型。

本实施例中，根据各样本账户中存储的资源总量为各样本账户分配相应的权重值，在不遗漏任一个账户的同时，为资源总量更大的样本账户分配更高的权重值，使得得到的奖励函数更加准确，从而使得强化学习模型输出的资源分配策略更加准确，达到全部账户的收益最大化的效果。

在一个实施例中，提供了上述S204的一种实现方式，如图5所示，上述S204“以资源管理单位的所有账户的收益最大化为训练目标，将样本数据输入至初始强化学习模型进行训练，得到强化学习模型”，包括：

S401，将样本数据输入至初始强化学习模型进行计算，得到奖励函数的输出值；输出值表示资源管理单位的所有账户的收益值。

其中，样本数据包括多个样本账户对应的历史账户信息和多个历史产品信息，历史账户信息包括历史账户编号、账户的历史资源值、账户历史持有产品，历史产品信息包括历史产品编号、产品对应的历史资源转移值、历史产品类型等。

在本实施例中，将样本数据输入至初始强化模型中，为奖励函数的各参数赋值，从而对奖励函数进行计算，得到各资源分配策略对应的奖励函数的输出值，即各资源分配策略对应的资源管理单位的所有账户的收益值。

S402，以奖励函数的输出值为最大的训练目标，调整初始强化学习模型的参数进行训练，得到强化学习模型。

在本实施例中，在强化学习模型的训练过程中，通过调整初始强化学习模型的参数，获得调整后的初始强化学习模型对应的资源分配策略，各资源分配策略对应的奖励函数的输出值不同，当奖励函数的输出值最大时，该输出值对应的资源分配策略为最优的资源分配策略，将当前的初始强化模型确定为强化模型，完成强化学习模型的训练过程。

本实施例中，奖励函数的输出值最大时，资源管理单位的所有账户的收益值最大，通过计算奖励函数的输出值，判断强化学习模型的训练是否完成，计算逻辑简单准确，使得训练得到的强化学习模型输出的资源分配策略更加准确。

在一个实施例中，还提供了一种资源分配方法，如图6所示，即图2实施例的资源分配方法还包括步骤：

S205，对待分析数据进行数据清洗，得到清洗后的待分析数据。

在本实施例中，在待分析数据的采集过程中，由于采集错误或采集范围过大等情况，因此获取到的待分析数据中可能存在无效或不合规数据，需要对待分析数据进行数据清洗，去除无效或不合规数据，得到清洗后的待分析数据。可选的，可以通过预设的数据标准对待分析数据进行筛选，预设的数据标准可以包括数据长度、数据类型等标准，若待分析数据中存在不符合数据标准的数据，则将该数据去除。

S206，对清洗后的待分析数据进行标准化处理，得到处理后的待分析数据。

其中，标准化处理包括格式处理、归一化处理等数据处理方式。

在本实施例中，待分析数据中各项数据格式、类型可能存在差异，数据值差异可能会影响强化学习模型输出的资源分配策略的准确度，因此，需要对待分析数据进行数据处理，将各项数据转换为格式统一形式，并对各项数据进行归一化处理，得到处理后的待分析数据。

示例性地，各账户的资源值的单位存在差异，例如，资源值的单位可以为人民币、美元、日元等，将各账户的资源值的单位转换为统一格式

S207，将处理后的待分析数据输入训练好的强化学习模型中，得到资源分配策略。

在本实施例中，将处理后的待分析数据输入训练好的强化学习模型中，得到可以使得资源管理单位的所有账户的收益最大化的资源分配策略。

本实施例中，对待分析数据进行数据清洗和标准化处理，得到处理后的待分析数据，将处理后的待分析数据输入训练好的强化学习模型中，避免因待分析数据存在无效或不合规数据，从而出现资源分配策略不准确的问题，同时避免待分析数据中各项数据格式、类型差异较大，而导致的资源分配策略不准确的问题，以及强化学习模型计算量大而造成的资源分配策略获取效率较低的问题。

在一个实施例中，还提供了一种资源分配方法，如图7所示，即图2实施例的资源分配方法还包括步骤：

S208，根据资源分配策略对初始资源分配策略进行优化，确定目标资源分配策略；初始资源分配策略为决策人员根据待分析数据进行资源优化确定的。

在本实施例中，决策人员根据待分析数据和实际情况形成初始资源分配策略，初始资源分配策略中可能会存在因决策人员对各账户的关注度不然而存在资源分配不合理的问题，根据资源分配策略对初始资源分配策略进行优化，将优化后的初始资源分配策略确定为目标资源分配策略。可选的，可以对初始资源分配策略中的部分策略替换为资源分配策略中的策略。

可选的，若初始资源分配策略对应的所有账户的收益值大于资源分配策略对应的所有账户的收益值，则将初始资源分配策略确定为目标分配策略。

S209，根据目标资源分配策略，为资源管理单位的各产品分配相应的资源。

在本实施例中，根据目标资源分配策略，将各账户中的资源进行划分，将划分好的资源分别投入到对应的产品。示例性地，将某账户中的资源根据目标资源分配策略划分为资源A、资源B和资源C，资源A对应产品a、资源B对应产品b、资源C对应产品从，则进一步地根据目标资源分配策略购入相应数量的产品a、产品b和产品c。

本实施例中，根据资源分配策略对初始资源分配策略进行优化，获取目标资源分配策略，根据目标资源分配策略为资源管理单位的各产品分配相应的资源，可以在结合各账户实际情况的同时保证所有账户的收益值。

综上所有实施例所述方法，本申请还提供了一种资源分配方法，该方法包括：

S1，根据各样本账户中存储的资源总量为各样本账户分配相应的权重值；样本数据包括多个样本账户对应的历史账户信息和多个历史产品信息。

S2，根据分配后的各样本账户的权重值设置奖励函数中的权重参数，得到赋值后的奖励函数；根据赋值后的奖励函数建立初始强化学习模型。

S3，将样本数据输入至初始强化学习模型进行计算，得到奖励函数的输出值；输出值表示资源管理单位的所有账户的收益值。

S4，以奖励函数的输出值为最大的训练目标，调整初始强化学习模型的参数进行训练，得到强化学习模型。

S5，获取待分析数据，待分析数据包括多个账户信息和多个产品信息；对待分析数据进行数据清洗，得到清洗后的待分析数据；对清洗后的待分析数据进行标准化处理，得到处理后的待分析数据。

S6，将处理后的待分析数据输入训练好的强化学习模型中，得到资源分配策略。

S7，根据资源分配策略对初始资源分配策略进行优化，确定目标资源分配策略；初始资源分配策略为决策人员根据待分析数据进行资源优化确定的；

S8，根据目标资源分配策略，为资源管理单位的各产品分配相应的资源。

上述资源分配方法，获取待分析数据，待分析数据包括多个账户信息和多个产品信息，将待分析数据输入训练好的强化学习模型中，得到资源分配策略，强化学习模型是以资源管理单位的所有账户的收益最大化为训练目标进行训练得到。上述方法以资源管理单位的所有账户的收益最大化为训练目标训练得到强化学习模型，使训练得到的强化学习模型可以综合所有账户信息和产品信息，获得的资源分配策略更加合理准确，与现有技术相比，避免了因资源管理人对各账户的关注度不同而造成资源分配不合理的问题。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的资源分配方法的资源分配装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个资源分配装置实施例中的具体限定可以参见上文中对于资源分配方法的限定，在此不再赘述。

在一个实施例中，如图8所示，提供了一种资源分配装置，包括：获取模块10和确定模块11，其中：

获取模块10，用于获取待分析数据；待分析数据包括多个账户信息和多个产品信息；

确定模块11，用于将待分析数据输入训练好的强化学习模型中，得到资源分配策略；强化学习模型是以资源管理单位的所有账户的收益最大化为训练目标进行训练得到。

本实施例提供的资源分配装置，可以执行上述方法实施例，其实现原理和技术效果类似，在此不再赘述。

在一个实施例中，如图9所示，上述装置还包括：建立模块12和训练模块13，其中：

建立模块12，用于根据奖励函数建立初始强化学习模型。

训练模块13，用于以资源管理单位的所有账户的收益最大化为训练目标，将样本数据输入至初始强化学习模型进行训练，得到强化学习模型；样本数据包括多个样本账户对应的历史账户信息和多个历史产品信息。

在一个实施例中，如图10所示，上述建立模块12包括：分配单元121、设置单元122和建立单元123，其中：

分配单元121，用于根据各样本账户中存储的资源总量为各样本账户分配相应的权重值。

设置单元122，用于根据分配后的各样本账户的权重值设置奖励函数中的权重参数，得到赋值后的奖励函数。

建立单元123，用于根据赋值后的奖励函数建立初始强化学习模型。

在一个实施例中，如图11所示，上述训练模块13包括：计算单元131和训练单元132，其中：

计算单元131，用于将样本数据输入至初始强化学习模型进行计算，得到奖励函数的输出值；输出值表示资源管理单位的所有账户的收益值。

训练单元132，用于以奖励函数的输出值为最大的训练目标，调整初始强化学习模型的参数进行训练，得到强化学习模型。

在一个实施例中，如图12所示，上述装置还包括：处理模块14，用于对待分析数据进行标准化处理，得到处理后的待分析数据。

在一个实施例中，如图13所示，上述装置还包括：清洗模块15，用于对待分析数据进行数据清洗，得到清洗后的待分析数据。

在一个实施例中，如图14所示，上述装置还包括：优化模块16和分配模块17，其中：

优化模块16，用于根据资源分配策略对初始资源分配策略进行优化，确定目标资源分配策略；初始资源分配策略为决策人员根据待分析数据进行资源优化确定的。

分配模块17，用于根据目标资源分配策略，为资源管理单位的各产品分配相应的资源。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待分析数据；待分析数据包括多个账户信息和多个产品信息；

将待分析数据输入训练好的强化学习模型中，得到资源分配策略；强化学习模型是以资源管理单位的所有账户的收益最大化为训练目标进行训练得到。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

根据奖励函数建立初始强化学习模型；

以资源管理单位的所有账户的收益最大化为训练目标，将样本数据输入至初始强化学习模型进行训练，得到强化学习模型；样本数据包括多个样本账户对应的历史账户信息和多个历史产品信息。

根据各样本账户中存储的资源总量为各样本账户分配相应的权重值；

根据分配后的各样本账户的权重值设置奖励函数中的权重参数，得到赋值后的奖励函数；

根据赋值后的奖励函数建立初始强化学习模型。

将样本数据输入至初始强化学习模型进行计算，得到奖励函数的输出值；输出值表示资源管理单位的所有账户的收益值；

以奖励函数的输出值为最大的训练目标，调整初始强化学习模型的参数进行训练，得到强化学习模型。

对待分析数据进行标准化处理，得到处理后的待分析数据；

将待分析数据输入训练好的强化学习模型中，得到资源分配策略，包括：

将处理后的待分析数据输入训练好的强化学习模型中，得到资源分配策略。

对待分析数据进行数据清洗，得到清洗后的待分析数据；

对待分析数据进行标准化处理，得到处理后的待分析数据，包括：

对清洗后的待分析数据进行标准化处理，得到处理后的待分析数据。

根据资源分配策略对初始资源分配策略进行优化，确定目标资源分配策略；初始资源分配策略为决策人员根据待分析数据进行资源优化确定的；

根据目标资源分配策略，为资源管理单位的各产品分配相应的资源。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

根据奖励函数建立初始强化学习模型；

根据赋值后的奖励函数建立初始强化学习模型。

对待分析数据进行标准化处理，得到处理后的待分析数据；

对待分析数据进行数据清洗，得到清洗后的待分析数据；

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

根据奖励函数建立初始强化学习模型；

根据赋值后的奖励函数建立初始强化学习模型。

对待分析数据进行标准化处理，得到处理后的待分析数据；

对待分析数据进行数据清洗，得到清洗后的待分析数据；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种资源分配方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据奖励函数建立初始强化学习模型；

3.根据权利要求2所述的方法，其特征在于，所述根据奖励函数建立初始强化学习模型，包括：

根据所述赋值后的奖励函数建立初始强化学习模型。

4.根据权利要求2所述的方法，其特征在于，所述以资源管理单位的所有账户的收益最大化为训练目标，将样本数据输入至所述初始强化学习模型进行训练，得到所述强化学习模型，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

8.一种资源分配装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。