CN114818913A

CN114818913A - 决策生成方法和装置

Info

Publication number: CN114818913A
Application number: CN202210430690.9A
Authority: CN
Inventors: 陈珍
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2022-07-29

Abstract

本公开提供了决策生成方法和装置，涉及计算机技术领域，具体涉及大数据和人工智能技术领域。具体实现方案为：首先获取多个决策策略对应的多个预训练决策模型，预训练决策模型与决策策略一一对应，然后获取待处理问题和待处理问题对应的决策场景，并基于待处理问题对应的决策场景，从多个预训练决策模型中选择目标决策模型，最后基于待处理问题和目标决策模型，生成待处理问题对应的目标决策，预先获取多个与决策策略对应的预训练决策模型，并在使用预训练决策模型过程中，能够利用同一预训练决策模型对不同的待处理问题进行决策，实现了决策模型和待处理问题之间的解耦。

Description

决策生成方法和装置

技术领域

本公开涉及计算机技术领域，具体涉及大数据和人工智能技术领域，尤其涉及决策生成方法和装置。

背景技术

随着科技不断进步发展，越来越多的问题不断涌现，需要对不同的问题进行决策分析，从而提出了运筹优化的决策模型，决策模型是为管理决策而建立的模型，即为辅助决策而研制的数学模型。随着运筹学的发展，出现了诸如线性规则、动态规则、对策论、排队论、存贷模型、调度模型等有效的决策分析方法。

近年来随着机器学习的兴起，有一部分方案使用机器学习进行求解加速，应用到精确方法、启发式方法或直接端到端求解都有，针对不同的问题训练得到对应的决策模型，使得决策模型能够对该问题进行决策处理。

发明内容

本公开提供了一种决策生成方法、装置、电子设备、存储介质以及计算机程序产品。

根据本公开的一方面，提供了一种决策生成方法，该方法包括：获取多个决策策略对应的多个预训练决策模型，其中，所述预训练决策模型与所述决策策略一一对应；获取待处理问题和所述待处理问题对应的决策场景；基于所述待处理问题对应的决策场景，从所述多个预训练决策模型中选择目标决策模型；基于所述待处理问题和所述目标决策模型，生成所述待处理问题对应的目标决策。

根据本公开的另一方面，提供了一种决策生成装置，该装置包括：获取模块，被配置成获取多个决策策略对应的多个预训练决策模型，其中，所述预训练决策模型与所述决策策略一一对应；获取待处理问题和所述待处理问题对应的决策场景；选择模块，被配置成基于所述待处理问题对应的决策场景，从所述多个预训练决策模型中选择目标决策模型；生成模块，被配置成基于所述待处理问题和所述目标决策模型，生成所述待处理问题对应的目标决策。

根据本公开的另一方面，提供了一种电子设备，该电子设备包括至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述决策生成方法。

根据本公开的另一方面，提供了一种计算机可读介质，其上存储有计算机指令，该计算机指令用于使计算机能够执行上述决策生成方法。

根据本公开的另一方面，本申请实施例提供了一种计算机程序产品，其包括计算机程序/指令，计算机程序/指令被处理器执行时实现上述决策生成方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开的决策生成方法的一个实施例的流程图；

图2是根据本公开的获取多个决策策略对应的多个预训练决策模型的一个实施例的流程图；

图3是根据本公开的决策生成方法的另一个实施例的流程图；

图4是根据本公开的决策生成方法的又一个实施例的流程图；

图5是根据本公开的监测目标决策模型的一个实施例的流程图；

图6是根据本公开的决策生成装置的一个实施例的结构示意图；

图7是用来实现本公开实施例的决策生成方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

参考图1，图1示出了可以应用于本公开的决策生成方法的实施例的流程示意图100。该决策生成方法包括以下步骤：

步骤110，获取多个决策策略对应的多个预训练决策模型。

在本实施例中，决策生成方法的执行主体(例如终端设备或服务器)可以通过网络读取等方式获取到多个预训练决策模型，预训练决策模型与决策策略一一对应，每一种决策策略可以对应一个预训练决策模型，该决策策略可以表征不同决策模型的应用策略，可以包括精确求解方式、启发式求解方式和针对场景问题与解决方案的方式，其中，精确求解方式可以是通过求解器中的算法对预训练决策模型进行模仿学习；启发式求解方式可以是基于预训练决策模型对处理问题进行预测，得到问题结果的评估指标，通过评估指标判断哪一组决策最佳进行选择；针对场景问题与解决方案的方式可以是针对某一场景的人工经验或者用启发式算法/精确算法求解的结果，将结果复原为序列决策。以及，每个预训练决策模型是针对当前决策策略，基于多个处理问题的样本数据对初始决策模型训练得到的，从而每个预训练决策模型能够对多个不同的处理问题进行决策处理，多个预训练决策模型可以包括求解器类型的预训练决策模型、启发式算法类型的预训练决策模型和端对端模型类型的预训练决策模型。

步骤120，获取待处理问题和待处理问题对应的决策场景。

在本实施例中，上述执行主体可以接收用户输入或者通过网络读取等方式获取到需要进行决策处理的待处理问题，该待处理问题可以是需要基于决策模型进行决策的问题，例如在停车管理系统中如何达到停车数量最大化等问题。

上述执行主体获取到待处理问题后，还可以获取待处理问题对应的决策场景，该决策场景可以是预训练决策模型的应用场景，可以是离线决策场景或者是在线决策场景。

步骤130，基于待处理问题对应的决策场景，从多个预训练决策模型中选择目标决策模型。

在本实施例中，上述执行主体获取到待处理问题对应的决策场景后，可以根据该决策场景在决策场景和决策模型类型的对应关系表中确定出对应的目标决策模型类型，不同的决策场景可以对应不同的决策模型类型。然后上述执行主体确定出对应的目标决策模型类型，从多个预训练决策模型中选择目标决策模型类型对应的预训练决策模型，作为目标决策模型。

作为示例，若决策场景是在线决策场景，上述执行主体可以确定出在线决策场景对应的目标决策模型类型为端对端模型类型，则可以从多个预训练决策模型中选择出端对端模型类型对应的预训练决策模型，将其作为待处理问题在在线决策场景中的目标决策模型。

步骤140，基于待处理问题和目标决策模型，生成待处理问题对应的目标决策。

在本实施例中，上述执行主体获取到待处理问题和目标决策模型后，可以将待处理问题输入至目标决策模型中，通过目标决策模型对待处理问题进行决策，生成待处理问题对应的目标决策。

或者，上述执行主体可以采集待处理问题对应的样本数据，基于样本数据对目标决策模型进行训练调整，得到调整后的决策模型，可以将待处理问题输入至调整后的决策模型中，通过调整后的决策模型对待处理问题进行决策，生成待处理问题对应的目标决策。

本公开的实施例提供的决策生成方法，通过获取多个决策策略对应的多个预训练决策模型，预训练决策模型与决策策略一一对应，然后获取待处理问题和待处理问题对应的决策场景，并基于待处理问题对应的决策场景，从多个预训练决策模型中选择目标决策模型，最后基于待处理问题和目标决策模型，生成待处理问题对应的目标决策，预先获取多个与决策策略对应的预训练决策模型，并在使用预训练决策模型过程中，能够利用同一预训练决策模型对不同的待处理问题进行决策，实现了决策模型和待处理问题之间的解耦，决策模型不再仅仅针对一个待处理问题存在，能够解决多个不同的待处理问题，提高了决策模型应用的灵活性和通用性。

参见图2，图2示出了获取多个决策策略对应的多个预训练决策模型的一个实施例的流程图，即上述步骤110，获取多个决策策略对应的多个预训练决策模型，可以包括以下步骤：

步骤210，获取决策模型对应的训练条件。

在本步骤中，上述执行主体在对决策模型进行预训练之前，可以获取决策模型对应的训练条件，该训练条件可以表征训练得到决策模型的模型精度要求等，该训练条件可以是操作人员根据决策模型的模型要求预先设定的，本公开对此不做具体要求。

步骤220，基于训练条件，确定对应的模型训练步骤。

在本步骤中，上述执行主体获取到决策模型的训练条件后，可以根据该训练条件在训练条件与模型训练步骤的对应的关系表中确定出对应的模型训练步骤，该模型训练步骤可以包括对决策模型的训练方式，例如包括监督学习和强化学习等不同的模型训练方式。

作为一个可选实现方式，上述步骤220，基于训练条件，确定对应的模型训练步骤，可以包括以下步骤：构建用于训练决策模型的多个训练子步骤；基于训练条件，从多个训练子步骤中选择对应的目标训练子步骤，组成模型训练步骤。

具体地，上述执行主体获取到决策模型的训练条件后，可以构建用于训练决策模型的多个训练子步骤，该训练子步骤可以是对模型进行训练的方法步骤，可以包括决策策略、样本采集、监督学习和强化学习等，其中，决策策略可以包括精确求解方式，启发式求解方式以及场景问题和解决方案方式；样本采集可以包括策略选择方式，数据聚合方式和并行采样方式；监督学习可以包括规则模型方式，回归模型方式，分类模型方式和生成模型方式；强化学习可以包括求解最优奖励总和方式(Value based)，求解最优策略方式(Policybased)和混合求解方式(hybrid)。

上述执行主体可以根据训练条件，从多个训练子步骤中选择出能够满足训练条件的目标训练子步骤，选择的目标训练子步骤可以包括单独采用强化学习，还可以包括采用决策策略、样本采集、监督学习这3个目标训练子步骤，也可以采用决策策略、样本采集、监督学习和强化学习这4个目标训练子步骤，其中每一个训练子步骤可以从包括的训练方式中采用任意一项训练方式，不做具体限定。从而上述执行主体可以将选择的目标训练子步骤组成模型训练步骤，获取到训练条件对应的模型训练步骤。

在本实现方式中，通过不同训练子步骤进行组合得到不同的模型训练步骤，提高了训练步骤的多样性，并进一步利用该训练步骤训练决策模型，能够得到不同精度的预训练决策模型，提高了决策模型的多样性。

步骤230，针对多个决策策略，采用模型训练步骤对初始决策模型进行训练，得到多个决策策略对应的多个预训练决策模型。

在本步骤中，上述执行主体获取到训练条件对应的模型训练步骤后，针对多个决策策略中的每个决策策略，可以采用模型训练步骤对初始决策模型进行训练，得到该决策策略对应的预训练决策模型，从而上述执行主体可以得到每个决策策略对应的预训练决策模型，获取到多个决策策略对应的多个预训练决策模型。

本公开可以通过相关技术手段来实现采用模型训练步骤对初始决策模型进行训练，得到该决策策略对应的预训练决策模型，本公开对此不做具体限定。

在本实施例中，通过训练条件对应的模型训练步骤训练决策模型，能够得到对应精度的预训练决策模型，提高了决策模型的针对性和准确性。

参考图3，图3示出了决策生成方法的另一个实施例的流程图，该决策生成方法可以包括以下步骤：

步骤310，获取多个决策策略对应的多个预训练决策模型。

本实施例的步骤310可以按照与图1所示实施例中的步骤110类似的方式执行，此处不赘述。

步骤320，获取待处理问题和待处理问题对应的决策场景。

本实施例的步骤320可以按照与图1所示实施例中的步骤120类似的方式执行，此处不赘述。

步骤330，获取待处理问题对应的决策需求。

上述决策场景包括离线决策，从而预训练决策模型是应用在离线决策场景中。

在本步骤中，上述执行主体可以通过接收用户输入或者网络读取等方式获取待处理问题对应的决策需求，该决策需求可以表征待处理问题的决策结果的效果需要，可以包括决策时效性高、决策结果对应的处理结果准确度高、决策时效性较高且决策结果对应的处理结果准确度较高等。

步骤340，基于待处理问题对应的决策需求，从多个预训练决策模型中选择目标决策模型。

在本步骤中，上述执行主体获取到待处理问题对应的决策需求后，可以根据该决策需求在决策需求和决策模型类型的对应关系表中确定出对应的目标决策模型类型，不同的决策需求可以对应不同的决策模型类型。然后上述执行主体确定出对应的目标决策模型类型，从多个预训练决策模型中选择目标决策模型类型对应的预训练决策模型，作为目标决策模型。

上述决策时效性高的决策需求可以对应端对端模型类型的预训练决策模型，决策结果对应的处理结果准确度高的决策需求可以对应求解器类型的预训练决策模型，决策时效性较高且决策结果对应的处理结果准确度较高的决策需求可以对应启发式算法类型的预训练决策模型。

步骤350，基于待处理问题和目标决策模型，生成待处理问题对应的目标决策。

本实施例的步骤350可以按照与图1所示实施例中的步骤140类似的方式执行，此处不赘述。

在本实施例中，通过不同的决策需求确定出对应的目标决策模型，提高了不同需求下决策模型的针对性，从而能够提高待处理问题的决策结果的针对性，满足不同需求。

参考图4，图4示出了决策生成方法的又一个实施例的流程图，该决策生成方法可以包括以下步骤：

步骤410，获取多个决策策略对应的多个预训练决策模型。

本实施例的步骤410可以按照与图1所示实施例中的步骤110类似的方式执行，此处不赘述。

步骤420，获取待处理问题和待处理问题对应的决策场景。

本实施例的步骤420可以按照与图1所示实施例中的步骤120类似的方式执行，此处不赘述。

步骤430，基于待处理问题对应的决策场景，从多个预训练决策模型中选择目标决策模型。

本实施例的步骤430可以按照与图1所示实施例中的步骤130类似的方式执行，此处不赘述。

步骤440，获取待处理问题对应的当前状态。

上述决策场景包括在线决策，从而预训练决策模型是应用在在线决策场景中。由于在线决策需要决策时效性高，则上述执行主体可以根据在线决策确定出目标决策模型为端对端模型类型的预训练决策模型。

在本步骤中，上述执行主体可以将端对端模型类型的预训练决策模型应用至待处理问题的在线决策场景中，可以通过对待处理问题的信息分析，获取到待处理问题对应的当前状态，当前状态可以表征待处理问题对应的事件状态，不同的决策可以对应不同的状态。

步骤450，基于当前状态和待处理问题，通过目标决策模型输出对应的决策列表。

在本步骤中，上述执行主体可以利用目标决策模型对当前状态和待处理问题进行决策处理，输出在当前状态下待处理问题对应的决策列表，该决策列表中可以包括多个不同的处理决策。

步骤460，基于待处理问题对应的决策条件，从决策列表中确定出待处理问题对应的目标决策。

在本步骤中，上述执行主体获取到待处理问题对应的决策列表后，可以进一步获取待处理问题对应的决策条件，该决策条件可以操作人员预先设置的针对该待处理问题的选择指标，用于对多个决策进行选择。然后上述执行主体根据该决策条件从决策列表中确定出符合决策条件的目标决策，作为该待处理问题对应的目标决策。

以及，上述执行主体可以执行该目标决策，并对当前状态进行更新，得到更新后的状态。

在本实施例中，通过目标决策模型和决策条件实现目标决策的确定，提高了目标决策的针对性和准确性。

参考图5，图5示出了监测目标决策模型的一个实施例的流程图，可以包括以下步骤：

步骤510，获取预设时间段内目标决策模型对应的决策数据。

在本步骤中，上述执行主体可以利用目标决策模型对待处理问题进行决策处理，可以获取预设时间段内目标决策模型对应的决策数据，该决策数据可以包括目标决策模型针对的待处理问题和生成的目标决策，本公开对预设时间段不做具体限定。

步骤520，对决策数据进行数据分析，得到分析结果。

在本步骤中，上述执行主体获取到预设时间段内的决策数据后，可以根据待处理问题对应的最佳决策对决策数据进行数据分析，例如数据的倾向性，数据的差距值等，得到对应的分析结果，该分析结果可以包括目标决策模型针对多个待处理问题的决策分析结果、针对某一个待处理问题的决策分析结果等。

步骤530，基于分析结果，生成目标决策模型的性能结果。

在本步骤中，上述执行主体获取到决策数据的分析结果后，对目标决策模型的决策数据进行效果评估，可以根据决策数据的分析结果，生成目标决策模型的性能结果，可以包括对多个待处理问题的决策性能、针对某一个待处理问题的决策性能等。

在本实施例中，通过对预设时间段内的目标决策模型进行数据分析，实现定期对决策结果进行效果评估，从而能够实现对目标决策模型的定期监测，保证决策模型的性能。

继续参考图5，还可以包括以下步骤：

步骤540，判断目标决策模型的性能结果是否符合预设条件。

在本步骤中，上述执行主体获取到目标决策模型的性能结果后，可以将该性能结果与预设条件进行比较，判断目标决策模型的性能结果是否符合预设条件，该预设条件可以表征决策模型的性能不能低于性能阈值，即目标决策模型的决策后的效果不能低于预设阈值，本公开的预设条件还可以包括其他表现形式，对此不做具体限定。

步骤550，响应于确定目标决策模型的性能结果不符合预设条件，获取目标决策模型在预设时间段内的样本数据。

在本步骤中，上述执行主体通过判断确定目标决策模型的性能结果不符合预设条件，确定发生数据漂移，则通过采集获取目标决策模型在预设时间段内的样本数据，该样本数据可以包括待处理问题和对应的最佳决策。

步骤560，基于样本数据对目标决策模型进行模型迭代。

在本步骤中，上述执行主体获取到样本数据后，可以基于样本数据对目标决策模型进行模型迭代，实现对目标决策模型的更新调整。本公开可以通过相关技术手段实现利用样本数据对目标决策模型进行模型迭代。

在本实施例中，通过定期对决策结果进行效果评估，如果目标决策模型的效果较低，发生数据漂移，则对模型进行决策复盘或模型迭代，实现对目标决策模型的定期监测，保证决策模型的性能。

参考图6，作为对上述各图所示方法的实现，本公开提供了一种决策生成装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例的决策生成装置600包括：获取模块610，选择模块620和生成模块630。

其中，获取模块610，被配置成获取多个决策策略对应的多个预训练决策模型，其中，预训练决策模型与决策策略一一对应；获取待处理问题和待处理问题对应的决策场景；

选择模块620，被配置成基于待处理问题对应的决策场景，从多个预训练决策模型中选择目标决策模型；

生成模块630，被配置成基于待处理问题和目标决策模型，生成待处理问题对应的目标决策。

在本实施例的一些可选的方式中，获取模块610，包括：获取单元，被配置成获取决策模型对应的训练条件；确定单元，被配置成基于训练条件，确定对应的模型训练步骤；训练单元，被配置成针对多个决策策略，采用模型训练步骤对初始决策模型进行训练，得到多个决策策略对应的多个预训练决策模型。

在本实施例的一些可选的方式中，确定单元，进一步被配置成：构建用于训练决策模型的多个训练子步骤；基于训练条件，从多个训练子步骤中选择对应的目标训练子步骤，组成模型训练步骤。

在本实施例的一些可选的方式中，待处理问题对应的决策场景包括离线决策；以及，选择模块620，进一步被配置成：获取待处理问题对应的决策需求；基于待处理问题对应的决策需求，从多个预训练决策模型中选择目标决策模型。

在本实施例的一些可选的方式中，待处理问题对应的决策场景包括在线决策；以及，生成模块630，进一步被配置成：获取待处理问题对应的当前状态；基于当前状态和待处理问题，通过目标决策模型输出对应的决策列表；基于待处理问题对应的决策条件，从决策列表中确定出待处理问题对应的目标决策。

在本实施例的一些可选的方式中，该装置还包括分析模块；获取模块，进一步被配置成：获取预设时间段内目标决策模型对应的决策数据；分析模块，被配置成：对决策数据进行数据分析，得到分析结果；生成模块，进一步被配置成：基于分析结果，生成目标决策模型的性能结果。

在本实施例的一些可选的方式中，该装置还包括判断模块和模型迭代模块；判断模块，被配置成：判断目标决策模型的性能结果是否符合预设条件；获取模块，进一步被配置成：响应于确定目标决策模型的性能结果不符合预设条件，获取目标决策模型在预设时间段内的样本数据；模型迭代模块，被配置成：基于样本数据对目标决策模型进行模型迭代。

本公开的实施例提供的决策生成装置，通过获取多个决策策略对应的多个预训练决策模型，预训练决策模型与决策策略一一对应，然后获取待处理问题和待处理问题对应的决策场景，并基于待处理问题对应的决策场景，从多个预训练决策模型中选择目标决策模型，最后基于待处理问题和目标决策模型，生成待处理问题对应的目标决策，预先获取多个与决策策略对应的预训练决策模型，并在使用预训练决策模型过程中，能够利用同一预训练决策模型对不同的待处理问题进行决策，实现了决策模型和待处理问题之间的解耦，决策模型不再仅仅针对一个待处理问题存在，能够解决多个不同的待处理问题，提高了决策模型应用的灵活性和通用性。

本领域技术人员可以理解，上述装置还包括一些其他公知结构，例如处理器、存储器等，为了不必要地模糊本公开的实施例，这些公知的结构在图6中未示出。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，电子设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口805也连接至总线704。

电子设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如决策生成方法。例如，在一些实施例中，决策生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的决策生成方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行决策生成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种决策生成方法，包括：

获取多个决策策略对应的多个预训练决策模型，其中，所述预训练决策模型与所述决策策略一一对应；

获取待处理问题和所述待处理问题对应的决策场景；

基于所述待处理问题对应的决策场景，从所述多个预训练决策模型中选择目标决策模型；

基于所述待处理问题和所述目标决策模型，生成所述待处理问题对应的目标决策。

2.根据权利要求1所述的方法，其中，所述获取多个决策策略对应的多个预训练决策模型，包括：

获取决策模型对应的训练条件；

基于所述训练条件，确定对应的模型训练步骤；

针对多个决策策略，采用所述模型训练步骤对初始决策模型进行训练，得到多个决策策略对应的多个预训练决策模型。

3.根据权利要求2所述的方法，其中，所述基于所述训练条件，确定对应的模型训练步骤，包括：

构建用于训练决策模型的多个训练子步骤；

基于所述训练条件，从所述多个训练子步骤中选择对应的目标训练子步骤，组成所述模型训练步骤。

4.根据权利要求1所述的方法，其中，所述待处理问题对应的决策场景包括离线决策；以及，所述基于所述待处理问题对应的决策场景，从所述多个预训练决策模型中选择目标决策模型，包括：

获取所述待处理问题对应的决策需求；

基于所述待处理问题对应的决策需求，从所述多个预训练决策模型中选择目标决策模型。

5.根据权利要求1所述的方法，其中，所述待处理问题对应的决策场景包括在线决策；以及，所述基于所述待处理问题和所述目标决策模型，生成所述待处理问题对应的目标决策，包括：

获取所述待处理问题对应的当前状态；

基于所述当前状态和所述待处理问题，通过所述目标决策模型输出对应的决策列表；

基于所述待处理问题对应的决策条件，从所述决策列表中确定出所述待处理问题对应的目标决策。

6.根据权利要求1-5任意一项所述的方法，所述方法还包括：

获取预设时间段内所述目标决策模型对应的决策数据；

对所述决策数据进行数据分析，得到分析结果；

基于所述分析结果，生成所述目标决策模型的性能结果。

7.根据权利要求5所述的方法，所述方法还包括：

判断所述目标决策模型的性能结果是否符合预设条件；

响应于确定所述目标决策模型的性能结果不符合预设条件，获取所述目标决策模型在所述预设时间段内的样本数据；

基于所述样本数据对所述目标决策模型进行模型迭代。

8.一种决策生成装置，包括：

获取模块，被配置成获取多个决策策略对应的多个预训练决策模型，其中，所述预训练决策模型与所述决策策略一一对应；获取待处理问题和所述待处理问题对应的决策场景；

选择模块，被配置成基于所述待处理问题对应的决策场景，从所述多个预训练决策模型中选择目标决策模型；

生成模块，被配置成基于所述待处理问题和所述目标决策模型，生成所述待处理问题对应的目标决策。

9.根据权利要求8所述的装置，其中，所述获取模块，包括：

获取单元，被配置成获取决策模型对应的训练条件；

确定单元，被配置成基于所述训练条件，确定对应的模型训练步骤；

训练单元，被配置成针对多个决策策略，采用所述模型训练步骤对初始决策模型进行训练，得到多个决策策略对应的多个预训练决策模型。

10.根据权利要求9所述的装置，其中，所述确定单元，进一步被配置成：

构建用于训练决策模型的多个训练子步骤；

11.根据权利要求8所述的装置，其中，所述待处理问题对应的决策场景包括离线决策；以及，所述选择模块，进一步被配置成：

获取所述待处理问题对应的决策需求；

12.根据权利要求8所述的装置，其中，所述待处理问题对应的决策场景包括在线决策；以及，所述生成模块，进一步被配置成：

获取所述待处理问题对应的当前状态；

13.根据权利要求8-12任意一项所述的装置，所述装置还包括分析模块；

所述获取模块，进一步被配置成：获取预设时间段内所述目标决策模型对应的决策数据；

所述分析模块，被配置成：对所述决策数据进行数据分析，得到分析结果；

所述生成模块，进一步被配置成：基于所述分析结果，生成所述目标决策模型的性能结果。

14.根据权利要求13所述的装置，所述装置还包括判断模块和模型迭代模块；

所述判断模块，被配置成：判断所述目标决策模型的性能结果是否符合预设条件；

所述获取模块，进一步被配置成：响应于确定所述目标决策模型的性能结果不符合预设条件，获取所述目标决策模型在所述预设时间段内的样本数据；

所述模型迭代模块，被配置成：基于所述样本数据对所述目标决策模型进行模型迭代。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-7任意一项所述方法的步骤。