CN116880867A

CN116880867A - 基于策略大模型的决策引擎更新方法及装置

Info

Publication number: CN116880867A
Application number: CN202310601216.2A
Authority: CN
Inventors: 万贝; 郑彦; 苏绥绥; 刘寒
Original assignee: Shanghai Qiyue Information Technology Co Ltd
Current assignee: Shanghai Qiyue Information Technology Co Ltd
Priority date: 2023-05-25
Filing date: 2023-05-25
Publication date: 2023-10-13

Abstract

本申请涉及一种基于策略大模型的决策引擎更新方法及装置。该方法包括：基于策略大模型，针对更新运行数据包和初始运行数据包中的差异生成观测参数集；获取与观测参数集相匹配的样本数据；通过样本数据对更新运行数据包进行测试；并调用策略大模型在策略执行结果不符合预设决策预期时，根据每次迭代得到的策略执行结果与预设决策预期的偏差生成迭代参考趋势；根据迭代参考趋势生成多个参考规则对更新运行数据包进行迭代重新执行预设策略；根据迭代后的更新运行数据包对所述终端决策引擎进行更新。本申请通过大模型来辅助确定运行参数的变化对决策引擎的性能变化，极大提高测试效率及准确度，加快决策引擎的性能优化周期。

Description

基于策略大模型的决策引擎更新方法及装置

技术领域

本申请涉及计算机信息处理领域，具体而言，涉及一种基于策略大模型的决策引擎更新方法、装置、电子设备及计算机可读介质。

背景技术

决策引擎是指企业针对其客户提供个性化的服务决策的平台，决策引擎是一个工具，利用决策引擎可以支撑企业在客户管理(CRM)的各种决策，在决策引擎之上可以开发出各种不同的解决方案。

决策引擎需要通过接口从其他系统(如数据仓库)获取关于各种不同数据，具体需要输入哪些数据，取决于具体需要解决的业务问题。决策引擎经过计算后会输出决策结果，例如单个用户应用场景：某个用户a的决策结果；批量用户应用场景：某批用户(用户组)a的决策结果。业务人员能在可视化的界面中设计决策流程。

由于当前越来越多的场景中会将经验策略与模型策略相结合，共同组成实际的自动化决策。因此决策引擎也能够支持对算法模型的导入，导出以及调用。决策引擎中的策略在应用之前会经过策略编写、策略测试、策略上线这3个步骤，当决策流程较为复杂或规则调整过大时，策略编写和测试中难免会出现一些人为误差导致生产事故。由于决策引擎涉及到复杂的接口配置和逻辑处理过程，每次改动之后的上线工作都需要进行多次测试，费事费力。

因此，需要一种新的基于策略大模型的决策引擎更新方法、装置、电子设备及计算机可读介质。

在所述背景技术部分公开的上述信息仅用于加强对本申请的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

22025A66I

发明内容

有鉴于此，本申请提供一种基于策略大模型的决策引擎更新方法、装置、电子设备及计算机可读介质，能够自动对决策引擎中的策略进行测试，智能产出测试报告，汇总关键指标变化情况，通过大模型来辅助确定运行参数的变化对决策引擎的性能变化，极大提高测试效率及准确度，加快决策引擎的性能优化周期。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请的一方面，提出一种基于策略大模型的决策引擎更新方法，该方法包括：获取终端决策引擎中待进行测试的更新运行数据包和其对应的初始运行数据包；针对所述更新运行数据包和所述初始运行数据包中的差异生成观测参数集；获取预定时间内与所述观测参数集相匹配的各个运行场景对应的实际决策数据，作为样本数据；通过所述样本数据对所述更新运行数据包执行预设策略；在策略执行结果不符合预设决策预期时，根据每次迭代得到的所述策略执行结果与所述预设决策预期的偏差生成迭代参考趋势；通过所述迭代参考趋势生成多个参考规则对所述更新运行数据包进行迭代重新执行预设策略，直至所述策略执行结果符合预设决策预期为止；通过迭代后的所述更新运行数据包对所述终端决策引擎进行更新。

可选地，通过所述样本数据对所述更新运行数据包执行预设策略，包括：将所述更新运行数据包中的运行数据与所述样本数据中的各运行场景对应的运行数据进行匹配；根据匹配结果预测所述更新运行数据包上线运行时的预测决策数据；通过所述预测决策数据和所述初始运行数据包运行时产生的初始决策数据的比对结果，生成策略执行结果。

可选地，通过所述预测决策数据和所述初始运行数据包运行时产生的初始决策数据的比对结果，生成策略执行结果，包括：针对所述预测决策数据和所述初始决策数据的差异生成变化量对比曲线；并将所述观测参数集中运行规则的差异和所述变化量对比曲线进行对应生成所述策略执行结果。

可选地，通过所述迭代参考趋势生成多个参考规则对所述更新运行数据包进行迭代，包括：所述策略大模型根据所述迭代参考趋势确定所述更新运行数据包中不同运行规则对所述预测决策数据和所述初始决策数据的变化贡献量；所述策略大模型基于所述策略执行结果与所述预设决策预期之间的偏差和所述不同运行规则对应的变化贡献量，生成多个参考规则；通过多个所述参考规则对所述更新运行数据包进行修正。

可选地，获取终端决策引擎中待进行测试的更新运行数据包和其对应的初始运行数据包，包括：对终端决策引擎中初始运行数据包的多个运行规则进行实时监测；在所述初始运行数据包的更改满足改动策略时，根据改动后的运行数据包生成所述更新运行数据包。

可选地，针对所述更新运行数据包和所述初始运行数据包中的差异生成观测参数集，包括：通过所述策略大模型将所述更新运行数据包和所述初始运行数据包的多个观测参数进行匹配，将未匹配成功的观测参数组合生成所述观测参数集。

可选地，针对所述更新运行数据包和所述初始运行数据包中的差异生成观测参数集，包括：通过所述策略大模型将所述更新运行数据包和所述初始运行数据包的多个运行规则进行匹配；通过未匹配成功的运行规则生成运行规则集。

可选地，获取预定时间内与所述观测参数集相匹配的各个运行场景对应的实际决策数据，作为样本数据，包括：根据所述初始运行数据包对应的各个运行场景确定预定时间范围、目标样本类别和目标样本数量；基于所述策略大模型，根据所述预定时间范围、所述目标样本类别和所述目标样本数量对历史样本进行筛选，提取所述样本数据。

可选地，基于所述策略大模型，根据所述预定时间范围、所述目标样本类别和所述目标样本数量对历史样本进行筛选，提取所述样本数据，包括：将所述预定时间范围内的历史样本输入所述策略大模型，对所述历史样本进行分类得到样本类别；通过所述策略大模型提取符合所述目标样本类别和所述目标样本数量的历史样本以得到所述样本数据。

可选地，通过所述样本数据对所述更新运行数据包执行预设策略，包括：将所述样本数据分发到多个服务器中；多个服务器通过所述样本数据并行对所述更新运行数据包执行预设策略。

根据本申请的一方面，提出一种基于策略大模型的决策引擎更新装置，该装置包括：数据模块，用于获取终端决策引擎中待进行测试的更新运行数据包和其对应的初始运行数据包；参数模块，用于基于策略大模型，针对所述更新运行数据包和所述初始运行数据包中的差异生成观测参数集；样本模块，用于获取预定时间内与所述观测参数集相匹配的各个运行场景对应的实际决策数据，作为样本数据；测试模块，用于通过所述样本数据对所述更新运行数据包执行预设策略；迭代模块，用于调用所述策略大模型在策略执行结果不符合预设决策预期时，根据每次迭代得到的所述策略执行结果与所述预设决策预期的偏差生成迭代参考趋势；通过所述迭代参考趋势生成多个参考规则对所述更新运行数据包进行迭代重新执行预设策略，直至所述策略执行结果符合预设决策预期为止；更新模块，用于通过迭代后的所述更新运行数据包对所述终端决策引擎进行更新。

根据本申请的一方面，提出一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上文的方法。

根据本申请的一方面，提出一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上文中的方法。

根据本申请的基于策略大模型的决策引擎更新方法、装置、电子设备及计算机可读介质，通过获取终端决策引擎中待进行测试的更新运行数据包和其对应的初始运行数据包；基于策略大模型，针对所述更新运行数据包和所述初始运行数据包中的差异生成观测参数集；获取预定时间内与所述观测参数集相匹配的各个运行场景对应的实际决策数据，作为样本数据；通过所述样本数据对所述更新运行数据包执行预设策略；并调用策略大模型在策略执行结果不符合预设决策预期时，根据每次迭代得到的所述策略执行结果与所述预设决策预期的偏差生成迭代参考趋势；通过所述迭代参考趋势生成多个参考规则对所述更新运行数据包进行迭代重新执行预设策略，直至所述策略执行结果符合预设决策预期为止；通过迭代后的所述更新运行数据包对所述终端决策引擎进行更新的方式，能够自动对决策引擎中的策略进行测试，智能产出测试报告，汇总关键指标变化情况，通过大模型来辅助确定运行参数的变化对决策引擎的性能变化，极大提高测试效率及准确度，加快决策引擎的性能优化周期。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

通过参照附图详细描述其示例实施例，本申请的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种基于策略大模型的决策引擎更新方法的流程图。

图2是根据另一示例性实施例示出的一种基于策略大模型的决策引擎更新方法的流程图。

图3是根据另一示例性实施例示出的一种基于策略大模型的决策引擎更新方法的流程图。

图4是根据另一示例性实施例示出的一种基于策略大模型的决策引擎更新方法的流程图。

图5是根据一示例性实施例示出的一种基于策略大模型的决策引擎更新装置的框图。

图6是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本申请将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

图1是根据一示例性实施例示出的一种基于策略大模型的决策引擎更新方法的流程图。基于策略大模型的决策引擎更新方法10至少包括步骤S102至S112。

如图1所示，在S102中，获取终端决策引擎中待进行测试的更新运行数据包和其对应的初始运行数据包。可例如，对终端决策引擎中初始运行数据包的多个运行规则进行实时监测；在所述初始运行数据包的更改满足改动策略时，根据改动后的运行数据包生成所述更新运行数据包。

在一个实际应用中，终端决策引擎可用于对节点的实时特征进行分析决策，以为节点分配安全策略或者流量策略。决策引擎的运行数据包中包括决策所需的规则、参数以及规则之间的逻辑关系。

更具体的，在一个实际应用中，决策引擎的初始运行数据包中的一条决策规则可为：为当前时间周期内，数据传输量大于10G的节点减少任务处理量。其中，当前时间周期可为10分钟，减少的任务处理量可为50％。

在某时刻，管理用户更改初始运行数据包中的该条决策规则为：为当前时间周期内，数据传输量大于10G的节点减少任务处理量。其中，当前时间周期可为50分钟，减少的任务处理量可为70％。

在对决策规则进行实时监控的过程中，在管理用户更改规则之后，则自动生成新的更新策略，然后根据更新策略生成更新运行数据包，在后续处理中，自动对该更新运行数据包进行测试。

在实时监控过程中，可设置改动策略阈值，可例如，在用户改动参数范围小于10％时，可不进行自动测试。在上文实施例中，用户更改决策规则为：当前时间周期为10.5分钟，此时改动较小，可不启动自动测试过程。

更具体的启动自动测试的改动策略可根据不同的应用场景进行特定设置，本申请不以此为限。

在S104中，基于策略大模型，针对所述更新运行数据包和所述初始运行数据包中的差异生成观测参数集。

在一个实施例中，可通过所述策略大模型将所述更新运行数据包和所述初始运行数据包的多个观测参数进行匹配，将未匹配成功的观测参数组合生成所述观测参数集。接续上文的实施例，可将更新运行数据包和初始运行数据包的观测参数进行比较，观测参数可为时间周期、数据传输量、任务处理量减小系数等等。由于更改了当前时间周期和任务处理量，所以这两个观测参数未匹配成功，即根据这两个参数生成观测参数集。

在一个实施例中，可以是基于多模态大模型的架构形态，结合本申请中对于数据的筛选过程、决策的运行过程以及运行数据包和实际决策数据之间的关联关系等知识，分别构建的多个子模型组合而成本方案中的策略大模型，或者，多模态大模型直接学习本申请中的上述知识，训练得到本方案中的策略大模型。

分别构建的子模型可以避免出现提供的知识互相之间产生干扰，导致最终构建大模型虽然可以理解管理用户发出的指令，但是执行的过程和结果可能与预期不符，分别单独学习知识建立的子模型可以只执行某一个方案的运行，但是需要管理人员给出的指令更加准确，以保证策略大模型调用准确的子模型来执行指令对应的方案。

直接将知识数据输入到多模态大模型中构建本方案的策略大模型，在输入的知识数据量足够时，多模态大模型不仅可以分别执行多种方案，还可以学习各个方案之间的联系，直接在一个对话过程中，不断的按照管理用户发出的指令进行相应的工作，减少人工操作流程，提升工作效率和准确率。

在一个实施例中，可通过所述策略大模型将所述更新运行数据包和所述初始运行数据包的多个运行规则进行匹配；通过未匹配成功的运行规则生成观测参数集。在一个实际的应用场景中，管理员可添加新的运行规则，可例如新增运行规则为：每日定时将故障率达到阈值的节点进行检测。在此前系统中不存在类似的运行规则，在新增运行规则之后，向策略大模型输入更新运行数据包和初始运行数据包，并向策略大模型发送对更新运行数据包和初始运行数据包进行匹配生成观测参数集的指令，进行将该运行规则和已有的规则进行匹配，如果有相似的运行规则，则如上文所述，根据未匹配成功的观测参数生成观测参数集，否则，则根据新增的运行规则生成观测参数集。

在S106中，获取预定时间内与所述观测参数集相匹配的各个运行场景对应的实际决策数据，作为样本数据。可例如，在策略大模型生成观测参数集后，管理用户向策略大模型输入获取观测参数集对应的实际决策数据的指令，根据所述初始运行数据包对应的各个运行场景确定预定时间范围、目标样本类别和目标样本数量；由于策略大模型学习过运行数据包和实际决策数据之间的关联关系，所以，可以基于所述策略大模型，根据所述预定时间范围、所述目标样本类别和所述目标样本数量对历史样本进行筛选，提取所述样本数据。

管理用户可在系统中设置样本取样的时间范围、目标样本类别或者样本数量，还可根据不同的运行场景配置相应的规则，通过策略大模型自动生成样本取样的时间范围、目标样本类别或者样本数量。

在S108中，通过所述样本数据对所述更新运行数据包执行预设策略。可将所述样本数据分发到多个服务器中，并在多个服务器中分别部署策略大模型；多个服务器分别基于策略大模型，通过所述样本数据并行对所述更新运行数据包执行预设策略，以此来对更新运行数据包中的不同规则分别进行运行，提高运行效率。可通过mysq l将样本数据分发到多台机器上同时执行预设策略。

在一个实施例中，在策略大模型获取到样本数据后，管理用户可以向策略大模型发出通过样本数据对更新运行数据包的决策结果进行预测的指令，实现通过策略大模型将所述更新运行数据包中的运行数据与所述样本数据中的各运行场景对应的运行数据进行匹配；根据匹配结果预测所述更新运行数据包上线运行时的预测决策数据；通过所述预测决策数据和所述初始运行数据包运行时产生的初始决策数据的比对结果，生成策略执行结果。

在S110中，在策略执行结果不符合预设决策预期时，管理用户可以向策略大模型发送根据迭代过程中得到的策略执行结果对更新运行数据包进行更新，并重新执行预设策略的指令，通过策略大模型执行根据每次迭代得到的所述策略执行结果与所述预设决策预期的偏差生成迭代参考趋势；通过所述迭代参考趋势生成多个参考规则对所述更新运行数据包进行迭代重新执行预设策略，直至所述策略执行结果符合预设决策预期为止。

在一个实施例中，可例如，所述策略大模型根据所述迭代参考趋势确定所述更新运行数据包中不同运行规则对所述预测决策数据和所述初始决策数据的变化贡献量；所述策略大模型基于所述策略执行结果与所述预设决策预期之间的偏差和所述不同运行规则对应的变化贡献量，生成多个参考规则；通过多个所述参考规则对所述更新运行数据包进行修正。

更具体的，在本实施例中的不同运行规则为观测参数集对应的规则，即更新运行数据包和初始运行数据包中不同的规则，只有这部分规则发生了变化，而且引起了预测决策数据发生了变化，此时，根据迭代过程中参数的变化，可以确定不同运行规则的变化对预测决策数据和初始决策数据的变化带来的贡献量，然后进一步确定策略执行结果和预设决策预期之间的偏差，最后，根据偏差和贡献量来生成参考规则对更新运行数据包中的规则进行修正，实现快速优化更新运行数据包对应的预测决策数据与预设决策预期之间的偏差，更高效地得到满足预设决策预期的更新运行数据包，提高决策引擎的运行数据更新效率。

在S112中，通过迭代后的所述更新运行数据包对所述终端决策引擎进行更新。预设策略满足之后，可将更新运行数据包对终端决策引擎进行更新自动上线运行。

根据本申请的基于策略大模型的决策引擎更新方法，通过获取终端决策引擎中待进行测试的更新运行数据包和其对应的初始运行数据包；基于策略大模型针对所述更新运行数据包和所述初始运行数据包中的差异生成观测参数集；获取预定时间内与所述观测参数集相匹配的各个运行场景对应的实际决策数据，作为样本数据；通过所述样本数据对所述更新运行数据包执行预设策略；调用策略大模型在策略执行结果不符合预设决策预期时，根据每次迭代得到的所述策略执行结果与所述预设决策预期的偏差生成迭代参考趋势；通过所述迭代参考趋势生成多个参考规则对所述更新运行数据包进行迭代重新执行预设策略，直至所述策略执行结果符合预设决策预期为止；通过迭代后的所述更新运行数据包对所述终端决策引擎进行更新的方式，能够自动对决策引擎中的策略进行测试，智能产出测试报告，汇总关键指标变化情况，通过大模型来辅助确定运行参数的变化对决策引擎的性能变化，极大提高测试效率及准确度，加快决策引擎的性能优化周期。

应清楚地理解，本申请描述了如何形成和使用特定示例，但本申请的原理不限于这些示例的任何细节。相反，基于本申请公开的内容的教导，这些原理能够应用于许多其它实施例。

图2是根据另一示例性实施例示出的一种基于策略大模型的决策引擎更新方法的流程图。图2所示的流程20是对图1所示的流程中S108“通过所述样本数据对所述更新运行数据包执行预设策略”的详细描述。

如图2所示，在S202中，所述策略大模型将所述更新运行数据包中的运行数据与所述样本数据中的各运行场景对应的运行数据进行匹配。管理用户向策略大模型发出基于样本数据确定更新运行数据包运行时的预测决策数据的指令后，策略大模型将更新运行包中所需的运行数据和每个场景中样本的实际表现数据进行匹配。

在S204中，根据匹配结果预测所述更新运行数据包上线运行时的预测决策数据。更具体的，策略大模型基于样本数据按照更新运行数据包中的运行规则进行决策匹配，从样本数据中匹配相符的决策数据生成预测决策数据。

其中，预测决策数据可为该节点是否满足安全规则，该用户画像的类别，该用户的安全等级等等。

在S206中，所述策略大模型通过所述预测决策数据和所述初始运行数据包运行时产生的初始决策数据的比对结果，生成策略执行结果。

调用策略大模型对预测解决数据与初始决策数据进行比对，基于比对结果生成策略执行结果；可直接在业务系统中提取样本数据之前的历史决策结果，可认为历史决策结果即为初始运行数据包的决策结果。当然，还可通过策略大模型，基于样本数据，确定初始运行数据包对应的决策结果。

在一个实施例中，可通过策略大模型针对所述预测决策数据和所述初始决策数据的差异生成变化量对比曲线；并将所述观测参数集中运行规则的差异和所述变化量对比曲线进行对应生成所述策略执行结果。

可通过策略大模型为每个观测参数均生成变化量对比曲线，还可生成决策结果变化量曲线等等，本申请不以此为限。

本申请的基于策略大模型的决策引擎更新方法，基于生产数据实例，集成数据的自动化抽取、规则执行、结果比对、智能产出测试报告等功能于一体，自动进行终端决策引擎的更新，在自动化测试过程中减少80％的人工操作流程，在实际应用中，执行2万个运行规则数据的执行时间不超过3分钟，相较于现有技术中的人工测试方式，本申请极大提高运行效率及准确度，能够为策略安全上线保驾护航。

图3是根据另一示例性实施例示出的一种基于策略大模型的决策引擎更新方法的流程图。图3所示的流程30是对图1所示的流程中S106“获取预定时间内与所述观测参数集相匹配的各个运行场景对应的实际决策数据，作为样本数据”的详细描述。

如图3所示，在S302中，根据所述初始运行数据包对应的各个运行场景确定预定时间范围、目标样本类别和目标样本数量。

根据运行规则对应的各个运行场景和业务处理数据确定时间范围、样本类别和目标样本数量等等参数。在一个具体的实施例中，在用户运营场景中，待测试的规则可为用户画像规则，可确定时间范围为1个月内的用户数据、目标样本类别可为购买某项服务的用户，目标样本数量可为1万个用户。在确定样本的条件之后，管理人员将相应条件的条件输入策略大模型，通过策略大模型在其学习的知识数据中筛选样本，比如，在数据库中筛选满足条件的用户生成样本数据。

在S304中，获取所述预定时间范围内的历史样本。

在一个实施例中，在决策引擎的决策目标为用户时，历史样本可为历史用户样本。更具体的，用户可为个人用户或者企业用户。其中，用户信息可包括经过用户授权的基础信息，可例如为业务账号信息、用户的终端设备标识信息、用户所处地域信息等；用户信息还可包括行为信息，可例如为用户的页面操作数据、用户的业务访问时长、用户的业务访问频率等，用户信息的具体内容可根据实际应用场景确定，在此不做限制。远端信息可为用户在其他交易平台或者其他业务部门的用户数据。

在一个实施例中，在决策引擎的决策目标为计算机节点或者其他设备节点时，历史样本可为历史设备节点样本。节点可为电子产品终端集群中的各个电子产品终端，安全识别模型用于根据电子产品终端的节点信息确定终端的安全等级，电子产品终端的节点信息可以包括：数据传输信息、数据获取信息、数据下载信息、数据传输是否违规信息，违法获取终端内的数据的信息、数据处理量信息等等。

S306中，将所述预定时间范围内的历史样本输入所述策略大模型，对所述历史样本进行分类得到样本类别。可通过历史样本训练样本分类模型，将样本分类模型嵌入到策略大模型中，在实际使用时，策略大模型可通过调用样本分类模型为样本分配类别标签。

在S308中，通过所述策略大模型提取符合所述目标样本类别和所述目标样本数量的历史样本以得到所述样本数据。

在本实施例中，向策略大模型输入目标样本类别以及目标样本数量的指令，策略大模型根据输入的目标样本类别以及目标样本数量，对上一步骤输入策略大模型的历史样本进行处理，提取样本类别符合目标样本类别的目标样本数量的历史样本，作为本方案中的样本数据。

如图4所示，在S402中，选择策略。

在S404中，指定样本。

在S406中，数据抽取。

在S408中，观测参数分析。

在S410中，定制测试。

在S412中，定制场景。

在S414中，案件分发与执行。

在S416中，结果比对。

在S418中，报告产出。

在S420中，人工验收。

在S422中，规则上线。

在一个实际的应用中，业务人员修改的策略规则所属的策略包，业务人员还可设置要测试的样本时间与样本量，由策略大模型自动带出本次改动所涉及的观测参数，观测参数可包括入参及出参，包括策略大模型自动产出的自动化测试报告需要用到的观测数据，以及人为需要观测的数据。

在实际应用中，也可手动调整入参取值定制化测试以覆盖更多的测试场景。通过mysq l将案件分发到多台机器上，并在机器上分别配置策略大模型，同时执行规则，执行前分发可对大批量案件进行多服务器分发处理来提高整体的执行效率减少测试后台执行时间。

在预设策略执行完毕之后，系统中的策略大模型可保存执行结果并对需要观测的结果自动比对，智能产出测试报告，汇总关键指标变化情况，帮助业务人员快速高效完成规则的执行。提交执行案例后系统自动对执行结果进行比产出报告，减少人工比对时间。

在实际应用中，决策引擎中常常含有大量个策略包，每个策略包中都会有很多的策略规则，根据本申请的基于策略大模型的决策引擎更新方法，在业务人员修改策略包中的规则时，可以自动执行策略验证修改后的策略执行结果是否是符合预期，还能够对两个版本的入参和出参进行比对，将发生变化的入参或出参自动带出，提高测试效率，方便研发进行查看。本申请的方法，通过大模型来辅助确定运行参数的变化对决策引擎的性能变化，极大提高测试效率及准确度，加快决策引擎的性能优化周期。

本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本申请提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本申请示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图5是根据另一示例性实施例示出的一种基于策略大模型的决策引擎更新装置的框图。如图5所示，基于策略大模型的决策引擎更新装置50包括：数据模块502，参数模块504，样本模块506，测试模块508，迭代模块510，更新模块512。

数据模块502用于获取终端决策引擎中待进行测试的更新运行数据包和其对应的初始运行数据包；数据模块502还用于对终端决策引擎中初始运行数据包的多个运行规则进行实时监测；在所述初始运行数据包的更改满足改动策略时，根据改动后的运行数据包生成所述更新运行数据包。

参数模块504用于基于策略大模型，针对所述更新运行数据包和所述初始运行数据包中的差异生成观测参数集；参数模块504还用于通过所述策略大模型将所述更新运行数据包和所述初始运行数据包的多个运行规则进行匹配；通过未匹配成功的运行规则生成运行规则集。参数模块504还用于通过所述策略大模型将所述更新运行数据包和所述初始运行数据包的多个观测参数进行匹配，将未匹配成功的观测参数组合生成所述观测参数集。

样本模块506用于通过所述策略大模型获取预定时间内与所述观测参数集相匹配的各个运行场景对应的实际决策数据，作为样本数据；样本模块506还用于根据所述初始运行数据包对应的各个运行场景确定预定时间范围、目标样本类别和目标样本数量；基于所述策略大模型，根据所述预定时间范围、所述目标样本类别和所述目标样本数量对历史样本进行筛选，提取所述样本数据。

测试模块508用于基于所述策略大模型，通过所述样本数据对所述更新运行数据包执行预设策略；测试模块508还用于将所述样本数据分发到多个服务器中；多个服务器通过所述样本数据并行对所述更新运行数据包执行预设策略。测试模块508还用于通过所述策略大模型将所述更新运行数据包中的运行数据与所述样本数据中的各运行场景对应的运行数据进行匹配；根据匹配结果预测所述更新运行数据包上线运行时的预测决策数据；所述策略大模型通过所述预测决策数据和所述初始运行数据包运行时产生的初始决策数据的比对结果，生成策略执行结果。

迭代模块510用于调用所述策略大模型在策略执行结果不符合预设决策预期时，根据每次迭代得到的所述策略执行结果与所述预设决策预期的偏差生成迭代参考趋势；通过所述迭代参考趋势生成多个参考规则对所述更新运行数据包进行迭代重新执行预设策略，直至所述策略执行结果符合预设决策预期为止；迭代模块510还用于所述策略大模型根据所述迭代参考趋势确定所述更新运行数据包中不同运行规则对所述预测决策数据和所述初始决策数据的变化贡献量；所述策略大模型基于所述策略执行结果与所述预设决策预期之间的偏差和所述不同运行规则对应的变化贡献量，生成多个参考规则；通过多个所述参考规则对所述更新运行数据包进行修正。

更新模块512用于通过迭代后的所述更新运行数据包对所述终端决策引擎进行更新。

根据本申请的基于策略大模型的决策引擎更新装置，通过获取终端决策引擎中待进行测试的更新运行数据包和其对应的初始运行数据包；基于策略大模型，针对所述更新运行数据包和所述初始运行数据包中的差异生成观测参数集；获取预定时间内与所述观测参数集相匹配的各个运行场景对应的实际决策数据，作为样本数据；通过所述样本数据对所述更新运行数据包执行预设策略；调用所述策略大模型在策略执行结果不符合预设决策预期时，根据每次迭代得到的所述策略执行结果与所述预设决策预期的偏差生成迭代参考趋势；通过所述迭代参考趋势生成多个参考规则对所述更新运行数据包进行迭代重新执行预设策略，直至所述策略执行结果符合预设决策预期为止；通过迭代后的所述更新运行数据包对所述终端决策引擎进行更新的方式，能够自动对决策引擎中的策略进行测试，智能产出测试报告，汇总关键指标变化情况，通过大模型来辅助确定运行参数的变化对决策引擎的性能变化，极大提高测试效率及准确度，加快决策引擎的性能优化周期。

如图6所示，本申请实施例提供了一种电子设备，包括处理器610、通信接口620、存储器630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信；

存储器630，用于存放计算机程序；

处理器610，用于执行存储器630上所存放的程序时，实现上述任一实施例的基于策略大模型的决策引擎更新方法。

通信接口620用于上述电子设备与其他设备之间的通信。

存储器630可以包括随机存取存储器630(RandomAccessMemory，简称RAM)，也可以包括非易失性存储器630(non-volatilememory)，例如至少一个磁盘存储器630。可选的，存储器630还可以是至少一个位于远离前述处理器610的存储装置。

本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现上述任一实施例的基于策略大模型的决策引擎更新方法。可例如，获取终端决策引擎中待进行测试的更新运行数据包和其对应的初始运行数据包；基于策略大模型，针对所述更新运行数据包和所述初始运行数据包中的差异生成观测参数集；获取预定时间内与所述观测参数集相匹配的各个运行场景对应的实际决策数据，作为样本数据；通过所述样本数据对所述更新运行数据包执行预设策略；调用所述策略大模型在策略执行结果不符合预设决策预期时，根据每次迭代得到的所述策略执行结果与所述预设决策预期的偏差生成迭代参考趋势；通过所述迭代参考趋势生成多个参考规则对所述更新运行数据包进行迭代重新执行预设策略，直至所述策略执行结果符合预设决策预期为止；通过迭代后的所述更新运行数据包对所述终端决策引擎进行更新。

以上具体地示出和描述了本申请的示例性实施例。应可理解的是，本申请不限于这里描述的详细结构、设置方式或实现方法；相反，本申请意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种基于策略大模型的决策引擎更新方法，其特征在于，包括：

获取终端决策引擎中待进行测试的更新运行数据包和其对应的初始运行数据包；

基于策略大模型，针对所述更新运行数据包和所述初始运行数据包中的差异生成观测参数集；

获取预定时间内与所述观测参数集相匹配的各个运行场景对应的实际决策数据，作为样本数据；

通过所述样本数据对所述更新运行数据包执行预设策略；

调用所述策略大模型在策略执行结果不符合预设决策预期时，根据每次迭代得到的所述策略执行结果与所述预设决策预期的偏差生成迭代参考趋势；通过所述迭代参考趋势生成多个参考规则对所述更新运行数据包进行迭代重新执行预设策略，直至所述策略执行结果符合预设决策预期为止；

通过迭代后的所述更新运行数据包对所述终端决策引擎进行更新。

2.如权利要求1所述的方法，其特征在于，通过所述样本数据对所述更新运行数据包执行预设策略，包括：

所述策略大模型将所述更新运行数据包中的运行数据与所述样本数据中的各运行场景对应的运行数据进行匹配；

根据匹配结果预测所述更新运行数据包上线运行时的预测决策数据；

所述策略大模型通过所述预测决策数据和所述初始运行数据包运行时产生的初始决策数据的比对结果，生成策略执行结果。

3.如权利要求2所述的方法，其特征在于，所述策略大模型通过所述预测决策数据和所述初始运行数据包运行时产生的初始决策数据的比对结果，生成策略执行结果，包括：

所述策略大模型针对所述预测决策数据和所述初始决策数据的差异生成变化量对比曲线；

将所述观测参数集中运行规则的差异和所述变化量对比曲线进行对22025A66I

应生成所述策略执行结果。

4.根据权利要求3所述的方法，其特征在于，通过所述迭代参考趋势生成多个参考规则对所述更新运行数据包进行迭代，包括：

所述策略大模型根据所述迭代参考趋势确定所述更新运行数据包中不同运行规则对所述预测决策数据和所述初始决策数据的变化贡献量；

所述策略大模型基于所述策略执行结果与所述预设决策预期之间的偏差和所述不同运行规则对应的变化贡献量，生成多个参考规则；

通过多个所述参考规则对所述更新运行数据包进行修正。

5.如权利要求1所述的方法，其特征在于，获取终端决策引擎中待进行测试的更新运行数据包和其对应的初始运行数据包，包括：

对终端决策引擎中初始运行数据包的多个运行规则进行实时监测；

在所述初始运行数据包的更改满足改动策略时，根据改动后的运行数据包生成所述更新运行数据包。

6.如权利要求1所述的方法，其特征在于，针对所述更新运行数据包和所述初始运行数据包中的差异生成观测参数集，包括：

通过所述策略大模型将所述更新运行数据包和所述初始运行数据包的多个观测参数进行匹配，将未匹配成功的观测参数组合生成所述观测参数集。

7.如权利要求1所述的方法，其特征在于，针对所述更新运行数据包和所述初始运行数据包中的差异生成观测参数集，包括：

通过所述策略大模型将所述更新运行数据包和所述初始运行数据包的多个运行规则进行匹配，将未匹配成功的运行规则组合生成观测参数集。

8.如权利要求1所述的方法，其特征在于，获取预定时间内与所述观测参数集相匹配的各个运行场景对应的实际决策数据，作为样本数据，包括：

根据所述初始运行数据包对应的各个运行场景确定预定时间范围、目标样本类别和目标样本数量；

基于所述策略大模型，根据所述预定时间范围、所述目标样本类别和所述目标样本数量对历史样本进行筛选，提取所述样本数据。

9.如权利要求8所述的方法，其特征在于，基于所述策略大模型，根据所述预定时间范围、所述目标样本类别和所述目标样本数量对历史样本进行筛选，提取所述样本数据，包括：

将所述预定时间范围内的历史样本输入所述策略大模型，对所述历史样本进行分类得到样本类别；

通过所述策略大模型提取符合所述目标样本类别和所述目标样本数量的历史样本以得到所述样本数据。

10.如权利要求1所述的方法，其特征在于，通过所述样本数据对所述更新运行数据包执行预设策略，包括：

将所述样本数据分发到多个服务器中；

多个服务器通过所述样本数据并行对所述更新运行数据包执行预设策略。

11.一种基于策略大模型的决策引擎更新装置，其特征在于，包括：

数据模块，用于获取终端决策引擎中待进行测试的更新运行数据包和其对应的初始运行数据包；

参数模块，用于基于策略大模型，针对所述更新运行数据包和所述初始运行数据包中的差异生成观测参数集；

样本模块，用于通过所述策略大模型获取预定时间内与所述观测参数集相匹配的各个运行场景对应的实际决策数据，作为样本数据；

测试模块，用于基于所述策略大模型，通过所述样本数据对所述更新运行数据包执行预设策略；

迭代模块，用于调用所述策略大模型在策略执行结果不符合预设决策预期时，根据每次迭代得到的所述策略执行结果与所述预设决策预期的偏差生成迭代参考趋势；通过所述迭代参考趋势生成多个参考规则对所述更新运行数据包进行迭代重新执行预设策略，直至所述策略执行结果符合预设决策预期为止；

更新模块，用于通过迭代后的所述更新运行数据包对所述终端决策引擎进行更新。

12.一种电子设备，其特征在于，包括：

22025A66I

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至10中任一所述的方法。

13.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至10中任一所述的方法。