CN116225867A

CN116225867A - 黑名单生成方法、装置、电子设备及存储介质

Info

Publication number: CN116225867A
Application number: CN202211710449.8A
Authority: CN
Inventors: 周杰; 李斌
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-06-06

Abstract

本公开提供了一种黑名单生成方法、装置、电子设备及存储介质，涉及计算机技术领域，尤其涉及自动驾驶、数据处理、仿真测试等人工智能技术领域。具体实现方案为：响应于仿真任务发起请求，调取当前的目标黑名单；对集群中位于目标黑名单的机器进行屏蔽；向集群提交仿真任务，获取仿真任务的运行结果数据；对运行结果数据进行挖掘，得到在该仿真任务中出现问题的故障机器；基于故障机器，更新目标黑名单。根据本公开的方案，能够在资源调度中自动化生成黑名单，进而供下次资源调度时屏蔽当前最新目标黑名单中的机器，从而提高了仿真任务运行的稳定性和效率。

Description

黑名单生成方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及自动驾驶、数据处理、仿真测试等人工智能技术领域。

背景技术

在自动驾驶仿真集群运行中，每个仿真批量计算任务会被调度到多个不同的集群，这些集群是由成百上千台物理机器组成的资源池。在集群中有部分机器可能处于假活状态，在监控层面看不出任何异常，但是实际任务运行在这类机器上会出现两种问题。一种是因为机器环境不稳定，导致业务数据失败率非常高；另一种是机器性能相比其他正常机器显著下降，影响仿真任务运行效率。这种机器在集群中频繁出现，导致业务计算的稳定性和性能有不同程度的下降。

发明内容

本公开提供了一种黑名单生成方法、装置、电子设备及存储介质。

根据本公开的第一方面，提供了一种黑名单生成方法，包括：

响应于仿真任务发起请求，调取当前的目标黑名单；

对集群中位于目标黑名单的机器进行屏蔽；

向集群提交仿真任务，获取仿真任务的运行结果数据；

对运行结果数据进行挖掘，得到在仿真任务中出现问题的故障机器；

基于故障机器，更新目标黑名单。

根据本公开的第二方面，提供了一种黑名单生成装置，包括：

拉取模块，用于响应于仿真任务发起请求，调取当前的目标黑名单；

屏蔽模块，用于对集群中位于目标黑名单的机器进行屏蔽；

第一获取模块，用于向集群提交仿真任务，获取仿真任务的运行结果数据；

挖掘模块，用于对运行结果数据进行挖掘，得到在仿真任务中出现问题的故障机器；

第一更新模块，用于基于故障机器，更新目标黑名单。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开中任一实施例的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使该计算机执行根据本公开中任一实施例的方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据本公开中任一实施例的方法。

根据本公开的方案，能够在资源调度中自动化生成黑名单，进而供下次资源调度时屏蔽当前最新目标黑名单中的机器，从而提高了仿真任务运行的稳定性和效率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本申请公开的一些实施方式，而不应将其视为是对本申请范围的限制。

图1是根据本公开实施例的黑名单生成方法的流程示意图；

图2是根据本公开实施例的自动化生成黑名单的总体流程示意图；

图3是根据本公开实施例的黑名单生成机制的示意图；

图4是根据本公开实施例的黑名单生效机制的示意图；

图5是根据本公开实施例的根据挖掘规则挖掘故障机器的示意图一；

图6是根据本公开实施例的根据挖掘规则挖掘故障机器的示意图二；

图7是根据本公开实施例的根据挖掘规则挖掘故障机器的示意图三；

图8是根据本公开实施例的黑名单生成装置的结构示意图；

图9是根据本公开实施例的黑名单生成方法的场景示意图；

图10是用来实现本公开实施例的黑名单生成方法的电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的说明书实施例和权利要求书及上述附图中的术语“第一”“第二”和“第三”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

相关技术中，自动驾驶仿真，需要通过人工分析主动去发现异常机器，并在任务提交到集群时，手动屏蔽这类机器。由于不能及时地发现并加黑故障机器，导致集群资源可用性降低；另外，加黑后的机器，在运维人员修复正常后，难以及时从黑名单中释放，从而无法及时利用此部分资源。由于集群故障机器维修时间不定，出现异常问题机器带有一定偶发性，每次发现故障机器后，都需要手动调整拉黑机器，在机器恢复正常后，又需要手动从黑名单中接触屏蔽，这种方式缺乏灵活性，占用了额外的人力成本，造成了很大的不便。

本公开为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个问题，提出了一种黑名单生成方法，能够在集群资源调度中自动化生成黑名单，根据黑名单屏蔽异常机器。即，通过无人车仿真任务的运行结果，挖掘出不同集群中环境不稳定或者性能下降的机器互联网协议(Internet Protocol，IP)地址，并在任务提交时添加到集群机器黑名单中，根据黑名单屏蔽异常机器，从而提高了仿真任务运行的稳定性和效率。

本公开实施例提供了一种黑名单生成方法，图1是根据本公开实施例的黑名单生成方法的流程示意图，该黑名单生成方法可以应用于黑名单生成装置。该黑名单生成装置位于电子设备。该电子设备可与集群物理连接或网络连接。该电子设备包括但不限于固定设备和/或移动设备。例如，固定设备包括但不限于服务器，服务器可以是云服务器或普通服务器。例如，移动设备包括但不限于：手机、平板电脑、车载终端。在一些可能的实现方式中，该黑名单生成方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1所示，该黑名单生成方法包括：

S101：响应于仿真任务发起请求，调取目标黑名单；

S102：对集群中位于该目标黑名单的机器进行屏蔽；

S103：向该集群提交仿真任务，获取该仿真任务的运行结果数据；

S104：对该运行结果数据进行挖掘，得到在该仿真任务中出现问题的故障机器；

S105：基于该故障机器，更新该目标黑名单。

本公开实施例中，仿真用户提交第j轮仿真任务，j为不小于1的整数，服务器响应于第j轮仿真任务的发起请求，从数据库中调取目标黑名单，获取目标黑名单中的机器IP，先将集群中出现在目标黑名单中的机器屏蔽，再向集群提交第j轮仿真任务；在集群完成第j轮仿真任务后，获取第j轮仿真任务的运行结果数据，对该运行结果数据进行挖掘，得到在第j轮仿真任务中出现问题的故障机器；基于故障机器，更新目标黑名单，以便仿真用户提交第j+1轮仿真任务时，能够及时获取最新的目标黑名单。

本公开实施例中，仿真任务发起请求为仿真用户手动发起仿真任务或自动触发仿真任务并发起请求。例如，仿真用户手动发起任务。又例如，服务器定时触发仿真任务，并发起请求。再例如，非定时触发仿真任务，并发起请求。以上仅为示例性说明，不作为对仿真任务发起请求的发送方式的限定，只是这里不做穷举。

本公开实施例中，目标黑名单为记录集群中故障机器的名单，该目标黑名单是动态变化的黑名单；即，通过挖掘程序定时触发挖掘任务，基于每一轮挖掘得到的故障机器，不断更新目标黑名单。该目标黑名单中存储的字段内容可包括：

(1)机器IP：机器的IP地址；

(2)版本(version)：更新版本，用时间戳表示，每一次都是最新version生效，可保留全部历史加黑的数据；

(3)挖掘时间：第j次基于挖掘规则进行挖掘得到结果的时间；

(4)规则(rule)：挖掘规则编号，即，第j次的挖掘结果记录是通过哪一条规则所挖掘得到的；

(5)预计到达时间(Estimated Time ofArrival，ETA)：也即过期时间，ETA小于或等于当前时间，表示第j条记录已过期，不再生效；ETA大于当前时间，表示该机器IP还需要继续加入黑名单并被屏蔽；

(6)开始时间：在运行结果数据中挖掘时间范围的开始时间；

(7)结束时间：在运行结果数据中所挖掘时间范围的结束时间。

可以理解，目标黑名单中存储的字段可根据需求添加新的字段内容，也可移除部分已有字段内容。

本公开实施例中，运行结果数据为第j轮仿真运行的结果数据。例如，运行结果数据包括运行第j轮仿真的机器IP。又例如，运行结果数据包括第j轮仿真任务在运行过程中机器产生的错误码。再例如，运行结果数据包括第j轮仿真任务运行过程中，每个机器各自对应的运行参数。以上仅为示例性说明，不作为对运行结果数据包括内容的限定，只是这里不做穷举。

本公开实施例中，对运行结果数据进行挖掘，包括基于挖掘条件对运行结果数据进行挖掘。例如，根据机器类型或者运行的计算任务是中央处理单元(Central ProcessingUnit，CPU)任务还是图形处理单元(Graphics Processing Unit，GPU)任务进行挖掘。又例如，不同的机器故障导致的最终运行结果可能不同；即，根据不同类别的错误码出现的频次进行挖掘。再例如，在机器IP维度统计任务运行的失败率；即，在机器维度统计任务运行错误的次数，进行挖掘。以上仅为示例性说明，不作为对挖掘规则的包括内容的限定，只是这里不做穷举。

本公开实施例中，该目标黑名单中的机器为非活状态机器或故障机器。非活状态机器为在监控层面看不出任何异常，但是实际任务运行时，该种状态机器会出现异常。即，因机器环境不稳定，导致仿真任务失败；因该机器性能相比于其他正常机器显著下降，导致仿真运行效率降低。故障机器为已损坏机器。例如，因部件老旧或损坏，导致仿真任务运行失败，其中部件包括磁盘、显卡和CPU等。又例如，机器磁盘已满，导致仿真任务运行失败。以上仅为示例性说明，不作为对非活状态机器和故障机器包括的故障原因的限定，只是这里不做穷举。

本公开实施例中，对该运行结果数据进行挖掘，得到在该仿真任务中出现问题的故障机器，包括：基于挖掘规则对运行结果数据进行挖掘，得到在仿真任务中出现问题的故障机器。其中，挖掘规则是根据机器类型和/或仿真任务类型制定的。

本公开实施例中，仿真用户提交第j轮仿真任务，服务器响应于第j轮仿真任务发起请求，从数据库中拉取目标黑名单，获取目标黑名单中的机器IP，将目标黑名单中的机器屏蔽，服务器提交第j轮仿真任务，获取第j轮仿真任务的运行结果数据，分别基于挖掘规则1和挖掘规则2进行挖掘；其中，挖掘规则1为根据不同类别的错误码出现的频次进行挖掘；挖掘规则2为在机器维度统计任务运行错误的次数，进行挖掘，最终得到在第j轮仿真任务中出现问题的N个故障机器，基于N个故障机器，更新目标黑名单。

图2示出了自动化生成黑名单的总体流程示意图，如图2所示，仿真用户发起仿真任务请求，服务器拉取黑名单，将黑名单中的机器屏蔽，提交集群任务；此时，集群资源池中包括：正常机器和被屏蔽机器，正常机器执行仿真任务，屏蔽机器处于停止任务状态。集群任务结束，生成仿真任务运行结果，将仿真任务运行结果存储至数据库；服务器定时触发挖掘流程，调取数据库中的仿真任务的运行结果，确定满足挖掘规则的机器，基于满足挖掘规则的机器，更新目标黑名单。

本公开实施例的技术方案，响应于仿真任务发起请求，调取目标黑名单；对集群位于目标黑名单中的机器进行屏蔽；如此，无需手动对目标黑名单中的机器进行屏蔽，能够提高屏蔽效率，也有助于提高仿真效率。在屏蔽集群中位于目标黑名单的机器后，向集群提交仿真任务，获取仿真任务的运行结果数据；对运行结果数据进行挖掘，得到在仿真任务中出现问题的故障机器；基于故障机器，更新目标黑名单；实现了在集群资源调度中自动化生成机器黑名单，在下一轮仿真任务中及时屏蔽异常机器，从而有助于提高仿真任务运行的稳定性和效率。

在一些实施例中，该黑名单生成方法，还可包括：

S106：获取释放时间表，该释放时间表包括各机器对应的预计释放时间；

S107：响应于检测到目标黑名单中任一机器达到该任一机器的预计释放时间，将该任一机器从目标黑名单中移除。

本公开实施例中，释放时间表为预计的从黑名单移除时间。每一次触发挖掘程序，将根据机器的类型和所执行的任务类型，生成多种挖掘规则，当检测到某一个机器满足多种挖掘条件中任意一种挖掘规则，为该机器配置ETA，并更新至目标黑名单。

本公开实施例中，服务器响应于检测到目标黑名单中的任意一个机器达到预计释放时间，将该机器从目标黑名单中移除。从黑名单中移除的机器，将重新释放到资源池中，等待下一轮仿真任务。

本公开实施例中，释放时间表的时间为该机器移除黑名单时间，每一个机器的释放时间不等，根据机器的故障原因设置。例如，检测到该机器故障原因为磁盘损坏，修理该机器需重新购买新的磁盘，预计时间为7天；即，该机器加黑时间为7天。又例如，检测到该机器故障原因为磁盘已满，删除磁盘中的数据，该机器即可正常运行，预计时间为1天；即，该机器加黑时间为1天。以上仅为示例性说明，不作为对释放时间表包括的时间确定方式的限定，只是这里不做穷举。

本公开实施例中，仿真用户触发提交第j轮仿真任务，服务器响应于第j轮仿真任务发起请求，从数据库中拉取目标黑名单，获取目标黑名单中的机器IP，将目标黑名单中的机器屏蔽，服务器提交第j轮仿真任务，获取第j轮仿真任务的运行结果数据，分别基于挖掘规则1和挖掘规则2进行数据挖掘；其中，挖掘规则1为根据不同类别的错误码出现的频次进行挖掘；挖掘规则2为在机器维度统计任务运行错误的次数，进行挖掘。最终得到在第j轮仿真任务中出现问题的第g个故障机器，基于第g个故障机器，更新目标黑名单。第g个故障机器触发自动维修流程，基于第g个机器的运行错误码，得到第g个机器的故障原因，基于故障原因，确定设置第g个机器的预计释放时间为2天。

如此，相比于手动将故障机器从黑名单中移除，设置预计释放时间，可以使得恢复正常的机器及时从黑名单中自动释放出来，节省了人力资源，提高了仿真任务的运行效率。

在一些实施例中，该黑名单生成方法，还可包括：

S108：获取维修状态数据；

S109：基于该维修状态数据，更新释放时间表。

本公开实施例中，维修状态为目标黑名单中机器的状态。例如，目标黑名单中的第g个机器触发维修流程，即为：等待维修状态。又例如，目标黑名单中的第g+1个机器触发维修流程，维修人员判断该机器为磁盘损坏，需购买新的磁盘，即为：正在维修状态。再例如，目标黑名单中的第g+2个机器触发维修流程，维修人员对第j个机器进行维修，2天后第g+2个机器已修复，即为：已修复状态。以上仅为示例性说明，不作为对维修状态包括所有状态的限定，只是这里不做穷举。

本公开实施例中，维修状态数据为维修机器的所有相关数据。例如，在第g个机器维修中，维修人员基于第g个机器的运行结果，得到的第g个机器的故障原因。又例如，第g个机器触发维修流程，该第g个机器的维修进度。再例如，第g个机器触发维修流程，维修人员基于机器故障原因设置的预计加入黑名单时间，即第g个机器的预计释放时间。以上仅为示例性说明，不作为对维修状态数据包括的所有可能数据的限定，只是这里不做穷举。

本公开实施例中，释放时间为目标黑名单中的机器各自对应的预计加入黑名单时间。例如，目标黑名单中的第g个机器，机器触发维修流程，维修人员基于运行结果，判断第g个机器显卡损坏，维修时间为2天，即第g个机器预计加入黑名单时间为2天。又例如，目标黑名单中的第g个机器，机器触发维修流程，维修人员基于运行结果，判断第g个机器运行环境不稳定，维修时间为1天，即第g个机器预计加入黑名单时间为1天。以上仅为示例性说明，不作为对释放时间包括的所有可能的限定，只是这里不做穷举。

其中，释放时间表为当前目标黑名单中所包括的所有机器的预计加入黑名单时间组成的表格。该目标黑名单是基于释放时间表动态变化的，即，当第g个机器的预计时间为已过期状态，则将第g个机器释放到资源池中，并将第g个机器从目标黑名单中移除。并且，释放时间表可以自动生成，也可以人工手动调整。

图3示出了黑名单生效机制示意图，如图3所示，仿真用户触发第j轮仿真任务，服务器响应于第j轮仿真任务发起请求，从数据库中拉取目标黑名单，获取目标黑名单中的机器IP，将目标黑名单中的机器屏蔽，服务器提交第j轮仿真任务，获取第j轮仿真任务的运行结果数据，分别基于挖掘规则1和挖掘规则2进行数据挖掘；其中，挖掘规则1为根据不同类别的错误码出现的频次进行挖掘；满足挖掘规则1的机器设置ETA为2天。挖掘规则2为在机器维度统计任务运行错误的次数，进行挖掘；满足挖掘规则2的机器设置ETA为1天。最终得到在第j轮仿真任务中满足挖掘规则1的第g个故障机器，第g个机器获取当前时间、第g个机器IP和ETA，判断ETA>Now_time；第g个机器ETA大于当前时间，即ETA未过期，预计加入黑名单时间2天生效，将第g个机器加入目标黑名单中并屏蔽该机器，触发机器维修流程，机器维修完成后，等待ETA过期即可从目标黑名单中释放至资源池中。本公开实施例中，第g个机器ETA小于或等于当前时间，即ETA已过期，将第g个机器加入到目标黑名单动作不生效，将第g个机器从目标黑名单中移除。

如此，能够基于维修状态数据，更新释放时间表；同时，基于释放时间表动态更新目标黑名单，能够自动且及时地释放被屏蔽机器，自动且及时地更新目标黑名单，提高屏蔽集群中机器的准确性，从而有助于提升仿真任务的效率。

在一些实施例中，该黑名单生成方法，还可包括：根据机器类型和/或仿真任务类型，制定挖掘规则。

其中，S104包括：根据挖掘规则对运行结果数据进行挖掘，得到在仿真任务中出现问题的故障机器。

这里，机器类型是指不同集群的机器类型不同。例如，机器类型包括CPU机器。又例如，机器类型包括GPU机器。以上仅为示例性说明，不作为对机器类型的包括所有可能的限定，只是这里不做穷举。

这里，仿真任务类型是指根据机器类型运行的任务类型。例如，CPU任务。又例如，GPU任务。以上仅为示例性说明，不作为对仿真任务类型包括的所有可能任务类型的限定，只是这里不做穷举。

本公开实施例中，可根据机器类型制定挖掘规则。当不同类型的机器出现故障时，运行结果可能不同；即在第j轮仿真任务中，CPU机器和GPU机器最终的运行结果可能不同。因此，需要针对机器的类型制定不同的挖掘规则。

本公开实施例中，可根据仿真任务类型制定挖掘规则。当不同机器执行不同类型的仿真任务时，机器的错误码不同；即在第j轮仿真任务中，GPU任务和GPU任务的运行结果中的错误码不同，因此，需要针对仿真任务的类型制定不同的挖掘规则。

本公开实施例中，可根据机器类型和仿真任务类型制定挖掘规则。比如，CPU机器对应的GPU仿真任务的挖掘规则记为挖掘规则1，CPU机器对应的CPU仿真任务的挖掘规则记为挖掘规则2，GPU机器对应的CPU仿真任务的挖掘规则记为挖掘规则3，GPU机器对应的GPU仿真任务的挖掘规则记为挖掘规则4。因此，根据机器类型和仿真任务类型制定不同的挖掘规则。

本公开实施例中，制定挖掘规则时还可以包括：根据不同类别的错误码出现的频次进行挖掘，制定挖掘规则；根据机器IP维度统计任务运行的失败率，制定出挖掘规则。以上仅为示例性说明，不作为对挖掘规则包括的所有制定方式的限定，只是这里不做穷举。

本公开实施例中，在制定挖掘规则时，配置不同的ETA。例如，第a个机器和第b个机器满足挖掘规则3，根据不同类别的错误码出现的频次进行挖掘；其中第a个机器的错误码出现频次为10次，第b个机器出现错误码的频次为26次，即，为第a个机器配置ETA小于为第b个机器配置的ETA。以上仅为示例性说明，不作为对ETA的包括所有配置方式的限定，只是这里不做穷举。

图4示出了黑名单生成方法的生成机制的示意图，如图4所示，仿真用户提交第j轮仿真任务，服务器响应于第j轮仿真任务发起的请求，从数据库中拉取目标黑名单，获取目标黑名单中的机器IP，将目标黑名单中的机器屏蔽，服务器提交第j轮仿真任务，获取第j轮仿真任务的运行结果数据，定时触发挖掘程序，触发挖掘任务，具体地，第j轮仿真任务对应的挖掘任务包括：挖掘规则1、挖掘规则2和挖掘规则3。分别为不同挖掘规则配置不同的ETA。分别根据不同挖掘规则进行数据挖掘，得到满足不同挖掘规则的故障机器，获取该故障机器的IP+挖掘时间+挖掘规则标识+ETA。基于故障机器的信息，生成最新的目标黑名单版本，并用时间戳表示该目标黑名单的版本号。

本公开实施例中，为第j轮仿真任务制定的挖掘任务包括：挖掘规则1、挖掘规则2和挖掘规则3。配置挖掘规则1的ETA为1天，挖掘规则2的ETA为4小时，挖掘规则3的ETA为1个月。检测到第g个机器满足挖掘规则1和挖掘规则2，则第g个机器的ETA时间为1天。检测到第g+1个机器满足挖掘规则3，即则第g+1个机器的ETA时间为1个月。以上仅为示例性说明，不作为对故障机器设置ETA的限定，只是这里不做穷举。

如此，相对于手动拉黑故障机器，在机器恢复正常后，手动解除屏蔽的处理方案而言，可以提高灵活性，还能提升仿真任务的效率。

在一些实施例中，如图5所示，基于运行结果数据中的运行错误码进行挖掘，得到出现目标运行错误码的第一类故障机器。

本公开实施例中，目标运行错误码可以根据需求进行设定或调整。

本公开实施例中，仿真用户提交第j轮仿真任务，服务器响应于第j轮仿真任务发起请求，从数据库中拉取目标黑名单，获取目标黑名单中的机器IP，将目标黑名单中的机器屏蔽，服务器提交第j轮仿真任务，获取第j轮仿真任务的运行结果数据。服务器定时触发挖掘流程，调取第一挖掘规则，基于运行结果数据中的运行错误码进行挖掘；获取满足目标运行错误码的第一类故障机器，基于第一类故障机器更新目标黑名单。

本公开实施例中，仿真用户提交第j轮仿真任务，服务器响应于第j轮仿真任务发起请求，从数据库中拉取目标黑名单，获取目标黑名单中的机器IP，将目标黑名单中的机器屏蔽，服务器提交第j轮仿真任务，获取第j轮仿真任务的运行结果数据。定时触发挖掘流程，调取第一挖掘规则，基于运行结果数据中的运行错误码进行挖掘；若目标运行错误码为“000000”，则将满足目标运行错误码为“000000”的机器确定为第一类故障机器，基于第一类故障机器更新目标黑名单。

如此，能够设置目标错误码来检测第一类故障机器，基于第一类故障机器来更新目标黑名单；可以精准地获取第一类故障机器的故障原因，便于维修人员维修机器，从而提高了仿真任务的效率。

在一些实施例中，如图6所示，基于运行结果数据中同一机器出现运行错误码的种类数进行挖掘，得到种类数大于第一阈值的第二类故障机器。

本公开实施例中，仿真用户提交第j轮仿真任务，服务器响应于第j轮仿真任务发起请求，从数据库中拉取目标黑名单，获取目标黑名单中的机器IP，将目标黑名单中的机器屏蔽，服务器提交第j轮仿真任务，获取第j轮仿真任务的运行结果数据。定时触发挖掘流程，调取第二挖掘规则，基于运行结果数据中同一机器出现运行错误码的种类数进行挖掘，若第一阈值为0，则将满足任一种类错误码的机器确定为第二类故障机器。基于第二类故障机器更新目标黑名单。

本公开实施例中，仿真用户提交第j轮仿真任务，服务器响应于第j轮仿真任务发起请求，从数据库中拉取目标黑名单，获取目标黑名单中的机器IP，将目标黑名单中的机器屏蔽，服务器提交第j轮仿真任务，获取第j轮仿真任务的运行结果数据。定时触发挖掘流程，调取第二挖掘规则，基于运行结果数据中同一机器出现运行错误码的种类数进行挖掘，若第一阈值为2，则将满足三个及以上种类错误码的机器确定为第二故障机器。基于第二类故障机器更新目标黑名单。

如此，能够根据设置的错误码种类，得到第二类故障机器，提高了黑名单生成的灵活性，有助于提高仿真任务的稳定性和效率。

在一些实施例中，如图7所示，基于同一机器在预设时间段内执行任务失败的频次进行挖掘，得到频次大于第二阈值的第三类故障机器。

本公开实施例中，第二阈值可以根据需求进行设定或调整。

本公开实施例中，预设时间段为预先设定的时间段。例如，预设时间段为1小时。又例如，预设时间段为2天。再例如，预设时间段为1个月。以上仅为示例性说明，不作为对预设时间段的取值范围的限定，只是这里不做穷举。

本公开实施例中，仿真用户提交第j轮仿真任务，服务器响应于第j轮仿真任务发起请求，从数据库中拉取目标黑名单，获取目标黑名单中的机器IP，将目标黑名单中的机器屏蔽，服务器提交第j轮仿真任务，获取第j轮仿真任务的运行结果数据。定时触发挖掘流程，调取预先制定的第三挖掘规则，基于同一机器在预设时间段内执行任务失败的频次进行挖掘；若第二阈值为2，则将在1天中运行任务失败的频次为三次及以上的第三类故障机器。基于第三类故障机器更新目标黑名单。

如此，能够根据任务失败的频次，得到第三类故障机器，提高了黑名单生成的灵活性，有助于提高仿真任务的稳定性和效率。

在一些实施例中，目标黑名单包括机器标识。这里，机器标识可以用机器IP表示。目标黑名单还可包括机器标识对应的预计释放时间。目标黑名单还可包括以下信息中的至少一种：挖掘时间和挖掘规则标识。

一些实施方式中，在目标黑名单中，基于机器标识，能查询到机器标识对应的挖掘时间、挖掘规则标识和预计释放时间。

这里，挖掘规则标识包括挖掘规则的编号数。

示例性的，在目标黑名单中，机器IP＝001，对应的挖掘时间为2022年12月17日上午8:00，挖掘规则标识为挖掘规则1，预计释放时间为2天；机器IP＝101，对应的挖掘时间为2022年12月17日上午9:00，挖掘规则标识为挖掘规则2，预计释放时间为1天；机器IP＝109，对应的挖掘时间为2022年12月17日下午10:00，挖掘规则标识为挖掘规则3，预计释放时间为5天。以上仅为示例性说明，不作为目标黑名单包括的所有内容的限定，只是这里不做穷举。

如此，能够记录机器的历史拉黑记录，便于后续通过目标黑名单记录的内容对故障机器进行监控与分析，从而有助于提高仿真任务的效率。

实际应用中，可预先设置多个挖掘规则，根据需求选择多个挖掘规则中的一个或多个来确定故障机器，进而根据确定出的故障机器更新目标黑名单。

应理解，图5至图7所示的示意图仅仅是示例性而不是限制性的，并且其是可扩展的，本领域技术人员可以基于图5至图7的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

本公开实施例提供了一种黑名单生成装置，如图8所示，该黑名单生成装置可以包括：拉取模块801，用于响应于仿真任务发起请求，调取目标黑名单；屏蔽模块802，用于对集群中位于目标黑名单的机器进行屏蔽；第一获取模块803，用于向集群提交仿真任务，获取仿真任务的运行结果数据；挖掘模块804，用于对运行结果数据进行挖掘，得到在仿真任务中出现问题的故障机器；第一更新模块805，用于基于故障机器，更新目标黑名单。

在一些实施例中，该黑名单生成装置，包括：第二获取模块806(图8中未示出)，用于获取释放时间表，该释放时间表包括各机器对应的预计释放时间；移除模块807(图8中未示出)，用于响应于检测到目标黑名单中任一机器达到该任一机器的预计释放时间，将该任一机器从目标黑名单中移除。

在一些实施例中，该黑名单生成装置，还可以包括：第三获取模块808(图8中未示出)，用于获取维修状态数据；第二更新模块809(图8中未示出)，用于基于维修状态数据，更新释放时间表。

在一些实施例中，该黑名单生成装置，还可以包括：制定模块810(图8中未示出)，用于根据机器类型和/或仿真任务类型，制定挖掘规则；其中，挖掘模块804具体用于根据挖掘规则对运行结果数据进行挖掘，得到在仿真任务中出现问题的故障机器。

在一些实施例中，挖掘模块804，包括：第一挖掘子模块，用于基于运行结果数据中的运行错误码进行挖掘，确定出现目标运行错误码的第一类故障机器。

在一些实施例中，挖掘模块804，可包括：第二挖掘子模块，用于基于运行结果数据中同一机器出现运行错误码的种类数进行挖掘，得到种类数大于第一阈值的第二类故障机器。

在一些实施例中，挖掘模块804，可包括：第三挖掘子模块，用于基于同一机器在预设时间段内执行任务失败的频次进行挖掘，得到频次大于第二阈值的第三类故障机器。

在一些实施例中，上述任一黑名单生成装置中，目标黑名单包括机器标识，目标黑名单还包括以下信息中的至少一种：机器标识对应的挖掘时间、挖掘规则标识和预计释放时间。

本领域技术人员应当理解，本公开实施例的黑名单生成装置中各处理模块的功能，可参照前述的黑名单生成方法的相关描述而理解，本公开实施例的黑名单生成装置中各处理模块，可通过实现本公开实施例该的功能的模拟电路而实现，也可以通过执行本公开实施例该的功能的软件在电子设备上的运行而实现。

本公开实施例的黑名单生成装置，能够在无人车集群资源调度中自动化生成黑名单，在下一轮仿真任务中及时屏蔽异常机器，从而有助于提高仿真任务运行的稳定性和效率。

本公开实施例提供了一种黑名单生成的场景示意图，如图9所示。

如前所述的，本公开实施例提供的黑名单生成方法应用于电子设备。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。

响应于仿真任务发起请求，调取目标黑名单；

对集群中位于目标黑名单的机器进行屏蔽；

向集群提交仿真任务，获取仿真任务的运行结果数据；

基于故障机器，更新目标黑名单。

其中，目标黑名单中的机器数据，以及仿真任务的运行结果可以从数据源获取。数据源可以是各种形式的数据存储设备，例如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机和其它适合的计算机。数据源还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。此外，数据源与用户终端可以是同一设备。

应理解，图9所示的场景图仅仅是示意性而非限制性的，本领域技术人员可以基于图9的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(Read-Only Memory，ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RandomAccess Memory，RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM1003通过总线1004彼此相连。输入/输出(Input/Output，I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(Central Processing Unit，CPU)、图形处理单元(Graphics Processing Unit，GPU)、各种专用的人工智能(ArtificialIntelligence，AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(Digital Signal Processor，DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如黑名单生成方法。例如，在一些实施例中，黑名单生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的黑名单生成方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行黑名单生成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(Field Programmable Gate Array，FPGA)、专用集成电路(Application Specific Integrated Circuit，ASIC)、专用标准产品(Application-Specific Standard Products，ASSP)、芯片上系统的系统(System on Chip，SOC)、复杂可编程逻辑设备(Complex Programmable Logic Device，CPLD)、计算机硬件、固件、软件和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器、只读存储器、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory，EPROM)、快闪存储器、光纤、便捷式紧凑盘只读存储器(Compact Disk Read Only Memory，CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，阴极射线管(Cathode Ray Tube，CRT)或者液晶显示器(Liquid Crystal Display，LCD)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端和服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种黑名单生成方法，包括：

响应于仿真任务发起请求，调取当前的目标黑名单；

对集群中位于所述目标黑名单中的机器进行屏蔽；

向所述集群提交所述仿真任务，获取所述仿真任务的运行结果数据；

对所述运行结果数据进行挖掘，得到在所述仿真任务中出现问题的故障机器；

基于所述故障机器，更新所述目标黑名单。

2.根据权利要求1所述的方法，还包括：

获取释放时间表，所述释放时间表包括各机器对应的预计释放时间；

响应于检测到所述目标黑名单中任一机器达到所述任一机器的预计释放时间，将所述任一机器从所述目标黑名单中移除。

3.根据权利要求2所述的方法，还包括：

获取维修状态数据；

基于所述维修状态数据，更新所述释放时间表。

4.根据权利要求1所述的方法，还包括：

根据机器类型和/或仿真任务类型，制定挖掘规则；

其中，对所述运行结果数据进行挖掘，得到在所述仿真任务中出现问题的故障机器，包括：

根据所述挖掘规则对所述运行结果数据进行挖掘，得到在所述仿真任务中出现问题的故障机器。

5.根据权利要求4所述的方法，其中，所述根据所述挖掘规则对所述运行结果数据进行挖掘，得到在所述仿真任务中出现问题的故障机器，包括：

基于所述运行结果数据中的运行错误码进行挖掘，得到出现目标运行错误码的第一类故障机器。

6.根据权利要求4所述的方法，其中，所述根据所述挖掘规则对所述运行结果数据进行挖掘，得到在所述仿真任务中出现问题的故障机器，包括：

基于所述运行结果数据中同一机器出现运行错误码的种类数进行挖掘，得到所述种类数大于第一阈值的第二类故障机器。

7.根据权利要求4所述的方法，其中，所述根据所述挖掘规则对所述运行结果数据进行挖掘，得到在所述仿真任务中出现问题的故障机器，包括：

基于同一机器在预设时间段内执行任务失败的频次进行挖掘，得到所述频次大于第二阈值的第三类故障机器。

8.根据权利要求1至7任一项所述的方法，其中，所述目标黑名单包括机器标识，所述目标黑名单还包括以下信息中的至少一种：所述机器标识对应的挖掘时间、挖掘规则标识和预计释放时间。

9.一种黑名单生成装置，包括：

屏蔽模块，用于对集群中位于所述目标黑名单的机器进行屏蔽；

第一获取模块，用于向所述集群提交所述仿真任务，获取所述仿真任务的运行结果数据；

挖掘模块，用于对所述运行结果数据进行挖掘，得到在所述仿真任务中出现问题的故障机器；

第一更新模块，用于基于所述故障机器，更新所述目标黑名单。

10.根据权利要求9所述的装置，还包括：

第二获取模块，用于获取释放时间表，所述释放时间表包括各机器对应的预计释放时间；

移除模块，用于响应于检测到所述目标黑名单中任一机器达到所述任一机器的预计释放时间，将所述任一机器从所述目标黑名单中移除。

11.根据权利要求10所述的装置，还包括：

第三获取模块，用于获取维修状态数据；

第二更新模块，用于基于所述维修状态数据，更新所述释放时间表。

12.根据权利要求9所述的装置，还包括：

制定模块，用于根据机器类型和/或仿真任务类型，制定挖掘规则；

其中，所述挖掘模块，具体用于根据所述挖掘规则对所述运行结果数据进行挖掘，得到在所述仿真任务中出现问题的故障机器。

13.根据权利要求12所述的装置，其中，所述挖掘模块，包括：

第一挖掘子模块，用于基于所述运行结果数据中的运行错误码进行挖掘，得到出现目标运行错误码的第一类故障机器。

14.根据权利要求12所述的装置，其中，所述挖掘模块，包括：

第二挖掘子模块，用于基于所述运行结果数据中同一机器出现运行错误码的种类数进行挖掘，得到所述种类数大于第一阈值的第二类故障机器。

15.根据权利要求12所述的装置，其中，所述挖掘模块，包括：

第三挖掘子模块，用于基于同一机器在预设时间段内执行任务失败的频次进行挖掘，得到所述频次大于第二阈值的第三类故障机器。

16.根据权利要求9至12任一项所述的装置，其中，所述目标黑名单包括机器标识，所述目标黑名单还包括以下信息中的至少一种：所述机器标识对应的挖掘时间、挖掘规则标识和预计释放时间。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。