CN116954156B

CN116954156B - 数控加工的工艺路线规划方法、装置、设备及介质

Info

Publication number: CN116954156B
Application number: CN202311207117.2A
Authority: CN
Inventors: 肖溱鸽; 郭媛君; 朱俊丞
Original assignee: Zhongke Hangmai CNC Software Shenzhen Co Ltd
Current assignee: Zhongke Hangmai CNC Software Shenzhen Co Ltd
Priority date: 2023-09-19
Filing date: 2023-09-19
Publication date: 2023-12-15
Anticipated expiration: 2043-09-19
Also published as: CN116954156A

Abstract

本发明提供一种数控加工的工艺路线规划方法、装置、设备及介质，涉及数控加工技术领域，方法包括：获取数控加工系统的状态信息以及已执行的工艺步骤，基于状态信息和已执行的工艺步骤更新有向加权图；将有向加权图输入至预先训练好的最优策略模型，得到最优策略模型输出的目标工艺步骤，最优策略模型是基于数控加工系统的加工工艺的异质知识训练得到的，异质知识来源于多个操作人员操作数控加工系统的经验知识；控制数控加工系统执行目标工艺步骤；重复执行获取数控加工系统的状态信息的步骤，直至最优策略模型输出预设结束信息。本发明在加工过程中实时地根据数控加工系统的状态进行工艺路线规划，可以提升加工效果。

Description

数控加工的工艺路线规划方法、装置、设备及介质

技术领域

本发明涉及数控加工技术领域，尤其涉及一种数控加工的工艺路线规划方法、装置、设备及介质。

背景技术

数控加工的工艺路线规划是指确定加工工艺中的各个工艺步骤。在现有技术中，对于数控加工的工艺路线，往往都是在加工之前预先制定，但是这种预先进行工艺路线规划的方法没有考虑到数控加工系统在加工过程中的实时状态变化，影响加工效果。

发明内容

本发明提供一种数控加工的工艺路线规划方法、装置、设备及介质，用以解决现有技术中预先进行工艺路线规划没有考虑到数控加工系统在加工过程中的实时状态变化的缺陷，实现提高数控加工效果。

本发明提供一种数控加工的工艺路线规划方法，包括：

获取数控加工系统的状态信息以及所述数控加工系统已执行的工艺步骤，基于所述状态信息和所述已执行的工艺步骤更新有向加权图，所述有向加权图中的节点包括第一节点和第二节点，所述第一节点对应所述数控加工系统的状态，所述第二节点对应加工工艺步骤，所述有向加权图中的边包括所述第一节点和所述第二节点之间的第一边以及所述第二节点之间的第二边，所述第一边反映所述数控加工系统的状态与加工工艺步骤之间的影响关系，所述第二边反映加工工艺步骤之间的顺序关系；

将所述有向加权图输入至预先训练好的最优策略模型，得到所述最优策略模型输出的目标工艺步骤，所述最优策略模型是基于所述数控加工系统的加工工艺的异质知识训练得到的，所述异质知识来源于多个操作人员操作所述数控加工系统的经验知识；

控制所述数控加工系统执行所述目标工艺步骤；

重复执行所述获取数控加工系统的状态信息的步骤，直至所述最优策略模型输出预设结束信息。

根据本发明提出的数控加工的工艺路线规划方法，所述基于所述状态信息和所述已执行的工艺步骤更新有向加权图，包括：

将所述状态信息添加至所述状态信息对应的所述第一节点中；

基于所述已执行的工艺步骤的先后顺序在所述有向加权图中添加所述第二边。

根据本发明提出的数控加工的工艺路线规划方法，所述最优策略模型的确定包括以下步骤：

基于样本状态信息，生成样本有向加权图，将所述样本有向加权图输入至上层策略生成器，得到所述上层策略生成器输出的策略；

将所述策略输入至下层策略执行器，得到所述下层策略执行器输出的执行结果；

基于所述样本状态信息得到所述异质知识，基于所述执行结果和所述异质知识更新所述上层策略生成器，直至所述上层策略生成器满足预设条件，并将满足所述预设条件对应的上层策略生成器作为所述最优策略模型。

根据本发明提出的数控加工的工艺路线规划方法，所述策略包括多个样本工艺步骤；所述将所述策略输入至下层策略执行器，得到所述下层策略执行器输出的执行结果，包括：

将所述策略中的每个样本工艺步骤分别输入至所述下层策略执行器，得到所述下层策略执行器输出的每个所述样本工艺步骤对应的执行结果；

其中，每个所述执行结果包括一个所述样本工艺步骤对应的过程状态信息，所述过程状态信息反映所述样本工艺步骤被执行后所述数控加工系统的状态；

所述基于所述样本状态信息得到所述异质知识，包括：

获取多个操作人员基于所述样本状态信息提供的预测结果作为所述异质知识，所述预测结果包括预测工艺步骤和所述预测工艺步骤对应的预测状态信息。

根据本发明提出的数控加工的工艺路线规划方法，所述基于所述执行结果和所述异质知识更新所述上层策略生成器，包括：

基于各个所述过程状态信息和所述预测状态信息得到第一奖励值；

基于各个所述样本工艺步骤和所述预测工艺步骤得到第二奖励值；

基于所述第一奖励值和所述第二奖励值确定目标奖励值；

基于所述目标奖励值更新所述上层策略生成器。

根据本发明提出的数控加工的工艺路线规划方法，所述基于各个所述过程状态信息和所述预测状态信息得到第一奖励值，包括：

将每个所述过程状态信息分别和一个所述预测结果中的所述预测状态信息组成一个第一比较对；

计算所述第一比较对中的所述过程状态信息和所述预测状态信息中相同类型的状态参数之间的差值；

基于所述差值得到所述第一奖励值。

根据本发明提出的数控加工的工艺路线规划方法，所述基于各个所述样本工艺步骤和所述预测工艺步骤得到第二奖励值，包括：

将每个所述样本工艺步骤分别和一个所述预测结果中的所述预测工艺步骤组成一个第二比较对；

计算每个所述第二比较对中的所述样本工艺步骤和所述预测工艺步骤之间的语义相似度；

基于所述语义相似度得到所述第二奖励值。

本发明还提出一种数控加工的工艺路线规划装置，包括：

状态获取模块，用于获取数控加工系统的状态信息以及所述数控加工系统已执行的工艺步骤，将所述状态信息和所述已执行的工艺步骤更新有向加权图，所述有向加权图中的节点包括第一节点和第二节点，所述第一节点对应所述数控加工系统的状态，所述第二节点对应加工工艺步骤，所述有向加权图中的边包括所述第一节点和所述第二节点之间的第一边以及所述第二节点之间的第二边，所述第一边反映所述数控加工系统的状态与加工工艺步骤之间的影响关系，所述第二边反映加工工艺步骤之间的顺序关系；

工艺步骤预测模块，用于将所述有向加权图输入至预先训练好的最优策略模型，得到所述最优策略模型输出的目标工艺步骤，所述最优策略模型是基于所述数控加工系统的加工工艺的异质知识训练得到的，所述异质知识来源于多个操作人员操作所述数控加工系统的经验知识；

工艺执行模块，用于控制所述数控加工系统执行所述目标工艺步骤；

迭代模块，用于控制所述状态获取模块重新执行所述获取数控加工系统的状态信息的步骤，直至所述最优策略模型输出预设结束信息。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述数控加工的工艺路线规划方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述数控加工的工艺路线规划方法。

本发明提供的数控加工的工艺路线规划方法、装置、设备及介质，在数控加工系统的加工过程中获取数控加工系统的状态信息，利用异质知识训练的最优策略模型来规划下一步工艺步骤，并控制数控加工系统执行规划出的工艺步骤，基于执行该工艺步骤后数控加工技术的状态信息来规划之后的工艺步骤，在其中，异质知识来源于不同操作人员的加工经验，通过异质知识提供的多样的视角和思维方式，实现了在加工过程中根据数控加工系统的状态实时地进行工艺路线规划，提升加工效果。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的数控加工的工艺路线规划方法的流程示意图；

图2是本发明提供的数控加工的工艺路线规划装置的结构示意图；

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1描述本发明的数控加工的工艺路线规划方法。

请参照图1，本发明提供的数控加工的工艺路线规划方法，包括步骤：

S100、获取数控加工系统的状态信息以及数控加工系统已执行的工艺步骤，基于状态信息和已执行的工艺步骤更新有向加权图，有向加权图中的节点包括第一节点和第二节点，第一节点对应数控加工系统的状态，第二节点对应加工工艺步骤，有向加权图中的边包括第一节点和第二节点之间的第一边以及第二节点之间的第二边，第一边反映数控加工系统的状态与加工工艺步骤之间的影响关系，第二边反映加工工艺步骤之间的顺序关系。

S200、将有向加权图输入至预先训练好的最优策略模型，得到最优策略模型输出的目标工艺步骤，最优策略模型是基于数控加工系统的加工工艺的异质知识训练得到的，异质知识来源于多个操作人员操作数控加工系统的经验知识；

S300、控制数控加工系统执行目标工艺步骤；

S400、重复执行获取数控加工系统的状态信息的步骤，直至最优策略模型输出预设结束信息。

本发明提供的方法中，在数控加工系统的加工过程中获取数控加工系统的状态信息，利用异质知识训练的最优策略模型来规划下一步工艺步骤，并控制数控加工系统执行规划出的工艺步骤，基于执行该工艺步骤后数控加工技术的状态信息来规划之后的工艺步骤，在其中，异质知识来源于不同操作人员的加工经验，通过异质知识提供的多样的视角和思维方式，实现了在加工过程中根据数控加工系统的状态实时地进行工艺路线规划，提升加工效果。

数控加工系统的状态信息包括数控加工系统中各个部件的状态参数，在获取到数控加工系统的状态信息，以及已经执行的工艺步骤后，将这些信息转换为有向加权图的表示以方便后续模型处理。具体来说，基于状态信息和已执行的工艺步骤更新有向加权图，包括：

将状态信息添加至状态信息对应的第一节点中；

基于已执行的工艺步骤的先后顺序在有向加权图中添加第二边。

每个第一节点对应数控加工系统的一个状态参数，基于数控加工系统的状态信息，将其中的状态参数添加至对应的第一节点中，例如第一节点A对应的状态参数为主轴转速，状态信息中的主轴转速为1000r/min，那么将第一节点A关联数据：1000r/min。在该有向加权图中，第二节点之间可以存在连接边（第二边），第二边表示第二节点对应的工艺步骤之间的顺序关系。对于已执行的工艺步骤，可以基于已执行的工艺步骤之间按照执行顺序添加第二边。例如已经依次执行了工艺步骤a和b，那么可以在a对应的第二节点和b对应的第二节点之间添加第二边，该第二边为有向边，该第二边的方向为a对应的第二节点指向b对应的第二节点。根据已经执行的工艺步骤在有向加权图中添加有向边，可以在有向加权图中增加已执行的工艺步骤的信息，有利于依据已执行的工艺步骤规划下一个工艺步骤。

在有向加权图中，第一节点和第二节点之间也可以存在连接边（第一边），第一边表示第二节点对应的工艺步骤对第一节点对应的状态参数的影响关系，例如，第二节点B对应的工艺步骤为提升主轴转速，那么第二节点B和对应的状态参数为主轴转速的第一节点A之间存在第二节点B到第二节点A的有向边，并且可以设置该有向边的权重为正值。再例如，第二节点C对应的工艺步骤为降低主轴转速，那么第二节点C和第一节点A之间存在第二节点C到第一节点A的有向边，并且可以设置该有向边的权重为负值。

该有向加权图的初始值可以通过如下步骤生成：

生成有向加权图中的第一节点和第二节点；

基于加工工艺步骤和状态之间的影响关系，在有向加权图中添加第一边；

基于加工工艺步骤之间的预设顺序关系，在有向加权图中添加第二边。

可以预先梳理数控加工系统中可以执行的各个加工工艺步骤，以及数控加工系统中可以反映系统状态的状态参数，得到有向加权图中的各个节点，之后，基于各个加工工艺步骤对状态参数的影响，添加第一边。而对于第二边，可以根据数控加工系统的特性，确定预设顺序关系，预设顺序关系反映数控加工系统中工艺步骤中已确定的不能违反的顺序，比如必须要先执行步骤A，才能执行步骤C。预先在有向加权图中增加的第二边，可以防止在工艺路线规划的过程中输出违反预设顺序关系的工艺步骤。

将有向加权图输入至最优策略模型中时，将待加工工件的图纸一同输入至最优策略模型中（在规划第一个加工步骤时，只输入有向加权图），这样，最优策略模型实现对待加工工件的工艺路线规划，也就是说，前文中所说的已执行的工艺步骤，是对代加工工件进行加工时已经执行的工艺步骤，将有向加权图和待加工工件的图纸一同输入至最优策略模型中，获取最优策略模型输出的待加工工件的下一个加工工艺步骤并执行该加工步骤，重复上述动作，直至最优策略模型输出预设结束信息，预设结束信息表示加工完成，也就是说，当最优策略模型输出预设结束信息时，表示对待加工工件的加工已完成，工艺路线规划结束。

最优策略模型是一种加工工艺的工艺流程预测模型，可以是马尔可夫模型。预先根据数控加工系统的加工工艺的异质知识进行训练数控加工的工艺流程预测模型，得到最优策略模型，也就是说，最优策略模型是基于数控加工系统的加工工艺的异质知识训练得到的，异质知识来源于多个操作人员操作数控加工系统的经验知识，相较于基于同质知识或一般的常识构建模型，本发明实施例中，通过异质知识训练最优策略模型，通过异质知识提供的多样的视角和思维方式，可以使得该最优策略模型可以学习到多个操作人员的经验，丰富工艺路线的设计和规划。

在一种实施例中，最优策略模型的确定包括以下步骤：

基于样本状态信息，生成样本有向加权图，将样本有向加权图输入至上层策略生成器，得到上层策略生成器输出的策略；

将策略输入至下层策略执行器，得到下层策略执行器输出的执行结果；

基于样本状态信息得到异质知识，基于执行结果和异质知识更新上层策略执行器，直至上层策略执行器满足预设条件，并将满足预设条件对应的上层策略生成器作为最优策略模型。

上层策略生成器，用于学习异质知识，学习出一个策略。它是一个生成网络，用于生成异质知识的策略，它可以接收某种形式的输入，例如环境状态或问题描述，并输出一个策略。在本实施例中，将样本有向加权图和样本待加工工件的图纸输入至上层策略生成器，上层策略生成器输出的策略中包括多个样本工艺步骤。

下层策略执行器是负责执行上层策略生成器输出的策略的实际执行器，用来模拟对于某个工艺路线编排场景的决策情况。实际上，它就是传统意义上的强化学习智能体，负责与环境交互，得到工艺路线决策好坏的评价值。这个过程是异质知识的挖掘过程。具体来说，下层策略执行器可以为一个控制器，控制连接的数控加工系统执行策略中的工艺步骤，或者，下层策略执行器可以为一个状态预测模型，输入策略中的工艺步骤，预测出该工艺步骤对应的执行结果。

在本实施例中，提出了基于策略的生成器训练，上层策略生成器生成样本状态信息对应的策略。将策略输入至下层策略执行器中进行执行，下层策略执行器执行上层策略生成器生成的策略，并根据环境的反馈，即下层策略执行器输出的执行结果，进行更新上层策略生成器，以不断训练上层策略生成器，提升上层策略生成器对于状态信息适用的工艺步骤的预测能力。其中，上层策略生成器所需满足的预设条件可以是上层策略生成器的参数满足一定的条件，例如，可以是参数对应的梯度信息小于预设阈值。

本实施例中，提出了基于异质知识的加工工艺流程对应策略的生成器训练，提升最优策略模型对于状态信息的预测能力，从而提升数控加工的工艺路线规划的准确率。

上层策略生成器生成的策略中包括多个样本工艺步骤，按照推荐顺序排序，将策略输入至下层策略执行器，得到下层策略执行器输出的执行结果，包括：

将策略中的每个样本工艺步骤分别输入至下层策略执行器，得到下层策略执行器输出的每个样本工艺步骤对应的执行结果；

每个执行结果包括一个样本工艺步骤对应的过程状态信息，过程状态信息反映样本工艺步骤被执行后数控加工系统的状态。

基于样本状态信息得到异质知识，包括：

获取多个操作人员基于样本状态信息提供预测结果作为异质知识，预测结果包括预测工艺步骤和预测工艺步骤对应的预测状态信息。

将样本状态信息、样本已执行工艺步骤和样本待加工工件的图纸提供给多个操作人员，获取多个操作人员反馈的其认为应该执行的下一个工艺步骤，得到异质知识。可见，异质知识反映了多个操作人体的经验知识，基于异质知识训练更新上层策略生成器，可以使得上层策略生成器学习到更丰富的知识，有助于上层策略生成器输出更优的工艺步骤。

基于执行结果和异质知识更新上层策略生成器，包括：

基于各个过程状态信息和预测状态信息得到得到第一奖励值；

基于各个样本工艺步骤和预测工艺步骤得到第二奖励值；

基于第一奖励值和第二奖励值确定目标奖励值；

基于目标奖励值更新上层策略生成器。

本发明提供的方法中，在评价上层策略生成器输出的策略中的各个样本工艺步骤时，并不是仅仅考虑样本工艺步骤与预测工艺步骤之间的相似性，还考虑过程状态信息和预测状态信息之间的一致性，即使上层策略生成器输出的样本工艺步骤与操作人员认为应当执行的步骤不同，但是如果二者可以实现相同的效果（使得数控加工系统都达到一样的状态），那么该样本工艺步骤也应该是可以采用的。这样可以使得最优策略模型能够学习到更多样的工艺路线，提升最优策略模型输出工艺步骤的能力。

具体来说，基于各个过程状态信息和预测状态信息得到第一奖励值，包括：

将每个过程状态信息分别和一个预测结果中的预测状态信息组成一个第一比较对；

计算第一比较对中过程状态信息和预测状态信息中相同类型的状态参数之间的差值；

基于该差值得到第一奖励值。

对于每个过程状态信息，都可以生成多个第一比较对，也就是说，每个过程状态信息，都可以生成多个差值，对一个过程状态信息对应的多个差值中取最小的差值，基于该最小的差值得到该过程状态信息对应的第一分奖励值，这样，每个过程状态信息都会对应一个第一分奖励值，对各个第一分奖励值按照分别对应的过程状态信息的第一权重进行加权求和，得到第一奖励值。具体来说，对各个第一分奖励值进行加权求和中的第一权重基于上层策略生成器输出的策略中的各个样本工艺步骤的顺序确定，样本工艺步骤在策略中的顺序越靠前，其对应的过程状态信息的第一权重越大。

基于各个样本工艺步骤和预测工艺步骤得到第二奖励值，包括：

将每个样本工艺步骤分别和一个预测结果中的预测工艺步骤组成一个第二比较对；

计算每个第二比较对中的样本工艺步骤和预测工艺步骤之间的语义相似度；

基于语义相似度得到第二奖励值。

对于每个样本工艺步骤，都可以生成多个第二比较对，也就是说，每个样本工艺步骤，都可以生成多个语义相似度，选取样本工艺步骤对应的多个语义相似度中的最大值，基于该最大值得到该样本工艺步骤对应的第二分奖励值，也就是说，每个样本工艺步骤都会对应一个第二分奖励值，对各个第二分奖励值按照分别对应的第二权重进行求和，得到第二奖励值。对各个第二分奖励值进行加权求和的第二权重基于上层策略生成器输出的策略中的各个样本工艺步骤的顺序确定，样本工艺步骤在策略中的顺序越靠前，其对应的第二权重越大。

本实施例中，提出了基于梯度信息的上层策略生成器的训练方式，具体地，通过上层策略生成器生成若干工艺步骤，并输入至下层策略执行器执行，下层策略执行器执行上层策略生成器生成的策略，得到一系列的。这些系统状态、工艺步骤和目标奖励值可以用于计算上层策略生成器的梯度信息。之后，根据上层策略生成器此时的梯度信息，进行更新上层策略生成器，直至梯度信息满足预设条件，最优策略模型则为满足预设条件对应的上层策略生成器。其中，梯度信息所需满足的预设条件可以是梯度信息小于一个预设阈值，梯度信息满足预设阈值时，表示当前的上层策略生成器训练完成。

需要说明的是，梯度信息是基于各个样本工艺步骤分别对应的策略梯度确定的，实现通过多种不同的策略梯度进行确定的梯度信息，进行训练上层策略生成器。其中，可以直接求和各个策略梯度，也可以加权求和各个策略梯度，也可以通过分类器进行选择策略梯度中最佳的策略梯度作为梯度信息，基于策略梯度计算梯度信息的方式可以按需进行选择。

本实施例中，提出了基于策略梯度对应的梯度信息的生成器训练，这种通过多种不同的策略梯度进行确定的梯度信息，进行训练上层策略生成器，所训练得到的最优策略模型预测能力更优异，从而提升最优策略模型对于状态信息的预测能力，以及数控加工的工艺路线规划的准确率。

本实施例中，可以通过根据计算执行样本工艺步骤对应的累积回报或价值函数估计，以及各个样本工艺步骤对应的策略梯度，进行计算梯度信息。因此，通过根据执行策略对应的累积回报或价值函数估计（累积回报是从当前时间步开始到任务终止时所有未来奖励的总和，价值函数估计是对每个时间步的期望回报的估计），以及各个样本工艺步骤对应的策略梯度，计算的梯度信息，进行训练上层策略生成器，使得所训练得到的最优策略模型预测能力更优异，从而提升最优策略模型对于状态信息的预测能力，以及数控加工的工艺路线规划的准确率。

梯度估计值是对上层策略生成器的策略梯度进行估计得到的，梯度信息可以是通过上层策略生成器参数的梯度估计值与累积回报或价值函数估计相乘得到。本发明实施例实现了通过多种不同的策略梯度进行计算上层策略生成器参数的梯度估计值，进而根据梯度估计值与累积回报或价值函数估计相乘计算的梯度信息，进行训练上层策略生成器，使得所训练得到的最优策略模型预测能力更优异，从而提升最优策略模型对于状态信息的预测能力，以及数控加工的工艺路线规划的准确率。

下面对本发明提供的数控加工的工艺路线规划装置进行描述，下文描述的数控加工的工艺路线规划装置与上文描述的数控加工的工艺路线规划方法可相互对应参照。请参照图2，本发明提供的一种数控加工的工艺路线规划装置，包括：

状态获取模块210，用于获取数控加工系统的状态信息以及所述数控加工系统已执行的工艺步骤，将所述状态信息和所述已执行的工艺步骤更新有向加权图，所述有向加权图中的节点包括第一节点和第二节点，所述第一节点对应所述数控加工系统的状态，所述第二节点对应加工工艺步骤，所述有向加权图中的边包括所述第一节点和所述第二节点之间的第一边以及所述第二节点之间的第二边，所述第一边反映所述数控加工系统的状态与加工工艺步骤之间的影响关系，所述第二边反映加工工艺步骤之间的顺序关系；

工艺步骤预测模块220，用于将所述有向加权图输入至预先训练好的最优策略模型，得到所述最优策略模型输出的目标工艺步骤，所述最优策略模型是基于所述数控加工系统的加工工艺的异质知识训练得到的，所述异质知识来源于多个操作人员操作所述数控加工系统的经验知识；

工艺执行模块230，用于控制所述数控加工系统执行所述目标工艺步骤；

迭代模块240，用于控制所述状态获取模块重新执行所述获取数控加工系统的状态信息的步骤，直至所述最优策略模型输出预设结束信息。

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行数控加工的工艺路线规划方法，该方法包括：获取数控加工系统的状态信息以及所述数控加工系统已执行的工艺步骤，基于所述状态信息和所述已执行的工艺步骤更新有向加权图，所述有向加权图中的节点包括第一节点和第二节点，所述第一节点对应所述数控加工系统的状态，所述第二节点对应加工工艺步骤，所述有向加权图中的边包括所述第一节点和所述第二节点之间的第一边以及所述第二节点之间的第二边，所述第一边反映所述数控加工系统的状态与加工工艺步骤之间的影响关系，所述第二边反映加工工艺步骤之间的顺序关系；

控制所述数控加工系统执行所述目标工艺步骤；

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的数控加工的工艺路线规划方法，该方法包括：获取数控加工系统的状态信息以及所述数控加工系统已执行的工艺步骤，基于所述状态信息和所述已执行的工艺步骤更新有向加权图，所述有向加权图中的节点包括第一节点和第二节点，所述第一节点对应所述数控加工系统的状态，所述第二节点对应加工工艺步骤，所述有向加权图中的边包括所述第一节点和所述第二节点之间的第一边以及所述第二节点之间的第二边，所述第一边反映所述数控加工系统的状态与加工工艺步骤之间的影响关系，所述第二边反映加工工艺步骤之间的顺序关系；

控制所述数控加工系统执行所述目标工艺步骤；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种数控加工的工艺路线规划方法，其特征在于，包括：

控制所述数控加工系统执行所述目标工艺步骤；

重复执行所述获取数控加工系统的状态信息的步骤，直至所述最优策略模型输出预设结束信息；

所述最优策略模型的确定包括以下步骤：

基于所述样本状态信息得到所述异质知识，基于所述执行结果和所述异质知识更新所述上层策略生成器，直至所述上层策略生成器满足预设条件，并将满足所述预设条件对应的上层策略生成器作为所述最优策略模型；

所述策略包括多个样本工艺步骤；所述将所述策略输入至下层策略执行器，得到所述下层策略执行器输出的执行结果，包括：

所述基于所述样本状态信息得到所述异质知识，包括：

2.根据权利要求1所述的数控加工的工艺路线规划方法，其特征在于，所述基于所述状态信息和所述已执行的工艺步骤更新有向加权图，包括：

3.根据权利要求1所述的数控加工的工艺路线规划方法，其特征在于，所述基于所述执行结果和所述异质知识更新所述上层策略生成器，包括：

基于所述第一奖励值和所述第二奖励值确定目标奖励值；

基于所述目标奖励值更新所述上层策略生成器。

4.根据权利要求3所述的数控加工的工艺路线规划方法，其特征在于，所述基于各个所述过程状态信息和所述预测状态信息得到第一奖励值，包括：

基于所述差值得到所述第一奖励值。

5.根据权利要求3所述的数控加工的工艺路线规划方法，其特征在于，所述基于各个所述样本工艺步骤和所述预测工艺步骤得到第二奖励值，包括：

基于所述语义相似度得到所述第二奖励值。

6.一种数控加工的工艺路线规划装置，其特征在于，包括：

迭代模块，用于控制所述状态获取模块重新执行所述获取数控加工系统的状态信息的步骤，直至所述最优策略模型输出预设结束信息；

所述最优策略模型的确定包括以下步骤：

所述基于所述样本状态信息得到所述异质知识，包括：

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述数控加工的工艺路线规划方法。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述数控加工的工艺路线规划方法。