CN115964115B

CN115964115B - 基于预训练强化学习的数控机床交互方法及相关设备

Info

Publication number: CN115964115B
Application number: CN202310260092.6A
Authority: CN
Inventors: 吴承科; 谭勇; 郭媛君; 刘祥飞
Original assignee: Zhongke Hangmai CNC Software Shenzhen Co Ltd
Current assignee: Zhongke Hangmai CNC Software Shenzhen Co Ltd
Priority date: 2023-03-17
Filing date: 2023-03-17
Publication date: 2023-06-02
Anticipated expiration: 2043-03-17
Also published as: CN115964115A

Abstract

本发明提供一种基于预训练强化学习的数控机床交互方法及相关设备，涉及机床交互技术领域，方法包括：获取语音信息，将语音信息转化成文字信息，将文字信息输入至预训练强化模型；基于预训练强化模型对文字信息进行意图识别，得到文字信息所对应的意图信息，并通过预训练强化模型根据意图信息匹配出界面组合列表；根据用户信息所对应的用户角色信息，从界面组合列表中确定出目标界面组合，目标界面组合用于指示数控机床的交互操作方式。本发明基于预训练强化模型可直接确定出与用户角色信息所对应的目标界面组合，从而实现自动调出与用户角色对应的操作界面，方便用户进行对应的交互操作，提高了工作效率。

Description

基于预训练强化学习的数控机床交互方法及相关设备

技术领域

本发明涉及机床交互技术领域，尤其涉及一种基于预训练强化学习的数控机床交互方法及相关设备。

背景技术

随着智能化技术的发展与普及，智能化产品终端已经融入了各行各业，尤其是在传统制造与生产行业中，随着智能化技术的应用，已经催生出智能数控机床，操作人员通过操作该智能数控机床可实现对零部件的智能化加工。

目前，对于大多数智能数控机床来说，操作人员在操作时基本都是基于手动操作的方式，比如手段选择功能选项或者手动打开想要调试或者需要设置参数的操作界面，这就导致操作很不方便，尤其是对于智能数控机床操作不熟悉的操作人员，需要花费过多的时间在调出操作界面上，降低了工作效率。

发明内容

本发明提供一种基于预训练强化学习的数控机床交互方法以电子设备，用以解决现有技术中操作人员在操作智能数控机床时操作不便且工作效率低的缺陷，实现更加便捷的机床交互方式，提高工作效率。

本发明提供一种基于预训练强化学习的数控机床交互方法，其中，包括：

获取语音信息，将所述语音信息转化成文字信息，将所述文字信息输入至预训练强化模型，其中，所述预训练强化模型是预先基于初始文字训练集与对应的界面组合信息进行强化训练得到的模型，所述界面组合信息包括：用户操作界面、界面中的元素以及元素排布形式；

基于所述预训练强化模型对文字信息进行意图识别，得到所述文字信息所对应的意图信息，并通过所述预训练强化模型根据所述意图信息匹配出界面组合列表；

根据用户信息所对应的用户角色信息，从所述界面组合列表中确定出目标界面组合，所述目标界面组合用于指示数控机床的交互操作方式。

根据本发明提供的一种基于预训练强化学习的数控机床交互方法，所述基于所述预训练强化模型对文字信息进行意图识别，得到所述文字信息所对应的意图信息，包括：

基于所述预训练强化模型对所述文字信息进行分词处理，并基于分词后得到的单词进行筛选，得到目标单词；

对所述目标单词进行重组，得到目标词组，并对所述目标词组进行语义识别，得到语义信息；

根据所述语义信息，确定所述意图信息。

根据本发明提供的一种基于预训练强化学习的数控机床交互方法，所述通过所述预训练强化模型根据所述意图信息匹配出界面组合列表，包括：

基于所述预训练强化模型，获取与所述意图信息所对应的候选界面组合；

基于操作偏好程度对所述候选界面组合进行排序，得到所述界面组合列表，其中所述操作偏好程度用于反映所述候选界面组合被调用的频率。

根据本发明提供的一种基于预训练强化学习的数控机床交互方法，所述基于操作偏好程度对所述候选界面组合进行排序，得到所述界面组合列表，包括：

对所述候选界面组合按照用户角色信息进行分类，并为每一个候选界面组合标注角色类别；

获取每一个候选界面组合被调用的频率，并依照频率从高至低对所述候选界面组合进行排序，得到所述界面组合列表。

根据本发明提供的一种基于预训练强化学习的数控机床交互方法，所述预训练强化模型的训练过程包括：

获取所述初始文字训练集，基于语义识别模型识别出所述初始文字训练集对应的语义训练信息，并确定所述语义训练信息所对应的意图训练信息；

对预存的用户操作界面、界面中的元素以及元素排布形式进行组合，得到若干界面组合训练信息；

基于所述意图训练信息与所述界面组合训练信息对预训练模型进行强化学习训练，得到所述预训练强化模型，所述预训练强化模型用于根据文字信息输出对应的界面组合信息。

根据本发明提供的一种基于预训练强化学习的数控机床交互方法，所述基于所述意图训练信息与所述界面组合训练信息对预训练模型进行强化学习训练，得到所述预训练强化模型，包括：

对所述界面组合训练信息按照用户角色信息进行分类，并对界面组合训练信息进行类别标注；

将已标注的界面组合训练信息与所述意图训练信息进行映射，得到映射关系；

基于所述映射关系对所述预训练模型进行强化学习训练，得到所述预训练强化模型。

根据本发明提供的一种基于预训练强化学习的数控机床交互方法，所述根据用户信息所对应的用户角色信息，从所述界面组合列表中确定出目标界面组合，包括：

基于所述用户信息，确定所述用户角色信息；

基于所述用户角色信息，从所述界面组合列表中获取与所述用户角色信息属于相同类别的界面组合；

从属于相同的界面组合中挑选出被调用的频率最高的界面组合作为所述目标界面组合。

本发明还提供一种基于预训练强化学习的数控机床交互装置，包括：

文字信息输入模块，用于获取语音信息，将所述语音信息转化成文字信息，将所述文字信息输入至预训练强化模型，其中，所述预训练强化模型是预先基于初始文字训练集与对应的界面组合信息进行强化训练得到的模型，所述界面组合信息包括：用户操作界面、界面中的元素以及元素排布形式；

界面列表匹配模块，用于基于所述预训练强化模型对文字信息进行意图识别，得到所述文字信息所对应的意图信息，并通过所述预训练强化模型根据所述意图信息匹配出界面组合列表；

目标界面确定模块，用于根据用户信息所对应的用户角色信息，从所述界面组合列表中确定出目标界面组合，所述目标界面组合用于指示数控机床的交互操作方式。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于预训练强化学习的数控机床交互方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于预训练强化学习的数控机床交互方法。

本发明提供的一种基于预训练强化学习的数控机床交互方法，通过将用户输出的语音信息转换成文字信息，并将该文字信息输入至预训练强化模型中，由于该预训练强化模型是给予初始文字训练集与对应的界面组合信息进行强化训练得到的模型，因此，当将文字信息输入至预训练强化模型后，该预训练强化模型就可以根据文字信息自动输出意图信息，并确定该意图信息所对应界面组合列表。在本发明中，意图信息反映的是此时用户需要操作的内容，界面组合列表则为用户需要操作的内容所对应的操作界面列表。接着，本发明可以获取用户信息，基于该用户信息确定出用户角色信息，该用户角色信息反映的是用户的岗位信息，本发明可基于该用户角色信息从界面组合列表找出最为匹配的目标界面组合，该目标界面组合包括了用户操作界面、界面中的元素以及元素排布形式。因此用户就可以基于该用户操作实来进行数控机床的交互操作。由此可见，本发明的整个交互过程无需手动操作，只需要采集用户的语音信息就调出目标界面组合，给用户的使用提供了方便，并且也提高了工作效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于预训练强化学习的数控机床交互方法的流程示意图；

图2是本发明提供的基于预训练强化学习的数控机床交互装置的结构示意图；

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1描述本发明提供的一种基于预训练强化学习的数控机床交互方法。具体地，本实施例的于预训练强化学习的数控机床交互方法可应用于电子设备中，所述电子设备可为电脑、手机、智能电视等智能化产品终端。在本实施例中，所述于预训练强化学习的数控机床交互方法包括如下步骤：

步骤S100、获取语音信息，将所述语音信息转化成文字信息，将所述文字信息输入至预训练强化模型，其中，所述预训练强化模型是预先基于初始文字训练集与对应的界面组合信息进行强化训练得到的模型，所述界面组合信息包括：用户操作界面、界面中的元素以及元素排布形式。

在本实施例中，语音信息为用户在操作数控机床时输出的声音信息，该语音信息可包括用户想要在数控机床上操作的功能或者想要在数控机床上打开的界面等。当获取到语音信息后，本实施例可基于预设的语音转文字模型将该语音信息转化成文字信息，并输入至预训练强化模型。该语音转文字模型可为Transformer系列的DeBERTa模型。

本实施例的预训练强化模型是预先基于初始文字训练集与对应的界面组合信息进行强化训练得到的模型，因此，该预训练强化模型可根据输入的文字信息自动输出界面组合信息。本实施例的界面组合信息包括包括：用户操作界面、界面中的元素以及元素排布形式，比如，如果是温度感知界面，则界面中的元素可为温度曲线、温度数据、操作选项等，元素排布形式则可为这些温度曲线、温度数据、操作选项在页面中的位置，比如操作选项排布于正下方，温度数据显示于正上方等。也就是说，本实施例可给予预训练强化模型确定出此时与用户输出的语音信息所对应的界面组合信息，方便调出对应的操作界面。

步骤S200、基于所述预训练强化模型对文字信息进行意图识别，得到所述文字信息所对应的意图信息，并通过所述预训练强化模型根据所述意图信息匹配出界面组合列表。

由于预训练强化模型是预先基于初始文字训练集与对应的界面组合信息进行强化训练得到的模型，因此当将文字信息输入至预训练强化模型后，该预训练强化模型就可以自动根据文字信息输出对应的意图信息，接着该预训练强化模型还可以进一步根据意图信息匹配出界面组合列表。本实施例的界面组合列表中包括有若干与意图信息匹配的界面组合信息。

本实施例在训练预训练强化模型时，首先获取初始文字训练集，然后基于语义识别模型识别出所述初始文字训练集对应的语义训练信息。在确定语义训练信息时，本实施例可通过对初始文字训练集中的每一个文字训练集进行分词、筛选等处理，最终确定每一个文字训练集对应的语义训练信息。由于语义训练信息可反映每个文字训练集的语义，从语义中就可以确定意图训练信息。接着，本实施例获取数控机床中预存的用户操作界面、界面中的元素以及元素排布形式，然后对预存的用户操作界面、界面中的元素以及元素排布形式进行组合，得到若干界面组合训练信息。在组合时，本实施例可依照工厂各个岗位的职责来进行划分，确定每个岗位职责所对应的数控机床的操作内容，然后基于该操作内容来对用户操作界面、界面中的元素以及元素排布形式进行组合，从而形成若干界面组合训练信息。最后，本实施例基于所述意图训练信息与所述界面组合训练信息对预训练模型进行强化学习训练，得到所述预训练强化模型。在进行训练时，本实施例预先对所述界面组合训练信息按照用户角色信息进行分类，并对界面组合训练信息进行类别标注，该用户角色信息是和工厂各个岗位的职责对应的，比如，加工操作人员的是负责操作数控机床的加工界面的，包括设置或者调整加工参数。当对界面组合训练信息进行类别标注后，每一个界面组合训练信息就存在与之对应的用户角色信息。接着，本实施例将已标注的界面组合训练信息与所述意图训练信息进行映射，得到映射关系。最后，本实施例基于所述映射关系对预训练模型进行强化学习训练，由于已标注的界面组合训练信息中包括有多个界面组合信息，并且与同一个意图训练信息也可能对应多个界面组合信息，因此，本实施例在设置映射关系时，可基于界面组合信息的操作偏好程度从高至低来进行排序，这样设置的映射关系也是按照界面组合信息的操作偏好程序来进行排序的。基于设置好的映射关系进行强化学习训练后，就可以得到所述预训练强化模型。在一种实现方式中，本实施例中的预训练强化模型可选择chatGPT框架模型，该chatGPT框架模型可自动对文字信息进行识别以及进行处理，从而输出本实施例中的界面组合信息。

在具体应用时，当将基于语音信息转换得到的文字信息后，已训练的预训练强化模型可对所述文字信息进行分词处理，并基于分词后得到的单词进行筛选，得到目标单词。然后，对所述目标单词进行重组，得到目标词组，并对所述目标词组进行语义识别，得到语义信息。接着，本实施例可根据所述语义信息，确定所述意图信息。进一步地，本实施例基于所述预训练强化模型可自动获取与所述意图信息所对应的候选界面组合，该候选界面组合中包括有若干界面组合信息，为了更准确地输出与意图信息所对应的界面组合信息，本实施例可对所述候选界面组合基于操作偏好程度进行排序，得到所述界面组合列表，其中所述操作偏好程度用于反映所述候选界面组合被调用的频率。

在对候选界面组合进行排序时，本实施例可对所述候选界面组合按照用户角色信息进行分类，由于用户角色信息是工厂各个岗位的职责对应的，本实施例可在对候选界面组合进行分类后，为每一个候选界面组合标注对应的角色类别。然后，本实施例获取每一个候选界面组合被调用的频率，并依照频率从高至低对所述候选界面组合进行排序，得到所述界面组合列表。因此，本实施例的界面组合列表中的候选界面组合是按照被调用的频率高至低进行排序。可见，本实施例不但可以通过预训练强化模型来自动分析出文字所对应的界面组合列表，而且还可以对界面组合列表中的候选界面组合进行排序，被调用的频率高的候选界面组合排在前面，以便在后续步骤中可快速确定出目标界面组合。

步骤S300、根据用户信息所对应的用户角色信息，从所述界面组合列表中确定出目标界面组合，以根据所述目标界面组合进行数控机床的交互操作。

本实施例可获取用户信息，每一个用户信息可反映出对应的工种与岗位职责，因此基于该用户信息就可以确定出对应的用户角色信息，而由于界面组合列表中的候选界面组合是标注了角色类别的，也就是所界面组合列表中的候选界面组合是与用户角色信息对应的，因此，本实施例在确定出当前的用户角色信息后，就可以从界面组合列表中确定出目标界面组合，该目标界面组合即为此时用户需要在数控机床上操作的界面。然后本实施例可根据所述目标界面组合进行数控机床的交互操作。

具体地，本实施例可基于所述用户信息，获取所述用户信息所对应的岗位信息。该岗位信息可预先设置在工厂员工的信息管理库中，在需要获取岗位信息时，本实施例可从该信息管理库中直接获取用户信息对应的岗位信息。然后本实施例可基于所述岗位信息，确定与所述岗位信息所对应的用户角色信息。接着，本实施例可基于所述用户角色信息，从所述界面组合列表中获取与所述用户角色信息属于相同类别的界面组合，也就是找到与该用户角色信息匹配的界面组合，而由于界面组合列表中的界面组合是按照被调用的频率进行排序的，因此本实施例可从属于相同的界面组合中挑选出被调用的频率最高的界面组合作为所述目标界面组合，该目标界面组合即为该用户角色信息对应的最常使用的界面组合。由于该目标界面组合中包括：用户操作界面、界面中的元素以及元素排布形式，用户就可以在该目标界面组合中进行交互操作。比如用户角色信息为故障专家，则最终确定出的目标界面组合为故障记录界面，该故障记录界面中包括有故障日志、故障处理方案等数据，故障专家可在该故障记录界面中进行较好的人机交互操作。本实施例无需任何的手动操作即可自动调出与用户所对应的目标界面组合，方便用户进行交互操作，且提高了工作效率。

下面对本发明提供的一种基于预训练强化学习的数控机床交互装置进行描述，如图2所示，下文描述的基于预训练强化学习的数控机床交互装置与上文描述的基于预训练强化学习的数控机床交互方法可相互对应参照。

本实施例的基于预训练强化学习的数控机床交互装置包括：文字信息输入模块210、界面列表匹配模块220以及目标界面确定模块230。具体地，所述文字信息输入模块210，用于获取语音信息，将所述语音信息转化成文字信息，将所述文字信息输入至预训练强化模型，其中，所述预训练强化模型是预先基于初始文字训练集与对应的界面组合信息进行强化训练得到的模型，所述界面组合信息包括：用户操作界面、界面中的元素以及元素排布形式。所述界面列表匹配模块220，用于基于所述预训练强化模型对文字信息进行意图识别，得到所述文字信息所对应的意图信息，并通过所述预训练强化模型根据所述意图信息匹配出界面组合列表。所述目标界面确定模块230，用于根据用户信息所对应的用户角色信息，从所述界面组合列表中确定出目标界面组合，所述目标界面组合用于指示数控机床的交互操作方式。

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行基于预训练强化学习的数控机床交互方法，该方法包括：

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的基于预训练强化学习的数控机床交互方法，该方法包括：

获取用户信息，并根据所述用户信息所对应的用户角色信息，从所述界面组合列表中确定出目标界面组合，以根据所述目标界面组合进行数控机床的交互操作。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于预训练强化学习的数控机床交互方法，该方法包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于预训练强化学习的数控机床交互方法，其特征在于，包括：

根据用户信息所对应的用户角色信息，从所述界面组合列表中确定出目标界面组合，所述目标界面组合用于指示数控机床的交互操作方式，所述用户角色信息与岗位职责相对应；

所述基于所述预训练强化模型对文字信息进行意图识别，得到所述文字信息所对应的意图信息，包括：

根据所述语义信息，确定所述意图信息；

所述通过所述预训练强化模型根据所述意图信息匹配出界面组合列表，包括：

基于操作偏好程度对所述候选界面组合进行排序，得到所述界面组合列表，其中所述操作偏好程度用于反映所述候选界面组合被调用的频率；

所述基于操作偏好程度对所述候选界面组合进行排序，得到所述界面组合列表，包括：

获取每一个候选界面组合被调用的频率，并依照频率从高至低对所述候选界面组合进行排序，得到所述界面组合列表；

所述根据用户信息所对应的用户角色信息，从所述界面组合列表中确定出目标界面组合，包括：

基于所述用户信息，确定所述用户角色信息；

2.根据权利要求1所述的基于预训练强化学习的数控机床交互方法，其特征在于，所述预训练强化模型的训练过程包括：

3.根据权利要求2所述的基于预训练强化学习的数控机床交互方法，其特征在于，所述基于所述意图训练信息与所述界面组合训练信息对预训练模型进行强化学习训练，得到所述预训练强化模型，包括：

4.一种基于预训练强化学习的数控机床交互装置，其特征在于，包括：

目标界面确定模块，用于根据用户信息所对应的用户角色信息，从所述界面组合列表中确定出目标界面组合，所述目标界面组合用于指示数控机床的交互操作方式，所述用户角色信息与岗位职责相对应；

根据所述语义信息，确定所述意图信息；

基于所述用户信息，确定所述用户角色信息；

5.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至3任一项所述基于预训练强化学习的数控机床交互方法。

6.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述基于预训练强化学习的数控机床交互方法。