CN113283347B

CN113283347B - 装配作业指导方法、装置、系统、服务器及可读存储介质

Info

Publication number: CN113283347B
Application number: CN202110591100.6A
Authority: CN
Inventors: 崔岩; 侯宇灿
Original assignee: China Germany Zhuhai Artificial Intelligence Institute Co ltd; Wuyi University; 4Dage Co Ltd
Current assignee: China Germany Zhuhai Artificial Intelligence Institute Co ltd; Wuyi University; 4Dage Co Ltd
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2024-02-27
Anticipated expiration: 2041-05-28
Also published as: CN113283347A

Abstract

本申请适用于增强现实技术技术领域，提供了一种装配作业指导方法、装置、系统、服务器及可读存储介质，该方法包括：获取第一待处理视频，第一待处理视频包括多帧第一待处理图像，第一待处理视频为用户在根据增强现实设备显示的三维指导画面指导下对操作对象进行装配作业过程中，增强现实设备采集操作对象的视频；基于第一待处理图像和预先训练的状态检测模型，识别操作对象的当前状态；若当前状态为非标准状态，则生成非标准状态对应的矫正信息，发送矫正信息至增强现实设备，以指示增强现实设备添加矫正信息至三维指导画面。可见，本申请不需要专家现场对用户的装配作业指导，节省了人力成本。

Description

装配作业指导方法、装置、系统、服务器及可读存储介质

技术领域

本申请属于增强现实技术领域，尤其涉及一种装配作业指导方法、装置、系统、服务器及可读存储介质。

背景技术

随着“工业4.0”的概念提出，工厂对工业智能化的需求越来越高，但是现有技术中，特别是在船舶、飞机、火车、汽车、机床等大型设备生产现场，这些设备生产现场的装配作业需要大量具有较高专业技能的工人，但是由于操作繁杂，步骤多，容易出现遗漏或重复，造成安全隐患，因此需要给工人的装配作业过程提供指导。现有技术中，一般通过专家现场对工人的装配作业指导，但是，这种指导方式十分耗费人力成本。

发明内容

本申请实施例提供了一种装配作业指导方法、装置、系统、服务器及可读存储介质，可以解决现有技术中需要人工现场对用户进行装配指导耗费人力成本的问题。

第一方面，本申请实施例提供了一种装配作业指导方法方法，包括：

获取第一待处理视频，所述第一待处理视频包括多帧第一待处理图像，所述第一待处理视频为用户在根据增强现实设备显示的三维指导画面指导下对操作对象进行装配作业过程中，所述增强现实设备采集所述操作对象的视频；

基于所述第一待处理图像和预先训练的状态检测模型，识别所述操作对象的当前状态；

若所述当前状态为非标准状态，则生成所述非标准状态对应的矫正信息，发送所述矫正信息至所述增强现实设备，以指示所述增强现实设备添加所述矫正信息至所述三维指导画面，显示所述三维指导画面中的矫正信息至用户。

在第一方面的一种可能的实现方式中，所述预先训练的状态检测模型包括预先训练的操作对象提取层、特征点识别层以及特征点匹配层；

基于所述第一待处理图像和预先训练的状态检测模型，识别所述操作对象的当前状态，包括：

将多帧所述第一待处理图像导入至操作对象提取层，从待处理图像中截取出操作对象图像；

将所述操作对象图像导入至特征点识别层，从所述操作对象图像上识别特征点，输出包含多个特征点的操作对象图像；

将所述多个特征点的操作对象图像导入至特征点匹配层，输出所述操作对象的当前状态。

在第一方面的一种可能的实现方式中，获取第一待处理视频之前，包括：

获取第二待处理视频，所述第二待处理视频包括多帧待处理图像，所述第二待处理视频为用户在对操作对象进行装配作业之前，增强现实设备采集所述操作对象的视频；

基于所述第二待处理图像和预先训练的标识识别模型，识别所述操作对象的标识信息；其中，所述标识信息是指表征虚拟指导信息的标识码；

发送所述标识信息至所述增强现实设备，以指示所述增强现实设备根据所述标识信息查找出虚拟指导信息，根据所述操作对象对应的真实操作对象信息和所述虚拟指导信息生成所述三维指导画面，显示所述三维指导画面至用户。

在第一方面的一种可能的实现方式中，若所述当前状态为非标准状态，则生成所述非标准状态对应的矫正信息，发送所述矫正信息至所述增强现实设备，以指示所述增强现实设备添加所述矫正信息至所述三维指导画面之后，还包括：

预设时间后，若所述当前状态为非标准状态，则触发远程指导请求；

响应于所述远程指导请求，将所述第一待处理图像发送至专家终端，以指示所述专家终端显示所述第一待处理图像至远程专家；

建立所述专家终端与所述增强现实设备之间的网络连接，以实现所述远程专家与所述用户通过专家终端以及增强现实设备进行语音通话。

在第一方面的一种可能的实现方式中，响应于所述远程指导请求，将所述第一待处理图像发送至专家终端，以指示所述专家终端显示所述第一待处理图像至远程专家之后，还包括：

获取语音通话信息，所述语音通话信息为述远程专家与所述用户通过专家终端以及增强现实设备进行语音通话的信息；

提取所述语音通话信息中的关键信息；

将所述关键信息发送至所述增强现实设备，以指示所述增强现实设备添加所述关键信息至所述三维指导画面，显示所述三维指导画面中的关键信息至用户。

在第一方面的一种可能的实现方式中，提取所述语音通话信息中的关键信息，包括：

将所述语音通话信息转换为语音文本信息；

根据所述语音文本信息和预先训练的关键词抽取模型，提取所述语音文本信息中的关键信息。

第二方面，本申请实施例提供了一种装配作业指导装置，包括：

获取模块，用于获取第一待处理视频，所述第一待处理视频包括多帧第一待处理图像，所述第一待处理视频为用户在根据增强现实设备显示的三维指导画面指导下对操作对象进行装配作业过程中，增强现实设备采集的视频；

识别模块，用于基于所述第二待处理图像和预先训练的状态检测模型，识别所述操作对象的当前状态；

生成模块，用于若所述当前状态为非标准状态，则获取所述非标准状态对应的矫正信息，发送所述矫正信息至所述增强现实设备，以指示所述增强现实设备添加所述矫正信息至所述三维指导画面，显示所述三维指导画面中的矫正信息至用户。

在第二方面的一种可能实现的方式中，所述预先训练的状态检测模型包括预先训练的操作对象提取层、特征点识别层以及特征点匹配层；

所述识别模块包括：

第一处理单元，用于将多帧所述第一待处理图像导入至操作对象提取层，从待处理图像中截取出操作对象图像；

第二处理单元，用于将所述操作对象图像导入至特征点识别层，从所述操作对象图像上识别特征点，输出包含多个特征点的操作对象图像；

第三处理单元，用于将所述多个特征点的操作对象图像导入至特征点匹配层，输出所述操作对象的当前状态。

在第二方面的一种可能实现的方式中，所述装置还包括：

第二获取模块，用于获取第二待处理视频，所述第二待处理视频包括多帧待处理图像，所述第二待处理视频为用户在对操作对象进行装配作业之前，增强现实设备采集所述操作对象的视频；

标识识别模块，用于基于所述第一待处理图像和预先训练的标识识别模型，识别所述操作对象的标识信息；其中，所述标识信息是指表征虚拟指导信息的标识码；

发送模块，用于发送所述标识信息至所述增强现实设备，以指示所述增强现实设备根据所述标识信息查找出虚拟指导信息，根据所述操作对象对应的真实操作对象信息和所述虚拟指导信息生成所述三维指导画面，显示所述三维指导画面至用户。

在第二方面的一种可能实现的方式中，所述装置还包括：

触发模块，用于预设时间后，若所述当前状态为非标准状态，则触发远程指导请求；

响应模块，用于响应于所述远程指导请求，将所述第一待处理图像发送至专家终端，以指示所述专家终端显示所述第一待处理图像至远程专家；

建立模块，用于建立所述专家终端与所述增强现实设备之间的网络连接，以实现所述远程专家与所述用户通过专家终端以及增强现实设备进行语音通话。

在第二方面的一种可能实现的方式中，所述装置还包括：

语音获取模块，用于获取语音通话信息，所述语音通话信息为述远程专家与所述用户通过专家终端以及增强现实设备进行语音通话的信息；

提取模块，用于提取所述语音通话信息中的关键信息；

关键信息添加模块，用于将所述关键信息发送至所述增强现实设备，以指示所述增强现实设备添加所述关键信息至所述三维指导画面，显示所述三维指导画面中的关键信息至用户。

在第二方面的一种可能实现的方式中，所述提取模块包括：

转换单元，用于将所述语音通话信息转换为语音文本信息；

提取单元，用于根据所述语音文本信息和预先训练的关键词抽取模型，提取所述语音文本信息中的关键信息。

第三方面本申请实施例提供一种装配作业指导系统，该系统包括：

增强现实设备用于根据用户的交互操作采集操作对象的第二待处理视频，发送所述第二待处理视频至服务器；提取第二待处理视频中的真实操作对象信息，根据标识信息从存储在本地的虚拟对象数据库获取虚拟指导信息，定位所述增强现实设备的位姿信息，根据所述位姿信息将所述虚拟指导信息与所述真实操作对象信息进行配准，对所述配准后所述虚拟指导信息与所述真实操作对象信息进行虚实融合生成三维指导画面，显示所述三维指导画面至用户；

服务器用于获取第一待处理视频，所述第一待处理视频包括多帧第一待处理图像，所述第一待处理视频为用户在根据增强现实设备显示的三维指导画面指导下对操作对象进行装配作业过程中，增强现实设备采集的视频；基于所述第一待处理图像和预先训练的状态检测模型，识别所述操作对象的当前状态；若所述当前状态为非标准状态，则生成所述非标准状态对应的矫正信息，发送所述矫正信息至所述增强现实设备，以指示所述增强现实设备添加所述矫正信息至所述三维指导画面，显示所述三维指导画面中的矫正信息至用户；

增强现实设备还用于获取所述矫正信息，将所述矫正信息添加至所述三维指导画面，显示所述三维指导画面中的矫正信息至用户。

第四方面，本申请实施例提供了一种服务器，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序所述处理器执行所述计算机程序时实现如上述第一方面所述的方法。

第五方面，本申请实施例提供了一种可读存储介质，所述可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上述第一方面所述的方法。

本申请实施例与现有技术相比存在的有益效果是：

本申请实施例中，用户在根据增强现实设备显示的三维指导画面指导下对操作对象进行装配作业过程中，服务器对操作对象的状态进行实时监测，在监测到用户没有按照增强现实设备显示的三维指导画面进行装配作业时，生成矫正信息，发送所述矫正信息至所述增强现实设备，以指示所述增强现实设备添加矫正信息至所述三维指导画面，以实现指导用户矫正装配作业，不需要专家现场对用户的装配作业指导，节省了人力成本。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的装配作业指导系统的结构示意图；

图2是本申请实施例提供的装配作业指导方法的流程示意图；

图3是本申请实施例提供的装配作业指导方法的图2中步骤S201之前的流程示意图；

图4是本申请实施例提供的装配作业指导方法的图2中步骤S102的具体实现流程示意图；

图5是本申请实施例提供的装配作业指导方法的的图2中步骤S203之后的流程示意图；

图6是本申请实施例提供的装配作业指导方法的图5中步骤S503之后的流程示意图；

图7是本申请实施例提供的装配作业指导方法的图6中步骤S602的具体流程示意图；

图8是本申请实施例提供的装配作业指导装置的结构示意图；

图9是本申请实施例提供的服务器的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

下面将通过具体实施例对本申请实施例提供的技术方案进行介绍。

参见图1，为本申请实施例提供的装配作业指导系统1的结构示意图，包括服务器10以及与服务器连接的增强现实设备20，其中，所述服务器可以是云端服务器等计算设备，增强现实设备可以是用户佩戴在头部的例如微软公司的HoloLens等透镜式头显。

增强现实设备用于：根据用户的交互操作采集操作对象的第二待处理视频，发送所述第二待处理视频至服务器；

服务器用于：获取增强现实设备发送的第二待处理视频，所述第二待处理视频包括多帧待处理图像，所述第二待处理视频为用户在对操作对象进行装配作业之前，增强现实设备采集所述操作对象的视频；基于所述第二待处理图像和预先训练的标识识别模型，识别所述操作对象的标识信息；发送所述标识信息至所述增强现实设备，以指示所述增强现实设备根据所述标识信息生成所述三维指导画面，显示所述三维指导画面至用户。

增强现实设备还用于：提取第二待处理视频中的真实操作对象信息，根据标识信息从存储在本地的虚拟对象数据库获取虚拟指导信息，定位所述增强现实设备的位姿信息，根据所述位姿信息将所述虚拟指导信息与所述真实操作对象信息进行配准，对所述配准后所述虚拟指导信息与所述真实操作对象信息进行虚实融合生成三维指导画面，显示所述三维指导画面至用户。

服务器还用于：获取第一待处理视频，所述第一待处理视频包括多帧第一待处理图像，所述第一待处理视频为用户在根据增强现实设备显示的三维指导画面指导下对操作对象进行装配作业过程中，增强现实设备采集操作对象的视频；基于所述第一待处理图像和预先训练的状态检测模型，识别所述操作对象的当前状态；若所述当前状态为非标准状态，则生成所述非标准状态对应的矫正信息，发送所述矫正信息至所述增强现实设备，以指示所述增强现实设备添加所述矫正信息至所述三维指导画面，显示所述三维指导画面中的矫正信息至用户。

增强现实设备还用于，获取所述矫正信息，将所述矫正信息添加至所述三维指导画面，显示所述添加矫正信息的三维指导画面至用户。

本申请实施例中，用户在根据增强现实设备显示的三维指导画面指导下对操作对象进行装配作业过程中，服务器对操作对象的状态进行实时监测，在监测到用户没有按照增强现实设备显示的三维指导画面进行装配作业时，生成矫正信息，发送所述矫正信息至所述增强现实设备，以指示所述增强现实设备添加矫正信息至所述三维指导画面，以实现指导用户矫正装配作业。可见，本申请可以实时对用户装配作业进行指导，不需要专家现场对用户的装配作业指导，节省了人力成本。

下面介绍服务器侧的流程步骤。

图2为本申请实施例提供的装配作业指导方法的流程示意图，作为示例而非限定，该方法可以应用于服务器，该服务器可以是云端服务器等计算设备，上述装配作业指导方法可以包括以下步骤：

步骤S201、获取第一待处理视频。

其中，第一待处理视频包括多帧第一待处理图像，所述第一待处理视频为用户在根据增强现实设备显示的三维指导画面指导下对操作对象进行装配作业过程中，增强现实设备采集操作对象的视频，操作对象可以是船舶、飞机、火车、汽车、机床等大型设备。

在一种可能的实现方式中，如图3所示，为本申请实施例提供的装配作业指导方法的图2中步骤S201之前的流程示意图，获取第一待处理视频之前，包括：

步骤S301、获取第二待处理视频。

其中，第二待处理视频包括多帧第二待处理图像，第二待处理视频为用户在对操作对象进行装配作业之前，增强现实设备采集操作对象的视频。

步骤S302基于多帧第二待处理图像和预先训练的标识识别模型，识别操作对象的标识信息。

其中，标识信息是指表征虚拟指导信息的标识码。预先训练的标识识别模型可以是根据训练集在TOLO(You Only Look Once)神经网络模型的基础上训练得到的，相对于传统神经网络模型，省略了候选框的选取，提高了识别速度。使得根据第二待处理图像可以快速识别出表征虚拟指导信息的标识码，并发送给增强现实设备，以使得根增强现实设备可以根据表征虚拟指导信息的标识码即标识信息从本地的虚拟对象库中查找出虚拟指导信息。优选的，虚拟指导信息包括操作顺序以及每个操作顺序对应的操作内容。例如，汽车装配过程中，操作顺序为：A总装内饰线、B总装底盘线、C总装门线、D总装检测线，用户根据增强现实设备现实的三维指导画面现实的操作顺序根据对应的操作内容进行作业。

可以理解的是，本申请实施例预先对训练集上的操作对象的图像进行标注对应的标识信息，并在标识识别模型上进行训练。

步骤S303、发送标识信息至增强现实设备，以指示增强现实设备根据标识信息查找出虚拟指导信息，根据操作对象对应的真实操作对象信息和虚拟指导信息生成三维指导画面，显示三维指导画面至用户。

可以理解的是，本申请实施例中，相对于传统的增强现实设备需要在真实场景中设置二维码等标识码，以使得增强现实设备可以根据标识码查找出虚拟指导信息，根据操作对象对应的真实操作对象信息和所述虚拟指导信息生成三维指导画面来说，不需要另外设置二维码等标识符。

步骤S202、基于第二待处理图像和预先训练的状态检测模型，识别操作对象的当前状态。

其中，预先训练的状态检测模型包括预先训练的操作对象提取层、特征点识别层以及特征点匹配层。

具体地，如图4所示，为本申请实施例提供的装配作业指导方法的图2中步骤S102的具体实现流程示意图，基于第一待处理图像和预先训练的状态检测模型，识别操作对象的当前状态，包括：

步骤S401、将多帧第一待处理图像导入至操作对象提取层，从待处理图像中截取出操作对象图像。

其中，操作对象提取层可以是根据训练集在TOLOv4神经网络模型的基础上训练得到的，相对于传统神经网络模型，使用CSPDarnet作为主干网络，通过引入Mosaici数据增强方法与使用GA算法选择最优超参数，并且使用PANet网络代替FPN，提高目标检测物体的检测效果，从而在待处理图像中截取操作对象图像。可以理解的是，本申请实施例预先对训练集上的操作对象的图像进行标注对应的操作对象图像，并在操作对象提取层上进行训练。

步骤S402、将操作对象图像导入至特征点识别层，从操作对象图像上识别特征点，输出包含多个特征点的操作对象图像。

其中，特征点是指表征操作对象图像特征性质的像素点。特征点识别层是采用FREAK算法构建的，FREAK算法是一种二进制特征描述算子，其采样模式是人眼视网膜接收图像信息的模式，可以从操作对象图像中的采样点中确定出特征点，具有与图像尺寸大小、图像旋转角度无关以及对噪声具有鲁棒性等优点。

步骤S403、将多个特征点的操作对象图像导入至特征点匹配层，输出操作对象的当前状态。

其中，当前状态包括标准状态和非标准状态，特征点匹配层包括多个模板图像。

需说明的是，本申请实施例的特征点匹配层存储有用户根据增强现实设备现实的三维指导画面中的操作顺序以及操作内容对操作对象进行操作时，每个操作顺序对应的操作对象的标准状态对应的模板图像。

具体地，将多个特征点的操作对象图像导入至特征点匹配层，分别与特征点匹配层中对应的模板图像之间进行对比，操作对象图像与模板图像一致时表示当前状态为标准状态，操作对象图像与模板图像不一致时表示当前状态为非标准状态其中。其中，匹配方法可以是欧式距离匹配、汉明距离匹配或者编辑距离匹配。可以理解的是，本申请实施例的特征匹配的原理是分别比较操作对象图像描述子与模板图像描述子之间的尺寸及方向信息从而确定两者是否为同一个特征点，从而根据两张图像的特征点相同的数量来确定是否一致。

步骤S203、若当前状态为非标准状态，则生成非标准状态对应的矫正信息，发送矫正信息至增强现实设备，以指示增强现实设备添加矫正信息至三维指导画面，显示三维指导画面中的矫正信息至用户。

其中，所述矫正信息包括但是不限于以下任意一种：静态显示文本、动态显示文本、静态显示图像或者动态显示图像。

可以理解的是，本申请实施例，操作对象的当前状态为非标准状态时，说明用户没有按照三维指导画面的操作顺序和操作内容进行操作，故生成矫正信息，以指示增强现实设备添加矫正信息至三维指导画面，使得用户根据三维指导画面显示的矫正信息更正操作错误。其中，矫正信息可以是静态显示文本、动态显示文本、静态显示图像或者动态显示图像，可以提高人机交互效果，方便用户更加直观地查看到三维指导画面显示的矫正信息。

在一种可能的实现方式中，如图5所示，为本申请实施例提供装配作业指导方法的的图2中步骤S203之后的流程示意图，若所述当前状态为非标准状态，则生成所述非标准状态对应的矫正信息，发送所述矫正信息至所述增强现实设备，以指示所述增强现实设备添加所述矫正信息至所述三维指导画面之后，还包括：

步骤S501、预设时间后，若当前状态为非标准状态，则触发远程指导请求。

可以理解的是，预设时间后，若继续检测到操作对象的当前状态仍处于非标准状态，那么则触发远程指导请求，请求远程的专家协助用户操作。

步骤S502、响应于所述远程指导请求，将第一待处理图像发送至专家终端，以指示专家终端显示第一待处理图像至远程专家。

其中，专家终端对应于远程专家。

步骤S503、建立专家终端与增强现实设备之间的网络连接，以实现远程专家与用户通过专家终端以及增强现实设备进行语音通话。

可以理解的，服务器将专家系统的IP地址发送至增强现实设备以及将增强现实设备的IP地址发送至专家系统，以建立专家终端与增强现实设备之间的网络连接，实现远程专家与用户通过专家终端以及增强现实设备进行语音通话使得远程专家可以指导用户进行装配作业。

在一种可能的实现方式中，如图6所示为本申请实施例提供的装配作业指导方法的图5中步骤S503之后的流程示意图，响应于所述远程指导请求，将所述第一待处理图像发送至专家终端，以指示所述专家终端显示所述第一待处理图像至远程专家之后，还包括：

步骤S601、获取语音通话信息，语音通话信息为远程专家与用户通过专家终端以及增强现实设备进行语音通话的信息。

可以理解的是，本申请实施例可以自动在远程专家与用户通过专家终端以及增强现实设备进行语音通话的信息中提取出关键信息。

步骤S602、提取语音通话信息中的关键信息。

其中，关键信息是指表征用户与远程专利通话信息中涉及到操作内容的命名实体，例如，汽车装配过程中，按照装配顺序为：A总装内饰线、B总装底盘线、C总装门线、D总装检测线，在用户根据增强现实设备显示的三维指导画面进行B总装底盘线的装配作业中，服务器检测到的用户在预设时间依然没有按照增强现实设备显示的三维指导画面中添加的矫正信息进行装配，因此触发远程指导请求，远程专家在与用户进行语音通话过程中的语音可以是“小*，你把油管安装在油箱的下方”，那么，提取出来的关键信息就是“油箱、油管以及下方”。

具体地，如图7所示，为本申请实施例提供的装配作业指导方法的图6中步骤S602的具体流程示意图，提取语音通话信息中的关键信息，包括：

步骤S701、将语音通话信息转换为语音文本信息。

其中，将语音通话信息转换为语音文本信息可以是采用自然语音处理技术。

步骤S702、根据语音文本信息和预先训练的关键词抽取模型，提取语音文本信息中的关键信息。

其中，预先训练的关键词抽取模型可以是在BiLSTM+CRF模型的基础上通过语音文本样本作为训练数据训练得到的。

具体地，通过预先训练的关键词抽取模型从语音文本信息直接提取出语音文本信息中的关键信息。例如，汽车装配过程中，按照装配顺序为：A总装内饰线、B总装底盘线、C总装门线、D总装检测线，在用户根据增强现实设备显示的三维指导画面进行B总装底盘线的装配作业中，服务器检测到的用户在预设时间依然没有按照增强现实设备显示的三维指导画面中添加的矫正信息进行装配，因此触发远程指导请求，远程专家在与用户进行语音通话过程中的语音可以是“小*，你把油管安装在油箱的下方”，那么，提取出来的关键信息就是“油箱、油管以及下方”。

步骤S603、将关键信息发送至增强现实设备，以指示增强现实设备添加关键信息至三维指导画面，显示所述三维指导画面中的关键信息至用户。

可以理解的是，本申请实施例，可以自动在远程专家与用户通过专家终端以及增强现实设备进行语音通话的信息中提取出关键信息，并将关键信息添加至三维指导画面，防止用户遗漏操作步骤以及操作步骤对应的操作内容。

本申请实施例中，用户在根据增强现实设备显示的三维指导画面指导下对操作对象进行装配作业过程中，服务器对操作对象的状态进行实时监测，在监测到用户没有按照增强现实设备显示的三维指导画面进行装配作业时，生成矫正信息，发送矫正信息至增强现实设备，以指示增强现实设备添加矫正信息至三维指导画面，以实现指导用户矫正装配作业。可见，本申请可以实时对用户装配作业进行指导，不需要专家现场对用户的装配作业指导，节省了人力成本。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的装配作业指导方法，图8示出了本申请实施例提供的装配作业指导装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图8，该装置包括：

获取模块81，用于获取第一待处理视频，所述第一待处理视频包括多帧第一待处理图像，所述第一待处理视频为用户在根据增强现实设备显示的三维指导画面指导下对操作对象进行装配作业过程中，增强现实设备采集的视频；

识别模块82，用于基于所述第二待处理图像和预先训练的状态检测模型，识别所述操作对象的当前状态；

生成模块83，用于若所述当前状态为非标准状态，则获取所述非标准状态对应的矫正信息，发送所述矫正信息至所述增强现实设备，以指示所述增强现实设备添加所述矫正信息至所述三维指导画面。

在一种可能实现的方式中，所述预先训练的状态检测模型包括预先训练的操作对象提取层、特征点识别层以及特征点匹配层；

所述识别模块包括：

在一种可能实现的方式中，所述装置还包括：

发送模块，用于发送所述标识信息至所述增强现实设备，以指示所述增强现实设备根据所述标识信息查找出虚拟指导信息，根据所述操作对象对应的真实操作对象信息和所述虚拟指导信息生成所述三维指导画面。

在一种可能实现的方式中，所述装置还包括：

提取模块，用于提取所述语音通话信息中的关键信息；

关键信息添加模块，用于将所述关键信息发送至所述增强现实设备，以指示所述增强现实设备添加所述关键信息至所述三维指导画面中。

在一种可能实现的方式中，所述提取模块包括：

转换单元，用于将所述语音通话信息转换为语音文本信息；

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

图9为本申请实施例提供的服务器的结构示意图。如图9所示，该实施例的服务器9包括：至少一个处理器90、存储器91以及存储在所述存储器91中并可在所述至少一个处理器90上运行的计算机程序92，所述处理器90执行所述计算机程序92时实现上述任意各个方法实施例中的步骤。

所述服务器9可以是云端服务器等计算设备。该服务器可包括，但不仅限于，处理器90、存储器91。本领域技术人员可以理解，图6仅仅是服务器9的举例，并不构成对服务器9的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器90可以是中央处理单元(Central Processing Unit，CPU)，该处理器90还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器91在一些实施例中可以是所述服务器9的内部存储单元，例如服务器9的硬盘或内存。所述存储器91在另一些实施例中也可以是所述服务器9的外部存储设备，例如所述服务器9上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器91还可以既包括所述服务器9的内部存储单元也包括外部存储设备。所述存储器91用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器91还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到服务器的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种装配作业指导方法，其特征在于，该方法包括：

若所述当前状态为非标准状态，则生成所述非标准状态对应的矫正信息，发送所述矫正信息至所述增强现实设备，以指示所述增强现实设备添加所述矫正信息至所述三维指导画面，显示所述三维指导画面中的矫正信息至用户；

所述预先训练的状态检测模型包括预先训练的操作对象提取层、特征点识别层以及特征点匹配层；

将所述多个特征点的操作对象图像导入至特征点匹配层，输出所述操作对象的当前状态；

获取第一待处理视频之前，包括：

发送所述标识信息至所述增强现实设备，以指示所述增强现实设备根据所述标识信息查找出虚拟指导信息，根据所述操作对象对应的真实操作对象信息和所述虚拟指导信息生成所述三维指导画面，显示所述三维指导画面至用户；

若所述当前状态为非标准状态，则生成所述非标准状态对应的矫正信息，发送所述矫正信息至所述增强现实设备，以指示所述增强现实设备添加所述矫正信息至所述三维指导画面，显示所述三维指导画面至用户之后，还包括：

建立所述专家终端与所述增强现实设备之间的网络连接，以实现所述远程专家与所述用户通过专家终端以及增强现实设备进行语音通话；

响应于所述远程指导请求，将所述第一待处理图像发送至专家终端，以指示所述专家终端显示所述第一待处理图像至远程专家之后，还包括：

提取所述语音通话信息中的关键信息；

2.如权利要求1所述的装配作业指导方法，其特征在于，提取所述语音通话信息中的关键信息，包括：

将所述语音通话信息转换为语音文本信息；

3.一种装配作业指导装置，其特征在于，包括：

识别模块，用于基于所述第一待处理图像和预先训练的状态检测模型，识别所述操作对象的当前状态；

生成模块，用于若所述当前状态为非标准状态，则获取所述非标准状态对应的矫正信息，发送所述矫正信息至所述增强现实设备，以指示所述增强现实设备添加所述矫正信息至所述三维指导画面，显示所述三维指导画面中的矫正信息至用户；

所述识别模块包括：

第三处理单元，用于将所述多个特征点的操作对象图像导入至特征点匹配层，输出所述操作对象的当前状态；

所述装置还包括：

发送模块，用于发送所述标识信息至所述增强现实设备，以指示所述增强现实设备根据所述标识信息查找出虚拟指导信息，根据所述操作对象对应的真实操作对象信息和所述虚拟指导信息生成所述三维指导画面；

所述装置还包括：

建立模块，用于建立所述专家终端与所述增强现实设备之间的网络连接，以实现所述远程专家与所述用户通过专家终端以及增强现实设备进行语音通话；

所述装置还包括：

提取模块，用于提取所述语音通话信息中的关键信息；

4.一种装配作业指导系统，其特征在于，所述系统包括：

增强现实设备还用于获取所述矫正信息，将所述矫正信息添加至所述三维指导画面，显示所述三维指导画面中的矫正信息至用户；

所述服务器具体用于将多帧所述第一待处理图像导入至操作对象提取层，从待处理图像中截取出操作对象图像；将所述操作对象图像导入至特征点识别层，从所述操作对象图像上识0别特征点，输出包含多个特征点的操作对象图像；将所述多个特征点的操作对象图像导入至特征点匹配层，输出所述操作对象的当前状态；

所述服务器还用于获取第二待处理视频，所述第二待处理视频包括多帧待处理图像，所述第二待处理视频为用户在对操作对象进行装配作业之前，增强现实设备采集所述操作对象的视频；基于所述第二待处理图像和预先训练的标识识别模型，识别所述操作对象的标识信息；其中，所述标识信息是指表征虚拟指导信息的标识码；发送所述标识信息至所述增强现实设备，以指示所述增强现实设备根据所述标识信息查找出虚拟指导信息，根据所述操作对象对应的真实操作对象信息和所述虚拟指导信息生成所述三维指导画面，显示所述三维指导画面至用户；

所述服务器还用于预设时间后，若所述当前状态为非标准状态，则触发远程指导请求；响应于所述远程指导请求，将所述第一待处理图像发送至专家终端，以指示所述专家终端显示所述第一待处理图像至远程专家；建立所述专家终端与所述增强现实设备之间的网络连接，以实现所述远程专家与所述用户通过专家终端以及增强现实设备进行语音通话；

所述服务器还用于获取语音通话信息，所述语音通话信息为述远程专家与所述用户通过专家终端以及增强现实设备进行语音通话的信息；提取所述语音通话信息中的关键信息；将所述关键信息发送至所述增强现实设备，以指示所述增强现实设备添加所述关键信息至所述三维指导画面，显示所述三维指导画面中的关键信息至用户。

5.一种服务器，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1或2任一项所述的方法。

6.一种可读存储介质，所述可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1或2任一项所述的方法。