CN112508121A

CN112508121A - 一种工业机器人感知外界的方法和系统

Info

Publication number: CN112508121A
Application number: CN202011524280.8A
Authority: CN
Inventors: 柏文阳; 唐必胜
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-03-16
Anticipated expiration: 2040-12-22
Also published as: CN112508121B

Abstract

本发明提供一种工业机器人感知外界的方法和系统，方法包括步骤1，工业机器人对外界进行视频采集，获得视频流，对所述视频流采样生成图像数据集，通过所述视频流提取语音获得语音数据集；步骤2，对图像数据集采用卷积神经网络CNN生成每张图像中不同对象的向量表示，再通过多层感知机MLP生成不同对象的低维嵌入；步骤3，对语音数据集采用隐马尔可夫HMM模型捕捉每条语音隐变量的值，再通过序列到序列S2S模型完成编码与解码，获得主语、谓语和宾语的关系表；步骤4，建立关系图G；步骤5，对关系图G采用图神经网络GNN进行训练，更新关系表。本发明方法有助于提高机器人的智能程度，增强推理能力，增强工业生产的智能化程度、提高生产效率。

Description

一种工业机器人感知外界的方法和系统

技术领域

本发明涉及人工智能和机器人领域，尤其涉及一种工业机器人感知外界的方法和系统。

背景技术

人工智能最近几年发展迅速，各种新的理论和研究成果相继的产生和发现，机器智能在未来可以极大的减少人力成本，提高工作效率，未来的工作也必然会被机器取代，但现如今机器智能还属于较弱的一个阶段，最常见的一个问题就是它没有理解能力，我们希望不仅可以用机器人去模拟人的行为，也可以用机器人去模拟人的思考。世界模型用机器人去模型人类感知外在的世界，模拟人的眼睛。理解能力对于人工智能来说尤为重要。机器智能能极大的促进一、二、三产业的发展，对文化的影响也是巨大的，机器智能带来的生产力体现在生活的方方面面。现阶段机器人的智能程度较低，推理能力较弱，且工业生产的智能化程度、生产效率均较低。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种工业机器人感知外界的方法和系统。

为了解决上述技术问题，第一方面，本发明提供了一种工业机器人感知外界的方法，包括：

步骤1，工业机器人对外界进行视频采集，获得视频流，对所述视频流采样生成图像数据集，通过所述视频流提取语音获得语音数据集，分别对图像数据集和语音数据集进行预处理；

步骤2，对图像数据集采用卷积神经网络CNN(Convolutional Neural Networks)生成每张图像中不同对象的向量表示，再通过多层感知机MLP(Multilayer Perceptron)生成不同对象的低维嵌入；所述对象指存在的各种实体；

步骤3，对语音数据集采用隐马尔可夫HMM(Hidden Markov model)模型捕捉每条语音隐变量的值，再通过序列到序列S2S(Sequence to Sequence)模型完成编码与解码，获得主语、谓语和宾语的关系表；从语音数据集中解析出声纹，通过声纹能够确定主语；

步骤4，建立关系图G；

步骤5，对关系图G采用图采样图神经网络GNN(Graph Neural Networks)进行训练，更新关系表和关系图G。

结合第一方面，在一种实现方式中，所述步骤1中对所述视频流采样生成图像数据集时，采样以每24帧采样一次；对图像数据集进行预处理指对图像进行下采样；对语音数据集进行预处理指对语音进行降噪以及去除平稳语音段。

结合第一方面，在一种实现方式中，所述步骤2中采用卷积神经网络CNN生成每张图像中不同对象的向量表示时，不同对象采用的卷积核不同。

结合第一方面，在一种实现方式中，所述步骤3中所述主语使用一维数组S[N₁]存储，N₁为不同主语的个数；所述宾语使用一维数组O[N₂]存储，N₂表示不同宾语的个数；获得的主语、谓语和宾语的关系表以三元组(row,col,value)的方式进行存储，其中0≤row<N₁，0≤col<N₂，表示主语S[row]和宾语O[col]的谓语是value，若主语S[row]和宾语O[col]之间不存在谓语，则value取值为0。

结合第一方面，在一种实现方式中，所述步骤4包括：

步骤4.1，将步骤2中所有不同对象作为关系图G中的节点，关系图像G中节点的集合记为V，将所述对象的低维嵌入作为节点的特征向量；

步骤4.2，为节点绑定标签，所述标签为步骤3中获得的主语或宾语；将主语和宾语绑定到对应的节点上，将一对主语和宾语所在节点连线形成边，将对应的谓语表示成边的标签，所述谓语也称为关系，关系具有方向性，箭头方向由主语指向宾语；将关系图G中边的集合记为E，节点的标签集合记为L(v)，边的标签集合记为L(e)，关系图G表示成G(V,E,L(v),L(e))；所述节点的特征向量、节点的标签、节点的边、节点的边标签均为该节点的属性。

结合第一方面，在一种实现方式中，所述步骤5中的图神经网络GNN采用图采样聚合模型graphsage，所述图采样聚合模型graphsage的A矩阵采用有向图的邻接矩阵，聚合器采用LSTM(Long Short-Term Memory)，损失函数采用交叉熵；所述图采样聚合模型graphsage能够对关系图G中的节点标签L(v)和边标签L(e)进行聚类，生成节点分类标签；在图采样聚合模型graphsage进行训练过程中采用对正则化PN减少过光滑现象。

结合第一方面，在一种实现方式中，所述步骤5包括：

步骤5.1，图采样聚合模型graphsage利用步骤3中获得的关系表对关系图G中不相邻的节点进行关系推断，所述不相邻的节点指两个节点之间没有边，同时两个节点均和第三个节点存在关系；如果通过推断发现两个不相邻的节点存在关系，则更新关系表，并更新关系图G，将这两个节点连线形成边，并在边集合E中增加此边，在边的标签集合L(e)中增加这两个节点的关系；

步骤5.2，节点分类标签推断，根据已有的关系表，通过图采样聚合模型graphsag进行图分类，如果关系图G中一个节点的属性和另一个节点的属性相似，且两个节点均和第三个节点有相同的关系，则判断该节点和另一个节点分类相同，具有相同的分类标签。

结合第一方面，在一种实现方式中，所述步骤3中中序列到序列S2S模型中包含语音编码参数C，将所述语音编码参数C替换为注意力attention机制。

结合第一方面，在一种实现方式中，所述步骤3中用自编码器AE(Autoencoder)替换序列到序列S2S模型，所述步骤5中的图神经网络GNN为图同构网络GIN(GraphIsomorphism Network)或者消息传递神经网络MPNN(Message Passing Neural Network)。

第二方面，本发明提供了一种工业机器人感知外界的系统，包括图像处理单元imageUnit、声音处理单元voiceUnit、图分类单元graphUnit、绑定单元bindUnit和推理单元inferenceUnit；

所述图像处理单元imageUnit用于对所述视频流采样生成图像数据集，对图像数据集采用卷积神经网络CNN生成每张图像中不同对象的向量表示，再通过多层感知机MLP生成不同对象的低维嵌入；

所述声音处理单元voiceUnit用于通过所述视频流提取语音获得语音数据集，对语音数据集采用隐马尔可夫HMM模型捕捉每条语音隐变量的值，再通过序列到序列S2S模型完成编码与解码，获得主语、谓语和宾语的关系表；从语音数据集中解析出声纹，通过声纹能够确定主语；

所述图分类单元graphUnit用于将从图像处理单元imageUnit获得的所有不同对象作为关系图G中的节点，将所述对象的低维嵌入作为节点的特征向量，将所有节点、节点的特征向量以及从声音处理单元voiceUnit获得的主语、谓语和宾语的关系表输入到关系图G中；

所述绑定单元bindUnit用于为节点绑定标签，所述标签为主语或宾语；将主语和宾语绑定到对应的节点上，将一对主语和宾语所在节点连线形成边，将对应的谓语表示成边的标签，所述谓语也称为关系；

所述推理单元inferenceUnit用于根据关系表对关系图G中不相邻的节点进行关系推断以及进行节点分类标签推断。

有益效果：本发明提供的一种工业机器人感知外界的方法和系统将图像与语音结合，有助于加强工业机器人对特定场景的学习，在某种程度上具有推理能力。相较于其它的世界模型来说，该方法更能体现对人的模拟，有助于提高机器人的智能程度，增强相应的推理能力，为人类解决一些较复杂和重复性的问题，增强工业生产的智能化程度、提高生产效率，降低人力成本。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是声音处理单元voiceUnit模型结构图。

图2是图像处理单元imageUnit模型结构图。

图3是本发明的整体架构图。

具体实施方式

下面参照附图对本发明进行详细说明，进一步描述本发明的技术方案及优点。

如图3所示，本发明实施例公开了一种工业机器人感知外界的方法，包括以下步骤：

步骤2，对图像数据集采用卷积神经网络CNN生成每张图像中不同对象的向量表示，再通过多层感知机MLP生成不同对象的低维嵌入；所述对象指存在的各种实体；

搭建工业机器人感知外界的系统中的图像处理单元imageUnit单元的网络，利用tensorflow包，import tensorflow as tf，参考图2搭建卷积神经网络CNN网络和多层感知机MLP网络，将卷积神经网络CNN的全连接层作为多层感知机MLP的输入，将两个网络连接起来，形成基本的imageUnit模块。数据处理，对给定的视频数据集，以每24帧的采样频率得到一组图像，对于同一组图像，将其固定成相同尺寸M×N，形成卷积神经网络CNN网络的输入，为了得到差异较大的嵌入，需要对不同的对象设计不同的卷积核，例如如果对象为人，卷积核大小可以参见如下参考文献进行设置：Farfade,S.S.,Saberian,M.J.,&Li,L.-J.(2015).Multi-view Face Detection Using Deep Convolutional NeuralNetworks.Proceedings of the 5th ACM on International Conference on MultimediaRetrieval。卷积神经网络CNN模型训练过程，优化器选择adam，设置训练提前停止条件stop-early。

步骤3，对语音数据集采用隐马尔可夫HMM模型捕捉每条语音隐变量的值，再通过序列到序列S2S模型完成编码与解码，获得主语、谓语和宾语的关系表；从语音数据集中解析出声纹，通过声纹能够确定主语；

本实施例中，利用python中的sidekit包对声纹进行识别并确定主语；所述主语使用一维数组S[N₁]存储，N₁为不同主语的个数；所述宾语使用一维数组O[N₂]存储，N₂表示不同宾语的个数；获得的主语、谓语和宾语的关系表以三元组(row,col,value)的方式进行存储，其中0≤row<N₁，0≤col<N₂，表示主语S[row]和宾语O[col]的谓语是value，若主语S[row]和宾语O[col]之间不存在谓语，则value取值为0。

搭建工业机器人感知外界的系统中的声音处理单元voiceUnit单元，利用tensorflow包，import tensorflow as tf，参考图1搭建隐马尔可夫HMM模型网络和序列到序列S2S网络，将两个网络连接起来，将声音信号降噪后输入隐马尔可夫HMM模型中。训练过程，优化器选择adam，隐马尔可夫HMM模型需要提前训练求出参数，隐马尔可夫HMM模型和序列到序列S2S分开训练。序列到序列S2S模型中包含语音编码参数C；将所述语音编码参数C替换为注意力attention机制；或者序列到序列S2S模型替换为自编码器AE。

步骤4，建立关系图G；

所述步骤4包括：

步骤5，对关系图G采用图神经网络GNN进行训练，更新关系表和关系图G。

图神经网络GNN可以使用图采样聚合模型graphsage、图同构网络GIN或者消息传递神经网络MPNN，本实施例中，图神经网络GNN使用采样聚合模型graphsage；

本实施例中工业机器人感知外界的系统中的图分类单元graphUnit、绑定单元bindUnit和inferenceUnit单元的功能均通过图采样聚合模型graphsage网络实现；利用tensorflow，搭建图采样聚合模型graphsage网络，将步骤2和步骤3的输出，作为图采样聚合模型graphsage网络的输入，进行训练和测试，利用图采样聚合模型graphsage完成图规模的动态增加，图采样聚合模型graphsage在图神经网络GNN中是一个归纳式的方法，不同于图卷积神经网络GCN(Graph Convolutional Network)是一个传导式的方法，不能动态的增加图的规模，因此，基于图GNN的方法，都应该是归纳式的或者说，应当具有聚合器(aggregator)、结合器(combine function)以及一个全局的读出器(readout function)。在图采样聚合模型graphsage中，聚合器使用长短期记忆网络LSTM聚合器，邻接矩阵A使用有向图，损失函数采用交叉熵，在图采样聚合模型graphsage进行训练过程中采用对正则化PN(pair-normalization)减少过光滑现象。

本实施例中，所述步骤5包括：

对于新节点的处理，如果增加了新的节点，则一定是视频中出现了新的对象，这个对象的属性确定方法和上述一致，基于图采样聚合模型graphsage网络，可以动态的往关系图G中增加节点。图神经网络GNN网络由于其基于图同构的理论，导致了图神经网络GNN的收敛过程非常快，一般的图神经网络GNN设置为2层模型。如果出现了新的边，则表示出现了新的关系，该关系如果在关系表中不存在，则应该将新的关系加入到关系表中，关系表需要不断进行维护，关系表以三元组(row,col,value)的方式进行存储，，三元组通过scipy.sparse包进行压缩存储。

实施例：工业机器人巡视工厂业务线

步骤1，工业机器人扫视业务线上的工作人员，工作人员报告工作进度；

步骤2，工业机器人系统利用卷积神经网络CNN对采集到的图像进行人脸识别(应用图像处理单元imageUnit)得到图上的一个节点的特征表示，主要包括采集机器人扫描到的视频流(工作人员的脸已录入人脸识别库中)，从视频流中采样图片，利用卷积神经网络CNN获取工作人员的嵌入表示(此嵌入指的是CNN网络全连接层的向量表示)，此时完成了关系图G中的节点嵌入。

步骤3，对工作人员的语音进行解码(应用声音处理单元voiceUnit)，得到主谓宾，利用声纹识别出主语，将节点之间的关系A,relation(B)表示成两节点边上的标签。

步骤4，将步骤2得到的节点之间的关系A,relation(B)绑定到相应的节点和边上，形成节点和边的标签，图结构动态成长。

步骤5，将构建好的关系图G利用图采样聚合模型进行图嵌入(得到更低维度的特征表示)，根据训练好的图进行推理。工业机器人推理过程，根据流水线工作，指定关系图G为有向无环图，求取网络最大流，实时得到流水线的最大效率，根据残余图求取流水线拖后腿的环节。根据关系表，求取工人A和工人B以及AB之间的关系。

本发明提供了一种工业机器人感知外界的方法和系统，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种工业机器人感知外界的方法，其特征在于，包括以下步骤：

步骤4，建立关系图G；

2.根据权利要求1所述的一种工业机器人感知外界的方法，其特征在于，所述步骤1中对所述视频流采样生成图像数据集时，采样以每24帧采样一次；对图像数据集进行预处理指对图像进行下采样；对语音数据集进行预处理指对语音进行降噪以及去除平稳语音段。

3.根据权利要求1所述的一种工业机器人感知外界的方法，其特征在于，所述步骤2中采用卷积神经网络CNN生成每张图像中不同对象的向量表示时，不同对象采用的卷积核不同。

4.根据权利要求1所述的一种工业机器人感知外界的方法，其特征在于，所述步骤3中所述主语使用一维数组S[N₁]存储，N₁为不同主语的个数；所述宾语使用一维数组O[N₂]存储，N₂表示不同宾语的个数；获得的主语、谓语和宾语的关系表以三元组(row,col,value)的方式进行存储，其中0≤row<N₁，0≤col<N₂，表示主语S[row]和宾语O[col]的谓语是value，若主语S[row]和宾语O[col]之间不存在谓语，则value取值为0。

5.根据权利要求4所述的一种工业机器人感知外界的方法，其特征在于，所述步骤4包括：

6.根据权利要求5所述的一种工业机器人感知外界的方法，其特征在于，所述步骤5中的图神经网络GNN采用图采样聚合模型graphsage，所述图采样聚合模型graphsage的A矩阵采用有向图的邻接矩阵，聚合器采用LSTM，损失函数采用交叉熵；所述图采样聚合模型graphsage能够对关系图G中的节点标签L(v)和边标签L(e)进行聚类，生成节点分类标签；在图采样聚合模型graphsage进行训练过程中采用对正则化PN减少过光滑现象。

7.根据权利要求6所述的一种工业机器人感知外界的方法，其特征在于，所述步骤5包括：

8.根据权利要求1所述的一种工业机器人感知外界的方法，其特征在于，所述步骤3中序列到序列S2S模型中包含语音编码参数C，将所述语音编码参数C替换为注意力attention机制。

9.根据权利要求1所述的一种工业机器人感知外界的方法，其特征在于，所述步骤3中用自编码器AE替换序列到序列S2S模型，所述步骤5中的图神经网络GNN为图同构网络GIN或者消息传递神经网络MPNN。

10.一种工业机器人感知外界的系统，其特征在于，包括图像处理单元imageUnit、声音处理单元voiceUnit、图分类单元graphUnit、绑定单元bindUnit和推理单元inferenceUnit；

所述声音处理单元voiceUnit用于通过所述视频流提取语音获得语音数据集，对语音数据集采用隐马尔可夫模型HMM捕捉每条语音隐变量的值，再通过序列到序列S2S模型完成编码与解码，获得主语、谓语和宾语的关系表；从语音数据集中解析出声纹，通过声纹能够确定主语；