CN112508121A - 一种工业机器人感知外界的方法和系统 - Google Patents
一种工业机器人感知外界的方法和系统 Download PDFInfo
- Publication number
- CN112508121A CN112508121A CN202011524280.8A CN202011524280A CN112508121A CN 112508121 A CN112508121 A CN 112508121A CN 202011524280 A CN202011524280 A CN 202011524280A CN 112508121 A CN112508121 A CN 112508121A
- Authority
- CN
- China
- Prior art keywords
- graph
- nodes
- data set
- node
- subject
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 30
- 238000013528 artificial neural network Methods 0.000 claims abstract description 20
- 239000013598 vector Substances 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 11
- 238000005070 sampling Methods 0.000 claims description 35
- 230000002776 aggregation Effects 0.000 claims description 25
- 238000004220 aggregation Methods 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 abstract description 6
- 230000002708 enhancing effect Effects 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000009776 industrial production Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 230000001939 inductive effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/16—Hidden Markov models [HMM]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
- Manipulator (AREA)
Abstract
本发明提供一种工业机器人感知外界的方法和系统,方法包括步骤1,工业机器人对外界进行视频采集,获得视频流,对所述视频流采样生成图像数据集,通过所述视频流提取语音获得语音数据集;步骤2,对图像数据集采用卷积神经网络CNN生成每张图像中不同对象的向量表示,再通过多层感知机MLP生成不同对象的低维嵌入;步骤3,对语音数据集采用隐马尔可夫HMM模型捕捉每条语音隐变量的值,再通过序列到序列S2S模型完成编码与解码,获得主语、谓语和宾语的关系表;步骤4,建立关系图G;步骤5,对关系图G采用图神经网络GNN进行训练,更新关系表。本发明方法有助于提高机器人的智能程度,增强推理能力,增强工业生产的智能化程度、提高生产效率。
Description
技术领域
本发明涉及人工智能和机器人领域,尤其涉及一种工业机器人感知外界的方法和系统。
背景技术
人工智能最近几年发展迅速,各种新的理论和研究成果相继的产生和发现,机器智能在未来可以极大的减少人力成本,提高工作效率,未来的工作也必然会被机器取代,但现如今机器智能还属于较弱的一个阶段,最常见的一个问题就是它没有理解能力,我们希望不仅可以用机器人去模拟人的行为,也可以用机器人去模拟人的思考。世界模型用机器人去模型人类感知外在的世界,模拟人的眼睛。理解能力对于人工智能来说尤为重要。机器智能能极大的促进一、二、三产业的发展,对文化的影响也是巨大的,机器智能带来的生产力体现在生活的方方面面。现阶段机器人的智能程度较低,推理能力较弱,且工业生产的智能化程度、生产效率均较低。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种工业机器人感知外界的方法和系统。
为了解决上述技术问题,第一方面,本发明提供了一种工业机器人感知外界的方法,包括:
步骤1,工业机器人对外界进行视频采集,获得视频流,对所述视频流采样生成图像数据集,通过所述视频流提取语音获得语音数据集,分别对图像数据集和语音数据集进行预处理;
步骤2,对图像数据集采用卷积神经网络CNN(Convolutional Neural Networks)生成每张图像中不同对象的向量表示,再通过多层感知机MLP(Multilayer Perceptron)生成不同对象的低维嵌入;所述对象指存在的各种实体;
步骤3,对语音数据集采用隐马尔可夫HMM(Hidden Markov model)模型捕捉每条语音隐变量的值,再通过序列到序列S2S(Sequence to Sequence)模型完成编码与解码,获得主语、谓语和宾语的关系表;从语音数据集中解析出声纹,通过声纹能够确定主语;
步骤4,建立关系图G;
步骤5,对关系图G采用图采样图神经网络GNN(Graph Neural Networks)进行训练,更新关系表和关系图G。
结合第一方面,在一种实现方式中,所述步骤1中对所述视频流采样生成图像数据集时,采样以每24帧采样一次;对图像数据集进行预处理指对图像进行下采样;对语音数据集进行预处理指对语音进行降噪以及去除平稳语音段。
结合第一方面,在一种实现方式中,所述步骤2中采用卷积神经网络CNN生成每张图像中不同对象的向量表示时,不同对象采用的卷积核不同。
结合第一方面,在一种实现方式中,所述步骤3中所述主语使用一维数组S[N1]存储,N1为不同主语的个数;所述宾语使用一维数组O[N2]存储,N2表示不同宾语的个数;获得的主语、谓语和宾语的关系表以三元组(row,col,value)的方式进行存储,其中0≤row<N1,0≤col<N2,表示主语S[row]和宾语O[col]的谓语是value,若主语S[row]和宾语O[col]之间不存在谓语,则value取值为0。
结合第一方面,在一种实现方式中,所述步骤4包括:
步骤4.1,将步骤2中所有不同对象作为关系图G中的节点,关系图像G中节点的集合记为V,将所述对象的低维嵌入作为节点的特征向量;
步骤4.2,为节点绑定标签,所述标签为步骤3中获得的主语或宾语;将主语和宾语绑定到对应的节点上,将一对主语和宾语所在节点连线形成边,将对应的谓语表示成边的标签,所述谓语也称为关系,关系具有方向性,箭头方向由主语指向宾语;将关系图G中边的集合记为E,节点的标签集合记为L(v),边的标签集合记为L(e),关系图G表示成G(V,E,L(v),L(e));所述节点的特征向量、节点的标签、节点的边、节点的边标签均为该节点的属性。
结合第一方面,在一种实现方式中,所述步骤5中的图神经网络GNN采用图采样聚合模型graphsage,所述图采样聚合模型graphsage的A矩阵采用有向图的邻接矩阵,聚合器采用LSTM(Long Short-Term Memory),损失函数采用交叉熵;所述图采样聚合模型graphsage能够对关系图G中的节点标签L(v)和边标签L(e)进行聚类,生成节点分类标签;在图采样聚合模型graphsage进行训练过程中采用对正则化PN减少过光滑现象。
结合第一方面,在一种实现方式中,所述步骤5包括:
步骤5.1,图采样聚合模型graphsage利用步骤3中获得的关系表对关系图G中不相邻的节点进行关系推断,所述不相邻的节点指两个节点之间没有边,同时两个节点均和第三个节点存在关系;如果通过推断发现两个不相邻的节点存在关系,则更新关系表,并更新关系图G,将这两个节点连线形成边,并在边集合E中增加此边,在边的标签集合L(e)中增加这两个节点的关系;
步骤5.2,节点分类标签推断,根据已有的关系表,通过图采样聚合模型graphsag进行图分类,如果关系图G中一个节点的属性和另一个节点的属性相似,且两个节点均和第三个节点有相同的关系,则判断该节点和另一个节点分类相同,具有相同的分类标签。
结合第一方面,在一种实现方式中,所述步骤3中中序列到序列S2S模型中包含语音编码参数C,将所述语音编码参数C替换为注意力attention机制。
结合第一方面,在一种实现方式中,所述步骤3中用自编码器AE(Autoencoder)替换序列到序列S2S模型,所述步骤5中的图神经网络GNN为图同构网络GIN(GraphIsomorphism Network)或者消息传递神经网络MPNN(Message Passing Neural Network)。
第二方面,本发明提供了一种工业机器人感知外界的系统,包括图像处理单元imageUnit、声音处理单元voiceUnit、图分类单元graphUnit、绑定单元bindUnit和推理单元inferenceUnit;
所述图像处理单元imageUnit用于对所述视频流采样生成图像数据集,对图像数据集采用卷积神经网络CNN生成每张图像中不同对象的向量表示,再通过多层感知机MLP生成不同对象的低维嵌入;
所述声音处理单元voiceUnit用于通过所述视频流提取语音获得语音数据集,对语音数据集采用隐马尔可夫HMM模型捕捉每条语音隐变量的值,再通过序列到序列S2S模型完成编码与解码,获得主语、谓语和宾语的关系表;从语音数据集中解析出声纹,通过声纹能够确定主语;
所述图分类单元graphUnit用于将从图像处理单元imageUnit获得的所有不同对象作为关系图G中的节点,将所述对象的低维嵌入作为节点的特征向量,将所有节点、节点的特征向量以及从声音处理单元voiceUnit获得的主语、谓语和宾语的关系表输入到关系图G中;
所述绑定单元bindUnit用于为节点绑定标签,所述标签为主语或宾语;将主语和宾语绑定到对应的节点上,将一对主语和宾语所在节点连线形成边,将对应的谓语表示成边的标签,所述谓语也称为关系;
所述推理单元inferenceUnit用于根据关系表对关系图G中不相邻的节点进行关系推断以及进行节点分类标签推断。
有益效果:本发明提供的一种工业机器人感知外界的方法和系统将图像与语音结合,有助于加强工业机器人对特定场景的学习,在某种程度上具有推理能力。相较于其它的世界模型来说,该方法更能体现对人的模拟,有助于提高机器人的智能程度,增强相应的推理能力,为人类解决一些较复杂和重复性的问题,增强工业生产的智能化程度、提高生产效率,降低人力成本。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是声音处理单元voiceUnit模型结构图。
图2是图像处理单元imageUnit模型结构图。
图3是本发明的整体架构图。
具体实施方式
下面参照附图对本发明进行详细说明,进一步描述本发明的技术方案及优点。
如图3所示,本发明实施例公开了一种工业机器人感知外界的方法,包括以下步骤:
步骤1,工业机器人对外界进行视频采集,获得视频流,对所述视频流采样生成图像数据集,通过所述视频流提取语音获得语音数据集,分别对图像数据集和语音数据集进行预处理;
步骤2,对图像数据集采用卷积神经网络CNN生成每张图像中不同对象的向量表示,再通过多层感知机MLP生成不同对象的低维嵌入;所述对象指存在的各种实体;
搭建工业机器人感知外界的系统中的图像处理单元imageUnit单元的网络,利用tensorflow包,import tensorflow as tf,参考图2搭建卷积神经网络CNN网络和多层感知机MLP网络,将卷积神经网络CNN的全连接层作为多层感知机MLP的输入,将两个网络连接起来,形成基本的imageUnit模块。数据处理,对给定的视频数据集,以每24帧的采样频率得到一组图像,对于同一组图像,将其固定成相同尺寸M×N,形成卷积神经网络CNN网络的输入,为了得到差异较大的嵌入,需要对不同的对象设计不同的卷积核,例如如果对象为人,卷积核大小可以参见如下参考文献进行设置:Farfade,S.S.,Saberian,M.J.,&Li,L.-J.(2015).Multi-view Face Detection Using Deep Convolutional NeuralNetworks.Proceedings of the 5th ACM on International Conference on MultimediaRetrieval。卷积神经网络CNN模型训练过程,优化器选择adam,设置训练提前停止条件stop-early。
步骤3,对语音数据集采用隐马尔可夫HMM模型捕捉每条语音隐变量的值,再通过序列到序列S2S模型完成编码与解码,获得主语、谓语和宾语的关系表;从语音数据集中解析出声纹,通过声纹能够确定主语;
本实施例中,利用python中的sidekit包对声纹进行识别并确定主语;所述主语使用一维数组S[N1]存储,N1为不同主语的个数;所述宾语使用一维数组O[N2]存储,N2表示不同宾语的个数;获得的主语、谓语和宾语的关系表以三元组(row,col,value)的方式进行存储,其中0≤row<N1,0≤col<N2,表示主语S[row]和宾语O[col]的谓语是value,若主语S[row]和宾语O[col]之间不存在谓语,则value取值为0。
搭建工业机器人感知外界的系统中的声音处理单元voiceUnit单元,利用tensorflow包,import tensorflow as tf,参考图1搭建隐马尔可夫HMM模型网络和序列到序列S2S网络,将两个网络连接起来,将声音信号降噪后输入隐马尔可夫HMM模型中。训练过程,优化器选择adam,隐马尔可夫HMM模型需要提前训练求出参数,隐马尔可夫HMM模型和序列到序列S2S分开训练。序列到序列S2S模型中包含语音编码参数C;将所述语音编码参数C替换为注意力attention机制;或者序列到序列S2S模型替换为自编码器AE。
步骤4,建立关系图G;
所述步骤4包括:
步骤4.1,将步骤2中所有不同对象作为关系图G中的节点,关系图像G中节点的集合记为V,将所述对象的低维嵌入作为节点的特征向量;
步骤4.2,为节点绑定标签,所述标签为步骤3中获得的主语或宾语;将主语和宾语绑定到对应的节点上,将一对主语和宾语所在节点连线形成边,将对应的谓语表示成边的标签,所述谓语也称为关系,关系具有方向性,箭头方向由主语指向宾语;将关系图G中边的集合记为E,节点的标签集合记为L(v),边的标签集合记为L(e),关系图G表示成G(V,E,L(v),L(e));所述节点的特征向量、节点的标签、节点的边、节点的边标签均为该节点的属性。
步骤5,对关系图G采用图神经网络GNN进行训练,更新关系表和关系图G。
图神经网络GNN可以使用图采样聚合模型graphsage、图同构网络GIN或者消息传递神经网络MPNN,本实施例中,图神经网络GNN使用采样聚合模型graphsage;
本实施例中工业机器人感知外界的系统中的图分类单元graphUnit、绑定单元bindUnit和inferenceUnit单元的功能均通过图采样聚合模型graphsage网络实现;利用tensorflow,搭建图采样聚合模型graphsage网络,将步骤2和步骤3的输出,作为图采样聚合模型graphsage网络的输入,进行训练和测试,利用图采样聚合模型graphsage完成图规模的动态增加,图采样聚合模型graphsage在图神经网络GNN中是一个归纳式的方法,不同于图卷积神经网络GCN(Graph Convolutional Network)是一个传导式的方法,不能动态的增加图的规模,因此,基于图GNN的方法,都应该是归纳式的或者说,应当具有聚合器(aggregator)、结合器(combine function)以及一个全局的读出器(readout function)。在图采样聚合模型graphsage中,聚合器使用长短期记忆网络LSTM聚合器,邻接矩阵A使用有向图,损失函数采用交叉熵,在图采样聚合模型graphsage进行训练过程中采用对正则化PN(pair-normalization)减少过光滑现象。
本实施例中,所述步骤5包括:
步骤5.1,图采样聚合模型graphsage利用步骤3中获得的关系表对关系图G中不相邻的节点进行关系推断,所述不相邻的节点指两个节点之间没有边,同时两个节点均和第三个节点存在关系;如果通过推断发现两个不相邻的节点存在关系,则更新关系表,并更新关系图G,将这两个节点连线形成边,并在边集合E中增加此边,在边的标签集合L(e)中增加这两个节点的关系;
步骤5.2,节点分类标签推断,根据已有的关系表,通过图采样聚合模型graphsag进行图分类,如果关系图G中一个节点的属性和另一个节点的属性相似,且两个节点均和第三个节点有相同的关系,则判断该节点和另一个节点分类相同,具有相同的分类标签。
对于新节点的处理,如果增加了新的节点,则一定是视频中出现了新的对象,这个对象的属性确定方法和上述一致,基于图采样聚合模型graphsage网络,可以动态的往关系图G中增加节点。图神经网络GNN网络由于其基于图同构的理论,导致了图神经网络GNN的收敛过程非常快,一般的图神经网络GNN设置为2层模型。如果出现了新的边,则表示出现了新的关系,该关系如果在关系表中不存在,则应该将新的关系加入到关系表中,关系表需要不断进行维护,关系表以三元组(row,col,value)的方式进行存储,,三元组通过scipy.sparse包进行压缩存储。
实施例:工业机器人巡视工厂业务线
步骤1,工业机器人扫视业务线上的工作人员,工作人员报告工作进度;
步骤2,工业机器人系统利用卷积神经网络CNN对采集到的图像进行人脸识别(应用图像处理单元imageUnit)得到图上的一个节点的特征表示,主要包括采集机器人扫描到的视频流(工作人员的脸已录入人脸识别库中),从视频流中采样图片,利用卷积神经网络CNN获取工作人员的嵌入表示(此嵌入指的是CNN网络全连接层的向量表示),此时完成了关系图G中的节点嵌入。
步骤3,对工作人员的语音进行解码(应用声音处理单元voiceUnit),得到主谓宾,利用声纹识别出主语,将节点之间的关系A,relation(B)表示成两节点边上的标签。
步骤4,将步骤2得到的节点之间的关系A,relation(B)绑定到相应的节点和边上,形成节点和边的标签,图结构动态成长。
步骤5,将构建好的关系图G利用图采样聚合模型进行图嵌入(得到更低维度的特征表示),根据训练好的图进行推理。工业机器人推理过程,根据流水线工作,指定关系图G为有向无环图,求取网络最大流,实时得到流水线的最大效率,根据残余图求取流水线拖后腿的环节。根据关系表,求取工人A和工人B以及AB之间的关系。
本发明提供了一种工业机器人感知外界的方法和系统,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (10)
1.一种工业机器人感知外界的方法,其特征在于,包括以下步骤:
步骤1,工业机器人对外界进行视频采集,获得视频流,对所述视频流采样生成图像数据集,通过所述视频流提取语音获得语音数据集,分别对图像数据集和语音数据集进行预处理;
步骤2,对图像数据集采用卷积神经网络CNN生成每张图像中不同对象的向量表示,再通过多层感知机MLP生成不同对象的低维嵌入;所述对象指存在的各种实体;
步骤3,对语音数据集采用隐马尔可夫HMM模型捕捉每条语音隐变量的值,再通过序列到序列S2S模型完成编码与解码,获得主语、谓语和宾语的关系表;从语音数据集中解析出声纹,通过声纹能够确定主语;
步骤4,建立关系图G;
步骤5,对关系图G采用图神经网络GNN进行训练,更新关系表和关系图G。
2.根据权利要求1所述的一种工业机器人感知外界的方法,其特征在于,所述步骤1中对所述视频流采样生成图像数据集时,采样以每24帧采样一次;对图像数据集进行预处理指对图像进行下采样;对语音数据集进行预处理指对语音进行降噪以及去除平稳语音段。
3.根据权利要求1所述的一种工业机器人感知外界的方法,其特征在于,所述步骤2中采用卷积神经网络CNN生成每张图像中不同对象的向量表示时,不同对象采用的卷积核不同。
4.根据权利要求1所述的一种工业机器人感知外界的方法,其特征在于,所述步骤3中所述主语使用一维数组S[N1]存储,N1为不同主语的个数;所述宾语使用一维数组O[N2]存储,N2表示不同宾语的个数;获得的主语、谓语和宾语的关系表以三元组(row,col,value)的方式进行存储,其中0≤row<N1,0≤col<N2,表示主语S[row]和宾语O[col]的谓语是value,若主语S[row]和宾语O[col]之间不存在谓语,则value取值为0。
5.根据权利要求4所述的一种工业机器人感知外界的方法,其特征在于,所述步骤4包括:
步骤4.1,将步骤2中所有不同对象作为关系图G中的节点,关系图像G中节点的集合记为V,将所述对象的低维嵌入作为节点的特征向量;
步骤4.2,为节点绑定标签,所述标签为步骤3中获得的主语或宾语;将主语和宾语绑定到对应的节点上,将一对主语和宾语所在节点连线形成边,将对应的谓语表示成边的标签,所述谓语也称为关系,关系具有方向性,箭头方向由主语指向宾语;将关系图G中边的集合记为E,节点的标签集合记为L(v),边的标签集合记为L(e),关系图G表示成G(V,E,L(v),L(e));所述节点的特征向量、节点的标签、节点的边、节点的边标签均为该节点的属性。
6.根据权利要求5所述的一种工业机器人感知外界的方法,其特征在于,所述步骤5中的图神经网络GNN采用图采样聚合模型graphsage,所述图采样聚合模型graphsage的A矩阵采用有向图的邻接矩阵,聚合器采用LSTM,损失函数采用交叉熵;所述图采样聚合模型graphsage能够对关系图G中的节点标签L(v)和边标签L(e)进行聚类,生成节点分类标签;在图采样聚合模型graphsage进行训练过程中采用对正则化PN减少过光滑现象。
7.根据权利要求6所述的一种工业机器人感知外界的方法,其特征在于,所述步骤5包括:
步骤5.1,图采样聚合模型graphsage利用步骤3中获得的关系表对关系图G中不相邻的节点进行关系推断,所述不相邻的节点指两个节点之间没有边,同时两个节点均和第三个节点存在关系;如果通过推断发现两个不相邻的节点存在关系,则更新关系表,并更新关系图G,将这两个节点连线形成边,并在边集合E中增加此边,在边的标签集合L(e)中增加这两个节点的关系;
步骤5.2,节点分类标签推断,根据已有的关系表,通过图采样聚合模型graphsag进行图分类,如果关系图G中一个节点的属性和另一个节点的属性相似,且两个节点均和第三个节点有相同的关系,则判断该节点和另一个节点分类相同,具有相同的分类标签。
8.根据权利要求1所述的一种工业机器人感知外界的方法,其特征在于,所述步骤3中序列到序列S2S模型中包含语音编码参数C,将所述语音编码参数C替换为注意力attention机制。
9.根据权利要求1所述的一种工业机器人感知外界的方法,其特征在于,所述步骤3中用自编码器AE替换序列到序列S2S模型,所述步骤5中的图神经网络GNN为图同构网络GIN或者消息传递神经网络MPNN。
10.一种工业机器人感知外界的系统,其特征在于,包括图像处理单元imageUnit、声音处理单元voiceUnit、图分类单元graphUnit、绑定单元bindUnit和推理单元inferenceUnit;
所述图像处理单元imageUnit用于对所述视频流采样生成图像数据集,对图像数据集采用卷积神经网络CNN生成每张图像中不同对象的向量表示,再通过多层感知机MLP生成不同对象的低维嵌入;
所述声音处理单元voiceUnit用于通过所述视频流提取语音获得语音数据集,对语音数据集采用隐马尔可夫模型HMM捕捉每条语音隐变量的值,再通过序列到序列S2S模型完成编码与解码,获得主语、谓语和宾语的关系表;从语音数据集中解析出声纹,通过声纹能够确定主语;
所述图分类单元graphUnit用于将从图像处理单元imageUnit获得的所有不同对象作为关系图G中的节点,将所述对象的低维嵌入作为节点的特征向量,将所有节点、节点的特征向量以及从声音处理单元voiceUnit获得的主语、谓语和宾语的关系表输入到关系图G中;
所述绑定单元bindUnit用于为节点绑定标签,所述标签为主语或宾语;将主语和宾语绑定到对应的节点上,将一对主语和宾语所在节点连线形成边,将对应的谓语表示成边的标签,所述谓语也称为关系;
所述推理单元inferenceUnit用于根据关系表对关系图G中不相邻的节点进行关系推断以及进行节点分类标签推断。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011524280.8A CN112508121B (zh) | 2020-12-22 | 2020-12-22 | 一种工业机器人感知外界的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011524280.8A CN112508121B (zh) | 2020-12-22 | 2020-12-22 | 一种工业机器人感知外界的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112508121A true CN112508121A (zh) | 2021-03-16 |
CN112508121B CN112508121B (zh) | 2024-03-22 |
Family
ID=74923502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011524280.8A Active CN112508121B (zh) | 2020-12-22 | 2020-12-22 | 一种工业机器人感知外界的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112508121B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113314188A (zh) * | 2021-06-16 | 2021-08-27 | 中国科学技术大学 | 图结构增强的小样本学习方法、系统、设备及存储介质 |
CN114489043A (zh) * | 2021-12-24 | 2022-05-13 | 清华大学 | 多智能体路径规划方法、装置、电子设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150127350A1 (en) * | 2013-11-01 | 2015-05-07 | Google Inc. | Method and System for Non-Parametric Voice Conversion |
CN108847238A (zh) * | 2018-08-06 | 2018-11-20 | 东北大学 | 一种新型服务机器人语音识别方法 |
CN109376864A (zh) * | 2018-09-06 | 2019-02-22 | 电子科技大学 | 一种基于堆叠神经网络的知识图谱关系推理算法 |
US20200027444A1 (en) * | 2018-07-20 | 2020-01-23 | Google Llc | Speech recognition with sequence-to-sequence models |
CN110889397A (zh) * | 2018-12-28 | 2020-03-17 | 南京大学 | 一种以人为主体的视觉关系分割方法 |
CN111291212A (zh) * | 2020-01-24 | 2020-06-16 | 复旦大学 | 基于图卷积神经网络的零样本草图图像检索方法和系统 |
CN111414959A (zh) * | 2020-03-18 | 2020-07-14 | 南京星火技术有限公司 | 图像识别方法、装置、计算机可读介质和电子设备 |
CN111612070A (zh) * | 2020-05-13 | 2020-09-01 | 清华大学 | 基于场景图的图像描述生成方法及装置 |
US20200279151A1 (en) * | 2017-10-27 | 2020-09-03 | Deepmind Technologies Limited | Graph neural network systems for generating structured representations of objects |
CN111645073A (zh) * | 2020-05-29 | 2020-09-11 | 武汉理工大学 | 一种机器人视觉语义导航方法、装置及系统 |
CN111860588A (zh) * | 2020-06-12 | 2020-10-30 | 华为技术有限公司 | 一种用于图神经网络的训练方法以及相关设备 |
CN111883102A (zh) * | 2020-07-14 | 2020-11-03 | 中国科学技术大学 | 一种双层自回归解码的序列到序列语音合成方法及系统 |
-
2020
- 2020-12-22 CN CN202011524280.8A patent/CN112508121B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150127350A1 (en) * | 2013-11-01 | 2015-05-07 | Google Inc. | Method and System for Non-Parametric Voice Conversion |
US20200279151A1 (en) * | 2017-10-27 | 2020-09-03 | Deepmind Technologies Limited | Graph neural network systems for generating structured representations of objects |
US20200027444A1 (en) * | 2018-07-20 | 2020-01-23 | Google Llc | Speech recognition with sequence-to-sequence models |
CN108847238A (zh) * | 2018-08-06 | 2018-11-20 | 东北大学 | 一种新型服务机器人语音识别方法 |
CN109376864A (zh) * | 2018-09-06 | 2019-02-22 | 电子科技大学 | 一种基于堆叠神经网络的知识图谱关系推理算法 |
CN110889397A (zh) * | 2018-12-28 | 2020-03-17 | 南京大学 | 一种以人为主体的视觉关系分割方法 |
CN111291212A (zh) * | 2020-01-24 | 2020-06-16 | 复旦大学 | 基于图卷积神经网络的零样本草图图像检索方法和系统 |
CN111414959A (zh) * | 2020-03-18 | 2020-07-14 | 南京星火技术有限公司 | 图像识别方法、装置、计算机可读介质和电子设备 |
CN111612070A (zh) * | 2020-05-13 | 2020-09-01 | 清华大学 | 基于场景图的图像描述生成方法及装置 |
CN111645073A (zh) * | 2020-05-29 | 2020-09-11 | 武汉理工大学 | 一种机器人视觉语义导航方法、装置及系统 |
CN111860588A (zh) * | 2020-06-12 | 2020-10-30 | 华为技术有限公司 | 一种用于图神经网络的训练方法以及相关设备 |
CN111883102A (zh) * | 2020-07-14 | 2020-11-03 | 中国科学技术大学 | 一种双层自回归解码的序列到序列语音合成方法及系统 |
Non-Patent Citations (4)
Title |
---|
WEIZHI NIE等: "C-GCN:Correlation Based Graph Convolutional Network for Audio-Video Emotion Recognition", 《IEEE TRANSACTIONS ON MULTIMEDIA》, vol. 23, 21 October 2020 (2020-10-21), pages 3790 - 3804 * |
YU QIAO等: "HMM-based sequence-to-frame mapping for voice conversion", 《2010 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS,SPEECH AND SIGNAL PROCESSING》, 28 June 2010 (2010-06-28), pages 4830 - 4833 * |
侯悦文: "基于squence to squence的神经机器翻译模型研究", 《价值工程》, vol. 38, no. 33, 9 December 2019 (2019-12-09), pages 294 - 296 * |
韩朝君: "基于深度学习的计算机视觉物体关系检测", 《中国优秀硕士学位论文全文数据库(信息科技辑)》, no. 7, 15 July 2020 (2020-07-15), pages 138 - 850 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113314188A (zh) * | 2021-06-16 | 2021-08-27 | 中国科学技术大学 | 图结构增强的小样本学习方法、系统、设备及存储介质 |
CN113314188B (zh) * | 2021-06-16 | 2022-07-15 | 中国科学技术大学 | 图结构增强的小样本学习方法、系统、设备及存储介质 |
CN114489043A (zh) * | 2021-12-24 | 2022-05-13 | 清华大学 | 多智能体路径规划方法、装置、电子设备及存储介质 |
CN114489043B (zh) * | 2021-12-24 | 2024-02-09 | 清华大学 | 多智能体路径规划方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112508121B (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829443B (zh) | 基于图像增强与3d卷积神经网络的视频行为识别方法 | |
CN110110624B (zh) | 一种基于DenseNet网络与帧差法特征输入的人体行为识别方法 | |
CN111310707B (zh) | 基于骨骼的图注意力网络动作识别方法及系统 | |
CN111565318A (zh) | 一种基于稀疏样本的视频压缩方法 | |
CN109063666A (zh) | 基于深度可分离卷积的轻量化人脸识别方法及系统 | |
CN110766056B (zh) | 一种融合图像生成和多标签分类的异常图像检测方法 | |
CN109993269B (zh) | 基于注意力机制的单张图像人群计数方法 | |
CN110135386B (zh) | 一种基于深度学习的人体动作识别方法和系统 | |
CN111738054B (zh) | 一种基于时空自编码器网络和时空cnn的行为异常检测方法 | |
CN107633272B (zh) | 一种基于小样本下压缩感知的dcnn纹理疵点识别方法 | |
CN110321805B (zh) | 一种基于时序关系推理的动态表情识别方法 | |
CN110782458B (zh) | 一种非对称编码网络的物体图像3d语义预测分割方法 | |
CN113033276B (zh) | 一种基于转换模块的行为识别方法 | |
CN112507920B (zh) | 一种基于时间位移和注意力机制的考试异常行为识别方法 | |
CN112508121A (zh) | 一种工业机器人感知外界的方法和系统 | |
CN116645716B (zh) | 基于局部特征和全局特征的表情识别方法 | |
CN113689382A (zh) | 基于医学影像和病理图像的肿瘤术后生存期预测方法及系统 | |
CN112580458A (zh) | 人脸表情识别方法、装置、设备及存储介质 | |
CN111353447A (zh) | 一种基于图卷积网络的人体骨架行为识别方法 | |
CN111723667A (zh) | 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置 | |
CN109982071A (zh) | 基于时空复杂性度量及局部预测残差分布的hevc双压缩视频检测方法 | |
CN113935435A (zh) | 基于时空特征融合的多模态情感识别方法 | |
CN114202787A (zh) | 一种基于深度学习和二维注意力机制的多帧微表情情感识别方法 | |
CN114764941A (zh) | 一种表情识别方法、装置以及电子设备 | |
CN114529842A (zh) | 一种基于知识引导下双向注意力机制的人物交互检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |