CN109543046A

CN109543046A - 一种基于深度学习的机器人数据互操作领域本体构建方法

Info

Publication number: CN109543046A
Application number: CN201811365930.1A
Authority: CN
Inventors: 罗志勇; 于士杰; 赵杰; 范志鹏; 马国喜; 郑焕平; 罗蓉; 蔡婷
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-11-16
Filing date: 2018-11-16
Publication date: 2019-03-29

Abstract

本发明请求保护一种基于深度学习的机器人数据互操作领域本体构建方法，包括数据源的预处理，基于深度学习的机器人领域术语提取和概念抽取，构建机器人数据与概念之间的关系模型。该方法解决了机器人异构系统数据互操作的关键问题，即如何解决异构数据源语义异构问题。该方法主要应用于制造业异构系统中的数据互操作性，完成对机器人领域本体的半自动化构建，是对国内现有本体理论和应用研究的完善，填补了本体理论在工业机器人领域的应用研究盲点，该方法与传统人工方法相比，本体构建过程更加方便快捷，并且适用于大量数据源的本体构建。

Description

一种基于深度学习的机器人数据互操作领域本体构建方法

技术领域

本发明属于制造业信息化领域的本体构建技术，属于机器人数据互操作方面，尤其涉及一种基于深度学习的机器人数据互操作领域本体构建方法。

背景技术

随着制造业信息化时代的到来，信息共享成为信息化发展的一项重要技术。然而大部分的制造业设备只是为特定的工作环境而开发的，一些更多、更加复杂的任务需要多个设备的协作才能完成。工业现场中各种设备协同工作的场景应用很多，但是我国在此方面的技术基础并不雄厚，随着技术的不断发展，人们对数据共享提出了更高的要求，希望能够消除异构数据之间的冲突和异常。这些数据资源由于软硬件平台各异、数据模型各异而形成了异构数据，使各数据间的互操作变得复杂、困难，使它们成为信息孤岛。为了更好地利用工业网络上浩如烟海的信息，以及不造成企业应用系统的重复建设和数据资源的浪费，人们迫切需要重用和共享这些地理上分布、管理上自治、模式上异构的异构数据。

异构数据互操作其目的是在数据源逻辑层上建立统一的访问界面，实现异构数据的分布式共享，使用户不必考虑数据模型的异构性、数据抽取、数据合成等问题，用户只需指定他们想要的数据，而不必描述怎样得到数据。这样就减轻了用户寻找相关数据源、和每个数据源交互然后返回结果的负担。从而为企业综合应用系统提供统一的、安全的、快捷的互访、信息查询、数据挖掘和决策支持服务。为了满足这个需求条件，最终的数据必须保证一定的集成性、完整性、一致性和访问安全性。

目前的数据互操作中所解决的问题大部分都是结构异构的问题，采用GAV(Global-as-view)或者LAV(Local-as-view)的模式进行数据互操作，能够将不同结构的数据以统一模式进行互操作，以方便信息的查询处理。但是，其仅仅解决了异构数据中的结构异构问题，并没有解决语义异构问题。数据中的语义异构，需要一种能够明确表达数据语义的方式来进行语义描述。如何达成语义的明确表达，达成理解的共识，正是许多科研机构和科研人员极力想解决的问题。近十年来，本体(Ontology)和其相关的应用领域获得广泛的关注。本体能够明确表示一定领域的概念和概念之间的关系，利用这一特点，基于本体的数据互操作能够很好的解决这一问题。

基于本体的异构数据互操作，首先就是要对本体进行构建。本体构建质量的高低直接影响了进一步的应用和研究效果。目前本体大都由领域专家手工编辑而成，存在工程复杂、构建速度慢等缺点。并且基于本体的异构数据互操作目前在工业机器人领域的应用很少，本方法解决了工业机器人领域数据互操作中的语义异构问题，即利用本体理论和深度学习技术对机器人领域本体进行构建，对提升我国工业机器人数据互操作水平具有促进作用。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种构建过程更加方便快捷，并且适用于大量数据源的本体构建的方法。本发明的技术方案如下：

一种基于深度学习的机器人数据互操作领域本体构建方法，其包括以下步骤：

a.机器人领域的数据源的获取和预处理步骤；

b.基于深度学习的机器人领域术语提取和概念抽取步骤；采用TF-IDF方法，选用词频、文档频率、逆文档频率、词频方差、领域一致度这5种特征作为特征向量并将其作为深度学习的网络输入，进而抽取机器人领域概念；

c.采用优化k-means聚类算法构建机器人数据与概念之间的关系模型，形成机器人领域本体。

进一步的，所述步骤a机器人领域的数据源的获取步骤，具体包括：根据包括领域相关知识、机器人领域相关文本、工业机器人相关国际标准、机器人领域相关知识报告及机器人xml数据在内的方式获取源数据，构建机器人领域词典。

3、根据权利要求2所述的基于深度学习的机器人数据互操作领域本体构建方法，其特征在于，所述步骤a预处理步骤具体包括：首先对机器人领域词典进行分词，将文本数据切分成单个词语，然后对分词之后的文本进行降噪处理，停用词过滤。

进一步的，所述步骤b采用TF-IDF方法，选用TF、DF、IDF、TV、DC这5种特征作为特征向量并将其作为深度学习的网络输入，进而抽取机器人领域概念，具体包括：

计算TF、DF、IDF、TV、DC这5种特征向量的值并将其作为深度学习的训练输入，根据深度学习算法，首先训练一部分样本数据得到分类函数，然后将剩下的数据作为测试数据，根据前面训练好的函数来判断候选概念是否属于机器人领域概念，不断调整网络的权值及阈值，训练出神经网络模型；最后利用训练好的网络抽取机器人领域概念，通过人工审核的方式排除抽取出的错误的机器人领域概念，得到机器人领域概念集。

进一步的，所述深度学习的网络采用深度信念网络(deep belief network，DBN)构建，通过构建具有多个隐层的模型来组合低层特征形成更加抽象的高层特征来挖掘数据特征实现概念分类，假设S是一个系统，它包含有n层(S₁,S₂,…,S_n)，若输入用I表示，输出用O表示，则可表示为:I≥S₂≥S₃≥…≥S_n≥O，不断调整系统中的参数，使得系统的输出仍然是输入I，那么我们就可以自动得到输入I的层次特征，即S₁,S₂,…,S_n。DBN是由一层层的RBM(restricted boltzmann machine，受限玻尔兹曼机)不断堆叠而成的。RBM网络共有2层，其中第一层称为可视层，一般来说是输入层，另一层是隐含层，也就是特征提取层。该网络可视层和隐层中神经元彼此互联，隐层单元被训练去捕捉可视层单元所表现出来的数据的高阶相关性，在训练DBN时，采用贪婪法逐层训练每一层的RBM。即前一层的RBM训练完成后，将其结果作为下一层RBM的输入来训练该层RBM，以此类推训练完若干RBM，从而构建完整的DBN网络。

进一步的，所述步骤c中采用k-means聚类算法构建机器人领域概念之间的分类关系模型，形成机器人领域OWL本体，具体包括：

1)在空间R^d上的数据集X＝{x₁,x₂,…,x_n}中的每一个数据点x_i，其中x₁∈X，计算其在给定邻域半径δ内的最近邻集合G_k(x_i)，即d(x_i,x_j)≤δ且x_j∈G_k(x_i)，其中k为x_i在邻域范围内最近邻数据点个数；

2)计算数据点x_i的密度函数值:

式中：x_j∈G_k(x_i)，当x_i在邻域范围内的最近邻点x_ij的密度值小于平均密度值时，即满足下列条件

则将数据点x_ij视为稀疏数据并剔除掉，从而得到密集点集合X′；

3)从密集点集合X′中，选取密度值最大的点Density_max(x)，为第一个初始聚类中心C₁；然后取距离C₁最远的数据点作为第二个聚类中心C₂；对于第s个中心点的选取则是满足如下条件的数据点x_s且x_s∈X′，取满足x_s与以选中的聚类中心C_s的距离值最小的数据点作为中心点，即max(d_min(x_s,C₁),d_min(x_s,C₂),…,d_min(x_s,C_s-1))其中3≤s≤k，直到最终得到所需k个初始聚类中心点，并代表k个类簇ω_l,l∈(1,…,k)；

4)计算数据集X中数据点x_i至各个聚类中心点的欧氏距离

式中：i＝1,2,…n且j＝1,2,…k；如果d(x_i,C_j)为最小距离值，则将数据点x_i归入中心点C_j所代表的数据簇ω_j中，重复该过程直到最终聚类完成，从而得到机器人领域本体概念关系模型以及机器人领域本体；

本发明的优点及有益效果如下：

本发明针对传统本体构建过程中存在的不足，提出了一种基于深度学习的机器人数据互操作领域本体构建方法，该构造方法通过对机器人领域数据进行抓取、清洗以及预处理，抽取概念集内的文本特征，通过深度信念网络的强大的学习能力，从高维的原始特征中提取高度可区分的低维特征，不仅能够更全面的考虑到文本信息量，而且能够进行快速分类。采用TF-IDF方法计算文本特征值，利用深度信念网络构造分类器进行精准分类。这种本体构建方式比传统由领域专家手工编辑方式相比，效率更高，更加方便快捷而且适用于从大量数据中提取本体。很好的克服了传统方式中工程复杂、构建速度慢等缺点。并且由于基于本体的异构数据互操作目前在工业机器人领域的应用很少，本方法解决了工业机器人领域数据互操作中的语义异构问题，即利用本体理论和深度学习技术对机器人领域本体进行构建，对提升我国工业机器人数据互操作水平具有促进作用。

附图说明

图1是本发明提供优选实施例机器人领域本体构建技术路线图；

图2深度学习概念抽取流程图；

图3 K-means聚类概念关系提取图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

如图1所示，机器人领域本体构建方法包括数据源的预处理，基于深度学习的机器人领域术语提取和概念抽取，构建机器人数据与概念之间的关系模型，具体运行流程如下：

步骤1：根据机器人领域相关知识，机器人领域相关文本，工业机器人相关国际标准，机器人领域相关知识报告，机器人xml数据等多种方式获取源数据，构建机器人领域词典。预处理首先对机器人领域词典进行分词，采用ICTCLAS汉语词法分析系统将文本数据切分成单个词语，并标注词性。经过分词后的文本中包含某些高频词汇，而他们在其它领域也会频繁出现，并不能表达特定的领域概念，称为停用词。所以需要对分词之后的文本进行降噪处理，停用词过滤得到候选语料库。

步骤2：分析候选机器人领域词汇，找出能够区别它们的一些特征，利用这些特征训练深度学习网络，根据训练好的网络抽取机器人领域词汇。采用TF-IDF方法，选用TF、DF、IDF、TV、DC这5种特征作为特征向量，计算这5种特征向量的值并将其作为深度学习的训练输入，根据深度学习算法，首先训练一部分样本数据得到分类函数，然后将剩下的数据作为测试数据，根据前面训练好的函数来判断候选概念是否属于机器人领域概念，不断调整网络的权值及阈值，训练出神经网络模型；最后利用训练好的网络抽取机器人领域概念，通过人工审核的方式排除抽取出的错误的机器人领域概念，得到机器人领域概念集。

步骤3：采用优化K-means聚类算法得到机器人领域概念之间的分类关系。首先计算R^d空间上数据集X中的每一个数据点x在给定邻域半径δ范围内的最近邻居点集合G(x)，计算数据点x的密度函数Density(x)得到其密度值，并且按照升序放入集合X′中，剔除密度值小于平均密度值的数据点，从集合X′中选出密度值最大的数据点为聚类中心点，以选定的初始聚类中心点开始聚类，这样聚类得到的机器人领域本体结果相对稳定并可以保证全局最优。

具体实施例为：一种基于深度学习的机器人数据互操作领域本体构建方法，主要包括以下步骤：

a.对机器人领域的数据源的获取和预处理；

b.基于深度学习的机器人领域术语提取和概念抽取；

c.构建机器人数据与概念之间的关系模型，形成机器人领域本体。

优选的，步骤a中机器人领域数据源根据领域相关知识，机器人领域相关文本，工业机器人相关国际标准，机器人领域相关知识报告，机器人xml数据等多种方式获取源数据，构建机器人领域词典。预处理首先对机器人领域词典进行分词，采用ICTCLAS汉语词法分析系统将文本数据切分成单个词语，并标注词性。经过分词后的文本中包含某些高频词汇，而他们在其它领域也会频繁出现，并不能表达特定的领域概念，称为停用词。所以需要对分词之后的文本进行降噪处理，停用词过滤。

优选的，步骤b采用TF-IDF方法，选用TF、DF、IDF、TV、DC这5种特征作为特征向量并将其作为深度学习的训练输入，进而抽取机器人领域概念。设训练样本集为O＝{(x₁,y₁),(x₂,y₂),…,(x_k,y_k)}，其中x_i∈R^m,y_i∈{1,0}。x_i表示能够区分样本数据的特征，k为样本数据的总和，y_i为候选概念所属的分类，设1表示机器人领域概念，0表示非机器人领域概念。机器人领域概念抽取问题转化成在R^m上寻找一个实函数f((x)，使得当x为机器人领域概念时，f((x)＝1；当x为非机器人领域概念时，f((x)＝0成立。

为了表示机器人领域概念与非机器人领域概念的差异，需要定义特征来表示。特征是一个客体或一组客体特性的抽象结果，特征是用来描述概念的。机器人领域概念具有众多特性，根据机器人领域概念共有的特性抽象出某一特征，该特征便可区分机器人领域概念与非机器人领域概念。单一的特征一般会造成对候选概念的区分度不高，为了提高候选概念的识别效果，本文采用多个特征共同描绘候选概念得到多个特征值，这样更能反映出领域词汇的差别。

领域词汇与非领域词汇最明显的特征区别是TF，因此许多领域概念抽取方面的研究工作者采用TF-IDF法。本文选用TF、DF、IDF、TV、DC这5种特征作为特征向量来抽取机器人领域概念。

为了描述方便，将机器人领域文档集表示为D＝{d₁,d₂,…,d_i,d_m,}，将背景文档集表示为B＝{b₁,b₂,…,b_j,b_n,}，d_i和b_j分别表示与机器人相关的文本和与机器人不相关的文本。

1)词频(TF)

TF是区分候选词汇是否属于领域内词汇最明显的特征，本文表示词语在机器人领域文档集中的频率，其计算公式如下：

其中，表示候选概念t在d_i中出现的总数。词频可以表示机器人领域词汇与非领域词汇的区别。本文中，如果某个候选概念经常出现在机器人相关的文档中，也就是说它有很高的TF值，那么它很可能是机器人领域概念；相反，若该候选概念的TF值不高，则它往往不属于机器人领域。

2)文档频率(DF)

DF是衡量某个候选概念是否属于领域词汇的又一个重要指标，本文表示机器人文档中有多少篇文档出现了某个候选概念。其计算公式如下：

根据多次实验论证，我们可以发现机器人领域概念不仅TF、DF值很高，并且其分布也极其广泛，几乎出现在所有的机器人领域文档中。如果一个词语只出现在少数几篇机器人领域文档中，即DF较低，那么它很可能不是机器人领域概念；反之，则很可能是机器人领域概念。因此，本文将文档频率作为特征之一。

3)逆文档频率(IDF)

IDF是衡量词语重要性的标志，表示背景文档集中的文档总数与背景文档集中出现该词语的文档数的比值的对数。其计算公式如下：

式中，n表示背景文档集中的文档总数。IDF反映了在背景文档集中有多少篇文档出现了候选概念。如果某个候选概念的IDF值很低，那么它有很大的可能性不是机器人领域词汇；反之，那么它有很大的可能性是机器人领域词汇。

4)词频方差(TV)

本文中，TV表示候选概念在机器人领域文档集中次数的方差。其计算公式如下：

式中，表示概念t在机器人领域文档集D中词语频率的均值。方差反映了某个候选概念在机器人领域文档集中的波动情况，方差越大，候选词汇在文档中的波动越剧烈，越有可能不是机器人领域概念，反之，则很有可能是机器人领域概念。

5)领域一致度(DC)

领域一致度从另一个层面反映了候选概念的特征，本文中领域一致度表示候选概念在机器人文档中的分布。其计算公式如下：

其中P(t,d_i)为候选概念t出现在机器人领域文档d_i中的可能性。从上述公式可知，若某个候选概念的DC值越高，那么该候选概念在机器人领域文档集中分布会越平均，则该候选概念很可能是机器人领域概念。

首先对前面预处理后的语料库进行人工标记，将机器人领域词汇即正样本标记为[1,0]，将非机器人领域词汇即负样本标记为[0,1]；然后根据前面提取到的TF、DF、IDF、TV及DC这5种特征组成的特征向量作为深度学习的输入，标记后的样本向量作为深度学习的输出，学习特征向量和标记样本之间的关系。

不断调整网络的权值及阈值，训练出神经网络模型；最后利用训练好的网络抽取机器人领域概念，通过人工审核的方式排除抽取出的错误的机器人领域概念，得到机器人领域概念集。该算法总体流程如图2所示。

所述深度学习的网络采用深度信念网络(deep belief network，DBN)构建，通过构建具有多个隐层的模型来组合低层特征形成更加抽象的高层特征来挖掘数据特征实现概念分类，假设S是一个系统，它包含有n层(S₁,S₂,…,S_n)，若输入用I表示，输出用O表示，则可表示为:I≥S₂≥S₃≥…≥S_n≥O，不断调整系统中的参数，使得系统的输出仍然是输入I，那么我们就可以自动得到输入I的层次特征，即S₁,S₂,…,S_n。DBN是由一层层的RBM(restricted boltzmann machine，受限玻尔兹曼机)不断堆叠而成的。RBM网络共有2层，其中第一层称为可视层，一般来说是输入层，另一层是隐含层，也就是特征提取层。该网络可视层和隐层中神经元彼此互联，隐层单元被训练去捕捉可视层单元所表现出来的数据的高阶相关性，在训练DBN时，采用贪婪法逐层训练每一层的RBM。即前一层的RBM训练完成后，将其结果作为下一层RBM的输入来训练该层RBM，以此类推训练完若干RBM，从而构建完整的DBN网络。

优选的，步骤c中采用k-means聚类算法构建机器人领域概念之间的分类关系，形成机器人领域OWL本体。

k-means聚类算法是一种基于距离的聚类算法，若2个概念的距离较近，则他们的相似度就较大。它将机器人领域概念集合划分成K个不同的簇(簇是由距离靠近的概念组成的)，通过用分配给簇的点的平均值(k-均值)作为簇中心来简化计算。该算法突出的优点是聚类速度快、容易实现，可以用来处理较大的数据集。K-means算法的基本思想是：首先，计算R^d空间上数据集X中的每一个数据点x在给定邻域半径δ范围内的最近邻居点集合G(x)，计算数据点x的密度函数Density(x)得到其密度值，并且按照升序放入集合X′中，剔除密度值小于平均密度值的数据点，从集合X′中选出密度值最大的数据点为聚类中心点，以选定的初始聚类中心点开始聚类，这样聚类得出的机器人领域本体结果相对稳定并可以保证全局最优。机器人领域概念关系提取的具体过程如图3所示。

K-means聚类首先根据领域概念集合中概念的分布密度确定聚类数K，然后对概念集合中的概念进行相似度计算，在迭代的过程中，把概念聚集到距离最近也就是最相似的类中，直到满足聚类的结束条件，完成概念的分类。最终得到的结果中，类与类之间的概念相似度低，而类内部概念之间的相似度高。算法的关键步骤为：构建概念向量矩阵、概念相似度计算、K-means聚类提取概念关系。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于深度学习的机器人数据互操作领域本体构建方法，其特征在于，包括以下步骤：

a.机器人领域的数据源的获取和预处理步骤；

c.采用改进的k-means聚类算法构建机器人数据概念之间的关系模型，形成机器人领域本体，由于k-means聚类算法存在初始聚类中心的随机选择可能使聚类效果受到离群数据的影响，造成聚类结果的局部最优而非全局最优，所以对此作出改进，计算R^d空间上数据集X中的每一个数据点x在给定邻域半径δ范围内的最近邻居点集合G(x)，计算数据点x的密度函数Density(x)得到其密度值，并且按照升序放入集合X′中，剔除密度值小于平均密度值的数据点，从集合X′中选出密度值最大的数据点为聚类中心点，以选定的初始聚类中心点开始聚类，这样聚类结果相对稳定并可以保证全局最优。

2.根据权利要求1所述的基于深度学习的机器人数据互操作领域本体构建方法，其特征在于，所述步骤a机器人领域的数据源的获取步骤，具体包括：根据包括领域相关知识、机器人领域相关文本、工业机器人相关国际标准、机器人领域相关知识报告及机器人xml数据在内的方式获取源数据，构建机器人领域词典。

3.根据权利要求2所述的基于深度学习的机器人数据互操作领域本体构建方法，其特征在于，所述步骤a预处理步骤具体包括：首先对机器人领域词典进行分词，将文本数据切分成单个词语，然后对分词之后的文本进行降噪处理，停用词过滤。

4.根据权利要求2所述的基于深度学习的机器人数据互操作领域本体构建方法，其特征在于，所述步骤b采用TF-IDF方法，选用TF、DF、IDF、TV、DC这5种特征作为特征向量并将其作为深度学习的网络输入，进而抽取机器人领域概念，具体包括：

5.根据权利要求4所述的基于深度学习的机器人数据互操作领域本体构建方法，其特征在于，所述深度学习的模型采用深度信念网络DBN构建，通过构建具有多个隐层的模型来组合低层特征形成更加抽象的高层特征来挖掘数据特征实现概念分类，假设S是一个系统，它包含有n层(S₁,S₂,…,S_n)，若输入用I表示，输出用O表示，则可表示为:I≥S₂≥S₃≥…≥S_n≥O，不断调整系统中的参数，使得系统的输出仍然是输入I，就可以自动得到输入I的层次特征，即S₁,S₂,…,S_n，DBN是由一层层的RBM受限玻尔兹曼机不断堆叠而成的，RBM网络共有2层，其中第一层称为可视层，一般来说是输入层，另一层是隐含层，也就是特征提取层，该网络可视层和隐层中神经元彼此互联，隐层单元被训练去捕捉可视层单元所表现出来的数据的高阶相关性，在训练DBN时，采用贪婪法逐层训练每一层的RBM，即前一层的RBM训练完成后，将其结果作为下一层RBM的输入来训练该层RBM，以此类推训练完若干RBM，从而构建完整的DBN网络。

6.根据权利要求5所述的基于深度学习的机器人数据互操作领域本体构建方法，其特征在于，所述步骤c中采用优化k-means聚类算法构建机器人领域概念之间的分类关系模型，形成机器人领域OWL本体，具体包括：

2)计算数据点x_i的密度函数值:

4)计算数据集X中数据点x_i至各个聚类中心点的欧氏距离

式中：i＝1,2,…n且j＝1,2,…k；如果d(x_i,C_j)为最小距离值，则将数据点x_i归入中心点C_j所代表的数据簇ω_j中，重复该过程直到最终聚类完成，从而得到机器人领域本体概念关系模型以及机器人领域本体。