CN110222734B

CN110222734B - 贝叶斯网络学习方法、智能设备及存储装置

Info

Publication number: CN110222734B
Application number: CN201910415385.0A
Authority: CN
Inventors: 欧勇盛; 王志扬; 徐升; 熊荣; 韩伟超; 江国来; 段江哗; 李�浩; 吴新宇; 冯伟
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2021-11-23
Anticipated expiration: 2039-05-17
Also published as: CN110222734A

Abstract

本申请涉及人工智能领域，公开了一种贝叶斯网络学习方法、智能设备及存储装置，该方法包括：获取训练样本，所述训练样本中包括连续节点数据；将所述连续节点数据进行离散化处理，得到离散样本数据；利用所述离散样本数据进行结构学习，得到贝叶斯网络的拓扑；利用所述训练样本，结合所述贝叶斯网络的拓扑进行参数学习，得到所述贝叶斯网络的参数。通过上述方式，本申请能够平衡训练过程的速度和准确性。

Description

贝叶斯网络学习方法、智能设备及存储装置

技术领域

本申请涉及人工智能技术领域，特别是涉及一种贝叶斯网络方法、智能设备及存储装置。

背景技术

贝叶斯网络，也被称为信念网络(Belief Network)，是一种典型的“概率图模型”(Probabilistic Graphical Model，PGM)，是一种用图形化的方式来表达事件之间的相互依赖关系的方法。传统的贝叶斯网络一般是离散型的，节点均为离散值，即节点的可能取值是有限的几个确定值，如0、1、2等。连续型的贝叶斯网络，节点值是连续的。混合型的贝叶斯网络，同时包含离散节点和连续节点。根据训练样本确定贝叶斯网络的结构和参数的过程，被称为贝叶斯网络的学习。对于离散型的贝叶斯网络，其结构和节点参数均可以用较为成熟的算法进行求解。但对于连续型的贝叶斯网络或混合型的贝叶斯网络，现有成熟的算法都不能直接使用。

为了解决连续节点贝叶斯网络难以进行结构学习和参数学习的问题，通常选择的方法是将连续节点变成离散节点，即可以使用通用的方法进行结构学习、参数学习以及推理。然而，将连续数据离散化的过程会损失数据所包含的部分信息，并且在使用建立好的网络进行推理时，很可能输入新的、在学习网络结构和参数中没有涵盖到的离散样本空间的样本，使得推理过程较为麻烦。另一种解决方法是使用数学模型对连续节点进行建模后进行结构和参数学习，这种方法则会使得结构学习过程变的复杂，训练过程速度较慢。

发明内容

本申请主要解决的技术问题是提供一种贝叶斯网络学习方法、智能设备及存储装置，能够保证参数学习数据的完整性同时简化结构学习过程，平衡了训练过程的速度和准确性。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种贝叶斯网络学习方法，包括：获取训练样本，所述训练样本中包括连续节点数据；将所述连续节点数据进行离散化处理，得到离散样本数据；利用所述离散样本数据进行结构学习，得到贝叶斯网络的拓扑；利用所述训练样本，结合所述贝叶斯网络的拓扑进行参数学习，得到所述贝叶斯网络的参数。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种智能设备，包括：相互连接的存储器和处理器；所述存储器用于存储所述处理器执行所需的程序指令和/或数据；所述处理器用于执行程序指令以实现如上所述的方法。

为解决上述技术问题，本申请采用的再一个技术方案是：提供一种存储装置，内部存储有程序指令，该程序指令被执行以实现如上所述的方法。

本申请的有益效果是：区别于现有技术的情况，本申请的实施例中，通过将训练样本中的连续节点数据进行离散化处理，得到离散样本数据，然后利用离散样本数据进行结构学习，得到贝叶斯网络的拓扑，再利用带有连续节点数据的训练样本，结合贝叶斯网络的拓扑进行参数学习，得到贝叶斯网络的参数，从而在结构学习中将连续节点数据进行离散化，简化结构学习过程，减轻训练复杂度，而在参数学习时仍然使用连续节点数据，保证参数学习准确性，由此平衡了训练过程的速度和准确性。

附图说明

图1是本申请一种贝叶斯网络学习方法第一实施例的流程示意图；

图2是一个简单的四个变量的贝叶斯网络示意图；

图3是本申请一种贝叶斯网络学习方法第二实施例的流程示意图；

图4是图3中步骤S142的具体流程示意图；

图5是图3中步骤S144的具体流程示意图；

图6是本申请智能设备一实施例的结构示意图；

图7是本申请存储装置一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

贝叶斯网络，也被称为信念网络(Belief Network)，是一种典型的“概率图模型”(Probabilistic Graphical Model，PGM)，是一种用图形化的方式来表达事件之间的相互依赖关系的方法。根据历史数据或经验给定贝叶斯网络的参数表和结构之后，贝叶斯网络便得到了完全的学习，利用该贝叶斯网络即可以根据某事件实际发生的情况推断未发生事件的概率。贝叶斯网络是不确定知识表达和推理领域最有效的理论模型之一，被广泛应用于人工智能领域，例如应用于机器人任务学习推理中。

贝叶斯网络应用前，需要进行结构和参数学习。针对贝叶斯网络学习过程，本申请提出一种贝叶斯网络学习方法，可以平衡训练过程的速度和准确性，得到具有连续节点的贝叶斯网络。

如图1所示，本申请一种贝叶斯网络学习方法第一实施例包括：

S11：获取训练样本，该训练样本中包括连续节点数据。

该训练样本是贝叶斯网络进行学习所需的训练数据，其包括贝叶斯网络中多个节点的数据，例如包括借助“可供性”(Affordance)概念建立的物体、动作和效应三种类型的数据。其中，“可供性”简单来说是物品提供给人或动物的行为可能性，具体指物体、动作和效应三者之间的相互关系。

其中，该训练样本可以只包括连续节点数据，也可以既包括连续节点数据也包括离散节点数据。连续节点是节点值为连续值的节点，例如节点O₁表示杯子的高度，其节点值为连续的(实际的高度值，以毫米为单位)。离散节点是节点值为离散值的节点，例如节点E₁为杯中水的状态变化，其节点值是离散的(如“变空”、“变满”、“不变”)。

具体地，在一个应用例中，获取训练样本时，可以采用智能设备，例如机器人等，直接采集人类示教数据作为训练样本，例如让示教者完成某个任务，然后记录下任务中涉及到的节点数据，包括物体

动作

和效应

其中n_o，n_a和n_e分别为物体、动作和效应的总个数。

在其他应用例中，该训练样本也可以是直接接收用户输入的样本数据，例如人类示教之后将记录的示教数据直接发送给机器人。或者，智能设备通过外部设备获取训练样本，例如机器人可以利用图像获取装置获取用户示教过程的图像，并从示教过程的图像中识别得到训练样本等。

S12：将连续节点数据进行离散化处理，得到离散样本数据。

其中，该离散样本数据包括连续节点数据离散化处理后得到的离散节点数据。若训练样本数据中包括离散节点数据，则该离散样本数据还包括训练样本数据中包括的该离散节点数据。

由于现有成熟的贝叶斯网络的结构学习方法并不适用于连续节点，为了简化结构学习过程，减轻训练过程的复杂度，可以先将连续节点数据进行离散化处理，得到离散数据后再进行结构学习。

具体地，离散化方法会影响结构学习的准确度，在做离散化处理时，需要根据节点数据的具体情况选择离散化方法。对于数据线性可分且类别数量明确的连续节点数据，可以使用简单的线性模型，例如支持向量机来进行离散化处理。对于数据类别数量不明确的连续节点数据，可以使用聚类方法进行离散化。

S13：利用离散样本数据进行结构学习，得到贝叶斯网络的拓扑。

若贝叶斯网络的结构是未知的，则可以通过观测数据学到贝叶斯网络拓扑，即贝叶斯网络的结构学习。

具体地，针对较简单的任务，可以根据人类经验直接给出贝叶斯网络模型中各节点之间的连接关系，即直接给出贝叶斯网络的拓扑结构。而针对较复杂的任务，节点数量过多、关系较为复杂时，可以先根据获取的离散样本数据学习贝叶斯网络的拓扑结构(即各节点之间的连接关系)。

具体地，在获取得到该离散样本数据后，可以使用预先指定节点的顺序的K2算法，学习贝叶斯网络的结构，例如学习物体节点、动作节点和效应节点之间的连接关系。当然，在进行结构学习时，也可以采用马尔科夫链蒙特卡罗(Markov Chain Monte Carlo，MCMC)算法等其他方法。优选地，发明人发现采用K2算法学习贝叶斯网络的结构其准确性更高。

S14：利用训练样本，结合贝叶斯网络的拓扑进行参数学习，得到贝叶斯网络的参数。

由于离散化处理会损失连续节点的部分信息，直接使用离散化处理后的离散节点数据进行参数学习会降低贝叶斯网络参数学习的准确性。因此，本实施例中在进行贝叶斯网络的参数学习时，采用原始的包括连续节点数据的训练样本进行参数学习，或者将离散化处理后的节点数据恢复为连续节点数据后，与训练样本中的离散节点数据一起，进行参数学习，从而可以保证参数学习时数据的完整性，提高参数学习的准确性。

具体地，当学习得到贝叶斯网络的拓扑结构后，即可以根据训练样本中各节点变化过程的数据，计算或估算各节点的边缘概率分布、条件概率以及联合概率等，以得到各节点的概率分布，从而得到该贝叶斯网络的参数。其中，当训练样本中包括贝叶斯网络所需的所有数据，在已知结构的前提下，完全可以通过手动计数的方式计算出贝叶斯网络的参数。但对于节点较多、结构较复杂的网络，手动计算工作量过大，此时可以利用“最大似然估计”和“贝叶斯估计”两类基本的参数估计方法，对贝叶斯网络的参数进行估计。

一般地，一个贝叶斯网络可以用BN＝(G,θ)表示，其中，G表示有向无环图，θ为参数。G定义为G＝(N,E)，其中N是该有向无环图中的节点集，E是节点之间的边集。参数集θ中定义了贝叶斯网络中每个节点的概率分布。该有向无环图中每一个节点i都代表一个变量x_i。贝叶斯网络中的变量集可以表示为X＝{x₁,x₂,...,x_n}，该网络的联合概率分布可以表示为

其中n是贝叶斯网络中节点的个数，π_i是节点x_i的父节点集。例如针对图2所示的贝叶斯网络，从训练样本中估算得到变量x₁和x₃的边缘概率分布P(x₁)和P(x₃)，以及x₂的条件概率分布P(x₂|x₁,x₃)后，可以利用如下概率计算公式计算变量x₁，x₂和x₃同时发生的联合概率分布P(x₁,x₂,x₃)＝P(x₁)P(x₃)P(x₂|x₁,x₃)。

当计算得到该贝叶斯网络中每个节点的概率分布情况后，该贝叶斯网络即学习完成，之后即可以将该贝叶斯网络应用于机器人推理等场景。

本申请的贝叶斯网络可以根据不同需求所提供的不同训练样本数据建立不同的网络结构和参数，从而可以满足不同用户的需求，得到个性化的贝叶斯网络，适用于家用服务机器人等多种应用场景。

如图3所示，本申请一种贝叶斯网络学习方法第二实施例是在本申请一种贝叶斯网络学习方法第一实施例的基础上，进一步限定步骤S14包括：

S141：判断当前进行参数学习的节点是否为连续节点。

由于连续节点和离散节点进行参数学习采用的方法不同，对于连续节点的参数学习不能采用常用的贝叶斯网络学习方法，因此在进行参数学习时，可以先判断节点是否为连续节点，若该节点为连续节点，则执行步骤S142，否则执行步骤S143。

具体地，在判断节点是否为连续节点时，可以判断节点的节点值是否为连续的，若节点值为连续的，则该节点为连续节点。例如，当前进行参数学习的节点表示用户的身高，其节点值为人体实际身高值，是连续数值，即该节点为连续节点；而若节点表示用户的性别，其节点值为男或女，是离散的，则该节点是离散节点。

S142：采用高斯混合模型模拟该节点的边缘概率分布或条件概率分布，并进行高斯混合模型的参数学习，以得到该节点的概率分布。

高斯混合模型(Gaussian mixture model，简称GMM)是用高斯概率密度函数(二维时也称为：正态分布曲线)精确的量化事物，将一个事物分解为若干基于高斯概率密度函数行程的模型。针对连续节点，采用高斯混合模型可以较好的模拟其概率分布。

当一个节点没有父节点，即一个节点不依赖于其他节点，但该节点通常可以指向其他节点时，该节点称为根节点，而其他具有一个或多个父节点的节点，则称为非根节点。例如图2中节点x₁和节点x₃为根节点，节点x₂和节点x₄为非根节点，且节点x₁为节点x₂的父节点，节点x₂为节点x₁的子节点。

在进行参数学习时，如果一个节点没有父节点，即该节点为根节点，该节点的边缘概率分布需要指定。如果一个节点有一个或多个父节点，该节点为非根节点，该节点的条件概率分布需要被给出。因此，针对根节点，建立高斯混合模型模拟该节点的边缘概率分布；针对非根节点，建立高斯混合模型模拟该节点的条件概率分布。然后，对建立的高斯混合模型进行参数学习，例如采用梯度下降法、EM(Expectation Maximization，最大期望)算法或Gibbs(吉布斯)采样进行参数学习，得到高斯混合模型的参数(包括期望和方差或协方差)，从而得到根节点的边缘概率分布和非根节点的条件概率分布。最后根据概率计算公式(如全概率公式等)，可以计算得到该节点与其他节点的联合概率分布等，从而得到该节点的概率分布。

可选地，针对根节点，其边缘概率分布可以采用第一高斯混合模型模拟，针对非根节点，根据其是否带有连续节点，可以采用第二或第三高斯混合模型模拟其条件概率分布。具体如图4所示，步骤S142包括：

S1421：判断该节点是否为根节点。

当进行贝叶斯网络的参数学习时，由于子节点的概率分布依赖于父节点的概率分布，而某些节点没有父节点(即根节点)，此时需要计算该根节点的概率分布后，再计算该节点的子节点的概率分布。因此，进行节点的参数学习时，可以先判断该节点是否为根节点。

具体地，由于贝叶斯网络的结构已经确定，在进行节点的参数学习前，可以先根据该贝叶斯网络的拓扑结构，获取该节点与其他节点的连接关系，若该节点只指向其他节点，即该节点只有子节点时，该节点即为根节点，否则为非根节点。若该节点为根节点，则执行步骤S1422，否则执行步骤S1423。

S1422：采用第一高斯混合模型模拟根节点的边缘概率分布，并进行第一高斯混合模型的参数学习，以得到根节点的边缘概率分布。

其中，贝叶斯网络的连续节点可以是一维的，也可以是多维的。连续节点的维度或维数指节点或变量独立参数的数目。例如，某节点表示物体在平面上的坐标位置，其是一个二维变量，可以用x和y两个坐标值来描述这个坐标位置；而另一节点表示物体在空间中的坐标位置，则是一个三维变量，可以用x、y和z三个坐标值来描述。

由于节点的维度会影响其采用的高斯混合模型，因此，在对连续节点进行参数学习时，可以判断该连续节点是否为多维节点，当节点为多维节点时，可以采用一个多元高斯混合模型估计其概率，并进行多元高斯混合模型的参数学习，以得到该连续节点的概率分布。而当节点为一维节点时，直接采用一个一元高斯混合模型估计其概率并进行参数学习，则可以得到该节点的概率分布。

具体地，针对一维根节点，可以采用如下公式(1)所示的第一高斯混合模型模拟该节点的边缘概率分布：

其中，p(C)为该节点C的边缘概率分布，K是总的高斯分量的个数，

是概率密度函数第k个高斯分量的概率密度函数。μ_k和

分别是第k个高斯分量的期望和方差。λ_k是第k个高斯分量的权值，

针对多维根节点，可以采用如下公式(2)所示的第一高斯混合模型模拟该节点的边缘概率分布：

其中，μ_k和∑_k分别是第k个高斯分量的期望和协方差矩阵。

当经过步骤S1421判断该节点为非根节点时，由于非根节点必定具有父节点，而子节点的概率受父节点影响，而父节点的类型会影响其子节点采用的高斯混合模型。因此，在对子节点进行参数学习时，可以先判断其带有的父节点的类型。

S1423：判断该节点是否仅带有连续父节点。

具体地，由于贝叶斯网络的拓扑结构已经学习完成，在进行节点参数学习时，可以根据贝叶斯网络的拓扑结构，获取指向该子节点的父节点，然后根据父节点的节点值连续与否，判断其所有父节点是否为连续节点，若该节点的所有父节点均为连续节点，则判定该节点仅带有连续父节点。若该节点仅带有连续父节点，则执行步骤S1424～S1425，否则执行步骤S1426。

S1424：采用高斯混合模型模拟该节点的父节点的边缘概率分布以及该节点与其父节点的联合概率分布，并计算该边缘概率分布和该联合概率分布的比值，得到第二高斯混合模型。

S1425：进行第二高斯混合模型的参数学习，以得到该节点的条件概率分布。

具体地，假设连续节点C有一个或多个连续父节点C_Pa，首先利用与第一高斯混合模型类似的高斯混合模型模拟出该节点和它的父节点的联合概率分布以及其父节点的边缘概率分布，然后根据如下公式(3)计算得到该边缘概率分布和该联合概率分布的比值，即得到利用第二高斯混合模型模拟的该节点C的条件概率分布。其中当该连续节点C有多个连续父节点C_Pa时，其父节点的边缘概率分布变换为父节点之间的联合概率分布。

p(C|C_Pa)＝p(C,C_Pa)/p(C_Pa) (3)

其中，p(C_Pa)是父节点C_Pa的边缘概率分布，p(C,C_Pa)是节点C和其父节点C_Pa的联合概率分布。而p(C_Pa)和p(C,C_Pa)可以用如公式(2)类似的多元高斯混合模型。

S1426：判断该节点是否仅带有离散父节点。

当经过步骤S1423判断该节点不是仅带有连续节点时，可以继续判断该节点是否仅带有离散父节点，即判断该节点的父节点的节点值是否全为离散的，若该节点仅带有离散父节点，则执行步骤S1427，否则执行步骤S1428。

S1427：采用第三高斯混合模型模拟该节点的条件概率分布，并进行第三高斯混合模型的参数学习，以得到节点的条件概率分布。

具体地，采用第三高斯混合模型模拟该节点的条件概率分布过程是对每一个离散父节点的可能取值，都用高斯混合模型拟合一遍，即首先将父节点的每一种可能的取值情况罗列出来，然后对应每一种取值情况用一个高斯混合模型拟合一下概率，然后对每个拟合的概率模型进行参数学习，即可得到该节点的条件概率分布。

假设一维连续节点C有一个父节点D_Pa，则该一维节点的条件概率密度可以用如下公式(4)所示的第三高斯混合模型来近似：

其中，i＝1,...,r表示离散父节点D_Pa的所有可取值的其中一个，r是D_Pa的可取值的个数。μ_i,k、

和λ_i,k分别是节点D_Pa取第i个可取值时的第k个高斯分量的参数。K_i是节点D_Pa取第i个可取值时的高斯分量的总个数。

更进一步地，如果节点C是一个多元连续节点，并且它的父节点不止一个，则可用如下公式(5)所示的第三多元高斯混合模型来模拟该节点的条件概率分布：

其中，

是离散父节点的总个数，q是这些离散节点的其中一组可能取值，q＝1,...,Q。如果第j个离散父节点有r_j个可取值，那么总的高斯混合模型的个数应该是

当经过步骤S1423判定该节点不是仅带有连续节点，且经过步骤S1426判定该节点不是仅带有离散节点时，则表明该节点既带有离散父节点，也带有连续父节点。当然，在其他实施例中，也可以先判断该节点是否同时带有连续父节点和离散父节点。

S1428：对应每个离散节点的每个可能取值，采用第二高斯混合模型模拟该节点的条件概率分布，并进行第二高斯混合模型的参数学习，以得到该节点的条件概率分布。

具体地，针对节点同时带有连续父节点和离散父节点的情况，在进行参数学习时，可以结合步骤S1425和S1427的方法，根据如下公式(6)计算该节点的条件概率分布：

p(C|C_Pa,D_Pa)＝p(C,C_Pa|D_Pa)/p(C_Pa|D_Pa) (6)

其中，在利用上述公式(6)计算该节点的条件概率分布时，可以首先列举离散父节点的所有可能的取值，针对每一种取值，利用如公式(3)的方法计算一遍该节点的连续父节点的边缘概率分布以及该节点与其连续父节点的联合概率分布的比值。其中，连续父节点的边缘概率分布以及该节点与其连续父节点的联合概率分布可以采用与公式(2)类似的多元高斯混合模型进行模拟。

上述S1422～S1430的顺序仅作为示例，在其他实施例中，其顺序也可以根据实际情况进行调整，也可以同时判断节点所带的父节点的类型。

当经过步骤S141判定当前进行参数学习的节点为离散节点时，由于该离散节点可能带有连续父节点，对此类型的节点进行参数学习时，同样不适合采用现有离散节点的参数学习方法，因此对离散节点进行参数学习时，需要判断该节点是否带有连续父节点。

S143：判断该节点是否带有连续父节点。

具体地，根据该贝叶斯网络的拓扑结构，可以获取该节点的所有父节点，然后可以判断其父节点的节点值是否为连续的，若其父节点中存在节点值为连续的节点，则判定该节点带有连续父节点。若该节点带有连续父节点，则执行步骤S144，否则执行步骤S145。

S144：采用归一化指数函数模拟该节点的条件概率分布，并进行归一化指数函数的参数学习，以得到该节点的概率分布。

具体地，如果一个离散节点D带有一个或多个连续的父节点C_Pa，那么该离散节点的条件概率分布可以用如下公式(7)所示的Softmax函数(归一化指数函数)来拟合：

其中θ是Softmax函数的一组参数，i为离散节点D的可能取值，c_Pa为连续父节点C_Pa的可能取值，j＝1,...,r表示离散节点D的第j个可能取值，r为离散节点D总的可能取值的个数。

进一步地，对归一化指数函数进行参数学习，即学习θ值，可以通过优化其代价函数得到最优θ值。具体如图5所示，步骤S144包括：

S1441：获取该归一化指数函数的参数的代价函数。

其中，该代价函数是该归一化指数函数关于其参数θ的梯度求导函数。

具体地，该代价函数如下公式(8)所示：

其中，J(θ)是该代价函数，M是样本总数，d是连续父节点c_Pa的维度，r是标签的总个数，也即离散节点D的大小，λ是一个正则化系数。

S1442：对该代价函数做关于其参数的最小化处理，得到该归一化指数的参数的最优值，代入该归一化指数函数，得到该节点的条件概率分布。

具体地，通过对J(θ)做关于θ的最小化计算，即可求解出合适的θ，即参数的最优值，并将该θ值代入公式(7)所示的Softmax函数中，即可以得到该节点的条件概率分布。

如果该离散节点同时有离散父节点和连续父节点，则只需要使用几组不同的θ来对应父节点的不同组合，类似于步骤S1427中的条件高斯混合模型，即第三高斯混合模型。

S145：采用离散贝叶斯参数学习方法学习得到该节点的概率分布。

当经过步骤S143判定该节点不带有连续父节点，即该离散子节点仅带有离散父节点时，则可以采用现有成熟的K2算法、MCMC算法等对该离散节点进行参数学习，可以得到该离散节点的概率分布。

本实施例中，综合考虑了贝叶斯网络学习的复杂性和求解的准确性，在结构学习时，使用离散化方法将连续节点简化，从而使原有的结构学习算法可以使用，简化结构学习过程，减轻训练复杂度。同时，在结构学习完成后，需要进行参数学习时，不使用离散化后的连续节点，而是保留原始连续节点，与原始离散节点一同学习参数，仍然使用连续节点数据，保证参数学习准确性，由此平衡了训练过程的速度和准确性。并且在参数学习时基本涵盖了所有子节点、父节点或者根节点为连续变量的情况，方案完整，可以解决所有连续节点参数学习的情况。

本申请还提供一种智能设备，如图6所示，本申请智能设备一实施例中，智能设备10包括：相互连接的存储器101和处理器102。

其中，存储器101用于存储处理器102执行所需的数据和程序指令，例如训练样本等。

该处理器102控制智能设备10的操作，处理器102还可以称为CPU(CentralProcessing Unit，中央处理单元)。处理器102可能是一种集成电路芯片，具有信号的处理能力。处理器102还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

处理器102用于执行程序指令以实现如本申请一种贝叶斯网络学习方法第一或第二实施例所提供的方法。

当然，在其他实施例中，智能设备10还可以包括通信电路(图未示)、显示器(图未示)等其他部件，此处不做具体限定。

如图7所示，本申请存储装置一实施例中，存储装置90内部存储有程序指令901，该程序指令901被执行时实现如本申请一种贝叶斯网络学习方法第一或第二实施例所提供的方法。

其中，存储装置90可以是便携式存储介质如U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘，也可以是手机、服务器或可集成于上述设备(包括机器人)中的独立部件，例如芯片等。

在一实施例中，存储装置90还可以为如图6所示的本申请智能设备一实施例中的存储器101。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种贝叶斯网络学习方法，其特征在于，包括：

获取训练样本，所述训练样本中包括连续节点数据；其中，所述训练样本包括物体、动作和效应三种类型的数据，由机器人采集用户示教数据而获取；或由所述用户输入所述示教数据而获取；或由所述机器人利用图像获取装置获取所述用户示教过程的图像，并从所述示教过程的图像中识别而获取；

将所述连续节点数据进行离散化处理，得到离散样本数据；

利用所述离散样本数据进行结构学习，得到贝叶斯网络的拓扑；其中，所述贝叶斯网络的拓扑包括物体节点、动作节点和效应节点之间的连接关系；

利用所述训练样本，结合所述贝叶斯网络的拓扑进行参数学习，得到所述贝叶斯网络的参数，其中，所述贝叶斯网络的参数包括所述节点的概率分布；包括：判断当前进行参数学习的节点是否为连续节点；若所述节点为连续节点，则采用高斯混合模型模拟所述节点的边缘概率分布或条件概率分布，并进行高斯混合模型的参数学习，以得到所述节点的概率分布；否则，判断所述节点是否带有连续父节点；若所述节点带有连续父节点，则采用归一化指数函数模拟所述节点的条件概率分布，并进行归一化指数函数的参数学习，以得到所述节点的概率分布；

将学习完成后的所述贝叶斯网络应用于机器人任务学习推理。

2.根据权利要求1所述的方法，其特征在于，所述利用所述离散样本数据进行结构学习，得到贝叶斯网络的拓扑包括：

利用所述连续节点数据离散化得到的离散节点数据，以及所述训练样本中包括的离散节点数据，学习所述贝叶斯网络各节点的连接关系，以得到所述贝叶斯网络的拓扑。

3.根据权利要求1所述的方法，其特征在于，所述采用高斯混合模型模拟所述节点的边缘概率分布或条件概率分布，并进行高斯混合模型的参数学习，以得到所述节点的概率分布包括：

判断所述节点是否为根节点；

若所述节点为根节点，则采用第一高斯混合模型模拟所述根节点的边缘概率分布，并进行所述第一高斯混合模型的参数学习，以得到所述根节点的边缘概率分布。

4.根据权利要求3所述的方法，其特征在于，所述采用第一高斯混合模型模拟所述根节点的边缘概率分布，并进行所述第一高斯混合模型的参数学习，以得到所述根节点的边缘概率分布包括：

判断所述节点是否为多维节点；

若所述节点为多维节点，则使用多元高斯混合模型模拟所述节点的边缘概率分布或条件概率分布，并进行多元高斯混合模型的参数学习，以得到所述节点的概率分布。

5.根据权利要求3所述的方法，其特征在于，所述判断所述节点是否为根节点之后，还包括：

若所述节点为非根节点，则判断所述节点是否仅带有连续父节点；

若所述节点仅带有连续父节点，则采用高斯混合模型模拟所述节点的父节点的边缘概率分布以及所述节点与其父节点的联合概率分布，并计算所述边缘概率分布和所述联合概率分布的比值，得到第二高斯混合模型；

进行所述第二高斯混合模型的参数学习，以得到所述节点的条件概率分布。

6.根据权利要求3所述的方法，其特征在于，所述判断所述节点是否为根节点之后，还包括：

若所述节点为非根节点，则判断所述节点是否仅带有离散父节点；

若所述节点仅带有离散父节点，则采用第三高斯混合模型模拟所述节点的条件概率分布，并进行所述第三高斯混合模型的参数学习，以得到所述节点的条件概率分布。

7.根据权利要求3所述的方法，其特征在于，所述判断所述节点是否为根节点之后，还包括：

若所述节点为非根节点，则判断所述节点是否同时带有连续父节点和离散父节点；

若所述节点同时带有连续父节点和离散父节点，则对应每个所述离散父节点的每个可能取值，采用第二高斯混合模型模拟所述节点的条件概率分布，并进行所述第二高斯混合模型的参数学习，以得到所述节点的条件概率分布。

8.根据权利要求1所述的方法，其特征在于，所述采用归一化指数函数模拟所述节点的条件概率分布，并进行归一化指数函数的参数学习，以得到所述节点的概率分布包括：

获取所述归一化指数函数的参数的代价函数；

对所述代价函数做关于所述参数的最小化处理，得到所述归一化指数的参数的最优值，代入所述归一化指数函数，得到所述节点的条件概率分布。

9.一种智能设备，其特征在于，包括：相互连接的存储器和处理器；

所述存储器用于存储所述处理器执行所需的程序指令和/或数据；

所述处理器用于执行程序指令以实现如权利要求1-8任一项所述的方法。

10.一种存储装置，内部存储有程序指令，其特征在于，所述程序指令被执行以实现如权利要求1-8任一项所述的方法。