CN105760365A

CN105760365A - 基于贝叶斯算法对图像语义数据的概率潜在参数估计模型

Info

Publication number: CN105760365A
Application number: CN201610142356.8A
Authority: CN
Inventors: 文珊; 曹良坤; 肖湘云; 余洁
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2016-03-14
Filing date: 2016-03-14
Publication date: 2016-07-13

Abstract

针对目前图像检索中存在的“语义鸿沟”的问题，提出了一种在图像语义检索的基础上加入概率潜在语义主题词（以后简称：主题词）参数，建立：文档??主题词??语义特征词”三者的概率关系，结合贝叶斯概率估计算法原理，计算后验概率。后验概率=先验概率*似然函数。用EM算法来求出后验概率最大似然估计值，建立贝叶斯概率估计模型。签于“文档??主题词??语义特征词”之间的关系，映射出文档，利用文档与图像的对应，最终显示用户所需要的图像。

Description

基于贝叶斯算法对图像语义数据的概率潜在参数估计模型

技术领域

本发明涉及的是关于贝叶斯概率估计算法。

背景技术

概率论是逻辑严谨推理性强的一门数学分科，贝叶斯公式是概率论中较为重要的公式，贝叶斯所采用的许多术语被沿用至今。机器学习的主要难点在于“被阐述”的词法和“真正要表达”的语义的区别。产生这个问题的原因主要是：1.一个单词能有多个意思和多个用法。2.同义词和近义词，而且根据不同的语境或其他因素，不同的单词也有可能表示相同的意思。

利用贝叶斯概率估计原理来计算机器学习的主要难点是很方便的，也是目前最优秀的方法。

图像的内容特征检索，到目前为止是一种很成熟的检索系统，但他的检索效果是不尽人意的。主要问题就是机器学习所产生的问题，本发明就是利用贝叶斯概率估计算法来解决机器学习的问题。

发明内容

本发明通过贝叶斯概率潜在语义分析对无监督学习图像的语义特征进行语义数据的挖掘，建立一个概率潜在语义算法的模型。主要解决了图像检索中的主要问题1、语义鸿沟；2、一义多词和一词多义所产生的检索数据不到位和重复检索。

设一幅图像对应一篇文档，设图像语义特征对应文档的关键单词，建立一个文档-关键单词语义向量共现矩阵。根据贝叶斯概率估计原理，条件概率的计算方法，应用概率潜在主题词来计算文档的最大相似度。

本发明的技术方案为基于机器学习的贝叶斯估计算法建立概率潜在语义模型，包括以下步骤：

步骤1，通过概率潜在语义分析方法（PLSA）对无监督图像语义知识库数据进行挖掘，建立文档（图像）---潜在语义---词（图像语义特征）之间的概率语义关系，就是每一组（D，W）都与潜在语义Z有关联；

步骤2，用贝叶斯概率估计算法计算出潜在语义主体词最大似然估计和期望最大化；

步骤3，建立概率潜在语义模型。

而且，步骤1中，无监督学习是一种基于图像语义知识库，它的生成是由计算机用高斯混合模型（Gaussian Mixture Model,GMM）的图像语义标注方法自动生成的；

而且，步骤2中，在贝叶斯估计计算时，先验概率分布符合BETA分布，根据先验概率、似然函数计算出后验概率；

而且，步骤2中，潜在函数Z用最大似然估计来训练，最大似然估计中比较常用的算法就是期望最大化算法。期望最大化算法分为两步：

1. Expectation Step——隐含参数的估计

2. Maximization Step——确定实际参数，然后根据实际参数做最大似然估计。

附图说明

附图1潜在主题词图。

附图2不对称概率潜在语义模型。

附图3对称概率潜在语义模型。

附图4为本发明实施原理图。

具体实施方式

以下结合附图和实施例详细说明本发明技术方案。

本发明提出基于贝叶斯概率算法对无监督图像语义数据的概率潜在语义的参数估计模型，假设图像语义知识库已经由计算机用高斯混合模型（Gaussian Mixture Model,GMM）的图像语义标注方法自动生成的，标注语义之间互相独立，没用前后顺序。为了更为详细的阐述本发明的具体实施方案，下面基于附图进行进一步的叙述，实施流程如下。

步骤１，设一幅图像对应一篇文档空间，图像的特征映射到文档的关键词空间。使用bag-of-word模型来表示一个文档，即一个由单词组成的向量。单词独立于文本语义，忽略了单词在文档中的顺序，只表现单词在文档中出现的频率，一个单词表示空间的一个维度，从而得到文档—单词共现矩阵，这个矩阵的每一项代表了第i个单词在第j篇文档中的权重。共现矩阵已经通过词频-逆文档频率（TF—IDF）降维。

步骤2，建立文档、文档关键词以及潜在场景主题词之间的概率关系，图1。通过概率潜在语义分析建立PLSA概率模型图，图2。其中观察数据D代表文档，W代表文档中的一个特征单词，潜在语义主题词Z是非观察数据。D=（d₁，d_2，……，d_i）有N篇文档的文档集；Z=（Z₁，Z_2，……，Z_k）一篇文档有K个隐藏变量主题词，主题词集；W=（W₁，W_2，……，W_j）一篇文档有M个单词，单词集。生成一个文档和单词的文本集，共现矩阵A=[P(di, Wj)]|D|×|W|表示，d代表某一篇文档，W代表某一个单词，(di, Wj)表示文档di和单词Wj同时出现频率，也就是P(di, Wj)为两个变量同时出现的个数。矩阵A 的每一行代表一个文档，每一列代表一个单词。则P(di, Wj)是一个可观察数，根据图1的映射，引入一个未观察到的隐藏变量Z，Z 使得文档和词有条件的相互独立，Z属于隐藏变量集Z中，其中K 的取值大小依赖于经验，一方面希望K足够大，能够适合所有的潜在语义结构，但如果过大则易引入噪声，对于使用将产生一定的影响；如果过小，则不能显现样本的误差及其他次要的细节，一般情况下取20到100之间。A(di)从N（i=1,2,3,…..N）篇文档集中选择一篇文档di 的概率；A(di, Wj)是词Wj在文档di 中出现的频数；A(Wj | Zk)表示在未观察到的隐藏变量Zk 确定的条件下，词wj 出现的条件概率；A(Z_k| di)表示在给定第i篇文档的出现概率的条件下，文档di 属于第k个主题词的概率；

利用贝叶斯概率估计算法，可以按如下过程定义词-文档的共现数据的生成模型：

1，首先从文档集中以概率A(di)选择一篇文档di；

2，在文档di 中再以概率A(Z_k | di)选择一个隐藏主题类变量Z_k概率；

3，确定隐藏类变量Z_k 后，以概率A(Wj | Z_k)选择一个词Wj 概率。这样就可以得到一个观察值(di, Wj)，而未被观察到的隐藏变量Z_k 被丢弃。假设文档d和单词w在给定主题单词z的条件下满足于独立同分布，也就是说隐含类Z和词W是不依赖于特定的文档D生成的。则上面的数据生成过程可由下面的贝叶斯概率估计公式进行表述：

A(di, Wj)= A(di) A(Wj | di) （1）

其中：A(di)：是先验分布，A(Wj | di)：是似然函数，A(di, Wj)：是后验分布。贝叶斯方法认为，学习参数=先验知识+观察到的数据。先验知识=参数的先验分布的选取+分布参数的选取。根据贝叶斯理论，为了达到后验分布与先验分布属于同的分布，选取先验分布为Beta共轭分布：

（2）

将2式代入1式得

（3）

观察图2描述和（2式），根据共轭分布的特征，所以他们为对称函数，把图2模型转化为图3所示的模型。通过贝叶斯法则反转条件概A(z/d), 可以将(1)改写为下面的等式

（4）

根据（1）式，A(di, Wj)是后验2分布，A (Z₁) 是先验分布， A(Wj | Z_k) A(di| Z_k) 是似然函数。先验分布Z₁在区间（0，1）上的均匀分布，根据贝叶斯假设，A(Z₁)=1。所以从（4）式中我们得到样本(di, Wj)是一个关于隐含变量Z的线性组合，是由两个多项分布组成，两个多项分布的参数为A(W | Z) 和A(d| Z)，也就是概率潜在语义模型，根据极大似然估计原理，通过求取如下对数似然函数的极大值，来得到潜在语义的模型参数。

步骤3 ，现用最大似然估计来计算模型参数A(W | Z) 和A(Z | d)，似然函数的公式：

(5)

这里(di)是文档di中出现过的所有单词的词频和，他的值对模型参数A(W | Z) 和A(d| Z)没有任何影响。上试可以写成

（6）

由于这个目标函数中求和符号出现在积分内，因此这个函数很难最大化，为了解决这个问题，可以使用EM算法。

步骤4 ，最大期望算法（Expectation Maximization Algorithm，又译期望最大化算法），是一种迭代算法，用于含有隐变量（hidden variable）的概率参数模型的最大似然估计或极大后验概率估计。在统计计算中，最大期望（EM）算法是在概率（probabilistic）模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐藏变量（Latent Variable）。最大期望算法经过两个步骤交替进行计算：

EM的算法流程如下：

1.初始化分布参数

V=｛A(Wj | Zk) ｝m*k,U={A(di| Zk)}n*k

用平方误差准则K-Means算法，来分别计算U，V参数的初始值。具体流程：

（1）、选择把N个样本分成不相交的K个子集，计算每个子集的均值α₁,α₂,......,α_k和β，设第i个子集有Ni个样本，共有，设Si表示第i个子集。其中：

β是误差平方和聚类准则，它是k个聚类中心α₁,α₂,......,α_k代表k个样本子集S1,S2,......Sk时所产生的总的误差平方，使 β 极小的聚类就是误差平方和准则下的最优结果；

（2）、随机选择一个备选样本x，设此；

（3）、若 Ni=1,则转到（2），否则断续；

（4）、计算；

（5）、对于所用的j=1，2，......，k，若存在某个使得，则把x从Si移到St中去；

（6）、重新计算α_i的值，并修改β；

（7）、β值保持不变，则迭代结束，否则继续迭代，转（2）。把计算出的结果分别放到U 和V中作为初始值；

2.重复直到收敛：

第一步是计算期望（E），利用对隐藏变量的现有估计值，计算其最大似然估计值；

（7）

公式左边表示在出现第i篇文档、第j个单词的概率条件下，求出现第k个隐含主题的概率，也可以理解为给定了一篇含有k个主题概率的文档和第j个单词对第k个主题的贡献度，求出现第j个单词的第i篇文档属于第k个主题的概率。公式右边的分母表示需要对模型参数A(W | Z) 和A(Z | d)两个乘积进行归一化处理（具体归一化处理方式为：对该文档属于任意主题以及该单词同样对该主题贡献度的乘积进行救和为分子，然后用文档属于特定主题的概率和单词对这个特定主题贡献度为分母，求商即可。第二步是最大化（M），最大化在E 步上求得的最大似然值来计算参数的值：

（8）

计算给定单词j对隐含主题k的贡献度：

（9）

计算给定文档（第i篇文档）属于隐含主题k的概率：

（10）

隐含主题中的k=K，当循环到时停止计算。第（5）式达最大。最终求出(di,wj)的联合概率，即(di,wj)之间的相关度。

Claims

1.本发明的技术方案为基于贝叶斯概率算法对无监督图像语义数据的概率潜在语义的参数估计模型，其特点在于，运用贝叶斯学习理论的基本观点为来挖掘无监督图像语义数据之间的潜在关系：

步骤1，建立图像文档---潜在语义特征词---词，图像语义特征三者之间的概率关系；

步骤2，用贝叶斯概率估计算法，后验概率=先验概率*似然函数，用贝叶斯假设对先验概率进行付值；

步骤3，利用EM算法求后验概率的最大似然估计值；

步骤4，用K-m算法进行EM初始值设定；

步骤5，E步骤计算希望值；

步骤6，M步骤计算参数最大似然估计值；

步骤7，设定一个循环参数K，k < K时继续EM计算，k = K时结束计算。