CN110147798A

CN110147798A - 一种可用于网络信息检测的语义相似度学习方法

Info

Publication number: CN110147798A
Application number: CN201910311317.XA
Authority: CN
Inventors: 徐征; 杨恩好
Original assignee: Beijing Biwei Network Technology Co Ltd
Current assignee: Beijing Biwei Network Technology Co Ltd
Priority date: 2019-04-18
Filing date: 2019-04-18
Publication date: 2019-08-20
Anticipated expiration: 2039-04-18
Also published as: CN110147798B

Abstract

本发明涉及一种可用于网络信息检测的语义相似度学习方法，对于文本数据，包括：步骤1、基于潜在狄利克雷分布模型对文本数据建模；步骤2、导出编码数据语义信息的特征映射来表征网络文本信息；步骤3、导出概率相似度函数，用于网络文本数据检测。对于图像数据，包括：步骤1、基于高斯混合模型对图像数据建模；步骤2、导出编码数据语义信息的特征映射来表征网络图像信息；步骤3、导出概率相似度函数，用于网络图像信息检测。本发明方法采用概率相似度函数区别于传统相似度函数之处在于，是网络信息数据、隐变量和产生式模型参数的函数，可以更好地适应数据分布。

Description

一种可用于网络信息检测的语义相似度学习方法

技术领域

本发明涉及一种可用于网络信息检测的语义相似度学习方法，可广泛应用于网络信息检测、识别、监测等领域。属于机器学习和网络信息处理领域。

背景技术

随着互联网技术的快速发展，海量的数据在互联网上产生，如何快速准确地检测出感兴趣的网络信息成为近来的研究热点。相似度度量是网络信息检测中的重要关键技术之一，传统的方法常采用预先定义的相似度度量，如欧式距离、马氏距离和高斯核函数等来衡量网络信息之间的相似度。这类度量方式，没有考虑网络信息的数据分布，因此对数据的分布缺乏适应能力。为了更好地从网络数据中学习中高层语义信息，采用机器学习的方法学习相似度度量。

概率相似度是其中一类基于机器学习获取相似度度量的方法，该类方法最近受到越来越多研究者的青睐。概率相似度的学习方法充分考虑了数据的概率分布，使用产生式概率模型对数据分布进行建模，并从该模型中导出显式的特征映射，基于特征映射定义概率相似度函数用于检测。导出的概率相似度函数是隐变量和模型参数的函数，而隐变量编码了数据内容相关的隐信息，这些信息在网络信息检测和识别中非常有效。基于此，本发明提出一种可用于网络信息检测的语义相似度的学习方法。

发明内容

本发明的目的在于针对现有方法的不足，提出一种可用于网络信息检测的语义相似度的学习方法，该方法从数据的概率分布出发，从网络数据中学习出编码了数据分布的概率相似度。本发明可应用于两种网络数据，文本和图像。

对于文本数据，本发明一种可用于网络信息检测的语义相似度学习方法通过下述技术方案来实现。

步骤1-1、基于潜在狄利克雷分布模型对文本数据建模。

假设网络文本信息用词袋模型表示，令w＝{w₁,…,w_M}是文件，M是文件中单词的数目，是指示向量，表示所有V项的第j项被选做文件的第i个单词。令是主题的指示向量，表示所有K个主题的第k个主题被第i个单词选择。潜在狄利克雷分配模型按照下述过程生成每个文档:

S11根据狄利克雷分布选择一个文件d＝(d₁,…d_l),该分布的参数为η，可表示为如下形式：

其中，η＝(η₁,…,η_l)是狄利克雷分布的参数，Γ是Gamma函数。

S12对于M个单词中的每个单词w_i，选择一个主题z_i，该主题服从多项式分布，参数为d,可表示成如下形式：

S13从条件多项式分布P(w_i|z_i,μ)中选择一个单词w_i，该条件多项式分布参数为μ，可表示成如下形式：

潜在狄利克雷分布的联合概率密度函数可以表示为如下形式：

步骤1-2、导出编码数据语义信息的特征映射来表征网络文本信息。

P(w,z,d|η,μ)的似然函数变分下界可以由下式给出：

根据公式(5)的下界，可得FESS分数函数，即为变分下界的成分：

完整的FESS特征映射是公式(6)成分的组合：

步骤1-3、导出概率相似度函数，用于网络文本数据检测。

有了公式(7)的特征映射，可将用于网络文本数据检测的相似度函数定义为如下形式：

其中，tⁱ和t^j是不同的文本，是文本tⁱ的特征映射，是文本t^j的特征映射，W’是对角权值矩阵，对角线上的每个元素衡量了的相应维度对概率相似度的重要程度，也就是说，权值大的维度比权值小的维度重要。

对于图像数据，本发明一种可用于网络信息检测的语义相似度学习方法通过下述技术方案来实现。

步骤2-1、基于高斯混合模型对图像数据建模。

设x∈R是表征图像的底层特征，可为颜色特征、纹理特征、SIFT特征等，其维度设为D。高斯混合模型GMMs(Gaussian Mixture Models)是观测变量、隐变量和模型参数的函数，该模型采样过程如下：(1)随机选择一个混合中心；(2)从该混合中心对应的高斯分布中采样。该过程由m＝(m₁,…,m_L)^T指示，即：如果没选择第l个混合中心，则m_l＝0，否则m_l＝1。指示因子m服从以下多项式分布：其中，β_l＝E_P(m)[m_l]，β_l∈[0,1]，

关于m的条件概率分布可以表示为：

其中，是混合中心对应的高斯分布的均值和方差，是整个模型的参数。

高斯混合模型的概率密度函数可以表示为：

步骤2-2、导出编码数据语义信息的特征映射来表征网络图像信息。

似然函数P(x|θ)＝Σ_mP(x,m|θ)无法直接求解，采用变分期望最大化算法求解。该算法分为两个步骤，其一：关于后验分布在训练集上最大化似然函数，此为推断步骤；其二，关于模型参数在训练集上最大化似然函数，此为参数估计步骤。两个步骤在训练集上交替进行。假设Q(m)是m的后验分布的近似，可得：

由推断步骤更新隐变量的后验，可得：

由参数估计步骤更新高斯混合模型的参数，可得：

其中，u_k和是高斯混合模型的加权均值和方差，衡量样本x^c对第k个混合中心的贡献程度。

基于公式(11)的下界，可得Fisher分数函数：

完整的Fisher特征映射是以上函数的组合：

步骤2-3、导出概率相似度函数，用于网络图像信息检测

归一化后的概率相似度函数可以定义为如下形式：

其中，Iⁱ和I^j是两幅不同的图像，Φⁱ是图像Iⁱ的特征映射，Φ^j是图像I^j的特征映射，W是对角权值矩阵，对角线上的每个元素衡量了Φ的相应维度对概率相似度的重要程度，也就是说，权值大的维度比权值小的维度重要。

与现有方法相比，本发明的优越性体现在：采用概率产生式模型对网络数据建模，从该模型中学习出编码了网络数据语义内容的中高层特征，并基于该特征映射定义概率相似度函数。该概率相似度函数区别于传统相似度函数之处在于，是网络信息数据、隐变量和产生式模型参数的函数，可以更好地适应数据分布。

附图说明

图1基于语义相似度的网络图像信息检测方法流程图。

图2基于语义相似度的网络文本信息检测方法流程图

具体实施方式

以下结合具体实施例和附图对本发明的技术方案做更详细的阐述，以下实施例以本发明技术方案为前提下进行实施，分别给出了图像数据(比文本的处理过程复杂)以及文本处理的详细实施方式和过程，但本发明的保护范围不限于下述的实施例。

本发明的具体实施例(一)：从在线照片共享平台Flickr上下载25000幅图片，其中，15000幅图片被用作训练集，剩余的10000幅图片用作测试集。从测试集中随机选取1000幅图片作为查询图像，剩余的24000幅图片作为图片集合。

下面结合附图1对本发明的实施方式做更具体的说明，详述如下(使用Visual C++编程实现)：

1、图像底层特征提取。

四种颜色SIFT特征被用来表示图像的底层特征，包括OpponentSIFT，C-SIFT，rgSIFT和RGB-SIFT，使用密集采样和Harris-Laplace点采样将四种颜色SIFT特征结合起来。

2、使用高斯混合模型对网络图像数据建模。

设x∈R是上述步骤提取出的图像的底层特征，其维度设为D。高斯混合模型GMMs(Gaussian Mixture Models)是观测变量、隐变量和模型参数的函数，该模型采样过程如下：(1)随机选择一个混合中心；(2)从该混合中心对应的高斯分布中采样。该过程由m＝(m₁,…,m_L)^T指示，即：如果没选择第l个混合中心，则m_l＝0，否则m_l＝1。指示因子m服从以下多项式分布：

其中，β_l＝E_P(m)[m_l]，β_l∈[0,1]，

高斯混合模型的概率密度函数可以表示为：

3、基于高斯混合模型导出特征映射。

假设Q(m)是m的后验分布的近似，可得：

由推断步骤更新隐变量的后验，可得：

由参数估计步骤更新高斯混合模型的参数，可得：

基于上述下界，可得Fisher分数函数：

完整的Fisher特征映射是以上函数的组合：

4、定义概率相似度，完成网络图像检测。

假设Iⁱ是查询图像，I^j是数据库中的任意一幅图像，归一化后的概率相似度函数可以定义为如下形式：

其中，Φⁱ是图像Iⁱ的特征映射，Φ^j是图像I^j的特征映射，W是对角权值矩阵。

为了验证本发明的有效性，在实施例上和图像检测领域的传统方法做了比较。这些方法包括(1)欧式距离，该方法采用欧式距离作为相似度度量；(2)传统方法1：该方法是大裕度最近邻分类算法，其从有标签样本中学习马氏距离用于k-近邻分类；(3)传统方法2：该方法是一种判别式成分分析方法，它通过使用非对等性约束将相对成分分析进行扩展。根据交叉验证，该实施例上的参数设置为：高斯混合模型混合中心的数目为40。测试了30轮，最后给出平均结果。实施例上识别准确率对比结果如下：基准方法(即欧式距离)检测平均准确率为63.4％，传统方法1检测平均准确率为81％，传统方法2检测平均准确率为80％，本发明方法检测平均准确率为92％，本发明方法在检测准确率上一致地优于所对比的方法。

本发明具体实施例(二)：从20组不同的新闻中获取约20000条文本信息，每条信息采用词袋模型表示。构建的识别任务是：Sci:sci.electronics vs.sci.med。对于该任务，选择1800个样本来平衡两个标签。下面结合附图2对本发明的具体实施方式进行说明。

步骤1、提取文本信息的词袋特征。

步骤2、基于潜在狄利克雷分布模型对文本数据建模。

令w＝{w₁,…,w_M}是文件，M是文件中单词的数目，是指示向量，表示所有V项的第j项被选做文件的第i个单词。令是主题的指示向量，表示所有K个主题的第k个主题被第i个单词选择。潜在狄利克雷分配模型按照下述过程生成每个文档:

(1)根据狄利克雷分布选择一个文件d＝(d₁,…d_l),该分布的参数为η，可表示为如下形式：

(2)对于M个单词中的每个单词w_i，选择一个主题z_i，该主题服从多项式分布，参数为d,可表示成如下形式：

(3)从条件多项式分布P(w_i|z_i,μ)中选择一个单词w_i，该多项式分布参数为μ，可表示成如下形式：

步骤3、导出编码数据语义信息的特征映射来表征网络文本信息。

P(w,z,d|η,μ)的似然函数变分下界可以由下式给出：

根据上式的下界，可得分数函数，即为变分下界的成分：

完整的特征映射是上述三项成分的组合：

步骤4、导出概率相似度函数，用于网络文本数据检测。

可将用于网络文本数据检测的相似度函数定义为如下形式：

为了验证本发明的有效性，在实施例上和文本识别领域的传统方法做了比较。这些方法包括(1)传统方法1：该方法基于支持向量机实现；(2)传统方法2：该方法是一种基于加权置信度的学习方法，是文本分类的最新的方法。测试了20轮，最后给出平均结果。实施例上识别准确率对比结果如下：传统方法1检测平均准确率为85％，传统方法2检测平均准确率为90％，本发明方法检测平均准确率为93％，本发明方法在检测准确率上一致地优于所对比的方法。

Claims

1.一种可用于网络信息检测的语义相似度学习方法，可应用于文本和图像两种网络数据，其特征在于：其中对于文本数据，该方法具体包括如下步骤：

步骤1、基于潜在狄利克雷分布模型对文本数据建模；

步骤2、导出编码数据语义信息的特征映射来表征网络文本信息；

步骤3、导出概率相似度函数，用于网络文本数据检测。

2.根据权利要求1所述的一种可用于网络信息检测的语义相似度学习方法，其特征在于：所述步骤1具体过程如下：

假设网络文本信息用词袋模型表示，令w＝{w₁,…,w_M}是文件，M是文件中单词的数目，是指示向量，表示所有V项的第j项被选做文件的第i个单词；令是主题的指示向量，表示所有K个主题的第k个主题被第i个单词选择；潜在狄利克雷分配模型按照下述过程生成每个文档：

S11、根据狄利克雷分布选择一个文件d＝(d₁,…d_l)，该分布的参数为η，可表示为如下形式：

其中，η＝(η₁,…,η_l)是狄利克雷分布的参数，Γ是Gamma函数；

S12、对于M个单词中的每个单词w_i，选择一个主题z_i，该主题服从多项式分布，参数为d，可表示成如下形式：

S13、从条件多项式分布P(w_i|z_i,μ)中选择一个单词w_i，该条件多项式分布参数为μ，可表示成如下形式：

3.根据权利要求1所述的一种可用于网络信息检测的语义相似度学习方法，其特征在于：所述步骤2具体过程如下：

P(w,z,d|η,μ)的似然函数变分下界可以由下式给出：

完整的FESS特征映射是公式(6)成分的组合：

4.根据权利要求1所述的一种可用于网络信息检测的语义相似度学习方法，其特征在于：所述步骤3具体过程如下：

5.一种可用于网络信息检测的语义相似度学习方法，可应用于文本和图像两种网络数据，其特征在于：其中对于图像数据，该方法具体包括如下步骤：

步骤1、基于高斯混合模型对图像数据建模；

步骤2、导出编码数据语义信息的特征映射来表征网络图像信息；

步骤3、导出概率相似度函数，用于网络图像信息检测。

6.根据权利要求5所述的一种可用于网络信息检测的语义相似度学习方法，其特征在于：所述步骤1具体过程如下：

设x∈R是表征图像的底层特征，可为颜色特征、纹理特征、SIFT特征，其维度设为D；高斯混合模型GMMs采样过程如下：首先，随机选择一个混合中心；其次，从该混合中心对应的高斯分布中采样；该过程由m＝(m₁,…,m_L)^T指示，即：如果没选择第l个混合中心，则m_l＝0，否则m_l＝1；指示因子m服从以下多项式分布：其中，β_l＝E_P(m)[m_l]，β_l∈[0,1]，

关于m的条件概率分布可以表示为：

其中，是混合中心对应的高斯分布的均值和方差，是整个模型的参数；

高斯混合模型的概率密度函数可以表示为：

7.根据权利要求5所述的一种可用于网络信息检测的语义相似度学习方法，其特征在于：所述步骤2具体过程如下：

似然函数P(x|θ)＝Σ_mP(x,m|θ)无法直接求解，采用变分期望最大化算法求解，该算法分为两个步骤，其一：关于后验分布在训练集上最大化似然函数，此为推断步骤；其二，关于模型参数在训练集上最大化似然函数，此为参数估计步骤；两个步骤在训练集上交替进行，假设Q(m)是m的后验分布的近似，可得：

由推断步骤更新隐变量的后验，可得：

由参数估计步骤更新高斯混合模型的参数，可得：

其中，u_k和是高斯混合模型的加权均值和方差，衡量样本x^c对第k个混合中心的贡献程度；

基于公式(11)的下界，可得Fisher分数函数：

完整的Fisher特征映射是以上函数的组合：

8.根据权利要求5所述的一种可用于网络信息检测的语义相似度学习方法，其特征在于：所述步骤3具体过程如下：

归一化后的概率相似度函数可以定义为如下形式：