CN105550292A

CN105550292A - 一种基于von Mises-Fisher概率模型的网页分类方法

Info

Publication number: CN105550292A
Application number: CN201510919129.7A
Authority: CN
Inventors: 马占宇; 黄迪; 周环宇
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2015-12-11
Filing date: 2015-12-11
Publication date: 2016-05-04
Anticipated expiration: 2035-12-11
Also published as: CN105550292B

Abstract

本发明公开了一种基于von？Mises-Fisher概率模型的网页分类方法，属于互联网及机器学习技术领域。所述方法首先对训练样本进行数据预处理、特征提取和特征筛选后建模，然后将待分类网页的特征向量代入模型中实现最终分类。本发明对所得特征向量进行二范数归一化，在消除文本长度对特征向量影响的同时可为von？Mises-Fisher模型建模做准备；使用von？Mises-Fisher概率模型对文本特征向量进行建模，此模型为首次应用于自然语言处理领域。

Description

一种基于von Mises-Fisher概率模型的网页分类方法

技术领域

本发明属于互联网及机器学习技术领域，涉及自然语言处理，具体涉及一种基于正文内容的网页分类方法。

背景技术

自然语言处理技术研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。一个中文文本或一个汉字(含标点符号等)串可能有多个含义。它是自然语言理解中的主要困难和障碍。因此，自然语言的形式(字符串)与其意义之间是一种多对多的关系。但从计算机处理的角度看，我们必须消除歧义。歧义现象的广泛存在使得消除它们需要大量的知识和推理，这就给基于语言学的方法、基于知识的方法带来了巨大的困难，因而以这些方法为主流的自然语言处理研究几十年来一方面在理论和方法方面取得了很多成就，但在能处理大规模真实文本的系统研制方面，成绩并不显著。研制的一些系统大多数是小规模的、研究性的演示系统。

目前存在的问题有两个方面：一方面，迄今为止的语法都限于分析一个孤立的句子，上下文关系和谈话环境对本句的约束和影响还缺乏系统的研究，因此分析歧义、词语省略、代词所指、同一句话在不同场合或由不同的人说出来所具有的不同含义等问题，尚无明确规律可循，需要加强语言学的研究才能逐步解决。另一方面，人理解一个句子不是单凭语法，还运用了大量的有关知识，包括生活知识和专门知识，这些知识无法全部贮存在计算机里。因此一个书面理解系统只能建立在有限的词汇、句型和特定的主题范围内；计算机的贮存量和运转速度大大提高之后，才有可能适当扩大范围。

许多不同类的机器学习算法已应用于自然语言处理任务。这些算法的输入是一大组从输入数据生成的“特征”。一些最早使用的算法，如决策树、逻辑回归和朴素贝叶斯分布等。然而，越来越多的研究集中于统计模型，此类模型具有能够表达许多不同的可能的答案，而不是只有一个相对的确定性。产生更可靠的结果时，这种模型被包括作为较大系统的一个组成部分的优点。

发明内容

本发明采用一种未在自然语言处理领域使用过的vonMises-Fisher概率模型，通过网页正文内容进行特征提取及建模，基于所得的概率密度函数进行分类，达到了更高的网页分类准确度，具有效率高、分类准确度高等优势。

本发明提供一种基于vonMises-Fisher概率模型的网页分类方法，包括以下步骤：

步骤1：数据预处理:对于训练样本，去除无用信息，得到第一行为样本类别标签的样本文档。所述的训练样本为带有类别标签的网页。

步骤2：特征提取：采用向量空间模型对样本文档进行建模，统计样本文档中各单词作为特征，单词出现的频率作为特征值。

步骤3：特征筛选：计算单词的TF-IDF(TermFrequency–InverseDocumentFrequency)值，按TF-IDF值大小排序，筛选具有代表性的单词，组成最终的特征向量。

步骤4：建模：使用vonMises-Fisher混合概率模型对特征向量进行建模，得到各类别的vonMises-Fisher混合概率模型。

步骤5：网页分类：根据vonMises-Fisher混合概率模型，统计样本文档特征向量中出现的所有词汇在待分类网页中出现的次数，得到待分类网页的特征向量，将待分类网页的特征向量带入各概率密度函数，从而完成分类。

本发明一种基于vonMises-Fisher概率模型的网页分类方法的优点在于：

(1)对所得特征向量进行二范数归一化，在消除文本长度对特征向量影响的同时可为vonMises-Fisher概率模型建模做准备。

(2)使用vonMises-Fisher概率模型对文本特征向量进行建模，此模型为首次应用于自然语言处理领域。

附图说明

图1为本发明的网页分类方法总体流程图；

图2为步骤4流程图。

具体实施方式

下面结合附图和实施例对本发明进行详细说明。

本发明提供一种基于vonMises-Fisher概率模型的网页分类方法，采用一种未在自然语言处理领域使用过的vonMises-Fisher概率模型，通过对预处理后的网页正文内容进行特征提取及建模，基于所得的概率密度函数进行分类，达到了更高的网页分类准确度，具有效率高，分类准确度高等优势。所述的vonMises-Fisher概率模型也称冯·米泽斯-费舍概率模型，参见参考文献[1]：Sra,S.‘AshortnoteonparameterapproximationforvonMises-Fisherdistributions:AndafastimplementationofIs(x)’.ComputationalStatistics27:177–190。

实施平台：Python

本发明提供的基于vonMises-Fisher概率模型的网页分类方法，如图1所示流程，包括以下步骤：

步骤1：数据预处理。

获取带有类别标签的训练样本(网页正文内容)，所述的训练样本内容包含广告、标点、语气词、助词等无用信息，且网页正文内容为长文本形式。所以获取训练样本后，首先将长文本拆分为多个词语，并根据停用词表去除训练样本中的无意义词汇，从而获得有效可用的分类信息。

具体处理方法为：首先对网页正文内容中的长文本进行分词，将词语用“/”隔开。分词完毕后，去掉网页正文内容中的标点、符号、语气词和助词等无用词汇(可以参考现有停用词表进行)。并将已知的样本类别标签写入网页正文内容的第一行，从而得到规范的网页正文内容，即包含有用单词正文的样本文档。

步骤2：特征提取；

本分类方法使用向量空间模型对包含有用单词正文的样本文档进行建模，将每一包含有用单词正文的样本文档用一向量表示，向量的每一维为包含有用单词正文的样本文档的一个特征。将单词作为特征，单词在包含有用单词正文的样本文档中出现的频率作为特征值。

步骤3：特征筛选；

若将所有单词都作为特征，会导致特征向量维数过大，冗余过多，严重影响分类效率。所以，需要对单词特征进行筛选，保留比较有代表性的特征词，从而在不影响分类准确率的情况下使分类高效进行。

本发明中根据特征词的TF-IDF值进行特征筛选。TF-IDF值的具体计算方法为：

TF-IDF＝TF*IDF

TF是指某一给定的单词在包含有用单词正文的样本文档中出现的频率。TF要对词数进行归一化，以防止TF偏向长的文件(同一个单词在长文件里可能会比短文件有更高的词数，而不管该单词重要与否)。单词i的词频tf_i，j的计算公式为：

{tf}_{i, j} = \frac{n_{i, j}}{Σ_{k} n_{k, j}}

其中，n_i,j为单词i在包含有用单词正文的样本文档j中出现的次数，Σ_kn_k,j为包含有用单词正文的样本文档j中包含的单词总数。IDF，即逆向文档频率，是一个单词普遍重要性的度量。某一特定单词i的逆向文档频率idf_i，可以由总文件数目C除包含该单词之文件的数目|D|，再将得到的商取对数得到：

{idf}_{i} = \lg \frac{| D |}{C}

其中，|D|为语料库中的包含有用单词正文的样本文档总数，C表示包含单词i的包含有用单词正文的样本文档总数。某一特定文件内的高单词频率，以及该单词在整个包含有用单词正文的样本文档集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF可以过滤掉常见的词语，保留重要的词语。

将上述计算得到的单词的TF-IDF值按由大到小进行排序，保留每篇文档中排名前N的词语作为重要单词，滤掉排名N以后的词语。特征筛选后，保留的重要单词组成包含有用单词正文的样本文档的最终特征向量。

步骤4：建模；

设步骤3所得特征向量为M＝(m₁,m₂,……,m_n)。首先对特征向量M做二范数归一化，得到向量X＝M/L＝(x₁,x₂,……,x_n)，其中，L＝|M|²。对向量X进行单峰vonMises-fisher概率模型建模。单峰vonMises-Fisher分布的概率密度函数f_p(X；μ，k)为：

f_p(X；μ，k)＝C_p(k)exp(kμ^TX)

C_{p} (k) = \frac{k^{\frac{p}{2} - 1}}{{(2 π)}^{\frac{p}{2}} I_{\frac{p}{2} - 1} (k)}

其中，p为单峰vonMises-Fisher分布的概率密度函数分布的维度，我们取p＝3；μ为单峰vonMises-Fisher分布的平均方向；k为密度参数，k越大，平均方向μ附近的分布越密集。是阶数为的第一类修正贝塞尔函数。

为了更好的描述网页分类的多峰特性，我们使用vonMises-Fisher混合概率模型G(X)，即：

G (X) = Σ_{i = 1}^{I} π_{i} f_{p} {(X; μ_{i}, k_{i})}_{i}

进行建模，其中，i＝1,2,…,I，I为vonMises-Fisher混合概率模型中单峰vonMises-Fisher概率模型的个数，π_i表示第i个单峰vonMises-Fisher概率模型的权重。

根据各类别样本文档的特征向量，使用EM(ExpectationMaximization)算法计算出各类别对应的vonMises-Fisher混合模型的参数。最终每一类别对应一个vonMises-Fisher混合概率模型(概率密度函数)

步骤5：网页分类；

将待分类网页执行步骤1，做同样的预处理，并统计样本文档特征向量中出现的所有词汇在待分类网页中出现的次数，得到待分类网页的特征向量。将每个待分类网页的特征向量分别带入各类别对应的vonMises-Fisher混合概率模型，得到的概率密度函数值越大，待分类网页属于该类别的可能性越大，认为待分类网页属于该类别，从而完成分类。

Claims

1.一种基于vonMises-Fisher概率模型的网页分类方法，其特征在于：包括以下步骤，

步骤1：数据预处理:对于训练样本，去除无用信息，得到第一行为样本类别标签的样本文档；所述的训练样本为带有类别标签的网页；

步骤2：特征提取：采用向量空间模型对样本文档进行建模，统计样本文档中各单词作为特征，单词出现的频率作为特征值；

步骤3：特征筛选：计算单词的TF-IDF值，按TF-IDF值大小排序，筛选具有代表性的单词，组成最终的特征向量；

步骤4：建模：使用vonMises-Fisher混合概率模型对特征向量进行建模，得到各类别的vonMises-Fisher混合概率模型；

2.根据权利要求1所述的一种基于vonMises-Fisher概率模型的网页分类方法，其特征在于：所述的数据预处理具体处理方法为：对网页正文内容中的长文本进行分词，将词语用“/”隔开；分词完毕后，去掉网页正文内容中的标点、符号、语气词和助词，并将已知的样本类别标签写入网页正文内容的第一行，从而得到规范的网页正文内容，即包含有用单词正文的样本文档。

3.根据权利要求1所述的一种基于vonMises-Fisher概率模型的网页分类方法，其特征在于：所述的TF-IDF值的具体计算方法为：

TF-IDF＝TF*IDF

TF是指某一给定的单词在包含有用单词正文的样本文档中出现的频率，单词i的词频tf_i，j的计算公式为：

{tf}_{i, j} = \frac{n_{i, j}}{Σ_{k} n_{k, j}}

其中，n_i,j为单词i在包含有用单词正文的样本文档j中出现的次数，Σ_kn_k,j为包含有用单词正文的样本文档j中包含的单词总数，IDF，即逆向文档频率，某一特定单词i的逆向文档频率idf_i为：

{idf}_{i} = \lg \frac{| D |}{C}

其中，|D|为语料库中的包含有用单词正文的样本文档总数，C表示包含单词i的包含有用单词正文的样本文档总数；

将上述计算得到的单词的TF-IDF值按由大到小进行排序，保留每篇文档中排名前N的词语作为重要单词，滤掉排名N以后的词语，得到包含有用单词正文的样本文档的最终特征向量。

4.根据权利要求1所述的一种基于vonMises-Fisher概率模型的网页分类方法，其特征在于：所述的vonMises-Fisher混合概率模型G(X)为：

G (X) = Σ_{i = 1}^{I} π_{i} f_{p} {(X; μ_{i}, k_{i})}_{i}

其中，i＝1,2,…,I，I为多峰vonMises-Fisher概率模型中单峰vonMises-Fisher概率模型的个数，π_i表示第i个单峰vonMises-Fisher概率模型的权重；

所述的单峰vonMises-Fisher概率模型的概率密度函数f_p(X；μ，k)为：

f_p(X；μ，k)＝C_p(k)exp(kμ^TX)

C_{p} (k) = \frac{k^{\frac{p}{2} - 1}}{{(2 π)}^{\frac{p}{2}} I_{\frac{p}{2} - 1} (k)}

其中，p为单峰vonMises-Fisher概率模型的概率密度函数分布的维度；μ为单峰vonMises-Fisher概率模型的平均方向；k为密度参数，是阶数为(p/2-1)的第一类修正贝塞尔函数；X＝M/L＝(x₁,x₂,……,x_n)，L＝|M|²，M为特征向量。