CN105550292A - 一种基于von Mises-Fisher概率模型的网页分类方法 - Google Patents
一种基于von Mises-Fisher概率模型的网页分类方法 Download PDFInfo
- Publication number
- CN105550292A CN105550292A CN201510919129.7A CN201510919129A CN105550292A CN 105550292 A CN105550292 A CN 105550292A CN 201510919129 A CN201510919129 A CN 201510919129A CN 105550292 A CN105550292 A CN 105550292A
- Authority
- CN
- China
- Prior art keywords
- word
- fisher
- vonmises
- web page
- probability model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于von?Mises-Fisher概率模型的网页分类方法,属于互联网及机器学习技术领域。所述方法首先对训练样本进行数据预处理、特征提取和特征筛选后建模,然后将待分类网页的特征向量代入模型中实现最终分类。本发明对所得特征向量进行二范数归一化,在消除文本长度对特征向量影响的同时可为von?Mises-Fisher模型建模做准备;使用von?Mises-Fisher概率模型对文本特征向量进行建模,此模型为首次应用于自然语言处理领域。
Description
技术领域
本发明属于互联网及机器学习技术领域,涉及自然语言处理,具体涉及一种基于正文内容的网页分类方法。
背景技术
自然语言处理技术研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。一个中文文本或一个汉字(含标点符号等)串可能有多个含义。它是自然语言理解中的主要困难和障碍。因此,自然语言的形式(字符串)与其意义之间是一种多对多的关系。但从计算机处理的角度看,我们必须消除歧义。歧义现象的广泛存在使得消除它们需要大量的知识和推理,这就给基于语言学的方法、基于知识的方法带来了巨大的困难,因而以这些方法为主流的自然语言处理研究几十年来一方面在理论和方法方面取得了很多成就,但在能处理大规模真实文本的系统研制方面,成绩并不显著。研制的一些系统大多数是小规模的、研究性的演示系统。
目前存在的问题有两个方面:一方面,迄今为止的语法都限于分析一个孤立的句子,上下文关系和谈话环境对本句的约束和影响还缺乏系统的研究,因此分析歧义、词语省略、代词所指、同一句话在不同场合或由不同的人说出来所具有的不同含义等问题,尚无明确规律可循,需要加强语言学的研究才能逐步解决。另一方面,人理解一个句子不是单凭语法,还运用了大量的有关知识,包括生活知识和专门知识,这些知识无法全部贮存在计算机里。因此一个书面理解系统只能建立在有限的词汇、句型和特定的主题范围内;计算机的贮存量和运转速度大大提高之后,才有可能适当扩大范围。
许多不同类的机器学习算法已应用于自然语言处理任务。这些算法的输入是一大组从输入数据生成的“特征”。一些最早使用的算法,如决策树、逻辑回归和朴素贝叶斯分布等。然而,越来越多的研究集中于统计模型,此类模型具有能够表达许多不同的可能的答案,而不是只有一个相对的确定性。产生更可靠的结果时,这种模型被包括作为较大系统的一个组成部分的优点。
发明内容
本发明采用一种未在自然语言处理领域使用过的vonMises-Fisher概率模型,通过网页正文内容进行特征提取及建模,基于所得的概率密度函数进行分类,达到了更高的网页分类准确度,具有效率高、分类准确度高等优势。
本发明提供一种基于vonMises-Fisher概率模型的网页分类方法,包括以下步骤:
步骤1:数据预处理:对于训练样本,去除无用信息,得到第一行为样本类别标签的样本文档。所述的训练样本为带有类别标签的网页。
步骤2:特征提取:采用向量空间模型对样本文档进行建模,统计样本文档中各单词作为特征,单词出现的频率作为特征值。
步骤3:特征筛选:计算单词的TF-IDF(TermFrequency–InverseDocumentFrequency)值,按TF-IDF值大小排序,筛选具有代表性的单词,组成最终的特征向量。
步骤4:建模:使用vonMises-Fisher混合概率模型对特征向量进行建模,得到各类别的vonMises-Fisher混合概率模型。
步骤5:网页分类:根据vonMises-Fisher混合概率模型,统计样本文档特征向量中出现的所有词汇在待分类网页中出现的次数,得到待分类网页的特征向量,将待分类网页的特征向量带入各概率密度函数,从而完成分类。
本发明一种基于vonMises-Fisher概率模型的网页分类方法的优点在于:
(1)对所得特征向量进行二范数归一化,在消除文本长度对特征向量影响的同时可为vonMises-Fisher概率模型建模做准备。
(2)使用vonMises-Fisher概率模型对文本特征向量进行建模,此模型为首次应用于自然语言处理领域。
附图说明
图1为本发明的网页分类方法总体流程图;
图2为步骤4流程图。
具体实施方式
下面结合附图和实施例对本发明进行详细说明。
本发明提供一种基于vonMises-Fisher概率模型的网页分类方法,采用一种未在自然语言处理领域使用过的vonMises-Fisher概率模型,通过对预处理后的网页正文内容进行特征提取及建模,基于所得的概率密度函数进行分类,达到了更高的网页分类准确度,具有效率高,分类准确度高等优势。所述的vonMises-Fisher概率模型也称冯·米泽斯-费舍概率模型,参见参考文献[1]:Sra,S.‘AshortnoteonparameterapproximationforvonMises-Fisherdistributions:AndafastimplementationofIs(x)’.ComputationalStatistics27:177–190。
实施平台:Python
本发明提供的基于vonMises-Fisher概率模型的网页分类方法,如图1所示流程,包括以下步骤:
步骤1:数据预处理。
获取带有类别标签的训练样本(网页正文内容),所述的训练样本内容包含广告、标点、语气词、助词等无用信息,且网页正文内容为长文本形式。所以获取训练样本后,首先将长文本拆分为多个词语,并根据停用词表去除训练样本中的无意义词汇,从而获得有效可用的分类信息。
具体处理方法为:首先对网页正文内容中的长文本进行分词,将词语用“/”隔开。分词完毕后,去掉网页正文内容中的标点、符号、语气词和助词等无用词汇(可以参考现有停用词表进行)。并将已知的样本类别标签写入网页正文内容的第一行,从而得到规范的网页正文内容,即包含有用单词正文的样本文档。
步骤2:特征提取;
本分类方法使用向量空间模型对包含有用单词正文的样本文档进行建模,将每一包含有用单词正文的样本文档用一向量表示,向量的每一维为包含有用单词正文的样本文档的一个特征。将单词作为特征,单词在包含有用单词正文的样本文档中出现的频率作为特征值。
步骤3:特征筛选;
若将所有单词都作为特征,会导致特征向量维数过大,冗余过多,严重影响分类效率。所以,需要对单词特征进行筛选,保留比较有代表性的特征词,从而在不影响分类准确率的情况下使分类高效进行。
本发明中根据特征词的TF-IDF值进行特征筛选。TF-IDF值的具体计算方法为:
TF-IDF=TF*IDF
TF是指某一给定的单词在包含有用单词正文的样本文档中出现的频率。TF要对词数进行归一化,以防止TF偏向长的文件(同一个单词在长文件里可能会比短文件有更高的词数,而不管该单词重要与否)。单词i的词频tfi,j的计算公式为:
其中,ni,j为单词i在包含有用单词正文的样本文档j中出现的次数,Σknk,j为包含有用单词正文的样本文档j中包含的单词总数。IDF,即逆向文档频率,是一个单词普遍重要性的度量。某一特定单词i的逆向文档频率idfi,可以由总文件数目C除包含该单词之文件的数目|D|,再将得到的商取对数得到:
其中,|D|为语料库中的包含有用单词正文的样本文档总数,C表示包含单词i的包含有用单词正文的样本文档总数。某一特定文件内的高单词频率,以及该单词在整个包含有用单词正文的样本文档集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF可以过滤掉常见的词语,保留重要的词语。
将上述计算得到的单词的TF-IDF值按由大到小进行排序,保留每篇文档中排名前N的词语作为重要单词,滤掉排名N以后的词语。特征筛选后,保留的重要单词组成包含有用单词正文的样本文档的最终特征向量。
步骤4:建模;
设步骤3所得特征向量为M=(m1,m2,……,mn)。首先对特征向量M做二范数归一化,得到向量X=M/L=(x1,x2,……,xn),其中,L=|M|2。对向量X进行单峰vonMises-fisher概率模型建模。单峰vonMises-Fisher分布的概率密度函数fp(X;μ,k)为:
fp(X;μ,k)=Cp(k)exp(kμTX)
其中,p为单峰vonMises-Fisher分布的概率密度函数分布的维度,我们取p=3;μ为单峰vonMises-Fisher分布的平均方向;k为密度参数,k越大,平均方向μ附近的分布越密集。是阶数为的第一类修正贝塞尔函数。
为了更好的描述网页分类的多峰特性,我们使用vonMises-Fisher混合概率模型G(X),即:
进行建模,其中,i=1,2,…,I,I为vonMises-Fisher混合概率模型中单峰vonMises-Fisher概率模型的个数,πi表示第i个单峰vonMises-Fisher概率模型的权重。
根据各类别样本文档的特征向量,使用EM(ExpectationMaximization)算法计算出各类别对应的vonMises-Fisher混合模型的参数。最终每一类别对应一个vonMises-Fisher混合概率模型(概率密度函数)
步骤5:网页分类;
将待分类网页执行步骤1,做同样的预处理,并统计样本文档特征向量中出现的所有词汇在待分类网页中出现的次数,得到待分类网页的特征向量。将每个待分类网页的特征向量分别带入各类别对应的vonMises-Fisher混合概率模型,得到的概率密度函数值越大,待分类网页属于该类别的可能性越大,认为待分类网页属于该类别,从而完成分类。
Claims (4)
1.一种基于vonMises-Fisher概率模型的网页分类方法,其特征在于:包括以下步骤,
步骤1:数据预处理:对于训练样本,去除无用信息,得到第一行为样本类别标签的样本文档;所述的训练样本为带有类别标签的网页;
步骤2:特征提取:采用向量空间模型对样本文档进行建模,统计样本文档中各单词作为特征,单词出现的频率作为特征值;
步骤3:特征筛选:计算单词的TF-IDF值,按TF-IDF值大小排序,筛选具有代表性的单词,组成最终的特征向量;
步骤4:建模:使用vonMises-Fisher混合概率模型对特征向量进行建模,得到各类别的vonMises-Fisher混合概率模型;
步骤5:网页分类:根据vonMises-Fisher混合概率模型,统计样本文档特征向量中出现的所有词汇在待分类网页中出现的次数,得到待分类网页的特征向量,将待分类网页的特征向量带入各概率密度函数,从而完成分类。
2.根据权利要求1所述的一种基于vonMises-Fisher概率模型的网页分类方法,其特征在于:所述的数据预处理具体处理方法为:对网页正文内容中的长文本进行分词,将词语用“/”隔开;分词完毕后,去掉网页正文内容中的标点、符号、语气词和助词,并将已知的样本类别标签写入网页正文内容的第一行,从而得到规范的网页正文内容,即包含有用单词正文的样本文档。
3.根据权利要求1所述的一种基于vonMises-Fisher概率模型的网页分类方法,其特征在于:所述的TF-IDF值的具体计算方法为:
TF-IDF=TF*IDF
TF是指某一给定的单词在包含有用单词正文的样本文档中出现的频率,单词i的词频tfi,j的计算公式为:
其中,ni,j为单词i在包含有用单词正文的样本文档j中出现的次数,Σknk,j为包含有用单词正文的样本文档j中包含的单词总数,IDF,即逆向文档频率,某一特定单词i的逆向文档频率idfi为:
其中,|D|为语料库中的包含有用单词正文的样本文档总数,C表示包含单词i的包含有用单词正文的样本文档总数;
将上述计算得到的单词的TF-IDF值按由大到小进行排序,保留每篇文档中排名前N的词语作为重要单词,滤掉排名N以后的词语,得到包含有用单词正文的样本文档的最终特征向量。
4.根据权利要求1所述的一种基于vonMises-Fisher概率模型的网页分类方法,其特征在于:所述的vonMises-Fisher混合概率模型G(X)为:
其中,i=1,2,…,I,I为多峰vonMises-Fisher概率模型中单峰vonMises-Fisher概率模型的个数,πi表示第i个单峰vonMises-Fisher概率模型的权重;
所述的单峰vonMises-Fisher概率模型的概率密度函数fp(X;μ,k)为:
fp(X;μ,k)=Cp(k)exp(kμTX)
其中,p为单峰vonMises-Fisher概率模型的概率密度函数分布的维度;μ为单峰vonMises-Fisher概率模型的平均方向;k为密度参数,是阶数为(p/2-1)的第一类修正贝塞尔函数;X=M/L=(x1,x2,……,xn),L=|M|2,M为特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510919129.7A CN105550292B (zh) | 2015-12-11 | 2015-12-11 | 一种基于von Mises-Fisher概率模型的网页分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510919129.7A CN105550292B (zh) | 2015-12-11 | 2015-12-11 | 一种基于von Mises-Fisher概率模型的网页分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105550292A true CN105550292A (zh) | 2016-05-04 |
CN105550292B CN105550292B (zh) | 2018-06-08 |
Family
ID=55829481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510919129.7A Active CN105550292B (zh) | 2015-12-11 | 2015-12-11 | 一种基于von Mises-Fisher概率模型的网页分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105550292B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647059A (zh) * | 2018-05-21 | 2018-10-12 | Oppo广东移动通信有限公司 | 应用程序预测方法、装置、存储介质及移动终端 |
CN110287409A (zh) * | 2019-06-05 | 2019-09-27 | 新华三信息安全技术有限公司 | 一种网页类型识别方法及装置 |
CN110992106A (zh) * | 2019-12-11 | 2020-04-10 | 上海风秩科技有限公司 | 训练数据获取方法,装置,模型训练方法及装置 |
CN113011503A (zh) * | 2021-03-17 | 2021-06-22 | 彭黎文 | 一种电子设备的数据取证方法、存储介质及终端 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079026A (zh) * | 2007-07-02 | 2007-11-28 | 北京百问百答网络技术有限公司 | 文本相似度、词义相似度计算方法和系统及应用系统 |
CN104866554A (zh) * | 2015-05-15 | 2015-08-26 | 大连理工大学 | 一种基于社会化标注的个性化搜索方法及系统 |
CN104881458A (zh) * | 2015-05-22 | 2015-09-02 | 国家计算机网络与信息安全管理中心 | 一种网页主题的标注方法和装置 |
-
2015
- 2015-12-11 CN CN201510919129.7A patent/CN105550292B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079026A (zh) * | 2007-07-02 | 2007-11-28 | 北京百问百答网络技术有限公司 | 文本相似度、词义相似度计算方法和系统及应用系统 |
CN104866554A (zh) * | 2015-05-15 | 2015-08-26 | 大连理工大学 | 一种基于社会化标注的个性化搜索方法及系统 |
CN104881458A (zh) * | 2015-05-22 | 2015-09-02 | 国家计算机网络与信息安全管理中心 | 一种网页主题的标注方法和装置 |
Non-Patent Citations (2)
Title |
---|
A.BANERJEE 等人: "Clustering on the Unit Hypersphere Using Von Mises-Fisher", 《JOURNAL OF MACHINE LEARNING RESEARCH》 * |
张亮: "基于机器学习的信息过滤和信息检索的模型和算法研究", 《中国博士学位论文全文数据库》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647059A (zh) * | 2018-05-21 | 2018-10-12 | Oppo广东移动通信有限公司 | 应用程序预测方法、装置、存储介质及移动终端 |
CN110287409A (zh) * | 2019-06-05 | 2019-09-27 | 新华三信息安全技术有限公司 | 一种网页类型识别方法及装置 |
CN110287409B (zh) * | 2019-06-05 | 2022-07-22 | 新华三信息安全技术有限公司 | 一种网页类型识别方法及装置 |
CN110992106A (zh) * | 2019-12-11 | 2020-04-10 | 上海风秩科技有限公司 | 训练数据获取方法,装置,模型训练方法及装置 |
CN110992106B (zh) * | 2019-12-11 | 2023-11-03 | 上海风秩科技有限公司 | 训练数据获取方法,装置,模型训练方法及装置 |
CN113011503A (zh) * | 2021-03-17 | 2021-06-22 | 彭黎文 | 一种电子设备的数据取证方法、存储介质及终端 |
CN113011503B (zh) * | 2021-03-17 | 2021-11-23 | 彭黎文 | 一种电子设备的数据取证方法、存储介质及终端 |
Also Published As
Publication number | Publication date |
---|---|
CN105550292B (zh) | 2018-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Murdoch et al. | Beyond word importance: Contextual decomposition to extract interactions from lstms | |
CN106844424A (zh) | 一种基于lda的文本分类方法 | |
El-Halees | Mining opinions in user-generated contents to improve course evaluation | |
CN103902570A (zh) | 一种文本分类特征提取方法、分类方法及装置 | |
CN104850617B (zh) | 短文本处理方法及装置 | |
CN113590764B (zh) | 训练样本构建方法、装置、电子设备和存储介质 | |
KR20180077690A (ko) | 문서의 내러티브 학습 장치 및 방법, 문서의 내러티브 생성 장치 및 방법 | |
CN101714135B (zh) | 一种跨领域文本情感倾向性分析方法 | |
Rashid et al. | Feature level opinion mining of educational student feedback data using sequential pattern mining and association rule mining | |
CN105550292A (zh) | 一种基于von Mises-Fisher概率模型的网页分类方法 | |
Liew et al. | Optimizing features in active machine learning for complex qualitative content analysis | |
Wang et al. | Sentiment classification of documents based on latent semantic analysis | |
CN107609113A (zh) | 一种文本自动分类方法 | |
CN107862051A (zh) | 一种文件分类方法、系统及一种文件分类设备 | |
CN102163189B (zh) | 从评论性文本中提取评价性信息的方法和装置 | |
Bölücü et al. | Hate Speech and Offensive Content Identification with Graph Convolutional Networks. | |
Melamud et al. | Information-theory interpretation of the skip-gram negative-sampling objective function | |
CN104572613A (zh) | 数据处理装置、数据处理方法和程序 | |
CN109299007A (zh) | 一种缺陷修复者自动推荐方法 | |
CN103886097A (zh) | 基于自适应提升算法的中文微博观点句识别特征的提取方法 | |
Kostkina et al. | Document categorization based on usage of features reduction with synonyms clustering in weak semantic map | |
CN102622405B (zh) | 基于语言实义单元数估计的短文本间文本距离的计算方法 | |
CN106202116A (zh) | 一种基于粗糙集与knn的文本分类方法及系统 | |
Jayashree et al. | Suitability of naïve Bayesian methods for paragraph level text classification in the Kannada language using dimensionality reduction technique | |
Islam et al. | Natural Language Processing and Machine Learning Approaches to Detect Bangla Hate Speech on Social Media |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |