CN113626604B - 基于最大间隔准则的网页文本分类系统 - Google Patents

基于最大间隔准则的网页文本分类系统 Download PDF

Info

Publication number
CN113626604B
CN113626604B CN202110997675.8A CN202110997675A CN113626604B CN 113626604 B CN113626604 B CN 113626604B CN 202110997675 A CN202110997675 A CN 202110997675A CN 113626604 B CN113626604 B CN 113626604B
Authority
CN
China
Prior art keywords
text
feature
classification
item
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110997675.8A
Other languages
English (en)
Other versions
CN113626604A (zh
Inventor
张莉
金玲彬
苏畅之
赵雷
王邦军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202110997675.8A priority Critical patent/CN113626604B/zh
Publication of CN113626604A publication Critical patent/CN113626604A/zh
Application granted granted Critical
Publication of CN113626604B publication Critical patent/CN113626604B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于最大间隔准则的网页文本分类系统,其包括:文本预处理模块,用于对原始文本数据进行预处理并提取文本数据;文本表示模块,用于结合文本的向量空间表示,计算特征项权重,对提取的文本数据进行表示;特征项排序模块,用于基于最大间隔准则对特征项进行相关性排序;文本分类模块,用于利用特征选择后的训练集文本构建分类模型,并利用所述分类模型对特征选择后的测试集文本进行分类。本发明基于最大间隔准则的网页文本分类系统在选择较少数量的特征项时,能够选择出更具有判别性的特征词,提高了网页文本分类的性能,具有适用性强,准确度高的优点。

Description

基于最大间隔准则的网页文本分类系统
技术领域
本发明涉及文本分类技术领域,特别涉及一种基于最大间隔准则的网页文本分类系统。
背景技术
文本数据作为人们表达和接收信息的主要媒介,在互联网的资源中占绝大多数。因此,高效地从海量的文本数据中挖掘出有价值的信息是非常有必要的。其中,文本分类作为一种文本处理技术,在主题检测、情感分析、垃圾邮件过滤和网页分类等领域有广泛的应用。特别是在网页分类任务中,在如此大的范围内搜索信息是一个很大的挑战,而将文档排列成不同的类别会减少用户查询的搜索空间。
基于机器学习技术的文本分类主要包括文本预处理、文本表示和加权以及分类等步骤。词袋模型结合文本的向量空间表示具有高维性和稀疏性,为了避免维数灾难并且获得良好的分类性能,在文本分类任务中进行特征降维是必要的。过滤式特征选择方法因其可解释性以及高效性得到了广泛的研究。在文本分类中,特征项在不同类别中的文档频率经常被用来评估特征项的相关性。Rehman等人在“Feature selection based on anormalized difference measure for text classification”中提出了归一化差异度量(Normalized Difference Measure,NDM)。该方法通过考虑特征项的相对文档频率大小,解决了特征项类间文档频率相等,但相关性程度不同的问题。Rehman等人在“Selection ofthe most relevant terms based on a max-min ratio metric for textclassification”中提出了最大最小比方法(Max-Min Ratio,MMR)。MMR通过取特征项类间文档频率最大的方式来降低稀有词的权重。Kyoungok Kim等人在“Trigonometriccomparison measure:A feature selection method for text categorization”中提出了三角比较度量(Trigonometric Comparison Measure,TCM)。TCM在考虑了特征项在不同类别中的文档频率的同时,通过参数k来控制提高只出现在一类中特征项的权重。上述算法在文本语料库很大、语料库类高度不平衡或者稀有词较多的情况下,参数的设置是一个挑战。
发明内容
本发明要解决的技术问题是提供一种性能好、准确度高的基于最大间隔准则的网页文本分类系统。
为了解决上述问题,本发明提供了基于最大间隔准则的网页文本分类系统,其包括以下步骤:
文本预处理模块,用于对原始文本数据进行预处理并提取文本数据;
文本表示模块,用于结合文本的向量空间表示,计算特征项权重,对提取的文本数据进行表示;
特征项排序模块,用于基于最大间隔准则对特征项进行相关性排序;
文本分类模块,用于利用特征选择后的训练集文本构建分类模型,并利用所述分类模型对特征选择后的测试集文本进行分类。
作为本发明的进一步改进,所述结合文本的向量空间表示,计算特征项权重,对提取的文本数据进行表示,包括:
S11、结合文本的向量空间表示,选择词t作为文本的特征项;
S12、输入的文本语料库包含N个文档和M个特征项,从文本语料库中统计出文档频次矩阵和词频矩阵;
S13、特征项权重采用TF-IDF计算方法,得到文本的权重表示矩阵。
作为本发明的进一步改进,所述文档频次矩阵
Figure BDA0003234389660000021
所述词频矩阵
Figure BDA0003234389660000022
其中,
Figure BDA0003234389660000023
是第j个特征项在第i个文档中的文档频次,若特征项出现在该文档中则为1,否则为0;
Figure BDA0003234389660000024
是第j个特征项在第i个文档中出现的次数。
作为本发明的进一步改进,所述文本的权重表示矩阵为:
Figure BDA0003234389660000031
其中,
Figure BDA0003234389660000032
Nj是第j个特征项在文本语料库中出现过的文档数量。
作为本发明的进一步改进,所述基于最大间隔准则对特征项进行相关性排序,包括:
S21、通过对文档频次矩阵进行统计,获得类别在特征项上的文档频率分布以及特征项在类别上的文档频率分布,构建最大间隔准则;
S22、通过最大间隔准则计算出文本语料库中每个特征项的判别相关性得分,按照得分降序排列得到特征项重要程度序列。
作为本发明的进一步改进,所述文本语料库中每个特征项的判别相关性得分MMC(t)的公式如下:
Figure BDA0003234389660000033
其中,Ci表示第i个类别,文本语料库共有k个类别;p(Ci|t)是特征项出现时类别Ci文档频率,
Figure BDA0003234389660000034
是特征项出现时类别不是Ci文档频率,p(t|Ci)是属于Ci的文档中包含特征项t的文档频率,
Figure BDA0003234389660000035
是不属于Ci的文档中包含特征项t的文档频率。
作为本发明的进一步改进,还包括:
分类性能评估模块,用于对分类模型进行性能评估。
作为本发明的进一步改进,所述预处理包括文本分词。
作为本发明的进一步改进,所述预处理包括文本清洗。
作为本发明的进一步改进,所述预处理包括文本标准化。
本发明的有益效果:
本发明基于最大间隔准则的网页文本分类系统在选择较少数量的特征项时,能够选择出更具有判别性的特征词,提高了网页文本分类的性能,具有适用性强,准确度高的优点。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1是本发明优选实施例中基于最大间隔准则的网页文本分类系统的示意图;
图2是本发明优选实施例中基于最大间隔准则的网页文本分类系统的文本分类流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
如图1所示,本发明优选实施例中的基于最大间隔准则的网页文本分类系统包括以下模块:
文本预处理模块,用于对原始文本数据进行预处理并提取文本数据;
所述预处理包括:
文本分词:基于不同语种,结合不同分词算法进行文本分词。
文本清洗:结合文本语料库的领域和任务,去除可能干扰文本分析的字符、数字和文本:并且,利用标准停用词表,去除文本中的停用词。
文本标准化:词干提取只适用于部分语种文本,最常见的是Porters算法,对英语很有效。
文本表示模块,用于结合文本的向量空间表示,计算特征项权重,对提取的文本数据进行表示;具体包括:
S11、结合文本的向量空间表示,选择词t作为文本的特征项;
S12、输入的文本语料库包含N个文档和M个特征项,从文本语料库中统计出文档频次矩阵
Figure BDA0003234389660000051
和词频矩阵
Figure BDA0003234389660000052
其中,
Figure BDA0003234389660000053
是第j个特征项在第i个文档中的文档频次,若特征项出现在该文档中则为1,否则为0;
Figure BDA0003234389660000054
是第j个特征项在第i个文档中出现的次数。
S13、特征项权重采用TF-IDF计算方法,得到文本的权重表示矩阵:
Figure BDA0003234389660000055
其中,
Figure BDA0003234389660000056
Nj是第j个特征项在文本语料库中出现过的文档数量。
特征项排序模块,用于基于最大间隔准则对特征项进行相关性排序;具体包括:
S21、通过对文档频次矩阵进行统计,获得类别在特征项上的文档频率分布以及特征项在类别上的文档频率分布,构建最大间隔准则:
Figure BDA0003234389660000057
其中,Ci表示第i个类别,文本语料库共有k个类别;p(Ci|t)是特征项出现时类别Ci文档频率,
Figure BDA0003234389660000058
是特征项出现时类别不是Ci文档频率,p(t|Ci)是属于Ci的文档中包含特征项t的文档频率,
Figure BDA0003234389660000059
是不属于Ci的文档中包含特征项t的文档频率。
S22、通过最大间隔准则计算出文本语料库中每个特征项的判别相关性得分MMC(t),按照得分降序排列得到特征项重要程度序列。
文本分类模块,用于利用特征选择后的训练集文本构建分类模型,并利用所述分类模型对特征选择后的测试集文本进行分类。参照图2。
其中,文本分类模块是利用已有的分类器来处理上述经过特征选择后的数据集。一般来说,可以由两个阶段构成,分别为学习阶段和分类阶段,其中学习阶段的主要任务是根据特征选择后的训练集文本构建一个分类模型,分类阶段是利用学习阶段构建好的分类模型对特征选择后的测试集文本进行分类。
进一步的,该系统还包括:
分类性能评估模块,用于对分类模型进行性能评估。
在一具体实施例中,选取了WebACE Project中的Wap文本数据集进行测试,该数据集被分为20个类别,共包含1560个网页,8460个特征项。同时,Wap文本语料库类倾斜度高,适合验证本发明的性能。具体实施步骤如下:
一、通过文本预处理模块对原始文本数据进行预处理并提取文本数据,具体包括:
(1)文本分词。Wap文本数据集用英文表示,利用python第三方库nltk提供的word_tokenize工具对文本进行分词。
(2)文本清洗。去除可能干扰文本分析的字符、数字和文本。并且,根据python第三方库nltk提供的标准停用词表,去除Wap文本数据集中的停用词。
(3)文本标准化。利用Porters算法对Wap文本数据集进行词干提取,获得8460个特征项(词)。
二、通过文本表示模块结合文本的向量空间表示,计算特征项权重,对提取的文本数据进行表示,具体包括:
Wap文本语料库包含1560个文档和8460个特征项,从文本语料库中统计出文档频次矩阵
Figure BDA0003234389660000061
和词频矩阵
Figure BDA0003234389660000062
其中
Figure BDA0003234389660000063
是第j个特征项在第i个文档中的文档频次,若出现在该文档则为1,否则为0。
Figure BDA0003234389660000064
是第j个特征项在第i个文档中出现的次数。特征项权重采用TF-IDF计算方式,得到文本的权重表示矩阵
Figure BDA0003234389660000065
其中
Figure BDA0003234389660000066
Figure BDA0003234389660000067
Nj是第j个特征项在文本语料库中出现过的文档数量。
三、通过特征项排序模块基于最大间隔准则对特征项进行相关性排序;
四、通过文本分类模块利用特征选择后的训练集文本构建分类模型,并利用所述分类模型对特征选择后的测试集文本进行分类。
进一步的,为了验证本发明的性能,采用五折交叉验证的方式,将Wap数据集随机划分为五份,每次实验选择其中一份作为测试集,其余四份作为训练集进行特征项排序。选择特征项数量为[10,20,100,200,500,1000,1500],利用线性支持向量机、逻辑回归以及多项式分布朴素贝叶斯三种分类器在选择不同数量特征项时对测试集进行分类,对最终结果取五次实验的均值。文本特征选择对比方法包括归一化差异度量(NDM)、最大最小比(MMR)以及三角比较度量(TCM)。采用宏平均F1值(Macro-F1)和微平均F1值(Micro-F1)两个指标衡量网页文本分类效果,结果如表1和表2所示。在三个分类器上,可以看出本发明相较于其他方法,在选择较少数量的特征项时,能够选择出更具有判别性的特征词,提高了网页文本分类的性能。
表1文本特征选择的Micro-F1结果对比
Figure BDA0003234389660000071
表2文本特征选择的Macro-F1结果对比
Figure BDA0003234389660000072
本发明基于最大间隔准则的网页文本分类系统在选择较少数量的特征项时,能够选择出更具有判别性的特征词,提高了网页文本分类的性能,具有适用性强,准确度高的优点。
以上实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (7)

1.基于最大间隔准则的网页文本分类系统,其特征在于,包括:
文本预处理模块,用于对原始文本数据进行预处理并提取文本数据;
文本表示模块,用于结合文本的向量空间表示,计算特征项权重,对提取的文本数据进行表示;
特征项排序模块,用于基于最大间隔准则对特征项进行相关性排序;
文本分类模块,用于利用特征选择后的训练集文本构建分类模型,并利用所述分类模型对特征选择后的测试集文本进行分类;
所述结合文本的向量空间表示,计算特征项权重,对提取的文本数据进行表示,包括:
S11、结合文本的向量空间表示,选择词t作为文本的特征项;
S12、输入的文本语料库包含N个文档和M个特征项,从文本语料库中统计出文档频次矩阵和词频矩阵;
S13、特征项权重采用TF-IDF计算方法,得到文本的权重表示矩阵;
所述基于最大间隔准则对特征项进行相关性排序,包括:
S21、通过对文档频次矩阵进行统计,获得类别在特征项上的文档频率分布以及特征项在类别上的文档频率分布,构建最大间隔准则;
S22、通过最大间隔准则计算出文本语料库中每个特征项的判别相关性得分,按照得分降序排列得到特征项重要程度序列;
所述文本语料库中每个特征项的判别相关性得分MMC(t)的公式如下:
Figure FDA0003679797070000011
其中,Ci表示第i个类别,文本语料库共有k个类别;p(Ci|t)是特征项出现时类别Ci文档频率,
Figure FDA0003679797070000012
是特征项出现时类别不是Ci文档频率,p(t|Ci)是属于Ci的文档中包含特征项t的文档频率,
Figure FDA0003679797070000013
是不属于Ci的文档中包含特征项t的文档频率。
2.如权利要求1所述的基于最大间隔准则的网页文本分类系统,其特征在于,所述文档频次矩阵
Figure FDA0003679797070000021
所述词频矩阵
Figure FDA0003679797070000022
其中,
Figure FDA0003679797070000023
是第j个特征项在第i个文档中的文档频次,若特征项出现在该文档中则为1,否则为0;
Figure FDA0003679797070000024
是第j个特征项在第i个文档中出现的次数。
3.如权利要求2所述的基于最大间隔准则的网页文本分类系统,其特征在于,所述文本的权重表示矩阵为:
Figure FDA0003679797070000025
其中,
Figure FDA0003679797070000026
Nj是第j个特征项在文本语料库中出现过的文档数量。
4.如权利要求1所述的基于最大间隔准则的网页文本分类系统,其特征在于,还包括:
分类性能评估模块,用于对分类模型进行性能评估。
5.如权利要求1所述的基于最大间隔准则的网页文本分类系统,其特征在于,所述预处理包括文本分词。
6.如权利要求1所述的基于最大间隔准则的网页文本分类系统,其特征在于,所述预处理包括文本清洗。
7.如权利要求1所述的基于最大间隔准则的网页文本分类系统,其特征在于,所述预处理包括文本标准化。
CN202110997675.8A 2021-08-27 2021-08-27 基于最大间隔准则的网页文本分类系统 Active CN113626604B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110997675.8A CN113626604B (zh) 2021-08-27 2021-08-27 基于最大间隔准则的网页文本分类系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110997675.8A CN113626604B (zh) 2021-08-27 2021-08-27 基于最大间隔准则的网页文本分类系统

Publications (2)

Publication Number Publication Date
CN113626604A CN113626604A (zh) 2021-11-09
CN113626604B true CN113626604B (zh) 2022-07-26

Family

ID=78388183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110997675.8A Active CN113626604B (zh) 2021-08-27 2021-08-27 基于最大间隔准则的网页文本分类系统

Country Status (1)

Country Link
CN (1) CN113626604B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114610877B (zh) * 2022-02-23 2023-04-25 苏州大学 基于判别方差准则的影评情感分析预处理方法及系统
CN114996446B (zh) * 2022-05-18 2023-08-25 苏州大学 一种文本分类方法、装置及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567308A (zh) * 2011-12-20 2012-07-11 上海电机学院 一种信息处理特征提取方法
CN102930063B (zh) * 2012-12-05 2015-06-24 电子科技大学 一种基于特征项选择与权重计算的文本分类方法
CN111709439B (zh) * 2020-05-06 2023-10-20 深圳万知达科技有限公司 基于词频偏差率因子的特征选择方法

Also Published As

Publication number Publication date
CN113626604A (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
CN109101477B (zh) 一种企业领域分类及企业关键词筛选方法
CN108509629B (zh) 一种基于情感词典和支持向量机的文本情感分析方法
CN100533441C (zh) 基于概率主题词的两级组合文本分类方法
CN109670014B (zh) 一种基于规则匹配和机器学习的论文作者名消歧方法
CN107122352A (zh) 一种基于k‑means、word2vec的抽取关键词的方法
CN113626604B (zh) 基于最大间隔准则的网页文本分类系统
CN109271517B (zh) Ig tf-idf文本特征向量生成及文本分类方法
CN109086375A (zh) 一种基于词向量增强的短文本主题抽取方法
Sabuna et al. Summarizing Indonesian text automatically by using sentence scoring and decision tree
Rasheed et al. Urdu text classification: a comparative study using machine learning techniques
Deniz et al. Effects of various preprocessing techniques to Turkish text categorization using n-gram features
CN111144106A (zh) 一种不平衡数据集下的两阶段文本特征选择方法
CN112527958A (zh) 用户行为倾向识别方法、装置、设备及存储介质
CN111680225A (zh) 基于机器学习的微信金融消息分析方法及系统
CN109376235A (zh) 基于文档层词频重排序的特征选择方法
CN106503153A (zh) 一种计算机文本分类体系、系统及其文本分类方法
Verdikha et al. Study of undersampling method: Instance hardness threshold with various estimators for hate speech classification
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
Amin et al. Multiclass classification for bangla news tags with parallel cnn using word level data augmentation
Portolese et al. On the use of synopsis-based features for film genre classification
CN112069307A (zh) 一种法律法条引用信息抽取系统
CN116881451A (zh) 基于机器学习的文本分类方法
CN114996446B (zh) 一种文本分类方法、装置及存储介质
CN111382273B (zh) 一种基于吸引因子的特征选择的文本分类方法
Menta et al. Authorship verification with neural networks via stylometric feature concatenation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant