CN113626604A - 基于最大间隔准则的网页文本分类系统 - Google Patents
基于最大间隔准则的网页文本分类系统 Download PDFInfo
- Publication number
- CN113626604A CN113626604A CN202110997675.8A CN202110997675A CN113626604A CN 113626604 A CN113626604 A CN 113626604A CN 202110997675 A CN202110997675 A CN 202110997675A CN 113626604 A CN113626604 A CN 113626604A
- Authority
- CN
- China
- Prior art keywords
- text
- feature
- classification
- item
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于最大间隔准则的网页文本分类系统,其包括:文本预处理模块,用于对原始文本数据进行预处理并提取文本数据;文本表示模块,用于结合文本的向量空间表示,计算特征项权重,对提取的文本数据进行表示;特征项排序模块,用于基于最大间隔准则对特征项进行相关性排序;文本分类模块,用于利用特征选择后的训练集文本构建分类模型,并利用所述分类模型对特征选择后的测试集文本进行分类。本发明基于最大间隔准则的网页文本分类系统在选择较少数量的特征项时,能够选择出更具有判别性的特征词,提高了网页文本分类的性能,具有适用性强,准确度高的优点。
Description
技术领域
本发明涉及文本分类技术领域,特别涉及一种基于最大间隔准则的网页文本分类系统。
背景技术
文本数据作为人们表达和接收信息的主要媒介,在互联网的资源中占绝大多数。因此,高效地从海量的文本数据中挖掘出有价值的信息是非常有必要的。其中,文本分类作为一种文本处理技术,在主题检测、情感分析、垃圾邮件过滤和网页分类等领域有广泛的应用。特别是在网页分类任务中,在如此大的范围内搜索信息是一个很大的挑战,而将文档排列成不同的类别会减少用户查询的搜索空间。
基于机器学习技术的文本分类主要包括文本预处理、文本表示和加权以及分类等步骤。词袋模型结合文本的向量空间表示具有高维性和稀疏性,为了避免维数灾难并且获得良好的分类性能,在文本分类任务中进行特征降维是必要的。过滤式特征选择方法因其可解释性以及高效性得到了广泛的研究。在文本分类中,特征项在不同类别中的文档频率经常被用来评估特征项的相关性。Rehman等人在“Feature selection based on anormalized difference measure for text classification”中提出了归一化差异度量(Normalized Difference Measure,NDM)。该方法通过考虑特征项的相对文档频率大小,解决了特征项类间文档频率相等,但相关性程度不同的问题。Rehman等人在“Selection ofthe most relevant terms based on a max-min ratio metric for textclassification”中提出了最大最小比方法(Max-Min Ratio,MMR)。MMR通过取特征项类间文档频率最大的方式来降低稀有词的权重。Kyoungok Kim等人在“Trigonometriccomparison measure:A feature selection method for text categorization”中提出了三角比较度量(Trigonometric Comparison Measure,TCM)。TCM在考虑了特征项在不同类别中的文档频率的同时,通过参数k来控制提高只出现在一类中特征项的权重。上述算法在文本语料库很大、语料库类高度不平衡或者稀有词较多的情况下,参数的设置是一个挑战。
发明内容
本发明要解决的技术问题是提供一种性能好、准确度高的基于最大间隔准则的网页文本分类系统。
为了解决上述问题,本发明提供了基于最大间隔准则的网页文本分类系统,其包括以下步骤:
文本预处理模块,用于对原始文本数据进行预处理并提取文本数据;
文本表示模块,用于结合文本的向量空间表示,计算特征项权重,对提取的文本数据进行表示;
特征项排序模块,用于基于最大间隔准则对特征项进行相关性排序;
文本分类模块,用于利用特征选择后的训练集文本构建分类模型,并利用所述分类模型对特征选择后的测试集文本进行分类。
作为本发明的进一步改进,所述结合文本的向量空间表示,计算特征项权重,对提取的文本数据进行表示,包括:
S11、结合文本的向量空间表示,选择词t作为文本的特征项;
S12、输入的文本语料库包含N个文档和M个特征项,从文本语料库中统计出文档频次矩阵和词频矩阵;
S13、特征项权重采用TF-IDF计算方法,得到文本的权重表示矩阵。
作为本发明的进一步改进,所述文本的权重表示矩阵为:
作为本发明的进一步改进,所述基于最大间隔准则对特征项进行相关性排序,包括:
S21、通过对文档频次矩阵进行统计,获得类别在特征项上的文档频率分布以及特征项在类别上的文档频率分布,构建最大间隔准则;
S22、通过最大间隔准则计算出文本语料库中每个特征项的判别相关性得分,按照得分降序排列得到特征项重要程度序列。
作为本发明的进一步改进,所述文本语料库中每个特征项的判别相关性得分MMC(t)的公式如下:
其中,Ci表示第i个类别,文本语料库共有k个类别;p(Ci|t)是特征项出现时类别Ci文档频率,是特征项出现时类别不是Ci文档频率,p(t|Ci)是属于Ci的文档中包含特征项t的文档频率,是不属于Ci的文档中包含特征项t的文档频率。
作为本发明的进一步改进,还包括:
分类性能评估模块,用于对分类模型进行性能评估。
作为本发明的进一步改进,所述预处理包括文本分词。
作为本发明的进一步改进,所述预处理包括文本清洗。
作为本发明的进一步改进,所述预处理包括文本标准化。
本发明的有益效果:
本发明基于最大间隔准则的网页文本分类系统在选择较少数量的特征项时,能够选择出更具有判别性的特征词,提高了网页文本分类的性能,具有适用性强,准确度高的优点。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1是本发明优选实施例中基于最大间隔准则的网页文本分类系统的示意图;
图2是本发明优选实施例中基于最大间隔准则的网页文本分类系统的文本分类流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
如图1所示,本发明优选实施例中的基于最大间隔准则的网页文本分类系统包括以下模块:
文本预处理模块,用于对原始文本数据进行预处理并提取文本数据;
所述预处理包括:
文本分词:基于不同语种,结合不同分词算法进行文本分词。
文本清洗:结合文本语料库的领域和任务,去除可能干扰文本分析的字符、数字和文本:并且,利用标准停用词表,去除文本中的停用词。
文本标准化:词干提取只适用于部分语种文本,最常见的是Porters算法,对英语很有效。
文本表示模块,用于结合文本的向量空间表示,计算特征项权重,对提取的文本数据进行表示;具体包括:
S11、结合文本的向量空间表示,选择词t作为文本的特征项;
S13、特征项权重采用TF-IDF计算方法,得到文本的权重表示矩阵:
特征项排序模块,用于基于最大间隔准则对特征项进行相关性排序;具体包括:
S21、通过对文档频次矩阵进行统计,获得类别在特征项上的文档频率分布以及特征项在类别上的文档频率分布,构建最大间隔准则:
其中,Ci表示第i个类别,文本语料库共有k个类别;p(Ci|t)是特征项出现时类别Ci文档频率,是特征项出现时类别不是Ci文档频率,p(t|Ci)是属于Ci的文档中包含特征项t的文档频率,是不属于Ci的文档中包含特征项t的文档频率。
S22、通过最大间隔准则计算出文本语料库中每个特征项的判别相关性得分MMC(t),按照得分降序排列得到特征项重要程度序列。
文本分类模块,用于利用特征选择后的训练集文本构建分类模型,并利用所述分类模型对特征选择后的测试集文本进行分类。参照图2。
其中,文本分类模块是利用已有的分类器来处理上述经过特征选择后的数据集。一般来说,可以由两个阶段构成,分别为学习阶段和分类阶段,其中学习阶段的主要任务是根据特征选择后的训练集文本构建一个分类模型,分类阶段是利用学习阶段构建好的分类模型对特征选择后的测试集文本进行分类。
进一步的,该系统还包括:
分类性能评估模块,用于对分类模型进行性能评估。
在一具体实施例中,选取了WebACE Project中的Wap文本数据集进行测试,该数据集被分为20个类别,共包含1560个网页,8460个特征项。同时,Wap文本语料库类倾斜度高,适合验证本发明的性能。具体实施步骤如下:
一、通过文本预处理模块对原始文本数据进行预处理并提取文本数据,具体包括:
(1)文本分词。Wap文本数据集用英文表示,利用python第三方库nltk提供的word_tokenize工具对文本进行分词。
(2)文本清洗。去除可能干扰文本分析的字符、数字和文本。并且,根据python第三方库nltk提供的标准停用词表,去除Wap文本数据集中的停用词。
(3)文本标准化。利用Porters算法对Wap文本数据集进行词干提取,获得8460个特征项(词)。
二、通过文本表示模块结合文本的向量空间表示,计算特征项权重,对提取的文本数据进行表示,具体包括:
Wap文本语料库包含1560个文档和8460个特征项,从文本语料库中统计出文档频次矩阵和词频矩阵其中是第j个特征项在第i个文档中的文档频次,若出现在该文档则为1,否则为0。是第j个特征项在第i个文档中出现的次数。特征项权重采用TF-IDF计算方式,得到文本的权重表示矩阵其中 Nj是第j个特征项在文本语料库中出现过的文档数量。
三、通过特征项排序模块基于最大间隔准则对特征项进行相关性排序;
四、通过文本分类模块利用特征选择后的训练集文本构建分类模型,并利用所述分类模型对特征选择后的测试集文本进行分类。
进一步的,为了验证本发明的性能,采用五折交叉验证的方式,将Wap数据集随机划分为五份,每次实验选择其中一份作为测试集,其余四份作为训练集进行特征项排序。选择特征项数量为[10,20,100,200,500,1000,1500],利用线性支持向量机、逻辑回归以及多项式分布朴素贝叶斯三种分类器在选择不同数量特征项时对测试集进行分类,对最终结果取五次实验的均值。文本特征选择对比方法包括归一化差异度量(NDM)、最大最小比(MMR)以及三角比较度量(TCM)。采用宏平均F1值(Macro-F1)和微平均F1值(Micro-F1)两个指标衡量网页文本分类效果,结果如表1和表2所示。在三个分类器上,可以看出本发明相较于其他方法,在选择较少数量的特征项时,能够选择出更具有判别性的特征词,提高了网页文本分类的性能。
表1文本特征选择的Micro-F1结果对比
表2文本特征选择的Macro-F1结果对比
本发明基于最大间隔准则的网页文本分类系统在选择较少数量的特征项时,能够选择出更具有判别性的特征词,提高了网页文本分类的性能,具有适用性强,准确度高的优点。
以上实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。
Claims (10)
1.基于最大间隔准则的网页文本分类系统,其特征在于,包括:
文本预处理模块,用于对原始文本数据进行预处理并提取文本数据;
文本表示模块,用于结合文本的向量空间表示,计算特征项权重,对提取的文本数据进行表示;
特征项排序模块,用于基于最大间隔准则对特征项进行相关性排序;
文本分类模块,用于利用特征选择后的训练集文本构建分类模型,并利用所述分类模型对特征选择后的测试集文本进行分类。
2.如权利要求1所述的基于最大间隔准则的网页文本分类系统,其特征在于,所述结合文本的向量空间表示,计算特征项权重,对提取的文本数据进行表示,包括:
S11、结合文本的向量空间表示,选择词t作为文本的特征项;
S12、输入的文本语料库包含N个文档和M个特征项,从文本语料库中统计出文档频次矩阵和词频矩阵;
S13、特征项权重采用TF-IDF计算方法,得到文本的权重表示矩阵。
5.如权利要求2所述的基于最大间隔准则的网页文本分类系统,其特征在于,所述基于最大间隔准则对特征项进行相关性排序,包括:
S21、通过对文档频次矩阵进行统计,获得类别在特征项上的文档频率分布以及特征项在类别上的文档频率分布,构建最大间隔准则;
S22、通过最大间隔准则计算出文本语料库中每个特征项的判别相关性得分,按照得分降序排列得到特征项重要程度序列。
7.如权利要求1所述的基于最大间隔准则的网页文本分类系统,其特征在于,还包括:
分类性能评估模块,用于对分类模型进行性能评估。
8.如权利要求1所述的基于最大间隔准则的网页文本分类系统,其特征在于,所述预处理包括文本分词。
9.如权利要求1所述的基于最大间隔准则的网页文本分类系统,其特征在于,所述预处理包括文本清洗。
10.如权利要求1所述的基于最大间隔准则的网页文本分类系统,其特征在于,所述预处理包括文本标准化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110997675.8A CN113626604B (zh) | 2021-08-27 | 2021-08-27 | 基于最大间隔准则的网页文本分类系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110997675.8A CN113626604B (zh) | 2021-08-27 | 2021-08-27 | 基于最大间隔准则的网页文本分类系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113626604A true CN113626604A (zh) | 2021-11-09 |
CN113626604B CN113626604B (zh) | 2022-07-26 |
Family
ID=78388183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110997675.8A Active CN113626604B (zh) | 2021-08-27 | 2021-08-27 | 基于最大间隔准则的网页文本分类系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113626604B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114610877A (zh) * | 2022-02-23 | 2022-06-10 | 苏州大学 | 基于判别方差准则的影评情感分析预处理方法及系统 |
CN114996446B (zh) * | 2022-05-18 | 2023-08-25 | 苏州大学 | 一种文本分类方法、装置及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567308A (zh) * | 2011-12-20 | 2012-07-11 | 上海电机学院 | 一种信息处理特征提取方法 |
CN102930063A (zh) * | 2012-12-05 | 2013-02-13 | 电子科技大学 | 一种基于特征项选择与权重计算的文本分类方法 |
CN111709439A (zh) * | 2020-05-06 | 2020-09-25 | 西安理工大学 | 基于词频偏差率因子的特征选择方法 |
-
2021
- 2021-08-27 CN CN202110997675.8A patent/CN113626604B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567308A (zh) * | 2011-12-20 | 2012-07-11 | 上海电机学院 | 一种信息处理特征提取方法 |
CN102930063A (zh) * | 2012-12-05 | 2013-02-13 | 电子科技大学 | 一种基于特征项选择与权重计算的文本分类方法 |
CN111709439A (zh) * | 2020-05-06 | 2020-09-25 | 西安理工大学 | 基于词频偏差率因子的特征选择方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114610877A (zh) * | 2022-02-23 | 2022-06-10 | 苏州大学 | 基于判别方差准则的影评情感分析预处理方法及系统 |
CN114996446B (zh) * | 2022-05-18 | 2023-08-25 | 苏州大学 | 一种文本分类方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113626604B (zh) | 2022-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109101477B (zh) | 一种企业领域分类及企业关键词筛选方法 | |
CN100533441C (zh) | 基于概率主题词的两级组合文本分类方法 | |
CN109670014B (zh) | 一种基于规则匹配和机器学习的论文作者名消歧方法 | |
CN103886108B (zh) | 一种不均衡文本集的特征选择和权重计算方法 | |
CN109271517B (zh) | Ig tf-idf文本特征向量生成及文本分类方法 | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
Probierz et al. | Rapid detection of fake news based on machine learning methods | |
CN113626604B (zh) | 基于最大间隔准则的网页文本分类系统 | |
CN112527958A (zh) | 用户行为倾向识别方法、装置、设备及存储介质 | |
Rasheed et al. | Urdu text classification: a comparative study using machine learning techniques | |
CN106503153B (zh) | 一种计算机文本分类体系 | |
CN111680225A (zh) | 基于机器学习的微信金融消息分析方法及系统 | |
CN109522544A (zh) | 基于卡方检验的句向量计算方法、文本分类方法及系统 | |
CN109376235B (zh) | 基于文档层词频重排序的特征选择方法 | |
CN111144106A (zh) | 一种不平衡数据集下的两阶段文本特征选择方法 | |
Nguyen et al. | An ensemble of shallow and deep learning algorithms for Vietnamese sentiment analysis | |
CN114896398A (zh) | 一种基于特征选择的文本分类系统及方法 | |
Yang et al. | Research on Chinese text classification based on Word2vec | |
CN110348497B (zh) | 一种基于WT-GloVe词向量构建的文本表示方法 | |
CN106294689B (zh) | 一种基于文本类特征选择进行降维的方法和装置 | |
CN114996446B (zh) | 一种文本分类方法、装置及存储介质 | |
CN111382273B (zh) | 一种基于吸引因子的特征选择的文本分类方法 | |
Zhao et al. | Machine learning based text classification technology | |
CN113641824A (zh) | 基于深度学习的文本分类系统及方法 | |
Menta et al. | Authorship verification with neural networks via stylometric feature concatenation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |