CN106570075A - 一种计算机文本检索分类特征选择方法 - Google Patents
一种计算机文本检索分类特征选择方法 Download PDFInfo
- Publication number
- CN106570075A CN106570075A CN201610905138.5A CN201610905138A CN106570075A CN 106570075 A CN106570075 A CN 106570075A CN 201610905138 A CN201610905138 A CN 201610905138A CN 106570075 A CN106570075 A CN 106570075A
- Authority
- CN
- China
- Prior art keywords
- lexical item
- classification
- item
- lexical
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种计算机文本检索分类特征选择方法,包括四个重要步骤,本发明对词项在所有类别进行科学地排序、估值,考虑了词项在各个类别的差异性,在此过程中把用户的搜索习惯考虑在内,用户初始搜索的词项体现了初始查询意图,有很大的价值,因此,综合考虑这些情况提供一种新的文本检索分类特征选择方法是很有必要的。
Description
技术领域
本发明涉及一种人工智能领域,涉及一种计算机文本检索分类特征选择方法。
背景技术
近几十年来,随着互联网的发展,用户可获取的数据量不断增大,检索的文本量也逐渐加大,大部分数据是文本格式数据。因此,文本挖掘逐渐变为一个热点研究领域。这其中文本分类是文本挖掘的一个重要方向。然而,随着网络的发展与应用需求的变化,许多文本分类和文本处理方法在大数据量的处理上遇到了困难,如数据量巨大,特征数量太多,计算时间很长,噪音数据多,计算精度低等。特征是数据挖掘的基本处理和分析单元。理论证明,随着特征数的增加,文本处理方法的计算复杂度成指数级增长,并且需要与用户搜索的文本形成关联,增大了特征选择的难度。
本发明的主要目的是提供一种效率高、与用户习惯搜索关联度高、可行度高的文本检索分类特征选择方法。
发明内容
有鉴于此,本发明要解决的技术问题是提供一种计算机文本检索分类特征选择方法,用于解决上述提出的无法解决的问题。
为达到上述技术方案的效果,本发明的技术方案为:一种计算机文本检索分类特征选择方法,该方法的步骤如下:
1)根据词项的外延数量、词项反映的对象、词项反应事物的属性对文本中的词项进行分类,基于词项的分类结果定义类别,计算每个词项在各个类别的排序值,排序值用于词项的排序,用排序功能函数计算,排序函数的定义如下:
其中用于计算词项tj在类别c1的权重,e(ti,cj)表示词项ti在类别j的出现次数,ti表示第i个词项,cj表示第i个类别,v(ti)表示词项ti与初始词项的相邻频度,初始词项为用户最初输入的词项,与初始词项相邻且出现次数越多,相邻频度越高,该词项越有可能与初始词项组成新的词;
2)根据每个类别的特点,构造类别调节参数表,类别调节参数表的每行记录类别cj、w1(cj)、w2(cj),构造的原理是以每个类别中各个词项的分布规则以及每个词项与初始词项的相邻频度为依据,根据马尔科夫链原理计算,在计算w2(cj)需要将词项的权重作为输入,在计算w1(cj)需要将排序值与词项的权重作为输入;
3)对每个词项在各个类别上的排序值进行处理,得到每个词项在各个类别上的排序评分:
score(ti,cj)=w1(cj)×p(ti)+w2(cj)×r(ti,cj)
其中score(ti,ci)表示词项ti在类别cj的排序评分,w1(cj)、w2(cj)为类别调节参数,用于调节p(ti)、r(ti,cj)之间的比例,每个类别的参数都不相同,计算排序评分时,从所述类别调节参数表查取相应的类别调节参数;
4)根据排序评分大小升序来进行所有词项在各个类别上的排序,建立排序矩阵,根据排序矩阵绘制每个词项在各个类别中排序变化曲线,根据排序变化曲线计算排序类别差异值,排序类别差异值越大,该词项在各个类别中排序差异越大,选取差异最大的20%数量的词项作为特征集。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,能实现同样功能的产品属于等同替换和改进,均包含在本发明的保护范围之内。具体方法如下:
实施例一:计算机文本检索分类特征选择中,特征选择的精确定义取决于它的应用。选择一个文本的检索分类特征子集合,使得在这一特征集合中可以得到最优的性能。不相关或是冗余的特征常常是数据中的噪音,会误导分类模型,并降低分类器的性能。移除那些垃圾特征,剩下一个有限、较小的文本特征子集。在这个子集上的分类性能和全集合相同或者更加优秀。此外,较小的文本特征占用的空间较小,文本分类器的运算速度也会变快,分类器还可以应用到更大的数据样本上。此外,降低文本特征数目可以更加专注于相关的特征子集,更好的理解数据的潜在本质和特性。
特征选择的概念很接近于一些其他技术。对高维约简应用的特征选择来说,特征选择就是一个维度约简技术的样例。其他的维度约简方法包括基于投影的方法、元分析方法和基于压缩的方法。特征选择方法不同于其他方法的地方是它不用改变输入的特征。这对于使用特征选择方法探查和理解数据潜在本质时是很有意义的。
在特征选择方法里,有两大类:特征排序方法和特征权重方法。这两类方法主要关注于对特征相关度的处理。特征排序方法将所有的特征从最相关到最不相关排一个序,使用这个排序的方法来提炼文本的特征。特征权重方法则向前再走了一步:特征权重方法对每个特征赋予一个相关度权值。这样,将加权的特征排序,得到一个新的排序表。选择排序最高的那些特征作为选中的特征子集。
选择特征子集使用原则是相关度的定义。两种常用的相关度为:弱相关和强相关。当对某个文本的贝叶斯分类器来说,去掉某个特征X将导致性能下降时,则称特征X是强相关的。当X不是强相关,而存在某个特征集合S,贝叶斯分类器在特征集合S上的性能比S U{X}差,则称特征X是弱相关的。如果特征既不是强相关,也不是弱相关,则称其是不相关的。
特征选择问题可以被认为是在包含所有特征子集的解空间里面搜索最优特征子集。假设有n个特征,一个解空间的完全搜索需要对12-n个子集进行评估。显然,当n变大到一定程度时,这样一个指数级别的计算复杂度是不可接受的。证明了不存在非穷尽式序列特征选择过程可以保证找到最优解的。因此,寻找较好特征子集必然依赖于启发式算法。提出搜索过程必然有四个属性:搜索空间的起始点、某种搜索组织方式、选择的特征集合的评估方式、搜索停止条件;
实施例二:计算机文本检索分类特征选择中,需要寻找词项的权重,马尔可夫链模型对寻找最重要的词项起到了重要的作用。显而易见,有较大重要度的词项,只考虑权重的大小是不够的。权重的大小反映了结点的在小范围内的相对重要性,而既是图中边上的度相同,不同重要程度的边也会使不同的结点不一样重要。这里希望得到的是整个图上,每个结点的重要程度。抽象来说,还需要考虑结点和结点之间的边权对中心性的作用。在一个图中寻找结点的重要程度非常必要,即中心性。
好的文本特征项通常具有以下三个特点:
1)特征项是包含语义信息较多、表示能力较强的语言单位;
2)文本在特征项集合上的分布具有较为明显的统计规律;
3)特征项提取比较容易实现,计算复杂度都不太大。
中文文本的语言单位有字、词、短语、句子、段落等层次,在文本检索和分类中常采用字、词或短语作为特征项;在文本自动摘要中则较多地使用句子和段落作为特征项。对字特征和词特征进行分析比较,字特征的选取过程非常简单,而且常用的汉字数目很少,因此特征选取的开销较小。但是字特征的文本表示能力较差,它不能独立完整地表达语义信息。基于字特征的文本检索系统的错检率较高,优点是适应性强,应用范围广,索引生成简单,比较适用于内容复杂、新词汇和特殊词汇多的信息检索。与字特征相比,词的特征能够比较完整地表达语义信息。但不是所有词都适合作为特征项,高频词和低频词对文本的表示作用均小于中频词。词表法漏检率较高,并且不能进行单字和任意字符串的检索;其优点是索引库规模小,检索速度快,容易加入同义、反义等概念特征,比较适用于内容相对固定的信息检索。
对分类问题中的字特征和词特征进行了实验比较,结论是在不加入专业词汇的情况下,字特征的分类性能略优于词特征。概念也可以作为特征项,“计算机”和“电脑”具有同义关系,在计算文档的相似度之前,应该将两个词映射到同一个概念类,可以增加词汇匹配的准确性。
在文本检索过程中,对文档采用两步走的匹配方式,首先系统引入侧面匹配率中=m/n,利用此参数进行粗筛选,m为两个特征向量相同特征的数量,n为特征
向量的维数,用20作为维数。只有两个文档的侧面匹配率中大于某一闽值(经验闭值03~0.5,用户可自己调节),才在粗筛选中被选中,在下一步中计算它们的相似度。如首先找到侧面匹配率大于0.4的文档,从特征索引中找到Z1,Z2,...,220对应的记录,统计出与相同的特征项多于8个的文档作为候选文档。然后计算用户输入向量与其它文档D的相似度,计算公式如下:
其中Duser为不变量,||Di||为文档Di在类别Ni的数值。由于算法减少了大量除法和开方计算,因此大大提高了匹配速度。
上述实施例对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,能实现同样功能的产品属于等同替换和改进,均包含在本发明的保护范围之内。
本发明的有益效果是:若是文本的一个词项在所有的类别中的排序位置都差不多,则说明它对类别区分的能力很差,特征也因此不明显。而那些在不同的类别中位置差别很大的特征,说明其在不同的类别中的重要度有很大区别,则它适用于做区别类别的特征。本发明利用此原理对词项在所有类别进行科学地排序、估值,在此过程中把用户的搜索习惯考虑在内,用户初始搜索的词项体现了初始查询意图,有很大的价值,因此,综合考虑这些情况提供一种新的计算机文本检索分类特征选择方法是很有必要的。
Claims (1)
1.一种计算机文本检索分类特征选择方法,其特征在于,该方法的步骤如下:
1)计算机根据词项的外延数量、词项反映的对象、词项反映事物的属性对文本中的词项进行分类,并根据分类的结果定义类别,计算每个词项在各个类别的排序值,所述各个类别的排序值用于词项的排序,用排序功能函数计算,所述排序功能函数p(ti)的定义如下:
式中:i=1,2,…,m,j=1,2,…,m,变量m是自然数,表示存放记录词项的数量,cj表示第j个类别,r(ti,cj)用于计算词项ti在类别cj的权重,e(ti,cj)表示词项ti在类别j的出现次数,ti表示第i个词项,v(ti)表示词项ti与初始词项的相邻频度,所述初始词项为用户最初输入的词项,与所述初始词项相邻且出现次数越多,相邻频度越高,该词项越有可能与所述初始词项组成新的词;
2)根据每个类别的特点,针对每个词项构造类别调节参数表,所述类别调节参数表的每行记录类别ci、w1(cj)、w2(cj),构造的原理是以每个类别中词项的分布规则以及词项与初始词项的相邻频度为依据,根据马尔科夫链原理计算,在计算w2(cj)需要将词项在类别cj的权重作为输入,在计算w1(cj)需要将所述排序值与词项的权重作为输入;
3)对每个词项在各个类别上的排序值进行处理,得到每个词项在各个类别上的排序评分:
score(ti,ci)=w1(ci)×p(ti)+w2(cj)×r(ti,cj)
其中score(ti,cj)表示词项ti在类别cj的排序评分,w1(cj)、w2(cj)为类别调节参数,用于调节p(ti)、r(ti,cj)之间的比例,每个类别的参数都不相同,计算排序评分时,从所述类别调节参数表查取相应的类别调节参数;
4)根据所述排序评分大小升序来进行所有词项在各个类别上的排序,建立排序矩阵,根据所述排序矩阵绘制每个词项在各个类别中的排序变化曲线,根据所述排序变化曲线计算排序类别差异值,所述排序类别差异值越大,该词项在各个类别中排序差异越大,选取差异最大的20%数量的词项作为特征集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610905138.5A CN106570075A (zh) | 2016-10-11 | 2016-10-11 | 一种计算机文本检索分类特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610905138.5A CN106570075A (zh) | 2016-10-11 | 2016-10-11 | 一种计算机文本检索分类特征选择方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106570075A true CN106570075A (zh) | 2017-04-19 |
Family
ID=58533072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610905138.5A Pending CN106570075A (zh) | 2016-10-11 | 2016-10-11 | 一种计算机文本检索分类特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106570075A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503146A (zh) * | 2016-10-21 | 2017-03-15 | 江苏理工学院 | 计算机文本的特征选择方法、分类特征选择方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006004797A3 (en) * | 2004-06-25 | 2007-03-01 | Univ Columbia | Methods and systems for feature selection |
CN102332012A (zh) * | 2011-09-13 | 2012-01-25 | 南方报业传媒集团 | 基于类别之间相关性学习的中文文本分类方法 |
CN102637179A (zh) * | 2011-02-14 | 2012-08-15 | 阿里巴巴集团控股有限公司 | 词项加权函数确定及基于该函数进行搜索的方法及装置 |
CN106503146A (zh) * | 2016-10-21 | 2017-03-15 | 江苏理工学院 | 计算机文本的特征选择方法、分类特征选择方法及系统 |
-
2016
- 2016-10-11 CN CN201610905138.5A patent/CN106570075A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006004797A3 (en) * | 2004-06-25 | 2007-03-01 | Univ Columbia | Methods and systems for feature selection |
CN102637179A (zh) * | 2011-02-14 | 2012-08-15 | 阿里巴巴集团控股有限公司 | 词项加权函数确定及基于该函数进行搜索的方法及装置 |
CN102332012A (zh) * | 2011-09-13 | 2012-01-25 | 南方报业传媒集团 | 基于类别之间相关性学习的中文文本分类方法 |
CN106503146A (zh) * | 2016-10-21 | 2017-03-15 | 江苏理工学院 | 计算机文本的特征选择方法、分类特征选择方法及系统 |
Non-Patent Citations (6)
Title |
---|
HUAN LIU等: "Chi2:Feature Selection and Discretization or Numeric Attributes", 《TOOLS WITH ARTIFICIAL INTELLIGENCE》 * |
NOJUN KWAK 等: "Input Feature Selection for Classification Problems", 《NEURAL NETWORKS》 * |
SHAILESH KUMAR 等: "Best-Bases Feature Extraction Algorithms for Classification of Hyperspectral Data", 《GEOSCIENCE AND REMOTE SENSING》 * |
崔彩霞 等: "基于类内频率的文本分类特征选择方法", 《计算机工程与设计》 * |
温馨 等: "基于词项扩展的XML信息检索反馈技术", 《计算机工程》 * |
熊小草: "文本分类中特征选择的理论分析和算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503146A (zh) * | 2016-10-21 | 2017-03-15 | 江苏理工学院 | 计算机文本的特征选择方法、分类特征选择方法及系统 |
CN106503146B (zh) * | 2016-10-21 | 2019-06-07 | 江苏理工学院 | 计算机文本的特征选择方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609121B (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
CN110321925B (zh) | 一种基于语义聚合指纹的文本多粒度相似度比对方法 | |
CN106383877B (zh) | 一种社交媒体在线短文本聚类和话题检测方法 | |
CN106599054B (zh) | 一种题目分类及推送的方法及系统 | |
Singh et al. | Vector space model: an information retrieval system | |
CN110543564B (zh) | 基于主题模型的领域标签获取方法 | |
CN108763348B (zh) | 一种扩展短文本词特征向量的分类改进方法 | |
El-Fishawy et al. | Arabic summarization in twitter social network | |
CN105653706A (zh) | 一种基于文献内容知识图谱的多层引文推荐方法 | |
CN103577462B (zh) | 一种文档分类方法及装置 | |
CN103617157A (zh) | 基于语义的文本相似度计算方法 | |
CN108920482B (zh) | 基于词汇链特征扩展和lda模型的微博短文本分类方法 | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN103116637A (zh) | 一种面向中文Web评论的文本情感分类方法 | |
WO2020063071A1 (zh) | 基于卡方检验的句向量计算方法、文本分类方法及系统 | |
CN111368891A (zh) | 一种基于免疫克隆灰狼优化算法的K-Means文本分类方法 | |
CN107656920B (zh) | 一种基于专利的科技人才推荐方法 | |
CN108804443A (zh) | 一种基于多特征融合的司法类案搜索方法 | |
CN112417153A (zh) | 文本分类方法、装置、终端设备和可读存储介质 | |
CN110705247A (zh) | 基于χ2-C的文本相似度计算方法 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN109344331A (zh) | 一种基于在线社会网络的用户情感分析方法 | |
AL-SAQQA et al. | Unsupervised sentiment analysis approach based on clustering for Arabic text | |
CN106202116B (zh) | 一种基于粗糙集与knn的文本分类方法及系统 | |
CN111581984A (zh) | 一种基于任务贡献度的语句表示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170419 |