CN106570075A

CN106570075A - 一种计算机文本检索分类特征选择方法

Info

Publication number: CN106570075A
Application number: CN201610905138.5A
Authority: CN
Inventors: 何正娣
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2016-10-11
Filing date: 2016-10-11
Publication date: 2017-04-19

Abstract

本发明公开了一种计算机文本检索分类特征选择方法，包括四个重要步骤，本发明对词项在所有类别进行科学地排序、估值，考虑了词项在各个类别的差异性，在此过程中把用户的搜索习惯考虑在内，用户初始搜索的词项体现了初始查询意图，有很大的价值，因此，综合考虑这些情况提供一种新的文本检索分类特征选择方法是很有必要的。

Description

一种计算机文本检索分类特征选择方法

技术领域

本发明涉及一种人工智能领域，涉及一种计算机文本检索分类特征选择方法。

背景技术

近几十年来，随着互联网的发展，用户可获取的数据量不断增大，检索的文本量也逐渐加大，大部分数据是文本格式数据。因此，文本挖掘逐渐变为一个热点研究领域。这其中文本分类是文本挖掘的一个重要方向。然而，随着网络的发展与应用需求的变化，许多文本分类和文本处理方法在大数据量的处理上遇到了困难，如数据量巨大，特征数量太多，计算时间很长，噪音数据多，计算精度低等。特征是数据挖掘的基本处理和分析单元。理论证明，随着特征数的增加，文本处理方法的计算复杂度成指数级增长，并且需要与用户搜索的文本形成关联，增大了特征选择的难度。

本发明的主要目的是提供一种效率高、与用户习惯搜索关联度高、可行度高的文本检索分类特征选择方法。

发明内容

有鉴于此，本发明要解决的技术问题是提供一种计算机文本检索分类特征选择方法，用于解决上述提出的无法解决的问题。

为达到上述技术方案的效果，本发明的技术方案为：一种计算机文本检索分类特征选择方法，该方法的步骤如下：

1)根据词项的外延数量、词项反映的对象、词项反应事物的属性对文本中的词项进行分类，基于词项的分类结果定义类别，计算每个词项在各个类别的排序值，排序值用于词项的排序，用排序功能函数计算，排序函数的定义如下：

其中用于计算词项t_j在类别c₁的权重，e(t_i，c_j)表示词项t_i在类别j的出现次数，t_i表示第i个词项，c_j表示第i个类别，v(t_i)表示词项t_i与初始词项的相邻频度，初始词项为用户最初输入的词项，与初始词项相邻且出现次数越多，相邻频度越高，该词项越有可能与初始词项组成新的词；

2)根据每个类别的特点，构造类别调节参数表，类别调节参数表的每行记录类别c_j、w₁(c_j)、w₂(c_j)，构造的原理是以每个类别中各个词项的分布规则以及每个词项与初始词项的相邻频度为依据，根据马尔科夫链原理计算，在计算w₂(c_j)需要将词项的权重作为输入，在计算w₁(c_j)需要将排序值与词项的权重作为输入；

3)对每个词项在各个类别上的排序值进行处理，得到每个词项在各个类别上的排序评分：

score(t_i，c_j)＝w₁(c_j)×p(t_i)+w₂(c_j)×r(t_i，c_j)

其中score(t_i，c_i)表示词项t_i在类别c_j的排序评分，w₁(c_j)、w₂(c_j)为类别调节参数，用于调节p(t_i)、r(t_i，c_j)之间的比例，每个类别的参数都不相同，计算排序评分时，从所述类别调节参数表查取相应的类别调节参数；

4)根据排序评分大小升序来进行所有词项在各个类别上的排序，建立排序矩阵，根据排序矩阵绘制每个词项在各个类别中排序变化曲线，根据排序变化曲线计算排序类别差异值，排序类别差异值越大，该词项在各个类别中排序差异越大，选取差异最大的20％数量的词项作为特征集。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合实施例，对本发明进行详细的说明。应当说明的是，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，能实现同样功能的产品属于等同替换和改进，均包含在本发明的保护范围之内。具体方法如下：

实施例一：计算机文本检索分类特征选择中，特征选择的精确定义取决于它的应用。选择一个文本的检索分类特征子集合，使得在这一特征集合中可以得到最优的性能。不相关或是冗余的特征常常是数据中的噪音，会误导分类模型，并降低分类器的性能。移除那些垃圾特征，剩下一个有限、较小的文本特征子集。在这个子集上的分类性能和全集合相同或者更加优秀。此外，较小的文本特征占用的空间较小，文本分类器的运算速度也会变快，分类器还可以应用到更大的数据样本上。此外，降低文本特征数目可以更加专注于相关的特征子集，更好的理解数据的潜在本质和特性。

特征选择的概念很接近于一些其他技术。对高维约简应用的特征选择来说，特征选择就是一个维度约简技术的样例。其他的维度约简方法包括基于投影的方法、元分析方法和基于压缩的方法。特征选择方法不同于其他方法的地方是它不用改变输入的特征。这对于使用特征选择方法探查和理解数据潜在本质时是很有意义的。

在特征选择方法里，有两大类：特征排序方法和特征权重方法。这两类方法主要关注于对特征相关度的处理。特征排序方法将所有的特征从最相关到最不相关排一个序，使用这个排序的方法来提炼文本的特征。特征权重方法则向前再走了一步：特征权重方法对每个特征赋予一个相关度权值。这样，将加权的特征排序，得到一个新的排序表。选择排序最高的那些特征作为选中的特征子集。

选择特征子集使用原则是相关度的定义。两种常用的相关度为：弱相关和强相关。当对某个文本的贝叶斯分类器来说，去掉某个特征X将导致性能下降时，则称特征X是强相关的。当X不是强相关，而存在某个特征集合S，贝叶斯分类器在特征集合S上的性能比S U{X}差，则称特征X是弱相关的。如果特征既不是强相关，也不是弱相关，则称其是不相关的。

特征选择问题可以被认为是在包含所有特征子集的解空间里面搜索最优特征子集。假设有n个特征，一个解空间的完全搜索需要对12-n个子集进行评估。显然，当n变大到一定程度时，这样一个指数级别的计算复杂度是不可接受的。证明了不存在非穷尽式序列特征选择过程可以保证找到最优解的。因此，寻找较好特征子集必然依赖于启发式算法。提出搜索过程必然有四个属性：搜索空间的起始点、某种搜索组织方式、选择的特征集合的评估方式、搜索停止条件；

实施例二：计算机文本检索分类特征选择中，需要寻找词项的权重，马尔可夫链模型对寻找最重要的词项起到了重要的作用。显而易见，有较大重要度的词项，只考虑权重的大小是不够的。权重的大小反映了结点的在小范围内的相对重要性，而既是图中边上的度相同，不同重要程度的边也会使不同的结点不一样重要。这里希望得到的是整个图上，每个结点的重要程度。抽象来说，还需要考虑结点和结点之间的边权对中心性的作用。在一个图中寻找结点的重要程度非常必要，即中心性。

好的文本特征项通常具有以下三个特点：

1)特征项是包含语义信息较多、表示能力较强的语言单位；

2)文本在特征项集合上的分布具有较为明显的统计规律；

3)特征项提取比较容易实现，计算复杂度都不太大。

中文文本的语言单位有字、词、短语、句子、段落等层次，在文本检索和分类中常采用字、词或短语作为特征项；在文本自动摘要中则较多地使用句子和段落作为特征项。对字特征和词特征进行分析比较，字特征的选取过程非常简单，而且常用的汉字数目很少，因此特征选取的开销较小。但是字特征的文本表示能力较差，它不能独立完整地表达语义信息。基于字特征的文本检索系统的错检率较高，优点是适应性强，应用范围广，索引生成简单，比较适用于内容复杂、新词汇和特殊词汇多的信息检索。与字特征相比，词的特征能够比较完整地表达语义信息。但不是所有词都适合作为特征项，高频词和低频词对文本的表示作用均小于中频词。词表法漏检率较高，并且不能进行单字和任意字符串的检索；其优点是索引库规模小，检索速度快，容易加入同义、反义等概念特征，比较适用于内容相对固定的信息检索。

对分类问题中的字特征和词特征进行了实验比较，结论是在不加入专业词汇的情况下，字特征的分类性能略优于词特征。概念也可以作为特征项，“计算机”和“电脑”具有同义关系，在计算文档的相似度之前，应该将两个词映射到同一个概念类，可以增加词汇匹配的准确性。

在文本检索过程中，对文档采用两步走的匹配方式，首先系统引入侧面匹配率中＝m/n，利用此参数进行粗筛选，m为两个特征向量相同特征的数量，n为特征

向量的维数，用20作为维数。只有两个文档的侧面匹配率中大于某一闽值(经验闭值03～0.5，用户可自己调节)，才在粗筛选中被选中，在下一步中计算它们的相似度。如首先找到侧面匹配率大于0.4的文档，从特征索引中找到Z1，Z2，...，220对应的记录，统计出与相同的特征项多于8个的文档作为候选文档。然后计算用户输入向量与其它文档D的相似度，计算公式如下：

其中D_user为不变量，||D_i||为文档D_i在类别N_i的数值。由于算法减少了大量除法和开方计算，因此大大提高了匹配速度。

上述实施例对本发明进行详细的说明。应当说明的是，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，能实现同样功能的产品属于等同替换和改进，均包含在本发明的保护范围之内。

本发明的有益效果是：若是文本的一个词项在所有的类别中的排序位置都差不多，则说明它对类别区分的能力很差，特征也因此不明显。而那些在不同的类别中位置差别很大的特征，说明其在不同的类别中的重要度有很大区别，则它适用于做区别类别的特征。本发明利用此原理对词项在所有类别进行科学地排序、估值，在此过程中把用户的搜索习惯考虑在内，用户初始搜索的词项体现了初始查询意图，有很大的价值，因此，综合考虑这些情况提供一种新的计算机文本检索分类特征选择方法是很有必要的。

Claims

1.一种计算机文本检索分类特征选择方法，其特征在于，该方法的步骤如下：

1)计算机根据词项的外延数量、词项反映的对象、词项反映事物的属性对文本中的词项进行分类，并根据分类的结果定义类别，计算每个词项在各个类别的排序值，所述各个类别的排序值用于词项的排序，用排序功能函数计算，所述排序功能函数p(t_i)的定义如下：

p (t_{i}) = Σ_{i = 1}^{m} {(v (t_{i}) - r (t_{i}, c_{j}))}^{3}

式中：i＝1，2，…，m，j＝1，2，…，m，变量m是自然数，表示存放记录词项的数量，c_j表示第j个类别，r(t_i，c_j)用于计算词项t_i在类别c_j的权重，e(t_i，c_j)表示词项t_i在类别j的出现次数，t_i表示第i个词项，v(t_i)表示词项t_i与初始词项的相邻频度，所述初始词项为用户最初输入的词项，与所述初始词项相邻且出现次数越多，相邻频度越高，该词项越有可能与所述初始词项组成新的词；

2)根据每个类别的特点，针对每个词项构造类别调节参数表，所述类别调节参数表的每行记录类别c_i、w₁(c_j)、w₂(c_j)，构造的原理是以每个类别中词项的分布规则以及词项与初始词项的相邻频度为依据，根据马尔科夫链原理计算，在计算w₂(c_j)需要将词项在类别c_j的权重作为输入，在计算w₁(c_j)需要将所述排序值与词项的权重作为输入；

score(t_i，c_i)＝w₁(c_i)×p(t_i)+w₂(c_j)×r(t_i，c_j)

其中score(t_i，c_j)表示词项t_i在类别c_j的排序评分，w₁(c_j)、w₂(c_j)为类别调节参数，用于调节p(t_i)、r(t_i，c_j)之间的比例，每个类别的参数都不相同，计算排序评分时，从所述类别调节参数表查取相应的类别调节参数；

4)根据所述排序评分大小升序来进行所有词项在各个类别上的排序，建立排序矩阵，根据所述排序矩阵绘制每个词项在各个类别中的排序变化曲线，根据所述排序变化曲线计算排序类别差异值，所述排序类别差异值越大，该词项在各个类别中排序差异越大，选取差异最大的20％数量的词项作为特征集。