CN105260437A

CN105260437A - 文本分类特征选择方法及其在生物医药文本分类中的应用

Info

Publication number: CN105260437A
Application number: CN201510642985.2A
Authority: CN
Inventors: 陈一飞
Original assignee: 陈一飞
Current assignee: Nanjing Rui Hui Data Technology Co.,Ltd.
Priority date: 2015-09-30
Filing date: 2015-09-30
Publication date: 2016-01-20
Anticipated expiration: 2035-09-30
Also published as: CN105260437B

Abstract

本发明一种文本分类特征选择方法及其在生物医药文本分类中的应用，采用基于浅层语法分析的局部语境相似度计算，提出特征选择算法，基于特征词局部语境相似性的度量，发现其是否存在于某些等特定模式中，来衡量其重要性。并采用基于局部语境相似度的特征选择方法LLFilter方法，通过特征的过滤，使样本能得到最好的分类效果，也就是使特征过滤后得到的样本类别间离散度达到最高，类别内离散度达到最低，从而提高各个类别之间的区分能力。本发明主要针在生物医学文本分类任务中，利用文本中的局部语境信息，自动进行特征重要性排序，优化特征集合，降低特征空间的维度，能有效提高文本分类的性能。

Description

文本分类特征选择方法及其在生物医药文本分类中的应用

技术领域

本发明涉及一种文本分类特征选择方法，具体涉及一种基于局部语境相似度的文本分类特征选择方法，属于大数据挖掘技术领域。

背景技术

随着信息时代的到来和信息技术的迅猛发展，互联网为人们提供了极其丰富的信息资源，导致信息量成几何级数增长。为了有效地管理和利用这些信息，基于内容的信息检索和数据挖掘逐渐成为备受关注的领域。其中，实现文本自动分类，已成为一项具有实用价值的关键技术，特别是现在面对海量的文本，人工分类已经无能为力，文本自动分类显得尤其重要。文本分类(TextClassification,简称TC)技术是信息检索和文本挖掘的重要基础，其主要任务是在预先给定的类别标记(label)集合下，根据文本的内容判定它的类别，对文本类别进行标注。

目前，实现自动文本分类时主要采用向量空间模型(VectorSpaceModel,VSM)表示文本，一般选择文本中的词作为文本的信息基本单位，即为特征(或称为特征词)。构成文本的词的数量是相当大的，从而得到的文本特征向量的维数都会相当大，可以达到几万到十几万维。在理论上，较多的特征应该能提供比较强的识别能力，但是当面对实际的机器学习过程时，对于有限的训练数据，过多的特征不仅大大减慢分类器学习的速度，同时也会导致分类器对训练数据的过度拟合，特别是那些与类别不相关的特征和冗余特征，使分类器的性能下降。

因此随着数据量的不断增大，特征选择已成为数据预处理特别是高维数据处理过程中不可缺少的部分。如何从一组原始文本特征集合D中选取最能表示文本主题内容的特征子集M(D>M)，以达到用较少的特征对数据进行有效的表达和减少计算开销的目的，是文本特征选择方法的研究目标。在文本分类技术的研究上，特征选择一直是其关键技术和瓶颈技术，特征选择方面的研究还需要不断进行改进和革新，以达到最终提高分类器性能的目的。因此，对特征选择的研究是有重要的理论和实际价值的。

我们常用的特征选择方法可以分成三大类：过滤法(Filter)、封装法(Wrapper)和嵌入法(Embeded)。Embeded法将特征选择整合进某个特定的学习算法的训练过程中，特征选择与训练过程同步进行，因此该方法与特定的学习算法联系紧密，限制了其在其他学习方法上的推广性。Wrapper法是以某个具体归纳学习算法的性能作为其评价和选择特征的标准，在筛选特征的过程中直接用所选特征子集来训练学习器，根据在学习器上的性能表现来评价该特征子集的优劣。通过多次迭代，虽然该方法可以选择出质量比较高的特征子集，但计算效率较低。Filter法是基于某一具体的评价准则来选择特征，其过程独立于具体算法，是一种计算效率较高的方法，更适合于大规模维度空间的特征选择任务。考虑到文本分类中的大规模维度空间问题，针对现有Filter方法的缺陷，本发明将提供一种新的Filter方法快速过滤无用的特征。

Filter方法是一种计算效率较高的方法，它独立于后续的学习算法训练过程，以分析特征子集内部特点来实现特征的过滤，通常采用一些基于信息统计的启发相关测量法、距离、信息增益等的评价准则。依据评价准则所得值的大小得到特征重要性的排序，通过选取重要性排序中前m个特征，能很快的排除很大部分非关键性的噪声特征，得到特征优化子集，达到有效降低文本维度空间的效果。目前用于在文本分类的Filter方法的评价主要依据两类文本信息：文本频率(documentfrequency)和词频(termfrequency)。前者利用包含某特征词的文档数作为评价准则，这类Filter方法包括卡方检验(X²)、信息增益(InformationGain)、类判别法(ClassDiscriminatingMeasure)、基尼指数(GiniIndex)和精度平衡(Accuracybalanced,Acc2)等。后者主要利用某特征词的自身的数量作为评价准则，这类Filter方法包括词频-反转文件频率(TermFrequency-InverseDocumentFrequency,TF-IDF)、利用标准化词频改进的基尼指数(modifiedGINIntf)等。这些方法都能有效的用于文本分类中的特征选择，且已被广泛的应用。

然而，这些方法虽然利用了一部分文本信息进行特征选择，大部分的Filter方法仍存在共同的潜在缺陷。通常，Filter方法将特征按照其对最终分类的作用分为三类，相关特征、不相关特征和冗余特征。其中，相关特征就是那些包含明显分类信息，去除后将导致分类器性能明显下降的那些特征，即相关特征能够非常有效的将各个类别相互区分开；与之相反，不相关特征不含任何的分类信息；冗余特征中虽然含有一定的分类信息，但是这些分类信息已被其他的相关特征所提供。也就是说，不相关特征和冗余特征对最终的分类没有作用或作用不大，因此Filter方法将他们作为无用特征过滤。这些Filter方法还忽略一类重要的特征。例如，在文本的特征空间中有特征a和b，在大部分Filter方法中得到的评价函数值都比较低，他们被作为不相关特征特征被过滤。但是，特征a和b可能作为共现的一种固定模式出现在某个类别的文章中，这样，这种模式将被忽略。如果我们在建立评价指标时换一种角度，以特征词之间的相互关联的关系为出发，特征a和b就能同时被赋予比较高的评价函数值而被保留在特征优化子集中。

大部分的Filter方法在评价不相关特征时，他们的评价函数都是基于各个特征是孤立的这一假设的，没有考虑特征词间可能存在的特定模式。为了改善这种缺陷和不足，我们利用特征词的局部语境，在衡量特征重要性时能提供重要的信息，包括：词序、共现词、词组和模式等。因为一个特征词会根据局部语境的不同而有不同的含义，与其他特征词组成特定模式，由此会影响整篇文档的分类类别。因此，我们有必要判断文本中特征词局部语境的相似性，发现特征词之间的词序、共现词、词组等特定模式，而不是仅仅依靠包含该特征词的文档数量或特征词本身的数量来选择特征。

发明内容

发明目的：本发明目的在于针对现有技术的不足，提供一种自动进行特征重要性排序、降低特征空间温度的文本分类特征选择方法。

同时本发明还提供一种解决上述问题的文本分类特征选择方法在生物医药文本分类中的应用。

技术方案：本发明所述文本分类特征选择方法，按如下步骤进行：

S1、在数据集中提取特征词t_i和t_j，则特征词t_i和t_j的局部语境对context_l(t_i,N)和context_l'(t_j,N)的相似度为：

\begin{matrix} LL_sim (t_{il}, t_{{jl}^{'}}) = sim ({context}_{l} (t_{i}, N), {context}_{l^{'}} (t_{j}, N)) \\ = \frac{Σ_{n = 1}^{N} \cos in_sim (n_gra m_{l} (t_{i}, n), n_gr {am}_{l^{'}} (t_{j}, n))}{N} \end{matrix},

其中，N为语境N-gram数；t_il为包含于局部语境context_l(t_i,N)中的特征词t_i，t_jl为包含于局部语境context_l'(t_j,N)中的特征词t_j。

S2、根据步骤S1中的局部语境相似度公式，定义特征词t_i在文档d内的局部语境相似度为：

LL (t_{id}) = \underset{l &Element; d, l^{'} &Element; d}{Σ} sim ({context}_{l} (t_{i}, N), {context}_{l^{'}} (t_{i}, N)),

其中，N为语境N-gram数；t_id为包含于文本d中的特征词t_i。

定义特征词t_i在类别k内文档中的局部语境相似度：

L L (t_{i}, c_{k}) = \frac{\underset{l &Element; d, l^{'} &Element; d^{'}, d, d^{'} &Subset; c_{k}}{Σ} si m ({contet}_{l} (t_{i}, N), {context}_{l^{'}} (t_{i}, N))}{d o c (c_{k})},

其中，N为语境N-gram数；c_k是类别为k的文档，doc(c_k)是类别为k的文档总数。

定义特征词t_i在语料库所有文档中的局部语境相似度：

L L (t_{i}) = \frac{\underset{l &Element; d, l^{'} &Element; d^{'}, d, d^{'} &Subset; a l l}{Σ} si m ({context}_{l} (t_{i}, N), {context}_{l^{'}} (t_{i}, N))}{D O C},

其中，DOC为语料库中的文档总和；

定义特征词t_i在所有类别中的局部语境相似度均值μⁱ＝LL(t_i)；

定义特征词t_i在类别k内的局部语境相似度均值和平方差：

{(σ_{k}^{i})}^{2} = \underset{j &Element; c_{k}}{Σ} {(L L (t_{i j}) - μ_{k}^{i})}^{2} / n_{k} = \underset{d &Element; c_{k}}{Σ} {(L L (t_{i d}) - L L (t_{i}, c_{k}))}^{2} / n_{k},

其中，n_k为第k类的样本数，

μ_{k}^{i} = L L (t_{i}, c_{k});

S3、局部语境信息的相似性的文本分类特征选择函数为：

L L F i l t e r (t_{i}) = \frac{Σ_{k = 1}^{| c |} n_{k} {(μ_{k}^{i} - μ^{i})}^{2}}{Σ_{k = 1}^{| c |} n_{k} {(σ_{k}^{i})}^{2}} = \frac{Σ_{k = 1}^{| c |} n_{k} {(L L (t_{i}, c_{k}) - L L (t_{i}))}^{2}}{Σ_{k = 1}^{| c |} n_{k} \underset{d &Element; c_{k}}{Σ} {(L L (t_{i d}) - L L (t_{i}, c_{k}))}^{2} / n_{k}},

依据特征评价准则LLFilter(t_i)的值大小得到特征重要性的排序，通过选取重要性排序中前m个特征，得到特征优化子集。

本发明对本技术方案的进一步限定为，步骤S1中的语境N-gram数N通过10-fold的交叉验证确定。

进一步地，步骤S3中的参数m的值可以通过10-fold的交叉验证确定。

本发明提供的另一技术方案为：文本分类特征选择方法在生物医药文本分类中的应用，按如下步骤进行：

(1)对训练集T_r进行文本预处理，按照VSM模型提取特征，每个特征表示为t_i，基于所有的特征建立维度为d的特征空间{t_i}∈R^d，每篇文档d_j表示为特征词的向量其中t_ij是特征词t_i在文档d_j中的二元值，输入数据为矩阵D_r∈R^N′×d，其中，N为标准化因子；

(2)对测试集Te采用同样的处理方法，得到输入数据为矩阵D_e∈R^N′×d，其中，N为标准化因子；

(3)基于特征词t_i，根据公式计算训练集T_r中每个类别k的局部语境相似度均值c_k是类别为k的文档；

(4)基于特征词t_i，根据公式

{(σ_{k}^{i})}^{2} = \underset{j &Element; c_{k}}{Σ} {(L L (t_{i j}) - μ_{k}^{i})}^{2} / n_{k} = \underset{d &Element; c_{k}}{Σ} {(L L (t_{i d}) - L L (t_{i}, c_{k}))}^{2} / n_{k}

计算训练集T_r中每个类别k的局部语境相似度平方差

(5)基于特征词t_i，根据公式μⁱ＝LL(t_i)计算训练集T_r总体局部语境相似度均值μⁱ；

(6)根据公式

L L F i l t e r (t_{i}) = \frac{Σ_{k = 1}^{| c |} n_{k} {(μ_{k}^{i} - μ^{i})}^{2}}{Σ_{k = 1}^{| c |} n_{k} {(σ_{k}^{i})}^{2}} = \frac{Σ_{k = 1}^{| c |} n_{k} {(L L (t_{i}, c_{k}) - L L (t_{i}))}^{2}}{Σ_{k = 1}^{| c |} n_{k} \underset{d &Element; c_{k}}{Σ} {(L L (t_{i d}) - L L (t_{i}, c_{k}))}^{2} / n_{k}}

计算每个特征词t_i对应的特征选择函数LLFilter(t_i)，并依据其值对特征词向量{t₁,t₂,...,t_i,...,t_d}按降序进行排序,得到新的特征词向量序列{t_p1,t_p2,...,t_pi,...,t_pd}；

(7)基于训练集T_r上10-fold的交叉验证，利用网格搜索的方法确定参数N和m的值，选取降序特征词序列中前m个具有最大LLFilter(t_i)的函数特征项作为最终特征优化子集，即{t_p1,t_p2,...,t_pi,...,t_pm}，其中m<<d，得到降维后的训练集T_r输入数据为矩阵D'_r∈R^N′×m；

(8)同样在测试集Te利用特征集合{t_p1,t_p2,...,t_pi,...,t_pm}得到降维后的输入数据为矩阵D'_e∈R^N′×m；

(9)利用训练数据输入矩阵D'_r和测试数据输入矩阵D'_e训练和测试一个两类或多类分类器。

有益效果：本发明提出的文本分类特征选择方法及其在生物医药文本分类中的应用，采用LLFilter方法，主要针在生物医学文本分类任务中，利用文本中的局部语境信息，自动进行特征重要性排序，优化特征集合，降低特征空间的维度，能有效提高文本分类的性能，其简洁和高效性主要体现在以下方面：(1)通过利用词序、共现词、词组等的特定模式进行特征选择，这些特定模式利用浅层语法分析的局部境相似度的度量得到，而不需要引入生物医学等领域相关背景知识，体现了LLFilter方法的简洁通用性。(2)通过利用词序、共现词、词组等的特定模式能更快的识别特征词之间的关联模式，依据特征间的关联模式，更有效地识别和选取具有最大信息量的最小特征子集，体现了了LLFilter方法的高效性。

附图说明

图1为本发明提供的文本分类特征选择在生物医药文本分类中的应用方法的流程图；

图2为实施例1中在原特征空间对特征排序后进行文本分类性能比较后的数据图。

具体实施方式

下面通过附图对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

实施例1：一种基于局部语境相似度衡量的文本分类特征选择方法，其特征在于，按如下步骤进行：

\begin{matrix} LL_sim (t_{il}, t_{{jl}^{'}}) = sim ({context}_{l} (t_{i}, N), {context}_{l^{'}} (t_{j}, N)) \\ = \frac{Σ_{n = 1}^{N} \cos in_sim (n_gra m_{l} (t_{i}, n), n_gr {am}_{l^{'}} (t_{j}, n))}{N} \end{matrix}, - - - (1)

其中，，N为语境N-gram数；t_il为包含于局部语境context_l(t_i,N)中的特征词t_i，t_jl为包含于局部语境context_l'(t_j,N)中的特征词t_j。；语境N-gram数N通过10-fold的交叉验证确定。在本公式中，用余弦相似cosin_sim度作为局部语境对之间文本相似度的衡量方法：如果两段文本完全一样，则相似度为1；如果两段文本完全不一样，则相似度为0；否则相似性介于0和1之间。通过标准化因子N，LL_sim(t_id,t_jd')值也是介于0和1之间。

本发明所提出的特征选择算法，是基于特征词局部语境相似性的度量，发现其是否存在于某些等特定模式中，来衡量其重要性的。因此，我们首先提出一种关于特征词t_i和t_j的局部语境相似度衡量算法LL_sim(t_id,t_jd')。对于某个特征词t_i，其在文档d中的局部语境context_l(t_i,n)用包含t_i的n-gram模型来描述。n-gram是一种大词汇连续语音识别中常用的语言模型，该模型基于这样一种假设，第n个词的出现只与前面n-1个词相关，而与其它任何词都不相关。在本发明中的n_gram_d(t_i,n)推广了该假设，第n个词的出现与其前n-1个词及后n-1个词相关，这前后n-1个词构成的串形成该词t_i的局部语境，l＝{t_(n-1)i,...,t_(-1)i,t_i,t_1i,...,t_(n-1)i}。局部语境包含了特征词之间的词序、共现词、词组等的特定模式，通过相似度的衡量则可以发现和提取特征词间的这些特定模式。

L L (t_{i d}) = \underset{l &Element; d, l^{'} &Element; d}{Σ} s i m ({context}_{l} (t_{i}, N), {context}_{l^{'}} (t_{i}, N)), - - - (2)

其中，N为语境N-gram数；t_id为包含于文本d中的特征词t_i。

定义特征词t_i在类别k内文档中的局部语境相似度：

L L (t_{i}, c_{k}) = \frac{\underset{l &Element; d, l^{'} &Element; d^{'}, d, d^{'} &Subset; c_{k}}{Σ} si m ({context}_{l} (t_{i}, N), {context}_{l^{'}} (t_{i}, N))}{d o c (c_{k})}, - - - (3)

其中，N为语境N-gram数；c_k是类别为k的文档，doc(c_k)是类别为k的文档总数。doc(c_k)的作用是使LL(t_i,c_k)的值不受类别k中文档的数量多少的影响。

定义特征词t_i在语料库所有文档中的局部语境相似度：

L L (t_{i}) = \frac{\underset{l &Element; d, l^{'} &Element; d^{'}, d, d^{'} &Subset; a l l}{Σ} s i m ({context}_{l} (t_{i}, N), {context}_{l^{'}} (t_{i}, N))}{N}, - - - (4)

其中，DOC为语料库中的文档总和。

定义特征词t_i在所有类别中的局部语境相似度均值μⁱ＝LL(t_i)。

定义特征词t_i在类别k内的局部语境相似度均值和平方差：

{(σ_{k}^{i})}^{2} = \underset{j &Element; c_{k}}{Σ} {(L L (t_{i j}) - μ_{k}^{i})}^{2} / n_{k} = \underset{d &Element; c_{k}}{Σ} {(L L (t_{i d}) - L L (t_{i}, c_{k}))}^{2} / n_{k}, - - - (5)

其中，n_k为第k类的样本数，

μ_{k}^{i} = LL (t_{i}, c_{k}) . - - - (6)

S3、局部语境信息的相似性的文本分类特征选择函数为：

L L F i l t e r (t_{i}) = \frac{Σ_{k = 1}^{| c |} n_{k} {(μ_{k}^{i} - μ^{i})}^{2}}{Σ_{k = 1}^{| c |} n_{k} {(σ_{k}^{i})}^{2}} = \frac{Σ_{k = 1}^{| c |} n_{k} {(L L (t_{i}, c_{k}) - L L (t_{i}))}^{2}}{Σ_{k = 1}^{| c |} n_{k} \underset{d &Element; c_{k}}{Σ} {(L L (t_{i d}) - L L (t_{i}, c_{k}))}^{2} / n_{k}}, - - - (7)

依据特征评价准则LLFilter(t_i)的值大小得到特征重要性的排序，通过选取重要性排序中前m个特征，得到特征优化子集，参数m的值可以通过10-fold的交叉验证确定。

本特征选择算法的基本思想是通过特征的过滤，使样本能得到最好的分类效果，也就是使特征过滤后得到的样本类别间离散度达到最高，类别内离散度达到最低，从而提高各个类别之间的区分能力。

本实施例中，将本发明提供的基于局部语境相似度衡量的文本分类特征选择方法应用于实际的生物医药文本分类中，具体应用环境为：包括国际测评会议BioCreativeII的蛋白质相互作用文本分类语料库(Text_BCII,2类分类)，以及来自OHSUMED的医学文本语料库(Text_OH，多类分类)。Text_BCII包含6172篇生物期刊论文摘要，其中5495篇作为训练数据集，其余的677篇作为测试数据集。Text_OH5从OHSUMED语料库中抽取了9214篇医学期刊论文(包含5类心血管疾病文章)，其中4184篇作为训练数据集，其余的5030篇作为测试数据集。从Text_OH5我们根据不同的类别数，可以衍生得到其他3个不同的语料集：Text_OH2包含2类心血管疾病文章；Text_OH3包含3类心血管疾病文章；Text_OH4包含4类心血管疾病文章。

不是一般性地，我们设实施例中使用的训练数据集为其包含有N篇文档和|c|个类别，因此，每篇文档d_j的类别标号为测试数据集为包含有N'篇文档和|c|个类别。文本分类采用支持向量机(SVM)分类器实现，支持向量机(SVM)分类器是本领域技术人员熟知的，其文本分类的过程如图1所示。

本特征选择方法首先作用于T_r，选取特征优化子集的具体过程如下：

(1)对训练集T_r进行文本预处理(包括分句、分词、去标点)，按照VSM模型提取特征，每个特征(或特征词)表示为t_i，基于所有的特征我们可以建立维度为d的特征空间{t_i}∈R^d。因此，每篇文档d_j可以表示为特征词的向量其中t_ij是特征词t_i在文档d_j中的二元值，即如果特征词t_i存在文档d_j中该取值为1，否则为0。这样，输入数据为矩阵D_r∈R^N′×d。

(2)对测试集Te采用同样的处理方法，得到输入数据为矩阵D_e∈R^N′×d。

(3)基于特征词t_i，根据公式(6)计算训练集T_r中每个类别k的局部语境相似度均值c_k是类别为k的文档；

(4)基于特征词t_i，根据公式(5)计算训练集T_r中每个类别k的局部语境相似度平方差

(6)根据公式(7)计算每个特征词t_i对应的特征选择函数LLFilter(t_i)，并依据其值对特征词向量{t₁,t₂,...,t_i,...,t_d}按降序进行排序,得到新的特征词向量序列{t_p1,t_p2,...,t_pi,...,t_pd}。

(7)基于训练集T_r上10-fold的交叉验证，利用网格搜索的方法确定参数N和m的值。选取降序特征词序列中前m个具有最大LLFilter(t_i)的函数特征项作为最终特征优化子集，即{t_p1,t_p2,...,t_pi,...,t_pm}，其中m<<d。因此得到降维后的训练集T_r输入数据为矩阵D'_r∈R^N′×m。

(8)同样在测试集Te利用特征集合{t_p1,t_p2,...,t_pi,...,t_pm}得到降维后的输入数据为矩阵D'_e∈R^N′×m。

下面以数据集Text_BCII上的具体实施为例，采用macro-F1值衡量文本分类的性能，结合图表对本发明作进一步说明：

Text_BCII包含6172篇生物期刊论文摘要，均来自MEDLINE数据库，文章标注为两类：含有蛋白质相互作用的文章及不含蛋白质相互作用的文章。因此，Text_BCII的类别数量|c|＝2；Text_BCII中5495篇作为训练数据集T_r，其余的677篇作为测试数据集T_e。经过文本预处理及VSM模型提取特征，得到维度d＝29,979的特征空间。使用LLFilter进行特征选择，在训练数据集T_r上基于10-fold的交叉验证进行网格搜索，取得参数N＝5，m＝1100，即选取前1100个特征时分类器有最佳的性能。

本例中LLFilter方法与其他特征选择方法结果基于macro-F1值进行性能的比较，这些对比的方法包括：GI(基尼指数)、DF(文档频率)、CDM(类判别法)、Acc2(精度平衡)、TF-IDF(词频-反转文件频率)和GINIntf(利用标准化词频改进的基尼指数)。

(1)首先，在原特征空间，利用特征选择方法对特征排序，分别取前0.2％、1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、20％、30％、40％、50％、60％、70％、80％、90％和100％的特征进行文本分类性能比较，如图2所示。

图2反应了在特征选择过程中，基于不同的特征子集分类器性能的变化曲线，我们可以看出在Text_BCII上，这些特征选择方法均能利用大约前10％的特征达到最佳的分类效果。其中，本发明提出的LLFilter方法结果最好，能在大约前4％的特征子集上取得最高的macro-F1分类结果，为77.07，与使用100％所有特征相比(macro-F1分类结果为73.00)有了4.07的显著提高。

为了更清晰的比较前10％特征子集上各个特征选择方法的macro-F1分类结果，其值列举在表格1中，这些值显示了在前0.2％、1％、2％、3％、4％、5％、6％、7％、8％、9％和10％的特征子集上，文本分类的macro-F1值，且其后括号内的数据为被选择的m个特征占原特征数d的百分比。

表格1特征选择过程中分类器性能比较

从表格中，我们看到在前0.2％、1％、2％、3％、4％、5％、6％、7％、8％、9％和10％的特征子集中，LLFilter方法均能比其他方法有更好的表现，且在取约4％的特征时达到最好的macro-F1值。因此，与其他方法相比，LLFilter方法能更有效地识别和选取具有最大信息量的最小特征优化子集。

(2)信息增值率

其次，我们考察前1000特征最优子集中信息的累加率，其结果列举在表格2中。在该表格中，每一行表示了LLFilter和另一种特征选择方法之间的两两比较，“C”列表示在前1000个选择的特征子集中，这两种方法选择到的共同特征，在这些共同特征上得到的macro-F1值，其后括号中的值为共同特征的数量；“LLFilter”列表示用LLFilter方法选出的前1000个特征子集得到的文本分类macro-F1值，其后括号中的值为对比于“C”列值，不同的特征带来的信息增值率；“F”列表示用另一种方法选出的前1000个特征得到的文本分类macro-F1值，其后括号中的值为对比于“C”列值，不同的特征带来的信息增值率。

表格2息增值率的比较

不同特征选择方法所得到的特征子集包含两类特征：共同特征和不同特征。共同特征指不同的方法选择到的相同的特征；不同特征指除去共同特征后，本方法所得到的特殊的特征。利用息增值率可以比较这些不同特征是能否引入更多的有效信息，带来文本分类性能的提高。从表格中可见，LLFilter的息增值率优于其他方法，说明基于局部语境信息所选择的不同特征能带来更多的文本类别间的区分信息。

(3)降维率

降维率体现特征选择方法的另一个重要性能，其值的计算是基于macro-F1值在不同特征子集大小下的累计，公式定义如下：

D_{s c o r e} = \frac{1}{k} Σ_{i = 1}^{k} \frac{\dim_{d}}{\dim_{i}} F 1_{i}

其中，dim_d是原始特征空间的维度，k是为了得到降维率所进行的实验次数，dim_i是在第i次实验中所选取的特征子集的维度，F1_i是用该特征子集得到的文本分类器的macro-F1值。为了便于比较，dim_i采用前面实验中的前0.2％、1％、2％、3％、4％、5％、6％、7％、8％、9％和10％的最优特征子集序列，因此k为11。实验得到的结果如表格3所示。由于在较小的特征子集上LLFilter方法能得到更好的macro-F1值，其降维率也明显优于其他方法，进一步表明其能识别和选取具有最大信息量的最小特征集合。

表格3降维率的比较

最后，除了Text_BCII数据集，LLFilter方法与其他特征选择方法在数据集Text_OH2、Text_OH3、Text_OH4和Text_OH5上进行比较，比较结果在表格4中，结果的比较是基于macro-F1值进行的。在表格1中baseline的结果为没有做任何特征选择下的文本分类结果，其它为进行相应特征选择后在特征优化子集上的文本分类结果，且其后括号内的数据为被选择的m个特征占原特征数d的百分比。

表格4基于macro-F1值实验结果比较

从表格4的数据结果对比中，我们可以看出，在5个不同的数据集上本发明提出的特征选择算法LLFilter都能得到最好的分类结果，即得到最高的macro-F1值，使分类模型的分类能力得到有效提高。同时本算法都能选择出最小的优化特征子集，即选取的特征集合中特征的个数占原特征数百分比最小，大大降低了特征空间的维度，使分类模型的效率得到有效的提高。因此，本发明提出的特征选择算法LLFilter能从分类能力和效率两方面提高模型性能，同时不需要引入生物医学领域的背景知识，方法简洁通用，较好地满足了实际应用中对生物医学文本分类系统特征提取的要求。

如上所述，尽管参照特定的优选实施例已经表示和表述了本发明，但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下，可对其在形式上和细节上作出各种变化。

Claims

1.文本分类特征选择方法，其特征在于，按如下步骤进行：

\begin{matrix} L L_s i m (t_{i l}, t_{{jl}^{'}}) = s i m ({context}_{l} (t_{i}, N), {context}_{l^{'}} (t_{j}, N)) \\ = \frac{Σ_{n = 1}^{N} \cos i n_si m (n_{gram}_{l} (t_{i}, n), n_{gram}_{l^{'}} (t_{j}, n))}{N} \end{matrix},

L L (t_{i d}) = \underset{l &Element; d, l^{'} &Element; d}{Σ} s i m ({context}_{l} (t_{i}, N), {context}_{l^{'}} (t_{j}, N)),

其中，N为语境N-gram数；t_id为包含于文本d中的特征词t_i。

定义特征词t_i在类别k内文档中的局部语境相似度：

L L (t_{i}, c_{k}) = \frac{\underset{l &Element; d, l^{'} &Element; d^{'}, d, d^{'} &Subset; c_{k}}{Σ} s i m ({context}_{l} (t_{i}, N), {context}_{l^{'}} (t_{i}, N))}{d o c (c_{k})},

其中，doc(c_k)为标准化因子，N为语境N-gram数；c_k是类别为k的文档，doc(c_k)是类别为k的文档总数。

定义特征词t_i在语料库所有文档中的局部语境相似度：

L L (t_{i}) = \frac{\underset{l &Element; d, l^{'} &Element; d^{'}, d, d^{'} &Subset; a l l}{Σ} s i m ({context}_{l} (t_{i}, N), {context}_{l^{'}} (t_{i}, N))}{D O C},

其中，DOC为语料库中的文档总和；

定义特征词t_i在类别k内的局部语境相似度均值和平方差：

{(σ_{k}^{i})}^{2} = \underset{j &Element; c_{k}}{Σ} {(L L (t_{i j}) - μ_{k}^{i})}^{2} / n_{k} = \underset{d &Element; c_{k}}{Σ} {(L L (t_{i d}) - L L (t_{i}, c_{k}))}^{2} / n_{k},

其中，n_k为第k类的样本数，

μ_{k}^{i} = L L (t_{i}, c_{k});

S3、局部语境信息的相似性的文本分类特征选择函数为：

L L F i l t e r (t_{i}) = \frac{Σ_{k = 1}^{| c |} n_{k} {(μ_{k}^{i} - μ^{i})}^{2}}{Σ_{k = 1}^{| c |} n_{k} {(σ_{k}^{i})}^{2}} = \frac{Σ_{k = 1}^{| c |} n_{k} {(L L (t_{i}, c_{k}) - L L (t_{i}))}^{2}}{Σ_{k = 1}^{| c |} n_{k} \underset{d &Element; c_{k}}{Σ} {(L L (t_{i d}) - L L (t_{i}, c_{k}))}^{2} / n_{k}},

2.根据权利要求1所述的文本分类特征选择方法，其特征在于，步骤S1中的语境N-gram数N通过10-fold的交叉验证确定。

3.根据权利要求1所述的文本分类特征选择方法，其特征在于，步骤S3中的参数m的值可以通过10-fold的交叉验证确定。

4.如权利要求1所述的文本分类特征选择方法在生物医药文本分类中的应用，其特征在于，按如下步骤进行：

(1)对训练集T_r进行文本预处理，按照VSM模型提取特征，每个特征表示为t_i，基于所有的特征建立维度为d的特征空间{t_i}∈R^d，每篇文档d_j表示为特征词的向量其中t_ij是特征词t_i在文档d_j中的二元值，输入数据为矩阵D_r∈R^N×d，其中，N为标准化因子；

(3)基于特征词t_i，根据公式计算训练集T_r中每个类别k的局部语境相似度均值是类别为k的文档

(4)基于特征词t_i，根据公式

{(σ_{k}^{i})}^{2} = \underset{j &Element; c_{k}}{Σ} {(L L (t_{i j}) - μ_{k}^{i})}^{2} / n_{k} = \underset{d &Element; c_{k}}{Σ} {(L L (t_{i d}) - L L (t_{i}, c_{k}))}^{2} / n_{k}

计算训练集T_r中每个类别k的局部语境相似度平方差

(6)根据公式

L L F i l t e r (t_{i}) = \frac{Σ_{k = 1}^{| c |} n_{k} {(μ_{k}^{i} - μ^{i})}^{2}}{Σ_{k = 1}^{| c |} n_{k} {(σ_{k}^{i})}^{2}} = \frac{Σ_{k = 1}^{| c |} n_{k} {(L L (t_{i}, c_{k}) - L L (t_{i}))}^{2}}{Σ_{k = 1}^{| c |} n_{k} \underset{d &Element; c_{k}}{Σ} {(L L (t_{i d}) - L L (t_{i}, c_{k}))}^{2} / n_{k}}

(7)基于训练集T_r上10-fold的交叉验证，利用网格搜索的方法确定参数N和m的值，选取降序特征词序列中前m个具有最大LLFilter(t_i)的函数特征项作为最终特征优化子集，即{t_p1,t_p2,...,t_pi,...,t_pm}，其中m<<d，得到降维后的训练集T_r输入数据为矩阵D'_r∈R^N×m；