CN105260437A - 文本分类特征选择方法及其在生物医药文本分类中的应用 - Google Patents

文本分类特征选择方法及其在生物医药文本分类中的应用 Download PDF

Info

Publication number
CN105260437A
CN105260437A CN201510642985.2A CN201510642985A CN105260437A CN 105260437 A CN105260437 A CN 105260437A CN 201510642985 A CN201510642985 A CN 201510642985A CN 105260437 A CN105260437 A CN 105260437A
Authority
CN
China
Prior art keywords
feature
context
sigma
classification
prime
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510642985.2A
Other languages
English (en)
Other versions
CN105260437B (zh
Inventor
陈一飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Rui Hui Data Technology Co.,Ltd.
Original Assignee
陈一飞
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 陈一飞 filed Critical 陈一飞
Priority to CN201510642985.2A priority Critical patent/CN105260437B/zh
Publication of CN105260437A publication Critical patent/CN105260437A/zh
Application granted granted Critical
Publication of CN105260437B publication Critical patent/CN105260437B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Abstract

本发明一种文本分类特征选择方法及其在生物医药文本分类中的应用,采用基于浅层语法分析的局部语境相似度计算,提出特征选择算法,基于特征词局部语境相似性的度量,发现其是否存在于某些等特定模式中,来衡量其重要性。并采用基于局部语境相似度的特征选择方法LLFilter方法,通过特征的过滤,使样本能得到最好的分类效果,也就是使特征过滤后得到的样本类别间离散度达到最高,类别内离散度达到最低,从而提高各个类别之间的区分能力。本发明主要针在生物医学文本分类任务中,利用文本中的局部语境信息,自动进行特征重要性排序,优化特征集合,降低特征空间的维度,能有效提高文本分类的性能。

Description

文本分类特征选择方法及其在生物医药文本分类中的应用
技术领域
本发明涉及一种文本分类特征选择方法,具体涉及一种基于局部语境相似度的文本分类特征选择方法,属于大数据挖掘技术领域。
背景技术
随着信息时代的到来和信息技术的迅猛发展,互联网为人们提供了极其丰富的信息资源,导致信息量成几何级数增长。为了有效地管理和利用这些信息,基于内容的信息检索和数据挖掘逐渐成为备受关注的领域。其中,实现文本自动分类,已成为一项具有实用价值的关键技术,特别是现在面对海量的文本,人工分类已经无能为力,文本自动分类显得尤其重要。文本分类(TextClassification,简称TC)技术是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类别标记(label)集合下,根据文本的内容判定它的类别,对文本类别进行标注。
目前,实现自动文本分类时主要采用向量空间模型(VectorSpaceModel,VSM)表示文本,一般选择文本中的词作为文本的信息基本单位,即为特征(或称为特征词)。构成文本的词的数量是相当大的,从而得到的文本特征向量的维数都会相当大,可以达到几万到十几万维。在理论上,较多的特征应该能提供比较强的识别能力,但是当面对实际的机器学习过程时,对于有限的训练数据,过多的特征不仅大大减慢分类器学习的速度,同时也会导致分类器对训练数据的过度拟合,特别是那些与类别不相关的特征和冗余特征,使分类器的性能下降。
因此随着数据量的不断增大,特征选择已成为数据预处理特别是高维数据处理过程中不可缺少的部分。如何从一组原始文本特征集合D中选取最能表示文本主题内容的特征子集M(D>M),以达到用较少的特征对数据进行有效的表达和减少计算开销的目的,是文本特征选择方法的研究目标。在文本分类技术的研究上,特征选择一直是其关键技术和瓶颈技术,特征选择方面的研究还需要不断进行改进和革新,以达到最终提高分类器性能的目的。因此,对特征选择的研究是有重要的理论和实际价值的。
我们常用的特征选择方法可以分成三大类:过滤法(Filter)、封装法(Wrapper)和嵌入法(Embeded)。Embeded法将特征选择整合进某个特定的学习算法的训练过程中,特征选择与训练过程同步进行,因此该方法与特定的学习算法联系紧密,限制了其在其他学习方法上的推广性。Wrapper法是以某个具体归纳学习算法的性能作为其评价和选择特征的标准,在筛选特征的过程中直接用所选特征子集来训练学习器,根据在学习器上的性能表现来评价该特征子集的优劣。通过多次迭代,虽然该方法可以选择出质量比较高的特征子集,但计算效率较低。Filter法是基于某一具体的评价准则来选择特征,其过程独立于具体算法,是一种计算效率较高的方法,更适合于大规模维度空间的特征选择任务。考虑到文本分类中的大规模维度空间问题,针对现有Filter方法的缺陷,本发明将提供一种新的Filter方法快速过滤无用的特征。
Filter方法是一种计算效率较高的方法,它独立于后续的学习算法训练过程,以分析特征子集内部特点来实现特征的过滤,通常采用一些基于信息统计的启发相关测量法、距离、信息增益等的评价准则。依据评价准则所得值的大小得到特征重要性的排序,通过选取重要性排序中前m个特征,能很快的排除很大部分非关键性的噪声特征,得到特征优化子集,达到有效降低文本维度空间的效果。目前用于在文本分类的Filter方法的评价主要依据两类文本信息:文本频率(documentfrequency)和词频(termfrequency)。前者利用包含某特征词的文档数作为评价准则,这类Filter方法包括卡方检验(X2)、信息增益(InformationGain)、类判别法(ClassDiscriminatingMeasure)、基尼指数(GiniIndex)和精度平衡(Accuracybalanced,Acc2)等。后者主要利用某特征词的自身的数量作为评价准则,这类Filter方法包括词频-反转文件频率(TermFrequency-InverseDocumentFrequency,TF-IDF)、利用标准化词频改进的基尼指数(modifiedGINIntf)等。这些方法都能有效的用于文本分类中的特征选择,且已被广泛的应用。
然而,这些方法虽然利用了一部分文本信息进行特征选择,大部分的Filter方法仍存在共同的潜在缺陷。通常,Filter方法将特征按照其对最终分类的作用分为三类,相关特征、不相关特征和冗余特征。其中,相关特征就是那些包含明显分类信息,去除后将导致分类器性能明显下降的那些特征,即相关特征能够非常有效的将各个类别相互区分开;与之相反,不相关特征不含任何的分类信息;冗余特征中虽然含有一定的分类信息,但是这些分类信息已被其他的相关特征所提供。也就是说,不相关特征和冗余特征对最终的分类没有作用或作用不大,因此Filter方法将他们作为无用特征过滤。这些Filter方法还忽略一类重要的特征。例如,在文本的特征空间中有特征a和b,在大部分Filter方法中得到的评价函数值都比较低,他们被作为不相关特征特征被过滤。但是,特征a和b可能作为共现的一种固定模式出现在某个类别的文章中,这样,这种模式将被忽略。如果我们在建立评价指标时换一种角度,以特征词之间的相互关联的关系为出发,特征a和b就能同时被赋予比较高的评价函数值而被保留在特征优化子集中。
大部分的Filter方法在评价不相关特征时,他们的评价函数都是基于各个特征是孤立的这一假设的,没有考虑特征词间可能存在的特定模式。为了改善这种缺陷和不足,我们利用特征词的局部语境,在衡量特征重要性时能提供重要的信息,包括:词序、共现词、词组和模式等。因为一个特征词会根据局部语境的不同而有不同的含义,与其他特征词组成特定模式,由此会影响整篇文档的分类类别。因此,我们有必要判断文本中特征词局部语境的相似性,发现特征词之间的词序、共现词、词组等特定模式,而不是仅仅依靠包含该特征词的文档数量或特征词本身的数量来选择特征。
发明内容
发明目的:本发明目的在于针对现有技术的不足,提供一种自动进行特征重要性排序、降低特征空间温度的文本分类特征选择方法。
同时本发明还提供一种解决上述问题的文本分类特征选择方法在生物医药文本分类中的应用。
技术方案:本发明所述文本分类特征选择方法,按如下步骤进行:
S1、在数据集中提取特征词ti和tj,则特征词ti和tj的局部语境对contextl(ti,N)和contextl'(tj,N)的相似度为:
LL _ sim ( t il , t jl ′ ) = sim ( context l ( t i , N ) , context l ′ ( t j , N ) ) = Σ n = 1 N cos in _ sim ( n _ gra m l ( t i , n ) , n _ gr am l ′ ( t j , n ) ) N , 其中,N为语境N-gram数;til为包含于局部语境contextl(ti,N)中的特征词ti,tjl为包含于局部语境contextl'(tj,N)中的特征词tj
S2、根据步骤S1中的局部语境相似度公式,定义特征词ti在文档d内的局部语境相似度为: LL ( t id ) = Σ l ∈ d , l ′ ∈ d sim ( context l ( t i , N ) , context l ′ ( t i , N ) ) , 其中,N为语境N-gram数;tid为包含于文本d中的特征词ti
定义特征词ti在类别k内文档中的局部语境相似度: L L ( t i , c k ) = Σ l ∈ d , l ′ ∈ d ′ , d , d ′ ⋐ c k si m ( contet l ( t i , N ) , context l ′ ( t i , N ) ) d o c ( c k ) , 其中,N为语境N-gram数;ck是类别为k的文档,doc(ck)是类别为k的文档总数。
定义特征词ti在语料库所有文档中的局部语境相似度: L L ( t i ) = Σ l ∈ d , l ′ ∈ d ′ , d , d ′ ⋐ a l l si m ( context l ( t i , N ) , context l ′ ( t i , N ) ) D O C , 其中,DOC为语料库中的文档总和;
定义特征词ti在所有类别中的局部语境相似度均值μi=LL(ti);
定义特征词ti在类别k内的局部语境相似度均值和平方差: ( σ k i ) 2 = Σ j ∈ c k ( L L ( t i j ) - μ k i ) 2 / n k = Σ d ∈ c k ( L L ( t i d ) - L L ( t i , c k ) ) 2 / n k , 其中,nk为第k类的样本数, μ k i = L L ( t i , c k ) ;
S3、局部语境信息的相似性的文本分类特征选择函数为: L L F i l t e r ( t i ) = Σ k = 1 | c | n k ( μ k i - μ i ) 2 Σ k = 1 | c | n k ( σ k i ) 2 = Σ k = 1 | c | n k ( L L ( t i , c k ) - L L ( t i ) ) 2 Σ k = 1 | c | n k Σ d ∈ c k ( L L ( t i d ) - L L ( t i , c k ) ) 2 / n k , 依据特征评价准则LLFilter(ti)的值大小得到特征重要性的排序,通过选取重要性排序中前m个特征,得到特征优化子集。
本发明对本技术方案的进一步限定为,步骤S1中的语境N-gram数N通过10-fold的交叉验证确定。
进一步地,步骤S3中的参数m的值可以通过10-fold的交叉验证确定。
本发明提供的另一技术方案为:文本分类特征选择方法在生物医药文本分类中的应用,按如下步骤进行:
(1)对训练集Tr进行文本预处理,按照VSM模型提取特征,每个特征表示为ti,基于所有的特征建立维度为d的特征空间{ti}∈Rd,每篇文档dj表示为特征词的向量其中tij是特征词ti在文档dj中的二元值,输入数据为矩阵Dr∈RN′×d,其中,N为标准化因子;
(2)对测试集Te采用同样的处理方法,得到输入数据为矩阵De∈RN′×d,其中,N为标准化因子;
(3)基于特征词ti,根据公式计算训练集Tr中每个类别k的局部语境相似度均值ck是类别为k的文档;
(4)基于特征词ti,根据公式 ( σ k i ) 2 = Σ j ∈ c k ( L L ( t i j ) - μ k i ) 2 / n k = Σ d ∈ c k ( L L ( t i d ) - L L ( t i , c k ) ) 2 / n k 计算训练集Tr中每个类别k的局部语境相似度平方差
(5)基于特征词ti,根据公式μi=LL(ti)计算训练集Tr总体局部语境相似度均值μi
(6)根据公式 L L F i l t e r ( t i ) = Σ k = 1 | c | n k ( μ k i - μ i ) 2 Σ k = 1 | c | n k ( σ k i ) 2 = Σ k = 1 | c | n k ( L L ( t i , c k ) - L L ( t i ) ) 2 Σ k = 1 | c | n k Σ d ∈ c k ( L L ( t i d ) - L L ( t i , c k ) ) 2 / n k 计算每个特征词ti对应的特征选择函数LLFilter(ti),并依据其值对特征词向量{t1,t2,...,ti,...,td}按降序进行排序,得到新的特征词向量序列{tp1,tp2,...,tpi,...,tpd};
(7)基于训练集Tr上10-fold的交叉验证,利用网格搜索的方法确定参数N和m的值,选取降序特征词序列中前m个具有最大LLFilter(ti)的函数特征项作为最终特征优化子集,即{tp1,tp2,...,tpi,...,tpm},其中m<<d,得到降维后的训练集Tr输入数据为矩阵D'r∈RN′×m
(8)同样在测试集Te利用特征集合{tp1,tp2,...,tpi,...,tpm}得到降维后的输入数据为矩阵D'e∈RN′×m
(9)利用训练数据输入矩阵D'r和测试数据输入矩阵D'e训练和测试一个两类或多类分类器。
有益效果:本发明提出的文本分类特征选择方法及其在生物医药文本分类中的应用,采用LLFilter方法,主要针在生物医学文本分类任务中,利用文本中的局部语境信息,自动进行特征重要性排序,优化特征集合,降低特征空间的维度,能有效提高文本分类的性能,其简洁和高效性主要体现在以下方面:(1)通过利用词序、共现词、词组等的特定模式进行特征选择,这些特定模式利用浅层语法分析的局部境相似度的度量得到,而不需要引入生物医学等领域相关背景知识,体现了LLFilter方法的简洁通用性。(2)通过利用词序、共现词、词组等的特定模式能更快的识别特征词之间的关联模式,依据特征间的关联模式,更有效地识别和选取具有最大信息量的最小特征子集,体现了了LLFilter方法的高效性。
附图说明
图1为本发明提供的文本分类特征选择在生物医药文本分类中的应用方法的流程图;
图2为实施例1中在原特征空间对特征排序后进行文本分类性能比较后的数据图。
具体实施方式
下面通过附图对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
实施例1:一种基于局部语境相似度衡量的文本分类特征选择方法,其特征在于,按如下步骤进行:
S1、在数据集中提取特征词ti和tj,则特征词ti和tj的局部语境对contextl(ti,N)和contextl'(tj,N)的相似度为:
LL _ sim ( t il , t jl &prime; ) = sim ( context l ( t i , N ) , context l &prime; ( t j , N ) ) = &Sigma; n = 1 N cos in _ sim ( n _ gra m l ( t i , n ) , n _ gr am l &prime; ( t j , n ) ) N , - - - ( 1 )
其中,,N为语境N-gram数;til为包含于局部语境contextl(ti,N)中的特征词ti,tjl为包含于局部语境contextl'(tj,N)中的特征词tj。;语境N-gram数N通过10-fold的交叉验证确定。在本公式中,用余弦相似cosin_sim度作为局部语境对之间文本相似度的衡量方法:如果两段文本完全一样,则相似度为1;如果两段文本完全不一样,则相似度为0;否则相似性介于0和1之间。通过标准化因子N,LL_sim(tid,tjd')值也是介于0和1之间。
本发明所提出的特征选择算法,是基于特征词局部语境相似性的度量,发现其是否存在于某些等特定模式中,来衡量其重要性的。因此,我们首先提出一种关于特征词ti和tj的局部语境相似度衡量算法LL_sim(tid,tjd')。对于某个特征词ti,其在文档d中的局部语境contextl(ti,n)用包含ti的n-gram模型来描述。n-gram是一种大词汇连续语音识别中常用的语言模型,该模型基于这样一种假设,第n个词的出现只与前面n-1个词相关,而与其它任何词都不相关。在本发明中的n_gramd(ti,n)推广了该假设,第n个词的出现与其前n-1个词及后n-1个词相关,这前后n-1个词构成的串形成该词ti的局部语境,l={t(n-1)i,...,t(-1)i,ti,t1i,...,t(n-1)i}。局部语境包含了特征词之间的词序、共现词、词组等的特定模式,通过相似度的衡量则可以发现和提取特征词间的这些特定模式。
S2、根据步骤S1中的局部语境相似度公式,定义特征词ti在文档d内的局部语境相似度为: L L ( t i d ) = &Sigma; l &Element; d , l &prime; &Element; d s i m ( context l ( t i , N ) , context l &prime; ( t i , N ) ) , - - - ( 2 )
其中,N为语境N-gram数;tid为包含于文本d中的特征词ti
定义特征词ti在类别k内文档中的局部语境相似度:
L L ( t i , c k ) = &Sigma; l &Element; d , l &prime; &Element; d &prime; , d , d &prime; &Subset; c k si m ( context l ( t i , N ) , context l &prime; ( t i , N ) ) d o c ( c k ) , - - - ( 3 )
其中,N为语境N-gram数;ck是类别为k的文档,doc(ck)是类别为k的文档总数。doc(ck)的作用是使LL(ti,ck)的值不受类别k中文档的数量多少的影响。
定义特征词ti在语料库所有文档中的局部语境相似度:
L L ( t i ) = &Sigma; l &Element; d , l &prime; &Element; d &prime; , d , d &prime; &Subset; a l l s i m ( context l ( t i , N ) , context l &prime; ( t i , N ) ) N , - - - ( 4 )
其中,DOC为语料库中的文档总和。
定义特征词ti在所有类别中的局部语境相似度均值μi=LL(ti)。
定义特征词ti在类别k内的局部语境相似度均值和平方差:
( &sigma; k i ) 2 = &Sigma; j &Element; c k ( L L ( t i j ) - &mu; k i ) 2 / n k = &Sigma; d &Element; c k ( L L ( t i d ) - L L ( t i , c k ) ) 2 / n k , - - - ( 5 )
其中,nk为第k类的样本数, &mu; k i = LL ( t i , c k ) . - - - ( 6 )
S3、局部语境信息的相似性的文本分类特征选择函数为:
L L F i l t e r ( t i ) = &Sigma; k = 1 | c | n k ( &mu; k i - &mu; i ) 2 &Sigma; k = 1 | c | n k ( &sigma; k i ) 2 = &Sigma; k = 1 | c | n k ( L L ( t i , c k ) - L L ( t i ) ) 2 &Sigma; k = 1 | c | n k &Sigma; d &Element; c k ( L L ( t i d ) - L L ( t i , c k ) ) 2 / n k , - - - ( 7 )
依据特征评价准则LLFilter(ti)的值大小得到特征重要性的排序,通过选取重要性排序中前m个特征,得到特征优化子集,参数m的值可以通过10-fold的交叉验证确定。
本特征选择算法的基本思想是通过特征的过滤,使样本能得到最好的分类效果,也就是使特征过滤后得到的样本类别间离散度达到最高,类别内离散度达到最低,从而提高各个类别之间的区分能力。
本实施例中,将本发明提供的基于局部语境相似度衡量的文本分类特征选择方法应用于实际的生物医药文本分类中,具体应用环境为:包括国际测评会议BioCreativeII的蛋白质相互作用文本分类语料库(TextBCII,2类分类),以及来自OHSUMED的医学文本语料库(TextOH,多类分类)。TextBCII包含6172篇生物期刊论文摘要,其中5495篇作为训练数据集,其余的677篇作为测试数据集。TextOH5从OHSUMED语料库中抽取了9214篇医学期刊论文(包含5类心血管疾病文章),其中4184篇作为训练数据集,其余的5030篇作为测试数据集。从TextOH5我们根据不同的类别数,可以衍生得到其他3个不同的语料集:TextOH2包含2类心血管疾病文章;TextOH3包含3类心血管疾病文章;TextOH4包含4类心血管疾病文章。
不是一般性地,我们设实施例中使用的训练数据集为其包含有N篇文档和|c|个类别,因此,每篇文档dj的类别标号为测试数据集为包含有N'篇文档和|c|个类别。文本分类采用支持向量机(SVM)分类器实现,支持向量机(SVM)分类器是本领域技术人员熟知的,其文本分类的过程如图1所示。
本特征选择方法首先作用于Tr,选取特征优化子集的具体过程如下:
(1)对训练集Tr进行文本预处理(包括分句、分词、去标点),按照VSM模型提取特征,每个特征(或特征词)表示为ti,基于所有的特征我们可以建立维度为d的特征空间{ti}∈Rd。因此,每篇文档dj可以表示为特征词的向量其中tij是特征词ti在文档dj中的二元值,即如果特征词ti存在文档dj中该取值为1,否则为0。这样,输入数据为矩阵Dr∈RN′×d
(2)对测试集Te采用同样的处理方法,得到输入数据为矩阵De∈RN′×d
(3)基于特征词ti,根据公式(6)计算训练集Tr中每个类别k的局部语境相似度均值ck是类别为k的文档;
(4)基于特征词ti,根据公式(5)计算训练集Tr中每个类别k的局部语境相似度平方差
(5)基于特征词ti,根据公式μi=LL(ti)计算训练集Tr总体局部语境相似度均值μi
(6)根据公式(7)计算每个特征词ti对应的特征选择函数LLFilter(ti),并依据其值对特征词向量{t1,t2,...,ti,...,td}按降序进行排序,得到新的特征词向量序列{tp1,tp2,...,tpi,...,tpd}。
(7)基于训练集Tr上10-fold的交叉验证,利用网格搜索的方法确定参数N和m的值。选取降序特征词序列中前m个具有最大LLFilter(ti)的函数特征项作为最终特征优化子集,即{tp1,tp2,...,tpi,...,tpm},其中m<<d。因此得到降维后的训练集Tr输入数据为矩阵D'r∈RN′×m
(8)同样在测试集Te利用特征集合{tp1,tp2,...,tpi,...,tpm}得到降维后的输入数据为矩阵D'e∈RN′×m
(9)利用训练数据输入矩阵D'r和测试数据输入矩阵D'e训练和测试一个两类或多类分类器。
下面以数据集TextBCII上的具体实施为例,采用macro-F1值衡量文本分类的性能,结合图表对本发明作进一步说明:
TextBCII包含6172篇生物期刊论文摘要,均来自MEDLINE数据库,文章标注为两类:含有蛋白质相互作用的文章及不含蛋白质相互作用的文章。因此,TextBCII的类别数量|c|=2;TextBCII中5495篇作为训练数据集Tr,其余的677篇作为测试数据集Te。经过文本预处理及VSM模型提取特征,得到维度d=29,979的特征空间。使用LLFilter进行特征选择,在训练数据集Tr上基于10-fold的交叉验证进行网格搜索,取得参数N=5,m=1100,即选取前1100个特征时分类器有最佳的性能。
本例中LLFilter方法与其他特征选择方法结果基于macro-F1值进行性能的比较,这些对比的方法包括:GI(基尼指数)、DF(文档频率)、CDM(类判别法)、Acc2(精度平衡)、TF-IDF(词频-反转文件频率)和GINIntf(利用标准化词频改进的基尼指数)。
(1)首先,在原特征空间,利用特征选择方法对特征排序,分别取前0.2%、1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、20%、30%、40%、50%、60%、70%、80%、90%和100%的特征进行文本分类性能比较,如图2所示。
图2反应了在特征选择过程中,基于不同的特征子集分类器性能的变化曲线,我们可以看出在TextBCII上,这些特征选择方法均能利用大约前10%的特征达到最佳的分类效果。其中,本发明提出的LLFilter方法结果最好,能在大约前4%的特征子集上取得最高的macro-F1分类结果,为77.07,与使用100%所有特征相比(macro-F1分类结果为73.00)有了4.07的显著提高。
为了更清晰的比较前10%特征子集上各个特征选择方法的macro-F1分类结果,其值列举在表格1中,这些值显示了在前0.2%、1%、2%、3%、4%、5%、6%、7%、8%、9%和10%的特征子集上,文本分类的macro-F1值,且其后括号内的数据为被选择的m个特征占原特征数d的百分比。
表格1特征选择过程中分类器性能比较
从表格中,我们看到在前0.2%、1%、2%、3%、4%、5%、6%、7%、8%、9%和10%的特征子集中,LLFilter方法均能比其他方法有更好的表现,且在取约4%的特征时达到最好的macro-F1值。因此,与其他方法相比,LLFilter方法能更有效地识别和选取具有最大信息量的最小特征优化子集。
(2)信息增值率
其次,我们考察前1000特征最优子集中信息的累加率,其结果列举在表格2中。在该表格中,每一行表示了LLFilter和另一种特征选择方法之间的两两比较,“C”列表示在前1000个选择的特征子集中,这两种方法选择到的共同特征,在这些共同特征上得到的macro-F1值,其后括号中的值为共同特征的数量;“LLFilter”列表示用LLFilter方法选出的前1000个特征子集得到的文本分类macro-F1值,其后括号中的值为对比于“C”列值,不同的特征带来的信息增值率;“F”列表示用另一种方法选出的前1000个特征得到的文本分类macro-F1值,其后括号中的值为对比于“C”列值,不同的特征带来的信息增值率。
表格2息增值率的比较
不同特征选择方法所得到的特征子集包含两类特征:共同特征和不同特征。共同特征指不同的方法选择到的相同的特征;不同特征指除去共同特征后,本方法所得到的特殊的特征。利用息增值率可以比较这些不同特征是能否引入更多的有效信息,带来文本分类性能的提高。从表格中可见,LLFilter的息增值率优于其他方法,说明基于局部语境信息所选择的不同特征能带来更多的文本类别间的区分信息。
(3)降维率
降维率体现特征选择方法的另一个重要性能,其值的计算是基于macro-F1值在不同特征子集大小下的累计,公式定义如下:
D s c o r e = 1 k &Sigma; i = 1 k dim d dim i F 1 i
其中,dimd是原始特征空间的维度,k是为了得到降维率所进行的实验次数,dimi是在第i次实验中所选取的特征子集的维度,F1i是用该特征子集得到的文本分类器的macro-F1值。为了便于比较,dimi采用前面实验中的前0.2%、1%、2%、3%、4%、5%、6%、7%、8%、9%和10%的最优特征子集序列,因此k为11。实验得到的结果如表格3所示。由于在较小的特征子集上LLFilter方法能得到更好的macro-F1值,其降维率也明显优于其他方法,进一步表明其能识别和选取具有最大信息量的最小特征集合。
表格3降维率的比较
最后,除了TextBCII数据集,LLFilter方法与其他特征选择方法在数据集TextOH2、TextOH3、TextOH4和TextOH5上进行比较,比较结果在表格4中,结果的比较是基于macro-F1值进行的。在表格1中baseline的结果为没有做任何特征选择下的文本分类结果,其它为进行相应特征选择后在特征优化子集上的文本分类结果,且其后括号内的数据为被选择的m个特征占原特征数d的百分比。
表格4基于macro-F1值实验结果比较
从表格4的数据结果对比中,我们可以看出,在5个不同的数据集上本发明提出的特征选择算法LLFilter都能得到最好的分类结果,即得到最高的macro-F1值,使分类模型的分类能力得到有效提高。同时本算法都能选择出最小的优化特征子集,即选取的特征集合中特征的个数占原特征数百分比最小,大大降低了特征空间的维度,使分类模型的效率得到有效的提高。因此,本发明提出的特征选择算法LLFilter能从分类能力和效率两方面提高模型性能,同时不需要引入生物医学领域的背景知识,方法简洁通用,较好地满足了实际应用中对生物医学文本分类系统特征提取的要求。
如上所述,尽管参照特定的优选实施例已经表示和表述了本发明,但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下,可对其在形式上和细节上作出各种变化。

Claims (4)

1.文本分类特征选择方法,其特征在于,按如下步骤进行:
S1、在数据集中提取特征词ti和tj,则特征词ti和tj的局部语境对contextl(ti,N)和contextl'(tj,N)的相似度为:
L L _ s i m ( t i l , t jl &prime; ) = s i m ( context l ( t i , N ) , context l &prime; ( t j , N ) ) = &Sigma; n = 1 N cos i n _ si m ( n _ gram l ( t i , n ) , n _ gram l &prime; ( t j , n ) ) N , 其中,N为语境N-gram数;til为包含于局部语境contextl(ti,N)中的特征词ti,tjl为包含于局部语境contextl'(tj,N)中的特征词tj
S2、根据步骤S1中的局部语境相似度公式,定义特征词ti在文档d内的局部语境相似度为: L L ( t i d ) = &Sigma; l &Element; d , l &prime; &Element; d s i m ( context l ( t i , N ) , context l &prime; ( t j , N ) ) , 其中,N为语境N-gram数;tid为包含于文本d中的特征词ti
定义特征词ti在类别k内文档中的局部语境相似度: L L ( t i , c k ) = &Sigma; l &Element; d , l &prime; &Element; d &prime; , d , d &prime; &Subset; c k s i m ( context l ( t i , N ) , context l &prime; ( t i , N ) ) d o c ( c k ) , 其中,doc(ck)为标准化因子,N为语境N-gram数;ck是类别为k的文档,doc(ck)是类别为k的文档总数。
定义特征词ti在语料库所有文档中的局部语境相似度: L L ( t i ) = &Sigma; l &Element; d , l &prime; &Element; d &prime; , d , d &prime; &Subset; a l l s i m ( context l ( t i , N ) , context l &prime; ( t i , N ) ) D O C , 其中,DOC为语料库中的文档总和;
定义特征词ti在所有类别中的局部语境相似度均值μi=LL(ti);
定义特征词ti在类别k内的局部语境相似度均值和平方差: ( &sigma; k i ) 2 = &Sigma; j &Element; c k ( L L ( t i j ) - &mu; k i ) 2 / n k = &Sigma; d &Element; c k ( L L ( t i d ) - L L ( t i , c k ) ) 2 / n k , 其中,nk为第k类的样本数, &mu; k i = L L ( t i , c k ) ;
S3、局部语境信息的相似性的文本分类特征选择函数为: L L F i l t e r ( t i ) = &Sigma; k = 1 | c | n k ( &mu; k i - &mu; i ) 2 &Sigma; k = 1 | c | n k ( &sigma; k i ) 2 = &Sigma; k = 1 | c | n k ( L L ( t i , c k ) - L L ( t i ) ) 2 &Sigma; k = 1 | c | n k &Sigma; d &Element; c k ( L L ( t i d ) - L L ( t i , c k ) ) 2 / n k , 依据特征评价准则LLFilter(ti)的值大小得到特征重要性的排序,通过选取重要性排序中前m个特征,得到特征优化子集。
2.根据权利要求1所述的文本分类特征选择方法,其特征在于,步骤S1中的语境N-gram数N通过10-fold的交叉验证确定。
3.根据权利要求1所述的文本分类特征选择方法,其特征在于,步骤S3中的参数m的值可以通过10-fold的交叉验证确定。
4.如权利要求1所述的文本分类特征选择方法在生物医药文本分类中的应用,其特征在于,按如下步骤进行:
(1)对训练集Tr进行文本预处理,按照VSM模型提取特征,每个特征表示为ti,基于所有的特征建立维度为d的特征空间{ti}∈Rd,每篇文档dj表示为特征词的向量其中tij是特征词ti在文档dj中的二元值,输入数据为矩阵Dr∈RN×d,其中,N为标准化因子;
(2)对测试集Te采用同样的处理方法,得到输入数据为矩阵De∈RN′×d,其中,N为标准化因子;
(3)基于特征词ti,根据公式计算训练集Tr中每个类别k的局部语境相似度均值是类别为k的文档
(4)基于特征词ti,根据公式 ( &sigma; k i ) 2 = &Sigma; j &Element; c k ( L L ( t i j ) - &mu; k i ) 2 / n k = &Sigma; d &Element; c k ( L L ( t i d ) - L L ( t i , c k ) ) 2 / n k 计算训练集Tr中每个类别k的局部语境相似度平方差
(5)基于特征词ti,根据公式μi=LL(ti)计算训练集Tr总体局部语境相似度均值μi
(6)根据公式 L L F i l t e r ( t i ) = &Sigma; k = 1 | c | n k ( &mu; k i - &mu; i ) 2 &Sigma; k = 1 | c | n k ( &sigma; k i ) 2 = &Sigma; k = 1 | c | n k ( L L ( t i , c k ) - L L ( t i ) ) 2 &Sigma; k = 1 | c | n k &Sigma; d &Element; c k ( L L ( t i d ) - L L ( t i , c k ) ) 2 / n k 计算每个特征词ti对应的特征选择函数LLFilter(ti),并依据其值对特征词向量{t1,t2,...,ti,...,td}按降序进行排序,得到新的特征词向量序列{tp1,tp2,...,tpi,...,tpd};
(7)基于训练集Tr上10-fold的交叉验证,利用网格搜索的方法确定参数N和m的值,选取降序特征词序列中前m个具有最大LLFilter(ti)的函数特征项作为最终特征优化子集,即{tp1,tp2,...,tpi,...,tpm},其中m<<d,得到降维后的训练集Tr输入数据为矩阵D'r∈RN×m
(8)同样在测试集Te利用特征集合{tp1,tp2,...,tpi,...,tpm}得到降维后的输入数据为矩阵D'e∈RN′×m
(9)利用训练数据输入矩阵D'r和测试数据输入矩阵D'e训练和测试一个两类或多类分类器。
CN201510642985.2A 2015-09-30 2015-09-30 文本分类特征选择方法及其在生物医药文本分类中的应用 Active CN105260437B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510642985.2A CN105260437B (zh) 2015-09-30 2015-09-30 文本分类特征选择方法及其在生物医药文本分类中的应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510642985.2A CN105260437B (zh) 2015-09-30 2015-09-30 文本分类特征选择方法及其在生物医药文本分类中的应用

Publications (2)

Publication Number Publication Date
CN105260437A true CN105260437A (zh) 2016-01-20
CN105260437B CN105260437B (zh) 2018-11-23

Family

ID=55100128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510642985.2A Active CN105260437B (zh) 2015-09-30 2015-09-30 文本分类特征选择方法及其在生物医药文本分类中的应用

Country Status (1)

Country Link
CN (1) CN105260437B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021508A (zh) * 2016-05-23 2016-10-12 武汉大学 基于社交媒体的突发事件应急信息挖掘方法
CN106250367A (zh) * 2016-07-27 2016-12-21 昆明理工大学 基于改进的Nivre算法构建越南语依存树库的方法
CN106326458A (zh) * 2016-06-02 2017-01-11 广西智度信息科技有限公司 一种基于文本分类的城市管理案件分类方法
CN106708959A (zh) * 2016-11-30 2017-05-24 重庆大学 一种基于医学文献数据库的组合药物识别与排序方法
CN107016073A (zh) * 2017-03-24 2017-08-04 北京科技大学 一种文本分类特征选择方法
CN107092679A (zh) * 2017-04-21 2017-08-25 北京邮电大学 一种特征词向量获得方法、文本分类方法及装置
CN107357837A (zh) * 2017-06-22 2017-11-17 华南师范大学 基于保序子矩阵和频繁序列挖掘的电商评论情感分类方法
CN108009152A (zh) * 2017-12-04 2018-05-08 陕西识代运筹信息科技股份有限公司 一种基于Spark-Streaming的文本相似性分析的数据处理方法和装置
CN108205524A (zh) * 2016-12-20 2018-06-26 北京京东尚科信息技术有限公司 文本数据处理方法和装置
CN109117956A (zh) * 2018-07-05 2019-01-01 浙江大学 一种最佳特征子集的确定方法
CN109767814A (zh) * 2019-01-17 2019-05-17 中国科学院新疆理化技术研究所 一种基于GloVe模型的氨基酸全局特征向量表示方法
CN111382273A (zh) * 2020-03-09 2020-07-07 西安理工大学 一种基于吸引因子的特征选择的文本分类方法
CN111475617A (zh) * 2020-03-30 2020-07-31 招商局金融科技有限公司 事件主体抽取方法、装置及存储介质
CN113470779A (zh) * 2021-09-03 2021-10-01 壹药网科技(上海)股份有限公司 药品类目识别方法及其系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060085750A1 (en) * 2004-10-19 2006-04-20 International Business Machines Corporation Intelligent web based help system
CN101122909A (zh) * 2006-08-10 2008-02-13 株式会社日立制作所 文本信息检索装置以及文本信息检索方法
CN102023967A (zh) * 2010-11-11 2011-04-20 清华大学 一种面向股票领域的文本情感分类方法
CN102257492A (zh) * 2008-12-19 2011-11-23 伊斯曼柯达公司 用于产生语境增强的交流作品的系统和方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060085750A1 (en) * 2004-10-19 2006-04-20 International Business Machines Corporation Intelligent web based help system
CN101122909A (zh) * 2006-08-10 2008-02-13 株式会社日立制作所 文本信息检索装置以及文本信息检索方法
CN102257492A (zh) * 2008-12-19 2011-11-23 伊斯曼柯达公司 用于产生语境增强的交流作品的系统和方法
CN102023967A (zh) * 2010-11-11 2011-04-20 清华大学 一种面向股票领域的文本情感分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张彪,等: ""基于关联分析的文本分类特征选择算法"", 《计算机工程》 *
毛小丽: ""基于特征向量的实体间语义关系抽取研究"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *
胡佳妮,等: ""中文文本分类中的特征选择算法研究"", 《光通信研究》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021508A (zh) * 2016-05-23 2016-10-12 武汉大学 基于社交媒体的突发事件应急信息挖掘方法
CN106326458A (zh) * 2016-06-02 2017-01-11 广西智度信息科技有限公司 一种基于文本分类的城市管理案件分类方法
CN106250367B (zh) * 2016-07-27 2019-04-09 昆明理工大学 基于改进的Nivre算法构建越南语依存树库的方法
CN106250367A (zh) * 2016-07-27 2016-12-21 昆明理工大学 基于改进的Nivre算法构建越南语依存树库的方法
CN106708959A (zh) * 2016-11-30 2017-05-24 重庆大学 一种基于医学文献数据库的组合药物识别与排序方法
CN108205524B (zh) * 2016-12-20 2022-01-07 北京京东尚科信息技术有限公司 文本数据处理方法和装置
CN108205524A (zh) * 2016-12-20 2018-06-26 北京京东尚科信息技术有限公司 文本数据处理方法和装置
CN107016073A (zh) * 2017-03-24 2017-08-04 北京科技大学 一种文本分类特征选择方法
CN107016073B (zh) * 2017-03-24 2019-06-28 北京科技大学 一种文本分类特征选择方法
CN107092679A (zh) * 2017-04-21 2017-08-25 北京邮电大学 一种特征词向量获得方法、文本分类方法及装置
CN107092679B (zh) * 2017-04-21 2020-01-03 北京邮电大学 一种特征词向量获得方法、文本分类方法及装置
CN107357837A (zh) * 2017-06-22 2017-11-17 华南师范大学 基于保序子矩阵和频繁序列挖掘的电商评论情感分类方法
CN107357837B (zh) * 2017-06-22 2019-10-08 华南师范大学 基于保序子矩阵和频繁序列挖掘的电商评论情感分类方法
CN108009152A (zh) * 2017-12-04 2018-05-08 陕西识代运筹信息科技股份有限公司 一种基于Spark-Streaming的文本相似性分析的数据处理方法和装置
CN109117956A (zh) * 2018-07-05 2019-01-01 浙江大学 一种最佳特征子集的确定方法
CN109117956B (zh) * 2018-07-05 2021-08-24 浙江大学 一种最佳特征子集的确定方法
CN109767814A (zh) * 2019-01-17 2019-05-17 中国科学院新疆理化技术研究所 一种基于GloVe模型的氨基酸全局特征向量表示方法
CN111382273A (zh) * 2020-03-09 2020-07-07 西安理工大学 一种基于吸引因子的特征选择的文本分类方法
CN111382273B (zh) * 2020-03-09 2023-04-14 广州智赢万世市场管理有限公司 一种基于吸引因子的特征选择的文本分类方法
CN111475617A (zh) * 2020-03-30 2020-07-31 招商局金融科技有限公司 事件主体抽取方法、装置及存储介质
CN111475617B (zh) * 2020-03-30 2023-04-18 招商局金融科技有限公司 事件主体抽取方法、装置及存储介质
CN113470779B (zh) * 2021-09-03 2021-11-26 壹药网科技(上海)股份有限公司 药品类目识别方法及其系统
CN113470779A (zh) * 2021-09-03 2021-10-01 壹药网科技(上海)股份有限公司 药品类目识别方法及其系统

Also Published As

Publication number Publication date
CN105260437B (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
CN105260437A (zh) 文本分类特征选择方法及其在生物医药文本分类中的应用
CN110297988B (zh) 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
CN104951548B (zh) 一种负面舆情指数的计算方法及系统
CN102789498B (zh) 基于集成学习的中文评论文本的情感分类方法与系统
CN109829166B (zh) 基于字符级卷积神经网络的民宿顾客意见挖掘方法
CN107239439A (zh) 基于word2vec的舆情倾向性分析方法
CN109739986A (zh) 一种基于深度集成学习的投诉短文本分类方法
CN105930411A (zh) 一种分类器训练方法、分类器和情感分类系统
CN109670014B (zh) 一种基于规则匹配和机器学习的论文作者名消歧方法
CN106997382A (zh) 基于大数据的创新创意标签自动标注方法及系统
CN109492105B (zh) 一种基于多特征集成学习的文本情感分类方法
CN112905739B (zh) 虚假评论检测模型训练方法、检测方法及电子设备
CN110516074B (zh) 一种基于深度学习的网站主题分类方法及装置
CN109960799A (zh) 一种面向短文本的优化分类方法
Hissah et al. Detecting and classifying crimes from arabic twitter posts using text mining techniques
Whitney et al. Don’t want to get caught? don’t say it: The use of emojis in online human sex trafficking ads
CN107609113A (zh) 一种文本自动分类方法
CN106570170A (zh) 基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN107506472A (zh) 一种学生浏览网页分类方法
Adeleke et al. Automating quranic verses labeling using machine learning approach
Jayakody et al. Sentiment analysis on product reviews on twitter using Machine Learning Approaches
CN110516064A (zh) 一种基于深度学习的航空科研论文分类方法
Bonny et al. Deep learning approach for sentimental analysis of hotel review on bengali text
CN110348497A (zh) 一种基于WT-GloVe词向量构建的文本表示方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210727

Address after: No. 86, Yushan West Road, Jiangpu street, Pukou District, Nanjing, Jiangsu 210012

Patentee after: NANJING AUDIT University

Address before: No. 86, Yushan West Road, Pukou District, Nanjing City, Jiangsu Province

Patentee before: Chen Yifei

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211220

Address after: 210000 No. 10, Fenghuang street, Jiangpu street, Pukou District, Nanjing, Jiangsu - rh0001

Patentee after: Nanjing Rui Hui Data Technology Co.,Ltd.

Address before: No. 86, Yushan West Road, Jiangpu street, Pukou District, Nanjing, Jiangsu 210012

Patentee before: NANJING AUDIT University

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Feature selection method for text classification and its application in biomedical text classification

Effective date of registration: 20221011

Granted publication date: 20181123

Pledgee: Nanjing Bank Co.,Ltd. Nanjing Financial City Branch

Pledgor: Nanjing Rui Hui Data Technology Co.,Ltd.

Registration number: Y2022980017741