CN102033964B - 基于块划分及位置权重的文本分类方法 - Google Patents

基于块划分及位置权重的文本分类方法 Download PDF

Info

Publication number
CN102033964B
CN102033964B CN2011100065017A CN201110006501A CN102033964B CN 102033964 B CN102033964 B CN 102033964B CN 2011100065017 A CN2011100065017 A CN 2011100065017A CN 201110006501 A CN201110006501 A CN 201110006501A CN 102033964 B CN102033964 B CN 102033964B
Authority
CN
China
Prior art keywords
text
mrow
block
msub
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2011100065017A
Other languages
English (en)
Other versions
CN102033964A (zh
Inventor
周亚建
平源
杨义先
彭维平
刘念
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN2011100065017A priority Critical patent/CN102033964B/zh
Publication of CN102033964A publication Critical patent/CN102033964A/zh
Application granted granted Critical
Publication of CN102033964B publication Critical patent/CN102033964B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于块划分及位置权重的文本分类方法。它包括步骤:对输入的训练或测试文本经过基本的预处理后,提取文本中的段信息;将每一段视为一个基本的文本块,对块信息做统计分析,根据块大小分布或预定义的块比率,对文本内容重新进行块划分,包括文本块的合并等操作。提取特征词、量化权重,并获取特征词对类别的后验概率,然后分析具有最大后验概率类别与文本类别标签相符的特征词的分布,最后生成文本向量;利用分类器完成分类模型训练或文本分类。本发明可用于文本分类系统的文本表示阶段,通过丰富传统的利用特征词构建文本向量时对文本内容信息的表达,提升文本分类效果。

Description

基于块划分及位置权重的文本分类方法
技术领域
本发明涉及一种基于块划分及位置权重的文本分类方法,属于电子文本组织归类领域。
背景技术
文本分类通常从两个角度评价文本分类方法的优劣:一是分类性能,如准确率、召回率和F1值,二是实现性能,如时间效率和存储效率。而实现文本分类的过程却包含文本预处理、文本表示、分类器训练和分类应用等步骤,其中文本表示包含特征选择、特征权重量化、特征降维等细节。
常规的文本分类方法较多的集中在分类器的选择和改进方面,主要有基于支持向量机、K近邻、贝叶斯网络或多分类器组合等技术,尤其是支持向量机技术以其较高的分类性能和泛化能力而被广泛应用。然而,分类器的分类性能是受待分样本的可分性制约的,而确保样本可分性的关键却在于文本表示。一个文本数据在通过预处理之后,丢失部分信息是不可避免的,而文本向量固有的稀疏性则将加剧信息的丢失,以至于从分类器的设计上去解决输入样本的本身的类别重叠、噪声等变得异常困难和不确定。所以,一个良好文本分类方法如果能够在文本表示阶段最大程度地保留文本所携带的信息,无疑对于提高文本分类的效果是有益的。
传统的文本分类方法主要有两种模式:一是完全基于特征词的词频(TF)信息及其变化来反映文本信息,一是对文本进行断句后,根据特征词所在句子的不同来调节特征词权重以丰富所反映的文本信息。前者由于表达模式单一,不能最大程度的保留文本信息;后者虽携带信息更丰富,但通常的文本大小不一、句子长度差异大,导致句划分分析模式的适应能力差、存储资源消耗大,且不易于寻找有效的特征词权重调节模式等问题。
发明内容
本发明的目的是提供一种基于块划分及位置权重的文本分类方法,能够对文本做块划分、调整和分析后,引入特征词的位置权重表达以丰富文本向量的信息量,进一步提高文本分类的性能。
本发明的一个基本思想就是通过将文本内容划分为文本块,并利用特征词所在的块号或块偏移对特征重要程度的影响,来阐释文本携带的特征词信息之外的结构信息。然而,即便是同类文本的不同实例的原始段(块)大小与数量都是随机的,同时,对于文本块较多的情况,距离较近的文本块对相同特征词的重要程度影响较小,所以为避免直接使用原始段作为文本块的基本单位带来的计算、存储开销,需要对文本块进行适当的调整或重新划分。
本发明的技术方案是:基于块划分及位置权重的文本分类方法,包括如下步骤:
第一步:预处理及原始段、块的提取与标记:对输入的训练或测试文本使用基本的预处理,分析、提取并标记文本的原始段信息,将每个段视为一个文本块;
第二步:统计分析每个文本的块大小与分布,根据一个阈值,对近邻小文本块做合并操作;根据预定义块比率对整个文本或特定文本块重新进行块划分和标记;
第三步:判断处理对象,若为训练集文本,转入第四步,否则转入第六步;
第四步:利用常规的特征提取方法从训练集文本中提取特征词tj;使用特征权重量化方法,计算特征词的权重wj;计算特征词tj对每个训练类别的后验概率;
第五步:提取每个训练集文本中的具有最大后验概率类别与文本类别标签相符的特征词的分布,分析该特征词分布,选择合适的位置权重表达式f(b),其中b为块号;
第六步:根据第四步的特征词,提取测试文本的特征词tj、所属文本块号bj及原始权重wj;计算位置权重f(bj)·ωj来替代原始权重wj,并输出文本向量;
第七步:利用分类器完成分类模型训练或文本分类。
上述第一步中预处理及原始段、块的提取与标记采用的方法包括中/英文分词、去停用词、英文的词根还原,若为网页文本,则增加去HTML标记等操作。
上述第一步中分析、提取文本的段信息,将每一个段视为一个文本块,加以标记。
上述第二步中合并操作的步骤为:
根据第一步中的标记结果,长度为|D|的文本D被划分为长度序列{d1,d2,…,dl},其中,l为文本块数,则统计文本D的块平均长度
Figure GDA0000103356660000021
和方差δ如下。
d ‾ = 1 l Σ k = 1 l d k - - - ( 1 )
δ = ( 1 l - 1 Σ k = 1 l [ d k - d ‾ ] 2 ) 1 2 - - - ( 2 )
上述第四步中提取特征词的方法为基于互信息量(Mutual Information)、卡方(chi-square,χ2)和RF(relevance frequency)中的一种特征提取方法。
上述第四步中计算特征词的权重wj的方法包括IDF(Inverse Document Frequency)、卡方、RF、OR(Odd Ratio)中的一种特征词权重量化方法。
上述第四步中计算特征词tj对每个训练类别的后验概率,对类别Ci的后验概率Pr(Ci|tj)的计算方法为:
Pr ( C i | t j ) = Pr ( C i , t j ) Pr ( t j ) = Pr ( t j | C i ) · Pr ( C i ) Pr ( t j ) - - - ( 3 )
Pr ( C i ) = Σ j = 1 N tf ( t ji ) Σ i = 1 | C | Σ j = 1 N tf ( t ji ) - - - ( 4 )
Pr ( t j ) = Σ i = 1 | C | tf ( t ji ) Σ i = 1 | C | Σ j = 1 N tf ( t ji ) - - - ( 5 )
Pr ( t j | C i ) = tf ( t ji ) Σ j = 1 N tf ( t ji ) - - - ( 6 )
其中,tf(tji)为特征词tj在类别Ci中出现的频率,|C|为训练集中包含的类别数,N为特征词总数,对于具有多类文本的训练过程,每一个特征词tj都会得到一个后验概率序列,{Pr(C1|tj),Pr(C2|tj),...,Pr(CN′|tj)},其中N’为训练文本的类别总数。
上述第五步中特征词分布分析方法包括以下两种:
方法一,根据文本分类器的目标应用,分析各类别文档的共性结构规范,确定最佳表达文本类别的信息与该信息存在于文档中的偏移关系,而后选择一个合理的位置权重表达式;
方法二,由文本分类器,依据第二步的块划分,先将从长度大于一个阈值dthreshold的文本Dk(|Dk|≥dthreshold)中提取的特征词集
Figure GDA0000103356660000035
划分为如下序列:
T D k = { T D k 1 , T D k 2 , . . . , T D kr } - - - ( 7 )
其中,r为文本Dk的块数,然后依据一定的统计分析方法得到位置权重表达式,通过分析得到每个块对文档类别判定的贡献程度,再通过概率拟合算法得到的位置权重表达式为
f ( b ) = log 2 ( δ b + 1 + 2 ) - - - ( 8 )
其中,b∈[0,r-1]为块偏移,δ(≥1)为控制位置权重值范围和偏移落差的阈值,为预设值。
本发明的有益效果:
本发明的研究将人工进行文本分类时,有意识地提取文本对象特定区域、特定词等信息以对文本做出合理的类别判断的行为,转换为从文本向量对文本信息的表达能力提升的角度来提高文本分类器的分类效果。为此,本发明的文本分类方法,通过先将文本进行内容块标记、调整或重划分,然后利用人工或统计方法对文本中最大后验概率与文本类别标签相同的特征词的分布进行分析,确定特征词重要程度与其所在块偏移的关系作为位置权重,最后将位置权重和传统的特征权重相结合计算新的特征权重值,并输出相应的文本向量到分类器进行分类。
本发明方法采用了灵活的文本块划分方式,适宜处理任意长度的文本,能最大程度地节省文本分类器实现系统对存储资源的占用,并且块大小调整或重划分过程无须额外的文本扫描工作,极大的节约了分类所需的时间。同时,采用本发明的基于块偏移的位置权重表达模式,能从根本上解决传统方法本质上单纯地基于词频的权重所存在的表达模式单一,生成文本向量的信息量不足的问题。因此,本发明的本质是在原特征权重中附加了文本的结构信息,使得文本向量表达信息更丰富,使本发明的实现系统在分类的准确率、召回率等指标比传统方法有较大幅度的提高。
附图说明
图1本发明的基于块划分及位置权重的文本分类方法流程图。
具体实施方式:
下面结合附图和实施例,对本发明所述的技术方案作进一步的阐述。
在人工进行分类的时候,人们如果判断一个文本属于哪一类或者是获取文本所传达的信息,往往并不需要通读全文以确定文本的主题进而得到正确的判断,而是在文本的特定位置提取反映文本类型的特征词。而确定一个具有相当重要程度的特征词,也不仅仅依据它在一个文本中出现的频率来判断。也就是,一个具有明确的单类别或多类别归属的文本,通常具有在其特定领域的规范表达,即同样的特征词由于其处于文本中的位置不同,也将携带不同的信息量。换言之,一个文本所传达的信息量,应至少包含由组成文本的特征词所携带的信息和影响特征词本身作为反映文本类别的重要程度的文本结构信息两部分。而文本分类器从文本中获取的信息量越多,越将有利于做出正确的判断。然而,让文本分类器提取特征词是容易的,要精确分析文本结构并给出严格的特征词重要程度受结构影响的表达式却是不可能的。在对语料库的分析时,虽然每个特征词都可能在不同的类别中出现,但通过后验概率分析,我们能找与其具有最大相关度的类别,本发明称其为特征词的最大类别倾向。结合恰当的统计分析方法对特征集内各特征词的最大类别倾向分析,能找到特征词权重与位置结构关系的近似,进而优化文本表示的信息量。也就是说,本发明实现了一种基于块划分和位置权重分析的文本分类新方法。
本发明基于块划分及位置权重的文本分类方法的步骤如下:
1)预处理及原始段(块)提取与标记,它包括:
a.对输入的训练或测试文本,使用基本的预处理;
b.分析、提取并标记文本的原始段信息,将每个段视为一个文本块;
2)块信息统计分析,相邻文本块合并或按预定义的块比率重新划分文本块,它包括下面两个可选步骤:
a.统计分析每个文本的块大小与分布,根据一个阈值,对近邻小文本块做合并操作;
b.根据预定义块比率,对整个文本或特定文本块重新进行块划分和标记;3)判断处理对象,若为训练集文本,转入步骤4),否则,转入步骤6);
4)提取特征词、量化权重,并获取特征词tj对类别Ci的后验概率Pr(Ci|tj),它包括:
a.利用常规的特征提取方法,从训练集文本中提取特征词tj
b.使用一种特征权重量化方法,计算特征词的权重wj
c.计算特征词tj对每个训练类别的后验概率,如对类别Ci的后验概率Pr(Ci|tj);
5)根据最大后验概率类别与文本类别标签相符的特征词分布分析,选择或设计位置权重表达式,它包括:
a.提取每个训练集文本中的具有最大后验概率类别与文本类别标签相符的特征词的分布;
b.分析a步骤的特征词分布,选择或设计合适的位置权重表达式f(b),其中b为块号;
6)提取特征词tj、所属块号bj及原始权重wj,计算f(bj)·wj,并生成文本向量,它包括:
a.根据步骤4)的特征词集,提取测试文本的特征词tj、所属文本块号bj及原始权重wj
b.计算位置权重f(bj)·wj来替代原始权重wj,并输出文本向量;
7)分类器训练模型或分类。用于训练分类模型或分类的分类器可以是任何支持文本向量模型的分类器,如支持向量机分类器、K近邻分类器及朴素贝叶斯分类器等。
1.预处理及原始段(块)提取与标记
步骤1.a的预处理操作以利于提取训练集或测试集文本的原始段落信息为中心,可以采用常规的预处理方法,如中/英文分词、去停用词、英文的词根还原等,若为网页文本,则可增加去HTML标记等操作;
步骤1.b分析、提取文本的段信息,将每一个段视为一个文本块,加以标记,以便在步骤2中进行块分析与调整;
步骤1.a和1.b没有先后关系,具体实施过程中,可根据实际情况将二者有效融合,或先提取并标记文本块(段)信息后再做基本预处理操作。例如,在处理网页文本时,HTML标记中的“<H>与</H>”和“<p>与</p>”分别反映了文本的标题和段落数据范围,此时便可先自行标记文本块信息后清除这些语法标记。
本发明方法建议在处理网页文本时,将HTML标记“<H>与</H>”之间的标题文本或其他具有明确主题反映能力的文本块作为一个独立的文本块划分,并不受步骤2的块调整方法影响。
2.块信息统计分析,相邻文本块合并或按预定义的块比率重新划分文本块
本发明的一个基本思想就是通过将文本内容划分为文本块,并利用特征词所在的块号或块偏移对特征重要程度的影响,来阐释文本携带的特征词信息之外的结构信息。然而,即便是同类文本的不同实例的原始段(块)大小与数量都是随机的,同时,对于文本块较多的情况,距离较近的文本块对相同特征词的重要程度影响较小,所以为避免直接使用原始段作为文本块的基本单位带来的计算、存储开销,需要对文本块进行适当的调整或重新划分。
本发明关于文本块调整或重新划分包含两个可选方案:
a.统计分析每个文本的块大小与分布,根据一个阈值,对近邻小文本块做合并操作;
b.根据预定义块比率,对整个文本或特定文本块重新进行块划分和标记;
所述的方案a中,假设根据步骤1中的标记结果,长度为|D|的文本D被划分为长度序列{d1,d2,…,dl},其中,l为文本块数。则统计文本D的块平均长度
Figure GDA0000103356660000061
和方差δ如下:
d &OverBar; = 1 l &Sigma; k = 1 l d k - - - ( 9 )
&delta; = ( 1 l - 1 &Sigma; k = 1 l [ d k - d &OverBar; ] 2 ) 1 2 - - - ( 10 )
判断一个文本块是否需要进行调整的条件是:对于设定的系数λ,如果当前文本块的长度di(i∈[1,l])小于
Figure GDA0000103356660000064
进行文本块合并的方法可以是将第i个文本块并入第i-1或i+1个文本块中;
所述的方案b中,可预设块大小比率R,将文本逐次划分为长度为R·|D|的文本块。
所述的方案b中,文本块大小比率R将直接影响文本即将被划分的块数,预设原则可以是人工对文本分类的目标领域的文档做有意义的结构分析而得到,也可以是其他任何有效方式。
本步骤中,上述两个方案可以结合使用,条件是:当文本分类系统选择使用方案a所述方法进行文本块调整时,但存在一些步骤1无法提取恰当的信息进行原始块划分和标记的文本,且该文本的长度|D|又大于一个预设的全文长度界|D|max时。
由于它们本身没有足够的信息使得步骤1合理的标记文本块,
3.判断处理对象,若为训练集文本,转入步骤4),否则,转入步骤6);
本发明的图示步骤采用了将文本分类系统的训练过程和测试过程结合的表达方式,故步骤3对处理对象的判断并不是必须在步骤2之后进行。在实际的文本分类系统中,对训练集的训练和对测试集的测试过程是两个独立的过程,即在将本发明方法用于具体的文本分类系统中,可以将此7个步骤分解为训练和测试两个步骤序列,示例如下:
训练过程:步骤1→步骤2→步骤4→步骤5→步骤7
测试过程:步骤1→步骤2→步骤6→步骤7
4.提取特征词、量化权重,并获取特征词tj对类别Ci的后验概率Pr(Ci|tj)
本发明实际是实现了一种基于并具有灵活的块划分能力和位置权重分析的文本分类方法,所以对于提取特征词、量化权重等方法不作具体限制。
步骤4.a旨在从训练集文本中提取特征词tj,使用的方法可以是基于互信息量(MutualInformation)、卡方(chi-square,χ2)和RF(relevance frequency)等任何一种特征提取方法;
步骤4.b计算特征词的权重wj,可选择包括IDF(Inverse Document Frequency)、卡方、RF、OR(Odd Ratio)等在内的任何一种特征词权重量化方法;
步骤4.c计算特征词tj对每个训练类别的后验概率,如对类别Ci的后验概率Pr(Ci|tj)计算方法(3)~(6):
Pr ( C i | t j ) = Pr ( C i , t j ) Pr ( t j ) = Pr ( t j | C i ) &CenterDot; Pr ( C i ) Pr ( t j ) - - - ( 11 )
Pr ( C i ) = &Sigma; j = 1 N tf ( t ji ) &Sigma; i = 1 | C | &Sigma; j = 1 N tf ( t ji ) - - - ( 12 )
Pr ( t j ) = &Sigma; i = 1 | C | tf ( t ji ) &Sigma; i = 1 | C | &Sigma; j = 1 N tf ( t ji ) - - - ( 13 )
Pr ( t j | C i ) = tf ( t ji ) &Sigma; j = 1 N tf ( t ji ) - - - ( 14 )
其中,tf(tji)为特征词tj在类别Ci中出现的频率,|C|为训练集中包含的类别数,N为特征词总数。在实现的系统中,采用了基于特征词频来计量后验概率,也可以使用出现特征词的文档频率计算。
对于具有多类文本的训练过程,每一个特征词tj都会得到一个后验概率序列,{Pr(C1|tj),Pr(C2|tj),...,Pr(CN′|tj)},其中N’为训练文本的类别总数。
5.根据最大后验概率类别与文本类别标签相符的特征词分布分析,选择或设计位置权重表达式。
在步骤4得到所有特征词的后验序列后,若分类器没有训练集文本结构的先验知识,则可以先提取每个训练集文本中的具有最大后验概率类别与文本类别标签相符的特征词,即对任一文本Dk,需提取的特征词集满足
T D k = { t | y D k = C i , Pr ( C i | t ) &GreaterEqual; Pr ( C q | t ) | q &NotEqual; i , i , q &Element; [ 1 , | C | ] , k &Element; [ 1 , l ] } - - - ( 15 )
其中,
Figure GDA0000103356660000077
为文本Dk的类别标签,l为训练集中的文本总数,|C|为类别总数。
根据本发明的步骤4.b,需要人工或分类器通过分析每个文档或人工分析认为最具有代表意义的文档的特征词集
Figure GDA0000103356660000078
中词汇的分布情况,分析方法有如下方式,但不局限于示例所介绍的方式。
方法一是,根据文本分类器的目标应用,分析各类别文档的共性结构规范,确定最佳表达文本类别的信息与该信息存在于文档中的偏移关系,而后选择一个合理的位置权重表达式;
方法二是,由文本分类器,依据步骤2的块划分,先将从长度大于一个阈值dthreshold的文本Dk(|Dk|≥dthreshold)中提取的特征词集
Figure GDA0000103356660000081
划分为如下序列:
T D k = { T D k 1 , T D k 2 , . . . , T D kr } - - - ( 16 )
其中,r为文本Dk的块数。然后,依据一定的统计分析方法得到位置权重表达式。实现系统中,通过分析得到每个块对文档类别判定的贡献程度,再通过概率拟合算法,对20Newsgroup、Reuters-21573等分析得到的位置权重表达式为
f ( b ) = log 2 ( &delta; b + 1 + 2 ) - - - ( 17 )
其中,b∈[0,r-1]这块偏移,δ(≥1)为控制位置权重值范围和偏移落差的阈值,为预设值。
6.提取特征词tj、所属块号bj及原始权重wj,以f(bj)和wj为输入参数,计算新权重替代原始权重,并生成文本向量
本发明的另一个基本思想是,通过引入特征所在文本中的块位置对其本身的重要性关系,来改变传统单纯依据特征词频率的权重模式,进而达到丰富文本向量对文本信息的表达,而最直接的方法就是用特征词的位置权重乘以特征词的原量化权重。
为此,对于文本分类器来讲,本步骤无论是作用于训练过程建立分类模型,还是作用于测试集进行分类,都应当包含以下两项工作:
a.根据步骤4的特征词集,提取测试文本的特征词tj’、所属文本块号bj及原始权重wj
b.以位置权重f(bj)和原始权重wj作为输入参数,计算新权重值替代原始权重wj,并输出文本向量;
本发明所述的步骤6.a中,对特征词原始权重的计量方法没有要求,并已由步骤4说明。
本发明所述的步骤6.b中,实现系统采用了将特征词的位置权重乘以原始权重的方法f(bj)·wj替代原始权重wj;根据具体目标应用的不同,可以将位置权重和原始权重作为两项参数,采用其他任何有效方法生成新的权重值。最终,根据步骤7处理格式的要求输出的文本向量。
7.分类器训练模型或分类。
用于训练分类模型或分类的分类器可以是任何支持文本向量模型的分类器,如支持向量机分类器、K近邻分类器及朴素贝叶斯分类器等。
上述对本发明进行说明所涉及的仅是各步骤的示例,本领域普通技术人员可以根据实际情况确定所需要使用的步骤,而且各个步骤的具体实现有多种方法,任何在不脱离本发明的范围的任何修改或局部替换,均属于本发明权利要求来限定的范围。

Claims (1)

1.基于块划分及位置权重的文本分类方法,其特征在于:包括如下步骤:
第一步:预处理及原始段、块的提取与标记:对输入的训练或测试文本使用基本的预处理,分析、提取并标记文本的原始段信息,将每个段视为一个文本块,加以标记;其中预处理及原始段、块的提取与标记采用的方法包括中/英文分词、去停用词、英文的词根还原,若为网页文本,则增加去HTML标记操作;
第二步:统计分析每个文本的块大小与分布,根据一个阈值,对近邻小文本块做合并操作;根据预定义块比率对整个文本或特定文本块重新进行块划分和标记;其中合并操作的步骤为:根据第一步中的标记结果,长度为|D|的文本D被划分为长度序列{d1,d2,…,dl},其中,l为文本块数,则统计文本D的块平均长度 和方差δ如下:
Figure FDA0000103356650000012
判断一个文本块是否需要进行调整的条件是:对于设定的系数λ,如果当前文本块的长度di(i∈[1,l])小于 
Figure FDA0000103356650000014
进行文本块合并的方法可以是将第i个文本块并入第i-1或i+1个文本块中;
第三步:判断处理对象,若为训练集文本,转入第四步,否则转入第六步;
第四步:利用常规的特征提取方法从训练集文本中提取特征词tj;使用特征权重量化方法,计算特征词的权重wj;计算特征词tj对每个训练类别的后验概率;其中提取特征词的方法为基于互信息量(Mutual Information)、卡方(chi-square,χ2)和RF(relevance frequency)中的一种特征提取方法,计算特征词的权重wj的方法包括IDF(Inverse Document Frequency)、卡方、RF、OR(Odd Ratio)中的一种特征词权重量化方法,计算特征词tj对每个训练类别的后验概率,对类别Ci的后验概率Pr(Ci|tj)的计算方法为:
Figure FDA0000103356650000015
Figure FDA0000103356650000016
Figure FDA0000103356650000017
Figure FDA0000103356650000018
其中,tf(tji)为特征词tj在类别Ci中出现的频率,|C|为训练集中包含的类别数,N为训练文本的特征词总数,对于具有多类文本的训练过程,每一个特征词tj都会得到一个后验概率序列,{Pr(C1|tj),Pr(C2|tj),...,Pr(CN′|tj)},其中N’为训练文本的类别总数;
第五步:提取每个训练集文本中的具有最大后验概率类别与文本类别标签相符的特征词的分布,分析该特征词分布,选择合适的位置权重表达式f(b),其中b为块号;其中特征词分布分析方法包括以下两种:
方法一,根据文本分类器的目标应用,分析各类别文档的共性结构规范,确定最佳表达文本类别的信息与该信息存在于文档中的偏移关系,而后选择一个合理的位置权重表达式;
方法二,由文本分类器,依据第二步的块划分,先将从长度大于一个阈值dthreshold的文本Dk(|Dk|≥dthreshold)中提取的特征词集 划分为如下序列:
Figure FDA0000103356650000022
其中,r为文本Dk的块数,然后依据一定的统计分析方法得到位置权重表达式,通过分析得到每个块对文档类别判定的贡献程度,再通过概率拟合算法得到的位置权重表达式为
Figure FDA0000103356650000023
其中,b∈[0,r-1]为块偏移,δ(≥1)为控制位置权重值范围和偏移落差的阈值,为预设值;
第六步:根据第四步的特征词,提取测试文本的特征词tj’、所属文本块号bj及原始权重wj;计算位置权重f(bj)·wj来替代原始权重wj,并输出文本向量;
第七步:利用分类器完成分类模型训练或文本分类。 
CN2011100065017A 2011-01-13 2011-01-13 基于块划分及位置权重的文本分类方法 Expired - Fee Related CN102033964B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100065017A CN102033964B (zh) 2011-01-13 2011-01-13 基于块划分及位置权重的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100065017A CN102033964B (zh) 2011-01-13 2011-01-13 基于块划分及位置权重的文本分类方法

Publications (2)

Publication Number Publication Date
CN102033964A CN102033964A (zh) 2011-04-27
CN102033964B true CN102033964B (zh) 2012-05-09

Family

ID=43886857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100065017A Expired - Fee Related CN102033964B (zh) 2011-01-13 2011-01-13 基于块划分及位置权重的文本分类方法

Country Status (1)

Country Link
CN (1) CN102033964B (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970749B (zh) * 2013-01-25 2017-08-25 北京百度网讯科技有限公司 一种网页中的块重要性计算方法及系统
CN104866465B (zh) * 2014-02-25 2017-11-03 腾讯科技(深圳)有限公司 敏感文本检测方法及装置
CN104978354B (zh) * 2014-04-10 2020-11-06 中电长城网际系统应用有限公司 文本分类方法和装置
CN104008187B (zh) * 2014-06-11 2017-02-01 北京邮电大学 一种基于最小编辑距离的半结构化文本匹配方法
CN104408087A (zh) * 2014-11-13 2015-03-11 百度在线网络技术(北京)有限公司 作弊文本的识别方法和系统
CN106156204B (zh) * 2015-04-23 2020-05-29 深圳市腾讯计算机系统有限公司 文本标签的提取方法和装置
CN105205090A (zh) * 2015-05-29 2015-12-30 湖南大学 基于网页链接分析和支持向量机的网页文本分类算法研究
CN105005559A (zh) * 2015-08-18 2015-10-28 东南大学 一种基于主题特征的文档分类方法
CN106874291A (zh) * 2015-12-11 2017-06-20 北京国双科技有限公司 文本分类的处理方法及装置
CN105701084A (zh) * 2015-12-28 2016-06-22 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于互信息的文本分类的特征提取方法
US10643126B2 (en) 2016-07-14 2020-05-05 Huawei Technologies Co., Ltd. Systems, methods and devices for data quantization
CN106250934B (zh) * 2016-08-12 2019-11-01 南方电网科学研究院有限责任公司 一种缺陷数据的分类方法及装置
CN106484873A (zh) * 2016-10-13 2017-03-08 成都东方盛行电子有限责任公司 一种大数据分类处理方法
CN106503153B (zh) * 2016-10-21 2019-05-10 江苏理工学院 一种计算机文本分类体系
CN106649238A (zh) * 2016-12-20 2017-05-10 北京云知声信息技术有限公司 语音转写方法及装置
CN106649890B (zh) * 2017-02-07 2020-07-14 税云网络科技服务有限公司 数据存储方法和装置
CN107145516B (zh) * 2017-04-07 2021-03-19 北京捷通华声科技股份有限公司 一种文本聚类方法及系统
CN108984556B (zh) * 2017-06-01 2021-02-26 北京京东尚科信息技术有限公司 用于数据处理的方法、装置及计算机可读存储介质
CN109002443B (zh) * 2017-06-06 2021-12-28 北京国双科技有限公司 一种文本信息的分类方法及装置
CN107633000B (zh) * 2017-08-03 2020-08-04 北京微智信业科技有限公司 基于tfidf算法和相关词权重修正的文本分类方法
CN110019782B (zh) * 2017-09-26 2021-11-02 北京京东尚科信息技术有限公司 用于输出文本类别的方法和装置
CN108470116A (zh) * 2018-03-03 2018-08-31 淄博职业学院 一种计算机系统及其用户的身份识别方法和装置
CN108376130A (zh) * 2018-03-09 2018-08-07 长安大学 一种不良文本信息过滤用特征选择方法
CN109063996A (zh) * 2018-07-23 2018-12-21 长沙知了信息科技有限公司 多用户协同编辑的信息处理方法及装置
CN109522544A (zh) * 2018-09-27 2019-03-26 厦门快商通信息技术有限公司 基于卡方检验的句向量计算方法、文本分类方法及系统
CN109948518B (zh) * 2019-03-18 2023-06-09 武汉汉王大数据技术有限公司 一种基于神经网络的pdf文档内容文本段落聚合的方法
CN110427488B (zh) * 2019-07-30 2022-09-23 北京明略软件系统有限公司 文档的处理方法及装置
CN111611342B (zh) * 2020-04-09 2023-04-18 中南大学 一种获取词项段落关联权重的方法和装置
CN114547305A (zh) * 2022-02-24 2022-05-27 金华高等研究院(金华理工学院筹建工作领导小组办公室) 一种基于自然语言处理的文本分类系统
CN117708308B (zh) * 2024-02-06 2024-05-14 四川蓉城蕾茗科技有限公司 一种基于rag自然语言智能知识库管理的方法和系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100533441C (zh) * 2006-04-19 2009-08-26 中国科学院自动化研究所 基于概率主题词的两级组合文本分类方法
CN101021838A (zh) * 2007-03-02 2007-08-22 华为技术有限公司 文本处理方法和系统
CN100583101C (zh) * 2008-06-12 2010-01-20 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
CN101587493B (zh) * 2009-06-29 2012-07-04 中国科学技术大学 文本分类方法
CN101763431A (zh) * 2010-01-06 2010-06-30 电子科技大学 基于海量网络舆情信息的pl聚类处理方法

Also Published As

Publication number Publication date
CN102033964A (zh) 2011-04-27

Similar Documents

Publication Publication Date Title
CN102033964B (zh) 基于块划分及位置权重的文本分类方法
CN104750844B (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN105868178B (zh) 一种基于短语主题建模的多文档自动摘要生成方法
CN106709754A (zh) 一种用基于文本挖掘的电力用户分群方法
CN102663431B (zh) 一种基于区域加权的图像匹配计算方法
CN116629275B (zh) 一种基于大数据的智能决策支持系统及方法
CN108874772A (zh) 一种多义词词向量消歧方法
CN105512311A (zh) 一种基于卡方统计的自适应特征选择方法
CN104657496A (zh) 一种计算信息热度值的方法和设备
CN103699523A (zh) 产品分类方法和装置
CN105183833A (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
CN102193936A (zh) 一种数据分类的方法及装置
CN102541838B (zh) 用于优化情感分类器的方法和设备
CN103218405A (zh) 基于维数约简的集成迁移文本分类方法
CN105069141A (zh) 一种股票标准新闻库的构建方法及构建系统
CN103345528A (zh) 一种基于关联分析和knn的文本分类方法
CN113591866B (zh) 基于db与crnn的特种作业证件检测方法及系统
CN103309862A (zh) 一种网页类型识别方法和系统
CN111460147B (zh) 一种基于语义增强的标题短文本分类方法
CN103164537B (zh) 一种面向用户信息需求的搜索引擎日志数据挖掘的方法
CN102081598A (zh) 一种检测文本重复的方法
Koistinen et al. How to improve optical character recognition of historical Finnish newspapers using open source Tesseract OCR engine
CN110910175A (zh) 一种旅游门票产品画像生成方法
CN110110230A (zh) 一种基于用户评分与评论的推荐方法
CN111242131B (zh) 一种智能阅卷中图像识别的方法、存储介质及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120509

Termination date: 20140113