CN104978354B - 文本分类方法和装置 - Google Patents

文本分类方法和装置 Download PDF

Info

Publication number
CN104978354B
CN104978354B CN201410143815.5A CN201410143815A CN104978354B CN 104978354 B CN104978354 B CN 104978354B CN 201410143815 A CN201410143815 A CN 201410143815A CN 104978354 B CN104978354 B CN 104978354B
Authority
CN
China
Prior art keywords
text
classified
training set
feature word
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410143815.5A
Other languages
English (en)
Other versions
CN104978354A (zh
Inventor
黄凯峰
林宝晶
郭春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cec Cyberspace Great Wall Co ltd
Original Assignee
Cec Cyberspace Great Wall Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cec Cyberspace Great Wall Co ltd filed Critical Cec Cyberspace Great Wall Co ltd
Priority to CN201410143815.5A priority Critical patent/CN104978354B/zh
Publication of CN104978354A publication Critical patent/CN104978354A/zh
Application granted granted Critical
Publication of CN104978354B publication Critical patent/CN104978354B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本分类方法和装置。该方法包括:根据训练集文本的特征词对和与所述训练集文本的特征词对对应的训练集文本的特征词对的权重,生成训练集文本向量;对所述训练集文本向量进行训练,得出文本分类器;根据待分类文本的特征词对和与所述待分类文本的特征词对对应的待分类文本的特征词对的权重,生成待分类文本向量;通过所述文本分类器对所述待分类文本向量进行分类,得出分类结果。本发明提供的文本分类方法和装置的技术方案中,通过特征词对来构建文本向量,丰富了文本向量中携带的信息量,从而能够有效提高文本分类的准确率和召回率。

Description

文本分类方法和装置
技术领域
本发明涉及电子组织归类领域,特别涉及一种文本分类方法和装置。
背景技术
文本分类是指计算机将一篇文本归于预先给定的某一类或某几类的过程。通常,在对文本进行人工分类的时候,如果判断一个文本属于哪一类或者是获取文本所传达的信息时,往往并不需要通读全文以确定文本的主题进而得到正确的判断,而是对某一个或某几个段落进行阅读。这是因为一个作者在撰写文本时,通常会将对一个事物特定方面的描述语句放在一个自然段中,也就是说,对于文本主题的表达或类别的暗示而言,段落通常是与主题相关的单元,而段内的句子之间则存在较强的相关性。
现有技术中的文本分类方法是基于孤立的特征词进行文本表示的,因此得出的文本向量中包括的信息量较少,从而使得根据文本向量得出的文本分类器获取到的文本的信息量也较少。因此,现有技术中,采用上述文本分类器对待分类文本向量进行文本分类时,导致文本分类的准确率和召回率较低。
发明内容
本发明提供一种文本分类方法和装置,用于提高文本分类的准确率和召回率。
为实现上述目的,本发明提供了一种文本分类方法,包括:
根据训练集文本的特征词对和与所述训练集文本的特征词对对应的训练集文本的特征词对的权重,生成训练集文本向量;
对所述训练集文本向量进行训练,得出文本分类器;
根据待分类文本的特征词对和与所述待分类文本的特征词对对应的待分类文本的特征词对的权重,生成待分类文本向量;
通过所述文本分类器对所述待分类文本向量进行分类,得出分类结果。
可选地,所述根据训练集文本的特征词对和与所述训练集文本的特征词对对应的训练集文本的特征词对的权重,生成训练集文本向量之前还包括:
从所述训练集文本中获取训练集文本的特征词;
通过特征词权重量化方法计算出所述训练集文本的特征词的权重;
根据所述训练集文本的特征词的权重,对所述训练集文本的特征词进行组合形成所述训练集文本的特征词对,所述训练集文本的特征词对形成训练集文本的特征词对集合;
根据所述训练集文本的特征词对中的训练集文本的特征词的权重,得出所述训练集文本的特征词对的原始权重;
根据所述训练集文本的特征词对中的训练集文本的特征词之间的块间隔数,生成所述训练集文本的特征词对的权重系数;
根据所述训练集文本的特征词对的权重系数和所述训练集文本的特征词对的原始权重,生成所述训练集文本的特征词对的权重。
可选地,所述从所述训练集文本中获取训练集文本的特征词包括:对所述训练集文本的自然段进行划分得出训练文本块,并为所述训练文本块设置块标记;对所述训练文本块进行分词处理和去停用词处理,得出训练集文本的待处理特征词;通过特征词提取方法,从所述训练集文本的待处理特征词中提取出所述训练集文本的特征词;
所述根据所述训练集文本的特征词的权重,对所述训练集文本的特征词进行组合形成所述训练集文本的特征词对包括:获取与某一训练集文本的特征词位于同一自然段不同训练文本块中的权重最大的另一训练集文本的特征词;将某一训练集文本的特征词与权重最大的另一训练集文本的特征词进行组合,形成所述训练集文本的特征词对;
所述根据所述训练集文本的特征词对中的训练集文本的特征词的权重,得出所述训练集文本的特征词对的原始权重包括:从所述训练集文本的特征词对中的训练集文本的特征词的权重中选取较小的权重作为所述训练集文本的特征词对的原始权重;
所述根据所述训练集文本的特征词对中的训练集文本的特征词之间的块间隔数,生成所述训练集文本的特征词对的权重系数包括:通过公式
Figure BDA0000489311750000031
对训练块间隔数进行计算处理得出训练集文本的特征词对的权重系数,其中,hd为训练集文本的特征词之间的块间隔数,f(hd)为训练集文本的特征词对的权重系数,所述训练集文本的特征词之间的块间隔数为所述训练集文本的特征词对中训练集文本的特征词所在的训练文本块之间的最小间隔;
所述根据所述训练集文本的特征词对的权重系数和所述训练集文本的特征词对的原始权重,生成所述训练集文本的特征词对的权重包括:将所述训练集文本的特征词对的权重系数和所述训练集文本的特征词对的原始权重相乘,得出所述训练集文本的特征词对的权重。
可选地,所述根据待分类文本的特征词对和与所述待分类文本的特征词对对应的待分类文本的特征词对的权重,生成待分类文本向量之前还包括:
从所述待分类文本中获取待分类文本的待处理特征词;
将所述待分类文本的待处理特征词与所述训练集文本的特征词进行比较,保留与所述训练集文本的特征词相同的所述待分类文本的待处理特征词以得出所述待分类文本的特征词;
根据所述待分类文本的特征词的权重,对所述待分类文本的特征词进行组合形成待分类文本的待处理特征词对,所述待分类文本的特征词的权重为与该待分类文本的特征词相同的训练集文本的特征词的权重;
将所述待分类文本的待处理特征词对与所述训练集文本的特征词对进行比较,保留与所述训练集文本的特征词对相同的所述待分类文本的待处理特征词对得出所述待分类文本的特征词对;
根据所述待分类文本的特征词对中的待分类文本的特征词的权重,得出所述待分类文本的特征词对的原始权重;
根据所述待分类文本的特征词对中的待分类文本的特征词之间的块间隔数,生成所述待分类文本的特征词对的权重系数;
根据所述待分类文本的特征词对的权重系数和所述待分类文本的特征词对的原始权重,生成所述待分类文本的特征词对的权重。
可选地,所述从所述待分类文本中获取待分类文本的待处理特征词包括:对所述待分类文本的自然段进行划分得出待分类文本块,并为所述待分类文本块设置块标记;对所述待分类文本块进行分词处理和去停用词处理,得出待分类文本的待处理特征词;
所述根据所述待分类文本的特征词的权重,对所述待分类文本的特征词进行组合形成待分类文本的待处理特征词对包括:获取与某一待分类文本的特征词位于同一自然段不同待分类文本块中的权重最大的另一待分类文本的特征词;将某一待分类文本的特征词与权重最大的另一待分类文本的特征词进行组合,形成所述待分类文本的待处理特征词对;
所述根据所述待分类文本的特征词对中的待分类文本的特征词的权重,得出所述待分类文本的特征词对的原始权重包括:从所述待分类文本的特征词对中的待分类文本的特征词的权重中选取较小的权重作为所述待分类文本的特征词对的原始权重;
所述根据所述待分类文本的特征词对中的待分类文本的特征词之间的块间隔数,生成所述待分类文本的特征词对的权重系数包括:通过公式
Figure BDA0000489311750000041
对待分类文本的特征词之间的块间隔数进行计算处理得出待分类文本的特征词对的权重系数,其中,he为待分类文本的特征词之间的块间隔数,f(he)为待分类文本的特征词对的权重系数,所述待分类文本的特征词之间的块间隔数为所述待分类文本的特征词对中待分类文本的特征词所在的待分类文本块之间的最小间隔;
所述根据所述待分类文本的特征词对的权重系数和所述待分类文本的特征词对的原始权重,生成所述待分类文本的特征词对的权重包括:将所述待分类文本的特征词对的权重系数和所述待分类文本的特征词对的原始权重相乘,得出所述待分类文本的特征词对的权重。
为实现上述目的,本发明提供了一种文本分类装置,包括:
第一生成模块,用于根据训练集文本的特征词对和与所述训练集文本的特征词对对应的训练集文本的特征词对的权重,生成训练集文本向量;
训练模块,用于对所述训练集文本向量进行训练,得出文本分类器;
第二生成模块,用于根据待分类文本的特征词对和与所述待分类文本的特征词对对应的待分类文本的特征词对的权重,生成待分类文本向量;
分类模块,用于通过所述文本分类器对所述待分类文本向量进行分类,得出分类结果。
可选地,还包括:获取模块、计算模块、组合模块、第三生成模块、第四生成模块和第五生成模块;
所述获取模块,用于从所述训练集文本中获取训练集文本的特征词;
所述计算模块,用于通过特征词权重量化方法计算出所述训练集文本的特征词的权重;
所述组合模块,用于根据所述训练集文本的特征词的权重,对所述训练集文本的特征词进行组合形成所述训练集文本的特征词对,所述训练集文本的特征词对形成训练集文本的特征词对集合;
所述第三生成模块,用于根据所述训练集文本的特征词对中的训练集文本的特征词的权重,得出所述训练集文本的特征词对的原始权重;
所述第四生成模块,用于根据所述训练集文本的特征词对中的训练集文本的特征词之间的训练集文本的特征词之间的块间隔数,生成所述训练集文本的特征词对的权重系数;
所述第五生成模块,用于根据所述训练集文本的特征词对的权重系数和所述训练集文本的特征词对的原始权重,生成所述训练集文本的特征词对的权重。
可选地,所述获取模块包括:划分子模块、分词子模块和提取子模块;
所述划分子模块,用于对所述训练集文本的自然段进行划分得出训练文本块,并为所述训练文本块设置块标记;
所述分词子模块,用于对所述训练文本块进行分词处理和去停用词处理,得出训练集文本的待处理特征词;
所述提取子模块,用于通过特征词提取方法,从所述训练集文本的待处理特征词中提取出所述训练集文本的特征词;
所述组合模块包括:获取子模块和组合子模块;
所述获取子模块,用于获取与某一训练集文本的特征词位于同一自然段不同训练文本块中的权重最大的另一训练集文本的特征词;
所述组合子模块,用于将某一训练集文本的特征词与权重最大的另一训练集文本的特征词进行组合,形成所述训练集文本的特征词对;
所述第三生成模块具体用于从所述训练集文本的特征词对中的训练集文本的特征词的权重中选取较小的权重作为所述训练集文本的特征词对的原始权重;
所述第四生成模块具体用于通过公式
Figure BDA0000489311750000061
对训练集文本的特征词之间的块间隔数进行计算处理得出训练集文本的特征词对的权重系数,其中,hd为训练集文本的特征词之间的块间隔数,f(hd)为训练集文本的特征词对的权重系数,所述训练集文本的特征词之间的块间隔数为所述训练集文本的特征词对中训练集文本的特征词所在的训练文本块之间的最小间隔;
所述第五生成模块具体用于将所述训练集文本的特征词对的权重系数和所述训练集文本的特征词对的原始权重相乘,得出所述训练集文本的特征词对的权重。
可选地,还包括:第一比较模块和第二比较模块;
所述获取模块还用于从所述待分类文本中获取待分类文本的待处理特征词;
第一比较模块,用于将所述待分类文本的待处理特征词与所述训练集文本的特征词进行比较,保留与所述训练集文本的特征词相同的所述待分类文本的待处理特征词以得出所述待分类文本的特征词;
所述组合模块还用于根据所述待分类文本的特征词的权重,对所述待分类文本的特征词进行组合形成所述待分类文本的待处理特征词对,所述待分类文本的特征词的权重为与该待分类文本的特征词相同的训练集文本的特征词的权重;
第二比较模块,用于将所述待分类文本的待处理特征词对与所述训练集文本的特征词对进行比较,保留与所述训练集文本的特征词对相同的所述待分类文本的待处理特征词对得出所述待分类文本的特征词对;
所述第三生成模块还用于根据所述待分类文本的特征词对中的待分类文本的特征词的权重,得出所述待分类文本的特征词对的原始权重;
所述第四生成模块还用于根据所述待分类文本的特征词对中的待分类文本的特征词之间的块间隔数,生成所述待分类文本的特征词对的权重系数;
所述第五生成模块还用于根据所述待分类文本的特征词对的权重系数和所述待分类文本的特征词对的原始权重,生成所述待分类文本的特征词对的权重。
可选地,所述划分子模块还用于对所述待分类文本的自然段进行划分得出待分类文本块,并为所述待分类文本块设置块标记;
所述分词子模块还用于对所述待分类文本块进行分词处理和去停用词处理,得出待分类文本的待处理特征词;
所述获取子模块还用于获取与某一待分类文本的特征词位于同一自然段不同待分类文本块中的权重最大的另一待分类文本的特征词;
所述组合子模块还用于将某一待分类文本的特征词与权重最大的另一待分类文本的特征词进行组合,形成所述待分类文本的待处理特征词对;
所述第三生成模块具体还用于从所述待分类文本的特征词对中的待分类文本的特征词的权重中选取较小的权重作为所述待分类文本的特征词对的原始权重;
所述第四生成模块具体还用于通过公式
Figure BDA0000489311750000081
对待分类文本的特征词之间的块间隔数进行计算处理得出待分类文本的特征词对的权重系数,其中,he为待分类文本的特征词之间的块间隔数,f(he)为待分类文本的特征词对的权重系数,所述待分类文本的特征词之间的块间隔数为所述待分类文本的特征词对中待分类文本的特征词所在的待分类文本块之间的最小间隔;
所述第五生成模块具体还用于将所述待分类文本的特征词对的权重系数和所述待分类文本的特征词对的原始权重相乘,得出所述待分类文本的特征词对的权重。
本发明具有以下有益效果:
本发明提供的文本分类方法和装置的技术方案中,训练集文本向量是根据训练集文本的特征词对和训练集文本的特征词对的权重得出的,待分类文本向量是根据待分类文本的特征词对和待分类文本的特征词对的权重得出的,使得训练集文本向量以及待分类文本向量中均包括了特征词对和特征词之间的关联信息,丰富了文本向量中携带的信息量,从而提高了文本分类的准确率和召回率。
附图说明
图1为本发明实施例一提供的一种文本分类方法的流程图;
图2为本发明实施例二提供的一种文本分类方法的流程图;
图3为本发明实施例三提供的一种文本分类装置的结构示意图;
图4为本发明实施例四提供的一种文本分类装置的结构示意图。
具体实施方式
为使本领域的技术人员更好地理解本发明的技术方案,下面结合附图对本发明提供的文本分类方法和装置进行详细描述。
图1为本发明实施例一提供的一种文本分类方法的流程图,如图1所示,该方法包括:
步骤101、根据训练集文本的特征词对和与训练集文本的特征词对对应的训练集文本的特征词对的权重,生成训练集文本向量。
步骤102、对训练集文本向量进行训练,得出文本分类器。
步骤103、根据待分类文本的特征词对和与待分类文本的特征词对对应的待分类文本的特征词对的权重,生成待分类文本向量。
本实施例中,待分类文本的特征词对为多个。
步骤104、通过文本分类器对所述待分类文本向量进行分类,得出分类结果。
其中,得出的分类结果为待分类文本的分类结果。
可以理解的是,本实施例中各步骤的执行顺序可根据需要进行变更,例如:步骤103可在步骤102之前执行。
本实施例提供的文本分类方法的技术方案中,训练集文本向量是根据训练集文本的特征词对和训练集文本的特征词对的权重得出的,待分类文本向量是根据待分类文本的特征词对和待分类文本的特征词对的权重得出的,使得训练集文本向量以及待分类文本向量中均包括了特征词对和特征词之间的关联信息,丰富了文本向量中携带的信息量,从而提高了文本分类的准确率和召回率。
图2为本发明实施例二提供的一种文本分类方法的流程图,如图2所示,该方法包括:
步骤201、从训练集文本中获取训练集文本的特征词。
具体地,步骤201可包括:
步骤2011、对训练集文本的自然段进行划分得出训练文本块,并为训练文本块设置块标记。
每个训练集文本包括若干个自然段,每个自然段对应于一个段标记,该段标记用于标识该自然段。其中,段标记可以为段号。
以自然段中的标点为边界对该自然段进行划分得出训练文本块,并为每个划分出的训练文本块设置一个块标记,该块标记用于标识该训练文本块。其中,块标记可以为块号。
步骤2012、对训练文本块进行分词处理和去停用词处理,得出训练集文本的待处理特征词。
本步骤中,分词处理可以为:中/英文分词处理,在实际应用中还可以采用其它分词处理方法对训练文本块进行分词处理,此处不再一一列举。其中,对训练文本块进行分词处理和去停用词处理后可得出训练集文本的全部特征词,即:训练集文本的待处理特征词。
步骤2013、通过特征词提取方法,从训练集文本的待处理特征词中提取出训练集文本的特征词。
优选地,特征词提取方法可包括:基于互信息量(Mutual Information)法、卡方(Chi-square)法或者相关频率(relevance frequency,简称:RF)法,在实际应用中还可以采用其它特征词提取方法从训练集文本的待处理特征词中提取出训练集文本的特征词,此处不再一一列举。
本步骤通过上述特征词提取方法,从全部的训练集文本的待处理特征词中提取出若干个训练集文本的待处理特征词,提取出的训练集文本的待处理特征词为训练集文本的特征词ti,i=1,2,…。其中,同一训练集文本的特征词可在训练文本块出现一次或者多次。
本实施例中,每个训练集文本的特征词对应于一个特征词标记,该特征词标记用于标识该训练集文本的特征词。该特征词标记可包括:段标记和块标记,其中段标记可用于标识该训练集文本的特征词所在的段落,该块标记可用于标识该训练集文本的特征词所在的训练文本块。也就是说,该特征词标记可用于标识该训练集文本的特征词在训练集文本中的位置。
步骤202、通过特征词权重量化方法计算出训练集文本的特征词的权重。
优选地,特征词权重量化方法可包括:反向文档频率(Inverse DocumentFrequency,简称:IDF)法、卡方(Chi-square)法、相关频率法或者几率比(Odd Ratio,简称:OR)法,在实际应用中还可以采用其它特征词权重量化方法计算出训练集文本的特征词的权重,此处不再一一列举。
通过特征词权重量化方法可计算出每个训练集文本的特征词ti的权重wi
步骤203、根据训练集文本的特征词的权重,对训练集文本的特征词进行组合形成训练集文本的特征词对,所述训练集文本的特征词对形成训练集文本的特征词对集合。
本步骤中,训练集文本的特征词对可形成训练集文本的特征词对集合,形成的训练集文本的特征词对集合中包括上述训练集文本的特征词对。
本步骤具体可包括:
步骤2031、获取与某一训练集文本的特征词ti位于同一自然段不同训练文本块中的权重最大的另一训练集文本的特征词tj
本步骤中,可根据训练集文本的特征词ti的特征词标记和训练集文本的特征词tj的特征词标记,获取与某一训练集文本的特征词ti位于同一自然段不同训练文本块中的权重最大的另一训练集文本的特征词tj。其中,特征词标记可包括:段标记和块标记。获取到的权重最大的另一训练集文本的特征词tj的数量可以为一个或者多个,其中,多个另一训练集文本的特征词tj均具有最大权重,也就是说,该多个另一训练集文本的特征词tj的权重最大且相同。
步骤2032、将某一训练集文本的特征词ti与权重最大的另一训练集文本的特征词tj进行组合,形成训练集文本的特征词对(titj)d,d=1,2,…。
特别地,若步骤2031中获取到的权重最大的另一训练集文本的特征词tj的数量可以为多个时,则本步骤具体可包括:从获取到的多个权重最大的另一训练集文本的特征词tj中选取距离某一训练集文本的特征词ti最近的另一训练集文本的特征词tj,并将某一训练集文本的特征词ti与距离某一训练集文本的特征词ti最近的另一训练集文本的特征词tj进行组合,形成训练集文本的特征词对(titj)d
步骤204、根据训练集文本的特征词对中的训练集文本的特征词的权重,得出训练集文本的特征词对的原始权重。
本步骤具体可包括:从训练集文本的特征词对中的训练集文本的特征词的权重中选取较小的权重作为训练集文本的特征词对的原始权重。具体地,从训练集文本的特征词对(titj)d中的训练集文本的特征词ti的权重和训练集文本的特征词tj的权重中选取较小的权重作为训练集文本的特征词对(titj)d的原始权重wd
步骤205、根据训练集文本的特征词对中的训练集文本的特征词之间的块间隔数,生成训练集文本的特征词对的权重系数。
具体地,可通过公式
Figure BDA0000489311750000121
对训练集文本的特征词之间的块间隔数进行计算处理得出训练集文本的特征词对的权重系数,其中,hd为训练集文本的特征词之间的块间隔数,f(hd)为训练集文本的特征词对的权重系数。其中,训练集文本的特征词之间的块间隔数可以为训练集文本的特征词对中训练集文本的特征词所在的训练文本块之间的最小间隔,例如:若训练集文本的特征词ti和训练集文本的特征词tj在同一自然段中均出现一次时,则训练集文本的特征词之间的块间隔数可通过如下公式表示:hd=|pos(ti)-pos(tj)|,其中,pos(ti)为训练集文本的特征词ti所在训练文本块的块标记,pos(tj)为训练集文本的特征词tj所在训练文本块的块标记,此种情况下,|pos(ti)-pos(tj)|即为最小间隔;若训练集文本的特征词ti和训练集文本的特征词tj在同一自然段中出现多次时,可通过|pos(ti)-pos(tj)|计算出每两个训练集文本的特征词ti和训练集文本的特征词tj之间的间隔,并从计算出的间隔中选取出最小间隔,该最小间隔即为训练集文本的特征词之间的块间隔数。其中,hd≥1。
步骤206、根据训练集文本的特征词对的权重系数和训练集文本的特征词对的原始权重,生成训练集文本的特征词对的权重。
具体地,可将训练集文本的特征词对的权重系数和训练集文本的特征词对的原始权重相乘,得出训练集文本的特征词对的权重。可通过如下公式表示:训练集文本的特征词对的权重wd′=f(hd)*wd
步骤207、根据训练集文本的训练集文本的特征词对和训练集文本的特征词对的权重,生成训练集文本向量。
其中,生成的训练集文本向量可包括:训练集文本的特征词对和训练集文本的特征词对的权重。
步骤208、对训练集文本向量进行训练,得出文本分类器。
具体地,可采用分类算法对训练集文本向量进行训练,得出文本分类器。其中,分类算法可以为任何支持文本向量模型的分类算法,优选地,该分类算法可以包括:支持向量机算法、神经网络算法或者贝叶斯算法。
步骤209、从待分类文本中获取待分类文本的待处理特征词。
具体地,步骤209可包括:
步骤2091、对待分类文本的自然段进行划分得出待分类文本块,并为训练文本块设置块标记。
每个待分类文本包括若干个自然段,每个自然段对应于一个段标记,该段标记用于标识该自然段。其中,段标记可以为段号。
以自然段中的标点为边界对该自然段进行划分得出待分类文本块,并为每个划分出的待分类文本块设置一个块标记,该块标记用于标识该待分类文本块。其中,块标记可以为块号。
步骤2092、对待分类文本块进行分词处理和去停用词处理,得出待分类文本的待处理特征词。
本步骤中,分词处理可以为:中/英文分词处理,在实际应用中还可以采用其它分词处理方法对待分类文本块进行分词处理,此处不再一一列举。其中,对待分类文本块进行分词处理和去停用词处理后可得出全部的待分类文本的待处理特征词。
步骤210、将待分类文本的待处理特征词与训练集文本的特征词进行比较,保留与训练集文本的特征词相同的待分类文本的待处理特征词以得出待分类文本的特征词。
本步骤中,将待分类文本的待处理特征词与训练集文本的特征词进行比较后,若存在与训练集文本的特征词不同的待分类文本的待处理特征词,则去除与训练集文本的特征词不同的待分类文本的待处理特征词,并保留与训练集文本的特征词相同的待分类文本的待处理特征词,保留的与训练集文本的特征词相同的待分类文本的待处理特征词为待分类文本的特征词。
步骤211、根据待分类文本的特征词的权重,对待分类文本的特征词进行组合形成待分类文本的待处理特征词对,待分类文本的特征词的权重为与该待分类文本的特征词相同的训练集文本的特征词的权重。
本步骤具体可包括:
步骤2111、获取与某一待分类文本的特征词ti位于同一自然段不同待分类文本块中的权重最大的另一待分类文本的特征词tj
本步骤中,可根据待分类文本的特征词ti的特征词标记和待分类文本的特征词tj的特征词标记,获取与某一待分类文本的特征词ti位于同一自然段不同待分类文本块中的权重最大的另一待分类文本的特征词tj。其中,特征词标记可包括:段标记和块标记。获取到的权重最大的另一待分类文本的特征词tj的数量可以为一个或者多个,其中,多个另一待分类文本的特征词tj均具有最大权重,也就是说,该多个另一待分类文本的特征词tj的权重最大且相同。
步骤2112、将某一待分类文本的特征词ti与权重最大的另一待分类文本的特征词tj进行组合,形成待分类文本的待处理特征词对(titj)e,e=1,2,…。
特别地,若步骤2111中获取到的权重最大的另一待分类文本的特征词tj的数量可以为多个时,则本步骤具体可包括:从获取到的多个权重最大的另一待分类文本的特征词tj中选取距离某一待分类文本的特征词ti最近的另一待分类文本的特征词tj,并将某一待分类文本的特征词ti与距离某一待分类文本的特征词ti最近的另一待分类文本的特征词tj进行组合,形成待分类文本的待处理特征词对(titj)e
步骤212、将待分类文本的待处理特征词对与训练集文本的特征词对进行比较,保留与训练集文本的特征词对相同的待分类文本的待处理特征词对得出待分类文本的特征词对。
本步骤中,将待分类文本的待处理特征词对与训练集文本的特征词对进行比较后,若存在与训练集文本的特征词对不同的待处理词对,则去除与训练集文本的特征词对不同的待分类文本的待处理特征词对,并保留与训练集文本的特征词对相同的待分类文本的待处理特征词对,保留的与训练集文本的特征词对相同的待分类文本的待处理特征词对为待分类文本的特征词对。
步骤213、根据待分类文本的特征词对中的待分类文本的特征词的权重,得出待分类文本的特征词对的原始权重。
本步骤具体可包括:从待分类文本的特征词对中的待分类文本的特征词的权重中选取较小的权重作为待分类文本的特征词对的原始权重。具体地,从待分类文本的特征词对(titj)e中的待分类文本的特征词ti的权重和待分类文本的特征词tj的权重中选取较小的权重作为待分类文本的特征词对(titj)e的原始权重we
步骤214、根据待分类文本的特征词对中的待分类文本的特征词之间的块间隔数,生成待分类文本的特征词对的权重系数。
具体地,可通过公式
Figure BDA0000489311750000161
对待分类文本的特征词之间的块间隔数进行计算处理得出待分类文本的特征词对的权重系数,其中,he为待分类文本的特征词之间的块间隔数,f(he)为待分类文本的特征词对的权重系数。其中,待分类文本的特征词之间的块间隔数可以为待分类文本的特征词对中待分类文本的特征词所在的待分类文本块之间的最小间隔,例如:若待分类文本的特征词ti和待分类文本的特征词tj在同一自然段中均出现一次时,则待分类文本的特征词之间的块间隔数可通过如下公式表示:he=|pos(ti)-pos(tj)|,其中,pos(ti)为待分类文本的特征词ti所在待分类文本块的块标记,pos(tj)为待分类文本的特征词tj所在待分类文本块的块标记,此种情况下,|pos(ti)-pos(tj)|即为最小间隔;若待分类文本的特征词ti和待分类文本的特征词tj在同一自然段中出现多次时,可通过|pos(ti)-pos(tj)|计算出每两个待分类文本的特征词ti和待分类文本的特征词tj之间的间隔,并从计算出的间隔中选取出最小间隔,该最小间隔即为待分类文本的特征词之间的块间隔数。其中,he≥1。
步骤215、根据待分类文本的特征词对的权重系数和待分类文本的特征词对的原始权重,生成待分类文本的特征词对的权重。
具体地,可将待分类文本的特征词对的权重系数和待分类文本的特征词对的原始权重相乘,得出待分类文本的特征词对的权重。可通过如下公式表示:待分类文本的特征词对的权重we′=f(he)*we
步骤216、根据待分类文本的特征词对和待分类文本的特征词对的权重,生成待分类文本向量。
其中,生成的待分类文本向量可包括:多个特征词对和与每个特征词对对应的特征词对的权重。多个特征词对可包括:与训练集文本的特征词对相同的特征词对,换言之,多个特征词对可包括:全部训练集文本的特征词对。其中,与训练集文本的特征词对相同的特征词对可包括:待分类文本的特征词对和待分类文本之外的特征词对,其中,待分类文本之外的特征词对为未在待分类文本中出现而仅在训练集文本中出现的特征词对。
与每个特征词对对应的特征词对的权重可包括:与待分类文本的特征词对对应的权重和与待分类文本之外的特征词对对应的权重。其中,与待分类文本的特征词对对应的权重为待分类文本的特征词对的权重,与待分类文本之外的特征词对对应的权重为0。
步骤217、通过文本分类器对待分类文本向量进行分类,得出分类结果。
可以理解的是,本实施例中各步骤的执行顺序可根据需要进行变更。
本实施例的本质是通过引入特征词对及词对权重,在原有的孤立的特征词中附加了文本的逻辑关系,以丰富文本向量中包含的信息量,从而使文本分类的准确率和召回率等指标比现有技术均有较大幅度的提高,进而提高了文本分类的效果。本实施例中,将文本内容通过段落和标点进行划分和标记后,利用同一自然段中的特征词来构成特征词对,以描述特征词在段落中的关联性,阐释段落文本的关联信息,也即是说,本实施例将文本中同段落句子的关联性,转换为从文本向量对文本信息的表达能力提升的角度来提高文本分类器的分类效果。本实施例采用了灵活的文本块划分方式,适宜处理任意长的文本,从而能最大程度的节省文本分类器对存储资源的占用;并且划分和标记直接采用了文本的段落和标点,从而极大的节约了文本块划分及后续分类所需的时间。同时,采用本实施例的基于关联的特征词对的表达模式,能解决传统方法本质上单纯的基于孤立的特征词所存在的表达模式单一而导致的文本向量的信息量不足的问题。
一个文本所传达的信息量至少包含了组成文本的特征词所携带的信息和特征词之间的关联信息两个部分,本实施例实现了一种基于文本划分和关联的特征词对的文本分类方法,将处于一个自然段中的特征词按一定规则组成特征词对,并给出了一个基于位置的词对权重公式,以保留自然段中特征词的关联性,从而丰富了文本向量表示的信息量。
本实施例提供的文本分类方法的技术方案中,训练集文本向量是根据训练集文本的特征词对和训练集文本的特征词对的权重得出的,待分类文本向量是根据待分类文本的特征词对和待分类文本的特征词对的权重得出的,使得训练集文本向量以及待分类文本向量中均包括了特征词对和特征词之间的关联信息,丰富了文本向量中携带的信息量,从而提高了文本分类的准确率和召回率。
图3为本发明实施例三提供的一种文本分类装置的结构示意图,如图3所示,该装置包括:第一生成模块11、训练模块12、第二生成模块13和分类模块14。
第一生成模块11用于根据训练集文本的特征词对和与训练集文本的特征词对对应的训练集文本的特征词对的权重,生成训练集文本向量;训练模块12用于对所述训练集文本向量进行训练,得出文本分类器;第二生成模块13用于根据待分类文本的特征词对和与待分类文本的特征词对对应的待分类文本的特征词对的权重,生成待分类文本向量;分类模块14用于通过所述文本分类器对所述待分类文本向量进行分类,得出分类结果。
本实施例提供的文本分类装置可用于实现上述实施例一提供的文本分类方法,对文本分类方法的具体描述可参见上述实施例一,此处不再赘述。
本实施例提供的文本分类装置的技术方案中,训练集文本向量是根据训练集文本的特征词对和训练集文本的特征词对的权重得出的,待分类文本向量是根据待分类文本的特征词对和待分类文本的特征词对的权重得出的,使得训练集文本向量以及待分类文本向量中均包括了特征词对和特征词之间的关联信息,丰富了文本向量中携带的信息量,从而提高了文本分类的准确率和召回率。
图4为本发明实施例四提供的一种文本分类装置的结构示意图,如图4所示,本实施例在上述实施例三的基础上还包括:获取模块15、计算模块16、组合模块17、第三生成模块18、第四生成模块19和第五生成模块20。获取模块15用于从训练集文本中获取训练集文本的特征词;计算模块16用于通过特征词权重量化方法计算出训练集文本的特征词的权重;组合模块17用于根据训练集文本的特征词的权重,对训练集文本的特征词进行组合形成训练集文本的特征词对,训练集文本的特征词对形成训练集文本的特征词对集合;第三生成模块18用于根据训练集文本的特征词对中的训练集文本的特征词的权重,得出训练集文本的特征词对的原始权重;第四生成模块19用于根据训练集文本的特征词对中的训练集文本的特征词之间的块间隔数,生成训练集文本的特征词对的权重系数;第五生成模块20用于根据训练集文本的特征词对的权重系数和训练集文本的特征词对的原始权重,生成训练集文本的特征词对的权重。
具体地,获取模块15可包括:划分子模块151、分词子模块152和提取子模块153。划分子模块151用于对训练集文本的自然段进行划分得出训练文本块,并为训练文本块设置块标记;分词子模块152,用于对训练文本块进行分词处理和去停用词处理,得出训练集文本的待处理特征词;提取子模块153用于通过特征词提取方法,从训练集文本的待处理特征词中提取出训练集文本的特征词。
具体地,组合模块17包括:获取子模块171和组合子模块172。获取子模块171用于获取与某一训练集文本的特征词位于同一自然段不同训练文本块中的权重最大的另一训练集文本的特征词;组合子模块172用于将某一训练集文本的特征词与权重最大的另一训练集文本的特征词进行组合,形成训练集文本的特征词对。
具体地,第三生成模块18具体用于从训练集文本的特征词对中的训练集文本的特征词的权重中选取较小的权重作为训练集文本的特征词对的原始权重。
具体地,第四生成模块19具体用于通过公式
Figure BDA0000489311750000201
对训练集文本的特征词之间的块间隔数进行计算处理得出训练集文本的特征词对的权重系数,其中,hd为训练集文本的特征词之间的块间隔数,f(hd)为训练集文本的特征词对的权重系数,训练集文本的特征词之间的块间隔数为训练集文本的特征词对中训练集文本的特征词所在的训练文本块之间的最小间隔。
具体地,第五生成模块20具体用于将训练集文本的特征词对的权重系数和训练集文本的特征词对的原始权重相乘,得出训练集文本的特征词对的权重。
进一步地,该装置还包括:第一比较模块21和第二比较模块22。获取模块15还用于从所述待分类文本中获取待分类文本的待处理特征词;第一比较模块21用于将待分类文本的待处理特征词与训练集文本的特征词进行比较,保留与训练集文本的特征词相同的待分类文本的待处理特征词以得出待分类文本的特征词;组合模块17还用于根据待分类文本的特征词的权重,对待分类文本的特征词进行组合形成待分类文本的待处理特征词对,所述待分类文本的特征词的权重为与该待分类文本的特征词相同的训练集文本的特征词的权重;第二比较模块22用于将待分类文本的待处理特征词对与训练集文本的特征词对进行比较,保留与训练集文本的特征词对相同的待分类文本的待处理特征词对得出待分类文本的特征词对;第三生成模块18还用于根据待分类文本的特征词对中的待分类文本的特征词的权重,得出待分类文本的特征词对的原始权重;第四生成模块19还用于根据待分类文本的特征词对中的待分类文本的特征词之间的块间隔数,生成待分类文本的特征词对的权重系数;第五生成模块20还用于根据待分类文本的特征词对的权重系数和待分类文本的特征词对的原始权重,生成待分类文本的特征词对的权重。
具体地,划分子模块151还用于对待分类文本的自然段进行划分得出待分类文本块,并为待分类文本块设置块标记;分词子模块152还用于对待分类文本块进行分词处理和去停用词处理,得出待分类文本的待处理特征词。
具体地,获取子模块171还用于获取与某一待分类文本的特征词位于同一自然段不同待分类文本块中的权重最大的另一待分类文本的特征词;组合子模块172还用于将某一待分类文本的特征词与权重最大的另一待分类文本的特征词进行组合,形成待分类文本的待处理特征词对。
具体地,第三生成模块18具体还用于从待分类文本的特征词对中的待分类文本的特征词的权重中选取较小的权重作为待分类文本的特征词对的原始权重。
具体地,第四生成模块19具体还用于通过公式
Figure BDA0000489311750000211
对待分类文本的特征词之间的块间隔数进行计算处理得出待分类文本的特征词对的权重系数,其中,he为待分类文本的特征词之间的块间隔数,f(he)为待分类文本的特征词对的权重系数,待分类文本的特征词之间的块间隔数为待分类文本的特征词对中待分类文本的特征词所在的待分类文本块之间的最小间隔。
具体地,第五生成模块20具体还用于将待分类文本的特征词对的权重系数和待分类文本的特征词对的原始权重相乘,得出待分类文本的特征词对的权重。
本实施例提供的文本分类装置可用于实现上述实施例二提供的文本分类方法,对文本分类方法的具体描述可参见上述实施例二,此处不再赘述。
本实施例提供的文本分类装置的技术方案中,训练集文本向量是根据训练集文本的特征词对和训练集文本的特征词对的权重得出的,待分类文本向量是根据待分类文本的特征词对和待分类文本的特征词对的权重得出的,使得训练集文本向量以及待分类文本向量中均包括了特征词对和特征词之间的关联信息,丰富了文本向量中携带的信息量,从而提高了文本分类的准确率和召回率。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (10)

1.一种文本分类方法,其特征在于,包括:
从训练集文本中获取训练集文本的特征词;
所述从所述训练集文本中获取训练集文本的特征词包括:对所述训练集文本的自然段进行划分得出训练文本块,并为所述训练文本块设置块标记;对所述训练文本块进行分词处理和去停用词处理,得出训练集文本的待处理特征词;通过特征词提取方法,从所述训练集文本的待处理特征词中提取出所述训练集文本的特征词;
通过特征词权重量化方法计算出所述训练集文本的特征词的权重;
根据所述训练集文本的特征词的权重,对所述训练集文本的特征词进行组合形成所述训练集文本的特征词对;
所述根据所述训练集文本的特征词的权重,对所述训练集文本的特征词进行组合形成所述训练集文本的特征词对包括:获取与某一训练集文本的特征词位于同一自然段不同训练文本块中的权重最大的另一训练集文本的特征词;将某一训练集文本的特征词与权重最大的另一训练集文本的特征词进行组合,形成所述训练集文本的特征词对;
根据训练集文本的特征词对和与所述训练集文本的特征词对对应的训练集文本的特征词对的权重,生成训练集文本向量;
对所述训练集文本向量进行训练,得出文本分类器;
根据待分类文本的特征词对和与所述待分类文本的特征词对对应的待分类文本的特征词对的权重,生成待分类文本向量;
通过所述文本分类器对所述待分类文本向量进行分类,得出分类结果。
2.根据权利要求1所述的文本分类方法,其特征在于,所述根据所述训练集文本的特征词的权重,对所述训练集文本的特征词进行组合形成所述训练集文本的特征词对之后,所述根据训练集文本的特征词对和与所述训练集文本的特征词对对应的训练集文本的特征词对的权重,生成训练集文本向量之前还包括:
所述训练集文本的特征词对形成训练集文本的特征词对集合;
根据所述训练集文本的特征词对中的训练集文本的特征词的权重,得出所述训练集文本的特征词对的原始权重;
根据所述训练集文本的特征词对中的训练集文本的特征词之间的块间隔数,生成所述训练集文本的特征词对的权重系数;
根据所述训练集文本的特征词对的权重系数和所述训练集文本的特征词对的原始权重,生成所述训练集文本的特征词对的权重。
3.根据权利要求2所述的文本分类方法,其特征在于,
所述根据所述训练集文本的特征词对中的训练集文本的特征词的权重,得出所述训练集文本的特征词对的原始权重包括:从所述训练集文本的特征词对中的训练集文本的特征词的权重中选取较小的权重作为所述训练集文本的特征词对的原始权重;
所述根据所述训练集文本的特征词对中的训练集文本的特征词之间的块间隔数,生成所述训练集文本的特征词对的权重系数包括:通过公式
Figure FDA0002574366920000021
对训练块间隔数进行计算处理得出训练集文本的特征词对的权重系数,其中,hd为训练集文本的特征词之间的块间隔数,f(hd)为训练集文本的特征词对的权重系数,所述训练集文本的特征词之间的块间隔数为所述训练集文本的特征词对中训练集文本的特征词所在的训练文本块之间的最小间隔;
所述根据所述训练集文本的特征词对的权重系数和所述训练集文本的特征词对的原始权重,生成所述训练集文本的特征词对的权重包括:将所述训练集文本的特征词对的权重系数和所述训练集文本的特征词对的原始权重相乘,得出所述训练集文本的特征词对的权重。
4.根据权利要求2所述的文本分类方法,其特征在于,所述根据待分类文本的特征词对和与所述待分类文本的特征词对对应的待分类文本的特征词对的权重,生成待分类文本向量之前还包括:
从所述待分类文本中获取待分类文本的待处理特征词;
将所述待分类文本的待处理特征词与所述训练集文本的特征词进行比较,保留与所述训练集文本的特征词相同的所述待分类文本的待处理特征词以得出所述待分类文本的特征词;
根据所述待分类文本的特征词的权重,对所述待分类文本的特征词进行组合形成待分类文本的待处理特征词对,所述待分类文本的特征词的权重为与该待分类文本的特征词相同的训练集文本的特征词的权重;
将所述待分类文本的待处理特征词对与所述训练集文本的特征词对进行比较,保留与所述训练集文本的特征词对相同的所述待分类文本的待处理特征词对得出所述待分类文本的特征词对;
根据所述待分类文本的特征词对中的待分类文本的特征词的权重,得出所述待分类文本的特征词对的原始权重;
根据所述待分类文本的特征词对中的待分类文本的特征词之间的块间隔数,生成所述待分类文本的特征词对的权重系数;
根据所述待分类文本的特征词对的权重系数和所述待分类文本的特征词对的原始权重,生成所述待分类文本的特征词对的权重。
5.根据权利要求4所述的文本分类方法,其特征在于,
所述从所述待分类文本中获取待分类文本的待处理特征词包括:对所述待分类文本的自然段进行划分得出待分类文本块,并为所述待分类文本块设置块标记;对所述待分类文本块进行分词处理和去停用词处理,得出待分类文本的待处理特征词;
所述根据所述待分类文本的特征词的权重,对所述待分类文本的特征词进行组合形成待分类文本的待处理特征词对包括:获取与某一待分类文本的特征词位于同一自然段不同待分类文本块中的权重最大的另一待分类文本的特征词;将某一待分类文本的特征词与权重最大的另一待分类文本的特征词进行组合,形成所述待分类文本的待处理特征词对;
所述根据所述待分类文本的特征词对中的待分类文本的特征词的权重,得出所述待分类文本的特征词对的原始权重包括:从所述待分类文本的特征词对中的待分类文本的特征词的权重中选取较小的权重作为所述待分类文本的特征词对的原始权重;
所述根据所述待分类文本的特征词对中的待分类文本的特征词之间的块间隔数,生成所述待分类文本的特征词对的权重系数包括:通过公式
Figure FDA0002574366920000041
对待分类文本的特征词之间的块间隔数进行计算处理得出待分类文本的特征词对的权重系数,其中,he为待分类文本的特征词之间的块间隔数,f(he)为待分类文本的特征词对的权重系数,所述待分类文本的特征词之间的块间隔数为所述待分类文本的特征词对中待分类文本的特征词所在的待分类文本块之间的最小间隔;
所述根据所述待分类文本的特征词对的权重系数和所述待分类文本的特征词对的原始权重,生成所述待分类文本的特征词对的权重包括:将所述待分类文本的特征词对的权重系数和所述待分类文本的特征词对的原始权重相乘,得出所述待分类文本的特征词对的权重。
6.一种文本分类装置,其特征在于,包括:
获取模块,用于从训练集文本中获取训练集文本的特征词;
所述获取模块包括:划分子模块、分词子模块和提取子模块;
所述划分子模块,用于对所述训练集文本的自然段进行划分得出训练文本块,并为所述训练文本块设置块标记;
所述分词子模块,用于对所述训练文本块进行分词处理和去停用词处理,得出训练集文本的待处理特征词;
所述提取子模块,用于通过特征词提取方法,从所述训练集文本的待处理特征词中提取出所述训练集文本的特征词;
计算模块,用于通过特征词权重量化方法计算出所述训练集文本的特征词的权重;
组合模块,用于根据所述训练集文本的特征词的权重,对所述训练集文本的特征词进行组合形成所述训练集文本的特征词对;
所述组合模块包括:获取子模块和组合子模块;
所述获取子模块,用于获取与某一训练集文本的特征词位于同一自然段不同训练文本块中的权重最大的另一训练集文本的特征词;
所述组合子模块,用于将某一训练集文本的特征词与权重最大的另一训练集文本的特征词进行组合,形成所述训练集文本的特征词对;
第一生成模块,用于根据训练集文本的特征词对和与所述训练集文本的特征词对对应的训练集文本的特征词对的权重,生成训练集文本向量;
训练模块,用于对所述训练集文本向量进行训练,得出文本分类器;
第二生成模块,用于根据待分类文本的特征词对和与所述待分类文本的特征词对对应的待分类文本的特征词对的权重,生成待分类文本向量;
分类模块,用于通过所述文本分类器对所述待分类文本向量进行分类,得出分类结果。
7.根据权利要求6所述的文本分类装置,其特征在于,还包括:集合创建模块、第三生成模块、第四生成模块和第五生成模块;
所述集合创建模块,用于所述训练集文本的特征词对形成训练集文本的特征词对集合;
所述第三生成模块,用于根据所述训练集文本的特征词对中的训练集文本的特征词的权重,得出所述训练集文本的特征词对的原始权重;
所述第四生成模块,用于根据所述训练集文本的特征词对中的训练集文本的特征词之间的训练集文本的特征词之间的块间隔数,生成所述训练集文本的特征词对的权重系数;
所述第五生成模块,用于根据所述训练集文本的特征词对的权重系数和所述训练集文本的特征词对的原始权重,生成所述训练集文本的特征词对的权重。
8.根据权利要求7所述的文本分类装置,其特征在于,
所述第三生成模块具体用于从所述训练集文本的特征词对中的训练集文本的特征词的权重中选取较小的权重作为所述训练集文本的特征词对的原始权重;
所述第四生成模块具体用于通过公式
Figure FDA0002574366920000061
对训练集文本的特征词之间的块间隔数进行计算处理得出训练集文本的特征词对的权重系数,其中,hd为训练集文本的特征词之间的块间隔数,f(hd)为训练集文本的特征词对的权重系数,所述训练集文本的特征词之间的块间隔数为所述训练集文本的特征词对中训练集文本的特征词所在的训练文本块之间的最小间隔;
所述第五生成模块具体用于将所述训练集文本的特征词对的权重系数和所述训练集文本的特征词对的原始权重相乘,得出所述训练集文本的特征词对的权重。
9.根据权利要求7所述的文本分类装置,其特征在于,还包括:第一比较模块和第二比较模块;
所述获取模块还用于从所述待分类文本中获取待分类文本的待处理特征词;
第一比较模块,用于将所述待分类文本的待处理特征词与所述训练集文本的特征词进行比较,保留与所述训练集文本的特征词相同的所述待分类文本的待处理特征词以得出所述待分类文本的特征词;
所述组合模块还用于根据所述待分类文本的特征词的权重,对所述待分类文本的特征词进行组合形成所述待分类文本的待处理特征词对,所述待分类文本的特征词的权重为与该待分类文本的特征词相同的训练集文本的特征词的权重;
第二比较模块,用于将所述待分类文本的待处理特征词对与所述训练集文本的特征词对进行比较,保留与所述训练集文本的特征词对相同的所述待分类文本的待处理特征词对得出所述待分类文本的特征词对;
所述第三生成模块还用于根据所述待分类文本的特征词对中的待分类文本的特征词的权重,得出所述待分类文本的特征词对的原始权重;
所述第四生成模块还用于根据所述待分类文本的特征词对中的待分类文本的特征词之间的块间隔数,生成所述待分类文本的特征词对的权重系数;
所述第五生成模块还用于根据所述待分类文本的特征词对的权重系数和所述待分类文本的特征词对的原始权重,生成所述待分类文本的特征词对的权重。
10.根据权利要求8所述的文本分类装置,其特征在于,
所述划分子模块还用于对所述待分类文本的自然段进行划分得出待分类文本块,并为所述待分类文本块设置块标记;
所述分词子模块还用于对所述待分类文本块进行分词处理和去停用词处理,得出待分类文本的待处理特征词;
所述获取子模块还用于获取与某一待分类文本的特征词位于同一自然段不同待分类文本块中的权重最大的另一待分类文本的特征词;
所述组合子模块还用于将某一待分类文本的特征词与权重最大的另一待分类文本的特征词进行组合,形成所述待分类文本的待处理特征词对;
所述第三生成模块具体还用于从所述待分类文本的特征词对中的待分类文本的特征词的权重中选取较小的权重作为所述待分类文本的特征词对的原始权重;
所述第四生成模块具体还用于通过公式
Figure FDA0002574366920000081
对待分类文本的特征词之间的块间隔数进行计算处理得出待分类文本的特征词对的权重系数,其中,he为待分类文本的特征词之间的块间隔数,f(he)为待分类文本的特征词对的权重系数,所述待分类文本的特征词之间的块间隔数为所述待分类文本的特征词对中待分类文本的特征词所在的待分类文本块之间的最小间隔;
所述第五生成模块具体还用于将所述待分类文本的特征词对的权重系数和所述待分类文本的特征词对的原始权重相乘,得出所述待分类文本的特征词对的权重。
CN201410143815.5A 2014-04-10 2014-04-10 文本分类方法和装置 Active CN104978354B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410143815.5A CN104978354B (zh) 2014-04-10 2014-04-10 文本分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410143815.5A CN104978354B (zh) 2014-04-10 2014-04-10 文本分类方法和装置

Publications (2)

Publication Number Publication Date
CN104978354A CN104978354A (zh) 2015-10-14
CN104978354B true CN104978354B (zh) 2020-11-06

Family

ID=54274868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410143815.5A Active CN104978354B (zh) 2014-04-10 2014-04-10 文本分类方法和装置

Country Status (1)

Country Link
CN (1) CN104978354B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956031A (zh) * 2016-04-25 2016-09-21 深圳市永兴元科技有限公司 文本分类方法和装置
CN106095996B (zh) * 2016-06-22 2020-02-21 量子云未来(北京)信息科技有限公司 用于文本分类的方法
CN107734131B (zh) * 2016-08-11 2021-02-12 中兴通讯股份有限公司 一种短信息分类方法及装置
CN106372117B (zh) * 2016-08-23 2019-06-14 电子科技大学 一种基于词共现的文本分类方法及其装置
CN106897428B (zh) * 2017-02-27 2022-08-09 腾讯科技(深圳)有限公司 文本分类特征提取方法、文本分类方法及装置
CN107368611B (zh) * 2017-08-11 2018-06-26 同济大学 一种短文本分类方法
CN109284377A (zh) * 2018-09-13 2019-01-29 云南电网有限责任公司 一种基于向量空间的文本分类方法和装置
CN109637607A (zh) * 2018-12-24 2019-04-16 广州天鹏计算机科技有限公司 医疗数据归类方法、装置、计算机设备和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8165972B1 (en) * 2005-04-22 2012-04-24 Hewlett-Packard Development Company, L.P. Determining a feature related to an indication of a concept using a classifier
CN102411592B (zh) * 2010-09-21 2013-08-07 阿里巴巴集团控股有限公司 一种文本分类方法和装置
CN102033964B (zh) * 2011-01-13 2012-05-09 北京邮电大学 基于块划分及位置权重的文本分类方法
CN102289522B (zh) * 2011-09-19 2014-08-13 北京金和软件股份有限公司 一种对于文本智能分类的方法
CN103425660B (zh) * 2012-05-15 2017-10-17 北京百度网讯科技有限公司 一种词条的获取方法和装置

Also Published As

Publication number Publication date
CN104978354A (zh) 2015-10-14

Similar Documents

Publication Publication Date Title
CN104978354B (zh) 文本分类方法和装置
WO2019218514A1 (zh) 网页目标信息的提取方法、装置及存储介质
JP6232478B2 (ja) 単一文書からのキーワード抽出装置及び方法
CN111476256A (zh) 基于半监督学习的模型训练方法、装置及电子设备
CN104850617B (zh) 短文本处理方法及装置
CN108959474B (zh) 实体关系提取方法
JPWO2019224891A1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
CN108038108B (zh) 分词模型训练方法和装置、及存储介质
CN109784330B (zh) 招牌内容识别方法、装置及设备
CN105912525A (zh) 基于主题特征的半监督学习情感分类方法
CN111737961B (zh) 一种故事生成的方法、装置、计算机设备和介质
CN111475651B (zh) 文本分类方法、计算设备及计算机存储介质
CN110990563A (zh) 一种基于人工智能的传统文化素材库构建方法及系统
CN108804413B (zh) 文本作弊的识别方法及装置
CN110309355A (zh) 内容标签的生成方法、装置、设备及存储介质
Kiperwasser et al. Semi-supervised dependency parsing using bilexical contextual features from auto-parsed data
CN109614494B (zh) 一种文本分类方法及相关装置
CN117173501A (zh) 一种图像检测模型的训练方法、图像检测方法及相关装置
CN115687790B (zh) 基于大数据的广告推送方法、系统及云平台
CN109657710B (zh) 数据筛选方法、装置、服务器及存储介质
CN107590163B (zh) 文本特征选择的方法、装置和系统
CN111611394B (zh) 一种文本分类方法、装置、电子设备及可读存储介质
JP5824429B2 (ja) スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム
CN107622129B (zh) 一种知识库的组织方法及装置、计算机存储介质
JP6269953B2 (ja) 単語分割装置、方法、及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant