CN107908649B

CN107908649B - 一种文本分类的控制方法

Info

Publication number: CN107908649B
Application number: CN201710943645.2A
Authority: CN
Inventors: 赵冲
Original assignee: Beijing Smart Starlight Information Technology Co ltd
Current assignee: Beijing Smart Starlight Information Technology Co ltd
Priority date: 2017-10-11
Filing date: 2017-10-11
Publication date: 2020-07-28
Anticipated expiration: 2037-10-11
Also published as: CN107908649A

Abstract

本发明公开了一种文本分类的控制方法，包括：对训练集中随机选择的待分类文档进行第一训练处理；对训练集中已筛选的待分类文档进行第二训练处理；将第一次训练处理的文本分类特征和第二次训练处理后的文本分类特征进行特征交集组合操作后，生成新的文本分类特征并纳入总体特征库中；对训练集中新增语料进行增量训练，其中按序进行第一次训练处理和第二次训练处理后，对两次训练后的文本分类特征进行特征交集组合操作生成新的文本分类特征的增量特征，同时将新的文本分类特征的增量特征纳入到总体特征库中，完成文本分类的控制。本发明解决了当前分类方法中只经过一次分类训练，导致文本分类准确率低、相似类别区分效果差、效率低的问题。

Description

一种文本分类的控制方法

技术领域

本发明涉及计算机和通信技术领域，尤其涉及一种文本分类的控制方法。

背景技术

随着互联网的广泛应用，海量的信息呈指数式爆炸增长。在人们所面临的信息中有大量的文本信息，因此，对文本信息的处理技术尤为重要。其中，对文本信息进行分类是组织和管理文本信息的一个有效手段，将文本信息进行分类可以方便人们对文本信息的浏览、查找和使用。文本分类是指由计算机将互联网数据进行自动分类计算，通过集中可管理的映射模型，由映射模型对待计算数据进行分类与整合，并且在输入内容时，可以快速找到正确类目，使得文本随意数据规范化。

目前现有的技术是经过一次分类训练，就开始进行计算。由于目前的技术方法都是经过一次分类训练，然后经过计算将文本进行分类。目前这样的分类方法存在明显的缺陷：文本分类准确率低、相似类别区分效果差、效率低。

因此，如何提供一种文本分类的控制的技术方案，就成为了当前需要解决的问题。

发明内容

本发明所要解决的技术问题在于提供一种文本分类的控制方法，以解决当前分类方法中只经过一次分类训练，导致文本分类准确率低、相似类别区分效果差、效率低的问题。

为了解决上述问题，本发明提供了一种文本分类的控制方法，包括：

对训练集中随机选择的待分类文档进行第一训练处理，其中通过对各指定类别中出现的所有单词根据TF-IDF算法计算各单词的权重值W1，并根据各单词的权重值的排序获取到第一训练处理后的文本分类特征；

对训练集中已筛选的待分类文档进行第二训练处理，其中通过对各指定类别中出现的所有单词根据以下公式计算各单词的权重值W2，并根据各单词的权重值的排序获取到第二训练处理后的文本分类特征；

W2＝N×(A×D-B×C)²/((A+B)×(C+D)×(A+C)×(B+D))，

其中，N为训练集中已筛选的待分类文档总数；A为某指定类别中出现一单词W的文档数目；B为除该指定类别外，其他所有指定类别中出现单词W的文档数目，C为该指定类别中没有出现单词W的文档数目；D为除该指定类别外，其他所有指定类别中没有出现单词W的文档数目；

将第一次训练处理的文本分类特征和第二次训练处理后的文本分类特征进行特征交集组合操作后，生成新的文本分类特征并纳入总体特征库中；

对训练集中新增语料进行增量训练，其中按序进行第一次训练处理和第二次训练处理后，对两次训练后的文本分类特征进行特征交集组合操作生成新的文本分类特征的增量特征，同时将新的文本分类特征的增量特征纳入到总体特征库中，完成文本分类的控制。

进一步地，上述方法还可包括：所述对训练集中随机选择的待分类文档进行第一训练处理，其中通过对各指定类别中出现的所有单词根据TF-IDF算法计算各单词的权重值W1，并根据各单词的权重值的排序获取到第一训练处理后的文本分类特征的步骤，包括：

对训练集中所有随机选择的待分类文档进行分词后，将分词后的文件名以.seg为扩展名进行保存，其中不进行词性标注操作；

对随机选择的待分类文档进行类别特征抽取操作，其中通过对各指定类别中出现的所有单词根据以下公式计算各单词的权重值W1：

W1＝TF*IDF，其中TF为一单词W在文档中出现次数，IDF＝log(H/A+1)，H为训练集中随机选择的待分类文档总数；A为某指定类别中出现该单词W的文档数目；

对指定类别中每类别的单词按权重值从大到小排序后，提取权重值最大的前M个词为该类别的特征词，其中M为预设值，M>0。

进一步地，上述方法还可包括：所述对训练集中所有随机选择的待分类文档进行分词后，将分词后的文件名以.seg为扩展名进行保存，其中不进行词性标注操作的步骤，还包括：

从训练集读取一文档并提取该文档内容及其类别后，对提取的该文档内容进行分词，并将分词后的文件名以.seg为扩展名按类别存储，重复上述过程直至完成对训练集中所有待分类文档的操作处理。

进一步地，上述方法还可包括：所述对训练集中已筛选的待分类文档进行第二训练处理，其中通过对各指定类别中出现的所有单词根据以下公式计算各单词的权重值W2，并根据各单词的权重值的排序获取到第二训练处理后的文本分类特征的步骤，还包括：

设定训练集中已筛选的待分类文档的特征数目和各指定类别名称后，顺序提取一单词和该单词所属类别名称后，判断若该单词的所属类别名称与当前指定类别名称相同且该单词为当前指定类别的特征词，则将该单词及其权重值W2存入当前指定类别特征词列表中，重复上述过程直至完成对训练集中所有待分类文档的操作处理；

对指定类别中每类别的单词按权重值从大到小排序后，根据预设的特征数目的数值P，提取权重值最大的前P个词为该类别的特征词，其中P>0。

进一步地，上述方法还可包括：所述顺序提取一单词和该单词所属类别名称后，还包括：判断若提取的单词的特征与当前指定分类中预设的标准范式特征相同，则直接将该单词及其权重值存入当前指定类别特征词列表中。

进一步地，上述方法还可包括：所述将第一次训练处理的文本分类特征和第二次训练处理后的文本分类特征进行特征交集组合操作后，生成新的文本分类特征的步骤，包括：

对各指定类别中出现的所有单词根据公式W3＝W1*W2重新计算各单词的权重值W3后，将获得的权重值W3存入到当前指定类别特征词列表中，替换该单词的原有权重值。

进一步地，上述方法还可包括：所述对训练集中新增语料进行增量训练，其中按序进行第一次训练处理和第二次训练处理后，对两次训练后的文本分类特征进行特征交集组合操作生成新的文本分类特征的增量特征，同时将新的文本分类特征的增量特征纳入到总体特征库中的步骤，包括：

将新增语料进行分词，判断若新增语料中单词与所述.seg文件中单词相同，则对相同单词保留一份数据后，对其中各指定类别中出现的各单词计算各单词的权重值W1和W2；

判断若一指定类别中出现的一单词有权重值W3，则通过W4＝(W3+W2)/2计算该单词在当前指定类别中的新的权重值W4后，将获得的权重值W4存入到当前指定类别特征词列表中，替换该单词的原有权重值；

判断若一指定类别中出现的新特征的单词，则通对该指定类别中出现的该单词根据公式W3＝W1*W2重新计算各单词的权重值W3后，将获得的权重值W3存入到当前指定类别特征词列表中。

与现有技术相比，应用本发明经过第一次分类训练、第二次分类训练和增量训练，对单词在分类中进行加减权，计算每个单词在标题中确定分类的权重和在内容中确定分类的权重，从而解决了当前方法的文本分类准确率低、相似类别区分效果差、效率低的问题。文本经过增量训练以后，准确率可以达到99％，速度可以达到5万/秒，相似类别区分效果会大大提高。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图l为本发明的文本分类的控制方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的主要构思:针对当前在文本分类中没有对训练结果进行验证和再一次精准分类的方式，本发明通过第一次分类训练、第二次分类训练和增量训练，对单词在分类中进行加减权，计算每个单词在标题中确定分类的权重和在内容中确定分类的权重，从而解决了当前方法的文本分类准确率低、相似类别区分效果差、效率低的问题。

TF-IDF算法(term frequency–inverse document frequency，词频-逆文档频率)可以评估字、词对于一个文档集或一个语料库中的其中一份文档的重要程度。字词的重要性随着它在文档中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。该算法可以对于海量语料进行无监督训练，所以可以在大量数据中训练字词的重要程度，但是它对于类别的区分度较低，单纯使用某一个训练分类人工审核语料中词频数据对于字词的重要度没有办法很好的度量，所以准确度较差。改进的Chi-2算法可以对于有限的分类语料进行训练，获取字词在每个分类中独显的概率，突显类别独显词，但是它对于词的重要度区别不足，所以不能很好的正确区别字词对于分类的重要度，一视同仁的话容易造成重要特征和非重要特征的权重相当，而非重要特征往往会变成语料覆盖不足造成误判的重要因素。因此，本发明将两种特征训练手段进行结合，使用TF-IDF进行海量文档的无监督重点字词区分的第一次训练，使用改进Chi-2算法进行有监督分类语料的类别独显特征学习的第二次训练，通过将TF-IDF特征和Chi-2分类独显特征结合，形成一个新的特征集合，该特征集合可以更好的进行重点字词区分并且同时进行分类重点特征的区别。

TF-IDF算法是一种用于信息检索与数据挖掘的加权技术，用于评估字词对于一个文档集或一个语料库中的其中一份文档的重要程度。字词的重要性随着它在文档中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

特征词：用户在使用搜索引擎时输入的、能够最大程度概括用户所要查找的信息内容的字或者词，是信息的概括化和集中化。

权重：权重是一个相对的概念，针对某一指标而言。某一指标的权重是指该指标在整体评价中的相对重要程度。权重是要从若干评价指标中分出轻重，一组评价指标体系相对应的权重组成了权重体系。

如图1所示，本发明的文本分类的控制方法，包括以下步骤：

步骤110、对训练集中随机选择的待分类文档进行第一训练处理，其中通过对各指定类别中出现的所有单词根据TF-IDF算法计算各单词的权重值W1，并根据各单词的权重值的排序获取到第一训练处理后的文本分类特征；

还包括:

对训练集中所有随机选择的待分类文档进行分词后，将分词后的文件名以.seg为扩展名进行保存，其中不进行词性标注操作；词性标注会对分词后的各单词标注其词性(如：名词、动词等)，在此过程会占用系统进程，消耗系统资源，本步骤不进行词性标注，可以加快处理过程，节约系统资源。

W1＝TF*IDF，其中TF为一单词W在文档中出现次数，IDF＝log(H/A+1)，H为训练集中随机选择的待分类文档总数；A为某指定类别中出现该单词W的文档数目；其中N和A均为自然数；W1即TF-IDF值；

对指定类别中每类别的单词按权重值从大到小排序后，提取权重值最大的前M个词为该类别的特征词，其中M为预设值，M>0。M在实验中取值范围可以是2000≥M≥500，本发明并不以此为限制。

所述对训练集中所有随机选择的待分类文档进行分词后，将分词后的文件名以.seg为扩展名进行保存，其中不进行词性标注操作的步骤，还包括：

实施例1：一文档中包括1000个单词，"中国"、"水利"、"建设"各出现20次，则这三个单词的"词频"(TF)都为0.02。随机选择的文档总数共有250亿份，其中包含"中国"的文档共有62.3亿份，包含"水利"的文档为0.484亿份，包含"建设"的文档为0.973亿份。则它们的逆文档频率(IDF)和TF-IDF如表1所示：

表1

从表1可见，"水利"的TF-IDF值最高，"建设"其次，"中国"最低，经过权重值排序，如果只选择一个词，"水利"就是该文档的关键词。

TF-IDF算法的优点是简单快速，结果比较符合实际情况。缺点是，单纯以"词频"衡量一个词的重要性，不够全面，有时重要的词可能出现次数并不多。而且这种算法无法体现词的位置信息，出现位置靠前的词与出现位置靠后的词，都被视为重要性相同，存在较大误差。

步骤120、对训练集中已筛选的待分类文档进行第二训练处理，其中通过对各指定类别中出现的所有单词根据以下公式计算各单词的权重值W2，并根据各单词的权重值的排序获取到第二训练处理后的文本分类特征；

W2＝N×(A×D-B×C)²/((A+B)×(C+D)×(A+C)×(B+D))，

所述对训练集中已筛选的待分类文档进行第二训练处理，其中通过对各指定类别中出现的所有单词根据以下公式计算各单词的权重值W2，并根据各单词的权重值的排序获取到待分类文档的分类结果的步骤，还包括：

设定训练集中待分类文档的特征数目和各指定类别名称后，顺序提取一单词和该单词所属类别名称后，判断若该单词的所属类别名称与当前指定类别名称相同且该单词为当前指定类别的特征词，则将该单词及其权重值W2存入当前指定类别特征词列表中，重复上述过程直至完成对训练集中所有待分类文档的操作处理；

对指定类别中每类别的单词按权重值从大到小排序后，根据预设的特征数目的数值P，提取权重值最大的前P个词为该类别的特征词，其中P>0。P在实验中取值范围可以是2000≥P≥500，本发明并不以此为限制。

所述顺序提取一单词和该单词所属类别名称后，还包括：判断若提取的单词的特征与当前指定分类中预设的标准范式特征相同，则直接将该单词及其权重值存入当前指定类别特征词列表中。

在本次训练中，要经过对分类文档进行筛选，已符合本次训练的要求，也提高了选取最终文本分类特征的精准性。

实施例2：经过筛选后的分类文档总数共有200000份，分成20个分类，每一个分类包含10000份文档，文档是由人工进行筛选。共有90000个文档中包含“中国”，有831个文档中包含“水利”，有3100个文档中包含“建设”；其中“中国”一词分布在20个分类中，“水利”一词分布在1个分类中，“建设”一词分布在7个分类中。则它们的Chi-2分类独显特征(其中Chi-2分类独显概率即权重值W2)如表2所示：

表2

从表2可见，"水利"的分类独显概率最高，"建设"其次，"中国"最低，经过权重值排序，如果只选择一个词，"水利"就是该分类的关键词。

步骤130、将第一次训练处理的文本分类特征和第二次训练处理后的文本分类特征进行特征交集组合操作后，生成新的文本分类特征并纳入总体特征库中；

所述将第一次训练处理的文本分类特征和第二次训练处理后的文本分类特征进行特征交集组合操作后，生成新的文本分类特征的步骤，包括：

实施例3：特征交集组合操作，通过实施例1和实施例2分别获取TF-IDF和Chi-2分类独显概率后，计算单词对于某一个分类的信息最大的可能性：

表3

从表3可见，"水利"的分类独显概率最高，"水利"可以作为该分类的关键词。

步骤140、对训练集中新增语料进行增量训练，其中按序进行第一次训练处理和第二次训练处理后，对两次训练后的文本分类特征进行特征交集组合操作生成新的文本分类特征的增量特征，同时将新的文本分类特征的增量特征纳入到总体特征库中，完成文本分类的控制。

所述对训练集中新增语料进行增量训练，其中按序进行第一次训练处理和第二次训练处理后，对两次训练后的文本分类特征进行特征交集组合操作生成新的文本分类特征的增量特征，同时将新的文本分类特征的增量特征纳入到总体特征库中的步骤，包括：

实施例4：进行增量训练，新增语料后，通过实施例1和实施例2分别获取TF-IDF和Chi-2分类独显概率后，发现当前未出现词“排水”：

表4

从表4可见，"排水"的分类独显概率最高，"排水"可以作为该分类的关键词。

实施例5：对各种算法进行比较，召回率和准确率是广泛用于信息检索和统计分类中两个度量值，用来评价结果的质量。其中召回率是是检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率。

测试环境：使用同一标准进行区别后的分类语料，总数500篇，通过TF-IDF、改进Chi-2分类独显概率、以及特征交集组合的分类独显概率，同时使用朴素贝叶斯作为基础对照，分别计算召回率和准确率后，获取以下测试结果：

军事(100篇)

	召回率	准确度
			朴素贝叶斯	83％	79％
TF-IDF	230％	30％
			Chi-2分类独显概率	83％	91％
分类独显概率	97％	99％

表5

财经(100篇)

	召回率	准确度
			朴素贝叶斯	85％	93％
TF-IDF	130％	45％
			Chi-2分类独显概率	82％	97％
分类独显概率	98％	99％

表6

汽车(100篇)

	召回率	准确度
			朴素贝叶斯	81％	93％
TF-IDF	150％	40％
			Chi-2独显	83％	94％
分类独显概率	96％	97％

表7

娱乐(100篇)

	召回率	准确度
			朴素贝叶斯	83％	79％
TF-IDF	150％	35％
			Chi-2分类独显概率	83％	91％
分类独显概率	97％	99％

表8

体育(100篇)

	召回率	准确度
			朴素贝叶斯	82％	93％
TF-IDF	160％	34％
			Chi-2分类独显概率	82％	94％
分类独显概率	95％	97％

表9

从表5至表9的分类实验结果可见，TF-IDF过度召回可能性较高，准确率较低，但是可以确定字词权重，对于其他算法进行重要度补全，Chi-2算法可以获取较高的类别准确度，但是召回率和朴素贝叶斯相当，进行特征结合后的分类独显特征可以同时获得较高的准确度和召回率。

本说明书中的各个实施例一般采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块或单元。一般地，程序模块或单元可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。一般来说，程序模块或单元可以由软件、硬件或两者的结合来实现。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块或单元可以位于包括存储设备在内的本地和远程计算机存储介质中。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网页中视频的播放装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种文本分类的控制方法，包括：

对训练集中随机选择的待分类文档进行第一训练处理，其中通过对各指定类别中出现的所有单词根据TF-IDF算法计算各单词的权重值W1，并根据各单词的权重值的排序获取到第一训练处理后的文本分类特征；本步骤包括：对训练集中所有随机选择的待分类文档进行分词后，将分词后的文件名以.seg为扩展名进行保存，其中不进行词性标注操作；对随机选择的待分类文档进行类别特征抽取操作，其中通过对各指定类别中出现的所有单词根据以下公式计算各单词的权重值W1：W1＝TF*IDF，其中TF为一单词W在文档中出现次数，IDF＝log(H/A+1)，H为训练集中随机选择的待分类文档总数；A为某指定类别中出现该单词W的文档数目；对指定类别中每类别的单词按权重值从大到小排序后，提取权重值最大的前M个词为该类别的特征词，其中M为预设值，M>0；

W2＝N×(A×D-B×C)²/((A+B)×(C+D)×(A+C)×(B+D))，

2.如权利要求1所述的方法，其特征在于，

3.如权利要求2所述的方法，其特征在于，

所述对训练集中已筛选的待分类文档进行第二训练处理，其中通过对各指定类别中出现的所有单词根据以下公式计算各单词的权重值W2，并根据各单词的权重值的排序获取到第二训练处理后的文本分类特征的步骤，还包括：

4.如权利要求3所述的方法，其特征在于，

5.如权利要求4所述的方法，其特征在于，

6.如权利要求5所述的方法，其特征在于，