CN106503153A

CN106503153A - 一种计算机文本分类体系、系统及其文本分类方法

Info

Publication number: CN106503153A
Application number: CN201610921360.4A
Authority: CN
Inventors: 钱进; 吕萍
Original assignee: Jiangsu University of Technology
Current assignee: Jiangsu University of Technology
Priority date: 2016-10-21
Filing date: 2016-10-21
Publication date: 2017-03-15
Anticipated expiration: 2036-10-21
Also published as: CN106503153B

Abstract

本发明涉及一种计算机文本分类系统及其文本分类方法，本计算机文本分类系统包括文本预处理模块、文本的形式化模块，文本权值计算模块、模型训练模块、噪声降低模块；本发明的有益效果是，本发明能有效地减少计算机文本分类的时间和空间复杂度，从而使得计算机文本分类更加快速、有效和准确。

Description

一种计算机文本分类体系、系统及其文本分类方法

技术领域

本发明涉及一种计算机文本分类体系、系统及其文本分类方法。

背景技术

随着信息技术的迅猛发展，特别是Internet的普及，计算机文本呈爆炸性趋势增长，人们迫切需要一种体系高效地组织和管理文本信息。文本分类作为组织和处理大量文本信息的关键技术，可以在较大程度上解决信息杂乱的问题，对于信息的高效管理和有效利用都具有极其现实的意义，成为了数据挖掘领域中的一个重要的研究方向。目前，文本分类体系已经在多个领域得到了广泛的应用，并且取得了较大的进展。但是，文本分类也遇到了前所未有的挑战。文本中还存在大量近义词，造成文本特征项冗余，客观上使得文本空间极为稀疏，从而给文本分类造成了很大的困难。这就需要采用比较合理的计算机文本分类体系来改善这个问题。

发明内容

本发明的目的是提供一种计算机文本分类体系，以解决文本空间表示系数、文本特征项冗余严重等技术问题。

为了解决上述技术问题，本发明提供了一种计算机文本分类体系，包含文本预处理模块、文本的形式化模块，文本权值计算模块、模型训练模块、噪声降低模块。

进一步，文本预处理模块适于将输入文本中的标点符号、空格去除，对输入文本的语法错误进行纠正，分割成词语集合，以及对词语集合进行停用词去除，停用词去除被分为两步:第一步，对词语集合进行分类，将词语集合分为通用输入词语集合以及专业输入词语集合；第二步，对通用输入词语集合采取利用固定的停用词列表进行分析过滤，将通用输入词语集合转换成去除停用词的通用输入词语集合，对专业输入词语集合采用相对熵来度量其包含的信息量，根据信息量的多少对专业输入词语集合进行降序排序，将排序在后2％的专业输入词语集合中的词语去除，构成去除停用词的专业输入词语集合，将去除停用词的所述通用输入词语集合以及所述去除停用词的所述专业输入词语集合结合；即形成精简词语集合。

进一步，文本的形式化模块适于将精简词语集合转换成计算机能识别的形式化模型，首先根据输入文本的词语出现的顺序将精简词语集合表示词语有序序列，并且将词语有序序列表示成状态变迁系统，状态变迁系统是由状态以及状态之间的变迁关系组成的一种计算机能识别的形式化模型，词语有序序列的词语映射为状态变迁系统的状态，词语有序序列中相邻的词语映射为状态变迁系统的状态之间的变迁关系。

进一步，文本权值计算模块适于对状态变迁系统进行处理转换成状态标签变迁系统，状态标签变迁系统由状态变迁系统以及状态变迁系统中的状态上的标签组成；即

计算词语有序序列中的词语在输入文本中的分布律，并计算输入文本的长度，计算两者的比值，作为局部系数，计算词语有序序列中的词语的信息增益，作为全局系数，将局部系数乘以全局系数得到词语有序序列中的词语的权重，将词语有序序列中的词语的权重作为状态变迁系统中的状态上的标签，从而得到状态标签变迁系统。

进一步，模型训练模块适于根据词语有序序列中的词语的权重将状态变迁系统的状态进行进一步地升序排序，形成词语权重序列，对词语权重序列扩展维数，加入具有变迁关系的状态，构成词语向量空间模型，并且根据支持向量机分类器对词语向量空间模型进行处理并进行降维，得到词语类别的序列集合；即

词语类别的序列集合由词语组成的序列组成，一个类别的词语属于一个序列，并且一个序列中的词语按词语的权重的降序排序。

进一步，噪声降低模块对词语类别的序列集合进行清除噪声数据，并且确保不改变词语类别的序列集合的结构；即

清除噪声数据的步骤为首先将词语类别的序列集合进行初始化，并且结合状态变迁系统的状态之间的变迁关系，得到近邻列表，共享输入文本中的分布律，计算近邻列表的频度，根据近邻列表的频度计算阈值，将权重低于阈值的词语类别的序列集合中的词语去除。

本发明的有益效果是，本发明有效地减少计算机文本分类的时间和空间复杂度，从而使得计算机文本分类更加快速、有效和准确。

第二方面，本发明还提供了一种计算机文本分类系统及其文本分类方法，以解决传统计算机分类效率低，分类处理率低，正确率不理想的技术问题。

为了解决上述技术问题，本发明提供了一种计算机文本分类系统，包括：依次相连的文本预处理模块、文本特征提取模块、文本训练处理模块、分类处理模块、文本种类标记模块以及效果完善模块。

进一步，所述文本预处理模块适于将输入文本中的标点符号、空格去除，分割成词语集合，以及去除无意义的词语；即形成精简词语集合。

进一步，所述文本特征提取模块适于从精简词语集合中产生出特征词语子集，并获取特征词语与该特征词语出现的频率之间的映射表。

进一步，所述文本训练处理模块适于对映射表进行处理；即随机选取其他文本，计算逆文本频率指数，将计算后的逆文本频率指数作为输入，依靠训练分类器计算所述特征词语的权重值，从而得到词语权重矩阵。

进一步，所述分类处理模块适于根据词语权重矩阵，且利用SVM分类算法设置分类的类别区间，将所述精简词语集合中的词语进行分类，得到词语分类向量集合，即一个类别的词语属于所述词语分类向量集合中的同一个向量。

进一步，所述文本种类标记模块用于对词语分类向量集合进行标记，建立词语的类别标记表，该类别标记表中用特殊的符号值作为词语类别的标记值，并将该标记值加入词语分类向量集合，以得到标记过的词语分类向量集合。

进一步，所述效果完善模块适于对标记过的词语分类向量集合进行错误统计，以提高分类处理的正确率。

第三方面，为了解决同样的技术问题，本发明还提供了一种计算机文本分类方法，包括：

步骤S1，文本预处理；

步骤S2，文本特征提取；

步骤S3，文本训练；

步骤S4，分类处理；

步骤S5，文本种类标记；以及

步骤S6，效果完善。

进一步，所述步骤S1中文本预处理的方法包括：

步骤S11，对输入文本进行预处理，即去除输入文本中的标点符号、空格，分割成词语集合；

步骤S12，将无意义的词语去除；以及

步骤S13，形成精简词语集合；

步骤S2中文本特征提取，即从精简词语集合中产生出特征词语子集，并获取特征词语与该特征词语出现的频率之间的映射表，其方法包括：

步骤S21，通过分支限界搜索算法搜索以产生特征词语初子集；

步骤S22，用基于遗传算法的评价函数对产生的特征词语初子集进行评价，得到评价值，并将所述评价值与停止的阈值进行比较，若所述评价值大于停止的阈值，则停止搜索，否则就继续搜索，经过评价能过滤产生新的特征词语子集；

步骤S23，利用互信息法计算特征词语出现的频率，综合特征词语出现的频率，以得到所述特征词语与特征词语出现的频率之间的映射表；

所述步骤S3中文本训练的方法包括：

随机选取其他文本，计算逆文本频率指数，将计算后的逆文本频率指数作为输入，依靠训练分类器计算所述特征词语的权重值，从而得到词语权重矩阵；

所述步骤S4中分类处理的方法包括：

根据所述词语权重矩阵，利用SVM分类算法设置分类的类别区间，将精简词语集合中的词语进行分类，得到词语分类向量集合；即一个类别的词语属于所述词语分类向量集合中的同一个向量；

所述步骤S5中文本种类标记的方法包括：

对所述词语分类向量集合进行标记，建立词语的类别标记表，词语的类别标记表中用特殊的符号值作为词语类别的标记值，将该标记值加入词语分类向量集合得到标记过的词语分类向量集合；

所述步骤S6中效果完善的方法，即

对标记过的词语分类向量集合进行错误统计，且统计的过程为一个随机的样本抽取过程，其方法包括：将所述标记过的词语分类向量集合中的标记过的词语分类向量提取，并根据词语的分布律进行排序，排序在前30％的区域为重点抽取的区域，对抽取的样本的分类效果进行测试，并且利用冗余参数进行调整；若调整的频率过高，则重新返回所述步骤S2，以对所述阈值进行修改重新进行特征提取，直到将调整的频率降到安全范围内。

本发明的有益效果是，本发明的计算机文本分类系统及其文本分类方法以信息论为基础，对分类的过程进一步细化，明确了分类系统中各个模块的功能，确保分类的效率以及分类处理率，加入了效果完善模块，提高分类处理的正确率。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明的计算机文本分类体系的原理框图；

图2是本发明的计算机文本分类系统的原理框图；

图3是本发明的计算机文本分类方法的软件流程图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

实施例1

如图1所示，本实施例1提供了一种计算机文本分类体系，包括：

文本预处理模块、文本的形式化模块，文本权值计算模块、模型训练模块、噪声降低模块；

在文本预处理模块中采用了双重方法将停用词去除，文本往往通过名词、动词和形容词等实词来体现文本的内容，而虚词以及在文本中经常出现但并不表示文本内容的词称为停用词。由于这些停用词并不表示文本的实际意义，所以它们对文本分类没有任何贡献，相反它们反而会增加分类算法处理文本的时空复杂度。所以为了降低存储空间，提高文本分类算法的分类效率和分类精度，需要对文本进行去除停用词的处理。通常情况下对文本进行去除停用词的处理是通过构造停用词表来实现的，即将分词所得到的文本初始特征词集中的每个词与停用词表中的词进行匹配，如果该词在停用词表中出现，则表示该词为停用词，应该去除，否则，保留该特征。由于对文本去除停用词的处理依赖于停用词表，所以停词表的完备性和科学性对去除停用词的处理结果有较大的影响。

停用词具有两类重要的性质：一是使用广泛，甚至是过于频繁，几乎在每个文本中均会出现；二是出现频率较高，通常自身没有确切含义，必须放入一个完整的句子中才有一定作用。在停用词过滤方面主要有基于统计的和基于停用词表的两类方法，停用词过滤可以用三种方法:①文档频次，文档频次是一种简单的评估函数，是指训练语料中出现某词条的文本数。采用文档频次进行停用词过滤的主要思路是：当一个词的文档频次值高于某个阈值时，这个词通常被认为是停用词。文档频次体现了停用词使用十分广泛，几乎在每个文本中均会出现的特性；②词频，基于词频的计算标准，在基于统计的方法中最直接和最基本的。词频就是一种简单的评估函数，是指在训练语料中该单词出现的词频数。采用词频进行停用词过滤是基于这样的假设：当一个词在大量出现时，通常被认为是停用词。词频则体现了停用词出现频率较高的特性；③停用词表，前两种停用词过滤方法中除了上述两种基于统计的方法，另外一种就是基于停用词列表，目前存在的停用词表在国内有哈工大停用词表、四川大学机器智能实验室停用词库以及百度停用词表。用户根据自己研究对象的异同进行不同的加工，因为有些词不能完全当作停用词去除。

因此，本实施例1中停用词去除中将将词语集合分为通用输入词语集合以及专业输入词语集合，对通用输入词语集合采取利用固定的停用词列表进行分析过滤，将通用输入词语集合转换成去除停用词的通用输入词语集合，对专业输入词语集合采用相对熵来度量其包含的信息量，根据信息量的多少对专业输入词语集合进行降序排序，将排序在后2％的所述专业输入词语集合中的词语去除，构成去除停用词的专业输入词语集合，将两者结合对停用词进行去除。

实施例2

文本分类就是将大量文本文档划分为一个或一组类别，使得各个类别代表不同的概念主题。文本分类实际上是一个模式分类任务,模式分类算法可以应用到文本分类中。文本分类将自然语言处理应用其中,是和文档的语义紧密相关的,所以与普通的模式分类任务相比，有许多它的独特性。

高维特征空间在文档特征提取的时候,有大量的候选特征。如果使用词语作为文档特征,即使一个规模小的训练文档集,一般也会产生上万的候选特征。如果使用一项作为特征,会产生更多的候选特征。特征语义相关一种避免选择结果不好的解决方法是,假设大部分特征之间是相互独立的,使用特征选择方法选取那些相互无关的特征。但是文本分类中很少特征之间是相互无关的。即使排序位置非常靠后的特征仍然包含大量的信息，即使使用最差的特征构造分类器,仍然比随机选择特征好。一个好的分类器应该能够将尽可能多的特征结合起来，而特征选择会导致信息的损失。特征存在多义和同义现象，文本分类中一般使用词、短语等作为表征文档语义的文档特征。但是,这些特征往往无法清晰地表达一种含义。一个特征可能有多种含义,即多义现象。同时,许多相同的含义又可以用不同的特征来描述,即同义现象。根据特征分布稀疏根据法则,如果在一个大型语料库中统计一种语言中每个单词出现的次数,然后依据出现频度由低到高列出单词表,能够发现单词频度和它在表中位次的关系。在文档中特征出现的频率是非常低的,文档对应的向量中大部分的特征值都为0。

文本权值计算模块中使用了信息增益的概念，信息增益是机器学习中广泛使用的一个信息论方法。信息增益度量一个特征能够给分类系统提供的信息量的多少。如果一个特征关于某类别的信息增益值越大，该特征包含该类别的分类信息就越多，因此基于信息增益的特征选择算法保留那些信息增益值最大的特征，而抛弃信息增益值小的特征。

实施例3

如图2所示，本实施例3提供了一种计算机文本分类系统，包括：

依次相连的文本预处理模块、文本特征提取模块、文本训练处理模块、分类处理模块、文本种类标记模块以及效果完善模块。

具体的，所述文本预处理模块适于将输入文本中的标点符号、空格去除，分割成词语集合，以及去除无意义的词语；即形成精简词语集合。

具体的，所述文本特征提取模块适于从精简词语集合中产生出特征词语子集，并获取特征词语与该特征词语出现的频率之间的映射表。

具体的，所述文本训练处理模块适于对映射表进行处理；即随机选取其他文本，计算逆文本频率指数，将计算后的逆文本频率指数作为输入，依靠训练分类器计算所述特征词语的权重值，从而得到词语权重矩阵。

具体的，所述分类处理模块适于根据词语权重矩阵，且利用SVM分类算法设置分类的类别区间，将所述精简词语集合中的词语进行分类，得到词语分类向量集合，即一个类别的词语属于所述词语分类向量集合中的同一个向量。

具体的，所述文本种类标记模块用于对词语分类向量集合进行标记，建立词语的类别标记表，该类别标记表中用特殊的符号值作为词语类别的标记值，并将该标记值加入词语分类向量集合，以得到标记过的词语分类向量集合。

具体的，所述效果完善模块适于对标记过的词语分类向量集合进行错误统计，以提高分类处理的正确率。

实施例4

如图3所示，在实施例3基础上，本实施例4提供了一种计算机文本分类方法，包括：

步骤S1，文本预处理；

步骤S2，文本特征提取；

步骤S3，文本训练；

步骤S4，分类处理；

步骤S5，文本种类标记；以及

步骤S6，效果完善。

优选的，所述步骤S1中文本预处理的方法包括：

步骤S11，对输入文本进行预处理，即

去除输入文本中的标点符号、空格，分割成词语集合；

步骤S12，将无意义的词语去除；以及

步骤S13，形成精简词语集合。

优选的，步骤S2中文本特征提取，即

从精简词语集合中产生出特征词语子集，并获取特征词语与该特征词语出现的频率之间的映射表，其方法包括：

优选的，所述步骤S3中文本训练的方法包括：

随机选取其他文本，计算逆文本频率指数，将计算后的逆文本频率指数作为输入，依靠训练分类器计算所述特征词语的权重值，从而得到词语权重矩阵。

优选的，所述步骤S4中分类处理的方法包括：

根据所述词语权重矩阵，利用SVM分类算法设置分类的类别区间，将精简词语集合中的词语进行分类，得到词语分类向量集合；即一个类别的词语属于所述词语分类向量集合中的同一个向量。

优选的，所述步骤S5中文本种类标记的方法包括：

对所述词语分类向量集合进行标记，建立词语的类别标记表，词语的类别标记表中用特殊的符号值作为词语类别的标记值，将该标记值加入词语分类向量集合得到标记过的词语分类向量集合。

优选的，所述步骤S6中效果完善的方法，即对标记过的词语分类向量集合进行错误统计，且统计的过程为一个随机的样本抽取过程，其方法包括：将所述标记过的词语分类向量集合中的标记过的词语分类向量提取，并根据词语的分布律进行排序，排序在前30％的区域为重点抽取的区域，对抽取的样本的分类效果进行测试，并且利用冗余参数进行调整；若调整的频率过高，则重新返回所述步骤S2，以对所述阈值进行修改重新进行特征提取，直到将调整的频率降到安全范围内。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种计算机文本分类体系，其特征在于，包括：

所述文本预处理模块适于将输入文本中的标点符号、空格去除，对所述输入文本的语法错误进行纠正，分割成词语集合，以及对所述词语集合进行停用词去除，所述停用词去除被分为两步:第一步，对所述词语集合进行分类，将所述词语集合分为通用输入词语集合以及专业输入词语集合；第二步，对所述通用输入词语集合采取利用固定的停用词列表进行分析过滤，将所述通用输入词语集合转换成去除停用词的所述通用输入词语集合，对所述专业输入词语集合采用相对熵来度量其包含的信息量，根据信息量的多少对所述专业输入词语集合进行降序排序，将排序在后2％的所述专业输入词语集合中的词语去除，构成去除停用词的所述专业输入词语集合，将所述去除停用词的所述通用输入词语集合以及所述去除停用词的所述专业输入词语集合结合；即形成精简词语集合；

所述文本的形式化模块适于将所述精简词语集合转换成计算机能识别的形式化模型，首先根据所述输入文本的词语出现的顺序将所述精简词语集合表示为词语有序序列，并且将所述词语有序序列表示成状态变迁系统，所述状态变迁系统是由状态以及状态之间的变迁关系组成的一种计算机能识别的形式化模型，所述词语有序序列的词语映射为所述状态变迁系统的状态，所述词语有序序列中相邻的词语表示为其映射的所述状态变迁系统的状态之间的变迁关系；

所述文本权值计算模块适于对所述状态变迁系统进行处理转换成状态标签变迁系统，所述状态标签变迁系统由所述状态变迁系统以及所述状态变迁系统中的状态上的标签组成；即计算所述词语有序序列中的词语在所述输入文本中的分布律，并计算所述输入文本的长度，计算两者的比值，作为局部系数，计算所述词语有序序列中的词语的信息增益，作为全局系数，将所述局部系数乘以所述全局系数得到所述词语有序序列中的词语的权重，将所述词语有序序列中的词语的权重作为所述状态变迁系统中的状态上的标签，从而得到所述状态标签变迁系统；

所述模型训练模块适于根据所述词语有序序列中的词语的权重将所述状态变迁系统的状态进行进一步地升序排序，形成词语权重序列，对所述词语权重序列扩展维数，加入具有变迁关系的状态，构成词语向量空间模型，并且根据支持向量机分类器对所述词语向量空间模型进行处理并进行降维，得到词语类别的序列集合；即所述词语类别的序列集合由词语组成的序列组成，一个类别的词语属于一个序列，并且一个序列中的词语按所述词语的权重的降序排序；

所述噪声降低模块对所述词语类别的序列集合进行清除噪声数据，并且确保不改变所述词语类别的序列集合的结构；即所述清除噪声数据的步骤为首先将所述词语类别的序列集合进行初始化，并且结合所述状态变迁系统的状态之间的变迁关系，得到近邻列表，共享所述输入文本中的分布律，计算所述近邻列表的频度，根据所述近邻列表的频度计算阈值，将权重低于阈值的所述词语类别的序列集合中的词语去除。

2.一种计算机文本分类系统，其特征在于，包括：

3.根据权利要求2所述的计算机文本分类系统，其特征在于，

所述文本预处理模块适于将输入文本中的标点符号、空格去除，分割成词语集合，以及去除无意义的词语；即

形成精简词语集合。

4.根据权利要求3所述的计算机文本分类系统，其特征在于，

所述文本特征提取模块适于从精简词语集合中产生出特征词语子集，并获取特征词语与该特征词语出现的频率之间的映射表。

5.根据权利要求4所述的计算机文本分类系统，其特征在于，

所述文本训练处理模块适于对映射表进行处理；即

6.根据权利要求5所述的计算机文本分类系统，其特征在于，

所述分类处理模块适于根据词语权重矩阵，且利用SVM分类算法设置分类的类别区间，将所述精简词语集合中的词语进行分类，得到词语分类向量集合，即

一个类别的词语属于所述词语分类向量集合中的同一个向量。

7.根据权利要求6所述的计算机文本分类系统，其特征在于，

所述文本种类标记模块用于对词语分类向量集合进行标记，建立词语的类别标记表，该类别标记表中用特殊的符号值作为词语类别的标记值，并将该标记值加入词语分类向量集合，以得到标记过的词语分类向量集合。

8.根据权利要求7所述的计算机文本分类系统，其特征在于，

所述效果完善模块适于对标记过的词语分类向量集合进行错误统计，以提高分类处理的正确率。

9.一种计算机文本分类方法，其特征在于，包括：

步骤S1，文本预处理；

步骤S2，文本特征提取；

步骤S3，文本训练；

步骤S4，分类处理；

步骤S5，文本种类标记；以及

步骤S6，效果完善。

10.根据权利要求9所述的计算机文本分类方法，其特征在于，

所述步骤S1中文本预处理的方法包括：

步骤S11，对输入文本进行预处理，即

去除输入文本中的标点符号、空格，分割成词语集合；

步骤S12，将无意义的词语去除；以及

步骤S13，形成精简词语集合；

步骤S2中文本特征提取，即

所述步骤S3中文本训练的方法包括：

所述步骤S4中分类处理的方法包括：

根据所述词语权重矩阵，利用SVM分类算法设置分类的类别区间，将精简词语集合中的词语进行分类，得到词语分类向量集合；即

一个类别的词语属于所述词语分类向量集合中的同一个向量；

所述步骤S5中文本种类标记的方法包括：

所述步骤S6中效果完善的方法，即

对标记过的词语分类向量集合进行错误统计，且统计的过程为一个随机的样本抽取过程，其方法包括：

将所述标记过的词语分类向量集合中的标记过的词语分类向量提取，并根据词语的分布律进行排序，排序在前30％的区域为重点抽取的区域，对抽取的样本的分类效果进行测试，并且利用冗余参数进行调整；

若调整的频率过高，则重新返回所述步骤S2，以对所述阈值进行修改重新进行特征提取，直到将调整的频率降到安全范围内。