CN108268461A

CN108268461A - 一种基于混合分类器的文本分类装置

Info

Publication number: CN108268461A
Application number: CN201611254041.9A
Authority: CN
Inventors: 何伟潮; 单小红; 麻建; 吴剑文
Original assignee: Guangdong Fine Point Data Polytron Technologies Inc
Current assignee: Guangdong Fine Point Data Polytron Technologies Inc
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2018-07-10

Abstract

本发明公开一种基于混合分类器的文本分类装置，其包括：用于录入文本的输入模块，用于对文本进行格式化，索引等处理的预处理模块，用于对文本进行分类的BP神经网络模块，用于判断所述BP神经网络模块分类效果好坏的判断模块，用于对文本进行分类的朴素贝叶斯模块，用于输出分类结果的输出模块。本发明结合了BP神经网络与朴素贝叶斯两种分类方法，由于BP神经网络输出向量的最大分量与第二大分量取值相近时，可能会使分类结果不准确，针对这一缺点，引入朴素贝叶斯分类算法对其做出改进，结合各自的优势，本发明能有效提高分类计算效率与分类准确率，能广泛应用到文本分类当中。

Description

一种基于混合分类器的文本分类装置

技术领域

本发明涉及文本分类技术领域，具体涉及一种基于混合分类器的文本分类装置。

背景技术

近年来，互联网的快速发展宣告了“大数据”时代的来临，大数据因其独特性，必须采用分布式计算架构进行处理，它的特色在于必须依托云计算的分布式处理，分布式数据库，云存储和虚拟化技术对海量数据进行挖掘。在互联网的知识呈现形式中，绝大部分信息是以文本的形式存在，如何从海量的信息中快速、有效地提取出人们所需要的知识，成为数据挖掘及其学习领域的关注热点。其中，作为文本挖掘的一项重要内容，文本分类在搜索引擎，网页分类管理，电子邮件自动分类，信息过滤等方面都具有极高的应用价值。

文本分类是指按照预先定义的主题类别，为文档集合中的每个文档确定一个类别。BP神经网络在分类问题上有着非常广泛的应用，是目前应用最广泛的神经网络模型之一。BP神经网络能学习和存储大量的输入/输出模式映射关系，但无需事前解释描述这种映射关系的数学方程。而在实际应用中，若仅单纯的使用神经网络分类器难免会使分类结果不准确，尤其是当网络输出向量的最大分量与第二大分量取值相近时，所以应将算法进行改进，使其拥有更高的分类准确率和效率。

鉴于上述缺陷，本发明创作者经过长时间的研究和实践终于获得了本发明。

发明内容

为解决上述技术缺陷，本发明采用的技术方案在于，提供一种基于混合分类器的文本分类装置，其包括，

输入模块：其用于录入需要分类的文本；

预处理模块：其用于对文本进行格式化，索引，统计，特征提取等处理；

BP神经网络模块：其用于通过BP神经网络对文本进行分类；

判断模块：其用于处理所述BP神经网络模块分类结果，并判断其效果好坏；

朴素贝叶斯模块：其用于当所述BP神经网络模块的分类效果不好时，通过朴素贝叶斯分类器对文本进行分类；

输出模块：其用于输出所述BP神经网络模块或所述朴素贝叶斯模块的分类结果。

较佳的，所述BP神经网络模块包括对文本特征的表示，其采用的是向量空间模型方法，将每一个文本表示成一个n维的特征向量：V(d)＝(t₁,ω₁(d)；t₂,ω₂(d)；...,t_n,ω_n(d))，其中，t_i为词条项(向量)，ω_i(d)为t_i在d中的权值，其值的大小采用TFIDF向量表示方法：其中tf_i(d)为词条t_i在文档d中出现的词频，N为所有文档的数目，n_i为出现了词条t_i的文档的数目。

较佳的，所述BP神经网络模块包括对BP神经网络模型结构的建造，所述BP神经网络模型表示如下：

设已知样本{(x₁ ^(k),x₂ ^(k),...,x_n ^(k)；y₁ ^(k),y₂ ^(k),...,y_q ^(k))|k＝1,...,m}，要建立关系

其中x₁,x₂...,x_n为神经元从树突部分接受的n个信息，(y₁,…,y_q)是对应x₁,x₂...,x_n的因变量，可以通过以x₁,x₂...,x_n的线性组合的非线性映射构造模型结构。

较佳的，所述BP神经网络模块包括对BP神经网络模型参数的计算，通过样本的训练得到对应的模型参数，用Y_i表示期望输出(实际输出)，用O_i表示网络计算输出，即令：

即(x₁,x₂...,x_m)——→(O₁,O₂,...,O_n)

其中q表示计算网络输出的次数，w_ij、V_ti、θ_i、r_t是待定模型参数。

较佳的，所述判断模块计算所述神经网络模块得到的向量的最大值与次最大值之间的差值Δc，将其与设定好的阈值c进行比较，若Δc小于c，则将文本的特征向量输入到所述朴素贝叶斯模块中进行处理分类。

较佳的，所述朴素贝叶斯模块的工作流程如下：

步骤S5-1：输出特征属性和训练样本，

步骤S5-2：输出类别出现的频率及每个属性划分对每个类别的条件概率估计，

步骤S5-3：输出待分类项与类别之间的映射关系。

较佳的，所述预处理模块包括格式化单元，其用于将原始文本格式化为统一格式，便于后续的统一处理。

较佳的，所述预处理模块包括索引单元，其用于将文档分解为基本处理单元，同时降低后续处理的开销。

较佳的，所述预处理模块包括统计单元，其用于统计词频，项与分类的相关概率。

较佳的，所述预处理模块包括特征提取单元，其用于从所述文档中抽取反应其主题的各种特征。

与现有技术比较本发明的有益效果在于：本发明实现了一种新型的文本分类装置，结合了BP神经网络与朴素贝叶斯两种分类算法，由于BP神经网络输出向量的最大分量与第二大分量取值相近时，可能会使分类结果不准确，针对这一缺点，引入朴素贝叶斯分类算法对其做出改进，结合各自的优势，本发明能有效提高分类计算效率与分类准确率，这种混合分类器可以广泛应用到文本分类当中。

附图说明

为了更清楚地说明本发明各实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。

图1是本发明装置的结构框图；

图2是本发明装置的工作流程图；

图3是BP神经网络文本分类模型示意图；

图4是BP神经网络模块的工作流程示意图；

图5是朴素贝叶斯分类器应用模型示意图；

图6是朴素贝叶斯模块工作流程示意图。

具体实施方式

以下结合附图，对本发明上述的和另外的技术特征和优点作更详细的说明。

实施例1

如图1所示，其为本发明装置的结构框图，所述基于混合分类器的文本分类装置包括：输入模块1，预处理模块2，BP神经网络模块3，判断模块4，朴素贝叶斯模块5，输出模块6。如图2所示，其为所述基于混合分类器的文本分类装置的工作流程图，文本经过所述预处理模块2后，进入所述BP神经网络模块3，使用BP神经网络进行文本分类，将最大分量对应的类别分派为文本的类别。定义一个阈值c，如果网络输出向量中分量最大值c₁与次最大值c₂的差值Δc越大，表明分类准确度越高。通过所述判断模块4的处理和判断，根据Δc与c的比较结果，决定采用分类器的类别，如果Δc小于给定的阈值c，通过所述朴素贝叶斯模块5，采用朴素贝叶斯分类器，反之，不经过所述朴素贝叶斯模块5，经由所述输出模块6将分类结果输出。(点划线箭头表示，当Δc<c时，直接把数据输入到所述朴素贝叶斯模块5，通过朴素贝叶斯分类器进行分类。)

所述输入模块1，用来将需要进行分类的文本录入所述基于混合分类器的文本分类装置。

所述预处理模块2包括：格式化单元21，索引单元22，统计单元23，特征抽取单元24。所述格式化单元21，用于将原始文本格式化为统一格式，便于后续的统一处理；所述索引单元22，用于将文档分解为基本处理单元，同时降低后续处理的开销；所述统计单元23，用于统计词频，项与分类的相关概率；所述特征抽取单元24，用于从文档中抽取出反映文档主题的各种特征。

如图3所示，其为BP神经网络文本分类模型示意图，其分为：输入层，隐层和输出层。这是一个误差反向传播算法的学习过程，由信息的正向传播和误差的反向传播两个过程组成。所述输入层各神经元负责接收处理后的文本数据信息，并传递给所述中间层各神经元；所述中间层是内部信息处理层，负责信息变换，根据信息变化能力的需求，所述中间层可以设计为单隐层或者多隐层的结构；最后一个所述隐层传递到所述输出层各神经元的信息，经进一步处理后，完成一次学习的正向传播处理过程，由所述输出层向外界输出信息处理结果。

当实际输出与期望输出不符时，进入误差的反向传播阶段。误差通过所述传输层，按误差梯度下降的方式修正各层权值，向所述隐层，所述输入层逐层反传。周而复始的信息正向传播和误差反向传播过程，是各层权值不断调整的过程，也是神经网络学习训练的过程，此过程一直进行到网络输出的误差减少到可以接受的程度，或者预先设定的学习次数为止。

如图4所示，其为所述BP神经网络模块3工作流程示意图，具体步骤如下：

步骤S3-1：表示文本特征

本发明采用的是向量空间模型(VSM)方法，将每一个文本表示成一个n维的特征向量：V(d)＝(t₁,ω₁(d)；t₂,ω₂(d)；...,t_n,ω_n(d))，其中，t_i为词条项(向量)，ω_i(d)为t_i在d中的权值，其值的大小采用TFIDF向量表示方法：其中tf_i(d)为词条t_i在文档d中出现的词频，N为所有文档的数目，n_i为出现了词条t_i的文档的数目。

步骤S3-2：建造BP神经网络模型结构

BP神经网络的模型表示如下：

设已知样本{(x₁ ^(k),x₂ ^(k),...,x_n ^(k)；y₁ ^(k),y₂ ^(k),...,y_q ^(k))k＝1,...,m}，要建立关系

其中x₁,x₂...,x_n为神经元从树突部分接受的n个信息，(y₁,…,y_q)是对应x₁,x₂...,x_n的因变量，在此处为类别变量，m为样本数量。

可以通过以x₁,x₂...,x_n的线性组合的非线性映射构造模型结构。

步骤S3-3：计算BP神经网络模型参数

通过样本的训练得到对应的模型参数，用Y_i表示期望输出(实际输出)，用O_i表示网络计算输出，即令：

即(x₁,x₂...,x_m)——→(O₁,O₂,...,O_n)，q表示计算网络输出的次数。

网络计算输出O_i：

其中w_ij、V_ti、θ_i、r_t是待定模型参数，w_ij表示所述隐层第i个节点到所述输出层第j个节点之间的权值，V_ti表示所述输出层第t个节点到所述隐层第i个节点之间的权值，θ_i表示所述隐层第i个节点的阈值，r_t表示所述输出层第t个节点的阈值，权值和阈值随机初始化取值范围均为[-1,1]，取值类型均为数值型。

所述神经网络模块3最终将向量作为输出结果，此向量包含类别信息，分量最大对应的类别为文本特征向量所述的类别。

所述判断模块4，计算所述BP神经网络模块3得到向量的最大值c₁与次最大值c₂的差值Δc，若Δc大于给定的阈值c，则采用神经网络分类器得到的结果；反之，若所述差值小于给定的阈值c，则说明BP神经网络的分类效果不好，此时直接把文本的特征向量输入到所述朴素贝叶斯模块5的朴素贝叶斯分类器当中。

如图5所示，其为朴素贝叶斯分类器应用模型示意图，即Δc小于给定的阈值c时，将转化成特征向量的文本信息与类的先验概率数据表、类的后验概率数据表一同输入到朴素贝叶斯分类器当中。通过计算代表数据样本的特征向量属于每个类别的概率，得到文本分类的结果数据表。

所述朴素贝叶斯模块5，采用朴素贝叶斯分类器，如图6所示，其为所述朴素贝叶斯模块5工作流程示意图，具体如下：

步骤S5-1：输出特征属性和训练样本

输入所有待分类数据，输出特征属性和训练样本，所述训练样本指已知类别的文本数据，通常事先给定或者已经存在于数据库当中。

步骤S5-2：输出类别出现的频率及每个特征属性划分对每个类别的条件概率估计

输入特征属性和训练样本，通过计算每个类别在训练样本中出现的频率，及每个特征属性划分对每个类别的条件概率估计，并将结果记录下来，从而输出朴素贝叶斯分类器。

步骤S5-3：输出待分类项与类别之间的映射关系

输入分类器和待分类项。使用分类器对待分类项进行分类，输出待分类项与类别之间的映射关系。

所述输出模块6，用于将来自所述BP神经网络模块3或所述朴素贝叶斯模块5的分类结果输出。

以上所述仅为本发明的较佳实施例，对本发明而言仅仅是说明性的，而非限制性的。本专业技术人员理解，在本发明权利要求所限定的精神和范围内可对其进行许多改变，修改，甚至等效，但都将落入本发明的保护范围内。

Claims

1.一种基于混合分类器的文本分类装置，其特征在于，包括：

输入模块：其用于录入需要分类的文本；

BP神经网络模块：其用于通过BP神经网络对文本进行分类；

2.如权利要求1所述的基于混合分类器的文本分类装置，其特征在于，所述BP神经网络模块包括对文本特征的表示，其采用的是向量空间模型方法，将每一个文本表示成一个n维的特征向量：V(d)＝(t₁,ω₁(d)；t₂,ω₂(d)；...,t_n,ω_n(d))，其中，t_i为词条项(向量)，ω_i(d)为t_i在d中的权值，其值的大小采用TFIDF向量表示方法：其中tf_i(d)为词条t_i在文档d中出现的词频，N为所有文档的数目，n_i为出现了词条t_i的文档的数目。

3.如权利要求2所述的基于混合分类器的文本分类装置，其特征在于，所述BP神经网络模块包括对BP神经网络模型结构的建造，所述BP神经网络模型表示如下：

设已知样本{(x₁ ^(k),x₂ ^(k),...,x_n ^(k)；y₁ ^(k),y₂ ^(k),...,y_q ^(k))|k＝1,…,m}，要建立关系

其中x₁,x₂…,x_n为神经元从树突部分接受的n个信息，(y₁,…,y_q)是对应x₁,x₂...,x_n的因变量，可以通过以x₁,x₂...,x_n的线性组合的非线性映射构造模型结构。

4.如权利要求3所述的基于混合分类器的文本分类装置，其特征在于，所述BP神经网络模块包括对BP神经网络模型参数的计算，通过样本的训练得到对应的模型参数，用Y_i表示期望输出(实际输出)，用O_i表示网络计算输出，即令：

即(x₁,x₂...,x_m)——→(O₁,O₂,...,O_n)

……

5.如权利要求4所述的基于混合分类器的文本分类装置，其特征在于，所述判断模块计算所述神经网络模块得到的向量的最大值与次最大值之间的差值Δc，将其与设定好的阈值c进行比较，若Δc小于c，则将文本的特征向量输入到所述朴素贝叶斯模块中进行处理分类。

6.如权利要求1所述的基于混合分类器的文本分类装置，其特征在于，所述朴素贝叶斯模块的工作流程如下：

步骤S5-1：输出特征属性和训练样本；

步骤S5-2：输出类别出现的频率及每个属性划分对每个类别的条件概率估计；

步骤S5-3：输出待分类项与类别之间的映射关系。

7.如权利要求1-6任一项所述的基于混合分类器的文本分类装置，其特征在于，所述预处理模块包括格式化单元，其用于将原始文本格式化为统一格式，便于后续的统一处理。

8.如权利要求7所述的基于混合分类器的文本分类装置，其特征在于，所述预处理模块包括索引单元，其用于将文档分解为基本处理单元，同时降低后续处理的开销。

9.如权利要求8所述的基于混合分类器的文本分类装置，其特征在于，所述预处理模块包括统计单元，其用于统计词频，项与分类的相关概率。

10.如权利要求9所述的基于混合分类器的文本分类装置，其特征在于，所述预处理模块包括特征提取单元，其用于从所述文档中抽取反应其主题的各种特征。