CN102968410A

CN102968410A - 一种基于rbf神经网络算法与语义特征选取的文本分类方法

Info

Publication number: CN102968410A
Application number: CN 201210524507
Authority: CN
Inventors: 梁久祯; 何晓亮; 宋威
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2012-12-04
Filing date: 2012-12-04
Publication date: 2013-03-13

Abstract

本发明公开了一种基于RBF神经网络算法与语义特征选取的文本分类方法。其中，所述系统中包含了改进RBF神经网络算法和语义特征选取的文本降维处理。网络结构采用RBFLN(径向基链网络)模型，添加输入层对输出层的线性映射，在训练过程中基于最大误差学习样本对资源分配网络(RAN)新性条件进行改动，在不满足新性条件时，采用相似度参数对隐层中心和宽度进行调整；而满足新性条件时，对新增隐层节点也通过类均值的方法做出相应的改进。由于基于词向量空间的文本分类模型很难处理文本的高维特性和语义复杂性，为此本文通过语义特征选取方法对文本输入空间进行语义特征的抽取和降维。本发明的RBF分类系统具有学习速率高，网络结构紧凑，分类效果好的优点。

Description

一种基于RBF神经网络算法与语义特征选取的文本分类方法

技术领域

本发明属于信息检索及数据挖掘技术，尤其涉及一种文本分类挖掘系统及方法。

背景技术

随着网络的使用在人们日常生活中越来越普及，人们也越来越开始习惯从网络中获取信息和知识，同时互联网中网站的数量和质量都在逐步的提高，网络中的信息量也在呈爆炸式的增长中，人们基本上可以从网络中获取各方各面的信息。2011年10月9日，互联网追踪机构Net craft的最新统计报告显示，全球网站在过去一个月内又增加了1800万个，幅度接近3.8％，目前总量为504082040个，首次突破5亿大关。当前互联网高速发展，使得海量的、内容丰富的文字信息以计算机可读的形式存在，并且其数量每天仍在急剧增加。为了有效的管理和利用这些分布的海量信息，基于内容的信息检索和文本挖掘已经成为备受关注的研究领域。

从目前数字图书馆建设的实际需求来看，信息资源的建设也急需高效信息管理手段的支撑。国家科学数字图书馆项目的建设目标，是要通过项目建设切实有效地提高科研用户获取信息的能力，实现资源数字化、查询网络化、服务个性化、存储虚拟化、信息使用共享化、信息加工智能化、用户界面友善化。这其中，资源的采集和过滤、个性化服务、信息智能加工，归根究底，都需要在文本自动分类技术上有所突破。

文本分类是文本挖掘的基础与核心，是近年来数据挖掘和网络挖掘的一个研究热点，是组织和管理海量信息的有效手段，是几乎所有基于内容的文本管理的研究基础，并被广泛应用于信息处理领域在传统的情报检索、网站索引体系结构的建立和web信息检索等方面占有重要地位。它是指在给定的分类体系下，根据文本内容自动确定文本所属类别。信息的获取与过滤、信息的智能化加工、提供个性化的信息服务，都需要我们在文本自动分类上有所突破。正因如此文本自动分类技术正逐渐成为众多科研领域的研究热点和难点。作为文献组织、文本过滤、智能搜索、邮件过滤等领域的技术基础，文本自动分类有着广泛的商业前景。

发明内容

本发明的主要目的是提供一种基于RBF神经网络与语义特征选取方法的文本分类系统，以提高文本分类的查准率与查全率。

为达到以上目的，本发明的技术具体方案实现如下：

一种基于RBF神经网络与语义特征选取方法的文本分类系统，包括文本预处理，文本分类算法模块。其中，文本预处理模块，将待测文本进行分词，去除噪声词，保留文本重要的关键信息，然后将文本表示成词-文档形式，紧接着，对生成的词-文档矩阵进行语义特征选取处理，做到进一步降低文本维度以及提高文本间的语义特性。

RBF分类算法模块是指将生成的词-文档矩阵用于训练RBF网络结构，以达到文本分类器产生的目的。具体过程包括了初始隐层单元的选取；隐层单元参数的调整；权值的调整这三部分。

A、初始隐层单元的选取：假设学习样本的类别为k，初始隐层中心数目与训练样本的类别相同，则初始隐层中心c_j以及中心宽度为σ_j j＝1，2，...，k，可以通过如下两个公式：

c_{j} = \frac{1}{N_{j}} \underset{x_{i} &Element; A_{j}}{Σ} x_{i}

σ_j＝κd_j max

其中，A_j是训练样本的的归属集合。x_i是各个样本集合中的样本，N_j是各类样本的数量；κ为常数，d_j max是各类样本集中学习样本到中心的最远距离。

B、隐层单元参数的调整：根据新颖性条件，隐层单元的调整包括两个部分：分配网络新的隐层节点和调整网络已经存在的网络参数。在训练过程中，应当选取当前产生最大的学习样本x_max error代替输入网络的顺序样本，则新颖性条件中的距离准则和误差准则分别为：

r_max＝|x_max error-c_nearest|＞δ

e_max＝|y_max error-f(x_max error)|＞e_min

其中，x_max error是产生最大误差的学习样本，y_max error与f(x_max error)分别代表x_max error所对应的期望输出与实际输出，c_nearest是距离x_max error最近的隐层中心，δ与e_min是人为设定的一个阈值。

将x_max error代入新颖性条件，如果满足，则根据下式进行隐层节点的添加：

k＝k+1，N_k＝1，c_k＝c_max error，

σ_{k} = \frac{γ}{p} Σ_{j = 1}^{p} | x_{\max error} - c_{j} |

其中，γ为一常数，p为距离样本最近的中心数量。如果p＝1，只选取到最近中心距离为新增隐层节点的宽度。如果不慢新颖性条件，则采用一种相似度参数对隐层单元的中心和宽度进行调整，如下式：

N_j＝N_j+1，c_ji＝c_ji+Δc_ji，σ_j＝σ_j+Δσ_j 1≤j≤k，1≤i≤n

其中，c_ji是向量c_j的第i个分量，且有

{Δc}_{ji} = 2 α_{j} η \frac{x_{\max error} - c_{ji}}{σ_{j}^{2}} φ (x_{\max error}) \cdot Σ_{s = 1}^{m} w_{sj} (f {(x_{\max error})}_{s} - y_{\max errors}), 1 \leq s \leq m

{Δσ}_{ji} = 2 α_{j} η \frac{{| x_{\max error} - c_{ji} |}^{2}}{σ_{j}^{3}} φ (x_{\max error}) \cdot Σ_{s = 1}^{m} w_{sj} (f {(x_{\max error})}_{s} - y_{\max errors}), 1 \leq s \leq m

其中，φ(·)为RBF网络第j个隐层节点的激活函数，为高斯函数，即： w_sj为RBF网络第j个隐层节点与第s个隐层节点之间的连接权值，n、m、k为输入节点、输出节点、隐层节点个数，N_j为各样本个数，η是

α_{j} = \frac{| x_{\max error} - c_{j} | - | x_{\max error} - c_{nearest} |}{| x_{\max error} - c_{farthest} | - | x_{\max error} - c_{nearest} |}

其中，c_nearest是距离x_max error最近的中心，c_farthest是距离x_max error距离最远的中心。

C、如权利要求2所述的权值的调整：权值的调整包括两个部分：隐层到输出层的权值w和输人层到输出层的权值v权值的调整，可以通过最小二乘法得到。设训练样本数为N，当前隐层中心数为k，则隐层的输出矩阵P由下式得到

p＝[p₁ p₂…p_i…p_k]

其中，

p_i＝[[p₁₍₁₎ p_i(2)…p_i(3)…p_i(N)]

p_{i (s)} = φ (x_{s}, c_{i}) = \exp (- \frac{{| x_{s} - c_{i} |}^{2}}{σ_{i}^{2}})

i＝1，2，...，k；s＝1，2，...，N

则隐层到输出层的权值w可由下式得到：

w＝(P^T P)^-1P^TY

其中，Y为网路的期望输出矩阵。那么隐层对网络输出的贡献可由f₁(X)＝PW得到。

输入层到输出的权值v可由下式得到：

\{\begin{matrix} X = [\begin{matrix} x_{1} & x_{2} & . . . & x_{i} & . . . & x_{N} \end{matrix}] \\ x_{i} = {[\begin{matrix} x_{i 1} & x_{i 2} & . . . & x_{ij} & . . . & x_{in} \end{matrix}]}^{T} \\ v = {(X^{T} X)}^{- 1} X^{T} (Y - f_{1} (X)) \\ i = 1,2, . . ., N; j = 1,2, . . ., n \end{matrix}

那么，输入层对网络输出的贡献为f₂(X)＝XV。

因此RBFLN网络模型的实际输出为：

f(X)＝f₁(X)+βf₂(X)＝PW+βXV

其中，β为权值系数。

附图说明

图1为本发明提供的分本分类中的语义特征选取方法示意图；

图2为本发明提供的分本分类中的RBF神经网络的结构模型示意图；

图3为本发明提供的分本分类中的运行过程示意图；

具体实施方式

下面结合附图详细说明本发明，其作为本说明书的一部分，通过实施例来说明本发明的原理，本发明的其他方面，特征及其优点通过该详细说明将会变得一目了然。

如图1所示，利用语义特征选取对向量空间模型产生的词-文档矩阵进行进一步降维以及语义特性加强处理，从而达到了降低文本分类系统的运行时间，并且提高了系统的分类准确性。

如图2所示，本文本分类系统采用的是具有三层结构的RBF神经网络，RAN神经网络采用三层结构模型，设输入向量为n维，输出向量为m维，整个网络相当于一个由n维输入空间向m维输出空间的一个映射。在该网络中，输入层为X＝(x₁，x₂，...，x_n)，隐含层为C＝(c₁，c₂，...，c_h)，b＝(b₁，b₂，....，b_m)则为输出层偏置项，输出层为Y＝(y₁，y₂，....，y_m)。隐含层神经元采用的是高斯函数，输出层对隐层神经元的输出进行线形加权组合。网络确定好初始隐层节点后，然后对每一对训练数据都进行新颖性判定，若满足新颖性则增加隐含节点，否则对当前网络调整网络参数(包括隐含层神经元中心和网络权值)。

如图3所示，整个系统的RBF分类算法的整个具体学习过程，通过新颖性准则的判定，不断进行迭代训练，直到达到文本分类的最佳结果。所述方法100的具体实现步骤如下：

步骤102对待测文本进行第一步处理，也就是通过分词算法对待测文本进行分词。将文档拆分为词的形式；

步骤104将步骤102处理的文档进行进一步处理，主要是对文档中关键信息进行更加准确的筛选，也就是利用基本的噪音词词典对文档进行去噪处理；

步骤106将去噪后的文档集合，利用okapi公式进行特征词的权重计算，w_ij＝tf_ij/(tf_ij+0.5+1.5·dl/avgdl)·idf_j。其中idf_j＝log(N/n)，N为测试集中的文档数量，n表示出现第i个特征词的所有文本总和，tf_ij表示第i个特征词在第j篇文档中出现的频率，dl表示文档j的长度，avgdl表示所有文档的平均长度。将原先的文档集初步表示层词-文档矩阵形式；

步骤108由于步骤106生成的词-文档矩阵特征空间，文本特征向量维数还是过高，所以利用语义特征选取方法进行进一步降维和语义特征提取；

步骤110对预处理结束的文档进行文本分类训练，利用已知的文档分类，进行初始隐层单元的选取；

步骤112对建立的最初始的网络结构，通过输入待测文本，进行网络训练，对输入的训练文档求出网络隐层输出P；

步骤114计算输入的训练文档进行网络权值w、v及网络的学习输出f(x)；

步骤116通过均方差误差，计算网络误差E，如果误差值E小于期望值或者达到学习步骤最大，则网络训练结束，跳转至步骤124；否则，跳转至步骤118；

步骤118根据新颖性条件，判断是否满足添加隐层节点条件。如果满足，则跳转至步骤120；否则，转向步骤122；

步骤120将该待测文本加入隐层节点中，跳转至步骤112；

步骤122通过该待测文本进行隐层参数以及网络结构的调整，跳转至步骤112；

步骤124网络训练结束。

以上所揭露的仅为本发明的优选实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明申请专利范围所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于基于RBF神经网络算法与语义特征选取的文本分类方法，该方法包括文档预处理模块和RBF分类算法模块，其中：

文本预处理模块，对待测文本进行分词，去除停用词，计算词频，利用向量空间算法，将文档集用文本特征矩阵表示。然后将空间向量算法表示的词-文档矩阵进一步利用语义特征方法进行处理，得到维度降低、语义相关性高的新的词-文档矩阵。

RBF分类算法模块，采用RBFLN结构，基于最大误差样本改进RAN学习算法。该算法是根据样本输入信息初始化后，在训练过程中选取产生最大误差的样本。满足新性条件时，分配新的隐层节点；在不满足时使用相似度参数对隐层中心和宽度进行调整。

2.如权利要求1所述的一种基于基于RBF神经网络算法与语义特征选取的文本分类系统，其特征在于，所采用的文本预处理是运用语义特征提取对向量空间算法产生的原始文档集A，可表示为A＝m×n，其中m表示文档中的词的个数，n表示文档数目。奇异值分解常被用于提取对象之间的关联模式及所隐藏的对象间的结构关系的方法。文档矩阵A经奇异值分解，可表示成A＝U×∑×V形式，其中，U和V分别是矩阵A的奇异值对应的左、右奇异向量矩阵，潜在语义索引是利用U和V中的前k(k＜min(m，n))个列构建A的k-秩矩阵A_k，即：

A_k＝U_k×∑_k×V_k

而本系统采用的语义特征选取是利用A矩阵的转置矩阵D与U_k相乘，即：

C＝D×U_k

3.如权利要求1所述的种基于基于RBF神经网络算法与语义特征选取的文本分类系统，其特征在于文本分类算法模块包括：初始隐层单元的选取；隐层单元参数的调整；权值的调整。

4.如权利要求2所述的初始隐层单元的选取，其特征在于，假设学习样本的类别为k，初始隐层中心数目与训练样本的类别相同，则初始隐层中心c_j以及中心宽度为σ_j j＝1，2，...，k，可以通过如下两个公式：

c_{j} = \frac{1}{N_{j}} \underset{x_{i} &Element; A_{j}}{Σ} x_{i}

σ_j＝κd_j max

其中，A_j是训练样本的的归属集合。x_i是各个样本集合中的样本，N_j是各类样本的数量；

为常数，d_j max是各类样本集中学习样本到中心的最远距离。

5.如权利要求2所述的隐层单元参数的调整，其特征在于，根据新颖性条件，隐层单元的调整包括两个部分：分配网络新的隐层节点和调整网络已经存在的网络参数。在训练过程中，应当选取当前产生最大的学习样本x_max error代替输入网络的顺序样本，则新颖性条件中的距离准则和误差准则分别为：