CN101414300A

CN101414300A - 一种互联网舆情信息的分类处理方法

Info

Publication number: CN101414300A
Application number: CNA2008101477192A
Authority: CN
Inventors: 高辉; 傅彦; 陈旭
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2008-11-28
Filing date: 2008-11-28
Publication date: 2009-04-22
Anticipated expiration: 2028-11-28
Also published as: CN101414300B

Abstract

本发明公开了一种互联网舆情信息的分类处理方法，选取已分类的舆情信息文本作为训练文本并分词，选取名词和动词并进行筛选，提取得到特征词将训练文本向量化，然后得到PCA变换特征矩阵、BP神经网络模型、决策树规则。利用PCA变换特征矩阵将待分类舆情信息文本的向量矩阵的向量降维，然后根据BP神经网络模型对其进行变换，得到与分类数量相同维数的输出向量，再用决策树规则进行匹配，若有，则待分类舆情信息文本属于该规则所标记的舆情信息分类。由于PCA变换将高维相关的特征词空间转化为低维正交的特征空间，解决了分类不准确的缺点；同时利用决策树规分类无需比较数据之间的相似性，能够在相对短的时间内处理大量数据源。

Description

一种互联网舆情信息的分类处理方法

技术领域

本发明属于互联网信息发布监控技术领域，具体来讲，涉及一种互联网舆情信息的分类处理方法。

背景技术

随着互联网技术的快速发展，人们可以更方便地在线浏览网页，阅读新闻，同时也能发布帖子和评论，编辑个人网页。用户对信息的产生，传播和消费等对互联网的发展发挥着重要作用。

由于互联网传播的虚拟性、隐蔽性、发散性、渗透性和随意性，互联网舆情以“内容威胁”的形式逐渐对社会公共安全构成威胁。舆情是指在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，民众对社会管理者产生和持有的社会政治态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。网络的开放性和虚拟性使得互联网舆情具有以下特点：1、直接性，通过BBS，新闻点评和博客网站，网民可以立即发表意见；2、突发性，网络舆论的形成迅速，一个热点事件加上一种情绪化的意见，可以成为点燃一片舆论的导火索；3、偏差性，由于发言者身份隐蔽，并且缺少规则限制和有效监督，网络自然成为一些网民发泄情绪的空间；此外在现实生活中遇到挫折，对社会问题片面认识等等，都会利用网络宣泄。因此，互联网舆情形成迅速，对社会影响巨大，不仅受到国内外各级管理部门密切关注，也受到社会各界的高度重视，不少国家通过立法的方式从法律和行政制度上采取相应措施进行管理。鉴于互联网具有的开放性，个人对互联网的使用又具有相当的自由性，因此从技术的角度对互联网舆情信息进行分类处理，对互联网舆情信息的分析及预测具有重要意义。

互联网舆情信息常规分类方法分为两类：一是基于知识的分类方法；二是基于统计的分类方法。基于知识的分类方法需要知识库作为支撑，另外，由于知识提取、更新、维护以及自我学习等方面存在的种种问题，使得它适用面较窄。基于统计的分类方法由于不苛求复杂的语言学知识和领域知识，在实际应用中收到的良好效果，成为目前最流行的文本分类方法。现有广泛应用的基于统计的模型有向量空间模型，贝叶斯模型等。

G.Salton等人在20世纪60年代提出的向量空间模型(VSM)把文本表示为以特征词的权重为分量的向量，作为向量空间的一个点，然后通过计算向量间的距离决定文本类别的归属。由于把文本分类简化为空间向量的运算，使得问题的复杂性大大降低。

传统基于向量空间模型的文本分类处理方法存在如下缺点：一是简单将模型中的“项”取为文本中的特征词，而特征词之间具有一定的相关性，因此会导致向量之间距离的计算不够准确，从而造成文本分类效果不理想；二是局限于惯用的相似性度量的分类模式，简单将文本对应一个高维空间上的特征向量，相似度计算量巨大。

发明内容

本发明的目的在于克服上述现有技术的不足，提供一种分类更为准确、计算量更小的互联网舆情信息的分类处理方法。

为实现上述目的，本发明的互联网舆情信息的分类处理方法，包括以下步骤：

(1)、将互联网舆情信息分为M类，从互联网网站下载、提取舆情信息，人工将其分为M类舆情信息中的一种，并以文本文件的格式保存在相应的文件目录中，每类选取f个的舆情信息文本作为训练文本；

(2)、采用汉字分词系统对每个训练文本进行分词，根据词性，从分出词语中选取名词和动词作为候选特征词进行筛选，提取代表该类舆情信息的g个特征词，从而得到所有训练文本的G个特征词，其中G＝M×g；

(3)、获取主成分分析变换矩阵

按步骤(2)得到G个特征词在每个训练文本中出现的词频，向量化每一个训练文本，得到N个G维的向量x_i＝(x_i，1，x_i，2，…，x_i，G)，1≤i≤N，构成训练文本的向量矩阵(TM)_N×G，其中，N＝M×f；

计算N个训练文本在每一个维度上的均值：

{\overset{&OverBar;}{m}}_{j} = \frac{1}{N} Σ_{i = 1}^{N} x_{i, j},

其中m_j为N个训练文本向量在第j维上的均值，x_i，j表示第i个向量x_i在第j维上的值，1≤j≤G。

计算G个特征词之间的协方差矩阵C：

C (k, l) = \frac{1}{N} Σ_{i, j = 1}^{N} (x_{i, k} - {\overset{&OverBar;}{m}}_{k}) (x_{j, l} - {\overset{&OverBar;}{m}}_{l})

其中x_i，k，x_j，l分别为向量x_i和x_j在第k与l维上的值，m_k，m_l分别为样本在第k维和第l维上的均值，1≤i，j≤N，1≤k，l≤G，协方差矩阵C为对称矩阵，即有C(i，j)＝C(j，i)；

计算协方差矩阵C特征值λ_i及其对应的特征向量u_i(i＝1，2，...，G)，并按特征值的大小降序排列，即λ₁>λ₂>...>λ_G；选取前r个特征值λ_i对应的主成分特征向量u₁，u₂，...，u_r，得到主成分分析变换特征矩阵A＝(u₁，u₂，...，u_r)^T，其中

r = \min {t | \frac{λ_{1} + λ_{2} + . . . + λ_{t}}{λ_{1} + λ_{2} + . . . + λ_{G}} &GreaterEqual; 80 %};

(4)、获取BP神经网络模型的网络权值矩阵w与偏移值b

将训练文本的向量矩阵(TM)_N×G乘以主成分分析变换特征矩阵A的转置矩阵(A^T)_G×r，得到经主成分分析变换后的向量矩阵(TM_PCA)_N×r，将其中的N个r维行向量作为BP神经网络模型的N个输入向量，将每一个训练文本对应一个表示该训练文本所属舆情信息分类的M维输出向量，训练BP神经网络，当BP神经网络渐趋稳定时，保存训练好的神经网络模型参数，即网络权值矩阵w与偏移值b，获得BP神经网络模型；

(5)、获取决策树规则集

利用步骤(4)得到的神经网络模型，将训练文本的向量矩阵(TM)_N×G经主成分分析变换后得到的向量矩阵(TM_PCA)_N×r作为神经网络模型N个输入向量，计算得到对应的N个M维的神经网络模型输出向量，构成BP神经网络输出矩阵(TM_PCA_BP)_N×M；

在矩阵(TM_PCA_BP)_N×M中每一行都对应一个M维的神经网络输出向量，根据每一行对应训练文本所属的舆情信息分类，将每一个M维神经网络输出向量增加一维表示该训练文本所属的舆情信息分类，这N个M+1维向量构成了决策树样本矩阵(Sample)_N×(M+1)；

矩阵(Sample)_N×(M+1)中N个向量在第i(1≤i≤M)维上有k个不同的数x₁，x₂，...，x_k，对于其中的每个数x_j(1≤j≤k)，将N个向量在第i维上的值分为两类，小于x_j的为一类，不超过x_j的为另一类，第一类和第二类中分别有n₁和n₂个值，按如下公式求出N个行向量在第i维上基于x_j(1≤j≤k)的熵值：

I (x_{j}) = - \frac{n_{1}}{N} * \log_{2} (\frac{n_{1}}{N}) - \frac{n_{2}}{N} * \log_{2} (\frac{n_{2}}{N})

将k个熵值中最大熵值对应的数x_j，记为max S_i，计算N个向量在前M维上的最大熵值对应的数，得到一个熵值数组S＝{max S₁，max S₂，...，max S_M}。根据熵值数组S对矩阵(Sample)_N×(M+1)中个N行向量在前M维上的值进行离散化，如果在第i维上的值大于等于max S_i，则离散化为1，否则离散化为0；

然后利用C4.5决策树算法建立基于离散化后矩阵(Sample)_N×(M+1)的决策树分类模型，得到决策树规则集Rule；

(6)、从互联网网站下载、提取舆情信息，并以文本格式保存，作为待分类舆情信息文本，其个数为F；

(7)、采用汉字分词系统对每个待分类舆情信息文本进行分词，按步骤(2)得到G个特征词在每个待分类舆情信息文本中出现的词频，向量化每一个待分类舆情信息文本，得到F个G维的向量x_i＝(x_i，1，x_i，2，…，x_i，G)，1≤i≤F，构成待分类舆情信息文本的向量矩阵(T)_F×G；

将待分类舆情信息文本的向量矩阵(T)_F×G乘以步骤(3)得到的主成分分析变换特征矩阵A的转置矩阵(A^T)_G×r，得到经主成分分析变换后的向量矩阵(T_PCA)_F×r；

将主成分分析变换后的向量矩阵(T_PCA)_F×r中的F个r维向量作为步骤(4)获取BP神经网络模型的F个输入向量，计算出F个输入向量对应的F个M维的神经网络输出向量；

根据步骤(5)获得的熵值数组S对F个M维神经网络输出向量的每一维进行离散化；将离散化后的每一个M维神经网络输出向量与步骤(5)中得到的决策树规则集Rule中的决策树规则进行匹配，若有，则待分类舆情信息文本属于该规则所标记的舆情信息分类。

本发明通过选取已分类的舆情信息文本作为训练文本，采用汉字分词系统分词，根据词性，选取名词和动词进行筛选，提取代表得到该类舆情信息的特征词，得到训练文本特征词。根据训练文本特征词将训练文本向量化，得到训练文本的向量矩阵，根据该向量矩阵得到PCA变换特征矩阵、BP神经网络模型、决策树规则。利用PCA变换特征矩阵将待分类舆情信息文本的向量矩阵的向量降维，然后根据获得的BP神经网络模型对其进行变换，得到与舆情信息文本分类数量相同维数的神经网络输出向量，再用决策树规则进行匹配，若有，则待分类舆情信息文本属于该规则所标记的舆情信息分类。由于PCA变换将高维相关的特征词空间转化为低维正交的特征空间，解决了传统算法中利用原始特征词空间进行分类，特征词之间具有一定的相关性，导致向量之间距离的计算不够准确，造成互联网舆情信息分类不准确的缺点；同时，降维后的待分类舆情信息文本的向量矩阵在神经网络模型再进行一次变换，得到与舆情信息文本分类数量相同维数的神经网络输出向量，维数进一步降低，同时利用决策树规则来进行分类无需比较数据之间的相似性，能够在相对短的时间内处理大量数据源。这样克服传统的决策树分类将向量每一维对应于单独的一个特征词，待分类舆情信息文本对应一个高维空间上的特征向量，相似度计算量巨大的缺点。

附图说明

图1是本发明互联网舆情信息的分类处理方法的一种具体实施方式流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，需要特别提醒注意的是，在以下的描述中，当采用已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这儿将被忽略。

在本实施例中，互联网舆情信息的分类处理方法包括以下步骤：

(1)、将互联网舆情信息分为M类，从互联网网站下载、提取舆情信息，人工将其分为M类舆情信息中的一种，并以文本文件的格式保存在相应的文件目录中，每类选取f个的舆情信息文本作为训练文本。该步骤为图1中的步骤ST1，目的是M类互联网舆情信息文本作为训练文本。

在本实施中，将所提取的互联网舆情信息分为重大刑事案件、涉外突发事件、恐怖袭击事件、经济安全事件、公共卫生事件、突发自然灾害事件六大类，即M＝6。每类选取200个舆情信息文本作为训练文本，即f＝200。

(2)、采用汉字分词系统对每个训练文本进行分词，根据词性，从分出词语中选取名词和动词作为候选特征词进行筛选，提取代表该类舆情信息的g个特征词，从而得到所有训练文本的G个特征词，其中G＝M×g。该步骤为图1中的步骤ST2，目的是提取互联网舆情信息文本中的特征词。

在本实施例中，采用的汉字分词为ICTClAS分词系统，该分词系统先进行原子切分，然后在此基础上进行N-最短路径粗切分，找出前N个最符合的切分结果，生成二元分词表，然后生成分词结果，接着进行词性标注并完成主要分词步骤。

例如中训练文本一个语句：上海法院高院开庭公告信息栏里信息显示，上海市高级人民法院将在第五法庭公开审理此案，开庭时间是10月13日上午9点30分。承办部门是刑一庭，审判长/主审人是徐伟，上诉人为杨佳。

分词效果：上海/ns法院/n高院/j开庭/v公告/n信息/n栏/n里/f信息/n显示/v，/w上海市/ns高级/a人民法院/l将/d在/p第五/m法庭/n公开/ad审理/v此案/r，/w开庭/v时间/n是/v10月13日/td上午/t9点30分/td。/w承办/v部门/n是/v刑/n一/m庭/ng，/w审判长/n//m主/bg审/vn人/n是/v徐伟/nr，/w上诉/v人为/d杨/ng佳/a。/w

其中/xxx代表前面的词对应的词性。其中/n表示名词，/v表示动词，/ns表示地名，/f表示助词/w表示符号/a表示形容词/td表示时间/m表示量词/nr表示人名。

由于在一个舆情信息文本中，形容词，副词以及包括助词、介词和代词等停留对舆情信息的中心含义没有影响，因此从分出词语中出现的属于这些类的词去掉，只留下名词和动词作为候选特征词进行筛选。另外，在本实施例中，为了防止特征词重复出现，需要先对选取的候选特征词进行同义词合并，以保证训练文本的特征词没有重复。

在本实施例中，还需要统计候选特征词的词频，如上述句子中的选特征词的词频为：

这时上面的句子为：

开庭2，信息2，上诉1，法院1，法庭1，部门1，审理1，显示1，公告1，承办1，时间1。

对选取的候选特征词中出现频率低于2的低频词进行去除，这些低频候选特征中有很多是与该训练文本所在类别无关的词，如果保留的话会对分类造成干扰，因此需要去掉词频较低的候选特征词。

在本实施例中，利用低频词清理后的候选特征词的卡方统计，每类选取关联度较大的前200个候选特征词。具体为：

候选特征词的卡方值，卡方值表示候选特征词在选取的训练文本中，与所在类的关联度。候选特征词的卡方值为：

χ^{2} (t, c) = \frac{N \times {(AD - CB)}^{2}}{(A + C) \times (B + D) \times (A + B) \times (C + D)} - - - (1)

其中，A代表候选特征词t在c类别文本中出现的次数，B代表候选特征词t在非c类别文本中出现的次数，C代表c类别文本中出现非候选特征词t的次数，D代表所有非c类文档中出现非候选特征词t的次数，N代表整个训练文本集含有文本的数目。

如在恐怖袭击舆情分类中，数字表示计算出来该候选特征词的关联度，关联度越大表示训练文本中该候选特征词与所在类的关联越大，反之越小：

袭击 939.783853670575

爆炸 565.442971962338

炸弹 542.543135561674

事件 463.40578926054917

分子 406.42742982745347

汽车 401.67318890869973

武装 292.95992942339245

发生 270.92415281885593

自杀 202.65176549770203

发动 173.87469429704223

组织 138.43465748646707

基地 137.42406992956194

利用公式(1)计算所有候选特征词与所在类别的相关度，即卡方值，每类选取关联度较大的前200个候选特征词，删除对应类中的文档所出现的其它候选特征词，以便于在不牺牲分类准确度的前提下降低特征空间的维度，降低分类算法运算的复杂度。

人工清理各类别下不能代表该类互联网舆情信息的侯选特征词：

将每类选取的关联度较大的前200个侯选特征词，按其对应的卡方值从大到小进行排列，理论上位置越靠前的侯选特征词，与本类的关联度越大。但是由于个别训练样本带来的噪声以及选取训练样本的局限性，在位置靠前的侯选特征词中，会出现一些不能代表该类互联网舆情信息的词，这些词需要人工清理以保证待建立特征词空间的准确性。

如在恐怖袭击舆情分类中排在第30位的是“大楼”，但是该特征词不能代表该舆情分类的特征，所以将该词去掉。

从人工清理后的候选特征词中，按候选特征词对应卡方值的大小每一类选取前100个特征词，即g＝100，六类该类舆情信息共选取600个特征词作为原始特征词空间O＝(w₁，w₂，..，w_k)k＝600，即G＝600

(3)、获取主成分分析变换矩阵，该步骤为图1中的步骤ST3。

按步骤(2)得到G＝600个特征词在每个训练文本中出现的词频，向量化每一个训练文本，得到N即1200个600维的向量x_i＝(x_i，1，x_i，2，…，x_i，600)，1≤i≤1200，构成训练文本的向量矩阵(TM)_1200×600，其中，N＝M×f＝6×200＝1200；

计算1200个训练文本在每一个维度上的均值：

{\overset{&OverBar;}{m}}_{j} = \frac{1}{N} Σ_{i = 1}^{N} x_{i, j} = \frac{1}{1200} Σ_{i = 1}^{1200} x_{i, j},

其中m_j为1200个训练文本向量在第j维上的均值，x_i，j表示第i个向量x_i在第j维上的值，1≤j≤600。

计算600个特征词之间的协方差矩阵C：

C (k, l) = \frac{1}{N} Σ_{i, j = 1}^{N} (x_{i, k} - {\overset{&OverBar;}{m}}_{k}) (x_{j, l} - {\overset{&OverBar;}{m}}_{l})

其中x_i，k，x_j，l分别为向量x_i和x_j在第k与l维上的值，m_k，m_l分别为样本在第k维和第l维上的均值，1≤i，j≤1200，1≤k，l≤600，协方差矩阵C为600×600对称矩阵，即有C(i，j)＝C(j，i)；

计算协方差矩阵C特征值λ_i及其对应的特征向量u_i(i＝1，2，...，600)，并按特征值的大小降序排列，即λ₁>λ₂>...>λ₆₀₀；选取前r个特征值λ_i对应的主成分特征向量u₁，u₂，...，u_r，得到主成分分析变换特征矩阵A＝(u₁，u₂，...，u_r)^T，其中

r = \min {t | \frac{λ_{1} + λ_{2} + . . . + λ_{t}}{λ_{1} + λ_{2} + . . . + λ_{G}} &GreaterEqual; 80 %};

在本实施例中，r＝41。这样，通过PCA变换将高维，即600维相关的特征词空间转化为低维，即41维正交的特征空间。

(4)、获取BP神经网络模型的网络权值矩阵w与偏移值b，该步骤为图1中的步骤ST4。

将训练文本的向量矩阵(TM)_1200×600乘以主成分分析变换特征矩阵A的转置矩阵(A^T)_600×41，得到经主成分分析变换后的向量矩阵(TM_PCA)_1200×41，将其中的1200个41维行向量作为BP神经网络模型的1200个输入向量，将每一个训练文本对应一个表示该训练文本所属舆情信息分类的输出向量。

在本实施例中，取第一类训练文本对应的输出向量为[1，0，0，0，0，0]，第二类训练样本对应的输出向量为[0，1，0，0，0，0]，...，第六类训练样本对应的输出向量为[0，0，0，0，0，1]。这样N个训练样本对应的输出向量构成了一个矩阵(TM_PCA_BP)_1200×6。

训练BP神经网络，当BP神经网络渐趋稳定时，保存训练好的神经网络模型参数，即网络权值矩阵w与偏移值b，获得BP神经网络模型；

(5)、获取决策树规则集，该步骤为图1中的步骤ST5。

利用步骤(4)得到的神经网络模型，即网络权值矩阵w与偏移值b，将训练文本的向量矩阵(TM)_1200×600经主成分分析变换后得到的向量矩阵(TM_PCA)_1200×41作为神经网络模型1200个输入向量，计算得到对应的1200个6维的神经网络模型输出向量，构成BP神经网络输出矩阵(TM_PCA_BP)_1200×6；

在矩阵(TM_PCA_BP)_1200×6中每一行都对应一个6维的神经网络输出向量，根据每一行对应训练文本所属的舆情信息分类，将每一个6维神经网络输出向量增加一维表示该训练文本所属的舆情信息分类，这1200个7维向量构成了决策树样本矩阵(Sample)_1200×7；

决策树样本矩阵(Sample)_1200×7中1200个向量在第i(1≤i≤6)维上有k个不同的数x₁，x₂，...，x_k，对于其中的每个数x_j(1≤j≤k)，将1200个向量在第i维上的值分为两类，小于x_j的为一类，不超过x_j的为另一类，第一类和第二类中分别有n₁和n₂个值，按如下公式求出1200个行向量在第i维上基于x_j(1≤j≤k)的熵值：

I (x_{j}) = - \frac{n_{1}}{N} * \log_{2} (\frac{n_{1}}{N}) - \frac{n_{2}}{N} * \log_{2} (\frac{n_{2}}{N})

将k个熵值中最大熵值对应的数x_j，记为max S_i，计算1200个向量在前6维上的最大熵值对应的数，得到一个熵值数组S＝{max S₁，max S₂，...，max S_M}。在本实施例中，熵值数组S＝{0.99，0.01，1.0，0.01，0.99，0.98}。根据熵值数组S对决策树样本矩阵(Sample)_1200×7中个1200行向量在前6维上的值进行离散化，如果在第i维上的值大于等于max S_i，则离散化为1，否则离散化为0；

然后利用C4.5决策树算法建立基于离散化后决策树样本矩阵(Sample)_N×(M+1)的决策树分类模型，得到决策树规则集Rule，在本实施例中，共得到35条规则组成的规则集Rule。

(6)、从互联网网站下载、提取舆情信息，并以文本格式保存，作为待分类舆情信息文本，其个数为F。该步骤为图1中的步骤ST6。在本实施例中，F＝1866。

(7)、采用汉字分词系统对每个待分类舆情信息文本进行分词，按步骤(2)得到600个特征词在每个待分类舆情信息文本中出现的词频，向量化每一个待分类舆情信息文本，得到1934个600维的向量x_i＝(x_i，1，x_i，2，…，x_i，600)，1≤i≤1934，构成待分类舆情信息文本的向量矩阵(T)_1934×600；

将待分类舆情信息文本的向量矩阵(T)_1934×600乘以步骤(3)得到的主成分分析变换特征矩阵A的转置矩阵(A^T)_600×41，得到经主成分分析变换后的向量矩阵(T_PCA)_1934×41；

将主成分分析变换后的向量矩阵(T_PCA)_F×r中的1934个41维向量作为步骤(4)获取BP神经网络模型的1934个输入向量，计算出1934个输入向量对应的1934个6维的神经网络输出向量；

根据步骤(5)获得的熵值数组S对1934个6维神经网络输出向量的每一维进行离散化；将离散化后的每一个6维神经网络输出向量与步骤(5)中得到的决策树规则集Rule中的决策树规则进行匹配，若有，则待分类舆情信息文本属于该规则所标记的舆情信息分类。

为验证本发明的舆情信息分类准确率，我们对1934个待分类舆情信息文本进行了人工分类，情况如下：

	公共卫生	恐怖袭击	涉外事件	重大刑事	自然灾害	经济安全
	公共卫生	恐怖袭击	涉外事件	重大刑事	自然灾害	经济安全	编号	1	2	3	4	5	6
测试样本数	361	367	301	339	305	261	编号	1	2	3	4	5	6

表1

1934个待分类舆情信息文本，采用本发明的分类方法，分类情况如下：

表2

表2中，类似公共卫生361，这里的361指的是该类舆情信息文本的个数。从表2中我们可以看出，本发明实施例进行分类，舆情信息文本分类的平均准确率为88.5％。

同时，为比较本发明的有益效果，利用本实施例获得的600个特征词，以及传统的BP神经网络模型对上述1934个待分类舆情信息文本进行分类，结果如下：

表3

从表3我们可以看出，舆情信息文本分类的平均准确率为75.1％。

此外，利用本实施例获得的600个特征词，以及传统的决策树分类模型对上述1934个待分类舆情信息文本进行分类，结果如下：

表4

从表3我们可以看出，舆情信息文本分类的平均准确率为77.4％。

从实验结果可以看出利用本发明互联网舆情信息的分类处理方法对互联网舆情信息进行分类处理有较好的实验结果，平均准确率能提高15％左右。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化时显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1、一种互联网舆情信息的分类处理方法，其特征在于，包括以下步骤：

(3)、获取主成分分析变换矩阵

计算N个训练文本在每一个维度上的均值：

{\overset{&OverBar;}{m}}_{j} = \frac{1}{N} Σ_{i = 1}^{N} x_{i, j},

计算G个特征词之间的协方差矩阵C：

C (k, l) = \frac{1}{N} Σ_{i, j = 1}^{N} (x_{i, k} - {\overset{&OverBar;}{m}}_{k}) (x_{j, l} - {\overset{&OverBar;}{m}}_{l})

r = \min {t | \frac{λ_{1} + λ_{2} + . . . + λ_{t}}{λ_{1} + λ_{2} + . . . + λ_{G}} &GreaterEqual; 80 %};

(4)、获取BP神经网络模型的网络权值矩阵w与偏移值b

将训练文本的向量矩阵(TM)_N×G乘以主成分分析变换特征矩阵A的转置矩阵(A^T)_G×1，得到经主成分分析变换后的向量矩阵(TM_PCA)_N×1，将其中的N个r维行向量作为BP神经网络模型的N个输入向量，将每一个训练文本对应一个表示该训练文本所属舆情信息分类的M维输出向量，训练BP神经网络，当BP神经网络渐趋稳定时，保存训练好的神经网络模型参数，即网络权值矩阵w与偏移值b，获得获取BP神经网络模型；

(5)、获取决策树规则集

矩阵(Sample)_N×(M+1)中N个向量在第l(1≤l≤M)维上有k个不同的数x₁，x₂，...，x_k，对于其中的每个数x(1≤J≤k)，将N个向量在第i维上的值分为两类，小于x_i的为一类，不超过x_j的为另一类，第一类和第二类中分别有n₁和n₂个值，按如下公式求出N个行向量在第i维上基于x_J(1≤J≤k)的熵值：

I (x_{j}) = - \frac{n_{1}}{N} * \log_{2} (\frac{n_{1}}{N}) - \frac{n_{2}}{N} * \log_{2} (\frac{n_{2}}{N})

将k个熵值中最大熵值对应的数x_J，记为max S_l，计算N个向量在前M维上的最大熵值对应的数，得到一个熵值数组S＝{max S₁，max S₂，...，max S_M}。根据熵值数组S对矩阵(Sample)_N×(M+1)，中个N行向量在前M维上的值进行离散化，如果在第i维上的值大于等于max S_i，则离散化为1，否则离散化为0；

2、根据权利要求1所述的互联网舆情信息的分类处理方法，其特征在于，步骤(2)所述的从分出词语中选取名词和动词作为候选特征词进行筛选，提取代表该类舆情信息的g个特征词，从而得到所有训练文本的G个特征词，其步骤为：

对选取的候选特征词进行同义词合并，对选取的候选特征词中的低频词进行去除，计算候选特征词的卡方值，每类依据卡方值，选取大小靠前的候选特征词进行人工清理，清除各类别下不能代表该类互联网舆情信息的侯选特征词，从而提取出代表该类舆情信息的g个特征词，得到所有训练文本的G个特征词。

3、根据权利要求2所述的互联网舆情信息的分类处理方法，其特征在于，所述候选特征词的卡方值，依据如下公式计算：

χ^{2} (t, c) = \frac{N \times {(AD - CB)}^{2}}{(A + C) \times (B + D) \times (A + B) \times (C + D)}