CN101414300A - 一种互联网舆情信息的分类处理方法 - Google Patents

一种互联网舆情信息的分类处理方法 Download PDF

Info

Publication number
CN101414300A
CN101414300A CNA2008101477192A CN200810147719A CN101414300A CN 101414300 A CN101414300 A CN 101414300A CN A2008101477192 A CNA2008101477192 A CN A2008101477192A CN 200810147719 A CN200810147719 A CN 200810147719A CN 101414300 A CN101414300 A CN 101414300A
Authority
CN
China
Prior art keywords
vector
matrix
text
feelings information
public feelings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008101477192A
Other languages
English (en)
Other versions
CN101414300B (zh
Inventor
高辉
傅彦
陈旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN2008101477192A priority Critical patent/CN101414300B/zh
Publication of CN101414300A publication Critical patent/CN101414300A/zh
Application granted granted Critical
Publication of CN101414300B publication Critical patent/CN101414300B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种互联网舆情信息的分类处理方法,选取已分类的舆情信息文本作为训练文本并分词,选取名词和动词并进行筛选,提取得到特征词将训练文本向量化,然后得到PCA变换特征矩阵、BP神经网络模型、决策树规则。利用PCA变换特征矩阵将待分类舆情信息文本的向量矩阵的向量降维,然后根据BP神经网络模型对其进行变换,得到与分类数量相同维数的输出向量,再用决策树规则进行匹配,若有,则待分类舆情信息文本属于该规则所标记的舆情信息分类。由于PCA变换将高维相关的特征词空间转化为低维正交的特征空间,解决了分类不准确的缺点;同时利用决策树规分类无需比较数据之间的相似性,能够在相对短的时间内处理大量数据源。

Description

一种互联网舆情信息的分类处理方法
技术领域
本发明属于互联网信息发布监控技术领域,具体来讲,涉及一种互联网舆情信息的分类处理方法。
背景技术
随着互联网技术的快速发展,人们可以更方便地在线浏览网页,阅读新闻,同时也能发布帖子和评论,编辑个人网页。用户对信息的产生,传播和消费等对互联网的发展发挥着重要作用。
由于互联网传播的虚拟性、隐蔽性、发散性、渗透性和随意性,互联网舆情以“内容威胁”的形式逐渐对社会公共安全构成威胁。舆情是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。网络的开放性和虚拟性使得互联网舆情具有以下特点:1、直接性,通过BBS,新闻点评和博客网站,网民可以立即发表意见;2、突发性,网络舆论的形成迅速,一个热点事件加上一种情绪化的意见,可以成为点燃一片舆论的导火索;3、偏差性,由于发言者身份隐蔽,并且缺少规则限制和有效监督,网络自然成为一些网民发泄情绪的空间;此外在现实生活中遇到挫折,对社会问题片面认识等等,都会利用网络宣泄。因此,互联网舆情形成迅速,对社会影响巨大,不仅受到国内外各级管理部门密切关注,也受到社会各界的高度重视,不少国家通过立法的方式从法律和行政制度上采取相应措施进行管理。鉴于互联网具有的开放性,个人对互联网的使用又具有相当的自由性,因此从技术的角度对互联网舆情信息进行分类处理,对互联网舆情信息的分析及预测具有重要意义。
互联网舆情信息常规分类方法分为两类:一是基于知识的分类方法;二是基于统计的分类方法。基于知识的分类方法需要知识库作为支撑,另外,由于知识提取、更新、维护以及自我学习等方面存在的种种问题,使得它适用面较窄。基于统计的分类方法由于不苛求复杂的语言学知识和领域知识,在实际应用中收到的良好效果,成为目前最流行的文本分类方法。现有广泛应用的基于统计的模型有向量空间模型,贝叶斯模型等。
G.Salton等人在20世纪60年代提出的向量空间模型(VSM)把文本表示为以特征词的权重为分量的向量,作为向量空间的一个点,然后通过计算向量间的距离决定文本类别的归属。由于把文本分类简化为空间向量的运算,使得问题的复杂性大大降低。
传统基于向量空间模型的文本分类处理方法存在如下缺点:一是简单将模型中的“项”取为文本中的特征词,而特征词之间具有一定的相关性,因此会导致向量之间距离的计算不够准确,从而造成文本分类效果不理想;二是局限于惯用的相似性度量的分类模式,简单将文本对应一个高维空间上的特征向量,相似度计算量巨大。
发明内容
本发明的目的在于克服上述现有技术的不足,提供一种分类更为准确、计算量更小的互联网舆情信息的分类处理方法。
为实现上述目的,本发明的互联网舆情信息的分类处理方法,包括以下步骤:
(1)、将互联网舆情信息分为M类,从互联网网站下载、提取舆情信息,人工将其分为M类舆情信息中的一种,并以文本文件的格式保存在相应的文件目录中,每类选取f个的舆情信息文本作为训练文本;
(2)、采用汉字分词系统对每个训练文本进行分词,根据词性,从分出词语中选取名词和动词作为候选特征词进行筛选,提取代表该类舆情信息的g个特征词,从而得到所有训练文本的G个特征词,其中G=M×g;
(3)、获取主成分分析变换矩阵
按步骤(2)得到G个特征词在每个训练文本中出现的词频,向量化每一个训练文本,得到N个G维的向量xi=(xi,1,xi,2,…,xi,G),1≤i≤N,构成训练文本的向量矩阵(TM)N×G,其中,N=M×f;
计算N个训练文本在每一个维度上的均值:
m ‾ j = 1 N Σ i = 1 N x i , j ,
其中mj为N个训练文本向量在第j维上的均值,xi,j表示第i个向量xi在第j维上的值,1≤j≤G。
计算G个特征词之间的协方差矩阵C:
C ( k , l ) = 1 N Σ i , j = 1 N ( x i , k - m ‾ k ) ( x j , l - m ‾ l )
其中xi,k,xj,l分别为向量xi和xj在第k与l维上的值,mk,ml分别为样本在第k维和第l维上的均值,1≤i,j≤N,1≤k,l≤G,协方差矩阵C为对称矩阵,即有C(i,j)=C(j,i);
计算协方差矩阵C特征值λi及其对应的特征向量ui(i=1,2,...,G),并按特征值的大小降序排列,即λ12>...>λG;选取前r个特征值λi对应的主成分特征向量u1,u2,...,ur,得到主成分分析变换特征矩阵A=(u1,u2,...,ur)T,其中
r = min { t | λ 1 + λ 2 + . . . + λ t λ 1 + λ 2 + . . . + λ G ≥ 80 % } ;
(4)、获取BP神经网络模型的网络权值矩阵w与偏移值b
将训练文本的向量矩阵(TM)N×G乘以主成分分析变换特征矩阵A的转置矩阵(AT)G×r,得到经主成分分析变换后的向量矩阵(TM_PCA)N×r,将其中的N个r维行向量作为BP神经网络模型的N个输入向量,将每一个训练文本对应一个表示该训练文本所属舆情信息分类的M维输出向量,训练BP神经网络,当BP神经网络渐趋稳定时,保存训练好的神经网络模型参数,即网络权值矩阵w与偏移值b,获得BP神经网络模型;
(5)、获取决策树规则集
利用步骤(4)得到的神经网络模型,将训练文本的向量矩阵(TM)N×G经主成分分析变换后得到的向量矩阵(TM_PCA)N×r作为神经网络模型N个输入向量,计算得到对应的N个M维的神经网络模型输出向量,构成BP神经网络输出矩阵(TM_PCA_BP)N×M
在矩阵(TM_PCA_BP)N×M中每一行都对应一个M维的神经网络输出向量,根据每一行对应训练文本所属的舆情信息分类,将每一个M维神经网络输出向量增加一维表示该训练文本所属的舆情信息分类,这N个M+1维向量构成了决策树样本矩阵(Sample)N×(M+1)
矩阵(Sample)N×(M+1)中N个向量在第i(1≤i≤M)维上有k个不同的数x1,x2,...,xk,对于其中的每个数xj(1≤j≤k),将N个向量在第i维上的值分为两类,小于xj的为一类,不超过xj的为另一类,第一类和第二类中分别有n1和n2个值,按如下公式求出N个行向量在第i维上基于xj(1≤j≤k)的熵值:
I ( x j ) = - n 1 N * log 2 ( n 1 N ) - n 2 N * log 2 ( n 2 N )
将k个熵值中最大熵值对应的数xj,记为max Si,计算N个向量在前M维上的最大熵值对应的数,得到一个熵值数组S={max S1,max S2,...,max SM}。根据熵值数组S对矩阵(Sample)N×(M+1)中个N行向量在前M维上的值进行离散化,如果在第i维上的值大于等于max Si,则离散化为1,否则离散化为0;
然后利用C4.5决策树算法建立基于离散化后矩阵(Sample)N×(M+1)的决策树分类模型,得到决策树规则集Rule;
(6)、从互联网网站下载、提取舆情信息,并以文本格式保存,作为待分类舆情信息文本,其个数为F;
(7)、采用汉字分词系统对每个待分类舆情信息文本进行分词,按步骤(2)得到G个特征词在每个待分类舆情信息文本中出现的词频,向量化每一个待分类舆情信息文本,得到F个G维的向量xi=(xi,1,xi,2,…,xi,G),1≤i≤F,构成待分类舆情信息文本的向量矩阵(T)F×G
将待分类舆情信息文本的向量矩阵(T)F×G乘以步骤(3)得到的主成分分析变换特征矩阵A的转置矩阵(AT)G×r,得到经主成分分析变换后的向量矩阵(T_PCA)F×r
将主成分分析变换后的向量矩阵(T_PCA)F×r中的F个r维向量作为步骤(4)获取BP神经网络模型的F个输入向量,计算出F个输入向量对应的F个M维的神经网络输出向量;
根据步骤(5)获得的熵值数组S对F个M维神经网络输出向量的每一维进行离散化;将离散化后的每一个M维神经网络输出向量与步骤(5)中得到的决策树规则集Rule中的决策树规则进行匹配,若有,则待分类舆情信息文本属于该规则所标记的舆情信息分类。
本发明通过选取已分类的舆情信息文本作为训练文本,采用汉字分词系统分词,根据词性,选取名词和动词进行筛选,提取代表得到该类舆情信息的特征词,得到训练文本特征词。根据训练文本特征词将训练文本向量化,得到训练文本的向量矩阵,根据该向量矩阵得到PCA变换特征矩阵、BP神经网络模型、决策树规则。利用PCA变换特征矩阵将待分类舆情信息文本的向量矩阵的向量降维,然后根据获得的BP神经网络模型对其进行变换,得到与舆情信息文本分类数量相同维数的神经网络输出向量,再用决策树规则进行匹配,若有,则待分类舆情信息文本属于该规则所标记的舆情信息分类。由于PCA变换将高维相关的特征词空间转化为低维正交的特征空间,解决了传统算法中利用原始特征词空间进行分类,特征词之间具有一定的相关性,导致向量之间距离的计算不够准确,造成互联网舆情信息分类不准确的缺点;同时,降维后的待分类舆情信息文本的向量矩阵在神经网络模型再进行一次变换,得到与舆情信息文本分类数量相同维数的神经网络输出向量,维数进一步降低,同时利用决策树规则来进行分类无需比较数据之间的相似性,能够在相对短的时间内处理大量数据源。这样克服传统的决策树分类将向量每一维对应于单独的一个特征词,待分类舆情信息文本对应一个高维空间上的特征向量,相似度计算量巨大的缺点。
附图说明
图1是本发明互联网舆情信息的分类处理方法的一种具体实施方式流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,需要特别提醒注意的是,在以下的描述中,当采用已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这儿将被忽略。
图1是本发明互联网舆情信息的分类处理方法的一种具体实施方式流程图。
在本实施例中,互联网舆情信息的分类处理方法包括以下步骤:
(1)、将互联网舆情信息分为M类,从互联网网站下载、提取舆情信息,人工将其分为M类舆情信息中的一种,并以文本文件的格式保存在相应的文件目录中,每类选取f个的舆情信息文本作为训练文本。该步骤为图1中的步骤ST1,目的是M类互联网舆情信息文本作为训练文本。
在本实施中,将所提取的互联网舆情信息分为重大刑事案件、涉外突发事件、恐怖袭击事件、经济安全事件、公共卫生事件、突发自然灾害事件六大类,即M=6。每类选取200个舆情信息文本作为训练文本,即f=200。
(2)、采用汉字分词系统对每个训练文本进行分词,根据词性,从分出词语中选取名词和动词作为候选特征词进行筛选,提取代表该类舆情信息的g个特征词,从而得到所有训练文本的G个特征词,其中G=M×g。该步骤为图1中的步骤ST2,目的是提取互联网舆情信息文本中的特征词。
在本实施例中,采用的汉字分词为ICTClAS分词系统,该分词系统先进行原子切分,然后在此基础上进行N-最短路径粗切分,找出前N个最符合的切分结果,生成二元分词表,然后生成分词结果,接着进行词性标注并完成主要分词步骤。
例如中训练文本一个语句:上海法院高院开庭公告信息栏里信息显示,上海市高级人民法院将在第五法庭公开审理此案,开庭时间是10月13日上午9点30分。承办部门是刑一庭,审判长/主审人是徐伟,上诉人为杨佳。
分词效果:上海/ns法院/n高院/j开庭/v公告/n信息/n栏/n里/f信息/n显示/v,/w上海市/ns高级/a人民法院/l将/d在/p第五/m法庭/n公开/ad审理/v此案/r,/w开庭/v时间/n是/v10月13日/td上午/t9点30分/td。/w承办/v部门/n是/v刑/n一/m庭/ng,/w审判长/n//m主/bg审/vn人/n是/v徐伟/nr,/w上诉/v人为/d杨/ng佳/a。/w
其中/xxx代表前面的词对应的词性。其中/n表示名词,/v表示动词,/ns表示地名,/f表示助词/w表示符号/a表示形容词/td表示时间/m表示量词/nr表示人名。
由于在一个舆情信息文本中,形容词,副词以及包括助词、介词和代词等停留对舆情信息的中心含义没有影响,因此从分出词语中出现的属于这些类的词去掉,只留下名词和动词作为候选特征词进行筛选。另外,在本实施例中,为了防止特征词重复出现,需要先对选取的候选特征词进行同义词合并,以保证训练文本的特征词没有重复。
在本实施例中,还需要统计候选特征词的词频,如上述句子中的选特征词的词频为:
这时上面的句子为:
开庭2,信息2,上诉1,法院1,法庭1,部门1,审理1,显示1,公告1,承办1,时间1。
对选取的候选特征词中出现频率低于2的低频词进行去除,这些低频候选特征中有很多是与该训练文本所在类别无关的词,如果保留的话会对分类造成干扰,因此需要去掉词频较低的候选特征词。
在本实施例中,利用低频词清理后的候选特征词的卡方统计,每类选取关联度较大的前200个候选特征词。具体为:
候选特征词的卡方值,卡方值表示候选特征词在选取的训练文本中,与所在类的关联度。候选特征词的卡方值为:
χ 2 ( t , c ) = N × ( AD - CB ) 2 ( A + C ) × ( B + D ) × ( A + B ) × ( C + D ) - - - ( 1 )
其中,A代表候选特征词t在c类别文本中出现的次数,B代表候选特征词t在非c类别文本中出现的次数,C代表c类别文本中出现非候选特征词t的次数,D代表所有非c类文档中出现非候选特征词t的次数,N代表整个训练文本集含有文本的数目。
如在恐怖袭击舆情分类中,数字表示计算出来该候选特征词的关联度,关联度越大表示训练文本中该候选特征词与所在类的关联越大,反之越小:
袭击 939.783853670575
爆炸 565.442971962338
炸弹 542.543135561674
事件 463.40578926054917
分子 406.42742982745347
汽车 401.67318890869973
武装 292.95992942339245
发生 270.92415281885593
自杀 202.65176549770203
发动 173.87469429704223
组织 138.43465748646707
基地 137.42406992956194
利用公式(1)计算所有候选特征词与所在类别的相关度,即卡方值,每类选取关联度较大的前200个候选特征词,删除对应类中的文档所出现的其它候选特征词,以便于在不牺牲分类准确度的前提下降低特征空间的维度,降低分类算法运算的复杂度。
人工清理各类别下不能代表该类互联网舆情信息的侯选特征词:
将每类选取的关联度较大的前200个侯选特征词,按其对应的卡方值从大到小进行排列,理论上位置越靠前的侯选特征词,与本类的关联度越大。但是由于个别训练样本带来的噪声以及选取训练样本的局限性,在位置靠前的侯选特征词中,会出现一些不能代表该类互联网舆情信息的词,这些词需要人工清理以保证待建立特征词空间的准确性。
如在恐怖袭击舆情分类中排在第30位的是“大楼”,但是该特征词不能代表该舆情分类的特征,所以将该词去掉。
从人工清理后的候选特征词中,按候选特征词对应卡方值的大小每一类选取前100个特征词,即g=100,六类该类舆情信息共选取600个特征词作为原始特征词空间O=(w1,w2,..,wk)k=600,即G=600
(3)、获取主成分分析变换矩阵,该步骤为图1中的步骤ST3。
按步骤(2)得到G=600个特征词在每个训练文本中出现的词频,向量化每一个训练文本,得到N即1200个600维的向量xi=(xi,1,xi,2,…,xi,600),1≤i≤1200,构成训练文本的向量矩阵(TM)1200×600,其中,N=M×f=6×200=1200;
计算1200个训练文本在每一个维度上的均值:
m ‾ j = 1 N Σ i = 1 N x i , j = 1 1200 Σ i = 1 1200 x i , j ,
其中mj为1200个训练文本向量在第j维上的均值,xi,j表示第i个向量xi在第j维上的值,1≤j≤600。
计算600个特征词之间的协方差矩阵C:
C ( k , l ) = 1 N Σ i , j = 1 N ( x i , k - m ‾ k ) ( x j , l - m ‾ l )
其中xi,k,xj,l分别为向量xi和xj在第k与l维上的值,mk,ml分别为样本在第k维和第l维上的均值,1≤i,j≤1200,1≤k,l≤600,协方差矩阵C为600×600对称矩阵,即有C(i,j)=C(j,i);
计算协方差矩阵C特征值λi及其对应的特征向量ui(i=1,2,...,600),并按特征值的大小降序排列,即λ12>...>λ600;选取前r个特征值λi对应的主成分特征向量u1,u2,...,ur,得到主成分分析变换特征矩阵A=(u1,u2,...,ur)T,其中
r = min { t | λ 1 + λ 2 + . . . + λ t λ 1 + λ 2 + . . . + λ G ≥ 80 % } ;
在本实施例中,r=41。这样,通过PCA变换将高维,即600维相关的特征词空间转化为低维,即41维正交的特征空间。
(4)、获取BP神经网络模型的网络权值矩阵w与偏移值b,该步骤为图1中的步骤ST4。
将训练文本的向量矩阵(TM)1200×600乘以主成分分析变换特征矩阵A的转置矩阵(AT)600×41,得到经主成分分析变换后的向量矩阵(TM_PCA)1200×41,将其中的1200个41维行向量作为BP神经网络模型的1200个输入向量,将每一个训练文本对应一个表示该训练文本所属舆情信息分类的输出向量。
在本实施例中,取第一类训练文本对应的输出向量为[1,0,0,0,0,0],第二类训练样本对应的输出向量为[0,1,0,0,0,0],...,第六类训练样本对应的输出向量为[0,0,0,0,0,1]。这样N个训练样本对应的输出向量构成了一个矩阵(TM_PCA_BP)1200×6
训练BP神经网络,当BP神经网络渐趋稳定时,保存训练好的神经网络模型参数,即网络权值矩阵w与偏移值b,获得BP神经网络模型;
(5)、获取决策树规则集,该步骤为图1中的步骤ST5。
利用步骤(4)得到的神经网络模型,即网络权值矩阵w与偏移值b,将训练文本的向量矩阵(TM)1200×600经主成分分析变换后得到的向量矩阵(TM_PCA)1200×41作为神经网络模型1200个输入向量,计算得到对应的1200个6维的神经网络模型输出向量,构成BP神经网络输出矩阵(TM_PCA_BP)1200×6
在矩阵(TM_PCA_BP)1200×6中每一行都对应一个6维的神经网络输出向量,根据每一行对应训练文本所属的舆情信息分类,将每一个6维神经网络输出向量增加一维表示该训练文本所属的舆情信息分类,这1200个7维向量构成了决策树样本矩阵(Sample)1200×7
决策树样本矩阵(Sample)1200×7中1200个向量在第i(1≤i≤6)维上有k个不同的数x1,x2,...,xk,对于其中的每个数xj(1≤j≤k),将1200个向量在第i维上的值分为两类,小于xj的为一类,不超过xj的为另一类,第一类和第二类中分别有n1和n2个值,按如下公式求出1200个行向量在第i维上基于xj(1≤j≤k)的熵值:
I ( x j ) = - n 1 N * log 2 ( n 1 N ) - n 2 N * log 2 ( n 2 N )
将k个熵值中最大熵值对应的数xj,记为max Si,计算1200个向量在前6维上的最大熵值对应的数,得到一个熵值数组S={max S1,max S2,...,max SM}。在本实施例中,熵值数组S={0.99,0.01,1.0,0.01,0.99,0.98}。根据熵值数组S对决策树样本矩阵(Sample)1200×7中个1200行向量在前6维上的值进行离散化,如果在第i维上的值大于等于max Si,则离散化为1,否则离散化为0;
然后利用C4.5决策树算法建立基于离散化后决策树样本矩阵(Sample)N×(M+1)的决策树分类模型,得到决策树规则集Rule,在本实施例中,共得到35条规则组成的规则集Rule。
(6)、从互联网网站下载、提取舆情信息,并以文本格式保存,作为待分类舆情信息文本,其个数为F。该步骤为图1中的步骤ST6。在本实施例中,F=1866。
(7)、采用汉字分词系统对每个待分类舆情信息文本进行分词,按步骤(2)得到600个特征词在每个待分类舆情信息文本中出现的词频,向量化每一个待分类舆情信息文本,得到1934个600维的向量xi=(xi,1,xi,2,…,xi,600),1≤i≤1934,构成待分类舆情信息文本的向量矩阵(T)1934×600
将待分类舆情信息文本的向量矩阵(T)1934×600乘以步骤(3)得到的主成分分析变换特征矩阵A的转置矩阵(AT)600×41,得到经主成分分析变换后的向量矩阵(T_PCA)1934×41
将主成分分析变换后的向量矩阵(T_PCA)F×r中的1934个41维向量作为步骤(4)获取BP神经网络模型的1934个输入向量,计算出1934个输入向量对应的1934个6维的神经网络输出向量;
根据步骤(5)获得的熵值数组S对1934个6维神经网络输出向量的每一维进行离散化;将离散化后的每一个6维神经网络输出向量与步骤(5)中得到的决策树规则集Rule中的决策树规则进行匹配,若有,则待分类舆情信息文本属于该规则所标记的舆情信息分类。
为验证本发明的舆情信息分类准确率,我们对1934个待分类舆情信息文本进行了人工分类,情况如下:
 
公共卫生 恐怖袭击 涉外事件 重大刑事 自然灾害 经济安全
编号 1 2 3 4 5 6
测试样本数 361 367 301 339 305 261
表1
1934个待分类舆情信息文本,采用本发明的分类方法,分类情况如下:
表2
表2中,类似公共卫生361,这里的361指的是该类舆情信息文本的个数。从表2中我们可以看出,本发明实施例进行分类,舆情信息文本分类的平均准确率为88.5%。
同时,为比较本发明的有益效果,利用本实施例获得的600个特征词,以及传统的BP神经网络模型对上述1934个待分类舆情信息文本进行分类,结果如下:
表3
从表3我们可以看出,舆情信息文本分类的平均准确率为75.1%。
此外,利用本实施例获得的600个特征词,以及传统的决策树分类模型对上述1934个待分类舆情信息文本进行分类,结果如下:
表4
从表3我们可以看出,舆情信息文本分类的平均准确率为77.4%。
从实验结果可以看出利用本发明互联网舆情信息的分类处理方法对互联网舆情信息进行分类处理有较好的实验结果,平均准确率能提高15%左右。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化时显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (3)

1、一种互联网舆情信息的分类处理方法,其特征在于,包括以下步骤:
(1)、将互联网舆情信息分为M类,从互联网网站下载、提取舆情信息,人工将其分为M类舆情信息中的一种,并以文本文件的格式保存在相应的文件目录中,每类选取f个的舆情信息文本作为训练文本;
(2)、采用汉字分词系统对每个训练文本进行分词,根据词性,从分出词语中选取名词和动词作为候选特征词进行筛选,提取代表该类舆情信息的g个特征词,从而得到所有训练文本的G个特征词,其中G=M×g;
(3)、获取主成分分析变换矩阵
按步骤(2)得到G个特征词在每个训练文本中出现的词频,向量化每一个训练文本,得到N个G维的向量xi=(xi,1,xi,2,…,xi,G),1≤i≤N,构成训练文本的向量矩阵(TM)N×G,其中,N=M×f;
计算N个训练文本在每一个维度上的均值:
m ‾ j = 1 N Σ i = 1 N x i , j ,
其中mj为N个训练文本向量在第j维上的均值,xi,j表示第i个向量xi在第j维上的值,1≤j≤G。
计算G个特征词之间的协方差矩阵C:
C ( k , l ) = 1 N Σ i , j = 1 N ( x i , k - m ‾ k ) ( x j , l - m ‾ l )
其中xi,k,xj,l分别为向量xi和xj在第k与l维上的值,mk,ml分别为样本在第k维和第l维上的均值,1≤i,j≤N,1≤k,l≤G,协方差矩阵C为对称矩阵,即有C(i,j)=C(j,i);
计算协方差矩阵C特征值λi及其对应的特征向量ui(i=1,2,...,G),并按特征值的大小降序排列,即λ12>...>λG;选取前r个特征值λi对应的主成分特征向量u1,u2,...,ur,得到主成分分析变换特征矩阵A=(u1,u2,...,ur)T,其中
r = min { t | λ 1 + λ 2 + . . . + λ t λ 1 + λ 2 + . . . + λ G ≥ 80 % } ;
(4)、获取BP神经网络模型的网络权值矩阵w与偏移值b
将训练文本的向量矩阵(TM)N×G乘以主成分分析变换特征矩阵A的转置矩阵(AT)G×1,得到经主成分分析变换后的向量矩阵(TM_PCA)N×1,将其中的N个r维行向量作为BP神经网络模型的N个输入向量,将每一个训练文本对应一个表示该训练文本所属舆情信息分类的M维输出向量,训练BP神经网络,当BP神经网络渐趋稳定时,保存训练好的神经网络模型参数,即网络权值矩阵w与偏移值b,获得获取BP神经网络模型;
(5)、获取决策树规则集
利用步骤(4)得到的神经网络模型,将训练文本的向量矩阵(TM)N×G经主成分分析变换后得到的向量矩阵(TM_PCA)N×r作为神经网络模型N个输入向量,计算得到对应的N个M维的神经网络模型输出向量,构成BP神经网络输出矩阵(TM_PCA_BP)N×M
在矩阵(TM_PCA_BP)N×M中每一行都对应一个M维的神经网络输出向量,根据每一行对应训练文本所属的舆情信息分类,将每一个M维神经网络输出向量增加一维表示该训练文本所属的舆情信息分类,这N个M+1维向量构成了决策树样本矩阵(Sample)N×(M+1)
矩阵(Sample)N×(M+1)中N个向量在第l(1≤l≤M)维上有k个不同的数x1,x2,...,xk,对于其中的每个数x(1≤J≤k),将N个向量在第i维上的值分为两类,小于xi的为一类,不超过xj的为另一类,第一类和第二类中分别有n1和n2个值,按如下公式求出N个行向量在第i维上基于xJ(1≤J≤k)的熵值:
I ( x j ) = - n 1 N * log 2 ( n 1 N ) - n 2 N * log 2 ( n 2 N )
将k个熵值中最大熵值对应的数xJ,记为max Sl,计算N个向量在前M维上的最大熵值对应的数,得到一个熵值数组S={max S1,max S2,...,max SM}。根据熵值数组S对矩阵(Sample)N×(M+1),中个N行向量在前M维上的值进行离散化,如果在第i维上的值大于等于max Si,则离散化为1,否则离散化为0;
然后利用C4.5决策树算法建立基于离散化后矩阵(Sample)N×(M+1)的决策树分类模型,得到决策树规则集Rule;
(6)、从互联网网站下载、提取舆情信息,并以文本格式保存,作为待分类舆情信息文本,其个数为F;
(7)、采用汉字分词系统对每个待分类舆情信息文本进行分词,按步骤(2)得到G个特征词在每个待分类舆情信息文本中出现的词频,向量化每一个待分类舆情信息文本,得到F个G维的向量xi=(xi,1,xi,2,…,xi,G),1≤i≤F,构成待分类舆情信息文本的向量矩阵(T)F×G
将待分类舆情信息文本的向量矩阵(T)F×G乘以步骤(3)得到的主成分分析变换特征矩阵A的转置矩阵(AT)G×r,得到经主成分分析变换后的向量矩阵(T_PCA)F×r
将主成分分析变换后的向量矩阵(T_PCA)F×r中的F个r维向量作为步骤(4)获取BP神经网络模型的F个输入向量,计算出F个输入向量对应的F个M维的神经网络输出向量;
根据步骤(5)获得的熵值数组S对F个M维神经网络输出向量的每一维进行离散化;将离散化后的每一个M维神经网络输出向量与步骤(5)中得到的决策树规则集Rule中的决策树规则进行匹配,若有,则待分类舆情信息文本属于该规则所标记的舆情信息分类。
2、根据权利要求1所述的互联网舆情信息的分类处理方法,其特征在于,步骤(2)所述的从分出词语中选取名词和动词作为候选特征词进行筛选,提取代表该类舆情信息的g个特征词,从而得到所有训练文本的G个特征词,其步骤为:
对选取的候选特征词进行同义词合并,对选取的候选特征词中的低频词进行去除,计算候选特征词的卡方值,每类依据卡方值,选取大小靠前的候选特征词进行人工清理,清除各类别下不能代表该类互联网舆情信息的侯选特征词,从而提取出代表该类舆情信息的g个特征词,得到所有训练文本的G个特征词。
3、根据权利要求2所述的互联网舆情信息的分类处理方法,其特征在于,所述候选特征词的卡方值,依据如下公式计算:
χ 2 ( t , c ) = N × ( AD - CB ) 2 ( A + C ) × ( B + D ) × ( A + B ) × ( C + D )
其中,A代表候选特征词t在c类别文本中出现的次数,B代表候选特征词t在非c类别文本中出现的次数,C代表c类别文本中出现非候选特征词t的次数,D代表所有非c类文档中出现非候选特征词t的次数,N代表整个训练文本集含有文本的数目。
CN2008101477192A 2008-11-28 2008-11-28 一种互联网舆情信息的分类处理方法 Expired - Fee Related CN101414300B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101477192A CN101414300B (zh) 2008-11-28 2008-11-28 一种互联网舆情信息的分类处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101477192A CN101414300B (zh) 2008-11-28 2008-11-28 一种互联网舆情信息的分类处理方法

Publications (2)

Publication Number Publication Date
CN101414300A true CN101414300A (zh) 2009-04-22
CN101414300B CN101414300B (zh) 2010-06-16

Family

ID=40594837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101477192A Expired - Fee Related CN101414300B (zh) 2008-11-28 2008-11-28 一种互联网舆情信息的分类处理方法

Country Status (1)

Country Link
CN (1) CN101414300B (zh)

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101984431A (zh) * 2010-11-03 2011-03-09 中国科学院自动化研究所 网络新闻表情分布的自动预测方法
CN101706888B (zh) * 2009-04-30 2012-07-18 北京世纪高通科技有限公司 一种旅行时间预测的方法
CN102662952A (zh) * 2012-03-02 2012-09-12 成都康赛电子科大信息技术有限责任公司 一种基于层次的中文文本并行数据挖掘方法
CN103020038A (zh) * 2012-12-25 2013-04-03 人民搜索网络股份公司 一种网络舆情地域相关度的计算方法
CN103176983A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种基于互联网信息的事件预警方法
CN103176981A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种事件信息挖掘并预警的方法
CN103257957A (zh) * 2012-02-15 2013-08-21 深圳市腾讯计算机系统有限公司 一种基于中文分词的文本相似性识别方法及装置
CN103324758A (zh) * 2013-07-10 2013-09-25 苏州大学 一种新闻分类方法和系统
CN103336764A (zh) * 2013-06-18 2013-10-02 百度在线网络技术(北京)有限公司 基于倾向性分析的分类模型建立、内容识别方法及装置
CN103795710A (zh) * 2014-01-10 2014-05-14 河海大学 一种基于CloudStack云平台的入侵检测系统的构建方法
CN104123666A (zh) * 2014-07-14 2014-10-29 浪潮软件集团有限公司 互联网涉税数据分析的方法
CN104376397A (zh) * 2014-10-15 2015-02-25 中国农业银行股份有限公司 一种数据实时分析方法及装置
CN104899335A (zh) * 2015-06-25 2015-09-09 四川友联信息技术有限公司 一种对网络舆情信息进行情感分类的方法
CN105072173A (zh) * 2015-08-03 2015-11-18 谌志群 自动客服和人工客服自动切换的客服方法及系统
CN105159879A (zh) * 2015-08-26 2015-12-16 北京理工大学 一种网络个体或群体价值观自动判别方法
CN105335752A (zh) * 2015-09-18 2016-02-17 国网山东省电力公司菏泽供电公司 一种基于主成分分析多变量决策树的接线方式识别方法
CN106294736A (zh) * 2016-08-10 2017-01-04 成都轻车快马网络科技有限公司 基于关键词频率的文本特征提取方法
CN106326346A (zh) * 2016-08-06 2017-01-11 上海高欣计算机系统有限公司 文本分类方法及终端设备
CN106528768A (zh) * 2016-11-04 2017-03-22 北京中电普华信息技术有限公司 一种咨询热点分析方法及装置
CN106570170A (zh) * 2016-11-09 2017-04-19 武汉泰迪智慧科技有限公司 基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统
CN106975617A (zh) * 2017-04-12 2017-07-25 北京理工大学 一种基于色选机的物料分类方法
CN107066560A (zh) * 2017-03-30 2017-08-18 东软集团股份有限公司 文本分类的方法和装置
CN107392311A (zh) * 2016-05-17 2017-11-24 阿里巴巴集团控股有限公司 序列切分的方法和装置
CN107577794A (zh) * 2017-09-19 2018-01-12 北京神州泰岳软件股份有限公司 一种新闻分类方法及装置
CN107704621A (zh) * 2017-10-27 2018-02-16 西南财经大学 一种互联网舆情地图可视化展示方法
CN107742256A (zh) * 2017-09-18 2018-02-27 中国农业大学 一种基于组合优化决策树的网络伪舆情识别方法
CN107977670A (zh) * 2017-10-09 2018-05-01 中国电子科技集团公司第二十八研究所 决策树和贝叶斯算法的突发事件分类分级方法、装置及系统
CN109063744A (zh) * 2018-07-06 2018-12-21 龙马智芯(珠海横琴)科技有限公司 神经网络模型训练方法和商业文件相似度确定方法及系统
CN109074517A (zh) * 2016-03-18 2018-12-21 谷歌有限责任公司 全局归一化神经网络
CN109144999A (zh) * 2018-08-02 2019-01-04 东软集团股份有限公司 一种数据定位方法、装置及存储介质、程序产品
CN109213929A (zh) * 2018-07-26 2019-01-15 阿里巴巴集团控股有限公司 网络舆情信息处理方法、装置及服务器
CN109299374A (zh) * 2018-10-24 2019-02-01 重庆理工大学 基于人工神经网络的在线社交网络信息传播与舆情演化正向构建方法和系统
CN109376244A (zh) * 2018-10-25 2019-02-22 山东省通信管理局 一种基于特征分类的诈骗网站识别方法
WO2019205318A1 (zh) * 2018-04-25 2019-10-31 平安科技(深圳)有限公司 舆情信息分类方法、装置、计算机设备和存储介质
CN110535820A (zh) * 2019-04-18 2019-12-03 国家计算机网络与信息安全管理中心 针对恶意域名的分类方法、装置、电子设备及介质
CN110705276A (zh) * 2019-09-26 2020-01-17 中电万维信息技术有限责任公司 基于神经网络监控网络舆情的方法、装置及存储介质
WO2020063512A1 (zh) * 2018-09-30 2020-04-02 北京国双科技有限公司 相似文本确定方法、神经网络模型获得方法及相关装置
CN110955774A (zh) * 2019-11-08 2020-04-03 武汉光谷信息技术股份有限公司 基于词频分布的文字分类方法、装置、设备及介质
CN111161094A (zh) * 2019-12-12 2020-05-15 国网浙江省电力有限公司 一种基于深度学习的电力工单诉求点识别方法
WO2020140620A1 (zh) * 2019-01-04 2020-07-09 平安科技(深圳)有限公司 基于智能决策的文本分类方法、装置、服务器及存储介质
CN111488503A (zh) * 2019-01-29 2020-08-04 阿里巴巴集团控股有限公司 案件分类方法及装置
CN111581500A (zh) * 2020-04-24 2020-08-25 贵州力创科技发展有限公司 一种面向网络舆情的数据分布式定向存储方法和装置

Cited By (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101706888B (zh) * 2009-04-30 2012-07-18 北京世纪高通科技有限公司 一种旅行时间预测的方法
CN101984431A (zh) * 2010-11-03 2011-03-09 中国科学院自动化研究所 网络新闻表情分布的自动预测方法
CN103176981B (zh) * 2011-12-20 2016-04-27 中国科学院计算机网络信息中心 一种事件信息挖掘并预警的方法
CN103176983B (zh) * 2011-12-20 2016-04-27 中国科学院计算机网络信息中心 一种基于互联网信息的事件预警方法
CN103176983A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种基于互联网信息的事件预警方法
CN103176981A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种事件信息挖掘并预警的方法
CN103257957A (zh) * 2012-02-15 2013-08-21 深圳市腾讯计算机系统有限公司 一种基于中文分词的文本相似性识别方法及装置
CN103257957B (zh) * 2012-02-15 2017-09-08 深圳市腾讯计算机系统有限公司 一种基于中文分词的文本相似性识别方法及装置
CN102662952A (zh) * 2012-03-02 2012-09-12 成都康赛电子科大信息技术有限责任公司 一种基于层次的中文文本并行数据挖掘方法
CN102662952B (zh) * 2012-03-02 2015-04-15 成都康赛信息技术有限公司 一种基于层次的中文文本并行数据挖掘方法
CN103020038A (zh) * 2012-12-25 2013-04-03 人民搜索网络股份公司 一种网络舆情地域相关度的计算方法
CN103336764A (zh) * 2013-06-18 2013-10-02 百度在线网络技术(北京)有限公司 基于倾向性分析的分类模型建立、内容识别方法及装置
CN103324758A (zh) * 2013-07-10 2013-09-25 苏州大学 一种新闻分类方法和系统
CN103324758B (zh) * 2013-07-10 2017-07-14 苏州大学 一种新闻分类方法和系统
CN103795710A (zh) * 2014-01-10 2014-05-14 河海大学 一种基于CloudStack云平台的入侵检测系统的构建方法
CN104123666A (zh) * 2014-07-14 2014-10-29 浪潮软件集团有限公司 互联网涉税数据分析的方法
CN104376397A (zh) * 2014-10-15 2015-02-25 中国农业银行股份有限公司 一种数据实时分析方法及装置
CN104376397B (zh) * 2014-10-15 2018-07-06 中国农业银行股份有限公司 一种数据实时分析方法及装置
CN104899335A (zh) * 2015-06-25 2015-09-09 四川友联信息技术有限公司 一种对网络舆情信息进行情感分类的方法
CN105072173A (zh) * 2015-08-03 2015-11-18 谌志群 自动客服和人工客服自动切换的客服方法及系统
CN105159879A (zh) * 2015-08-26 2015-12-16 北京理工大学 一种网络个体或群体价值观自动判别方法
CN105335752A (zh) * 2015-09-18 2016-02-17 国网山东省电力公司菏泽供电公司 一种基于主成分分析多变量决策树的接线方式识别方法
CN109074517A (zh) * 2016-03-18 2018-12-21 谷歌有限责任公司 全局归一化神经网络
CN109074517B (zh) * 2016-03-18 2021-11-30 谷歌有限责任公司 全局归一化神经网络
CN107392311A (zh) * 2016-05-17 2017-11-24 阿里巴巴集团控股有限公司 序列切分的方法和装置
CN107392311B (zh) * 2016-05-17 2020-06-30 创新先进技术有限公司 序列切分的方法和装置
CN106326346A (zh) * 2016-08-06 2017-01-11 上海高欣计算机系统有限公司 文本分类方法及终端设备
CN106294736A (zh) * 2016-08-10 2017-01-04 成都轻车快马网络科技有限公司 基于关键词频率的文本特征提取方法
CN106528768A (zh) * 2016-11-04 2017-03-22 北京中电普华信息技术有限公司 一种咨询热点分析方法及装置
CN106570170A (zh) * 2016-11-09 2017-04-19 武汉泰迪智慧科技有限公司 基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统
CN107066560B (zh) * 2017-03-30 2019-12-06 东软集团股份有限公司 文本分类的方法和装置
CN107066560A (zh) * 2017-03-30 2017-08-18 东软集团股份有限公司 文本分类的方法和装置
CN106975617A (zh) * 2017-04-12 2017-07-25 北京理工大学 一种基于色选机的物料分类方法
CN106975617B (zh) * 2017-04-12 2018-10-23 北京理工大学 一种基于色选机的物料分类方法
CN107742256A (zh) * 2017-09-18 2018-02-27 中国农业大学 一种基于组合优化决策树的网络伪舆情识别方法
CN107577794A (zh) * 2017-09-19 2018-01-12 北京神州泰岳软件股份有限公司 一种新闻分类方法及装置
CN107977670A (zh) * 2017-10-09 2018-05-01 中国电子科技集团公司第二十八研究所 决策树和贝叶斯算法的突发事件分类分级方法、装置及系统
CN107704621A (zh) * 2017-10-27 2018-02-16 西南财经大学 一种互联网舆情地图可视化展示方法
WO2019205318A1 (zh) * 2018-04-25 2019-10-31 平安科技(深圳)有限公司 舆情信息分类方法、装置、计算机设备和存储介质
CN109063744A (zh) * 2018-07-06 2018-12-21 龙马智芯(珠海横琴)科技有限公司 神经网络模型训练方法和商业文件相似度确定方法及系统
CN109213929A (zh) * 2018-07-26 2019-01-15 阿里巴巴集团控股有限公司 网络舆情信息处理方法、装置及服务器
CN109144999A (zh) * 2018-08-02 2019-01-04 东软集团股份有限公司 一种数据定位方法、装置及存储介质、程序产品
CN109144999B (zh) * 2018-08-02 2021-06-08 东软集团股份有限公司 一种数据定位方法、装置及存储介质、程序产品
WO2020063512A1 (zh) * 2018-09-30 2020-04-02 北京国双科技有限公司 相似文本确定方法、神经网络模型获得方法及相关装置
CN109299374A (zh) * 2018-10-24 2019-02-01 重庆理工大学 基于人工神经网络的在线社交网络信息传播与舆情演化正向构建方法和系统
CN109299374B (zh) * 2018-10-24 2019-05-21 重庆理工大学 基于人工神经网络的在线社交网络信息传播与舆情演化正向构建方法和系统
CN109376244A (zh) * 2018-10-25 2019-02-22 山东省通信管理局 一种基于特征分类的诈骗网站识别方法
WO2020140620A1 (zh) * 2019-01-04 2020-07-09 平安科技(深圳)有限公司 基于智能决策的文本分类方法、装置、服务器及存储介质
CN111488503A (zh) * 2019-01-29 2020-08-04 阿里巴巴集团控股有限公司 案件分类方法及装置
CN110535820A (zh) * 2019-04-18 2019-12-03 国家计算机网络与信息安全管理中心 针对恶意域名的分类方法、装置、电子设备及介质
CN110705276A (zh) * 2019-09-26 2020-01-17 中电万维信息技术有限责任公司 基于神经网络监控网络舆情的方法、装置及存储介质
CN110955774A (zh) * 2019-11-08 2020-04-03 武汉光谷信息技术股份有限公司 基于词频分布的文字分类方法、装置、设备及介质
CN110955774B (zh) * 2019-11-08 2022-10-11 武汉光谷信息技术股份有限公司 基于词频分布的文字分类方法、装置、设备及介质
CN111161094A (zh) * 2019-12-12 2020-05-15 国网浙江省电力有限公司 一种基于深度学习的电力工单诉求点识别方法
CN111581500A (zh) * 2020-04-24 2020-08-25 贵州力创科技发展有限公司 一种面向网络舆情的数据分布式定向存储方法和装置

Also Published As

Publication number Publication date
CN101414300B (zh) 2010-06-16

Similar Documents

Publication Publication Date Title
CN101414300B (zh) 一种互联网舆情信息的分类处理方法
CN104820629B (zh) 一种智能的舆情突发事件应急处理系统及方法
CN110990564B (zh) 一种基于情感计算与多头注意力机制的负面新闻识别方法
CN109829166B (zh) 基于字符级卷积神经网络的民宿顾客意见挖掘方法
CN106598944A (zh) 一种民航安保舆情情感分析方法
CN105045857A (zh) 一种社交网络谣言识别方法及系统
CN104063399B (zh) 一种自动识别文本所承载的情感概率的方法及系统
CN104778209A (zh) 一种针对千万级规模新闻评论的观点挖掘方法
CN101782898A (zh) 一种情感词倾向性的分析方法
CN105912576A (zh) 情感分类方法及系统
CN105354305A (zh) 一种网络谣言的识别方法及装置
CN105912524B (zh) 基于低秩矩阵分解的文章话题关键词提取方法和装置
CN110457711B (zh) 一种基于主题词的社交媒体事件主题识别方法
CN107305545A (zh) 一种基于文本倾向性分析的网络意见领袖的识别方法
CN106446147A (zh) 一种基于结构化特征的情感分析方法
Ashcroft et al. A Step Towards Detecting Online Grooming--Identifying Adults Pretending to be Children
CN110415071A (zh) 一种基于观点挖掘分析的汽车竞品对比方法
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
Asimuzzaman et al. Sentiment analysis of bangla microblogs using adaptive neuro fuzzy system
Rajesh et al. Fraudulent news detection using machine learning approaches
CN113407842B (zh) 模型训练方法、主题推荐理由的获取方法及系统、电子设备
CN113220964B (zh) 一种基于网信领域短文本的观点挖掘方法
Eder et al. At the lower end of language—Exploring the vulgar and obscene side of German
Roy et al. Classification and summarization for informative tweets
Kunanets et al. The Model" Information Gatekeepers" for Sentiment Analysis of Text Data.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100616

Termination date: 20121128