CN102968410A - 一种基于rbf神经网络算法与语义特征选取的文本分类方法 - Google Patents

一种基于rbf神经网络算法与语义特征选取的文本分类方法 Download PDF

Info

Publication number
CN102968410A
CN102968410A CN 201210524507 CN201210524507A CN102968410A CN 102968410 A CN102968410 A CN 102968410A CN 201210524507 CN201210524507 CN 201210524507 CN 201210524507 A CN201210524507 A CN 201210524507A CN 102968410 A CN102968410 A CN 102968410A
Authority
CN
China
Prior art keywords
max
error
hidden
network
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201210524507
Other languages
English (en)
Inventor
梁久祯
何晓亮
宋威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN 201210524507 priority Critical patent/CN102968410A/zh
Publication of CN102968410A publication Critical patent/CN102968410A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明公开了一种基于RBF神经网络算法与语义特征选取的文本分类方法。其中,所述系统中包含了改进RBF神经网络算法和语义特征选取的文本降维处理。网络结构采用RBFLN(径向基链网络)模型,添加输入层对输出层的线性映射,在训练过程中基于最大误差学习样本对资源分配网络(RAN)新性条件进行改动,在不满足新性条件时,采用相似度参数对隐层中心和宽度进行调整;而满足新性条件时,对新增隐层节点也通过类均值的方法做出相应的改进。由于基于词向量空间的文本分类模型很难处理文本的高维特性和语义复杂性,为此本文通过语义特征选取方法对文本输入空间进行语义特征的抽取和降维。本发明的RBF分类系统具有学习速率高,网络结构紧凑,分类效果好的优点。

Description

一种基于RBF神经网络算法与语义特征选取的文本分类方法
技术领域
本发明属于信息检索及数据挖掘技术,尤其涉及一种文本分类挖掘系统及方法。 
背景技术
随着网络的使用在人们日常生活中越来越普及,人们也越来越开始习惯从网络中获取信息和知识,同时互联网中网站的数量和质量都在逐步的提高,网络中的信息量也在呈爆炸式的增长中,人们基本上可以从网络中获取各方各面的信息。2011年10月9日,互联网追踪机构Net craft的最新统计报告显示,全球网站在过去一个月内又增加了1800万个,幅度接近3.8%,目前总量为504082040个,首次突破5亿大关。当前互联网高速发展,使得海量的、内容丰富的文字信息以计算机可读的形式存在,并且其数量每天仍在急剧增加。为了有效的管理和利用这些分布的海量信息,基于内容的信息检索和文本挖掘已经成为备受关注的研究领域。 
从目前数字图书馆建设的实际需求来看,信息资源的建设也急需高效信息管理手段的支撑。国家科学数字图书馆项目的建设目标,是要通过项目建设切实有效地提高科研用户获取信息的能力,实现资源数字化、查询网络化、服务个性化、存储虚拟化、信息使用共享化、信息加工智能化、用户界面友善化。这其中,资源的采集和过滤、个性化服务、信息智能加工,归根究底,都需要在文本自动分类技术上有所突破。 
文本分类是文本挖掘的基础与核心,是近年来数据挖掘和网络挖掘的一个研究热点,是组织和管理海量信息的有效手段,是几乎所有基于内容的文本管理的研究基础,并被广泛应用于信息处理领域在传统的情报检索、网站索引体系结构的建立和web信息检索等方面占有重要地位。它是指在给定的分类体系下,根据文本内容自动确定文本所属类别。信息的获取与过滤、信息的智能化加工、提供个性化的信息服务,都需要我们在文本自动分类上有所突破。正因如此文本自动分类技术正逐渐成为众多科研领域的研究热点和难点。作为文献组织、文本过滤、智能搜索、邮件过滤等领域的技术基础,文本自动分类有着广泛的商业前景。 
发明内容
本发明的主要目的是提供一种基于RBF神经网络与语义特征选取方法的文本分类系统,以提高文本分类的查准率与查全率。 
为达到以上目的,本发明的技术具体方案实现如下: 
一种基于RBF神经网络与语义特征选取方法的文本分类系统,包括文本预处理,文本分类算法模块。其中,文本预处理模块,将待测文本进行分词,去除噪声词,保留文本重要的关键信息,然后将文本表示成词-文档形式,紧接着,对生成的词-文档矩阵进行语义特征选取处理,做到进一步降低文本维度以及提高文本间的语义特性。 
RBF分类算法模块是指将生成的词-文档矩阵用于训练RBF网络结构,以达到文本分类器产生的目的。具体过程包括了初始隐层单元的选取;隐层单元参数的调整;权值的调整这三部分。 
A、初始隐层单元的选取:假设学习样本的类别为k,初始隐层中心数目与训练样本的类别相同,则初始隐层中心cj以及中心宽度为σj j=1,2,...,k,可以通过如下两个公式: 
c j = 1 N j Σ x i ∈ A j x i
σj=κdj max
其中,Aj是训练样本的的归属集合。xi是各个样本集合中的样本,Nj是各类样本的数量;κ为常数,dj max是各类样本集中学习样本到中心的最远距离。 
B、隐层单元参数的调整:根据新颖性条件,隐层单元的调整包括两个部分:分配网络新的隐层节点和调整网络已经存在的网络参数。在训练过程中,应当选取当前产生最大的学习样本xmax error代替输入网络的顺序样本,则新颖性条件中的距离准则和误差准则分别为: 
rmax=|xmax error-cnearest|>δ 
emax=|ymax error-f(xmax error)|>emin
其中,xmax error是产生最大误差的学习样本,ymax error与f(xmax error)分别代表xmax error所对应的期望输出与实际输出,cnearest是距离xmax error最近的隐层中心,δ与emin是人为设定的一个阈值。 
将xmax error代入新颖性条件,如果满足,则根据下式进行隐层节点的添加: 
k=k+1,Nk=1,ck=cmax error σ k = γ p Σ j = 1 p | x max error - c j |
其中,γ为一常数,p为距离样本最近的中心数量。如果p=1,只选取到最近中心距离为新增隐层节点的宽度。如果不慢新颖性条件,则采用一种相似度参数对隐层单元的中心和宽度进行调整,如下式: 
Nj=Nj+1,cji=cji+Δcji,σj=σj+Δσj    1≤j≤k,1≤i≤n 
其中,cji是向量cj的第i个分量,且有 
Δc ji = 2 α j η x max error - c ji σ j 2 φ ( x max error ) · Σ s = 1 m w sj ( f ( x max error ) s - y max errors ) , 1 ≤ s ≤ m
Δσ ji = 2 α j η | x max error - c ji | 2 σ j 3 φ ( x max error ) · Σ s = 1 m w sj ( f ( x max error ) s - y max errors ) , 1 ≤ s ≤ m
其中,φ(·)为RBF网络第j个隐层节点的激活函数,为高斯函数,即: wsj为RBF网络第j个隐层节点与第s个隐层节点之间的连接权值,n、m、k为输入节点、输出节点、隐层节点个数,Nj为各样本个数,η是 
α j = | x max error - c j | - | x max error - c nearest | | x max error - c farthest | - | x max error - c nearest |
其中,cnearest是距离xmax error最近的中心,cfarthest是距离xmax error距离最远的中心。 
C、如权利要求2所述的权值的调整:权值的调整包括两个部分:隐层到输出层的权值w和输人层到输出层的权值v权值的调整,可以通过最小二乘法得到。设训练样本数为N,当前隐层中心数为k,则隐层的输出矩阵P由下式得到 
p=[p1 p2…pi…pk
其中, 
pi=[[p1(1) pi(2)…pi(3)…pi(N)
p i ( s ) = φ ( x s , c i ) = exp ( - | x s - c i | 2 σ i 2 )
i=1,2,...,k;s=1,2,...,N 
则隐层到输出层的权值w可由下式得到: 
w=(PT P)-1PT
其中,Y为网路的期望输出矩阵。那么隐层对网络输出的贡献可由f1(X)=PW得到。 
输入层到输出的权值v可由下式得到: 
X = x 1 x 2 . . . x i . . . x N x i = x i 1 x i 2 . . . x ij . . . x in T v = ( X T X ) - 1 X T ( Y - f 1 ( X ) ) i = 1,2 , . . . , N ; j = 1,2 , . . . , n
那么,输入层对网络输出的贡献为f2(X)=XV。 
因此RBFLN网络模型的实际输出为: 
f(X)=f1(X)+βf2(X)=PW+βXV 
其中,β为权值系数。 
附图说明
图1为本发明提供的分本分类中的语义特征选取方法示意图; 
图2为本发明提供的分本分类中的RBF神经网络的结构模型示意图; 
图3为本发明提供的分本分类中的运行过程示意图; 
具体实施方式
下面结合附图详细说明本发明,其作为本说明书的一部分,通过实施例来说明本发明的原理,本发明的其他方面,特征及其优点通过该详细说明将会变得一目了然。 
如图1所示,利用语义特征选取对向量空间模型产生的词-文档矩阵进行进一步降维以及语义特性加强处理,从而达到了降低文本分类系统的运行时间,并且提高了系统的分类准确性。 
如图2所示,本文本分类系统采用的是具有三层结构的RBF神经网络,RAN神经网络采用三层结构模型,设输入向量为n维,输出向量为m维,整个网络相当于一个由n维输入空间向m维输出空间的一个映射。在该网络中,输入层为X=(x1,x2,...,xn),隐含层为C=(c1,c2,...,ch),b=(b1,b2,....,bm)则为输出层偏置项,输出层为Y=(y1,y2,....,ym)。隐含层神经元采用的是高斯函数,输出层对隐层神经元的输出进行线形加权组合。网络确定好初始隐层节点后,然后对每一对训练数据都进行新颖性判定,若满足新颖性则增加隐含节点,否则对当前网络调整网络参数(包括隐含层神经元中心和网络权值)。 
如图3所示,整个系统的RBF分类算法的整个具体学习过程,通过新颖性准则的判定,不断进行迭代训练,直到达到文本分类的最佳结果。所述方法100的具体实现步骤如下: 
步骤102对待测文本进行第一步处理,也就是通过分词算法对待测文本进行分词。将文档拆分为词的形式; 
步骤104将步骤102处理的文档进行进一步处理,主要是对文档中关键信息进行更加准确的筛选,也就是利用基本的噪音词词典对文档进行去噪处理; 
步骤106将去噪后的文档集合,利用okapi公式进行特征词的权重计算,wij=tfij/(tfij+0.5+1.5·dl/avgdl)·idfj。其中idfj=log(N/n),N为测试集中的文档数量,n表示出现第i个特征词的所有文本总和,tfij表示第i个特征词在第j篇文档中出现的频率,dl表示文档j的长度,avgdl表示所有文档的平均长度。将原先的文档集初步表示层词-文档矩阵形式; 
步骤108由于步骤106生成的词-文档矩阵特征空间,文本特征向量维数还是过高,所以利用语义特征选取方法进行进一步降维和语义特征提取; 
步骤110对预处理结束的文档进行文本分类训练,利用已知的文档分类,进行初始隐层单元的选取; 
步骤112对建立的最初始的网络结构,通过输入待测文本,进行网络训练,对输入的训练文档求出网络隐层输出P; 
步骤114计算输入的训练文档进行网络权值w、v及网络的学习输出f(x); 
步骤116通过均方差误差,计算网络误差E,如果误差值E小于期望值或者达到学习步骤最大,则网络训练结束,跳转至步骤124;否则,跳转至步骤118; 
步骤118根据新颖性条件,判断是否满足添加隐层节点条件。如果满足,则跳转至步骤120;否则,转向步骤122; 
步骤120将该待测文本加入隐层节点中,跳转至步骤112; 
步骤122通过该待测文本进行隐层参数以及网络结构的调整,跳转至步骤112; 
步骤124网络训练结束。 
以上所揭露的仅为本发明的优选实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明申请专利范围所作的等同变化,仍属本发明所涵盖的范围。 

Claims (6)

1.一种基于基于RBF神经网络算法与语义特征选取的文本分类方法,该方法包括文档预处理模块和RBF分类算法模块,其中:
文本预处理模块,对待测文本进行分词,去除停用词,计算词频,利用向量空间算法,将文档集用文本特征矩阵表示。然后将空间向量算法表示的词-文档矩阵进一步利用语义特征方法进行处理,得到维度降低、语义相关性高的新的词-文档矩阵。
RBF分类算法模块,采用RBFLN结构,基于最大误差样本改进RAN学习算法。该算法是根据样本输入信息初始化后,在训练过程中选取产生最大误差的样本。满足新性条件时,分配新的隐层节点;在不满足时使用相似度参数对隐层中心和宽度进行调整。
2.如权利要求1所述的一种基于基于RBF神经网络算法与语义特征选取的文本分类系统,其特征在于,所采用的文本预处理是运用语义特征提取对向量空间算法产生的原始文档集A,可表示为A=m×n,其中m表示文档中的词的个数,n表示文档数目。奇异值分解常被用于提取对象之间的关联模式及所隐藏的对象间的结构关系的方法。文档矩阵A经奇异值分解,可表示成A=U×∑×V形式,其中,U和V分别是矩阵A的奇异值对应的左、右奇异向量矩阵,潜在语义索引是利用U和V中的前k(k<min(m,n))个列构建A的k-秩矩阵Ak,即:
Ak=Uk×∑k×Vk
而本系统采用的语义特征选取是利用A矩阵的转置矩阵D与Uk相乘,即:
C=D×Uk
3.如权利要求1所述的种基于基于RBF神经网络算法与语义特征选取的文本分类系统,其特征在于文本分类算法模块包括:初始隐层单元的选取;隐层单元参数的调整;权值的调整。
4.如权利要求2所述的初始隐层单元的选取,其特征在于,假设学习样本的类别为k,初始隐层中心数目与训练样本的类别相同,则初始隐层中心cj以及中心宽度为σj j=1,2,...,k,可以通过如下两个公式:
c j = 1 N j Σ x i ∈ A j x i
σj=κdj max
其中,Aj是训练样本的的归属集合。xi是各个样本集合中的样本,Nj是各类样本的数量;
Figure FSA00000819597900012
为常数,dj max是各类样本集中学习样本到中心的最远距离。
5.如权利要求2所述的隐层单元参数的调整,其特征在于,根据新颖性条件,隐层单元的调整包括两个部分:分配网络新的隐层节点和调整网络已经存在的网络参数。在训练过程中,应当选取当前产生最大的学习样本xmax error代替输入网络的顺序样本,则新颖性条件中的距离准则和误差准则分别为:
rmax=|xmax error-cnearest|>δ
emax=|ymax error-f(xmax error)|>emin
其中,xmax error是产生最大误差的学习样本,ymax error与f(xmax error)分别代表xmax error所对应的期望输出与实际输出,cnearest是距离xmax error最近的隐层中心,δ与emin是人为设定的一个阈值。
将xmax error代入新颖性条件,如果满足,则根据下式进行隐层节点的添加:
k=k+1,Nk=1,ck=cmax error σ k = γ p Σ j = 1 p | x max error - c j |
其中,γ为一常数,p为距离样本最近的中心数量。如果p=1,只选取到最近中心距离为新增隐层节点的宽度。如果不满足新颖性条件,则采用一种相似度参数对隐层单元的中心和宽度进行调整,如下式:
Nj=Nj+1,cji=cji+Δcji,σj=σj+Δσj    1≤j≤k,1≤i≤n
其中,cji是向量cj的第i个分量,且有
Δc ji = 2 α j η x max error - c ji σ j 2 φ ( x max error ) · Σ s = 1 m w sj ( f ( x max error ) s - y max errors ) , 1 ≤ s ≤ m
Δσ ji = 2 α j η | x max error - c ji | 2 σ j 3 φ ( x max error ) · Σ s = 1 m w sj ( f ( x max error ) s - y max errors ) , 1 ≤ s ≤ m
其中,φ(·)为RBF网络第j个隐层节点的激活函数,为高斯函数,即:
Figure FSA00000819597900024
wsj为RBF网络第j个隐层节点与第s个隐层节点之间的连接权值,n、m、k为输入节点、输出节点、隐层节点个数,Nj为各样本个数,η是
α j = | x max error - c j | - | x max error - c nearest | | x max error - c farthest | - | x max error - c nearest |
其中,cnearest是距离xmax error最近的中心,cfarthest是距离xmax error距离最远的中心。
6.如权利要求2所述的权值的调整,其特征在于,权值的调整包括两个部分:隐层到输出层的权值w和输人层到输出层的权值v权值的调整,可以通过最小二乘法得到。设训练样本数为N,当前隐层中心数为k,则隐层的输出矩阵P由下式得到
p=[p1 p2…pi…pk]
其中,
pi=[[p1(1) pi(2)…pi(3)…pi(N)]
p i ( s ) = φ ( x s , c i ) = exp ( - | x s - c i | 2 σ i 2 )
i=1,2,...,k;s=1,2,...,N
则隐层到输出层的权值w可由下式得到:
w=(PT P)-1PTY
其中,Y为网路的期望输出矩阵。那么隐层对网络输出的贡献可由f1(X)=PW得到。
输入层到输出的权值v可由下式得到:
X = x 1 x 2 . . . x i . . . x N x i = x i 1 x i 2 . . . x ij . . . x in T v = ( X T X ) - 1 X T ( Y - f 1 ( X ) ) i = 1,2 , . . . , N ; j = 1,2 , . . . , n
那么,输入层对网络输出的贡献为f2(X)=XV。
因此RBFLN网络模型的实际输出为:
f(X)=f1(X)+βf2(X)=PW+βXV
其中,β为权值系数。
CN 201210524507 2012-12-04 2012-12-04 一种基于rbf神经网络算法与语义特征选取的文本分类方法 Pending CN102968410A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201210524507 CN102968410A (zh) 2012-12-04 2012-12-04 一种基于rbf神经网络算法与语义特征选取的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201210524507 CN102968410A (zh) 2012-12-04 2012-12-04 一种基于rbf神经网络算法与语义特征选取的文本分类方法

Publications (1)

Publication Number Publication Date
CN102968410A true CN102968410A (zh) 2013-03-13

Family

ID=47798558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201210524507 Pending CN102968410A (zh) 2012-12-04 2012-12-04 一种基于rbf神经网络算法与语义特征选取的文本分类方法

Country Status (1)

Country Link
CN (1) CN102968410A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324707A (zh) * 2013-06-18 2013-09-25 哈尔滨工程大学 一种基于半监督聚类的查询扩展方法
CN104035992A (zh) * 2014-06-10 2014-09-10 复旦大学 利用图像处理技术及语义向量空间的文本语义处理方法和系统
CN104049755A (zh) * 2014-06-18 2014-09-17 中国科学院自动化研究所 信息处理方法及装置
CN104142960A (zh) * 2013-05-10 2014-11-12 上海普华诚信信息技术有限公司 互联网数据分析系统
CN104538036A (zh) * 2015-01-20 2015-04-22 浙江大学 一种基于语义细胞混合模型的说话人识别方法
CN105045779A (zh) * 2015-07-13 2015-11-11 北京大学 一种基于深度神经网络与多标记分类的病句检测方法
CN105940395A (zh) * 2014-01-31 2016-09-14 谷歌公司 生成文档的矢量表示
CN107451596A (zh) * 2016-05-30 2017-12-08 清华大学 一种网络节点分类方法及装置
CN107729509A (zh) * 2017-10-23 2018-02-23 中国电子科技集团公司第二十八研究所 基于隐性高维分布式特征表示的篇章相似度判定方法
CN108647785A (zh) * 2018-05-17 2018-10-12 普强信息技术(北京)有限公司 一种神经网络自动建模方法、装置及存储介质
CN109802634A (zh) * 2019-01-16 2019-05-24 湖南兴业绿色电力科技有限公司 一种基于大数据的光伏电站的智能运维方法及运维系统
CN105824797B (zh) * 2015-01-04 2019-11-12 华为技术有限公司 一种评价语义相似度的方法、装置和系统
CN111027994A (zh) * 2018-10-09 2020-04-17 百度在线网络技术(北京)有限公司 相似对象确定方法、装置、设备和介质
CN112308225A (zh) * 2019-11-18 2021-02-02 北京沃东天骏信息技术有限公司 训练神经网络的方法、装置及计算机可读存储介质

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104142960A (zh) * 2013-05-10 2014-11-12 上海普华诚信信息技术有限公司 互联网数据分析系统
CN103324707A (zh) * 2013-06-18 2013-09-25 哈尔滨工程大学 一种基于半监督聚类的查询扩展方法
US11853879B2 (en) 2014-01-31 2023-12-26 Google Llc Generating vector representations of documents
CN105940395B (zh) * 2014-01-31 2019-07-16 谷歌有限责任公司 生成文档的矢量表示
KR102363369B1 (ko) 2014-01-31 2022-02-15 구글 엘엘씨 문서들의 벡터 표현들 생성하기
CN105940395A (zh) * 2014-01-31 2016-09-14 谷歌公司 生成文档的矢量表示
KR20160117516A (ko) * 2014-01-31 2016-10-10 구글 인코포레이티드 문서들의 벡터 표현들 생성하기
US10366327B2 (en) 2014-01-31 2019-07-30 Google Llc Generating vector representations of documents
CN104035992A (zh) * 2014-06-10 2014-09-10 复旦大学 利用图像处理技术及语义向量空间的文本语义处理方法和系统
CN104035992B (zh) * 2014-06-10 2017-05-10 复旦大学 利用图像处理技术及语义向量空间的文本语义处理方法和系统
CN104049755B (zh) * 2014-06-18 2017-01-18 中国科学院自动化研究所 信息处理方法及装置
US10235624B2 (en) 2014-06-18 2019-03-19 Tencent Technology (Shenzhen) Company Limited Information processing method and apparatus
CN104049755A (zh) * 2014-06-18 2014-09-17 中国科学院自动化研究所 信息处理方法及装置
CN105824797B (zh) * 2015-01-04 2019-11-12 华为技术有限公司 一种评价语义相似度的方法、装置和系统
CN104538036A (zh) * 2015-01-20 2015-04-22 浙江大学 一种基于语义细胞混合模型的说话人识别方法
CN105045779A (zh) * 2015-07-13 2015-11-11 北京大学 一种基于深度神经网络与多标记分类的病句检测方法
CN107451596B (zh) * 2016-05-30 2020-04-14 清华大学 一种网络节点分类方法及装置
CN107451596A (zh) * 2016-05-30 2017-12-08 清华大学 一种网络节点分类方法及装置
CN107729509B (zh) * 2017-10-23 2020-07-07 中国电子科技集团公司第二十八研究所 基于隐性高维分布式特征表示的篇章相似度判定方法
CN107729509A (zh) * 2017-10-23 2018-02-23 中国电子科技集团公司第二十八研究所 基于隐性高维分布式特征表示的篇章相似度判定方法
CN108647785A (zh) * 2018-05-17 2018-10-12 普强信息技术(北京)有限公司 一种神经网络自动建模方法、装置及存储介质
CN111027994A (zh) * 2018-10-09 2020-04-17 百度在线网络技术(北京)有限公司 相似对象确定方法、装置、设备和介质
CN109802634A (zh) * 2019-01-16 2019-05-24 湖南兴业绿色电力科技有限公司 一种基于大数据的光伏电站的智能运维方法及运维系统
CN112308225A (zh) * 2019-11-18 2021-02-02 北京沃东天骏信息技术有限公司 训练神经网络的方法、装置及计算机可读存储介质
CN112308225B (zh) * 2019-11-18 2024-04-09 北京沃东天骏信息技术有限公司 训练神经网络的方法、装置及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN102968410A (zh) 一种基于rbf神经网络算法与语义特征选取的文本分类方法
CN103324628B (zh) 一种针对发布文本的行业分类方法和系统
CN104951548B (zh) 一种负面舆情指数的计算方法及系统
CN108052593A (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN105224695A (zh) 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置
CN106844632B (zh) 基于改进支持向量机的产品评论情感分类方法及装置
CN109086375B (zh) 一种基于词向量增强的短文本主题抽取方法
CN105512311A (zh) 一种基于卡方统计的自适应特征选择方法
CN101488150A (zh) 一种实时多角度网络热点事件分析装置及分析方法
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN101814086A (zh) 一种基于模糊遗传算法的中文web信息过滤方法
CN101763431A (zh) 基于海量网络舆情信息的pl聚类处理方法
WO2022156328A1 (zh) 一种融合服务协作关系的Restful类型Web服务聚类方法
CN103886108A (zh) 一种不均衡文本集的特征选择和权重计算方法
CN104965823A (zh) 一种基于大数据的观点抽取方法
Fitriyani et al. The K-means with mini batch algorithm for topics detection on online news
Yanmei et al. Research on Chinese micro-blog sentiment analysis based on deep learning
Kaur et al. News classification and its techniques: a review
Alhumoud et al. Hybrid sentiment analyser for Arabic tweets using R
CN108090178A (zh) 一种文本数据分析方法、装置、服务器和存储介质
CN105183765A (zh) 一种基于大数据的话题抽取方法
CN102521402A (zh) 文本过滤系统及方法
CN106294295B (zh) 基于词频的文章相似度识别方法
Alsammak et al. An enhanced performance of K-nearest neighbor (K-NN) classifier to meet new big data necessities
CN110457685A (zh) 一种基于机器学习的中文商业文本预处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130313