CN102426585A - 一种基于贝叶斯网络的网页自动分类方法 - Google Patents

一种基于贝叶斯网络的网页自动分类方法 Download PDF

Info

Publication number
CN102426585A
CN102426585A CN2011103252778A CN201110325277A CN102426585A CN 102426585 A CN102426585 A CN 102426585A CN 2011103252778 A CN2011103252778 A CN 2011103252778A CN 201110325277 A CN201110325277 A CN 201110325277A CN 102426585 A CN102426585 A CN 102426585A
Authority
CN
China
Prior art keywords
node
classification
bayesian network
information
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011103252778A
Other languages
English (en)
Inventor
张晓丹
乔晓东
朱礼军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Original Assignee
INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA filed Critical INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Priority to CN2011103252778A priority Critical patent/CN102426585A/zh
Publication of CN102426585A publication Critical patent/CN102426585A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于贝叶斯网络的网页自动分类方法,属于数据挖掘领域,包括下列步骤:网页信息抽取,抽取网页上的有价值的信息;信息预处理,根据不同的信息采取不同的信息预处理方式,获得融合模型可以处理的信息格式;信息的初分类,将预处理后的信息采用不同的分类算法进行初分类;最终的分类:初分类结果输入到融合模型的融合中心,进行最终的融合分类。对比已有技术,本发明方法的有益效果在于,能够解决网页自动分类过程中的不确定性问题,提高网页自动分类准确率,具有较好的分类效果。

Description

一种基于贝叶斯网络的网页自动分类方法
技术领域
本发明属于数据挖掘技术领域,涉及一种网页自动分类的方法。
背景技术
网页自动分类过程中的不确定性表现在很多方面:训练样本的不确定性、网页信息的不确定性、类边界的模糊性等。传统的网页自动分类方法如KNN、SVM等只是针对网页上的文本信息进行确定性的分类,没有考虑到网页自动分类过程中存在的诸多不确定性因素。同时,网页上具有可能分类信息的多种信息包括多种媒体信息越来越多[见Elisabetta Fersini,Enza Messina and FrancescoArchetti,Web Page Classification:A Probabilistic Model with RelationalUncertainty。Computer Science,2010,Volume 6178/2010,109-118,DOI:10.1007/978-3-642-14049-5_12],如何充分利用网页上有价值的多种信息(包括网页标签、媒体关键字、多媒体信息等),以解决网页分类过程中的不确定性问题,是本发明要解决的问题。
发明内容
本发明是为了克服已有技术的缺陷,解决网页自动分类中的不确定性问题,提出一种网页自动分类融合的方法。
本发明方法是通过下述技术方案实现的:
一种基于贝叶斯网络的网页自动分类的方法,其基本实施过程如下:
网页信息抽取,抽取网页上的有价值的信息;信息预处理,根据不同的信息采取不同的信息预处理方式,获得融合模型可以处理的信息格式;信息的初分类,将预处理后的信息采用不同的分类算法进行初分类;最终的分类:初分类结果输入到融合模型的融合中心,进行最终的融合分类。
对比已有技术,本发明方法的有益效果在于,能够解决网页自动分类过程中的不确定性问题,提高网页自动分类准确率,具有较好的分类效果。
附图说明
图1为本发明实施方式的解决不确定性问题的网页自动分类模型图;
图2为本发明所述基于贝叶斯网络的网页自动分类方法示意图;
图3为初始化隶属度函数示意图。
具体实施方式
下面结合附图对本发明进行详细的描述。
一种基于贝叶斯网络的不确定性问题的网页自动分类方法,见附图1,其具体步骤包括:
步骤一、信息抽取。
将网页中的广告等无用信息过滤,并抽取出网页上可能携带分类特征的信息,包括标签信息、多媒体信息、关键字信息。
步骤二、数据预处理。
对经步骤一抽取到的不同信息以相应的预处理方式进行预处理,对多媒体信息进行的预处理包括除噪、降维、特征提取;对标签信息进行的预处理包括除噪、特征提取;对关键字信息的预处理包括除噪、特征提取;得到预处理后的数据,即最终通过特征提取获得特征向量,特征向量的元素包括逻辑变量、多分类变量和实数量;
具体来说,对标签信息的预处理见文献[范春晓,基于标签的信息抽取预处理算法[J],数字技术与应用,2009],对多媒体信息的预处理包括特征提取、权重向量等见文献[鹿文鹏,面向WEB的多媒体语义信息提取方法研究与实现[J],山东师范大学,2005],对关键字信息的预处理见文献[吐尔地·托合提,基于Web的民文信息检索中维、哈、柯文关键词的预处理[C],中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集,2007年]。
步骤三、参数的离散化。
由于不同种类的信息经过步骤二处理后获得的数据形式不同,而贝叶斯网络方法的表示要求是离散化后的数据。所以要对步骤二所获得的数据进行离散化处理。并且要对步骤二获得的不同类型的数据采用不同的离散化取值方式,通常分为如下三种情况来确定:
对逻辑变量:“是”取1,“否”取0;
对多分类变量:取值为0和1组合,只用在参数取值多于两个的情况;(比如四类用00,01,10,11来表示)
对实数量:当预处理后的特征元素为实数时,且当实数量为连续的情况下,要对其进行离散化处理。本发明采用的方法为对连续函数进行模糊化,把连续的实数值信息转化为分区间的区域信息:很低、低、中、高、很高。采用的隶属函数为可能性估计(见文献邢清华,直觉模糊集隶属度与非隶属度函数的确定方法,《控制与决策》,2009年024卷003期,393-397)。这样就可以按照多分类变量的取值方式直接映射即可。这种方式的优势在于量纲的统一,信息可以直观有序,便于识别,并减少了贝叶斯网络处理的信息量。
模糊化之后,进行如下步骤完成离散化:
a.归一化处理,相应的公式如下所示:
x’=(x-a)/σ
其中a为所有实数量的均值,σ为所有实数量的标准差(现有公式);归一化处理后的数据,均值为0,标准差为1,可以避免度量单位等的影响;
b.参照图3,查出连续变量离散化对应的值。(如果有重复的以大的值为准)
图3中,U(x)代表离散化后的数值,x代表被离散化的数据。
当实数量为非连续的情况下,采用分段表示,具体方法如下:在每个区间段采用上述a,b所属步骤进行离散化,再通过映射得到离散化的值;
步骤四、用于解决网页自动分类中的不确定性问题的贝叶斯网络的表示。在网页自动分类的贝叶斯网络表示中,网络的节点代表网页上的多种信息及分类过程的状态,边表示了各个节点之间的因果关系。在网页自动分类的贝叶斯网络设计实现中,主要是确定网络节点和有向边的含义。
对于网络节点,可以代表两种情况:所述状态包括系统输入状态、中间状态及输出状态。
如附图2中,S11、S12、S13分别代表标签参数、多媒体参数和关键字参数,S2、S3,Si表示中间状态其余表示输出状态,也就是类别;
对于网络中的有向边,则根据所连接节点的不同分为以下四种关系:
参数-参数,表示了前后两个参数值之间的影响,如图2中的S11、S12、S13之间的关系;
参数-状态,表示参数值对系统状态的影响。如图2中S11、S12、S13与S2、S3、S4的关系;状态-参数,表示当前状态决定了参数取值,如图2中S2、S3、S4。。。和S11、S12、S13的关系;
状态-状态,表示了状态之间的转换关系,如图2中S2、S3、S4、Si的关系。
如图2所示,该图是用于解决网页自动分类中不确定性问题的贝叶斯网络,可以将网页分类过程看作是一个贝叶斯网络的概率推理过程,因而可以用贝叶斯网络作为网页分类中不确定问题的表示和求解方法。
在网页分类的贝叶斯网络表示方法中,网络的节点变量可以分为输入节点、中间状态节点及类别节点。其中输入节点表示贝叶斯网络的输入,代表标签信息、多媒体信息及关键字信息等,是获得贝叶斯网络信息的主要渠道。边表示节点之间的相互关联,如参数引起状态的改变,状态对参数的影响等。条件概率(CPT)则是表示相连节点之间的关联强度。
当网页分类的贝叶斯网络结构及各节点的条件概率确定了以后,就可以根据贝叶斯网络进行相应的分类推理,得出网页的类别节点。
其中,S11,是贝叶斯网络的输入节点,是由步骤2种获得的数据。S2,…,Si是中间状态节点,是由S1推理得出的贝叶斯网络的中间状态值
步骤五、在步骤四的基础上,采用模拟退火算法进行贝叶斯网络结构学习,建立贝叶斯网络结构;
步骤六、在步骤五的基础上,采用最大似然估计算法进行贝叶斯网络的参数学习,获得贝叶斯网络各个节点的参数信息,从而得到用于分类的贝叶斯网络;
步骤七、在步骤五和步骤六的基础上,将步骤三获得的离散化数据输入步骤六所获得的贝叶斯网络,采用如下贝叶斯网络推理算法进行贝叶斯网络推理,从而获得分类结果。具体方法如下:
本发明所述的基于网页自动分类的贝叶斯网络推理算法是在利用网页上的多种信息数据的基础上,首先估计步骤二抽取到的当前多个信息的每个特征向量的条件概率密度p(x1,x2,…,xk|wi),根据步骤一抽取到的当前多信息的特征矢量值向量(x1,x2,…,xk),以公式(1)所示的贝叶斯网络路径分类方法逐步地对当前态势路径进行分类判断。考虑当目标判定节点ST由n个可能的判定目标组成时,即目标判定节点集表示为ST={ST1,ST2,…,STn}的情况,在各特征属性即分类的原则相互独立的情况下,构造路径分类的节点深度值Lij(X)如1式所示。
L ij ( X ) = p ( x 1 , x 2 , · · · , x k | S Ti ) p ( x 1 , x 2 , · · · , x k | S Tj ) = Π i = 1 k p ( x i | S Ti ) Π i = 1 l p ( x i | S Tj ) - - - ( 1 )
设网络分类的初始节点为S0,预先设定的搜索阈值为N,系统的类别状态节点集也就是目标判定节点集记为ST,预先设定的贝叶斯网络分类器的取样容量数k,l为特征向量的元素个数。算法中设定已判定节点集为D1,待判定节点集为D2。具体的网页自动分类推理算法的步骤如下:
步骤1将初始节点S0放入已判定节点表D1(算法实现时,D1以堆栈来实现)中,若S0属于目标类别状态节点集ST,则分类结果为S0状态,完成分类,结束所有操作;
步骤2如果已判定节点表D1为空,分类完成,结束所有操作。否则继续进行步骤3;
步骤3在D1表中选中堆栈中最靠外的一节点Si并弹出,作为当前分类节点,将其移至待判定节点表D2中;
步骤4在步骤3的基础上,如果Si属于目标类别状态节点集ST,则认为推理成功,其分类结果为Si,转至步骤6,否则进行步骤5;
步骤5如果Si不属于目标类别节点集ST,且Si的当前节点深度大于预先设定的搜索阈值N,则转步骤2;
步骤6在步骤4的基础上,根据所述贝叶斯网络结构得到的下一个节点Sj,生成Si的所有子节点;若Si无子节点,则置Si于D2中,转步骤2;删去与D1表中已完成判定的节点相同的节点,并将其依次放入D2中;
步骤7在步骤6的基础上,对当前路径进行特征抽取和分类判断。若当前特征向量元素的数目l小于贝叶斯网络分类器的取样容量数k,则转步骤2;否则,调用贝叶斯判决公式(1)来判定特征向量(x1,x2,…,xk)是否属于类别目标节点集ST,若判决结果表明该特征向量属于目标类别状态节点集ST,则完成分类,结束所有操作,否则再次执行步骤1至步骤7。若再次执行后得到分类结果则输出分类结果成功返回,则转步骤4;否则将当前节点Si置于待判定表D2中,转步骤2。
步骤七得到了网页自动分类的分类结果,也就是通过贝叶斯网络推理得到了类别的概率数。自此,就通过贝叶斯网络解决了网页自动分类中的不确定性问题,完成了分类。
下面结合实施例说明本技术方案,本实例采用了JAVA语言、MYSQL数据库对中信所网上科技资源进行了实现,以下为网页自动分类贝叶斯网络融合模型及算法实现的具体步骤。执行的是对NSTL网上资源的进行分类。其功能主要包括热点科技信息发现、科技发展趋势分析及展示等。主要实现气候变换和能源方向的分类。分类体系包括政策、工业、新能源、低碳经济、气候变换及污染。
数据集:共17910个文件平均每个文件占1~10KB,共约2500万字[],可以说是十分翔实丰富的,基本代表了一个完整覆盖面广的语料环境。为了实验方便,选择政策、工业、新能源、低碳经济、气候变换及污染五大类为预定义类别,共8900个文件作为语料,其中,训练和测试语料的比例为2∶1。在选择的这些类别中,政策、工业、新能源等具有类边界模糊的现象,因此适合于对本融合模型的验证。
在设计中首先构建信息提取、预处理等融合模型的基本要素,然后是构建贝叶斯网络,以贝叶斯网络推理算法实现对待分网页类别的评估。
步骤一信息抽取
将网页中的广告等无用信息过滤,并抽取出有价值的多种信息(包括标签信息、多媒体信息、关键字等),该部分以软件形式实现。
步骤二数据的预处理
对抽取到的多种信息以不同的处理和预处理方式进行处理,便于输入到贝叶斯网络中。以软件的形式完成此功能。
步骤三参数的离散化
由于不同种类的信息的数据不同,而贝叶斯网络方法的表示要求是离散化后的数据。所以在数据输入系统之前要对其进行离散化处理。要对不同类型的参数采用不同的取值方式。
多分类变量:同逻辑变量类似,只是在参数取值多于两个的情况。
实数量:当实数量为连续的情况下,要对其进行离散化处理。本文采用的方法为对连续函数进行模糊化,把连续的实数值信息转化为分区间的区域信息。采用的隶属函数为可能性估计。这样就可以按照多分类变量的取值方式直接映射即可。这种方式的优势在于量纲的统一,信息可以直观有序,便于识别,并减少了系统处理的信息量。
实数的离散化步骤为:
a.归一化处理。相应的公式如下所示:
b.参照图3,查出连续变量离散化对应的值。
步骤四-步骤七贝叶斯网络的实现
在网页自动分类的贝叶斯网络表示中,网络的节点代表网页上的多种信息及分类过程的状态,边表示了各个节点之间的因果关系。在网页自动分类的贝叶斯网络设计实现中,主要是确定网络节点和有向边的含义。
对于网络节点,可以分为两种情况:系统中的各种媒体信息参数和系统所处的状态。对于网络中的有向边,则根据所连接节点的不同分为以下四种关系:
参数-参数,表示了前后两个参数值之间的影响;
参数-状态,表示参数值对系统状态的影响;
状态-参数,表示当前状态决定了参数取值;
状态-状态,表示了状态之间的转换关系。
网页自动分类的贝叶斯网络结构学习和参数学习分别采用模拟退火算法和最大似然估计算法来实现,推理算法采用上文提到的改进的贝叶斯网络推理算法来实现。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (2)

1.一种基于贝叶斯网络的网页自动分类方法,其特征在于,包括下列步骤:
步骤一、信息抽取
将网页中的广告等无用信息过滤,并抽取出网页上可能携带分类特征的信息,包括标签信息、多媒体信息、关键字信息;
步骤二、数据预处理
对经步骤一抽取到的不同信息以相应的预处理方式进行预处理,对多媒体信息进行的预处理包括除噪、降维、特征提取;对标签信息进行的预处理包括除噪、特征提取;对关键字信息的预处理包括除噪、特征提取;得到预处理后的数据,即最终通过特征提取获得特征向量,特征向量的元素包括逻辑变量、多分类变量和实数量;
步骤三、参数的离散化
由于不同种类的信息经过步骤二处理后获得的数据形式不同,而贝叶斯网络方法的表示要求是离散化后的数据。所以要对步骤二所获得的数据进行离散化处理;
模糊化之后,进行如下步骤完成离散化:
a.归一化处理,相应的公式如下所示:
x’=(x-a)/σ
其中a为所有实数量的均值,σ为所有实数量的标准差;
b.查出连续变量离散化对应的值,如果有重复的以大的值为准;
当实数量为非连续的情况下,采用分段表示,具体方法如下:在每个区间段采用上述a,b所属步骤进行离散化,再通过映射得到离散化的值;
步骤四、贝叶斯网络表示
对于网络节点,可以代表两种情况:所述状态包括系统输入状态、中间状态及输出状态;
对于网络中的有向边,则根据所连接节点的不同分为以下四种关系:
参数-参数,表示了前后两个参数值之间的影响;
参数-状态,表示参数值对系统状态的影响;
状态-参数,表示当前状态决定了参数取值;
状态-状态,表示了状态之间的转换关系;
步骤五、在步骤四的基础上,采用模拟退火算法进行贝叶斯网络结构学习,建立贝叶斯网络结构;
步骤六、在步骤五的基础上,采用最大似然估计算法进行贝叶斯网络的参数学习,获得贝叶斯网络各个节点的参数信息,从而得到用于分类的贝叶斯网络;
步骤七、在步骤五和步骤六的基础上,将步骤三获得的离散化数据输入步骤六所获得的贝叶斯网络,采用如下贝叶斯网络推理算法进行贝叶斯网络推理,从而获得分类结果;具体方法如下:
首先估计步骤二抽取到的当前多个信息的每个特征向量的条件概率密度p(x1,x2,…,xk|wi),根据步骤一抽取到的当前多信息的特征矢量值向量(x1,x2,…,xk),以公式(1)所示的贝叶斯网络路径分类方法逐步地对当前态势路径进行分类判断;考虑当目标判定节点ST由n个可能的判定目标组成时,即目标判定节点集表示为ST={ST1,ST2,…,STn}的情况,在各特征属性即分类的原则相互独立的情况下,构造路径分类的节点深度值Lij(X)如1式所示。
L ij ( X ) = p ( x 1 , x 2 , · · · , x k | S Ti ) p ( x 1 , x 2 , · · · , x k | S Tj ) = Π i = 1 k p ( x i | S Ti ) Π i = 1 l p ( x i | S Tj ) - - - ( 1 )
设网络分类的初始节点为S0,预先设定的搜索阈值为N,系统的类别状态节点集也就是目标判定节点集记为ST,预先设定的贝叶斯网络分类器的取样容量数k,l为特征向量的元素个数;算法中设定已判定节点集为D1,待判定节点集为D2;具体的网页自动分类推理算法的步骤如下:
步骤1将初始节点S0放入已判定节点表D1中;算法实现时,D1以堆栈来实现;若S0属于目标类别状态节点集ST,则分类结果为S0状态,完成分类,结束所有操作;
步骤2如果已判定节点表D1为空,分类完成,结束所有操作;否则继续进行步骤3;
步骤3在D1表中选中堆栈中最靠外的一节点Si并弹出,作为当前分类节点,将其移至待判定节点表D2中;
步骤4在步骤3的基础上,如果Si属于目标类别状态节点集ST,则认为推理成功,其分类结果为Si,转至步骤6,否则进行步骤5;
步骤5如果Si不属于目标类别节点集ST,且Si的当前节点深度大于预先设定的搜索阈值N,则转步骤2;
步骤6在步骤4的基础上,根据所述贝叶斯网络结构得到的下一个节点Si,生成Si的所有子节点;若Si无子节点,则置Si于D2中,转步骤2;删去与D1表中已完成判定的节点相同的节点,并将其依次放入D2中;
步骤7在步骤6的基础上,对当前路径进行特征抽取和分类判断。若当前特征向量元素的数目l小于贝叶斯网络分类器的取样容量数k,则转步骤2;否则,调用贝叶斯判决公式(1)来判定特征向量(x1,x2,…,xk)是否属于类别目标节点集ST,若判决结果表明该特征向量属于目标类别状态节点集ST,则完成分类,结束所有操作,否则再次执行步骤1至步骤7。若再次执行后得到分类结果则输出分类结果成功返回,则转步骤4;否则将当前节点Si置于待判定表D2中,转步骤2。
2.根据权利要求1所述的基于贝叶斯网络的网页自动分类方法,其特征在于,步骤三中,对步骤二获得的不同类型的数据采用不同的离散化取值方式,通常分为如下三种情况来确定:
对逻辑变量:“是”取1,“否”取0;
对多分类变量:取值为0和1组合,只用在参数取值多于两个的情况;
对实数量:当预处理后的特征元素为实数时,且当实数量为连续的情况下,采用的方法为对连续函数进行模糊化,把连续的实数值信息转化为分区间的区域信息:很低、低、中、高、很高;采用的隶属函数为可能性估计。
CN2011103252778A 2011-08-09 2011-10-24 一种基于贝叶斯网络的网页自动分类方法 Pending CN102426585A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011103252778A CN102426585A (zh) 2011-08-09 2011-10-24 一种基于贝叶斯网络的网页自动分类方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201110226852.9 2011-08-09
CN201110226852 2011-08-09
CN2011103252778A CN102426585A (zh) 2011-08-09 2011-10-24 一种基于贝叶斯网络的网页自动分类方法

Publications (1)

Publication Number Publication Date
CN102426585A true CN102426585A (zh) 2012-04-25

Family

ID=45960566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011103252778A Pending CN102426585A (zh) 2011-08-09 2011-10-24 一种基于贝叶斯网络的网页自动分类方法

Country Status (1)

Country Link
CN (1) CN102426585A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744958A (zh) * 2014-01-06 2014-04-23 同济大学 一种基于分布式计算的网页分类算法
CN104765726A (zh) * 2015-04-27 2015-07-08 湘潭大学 一种基于信息密度的数据分类方法
CN106445994A (zh) * 2016-07-13 2017-02-22 广州精点计算机科技有限公司 一种基于混合算法的网页分类方法和装置
CN106919563A (zh) * 2015-12-24 2017-07-04 神州数码信息系统有限公司 一种政务机器问答系统的跨领域问题自动分类、分发、应答的方法
CN107180022A (zh) * 2016-03-09 2017-09-19 阿里巴巴集团控股有限公司 对象分类方法及装置
CN108304483A (zh) * 2017-12-29 2018-07-20 东软集团股份有限公司 一种网页分类方法、装置及设备
CN109460467A (zh) * 2018-09-28 2019-03-12 中国科学院电子学研究所苏州研究院 一种网络信息分类体系构建方法
CN109714329A (zh) * 2018-12-24 2019-05-03 成都蜀道易信科技有限公司 一种云环境下基于贝叶斯网络的低速率DDoS检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007249421A (ja) * 2006-03-14 2007-09-27 Recruit Co Ltd 情報分類装置
CN101604322A (zh) * 2009-06-24 2009-12-16 北京理工大学 一种决策级文本自动分类融合方法
CN101923561A (zh) * 2010-05-24 2010-12-22 中国科学技术信息研究所 一种文件自动分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007249421A (ja) * 2006-03-14 2007-09-27 Recruit Co Ltd 情報分類装置
CN101604322A (zh) * 2009-06-24 2009-12-16 北京理工大学 一种决策级文本自动分类融合方法
CN101923561A (zh) * 2010-05-24 2010-12-22 中国科学技术信息研究所 一种文件自动分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张晓丹等: "网页自动分类不确定性问题的贝叶斯网络解法", 《计算机工程与设计》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744958A (zh) * 2014-01-06 2014-04-23 同济大学 一种基于分布式计算的网页分类算法
CN103744958B (zh) * 2014-01-06 2016-10-19 同济大学 一种基于分布式计算的网页分类方法
CN104765726A (zh) * 2015-04-27 2015-07-08 湘潭大学 一种基于信息密度的数据分类方法
CN104765726B (zh) * 2015-04-27 2018-07-31 湘潭大学 一种基于信息密度的数据分类方法
CN106919563A (zh) * 2015-12-24 2017-07-04 神州数码信息系统有限公司 一种政务机器问答系统的跨领域问题自动分类、分发、应答的方法
CN107180022A (zh) * 2016-03-09 2017-09-19 阿里巴巴集团控股有限公司 对象分类方法及装置
CN106445994A (zh) * 2016-07-13 2017-02-22 广州精点计算机科技有限公司 一种基于混合算法的网页分类方法和装置
CN108304483A (zh) * 2017-12-29 2018-07-20 东软集团股份有限公司 一种网页分类方法、装置及设备
CN108304483B (zh) * 2017-12-29 2021-01-19 东软集团股份有限公司 一种网页分类方法、装置及设备
CN109460467A (zh) * 2018-09-28 2019-03-12 中国科学院电子学研究所苏州研究院 一种网络信息分类体系构建方法
CN109460467B (zh) * 2018-09-28 2020-02-14 中国科学院电子学研究所苏州研究院 一种网络信息分类体系构建方法
CN109714329A (zh) * 2018-12-24 2019-05-03 成都蜀道易信科技有限公司 一种云环境下基于贝叶斯网络的低速率DDoS检测方法

Similar Documents

Publication Publication Date Title
CN102426585A (zh) 一种基于贝叶斯网络的网页自动分类方法
CN110188192B (zh) 一种多任务网络构建与多尺度的罪名法条联合预测方法
CN101996241A (zh) 一种基于贝叶斯算法的内容过滤方法
CN101408883A (zh) 一种网络舆情观点收集方法
CN111651602A (zh) 一种文本分类方法及系统
Kovalchuk et al. Text mining for the analysis of legal texts
Le et al. Learning to predict charges for legal judgment via self-attentive capsule network
Yu et al. Policy text classification algorithm based on BERT
Jayakody et al. Sentiment analysis on product reviews on twitter using Machine Learning Approaches
CN106021424A (zh) 一种文献作者重名检测方法
Panda et al. Multi-label software bug categorisation based on fuzzy similarity
CN114528405A (zh) 一种基于网络突发热点的舆情监测方法
CN112579730A (zh) 高扩展性、多标签的文本分类方法和装置
Mani et al. Email spam detection using gated recurrent neural network
Yang et al. Microblog sentiment analysis algorithm research and implementation based on classification
Jing et al. GeoGAT: Graph model based on attention mechanism for geographic text classification
CN102193928A (zh) 基于多层文本分类器的轻量级本体匹配方法
Onieva et al. A comparative study on the performance of evolutionary fuzzy and crisp rule based classification methods in congestion prediction
Chandana et al. BCC NEWS classification comparison between naive bayes, support vector machine, recurrent neural network
Zhu et al. Analysis of public big data management under text analysis
Siagian et al. Improving SMS Spam Detection Through Machine Learning: An Investigation of Feature Extraction and Model Selection Techniques
Zhang et al. An ontology-based approach for chinese legal information retrieval
Satish et al. Naagarik: A machine learning framework for intelligent analysis of civic issues
Najadat et al. Analyzing social media opinions using data analytics
Yin et al. A judicial sentencing method based on fused deep neural networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120425