CN104699772B - 一种基于云计算的大数据文本分类方法 - Google Patents

一种基于云计算的大数据文本分类方法 Download PDF

Info

Publication number
CN104699772B
CN104699772B CN201510096820.XA CN201510096820A CN104699772B CN 104699772 B CN104699772 B CN 104699772B CN 201510096820 A CN201510096820 A CN 201510096820A CN 104699772 B CN104699772 B CN 104699772B
Authority
CN
China
Prior art keywords
word
class
category
prior probability
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510096820.XA
Other languages
English (en)
Other versions
CN104699772A (zh
Inventor
孟海东
肖银龙
宋宇辰
任敬佩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Science and Technology
Original Assignee
Inner Mongolia University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Science and Technology filed Critical Inner Mongolia University of Science and Technology
Priority to CN201510096820.XA priority Critical patent/CN104699772B/zh
Publication of CN104699772A publication Critical patent/CN104699772A/zh
Application granted granted Critical
Publication of CN104699772B publication Critical patent/CN104699772B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于云计算的大数据文本分类方法,包括如下步骤:对有类标和无类标的训练文本分别进行预处理,得到对应的训练数据集;对训练数据集分别进行特征选择,得到对应的降维后的训练数据集;对降维后的训练数据集分别按照TFIDF加权模型计算,从而将训练数据集分别转化为对应的一维向量;将有类标的一维向量按照贝叶斯算法计算,得到每个类别的先验概率和每个词条属于每个类别的先验概率,初始化贝叶斯分类器参数;利用EM算法优化贝叶斯分类器的参数,得到分类模型;利用分类模型对待分类的文本进行文本分类。本发明通过将传统的朴素贝叶斯分类技术与Hadoop以及EM算法结合,使得实际应用中计算速度限制和训练数据限制的问题得以改善,提高了分类器的效率和准确性。

Description

一种基于云计算的大数据文本分类方法
技术领域
本发明涉及数据挖掘领域,具体涉及一种基于云计算的大数据文本分类方法。
背景技术
朴素贝叶斯分类算法以简单、高效成为焦点,较其他分类算法时间复杂度低、效率高,被广泛应用于各种分类任务,是目前最广泛使用的文本分类方法之一。
近年来随着信息技术的发展,文档分类任务呈现出新的特点,这些特点主要体现在以下两个方面:一,数据呈爆炸式增长,大量的信息以文本等非结构化或者半结构化的形式存在,具有高维和海量数据的特征;二,(2)好的分类器需要大量标注样本进行训练,但给出的已标注样本所能提供的信息可能主观而有限,而另一方面却有大量更接近样本空间上未知数据分布的未标注样本含有丰富的分布信息。
传统的朴素贝叶斯分类技术主要存在两方面的问题:,传统朴素贝叶斯算法在实际应用中处理海量文本数据时,单机由于计算速度的限制,往往达不到要求;二,传统朴素贝叶斯算法的分类准确率完全依赖于训练数据,而样本的人工标注需要艰苦而缓慢的劳动,因此制约了整个系统的构建,这就产生了标注瓶颈问题。
EM算法是在数据不完整情况下求解最大似然或最大后验估计问题的常用方法,在文本分类研究中可将它用于未标注样本的学习,利用测试样本改进了贝叶斯文本分类器的分类效果。
英国南安普顿大学《云计算下的海量数据挖掘研究》中提到云计算的出现为愈来愈多的中小企业分析海量数据提供廉价的解决方案。介绍基于云计算Hadoop集群框架和数据挖掘技术中的SPRINT分类算法的基础上,详细描述SPRINT并行算法在Hadoop中的MapReduce编程模型上的执行流程,并利用分析出的决策树模型对输入数据进行分类。
目前,基于云计算平台的数据挖掘工作已取得众多成果。Apache Mahout项目开发出多种面向商业角度的并行数据挖掘算法;中国科学院计算技术研究所推出的并行分布式数据挖掘平台PDMiner已可实现TB级别的海量数据处理;中国移动通信的并行数据挖掘工具BC-PDM更是提供了基于Web的服务模式。这些标志性成果,大力推动了该领域的发展。在云计算编程模型MapReduce的基础上,已有多种数据挖掘算法被实现。
发明内容
本发明提供了一种基于云计算的大数据文本分类方法,以解决实际应用中计算速度限制和训练数据限制的问题。
为实现上述目的,本发明采取的技术方案为:
一种基于云计算的大数据文本分类方法,包括如下步骤:
S1、对有类标和无类标的训练文本分别进行预处理,得到对应的训练数据集;
S2、对步骤S1所得的训练数据集分别进行特征选择,得到对应的降维后的训练数据集;
S3、对步骤S2所得的降维后的训练数据集分别按照TFIDF加权模型计算,从而将训练数据集分别转化为对应的一维向量;
S4、将有类标的一维向量按照贝叶斯算法计算,得到每个类别的先验概率和每个词条属于每个类别的先验概率;
S5、利用得到的先验概率,按照贝叶斯算法计算出无类标的一维向量中每个词条可能属于的类别,并将结果加入到之前有类标的一维向量中;
S6、将新的一维向量,采用最大似然估计法,得到每个类别的先验概率和每个词条属于每个类别的先验概率;
S7、利用得到的先验概率,按照贝叶斯算法计算,更新一维向量中每个词条可能属于的类别;
S8、重复步骤S6、S7,直到一维向量中每个类别的先验概率和每个词条属于每个类别的先验概率收敛,得到分类模型;
S9、利用分类模型对待分类的文本进行文本分类。
其中,所述的步骤S1中预处理的步骤包括
S11、文件上传与归并;
S12、去除分词与停用词;
S13、统计单个文件词频。
其中,所述的步骤S2具体包括以下步骤:采用基于χ2特征选择法来构造评估函数,将倒排索引文件分块存储在多个节点上,Mappers并行读取文件块、计算特征值,利用MapReduce计算框架的排序过程完成对特征值的排序,最后在Reducer中取指定个数的特征词完成特征词选择,得到特征词库。
其中,所述的步骤S3利用Hadoop平台的MapReduce计算模型分布式并行计算特征词的TFIDF权重,利用倒排索引文件计算TFIDF权重后生成文本向量文件。
其中,所述χ2特征选择法计算公式如下:
式中,t表示待统计的词,c表示相关联的类别,A表示包含词t且属于类c的文档数,B表示包含词t但不属于类c的文档数,C表示不包含词t但却属于类c的文档数,D表示不包含词t也不属于类c的文档数。
本发明具有以下有益效果:通过将传统的朴素贝叶斯分类技术与Hadoop以及EM算法结合,使得实际应用中计算速度限制和训练数据限制的问题得以改善,提高了分类器的效率和准确性。
附图说明
图1为本发明实施例一种基于云计算的大数据文本分类方法的流程图。
图2为本发明实施例中倒排索引文件中的记录结构示意图。
图3为本发明实施例中利用倒排索引文件计算TFIDF权重后生成文本向量文件示意图。
具体实施方式
为了使本发明的目的及优点更加清楚明白,以下结合实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明实施例提供了一种基于云计算的大数据文本分类方法,包括以下步骤:
S1,预处理阶段主要完成将本地文件上传至HDFS分布式文件系统中、将小文件进行格式处理并归并为一个大的文件、为文本设置全局ID、文本分词、停用词去除、文件内词频统计等功能。
(1)文件上传与归并
将待处理文本集从本地上传至分布式文件系统HDFS中,Hadoop定义了抽象文件系统接口,并实现了多个文件系统,客户端在未提交作业数据前文本数据存储在本地文件系统,为了充分利用分布式计算环境,需要将文件上传至HDFS中并分布式存储在不同的DataNode中。在此过程中,需要对文件进行格式处理并统计文本集中文本的数目。通过设置文件的全局ID作为文件名,形成文件ID即fileId与类名的映射,便于后面对文本的处理。
(2)分词与停用词去除
ICTCLAS是由中科院计算所研制的中文分词系统,有着较高的分词速度和精度,由于其非开源软件,目前有多个根据其原理实现的开源工具,Imdict-chinese-analyzer是其java版开源实现。Hadoop平台本身由java实现,对java程序具有最好的兼容性,可以方便地将Imdict-chinese-analyzer打包成jar包后上传至Hadoop集群。在文本预处理阶段使用Imdict-chinese-analyzer对文本进行中文分词。将标点符号、常见停用词、特殊字符等停用词存储在停用词文件中,在停用词处理阶段构造停用词表,对分词后的词进行过滤实现停用词去除。
(3)单个文件词频统计
由于基于统计的方法进行特征词选择以及使用TFIDF将文本进行向量化的过程需要统计各个词在文本内、类内以及文本集中的频率,在文本预处理阶段需要事先统计单文本内的各个词的词频并构造倒排索引文件。将倒排索引文件中的记录结构设置成如图2所示。每行以单词开始,将单词所出现的文件ID以及在该文件中出现的词频作为记录中的一项,各个项之间以空格间隔。
S2,在预处理阶段生成文本集的倒排索引后,大量文本所含单词数可到数十万计,由于维度过高,需要选择一部分对分类有意义的特征词来表征文本,构建文本向量。基于χ2特征选择法来构造评估函数,将倒排索引文件分块存储在多个节点上,Mappers并行读取文件块、计算特征值,并利用MapReduce计算框架的排序过程完成对特征值的排序,最后在Reducer中取指定个数的特征词完成特征词选择,得到特征词库。
χ2特征选择法计算公式如下:
公式中t表示待统计的词,c表示相关联的类别,A表示包含词t且属于类c的文档数,B表示包含词t但不属于类c的文档数,C表示不包含词t但却属于类c的文档数,D表示不包含词t也不属于类c的文档数。
S3,在进行特征词选取后,应用TFIDF权重计算方法计算特征词对于文本的权重,建立文本的向量空间模型。由于TFIDF总词频和文档频率的统计过程可以并行执行,可以利用Hadoop平台的MapReduce计算模型分布式并行计算特征词的TFIDF权重,提高文本向量化的速度,利用倒排索引文件计算TFIDF权重后生成如图3所示文本向量文件。在Map阶段,各个Mappers读取索引文件的文本块,以KeyValueTextInputFormat格式读取每一条记录,键值对的格式为<term,“fileId:termFreqfileId:termFreq…”>,通过一条记录计算一个特征词的文档频数docFreq,分解fileId:termFreq,以<fileId,term:termFreq:docFreq>键值对格式输出。接下来,MapReduce框架将键值对按键进行本地排序,发送给Reducer。在Reduce阶段,以<fileId,list(term:termFreq:docFreq)>格式接收键值对,MapReduce框架按照fileId将键值对进行排序。在Reducer中执行以下任务:拆分value,计算同一fileId的文件总词频,计算特征词的TFIDF权重。然后将文本各个特征词的TFIDF值拼接为value,以fileId为键,输出文本向量到文本向量文件。
词频TF(Term Frequency)计算公式如下:
公式中,tfij为特征词ti在文本dj中的词频,nij表示特征词ti在文本dj中出现的次数,nj为文本dj中所有特征词出现的总次数,n为特征词的总数。
反文档频率IDF(Inverse Document Frequency)计算公式如下:
公式中,N为文本集中文本的总数,Ni为出现特征词ti的文本数目,如果特征词ti在不在文本集中则导致除数Ni为零,所以一般在分母上加1,当该特征词在所有文本中出现时则为0,所以一般需要在后加0.01。
词频-反文档词频TFIDF定义如下:
wij=tfij×idfi
公式中,wij表示特征词ti在文本dj中的权重。
S4,文本的向量空间模型建立后,采用EM算法进行无指导学习,将少量有类标的文档集合和大量无类标的文档集合组成新的训练集。EM算法的工作主要分为E步和M步。在开始之前,先对所要用到的数据进行初始化。首先将有类标的一维向量按照贝叶斯算法计算,得到每个类别的先验概率和每个词条属于每个类别的先验概率,然后利用得到的先验概率,按照贝叶斯算法计算出无类标的一维向量中每个词条可能属于的类别,并将结果加入到之前有类标的一维向量中;在M步中,将新的一维向量,采用最大似然估计法,得到每个类别的先验概率和每个词条属于每个类别的先验概率;在E步中根据M步求得概率值来更新按照贝叶斯算法计算,更新一维向量中每个词条可能属于的类别。由于EM算法中各样本之间是相互独立,可以在Hadoop平台将E步操作与MapReduce编程框架结合,很容易实现它的并行化。但根据M步操作可知,新的先验概率的求取需要更新后的均值才可以求得,所以不能仅通过一个MapReduce阶段计算出贝叶斯模型的所有新参数。因此,本发明设计的分布式EM算法的每一次迭代由两个MapReduce阶段。其中第一个MapReduce阶段用于更新贝叶斯模型的均值和权重,命名为MeanMapReduce;第二个MapReduce阶段用于输出贝叶斯模型的所有参数值,命名为VarMapReduce。当VarMapReduce阶段执行完成后,分布式EM算法的一次迭代完成。如果没有满足收敛条件(即小于给定的阈值或者大于给定的迭代次数),更新HDFS上的贝叶斯模型的参数值启动下一轮迭代。否则迭代停止,得到训练好的分类器模型。
S5,将待分类分本按照步骤S1进行预处理。然后根据步骤S2得到的特征词库,将待分类分本转化为向量形式。分类器测试时使用一个MapReduce,mapper返回的值是测试文档属于Cj类,即所有特征词在Cj类下的P(Cj|d)P(Cj)值与在其他类下的值进行比较,取出最大值所属的类标签值,文档就属于此类。P(Cj)表示每个类别的先验概率,P(Cj|d)表示每个词条属于每个类别的先验概率。reducer的工作是对mapper的结果做了合并,得出测试文档各类中正确分类的文档数。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (2)

1.一种基于云计算的大数据文本分类方法,其特征在于,包括如下步骤:
S1、对有类标和无类标的训练文本分别进行预处理,得到对应的训练数据集;
S2、对步骤S1所得的训练数据集分别进行特征选择,得到对应的降维后的训练数据集;
S3、对步骤S2所得的降维后的训练数据集分别按照TFIDF加权模型计算,从而将训练数据集分别转化为对应的一维向量;
S4、将有类标的一维向量按照贝叶斯算法计算,得到每个类别的先验概率和每个词条属于每个类别的先验概率;
S5、利用得到的先验概率,按照贝叶斯算法计算出无类标的一维向量中每个词条可能属于的类别,并将结果加入到之前有类标的一维向量中;
S6、将新的一维向量,采用最大似然估计法,得到每个类别的先验概率和每个词条属于每个类别的先验概率;
S7、利用得到的先验概率,按照贝叶斯算法计算,更新一维向量中每个词条可能属于的类别;
S8、重复步骤S6、S7,直到一维向量中每个类别的先验概率和每个词条属于每个类别的先验概率收敛,得到分类模型;
S9、利用分类模型对待分类的文本进行文本分类;
所述的步骤S2具体包括以下步骤:采用基于χ2特征选择法来构造评估函数,将倒排索引文件分块存储在多个节点上,Mappers并行读取文件块、计算特征值,利用MapReduce计算框架的排序过程完成对特征值的排序,最后在Reducer中取指定个数的特征词完成特征词选择,得到特征词库;
所述的步骤S3利用Hadoop平台的MapReduce计算模型分布式并行计算特征词的TFIDF权重,利用倒排索引文件计算TFIDF权重后生成文本向量文件;所述χ2特征选择法计算公式如下:
<mrow> <msup> <mi>&amp;chi;</mi> <mn>2</mn> </msup> <mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <mi>c</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <msup> <mrow> <mo>(</mo> <mi>A</mi> <mi>D</mi> <mo>-</mo> <mi>B</mi> <mi>C</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mrow> <mo>(</mo> <mi>A</mi> <mo>+</mo> <mi>C</mi> <mo>)</mo> <mo>(</mo> <mi>A</mi> <mo>+</mo> <mi>B</mi> <mo>)</mo> <mo>(</mo> <mi>B</mi> <mo>+</mo> <mi>D</mi> <mo>)</mo> <mo>(</mo> <mi>C</mi> <mo>+</mo> <mi>D</mi> <mo>)</mo> </mrow> </mfrac> </mrow>
式中,t表示待统计的词,c表示相关联的类别,A表示包含词t且属于类c的文档数,B表示包含词t但不属于类c的文档数,C表示不包含词t但却属于类c的文档数,D表示不包含词t也不属于类c的文档数。
2.根据权利要求1所述的一种基于云计算的大数据文本分类方法,其特征在于,所述的步骤S1中预处理的步骤包括
S11、文件上传与归并;
S12、去除分词与停用词;
S13、统计单个文件词频。
CN201510096820.XA 2015-03-05 2015-03-05 一种基于云计算的大数据文本分类方法 Expired - Fee Related CN104699772B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510096820.XA CN104699772B (zh) 2015-03-05 2015-03-05 一种基于云计算的大数据文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510096820.XA CN104699772B (zh) 2015-03-05 2015-03-05 一种基于云计算的大数据文本分类方法

Publications (2)

Publication Number Publication Date
CN104699772A CN104699772A (zh) 2015-06-10
CN104699772B true CN104699772B (zh) 2018-03-23

Family

ID=53346893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510096820.XA Expired - Fee Related CN104699772B (zh) 2015-03-05 2015-03-05 一种基于云计算的大数据文本分类方法

Country Status (1)

Country Link
CN (1) CN104699772B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105022812B (zh) * 2015-07-08 2018-10-19 中国地质大学(武汉) 一种基于文档长度的实例加权方法及文本分类方法
CN105160000B (zh) * 2015-09-08 2018-11-02 成都博元时代软件有限公司 基于降维的大数据挖掘方法
CN106933847B (zh) * 2015-12-30 2019-12-27 北京神州泰岳软件股份有限公司 一种建立数据分类模型的方法和装置
CN106202274B (zh) * 2016-06-30 2019-10-15 云南电网有限责任公司电力科学研究院 一种基于贝叶斯网络的缺陷数据自动文摘分类方法
CN107783989A (zh) * 2016-08-25 2018-03-09 北京国双科技有限公司 文书归属领域的确定方法和装置
CN108021985B (zh) * 2016-11-03 2022-05-10 北京如布科技有限公司 一种模型参数训练方法及装置
CN106708926B (zh) * 2016-11-14 2020-10-30 北京赛思信安技术股份有限公司 一种支持海量长文本数据分类的分析模型的实现方法
CN106897443A (zh) * 2017-03-01 2017-06-27 深圳市博信诺达经贸咨询有限公司 大数据的划分方法及系统
CN107358494A (zh) * 2017-06-23 2017-11-17 武汉理工大学 一种基于大数据的客户需求信息挖掘方法
CN107832347B (zh) * 2017-10-16 2021-12-31 北京京东尚科信息技术有限公司 数据降维方法、系统及电子设备
CN107704892B (zh) * 2017-11-07 2019-05-17 宁波爱信诺航天信息有限公司 一种基于贝叶斯模型的商品编码分类方法以及系统
CN108896857B (zh) * 2018-07-06 2020-12-01 北京四方继保自动化股份有限公司 一种基于深度学习的变压器复杂工况识别方法
CN109361529B (zh) * 2018-08-03 2022-03-18 锐捷网络股份有限公司 一种终端类型识别方法、装置、电子设备及存储介质
CN109189941A (zh) * 2018-09-07 2019-01-11 百度在线网络技术(北京)有限公司 用于更新模型参数的方法、装置、设备和介质
CN109684479A (zh) * 2018-12-26 2019-04-26 广州云趣信息科技有限公司 一种基于人工智能来实现业务分析的方法
CN111061430B (zh) * 2019-11-27 2021-02-19 东南大学 一种多云环境下异构i/o细粒度感知的数据放置方法
CN111814882B (zh) * 2020-07-10 2021-06-22 辽东学院 一种基于计算机大数据的数据分类系统
CN113157915A (zh) * 2021-03-08 2021-07-23 武汉工程大学 一种基于集群环境的朴素贝叶斯文本分类方法
CN113673889A (zh) * 2021-08-26 2021-11-19 上海罗盘信息科技有限公司 一种智能化数据资产识别的方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081655B (zh) * 2011-01-11 2013-06-05 华北电力大学 基于贝叶斯分类算法的信息检索方法
CN102147813A (zh) * 2011-04-07 2011-08-10 江苏省电力公司 一种电力云环境下基于k最近邻算法的文档自动分类方法
CN103838863B (zh) * 2014-03-14 2017-07-18 内蒙古科技大学 一种基于云计算平台的大数据聚类算法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于EM算法的半监督文本分类方法研究;郭志毅;《中国优秀硕士学位论文全文数据库.信息科技辑》;20101130;第16-17页3.2.1及图3.1 *
基于MapReduce编程模型的TFIDF算法研究;赵伟燕等;《微型机与应用》;20131231;第32卷(第4期);第71页摘要以及72页右栏及附图1、2、3 *
文本分类中特征选择和特征加权算法的研究;杜同森;《北京邮电大学硕士学位论文》;20131221;第6页2.2、第18页3.1.5、第25页4.1 *

Also Published As

Publication number Publication date
CN104699772A (zh) 2015-06-10

Similar Documents

Publication Publication Date Title
CN104699772B (zh) 一种基于云计算的大数据文本分类方法
CN104766098A (zh) 一种分类器的构建方法
US20170344822A1 (en) Semantic representation of the content of an image
US8165979B2 (en) System and method for resource adaptive classification of data streams
CN103294817A (zh) 一种基于类别分布概率的文本特征抽取方法
CN104239553A (zh) 一种基于Map-Reduce框架的实体识别方法
CN110555305A (zh) 基于深度学习的恶意应用溯源方法及相关装置
CN112836509A (zh) 一种专家系统知识库构建方法及系统
CN104361037A (zh) 微博分类方法及装置
Kaensar A comparative study on handwriting digit recognition classifier using neural network, support vector machine and k-nearest neighbor
CN112287199A (zh) 一种基于云服务器的大数据中心处理系统
Li et al. Scalable random forests for massive data
Han et al. SlimML: Removing non-critical input data in large-scale iterative machine learning
US10467276B2 (en) Systems and methods for merging electronic data collections
CN110019653B (zh) 一种融合文本和标签网络的社交内容表征方法和系统
CN104866606A (zh) 一种MapReduce并行化大数据文本分类方法
WO2016093839A1 (en) Structuring of semi-structured log messages
CN113692591A (zh) 节点消歧
Manne et al. Text categorization with K-nearest neighbor approach
CN106844596A (zh) 一种基于改进的svm中文文本分类方法
Daw et al. Machine learning applications using Waikato environment for knowledge analysis
CN110825873B (zh) 用于对日志异常分类规则进行扩充的方法及装置
Yang et al. IF-MCA: Importance factor-based multiple correspondence analysis for multimedia data analytics
CN111930944A (zh) 文件标签分类方法及装置
CN106971005A (zh) 一种云计算环境下基于MapReduce的分布式并行文本聚类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180130

Address after: 014010 the Inner Mongolia Autonomous Region Baotou Kunqu Arden Street No. 7

Applicant after: University of Science and Technology of Inner Mongolia

Address before: 014010 the Inner Mongolia Autonomous Region Baotou Kunqu Arden Street No. 7

Applicant before: Meng Haidong

GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180323

Termination date: 20200305