CN105488022A - 一种文本特征提取系统和方法 - Google Patents

一种文本特征提取系统和方法 Download PDF

Info

Publication number
CN105488022A
CN105488022A CN201410491458.1A CN201410491458A CN105488022A CN 105488022 A CN105488022 A CN 105488022A CN 201410491458 A CN201410491458 A CN 201410491458A CN 105488022 A CN105488022 A CN 105488022A
Authority
CN
China
Prior art keywords
classification
feature words
eigenwert
word
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410491458.1A
Other languages
English (en)
Inventor
陶彩霞
谢晓军
陈康
张青
高智衡
陈翀
关迎晖
刘春�
向勇
吴旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN201410491458.1A priority Critical patent/CN105488022A/zh
Publication of CN105488022A publication Critical patent/CN105488022A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本特征提取系统和方法。该方法包括:将已分好m个类别的文档内容进行分词处理得到多个特征词;计算文档的词频参数,所述参数包括每个类别的文档数量Ni、包含各个特征词的文档数量Nt、总文档数Ntotal和每个类别中包含各个特征词的文档数Ni,t;根据词频参数并行计算每个特征词属于各个类别的特征值;对每个特征词的m个类别的特征值进行并行累加计算;根据累加计算后的特征值的大小进行排序,并根据排序结果对应的特征词进行文本特征提取。本发明通过并行运算能够提高海量文本特征的提取速度、效率高。

Description

一种文本特征提取系统和方法
技术领域
本发明涉及大数据/云计算技术领域,尤其涉及一种文本特征提取系统和方法。
背景技术
在文本分类中,一般一类文档的词都有几十万,如果每个词都参与运算不仅会耗费运行时间,而且分类效果会被大量不相关的词所干扰,因此文本特征提取是文本分类过程中的一个重要环节。但目前文本特征提取方法还是基于单机运算,面对海量的互联网网页信息,由于网页的文本特征数量巨大,采用单机运算,可扩展性差,对海量文本特征提取无法扩展到多台机器进行并行运算,将会造成性能瓶颈。
发明内容
本发明要解决的是海量文本特征提取速度慢、效率低的问题。
根据本发明一方面,提出一种文本特征提取系统,包括:
分词模块,用于将已分好m个类别的文档内容进行分词处理得到多个特征词;
参数计算模块,用于计算文档的词频参数,所述参数包括每个类别的文档数量Ni、包含各个特征词的文档数量Nt、总文档数Ntotal和每个类别中包含各个特征词的文档数Ni,t
特征值计算模块,用于根据参数计算模块计算的词频参数并行计算每个特征词属于各个类别的特征值;
累加计算模块,用于对每个特征词的m个类别的特征值进行并行累加计算;
特征提取模块,用于根据累加计算后的特征值的大小进行排序,并根据排序结果对应的特征词进行文本特征提取。
进一步,特征值计算模块用于根据计算每个特征词属于各个类别的特征值。
进一步,初始化配置模块,用于从所述参数计算模块读取并保存文档的词频参数,并将所述词频参数传递给所述特征值计算模块。
进一步,特征值计算模块设置在MapReduce编程架构的Map函数中。
进一步,累加计算模块设置在MapReduce编程架构的Reduce函数中。
根据本发明的另一方面,还提出一种文本特征提取方法,包括:
将已分好m个类别的文档内容进行分词处理得到多个特征词;
计算文档的词频参数,所述参数包括每个类别的文档数量Ni、包含各个特征词的文档数量Nt、总文档数Ntotal和每个类别中包含各个特征词的文档数Ni,t
根据词频参数并行计算每个特征词属于各个类别的特征值;
对每个特征词的m个类别的特征值进行并行累加计算;
根据累加计算后的特征值的大小进行排序,并根据排序结果对应的特征词进行文本特征提取。
进一步,根据计算每个特征词属于各个类别的特征值。
进一步,初始化配置,包括读取并保存文档的词频参数,并将所述词频参数传递给Map函数。
进一步,在MapReduce编程架构的Map函数中计算每个特征词属于各个类别的特征值。
进一步,在MapReduce编程架构的Reduce函数中对每个特征词的m个类别的特征值进行并行累加计算。
在本发明中,并行计算每个特征词属于各个类别的特征值,并对每个特征词的m个类别的特征值进行并行累加计算,因此,通过并行运算能够提高海量文本特征的提取速度、效率高。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
构成说明书的一部分的附图描述了本发明的实施例,并且连同说明书一起用于解释本发明的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:
图1为实施例中一种文本特征提取系统的结构示意图。
图2为实施例中一种文本特征提取方法的流程图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
图1为实施例中一种文本特征提取系统的结构示意图,该系统包括:分词模块110、参数计算模块120、特征值计算模块130、累加计算模块140和特征提取模块150。其中:
分词模块110,用于将已分好m个类别的文档内容进行分词处理得到多个特征词。
参数计算模块120,用于计算文档的词频参数,所述参数包括每个类别的文档数量Ni、包含各个特征词的文档数量Nt、总文档数Ntotal和每个类别中包含各个特征词的文档数Ni,t
特征值计算模块130,用于根据参数计算模块120计算的词频参数,设计Map函数,并行计算每个特征词属于各个类别的特征值。Map函数的输入key值由类别label与特征词term组合而成,value为类别label中包含特征term的文档数Ni,t,把特征词term与每个特征词属于各个类别的特征值ce作为<key,value>值对输出。
在本发明的实施例中,根据如下公式,计算每个特征词属于各个类别的特征值,即:
N i , t N total log N i , t N total N i N t
该公式可以根据期望交叉熵公式进行转换而来,本领域技术人员应该可以理解,这里只是用于举例,不应理解为对本发明的限制。
期望交叉熵公式为:
CE ( t ) = P ( t ) &Sigma; i = 1 m P ( C i / t ) lot P ( C i / t ) P ( C i )
其中,P(t)是包含特征词t的文档在训练集中出现的概率,P(Ci)是类Ci的文档在训练集中出现的概率,P(Ci/t)是包含特征词t的文档属于类Ci的概率,第i类为Ci,共有m类。例如,根据需要制定m个类别的文本分类体系(如:体育、财经等类别),通过爬虫、人工等途径搜集每个类别的语料库,构建具有m个类别的“训练集”,每个类别标记为Ci(i=1…m)。
根据参数计算模块120计算的文档的词频参数,则:
P ( t ) = N t N total , P ( C i ) = N i N total , P ( C i / t ) = N i , t N t
记Ntotal为总文档数,Nt为包含特征词t的文档数,Ni为类Ci的文档数,Ni,t为类Ci中包含特征词t的文档数,则期望交叉熵的计算公式转化为:
CE ( t ) = &Sigma; i = 1 m N i , t N total log N i , t N total N i N t
由于m为类别,因此,对于每个特征词属于各个类别的特征值为:
N i , t N total log N i , t N total N i N t
在上述各个公式中,关于log的底数可以为2,本领域技术人员应该可以理解,这里只是用于举例说明,不应理解为对本发明的限制。底数的取值可以为10或者其他,并不影响处理结果。
累加计算模块140,设计Reduce函数,用于对每个特征词的m个类别的特征值进行并行累加计算。Reduce函数每个key包含一个特征词term,value是把每个特征词m个类别的ce累加起来保存为ece,其中,ce为每个特征词属于各个类别的特征值,最后把key与ece作为<key,value>值对输出。
特征提取模块150,用于根据累加计算后的特征值ece的大小进行排序,并根据排序结果对应的特征词进行文本特征提取。
在该实施例中,由于并行计算每个特征词属于各个类别的特征值,并对每个特征词的m个类别的特征值进行并行累加计算。因此,通过并行运算能够提高海量文本特征的提取速度、效率高,解决了海量文本特征提取单机运算的性能瓶颈。
在本发明的实施例中,文本特征提取系统还包括初始化配置模块,用于从所述参数计算模块读取并保存文档的词频参数,并将所述词频参数传递给所述特征值计算模块。其中,初始化配置模块的输入路径设置为所述参数计算模块的输出路径。该初始化配置模块例如是hadoop初始化函数。
在本发明的实施例中,特征值计算模块130设置在MapReduce编程架构的Map函数中。
在本发明的实施例中,累加计算模块140设置在MapReduce编程架构的Reduce函数中。
其中,MapReduce分布式处理框架的可扩展性非常好,每增加一台服务器,其就能将差不多的计算能力接入到集群中,当文档特征词很多的时候,可以由MapReduce架构自动根据特征数量和机器性能分配为多个Map函数和Reduce函数在多台机器上并行处理,解决了单机运算机器资源和性能的限制。通过1次MapReduce计算即可完成海量文本特征的提取,不仅可以处理大规模文本数据集,而且并行效率高,能够利用集群和并行计算模型提高海量文本特征提取的速度,解决了海量文本特征提取单机运算的性能瓶颈。
下面将通过一个具体实施例,对本发明做进一步说明。在该实施例中,初始化配置模块为hadoop初始化函数,特征值计算模块为Map函数,累加计算模块为Reduce函数。其中:
分词模块将已分好m个类别的文档内容进行分词处理得到多个特征词。
参数计算模块计算文档的词频参数,所述参数包括每个类别的文档数量Ni、包含各个特征词的文档数量Nt、总文档数Ntotal和每个类别中包含各个特征词的文档数Ni,t
hadoop初始化函数从所述参数计算模块读取并保存文档的词频参数,并将所述词频参数传递给Map函数。
Map函数中包括key与value值对,其中,每个key值包含一个特征词t,value为特征词t属于各个类别的特征值。计算出特征值后,将特征词t与每个特征词属于各个类别的特征值ce作为<key,value>值对输出给Reduce函数。
Reduce函数根据<key,value>值对,对每个特征词的m个类别的特征值进行并行累加计算,并输出给累加值。Reduce函数每个key包含一个特征词term,value是把每个特征词m个类别的ce累加起来保存为ece,其中,ce为每个特征词属于各个类别的特征值,最后把key与ece作为<key,value>值对输出。
特征提取模块根据累加计算后的特征值ece的大小进行排序,并根据排序结果对应的特征词进行文本特征提取。例如,排在前面的特征词分类能力越强,可根据需要选择排在前面的K个文本特征。
在该实施例中,MapReduce分布式处理框架的可扩展性非常好,每增加一台服务器,其就能将差不多的计算能力接入到集群中,当文档特征词很多的时候,可以由MapReduce架构自动根据特征数量和机器性能分配为多个Map函数和Reduce函数在多台机器上并行处理,解决了单机运算机器资源和性能的限制。通过1次MapReduce计算即可完成海量文本特征的提取,不仅可以处理大规模文本数据集,而且并行效率高,能够利用集群和并行计算模型提高海量文本特征提取的速度,解决了海量文本特征提取单机运算的性能瓶颈。
图2为实施例中一种文本特征提取方法的流程图。该方法包括以下步骤:
在步骤210,将已分好m个类别的文档内容进行分词处理得到多个特征词。
在步骤220,计算文档的词频参数,所述参数包括每个类别的文档数量Ni、包含各个特征词的文档数量Nt、总文档数Ntotal和每个类别中包含各个特征词的文档数Ni,t
在步骤230,根据词频参数并行计算每个特征词属于各个类别的特征值。
设计Map函数,并行计算每个特征词属于各个类别的特征值。Map函数的输入key值由类别label与特征词term组合而成,value为类别label中包含特征term的文档数Ni,t,把特征词term与每个特征词属于各个类别的特征值ce作为<key,value>值对输出。
在本发明的实施例中,根据如下公式,计算每个特征词属于各个类别的特征值,即:
N i , t N total log N i , t N total N i N t
该公式可以根据期望交叉熵公式进行转换而来,本领域技术人员应该可以理解,这里只是用于举例,不应理解为对本发明的限制。
期望交叉熵公式为:
CE ( t ) = P ( t ) &Sigma; i = 1 m P ( C i / t ) lot P ( C i / t ) P ( C i )
其中,P(t)是包含特征词t的文档在训练集中出现的概率,P(Ci)是类Ci的文档在训练集中出现的概率,P(Ci/t)是包含特征词t的文档属于类Ci的概率,第i类为Ci,共有m类。例如,根据需要制定m个类别的文本分类体系(如:体育、财经等类别),通过爬虫、人工等途径搜集每个类别的语料库,构建具有m个类别的“训练集”,每个类别标记为Ci(i=1…m)。
根据文档的词频参数,则:
P ( t ) = N t N total , P ( C i ) = N i N total , P ( C i / t ) = N i , t N t
记Ntotal为总文档数,Nt为包含特征词t的文档数,Ni为类Ci的文档数,Ni,t为类Ci中包含特征词t的文档数,则期望交叉熵的计算公式转化为:
CE ( t ) = &Sigma; i = 1 m N i , t N total log N i , t N total N i N t
由于m为类别,因此,对于每个特征词属于各个类别的特征值为:
N i , t N total log N i , t N total N i N t
在上述各个公式中,关于log的底数可以为2,本领域技术人员应该可以理解,这里只是用于举例说明,不应理解为对本发明的限制。底数的取值可以为10或者其他,并不影响处理结果。
在步骤240,对每个特征词的m个类别的特征值进行并行累加计算。
设计Reduce函数,用于对每个特征词的m个类别的特征值进行并行累加计算。Reduce函数每个key包含一个特征词term,value是把每个特征词m个类别的ce累加起来保存为ece,其中,ce为每个特征词属于各个类别的特征值,最后把key与ece作为<key,value>值对输出。
在步骤250,根据累加计算后的特征值ece的大小进行排序,并根据排序结果对应的特征词进行文本特征提取。
在该实施例中,由于并行计算每个特征词属于各个类别的特征值,并对每个特征词的m个类别的特征值进行并行累加计算。因此,通过并行运算能够提高海量文本特征的提取速度、效率高,解决了海量文本特征提取单机运算的性能瓶颈。
在本发明的实施例中,在步骤220与步骤230之间还包括:初始化配置,即,读取并保存文档的词频参数。该初始化配置例如是hadoop初始化函数执行。其中,初始化配置的输入路径设置为步骤220的输出路径,并将词频参数输出到步骤230。
在本发明的实施例中,步骤230可以通过MapReduce编程架构的Map函数计算每个特征词属于各个类别的特征值。
在本发明的实施例中,步骤240可以通过MapReduce编程架构的Reduce函数对每个特征词的m个类别的特征值进行并行累加计算。
其中,MapReduce分布式处理框架的可扩展性非常好,每增加一台服务器,其就能将差不多的计算能力接入到集群中,当文档特征词很多的时候,可以由MapReduce架构自动根据特征数量和机器性能分配为多个Map函数和Reduce函数在多台机器上并行处理,解决了单机运算机器资源和性能的限制。通过1次MapReduce计算即可完成海量文本特征的提取,不仅可以处理大规模文本数据集,而且并行效率高,能够利用集群和并行计算模型提高海量文本特征提取的速度,解决了海量文本特征提取单机运算的性能瓶颈。
下面将通过一个具体实施例,对本发明做进一步说明。其中:
将已分好m个类别的文档内容进行分词处理得到多个特征词。
计算文档的词频参数,所述参数包括每个类别的文档数量Ni、包含各个特征词的文档数量Nt、总文档数Ntotal和每个类别中包含各个特征词的文档数Ni,t
hadoop初始化函数读取并保存文档的词频参数,并将所述词频参数传递给Map函数。
Map函数中包括key与value值对,其中,每个key值包含一个特征词t,value为特征词t属于各个类别的特征值。计算出特征值后,将特征词t与每个特征词属于各个类别的特征值ce作为<key,value>值对输出给Reduce函数。
Reduce函数根据<key,value>值对,对每个特征词的m个类别的特征值进行并行累加计算,并输出给累加值。Reduce函数每个key包含一个特征词term,value是把每个特征词m个类别的ce累加起来保存为ece,其中,ce为每个特征词属于各个类别的特征值,最后把key与ece作为<key,value>值对输出。
根据累加计算后的特征值ece的大小进行排序,并根据排序结果对应的特征词进行文本特征提取。例如,排在前面的特征词分类能力越强,可根据需要选择排在前面的K个文本特征。
该实施例中,MapReduce分布式处理框架的可扩展性非常好,每增加一台服务器,其就能将差不多的计算能力接入到集群中,当文档特征词很多的时候,可以由MapReduce架构自动根据特征数量和机器性能分配为多个Map函数和Reduce函数在多台机器上并行处理,解决了单机运算机器资源和性能的限制。通过1次MapReduce计算即可完成海量文本特征的提取,不仅可以处理大规模文本数据集,而且并行效率高,能够利用集群和并行计算模型提高海量文本特征提取的速度,解决了海量文本特征提取单机运算的性能瓶颈。
至此,已经详细描述了本发明。为了避免遮蔽本发明的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本发明的方法以及装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法以及装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员应该理解,可在不脱离本发明的范围和精神的情况下,对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims (10)

1.一种文本特征提取系统,其特征在于,包括:
分词模块,用于将已分好m个类别的文档内容进行分词处理得到多个特征词;
参数计算模块,用于计算文档的词频参数,所述参数包括每个类别的文档数量Ni、包含各个特征词的文档数量Nt、总文档数Ntotal和每个类别中包含各个特征词的文档数Ni,t
特征值计算模块,用于根据参数计算模块计算的词频参数并行计算每个特征词属于各个类别的特征值;
累加计算模块,用于对每个特征词的m个类别的特征值进行并行累加计算;
特征提取模块,用于根据累加计算后的特征值的大小进行排序,并根据排序结果对应的特征词进行文本特征提取。
2.根据权利要求1所述的文本特征提取系统,其特征在于,包括:
特征值计算模块用于根据计算每个特征词属于各个类别的特征值。
3.根据权利要求1或2所述的文本特征提取系统,其特征在于,还包括:
初始化配置模块,用于从所述参数计算模块读取并保存文档的词频参数,并将所述词频参数传递给所述特征值计算模块。
4.根据权利要求1所述的文本特征提取系统,其特征在于,包括:
特征值计算模块设置在MapReduce编程架构的Map函数中。
5.根据权利要求1所述的文本特征提取系统,其特征在于,包括:
累加计算模块设置在MapReduce编程架构的Reduce函数中。
6.一种文本特征提取方法,其特征在于,包括:
将已分好m个类别的文档内容进行分词处理得到多个特征词;
计算文档的词频参数,所述参数包括每个类别的文档数量Ni、包含各个特征词的文档数量Nt、总文档数Ntotal和每个类别中包含各个特征词的文档数Ni,t
根据词频参数并行计算每个特征词属于各个类别的特征值;
对每个特征词的m个类别的特征值进行并行累加计算;
根据累加计算后的特征值的大小进行排序,并根据排序结果对应的特征词进行文本特征提取。
7.根据权利要求6所述的文本特征提取方法,其特征在于,包括:
根据计算每个特征词属于各个类别的特征值。
8.根据权利要求6或7所述的文本特征提取方法,其特征在于,包括:
初始化配置,包括读取并保存文档的词频参数,并将所述词频参数传递给Map函数。
9.根据权利要求6所述的文本特征提取方法,其特征在于,包括:
在MapReduce编程架构的Map函数中计算每个特征词属于各个类别的特征值。
10.根据权利要求6所述的文本特征提取方法,其特征在于,包括:
在MapReduce编程架构的Reduce函数中对每个特征词的m个类别的特征值进行并行累加计算。
CN201410491458.1A 2014-09-24 2014-09-24 一种文本特征提取系统和方法 Pending CN105488022A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410491458.1A CN105488022A (zh) 2014-09-24 2014-09-24 一种文本特征提取系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410491458.1A CN105488022A (zh) 2014-09-24 2014-09-24 一种文本特征提取系统和方法

Publications (1)

Publication Number Publication Date
CN105488022A true CN105488022A (zh) 2016-04-13

Family

ID=55675006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410491458.1A Pending CN105488022A (zh) 2014-09-24 2014-09-24 一种文本特征提取系统和方法

Country Status (1)

Country Link
CN (1) CN105488022A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241534A (zh) * 2018-09-12 2019-01-18 重庆工业职业技术学院 一种基于文本ai学习的考题自动生成方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070061319A1 (en) * 2005-09-09 2007-03-15 Xerox Corporation Method for document clustering based on page layout attributes
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法
CN103279478A (zh) * 2013-04-19 2013-09-04 国家电网公司 一种基于分布式互信息文档特征提取方法
CN103955489A (zh) * 2014-04-15 2014-07-30 华南理工大学 基于信息熵特征权重量化的海量短文本分布式knn分类算法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070061319A1 (en) * 2005-09-09 2007-03-15 Xerox Corporation Method for document clustering based on page layout attributes
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法
CN103279478A (zh) * 2013-04-19 2013-09-04 国家电网公司 一种基于分布式互信息文档特征提取方法
CN103955489A (zh) * 2014-04-15 2014-07-30 华南理工大学 基于信息熵特征权重量化的海量短文本分布式knn分类算法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王理,许应成著: "《消费品质量安全信息分析:理论、方法与技术》", 30 April 2014, 北京:北京航空航天大学出版社 *
金鹏: "基于Hadoop的SKNN文本分类算法的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241534A (zh) * 2018-09-12 2019-01-18 重庆工业职业技术学院 一种基于文本ai学习的考题自动生成方法和装置
CN109241534B (zh) * 2018-09-12 2022-12-27 重庆工业职业技术学院 一种基于文本ai学习的考题自动生成方法和装置

Similar Documents

Publication Publication Date Title
CN103279478B (zh) 一种基于分布式互信息文档特征提取方法
CN102799647B (zh) 网页去重方法和设备
CN104699772B (zh) 一种基于云计算的大数据文本分类方法
Deitrick et al. Mutually enhancing community detection and sentiment analysis on twitter networks
CN103810293B (zh) 基于Hadoop的文本分类方法及装置
CN105740424A (zh) 一种基于 Spark 平台的高效率文本分类方法
WO2022048363A1 (zh) 网站分类方法、装置、计算机设备及存储介质
CN109684476B (zh) 一种文本分类方法、文本分类装置及终端设备
CN105893609A (zh) 一种基于加权混合的移动app推荐方法
CN112256842B (zh) 用于文本聚类的方法、电子设备和存储介质
CN104408034A (zh) 一种面向文本大数据的中文分词方法
CN109271514A (zh) 短文本分类模型的生成方法、分类方法、装置及存储介质
CN106778079A (zh) 一种基于MapReduce的DNA序列k‑mer频次统计方法
CN104077415A (zh) 搜索方法及装置
CN110647995A (zh) 规则训练方法、装置、设备及存储介质
CN105975459A (zh) 一种词项的权重标注方法和装置
CN114357117A (zh) 事务信息查询方法、装置、计算机设备及存储介质
CN113722438A (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN104536830A (zh) 一种基于MapReduce的KNN文本分类方法
CN103116636B (zh) 基于特征空间分解的文本大数据主题挖掘方法和装置
CN103207804B (zh) 基于集群作业日志的MapReduce负载模拟方法
CN104866606A (zh) 一种MapReduce并行化大数据文本分类方法
CN112487263A (zh) 一种信息处理方法、系统、设备及计算机可读存储介质
CN111625567A (zh) 数据模型匹配方法、装置、计算机系统及可读存储介质
Adam et al. A big data prediction framework for weather forecast using MapReduce algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160413