CN105488022A

CN105488022A - 一种文本特征提取系统和方法

Info

Publication number: CN105488022A
Application number: CN201410491458.1A
Authority: CN
Inventors: 陶彩霞; 谢晓军; 陈康; 张青; 高智衡; 陈翀; 关迎晖; 刘春�; 向勇; 吴旭
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2014-09-24
Filing date: 2014-09-24
Publication date: 2016-04-13

Abstract

本发明公开了一种文本特征提取系统和方法。该方法包括：将已分好m个类别的文档内容进行分词处理得到多个特征词；计算文档的词频参数，所述参数包括每个类别的文档数量N_i、包含各个特征词的文档数量N_t、总文档数N_total和每个类别中包含各个特征词的文档数N_i,t；根据词频参数并行计算每个特征词属于各个类别的特征值；对每个特征词的m个类别的特征值进行并行累加计算；根据累加计算后的特征值的大小进行排序，并根据排序结果对应的特征词进行文本特征提取。本发明通过并行运算能够提高海量文本特征的提取速度、效率高。

Description

一种文本特征提取系统和方法

技术领域

本发明涉及大数据/云计算技术领域，尤其涉及一种文本特征提取系统和方法。

背景技术

在文本分类中，一般一类文档的词都有几十万，如果每个词都参与运算不仅会耗费运行时间，而且分类效果会被大量不相关的词所干扰，因此文本特征提取是文本分类过程中的一个重要环节。但目前文本特征提取方法还是基于单机运算，面对海量的互联网网页信息，由于网页的文本特征数量巨大，采用单机运算，可扩展性差，对海量文本特征提取无法扩展到多台机器进行并行运算，将会造成性能瓶颈。

发明内容

本发明要解决的是海量文本特征提取速度慢、效率低的问题。

根据本发明一方面，提出一种文本特征提取系统，包括：

分词模块，用于将已分好m个类别的文档内容进行分词处理得到多个特征词；

参数计算模块，用于计算文档的词频参数，所述参数包括每个类别的文档数量N_i、包含各个特征词的文档数量N_t、总文档数N_total和每个类别中包含各个特征词的文档数N_i,t；

特征值计算模块，用于根据参数计算模块计算的词频参数并行计算每个特征词属于各个类别的特征值；

累加计算模块，用于对每个特征词的m个类别的特征值进行并行累加计算；

特征提取模块，用于根据累加计算后的特征值的大小进行排序，并根据排序结果对应的特征词进行文本特征提取。

进一步，特征值计算模块用于根据计算每个特征词属于各个类别的特征值。

进一步，初始化配置模块，用于从所述参数计算模块读取并保存文档的词频参数，并将所述词频参数传递给所述特征值计算模块。

进一步，特征值计算模块设置在MapReduce编程架构的Map函数中。

进一步，累加计算模块设置在MapReduce编程架构的Reduce函数中。

根据本发明的另一方面，还提出一种文本特征提取方法，包括：

将已分好m个类别的文档内容进行分词处理得到多个特征词；

计算文档的词频参数，所述参数包括每个类别的文档数量N_i、包含各个特征词的文档数量N_t、总文档数N_total和每个类别中包含各个特征词的文档数N_i,t；

根据词频参数并行计算每个特征词属于各个类别的特征值；

对每个特征词的m个类别的特征值进行并行累加计算；

根据累加计算后的特征值的大小进行排序，并根据排序结果对应的特征词进行文本特征提取。

进一步，根据计算每个特征词属于各个类别的特征值。

进一步，初始化配置，包括读取并保存文档的词频参数，并将所述词频参数传递给Map函数。

进一步，在MapReduce编程架构的Map函数中计算每个特征词属于各个类别的特征值。

进一步，在MapReduce编程架构的Reduce函数中对每个特征词的m个类别的特征值进行并行累加计算。

在本发明中，并行计算每个特征词属于各个类别的特征值，并对每个特征词的m个类别的特征值进行并行累加计算，因此，通过并行运算能够提高海量文本特征的提取速度、效率高。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同说明书一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为实施例中一种文本特征提取系统的结构示意图。

图2为实施例中一种文本特征提取方法的流程图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

图1为实施例中一种文本特征提取系统的结构示意图，该系统包括：分词模块110、参数计算模块120、特征值计算模块130、累加计算模块140和特征提取模块150。其中：

分词模块110，用于将已分好m个类别的文档内容进行分词处理得到多个特征词。

参数计算模块120，用于计算文档的词频参数，所述参数包括每个类别的文档数量N_i、包含各个特征词的文档数量N_t、总文档数N_total和每个类别中包含各个特征词的文档数N_i,t。

特征值计算模块130，用于根据参数计算模块120计算的词频参数，设计Map函数，并行计算每个特征词属于各个类别的特征值。Map函数的输入key值由类别label与特征词term组合而成，value为类别label中包含特征term的文档数N_i,t，把特征词term与每个特征词属于各个类别的特征值ce作为<key,value>值对输出。

在本发明的实施例中，根据如下公式，计算每个特征词属于各个类别的特征值，即：

\frac{N_{i, t}}{N_{total}} \log \frac{N_{i, t} N_{total}}{N_{i} N_{t}}

该公式可以根据期望交叉熵公式进行转换而来，本领域技术人员应该可以理解，这里只是用于举例，不应理解为对本发明的限制。

期望交叉熵公式为：

CE (t) = P (t) Σ_{i = 1}^{m} P (C_{i} / t) lot \frac{P (C_{i} / t)}{P (C_{i})}

其中，P(t)是包含特征词t的文档在训练集中出现的概率，P(C_i)是类C_i的文档在训练集中出现的概率，P(C_i/t)是包含特征词t的文档属于类C_i的概率，第i类为C_i，共有m类。例如，根据需要制定m个类别的文本分类体系(如：体育、财经等类别)，通过爬虫、人工等途径搜集每个类别的语料库，构建具有m个类别的“训练集”，每个类别标记为C_i(i＝1…m)。

根据参数计算模块120计算的文档的词频参数，则：

P (t) = \frac{N_{t}}{N_{total}}, P (C_{i}) = \frac{N_{i}}{N_{total}}, P (C_{i} / t) = \frac{N_{i, t}}{N_{t}}

记N_total为总文档数，N_t为包含特征词t的文档数，N_i为类C_i的文档数，N_i,_t为类C_i中包含特征词t的文档数，则期望交叉熵的计算公式转化为：

CE (t) = Σ_{i = 1}^{m} \frac{N_{i, t}}{N_{total}} \log \frac{N_{i, t} N_{total}}{N_{i} N_{t}}

由于m为类别，因此，对于每个特征词属于各个类别的特征值为：

\frac{N_{i, t}}{N_{total}} \log \frac{N_{i, t} N_{total}}{N_{i} N_{t}}

在上述各个公式中，关于log的底数可以为2，本领域技术人员应该可以理解，这里只是用于举例说明，不应理解为对本发明的限制。底数的取值可以为10或者其他，并不影响处理结果。

累加计算模块140，设计Reduce函数，用于对每个特征词的m个类别的特征值进行并行累加计算。Reduce函数每个key包含一个特征词term，value是把每个特征词m个类别的ce累加起来保存为ece，其中，ce为每个特征词属于各个类别的特征值，最后把key与ece作为<key,value>值对输出。

特征提取模块150，用于根据累加计算后的特征值ece的大小进行排序，并根据排序结果对应的特征词进行文本特征提取。

在该实施例中，由于并行计算每个特征词属于各个类别的特征值，并对每个特征词的m个类别的特征值进行并行累加计算。因此，通过并行运算能够提高海量文本特征的提取速度、效率高，解决了海量文本特征提取单机运算的性能瓶颈。

在本发明的实施例中，文本特征提取系统还包括初始化配置模块，用于从所述参数计算模块读取并保存文档的词频参数，并将所述词频参数传递给所述特征值计算模块。其中，初始化配置模块的输入路径设置为所述参数计算模块的输出路径。该初始化配置模块例如是hadoop初始化函数。

在本发明的实施例中，特征值计算模块130设置在MapReduce编程架构的Map函数中。

在本发明的实施例中，累加计算模块140设置在MapReduce编程架构的Reduce函数中。

其中，MapReduce分布式处理框架的可扩展性非常好，每增加一台服务器，其就能将差不多的计算能力接入到集群中，当文档特征词很多的时候，可以由MapReduce架构自动根据特征数量和机器性能分配为多个Map函数和Reduce函数在多台机器上并行处理，解决了单机运算机器资源和性能的限制。通过1次MapReduce计算即可完成海量文本特征的提取，不仅可以处理大规模文本数据集，而且并行效率高，能够利用集群和并行计算模型提高海量文本特征提取的速度，解决了海量文本特征提取单机运算的性能瓶颈。

下面将通过一个具体实施例，对本发明做进一步说明。在该实施例中，初始化配置模块为hadoop初始化函数，特征值计算模块为Map函数，累加计算模块为Reduce函数。其中：

分词模块将已分好m个类别的文档内容进行分词处理得到多个特征词。

参数计算模块计算文档的词频参数，所述参数包括每个类别的文档数量N_i、包含各个特征词的文档数量N_t、总文档数N_total和每个类别中包含各个特征词的文档数N_i,t。

hadoop初始化函数从所述参数计算模块读取并保存文档的词频参数，并将所述词频参数传递给Map函数。

Map函数中包括key与value值对，其中，每个key值包含一个特征词t，value为特征词t属于各个类别的特征值。计算出特征值后，将特征词t与每个特征词属于各个类别的特征值ce作为<key，value>值对输出给Reduce函数。

Reduce函数根据<key，value>值对，对每个特征词的m个类别的特征值进行并行累加计算，并输出给累加值。Reduce函数每个key包含一个特征词term，value是把每个特征词m个类别的ce累加起来保存为ece，其中，ce为每个特征词属于各个类别的特征值，最后把key与ece作为<key,value>值对输出。

特征提取模块根据累加计算后的特征值ece的大小进行排序，并根据排序结果对应的特征词进行文本特征提取。例如，排在前面的特征词分类能力越强，可根据需要选择排在前面的K个文本特征。

在该实施例中，MapReduce分布式处理框架的可扩展性非常好，每增加一台服务器，其就能将差不多的计算能力接入到集群中，当文档特征词很多的时候，可以由MapReduce架构自动根据特征数量和机器性能分配为多个Map函数和Reduce函数在多台机器上并行处理，解决了单机运算机器资源和性能的限制。通过1次MapReduce计算即可完成海量文本特征的提取，不仅可以处理大规模文本数据集，而且并行效率高，能够利用集群和并行计算模型提高海量文本特征提取的速度，解决了海量文本特征提取单机运算的性能瓶颈。

图2为实施例中一种文本特征提取方法的流程图。该方法包括以下步骤：

在步骤210，将已分好m个类别的文档内容进行分词处理得到多个特征词。

在步骤220，计算文档的词频参数，所述参数包括每个类别的文档数量N_i、包含各个特征词的文档数量N_t、总文档数N_total和每个类别中包含各个特征词的文档数N_i,t。

在步骤230，根据词频参数并行计算每个特征词属于各个类别的特征值。

设计Map函数，并行计算每个特征词属于各个类别的特征值。Map函数的输入key值由类别label与特征词term组合而成，value为类别label中包含特征term的文档数N_i,t，把特征词term与每个特征词属于各个类别的特征值ce作为<key,value>值对输出。

\frac{N_{i, t}}{N_{total}} \log \frac{N_{i, t} N_{total}}{N_{i} N_{t}}

期望交叉熵公式为：

CE (t) = P (t) Σ_{i = 1}^{m} P (C_{i} / t) lot \frac{P (C_{i} / t)}{P (C_{i})}

根据文档的词频参数，则：

P (t) = \frac{N_{t}}{N_{total}}, P (C_{i}) = \frac{N_{i}}{N_{total}}, P (C_{i} / t) = \frac{N_{i, t}}{N_{t}}

CE (t) = Σ_{i = 1}^{m} \frac{N_{i, t}}{N_{total}} \log \frac{N_{i, t} N_{total}}{N_{i} N_{t}}

\frac{N_{i, t}}{N_{total}} \log \frac{N_{i, t} N_{total}}{N_{i} N_{t}}

在步骤240，对每个特征词的m个类别的特征值进行并行累加计算。

设计Reduce函数，用于对每个特征词的m个类别的特征值进行并行累加计算。Reduce函数每个key包含一个特征词term，value是把每个特征词m个类别的ce累加起来保存为ece，其中，ce为每个特征词属于各个类别的特征值，最后把key与ece作为<key,value>值对输出。

在步骤250，根据累加计算后的特征值ece的大小进行排序，并根据排序结果对应的特征词进行文本特征提取。

在本发明的实施例中，在步骤220与步骤230之间还包括：初始化配置，即，读取并保存文档的词频参数。该初始化配置例如是hadoop初始化函数执行。其中，初始化配置的输入路径设置为步骤220的输出路径，并将词频参数输出到步骤230。

在本发明的实施例中，步骤230可以通过MapReduce编程架构的Map函数计算每个特征词属于各个类别的特征值。

在本发明的实施例中，步骤240可以通过MapReduce编程架构的Reduce函数对每个特征词的m个类别的特征值进行并行累加计算。

下面将通过一个具体实施例，对本发明做进一步说明。其中：

将已分好m个类别的文档内容进行分词处理得到多个特征词。

计算文档的词频参数，所述参数包括每个类别的文档数量N_i、包含各个特征词的文档数量N_t、总文档数N_total和每个类别中包含各个特征词的文档数N_i,t。

hadoop初始化函数读取并保存文档的词频参数，并将所述词频参数传递给Map函数。

根据累加计算后的特征值ece的大小进行排序，并根据排序结果对应的特征词进行文本特征提取。例如，排在前面的特征词分类能力越强，可根据需要选择排在前面的K个文本特征。

该实施例中，MapReduce分布式处理框架的可扩展性非常好，每增加一台服务器，其就能将差不多的计算能力接入到集群中，当文档特征词很多的时候，可以由MapReduce架构自动根据特征数量和机器性能分配为多个Map函数和Reduce函数在多台机器上并行处理，解决了单机运算机器资源和性能的限制。通过1次MapReduce计算即可完成海量文本特征的提取，不仅可以处理大规模文本数据集，而且并行效率高，能够利用集群和并行计算模型提高海量文本特征提取的速度，解决了海量文本特征提取单机运算的性能瓶颈。

至此，已经详细描述了本发明。为了避免遮蔽本发明的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

可能以许多方式来实现本发明的方法以及装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法以及装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员应该理解，可在不脱离本发明的范围和精神的情况下，对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims

1.一种文本特征提取系统，其特征在于，包括：

2.根据权利要求1所述的文本特征提取系统，其特征在于，包括：

特征值计算模块用于根据计算每个特征词属于各个类别的特征值。

3.根据权利要求1或2所述的文本特征提取系统，其特征在于，还包括：

初始化配置模块，用于从所述参数计算模块读取并保存文档的词频参数，并将所述词频参数传递给所述特征值计算模块。

4.根据权利要求1所述的文本特征提取系统，其特征在于，包括：

特征值计算模块设置在MapReduce编程架构的Map函数中。

5.根据权利要求1所述的文本特征提取系统，其特征在于，包括：

累加计算模块设置在MapReduce编程架构的Reduce函数中。

6.一种文本特征提取方法，其特征在于，包括：

将已分好m个类别的文档内容进行分词处理得到多个特征词；

根据词频参数并行计算每个特征词属于各个类别的特征值；

对每个特征词的m个类别的特征值进行并行累加计算；

7.根据权利要求6所述的文本特征提取方法，其特征在于，包括：

根据计算每个特征词属于各个类别的特征值。

8.根据权利要求6或7所述的文本特征提取方法，其特征在于，包括：

初始化配置，包括读取并保存文档的词频参数，并将所述词频参数传递给Map函数。

9.根据权利要求6所述的文本特征提取方法，其特征在于，包括：

在MapReduce编程架构的Map函数中计算每个特征词属于各个类别的特征值。

10.根据权利要求6所述的文本特征提取方法，其特征在于，包括：

在MapReduce编程架构的Reduce函数中对每个特征词的m个类别的特征值进行并行累加计算。