CN104408034B

CN104408034B - 一种面向文本大数据的中文分词方法

Info

Publication number: CN104408034B
Application number: CN201410711771.1A
Authority: CN
Inventors: 徐涛; 邹复好; 周可; 唐小蔓; 郑胜; 张胜; 陈进才; 李春花
Original assignee: WUHAN SHUWEI TECHNOLOGY Co Ltd
Current assignee: WUHAN SHUWEI TECHNOLOGY Co Ltd
Priority date: 2014-11-28
Filing date: 2014-11-28
Publication date: 2017-03-22
Anticipated expiration: 2034-11-28
Also published as: CN104408034A

Abstract

本发明公开了一种面向文本大数据的中文分词方法，属于自然语言处理领域。其特征在于所述方法包括以下步骤：(1)对本地海量数据文件进行分解处理，形成数据块；(2)对分解后的数据块文件进行Map化处理，得到以偏移量为Key，文本内容为Value的<Key,Value>键值对；(3)通过一系列的分词处理，获得最终的分词结果，并且得到以偏移量为Key，分词结果为Value的<Key,Value>键值对，作为Map函数的输出；(4)对Map函数得到的<Key,Value>键值对进行Reduce处理，Reduce函数得到原始文件与分词结果文件对应<Key,Value>键值对的索引文件，并将最终结果汇总写入到HDFS。该方法在文本大数据情况下，保证了分词准确率的同时，并且极大的提高了系统的吞吐率以及中文分词的效率，具有极高的实用价值。

Description

一种面向文本大数据的中文分词方法

技术领域

本发明属于自然语言处理技术领域，更具体地，涉及一种面向文本大数据的中文分词方法。

背景技术

近年来，互联网信息呈爆炸式增长，互联网上的文本规模越来越大，信息资源不断增加，人工地从海量数据中获取重要信息越来越困难，用户感兴趣的信息淹没于大量无关信息中。为了从大量的资源信息中获取有价值的信息，自然语言处理技术得到了广大互联网公司的重视，如像谷歌、百度等搜索引擎公司都在自然语言处理领域有广泛的研究。

在大数据环境下，对海量数据的处理需要采用并行分布式计算方法，以提高数据的吞吐率。然而现有的中文分词版本都是单机版本，无法直接应用到并行分布式环境，并且现有的中文分词方法都是单独的基于理解、基于统计或基于字符串匹配的方法，分词的效率及准确度有待提升。

发明内容

现有的中文分词技术都是单机版本，无法直接应用到分布式环境中，在大数据环境下，分词效率低下，数据吞吐率低。为了提高大数据环境下的吞吐率、分词的效率、准确度的问题，本发明提出一种面向文本大数据的中文分词方法，采用MapReduce计算模型来对海量数据进行处理，基于统计和基于字符串匹配相结合的方法，可有效解决在文本大数据情况下的中文分词的准确性、实用性及效率问题。

为实现上述目的，本发明采用的技术方案是：

一种面向文本大数据的中文分词方法，所述方法包含以下步骤：

(1)数据处理：对本地海量数据文件进行分解处理，形成数据块；

(2)Map化处理：对步骤(1)中得到的数据块文件进行Map化处理，得到以偏移量为Key，文本内容为Value的<Key,Value>键值对；

(3)分词处理：对步骤(2)中得到的处理后的<Key,Value>键值对中的Value值进行分词处理，获得最终的分词结果，并且得到以偏移量为Key，分词结果为Value的<Key,Value>键值对，作为Map函数的输出；

(4)Reduce化处理：对步骤(3)中得到的<Key,Value>键值对进行Reduce处理，Reduce处理得到原始文件与分词结果文件对应<Key,Value>键值对的索引文件，并将最终结果汇总写入到HDFS。

本发明的一个实施例中，所述步骤(1)具体包括：

(1.1)用户向Hadoop分布式系统中的文件系统HDFS上传执行分词任务的jar文件及相应的配置文件；

(1.2)设定系统初始分词结点数N，数据块的大小为M，JobClient读取原始文本文件，并根据数据块的大小M将大文件分解成若干个数据块，并向JobTracker提交中文分词任务；

(1.3)JobTracker向TaskTracker指派Map任务和Reduce任务；

(1.4)被指派执行Map任务的TaskTracker创建Task实例来读取要进行分词的分块文件，对数据块的内容进行编码转换和数据清洗处理。

本发明的一个实施例中，所述步骤(2)具体包括：

(2.1)对步骤(1)处理之后得到的文本进行Map化处理，形成<Key，Value>键值对，其中Key为每一行文本相对于分块文件头的偏移，Value为分块文件的每一行文本；

(2.2)在自定义的Mapper类中初始化分词实例对象，在Map函数中对步骤(2.1)的得到的<Key,Value>键值对中的Value值实行相应的分词处理。

本发明的一个实施例中，所述步骤(3)具体包括：

(3.1)首先对步骤(2)中得到的<Key,Value>键值对的每一个Value值进行原子切分，然后对每个相邻的原子进行组合，查看字典里是否有相应的词组匹配，如果可以匹配则将其组合成一个词组，直到所有的原子匹配完成，得到初分结果；

(3.2)将步骤(3.1)得到的初分结果用有向权值图来表示，步骤(3.1)中得到的每个Value值的第一个词作为有向权值图中的起始结点，将每条记录的最后一个词作为有向权值图中的末尾结点，有向权值图中的每个相邻词组之间的权值为大量语料统计得到的词组之间的耦合度，权值越小代表两个词之间独立成词的概率越大；

(3.3)采用K最短路径算法对步骤(3.2)得到的有向权值图构建粗分模型；

(3.4)根据Dijkstra算法计算步骤(3.2)得到的有向权值图中的起始结点到每个结点的最短路径长度及PreNode链表以及标记值index；

(3.5)将步骤(3.4)中的得到PreNode链表的末尾结点入栈，作为结束结点，当末尾结点出栈时，算法结束；对于每一个PreNode队列，维护了一个当前指针，初始状态都指向PreNode的第一个元素；

(3.6)从左到右依次取出步骤(3.5)中得到的PreNode队列中的当前指针所指的PreNode结点，当起始结点入栈时，即得到一个最短路径，也就是得到了一个划分结果；

(3.7)依次弹出步骤(3.6)中得到的栈中的结点，每弹出一个结点，就将当时进栈时所对应的PreNode指针向后移一位，如果到了末尾无法下移，则继续执行步骤(3.7)，否则执行步骤(3.6)；

(3.8)当得到了前N条路径长度的所有路径时，即可得到第二次粗分的结果；

(3.9)扫描步骤(3.8)中得到的所有结果，对其中的特殊格式数据做相应的处理，处理完之后，重新得到新的分词结果，其中所述特殊格式数据包括数字、日期；

(3.10)采用Viterbi算法对步骤(3.9)中得到的分词结果进行自动的角色标注，并且在所有的标注序列中选择一个最大概率的序列，然后与特定的模式串进行匹配，匹配成功后就得到了一个未登录词；

(3.11)将步骤(3.10)中得到角色标注序列选择一个最大概率的序列与特定的模式串进行匹配，该模式串是通过对大量语料库的分析和训练，得到的未登录词的常见组合序列模式串，每匹配成功一次就识别一个未登录词作为一个新词，然后对步骤(3.9)得到的分词结果重新排列就得到了第四次分词的结果；

(3.12)将步骤(3.11)中得到的分词结果应用隐马尔科夫模型(HMM)及步骤(3.10)中所述的Viterbi算法，实现对分词结果的词性标注；

(3.13)将步骤(3.12)中识别出的新词加入到词典当中，然后对分词结果应用逆向最大匹配的方法再次切分，形成最终的分词结果；

(3.14)将步骤(3.13)中生成的最终分词结果和Map函数的输入参数<Key,Value>键值对中的Key值组合成新的<Key,Value>键值对，Key即为Map函数的输入参数的Key值，即为每一行文本相对于分块文件头的偏移，而Value就对应每行文本分词之后的结果，新生成的这个<Key,Value>键值对作为Map函数的输出参数。

本发明的一个实施例中，所述步骤(3.3)中的K最短路径算法具体为：K最短路径算法最短路径算法和全切分算法的折中，该方法尽量减少切分出来的词数，同时又尽可能的包含最终的分词结果；当K＝1时，就相当于为最短路径算法；K取值为所有的路径长度个数时就相当于全切分方法。

本发明的一个实施例中，所述步骤(3.10)中的Viterbi算法具体为：

其中，V是步骤(3.9)中得到的分词后的结果，T是V的的某个可能的标注结果，T¹是最大概率的角色标注序列，即最终的角色标注结果。

本发明的一个实施例中，所述步骤(4)具体包括：

(4.1)步骤(3)中生成的<Key,Value>键值对被保存到TaskTracker所在节点的磁盘里，TaskTracker将这些键值对的位置发送给JobTracker，JobTracker再将此信息发送给执行Reduce任务的TaskTracker；

(4.3)执行Reduce任务的TaskTracker根据JobTracker发送来键值对的位置信息从各个节点中读取键值对的信息；

(4.4)Reduce函数将读取到的键值对<Key,Value>中与的Value值即分词结果封装到迭代器中，依次输出迭代器中的内容并写入到文件中，将输出得到的文件名作为Reduce函数处理后的输出键值对<Key,Value>中的Value值，Key为原始文本的文件名，构建相应的索引文件；

(4.5)执行Reduce任务的TaskTracker根据步骤(4.4)生成的索引文件将结果汇总写入HDFS。

与现有技术相比，本发明具有以下的优点和技术效果：

(1)可有效的解决在文本大数据情况下中文分词的效率问题，大大减少了分词的时间，提高了系统的吞吐率；

(2)采用基于统计和基于字符串匹配相结合的方法来进行中文分词，有效的提高了分词的准确度；

(3)在参与实际分词结点数目的变化这一过程中，能很快重新进行任务划分，提高了系统调度的效率，极大地减少了系统调度的性能损失；

(4)本发明满足了面向文本大数据的分词系统中的任务调度与中文分词的要求，具有极高的应用价值。

附图说明

图1为本发明的面向文本大数据的中文分词方法的模块示意图；

图2为本发明的面向文本大数据的中文分词方法的流程示意图；

图3为本发明的中文分词方法的MapReduce处理流程示意图。

具体实施方式

以下首先对本发明的技术术语进行解释和说明：

MapReduce计算模型:MapReduce是Google提出的一种实现分布式并行计算任务的通用软件框架，它简化了由普通计算机组成的超大集群上的并行软件编程模式，可用于大规模数据集的并行计算。

Hadoop分布式文件系统：Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop的框架最核心的设计就是：HDFS(Hadoop Distributed File System)和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。在Hadoop分布式文件系统中，主要包括三种角色：JobClient，JobTracker，TaskTracker。JobClient用于提交任务；JobTracker用于监控Task的运行情况，进行相应的调度；TaskTracker主动与JobTracker通信，接收作业，并负责直接执行每一个任务。

Hadoop Distributed File System：简称HDFS，是一个分布式文件系统。HDFS有着高容错性(fault-tolerant)的特点，并且设计用来部署在低廉的硬件上。而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序。

下面结合附图和具体实施方式对本发明技术方案做进一步详细说明。

本发明的主要步骤是对海量文本数据的进行中文分词，即将中文分词的任务分配到不同的任务处理结点，并对相应的结果进行相关处理之后写入HDFS，同时采用高效的调度算法处理实际任务结点的动态加入和退出。

图1是本发明提供的面向文本大数据的分词方法的组成模块示意图。参见图1，本发明包含以下几个步骤：

图2是本发明提供的面向文本大数据的分词方法的具体操作示意图。下面结合图2来阐述每个步骤的具体操作：

(1)数据处理阶段，上传分词任务，对本地海量数据文件进行分割，数据清洗，编码转换等处理，得到处理好后固定大小的数据块。

其中，所述步骤(1)具体包括：

(1.3)JobTracker向TaskTracker指派Map任务和Reduce任务；

(1.4)被指派执行Map任务的TaskTracker创建Task实例来读取要进行分词的分块文件，对数据块的内容进行编码转换，数据清洗等相关处理。

(2)Map化处理步骤，对处理好的数据块的内容进行Map化处理，形成<Key,Value>键值对，作为后续分词处理模块的输入参数。

其中，所述步骤(2)具体包括：

(3)分词处理步骤：对Map化处理后的文本进行分词处理，包括原子切分、构建K最短路径粗分模型、未登录词的识别、词性标注、运用最大匹配的方法再次切分这五个步骤。经过这五个步骤的处理之后，获得最终的分词结果，并且得到以偏移量为Key，分词结果为Value的<Key,Value>键值对，作为Map函数的输出.

其中，所述步骤(3)具体包括：

(3.3)采用K最短路径算法对步骤(3.2)得到的有向权值图构建粗分模型，所谓的K最短路径算法即为最短路径算法和全切分算法的折中，该方法尽量减少切分出来的词数，同时又尽可能的包含最终的分词结果。通过这种有机结合，一方面避免了最短路径算法舍弃正确结果的可能，另一方面又大大解决了全切分搜索空间过大的弊端。因此，K的取值就显得尤为重要。当K＝1时，就相当于为最短路径算法；K取值为所有的路径长度个数时就相当于全切分方法。

(3.5)将步骤(3.4)中的得到PreNode链表的末尾结点入栈，作为结束结点，当末尾结点出栈时，算法结束。对于每一个PreNode队列，维护了一个当前指针，初始状态都指向PreNode的第一个元素；

(3.6)从左到右依次取出步骤(3.5)中得到的PreNode队列中的当前指针所指的PreNode结点，当起始结点入栈时，即得到一个最短路径，也就是得到了一个划分结果。

(3.8)当得到了前N条路径长度的所有路径时，即可得到最终的第二次粗分的结果；

(3.9)扫描步骤(3.8)中得到的所有结果，对其中的数字，日期等特殊格式做相应的处理，处理完之后，重新得到新的分词结果；

(3.10)采用Viterbi算法对步骤(3.9)中得到的分词结果进行自动的角色标注，并且在所有的标注序列中选择一个最大概率的序列，然后与特定的模式串进行匹配，匹配成功后就得到了一个未登录词。

设V是步骤(3.9)中得到的分词后的结果，T是V的的某个可能的标注结果，T¹是最大概率的角色标注序列，即最终的角色标注结果。则有：

根据贝叶斯公式，对于一个特定的序列来说，P(V)是常数，由此我们可以得到

如果把词vi视为观察值，把角色ti视为状态值。则V是观察序列，则T为隐藏在V后的状态序列，这是一个隐马尔可夫链。那么，我们可以引入隐马尔可夫模型来计算P(T)P(V|T)。即：

由此可以得到即可求解得到T¹的最大值，也就可以得到最终的角色标注序列；

(3.14)将步骤(3.13)中生成的最终分词结果和Map函数的输入参数<Key,Value>键值对中的Key值组合成新的<Key,Value>键值对，Key即为Map函数的输入参数的Key值，即为每一行文本相对于分块文件头的偏移，而Value就对应每行文本分词之后的结果。新生成的这个<Key,Value>键值对作为Map函数的输出参数。

(4)Reduce化处理步骤，用于对分词后的结果进行Reduce化处理，形成<Key,Value>键值对，并且进行合并，汇总操作，将最终结果写入HDFS。

其中，所述步骤(4)具体包括：

参见图3，图3即为本发明的提供的面向文本大数据中文分词方法的MapReduce处理流程示意图。

图3详细解释了本发明分词的MapReduce处理过程，首先读取原始数据文件，按照系统初始设定的数据块大小M对原始数据文件进行分割处理，存储到HDFS中；然后TaskTracker从HDFS中读取数据块的内容进行Map化处理，进行分词操作，分词完成之后将输出的<Key,Value>键值对存储在本地硬盘上，TaskTracker读取本地硬盘上存储的<Key,Value>键值对的信息作为Reduce函数的输入参数，进行Reduce化处理，最后将结果汇总写入到HDFS.

以上所述仅为本发明的较佳实施例，其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施，并不用以限制本发明。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向文本大数据的中文分词方法，其特征在于，所述方法包括如下步骤：

所述步骤(3)具体包括：

(3.14)将步骤(3.13)中生成的最终分词结果和Map函数的输入参数<Key,Value>键值对中的Key值组合成新的<Key,Value>键值对，Key即为Map函数的输入参数的Key值，即为每一行文本相对于分块文件头的偏移，而Value就对应每行文本分词之后的结果，新生成的这个<Key,Value>键值对作为Map函数的输出参数；

2.如权利要求1所述的方法，其特征在于，所述步骤(1)具体包括：

(1.3)JobTracker向TaskTracker指派Map任务和Reduce任务；

3.如权利要求1或2所述的方法，其特征在于，所述步骤(2)具体包括：

4.如权利要求1或2所述的方法，其特征在于，所述步骤(3.3)中的K最短路径算法具体为：K最短路径算法最短路径算法和全切分算法的折中，该方法尽量减少切分出来的词数，同时又尽可能的包含最终的分词结果；当K＝1时，就相当于为最短路径算法；K取值为所有的路径长度个数时就相当于全切分方法。

5.如权利要求1或2所述的方法，其特征在于，所述步骤(3.10)中的Viterbi算法具体为：

T^{1} = \underset{T}{argmax} P (T | V), T = (t_{1}, t_{2}, t_{3}, ..., t_{m}), m > 0, V = (v_{1}, v_{2}, v_{3}, ..., v_{m});

其中，V是步骤(3.9)中得到的分词后的结果，T是V的某个可能的标注结果，T¹是最大概率的角色标注序列，即最终的角色标注结果。

6.如权利要求1或2所述的方法，其特征在于，所述步骤(4)具体包括：