CN109388803A

CN109388803A - 中文分词方法及系统

Info

Publication number: CN109388803A
Application number: CN201811188306.9A
Authority: CN
Inventors: 钟留娥; 闵博; 田文宝
Original assignee: Beijing Sohu New Media Information Technology Co Ltd
Current assignee: Beijing Sohu New Media Information Technology Co Ltd
Priority date: 2018-10-12
Filing date: 2018-10-12
Publication date: 2019-02-26
Anticipated expiration: 2038-10-12
Also published as: CN109388803B

Abstract

本发明提供的中文分词方法及系统，获取指定领域的目标文本，与预置的隐马尔可夫模型HMM模型；利用核心词典对目标文本进行分词处理，得到第一目标词网；采用HMM模型的Viterbi算法，对第一目标词网进行消歧处理，得到第二目标词网；利用实体识别模型，对目标文本进行实体识别处理，得到目标实体词；将目标实体词纳入到第二目标词网中，得到第三目标词网；采用HMM模型的Viterbi算法，对第三目标词网进行消歧处理，得到最优分词序列；利用HMM模型，对最优分词序列进行词性标注，得到目标分词结果。本发明的技术方案，提高了针对指定领域的中文文本的分词准确性与分词效率，大幅提高了针对指定领域中文文本的分词质量。

Description

中文分词方法及系统

技术领域

本发明涉及信息处理技术领域，更具体的说，涉及中文分词方法及系统。

背景技术

中文自动分词是中文信息处理的一项重要的基础性工作，许多中文信息处理项目中都涉及到分词问题，如搜索引擎、机器翻译、自动文摘、分类聚类、语言识别，人机对话等。

现有的中文分词算法，大致可分为基于字符串匹配的分词方法与基于统计的分词方法。基于字符串匹配的分词方法，又称为机械分词方法，常用的算法有正向最大匹配法、逆向最大匹配法、最小匹配方法等，这类方法简单、分词效率较高，但面对语言现象丰富的中文文本进行分词时，其正确率较低，分词质量较差；基于统计的分词方法，针对中文文本进行分词时正确率有所提高，但是在面对特定领域的中文文本时，由于特定领域与通用领域的词汇结合会产生“跨界”问题(也即，交集型歧义切分问题)，同样会导致最终的分词质量较差的问题。

因此，目前迫切需要一种能够针对特定领域的中文文本，实现准确、高效的分词处理的技术方案。

发明内容

有鉴于此，本发明提供了一种中文分词方法及系统，以解决目前的中文分词方案在针对特征领域的中文文本时，其分词质量较差的技术问题。

为实现上述目的，本发明提供如下技术方案：

一种中文分词方法，所述方法包括：

获取指定领域的目标文本，与预置的隐马尔可夫模型HMM模型；其中，所述HMM模型包含所述指定领域对应的核心词典、接续词典、词性转移矩阵与实体识别模型；

利用所述核心词典对所述目标文本进行分词处理，得到多个分词候选集，形成第一目标词网；

采用所述HMM模型的维特比Viterbi算法，对所述第一目标词网进行消歧处理，得到第二目标词网；

利用所述实体识别模型，对所述目标文本进行实体识别处理，得到目标实体词；

将所述目标实体词纳入到所述第二目标词网中，得到第三目标词网；

采用所述HMM模型的维特比Viterbi算法，对所述第三目标词网进行消歧处理，得到最优分词序列；

利用所述HMM模型，对所述最优分词序列进行词性标注，得到目标分词结果。

优选的，所述核心词典存储在双数组Trie树中；所述利用所述核心词典对所述目标文本进行分词处理，得到多个分词候选集，形成第一目标词网包括：

基于所述双数组Trie树，将所述目标文件与所述核心词典进行匹配，得到多个分词候选集，形成第一目标词网。

优选的，所述采用所述HMM模型的维特比Viterbi算法，对所述第一目标词网进行消歧处理，得到第二目标词网包括：

采用所述HMM模型的维特比Viterbi算法，获取所述第一目标词网中各个分词候选集的概率值；

从所述第一目标词网中剔除概率值非最大的分词候选集，得到第二目标词网。

优选的，所述利用所述实体识别模型，对所述目标文本进行实体识别处理，得到目标实体词包括：

利用所述实体识别模型，根据所述目标文本构建目标角色网；所述目标角色网用于表征所述目标文本中的角色与词汇之间的关系网；

采用所述HMM模型的维特比Viterbi算法，对所述目标角色网进行消歧处理，得到角色最优解，作为目标实体词；

其中，所述实体识别模型中构建了角色标注序列，并拟合了不同角色之间的转移概率。

优选的，所述利用所述HMM模型，对所述最优分词序列进行词性标注，得到目标分词结果包括：

根据所述核心词典，获取所述最优分词序列中各个词汇分别对应的不同词性，形成所述最优分词序列对应的目标词性网；

利用所述HMM模型的维特比Viterbi算法，对所述目标词性网进行消歧处理，得到最优词性标注序列，作为目标分词结果。

优选的，在所述利用所述HMM模型，对所述最优分词序列进行词性标注，得到目标分词结果之后，所述方法还包括：

当检测到所述目标分词结果有误时，利用预设的自定义领域词典，对所述目标分词结果进行更正。

优选的，所述HMM模型的训练过程包括：

获取所述指定领域的语料库；

通过对所述语料库进行解析处理，获取所述所述指定领域对应的核心词典、接续词典、词性转移矩阵与实体识别模型。

优选的，所述HMM模型的训练过程还包括：

根据所述语料库中词汇的类型，确定与所述类型相匹配的等效词；

将所述等效词纳入到所述核心词典与所述接续词典中。

优选的，所述HMM模型的训练过程还包括：

利用所述实体识别模型，提取所述语料库中的实体词；

将所述实体词纳入到所述核心词典中。

一种中文分词系统，所述系统包括：

信息获取单元，用于获取指定领域的目标文本，与预置的隐马尔可夫模型HMM模型；其中，所述HMM模型包含所述指定领域对应的核心词典、接续词典、词性转移矩阵与实体识别模型；

分词处理单元，用于利用所述核心词典对所述目标文本进行分词处理，得到多个分词候选集，形成第一目标词网；

消歧处理单元，用于采用所述HMM模型的维特比Viterbi算法，对所述第一目标词网进行消歧处理，得到第二目标词网；

实体识别单元，用于利用所述实体识别模型，对所述目标文本进行实体识别处理，得到目标实体词；将所述目标实体词纳入到所述第二目标词网中，得到第三目标词网；

所述消歧处理单元，还用于采用所述HMM模型的维特比Viterbi算法，对所述第三目标词网进行消歧处理，得到最优分词序列；

词性标注单元，用于利用所述HMM模型，对所述最优分词序列进行词性标注，得到目标分词结果。

从上述的技术方案可以看出，本发明提供的中文分词方法及系统，将机械分词方式与统计分词方式相结合，通过良好的流程控制与架构设计，在获取指定领域的目标文本与预置的隐马尔可夫模型HMM模型后，利用核心词典对目标文本进行分词处理，得到第一目标词网；采用维特比Viterbi算法对第一目标词网进行消歧处理，得到第二目标词网；利用实体识别模型对目标文本进行实体识别处理，得到目标实体词；将目标实体词纳入到第二目标词网中得到第三目标词网；采用维特比Viterbi算法对第三目标词网进行消歧处理，得到最优分词序列；利用HMM模型对最优分词序列进行词性标注，得到目标分词结果，从而提高了针对指定领域的中文文本的分词准确性与分词效率，大幅提高了针对指定领域中文文本的分词质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的中文分词方法的一种流程图；

图2为本发明实施例提供的中文分词方法的业务流程示意图；

图3为本发明实施例提供的中文分词方法的另一种流程图；

图4为本发明实施例提供的HMM模型训练过程的流程图；

图5为本发明实施例提供的HMM模型训练过程的示意图；

图6为本发明实施例提供的中文分词系统的一种结构示意图；

图7为本发明实施例提供的中文分词系统的另一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着移动互联网的快速发展，人们的日常生活与互联网紧密相连，互联网信息成为信息获取的主要来源，已经广泛渗透到各个领域。而中文自动分词是中文信息处理的一项重要的基础性工作，许多中文信息处理项目中都涉及到分词问题。中文自动分词指的是，使用计算机自动对中文文本进行词语的切分，即像英文那样使得中文句子中的词之间有空格以标识。

基于字符串匹配的分词方法，又称为机械分词方法，常用的算法有正向最大匹配法、逆向最大匹配法、最小匹配方法等。这类方法简单、分词效率较高,但汉语语言现象复杂丰富，词典的完备性、规则的一致性等问题使其难以适应开放的大规模文本的分词处理(比如未登录词)

基于统计的分词方法，常用的模型有隐马尔可夫模型(Hidden Markov Model，简称HMM)、条件随机场模型(Conditional Random Fields，简称CRF)。基于统计模型的分词思想，是把每个词看做是由词的最小单位各个字组成的，如果相连的字在不同的文本中出现的次数越多，就证明这相连的字很可能就是一个词。因此我们就可以利用字与字相邻出现的频率来反映成词的可靠度，统计语料中相邻共现的各个字的组合频度，当组合频度高于某一个临界值时，我们便可认为此字组可能会构成一个词语。

机械分词方法，实现简单，切分速度快，但正确率只有80％左右。

基于统计的分词方法，实现复杂，消歧义能力优良，支持未登录词识别，正确率一般可以达到95％以上。但是通用领域的分词系统对视频等特定领域文本分词会造成精度下降，主要原因在于：特定领域专业术语切分存在多样性，缺少分词标准来规范；特定领域与通用领域词汇结合所产生的“跨界”问题，也就是交集型歧义切分问题；并且，提高视频等特定领域的分词质量，需要建设与该领域对应的大量语料库，语料库的建设成本高昂，也限制了统计模型在不同领域的自适应性。

请参阅图1，图1为本发明实施例提供的中文分词方法的一种流程图。

如图1所示，所述方法包括：

S101：获取指定领域的目标文本，与预置的隐马尔可夫模型HMM模型。

所述HMM模型包含所述指定领域对应的核心词典、接续词典、词性转移矩阵与实体识别模型。所述HMM模型可具体为多层HMM模型。

其中，所述指定领域具体可以是视频领域，当然也可以是其他不同的特定领域。

在获取目标文本时，可以先获取指定领域的视频文本，再对所述视频文本进行预处理，进而得到所要获取的目标文本。其中，所述预处理可包括全角转半角、大写转小写、繁体转简体等处理。

S102：利用所述核心词典对所述目标文本进行分词处理，得到多个分词候选集，形成第一目标词网。

利用所述核心词典对所述目标文本进行分词处理，实际上就是采用机械分词的方法，将核心词典与目标文本中的词进行匹配，并得到目标文本对应的多种分词结果。其中，多种分词结果即为所述多个分词候选集，第一目标词网就是指所述多个分词候选集。

S103：采用所述HMM模型的维特比Viterbi算法，对所述第一目标词网进行消歧处理，得到第二目标词网。

使用HMM模型的分词算法，通过对语料库进行统计，可以得到HMM模型中五大要素：起始概率矩阵，转移概率矩阵，发射概率矩阵，观察值集合，状态值集合。有了这三个矩阵和两个集合后，HMM问题最终转化成求解隐藏状态序列最优解的问题，而求解这个问题最常使用的就是维特比Viterbi算法。

在统计消歧过程中，一段文字的每个字符可以看作是一个观测值，而实际的切分结果可以看作是隐藏的状态。

S104：利用所述实体识别模型，对所述目标文本进行实体识别处理，得到目标实体词。

通过HMM模型提供的不同的实体识别模型，可以对人名、地名、机构名等未登录词进行识别。所述目标实体词则包括识别出来的未登录词。

S105：将所述目标实体词纳入到所述第二目标词网中，得到第三目标词网。

在统计实体识别过程中，同样将每个字符看做一个观测值，而实际的标注角色可以看做隐藏的状态。通过维特比算法计算最大概率的同时，就达到了做到了歧义消除及未登录词识别的效果。

例如，第二目标词网包括分词候选集(“张”、“鹏”、“热爱”、“工作”)，目标实体词为“张鹏”，在将目标实体词“张鹏”纳入到第二目标词网后，得到第三目标词网包括(“张”、“鹏”、“热爱”、“工作”)，与(“张鹏”、“热爱”、“工作”)这两个分词候选集。

S106：采用所述HMM模型的维特比Viterbi算法，对所述第三目标词网进行消歧处理，得到最优分词序列。

采用所述HMM模型的维特比Viterbi算法，对所述第三目标词网进行消歧处理，就是从(“张”、“鹏”、“热爱”、“工作”)，与(“张鹏”、“热爱”、“工作”)这两个分词候选集中选出最优的分词候选集，作为最优分词序列。

采用HMM模型进行目标文本的消歧及目标实体词(如未登录词)识别的基本思想就是根据观测值序列找到真正的隐藏状态值序列。

S107：利用所述HMM模型，对所述最优分词序列进行词性标注，得到目标分词结果。

核心词典中包括各个词汇的词性。通过HMM模型提供的核心词典，就可以得到最优分词序列中各个词汇对应的至少一个词性，进而实现对最优分词序列的词性标注，得到最终的目标分词结果。

一示例中，在所述利用所述HMM模型，对所述最优分词序列进行词性标注，得到目标分词结果之后，所述方法还包括：

所有的分词模型都不可能做到绝对的切分正确，尤其是针对特定领域进行切分，统计模型的分词精准度都会有一定的下降，因此可在分词最后阶段加入人工干预机制，针对发现的bad case(错误的分词例子)进行实时干预，做到极大的切分灵活性，并能够进一步为中文分词提供丰富的领域信息。

在分词最后阶段，如果用户针对目标文本强制指定了某种分词规则，则最终以指定的分词规则对目标文本进行分词，提高中文分词的灵活性。

一示例中，中文分词方法的业务流程可如图2所示，在获取到所要进行分词处理的中文文本后，可以先对该中文文本进行规格化处理，如前面提到的“预处理”，得到纯文本作为目标文本；再利用前述的核心词典对该目标文本进行分词处理，得到包含多个分词候选集的词网(即第一目标词网)；然后，采用维特比算法对该词网进行消歧，再采用维特比算法对目标文本进行实体识别，并将实体识别结果纳入到消歧后的词网(第二目标词网)中；然后，再次采用维特比算法对当前的词网(第三目标词网)进行消歧，得到最优分词序列；然后采用维特比算法对最优分词序列进行词性标注，通过标注词性得到最终分词，作为目标分词结果；其中，在获取目标分词结果的过程中，还可以加入人工干预词典(即自定义领域词典)来对最终分目标分词结果进行实时干预。

由此可见，本发明提出的了一种字典与统计相结合的中文分词方法，该方法通过良好的流程控制与架构设计，有效的解决了视频领域大规模中文文本分词的需求。

本发明实施例提供的中文分词方法，将机械分词方式与统计分词方式相结合，通过良好的流程控制与架构设计，在获取指定领域的目标文本与预置的隐马尔可夫模型HMM模型后，利用核心词典对目标文本进行分词处理，得到第一目标词网；采用维特比Viterbi算法对第一目标词网进行消歧处理，得到第二目标词网；利用实体识别模型对目标文本进行实体识别处理，得到目标实体词；将目标实体词纳入到第二目标词网中得到第三目标词网；采用维特比Viterbi算法对第三目标词网进行消歧处理，得到最优分词序列；利用HMM模型对最优分词序列进行词性标注，得到目标分词结果，从而提高了针对指定领域的中文文本的分词准确性与分词效率，大幅提高了针对指定领域中文文本的分词质量。

请参阅图3，图3为本发明实施例提供的中文分词方法的另一种流程图。

如图3所示，所述方法包括：

S201：获取指定领域的目标文本，与预置的隐马尔可夫模型HMM模型。

所述HMM模型包含所述指定领域对应的核心词典、接续词典、词性转移矩阵与实体识别模型。其中，所述核心词典可存储在双数组Trie树中。

分词词典的查询速度是匹配算法效率的直接决定因素，汉语词典一般有上百万条，如果每次匹配都检索全部词典，那么算法的匹配速度会很低。为了提高词典的查找速度，许多研究者提出了一些数据结构，如整词二分机制，基于Trie索引机制、双字Hash机制等。

本发明实施例将双数组Trie树作为核心词典的存储结构。双数组Trie树是普通Trie树的一种简单高效的实现，该算法可将核心词典压缩至base[]、check[]两个整数数组中，每个节点代表自动机的一个状态，根据变量不同，进行状态转移，当到达结束状态或无法转移时，完成一次查询操作。

在双数组Trie树所有键中包含的字符之间的联系都是通过简单的数学加法运算表示，从而不仅提高了检索速度，而且省去了链式结构中使用的大量指针，节省了存储空间。

S202：基于所述双数组Trie树，将所述目标文件与所述核心词典进行匹配，得到多个分词候选集，形成第一目标词网。

基于双数组Trie树的存储结构，能够高效地完成目标文本与核心词典的匹配过程，得到由多条分词候选集形成的词网。

S203：采用所述HMM模型的维特比Viterbi算法，获取所述第一目标词网中各个分词候选集的概率值。

采用维特比Viterbi算法，能够求取出所述第一目标词网中各个分词候选集的概率值。

假定一个句子S有以下三种分词结果：

(1)：A1,A2,A3,……,Ak

(2)：B1,B2,B3,……,Bm

(3)：C1,C2,C3,……,Cn

其中，A1,A2,A3,……,Ak,B1,B2,B3,……,Bm,C1,C2,C3,……,Cn都是汉语的词，上述各种分词结果可能产生不同数量的词串，故用k,m,n来标示不同分词结果时词的数目。最好的一种分词方法应该保证分完词后这个句子出现的概率最大。也就是说，如果A1,A2,A3,……,Ak是最好的分词结果，那么其概率应满足：

P(A1,A2,A3,……,Ak)>P(B1,B2,B3,……,Bm)，且，P(A1,A2,A3,……,Ak)>P(C1,C2,C3,……,Cn)。

其中，P(A1,A2,A3,……,Ak)为A1,A2,A3,……,Ak的概率值，P(B1,B2,B3,……,Bm)为B1,B2,B3,……,Bm的概率值，P(C1,C2,C3,……,Cn)为C1,C2,C3,……,Cn的概率值。

S204：从所述第一目标词网中剔除概率值非最大的分词候选集，得到第二目标词网。

实际上，第二目标词网中所包含的就是A1,A2,A3,……,Ak，从所述第一目标词网中剔除掉概率值非最大的分词候选集，便完成了对第一目标词网的消歧处理。

Viterbi算法的时间复杂度为：O(T×|S|²)，T代表文本的长度，S为该词网中节点最多状态的个数，Viterbi算法是目前解决HMM模型中预测问题最高效的算法。

S205：利用所述实体识别模型，根据所述目标文本构建目标角色网。

所述目标角色网用于表征所述目标文本中的角色与词汇之间的关系网。

通过不同的实体识别模型，可以将人名、地名、机构名等实体词进行识别，该类实体词内部成词及在文本中的上下文均有一定的规律性，实体识别模型构建了角色标注序列，并拟合了不同角色之间的转移概率，针对目标文本进行实体识别，将目标文本构建为角色网。

不同的实体识别模型可包括针对人名、地名、机构名等不同实体词的实体识别模型。这三类实体词分别具有不同的特征，针对性的建立特征工程，构建相应的实体识别模型进行识别，能够提高实体识别的准确性。

例如，目标文本“书记李达康发言”。其中，书记的特征是“人名的上文”，“李”是人名的姓，“达”是人名中间字。“康”是人名末字，“发言“是人名下文。不同的词汇在语料中都会承担相应的角色，我们会提取出词汇与角色之间的关系，便可以形成一个角色网。

S206：采用所述HMM模型的维特比Viterbi算法，对所述目标角色网进行消歧处理，得到角色最优解，作为目标实体词。

利用Viterbi算法求取目标角色网的角色最优解，并将符合特定角色序列的提取为目标实体词。

S207：将所述目标实体词纳入到所述第二目标词网中，得到第三目标词网。

S208：采用所述HMM模型的维特比Viterbi算法，对所述第三目标词网进行消歧处理，得到最优分词序列。

将实体识别模型识别出的目标实体词纳入词网，再次利用HMM模型的Viterbi算法进行歧义消除，便可以得到目标文本的最优分词序列。

S209：根据所述核心词典，获取所述最优分词序列中各个词汇分别对应的不同词性，形成所述最优分词序列对应的目标词性网。

核心词典中包括各个词汇的至少一个词性的信息，通过核心词典，便可以获取到最优分词序列中各个词汇分别对应的不同词性，从而形成一个词性网，即最优分词序列对应的目标词性网。

S210：利用所述HMM模型的维特比Viterbi算法，对所述目标词性网进行消歧处理，得到最优词性标注序列，作为目标分词结果。

再次利用Viterbi算法，求取目标词性网的最优词性标注序列，得到包含词性的最优分词序列(即目标分词结果)，并进行输出。

一示例中，在所述利用所述HMM模型的维特比Viterbi算法，对所述目标词性网进行消歧处理，得到最优词性标注序列，作为目标分词结果之后，所述方法还可包括：当检测到所述目标分词结果有误时，利用预设的自定义领域词典，对所述目标分词结果进行更正。

本发明实施例提供的中文分词方法，利用双数组Trie树的字典存储结构来存储指定领域的核心词典，并将机械分词作为初分手段，提高了中文分词速度；再借助由指定领域中文语料训练得到HMM模型，进行消歧义及未登录词识别等处理，使多种切分方式之间有效融合，得到了高效的分词速度和优异的分词效果，提高了交集型歧义切分的准确率；通过建立特征工程，解决了未登录词识别问题；等效词的合理设计，使得模型泛化能力进一步提升；有效解决了中文分词的两大难点“消除歧义”、“未登录词识别”问题，同时加入自定义领域词典，达到了切分高效率，领域高自适应性及高精准度的目的。

在具体应用中，本发明的中文分词方法中，还提供了前述的HMM模型的训练过程。

请参阅图4，图4为本发明实施例提供的HMM模型训练过程的流程图。

如图4所示，所述HMM模型训练过程可包括：

S301：获取所述指定领域的语料库。

在获取所述指定领域的语料库之前，还可以先制定符合指定领域的分词标准。制定指定领域分词标准，可以有效地规范专业术语切分方式，细化对该领域的分词需求。例如，当指定领域为视频领域时，可将影视相关专有名词细化为“电视剧”、“电影”等，更好地为视频领域服务。

语料库往往珍稀且珍贵，具体到中文分词，也是如此。

一示例中，所述指定领域为视频领域。借助第三方分词服务，可对海量的视频文本数据进行切分，并借助大量的人工设计的规则，清洗校验语料，最终建设为视频领域较高质量的语料库。

S302：通过对所述语料库进行解析处理，获取所述所述指定领域对应的核心词典、接续词典、词性转移矩阵与实体识别模型。

核心词典，包括从语料库中提取的词汇。核心词典的主要作用是形成中文文本对应的词网，其中，词网是指文本对应的多种分词结果。

例如，对于语料“我/r爱/v中国/ns”，其中，r代表介词、v代表动词、ns代表地名。

通过解析该文本，可以得到词条“我”、“爱”与“中国”，这三个词条便可作为核心词典的词汇。

接续词典，包括不同词汇之间的转移频率。例如，上例语料中“我”和“爱”接续1次，“爱”和“中国”接续1次。

词性转移矩阵，是指不同词性之间的转移矩阵。

实体识别模型，用于命名实体识别。命名实体具有某种特殊规律，但不可通过穷举实现，所以需要通过实体识别模型来进行相应的实体识别工作。

所述HMM模型的训练过程可如图5所示，首先是分词规范制定，然后是语料库的建设，最后就是模型训练。模型训练的结果包括核心词典、接续词典、词性转移矩阵与实体识别模型。

一示例中，所述HMM模型训练过程还可包括：

a1、根据所述语料库中词汇的类型，确定与所述类型相匹配的等效词。

a2、将所述等效词纳入到所述核心词典与所述接续词典中。

等效词，就是将人名、地名、机构名、字符串等同类型的词汇替换为对应的一个字符串，由此可以有效提高模型泛化能力，比如语料“我手机号是18810125600”，将其中的“18810125600”等效为“xxxxxxxxxxx”，这样训练出的模型，会将原语料泛化为“我手机号是xxxxxxxxxxx”，这样并不会局限在某个特殊的字符串，而是具有相同规律的字符串。

对于接续词典的训练，基于等效词来进行预编译过程，能够有效地优化模型设计，提升模型的泛化能力。

一示例中，基于等效词对人名进行预编译。比如统计“王强爱耍酷”，统计的是“人名”和“爱”的共现频率，而不仅仅是“王强”和“爱”的共现频率，然后，在遇到“张三爱耍酷”时，将“张三”和“爱”共现频率作为“人名”和“爱”的共现频率进行统计处理。如果不作上述预编译处理，实际上就只会统计“张三”和“爱”的共现频率，而“张三”和“爱”之前的共现频率有可能为0，使得模型泛化能力较差。

将“时间词”、“人名”、“地名”、“机构名”、“数词”等进行等效替代，能够使得数据统计更加平滑。又例如，对于“1人”，在接续词典时查询的是“数词@人”的共现频率，而并不是“1@人”的共现频率。

接续词典，能够反映不同词条之间的共现频率，在进行分词时，运用统计的思想，可以根据概率来求出一个最优解。

一示例中，所述HMM模型训练过程还可包括：

b1、利用所述实体识别模型，提取所述语料库中的实体词；

b2、将所述实体词纳入到所述核心词典中。

在现有方案中，被等效的原词汇并不会纳入到核心词典中，这样可以精简核心词汇数量，提高核心词典质量，但是，“人名”、“地名”、“机构名”等专有名词只能依赖实体识别模型进行识别，导致该类实体词往往不能被有效识别。本发明采用多轮次迭代训练，将等效词纳入到核心词典与接续词典中的同时，也将该类实体词一并纳入到核心词典中，从而保证了实体词的稳定输出，并提高了模型的泛化能力。其中，这类实体词具体可以是指未登录词。

本发明实施例提供的HMM模型训练过程，获取所述指定领域的语料库，通过对所述语料库进行解析处理，获取所述所述指定领域对应的核心词典、接续词典、词性转移矩阵与实体识别模型，其中，在获取语料库之前，制定符合指定领域的分词标准，提高了语料库的质量；并且，基于等效词来进行预编译过程，能够有效地优化模型设计，提升模型的泛化能力；将等效词纳入到核心词典与接续词典中的同时，也将该类实体词一并纳入到核心词典中，从而保证了实体词的稳定输出。

本发明实施例还提供了中文分词系统，所述中文分词系统用于实施本发明实施例提供的中文分词方法，下文描述的中文分词系统的技术内容，可与上文描述的中文分词方法的技术内容与相互对应参照。

请参阅图6，图6为本发明实施例提供的中文分词系统的一种结构示意图。

如图6所示，所述系统包括：

信息获取单元100，用于获取指定领域的目标文本，与预置的隐马尔可夫模型HMM模型；其中，所述HMM模型包含所述指定领域对应的核心词典、接续词典、词性转移矩阵与实体识别模型；

分词处理单元200，用于利用所述核心词典对所述目标文本进行分词处理，得到多个分词候选集，形成第一目标词网；

消歧处理单元300，用于采用所述HMM模型的维特比Viterbi算法，对所述第一目标词网进行消歧处理，得到第二目标词网；

实体识别单元400，用于利用所述实体识别模型，对所述目标文本进行实体识别处理，得到目标实体词；将所述目标实体词纳入到所述第二目标词网中，得到第三目标词网；

所述消歧处理单元300，还用于采用所述HMM模型的维特比Viterbi算法，对所述第三目标词网进行消歧处理，得到最优分词序列；

词性标注单元500，用于利用所述HMM模型，对所述最优分词序列进行词性标注，得到目标分词结果。

本发明实施例提供的中文分词系统，将机械分词方式与统计分词方式相结合，通过良好的流程控制与架构设计，在获取指定领域的目标文本与预置的隐马尔可夫模型HMM模型后，利用核心词典对目标文本进行分词处理，得到第一目标词网；采用维特比Viterbi算法对第一目标词网进行消歧处理，得到第二目标词网；利用实体识别模型对目标文本进行实体识别处理，得到目标实体词；将目标实体词纳入到第二目标词网中得到第三目标词网；采用维特比Viterbi算法对第三目标词网进行消歧处理，得到最优分词序列；利用HMM模型对最优分词序列进行词性标注，得到目标分词结果，从而提高了针对特定领域的中文文本的分词准确性与分词效率，大幅提高了针对特定领域中文文本的分词质量。

请参阅图7，图7为本发明实施例提供的中文分词系统的另一种结构示意图。

如图7所示，所述装置除了包括前述实施例中的信息获取单元100、分词处理单元200、消歧处理单元300、实体识别单元400与词性标注单元500外，还包括：模型训练单元600。

所述模型训练单元600，用于获取所述指定领域的语料库；通过对所述语料库进行解析处理，获取所述所述指定领域对应的核心词典、接续词典、词性转移矩阵与实体识别模型。

模型训练单元600可为分词处理单元200、消歧处理单元300、实体识别单元400与词性标注单元500提供HMM模型支持。

一示例中，所述模型训练单元600，还用于根据所述语料库中词汇的类型，确定与所述类型相匹配的等效词；将所述等效词纳入到所述核心词典与所述接续词典中。

一示例中，所述模型训练单元600，还用于利用所述实体识别模型，提取所述语料库中的实体词；将所述实体词纳入到所述核心词典中。

一示例中，所述核心词典存储在双数组Trie树中。

所述分词处理单元200具体用于：基于所述双数组Trie树，将所述目标文件与所述核心词典进行匹配，得到多个分词候选集，形成第一目标词网。

所述消歧处理单元300还具体用于：采用所述HMM模型的维特比Viterbi算法，获取所述第一目标词网中各个分词候选集的概率值；从所述第一目标词网中剔除概率值非最大的分词候选集，得到第二目标词网。

所述实体识别单元400可具体用于：利用所述实体识别模型，根据所述目标文本构建目标角色网；所述目标角色网用于表征所述目标文本中的角色与词汇之间的关系网。

所述消歧处理单元300还具体用于：采用所述HMM模型的维特比Viterbi算法，对所述目标角色网进行消歧处理，得到角色最优解，作为目标实体词。

其中，所述实体识别模型中构建了角色标注序列，并拟合了不同角色之间的转移概率

所述词性标注单元500具体还用于：根据所述核心词典，获取所述最优分词序列中各个词汇分别对应的不同词性，形成所述最优分词序列对应的目标词性网。

所述消歧处理单元300还具体用于：利用所述HMM模型的维特比Viterbi算法，对所述目标词性网进行消歧处理，得到最优词性标注序列，作为目标分词结果。

一示例中，所述系统还包括：

人工干预单元700，用于在所述词性标注单元500利用所述HMM模型，对所述最优分词序列进行词性标注，得到目标分词结果之后，当检测到所述目标分词结果有误时，利用预设的自定义领域词典，对所述目标分词结果进行更正。

本发明实施例提供的中文分词系统，利用双数组Trie树的字典存储结构来存储指定领域的核心词典，并将机械分词作为初分手段，提高了中文分词速度；再借助由指定领域中文语料训练得到HMM模型，进行消歧义及未登录词识别等处理，使多种切分方式之间有效融合，得到了高效的分词速度和优异的分词效果，提高了交集型歧义切分的准确率；通过建立特征工程，解决了未登录词识别问题；等效词的合理设计，使得模型泛化能力进一步提升；有效解决了中文分词的两大难点“消除歧义”、“未登录词识别”问题，同时加入自定义领域词典，达到了切分高效率，领域高自适应性及高精准度的目的。

本发明实施例提供的中文分词系统，包括处理器和存储器，上述信息获取单元100、分词处理单元200、消歧处理单元300、实体识别单元400、词性标注单元500、模型训练单元600与人工干预单元700等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决目前中文分词效率较低的技术问题。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现前述的中文分词方法的步骤。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行前述的中文分词方法的步骤。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现前述的中文分词方法的步骤。

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有前述的中文分词方法的步骤的程序。

最后，还需要说明的是，在本文中，诸如第一和第一等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式来实现。基于这样的理解，本申请的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种中文分词方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述核心词典存储在双数组Trie树中；所述利用所述核心词典对所述目标文本进行分词处理，得到多个分词候选集，形成第一目标词网包括：

3.如权利要求1所述的方法，其特征在于，所述采用所述HMM模型的维特比Viterbi算法，对所述第一目标词网进行消歧处理，得到第二目标词网包括：

4.如权利要求1所述的方法，其特征在于，所述利用所述实体识别模型，对所述目标文本进行实体识别处理，得到目标实体词包括：

5.如权利要求1所述的方法，其特征在于，所述利用所述HMM模型，对所述最优分词序列进行词性标注，得到目标分词结果包括：

6.如权利要求1所述的方法，其特征在于，在所述利用所述HMM模型，对所述最优分词序列进行词性标注，得到目标分词结果之后，所述方法还包括：

7.如权利要求1所述的方法，其特征在于，所述HMM模型的训练过程包括：

获取所述指定领域的语料库；

8.如权利要求7所述的方法，其特征在于，所述HMM模型的训练过程还包括：

将所述等效词纳入到所述核心词典与所述接续词典中。

9.如权利要求8所述的方法，其特征在于，所述HMM模型的训练过程还包括：

利用所述实体识别模型，提取所述语料库中的实体词；

将所述实体词纳入到所述核心词典中。

10.一种中文分词系统，其特征在于，所述系统包括：