CN107402916A

CN107402916A - 中文文本的分词方法及装置

Info

Publication number: CN107402916A
Application number: CN201710580701.0A
Authority: CN
Inventors: 晋彤
Original assignee: Guangzhou Special Road Mdt Infotech Ltd
Current assignee: Guangzhou Special Road Mdt Infotech Ltd
Priority date: 2017-07-17
Filing date: 2017-07-17
Publication date: 2017-11-28

Abstract

本发明实施例公开了一种中文文本的分词方法及装置，通过采集具有多元语义的网络词库，根据不同领域对所述网络词库进行训练，然后接收待分词文本，根据所述网络词库进行匹配处理后对所述待分词文本进行初始分词，对所述待分词文本进行初始分词后，对所述待分词文本进行特征提取，从而获得所述待分词文本的领域特征，再根据所述待分词文本的领域特征，对所述待分词文本的词条进行权重调整从而获得第一分词结果，接着将所述第一分词结果中的长词通过缩写模型进行简化处理获得缩写词，将所述缩写词与所述多元语义的网络词库进行匹配校验，能有效解决现有词库较为简单不能有效分词的问题，能得到准确性更高的分词结果。

Description

中文文本的分词方法及装置

技术领域

本发明涉及计算机领域，尤其涉及一种中文文本的分词方法及装置。

背景技术

中文分词指将一个汉字序列切分成一个一个单独的词。中文分词在信息检索、机器翻译和语音识别等领域起重要作用，是中文语音处理过程中必不可少的一个环节。一般地，由于存在分词歧义的问题，传统的基于词典的机械分词方法的准确度达不到100％。例如，“南京市长江大桥”可以分成“南京市长江大桥”，也可以分成“南京市长江大桥”。如果不依赖其他知识，两种分词方式似乎都是合理的

现有的分词技术依赖的词库是二维的，最多只有词性和简单的概率权重。在算法模型上，没联系上下文进行歧义识别处理。目前国内的词库的缩写词条是人工添加的，比较机械。

发明内容

本发明实施例的目的是提供一种中文文本的分词方法及装置，能有效解决现有词库较为简单不能有效分词的问题，准确性高。

为实现上述目的，本发明实施例提供了一种中文文本的分词方法，包括步骤：

采集具有多元语义的网络词库，根据不同领域对所述网络词库进行训练；

接收待分词文本，根据所述网络词库进行匹配处理后对所述待分词文本进行初始分词；

对所述待分词文本进行初始分词后，对所述待分词文本进行特征提取，从而获得所述待分词文本的领域特征；

根据所述待分词文本的领域特征，对所述待分词文本的词条进行权重调整从而获得第一分词结果；

将所述第一分词结果中的长词通过缩写模型进行简化处理获得缩写词，将所述缩写词与所述多元语义的网络词库进行匹配校验。

与现有技术相比，本发明公开的中文文本的分词方法通过采集具有多元语义的网络词库，根据不同领域对所述网络词库进行训练，然后接收待分词文本，根据所述网络词库进行匹配处理后对所述待分词文本进行初始分词，对所述待分词文本进行初始分词后，对所述待分词文本进行特征提取，从而获得所述待分词文本的领域特征，再根据所述待分词文本的领域特征，对所述待分词文本的词条进行权重调整从而获得第一分词结果，接着将所述第一分词结果中的长词通过缩写模型进行简化处理获得缩写词，将所述缩写词与所述多元语义的网络词库进行匹配校验，能有效解决现有词库较为简单不能有效分词的问题，能得到准确性更高的分词结果。

作为上述方案的改进，还包括步骤：

通过CRF模型，识别所述待分词文本的场景，根据所述待分词文本的场景对所述第一分词结果进行歧义识别，从而生成第二分词结果；

将所述第二分词结果中的长词通过缩写模型进行简化处理获得缩写词，将所述缩写词与所述多元语义的网络词库进行匹配校验。

作为上述方案的改进，采集具有多元语义的网络词库具体为：

收集通用词库、实体词库和领域预料进行融合后生成多元语义的网络词库。

本发明实施例还提供了一种中文文本的分词装置，包括：

采集模块，用于采集具有多元语义的网络词库，根据不同领域对所述网络词库进行训练；

初始分词模块，用于接收待分词文本，根据所述网络词库进行匹配处理后对所述待分词文本进行初始分词；

特征提取模块，用于对所述待分词文本进行初始分词后，对所述待分词文本进行特征提取，从而获得所述待分词文本的领域特征；

第一分词模块，用于根据所述待分词文本的领域特征，对所述待分词文本的词条进行权重调整从而获得第一分词结果；

第一缩写模块，用于将所述第一分词结果中的长词通过缩写模型进行简化处理获得缩写词，将所述缩写词与所述多元语义的网络词库进行匹配校验。

与现有技术相比，本发明公开的中文文本的分词装置通过采集具有多元语义的网络词库，根据不同领域对所述网络词库进行训练，然后接收待分词文本，根据所述网络词库进行匹配处理后对所述待分词文本进行初始分词，对所述待分词文本进行初始分词后，对所述待分词文本进行特征提取，从而获得所述待分词文本的领域特征，再根据所述待分词文本的领域特征，对所述待分词文本的词条进行权重调整从而获得第一分词结果，接着将所述第一分词结果中的长词通过缩写模型进行简化处理获得缩写词，将所述缩写词与所述多元语义的网络词库进行匹配校验，能有效解决现有词库较为简单不能有效分词的问题，能得到准确性更高的分词结果。

作为上述方案的改进，还包括：

第二分词模块，用于通过CRF模型，识别所述待分词文本的场景，根据所述待分词文本的场景对所述第一分词结果进行歧义识别，从而生成第二分词结果；

第二缩写模块，用于将所述第二分词结果中的长词通过缩写模型进行简化处理获得缩写词，将所述缩写词与所述多元语义的网络词库进行匹配校验。

作为上述方案的改进，所述采集模块具体用于收集通用词库、实体词库和领域预料进行融合后生成多元语义的网络词库。

附图说明

图1是本发明实施例1中一种中文文本的分词方法的流程示意图。

图2是本发明实施例2中一种中文文本的分词方法的流程示意图。

图3是本发明实施例3中一种中文文本的分词装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明实施例1提供的一种中文文本的分词方法的流程示意图，包括步骤：

S1、采集具有多元语义的网络词库，根据不同领域对所述网络词库进行训练；

其中，多元语义网络的词库，和传统的二维词库的区别是可以支撑基于自然语言处理的词条切分，并且可以提供更丰富的扩展属性

S2、接收待分词文本，根据所述网络词库进行匹配处理后对所述待分词文本进行初始分词；

S3、对所述待分词文本进行初始分词后，对所述待分词文本进行特征提取，从而获得所述待分词文本的领域特征；

S4、根据所述待分词文本的领域特征，对所述待分词文本的词条进行权重调整从而获得第一分词结果；

S5、将所述第一分词结果中的长词通过缩写模型进行简化处理获得缩写词，将所述缩写词与所述多元语义的网络词库进行匹配校验。

具体实施时，通过采集具有多元语义的网络词库，根据不同领域对所述网络词库进行训练，然后接收待分词文本，根据所述网络词库进行匹配处理后对所述待分词文本进行初始分词，对所述待分词文本进行初始分词后，对所述待分词文本进行特征提取，从而获得所述待分词文本的领域特征，再根据所述待分词文本的领域特征，对所述待分词文本的词条进行权重调整从而获得第一分词结果，接着将所述第一分词结果中的长词通过缩写模型进行简化处理获得缩写词，将所述缩写词与所述多元语义的网络词库进行匹配校验，能有效解决现有词库较为简单不能有效分词的问题，能得到准确性更高的分词结果。

优选地，如图2所示，在实施例1的基础上，还包括步骤：

S6、通过CRF模型，识别所述待分词文本的场景，根据所述待分词文本的场景对所述第一分词结果进行歧义识别，从而生成第二分词结果；

S7、将所述第二分词结果中的长词通过缩写模型进行简化处理获得缩写词，将所述缩写词与所述多元语义的网络词库进行匹配校验。

通过上述方案，可以对同一段词汇的容易混淆的意思进行深度识别，从而得到更为准确的分词结果；且自动生成缩写并进行校验匹配，可以省去很多人工整理缩写词的工作量。

优选地，步骤S1中采集具有多元语义的网络词库具体为：

参见图3，是本发明实施例3提供的一种中文文本的分词装置的结构示意图，包括：

采集模块101，用于采集具有多元语义的网络词库，根据不同领域对所述网络词库进行训练；

初始分词模块102，用于接收待分词文本，根据所述网络词库进行匹配处理后对所述待分词文本进行初始分词；

特征提取模块103，用于对所述待分词文本进行初始分词后，对所述待分词文本进行特征提取，从而获得所述待分词文本的领域特征；

第一分词模块104，用于根据所述待分词文本的领域特征，对所述待分词文本的词条进行权重调整从而获得第一分词结果；

第一缩写模块105，用于将所述第一分词结果中的长词通过缩写模型进行简化处理获得缩写词，将所述缩写词与所述多元语义的网络词库进行匹配校验。

具体实施时，通过采集模块101采集具有多元语义的网络词库，根据不同领域对所述网络词库进行训练，然后通过所述初始分词模块102接收待分词文本，根据所述网络词库进行匹配处理后对所述待分词文本进行初始分词，对所述待分词文本进行初始分词后，所述特征提取模块103对所述待分词文本进行特征提取，从而获得所述待分词文本的领域特征，所述第一分词模块104再根据所述待分词文本的领域特征，对所述待分词文本的词条进行权重调整从而获得第一分词结果，接着通过第一缩写模块105将所述第一分词结果中的长词通过缩写模型进行简化处理获得缩写词，将所述缩写词与所述多元语义的网络词库进行匹配校验，能有效解决现有词库较为简单不能有效分词的问题，能得到准确性更高的分词结果。

优选地，所述中文文本的分词装置100还包括：

在另一优选实施例中，所述采集模块101具体用于收集通用词库、实体词库和领域预料进行融合后生成多元语义的网络词库。

综上，本发明实施例公开了一种中文文本的分词方法及装置，通过采集具有多元语义的网络词库，根据不同领域对所述网络词库进行训练，然后接收待分词文本，根据所述网络词库进行匹配处理后对所述待分词文本进行初始分词，对所述待分词文本进行初始分词后，对所述待分词文本进行特征提取，从而获得所述待分词文本的领域特征，再根据所述待分词文本的领域特征，对所述待分词文本的词条进行权重调整从而获得第一分词结果，接着将所述第一分词结果中的长词通过缩写模型进行简化处理获得缩写词，将所述缩写词与所述多元语义的网络词库进行匹配校验，能有效解决现有词库较为简单不能有效分词的问题，能得到准确性更高的分词结果。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种中文文本的分词方法，其特征在于，包括步骤：

2.如权利要求1所述的中文文本的分词方法，其特征在于，还包括步骤：

3.如权利要求1所述的中文文本的分词方法，其特征在于，采集具有多元语义的网络词库具体为：

4.一种中文文本的分词装置，其特征在于，包括：

5.如权利要求4所述的中文文本的分词装置，其特征在于，还包括：

6.如权利要求4所述的中文文本的分词装置，其特征在于，所述采集模块具体用于收集通用词库、实体词库和领域预料进行融合后生成多元语义的网络词库。