CN106970902A

CN106970902A - 一种中文分词方法及装置

Info

Publication number: CN106970902A
Application number: CN201610021175.XA
Authority: CN
Inventors: 曹志明
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2016-01-13
Filing date: 2016-01-13
Publication date: 2017-07-21

Abstract

本发明公开了一种中文分词方法及装置，涉及文本处理领域，可以根据提取语句中与预置数据库中词语匹配的词语，从而提高对语句进行中文分词的精度。本发明的主要技术方案为：获取待分词的语句；提取所述语句中与预置数据库中词语匹配的词语；根据自然语句对所述提取词语后的语句进行分词。本发明主要用于语句的中文分词。

Description

一种中文分词方法及装置

技术领域

本发明涉及文本处理领域，尤其涉及一种中文分词方法及装置。

背景技术

中文分词是指将一个语句中的汉字序列拆分成多个单独的词语，而分词就是将连续的字序列按照特定的规则重新组合成词序列的过程。

目前，通常是按照自然词语对语句进行分词。例如，“兰州拉面”分词后的结果为“兰州”、“拉面”，虽然分词后的两个词均符合中文逻辑，但是“兰州”、“拉面”并不能体现特定语境下的中文含义，导致对语句进行分词的精度较低。

发明内容

有鉴于此，本发明实施例提供一种中文分词方法及装置，主要目的是提高对语句进行中文分词的精度。

借由上述技术方案，本发明提供的一种中文分词方法，包括：

获取待分词的语句；

提取所述语句中与预置数据库中词语匹配的词语；

根据自然语句对所述提取词语后的语句进行分词。

借由上述技术方案，本发明提供的一种中文分词装置，包括：

获取单元，用于获取待分词的语句；

提取单元，用于提取所述语句中与预置数据库中词语匹配的词语；

分词单元，用于根据自然语句对所述提取词语后的语句进行分词。

借由上述技术方案，本发明实施例提供的技术方案至少具有下列优点：

本发明实施例提供的一种中文分词方法及装置，首先获取待分词的语句，然后提取所述语句中与预置数据库中词语匹配的词语，最后根据自然语句对所述提取词语后的语句进行分词。与目前对语句进行中文分词时，按照自然词语进行中文分词相比，本发明通过提取语句中与预置数据库中词语匹配的词语，然后根据自然语句对提取词语后的语句进行分词，避免将特定语境下的词语进行分词，分词为不符合语境的自然词语，从而提高对语句进行中文分词的精度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了发明实施例提供的一种中文分词方法的流程图；

图2示出了发明实施例提供的另一种中文分词方法的流程图；

图3示出了发明实施例提供的一种中文分词装置的方框图；

图4示出了发明实施例提供的另一种中文分词装置的方框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供一种中文分词方法，如图1所示，所述方法包括：

101、获取待分词的语句。

其中，所述待分词语句可以为以句号为结束符的一个完整句子。

102、提取所述语句中与预置数据库中词语匹配的词语。

其中，所述预置数据库中保存有符合不同语境的不同类别的多个词语集。例如，预置数据库中保存有饮食类别的词语集{兰州拉面、东北炖菜、重庆火锅}，语句为“我喜欢吃兰州拉面”，则提取语句中与预置数据库中的“兰州拉面”匹配的“兰州拉面”。

103、根据自然语句对所述提取词语后的语句进行分词。

其中，所述根据自然语句进行分词为按照基本的名词、动词、形容词、副词、特有名词等对句子进行分词。例如，“糖醋排骨的制作材料需要排骨”根据自然分词对提取“糖醋排骨”后的语句进行分词，为“的/制作/材料/需要/排骨”。

对于本发明实施例，具体的应用场景可以如下所示，但不限于此，包括：获取待分词语句为“我今天中午吃的是重庆火锅”，预置数据库中保存有饮食类别的词语集{兰州拉面、东北炖菜、重庆火锅}，根据自然语句对提取“重庆火锅”后的语句进行分词，为“我/今天/中午/吃/的/是”。

本发明实施例提供的一种中文分词方法，首先获取待分词的语句，然后提取所述语句中与预置数据库中词语匹配的词语，最后根据自然语句对所述提取词语后的语句进行分词。与目前对语句进行中文分词时，按照自然词语进行中文分词相比，本发明通过提取语句中与预置数据库中词语匹配的词语，然后根据自然语句对提取词语后的语句进行分词，避免将特定语境下的词语进行分词，分词为不符合语境的自然词语，从而提高对语句进行中文分词的精度。

本发明实施例提供另一种中文分词方法，如图2所示，所述方法包括：

201、获取待分词的语句。

其中，所述待分词语句可以为以句号为结束符号的一个完整句子。

202、提取所述语句中与预置数据库中词语匹配的词语。

其中，所述预置数据库中保存有不同行业类别信息分别对应的预置词语库，所述预置词语库保存有多个与所述行业类别信息对应的词语。所述行业类别信息可以包括菜谱、历史、学校等，本发明实施例不做具体限定。

203、检测所述语句中是否存在预置标识符。

其中，所述语句为提取与预置数据库中词语匹配的词语之后的语句，所述预置标识符可以包括引号、书名号、中括号等，本发明实施例不做具体限定。例如，“李敖《北京法源寺》是一部有着深刻隐喻意味的思想小说”，检测语句中存在预置标识符书名号。通过检测语句中是否存在预置标识符，以便于对预置标识符对应的词语进行提取，避免对符合语境的词语根据自然语句进行分词，从而提高对语句进行中文分词的精度。

204、若存在，则从所述语句中提取所述预置标识符对应的词语。

例如，检测语句“我曾经读过《西游记》”中存在预置标识符书名号，则提取书名号中的词语“西游记”。通过提取预置标识符对应的词语，避免对预置标识符对应的词语按照自然词语进行划分，从而提高对语句进行中文分词的精度。

205、根据自然语句对所述提取与预置标识符对应的词语后的语句进行分词。

其中，所述根据自然语句进行分词为按照基本的名词、动词、形容词、副词、特有名词等对句子进行分词。例如，“李敖的《北京法源寺》是一部有着深刻隐喻意味的思想小说”，根据自然语句对提取书名号对应的“北京法源寺”后的语句进行分词，得到的结果为“李敖/的/是/一部/有/着/深刻/隐喻/意味/的/思想/小说”。通过根据自然语句对所述提取与预置标识符对应的词语后的语句进行分词，避免将符合语境的词语按照自然语言划分而导致不符合语境，从而提高对语句进行中文分词的精度。

206、根据所述预置标识符对应的词语更新预置词语库。

其中，所述更新预置词语库为将预置标识符对应的词语添加至与所述词语对应行业类别的预置词语库。例如，预置标识符书名号中的词语为“天才在左，疯子在右”，即将“天才在左，疯子在右”添加至与词语对应的现代作家书籍类别的词语库中。通过根据预置标识符对应的词语更新预置词语库，实现再次进行中分分词时，直接提取与预置词语库中对应词语，从而提高对语句进行中文分词的效率。

207、统计所述提取词语与所述根据自然语句进行分词的分词结果作为待分词语句的分词结果。

通过统计提取词语与根据自然语句进行分词的分词结果作为待分词语句的分词结果，实现向用户提供符合语境的所有分词结果，从而提高语句分词的精度。

对于本发明实施例，具体的应用场景可以如下所示，但不限于此，包括：获取到的待分词的语句为“《中英北京条约》是英国与清朝于1860年10月24日在北京签订的不平等条约”，预置数据库中保存有与“历史”行业类别对应的预置词语库，预置词语库中保存有“不平等条约、侵略、战争”，提取语句中与预置词语库中的“不平等条约”匹配的“不平等条约”，检测提取词语之后的语句“《中英北京条约》是英国与清朝于1860年10月24日在北京签订的”中存在预置标识符书名号，提取书名号对应的词语“中英北京条约”，根据自然语句划分对提取书名号对应的词语之后的语句“是英国与清朝于1860年10月24日在北京签订的”进行分词，为“是/英国/与/清朝/于/1860/年/10/月/24/日/在/北京/签订/的”,将书名号对应的“中英北京条约”添加至预置词语库中，统计提取词语及自然分词后的分词结果“中英北京条约/是/英国/与/清朝/于/1860/年/10/月/24/日/在/北京/签订/的/不平等条约”作为待分词语句的中文分词结果。

本发明实施例提供的另一种中文分词方法，首先获取待分词的语句，然后提取所述语句中与预置数据库中词语匹配的词语，最后根据自然语句对所述提取词语后的语句进行分词。与目前对语句进行中文分词时，按照自然词语进行中文分词相比，本发明通过提取语句中与预置数据库中词语匹配的词语，然后根据自然语句对提取词语后的语句进行分词，避免将特定语境下的词语进行分词，分词为不符合语境的自然词语，从而提高对语句进行中文分词的精度。

该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。

进一步地，作为图1所示方法的具体实现，本发明实施例提供一种中文分词装置，如图3所示，所述装置可以包括：获取单元31、提取单元32、分词单元33。

获取单元31，用于获取待分词的语句；

提取单元32，用于提取所述语句中与预置数据库中词语匹配的词语；

分词单元33，用于根据自然语句对所述提取词语后的语句进行分词。

本发明实施例提供的一种中文分词装置，首先获取待分词的语句，然后提取所述语句中与预置数据库中词语匹配的词语，最后根据自然语句对所述提取词语后的语句进行分词。与目前对语句进行中文分词时，按照自然词语进行中文分词相比，本发明通过提取语句中与预置数据库中词语匹配的词语，然后根据自然语句对提取词语后的语句进行分词，避免将特定语境下的词语进行分词，分词为不符合语境的自然词语，从而提高对语句进行中文分词的精度。

进一步地，作为图2所示方法的具体实现，本发明实施例提供另一种中文分词装置，如图4所示，所述装置可以包括：获取单元41、提取单元42、分词单元43、检测单元44、更新单元45、统计单元46。

获取单元41，用于获取待分词的语句；

提取单元42，用于提取所述语句中与预置数据库中词语匹配的词语；

分词单元43，用于根据自然语句对所述提取词语后的语句进行分词。

进一步地，所述装置还包括：

检测单元44，用于检测所述语句中是否存在预置标识符；

所述提取单元42，还用于若检测单元检测出所述语句中存在预置标识符，则从所述语句中提取所述预置标识符对应的词语；

所述分词单元43，具体用于根据自然语句对所述提取与预置标识符对应的词语后的语句进行分词。

进一步地，所述装置还包括：

更新单元45，用于根据所述预置标识符对应的词语更新预置词语库。

进一步地，所述装置还包括：

统计单元46，用于统计所述提取词语与所述根据自然语句进行分词的分词结果作为待分词语句的分词结果。

本发明实施例提供的另一种中文分词装置，首先获取待分词的语句，然后提取所述语句中与预置数据库中词语匹配的词语，最后根据自然语句对所述提取词语后的语句进行分词。与目前对语句进行中文分词时，按照自然词语进行中文分词相比，本发明通过提取语句中与预置数据库中词语匹配的词语，然后根据自然语句对提取词语后的语句进行分词，避免将特定语境下的词语进行分词，分词为不符合语境的自然词语，从而提高对语句进行中文分词的精度。

所述中文分词装置包括处理器和存储器，上述获取单元、提取单元和分词单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决对投放广告效果评估准确性低的问题。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)，存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：获取待分词的语句；提取所述语句中与预置数据库中词语匹配的词语；根据自然语句对所述提取词语后的语句进行分词。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种中文分词方法，其特征在于，包括：

获取待分词的语句；

提取所述语句中与预置数据库中词语匹配的词语；

根据自然语句对所述提取词语后的语句进行分词。

2.根据权利要求1所述的中文分词方法，其特征在于，所述预置数据库中保存有不同行业类别信息分别对应的预置词语库，所述预置词语库保存有多个与所述行业类别信息对应的词语。

3.根据权利要求2所述的中文分词方法，其特征在于，所述提取所述语句中与预置数据库中词语匹配的词语之后，所述方法还包括：

检测所述语句中是否存在预置标识符；

若存在，则从所述语句中提取所述预置标识符对应的词语；

所述根据自然语句对所述提取词语后的语句进行分词包括：

根据自然语句对所述提取与预置标识符对应的词语后的语句进行分词。

4.根据权利要求3所述的中文分词方法，其特征在于，所述根据自然语句对所述提取与预置标识符对应的词语后的语句进行分词之后，所述方法还包括：

根据所述预置标识符对应的词语更新预置词语库。

5.根据权利要求1-4任一项所述的中文分词方法，其特征在于，所述方法还包括：

统计所述提取词语与所述根据自然语句进行分词的分词结果作为待分词语句的分词结果。

6.一种中文分词装置，其特征在于，包括：

获取单元，用于获取待分词的语句；

7.根据权利要求6所述的中文分词装置，其特征在于，所述预置数据库中保存有不同行业类别信息分别对应的预置词语库，所述预置词语库保存有多个与所述行业类别信息对应的词语。

8.根据权利要求7所述的中文分词装置，其特征在于，所述装置还包括：检测单元，

所述检测单元，用于检测所述语句中是否存在预置标识符；

所述提取单元，还用于若检测单元检测出所述语句中存在预置标识符，则从所述语句中提取所述预置标识符对应的词语；

所述分词单元，具体用于根据自然语句对所述提取与预置标识符对应的词语后的语句进行分词。

9.根据权利要求8所述的中文分词装置，其特征在于，所述装置还包括：

更新单元，用于根据所述预置标识符对应的词语更新预置词语库。

10.根据权利要求6-9任一项所述的中文分词装置，其特征在于，所述装置还包括：

统计单元，用于统计所述提取词语与所述根据自然语句进行分词的分词结果作为待分词语句的分词结果。