CN109657235B

CN109657235B - 一种混合分词方法

Info

Publication number: CN109657235B
Application number: CN201811479085.0A
Authority: CN
Inventors: 张文斌; 刘洋
Original assignee: Yunfu Technology Beijing Co ltd
Current assignee: Yunfu Technology Beijing Co ltd
Priority date: 2018-12-05
Filing date: 2018-12-05
Publication date: 2022-11-25
Anticipated expiration: 2038-12-05
Also published as: CN109657235A

Abstract

本发明公开的混合分词方法，涉及语义分析技术领域，利用经训练数据训练过的语言模型对语句进行标注，得到语句各个词的标签序列，初始化一个词组序列，依次对标签序列进行解码，根据解码结果，对语句进行分词，得到分词结果，实现了自动对语句内的所有语言进行分词，节省了人工成本、分词效率较高，解决了现有技术存在的不能对对语句内的所有语言进行分词，需要通过人工去分词而导致的人工成本高及分词效率低的缺陷。

Description

一种混合分词方法

技术领域

本发明涉及语义分析技术领域，具体涉及一种混合分词方法。

背景技术

在搜索引擎、文本分析、数据挖掘等人工智能相关的工作中，对于没有空格或者其他明显标志符号分割单词的语言里，利用计算机进行自然语言分析时，为方便获取单词，分词是必须的一个基础工作，以便对分词后的其他处理工作进行展开。

现有的分词方法不能实现对语句内的所有语言进行分词，在这种情况下，需要通过人工进行分词，导致人工成本较高且分词效率较低。

发明内容

为解决现有技术的不足，本发明实施例提供了一种混合分词方法。

本发明实施例提供的混合分词方法包括以下步骤：

Step1、利用经训练数据训练过的语言模型对语句进行标注，得到所述语句各个词的标签序列；

Step2、依次对所述标签序列进行解码，根据解码结果，对所述语句进行分词，得到分词结果，包括：

Step21、判断当前需要分词的字符的标签是否为“B”，若是，则将所述字符插入词组序列当前最后一个字符的后面，若否，则判断所述字符的标签是否为“E”；

Step22、若是，则将所述字符插入词组序列当前最后一个字符的后面，若否，则判断所述字符的标签是否为“M”；

Step23、若是，则将所述字符与所述字符的上一个字符合并为一个字符串，将所述字符串放在词组序列当前最后一个字符所在的位置，若否，则判断所述字符的标签是否为“D”，若是，则跳过该字符，若否，则提示该字符存在异常。

进一步地，判断所述字符的标签是否为“E”包括：

若当前需要分词的字符的标签为“E”，则判断所述字符的下一个字符的标签是否为“E”，若是，则将所述字符的下一个字符的标签设为“B”或“M”并重复上述步骤Step21-Step23。

进一步地，所述训练数据的生成过程包括：

判断当前需要标记的字符是否为语句的开始，

若是，则将所述字符的标签设为“B”,若否，则判断所述字符是否为语句的结束；

若是，则将所述字符的标签设为“E”，若否，则判断当前需要标记的字符是否为语句的中间词，

若是，则将所述字符的标签设为“M”，若否，则判断所述字符是否多余，

若是，则将该字符的标签设为“D”，若否，则将该字符的标签设为“异常”。

本发明实施例提供的混合分词方法具有以下有益效果：

实现了自动对语句内的所有语言进行分词，节省了人工成本、提高了分词效率。

附图说明

图1为本发明实施例提供的混合分词方法流程示意图。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

如图1所示，本发明实施例提供的混合分词方法包括以下步骤：

S101、利用经训练数据训练过的语言模型对语句进行标注，得到所述语句各个词的标签序列；

S102、依次对所述标签序列进行解码，根据解码结果，对所述语句进行分词，得到分词结果，包括：

S1021、判断当前需要分词的字符的标签是否为“B”，若是，则将所述字符插入词组序列当前最后一个字符的后面，若否，则判断所述字符的标签是否为“E”；

S1022、若是，则将所述字符插入词组序列当前最后一个字符的后面，若否，则判断所述字符的标签是否为“M”；

S1023、若是，则将所述字符与所述字符的上一个字符合并为一个字符串，将所述字符串放在词组序列当前最后一个字符所在的位置，若否，则判断所述字符的标签是否为“D”，若是，则跳过该字符，若否，则提示该字符存在异常。

进一步地，判断所述字符的标签是否为“E”包括：

若当前需要分词的字符的标签为“E”，则判断所述字符的下一个字符的标签是否为“E”，若是，则将所述字符的下一个字符的标签设为“B”或“M”并重复上述步骤S1021-S1023。

进一步地，所述训练数据的生成过程包括：

判断当前需要标记的字符是否为语句的开始，

作为一个具体的实施例，采用本发明实施例提供的混合分词方法对添加了标签的语句“今/B天/E我/S看/S N/B e/M w/E<空格>/D Y/S o/M r/M k/E<空格>/D T/B i/M m/Me/M s/E上/S一/S篇/S文/B章/E，/S说/S C/B罗/E要/S退/B役/E了/S。/S”进行分词后，得到的分词结果如下：

“今天/我/看/New/York/Times/上/一/篇/文章/，/说/C罗/要/退役/了/。”。

本发明实施例提供的混合分词方法，利用经训练数据训练过的语言模型对语句进行标注，得到语句各个词的标签序列，初始化一个词组序列，依次对标签序列进行解码，根据解码结果，对语句进行分词，得到分词结果，实现了自动对语句内的所有语言进行分词，节省了人工成本、提高了分词效率。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述方法及装置中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

此外，存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种混合分词方法，其特征在于，包括：

2.根据权利要求1所述的混合分词方法，判断所述字符的标签是否为“E”包括：

3.根据权利要求1所述的混合分词方法，所述训练数据的训练生成过程包括：

判断当前需要标记的字符是否为语句的开始，