CN110728141B

CN110728141B - 一种分词方法、装置、电子设备及存储介质

Info

Publication number: CN110728141B
Application number: CN201810779117.2A
Authority: CN
Inventors: 唐海庆; 童超; 胡小克; 梁俊
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2018-07-16
Filing date: 2018-07-16
Publication date: 2023-09-19
Anticipated expiration: 2038-07-16
Also published as: CN110728141A

Abstract

本发明公开了一种分词方法、装置、电子设备及存储介质，该方法包括：将分词语料输入到预先保存的基线分词模型中，基于所述基线分词模型，确定所述分词语料的初步分词结果；将所述初步分词结果输入到预先训练完成的词切分模型中，基于所述词切分模型，输出所述初步分词结果的切分结果，其中所述切分结果包括切分单元，所述切分单元包括切分字符和/或切分字符集合；按照预设的合并规则，合并所述切分单元，并确定所述分词语料的最终分词结果。本发明中对现有的基线分词模型不进行改变，保证了分词模型的收敛速度，提高了分词效率，并且对基线分词模型的分词结果进行了更正，因此提高了分词结果的准确性。

Description

一种分词方法、装置、电子设备及存储介质

技术领域

本发明涉及分词处理技术领域，尤其涉及一种分词方法、装置、电子设备及存储介质。

背景技术

分词指的是将一个语言字的序列切分成一个个单独的词。分词技术是文本挖掘的基础，对于输入的一段文字，成功地进行分词，可以达到电脑自动识别词句含义的效果，实现自然语音的处理。

常用的分词模型一般为基于统计的分词模型或基于词典的分词模型。这两种分词模型的泛化能力一般比较差，即使具有一定泛化能力的基于统计的有监督分词模型，由于人工标注语料较少，因此该分词模型较小，容易导致泛化错误。因此现有技术中一般使用泛化特征向量，重新训练分词模型的方法来获得具有一定泛化能力的分词模型，如在训练分词模型时通过神经网络得到泛化特征的模型参数，结合分词模型的模型参数对训练语料进行分词处理，得到分词结果并修正分词模型的模型参数和神经网络参数；或者现有技术中使用基于分词错误反馈来改进分词的方法，如当分词模型得到分词结果后，用户可以灵活地对分词结果中存在分词边界错误的分词进行修正，根据修正分词结果重新对分词模型进行训练。

但是上述方法中使用基于分词错误反馈来改进分词的方法时，重新训练后的分词模型仍不具有泛化能力，因此使用该重新训练后的分词模型进行分词得到的分词结果的准确性难以保证，使用具有一定泛化能力的分词模型来改进分词的方法时，多次重新训练模型导致分词模型变复杂，因此在使用该重新训练后的分词模型进行训练时收敛速度变慢，导致分词的效率降低。综上现有技术中对已有的分词模型重新进行了训练，在使用重新训练后得到的分词模型进行分词时分词结果准确性低以及效率降低。

发明内容

本发明提供了一种分词方法、装置、电子设备及存储介质，用以解决现有技术中使用重新训练后得到的分词模型进行分词时分词结果准确性低以及效率低的问题。

本发明提供了一种分词方法，应用于电子设备，该方法包括：

将分词语料输入到预先保存的基线分词模型中，基于所述基线分词模型，确定所述分词语料的初步分词结果；

将所述初步分词结果输入到预先训练完成的词切分模型中，基于所述词切分模型，输出所述初步分词结果的切分结果，其中所述切分结果包括至少两个切分单元；

按照预设的合并规则，合并所述至少两个切分单元，并确定所述分词语料的最终分词结果。

进一步地，所述词切分模型包括字节对编码BPE模型。

进一步地，所述按照预设的合并规则，合并所述至少两个切分单元之前，所述方法还包括：

将所述切分结果输入到预先训练完成的标注器中，基于所述标注器，输出所述切分结果的标注序列，其中所述标注序列中包括所述至少两个切分单元中每个切分单元的词标注；

所述按照预设的合并规则，合并所述至少两个切分单元包括：

根据所述每个切分单元的词标注及预设的合并规则，合并所述每个切分单元。

进一步地，所述根据所述每个切分单元的词标注及预设的合并规则，合并所述每个切分单元包括：

顺序读取所述每个切分单元及所述每个切分单元的词标注，采用下述方式进行合并，直至所述每个切分单元合并完成：

若存在词标注为词起始标注的第一切分单元，查找与其相邻的词标注为词结束标注的第二切分单元，并确定在标注序列中位于所述第一切分单元及所述第二切分单元之间的第三切分单元；按照在标注序列中的顺序，将所述第一切分单元、所述第三切分单元及所述第二切分单元合并为一个完整的词；

若存在词标注为完整词标注的第四切分单元，则将所述第四切分单元确定为一个完整的词。

进一步地，预先训练词切分模型包括：

针对训练集中的样本初步分词结果，获取所述样本初步分词结果中被人工标记的真实词切分结果，其中所述样本初步分词结果为训练集中的样本分词语料输入到预先保存的基线分词模型中，基于所述基线分词模型确定的；

将所述样本初步分词结果及所述真实词切分结果输入到词切分模型中，获取所述样本初步分词结果的训练切分结果，对所述词切分模型进行迭代训练，其中所述训练切分结果中包括至少两个切分单元。

进一步地，所述获取所述样本初步分词结果的训练切分结果后，预先训练标注器包括：

在字符级别上对齐所述真实词切分结果中的每个真实词切分单元与所述训练切分结果中的每个训练切分单元，确定包含相同字符的真实词切分单元与训练切分单元的最小切分单元集合；

根据所述最小切分单元集合，为所述每个训练切分单元进行词标注，其中所述词标注包括词起始标注、词中间标注、词结束标注、完整词标注；

将所述每个训练切分单元及所述每个训练切分单元的词标注输入到标注器中，获取训练切分单元与词标注的至少一组映射关系；

根据所述至少一组映射关系，确定训练完成的标注器。

进一步地，所述标注器基于深度神经网络DNN训练完成。

本发明提供了一种分词装置，应用于电子设备，该装置包括：

第一确定模块，用于将分词语料输入到预先保存的基线分词模型中，基于所述基线分词模型，确定所述分词语料的初步分词结果；

切分模块，用于将所述初步分词结果输入到预先训练完成的词切分模型中，基于所述词切分模型，输出所述初步分词结果的切分结果，其中所述切分结果包括至少两个切分单元；

第二确定模块，用于按照预设的合并规则，合并所述至少两个切分单元，并确定所述分词语料的最终分词结果。

进一步地，所述词切分模型包括字节对编码BPE模型。

进一步地，所述装置还包括：标注确定单元，用于将所述切分结果输入到预先训练完成的标注器中，基于所述标注器，输出所述切分结果的标注序列，其中所述标注序列中包括所述至少两个切分单元中每个切分单元的词标注；

所述第二确定单元，具体用于根据所述每个切分单元的词标注及预设的合并规则，合并所述每个切分单元。

进一步地，所述第二确定单元，具体用于顺序读取所述每个切分单元及所述每个切分单元的词标注，采用下述方式进行合并，直至所述每个切分单元合并完成：若存在词标注为词起始标注的第一切分单元，查找与其相邻的词标注为词结束标注的第二切分单元，并确定在标注序列中位于所述第一切分单元及所述第二切分单元之间的第三切分单元；按照在标注序列中的顺序，将所述第一切分单元、所述第三切分单元及所述第二切分单元合并为一个完整的词；若存在词标注为完整词标注的第四切分单元，则将所述第四切分单元确定为一个完整的词。

进一步地，所述装置还包括：

训练模块，用于针对训练集中的样本初步分词结果，获取所述样本初步分词结果中被人工标记的真实词切分结果，其中所述样本初步分词结果为训练集中的样本分词语料输入到预先保存的基线分词模型中，基于所述基线分词模型确定的；将所述样本初步分词结果及所述真实词切分结果输入到词切分模型中，获取所述样本初步分词结果的训练切分结果，对所述词切分模型进行迭代训练，其中所述训练切分结果中包括至少两个切分单元。

进一步地，所述训练模块，还用于获取所述样本初步分词结果的训练切分结果后，在字符级别上对齐所述真实词切分结果中的每个真实词切分单元与所述训练切分结果中的每个训练切分单元，确定包含相同字符的真实词切分单元与训练切分单元的最小切分单元集合；根据所述最小切分单元集合，为所述每个训练切分单元进行词标注，其中所述词标注包括词起始标注、词中间标注、词结束标注、完整词标注；将所述每个训练切分单元及所述每个训练切分单元的词标注输入到标注器中，获取训练切分单元与词标注的至少一组映射关系；根据所述至少一组映射关系，确定训练完成的标注器。

进一步地，所述训练模块，具体用于基于深度神经网络DNN训练完成所述标注器。

本发明提供了一种电子设备，包括存储器和处理器；

所述处理器，用于读取所述存储器中的程序，执行上述任一项所述方法的步骤。

本发明提供了一种计算机可读存储介质，其存储有可由电子设备执行的计算机程序，当所述程序在所述电子设备上运行时，使得所述电子设备执行上述任一项所述方法的步骤。

本发明提供了一种分词方法、装置、电子设备及存储介质，该方法包括：将分词语料输入到预先保存的基线分词模型中，基于所述基线分词模型，确定所述分词语料的初步分词结果；将所述初步分词结果输入到预先训练完成的词切分模型中，基于所述词切分模型，输出所述初步分词结果的切分结果，其中所述切分结果包括切分单元，所述切分单元包括切分字符和/或切分字符集合；按照预设的合并规则，合并所述切分单元，并确定所述分词语料的最终分词结果。本发明中对现有的基线分词模型不进行改变，保证了分词模型的收敛速度，提高了分词效率，并且采用新增加的词切分模型及预设的合并规则，对基线分词模型的分词结果进行了更正，生成了最终分词结果，因此提高了分词结果的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的一种分词过程的示意图；

图2为本发明实施例2提供的一种分词过程的示意图；

图3为本发明实施例5提供的一种重标注过程示意图；

图4为本发明实施例5提供的一种训练过程示意图；

图5为本发明实施例6提供的一种电子设备的结构示意图；

图6为本发明实施例7提供的一种电子设备的结构示意图；

图7为本发明实施例提供的一种分词装置示意图。

具体实施方式

为了提高分词结果的准确性和分词效率，本发明实施例提供了一种分词方式、装置、电子设备及存储介质。

本发明实施例提供的分词方法，可以应用于电子设备上，该电子设备包括硬件层，运行在硬件层之上的操作系统层，以及运行在操作系统上的应用层。

该硬件层包括中央处理器(CPU，Central Processing Unit)、内存管理单元(MMU，Memory Management Unit)和内存等硬件。

该操作系统可以是任意一种或多种通过进程(Process)实现业务处理的计算机操作系统，例如，Linux操作系统、Unix操作系统、Android操作系统、iOS操作系统或windows操作系统等。该应用层包括浏览器、阅读软件等能够阅读文本内容的应用。

并且在本发明实施例中该电子设备可以是智能手机、平板电脑等手持设备，也可以是桌面计算机、便携式计算机等终端设备，本发明实施例中并未特别限定，只要能够通过运行记录有本发明实施例中的分词方法的代码的程序，实现分词即可。

本发明实施例中的分词的执行主体可以是电子设备，或者是电子设备中能够调用程序并执行程序的功能模块。

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

图1为本发明实施例提供的一种分词过程的示意图，该过程包括以下步骤：

S101：将分词语料输入到预先保存的基线分词模型中，基于所述基线分词模型，确定所述分词语料的初步分词结果。

本发明实施例提供的分词方法应用于电子设备，该电子设备中预先有保存基线分词模型，该基线分词模块为现有的分词模型。

电子设备能够获取到待进行分词的分词语料，该分词语料可以是用户输入到的，可以是电子设备通过采集接口在其他设备采集到的。

电子设备获取到的分词语料后，将分词语料输入到基线分词模型，该基线分词模型可以对分词语料进行初步分词，生成分词语料的初步分词结果。

所述基于基线分词模型，确定分词语料的初步分词结果的过程属于现有技术，在本发明实施例中不做赘述。

S102：将所述初步分词结果输入到预先训练完成的词切分模型中，基于所述词切分模型，输出所述初步分词结果的切分结果，其中所述切分结果包括至少两个切分单元。

电子设备中保存有预先训练完成的词切分模型，所述词切分模型包括BPE(bytepair encoding，字节对编码)模型，此外词切分模型还可以包括对BPE模型改进后的模型，BPE模型为应用于BPE算法训练得到的模型，BPE模型用于切分字符串，提取字符串中常见的子字符，通过迭代方式，构建和更新词典，利用词典切分字符串得到切分结果，因此该模型具有泛化能力。

该词切分模型可以对分词结果做进一步切分，因此电子设备确定分词语料的初步分词结果后，将该初步分词结果输入到词切分模型中，词切分模型对该初步分词结果进一步切分，确定并输出初步分词结果的切分结果。

词切分模型输出的切分结果包括至少两个切分单元，切分单元包括切分字符和/或切分字符集合，如切分字符“人”可以作为一个切分单元，切分字符集合“中国”可以作为一个切分单元。

S103：按照预设的合并规则，合并所述至少两个切分单元，并确定所述分词语料的最终分词结果。

为了实现对基线分词模型的初步分词结果的改进，在词切分模型输出初步分词结果的切分结果后，电子设备按照预设的合并规则，合并该切分结果中的至少两个切分单元，从而根据合并的切分单元，确定分词语料的最终分词结果。

电子设备中保存有预设的合并规则，该合并规则可以为用户手动输入的，也可以是电子设备学习到的等。

电子设备按照预设的合并规则，合并至少两个切分单元时，可以是合并规则中保存有完整的词，当电子设备识别到存在至少两个切分单元属于合并规则中同一完整的词时，将属于同一完整的词的至少两个切分单元进行合并，或者是每个切分单元对应有标注信息用于表示切分单元位于词中的位置，电子设备根据每个切分单元对应的标注信息进行合并等。

本发明实施例中提供的分词方法适用于任意分词模型，可以对任意已经存在的分词模型进行改进，在改进时需要使用其输出的初步分词结果，因此是不改变现有分词模型，而是通过额外的一个改进模型即切分模型，对现有分词模型即基线分词模型的初步分词结果进行的修正，用以更正现有分词模型的结果得到更优的分词结果，切分模型不依赖基线分词模型。

并且现有技术中如果需要在不同应用场景或应用领域下均需要对分词模型进行训练，导致每个场景都生成对应的一个新的分词模型，而本发明实施例中对基线分词系统可以多次使用，针对不同的应用场景或应用领域，训练不同的改进模型即切分模型，或者是设置不同的合并规则，不需要重新训练基线分词模型，占用设备资源减少。

本发明实施例中，对现有的基线分词模型不进行改变，保证了分词模型的收敛速度，提高了分词效率，并且采用新增加的词切分模型及预设的合并规则，对基线分词模型的分词结果进行了更正，生成了最终分词结果，因此提高了分词结果的准确性。

实施例2：

在上述实施例的基础上，本发明实施例中，所述按照预设的合并规则，合并所述至少两个切分单元之前，所述方法还包括：

电子设备在合并至少两个切分单元时，如果是根据每个切分单元对应的标注信息进行合并的，则电子设备在合并至少两个切分单元前，可以先确定每个切分单元对应的标注信息即词标注。

电子设备中保存有预先训练完成的标注器，电子设备确定每个切分单元的词标注时，将包括至少两个切分单元的切分结果输入到标注器中，该标注器能够对每个切分单元进行标注生成包括每个切分单元的词标注的标注序列。

电子设备在合并至少两个切分单元时，根据每个切分单元的词标注及预设的合并规则，将属于同一完整的词的切分单元进行合并。

下面以一个具体的实施例对上述实施例进行说明，如图2所示，步骤1分词：基线分词系统即基线分词模型对分词语料进行分词，得到分词结果，此时得到的分词结果为初步分词结果。步骤2词切分：将初步分词结果输入到BPE模型中进行词切分，得到切分结果。步骤3标注：神经网络标注器即标注器对步骤2中得到的切分结果进行标注，生成切分结果的标注序列。步骤4解码：在标注序列L中读取切分结果中每个切分单元的词标注，按照规则合并切分单元，得到最终的词序列作为分词结果。

在本发明实施例中，在基线分词模型的分词结果的修正过程中，采用序列进行标注，适用于任意序列标注器训练，实现标注器与分词模型的解耦，提供了更为简单的切分单元的合并方式，在保证分词结果准确性的基础上，提高了分词效率。

实施例3：

在上述各实施例的基础上，本发明实施例中，所述根据所述每个切分单元的词标注及预设的合并规则，合并所述每个切分单元包括：

词标注包括词起始标注、词中间标注、词结束标注、完整词标注，电子设备可以根据每个切分单元的词标注来对切分单元进行合并，按照规则合并时，顺序读取每个切分单元及每个切分单元的词标注。词起始标注可以用“\B”表示，词中间标注可以用“\M”表示，词中间标注可以用“\E”表示，词中间标注可以用“\S”表示。

如果当前读取到的切分单元的词标注为完整词标注，则认为该切分单元即第四切分单元已经可以表示一个完整词，则将该切分单元作为完成的词输出。

如果当前读取到的切分单元的词标注非完整词标注即为词起始标注、词中间标注和词结束标注中的任一项，若当前读取到的切分单元的词标注为词起始标注，顺序读取该切分单元即第一切分单元后的切分单元，当读取到词标注为词结束标注的第二切分单元时，认为查找到与该第一切分单元相邻的词标注为词结束标注的第二切分单元，因为该第二切分单元是根据该第一切分单元顺序读取到的，因此在读取到该第二切分单元时，会顺序读取该第一切分单元与该第二切分单元中的第三切分单元，则可以在标注序列中确定第三切分单元，该第三切分单元的数量可以为0个，也可以为至少一个。电子设备按照读取到的顺序即按照在标注序列中的顺序，将读取到的第一切分单元、第三切分单元及第二切分单元合并为一个完整的词，从而实现切分单元的合并。若不存在第三切分单元，则实际上是将读取到的第一切分单元和第二切分单元合并为一个完整的词。

在本发明实施例中，提供了简单的切分单元的合并方式，提高了分词效率。

实施例4：

在上述各实施例中，本发明实施例中，预先训练词切分模型包括：

训练集中保存有样本分词语料，电子设备中预先保存的基线分词模型对样本分词语料进行分词，得到样本初步分词结果，训练集中保存有分词后的样本初步分词结果，并获取样本初步分词结果中被人工标记的真实词切分结果。

电子设备将样本初步分词结果及获取到的真实词切分结果输入到词切分模型中，获取词切分模型输出的训练切分结果，词切分模型根据真实词切分结果及训练切分结果进行迭代训练，从而得到训练完成的词切分模型。

训练切分结果中包括至少两个切分单元，每个切分单元也可以认为是训练切分单元，训练切分单元中包括训练切分字符和/或训练切分字符集合。如人工标注真实词切分结果时将样本初步分词结果中的“中华人民共和国”标注为一个完整的词。样本初步分词结果中包括词“中华人民共和国”，经过词切分结果切分后可能得到“中华”、“人民”和“共和国”三个切分单元。

该词切分模型包括BPE模型或改进后的BPE模型。

在本发明实施例中对词切分模型进行了训练，得到了训练完成的词切分模型，能够实现对现有的基线分词模型不进行改变，保证了分词模型的收敛速度，提高了分词效率，并且采用新增加的词切分模型及预设的合并规则，对基线分词模型的分词结果进行了更正，生成了最终分词结果，因此提高了分词结果的准确性。

实施例5：

在上述各实施例的基础上，本发明实施例中，所述获取所述样本初步分词结果的训练切分结果后，预先训练标注器包括：

根据所述至少一组映射关系，确定训练完成的标注器。

所述标注器基于DNN(Deep Neural Networks，深度神经网络)训练完成。该DNN可以包括多层RNN(Recurrent Neural Networks，循环神经网络)。

电子设备获取到样本初步分词结果的训练切分结果后，可以对标注器进行训练，在训练过程中，可以先对训练切分结果进行标注，以实现对标注器的训练。

电子设备在对训练切分结果进行标注时，根据真实词切分结果D-real和训练切分结果D-fake生成标注，以图3为例，可以采用以下标注生成规则对训练切分结果进行重标注：

1、在字符级别上对齐D-real和D-fake，找到最小字符单元，确定包含相同字符的真实词切分单元与训练切分单元的最小切分单元集合，也就是该最小字符单元中的每个字符同时属于D-real和D-fake中对应的切分单元，且该最小字符单元的边界恰好完整包括D-real和D-fake中对应的切分单元，如D-real中的两个真实词切分单元“你好”“吗”和D-fake中的两个训练切分单元“你”“好吗”同属于最小字符单元“你好吗”。

2、根据D-real和D-fake中字符的最小对齐单元对D-fake中的词标记。假设训练切分单元“你”“好吗”对应于最小字符单元为“你好吗”，且“你好吗”在D-real是一个完整的词，故将词标记为“你\B”“好吗\E”。

词标注即标注的标签有B，M，E，-B，-M，-E，S，其中‘B，-B’表示词属于最小字符单元的开始即词起始标注，‘M，-M’表示词属于最小字符单元的中间部分即词中间标注，‘E，-E’表示词属于最小字符单元的结束即词结束标注。符号‘B，M，E’标注的词序列对应到D-real中是一个完整的词，而符号‘-B，-M，-E’标注的词序列对应到D-real中不是一个完整的词，即符号‘-B，-M，-E’标注的词序列虽也标注为词起始、词中间和词标注，但是在当前场景下不适用，在后续训练器训练过程中进行筛选，实现较好的标注效果和分词效果。‘S’表示词单独构成最小字符单元即完整词标注。

3、采用上述标注方式，得到训练切分结果D-fake的标注结果即标注序列L。

电子设备为每个训练切分单元进行词标注后，训练标注器时，将每个训练切分单元及每个训练切分单元的词标注输入到标注器中，基于标注器中的学习数据分布，学习到训练切分单元与此标注之间的至少一组映射关系。

电子设备根据该至少一组映射关系，确定训练完成的标注器，可以是在至少一组映射关系中选取最符合真实词切分结果的一组确定为最佳映射关系，来确定训练完成的标注器，也可以是在至少一组映射关系中训练切分单元最细化的一组确定为最佳映射关系，来确定训练完成的标注器等。

下面以一个具体的实施例对上述实施例进行说明，如图4所示，步骤1分词：基线分词系统即基线分词模型对样本分词语料进行分词，得到样本初步分词结果，步骤2词切分：将样本初步分词结果输入到BPE模型中获取训练切分结果，根据分词标注即真实词切分结果与样本切分结果对BPE模型训练，得到训练完成的BPE模型。步骤3：根据分词标注即真实词切分结果与训练分词结果确定最小切分单元集合，并对训练分词结果进行重标注，得到切分标注即每个训练分词单元的词标注的标注序列L。步骤4：将训练切分结果中的每个训练分词单元与每个训练分词单元的词标注输入到神经网络即标注器中进行标注学习得到至少一组映射关系，根据该至少一组映射关系确定神经网络标注器。

在本发明实施例中对训练器进行了训练，从而采用新增加的词切分模型及预设的合并规则，对基线分词模型的分词结果进行更正，来生成最终分词结果，因此提高了分词结果的准确性。

实施例6：

在上述各实施例的基础上，本发明实施例还提供了一种电子设备600，如图5所示，包括：处理器501、存储器502和收发机503；

所述处理器501，用于执行读取存储器502中的程序，执行下列过程：

基于同一发明构思，本发明实施例中还提供了一种电子设备，由于上述电子设备解决问题的原理与商业选址方法相似，因此上述电子设备的实施可以参见方法的实施，重复之处不再赘述。

在图5中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器501代表的一个或多个处理器和存储器502代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。收发机503可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元。处理器501负责管理总线架构和通常的处理，存储器502可以存储处理器501在执行操作时所使用的数据。

可选的，处理器501可以是CPU(中央处埋器)、ASIC(Application SpecificIntegrated Circuit，专用集成电路)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)或CPLD(Complex Programmable Logic Device，复杂可编程逻辑器件)。

所述词切分模型包括字节对编码BPE模型。

所述处理器501，还用于将所述切分结果输入到预先训练完成的标注器中，基于所述标注器，输出所述切分结果的标注序列，其中所述标注序列中包括所述至少两个切分单元中每个切分单元的词标注；所述按照预设的合并规则，合并所述至少两个切分单元包括：根据所述每个切分单元的词标注及预设的合并规则，合并所述每个切分单元。

所述处理器501，具体用于顺序读取所述每个切分单元及所述每个切分单元的词标注，采用下述方式进行合并，直至所述每个切分单元合并完成：若存在词标注为词起始标注的第一切分单元，查找与其相邻的词标注为词结束标注的第二切分单元，并确定在标注序列中位于所述第一切分单元及所述第二切分单元之间的第三切分单元；按照在标注序列中的顺序，将所述第一切分单元、所述第三切分单元及所述第二切分单元合并为一个完整的词；若存在词标注为完整词标注的第四切分单元，则将所述第四切分单元确定为一个完整的词。

所述处理器501，还用于针对训练集中的样本初步分词结果，获取所述样本初步分词结果中被人工标记的真实词切分结果，其中所述样本初步分词结果为训练集中的样本分词语料输入到预先保存的基线分词模型中，基于所述基线分词模型确定的；将所述样本初步分词结果及所述真实词切分结果输入到词切分模型中，获取所述样本初步分词结果的训练切分结果，对所述词切分模型进行迭代训练，其中所述训练切分结果中包括至少两个切分单元。

所述处理器501，还用于获取所述样本初步分词结果的训练切分结果后，在字符级别上对齐所述真实词切分结果中的每个真实词切分单元与所述训练切分结果中的每个训练切分单元，确定包含相同字符的真实词切分单元与训练切分单元的最小切分单元集合；根据所述最小切分单元集合，为所述每个训练切分单元进行词标注，其中所述词标注包括词起始标注、词中间标注、词结束标注、完整词标注；将所述每个训练切分单元及所述每个训练切分单元的词标注输入到标注器中，获取训练切分单元与词标注的至少一组映射关系；根据所述至少一组映射关系，确定训练完成的标注器。

所述处理器501，还用于基于深度神经网络DNN训练完成所述标注器。

在本发明实施例中，对现有的基线分词模型不进行改变，保证了分词模型的收敛速度，提高了分词效率，并且采用新增加的词切分模型及预设的合并规则，对基线分词模型的分词结果进行了更正，生成了最终分词结果，因此提高了分词结果的准确性。

实施例7：

在上述各实施例的基础上，本发明实施例还提供了一种电子设备600，如图6所示，包括：处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信；

所述存储器603中存储有计算机程序，当所述程序被所述处理器601执行时，使得所述处理器601执行如下步骤：

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口602用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字指令处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

在本发明实施例中，处理器执行存储器上所存放的程序时，实现对现有的基线分词模型不进行改变，保证了分词模型的收敛速度，提高了分词效率，并且采用新增加的词切分模型及预设的合并规则，对基线分词模型的分词结果进行了更正，生成了最终分词结果，因此提高了分词结果的准确性。

实施例8：

在上述各实施例的基础上，本发明实施例还提供了一种计算机存储可读存储介质，所述计算机可读存储介质内存储有可由电子设备执行的计算机程序，当所述程序在所述电子设备上运行时，使得所述电子设备执行时实现如下步骤：

上述计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器如软盘、硬盘、磁带、磁光盘(MO)等、光学存储器如CD、DVD、BD、HVD等、以及半导体存储器如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD)等。

在本发明实施例中提供的计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时，实现对现有的基线分词模型不进行改变，保证了分词模型的收敛速度，提高了分词效率，并且采用新增加的词切分模型及预设的合并规则，对基线分词模型的分词结果进行了更正，生成了最终分词结果，因此提高了分词结果的准确性。

图7为本发明实施例提供的一种分词装置700示意图，该装置包括：

第一确定模块701，用于将分词语料输入到预先保存的基线分词模型中，基于所述基线分词模型，确定所述分词语料的初步分词结果；

切分模块702，用于将所述初步分词结果输入到预先训练完成的词切分模型中，基于所述词切分模型，输出所述初步分词结果的切分结果，其中所述切分结果包括至少两个切分单元；

第二确定模块703，用于按照预设的合并规则，合并所述至少两个切分单元，并确定所述分词语料的最终分词结果。

所述词切分模型包括字节对编码BPE模型。

所述装置还包括：

标注确定单元704，用于将所述切分结果输入到预先训练完成的标注器中，基于所述标注器，输出所述切分结果的标注序列，其中所述标注序列中包括所述至少两个切分单元中每个切分单元的词标注；

所述第二确定单元703，具体用于根据所述每个切分单元的词标注及预设的合并规则，合并所述每个切分单元。

所述第二确定单元703，具体用于顺序读取所述每个切分单元及所述每个切分单元的词标注，采用下述方式进行合并，直至所述每个切分单元合并完成：若存在词标注为词起始标注的第一切分单元，查找与其相邻的词标注为词结束标注的第二切分单元，并确定在标注序列中位于所述第一切分单元及所述第二切分单元之间的第三切分单元；按照在标注序列中的顺序，将所述第一切分单元、所述第三切分单元及所述第二切分单元合并为一个完整的词；若存在词标注为完整词标注的第四切分单元，则将所述第四切分单元确定为一个完整的词。

所述装置还包括：

训练模块705，用于针对训练集中的样本初步分词结果，获取所述样本初步分词结果中被人工标记的真实词切分结果，其中所述样本初步分词结果为训练集中的样本分词语料输入到预先保存的基线分词模型中，基于所述基线分词模型确定的；将所述样本初步分词结果及所述真实词切分结果输入到词切分模型中，获取所述样本初步分词结果的训练切分结果，对所述词切分模型进行迭代训练，其中所述训练切分结果中包括至少两个切分单元。

所述训练模块705，还用于获取所述样本初步分词结果的训练切分结果后，在字符级别上对齐所述真实词切分结果中的每个真实词切分单元与所述训练切分结果中的每个训练切分单元，确定包含相同字符的真实词切分单元与训练切分单元的最小切分单元集合；根据所述最小切分单元集合，为所述每个训练切分单元进行词标注，其中所述词标注包括词起始标注、词中间标注、词结束标注、完整词标注；将所述每个训练切分单元及所述每个训练切分单元的词标注输入到标注器中，获取训练切分单元与词标注的至少一组映射关系；根据所述至少一组映射关系，确定训练完成的标注器。

所述训练模块705，具体用于基于深度神经网络DNN训练完成所述标注器。

本发明实施例提供的分词方法中对现有的基线分词模型不进行改变，保证了分词模型的收敛速度，提高了分词效率，并且采用新增加的词切分模型及预设的合并规则，对基线分词模型的分词结果进行了更正，生成了最终分词结果，因此提高了分词结果的准确性。

对于系统/装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种分词方法，其特征在于，应用于电子设备，该方法包括：

按照预设的合并规则，合并所述至少两个切分单元，并确定所述分词语料的最终分词结果；

预先训练词切分模型包括：

2.如权利要求1所述的方法，其特征在于，所述词切分模型包括字节对编码BPE模型。

3.如权利要求1所述的方法，其特征在于，所述按照预设的合并规则，合并所述至少两个切分单元之前，所述方法还包括：

4.如权利要求3所述的方法，其特征在于，所述根据所述每个切分单元的词标注及预设的合并规则，合并所述每个切分单元包括：

5.如权利要求1所述的方法，其特征在于，所述获取所述样本初步分词结果的训练切分结果后，预先训练标注器包括：

根据所述至少一组映射关系，确定训练完成的标注器。

6.如权利要求5所述的方法，其特征在于，所述标注器基于深度神经网络DNN训练完成。

7.一种分词装置，其特征在于，应用于电子设备，该装置包括：

第二确定模块，用于按照预设的合并规则，合并所述至少两个切分单元，并确定所述分词语料的最终分词结果；

所述装置还包括：

8.如权利要求7所述的装置，其特征在于，所述词切分模型包括字节对编码BPE模型。

9.如权利要求7所述的装置，其特征在于，所述装置还包括：标注确定单元，用于将所述切分结果输入到预先训练完成的标注器中，基于所述标注器，输出所述切分结果的标注序列，其中所述标注序列中包括所述至少两个切分单元中每个切分单元的词标注；

10.如权利要求9所述的装置，其特征在于，所述第二确定单元，具体用于顺序读取所述每个切分单元及所述每个切分单元的词标注，采用下述方式进行合并，直至所述每个切分单元合并完成：若存在词标注为词起始标注的第一切分单元，查找与其相邻的词标注为词结束标注的第二切分单元，并确定在标注序列中位于所述第一切分单元及所述第二切分单元之间的第三切分单元；按照在标注序列中的顺序，将所述第一切分单元、所述第三切分单元及所述第二切分单元合并为一个完整的词；若存在词标注为完整词标注的第四切分单元，则将所述第四切分单元确定为一个完整的词。

11.如权利要求7所述的装置，其特征在于，所述训练模块，还用于获取所述样本初步分词结果的训练切分结果后，在字符级别上对齐所述真实词切分结果中的每个真实词切分单元与所述训练切分结果中的每个训练切分单元，确定包含相同字符的真实词切分单元与训练切分单元的最小切分单元集合；根据所述最小切分单元集合，为所述每个训练切分单元进行词标注，其中所述词标注包括词起始标注、词中间标注、词结束标注、完整词标注；将所述每个训练切分单元及所述每个训练切分单元的词标注输入到标注器中，获取训练切分单元与词标注的至少一组映射关系；根据所述至少一组映射关系，确定训练完成的标注器。

12.如权利要求11所述的装置，其特征在于，所述训练模块，具体用于基于深度神经网络DNN训练完成所述标注器。

13.一种电子设备，其特征在于，包括存储器和处理器；

所述处理器，用于读取所述存储器中的程序，执行权利要求1～6任一项所述方法的步骤。

14.一种计算机可读存储介质，其特征在于，其存储有可由电子设备执行的计算机程序，当所述程序在所述电子设备上运行时，使得所述电子设备执行权利要求1～6任一项所述方法的步骤。