CN115700584A

CN115700584A - 一种分词方法及其相关设备

Info

Publication number: CN115700584A
Application number: CN202110838414.1A
Authority: CN
Inventors: 陈珊珊; 王喆锋; 段新宇; 怀宝兴; 袁晶
Original assignee: Huawei Cloud Computing Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2023-02-07
Also published as: WO2023000728A1

Abstract

本申请实施例公开了一种分词方法及其相关设备，涉及自然语言处理领域。该方法包括获取分词策略，分词策略包括构词方式信息。根据构词方式信息，对已标注语料进行筛选，获得目标已标注语料。其中，每个目标已标注语料均携带有对应的标注信息。根据目标已标注语料对目标分词模型进行训练。利用训练后的目标分词模型对语言文本数据进行分词处理。利用上述方法，可以根据用户偏好的分词策略来获取目标分词模型，一方面可以减少标注语料资源的浪费，另一方面可以获得满足用户个性化需求的自定义分词模型，提高了分词效率。

Description

一种分词方法及其相关设备

技术领域

本申请实施例涉及自然语言处理领域，尤其涉及一种分词方法及其相关设备。

背景技术

随着信息技术的飞速发展，用户与互联网的交互将越来越频繁，互联网中也将充斥着大量的自然语言文本数据。若机器能够更好的理解自然语言，就可以提高自然语言文本数据的处理效率，进而帮助用户提供工作效率。而提高机器对自然语言的理解能力的关键就是挖掘自然语言文本数据中的有效信息。

分词技术是对自然语言进行处理的重要原子能力，是对自然语言文本数据中的信息进行有效建模的重要手段。分词旨在通过有监督学习的方式，将文本切分成最细粒度的语义单元——词汇，通过词汇组合的形式来表征文本的语义，帮助机器更好的发掘文本中蕴含的有效信息。现有的，业内一般是通过基于固定分词标准的分词模型来对自然语言文本数据进行分词，然后再利用分词后的自然语言文本数据完成具体的自然语言任务。

基于固定分词标准形成的固定分词模型，难以适配所有的自然语言处理场景，用户无法获得满足自身需求的分词模型，因此，如何获取基于用户自定义标准的分词模型，并利用该模型对自然语言文本进行分词处理成为亟需解决的问题。

发明内容

本申请实施例提供了一种分词方法，可以基于用户需求来自定义的分词模型，并根据该自定义分词模型来对自然语言文本进行分词处理。

本申请实施例的第一方面提供一种分词方法，包括：

首先获取用户输入的分词策略，该分词策略包括多种信息以反映用户的分词偏好。其中，构词方式信息用来表述用户所需求的构词方式，可以根据该构词方式信息，对标注语料库中海量的已标注语料进行筛选，获得符合用户所需构词方式的目标已标注语料。其中，每个目标已标注语料均携带有对应的标注信息。然后利用目标已标注语料对目标分词模型进行训练，得到满足用户需求的分词模型。最后，再利用训练后的目标分词模型对语言文本数据进行分词处理，以完成相应的自然语言分词任务。

上述分词方法，利用用户输入的分词策略来筛选已标注语料，得到符合用户需求的目标已标注语料，这样就可以减少标注语料的浪费。同时，利用目标已标注语料来训练目标分词模型，可以获得符合用户构词方式偏好的分词器，满足用户个性化需求，提高分词模型的灵活性，通过提高分词器性能来提高最终的分词效率。

在一种可选的实施方式中，分词策略中的构词方式信息包括分词粒度信息或者复合词拆分信息。其中，分词粒度信息用来指示分词后，得到的词汇中包含的字数。而复合词拆分信息用来形容复合词的拆分规则。通过上述两种信息的规定，能够更加精确的要求分词模型的性能，使得最终训练得到的目标分词模型能够更精准的对语言文本数据进行分词。

在一种可选的实施方式中，还可以根据用户输入的分词策略，选择理想的目标分词模型。具体的，通过对分词策略进行分析，获取分词模型的性能需求，然后才多个预置的分词模型中来选择理想的目标分词模型。其中，每个预置的分词模型，其模型复杂度不同。一般的，复杂度高的分词模型分词准确性高，但是训练难度大，运算速度慢。复杂度低的分词模型运行速度快，训练难度低，但是分词的准确性却不高。通过分词策略在多个预置分词模型中选择目标分词模型，可以满足用户的不同分词需求，以获得个性化分词方案。

在一种可选的实施方式中，分词策略还包括分词模式信息以及分词器性能信息。在对海量已标注语料筛选后，需要先确定筛选得到的目标已标注语料的数量，然后通过对目标已标注语料的数量，分词模式信息以及分词器性能信息的综合评估，来确定所需要的分词模型的模型复杂度信息，再根据该模型复杂度信息，在多个预置分词模型中选择一个分词模型来作为最后的目标分词模型。

通过对获取到的目标已标注语料的数量，分词模式信息以及分词器性能信息的综合评估，可以从不同方面来确定所选的目标分词模型的复杂程度。例如，目标已标注语料越多，所选的目标分词模型就可以更复杂一些，以提高最终获得的分词模型的分词准确性。而分词模式信息则会影响分词模型对应的分词算法。分词器性能更是可以确定所选目标分词模型的参数量、模型层数等。从三个方面考量所选的目标分词模型，可以获得更符合用户需求的分词模型，提高分词模型的性能。

在一种可选的实施方式中，分词模式信息包括单模式信息或者全模式信息。单模式信息要求将语言文本数据进行切分，即对字序列的基本切割，不允许字序列中包括的字重复造词。而全模式信息则是要求获取语言文本数据中所出现的所有词汇，字序列中包括的字可以重复造词。可以理解的，单模式信息对应的分词模型的模型复杂度信息小于全模式信息对应的分词模型的模型复杂度信息。

在一种可选的实施方式中，分词器性能信息包括处理速度要求以及准确度要求，它直接反映所需要的目标分词模型的性能。其中，处理速度要求越高，模型复杂度信息越低。而准确度要求越高，模型复杂度信息越高。

在一种可选的实施方式中，当选择好目标分词模型，利用目标已标注语料对其进行训练之前，可以根据分词粒度信息和构词方式信息，对目标分词模型进行初始化，调整目标分词模型的模型参数。这样，可以加快训练速度，使得目标分词模型迅速收敛，提高目标分词模型的训练效率。

在一种可选的实施方式中，获取分词策略的方式可以采用调查问卷的方式，具体的，可以先向用户发送调查问卷，该调查问卷可以包括多个问题，例如构词方式信息调查问题、分词粒度调查问题、分词模式调查问题和分词器性能调查问题等。用户通过填写调查文件的方式输入分词策略，传递自身的分词需求。

本申请实施例的第二方面提供一种分词装置，包括：

获取单元，用于获取分词策略，分词策略包括构词方式信息。

获取单元，还用于根据构词方式信息，对已标注语料进行筛选，获得目标已标注语料，其中，每个目标已标注语料均携带有对应的标注信息。

训练单元，用于根据目标已标注语料对目标分词模型进行训练。

处理单元，用于利用训练后的目标分词模型对语言文本数据进行分词处理。

在一种可选的实施方式中，构词方式信息包括分词粒度信息或复合词拆分信息，其中，分词粒度信息指示词汇的字数，复合词拆分信息指示复合词汇的拆分规则。

在一种可选的实施方式中，该装置还包括确定单元。确定单元，用于根据分词策略，从多个预置分词模型中确定目标分词模型，其中，每个预置分词模型的模型复杂度不同。

在一种可选的实施方式中，分词策略还包括分词模式信息和分词器性能信息。

确定单元，还用于确定目标已标注语料的数量。

确定单元，具体用于根据目标已标注语料的数量、分词模式信息和分词器性能信息，确定模型复杂度信息。根据模型复杂度信息，在多个预置分词模型中确定目标分词模型。

在一种可选的实施方式中，分词模式信息包括单模式信息或全模式信息。单模式信息用于对语言文本数据进行词语切分操作，全模式信息用于确定语言文本数据中包括的所有词汇。其中，单模式信息对应的分词模型的模型复杂度信息小于全模式信息对应的分词模型的模型复杂度信息。

在一种可选的实施方式中，分词器性能信息包括处理速度要求和/或准确度要求。其中，处理速度要求越高，模型复杂度信息越低。准确度要求越高，模型复杂度信息越高。

在一种可选的实施方式中，训练单元，还用于根据分词粒度信息和构词方式信息，调整目标分词模型的模型参数。

在一种可选的实施方式中，该分词装置还包括发送单元和接收单元。

发送单元，用于向用户发送调查问卷，调查问卷包括构词方式信息调查问题、分词粒度调查问题、分词模式调查问题和分词器性能调查问题中的至少一个。

接收单元，用于接收用户根据调查问卷输入的分词策略。

本申请实施例的第三方面提供了一种电子设备，可以包括处理器，处理器和存储器耦合，存储器存储有程序指令，当存储器存储的程序指令被处理器执行时实现上述第一方面所述的分词方法。

本申请实施例的第四方面提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当该程序在计算机上运行时，使得计算机执行上述第一方面所述的分词方法。

本申请实施例的第五方面提供了一种电路系统，该电路系统包括处理电路，该处理电路配置为执行上述第一方面所述的分词方法。

本申请实施例的第六方面提供了一种芯片系统，该芯片系统包括处理器，用于实现上述各个方面中所涉及的功能，例如，发送或处理上述方法中所涉及的数据和/或信息。在一种可能的设计中，该芯片系统还包括存储器，该存储器，用于保存服务器或通信设备必要的程序指令和数据。该芯片系统，可以由芯片构成，也可以包括芯片和其他分立器件。

本申请实施例的第七方面提供了一种计算机程序产品，该计算机程序产品包括计算机可读指令，当该计算机可读指令在计算机上运行时，使得计算机执行上述第一方面所述的分词方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

在本申请实施例中，可以利用用户输入的分词策略来筛选已标注语料，得到符合用户需求的目标已标注语料，这样就可以减少大量标注语料的浪费。同时，利用目标已标注语料来训练目标分词模型，可以获得符合用户构词方式偏好的分词器，满足用户个性化需求，提高分词模型的灵活性，通过提高分词器性能来提高最终的分词效率。

附图说明

图1为本申请实施例提供的一种分词器生成系统的系统架构图；

图2为本申请实施例提供的一种分词方法的流程示意图；

图3为本申请实施例提供的一种问卷调查的界面示意图；

图4为本申请实施例提供的一种生成分词器的系统架构图；

图5为本申请实施例提供的一种分词器生成单元的结构示意图；

图6为本申请实施例的提供一种分词装置的结构示意图；

图7为本申请实施例的提供另一种分词装置的结构示意图。

具体实施方式

本申请实施例提供了一种分词方法及其相关设备，可以基于用户需求来自定义的分词模型，并根据该自定义分词模型来对自然语言文本进行分词处理。

下面将结合本申请中的附图，对本申请中的技术方案进行详细地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

分词作为自然语言处理中的一项基本内容，是很多自然语言任务的基础。分词是指将字或字母序列切分成一个个单独的词，即是将连续的字序列按照一定的规范重新组合成词序列的过程。词是表意的完整单位，只有理解了词的意思，才能掌握整个语句的语义。因此，对自然语言文本进行合理的分词处理是对其进行有效建模的前提。分词旨在通过有监督的学习方式，将自然语言文本切分成最细粒度的语义单元(词汇)，通过词汇组合的形式来表征文本的语义，以帮助机器更好的理解文本中蕴含的语义信息。

分词任务的困难主要来自语言的歧义问题，以中文为例，在对“乒乓球拍卖完了”这句话进行分词时，可以被分为“乒乓/球拍/卖完/了”，也可以分为“乒乓球/拍卖/完/了”。由上述例子可以看出，不同的分词结果造成了语句具有完全不同的语义，因此合理有效的对语言文本进行分词将会是完成自然语言任务的基础，也是关键。

针对于上述问题，在对自然语言文本进行分词处理时，就需要基于分词标准来进行分词处理。分词标准是指分词规范，用于约定一些构词规则。例如规定，国家名称无论字数多少，都需要作为一个分词单元，不可再分，即国家名称需要视为一个词汇。针对自然语言的歧义问题，分词标准可以从以下几个维度来制定：

1、分词模式：

分词模式一般可以分为单模式和全模式两种方式。其中，单模式用来对句子进行最精确的切分，即在对字序列进行分词时，字不被重复构词。例如，在对“苹果手机是智能手机”这一语句进行单模式分词时，分词结果可以是“苹果/手机/是/智能/手机”，对应的词汇只包括“苹果”、“手机”、“是”和“智能”，每一个字都只是一个词语中的元素。而全模式则是值将整个句子中所有可以成词的词语都分出来，即需要确定字序列中所有的词汇，同样的，若对上述“苹果手机是智能手机”这一语句进行全模式分词时，分词结果中对应的词汇包括“苹果”、“手机”、“苹果手机”、“智能”、“智能手机”等。

从上述描述可以看出，分词模式用来衡量自然语言文本的拆分方法，不同的分词模式对应的分词结果完全不同，具体的，若要求文本的分词结果更精确，那么就可以使用单模式，若要求文本的分词结果中包含的词汇更丰富，那么就可以使用双模式。

2、分词粒度：

分词粒度是指分词的细化或综合程度的级别，简单而言可以指分词后产生的词汇中所包含的文字个数。一般可分为细粒度和粗粒度，示例性的，在细粒度情况下，“华为技术有限公司”的分词结果可以是“华为/技术/有限/公司”，而粗粒度情况下，“华为技术有限公司”将会被视为一个完整的词汇不予以切分。可以理解的，不同的语言任务对分词粒度的需要也不同，针对具体的任务场景选择最合适的粒度，将大大提高任务效率。

3、复合词拆分规则：

复合词是指由多个词根语素按照一定规则组合起来的合成词。一般的，构词歧义主要集中在复合词场景，合理区分或者切分合成词，是提高分词性能的关键。以中文为例，复合词中包括联合型复合词、偏正型复合词等。

联合型复合词指复合词中包含的多个词根要素的语义并列且可以相互补充说明，例如“兄弟手足”、“风霜刀剑”等。其中，“兄弟手足”中包含的语素“兄弟”和“手足”语义近似，在分词过程中，可以选择将“兄弟手足”分为“兄弟/手足”，也可以选择将其作为一个整体不切分。即复合词拆分规则可以为并列语素拆分或者并列语素不拆分，针对不同的分词需求来确定具体的联合型复合词的拆分规则。

同理，偏正型复合词是指组成复合词的多个语素之间，是修饰和被修饰的关系。例如“趣味阅读”中，“趣味”则是“阅读”的修饰语。偏正型复合词的词汇结构通常都较为复杂，通常语素的字数、修饰词的类型、以及中心词等因素都会影响分词结果。因此，可以针对上述因素确定对应的规则，来确定具体的偏正型复合词的拆分规则，这样才可以适应具体分词任务，更高效准确的完成分词任务。

以上均是针对于自然语言文本的构词方式来探讨分词标准，除了上述几个维度外，还可以根据具体需求制定对应的分词标准，例如地名和人名不可分等，具体不做限定。

可以理解的，若想要通过神经网络模型获得一个分词器，必须基于一个分词标准来训练网络模型。现有的，一个分词器的获取流程包括:语言学家针对于具体的自然语言任务来研究自然语言的构词方法，制定适应该任务的固定的分词标准，然后组织标注人员对大量的自然语言文本进行分词标注，然后将有标注的自然语言文本输入至待训练的分词模型中，其中，该待训练的分词模型对应分词算法，然后获得待训练的分词模型的输出结果，计算输出结果与标注信息之间的损失值，再反向传递该损失值，不断调整待训练的分词模型的模型参数，直到达到训练标准之后，获得固定分词标准下的分词器。

上述流程获得的分词器，与分词标准密切相关，由于分词标准是固定的，所以分词器无法灵活适应不同场景下的分词任务。若分词器无法满足其他场景下的分词需求时，就需要语言学家重新调整分词标准，然后再组织标注人员重新对自然语言进行标注，然后用新的标注语料数据对分词器重新进行训练，才能得到适配新场景的新分词模型。

基于上述描述可以看出，若采用固定分词标准对应的分词器对自然语言文本进行分词，一是分词器难以适应各种场景下的分词需求，这是因为相比于自然语言丰富的构词方式，固定分词标准极少，其对应的分词器往往会带来分词结果不准确、分词效果差的问题。二是若要得到更准确的分词器，就需要从制定新的分词标准开始，对自然语言文本重新标注，并重新设计和训练分词模型，这样，将消耗大量的人力物力财力，成本颇高。因此，如何获取针对具体分词需求的更准确的分词器，并利用该分词器对自然语言文本进行分词成为亟需解决的问题。

本申请实施例提供了一种分词方法，可以根据不同的分词场景来自定义构词偏好，灵活制定分词标准，并基于自定义的分词标准来对已有的标注语料和已有的分词器模型进行筛选，并通过筛选后的标注语料对原有的分词器进行训练来获得新的分词器，最终通过新的分词器来对自然语言文本进行分词。这样，就可以利用原有的标注语料和分词模型来得到适应具体分词场景的新分词器，从而提高该场景下分词结果的准确性。

图1为本申请实施例提供的一种分词器生成系统的系统架构图。如图1所示，该分成器生成系统包括：人机交互界面、构词分析单元、分词器数据库、预置算法库、标记语料数据库、分词器处理单元。

其中，人机交互界面用于获取用户分词需求，调查具体的构词偏好。示例性的，人机交互界面可以以调查问卷的方式来获取用户期望的构词方式，即人机交互界面的目的是为了区分不同的分词场景，满足不同的分词需求。当人机交互界面接收到用户针对于调查问卷的输入操作后，就可以根据输入操作得到问卷结果，然后将问卷结果发送至构词分析单元中，使得构词分析单元根据问卷结果来得到对应的分词标准(分词策略)。

构词分析单元则用于剖析调查问卷的问卷结果，对分词需求进行深入分析，基于问卷结果来获得对应的分词标准(分词策略)。可以理解的，基于该分词标准得到的分词器能更能满足分词场景的分词需求，为自定义分词器提供了前提。构词分析单元在得到分词器标准后，将该分词标准输入至分词器处理单元。

分词器处理单元可以根据分词标准对分词器数据库中的多个分词器进行评价，判断已经存在的分词器是否满足分词需求，示例性的，可以基于分词标准对多个分词器进行评分，按照得分筛选目标分词器，即该目标分词器的分词结果最符合上述分词标准，然后利用该目标分词器完成具体的分词任务。如果分词器数据库中的分词器均不满足分词需求，那么分词器处理单元就需要根据该分词标准来获得新的分词器来适应分词场景。

分词器处理单元需要先根据分词标准对标注语料数据库中的海量标注语料进行筛选，得到复合该分词标准的已标注语料，这样就可以重复利用标注语料资源，无需重新标注，提高标注语料的利用率。然后再根据用户需求在预置算法库中选择对应的预置算法，可以理解的，预置算法即为具体的分词算法，其与已有分词器关联。然后根据筛选的算法来建立分词器结构，并利用筛选后的已标注语料对分词器进行训练，最终得到适应分词场景的新的分词器，然后利用新分词器完成具体的自然语言分词任务。

可以理解的，新分词器可以加入至分词器数据库中，以丰富分词器数据库。这样，后续有相似分词需求时，分词器处理单元可以自动匹配该分词器来完成分词任务。同时，可以将分词器数据库中的分词器作为预训练模型，直接进行训练，这样可以完成知识迁移，实现分词器的初始化，加快分词器的收敛速度。

图2为本申请实施例提供的一种分词方法的流程示意图，如图2所示，该分词方法包括以下几个步骤：

201、获取用户输入的分词策略。

在对自然语言文本数据进行分词处理前，可以通过用户的具体分词需求来制定分词策略。可以理解的，不同的分词场景对分词结果有不同的要求。例如，在意图识别任务中，为了提高意图识别的精确度，那么就需要对自然语言文本进行最细粒度的分词处理，对其制定的分词策略即为细粒度分词。又例如，在敏感词识别任务中，由于要求识别自然语言文本中的敏感词，那么在对自然语言文本进行分词处理时，则需要要求将敏感词当作一个整体，不再进行拆分。因此，在自定义分词器过程中，首先要了解分词需求，再根据分析需求得到适配于分词场景的分词策略。

示例性的，可以通过问卷调查的方式来获取用户构词偏好，从而获知具体的分词策略。其中，调查问卷可以包括分词粒度调查问题、构词方式调查问题、分词模式调查问题和分词性能调查问题等。通过这些问题的调查结构，就可以从多个维度来分析用户偏好的分词方式，得到分词需求。图3为本申请实施例提供的一种问卷调查的界面示意图，如图3所示，问卷调查用于接收用户输入的分词策略，其界面上包括有多个问题，其中，问题a用于确定分词模式，问题b用于确定分词粒度，用户可以根据具体的分词需求来选择合适的分词模式和分词粒度。

而问题c则为性能要求，用于要求分词器的性能。分词器性能用于衡量不同分词算法的复杂度，一般的，分词算法的复杂度越高，其对应的分词结果的准确度越高，但是相应的其运算速率就会下降，相反，分析算法的复杂度越低，运算速率将会增高，但是对应的分词结果的准确度就会下降。因此，用户可以根据不同的分析需求来确定不同的分词性能，在图2中，分词性能对应的选项用来描述分析器的运算速率，可以根据不同的需求来选择不同的运算速率。

复合词的拆分规则可以通过选择题的方式来进行获取，如图2所示的问题9，每一个选项则为预设的分词结果，用户可以根据实际的复合词分词需求来选择最适合的分词结果，然后根据选择的分词结果来剖析用户所需的复合词拆分规则，示例性的，可以根据用户的选择来确定是否对偏正型复合词进行拆分。

可以理解的，调查文件中的问题可以以多种形式呈现，其目的为调查用户的分词偏好，根据用户需求来自定义分词策略(分词标准)。可以理解的，调查问卷的调查结果则为用户输入的分词策略。但是也可以采用其他形式来调查分词需求，例如通过参数设置的方式来输入具体的分词要求，以达到获取分词策略的目的，具体形式不做限定。

当通过问卷调查等方式获取到用户输入的分词需求时，就可以根据该分词需求得到具体的分词策略。其中，分词策略可以包括构词方式信息、分词模式信息和分词器性能信息等，构词方式信息又可以包括分词粒度信息和复合词拆分信息。通过对问卷结果的挖掘，从不同维度分析和总结分词标准，得到具体的分词策略，再根据分词策略来确定分词器。

其中，分词粒度信息用于指示分词结果中每个词汇包括的文字个数的等级，示例性的，可以分为粗粒度、中粒度和细粒度，一般的，细粒度分词结果中词汇包含的文字个数将小于粗粒度分词结果中词汇包含的文字个数。

复合词拆分信息则用于指示是否对复合词进行拆分，若不拆分，那么分词结果中复合词将作为一个词汇出现，若拆分，则分词结果中复合词会被划分为多个词汇。

而分词模式信息则用来指示分词的具体模式，包括单模式和全模式，其中，单模式是指在对语句进行分词处理时，对该语句进行切分处理，语句中包括的每个字都只出现在一个词汇中。而全模式则是指对语句进行分词处理时，需要确定语句中包括的所有词汇，每个字均可以多次重复成词。

分词器性能信息则用于指示分词器的性能需求，可以包括准确度信息和处理速度信息，准确度信息用于要求分词器对应的分词结果的准确性，处理速度信息用于要求分词器的运算速率，其均与分词器对应的分词算法的复杂度相关，根据分词器性能就可以确定对应的分词器结构和分词器算法，实现分词器的自定义化。

当通过上述维度确定好分词策略后，就可以基于该分词策略来选择或者生成目标分词器，并利用目标分词器完成对应的分词任务。下面，对根据分词策略生成目标分词器的过程进行详细的介绍。下面先对生成分词器的系统进行简单介绍：

图4为本申请实施例提供的一种生成分词器的系统架构图，如图4所示，首先用户通过人机交互界面填写调查问卷，然后人机交互界面将调查问卷的问卷结果输入至构词分析单元，得到分词策略。然后构词分析单元需要将分词策略发送至标注语料数据库和模型库中，指示标注语料数据库对海量已标注语料进行筛选，并且指示模型库选择目标分词模型，然后将筛选后的标注语料和目标分词模型输入至分词器生成单元，分词器生成单元利用筛选后的标注语料对目标分词模型进行训练，得到最终适配分词需求的分词器。

图5为本申请实施例提供的一种分词器生成单元的结构示意图，如图5所示，分词器生成单元包括模型选择模块、参数配置模块、数据增强模块以及模型训练模块，其中模型选择模块需要根据分词策略在模型库中选择目标分词模型，参数配置模块则用于对目标分词模型的参数进行配置，数据增强模块则用来对筛选后的已标注语料进行数据处理，模型训练模块则用于完成目标分词模型的训练。

202、根据分词策略，对已标注语料进行筛选，确定目标已标注语料。

其中，标注语料是指带有标注信息的语言文本数据，在对已标注语料进行筛选时，需要通过构词方式信息，即分词粒度信息和复合词拆分信息进行筛选。例如，若标注语料数据库中有两条已标注语料，“你/我/亲/同/手/足”和“你我/亲/同/手足”，若分词策略中对应的分词粒度信息为粗粒度时，就需要过滤掉第一条标注语料，保留第二条标注语料。又比如，标注语料数据中有两条已标注语料“激情燃烧/的岁月”和“激情/燃烧/的/岁月”，若分词策略中对应的复合词拆分信息为复合词禁止拆分，那么就需要过滤掉第二条已标注语料，保留第一条。可以理解的，服务器需要结合分词粒度信息和复合词拆分信息对已标注语料进行过滤，最终将筛选后的目标已标注语料作为目标分词器的训练语料，对目标分词器进行训练，得到符合分词需求的分词器。

利用分词策略对已标注语料进行筛选，可以复用已标注语料，无需基于新的分词策略重新标注，这样将大大提高已标注语料的利用率，避免资源浪费，同时也将减少标注工作的工作量，提高工作效率。

当筛选完已标注语料后，还需要确定筛选后的目标已标注语料的数量，以便后续根据目标已标注语料的数量来选择合适的分词器进行训练。

203、根据分词策略，确定多个预置分词模型中的目标分词模型。

分词策略不仅用来筛选已标注语料，还需要用来筛选预置分词模型，确定目标分词模型。可以理解的，由于预置的多个分词模型对应的分词算法不同，所以导致多个分词模型的复杂度不同。一般的，分词模型的复杂度越高，其对应的分词结果的准确度越高，分词效果越好。但是分词模型的复杂度越高，其训练过程就越复杂，需要大量的样本数据对其进行训练，同时训练好的分词模型对应的运行速率也将变慢。因此，可以根据不同的分词需求来选择合适的分词模型来进行训练，使得最终的目标分词模型适应分词场景的需求。

示例性的，可以根据筛选后的目标已标注语料(目标语料)的数量来选择目标分词模型。当服务器根据分词策略对已标注语料进行筛选得到目标已标注语料后，首先确定目标已标注语料的数量，然后根据目标已标注语料的数量在多个预置分词模型中确定目标分词模型。其中，目标已标注语料的数量与目标分词模型的复杂度呈正相关。即筛选出的目标已标注语料的数量越多，就代表其能训练更复杂的分词模型，那么就可以选择复杂度更高的分词模型作为目标分词模型，以提高后续分词结果的准确性。

示例性的，可以根据分词策略中的分词模式信息来选择目标分词模型。由于分词模式包括单模式和全模式，单模式是对语句的精准拆分，而全模式则需要确定语句中包括的所有词汇，因此需要根据分词模式信息来确定分词算法，根据分词算法来选择目标分词模型。其中，根据全模式选择的目标分词模型要比根据单模式选择的目标分词模型的复杂度高。

示例性的，还可以根据分词策略中的分词器性能信息来选择目标分词模型，分词器性能信息用来要求分词器性能，包括分词器的分词准确度和分词器的处理速度。如果分词器的分词准确度要求高，那么就需要选择复杂度较高的分词模型来作为目标分词模型，如果分词器的处理速度要求高，那么就需要选择复杂度较低的分词模型作为目标分词模型。即目标分词模型的模型复杂度与处理速度要求与呈负相关，与准确度要求呈正相关。

204、根据目标已标注语料对目标分词模型进行训练。

当筛选好目标已标注语料和目标分词模型后，就需要以目标已标注语料作为样本，对目标分词模型进行训练，得到最终的目标分词器。示例性的，将目标已标注语料输入至目标分词模型中，得到输出分词结果，然后根据输出分词结果和目标已标注语料对应的标注信息得到损失值，再将损失值反向传递，调整目标分词模型的参数。当目标分词模型的训练过程达到训练要求时，例如损失值小于阈值，或者训练次数达标后，结束目标分词模型的训练，得到最终的目标分词器。

示例性的，在训练之前，还可以根据分词粒度信息以及构词方式信息，对目标分词模型的目标参数进行微调，然后再进行训练，这样可以加速目标分词模型的收敛过程，提高训练效率。例如不同的词汇粒度对应不同的词汇表，因此可以根据用户输入的分词粒度信息来更换目标分词模型的词嵌入层的词汇表。又比如，构词方式信息可以反映用户构词方式偏好，加入用户构词方式偏向于偏正类组合词的消歧，即注重偏正类组合词的最终拆分结果是否复合分词要求，那么就可以提高这类词的权重值，这样，在计算分词模型分词结果的损失值时，就可以提高偏正类组合词对分词结果准确性的影响，这样训练得到的分词模型就能更符合用户需求。

205、利用训练后的目标分词模型对语言文本数据进行分词处理。

在对目标分词模型进行训练得到目标分词器后，就可以利用目标分词器对待处理的语言文本数据进行分词处理。

本申请实施例提供的分词方法，可以根据不同的分词场景来自定义构词偏好，灵活制定分词标准，并可以基于自定义的分词标准来对已有的标注语料和已有的分词器模型进行筛选，并通过筛选后的标注语料对原有的分词器进行训练来获得新的分词器，最终通过新的分词器来对自然语言文本进行分词。这样，就可以利用原有的标注语料和分词模型来得到适应具体分词场景的新分词器，在提高分词结果的准确性的同时，也提高的已标注语料的资源利用率，从而提高了自然语言文本的分词效率。

下面，对根据分词策略选择目标分词器的过程进行简单介绍。当根据分词需求确定好分词策略后，服务器可以先对分词器数据库中已经存在的分词器进行挑选，并根据分词策略对每个现有分词器进行打分，得到最适配该分词需求的分词器，然后直接利用现有的得分最高的分词器对自然语言文本进行分词，若未找到合适的分词器，才训练得到新的分词器，这样就可以进一步提高分词效率。

在一个具体的实施例中，若需要对自然语言文本进行敏感词识别，可以采用上述方法来自定义分词标准，并基于分词标准来获得新的分词器，然后利用新的分词器对自然语言文本进行分词处理，根据分词结果来判断是否命中敏感词，根据命中率对分词器的性能进行评价，以满足具体的分词需求。

图6为本申请实施例的提供一种分词装置的结构示意图，如图6所示，该分词装置包括：

获取单元601，用于获取分词策略，分词策略包括构词方式信息。

获取单元601，还用于根据构词方式信息，对已标注语料进行筛选，获得目标已标注语料，其中，每个目标已标注语料均携带有对应的标注信息。

训练单元602，用于根据目标已标注语料对目标分词模型进行训练。

处理单元603，用于利用训练后的目标分词模型对语言文本数据进行分词处理。

在一种可选的实施方式中，该装置还包括确定单元604。确定单元604，用于根据分词策略，从多个预置分词模型中确定目标分词模型，其中，每个预置分词模型的模型复杂度不同。

确定单元604，还用于确定目标已标注语料的数量。

确定单元604，具体用于根据目标已标注语料的数量、分词模式信息和分词器性能信息，确定模型复杂度信息。根据模型复杂度信息，在多个预置分词模型中确定目标分词模型。

在一种可选的实施方式中，训练单元602，还用于根据分词粒度信息和构词方式信息，调整目标分词模型的模型参数。

在一种可选的实施方式中，该分词装置还包括发送单元605和接收单元606。

发送单元605，用于向用户发送调查问卷，调查问卷包括构词方式信息调查问题、分词粒度调查问题、分词模式调查问题和分词器性能调查问题中的至少一个。

接收单元606，用于接收用户根据调查问卷输入的分词策略。

请参阅图7，为本申请实施例提供的另一种分词装置700的结构示意图，该分词装置700包括：处理器701，存储器702，通信接口703。

处理器701、存储器702、通信接口703通过总线相互连接；总线可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器702可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；存储器702还可以包括上述种类的存储器的组合。

处理器701可以是中央处理器(central processing unit，CPU)，网络处理器(英文：network processor，NP)或者CPU和NP的组合。处理器701还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmable logic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic，GAL)或其任意组合。

通信接口703可以为有线通信接口，无线通信接口或其组合，其中，有线通信接口例如可以为以太网接口。以太网接口可以是光接口，电接口或其组合。无线通信接口可以为WLAN接口，蜂窝网络通信接口或其组合等。

其中，处理器701用于运行存储器702中的计算机程序或指令，以进行图2所示实施例的任一种可能的实现方式中任一项所描述的关于分词方法。

本申请实施例还提供了一种芯片或者芯片系统，该芯片或者芯片系统包括至少一个处理器和通信接口，通信接口和至少一个处理器通过线路互联，至少一个处理器用于运行计算机程序或指令，以进行图2所示实施例的任一种可能的实现方式中任一项所描述的关于分词方法；

其中，芯片中的通信接口可以为输入/输出接口、管脚或电路等。

在一种可能的实现中，本申请中上述描述的芯片或者芯片系统还包括至少一个存储器，该至少一个存储器中存储有指令。该存储器可以为芯片内部的存储单元，例如，寄存器、缓存等，也可以是该芯片的存储单元(例如，只读存储器、随机存取存储器等)。

本申请实施例还提供了一种计算机存储介质，该计算机存储介质用于储存为上述基于关于元数据的页面管理装置所用的计算机软件指令，其包括用于执行为关于元数据的页面管理装置所设计的程序。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机软件指令，该计算机软件指令可通过处理器进行加载来实现上述关于元数据的页面管理方法中的流程。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，read-onlymemory)、随机存取存储器(RAM，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种分词方法，其特征在于，所述分词方法包括：

获取分词策略，所述分词策略包括构词方式信息；

根据所述构词方式信息，对已标注语料进行筛选，获得目标已标注语料，其中，每个目标已标注语料均携带有对应的标注信息；

根据所述目标已标注语料对目标分词模型进行训练；

利用训练后的所述目标分词模型对语言文本数据进行分词处理。

2.根据权利要求1所述的方法，其特征在于，所述构词方式信息包括分词粒度信息或复合词拆分信息，其中，所述分词粒度信息指示词汇的字数，所述复合词拆分信息指示复合词汇的拆分规则。

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

根据所述分词策略，从多个预置分词模型中确定所述目标分词模型，其中，每个预置分词模型的模型复杂度不同。

4.根据权利要求3所述的方法，其特征在于，所述分词策略还包括分词模式信息和分词器性能信息；在根据所述构词方式信息，对已标注语料进行筛选，获得目标已标注语料之后，所述方法还包括：

确定所述目标已标注语料的数量；

所述根据所述分词策略，从多个预置分词模型中确定所述目标分词模型，包括：

根据所述目标已标注语料的数量、所述分词模式信息和所述分词器性能信息，确定模型复杂度信息；

根据所述模型复杂度信息，在所述多个预置分词模型中确定所述目标分词模型。

5.根据权利要求4所述的方法，其特征在于，所述分词模式信息包括单模式信息或全模式信息；所述单模式信息用于对所述语言文本数据进行词语切分操作；所述全模式信息用于确定所述语言文本数据中包括的所有词汇；

其中，所述单模式信息对应的分词模型的模型复杂度信息小于所述全模式信息对应的分词模型的模型复杂度信息。

6.根据权利要求4所述的方法，其特征在于，所述分词器性能信息包括处理速度要求和/或准确度要求；

其中，所述处理速度要求越高，所述模型复杂度信息越低；

所述准确度要求越高，所述模型复杂度信息越高。

7.根据权利要求2至6任一项所述的方法，其特征在于，所述根据所述目标已标注语料对目标分词模型进行训练前，所述方法还包括：

根据所述分词粒度信息和所述构词方式信息，调整所述目标分词模型的模型参数。

8.根据权利要求1至7任一项所述的方法，其特征在于，所述方法还包括：

向用户发送调查问卷，所述调查问卷包括构词方式信息调查问题、分词粒度调查问题、分词模式调查问题和分词器性能调查问题中的至少一个；

接收所述用户根据调查问卷输入的所述分词策略。

9.一种分词装置，其特征在于，所述分词装置包括：

获取单元，用于获取分词策略，所述分词策略包括构词方式信息；

所述获取单元，还用于根据所述构词方式信息，对已标注语料进行筛选，获得目标已标注语料，其中，每个目标已标注语料均携带有对应的标注信息；

训练单元，用于根据所述目标已标注语料对目标分词模型进行训练；

处理单元，用于利用训练后的所述目标分词模型对语言文本数据进行分词处理。

10.根据权利要求9所述的分词装置，其特征在于，所述构词方式信息包括分词粒度信息或复合词拆分信息，其中，所述分词粒度信息指示词汇的字数，所述复合词拆分信息指示复合词汇的拆分规则。

11.根据权利要求9或10所述的装置，其特征在于，所述装置还包括确定单元；

所述确定单元，用于根据所述分词策略，从多个预置分词模型中确定所述目标分词模型，其中，每个预置分词模型的模型复杂度不同。

12.根据权利要求11所述的装置，其特征在于，所述分词策略还包括分词模式信息和分词器性能信息；

所述确定单元，还用于确定所述目标已标注语料的数量；

所述确定单元，具体用于根据所述目标已标注语料的数量、所述分词模式信息和所述分词器性能信息，确定模型复杂度信息；根据所述模型复杂度信息，在所述多个预置分词模型中确定所述目标分词模型。

13.根据权利要求12所述的装置，其特征在于，所述分词模式信息包括单模式信息或全模式信息；所述单模式信息用于对所述语言文本数据进行词语切分操作；所述全模式信息用于确定所述语言文本数据中包括的所有词汇；

14.根据权利要求12所述的装置，其特征在于，所述分词器性能信息包括处理速度要求和/或准确度要求；

其中，所述处理速度要求越高，所述模型复杂度信息越低；所述准确度要求越高，所述模型复杂度信息越高。

15.根据权利要求10至14任一项所述的装置，其特征在于，

所述训练单元，还用于根据所述分词粒度信息和所述构词方式信息，调整所述目标分词模型的模型参数。

16.根据权利要求9至15任一项所述的分词装置，其特征在于，所述分词装置还包括：

发送单元，用于向用户发送调查问卷，所述调查问卷包括构词方式信息调查问题、分词粒度调查问题、分词模式调查问题和分词器性能调查问题中的至少一个；

接收单元，用于接收所述用户根据调查问卷输入的所述分词策略。

17.一种分词装置，其特征在于，所述分词装置包括处理器和存储器，所述处理器与所述存储器耦合；

所述存储器，用于存储程序；

所述处理器，用于执行所述存储器中的程序，使得所述电子设备执行如权利要求1至8中任一项所述的方法。

18.一种计算机可读存储介质，其特征在于，包括程序，当所述程序在计算机上运行时，使得计算机执行如权利要求1至8中任一项所述的方法。