CN112199952A

CN112199952A - 一种分词方法、多模式分词模型和系统

Info

Publication number: CN112199952A
Application number: CN202011397544.8A
Authority: CN
Inventors: 黄伟鹏; 成幸毅; 陈昆龙; 王太峰; 褚崴
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-01-08
Anticipated expiration: 2040-12-04
Also published as: CN112199952B

Abstract

本说明书实施例公开了一种分词方法、多模式分词模型和系统。该方法包括：获取待处理文本；利用多模式分词模型对所述待处理文本进行以下处理，以确定对所述待处理文本的分词结果：通过特征提取层处理所述待处理文本，获得对应于所述待处理文本的特征序列；基于所述待处理文本所属的领域类型，通过对应所述领域类型的至少一个映射层处理所述特征序列，获得至少一个映射特征；通过预测层基于所述至少一个映射特征确定对所述待处理文本的所述分词结果。

Description

一种分词方法、多模式分词模型和系统

技术领域

本说明书涉及自然语言处理领域，特别涉及一种分词方法、多模式分词模型和系统。

背景技术

文本句子分词是自然语言处理任务中一种重要的底层任务，在很多下游自然语言处理任务中扮演了重要角色，例如，情感分析、语义解析、句子解析、信息检索等。所以，分词本身的处理是至关重要的。

因此，提出一种分词方法、多模式分词模型和系统，以提高分词效率。

发明内容

本说明书实施例的一个方面提供一种分词方法，该方法包括：获取待处理文本；利用多模式分词模型对所述待处理文本进行以下处理，以确定对所述待处理文本的分词结果：通过特征提取层处理所述待处理文本，获得对应于所述待处理文本的特征序列；基于所述待处理文本所属的领域类型，通过对应所述领域类型的至少一个映射层处理所述特征序列，获得至少一个映射特征；通过预测层基于所述至少一个映射特征确定对所述待处理文本的所述分词结果。

本说明书实施例的另一个方面提供一种分词系统，所述系统包括：获取模块，用于获取待处理文本；处理模块，用于利用多模式分词模型对所述待处理文本进行以下处理，以确定对所述待处理文本的分词结果：通过特征提取层处理所述待处理文本，获得对应于所述待处理文本的特征序列；基于所述待处理文本所属的领域类型，通过对应所述领域类型的至少一个映射层处理所述特征序列，获得至少一个映射特征；通过预测层基于所述至少一个映射特征确定对所述待处理文本的所述分词结果。

本说明书实施例的另一个方面提供一种多模式分词模型系统，包括特征提取层、领域适应层和预测层；所述特征提取层用于处理待处理文本，获得对应于所述待处理文本的特征序列；所述领域适应层包括两个以上映射层，所述领域适应层用于基于所述待处理文本所属的领域类型，通过对应所述领域类型的至少一个映射层处理所述特征序列，获得至少一个映射特征；所述预测层用于基于所述至少一个映射特征确定对所述待处理文本的分词结果。

本说明书实施例的另一个方面提供一种多模式分词模型系统的训练方法，包括使用两个以上专有领域对应的语料库对如上述的多模式分词模型系统进行训练。

本说明书实施例的另一个方面提供一种分词装置，包括至少一个存储介质和至少一个处理器，所述至少一个存储介质用于存储计算机指令；所述至少一个处理器用于执行所述计算机指令以实现所述分词方法。

本说明书实施例的另一个方面提供一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机执行分词方法。

附图说明

本说明书将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本说明书一些实施例所示的多模式分词模型的模型结构示例性示意图；

图2是根据本说明书一些实施例所示的分词方法的示例性流程图；

图3是根据本说明书一些实施例所示的多模式分词模型系统的训练方法的示例性流程图；

图4是根据本说明书一些实施例所示的模型蒸馏的示例性流程图；

图5是根据本说明书一些实施例所示的分词系统的模块图；

图6是根据本说明书一些实施例所示的多模式分词模型加速后精度的实验数据；

图7是根据本说明书一些实施例所示的多模式分词模型加速后处理速度的实验数据。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本文使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

目前，自然语言处理被广泛应用于信息抽取、机器翻译、信息检索、自动回答、情感分析、自动文本摘要、社会计算等场景。例如，对于信息抽取的应用场景，通过自然语言处理可以将对话文本中的关键信息进行提取，比如对催收对话文本中包含的还款时间、用户归属地、舆情相关、催收施压手段、对话人关系、共债等信息进行抽取，来对催收对话文本进行分析，获取对话参与方的意图，进而优化催收策略来提高催收的回款率。在自然语言处理中，一般会首先对文本进行分词，再在分词结果的基础上进行下游流程的处理，以实现信息抽取、情感分析、自动文本摘要等目的。分词是指对给定输入文本进行划分，以获得较小的语义单元，如字或词。其中，文本可以是自然语言中的句子、短语或词组等。分词的好坏在较大程度上影响着下游自然语言处理的效果。

然而，分词面临着多标准切分的问题，不同的应用场景有着不同的切分标准。比如，给定句子“XYZ获得世界冠军”，一种切分方式为“XYZ/获得/世界冠军”，另一种切分方式为“X/YZ/获得/世界/冠军”，两种切分方式都是正确的，现有的方法往往针对每种切分方式单独训练一个模型，各模型之间的参数并不能通用。这就意味着，需要针对不同的分词标准训练不同的分词模型。随着模型数量的增加，部署成本也跟着增加。

因此，本发明一些实施例提出一种多模式的分词方法和系统，以更加高效地对文本进行分词。应当理解，上述中的例子仅作为示例，不应理解为对本方案限制。以下通过对附图的描述阐述本说明书披露的技术方案。

图1是根据本说明书一些实施例所示的多模式分词模型的模型结构示例性示意图。

多模式分词模型是指可以对文本按照多种标准（如适合于不同领域语料的切分标准）进行切分的模型。例如，多模式分词模型可以对金融领域的语料句子进行分词，也可以对医疗领域的语料句子进行分词。相较于一种分词标准或一个领域部署一个分词模型的方式，采用多模式分词模型可以有效地减少部署的模型数量，降低模型部署的成本。在一些实施例中，可以基于预训练语言模型构建多模式分词模型。

如图1所示，多模式分词模型100可以包括输入层110、特征提取层120、领域适应层130和预测层140。

输入层110可以用于接收待处理文本。待处理文本可以是指要进行词语切分的按照顺序排列的一串字词。例如，前述的“XYZ获得世界冠军”。在一些实施例中，待处理文本可以是中文文本，或其他任意语言的文本。

特征提取层120可以用于处理待处理文本，获得对应于所述待处理文本的特征序列。特征序列包括与待处理文本相关的一个或多个向量表示。例如，输入的待处理文本为x1、x2、x3、……、xn，特征提取层可以对其进行处理，转化为包括向量表示h1、h2、h3、……、hn的特征序列。

在一些实施例中，特征提取层120可以包括BERT（Bidirectional EncoderRepresentations from Transformers）网络。BERT网络可以包括Embedding层121和transformer层122。Embedding层可以用于将待处理文本中的字分别转化为对应的嵌入向量（或称为Embedding 向量），例如，将上述例子中的x1、x2、x3、……、xn，转化为e1、e2、e3、……、en。各个字的嵌入向量组成向量序列。Transformer层可以将Embedding层转化得到的向量序列转化为特征序列，例如，将e1、e2、e3、……、en，转化为h1、h2、h3、……、hn。Transformer层可以提取到字之间的上下文信息，仅作为示例，hi（i取1、2、…或n）不仅包含ei的信息，还会包含其上下文信息。

在一些实施例中，特征提取层120可以是其他网络层，例如，TF-IDF网络层、Word2Vec网络层等。

领域适应层130用于基于所述待处理文本所属的领域类型，通过对应所述领域类型的至少一个映射层处理所述特征序列，获得至少一个映射特征。领域类型可以包括专有领域和通用领域，专有领域可以基于待处理文本所属的业务领域进行划分。例如，专有领域可以包括金融领域、医疗领域、机械领域、生物领域等。在一些实施例中，专有领域的划分还可以基于分词粒度划分进行，例如，粗粒度标准和细粒度标准，粗粒度标准为一个专有领域，细粒度标准为一个专有领域。仍以“XYZ获得世界冠军”为例，“XYZ/获得/世界冠军”的切分方式为粗粒度标准，“X/YZ/获得/世界/冠军”的切分方式为细粒度标准。通用领域可以是指待处理文本没有明确属于的专有领域类型。

在一些实施例中，领域适应层包括共享映射层与至少一个专有映射层。例如，共享映射层为领域适应层130中的映射层s，专有映射层为领域适应层130中的映射层d1、……、映射层dn。共享映射层可以用于获取文本句子的通用知识，通用知识包括通用切分标准，该切分标准可以理解为适用于对各个专有领域的句子进行切分。专有映射层可以用于获取文本句子在专有领域的专有知识，专有知识包括属于该专有领域语料或文本的专有切分标准，该标准一般更加用于对该专有领域内的文本进行切分。

在一些实施例中，共享映射层可以通过多个专有领域的语料库训练获得，专有映射层通过其对应的专有领域的语料库训练获得。例如，专有领域的语料库可以包括金融领域的语料库、医疗领域的语料库等，又或者专有领域的语料库可以包括粗粒度切分语料库、细粒度切分语料库等。可以理解，这里的粗、细是相当概念，在本说明书示例的教导下，还可以使用三种以上粒度的的语料库进行训练。

映射层可以用于将特征提取层转化得到的特征序列映射为至少一个映射特征。映射特征的表现形式为向量形式。在一些实施例中，领域适应层可以包括两个以上映射层。

预测层140用于基于所述至少一个映射特征确定对所述待处理文本的分词结果。在一些实施例中，预测层可以包括CRF（条件随机场）网络。CRF层可以用于解码（decode），CRF层的输入为映射层转化到的至少一个映射特征，CRF层可以基于输入的映射特征计算出文本中每一个分词的标签，并输出最终的分词结果。仅作为示例，分词结果可以包含多个分词，以及每个分词的标签B、M、E、S，其中，B代表begin，M代表middle，E代表end，S代表single，表示一个单独的字符。模型会对输入文本的每个字符进行预测。预测层输出的分词结果可以是带有标签的文本序列，例如，“XYZ/B 获得/M 世界冠军/E”。

在一些实施例中，预测层140可以是其他网络层，例如，多层感知器MLP、全连接层等。

在一些实施例中，可以利用模型加速方法对所述多模式分词模型系统进行加速处理。加速是指提高多模式分词模型在对文本句子进行分词预测时的处理速度。在一定程度上，加速处理同时可以对模型规模进行精简，以降低其部署或存储成本。模型加速方法可以包括存储精度降级、编译优化、模型蒸馏等。作为示例，存储精度降级可以将采用4字节（fp32）进行编码存储的数据，转化为采用2字节(fp16)进行编码存储的数据。和fp32相比，fp16占用的内存更少，可以设置更大的batch_size，batch_size为模型预测或训练时一次输入到模型中的样本的数量，进而通过在模型内部并行对多个样本进行来处理速度。在一些实施例中，存储精度降级也被称为量化。

在一些实施例中，可以使用TensorRT（TensorRT是一个高性能的深度学习推理优化器）工具，将模型结构中的Transformer的多头注意力机制层和前馈层中的参数由32-bit（Full Precision）压缩为16bit（Half Precision）。在进行压缩时，可以选择性地对模型参数进行压缩，例如，对于精度要求较低的部分进行压缩，精度要求较高的部分保留不进行压缩，以此，可以在尽可能的减少精度损失的情况下，对模型进行加速。

在一些实施例中，可以通过XLA（Accelaerated Linear Algebra，加速线性代数）的方式对多模式分词模型进行加速。其加速原理是将不同Tensorflow中的操作（或运算）进行融合，以减少内存回写等开销，实现模型加速。例如，Tensorflow中的操作包括计算1+1+1+1，在其计算过程中包括了3次加法运算，每次都会写入数据到内存中，而将其进行融合后，其计算方式可以变成1*4，只需写入一次数据。

在一些实施例中，可以使用模型蒸馏的方式对多模式分词模型进行加速。例如，多模式分词模型中的特征提取层为包括12层Transformer（即Transformer层包括12层神经元）的BERT网络时，可以通过模型蒸馏的方式进行处理，得到包括3层Transformer（即经过模型蒸馏后，Transformer层包括3层神经元）的BERT网络。3层Transformer的BERT网络相较于12层Transformer的BERT网络，其计算时的开销更小，计算速度更快，同时模型蒸馏的方式也可以较好的保留模型在预测时的精度。关于模型蒸馏的更多细节，可以参见图4及其相关说明，此处不再赘述。

在一些实施例中，可以使用存储精度降级、编译优化、模型蒸馏中的一种，或其任意组合的方式对多模式分词模型进行加速。例如，可以使用存储精度降级和编译优化进行模型加速，也可以使用编译优化和模型蒸馏进行模型加速，还可以同时使用存储精度降级、编译优化和模型蒸馏进行模型加速，本实施例对此不作限定。

关于利用多分词模型的训练以及各部分网络的更多描述，可以参见本说明书的流程图部分，例如，图2至图4及其相关说明，此处不再赘述。

图2是根据本说明书一些实施例所示的分词方法的示例性流程图。在一些实施例中，流程200可以由处理设备，例如服务器执行。例如，流程200可以以程序或指令的形式存储在存储装置（如处理设备的自带存储单元或外接存储设备）中，所述程序或指令在被执行时，可以实现流程200。流程200可以包括以下操作。

步骤202，获取待处理文本。在一些实施例中，步骤202可以由获取模块510执行。

待处理文本可以是指要进行词语切分的按照顺序排列的一串字词。关于待处理文本的更多描述可以参见图1的相关部分，此处不再赘述。

在一些实施例中，处理设备（获取模块510）可以通过外部输入、存储数据读取、调用相关接口或其他方式来获取。

在获取到待处理文本后，处理设备可以利用多模式分词模型执行步骤204至步骤208的操作来对待处理文本进行处理，以确定待处理文本的分词结果。在一些实施例中，步骤204到步骤208可以由处理模块520执行。

步骤204，通过特征提取层处理所述待处理文本，获得对应于所述待处理文本的特征序列。

在一些实施例中，将待处理文本输入多模式分词模型后，待处理文本会在通过多模式分词模型的输入层后进入到特征提取层，由特征提取层对待处理文本进行向量转化，得到对应于待处理文本的特征序列。特征序列可以用于表示待处理文本所包含的一种或多种信息（例如，文本信息、语义信息、上下文信息等）。特征提取层可以在获取到对应于所述待处理文本的每个最小单元（例如，字符）的向量后进行拼接或叠加或注意力机制等更复杂的处理得到特征序列。由于特征序列的获取是基于所述待处理文本本身所包含的内容确定的，因此特征序列可以反映待处理文本的文本信息。文本信息在一定程度上可以反映待处理文本的语义。

在一些实施例中，特征提取层可以为BERT网络。该BERT网络可以是经过模型加速处理（例如，模型蒸馏）后的包含3层Transformer的BERT网络。在一些实施例中，所述BERT网络还可以是经过模型加速处理后的包含6层Transformer的BERT网络。关于BERT网络的更多描述，可以参见图1的相关部分。

在一些实施例中，所述特征提取层还可以是Word2vec或Glove等网络。

在一些实施例中，多模式分词模型可以经过存储精度降级、编译优化以及模型蒸馏中的至少一种加速方式处理，以提升模型的处理速度。

关于模型加速的更多内容可以参见图1和图4的相关描述，此处不再赘述。

步骤206，基于所述待处理文本所属的领域类型，通过对应所述领域类型的至少一个映射层处理所述特征序列，获得至少一个映射特征。

领域类型包括通用领域和专有领域。专利领域可以基于分词粒度划分或者基于业务领域划分。通用领域是指文本没有明确属于的专有领域类型而划分的一个领域。关于领域类型的更多描述，可以参见图1的相关部分，此处不再赘述。

在一些实施例中，处理设备可以基于待处理文本的领域类型标识确定待处理文本所属的领域类型为通用领域还是某一专有领域。领域类型标识可以是任何形式的标识，例如，可以是数字0、1、2、……，标识0或空可以表示为通用领域，标识1表示为某金融领域，标识2表示医疗领域等。又例如，标识1可以表示粗粒度，标识2表示细粒度。再例如，可以直接用领域类型的名称作为标识，比如，通用领域、金融领域、医疗领域等。本实施例对领域类型标识的形式不作限定。

在一些实施例中，领域类型标识可以随着待处理文本中一起进入到多模式分词模型中，多模式分词模型可以基于预先设定的领域类型与映射层之间的对应关系，确定待处理文本的特征序列所要进入的映射层。例如，通用领域标识则用共享映射层对待处理文本的特征序列进行处理，得到通用映射特征；专有领域标识则同时使用共享映射层和该专有领域对应的专有映射层对特征序列进行处理，得到一个通用映射特征和一个专有映射特征。

示例性地，处理设备可以采用下文所述的操作对待处理文本的特征序列进行处理，以获得至少一个映射特征。

确定待处理文本所属的领域类型为通用领域还是某专一领域。如上文所述，可以基于与待处理文本一同输入的领域类型标识确定待处理文本所属的领域类型为通用领域还是某一专有领域。

当所述待处理文本所属的领域类型为通用领域时，利用共享映射层对所述特征序列进行处理，得到通用映射特征。示例性地，共享映射层可以通过以下公式（1）对特征序列进行转化，得到所述通用映射特征。

（1）

其中，

为通用映射特征，

、

为领域适应层中共享映射层的模型参数，可以通过模型训练获得，

为特征提取层输出的特征序列。

当所述待处理文本所属的领域类型为某一专有领域时，在利用共享映射层对所述特征序列进行处理，获得通用映射特征的同时，利用该专有领域对应的专有映射层对所述特征序列进行处理，获得专有映射特征。也就是说，输入的待处理文本为通用领域类型时，领域适应层会输出一个通用映射特征，当输入的待处理文本为某一专有领域类型时，领域适应层会输出一个通用映射特征和一个专有映射特征。

其中，通用映射特征可以使用上述公式（1）转化获得，专有映射特征可以通过以下公式（2）对特征序列进行转化获得。

（2）

其中，

为专有映射特征，

、

为领域适应层中专有映射层的模型参数，可以通过模型训练获得，

为特征提取层输出的特征序列。

在一些实施例中，所述共享映射层可以通过多个专有领域的语料库训练获得，专有映射层可以通过其对应的专有领域的语料库训练获得。在使用不同领域的语料库对多模式分词模型进行训练时，可以根据使用的语料库的领域类型，调整模型在训练时特征序列在领域适应层所经过的专有映射层（例如，是经过专有映射层1还是经过专有映射层2），以及在经过专有映射层的同时经过共享映射层。对于通用领域的语料库，则使得在训练时，该特征序列只经过共享映射层。在一些实施例中，也可以省去使用通用的语料库进行模型训练。

可以理解，通过以上训练方式，共享映射层可以学习到不同专有领域的语料切分方式，专有映射层则可以学习到其对应的专有领域的语料切分方式。而在模型预测或推理时，对于专有领域的文本不仅通过其专有领域的切分标准进行分词，还会考虑通用领域的切分标准，两者结合可以使得最终的预测结果可以更加准确。而对于某些陌生的文本，例如，并不知道该文本属于哪一个专有领域时，可以将其对应的领域类型划分到通用领域类型中，进而使用共享映射层学习到的多个领域的通用切分标准进行分词预测，可以有效地提高对于陌生文本的预测结果。

步骤208，通过预测层基于所述至少一个映射特征确定对所述待处理文本的所述分词结果。

预测层可以根据领域适应层输出的映射特征确定对待处理文本的分词结果。关于分词结果的更多描述，可以参见图1的相关描述，此处不再赘述。

如前所述，随着输入模型的待处理文本所属的领域类型不同，领域适应层输出的映射特征是不同的。例如，通用领域时只会由共享映射层输出一个通用映射特征，某一专有领域时会由专有映射层输出专有映射特征和由共享映射层输出通用映射特征。针对此，预测层可以对映射特征做不同的处理，在只有通用映射特征时，预测层可以直接根据通用映射特征进行预测，得到分词结果；当待处理文本所属的领域类型为某一专有领域时，领域适应层会输出一个通用映射特征和一个专有映射特征，此时，预测层可以将所述待处理文本对应的通用映射特征与专有映射特征相加，得到融合特征，并基于所述融合特征确定预测的分词结果并输出。相加是指的两个向量之间进行相加，相加后的向量维度不变。在一些实施例中，预测层也可以将通用映射特征与专有映射特征进行拼接，得到融合特征。

在本实施例中，在通过多模式分词模型对待处理文本进行处理的过程中，通过确定的待处理文本所属的领域类型，在多模式分词模型内部对其进行不同的处理方式，待处理文本属于通用领域时，则使用领域适应层的共享映射层进行处理；待处理文本属于某一专有领域时，则同时使用共享映射层和专有映射层进行处理，使得既可以考虑到所有领域的语料库的切分方式，也可以考虑到通用领域中的切分标准，两者结合可以使得最终的预测结果可以更加准确。同时，部署一个多模式分词模型就能实现对多个专有领域的文本进行分词处理，减少了模型的部署成本。除此之外，还使用了多种模型加速方式对模型进行加速处理，有效地提高了模型在进行分词预测时的处理速度。

图3是根据本说明书一些实施例所示的多模式分词模型系统的训练方法的示例性流程图。在一些实施例中，流程300可以由处理设备，例如服务器执行。例如，流程300可以以程序或指令的形式存储在存储装置（如处理设备的自带存储单元或外接存储设备）中，所述程序或指令在被执行时，可以实现流程300。如图3所示，流程300可以包括以下操作。

在一些实施例中，可以使用两个以上专有领域对应的语料库对多模式分词模型进行训练。例如，可以使用金融领域、医疗领域对应的语料库对多模式分词模型系统进行训练。示例性地，对于任一专有领域对应的语料库的语料，都可以通过如步骤302到步骤308所示的操作进行模型训练。

步骤302，通过特征提取层处理语料样本，获得对应于所述语料样本的样本特征序列。

语料样本可以是经过分词的文本（如句子、短语或词组等），可以从对应的专有领域中获得。语料库包含多条语料样本。语料样本可以通过从数据库读取、调用数据接口等方式获得。

在将语料样本输入到模型中以后，特征提取层可以使用与图1和图2所描述的处理待处理文本相似的方式对语料样本进行处理，获得对应于语料样本的样本特征序列。详细内容可参见图1和图2的相关部分描述，此处不再赘述。

步骤304，基于所述语料样本所属的专有领域，通过领域适应层中对应于所述专有领域的专有映射层处理所述样本特征序列，获得样本专有映射特征，以及利用领域适应层中的共享映射层处理所述样本特征序列，获得通用映射特征。

关于通过映射层获取映射特征的相关描述，可以参见图2和图3的相关部分说明，此处不再赘述。

另外，需要说明的是，在对模型进行训练时，即使只针对专有领域的语料样本进行训练，也可以使得共享映射层学习到不同领域之间的通用知识，因为输入到模型中的专有领域的语料样本的特征序列，都会经过共享映射层进行处理，也就是说，共享映射层可以学习到用于训练的所有专有领域的语料样本之间的分词共性。

在一些实施例中，也可以使用通用领域的语料样本进行训练，通过领域适应层中的共享映射层处理其对应的样本特征序列，获得通用映射特征。

步骤306，通过预测层基于所述专有映射特征以及所述通用映射特征确定对所述语料样本的分词预测结果。

在一些实施例中，预测层可以对专有映射特征和通用映射特征进行融合得到融合特征，并基于融合特征，确定对语料样本的分词预测结果。关于确定分词预测结果的更多细节，可以参见图1的预测层的相关描述部分，此处不再赘述。

步骤308，调整特征提取层、领域适应层以及预测层中至少一个的参数，以减小所述分词预测结果与所述语料样本的实际分词结果的差异。

在一些实施例中，可以基于预测层输出的对语料样本的分词预测结果和语料样本的实际分词结果之间的差异，调整特征提取层、领域适应层、以及预测层中至少一个的参数，以使得最终的分词预测结果更接近所述语料样本的实际分词结果。

在一些实施例中，减小分词预测结果与语料样本的实际分词结果的差异的其中一种实现方式可以是通过构造最大似然函数来进行调整，通过调整模型的参数使得模型在给定语料样本的情况下输出对应的实际分词结果的概率最大。

示例性地，可以基于以下公式（3）所示的最大似然函数来进行参数调整。

（3）

其中，

为似然函数值，J为样本语料总数，

为第j个语料样本，

为第j个语料样本的实际分词结果，

表示模型参数集合，包含多个值。训练模型的过程即为找出最大化似然函数的

值。

图4是根据本说明书一些实施例所示的模型蒸馏的示例性流程图。在一些实施例中，流程400可以由处理设备，例如服务器执行。例如，流程400可以以程序或指令的形式存储在存储装置（如处理设备的自带存储单元或外接存储设备）中，所述程序或指令在被执行时，可以实现流程400。如图4所示，流程400可以包括。

模型蒸馏是指在把一个大模型或者多个模型学到的知识迁移到另一个轻量级单模型上，以方便部署。也就是用一个结构相对简单的新的小模型去学习大模型的预测结果，调整小模型的参数，使得小模型的预测结果逼近大模型的预测结果。这里的大模型一般指代模型蒸馏中的老师模型，小模型一般指代模型蒸馏中的学生模型。

步骤402，构造学生模型，所述学生模型的网络层数小于所述模型系统。

在一些实施例中，学生模型可以基于所述多模式分词模型系统构造。例如，可以在所述模型系统结构的基础上进行简化，减少所述模型系统中的某些网络的层数，得到网络层数小于模型系统的网络层数的所述学生模型。

例如，模型系统的特征提取层可以包括BERT网络，学生模型基于该模型系统构建得到，同样可以包括特征提取层、领域适应层以及预测层。但是在构建学生模型时，将学生模型的特征提取层所包括的BERT网络中的Transformer层数简化为3层。以此，学生模型的特征提取层在对文本进行处理时，Embedding层转化得到的向量只会经过3层Transformer，相较于通过12层Transformer，其计算量更少，计算速度更快，从而提高学生模型在应用时的处理速度。

在一些实施例中，所述学生模型的中的Transformer层数也可以为6层，或其他小于所述模型系统的Transformer层数，本实施例对此不作限定。

步骤404，通过学生模型处理所述样本语料，得到第一分词预测结果。

第一分词预测结果是指将样本语料输入学生模型，学生模型对样本语料进行处理后的分词预测结果。

由于学生模型整体结构上与前文所述的多模式分词模型相似，区别仅在于网络层数的减少，因此，学生模型处理所述样本语料的过程，可以参见图1至图3的相关部分的说明，此处不再赘述。

步骤406，通过所述模型系统处理所述样本语料，得到第二分词预测结果。

第二分词预测结果是指将样本语料输入所述模型系统，模型系统对样本语料进行处理后的分词预测结果。

模型系统处理样本语料的过程，可以参见图1至图3的相关部分的说明，此处不再赘述。

步骤408，调整学生模型的参数，以减小所述第一分词预测结果与所述样本语料的实际分词结果的差异，以及减小所述第一分词预测结果和所述第二分词预测结果之间的差异。

在一些实施例中，可以基于学生模型预测层预测的第一分词预测结果和模型系统预测的第二分词预测结果之间的差异，调整学生模型的参数，以使得学生模型最终的分词预测结果更接近所述语料样本的实际分词结果。可以理解，模型系统的网络结构更加复杂，在进行预测时所计算的结果更接近实际结果，因此，通过调整学生模型的参数，使得学生模型的第一分词预测结果更加接近模型系统的预测结果，也就可以使得第一分词结果更加逼近样本语料的实际分词结果。

在一些实施例中，调整学生模型的参数，减小所述第一分词预测结果和所述第二分词预测结果之间的差异的一种实现方式为通过损失函数的约束来使得学生模型的效果逼近所述模型系统的效果。示例性地，可以通过以下损失函数对学生模型的参数进行调整。

（4）

其中，

为基于第一分词预测结果和第二分词预测结果之间的差异构造的损失函数值，下标s表示学生模型，下标t表示老师模型，也就是多模式分词模型系统，J表示样本语料总数，I表示一个样本语料中总字数；

等于J个语料样本中的总字数，

表示学生模型对第j个语料样本中的第i个字预测的第一分词预测结果（如对该字打上的分词标识S、B、M或E），

表示模型系统对第j个语料样本中的第i个字预测的第二分词预测结果。

对学生模型调参的目的是使该损失函数最小化。在又一些实施中，对学生模型调参的目的可以是使所述第一分词预测结果和所述第二分词预测结果之间的差异以及第一分词预测结果与语料样本的实际分词结果之间的差异同时最小化。仅作为示例，在有一些实施例中，进行模型蒸馏时所使用的损失函数可以用以下公式（5）表示。

（5）

其中，

为损失函数值，

为学生模型的最大似然函数，可参照公式（3），

为超参数，通过实验调节，取值范围可以是0.1-0.3之间，例如，0.1、0.15、0.3等，较优值为0.15，

为上述公式（4）。在模型蒸馏时，可以调整学生模型的参数以使得损失函数

最小化。

经过实验证明，通过以上模型蒸馏对模型加速之后，本实施例所提出的多模式分词模型不仅模型处理速度得到了有效地提升，其在预测时的精度也保持在一个优秀的数值范围。

参见图6和图7，图6是根据本说明书一些实施例所示的多模式分词模型加速后精度的实验数据，图7是根据本说明书一些实施例所示的多模式分词模型加速后处理速度的实验数据。

根据图6所示的实验结果（如第三行第二列中的反应模型精度的数值）可知，相较于同类型的在不同年代由不同作者提出的模型（第二行第一列，Yang等人在2017年提出的模型、Chen等人在2017年提出的模型等），在10个公开数据集（第一行第二列，如公开数据集PKU、MSR等）上的实验结果（如第二行第二列中的反应模型精度的数值）表明，本说明书实施例所提出的多模式分词模型加速后的处理结果上，当采用12层Transformer（即原始BERT）时，所提出的模型在10个数据集上取得了当前最佳效果，当蒸馏到3层，并应用量化加速时（编译优化并不会影响模型精度，因此图中未示出），所提出的模型仍然在9个数据集（除了AS数据集）上取得了最佳效果。其中，图6中的ours（·）表示本说明实施例中提出的模型，student表示模型蒸馏后的学生模型，teacher表示老师模型，即本说明书实施例中的多模式分词模型系统，layer表示BERT网络中的Transformer层数，FP16表示存储精度降级处理后的存储精度。

图7的横坐标表示在进行模型测试时，一次测试时输入的样本数量（或为batchsize），纵坐标表示模型1秒钟处理的字符数量（或为characters/seconds）。根据图7所示的实验结果可知，通过存储精度降级（fp16）、编译优化（xla）以及模型蒸馏（Distill）三种方式加速后，在做单条样本测试时（batch size为1），多模式分词模型相比当前业界所使用的BI-LSTM，速度提升了3.3倍。另外，在其他不同数量样本测试时，速度也均有提升，即使是在batch size为256时，依然有着1.6倍的速度提升。其中，xla表示经过编译优化，fp16表示存储精度降级到16位，Original BERT表示原BERT模型，Distill to 3layers表示将模型的BERT网络中的Transformer层数蒸馏至3层，以此类推。

应当注意的是，上述各流程的描述仅仅是为了示例和说明，而不限定本说明书的适用范围。对于本领域技术人员来说，在本说明书的指导下可以对流程进行各种修正和改变。然而，这些修正和改变仍在本说明书的范围之内。例如，对本说明书有关流程步骤的改变，如添加预处理步骤和存储步骤等。

图5是根据本说明书一些实施例所示的分词系统的模块图。在一些实施例中，所述分词系统500可以包括获取模块510和处理模块520。

获取模块510可以用于获取待处理文本。

待处理文本可以是指要进行词语切分的按照顺序排列的一串字词。在一些实施例中，获取模块510可以通过外部输入、存储数据读取、调用相关接口或其他方式来获取。

处理模块520可以用于通过特征提取层处理所述待处理文本，获得对应于所述待处理文本的特征序列；基于所述待处理文本所属的领域类型，通过对应所述领域类型的至少一个映射层处理所述特征序列，获得至少一个映射特征；以及通过预测层基于所述至少一个映射特征确定对所述待处理文本的所述分词结果。

在一些实施例中，处理模块520可以用于确定所述待处理文本所属的领域类型为通用领域还是某一专有领域；当所述待处理文本所属的领域类型为通用领域时，利用共享映射层对所述特征序列进行处理，获得通用映射特征；当所述待处理文本所属的领域类型为某一专有领域时，利用共享映射层对所述特征序列进行处理，获得通用映射特征，以及利用所述某一专有领域对应的专有映射层对所述特征序列进行处理，获得专有映射特征；其中，所述共享映射层通过多个专有领域的语料库训练获得，专有映射层通过其对应的专有领域的语料库训练获得。

在一些实施例中，处理模块520可以用于基于所述待处理文本的领域类型标识确定所述待处理文本所属的领域类型为通用领域还是某一专有领域。其中，所述专有领域基于分词粒度划分或者基于业务领域划分。

在一些实施例中，处理模块520可以用于将所述待处理文本对应的通用映射特征与专有映射特征相加，得到融合特征；基于所述融合特征确定所述分词结果。

在一些实施例中，所述特征提取层包括BERT网络。

在一些实施例中，所述多模式分词模型经过以下模型加速方法中的至少一种处理：存储精度降级、编译优化以及模型蒸馏。

在一些实施例中，所述特征提取层包括包含3层Transformer的BERT网络。

关于分词系统的各模块的更多细节可以参见图2至图4及其描述，此处不再赘述。

应当理解，图5所示的系统及其模块可以利用各种方式来实现。例如，在一些实施例中，系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中，硬件部分可以利用专用逻辑来实现；软件部分则可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器（固件）的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用例如由各种类型的处理器所执行的软件实现，还可以由上述硬件电路和软件的结合（例如，固件）来实现。

需要注意的是，以上对于分词系统500及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。例如，在一些实施例中，图5中披露的获取模块510和处理模块520可以是一个系统中的不同模块，也可以是一个模块实现上述的两个或两个以上模块的功能。诸如此类的变形，均在本说明书的保护范围之内。

本说明书实施例可能带来的有益效果包括但不限于：（1）在使用多模式分词模型对文本进行处理时，既可以考虑到通用切分标准，也可以考虑到专有切分标准，两者结合可以使得最终的预测结果可以更加准确。（2）部署一个多模式分词模型就能实现对多个专有领域的文本进行分词处理，减少了模型的部署成本。（3）使用多种模型加速方式对模型进行加速处理，有效地提高了模型在进行分词预测时的处理速度。（4）使用至少两个专有领域的语料库的数据进行模型训练后，实际应用时可以处理多个领域的语料，减少模型训练对语料数据集的依赖程度。

需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本说明书的各个方面可以完全由硬件执行、可以完全由软件（包括固件、常驻软件、微码等）执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、VisualBasic、Fortran2003、Perl、COBOL2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网（LAN）或广域网（WAN），或连接至外部计算机（例如通过因特网），或在云计算环境中，或作为服务使用如软件即服务（SaaS）。

此外，除非权利要求中明确说明，本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的处理设备或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本说明书披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本说明书权利要求最广范围有限制的文件（当前或之后附加于本说明书中的）也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。

最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims

1.一种分词方法，所述方法包括：

获取待处理文本；

利用多模式分词模型对所述待处理文本进行以下处理，以确定对所述待处理文本的分词结果：

通过特征提取层处理所述待处理文本，获得对应于所述待处理文本的特征序列；

基于所述待处理文本所属的领域类型，通过对应所述领域类型的至少一个映射层处理所述特征序列，获得至少一个映射特征；

通过预测层基于所述至少一个映射特征确定对所述待处理文本的所述分词结果。

2.根据权利要求1所述的方法，所述基于所述待处理文本所属的领域类型，通过对应所述领域类型的至少一个映射层处理所述特征序列，获得至少一个映射特征，包括：

确定所述待处理文本所属的领域类型为通用领域还是某一专有领域；

当所述待处理文本所属的领域类型为通用领域时，利用共享映射层对所述特征序列进行处理，获得通用映射特征；

当所述待处理文本所属的领域类型为某一专有领域时，利用共享映射层对所述特征序列进行处理，获得通用映射特征，以及利用所述某一专有领域对应的专有映射层对所述特征序列进行处理，获得专有映射特征；

其中，所述共享映射层通过多个专有领域的语料库训练获得，专有映射层通过其对应的专有领域的语料库训练获得。

3.根据权利要求2所述的方法，其中，基于所述待处理文本的领域类型标识确定所述待处理文本所属的领域类型为通用领域还是某一专有领域。

4.根据权利要求2所述的方法，其中，所述专有领域基于分词粒度划分或者基于业务领域划分。

5.根据权利要求2所述的方法，其中，当所述待处理文本所属的领域类型为某一专有领域时，所述通过预测层基于所述至少一个映射特征确定对所述待处理文本的所述分词结果，包括：

将所述待处理文本对应的所述通用映射特征与所述专有映射特征相加，得到融合特征；

基于所述融合特征确定所述分词结果。

6.根据权利要求1所述的方法，所述特征提取层包括BERT网络。

7.根据权利要求1所述的方法，所述多模式分词模型经过以下模型加速方法中的至少一种处理：

存储精度降级、编译优化以及模型蒸馏。

8.根据权利要求7所述的方法，所述特征提取层包括包含3层Transformer的BERT网络。

9.一种分词系统，所述系统包括：

获取模块，用于获取待处理文本；

处理模块，用于利用多模式分词模型对所述待处理文本进行以下处理，以确定对所述待处理文本的分词结果：

10.一种多模式分词模型系统，包括特征提取层、领域适应层和预测层；

所述特征提取层用于处理待处理文本，获得对应于所述待处理文本的特征序列；

所述领域适应层包括两个以上映射层，所述领域适应层用于基于所述待处理文本所属的领域类型，通过对应所述领域类型的至少一个映射层处理所述特征序列，获得至少一个映射特征；

所述预测层用于基于所述至少一个映射特征确定对所述待处理文本的分词结果。

11.根据权利要求10所述的模型系统，所述领域适应层包括共享映射层与至少一个专有映射层，其中，所述共享映射层通过多个专有领域的语料库训练获得，所述专有映射层通过其对应的专有领域的语料库训练获得。

12.根据权利要求10所述的模型系统，所述特征提取层包括BERT网络。

13.根据权利要求10所述的模型系统是经过以下至少一种模型加速方法处理过的：

存储精度降级、编译优化以及模型蒸馏。

14.根据权利要求13所述的模型系统，所述特征提取层包括包含3层Transformer的BERT网络。

15.一种多模式分词模型系统的训练方法，包括使用两个以上专有领域对应的语料库对如权利要求10~14任一项所述的多模式分词模型系统进行训练。

16.根据权利要求15所述的方法，其中，包括对于任一专有领域对应的语料库的样本语料：

通过特征提取层处理语料样本，获得对应于所述语料样本的样本特征序列；

基于所述语料样本所属的专有领域，通过领域适应层中对应于所述专有领域的专有映射层处理所述样本特征序列，获得样本专有映射特征，以及利用领域适应层中的共享映射层处理所述样本特征序列，获得通用映射特征；

通过预测层基于所述专有映射特征以及所述通用映射特征确定对所述语料样本的分词预测结果；

调整特征提取层、领域适应层以及预测层中至少一个的参数，以减小所述分词预测结果与所述语料样本的实际分词结果的差异。

17.根据权利要求15所述的方法，其中，还包括：

构造学生模型，所述学生模型的网络层数小于所述模型系统；以及，

对于任一专有领域对应的语料库的样本语料：

通过所述学生模型处理所述样本语料，得到第一分词预测结果；

通过所述模型系统处理所述样本语料，得到第二分词预测结果；

调整所述学生模型的参数，以减小所述第一分词预测结果与所述样本语料的实际分词结果的差异，以及减小所述第一分词预测结果和所述第二分词预测结果之间的差异。

18.根据权利要求17所述的方法，所述模型系统的特征提取层包括BERT网络，所述学生模型包括特征提取层、领域适应层以及预测层，其中学生模型的特征提取层包括包含3层Transformer的BERT网络。

19.一种分词装置，包括至少一个存储介质和至少一个处理器，所述至少一个存储介质用于存储计算机指令；所述至少一个处理器用于执行所述计算机指令以实现如权利要求1~8任一项所述的方法。