CN116383391A

CN116383391A - 一种文本分类方法及装置

Info

Publication number: CN116383391A
Application number: CN202310660414.6A
Authority: CN
Inventors: 吴亚军; 蒋敏; 暴宇健
Original assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Current assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority date: 2023-06-06
Filing date: 2023-06-06
Publication date: 2023-07-04
Anticipated expiration: 2043-06-06
Also published as: CN116383391B

Abstract

本公开提供了一种文本分类方法及装置。该方法利用随机注意力层通过在待处理文本中不同的字符的位置上随机选择不同的位置进行注意力计算，以防止模型过拟合；利用局部注意力层通过选择与待处理文本中各个字符位置相邻的位置进行注意力计算，可以确定待处理文本中各个字符之间的局部关系，以及利用全局注意力层基于整个待处理文本中的所有字符的位置进行注意力计算确定待处理文本的全局关系。这样，通过将随机注意力层、局部注意力层和全局注意力层进行结合，可以利用待处理文本中字符的局部关系和全局关系对待处理文本进行更加准确的分类，从而可以提高待处理文本的类别确定结果的精确度，以及，可以防止模型过拟合，可以提高模型性能。

Description

一种文本分类方法及装置

技术领域

本公开涉及计算机技术领域，尤其涉及一种文本分类方法及装置。

背景技术

随着文本处理技术的发展，文本分类技术在越来越多的场景均得到应用。目前的文本分类技术在分类方面取得了很好的效果，但是由于目前的神经网络在对文本进行分类的过程中只能捕捉文本的全局关系，或者只捕捉局部关系，而忽略了全局、局部之间的联系，导致文本的分类结果不准确。因此，亟需一种新的文本分类的方案。

发明内容

有鉴于此，本公开实施例提供了一种文本分类方法、装置、计算机设备及计算机可读存储介质，以解决现有技术中文本的分类结果不准确的问题。

本公开实施例的第一方面，提供了一种文本分类方法，所述方法应用于分类模型，所述分类模型包括线性映射层、随机注意力层、局部注意力层、全局注意力层、归一化层、全连接层和分类器；所述方法包括：

获取待处理文本；

将所述待处理文本输入所述线性映射层，得到所述待处理文本的查询矩阵、键值矩阵和值项矩阵；

将所述待处理文本的查询向量、键值向量分别输入所述随机注意力层、所述局部注意力层和所述全局注意力层，得到所述待处理文本的随机掩码矩阵、局部掩码矩阵和全局掩码矩阵；

将所述随机掩码矩阵、所述局部掩码矩阵和所述全局掩码矩阵输入所述归一化层，得到归一化掩码矩阵；

将所述归一化掩码矩阵和所述值项矩阵输入所述全连接层，得到文本特征向量；

将所述文本特征向量输入所述分类器，得到所述待处理文本的类别。

本公开实施例的第二方面，提供了一种文本分类装置，所述装置应用于分类模型，所述分类模型包括线性映射层、随机注意力层、局部注意力层、全局注意力层、归一化层、全连接层和分类器；所述装置包括：

文本获取模块，用于获取待处理文本；

映射处理模块，用于将所述待处理文本输入分类模型中的线性映射层，得到所述待处理文本的查询矩阵、键值矩阵和值项矩阵；

掩码处理模块，用于将所述待处理文本的查询向量、键值向量分别输入所述随机注意力层、所述局部注意力层和所述全局注意力层，得到所述待处理文本的随机掩码矩阵、局部掩码矩阵和全局掩码矩阵；

归一化处理模块，用于将所述随机掩码矩阵、所述局部掩码矩阵和所述全局掩码矩阵输入所述归一化层，得到归一化掩码矩阵；

特征获取模块，用于将所述归一化掩码矩阵和所述值项矩阵输入所述全连接层，得到文本特征向量；

类别确定模块，用于将所述文本特征向量输入所述分类器，得到所述待处理文本的类别。

本公开实施例的第三方面，提供了一种计算机设备，包括存储器、处理器以及存储在存储器中并且可以在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

本公开实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本公开实施例与现有技术相比存在的有益效果是：本公开实施例可以先获取待处理文本；然后，可以将所述待处理文本输入分类模型中的线性映射层，得到所述待处理文本的查询矩阵、键值矩阵和值项矩阵；接着，可以将所述待处理文本的查询向量、键值向量分别输入所述随机注意力层、所述局部注意力层和所述全局注意力层，得到所述待处理文本的随机掩码矩阵、局部掩码矩阵和全局掩码矩阵；紧接着，可以将所述随机掩码矩阵、所述局部掩码矩阵和所述全局掩码矩阵输入所述归一化层，得到归一化掩码矩阵；接下来，可以将所述归一化掩码矩阵和所述值项矩阵输入所述全连接层，得到文本特征向量；最后，可以将所述文本特征向量输入所述分类器，得到所述待处理文本的类别。由于随机注意力层可以通过在待处理文本中不同的字符的位置上随机选择不同的位置进行注意力计算，从而可以防止模型过拟合；并且，利用局部注意力层通过选择与待处理文本中各个字符位置相邻的位置进行注意力计算，从而可以确定待处理文本中各个字符之间的局部关系，以及，利用全局注意力层基于整个待处理文本中的所有字符的位置进行注意力计算，从而可以确定待处理文本的全局关系。这样，本实施例通过将随机注意力层、局部注意力层和全局注意力层进行结合（即将随机注意力机制、局部注意力机制与全局注意力机制结合），可以更好的获取到待处理文本中字符的局部关系和全局关系，以便可以利用待处理文本中字符的局部关系和全局关系对待处理文本进行更加准确的分类，从而可以提高待处理文本的类别确定结果的精确度，以及，可以防止模型过拟合，可以提高模型性能。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本公开实施例的应用场景的场景示意图；

图2是本公开实施例提供的文本分类方法的流程图；

图3是本公开实施例提供的待处理文本的随机掩码矩阵的示意图；

图4是本公开实施例提供的待处理文本的局部掩码矩阵的示意图；

图5是本公开实施例提供的待处理文本的全局掩码矩阵的示意图；

图6是本公开实施例提供的文本分类装置的框图；

图7是本公开实施例提供的计算机设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本公开实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本公开的描述。

下面将结合附图详细说明根据本公开实施例的一种文本分类方法和装置。

在现有技术中，目前的文本分类技术在分类方面取得了很好的效果，但是由于目前的神经网络在对文本进行分类的过程中只能捕捉文本的全局关系，或者只捕捉局部关系，而忽略了全局、局部之间的联系，导致文本的分类结果不准确。并且，现有的分类模型由于使用了大量的参数，如果数据量不够或者训练不当，很容易导致模型过拟合。因此，亟需一种新的文本分类的方案。

为了解决上述问题。本发明提供了一种文本分类方法，在本方法中，由于本实施例所提供的方法先获取待处理文本；然后，可以将所述待处理文本输入分类模型中的线性映射层，得到所述待处理文本的查询矩阵、键值矩阵和值项矩阵；接着，可以将所述待处理文本的查询向量、键值向量分别输入所述随机注意力层、所述局部注意力层和所述全局注意力层，得到所述待处理文本的随机掩码矩阵、局部掩码矩阵和全局掩码矩阵；紧接着，可以将所述随机掩码矩阵、所述局部掩码矩阵和所述全局掩码矩阵输入所述归一化层，得到归一化掩码矩阵；接下来，可以将所述归一化掩码矩阵和所述值项矩阵输入所述全连接层，得到文本特征向量；最后，可以将所述文本特征向量输入所述分类器，得到所述待处理文本的类别。由于随机注意力层可以通过在待处理文本中不同的字符的位置上随机选择不同的位置进行注意力计算，从而可以防止模型过拟合；并且，利用局部注意力层通过选择与待处理文本中各个字符位置相邻的位置进行注意力计算，从而可以确定待处理文本中各个字符之间的局部关系，以及，利用全局注意力层基于整个待处理文本中的所有字符的位置进行注意力计算，从而可以确定待处理文本的全局关系。这样，本实施例通过将随机注意力层、局部注意力层和全局注意力层进行结合（即将随机注意力机制、局部注意力机制与全局注意力机制结合），可以更好的获取到待处理文本中字符的局部关系和全局关系，以便可以利用待处理文本中字符的局部关系和全局关系对待处理文本进行更加准确的分类，从而可以提高待处理文本的类别确定结果的精确度，以及，可以防止模型过拟合，可以提高模型性能。

举例说明，本发明实施例可以应用到如图1所示的应用场景。在该场景中，可以包括终端设备1和服务器2。

终端设备1可以是硬件，也可以是软件。当终端设备1为硬件时，其可以是具有采集图像、存储图像功能且支持与服务器2通信的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、数码照像机、监控器、录像机和台式计算机等；当终端设备1为软件时，其可以安装在如上该的电子设备中。终端设备1可以实现为多个软件或软件模块，也可以实现为单个软件或软件模块，本公开实施例对此不作限制。进一步地，终端设备1上可以安装有各种应用，例如图像采集应用、图像存储应用、即时聊天应用等。

服务器2可以是提供各种服务的服务器，例如，对与其建立通信连接的终端设备发送的请求进行接收的后台服务器，该后台服务器可以对终端设备发送的请求进行接收和分析等处理，并生成处理结果。服务器2可以是一台服务器，也可以是由若干台服务器组成的服务器集群，或者还可以是一个云计算服务中心，本公开实施例对此不作限制。

需要说明的是，服务器2可以是硬件，也可以是软件。当服务器2为硬件时，其可以是为终端设备1提供各种服务的各种电子设备。当服务器2为软件时，其可以是为终端设备1提供各种服务的多个软件或软件模块，也可以是为终端设备1提供各种服务的单个软件或软件模块，本公开实施例对此不作限制。

终端设备1与服务器2可以通过网络进行通信连接。网络可以是采用同轴电缆、双绞线和光纤连接的有线网络，也可以是无需布线就能实现各种通信设备互联的无线网络，例如，蓝牙（Bluetooth）、近场通信（Near Field Communication，NFC）、红外（Infrared）等，本公开实施例对此不作限制。

具体地，用户可以通过终端设备1确定待处理文本，并将待处理文本向服务器2发送。服务器2中可以预先设置有已训练的分类模型，其中，所述分类模型包括线性映射层、随机注意力层、局部注意力层、全局注意力层、归一化层、全连接层和分类器。服务器2接收到待处理文本后，服务器2可以将所述待处理文本输入所述线性映射层，得到所述待处理文本的查询矩阵、键值矩阵和值项矩阵。然后，服务器2可以将所述待处理文本的查询向量、键值向量分别输入所述随机注意力层、所述局部注意力层和所述全局注意力层，得到所述待处理文本的随机掩码矩阵、局部掩码矩阵和全局掩码矩阵。接着，服务器2可以将所述随机掩码矩阵、所述局部掩码矩阵和所述全局掩码矩阵输入所述归一化层，得到归一化掩码矩阵。紧接着，服务器2可以将所述归一化掩码矩阵和所述值项矩阵输入所述全连接层，得到文本特征向量。最后，服务器2可以将所述文本特征向量输入所述分类器，得到所述待处理文本的类别。这样，由于随机注意力层可以通过在待处理文本中不同的字符的位置上随机选择不同的位置进行注意力计算，从而可以防止模型过拟合；并且，利用局部注意力层通过选择与待处理文本中各个字符位置相邻的位置进行注意力计算，从而可以确定待处理文本中各个字符之间的局部关系，以及，利用全局注意力层基于整个待处理文本中的所有字符的位置进行注意力计算，从而可以确定待处理文本的全局关系。这样，本实施例通过将随机注意力层、局部注意力层和全局注意力层进行结合（即将随机注意力机制、局部注意力机制与全局注意力机制结合），可以更好的获取到待处理文本中字符的局部关系和全局关系，以便可以利用待处理文本中字符的局部关系和全局关系对待处理文本进行更加准确的分类，从而可以提高待处理文本的类别确定结果的精确度，以及，可以防止模型过拟合，可以提高模型性能。

需要说明的是，终端设备1和服务器2以及网络的具体类型、数量和组合可以根据应用场景的实际需求进行调整，本公开实施例对此不作限制。

需要注意的是，上述应用场景仅是为了便于理解本公开而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。

图2是本公开实施例提供的一种文本分类方法的流程图。图2的一种文本分类方法可以由图1的终端设备和/或服务器执行，其中，终端设备和/或服务器可以预先设置有已训练的分类模型，即该方法可以应用于分类模型。其中，该分类模型可以包括线性映射层、随机注意力层、局部注意力层、全局注意力层、归一化层、全连接层和分类器。需要说明的是，在一种实现方式中，分类模型可以为基于Transformer架构所得到的。如图2所示，该文本分类方法包括：

S201：获取待处理文本。

在本实施例中，待处理文本可以理解为需要进行分类的文本。例如，待处理文本可以为一篇文章、一段文字、一句话。可以理解的是，待处理文本可以包括多个字符。在一种实现方式中，待处理文本可以为终端本地预先存储的文档，也可以为用户利用输入设备输入的文本，还可以为从其它终端获取到的文档。举例来说，待处理文本可以为“天气晴好”。

S202：将所述待处理文本输入所述线性映射层，得到所述待处理文本的查询矩阵、键值矩阵和值项矩阵。

在获取到待处理文本后，可以先将所述待处理文本输入所述线性映射层，以便利用线性映射层对待处理文本进行线性变换，得到所述待处理文本的查询矩阵、键值矩阵和值项矩阵。

其中，查询矩阵为Query矩阵，查询矩阵可以理解为能够反映需要查询的信息的特征向量，也可以理解为，能够反映与待处理文本中各个字符相匹配的字符的属性。键值矩阵为Key矩阵，键值矩阵可以理解被查询的信息的特征向量，也可以理解为，能够反映待处理文本中各个字符的自身属性的特征向量。值项矩阵可以理解为查询得到的值的特征向量，也可以理解为，能够反映待处理文本中各个字符所包含的信息的特征向量。

作为一种示例，可以先将所述待处理文本输入分类模型中的线性映射层。然后，所述线性映射层可以在所述待处理文本中的第一个字符前添加全局感知标识和分类标识，得到调整后的待处理文本。需要说明的是，分类标识可以用于提取待处理文本的语义特征向量，即提取并融合待处理文本中各个字词的语义信息；可以理解的是，待处理文本的语义特征向量可以作为待处理文本的语义表示。全局感知标识可以用于提取待处理文本的全局信息，也就是说，全局感知标识所提取的待处理文本的全局信息能够反映待处理文本的全局上下文信息。在一种实现方式中，全局感知标识可以为[G]和分类标识可以为[CLS]。假设待处理文本为“天气晴好”，全局感知标识为[G]和分类标识为[CLS]，则线性映射层在所述待处理文本中的第一个字符前添加全局感知标识和分类标识后便可以得到调整后的待处理文本“[G] [CLS]天气晴好”。

接着，线性映射层可以对所述调整后的待处理文本进行线性映射，得到所述待处理文本的查询矩阵、键值矩阵和值项矩阵。具体地，可以针对所述调整后的待处理文本中的每个字符，所述线性映射层将该字符进行映射，得到该字符对应的低维向量。例如，可以通过线性映射层将调整后的待处理文本中的每个字符映射成该字符对应的低维向量，例如可以将每个字符映射为d维的低维向量。

在得到调整后的待处理文本中的每个字符对应的低维向量后，可以根据所述调整后的待处理文本中的所有字符各自分别对应的低维向量，得到所述待处理文本的查询矩阵、键值矩阵和值项矩阵。接下来，将分别介绍如何根据所述调整后的待处理文本中的所有字符各自分别对应的低维向量，得到所述待处理文本的查询矩阵、键值矩阵和值项矩阵。

首先，介绍待处理文本的查询矩阵的生成方式。在本实施例中，可以根据查询变化矩阵和所述调整后的待处理文本中的所有字符各自分别对应的低维向量，生成所述待处理文本的查询矩阵。作为一种示例，可以先将所述调整后的待处理文本中的所有字符各自分别对应的低维向量组成一个输入矩阵I，接着可以将查询变化矩阵W^Q与输入矩阵I的点积运算结果作为待处理文本的查询矩阵Q，即Q=W^Q·I。

其次，介绍待处理文本的键值矩阵的生成方式。根据键值变化矩阵和所述调整后的待处理文本中的所有字符各自分别对应的低维向量，生成所述待处理文本的键值矩阵。作为一种示例，可以先将所述调整后的待处理文本中的所有字符各自分别对应的低维向量组成一个输入矩阵I，接着可以将键值变化矩阵W^K与输入矩阵I的点积运算结果作为待处理文本的键值矩阵K，即K=W^K·I。

再次，介绍待处理文本的值项矩阵的生成方式。根据值向变化矩阵和所述调整后的待处理文本中的所有字符各自分别对应的低维向量，生成所述待处理文本的值项矩阵。作为一种示例，可以先将所述调整后的待处理文本中的所有字符各自分别对应的低维向量组成一个输入矩阵I，接着可以将值项变化矩阵W^V与输入矩阵I的点积运算结果作为待处理文本的值项矩阵V，即V=W^V·I。

S203：将所述待处理文本的查询向量、键值向量分别输入所述随机注意力层、所述局部注意力层和所述全局注意力层，得到所述待处理文本的随机掩码矩阵、局部掩码矩阵和全局掩码矩阵。

在本实施例中，随机注意力层包括至少一个随机注意力头，局部注意力层包括至少一个局部注意力头，全局注意力层包括至少一个全局注意力头。需要说明的是，在一种实现方式中，随机注意力层、局部注意力层、全局注意力层中的注意力头的数量是相同的，例如，随机注意力层可以包括2个随机注意力头，局部注意力层可以包括2个局部注意力头，全局注意力层可以包括2个全局注意力头。当然，随机注意力层、局部注意力层、全局注意力层中的注意力头的数量也可以是不相同的。需要说明的是，随机注意力层、局部注意力层、全局注意力层的输入端均与线性映射层的输出端连接，随机注意力层、局部注意力层、全局注意力层的输出端均与归一化层的输入端连接。需要说明的是，在本实施例中，注意力头可以为BERT、ALBERT、roBERTa、DeBERT、MacBERT、simBert等模型中的一种，并且可以进行不同注意力头的改造再对注意力头进行预训练。

在获取到待处理文本的查询矩阵、键值矩阵和值项矩阵后，可以将待处理文本的查询向量、键值向量分别输入随机注意力层、所述局部注意力层和所述全局注意力层，可以得到待处理文本的随机掩码矩阵、局部掩码矩阵和全局掩码矩阵。即，将待处理文本的查询向量、键值向量输入随机注意力层，可以得到待处理文本的随机掩码矩阵；将待处理文本的查询向量、键值向量输入局部注意力层，可以得到待处理文本的局部掩码矩阵；将待处理文本的查询向量、键值向量输入全局注意力层，可以得到全局掩码矩阵。

在一种实现方式中，随机注意力层生成待处理文本的随机掩码矩阵的方式可以为：随机注意力层根据所述键值矩阵的转置矩阵、所述查询矩阵和预设第一掩码矩阵，确定所述待处理文本的随机掩码矩阵。例如，可以将预设第一掩码矩阵MASK1、键值矩阵的转置矩阵K^T和查询矩阵Q相乘，得到待处理文本的随机掩码矩阵A1，具体为：A1=MASK1·K^T·Q。可以理解的是，局部注意力层可以在键值矩阵的转置矩阵K^T和查询矩阵Q的乘积矩阵中的每个元素处均做一次均匀分布的采样，若采样值大于预设概率值，则在局部掩码矩阵中与该元素为相同位置的掩码则为1，反之，若采样值小于或等于预设概率值，则在局部掩码矩阵中与该元素为相同位置的掩码则为0。这样，随机注意力层便可以通过在待处理文本中不同的字符的位置上随机选择不同的位置进行注意力计算，从而可以防止模型过拟合。举例来说，假设调整后的待处理文本“[G] [CLS]天气晴好”，则待处理文本的随机掩码矩阵可以为如图3所示的矩阵。

在一种实现方式中，局部注意力层生成待处理文本的局部掩码矩阵的方式可以为：局部注意力层根据所述键值矩阵的转置矩阵、所述查询矩阵和预设第二掩码矩阵，确定所述待处理文本的局部掩码矩阵。例如，可以将预设第二掩码矩阵MASK2、键值矩阵的转置矩阵K^T和查询矩阵Q相乘，得到待处理文本的局部掩码矩阵A2，具体为：A2=MASK2·K^T·Q。可以理解的是，局部注意力层可以利用窗口大小为3的滑窗对键值矩阵的转置矩阵K^T和查询矩阵Q的乘积矩阵中的元素进行局部掩码处理。需要说明的是，局部掩码矩阵能够反映待处理文本中每个字符与其相邻字符之间的上下文信息。这样，便可以利用局部注意力层通过选择与待处理文本中各个字符位置相邻的位置进行注意力计算，从而可以确定待处理文本中各个字符之间的局部关系。举例来说，假设调整后的待处理文本“[G] [CLS]天气晴好”，则待处理文本的局部掩码矩阵可以为如图4所示的矩阵。

在一种实现方式中，全局注意力层生成待处理文本的全局掩码矩阵的方式可以为：全局注意力层根据所述键值矩阵的转置矩阵、所述查询矩阵和预设第三掩码矩阵，确定所述待处理文本的全局掩码矩阵。例如，可以将预设第三掩码矩阵MASK3、键值矩阵的转置矩阵K^T和查询矩阵Q相乘，得到待处理文本的全局掩码矩阵A3，具体为：A3=MASK3·K^T·Q。可以理解的是，全局注意力层可以对键值矩阵的转置矩阵K^T和查询矩阵Q的乘积矩阵中的元素进行全局信息收集。需要说明的是，全局掩码矩阵能够反映待处理文本中每个字符与全部字符之间的上下文信息。这样，便可以利用全局注意力层基于整个待处理文本中的所有字符的位置进行注意力计算，从而可以确定待处理文本的全局关系。举例来说，假设调整后的待处理文本“[G] [CLS]天气晴好”，则待处理文本的全局掩码矩阵可以为如图5所示的矩阵。

可以理解的是，全部掩码矩阵用于粗略匹配，局部掩码矩阵用于精细匹配。因此，可以通过局部掩码矩阵和全部掩码矩阵有效的结合，可以利用待处理文本中字符的局部关系和全局关系对待处理文本进行更加准确的分类，从而可以提高待处理文本的类别确定结果的精确度。

需要说明的是，随机掩码矩阵（即随机注意力）可以在不同的时间步骤内随机选择不同的位置进行注意力计算，从而防止模型过拟合。局部掩码矩阵（即局部注意力）可以选择与当前位置相邻的位置进行注意力计算，从而捕捉局部关系。全局掩码矩阵（即全局注意力)可以考虑整个序列中的所有位置进行注意力计算，从而捕捉全局关系。

S204：将所述随机掩码矩阵、所述局部掩码矩阵和所述全局掩码矩阵输入所述归一化层，得到归一化掩码矩阵。

在本实施例中，归一化层的输入端与随机注意力层、局部注意力层、全局注意力层的输出端相连，归一化层的输出端与全连接层的输入端连接。在一种实现方式中，归一化层可以为softmax函数层。

在获取到所述随机掩码矩阵、所述局部掩码矩阵和所述全局掩码矩阵后，可以将输入所述归一化层，得到归一化掩码矩阵。具体地，可以先将所述随机掩码矩阵、所述局部掩码矩阵和所述全局掩码矩阵输入所述归一化层。然后，所述归一化层可以对所述随机掩码矩阵、所述局部掩码矩阵和所述全局掩码矩阵进行归一化处理以及拼接处理，得到归一化掩码矩阵。具体地，归一化层可以对所述随机掩码矩阵、所述局部掩码矩阵和所述全局掩码矩阵进行归一化处理，得到归一化的所述随机掩码矩阵、所述局部掩码矩阵和所述全局掩码矩阵，接着，再将归一化的所述随机掩码矩阵、所述局部掩码矩阵和所述全局掩码矩阵进行拼接，得到归一化掩码矩阵。

S205：将所述归一化掩码矩阵和所述值项矩阵输入所述全连接层，得到文本特征向量。

在本实施例中，全连接层的输入端与归一化层、线性映射层的输出端连接，全连接层的输出端与分类器的输入端连接。在获取到归一化掩码矩阵后，可以将所述归一化掩码矩阵和所述值项矩阵输入所述全连接层，得到文本特征向量。

具体地，可以先将所述归一化掩码矩阵和所述值项矩阵输入所述全连接层。然后，全连接层可以对所述归一化掩码矩阵和所述值项矩阵进行逐元素乘法，得到所述待处理文本的文本特征向量。即，将归一化掩码矩阵和值项矩阵中对应位置的元素分别相乘，得到待处理文本的文本特征向量。

S206：将所述文本特征向量输入所述分类器，得到所述待处理文本的类别。

在获取到文本特征向量后，可以将文本特征向量输入所述分类器，分类器可以根据文本特征向量确定待处理文本分别属于每个预设类别的概率。接下来，分类器可以将概率最大的预设类别作为待处理文本的类别。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图6是本公开实施例提供的文本分类装置的示意图。所述装置应用于分类模型，所述分类模型包括线性映射层、随机注意力层、局部注意力层、全局注意力层、归一化层、全连接层和分类器。如图6所示，该文本分类装置包括：

文本获取模块601，用于获取待处理文本；

映射处理模块602，用于将所述待处理文本输入分类模型中的线性映射层，得到所述待处理文本的查询矩阵、键值矩阵和值项矩阵；

掩码处理模块603，用于将所述待处理文本的查询向量、键值向量分别输入所述随机注意力层、所述局部注意力层和所述全局注意力层，得到所述待处理文本的随机掩码矩阵、局部掩码矩阵和全局掩码矩阵；

归一化处理模块604，用于将所述随机掩码矩阵、所述局部掩码矩阵和所述全局掩码矩阵输入所述归一化层，得到归一化掩码矩阵；

特征获取模块605，用于将所述归一化掩码矩阵和所述值项矩阵输入所述全连接层，得到文本特征向量；

类别确定模块606，用于将所述文本特征向量输入所述分类器，得到所述待处理文本的类别。

可选的，所述映射处理模块602，用于：

将所述待处理文本输入分类模型中的线性映射层；

所述线性映射层在所述待处理文本中的第一个字符前添加全局感知标识和分类标识，得到调整后的待处理文本；

所述线性映射层对所述调整后的待处理文本进行线性映射，得到所述待处理文本的查询矩阵、键值矩阵和值项矩阵。

可选的，所述映射处理模块602，用于：

针对所述调整后的待处理文本中的每个字符，所述线性映射层将该字符进行映射，得到该字符对应的低维向量；

根据所述调整后的待处理文本中的所有字符各自分别对应的低维向量，得到所述待处理文本的查询矩阵、键值矩阵和值项矩阵。

可选的，所述映射处理模块602，用于：

根据查询变化矩阵和所述调整后的待处理文本中的所有字符各自分别对应的低维向量，生成所述待处理文本的查询矩阵；

根据键值变化矩阵和所述调整后的待处理文本中的所有字符各自分别对应的低维向量，生成所述待处理文本的键值矩阵；

根据值向变化矩阵和所述调整后的待处理文本中的所有字符各自分别对应的低维向量，生成所述待处理文本的值项矩阵。

可选的，所述掩码处理模块603，用于：

所述随机注意力层根据所述键值矩阵的转置矩阵、所述查询矩阵和预设第一掩码矩阵，确定所述待处理文本的随机掩码矩阵；

所述局部注意力层根据所述键值矩阵的转置矩阵、所述查询矩阵和预设第二掩码矩阵，确定所述待处理文本的局部掩码矩阵；

所述全局注意力层根据所述键值矩阵的转置矩阵、所述查询矩阵和预设第三掩码矩阵，确定所述待处理文本的全局掩码矩阵。

可选的，所述归一化处理模块604，用于：

将所述随机掩码矩阵、所述局部掩码矩阵和所述全局掩码矩阵输入所述归一化层；

所述归一化层对所述随机掩码矩阵、所述局部掩码矩阵和所述全局掩码矩阵进行归一化处理以及拼接处理，得到归一化掩码矩阵。

可选的，所述特征获取模块605，用于：

将所述归一化掩码矩阵和所述值项矩阵输入所述全连接层；

所述全连接层对所述归一化掩码矩阵和所述值项矩阵进行逐元素乘法，得到所述待处理文本的文本特征向量。

可选的，所述随机注意力层包括至少一个随机注意力头；局部注意力层包括至少一个局部注意力头；全局注意力层包括至少一个全局注意力头。

本公开实施例与现有技术相比存在的有益效果是：本公开实施例提供的文本分类装置包括：文本获取模块，用于获取待处理文本；映射处理模块，用于将所述待处理文本输入分类模型中的线性映射层，得到所述待处理文本的查询矩阵、键值矩阵和值项矩阵；掩码处理模块，用于将所述待处理文本的查询向量、键值向量分别输入所述随机注意力层、所述局部注意力层和所述全局注意力层，得到所述待处理文本的随机掩码矩阵、局部掩码矩阵和全局掩码矩阵；归一化处理模块，用于将所述随机掩码矩阵、所述局部掩码矩阵和所述全局掩码矩阵输入所述归一化层，得到归一化掩码矩阵；特征获取模块，用于将所述归一化掩码矩阵和所述值项矩阵输入所述全连接层，得到文本特征向量；类别确定模块，用于将所述文本特征向量输入所述分类器，得到所述待处理文本的类别。由于随机注意力层可以通过在待处理文本中不同的字符的位置上随机选择不同的位置进行注意力计算，从而可以防止模型过拟合；并且，利用局部注意力层通过选择与待处理文本中各个字符位置相邻的位置进行注意力计算，从而可以确定待处理文本中各个字符之间的局部关系，以及，利用全局注意力层基于整个待处理文本中的所有字符的位置进行注意力计算，从而可以确定待处理文本的全局关系。这样，本实施例通过将随机注意力层、局部注意力层和全局注意力层进行结合（即将随机注意力机制、局部注意力机制与全局注意力机制结合），可以更好的获取到待处理文本中字符的局部关系和全局关系，以便可以利用待处理文本中字符的局部关系和全局关系对待处理文本进行更加准确的分类，从而可以提高待处理文本的类别确定结果的精确度，以及，可以防止模型过拟合，可以提高模型性能。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。

图7是本公开实施例提供的计算机设备7的示意图。如图7所示，该实施例的计算机设备7包括：处理器701、存储器702以及存储在该存储器702中并且可以在处理器701上运行的计算机程序703。处理器701执行计算机程序703时实现上述各个方法实施例中的步骤。或者，处理器701执行计算机程序703时实现上述各装置实施例中各模块/模块的功能。

示例性地，计算机程序703可以被分割成一个或多个模块/模块，一个或多个模块/模块被存储在存储器702中，并由处理器701执行，以完成本公开。一个或多个模块/模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序703在计算机设备7中的执行过程。

计算机设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算机设备。计算机设备7可以包括但不仅限于处理器701和存储器702。本领域技术人员可以理解，图7仅仅是计算机设备7的示例，并不构成对计算机设备7的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如，计算机设备还可以包括输入输出设备、网络接入设备、总线等。

处理器701可以是中央处理模块（Central Processing Unit，CPU），也可以是其它通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application SpecificIntegrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器702可以是计算机设备7的内部存储模块，例如，计算机设备7的硬盘或内存。存储器702也可以是计算机设备7的外部存储设备，例如，计算机设备7上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。进一步地，存储器702还可以既包括计算机设备7的内部存储模块也包括外部存储设备。存储器702用于存储计算机程序以及计算机设备所需的其它程序和数据。存储器702还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能模块、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块、模块完成，即将装置的内部结构划分成不同的功能模块或模块，以完成以上描述的全部或者部分功能。实施例中的各功能模块、模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中，上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。另外，各功能模块、模块的具体名称也只是为了便于相互区分，并不用于限制本公开的保护范围。上述系统中模块、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

在本公开所提供的实施例中，应该理解到，所揭露的装置/计算机设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/计算机设备实施例仅仅是示意性的，例如，模块或模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或模块的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

集成的模块/模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本公开实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围，均应包含在本公开的保护范围之内。

Claims

1.一种文本分类方法，其特征在于，所述方法应用于分类模型，所述分类模型包括线性映射层、随机注意力层、局部注意力层、全局注意力层、归一化层、全连接层和分类器；所述方法包括：

获取待处理文本；

2.根据权利要求1所述的方法，其特征在于，所述将所述待处理文本输入分类模型中的线性映射层，得到所述待处理文本的查询矩阵、键值矩阵和值项矩阵，包括：

将所述待处理文本输入分类模型中的线性映射层；

3.根据权利要求2所述的方法，其特征在于，所述线性映射层对所述调整后的待处理文本进行线性映射，得到所述待处理文本的查询矩阵、键值矩阵和值项矩阵，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述调整后的待处理文本中的所有字符各自分别对应的低维向量，得到所述待处理文本的查询矩阵、键值矩阵和值项矩阵，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述待处理文本的查询向量、键值向量分别输入所述随机注意力层、所述局部注意力层和所述全局注意力层，得到所述待处理文本的随机掩码矩阵、局部掩码矩阵和全局掩码矩阵，包括：

6.根据权利要求1所述的方法，其特征在于，所述将所述随机掩码矩阵、所述局部掩码矩阵和所述全局掩码矩阵输入所述归一化层，得到归一化掩码矩阵，包括：

7.根据权利要求1所述的方法，其特征在于，所述将所述归一化掩码矩阵和所述值项矩阵输入所述全连接层，得到文本特征向量，包括：

将所述归一化掩码矩阵和所述值项矩阵输入所述全连接层；

8.根据权利要求1所述的方法，其特征在于，所述随机注意力层包括至少一个随机注意力头；局部注意力层包括至少一个局部注意力头；全局注意力层包括至少一个全局注意力头。

9.一种文本分类装置，其特征在于，所述装置应用于分类模型，所述分类模型包括线性映射层、随机注意力层、局部注意力层、全局注意力层、归一化层、全连接层和分类器；所述装置包括：

文本获取模块，用于获取待处理文本；

10.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8中任一项所述方法的步骤。

11.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述方法的步骤。