CN115858772A

CN115858772A - 对文本进行分类的方法、装置以及存储介质

Info

Publication number: CN115858772A
Application number: CN202210038192.XA
Authority: CN
Inventors: 段兴涛; 蒋宁; 马超
Original assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Current assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2023-03-28

Abstract

本申请公开了一种对文本进行分类的方法、装置以及存储介质。其中，对文本进行分类的方法，包括：对待分类文本进行词嵌入处理，提取所述待分类文本的词组特征、词性特征、N元语法特征以及字符特征；将所述词组特征、所述词性特征、所述N元语法特征以及所述字符特征进行结合，确定所述待分类文本的第一文本特征信息；以及根据所述第一文本特征信息，确定所述待分类文本的类别。

Description

对文本进行分类的方法、装置以及存储介质

技术领域

本申请涉及自然语言处理技术领域，特别是涉及一种对文本进行分类的方法、装置以及存储介质。

背景技术

目前，文本分类技术被广泛应用于业务需求分析、知识图谱构建以及语言翻译等各种自然语言处理的应用场合。其中，文本分类质量的好坏直接对后续过程造成重大影响。尽管目前各种处理文本分类任务的算法和策略能够满足基本需求，但是这些算法和策略在对长文本进行分类时仍略显不足。主要原因在于长文本分类任务中有效特征信息难于提取，时间复杂度和空间复杂度过高以至于超过硬件限制从而难于实现。由于长文本分类质量难以得到保障，长文本的后续处理过程的质量受到严重影响。

针对上述的现有技术中存在的对长文本进行分类的质量难以得到保障，从而导致后续处理过程的质量受到严重影响的技术问题，目前尚未提出有效的解决方案。

发明内容

本公开的实施例提供了一种对文本进行分类的方法、装置以及存储介质，以至少解决现有技术中存在的对长文本进行分类的质量难以得到保障，从而导致后续处理过程的质量受到严重影响的技术问题。

根据本公开实施例的一个方面，提供了一种对文本进行分类的方法，包括：对待分类文本进行词嵌入处理，提取待分类文本的词组特征、词性特征、N元语法特征以及字符特征；将词组特征、词性特征、N元语法特征以及字符特征进行结合，确定待分类文本的第一文本特征信息；以及根据第一文本特征信息，确定待分类文本的类别。

根据本公开实施例的另一个方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时由处理器执行以上所述的方法。

根据本公开实施例的另一个方面，还提供了一种对文本进行分类的装置，包括：词嵌入处理模块，用于对待分类文本进行词嵌入处理，提取待分类文本的词组特征、词性特征、N元语法特征以及字符特征；第一文本特征信息确定模块，用于将词组特征、词性特征、N元语法特征以及字符特征进行结合，确定待分类文本的第一文本特征信息；以及分类模块，用于根据第一文本特征信息，确定待分类文本的类别。

根据本公开实施例的另一个方面，还提供了一种对文本进行分类的装置，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：对待分类文本进行词嵌入处理，提取待分类文本的词组特征、词性特征、N元语法特征以及字符特征；将词组特征、词性特征、N元语法特征以及字符特征进行结合，确定待分类文本的第一文本特征信息；以及根据第一文本特征信息，确定待分类文本的类别。

在本公开实施例中，在对文本进行特征提取时，不仅仅是针对文本分词后的词组进行特征提取，还要提取文本中的词性、N元语法以及字符等特征，并将文本的词组特征、词性特征、N元语法特征以及字符特征进行融合得到与该文本对应的第一文本特征信息，然后利用自然语言分类模型基于该第一文本特征信息对文本进行分类。由于在特征提取的过程中综合考虑了词组、词性、N元语法以及字符等多方面的特征，因此即便待分类的文本是长文本，也能够提取丰富的特征信息，从而在基于第一文本特征信息对长文本进行分类时能够大大提高对长文本进行分类的分类质量。从而解决了现有技术中存在的对长文本进行分类的质量难以得到保障，从而导致后续处理过程的质量受到严重影响的技术问题

附图说明

此处所说明的附图用来提供对本公开的进一步理解，构成本申请的一部分，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：

图1是用于实现根据本公开实施例1所述的方法的计算设备的硬件结构框图；

图2是根据本公开实施例1所述的计算设备中的模块架构示意图；

图3是根据本公开实施例1的第一个方面所述的对文本进行分类的方法的流程示意图；

图4是根据本公开实施例1所述的第二特征提取模块的示意图；

图5是根据本公开实施例1所述的基于注意力机制的特征提取模型的示意图。

图6是根据本公开实施例2所述的对文本进行分类的装置的示意图；以及

图7是根据本公开实施例3所述的对文本进行分类的装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本公开的技术方案，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本实施例，提供了一种对文本进行分类的方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的计算设备中执行。图1示出了一种用于实现对文本进行分类的方法的计算设备的硬件结构框图。如图1所示，计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本公开实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器可用于存储应用软件的软件程序以及模块，如本公开实施例中的对文本进行分类的方法对应的程序指令/数据存储装置，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的对文本进行分类的方法。存储器可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算设备的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算设备中的部件的类型。

此外，图2示出了计算设备中的模块架构示意图，参考图2所示，计算设备中设置有词组库、词性库、N元语法词库、字符库、第一特征提取模块、第二特征提取模块以及自然语言分类模型。

其中，词组库以及词性库分别存储计算设备通过分词工具对语料进行分词处理后得到的词组和词性的集合。其中，词性包括名词、动词、形容词、副词等。例如“开展”的词性是动词、“联欢会”的词性是名词、以及“友好”的词性是形容词。在本公开的技术方案中，计算设备所使用的分词工具例如可以是分词工具jieba。从而计算设备利用jieba的posseg遍历所有语料，并对语料进行分词处理，从而得到数组列表。数组列表的元素是一个pair对象，其中pair.word为分词处理得到的词组，pair.flag为与该词组对应的词性。从而计算设备将分词处理得到的词组和词性分别存储至词组库和词性库，并进行去重处理，以便用于对所接收的待分类文本进行特征提取。

并且，其中词组库中的词组例如采用One-Hot编码的形式进行编码，例如下面表1示出了词组库中各个词组的编码：

表1：

词组	编码
		词组1	10000......000
词组2	01000......000
		词组3	00100......000
......	......
		词组j	00000......001

其中，词组库中包括j个词组，从而每个词组的编码长度也是j位。

同样地，词性库中的词性也采用One-Hot编码的形式进行编码，例如下面表2示出了词组库中各个词组的编码：

表2：

其中词性库中包括k个词性，从而每个词性的编码长度是k位。

N元语法词库存储计算设备对语料进行N元语法提取所得到的N字单词的集合，其中N≥2。其中，N元语法提取以N个字为窗口，在语料逐字滑移，从而提取出的一系列由N个字组成的单词。

例如，在N＝3的情况下，以三个字为窗口在语料“你公司应高度重视产品开发管理工作，......”中逐字滑移进行三元语法提取，从而得到以下三字单词：“你公司”、“公司应”、“司应高”、“应高度”、......。从而计算设备将按照如上方法从各个语料提取三字单词，并将其存储于三元语法词库中。

再例如，在N＝4的情况下，以四个字为窗口在语料“你公司应高度重视产品开发管理工作，......”中逐字滑移进行四元语法提取，从而得到以下四字单词：“你公司应”、“公司应高”、“司应高度”、“应高度重”、......。从而计算设备将按照如上方法从各个语料提取四字单词，并将其存储于四元语法词库中。

以此类推，对于N等于其他数字的情况，也参考以上所述的操作。为了便于说明，下文以N＝3为例(即三元语法提取)进行说明。

例如，三元语法词库中的三字单词也采用One-Hot编码的形式进行编码，例如下面表3示出了三元语法词库中各个三字单词的编码：

表3：

三字单词	编码
		三字单词1	10000......000
三字单词2	01000......000
		三字单词3	00100......000
......	......
		三字单词l	00000......001

其中三元语法词库中包括l个三字单词，从而每个三字单词的编码长度是l位。

字符库存储各个语料中包含的字符，包括希腊字符、罗马字符、或者例如“@”、“#”或“￥”等字符。

其中，字符库中的字符也采用One-Hot编码的形式进行编码，例如下面表4示出了字符库中各个字符的编码：

表4：

字符	编码
		字符1	10000......000
字符2	01000......000
		字符3	00100......000
......	......
		字符m	00000......001

其中字符库中包括m个字符，从而每个字符的编码长度是m位。

第一特征提取模块是基于词嵌入处理的特征提取模块，用于接收待分类文本，并对待分类文本进行特征提取，得到与待分类文本对应的浅层文本特征信息(即第一文本特征信息)。

第二特征提取模块是基于注意力机制的特征提取模块，用于接收第一特征提取模块输出的浅层文本特征信息，利用基于注意力机制的特征提取模型，生成进一步的深层文本特征信息(即第二文本特征信息)。

自然语言分类模型用于根据第二特征提取模块输出的深层次文本特征信息，确定待分类文本的类别。

在上述运行环境下，根据本实施例的第一个方面，提供了一种对文本进行分类的方法，该方法由图1中所示的计算设备实现。图3示出了该方法的流程示意图，参考图3所示，该方法包括：

S102：对待分类文本进行词嵌入处理，提取待分类文本的词组特征、词性特征、N元语法特征以及字符特征；

S104：将词组特征、词性特征、N元语法特征以及字符特征进行结合，确定待分类文本的第一文本特征信息；以及

S106：根据第一文本特征信息，确定待分类文本的类别。

具体地，用户可以将待分类文本输入至图1所示的计算设备，或者通过网络传输至图1所示的计算设备，从而通过图1所示的计算设备对待分类文本进行分类。

其中，本实施例中所述的待分类文本例如是长文本，其中“长文本”属于本领域公知的术语，与“短文本”相对，指内容比较长的文本文档。

计算设备在接收到待分类文本之后，通过基于词嵌入处理技术的第一特征提取模块提取待分类文本的词组特征、词性特征、三元语法特征以及字符特征(S102)。

其中词组特征为待分类文本所包含的词组的信息，例如对于待分类文本“我会组织开展了第二次财产保险公司，......”，可以通过分词工具拆分成“我会”、“组织”、“开展了”、“第二次”以及“财产保险公司”等词组。而待分类文本的词组特征用于指示以上词组的信息。

词性特征用于指示与待分类文本所包含的词组的词性信息，例如对于上述待分类文本拆分后的“我会”、“组织”、“开展”“了”、“第二次”以及“财产保险公司”等词组中，“我会”的词性是名词、“组织”的词性是动词、“开展”的词性是动词、“第二次”的词性是形容词、“财产保险公司”的词性是名词。从而，待分类文本的词性特征能够指示待分类文本所包含的词组的词性的信息。

三元语法特征用于指示对待分类文本进行三元语法提取后所得到的三字单词的信息。计算设备通过第一特征提取模块以三个字为窗口在待分类文本“我会组织开展了第二次财产保险公司，......”中逐字滑移，进行三元语法提取，从而得到以下三字单词：“我会组”、“会组织”、“组织开”、“织开展”、“开展了”、......。从而待分类文本的三元语法特征用于指示以上所述的三字单词的信息。

此外，字符特征用于指示待分类文本所包含的字符的信息。

然后，计算设备通过第一特征提取模块将从待分类文本中提取的词组特征、词性特征、N元语法特征以及字符特征进行结合，确定待分类文本的第一文本特征信息(S104)。具体地，第一特征提取模块例如通过矩阵求和的方式将从待分类文本中提取的词组特征、词性特征、N元语法特征以及字符特征进行结合，从而得到待分类文本的第一文本特征信息。

然后计算设备根据第一文本特征信息确定待分类文本的类别(S106)。具体地对第一文本特征信息进行分类的方法，将在后文中详细说明。

正如背景技术中所述的，尽管目前各种处理文本分类任务的算法和策略能够满足基本需求，但是这些算法和策略在对长文本进行分类时仍略显不足。主要原因在于长文本分类任务中有效特征信息难于提取，时间复杂度和空间复杂度过高以至于超过硬件限制从而难于实现。由于长文本分类质量难以得到保障，长文本的后续处理过程的质量受到严重影响。

有鉴于此，根据本实施例的技术方案，在对文本进行特征提取时，不仅仅是针对文本分词后的词组进行特征提取，还要提取文本中的词性、N元语法以及字符等特征，并将文本的词组特征、词性特征、N元语法特征以及字符特征进行融合得到与该文本对应的第一文本特征信息，然后利用自然语言分类模型基于该第一文本特征信息对文本进行分类。由于在特征提取的过程中综合考虑了词组、词性、N元语法以及字符等多方面的特征，因此即便待分类的文本是长文本，也能够提取丰富的特征信息，从而在基于第一文本特征信息对长文本进行分类时能够大大提高对长文本进行分类的分类质量。从而解决了现有技术中存在的对长文本进行分类的质量难以得到保障，从而导致后续处理过程的质量受到严重影响的技术问题

可选地，提取待分类文本的词组特征、词性特征、N元语法特征以及字符特征的操作，包括：将待分类文本划分为多个文本数据批次；以及根据所划分的文本数据批次，确定待分类文本的词组特征、词性特征、N元语法特征以及字符特征。

具体地，根据本公开的技术方案，计算设备在接收到待分类文本后，可以将该待分类文本分割为多个文本数据批次。例如计算设备可以以每256字作为一个批次进行分割，从而将待分类文本分割为多个不同的容量为256字的文本数据批次。然后，计算设备基于所划分的各个文本数据批次，确定待分类文本的词组特征、词性特征、N元语法特征以及字符特征。由于本实施例是将长文本划分的批次后，然后根据划分的批次进行特征提取，因此有利于进行特征提取的计算。

可选地，根据所划分的文本数据批次，确定待分类文本的词组特征的操作，包括：利用分词工具对文本数据批次分别进行分词处理，从而确定各个文本数据批次所包含的词组；根据所确定的词组，确定与各个文本数据批次对应的词组向量，其中词组向量用于指示相应的数据批次中各个词组出现的频率；将各个文本数据批次的词组向量结合，生成与待分类文本对应的词组矩阵；以及对词组矩阵进行分布式表示，确定待分类文本的词组特征。

具体地，例如在本实施例中，第一特征提取模块对接收到的待分类文本进行划分，从而得到文本数据批次1、文本数据批次2、......、文本数据批次n等n个文本数据批次。

然后，第一特征提取模块例如通过分词工具jieba对文本数据批次1进行分词处理，从而得到与文本数据批次1对应的各个词组。然后，第一特征提取模块例如可以将各个词组对应的One-Hot编码相加，从而得到与文本数据批次1对应的词组向量：

w₁＝(w₁₁,w₁₂,w₁₃,......,w_1j)。

其中，w_1a(1≤a≤j)表示词组库中的第a个词组(即词组a)在文本数据批次1中出现的次数。例如，词组库中的第1个词组(即词组1)为“公司”，该词组在文本数据批次1中出现的次数为3次，则w₁₁＝3。再例如，词组库中的第2个词组(即词组2)为“制度”，在文本数据批次1中出现的次数为0，则w₁₂＝0。依此类推，从而可以得到与文本数据批次1对应的词组向量w₁。

基于同样的方式，第一特征提取模块可以确定与文本数据批次2对应的词组向量：w₂＝(w₂₁,w₂₂,w₂₃,......,w_2j)。

依此类推，第一特征提取模块可以确定与文本数据批次n对应的词组向量：

w_n＝(w_n1,w_n2,w_n3,......,w_nj)。

然后第一特征提取模块将词组向量w₁～w_n相结合，得到与待分类文本对应的词组矩阵W：

然后第一特征提取模块将该词组矩阵W进行分布式表示(例如将词组矩阵W与预先设置的词组库矩阵相乘)，从而得到与该待分类文本对应的词组特征W_d。其中词组特征W_d仍然是矩阵形式的特征信息，由于分布式表示为自然语言处理中的已知现有技术，此处不再赘述。

可选地，根据所划分的文本数据批次，确定待分类文本的词性特征的操作，包括：利用分词工具确定文本数据批次所包含的词组的词性；根据所确定词性，确定与文本数据批次对应的词性向量，其中词性向量用于指示数据批次中与各个词性对应的词组出现的频率；将各个文本数据批次的词性向量结合，生成与待分类文本对应的词性矩阵；以及对词性矩阵进行分布式表示，确定待分类文本的词性特征。

具体地，第一特征提取模块利用分词工具jieba对各个文本数据批次进行分词处理。从而在得到各个文本数据批次的词组的同时，还会得到与各个词组对应的词性。

例如，第一特征提取模块通过分词工具jieba对文本数据批次1进行分词处理，在得到与文本数据批次1对应的词组的同时，还得到与各个词组对应的词性。然后，第一特征提取模块例如可以将所得到的与各个词组对应的词性的One-Hot编码相加，从而得到与文本数据批次1对应的词性向量：

f₁＝(f₁₁,f₁₂,f₁₃,......,f_1k)。

其中，f_1a(1≤a≤k)表示词性库中的第a个词性(即词性a)在文本数据批次1中出现的次数。例如，词性库中的第1个词性(即词性1)为名词，文本数据批次1中出现的名词有31个，则f₁₁＝31。再例如，词性库中的第2个词性(即词性2)为动词，在文本数据批次1中出现的次数为27，则f₁₂＝27。依此类推，从而可以得到与文本数据批次1对应的词性向量f₁。

基于同样的方式，第一特征提取模块可以确定与文本数据批次2对应的词性向量：f₂＝(f₂₁,f₂₂,f₂₃,......,f_2k)。

依此类推，第一特征提取模块可以确定与文本数据批次n对应的词性向量：

f_n＝(f_n1,f_n2,f_n3,......,f_nk)。

然后第一特征提取模块将词性向量f₁～f_n相结合，得到与待分类文本对应的词性矩阵F：

然后第一特征提取模块将该词性矩阵F进行分布式表示(例如将词性矩阵F与预先设置的词性库矩阵相乘)，从而得到与该待分类文本对应的词性特征F_d。其中词性特征F_d仍然是矩阵形式的特征信息，由于分布式表示为自然语言处理中的已知现有技术，此处不再赘述。

可选地，根据所划分的文本数据批次，确定待分类文本的N元语法特征的操作，包括：对文本数据批次进行N元语法特征提取，从而确定各个文本数据批次所包含的N字单词；根据所确定的N字单词，确定与各个文本数据批次对应的N元语法向量，其中N元语法向量用于指示相应的数据批次中各个N字单词出现的频率；将各个文本数据批次的N元语法向量结合，生成与待分类文本对应的N元语法矩阵；以及对N元语法矩阵进行分布式表示，确定待分类文本的N元语法特征。

具体地，针对文本数据批次1，第一特征提取模块通过三元语法提取从文本数据批次1中提取所包含的三字单词。然后，第一特征提取模块可以将所提取的三字单词对应的One-Hot编码相加，从而得到与文本数据批次1对应的三元语法向量：

g₁＝(g₁₁,g₁₂,g₁₃,......,g_1l)。

其中，g_1a(1≤a≤l)表示三元语法词库中的第a个三字单词在文本数据批次1中出现的次数。例如，三元语法库中的第1个三字单词“开展了”在文本数据批次1中出现的次数有2次，则g₁₁＝2。三元语法库中的第4个三字单词“贵公司”在文本数据批次1中出现了0次，则g₁₄＝0。依此类推，从而可以得到与文本数据批次1对应的三元语法向量g₁。

基于同样的方式，第一特征提取模块可以确定与文本数据批次2对应的三元语法向量：g₂＝(g₂₁,g₂₂,g₂₃,......,g_2l)。

依此类推，第一特征提取模块可以确定与文本数据批次n对应的三元语法向量：

g_n＝(g_n1,g_n2,g_n3,......,g_nl)。

然后第一特征提取模块将三元语法向量g₁～g_n相结合，得到与待分类文本对应的三元语法矩阵G：

然后第一特征提取模块将该三元矩阵G进行分布式表示(例如将三元语法矩阵G与预先设置的三元语法库矩阵相乘)，从而得到与该待分类文本对应的三元语法特征G_d。其中三元语法特征G_d仍然是矩阵形式的特征信息，由于分布式表示为自然语言处理中的已知现有技术，此处不再赘述。

可选地，根据所划分的文本数据批次，确定待分类文本的字符特征的操作，包括：确定各个文本数据批次所包含的字符；根据所确定的字符，确定与各个文本数据批次对应的字符向量，其中字符向量用于指示相应的数据批次中各个字符出现的频率；将各个文本数据批次的字符向量结合，生成与待分类文本对应的字符矩阵；以及对字符矩阵进行分布式表示，确定待分类文本的字符特征。

具体地，针对文本数据批次1，第一特征提取模块提取文本数据批次1所包含的字符。然后，第一特征提取模块例如可以将所提取的字符对应的One-Hot编码相加，从而得到与文本数据批次1对应的字符向量：

c₁＝(c₁₁,c₁₂,c₁₃,......,c_1m)。

其中，c_1a(1≤a≤m)表示字符库中的第a个字符在文本数据批次1中出现的次数。例如，字符库中的第1个字符“％”在文本数据批次1中出现的次数有2次，则c₁₁＝2。字符库中第3个字符“@”在文本数据批次1中出现的次数为0次，则c₁₃＝0。依此类推，从而可以得到与文本数据批次1对应的字符向量c₁。

基于同样的方式，第一特征提取模块可以确定与文本数据批次2对应的字符向量：c₂＝(c₂₁,c₂₂,c₂₃,......,c_2m)。

依此类推，第一特征提取模块可以确定与文本数据批次n对应的字符向量：

c_n＝(c_n1,c_n2,c_n3,......,c_nm)。

然后第一特征提取模块将字符向量c₁～c_n相结合，得到与待分类文本对应的字符矩阵C：

然后第一特征提取模块将该字符矩阵C进行分布式表示(例如将字符矩阵C与预先设置的字符库矩阵相乘)，从而得到与该待分类文本对应的字符特征C_d。其中字符特征C_d仍然是矩阵形式的特征信息，由于分布式表示为自然语言处理中的已知现有技术，此处不再赘述。

从而第一特征提取模块通过以上方式得到待分类文本的词组特征W_d、词性特征F_d、三元语法特征G_d以及字符特征C_d后，例如可以通过矩阵加法的形式将以上特征进行融合得到待分类文本的第一文本特征信息FT1

FT1＝W_d+F_d+G_d+C_d

其中，如果词组特征W_d、词性特征F_d、三元语法特征G_d以及字符特征C_d的行数或列数不一致，可以通过填充的方式(例如填充数字0)，将词组特征W_d、词性特征F_d、三元语法特征G_d以及字符特征C_d的行数和列数调整为一致。

从而计算设备可以根据第一文本特征信息FT1，对待分类文本进行分类。

可选地，根据第一文本特征信息，确定待分类文本的类别的操作，包括：利用至少一个基于非完全注意力机制的特征提取模型，根据第一文本特征信息生成基于注意力机制的第二文本特征信息；以及根据第二文本特征信息，确定待分类文本的类别。

具体地，参考图2所示，计算设备在通过第一特征提取模块提取第一文本特征信息FT1之后，将第一文本特征信息FT1输入至第二特征提取模块，从而由第二特征提取模块根据第一文本特征信息FT1生成第二文本特征信息FT2。然后，计算设备将第二特征提取模块输出的第二文本特征信息FT2输入至自然语言分类模型，从而通过自然语言分类模型根据第二文本特征信息FT2确定待分类文本的类别。

其中，矩阵形式的第一文本特征信息FT1例如如下面所示：

FT1＝[x₁,x₂,.....x_u]

其中，x₁～x_u为第一文本特征信息FT1中的列向量。

然后第二特征提取模块根据该特征向量生成与第一文本特征信息对应的第二文本特征信息：

FT2＝[y₁,y₂,.....y_v]

其中，y₁～y_v是第二文本特征信息FT2的列向量。

具体地，图4示出了关于第二特征提取模块的示意图。参考图4所示，第二特征提取模块包括多个基于注意力机制的特征提取模型，分别是第一注意力机制特征提取模型、第二注意力机制特征提取模型、第三注意力机制特征提取模型以及第四注意力机制特征提取模型。

其中第一至第四注意力机制特征提取模型均为非完全注意力机制的特征提取模型。

其中，图5示出了基于注意力机制的特征提取模型的示意图，参见图5所示，基于注意力机制的特征提取模型根据输入的第一文本特征信息FT1的列向量x₁～x_u生成第二文本特征信息FT2的列向量y₁～y_v。

其中基于注意力机制的特征提取模型包括编码器和解码器，其中编码器用于根据FT1的列向量x₁～x_u生成分别与FT2的列向量y₁～y_v对应的中间语义特征C₁～C_v。然后，解码器可以根据以下公式生成列向量y₁～y_v。

y₁＝f₁(C₁)

y₂＝f₁(C₂,y₁)

y₃＝f₁(C₃,y₁，y₂)

y₄＝f₁(C₄,y₁，y₂，y₃)

......

y_v＝f₁(C_v,y₁，y₂，y₃，......,y_v-1)

其中函数f₁为解码器的函数，其可以使用现有技术中已知的应用于基于注意力机制的解码器函数，此处不再赘述。

正如上文所述，编码器用于根据FT1的列向量x₁～x_u生成分别与FT2的列向量y₁～y_v对应的中间语义特征C₁～C_v。

与背景技术中采用完全注意力机制的特征提取模型不同，本公开的技术方案采用的是非完全注意力机制的特征提取模型。其中本公开技术方案所采用的的非完全注意力机制与现有技术中所述的完全注意力机制的区别体现在特征提取模型的编码器上，即生成C₁～C_v的方式不同。

其中对于完全注意力机制，按照以下公式所示产生中间语义特征C_i(1≤i≤v)：

C_i＝g[w_i1*f₂(x₁),w_i2*f₂(x₂),......,w_iu*f₂(x_u)]

其中函数f₂为编码器对输入的向量x_j(1≤j≤u)的变换函数，该变换函数可以采用已知的基于注意力机制的特征提取模型的变换函数(例如BERT模型中所使用的的注意力机制的变换函数)。函数g是用于根据各个输入向量x₁～x_u的f₂函数输出结果整合生成中间语义C_i的变换函数。此外w_ij为为了生成中间语义C_i而分配给向量x_j的f₂函数输出结果的权重值。

也就是说，对于不同的数值j，分配给x_j的f₂函数输出结果的权重值是不同的。并且，对于不同的数值i所对应的中间语义C_i，各个输入向量x₁～x_u的f₂函数输出结果的权重值也是不同的。

其中针对不同的中间语义C_i，向量x_j的f₂函数输出结果的权重值的确定方法可以采用已知的注意力机制所采用的的方法，此处不再赘述。

通过以上所述，可知完全注意力机制的特征提取模型存在以下缺点，即对于每一个输出向量y_i所对应的中间语义C_i，都要计算每一个输入向量x_j的f₂函数以及对应的权重w_ij。因此大大提高了计算的时间复杂度和空间复杂度。

有鉴于此，本公开的技术方案的第二特征提取模块中，采用了至少一个非完全注意力机制的特征提取模型。与完全注意力机制不同的是，非完全注意力机制对于中间语义C_i中的至少一部分中间语义，仅仅根据输入向量x_j中的部分输入向量的f₂函数以及相应权重值来计算该中间语义。

例如，第二特征提取模块中的第一注意力机制特征提取模型可以是局部注意力机制的特征提取模型。该特征提取模型的编码器例如按照以下公式所示产生中间语义特征C_i(1≤i≤v)：

C_i＝g[M_i-k,M_i-(k-1),...,M_i-1,M_i,M_i+1,...,M_i+k]

其中,

M_i-k＝w_i,(i-k)*f₂(x_i-k)；

M_i-(k-1)＝w_i,(i-(k-1))*f₂(x_i-(k-1))；

...

M_i-1＝w_i,(i-1)*f₂(x_i-1)；

M_i＝w_i,i*f₂(x_i)；

M_i+1＝w_i,(i+1)*f₂(x_i+1)；

...

M_i+k＝w_i,(i+k)*f₂(x_i+k)。

也就是说在第一注意力机制特征提取模型中，对于中间语义特征C_i，编码器并不是根据所有的输入向量x_j的f₂函数以及对应的权重w_ij来计算该语义特征C_i，而是利用一个宽度为2k+1的窗口，以中间语义特征C_i的序号i所对应的输入向量x_i为中心，选取2k+1个输入向量计算f₂函数以及相应的权重值，然后计算该中间语义特征C_i。当窗口内所包含的序号值大于u或者小于1时相应的M可以取零不进行计算。

例如，取k＝2，

当i＝1时，C₁＝g[M₁,M₂,M₃]；

当i＝2时，C₂＝g[M₁,M₂,M₃,M₄]；

当i＝3时，C₃＝g[M₁,M₂,M₃,M₄,M₅]；

当i＝4时，C₄＝g[M₂,M₃,M₄,M₅,M₆]；

...

依次类推。

此外，第二特征提取模块中的第二注意力机制特征提取模型可以是局部空洞注意力机制的特征提取模型。该特征提取模型所采用的注意力机制与第一注意力机制特征提取模型的局部注意力机制相似，对于中间语义特征C_i，利用一个宽度为2k+1的窗口，以中间语义特征C_i的序号i所对应的输入向量x_i为中心，在2k+1个输入向量范围内，以预定间隔选取输入向量计算f₂函数以及相应的权重值，并进一步计算该中间语义特征C_i。此外当窗口内所包含的序号值大于u或者小于1时相应的M可以取零不进行计算。

例如，取k＝2，预定间隔取1，则：

当i＝1时，C₁＝g[M₁,M₃]；

当i＝2时，C₂＝g[M₁,M₃]；

当i＝3时，C₃＝g[M₁M₃,M₅]；

当i＝4时，C₄＝g[M₂,M₄,M₆]；

...

依次类推。

此外，第二特征提取模块中的第三注意力机制特征提取模型可以是全局注意力机制的特征提取模型。该特征提取模型将第一注意力机制特征提取模型的局部注意力机制与完全注意力机制相结合。即对于中间语义特征C_i，例如其中部分中间语义特征采用完全注意力机制进行计算，部分中间语义特征采取局部注意力机制进行计算。例如可以通过添加全局标记(global标记)的形式，对于添加了全局标记的向量y_i所对应的中间语义特征C_i，按照完全注意力机制的方式进行确定。而对于未添加全局标记的向量y_i所对应的中间语义特征C_i，则按照局部注意力机制的方式确定。

此外，第二特征提取模块中的第四注意力机制特征提取模型可以是随机注意力机制的特征提取模型。其中根据随机注意力机制，对于每一个中间语义特征C_i，所有的输入向量x_j中随机选取预定数量的输入向量，并根据所选取的输入向量的f₂函数输出结果以及相应的权重值，计算该中间语义特征向量。

此外，第二特征提取模块例如可以将第一文本特征信息FT1分别输入至第一至第四注意力机制特征提取模型中，从而分别得到第一至第四注意力机制特征提取模型的输出结果。然后，第二特征提取模块例如可以采用求平均值的方式，将第一至第四注意力机制特征提取模型的输出结果进行融合，从而得到第二文本特征信息FT2。

从而，根据本公开的技术方案，由于采用非完全注意力机制的特征提取模型将第一文本特征信息转而为第二文本特征信息，因此减小了计算的时间复杂度和空间复杂度。

然后，计算设备可以将第二文本特征信息输入至自然语言分类模型从而确定待分类文本的类别。其中自然语言分类模型可以采用已知的分类模型，例如可以是全连接器+softmax分类器形式的分类模型。此处不再赘述。

此外，参考图1所示，根据本实施例的第二个方面，提供了一种存储介质。所述存储介质包括存储的程序，其中，在所述程序运行时由处理器执行以上任意一项所述的方法。

本实施例的技术方案，在对文本进行特征提取时，不仅仅是针对文本分词后的词组进行特征提取，还要提取文本中的词性、N元语法以及字符等特征，并将文本的词组特征、词性特征、N元语法特征以及字符特征进行融合得到与该文本对应的第一文本特征信息，然后利用自然语言分类模型基于该第一文本特征信息对文本进行分类。由于在特征提取的过程中综合考虑了词组、词性、N元语法以及字符等多方面的特征，因此即便待分类的文本是长文本，也能够提取丰富的特征信息，从而在基于第一文本特征信息对长文本进行分类时能够大大提高对长文本进行分类的分类质量。从而解决了现有技术中存在的对长文本进行分类的质量难以得到保障，从而导致后续处理过程的质量受到严重影响的技术问题。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

图6示出了根据本实施例的第一个方面所述的对文本进行分类的装置600，该装置600与根据实施例1的第一个方面所述的方法相对应。参考图6所示，该装置600包括：词嵌入处理模块610，用于对待分类文本进行词嵌入处理，提取待分类文本的词组特征、词性特征、N元语法特征以及字符特征；第一文本特征信息确定模块620，用于将词组特征、词性特征、N元语法特征以及字符特征进行结合，确定待分类文本的第一文本特征信息；以及分类模块630，用于根据第一文本特征信息，确定待分类文本的类别。

可选地，词嵌入处理模块610包括：分批子模块，用于将待分类文本划分为多个文本数据批次；以及特征确定子模块，用于根据所划分的文本数据批次，确定待分类文本的词组特征、词性特征、N元语法特征以及字符特征。

可选地，特征确定子模块包括：词组确定单元，用于利用分词工具对文本数据批次分别进行分词处理，从而确定各个文本数据批次所包含的词组；词组向量确定单元，用于根据所确定的词组，确定与各个文本数据批次对应的词组向量，其中词组向量用于指示相应的数据批次中各个词组出现的频率；词组矩阵生成单元，用于将各个文本数据批次的词组向量结合，生成与待分类文本对应的词组矩阵；以及词组特征确定单元，用于对词组矩阵进行分布式表示，确定待分类文本的词组特征。

可选地，特征确定子模块包括：词性确定单元，用于利用分词工具确定文本数据批次所包含的词组的词性；词性向量确定单元，用于根据所确定词性，确定与文本数据批次对应的词性向量，其中词性向量用于指示数据批次中与各个词性对应的词组出现的频率；词性矩阵确定单元，用于将各个文本数据批次的词性向量结合，生成与待分类文本对应的词性矩阵；以及词性特征确定单元，用于对词性矩阵进行分布式表示，确定待分类文本的词性特征。

可选地，特征确定子模块包括：N元语法特征提取单元，用于对文本数据批次进行N元语法特征提取，从而确定各个文本数据批次所包含的N字单词；N元语法向量确定单元，用于根据所确定的N字单词，确定与各个文本数据批次对应的N元语法向量，其中N元语法向量用于指示相应的数据批次中各个N字单词出现的频率；N元语法矩阵确定单元，用于将各个文本数据批次的N元语法向量结合，生成与待分类文本对应的N元语法矩阵；以及N元语法特征确定单元，用于对N元语法矩阵进行分布式表示，确定待分类文本的N元语法特征。

可选地，特征确定子模块包括包括：字符确定单元，用于确定各个文本数据批次所包含的字符；字符向量确定单元，用于根据所确定的字符，确定与各个文本数据批次对应的字符向量，其中字符向量用于指示相应的数据批次中各个字符出现的频率；字符矩阵确定单元，用于将各个文本数据批次的字符向量结合，生成与待分类文本对应的字符矩阵；以及字符特征确定单元，用于对字符矩阵进行分布式表示，确定待分类文本的字符特征。

可选地，分类模块包括：第二文本特征信息生成子模块，用于利用至少一个基于非完全注意力机制的特征提取模型，根据第一文本特征信息生成基于注意力机制的第二文本特征信息；以及分类子模块，用于根据第二文本特征信息，确定待分类文本的类别。

从而根据本实施例，在对文本进行特征提取时，不仅仅是针对文本分词后的词组进行特征提取，还要提取文本中的词性、N元语法以及字符等特征，并将文本的词组特征、词性特征、N元语法特征以及字符特征进行融合得到与该文本对应的第一文本特征信息，然后利用自然语言分类模型基于该第一文本特征信息对文本进行分类。由于在特征提取的过程中综合考虑了词组、词性、N元语法以及字符等多方面的特征，因此即便待分类的文本是长文本，也能够提取丰富的特征信息，从而在基于第一文本特征信息对长文本进行分类时能够大大提高对长文本进行分类的分类质量。从而解决了现有技术中存在的对长文本进行分类的质量难以得到保障，从而导致后续处理过程的质量受到严重影响的技术问题。。

实施例3

图7示出了根据本实施例所述的对文本进行分类的装置700，该装置700与根据实施例1的第一个方面所述的方法相对应。参考图7所示，该装置700包括：处理器710；以及存储器720，与处理器710连接，用于为处理器710提供处理以下处理步骤的指令：对待分类文本进行词嵌入处理，提取待分类文本的词组特征、词性特征、N元语法特征以及字符特征；将词组特征、词性特征、N元语法特征以及字符特征进行结合，确定待分类文本的第一文本特征信息；以及根据第一文本特征信息，确定待分类文本的类别。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种对文本进行分类的方法，其特征在于，包括：

对待分类文本进行词嵌入处理，提取所述待分类文本的词组特征、词性特征、N元语法特征以及字符特征；

将所述词组特征、所述词性特征、所述N元语法特征以及所述字符特征进行结合，确定所述待分类文本的第一文本特征信息；以及

根据所述第一文本特征信息，确定所述待分类文本的类别。

2.根据权利要求1所述的方法，其特征在于，提取待分类文本的词组特征、词性特征、N元语法特征以及字符特征的操作，包括：

将所述待分类文本划分为多个文本数据批次；以及

根据所划分的文本数据批次，确定所述待分类文本的词组特征、词性特征、N元语法特征以及字符特征。

3.根据权利要求2所述的方法，其特征在于，根据所划分的文本数据批次，确定所述待分类文本的词组特征的操作，包括：

利用分词工具对所述文本数据批次分别进行分词处理，从而确定各个文本数据批次所包含的词组；

根据所确定的词组，确定与各个文本数据批次对应的词组向量，其中所述词组向量用于指示相应的数据批次中各个词组出现的频率；

将各个文本数据批次的词组向量结合，生成与所述待分类文本对应的词组矩阵；以及

对所述词组矩阵进行分布式表示，确定所述待分类文本的词组特征。

4.根据权利要求3所述的方法，其特征在于，根据所划分的文本数据批次，确定所述待分类文本的词性特征的操作，包括：

利用所述分词工具确定所述文本数据批次所包含的词组的词性；

根据所确定词性，确定与所述文本数据批次对应的词性向量，其中所述词性向量用于指示所述数据批次中与各个词性对应的词组出现的频率；

将各个文本数据批次的词性向量结合，生成与所述待分类文本对应的词性矩阵；

以及

对所述词性矩阵进行分布式表示，确定所述待分类文本的词性特征。

5.根据权利要求2所述的方法，其特征在于，根据所划分的文本数据批次，确定所述待分类文本的N元语法特征的操作，包括：

对所述文本数据批次进行N元语法特征提取，从而确定各个文本数据批次所包含的N字单词；

根据所确定的N字单词，确定与各个文本数据批次对应的N元语法向量，其中所述N元语法向量用于指示相应的数据批次中各个N字单词出现的频率；

将各个文本数据批次的N元语法向量结合，生成与所述待分类文本对应的N元语法矩阵；以及

对所述N元语法矩阵进行分布式表示，确定所述待分类文本的N元语法特征。

6.根据权利要求2所述的方法，其特征在于，根据所划分的文本数据批次，确定所述待分类文本的字符特征的操作，包括：

确定各个文本数据批次所包含的字符；

根据所确定的字符，确定与各个文本数据批次对应的字符向量，其中所述字符向量用于指示相应的数据批次中各个字符出现的频率；

将各个文本数据批次的字符向量结合，生成与所述待分类文本对应的字符矩阵；以及

对所述字符矩阵进行分布式表示，确定所述待分类文本的字符特征。

7.根据权利要求1所述的方法，其特征在于，根据所述第一文本特征信息，确定所述待分类文本的类别的操作，包括：

利用至少一个基于非完全注意力机制的特征提取模型，根据所述第一文本特征信息生成基于注意力机制的第二文本特征信息；以及

根据所述第二文本特征信息，确定所述待分类文本的类别。

8.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时由处理器执行权利要求1至7中任意一项所述的方法。

9.一种对文本进行分类的装置，其特征在于，包括：

词嵌入处理模块，用于对待分类文本进行词嵌入处理，提取所述待分类文本的词组特征、词性特征、N元语法特征以及字符特征；

第一文本特征信息确定模块，用于将所述词组特征、所述词性特征、所述N元语法特征以及所述字符特征进行结合，确定所述待分类文本的第一文本特征信息；以及

分类模块，用于根据所述第一文本特征信息，确定所述待分类文本的类别。

10.一种对文本进行分类的装置，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：

根据所述第一文本特征信息，确定所述待分类文本的类别。