CN110968697A

CN110968697A - 文本分类方法、装置、设备及可读存储介质

Info

Publication number: CN110968697A
Application number: CN201911328004.1A
Authority: CN
Inventors: 汪鸿翔; 吴飞; 张浩宇; 方四安; 徐承
Original assignee: Hefei Ustc Iflytek Co ltd
Current assignee: Hefei Ustc Iflytek Co ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-04-07
Anticipated expiration: 2039-12-20
Also published as: CN110968697B

Abstract

本申请实施例公开了一种文本分类方法、装置、设备及可读存储介质，对待分类文本进行字、词、句三个层级的编码，得到待分类文本的字级向量表达、词级向量表达和句级向量表达；将由字级向量表达、词级向量表达和句级向量表达构成的纯四元数空间向量表达在四元数空间进行处理，得到待分类文本在四元数空间的特征；至少根据待分类文本在四元数空间的特征确定待分类文本的类别。本申请实施例提供的文本分类方案，将待分类文本表示为一个纯四元数空间向量在四元数空间进行特征提取，所提取的特征保持了待分类文本的字、词、句的相关性和整体性，从而提高短文本的分类准确度。

Description

文本分类方法、装置、设备及可读存储介质

技术领域

本申请涉及自然语言处理技术领域，更具体地说，涉及一种文本分类方法、装置、设备及可读存储介质。

背景技术

文本分类是自然语言处理研究中最为广泛的任务之一，文本分类的目的是将文本分配到预先定义的某个主题类别中。

目前的文本分类方法在对长文本(如，文章)进行分类时，分类准确度较高，但对短文本(通常在100字以内)进行分类时，分类的准确度却较低。

因此，如何提高短文本的分类准确度成为亟待解决的技术问题。

发明内容

有鉴于此，本申请提供了一种文本分类方法、装置、设备及可读存储介质，以提高短文本的分类准确度。

为了实现上述目的，现提出的方案如下：

一种文本分类，包括：

对待分类文本进行字、词、句三个层级的编码，得到所述待分类文本的字级向量表达、词级向量表达和句级向量表达；

将由所述字级向量表达、词级向量表达和句级向量表达构成的纯四元数空间向量表达在四元数空间进行处理，得到所述待分类文本在所述四元数空间的特征；

至少根据所述待分类文本在所述四元数空间的特征确定所述待分类文本的类别。

上述方法，优选的，所述待分类文本为中文文本，所述对待分类文本进行字级编码，包括：

对于所述待分类文本中的每一个字，获取该字的各个偏旁；

根据该字的各个偏旁得到该字的向量表达。

上述方法，优选的，所述将由所述字级向量表达、词级向量表达和句级向量表达构成的纯四元数空间向量表达在四元数空间进行处理包括：

利用四元数卷积核对所述纯四元数空间向量表达进行四元数卷积处理，得到所述待分类文本在所述四元数空间的初始特征；

对所述待分类文本在所述四元数空间的初始特征进行降维，得到所述待分类文本在所述四元数空间的特征。

上述方法，优选的，在至少根据所述待分类文本在所述四元数空间的特征确定所述待分类文本的类别之前，还包括：

获取所述待分类文本在实数空间的特征；

所述至少根据所述待分类文本在所述四元数空间的特征确定所述待分类文本的类别，包括：

对所述待分类文本在所述四元数空间的特征，以及所述待分类文本在实数空间的特征进行处理，得到所述待分类文本的类别。

上述方法，优选的，所述获取所述待分类文本在实数空间的特征，包括：

获取所述待分类文本中的各个词的向量表达；

对所述待分类文本中各个词的位置进行编码，得到所述待分类文本中各个词的位置的向量表达；

对所述待分类文本中各个词的向量表达和位置的向量表达进行处理，得到所述待分类文本在实数空间的特征。

上述方法，优选的，所述对所述待分类文本中各个词的向量表达和位置的向量表达进行处理，得到所述待分类文本在实数空间的特征，包括：

对应所述待分类文本中的每一个词，将该词的向量表达和位置的向量表达相加，得到该词的与位置相关的向量表达；

将所述待分类文本中的各个词的与位置相关的向量表达输入基于动态注意力机制的编码模型，得到所述编码模型输出的所述待分类文本中的各个词在实数空间的特征。

上述方法，优选的，所述将所述待分类文本中的各个词的与位置相关的向量表达输入基于动态注意力机制的编码模型，得到所述编码模型输出的所述待分类文本中的各个词在实数空间的特征，包括：

通过所述编码模型中的注意力层，基于当前时间步长计算每一个词与所述待分类文本中各个词之间的注意力权重；用该词与所述待分类文本中的各个词之间的注意力权重，对各个词的与位置相关的向量表达加权求和，得到该词的包含上下文信息的向量表达；

通过所述编码模型中的第一归一化层对所述待分类文本中的各个词的与位置相关的向量表达，以及各个词的包含上下文信息的向量表达进行第一归一化处理，得到各个词的归一化向量表达；

通过所述编码模型中的前馈神经网络层对每一个词的与位置相关的向量表达，该词的包含上下文信息的向量表达和归一化向量表达进行特征提取，得到该词在实数空间的初始特征；

通过所述编码模型中的第二归一化层对该词的包含上下文信息的向量表达和归一化向量表达，以及该词在实数空间的初始特征进行第二归一化处理，得到所述编码模型输出的该词在实数空间的特征。

上述方法，优选的，所述对所述待分类文本在所述四元数空间的特征，以及所述待分类文本在实数空间的特征进行处理，得到所述待分类文本的类别，包括：

将所述待分类文本在所述四元数空间的特征，以及所述待分类文本中的各个词在实数空间的特征进行拼接，得到所述待分类文本的拼接特征；

利用所述拼接特征确定所述待分类文本的类别。

一种文本分类装置，包括：

编码模块，用于对待分类文本进行字、词、句三个层级的编码，得到所述待分类文本的字级向量表达、词级向量表达和句级向量表达；

处理模块，用于将由所述字级向量表达、词级向量表达和句级向量表达构成的纯四元数空间向量表达在四元数空间进行处理，得到所述待分类文本在所述四元数空间的特征；

分类模块，用于至少根据所述待分类文本在所述四元数空间的特征确定所述待分类文本的类别。

上述装置，优选的，所述编码模块包括：

字级编码模块，用于对于所述待分类文本中的每一个字，获取该字的各个偏旁；根据该字的各个偏旁得到该字的向量表达。

上述装置，优选的，所述处理模块包括：

卷积模块，用于利用四元数卷积核对所述纯四元数空间向量表达进行四元数卷积处理，得到所述待分类文本在所述四元数空间的初始特征；

降维模块，用于对所述待分类文本在所述四元数空间的初始特征进行降维，得到所述待分类文本在所述四元数空间的特征。

上述装置，优选的，所述文本分类装置还包括：

获取模块，用于获取所述待分类文本在实数空间的特征。

所述分类模块具体用于：

上述装置，优选的，所述获取模块包括：

词向量获取模块，用于获取所述待分类文本中的各个词的向量表达；

位置向量获取模块，用于对所述待分类文本中各个词的位置进行编码，得到所述待分类文本中各个词的位置的向量表达；

融合模块，用于对所述待分类文本中各个词的向量表达和位置的向量表达进行处理，得到所述待分类文本在实数空间的特征。

上述装置，优选的，所述融合模块包括：

相加模块，用于对应所述待分类文本中的每一个词，将该词的向量表达和位置的向量表达相加，得到该词的与位置相关的向量表达；

模型调用模块，用于将所述待分类文本中的各个词的与位置相关的向量表达输入基于动态注意力机制的编码模型，得到所述编码模型输出的所述待分类文本中的各个词在实数空间的特征。

上述装置，优选的，所述模型调用模块包括：

注意力模块，用于通过所述编码模型中的注意力层，基于当前时间步长计算每一个词与所述待分类文本中各个词之间的注意力权重；用该词与所述待分类文本中的各个词之间的注意力权重，对各个词的与位置相关的向量表达加权求和，得到该词的包含上下文信息的向量表达；

第一归一化模块，用于通过所述编码模型中的第一归一化层对所述待分类文本中的各个词的与位置相关的向量表达，以及各个词的包含上下文信息的向量表达进行第一归一化处理，得到各个词的归一化向量表达；

前馈模块，用于通过所述编码模型中的前馈神经网络层对每一个词的与位置相关的向量表达，该词的包含上下文信息的向量表达和归一化向量表达进行特征提取，得到该词在实数空间的初始特征；

第二归一化模块，用于通过所述编码模型中的第二归一化层对该词的包含上下文信息的向量表达和归一化向量表达，以及该词在实数空间的初始特征进行第二归一化处理，得到所述编码模型输出的该词在实数空间的特征。

上述装置，优选的，所述分类模块包括：

拼接模块，用于将所述待分类文本在所述四元数空间的特征，以及所述待分类文本中的各个词在实数空间的特征进行拼接，得到所述待分类文本的拼接特征；

确定模块，用于利用所述拼接特征确定所述待分类文本的类别。

一种文本分类设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上任一项所述的文本分类方法的各个步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上任一项所述的文本分类方法的各个步骤。

从上述的技术方案可以看出，本申请实施例提供的文本分类方法、装置、设备及可读存储介质，对待分类文本进行字、词、句三个层级的编码，得到待分类文本的字级向量表达、词级向量表达和句级向量表达；将由字级向量表达、词级向量表达和句级向量表达构成的纯四元数空间向量表达在四元数空间进行处理，得到待分类文本在四元数空间的特征；至少根据待分类文本在四元数空间的特征确定待分类文本的类别。本申请实施例提供的文本分类方案，将待分类文本表示为一个纯四元数空间向量在四元数空间进行特征提取，所提取的特征保持了待分类文本的字、词、句的相关性和整体性，从而提高短文本的分类准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的文本分类方法的一种实现流程图；

图2为本申请实施例公开的对待分类文本进行字级编码的一种实现流程图；

图3a为本申请实施例公开的将由字级向量表达、词级向量表达和句级向量表达构成的纯四元数空间向量表达在四元数空间进行处理的一种实现流程图；

图3b为本申请实施例公开的卷积网络的一种结构示意图；

图4a为本申请实施例公开的多通路混合分类模型的一种架构示意图；

图4b为本申请实施例公开的获取待分类文本在实数空间的特征的一种实现流程图；

图5a为本申请实施例公开的编码模型的一种结构示意图；

图5b为本申请实施例公开的将待分类文本中的各个词的与位置相关的向量表达输入基于动态注意力机制的编码模型，得到编码模型输出的待分类文本中的各个词在实数空间的特征的一种实现流程图；

图6为本申请实施例公开的文本分类模型的一种结构示意图

图7为本申请实施例公开的文本分类装置的一种结构示意图；

图8为本申请实施例公开的文本分类设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

文本分类的关键步骤是文本表示，又称为文本表达或文本特征提取。文本表示就是将纯文本转换成实数向量或矩阵的过程，即将文本进行数字化转换，文本表示的丰富度直接影响着文本分类的效果。

目前的文本表示主要分为两大类：一类是词级别的文本表示，即将词表示成词向量的形式，进而应用于文本分类等任务。该方法一般认为可以获取到词的语义信息，通过将词的语义信息添加到文本分类中来提升文本分类的效果。另一类是文档级别的文本表示，即将每个文本表示成固定长度的实数向量。其中，词级别的文本表示一般应用于基于神经网络的分类，而文档级别的文本表示应用比较广泛，既可以应用于传统的基于统计的机器学习分类器进行文本分类，也可以应用于基于神经网络的分类器进行文本分类。

结合不同的文本表示方法，研究者从不同的角度出发，提出大量文本分类方法，大致总结为三类：基于向量空间的分类，基于主题的分类方法和基于神经网络的分类方法。其中，

基于向量空间的分类方法是将文本表示成实数值分量所构成的向量，一般而言，每个分量对应一个词项，相当于将文本表示成空间中的一个点。向量不仅可以用来训练分类器，而且计算向量之间的相似度可以度量文本之间的相似度。最常用的是TF-IDF计算方式，即向量的维度对应词表的大小，对应维度使用TF-IDF计算。

基于主题的分类方法尝试从概率生成模型的角度实现文本的表示，每一个维度是一个“主题”，这个主题通常是一组词的聚类，因此可以通过主题大概猜测每个维度所代表的语义，具有一定的解释性。最早的主题模型pLSA(probabilistic LSA)，假设文档具有主题分布，文档中的词从主题对应的词分布中抽取。最经典的主题模型LDA(LatentDirichlet allocation)，在pLSA模型的基础上引入了狄利克雷先验分布，效果提升明显。

基于神经网络的方法因其强大的特征提取能力而受到广泛关注，各种各样的模型被相继提出，其中最具有代表性的模型，将其分为三类：基于词向量合成的模型，基于RNN/CNN的模型，基于注意力机制的模型。

本申请的发明人研究发现，现有的文本分类方法通常将词特征作为构成文本特征的基本单元，忽略了文本中重要的字信息、句信息，表达意义歧义性和模糊性较大，导致提取的文本特征较为单一，不足以涵盖文本所有的语义信息，容易出现文本信息表达不完整的问题。而基于深度学习的模型大多将分词工具得到的词作为句子的语义单元进行分析，对于汉语来说使用词作为最小语义单元存在以下问题：首先，中文文本需要分词，由分词工具得到的中文分词结果并非完全正确，不同的分词工具的效果也不同；其次，直接用词作为语义单元进行表示，忽略了词内字间的信息，另外，汉语中单独的一个字歧义性较大，一个字可能是多个不同词的组成部分；第三，单单使用字或词作为语义单元来表示文本，容易忽略词序之间的关系，丢失词序特征，使得不同的句子可能得到的是相同的向量表达。

而且，和文章相比，短文本过于短小(通常在100字以内，一般是一句话的长度)，不能提供足够的词共现关系，很难从中提取有效的文本特征。因而现有的文本分类方法不适用于短文本分类，即现有的分类方法应用于短文本分类时，分类准确率低。

本申请实施例就是为解决上述问题而提出的方案。下面对本申请实施例进行解释说明。

请参阅图1，图1为本申请实施例提供的文本分类方法的一种实现流程图，可以包括：

步骤S11：对待分类文本进行字、词、句三个层级的编码，得到待分类文本的字级向量表达、词级向量表达和句级向量表达。

其中，待分类文本可以为中文文本，也可以为其它语言的文本，例如，可以为英文文本。对于中文来说，字就是指汉字，每个词由至少一个汉字构成，每个句子由多个词构成。对于英文文本来说，字指的是字母，词就是指单词，每个词(即每个单词)由至少一个字母构成，每个句子由多个单词构成。

对待分类文本中的各个字进行编码，得到待分类文本中各个字的向量表达。待分类文本中所有字的向量表达构成待分类文本的字级向量表达。待分类文本的字级向量表达可以由一个m1×n1大小的矩阵表征，其中，m1为待分类文本中字的个数，n1为字向量的维度。

对待分类文本中的各个词进行编码，得到待分类文本中各个词的向量表达。待分类文本中所有词的向量表达构成待分类文本的词级向量表达。待分类文本的词级向量表达可以由一个m2×n2大小的矩阵表征，其中，m2为待分类文本中词的个数，n2为词向量的维度。

对待分类文本中的各个句子进行编码，得到待分类文本中各个句子的向量表达。待分类文本中所有句子的向量表达构成待分类文本的句级向量表达。待分类文本的句级向量表达可以由一个m3×n3大小的矩阵表征，其中，m3为待分类文本中句子的个数，n3为句向量的维度。

在得到待分类文本的字级向量表达、词级向量表达和句级向量表达后，字级向量表达、词级向量表达和句级向量表达的大小可能是不同，可以通过补零的方式将字级向量表达、词级向量表达和句级向量表达的大小进行对齐。

比如，假设待分类文本A由两个句子组成，一个句子由8个字组成，这8个字构成了5个词，另一个句子由5个字组成，这5个字构成了3个词。则：

对待分类文本A中的各个字分别进行编码，得到各个字的向量表达，假设字向量的维度为300，则待分类文本A的13个字的向量表达构成待分类文本A的字级向量表达，该字级向量表达为13×300的矩阵；

对待分类文本A中的各个词分别进行编码，得到各个词的向量表达，假设词向量的维度也为300，则待分类文本A的8个词的向量表达构成待分类文本A的词级向量表达，该词级向量表达为8×300的矩阵；

对待分类文本A中的各个句子分别进行编码，得到各个句子的向量表达，假设句向量的维度也为300，则待分类文本A的2个句子的向量表达构成待分类文本A的句级向量表达，该句级向量表达为2×300的矩阵。

需要说明的是，这里是以字向量、词向量和句向量的维度相同进行举例说明，在实际应用中，以字向量、词向量和句向量的维度也可以不同，即n1、n2和n3可以相等，也可以不相等，本申请不做具体限定。

为了便于后续计算，需要将待分类文本的字向量表达、词向量表达和句向量表达的大小归一化，比如，将待分类文本的字向量表达、词向量表达和句向量表达的大小归一化为100×300大小，具体可以通过补零的方式将字级向量表达由13×300的矩阵归一化为100×300的矩阵，同理，通过补零的方式将词级向量表达由8×300的矩阵归一化为100×300的矩阵，通过补零的方式将句级向量表达由2×300的矩阵归一化为100×300的矩阵。

步骤S12：将由字级向量表达、词级向量表达和句级向量表达构成的纯四元数空间向量表达在四元数空间进行处理，得到待分类文本在四元数空间的特征。

四元数是复数的推广，将复数的一个虚部扩展为三个虚部，四元数的一般形式为：q＝q₀+q₁i+q₂j+q₃k，

其中，q₀为四元数q的实部，q₁、q₂、q₃为四元数q的虚部；i²＝j²＝k²＝ijk＝-1。当实部q₀为0时，四元数q为纯四元数。

本申请实施例中，为便于叙述，将字级向量表达记为T_C、词级向量表达记为T_W，句级向量表达记为T_S，则由字级向量表达T_C、词级向量表达T_W和句级向量表达T_S构成的纯四元数空间向量表达T用公式可以表示为：

T＝0+T_Ci+T_Wj+T_Sk

以前述待分类文本A为例，对应的T为100×300的矩阵，该矩阵中的每个元素均为纯四元数，T中(a,b)位置处的元素T_(a,b)为：

T_(a,b)＝0+T_C(a,b)i+T_W(a,b)j+T_S(a,b)k

其中，T_C(a,b)为T_C中(a,b)位置处的元素，T_W(a,b)为T_W中(a,b)位置处的元素，T_S(a,b)为T_S中(a,b)位置处的元素。

可选的，可以利用四元数空间的几何变换(平移、缩放、旋转)性质，对纯四元数空间向量表达T进行几何变换，得到四元数空间特征T'，将四元数空间特征T'进行维度变换，得到待分类文本在四元数空间的特征。

步骤S13：至少根据待分类文本在四元数空间的特征确定待分类文本的类别。

四元空间的特征中的元素均为四元数，为了便于分类，需要将四元数空间的特征映射为实值特征，利用该实值特征确定待分类文本的类别。可选的，可以根据预置的映射关系将四元数空间的特征映射为实值特征。比如，对于四元数空间的特征中的每一个元素，该元素对应的实值特征为：实部和各个虚部的平方和的算术平方根。即，假设四元数q＝q₀+q₁i+q₂j+q₃k映射到实值空间为r_q，则：

本申请实施例中，可以仅利用待分类文本在四元数空间的特征确定待分类文本的类别。

本申请实施例提供的文本分类方法，将待分类文本表示为一个纯四元数空间向量在四元数空间进行特征提取，所提取的特征保持了待分类文本的字、词、句的相关性和整体性，避免结构信息丢失，从而提高短文本的分类准确度。

本申请的发明人研究发现，很多汉字如果具有同一个偏旁可能表示同一个意思，甚至读音也一样。例如，很多带提手旁“扌”的汉字表示为一个动作，如提、挑、拎等。而现有对字进行编码的方法，均是直接对字进行编码，这样得到的字的向量表达无法体现字间相关信息。基于此，在本申请的一可选的实施例中，在待分类文本为中文文本时，上述对待分类文本进行字级编码的一种实现流程图如图2所示，可以包括：

步骤S21：对于待分类文本中的每一个字，获取该字的各个偏旁。

对于中文来说，每个字都是有一定结构的，比如“提”这个字，由偏旁“扌”和偏旁“是”这两个偏旁构成，比如“惞”这个字，由偏旁“忄”、偏旁“斤”和偏旁“欠”这三个偏旁构成，比如“国”这个字，由偏旁“口”和偏旁“玉”这两个偏旁构成，等等。

本申请实施例中，对于待分类文本中的第i(i＝1，2，3，…)个字，获取该第i个字的各个偏旁。

步骤S22：根据该字的各个偏旁得到该字的向量表达。

在得到第i个字的各个偏旁后，对该第i个字的各个偏旁进行编码，得到该第i个字的向量表达。

本实施例中，在对待分类文本进行字级编码时，基于字的偏旁对字进行编码，这样得到各个字的向量表达能够体现字间相关信息。进一步提高文本分类的精度。

当然，还有一些汉字是单字，比如日，子，月，牛，羊，上，下等，对于这些单字，可以直接对该单字进行编码得到单字的向量表达即可。

可选的，可以利用预先训练好的字向量表达模型对待分类文本中的各个字进行编码，得到待分类文本的字级向量表达。

可选的，可以利用预先训练好的词向量表达模型对待分类文本中的各个词进行编码，得到待分类文本的词级向量表达。

可选的，可以利用预先训练好的句向量表达模型对待分类文本中的各个句子进行编码，得到待分类文本的句级向量表达。

其中，字向量表达模型可以是Char2Vec模型，词向量表达模型可以是Word2Vec模型，句向量表达模型可以是Sent2Vec模型。该三个模型都可以利用已有模型训练方法训练得到。

其中，字向量表达模型可以利用Word2Vec模型的网络结构来进行训练，现有技术中，在利用Word2Vec模型的网络结构训练Char2Vec模型时，输入Char2Vec模型的是字。而本申请实施例中，利用Word2Vec模型的网络结构来训练字的向量表达时，输入Char2Vec模型的是字的偏旁。

在一可选的实施例中，上述将由字级向量表达、词级向量表达和句级向量表达构成的纯四元数空间向量表达在四元数空间进行处理的一种实现流程图如图3a所示，可以包括：

步骤S31：利用四元数卷积核对纯四元数空间向量表达进行四元数卷积处理，得到所述待分类文本在所述四元数空间的初始特征。

本申请实施例中，四元数卷积核中的各个元素也是四元数，每个元素都是旋转数的线性表示。即，四元数卷积核K中，位置(c,d)处的元素K_(c,d)为：

其中，w为权重，是一个实数；

为旋转数，θ为旋转角度，v为旋转轴，任何一个四元数q乘以旋转数

得到的新的四元数q'是由q绕旋转轴v旋转θ角度后得到的四元数；z为偏置，是一个纯四元数。

可选的，

利用四元数卷积核对纯四元数空间向量表达进行四元数卷积处理的过程与利用实数卷积核对实数空间的向量表达进行卷积处理的思想相同，不同之处在于实数卷积过程中特征和卷积核中的元素都是实数，因而卷积运算中元素间的运算利用的实数的性质，而四元数卷积过程特征和卷积核中的元素都是四元数，因而卷积运算中元素间的元素利用的是四元数的性质。

步骤S32：对待分类文本在所述四元数空间的初始特征进行降维，得到待分类文本在所述四元数空间的特征。

可选的，上述步骤S31-步骤S32的提取待分类文本在所述四元数空间的特征过程可以通过一个卷积网络实现。在一可选的实施例中，上述卷积网络的一种结构示意图如图3b所示，可以包括：

输入层，用于接收由字级向量表达、词级向量表达和句级向量表达构成的纯四元数空间向量表达T。

卷积层，用于利用四元数卷积核对纯四元数空间向量表达进行四元数卷积处理，得到所述待分类文本在所述四元数空间的初始特征。可选的，本申请实施例中，对应字、词、句三个通道分别设计了一个卷积核，即卷积层中具有三个卷积核，其中，对应字通道的卷积核小于对应词通道的卷积核，对应词通道的卷积核小于对应句通道的卷积核。假设纯四元数空间向量表达T的大小为m×n，则在一可选的实施例中，对应字通道的卷积核大小可以为J_C×n，对应词通道的卷积核大小可以为J_W×n，对应句通道的卷积核大小可以为J_S×n，其中，J_C＜J_W＜J_S。这样，对应字通道的卷积核，得到的卷积结果是(m-J_C+1)×1的向量，对应词通道的卷积核，得到的卷积结果是(m-J_W+1)×1的向量，对应句通道的卷积核，得到的卷积结果是(m-J_C+1)×1的向量。

池化层，用于对卷积层输出的三个通道的向量分别进行降维，得到三个1×1大小的向量，即三通道的1×1大小的向量。该三通道的1×1大小的向量即为待分类文本在四元数空间的特征。可选的，可以利用最大池化方法对卷积层输出的三个通道的向量分别进行降维，即对于卷积层输出的三个通道的向量中的每个通道的向量，取该通道的向量中的最大四元数作为该通道的降维后的向量。

全连接层，用于将池化层输出的三个1×1大小的向量拉伸成一个实值特征向量。为了便于进行文本分类，通过全连接层将池化层输出的三个1×1大小的向量映射为三通道的实值特征，然后将三通道的实值特征拉伸成一个3×1大小的向量，得到实值特征向量(为例便于与后续的实数空间提取的特征区分，这里的实值特征向量仍可以称为四元数空间的特征)，该实值特征向量用于进行特征分类。具体映射为实值特征的过程可以参看前述实施例，这里不再赘述。

本申请实施例中，可以仅利用待分类文本在四元数空间的特征进行文本分类，基于此，上述卷积网络还可以包括：

输出层(图中未示出)，该输出层用于利用全连接层输出的实值特征向量确定待分类文本的类型。

需要说明的是，上述得到待分类文本在四元数空间的特征的过程是针对一个待分类文本进行描述，在实际应用中，可以同时输入多个待分类文本，按照上述得到待分类文本在四元数空间的特征的过程对各个待分类文本分别进行处理，得到各个待分类文本在四元数空间的特征，即可以并行处理多个待分类文本。

在一可选的实施例中，还可以结合待分类文本在四元数空间的特征和待分类文本在实数空间的特征确定待分类文本的类别。如图4a所示，为本申请实施例提供的多通路混合分类模型的一种架构示意图。该示例中，除了对待分类文本在四元数空间进行特征提取外，还对待分类文本在实数空间进行特征提取，基于待分类文本在四元数空间提取的特征和在实数空间提取的特征确定待分类文本的类别。基于此，在至少根据待分类文本在四元数空间的特征确定待分类文本的类别之前，还可以包括：

获取待分类文本在实数空间的特征，即在实数间空间提取待分类文本的特征。

相应的，至少根据待分类文本在所述四元数空间的特征确定所述待分类文本的类别的一种实现方式可以为：

对待分类文本在所述四元数空间的特征，以及待分类文本在实数空间的特征进行处理，得到待分类文本的类别。

可选的，可以将待分类文本在所述四元数空间的特征，以及待分类文本在实数空间的特征进行融合处理，得到融合特征，利用该融合特征确定待分类文本的类别。

可选的，待分类文本在四元数空间的特征，以及待分类文本在实数空间的特征的维度相同，比如均为一维特征(即向量形式的特征)，这样做可以使得特征融合过程不必对各通路的特征(即四元数空间的特征和实数空间的特征这两个通路的特征)进行同一维度上尺度的统一，可以避免数据信息的损失。

在待分类文本在四元数空间的特征，以及待分类文本在实数空间的特征均为向量特征的情况下，可以直接将待分类文本在四元数空间的特征(这里是指由四元数空间的特征映射得到实值特征)，以及待分类文本在实数空间的特征进行拼接，得到拼接向量，利用该拼接向量对待分类文本进行分类，具体可以将该拼接向量映射到目标维度，得到融合特征，利用该融合特征确定待分类文本的类别。

如果待分类文本在四元数空间的特征，以及待分类文本在实数空间的特征不是向量特征(比如，矩阵形式的特征)的情况下，可以先将待分类文本在四元数空间的特征，以及待分类文本在实数空间的特征转换为向量特征，然后将转换得到的向量特征进行拼接，得到拼接向量，将拼接向量映射到目标维度，得到融合特征。

通过多通路特征融合的方式可以更加全面细致地提取待分类文本的深层语义特征，因此，能够进一步提高文本分类精度。

在一可选的实施例中，上述获取待分类文本在实数空间的特征的一种实现流程图如图4b所示，可以包括：

步骤S41：获取待分类文本中的各个词的向量表达。

可以利用学习好的词嵌入将待分类文本中的各个词转换为一定维度的向量，即各个词的向量表达的维度相同。或者，可以获取由前述的词向量表达模型输出的待分类文本中的各个词的向量表达。

步骤S42：对待分类文本中各个词的位置进行编码，得到待分类文本中各个词的位置的向量表达。

可选的，可以对待分类文本中各个词进行编号(比如，第一个词的编号是0，第二个词的编号是1，第三个词的编号是2，第四个词的编号是3，……，依次类推，直到待分类文本中的各个词都赋予了编号)，待分类分别中词的位置是指词在待分类文本中的编号的编码。本申请实施例中，词的位置的向量表达和词的向量表达的维度(即向量中元素的个数)可以相同，也可以不同。

需要说明的是，步骤S41和步骤S42的执行顺序不做具体限定，可以先执行步骤S41，再执行步骤S42，或者，先执行步骤S42，再执行步骤S41，或者步骤S41和步骤S42同步执行。

步骤S43：对待分类文本中各个词的向量表达和位置的向量表达进行处理，得到待分类文本在实数空间的特征。

可选的，对于待分类文本中的每一个词，可以将该词的向量表达和该词的位置的向量表达相加，得到该词的与位置相关的向量表达。在一优选的实施例中，词的向量表达和该词的位置的向量表达的维度相同，这样在相加的时候，不必对两个向量表达进行对齐处理，减少信息损失。当然，如果，词的向量表达和该词的位置的向量表达的维度不同，需要先将词的向量表达和该词的位置的向量表达进行维度对齐，比如通过一定的映射关系将二者映射到同一个维度，或者，将维度较小的向量表达通过补零的方式与维度较大的向量表达进行维度对齐。

将待分类文本中的各个词的与位置相关的向量表达输入基于动态注意力机制的编码模型，得到编码模型输出的待分类文本中的各个词在实数空间的特征。

具体如何实现基于动态注意力的编码可以参看现有的基于动态注意力的编码，这里不再详述。

通过加入位置的向量表达，可以进一步提高文本分类精度。

在一可选的实施例中，请参看图5a，为本申请实施例提供的编码模型的一种结构示意图，该编码模型包括：注意力层，与注意力层连接的第一归一化层，与第一归一化层连接的前馈神经网络层，与前馈神经网络层连接的第二归一化层。各个层均引入残差连接。

基于图5a所示编码模型，上述将待分类文本中的各个词的与位置相关的向量表达输入基于动态注意力机制的编码模型，得到编码模型输出的待分类文本中的各个词在实数空间的特征的一种实现流程图如图5b所示，可以包括：

步骤S51：通过编码模型中的注意力层，利用待分类文本中的各个词的与位置相关的向量表达，基于当前时间步长计算每一个词与待分类文本中各个词之间的注意力权重；用该词与待分类文本中的各个词之间的注意力权重，对各个词的与位置相关的向量表达加权求和，得到该词的包含上下文信息的向量表达。

由于注意力权重是基于当前时间步长计算得到的，因此，注意力是动态变化的。注意力层计算注意力权重的方法可以参看已有技术，这里不再详述。

步骤S52：通过编码模型中的第一归一化层对待分类文本中的各个词的与位置相关的向量表达，以及各个词的包含上下文信息的向量表达进行第一归一化处理，得到各个词的归一化向量表达。

可选的，第一归一化层可以将待分类文本中的各个词的与位置相关的向量表达拼接为第一拼接向量，将待分类文本中的各个词的包含上下文信息的向量表达拼接为第二拼接向量，将第一拼接向量和第二拼接向量相加，得到待分类文本的第一融合向量表达，对该第一融合向量表达中的各个元素进行归一化处理，得到第一归一化融合向量表达。可选的，基于上述获得第一归一化融合向量表达的过程，并没有改变各个词的向量表达之间的相对位置关系，也没有改变各个词的向量表达的维度(向量表达的维度是指向量表达中元素的个数)，因而，可以按照待分类文本中的各个词的与位置相关的向量表达拼接为第一拼接向量时，各个词的与位置相关的向量表达在第一拼接向量中的位置和各个词的与位置相关的向量表达的维度，从第一归一化融合向量表达中分割出各个词的归一化向量表达。也就是说，第一归一化融合向量表达就是待分类文本中的各个词的归一化向量表达拼接成的向量。

步骤S53：通过编码模型中的前馈神经网络层对每一个词的与位置相关的向量表达，该词的包含上下文信息的向量表达和归一化向量表达进行特征提取，得到该词在实数空间的初始特征。

前馈神经网络可以将同一个词的与位置相关的向量表达，包含上下文信息的向量表达和归一化向量表达拼接，得到每个一词的第三拼接向量，利用如下特征提取模型对每一个词的第三拼接向量进行特征提取，得到各个词在实数空间的初始特征：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂

其中，x表示第三拼接向量，FFN(x)表示对x进行特征提取；W₁、W₂、b₁、b₂为通过网络训练学习到的网络参数。

步骤S54：通过编码模型中的第二归一化层对每一个词的与位置相关的向量表达，该词的包含上下文信息的向量表达和归一化向量表达，以及该词在实数空间的初始特征进行第二归一化处理，得到编码模型输出的该词在实数空间的特征。

可选的，第二归一化层可以将待分类文本中的各个词的与位置相关的向量表达拼接为第一拼接向量，将各个词的包含上下文信息的向量表达拼接为第二拼接向量，将各个词的归一化向量表达拼接为第四拼接向量，将各个词的在实数空间的初始特征拼接为第五拼接向量，将第一拼接向量、第二拼接向量、第四拼接向量和第五拼接向量相加，得到待分类文本的第二融合向量表达，对该第二融合向量表达中的各个元素进行归一化处理，得到第二归一化融合向量表达。可选的，基于上述获得第二归一化融合向量表达的过程，并没有改变各个词的向量表达之间的相对位置关系，也没有改变各个词的向量表达的维度，因而，可以按照待分类文本中的各个词的与位置相关的向量表达拼接为第一拼接向量时，各个词的与位置相关的向量表达在第一拼接向量中的位置和各个词的与位置相关的向量表达的维度，从第二归一化融合向量表达中分割出各个词的在实数空间的特征。也就是说，第二归一化融合向量表达就是待分类文本中的各个词的在实数空间的特征拼接成的向量。

本申请实施例中，针对短文本短小、信息分散特性引起的数据稀疏性问题，编码模型中使用动态注意力编码加前馈申请网络的结构，并引入了稠密卷积网络(DenseConvolutional Network，DenseNet)的思想，即编码模型中每一层均与之前的所有层相关，降低了训练过程中梯度消失情况出现的概率，加强了特征的传递，使得编码模型输出的该词在实数空间的特征可以获取和保留更多的特性信息，而且，编码模块的参数数量也较少。

在一可选的实施例中，编码模型中的第一归一化层和第二归一化层的网络结构，均可以使用Transformer网络中的归一化层(Add&Normalize层)的网络结构，编码模型中的前馈申请网络层的结构也可以使用Transformer网络中的前馈神经网络层(Feed Forward)的网络结构。

本申请实施例提供的文本分类方法可以通过预先训练好的文本分类模型实现。如图6所示，为本申请实施例提供的文本分类模型的一种结构示意图，可以包括：

卷积神经网络层，用于在四元数空间对待分类文本进行特征提取，该卷积神经网络层的结构可以是如图3b所示的结构。卷积神经网络层的输入为由待分类文本的字、词、句三个层级的向量表达构成的纯四元数，输出为待分类文本在四元数空间的特征。

编码网络层，用于在实数空间对待分类文本进行特征提取，该编码网络层的结构可以是如图5a所述的结构。编码网络层的输入为待分类文本在实数空间的向量表达，输出为待分类文本在实数空间的特征。

融合层，用于对卷积神经网络层和编码网络层输出的特征进行融合，得到融合特征。

全连接层，用于对融合特征进行维度变换，得到目标维度的特征。

输出层，用于利用目标维度的特征预测待分类文本的类别。输出层可以使用SoftMax分类器预测待分类文本的类别。

该文本分类模型可以通过如下方式训练得到：

获取由样本文本的字、词、句三个层级的向量表达构成的纯四元数，以及样本文本在实数空间的向量表达；

将由样本文本的字、词、句三个层级的向量表达构成的纯四元数输入文本分类模型的卷积神经网络层，将样本文本在实数空间的向量表达输入文本分类模型的输入编码网络层，得到文本分类模型输出的样本文本所属的类别。

以文本分类模型输出的样本文本所属的类别趋近于样本文本的类别标签为目标，对文本分类模型的参数进行更新。

本申请实施例提供的文本分类方法可以用于短文本的分类，例如，可以用于互联网新闻标题的文本分类，可以分为社会、时政、教育、财经、游戏、时尚、体育、股票、娱乐、家居、房产、科技等12个类别。当然，除了互联网新闻标题，还可以用于其它短文本的分类，例如，可以用于对商品评论的分类，可以分为：非常满意，满意，一般，不满意，非常不满意5个类别。

本申请实施例提供的文本分类方法还可以用于长文本的分类，比如，可以用于文章类文本的分类等。

与方法实施例相对应，本申请实施例还提供一种文本分类装置，本申请实施例提供的文本分类装置的一种结构示意图如图7所示，可以包括：

编码模块71，处理模块72和分类模块73；其中，

编码模块71用于对待分类文本进行字、词、句三个层级的编码，得到所述待分类文本的字级向量表达、词级向量表达和句级向量表达；

处理模块72用于将由所述字级向量表达、词级向量表达和句级向量表达构成的纯四元数空间向量表达在四元数空间进行处理，得到所述待分类文本在所述四元数空间的特征；

分类模块73用于至少根据所述待分类文本在所述四元数空间的特征确定所述待分类文本的类别。

本申请实施例提供的文本分类装置，将待分类文本表示为一个纯四元数空间向量在四元数空间进行特征提取，所提取的特征保持了待分类文本的字、词、句的相关性和整体性，避免结构信息丢失，从而提高短文本的分类准确度。

在一可选的实施例中，所述编码模块71可以包括：

在一可选的实施例中，所述处理模块72可以包括：

在一可选的实施例中，所述文本分类装置还可以包括：

获取模块，用于获取所述待分类文本在实数空间的特征。

所述分类模块73具体用于：

在一可选的实施例中，所述获取模块可以包括：

在一可选的实施例中，所述融合模块包括：

在一可选的实施例中，所述模型调用模块包括：

在一可选的实施例中，所述分类模块73包括：

本申请实施例提供的文本分类装置可应用于文本分类设备，如PC终端、云平台、服务器及服务器集群等。可选的，图8示出了文本分类设备的硬件结构框图，参照图8，文本分类设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本分类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述待分类文本为中文文本，所述对待分类文本进行字级编码，包括：

对于所述待分类文本中的每一个字，获取该字的各个偏旁；

根据该字的各个偏旁得到该字的向量表达。

3.根据权利要求1所述的方法，其特征在于，所述将由所述字级向量表达、词级向量表达和句级向量表达构成的纯四元数空间向量表达在四元数空间进行处理包括：

4.根据权利要求1-3任意一项所述的方法，其特征在于，在至少根据所述待分类文本在所述四元数空间的特征确定所述待分类文本的类别之前，还包括：

获取所述待分类文本在实数空间的特征；

5.根据权利要求4所述的方法，其特征在于，所述获取所述待分类文本在实数空间的特征，包括：

获取所述待分类文本中的各个词的向量表达；

6.根据权利要求5所述的方法，其特征在于，所述对所述待分类文本中各个词的向量表达和位置的向量表达进行处理，得到所述待分类文本在实数空间的特征，包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述待分类文本中的各个词的与位置相关的向量表达输入基于动态注意力机制的编码模型，得到所述编码模型输出的所述待分类文本中的各个词在实数空间的特征，包括：

8.根据权利要求4所述的方法，其特征在于，所述对所述待分类文本在所述四元数空间的特征，以及所述待分类文本在实数空间的特征进行处理，得到所述待分类文本的类别，包括：

利用所述拼接特征确定所述待分类文本的类别。

9.一种文本分类装置，其特征在于，包括：

10.一种文本分类设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1-8中任一项所述的文本分类方法的各个步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-8中任一项所述的文本分类方法的各个步骤。