CN109359198A

CN109359198A - 一种文本分类方法及装置

Info

Publication number: CN109359198A
Application number: CN201811475661.4A
Authority: CN
Inventors: 王栋; 曾国卿; 许志强; 孙昌勋
Original assignee: Beijing Ronglian Ets Information Technology Co Ltd
Current assignee: Beijing Ronglian Ets Information Technology Co Ltd
Priority date: 2018-12-04
Filing date: 2018-12-04
Publication date: 2019-02-19

Abstract

本申请实施例提供了一种文本分类方法及装置，其中，该方法包括：确定目标文本的文本向量；提取所述文本向量的上下文特征，得到上下文特征向量；提取所述文本向量的局部特征，得到局部特征向量，对所述局部特征向量进行下采样，得到下采样后的局部特征向量；拼接所述上下文特征向量和所述下采样后的局部特征向量，得到目标特征向量；将所述目标特征向量映射成一维向量，其中，所述一维向量的维度与预设类别一一对应；根据所述一维向量中的最大值的维度，确定所述目标文本的文本类别。本申请实施例提高了提取特征的完整性，进一步提高文本分类的准确性。

Description

一种文本分类方法及装置

技术领域

本申请涉及文本分类技术领域，具体而言，涉及一种文本分类方法及装置。

背景技术

文本分类在实际生活中应用广泛，可用于于鉴别邮箱收的邮件是否为垃圾邮件，辨别文本的情感倾向，获取投资情报等诸多问题。随着文本数据量的急剧增长，传统的文本分类方法已经无法满足需求。深度学习算法应运而生，在应对大规模文本分类问题上取得了良好的成效。

现有技术中，CNN(Convolutional Neural Network，卷积神经网络)和RNN(Recurrent Neural Network，循环神经网络)是常用的深度学习网络。通过CNN或者RNN进行文本分类的技术已经非常成熟，文本分类的准确性也已经达到瓶颈。

发明内容

有鉴于此，本申请的目的在于提供一种文本分类方法和装置，以提高文本分类的准确性。

第一方面，本申请实施例提供了一种文本分类方法，包括：确定目标文本的文本向量；

提取所述文本向量的上下文特征，得到上下文特征向量；

提取所述文本向量的局部特征，得到局部特征向量，对所述局部特征向量进行下采样，得到下采样后的局部特征向量；

拼接所述上下文特征向量和所述下采样后的局部特征向量，得到目标特征向量；

将所述目标特征向量映射成一维向量，其中，所述一维向量的维度与预设类别一一对应；

根据所述一维向量中的最大值的维度，确定所述目标文本的文本类别。

结合第一方面，本申请实施例提供了第一方面的第一种可能的实施方式，其中，所述确定目标文本的文本向量，包括：

根据预设的字与词向量的映射关系，获取所述目标文本的每一个字对应的词向量；

按所述目标文本的字序拼接所述词向量，得到所述目标文本的文本向量。

结合第一方面，本申请实施例提供了第一方面的第二种可能的实施方式，其中，包括：

获取一个双向循环神经网络；

通过所述双向循环神经网络提取所述文本向量的上下文特征。

结合第一方面，本申请实施例提供了第一方面的第三种可能的实施方式，其中，所述根据所述一维向量中的最大值的维度，确定所述目标文本的文本类别，包括：

将所述一维向量通过输出层进行归一化，获得归一化后的一维向量；

根据所述归一化后的一维向量中的最大值，确定所述目标文本的文本类别。

结合第一方面的第一种可能的实施方式，本申请实施例提供了第一方面的第四种可能的实施方式，其中，提取所述文本向量的局部特征，得到局部特征向量，对所述局部特征向量进行下采样，得到下采样后的局部特征向量，包括：将所述文本向量输入到四个一维卷积层C1、C2、C3以及C4，其中，C1的卷积核的尺寸为m1*n；C2的卷积核的尺寸为m2*n；C3的卷积核的尺寸为m3*n；C4的卷积核的尺寸为m4*n,其中n为所述词向量的维度,m1、m2、m3以及m4为卷积核的长度；

将四个卷积层C1、C2、C3以及C4输出的四个局部特征向量通过池化层进行下采样，得到四个下采样后的局部特征向量。

结合第一方面的第二种可能的实施方式，本申请实施例提供了第一方面的第五种可能的实施方式，其中，所述通过池化层进行下采样，包括：所述池化层采用最大值池化的方法对所述局部特征向量进行下采样。

第二方面，本申请实施例提供了一种文本分类装置，所述装置包括：

文本表示模块：用于确定目标文本的文本向量；

特征提取模块：用于提取所述文本向量的上下文特征，得到上下文特征向量，提取所述文本向量的局部特征，得到局部特征向量，对所述局部特征向量进行下采样，得到下采样后的局部特征向量，拼接所述上下文特征向量和所述下采样后的局部特征向量，得到目标特征向量；

文本分类模块，用于将所述目标特征向量映射成一维向量，其中，所述一维向量的维度与预设类别一一对应，根据所述一维向量中的最大值，确定所述目标文本的文本类别。

结合第二方面，本申请实施例提供了第二方面的第一种可能的实施方式，其中，所述文本表示模块按照以下方式确定目标文本的文本向量：

结合第二方面，本申请实施例提供了第二方面的第二种可能的实施方式，其中，所述特征提取模块包括上下文特征提取单元，用于获取一个双向循环神经网络；通过所述双向循环神经网络提取所述文本向量的上下文特征。

结合第二方面，本申请实施例提供了第二方面的第三种可能的实施方式，其中，所述文本分类模块还用于：

本申请实施例提供的一种文本分类的方法及装置，采用分别提取文本的局部特征和上下文特征，并将两种特征组合起来进行文本分类，与现有技术中的单独采用CNN或者RNN进行文本分类，只能针对性的提取一种特征相比，其提高了提取特征的完整性，进一步提高文本分类的准确性。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种文本分类方法的流程图；

图2示出了本申请实施例所提供的另一种文本分类方法的流程图；

图3示出了本申请实施例所提供的一种上下文特征向量和下采样后的局部特征向量的拼接示意图；

图4示出了本申请实施例所提供的一种文本分类装置的结构示意图。

图示：上下文特征向量1；下采样后的局部特征向量2。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

考虑到现有技术中，利用CNN或者RNN进行文本分类的方法已经非常成熟，分类的准确性已经达到了瓶颈，基于此，本申请实施例提供了一种文本分类的方法和装置，下面通过实施例进行描述。

文本分类是自然语言处理中常见的任务，在给定文本之后，推断出文本的标签(类别)或者标签集合(类别集合)。文本分类的应用十分广泛，比如，邮箱系统判断邮件是否为垃圾邮件；在推送新闻之前，把新闻分为财经、娱乐、体育等多个类别；在网页上输入一句话，引擎会将这句话对应到特定的关键字。对于海量数据的文本分类，常用CNN或者RNN等深度学习网络，两者各有优势，CNN的运算过程相对简单，易于捕捉局部特征，RNN相比CNN更易于捕捉上下文特征。本实施例结合CNN和RNN对文本进行分类，将进一步提高文本分类的准确性

本申请实施例提出了一种文本分类方法，如图1所示，包括以下步骤S101-S106：

步骤S101，确定目标文本的文本向量。

其中，目标文本是指用户输入的句子或者短语。由于深度学习网络不能对用户输入的自然语言进行分类处理，用户输入句子或者短语要转化成深度学习网络可处理的形式。这种深度学习网络可处理的形式称为文本表示。一般将字表达成稠密、连续的向量形式。文本向量就是指目标文本的向量形式的文本表示。

在进行文本分类之前，要预训练词向量，一般使用word2vec或者GloVe训练好的词向量，训练好的词向量与字存在映射关系。可选地，上述步骤S101包括步骤S1011-S1012，如图2所示，具体如下：

步骤S1011，根据预设的字与词向量的映射关系，获取目标文本的每一个字对应的词向量。

步骤S1012，按目标文本的字序拼接词向量，得到目标文本的文本向量。

其中，词向量是一种向量形式的文本表示，具体采用n维实数向量表示字。n为大于等于1的整数，在实际的应用中，由于数据量比较大，n往往是一个较大的整数。字与词向量存在映射关系，在这个映射关系中，每个字对应为唯一的词向量。

首先将每一个字表示成词向量，具体而言，根据映射关系表，加载出每一个字对应的词向量。其次，将字的词向量组成文本向量，具体而言，按照字的顺序，将每个字的词向量按照维度的对应关系拼接起来。此时，文本向量可以看成一个二维向量。在实际应用中，用户输入的句子或者短语往往是成批量的，如果一个句子是一个二维矩阵，那么多个句子就可以看成是三维张量。

为了方便理解，这里给出一个实际的例子，word2vec或者GloVe训练好的词向量维度有50、100、200、300维，这里设定词向量的维度是300维，用户输入长度为s的句子(句子的字数为s)，按上述方法，每个字对应一个300维的词向量，按照字的顺序拼接后，得到一个维度为s*300的文本向量。

步骤S102，提取文本向量的上下文特征，得到上下文特征向量。

其中，上下文特征指字与字之间的相互关系，上下文特征向量指包含文本向量上下文特征的向量。

可选地，通过循环神经网络可提取文本向量的上下特征，得到上下文特征向量。提取文本向量的上下文特征，包括以下步骤：

(1)获取一个双向循环神经网络。

(2)通过双向循环神经网络提取文本向量的上下文特征。

具体而言，初始化双向循环神经网络，把文本向量输入到双向循环神经网络中，双向循环神经网络输出上下文特征向量。

步骤S103，提取文本向量的局部特征，得到局部特征向量，对局部特征向量进行下采样，得到下采样后的局部特征向量。

其中，局部特征指每个字携带的信息，局部特征向量指包含文本向量局部特征的向量。

可选地，通过卷积神经网络的卷积层提取文本向量的局部特征，通过卷积神经网络的池化层对卷积层输出的局部特征向量进行下采样。上述步骤S103，包括如下步骤：

(1)将文本向量输入到四个一维卷积层C1、C2、C3以及C4，其中，C1的卷积核的尺寸为m1*n；C2的卷积核的尺寸为m2*n；C3的卷积核的尺寸为m3*n；C4的卷积核的尺寸为m4*n,其中n为词向量的维度,m1、m2、m3以及m4为卷积核的长度。,m1、m2、m3以及m4均为大于1的整数，且数值不同。

(2)将四个卷积层C1、C2、C3以及C4输出的四个局部特征向量通过池化层进行下采样，得到四个下采样后的局部特征向量。

具体而言，获取四个一维卷积层C1、C2、C3以及C4，C1上设置L个卷积核，每个卷积核的尺寸都为m1*n，通道为1。C2上同样设置L个卷积核，每个卷积核的尺寸都为m2*n，通道为1。C3上同样设置L个卷积核，每个卷积核的尺寸都为m3*n，通道为1。C4上同样设置L个卷积核，每个卷积核的尺寸都为m4*n，通道为1，其中n为词向量的维度,m1、m2、m3以及m4为卷积核的长度。m1、m2、m3以及m4均为大于1的整数，且数值不同。将文本向量输入到上述的四个一维卷积层C1、C2、C3以及C4中后，C1输出局部特征向量h1，C2输出局部特征向量h2，C3输出局部特征向量h3，C4输出局部特征向量h4。采用不同尺寸的卷积核进行卷积运算，得到的局部特征向量h1、h2、h3以及h4的feature map(图像特征)不同，可以提取到文本向量的更多的局部特征，提高文本分类的准确性。

将得到的四个局部特征向量h1、h2、h3以及h4到输入池化层进行下采样，分别得到下采样后的局部特征向量m1、m2、m3以及m4。对局部特征向量进行下采样处理，可合并提取到局部特征，得到整个文本的局部特征表示。

可选地，可以设置池化层的池化方式以获得不同的下采样效果，池化方式可以为最大值池化，也可以为平均值池化。通过池化层进行下采样，还包括以下方法：池化层采用最大值池化的方法对局部特征向量进行下采样。

具体而言，使用最大值池化时，池化层提取数值最大，数值最大代表最重要或者最具代表性。

步骤S104，拼接上下文特征向量和下采样后的局部特征向量，得到目标特征向量。

其中，目标特征向量指包含了目标文本上下文特征和局部特征的向量。、上下文特征向量和下采样后的局部特征向量拼接的结果就是目标特征向量，这里把上下文特征向量表示为x，下采样后的局部特征向量表示为y，目标特征向量表示为h，h＝[x；y]，示意图如图3所示。此时，目标特征向量包含了目标文本的上下文特征和局部特征，提高了所提取特征的完整性，进而提高文本分类的准确性。

步骤S105，将目标特征向量映射成一维向量，其中，一维向量的维度与预设类别一一对应；

具体而言，通过全连接层将目标特征向量映射成一维向量，一维向量的维数与类别的数目一致，其中，类别是预先设置的。

步骤S106，根据一维向量中的最大值的维度，确定目标文本的文本类别。

一维向量的最大值的维度对应的类别的概率值最大。可选地，步骤S106包括：

(1)将一维向量通过输出层进行归一化，获得归一化后的一维向量。

(2)根据归一化后的一维向量中的最大值，确定目标文本的文本类别。

具体而言，将一维向量输入到输出层，输出层可以是softmax层，利用softmax函数对一维向量进行归一化，使一维向量的各元素之和为1，此时，各个元素表示的是所在维度对应的类别的概率值。概率值最大的类别就是目标文本的类别。

本申请实施例还提出了一种文本分类装置，如图4所示，包括：

文本表示模块201：用于确定目标文本的文本向量。

特征提取模块202：用于提取文本向量的上下文特征，得到上下文特征向量，提取文本向量的局部特征，得到局部特征向量，对局部特征向量进行下采样，得到下采样后的局部特征向量，拼接上下文特征向量和下采样后的局部特征向量，得到目标特征向量。

文本分类模块203，用于将目标特征向量映射成一维向量，其中，一维向量的维度与预设类别一一对应，根据一维向量中的最大值，确定目标文本的文本类别。

其中，目标文本是指用户输入的句子或者短语。由于深度学习网络不能对用户输入的自然语言进行分类处理，用户输入句子或者短语要转化成深度学习网络可处理的形式。这种深度学习网络可处理的形式称为文本表示。文本向量就是指目标文本的向量形式的文本表示。

一般将字表达成稠密、连续的向量形式。可选地，文本表示模块按照以下方式确定目标文本的文本向量：根据预设的字与词向量的映射关系，获取目标文本的每一个字对应的词向量。按目标文本的字序拼接词向量，得到目标文本的文本向量。

可选地，特征提取模块包括：上下文特征提取单元，用于获取一个双向循环神经网络，通过双向循环神经网络提取文本向量的上下文特征。

可选地，上下文特征提取单元具体用于：采用最大值池化的方法对局部特征向量进行下采样。

可选地，还特征提取模块包括：局部特征提取单元，用于将文本向量输入到四个一维卷积层C1、C2、C3以及C4，其中，C1的卷积核的尺寸为m1*n；C2的卷积核的尺寸为m2*n；C3的卷积核的尺寸为m3*n；C4的卷积核的尺寸为m4*n,其中n为词向量的维度,m1、m2、m3以及m4为卷积核的长度。

还用于将四个卷积层C1、C2、C3以及C4输出的四个局部特征向量通过池化层进行下采样，得到四个下采样后的局部特征向量。

可选地，文本分类模块还用于：将一维向量通过输出层进行归一化，获得归一化后的一维向量；根据归一化后的一维向量中的最大值，确定目标文本的文本类别。

具体而言，通过全连接层将目标特征向量映射成一维向量，一维向量的维数与类别的数目一致，其中，类别是预先设置的。将一维向量输入到输出层，输出层可以是softmax层，利用softmax函数对一维向量进行归一化，使一维向量的各元素之和为1，此时，各个元素表示的是所在维度对应的类别的概率值。概率值最大的类别就是目标文本的类别。

基于上述分析可知，与相关技术中的只能针对性提取文本的局部特征或者上下文特征，根据提取到的特征进行文本分类的方法相比，本申请实施例提供的方法利用分别提取文本的局部特征和上下文特征，并将两种特征组合起来进行文本分类，提高了提取特征的完整性，进一步提高文本分类的准确性。

本申请实施例所提供的进行文本分类的方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

本申请实施例所提供的文本分类的装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种文本分类方法，其特征在于，包括：

确定目标文本的文本向量；

提取所述文本向量的上下文特征，得到上下文特征向量；

2.根据权利要求1所述的方法，其特征在于，所述确定目标文本的文本向量，包括：

3.根据权利要求1所述的方法，其特征在于，所述提取所述文本向量的上下文特征，包括：

获取一个双向循环神经网络；

4.根据权利要求1所述的方法，其特征在于，所述根据所述一维向量中的最大值的维度，确定所述目标文本的文本类别，包括：

5.根据权利要求2所述的方法，其特征在于，提取所述文本向量的局部特征，得到局部特征向量，对所述局部特征向量进行下采样，得到下采样后的局部特征向量，包括：将所述文本向量输入到四个一维卷积层C1、C2、C3以及C4，其中，C1的卷积核的尺寸为m1*n；C2的卷积核的尺寸为m2*n；C3的卷积核的尺寸为m3*n；C4的卷积核的尺寸为m4*n,其中n为所述词向量的维度,m1、m2、m3以及m4为卷积核的长度；

6.根据权利要求3所述的方法，其特征在于，所述通过池化层进行下采样，包括：所述池化层采用最大值池化的方法对所述局部特征向量进行下采样。

7.一种文本分类装置，其特征在于，包括：

文本表示模块：用于确定目标文本的文本向量；

8.根据权利要求7所述的装置，其特征在于，所述文本表示模块按照以下方式确定目标文本的文本向量：

9.根据权利要求7所述的装置，其特征在于，所述特征提取模块包括上下文特征提取单元，用于获取一个双向循环神经网络；通过所述双向循环神经网络提取所述文本向量的上下文特征。

10.根据权利要求7所述的装置，其特征在于，所述文本分类模块还用于：