CN110399488B

CN110399488B - 文本分类方法及装置

Info

Publication number: CN110399488B
Application number: CN201910603659.9A
Authority: CN
Inventors: 周阳
Original assignee: Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Current assignee: Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2021-11-30
Anticipated expiration: 2039-07-05
Also published as: CN110399488A

Abstract

本申请实施例公开了一种文本分类方法及装置，该方法包括：获取组成待分类文本的多个对象对应的多个特征向量以及多个位置向量；根据多个特征向量和多个位置向量生成多个联合向量；基于多个联合向量中包括的多个联合字向量确定第一文本特征向量，基于多个联合向量中包括的多个联合词向量确定第二文本特征向量；基于第一文本特征向量和第二文本特征向量确定待分类文本的文本类别。采用本申请实施例，可提高文本分类的准确率以及分类效率，适用性高。

Description

文本分类方法及装置

技术领域

本申请涉及自然语言处理领域，尤其涉及一种文本分类方法及装置。

背景技术

随着语音识别技术和自然语言处理技术的发展，对话机器人和智能客服逐渐受到人们的关注。其中人机对话技术的一个关键任务就是如何让对话机器人理解用户的语句意图并将用户的输入正确地分类到相应的领域中，其性能直接影响到特定领域的人机对话质量。也就是说在人机对话过程中，如何根据用户的对话文本精确地判断出用户的意图或倾向信息，成为当前亟待解决的问题。

发明内容

本申请实施例提供了一种文本分类方法及装置，可提高文本分类的准确率以及分类效率，适用性高。

第一方面，本申请实施例提供了一种文本分类方法，该方法包括：

获取组成待分类文本的多个对象对应的多个特征向量以及多个位置向量，其中一个对象对应一个特征向量和一个位置向量，任一对象对应的位置向量用于表示上述任一对象在上述待分类文本中的位置，上述对象中包括字和词；

根据上述多个特征向量和上述多个位置向量生成多个联合向量，上述多个联合向量中包括多个联合字向量和多个联合词向量，一个联合字向量由一个字对应的特征向量和位置向量生成，一个联合词向量由一个词对应的特征向量和位置向量生成；

基于上述多个联合向量中包括的多个联合字向量确定第一文本特征向量，基于上述多个联合向量中包括的多个联合词向量确定第二文本特征向量；

基于上述第一文本特征向量和上述第二文本特征向量确定上述待分类文本的文本类别。

本申请实施例基于获取的组成待分类文本的多个字对应的特征向量和位置向量生成的联合字向量确定第一文本特征向量、基于获取的组成待分类文本的多个词对应的特征向量和位置向量生成的联合词向量确定第二文本特征向量，通过对第一文本特征向量和第二文本特征向量进行特征融合以确定待分类问的文本类别，提高了文本分类的准确率以及分类效率，适用性高。

结合第一方面，在一种可能的实施方式中，上述获取组成待分类文本的多个对象对应的多个特征向量以及多个位置向量，包括：

获取预设的特征向量查询表，上述特征向量查询表中包括多个对象索引以及各个对象索引对应的特征向量，其中一个对象索引用于唯一标记一个对象，一个对象索引对应一个特征向量；

确定组成待分类文本的多个对象中各个对象的对象索引，根据上述各个对象的对象索引从上述特征向量查询表中确定出各个对象对应的特征向量以得到多个特征向量；

获取上述多个对象中各个对象的位置向量以得到多个位置向量。

本申请实施例通过预设的特征向量查询表确定多个字和多个词对应的特征向量，提高了待分类文本的处理效率，易于理解且操作简便，适用性强。

结合第一方面，在一种可能的实施方式中，上述根据上述多个特征向量和上述多个位置向量生成多个联合向量，包括：

将上述多个对象中任一对象对应的特征向量与上述任一对象对应的位置向量进行拼接以生成上述任一对象对应的联合向量；

获取上述多个对象中各个对象对应的联合向量以得到上述多个对象对应的多个联合向量。

本申请实施例通过将字对应的特征向量和位置向量进行拼接得到联合字向量，将词对应的特征向量和位置向量进行拼接得到联合词向量，可操作性强，适用性高。

结合第一方面，在一种可能的实施方式中，上述多个对象中任一对象对应的位置向量与上述任一对象对应的特征向量的向量维数相同；上述根据上述多个特征向量和上述多个位置向量生成多个联合向量，包括：

将上述多个对象中任一对象对应的特征向量与上述任一对象对应的位置向量进行求和以生成上述任一对象对应的联合向量；

本申请实施例通过将字对应的特征向量和位置向量进行求和得到联合字向量，将词对应的特征向量和位置向量进行求和得到联合词向量，可操作性强，适用性高。

结合第一方面，在一种可能的实施方式中，上述基于上述多个联合向量中包括的多个联合字向量确定第一文本特征向量，包括：

将组成上述待分类文本的多个字对应的多个联合字向量输入双向长短期记忆网络，基于上述双向长短期记忆网络输出上述第一文本特征向量。

本申请实施例通过将多个联合字向量输入双向长短期记忆网络以确定第一文本特征向量，易于理解、可操作性强。

结合第一方面，在一种可能的实施方式中，组成上述待分类文本的多个对象中至少包括第一词、第二词和第三词，上述第一词为组成上述待分类文本的首个词、上述第三词为组成上述待分类文本的最后一个词，上述第二词为上述第一词与上述第三词之间的一个或者多个词；上述基于上述多个联合向量中包括的多个联合词向量确定第二文本特征向量，包括：

将上述第一词对应的第一联合词向量、上述第二词对应的第二联合词向量和上述第三词对应的第三联合词向量输入上述双向长短期记忆网络以得到第一特征向量；

将上述第一联合词向量和上述第二联合词向量输入上述双向长短期记忆网络以得到第二特征向量；

将上述第二联合词向量和上述第三联合词向量输入上述双向长短期记忆网络以得到第三特征向量；

将上述第二特征向量和上述第三特征向量进行拼接并将拼接得到的向量进行最大池化，将进行最大池化得到的向量与上述第一特征向量进行拼接以得到上述第二文本特征向量。

本申请实施例基于多个联合词向量以及双向长短期记忆网络确定第二文本特征向量，融合了上下文特征，易于理解，可操作性强。

结合第一方面，在一种可能的实施方式中，上述基于上述第一文本特征向量和上述第二文本特征向量确定上述待分类文本的文本类别，包括：

将上述第一文本特征向量和上述第二文本特征向量进行特征融合以得到融合特征向量，上述融合特征向量中包括多个特征值，一个特征值对应一个文本类别；

基于上述多个特征值确定多个文本类别对应的多个概率值，并将上述多个概率值中的最大概率值对应的文本类别确定为上述待分类文本的文本类别。

本申请实施例通过对第一文本特征向量和第二文本特征向量进行特征融合以确定待分类文本的文本类别，提高了文本分类的准确率以及分类效率，适用性高。

第二方面，本申请实施例提供了一种文本分类装置，该装置包括：

向量获取模块，用于获取组成待分类文本的多个对象对应的多个特征向量以及多个位置向量，其中一个对象对应一个特征向量和一个位置向量，任一对象对应的位置向量用于表示上述任一对象在上述待分类文本中的位置，上述对象中包括字和词；

联合向量生成模块，用于根据上述多个特征向量和上述多个位置向量生成多个联合向量，上述多个联合向量中包括多个联合字向量和多个联合词向量，一个联合字向量由一个字对应的特征向量和位置向量生成，一个联合词向量由一个词对应的特征向量和位置向量生成；

文本特征向量确定模块，用于基于上述多个联合向量中包括的多个联合字向量确定第一文本特征向量，基于上述多个联合向量中包括的多个联合词向量确定第二文本特征向量；

文本类别确定模块，用于基于上述第一文本特征向量和上述第二文本特征向量确定上述待分类文本的文本类别。

结合第二方面，在一种可能的实施方式中，上述向量获取模块包括：

特征向量查询表获取单元，用于获取预设的特征向量查询表，上述特征向量查询表中包括多个对象索引以及各个对象索引对应的特征向量，其中一个对象索引用于唯一标记一个对象，一个对象索引对应一个特征向量；

特征向量获取单元，用于确定组成待分类文本的多个对象中各个对象的对象索引，根据上述各个对象的对象索引从上述特征向量查询表中确定出各个对象对应的特征向量以得到多个特征向量；

位置向量获取单元，用于获取上述多个对象中各个对象的位置向量以得到多个位置向量。

结合第二方面，在一种可能的实施方式中，上述联合向量生成模块用于：

结合第二方面，在一种可能的实施方式中，上述多个对象中任一对象对应的位置向量与上述任一对象对应的特征向量的向量维数相同；上述联合向量生成模块用于：

结合第二方面，在一种可能的实施方式中，上述文本特征向量确定模块包括：

第一文本特征向量确定单元，用于将组成上述待分类文本的多个字对应的多个联合字向量输入双向长短期记忆网络，基于上述双向长短期记忆网络输出上述第一文本特征向量。

结合第二方面，在一种可能的实施方式中，组成上述待分类文本的多个对象中至少包括第一词、第二词和第三词，上述第一词为组成上述待分类文本的首个词、上述第三词为组成上述待分类文本的最后一个词，上述第二词为上述第一词与上述第三词之间的一个或者多个词；上述文本特征向量确定模块还包括第二文本特征向量确定单元，上述第二文本特征向量确定单元用于：

结合第二方面，在一种可能的实施方式中，上述文本类别确定模块具体用于：

第三方面，本申请实施例提供了一种终端设备，该终端设备包括处理器和存储器，该处理器和存储器相互连接。该存储器用于存储支持该终端设备执行上述第一方面和/或第一方面任一种可能的实现方式提供的方法的计算机程序，该计算机程序包括程序指令，该处理器被配置用于调用上述程序指令，执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被处理器执行时使该处理器执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。

本申请实施例基于获取的组成待分类文本的多个字对应的多个特征向量和位置向量生成联合字向量，基于获取的组成待分类文本的多个词对应的多个特征向量和位置向量生成联合词向量，考虑了字和词在句子中的位置信息，优化了待分类文本的特征，有利于提高文本分类的准确性。根据多个联合字向量生成的第一文本特征向量以及根据多个联合词向量生成第二文本特征向量，最后将第一文本特征向量和第二文本特征向量进行特征融合以确定待分类文本的文本类别，更有利于优化待分类文本的特征，进一步提高了对文本识别的准确度，且整个过程的可操作性强，运行速度快，可提高文本分类的效率，适用性高。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的文本分类方法的流程示意图；

图2是本申请实施例提供基于双向长短期记忆网络确定第一文本特征向量的应用场景示意图；

图3是本申请实施例提供的基于双向长短期记忆网络确定第二文本特征向量的一应用场景示意图；

图4是本申请实施例提供的基于双向长短期记忆网络确定第二文本特征向量的另一应用场景示意图；

图5是本申请实施例提供的文本分类装置的结构示意图；

图6是本申请实施例提供的终端设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的文本分类方法，可广泛适用于能够对各种文本进行意图识别、情感分类或者文本分类的系统或终端。其中，终端包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(MID，mobile internet device)等，在此不做限制。本申请实施例提供的方法，基于获取的组成待分类文本的多个字对应的多个特征向量和位置向量生成联合字向量，基于获取的组成待分类文本的多个词对应的多个特征向量和位置向量生成联合词向量，并将根据多个联合字向量生成的第一文本特征向量以及根据多个联合词向量生成第二文本特征向量进行特征融合以确定待分类文本的文本类别，可提高文本分类的准确率以及分类效率，适用性高。

下面将结合图1至图6分别对本申请实施例提供的方法及相关装置分别进行详细说明。本申请实施例提供的方法可包括用于基于获取的多个字对应的特征向量和位置向量确定联合字向量、基于获取的多个词对应的特征向量和位置向量确定联合词向量、根据多个联合字向量生成第一文本特征向量、根据多个联合词向量生成第二文本特征向量、以及通过将第一文本特征向量与第二文本特征向量进行特征融合以确定待分类文本的文本类别等数据处理阶段。其中，上述各个数据处理阶段的实现方式可参见如下图1所示的实现方式。

参见图1，图1为本申请实施例提供的文本分类方法的流程示意图。本申请实施例提供的方法可以包括如下步骤101至104：

101、获取组成待分类文本的多个对象对应的多个特征向量以及多个位置向量。

在一些可行的实施方式中，待分类文本可以是各种文字信息，例如可以是句子、段落或者篇章等。在本申请实施例中，待分类文本可以是具有选择倾向或情感倾向的文字信息，例如可以是对某个事物或人物的喜欢等积极情感类的文本，或者是对某个事物或人物的讨厌等消极情感类的文本等。比如待分类文本“我喜欢吃火锅”，其文本类别可划分为积极情感类文本，待分类文本“我讨厌吃火锅”，其文本类别可划分为消极情感类文本。或者待分类文本也可以是具有某种意图的文字信息，比如可以是询问原因的文本、或是需求某种解决方案的文本等。例如待分类文本“长痘痘的原因”，其文本类别可划分为询问原因类文本，待分类文本“长痘痘了应该怎么办”，其文本类别可划分为肌肤问题解决方案类文本，具体根据实际应用场景确定，在此不做限制。

在一些可行的实施方式中，通过获取组成待分类文本的多个对象对应的多个特征向量以及多个位置向量，可得到各个对象分别对应一个特征向量和一个位置向量，这里组成待分类文本的多个对象可包括多个字和/或多个词。例如，假设待分类文本为“我喜欢吃火锅”，则可将待分类文本“我喜欢吃火锅”逐字拆分成“我”，“喜”，“欢”，“吃”，“火”，“锅”并映射至向量空间以得到各个字分别对应的特征向量，为方便描述，简称字向量。也可将待分类文本“我喜欢吃火锅”进行分词后得到“我”，“喜欢”，“吃”，“火锅”并映射至向量空间以得到各个词分别对应的特征向量，为方便描述，简称词向量。可以理解的是，字对应的特征向量，即字向量，可以是用于表示字的特征的向量，字向量的每一维的值可以代表一个具有一定的语义和语法上解释的特征。例如，特征可以是用于对字的基本要素(例如偏旁、部首、笔画、含义等)进行表征的各种信息，其中各个字向量可以具有相同的向量维数。与字向量相似，词对应的特征向量，即词向量，也可以是用于表示词的特征的向量，词向量的每一维的值同样可以代表一个具有一定的语义和语法上解释的特征，其中各个词向量可以具有相同的向量维数。在本申请实施例中，通过获取预设的特征向量查询表，可得到特征向量查询表中包括多个对象索引以及各个对象索引对应的特征向量，其中一个对象索引用于唯一标记一个对象，一个对象索引对应一个特征向量。这里特征向量查询表可包括字表和词表，其中，字表中包括多个字索引以及各个字索引对应的字向量，且一个字索引用于唯一标记一个字，一个字索引对应一个字向量，词表中包括多个词索引以及各个词索引对应的词向量，且一个词索引用于唯一标记一个词，一个词索引对应一个词向量。可以理解的是，字索引或词索引的表现形式可以是数字、字符和/或符号等，在此不做限制。可选的，一个特征向量查询表中也可同时包括多个字索引以及各个字索引对应的字向量，多个词索引以及各个词索引对应的词向量。通过确定组成待分类文本的多个对象中各个对象的对象索引，可根据各个对象的对象索引从上述特征向量查询表中确定出各个对象对应的特征向量以得到多个特征向量。换句话说，针对待分类文本所拆分成的每一个对象(字和/或词)，可从特征向量查询表(字表和/或词表)中查找到该对象(字和/或词)所对应的特征向量(字向量和/或词向量)。不难理解的是，获取字对应的字向量以及获取词对应的词向量主要是为了将以自然语言形式存储的符号信息转化为以向量形式存储的数字信息，进而实现机器学习和处理，例如“有”字对应的字向量可表示为[3,1,2,0,…]。这里训练每一个字对应的字向量以及每个词对应的词向量的语言模型主要为word2vec，在此不再赘述。

在一些可行的实施方式中，通过分别获取组成待分类文本的多个对象中各个对象的位置向量可得到多个位置向量，且任一对象对应的位置向量用于表示任一对象在待分类文本中的位置。一般而言，通过将字或者词在待分类文本中的位置映射到向量空间里可得到位置向量。获取位置向量的方法可分为两种：第一种方法就是对应每个字或词所在待分类文本中的位置都初始化一个与字向量或词向量同样维度的向量作为位置向量。第二种方法就是采用正弦曲线或余弦曲线，下面两个公式详细描述了采用正弦曲线或余弦曲线的方法：

公式1和公式2中的pos表示字或词所在待分类文本中的位置，i表示各维度，d_model为与字向量或词向量的维度一致的一个参数。

在本申请实施例中，可以采用第一种方法获取字和/或词对应的位置向量。即针对每个对象(字和/或词)所在句子中的位置可随机初始化一个向量作为表示该对象在待分类文本中的位置的位置向量，其中位置向量的向量维数与该对象的特征向量(字向量和/或词向量)的向量维数可以相同，或者也可以设定各个对象所对应的位置向量的向量维数为固定值，具体根据实际应用场景确定，在此不做限制。可以理解的是，在本申请实施例中，可采用随机函数随机初始化任一对象对应的位置向量，例如本申请中所采用的随机函数可以是tf.random_normal函数、tf.truncated_normal函数、tf.random_uniform函数等，在此不做限制。

102、根据多个特征向量和多个位置向量生成多个联合向量。

在一些可行的实施方式中，通过将组成待分类文本的多个对象(字和/或词)中任一对象对应的特征向量(字向量和/或词向量)与该对象对应的位置向量进行拼接可得到任一对象对应的联合向量(联合字向量和/或联合词向量)。举例来说，假设“我”字对应的字向量为[1,2]，“我”字对应的位置向量为[3,4]，则将“我”字对应的字向量和位置向量进行拼接可得到“我”字对应的联合字向量为[1,2,3,4]。

可选的，若多个对象(字和/或词)中任一对象对应的位置向量与该对象对应的特征向量的向量维数相同，则还可以将多个对象中任一对象对应的特征向量(字向量和/或词向量)与该对象对应的位置向量进行求和以得到任一对象对应的联合向量(联合字向量和/或联合词向量)。举例来说，假设“我”字对应的字向量为[1，2]，“我”字对应的位置向量为[3，4]，由于字向量和位置向量的向量维数相同，即向量维数皆为2，则可将“我”字对应的字向量和位置向量进行求和以得到“我”字对应的联合字向量为[4,6]。

可选的，在一些可行的实施方式中，还可以通过将组成待分类文本的多个对象(字和/或词)中任一对象对应的特征向量(字向量和/或词向量)与该对象对应的位置向量进行扩展以得到任一对象对应的联合向量(联合字向量和/或联合词向量)。举例来说，假设“我”字对应的字向量为[1,2]，“我”字对应的位置向量为[3,4]，则将“我”字对应的字向量和位置向量进行扩展可得到“我”字对应的联合字向量为[[1,2],[3,4]]。

103、基于多个联合向量中包括的多个联合字向量确定第一文本特征向量，基于多个联合向量中包括的多个联合词向量确定第二文本特征向量。

在一些可行的实施方式中，多个联合向量中包括多个联合字向量和多个联合词向量，其中一个联合字向量由一个字对应的特征向量和位置向量生成，一个联合词向量由一个词对应的特征向量和位置向量生成。通过将组成待分类文本的多个字对应的多个联合字向量输入双向长短期记忆网络(Bi-directional Long Short-Term Memory，BiLSTM)，可基于该BiLSTM输出第一文本特征向量。BiLSTM是循环神经网络(Recurrent Neural Network，RNN)的一种延伸，BiLSTM是由前向的长短期记忆网络(Long Short-Term Memory，LSTM)与后向的LSTM组合而成。在处理待分类文本时，往前向的LSTM或后向的LSTM输入待分类文本中的一个字或者一个词就是一个时间步，LSTM有多个输入及多个输出，输入为上一个时间步输出的细胞状态Ct-1，上一个时间步输出的隐藏状态ht-1和当前的输入Xt，输出为当前时间步的细胞状态Ct和隐藏状态ht，这里Xt也就是字向量或词向量，Ct都是中间变量，用来传递相邻时间步之间的联系。

举例来说，参见图2，图2是本申请实施例提供的基于双向长短期记忆网络确定第一文本特征向量的应用场景示意图。假设待分类文本为“我喜欢吃火锅”，通过前向的LSTM依次输入“我”，“喜”，“欢”，“吃”，“火”，“锅”分别对应的联合字向量可得到六个隐层状态的向量{hm0,hm1,hm2,hm3,hm4,hm5}，通过后向的LSTM依次输入“锅”，“火”，“吃”，“欢”，“喜”，“我”分别对应的联合字向量可得到六个隐层状态的向量{hn0,hn1,hn2,hn3,hn4,hn5}，因此针对待分类文本，其对应的向量可表示为[hm5,hn5]，即第一文本特征向量为[hm5,hn5]，不难理解的是，第一文本特征向量中具有字符级句子的上下文语义信息。

在一些可行的实施方式中，通过将组成待分类文本的多个词对应的多个联合词向量输入双向长短期记忆网络(Bi-directional Long Short-Term Memory，BiLSTM)，可基于该BiLSTM输出第二文本特征向量。举例来说，参见图3，图3是本申请实施例提供的基于双向长短期记忆网络确定第二文本特征向量的一应用场景示意图。假设待分类文本为“我喜欢吃火锅”，通过前向的LSTM依次输入“我”，“喜欢”，“吃”，“火锅”分别对应的联合词向量可得到四个隐层状态的向量{hl0,hl1,hl2,hl3}，通过后向的LSTM依次输入“火锅”，“吃”，“喜欢”，“我”分别对应的联合词向量可得到四个隐层状态的向量{hr0,hr1,hr2,hr3}，因此针对待分类文本，其对应的向量可表示为[hl3,hr3]，即第二文本特征向量为[hl3,hr3]，不难理解的是，第二文本特征向量中具有词级别句子的上下文语义信息。

可选的，在一些可行的实施方式中，针对待分类文本中包括的每一个词，还可以用它左边的词，右边的词和它自己来表达。若组成待分类文本的多个对象中至少包括第一词、第二词和第三词，其中第一词为组成待分类文本的首个词、第三词为组成待分类文本的最后一个词，第二词为第一词与第三词之间的一个或者多个词。通过将第一词对应的第一联合词向量、第二词对应的第二联合词向量和第三词对应的第三联合词向量输入双向长短期记忆网络可得到第一特征向量，通过将第一联合词向量和第二联合词向量输入双向长短期记忆网络可得到第二特征向量，通过将第二联合词向量和第三联合词向量输入双向长短期记忆网络可得到第三特征向量。然后将第二特征向量和第三特征向量进行拼接并进行最大池化后，再将进行最大池化后得到的向量与第一特征向量进行拼接可得到第二文本特征向量。

举例来说，参见图4，图4是本申请实施例提供的基于双向长短期记忆网络确定第二文本特征向量的另一应用场景示意图。假设待分类文本为“我喜欢吃火锅”，通过前向的LSTM依次输入“我”，“喜欢”，“吃”，“火锅”分别对应的联合词向量可得到四个隐层状态的向量{hl0,hl1,hl2,hl3}，通过后向的LSTM依次输入“火锅”，“吃”，“喜欢”，“我”分别对应的联合词向量可得到四个隐层状态的向量{hr0,hr1,hr2,hr3}，因此，第一特征向量可表示为[hl3,hr3]。通过前向的LSTM依次输入“我”，“喜欢”，“吃”分别对应的联合词向量可得到三个隐层状态的向量{hl0,hl1,hl2}，通过后向的LSTM依次输入“吃”，“喜欢”，“我”分别对应的联合词向量可得到三个隐层状态的向量{hr1,hr2,hr3}，因此，第二特征向量可表示为[hl2,hr3]。通过前向的LSTM依次输入“喜欢”，“吃”，“火锅”分别对应的联合词向量可得到三个隐层状态的向量{hl1,hl2,hl3}，通过后向的LSTM依次输入“火锅”，“吃”，“喜欢”分别对应的联合词向量可得到三个隐层状态的向量{hr0,hr1,hr2}，因此，第三特征向量可表示为[hl3,hr2]。然后将第二特征向量和第三特征向量进行拼接可得到向量[hl2,hr3,hl3,hr2]，并进行K最大池化(即从向量[hl2,hr3,hl3,hr2]中取出K个最大值保留，K为正整数，这里假设K取2，且hl2＞hr2＞hr3＞hl3)后得到向量[hl2,hr2]，将最大池化后得到的向量[hl2,hr2]与第一特征向量[hl3,hr3]进行拼接则可得到第二文本特征向量[hl2,hr2,hl3,hr3]。

104、基于第一文本特征向量和第二文本特征向量确定待分类文本的文本类别。

在一些可行的实施方式中，在获取到第一文本特征向量和第二文本特征向量后，通过将第一文本特征向量和第二文本特征向量进行特征融合可得到融合特征向量，其中融合特征向量中包括多个特征值，一个特征值对应一个文本类别，基于上述多个特征值可得到多个文本类别对应的多个概率值，然后从多个概率值中将最大概率值对应的文本类别作为待分类文本的文本类别。具体地，可使用一个加权算法对第一文本特征向量和第二文本特征向量进行特征融合，为方便描述，可将第一文本特征向量记作A，将第二文本特征向量记作B，通过加权算法对第一文本特征向量和第二文本特征向量进行特征融合的过程可表示为：

Y＝a/(a+len)*WS*A+len/(b+len)WL*B+bias

其中a，b为超参数，len为待分类文本的长度，这里a/(a+len)和len/(b+len)可用于平衡第一文本特征向量和第二文本特征向量对最后分类结果的影响。WS和WL分别为字符级和词级别的权重矩阵，bias为偏值矩阵。将得到的融合特征向量Y通过Softmax分类器后可得到多个文本分类结果中各个文本分类结果对应的概率值，即多个文本类别对应的多个概率值，最后通过从多个概率值中选取出最大概率值，可将最大概率值对应的文本类别作为文本分类的最终结果。

在本申请实施例中，通过对获取的组成待分类文本的多个字对应的多个特征向量和位置向量进行拼接或求和或扩展以生成联合字向量，通过对获取的组成待分类文本的多个词对应的多个特征向量和位置向量进行拼接或求和或扩展以生成联合词向量，考虑了字和词在句子中的位置信息，优化了待分类文本的特征，有利于提高文本分类的准确性。通过将多个联合字向量输入双向长短期记忆网络以生成的第一文本特征向量，通过将多个联合词向量输入双向长短期记忆网络以生成第二文本特征向量，同时考虑了对待分类文本进行分字和分词后的特征，再最后进行特征融合以确定待分类文本的文本类别，更加有利于优化待分类文本的特征，进一步提高了对文本识别的准确度，且整个过程的可操作性强，运行速度快，有利于提高文本分类的效率，适用性高。

参见图5，图5是本申请实施例提供的文本分类装置的结构示意图。本申请实施例提供的文本分类装置包括：

向量获取模块31，用于获取组成待分类文本的多个对象对应的多个特征向量以及多个位置向量，其中一个对象对应一个特征向量和一个位置向量，任一对象对应的位置向量用于表示上述任一对象在上述待分类文本中的位置，上述对象中包括字和词；

联合向量生成模块32，用于根据上述多个特征向量和上述多个位置向量生成多个联合向量，上述多个联合向量中包括多个联合字向量和多个联合词向量，一个联合字向量由一个字对应的特征向量和位置向量生成，一个联合词向量由一个词对应的特征向量和位置向量生成；

文本特征向量确定模块33，用于基于上述多个联合向量中包括的多个联合字向量确定第一文本特征向量，基于上述多个联合向量中包括的多个联合词向量确定第二文本特征向量；

文本类别确定模块34，用于基于上述第一文本特征向量和上述第二文本特征向量确定上述待分类文本的文本类别。

在一些可行的实施方式中，上述向量获取模块31包括：

特征向量查询表获取单元311，用于获取预设的特征向量查询表，上述特征向量查询表中包括多个对象索引以及各个对象索引对应的特征向量，其中一个对象索引用于唯一标记一个对象，一个对象索引对应一个特征向量；

特征向量获取单元312，用于确定组成待分类文本的多个对象中各个对象的对象索引，根据上述各个对象的对象索引从上述特征向量查询表中确定出各个对象对应的特征向量以得到多个特征向量；

位置向量获取单元313，用于获取上述多个对象中各个对象的位置向量以得到多个位置向量。

在一些可行的实施方式中，上述联合向量生成模块32用于：

在一些可行的实施方式中，上述多个对象中任一对象对应的位置向量与上述任一对象对应的特征向量的向量维数相同；上述联合向量生成模块32还用于：

在一些可行的实施方式中，上述文本特征向量确定模块33包括：

第一文本特征向量确定单元331，用于将组成上述待分类文本的多个字对应的多个联合字向量输入双向长短期记忆网络，基于上述双向长短期记忆网络输出第一文本特征向量。

在一些可行的实施方式中，组成上述待分类文本的多个对象中至少包括第一词、第二词和第三词，上述第一词为组成上述待分类文本的首个词、上述第三词为组成上述待分类文本的最后一个词，上述第二词为上述第一词与上述第三词之间的一个或者多个词；上述文本特征向量确定模块还包括第二文本特征向量确定单元332，上述第二文本特征向量确定单元332具体用于：

将上述第二特征向量和上述第三特征向量进行拼接并将拼接得到的向量进行最大池化，将进行最大池化得到的向量与上述第一特征向量进行拼接以得到第二文本特征向量。

在一些可行的实施方式中，上述文本类别确定模块34具体用于：

具体实现中，上述文本分类装置可通过其内置的各个功能模块执行如上述图1中各个步骤所提供的实现方式。例如，上述向量获取模块31可用于执行上述各个步骤中获取组成待分类文本的多个字对应的多个特征向量以及多个位置向量，获取组成待分类文本的多个词对应的多个特征向量以及多个位置向量等实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。上述联合向量生成模块32可用于执行上述各个步骤中根据多个字对应的多个特征向量和多个位置向量生成多个联合字向量，根据多个词对应的多个特征向量和多个位置向量生成多个联合词向量等相关步骤所描述的实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。上述文本特征向量确定模块33可用于执行上述各个步骤中根据多个联合字向量生成第一文本特征向量、以及根据多个联合词向量生成第二文本特征向量等相关步骤所描述的实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。上述文本类别确定模块34可用于执行上述各个步骤中对第一文本特征向量和第二文本特征向量进行特征融合以确定待分类文本的文本类别等实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

在本申请实施例中，文本分类装置可基于获取的组成待分类文本的多个字对应的多个特征向量和位置向量生成联合字向量，基于获取的组成待分类文本的多个词对应的多个特征向量和位置向量生成联合词向量，并将根据多个联合字向量生成的第一文本特征向量以及根据多个联合词向量生成第二文本特征向量进行特征融合以确定待分类文本的文本类别。实施本申请实施例，可提高文本分类的准确率以及分类效率，灵活性高，适用范围广。

参见图6，图6是本申请实施例提供的终端设备的结构示意图。如图6所示，本实施例中的终端设备可以包括：一个或多个处理器401和存储器402。上述处理器401和存储器402通过总线403连接。存储器402用于存储计算机程序，该计算机程序包括程序指令，处理器401用于执行存储器402存储的程序指令，执行如下操作：

在一些可行的实施方式中，上述处理器401用于：

在一些可行的实施方式中，上述多个对象中任一对象对应的位置向量与上述任一对象对应的特征向量的向量维数相同；上述处理器401用于：

在一些可行的实施方式中，上述处理器401用于：

将组成上述待分类文本的多个字对应的多个联合字向量输入双向长短期记忆网络，基于上述双向长短期记忆网络输出第一文本特征向量。

在一些可行的实施方式中，组成上述待分类文本的多个对象中至少包括第一词、第二词和第三词，上述第一词为组成上述待分类文本的首个词、上述第三词为组成上述待分类文本的最后一个词，上述第二词为上述第一词与上述第三词之间的一个或者多个词；上述处理器401用于：

在一些可行的实施方式中，上述处理器401用于：

应当理解，在一些可行的实施方式中，上述处理器401可以是中央处理单元(central processing unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integratedcircuit，ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器402可以包括只读存储器和随机存取存储器，并向处理器401提供指令和数据。存储器402的一部分还可以包括非易失性随机存取存储器。例如，存储器402还可以存储设备类型的信息。

具体实现中，上述终端设备可通过其内置的各个功能模块执行如上述图1中各个步骤所提供的实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

在本申请实施例中，终端设备可基于获取的组成待分类文本的多个字对应的多个特征向量和位置向量生成联合字向量，基于获取的组成待分类文本的多个词对应的多个特征向量和位置向量生成联合词向量，并将根据多个联合字向量生成的第一文本特征向量以及根据多个联合词向量生成第二文本特征向量进行特征融合以确定待分类文本的文本类别。实施本申请实施例，可提高文本分类的准确率以及分类效率，灵活性高，适用范围广。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时实现图1中各个步骤所提供的文本分类方法，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

上述计算机可读存储介质可以是前述任一实施例提供的文本分类装置或者上述终端设备的内部存储单元，例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备，例如该电子设备上配备的插接式硬盘，智能存储卡(smartmedia card,SMC)，安全数字(secure digital,SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请的权利要求书和说明书及附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

Claims

1.一种文本分类方法，其特征在于，所述方法包括：

获取组成待分类文本的多个对象对应的多个特征向量以及多个位置向量，其中一个对象对应一个特征向量和一个位置向量，任一对象对应的位置向量用于表示所述任一对象在所述待分类文本中的位置，所述对象中包括字和词；

根据所述多个特征向量和所述多个位置向量生成多个联合向量，所述多个联合向量中包括多个联合字向量和多个联合词向量，一个联合字向量由一个字对应的特征向量和位置向量生成，一个联合词向量由一个词对应的特征向量和位置向量生成；

基于所述多个联合向量中包括的多个联合字向量确定第一文本特征向量，基于所述多个联合向量中包括的多个联合词向量确定第二文本特征向量；

基于所述第一文本特征向量和所述第二文本特征向量确定所述待分类文本的文本类别；

其中，组成所述待分类文本的多个对象中至少包括第一词、第二词和第三词，所述第一词为组成所述待分类文本的首个词，所述第三词为组成所述待分类文本的最后一个词，所述第二词为所述第一词与所述第三词之间的一个或者多个词；所述基于所述多个联合向量中包括的多个联合词向量确定第二文本特征向量，包括：

将所述第一词对应的第一联合词向量、所述第二词对应的第二联合词向量和所述第三词对应的第三联合词向量输入双向长短期记忆网络以得到第一特征向量；

将所述第一联合词向量和所述第二联合词向量输入所述双向长短期记忆网络以得到第二特征向量；

将所述第二联合词向量和所述第三联合词向量输入所述双向长短期记忆网络以得到第三特征向量；

将所述第二特征向量和所述第三特征向量进行拼接并将拼接得到的向量进行最大池化，将进行最大池化得到的向量与所述第一特征向量进行拼接以得到所述第二文本特征向量。

2.根据权利要求1所述方法，其特征在于，所述获取组成待分类文本的多个对象对应的多个特征向量以及多个位置向量，包括：

获取预设的特征向量查询表，所述特征向量查询表中包括多个对象索引以及各个对象索引对应的特征向量，其中一个对象索引用于唯一标记一个对象，一个对象索引对应一个特征向量；

确定组成待分类文本的多个对象中各个对象的对象索引，根据所述各个对象的对象索引从所述特征向量查询表中确定出各个对象对应的特征向量以得到多个特征向量；

获取所述多个对象中各个对象的位置向量以得到多个位置向量。

3.根据权利要求1或2所述方法，其特征在于，所述根据所述多个特征向量和所述多个位置向量生成多个联合向量，包括：

将所述多个对象中任一对象对应的特征向量与所述任一对象对应的位置向量进行拼接以生成所述任一对象对应的联合向量；

获取所述多个对象中各个对象对应的联合向量以得到所述多个对象对应的多个联合向量。

4.根据权利要求1或2所述方法，其特征在于，所述多个对象中任一对象对应的位置向量与所述任一对象对应的特征向量的向量维数相同；所述根据所述多个特征向量和所述多个位置向量生成多个联合向量，包括：

将所述多个对象中任一对象对应的特征向量与所述任一对象对应的位置向量进行求和以生成所述任一对象对应的联合向量；

5.根据权利要求1或2所述方法，其特征在于，所述基于所述多个联合向量中包括的多个联合字向量确定第一文本特征向量，包括：

将组成所述待分类文本的多个字对应的多个联合字向量输入双向长短期记忆网络，基于所述双向长短期记忆网络输出所述第一文本特征向量。

6.根据权利要求1或2所述方法，其特征在于，所述基于所述第一文本特征向量和所述第二文本特征向量确定所述待分类文本的文本类别，包括：

将所述第一文本特征向量和所述第二文本特征向量进行特征融合以得到融合特征向量，所述融合特征向量中包括多个特征值，一个特征值对应一个文本类别；

基于所述多个特征值确定多个文本类别对应的多个概率值，并将所述多个概率值中的最大概率值对应的文本类别确定为所述待分类文本的文本类别。

7.一种文本分类装置，其特征在于，所述装置包括：

向量获取模块，用于获取组成待分类文本的多个对象对应的多个特征向量以及多个位置向量，其中一个对象对应一个特征向量和一个位置向量，任一对象对应的位置向量用于表示所述任一对象在所述待分类文本中的位置，所述对象中包括字和词；

联合向量生成模块，用于根据所述多个特征向量和所述多个位置向量生成多个联合向量，所述多个联合向量中包括多个联合字向量和多个联合词向量，一个联合字向量由一个字对应的特征向量和位置向量生成，一个联合词向量由一个词对应的特征向量和位置向量生成；

文本特征向量确定模块，用于基于所述多个联合向量中包括的多个联合字向量确定第一文本特征向量，基于所述多个联合向量中包括的多个联合词向量确定第二文本特征向量；

文本类别确定模块，用于基于所述第一文本特征向量和所述第二文本特征向量确定所述待分类文本的文本类别；

其中，组成所述待分类文本的多个对象中至少包括第一词、第二词和第三词，所述第一词为组成所述待分类文本的首个词、所述第三词为组成所述待分类文本的最后一个词，所述第二词为所述第一词与所述第三词之间的一个或者多个词；所述文本特征向量确定模块还包括第二文本特征向量确定单元，所述第二文本特征向量确定单元用于：

8.一种终端设备，其特征在于，包括处理器和存储器，所述处理器和存储器相互连接；

所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-6任一项所述的方法。