CN114492420B

CN114492420B - 文本分类方法、装置、设备及计算机可读存储介质

Info

Publication number: CN114492420B
Application number: CN202210340732.XA
Authority: CN
Inventors: 蒋永余; 王俊艳; 王璋盛; 曹家; 罗引; 王磊
Original assignee: Beijing Zhongke Wenge Technology Co ltd
Current assignee: Beijing Zhongke Wenge Technology Co ltd
Priority date: 2022-04-02
Filing date: 2022-04-02
Publication date: 2022-07-29
Anticipated expiration: 2042-04-02
Also published as: CN114492420A

Abstract

本公开涉及一种文本分类方法、装置、设备及计算机可读存储介质，该方法包括：对待分类的文本进行分词处理，得到文本中包含的词汇；从预设的语义库中查找词汇对应的语义，以及语义在语义库中的位置，得到语义的位置向量；响应于词汇对应的语义有多个，基于词汇在所述文本中的上下文，确定词汇对应的每个语义的权重；基于词汇对应的每个语义的权重，对词汇对应的多个语义的位置向量进行加权叠加处理，得到词汇的特征向量；基于文本中包含的词汇的特征向量，确定文本的特征向量；基于文本的特征向量对文本进行分类。通过上述技术方案，将文本转化到量子领域进行处理，减少计算成本的同时，提升了文本的分类准确率，提升用户的使用体验。

Description

文本分类方法、装置、设备及计算机可读存储介质

技术领域

本公开涉及文本分类领域，尤其涉及一种文本分类方法、装置、设备及计算机可读存储介质。

背景技术

近年来，深度学习在文本分类领域取得了突破性进展，基于词向量的深度学习文本分类模型采用文本的词向量表示方法，把文本表示成连续、稠密的词向量，再输入神经网络进行分类计算。

通常情况下，深度学习在文本分类领域取得的进展，主要通过不断优化和提出新的神经网络去提高模型学习文本上下文依赖关系的能力，然而，文本中较长的上下文会导致更稀疏的数据结构和更大的内存损耗，因此上下文关系解析也会带来更高的计算成本，同时现有技术的方法对词与词之间的涌现意义的表现也存在一定困难，例如“象牙塔”这个短语很难被建模为“象牙”和“塔”的语义组合。因而针对文本的分类不仅存在计算成本高的问题，还会存在分类准确率低的问题。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种文本方法、装置、设备及计算机可读存储介质，以实现对待分类文本的准确分类。

第一方面，本公开实施例提供一种文本分类方法，包括：

对待分类的文本进行分词处理，得到文本中包含的词汇；

从预设的语义库中查找词汇对应的语义，以及语义在语义库中的位置，得到语义的位置向量；

响应于词汇对应的语义有多个，基于词汇在文本中的上下文，确定词汇对应的每个语义的权重；

基于词汇对应的每个语义的权重，对词汇对应的多个语义的位置向量进行加权叠加处理，得到词汇的特征向量；

基于文本中包含的词汇的特征向量，确定文本的特征向量；

基于文本的特征向量对文本进行分类。

第二方面，本公开实施例提供一种文本分类装置，包括：

词汇获取模块，用于对待分类的文本进行分词处理，得到文本中包含的词汇；

位置向量获取模块，用于从预设的语义库中查找词汇对应的语义，以及语义在语义库中的位置，得到语义的位置向量；

语义权重确定模块，用于响应于词汇对应的语义有多个，基于词汇在文本中的上下文，确定词汇对应的每个语义的权重；

词汇特征向量获取模块，用于基于词汇对应的每个语义的权重，对词汇对应的多个语义的位置向量进行加权叠加处理，得到词汇的特征向量；

文本特征向量确定模块，用于基于文本中包含的词汇的特征向量，确定文本的特征向量；

文本分类模块，用于基于文本的特征向量对文本进行分类。

第三方面，本公开实施例提供一种计算机设备，包括：

存储器；

处理器；以及

计算机程序；

其中，计算机程序存储在所述存储器中，并被配置为由处理器执行以实现如第一方面的方法。

第四方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行以实现第一方面的方法。

本公开实施例提供的文本分类方法、装置、设备及计算机可读存储介质，通过对待分类的文本进行分词处理，得到文本中包含的词汇；从预设的语义库中查找词汇对应的语义，以及语义在语义库中的位置，得到语义的位置向量；响应于词汇对应的语义有多个，基于词汇在所述文本中的上下文，确定词汇对应的每个语义的权重；基于词汇对应的每个语义的权重，对词汇对应的多个语义的位置向量进行加权叠加处理，得到词汇的特征向量；基于文本中包含的词汇的特征向量，确定文本的特征向量；基于文本的特征向量对文本进行分类。通过上述技术方案，可以将文本转化到量子领域进行分类处理，从而代替现有技术中利用多层神经网络进行文本分类的计算方法，降低了文本分类的计算成本，并有效地提升了文本的分类准确率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种文本分类方法的流程示意图；

图2为本公开实施例提供的另一种文本分类方法的流程示意图；

图3为本公开实施例提供的一种文本分类装置的结构示意图；

图4为本公开实施例提供的计算机设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

通常情况下，通过不断优化和提出新的神经网络去提高模型学习文本上下文依赖关系的能力，会导致更高的计算成本，并且无法提升文本分类的准确率。针对该问题，本公开实施例提供了一种文本分类方法，下面结合具体的实施例对该方法进行介绍。

图1为本公开实施例提供的文本分类方法的流程示意图。该方法可以由一种文本分类装置执行，该文本分类装置可以采用软件和/或硬件的方式实现，该文本分类装置可配置于诸如服务器、终端等计算机设备中，其中，终端例如可以包括电脑或平板电脑等。

下面对图1所示的文本分类方法进行介绍，该方法包括的步骤如下：

S110、对待分类的文本进行分词处理，得到文本中包含的词汇。

在本公开实施例中，待分类文本可以是从互联网中获取的新闻文本，该新闻文本通过线上多媒体平台发布，其中所述多媒体平台可以但不限于是微博、贴吧等；待分类文本也可以是用户人工输入的一篇文本内容，其中待分类文本的获取方式在此不做限定。待分类文本的文本类型可以包括但不限于例如体育、科技、文学等多个类型的文本。对待分类文本进行分词处理，可以使用例如“jieba”等分词工具的方法对待分类文本进行分词处理，也可以使用其他分词方法对待分类文本进行分词处理，在此不做限定。

示例的，在本公开的一些实施例中，对待分类的文本进行分词处理，得到文本中包含的词汇，可以包括如下步骤：

S1101、对待分类的文本进行语句划分处理，得到文本中包含的语句。

示例的，在一种语句划分方式中，可以根据待分类文本中标点符号的断句，对待分类文本进行划分，得到该待分类文本中包含的所有语句。

举例来说，假设待分类文本为从互联网媒体平台中获取到的新闻文本，在对该待分类文本进行分词处理时，可以根据其标点符号的断句，将文本分为K个语句的集合

，每个语句以一个句号结尾。

S1102、对语句进行分词处理，得到语句中包含的词汇。

对待分类文本的每个语句进行词汇的划分，示例地，在一种词汇发划分方式中，可以根据词典对待分类文本进行词汇划分，根据词典中包含的所有词汇对语句进行分词处理；示例地，在另一种词汇划分方式中，还可以依据分词模型等工具，通过分词模型的分词逻辑，以词汇为最小单位，对语句进行分词处理。另外，还可以包括其他分词方式，通过分词处理以得到待分类文本中包含的所有词汇。

举例来说，将待分类文本分为每个语句后，同时对每条语句进行分词处理，以词为最小单位，对每个语句进行分词处理，得到每条语句划分为m个词汇的集合

。

S120、从预设的语义库中查找词汇对应的语义，以及语义在语义库中的位置，得到语义的位置向量。

在本公开实施例中，词汇与其使用的上下文存在相关语义联系。其中语义库预先设定，存储有待分类文本中所有词汇的一个或多个语义。

具体地，在得到待分类文本的所有词汇后，可以从语义库中查找获得每个词汇对应的语义，以及每个语义在语义库中的位置，进而根据该语义的位置得到语义的位置向量。例如，语义库中包括词汇A的5个语义，语义库中共存储有N个语义，N为大于或等于5的整数；则如果词汇A对应的第一个语义在语义库的第一个存储位置上，则词汇A的第一个语义的位置向量可以表示为{Ψ₁,0, 0,0, ...,0_n}；类似的，假设第五个语义的位置向量可以表示为{0,0, 0,0, Ψ₅,...,0_n}。

S130、响应于词汇对应的语义有多个，基于词汇在文本中的上下文，确定词汇对应的每个语义的权重。

在本公开实施例中，词汇对应语义的权重可以是该语义与该词汇之间的语义关联程度的强弱，根据权重表示的数值越大，则该语义与该词汇之间的语义关联程度越强；若权重表示的数值越小，则该语义与该词汇之间的语义关系程度越弱。

具体地，在本公开实施例中可以利用量子复数语言模型对词汇以及词汇的上下文进行处理，得到该词汇与每个语义之间的复数值权重。

S140、基于词汇对应的每个语义的权重，对词汇对应的多个语义的位置向量进行加权叠加处理，得到词汇的特征向量。

在本公开实施例中，基于词汇对应的每个语义的权重和词汇对应的多个语义的位置向量，将该词汇建模为定义在N维希尔伯特空间Hⁿ上的量子概念，即每个词汇可以使用希尔伯特空间Hⁿ上的基础向量（即语义的位置向量）的叠加态来表示，即多个语义的位置向量与复数值权重的线性组合。也就是说，实际应用中，可以通过

表示词汇在希尔伯特空间Hⁿ上的特征向量。

其中，

是第j个语义的权重，可以利用量子复数语言模型处理得到，该权重是一个复数，

是非负实数且满足

，

为实数

对应的复数相位且满

。复数值权重也可以依据欧拉公式重新定义为

，其中

、

为可训练参数，

为词汇的第j个语义基态。

S150、基于文本中包含的词汇的特征向量，确定文本的特征向量。

在本公开实施例中，在得到每个词汇的特征向量后，可以由待分类文中所有词汇的特征向量经过投影测量并叠加来表示待分类文本的特征向量。

示例的，在本公开的一些实施例中，基于文本中包含的词汇的特征向量，确定文本的特征向量，具体包括如下步骤：

S1501、基于语句中包含的词汇的特征向量，确定语句的特征向量。

其中，基于语句中包含的词汇的特征向量，确定语句的特征向量，还包括：

将语句中包含的词汇的特征向量投影到语句的最后一个词汇上，将最后一个词汇的特征向量作为语句的特征向量。

在本公开实施例中，假设可以用一个词汇的特征构成一个语句状态空间的基态，根据量子复数语言模型中的投影测量可以计算第一个词汇的特征F（t₁）：

其中，密度矩阵

为构成语句量子系统的一个可观测量，用于表示该语句上每个词汇的概率分布；

表示第一个词汇构成的观测算子，即该语句在塌缩到第一个词汇上的状态特征表示。在本实施例中，

为可训练的复数参数，复数神经网络

也可以替换为CNN，LSTM和Transformer等神经网络及其变体的复数域拓展网络。

通过计算一个语句中第一个词汇的特征向量，经过第一个词汇的观测后，可以得到该语句构成的量子系统（即该语句上词汇的概率分布）变为第一个词汇的观测算子观测后的状态：

其中，分母

是对密度矩阵

的归一化计算，

为求特征矩阵迹的操作。

进一步地，为保留在量子复数语言模型中可观测量

的信息分布，进行酉演化运算，得到

：

其中，U为一个酉矩阵，U满足性质

，其中

是一个单位矩阵，U^H是U的共轭转置矩阵，酉演化过后的

可以称之为演化状态，表示为该语句在观测第一个词汇后该语句上每个词汇的概率分布状态。在本公开实施例中，U为满足酉矩阵性质的可训练的复数参数。

将第一次词汇的观测后的演化状态作为新的可观测量，通过量子复数语言模型投影测量可以计算第i个新闻词的特征表示：

同样地，经过第i个词汇观测后，演化状态

就会变换成词汇测量算子观测后的状态：

此时，酉演化后的观测状态为：

。

通过重复计算直到计算完该语句中所有词汇的特征向量，整个语句的特征表示

即为最后一个新闻词的特征表示。

在本公开实施例中，获取待分类文本中词汇之间的依赖关系的能力体现在每一步酉演化的计算上，根据酉演化后的观测状态，能够确定词与词之间的依赖关系。

S1502、基于文本中包含的语句的特征向量，确定文本的特征向量。

其中，基于文本中包含的语句的特征向量，确定文本的特征向量，还包括：

将文本中包含的语句的特征向量进行叠加，得到所有语句的叠加特征向量，将叠加特征向量作为文本的特征向量。

在本公开实施例中，每一个语句都最终形成一个特征表示

，假设可以用语句特征构成一个状态空间的基态，则整个待分类文本可以用状态空间的叠加态密度矩阵表示：

其中，

为第i个新闻语句S_i在整个新闻文本中的重要性（可以是词频、逆文本频率指数（即idf或tf-idf等值）），并需要满足归一化条件

，

表示第i个新闻语句S_i的测量算子。

S160、基于文本的特征向量对文本进行分类。

在本本公开实施例中，根据复数量子语言模型计算的待分类文本的特征向量表示，可以通过复数神经网络预测待分类文本l为第i类别的概率为：

其中复数神经网络

本公开实施例通过对待分类的文本进行分词处理，得到文本中包含的词汇；从预设的语义库中查找词汇对应的语义，以及语义在语义库中的位置，得到语义的位置向量；响应于词汇对应的语义有多个，基于词汇在文本中的上下文，确定词汇对应的每个语义的权重；基于词汇对应的每个语义的权重，对词汇对应的多个语义的位置向量进行加权叠加处理，得到词汇的特征向量；基于文本中包含的词汇的特征向量，确定文本的特征向量；基于文本的特征向量对文本进行分类。通过上述技术方案，可以将文本转化到量子领域，通过构造文本特征向量代替现有技术中利用多层神经网络进行文本分类的计算方法，降低文本分类的计算成本，并有效地提升了文本的分类准确率，进而提升用户获取新闻信息的体验。

在上述实施例的基础上，在对待分类文本进行类别预测分类之前，还可以使用语言模型及多分类任务中常用的损失函数去训练模型。

待分类文本语言模型任务的损失函数为计算语句的Perplexity（困惑度）的值：

其中，

为第i个语句S_i的出现概率，C为待分类文本中词的个数，t_i表示待分类文本第i个语句的特征向量。

其中，

，

。

Perplexity（L₁）值用于度量语言模型预测样本的好坏程度，其中L₁值越小，表示该模型越好。

新闻多分类任务的损失函数为计算新闻文本的交叉熵损失函数：

其中，Z为类别的数目，y_i用于表示类别为第i类的人工标记文本，Q（y_i）表示人工标记文本为第i类别的概率，l_i用于表示类别为第i类的待分类文本，P（l_i）为本发明计算的待分类文本为第i类别的概率，L₂的值用于表示神经网络预测待分类文本的结果与人工标记文本实际标签的相近程度，L₂的值越小，表示神经网络预测待分类文本的结果越准确。

最终的损失函数为：L=L₁+L₂,模型训练的目标使L尽可能减小。通过反向传播的训练方法，最后模型通过Adam优化器来更新模型的参数。

本公开实施例通过对构造词汇特征向量的量子复数语言模型，和对待分类文本进行预测的神经网络进行模型训练，能够提高将文本转化为量子领域进行分类处理的效率，并进一步提高了文本分类的准确性。

图2为本公开另一实施例提供的文本分类方法的流程示意图，如图2所示，该方法包括如下几个步骤：

S210、对待分类的文本进行分词处理，得到文本中包含的词汇。

具体的，S210和S110的实现过程和原理一致，此处不再赘述。

S220、基于词汇与身份标识之间的映射关系，确定文本中包含的词汇的身份标识。

具体地，在获得待分类文本的词汇后，根据预先设定好的词汇词表，词表中存有每个词汇对应的身份标识，根据词汇于其对应的身份标识之间的对应关系，基于词表可以确定待分类文本中每个词汇的身份标识。

示例地，例如待分类文本中存在一个“苹果”的词汇，对应的，在预设的此表中，“苹果”在词表中对应的身份标识为101，则可以确定“苹果”在待分类文中基于词表的身份标识。

S230、基于词汇的身份标识，从语义库中查找得到词汇对应的语义，以及语义在语义库中的位置。

具体的，得到待分类文本中每个词汇的身份标识后，基于得到的每个词汇的身份标识和潜在语义，从语义库中查找得到该词汇对应的语义，以及词汇对应的语义在语义库中的位置。

S240、基于语义在语义库中的位置，生成语义的位置向量。

具体地，S240与S120的实现过程和原理一致，在此不再赘述。

S250、响应于词汇对应的语义有多个，基于词汇在文本中的上下文，确定词汇对应的每个语义的权重。

具体地，S250和S130的实现过程和原理一致，在此不再赘述。

S260、基于词汇对应的每个语义的权重，对词汇对应的多个语义的位置向量进行加权叠加处理，得到词汇的特征向量。

具体的，S260和S140的实现过程和原理一致，此处不再赘述。

S270、基于语句中包含的词汇的特征向量，确定语句的特征向量。

具体的，S270和S1501的实现过程和原理一致，此处不再赘述。

可选的，在确定语句的特征向量之前，对待分类文本语句所包含的词汇集合S_i进行判断是否为空：当判断该词汇集合为空时，则表示该词汇集合中的所有词汇都已经过向量特征表示，此时该语句的最后一个词汇的特征向量即表示为该语句的特征向量；当判断该词汇集合不为空时，则表示该词汇集合中还有词汇没有经过向量特征表示，因此重复词汇构造复数词向量的步骤，直至词汇集合中所有词汇都构造为复数词向量。

S280、基于文本中包含的语句的特征向量，确定文本的特征向量。

具体的，S280和S1502的实现过程和原理一致，此处不再赘述。

可选地，在确定文本的特征向量之前，对待分类文本中包含的语句集合A进行判断是否为空：当判断该语句集合为空时，则表示待分类文本中的所有语句都已经经过向量特征表示，此时再进行所有语句特征向量的叠加态计算用于表示待分类文本的特征向量；当判断该语句集合不为空时，则表示该语句集合中仍有语句没有经过向量特征表示，此时继续重复构造语句特征向量的步骤，直至语句集合中所有语句都经过向量特征表示。

S290、基于文本的特征向量对文本进行分类。

具体的，S290和S160的实现过程和原理一致，此处不再赘述。

本公开实施例通过对每个词汇进行映射词表得到对应的身份标识，得到每个词汇对应的复数词向量；通过词汇特征向量转化为语句特征向量，将语句特征向量转化为文本特征向量，以实现将文本概念类比到量子领域，从而进一步的降低文本分类的计算成本，并提高文本分类的准确率。

图3为本公开实施例提供的文本分类装置的结构示意图。本公开实施例提供的文本分类装置可以执行文本分类方法实施例提供的处理流程，如图3所示，文本分类装置300包括：词汇获取模块310、位置向量获取模块320、语义权重确定模块330、词汇特征向量确定模块340、文本特征向量确定模块350、文本分类模块360。

词汇获取模块310，用于对待分类的文本进行分词处理，得到文本中包含的词汇。

位置向量获取模块320，用于从预设的语义库中查找词汇对应的语义，以及语义在语义库中的位置，得到语义的位置向量。

语义权重确定模块330，用于响应于词汇对应的语义有多个，基于词汇在文本中的上下文，确定词汇对应的每个语义的权重。

词汇特征向量确定模块340，用于基于词汇对应的每个语义的权重，对词汇对应的多个语义的位置向量进行加权叠加处理，得到词汇的特征向量。

文本特征向量确定模块350，用于基于文本中包含的词汇的特征向量，确定文本的特征向量。

文本分类模块360，用于基于文本的特征向量对文本进行分类。

本公开实施例提供的文本分类装置，通过对待分类的文本进行分词处理，得到文本中包含的词汇；从预设的语义库中查找词汇对应的语义，以及语义在语义库中的位置，得到语义的位置向量；响应于词汇对应的语义有多个，基于词汇在文本中的上下文，确定词汇对应的每个语义的权重；基于词汇对应的每个语义的权重，对词汇对应的多个语义的位置向量进行加权叠加处理，得到词汇的特征向量；基于文本中包含的词汇的特征向量，确定文本的特征向量；基于文本的特征向量对文本进行分类。通过上述装置，可以将文本转化到量子领域，通过构造文本特征向量代替现有技术中利用多层神经网络进行文本分类的计算方法，降低文本分类的计算成本，并有效地提升了文本的分类准确率，进而提升用户获取新闻信息的体验。

在一些实施例中，词汇获取模块310还包括语句获取单元和词汇获取单元：

语句获取单元，用于对待分类的文本进行语句划分处理，得到文本中包含的语句。

词汇获取单元，用于对语句进行分词处理，得到语句中包含的词汇。

在一些实施例中，文本特征向量获取模块350还包括语句特征向量确定单元和文本特征向量确定单元。

语句特征向量确定单元，用于基于语句中包含的词汇的特征向量，确定语句的特征向量；

文本特征向量确定单元，用于基于文本中包含的语句的特征向量，确定文本的特征向量。

在一些实施例中，语句特征向量确定单元具体用于将语句中包含的词汇的特征向量投影到语句的最后一个词汇上，将最后一个词汇的特征向量作为语句的特征向量。

在一些实施例中，文本特征向量确定单元具体用于将文本中包含的语句的特征向量进行叠加，得到所有语句的叠加特征向量，将叠加特征向量作为文本的特征向量。

在一些实施例中，语义库中存储有多个语义以及关联每个语义的词汇的身份标识，位置向量获取模块320还包括身份标识确定单元、查找单元、位置向量生成单元。

身份标识确定单元，用于基于词汇与身份标识之间的映射关系，确定文本中包含的词汇的身份标识。

查找单元，用于基于词汇的身份标识，从语义库中查找得到词汇对应的语义，以及语义在语义库中的位置。

位置向量生成单元，用于语义在语义库中的位置，生成语义的位置向量。

图3所示实施例的文本分类装置可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图4为本公开实施例提供的计算机设备的结构示意图。该计算机设备可以是如上实施例所述的终端。本公开实施例提供的计算机设备可以执行文本分类方法实施例提供的处理流程，如图4所示，计算机设备400包括：存储器410、处理器420、计算机程序和通讯接口430；其中，计算机程序存储在存储器410中，并被配置为由处理器420执行如上所述的文本分类方法。

另外，本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述实施例所述的文本分类方法。

此外，本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序或指令，该计算机程序或指令被处理器执行时实现如上所述的文本分类方法。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本分类方法，其特征在于，所述方法包括：

对待分类的文本进行分词处理，得到所述文本中包含的词汇；

基于词汇与身份标识之间的映射关系，确定所述文本中包含的词汇的身份标识；

基于所述词汇的身份标识，从预设的语义库中查找得到所述词汇对应的语义，以及所述语义在所述语义库中的位置，所述语义库中存储有多个语义以及每个语义关联的词汇的身份标识；

基于所述语义在所述语义库中的位置，生成所述语义的位置向量；

响应于所述词汇对应的语义有多个，基于所述词汇在所述文本中的上下文，确定所述词汇对应的每个语义的权重；

基于所述词汇对应的每个语义的权重，对所述词汇对应的多个语义的位置向量进行加权叠加处理，得到所述词汇的特征向量；

基于所述文本中包含的词汇的特征向量，确定所述文本的特征向量；

基于所述文本的特征向量对所述文本进行分类。

2.根据权利要求1所述的方法，其特征在于，所述对待分类的文本进行分词处理，得到所述文本中包含的词汇，包括：

对待分类的文本进行语句划分处理，得到所述文本中包含的语句；

对所述语句进行分词处理，得到所述语句中包含的词汇。

3.根据权利要求2所述的方法，其特征在于，所述基于所述文本中包含的词汇的特征向量，确定所述文本的特征向量，包括：

基于所述语句中包含的词汇的特征向量，确定所述语句的特征向量；

基于所述文本中包含的语句的特征向量，确定所述文本的特征向量。

4.根据权利要求3所述的方法，其特征在于，所述基于所述语句中包含的词汇的特征向量，确定所述语句的特征向量，包括：

将所述语句中包含的词汇的特征向量投影到所述语句的最后一个词汇上，将所述最后一个词汇的特征向量作为所述语句的特征向量。

5.根据权利要求3所述的方法，其特征在于，所述基于所述文本中包含的语句的特征向量，确定所述文本的特征向量，包括：

将所述文本中包含的语句的特征向量进行叠加，得到所有语句的叠加特征向量，将所述叠加特征向量作为所述文本的特征向量。

6.一种文本分类装置，其特征在于，包括：

词汇获取模块，用于对待分类的文本进行分词处理，得到所述文本中包含的词汇；

位置向量获取模块，用于基于词汇与身份标识之间的映射关系，确定所述文本中包含的词汇的身份标识；基于所述词汇的身份标识，从预设的语义库中查找得到所述词汇对应的语义，以及所述语义在所述语义库中的位置，所述语义库中存储有多个语义以及每个语义关联的词汇的身份标识；基于所述语义在所述语义库中的位置，生成所述语义的位置向量；

语义权重确定模块，用于响应于所述词汇对应的语义有多个，基于所述词汇在所述文本中的上下文，确定所述词汇对应的每个语义的权重；

词汇特征向量获取模块，用于基于所述词汇对应的每个语义的权重，对所述词汇对应的多个语义的位置向量进行加权叠加处理，得到所述词汇的特征向量；

文本特征向量确定模块，用于基于所述文本中包含的词汇的特征向量，确定所述文本的特征向量；

文本分类模块，用于基于所述文本的特征向量对所述文本进行分类。

7.根据权利要求6所述的装置，其特征在于，所述词汇获取模块，用于：

对所述语句进行分词处理，得到所述语句中包含的词汇。

8.根据权利要求7所述的装置，其特征在于，所述文本特征向量获取模块用于：

9.根据权利要求8所述的装置，其特征在于，所述文本特征向量获取模块在基于所述语句中包含的词汇的特征向量，确定所述语句的特征向量时，用于：

10.根据权利要求8所述的装置，其特征在于，所述文本特征向量获取模块在基于所述文本中包含的语句的特征向量，确定所述文本的特征向量时，用于：

11.一种计算机设备，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-5中任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的方法。