CN114817526A

CN114817526A - 文本分类方法及装置、存储介质、终端

Info

Publication number: CN114817526A
Application number: CN202210158893.7A
Authority: CN
Inventors: 于祥雨; 姚昱材
Original assignee: Huayuan Computing Technology Shanghai Co ltd
Current assignee: Huayuan Computing Technology Shanghai Co ltd
Priority date: 2022-02-21
Filing date: 2022-02-21
Publication date: 2022-07-29
Anticipated expiration: 2042-02-21
Also published as: CN114817526B

Abstract

一种文本分类方法及装置、存储介质、终端，所述方法包括：获取待分类文本；对所述待分类文本进行分词处理，以得到多个分词结果；根据所述多个分词结果和预设的特征词集合，生成所述待分类文本的编码向量，所述编码向量用于表示所述多个分词结果是否包含各个特征词；根据各个分词结果的词向量和所述编码向量，确定所述待分类文本的类别。通过本发明的方案，可以准确地确定文本的类别。

Description

文本分类方法及装置、存储介质、终端

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种文本分类方法及装置、存储介质、终端。

背景技术

随着人工智能技术的发展，自然语言处理(Nature Language Processing， NLP)技术在各个领域的应用愈加广泛。文本分类是自然语言处理中的一项基础任务，基于文本分类技术，可以自动地确定文本所属的类别，从而可以根据文本所属的类别进行后续的处理。然而现有技术中，文本分类的准确性仍然有待提高。

经过研究发现，文本分类的关键步骤是文本表示，以使机器能够尽可能地理解文本的内容。现有技术中，通常将文本中的词表示为词向量的形式，并基于词向量确定文本的类别。采用这样的方案时，文本表示的形式较为单一，无法充分地表达文本的语义，另外，相同的词在不同领域(例如，技术领域、应用领域等)中也可能有不同的语义，因此，现有的文本分类的准确性仍然有待提高。

因此，亟需一种文本分类方法，能够更加准确地确定文本的类别。

发明内容

本发明解决的技术问题是提供一种文本分类方法，能够更加准确地确定文本的类别。

为了解决这一技术问题，本发明实施例提供一种文本分类方法，在本实施例的方案中，根据待处理文本的多个分词结果和预设的特征词集合，生成待分类文本的编码向量，然后根据各个分词结果的词向量和编码向量，确定待分类文本的类别。由于编码向量可以用于标识多个分词结果中是否包含各个特征词，因此，编码向量能够以数值化的形式充分、有效且准确地表征待分类文本的信息，将编码向量与词向量相结合，有利于提高文本分类的准确性。

为解决上述技术问题，本发明实施例提供一种文本分类方法，所述方法包括：获取待分类文本；对所述待分类文本进行分词处理，以得到多个分词结果；根据所述多个分词结果和预设的特征词集合，生成所述待分类文本的编码向量，所述编码向量用于表示所述多个分词结果是否包含各个特征词；根据各个分词结果的词向量和所述编码向量，确定所述待分类文本的类别。

可选的，根据各个分词结果的词向量和所述编码向量，确定所述待分类文本的类别包括：根据所述各个分词结果的词向量，计算所述待分类文本的第一特征向量；根据所述编码向量，计算所述待分类文本的第二特征向量；对所述第一特征向量和第二特征向量进行融合处理，以得到所述待分类文本的总特征向量；根据所述总特征向量，确定所述待分类文本的类别。

可选的，对所述待分类文本进行分词处理，以得到多个分词结果包括：对所述待分类文本进行分词处理，以得到多个初始分词结果；从所述多个初始分词结果中剔除干扰信息，以得到所述多个分词结果；其中，所述干扰信息包括以下一项或多项：数字、预设的停用词、字数小于等于预设值的分词结果和标点符号。

可选的，根据各个分词结果的词向量和所述编码向量，确定所述待分类文本的类别之前，所述方法还包括：构建分类模型，所述分类模型包括：第一特征提取模块、第二特征提取模块、融合模块和分类模块；获取样本文本和所述样本文本的类别标签；对所述样本文本进行分词处理，以得到所述样本文本的多个分词结果，记为多个样本分词结果；将所述多个样本分词结果输入至所述第一特征提取模块，以得到所述第一特征提取模块输出的所述样本文本的第一特征向量，记为第一样本特征向量；根据所述多个样本分词结果和所述预设的特征词集合，生成所述样本文本的编码向量，记为样本编码向量；将所述样本编码向量输入至所述第二特征提取模块，以得到所述第二特征提取模块输出的第二样本特征向量；将所述第一样本特征向量和第二样本特征向量输入至所述融合模块，以得到所述融合模块输出的融合后的样本特征向量；将所述融合后的样本特征向量输入至所述分类模块，以得到所述分类模块输出的预测类别；根据所述预测类别和所述类别标签，计算预测损失，并根据所述预测损失更新所述分类模型，直至满足预设的训练停止条件。

可选的，根据所述多个样本分词结果和所述预设的特征词集合，生成所述样本文本的编码向量包括：将所述预设的特征词集合中多个特征词的顺序进行随机打乱，以得到更新后的特征词集合；根据所述多个样本分词结果和所述更新后的特征词集合，生成所述样本编码向量。

可选的，所述编码向量的维度和所述预设的特征词集合中的特征词一一对应，对于每个特征词，如果所述多个分词结果包含该特征词，则该特征词对应的维度的值为1，否则为0。

可选的，所述方法还包括：获取用户终端针对所述待分类文本给出的准确度，所述用户终端为请求所述待分类文本的类别的终端；判断所述准确度是否小于预设值，如果是，则将所述待分类文本记为增量文本；当所述增量文本的数量大于或等于预设数量时，更新所述预设的特征词集合。

可选的，对所述待分类文本进行分词处理之前，所述方法还包括：向发送所述待分类文本的用户终端发送标识，所述标识用于唯一确定所述待分类文本；所述方法还包括：将所述待分类文本的类别存储至缓存区域，当接收到所述用户终端发送的标识时，将所述标识对应的待分类文本的类别发送至所述用户终端，并将所述待分类文本的类别从所述缓存区域移动至永久存储区域。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

在本发明实施例的方案中，根据待处理文本的多个分词结果和预设的特征词集合，生成待分类文本的编码向量，然后根据各个分词结果的词向量和编码向量，确定待分类文本的类别。由于编码向量可以用于标识多个分词结果中是否包含各个特征词，因此，编码向量能够以数值化的形式充分、有效且准确地表征待分类文本的信息，将编码向量与词向量相结合，有利于提高文本分类的准确性。

进一步地，本发明实施例的方案中，从待分类文本的多个初始分词结果中剔除干扰信息，以得到所述多个分词结果；其中，所述干扰信息包括以下一项或多项：数字、预设的停用词、字数小于等于预设值的分词结果和标点符号。采用这样的方案，可以尽可能地过滤待分类文本中与类别无关的干扰信息，有利于后续更加准确地确定待分类文本的类别。

进一步地，本发明实施例的方案中，将所述预设的特征词集合中多个特征词的顺序进行随机打乱，以得到更新后的特征词集合；根据所述多个样本分词结果和所述更新后的特征词集合，生成所述样本编码向量。采用这样的方案，可以使分类模型不易陷入局部最优，使分类模型更容易达到收敛。

进一步地，本发明实施例的方案中，如果用户终端针对待分类文本给出的准确度小于预设值时，判断该待分类文本为增量文本，当增量文本达到预设数量时，对预设的特征词集合进行更新。采用这样的方案，可以不断优化特征词，使得特征词具有更好的表征效果，有利于进一步提高分类的准确性。

附图说明

图1是本发明实施例中一种文本分类方法的流程示意图；

图2是本发明实施例中一种分类模型的结构示意图；

图3是本发明实施例中一种文本分类方法的应用场景示意图；

图4是本发明实施例中一种文本分类装置的结构示意图；

图5是本发明实施例中一种文本分类系统的架构示意图。

具体实施方式

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

参照图1，图1是本发明实施例中一种文本分类方法的流程示意图。所述方法可以由终端执行，所述终端可以是现有的各种具有数据接收和数据处理能力的终端设备，例如，可以是手机、计算机、物联网设备和服务器等，但并不限于此。通过本发明实施例提供的方案，可以准确地确定待分类文本所属的类别。

本发明实施例提供的文本分类方法可以应用于多种领域(例如，技术领域、应用领域等)，下面仅示例性地对本发明实施例的应用领域进行非限制性的说明。

在一个具体的例子中，待分类文本可以是与公共事务管理相关的文本。具体而言，待分类文本可以是群众针对公共事务管理中的现象进行留言、反馈或者投诉而产生的文本。通过本发明实施例的方案，可以确定待分类文本在多个预设类别中对应的类别，所述多个预设类别可以包括以下多项的任意组合：交通出行、环保绿化、卫生健康等。进一步地，可以根据待分类文本的类别，将待分类文本发送至与类别相对应的终端进行后续处理。

图1示出的文本分类方法可以包括以下步骤：

步骤S101：获取待分类文本；

步骤S102：对所述待分类文本进行分词处理，以得到多个分词结果；

步骤S103：根据所述多个分词结果和预设的特征词集合，生成所述待分类文本的编码向量；

步骤S104：根据各个分词结果的词向量和所述编码向量，确定所述待分类文本的类别。

可以理解的是，在具体实施中，所述方法可以采用软件程序的方式实现，该软件程序运行于芯片或芯片模组内部集成的处理器中；或者，该方法可以采用硬件或者软硬结合的方式来实现。

在步骤S101的具体实施中，待分类文本可以是从外部终端实时获取的，其中，外部终端可以是执行本发明实施例的文本分类方法的终端以外的其他终端；待分类文本还可以是预先存储在执行本发明实施例的文本分类方法的终端的存储器中的，还可以是从执行本发明实施例的文本分类方法的终端耦接的数据库中读取的，本实施例对此并不进行限制。本实施例对于待分类文本的存储形式并不进行限制，可以是以MySQL、Hive、HDFS等数据仓库支持的数据格式进行存储。

在其他实施例中，所述待分类文本还可以是基于语音识别技术对音频数据进行语音识别得到的，也可以是基于文字识别技术对图像中的文字进行识别得到的，但并不限于此。

需要说明的是，本实施例对于待分类文本的格式并不进行限制，所述待分类文本可以是文档(Document，DOC)格式，也可以可携带文档(Portable Document Format，PDF)格式等，还可以是文本(Text，TXT)格式，但并不限于此。

还需要说明的是，待分类文本可以是包含任意一种或多种类型的文字，例如，中文、英文等，本实施例对此并不进行限制。另外，本实施例对于待分类文本的长度也并不进行限制，待分类文本可以是句子、段落，还可以是文章等。

在步骤S102的具体实施中，可以对待分类文本进行分词处理，以得到多个分词结果。需要说明的是，本实施例对于分词处理的具体方法并不进行限制，可以采用现有的适当的各种分词算法对待分类文本进行分词处理，例如，可以是Jieba分词算法，还可以是基于隐马尔可夫模型的分词算法等。

在具体实施中，可以对待处理分类方法进行分词处理，以得到多个初始分词结果。具体而言，可以预先构建自定义词袋，所述自定义词袋包括多个词。所述自定义词袋可以是根据待分类文本所属的领域确定。进一步地，基于自定义词袋对待分类文本进行分词处理，以得到多个初始分词结果。

在一个具体的例子中，可以采用词频-逆向文件频率(Term Frequency-InverseDocument Frequency，TF-IDF)算法计算多个样本文本中的各个词的权重，并选取权重大于预设的权重阈值的词，由此得到自定义词袋。其中，多个样本文本与待分类文本属于同一领域，词的权重可以是指词在多个样本文本中的词频(Term Frequency)。

需要说明的是，相较于直接采用通用的词袋对待分类文本进行分词处理，采用这样的方案，可以使分词结果更加准确，有利于提高特定领域的文本表示的准确性，从而有利于提高后续分类的准确性。

进一步地，可以从多个初始分词结果中剔除干扰信息，以得到多个分词结果，其中，干扰信息可以包括以下一项或多项：数字、预设的停用词(Stop Words)、字数小于等于预设值的分词结果和标点符号。其中，字数小于等于预设值的分词结果可以是指单字，也即，可以剔除单字。需要说明的是，干扰信息的具体内容可以是根据待分类文本所属的领域确定的。本领域技术人员可以根据实际需求设置干扰信息，本实施例对此并不进行限制。

在公共事务管理的应用场景中，文本中包含的数字通常为身份证号码、手机号码、时间日期、钱财金额、重量、数量等，这些数字对于文本的类别缺乏指导作用，因此将数字作为干扰信息能够在不影响模型性能的前提下降低模型学习的复杂度。

采用这样的方案，可以尽可能地过滤待分类文本中与类别无关的干扰信息，有利于后续更加准确地确定待分类文本的类别。

进一步地，以待分类文本“2017年7月以来，大场镇健康一路和健康二路的路口每天傍晚5点左右经常出现交通拥堵的情况”为例，对步骤S102 的处理过程进行进一步说明。

可以对该待分类文本进行分词处理，以得到多个初步分词结果：'2017'，' 年'，'7'，'月'，'以'，'来'，'，'，'大场镇'，'健康一路'，'健康二路'，'的'，'路口'， '每天'，'傍晚'，'5'，'点'，'左右'，'经常'，'出现'，'交通'，'拥堵'，'的'，'情况'，′。′。

进一步地，可以剔除其中的数字、停用词、标点符号和单字，以得到该待分类文本的多个分词结果：'大场镇'，'健康一路'，'健康二路'，'路口'，'每天 '，'傍晚'，'出现'，'交通'，'拥堵'。

在步骤S103的具体实施中，可以读取预设的特征词集合，所述预设的特征词集合也可以是预先定义的，特征词集合可以包括多个特征词。其中，特征词可以是指对于文本的类别具有高表征效果的词。在具体实施中，特征词集合中的多个特征词可以是选自上述的自定义词袋。

在一个具体的例子中，对于多个样本文本，可以分别采用多种算法确定多个自定义词袋，然后将多个自定义词袋中均存在的词作为特征词，以得到特征词集合。所述多种算法可以包括以下任意多项的组合：TF-IDF算法、BM25 算法以及信息熵等算法。其中，可以采用每种算法计算多个样本文本中各个词的权重，并选取权重大于预设的权重阈值的词，以得到该种算法得到的自定义词袋。

进一步地，根据预设的特征词集合和待分类文本的多个分词结果，可以生成待分类文本的编码向量。

具体而言，编码向量的维度的数量与特征词集合中特征词的数量相同，且编码向量的维度与特征词集合中的特征词一一对应。

进一步地，对于每个特征词，如果待分类文本的多个分词结果中包含该特征词，则该特征词对应的维度的值为1，否则为0，由此可以得到待分类文本的编码向量。

更具体地，多个特征词在特征词集合中顺序排列，每个特征词具有唯一的序号。如果待分类文本的多个分词结果中包含序号为i的特征词，则编码向量中第i维度的值为1，否则第i维度的值为0。其中，i为正整数。

以预设的特征词集合包含1000个特征词为例，编码向量的维度的数量为 1000，对待分类文本“2017年7月以来，大场镇健康一路和健康二路的路口每天傍晚5点左右经常出现交通拥堵的情况”执行步骤S102之后，可以得到该待分类文本剔除干扰信息之后的多个分词结果为：'大场镇'，'健康一路'，' 健康二路'，'路口'，'每天'，'傍晚'，'出现'，'交通'，'拥堵'。其中，包含的特征词有：'路口'，'交通'和'拥堵'，且对应的序号依次为695、208和149，则该待分类文本的编码向量中第149维、第208维和第695维的值为1，其他维度的值为0。

在其他实施例中，对于每个特征词，如果待分类文本的多个分词结果中包含该特征词，则该特征词对应的维度的值为该特征词的权重；如果待分类文本的多个分词结果中不包含该特征词，则该特征词对应的维度的值为0。其中，特征词的权重可以是指包含该特征词的样本文本的数量占所有样本文本的数量的比值。

由上，可以通过待分类文本的编码向量体现待分类文本包含的特征词和未包含的特征词，由于特征词是对于类别具有高表征效果的词，因此，编码向量能够以数值化的形式充分有效且准确地表征待分类文本的信息。

进一步地，在执行步骤S104之前，可以先构建并训练得到分类模型，所述分类模型用于根据待分类文本的分词结果和编码向量，确定待分类文本的类别。

参照图2，图2是本发明实施例中一种分类模型的结构示意图。如图2所示，分类模型可以包括：第一特征提取模块101、第二特征提取模块102、融合模块103和分类模块104。

下面结合图2，就分类模型的训练过程进行非限制性的说明。

在具体实施中，可以获取样本文本和样本文本的类别标签，类别标签用于指示样本文本所属的类别。需要说明的是，样本文本和待分类文本属于同一个领域。

进一步地，可以对样本文本进行分词处理，以得到样本文本的多个分词结果，记为多个样本分词结果。

关于对样本文本进行分词处理的更多内容可以参照上文关于步骤S102的具体描述，在此不再赘述。

进一步地，可以将多个样本分词结果输入至第一特征提取模块101，以得到第一特征提取模块101输出的样本文本的第一特征向量，记为第一样本特征向量。

具体而言，所述第一特征提取模块101可以包括：嵌入层和至少一个第一全连接层。在训练过程中，嵌入层的输入为多个样本分词结果，嵌入层可以用于基于每个样本分词结果生成该样本分词结果的词向量，其中，样本分词结果的词向量是样本分词结果的嵌入(Embedding)表示。

进一步地，嵌入层还可以用于确定各个样本分词结果的权重，并根据各个样本分词结果的权重和词向量，进行加权求和，以得到样本文本的嵌入向量。在具体实施中，可以采用词频-逆向文件频率(Term Frequency-Inverse Document Frequency，TF-IDF)算法计算各个样本分词结果的权重，但并不限于此。

进一步地，可以将样本文本的嵌入向量输入至第一全连接层，在训练阶段，第一全连接层用于对样本文本的嵌入向量进行特征提取，以得到第一样本特征向量。第一全连接层的输出即为第一特征提取模块101的输出。

在一个具体的例子中，第一特征提取模块101包含1个第一全连接层，其中，该第一全连接层的神经元数量可以为256，但并不限于此。

进一步地，可以根据多个样本分词结果和预设的特征词集合，生成样本文本的编码向量，记为样本编码向量。

关于生成样本编码向量的具体内容可以参照上文关于步骤S103的相关描述，在此不再赘述。

进一步地，可以将样本编码向量输入至第二特征提取模块102，以得到第二特征提取模块102输出的第二样本特征向量。

具体而言，第二特征提取模块102可以包括：多个第二全连接层，在训练阶段，多个第二全连接层用于对样本编码向量进行特征提取，以得到第二样本特征向量。其中，第一个第二全连接层的输入为样本编码向量，自第二个第二全连接层开始，输入为上一个第二全连接层的输出，最后一个第二全连接层的输出即为第二特征提取模块102的输出。

在一个具体的例子中，第二特征提取模块102包含2个第二全连接层，其中，第一个第二全连接层的神经元数量可以为512，第二个第二全连接层的神经元数量可以为256，但并不限于此。

进一步地，可以将第一样本特征向量和第二样本特征向量输入至融合模块103，以得到融合模块103输出的融合后的样本特征向量。

具体而言，融合模块103可以包括：拼接子模块和第三全连接层，在训练阶段，所述拼接子模块用于将第一样本特征向量和第二样本特征向量进行拼接，以得到拼接后的样本特征向量，然后将拼接后的样本特征向量输入至第三全连接层，以得到第三全连接层输出的融合后的样本特征向量，也即，第三全连接层的输出即为融合模块103的输出。

更具体地，第三全连接层的神经元数量与预设的类别的数量相同。

进一步地，可以将融合后的样本特征向量输入至分类模块104，以得到分类模块104输出的预测类别。所述分类模块104可以是现有的各种适当的分类器(Classifier)，本实施例对此并不进行限制。

进一步地，可以根据预测类别和类别标签，计算预测损失，更具体地，可以根据预测类别、类别标签和预设的损失函数，确定预测损失。其中，损失函数可以是Softmax函数，但并不限于此。

进一步地，可以根据预测损失更新分类模型，直至满足预设的训练停止条件。其中，更新分类模型可以包括：更新分类模型中各个全连接层中神经元之间的连接权重等，预设的训练停止条件可以包括以下一项或多项：更新的次数达到第一预设阈值、预测损失小于第二预设阈值、正确率达到第三预设阈值，但并不限于此。由此，可以得到本发明实施例中的分类模型。

在一个非限制性的例子中，在生成样本文本的编码向量之前，还可以对预设的特征词集合中多个特征词的顺序进行随机打乱，以得到更新后的特征词集合。

进一步地，可以根据多个样本分词结果和更新后的特征词集合，生成样本编码向量。可以理解的是，对于同样的样本文本，基于更新前的特征词集合生成的样本编码向量，与基于更新后的特征词集合生成的样本编码向量是不同的，但类别标签是相同的。采用这样的方案，可以使分类模型不易陷入局部最优，分类模型更容易达到收敛。

为了提高训练速度，可以将预设数量的样本文本作为一个批次的训练数据，下面以一个具体的例子对分类模型的训练过程进行非限制性的说明。

每个批次的样本文本的数量为64，特征词集合中特征词的数量为1000，预设的类别的数量为49。

首先，可以将各个样本文本的分词结果输入至第一特征提取模块101，嵌入层可以基于该批次的样本文本的分词结果输出各个样本文本的嵌入表示，也即，嵌入层的输出可以为(64，300)矩阵。

进一步地，可以将(64,300)矩阵输入至第一全连接层，第一全连接层的神经元数量为256，则第一全连接层的输出为(64，256)矩阵。进一步地，可以根据该批次的样本文本的分词结果和特征词集合，生成该批次样本文本的编码向量，然后可以将编码向量输入至第二特征提取模块102。也即，第一个第二全连接层的输入可以为(64，1000)矩阵。更进一步地，第一个第二全连接层的神经元的数量为512个，第二个第二全连接层的神经元的数量为256个，则第二个第二全连接层的输出为(64，256)矩阵。

进一步地，可以将第一特征提取模块101输出的(64，256)矩阵和第二特征提取模块102输出的(64，256)矩阵进行拼接，以得到拼接后的样本特征向量(64，512)矩阵。

进一步地，可以对拼接后的样本特征向量(64，512)矩阵进行丢弃(Drop out)处理，并将处理后的结果输入至第三全连接层，其中，第三全连接层的神经元数量为49，即可得到融合后的样本特征向量，即为(64，49)矩阵。

进一步地，可以将(64，49)矩阵输入至分类模块104，以得到(64，1) 矩阵，由此可以得到该批次中各个样本文本的预测类别。

继续参照图1，在步骤S104的具体实施中，可以将多个分词结果和编码向量输入至分类模型，以得到分类模型输出的类别。

具体而言，一方面，可以将待分类文本的多个分词结果输入至第一特征提取模块，以得到第一特征提取模块输出的第一特征向量。

更具体地，第一特征提取模块计算第一特征向量的具体过程可以包括：计算待分类文本中各个分词结果的词向量，并确定各个分词结果的权重值，然后可以根据各个分词结果的词向量和权重值进行加权求和处理，以得到待分类文本的嵌入向量。进一步地，可以对待分类文本的嵌入向量进行特征提取，以得到待分类文本的第一特征向量。

另一方面，可以将待分类文本的编码向量输入至第二特征提取模块，以对编码向量进行特征提取，从而待分类文本的第二特征向量。

进一步地，可以采用融合模块，对第一特征向量和第二特征向量进行融合处理，以得到待分类文本的总特征向量。

在一个具体的例子中，对第一特征向量和第二特征向量进行融合处理可以包括：对第一特征向量和第二特征向量进行拼接处理，以得到拼接后的特征向量；然后将拼接后的特征向量的维度的数量转化为预设的类别的数量，以得到待分类文本的总特征向量。

进一步地，可以采用分类模块，根据待分类文本的总特征向量确定待分类文本的类别。

在其他实施例中，还可以根据待分类文本的各个分词结果的词向量确定待分类文本的第一分类结果，并根据待分类文本的编码向量确定待分类文本的第二分类结果，然后根据第一分类结果和第二分类结果，确定待分类文本的类别。

在具体实施中，第一分类结果可以包括待分类文本属于各个预设的类别的第一概率，第二类别结果可以包括待分类文本属于各个预设的类别的第二概率。进一步地，对于每个预设的类别，可以按照预先设置的权重，对第一概率和第二概率进行加权求和，以得到待分类文本属于该预设的类别的概率；然后确定概率最大的类别作为待分类文本的类别。由上，可以准确地确定待分类文本的类别。

以上文所述的待分类文本“2017年7月以来，大场镇健康一路和健康二路的路口每天傍晚5点左右经常出现交通拥堵的情况”为例，对步骤S103进行说明。

如上文所述，该待分类文本剔除干扰信息后得到的多个分词结果为：'大场镇'，'健康一路'，'健康二路'，'路口'，'每天'，'傍晚'，'出现'，'交通'，'拥堵'，可以将所述多个分词结果输入至第一特征提取模块101，以得到该待分类文本的第一特征向量。

又如上文所述，该待分类文本包含的特征词有：'路口'，'交通'和'拥堵'，且对应的序号依次为695、208和149，则该待分类文本的编码向量中第149 维、第208维和第695维的值为1，其他维度的值为0。进一步地，可以将该待分类文本的编码向量输入至第二特征提取模块102，以得到该待分类文本的第二特征向量。

进一步地，融合模块对上述待分类文本的第一特征向量和第二特征向量进行拼接处理，以得到该待分类文本的总特征向量。进一步地，分类模块可以基于该待分类文本的总特征向量，输出该待分类文本的类别，即为“交通出行”。

参照图3，图3是本发明实施例中一种文本分类方法的应用场景示意图。下面结合图3对本发明实施例中的文本分类方法及其应用场景进行非限制性的说明。

如图3所示，用户终端301与执行终端302耦接，其中，用户终端301 可以是请求待分类文本的类别的终端，执行终端302可以是执行本发明实施例中文本分类方法的终端。其中，待分类文本可以是短文本，短文本可以是指字符数小于预设的字数阈值的文本。

在具体实施中，用户终端301可以向执行终端302发送待分类文本，执行终端302接收到待分类文本后，可以向用户终端发送标识，该标识用于唯一确定待分类文本。

进一步地，执行终端302可以执行本发明实施例中的文本分类方法，以得到待分类文本的类别，执行终端302可以直接将待分类文本的类别发送至用户终端，也可以在用户终端301再次请求待分类文本的类别时，将待分类文本的类别发送至用户终端。

在一个非限制性的例子中，得到待分类文本的类别之后，可以将待分类文本的类别存储于缓存区域，当接收到用户终端发送的标识时，可以根据所述标识从缓存区域读取标识对应的待分类文本的类别，并发送至用户终端 301。进一步地，还可以将待分类文本的类别从缓存区域移动至永久存储区域。所述永久存储区域可以是数据库等，但并不限于此。

进一步地，执行终端302还可以接收用户终端301针对待分类文本给出的准确度，可以判断准确度是否小于预设值，如果是，则可以将该待分类文本记为增量文本。换言之，增量文本为被用户终端标记为分类准确度较低的文本。

进一步地，当增量文本的数量大于或等于预设数量时，可以更新预设的特征词集合。其中，更新预设的特征词集合可以包括：剔除至少一个特征词，和/或，替换至少一个特征词。在其他实施例中，当增量文本的数量达到预设数量时，可以将预设数量个增量文本及增量文本的标签作为增量数据集，并采用增量数据集对分类模型进行进一步地训练，以得到优化后的分类模型。其中，增量数据集中增量文本的标签为增量文本的实际的类别标签。采用这样的方案，有利于提高分类模型的性能，从而提高文本分类的准确度。

参照图4，图4是本发明实施例中一种文本分类装置的结构示意图。如图 4所示，文本分类装置包括：

获取模块41，用于获取待分类文本；

预处理模块42，用于对所述待分类文本进行分词处理，以得到多个分词结果；

编码模块43，用于根据所述多个分词结果和预设的特征词集合，生成所述待分类文本的编码向量，所述编码向量用于表示所述多个分词结果是否包含各个特征词；

分类模块44，用于根据各个分词结果的词向量和所述编码向量，确定所述待分类文本的类别。

关于本发明实施例中的文本分类装置的工作原理、工作方法和有益效果等更多内容，可以参照上文关于文本分类方法的相关描述，在此不再赘述。

本发明实施例还提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时，执行上述的文本分类方法的步骤。所述存储介质可以包括ROM、RAM、磁盘或光盘等。所述存储介质还可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器等。

本发明实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述的文本分类方法的步骤。所述终端包括但不限于手机、计算机、平板电脑等终端设备。

参照图5，图5是本发明实施例中一种文本分类系统的架构图，所述文本分类系统可以部署于服务器上，但并不限于此。其中，所述服务器可以是Linux 服务器。

具体而言，服务器可以安装有MySQL数据库、Python软件和远程字典服务(RemoteDictionary Server，Redis)数据库。

进一步地，可以基于Django框架搭建文本分类系统根据待分类文本的属性设置相应的数据库表及表字段，数据库表的属性值可以包括：文本内容、关键词、类别标签等字段，并将用于训练的样本文本上传至MySQL数据库中。 Python软件可用于提供编程支持，Redis数据库可以用于提供缓存区域。

进一步地，可以基于Django框架创建存储模块、算法模块、管理模块和调用模块。

其中，存储模块可以用于存储样本文本、分类模型及其参数配置数据、待分类文本及其类别、日志数据等。更具体地，存储模块可以包括缓存区域和永久存储区域，其中，缓存区域可以由Redis数据库提供，永久存储区域可以由MySQL数据库提供。

进一步地，算法模块可以与存储模块连接，算法模块可以用于执行上述的文本分类方法。

进一步地，管理模块可以用于管理操作人员的权限、管理数据以及配置分类模型。管理模块包括权限管理、用户认证、数据管理和模型配置。权限管理功能用于管理数据管理人员、算法人员以及开发人员的操作权限，用户认证功能用于对管理人员进行登录认证管理，数据管理功能用于对文本进行新增、修改、删除、人工纠错操作，模型配置功能用于管理对模型参数的配置与修改，训练数据的更新以及定期训练时间的设定等

进一步地，调用模块可以用于从RESTFul接口获取其他服务端、客户端等外部终端的请求，请求可以是GET类型的请求，也可以是POST类型的请求。调用模块获取到请求后，还可以向外部终端发送对应的标识，以用于唯一标识请求的待分类文本。

关于图5示出的文本分类系统的更多内容，可以参照上文关于文本分类方法的相关描述，在此不再赘述。

应理解，本申请实施例中，所述处理器可以为中央处理单元(central processingunit，简称CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signalprocessor，简称DSP)、专用集成电路(application specific integrated circuit，简称ASIC)、现成可编程门阵列(field programmable gate array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，简称ROM)、可编程只读存储器 (programmable ROM，简称PROM)、可擦除可编程只读存储器(erasable PROM，简称EPROM)、电可擦除可编程只读存储器(electricallyEPROM，简称EEPROM)或闪存。易失性存储器可以是随机存取存储器(random accessmemory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器(random access memory，简称RAM)可用，例如静态随机存取存储器(staticRAM，简称SRAM)、动态随机存取存储器 (DRAM)、同步动态随机存取存储器(synchronousDRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，简称DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，简称 ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，简称 SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，简称DR RAM)

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机程序可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机程序可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法、装置和系统，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的；例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式；例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。例如，对于应用于或集成于芯片的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于芯片内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现；对于应用于或集成于芯片模组的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，不同的模块/单元可以位于芯片模组的同一组件(例如芯片、电路模块等)或者不同组件中，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于芯片模组内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现；对于应用于或集成于终端的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，不同的模块/单元可以位于终端内同一组件(例如，芯片、电路模块等)或者不同组件中，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于终端内部集成的处理器，剩余的(如果有) 部分模块/单元可以采用电路等硬件方式实现。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在 A和B，单独存在B这三种情况。另外，本文中字符“/”，表示前后关联对象是一种“或”的关系。

本申请实施例中出现的“多个”是指两个或两个以上。本申请实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对设备个数的特别限定，不能构成对本申请实施例的任何限制。虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种文本分类方法，其特征在于，所述方法包括：

获取待分类文本；

对所述待分类文本进行分词处理，以得到多个分词结果；

根据所述多个分词结果和预设的特征词集合，生成所述待分类文本的编码向量，所述编码向量用于表示所述多个分词结果是否包含各个特征词；

根据各个分词结果的词向量和所述编码向量，确定所述待分类文本的类别。

2.根据权利要求1所述的文本分类方法，其特征在于，根据各个分词结果的词向量和所述编码向量，确定所述待分类文本的类别包括：

根据所述各个分词结果的词向量，计算所述待分类文本的第一特征向量；

根据所述编码向量，计算所述待分类文本的第二特征向量；

对所述第一特征向量和第二特征向量进行融合处理，以得到所述待分类文本的总特征向量；

根据所述总特征向量，确定所述待分类文本的类别。

3.根据权利要求1所述的文本分类方法，其特征在于，对所述待分类文本进行分词处理，以得到多个分词结果包括：

对所述待分类文本进行分词处理，以得到多个初始分词结果；

从所述多个初始分词结果中剔除干扰信息，以得到所述多个分词结果；

其中，所述干扰信息包括以下一项或多项：数字、预设的停用词、字数小于等于预设值的分词结果和标点符号。

4.根据权利要求1所述的文本分类方法，其特征在于，根据各个分词结果的词向量和所述编码向量，确定所述待分类文本的类别之前，所述方法还包括：

构建分类模型，所述分类模型包括：第一特征提取模块、第二特征提取模块、融合模块和分类模块；

获取样本文本和所述样本文本的类别标签；

对所述样本文本进行分词处理，以得到所述样本文本的多个分词结果，记为多个样本分词结果；

将所述多个样本分词结果输入至所述第一特征提取模块，以得到所述第一特征提取模块输出的所述样本文本的第一特征向量，记为第一样本特征向量；

根据所述多个样本分词结果和所述预设的特征词集合，生成所述样本文本的编码向量，记为样本编码向量；

将所述样本编码向量输入至所述第二特征提取模块，以得到所述第二特征提取模块输出的第二样本特征向量；

将所述第一样本特征向量和第二样本特征向量输入至所述融合模块，以得到所述融合模块输出的融合后的样本特征向量；

将所述融合后的样本特征向量输入至所述分类模块，以得到所述分类模块输出的预测类别；

根据所述预测类别和所述类别标签，计算预测损失，并根据所述预测损失更新所述分类模型，直至满足预设的训练停止条件。

5.根据权利要求4所述的文本分类方法，其特征在于，根据所述多个样本分词结果和所述预设的特征词集合，生成所述样本文本的编码向量包括：

将所述预设的特征词集合中多个特征词的顺序进行随机打乱，以得到更新后的特征词集合；

根据所述多个样本分词结果和所述更新后的特征词集合，生成所述样本编码向量。

6.根据权利要求1所述的文本分类方法，其特征在于，所述编码向量的维度和所述预设的特征词集合中的特征词一一对应，对于每个特征词，如果所述多个分词结果包含该特征词，则该特征词对应的维度的值为1，否则为0。

7.根据权利要求1所述的文本分类方法，其特征在于，所述方法还包括：

获取用户终端针对所述待分类文本给出的准确度，所述用户终端为请求所述待分类文本的类别的终端；

判断所述准确度是否小于预设值，如果是，则将所述待分类文本记为增量文本；

当所述增量文本的数量大于或等于预设数量时，更新所述预设的特征词集合。

8.根据权利要求1所述的文本分类方法，其特征在于，对所述待分类文本进行分词处理之前，所述方法还包括：

向发送所述待分类文本的用户终端发送标识，所述标识用于唯一确定所述待分类文本；

所述方法还包括：

将所述待分类文本的类别存储至缓存区域，当接收到所述用户终端发送的标识时，将所述标识对应的待分类文本的类别发送至所述用户终端，并将所述待分类文本的类别从所述缓存区域移动至永久存储区域。

9.一种文本分类装置，其特征在于，所述装置包括：

获取模块，用于获取待分类文本；

预处理模块，用于对所述待分类文本进行分词处理，以得到多个分词结果；编码模块，用于根据所述多个分词结果和预设的特征词集合，生成所述待分类文本的编码向量，所述编码向量用于表示所述多个分词结果是否包含各个特征词；

分类模块，用于根据各个分词结果的词向量和所述编码向量，确定所述待分类文本的类别。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时，执行权利要求1至8中任一项所述的文本分类方法的步骤。

11.一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至8中任一项所述的文本分类方法的步骤。