CN112182211B

CN112182211B - 文本分类方法及装置

Info

Publication number: CN112182211B
Application number: CN202011025556.8A
Authority: CN
Inventors: 张宾; 孙喜民; 周晶; 王明达; 贾江凯
Original assignee: State Grid Digital Technology Holdings Co ltd; State Grid E Commerce Technology Co Ltd
Current assignee: State Grid Digital Technology Holdings Co ltd; State Grid E Commerce Technology Co Ltd
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2023-12-05
Anticipated expiration: 2040-09-25
Also published as: CN112182211A

Abstract

本发明提供了一种文本分类方法及装置，该方法包括：获取目标文本分类模型；对目标文本进行预处理，获得目标文本对应的目标文本向量；将目标文本向量输入分类模型，获得分类模型输出目标文本分别属于每个文本类别对应的类别概率；将目标文本分配至最大的类别概率对应的文本类别的类别目录中，完成对目标文本的分类。应用该方法，在需要对文本进行分类时先对文本进行预处理获得对应的文本向量，再通过分类模型对文本进行识别，获得分类模型输出的文本属于每个文本类别对应的概率，以确定该文本属于最大的概率对应的文本类别。通过该方法可以快速对文本进行分类，节约文本分类时间。

Description

文本分类方法及装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种文本分类方法及装置。

背景技术

随着经济的快速发展，各种类型的企业不断涌现。当各类企业需要办理某项业务时，需要对各个企业的企业文本信息进行分类，然而随着企业文本信息的数量的增大，采用传统人工分类的方式需要耗费大量的人力物力，对各个企业文本的分类效率也不高。

在现有技术中，为了避免人力物力的消耗，采用基于长短期记忆LSTM模型的多标签行业分类方法，该方法通过采集公司经营范围数据并对数据进行切分词等操作，之后采用LSTM算法模型数据进行分类训练，并利用测试集进行检验，进而实现行业文本的分类。但是，由于LSTM模型的模型网络很深，该模型的算法计算量很大，在进行文本分类的过程中更加耗时。

发明内容

有鉴于此，本发明提供一种文本分类方法，通过该方法，可以准确并快速的对文本进行分类。

本发明还提供了一种文本分类装置，用以保证上述方法在实际中的实现及应用。

一种文本分类方法，包括：

获取待分类的目标文本；

获取预先训练完成的分类模型；所述分类模型用于评估文本分别属于预设的各个文本类别对应的概率；

基于预先设置的第一文本模型及第二文本模型，对所述目标文本进行预处理，获得所述目标文本对应的目标文本向量；

将所述目标文本向量输入所述分类模型，以获得所述分类模型输出的所述目标文本分别属于每个所述文本类别对应的类别概率；

将所述目标文本分配至最大的类别概率对应的文本类别的类别目录中，完成对所述目标文本的分类。

上述的方法，可选的，训练所述分类模型的过程，包括：

获取预先设置的测试数据集和训练数据集，所述测试数据集包含多个测试文本，及每个所述测试文本对应的测试文本标签，所述训练数据集中包含多个训练文本，及每个所述训练文本对应的训练文本标签；

基于所述第一文本模型及第二文本模型，对所述测试数据集中的各个测试文本和训练数据集中的各个训练文本进行预处理，获得每个所述测试文本对应的测试文本向量，以及每个所述训练文本对应的训练文本向量；

获取预先建立的分类模型，并应用各个训练文本向量以及每个训练文本向量对应的训练文本标签，对所述分类模型进行初步训练，直至获得初步训练完成的第一分类模型；

其中，将各个所述训练文本向量依次输入所述分类模型中，获得当前输入所述分类模型的训练文本向量对应的训练结果；基于所述训练文本向量对应的训练文本标签，判断所述训练结果是否满足预先设置的训练条件；若不满足，则调整所述分类模型中的各个模型参数；若满足，则结束对所述分类模型的初步训练，获得第一分类模型；

应用每个所述测试文本向量依次对所述第一分类模型进行强化训练，并在应用最后一个测试文本向量对所述第一分类模型进行强化训练结束后，获得最终完成训练的分类模型；

其中，应用当前的测试文本向量对所述第一分类模型进行强化训练的过程包括：将所述当前的测试文本向量输入所述第一分类模型中，获得所述当前的测试文本向量属于每个所述文本类别对应的测试概率；基于所述测试概率及预设的评估指标，确定最大测试概率对应的文本类别，并将所述最大测试概率对应的文本类别与所述当前的测试文本向量对应的测试文本标签进行比对，以确定是否需要调整该第一分类模型；若需要调整所述第一分类模型，则调整所述第一分类模型中的各个模型参数，并重新执行所述当前的测试文本对应的强化训练的过程；若不需要调整所述第一分类模型，则完成应用所述当前的测试文本向量对所述第一分类模型进行强化训练的过程。

上述的方法，可选的，所述基于所述第一文本模型及第二文本模型，对所述测试数据集中的各个测试文本和训练数据集中的各个训练文本进行预处理，获得每个所述测试文本对应的测试文本向量，以及每个所述训练文本对应的训练文本向量，包括：

应用所述第一文本模型，将各个所述测试文本映射成测试文本字典，及各个所述训练文本映射成训练文本字典，并将各个所述测试文本字典转换成第一文本向量，将各个所述训练文本字典转换成第二文本向量；

向所述第二文本模型输入各个所述第一文本向量和第二文本向量，以使所述第二文本模型基于各个所述第一文本向量和第二文本向量，计算每个所述测试文本中各个词语的权重值，及每个所述训练文本中各个词语的权重值，以获得每个所述测试文本对应的测试文本向量及每个所述训练文本对应的训练文本向量。

上述的方法，可选的，所述基于预先设置的第一文本模型及第二文本模型，对所述目标文本进行预处理，获得所述目标文本对应的目标文本向量，包括：

应用所述第一文本模型，将所述目标文本映射成目标文本字典，并将所述目标文本字典转换成第三文本向量；

向所述第二文本模型输入所述第三文本向量，以使所述第二文本模型基于所述第三文本向量，计算所述目标文本中各个词语的权重值，并基于所述目标文本中每个词语的权重值，获得所述目标文本对应的目标文本向量。

上述的方法，可选的，所述基于所述目标文本中每个词语的权重，获得所述目标文本对应的目标文本向量，包括：

基于所述目标文本中每个所述词语的权重值，对所述目标文本中的各个所述词语进行排序；

基于各个所述词语的排序顺序，按照预设的数量选取权重值最大的各个词语作为关键词语；

将各个所述关键词语对应的权重值保存至预先设置的文本集合中，并将所述文本集合转换成所述目标文本对应的目标文本向量。

一种文本分类装置，包括：

第一获取单元，用于获取待分类的目标文本；

第二获取单元，用于获取预先训练完成的分类模型；所述分类模型用于评估文本分别属于预设的各个文本类别对应的概率；

第一处理单元，用于基于预先设置的第一文本模型及第二文本模型，对所述目标文本进行预处理，获得所述目标文本对应的目标文本向量；

输入单元，用于将所述目标文本向量输入所述分类模型，以获得所述分类模型输出的所述目标文本分别属于每个所述文本类别对应的类别概率；

分类单元，用于将所述目标文本分配至最大的类别概率对应的文本类别的类别目录中，完成对所述目标文本的分类。

上述的装置，可选的，还包括：

第三获取单元，用于获取预先设置的测试数据集和训练数据集，所述测试数据集包含多个测试文本，及每个所述测试文本对应的测试文本标签，所述训练数据集中包含多个训练文本，及每个所述训练文本对应的训练文本标签；

第二处理单元，用于基于所述第一文本模型及第二文本模型，对所述测试数据集中的各个测试文本和训练数据集中的各个训练文本进行预处理，获得每个所述测试文本对应的测试文本向量，以及每个所述训练文本对应的训练文本向量；

第一训练单元，用于获取预先建立的分类模型，并应用各个训练文本向量以及每个训练文本向量对应的训练文本标签，对所述分类模型进行初步训练，直至获得初步训练完成的第一分类模型；

第二训练单元，用于应用每个所述测试文本向量依次对所述第一分类模型进行强化训练，并在应用最后一个测试文本向量对所述第一分类模型进行强化训练结束后，获得最终完成训练的分类模型；

上述的装置，可选的，所述第二处理单元，包括：

第一处理子单元，用于应用所述第一文本模型，将各个所述测试文本映射成测试文本字典，及各个所述训练文本映射成训练文本字典，并将各个所述测试文本字典转换成第一文本向量，将各个所述训练文本字典转换成第二文本向量；向所述第二文本模型输入各个所述第一文本向量和第二文本向量，以使所述第二文本模型基于各个所述第一文本向量和第二文本向量，计算每个所述测试文本中各个词语的权重值，及每个所述训练文本中各个词语的权重值，以获得每个所述测试文本对应的测试文本向量及每个所述训练文本对应的训练文本向量。

上述的装置，可选的，所述第一处理单元，包括：

第二处理子单元，用于应用所述第一文本模型，将所述目标文本映射成目标文本字典，并将所述目标文本字典转换成第三文本向量；向所述第二文本模型输入所述第三文本向量，以使所述第二文本模型基于所述第三文本向量，计算所述目标文本中各个词语的权重值，并基于所述目标文本中每个词语的权重值，获得所述目标文本对应的目标文本向量。

上述的装置，可选的，所述第二处理子单元，包括：

排序子单元，用于基于所述目标文本中每个所述词语的权重值，对所述目标文本中的各个所述词语进行排序；

选取子单元，用于基于各个所述词语的排序顺序，按照预设的数量选取权重值最大的各个词语作为关键词语；

转换子单元，用于将各个所述关键词语对应的权重值保存至预先设置的文本集合中，并将所述文本集合转换成所述目标文本对应的目标文本向量。一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述的文本分类方法。

一种电子设备，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行上述的文本分类方法。

与现有技术相比，本发明包括以下优点：

本发明提供了一种文本分类方法，包括：获取待分类的目标文本；获取预先训练完成的分类模型；基于预先设置的第一文本模型及第二文本模型，对所述目标文本进行预处理，获得所述目标文本对应的目标文本向量；将所述目标文本向量输入分类模型，以获得分类模型输出所述目标文本分别属于每个文本类别对应的类别概率；将所述目标文本分配至最大的类别概率对应的文本类别的类别目录中，完成对所述目标文本的分类。应用本发明提供的方法，在需要对文本进行分类时先对文本进行预处理获得对应的文本向量，再通过分类模型对文本进行识别，获得分类模型输出的文本属于各个文本类别对应的概率，以确定该文本属于最大的概率对应的文本类别。通过该方法可以快速对文本进行分类，节约文本分类时间。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种文本分类方法的方法流程图；

图2为本发明实施例提供的一种文本分类方法的又一方法流程图；

图3为本发明实施例提供的一种文本分类系统的结构示意图；

图4为本发明实施例提供的一种文本分类装置的装置结构图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。

本发明实施例提供了一种文本分类方法，所述方法的方法流程图如图1所示，具体包括：

S101：获取待分类的目标文本；

在本发明实施例中，该目标文本为需要进行文本分类的企业文本。

需要说明的是，本发明实施例中可以同时对多个文本进行分类，也可以只对一个文本进行分类。

S102：获取预先训练完成的分类模型；所述分类模型用于评估文本分别属于预设的各个文本类别对应的概率；

在本发明实施例中，分类模型具体可以为LightGBM算法模型。LightGBM算法模型支持LightGBM算法，其采用损失函数的负梯度作为当前决策树的残差的近似值，以此拟合新的决策树，即采用损失函数作为调整分类模型中模型参数的近似值，对分类模型进行参数调整以获得新的分类模型。

其中，该分类模型中包含多个二分类模型，每个二分类模型对应识别一种文本类别。

需要说明的是，文本类别指的是文本所属的行业，文本类别可以是医疗、美容、金融或新能源等类别。也就是说，金融企业对应的文本属于金融类别、医疗企业对应的文本属于医疗类别。

S103：基于预先设置的第一文本模型及第二文本模型，对所述目标文本进行预处理，获得所述目标文本对应的目标文本向量；

在本发明实施例中，第一文本模型具体可以是词袋(Bags ofWords，BoW)模型，词袋模型用于对单个文本进行信息统计，并对文本中的各个单词进行编序，构建文本对应的词频矩阵。第二文本模型具体可以是TF-IDF模型，TF-IDF模型是一种关键词的统计分析方法，用于评估每个词在其对应的文本或语料库中的重要程度。其中，TF-IDF模型支持TF-IDF算法，可以根据该算法计算出每个词在文本中的权重。应用词袋模型和TF-IDF模型进行预处理，获得目标文本对应的目标文本向量。

S104：将所述目标文本向量输入所述分类模型，以获得所述分类模型输出的所述目标文本分别属于每个所述文本类别对应的类别概率；

在本发明实施例中，为确定该目标文本所属的文本类别，将该目标文本向量输入分类模型当中，由于分类模型中包含每个文本类别对应的二分类模型，则分类模型在输入目标文本向量后，由其中的各个二分类模型对目标文本向量进行分析和计算，以获得每个文本类别对应的类别概率。

需要说明的是，文本类别指的是文件所属行业，通过对目标文本进行分类可以确定该文本所属的行业。

例如，当前各个文本类别包括A、B、C三个类别类，则该分类模型中包含的子模型A用于识别文本属于类别A的概率，子模型B用于识别文本属于类别B的概率，子模型C用于识别文本属于类别C的概率。将目标文本向量输入分类模型后，分类模型中的模型A计算该目标文本属于类别A的概率1，模型B计算该目标文本属于类别B的概率2，模型C计算该目标文本属于类别C的概率3。最终，由分类模型输出概率1、概率2和概率3。

S105：将所述目标文本分配至最大的类别概率对应的文本类别的类别目录中，完成对所述目标文本的分类。

在本发明实施例中，在各个类别概率中，若某一文本类别的类别概率最大，则可以确定该目标文本属于该文本类别，并将目标文本分配至该最大的文本类别概率对应的文本类别的类别目录当中。

本发明实施例提供的文本分类方法中，在需要对目标文本进行分类时，获取待分类的目标文本，并获取训练完成的分类模型。在需要确定目标文本所属的文本类别之前，需要应用第一文本模块和第二文本模块对该目标文本进行预处理，获得该目标文本对应的目标文本向量。将目标文本向量输入该分类模型，以确定该目标文本属于每一个文本类别对应的类别概率。当分类模型输出该目标文本分别属于每个文本类别对应的类别概率时，从各个类别概率确定出最大的类别概率，该最大的类别概率对应的文本类别则为该目标文本所属的文本类别。将该目标文本分配至该最大的类别概率对应的文本类别的类别目录中，以完成对该目标文本进行分类。

需要说明的是，上述步骤S101至S105的过程对应的文本分类方法中，可以用于对一个文本进行分类，也可以用于同时对多个文本进行分类。当需要对多个文本进行分类时，可以应用第一文本模块和第二文本模块同时对各个文本进行预处理，以获得每个文本对应的文本向量，并将各个文本向量输入到分类模型当中，以获得每个文本分别属于每个文本类别对应的类别概率，最后根据每个文本对应的最大的类别概率确定每个文本所属的文本类别，并将各个文本分配至其所属的文本类别的类别目录中，完成对各个文本的分类。

基于上述实施例提供的方法，本发明中实现文本分类的过程有以下具体实施场景：

设定当前文本可以分成A、B、C三个文本类别，按照文本类别A、文本类别B和文本类别C预先对分类模型进行训练。当前需要对目标文本进行分类时，获取该分类模型，并在应用预先设置的第一文本模型和第二文本模型对该目标文本进行预处理，获得该目标文本对应的目标文本向量后，将该目标文本向量输入分类模型中，分类模型则根据该目标文本向量分别输出该目标文本属于文本类别A的概率A、属于文本类别B的概率B、属于文本类别C的概率C。若三个概率中，概率C最大，则确定该目标文本属于文本类别C，并将该目标文本分配中该文本类别C对应的类别目录中。

应用本发明实施例提供的方法，在需要对文本进行分类时，无需人工对文本进行核对，通过分类模型可以快速确定文本所属的文本类别，缩短对文本进行分类的时间。

可选的，在本发明实施例提供的方法中，具体还包括：

确定各个所述文本类别概率中最大的文本类别概率，并判断所述最大的文本类别概率是否大于预先设定的概率阈值；

若所述最大的文本类别概率大于预先设定的概率阈值，则将所述目标文本分配至所述最大的文本类别概率对应的文本类别的文本类别目录中；

若所述最大的文本类别概率不大于预先设定的概率阈值，则将所述目标文本分配至预先设定的待定目录中。

需要说明的是，所述待定目录包含在通过分类模型进行文本分类的过程中，无法确定文本类别，或者分类失败的文本。在将目标文本分配至该待定目录后，可以定时对该待定目录下的各个文本重新进行分类和识别，进一步保证能够将各个文本进行准确分类。

本发明实施例提供的方法中，在对目标文本进行分类之前，需要对分类模型进行训练，以通过分类模型识别出目标文本属于各个文本类别对应的概率。其中，训练分类模型的过程如图2所示，具体可以包括：

S201：获取预先设置的测试数据集和训练数据集，所述测试数据集包含多个测试文本，及每个所述测试文本对应的测试文本标签，所述训练数据集中包含多个训练文本，及每个所述训练文本对应的训练文本标签；

在本发明实施例中，通过采集不同行业的企业的各个信息数据，具体包括公司名称、公司描述和公司实际标签等相关数据，以根据各个信息数据生成对应的企业文本及文本标签。将各个企业文本及其对应的标签分为两组，生成训练数据集和测试数据集。在需要对分类模型训练时，获取该训练数据及和测试数据集，而训练数据集中的各个训练文本及测试数据集中的各个测试文本则为原先获取的各个企业文本。

其中，该训练文本标签用于表征其对应的训练文本所属的文本类别，该测试文本标签用于表征其对应的测试文本所属的文本类别。

S202：基于所述第一文本模型及第二文本模型，对所述测试数据集中的各个测试文本和训练数据集中的各个训练文本进行预处理，获得每个所述测试文本对应的测试文本向量，以及每个所述训练文本对应的训练文本向量；

在本发明实施例中，通过第一文本模型和第二文本模型对各个测试文本和训练文本进行预处理的过程与上述实施例S103中对目标文本进行预处理的过程一致，此处将不复赘述。

S203：获取预先建立的分类模型，并应用各个训练文本向量以及每个训练文本向量对应的训练文本标签，对所述分类模型进行初步训练，直至获得初步训练完成的第一分类模型；

其中，将各个所述训练文本向量依次输入所述分类模型中，获得当前输入所述分类模型的训练文本向量对应的训练结果；基于所述训练文本向量对应的训练文本标签，判断所述训练结果是否满足预先设置的训练条件；若不满足，则调整所述分类模型中的各个模型参数；若满足，则结束对所述分类模型的初步训练，获得第一分类模型。

在本发明实施例中，先应用训练文本对该分类模型进行一个初步的训练，以获得第一分类模型。

具体的，当前输入分类模型进行初步训练的训练文本向量对应的训练结果指的是，该分类模型识别当前输入的训练文本向量对应的训练文本属于每个文本类别对应的识别结果。在对分类模型进行训练的过程中，具体是对该分类模型中的各个二分类模型进行初步训练，以各个训练文本对应的训练文本标签作为寻优方向。即根据该训练结果以及训练文本对应的训练文本标签，确定该分类模型所识别的该训练文本所述的文本类别是否与该训练文本标签一致。若一致，则满足训练条件；若不一致，则需要调整模型参数，以提高该分类模型对下一训练文本向量进行识别时的准确率。

S204：应用每个所述测试文本向量依次对所述第一分类模型进行强化训练，并在应用最后一个测试文本向量对所述第一分类模型进行强化训练结束后，获得最终完成训练的分类模型；

在本发明实施例中，在对分类模型进行初步训练获得第一分类模型后，再次应用测试数据集中每个测试文本对应的各个测试文本向量对该第一分类模型依次进行强化训练。其中，该评估阈值指的是分类模型输出对测试文本进行分类的精度、召回率或F1值等其他的评估指标。将各个测试文本向量一次输入第一分类模型后，该第一分类模型再次对测试文本进行分类评估，在输出当前的测试文本向量对应的测试概率后，根据其对应的测试文本标签、测试概率以及评估阈值，确定是否要调整第一分类模型的模型参数。若需要调整，则调整模型参数，并重新应用该当前的测试文本向量对第一分类模型进行强化训练；若不需要调整模型参数，则继续应用下一个测试文本向量对该第一分类模型进行强化训练。

可以理解的是，在需要对第一分类模型进行强化训练时，通过应用每一个测试文本向量多次对该第一分类模型进行强化训练，可以使得第一分类模型对文本进行分类的准确度提高。例如，测试数据集有两个测试文本，则需要先应用第一个测试文本对应的文本向量对第一分类模型进行强化训练，并在强化训练过程中确定不需要对该第一分类模型进行参数调整后，再应用第二个测试文本对应的文本向量对第一分类模型进行强化训练。

如果应用任意一个测试文本向量对该第一分类模型进行强化训练的过程中，需要调整模型参数，则在调整模型参数后，再应用该测试文本向量再次进行一次强化训练，直至当前进行的强化训练过程不再需要调整模型参数。

本发明实施例提供的文本分类方法中，预先采集公司名、公司描述、公司实际标签等相关信息数据，以获得每个企业对应的企业文本及其对应的文本标签；将采集到的企业文本分为训练集和测试集，使用第一文本模型和第二文本模型进行预处理，输出两组数据集的特征向量，其中，两组数据集中模型都包括每个文本对应的标签，标签不参与数据预处理；采用分类模型构建多个二分类器对预处理后的向量进行分类训练，以训练文本的实际标签作为寻优方向对模型进行初步训练，训练出多标签分类模型；再以精度、召回率和F1值等其他评估指标，将测试数据集对应的各个向量输入模型，实现对测试数据集中各个文本的分类评估，与测试文本标签做对比，若分类效果不好则调整参数，如果分类效果好则无需调整参数，在最后应用最后一个向量结束对分类模型的强化训练后，获得精度更高的多标签的分类模型；

需要说明的是，该分类模型具体可以是LightGBM算法模型。在对各个分类模型进行强化训练的过程中，以精度、召回率和F1值作为评估指标，以实现对分类模型的训练。

还需要说明的是，LightGBM算法模型还可以使用histogram算法，该算法占用的内存更低，数据分隔的复杂度更低。其思想是将连续的浮点特征离散成k个离散值，并构造宽度为k的Histogram。然后遍历训练数据，统计每个离散值在直方图中的累计统计量。在进行特征选择时，只需要根据直方图的离散值，遍历寻找最优的分割点。

应用本发明实施例提供的方法，对多个文本类别对应的分类模型进行训练，以提高分类模型识别各个文本的文本类别的准确度。

本发明实施例提供的方法中，基于上述S202的内容，在对分类模型进行训练前，需要对各个训练文本和测试文本进行预处理，其中，所述基于所述第一文本模型及第二文本模型，对所述测试数据集中的各个测试文本和训练数据集中的各个训练文本进行预处理，获得每个所述测试文本对应的测试文本向量，以及每个所述训练文本对应的训练文本向量，包括：

本发明实施例提供的文本分类方法中，第一文本模型具体可以是词袋模型，第二文本向量具体可以是TF-IDF模型。其中，通过词袋模型将各个训练文本和测试文本映射成对应的文本字典，该文本字典中包含其对应的文本中的各个词语和每个词语的索引。文本字典中的键是文本中的词语，值为词语的索引。通过词袋模型对字典进行机器学习，将测试文本转换成第一文本向量，将各个训练文本转化成第二文本向量，该第一文本向量和第二文本向量则为词频矩阵。在获得各个第一文本向量和第二文本向量后，将各个第一文本向量和第二文本向量输入TF-IDF模型，由TF-IDF模型计算文本向量中每个词语在其对应的文本中出现的次数，以此确定测试文本和训练文本中每个词语的权重值，以根据每个测试文本和训练文本中各个词语的权重值，以获得每个测试文本对应的测试文本向量，以及每个训练文本对应的训练文本向量。

具体的，除了在训练分类模型的过程中需要对各个测试文本和训练文本进行预处理之外，在本发明实施例上述步骤S103中，在需要对目标文本进行分类的过程中，也需要对目标文本进行预处理，其中，所述基于预先设置的第一文本模型及第二文本模型，对所述目标文本进行预处理，获得所述目标文本对应的目标文本向量，可以包括：

本发明实施例提供的文本分类方法中，对基于第一文本模型和第二文本模型对目标文本进行预处理的过程与对各个测试文本和训练文本进行预处理的过程一致。具体的，该第一文本模型为词袋模型，第二文本模型为TF-IDF模型。其中，应用词袋模型将各个目标文本映射成目标文本字典。通过词袋模型对目标文本字典进行机器学习，将其转换成第三文本向量。在获得第三文本向量后，将第三文本向量输入TF-IDF模型，由TF-IDF模型计算每个词语在其对应的目标文本中出现的次数，以此确定目标文本中每个词语的权重值，以根据目标文本中各个词语的权重值，获得目标文本对应的目标文本向量。

具体的，本发明实施例提供的方法中，所述基于所述目标文本中每个词语的权重，获得所述目标文本对应的目标文本向量，包括：

本发明实施例提供的文本分类方法中，在应用第二文本模型确定目标文本中每个词语的权重，并基于目标文本中每个词语的权重，获得目标文本向量的过程中，将该目标文本中每个词语按照其对应的权重值进行排序，其中，其排序的顺序可以是降序、也可以是升序。在各个词语中，按照预定数量选取权重值最大的几个词语作为关键词语，并将各个词语保存在文本集合中，将该文本集合转换成目标文本向量。

需要说明的是，不同行业的企业所生成的文本中所采用的术语均不相同，在进行文本分类的过程中，根据文本中出现的各个词语的频率确定每个词语的权重，以权重较大的词语转换成对应的文本向量，并通过分类模型对文本向量进行识别，以有效的达到对文本进行分类的目的。

参考图3，基于上述实施例提供的方法，本发明提供了一种文本分类系统，该系统中包括第一文本模301、第二文本模块302以及分类模块303；该第一文本模301块用于将文本映射成字典，并对字典进行机器学习生成对应的词频矩阵；该第二文本模块302用于计算文本中每个词语的权重，并根据各个词语的权重生成文本对应的文本向量；该分类模型303中包含多个二分类模型，各个二分类模型与各个文本类别一一对应，每个二分类模型用于识别文本属于其对应的文本类别的概率，以根据概率确定文本书否属于该二分类模型对应的文本类别。本发明实施例提供的系统可以快速对文本进行分类，节约文本分类时间。

上述各个实施例的具体实施过程及其衍生方式，均在本发明的保护范围之内。

与图1所述的方法相对应，本发明实施例还提供了一种文本分类装置，用于对图1中方法的具体实现，本发明实施例提供的文本分类装置可以应用计算机终端或各种移动设备中，其结构示意图如图4所示，具体包括：

第一获取单元401，用于获取待分类的目标文本；

第二获取单元402，用于获取预先训练完成的分类模型；所述分类模型用于评估文本分别属于预设的各个文本类别对应的概率；

第一处理单元403，用于基于预先设置的第一文本模型及第二文本模型，对所述目标文本进行预处理，获得所述目标文本对应的目标文本向量；

输入单元404，用于将所述目标文本向量输入所述分类模型，以获得所述分类模型输出的所述目标文本分别属于每个所述文本类别对应的类别概率；

分类单元405，用于将所述目标文本分配至最大的类别概率对应的文本类别的类别目录中，完成对所述目标文本的分类。

本发明实施例提供的文本分类装置中，在需要对目标文本进行分类时，获取待分类的目标文本，并获取训练完成的分类模型。在需要确定目标文本所属的文本类别之前，需要应用第一文本模块和第二文本模块对该目标文本进行预处理，获得该目标文本对应的目标文本向量。将目标文本向量输入该分类模型，以确定该目标文本属于每一个文本类别对应的类别概率。当分类模型输出该目标文本分别属于每个文本类别对应的类别概率时，从各个类别概率确定出最大的类别概率，该最大的类别概率对应的文本类别则为该目标文本所属的文本类别。将该目标文本分配至该最大的类别概率对应的文本类别的类别目录中，以完成对该目标文本进行分类。

应用本发明实施例提供的装置，在需要对文本进行分类时，无需人工对文本进行核对，通过分类模型可以快速确定文本所属的文本类别，缩短对文本进行分类的时间。

本发明实施例提供的装置中，还包括：

本发明实施例提供的装置中，所述第二处理单元，包括：

本发明实施例提供的装置中，所述第一处理单元403，包括：

本发明实施例提供的装置中，所述第二处理子单元，包括：

转换子单元，用于将各个所述关键词语对应的权重值保存至预先设置的文本集合中，并将所述文本集合转换成所述目标文本对应的目标文本向量。

以上本发明实施例公开的文本分类装置中各个单元及子单元的具体工作过程，可参见本发明上述实施例公开的文本分类方法中的对应内容，这里不再进行赘述。

本发明实施例还提供了一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述文本分类方法。

本发明实施例还提供了一种电子设备，其结构示意图如图5所示，具体包括存储器501，以及一个或者一个以上的指令502，其中一个或者一个以上指令502存储于存储器501中，且经配置以由一个或者一个以上处理器503执行所述一个或者一个以上指令502进行以下操作：

获取待分类的目标文本；

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现。

为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本分类方法，其特征在于，包括：

获取待分类的目标文本；

将所述目标文本分配至最大的类别概率对应的文本类别的类别目录中，完成对所述目标文本的分类；

其中，训练所述分类模型的过程，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一文本模型及第二文本模型，对所述测试数据集中的各个测试文本和训练数据集中的各个训练文本进行预处理，获得每个所述测试文本对应的测试文本向量，以及每个所述训练文本对应的训练文本向量，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于预先设置的第一文本模型及第二文本模型，对所述目标文本进行预处理，获得所述目标文本对应的目标文本向量，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述目标文本中每个词语的权重，获得所述目标文本对应的目标文本向量，包括：

5.一种文本分类装置，其特征在于，包括：

第一获取单元，用于获取待分类的目标文本；

分类单元，用于将所述目标文本分配至最大的类别概率对应的文本类别的类别目录中，完成对所述目标文本的分类；

其中，所述文本分类装置，还包括：

6.根据权利要求5所述的装置，其特征在于，所述第二处理单元，包括：

7.根据权利要求5所述的装置，其特征在于，所述第一处理单元，包括：

8.根据权利要求7所述的装置，其特征在于，所述第二处理子单元，包括：