CN111309912B

CN111309912B - 文本分类方法、装置、计算机设备及存储介质

Info

Publication number: CN111309912B
Application number: CN202010111072.9A
Authority: CN
Inventors: 莫宇; 温凯雯; 吕仲琪; 顾正
Original assignee: Shenzhen Huayun Zhongsheng Technology Co ltd
Current assignee: Shenzhen Huayun Zhongsheng Technology Co ltd
Priority date: 2020-02-24
Filing date: 2020-02-24
Publication date: 2024-02-13
Anticipated expiration: 2040-02-24
Also published as: CN111309912A

Abstract

本发明涉及文本分类方法、装置、计算机设备及存储介质，该方法包括获取需分类的文本数据，以得到待分类数据；将待分类数据输入目标文本分类模型进行分类，以得到分类结果；输出所述分类结果至终端，以在终端显示所述分类结果；其中，目标文本分类模型是通过对输入的文本数据进行提取向量集并生成标签后结合形成训练数据集进行训练所得的。本发明通过对输入的文本数据采用自动生成标签的方式生成标签，将生成的标签与初始向量集组合，并通过迭代的方式修正文本数据标签，再次训练初始文本分类模型，提高训练数据质量，降低前期的人工标注标签成本，快速响应文本分类任务中大量标注数据的需求，以达到快速建立文本分类模型，提升文本分类效率。

Description

文本分类方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机，更具体地说是指文本分类方法、装置、计算机设备及存储介质。

背景技术

随着法律文书的不断公开以及近几年自然语言处理技术的发展，越来越多的深度学习技术被用于司法领域，通过挖掘法律文本的内部知识，为司法人员在案件处理环节提供便利。

在司法领域的法律文本分类场景中，如判断被告人是否犯有某种罪名，是否有立功情节等，目前常用的分类手段主要基于强监督的方式来实现，需要采集庞大的法律文书数据集，通过人工标注的手段为数据打上标签，经过分词、Embedding等预处理后进入分类模型训练，常用的分类模型主要有LR(逻辑回归，Logistic Regression)、SVM(支持向量机，Support Vector Machine)以及基于CNN(卷积神经网络，Convolutional NeuralNetworks)或RNN(循环神经网络，Recurrent Neural Network)模式的深度神经网络等。但由于案由众多，导致分类需求庞大，分类需求经常随着时间的推移而新增或修改，因此传统的通过大量标注数据再进行训练的方法，无法满足快速响应文本分类建模的需求。

有必要一种新的方法，实现降低了前期的人工标注成本，快速响应文本分类任务中大量标注数据的需求，以达到快速建立文本分类模型，提升文本分类效率。

发明内容

本发明的目的在于克服现有技术的缺陷，提供文本分类方法、装置、计算机设备及存储介质。

为实现上述目的，本发明采用以下技术方案：文本分类方法，包括：

获取需分类的文本数据，以得到待分类数据；

将待分类数据输入目标文本分类模型进行分类，以得到分类结果；

输出所述分类结果至终端，以在终端显示所述分类结果；

其中，所述目标文本分类模型是通过对输入的文本数据进行提取向量集并生成标签后结合形成训练数据集进行训练所得的。

其进一步技术方案为：所述目标文本分类模型是通过对输入的文本数据进行提取向量集并生成标签后结合形成训练数据集进行训练所得的，包括：

获取输入的文本数据，以得到初始数据；

对初始数据进行提取向量集，以得到初始向量集；

对初始数据生成标签，以得到初始标签；

将初始向量集以及初始标签进行组合，以得到训练数据集；

构建初始文本分类模型以及损失函数；

通过训练数据集训练所述初始文本分类模型，以得到目标文本分类模型。

其进一步技术方案为：所述对初始数据进行提取向量集，以得到初始向量集，包括：

对初始数据按照词组切分为词的列表集合或对初始数据按照单字切分为字的列表集合，以得到列表集合；

对列表集合映射至向量空间，以得到初始向量集。

其进一步技术方案为：所述对初始数据生成标签，以得到初始标签，包括：

利用关键字查找以及正则表达式匹配的方式对初始数据进行处理，以得到初始标签。

其进一步技术方案为：所述通过训练数据集训练所述初始文本分类模型，以得到目标文本分类模型，包括：

设定迭代条件；

将训练数据集输入至所述初始文本分类模型进行训练，以得到训练结果；

采用损失函数以及训练结果计算损失值；

判断所述损失值是否维持不变；

若所述损失值不是维持不变，则调整所述初始文本分类模型的参数，并执行所述将训练数据集输入至所述初始文本分类模型进行训练，以得到训练结果；

若所述损失值维持不变，则获取测试数据集；

将测试数据集输入初始文本分类模型内进行分类测试，以得到测试结果；

判断所述测试结果是否符合要求；

若所述测试结果不符合要求，则判断所述迭代条件是否满足要求；

若所述迭代条件满足要求，则筛选出训练结果内置信度低于设定值所对应的训练数据集；

修改所筛选出来的训练数据集的标签，以更新所述训练数据集，并执行所述将训练数据集输入至所述初始文本分类模型进行训练，以得到训练结果；

若迭代条件不满足要求，则将所述初始文本分类模型作为目标文本分类模型；

若所述测试结果符合要求，则将所述初始文本分类模型作为目标文本分类模型。

其进一步技术方案为：所述训练结果包括文本类别以及置信度。

其进一步技术方案为：所述修改所筛选出来的训练数据集的标签，包括：

通过脚本修改所筛选出来的训练数据集的标签。

本发明还提供了文本分类装置，包括：

获取单元，用于获取需分类的文本数据，以得到待分类数据；

分类单元，用于将待分类数据输入目标文本分类模型进行分类，以得到分类结果；

输出单元，用于输出所述分类结果至终端，以在终端显示所述分类结果。

本发明还提供了一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

本发明还提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现上述的方法。

本发明与现有技术相比的有益效果是：本发明通过采用分词、Embedding等预处理后形成的初始向量集，且对输入的文本数据采用自动生成标签的方式生成标签，将生成的标签与初始向量集组合，形成训练数据集并对初始文本分类模型进行训练，在训练的过程，通过迭代的方式修正文本数据标签，并再次训练初始文本分类模型，提高训练数据质量，降低了前期的人工标注标签成本，快速响应文本分类任务中大量标注数据的需求，以达到快速建立文本分类模型，提升文本分类效率。

下面结合附图和具体实施例对本发明作进一步描述。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的文本分类方法的应用场景示意图；

图2为本发明实施例提供的文本分类方法的流程示意图；

图3为本发明实施例提供的文本分类方法的子流程示意图；

图4为本发明实施例提供的文本分类装置的示意性框图；

图5为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的文本分类方法的应用场景示意图。图2为本发明实施例提供的文本分类方法的示意性流程图。该文本分类方法应用于服务器中。该服务器与终端进行数据交互，服务器从终端获取待分类数据后，利用训练完成的目标文本分类模型进行分类处理，形成分类结果后，将分类结果输出至终端显示。

图2是本发明实施例提供的文本分类方法的流程示意图。如图2所示，该方法包括以下步骤S110至S130。

S110、获取需分类的文本数据，以得到待分类数据。

在本实施例中，待分类数据包括来自互联网的或者是从终端输入的法律文本，当然，也可以是其他文本文件。

S120、将待分类数据输入目标文本分类模型进行分类，以得到分类结果。

在本实施例中，分类结果包括待分类数据所对应的类别，比如交通肇事致人重伤、致人死亡、造成重大财产损失、肇事后逃逸、无证驾驶以及危险驾驶中的醉驾、超载、超速、运输危险化学品等罪名类别等。

在本实施例中，上述的目标文本模型是指用于对法律文本等待分类数据进行自动分类的模型，可包括LR(逻辑回归，Logistic Regression)、SVM(支持向量机，SupportVector Machine)以及基于CNN(卷积神经网络，Convolutional Neural Networks)或RNN(循环神经网络，Recurrent Neural Network)模式的深度神经网络等。

在一实施例中，请参阅图3，上述的目标文本分类模型是通过对输入的文本数据进行提取向量集并生成标签后结合形成训练数据集进行训练所得的，可包括步骤S121～S126。

S121、获取输入的文本数据，以得到初始数据。

在本实施例中，初始数据是指通过终端或者互联网上获取所得的法律文书等文本数据。

S122、对初始数据进行提取向量集，以得到初始向量集。

在本实施例中，初始向量集是指对初始数据进行分词后再利用Embedding的将离散变量转变为连续向量的方式进行映射后形成的集合。

在一实施例中，上述的步骤S122可包括步骤S1221～S1222。

S1221、对初始数据按照词组切分为词的列表集合或对初始数据按照单字切分为字的列表集合，以得到列表集合。

在本实施例中，列表集合是词组集合或者是单个字的集合，比如：酒精含量、酒驾、故意伤人等组成的集合。

S1222、对列表集合映射至向量空间，以得到初始向量集。

具体地，对于分割出来的词或字，按照向量表将其映射到向量空间，形成初始向量集。

S123、对初始数据生成标签，以得到初始标签。

在本实施例中，初始标签是指采用自动化生成标签的方式所形成的标签。

具体地，利用关键字查找以及正则表达式匹配的方式对初始数据进行处理，以得到初始标签。

由于法律文书的特殊性，关键字与文本的标签相关性较强。可使用关键字查找以及正则表达式匹配的方式为初始数据自动生成标签，不需要人工手动进行标注。比如说醉酒驾驶通常包含“酒驾”、“酒后驾驶”等关键字，利用这些关键字对初始数据进行标签的0和1的初始化。不需要人工介入文本数据标注的情况下，为文本数据自动生成初始标签，快速响应文本分类任务中大量标注数据的需求。

S124、将初始向量集以及初始标签进行组合，以得到训练数据集。

在本实施例中，训练数据集是指带有标签的初始向量集。

具体地，将自动生成的初始标签和初始向量集一一对应，组合成带标签的文本向量集合，作为训练数据集，可采用位置统一的方式进行组合，也就是按照法律文书所出现的词语的顺序以及法律文书内的标签顺序一一对应的方式，比如法律文书的原文为：刘某某于某年某月某日在某地醉酒驾驶以致人重伤，共计15例，则初始向量集为{醉酒驾驶致人重伤15例}，而初始标签对应为酒驾，并以此类推，得出输入的文本数据所对应的所有初始标签和初始向量集，而形成的训练数据集为带有酒驾标签的向量集{醉酒驾驶致人重伤15例}。

初始标签的形成并没有人工介入，其中大部分初始数据通过关键字归类到正确的类别，但是仍有部分初始数据在首次自动标注时没有分配到正确的类别，原因可能有关键字未能覆盖全部情况、关键字前面有表示否定的词语等。由于Embedding将相近语义的词语映射到相近的向量空间，在混淆了部分错误初始数据的情况下，初始文本分类模型在这些发生歧义的样例输出的置信度不高，通过挑选出置信度不高的部分数据进行检查，大大减少了标注数据的工作量。

S125、构建初始文本分类模型以及损失函数。

在本实施例中，初始文本分类模型是指用于分类文本数据的模型，可包括LR(逻辑回归，Logistic Regression)、SVM(支持向量机，Support Vector Machine)以及基于CNN(卷积神经网络，Convolutional Neural Networks)或RNN(循环神经网络，RecurrentNeural Network)模式的深度神经网络等，在本实施例中，优选的是基于CNN(卷积神经网络，Convolutional Neural Networks)模式的深度神经网络，即Text CNN模型。

而损失函数是用于衡量上述的初始文本分类训练过程的收敛情况的函数，在本实施例中，损失函数采用的是Cross-Entropy损失函数。

S126、通过训练数据集训练所述初始文本分类模型，以得到目标文本分类模型。

在一实施例中，上述的步骤S126可包括步骤S126a～S126l。

S126a、设定迭代条件。

在本实施例中，迭代条件是指用于更新训练数据集的次数的判断标准，以便于更新初始文本分类模型的参数。

在本实施例中，迭代条件包括当前的迭代次数以及迭代次数的阈值。

S126b、将训练数据集输入至所述初始文本分类模型进行训练，以得到训练结果。

在本实施例中，将所有训练数据集输入至初始文本分类模型内进行训练，训练结果包括文本类别以及置信度。

S126c、采用损失函数以及训练结果计算损失值。

在本实施例中，损失值是指利用上述的损失函数计算训练结果以及对应的类别标签的差距。

S126d、判断所述损失值是否维持不变。

在本实施例中，当损失值维持不变，即当前的初始文本分类模型已经收敛，即损失值基本不变且非常小，也表明当前的初始文本分类模型是可以作为候选的目标文本分类模型，一般是开始训练时损失值比较大，越往后训，损失值越小，倘若该损失值未维持不变，表明当前的初始文本分类模型不可以用作候选的目标文本分类模型，也就是评估出来的类别并不准确，会导致后期的文本分析也不准确。

S126e、若所述损失值不是维持不变，则调整所述初始文本分类模型的参数，并执行所述将训练数据集输入至所述初始文本分类模型进行训练，以得到训练结果。

本实施例中，调整初始文本分类模型的参数是指调整初始文本分类模型中各个层的权重值。通过不断地训练，便可以得到满足要求的初始文本分类模型。

S126f、若所述损失值维持不变，则获取测试数据集。

在本实施例中，其中，测试数据集是用于测试训练后的初始文本分类模型的分类效果的数据，测试数据集作为正确标记的数据，默认其准确性没有问题，并作为标准是用于校正训练数据集的标签。

S126g、将测试数据集输入初始文本分类模型内进行分类测试，以得到测试结果；

S126h、判断所述测试结果是否符合要求；

S126i、若所述测试结果不符合要求，则判断所述迭代条件是否满足要求。

在本实施例中，迭代条件是否满足要求取决于迭代次数是否达到迭代次数的阈值。当迭代次数未达到迭代次数的阈值，则表明该迭代条件满足要求；当迭代次数达到迭代次数的阈值，则表明该迭代条件不满足要求。

S126j、若所述迭代条件满足要求，则筛选出训练结果内置信度低于设定值所对应的训练数据集。

在本实施例中，筛选出训练结果内置信度低于0.8所对应的训练数据集，置信度低于设定值的测试数据集则表明该测试数据集对应的训练数据集的标签可能有误，也可能因为数据混淆导致模型出现偏差。

S126k、修改所筛选出来的训练数据集的标签，以更新所述训练数据集，并执行所述将训练数据集输入至所述初始文本分类模型进行训练，以得到训练结果。

具体地，可以通过脚本修改所筛选出来的训练数据集的标签。

当然，于其他实施例，还可以通过手工修改所筛选出来的训练数据集的标签

将新生成的标签和初始向量集一一对应，组合成新的训练数据集，以该新的训练数据集替换原有的训练数据集，并再次进行初始文本分类模型的训练。在建立和训练初始文本分类模型的过程中，通过迭代的方式修正文本数据标签，从而提高数据质量，大大降低了前期的人工标注成本，快速响应文本分类任务中大量标注数据的需求，以达到快速建立文本分类模型，提升文本分类效率。

S126l、若迭代条件不满足要求，则将所述初始文本分类模型作为目标文本分类模型；

若所述测试结果符合要求，则执行所述步骤S126l。

当测试结果内还包括精度和召回率，若测试结果中的精度和召回率这两个指标评估符合条件，则表明拟合程度符合要求，便可认为测试结果是符合要求的；否则，则认为该测试结果不符合要求。初始文本分类模型收敛时停止训练。初始文本分类模型训练好后对初始文本分类模型进行测试，如果测试结果不好，需要调整训练策略重新进行初始文本分类模型训练。当然，在训练的过程中，会进行训练和测试，训练时测试是为了实时查看训练情况；而训练初始文本分类模型完成后的测试，用精度和召回率这两个指标评估整个初始文本分类模型的执行准确程度。

另外，迭代条件结束的标志一般有达到最大迭代次数、初始文本分类模型达到指定效果、指标已经收敛等。

举个例子，初始数据为交通肇事罪和危险驾驶罪下的法律文本，由600句长短文本构成，包含交通肇事致人重伤、致人死亡、造成重大财产损失、肇事后逃逸、无证驾驶以及危险驾驶中的醉驾、超载、超速、运输危险化学品等9种罪名标签。其中致人重伤15例、致人死亡271例、重大财产损失1例、肇事后逃逸40例、无证驾驶31例、醉驾134例、超载20例、超速34例、运输危险化学品12例。初始文本分类模型选用Text CNN模型，则该初始文本分类模型的训练过程如下：

包含以上罪名的长短文本共8072句，对文本进行分词以及Embedding操作，得到分词后的文本以及Embedding后的向量集合，对于无标签的文本，采用关键字查找的方式为文本自动打上标签，将标签和文本的向量集合一一对应起来，作为训练数据集，文本标签没有人工介入，其中大部分数据通过关键字归类到正确的类别，但是仍有部分文本在首次自动标注时没有分配到正确的类别，原因可能有关键字未能覆盖全部情况、关键字前面有表示否定的词语等。由于Embedding将相近语义的词语映射到相近的向量空间，在混淆了部分错误数据的情况下，模型在这些发生歧义的样例输出的置信度不高，通过挑选出置信度不高的部分数据进行检查，大大减少了标注数据的工作量。

将带标签的文本集合作为训练数据集，按照Batch为64的大小输入TextCNN分类模型，使用Cross-Entropy作为损失函数，优化器为AdamOptimizer进行模型训练，导出训练后的TextCNN模型参数，后续用于预测训练数据的标签并修正，去掉训练数据集的标签，使用训练好的TextCNN对训练数据集的标签进行预测，并输出预测的标签和对应的置信度；挑选出置信度低于0.8的训练数据集进行检查，通过脚本和人工进行修改或者增删，将修正后的标签和对应的文本集合关联起来，形成新的训练数据集，等待下次输入初始文本分类模型。重复上述步骤，直到迭代条件结束，比如迭代次数达到设定的最大迭代次数。训练后的初始文本分类模型整体准确率为95.9％，训练后的初始文本分类模型整体召回率为95.2％

S130、输出所述分类结果至终端，以在终端显示所述分类结果；

将分类结果输出至终端，以供终端查阅。

上述的文本分类方法，通过采用分词、Embedding等预处理后形成的初始向量集，且对输入的文本数据采用自动生成标签的方式生成标签，将生成的标签与初始向量集组合，形成训练数据集并对初始文本分类模型进行训练，在训练的过程，通过迭代的方式修正文本数据标签，并再次训练初始文本分类模型，提高训练数据质量，降低了前期的人工标注标签成本，快速响应文本分类任务中大量标注数据的需求，以达到快速建立文本分类模型，提升文本分类效率。

图4是本发明实施例提供的一种文本分类装置300的示意性框图。如图4所示，对应于以上文本分类方法，本发明还提供一种文本分类装置300。该文本分类装置300包括用于执行上述文本分类方法的单元，该装置可以被配置于台式电脑、平板电脑、手提电脑等终端中。具体地，请参阅图4，该文本分类装置300包括获取单元301、分类单元302以及输出单元303。

获取单元301，用于获取需分类的文本数据，以得到待分类数据；分类单元302，用于将待分类数据输入目标文本分类模型进行分类，以得到分类结果；输出单元303，用于输出所述分类结果至终端，以在终端显示所述分类结果。

在一实施例中，该文本分类装置300还包括：

模型生成单元，用于通过对输入的文本数据进行提取向量集并生成标签后结合形成训练数据集进行训练，以得到目标文本分类模型。

在一实施例中，所述模型生成单元包括初始数据获取子单元、向量集提取子单元、标签生成子单元、组合子单元、构建子单元以及训练子单元。

初始数据获取子单元，用于获取输入的文本数据，以得到初始数据；向量集提取子单元，用于对初始数据进行提取向量集，以得到初始向量集；标签生成子单元，用于对初始数据生成标签，以得到初始标签；组合子单元，用于将初始向量集以及初始标签进行组合，以得到训练数据集；构建子单元，用于构建初始文本分类模型以及损失函数；训练子单元，用于通过训练数据集训练所述初始文本分类模型，以得到目标文本分类模型。

在一实施例中，所述向量集提取子单元包括切分模块以及映射模块。

切分模块，用于对初始数据按照词组切分为词的列表集合或对初始数据按照单字切分为字的列表集合，以得到列表集合；映射模块，用于对列表集合映射至向量空间，以得到初始向量集。

具体地，标签生成子单元，用于利用关键字查找以及正则表达式匹配的方式对初始数据进行处理，以得到初始标签。

在一实施例中，所述训练子单元包括条件设定模块、训练结果获取模块、训练结果获取模块、损失值判断模块、调整模块、测试集构建模块、分类测试模块、测试结果判断模块、条件判断模块、筛选模块以及标签修改模块。

条件设定模块，用于设定迭代条件；训练结果获取模块，用于将训练数据集输入至所述初始文本分类模型进行训练，以得到训练结果；训练结果获取模块，用于采用损失函数以及训练结果计算损失值；损失值判断模块，用于判断所述损失值是否维持不变；调整模块，用于若所述损失值不是维持不变，则调整所述初始文本分类模型的参数，并执行所述将训练数据集输入至所述初始文本分类模型进行训练，以得到训练结果；测试集构建模块，用于若所述损失值维持不变，则获取测试数据集；分类测试模块，用于将测试数据集输入初始文本分类模型内进行分类测试，以得到测试结果；测试结果判断模块，用于判断所述测试结果是否符合要求；若所述测试结果符合要求，则将所述初始文本分类模型作为目标文本分类模型。条件判断模块，用于若所述测试结果不符合要求，则判断所述迭代条件是否满足要求；筛选模块，用于若所述迭代条件满足要求，则筛选出训练结果内置信度低于设定值所对应的训练数据集；标签修改模块，用于修改所筛选出来的训练数据集的标签，以更新所述训练数据集；并执行所述将训练数据集输入至所述初始文本分类模型进行训练，以得到训练结果；若迭代条件不满足要求，则将所述初始文本分类模型作为目标文本分类模型。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述文本分类装置300和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述文本分类装置300可以实现为一种计算机程序的形式，该计算机程序可以在如图5所示的计算机设备上运行。

请参阅图5，图5是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500是服务器，其中，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图5，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令，该程序指令被执行时，可使得处理器502执行一种文本分类方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种文本分类方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下步骤：

获取需分类的文本数据，以得到待分类数据；将待分类数据输入目标文本分类模型进行分类，以得到分类结果；输出所述分类结果至终端，以在终端显示所述分类结果；其中，所述目标文本分类模型是通过对输入的文本数据进行提取向量集并生成标签后结合形成训练数据集进行训练所得的

在一实施例中，处理器502在实现所述目标文本分类模型是通过对输入的文本数据进行提取向量集并生成标签后结合形成训练数据集进行训练所得的步骤时，具体实现如下步骤：

获取输入的文本数据，以得到初始数据；对初始数据进行提取向量集，以得到初始向量集；对初始数据生成标签，以得到初始标签；将初始向量集以及初始标签进行组合，以得到训练数据集；构建初始文本分类模型以及损失函数；通过训练数据集训练所述初始文本分类模型，以得到目标文本分类模型。

在一实施例中，处理器502在实现所述对初始数据进行提取向量集，以得到初始向量集步骤时，具体实现如下步骤：

对初始数据按照词组切分为词的列表集合或对初始数据按照单字切分为字的列表集合，以得到列表集合；对列表集合映射至向量空间，以得到初始向量集。

在一实施例中，处理器502在实现所述对初始数据生成标签，以得到初始标签步骤时，具体实现如下步骤：

在一实施例中，处理器502在实现所述通过训练数据集训练所述初始文本分类模型，以得到目标文本分类模型步骤时，具体实现如下步骤：

设定迭代条件；将训练数据集输入至所述初始文本分类模型进行训练，以得到训练结果；采用损失函数以及训练结果计算损失值；判断所述损失值是否维持不变；若所述损失值不是维持不变，则调整所述初始文本分类模型的参数，并执行所述将训练数据集输入至所述初始文本分类模型进行训练，以得到训练结果；若所述损失值维持不变，则获取测试数据集；将测试数据集输入初始文本分类模型内进行分类测试，以得到测试结果；判断所述测试结果是否符合要求；若所述测试结果不符合要求，则判断所述迭代条件是否满足要求；若所述迭代条件满足要求，则筛选出训练结果内置信度低于设定值所对应的训练数据集；修改所筛选出来的训练数据集所对应的训练数据集的标签，以更新所述训练数据集，并执行所述将训练数据集输入至所述初始文本分类模型进行训练，以得到训练结果；若迭代条件不满足要求，则将所述初始文本分类模型作为目标文本分类模型；若所述测试结果符合要求，则将所述初始文本分类模型作为目标文本分类模型。

其中，所述训练结果包括文本类别以及置信度。

在一实施例中，处理器502在实现所述修改所筛选出来的训练数据集的标签步骤时，具体实现如下步骤：

通过脚本修改所筛选出来的训练数据集的标签。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，其中该计算机程序被处理器执行时使处理器执行如下步骤：

获取需分类的文本数据，以得到待分类数据；将待分类数据输入目标文本分类模型进行分类，以得到分类结果；输出所述分类结果至终端，以在终端显示所述分类结果；其中，所述目标文本分类模型是通过对输入的文本数据进行提取向量集并生成标签后结合形成训练数据集进行训练所得的。

在一实施例中，所述处理器在执行所述计算机程序而实现所述目标文本分类模型是通过对输入的文本数据进行提取向量集并生成标签后结合形成训练数据集进行训练所得的步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对初始数据进行提取向量集，以得到初始向量集步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对初始数据生成标签，以得到初始标签步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述通过训练数据集训练所述初始文本分类模型，以得到目标文本分类模型步骤时，具体实现如下步骤：

设定迭代条件；将训练数据集输入至所述初始文本分类模型进行训练，以得到训练结果；采用损失函数以及训练结果计算损失值；判断所述损失值是否维持不变；若所述损失值不是维持不变，则调整所述初始文本分类模型的参数，并执行所述将训练数据集输入至所述初始文本分类模型进行训练，以得到训练结果；若所述损失值维持不变，则获取测试数据集；将测试数据集输入初始文本分类模型内进行分类测试，以得到测试结果；判断所述测试结果是否符合要求；若所述测试结果不符合要求，则判断所述迭代条件是否满足要求；若所述迭代条件满足要求，则筛选出训练结果内置信度低于设定值所对应的训练数据集；修改所筛选出来的训练数据集的标签，以更新所述训练数据集，并执行所述将训练数据集输入至所述初始文本分类模型进行训练，以得到训练结果；若迭代条件不满足要求，则将所述初始文本分类模型作为目标文本分类模型；若所述测试结果符合要求，则将所述初始文本分类模型作为目标文本分类模型。

其中，所述训练结果包括文本类别以及置信度。

在一实施例中，所述处理器在执行所述计算机程序而实现所述修改所筛选出来的训练数据集的标签步骤时，具体实现如下步骤：

通过脚本修改所筛选出来的训练数据集的标签。

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.文本分类方法，其特征在于，包括：

获取需分类的文本数据，以得到待分类数据；

输出所述分类结果至终端，以在终端显示所述分类结果；

其中，所述目标文本分类模型是通过对输入的文本数据进行提取向量集并生成标签后结合形成训练数据集进行训练所得的；

所述目标文本分类模型是通过对输入的文本数据进行提取向量集并生成标签后结合形成训练数据集进行训练所得的，包括：

获取输入的文本数据，以得到初始数据；

对初始数据进行提取向量集，以得到初始向量集；

对初始数据生成标签，以得到初始标签；

将初始向量集以及初始标签进行组合，以得到训练数据集；

构建初始文本分类模型以及损失函数；

通过训练数据集训练所述初始文本分类模型，以得到目标文本分类模型；

初始文本分类模型在这些发生歧义的样例输出的置信度不高，通过挑选出置信度不高的部分数据进行检查；

所述通过训练数据集训练所述初始文本分类模型，以得到目标文本分类模型，包括：

设定迭代条件；

采用损失函数以及训练结果计算损失值；

判断所述损失值是否维持不变；

若所述损失值维持不变，则获取测试数据集；

判断所述测试结果是否符合要求；

若所述测试结果符合要求，则将所述初始文本分类模型作为目标文本分类模型；

所述修改所筛选出来的训练数据集的标签，包括：

通过脚本修改所筛选出来的训练数据集的标签；

将新生成的标签和初始向量集一一对应，组合成新的训练数据集，以该新的训练数据集替换原有的训练数据集，并再次进行初始文本分类模型的训练。

2.根据权利要求1所述的文本分类方法，其特征在于，所述对初始数据进行提取向量集，以得到初始向量集，包括：

对列表集合映射至向量空间，以得到初始向量集。

3.根据权利要求1所述的文本分类方法，其特征在于，所述对初始数据生成标签，以得到初始标签，包括：

4.根据权利要求1所述的文本分类方法，其特征在于，所述训练结果包括文本类别以及置信度。

5.文本分类装置，其特征在于，包括：

输出单元，用于输出所述分类结果至终端，以在终端显示所述分类结果；

该文本分类装置还包括：

模型生成单元，用于通过对输入的文本数据进行提取向量集并生成标签后结合形成训练数据集进行训练，以得到目标文本分类模型；

所述模型生成单元包括初始数据获取子单元、向量集提取子单元、标签生成子单元、组合子单元、构建子单元以及训练子单元；

初始数据获取子单元，用于获取输入的文本数据，以得到初始数据；向量集提取子单元，用于对初始数据进行提取向量集，以得到初始向量集；标签生成子单元，用于对初始数据生成标签，以得到初始标签；组合子单元，用于将初始向量集以及初始标签进行组合，以得到训练数据集；构建子单元，用于构建初始文本分类模型以及损失函数；训练子单元，用于通过训练数据集训练所述初始文本分类模型，以得到目标文本分类模型；

所述训练子单元包括条件设定模块、训练结果获取模块、训练结果获取模块、损失值判断模块、调整模块、测试集构建模块、分类测试模块、测试结果判断模块、条件判断模块、筛选模块以及标签修改模块；

条件设定模块，用于设定迭代条件；训练结果获取模块，用于将训练数据集输入至所述初始文本分类模型进行训练，以得到训练结果；训练结果获取模块，用于采用损失函数以及训练结果计算损失值；损失值判断模块，用于判断所述损失值是否维持不变；调整模块，用于若所述损失值不是维持不变，则调整所述初始文本分类模型的参数，并执行所述将训练数据集输入至所述初始文本分类模型进行训练，以得到训练结果；测试集构建模块，用于若所述损失值维持不变，则获取测试数据集；分类测试模块，用于将测试数据集输入初始文本分类模型内进行分类测试，以得到测试结果；测试结果判断模块，用于判断所述测试结果是否符合要求；若所述测试结果符合要求，则将所述初始文本分类模型作为目标文本分类模型；条件判断模块，用于若所述测试结果不符合要求，则判断所述迭代条件是否满足要求；筛选模块，用于若所述迭代条件满足要求，则筛选出训练结果内置信度低于设定值所对应的训练数据集；通过脚本修改所筛选出来的训练数据集的标签；将新生成的标签和初始向量集一一对应，组合成新的训练数据集，以该新的训练数据集替换原有的训练数据集，并再次进行初始文本分类模型的训练；标签修改模块，用于修改所筛选出来的训练数据集的标签，以更新所述训练数据集；并执行所述将训练数据集输入至所述初始文本分类模型进行训练，以得到训练结果；若迭代条件不满足要求，则将所述初始文本分类模型作为目标文本分类模型。

6.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的方法。

7.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现如权利要求1至4中任一项所述的方法。