CN113064993B

CN113064993B - 一种基于大数据的自动化文本分类标注系统的设计方法、优化方法及标注方法

Info

Publication number: CN113064993B
Application number: CN202110308225.3A
Authority: CN
Inventors: 周金明; 熊林海
Original assignee: Nanjing Inspector Intelligent Technology Co ltd
Current assignee: Nanjing Inspector Intelligent Technology Co ltd
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2023-07-21
Anticipated expiration: 2041-03-23
Also published as: CN113064993A

Abstract

本发明公开了一种基于大数据的自动化文本分类标注系统的设计方法、优化方法及标注方法，通过设计文本分类线下集成模型stacking_offline和线上集成模型stacking_online，经过对现有的n个文本数据进行人工标注以及更新验证策略，分别获取和更新现有的线下集成模和线上集成模型的样本集，并对其模型进行更新迭代训练，即得到的自动标注评估模型stacking_offline，和自动标注模型stacking_online；实现对新的文本数据样本的自动化标注。

Description

一种基于大数据的自动化文本分类标注系统的设计方法、优化方法及标注方法

技术领域

本发明涉及自然语言处理和智能信访领域，具体涉及一种基于大数据的自动化文本分类标注系统的设计方法、优化方法及标注方法。

背景技术

目前现有的标注系统大多偏向于半自动化，虽然能够降低人工标注成本，但是不能完全摆脱人工，解决不了完全自动化这个根本性问题，且容易造成反复标注、标注质量差、效率低下、过程繁琐等其他问题。同时现有的标注工具的标注方法都非常单一、无法对标注模型进行自动更新，更谈不上全自动化标注了，因此，迫切需要一套能够全自动分类标注系统来解决以上问题。

发明内容

为了克服现有技术的不足，本公开实施例提供了一种基于大数据的自动化文本分类标注系统的设计方法、优化方法及标注方法，可以实现完全自动化标注。技术方案如下：

第一方面，提供了一种基于大数据的自动化文本分类标注系统的设计方法，该方法包括如下步骤：

步骤1，将现有需要人工标注的n个文本数据存入数据库text表，text表的类别标签字段为空，再将所有C个分类标签存于数据库category表，首先用余弦算法计算文本数据的内容和分类标签之间的文本相似度来给定文本的初始分类标签，将标签存入text表的对应类别标签字段。

步骤2，从text表获取训练集F，设置每个类别下样本数量阈值m，训练集的总样本数量阈值f＝m*C，其中f＜n，记所有文本数据的内容的文本相似度集合为(v₁,v₂…v_i…v_n)，v_i为某一文本数据与所有类别的相似度的最大值，每个类别下将相似度集合按从大到小排序，将前m个样本加入训练集F，其他文本作为待标注样本集。

步骤3，设计线下集成模型stacking_offline和线上集成模型stacking_online；采用训练集F训练文本分类线下集成模型stacking_offline，模型stacking_offline包括Bert和LSTM两种神经网络文本分类算法，用训练好的stacking_offline模型对待标注样本集自动预测分类结果，将自动预测分类结果更新text表的对应类别标签字段，即得到预测类别标签；训练完后记录训练集文本ID列表trainList＝{d₁,d₂,…,d_f}和stacking_offline的模型准确率T_F，其中d_i表示每个文本内容对应的ID，当训练集F的ID集合与trainList不一致时重新训练，当重新训练的模型准确率超过T_F时更新原模型。

记stacking_offline模型预测的自动预测分类结果对应的概率值为(p₁,p₂,…,p_n-f)，将每个类别下的预测结果按照预测概率值集合按从小到大排序，逐渐加入到待标注文本列表H，对待标注文本列表H进行人工标注，人工标注完成并审核通过后自动加入训练集F，单独设置人工标注的ID命名规则，当训练集F下每个类别下的样本数量≥m则停止人工标注。

设计线上集成模型stacking_online，模型stacking_online包括logistic、xgbooost、NaiveBayes、3种机器学习分类算法；设置线上训练集G，设置触发stacking_online模型自动训练的标注数量阈值i，每当人工标注量≥i时，将这i个人工标注样本加入到线上训练集G；设置训练集G的文本数量最大值g(g<f)，当G的文本数量大于g时，每个分类仅保留预测概率值最大的前floor(g/C)个文本作为训练集G；每当人工标注量≥i时，且G的文本ID列表发生变化时利用新训练集G重新训练stacking_online模型。

步骤4，依次循环，直到所有样本均标注完不再需要人工标注，得到自动标注系统：将n个样本按类别进行拆分，每个类别下50％以上的样本作为stacking_offline的训练集、剩余的样本作为stacking_online的训练集，重新训练即得到自动标注评估模型stacking_offline和自动标注模型stacking_online。

优选的，步骤1中用余弦算法计算文本内容和分类标签之间的文本相似度具体如下：记某一文本数据的内容为A，分词转码后的结果为(a₁,a₂,…,a_n)，某一分类标签B分词转码后结果为(b₁,b₂,……b_n’)，n’表示标签B共有n’级，则A和B的相似度为：

优选的，步骤3中将每个类别下的预测结果按照预测概率值集合按从小到大排序，逐渐加入到待标注文本列表H，对待标注文本列表H进行人工标注，具体为：设置最大任务量阈值h，记stacking_offline模型预测的自动预测分类结果对应的概率值为(p₁,p₂,…,p_n-f)，将预测概率值集合按从小到大排序，将前h个文本数据优先加入待标注文本列表H；对待标注文本列表H进行人工标注：通过选取文本中多个关键词作为确认分类的依据，既可以选择认可stacking_offline模型的预测类别结果，也可以修改stacking_offline模型的预测类别结果，确认提交后自动进入下一个标注样本继续标注，同时将标注好的文本自动加入训练集F，并从待标注文本列表H中删除，把标注好的文本对应的分类、关键词及其相关系数自动存入数据库text表对应的关键词字段keywords。

进一步的，设置最大任务量阈值h可以根据当天标注人数和每人每天的任务量上限来确定。

优选的，步骤3还包括对已标注样本进行抽检：采用stacking_online模型自动从当天某个标注人员的已标注样本中随机抽检比例为η1的样本，将其预测类别结果与其人工标注结果不一致的文本认为是不合格样本，自动发送给后台管理员进行审核，若管理员点击确认为不合格则直接退回到待标注文本中重新标注，若管理员超过时限未处理则自动认为是不合格，退回重新标注；若管理员审核后抽检不合格率超过α1，则该批抽检样本全部退回重新标注，继续抽检剩余已标注样本比例为η1的的样本；若样本抽检不合格率超过α2，α2＜α1，则继续抽检剩余已标注样本的比例为η1的样本；直到抽检不合格率小于α2才停止抽检。

优选的，步骤3还包括设计stacking_offline自动抽检规则，设置定时任务时长r，每隔r小时就利用最新的stacking_offline模型自动从当天某个标注人员的已标注样本中随机抽检比例为η2的样本，将其预测类别结果与其人工标注结果不一致的文本认为是不合格样本，自动发送给后台管理员进行审核，若管理员点击确认为不合格则直接退回到待标注文本中重新标注，若管理员超过时限未处理则自动认为是不合格，退回重新标注；若管理员审核后抽检不合格率超过α3，则该批抽检样本全部退回重新标注，继续抽检剩余已标注样本比例为η2的的样本；若样本抽检不合格率超过α4，α4＜α3，则继续抽检剩余已标注样本的比例为η2的样本；直到抽检不合格率小于α4才停止抽检；此规则不适用于超过时限未处理的情形。

优选的，在自动抽检过程中，还包括设计标注人员打分规则，将因为抽检不合格而退回的待标注样本优先分配给得分高的用户进行标注。

第二方面，本公开实施例提供了一种基于大数据的自动化文本分类标注系统的优化方法，该方法包括如下步骤：

对所有可能的实现方式中任一项所述的一种基于大数据的自动化文本分类标注系统的设计方法得到的自动标注评估模型stacking_offline和自动标注模型stacking_online进行优化：设置标注确信度阈值t，每当新的标注任务进入待标注列表，先由stacking_online模型自动预测出分类，然后利用stacking_offline模型预测确认是否一致；

若二者预测结果一致，则根据stacking_offline的预测概率值自动分配文本：若概率超过t则自动加入stacking_offline的训练集F，否则自动加入stacking_online的训练集G，并将对应的关键词及相关系数(相关系数最大的3个)写入关键词表keywords；

若二者预测结果不一致，若stacking_online模型预测的概率值大于stacking_offline模型预测的概率则认为stacking_online模型预测正确，否则认为stacking_offline模型预测正确，若概率超过t则自动加入stacking_offline的训练集F，否则自动加入stacking_online的训练集G，并将对应的关键词及相关系数(相关系数最大的3个)写入关键词表keywords；

对自动化文本分类标注系统不断迭代优化，即通过新的训练集F对stacking_offline模型进行训练，通过新的训练集G对stacking_online模型进行训练，得到优化后的自动标注评估模型stacking_offline和自动标注模型stacking_online。

第三方面，本公开实施例提供了一种基于大数据的自动化文本分类标注系统的标注方法，该方法包括如下步骤：

每当新的标注任务进入待标注列表，根据所有可能的实现方式中任一项所述的一种基于大数据的自动化文本分类标注系统的设计方法或优化方法得到的stacking_online模型自动预测出分类，即实现了文本数据的自动标注功能。

与现有技术相比，上述技术方案中的一个技术方案具有如下有益效果：通过设计文本分类线下集成模型stacking_offline和线上集成模型stacking_online，经过对现有的n个文本数据进行人工标注以及更新验证策略，分别获取和更新现有的线下集成模和线上集成模型的样本集，并对其模型进行更新迭代训练，即得到的自动标注评估模型stacking_offline，和自动标注模型stacking_online；实现对新的文本数据样本的自动化标注。

具体实施方式

为了阐明本发明的技术方案和工作原理，下面将对本公开实施方式做进一步的详细描述。上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

本申请的说明书和权利要求书中的术语“步骤1”、“步骤2”、“步骤3”等类似描述(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里描述的那些以外的顺序实施。

第一方面：本公开实施例提供了一种基于大数据的自动化文本分类标注系统的设计方法，该方法包括如下步骤：

步骤1，将现有需要人工标注的n个文本数据存入数据库text表，text表的类别标签字段为空，再将所有C个分类标签(如C＝455条标签，每个标签共n’级)存于数据库category表，首先用余弦算法计算文本数据的内容和分类标签之间的文本相似度来给定文本的初始分类标签，将标签存入text表的对应类别标签字段。

优选的，用余弦算法计算文本内容和分类标签之间的文本相似度具体如下：记某一文本数据的内容为A，分词转码后的结果为(a₁,a₂,…,a_n)，某一分类标签B分词转码后结果为(b₁,b₂,……b_n’)，n’表示标签B共有n’级，则A和B的相似度为：

步骤2，从text表获取训练集F，设置每个类别下样本数量阈值m，训练集的总样本数量阈值f＝m*C(f＜n)，记所有文本数据的内容的文本相似度集合为(v₁,v₂…v_i…v_n)，v_i为某一文本数据与所有类别的相似度的最大值，每个类别下将相似度集合按从大到小排序，将前m个样本加入训练集F，其他文本作为待标注样本集。

步骤3，设计线下集成模型stacking_offline和线上集成模型stacking_online；设置定时任务，每天凌晨00:00:00时采用训练集F训练文本分类线下集成模型stacking_offline，模型stacking_offline包含Bert和LSTM两种神经网络文本分类算法，然后用训练好的stacking_offline模型对待标注样本集自动预测分类结果，将自动预测分类结果更新text表的对应类别标签字段，即得到预测类别标签；训练完后记录训练集文本ID列表trainList＝{d₁,d₂,…,d_f}和stacking_offline的模型准确率T_F，其中d_i表示每个文本内容对应的ID，当训练集F的ID集合与trainList不一致才会重新训练，当重新训练的模型准确率超过T_F才更新原模型。

记stacking_offline模型预测的自动预测分类结果对应的概率值为(p₁,p₂,…,p_n-f)，将每个类别下的预测结果按照预测概率值集合按从小到大排序，逐渐加入到待标注文本列表H，对待标注文本列表H进行人工标注，人工标注完成并审核通过后自动加入训练集F，单独设置人工标注的ID命名规则，当训练集F下每个类别下的样本数量>＝m则停止人工标注。

优选的，将每个类别下的预测结果按照预测概率值集合按从小到大排序，逐渐加入到待标注文本列表H，对待标注文本列表H进行人工标注，具体为：设置最大任务量阈值h，记stacking_offline模型预测的自动预测分类结果对应的概率值为(p₁,p₂,…,p_n-f)，将预测概率值集合按从小到大排序，将前h个文本数据优先加入待标注文本列表H。

优选的，设置最大任务量阈值h可以根据当天标注人数和每人每天的任务量上限来确定。

设计自动标注系统的界面，将待标注文本列表H自动读入并展示，界面主要包含文本数据的内容、预测类别标签、需人工选取的关键词及其相关系数。

对待标注文本列表H进行人工标注：通过选取文本中多个关键词作为确认分类的依据，既可以选择认可stacking_offline模型的预测类别结果，也可以修改stacking_offline模型的预测类别结果，确认提交后自动进入下一个标注样本继续标注，同时将标注好的文本自动加入训练集F，并从待标注文本列表H中删除，把标注好的文本对应的分类、关键词及其相关系数自动存入数据库text表对应的关键词字段keywords。

优选的，所述关键词相关系数设计如下：若关键词能完全决定问题分类，则相关系数为1；若相关度非常大，但不能完全决定就是该分类，则相关系数为0.75；若相关度较大，则相关系数为0.5；若有一定的相关性，则相关系数为0.25。

优选的，设计自动标注系统的用户管理功能，标注人员需要登录进入标注系统先领取标注任务量，系统自动按序分配样本给标注人员进行标注。

优选的，设计自动标注系统的后台管理功能，可查看历史标注情况，也能实时检查标注进度，同时支持审核修改文本标注结果。

设计线上集成模型stacking_online，模型stacking_online包括logistic、xgbooost、NaiveBayes、3种机器学习分类算法。

优选的，线上集成模型stacking_online还包含第四种机器学习分类算法RandomForest。

设置线上训练集G，设置触发stacking_online模型自动训练的标注数量阈值i，每当人工标注量≥i时，将这i个人工标注样本加入到线上训练集G；设置训练集G的文本数量最大值g(g<f)，当G的文本数量大于g时，每个分类仅保留预测概率值(预测概率值即为确信度)最大的前floor(g/C)个文本作为训练集G，设置训练集G的文本数量最大值g是为了保证stacking_online模型计算速度。每当人工标注量≥i时，且G的文本ID列表发生变化时利用新训练集G重新训练stacking_online模型。

其中floor表示向下取整的意思，即保证各分类训练样本的均衡性。

优选的，还包括对已标注样本进行抽检：设置定时任务，每天18:00:00时stacking_online模型自动从当天某个标注人员的已标注样本中随机抽检比例为η1的样本(η1＝25％)，将其预测类别结果与其人工标注结果不一致的文本认为是不合格样本，自动发送给后台管理员进行审核，若管理员点击确认为不合格则直接退回到待标注文本中重新标注，若管理员超过时限(设置审核有效时限，如当天23:00前)未处理则自动认为是不合格，退回重新标注。

优选的，若管理员审核后抽检不合格率超过α1(α1＝20％)，则该批抽检样本全部退回重新标注，继续抽检剩余已标注样本比例为η1的的样本；若样本抽检不合格率超过α2(α2＜α1)(α2＝10％)，则继续抽检剩余已标注样本的比例为η1的样本；直到抽检不合格率小于α2才停止抽检；此规则不适用于超过时限未处理的情形。

优选的，设计stacking_offline自动抽检规则，设置定时任务时长r，每隔r小时就利用最新的stacking_offline模型自动从当天某个标注人员的已标注样本中随机抽检比例为η2的样本(η2＝20％)，将其预测类别结果与其人工标注结果不一致的文本认为是不合格样本，自动发送给后台管理员进行审核，若管理员点击确认为不合格则直接退回到待标注文本中重新标注，若管理员超过时限未处理则自动认为是不合格，退回重新标注。

优选的，若管理员审核后抽检不合格率超过α3，则该批抽检样本全部退回重新标注，继续抽检剩余已标注样本比例为η2的的样本；若样本抽检不合格率超过α4(α4＜α3)，则继续抽检剩余已标注样本的比例为η2的样本；直到抽检不合格率小于α4才停止抽检；此规则不适用于超过时限未处理的情形。

优选的，设计标注人员打分规则，将因为抽检不合格而退回的待标注样本优先分配给得分高的用户进行标注。

进一步的，设计标注人员打分规则具体如下：

记标注人员U共标注了k个样本，总标注时长l小时，与最新的stacking_offline模型预测一致的标注文本量为s个，则用户综合得分为：其中,α等于0.4，β等于0.4，γ等于0.2，S1为质量函数，/>

S2为速度函数，

S3为经验函数，

步骤4，依次循环，直到所有样本均标注完不再需要人工标注，继续设计自动标注系统：将n个样本按类别进行拆分，每个类别下50％以上(如75％)的样本作为stacking_offline的训练集、剩余(如25％)的样本作为stacking_online的训练集，重新训练即得到自动标注评估模型stacking_offline和自动标注模型stacking_online。

设置标注确信度阈值t，每当新的标注任务进入待标注列表，先由stacking_online模型自动预测出分类，然后利用stacking_offline模型预测确认是否一致；

优选的，若二者预测结果不一致，还可以通过人工审核完善，完善后的结果自动加入stacking_offline的训练集。

以上对本发明进行了示例性描述，显然，本发明具体实现并不受上述方式的限制，凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进；或者未经改进、等同替换，将本发明的上述构思和技术方案直接应用于其他场合的，均在本发明的保护范围之内。

Claims

1.一种基于大数据的自动化文本分类标注系统的设计方法，其特征在于，该方法包括如下步骤：

步骤1，将现有需要人工标注的n个文本数据存入数据库text表，text表的类别标签字段为空，再将所有C个分类标签存于数据库category表，首先用余弦算法计算文本数据的内容和分类标签之间的文本相似度来给定文本的初始分类标签，将标签存入text表的对应类别标签字段；

步骤2，从text表获取训练集F，设置每个类别下样本数量阈值m，训练集的总样本数量阈值f＝m*C，其中f＜n，记所有文本数据的内容的文本相似度集合为(v₁,v₂…v_i…v_n)，v_i为某一文本数据与所有类别的相似度的最大值，每个类别下将相似度集合按从大到小排序，将前m个样本加入训练集F，其他文本作为待标注样本集；

步骤3，设计线下集成模型stacking_offline和线上集成模型stacking_online；

采用训练集F训练文本分类线下集成模型stacking_offline，模型stacking_offline包括Bert和LSTM两种神经网络文本分类算法，用训练好的stacking_offline模型对待标注样本集自动预测分类结果，将自动预测分类结果更新text表的对应类别标签字段，即得到预测类别标签；训练完后记录训练集文本ID列表trainList＝{d₁,d₂,…,d_f}和stacking_offline的模型准确率T_F，其中d_i表示每个文本内容对应的ID，当训练集F的ID集合与trainList不一致时重新训练，当重新训练的模型准确率超过T_F时更新原模型；

记stacking_offline模型预测的自动预测分类结果对应的概率值为(p₁,p₂,…,p_n-f)，将每个类别下的预测结果按照预测概率值集合按从小到大排序，逐渐加入到待标注文本列表H，对待标注文本列表H进行人工标注，人工标注完成并审核通过后自动加入训练集F，单独设置人工标注的ID命名规则，当训练集F下每个类别下的样本数量≥m则停止人工标注；

设计线上集成模型stacking_online，模型stacking_online包括logistic、

xgbooost、NaiveBayes、3种机器学习分类算法，设置线上训练集G，设置触发stacking_online模型自动训练的标注数量阈值i，每当人工标注量≥i时，将这i个人工标注样本加入到线上训练集G；设置训练集G的文本数量最大值g，g<f，当G的文本数量大于g时，每个分类仅保留预测概率值最大的前floor(g/C)个文本作为训练集G；每当人工标注量≥i时，且G的文本ID列表发生变化时利用新训练集G重新训练stacking_online模型；

2.根据权利要求1所述的一种基于大数据的自动化文本分类标注系统的设计方法，其特征在于，步骤1中用余弦算法计算文本内容和分类标签之间的文本相似度具体如下：记某一文本数据的内容为A，分词转码后的结果为(a₁,a₂,…,a_n)，某一分类标签B分词转码后结果为(b₁,b₂,……b_n’)，n’表示标签B共有n’级，则A和B的相似度为：

3.根据权利要求2所述的一种基于大数据的自动化文本分类标注系统的设计方法，其特征在于，步骤3中将每个类别下的预测结果按照预测概率值集合按从小到大排序，逐渐加入到待标注文本列表H，对待标注文本列表H进行人工标注，具体为：设置最大任务量阈值h，记stacking_offline模型预测的自动预测分类结果对应的概率值为(p₁,p₂,…,p_n-f)，将预测概率值集合按从小到大排序，将前h个文本数据优先加入待标注文本列表H；

4.根据权利要求3所述的一种基于大数据的自动化文本分类标注系统的设计方法，其特征在于，设置最大任务量阈值h可以根据当天标注人数和每人每天的任务量上限来确定。

5.根据权利要求1～4任一项所述的一种基于大数据的自动化文本分类标注系统的设计方法，其特征在于，步骤3还包括对已标注样本进行抽检：采用stacking_online模型自动从当天某个标注人员的已标注样本中随机抽检比例为η1的样本，将其预测类别结果与其人工标注结果不一致的文本认为是不合格样本，自动发送给后台管理员进行审核，若管理员点击确认为不合格则直接退回到待标注文本中重新标注，若管理员超过时限未处理则自动认为是不合格，退回重新标注；

若管理员审核后抽检不合格率超过α1，则该批抽检样本全部退回重新标注，继续抽检剩余已标注样本比例为η1的样本；若样本抽检不合格率超过α2，α2＜α1，则继续抽检剩余已标注样本的比例为η1的样本；直到抽检不合格率小于α2才停止抽检。

6.根据权利要求5所述的一种基于大数据的自动化文本分类标注系统的设计方法，其特征在于，步骤3还包括设计stacking_offline自动抽检规则，设置定时任务时长r，每隔r小时就利用最新的stacking_offline模型自动从当天某个标注人员的已标注样本中随机抽检比例为η2的样本，将其预测类别结果与其人工标注结果不一致的文本认为是不合格样本，自动发送给后台管理员进行审核，若管理员点击确认为不合格则直接退回到待标注文本中重新标注，若管理员超过时限未处理则自动认为是不合格，退回重新标注；若管理员审核后抽检不合格率超过α3，则该批抽检样本全部退回重新标注，继续抽检剩余已标注样本比例为η2的样本；若样本抽检不合格率超过α4，α4＜α3，则继续抽检剩余已标注样本的比例为η2的样本；直到抽检不合格率小于α4才停止抽检；此规则不适用于超过时限未处理的情形。

7.根据权利要求6所述的一种基于大数据的自动化文本分类标注系统的设计方法，其特征在于，在自动抽检过程中，还包括设计标注人员打分规则，将因为抽检不合格而退回的待标注样本优先分配给得分高的用户进行标注。

8.一种基于大数据的自动化文本分类标注系统的优化方法，其特征在于，该方法包括如下步骤：

对根据权利要求1-7任一项所述的一种基于大数据的自动化文本分类标注系统的设计方法得到的自动标注评估模型stacking_offline和自动标注模型stacking_online进行优化：设置标注确信度阈值t，每当新的标注任务进入待标注列表，先由stacking_online模型自动预测出分类，然后利用stacking_offline模型预测确认是否一致，

若二者预测结果一致，则根据stacking_offline的预测概率值自动分配文本：若概率超过t则自动加入stacking_offline的训练集F，否则自动加入stacking_online的训练集G，并将对应的关键词及相关系数写入关键词表keywords；

若二者预测结果不一致，若stacking_online模型预测的概率值大于stacking_offline模型预测的概率则认为stacking_online模型预测正确，否则认为stacking_offline模型预测正确，若概率超过t则自动加入stacking_offline的训练集F，否则自动加入stacking_online的训练集G，并将对应的关键词及相关系数写入关键词表keywords；

9.根据权利要求8所述的一种基于大数据的自动化文本分类标注系统的优化方法，其特征在于，若二者预测结果不一致，还可以通过人工审核完善，完善后的结果自动加入stacking_offline的训练集。

10.一种基于大数据的自动化文本分类标注系统的标注方法，其特征在于，该方法包括如下步骤：

每当新的标注任务进入待标注列表，根据权利要求1-9任一项所述的一种基于大数据的自动化文本分类标注系统的设计方法或优化方法得到的stacking_online模型自动预测出分类，即实现了文本数据的自动标注功能。