CN110287324B

CN110287324B - 一种针对粗粒度文本分类的数据动态标注方法及装置

Info

Publication number: CN110287324B
Application number: CN201910568651.3A
Authority: CN
Inventors: 顾凌云; 严涵; 王洪阳
Original assignee: Chengdu Bingjian Information Technology Co ltd
Current assignee: Chengdu Bingjian Information Technology Co ltd
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2023-08-08
Anticipated expiration: 2039-06-27
Also published as: CN110287324A

Abstract

本发明提供了一种针对粗粒度文本分类的数据动态标注方法及装置，其中方法包括：按照标签类别比例均衡标注数据；构建文本TF‑IDF词频矩阵；使用卡方分布进行特征筛选得到训练数据集；使用机器学习算法对训练数据集进行训练，得到初始模型；获取测试数据集，利用初始模型对测试数据集中的第一预设数据量的数据进行标注，得到预测标注数据；获取按照标签类别分别抽取预测标注数据中的第二预设条数进行审核得到的与各个数据标注标签对应的数据；将与各个数据标注标签对应的数据加入到训练数据集中，使用机器学习算法对训练数据集进行训练得到修正模型；判断训练数据量是否满足第二预设数据量，不满足继续执行上述流程；满足存储修正模型为预测模型。

Description

一种针对粗粒度文本分类的数据动态标注方法及装置

技术领域

本发明涉及数据标注技术领域，尤其涉及一种针对粗粒度文本分类的数据动态标注方法及装置。

背景技术

粗粒度文本分类即基于句子层面的分类方法。而对于常见粗粒度文本分类项目而言，皆是依托于监督学习的方式进行处理。因此，拥有良好质量的数据集是模型构建的基础。而传统数据标注的方式是依托于人工标注的行为产生的，这种处理方式容易造成如下错误： 1、每个数据标注人员对于文本理解不同，从而导致文本数据标注产生偏差。2.每个标注人员由于存在先验知识，从而对于文本主题内容理解错误，从而类别标注错误。

发明内容

本发明旨在提供一种克服上述问题之一或者至少部分地解决上述任一问题的针对粗粒度文本分类的数据动态标注方法及装置。

为达到上述目的，本发明的技术方案具体是这样实现的：

本发明的一个方面提供了一种针对粗粒度文本分类的数据动态标注方法，包括：S1，按照标签类别比例均衡标注数据，其中，每一种标签对应的数据满足各自的预设条数；S2，构建文本TF-IDF词频矩阵；S3，使用卡方分布进行特征筛选，得到训练数据集；S4，使用机器学习算法对训练数据集进行训练，得到初始模型；S5，获取测试数据集，利用初始模型对测试数据集中的第一预设数据量的数据进行标注，得到预测标注数据；S6，获取按照标签类别分别抽取预测标注数据中的第二预设条数进行审核得到的与各个数据标注标签对应的数据；S7，将与各个数据标注标签对应的数据加入到训练数据集中，使用机器学习算法对训练数据集进行训练，得到修正模型；S8，判断训练数据量是否满足第二预设数据量，如果不满足，返回执行S5；如果满足，执行S9；S9，存储修正模型为预测模型。

其中，构建文本TF-IDF词频矩阵包括：通过计算词频矩阵TF，其中，m表示某个词在某篇文章中出现的次数，n表示该文章的总词数；通过/>计算逆文档频率，其中，a表示语料库中文档个数，b表示包含该词的文档数目；通过 TF-IDF＝TF*IDF计算TF-IDF词频矩阵。

其中，使用机器学习算法对训练数据集进行训练包括：对训练数据集进行数据切分，并与相应的标签集对齐，得到标签与对应训练数据的列表；获取标签集中的第i个标签对应的第i份训练数据，其中i＝1,2，……N，N为标签个数，N≥1且为自然数；将第i份数据进行分割，得到K份数据，其中，K份数据中，将其中1份作为测试集，K-1份作为训练集，其中，K≥2且为自然数；设置K个机器学习模型作为基模型；每个基模型进行训练集上K折交叉处理，迭代K次，将每次生成的矩阵进行拼接，得到超特征矩阵；每个基模型对测试集进行预测，得到超特征测试集；将超特征矩阵作为新的训练集，将第i个标签作为标签进行训练，得到训练模型；利用训练模型对超特征测试集进行预测得到第i个数据标注标签；调整每个基模型的参数，重复执行上述步骤，确定最优模型。

其中，最优模型在步骤S4中为初始模型；最优模型在步骤S7中为修正模型。

其中，K为5。

本发明另一方面提供了一种针对粗粒度文本分类的数据动态标注装置，包括：标注模块，用于按照标签类别比例均衡标注数据，其中，每一种标签对应的数据满足各自的预设条数；构建模块，用于构建文本TF-IDF词频矩阵；筛选模块，用于使用卡方分布进行特征筛选，得到训练数据集；训练模块，用于使用机器学习算法对训练数据集进行训练，得到初始模型；预测模块，用于获取测试数据集，利用初始模型对测试数据集中的第一预设数据量的数据进行标注，得到预测标注数据；审核模块，用于获取按照标签类别分别抽取预测标注数据中的第二预设条数进行审核得到的与各个数据标注标签对应的数据；训练模块，还用于将与各个数据标注标签对应的数据加入到训练数据集中，使用机器学习算法对

其中，构建模块通过如下方式构建文本TF-IDF词频矩阵：构建模块，具体用于通过计算词频矩阵TF，其中，m表示某个词在某篇文章中出现的次数，n表示该文章的总词数；通过/>计算逆文档频率，其中，a表示语料库中文档个数，b 表示包含该词的文档数目；通过TF-IDF＝TF*IDF计算TF-IDF词频矩阵。

其中，训练模块通过如下方式使用机器学习算法对训练数据集进行训练：训练模块，具体用于对训练数据集进行数据切分，并与相应的标签集对齐，得到标签与对应训练数据的列表；获取标签集中的第i个标签对应的第i份训练数据，其中i＝1,2，……N，N为标签个数，N≥1且为自然数；将第i份数据进行分割，得到K份数据，其中，K份数据中，将其中1份作为测试集，K-1份作为训练集，其中，K≥2且为自然数；设置K个机器学习模型作为基模型；每个基模型进行训练集上K折交叉处理，迭代K次，将每次生成的矩阵进行拼接，得到超特征矩阵；每个基模型对测试集进行预测，得到超特征测试集；将超特征矩阵作为新的训练集，将第i个标签作为标签进行训练，得到训练模型；利用训练模型对超特征测试集进行预测得到第i个数据标注标签；调整每个基模型的参数，重复执行上述步骤，确定最优模型。

其中，最优模型为初始模型或者修正模型。

其中，K为5。

由此可见，本发明实施例提供的针对粗粒度文本分类的数据动态标注方法及装置，可以自动对数据进行动态标注，减少了了人工标注所带来的错误，通过自动标注结合人工审核的手段来减少了人工标注的工作量，同时通过stacking机制确保模型效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的针对粗粒度文本分类的数据动态标注方法的流程图；

图2为本发明实施例提供的5折交叉验证原理示意图；

图3为本发明实施例提供的模型构建原理示意图；

图4为本发明实施例提供的训练模型时的多轮循环特征选择方法的一种具体实例的流程图；

图5为本发明实施例提供的针对粗粒度文本分类的数据动态标注装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了本发明实施例提供的针对粗粒度文本分类的数据动态标注方法的流程图，参见图1，本发明实施例提供的针对粗粒度文本分类的数据动态标注方法，包括：

S1，按照标签类别比例均衡标注数据，其中，每一种标签对应的数据满足各自的预设条数。

具体地，对于数据进行标签，可以先按照标签类别比例均衡标注数据，数据量达到每一种标签数据满足各自的预设条数即可以停止，从而确保数据质量。在实际应用中，每一种标签数据各自的预设条数可以相同，也可以不同，这可以根据实际需要进行选择。作为一种可实施方式，可以选择预设条数为2000条。

S2，构建文本TF-IDF词频矩阵。

作为本发明实施例的一个可选实施方式，构建文本TF-IDF词频矩阵包括：通过计算词频矩阵TF，其中，m表示某个词在某篇文章中出现的次数，n表示该文章的总词数；通过/>计算逆文档频率，其中，a表示语料库中文档个数，b 表示包含该词的文档数目；通过TF-IDF＝TF*IDF计算TF-IDF词频矩阵。

S3，使用卡方分布进行特征筛选，得到训练数据集。

具体地，使用卡方分布进行特征筛选，可以将矩阵维度控制在预设维度，例如500维度，从而可以得到训练数据集。该训练数据集包括标签以及与标签对应的数据。

S4，使用机器学习算法对训练数据集进行训练，得到初始模型。

具体地，对训练数据集进行训练时，可以利用k-fold机制。即可以对处理好的TF-IDF 矩阵数据进行训练进行分割，进行5折交叉验证，原理如图2所示，将数据分为K份(例如优选的设置K为5)，每次遍历数据取其中1份作为测试集，其余K-1份作为训练集。同时，对于任意一个基础机器学习模型而言，将会重复K次对数据进行处理的过程。

作为本发明实施例的一个可选实施方式，使用机器学习算法对训练数据集进行训练包括：对训练数据集进行数据切分，并与相应的标签集对齐，得到标签与对应训练数据的列表；获取标签集中的第i个标签对应的第i份训练数据，其中i＝1,2，……N，N为标签个数，N≥1且为自然数；将第i份数据进行分割，得到K份数据，其中，K份数据中，将其中1份作为测试集，K-1份作为训练集，其中，K≥2且为自然数；设置K个机器学习模型作为基模型；每个基模型进行训练集上K折交叉处理，迭代K次，将每次生成的矩阵进行拼接，得到超特征矩阵；每个基模型对测试集进行预测，得到超特征测试集；将超特征矩阵作为新的训练集，将第i个标签作为标签进行训练，得到训练模型；利用训练模型对超特征测试集进行预测得到第i个数据标注标签；调整每个基模型的参数，重复执行上述步骤，确定最优模型。

其中，数据标注标签即为最终预测的标签。

具体应用中，对训练数据集进行数据切分并与相应标签集对齐，构建模型，原理如图 3所示，本发明训练集Train_data，维度为：(m,n),同时测试集Test_data维度为a*(n-1)。同时假设使用Train_data中所有特征进行训练，则从中取出一列label列表，其长度为m，此时Train_data维度变为(m*(n-1))。之后，设置K个机器学习模型作为基模型(本案例中所设置数字为5)。之后，本发明分别取这K个模型中，每一个模型进行训练集上K折交叉处理。在一次迭代中，将数据的第K份作为测试集，其他K-1份作为训练集，从而一次迭代生成维度为(m/k,(n-1)/k)的矩阵。将每一次生成的矩阵拼接起来，则对于一个模型而言，完整K次遍历数据后，将生成维度为(m,n-1)的矩阵。则K个模型而言，我们将这些矩阵横向拼接起来，得到最终超特征矩阵new_train，维度为(m,kn-k)。除此外，对于测试集 Test_data而言，本发明也在基模型每次遍历测试集并训练出模型时，对测试集进行预测。每个模型每次遍历得到的测试数据集矩阵维度为(a,n-1),则k次遍历后，最终的到的矩阵维度为(a,kn-k).此时为了保证维度统一，本发明对该矩阵进行按行求取均值，将其维度变为 (a,n-1)。对于K个模型而言，最终经过上述处理过程后，得到新的测试集上的超特征矩阵 new_test，其维度为(a,kn-k)。上述过程即为stacking第一层处理过程。之后第二层处理过程中，本发明将new_train作为训练集，将第一层得到的label集合作为标签进行训练，得到最终训练出的模型，从而对new_test进行预测即得到最终预测标签，即为数据标注序列。之后，调整各个基模型参数，保存最优模型。在本步骤中，该最优模型为初始模型。

S5，获取测试数据集，利用初始模型对测试数据集中的第一预设数据量的数据进行标注，得到预测标注数据。

具体地，本步骤中可以引入新的数据，利用保存的模型对新数据进行预测。每次预测数据量可以为第一预设数据量，实际应用中，第一预设数据量可以在6000-10000之间。

S6，获取按照标签类别分别抽取预测标注数据中的第二预设条数进行审核得到的与各个数据标注标签对应的数据。

具体地，对预测标注数据按类别分别抽取第二预设条数进审核，该审核可以为人工审核，也可以为机器审核，获取审核结果即与各个数据标注标签对应的数据，实际应用中，第二预设条数可以为500-1000条。

S7，将与各个数据标注标签对应的数据加入到训练数据集中，使用机器学习算法对训练数据集进行训练，得到修正模型。

具体地，将标注好的数据加入到旧的数据集重新训练。

其中，数据标注标签即为最终预测的标签。

具体应用中，对训练数据集进行数据切分并与相应标签集对齐，构建模型，原理如图 3所示，本发明训练集Train_data，维度为：(m,n),同时测试集Test_data维度为a*(n-1)。同时假设使用Train_data中所有特征进行训练，则从中取出一列label列表，其长度为m，此时Train_data维度变为(m*(n-1))。之后，设置K个机器学习模型作为基模型(本案例中所设置数字为5)。之后，本发明分别取这K个模型中，每一个模型进行训练集上K折交叉处理。在一次迭代中，将数据的第K份作为测试集，其他K-1份作为训练集，从而一次迭代生成维度为(m/k,(n-1)/k)的矩阵。将每一次生成的矩阵拼接起来，则对于一个模型而言，完整K次遍历数据后，将生成维度为(m,n-1)的矩阵。则K个模型而言，我们将这些矩阵横向拼接起来，得到最终超特征矩阵new_train，维度为(m,kn-k)。除此外，对于测试集 Test_data而言，本发明也在基模型每次遍历测试集并训练出模型时，对测试集进行预测。每个模型每次遍历得到的测试数据集矩阵维度为(a,n-1),则k次遍历后，最终的到的矩阵维度为(a,kn-k).此时为了保证维度统一，本发明对该矩阵进行按行求取均值，将其维度变为(a,n-1)。对于K个模型而言，最终经过上述处理过程后，得到新的测试集上的超特征矩阵 new_test，其维度为(a,kn-k)。上述过程即为stacking第一层处理过程。之后第二层处理过程中，本发明将new_train作为训练集，将第一层得到的label集合作为标签进行训练，得到最终训练出的模型，从而对new_test进行预测即得到最终预测标签，即为数据标注序列。之后，调整各个基模型参数，保存最优模型。在本步骤中，该最优模型为修正模型。

S8，判断训练数据量是否满足第二预设数据量，如果不满足，返回执行S5；如果满足，执行S9；

S9，存储修正模型为预测模型。

具体地，继续前一步处理过程，当总数据量达到第二预设数据量时，可以停止，认为模型足够可靠，实际应用中，第二预设数据量可以设置为10万的数据量。

由此可见，通过本发明实施例提供的针对粗粒度文本分类的数据动态标注方法，可以自动对数据进行动态标注，减少了了人工标注所带来的错误，通过自动标注结合人工审核的手段来减少了人工标注的工作量，同时通过stacking机制确保模型效果。

以下，以图3为例，对本发明实施例提供的针对粗粒度文本分类的数据动态标注方法进行进一步说明：

通过人工标注的数据形成训练数据集和测试数据集；

选择5个基模型，基模型1-基模型5；

进行5折交叉处理：通过划分的训练数据集1-划分的训练数据集5分别对基模型1进行预测，得到超特征子矩阵1，通过划分的训练数据集1-划分的训练数据集5分别对基模型2进行预测，得到超特征子矩阵2，直至通过划分的训练数据集1-划分的训练数据集5 分别对基模型5进行预测结束，得到超特征子矩阵5；同时，利用划分的测试数据集对模型进行验证，得到测试集超特征矩阵；

利用测试集超特征矩阵和超特征子矩阵1-超特征子矩阵5形成的超特征融合矩阵形成第二层模型；

利用测试数据集对第二层模型进行预测，得到数据标签，即S6中得到的与各个数据标注标签对应的数据。

图4示出了本发明实施例提供的针对粗粒度文本分类的数据动态标注方法的一种具体流程图，参见图4，本发明实施例提供的针对粗粒度文本分类的数据动态标注方法，包括：

1、人工标注部分数据。

2、训练模型。

3、用模型预测新数据集，控制新数据集量在6000-10000之间。

4、对预测数据按类别分别抽取500-1000条进行人工审核，从而得到标注好的数据。

5、将标注好的数据加入到就旧数据集重新训练模型。

6、继续前一步处理过程，当总数据量达到10万的数据量后即可停止。

图5示出了本发明实施例提供的针对粗粒度文本分类的数据动态标注装置的结构示意图，该针对粗粒度文本分类的数据动态标注装置应用于上述针对粗粒度文本分类的数据动态标注方法，以下仅对针对粗粒度文本分类的数据动态标注装置的结构进行简要说明，其他未尽事宜，请参照上述针对粗粒度文本分类的数据动态标注方法的相关说明，在此不再赘述。参见图5，本发明实施例提供的针对粗粒度文本分类的数据动态标注装置，包括：

标注模块，用于按照标签类别比例均衡标注数据，其中，每一种标签对应的数据满足各自的预设条数；

构建模块，用于构建文本TF-IDF词频矩阵；

筛选模块，用于使用卡方分布进行特征筛选，得到训练数据集；

训练模块，用于使用机器学习算法对训练数据集进行训练，得到初始模型；

预测模块，用于获取测试数据集，利用初始模型对测试数据集中的第一预设数据量的数据进行标注，得到预测标注数据；

审核模块，用于获取按照标签类别分别抽取预测标注数据中的第二预设条数进行审核得到的与各个数据标注标签对应的数据；

训练模块，还用于将与各个数据标注标签对应的数据加入到训练数据集中，使用机器学习算法对训练数据集进行训练，得到修正模型；

判断模块，用于判断训练数据量是否满足第二预设数据量，如果不满足通知预测模块；如果满足，通知存储模块；

存储模块，用于存储修正模型为预测模型。

作为本发明实施例的一个可选实施方式，构建模块通过如下方式构建文本TF-IDF词频矩阵：构建模块，具体用于通过计算词频矩阵TF，其中，m表示某个词在某篇文章中出现的次数，n表示该文章的总词数；通过/>计算逆文档频率，其中，a表示语料库中文档个数，b表示包含该词的文档数目；通过 TF-IDF＝TF*IDF计算TF-IDF词频矩阵。

作为本发明实施例的一个可选实施方式，训练模块通过如下方式使用机器学习算法对训练数据集进行训练：训练模块，具体用于对训练数据集进行数据切分，并与相应的标签集对齐，得到标签与对应训练数据的列表；获取标签集中的第i个标签对应的第i份训练数据，其中i＝1,2，……N，N为标签个数，N≥1且为自然数；将第i份数据进行分割，得到K份数据，其中，K份数据中，将其中1份作为测试集，K-1份作为训练集，其中，K ≥2且为自然数；设置K个机器学习模型作为基模型；每个基模型进行训练集上K折交叉处理，迭代K次，将每次生成的矩阵进行拼接，得到超特征矩阵；每个基模型对测试集进行预测，得到超特征测试集；将超特征矩阵作为新的训练集，将第i个标签作为标签进行训练，得到训练模型；利用训练模型对超特征测试集进行预测得到第i个数据标注标签；调整每个基模型的参数，重复执行上述步骤，确定最优模型。

作为本发明实施例的一个可选实施方式，最优模型为初始模型或者修正模型。

作为本发明实施例的一个可选实施方式，K为5。

由此可见，通过本发明实施例提供的针对粗粒度文本分类的数据动态标注装置，可以自动对数据进行动态标注，减少了了人工标注所带来的错误，通过自动标注结合人工审核的手段来减少了人工标注的工作量，同时通过stacking机制确保模型效果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种针对粗粒度文本分类的数据动态标注方法，其特征在于，包括：

S1，按照标签类别比例均衡标注数据，其中，每一种标签对应的数据满足各自的预设条数；

S2，构建文本TF-IDF词频矩阵；

S3，使用卡方分布进行特征筛选，得到训练数据集；

S4，使用机器学习算法对所述训练数据集进行训练，得到初始模型；

S5，获取测试数据集，利用所述初始模型对所述测试数据集中的第一预设数据量的数据进行标注，得到预测标注数据；

S6，获取按照标签类别分别抽取所述预测标注数据中的第二预设条数进行审核得到的与各个数据标注标签对应的数据；

S7，将与各个所述数据标注标签对应的数据加入到所述训练数据集中，使用机器学习算法对所述训练数据集进行训练，得到修正模型；

S9，存储所述修正模型为预测模型；

其中：

所述使用机器学习算法对所述训练数据集进行训练包括：

对所述训练数据集进行数据切分，并与相应的标签集对齐，得到标签与对应训练数据的列表；

获取所述标签集中的第i个标签对应的第i份训练数据，其中i＝1,2，……N，N为标签个数，N≥1且为自然数；

将所述第i份数据进行分割，得到K份数据，其中，所述K份数据中，将其中1份作为测试集，K-1份作为训练集，其中，K≥2且为自然数；

设置K个机器学习模型作为基模型；

每个所述基模型进行所述训练集上K折交叉处理，迭代K次，将每次生成的矩阵进行拼接，得到超特征矩阵；

每个所述基模型对所述测试集进行预测，得到超特征测试集；

将所述超特征矩阵作为新的训练集，将所述第i个标签作为标签进行训练，得到训练模型；

利用所述训练模型对所述超特征测试集进行预测得到第i个所述数据标注标签；

调整每个所述基模型的参数，重复执行上述步骤，确定最优模型。

2.根据权利要求1所述的方法，其特征在于，所述构建文本TF-IDF词频矩阵包括：

通过计算词频矩阵TF，其中，m表示某个词在某篇文章中出现的次数，n表示该文章的总词数；

通过计算逆文档频率，其中，a表示语料库中文档个数，b表示包含该词的文档数目；

通过TF-IDF＝TF*IDF计算TF-IDF词频矩阵。

3.根据权利要求1所述的方法，其特征在于，

所述最优模型在步骤S4中为所述初始模型；

所述最优模型在步骤S7中为所述修正模型。

4.根据权利要求1所述的方法，其特征在于，所述K为5。

5.一种针对粗粒度文本分类的数据动态标注装置，其特征在于，包括：

构建模块，用于构建文本TF-IDF词频矩阵；

训练模块，用于使用机器学习算法对所述训练数据集进行训练，得到初始模型；

预测模块，用于获取测试数据集，利用所述初始模型对所述测试数据集中的第一预设数据量的数据进行标注，得到预测标注数据；

审核模块，用于获取按照标签类别分别抽取所述预测标注数据中的第二预设条数进行审核得到的与各个数据标注标签对应的数据；

所述训练模块，还用于将与各个所述数据标注标签对应的数据加入到所述训练数据集中，使用机器学习算法对所述训练数据集进行训练，得到修正模型；

判断模块，用于判断训练数据量是否满足第二预设数据量，如果不满足通知所述预测模块；如果满足，通知存储模块；

所述存储模块，用于存储所述修正模型为预测模型；

其中：

所述训练模块通过如下方式使用机器学习算法对所述训练数据集进行训练：

所述训练模块，具体用于对所述训练数据集进行数据切分，并与相应的标签集对齐，得到标签与对应训练数据的列表；获取所述标签集中的第i个标签对应的第i份训练数据，其中i＝1,2，……N，N为标签个数，N≥1且为自然数；将所述第i份数据进行分割，得到K份数据，其中，所述K份数据中，将其中1份作为测试集，K-1份作为训练集，其中，K≥2且为自然数；设置K个机器学习模型作为基模型；每个所述基模型进行所述训练集上K折交叉处理，迭代K次，将每次生成的矩阵进行拼接，得到超特征矩阵；每个所述基模型对所述测试集进行预测，得到超特征测试集；将所述超特征矩阵作为新的训练集，将所述第i个标签作为标签进行训练，得到训练模型；利用所述训练模型对所述超特征测试集进行预测得到第i个所述数据标注标签；调整每个所述基模型的参数，重复执行上述步骤，确定最优模型。

6.根据权利要求5所述的装置，其特征在于，所述构建模块通过如下方式构建文本TF-IDF词频矩阵：

所述构建模块，具体用于通过计算词频矩阵TF，其中，m表示某个词在某篇文章中出现的次数，n表示该文章的总词数；通过/>计算逆文档频率，其中，a表示语料库中文档个数，b表示包含该词的文档数目；通过TF-IDF＝TF*IDF计算TF-IDF词频矩阵。

7.根据权利要求5所述的装置，其特征在于，

所述最优模型为所述初始模型或者所述修正模型。

8.根据权利要求5所述的装置，其特征在于，所述K为5。