CN110287324B - 一种针对粗粒度文本分类的数据动态标注方法及装置 - Google Patents
一种针对粗粒度文本分类的数据动态标注方法及装置 Download PDFInfo
- Publication number
- CN110287324B CN110287324B CN201910568651.3A CN201910568651A CN110287324B CN 110287324 B CN110287324 B CN 110287324B CN 201910568651 A CN201910568651 A CN 201910568651A CN 110287324 B CN110287324 B CN 110287324B
- Authority
- CN
- China
- Prior art keywords
- data
- training
- model
- label
- labeling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种针对粗粒度文本分类的数据动态标注方法及装置,其中方法包括:按照标签类别比例均衡标注数据;构建文本TF‑IDF词频矩阵;使用卡方分布进行特征筛选得到训练数据集;使用机器学习算法对训练数据集进行训练,得到初始模型;获取测试数据集,利用初始模型对测试数据集中的第一预设数据量的数据进行标注,得到预测标注数据;获取按照标签类别分别抽取预测标注数据中的第二预设条数进行审核得到的与各个数据标注标签对应的数据;将与各个数据标注标签对应的数据加入到训练数据集中,使用机器学习算法对训练数据集进行训练得到修正模型;判断训练数据量是否满足第二预设数据量,不满足继续执行上述流程;满足存储修正模型为预测模型。
Description
技术领域
本发明涉及数据标注技术领域,尤其涉及一种针对粗粒度文本分类的数据动态标注方 法及装置。
背景技术
粗粒度文本分类即基于句子层面的分类方法。而对于常见粗粒度文本分类项目而言, 皆是依托于监督学习的方式进行处理。因此,拥有良好质量的数据集是模型构建的基础。 而传统数据标注的方式是依托于人工标注的行为产生的,这种处理方式容易造成如下错误: 1、每个数据标注人员对于文本理解不同,从而导致文本数据标注产生偏差。2.每个标注人员由于存在先验知识,从而对于文本主题内容理解错误,从而类别标注错误。
发明内容
本发明旨在提供一种克服上述问题之一或者至少部分地解决上述任一问题的针对粗 粒度文本分类的数据动态标注方法及装置。
为达到上述目的,本发明的技术方案具体是这样实现的:
本发明的一个方面提供了一种针对粗粒度文本分类的数据动态标注方法,包括:S1, 按照标签类别比例均衡标注数据,其中,每一种标签对应的数据满足各自的预设条数;S2, 构建文本TF-IDF词频矩阵;S3,使用卡方分布进行特征筛选,得到训练数据集;S4,使用机器学习算法对训练数据集进行训练,得到初始模型;S5,获取测试数据集,利用初始模型对测试数据集中的第一预设数据量的数据进行标注,得到预测标注数据;S6,获取按 照标签类别分别抽取预测标注数据中的第二预设条数进行审核得到的与各个数据标注标 签对应的数据;S7,将与各个数据标注标签对应的数据加入到训练数据集中,使用机器学 习算法对训练数据集进行训练,得到修正模型;S8,判断训练数据量是否满足第二预设数 据量,如果不满足,返回执行S5;如果满足,执行S9;S9,存储修正模型为预测模型。
其中,构建文本TF-IDF词频矩阵包括:通过计算词频矩阵TF,其中,m表示某个词在某篇文章中出现的次数,n表示该文章的总词数;通过/>计算逆文档频率,其中,a表示语料库中文档个数,b表示包含该词的文档数目;通过 TF-IDF=TF*IDF计算TF-IDF词频矩阵。
其中,使用机器学习算法对训练数据集进行训练包括:对训练数据集进行数据切分, 并与相应的标签集对齐,得到标签与对应训练数据的列表;获取标签集中的第i个标签对 应的第i份训练数据,其中i=1,2,……N,N为标签个数,N≥1且为自然数;将第i份数 据进行分割,得到K份数据,其中,K份数据中,将其中1份作为测试集,K-1份作为训 练集,其中,K≥2且为自然数;设置K个机器学习模型作为基模型;每个基模型进行训 练集上K折交叉处理,迭代K次,将每次生成的矩阵进行拼接,得到超特征矩阵;每个基 模型对测试集进行预测,得到超特征测试集;将超特征矩阵作为新的训练集,将第i个标 签作为标签进行训练,得到训练模型;利用训练模型对超特征测试集进行预测得到第i个数据标注标签;调整每个基模型的参数,重复执行上述步骤,确定最优模型。
其中,最优模型在步骤S4中为初始模型;最优模型在步骤S7中为修正模型。
其中,K为5。
本发明另一方面提供了一种针对粗粒度文本分类的数据动态标注装置,包括:标注模 块,用于按照标签类别比例均衡标注数据,其中,每一种标签对应的数据满足各自的预设 条数;构建模块,用于构建文本TF-IDF词频矩阵;筛选模块,用于使用卡方分布进行特征筛选,得到训练数据集;训练模块,用于使用机器学习算法对训练数据集进行训练,得 到初始模型;预测模块,用于获取测试数据集,利用初始模型对测试数据集中的第一预设 数据量的数据进行标注,得到预测标注数据;审核模块,用于获取按照标签类别分别抽取 预测标注数据中的第二预设条数进行审核得到的与各个数据标注标签对应的数据;训练模块,还用于将与各个数据标注标签对应的数据加入到训练数据集中,使用机器学习算法对
其中,构建模块通过如下方式构建文本TF-IDF词频矩阵:构建模块,具体用于通过计算词频矩阵TF,其中,m表示某个词在某篇文章中出现的次数,n表示该文章 的总词数;通过/>计算逆文档频率,其中,a表示语料库中文档个数,b 表示包含该词的文档数目;通过TF-IDF=TF*IDF计算TF-IDF词频矩阵。
其中,训练模块通过如下方式使用机器学习算法对训练数据集进行训练:训练模块, 具体用于对训练数据集进行数据切分,并与相应的标签集对齐,得到标签与对应训练数据 的列表;获取标签集中的第i个标签对应的第i份训练数据,其中i=1,2,……N,N为标签个数,N≥1且为自然数;将第i份数据进行分割,得到K份数据,其中,K份数据中,将其中1份作为测试集,K-1份作为训练集,其中,K≥2且为自然数;设置K个机器学 习模型作为基模型;每个基模型进行训练集上K折交叉处理,迭代K次,将每次生成的矩阵进行拼接,得到超特征矩阵;每个基模型对测试集进行预测,得到超特征测试集;将超 特征矩阵作为新的训练集,将第i个标签作为标签进行训练,得到训练模型;利用训练模 型对超特征测试集进行预测得到第i个数据标注标签;调整每个基模型的参数,重复执行 上述步骤,确定最优模型。
其中,最优模型为初始模型或者修正模型。
其中,K为5。
由此可见,本发明实施例提供的针对粗粒度文本分类的数据动态标注方法及装置,可 以自动对数据进行动态标注,减少了了人工标注所带来的错误,通过自动标注结合人工审 核的手段来减少了人工标注的工作量,同时通过stacking机制确保模型效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附 图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领 域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附 图。
图1为本发明实施例提供的针对粗粒度文本分类的数据动态标注方法的流程图;
图2为本发明实施例提供的5折交叉验证原理示意图;
图3为本发明实施例提供的模型构建原理示意图;
图4为本发明实施例提供的训练模型时的多轮循环特征选择方法的一种具体实例的流 程图;
图5为本发明实施例提供的针对粗粒度文本分类的数据动态标注装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示 例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限 制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了本发明实施例提供的针对粗粒度文本分类的数据动态标注方法的流程图, 参见图1,本发明实施例提供的针对粗粒度文本分类的数据动态标注方法,包括:
S1,按照标签类别比例均衡标注数据,其中,每一种标签对应的数据满足各自的预设 条数。
具体地,对于数据进行标签,可以先按照标签类别比例均衡标注数据,数据量达到每 一种标签数据满足各自的预设条数即可以停止,从而确保数据质量。在实际应用中,每一 种标签数据各自的预设条数可以相同,也可以不同,这可以根据实际需要进行选择。作为一种可实施方式,可以选择预设条数为2000条。
S2,构建文本TF-IDF词频矩阵。
作为本发明实施例的一个可选实施方式,构建文本TF-IDF词频矩阵包括:通过计算词频矩阵TF,其中,m表示某个词在某篇文章中出现的次数,n表示该文章 的总词数;通过/>计算逆文档频率,其中,a表示语料库中文档个数,b 表示包含该词的文档数目;通过TF-IDF=TF*IDF计算TF-IDF词频矩阵。
S3,使用卡方分布进行特征筛选,得到训练数据集。
具体地,使用卡方分布进行特征筛选,可以将矩阵维度控制在预设维度,例如500维 度,从而可以得到训练数据集。该训练数据集包括标签以及与标签对应的数据。
S4,使用机器学习算法对训练数据集进行训练,得到初始模型。
具体地,对训练数据集进行训练时,可以利用k-fold机制。即可以对处理好的TF-IDF 矩阵数据进行训练进行分割,进行5折交叉验证,原理如图2所示,将数据分为K份(例如优选的设置K为5),每次遍历数据取其中1份作为测试集,其余K-1份作为训练集。 同时,对于任意一个基础机器学习模型而言,将会重复K次对数据进行处理的过程。
作为本发明实施例的一个可选实施方式,使用机器学习算法对训练数据集进行训练包 括:对训练数据集进行数据切分,并与相应的标签集对齐,得到标签与对应训练数据的列 表;获取标签集中的第i个标签对应的第i份训练数据,其中i=1,2,……N,N为标签个数,N≥1且为自然数;将第i份数据进行分割,得到K份数据,其中,K份数据中,将其 中1份作为测试集,K-1份作为训练集,其中,K≥2且为自然数;设置K个机器学习模型作为基模型;每个基模型进行训练集上K折交叉处理,迭代K次,将每次生成的矩阵进 行拼接,得到超特征矩阵;每个基模型对测试集进行预测,得到超特征测试集;将超特征 矩阵作为新的训练集,将第i个标签作为标签进行训练,得到训练模型;利用训练模型对超特征测试集进行预测得到第i个数据标注标签;调整每个基模型的参数,重复执行上述 步骤,确定最优模型。
其中,数据标注标签即为最终预测的标签。
具体应用中,对训练数据集进行数据切分并与相应标签集对齐,构建模型,原理如图 3所示,本发明训练集Train_data,维度为:(m,n),同时测试集Test_data维度为a*(n-1)。 同时假设使用Train_data中所有特征进行训练,则从中取出一列label列表,其长度为m, 此时Train_data维度变为(m*(n-1))。之后,设置K个机器学习模型作为基模型(本案例中 所设置数字为5)。之后,本发明分别取这K个模型中,每一个模型进行训练集上K折交 叉处理。在一次迭代中,将数据的第K份作为测试集,其他K-1份作为训练集,从而一次 迭代生成维度为(m/k,(n-1)/k)的矩阵。将每一次生成的矩阵拼接起来,则对于一个模型而言, 完整K次遍历数据后,将生成维度为(m,n-1)的矩阵。则K个模型而言,我们将这些矩阵 横向拼接起来,得到最终超特征矩阵new_train,维度为(m,kn-k)。除此外,对于测试集 Test_data而言,本发明也在基模型每次遍历测试集并训练出模型时,对测试集进行预测。 每个模型每次遍历得到的测试数据集矩阵维度为(a,n-1),则k次遍历后,最终的到的矩阵维 度为(a,kn-k).此时为了保证维度统一,本发明对该矩阵进行按行求取均值,将其维度变为 (a,n-1)。对于K个模型而言,最终经过上述处理过程后,得到新的测试集上的超特征矩阵 new_test,其维度为(a,kn-k)。上述过程即为stacking第一层处理过程。之后第二层处理过 程中,本发明将new_train作为训练集,将第一层得到的label集合作为标签进行训练,得 到最终训练出的模型,从而对new_test进行预测即得到最终预测标签,即为数据标注序列。之后,调整各个基模型参数,保存最优模型。在本步骤中,该最优模型为初始模型。
S5,获取测试数据集,利用初始模型对测试数据集中的第一预设数据量的数据进行标 注,得到预测标注数据。
具体地,本步骤中可以引入新的数据,利用保存的模型对新数据进行预测。每次预测 数据量可以为第一预设数据量,实际应用中,第一预设数据量可以在6000-10000之间。
S6,获取按照标签类别分别抽取预测标注数据中的第二预设条数进行审核得到的与各 个数据标注标签对应的数据。
具体地,对预测标注数据按类别分别抽取第二预设条数进审核,该审核可以为人工审 核,也可以为机器审核,获取审核结果即与各个数据标注标签对应的数据,实际应用中, 第二预设条数可以为500-1000条。
S7,将与各个数据标注标签对应的数据加入到训练数据集中,使用机器学习算法对训 练数据集进行训练,得到修正模型。
具体地,将标注好的数据加入到旧的数据集重新训练。
作为本发明实施例的一个可选实施方式,使用机器学习算法对训练数据集进行训练包 括:对训练数据集进行数据切分,并与相应的标签集对齐,得到标签与对应训练数据的列 表;获取标签集中的第i个标签对应的第i份训练数据,其中i=1,2,……N,N为标签个数,N≥1且为自然数;将第i份数据进行分割,得到K份数据,其中,K份数据中,将其 中1份作为测试集,K-1份作为训练集,其中,K≥2且为自然数;设置K个机器学习模 型作为基模型;每个基模型进行训练集上K折交叉处理,迭代K次,将每次生成的矩阵进行拼接,得到超特征矩阵;每个基模型对测试集进行预测,得到超特征测试集;将超特征 矩阵作为新的训练集,将第i个标签作为标签进行训练,得到训练模型;利用训练模型对 超特征测试集进行预测得到第i个数据标注标签;调整每个基模型的参数,重复执行上述 步骤,确定最优模型。
其中,数据标注标签即为最终预测的标签。
具体应用中,对训练数据集进行数据切分并与相应标签集对齐,构建模型,原理如图 3所示,本发明训练集Train_data,维度为:(m,n),同时测试集Test_data维度为a*(n-1)。 同时假设使用Train_data中所有特征进行训练,则从中取出一列label列表,其长度为m, 此时Train_data维度变为(m*(n-1))。之后,设置K个机器学习模型作为基模型(本案例中 所设置数字为5)。之后,本发明分别取这K个模型中,每一个模型进行训练集上K折交 叉处理。在一次迭代中,将数据的第K份作为测试集,其他K-1份作为训练集,从而一次 迭代生成维度为(m/k,(n-1)/k)的矩阵。将每一次生成的矩阵拼接起来,则对于一个模型而言, 完整K次遍历数据后,将生成维度为(m,n-1)的矩阵。则K个模型而言,我们将这些矩阵 横向拼接起来,得到最终超特征矩阵new_train,维度为(m,kn-k)。除此外,对于测试集 Test_data而言,本发明也在基模型每次遍历测试集并训练出模型时,对测试集进行预测。 每个模型每次遍历得到的测试数据集矩阵维度为(a,n-1),则k次遍历后,最终的到的矩阵维 度为(a,kn-k).此时为了保证维度统一,本发明对该矩阵进行按行求取均值,将其维度变为(a,n-1)。对于K个模型而言,最终经过上述处理过程后,得到新的测试集上的超特征矩阵 new_test,其维度为(a,kn-k)。上述过程即为stacking第一层处理过程。之后第二层处理过 程中,本发明将new_train作为训练集,将第一层得到的label集合作为标签进行训练,得 到最终训练出的模型,从而对new_test进行预测即得到最终预测标签,即为数据标注序列。之后,调整各个基模型参数,保存最优模型。在本步骤中,该最优模型为修正模型。
S8,判断训练数据量是否满足第二预设数据量,如果不满足,返回执行S5;如果满足, 执行S9;
S9,存储修正模型为预测模型。
具体地,继续前一步处理过程,当总数据量达到第二预设数据量时,可以停止,认为 模型足够可靠,实际应用中,第二预设数据量可以设置为10万的数据量。
由此可见,通过本发明实施例提供的针对粗粒度文本分类的数据动态标注方法,可以 自动对数据进行动态标注,减少了了人工标注所带来的错误,通过自动标注结合人工审核 的手段来减少了人工标注的工作量,同时通过stacking机制确保模型效果。
以下,以图3为例,对本发明实施例提供的针对粗粒度文本分类的数据动态标注方法 进行进一步说明:
通过人工标注的数据形成训练数据集和测试数据集;
选择5个基模型,基模型1-基模型5;
进行5折交叉处理:通过划分的训练数据集1-划分的训练数据集5分别对基模型1进 行预测,得到超特征子矩阵1,通过划分的训练数据集1-划分的训练数据集5分别对基模型2进行预测,得到超特征子矩阵2,直至通过划分的训练数据集1-划分的训练数据集5 分别对基模型5进行预测结束,得到超特征子矩阵5;同时,利用划分的测试数据集对模 型进行验证,得到测试集超特征矩阵;
利用测试集超特征矩阵和超特征子矩阵1-超特征子矩阵5形成的超特征融合矩阵形成 第二层模型;
利用测试数据集对第二层模型进行预测,得到数据标签,即S6中得到的与各个数据 标注标签对应的数据。
图4示出了本发明实施例提供的针对粗粒度文本分类的数据动态标注方法的一种具体 流程图,参见图4,本发明实施例提供的针对粗粒度文本分类的数据动态标注方法,包括:
1、人工标注部分数据。
2、训练模型。
3、用模型预测新数据集,控制新数据集量在6000-10000之间。
4、对预测数据按类别分别抽取500-1000条进行人工审核,从而得到标注好的数据。
5、将标注好的数据加入到就旧数据集重新训练模型。
6、继续前一步处理过程,当总数据量达到10万的数据量后即可停止。
由此可见,通过本发明实施例提供的针对粗粒度文本分类的数据动态标注方法,可以 自动对数据进行动态标注,减少了了人工标注所带来的错误,通过自动标注结合人工审核 的手段来减少了人工标注的工作量,同时通过stacking机制确保模型效果。
图5示出了本发明实施例提供的针对粗粒度文本分类的数据动态标注装置的结构示意 图,该针对粗粒度文本分类的数据动态标注装置应用于上述针对粗粒度文本分类的数据动 态标注方法,以下仅对针对粗粒度文本分类的数据动态标注装置的结构进行简要说明,其他未尽事宜,请参照上述针对粗粒度文本分类的数据动态标注方法的相关说明,在此不再 赘述。参见图5,本发明实施例提供的针对粗粒度文本分类的数据动态标注装置,包括:
标注模块,用于按照标签类别比例均衡标注数据,其中,每一种标签对应的数据满足 各自的预设条数;
构建模块,用于构建文本TF-IDF词频矩阵;
筛选模块,用于使用卡方分布进行特征筛选,得到训练数据集;
训练模块,用于使用机器学习算法对训练数据集进行训练,得到初始模型;
预测模块,用于获取测试数据集,利用初始模型对测试数据集中的第一预设数据量的 数据进行标注,得到预测标注数据;
审核模块,用于获取按照标签类别分别抽取预测标注数据中的第二预设条数进行审核 得到的与各个数据标注标签对应的数据;
训练模块,还用于将与各个数据标注标签对应的数据加入到训练数据集中,使用机器 学习算法对训练数据集进行训练,得到修正模型;
判断模块,用于判断训练数据量是否满足第二预设数据量,如果不满足通知预测模块; 如果满足,通知存储模块;
存储模块,用于存储修正模型为预测模型。
作为本发明实施例的一个可选实施方式,构建模块通过如下方式构建文本TF-IDF词 频矩阵:构建模块,具体用于通过计算词频矩阵TF,其中,m表示某个词在某篇文章中出现的次数,n表示该文章的总词数;通过/>计算逆文档频率, 其中,a表示语料库中文档个数,b表示包含该词的文档数目;通过 TF-IDF=TF*IDF计算TF-IDF词频矩阵。
作为本发明实施例的一个可选实施方式,训练模块通过如下方式使用机器学习算法对 训练数据集进行训练:训练模块,具体用于对训练数据集进行数据切分,并与相应的标签 集对齐,得到标签与对应训练数据的列表;获取标签集中的第i个标签对应的第i份训练 数据,其中i=1,2,……N,N为标签个数,N≥1且为自然数;将第i份数据进行分割,得到K份数据,其中,K份数据中,将其中1份作为测试集,K-1份作为训练集,其中,K ≥2且为自然数;设置K个机器学习模型作为基模型;每个基模型进行训练集上K折交叉 处理,迭代K次,将每次生成的矩阵进行拼接,得到超特征矩阵;每个基模型对测试集进 行预测,得到超特征测试集;将超特征矩阵作为新的训练集,将第i个标签作为标签进行 训练,得到训练模型;利用训练模型对超特征测试集进行预测得到第i个数据标注标签; 调整每个基模型的参数,重复执行上述步骤,确定最优模型。
作为本发明实施例的一个可选实施方式,最优模型为初始模型或者修正模型。
作为本发明实施例的一个可选实施方式,K为5。
由此可见,通过本发明实施例提供的针对粗粒度文本分类的数据动态标注装置,可以 自动对数据进行动态标注,减少了了人工标注所带来的错误,通过自动标注结合人工审核 的手段来减少了人工标注的工作量,同时通过stacking机制确保模型效果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产 品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程 序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图 和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流 程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方 式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装 置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个 方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机 或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他 可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个 方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络 接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非 易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的 示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技 术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计 算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、 电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储 器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储 或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的 数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本 申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、 改进等,均应包含在本申请的权利要求范围之内。
Claims (8)
1.一种针对粗粒度文本分类的数据动态标注方法,其特征在于,包括:
S1,按照标签类别比例均衡标注数据,其中,每一种标签对应的数据满足各自的预设条数;
S2,构建文本TF-IDF词频矩阵;
S3,使用卡方分布进行特征筛选,得到训练数据集;
S4,使用机器学习算法对所述训练数据集进行训练,得到初始模型;
S5,获取测试数据集,利用所述初始模型对所述测试数据集中的第一预设数据量的数据进行标注,得到预测标注数据;
S6,获取按照标签类别分别抽取所述预测标注数据中的第二预设条数进行审核得到的与各个数据标注标签对应的数据;
S7,将与各个所述数据标注标签对应的数据加入到所述训练数据集中,使用机器学习算法对所述训练数据集进行训练,得到修正模型;
S8,判断训练数据量是否满足第二预设数据量,如果不满足,返回执行S5;如果满足,执行S9;
S9,存储所述修正模型为预测模型;
其中:
所述使用机器学习算法对所述训练数据集进行训练包括:
对所述训练数据集进行数据切分,并与相应的标签集对齐,得到标签与对应训练数据的列表;
获取所述标签集中的第i个标签对应的第i份训练数据,其中i=1,2,……N,N为标签个数,N≥1且为自然数;
将所述第i份数据进行分割,得到K份数据,其中,所述K份数据中,将其中1份作为测试集,K-1份作为训练集,其中,K≥2且为自然数;
设置K个机器学习模型作为基模型;
每个所述基模型进行所述训练集上K折交叉处理,迭代K次,将每次生成的矩阵进行拼接,得到超特征矩阵;
每个所述基模型对所述测试集进行预测,得到超特征测试集;
将所述超特征矩阵作为新的训练集,将所述第i个标签作为标签进行训练,得到训练模型;
利用所述训练模型对所述超特征测试集进行预测得到第i个所述数据标注标签;
调整每个所述基模型的参数,重复执行上述步骤,确定最优模型。
2.根据权利要求1所述的方法,其特征在于,所述构建文本TF-IDF词频矩阵包括:
通过计算词频矩阵TF,其中,m表示某个词在某篇文章中出现的次数,n表示该文章的总词数;
通过计算逆文档频率,其中,a表示语料库中文档个数,b表示包含该词的文档数目;
通过TF-IDF=TF*IDF计算TF-IDF词频矩阵。
3.根据权利要求1所述的方法,其特征在于,
所述最优模型在步骤S4中为所述初始模型;
所述最优模型在步骤S7中为所述修正模型。
4.根据权利要求1所述的方法,其特征在于,所述K为5。
5.一种针对粗粒度文本分类的数据动态标注装置,其特征在于,包括:
标注模块,用于按照标签类别比例均衡标注数据,其中,每一种标签对应的数据满足各自的预设条数;
构建模块,用于构建文本TF-IDF词频矩阵;
筛选模块,用于使用卡方分布进行特征筛选,得到训练数据集;
训练模块,用于使用机器学习算法对所述训练数据集进行训练,得到初始模型;
预测模块,用于获取测试数据集,利用所述初始模型对所述测试数据集中的第一预设数据量的数据进行标注,得到预测标注数据;
审核模块,用于获取按照标签类别分别抽取所述预测标注数据中的第二预设条数进行审核得到的与各个数据标注标签对应的数据;
所述训练模块,还用于将与各个所述数据标注标签对应的数据加入到所述训练数据集中,使用机器学习算法对所述训练数据集进行训练,得到修正模型;
判断模块,用于判断训练数据量是否满足第二预设数据量,如果不满足通知所述预测模块;如果满足,通知存储模块;
所述存储模块,用于存储所述修正模型为预测模型;
其中:
所述训练模块通过如下方式使用机器学习算法对所述训练数据集进行训练:
所述训练模块,具体用于对所述训练数据集进行数据切分,并与相应的标签集对齐,得到标签与对应训练数据的列表;获取所述标签集中的第i个标签对应的第i份训练数据,其中i=1,2,……N,N为标签个数,N≥1且为自然数;将所述第i份数据进行分割,得到K份数据,其中,所述K份数据中,将其中1份作为测试集,K-1份作为训练集,其中,K≥2且为自然数;设置K个机器学习模型作为基模型;每个所述基模型进行所述训练集上K折交叉处理,迭代K次,将每次生成的矩阵进行拼接,得到超特征矩阵;每个所述基模型对所述测试集进行预测,得到超特征测试集;将所述超特征矩阵作为新的训练集,将所述第i个标签作为标签进行训练,得到训练模型;利用所述训练模型对所述超特征测试集进行预测得到第i个所述数据标注标签;调整每个所述基模型的参数,重复执行上述步骤,确定最优模型。
6.根据权利要求5所述的装置,其特征在于,所述构建模块通过如下方式构建文本TF-IDF词频矩阵:
所述构建模块,具体用于通过计算词频矩阵TF,其中,m表示某个词在某篇文章中出现的次数,n表示该文章的总词数;通过/>计算逆文档频率,其中,a表示语料库中文档个数,b表示包含该词的文档数目;通过TF-IDF=TF*IDF计算TF-IDF词频矩阵。
7.根据权利要求5所述的装置,其特征在于,
所述最优模型为所述初始模型或者所述修正模型。
8.根据权利要求5所述的装置,其特征在于,所述K为5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910568651.3A CN110287324B (zh) | 2019-06-27 | 2019-06-27 | 一种针对粗粒度文本分类的数据动态标注方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910568651.3A CN110287324B (zh) | 2019-06-27 | 2019-06-27 | 一种针对粗粒度文本分类的数据动态标注方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110287324A CN110287324A (zh) | 2019-09-27 |
CN110287324B true CN110287324B (zh) | 2023-08-08 |
Family
ID=68019312
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910568651.3A Active CN110287324B (zh) | 2019-06-27 | 2019-06-27 | 一种针对粗粒度文本分类的数据动态标注方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110287324B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110880021B (zh) * | 2019-11-06 | 2021-03-16 | 创新奇智(北京)科技有限公司 | 模型辅助式数据标注系统及标注方法 |
CN111062440B (zh) * | 2019-12-18 | 2024-02-02 | 腾讯科技(深圳)有限公司 | 一种样本选择方法、装置、设备及存储介质 |
CN111191072B (zh) * | 2019-12-26 | 2023-06-30 | 广州荔支网络技术有限公司 | 一种基于迁移学习的音频分类方法 |
CN111177136B (zh) * | 2019-12-27 | 2023-04-18 | 上海依图网络科技有限公司 | 标注数据清洗装置和方法 |
CN111275089B (zh) * | 2020-01-16 | 2024-03-05 | 北京小米松果电子有限公司 | 一种分类模型训练方法及装置、存储介质 |
CN111581092B (zh) * | 2020-05-07 | 2023-05-30 | 安徽星环人工智能科技有限公司 | 仿真测试数据的生成方法、计算机设备及存储介质 |
CN111652327A (zh) * | 2020-07-16 | 2020-09-11 | 北京思图场景数据科技服务有限公司 | 一种模型迭代方法、系统及计算机设备 |
CN114282586A (zh) * | 2020-09-27 | 2022-04-05 | 中兴通讯股份有限公司 | 一种数据标注方法、系统和电子设备 |
CN112163377A (zh) * | 2020-10-13 | 2021-01-01 | 北京智芯微电子科技有限公司 | 变压器温度预警模型的获取方法和装置及温度预测方法 |
CN112686300B (zh) * | 2020-12-29 | 2023-09-26 | 杭州海康威视数字技术股份有限公司 | 一种数据处理方法、装置及设备 |
CN113361585A (zh) * | 2021-06-02 | 2021-09-07 | 浪潮软件科技有限公司 | 一种基于有监督学习算法优化筛选线索的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874478A (zh) * | 2017-02-17 | 2017-06-20 | 重庆邮电大学 | 基于Spark的并行化随机标签子集多标签文本分类方法 |
CN107169001A (zh) * | 2017-03-31 | 2017-09-15 | 华东师范大学 | 一种基于众包反馈和主动学习的文本分类模型优化方法 |
CN109657064A (zh) * | 2019-02-28 | 2019-04-19 | 广东电网有限责任公司 | 一种文本分类方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100169243A1 (en) * | 2008-12-27 | 2010-07-01 | Kibboko, Inc. | Method and system for hybrid text classification |
-
2019
- 2019-06-27 CN CN201910568651.3A patent/CN110287324B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874478A (zh) * | 2017-02-17 | 2017-06-20 | 重庆邮电大学 | 基于Spark的并行化随机标签子集多标签文本分类方法 |
CN107169001A (zh) * | 2017-03-31 | 2017-09-15 | 华东师范大学 | 一种基于众包反馈和主动学习的文本分类模型优化方法 |
CN109657064A (zh) * | 2019-02-28 | 2019-04-19 | 广东电网有限责任公司 | 一种文本分类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110287324A (zh) | 2019-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287324B (zh) | 一种针对粗粒度文本分类的数据动态标注方法及装置 | |
US11829874B2 (en) | Neural architecture search | |
US11151335B2 (en) | Machine translation using attention model and hypernetwork | |
CN107608970B (zh) | 词性标注模型生成方法和装置 | |
US9135567B2 (en) | Transductive lasso for high-dimensional data regression problems | |
Rocchetto et al. | Stabilizers as a design tool for new forms of the Lechner-Hauke-Zoller annealer | |
CN104750731A (zh) | 一种获取完整用户画像的方法及装置 | |
AU2020270516B2 (en) | Holographic quantum dynamics simulation | |
CN111160032A (zh) | 一种命名实体提取方法、装置、电子设备及存储介质 | |
US20210271494A1 (en) | Vector-space representations of graphical user interfaces | |
CN109426415B (zh) | 一种生成级联选择器的方法及装置 | |
CN109597982A (zh) | 摘要文本识别方法及装置 | |
CN102779161A (zh) | 基于rdf知识库的语义标注方法 | |
CN110019784A (zh) | 一种文本分类方法及装置 | |
CN113505895A (zh) | 一种机器学习引擎服务系统及模型训练方法和配置方法 | |
US20220027739A1 (en) | Search space exploration for deep learning | |
CN110928941B (zh) | 一种数据分片抽取方法及装置 | |
KR102441442B1 (ko) | 그래프 컨볼루션 네트워크 학습 방법 및 장치 | |
CN111783453B (zh) | 文本的情感信息处理方法及装置 | |
Li et al. | Integrability and multiple limit cycles in a predator-prey system with fear effect | |
CN112181951B (zh) | 一种异构数据库数据迁移方法、装置及设备 | |
Chuang et al. | Investigation of Type I error rates of three versions of robust chi-square difference tests | |
CN110543549A (zh) | 语义等价性判断方法和装置 | |
CN107451662A (zh) | 优化样本向量的方法及装置、计算机设备 | |
CN110968758B (zh) | 网页数据的爬取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |