CN115392357A - 分类模型训练、标注数据样本抽检方法、介质及电子设备 - Google Patents

分类模型训练、标注数据样本抽检方法、介质及电子设备 Download PDF

Info

Publication number
CN115392357A
CN115392357A CN202210950863.XA CN202210950863A CN115392357A CN 115392357 A CN115392357 A CN 115392357A CN 202210950863 A CN202210950863 A CN 202210950863A CN 115392357 A CN115392357 A CN 115392357A
Authority
CN
China
Prior art keywords
subset
data
classification model
training
labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210950863.XA
Other languages
English (en)
Inventor
王淼军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei Xingji Shidai Technology Co Ltd
Original Assignee
Hubei Xingji Shidai Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei Xingji Shidai Technology Co Ltd filed Critical Hubei Xingji Shidai Technology Co Ltd
Priority to CN202210950863.XA priority Critical patent/CN115392357A/zh
Publication of CN115392357A publication Critical patent/CN115392357A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种分类模型训练、标注数据样本抽检方法、介质及电子设备,所述分类模型训练方法包括:获取已验收的第一标注数据集训练第一预训练分类模型获取第一目标分类模型;获取待验收的第二标注数据集,利用所述第二标注数据集通过迁移学习的方式训练所述第一目标分类模型获取第二目标分类模型,其中,所述第二目标分类模型用于获取所述第二标注数据集中每一第二标注数据的分类标签。利用已验收的第一标注数据集进行预分类模型的预训练,从而为待验收的第二标注数据集提供待训练的第一目标分类模型,通过使用迁移学习的方式,有效的利用已验收的第一标注数据集的数据特征,提高分类模型的训练效率和目标分类模型的分类成功率。

Description

分类模型训练、标注数据样本抽检方法、介质及电子设备
技术领域
本申请涉及人工智能领域,特别是涉及一种分类模型训练、标注数据样本抽检方法、介质及电子设备。
背景技术
在监督式学习中,通常需要大量的已标注样本进行模型训练。样本标注质量的好坏决定模型的表现上限。因此,标注数据的质量非常重要。现有技术中,通常以抽检的方式对标注数据质量进行评估,以抽检样本的标注结果评估整体标注数据的质量。
然而,抽检样本虽在一定程度上能反应整体数据的分布,但不具备针对性,且抽检过程往往具有随机性,不能有效抽检出标注结果具有“歧义”的样本。其次,在新的标注任务中,许多新的待标注数据与已完成的标注任务中的旧数据具有相似性,但随机抽样不能很好的利用已标注历史数据的标注结果,容易造成人工工作量的重复。
发明内容
本申请实施例的目的在于提供一种分类模型训练、标注数据样本抽检方法、介质及电子设备,通过训练监督式学习和无监督式学习混合模型的方式获取标注数据的分类标签,使用迁移学习的方式有效利用了已验收标注数据的特征,并在至少一个实施例中基于分类标签对标注数据进行样本抽检,避免了抽检的随机性。
本申请实施例第一方面提供了一种分类模型训练方法,所述方法包括:获取已验收的第一标注数据集训练第一预训练分类模型获取第一目标分类模型;获取待验收的第二标注数据集,利用所述第二标注数据集通过迁移学习的方式训练所述第一目标分类模型获取第二目标分类模型,其中,所述第二目标分类模型用于获取所述第二标注数据集中每一第二标注数据的分类标签。其中,利用已验收的第一标注数据集进行预分类模型的预训练,从而为待验收的第二标注数据集提供待训练的第一目标分类模型,通过使用迁移学习的方式,有效的利用已验收的第一标注数据集的数据特征,提高分类模型的训练效率和目标分类模型的分类成功率。
在第一方面的一种可能实现方式中,获取已验收的第一标注数据集训练第一预训练分类模型获取第一目标分类模型包括:对第一标注数据集进行处理得到第一标注数据子集;提取第一标注数据子集中的第一训练子集、第一验证子集,利用第一训练子集训练第一预训练分类模型获得第一目标分类模型,利用第一验证子集验证第一目标分类模型。
在本实施例中,通过对第一标注数据集进行处理以得到第一标注数据子集后,将上述第一标注数据子集进行训练子集、验证子集的划分,利用训练子集完成模型的训练,利用验证子集完成模型的验证,有效利用了已验收的第一标注数据的数据特征。
在第一方面的一种可能实现方式中,对第一标注数据集进行处理得到第一标注数据子集包括:获取第一标注数据集的第一预处理数据子集;对第一预处理数据子集进行向量化以获取第一预处理子数据集的第一特征向量子集;第一标注数据子集包括第一特征向量子集。
在本实施例中,对获得的每一个第一预处理数据进行向量化,获得每一个第一预处理数据对应的第一特征向量,所有第一特征向量的集合被表示为第一特征向量子集,第一标注数据子集包括了上述第一特征向量子集,第一标注数据通过向量表示的形式输入到第一预训练分类模型和第一目标分类模型中能够提高上述模型的训练效率和分类效率,有效利用了已验收的第一标注数据的数据特征。
在第一方面的一种可能实现方式中,所述第一标注数据集所属的第一类别标签集经过独热编码处理转化为第一独热编码集。
在本实施例中,对第一标注数据集中每一个第一标注数据的第一类别标签进行one-hot编码,从而得到第一类别标签集对应的第一独热编码集,通过每个第一标注数据的类别标签进行独热编码,将上述类别标签的特征取值拓展至欧式空间中,使得对特征之间的距离计算更加合理,有效利用了已验收的第一标注数据的数据特征。
在第一方面的一种可能实现方式中,方法还包括:提取第一标注数据子集中的第一测试子集,利用第一测试子集测试第一目标分类模型。
在本实施例中,进一步限定了对第一标注数据集进行处理以得到第一标注数据子集后,将上述第一标注数据子集进行训练子集、验证子集的划分后,将剩余的第一标注数据子集划分为第一测试子集,利用测试子集完成模型的测试,有效利用了已验收的第一标注数据的数据特征。
在第一方面的一种可能实现方式中,利用第二标注数据集通过迁移学习的方式训练第一目标分类模型获取第二目标分类模型包括:对第二标注数据集进行处理得到第二标注数据子集;提取第二标注数据子集中的第二训练子集、第二验证子集,利用第二训练子集训练第一目标分类模型获得第二预目标分类模型,利用第二验证子集基于网格搜索调整第二预目标分类模型的超参数得到第二目标分类模型。
在本实施例中,将已经通过第一标注数据集训练的第一目标分类模型作为待训练的分类模型,对待验收的第二标注数据集进行处理后得到的第二标注数据子集进行训练子集和验证子集的提取,利用训练子集进行分类模型的训练得到第二预目标分类模型,利用验证子集基于网格搜索调整第二预目标分类模型的超参数从而得到第二目标分类模型,通过网格搜索获取验证子集误差最小的超参数组合,从而得到效果最好的第二目标分类模型。
在第一方面的一种可能实现方式中,对第二标注数据集进行处理得到第二标注数据子集包括:获取第二标注数据集的第二预处理数据子集;对第二预处理数据子集进行向量化以获取第二预处理子数据集的第二特征向量子集;第二标注数据子集包括第二特征向量子集。
对获得的每一个第二预处理数据进行向量化,获得每一个第二预处理数据对应的第二特征向量,所有第二特征向量的集合被表示为第二特征向量子集,第二标注数据子集包括了上述第二特征向量子集,第二标注数据通过向量表示的形式输入到第二预训练分类模型和第二目标分类模型中能够提高上述模型的训练效率和分类效率。
在第一方面的一种可能实现方式中,第二标注数据集所属的第二类别标签集经过独热编码处理转化为第二独热编码集。
在本实施例中,对第二标注数据集中每一个第二标注数据的第二类别标签进行one-hot编码,从而得到第二类别标签集对应的第二独热编码集,通过每个第二标注数据的类别标签进行独热编码,将上述类别标签的特征取值拓展至欧式空间中,使得对特征之间的距离计算更加合理。
在第一方面的一种可能实现方式中,方法还包括:提取第二标注数据子集中的第二测试子集,利用第二测试子集测试第二目标分类模型获取第二测试子集对应的第二标注数据的分类标签。
在本实施例中,进一步限定了对第二标注数据集进行处理以得到第二标注数据子集后,将上述第二标注数据子集进行训练子集、验证子集的划分后,将剩余的第二标注数据子集划分为第二测试子集,利用测试子集测试第二目标分类模型并获取第二测试子集对应的所有第二标注数据的分类标签,从而完成测试子集中标注数据的标签划分。
在第一方面的一种可能实现方式中,方法还包括:获取第三训练子集、第三验证子集和第三测试子集,其中,第三测试子集被配置为尚未被分类的部分第二标注数据的特征向量集合,第三训练子集、第三验证子集被配置为第二标注数据子集排除第三测试子集后剩余第二标注数据的特征向量集合;利用第三训练子集训练第一目标分类模型得到第三预目标分类模型,利用第三验证子集基于网格搜索调整第三预目标分类模型的超参数得到第三目标分类模型,利用第三测试子集测试第三目标分类模型获取第三测试子集对应的第二标注数据的分类标签;迭代上述步骤直到获取第二标注数据子集中所有第二标注数据的分类标签。
在本实施例中,由于第二标注数据的分类标签未经过确认,因此通过对第二标注数据的数据集使用数据交叉分隔的方式进行数据的划分、模型的训练和分类结果的输出,通过数据交叉将尚未分类的部分第二标注数据的特征向量(即第二标注数据子集中未被分类的部分子集)划分为第三测试子集,第二标注数据子集中除了第三测试子集外剩余的部分被划分为第三训练子集和第三验证子集,利用第三训练子集训练第一目标分类模型得到第三预目标分类模型,利用第三验证子集基于网格搜索调整第三预目标分类模型的超参数得到第三目标分类模型,利用第三目标分类模型获取第三测试子集中每一个第二标注数据的分类标签,并不断迭代以上步骤直到得到所有第二标注数据的分类标签,其中,通过使用网格搜索技术从而获得在当前验证子集上分类效果最好的模型作为目标分类模型,并不断迭代上述目标分类模型从而获得更好的分类效果。
在第一方面的一种可能实现方式中,利用测试子集测试目标分类模型获取测试子集对应第二标注数据的分类标签时,方法还包括:基于测试子集测试目标分类模型获得的每一第二标注数据的分类类别概率分布,计算每一第二标注数据的分类交叉熵。
本申请实施例第二方面提供了一种标注数据样本抽检方法,所述方法包括:获取待验收的第二标注数据集,基于所述第二标注数据集利用上述第一方面任一项所述分类模型训练方法得到的目标分类模型获得每一第二标注数据对应的分类标签;将分类标签与人工标签不相同的所述第二标注数据作为第一抽检样本。其中,基于每条第二标注数据都具有了人工标签和目标分类模型输出的分类标签后,将上述人工标签和分类标签不相同的第二标注数据作为第一抽检样本,有效利用了已标注的历史数据,并且通过模型拟合的方式对分类模型进行完善,从而避免人工工作量重复以及抽检的随机性。
在第二方面的一种可能实现方式中,基于第二标注数据集利用上述第一方面任一项分类模型训练方法得到的目标分类模型获得每一第二标注数据对应的分类标签之前,方法还包括:获取第二标注数据集的第二预处理数据子集;对第二预处理数据子集进行向量化以获取第二预处理子数据集的第二特征向量子集;第二标注数据子集包括第二特征向量子集。
在本实施例中,对获得的每一个第二预处理数据进行向量化,获得每一个第二预处理数据对应的第二特征向量,所有第二特征向量的集合被表示为第二特征向量子集,第二标注数据子集包括了上述第二特征向量子集,第二标注数据通过向量表示的形式输入到目标分类模型中能够提高上述模型的分类效率。
在第二方面的一种可能实现方式中,方法还包括:对第二标注数据子集进行聚类获得多个最终聚类簇;获取每一最终聚类簇下的第一分类标签,其中,第一分类标签为最终聚类簇下所有第二标注数据对应最多的分类标签;第一分类标签作为最终聚类簇下的所有第二标注数据的聚类标签。
在本实施例中,第二标注数据集被向量化处理表征为特征向量形式的第二数据子集后,利用无监督的聚类方式对第二标注数据子集进行聚类,将每一个聚类簇下占比最高的分类标签作为聚类簇的聚类标签,从而获得了第二标注数据子集的多个聚类簇以及聚类标签。
在第二方面的一种可能实现方式中,方法还包括:将聚类标签与分类标签不相同的第二标注数据作为第二抽检样本。
在本实施例中,进一步的限定了将聚类标签与分类标签不一致的第二标注数据作为第二抽检样本,从聚类的角度实现了第二标注数据的抽样,增加了抽检样本的多样性。
在第二方面的一种可能实现方式中,对第二标注数据子集进行聚类获得多个最终聚类簇包括:随机选取第二标注数据子集相同类别数量的第二标注数据作为聚类中心;利用每一第二标注数据的特征向量计算第二标注数据与每一聚类中心的距离;基于距离对每一第二标注数据进行归类获得多个聚类簇;迭代多个聚类簇直到聚类中心不再发生变化或超过预设的迭代次数,得到多个最终聚类簇。
在第二方面的一种可能实现方式中,迭代多个聚类簇直到聚类中心不再发生变化或超过预设的迭代次数,得到多个最终聚类簇包括:获取每一聚类簇中第二标注数据的特征值,重新确定当前聚类簇的新聚类中心;利用每一第二标注数据的特征向量计算第二标注数据与每一新聚类中心的新距离;基于新距离对每一第二标注数据进行归类获得多个新聚类簇;迭代上述步骤直到新聚类中心不再发生变化或超过预设的迭代次数,得到多个最终聚类簇。
在本实施例中,利用迭代计算的方式对聚类中心进行计算,直到聚类中心不再发生变化或超过预设的迭代次数,得到围绕最终聚类中心的多个最终聚类簇,使得获得的多个最终聚类簇的聚类效果较好。
在第二方面的一种可能实现方式中,方法还包括:基于第二标注数据子集输入目标分类模型获得的每一第二标注数据的分类类别概率分布,计算每一第二标注数据的分类交叉熵;将分类交叉熵数值较大的前N个第二标注数据作为第三抽检样本,其中N为自然数。
在本实施例中,利用目标分类模型输出的每一个第二标注数据的所属分类类别的概率分布,计算每一个第二标注数据的分类交叉熵,并将分类交叉熵数值较大的前N个第二标注数据作为第三抽检样本,其中,对分类交叉熵进行排序为抽检样本抽样的优先级提供了排序条件,第三抽检样本进一步的增加了抽检样本的多样性。
本申请实施例第三方面提供了一种分类模型训练装置,所述装置包括:第一训练单元,用于获取已验收的第一标注数据集训练第一预训练分类模型获取第一目标分类模型;第二训练单元,用于获取待验收的第二标注数据集,利用所述第二标注数据集通过迁移学习的方式训练所述第一目标分类模型获取第二目标分类模型,其中,所述第二目标分类模型用于获取所述第二标注数据集中每一第二标注数据的分类标签,其中,利用已验收的第一标注数据集进行预分类模型的预训练,从而为待验收的第二标注数据集提供待训练的第一目标分类模型,通过使用迁移学习的方式,有效的利用已验收的第一标注数据集的数据特征,提高分类模型的训练效率和目标分类模型的分类成功率。
本申请实施例第四方面提供了标注数据样本抽检装置,所述装置包括:第一分类单元,用于获取待验收的第二标注数据集,基于所述第二标注数据集利用上述第一方面任一项所述分类模型训练方法得到的目标分类模型获得每一第二标注数据对应的分类标签;第一确定单元,用于将分类标签与人工标签不相同的所述第二标注数据作为第一抽检样本。其中,基于每条第二标注数据都具有了人工标签和目标分类模型输出的分类标签后,将上述人工标签和分类标签不相同的第二标注数据作为第一抽检样本,有效利用了已标注的历史数据,并且通过模型拟合的方式对分类模型进行完善,从而避免人工工作量重复。
本申请实施例第五方面提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面任一所述的分类模型训练方法或上述第二方面任一所述的标注数据样本抽检方法。
本申请实施例第六方面提供了一种电子设备,包括:存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面任一所述的分类模型训练方法或上述第二方面任一所述的标注数据样本抽检方法。
其中,第五至第六方面其中任一种可能实现方式所带来的技术效果可参见第一方面或第一方面不同可能实现方式所带来的技术效果,或者参见第二方面或第二方面不同可能实现方式所带来的技术效果,此处不再赘述。
附图说明
图1显示为本申请一个实施例提供的标注数据样本抽检的整体架构示意图;
图2显示为本申请一个实施例提供的分类模型训练方法的流程示意图;
图3显示为本申请一个实施例提供的文本分类过程示意图;
图4显示为本申请一个实施例提供的数据交叉分隔示意图;
图5显示为本申请一个实施例提供的标注数据样本抽检方法的流程示意图;
图6显示为本申请一个实施例提供的聚类模型标注的结果示意图;
图7显示为本申请一个实施例提供的分类模型训练装置的结构示意图;
图8显示为本申请一个实施例提供的标注数据样本抽检装置的结构示意图;
图9显示为本申请一个实施例提供的电子设备的结构示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本申请所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本申请中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本申请的基本构想,遂图示中仅显示与本申请一些实施例中有关的组件而非所有实施条件下的组件数目、形状及尺寸绘制,在本申请一些实施例外的实施方式时各组件的型态、数量及比例可以由本领域普通技术人员在阅读本申请后没有做出创造性劳动前提下获得,上述实施方式都属于本申请保护的范围。
下面将对本申请实施例中使用的部分术语进行示例性地描述:
迁移学习:迁移学习是一种机器学习方法,把一个领域的知识迁移到另外一个领域,使得另外一个领域能够取得更好的学习效果。用神经网络的词语来表述,就是一层层网络中每个节点的参数(权重)从一个训练好的网络迁移到一个全新的网络里,而不是从头开始,为每个特定的任务训练一个神经网络。
网格搜索:一种穷举的调参方式,循环遍历每个自由超参数的每一种可能性,每组参数值都会得到对应的一个模型。
交叉熵:能够确定预测数据与真是数据之间的相近程度。交叉熵越小,表示数据越接近真实样本。
请参阅附图1所示,其示出了本申请一个实施例提供的标注数据样本抽检的整体架构示意图,通过从已验收标注数据和待验收标注数据进行一系列处理后输入分类模型获得模型分类结果、进行文本聚类获得文本聚类结果、计算交叉熵进行排序实现抽检样本的选取,下面将结合具体的实现方式对上述整体架构进行阐述。
下面将对本申请一个实施例提供的分类模型训练方法进行具体的描述,请参阅附图2所示,其示出了本申请一个实施例提供的分类模型训练方法的流程示意图,所述方法包括:
S201,获取已验收的第一标注数据集训练第一预训练分类模型获取第一目标分类模型;
示例性地,以第一标注数据为已验收文本语料数据为例,使用常用的文本分类方式进行文本分类模型的搭建,此处使用深度学习的模型进行第一预训练分类模型的搭建说明,请参阅附图3所示,其示出了本申请一个实施例提供的文本分类过程示意图,包括:词嵌入层,在对原始文本(即前述的已验收文本语料)进行文本处理和向量化转换成文本特征向量之后,将文本特征向量输入词嵌入层,将原有文本语料的稀疏特征向量进行降维处理,然后将词嵌入层的输出送入循环神经网络,所述循环神经网络可使用LSTM(Long Short-TermMemory,长短时记忆网络)及其相关的变体,例如:BiLSTM(directional Long Short-TermMemory,由前向LSTM和后向LSTM组合而成),GRU(Gated Recurrent Unit,门控循环单元)等。获取循环神经网络各时序状态的输出之后,为防止神经网络模型的过拟合,可进一步进行一些过拟合处理,例如L2正则化或采用dropout方式。过拟合处理之后接下来送入全连接层,进行特征数据的展平,最后经分类输出层进行所属类别概率计算,在多分类场景下,通常将softmax作为分类输出函数,输出层神经元的节点个数等于文本语料类别的数目,例如输出层输出P1、P2、P3…Pn个类别,取输出概率最大的类别作为模型分类的结果。最后设定模型的优化器,学习率等超参数,在训练阶段使用反向传播算法完成模型的预训练。
在完成搭建第一预训练分类模型后,基于获取的已验收第一标注数据集训练第一预训练模型。
在一个可能的实现方式中,获取已验收的第一标注数据集训练第一预训练分类模型获取第一目标分类模型包括:对第一标注数据集进行处理得到第一标注数据子集;提取第一标注数据子集中的第一训练子集、第一验证子集,利用第一训练子集训练第一预训练分类模型获得第一目标分类模型,利用第一验证子集验证第一目标分类模型。
在一个可能的实现方式中,对第一标注数据集进行处理得到第一标注数据子集包括:获取第一标注数据集的第一预处理数据子集;对第一预处理数据子集进行向量化以获取第一预处理子数据集的第一特征向量子集;第一标注数据子集包括第一特征向量子集。
然后,提取第一标注数据子集中的第一测试子集,利用第一测试子集测试第一目标分类模型。
可以理解,在完成搭建第一预训练分类模型后,进一步的将已经向量化的第一标注数据集拆分为训练集、测试集和验证集,利用训练集完成模型的训练,利用验证集完成模型的验证,利用测试集完成模型的评估,最后输出预训练分类模型。
在一个示例中,对第一标注数据集进行处理得到第一标注数据子集的同时,第一标注数据集所属的第一类别标签集经过独热编码处理转化为第一独热编码集。
可以理解,one-hot编码只是文本向量化的其中一种方式,在其它实施方式中也可使用例如“词袋模型”,“TF-IFD”,“word2vec”,“doc2vec”,“GloVec”等方式进行类别标签的向量表示。
在上述示例中,在进行第一标注数据向量化的同时,统计第一标注数据所属的类别标签,并将类别标签进行独热(one-hot)编码,最终将所有第一标注数据的内容转化成特征向量,第一标注数据的类别标签转化成独热(one-hot)编码。使得每一个第一标注数据对应的第一类别的特征取值在独热(one-hot)编码之后拓展到了欧式空间当中,第一标注数据的第一类别的特征取值对应到欧式空间中的某一个点,使得特征之间的距离计算更加合理。
下面,以第一标注数据为已验收文本语料数据为例进行第一标注数据进行向量化过程的具体说明,阐述如下:
1、前置处理:去除已验收文本语料中的标点符号,换行及其他特殊符号字符。
2、分词:进一步的,对前置处理后的已验收文本语料进行分词处理,例如可借助分词工具(例如:jieba等)进行实现,然后进行停用词过滤,去掉已验收标注语料中的停用词,例如可以使用现有的停用词文档进行停用词的筛选,停用词通常是指频繁出现但实际意义不大的词语,对模型学习影响较小,例如:“的”、“在”、“和”这样的一些词。
3、获取词典:字典是在分词的基础进一步对已验收文本语料建立分词与数字的映射,例如可以使用TF_IDF(term frequency-inverse document frequency,词频-逆向文件频率)进行文本的数字表征。词频TF表示词条在文本中出现的频率,如公式一所示。逆向文件频率由总文本语料数目除以包含该词语的文本语料的数目,然后对商取对数获得,计算方法如公式二所示。词频-逆向文件频率TF_IDF的计算公式为词频TF与逆向文件频率IDF的乘积,计算方法如公式三所示。根据上述公式一、公式二和公式三依次计算所有文本语料分词后所有分词的词频-逆向文件频率,形成字典(分词为键,分词的词频-逆向文件频率为值)。然后以词频-逆向文件频率从大到小对字典进行排序,获取有序字典dictsort。获取上述有序字典dictsort后,在一些实施例中可根据算力选择部分有序字典dictsort,例如算力充足时可使用全部的有序字典dictsort。针对未注册的分词,即有序字典dictsort不包含的分词,词频-逆向文件频率可以默认设置为0。
Figure BDA0003789071600000091
Figure BDA0003789071600000092
TF_IDFw=TFw*IDFw 公式三
4、向量化:在获取有序字典dictsort之后,根据有序字典dictsort,对已经进行分词处理的文本语料进行数字表征。即将文本语料中的分词映射成对应的词频-逆向文件频率进行文本表示。每个文本语料特征向量的长度等于有序字典dictsort的长度。每个文本语料特征向量对应的各特征值计算方法为:
从头到尾遍历有序字典dictsort,如果此时的文本分词包含有序字典dictsort当前的键,则将有序字典dictsort键对应的值(词频-逆向文件频率)作为文本特征向量对应处的向量值。反之,如果此时的文本分词不包含有序字典d□ctsort当前的键,则文本特征向量对应处的向量值为0。
S202,获取待验收的第二标注数据集,利用所述第二标注数据集通过迁移学习的方式训练所述第一目标分类模型获取第二目标分类模型。
其中,所述第二目标分类模型用于获取所述第二标注数据集中每一第二标注数据的分类标签。
在一个可能的实现方式中,利用第二标注数据集通过迁移学习的方式训练第一目标分类模型获取第二目标分类模型包括:对第二标注数据集进行处理得到第二标注数据子集;提取第二标注数据子集中的第二训练子集、第二验证子集,利用第二训练子集训练第一目标分类模型获得第二预目标分类模型,利用第二验证子集基于网格搜索调整第二预目标分类模型的超参数得到第二目标分类模型。
然后,提取第二标注数据子集中的第二测试子集,利用第二测试子集测试第二目标分类模型获取第二测试子集对应的第二标注数据的分类标签。
在一个可能的实现方式中,对第二标注数据集进行处理得到第二标注数据子集包括:获取第二标注数据集的第二预处理数据子集;对第二预处理数据子集进行向量化以获取第二预处理子数据集的第二特征向量子集;第二标注数据子集包括第二特征向量子集。
进一步地,对第二标注数据集进行处理得到第二标注数据子集的同时,第二标注数据集所属的第二类别标签集经过独热编码处理转化为第二独热编码集。
在上述示例中,在进行第二标注数据向量化的同时,统计第二标注数据所属的类别标签(对于待验收文本语料来说,为人工标注的类别),并将类别标签进行独热(one-hot)编码(对于待验收文本语料来说,使用已验收文本语料类别的one-hot编码),最终将所有第二标注数据的内容转化成特征向量,第二标注数据的类别标签转化成独热(one-hot)编码。使得每一个第二标注数据对应的第二类别的特征取值在独热(one-hot)编码之后拓展到了欧式空间当中,第二标注数据的第二类别的特征取值对应到欧式空间中的某一个点,使得特征之间的距离计算更加合理。
可以理解,one-hot编码只是文本向量化的其中一种方式,在其它实施方式中也可使用例如“词袋模型”,“TF-IFD”,“word2vec”,“doc2vec”,“GloVec”等方式进行类别标签的向量表示。
下面,以第二标注数据为待验收文本语料数据为例进行第二标注数据处理过程的具体说明,步骤阐述如下:
1、前置处理:去除待验收文本语料中的标点符号,换行及其他特殊符号字符。
2、分词:进一步的,对前置处理后的待验收文本语料进行分词处理,例如可借助分词工具(例如:jieba等)进行实现,然后进行停用词过滤,去掉待验收标注语料中的停用词,例如可以使用现有的停用词文档进行停用词的筛选,停用词通常是指频繁出现但实际意义不大的词语,对模型学习影响较小,例如:“的”、“在”、“和”这样的一些词。
3、获取词典:字典是在分词的基础进一步对待验收文本语料建立分词与数字的映射,例如可以使用TF_IDF(term frequency-inverse document frequency,词频-逆向文件频率)进行文本的数字表征。词频TF表示词条在文本中出现的频率,如公式一所示。逆向文件频率由总文本语料数目除以包含该词语的文本语料的数目,然后对商取对数获得,计算方法如公式二所示。词频-逆向文件频率TF_IDF的计算公式为词频TF与逆向文件频率IDF的乘积,计算方法如公式三所示。根据上述公式一、公式二和公式三依次计算所有文本语料分词后所有分词的词频-逆向文件频率,形成字典(分词为键,分词的词频-逆向文件频率为值)。然后以词频-逆向文件频率从大到小对字典进行排序,获取有序字典dictsort。获取上述有序字典dictsort后,在一些实施例中可根据算力选择部分有序字典dictsort,例如算力充足时可使用全部的有序字典dictsort。针对未注册的分词,即有序字典dictsort不包含的分词,词频-逆向文件频率可以默认设置为0。
Figure BDA0003789071600000111
Figure BDA0003789071600000112
TF_IDFw=TFw*IDFw 公式三
4、向量化:在获取有序字典dictsort之后,根据有序字典dictsort,对已经进行分词处理的文本语料进行数字表征。即将文本语料中的分词映射成对应的词频-逆向文件频率进行文本表示。每个文本语料特征向量的长度等于有序字典dictsort的长度。每个文本语料特征向量对应的各特征值计算方法为:
从头到尾遍历有序字典dictsort,如果此时的文本分词包含有序字典dictsort当前的键,则将有序字典dictsort键对应的值(词频-逆向文件频率)作为文本特征向量对应处的向量值。反之,如果此时的文本分词不包含有序字典dictsort当前的键,则文本特征向量对应处的向量值为0。
由于第二标注数据的分类标签未经过确认,需要对第二标注数据的数据集使用数据交叉分隔的方式进行数据的划分、模型的训练和分类结果的输出。
在一个示例中,请参阅附图4所示,其示出了本申请一个实施例提供的数据交叉分隔示意图,具体包括:获取第三训练子集、第三验证子集和第三测试子集,其中,第三测试子集被配置为尚未被分类的部分第二标注数据的特征向量集合,第三训练子集、第三验证子集被配置为第二标注数据子集排除第三测试子集后剩余第二标注数据的特征向量集合;利用第三训练子集训练第一目标分类模型得到第三预目标分类模型,利用第三验证子集基于网格搜索调整第三预目标分类模型的超参数得到第三目标分类模型,利用第三测试子集测试第三目标分类模型获取第三测试子集对应的第二标注数据的分类标签;迭代上述步骤直到获取第二标注数据子集中所有第二标注数据的分类标签。
例如,第二标注数据子集的数据个数为n,第二测试子集的数据个数为k,第二验证子集的个数为m,则剩余的(n-m-k)个数据作为第二训练子集,此时k个第二测试子集中的第二标注数据已经通过目标分类模型获得了对应的分类标签。继续从尚未获得分类标签的第二标注数据子集中选择k个第三测试子集,从(n-k)个数据中选择m个第三验证子集,剩余的(n-k-m)个数据作为第三训练子集,利用第三训练子集训练第一目标分类模型得到第三预目标分类模型,利用第三训练子集基于网格搜索调整第三预目标分类模型的超参数得到第三目标分类模型,利用第三测试子集测试第三目标分类模型获取第三测试子集对应的第二标注数据的分类标签;不停迭代选取测试子集、验证子集和训练子集,以及迭代训练、验证、测试目标分类模型,直到获取第二标注数据子集的所有分类标签。
可以理解,前述的第二目标分类模型和第三目标分类模型是通过不同的训练集训练、调整第一目标分类模型得到,每一不同的测试集都对应有一不同的目标分类模型。
下面对本申请一个实施例提供的数据交叉分隔方法以第二标注数据为待验收文本语料数据为例进行具体描述,假设待验收文本语料数据集的个数为n,取其中的k个作为测试子集,m个作为验证子集,剩余的(n-m-k)个数据作为训练子集。结合网格搜索技术,使用迁移学习的方式,在前述第一目标分类模型的基础上进行模型的二次训练,使用网格搜索技术选择在验证子集上表现最好的模型作为第二目标分类模型,对测试子集数据进行预测,然后将预测结果作为待验收文本语料的分类结果(即模型分类结果),将分类结果中概率最高的作为待验收文本语料的分类标签。至此完成k个待验收文本语料数据的模型文本分类。
当完成其中k个文本语料数据的模型分类之后,从未被分类的文本语料数据中重新选择k个样本作为测试子集,然后从剩余的n-k个数据中选择m个验证子集,剩余的(n-m-k)个数据作为训练子集,同样结合网格搜索技术,使用迁移学习的方式,在之前第一目标分类模型的基础上进行模型的二次训练,使用网格搜索技术选择在验证子集上表现最好的模型作为分类模型,对新测试子集数据进行预测,获取新选择的k个数据的模型文本分类结果。不断迭代上述步骤,直至待验收文本语料数据全部被预测一遍,获取所有待验收文本语料数据的模型文本分类结果。
在一些示例中,利用测试子集测试目标分类模型获取测试子集对应第二标注数据的分类标签时,方法还包括:
基于测试子集测试目标分类模型获得的每一第二标注数据的分类类别概率分布,计算每一第二标注数据的分类交叉熵。
可以理解,在对第二标注数据利用目标分类模型进行模型分类的同时,可以利用本申请实施例中描述的公式四计算出当前第二标注数据分类类别分布的交叉熵H:
Figure BDA0003789071600000131
上述公式四中,M为第二标注数据的分类类别数,yc是符号函数,第二标注数据的真实类别等于c取1,否则取0,pc是第二标注数据属于类别c的预测概率。
在利用目标分类模型获取到所有第二标注数据的分类标签之后,请参阅附图5,其示出了本申请一个实施例提供的标注数据样本抽检方法的流程示意图,包括:
S501,获取待验收的第二标注数据集,基于所述第二标注数据集利用目标分类模型获得每一第二标注数据对应的分类标签;
根据本申请实施例,所述目标分类模型是按照如本申请实施例前述所示的分类模型训练方法得到的。
在一个示例中,将待验收的第二标注数据集通过目标分类模型获得分类标签之前,对第二标注数据集进行处理,包括:获取第二标注数据集的第二预处理数据子集;对第二预处理数据子集进行向量化以获取第二预处理子数据集的第二特征向量子集;第二标注数据子集包括第二特征向量子集。
上述对第二标注数据集进行向量化处理以获得对应的向量特征集的具体实施方式可以参考本申请前述实施例,此处不再赘述。
S502,将分类标签与人工标签不相同的所述第二标注数据作为第一抽检样本。
例如,使用目标分类模型获得的第二标注数据的标签为labelclassification,将第二标注数据经过目标分类模型输出的分类标签labelclassification与人工标注的标签labelartificial进行对比,如果两者不相同,将对应的第二标注数据作为第一抽检样本。
为了使得抽检样本具备代表性和多样性,进一步地,本申请实施例通过对第二标注数据进行聚类,并且使用分类标签进行聚类标签的自动标注,从而获得第二标注数据的聚类标签,将分类标签与聚类标签不一致的第二标注数据作为第二抽检样本。
示例性地,获取所述聚类标签的方法包括:对第二标注数据子集进行聚类获得多个最终聚类簇;获取每一最终聚类簇下的第一分类标签,其中,第一分类标签为所述最终聚类簇下所有第二标注数据对应最多的分类标签;第一分类标签作为最终聚类簇下的所有第二标注数据的聚类标签。
可以理解,每一个最终聚类簇下都包括了多个第二标注数据,统计最终聚类簇下多个第二标注数据通过目标分类模型输出的分类标签,得到多个分类标签,以多个分类标签中数量最多的分类类别作为当前最终聚类簇下所有第二标注数据的聚类结果,例如某个最终聚类簇下包括6个第二标注数据,6个第二标注数据的多个分类标签包括3个分类标签(Ⅰ)、2个分类标签(Ⅱ)和1个分类标签(Ⅲ),选择数量最多的分类标签(Ⅰ)作为该聚类簇下6个第二标注数据的聚类结果。
在得到所有第二标注数据的聚类标签之后,此时每一个第二标注数据均包括了一个通过目标分类模型获得的分类标签以及通过聚类获得的聚类标签,对两者进行比较,若分类标签和聚类标签不相同的,将对应的第二标注数据作为第二抽检样本。上述聚类方法可以使用例如k-means(k-means clustering algorithm,k均值聚类算法),Mean-Shift(均值迁移算法),DBSCAN(Density-Based Spatial Clustering of Applications withNoise,基于密度的噪声应用空间聚类),GMM(Gaussian Mixture Model,高斯混合模型)等无监督的聚类方法。
在一个可能的实现方式中,对第二标注数据子集进行聚类获得多个最终聚类簇包括:随机选取第二标注数据子集相同类别数量的第二标注数据作为聚类中心;利用每一第二标注数据的特征向量计算第二标注数据与每一所述聚类中心的距离;基于距离对每一第二标注数据进行归类获得多个聚类簇;迭代多个聚类簇直到聚类中心不再发生变化或超过预设的迭代次数,得到多个最终聚类簇。
以聚类算法为k-means(k-means clustering algorithm,k均值聚类算法)为例对第二标注数据子集进行聚类的步骤进行详细阐述:
1、根据第二标注数据的类别数量确定聚类中心点数量,例如所有第二标注数据一共具有n个类别,此时聚类中心点数量被确定为n个,随机选取n个第二标注数据作为聚类中心点。也可以在每种类别中任选一个第二标注数据作为此类别的聚类中心点;
2、利用每个第二标注数据的特征向量计算各个第二标注数据与每个聚类中心点的距离,例如可以使用欧式距离或者余弦距离等,选取新距离最近的聚类中心点,将该第二标注数据与距离最近的聚类中心点归为一类,对所有的第二标注数据归类结束后获得了多个聚类簇,此时,每一个聚类簇代表了围绕当前聚类中心点的所有近似第二标注数据;
3、迭代多个聚类簇直到聚类中心不再发生变化或超过预设的迭代次数时,终止迭代得到多个最终聚类簇。
请参阅附图6,其示出了本申请一个实施例提供的聚类模型标注的结果示意图,可以看到在上述实例中,对第二标注数据子集进行聚类获得了4个聚类簇,涵盖了4种聚类类别,4个聚类簇之间通过聚类边界线S1分隔,围绕每一个聚类中心均涵盖了部分的第二标注数据,然而此时在多个聚类簇当中均存在标注的异常点S2,需要继续对上述4个聚类簇进行迭代避免标注异常点S2的出现。
在一个可能的实现方式中,迭代多个聚类簇直到聚类中心不再发生变化或超过预设的迭代次数,得到多个最终聚类簇包括:获取每一聚类簇中第二标注数据的特征值,重新确定当前聚类簇的新聚类中心;利用每一第二标注数据的特征向量计算第二标注数据与每一新聚类中心的新距离;基于新距离对每一第二标注数据进行归类获得多个新聚类簇;迭代上述步骤直到新聚类中心不再发生变化或超过预设的迭代次数,得到多个最终聚类簇。
下面继续以聚类算法为k-means(k-means clustering algorithm,k均值聚类算法)为例对上述迭代多个聚类簇得到多个最终聚类簇的步骤进行详细阐述:
3.1、基于每一个聚类簇的下每一个第二标注数据的特征值,重新计算当前聚类簇的新聚类中心,得到所有聚类簇的新聚类中心;
3.2、利用每一个第二标注数据的特征向量计算跟所有的新聚类中心的新距离,选取新距离最近的新聚类中心点,将该第二标注数据与新距离最近的新聚类中心点归为一类,对所有的第二标注数据归类结束后获得了多个新聚类簇,此时,每一个新聚类簇代表了围绕当前新聚类中心点的所有近似第二标注数据;
3.3、迭代3.1和3.2的步骤,直到新聚类中心不再发生变化或超过预设的迭代次数时,得到多个最终聚类簇,此时完成所有第二标注数据的聚类。
为了使得抽检样本具备代表性和多样性,进一步地,本申请实施例通过计算每一个第二标注数据的分类交叉熵,然后根据交叉熵的数值大小进行排序,以交叉熵作为数据抽样的优先级。可以利用本申请实施例中描述的公式四计算出当前第二标注数据分类类别分布的交叉熵H,此处不再赘述。
示例性地,以交叉熵作为数据抽样优先级的方法包括:基于第二标注数据子集输入目标分类模型获得的每一第二标注数据的分类类别概率分布,计算每一第二标注数据的分类交叉熵;将分类交叉熵最大的前N个第二标注数据作为第三抽检样本,其中N为自然数。
可以理解,在上述示例中,经过计算后得到每一第二标注数据的分类交叉熵,选取前topn作为第三抽检样本加入抽检样本集合,前topn可以是具体的数值,也可以是百分比。更进一步地,上述分类交叉熵还可以作为抽检样本集合中地排序优先级。
应当理解的是,除本申请实施例中以文本语料数据作为示例性说明外,在本申请范围内,本领域技术人员也可以将本申请实施例中任一所述的方法应用于例如图像类、视频类等任何模型训练任务和/或标注数据样本抽检任务当中。
请参阅附图7,其示出了本申请一个实施例提供的分类模型训练装置的结构示意图,所述装置包括:
第一训练单元701,用于获取已验收的第一标注数据集训练第一预训练分类模型获取第一目标分类模型;
第二训练单元702,用于获取待验收的第二标注数据集,利用所述第二标注数据集通过迁移学习的方式训练所述第一目标分类模型获取第二目标分类模型,其中,所述第二目标分类模型用于获取所述第二标注数据集中每一第二标注数据的分类标签。
需要说明的是,分类模型训练装置70中各单元之间的信息交互、执行过程等内容,与本申请中图2对应的方法实施例基于同一构思,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
请参阅附图8,其示出了本申请一个实施例提供的标注数据样本抽检装置的结构示意图,所述装置包括:
第一分类单元801,用于获取待验收的第二标注数据集,基于所述第二标注数据集利用目标分类模型获得每一第二标注数据对应的分类标签;
根据本申请实施例,所述目标分类模型是按照如本申请实施例前述所示的分类模型训练方法得到的。
第一确定单元802,用于将分类标签与人工标签不相同的所述第二标注数据作为第一抽检样本。
需要说明的是,标注数据样本抽检装置80中各单元之间的信息交互、执行过程等内容,与本申请中图5对应的方法实施例基于同一构思,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
应当理解,上述功能模块/单元可以通过硬件形式实现,也可以通过软件形式的指令实现,还可以通过硬件和软件模块组合实现。具体地,本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成,结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块/单元组合执行完成。例如,软件模块/单元可以位于随机存储器,闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法实施例中的步骤。
请参阅附图9,其示出了本申请一个实施例提供的电子设备的结构示意图,电子设备90可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上存储介质的存储器901、一个或者一个以上处理核心的处理器902等部件,该存储器901用于存储计算机程序,并将该计算机程序代码传输给处理器902,换言之,处理器902可以从存储器901中调用并运行计算机程序,以实现本申请实施例中的方法,例如,该处理器902可用于根据该计算机程序中的指令执行上述方法实施例。本领域技术人员可以理解,图9中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
在一个可能的实现方式中,该处理器902可以包括但不限于:
通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。
在一个可能的实现方式中,该存储器901可以包括但不限于:
易失性存储器和/或非易失性存储器。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(DoubleDataRate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DR RAM)。
在一个可能的实现方式中,该计算机程序可以被分割成一个或多个模块,该一个或者多个模块被存储在该存储器901中,并由该处理器902执行,以完成本申请实施例中的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述该计算机程序在该电子设备90中的执行过程。
请继续参阅附图9,该电子设备90还可包括:
收发器903,该收发器903连接至该处理器902或存储器901。
其中,处理器902可以控制该收发器903与其他设备进行通信,具体地,可以向其他设备发送信息或数据,或接收其他设备发送的信息或数据。收发器903可以包括发射机和接收机。收发器903还可以进一步包括天线,天线的数量可以为一个或多个。
应当理解,该电子设备90中的各个组件通过总线系统相连,其中,总线系统除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。
本申请一个实施例还提供了存储介质,其上存储有计算机程序,该计算机程序被处理器执行时使得该计算机能够执行上述实施例中的方法。
上述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以意识到,结合本申请中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块/单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或单元可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块/单元可以是或者也可以不是物理上分开的,作为模块/单元显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块/单元来实现本申请实施例方案的目的。例如,在本申请各个实施例中的各功能模块/单元可以集成在一个处理模块中,也可以是各个模块/单元单独物理存在,也可以两个或两个以上模块/单元集成在一个模块/单元中。
上述实施例仅示例性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以该权利要求的保护范围为准。

Claims (22)

1.一种分类模型训练方法,其特征在于,所述方法包括:
获取已验收的第一标注数据集训练第一预训练分类模型获取第一目标分类模型;
获取待验收的第二标注数据集,利用所述第二标注数据集通过迁移学习的方式训练所述第一目标分类模型获取第二目标分类模型,其中,所述第二目标分类模型用于获取所述第二标注数据集中每一第二标注数据的分类标签。
2.根据权利要求1所述的方法,其特征在于,获取已验收的第一标注数据集训练第一预训练分类模型获取第一目标分类模型包括:
对所述第一标注数据集进行处理得到第一标注数据子集;
提取所述第一标注数据子集中的第一训练子集、第一验证子集,利用所述第一训练子集训练第一预训练分类模型获得第一目标分类模型,利用所述第一验证子集验证所述第一目标分类模型。
3.根据权利要求2所述的方法,其特征在于,对所述第一标注数据集进行处理得到第一标注数据子集包括:
获取所述第一标注数据集的第一预处理数据子集;
对所述第一预处理数据子集进行向量化以获取第一预处理子数据集的第一特征向量子集;所述第一标注数据子集包括所述第一特征向量子集。
4.根据权利要求3所述的方法,其特征在于,所述第一标注数据集所属的第一类别标签集经过独热编码处理转化为第一独热编码集。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
提取所述第一标注数据子集中的第一测试子集,利用所述第一测试子集测试所述第一目标分类模型。
6.根据权利要求1所述的方法,其特征在于,利用所述第二标注数据集通过迁移学习的方式训练所述第一目标分类模型获取第二目标分类模型包括:
对所述第二标注数据集进行处理得到第二标注数据子集;
提取所述第二标注数据子集中的第二训练子集、第二验证子集,利用所述第二训练子集训练第一目标分类模型获得第二预目标分类模型,利用所述第二验证子集基于网格搜索调整所述第二预目标分类模型的超参数得到所述第二目标分类模型。
7.根据权利要求6所述的方法,其特征在于,对所述第二标注数据集进行处理得到第二标注数据子集包括:
获取所述第二标注数据集的第二预处理数据子集;
对所述第二预处理数据子集进行向量化以获取第二预处理子数据集的第二特征向量子集;所述第二标注数据子集包括所述第二特征向量子集。
8.根据权利要求7所述的方法,其特征在于,所述第二标注数据子集所属的第二类别标签集经过独热编码处理转化为第二独热编码集。
9.根据权利要求6所述的方法,其特征在于,所述方法还包括:
提取所述第二标注数据子集中的第二测试子集,利用所述第二测试子集测试所述第二目标分类模型获取所述第二测试子集对应的第二标注数据的分类标签。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
获取第三训练子集、第三验证子集和第三测试子集,其中,所述第三测试子集被配置为尚未被分类的部分第二标注数据的特征向量集合,所述第三训练子集、第三验证子集被配置为所述第二标注数据子集排除所述第三测试子集后剩余第二标注数据的特征向量集合;利用所述第三训练子集训练所述第一目标分类模型得到第三预目标分类模型,利用所述第三验证子集基于网格搜索调整所述第三预目标分类模型的超参数得到第三目标分类模型,利用所述第三测试子集测试所述第三目标分类模型获取所述第三测试子集对应的第二标注数据的分类标签;
迭代上述步骤直到获取所述第二标注数据子集中所有第二标注数据的分类标签。
11.根据权利要求9或10任一项所述的方法,其特征在于,利用测试子集测试目标分类模型获取测试子集对应第二标注数据的分类标签时,所述方法还包括:
基于测试子集测试目标分类模型获得的每一第二标注数据的分类类别概率分布,计算每一第二标注数据的分类交叉熵。
12.一种标注数据样本抽检方法,其特征在于,所述方法包括:
获取待验收的第二标注数据集,基于所述第二标注数据集利用权利要求1-11任一项所述分类模型训练方法得到的目标分类模型获得每一第二标注数据对应的分类标签;
将分类标签与人工标签不相同的所述第二标注数据作为第一抽检样本。
13.根据权利要求12所述的方法,其特征在于,基于所述第二标注数据集利用权利要求1-11任一项所述分类模型训练方法得到的目标分类模型获得每一第二标注数据对应的分类标签之前,所述方法还包括:
获取所述第二标注数据集的第二预处理数据子集;
对所述第二预处理数据子集进行向量化以获取第二预处理子数据集的第二特征向量子集;所述第二标注数据子集包括所述第二特征向量子集。
14.根据权利要求13所述的方法,其特征在于,所述方法还包括:
对所述第二标注数据子集进行聚类获得多个最终聚类簇;
获取每一所述最终聚类簇下的第一分类标签,其中,所述第一分类标签为所述最终聚类簇下所有所述第二标注数据对应最多的所述分类标签;
所述第一分类标签作为所述最终聚类簇下的所有所述第二标注数据的聚类标签。
15.根据权利要求14所述的方法,其特征在于,所述方法还包括:
将所述聚类标签与所述分类标签不相同的所述第二标注数据作为第二抽检样本。
16.根据权利要求14所述的方法,其特征在于,对所述第二标注数据子集进行聚类获得多个最终聚类簇包括:
随机选取所述第二标注数据子集相同类别数量的第二标注数据作为聚类中心;
利用每一第二标注数据的特征向量计算所述第二标注数据与每一所述聚类中心的距离;
基于所述距离对每一第二标注数据进行归类获得多个聚类簇;
迭代多个所述聚类簇直到聚类中心不再发生变化或超过预设的迭代次数,得到多个最终聚类簇。
17.根据权利要求16所述的方法,其特征在于,迭代多个所述聚类簇直到聚类中心不再发生变化或超过预设的迭代次数,得到多个最终聚类簇包括:
获取每一所述聚类簇中第二标注数据的特征值,重新确定当前聚类簇的新聚类中心;
利用每一第二标注数据的特征向量计算所述第二标注数据与每一所述新聚类中心的新距离;
基于所述新距离对每一第二标注数据进行归类获得多个新聚类簇;
迭代上述步骤直到所述新聚类中心不再发生变化或超过预设的迭代次数,得到多个最终聚类簇。
18.根据权利要求13所述的方法,其特征在于,所述方法还包括:
基于所述第二标注数据子集输入目标分类模型获得的每一第二标注数据的分类类别概率分布,计算每一第二标注数据的分类交叉熵;
将分类交叉熵数值较大的前N个第二标注数据作为第三抽检样本,其中N为自然数。
19.一种分类模型训练装置,其特征在于,所述装置包括:
第一训练单元,用于获取已验收的第一标注数据集训练第一预训练分类模型获取第一目标分类模型;
第二训练单元,用于获取待验收的第二标注数据集,利用所述第二标注数据集通过迁移学习的方式训练所述第一目标分类模型获取第二目标分类模型,其中,所述第二目标分类模型用于获取所述第二标注数据集中每一第二标注数据的分类标签。
20.一种标注数据样本抽检装置,其特征在于,所述装置包括:
第一分类单元,用于获取待验收的第二标注数据集,基于所述第二标注数据集利用权利要求1-11任一项所述分类模型训练方法得到的目标分类模型获得每一第二标注数据对应的分类标签;
第一确定单元,用于将分类标签与人工标签不相同的所述第二标注数据作为第一抽检样本。
21.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-11任一所述的分类模型训练方法或权利要求12-18中任一所述的标注数据样本抽检方法。
22.一种电子设备,其特征在于,包括:存储器、处理器及存储在存储器上并在处理器上运行的程序,所述处理器执行所述程序时实现如权利要求1-11任一所述的分类模型训练方法或权利要求12-18中任一所述的标注数据样本抽检方法。
CN202210950863.XA 2022-08-09 2022-08-09 分类模型训练、标注数据样本抽检方法、介质及电子设备 Pending CN115392357A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210950863.XA CN115392357A (zh) 2022-08-09 2022-08-09 分类模型训练、标注数据样本抽检方法、介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210950863.XA CN115392357A (zh) 2022-08-09 2022-08-09 分类模型训练、标注数据样本抽检方法、介质及电子设备

Publications (1)

Publication Number Publication Date
CN115392357A true CN115392357A (zh) 2022-11-25

Family

ID=84119164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210950863.XA Pending CN115392357A (zh) 2022-08-09 2022-08-09 分类模型训练、标注数据样本抽检方法、介质及电子设备

Country Status (1)

Country Link
CN (1) CN115392357A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115984274A (zh) * 2023-03-20 2023-04-18 菲特(天津)检测技术有限公司 一种车辆外观检测模型、构建方法及检测方法
CN116595456A (zh) * 2023-06-06 2023-08-15 之江实验室 一种基于脑机接口的数据筛选和模型训练方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115984274A (zh) * 2023-03-20 2023-04-18 菲特(天津)检测技术有限公司 一种车辆外观检测模型、构建方法及检测方法
CN116595456A (zh) * 2023-06-06 2023-08-15 之江实验室 一种基于脑机接口的数据筛选和模型训练方法及装置
CN116595456B (zh) * 2023-06-06 2023-09-29 之江实验室 一种基于脑机接口的数据筛选和模型训练方法及装置

Similar Documents

Publication Publication Date Title
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
Ahmad et al. Medical image retrieval with compact binary codes generated in frequency domain using highly reactive convolutional features
EP3029606A2 (en) Method and apparatus for image classification with joint feature adaptation and classifier learning
CN107085581A (zh) 短文本分类方法和装置
CN111353076A (zh) 训练跨模态检索模型的方法、跨模态检索的方法和相关装置
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN115392357A (zh) 分类模型训练、标注数据样本抽检方法、介质及电子设备
CN114330354B (zh) 一种基于词汇增强的事件抽取方法、装置及存储介质
CN114358188A (zh) 特征提取模型处理、样本检索方法、装置和计算机设备
CN112819023A (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN113065525B (zh) 年龄识别模型训练方法、人脸年龄识别方法及相关装置
CN111597340A (zh) 一种文本分类方法及装置、可读存储介质
CN112163114B (zh) 一种基于特征融合的图像检索方法
Roy et al. Deep metric and hash-code learning for content-based retrieval of remote sensing images
CN111985228A (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN110188827A (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
CN114528835A (zh) 基于区间判别的半监督专业术语抽取方法、介质及设备
CN108496174B (zh) 用于面部识别的方法和系统
Jeyakarthic et al. Optimal bidirectional long short term memory based sentiment analysis with sarcasm detection and classification on twitter data
CN116561314B (zh) 基于自适应阈值选择自注意力的文本分类方法
CN107533672A (zh) 模式识别装置、模式识别方法以及程序
CN112417147A (zh) 训练样本的选取方法与装置
CN111611796A (zh) 下位词的上位词确定方法、装置、电子设备及存储介质
CN113590867B (zh) 基于分层度量学习的跨模态信息检索方法
CN115238645A (zh) 资产数据识别方法、装置、电子设备和计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: No. B1337, Chuanggu Initiation Zone, Taizihu Cultural Digital Creative Industry Park, No. 18 Shenlong Avenue, Wuhan Economic and Technological Development Zone, Wuhan, Hubei Province, 430058

Applicant after: Hubei Xingji Meizu Technology Co.,Ltd.

Address before: No. B1337, Chuanggu Start-up Zone, Taizi Lake Cultural Digital Creative Industry Park, No. 18 Shenlong Avenue, Wuhan Economic and Technological Development Zone, Wuhan City, Hubei Province 430000

Applicant before: Hubei Xingji times Technology Co.,Ltd.

CB02 Change of applicant information