CN114282622A - 训练样本排查方法及其装置、设备、介质、产品 - Google Patents
训练样本排查方法及其装置、设备、介质、产品 Download PDFInfo
- Publication number
- CN114282622A CN114282622A CN202111636144.2A CN202111636144A CN114282622A CN 114282622 A CN114282622 A CN 114282622A CN 202111636144 A CN202111636144 A CN 202111636144A CN 114282622 A CN114282622 A CN 114282622A
- Authority
- CN
- China
- Prior art keywords
- sample
- samples
- unlabeled
- labeled
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 220
- 238000000034 method Methods 0.000 title claims abstract description 80
- 239000013598 vector Substances 0.000 claims abstract description 230
- 238000013145 classification model Methods 0.000 claims abstract description 56
- 238000012216 screening Methods 0.000 claims abstract description 23
- 238000013507 mapping Methods 0.000 claims abstract description 13
- 238000001914 filtration Methods 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 20
- 230000000717 retained effect Effects 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 11
- 238000012935 Averaging Methods 0.000 claims description 6
- 238000011835 investigation Methods 0.000 abstract description 5
- 238000003062 neural network model Methods 0.000 description 25
- 238000004422 calculation algorithm Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 18
- 238000004364 calculation method Methods 0.000 description 17
- 238000002372 labelling Methods 0.000 description 14
- 238000000605 extraction Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 10
- 238000005457 optimization Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000013024 troubleshooting Methods 0.000 description 7
- 238000011002 quantification Methods 0.000 description 6
- 238000012512 characterization method Methods 0.000 description 5
- 238000007418 data mining Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004132 cross linking Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开一种训练样本排查方法及其装置、设备、介质、产品,所述方法包括:采用分类模型获取训练数据集中的训练样本的特征向量及将该特征向量映射至各个分类标签生成的概率向量;基于所述概率向量为每个无标签样本计算表征其分类不确定性的量化评分,筛选出量化评分超过预设评分阈值的无标签样本构成粗召回集;从粗召回集内与相应的有标签样本构成最相似的无标签样本集合中,筛选出其中相对不相似的无标签样本,构成次召回集;根据无标签样本的特征向量与各个分类标签相对应的类中心向量之间的相似性,从次召回集内与相应的类中心向量构成最相似的无标签样本集合中,筛选出其中相对不相似的无标签样本作为待标注样本。本申请可实现训练样本的精选。
Description
技术领域
本申请涉及数据挖掘技术领域,尤其涉及一种训练样本排查方法及其相应的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。
背景技术
近年来,由于深度学习神经网络技术的高速发展,各行各业已经越来越普遍地将人工智能技术应用到实际生产当中。在一个深度学习模型落地前,需要准备大量的标注数据,因此可能需要聘请一个数据标注团队,专门为训练业务模型进行数据样本的标注。实践中,一些具体业务,由于数据量庞大,若要标注团队对所有的数据都进行标注,其工作量十分巨大。尽管可以通过增加标注人员的数量来解决,但是,对应的,给企业带来高额的人力成本。
再者,业务数据中,会存在数据分布不均的现象。一些类别的数据出现频率可能较另外一些类别的频率要高,此时,标注团队通过样本抽样的方法,花了大部分精力进行标注,结果是出现频率少且对模型贡献度高的样本很少被标注得到。典型的示例,如电子商务平台的商品数据,电子商务平台有自身的分类体系,其中的末端分类标签,所对应的商品数量不同,例如“衣服”、“鞋子”、“角码”、“马桶盖”等,各种分类标签之下的商品数量通常是指数级的。业务数据分布不均,导致将这些业务数据作为神经网络模型的训练样本时,难以使模型习得泛化语义特征的能力,从而不利于模型的有效、快速的收敛,间接也提高了模型的训练成本。
再一方面,神经网络模型的训练方式,不仅包括有监督训练,还包括半监督训练以及无监督训练等方式,在进行半监督训练时,通常提供相对少量的有标签样本和大量的无标签样本,不同的无标签样本,被模型进行表示学习并分类后,相应输出的信息蕴藏着样本之间的差异性,这些差异性可以用于数据挖掘,而实现对模型的训练样本的选优,基于选优获得的无标签样本,进一步借助人工标注,可以转换为有标签样本,通过对这些模型识别模糊的无标签样本的选优和再利用,往往可以针对性地提升训练样本对模型的泛化能力。对此,现有技术中,尽管存在相应的思想,但鲜见有效的实施方案,有鉴于此,本申请人尝试做出相应的探索。
发明内容
本申请的首要目的在于解决上述问题至少之一而提供一种训练样本排查方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。
为满足本申请的各个目的,本申请采用如下技术方案:
适应本申请的目的之一而提供的一种训练样本排查方法,包括如下步骤:
采用分类模型获取训练数据集中的训练样本的特征向量及将该特征向量映射至各个分类标签生成的概率向量;所述训练样本包括有标签样本和无标签样本,所述分类模型预先以所述有标签样本训练至收敛状态,所述概率向量包含各个分类标签相对应的分类概率;
基于所述概率向量为每个无标签样本计算表征其分类不确定性的量化评分,从训练数据集中筛选出量化评分超过预设评分阈值的无标签样本构成粗召回集;
根据特征向量之间的相似性,从粗召回集内与相应的有标签样本构成最相似的无标签样本集合中,筛选出其中相对不相似的无标签样本,构成次召回集;
根据无标签样本的特征向量与各个分类标签相对应的类中心向量之间的相似性,从次召回集内与相应的类中心向量构成最相似的无标签样本集合中,筛选出其中相对不相似的无标签样本作为待标注样本;所述类中心向量为相同分类标签下所有有标签样本的特征向量之间的均值向量。
具体化的实施例中,所述分类模型执行如下步骤:
对输入其中的训练样本提取表征其深层语义信息的特征向量;所述训练样本为图片或者文本;
将该特征向量映射至预设的分类空间,获得相应的概率向量。
具体化的实施例中,基于所述概率向量为每个无标签样本计算表征其分类不确定性的量化评分,包括如下步骤:
计算所述训练数据集中的无标签样本的信息熵;
计算所述训练数据集中的无标签样本的概率向量中两个最大分类概率之间的概率差值;
计算所述训练数据集中每个无标签样本的所述信息熵与所述概率差值的乘积作为表征该无标签样本的分类不确定性的量化评分。
具体化的实施例中,根据特征向量之间的相似性,从所述粗召回集内与相应的有标签样本构成最相似的无标签样本集合中,筛选出其中相对不相似的无标签样本,构成次召回集,包括如下步骤:
计算所述粗召回集中每个无标签样本的特征向量与所述训练数据集中每个有标签样本的特征向量之间的余弦相似度,获得每个无标签样本相对应的单样本相似度序列,该单样本相似度序列包含与各个所述的有标签样本相对应的用于表征相似性的相似度数值;
对每个无标签样本相对应的相似度序列进行过滤,仅保留其中最大值的相似度数值,该最大值的相似度数值表征其相应的无标签样本与其相应的有标签样本构成最相似,将所有被保留的相似度数值构造为汇总相似度序列;
根据预设的相似度阈值对所述汇总相似度序列中的相似度数值进行过滤,仅保留其中相似度数值低于该相似度阈值的元素,将被保留的元素相对应的无标签样本构造为次召回集。
具体化的实施例中,根据无标签样本的特征向量与各个分类标签相对应的类中心向量之间的相似性,从所述次召回集内与相应的类中心向量构成最相似的无标签样本集合中,筛选出其中相对不相似的无标签样本作为待标注样本,包括如下步骤:
确定每个分类标签相对应的有标签样本,将该些有标签样本的特征向量进行元素对应加和求均值,获得相对应的均值向量,作为该分类标签相对应的类中心向量;
计算所述次召回集中每个无标签样本的特征向量与各个分类标签的类中心向量之间的欧氏距离,获得每个无标签样本相对应的单样本距离序列,该单样本距离序列包含与各个所述的类中心向量相对应的用于表征相似性的距离数值;
对每个无标签样本相对应的单样本距离序列进行过滤,仅保留其中最小值的距离数值,该最小值的距离数值表征其相应的无标签样本与其相应的有标签样本构成最相似,将所有被保留的距离数值构造为汇总距离序列;
根据预设的距离阈值对所述汇总距离序列中的距离数值进行过滤,仅保留其中距离数值高于该距离阈值的元素,将被保留的元素相对应的无标签样本作为待标注样本。
扩展的实施例中,本申请的训练样本排查方法,还包括如下后置步骤:
获取所述待标注样本相对应的人工标签,使该待标注样本转换为有标签样本;
合并由待标注样本转换而来的有标签样本及所述训练数据集中的有标签样本构成第二训练数据集;
启用训练任务,调用所述第二训练数据集用于对所述分类模型重启微调训练,使该分类模型被训练至收敛状态。
适应本申请的目的之一而提供的一种训练样本排查装置,包括:基础化模块、粗召回模块、次召回模块,以及精召回模块,其中,所述基础化模块,用于采用分类模型获取训练数据集中的训练样本的特征向量及将该特征向量映射至各个分类标签生成的概率向量;所述训练样本包括有标签样本和无标签样本,所述分类模型预先以所述有标签样本训练至收敛状态,所述概率向量包含各个分类标签相对应的分类概率;所述粗召回模块,用于基于所述概率向量为每个无标签样本计算表征其分类不确定性的量化评分,从训练数据集中筛选出量化评分超过预设评分阈值的无标签样本构成粗召回集;所述次召回模块,用于根据特征向量之间的相似性,从粗召回集内与相应的有标签样本构成最相似的无标签样本集合中,筛选出其中相对不相似的无标签样本,构成次召回集;所述精召回模块,用于根据无标签样本的特征向量与各个分类标签相对应的类中心向量之间的相似性,从次召回集内与相应的类中心向量构成最相似的无标签样本集合中,筛选出其中相对不相似的无标签样本作为待标注样本;所述类中心向量为相同分类标签下所有有标签样本的特征向量之间的均值向量。
具体化的实施例中,所述分类模型包括:特征提取网络,用于对输入其中的训练样本提取表征其深层语义信息的特征向量;所述训练样本为图片或者文本;分类器,用于将该特征向量映射至预设的分类空间,获得相应的概率向量。
具体化的实施例中,所述粗召回模块,包括:信息熵计算单元,用于计算所述训练数据集中的无标签样本的信息熵;概率差计算单元,用于计算所述训练数据集中的无标签样本的概率向量中两个最大分类概率之间的概率差值;评分计算单元,用于计算所述训练数据集中每个无标签样本的所述信息熵与所述概率差值的乘积作为表征该无标签样本的分类不确定性的量化评分。
具体化的实施例中,所述粗召回模块,包括:相似度计算单元,用于计算所述粗召回集中每个无标签样本的特征向量与所述训练数据集中每个有标签样本的特征向量之间的余弦相似度,获得每个无标签样本相对应的单样本相似度序列,该单样本相似度序列包含与各个所述的有标签样本相对应的用于表征相似性的相似度数值;最相似过滤单元,用于对每个无标签样本相对应的相似度序列进行过滤,仅保留其中最大值的相似度数值,该最大值的相似度数值表征其相应的无标签样本与其相应的有标签样本构成最相似,将所有被保留的相似度数值构造为汇总相似度序列;低相似优选单元,用于根据预设的相似度阈值对所述汇总相似度序列中的相似度数值进行过滤,仅保留其中相似度数值低于该相似度阈值的元素,将被保留的元素相对应的无标签样本构造为次召回集。
具体化的实施例中,所述次召回模块,包括:分类均值化单元,用于确定每个分类标签相对应的有标签样本,将该些有标签样本的特征向量进行元素对应加和求均值,获得相对应的均值向量,作为该分类标签相对应的类中心向量;距离计算单元,用于计算所述次召回集中每个无标签样本的特征向量与各个分类标签的类中心向量之间的欧氏距离,获得每个无标签样本相对应的单样本距离序列,该单样本距离序列包含与各个所述的类中心向量相对应的用于表征相似性的距离数值;最相近过滤单元,用于对每个无标签样本相对应的单样本距离序列进行过滤,仅保留其中最小值的距离数值,该最小值的距离数值表征其相应的无标签样本与其相应的有标签样本构成最相似,将所有被保留的距离数值构造为汇总距离序列;高相近优选单元,用于根据预设的距离阈值对所述汇总距离序列中的距离数值进行过滤,仅保留其中距离数值高于该距离阈值的元素,将被保留的元素相对应的无标签样本作为待标注样本。
扩展的实施例中,本申请的训练样本排查方法,还包括:标签获取模块,用于获取所述待标注样本相对应的人工标签,使该待标注样本转换为有标签样本;数据集重构模块,用于合并由待标注样本转换而来的有标签样本及所述训练数据集中的有标签样本构成第二训练数据集;重启训练模块,用于启用训练任务,调用所述第二训练数据集用于对所述分类模型重启微调训练,使该分类模型被训练至收敛状态。
适应本申请的目的之一而提供的一种计算机设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的训练样本排查方法的步骤。
适应本申请的另一目的而提供的一种计算机可读存储介质,其以计算机可读指令的形式存储有依据所述的训练样本排查方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
适应本申请的另一目的而提供的一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。
相对于现有技术,本申请的优势如下:本申请在对训练数据集中的训练样本进行排查选优以确定出待标注样本的过程中,基于经该训练数据集训练的分类模型提取各个训练样本的特征向量和概率向量,基于这些信息,先后经粗召回、次召回,以及最后的精召回三种方式的数据挖掘处理,层层推进,实现对训练数据集中的无标签样本的精细排查,排查出其中能够用于在训练过程中提升神经网络模型的特征泛化能力的无标签样本用于人工标注,以便经人工标注转换为有标签样本,重新投入神经网络模型的训练,使被训练的神经网络模型易容易被训练至收敛状态,而且有效地避免过多人工标注的情况,确保在获得较高训练成效的同时,能维持较低的模型训练成本。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请的训练样本排查方法的典型实施例的流程示意图;
图2为本申请示例性的分类模型的网络架构示意图;
图3为本申请实施例中确定表征无标签样本的不确定性的量化评分过程的流程示意图;
图4为本申请实施例中实施次召回过程的流程示意图;
图5为本申请实施例中实施精召回过程的流程示意图;
图6为本申请实施例中重启微调训练的触发过程的流程示意图;
图7为本申请的训练样本排查方法的应用原理的示意图;
图8为本申请的训练样本排查装置的原理框图;
图9为本申请所采用的一种计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
本申请的一个或数个技术特征,除非明文指定,既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问,也可直接部署并运行于客户端来实施访问。
本申请中所引用或可能引用到的神经网络模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
本申请所涉及的各种数据,除非明文指定,既可远程存储于服务器,也可存储于本地终端设备,只要其适于被本申请的技术方案所调用即可。
本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
本申请即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
本申请的一种训练样本排查方法,可被编程为计算机程序产品,部署于客户端或服务器中运行而实现,例如在本申请的电商平台应用场景中,一般部署在服务器中实施,藉此可以通过访问该计算机程序产品运行后开放的接口,通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。
本申请示例性的一个应用场景,是基于独立站的电商平台中的应用,每个独立站即为电商平台的一个商户实例,拥有独立的访问域名,由其实际拥有者负责进行商品的发布和更新。
独立站的商户实例将每个商品进行上线,电商平台获取与该商品相关的信息之后,构造出相对应的商品对象进行数据存储。商品对象的信息主要包括文本信息和图片信息,其中,文本信息包括商品对象的用于显要显示的标题信息、用于介绍商品详情的内容信息、用于描述商品特征的属性信息等。
针对此类电商平台为其商品对象进行分类的需要,可以采集商品对象的摘要文本及商品图片,作为训练数据集中的训练样本,结合对其中部分训练样本适当人工标注形成的标签,用于实施对服务于该电商平台的神经网络分类模型的半监督训练,使该分类模型习得根据商品对象的相应的文本或图片进行分类的能力。其中,摘要文本主要采用商品对象中的标题信息、内容信息及其一项或多项属性信息构成,可由本领域技术人员灵活确定相应的数据构成;商品图片则可以是包含该商品对象的产品外观的主要图片。一般而言,可以按照预设的数量和内容需求获取摘要文本及商品图片,例如摘要文本可以规定为包含商品对象的标题信息及其所有属性项的属性信息、商品图片可以只选取其用于默认显示的单张图片。当然,本领域技术人员可以在此基础上灵活变通调整处理。
除此之外,本申请的技术方案的可应用场景当然也不限于电商平台所需的神经网络模型,实际上,但凡在对神经网络模型实施半监督训练的领域,只要需要针对该神经网络模型所采用的训练数据集中的无标签样本进行选优以供进一步人工标注,理论上均可采用本申请的技术方案进行处理。故此,本申请关于应用场景的示例,仅为方便读者理解的需要而给出,故本领域技术人员应当知晓,不应以本申请示例性的应用场景对本申请的创造精神所应涵盖的范围加以任何限制。
请参阅图1,本申请的训练样本排查方法在其典型实施例中,包括如下步骤:
步骤S1100、采用分类模型获取训练数据集中的训练样本的特征向量及将该特征向量映射至各个分类标签生成的概率向量;所述训练样本包括有标签样本和无标签样本,所述分类模型预先以所述有标签样本训练至收敛状态,所述概率向量包含各个分类标签相对应的分类概率:
本申请示例性的分类模型,如前所述,可以是用于根据电商平台的商品对象的图片和/或文本进行分类的分类模型,为方便理解,请参阅图2所示的网络架构,该网络架构示例该分类模型包括一个特征提取网络和一个分类器,所述的特征提取网络用于对输入其中的图片和/或文本进行表示学习,提取其深层语义信息,获得相应的特征向量;所述分类器用于将该特征向量映射到预设的分类空间,该分类空间包含多个预设的分类标签,从而对应每个分类标签获得一个相应的分类概率,由这些分类概率构成一个概率向量。
该分类模型被预先采用一训练数据集训练至收敛状态。所述训练数据集中,包含大量的训练样本,其中部分训练样本为事先标注的有标签样本,余者为未经任何标注的无标签样本,也即,训练数据集中,部分携带监督标签,部分未带监督标签。据此,所述分类模型可以适于被实施半监督训练的模型。
据此,所述分类模型在被训练时,或者当其被训练至收敛状态后投入生产时,按照如下过程进行工作:
首先,对输入其中的训练样本提取表征其深层语义信息的特征向量:
所述的特征提取网络可以是单纯用于处理图片的图像特征提取网络,例如Resnet、Iresnet、EfficientNet等,经该网络提取出的特征向量,将直接被输出至分类器中做分类预测,也可以是单纯用于处理文本的基础网络,例如TextCNN、FastText、Bert、Albert、ERNIE、ELECTRA等文本特征提取网络,同理,经该网络提取出的特征向量也可直接输出至分类器中做分类预测,还可以是由所述的图像特征提取网络和文本特征提取模型共同架构且在最后一层对两者的特征向量进行拼接或融合以获得最后的用于输入至分类器中的特征向量的网络。所述特征提取网络的具体构型,视本申请的分类模型的训练数据集中的训练样本的构成而定,也即,所述训练样本适应该分类模型可以仅包括图片或文本,也可同时包括相关联于同一任务的图片和文本。所述的训练样本经分类模型进行特征提取后,在其最后一层所获得的隐层向量,即为用于实施分类预测的特征向量。
其次,将该特征向量映射至预设的分类空间,获得相应的概率向量:
所述特征向量输出后,经全连接进入分类器,从而映射到一个预设的分类空间,该分类空间包含多个预设的分类标签,因此,所述特征向量映射到各个分类标签之后,对应获得一个分类概率,所有的分类概率便构成一个概率向量。
根据以上关于本申请的分类模型的工作过程的介绍,可以理解,在利用所述分类模型对训练样本进行处理的过程中,会获得两个产物,其一为训练样本相对应的特征向量,其二为根据该特征向量做分类映射获得的概率向量。
为了实施本申请的技术方案,在所述的分类模型被采用所述训练数据集中的有标签样签训练至收敛状态后,仍然采用该分类模型,用于对所述训练数据集中的每一训练样本,包括有标签样本和无标签样本,进行特征提取和分类映射,由此,便可相应获得各个训练样本的特征向量和概率向量,将这些数据进行关联存储,以备后续步骤调用。
为方便后续结合说明,以公式表示,所述分类模型表示为:M,将所述训练数据集表示为Xlabel,设c为分类空间的分类标签的数量,pc为一个训练样本属于类别c的分类概率。
计算无标签样本的特征向量。假设所述训练数据集中的无标签样本集为Xun,Xun,i为无标签样本集的其中一个无标签样本,将该无标签样本输入所述分类模型M,则最后一层隐藏层输出的特征向量为:
Vh,i=M(Xun,i)
而分类模型输出层向量即所述的概率向量表示为:
后续本文各实施例涉及以公式进行说明处,可参考此处的相关公式表示进行理解。
步骤S1200、基于所述概率向量为每个无标签样本计算表征其分类不确定性的量化评分,从训练数据集中筛选出量化评分超过预设评分阈值的无标签样本构成粗召回集:
为了实现对训练数据集中的无标签样本的粗召回,本申请设计了基于不确定性的量化方法,通过量化分类模型较难识别的无标签样本在模型分类时的不确定性,根据其不确定性对无标签样本进行初次召回。为此,结合两种不确定性计算方法,即信息熵和最大边界方法,根据每个无标签样本的概率向量中的分类概率,计算表征模型难以分辨的无标签样本的不确定性的量化评分。其中的信息熵代表了对每个无标签样本分类时,分类模型的输出结果的混乱程度,即不确定性。而其中的最大边界方法同样起到了不确定性计算的作用,最大边界法可以只关注分类概率数值最大的两个分类标签的差值。两者结合,计算出每个无标签样本相对应的量化评分,能从多个维度考虑无标签样本的不确定性,从而拓展了模型难以分辨的样本范围和多样性。
计算出各个无标签样本的量化评分之后,采用一个预设评分阈值与其进行比较,当该量化评分超过该预设评分阈值时,便将其相应的无标签样本召回用于构造出粗召回集,据此,最终获得的粗召回集中,包含了所述训练数据集中,量化评分超过所述预设评分阈值的所有无标签样本。其中,所述的预设评分阈值可以是经验阈值或者实验阈值,由本领域技术人员灵活设置即可。
步骤S1300、根据特征向量之间的相似性,从粗召回集内与相应的有标签样本构成最相似的无标签样本集合中,筛选出其中相对不相似的无标签样本,构成次召回集:
为了实现对所述粗召回集中的无标签样本的进一步召回,本申请还采用了相似性比较方法,根据粗召回集中的无标签样本与所述训练数据集中的有标签样本彼此的特征向量之间的相似性,先确定出其中每个无标签样本最相似的有标签样本,获得对应的相似性表征数据。然后再根据这一相似性表征数据,从粗召回集的所有无标签样本中过滤掉部分高度相似的元素,留下部分相对不相似的元素,将这些元素相对应的无标签样本构造为次召回集。所获得的次召回集中,即包含了从所述粗召回集中筛选出来的部分无标签样本,该部分无标签样本具有在语义特征层面均与所述训练数据集中的某个有标签样本最为相似,但相对而言,只是此类最为相似的情况中相对较不相似部分相对应的无标签样本。
衡量特征向量之间的相似性的方法,可以采用余弦相似度算法、欧氏距离算法、杰卡德算法、皮尔逊系数算法、曼哈顿距离算法、切比雪夫距离算法等等任意一种已知算法或其类似算法来实施。
本申请在次召回阶段采用相似性比较方法,召回与有标签样本相似度低的无标签样本,由于有标签样本表示了模型能关注到的语义空间分布,若在用于后续训练的训练数据集中不断添加与有标签样本相似的样本,无疑只会使模型往语义分布相似的方向靠近,即造成模型的学习偏差。因此,出于优选无标签样本的需要,需要筛选出与有标签样本相似性较低的无标签样本,意义在于筛选与有标签样本在语义空间尽量分散的重要样本,以此来补充后续训练的神经网络模型在其他语义维度上没有学习到的信息,填补模型对某些语义维度学习力不足的漏洞,以此提升模型表现和鲁棒性。
步骤S1400、根据无标签样本的特征向量与各个分类标签相对应的类中心向量之间的相似性,从次召回集内与相应的类中心向量构成最相似的无标签样本集合中,筛选出其中相对不相似的无标签样本作为待标注样本;所述类中心向量为相同分类标签下所有有标签样本的特征向量之间的均值向量:
与前一步骤同理,本步骤也采用了相似性比较的方式,来进一步从所述的次召回集的无标签样本中精选出最终需要提供给人工进行标注的待标注样本。但是,本步骤主要是依据次召回集中的特征向量与所述分类空间的各个分类标签所相对应的训练数据集中的有标签样本之间的类中心向量之间的相似性来进行比较。
所述的类中心向量,是对应所述分类空间的每一分类标签而获取的,具体而言,可从所述训练数据集中确定出携带同一分类标签的所有有标签样本的特征向量,将同一分类标签下所有有标签样本的特征向量进行元素加和求均值,相当于将其进行均值池化,从而获得一个均值向量,该均值向量即为该分类标签相对应的类中心向量。不难理解,该类中心向量是对其分类标签下的所有有标签样本的语义信息的归一化综合的结果。
确定各个分类标签相对应的类中心向量后,将所述次召回集中的每个无标签样本的特征向量与各个分类标签的类中心向量进行相似性比较,便可确定出每个无标签样本的特征向量与各个分类标签的类中心向量之间的相似程度,据此而确定出其中每个无标签样本最为相似的分类标签及两者之间的相似性表征数据,然后再根据这一相似性表征数据,从次召回集的所有无标签样本中过滤掉部分高度相似的元素,留下部分相对不相似的元素,将这些元素相对应的无标签样本最终确定为待标注样本。
同理,衡量特征向量与类中心向量之间的相似性的方法,可以采用余弦相似度算法、欧氏距离算法、杰卡德算法、皮尔逊系数算法、曼哈顿距离算法、切比雪夫距离算法等等任意一种已知算法或其类似算法来实施。
推荐的变通实施例中,步骤S1300与步骤S1400可以选取不同的相似性计算方法,以便利用多种不同相似性计算方法获得更为分散的数学期望。
本申请在此处应用相似性比较方法,可找出与有标签样本相似程度相对较远的无标签样本。同样,其目的也是为了筛选与有标签样本在语义空间尽量分散的重要样本。但是此处计算对象是无标签样本与有标签样本的类间相似程度,并选取其中最不相似的样例,作为优选的对象,进一步强化了样本多样性的筛选意图,可获得更能促使被训练的神经网络模型获得特征泛化能力的待标注样本。
经以上过程从训练数据集中排查并优选出待标注样本之后,可将该待标注样本标记或者转存,供后台用户调用,以对其实施人工标注,使其转换为有标签样本,据此,与训练数据集中的其他训练样本一起,便可用于训练新的神经网络模型,例如前述的分类模型,使被训练的新模型能够进一步提升对特征的泛化能力,从而使新模型的训练更易快速收敛,节省训练成本。
通过本申请的实施例,不难理解,本申请在对训练数据集中的训练样本进行排查选优以确定出待标注样本的过程中,基于经该训练数据集训练的分类模型提取各个训练样本的特征向量和概率向量,基于这些信息,先后经粗召回、次召回,以及最后的精召回三种方式的数据挖掘处理,层层推进,实现对训练数据集中的无标签样本的精细排查,排查出其中能够用于在训练过程中提升神经网络模型的特征泛化能力的无标签样本用于人工标注,以便经人工标注转换为有标签样本,重新投入神经网络模型的训练,使被训练的神经网络模型易容易被训练至收敛状态,而且有效地避免过多人工标注的情况,确保在获得较高训练成效的同时,能维持较低的模型训练成本。
请参阅图3,具体化的实施例中,所述步骤S1200、基于所述概率向量为每个无标签样本计算表征其分类不确定性的量化评分,包括如下步骤:
步骤S1210、计算所述训练数据集中的无标签样本的信息熵:
对于无标签样本集Xun中的每一个无标签样本Xun,i,根据信息学原理,基于其概率向量中的分类概率计算出其信息熵,公式表示为:
步骤S1220、计算所述训练数据集中的无标签样本的概率向量中两个最大分类概率之间的概率差值:
计算每一个无标签样本,其概率向量中,分类概率值最大的前两个值的差值,通过考察概率向量中最高的两个置信度之间的差值,即概率差值,来确定该无标签样本相对于模型的易混淆程度,公式表示为:
步骤S1230、计算所述训练数据集中每个无标签样本的所述信息熵与所述概率差值的乘积作为表征该无标签样本的分类不确定性的量化评分:
对于每个无标签样本Xun,i,如果单纯以信息熵或者单纯以其置信度差值来衡量其相对于模型的易混淆程度,即其不确定性,则恐有失偏颇,因此,本实施例将两者进行融合。具体融合方式是对于同一无标签样本,将其信息熵与其概率差值进行相乘求积,所得的数值,作为表征该无标签样本的分类不确定性的量化评分,公式表示为:
经过本实施例以上具体过程确定出每个无标签样本的量化评分后,便可采用所述的预设评分阈值对其进行过滤,将量化评分超过该预设评分阈值的无标签样本保留,将未超过该预设评分阈值的无标签样本从训练数据集中删除,由此得到粗召回集Xuncer。
本实施例应用了量化无标签样本被模型识别的不确定性而获得其相对应的量化评分的方法,对模型难识别的无标签样本进行召回获得相应无标签样本构造出粗召回集,过程中通过两种用于量化不确定性的计算方法,即信息熵和最大边界方法,量化计算模型难以分辨的样本的不确定性,其中信息熵代表了对单样本分类时,模型的输出结果的混乱程度,实现对不确定性的量化,而最大边界方法同样起到了不确定性量化计算的作用,且最大边界方法只需关注概率向量中分类概率值最大的两个分类标签的差值。由此,将两者结合,能综合多个维度更有效地体现当前无标签样本的不确定性,从而拓展了模型难以分辨的样本范围和多样性。
请参阅图4,具体化的实施例中,所述步骤S1300、根据特征向量之间的相似性,从所述粗召回集内与相应的有标签样本构成最相似的无标签样本集合中,筛选出其中相对不相似的无标签样本,构成次召回集,包括如下步骤:
步骤S1310、计算所述粗召回集中每个无标签样本的特征向量与所述训练数据集中每个有标签样本的特征向量之间的余弦相似度,获得每个无标签样本相对应的单样本相似度序列,该单样本相似度序列包含与各个所述的有标签样本相对应的用于表征相似性的相似度数值:
为了通过考察所述无标签样本与所述有标签样本之间的语义相似性,对经粗召回获得的粗召回集Xuncer,分别计算其中每个无标签样本与有标签数据集Xlabel中每一个有标签样本的余弦相似度,获得相应的相似度数值,并保留相似度值最大的相似度数值,从而获得由粗召回集中各个无标签样本的所述相似度数值集合而成的单样本相似度序列,公式示例如下:
Scosine,k=Maxi(Cosine(Vh,i,Vh,k))
其中k表示Xuncer中的一个无标签样本。
不难看出,借助余弦相似度算法计算出的相似度数值,可以实现对无标签样本的特征向量与有标签样本的特征向量之间的相似性的量化表示,其中,相似度数值越高,表示两者相似性越高,反之相似度数值越低,则相似性越低,据此,实现了对相似性的量化表示。
步骤S1320、对每个无标签样本相对应的相似度序列进行过滤,仅保留其中最大值的相似度数值,该最大值的相似度数值表征其相应的无标签样本与其相应的有标签样本构成最相似,将所有被保留的相似度数值构造为汇总相似度序列:
经前一步骤,每个无标签样本均获得一个对应的单样本相似度序列,该序列中包含该无标签样本与所述训练数据集中的每个有标签样本之间的相似度数值,据此,可为每个无标签样本进行选优,从其单样本相似度序列中确定出其中与其最为相似,也即具有最高相似度数值的元素。同一单样本相似度序列中余者元素均可被删除,至此,每个无标签样本均保留有对应的仅一个相似度数值,该相似度数值表征该无标签样本与所述训练数据集中与其语义最为相似的有标签样本之间的相似性程度,将所有无标签样本的被保留的元素构造为一个汇总相似度序列,以便进行排序择优。
步骤S1330、根据预设的相似度阈值对所述汇总相似度序列中的相似度数值进行过滤,仅保留其中相似度数值低于该相似度阈值的元素,将被保留的元素相对应的无标签样本构造为次召回集:
所述的汇总相似度序列中,包含Xuncer个相似度数值,因此,可以根据相似度数值大小对该汇总相似度序列的各个元素进行从小到大的排序,然后根据预设相似度阈值对该汇总相似度序列进行过滤,将相似度数值高于该预设相似度阈值的元素删除,将相似度数值低于该预设相似度阈值的元素保留,获得Xsim个元素,这些元素相对应的无标签样本,便可构造为次召回集,据此,可将未进入次召回集中的无标签样本从所述训练数据集中删除实现净化。
作为等同替换手段,本步骤中,也可采用在对所述汇总相似度序列进行排序后的结果中,选取排名靠前的nsim个样本,所起作用与采用预设相似度阈值进行过滤相同,对此,也应理解为本申请的创造精神所应涵盖的范围,本领域技术人员应当知晓。
本实施例基于与有标签样本的余弦相似度计算,召回与有标签样本相似度低的无标签样本用于构造次召回集。有标签样本表示了模型能关注到的语义空间分布,若在同一训练数据集中不断添加与有标签样本相似的样本,无疑只会使模型往语义分布相似的方向靠近,造成模型的学习偏差。因此,需要筛选出与有标签样本相似度较低的无标签样本,意义在于筛选与有标签样本在语义空间尽量分散的重要样本,以此来补充模型在其他语义维度上没有学习到的信息,填补模型对某些语义维度学习力不足的漏洞,以此提升模型表现和鲁棒性。
请参阅图5,具体化的实施例中,所述步骤S1400、根据无标签样本的特征向量与各个分类标签相对应的类中心向量之间的相似性,从所述次召回集内与相应的类中心向量构成最相似的无标签样本集合中,筛选出其中相对不相似的无标签样本作为待标注样本,包括如下步骤:
步骤S1410、确定每个分类标签相对应的有标签样本,将该些有标签样本的特征向量进行元素对应加和求均值,获得相对应的均值向量,作为该分类标签相对应的类中心向量:
如前所述,为了确定携带所述分类空间中的每个分类标签相对应的类中心向量,首先需要先根据每个分类标签,从训练数据集中确定出携带该分类标签的所有有标签样本Xlabel,i,并调用其经分类模型预先提取而得的特征向量:
Vh,i=M(Xlabel,i)
然后,针对每个分类标签,将其下的所有有标签样本的所述特征向量进行元素加和求均值,获得相应的均值向量,该均值向量即为该分类标签相应的类中心向量。该类中心向量实现了对同一分类标签下的所有有标签样本的语义信息的综合抽象表示。其公式表示如下:
Vcenter,c=Avg(Vh,c,i)
其中Vh,c,i表示分类标签等于c的特征向量,c∈{1,2,...,C}表示具体分类标签的种类。
每个分类标签均确定出其相应的类中心向量,据此便可供所述次召回集中的无标签样本进行相似性比较。
步骤S1420、计算所述次召回集中每个无标签样本的特征向量与各个分类标签的类中心向量之间的欧氏距离,获得每个无标签样本相对应的单样本距离序列,该单样本距离序列包含与各个所述的类中心向量相对应的用于表征相似性的距离数值:
为了计算次召回集Xsim中的每个无标签样本的特征向量与所述各个分类标签的类中心向量之间的语义相似性,分别计算其中每个无标签样本的特征向量与各个分类标签的类中心向量之间的欧氏距离,获得相应的距离数值,并保留距离数值最小者,从而获得由次召回集中各个无标签样本Xsim,i的所述距离数值集合而成的单样本距离序列,公式示例如下:
所述无标签样本的特征向量为:Vsim,i=M(Xsim,i)
计算欧氏距离的公式为:dc,i=L2(Vsim,i,Vcenter,i)
根据以上公式,计算出每个无标签样本的特征向量与各个分类标签的类中心向量之间距离数值,可以实现对无标签样本的特征向量与各个类中心向量之间的相似性的量化表示,其中,距离数值越小,表示两者相似性越高,反之距离数值越大,则相似性越低,据此,实现了对相似性的量化表示。
步骤S1430、对每个无标签样本相对应的单样本距离序列进行过滤,仅保留其中最小值的距离数值,该最小值的距离数值表征其相应的无标签样本与其相应的有标签样本构成最相似,将所有被保留的距离数值构造为汇总距离序列:
经前一步骤,每个无标签样本均获得一个对应的单样本距离序列,该序列中包含该无标签样本的特征向量与所述各个分类标签的类中心向量之间的欧氏距离数值,据此,可为每个无标签样本进行选优,从其单样本距离序列中确定出其中与其最为相似,也即具有最小距离数值的元素。公式表示为:
di=Minc(dc,i)
同一单样本距离序列中余者元素均可被删除,至此,每个无标签样本均保留有对应的仅一个距离数值,该距离数值表征该无标签样本的特征向量与其语义最为相似的分类标签之间的相似性程度,将所有无标签样本的被保留的元素构造为一个汇总距离序列,以便进行排序择优。
步骤S1440、根据预设的距离阈值对所述汇总距离序列中的距离数值进行过滤,仅保留其中距离数值高于该距离阈值的元素,将被保留的元素相对应的无标签样本作为待标注样本:
所述的汇总距离序列中,包含Xsim个相似度数值,因此,可以根据距离数值大小对该汇总距离序列的各个元素进行从大到小的排序,然后根据预设距离阈值对该汇总距离序列进行过滤,将距离数值高于该预设距离阈值的元素删除,将距离数值低于该预设距离阈值的元素保留,获得其中部分元素,这些元素相对应的无标签样本,便可作为本申请排查结果中的待标注样本,可构造为精召回集,据此,可将未进入精召回集中的无标签样本从所述训练数据集中删除实现净化。
作为等同替换手段,本步骤中,也可采用在对所述汇总距离序列进行排序后的结果中,选取排名靠前的nr个样本,所起作用与采用预设距离阈值进行过滤相同,对此,也应理解为本申请的创造精神所应涵盖的范围,本领域技术人员应当知晓。
本实施例中,基于欧氏距离算法确定特征中心距离,筛选出与有标签样本向量距离相对较远的无标签样本作为待标注样本。同样,其目的也是为了筛选与有标签样本在语义空间尽量分散的重要样本。但是此处计算对象是无标签样本与有标签样本的类中心距离,并选取距离所有类中心向量较远的无标签样本的距离值,作为排序的分数,在此基础上进行待标注样本的优选,进一步加强了样本多样性的筛选意图。
请参阅图6,扩展的实施例中,本申请的训练样本排查方法,还包括如下后置步骤:
步骤S1500、获取所述待标注样本相对应的人工标签,使该待标注样本转换为有标签样本:
请结合图7所示,本申请前述各实施例所确定出的待标注样本,可予以在所述训练数据集中标注出来,或者转移到另一存储空间中,以供调用。
后续,可由专家对所述的待标注样本进行人工标注,从而使所述待标注样本获得相对应的监督标签,成为有标签样本。为了将这些重新标注的有标签样本用于实施对新的神经网络模型的训练,可对这部分有标签样本进行调用。
步骤S1600、合并由待标注样本转换而来的有标签样本及所述训练数据集中的有标签样本构成第二训练数据集:
所述的待标注样本经人工标注成为有标签样本后,便可与所述训练数据集中原有的有标签样本进行合流,从而获得一个全部由有标签样本构成的第二训练数据集,用于对新的神经网络模型实例的训练。当然,适应该新的神经网络模型实例的训练方式所需,也可进一步在第二训练数据集中包含其他训练样本,例如适应半监督学习的需要而进一步包括原来的其他无标签样本。
步骤S1700、启用训练任务,调用所述第二训练数据集用于对所述分类模型重启微调训练,使该分类模型被训练至收敛状态:
获得所述的第二训练数据集后,便可启用针对新的神经网络模型实例的训练任务,对其实施训练,采用该第二训练数据集中的训练样本将该神经网络模型实例训练至收敛状态,获得新的神经网络模型。典型的应用实例中,所述新的神经网络模型,可以是对所述分类模型实施微调训练,也可以是对所述分类模型的新实例进行训练,由此,可使该分类模型的特征泛化能力在本申请的技术方案所制备的有标签样本的帮助得到显著的提升。当然,所述的第二训练数据集也可用于其他不同任务的神经网络模型的训练。
本实施例中,实现对本申请所排查优选并经人工标注的训练样本的循环利用,体现了数据挖掘的价值,进一步论证本申请的技术方案可以实现对训练样本的高效筛选,且有助于提升经其训练的神经网络模型的特征泛化能力,使模型更易被训练至收敛,从而节省训练成本。
在本申请示例的电子商务应用场景中,采用本申请的技术方案用于优选出无标签样本,在经人工标注后获得第二训练数据集,在第二训练数据集的基础上再对用于为商品对象进行分类的分类模型实施训练,可以获得分类准确度更高的分类模型,能够基于商品对象的图片和/或文本更快速高效地为电子商务平台中的商品对象确定分类标签,弱化不同电子商务平台分类体系中最低层级的细分类目中作为训练样本的商品数据数量不均的不良影响。
请参阅图8,适应本申请的目的之一而提供的一种训练样本排查装置,是对本申请的训练样本排查方法的功能化体现,该装置包括:基础化模块1100、粗召回模块1200、次召回模块1300,以及精召回模块1400,其中,所述基础化模块1100,用于采用分类模型获取训练数据集中的训练样本的特征向量及将该特征向量映射至各个分类标签生成的概率向量;所述训练样本包括有标签样本和无标签样本,所述分类模型预先以所述有标签样本训练至收敛状态,所述概率向量包含各个分类标签相对应的分类概率;所述粗召回模块1200,用于基于所述概率向量为每个无标签样本计算表征其分类不确定性的量化评分,从训练数据集中筛选出量化评分超过预设评分阈值的无标签样本构成粗召回集;所述次召回模块1300,用于根据特征向量之间的相似性,从粗召回集内与相应的有标签样本构成最相似的无标签样本集合中,筛选出其中相对不相似的无标签样本,构成次召回集;所述精召回模块1400,用于根据无标签样本的特征向量与各个分类标签相对应的类中心向量之间的相似性,从次召回集内与相应的类中心向量构成最相似的无标签样本集合中,筛选出其中相对不相似的无标签样本作为待标注样本;所述类中心向量为相同分类标签下所有有标签样本的特征向量之间的均值向量。
具体化的实施例中,所述分类模型包括:特征提取网络,用于对输入其中的训练样本提取表征其深层语义信息的特征向量;所述训练样本为图片或者文本;分类器,用于将该特征向量映射至预设的分类空间,获得相应的概率向量。
具体化的实施例中,所述粗召回模块1200,包括:信息熵计算单元,用于计算所述训练数据集中的无标签样本的信息熵;概率差计算单元,用于计算所述训练数据集中的无标签样本的概率向量中两个最大分类概率之间的概率差值;评分计算单元,用于计算所述训练数据集中每个无标签样本的所述信息熵与所述概率差值的乘积作为表征该无标签样本的分类不确定性的量化评分。
具体化的实施例中,所述粗召回模块1200,包括:相似度计算单元,用于计算所述粗召回集中每个无标签样本的特征向量与所述训练数据集中每个有标签样本的特征向量之间的余弦相似度,获得每个无标签样本相对应的单样本相似度序列,该单样本相似度序列包含与各个所述的有标签样本相对应的用于表征相似性的相似度数值;最相似过滤单元,用于对每个无标签样本相对应的相似度序列进行过滤,仅保留其中最大值的相似度数值,该最大值的相似度数值表征其相应的无标签样本与其相应的有标签样本构成最相似,将所有被保留的相似度数值构造为汇总相似度序列;低相似优选单元,用于根据预设的相似度阈值对所述汇总相似度序列中的相似度数值进行过滤,仅保留其中相似度数值低于该相似度阈值的元素,将被保留的元素相对应的无标签样本构造为次召回集。
具体化的实施例中,所述次召回模块1300,包括:分类均值化单元,用于确定每个分类标签相对应的有标签样本,将该些有标签样本的特征向量进行元素对应加和求均值,获得相对应的均值向量,作为该分类标签相对应的类中心向量;距离计算单元,用于计算所述次召回集中每个无标签样本的特征向量与各个分类标签的类中心向量之间的欧氏距离,获得每个无标签样本相对应的单样本距离序列,该单样本距离序列包含与各个所述的类中心向量相对应的用于表征相似性的距离数值;最相近过滤单元,用于对每个无标签样本相对应的单样本距离序列进行过滤,仅保留其中最小值的距离数值,该最小值的距离数值表征其相应的无标签样本与其相应的有标签样本构成最相似,将所有被保留的距离数值构造为汇总距离序列;高相近优选单元,用于根据预设的距离阈值对所述汇总距离序列中的距离数值进行过滤,仅保留其中距离数值高于该距离阈值的元素,将被保留的元素相对应的无标签样本作为待标注样本。
扩展的实施例中,本申请的训练样本排查方法,还包括:标签获取模块,用于获取所述待标注样本相对应的人工标签,使该待标注样本转换为有标签样本;数据集重构模块,用于合并由待标注样本转换而来的有标签样本及所述训练数据集中的有标签样本构成第二训练数据集;重启训练模块,用于启用训练任务,调用所述第二训练数据集用于对所述分类模型重启微调训练,使该分类模型被训练至收敛状态。
为解决上述技术问题,本申请实施例还提供计算机设备。如图9所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中,该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种训练样本排查方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行本申请的训练样本排查方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图8中的各个模块及其子模块的具体功能,存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的训练样本排查装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本申请还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本申请任一实施例的训练样本排查方法的步骤。
本申请还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。
本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等计算机可读存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本申请可以提升了训练样本的排查效率,精选在训练过程中利于提升神经网络模型的特征泛化能力的训练样本,使模型更易被训练至收敛状态,方便为电商平台的商品对象进行打标,具有广阔的应用前景。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种训练样本排查方法,其特征在于,包括如下步骤:
采用分类模型获取训练数据集中的训练样本的特征向量及将该特征向量映射至各个分类标签生成的概率向量;所述训练样本包括有标签样本和无标签样本,所述分类模型预先以所述有标签样本训练至收敛状态,所述概率向量包含各个分类标签相对应的分类概率;
基于所述概率向量为每个无标签样本计算表征其分类不确定性的量化评分,从训练数据集中筛选出量化评分超过预设评分阈值的无标签样本构成粗召回集;
根据特征向量之间的相似性,从粗召回集内与相应的有标签样本构成最相似的无标签样本集合中,筛选出其中相对不相似的无标签样本,构成次召回集;
根据无标签样本的特征向量与各个分类标签相对应的类中心向量之间的相似性,从次召回集内与相应的类中心向量构成最相似的无标签样本集合中,筛选出其中相对不相似的无标签样本作为待标注样本;所述类中心向量为相同分类标签下所有有标签样本的特征向量之间的均值向量。
2.根据权利要求1所述的训练样本排查方法,其特征在于,所述分类模型执行如下步骤:
对输入其中的训练样本提取表征其深层语义信息的特征向量;所述训练样本为图片或者文本;
将该特征向量映射至预设的分类空间,获得相应的概率向量。
3.根据权利要求1所述的训练样本排查方法,其特征在于,基于所述概率向量为每个无标签样本计算表征其分类不确定性的量化评分,包括如下步骤:
计算所述训练数据集中的无标签样本的信息熵;
计算所述训练数据集中的无标签样本的概率向量中两个最大分类概率之间的概率差值;
计算所述训练数据集中每个无标签样本的所述信息熵与所述概率差值的乘积作为表征该无标签样本的分类不确定性的量化评分。
4.根据权利要求1所述的训练样本排查方法,其特征在于,根据特征向量之间的相似性,从所述粗召回集内与相应的有标签样本构成最相似的无标签样本集合中,筛选出其中相对不相似的无标签样本,构成次召回集,包括如下步骤:
计算所述粗召回集中每个无标签样本的特征向量与所述训练数据集中每个有标签样本的特征向量之间的余弦相似度,获得每个无标签样本相对应的单样本相似度序列,该单样本相似度序列包含与各个所述的有标签样本相对应的用于表征相似性的相似度数值;
对每个无标签样本相对应的相似度序列进行过滤,仅保留其中最大值的相似度数值,该最大值的相似度数值表征其相应的无标签样本与其相应的有标签样本构成最相似,将所有被保留的相似度数值构造为汇总相似度序列;
根据预设的相似度阈值对所述汇总相似度序列中的相似度数值进行过滤,仅保留其中相似度数值低于该相似度阈值的元素,将被保留的元素相对应的无标签样本构造为次召回集。
5.根据权利要求1所述的训练样本排查方法,其特征在于,根据无标签样本的特征向量与各个分类标签相对应的类中心向量之间的相似性,从所述次召回集内与相应的类中心向量构成最相似的无标签样本集合中,筛选出其中相对不相似的无标签样本作为待标注样本,包括如下步骤:
确定每个分类标签相对应的有标签样本,将该些有标签样本的特征向量进行元素对应加和求均值,获得相对应的均值向量,作为该分类标签相对应的类中心向量;
计算所述次召回集中每个无标签样本的特征向量与各个分类标签的类中心向量之间的欧氏距离,获得每个无标签样本相对应的单样本距离序列,该单样本距离序列包含与各个所述的类中心向量相对应的用于表征相似性的距离数值;
对每个无标签样本相对应的单样本距离序列进行过滤,仅保留其中最小值的距离数值,该最小值的距离数值表征其相应的无标签样本与其相应的有标签样本构成最相似,将所有被保留的距离数值构造为汇总距离序列;
根据预设的距离阈值对所述汇总距离序列中的距离数值进行过滤,仅保留其中距离数值高于该距离阈值的元素,将被保留的元素相对应的无标签样本作为待标注样本。
6.根据权利要求1至5中任意一项所述的训练样本排查方法,其特征在于,还包括如下后置步骤:
获取所述待标注样本相对应的人工标签,使该待标注样本转换为有标签样本;
合并由待标注样本转换而来的有标签样本及所述训练数据集中的有标签样本构成第二训练数据集;
启用训练任务,调用所述第二训练数据集用于对所述分类模型重启微调训练,使该分类模型被训练至收敛状态。
7.一种训练样本排查装置,其特征在于,包括:
基础化模块,用于采用分类模型获取训练数据集中的训练样本的特征向量及将该特征向量映射至各个分类标签生成的概率向量;所述训练样本包括有标签样本和无标签样本,所述分类模型预先以所述有标签样本训练至收敛状态,所述概率向量包含各个分类标签相对应的分类概率;
粗召回模块,用于基于所述概率向量为每个无标签样本计算表征其分类不确定性的量化评分,从训练数据集中筛选出量化评分超过预设评分阈值的无标签样本构成粗召回集;
次召回模块,用于根据特征向量之间的相似性,从粗召回集内与相应的有标签样本构成最相似的无标签样本集合中,筛选出其中相对不相似的无标签样本,构成次召回集;
精召回模块,用于根据无标签样本的特征向量与各个分类标签相对应的类中心向量之间的相似性,从次召回集内与相应的类中心向量构成最相似的无标签样本集合中,筛选出其中相对不相似的无标签样本作为待标注样本;所述类中心向量为相同分类标签下所有有标签样本的特征向量之间的均值向量。
8.一种计算机设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至6中任意一项所述的方法的步骤。
9.一种计算机可读存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至6中任意一项所述的方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行相应的方法所包括的步骤。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至6任意一项中所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111636144.2A CN114282622A (zh) | 2021-12-29 | 2021-12-29 | 训练样本排查方法及其装置、设备、介质、产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111636144.2A CN114282622A (zh) | 2021-12-29 | 2021-12-29 | 训练样本排查方法及其装置、设备、介质、产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114282622A true CN114282622A (zh) | 2022-04-05 |
Family
ID=80877934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111636144.2A Pending CN114282622A (zh) | 2021-12-29 | 2021-12-29 | 训练样本排查方法及其装置、设备、介质、产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114282622A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117150026A (zh) * | 2023-11-01 | 2023-12-01 | 智者四海(北京)技术有限公司 | 文本内容多标签分类方法与装置 |
WO2024107112A1 (en) * | 2022-11-14 | 2024-05-23 | Nanyang Technological University | System and method for unsupervised few-shot adaptive relearning of a deep learning neural network |
-
2021
- 2021-12-29 CN CN202111636144.2A patent/CN114282622A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024107112A1 (en) * | 2022-11-14 | 2024-05-23 | Nanyang Technological University | System and method for unsupervised few-shot adaptive relearning of a deep learning neural network |
CN117150026A (zh) * | 2023-11-01 | 2023-12-01 | 智者四海(北京)技术有限公司 | 文本内容多标签分类方法与装置 |
CN117150026B (zh) * | 2023-11-01 | 2024-01-26 | 智者四海(北京)技术有限公司 | 文本内容多标签分类方法与装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190156122A1 (en) | Intelligent digital image scene detection | |
US11587234B2 (en) | Generating class-agnostic object masks in digital images | |
US20230102337A1 (en) | Method and apparatus for training recommendation model, computer device, and storage medium | |
CN110297935A (zh) | 图像检索方法、装置、介质及电子设备 | |
EP2551792B1 (en) | System and method for computing the visual profile of a place | |
US20230205813A1 (en) | Training Image and Text Embedding Models | |
CN109471978B (zh) | 一种电子资源推荐方法及装置 | |
CN114282622A (zh) | 训练样本排查方法及其装置、设备、介质、产品 | |
WO2024051609A1 (zh) | 广告创意数据选取方法及装置、模型训练方法及装置、设备、存储介质 | |
CN113918554A (zh) | 商品数据清洗方法及其装置、设备、介质、产品 | |
CN111159485A (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN108959304B (zh) | 一种标签预测方法及装置 | |
WO2023024413A1 (zh) | 信息的匹配方法、装置、计算机设备及可读存储介质 | |
CN113792786A (zh) | 商品对象自动分类方法及其装置、设备、介质、产品 | |
CN113989577B (zh) | 图像分类方法及装置 | |
CN114862480A (zh) | 广告投放定向方法及其装置、设备、介质、产品 | |
CN115099854A (zh) | 广告文案创作方法及其装置、设备、介质、产品 | |
CN115129913A (zh) | 敏感词挖掘方法及其装置、设备、介质 | |
JP5973309B2 (ja) | 配信装置及びコンピュータプログラム | |
CN116823404A (zh) | 商品组合推荐方法及其装置、设备、介质 | |
CN116029793A (zh) | 商品推荐方法及其装置、设备、介质 | |
CN115129902B (zh) | 媒体数据处理方法、装置、设备及存储介质 | |
CN113239215B (zh) | 多媒体资源的分类方法、装置、电子设备及存储介质 | |
CN114782142A (zh) | 商品信息匹配方法及其装置、设备、介质、产品 | |
CN113806536B (zh) | 文本分类方法及其装置、设备、介质、产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |