CN117763360A - 基于深度神经网络的训练集快速分析方法及电子设备 - Google Patents
基于深度神经网络的训练集快速分析方法及电子设备 Download PDFInfo
- Publication number
- CN117763360A CN117763360A CN202410195936.8A CN202410195936A CN117763360A CN 117763360 A CN117763360 A CN 117763360A CN 202410195936 A CN202410195936 A CN 202410195936A CN 117763360 A CN117763360 A CN 117763360A
- Authority
- CN
- China
- Prior art keywords
- samples
- sample
- intention
- representing
- training set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 128
- 238000004458 analytical method Methods 0.000 title claims abstract description 27
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 25
- 238000009826 distribution Methods 0.000 claims abstract description 101
- 239000013598 vector Substances 0.000 claims abstract description 87
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000004140 cleaning Methods 0.000 claims abstract description 30
- 230000006870 function Effects 0.000 claims description 39
- 239000011159 matrix material Substances 0.000 claims description 30
- 230000009467 reduction Effects 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 6
- 241000393496 Electra Species 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 2
- 238000005295 random walk Methods 0.000 claims description 2
- 230000017105 transposition Effects 0.000 claims 1
- 239000000463 material Substances 0.000 abstract description 6
- 239000000523 sample Substances 0.000 description 119
- 230000000694 effects Effects 0.000 description 9
- 238000013461 design Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000012847 principal component analysis method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000003749 cleanliness Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本申请公开了一种基于深度神经网络的训练集快速分析方法及电子设备,包括:采用预训练语言模型对训练集进行训练得到文本特征向量提取器与文本意图分类器;根据文本意图分类器对训练集进行意图预测得到若干对混淆意图对;文本特征向量提取器分别生成若干对混淆意图对的256维特征向量并降维为2维特征向量;将2维特征向量制作散点分布图并均匀等分划分为若干簇;抽取若干簇内一定比例样本进行清洗实现训练集快速分析,本方法将意图间存在数据混淆的情况的数据收集整理,并且只通过具有代表性的一定比例样本的清洗就可以完成整个训练集的清洗,可以节省人力物力,提高工作效率,并且清洗后的训练集的准确性高。
Description
技术领域
本申请涉及文本数据处理技术领域,具体为一种基于深度神经网络的训练集快速分析方法及电子设备。
背景技术
在实际语境下基于淘宝平台设计对话机器人的通常方式是:根据平台用户的实际需要设计若干意图,对于每个意图收集若干语料构造模型的训练集,之后利用训练集进行模型训练,那么模型就具有了用户信息理解能力,即:对于用户发来的信息模型可以识别出对应的意图,然后两者进行交互。
模型的意图识别能力直接影响对话机器人的效果,而模型的意图识别能力在很大程度上取决于训练集的干净程度,训练集的干净程度指的是:不同意图间的样本不存在混淆,一种句式结构只存在于一个意图下。如果训练集中两个意图的语料是混淆的,那么在意图识别时就会出现两个意图胡乱识别的问题,极大的降低了对话机器人的效果。为了提升模型的意图识别能力就需要训练集的样本足够干净准确,一个意图下不要出现其他意图的样本或者是其他意图的句式且不要出现什么意图也不算的样本。
对于训练集的准确性,我们要求意图的定义足够丰富与准确,意图之间存在明显的界限,一种句式结构不要同时存在于多个意图下。在真实对话语料中用户提供的对话其实很复杂,用户可能会一句话包含很多信息,所以意图定义如果过于理想化,意图范围太狭窄就会出现大量的用户语料无法识别的情况,从而造成对话机器人的识别能力不足,为了丰富意图的定义需要对于训练集的数据进行整理分类从而明确丰富意图定义的边界。
为了实现上述目的需要对于训练集进行清洗,但是在实际情况中,训练集的样本量往往达到百万级甚至千万级,如果对于训练集样本逐条清洗,过于耗费人力物力,如果只随机抽取部分样本进行清洗,由于一个意图下的样本句式结构不唯一,随机抽取的样本很难代表一个意图下所有的句式结构,从而达不到训练集清洗的目的。所以一种快速且准确的训练集清洗整理的方法,可以节省人力物力,提高工作效率,并且清洗后的训练集的准确性高。
发明内容
本申请提供一种基于深度神经网络的训练集快速分析方法及电子设备,是一种快速且准确的训练集清洗整理的方法和电子设备,可以节省人力物力,提高工作效率,并且清洗后的训练集的准确性高。
本申请解决其技术问题所采用的技术方案是:一种基于深度神经网络的训练集快速分析方法,包括:
S1:采用预训练语言模型对训练集进行训练得到文本特征向量提取器与文本意图分类器;
S2:根据S1中的文本意图分类器对训练集进行意图预测得到若干对混淆意图对,所述混淆意图对为预测错误的样本中占比在阈值范围内的意图与真实意图组成;
S3:根据S1中的文本特征向量提取器分别生成S2中得到的若干对混淆意图对的256维特征向量并降维为2维特征向量;
S4:将S3中得到的2维特征向量制作散点分布图并均匀等分划分为若干簇;
S5:抽取若干簇内一定比例样本进行清洗实现训练集快速分析。
本基于深度神经网络的训练集快速分析方法,将意图间存在数据混淆的情况的数据收集整理,并且只通过具有代表性的一定比例样本的清洗就可以完成整个训练集的清洗,可以节省人力物力,提高工作效率,并且清洗后的训练集的准确性高。
作为优选,预训练语言模型采用Adam算法训练ELECTRA模型得到,预训练语言模型结合交叉熵损失函数和对比学习损失函数共同作为损失函数对训练集进行训练,利用ELECTRA模型对训练集样本进行训练,学习每个意图文本的向量分布以及意图分类器,由此得到了文本特征向量提取器,本文训练模型的主要目的是为了学习意图文本的真正向量分布,从而方便后续基于向量分布查找相似样本,传统方法采用交叉熵作为损失函数进行训练,这种方法只能学习到不同意图间的句式区别,但不能学习到意图下文本真正的向量分布,所以只通过该损失函数训练的模型生成的特征向量无法完全理解该文本的真正含义。而且当前训练文本特征向量提取器的主要目的是为了利用这些特征向量画分布图,方便后续划分相似簇,尽可能要求在分布上相近的样本是句子十分相似的样本。为了达到这个目的,本文在交叉熵基础上添加对比学习一起作为损失函数进行训练,对比学习可以在训练过程中使同类样本在分布上聚集,不同类样本在分布上远离,在文本向量中添加意图信息,从而提高文本向量的学习效果。
作为优选,损失函数为交叉熵损失函数和对比学习损失函数的和,对比学习损失函数通过cos余弦来计算文本特征向量的相似度,通过对比学习损失函数实现同意图类别的样本在分布上接近,不同意图类別的样本在分布上远离,损失函数计算公式如下:
,
,
,
其中,LCE是交叉熵损失函数,Lscl是对比学习损失函数,L是损失函数,N代表样本总数,K代表意图类别总数Si代表样本i的特征向量矩阵,对应的维度是[d,1],yi代表样本i的意图类别,wj代表样本i的意图类别j的向量权重矩阵,对应的维度是[d,1],wyi代表样本i的意图类別yi的向量权重矩阵,对应的维度是[d,1],T代表矩阵转置,wT yi代表对样本i的意图类別yi的向量权重矩阵进行转置,对应的维度是[1,d],wT j代表对样本i的意图类別j的向量权重矩阵进行转置,对应的维度是[1,d],是两个矩阵向量相乘,代表样本i属于意图类別yi的得分,得到一个数值,/>代表和样本i意图类别相同的样本集合,/>代表该集合内的样本数目,/>代表除i样本之外的样本集合,/>代表样本/>的特征向量矩阵,对应的维度是[d,1],/>代表样本/>的特征向量矩阵,对应的维度是[d,1],ST i 代表对样本i的特征向量矩阵进行转置,对应的维度是[1,d],/>是样本i和样本/>的特征向量进行相乘运算 ,得到一个数值,代表样本i和样本/>的相似度,/> 是样本i和样本/>的特征向量进行相乘运算 ,得到一个数值,代表样本i和样本/>的相似度,/>为温度系数,为超参数,需人工设置,/>是样本i和样本/>特征向量矩阵相乘除以温度系数得到一个数值,/>是样本i和样本/>特征向量矩阵相乘除以温度系数得到一个数值,/>为超参数,需人工设置。
作为优选,由于现实环境下用户的需求多种多样,为了让对话机器人能够更好的满足用户的需求,我们会根据现实的用户需求设计几百个意图,比如:活动相关意图,物流相关意图,退货退款相关意图等,在这些意图中有些意图之间本身就不存在任何混淆的可能,比如说:发货时间和优惠券使用方法,这两个意图间无论是定义还是语料完全毫不相关,不会出现将一个发货时间相关的问题识别到优惠券使用方法意图,所以对于整个训练集并不是所有意图间都存在数据混淆的问题,也就是说不用对于整个训练集的所有意图进行训练集的清洗,所以为了减少工作量,只需要找出现有数据集中哪些意图间存在数据混淆的情况,只针对这些混淆意图的样本进行重点数据清洗,具体操作方法通过第一步训练得到的意图分类器来完成,具体的混淆意图对生成过程如下:
S21:利用S1中的意图分类器对训练集中的所有样本进行预测得到每句文本对应的预测意图;
S22:将每句文本的真实意图与预测意图进行对比,统计预测错误的文本;
S23:从每句文本的真实意图出发统计预测错误样本中意图占比最大的一个意图;
S24:将预测错误样本中占比最大的意图与真实意图作为混淆意图对。
作为优选,传统的降维方法是主成分分析,这种方法存在一个缺点就是降维后样本无法保持原始样本的局部特征,即:原始相近样本降维后依然相近,原始远离样本降维后依然远离,由于主成分分析方法不能解释各个维度特征之间的复杂多项式关系,导致降维后的样本丧失了原始状态下样本间的相互关系,但是本申请希望分布图能够维持高维状态下样本的相互关系,在高维状态下相近的样本在2维状态下依然相近,在高维状态下远离的样本在2维状态下依然远离。因此,采用t分布随机邻域嵌入的方法将256维向量转化为2维向量分布,将样本间的距离转化为概率分布,基于在样本的邻域图上随机游走的概率分布来找出数据内的结构模式,从而维持降维前后样本的相关关系,降维前后的概率分布尽可能接近。
作为优选,高维样本通过欧氏距离计算得到每对样本之间的距离,距离越远的样本有越小的相似度值,距离越近的样本有越大的相似度值,将样本点之间的高维度欧式距离转换为表示相似性的条件概率,利用高斯分布来完成概率转换,公式如下:,其中,/>代表样本j关于样本i的条件概率,xi是样本i的高维特征向量,/>代表样本i和样本j的欧氏距离,σi代表以样本i为中心的样本分布的高斯方差;
通过上述公式计算出来以每个样本为中心的条件概率;
在计算中以当前样本为中心,得到其他样本关于当前样本的条件概率,我们最关心的是条件概率中涉及到的范围也即高斯方差σi,由于有些样本的周围样本是稀疏的,有些样本的周围样本是稠密的,因此高斯方差的大小也不同;
因此这里通过困惑度来确定当前样本的高斯方差,困惑度的计算公式如下:
,其中/>是香农熵,计算公式如下:,其中,pi是样本i的概率,高斯方差σi越大,也即中心点周围划定的范围越大,那么其他点出现的条件概率的熵越大,那么困惑度也越大,困惑度可以被解释为一个点周围有效近邻点的数目。困惑度的值由用户自己指定,典型值在5和50之间。
作为优选,对于低维样本,和高维样本的计算一样,同样本间的欧氏距离转换为表示相似性的条件概率,在这里利用t分布来衡量低维空间中数据点之间的相似度,t分布在视觉上看起来和高斯分布很像,但是在尾部通常更胖,这意味着数据拥有更高的可变性,由于t分布更重视长尾分布,用这方法在低维空间中更有利于区分那些在高维空间距离较近的点,因为它允许低维空间的较远的样本之间保持较大的距离,这一特点对减轻所谓的“拥挤问题”至关重要,即在降维过程中,不同的数据点可能会不合理地聚集在一起,t分布公式如下:
,其中,yi和yj分别代表样本i和样本j的高维特征向量在低维空间上对应的低维特征向量,要求降维前后对应样本点的概率分布尽可能接近,利用KL散度衡量两者概率分布的相似程度,公式如下:/>,其中,N代表样本总数,pij代表高维空间样本i和样本j的联合概率分布,qij代表低维空间样本i和样本j的联合概率分布。
作为优选,通过上述找到了哪些意图的训练集数据是需要清洗的,将降维后的2维特征向量在平面图上画散点分布图,大部分样本都是正确样本,在分布上存在明显的界限,不存在样本点混淆的情况,只有少部分样本存在混淆现象,因此需要通过散点分布图找出这些混淆的样本,为了找出这些样本,由散点分布图的x/y轴的节点坐标出发画水平竖直的分割线,将散点分布图划分为若干格,对这些分割出来的格观察可以发现,有些格内只有一个意图的样本,这些样本属于干净样本不存在任何混淆现象,有些格内有2个意图的样本,这就说明这些格内的样本存在混淆现象,这些就是我们需要清洗的,每个格内的样本为一个簇,每个簇内的样本都是非常相似的,我们对每个簇内的样本随机抽取10%的样本进行清洗,这样所有抽取的样本可以保证包含意图下的所有句式结构,剩余的没有被抽取的样本直接选择抽取样本中与之最相似的样本的清洗结果作为该样本的清洗结果。
一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如上述中任一项所述的基于深度神经网络的训练集快速分析方法。
本申请的实质性效果是:
(1)本基于深度神经网络的训练集快速分析方法,将意图间存在数据混淆的情况的数据收集整理,并且只通过具有代表性的一定比例样本的清洗就可以完成整个训练集的清洗,可以节省人力物力,提高工作效率,并且清洗后的训练集的准确性高;
(2)本基于深度神经网络的训练集快速分析方法利用ELECTRA模型对训练集样本进行训练,学习每个意图文本的向量分布以及意图分类器,由此得到了文本特征向量提取器,学习意图文本的真正向量分布,从而方便后续基于向量分布查找相似样本;
(3)本基于深度神经网络的训练集快速分析方法不采用传统交叉熵作为损失函数进行训练,在交叉熵基础上添加对比学习一起作为损失函数进行训练,对比学习可以在训练过程中使同类样本在分布上聚集,不同类样本在分布上远离,在文本向量中添加意图信息,从而提高文本向量的学习效果;
(4)本基于深度神经网络的训练集快速分析方法将256维的向量表示降低维度为2维向量的降维方法能够使得降维后样本依旧保持原始样本的局部特征,维持样本的相互关系,相近的样本在2维状态下依然相近,远离的样本在2维状态下依然远离;
(5)本基于深度神经网络的训练集快速分析方法利用散点分布图找出这混淆点进行清洗,进一步减少人工的工作量;
(6)本基于深度神经网络的训练集快速分析方法将样本划分为了若干簇,每个簇内的样本都是相似的,对每个簇内的样本随机抽取10%的样本,这样所有抽取的样本可以保证包含意图下的所有句式结构,剩余的没有被抽取的样本直接选择抽取样本中与之最相似的样本的清洗结果作为该样本的清洗结果。
附图说明
图1是本申请实施例一中的散点分布图;
图2是本申请实施例一中的散点分布图的划分簇示意图;
图3是本申请实施例二中的散点分布图;
图4是本申请实施例一中的散点分布图的划分簇示意图。
具体实施方式
下面通过具体实施例,对本申请的技术方案作进一步的具体说明。
实施例一
一种基于深度神经网络的训练集快速分析方法,包括:
S1:采用预训练语言模型对训练集进行训练得到文本特征向量提取器与文本意图分类器,文本特征向量提取器与文本意图分类器主要是为了后面步骤准备,在实际环境下模型接收的是中文语料,但是不能直接对中文文本进行处理,需要将中文文本转化为向量表示,之后对于这个文本向量进行意图分类或者文本相似度计算。所以我们需要基于训练集的样本训练一个文本特征向量提取器,要求该提取器生成的特征向量更好的满足当前任务的需求,从而完成后续任务。传统的方法往往利用BERT预训练语言模型进行训练,但是BERT模型过于庞大,训练起来耗时耗力,而且对于训练设备有更高的要求。为了提高处理速度,节约成本,预训练语言模型采用Adam算法训练ELECTR模型得到,模型生成256维特征向量,减少了BERT模型的维度,从而减少了一定的计算资源消耗,将BERT模型的MLM多分类任务转化为RTD二分类任务,就是将输入文本的部分位置的字符进行替换,训练模型判断当前文本是否进行过替换操作,这样就把一个多分类任务转化为了一个二分类任务,大大减少了模型计算的复杂度,从而提高了模型的训练速度。
预训练语言模型结合交叉熵损失函数和对比学习损失函数共同作为损失函数对训练集进行训练,损失函数为交叉熵损失函数和对比学习损失函数的和,损失函数通过cos余弦来计算文本特征向量的相似度,通过损失函数实现同意图类别的样本在分布上接近,不同意图类別的样本在分布上远离,在文本向量中添加意图信息,从而提高文本向量的学习效果,损失函数计算公式如下:
,
,
,
其中,LCE是交叉熵损失函数,Lscl是对比学习损失函数,L是损失函数,N代表样本总数,K代表意图类别总数,Si代表样本i的特征向量矩阵,对应的维度是[d,1],yi代表样本i的意图类别,wj代表样本i的意图类别j的向量权重矩阵,对应的维度是[d,1],wyi代表样本i的意图类別yi的向量权重矩阵,对应的维度是[d,1],T代表矩阵转置,wT yi代表对样本i的意图类別yi的向量权重矩阵进行转置,对应的维度是[1,d],wT j代表对样本i的意图类別j的向量权重矩阵进行转置,对应的维度是[1,d],是两个矩阵向量相乘,代表样本i属于意图类別yi的得分,得到一个数值,/>代表和样本i意图类别相同的样本集合,/>代表该集合内的样本数目,/>代表除i样本之外的样本集合,/>代表样本/>的特征向量矩阵,对应的维度是[d,1],/>代表样本/>的特征向量矩阵,对应的维度是[d,1],ST i 代表对样本i的特征向量矩阵进行转置,对应的维度是[1,d],/>是样本i和样本/>的特征向量进行相乘运算 ,得到一个数值,代表样本i和样本/>的相似度,/> 是样本i和样本/>的特征向量进行相乘运算 ,得到一个数值,代表样本i和样本/>的相似度,/>为温度系数,为超参数,需人工设置,温度系数作为一个超参数,需要根据实际问题自己设置,它的主要作用是控制模型对于不同类样本的区分度,如果设置的过大会使得模型对于所有不同类样本一视同仁,导致模型对于不同类样本缺乏关注度,如果设置的过小会使得模型过于关注不同类的样本,导致模型的泛化能力变差,
是样本i和样本/>特征向量矩阵相乘除以温度系数得到一个数值,是样本i和样本/>特征向量矩阵相乘除以温度系数得到一个数值,/>为超参数,需要根据实际问题自己设置,它控制了两种损失函数在总损失函数中的权重;
S2:由于现实环境下用户的需求多种多样,为了让对话机器人能够更好的满足用户的需求,我们会根据现实的用户需求设计几百个意图,比如:活动相关意图,物流相关意图,退货退款相关意图等,在这些意图中有些意图之间本身就不存在任何混淆的可能,比如说:发货时间和优惠券使用方法,这两个意图间无论是定义还是语料完全毫不相关,不会出现将一个发货时间相关的问题识别到优惠券使用方法意图,所以对于整个训练集并不是所有意图间都存在数据混淆的问题,也就是说不用对于整个训练集的所有意图进行训练集的清洗,所以为了减少工作量,只需要找出现有数据集中哪些意图间存在数据混淆的情况,只针对这些混淆意图的样本进行重点数据清洗,具体操作方法通过S1训练得到的意图分类器来完成,根据文本意图分类器对训练集进行意图预测得到若干对混淆意图对,所述混淆意图对为预测错误的样本中占比在阈值范围内的意图与真实意图组成,混淆意图对生成过程如下:
S21:利用S1中的意图分类器对训练集中的所有样本进行预测得到每句文本对应的预测意图;
S22:将每句文本的真实意图与预测意图进行对比,统计预测错误的文本;
S23:从每句文本的真实意图出发统计预测错误样本中意图占比最大的一个意图;
S24:将预测错误样本中占比最大的意图与真实意图作为混淆意图对;
通过上述步骤就可以从几百个意图中找出哪些意图之间存在数据集混淆的问题,只针对这些混淆意图的数据集样本进行清洗。
举例说明,我们有一个意图为领取红包,该意图下在训练集中有1000条样本,利用第一步训练得到的意图分类器对这1000条样本进行预测得到分类器的预测意图,对这1000条样本的预测意图进行统计,发现有121条样本预测到返红包意图而没有预测到领取红包的意图,这就说明在整理训练集的时候这两个意图的训练集样本存在混淆,导致他们的数据集不干净才造成了无法正确预测的情况,所以就以这两个意图作为混淆意图对来进行后续的清洗操作。
S3:S2找出来训练集中哪些意图样本存在混淆问题,我们需要对这些样本进行清洗,传统方法就是直接人工介入逐条清洗,由于实际情况的样本量达到百万级,直接人工介入清洗过于耗时耗力,本申请为了解决该问题,采用了新的方法来获取清洗样本,获取清洗样本之前需要将若干对混淆意图对的256维特征向量并降维为2维特征向量,传统的降维方法是主成分分析,这种方法存在一个缺点就是降维后样本无法保持原始样本的局部特征,即:原始相近样本降维后依然相近,原始远离样本降维后依然远离,由于主成分分析方法不能解释各个维度特征之间的复杂多项式关系,导致降维后的样本丧失了原始状态下样本间的相互关系,但是本申请的主要目的就是希望分布图能够维持高维状态下样本的相互关系,在高维状态下相近的样本在2维状态下依然相近,在高维状态下远离的样本在2维状态下依然远离。
综上,本申请的降维方法包括:采用t分布随机邻域嵌入的方法将256维向量转化为2维向量分布,将样本间的距离转化为概率分布,基于在样本的邻域图上随机游走的概率分布来找出数据内的结构模式,从而维持降维前后样本的相关关系,降维前后的概率分布尽可能接近。
具体的,高维样本通过欧氏距离计算得到每对样本之间的距离,距离越远的样本有越小的相似度值,距离越近的样本有越大的相似度值,将样本点之间的高维度欧式距离转换为表示相似性的条件概率,利用高斯分布来完成概率转换,公式如下:,其中,/>代表样本j关于样本i的条件概率,xi是样本i的高维特征向量,/>代表样本i和样本j的欧氏距离,σi代表以样本i为中心的样本分布的高斯方差;
通过上述公式计算出来以每个样本为中心的条件概率。
在计算中以当前样本为中心,得到其他样本关于当前样本的条件概率,我们最关心的是条件概率中涉及到的范围也即高斯方差σi。由于有些样本的周围样本是稀疏的,有些样本的周围样本是稠密的,因此高斯方差的大小也不同,这里通过困惑度来确定当前样本的高斯方差σi,困惑度的计算公式如下:
,/>是香农熵,计算公式如下:,pi是样本i的概率;高斯方差σi越大,也即中心点周围划定的范围越大,那么其他点出现的条件概率的熵越大,那么困惑度也越大。困惑度可以被解释为一个点周围有效近邻点的数目。困惑度的值由用户自己指定,典型值在5和50之间。
低维样本同高维样本将样本间的欧氏距离转换为表示相似性的条件概率,在这里利用t分布来衡量低维空间中数据点之间的相似度,t分布在视觉上看起来和高斯分布很像,但是在尾部通常更胖,这意味着数据拥有更高的可变性,由于t分布更重视长尾分布,用这方法在低维空间中更有利于区分那些在高维空间距离较近的点,因为它允许低维空间的较远的样本之间保持较大的距离。这一特点对减轻所谓的“拥挤问题”至关重要,即在降维过程中,不同的数据点可能会不合理地聚集在一起,公式如下:
,其中,yi和yj分别代表样本i和样本j的高维特征向量在低维空间上对应的低维特征向量,利用KL散度衡量两者概率分布的相似程度,公式如下:,其中,N代表样本总数,pij代表高维空间样本i和样本j的联合概率分布,qij代表低维空间样本i和样本j的联合概率分布。
通过上述方式,将256维的向量表示降低维度为2维向量表示。
举例而言,对于一句文本:什么时候发货?利用S1中训练得到的文本特征向量提取器将该文本转化为256维的向量表示:[-0.14,-0.3,-4.6,……,3.44,5.5],然后将这个256维的向量表示转化为2维向量表示如下:[3,4]。
S4:将S3中得到的2维特征向量制作散点分布图并均匀等分划分为若干簇,通过上述步骤找到了哪些意图的训练集数据是需要清洗的,并将样本的256维向量降维至2维,然后将这些二维向量的样本点在平面图上进行展示,这些混淆意图的样本可能80%的样本本身就是正确的,我们只需要找出样本中存在混淆的样本进行清洗就可以了,这样可以大大减少人工清洗的工作量,那么意图下哪些样本存在混淆,哪些样本是正确的,我们可以通过这些样本的二维平面分布图直观的看出来。通过上一步得到的每个文本的二维向量点,利用画图工具将混淆意图样本的二维向量以点的形式呈现在平面图上,将不同意图的点以不同的形状展示,方便进行区分。
如图1所示,通过训练样本混淆意图统计发现意图A与意图B属于混淆意图对,将这些样本的256维特征向量降至2维画分布图,圆形点是意图A的样本,三角形点是意图B的样本,通过观察可以发现有些样本点在分布上是紧挨在一起的,有些样本点在分布上是远离的,这说明句子结构相似的样本在分布上让他们的距离更近了,不相似的样本在分布上让他们的距离更远了。这是因为在训练模型时添加了对比学习使得同意图下的样本分布更聚集,不同意图下的样本分布远离,然后进行高维向量降维到2维的时候维持了高维状态下样本间的相互关系,所以在二维平面分布图上,聚集在一起的样本就是句子本身非常相似的样本,分离分布的样本就是句子本身就不相似的样本。比如:什么时候发货,今天什么时候发货,大概什么时候发货,这三句话本身就非常相似,所以在平面分布图上这三句话的样本点就会紧挨在一起,而包裹没有收到这句话和那三句话一点都不相似,在平面分布图上这一句话的样本点就会和那三句话的样本点在分布上远离。
通过观察可以发现意图A和意图B的样本在整体分布上存在明显的界限,意图A的样本分布在下面,意图B的样本分布在上面,但是在中间部分两类意图的样本混杂在一起,以及部分圆形点混杂在三角形点中,这些样本就是要清洗的训练样本,而其他的样本点,比如左下角的点和右上角的点本身就不存在任何混淆,完全没有清洗的必要。
所以,我们需要利用该分布图找出这些混淆点进行清洗,那些本来就存在明显界限没有混淆的样本就不需要清洗,这样就可以进一步减少人工的工作量。
通过图1发现两个意图的部分样本在分布上是混杂在一起的,之所以会出现这个问题,是因为在现实环境下语言很复杂,谓语或者主语的改变就会导致句子本身的含义改变,从而导致这些句子属于不同的意图,那么在收集训练集语料的时候由于这些样本过于相似就会导致一不小心错误放置了这些样本。比如:东西没有收到,东西还没有收到这两句话,就因为多了一个还字就导致第一句话属于未收到货意图,第二句话属于催促快递意图。
根据图1知道大部分样本都是正确样本,在分布上存在明显的界限,不存在样本点混淆的情况,只有少部分样本存在混淆现象,我们需要通过分布图找出这些混淆的样本。
为了找出这些样本,本文通过分布图将这些样本划分为若干簇,如图2所示,具体操作如下:由图1的x/y轴的节点坐标出发画水平竖直的分割线,这些分割线可以将分布图划分为均匀等分的若干小格,每个小格内有一些样本点。对这些分割出来的小格观察可以发现,有些小格内只有一个意图的样本,这些样本属于干净样本不存在任何混淆现象,有些小格内有2个意图的样本,这就说明这些小格内的样本存在混淆现象,这些就是我们需要清洗的样本。通过上述方法将训练集内的样本划分为若干的小格,每个小格内的样本可以认为是一个簇,每个簇内的样本都是非常相似的。
S5:通过S4将样本划分为若干簇,我们知道每个簇包含哪些样本,每个样本属于那个簇,哪些簇不包含混淆样本,哪些簇包含混淆样本。每个簇内的样本在分布上聚集在一起,这些样本的句子属于相似样本,这是因为在第一步训练模型的时候引入对比学习损失函数,使得同类样本在分布上聚集,在第三步对文本向量降维时维持了样本在分布上的距离关系。
在找出了哪些样本属于混淆样本后,这时候人工介入清洗可能还是有很多样本需要清洗,工作量还是太大,由于训练集合有大量的相似样本,比如:什么时候发货,今天什么时候发货,今天下午什么时候发货,明天什么时候发货,大概是什么时候发货。这五句话在本质上属于一句话,核心就是什么时候发货,清洗的时候不需要对这5句话都进行标注,只对其中的一句话进行标注就能代表这五句话的标注结果。所以对于训练集进行清洗时,对于这些相似样本,只用抽取部分样本进行标注就能代表整个相似样本的标注结果,不需要对所有样本进行标注。
如果直接对训练集随机抽取10%的样本,可能无法包含意图下的所有句式结构,比如说通常发货时间意图下包含两种句式:什么时候发货;是否具体时间发货。如果直接随机抽取10%的样本,可能抽取的样本只有第一种句式的数据,从而丧失了第二种句式的数据。
我们将样本划分为了若干簇,每个簇内的样本都是相似的,我们对每个簇内的样本随机抽取10%的样本,这样所有抽取的样本可以保证包含意图下的所有句式结构。
我们将抽取的10%样本由人工介入进行清洗,剩余的没有被抽取的样本直接选择抽取样本中与之最相似的样本的清洗结果作为该样本的清洗结果。
综上所述,通过上述步骤就可以只对整个数据集中10%的样本清洗来完成整个数据集的清洗,这样可以大大提高工作效率。
实施例二
将本申请基于深度神经网络的训练集快速分析方法应用于淘宝平台设计对话机器人,使机器人能够根据买家发来的对话理解买家的需求。为了得到这个目的,根据买家的需求预先设计物流,快递,推荐,质量,功效,用法,价格,活动以及优惠相关意图,一共有434个意图,针对这些意图一共收集了100万的训练集。
为了使机器人更好的理解买家的需求,需要对于整个训练集进行整理,分析,清洗,保证整个训练集每个意图的数据足够干净。为了达到这个目的如果让人工直接处理100万的训练数据过于费时费力,而且有些意图的数据本身就很干净不需要进行清洗,所以就利用本申请提出的方法进行训练集的快速分析清洗。
首先利用训练的模型对于训练集的样本进行预测,统计哪些意图存在数据混淆的问题,根据文本意图分类器进行意图预测发现【配件套件单买】和【商品单卖】这两个意图错误数最多,说明这两个意图的训练数据应该很混乱,针对这两个意图的训练数据进行清洗。
然后针对混淆意图样本的分布情况进行分析,【配件套件单买】和【商品单卖】这两个意图一共9044条样本,如果直接进行人工标注还是耗费时间,如果本身是正确的样本不需要人工标注,要尽可能找出错误的样本由人工进行标注。利用本申请的降维方法画出这两个意图9044条样本的散点分布图如图3所示,圆形点是【配件套件单买】意图的样本分布点,三角形点是【商品单卖】意图的样本分布点,观察发现大部分圆形点分布在下边,大部分三角形点分布在上边,有部分圆形点混杂在三角形点中,这些混杂样本就是我们要清洗的样本。
为了找出那些圆形点和三角形点混杂的样本,将散点分布图划分簇,如图4所示,每个小格内样本都是相似样本,每个小格内如果同时存在【配件套件单买】和【商品单卖】这两个意图的样本,那么这些样本就属于混淆样本。
由于每个小格内的样本都是相似的样本,也就是说这些样本属于相同的句式,不需要对所有样本进行清洗,对每个小方格内随机抽取10%样本就可以代表小方格内的所有样本,所以从9044条样本中抽取900条样本进行标注就可以完成【配件套件单买】和【商品单卖】这两个意图的清洗,大大减少了标注量,提高了工作效率。同理其他意图也采用相同方式进行清洗。
实施例三
本申请还提供一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现实施例一或二的基于深度神经网络的训练集快速分析方法。
以上所述的实施例只是本申请的一种较佳的方案,并非对本申请作任何形式上的限制,在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。
Claims (9)
1.一种基于深度神经网络的训练集快速分析方法,其特征在于,包括:
S1:采用预训练语言模型对训练集进行训练得到文本特征向量提取器与文本意图分类器;
S2:根据S1中的文本意图分类器对训练集进行意图预测得到若干对混淆意图对,所述混淆意图对为预测错误的样本中占比在阈值范围内的意图与真实意图组成;
S3:根据S1中的文本特征向量提取器分别生成S2中得到的若干对混淆意图对的256维特征向量并降维为2维特征向量;
S4:将S3中得到的2维特征向量制作散点分布图并均匀等分划分为若干簇;
S5:抽取若干簇内一定比例样本进行清洗实现训练集快速分析。
2.根据权利要求1所述基于深度神经网络的训练集快速分析方法,其特征在于,预训练语言模型采用Adam算法训练ELECTRA模型得到,预训练语言模型结合交叉熵损失函数和对比学习损失函数共同作为损失函数对训练集进行训练。
3.根据权利要求2所述基于深度神经网络的训练集快速分析方法,其特征在于,损失函数通过对比学习实现同意图类别的样本在分布上接近,不同意图类別的样本在分布上远离,损失函数计算公式如下:
,
,
,
其中,LCE是交叉熵损失函数,Lscl是对比学习损失函数,L是损失函数,N代表样本总数,K代表意图类别总数,Si代表样本i的特征向量矩阵,对应的维度是[d,1],yi代表样本i的意图类别,wj代表样本i的意图类别j的向量权重矩阵,对应的维度是[d,1],wyi代表样本i的意图类別yi的向量权重矩阵,对应的维度是[d,1],T代表矩阵转置,wT yi代表对样本i的意图类別yi的向量权重矩阵进行转置,对应的维度是[1,d],wT j代表对样本i的意图类別j的向量权重矩阵进行转置,对应的维度是[1,d],代表和样本i意图类别相同的样本集合,/>代表该集合内的样本数目,/>代表除i样本之外的样本集合,/>代表样本/>的特征向量矩阵,对应的维度是[d,1],/>代表样本/>的特征向量矩阵,对应的维度是[d,1],ST i 代表对样本i的特征向量矩阵进行转置,对应的维度是[1,d],代表样本i和样本/>的相似度,代表样本i和样本/>的相似度,/>为温度系数,为超参数,需人工设置,/>为超参数,需人工设置。
4.根据权利要求1所述基于深度神经网络的训练集快速分析方法,其特征在于,混淆意图对生成过程如下:
S21:利用S1中的意图分类器对训练集中的所有样本进行预测得到每句文本对应的预测意图;
S22:将每句文本的真实意图与预测意图进行对比,统计预测错误的文本;
S23:从每句文本的真实意图出发统计预测错误样本中意图占比最大的一个意图;
S24:将预测错误样本中占比最大的意图与真实意图作为混淆意图对。
5.根据权利要求1所述基于深度神经网络的训练集快速分析方法,其特征在于,混淆意图对的256维特征向量降维为2维特征向量包括:采用t分布随机邻域嵌入的方法将256维向量转化为2维向量分布,将样本间的距离转化为概率分布,基于在样本的邻域图上随机游走的概率分布来找出数据内的结构模式,从而维持降维前后样本的相关关系,降维前后的概率分布接近。
6.根据权利要求5所述基于深度神经网络的训练集快速分析方法,其特征在于,高维样本通过欧氏距离计算得到每对样本之间的距离,距离越远的样本有越小的相似度值,距离越近的样本有越大的相似度值,将样本点之间的高维度欧式距离转换为表示相似性的条件概率,利用高斯分布来完成概率转换,公式如下:,其中,/>代表样本j关于样本i的条件概率,xi是样本i的高维特征向量,/>代表样本i和样本j的欧氏距离,σi代表以样本i为中心的样本分布的高斯方差;
高斯方差σi通过困惑度来确定,困惑度的计算公式如下:
,/>是香农熵,计算公式如下:/>,pi是样本i的概率。
7.根据权利要求6所述基于深度神经网络的训练集快速分析方法,其特征在于,低维样本同高维样本将样本间的欧氏距离转换为表示相似性的条件概率,利用t分布衡量低维空间中数据点之间的相似度,t分布公式如下:
,其中,yi和yj分别代表样本i和样本j的高维特征向量在低维空间上对应的低维特征向量,利用KL散度衡量两者概率分布的相似程度,公式如下:,其中,N代表样本总数,pij代表高维空间样本i和样本j的联合概率分布,qij代表低维空间样本i和样本j的联合概率分布。
8.根据权利要求7所述基于深度神经网络的训练集快速分析方法,其特征在于,将降维后的2维特征向量在平面图上画散点分布图,并由散点分布图的x/y轴的节点坐标出发画分割线,将散点分布图划分为若干格,每个格内的样本为一个簇,从每个簇内随机抽取10%样本进行清洗。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如权利要求1~8中任一项所述的基于深度神经网络的训练集快速分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410195936.8A CN117763360B (zh) | 2024-02-22 | 2024-02-22 | 基于深度神经网络的训练集快速分析方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410195936.8A CN117763360B (zh) | 2024-02-22 | 2024-02-22 | 基于深度神经网络的训练集快速分析方法及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117763360A true CN117763360A (zh) | 2024-03-26 |
CN117763360B CN117763360B (zh) | 2024-07-12 |
Family
ID=90316851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410195936.8A Active CN117763360B (zh) | 2024-02-22 | 2024-02-22 | 基于深度神经网络的训练集快速分析方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117763360B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117977814A (zh) * | 2024-03-28 | 2024-05-03 | 北京智芯微电子科技有限公司 | 智慧开关控制方法、智慧开关和智慧开关边端协同系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180358001A1 (en) * | 2017-06-12 | 2018-12-13 | International Business Machines Corporation | Method, Apparatus, and System for Conflict Detection and Resolution for Competing Intent Classifiers in Modular Conversation System |
CN110825861A (zh) * | 2019-11-05 | 2020-02-21 | 重庆邮电大学 | 一种基于分布式表示模型困惑度的人机对话方法与系统 |
CN112241478A (zh) * | 2020-11-12 | 2021-01-19 | 广东工业大学 | 一种基于图神经网络的大规模数据可视化降维方法 |
CN113160800A (zh) * | 2021-02-04 | 2021-07-23 | 吉林科讯信息科技有限公司 | 语音数据标注方法及电子设备、存储装置 |
CN113918554A (zh) * | 2021-10-29 | 2022-01-11 | 广州华多网络科技有限公司 | 商品数据清洗方法及其装置、设备、介质、产品 |
CN114003591A (zh) * | 2021-10-29 | 2022-02-01 | 广州华多网络科技有限公司 | 商品数据多模态清洗方法及其装置、设备、介质、产品 |
CN114222300A (zh) * | 2022-02-23 | 2022-03-22 | 南京理工大学 | 一种车载控制器局域网络入侵检测方法及设备 |
US20220351634A1 (en) * | 2019-07-03 | 2022-11-03 | Koninklijke Philips N.V. | Question answering systems |
CN115344678A (zh) * | 2022-07-11 | 2022-11-15 | 北京容联易通信息技术有限公司 | 一种基于多种算法融合的聚类方法 |
CN116151271A (zh) * | 2022-11-25 | 2023-05-23 | 海尔优家智能科技(北京)有限公司 | 一种面向智能家居对话理解的用户意图识别方法及系统 |
-
2024
- 2024-02-22 CN CN202410195936.8A patent/CN117763360B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180358001A1 (en) * | 2017-06-12 | 2018-12-13 | International Business Machines Corporation | Method, Apparatus, and System for Conflict Detection and Resolution for Competing Intent Classifiers in Modular Conversation System |
US20220351634A1 (en) * | 2019-07-03 | 2022-11-03 | Koninklijke Philips N.V. | Question answering systems |
CN110825861A (zh) * | 2019-11-05 | 2020-02-21 | 重庆邮电大学 | 一种基于分布式表示模型困惑度的人机对话方法与系统 |
CN112241478A (zh) * | 2020-11-12 | 2021-01-19 | 广东工业大学 | 一种基于图神经网络的大规模数据可视化降维方法 |
CN113160800A (zh) * | 2021-02-04 | 2021-07-23 | 吉林科讯信息科技有限公司 | 语音数据标注方法及电子设备、存储装置 |
CN113918554A (zh) * | 2021-10-29 | 2022-01-11 | 广州华多网络科技有限公司 | 商品数据清洗方法及其装置、设备、介质、产品 |
CN114003591A (zh) * | 2021-10-29 | 2022-02-01 | 广州华多网络科技有限公司 | 商品数据多模态清洗方法及其装置、设备、介质、产品 |
CN114222300A (zh) * | 2022-02-23 | 2022-03-22 | 南京理工大学 | 一种车载控制器局域网络入侵检测方法及设备 |
WO2023160600A1 (zh) * | 2022-02-23 | 2023-08-31 | 南京理工大学 | 一种车载控制器局域网络入侵检测方法及设备 |
CN115344678A (zh) * | 2022-07-11 | 2022-11-15 | 北京容联易通信息技术有限公司 | 一种基于多种算法融合的聚类方法 |
CN116151271A (zh) * | 2022-11-25 | 2023-05-23 | 海尔优家智能科技(北京)有限公司 | 一种面向智能家居对话理解的用户意图识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
王建群;柴锐;曹宁;薛晓卿;: "辅助驾驶中的换道决策安全研究", 安全与环境学报, no. 03, 25 June 2017 (2017-06-25) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117977814A (zh) * | 2024-03-28 | 2024-05-03 | 北京智芯微电子科技有限公司 | 智慧开关控制方法、智慧开关和智慧开关边端协同系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117763360B (zh) | 2024-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mistry et al. | Mixed-integer convex nonlinear optimization with gradient-boosted trees embedded | |
McGarigal et al. | Multivariate statistics for wildlife and ecology research | |
CN109165294B (zh) | 一种基于贝叶斯分类的短文本分类方法 | |
CN108446741B (zh) | 机器学习超参数重要性评估方法、系统及存储介质 | |
CN117763360B (zh) | 基于深度神经网络的训练集快速分析方法及电子设备 | |
Bouguila et al. | A countably infinite mixture model for clustering and feature selection | |
Pratt et al. | Employee attrition estimation using random forest algorithm | |
Chang et al. | Clustering and visualization of failure modes using an evolving tree | |
Choi et al. | Multi-step ART1 algorithm for recognition of defect patterns on semiconductor wafers | |
CN102722578B (zh) | 一种基于拉普拉斯正则化无监督的聚类特征选取方法 | |
CN110717090A (zh) | 一种旅游景点网络口碑评价方法、系统及电子设备 | |
Pham et al. | Unsupervised training of Bayesian networks for data clustering | |
CN116128544A (zh) | 一种电力营销异常营业数据的主动稽核方法和系统 | |
CN115294397A (zh) | 一种分类任务的后处理方法、装置、设备及存储介质 | |
CN110956541A (zh) | 一种基于智能融合计算的股票走势分类预测方法 | |
CN108428234B (zh) | 基于图像分割结果评价的交互式分割性能优化方法 | |
CN113553442A (zh) | 一种无监督事件知识图谱构建方法及系统 | |
CN110069558A (zh) | 基于深度学习的数据分析方法及终端设备 | |
CN113763031A (zh) | 一种商品推荐方法、装置、电子设备及存储介质 | |
JP2017174004A (ja) | 文意味分類算出装置、モデル学習装置、方法、及びプログラム | |
Kostkina et al. | Document categorization based on usage of features reduction with synonyms clustering in weak semantic map | |
CN115660695A (zh) | 客服人员标签画像构建方法、装置、电子设备及存储介质 | |
CN115730152A (zh) | 基于用户画像分析的大数据处理方法及大数据处理系统 | |
Kaur et al. | Measuring accuracy of stock price prediction using machine learning based classifiers | |
CN112819527A (zh) | 一种用户分群处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |