CN115687925A - 针对不平衡样本的故障类型识别方法及装置 - Google Patents
针对不平衡样本的故障类型识别方法及装置 Download PDFInfo
- Publication number
- CN115687925A CN115687925A CN202211352395.2A CN202211352395A CN115687925A CN 115687925 A CN115687925 A CN 115687925A CN 202211352395 A CN202211352395 A CN 202211352395A CN 115687925 A CN115687925 A CN 115687925A
- Authority
- CN
- China
- Prior art keywords
- fault
- class
- sample
- source domain
- domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种针对不平衡样本的故障类型识别方法、装置、电子设备及存储介质,属于故障分类识别技术领域,所述方法包括:根据预先建立的故障类别层次树,从源域中筛选出与目标域中目标域类别相似度最高的源域故障类样本集,并创建所述源域故障类样本集的故障特征提取网络;将所述目标域类别的支撑样本集输入至所述故障特征提取网络,获取所述支撑样本集的故障特征向量集;基于所述故障特征向量集训练获取目标分类器,以进行目标域类别的故障类别识别。本发明利用类间层次关系,从源域中的源域故障类样本集提取到目标域类别的故障样本的可转移的相似性特征,从而利用迁移学习技术实现了目标域类别的故障类别识别,提高了故障分类识别的精度。
Description
技术领域
本发明涉及故障分类识别技术领域,尤其涉及一种针对不平衡样本的故障类型识别方法、装置、电子设备与存储介质。
背景技术
故障诊断是对已发生的故障进行故障识别,但现有的故障诊断模型要求每种类别数据的数据量之间是均衡的,但现实中大多不同类别数据的数据量是不均衡的,而且有些是极度不均衡的。例如:正常样本数量多故障样本数量少、多发故障样本数量多偶发样本数量少等等。由于数据集中不同类别样本数量的不均衡会使分类模型有严重的偏向性,进而会影响分类模型的准确性。通过样本不平衡技术对不平衡数据进行处理能够解决不平衡问题,提高诊断模型对小样本数据的识别能力。
样本不平衡问题主要存在于有监督机器学习任务中。绝大多数常见的机器学习算法对于不平衡数据集都不能很好地工作。对于样本数目较少的尾部类别,由于其统计特性不强,很容易导致在训练传统的基于均匀分布的分类模型时,尾部类别的损失被淹没在头部类别的损失中。当直接利用不平衡数据来训练分类模型时,以总体分类准确率为学习目标的传统分类算法往往会过多地关注头部的多数类,即对头部的多数样本过拟合,而在预测时忽略尾部的少数类,从而导致对少数类样本预测能力的下降。例如,如果某二分类数据集中的正例:负例=99:1,那么分类器只需要简单地把所有预测结果判定为正例就能够获得高达99%的准确率,但这样的分类器不具有泛化能力,并没有任何价值。
目前现有的样本不平衡算法大多是对于原始数据进行插值,存在生成数据与原始数据之间重复以及数据量过少会出现数据集中分布问题,导致故障分类识别精度较低。深度神经网络在近年来较为火热且发展迅速,深度神经网络具有较好的学习能力,能够提取数据中更深层次的特征,对数据都有较好的拟合能力。
发明内容
本发明提供一种针对不平衡样本的故障类型识别方法及装置,用以解决现有技术中对于不平衡样本进行故障分类识别精度较低的缺陷。
第一方面,本发明提供一种针对不平衡样本的故障类型识别方法,包括:
根据预先建立的故障类别层次树,从源域中筛选出与目标域中目标域类别相似度最高的源域故障类样本集,并创建所述源域故障类样本集的故障特征提取网络;
将所述目标域类别的支撑样本集输入至所述故障特征提取网络,获取所述支撑样本集的故障特征向量集;
基于所述故障特征向量集训练获取目标分类器,以进行目标域类别的故障类别识别。
根据本发明提供的一种针对不平衡样本的故障类型识别方法,在根据预先建立的故障类别层次树,从源域中筛选出与目标域中目标域类别相似度最高的源域故障类样本集,并创建所述源域故障类样本集的故障特征提取网络之前,还包括:
利用源域和目标域的故障类标签描述文本构造类标签语义向量;
结合数据驱动算法和预设知识规则,通过分层聚类算法构造所述故障类别层次树。
根据本发明提供的一种针对不平衡样本的故障类型识别方法,所述利用源域和目标域的故障类标签描述文本构造类标签语义向量,包括:
对所述故障类标签描述文本进行分词处理,生成多个故障类标签子描述文本;
利用预设语义向量生成模型对所有的所述故障类标签子描述文本进行训练,生成对应的类标签语义向量。
根据本发明提供的一种针对不平衡样本的故障类型识别方法,所述结合数据驱动算法和预设知识规则,通过分层聚类算法构造所述故障类别层次树,包括:构建所述类标签语义向量的无向图;基于谱聚类的社区发现算法,对所述无向图进行社区发现,以构建初始故障类别层次树;基于预设知识规则对所述初始故障类别层次树进行优化,生成所述故障类别层次树;所述设知识规则至少包括:对于同一部件上发生的故障聚入同一个超类。
根据本发明提供的一种针对不平衡样本的故障类型识别方法,在利用所述源域和所述目标域的故障类标签描述文本构造类标签语义向量之前,还包括:利用过采样或欠采样的方式,对所述源域中的源域故障样本进行数据的均衡化处理。
根据本发明提供的一种针对不平衡样本的故障类型识别方法,利用过采样的方式对所述源域中的源域故障样本进行数据的均衡化处理,包括:获取所述源域故障样本中的任一少数类样本的多个最近邻少数类样本;利用所述任一少数类样本与任一最近邻少数类样本,采用线性差值的方式生成新的少数类样本,以扩充少数类样本的个数。
根据本发明提供的一种针对不平衡样本的故障类型识别方法,利用所述任一少数类样本与任一最近邻少数类样本,采用线性差值的方式生成新的少数类样本,具体公式为:
xnew=x+rand(0,1)*(xi-x)
其中,xnew为新的少数类样本,x为任一少数类样本,xi为第i个最近邻少数类样本,rand()为随机数生成函数。
第二方面,本发明还提供一种针对不平衡样本的故障类型识别装置,包括:
第一处理模块,用于根据预先建立的故障类别层次树,从源域中筛选出与目标域中目标域类别相似度最高的源域故障类样本集,并创建所述源域故障类样本集的故障特征提取网络;
第二处理模块,用于将所述目标域类别的支撑样本集输入至所述故障特征提取网络,获取所述支撑样本集的故障特征向量集;
第三处理模块,用于基于所述故障特征向量集训练获取目标分类器,以进行目标域类别的故障类别识别。
第三方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述针对不平衡样本的故障类型识别方法的步骤。
第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述针对不平衡样本的故障类型识别方法的步骤。
本发明提供的针对不平衡样本的故障类型识别方法、装置、电子设备及存储介质,利用类间层次关系,从源域中的源域故障类样本集提取到目标域类别的故障样本的可转移的相似性特征,从而利用迁移学习技术实现了目标域类别的故障类别识别,提高了故障分类识别的精度。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的针对不平衡样本的故障类型识别方法的流程示意图;
图2是本发明提供的构建故障类别层次树的流程示意图;
图3是本发明提供的针对不平衡样本的故障类型识别装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明实施例的描述中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本申请中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。
下面结合图1-图4描述本发明实施例所提供的针对不平衡样本的故障类型识别方法、装置、电子设备及存储介质。
图1是本发明提供的针对不平衡样本的故障类型识别方法的流程示意图,如图1所示,包括但不限于以下步骤:
步骤101:根据预先建立的故障类别层次树,从源域中筛选出与目标域中目标域类别相似度最高的源域故障类样本集,并创建所述源域故障类样本集的故障特征提取网络。
其中,故障类别层次树可以利用分层聚类算法获取。
根据故障类别层次树的故障类别层次结构,在某一个超类层次上看,同属一个超类集合的源域类和目标类,其故障特征往往更加相似,因此也更加容易迁移,而分属不同超类的源域类别与目标域类别则更难获取到有效的可迁移性特征,甚至会导致“负迁移”,进而降低对目标类的分类性能。就比如同属一个超类的猫和老虎,它们共同具有的特征显然要比分属于不同超类中的猫和鸟会更多一些。
根据故障类别层次树中提供的超类-子类隶属关系,筛选出与目标域类别最相似的那部分源域故障类样本以构建源域故障类样本集。
进一步地,利用源域故障类样本集预训练出一个故障特征提取网络模型,该故障特征提取网络模型能够利用故障类层次编码信息,提取出包含了故障类别层次结构信息在内的可迁移性故障特征。
步骤102:将所述目标域类别的支撑样本集输入至所述故障特征提取网络,获取所述支撑样本集的故障特征向量集。
其中,支撑样本为带标注的目标域的故障样本。复用所述故障特征提取网络的网络模型结构与权重参数,生成目标域中的支持样本的故障特征向量。
步骤103:基于所述故障特征向量集训练获取目标分类器,以进行目标域类别的故障类别识别。
其中,目标分类器可以为Logistic回归模型、最近邻算法(KNN)、最近邻质心分类(NC)、线性支持向量机(SVM)等。
最后,使用所获得的目标域类别的支撑样本的故障特征向量集去训练目标分类器,进行故障的多类识别。
本发明提供的针对不平衡样本的故障类型识别方法,利用类间层次关系从源域中的源域故障类样本集提取到目标域类别的故障样本的可转移的相似性特征,从而利用迁移学习技术实现了目标域类别的故障类别识别,提高了故障分类识别的精度。
作为一种可选的实施例,为了便于理解本发明的技术方案,下面基于深度学习进行迁移学习的过程,进行进一步的说明。
首先,借助源域和目标域的故障类标签语义层次结构,基于有利于目标域分类任务的正向迁移原则,只选择源域中与目标域类同属于一个超类下的类别的故障样本参与可迁移性特征的学习。
然后,使用这些源类样本预训练一个受限特征提取网络(RFN)。本发明通过这个RFN模型能够抽取出被编码在类层次中的先验知识,并学习到具有可迁移性的故障特征,从而能够有效地帮助在目标域中的小样本故障诊断任务。
需要说明的是,在预训练阶段,又构造了一个多层预测网络(HPN)。HPN使用RFN提取的特征来预测各层类/超类标签。其第一个功能是预测不同类/超类层上的标签,以便源类和目标类之间的共享超类可以生成适合表示目标类的可迁移特性。第二个功能是将类/超类层的层次结构编码化。具体来说,就是将某一超类层及其下各层的预测结果结合起来,去推断出该层超类标签。由于相邻层之间的层次结构在源类和目标类之间是共享和传输的,因此层次编码可以进一步提高所学习特征的可传输性。
最后,一旦用选定的源类数据训练好一个RFN模型实例,就可以用它对目标域的样本(包括支撑样本和待测试样本)进行可转移特征抽取。利用得到的这些目标域类别的少量支持样本的故障特征向量去训练某种适当的分类器,进行目标域未知故障样本的类别推断。
基于上述实施例的内容,作为一种可选的实施例,本发明提供的针对不平衡样本的故障类型识别方法,在根据预先建立的故障类别层次树,从源域中筛选出与目标域中目标域类别相似度最高的源域故障类样本集,并创建所述源域故障类样本集的故障特征提取网络之前,还包括:利用源域和目标域的故障类标签描述文本构造类标签语义向量;结合数据驱动算法和预设知识规则,通过分层聚类算法构造所述故障类别层次树。
可选地,利用源域和目标域的故障类标签描述文本构造类标签语义向量,包括:对所述故障类标签描述文本进行分词处理,生成多个故障类标签子描述文本;利用预设语义向量生成模型对所有的所述故障类标签子描述文本进行训练,生成对应的类标签语义向量。
其中,预设语义向量生成模型可以为Doc2Vec模型,每个类标签语义向量可以被表示为一个100维的语义向量。
图2是本发明提供的构建故障类别层次树的流程示意图,如图2所示,结合数据驱动算法和预设知识规则,通过分层聚类算法构造所述故障类别层次树的步骤包括:
步骤201:构建所述类标签语义向量的无向图。
对所有故障类别标签文本的语义向量,使用余弦距离进行相似性度量,建立类间相似度矩阵,再构造出一个无向图G。
步骤202:基于谱聚类的社区发现算法,对所述无向图进行社区发现,以构建初始故障类别层次树。
对无向图G,采用基于谱聚类的社区发现算法,通过递归方式逐层进行社区发现,以构建初始故障类别层次树。
步骤203:基于预设知识规则对所述初始故障类别层次树进行优化,生成所述故障类别层次树。
其中,对于预设知识规则,举例:对于同一部件上发生的故障聚入同一个超类;对于相关部件,如过故障的现象非常接近,也可以聚入同一个超类。
基于上述实施例的内容,作为一种可选地的实施例,在利用所述源域和所述目标域的故障类标签描述文本构造类标签语义向量之前,还包括:利用过采样或欠采样的方式,对所述源域中的源域故障样本进行数据的均衡化处理。下面对本发明可采用的过采样、欠采样的算法进行说明。在进行均衡化处理时,可以根据实际需要选择合适的算法对故障样本进行均衡化处理。
欠采样是通过减少样本丰富类的大小来平衡化数据集。欠采样方法首先保留所有的少数类样本,然后在样本数量丰富的多数类中随机选择出与少数类别样本数量相同的样本,使得多数类的样本数量可以和少数类的相匹配,之后就可以使用这个平衡的新数据集做进一步的建模处理。
可选地,欠采样算法A从多数类中随机选择少量样本,和原来少数类样本组成新的训练数据集,欠采样算法A有两种具体类型,分别为“有放回”和“无放回”两种。
欠采样算法A通过改变多数类样本比例以达到修改样本分布的目的,从而使样本分布较为均衡,但是这也导致一些新的问题。对于随机欠采样,由于采样的样本集合要少于原来的样本集合,必然会造成一些信息丢失,也就是说将多数类样本删除是有可能导致分类器丢失有关多数类的重要信息的。
欠采样算法B从多数类中有放回的随机采样n次,每次选取与少数类数目相近的样本个数,那么可以得到n个样本集合,实现样本的均衡化处理。
欠采样算法C将Adaboost作为基分类器,其算法基本步骤是:首先,在每一轮训练时都使用多数类与少数类数量相等的训练集,训练出一个Adaboost基分类器;然后,使用该分类器对全体多数类进行预测,通过控制分类阈值来控制假正例率,将所有判断正确的类删除;最后,进入下一轮迭代中,继续降低多数类数量。
通常,在小类样本数量足够多时可以考虑使用欠采样的方法。相对的,当样本数量不足时则可以使用过采样。过采样是通过增加少数类样本的数量来平衡化数据集,而不是去除多数类别的样本的数量。
过采样算法D通过多次对少数类样本做“有放回”的随机采样,以增加少数类样本的比例。由于需要对少数类样本进行复制来扩大数据集,会造成模型训练复杂度加大。另一方面,因为随机过采样是简单的对初始样本进行复制采样,这就使得学习器学得的规则过于具体化,不利于学习器的泛化性能,容易造成模型的过拟合问题。
为了解决随机过采样中造成模型过拟合问题,又能保证实现数据集均衡的目的,提出了过采样算法E。过采样算法E是利用类似K近邻的方法生成样本。本发明提供的过采样算法E通过获取所述源域故障样本中的任一少数类样本的多个最近邻少数类样本;利用所述任一少数类样本与任一最近邻少数类样本,采用线性差值的方式生成新的少数类样本,以扩充少数类样本的个数。
具体的,对于每一个少数类样本,计算与其他少数类样本之间的欧式距离得其K近邻,然后选取从其K近邻中随机选择若干个最近邻少数类样本,按照以下公式通过对样本线性插值生成新的少数类样本:
xnew=x+rand(0,1)*(xi-x)
其中,xnew为新的少数类样本,x为任一少数类样本,xi为第i个最近邻少数类样本,rand()为随机数生成函数。
过采样算法E摒弃了随机过采样复制样本的做法,可以防止随机过采样中容易过拟合的问题,实践证明此方法可以提高数据的均衡性。
图3是本发明提供的针对不平衡样本的故障类型识别装置的结构示意图,如图3所示,所述装置包括:第一处理模块301、第二处理模块302、第三处理模块303。
所述第一处理模块301,用于根据预先建立的故障类别层次树,从源域中筛选出与目标域中目标域类别相似度最高的源域故障类样本集,并创建所述源域故障类样本集的故障特征提取网络;
所述第二处理模块302,用于将所述目标域类别的支撑样本集输入至所述故障特征提取网络,获取所述支撑样本集的故障特征向量集;
所述第三处理模块303,用于基于所述故障特征向量集训练获取目标分类器,以进行目标域类别的故障类别识别。
需要说明的是,本发明实施例提供的针对不平衡样本的故障类型识别装置,在具体运行时,可以执行上述任一实施例所述的针对不平衡样本的故障类型识别方法,对此本实施例不作赘述。
本发明提供的针对不平衡样本的故障类型识别装置,利用类间层次关系从源域中的源域故障类样本集提取到目标域类别的故障样本的可转移的相似性特征,从而利用迁移学习技术实现了目标域类别的故障类别识别,提高了故障分类识别的精度。
图4是本发明提供的电子设备的结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行针对不平衡样本的故障类型识别方法,该方法包括:根据预先建立的故障类别层次树,从源域中筛选出与目标域中目标域类别相似度最高的源域故障类样本集,并创建所述源域故障类样本集的故障特征提取网络;将所述目标域类别的支撑样本集输入至所述故障特征提取网络,获取所述支撑样本集的故障特征向量集;基于所述故障特征向量集训练获取目标分类器,以进行目标域类别的故障类别识别。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各实施例所提供的针对不平衡样本的故障类型识别方法,该方法包括:根据预先建立的故障类别层次树,从源域中筛选出与目标域中目标域类别相似度最高的源域故障类样本集,并创建所述源域故障类样本集的故障特征提取网络;将所述目标域类别的支撑样本集输入至所述故障特征提取网络,获取所述支撑样本集的故障特征向量集;基于所述故障特征向量集训练获取目标分类器,以进行目标域类别的故障类别识别。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的针对不平衡样本的故障类型识别方法,该方法包括:根据预先建立的故障类别层次树,从源域中筛选出与目标域中目标域类别相似度最高的源域故障类样本集,并创建所述源域故障类样本集的故障特征提取网络;将所述目标域类别的支撑样本集输入至所述故障特征提取网络,获取所述支撑样本集的故障特征向量集;基于所述故障特征向量集训练获取目标分类器,以进行目标域类别的故障类别识别。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种针对不平衡样本的故障类型识别方法,其特征在于,包括:
根据预先建立的故障类别层次树,从源域中筛选出与目标域中目标域类别相似度最高的源域故障类样本集,并创建所述源域故障类样本集的故障特征提取网络;
将所述目标域类别的支撑样本集输入至所述故障特征提取网络,获取所述支撑样本集的故障特征向量集;
基于所述故障特征向量集训练获取目标分类器,以进行目标域类别的故障类别识别。
2.根据权利要求1所述的针对不平衡样本的故障类型识别方法,其特征在于,在根据预先建立的故障类别层次树,从源域中筛选出与目标域中目标域类别相似度最高的源域故障类样本集,并创建所述源域故障类样本集的故障特征提取网络之前,还包括:
利用源域和目标域的故障类标签描述文本构造类标签语义向量;
结合数据驱动算法和预设知识规则,通过分层聚类算法构造所述故障类别层次树。
3.根据权利要求2所述的针对不平衡样本的故障类型识别方法,其特征在于,所述利用源域和目标域的故障类标签描述文本构造类标签语义向量,包括:
对所述故障类标签描述文本进行分词处理,生成多个故障类标签子描述文本;
利用预设语义向量生成模型对所有的所述故障类标签子描述文本进行训练,生成对应的类标签语义向量。
4.根据权利要求3所述的针对不平衡样本的故障类型识别方法,其特征在于,所述结合数据驱动算法和预设知识规则,通过分层聚类算法构造所述故障类别层次树,包括:
构建所述类标签语义向量的无向图;
基于谱聚类的社区发现算法,对所述无向图进行社区发现,以构建初始故障类别层次树;
基于预设知识规则对所述初始故障类别层次树进行优化,生成所述故障类别层次树;所述设知识规则至少包括:对于同一部件上发生的故障聚入同一个超类。
5.根据权利要求2所述的针对不平衡样本的故障类型识别方法,其特征在于,在利用所述源域和所述目标域的故障类标签描述文本构造类标签语义向量之前,还包括:
利用过采样或欠采样的方式,对所述源域中的源域故障样本进行数据的均衡化处理。
6.根据权利要求5所述的针对不平衡样本的故障类型识别方法,其特征在于,利用过采样的方式对所述源域中的源域故障样本进行数据的均衡化处理,包括:
获取所述源域故障样本中的任一少数类样本的多个最近邻少数类样本;
利用所述任一少数类样本与任一最近邻少数类样本,采用线性差值的方式生成新的少数类样本,以扩充少数类样本的个数。
7.根据权利要求6所述的针对不平衡样本的故障类型识别方法,其特征在于,利用所述任一少数类样本与任一最近邻少数类样本,采用线性差值的方式生成新的少数类样本,具体公式为:
xnew=x+rand(0,1)*(xi-x)
其中,xnew为新的少数类样本,x为任一少数类样本,xi为第i个最近邻少数类样本,rand()为随机数生成函数。
8.一种针对不平衡样本的故障类型识别装置,其特征在于,包括:
第一处理模块,用于根据预先建立的故障类别层次树,从源域中筛选出与目标域中目标域类别相似度最高的源域故障类样本集,并创建所述源域故障类样本集的故障特征提取网络;
第二处理模块,用于将所述目标域类别的支撑样本集输入至所述故障特征提取网络,获取所述支撑样本集的故障特征向量集;
第三处理模块,用于基于所述故障特征向量集训练获取目标分类器,以进行目标域类别的故障类别识别。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述针对不平衡样本的故障类型识别方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述针对不平衡样本的故障类型识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211352395.2A CN115687925A (zh) | 2022-10-31 | 2022-10-31 | 针对不平衡样本的故障类型识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211352395.2A CN115687925A (zh) | 2022-10-31 | 2022-10-31 | 针对不平衡样本的故障类型识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115687925A true CN115687925A (zh) | 2023-02-03 |
Family
ID=85047112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211352395.2A Pending CN115687925A (zh) | 2022-10-31 | 2022-10-31 | 针对不平衡样本的故障类型识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115687925A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116206154A (zh) * | 2023-02-17 | 2023-06-02 | 北京科技大学 | 一种非常见工况下的污水处理过程的故障分类方法 |
CN116432091A (zh) * | 2023-06-15 | 2023-07-14 | 山东能源数智云科技有限公司 | 基于小样本的设备故障诊断方法、模型的构建方法及装置 |
CN116703284A (zh) * | 2023-08-03 | 2023-09-05 | 八爪鱼人工智能科技(常熟)有限公司 | 应用于冷库管理系统的故障识别方法及人工智能服务器 |
CN116910175A (zh) * | 2023-09-13 | 2023-10-20 | 人工智能与数字经济广东省实验室(广州) | 自动化移动设备故障层级树构建方法、装置及储存介质 |
-
2022
- 2022-10-31 CN CN202211352395.2A patent/CN115687925A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116206154A (zh) * | 2023-02-17 | 2023-06-02 | 北京科技大学 | 一种非常见工况下的污水处理过程的故障分类方法 |
CN116206154B (zh) * | 2023-02-17 | 2024-02-13 | 北京科技大学 | 一种非常见工况下的污水处理过程的故障分类方法 |
CN116432091A (zh) * | 2023-06-15 | 2023-07-14 | 山东能源数智云科技有限公司 | 基于小样本的设备故障诊断方法、模型的构建方法及装置 |
CN116432091B (zh) * | 2023-06-15 | 2023-09-26 | 山东能源数智云科技有限公司 | 基于小样本的设备故障诊断方法、模型的构建方法及装置 |
CN116703284A (zh) * | 2023-08-03 | 2023-09-05 | 八爪鱼人工智能科技(常熟)有限公司 | 应用于冷库管理系统的故障识别方法及人工智能服务器 |
CN116703284B (zh) * | 2023-08-03 | 2023-10-17 | 八爪鱼人工智能科技(常熟)有限公司 | 应用于冷库管理系统的故障识别方法及人工智能服务器 |
CN116910175A (zh) * | 2023-09-13 | 2023-10-20 | 人工智能与数字经济广东省实验室(广州) | 自动化移动设备故障层级树构建方法、装置及储存介质 |
CN116910175B (zh) * | 2023-09-13 | 2023-12-01 | 人工智能与数字经济广东省实验室(广州) | 自动化移动设备故障层级树构建方法、装置及储存介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kulkarni et al. | Survey of personalization techniques for federated learning | |
CN108737406B (zh) | 一种异常流量数据的检测方法及系统 | |
CN108874782B (zh) | 一种层次注意力lstm和知识图谱的多轮对话管理方法 | |
CN115687925A (zh) | 针对不平衡样本的故障类型识别方法及装置 | |
CN111914644A (zh) | 一种基于双模态协同的弱监督时序动作定位方法及系统 | |
CN104598611B (zh) | 对搜索条目进行排序的方法及系统 | |
CN107861951A (zh) | 智能客服中的会话主题识别方法 | |
CN106997474A (zh) | 一种基于深度学习的图节点多标签分类方法 | |
CN106570513A (zh) | 大数据网络系统的故障诊断方法和装置 | |
CN107944014A (zh) | 一种基于深度学习的中文文本情感分析方法 | |
CN112231562A (zh) | 一种网络谣言识别方法及系统 | |
Taesiri et al. | Visual correspondence-based explanations improve AI robustness and human-AI team accuracy | |
CN110188195B (zh) | 一种基于深度学习的文本意图识别方法、装置及设备 | |
CN110909125B (zh) | 推文级社会媒体谣言检测方法 | |
CN113392209A (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN108647800A (zh) | 一种基于节点嵌入的在线社交网络用户缺失属性预测方法 | |
CN113779988A (zh) | 一种通信领域过程类知识事件抽取方法 | |
CN115588193A (zh) | 基于图注意力神经网络与视觉关系的视觉问答方法及装置 | |
CN114329455B (zh) | 基于异构图嵌入的用户异常行为检测方法及装置 | |
Scott et al. | GAN-SMOTE: A Generative Adversarial Network approach to Synthetic Minority Oversampling. | |
Zhuang et al. | Non-exhaustive learning using gaussian mixture generative adversarial networks | |
Budur et al. | Structural analysis of criminal network and predicting hidden links using machine learning | |
CN113869609A (zh) | 一种根因分析频繁子图置信度预测方法及系统 | |
Al-Khamees et al. | Data Stream Clustering Using Fuzzy-based Evolving Cauchy Algorithm. | |
CN113722477B (zh) | 基于多任务学习的网民情绪识别方法、系统及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |