CN116166960A - 用于神经网络训练的大数据特征清洗方法及系统 - Google Patents

用于神经网络训练的大数据特征清洗方法及系统 Download PDF

Info

Publication number
CN116166960A
CN116166960A CN202310079633.5A CN202310079633A CN116166960A CN 116166960 A CN116166960 A CN 116166960A CN 202310079633 A CN202310079633 A CN 202310079633A CN 116166960 A CN116166960 A CN 116166960A
Authority
CN
China
Prior art keywords
data
cluster
class
points
cleaned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310079633.5A
Other languages
English (en)
Other versions
CN116166960B (zh
Inventor
岳发宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jingding Intelligent Technology Co ltd
Original Assignee
Henan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University filed Critical Henan University
Priority to CN202310079633.5A priority Critical patent/CN116166960B/zh
Publication of CN116166960A publication Critical patent/CN116166960A/zh
Application granted granted Critical
Publication of CN116166960B publication Critical patent/CN116166960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply

Abstract

本发明涉及数据处理领域,具体涉及用于神经网络训练的大数据特征清洗方法及系统,包括:获取风电机组运行过程中的各个数据点,得到待清洗数据集;根据待清洗数据集的全局平均距离得到邻域密度半径以及数据点数量阈值;根据待清洗数据集中各个数据点的斜率信息混乱程度得到主要模式对应的各个类簇;获取非主要模式的各个类簇,进而得到待清洗数据集的所有类簇;根据各个类簇的类簇特征点计算各个类簇的场景影响因子以及各个类簇的离群因子;根据各个类簇的场景影响因子以及离群因子得到各个类簇的异常程度;根据各个类簇的异常程度对待清洗数据集进行数据清洗。本发明可以实现对异常数据点的准确识别以及对异常数据点保留程度的自适应调节。

Description

用于神经网络训练的大数据特征清洗方法及系统
技术领域
本发明涉及数据处理领域,具体涉及用于神经网络训练的大数据特征清洗方法及系统。
背景技术
在使用风电机组的运行数据作为训练集训练风力发电机组的自适应控制策略模型的过程中,由于环境干扰等产生的异常数据,容易使得模型训练过程中出现过拟合现象或者在模型训练过程中对异常数据给予了过高的权重,导致自适应控制策略模型的准确性较低,因此需要对训练集进行数据清洗,以消除异常数据对模型训练的负面影响。
其中,风电机组中“风速-功率”具有较强的相关性,即风速升高时,风电机组的发电功率会随之升高,在对这些二维数据形成的各个数据点的异常检测时,正常数据点会存在一个固定的聚集现象,使得数据的分布存在一个主要“模式”。现有方法中往往使用基于连通性的离群因子检测COF对各个数据点进行离群因子的检测,根据离群因子判断与主要模式发生偏离的数据点,会将非主要模式的所有数据点视为异常数据点,但是非主要模式的数据点中仍然包含正常数据点,如功率峰值区域的数据点,且当异常数据点存在横向堆积现象时,由于部分异常数据点之间的平均链式距离较小,使得这些异常数据点的离群程度较小,即传统的COF算法无法对异常数据点进行准确识别;此外,由于需要适量对异常数据点进行保留,以保证自适应控制策略模型的抗噪能力,因此设计一种可以对异常数据进行准确识别,且可以控制异常数据保留程度的数据清洗的方法是非常重要的。
发明内容
本发明提供用于神经网络训练的大数据特征清洗方法,以解决现有的问题。
本发明的用于神经网络训练的大数据特征清洗方法采用如下技术方案:
本发明一个实施例提供了用于神经网络训练的大数据特征清洗方法,该方法包括以下步骤:
获取风电机组运行过程中的各个数据点,得到待清洗数据集;
获取待清洗数据集的全局平均距离,根据全局平均距离得到邻域密度半径以及数据点数量阈值;获取待清洗数据集中各个数据点的斜率信息混乱程度;根据混乱程度差值阈值、待清洗数据集中各个数据点的斜率信息混乱程度得到初始类簇;当初始类簇中包含的数据点的个数小于数据点数量阈值时,对初始类簇进行扩充,直到初始类簇中包含的数据点的个数不小于数据点数量阈值;对待清洗数据集中不属于初始类簇的各个数据点进行类簇划分,得到主要模式对应的各个类簇;
将待清洗数据集中不属于主要模式对应的各个类簇的数据点记为非主要模式的数据点;对非主要模式的数据点进行聚类,得到非主要模式的各个类簇,主要模式的各个类簇与非主要模式的各个类簇构成了待清洗数据集的所有类簇;获取待清洗数据集中各个类簇的类簇特征点;根据各个类簇的类簇特征点计算各个类簇的场景影响因子以及各个类簇的离群因子;根据各个类簇的场景影响因子以及离群因子得到各个类簇的异常程度;
根据各个类簇的异常程度对待清洗数据集进行数据清洗。
优选的,所述根据全局平均距离得到邻域密度半径以及数据点数量阈值的方法为:
设置邻域半径距离系数,将邻域半径系数与全局平均距离之间的乘积作为邻域密度半径;设置类簇数量,将待清洗数据集中包含的数据点的总数与类簇数量的比值作为数据点数量阈值。
优选的,所述待清洗数据集中各个数据点的斜率信息混乱程度的获取方法为:
分别获取待清洗数据集中各个数据点与各个数据点的邻域密度半径范围内所有数据点之间线段的斜率;根据所得各个斜率出现的频率得到各个数据点的斜率信息混乱程度。
优选的,所述主要模式对应的各个类簇的获取方法为:
获取预设的混乱程度差值阈值;待清洗数据集中的所有数据点标记为未访问状态,以任意一个未访问状态的数据点为中心数据点,对中心数据点进行分析:计算中心数据点邻域密度半径范围内各个数据点与中心数据点的斜率信息混乱程度之间的差值,将差值大于混乱程度差值阈值的所有数据点中最大差值对应的数据点作为新的中心数据点;
对新的中心数据点进行分析,直到新的中心数据点的邻域密度半径范围内各个数据点对应的差值均小于混乱程度差值阈值,将对应的中心数据点的邻域密度半径范围内的各个数据点记为初始类簇,并将所得初始类簇中的各个数据点标记为已访问状态;将初始类簇中的所有数据点均称为类内点,将初始类簇之外的任意一个数据点称为类外点;
当初始类簇中包含的数据点的个数小于数据点数量阈值时,获取初始类簇中各个数据点的斜率信息混乱程度最大的一个类内点,对初始类簇进行扩充,包括:根据所得类内点和类外点确定判断条件,并获取满足判断条件的所有类外点,将所得所有类外点划分到初始类簇中,得到扩充后的初始类簇;
如果扩充后的初始类簇中包含的数据点的个数仍小于数据点数量阈值,按照初始类簇中各个数据点的斜率信息混乱程度从大到小的顺序获取下一个类内点,对初始类簇进行扩充,直到所得类簇中包含的数据点的个数大于等于数据点数量阈值,将扩充后的初始类簇作为一个类簇;
依次对待清洗数据集中的各个数据点进行处理,得到主要模式对应的各个类簇。
优选的,所述根据所得类内点和类外点确定判断条件,并获取满足判断条件的所有类外点的步骤包括:
对一个类外点进行条件一、条件二的判断,包括:
条件一:类外点为未访问状态;
条件二:获取所得类内点与其邻域密度半径范围内各个数据点对应的差值,如果这些差值均小于混乱程度差值阈值,同时类外点也处于这个邻域密度半径范围内;
依次对对各个类外点进行判断,获取满足判断条件的所有类外点。
优选的,所述各个类簇的场景影响因子的获取步骤包括:
计算各个类簇特征点的横坐标与纵坐标之间的乘积,根据所得乘积得到各个类簇的影响参数;计算待清洗数据集中所有类簇的影响参数的累加和,计算各个类簇的影响参数与所得累加和的比值,将常数1.0与各个比值之间的差值作为各个类簇的场景影响因子。
优选的,所述各个类簇的异常程度的获取步骤包括:
计算各个类簇的离群因子之间的累加和,计算各个类簇的离群因子与所得累加和之间的比值,将所得各个比值与各个类簇的场景影响因子之间的乘积作为各个类簇的异常程度。
本技术方案还提供了用于神经网络训练的大数据特征清洗系统,包括待清洗数据集获取模块、数据集类簇划分模块、类簇异常程度获取模块和数据清洗模块,其中:
待清洗数据集获取模块,用以获取风电机组运行过程中的各个数据点,得到待清洗数据集;
数据集类簇划分模块,用以获取待清洗数据集的全局平均距离,根据全局平均距离得到邻域密度半径以及数据点数量阈值;获取待清洗数据集中各个数据点的斜率信息混乱程度;根据混乱程度差值阈值、待清洗数据集中各个数据点的斜率信息混乱程度得到初始类簇;当初始类簇中包含的数据点的个数小于数据点数量阈值时,对初始类簇进行扩充,直到初始类簇中包含的数据点的个数不小于数据点数量阈值;对待清洗数据集中不属于初始类簇的各个数据点进行类簇划分,得到主要模式对应的各个类簇;将待清洗数据集中不属于主要模式对应的各个类簇的数据点记为非主要模式的数据点;对非主要模式的数据点进行聚类,得到非主要模式的各个类簇,主要模式的各个类簇与非主要模式的各个类簇构成了待清洗数据集的所有类簇;
类簇异常程度获取模块,用以获取待清洗数据集中各个类簇的类簇特征点;根据各个类簇的类簇特征点计算各个类簇的场景影响因子以及各个类簇的离群因子;根据各个类簇的场景影响因子以及离群因子得到各个类簇的异常程度;
数据清洗模块,用以根据各个类簇的异常程度对待清洗数据集进行数据清洗。
本发明的有益效果是:
首先根据待清洗数据集中各个数据点之间的欧氏距离得到全局平均距离,得到邻域密度半径;根据待清洗数据集中,各个数据点的邻域密度半径范围内数据点的分布信息作为主要模式的判断标准,避免因人为设定邻域密度半径而造成聚类效果偏差;同时通过数据点数量阈值限制各个类簇的最大数据点的数量,避免因主要模式数据点的分布较为连续导致主要模式对应的类簇数量较少的现象出现,从而可以保守地将最符合的S型主要模式的数据点进行类簇划分;在主要模式对应类簇的获取过程中,结合横向堆积的数据点分布较为整齐,以及主要模式数据点分布较为密集的特点,利用各个数据点在邻域密度半径范围内的斜率信息混乱程度控制类簇划分过程中的扩张方向,从而避免将非主要模式的数据点被错误地划分为主要模式对应的类簇,并通过混乱程度差值阈值防止各个类簇的扩张范围过广;
然后对非主要模式的数据点进行类簇划分,得到待清洗数据集的所有类簇;通过各个类簇的场景影响因子对各个类簇的离群因子进行修正,得到各个类簇的异常程度,从而对功率峰值区域横向堆积的正常数据点对应类簇与横向堆积的异常数据点对应类簇进行区分,得到更加准确的异常类簇识别结果;通过限制类簇划分过程中的类簇数量以及识别出类簇异常程度,根据异常程度进行数据清洗,有益于在后续数据使用过程中消除无用的数据,使数据的利用率更高,利用结果更加符合预期。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的用于神经网络训练的大数据特征清洗方法的步骤流程图;
图2为本发明的用于神经网络训练的大数据特征清洗系统的结构框图;
图3为本发明的用于神经网络训练的大数据特征清洗方法的数据点可视化效果图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的用于神经网络训练的大数据特征清洗方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的用于神经网络训练的大数据特征清洗方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的用于神经网络训练的大数据特征清洗方法的步骤流程图,该方法包括以下步骤:
步骤S001:获取风电机组运行过程中的各个数据点,得到待清洗数据集。
在训练数据集中提取出风电机组运行过程中的各个风速以及对应的功率,得到各个数据点,其中各个风速以及对应的功率分别作为各个数据点的横坐标以及纵坐标,所有数据点构成了待清洗数据集G,将待清洗数据集G中所包含的数据点的总个数为N。
在风电机组的运行过程中,风速与功率数据之间是强关联数据,即正常情况下,随着风速的提高,风电机组的发电功率也会增大,此时数据点之间分布较为密集,如图3所示,正常数据点会在数据点可视化效果图中形成“S”型区域,本实施例将“S”型区域称为数据点的“主要模式”;但是由于待清洗数据集中可能出现异常数据,具体表现为风速的提升并不会使得功率得到相应的提升,使得数据点可视化效果图中而在根据风电机组运行过程的待清洗数据集进行自适应控制策略模型的训练时,如果对异常数据设置了较高的参考权重容易导致过拟合现象的出现,进而导致所得自适应控制策略模型存在较大的误差,因此在根据待清洗数据集进行自适应控制策略模型的训练之前,需要对风电机组运行过程中产生的各个数据进行清洗,从而降低异常数据对训练的负面影响,以保证自适应控制策略模型训练的准确性。
步骤S002:根据待清洗数据集的全局平均距离得到邻域密度半径以及数据点数量阈值;根据待清洗数据集中各个数据点的斜率信息混乱程度得到主要模式对应的各个类簇;获取非主要模式的各个类簇,进而得到待清洗数据集的所有类簇。
COF是一种基于平均链式距离计算各个数据点的局部密度的方法,可以判断低密度下的各个数据点是否离群,从而得到各个数据点的离群因子,COF算法为公知技术,此处不再赘述。对于单个数据点而言,当一个数据点的平均链式距离越小,该数据点的离群因子也越小,该数据点为异常数据点的概率越低,反之,则该数据点为异常数据点的概率越高。但是当异常数据点出现了横向堆积时,这些异常数据点的平均链式距离也较小,对应的离群因子也比较小,此时使用COF算法对这些横向堆积的异常数据点检测效果较差;
此外,图3中在功率峰值区域的右侧出现横向堆积的数据点为正常数据点,即风电机组的功率达到最大之后,功率不再随着风速的增加而增加,造成部分数据点在功率峰值区域中也出现了横向堆积,也就是说,由于存在异常数据点横向堆积的现象,在使用传统的COF算法进行异常数据点检测时,会出现在数据点分布密集的区域中各个数据点的平均链接距离相同,也就无法正确判断各个数据点的离群因子,使得传统方法对横向堆积的异常数据点的检测效果较差,且由于部分正常数据也会出现横向堆积,也会影响横向堆积的异常数据点的检测结果的准确性。
在自适应控制策略模型的训练过程中,需要对大量的主要模式数据点进行拟合,同时也需要适量的横向异常数据点作为模型抗噪性的训练样本,而其中的低密度散乱分布的异常数据点则是对模型训练过程中无用的异常数据点,需要对这些无用数据点进行清除。
为解决因为异常数据点的堆积导致无法正常进行离群因子检测准确性较低的问题,本实施例通过对各个数据点的特征信息进行聚类的方法,对风电机组产生的所有数据点进行数据初始划分,在分块的过程中,首先通过DBSCAN聚类方法进行待清洗数据集的初始聚类,得到主要模式的各个类簇,实现主要模式的保守划分。但是由于DBSCAN聚类算法是根据邻域半径内各个数据点的分布方式进行聚类的,该算法会将剩余的所有数据点,即非主要模式的各个数据点,都判断为噪声点,但是这些非主要模式数据点中包含了需要适量保留的模型抗噪性训练样本以及需要剔除的无用数据点,二者的区别在于各个数据点之间的密集程度存在差异,因此本实施例进一步使用k-means聚类算法对非主要模式的各个数据点之间的距离进行划分,得到非主要模式数据点的各个类簇,再以每个类簇作为一个整体,根据各个类簇的离群因子确定需要剔除的各个异常类簇,并设置异常程度阈值来控制保留多少异常数据点作为模型抗噪性的训练样本。
1.获取DBSCAN聚类算法的邻域密度半径以及数据点数量阈值,过程如下:
在使用DBSCAN聚类算法获取主要模式对应的各个类簇时,需要首先确定DBSCAN的邻域密度半径,此外,由于k-means聚类算法需要确定类簇的个数,且在对各个类簇进行离群因子的检测过程中,是将一个类簇作为一个计算单位的,所以最终得到的类簇数量就是离群因子检测中需要处理数据量,如果需要让数据清洗地更细致,那么就将类簇数量设置地更高;如果需要保证自适应控制策略模型的抗噪能力,那么就可以将类簇数量设置的低一些,因此类簇数量实现对异常类簇的识别精度进行控制,也可以实现对异常类簇的保留程度,从而实现对模型抗噪性的控制,本实施例将类簇数量U设置为30,该值可以根据实际需要进行调整。
首先根据待清洗数据集中各个数据点与其他数据点之间的距离得到全局平均距离L:
Figure BDA0004067052120000071
其中,P,Q分别为待清洗数据集G中的两个数据点;dist(P,Q)表示数据点P与数据点Q之间的欧氏距离。
设置邻域半径距离系数μ,来得到一个带有先验信息的合理的邻域密度半径,本实施例中设置μ=0.6,该值可以根据先验信息进行调整,将邻域半径距离系数与全局平均距离L之间的乘积作为DBSCAN聚类的邻域密度半径ε。
由于在风电机组运行过程中产生的异常数据远少于正常数据,而主要模式的数据点在数据点可视化效果图中分布更加连续且密集,使用DBSCAN聚类算法会将主要模式划分为一类,使得主要模式对应的类簇数量较少,进而导致计算各个类簇的离群因子时可能出现较大误差,因此为了保证后续各个类簇的离群因子计算结果的准确性,需要限制各个类簇所包含的数据点的最大数量,即设置数据点数量阈值,使得在使DBSCAN聚类算法对待清洗数据集中的所有数据点进行聚类扩张时,当一个类簇中包含的数据点的数量到达数据点数量阈值后,需要停止该类簇的扩张,从而避免主要模式对应的类簇数量较少的现象出现。本实施例中数据点数量阈值D为待清洗数据集中包含的数据点的总个数N与类簇数量U之间的比值。
2.根据邻域密度半径范围内数据点的斜率信息混乱程度得到主要模式对应的各个类簇。
在传统的DBSCAN聚类过程中,需要设定邻域密度半径与密度阈值,当一个数据点的邻域密度半径范围内包含的数据点的个数大于等于密度阈值时,将该邻域密度半径范围内中所有的数据点划分到一个类簇,但是由于风电机组的待清洗数据集中异常数据点也存在堆积现象,为了避免非主要模式的数据点被错误地划分为主要模式对应的类簇,本实施例期望在对各个数据点进行聚类扩张时,可以向数据点分布更混乱的方向进行扩张,例如,对于一个数据点的邻域密度半径中同时包含主要模式数据点与横向堆积的异常数据点时,由于前者的数据点分布更加混乱,后者的数据点分布更加整齐,因此需要向数据点分布更加混乱的方向进行聚类扩张,以保证主要模式划分的准确性,从而可以将DBSCAN聚类算法所得类簇作为主要模式。则主要模式对应的各个类簇的获取过程如下:
为了得到更加准确的主要模式对应数据点,本实施例需要限制DBSCAN聚类的扩张方向,因此本实施例中的聚类方法与传统的DBSCAN聚类算法不同之处在于:本实施例在对一个数据点的邻域密度半径范围内的所有数据点进行判断时,不再依据设定的密度阈值,而是通过该邻域密度半径内的所有数据点分布情况确定,由于横向堆积的异常数据点为横向分布,因此当一个数据点与其邻域密度半径范围内每个数据点之间的斜率越复杂,说明这个数据点更可能为数据集中的“主要模式”,反之则该数据点更可能为异常数据点。
本实施例首先分别获取待清洗数据集中各个数据点与其邻域密度半径范围内所有数据点之间线段的斜率(保留一位小数),然后根据各个斜率出现的频率计算各个数据点对应的信息熵,将所得信息熵作为各个数据点的斜率信息混乱程度,熵值越大,斜率信息混乱程度越大,对应数据点的分布越混乱,熵值越小,斜率信息混乱程度越小,对应数据点的分布越整齐,则对于待清洗数据集中的第p个数据点,该数据点的斜率信息混乱程度H(p)可表示为:
Figure BDA0004067052120000081
其中,I(p)为待清洗数据集中第p个数据点与其邻域密度半径范围内所有数据点之间的斜率构成的斜率集合;p(k)表示I(p)中的第k个斜率在整个斜率集合中出现的概率;log2()为以2为底的对数函数。
本实施例期望在扩张过程中可以向斜率信息混乱程度高的方向进行扩张,但是只向斜率信息混乱程度最高的数据点所在方向进行扩张,可能会单向扩张的现象,导致扩张范围过广,使得主要模式数据点与横向堆积的异常数据点之间的区别不明显,本实施例中通过预先设置混乱程度差值阈值来避免单个类簇的扩张范围过广的现象出现。而邻域半径距离系数可以视为对聚类过程中划分的精确程度的衡量,μ越小,邻域密度半径越小,则聚类过程中判断的范围越小,对应聚类结果也就更精确,因此可以通过该系数μ进行混乱程度差异阈值的计算,即计算待清洗数据集中所有数据点的斜率信息混乱程度的均值,将所得均值与邻域半径距离系数之间的乘积作为混乱程度差值阈值,记为σ。
首先将待清洗数据集中的所有数据点标记为未访问状态,记为unvisited状态,然后对待清洗数据集进行初始聚类划分,过程如下:
1)随机选取任意一个unvisited状态的数据点p作为中心数据点进行分析:计算p的邻域密度半径范围内各个数据点与p的斜率信息混乱程度之间的差值,选取差值大于σ的所有数据点中最大差值对应的数据点作为新的中心数据点;
2)对新的中心数据点进行分析,直到新的中心数据点的邻域密度半径范围内各个数据点对应的差值均小于σ,此时的中心数据点为斜率信息混乱程度最高的数据点,将此时中心数据点的邻域密度半径范围内的所有数据点标记为已访问状态,即visited状态,并划分为一个初始类簇C1,将初始类簇C1中的所有数据点均称为类内点,将初始类簇之外的任意一个数据点称为类外点;
3)如果C1中包含的数据点的个数小于数据点数量阈值D,则需要对C1进一步扩充,即首先获取初始类簇中斜率信息混乱程度最大的类内点,当一个类外点满足如下判断条件时,将该类外点划分到C1内:
条件一:类外点为unvisited状态;
条件二:获取所得类内点与其邻域密度半径范围内各个数据点对应的差值,如果这些差值均小于σ,同时类外点也处于这个邻域密度半径范围内;
获取满足上述判断条件的所有类外点,将其划分到C1中,实现对初始类簇进行扩充,得到扩充后的初始类簇,如果扩充后的初始类簇中包含的数据点的个数小于数据点数量阈值,则按照C1中各个数据点的斜率信息混乱程度从大到小选取下一个类内点,继续将满足如上判断条件的类外点划分到C1中,直到C1中包含的数据点的个数大于等于数据点数量阈值D;
4)重复操作1)~3),直到待清洗数据集无法进行类簇的划分,此时得到的各个类簇即为主要模式对应的各个类簇。
3.将待清洗数据集中,不属于主要模式对应的各个类簇的数据点称为非主要模式的各个数据点,对非主要模式的各个数据点进行聚类,得到非主要模式对应各个类簇。
由于非主要模式的各个数据点可以分为三种:横向堆积的异常数据点,低密度散乱分布的异常数据点以及功率峰值区域中横向堆积的正常数据点,本实施例中需要保留正常数据点;尽量保留横向堆积的异常数据点,用以提高自适应控制策略模型的模型抗噪性;对低密度散乱分布的异常数据点进行剔除。因此需要对剩余的非主要模型数据点进一步划分,相对于低密度散乱分布的异常数据点,横向堆积的正常数据点以及异常数据点分布相对密集,因此本实施例进一步使用k-means聚类算法对非主要模式的数据点进行聚类,得到非主要模式对应的各个类簇,进而得到待清洗数据集的所有类簇。其中,记主要模式对应的类簇数量为M,则k-means聚类算法的类簇数量为U-M。
则主要模式的各个类簇与非主要模式的各个类簇构成了待清洗数据集的所有类簇。
步骤S003:根据各个类簇的类簇特征点计算各个类簇的场景影响因子以及各个类簇的离群因子;根据各个类簇的场景影响因子以及离群因子得到各个类簇的异常程度。
将待清洗数据集中每个类簇整体作为一个计算单元,使用COF算法计算各个类簇的离群因子,计算各个类簇中所有像素点的横坐标的平均值以及纵坐标的平均值,得到各个类簇的风速平均值以及功率平均值,记第i个类簇中所有数据点风速均值为
Figure BDA0004067052120000101
该类簇中所有数据点的功率均值为/>
Figure BDA0004067052120000102
使用/>
Figure BDA0004067052120000103
作为第i个类簇对应的类簇特征点,后续只对各个类簇的类簇特征点进行离群因子的计算;
由于功率峰值区域横向堆积的正常数据点与横向堆积的异常数据点在图3中均为横向分布,因而具有较高的相似性,但是功率峰值区域横向堆积的正常数据点具有更高的风速以及功率,为了对二者进行区分,在计算COF离群因子时,需要结合各个类簇的风速均值以及功率均值对各个类簇是否属于异常类簇进行判断,当风速均值以及功率均值越大,即类簇特征点的横坐标与纵坐标的值越大,表示该类簇处于功率峰值区域的概率越大,对应该类簇属于异常类簇的概率越小,反之,则该类簇属于异常类簇的概率越大,即类簇特征点的位置可以作为各个横向堆积的类簇是否为异常类簇的一个判断指标,本实施例中将该判断指标称为场景影响因子,用以对各个类簇的离群因子进行修正,其中第i个类簇的场景影响因子
Figure BDA0004067052120000111
可表示为:
Figure BDA0004067052120000112
其中
Figure BDA0004067052120000113
为第i个类簇的影响参数;对于一个类簇,如果其风速和功率均值越大,也就是一个类簇的类簇特征点的横坐标与纵坐标的值越大,该类簇为异常类簇的概率越小,对应该类簇的场景影响因子越小,即在此功率均值下,风速提升不会使得功率提升。
COF算法需要预先设置K距离邻域,本实施例中设置K=13,然后通过COF算法计算每一个类簇的COF离群因子,为了衡量COF离群因子在全部离群因子中的对比情况,通过如下方式对第i个类簇的异常程度Ti进行判断:
Figure BDA0004067052120000114
上式中,COFi为第i个类簇的离群因子,U为待清洗数据集中类簇数量。
Figure BDA0004067052120000115
表示第i个类簇的离群程度;当一个类簇的离群因子越大,该类簇的离群程度越高,则该类簇属于异常类簇的概率越大,但是由于在功率峰值区域也会出现横向堆积的正常数据点,这些正常数据点对应的类簇的离群程度也较高,为了将横向堆积的正常数据点对应的类簇与异常数据点对应的类簇进行区分,需要根据各个类簇的类簇特征点的场景影响因子对各个类簇的离群程度进行修正,修正后的结果即为各个类簇的异常程度。
步骤S004:根据各个类簇的异常程度对待清洗数据集进行数据清洗。
通过softmax函数对各个类簇的异常程度进行归一化,得到各个类簇归一化后的异常程度,从而拉大各个类簇的离群因子之间的差异,从而更容易判断异常。设定异常程度阈值α,用以进一步控制异常数据点的保留程度,从而提高自适应控制策略模型的模型抗噪能力,本实施例中α=0.5,当第i个类簇归一化后的异常程度大于α时,判定第i个类簇为需要剔除的异常类簇,认为该类簇中的所有数据点为异常数据点,否则认为第i个类簇为正常类簇。依次对待清洗数据集中的各个类簇进行判断,得到各个异常类簇。
通过上述过程获取到异常数据点之后,去除待清洗数据集中的所有异常数据点,完成对训练集中异常数据点的数据清洗,将清洗后的数据集作为训练数据集,从而降低自适应控制策略模型训练过程中异常数据的影响,使得风力发电机组的自适应控制策略模型会有更精确的控制效果。
本发明的用于神经网络训练的大数据特征清洗系统的实施例,如图2所示,包括待清洗数据集获取模块、数据集类簇划分模块、类簇异常程度获取模块和数据清洗模块,其中:
待清洗数据集获取模块,用以获取风电机组运行过程中的各个数据点,得到待清洗数据集;
数据集类簇划分模块,用以获取待清洗数据集的全局平均距离,根据全局平均距离得到邻域密度半径以及数据点数量阈值;获取待清洗数据集中各个数据点的斜率信息混乱程度;根据混乱程度差值阈值、待清洗数据集中各个数据点的斜率信息混乱程度得到初始类簇;当初始类簇中包含的数据点的个数小于数据点数量阈值时,对初始类簇进行扩充,直到初始类簇中包含的数据点的个数不小于数据点数量阈值;对待清洗数据集中不属于初始类簇的各个数据点进行类簇划分,得到主要模式对应的各个类簇;将待清洗数据集中不属于主要模式对应的各个类簇的数据点记为非主要模式的数据点;对非主要模式的数据点进行聚类,得到非主要模式的各个类簇,主要模式的各个类簇与非主要模式的各个类簇构成了待清洗数据集的所有类簇;
类簇异常程度获取模块,用以获取待清洗数据集中各个类簇的类簇特征点;根据各个类簇的类簇特征点计算各个类簇的场景影响因子以及各个类簇的离群因子;根据各个类簇的场景影响因子以及离群因子得到各个类簇的异常程度;
数据清洗模块,用以根据各个类簇的异常程度对待清洗数据集进行数据清洗。
本实施例首先根据待清洗数据集中各个数据点之间的欧氏距离得到全局平均距离,得到邻域密度半径;根据待清洗数据集中,各个数据点的邻域密度半径范围内数据点的分布信息作为主要模式的判断标准,避免因人为设定邻域密度半径而造成聚类效果偏差;同时通过数据点数量阈值限制各个类簇的最大数据点的数量,避免因主要模式数据点的分布较为连续导致主要模式对应的类簇数量较少的现象出现,从而可以保守地将最符合的S型主要模式的数据点进行类簇划分;在主要模式对应类簇的获取过程中,结合横向堆积的数据点分布较为整齐,以及主要模式数据点分布较为密集的特点,利用各个数据点在邻域密度半径范围内的斜率信息混乱程度控制类簇划分过程中的扩张方向,从而避免将非主要模式的数据点被错误地划分为主要模式对应的类簇,并通过混乱程度差值阈值防止各个类簇的扩张范围过广;
然后对非主要模式的数据点进行类簇划分,得到待清洗数据集的所有类簇;通过各个类簇的场景影响因子对各个类簇的离群因子进行修正,得到各个类簇的异常程度,从而对功率峰值区域横向堆积的正常数据点对应类簇与横向堆积的异常数据点对应类簇进行区分,得到更加准确的异常类簇识别结果;通过限制类簇划分过程中的类簇数量以及异常程度阈值控制异常数据点的保留程度,从而实现保留部分有益于模型训练的异常数据而消除对训练模型无用的数据,使训练出的自适应控制策略模型具有更强的鲁棒性,抗噪性以及准确性。

Claims (8)

1.用于神经网络训练的大数据特征清洗方法,其特征在于,该方法包括以下步骤:
获取风电机组运行过程中的各个数据点,得到待清洗数据集;
获取待清洗数据集的全局平均距离,根据全局平均距离得到邻域密度半径以及数据点数量阈值;获取待清洗数据集中各个数据点的斜率信息混乱程度;根据混乱程度差值阈值、待清洗数据集中各个数据点的斜率信息混乱程度得到初始类簇;当初始类簇中包含的数据点的个数小于数据点数量阈值时,对初始类簇进行扩充,直到初始类簇中包含的数据点的个数不小于数据点数量阈值;对待清洗数据集中不属于初始类簇的各个数据点进行类簇划分,得到主要模式对应的各个类簇;
将待清洗数据集中不属于主要模式对应的各个类簇的数据点记为非主要模式的数据点;对非主要模式的数据点进行聚类,得到非主要模式的各个类簇,主要模式的各个类簇与非主要模式的各个类簇构成了待清洗数据集的所有类簇;获取待清洗数据集中各个类簇的类簇特征点;根据各个类簇的类簇特征点计算各个类簇的场景影响因子以及各个类簇的离群因子;根据各个类簇的场景影响因子以及离群因子得到各个类簇的异常程度;
根据各个类簇的异常程度对待清洗数据集进行数据清洗。
2.根据权利要求1所述的用于神经网络训练的大数据特征清洗方法,其特征在于,所述根据全局平均距离得到邻域密度半径以及数据点数量阈值的方法为:
设置邻域半径距离系数,将邻域半径系数与全局平均距离之间的乘积作为邻域密度半径;设置类簇数量,将待清洗数据集中包含的数据点的总数与类簇数量的比值作为数据点数量阈值。
3.根据权利要求1所述的用于神经网络训练的大数据特征清洗方法,其特征在于,所述待清洗数据集中各个数据点的斜率信息混乱程度的获取方法为:
分别获取待清洗数据集中各个数据点与各个数据点的邻域密度半径范围内所有数据点之间线段的斜率;根据所得各个斜率出现的频率得到各个数据点的斜率信息混乱程度。
4.根据权利要求1所述的用于神经网络训练的大数据特征清洗方法,其特征在于,所述主要模式对应的各个类簇的获取方法为:
获取预设的混乱程度差值阈值;待清洗数据集中的所有数据点标记为未访问状态,以任意一个未访问状态的数据点为中心数据点,对中心数据点进行分析:计算中心数据点邻域密度半径范围内各个数据点与中心数据点的斜率信息混乱程度之间的差值,将差值大于混乱程度差值阈值的所有数据点中最大差值对应的数据点作为新的中心数据点;
对新的中心数据点进行分析,直到新的中心数据点的邻域密度半径范围内各个数据点对应的差值均小于混乱程度差值阈值,将对应的中心数据点的邻域密度半径范围内的各个数据点记为初始类簇,并将所得初始类簇中的各个数据点标记为已访问状态;将初始类簇中的所有数据点均称为类内点,将初始类簇之外的任意一个数据点称为类外点;
当初始类簇中包含的数据点的个数小于数据点数量阈值时,获取初始类簇中各个数据点的斜率信息混乱程度最大的一个类内点,对初始类簇进行扩充,包括:根据所得类内点和类外点确定判断条件,并获取满足判断条件的所有类外点,将所得所有类外点划分到初始类簇中,得到扩充后的初始类簇;
如果扩充后的初始类簇中包含的数据点的个数仍小于数据点数量阈值,按照初始类簇中各个数据点的斜率信息混乱程度从大到小的顺序获取下一个类内点,对初始类簇进行扩充,直到所得类簇中包含的数据点的个数大于等于数据点数量阈值,将扩充后的初始类簇作为一个类簇;
依次对待清洗数据集中的各个数据点进行处理,得到主要模式对应的各个类簇。
5.根据权利要求4所述的用于神经网络训练的大数据特征清洗方法,其特征在于,所述根据所得类内点和类外点确定判断条件,并获取满足判断条件的所有类外点的步骤包括:
对一个类外点进行条件一、条件二的判断,包括:
条件一:类外点为未访问状态;
条件二:获取所得类内点与其邻域密度半径范围内各个数据点对应的差值,如果这些差值均小于混乱程度差值阈值,同时类外点也处于这个邻域密度半径范围内;
依次对对各个类外点进行判断,获取满足判断条件的所有类外点。
6.根据权利要求1所述的用于神经网络训练的大数据特征清洗方法,其特征在于,所述各个类簇的场景影响因子的获取步骤包括:
计算各个类簇特征点的横坐标与纵坐标之间的乘积,根据所得乘积得到各个类簇的影响参数;计算待清洗数据集中所有类簇的影响参数的累加和,计算各个类簇的影响参数与所得累加和的比值,将常数1.0与各个比值之间的差值作为各个类簇的场景影响因子。
7.根据权利要求1所述的用于神经网络训练的大数据特征清洗方法,其特征在于,所述各个类簇的异常程度的获取步骤包括:
计算各个类簇的离群因子之间的累加和,计算各个类簇的离群因子与所得累加和之间的比值,将所得各个比值与各个类簇的场景影响因子之间的乘积作为各个类簇的异常程度。
8.用于神经网络训练的大数据特征清洗系统,其特征在于,该系统包括以下模块:
待清洗数据集获取模块,用以获取风电机组运行过程中的各个数据点,得到待清洗数据集;
数据集类簇划分模块,用以获取待清洗数据集的全局平均距离,根据全局平均距离得到邻域密度半径以及数据点数量阈值;获取待清洗数据集中各个数据点的斜率信息混乱程度;根据混乱程度差值阈值、待清洗数据集中各个数据点的斜率信息混乱程度得到初始类簇;当初始类簇中包含的数据点的个数小于数据点数量阈值时,对初始类簇进行扩充,直到初始类簇中包含的数据点的个数不小于数据点数量阈值;对待清洗数据集中不属于初始类簇的各个数据点进行类簇划分,得到主要模式对应的各个类簇;将待清洗数据集中不属于主要模式对应的各个类簇的数据点记为非主要模式的数据点;对非主要模式的数据点进行聚类,得到非主要模式的各个类簇,主要模式的各个类簇与非主要模式的各个类簇构成了待清洗数据集的所有类簇;
类簇异常程度获取模块,用以获取待清洗数据集中各个类簇的类簇特征点;根据各个类簇的类簇特征点计算各个类簇的场景影响因子以及各个类簇的离群因子;根据各个类簇的场景影响因子以及离群因子得到各个类簇的异常程度;
数据清洗模块,用以根据各个类簇的异常程度对待清洗数据集进行数据清洗。
CN202310079633.5A 2023-02-07 2023-02-07 用于神经网络训练的大数据特征清洗方法及系统 Active CN116166960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310079633.5A CN116166960B (zh) 2023-02-07 2023-02-07 用于神经网络训练的大数据特征清洗方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310079633.5A CN116166960B (zh) 2023-02-07 2023-02-07 用于神经网络训练的大数据特征清洗方法及系统

Publications (2)

Publication Number Publication Date
CN116166960A true CN116166960A (zh) 2023-05-26
CN116166960B CN116166960B (zh) 2023-09-29

Family

ID=86415959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310079633.5A Active CN116166960B (zh) 2023-02-07 2023-02-07 用于神经网络训练的大数据特征清洗方法及系统

Country Status (1)

Country Link
CN (1) CN116166960B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116360956A (zh) * 2023-06-02 2023-06-30 济南大陆机电股份有限公司 用于大数据任务调度的数据智能处理方法及系统
CN116413395A (zh) * 2023-06-08 2023-07-11 山东瑞程数据科技有限公司 一种环境异常智能检测方法
CN116628289A (zh) * 2023-07-25 2023-08-22 泰能天然气有限公司 一种供暖系统运行数据处理方法及策略优化系统
CN117171693A (zh) * 2023-10-30 2023-12-05 山东交通学院 一种木工打磨过程中的切割异常检测方法

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007026134A (ja) * 2005-07-19 2007-02-01 Matsushita Electric Works Ltd 異常判定装置
CN105183780A (zh) * 2015-08-12 2015-12-23 中国工程物理研究院计算机应用研究所 基于改进agnes算法的协议分类方法
CN105512206A (zh) * 2015-11-27 2016-04-20 河海大学 一种基于聚类的离群点检测方法
CN105719266A (zh) * 2014-12-02 2016-06-29 马鞍山森格电子科技有限公司 基于纹理特征聚类的磁瓦表面缺陷检测方法
CN106101102A (zh) * 2016-06-15 2016-11-09 华东师范大学 一种基于pam聚类算法的网络异常流量检测方法
US20170339168A1 (en) * 2016-05-20 2017-11-23 Informatica Llc Method, apparatus, and computer-readable medium for detecting anomalous user behavior
WO2019200742A1 (zh) * 2018-04-17 2019-10-24 平安科技(深圳)有限公司 短期盈利的预测方法、装置、计算机设备和存储介质
CN111080356A (zh) * 2019-12-11 2020-04-28 西南科技大学 一种利用机器学习回归模型计算住宅价格影响因素的方法
CN114036845A (zh) * 2021-11-11 2022-02-11 国网新疆电力有限公司乌鲁木齐供电公司 一种风电场群模型构建方法
CN114116829A (zh) * 2020-08-31 2022-03-01 中兴通讯股份有限公司 异常数据分析方法、异常数据分析系统和存储介质
CN114494059A (zh) * 2022-01-24 2022-05-13 燕山大学 基于局部密度和改进模糊c均值的环形锻件点云去噪方法
WO2022126971A1 (zh) * 2020-12-16 2022-06-23 平安科技(深圳)有限公司 基于密度的文本聚类方法、装置、设备及存储介质
CN114792300A (zh) * 2022-01-27 2022-07-26 河南大学 一种基于多尺度注意力x光断针检测方法
CN115292303A (zh) * 2022-10-08 2022-11-04 太极计算机股份有限公司 数据处理方法及装置
CN115293290A (zh) * 2022-08-29 2022-11-04 重庆理工大学 一种自动识别聚类数的层次聚类算法
CN115600119A (zh) * 2022-12-13 2023-01-13 青岛左岸数据科技有限公司(Cn) 适用于风力发电的数据处理方法及系统

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007026134A (ja) * 2005-07-19 2007-02-01 Matsushita Electric Works Ltd 異常判定装置
CN105719266A (zh) * 2014-12-02 2016-06-29 马鞍山森格电子科技有限公司 基于纹理特征聚类的磁瓦表面缺陷检测方法
CN105183780A (zh) * 2015-08-12 2015-12-23 中国工程物理研究院计算机应用研究所 基于改进agnes算法的协议分类方法
CN105512206A (zh) * 2015-11-27 2016-04-20 河海大学 一种基于聚类的离群点检测方法
US20170339168A1 (en) * 2016-05-20 2017-11-23 Informatica Llc Method, apparatus, and computer-readable medium for detecting anomalous user behavior
CN106101102A (zh) * 2016-06-15 2016-11-09 华东师范大学 一种基于pam聚类算法的网络异常流量检测方法
WO2019200742A1 (zh) * 2018-04-17 2019-10-24 平安科技(深圳)有限公司 短期盈利的预测方法、装置、计算机设备和存储介质
CN111080356A (zh) * 2019-12-11 2020-04-28 西南科技大学 一种利用机器学习回归模型计算住宅价格影响因素的方法
CN114116829A (zh) * 2020-08-31 2022-03-01 中兴通讯股份有限公司 异常数据分析方法、异常数据分析系统和存储介质
WO2022126971A1 (zh) * 2020-12-16 2022-06-23 平安科技(深圳)有限公司 基于密度的文本聚类方法、装置、设备及存储介质
CN114036845A (zh) * 2021-11-11 2022-02-11 国网新疆电力有限公司乌鲁木齐供电公司 一种风电场群模型构建方法
CN114494059A (zh) * 2022-01-24 2022-05-13 燕山大学 基于局部密度和改进模糊c均值的环形锻件点云去噪方法
CN114792300A (zh) * 2022-01-27 2022-07-26 河南大学 一种基于多尺度注意力x光断针检测方法
CN115293290A (zh) * 2022-08-29 2022-11-04 重庆理工大学 一种自动识别聚类数的层次聚类算法
CN115292303A (zh) * 2022-10-08 2022-11-04 太极计算机股份有限公司 数据处理方法及装置
CN115600119A (zh) * 2022-12-13 2023-01-13 青岛左岸数据科技有限公司(Cn) 适用于风力发电的数据处理方法及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
D. HUANG等: "Strong Wind Data Augmentation Based on F-DBSCAN and C-SMOTE for Wind Power Forecasting", 《IEEE 5TH CONFERENCE ON ENERGY INTERNET AND ENERGY SYSTEM INTEGRATION (EI2)》, pages 2992 - 2998 *
LINA WANG等: "Outlier Detection of Mixed Data Based on Neighborhood Combinatorial Entropy", 《COMPUTERS, MATERIALS & CONTINUA》, vol. 69, no. 2, pages 1765 - 1781 *
Q. YAO: "Power Curve Modeling for Wind Turbine Using Hybrid-driven Outlier Detection Method", 《JOURNAL OF MODERN POWER SYSTEMS AND CLEAN ENERGY》, vol. 11, no. 4, pages 1115 - 1125 *
程东东: "基于局部核心点的聚类算法与度量研究", 《中国优秀博士学位论文全文数据库:信息科技辑》, no. 9, pages 1 - 123 *
陈瑜: "离群点检测算法研究", 《中国优秀硕士学位论文全文数据库:信息科技》, no. 11, pages 1 - 58 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116360956A (zh) * 2023-06-02 2023-06-30 济南大陆机电股份有限公司 用于大数据任务调度的数据智能处理方法及系统
CN116360956B (zh) * 2023-06-02 2023-08-08 济南大陆机电股份有限公司 用于大数据任务调度的数据智能处理方法及系统
CN116413395A (zh) * 2023-06-08 2023-07-11 山东瑞程数据科技有限公司 一种环境异常智能检测方法
CN116413395B (zh) * 2023-06-08 2023-08-25 山东瑞程数据科技有限公司 一种环境异常智能检测方法
CN116628289A (zh) * 2023-07-25 2023-08-22 泰能天然气有限公司 一种供暖系统运行数据处理方法及策略优化系统
CN116628289B (zh) * 2023-07-25 2023-12-01 泰能天然气有限公司 一种供暖系统运行数据处理方法及策略优化系统
CN117171693A (zh) * 2023-10-30 2023-12-05 山东交通学院 一种木工打磨过程中的切割异常检测方法
CN117171693B (zh) * 2023-10-30 2024-01-26 山东交通学院 一种木工打磨过程中的切割异常检测方法

Also Published As

Publication number Publication date
CN116166960B (zh) 2023-09-29

Similar Documents

Publication Publication Date Title
CN116166960B (zh) 用于神经网络训练的大数据特征清洗方法及系统
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN110443281B (zh) 基于hdbscan聚类的文本分类自适应过采样方法
CN109873779B (zh) 一种基于lstm的分级式无线信号调制类型识别方法
WO2021238455A1 (zh) 数据处理方法、设备及计算机可读存储介质
CN112633382B (zh) 一种基于互近邻的少样本图像分类方法及系统
CN110807781B (zh) 一种保留细节与边界特征的点云精简方法
CN110909977A (zh) 基于adasyn-dhsd-et的电网故障诊断方法
CN112084914B (zh) 一种融合空间运动和表观特征学习的多目标跟踪方法
CN112579823B (zh) 基于特征融合和增量滑动窗口的视频摘要生成方法及系统
CN112184746A (zh) 一种输电线绝缘子缺陷分析方法
CN106951915A (zh) 一种基于类别置信度的一维距离像多分类器融合识别法
CN105930792A (zh) 一种基于视频局部特征字典的人体动作分类方法
CN113327272B (zh) 一种基于相关滤波的鲁棒性长时跟踪方法
CN107067022B (zh) 图像分类模型的建立方法、建立装置和设备
CN112507778B (zh) 一种基于线特征的改进词袋模型的回环检测方法
CN104484680A (zh) 一种多模型多阈值组合的行人检测方法
US20110081074A1 (en) Method of Computing Global-to-Local Metrics for Recognition
CN111832462A (zh) 一种基于深度神经网络的跳频信号检测与参数估计方法
CN114386466B (zh) 一种用于脉冲星搜寻中候选体信号挖掘的并行的混合聚类方法
CN115861738A (zh) 一种类别语义信息引导的遥感目标检测主动采样方法
CN112287906B (zh) 一种基于深度特征融合的模板匹配跟踪方法及系统
CN113064133B (zh) 一种基于时频域深度网络的海面小目标特征检测方法
CN114359632A (zh) 一种基于改进PointNet++神经网络的点云目标分类方法
CN109447135A (zh) 一种新的船舶轨迹聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230906

Address after: B3-2409, 1861 Creative Industry Park, No. 5, Tongshi South Road, Zhifu District, Yantai City, Shandong Province 264000

Applicant after: Shandong JINGDING Intelligent Technology Co.,Ltd.

Address before: 450000 no.379, north section of Mingli Road, Zhengdong New District, Zhengzhou City, Henan Province

Applicant before: Henan University

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant