CN111597934A - 用于为统计应用处理训练数据的系统和方法 - Google Patents

用于为统计应用处理训练数据的系统和方法 Download PDF

Info

Publication number
CN111597934A
CN111597934A CN202010367352.6A CN202010367352A CN111597934A CN 111597934 A CN111597934 A CN 111597934A CN 202010367352 A CN202010367352 A CN 202010367352A CN 111597934 A CN111597934 A CN 111597934A
Authority
CN
China
Prior art keywords
data
training
training data
module
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010367352.6A
Other languages
English (en)
Inventor
王洪珂
王昌酉
丁昌华
袁玉兴
杨文艳
李海霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Science and Technology
Original Assignee
Chongqing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Science and Technology filed Critical Chongqing University of Science and Technology
Priority to CN202010367352.6A priority Critical patent/CN111597934A/zh
Publication of CN111597934A publication Critical patent/CN111597934A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/02Preprocessing
    • G06F2218/04Denoising
    • G06F2218/06Denoising by applying a scale-space analysis, e.g. using wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/66Analysis of geometric attributes of image moments or centre of gravity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于数据训练处理技术领域,公开了一种用于为统计应用处理训练数据的系统和方法,所述用于为统计应用处理训练数据的系统包括:待训练数据获取模块、数据预处理模块、置信度计算模块、中央控制模块、数据训练模块、训练纠正模块、训练结果输出模块、结果评价模块、数据存储模块、显示模块。本发明通过增加的噪声数据来抵消原有噪声数据对模型训练的影响,进而提高模型的识别准确率,同时也减少了获取训练数据的时间成本以及人力和财力成本。在训练数据聚合的前提下,通过随机读取索引向量取值,可以从聚合训练数据中获取对应的训练数据,保证了用于模型训练的训练数据的随机性,从而可以在节省内存的基础上改善模型训练效果。

Description

用于为统计应用处理训练数据的系统和方法
技术领域
本发明属于数据训练处理技术领域,尤其涉及一种用于为统计应用处理训练数据的系统和方法。
背景技术
目前,最接近的现有技术:统计分类有两种被广泛认可的含义。第一,基于一组观察结果或数据,统计分类试图建立数据中类或聚类的存在。这种类型的统计分类被称为无监督学习(或聚类)。第二,类的存在可能是预先知道的。在第二种情况下,统计分类试图建立单个规则或多个规则,由此,新的观察结果被分类为已知的现存类中的一个。这种类型的统计分类被称为监督式学习。
监督式学习在工业和技术应用上拥有广泛的适用性。例如,监督式学习可用于为机器视觉识别建立单个规则或多个规则。基于所建立的(一个或多个)规则的机器视觉识别可用于引导或控制自动化制造过程。在监督式学习中,选择被认为是代表所定义的(一个或多个)分类的一组测量。基于所选择的测量,创建训练数据。根据所定义的分类标记训练数据中的每个元素。随后,基于所标记的训练数据,各种方法可用于分类以后所观察的数据元素。
“最近邻居(nearest neighbor)”分类方法测量从所观察的数据元素到训练数据中每个数据元素的距离(例如,使用合适的加权度量计算)。从训练数据中选择N个最近的数据元素。在这N个最近的数据元素中最频繁出现地类被用于分类所观察的数据元素。这种分类方法假定训练数据元素的分类是正确的。然而,由于多种原因。分类可能有许多错误。错误分类的数量与分类方法的准确度有关。具体地说,训练数据中错误分类的数量越大,导致分类性能准确度越低。从而,分类数据的数据完整性在监督式学习应用中是个重要的考虑因素。同时,现有数据训练方法未对待训练数据进行降噪等处理,导致数据训练结果存在较大误差。
综上所述,现有技术存在的问题是:现有训练数据的分类方法存在许多错误,训练数据中错误分类的数量越大,导致分类性能准确度越低。同时,现有数据训练方法未对待训练数据进行降噪等处理,导致数据训练结果存在较大误差。
发明内容
针对现有技术存在的问题,本发明提供了一种用于为统计应用处理训练数据的系统和方法。
本发明是这样实现的,一种用于为统计应用处理训练数据的方法,所述用于为统计应用处理训练数据的方法包括:
步骤一,通过训练数据获取装置获取待训练的数据;通过数据预处理程序对待训练数据进行降噪、增强处理;对待训练数据带噪放电信号进行去噪处理,采集的故障点待训练数据放电带噪声音信号为y(n),加窗处理后得到第i帧信号为yi(n),将其做DFT后为Yi(w),其幅值为|Yi(w)|,前导无话段的噪声平均能量为
Figure BDA0002477066700000021
a为过减因子,b为增益补偿因子,谱减后信号的幅值为
Figure BDA0002477066700000022
利用待训练数据信号对相位不敏感的特性,谱减后信号的幅值结合谱减前信号的相位经傅里叶逆变换即可得到经过谱减处理,即已初步消噪的待训练数据信号,谱减算法为:
Figure BDA0002477066700000023
根据小波与采集信号样本数据的特性确定小波基与小波分解层数,阶数的小波取3~5;
步骤二,通过置信度计算程序计算所述多个训练数据结构中的每个的相应的置信度值;
步骤三,通过中央控制器控制处理训练数据的系统的正常运行;通过数据训练程序利用数据训练模型对已赋予置信度值的数据进行训练处理;
步骤四,通过训练纠正程序对数据训练结果进行纠正处理;通过结果输出程序输出训练结果;通过结果评价程序对输出的训练结果进行评价;
步骤五,通过微型存储芯片存储获取的待训练数据、数据训练模型、训练结果以及训练评价的实时数据;
步骤六,通过显示器显示获取的待训练数据、数据训练模型、训练结果以及训练评价的实时数据;对显示器图像进行过分割和模板参数提取,对整个输入图像,以8*8个像素为单元,计算每个单元的平均灰度值和每个单元的最大灰度值,得到至少一个区域,同一个所述区域中各个像素点的颜色值相同;确定每个区域的颜色值和质心;根据各个区域所对应的颜色值以及各个区域的质心,建立所述显著性模型;
显著性模型为:
Figure BDA0002477066700000031
其中,Si1为区域Ri中任一像素点的显著性值,w(Rj)为区域Rj中的像素点的个数,DS(Ri,Rj)用于表征所述区域Ri和所述区域Rj之间空间位置差异的度量值,DC(Ri,Rj)用于表征所述区域Ri和所述区域Rj之间颜色差异的度量值,N为对所述图像进行过分割后得到的区域的总个数,DS(Ri,Rj)为:DS(Ri,Rj)=exp(-(Center(Ri)-Center(Rj))2s 2);Center(Ri)为所述区域Ri的质心,Center(Rj)为所述区域Rj的质心,当所述图像中各个像素点的坐标均归一化到[0,1]时;
Figure BDA0002477066700000032
进一步,所述训练数据获取模块的训练数据获取方法如下:
(1)获取目标训练数据子集,所述目标训练数据子集为初始训练数据集的多个训练数据子集中的任意一个,所述多个训练数据子集中的每个训练数据子集分别对应一个类别标签;
(2)在所述初始训练数据集的训练数据子集中,获取除所述目标训练数据子集之外的第一参考数量个训练数据子集;
(3)在所述第一参考数量个训练数据子集中,获取每一个训练数据子集中第二参考数量个训练数据,得到第一参考数量组的训练数据;
(4)将所述第一参考数量组的训练数据添加到所述目标训练数据子集中,得到更新后的目标训练数据子集,基于所述更新后的目标训练数据子集及所述初始训练数据集中剩余的训练数据子集获取用于对机器学习模型进行训练的目标训练数据。
进一步,所述第二参考数量根据参考比例、所述初始训练数据集中训练数据子集的数量以及每一个训练数据子集包含的训练数据的数量确定,所述参考比例用于确定增加的训练数据的数量。
进一步,所述置信度计算模块的待训练数据的置信度计算方法如下:
(I)访问多个已获取的训练数据结构,其中,每个训练数据结构包括多个特征变量和标识多个类中的一个的变量;
(II)计算所述多个训练数据结构中的每个的相应的置信度值,所述置信度值指示了所述相应的训练数据结构属于其所标识的类的概率;
(III)生成用于散点图的图形用户接口,所述散点图可视地指示所述多个训练数据结构的置信度值;所述散点图中用所述置信度值注释点的至少一个子集。
进一步,步骤(III)中,所述显示步骤使用预定颜色以标识与低于阂值的置信度值相关联的训练数据结构;所述阂值是通过接收来自用户的输入而确定的;所述图形用户接口标识所述散点图的与所述多个类中的每个相关联的区域。
进一步,所述数据训练模块的对待训练数据进行训练的方法如下:
1)获取原始训练数据,并对原始训练数据进行聚合,得到聚合训练数据;
2)根据所述原始训练数据与所述聚合训练数据建立索引向量,所述索引向量取值的绝对值用于指示原始训练数据中训练数据在聚合训练数据中的位置;
3)随机读取索引向量的取值,根据所述取值从所述聚合训练数据中获取对应的训练数据;并利用获取到的训练数据进行模型训练。
本发明的另一目的在于提供一种应用所述用于为统计应用处理训练数据的方法的用于为统计应用处理训练数据的系统,所述用于为统计应用处理训练数据的系统包括:
待训练数据获取模块,与中央控制模块连接,用于通过训练数据获取装置获取待训练的数据;
数据预处理模块,与中央控制模块连接,用于通过数据预处理程序对待训练数据进行降噪、增强处理;
置信度计算模块,与中央控制模块连接,用于通过置信度计算程序计算所述多个训练数据结构中的每个的相应的置信度值;
中央控制模块,与待训练数据获取模块、数据预处理模块、置信度计算模块、数据训练模块、训练纠正模块、训练结果输出模块、结果评价模块、数据存储模块、显示模块连接,用于通过中央控制器控制各个模块的正常运行;
数据训练模块,与中央控制模块连接,用于通过数据训练程序利用数据训练模型对已赋予置信度值的数据进行训练处理;
训练纠正模块,与中央控制模块连接,用于通过训练纠正程序对数据训练结果进行纠正处理;
训练结果输出模块,与中央控制模块连接,用于通过结果输出程序输出训练结果;
结果评价模块,与中央控制模块连接,用于通过结果评价程序对输出的训练结果进行评价;
数据存储模块,与中央控制模块连接,用于通过微型存储芯片存储获取的待训练数据、数据训练模型、训练结果以及训练评价的实时数据;
显示模块,与中央控制模块连接,用于通过显示器显示获取的待训练数据、数据训练模型、训练结果以及训练评价的实时数据。
本发明的另一目的在于提供一种接收用户输入程序存储介质,所存储的计算机程序使电子设备执行权利要求任意一项所述包括下列步骤:
步骤一,通过训练数据获取装置获取待训练的数据;通过数据预处理程序对待训练数据进行降噪、增强处理。
步骤二,通过置信度计算程序计算所述多个训练数据结构中的每个的相应的置信度值。
步骤三,通过中央控制器控制处理训练数据的系统的正常运行;通过数据训练程序利用数据训练模型对已赋予置信度值的数据进行训练处理。
步骤四,通过训练纠正程序对数据训练结果进行纠正处理;通过结果输出程序输出训练结果;通过结果评价程序对输出的训练结果进行评价。
步骤五,通过微型存储芯片存储获取的待训练数据、数据训练模型、训练结果以及训练评价的实时数据。
步骤六,通过显示器显示获取的待训练数据、数据训练模型、训练结果以及训练评价的实时数据。
本发明的另一目的在于提供一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施所述的用于为统计应用处理训练数据的方法。
本发明的另一目的在于提供一种终端,所述终端搭载所述的用于为统计应用处理训练数据的系统。
综上所述,本发明的优点及积极效果为:本发明提供的用于为统计应用处理训练数据的系统和方法,通过待训练数据获取模块在同一初始训练数据集中获取数据并将获取的训练数据添加到目标训练数据子集,利用增加数据后的目标训练数据子集及初始训练数据集中剩余的训练数据子集来获取训练机器学习模型的目标训练数据,从而能够通过增加的噪声数据来抵消原有噪声数据对模型训练的影响,进而提高模型的识别准确率,同时也减少了获取训练数据的时间成本以及人力和财力成本。通过数据训练模块在训练数据聚合的前提下,通过随机读取索引向量取值,可以从聚合训练数据中获取对应的训练数据,保证了用于模型训练的训练数据的随机性,从而可以在节省内存的基础上改善模型训练效果。
附图说明
图1是本发明实施例提供的用于为统计应用处理训练数据的方法流程图。
图2是本发明实施例提供的用于为统计应用处理训练数据的系统结构示意图;
图中:1、待训练数据获取模块;2、数据预处理模块;3、置信度计算模块;4、中央控制模块;5、数据训练模块;6、训练纠正模块;7、训练结果输出模块;8、结果评价模块;9、数据存储模块;10、显示模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种用于为统计应用处理训练数据的系统和方法,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的用于为统计应用处理训练数据的方法包括以下步骤:
S101,通过训练数据获取装置获取待训练的数据;通过数据预处理程序对待训练数据进行降噪、增强处理。
S102,通过置信度计算程序计算所述多个训练数据结构中的每个的相应的置信度值。
S103,通过中央控制器控制处理训练数据的系统的正常运行;通过数据训练程序利用数据训练模型对已赋予置信度值的数据进行训练处理。
S104,通过训练纠正程序对数据训练结果进行纠正处理;通过结果输出程序输出训练结果;通过结果评价程序对输出的训练结果进行评价。
S105,通过微型存储芯片存储获取的待训练数据、数据训练模型、训练结果以及训练评价的实时数据。
S106,通过显示器显示获取的待训练数据、数据训练模型、训练结果以及训练评价的实时数据。
本发明通过训练数据获取装置获取待训练的数据;通过数据预处理程序对待训练数据进行降噪、增强处理;对待训练数据带噪放电信号进行去噪处理,采集的故障点待训练数据放电带噪声音信号为y(n),加窗处理后得到第i帧信号为yi(n),将其做DFT后为Yi(w),其幅值为|Yi(w)|,前导无话段的噪声平均能量为
Figure BDA0002477066700000081
a为过减因子,b为增益补偿因子,谱减后信号的幅值为
Figure BDA0002477066700000082
利用待训练数据信号对相位不敏感的特性,谱减后信号的幅值结合谱减前信号的相位经傅里叶逆变换即可得到经过谱减处理,即已初步消噪的待训练数据信号,谱减算法为:
Figure BDA0002477066700000083
根据小波与采集信号样本数据的特性确定小波基与小波分解层数,阶数的小波取3~5。
本发明通过显示器显示获取的待训练数据、数据训练模型、训练结果以及训练评价的实时数据;对显示器图像进行过分割和模板参数提取,对整个输入图像,以8*8个像素为单元,计算每个单元的平均灰度值和每个单元的最大灰度值,得到至少一个区域,同一个所述区域中各个像素点的颜色值相同;确定每个区域的颜色值和质心;根据各个区域所对应的颜色值以及各个区域的质心,建立所述显著性模型;
显著性模型为:
Figure BDA0002477066700000091
其中,Si1为区域Ri中任一像素点的显著性值,w(Rj)为区域Rj中的像素点的个数,DS(Ri,Rj)用于表征所述区域Ri和所述区域Rj之间空间位置差异的度量值,DC(Ri,Rj)用于表征所述区域Ri和所述区域Rj之间颜色差异的度量值,N为对所述图像进行过分割后得到的区域的总个数,DS(Ri,Rj)为:DS(Ri,Rj)=exp(-(Center(Ri)-Center(Rj))2s 2);Center(Ri)为所述区域Ri的质心,Center(Rj)为所述区域Rj的质心,当所述图像中各个像素点的坐标均归一化到[0,1]时;
Figure BDA0002477066700000092
如图2所示,本发明实施例提供的用于为统计应用处理训练数据的系统包括:待训练数据获取模块1、数据预处理模块2、置信度计算模块3、中央控制模块4、数据训练模块5、训练纠正模块6、训练结果输出模块7、结果评价模块8、数据存储模块9、显示模块10。
待训练数据获取模块1,与中央控制模块4连接,用于通过训练数据获取装置获取待训练的数据;
数据预处理模块2,与中央控制模块4连接,用于通过数据预处理程序对待训练数据进行降噪、增强处理;
置信度计算模块3,与中央控制模块4连接,用于通过置信度计算程序计算所述多个训练数据结构中的每个的相应的置信度值;
中央控制模块4,与待训练数据获取模块1、数据预处理模块2、置信度计算模块3、数据训练模块5、训练纠正模块6、训练结果输出模块7、结果评价模块8、数据存储模块9、显示模块10连接,用于通过中央控制器控制各个模块的正常运行;
数据训练模块5,与中央控制模块4连接,用于通过数据训练程序利用数据训练模型对已赋予置信度值的数据进行训练处理;
训练纠正模块6,与中央控制模块4连接,用于通过训练纠正程序对数据训练结果进行纠正处理;
训练结果输出模块7,与中央控制模块4连接,用于通过结果输出程序输出训练结果;
结果评价模块8,与中央控制模块4连接,用于通过结果评价程序对输出的训练结果进行评价;
数据存储模块9,与中央控制模块4连接,用于通过微型存储芯片存储获取的待训练数据、数据训练模型、训练结果以及训练评价的实时数据;
显示模块10,与中央控制模块4连接,用于通过显示器显示获取的待训练数据、数据训练模型、训练结果以及训练评价的实时数据。
下面结合实施例对本发明作进一步描述。
实施例1
本发明实施例提供的用于为统计应用处理训练数据的方法如图1所示,作为优选实施例,本发明实施例提供的训练数据获取模块的训练数据获取方法如下:
(1)获取目标训练数据子集,所述目标训练数据子集为初始训练数据集的多个训练数据子集中的任意一个,所述多个训练数据子集中的每个训练数据子集分别对应一个类别标签。
(2)在所述初始训练数据集的训练数据子集中,获取除所述目标训练数据子集之外的第一参考数量个训练数据子集。
(3)在所述第一参考数量个训练数据子集中,获取每一个训练数据子集中第二参考数量个训练数据,得到第一参考数量组的训练数据。
(4)将所述第一参考数量组的训练数据添加到所述目标训练数据子集中,得到更新后的目标训练数据子集,基于所述更新后的目标训练数据子集及所述初始训练数据集中剩余的训练数据子集获取用于对机器学习模型进行训练的目标训练数据。
本发明实施例提供的第二参考数量根据参考比例、所述初始训练数据集中训练数据子集的数量以及每一个训练数据子集包含的训练数据的数量确定,所述参考比例用于确定增加的训练数据的数量。
实施例2
本发明实施例提供的用于为统计应用处理训练数据的方法如图1所示,作为优选实施例,本发明实施例提供的置信度计算模块的待训练数据的置信度计算方法如下:
(I)访问多个已获取的训练数据结构,其中,每个训练数据结构包括多个特征变量和标识多个类中的一个的变量。
(II)计算所述多个训练数据结构中的每个的相应的置信度值,所述置信度值指示了所述相应的训练数据结构属于其所标识的类的概率。
(III)生成用于散点图的图形用户接口,所述散点图可视地指示所述多个训练数据结构的置信度值;所述散点图中用所述置信度值注释点的至少一个子集。
本发明实施例提供的步骤(III)中,显示步骤使用预定颜色以标识与低于阂值的置信度值相关联的训练数据结构;所述阂值是通过接收来自用户的输入而确定的;所述图形用户接口标识所述散点图的与所述多个类中的每个相关联的区域。
实施例3
本发明实施例提供的用于为统计应用处理训练数据的方法如图1所示,作为优选实施例,本发明实施例提供的数据训练模块的对待训练数据进行训练的方法如下:
1)获取原始训练数据,并对原始训练数据进行聚合,得到聚合训练数据。
2)根据所述原始训练数据与所述聚合训练数据建立索引向量,所述索引向量取值的绝对值用于指示原始训练数据中训练数据在聚合训练数据中的位置。
3)随机读取索引向量的取值,根据所述取值从所述聚合训练数据中获取对应的训练数据;并利用获取到的训练数据进行模型训练。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用于为统计应用处理训练数据的方法,其特征在于,所述用于为统计应用处理训练数据的方法包括:
步骤一,通过训练数据获取装置获取待训练的数据;通过数据预处理程序对待训练数据进行降噪、增强处理;对待训练数据带噪放电信号进行去噪处理,采集的故障点待训练数据放电带噪声音信号为y(n),加窗处理后得到第i帧信号为yi(n),将其做DFT后为Yi(w),其幅值为|Yi(w)|,前导无话段的噪声平均能量为
Figure FDA0002477066690000011
a为过减因子,b为增益补偿因子,谱减后信号的幅值为
Figure FDA0002477066690000012
利用待训练数据信号对相位不敏感的特性,谱减后信号的幅值结合谱减前信号的相位经傅里叶逆变换即可得到经过谱减处理,即已初步消噪的待训练数据信号,谱减算法为:
Figure FDA0002477066690000013
根据小波与采集信号样本数据的特性确定小波基与小波分解层数,阶数的小波取3~5;
步骤二,通过置信度计算程序计算所述多个训练数据结构中的每个的相应的置信度值;
步骤三,通过中央控制器控制处理训练数据的系统的正常运行;通过数据训练程序利用数据训练模型对已赋予置信度值的数据进行训练处理;
步骤四,通过训练纠正程序对数据训练结果进行纠正处理;通过结果输出程序输出训练结果;通过结果评价程序对输出的训练结果进行评价;
步骤五,通过微型存储芯片存储获取的待训练数据、数据训练模型、训练结果以及训练评价的实时数据;
步骤六,通过显示器显示获取的待训练数据、数据训练模型、训练结果以及训练评价的实时数据;对显示器图像进行过分割和模板参数提取,对整个输入图像,以8*8个像素为单元,计算每个单元的平均灰度值和每个单元的最大灰度值,得到至少一个区域,同一个所述区域中各个像素点的颜色值相同;确定每个区域的颜色值和质心;根据各个区域所对应的颜色值以及各个区域的质心,建立所述显著性模型;
显著性模型为:
Figure FDA0002477066690000021
其中,Si1为区域Ri中任一像素点的显著性值,w(Rj)为区域Rj中的像素点的个数,DS(Ri,Rj)用于表征所述区域Ri和所述区域Rj之间空间位置差异的度量值,DC(Ri,Rj)用于表征所述区域Ri和所述区域Rj之间颜色差异的度量值,N为对所述图像进行过分割后得到的区域的总个数,DS(Ri,Rj)为:
Figure FDA0002477066690000022
Center(Ri)为所述区域Ri的质心,Center(Rj)为所述区域Rj的质心,当所述图像中各个像素点的坐标均归一化到[0,1]时;
Figure FDA0002477066690000023
2.如权利要求1所述的用于为统计应用处理训练数据的方法,其特征在于,所述训练数据获取模块的训练数据获取方法如下:
(1)获取目标训练数据子集,所述目标训练数据子集为初始训练数据集的多个训练数据子集中的任意一个,所述多个训练数据子集中的每个训练数据子集分别对应一个类别标签;
(2)在所述初始训练数据集的训练数据子集中,获取除所述目标训练数据子集之外的第一参考数量个训练数据子集;
(3)在所述第一参考数量个训练数据子集中,获取每一个训练数据子集中第二参考数量个训练数据,得到第一参考数量组的训练数据;
(4)将所述第一参考数量组的训练数据添加到所述目标训练数据子集中,得到更新后的目标训练数据子集,基于所述更新后的目标训练数据子集及所述初始训练数据集中剩余的训练数据子集获取用于对机器学习模型进行训练的目标训练数据。
3.如权利要求2所述的用于为统计应用处理训练数据的方法,其特征在于,所述第二参考数量根据参考比例、所述初始训练数据集中训练数据子集的数量以及每一个训练数据子集包含的训练数据的数量确定,所述参考比例用于确定增加的训练数据的数量。
4.如权利要求1所述的用于为统计应用处理训练数据的方法,其特征在于,所述置信度计算模块的待训练数据的置信度计算方法如下:
(I)访问多个已获取的训练数据结构,其中,每个训练数据结构包括多个特征变量和标识多个类中的一个的变量;
(II)计算所述多个训练数据结构中的每个的相应的置信度值,所述置信度值指示了所述相应的训练数据结构属于其所标识的类的概率;
(III)生成用于散点图的图形用户接口,所述散点图可视地指示所述多个训练数据结构的置信度值;所述散点图中用所述置信度值注释点的至少一个子集。
5.如权利要求4所述的用于为统计应用处理训练数据的方法,其特征在于,步骤(III)中,所述显示步骤使用预定颜色以标识与低于阂值的置信度值相关联的训练数据结构;所述阂值是通过接收来自用户的输入而确定的;所述图形用户接口标识所述散点图的与所述多个类中的每个相关联的区域。
6.如权利要求1所述的用于为统计应用处理训练数据的方法,其特征在于,所述数据训练模块的对待训练数据进行训练的方法如下:
1)获取原始训练数据,并对原始训练数据进行聚合,得到聚合训练数据;
2)根据所述原始训练数据与所述聚合训练数据建立索引向量,所述索引向量取值的绝对值用于指示原始训练数据中训练数据在聚合训练数据中的位置;
3)随机读取索引向量的取值,根据所述取值从所述聚合训练数据中获取对应的训练数据;并利用获取到的训练数据进行模型训练。
7.一种应用如权利要求1~6任意一项所述用于为统计应用处理训练数据的方法的用于为统计应用处理训练数据的系统,其特征在于,所述用于为统计应用处理训练数据的系统包括:
待训练数据获取模块,与中央控制模块连接,用于通过训练数据获取装置获取待训练的数据;
数据预处理模块,与中央控制模块连接,用于通过数据预处理程序对待训练数据进行降噪、增强处理;
置信度计算模块,与中央控制模块连接,用于通过置信度计算程序计算所述多个训练数据结构中的每个的相应的置信度值;
中央控制模块,与待训练数据获取模块、数据预处理模块、置信度计算模块、数据训练模块、训练纠正模块、训练结果输出模块、结果评价模块、数据存储模块、显示模块连接,用于通过中央控制器控制各个模块的正常运行;
数据训练模块,与中央控制模块连接,用于通过数据训练程序利用数据训练模型对已赋予置信度值的数据进行训练处理;
训练纠正模块,与中央控制模块连接,用于通过训练纠正程序对数据训练结果进行纠正处理;
训练结果输出模块,与中央控制模块连接,用于通过结果输出程序输出训练结果;
结果评价模块,与中央控制模块连接,用于通过结果评价程序对输出的训练结果进行评价;
数据存储模块,与中央控制模块连接,用于通过微型存储芯片存储获取的待训练数据、数据训练模型、训练结果以及训练评价的实时数据;
显示模块,与中央控制模块连接,用于通过显示器显示获取的待训练数据、数据训练模型、训练结果以及训练评价的实时数据。
8.一种接收用户输入程序存储介质,所存储的计算机程序使电子设备执行权利要求任意一项所述包括下列步骤:
步骤一,通过训练数据获取装置获取待训练的数据;通过数据预处理程序对待训练数据进行降噪、增强处理;
步骤二,通过置信度计算程序计算所述多个训练数据结构中的每个的相应的置信度值;
步骤三,通过中央控制器控制处理训练数据的系统的正常运行;通过数据训练程序利用数据训练模型对已赋予置信度值的数据进行训练处理;
步骤四,通过训练纠正程序对数据训练结果进行纠正处理;通过结果输出程序输出训练结果;通过结果评价程序对输出的训练结果进行评价;
步骤五,通过微型存储芯片存储获取的待训练数据、数据训练模型、训练结果以及训练评价的实时数据;
步骤六,通过显示器显示获取的待训练数据、数据训练模型、训练结果以及训练评价的实时数据。
9.一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施如权利要求1~7任意一项所述的用于为统计应用处理训练数据的方法。
10.一种终端,其特征在于,所述终端搭载权利要求7所述的用于为统计应用处理训练数据的系统。
CN202010367352.6A 2020-04-30 2020-04-30 用于为统计应用处理训练数据的系统和方法 Pending CN111597934A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010367352.6A CN111597934A (zh) 2020-04-30 2020-04-30 用于为统计应用处理训练数据的系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010367352.6A CN111597934A (zh) 2020-04-30 2020-04-30 用于为统计应用处理训练数据的系统和方法

Publications (1)

Publication Number Publication Date
CN111597934A true CN111597934A (zh) 2020-08-28

Family

ID=72186930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010367352.6A Pending CN111597934A (zh) 2020-04-30 2020-04-30 用于为统计应用处理训练数据的系统和方法

Country Status (1)

Country Link
CN (1) CN111597934A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112511480A (zh) * 2020-11-10 2021-03-16 展讯半导体(成都)有限公司 二次fft和ifft变换方法及相关产品

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1677381A (zh) * 2004-04-02 2005-10-05 安捷伦科技有限公司 用于为统计应用处理训练数据的系统和方法
CN103996189A (zh) * 2014-05-05 2014-08-20 小米科技有限责任公司 图像分割方法及装置
CN103996211A (zh) * 2014-05-05 2014-08-20 小米科技有限责任公司 图像重定位方法及装置
CN104123720A (zh) * 2014-06-24 2014-10-29 小米科技有限责任公司 图像重定位方法、装置及终端
CN105045819A (zh) * 2015-06-26 2015-11-11 深圳市腾讯计算机系统有限公司 一种训练数据的模型训练方法及装置
CN106885971A (zh) * 2017-03-06 2017-06-23 西安电子科技大学 一种用于电缆故障检测定点仪的智能背景降噪方法
CN110070143A (zh) * 2019-04-29 2019-07-30 北京达佳互联信息技术有限公司 获取训练数据的方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1677381A (zh) * 2004-04-02 2005-10-05 安捷伦科技有限公司 用于为统计应用处理训练数据的系统和方法
CN103996189A (zh) * 2014-05-05 2014-08-20 小米科技有限责任公司 图像分割方法及装置
CN103996211A (zh) * 2014-05-05 2014-08-20 小米科技有限责任公司 图像重定位方法及装置
CN104123720A (zh) * 2014-06-24 2014-10-29 小米科技有限责任公司 图像重定位方法、装置及终端
CN105045819A (zh) * 2015-06-26 2015-11-11 深圳市腾讯计算机系统有限公司 一种训练数据的模型训练方法及装置
CN106885971A (zh) * 2017-03-06 2017-06-23 西安电子科技大学 一种用于电缆故障检测定点仪的智能背景降噪方法
CN110070143A (zh) * 2019-04-29 2019-07-30 北京达佳互联信息技术有限公司 获取训练数据的方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112511480A (zh) * 2020-11-10 2021-03-16 展讯半导体(成都)有限公司 二次fft和ifft变换方法及相关产品
CN112511480B (zh) * 2020-11-10 2022-11-01 展讯半导体(成都)有限公司 二次fft或ifft变换方法及相关产品

Similar Documents

Publication Publication Date Title
CN110163300B (zh) 一种图像分类方法、装置、电子设备及存储介质
WO2021238455A1 (zh) 数据处理方法、设备及计算机可读存储介质
CN109255344B (zh) 一种基于机器视觉的数显式仪表定位与读数识别方法
CN108596630B (zh) 基于深度学习的欺诈交易识别方法、系统及存储介质
CN112200121B (zh) 基于evm和深度学习的高光谱未知目标检测方法
CN111833175A (zh) 基于knn算法的互联网金融平台申请欺诈行为检测方法
CN116612098B (zh) 一种基于图像处理的绝缘子rtv喷涂质量评价方法和装置
CN111539910B (zh) 锈蚀区域检测方法及终端设备
CN116309575A (zh) 基于图像处理的电插头生产质量检测方法
CN111814852A (zh) 图像检测方法、装置、电子设备和计算机可读存储介质
CN114187464A (zh) 复杂环境下激光雷达与视觉融合的多周期目标识别方法
CN111597934A (zh) 用于为统计应用处理训练数据的系统和方法
CN113762151A (zh) 一种故障数据处理方法、系统及故障预测方法
CN113487223A (zh) 一种基于信息融合的风险评估方法和评估系统
CN112784494A (zh) 假阳性识别模型的训练方法、目标识别方法及装置
US20230386023A1 (en) Method for detecting medical images, electronic device, and storage medium
CN112419243A (zh) 一种基于红外图像分析的配电房设备故障识别方法
CN116188445A (zh) 一种产品表面缺陷的检测定位方法、装置及终端设备
CN116486146A (zh) 一种旋转机械设备的故障检测方法、系统、装置和介质
CN116030346A (zh) 基于马尔可夫判别器的非成对弱监督云检测方法及系统
CN112862767B (zh) 基于度量学习的解决难分不平衡样本的表面缺陷检测方法
CN115761211A (zh) 一种基于rgb图像与热成像耦合的石化企业泵房设备温度监测方法及装置
CN115294009A (zh) 一种基于机器学习检测电池极耳焊接缺陷的方法、设备及存储介质
CN114820003A (zh) 定价信息异常识别方法、装置、电子设备及存储介质
CN117690030B (zh) 基于图像处理的多面发花识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200828

RJ01 Rejection of invention patent application after publication