CN111597934A

CN111597934A - 用于为统计应用处理训练数据的系统和方法

Info

Publication number: CN111597934A
Application number: CN202010367352.6A
Authority: CN
Inventors: 王洪珂; 王昌酉; 丁昌华; 袁玉兴; 杨文艳; 李海霞
Original assignee: Chongqing University of Science and Technology
Current assignee: Chongqing University of Science and Technology
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2020-08-28

Abstract

本发明属于数据训练处理技术领域，公开了一种用于为统计应用处理训练数据的系统和方法，所述用于为统计应用处理训练数据的系统包括：待训练数据获取模块、数据预处理模块、置信度计算模块、中央控制模块、数据训练模块、训练纠正模块、训练结果输出模块、结果评价模块、数据存储模块、显示模块。本发明通过增加的噪声数据来抵消原有噪声数据对模型训练的影响，进而提高模型的识别准确率，同时也减少了获取训练数据的时间成本以及人力和财力成本。在训练数据聚合的前提下，通过随机读取索引向量取值，可以从聚合训练数据中获取对应的训练数据，保证了用于模型训练的训练数据的随机性，从而可以在节省内存的基础上改善模型训练效果。

Description

用于为统计应用处理训练数据的系统和方法

技术领域

本发明属于数据训练处理技术领域，尤其涉及一种用于为统计应用处理训练数据的系统和方法。

背景技术

目前，最接近的现有技术：统计分类有两种被广泛认可的含义。第一，基于一组观察结果或数据，统计分类试图建立数据中类或聚类的存在。这种类型的统计分类被称为无监督学习(或聚类)。第二，类的存在可能是预先知道的。在第二种情况下，统计分类试图建立单个规则或多个规则，由此，新的观察结果被分类为已知的现存类中的一个。这种类型的统计分类被称为监督式学习。

监督式学习在工业和技术应用上拥有广泛的适用性。例如，监督式学习可用于为机器视觉识别建立单个规则或多个规则。基于所建立的(一个或多个)规则的机器视觉识别可用于引导或控制自动化制造过程。在监督式学习中，选择被认为是代表所定义的(一个或多个)分类的一组测量。基于所选择的测量，创建训练数据。根据所定义的分类标记训练数据中的每个元素。随后，基于所标记的训练数据，各种方法可用于分类以后所观察的数据元素。

“最近邻居(nearest neighbor)”分类方法测量从所观察的数据元素到训练数据中每个数据元素的距离(例如，使用合适的加权度量计算)。从训练数据中选择N个最近的数据元素。在这N个最近的数据元素中最频繁出现地类被用于分类所观察的数据元素。这种分类方法假定训练数据元素的分类是正确的。然而，由于多种原因。分类可能有许多错误。错误分类的数量与分类方法的准确度有关。具体地说，训练数据中错误分类的数量越大，导致分类性能准确度越低。从而，分类数据的数据完整性在监督式学习应用中是个重要的考虑因素。同时，现有数据训练方法未对待训练数据进行降噪等处理，导致数据训练结果存在较大误差。

综上所述，现有技术存在的问题是：现有训练数据的分类方法存在许多错误，训练数据中错误分类的数量越大，导致分类性能准确度越低。同时，现有数据训练方法未对待训练数据进行降噪等处理，导致数据训练结果存在较大误差。

发明内容

针对现有技术存在的问题，本发明提供了一种用于为统计应用处理训练数据的系统和方法。

本发明是这样实现的，一种用于为统计应用处理训练数据的方法，所述用于为统计应用处理训练数据的方法包括：

步骤一，通过训练数据获取装置获取待训练的数据；通过数据预处理程序对待训练数据进行降噪、增强处理；对待训练数据带噪放电信号进行去噪处理，采集的故障点待训练数据放电带噪声音信号为y(n)，加窗处理后得到第i帧信号为y_i(n)，将其做DFT后为Y_i(w)，其幅值为|Y_i(w)|，前导无话段的噪声平均能量为

a为过减因子，b为增益补偿因子，谱减后信号的幅值为

利用待训练数据信号对相位不敏感的特性，谱减后信号的幅值结合谱减前信号的相位经傅里叶逆变换即可得到经过谱减处理，即已初步消噪的待训练数据信号，谱减算法为：

根据小波与采集信号样本数据的特性确定小波基与小波分解层数，阶数的小波取3～5；

步骤二，通过置信度计算程序计算所述多个训练数据结构中的每个的相应的置信度值；

步骤三，通过中央控制器控制处理训练数据的系统的正常运行；通过数据训练程序利用数据训练模型对已赋予置信度值的数据进行训练处理；

步骤四，通过训练纠正程序对数据训练结果进行纠正处理；通过结果输出程序输出训练结果；通过结果评价程序对输出的训练结果进行评价；

步骤五，通过微型存储芯片存储获取的待训练数据、数据训练模型、训练结果以及训练评价的实时数据；

步骤六，通过显示器显示获取的待训练数据、数据训练模型、训练结果以及训练评价的实时数据；对显示器图像进行过分割和模板参数提取，对整个输入图像，以8*8个像素为单元，计算每个单元的平均灰度值和每个单元的最大灰度值，得到至少一个区域，同一个所述区域中各个像素点的颜色值相同；确定每个区域的颜色值和质心；根据各个区域所对应的颜色值以及各个区域的质心，建立所述显著性模型；

显著性模型为：

其中，S_i1为区域R_i中任一像素点的显著性值，w(R_j)为区域R_j中的像素点的个数，D_S(R_i,R_j)用于表征所述区域R_i和所述区域R_j之间空间位置差异的度量值，D_C(R_i,R_j)用于表征所述区域R_i和所述区域R_j之间颜色差异的度量值，N为对所述图像进行过分割后得到的区域的总个数，D_S(R_i,R_j)为：D_S(R_i,R_j)＝exp(-(Center(R_i)-Center(R_j))²/σ_s ²)；Center(R_i)为所述区域R_i的质心，Center(R_j)为所述区域R_j的质心，当所述图像中各个像素点的坐标均归一化到[0,1]时；

进一步，所述训练数据获取模块的训练数据获取方法如下：

(1)获取目标训练数据子集，所述目标训练数据子集为初始训练数据集的多个训练数据子集中的任意一个，所述多个训练数据子集中的每个训练数据子集分别对应一个类别标签；

(2)在所述初始训练数据集的训练数据子集中，获取除所述目标训练数据子集之外的第一参考数量个训练数据子集；

(3)在所述第一参考数量个训练数据子集中，获取每一个训练数据子集中第二参考数量个训练数据，得到第一参考数量组的训练数据；

(4)将所述第一参考数量组的训练数据添加到所述目标训练数据子集中，得到更新后的目标训练数据子集，基于所述更新后的目标训练数据子集及所述初始训练数据集中剩余的训练数据子集获取用于对机器学习模型进行训练的目标训练数据。

进一步，所述第二参考数量根据参考比例、所述初始训练数据集中训练数据子集的数量以及每一个训练数据子集包含的训练数据的数量确定，所述参考比例用于确定增加的训练数据的数量。

进一步，所述置信度计算模块的待训练数据的置信度计算方法如下：

(I)访问多个已获取的训练数据结构，其中，每个训练数据结构包括多个特征变量和标识多个类中的一个的变量；

(II)计算所述多个训练数据结构中的每个的相应的置信度值，所述置信度值指示了所述相应的训练数据结构属于其所标识的类的概率；

(III)生成用于散点图的图形用户接口，所述散点图可视地指示所述多个训练数据结构的置信度值；所述散点图中用所述置信度值注释点的至少一个子集。

进一步，步骤(III)中，所述显示步骤使用预定颜色以标识与低于阂值的置信度值相关联的训练数据结构；所述阂值是通过接收来自用户的输入而确定的；所述图形用户接口标识所述散点图的与所述多个类中的每个相关联的区域。

进一步，所述数据训练模块的对待训练数据进行训练的方法如下：

1)获取原始训练数据，并对原始训练数据进行聚合，得到聚合训练数据；

2)根据所述原始训练数据与所述聚合训练数据建立索引向量，所述索引向量取值的绝对值用于指示原始训练数据中训练数据在聚合训练数据中的位置；

3)随机读取索引向量的取值，根据所述取值从所述聚合训练数据中获取对应的训练数据；并利用获取到的训练数据进行模型训练。

本发明的另一目的在于提供一种应用所述用于为统计应用处理训练数据的方法的用于为统计应用处理训练数据的系统，所述用于为统计应用处理训练数据的系统包括：

待训练数据获取模块，与中央控制模块连接，用于通过训练数据获取装置获取待训练的数据；

数据预处理模块，与中央控制模块连接，用于通过数据预处理程序对待训练数据进行降噪、增强处理；

置信度计算模块，与中央控制模块连接，用于通过置信度计算程序计算所述多个训练数据结构中的每个的相应的置信度值；

中央控制模块，与待训练数据获取模块、数据预处理模块、置信度计算模块、数据训练模块、训练纠正模块、训练结果输出模块、结果评价模块、数据存储模块、显示模块连接，用于通过中央控制器控制各个模块的正常运行；

数据训练模块，与中央控制模块连接，用于通过数据训练程序利用数据训练模型对已赋予置信度值的数据进行训练处理；

训练纠正模块，与中央控制模块连接，用于通过训练纠正程序对数据训练结果进行纠正处理；

训练结果输出模块，与中央控制模块连接，用于通过结果输出程序输出训练结果；

结果评价模块，与中央控制模块连接，用于通过结果评价程序对输出的训练结果进行评价；

数据存储模块，与中央控制模块连接，用于通过微型存储芯片存储获取的待训练数据、数据训练模型、训练结果以及训练评价的实时数据；

显示模块，与中央控制模块连接，用于通过显示器显示获取的待训练数据、数据训练模型、训练结果以及训练评价的实时数据。

本发明的另一目的在于提供一种接收用户输入程序存储介质，所存储的计算机程序使电子设备执行权利要求任意一项所述包括下列步骤：

步骤一，通过训练数据获取装置获取待训练的数据；通过数据预处理程序对待训练数据进行降噪、增强处理。

步骤二，通过置信度计算程序计算所述多个训练数据结构中的每个的相应的置信度值。

步骤三，通过中央控制器控制处理训练数据的系统的正常运行；通过数据训练程序利用数据训练模型对已赋予置信度值的数据进行训练处理。

步骤四，通过训练纠正程序对数据训练结果进行纠正处理；通过结果输出程序输出训练结果；通过结果评价程序对输出的训练结果进行评价。

步骤五，通过微型存储芯片存储获取的待训练数据、数据训练模型、训练结果以及训练评价的实时数据。

步骤六，通过显示器显示获取的待训练数据、数据训练模型、训练结果以及训练评价的实时数据。

本发明的另一目的在于提供一种存储在计算机可读介质上的计算机程序产品，包括计算机可读程序，供于电子装置上执行时，提供用户输入接口以实施所述的用于为统计应用处理训练数据的方法。

本发明的另一目的在于提供一种终端，所述终端搭载所述的用于为统计应用处理训练数据的系统。

综上所述，本发明的优点及积极效果为：本发明提供的用于为统计应用处理训练数据的系统和方法，通过待训练数据获取模块在同一初始训练数据集中获取数据并将获取的训练数据添加到目标训练数据子集，利用增加数据后的目标训练数据子集及初始训练数据集中剩余的训练数据子集来获取训练机器学习模型的目标训练数据，从而能够通过增加的噪声数据来抵消原有噪声数据对模型训练的影响，进而提高模型的识别准确率，同时也减少了获取训练数据的时间成本以及人力和财力成本。通过数据训练模块在训练数据聚合的前提下，通过随机读取索引向量取值，可以从聚合训练数据中获取对应的训练数据，保证了用于模型训练的训练数据的随机性，从而可以在节省内存的基础上改善模型训练效果。

附图说明

图1是本发明实施例提供的用于为统计应用处理训练数据的方法流程图。

图2是本发明实施例提供的用于为统计应用处理训练数据的系统结构示意图；

图中：1、待训练数据获取模块；2、数据预处理模块；3、置信度计算模块；4、中央控制模块；5、数据训练模块；6、训练纠正模块；7、训练结果输出模块；8、结果评价模块；9、数据存储模块；10、显示模块。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种用于为统计应用处理训练数据的系统和方法，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的用于为统计应用处理训练数据的方法包括以下步骤：

S101，通过训练数据获取装置获取待训练的数据；通过数据预处理程序对待训练数据进行降噪、增强处理。

S102，通过置信度计算程序计算所述多个训练数据结构中的每个的相应的置信度值。

S103，通过中央控制器控制处理训练数据的系统的正常运行；通过数据训练程序利用数据训练模型对已赋予置信度值的数据进行训练处理。

S104，通过训练纠正程序对数据训练结果进行纠正处理；通过结果输出程序输出训练结果；通过结果评价程序对输出的训练结果进行评价。

S105，通过微型存储芯片存储获取的待训练数据、数据训练模型、训练结果以及训练评价的实时数据。

S106，通过显示器显示获取的待训练数据、数据训练模型、训练结果以及训练评价的实时数据。

本发明通过训练数据获取装置获取待训练的数据；通过数据预处理程序对待训练数据进行降噪、增强处理；对待训练数据带噪放电信号进行去噪处理，采集的故障点待训练数据放电带噪声音信号为y(n)，加窗处理后得到第i帧信号为y_i(n)，将其做DFT后为Y_i(w)，其幅值为|Y_i(w)|，前导无话段的噪声平均能量为

a为过减因子，b为增益补偿因子，谱减后信号的幅值为

根据小波与采集信号样本数据的特性确定小波基与小波分解层数，阶数的小波取3～5。

本发明通过显示器显示获取的待训练数据、数据训练模型、训练结果以及训练评价的实时数据；对显示器图像进行过分割和模板参数提取，对整个输入图像，以8*8个像素为单元，计算每个单元的平均灰度值和每个单元的最大灰度值，得到至少一个区域，同一个所述区域中各个像素点的颜色值相同；确定每个区域的颜色值和质心；根据各个区域所对应的颜色值以及各个区域的质心，建立所述显著性模型；

显著性模型为：

如图2所示，本发明实施例提供的用于为统计应用处理训练数据的系统包括：待训练数据获取模块1、数据预处理模块2、置信度计算模块3、中央控制模块4、数据训练模块5、训练纠正模块6、训练结果输出模块7、结果评价模块8、数据存储模块9、显示模块10。

待训练数据获取模块1，与中央控制模块4连接，用于通过训练数据获取装置获取待训练的数据；

数据预处理模块2，与中央控制模块4连接，用于通过数据预处理程序对待训练数据进行降噪、增强处理；

置信度计算模块3，与中央控制模块4连接，用于通过置信度计算程序计算所述多个训练数据结构中的每个的相应的置信度值；

中央控制模块4，与待训练数据获取模块1、数据预处理模块2、置信度计算模块3、数据训练模块5、训练纠正模块6、训练结果输出模块7、结果评价模块8、数据存储模块9、显示模块10连接，用于通过中央控制器控制各个模块的正常运行；

数据训练模块5，与中央控制模块4连接，用于通过数据训练程序利用数据训练模型对已赋予置信度值的数据进行训练处理；

训练纠正模块6，与中央控制模块4连接，用于通过训练纠正程序对数据训练结果进行纠正处理；

训练结果输出模块7，与中央控制模块4连接，用于通过结果输出程序输出训练结果；

结果评价模块8，与中央控制模块4连接，用于通过结果评价程序对输出的训练结果进行评价；

数据存储模块9，与中央控制模块4连接，用于通过微型存储芯片存储获取的待训练数据、数据训练模型、训练结果以及训练评价的实时数据；

显示模块10，与中央控制模块4连接，用于通过显示器显示获取的待训练数据、数据训练模型、训练结果以及训练评价的实时数据。

下面结合实施例对本发明作进一步描述。

实施例1

本发明实施例提供的用于为统计应用处理训练数据的方法如图1所示，作为优选实施例，本发明实施例提供的训练数据获取模块的训练数据获取方法如下：

(1)获取目标训练数据子集，所述目标训练数据子集为初始训练数据集的多个训练数据子集中的任意一个，所述多个训练数据子集中的每个训练数据子集分别对应一个类别标签。

(2)在所述初始训练数据集的训练数据子集中，获取除所述目标训练数据子集之外的第一参考数量个训练数据子集。

(3)在所述第一参考数量个训练数据子集中，获取每一个训练数据子集中第二参考数量个训练数据，得到第一参考数量组的训练数据。

本发明实施例提供的第二参考数量根据参考比例、所述初始训练数据集中训练数据子集的数量以及每一个训练数据子集包含的训练数据的数量确定，所述参考比例用于确定增加的训练数据的数量。

实施例2

本发明实施例提供的用于为统计应用处理训练数据的方法如图1所示，作为优选实施例，本发明实施例提供的置信度计算模块的待训练数据的置信度计算方法如下：

(I)访问多个已获取的训练数据结构，其中，每个训练数据结构包括多个特征变量和标识多个类中的一个的变量。

(II)计算所述多个训练数据结构中的每个的相应的置信度值，所述置信度值指示了所述相应的训练数据结构属于其所标识的类的概率。

本发明实施例提供的步骤(III)中，显示步骤使用预定颜色以标识与低于阂值的置信度值相关联的训练数据结构；所述阂值是通过接收来自用户的输入而确定的；所述图形用户接口标识所述散点图的与所述多个类中的每个相关联的区域。

实施例3

本发明实施例提供的用于为统计应用处理训练数据的方法如图1所示，作为优选实施例，本发明实施例提供的数据训练模块的对待训练数据进行训练的方法如下：

1)获取原始训练数据，并对原始训练数据进行聚合，得到聚合训练数据。

2)根据所述原始训练数据与所述聚合训练数据建立索引向量，所述索引向量取值的绝对值用于指示原始训练数据中训练数据在聚合训练数据中的位置。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于为统计应用处理训练数据的方法，其特征在于，所述用于为统计应用处理训练数据的方法包括：

a为过减因子，b为增益补偿因子，谱减后信号的幅值为

显著性模型为：

其中，S_i1为区域R_i中任一像素点的显著性值，w(R_j)为区域R_j中的像素点的个数，D_S(R_i,R_j)用于表征所述区域R_i和所述区域R_j之间空间位置差异的度量值，D_C(R_i,R_j)用于表征所述区域R_i和所述区域R_j之间颜色差异的度量值，N为对所述图像进行过分割后得到的区域的总个数，D_S(R_i,R_j)为：

Center(R_i)为所述区域R_i的质心，Center(R_j)为所述区域R_j的质心，当所述图像中各个像素点的坐标均归一化到[0,1]时；

2.如权利要求1所述的用于为统计应用处理训练数据的方法，其特征在于，所述训练数据获取模块的训练数据获取方法如下：

3.如权利要求2所述的用于为统计应用处理训练数据的方法，其特征在于，所述第二参考数量根据参考比例、所述初始训练数据集中训练数据子集的数量以及每一个训练数据子集包含的训练数据的数量确定，所述参考比例用于确定增加的训练数据的数量。

4.如权利要求1所述的用于为统计应用处理训练数据的方法，其特征在于，所述置信度计算模块的待训练数据的置信度计算方法如下：

5.如权利要求4所述的用于为统计应用处理训练数据的方法，其特征在于，步骤(III)中，所述显示步骤使用预定颜色以标识与低于阂值的置信度值相关联的训练数据结构；所述阂值是通过接收来自用户的输入而确定的；所述图形用户接口标识所述散点图的与所述多个类中的每个相关联的区域。

6.如权利要求1所述的用于为统计应用处理训练数据的方法，其特征在于，所述数据训练模块的对待训练数据进行训练的方法如下：

7.一种应用如权利要求1～6任意一项所述用于为统计应用处理训练数据的方法的用于为统计应用处理训练数据的系统，其特征在于，所述用于为统计应用处理训练数据的系统包括：

8.一种接收用户输入程序存储介质，所存储的计算机程序使电子设备执行权利要求任意一项所述包括下列步骤：

步骤一，通过训练数据获取装置获取待训练的数据；通过数据预处理程序对待训练数据进行降噪、增强处理；

9.一种存储在计算机可读介质上的计算机程序产品，包括计算机可读程序，供于电子装置上执行时，提供用户输入接口以实施如权利要求1～7任意一项所述的用于为统计应用处理训练数据的方法。

10.一种终端，其特征在于，所述终端搭载权利要求7所述的用于为统计应用处理训练数据的系统。