CN115170820B

CN115170820B - 一种应用于数据曲线过渡阶段的特征提取及界限识别方法

Info

Publication number: CN115170820B
Application number: CN202210518796.4A
Authority: CN
Inventors: 吴红刚; 陈浩; 袁中夏; 孔庆祥; 袁荣涛; 康万鹏; 李永强; 张俊德; 王永翔; 赖国泉; 张良峰; 朱兆荣; 赵守全; 程飞; 杨景川; 黄强斌; 游朝勇; 王涛; 李亮; 尹威江
Original assignee: Northwest Research Institute Co Ltd of CREC
Current assignee: Northwest Research Institute Co Ltd of CREC
Priority date: 2022-05-13
Filing date: 2022-05-13
Publication date: 2023-08-01
Anticipated expiration: 2042-05-13
Also published as: CN115170820A

Abstract

本发明公开了一种应用于数据曲线过渡阶段的特征提取及界限识别方法，本发明属于数据分析技术领域。采用数据切割的方法剔除无关数据，保留目标区间的数据，并将目标区间的数据转换为散点图，运用K‑Means算法对目标区间的数据进行聚类分析确定主要区间，进而运用数学方法对主要区间的数据进行运算，确定数据变化阶段的界限值。本发明的步骤包括：1）绘制数据曲线；2）确定特征的目标区间；3）数据切割；4）K‑Means数据分类；5）确定特征界限。本发明根据数据曲线的变化特点，采用数据切割的方式保留重要信息，放大数据的关键特征，进而引入K‑Means算法对重要信息进行深入筛选，由筛选结果确定数据的特征界限，完成数据曲线关键特征的提取。

Description

一种应用于数据曲线过渡阶段的特征提取及界限识别方法

技术领域

本发明属于数据处理技术领域，具体涉及一种应用于数据曲线过渡阶段的特征提取及界限识别方法。

背景技术

在实际数据分析中，为方便研究试验数据，往往需要将采集的数据绘制成可视化曲线，对于数据曲线变化趋势的判断和重要特征的提取是研究分析的重要内容。其中，曲线过渡区段通常是不同变化阶段划分的重要依据。因此，如何提取过渡阶段的数据变化特征、确定不同阶段的界限值在数据处理中显得尤为重要。然而，在实际的数据分析过程中经常会遇到关键特征难以提取的问题，导致数据关键特性不易凸显、特征界限难以确定、影响曲线趋势判断等问题，不利于数据的深入挖掘。

目前，对于数据曲线重要特征的提取主要分为两大类，一类是是依据曲线图的变化趋势直观划分数据的重要特征，受人为主观因素影响大，缺乏系统性的数据分析作为支撑。另一类是构建相应的数学模型，如分类网络、机器学习、深度学习，根据自身的数据特点通过建立标签集进行模型迭代训练，得到优化后的模型用于数据特征提取，这一类专利针对性强在各自的目标领域有较为优异的表现，但模型构建复杂且缺乏普适性不能较好地运用于具有过渡特征的数据曲线的特征提取和阶段界限识别。

发明内容

本发明提供了一种应用于数据曲线过渡阶段的特征提取及界限识别方法，目的在于能够快速提取数据过渡特征、识别阶段变化界限，填补该领域内相关方法的空白，解决现有技术方法中对于数据过渡特征的提取过于复杂、效率偏低、准确度不高的问题，同时为准确识别数据不同变化阶段的界限提供有效方法。

为此，本发明采用如下技术方案：

一种应用于数据曲线过渡阶段的特征提取及界限识别方法，包括以下步骤：

1）绘制数据曲线：导入试验数据，按照试验数据类型和试验要求绘制试验数据对应的数据曲线图；

2）确定特征的目标区间：根据数据曲线特性分析步骤1）绘制的数据曲线图，划定数据曲线拐点、上升、下降或其他关键节点的特征数据所在的变化区间，将变化区间作为目标区间；

3）数据切割：择取步骤2）确定的目标区间，根据该目标区间内数据曲线的波动趋势和波动幅度，划分上、下水平分界线或左、右垂直分界线，确保特征数据位于两条分界线划定的区间内；

4）K-Means数据分类：将步骤3）两条分界线所围成的数据曲线转化为直角坐标散点图，并根据散点图中数据点的分布密集程度确定分类数量K的数值，然后采用K-Means算法对散点图进行聚类；

通过K-Means算法聚类，确定散点密度最大的一类数据，并将该类数据所对应的分布区间作为核心目标区间，对比所述核心目标区间和步骤2）划定的目标区间；若核心目标区间的大部或全部落至目标区间内，则进行下一步；若核心目标区的大部或全部未落至目标区间内，则调整K值大小再次进行聚类，直至核心目标区间的大部或全部落至目标区间内，再进行下一步；

5）确定特征界限：对步骤4）确定的核心目标区间内的数据进行数学分析获取数据曲线的特征界限，求取核心目标区间内的各个散点对应的横轴或纵轴数据值的平均值，平均值即为横向或纵向的特征界限。

进一步地，所述步骤3）在划分分界线之前，首先对目标区间内数据曲线进行数据处理，加大目标区间内数据曲线的变化频率或变化幅度，并绘制数据处理后的曲线图，再对数据处理后的曲线图划分分界线。

进一步地，所述数据处理的方法为求导、作差或积分处理。

K-means算法是典型的基于距离的聚类算法，采用距离作为相似性的评价指标,即认为两个对象的距离越近，其相似度就越大。该算法认为类是由距离靠近的对象组成的，因此把得到紧凑且独立的类作为最终目标。具体计算原理如下：

假设数据集合为（x₁,x₂,...,x_n）,并且每个x_i为d维的向量，K-means聚类的目的是，在给定分类组数k（k<=n）值的条件下，将原始数据分成k类：

S = {S ₁ , S ₂ , ..., S _k }

在数值模型上，即对以下表达式求最小值：

数学表达式：

n：样本数；

k：样本分为k类；

r _nk :第n个样本点是否属于第k类，属于则r_nk=1，不属于则r_nk=0；

u _k:第k个中心点；

K-means寻找的是距离最小化：

迭代方法：

1）固定u _k，得到r _nk

2）固定r _nk，求出最优的u _k

算法过程:

1）随机选取K个对象作为初始聚类中心；

2）将数据样本集合中的样本按照最小距离原则分配到最邻近聚类；

3）根据聚类的结果，重新计算K个聚类的中心，并作为新的聚类中心；

4）重复步骤2）和3）直到聚类中心不再变化。

本发明步骤3）数据处理的原理如下：

作差法：根据数据曲线的变化特征，选取适当的间隔区间，将间隔区间左右两侧的纵坐标值作差，则提取新的坐标点/>绘制成差值曲线。

积分法：拟合得到数据曲线的多项式计算公式，将曲线左端点对应的横坐标X_始作为积分下限，其余时刻的横坐标 QUOTE />作为积分上限，对曲线多项式计算公式进行积分运算可以求解得到任意时刻的曲线积分值，将其绘制成积分曲线。

求导法：将数据曲线相邻两点的横纵坐标值分别作差，则，，则数据曲线任一时刻导数值为/>，导数点的横坐标为提取新的坐标点/>绘制成导数曲线。

针对不同的数据曲线特征，合理选择上述数据处理方式，通过数据处理加大目标区间内数据曲线的变化频率或变化幅度，便于准确划分分界线，有助于提高特征提取和界限识别的准确性。

本发明的有益效果在于：

1.本发明根据数据曲线的变化特点，采用数据切割的方式保留过渡阶段的重要信息，放大数据的关键特征，进而引入K-Means算法对重要信息进行深入筛选，由筛选结果确定数据的特征界限，完成数据曲线关键特征的提取；

2.本发明提供了一种快速提取数据曲线过渡特征、识别变形阶段界限的方法，填补了该类数据曲线特征提取的空白，简化了特征提取的过程、提升了特征提取的效率，通过放大数据特征运用机器学习算法显著提高了特征提取和阶段界限识别的准确度；

3.本发明面向的对象为具有过渡特征的数据曲线，并不指定所采集的数据类型，可广泛应用于各类实测数据的处理，具有更高的普适性。

附图说明

图1是本发明的流程框图；

图2是本发明实施例温度-时间曲线图；

图3是本发明实施例绝对温度速率-时间曲线；

图4是本发明实施例分界线的划分示意图；

图5是图4中目标区间局部放大示意图；

图6是本发明实施例的散点图；

图7是本发明核心目标区的示意图；

图8是本发明特征界限确定的示意图。

具体实施方式

下面结合具体实施例对本发明作进一步说明：

本实施例以大体积混凝土某一测点处的现场实测温度数据为例：

（1）绘制数据曲线：通过试验获取混凝土某一测点处的现场实测温度，导入大体积混凝土的实测温度数据，绘制温度-时间曲线，如图2。

（2）确定目标区间：从温度-时间曲线图可知，温度曲线的变化趋势整体上可分为上升段、下降段和平稳段，其中下降段和平稳段之间存在一个较为平缓的过渡区间，而这个过渡区间内的曲线特征则为关键特征，可作为划分下降段和平稳段的重要依据，该过渡区间可视为目标区间。

（3）数据切割：为了更加清晰地呈现温度-时间曲线在目标区间上的关键特征，对温度-时间曲线进行求导转换成绝对温度速率-时间曲线。由图3可以清晰的看到，过渡区间内的曲线变化特征变得更加明显，数据贴近于0值且曲线更为密集。

为了进一步放大凸显过渡区间内的数据特征，通过设定上、下两条水平分界线切割绝对温度速率-时间曲线。同时，为了能够充分保留重要信息去除无关数据的影响，上下两条水平线分别设为x=0和x=4（如图4），且只保留两条水平线之间的数据信息。由图4可以发现，经过数据切割后，目标区间内的曲线变得更为密集，数据特征变得更加显著（如图5）。

（4）K-Means数据分类：将数据切割后的绝对温度速率-时间曲线图按照（x，y）直角坐标系转换为散点图。由图6可以发现，核心目标区间内的散点分布最为密集，有着明显的聚类特征，可采用K-Means算法通过设定不同的聚类数目K，使散点密度最大的核心目标区间落在步骤2划定的目标区间内。

对散点图进行聚类分析，将K值设定为5，结果如图7所示。从图7可以发现，散点密度最大的核心目标区间基本落在了目标区间内，所以可将这一类的散点分布区间作为主要区间进行后续分析。

（5）确定特征界限：通过K-Means聚类分析可以得到核心目标区间。为了进一步确定特征界限，以核心目标区间内的数据作为分析对象进行数学分析。在本实例中，选择将核心目标区间内的各个散点对应的横坐标（时间）累加求和取平均值，得到x=7.3天。因此，可以得到本实例中下降段与平稳段之间的特征界限为x=7.3天，如图8所示。

Claims

1.一种应用于混凝土温度数据曲线过渡阶段的特征提取及界限识别方法，其特征在于，包括以下步骤：

1）绘制数据曲线：通过试验获取混凝土测点处的现场实测温度，导入检测的温度数据，按照试验数据类型和试验要求绘制温度数据对应的温度时间曲线图；

2）确定特征的目标区间：根据温度时间曲线特性分析步骤1）绘制的温度时间曲线图，划定温度时间曲线拐点、上升、下降或其他关键节点的特征数据所在的变化区间，将变化区间作为目标区间；

3）数据切割：择取步骤2）确定的目标区间，根据该目标区间内温度时间曲线的波动趋势和波动幅度，划分上、下水平分界线或左、右垂直分界线，确保特征数据位于两条分界线划定的区间内；

4）K-Means数据分类：将步骤3）两条分界线所围成的温度时间曲线转化为直角坐标散点图，并根据散点图中数据点的分布密集程度确定分类数量K的数值，然后采用K-Means算法对散点图进行聚类；

2.根据权利要求1所述的一种应用于混凝土温度数据曲线过渡阶段的特征提取及界限识别方法，其特征在于，所述步骤3）在划分分界线之前，首先对目标区间内温度时间曲线进行数据处理，加大目标区间内温度时间曲线的变化频率或变化幅度，并绘制数据处理后的曲线图，再对数据处理后的曲线图划分分界线。

3.根据权利要求2所述的一种应用于混凝土温度数据曲线过渡阶段的特征提取及界限识别方法，其特征在于，所述数据处理的方法为求导、作差或积分处理。