CN115170820B - 一种应用于数据曲线过渡阶段的特征提取及界限识别方法 - Google Patents
一种应用于数据曲线过渡阶段的特征提取及界限识别方法 Download PDFInfo
- Publication number
- CN115170820B CN115170820B CN202210518796.4A CN202210518796A CN115170820B CN 115170820 B CN115170820 B CN 115170820B CN 202210518796 A CN202210518796 A CN 202210518796A CN 115170820 B CN115170820 B CN 115170820B
- Authority
- CN
- China
- Prior art keywords
- data
- curve
- target interval
- interval
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/763—Non-hierarchical techniques, e.g. based on statistics of modelling distributions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种应用于数据曲线过渡阶段的特征提取及界限识别方法,本发明属于数据分析技术领域。采用数据切割的方法剔除无关数据,保留目标区间的数据,并将目标区间的数据转换为散点图,运用K‑Means算法对目标区间的数据进行聚类分析确定主要区间,进而运用数学方法对主要区间的数据进行运算,确定数据变化阶段的界限值。本发明的步骤包括:1)绘制数据曲线;2)确定特征的目标区间;3)数据切割;4)K‑Means数据分类;5)确定特征界限。本发明根据数据曲线的变化特点,采用数据切割的方式保留重要信息,放大数据的关键特征,进而引入K‑Means算法对重要信息进行深入筛选,由筛选结果确定数据的特征界限,完成数据曲线关键特征的提取。
Description
技术领域
本发明属于数据处理技术领域,具体涉及一种应用于数据曲线过渡阶段的特征提取及界限识别方法。
背景技术
在实际数据分析中,为方便研究试验数据,往往需要将采集的数据绘制成可视化曲线,对于数据曲线变化趋势的判断和重要特征的提取是研究分析的重要内容。其中,曲线过渡区段通常是不同变化阶段划分的重要依据。因此,如何提取过渡阶段的数据变化特征、确定不同阶段的界限值在数据处理中显得尤为重要。然而,在实际的数据分析过程中经常会遇到关键特征难以提取的问题,导致数据关键特性不易凸显、特征界限难以确定、影响曲线趋势判断等问题,不利于数据的深入挖掘。
目前,对于数据曲线重要特征的提取主要分为两大类,一类是是依据曲线图的变化趋势直观划分数据的重要特征,受人为主观因素影响大,缺乏系统性的数据分析作为支撑。另一类是构建相应的数学模型,如分类网络、机器学习、深度学习,根据自身的数据特点通过建立标签集进行模型迭代训练,得到优化后的模型用于数据特征提取,这一类专利针对性强在各自的目标领域有较为优异的表现,但模型构建复杂且缺乏普适性不能较好地运用于具有过渡特征的数据曲线的特征提取和阶段界限识别。
发明内容
本发明提供了一种应用于数据曲线过渡阶段的特征提取及界限识别方法,目的在于能够快速提取数据过渡特征、识别阶段变化界限,填补该领域内相关方法的空白,解决现有技术方法中对于数据过渡特征的提取过于复杂、效率偏低、准确度不高的问题,同时为准确识别数据不同变化阶段的界限提供有效方法。
为此,本发明采用如下技术方案:
一种应用于数据曲线过渡阶段的特征提取及界限识别方法,包括以下步骤:
1)绘制数据曲线:导入试验数据,按照试验数据类型和试验要求绘制试验数据对应的数据曲线图;
2)确定特征的目标区间:根据数据曲线特性分析步骤1)绘制的数据曲线图,划定数据曲线拐点、上升、下降或其他关键节点的特征数据所在的变化区间,将变化区间作为目标区间;
3)数据切割:择取步骤2)确定的目标区间,根据该目标区间内数据曲线的波动趋势和波动幅度,划分上、下水平分界线或左、右垂直分界线,确保特征数据位于两条分界线划定的区间内;
4)K-Means数据分类:将步骤3)两条分界线所围成的数据曲线转化为直角坐标散点图,并根据散点图中数据点的分布密集程度确定分类数量K的数值,然后采用K-Means算法对散点图进行聚类;
通过K-Means算法聚类,确定散点密度最大的一类数据,并将该类数据所对应的分布区间作为核心目标区间,对比所述核心目标区间和步骤2)划定的目标区间;若核心目标区间的大部或全部落至目标区间内,则进行下一步;若核心目标区的大部或全部未落至目标区间内,则调整K值大小再次进行聚类,直至核心目标区间的大部或全部落至目标区间内,再进行下一步;
5)确定特征界限:对步骤4)确定的核心目标区间内的数据进行数学分析获取数据曲线的特征界限,求取核心目标区间内的各个散点对应的横轴或纵轴数据值的平均值,平均值即为横向或纵向的特征界限。
进一步地,所述步骤3)在划分分界线之前,首先对目标区间内数据曲线进行数据处理,加大目标区间内数据曲线的变化频率或变化幅度,并绘制数据处理后的曲线图,再对数据处理后的曲线图划分分界线。
进一步地,所述数据处理的方法为求导、作差或积分处理。
K-means算法是典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为类是由距离靠近的对象组成的,因此把得到紧凑且独立的类作为最终目标。具体计算原理如下:
假设数据集合为(x1,x2,...,xn),并且每个xi为d维的向量,K-means聚类的目的是,在给定分类组数k(k<=n)值的条件下,将原始数据分成k类:
S = {S
1
, S
2
, ..., S
k
}
在数值模型上,即对以下表达式求最小值:
数学表达式:
n:样本数;
k:样本分为k类;
r nk :第n个样本点是否属于第k类,属于则rnk=1,不属于则rnk=0;
u k :第k个中心点;
K-means寻找的是距离最小化:
迭代方法:
1)固定u k ,得到r nk
2)固定r nk ,求出最优的u k
算法过程:
1)随机选取K个对象作为初始聚类中心;
2)将数据样本集合中的样本按照最小距离原则分配到最邻近聚类;
3)根据聚类的结果,重新计算K个聚类的中心,并作为新的聚类中心;
4)重复步骤2)和3)直到聚类中心不再变化。
本发明步骤3)数据处理的原理如下:
作差法:根据数据曲线的变化特征,选取适当的间隔区间,将间隔区间左右两侧的纵坐标值作差,则提取新的坐标点/>绘制成差值曲线。
积分法:拟合得到数据曲线的多项式计算公式,将曲线左端点对应的横坐标X始作为积分下限,其余时刻的横坐标 QUOTE />作为积分上限,对曲线多项式计算公式进行积分运算可以求解得到任意时刻的曲线积分值,将其绘制成积分曲线。
求导法:将数据曲线相邻两点的横纵坐标值分别作差,则,,则数据曲线任一时刻导数值为/>,导数点的横坐标为提取新的坐标点/>绘制成导数曲线。
针对不同的数据曲线特征,合理选择上述数据处理方式,通过数据处理加大目标区间内数据曲线的变化频率或变化幅度,便于准确划分分界线,有助于提高特征提取和界限识别的准确性。
本发明的有益效果在于:
1.本发明根据数据曲线的变化特点,采用数据切割的方式保留过渡阶段的重要信息,放大数据的关键特征,进而引入K-Means算法对重要信息进行深入筛选,由筛选结果确定数据的特征界限,完成数据曲线关键特征的提取;
2.本发明提供了一种快速提取数据曲线过渡特征、识别变形阶段界限的方法,填补了该类数据曲线特征提取的空白,简化了特征提取的过程、提升了特征提取的效率,通过放大数据特征运用机器学习算法显著提高了特征提取和阶段界限识别的准确度;
3.本发明面向的对象为具有过渡特征的数据曲线,并不指定所采集的数据类型,可广泛应用于各类实测数据的处理,具有更高的普适性。
附图说明
图1是本发明的流程框图;
图2是本发明实施例温度-时间曲线图;
图3是本发明实施例绝对温度速率-时间曲线;
图4是本发明实施例分界线的划分示意图;
图5是图4中目标区间局部放大示意图;
图6是本发明实施例的散点图;
图7是本发明核心目标区的示意图;
图8是本发明特征界限确定的示意图。
具体实施方式
下面结合具体实施例对本发明作进一步说明:
本实施例以大体积混凝土某一测点处的现场实测温度数据为例:
(1)绘制数据曲线:通过试验获取混凝土某一测点处的现场实测温度,导入大体积混凝土的实测温度数据,绘制温度-时间曲线,如图2。
(2)确定目标区间:从温度-时间曲线图可知,温度曲线的变化趋势整体上可分为上升段、下降段和平稳段,其中下降段和平稳段之间存在一个较为平缓的过渡区间,而这个过渡区间内的曲线特征则为关键特征,可作为划分下降段和平稳段的重要依据,该过渡区间可视为目标区间。
(3)数据切割:为了更加清晰地呈现温度-时间曲线在目标区间上的关键特征,对温度-时间曲线进行求导转换成绝对温度速率-时间曲线。由图3可以清晰的看到,过渡区间内的曲线变化特征变得更加明显,数据贴近于0值且曲线更为密集。
为了进一步放大凸显过渡区间内的数据特征,通过设定上、下两条水平分界线切割绝对温度速率-时间曲线。同时,为了能够充分保留重要信息去除无关数据的影响,上下两条水平线分别设为x=0和x=4(如图4),且只保留两条水平线之间的数据信息。由图4可以发现,经过数据切割后,目标区间内的曲线变得更为密集,数据特征变得更加显著(如图5)。
(4)K-Means数据分类:将数据切割后的绝对温度速率-时间曲线图按照(x,y)直角坐标系转换为散点图。由图6可以发现,核心目标区间内的散点分布最为密集,有着明显的聚类特征,可采用K-Means算法通过设定不同的聚类数目K,使散点密度最大的核心目标区间落在步骤2划定的目标区间内。
对散点图进行聚类分析,将K值设定为5,结果如图7所示。从图7可以发现,散点密度最大的核心目标区间基本落在了目标区间内,所以可将这一类的散点分布区间作为主要区间进行后续分析。
(5)确定特征界限:通过K-Means聚类分析可以得到核心目标区间。为了进一步确定特征界限,以核心目标区间内的数据作为分析对象进行数学分析。在本实例中,选择将核心目标区间内的各个散点对应的横坐标(时间)累加求和取平均值,得到x=7.3天。因此,可以得到本实例中下降段与平稳段之间的特征界限为x=7.3天,如图8所示。
Claims (3)
1.一种应用于混凝土温度数据曲线过渡阶段的特征提取及界限识别方法,其特征在于,包括以下步骤:
1)绘制数据曲线:通过试验获取混凝土测点处的现场实测温度,导入检测的温度数据,按照试验数据类型和试验要求绘制温度数据对应的温度时间曲线图;
2)确定特征的目标区间:根据温度时间曲线特性分析步骤1)绘制的温度时间曲线图,划定温度时间曲线拐点、上升、下降或其他关键节点的特征数据所在的变化区间,将变化区间作为目标区间;
3)数据切割:择取步骤2)确定的目标区间,根据该目标区间内温度时间曲线的波动趋势和波动幅度,划分上、下水平分界线或左、右垂直分界线,确保特征数据位于两条分界线划定的区间内;
4)K-Means数据分类:将步骤3)两条分界线所围成的温度时间曲线转化为直角坐标散点图,并根据散点图中数据点的分布密集程度确定分类数量K的数值,然后采用K-Means算法对散点图进行聚类;
通过K-Means算法聚类,确定散点密度最大的一类数据,并将该类数据所对应的分布区间作为核心目标区间,对比所述核心目标区间和步骤2)划定的目标区间;若核心目标区间的大部或全部落至目标区间内,则进行下一步;若核心目标区的大部或全部未落至目标区间内,则调整K值大小再次进行聚类,直至核心目标区间的大部或全部落至目标区间内,再进行下一步;
5)确定特征界限:对步骤4)确定的核心目标区间内的数据进行数学分析获取数据曲线的特征界限,求取核心目标区间内的各个散点对应的横轴或纵轴数据值的平均值,平均值即为横向或纵向的特征界限。
2.根据权利要求1所述的一种应用于混凝土温度数据曲线过渡阶段的特征提取及界限识别方法,其特征在于,所述步骤3)在划分分界线之前,首先对目标区间内温度时间曲线进行数据处理,加大目标区间内温度时间曲线的变化频率或变化幅度,并绘制数据处理后的曲线图,再对数据处理后的曲线图划分分界线。
3.根据权利要求2所述的一种应用于混凝土温度数据曲线过渡阶段的特征提取及界限识别方法,其特征在于,所述数据处理的方法为求导、作差或积分处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210518796.4A CN115170820B (zh) | 2022-05-13 | 2022-05-13 | 一种应用于数据曲线过渡阶段的特征提取及界限识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210518796.4A CN115170820B (zh) | 2022-05-13 | 2022-05-13 | 一种应用于数据曲线过渡阶段的特征提取及界限识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115170820A CN115170820A (zh) | 2022-10-11 |
CN115170820B true CN115170820B (zh) | 2023-08-01 |
Family
ID=83482913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210518796.4A Active CN115170820B (zh) | 2022-05-13 | 2022-05-13 | 一种应用于数据曲线过渡阶段的特征提取及界限识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115170820B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108817103A (zh) * | 2018-06-06 | 2018-11-16 | 武汉科技大学 | 一种轧钢模型钢族层别分类优化方法 |
CN110210006A (zh) * | 2019-06-11 | 2019-09-06 | 秒针信息技术有限公司 | 一种数据筛选方法及数据筛选装置 |
CN112997255A (zh) * | 2018-06-08 | 2021-06-18 | 帝国理工学院创新有限公司 | 分析实时扩增数据的方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6944338B2 (en) * | 2000-05-11 | 2005-09-13 | Becton Dickinson And Company | System for identifying clusters in scatter plots using smoothed polygons with optimal boundaries |
US20120283885A1 (en) * | 2011-05-04 | 2012-11-08 | General Electric Company | Automated system and method for implementing statistical comparison of power plant operations |
CN104166806B (zh) * | 2014-08-25 | 2017-04-05 | 西南石油大学 | 一种井间示踪曲线聚类分析方法及装置 |
CN105930933B (zh) * | 2016-04-26 | 2019-05-31 | 华北电力科学研究院有限责任公司 | 风电场理论功率曲线确定方法及装置 |
CN107092653A (zh) * | 2017-03-15 | 2017-08-25 | 西安工程大学 | 一种基于模糊聚类分析法的滑坡临界雨量阈值确定方法 |
CN106933211B (zh) * | 2017-04-18 | 2019-04-09 | 中南大学 | 一种识别工业过程动态调整区间的方法和装置 |
CN113298442A (zh) * | 2021-06-28 | 2021-08-24 | 中国平安人寿保险股份有限公司 | 客户数据的聚类分析方法、装置、设备及存储介质 |
-
2022
- 2022-05-13 CN CN202210518796.4A patent/CN115170820B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108817103A (zh) * | 2018-06-06 | 2018-11-16 | 武汉科技大学 | 一种轧钢模型钢族层别分类优化方法 |
CN112997255A (zh) * | 2018-06-08 | 2021-06-18 | 帝国理工学院创新有限公司 | 分析实时扩增数据的方法 |
CN110210006A (zh) * | 2019-06-11 | 2019-09-06 | 秒针信息技术有限公司 | 一种数据筛选方法及数据筛选装置 |
Non-Patent Citations (2)
Title |
---|
Integrating region growing and edge detection;T.Pavlidis, et al.;《IEEE Transactions on Pattern Analysis and Machine Intelligence》;第12卷(第3期);全文 * |
基于密度的K-means算法在轨迹数据聚类中的优化;郝美薇;戴华林;郝琨;;《计算机应用》(10);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115170820A (zh) | 2022-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114445387A (zh) | 一种基于机器视觉的纤维板质量分类方法 | |
CN107682319A (zh) | 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法 | |
CN111062425B (zh) | 基于c-k-smote算法的不平衡数据集处理方法 | |
CN113344019A (zh) | 一种决策值选取初始聚类中心改进的K-means算法 | |
CN110826618A (zh) | 一种基于随机森林的个人信用风险评估方法 | |
CN111898443B (zh) | 一种fdm型3d打印机送丝机构流量监测方法 | |
CN109218223A (zh) | 一种基于主动学习的鲁棒性网络流量分类方法及系统 | |
CN116167640B (zh) | 一种lcp薄膜生产质量检测数据分析方法及系统 | |
CN108154173B (zh) | 一种原油储罐油水界面测量装置及方法 | |
CN107944487B (zh) | 一种基于混合协同过滤算法的作物育种品种推荐方法 | |
CN116564409A (zh) | 基于机器学习的转移性乳腺癌转录组测序数据识别方法 | |
CN108519760A (zh) | 一种基于变点检测理论的制丝过程稳态识别方法 | |
CN116072302A (zh) | 基于有偏随机森林模型的医疗不平衡数据分类方法 | |
CN105049286A (zh) | 基于层次聚类的云平台测速数据判定方法 | |
CN115170820B (zh) | 一种应用于数据曲线过渡阶段的特征提取及界限识别方法 | |
CN108537249B (zh) | 一种密度峰值聚类的工业过程数据聚类方法 | |
CN116561230B (zh) | 一种基于云计算的分布式存储与检索系统 | |
KR101506916B1 (ko) | miRNA 탐색 자동화 시스템을 이용하여 시료로부터 miRNA를 자동으로 동정하는 방법 | |
CN110489810B (zh) | 一种基于数据块的趋势自动提取方法 | |
CN116561692A (zh) | 一种动态更新的实时量测数据检测方法 | |
CN113523904A (zh) | 一种刀具磨损检测方法 | |
CN110569902A (zh) | 一种对对象基于区间数的基本概率分配生成方法 | |
KR101696105B1 (ko) | 결함원인 분석장치 및 방법 | |
CN114694746A (zh) | 基于改进的MRMD算法和DF模型的植物pri-miRNA编码肽预测方法 | |
CN114240106A (zh) | 一种基于水文数据挖掘的流域洪水响应相似性分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |