CN106650951B - 基于时域全局相似度的多通道测量数据自动筛选方法 - Google Patents

基于时域全局相似度的多通道测量数据自动筛选方法 Download PDF

Info

Publication number
CN106650951B
CN106650951B CN201611241768.3A CN201611241768A CN106650951B CN 106650951 B CN106650951 B CN 106650951B CN 201611241768 A CN201611241768 A CN 201611241768A CN 106650951 B CN106650951 B CN 106650951B
Authority
CN
China
Prior art keywords
signal
sample
data
channel
measurement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611241768.3A
Other languages
English (en)
Other versions
CN106650951A (zh
Inventor
刘健
兰婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201611241768.3A priority Critical patent/CN106650951B/zh
Publication of CN106650951A publication Critical patent/CN106650951A/zh
Application granted granted Critical
Publication of CN106650951B publication Critical patent/CN106650951B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于时域全局相似度的多通道测量数据自动筛选方法,包括:步骤一、基于多通道测量系统的时域全局相似度对多通道数据进行自动机器学习判别;步骤二、利用多通道测量系统的时域全局相似度数据筛选方法,通过多通道测量系统中不同测量通道信号的整体相似性关系,来筛选坏道信号;步骤三、采用信号之间的多种距离定义作为信号间的相似性度量,将样本映射到一个合适的高维度特征空间;步骤四、采用滤波技术,从全局上对信号的相似性进行检测;步骤五、将从不同的事件中提取的样本组合成训练集时,采用了特征归一化方式,从而消除了不同事件的指标或者量纲影响。

Description

基于时域全局相似度的多通道测量数据自动筛选方法
技术领域
本发明属于监测与测量数据处理领域,涉及一种基于时域全局相似度的多通道测量数据自动筛选方法。
背景技术
在科学实验、工程测量或其他领域的监测和测量过程中,多采用多通道测量系统,即利用多个采集通道分别采集反映被测量和监测物体不同方面特性的数据,然后将各通道数据进行独立的传输、存储,最终对整体数据进行统一分析处理。多通道测量系统的测量数据,具有数据量大、各通道数据之间具有关联性等特点,可以通过多道间的相关性分析,探索被测物体深层次的物理特性。实际应用中,由于存在各种机械、电磁、电子学等多种因素干扰,很难保证所有通道的测量数据全部正确,多道测量数据中往往会出现一些坏道。少数坏道输出的错误测量数据,会使数据处理者对被测物体的部分特性以及特性间的相关性规律作出错误判断,进而引起对整体数据的分析结论无效。因此,在进行数据分析处理之前必须判别并剔除多道测量系统中的坏道数据,这对提高多通道测量系统的数据可信度和真实性具有重要意义。
在传统的数据处理过程中,数据处理人员往往逐条检查数据,根据经验发现并剔除坏道。这样不仅需要大量具有特定训练的人员花费大量精力、时间,还容易出现人为因素导致的误判,更不可能实现在测量完成的同时进行实时筛选提供正确数据。测量数据处理的实时性在很多情况和应用中十分重要,数据的实时处理分析可以用于对系统的自动化反馈与控制、对突发情况的自动判别与快速反应等。同时,对于一些数据量正迅速增长的领域,人工已经无法满足数据处理的要求,许多一天内积累的时间可能需要几百人人工处理上百年时间,这在实际应用中是不可能实现的。近期,机器学习和数据挖掘技术的快速发展,为自动处理实验数据奠定了良好的基础,通过机器学习,不仅可以极大提高数据处理的效率,满足大量数据的处理需求,降低大量数据处理压力,同时还能快速提供数据分析结果,实现数据处理与应用的实时性。
发明内容
本发明的目的是基于机器学习方法,提出一种基于时域全局相似度(Time-domainGlobal Similarity,TDGS)的多通道测量数据自动筛选方法,该方法可通用于多通道测量系统,自动检测多通道测量系统中存在的坏道信号。
本发明所采用的技术方案是:一种基于时域全局相似度的多通道测量数据自动筛选方法,该方法包括如下步骤:
步骤一、基于多通道测量系统的时域全局相似度对多通道数据进行自动机器学习判别,极大提高了数据处理的效率,降低了大量测量数据处理的压力;
步骤二、首次提出多通道测量系统的时域全局相似度数据筛选方法,通过多通道测量系统中不同测量通道信号的整体相似性关系,来筛选坏道信号;
步骤三、采用信号之间的多种距离定义作为信号间的相似性度量,将样本映射到一个合适的高维度特征空间,从而保证了对信号间相似性的准确分类效果;
步骤四、采用滤波技术,从全局上对信号的相似性进行检测,避免局部或小尺度噪声对信号间的全局相似性造成干扰;
步骤五、采用特征归一化方式,消除不同事件的指标或者量纲影响,进而将从不同的事件中提取的样本组合成训练集,提高了模型的精确度。
本发明首次将TDGS方法应用于磁约束聚变装置中的多通道测量系统—偏振干涉仪系统,并取得了优秀效果,具有极高应用价值。
本发明与现有技术相比的优点在于:
(1)本发明首次将机器学习和数据挖掘技术应用于多通道测量系统的数据筛选,从而自动的检测多通道测量系统中存在的坏道信号,避免实验人员花大量时间和精力人工筛选数据,提高了实验效率。
(2)本发明首次提出多通道测量系统的时域全局相似度数据筛选方法,通过多通道测量系统中不同测量通道信号的整体相似性关系,来筛选坏道信号,该方法符合多通道测量系统的数据特点,具有普适性。
(3)本发明首次将时域全局相似度方法应用于偏振干涉仪系统的等离子体密度测量数据筛选,在大量样本测试中,该方法的坏道筛选准确率全部保持在99%之上,大量实验中的判断准确率达到100%,具有极高的应用价值。
附图说明
图1为基于多通道测量系统的测量数据利用基于时域全局相似度方法中生成数据筛选器示意图;
图2为利用时域全局相似度方法生成数据筛选器自动检测多通道测量系统中坏道信号的工作流程。
具体实施方式
下面结合附图以及具体实施方式进一步说明本发明。
图1展示了如何基于多通道测量系统的测量数据,基于时域全局相似度方法中生成数据筛选器。具体步骤如下:
步骤11,读取多通道测量系统的测量数据,然后对原始数据进行预处理,从而去除噪声以及不同通道指标或量纲的影响,完成对原始数据的预处理。
本步骤主要包括两个处理过程:
一、滤波
记第i个测量通道对某个事件m采集的时间序列信号为Smi,根据所研究的问题,对原始信号进行滤波F1,消除噪声及无关因素的影响,滤波后的信号记为S′mi。假设共有N个测量通道,P个事件,则:
这里事件指的是多通道测量系统对同一个物体或过程的一次测量或监测,同一个事件中各测量通道的数据具有一定关联性。
二、向量归一化
将各通道的信号分别进行归一化F2,消除不同通道指标或量纲的影响,归一化后的信号记为S″mi,即S″mi=F2(S′mi)。
步骤12,从经过预处理的信号中,提取样本的特征及进行标记。
本步骤主要包括四个处理过程:
一、从经过预处理的数据中,提取样本
每一个样本是从对同一个事件的多道测量信号中,选取两道独立信号组合而成的。如图所示,对于第m个事件的测量数据,从经过步骤11数据预处理过程的信号中,选取任意两道信号s″mi及s″mj作为一个样本的原始数据,记为
通道数为N的多通道测量系统对于一个事件的测量数据,可以组合出个样本。
二、提取样本的标记
将组合成一个样本的两个信号S″mi与S″mj的相似性关系作为样本的标记分为相似与不相似两类,即或-1。
三、提取样本的特征
采用距离函数Dk作为相似性度量,将组合成一个样本的两个信号S′mi与S′mj的相似性度量作为样本的特征,记第k个样本特征为使用多个距离函数,可以提高特征空间的维度,从而将样本映射到一个合适的高纬度特征空间,进而在特征空间内对信号之间的相似性进行二分类,假设共采用了M个距离函数,则:
四、特征归一化
为了增加训练样本的数目,提高模型的精确度,可以将从不同的事件中提取的样本组合成训练集。将不同的事件放在一起比较时,需要消除不同事件的指标或者量纲影响,对特征进行归一化F3,归一化后的特征记为
步骤13,根据标记样本,进行模型选择,得到最终分类器。
本发明中,可采用常规机器学习分类方法(如支持向量机、神经网络模型)基于步骤12中提取的样本特征进行筛选器(分类器的一种)训练,得到需要的初级筛选器。
步骤14,利用训练集和测试集对步骤13中获得的初级筛选器进行评估和优化,最终得到具有高准确率和稳定性的筛选器。
图2展示了利用时域全局相似度方法生成数据筛选器,如何自动检测多通道测量系统中坏道信号的工作流程。
步骤21,获取某个多通道测量数据后,选取其中两个通道测量数据作为输入数据。
步骤22,将数据输入步骤14中得到的筛选器,筛选器给出筛选结果标签其中代表两通道数据相似,代表两通道数据不相似。
步骤23,对于同一事件或过程的多通道信号,TDGS筛选器判定相似的信号为“两道好信号”,而不相似的信号可能为“坏信号与好信号”或者“坏信号与坏信号”。通过反复进行通道间的两两对比,即可以认定与其他信号均不相似的信号为坏道。TDGS方法从不相似的样本集合B中选择出下标X,满足:
则信号SnX为坏道。
为了进一步说明本发明,下面结合一具体示例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本示例中,多通道测量系统为偏振干涉仪系统,被测物体是EAST托卡马克磁约束聚变装置中的等离子体密度,而每一次放电就是一个事件。
具体处理步骤如下:
第一步:读取偏振干涉仪系统测量的EAST托卡马克约束的等离子体密度,按步骤11进行数据预处理。
对于本实施例,滤波分为两部分,信号截取以及低通滤波。
记偏振干涉仪系统第i个测量通道对某个事件m采集的信号为Smi,该信号为时间序列信号。根据偏振干涉仪系统的数据采集特点,t=0秒前采集的信号不能反映等离子体的信息,因此可以通过滤掉,即仅截取信号Smi在t≥0的部分;同时,根据托卡马克约束的等离子体密度的数据特点,需对原始数据进行低通滤波,消除KHZ以上的小尺度时间噪声对全局数据结构的相似性判定的影响。滤波后的信号记为S′mi,则:
其中FLP为低通滤波函数,KHZ以下的信号能通过;N为偏振干涉仪系统的测量通道数;P为托卡马克的放电次数。
对经过去噪处理的数据,需进行归一化,从而消除不同通道的信号强度不同对相似性判定的影响。本实例采用(0,1)标准化的归一化方法,归一化后的信号记为S″mi,即:
第二步:按步骤12,从经过第二步预处理的信号中,提取样本及样本的特征、标记。
使用多个距离函数,可以提高特征空间的维度,从而将样本映射到一个合适的高纬度特征空间。本实例采用了11个距离函数,其中距离函数Dk包括欧氏距离、曼哈顿距离、切比雪夫距离、一阶差分的欧氏距离、一阶差分的曼哈顿距离、二阶差分的欧氏距离、二阶差分的曼哈顿距离、夹角余弦、汉明距离、相关距离、前几个距离组成的空间r。
同时,本实例将从不同次放电的等离子体密度中提取的样本放在一起比较时,为了消除不同次的放电时间不同带来的影响,通过对特征进行时间归一化,归一化后的特征记为则:
其中Tm为第m次的放电时间。
第三步:根据标记样本,按照步骤13和14进行模型训练及选择,得到最终筛选器。
本实例中,算法采用支持向量机,模型选择方法采用交叉纠错方法,进而得到适用于EAST偏振干涉仪系统的最终最优化模型。
第四步:对于待检测的EAST偏振干涉仪系统提供的某一次放电的等离子体密度数据,通过步骤21,提取样本及样本的特征。
第五步:按照步骤22,基于TDGS方法训练的分类器,自动检测EAST偏振干涉仪系统中坏道信号。
为了进一步说明本发明在本实例中的使用效果,下面结合一些具体参数做详细说明。需要强调的是,下述示例中所涉及的具体参数仅为举例,并非构成限制。在实际应用中,各个参数的具体数值可根据实际情况来设定。
偏振干涉仪系统在2016年共有11个测量通道,对于每一次放电共有个样本。在本实例中,我们研究了6次放电过程,共有个样本。经过验证,应用本发明方法预测的样本相似性与通过人工经验标记的相似性的符合度很高,精确度达到99.5%以上,可以准确检测EAST偏振干涉仪系统中坏道信号。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (1)

1.一种基于时域全局相似度的多通道测量数据自动筛选方法,其特征在于,该方法包括如下步骤:
步骤一、基于多通道测量系统的时域全局相似度对多通道数据进行自动机器学习判别;
步骤11,读取多通道测量系统的测量数据,然后对原始数据进行预处理,从而去除噪声以及不同通道指标或量纲的影响,完成对原始数据的预处理;
步骤11包括两个处理过程:
(1)、滤波
记第i个测量通道对某个事件m采集的时间序列信号为Smi,根据所研究的问题,对原始信号进行滤波F1,消除噪声及无关因素的影响,滤波后的信号记为S′mi,假设共有N个测量通道,P个事件,则:
其中事件指的是多通道测量系统对同一个物体或过程的一次测量或监测,同一个事件中各测量通道的数据具有一定关联性;
(2)、向量归一化
将各通道的信号分别进行归一化F2,消除不同通道指标或量纲的影响,归一化后的信号记为S″mi,即S″mi=F2(S′mi);
步骤12,从经过预处理的信号中,提取样本的特征及进行标记;
步骤12包括四个处理过程:
(1)、从经过预处理的数据中,提取样本;
每一个样本是从对同一个事件的多道测量信号中,选取两道独立信号组合而成的,对于第m个事件的测量数据,从经过步骤11数据预处理过程的信号中,选取任意两道信号S″mi及S″mj作为一个样本的原始数据,记为
通道数为N的多通道测量系统对于一个事件的测量数据,可以组合出个样本;
(2)、提取样本的标记
将组合成一个样本的两个信号S″mi与S″mj的相似性关系作为样本的标记分为相似与不相似两类,即或-1;
(3)、提取样本的特征
采用距离函数Dk作为相似性度量,将组合成一个样本的两个信号S″mi与S″mj的相似性度量作为样本的特征,记第k个样本特征为使用多个距离函数,可以提高特征空间的维度,从而将样本映射到一个合适的高纬度特征空间,进而在特征空间内对信号之间的相似性进行二分类,假设共采用了M个距离函数,则:
(4)、特征归一化
为了增加训练样本的数目,提高模型的精确度,可以将从不同的事件中提取的样本组合成训练集,将不同的事件放在一起比较时,需要消除不同事件的指标或者量纲影响,对特征进行归一化F3,归一化后的特征记为
步骤13,根据标记样本,进行模型选择,得到最终分类器;
采用支持向量机或神经网络模型基于步骤12中提取的样本特征进行筛选器训练,得到需要的初级筛选器;
步骤14,利用训练集和测试集对步骤13中获得的初级筛选器进行评估和优化,最终得到具有高准确率和稳定性的筛选器;
步骤二、利用多通道测量系统的时域全局相似度数据筛选方法,通过多通道测量系统中不同测量通道信号的整体相似性关系,来筛选坏道信号;
步骤21,获取某个多通道测量数据后,选取其中两个通道测量数据作为输入数据;
步骤22,将数据输入步骤14中得到的筛选器,筛选器给出筛选结果标签其中代表两通道数据相似,代表两通道数据不相似;
步骤23,对于同一事件或过程的多通道信号,TDGS筛选器判定相似的信号为“两道好信号”,而不相似的信号可能为“坏信号与好信号”或者“坏信号与坏信号”,通过反复进行通道间的两两对比,即可以认定与其他信号均不相似的信号为坏道,TDGS方法从不相似的样本集合B中选择出下标X,满足:
则信号SnX为坏道。
CN201611241768.3A 2016-12-29 2016-12-29 基于时域全局相似度的多通道测量数据自动筛选方法 Active CN106650951B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611241768.3A CN106650951B (zh) 2016-12-29 2016-12-29 基于时域全局相似度的多通道测量数据自动筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611241768.3A CN106650951B (zh) 2016-12-29 2016-12-29 基于时域全局相似度的多通道测量数据自动筛选方法

Publications (2)

Publication Number Publication Date
CN106650951A CN106650951A (zh) 2017-05-10
CN106650951B true CN106650951B (zh) 2019-06-21

Family

ID=58835462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611241768.3A Active CN106650951B (zh) 2016-12-29 2016-12-29 基于时域全局相似度的多通道测量数据自动筛选方法

Country Status (1)

Country Link
CN (1) CN106650951B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112305591B (zh) * 2020-10-10 2022-04-29 中国地质大学(北京) 隧道超前地质预报方法、计算机可读存储介质
CN113126015A (zh) * 2021-04-29 2021-07-16 广东电网有限责任公司电力科学研究院 多通道电能质量监测装置测量精度的检测方法及装置
CN113536211B (zh) * 2021-07-24 2024-02-06 大连理工大学 一种用于east托卡马克磁信号快速提取的数值方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375886A (zh) * 2011-10-21 2012-03-14 北京锐安科技有限公司 一种多通道高速数据比对方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375886A (zh) * 2011-10-21 2012-03-14 北京锐安科技有限公司 一种多通道高速数据比对方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
High-speed evaluation of thermoelectric materials using multi-channel measurement system;K. Itaka, et al.;《Journal of Thermal Analysis and Calorimetry》;20020731;第69卷;1051–1058
基于SVM融合的多通道生物认证算法研究;周枫;《中国优秀硕士学位论文全文数据库信息科技辑》;20070915;第2007年卷(第03期);I138-1070
多通道分色模型中的特征色样筛选研究;朱明等;《包装工程》;20130515;第34卷(第9期);71-75

Also Published As

Publication number Publication date
CN106650951A (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
Münchmeyer et al. Which picker fits my data? A quantitative evaluation of deep learning based seismic pickers
Sokos et al. Evaluating centroid‐moment‐tensor uncertainty in the new version of ISOLA software
Chambon et al. Automatic road pavement assessment with image processing: Review and comparison
Sesar et al. Exploring the variable sky with LINEAR. II. Halo structure and substructure traced by RR Lyrae stars to 30 kpc
Bergen et al. Preface to the focus section on machine learning in seismology
Koposov et al. Automated search for Galactic star clusters in large multiband surveys-I. Discovery of 15 new open clusters in the Galactic anticenter region
CN106650951B (zh) 基于时域全局相似度的多通道测量数据自动筛选方法
Tan et al. Improved methods for detection and arrival picking of microseismic events with low signal-to-noise ratios
US11443137B2 (en) Method and apparatus for detecting signal features
Cho et al. Sound recognition techniques for multi-layered construction activities and events
CN111539450B (zh) 地震区滑坡易发性评价方法
CN109374631A (zh) 一种隧道状态评测方法
CN115601661A (zh) 一种用于城市动态监测的建筑物变化检测方法
Hourihane et al. Accurate modeling and mitigation of overlapping signals and glitches in gravitational-wave data
CN110490134A (zh) 信号识别方法、设备及存储介质
CN112985574A (zh) 基于模型融合的光纤分布式声波传感信号高精度分类识别方法
CN109901111A (zh) 基于偏最小二乘回归的近场声源定位方法
CN106706119B (zh) 一种基于信号频域特征的振动源识别方法及系统
Zheng et al. SC-PSNET: A deep neural network for automatic P-and S-phase detection and arrival-time picker using 1C recordings
Callister et al. Gravitational-wave geodesy: A new tool for validating detection of the stochastic gravitational-wave background
CN107132515A (zh) 一种基于多维信息约束的点迹筛选方法
CN105910622A (zh) 一种综合测试陀螺组合性能的系统及其测试方法
León et al. Small-layered Feed-Forward and Convolutional neural networks for efficient P wave earthquake detection
CN116026449A (zh) 一种基于单芯光纤传感的振动定位监测系统
Jeong et al. Constructing an Audio Dataset of Construction Equipment from Online Sources for Audio-Based Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant