CN107729294A - 空气质量检测数据中离群值的获取方法及装置 - Google Patents
空气质量检测数据中离群值的获取方法及装置 Download PDFInfo
- Publication number
- CN107729294A CN107729294A CN201710913032.4A CN201710913032A CN107729294A CN 107729294 A CN107729294 A CN 107729294A CN 201710913032 A CN201710913032 A CN 201710913032A CN 107729294 A CN107729294 A CN 107729294A
- Authority
- CN
- China
- Prior art keywords
- outlier
- data
- times2
- interquartile range
- percentile
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/0004—Gaseous mixtures, e.g. polluted air
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Operations Research (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Combustion & Propulsion (AREA)
- Probability & Statistics with Applications (AREA)
- Food Science & Technology (AREA)
- Medicinal Chemistry (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种空气质量检测数据中离群值的获取方法及装置。所述方法包括如下步骤:获取一组需要求离群值的数据集合A,并设定本组数据的离群值偏离倍数times1;按照从小到大的顺序对数据集合进行排序,并得到四分位数间距D1;根据数据集合A的第x百分位数与四分位数间距的比值获得times2;比较times1与times2的大小,得到理想的离群值偏离倍数times;根据四分位数间距D1与times的积bound求出离群值的分界值,从而得到离群值集合。本发明根据具体情况,采取可配置参数或者第x百分位数与四分位数间距的比值的来作为离群值的偏离倍数,更加灵活,有效的计算出离群值集合,达到预期效果。
Description
技术领域
本发明属于控制质量检测领域,具体涉及一种空气质量检测数据中离群值的获取方法及装置。
背景技术
在统计学中,离群值是指粗差即粗大误差或疏失误差的统计数据。粗差是明显查处规定条件下预期的误差。
统计数据中的疏忽(如读错,记错,说错,仪器又故障,操作不当)和巨大误差(残差的绝对值特别大)都是粗差。对于离群值的处理,不能仅凭一个特征,一项要求或者说凭经验就对其进行盲目取舍。当出现离群值的时候,要慎重处理,要将专业知识和统计学方法结合起来,首先应认真检查原始数据,看能否从专业上加以合理的解释,如数据存在逻辑错误而原始记录又确实如此,又无法找到观测对象进行核实,则只能对其进行修改或者直接舍弃。
在排除上述因素后,对于离群值,我们就要进行统计检验,应充分依据统计知识和离群值判断准则来确定其是否为异常值。
因此,对离群值的判断和处理是统计处理的一个重要环节。在离群值的判断和处理上,一些教材专著中的判据忽视了判断前提与处理目的。特别是对一组值相近的数据进行处理时,会出现几乎多半数据被判定为离群值。导致判断结果不准确,失去了参考价值。
发明内容
(一)要解决的技术问题
针对现有技术的不足,本发明的目的在于提供一种空气质量数据中离群值的获取方法及装置。
(二)技术方案
本发明的目的是通过下述技术方案实现的。
作为本发明的一个方面,提供一种空气质量数据中离群值的获取方法,包括如下步骤:
S1、获取一组需要求离群值的数据集合A,并,设定本组数据的离群值偏离倍数times1;
S2、按照从小到大的顺序对数据集合A进行排序,根据数据集合A的第二十五百分位数Q1,第七十五百分位数Q2,得到四分位数间距D1=Q2-Q1;
S3、根据数据集合A的第x百分位数与四分位数间距的比值获得times2,其中x为离群值所占百分数,90<x<100;
S4、判断times1与times2的大小,确定离群值偏离倍数times,如果times1>times2,则times>=times1;如果times<times2,则times=times2;
S5、确定四分位数间距D1与times的积bound即为离群值的分界值。
优选地,所述步骤S2中百分位数为:将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。
优选地,所述步骤S2中四分位数间距为:由P25、P50、P75将一组变量值等分为四部分,P25称下四分位数,P75称上四分位数,将P75与P25之差定义为四分位数间距,是上四分位数与下四分位数之差。
优选地,所述离群值即为集合A中所有大于bound的值,获取集合A中所有大与bound值得的集合B。
作为本发明的另一方面,提供一种空气质量数据中离群值的获取装置,包括:
存储器,用于存储指令;
处理器,用于执行所述指令,在执行指令时参照前文所述方法进行。
(三)有益效果
本发明根据具体情况,采取可配置参数或者第x百分位数与四分位数间距的比值的来作为空气质量数据中离群值的偏离倍数,更加灵活,有效的计算出离群值集合,达到预期效果。在合适的场所使用该发明,是一个比较好的选择。
附图说明
图1为本发明实施例空气质量数据中离群值的获取方法中统计离群值的流程图;
图2为本发明实施例空气质量数据中离群值的获取方法中计算获取百分位数流程图。
具体实施方式
为使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合具体实施方式,并参照附图,对本发明作进一步的详细说明。
根据本发明的基本构思,提供一种空气质量数据中离群值的获取方法,通过可配置参数或者第x百分位数与四分位数间距的比值的来作为离群值的偏离倍数,能有效的计算出离群值集合。
在本发明的具体实施方式中,所述方法包括如下步骤:
S1、获取一组需要求离群值(空气质量检测的某个参数数据,该参数为现有技术已有的)的数据集合A,并且,设定本组数据的离群值偏离倍数times1;
S2、按照从小到大的顺序对数据集合A进行排序,根据数据集合A的第二十五百分位数Q1,第七十五百分位数Q2,得到四分位数间距D1=Q2-Q1;
其中,步骤S2中百分位数为:将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数;四分位数间距为:由P25、P50、P75将一组变量值等分为四部分,P25称下四分位数,P75称上四分位数,将P75与P25之差定义为四分位数间距,是上四分位数与下四分位数之差;
S3、根据数据集合A的第x百分位数与四分位数间距的比值获得times2,其中,x为离群值的所占百分数,90<x<100;
S4、判断times1与times2的大小,确定离群值偏离倍数times,如果times1>times2,则times>=times1;如果times<times2,则times=times2;
S5、确定四分位数间距D1与times的积bound即为离群值的分界值。
所述离群值即为集合A中所有大于bound的值,获取集合A中所有大与bound值得的集合B。
本发明还提供一种离群值的获取装置,包括:
存储器,用于存储指令;
处理器,用于执行所述指令,在执行指令时参照前文所述方法进行。
下面举几个具体的实施例,以对本发明的实施和应用效果做更好的说明。
实施例1
如图1,图2所示,本实施例提供了一种离群值的获取方法,包括如下步骤:
S1、在使用此实施例的项目的配置文件中加上配置信息,即离群值的偏离倍数:times1=2;
S2、将要计算离群值的数据放入一个集合A(1,2,3,4,5,6,7,8,9,15,16),并进行从小到大排序;
S3、根据图2流程,计算获得A集合的第二十五百分位数Q1=3,第七十五百分位数Q2=9,第九十九百分位数Q3=11.88;
S4、通过Q1与Q2获得四分位数间距D1=Q2-Q1=6;
S5、计算得离群值偏离倍数times2=Q3/D1=1.98;
S6、由于times1>times2,所以times=times1=2;
S7、离群值分界值standar=D1*times=12;
S8、得到离群值集合为(15,16)。
实施例2
如图1,图2所示,本实施例提供了一种离群值的获取方法,包括如下步骤:
S1、在使用此实施例的项目的配置文件中加上配置信息,即离群值的偏离倍数:times1=2;
S2、将要计算离群值的数据放入一个集合A(3,3.5,3.8,4,5,6,8,10,11.5,11.7,15),并进行从小到大排序;
S3、根据图2流程,计算获得A集合的第二十五百分位数Q1=3.8,第七十五百分位数Q2=11.5,第九十九百分位数Q3=14.6;
S4、通过Q1与Q2获得四分位数间距D1=Q2-Q1=7.7;
S5、计算得离群值偏离倍数times2=Q3/D1=1.9;
S6、由于times1>times2,所以times=times1=2;
S7、离群值分界值standar=D1*times=15.4;
S8、得到离群值集合为(无)。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种空气质量检测数据中离群值的获取方法,其特征在于:包括如下步骤:
S1、获取一组需要求离群值的数据集合A,并设定本组数据的离群值偏离倍数times1;
S2、按照从小到大的顺序对数据集合A进行排序,根据数据集合A的第二十五百分位数Q1,第七十五百分位数Q2,得到四分位数间距D1=Q2-Q1;
S3、根据数据集合A的第x百分位数与四分位数间距的比值获得times2,其中x为离群值所占百分数,90<x<100;
S4、判断times1与times2的大小,确定离群值偏离倍数times,如果times1>times2,则times>=times1;如果times<times2,则times=times2;
S5、确定四分位数间距D1与times的积bound即为离群值的分界值。
2.根据权利要求1所述的方法,其特征在于:所述步骤S2中百分位数为:将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。
3.根据权利要求1所述的方法,其特征在于:所述步骤S2中四分位数间距为:由P25、P50、P75将一组变量值等分为四部分,P25称下四分位数,P75称上四分位数,将P75与P25之差定义为四分位数间距,是上四分位数与下四分位数之差。
4.根据权利要求1所述的方法,其特征在于:所述离群值即为集合A中所有大于bound的值,获取集合A中所有大与bound值得的集合B。
5.一种空气质量检测数据中离群值的获取装置,包括:
存储器,用于存储指令;
处理器,用于执行所述指令,在执行指令时依照权利要求1-4任一所述方法进行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710913032.4A CN107729294A (zh) | 2017-09-28 | 2017-09-28 | 空气质量检测数据中离群值的获取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710913032.4A CN107729294A (zh) | 2017-09-28 | 2017-09-28 | 空气质量检测数据中离群值的获取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107729294A true CN107729294A (zh) | 2018-02-23 |
Family
ID=61208376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710913032.4A Pending CN107729294A (zh) | 2017-09-28 | 2017-09-28 | 空气质量检测数据中离群值的获取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107729294A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116014A (zh) * | 2020-09-24 | 2020-12-22 | 贵州电网有限责任公司 | 一种配电自动化设备测试数据离群值检测方法 |
US11237298B2 (en) | 2019-07-22 | 2022-02-01 | International Business Machines Corporation | Error correction |
-
2017
- 2017-09-28 CN CN201710913032.4A patent/CN107729294A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11237298B2 (en) | 2019-07-22 | 2022-02-01 | International Business Machines Corporation | Error correction |
CN112116014A (zh) * | 2020-09-24 | 2020-12-22 | 贵州电网有限责任公司 | 一种配电自动化设备测试数据离群值检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109032829A (zh) | 数据异常检测方法、装置、计算机设备及存储介质 | |
Weißmann et al. | Studying the properties of galaxy cluster morphology estimators | |
CA2530666A1 (en) | Methods and apparatus for data analysis | |
KR20060006723A (ko) | 검사 프로세스 향상을 위한 방법 및 장치 | |
CN115994248B (zh) | 阀门故障的数据检测方法及系统 | |
US7062410B2 (en) | Transistor performance analysis system | |
CN107729294A (zh) | 空气质量检测数据中离群值的获取方法及装置 | |
TWI641961B (zh) | 設計佈局為主的快速線上缺陷診斷、分類及取樣方法及系統 | |
CN109508733A (zh) | 一种基于分布概率相似度度量的异常检测方法 | |
CN106355375B (zh) | 一种物料自动确认方法 | |
CN108830554A (zh) | 基于任务模型的数据成果信息质量智能检测方法和系统 | |
CN108241574A (zh) | 一种基于测试管理工具qc对软件测试缺陷进行分析的方法及系统 | |
WO2022183675A1 (zh) | 半导体智能检测系统、智能检测方法及存储介质 | |
EP1012615A1 (en) | System for storing and searching named device parameter data in a test system for testing an integrated circuit | |
US6872582B2 (en) | Selective trim and wafer testing of integrated circuits | |
CN113642209B (zh) | 基于数字孪生的结构植入故障响应数据获取及评判方法 | |
US20070180411A1 (en) | Method and apparatus for comparing semiconductor-related technical systems characterized by statistical data | |
US6615157B1 (en) | System method and computer program product for automatically assessing experiment results | |
TW569373B (en) | Method for analyzing defect inspection parameters | |
CN108446213A (zh) | 一种静态代码质量分析方法和装置 | |
US11244235B2 (en) | Data analysis device and analysis method | |
US7035770B2 (en) | Fuzzy reasoning model for semiconductor process fault detection using wafer acceptance test data | |
Buschmann et al. | Data-driven decision support for process quality improvements | |
JP2020047245A (ja) | 分析装置および分析方法 | |
CN109886288A (zh) | 一种用于电力变压器的状态评价方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180223 |