CN102147893A - 用于it系统应用考评拓展平台的数据分层抽样方法 - Google Patents
用于it系统应用考评拓展平台的数据分层抽样方法 Download PDFInfo
- Publication number
- CN102147893A CN102147893A CN2011100997030A CN201110099703A CN102147893A CN 102147893 A CN102147893 A CN 102147893A CN 2011100997030 A CN2011100997030 A CN 2011100997030A CN 201110099703 A CN201110099703 A CN 201110099703A CN 102147893 A CN102147893 A CN 102147893A
- Authority
- CN
- China
- Prior art keywords
- record
- class
- records
- record number
- sampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种用于IT系统应用考评拓展平台的数据分层抽样方法,包括分层步骤和抽样步骤,能够快速有效地对现有的数据表中的记录进行分层,便于进一步抽样,其分层和抽样性算法体现出每类记录在抽样记录中的作用与它在原数据表中的作用相当,满足了对各类记录进行评价的覆盖性要求。
Description
技术领域
本发明涉及数据处理领域,特别涉及一种用于IT系统应用考评拓展平台的数据分层抽样方法。
背景技术
为了贯彻《国家电网公司“十一五”信息发展规划》,落实国家电网公司SG186信息化工程,实现生产精细化管理的目标,国家电网公司于2006年确定组织开发生产管理系统(以下简称IT系统)。该项目由国网电力科学研究院负责开发实施。綦南供电局在市公司统一安排和部署下,2009年5月开始启动IT系统的推广建设工作,经过上线运行,IT系统运行稳定、功能完善,规范、高效地促进了安全生产工作开展,应用效果良好。
在IT系统全面推广建设的基础上,公司启动了系统实用化深化应用工作,计划在使用范围、使用规模以及业务数据维护、业务应用方面深化建设。但是由于生产各部门的信息化意识、人员IT技能、组织监管等方面的问题,IT在各个部门问的应用情况存在很大的区别。有些部门能很规范的使用IT的各个功能模块,进行设备台账维护,运行检修管理等。而有的部门仍然习惯于原来的工作习惯,没有有效发挥IT系统的作用,数据的完整性、合理性,流程处理的规范性,与真实生产环境的匹配性方面存在着各种问题。
因此,有必要建设一个IT系统应用考评拓展平台,建立一套规范合理的评估体系,对IT各项指标进行合理的分析,根据分析结果,制定相应的管理办法,采取相应的技术措施,采用对比评估,量化考虑等手段来提高应用系统的实用化程度,更好的发挥应用系统的作用。而在这个过程中,对于一张数据表,其记录可能有成千上万条,要人工对其处理或考评,显然不太现实。故对数据表进行分层处理就显得非常重要,故急需一种能够实现数据表分层抽样的方法。
发明内容
有鉴于此,本发明的目的是提供一种分层迅速、抽样合理、便于下一步处理的用于IT系统应用考评拓展平台的数据分层抽样万法。
该用于IT系统应用考评拓展平台的数据分层抽样方法,包括分层步骤和抽样步骤,所述分层步骤包括:
1)从数据库中读取数据表;
2)以某个字段为依据,通过对比,对记录进行分层或分类:
设某个字段属性值分别为:t1,t2,Λ,ts,数据表中记录总数为m,每条记录(1-m)对应该字段的属性值分别为:k1,k2,Λ,km,则可以建立函数
f:{k1,k2,Λ,km}α{t1,t2,Λ,ts};
于是,当f(ki)=t1(i=1,2,Λm),取出该字段的属性值ki所对应的所有记录,若记录数不为零,则得到第一个类p1,记录数为m1;
在剩余的记录中,当f(ki)=t2(i=1,2,Λm-m1),取出该字段的属性值ki所对应的所有记录,若记录数不为零,则得到第二个类p2,记录数为m2;依此类推,可以得到最终的分类结果;
3)设最终分类结果为:p1,p2,Λ,pn,共n类,且每类对应的记录数分别为:m1,m2,Λ,mn,因此总记录数为m=m1+m2+Λ+mn,于是得到每类占总记录数的百分比,即权值:
4)以两个字段为依据,通过对比,对记录进行分层或分类:设这两个字段属性值分别为:t1,t2,Λ,知q1,q2,Λ,数据表中记录总数为m,每条记录(1-m)对应这两个字段的属性值可表示向量形式为:(ki1,ki2);
其中ki=(ki1,ki2),i=1,2,Λ,m;
于是,当ki=(ki1,ki2)=(t1,q1),i=1,2,Λ,m,取出ki所对应的所有记录,若记录数不为零,则得到第一个类p1,记录数为m1;
在剩余的记录中,当ki=(ki1,ki2)=(t1,q2),i=1,2,Λ,m-m1,
取出ki所对应的所有记录,若记录数不为零,则得到第二个类p2,记录数为m2;依此类推,可以得到最终的分类结果;
5)设最终分类结果为:p1,p2,Λ,pn共n类,且每类对应的记录数分别为:m1,m2,Λ,mn,因此总记录数m=m1+m2+Λ+mn,于是得到每类占总记录数的百分比(权值):
所述抽样步骤包括:
设需从总记录中随机抽取P条记录,pi既表示类,也表示该类的数目,按四舍五入取整,则:
p1类中抽取记录数:
p2类中抽取记录数:
ΛΛΛΛΛΛΛΛΛΛΛΛΛΛΛΛ
pn类中抽取记录数:
最终得到的抽样条数P=p1+p2+p3+..........+pn。
本发明的有益效果是:
本发明能够快速有效地对现有的数据表中的记录进行分层,便于进一步抽样,其分层和抽样性算法体现出每类记录在抽样记录中的作用与它在原数据表中的作用相当,满足了对各类记录进行评价的覆盖性要求。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。
具体实施方式
以下将参照附图,对本发明的优选实施例进行详细的描述。应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
在IT系统中,一张数据表包含的记录可能有成千上万条,要人工对其处理或考评,显然不太现实,因此本发明提出了一种如下的分层抽样方法来对数据表的记录进行处理。
该用于IT系统应用考评拓展平台的数据分层抽样方法,包括分层步骤和抽样步骤,所述分层步骤包括:
1)从数据库中读取数据表;
2)以字段X为依据,通过对比,对记录进行分层或分类:
设字段X的属性值分别为:t1,t2,Λ,ts,数据表中记录总数为m,每条记录(1-m)对应该字段的属性值分别为:k1,k2,Λ,km,则可以建立函数
f:{k1,k2,Λ,km}α{t1,t2,Λ,ts};
于是,当f(ki)=t1(i=1,2,Λ m),取出该字段的属性值ki所对应的所有记录,若记录数不为零,则得到第一个类p1,记录数为m1;
在剩余的记录中,当f(ki)=t2(i=1,2,Λm-m1),取出该字段的属性值ki所对应的所有记录,若记录数不为零,则得到第二个类p2,记录数为m2;依此类推,可以得到最终的分类结果;
3)设最终分类结果为:p1,p2,Λ,pn,共n类,且每类对应的记录数分别为:m1,m2,Λ,mn,因此总记录数为m=m1+m2+Λ+mn,于是得到每类占总记录数的百分比,即权值:
4)以两个字段为依据,通过对比,对记录进行分层或分类:设这两个字段属性值分别为:t1,t2,Λ,和q1,q2,Λ,数据表中记录总数为m,每条记录(1-m)对应这两个字段的属性值可表示向量形式为:(ki1,ki2);
其中ki=(ki1,ki2),i=1,2,Λ,m;
于是,当ki=(ki1,ki2)=(t1,q1),i=1,2,Λ,m,取出ki所对应的所有记录,若记录数不为零,则得到第一个类p1,记录数为m1;
在剩余的记录中,当ki=(ki1,ki2)=(t1,q2),i=1,2,Λ,m-m1,
取出ki所对应的所有记录,若记录数不为零,则得到第二个类p2,记录数为m2;依此类推,可以得到最终的分类结果;
5)设最终分类结果为:p1,p2,Λ,pn共n类,且每类对应的记录数分别为:m1,m2,Λ,mn,因此总记录数m=m1+m2+Λ+mn,于是得到每类占总记录数的百分比(权值):
所述抽样步骤包括:
设需从总记录中随机抽取P条记录,pi既表示类,也表示该类的数目,按四舍五入取整,则:
p1类中抽取记录数:
p2类中抽取记录数:
ΛΛΛΛΛΛΛΛΛΛΛΛΛΛΛΛ
pn类中抽取记录数:
最终得到的抽样条数P=p1+p2+p3+..........+pn。
若要求为R个专家抽取不同的数据,应将进行R次抽样,每次抽样将上次抽样的数据减去再进行抽样。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (1)
1.用于IT系统应用考评拓展平台的数据分层抽样万法,其特征在于:包括分层步骤和抽样步骤,所述分层步骤包括:
1)从数据库中读取数据表;
2)以其中一个字段为依据,通过对比,对数据表中的记录进行分层或分类:
设该字段属性值分别为:t1,t2,Λ,ts,数据表中记录总数为m,每条记录(1-m)对应该字段的属性值分别为:k1,k2,Λ,km,则可以建立函数
f:{k1,k2,Λ,km}α{t1,t2,Λ,ts};
于是,当f(ki)=t1(i=1,2,Λ m),取出该字段的属性值ki所对应的所有记录,若记录数不为零,则得到第一个类p1,记录数为m1;
在剩余的记录中,当f(ki)=t2(i=1,2,Λm-m1),取出该字段的属性值ki所对应的所有记录,若记录数不为零,则得到第二个类p2,记录数为m2;依此类推,可以得到最终的分类结果;
3)设最终分类结果为:p1,p2,Λ,pn,共n类,且每类对应的记录数分别为:m1,m2,Λ,mn,因此总记录数为m=m1+m2+Λ+mn,于是得到每类占总记录数的百分比,即权值:
4)以两个字段为依据,通过对比,对记录进行分层或分类:设这两个字段属性值分别为:t1,t2,Λ,知q1,q2,Λ,数据表中记录总数为m,每条记录(1-m)对应这两个字段的属性值可表示向量形式为:(ki1,ki2);
其中ki=(ki1,ki2),i=1,2,Λ,m;
于是,当ki=(ki1,ki2)=(t1,q1),i=1,2,Λ,m,取出ki所对应的所有记录,若记录数不为零,则得到第一个类p1,记录数为m1;
在剩余的记录中,当ki=(ki1,ki2)=(t1,q2),i=1,2,Λ,m-m1,
取出ki所对应的所有记录,若记录数不为零,则得到第二个类p2,记录数为m2;依此类推,可以得到最终的分类结果;
5)设最终分类结果为:p1,p2,Λ,pn共n类,且每类对应的记录数分别为:m1,m2,Λ,mn,因此总记录数m=m1+m2+Λ+mn,于是得到每类占总记录数的百分比(权值):
所述抽样步骤包括:
设需从总记录中随机抽取P条记录,pi既表示类,也表示该类的数目,按四舍五入取整,则:
p1类中抽取记录数:
p2类中抽取记录数:
ΛΛΛΛΛΛΛΛΛΛΛΛΛΛΛΛ
pn类中抽取记录数:
最最终的抽样条数P=p1+p2+p3+..........+pn。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011100997030A CN102147893A (zh) | 2011-04-20 | 2011-04-20 | 用于it系统应用考评拓展平台的数据分层抽样方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011100997030A CN102147893A (zh) | 2011-04-20 | 2011-04-20 | 用于it系统应用考评拓展平台的数据分层抽样方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102147893A true CN102147893A (zh) | 2011-08-10 |
Family
ID=44422148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011100997030A Pending CN102147893A (zh) | 2011-04-20 | 2011-04-20 | 用于it系统应用考评拓展平台的数据分层抽样方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102147893A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460161A (zh) * | 2018-03-30 | 2018-08-28 | 腾讯科技(深圳)有限公司 | 分层抽样方法、装置和计算机设备 |
CN108596436A (zh) * | 2018-03-28 | 2018-09-28 | 郑州铁路职业技术学院 | 基于计算机的经济指标实时监控分析方法 |
CN108734617A (zh) * | 2018-04-25 | 2018-11-02 | 黄冈职业技术学院 | 一种智能市政工程造价资料存储系统 |
-
2011
- 2011-04-20 CN CN2011100997030A patent/CN102147893A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108596436A (zh) * | 2018-03-28 | 2018-09-28 | 郑州铁路职业技术学院 | 基于计算机的经济指标实时监控分析方法 |
CN108460161A (zh) * | 2018-03-30 | 2018-08-28 | 腾讯科技(深圳)有限公司 | 分层抽样方法、装置和计算机设备 |
CN108734617A (zh) * | 2018-04-25 | 2018-11-02 | 黄冈职业技术学院 | 一种智能市政工程造价资料存储系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Song et al. | Environmental performance evaluation with big data: Theories and methods | |
CN110264015A (zh) | 反窃电稽查监控方法及平台 | |
CN103034926B (zh) | 一种事故应急信息化管理方法及系统 | |
CN103455855B (zh) | 一种基于用电信息数据分析的反间歇性窃电检测方法 | |
CN105117988A (zh) | 一种电力系统中缺失数据插补的方法 | |
CN104573906B (zh) | 用于分析电力传输系统中的振荡稳定性的系统和方法 | |
CN110111110A (zh) | 基于知识图谱检测欺诈的方法和装置、存储介质 | |
CN112688431A (zh) | 一种基于大数据的配电网负荷过载可视化方法及系统 | |
CN104461896A (zh) | 基于可信属性的航天系统关键软件评价方法 | |
CN107818421A (zh) | 基于qfd的变电站工程安全风险辨识评估方法 | |
CN103823840B (zh) | 一种数据处理方法及装置 | |
CN102147893A (zh) | 用于it系统应用考评拓展平台的数据分层抽样方法 | |
CN102184466A (zh) | 基于it系统应用的考评方法 | |
Ronchi | Physical processes and mechanisms related to fission gas swelling in MX-type nuclear fuels | |
Lu et al. | Correlation between fire attendance time and burned area based on fire statistical data of Japan and China | |
CN106022666A (zh) | 一种计量资产全寿命周期管理数据质量核查方法 | |
CN109376898A (zh) | 一种基于内外部指标影响的电量分析预测方法 | |
Brown et al. | The value of stable, comparable and standardised measurement: enabling confidence in decision making for societal challenges | |
Lee et al. | A Study on Data Governance Maturity Model and Total Process for the Personal Data Use and Protection | |
Czechowski et al. | Data mining system for air quality monitoring networks | |
Wang | Extracting energy and structure properties of glass-forming liquids from structural relaxation time | |
CN103412814B (zh) | 移动终端系统安全测试与智能修复系统及方法 | |
CN112507290A (zh) | 配电设备故障概率预判方法、装置及存储介质 | |
CN107656901B (zh) | 一种配电网严格安全边界和非严格安全边界的求解方法 | |
Medvedev | BISON investigation of the effect of the fuel-cladding contact irregularities on the peak cladding temperature and FCCI observed in AFC-3A Rodlet 4 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20110810 |