CN111079809A - 电连接器智能统型方法 - Google Patents
电连接器智能统型方法 Download PDFInfo
- Publication number
- CN111079809A CN111079809A CN201911238101.1A CN201911238101A CN111079809A CN 111079809 A CN111079809 A CN 111079809A CN 201911238101 A CN201911238101 A CN 201911238101A CN 111079809 A CN111079809 A CN 111079809A
- Authority
- CN
- China
- Prior art keywords
- electric connector
- data
- system type
- data set
- decision tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Abstract
本发明的电连接器智能统型方法包括:1)获取已有的电连接器业务数据;2)获取已有的电连接器失效数据;3)根据统型要求对电连接器数据进行清洗;4)由清洗后的电连接器数据形成电连接器的训练数据集以及测试数据集;5)利用训练数据集构建电连接器统型决策树;6)对电连接器统型决策树剪枝;7)通过剪枝后的电连接器统型决策树对测试数据集中的数据进行分类;8)依据步骤7)分类结果形成电连接器统型表,比对该电连接器统型表与人工统型结果,若比对结果满足要求,即利用步骤5)构建的电连接器统型决策树进行电连接器智能统型。本发明解决电连接器统型依赖领域专家人工处理的问题。
Description
技术领域
本发明涉及大数据及人工智能技术领域,具体涉及一种电连接器智能统型方法。
背景技术
现有技术中,电连接器统型依赖领域专家人工处理,效率低、可靠性差。
近年来,大数据技术已经渗透到社会生产生活的各个方面,成为促进经济社会转型的支柱力量,大数据的发展和普及为社会各行业中新业态的形成奠定了技术基础。大数据技术体系涵盖了大量的核心技术,如:大数据采集技术,对各种来源的结构化和非结构化海量数据进行采集;数据预处理技术,包括技术及业务数据预处理,前者指对采集到的原始数据进行“清洗、填补、平滑、合并、规格化、一致性检验”等操作,以提高数据的质量,后者是根据业务领域知识,对数据进行预处理,使其符合数据分析要求,为后期分析奠定基础;数据分析挖掘,从可视化分析、数据挖掘算法、预测性分析、语义引擎等方面,对杂乱无章的数据,进行萃取、提炼和分析过程。
人工智能技术现已经广泛应用于各个领域,典型应用场景包括:人脸识别(安防领域)、人机交互(工程应用)、文本识别(舆情处理)等。电连接器智能统型中需要应用机器学习算法(决策树算法)来自动判读电连接器质量及使用情况,从而实现电连接器的智能统型。决策树可看作是一棵树型的预测模型,树的根结点是整个数据集合空间,每个分枝结点是一个分裂问题,它是对一个单一属性的测试,该测试将数据集合空间分割成两个或更多块,每个叶结点是带有分类的数据分割。从决策树的根结点到叶结点的一条路径就形成了对相应对象的类别预测。决策树算法的核心问题是选取测试属性和决策树剪枝。
决策树生成指由训练数据集生成决策树的过程,基本步骤包括:
①选择合适的属性集作为决策树候选属性集;
②在候选属性集中选择最有分类能力的属性作为当前决策结点的分裂依据,结点上被选中的候选属性也称为测试属性;
③根据当前决策结点测试属性取值的不同,将训练数据集划分为若干子集。并针对每一个子集,重复进行②、③两个步骤,直到最后的子集不可在划分;
④确定叶结点的类别并进行标识,生成决策树。
现有的决策树算法在文本分类、数据聚类、图像识别等领域已有广泛的应用,但在电连接器智能统型领域尚未见到上述应用,且电连接器的数据结构并不能直接满足决策树算法的相关要求,因此需要对现有的决策树算法进行较大幅度的改进,使其支持电连接器智能统型。
发明内容
本发明的目的在于提供一种电连接器智能统型方法,解决电连接器统型依赖领域专家人工处理的问题。
为了达到上述的目的,本发明提供一种电连接器智能统型方法,包括:
1)获取已有的电连接器业务数据;
2)获取已有的电连接器失效数据;
3)根据统型要求对电连接器数据进行清洗;
所述电连接器数包括步骤1)获取的电连接器业务数据和步骤2)获取的电连接器失效数据;
4)由清洗后的电连接器数据形成电连接器的训练数据集以及测试数据集;
5)利用训练数据集构建电连接器统型决策树;
6)对电连接器统型决策树剪枝;
7)通过剪枝后的电连接器统型决策树对测试数据集中的数据进行分类;
8)依据步骤7)分类结果形成电连接器统型表,比对该电连接器统型表与人工统型结果,若比对结果满足要求,即利用步骤5)构建的电连接器统型决策树进行电连接器智能统型。
与现有技术相比,本发明的有益技术效果是:
本发明基于大数据技术对已有的电连接器数据进行集成、清洗,并对其中冗余和描述不一致数据进行整合,最后基于决策树算法实现自动统型,提高了工作效率和统型可靠性。
附图说明
本发明的电连接器智能统型方法由以下的实施例及附图给出。
图1所示为本发明较佳实施例的电连接器智能统型方法的流程图。
具体实施方式
以下将结合图1对本发明的电连接器智能统型方法作进一步的详细描述。
本发明中统型包括两层含义:技术层面——对电连接器中型号规格、委托单位等描述不一致的参数或属性进行统一数据清洗与整理;管理层面——根据电连接的使用情况、质量情况、供应商情况等,将部分不符合质量要求的电连接器从合格目录中去除,确保产品用电连接器的质量。
图1所示为本发明较佳实施例的电连接器智能统型方法的流程图。
本实施例的电连接器智能统型方法包括:
1)获取已有的电连接器业务数据
从信息系统中集成已有的电连接器业务数据
本实施例从科研生产管理系统中集成已有的电连接器业务数据,包括电连接器基本属性数据、业务委托数据、检测流程数据、检测结果数据等;该科研生产管理系统主要是结构化数据(oracle),通过odbc驱动从oracle数据库中获取相关数据,并保存到电连接器数据仓库中;
2)获取已有的电连接器失效数据
本实施例从某科研单位门户网站下载电子元器件失效分析汇总表,该汇总表保存方式为excel格式,需要通过Python语言编写解析工具,然后将电连接器的失效数据提取出来,再集成保存到电连接器数据仓库中;
3)根据统型要求对电连接器数据进行清洗
所述电连接器数包括步骤1)获取的电连接器业务数据和步骤2)获取的电连接器失效数据;清洗包括包括对委托单位、规格型号、领域等属性的清洗;
本实施例根据电连接器统型的要求对电连接器数据进行清洗,主要包括对应用领域、委托单位、生产单位、进口/国产、三层分类、电连接器附件、低频电连接器、射频电连接器等属性进行清洗;清洗完成后即可实现电连接器的技术统型;
4)由清洗后的电连接器数据形成电连接器的训练数据集以及测试数据集
本实施例以清洗后的电连接器数据作为决策树算法的原始数据集,并给每一个电连接器添加标记,不符合质量要求的电连接器标记为不合格,符合质量要求的电连接器标记为合格;对标记后的数据集进行划分,分为训练数据集及测试数据集,两者数据量的比例为5:1;
5)构建电连接器统型决策树
5-1)以电连接器的属性建立决策树候选属性集;
本实施例候选属性集包括应用领域、委托单位、生产单位、进口/国产、三层分类、电连接器附件、低频电连接器、射频电连接器、失效地点、失效阶段、失效数量、失效模式、分析结论、批次性不合格档数、批次性不合格数量、个别不合格档数、个别不合格数量等属性;
5-2)从候选属性集中选择最具有分类能力的候选属性作为当前决策结点的分裂依据,该候选属性也称测试属性;
本实施例先计算各个候选属性的信息增益比,选择信息增益比最大的候选属性(测试属性)作为当前决策结点的分裂依据;
5-3)根据电连接器测试属性取值的不同,将训练数据集划分为若干子集;重复步骤5-2)和步骤5-3),直到最后的子集符合下列情况之一,停止迭代;
(A)子集中的数据都属于同一类,余下的候选属性无法划分该子集;
(B)该子集是遍历了所有候选属性得到的;
(C)子集中的所有剩余候选属性取值完全相同,己不能根据这些候选属性进一步进行子集划分;
5-4)确定电连接器决策树叶结点的类别并进行标识;
对于步骤5-3)基于(A)停止迭代的情况,叶结点根据电连接器数据所属类别进行标识;对于步骤5-3)基于(B)和(C)停止迭代的情况,叶结点以数据记录个数最多的类别进行类别标识;
6)对电连接器统型决策树剪枝
本实施例使用事后剪枝(postpruning)技术,允许树充分生长,然后修剪掉多余的树枝;被修剪(分枝)的结点就成为一个叶结点,并将其标记为它所包含数据中类别个数最多的类别;
7)通过剪枝后的电连接器统型决策树对测试数据集中的数据进行分类
7-1)将测试数据集表达成和训练数据集同样的形式;
7-2)遍历整个电连接器统型决策树,设当前遍历节点为t;
首先选择决策树根结点为t;
7-3)将测试样本(即测试数据)对应特征值与之(当前遍历节点)比较,然后根据结点分裂的标准,决定下个节点位于当前遍历节点t的左侧还是右侧;
7-4)递归执行7-3),直到t为叶结点;
测试样本的类别为叶结点t代表的类别;
8)依据步骤7)分类结果形成电连接器统型表,比对该电连接器统型表与人工统型结果
若该电连接器统型表与人工统型结果比较相符,表明步骤5)构建的电连接器统型决策树正确,该电连接器统型决策树可用于电连接器智能统型;
所述电连接器统型表与人工统型结果相近度达到92%,就能认为两者一致性很高。
Claims (9)
1.电连接器智能统型方法,其特征在于,包括:
1)获取已有的电连接器业务数据;
2)获取已有的电连接器失效数据;
3)根据统型要求对电连接器数据进行清洗;
所述电连接器数包括步骤1)获取的电连接器业务数据和步骤2)获取的电连接器失效数据;
4)由清洗后的电连接器数据形成电连接器的训练数据集以及测试数据集;
5)利用训练数据集构建电连接器统型决策树;
6)对电连接器统型决策树剪枝;
7)通过剪枝后的电连接器统型决策树对测试数据集中的数据进行分类;
8)依据步骤7)分类结果形成电连接器统型表,比对该电连接器统型表与人工统型结果,若比对结果满足要求,即利用步骤5)构建的电连接器统型决策树进行电连接器智能统型。
2.如权利要求1所述的电连接器智能统型方法,其特征在于,从信息系统中集成已有的电连接器业务数据,所述电连接器业务数据包括电连接器基本属性数据、业务委托数据、检测流程数据和检测结果数据;从门户网站下载电子元器件失效分析汇总表,解析该汇总表获取所述已有的电连接器失效数据。
3.如权利要求1所述的电连接器智能统型方法,其特征在于,所述步骤3)中,对应用领域、委托单位、生产单位、进口/国产、三层分类、电连接器附件、低频电连接器、射频电连接器属性进行清洗。
4.如权利要求1所述的电连接器智能统型方法,其特征在于,所述步骤4)中,以清洗后的电连接器数据作为决策树算法的原始数据集,并给每一个电连接器添加标记,不符合质量要求的电连接器标记为不合格,符合质量要求的电连接器标记为合格;对标记后的数据集进行划分,分为训练数据集及测试数据集,训练数据集的数据量大于测试数据集的数据量。
5.如权利要求1所述的电连接器智能统型方法,其特征在于,所述步骤5)包括:
5-1)以电连接器的属性建立决策树候选属性集;
5-2)从候选属性集中选择最具有分类能力的候选属性作为当前决策结点的分裂依据,该候选属性也称测试属性;
5-3)根据电连接器测试属性取值的不同,将训练数据集划分为若干子集;
重复步骤5-2)和步骤5-3),直到最后的子集符合下列情况之一,停止迭代;
(A)子集中的数据都属于同一类,余下的候选属性无法划分该子集;
(B)该子集是遍历了所有候选属性得到的;
(C)子集中的所有剩余候选属性取值完全相同,己不能根据这些候选属性进一步进行子集划分;
5-4)确定电连接器决策树叶结点的类别并进行标识。
6.如权利要求5所述的电连接器智能统型方法,其特征在于,所述步骤5-1)中,候选属性集包括应用领域、委托单位、生产单位、进口/国产、三层分类、电连接器附件、低频电连接器、射频电连接器、失效地点、失效阶段、失效数量、失效模式、分析结论、批次性不合格档数、批次性不合格数量、个别不合格档数和个别不合格数量。
7.如权利要求5所述的电连接器智能统型方法,其特征在于,所述步骤5-2)中,先计算各个候选属性的信息增益比,选择信息增益比最大的候选属性作为当前决策结点的分裂依据。
8.如权利要求5所述的电连接器智能统型方法,其特征在于,所述步骤5-4)中,对于步骤5-3)基于(A)停止迭代的情况,叶结点根据电连接器数据所属类别进行标识;对于步骤5-3)基于(B)和(C)停止迭代的情况,叶结点以数据记录个数最多的类别进行类别标识。
9.如权利要求1所述的电连接器智能统型方法,其特征在于,所述步骤7)包括:
7-1)将测试数据集表达成和训练数据集同样的形式;
7-2)遍历整个电连接器统型决策树,设当前遍历节点为t;
7-3)将测试样本对应特征值与之比较,然后根据结点分裂的标准,决定下个节点位于当前遍历节点t的左侧还是右侧;
7-4)递归执行7-3),直到t为叶结点;
测试样本的类别为叶结点t代表的类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911238101.1A CN111079809B (zh) | 2019-12-06 | 2019-12-06 | 电连接器智能统型方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911238101.1A CN111079809B (zh) | 2019-12-06 | 2019-12-06 | 电连接器智能统型方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111079809A true CN111079809A (zh) | 2020-04-28 |
CN111079809B CN111079809B (zh) | 2023-08-29 |
Family
ID=70313192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911238101.1A Active CN111079809B (zh) | 2019-12-06 | 2019-12-06 | 电连接器智能统型方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111079809B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112749513A (zh) * | 2021-01-22 | 2021-05-04 | 北京中天鹏宇科技发展有限公司 | 一种电源模块的智能统型方法 |
CN113934789A (zh) * | 2021-11-25 | 2022-01-14 | 中国电子科技集团公司第十三研究所 | 基于电子元器件的数据仓库构建方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103902816A (zh) * | 2014-03-12 | 2014-07-02 | 郑州轻工业学院 | 基于数据挖掘技术的带电检测数据处理方法 |
CN105335752A (zh) * | 2015-09-18 | 2016-02-17 | 国网山东省电力公司菏泽供电公司 | 一种基于主成分分析多变量决策树的接线方式识别方法 |
CN106022477A (zh) * | 2016-05-18 | 2016-10-12 | 国网信通亿力科技有限责任公司 | 智能分析决策系统及方法 |
CN108171335A (zh) * | 2017-12-06 | 2018-06-15 | 东软集团股份有限公司 | 建模数据的选取方法、装置、存储介质及电子设备 |
CN109033205A (zh) * | 2018-06-29 | 2018-12-18 | 上海精密计量测试研究所 | 基于数据输入行为分析的航天测试数据校核模型 |
CN109765447A (zh) * | 2019-01-29 | 2019-05-17 | 国网冀北电力有限公司唐山供电公司 | 一种智能变电站继电保护自动测试方法 |
-
2019
- 2019-12-06 CN CN201911238101.1A patent/CN111079809B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103902816A (zh) * | 2014-03-12 | 2014-07-02 | 郑州轻工业学院 | 基于数据挖掘技术的带电检测数据处理方法 |
CN105335752A (zh) * | 2015-09-18 | 2016-02-17 | 国网山东省电力公司菏泽供电公司 | 一种基于主成分分析多变量决策树的接线方式识别方法 |
CN106022477A (zh) * | 2016-05-18 | 2016-10-12 | 国网信通亿力科技有限责任公司 | 智能分析决策系统及方法 |
CN108171335A (zh) * | 2017-12-06 | 2018-06-15 | 东软集团股份有限公司 | 建模数据的选取方法、装置、存储介质及电子设备 |
CN109033205A (zh) * | 2018-06-29 | 2018-12-18 | 上海精密计量测试研究所 | 基于数据输入行为分析的航天测试数据校核模型 |
CN109765447A (zh) * | 2019-01-29 | 2019-05-17 | 国网冀北电力有限公司唐山供电公司 | 一种智能变电站继电保护自动测试方法 |
Non-Patent Citations (3)
Title |
---|
刘伟等: "基于数据挖掘和决策树的测试用例重用技术研究", vol. 6, no. 5, pages 129 - 136 * |
史小梅: "数据挖掘在电力决策支持系统中的应用", vol. 26, no. 4, pages 374 - 378 * |
杨一展: "数据挖掘技术在故障诊断中的应用研究" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112749513A (zh) * | 2021-01-22 | 2021-05-04 | 北京中天鹏宇科技发展有限公司 | 一种电源模块的智能统型方法 |
CN112749513B (zh) * | 2021-01-22 | 2023-12-15 | 北京中天鹏宇科技发展有限公司 | 一种电源模块的智能统型方法 |
CN113934789A (zh) * | 2021-11-25 | 2022-01-14 | 中国电子科技集团公司第十三研究所 | 基于电子元器件的数据仓库构建方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111079809B (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105468677A (zh) | 一种基于图结构的日志聚类方法 | |
CN108509566B (zh) | 一种基于云上95598数据发布服务业务系统网络拓扑可视化方法 | |
CN111352971A (zh) | 银行系统监控数据异常检测方法及系统 | |
CN111090643B (zh) | 一种基于数据分析系统下的海量用电数据挖掘方法 | |
CN115794803B (zh) | 一种基于大数据ai技术的工程审计问题监测方法与系统 | |
CN111079809B (zh) | 电连接器智能统型方法 | |
CN110348683A (zh) | 电能质量扰动事件主成因分析方法、装置设备及存储介质 | |
CN112668733A (zh) | 基于无监督学习的通信管理系统缺陷故障派单方法及装置 | |
CN108230183A (zh) | 一种基于时标量测的电网设备多维度综合告警的处理方法 | |
CN114021425A (zh) | 电力系统运行数据建模与特征选择方法、装置、电子设备和存储介质 | |
CN112199376B (zh) | 一种基于聚类分析的标准知识库管理方法及系统 | |
CN113726558A (zh) | 基于随机森林算法的网络设备流量预测系统 | |
CN106815320B (zh) | 基于拓展三维直方图的调研大数据可视化建模方法及系统 | |
CN117559443A (zh) | 尖峰负荷下大工业用户集群有序用电控制方法 | |
CN112363996A (zh) | 用于建立电网知识图谱的物理模型的方法及系统和介质 | |
CN116401338A (zh) | 一种基于数据资产智能检索输入输出要求设计特征提取和注意力机制及其方法 | |
CN113590599B (zh) | 基于多元复杂数据环境的数据检查方法 | |
CN115186935A (zh) | 一种机电设备非线性故障预测方法及系统 | |
CN111680572B (zh) | 一种电网运行场景动态判定方法及系统 | |
CN115345163A (zh) | 一种基于故障数据的外场质量分析方法及系统 | |
CN113689036A (zh) | 一种基于决策树c4.5算法的热像仪质量问题原因预测方法 | |
CN113610194A (zh) | 一种数字档案自动分类方法 | |
CN107992590B (zh) | 一种有利于信息比对的大数据系统 | |
CN112308340A (zh) | 电力数据处理方法及装置 | |
CN111428756A (zh) | 基于时间序列信息熵的规划数据融合实时态方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |