CN110443503A - 水务系统工业总产值分析模型的训练方法及相关系统 - Google Patents

水务系统工业总产值分析模型的训练方法及相关系统 Download PDF

Info

Publication number
CN110443503A
CN110443503A CN201910723691.0A CN201910723691A CN110443503A CN 110443503 A CN110443503 A CN 110443503A CN 201910723691 A CN201910723691 A CN 201910723691A CN 110443503 A CN110443503 A CN 110443503A
Authority
CN
China
Prior art keywords
item
data
output value
industrial
analysis model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910723691.0A
Other languages
English (en)
Inventor
李存昌
牛豫海
张自力
张强
张增烁
田志民
李玉宝
张鹏程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HECIC WATER INVESTMENT CO Ltd
Chengdu Jiuding Credit Suisse Polytron Technologies Inc
Original Assignee
HECIC WATER INVESTMENT CO Ltd
Chengdu Jiuding Credit Suisse Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HECIC WATER INVESTMENT CO Ltd, Chengdu Jiuding Credit Suisse Polytron Technologies Inc filed Critical HECIC WATER INVESTMENT CO Ltd
Priority to CN201910723691.0A priority Critical patent/CN110443503A/zh
Publication of CN110443503A publication Critical patent/CN110443503A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Theoretical Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种水务系统工业总产值分析模型的训练方法及相关系统。方法流程包括:从大数据平台提取工业总产值项和相关项数据的步骤、对提取的数据基于有效性、相关项和重复性进行过滤的步骤、对数据进行修复和正则化的步骤和用数据对回归模型进行训练的步骤。系统包括搭载上述方法训练出的模型和与之连接的展示器。本发明通过多层过滤,确保了数据样本的有效性和相关项,高效利用了训练资源,进而快速、准确地训练出高精度的分析模型。同时,模型还展示相关项系数,可以为用户指定策略提供指导性支撑。

Description

水务系统工业总产值分析模型的训练方法及相关系统
技术领域
本发明涉及水务工业领域,尤其是一种充分利用历史数据对水务工业总产值分析模型进行训练的训练方法以及相关的分析系统。
背景技术
工业总产值是反应企业总规模与水平的重要指标项,而当前企业并未对工业总产值项做过系统性的数据分析。各生产要素对工业总产值的影响不一定是直接的、显性的、单向性的;判断的依据也是人员的行业经验,缺乏数据的验证与支撑;分析的手段就通过同比、环比、差值等比较,方法较为简单未能做到对各生产要素深入的量化分析,对于工业总产值的预测结果不够准确,也未能集中资源对关键的生产要素进行分析。同时,现有分析方法对于各生产要素对于工业总产值的影响并未根据各项生产要素与工业总产值间的关系进行针对性分析,由于不知道各项生产要素的影响程度,很难准确地对生产要素进行精确调整。
发明内容
本发明的发明目的在于:针对上述存在全部或部分的问题,提供一种利用历史记录训练出工业总产值分析模型的分析方法及相关系统。以解决现有算法训练分析模型过程中,未充分考虑数据样本代表项而无法有效利用训练资源、未充分考虑数据样本特性导致模型分析结果与实际偏差大的问题。
本发明采用的技术方案如下:
一种水务系统工业总产值分析模型的训练方法,其包括以下步骤:
A.从水务大数据平台中,获取工业总产值项及若干与工业总产值项相关的相关项数据,过滤掉非数量数据以得到专题数据;非数量数据即非以量为单位的数据;
B.清理专题数据中,在同时间点上所记录的无效数据项;无效数据项为业务性质与工业总产值预测无关的数据项;
C.保留在有效时间节点后的工业总产值项,以及对应于所述有效时间节点的工业总产值项的相关项,清除其它数据,以得到分析数据,所述对应于工业总产值项的相关项较工业总产值项提前一个时间单位;
D.获取分析数据中,各相关项数据与工业总产值项的相关系数,保留与工业总产值项相关系数绝对值在预设下限阈值以上的数据项;分别比较保留下的各相关项间的相关系数,在相关系数达到上限阈值的各相关项中,仅保留与工业总产值相关性最高的一项,以得到相关数据;
E.对相关数据中的缺失值进行修复,在缺失值修复后,对所有相关项的数据进行正则化,以得到建模数据;
F.用建模数据训练回归模型以得到工业总产值分析模型。
通过上述方法,可以构建出可对工业总产值进行准确预测的分析模型。训练所选用的数据经过多重严格筛选,提取出相关度最高的数据,在保证训练结果趋于真实需求的情况下,减小了无关或相关性极低的数据的引入,减少了数据量,进而有效降低运算量,将资源集中于有效数据,提高了训练效率。通常在普通的模型训练中,训练集中包含有大量相关度极低,甚至是会对预测有负面影响的样本,此类数据不经会消耗训练资源,还会对训练结果产生不良影响,本发明很好地解决的该问题。同时,针对于报表型数据,考虑到了记录丢失的偶然性,对训练的数据进行了完整性修复,便于训练过程的有序执行。需要说明的是,步骤D中,清理与工业总产值项的相关系数值小于下限阈值的项中,包括对相关系数值为NULL的项的清理。
进一步的,所述步骤B具体为:
在同时间点上,为相同项目名称下的不同数据项构建标签,该标签基于数据项的属性信息构建而成,再清除规定标签所对应的数据项。标签对数据项进行区分和过滤,具备高准确性、高效率的特点。
进一步的,所述标签基于数据项的项目名称和数值单位构建而成。数值单位对数据项的性质具有强代表项,因此,通过数值单位作为标签元素,可以快速确定数据项的有效性,便于筛查过滤。
进一步的,步骤D中,所述下限阈值为0.5,所述上限阈值为0.85。
试验证明,设置该两个阈值,是出于数据样本相关性过滤、训练结果的有效性、算法资源利用率和数据样本有效数量的综合考虑,是一个经过大量试验得到的较佳组合。
进一步的,步骤D中,所述分别比较保留下的各相关项间的相关系数,在相关系数达到上限阈值的各相关项中,仅保留与工业总产值相关性最高的一项具体为:
从首项相关项开始,依次计算其与之后其它相关项间的相关系数,在相关系数达到或超过上限阈值时,删除后一相关项,以此类推,直到完成最后两相关项的比较和清理。
这样可以避免重复的相关系数比较,确保算法的执行的条理性。
进一步的,所述步骤E中,对相关数据中的缺失值进行修复具体为:以缺失值的前一项非空记录对缺失位置的记录进行填充;或者以与缺失值前后最相近的若干非空记录的均值对缺失位置的记录进行填充。
取与缺失记录最相关的记录对缺失值进行填充,与实际值最为符合,进而保证记录的有效性。
进一步的,上述水务系统工业总产值分析模型的训练方法还包括:
G.展示所述工业总产值分析模型中,各相关项的系数和/或增、减益相关项。
系数(权重)的展示可以便于用户直观地了解到各相关项对于工业总产值的增、减益效果和影响程度,进而便于制定相应的生产措施。
一种水务工业总产值分析系统,其包括一处理器和一展示器,处理器搭载了通过上述的水务系统工业总产值分析模型的训练方法所训练出的工业总产值分析模型,展示器展示工业总产值分析模型的相关数据。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1、本发明的训练方法可以通过简单算法训练出准确性极高的工业总产值分析系统,所选用的数据项经过严格筛选,具备极高的代表性。方法过滤了无效数据或相关性较低的数据样本,将资源集中于相关性高的数据样本进行训练,高效地利用的训练资源。
2、本发明综合考虑了报表型数据存在的问题,进行了针对性地过程设计,进而使得训练样本数据的完整性。
3、本发明的方法和系统还可直观展示相关项系数,以便于用户了解各相关项的影响程度,便于用户增/减产方案的制定。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1是水务系统工业总产值分析模型训练过程。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书(包括任何附加权利要求、摘要)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
如图1所示,本实施例公开了一种水务系统工业总产值分析模型的训练方法,包括以下步骤:
从水务大数据平台中,获取工业总产值项及若干与工业总产值项相关的相关项数据,相关项例如成本项、销售项、营收项、材料项、管理项、维护项、附加项等;并剔除所提取数据中的非数量数据以得到专题数据,所谓非数量数据为百分数、比例等数据,例如合格率、维修占比、官网覆盖率、官网修漏及时率等。
在业务报表中,会存在项目名称一致,但实际业务含义不同的数据项,这些数据项中,有一些数据项是无用的,因此,需要清除掉,这一类数据项可以通过数值单位来进行区分。因此,步骤还包括:清理专题数据中,在同时间点上所记录的无效数据项。对于无效数据的规定,可以通过设定相应的筛选条件来定义,例如规定数值单位为“小时”、“克”的数据项为无效数据项。至于清除过程,可以将相同项目名称下的数据项,以项目名称和数值单位结合起来,作为该数据项的标签,执行清理时,直接从整体上清理规定标签所对应的数据项即可。
因本发明是基于机器学习构建预测模型的过程,因此,需要长期积累下的数据作为训练基础,所保留下的专题数据中,存在一些记录时间较短,不太具有代表性的历史数据,这类数据会影响到训练效果,使得预测结果不够准确,因此,这类数据需要剔除掉。步骤还包括:保留在有效时间节点后的工业总产值项,以及对应于该有效时间节点的工业总产值项的相关项,得到分析数据。所谓的有效时间节点,即在记录中,所确定的时间界限,该时间界限通常需要从开始记录后的1年作为有效时间节点,这样的数据经过长时间的积累和各项数据的长期整体,具备代表性。由于工业总产值较相关项具有滞后性,即通过上一时间单位的相关项,才能得出下一时间单位的工业总产值,因此,对应于某时间节点的工业总产值项的相关项,较工业总产值项提前一个单位(如一个月)。
对于保留下来的分析数据,存在一些与工业总产值相关度不大的甚至反向影响工业总产值预测的数据项,这类数据项需要在训练前清除掉。步骤还包括:获取(存在则直接获取,否则,通过计算获取)分析数据中,各相关项数据与工业总产值项的相关系数,保留与工业总产值项相关系数绝对值在下限阈值以上的数据项。这样,可以过滤掉一些对于预测结果相关性较小的数据项,节省训练资源的开销,同时将资源集中到相关性大的数据项,提高训练效率。在此基础上,还考虑到所保留下的相关项中,存在业务性质相同或相近的数据项,例如“人力成本”与“生产人员”间、“污水处理量”与“污水处理成本”间等具备较高的相关性,而这类相关的数据项由于业务性质相近,对于工业总产值的预测的贡献价值也相近,因此,在筛选训练集过程中,仅需保留其中一项即可。因此,步骤还包括,比较各相关项间的相关系数,在相关系数达到上限阈值的各数据项中,仅保留与工业总产值相关性(相关系数绝对值)最高的相关项,得到相关数据。
由于是从业务报表中提取出各数据项的记录,因此,可能存在记录缺失的数据项,对于此类记录,可以由相关的数据进行修复。在相关数据中,由于记录具备规律性,对于数据项缺失的记录,可以采用相邻记录进行修复。在一个实施例中,缺失记录采用上一时间单位的记录进行填充;或者,取前后最近的非空记录时间单位的记录的均值进行填充。当然,也可以采用其它合理的方式进行填充。在进行缺失值修复后,对所有相关项的数据进行正则化,以保留下的数据作为建模数据。
将建模数据训练回归模型,训练出工业总产值分析模型。对于回归模型,在一个实施例中,采用sklearn库的Lasso回归算法。
通过上述方法,即可训练出水务系统的工业总产值分析模型,以对水务工业总产值进行预测。
进一步的,基于工业总产值分析模型,还可以对生产过程提供调整依据。即在工业总产值分析模型中,提取各相关项的系数(权重),各系数代表对工业总产值的影响程度,系数绝对值越大,说明影响越大,反之则越小;通过系数即可得知对于工业总产值影响的增/减益代表项,借助于此,即可在生产中对相应的数据项进行调整,例如需要提高工业总产值,则可通过加大系数为正的相关项的投入(在不考虑成本的基础上)。
实施例二
本实施例公开了一种水务工业总产值分析系统,其包括一处理器和一展示系统,处理器搭载有通过上述实施例中的训练方法所训练出的工业总产值分析模型,展示系统用于展示工业总产值分析模型的相关数据。展示系统所展示的数据包括待分析的相关项数据、工业总产值分析模型中各相关项的系数和工业总产值分析模型的分析结果中的一条或多条数据。处理器包括有数据输入口和数据输出口,其数据输入口连接数据输入设备-如键盘或可擦写存储设备,以接收数据输入设备输入的待分析的相关项数据,数据输出口输出预测的数据和相关项系数给展示系统展示。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims (8)

1.一种水务系统工业总产值分析模型的训练方法,其特征在于,包括以下步骤:
A.从水务大数据平台中,获取工业总产值项及若干与工业总产值项相关的相关项数据,过滤掉非数量数据以得到专题数据;
B.清理专题数据中,在同时间点上所记录的无效数据项;
C.保留在有效时间节点后的工业总产值项,以及对应于所述有效时间节点的工业总产值项的相关项,清除其它数据,以得到分析数据,所述对应于工业总产值项的相关项较工业总产值项提前一个时间单位;
D.获取分析数据中,各相关项数据与工业总产值项的相关系数,保留与工业总产值项相关系数绝对值在预设下限阈值以上的数据项;分别比较保留下的各相关项间的相关系数,在相关系数达到上限阈值的各相关项中,仅保留与工业总产值相关性最高的一项,以得到相关数据;
E.对相关数据中的缺失值进行修复,在缺失值修复后,对所有相关项的数据进行正则化,以得到建模数据;
F.用建模数据训练回归模型以得到工业总产值分析模型。
2.如权利要求1所述的水务系统工业总产值分析模型的训练方法,其特征在于,所述步骤B具体为:
在同时间点上,为相同项目名称下的不同数据项构建标签,该标签基于数据项的属性信息构建而成,再清除规定标签所对应的数据项。
3.如权利要求2所述的水务系统工业总产值分析模型的训练方法,其特征在于,所述标签基于数据项的项目名称和数值单位构建而成。
4.如权利要求1所述的水务系统工业总产值分析模型的训练方法,其特征在于,步骤D中,所述下限阈值为0.5,所述上限阈值为0.85。
5.如权利要求1所述的水务系统工业总产值分析模型的训练方法,其特征在于,步骤D中,所述分别比较保留下的各相关项间的相关系数,在相关系数达到上限阈值的各相关项中,仅保留与工业总产值相关性最高的一项具体为:
从首项相关项开始,依次计算其与之后其它相关项间的相关系数,在相关系数达到或超过上限阈值时,删除后一相关项,以此类推,直到完成最后两相关项的比较和清理。
6.如权利要求1所述的水务系统工业总产值分析模型的训练方法,其特征在于,所述步骤E中,对相关数据中的缺失值进行修复具体为:以缺失值的前一项非空记录对缺失位置的记录进行填充;或者以与缺失值前后最相近的若干非空记录的均值对缺失位置的记录进行填充。
7.如权利要求1-6之一所述的水务系统工业总产值分析模型的训练方法,其特征在于,还包括:
G.展示所述工业总产值分析模型中,各相关项的系数和/或增、减益相关项。
8.一种水务工业总产值分析系统,其特征在于,其包括一处理器和一展示器,所述处理器搭载了通过权利要求1-7之一所述的水务系统工业总产值分析模型的训练方法所训练出的工业总产值分析模型,所述展示器展示所述工业总产值分析模型的相关数据。
CN201910723691.0A 2019-08-07 2019-08-07 水务系统工业总产值分析模型的训练方法及相关系统 Pending CN110443503A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910723691.0A CN110443503A (zh) 2019-08-07 2019-08-07 水务系统工业总产值分析模型的训练方法及相关系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910723691.0A CN110443503A (zh) 2019-08-07 2019-08-07 水务系统工业总产值分析模型的训练方法及相关系统

Publications (1)

Publication Number Publication Date
CN110443503A true CN110443503A (zh) 2019-11-12

Family

ID=68433568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910723691.0A Pending CN110443503A (zh) 2019-08-07 2019-08-07 水务系统工业总产值分析模型的训练方法及相关系统

Country Status (1)

Country Link
CN (1) CN110443503A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060161403A1 (en) * 2002-12-10 2006-07-20 Jiang Eric P Method and system for analyzing data and creating predictive models
US20090012791A1 (en) * 2006-02-27 2009-01-08 Nec Corporation Reference pattern adaptation apparatus, reference pattern adaptation method and reference pattern adaptation program
CN105160866A (zh) * 2015-08-07 2015-12-16 浙江高速信息工程技术有限公司 一种基于深度学习神经网络结构的交通流预测方法
CN106570593A (zh) * 2016-11-10 2017-04-19 甘肃省电力公司风电技术中心 一种基于天气信息的光伏电站出力数据修复方法
CN108694479A (zh) * 2018-07-11 2018-10-23 南京邮电大学 考虑天气对检修间隔时间影响的配电网可靠性预测方法
CN109472321A (zh) * 2018-12-03 2019-03-15 北京工业大学 一种面向时间序列型地表水质大数据的预测与评估模型构建方法
CN110059132A (zh) * 2019-04-15 2019-07-26 成都九鼎瑞信科技股份有限公司 一种智能水务管理平台的数据分析展示系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060161403A1 (en) * 2002-12-10 2006-07-20 Jiang Eric P Method and system for analyzing data and creating predictive models
US20090012791A1 (en) * 2006-02-27 2009-01-08 Nec Corporation Reference pattern adaptation apparatus, reference pattern adaptation method and reference pattern adaptation program
CN101390156A (zh) * 2006-02-27 2009-03-18 日本电气株式会社 标准模式适应装置、标准模式适应方法和标准模式适应程序
CN105160866A (zh) * 2015-08-07 2015-12-16 浙江高速信息工程技术有限公司 一种基于深度学习神经网络结构的交通流预测方法
CN106570593A (zh) * 2016-11-10 2017-04-19 甘肃省电力公司风电技术中心 一种基于天气信息的光伏电站出力数据修复方法
CN108694479A (zh) * 2018-07-11 2018-10-23 南京邮电大学 考虑天气对检修间隔时间影响的配电网可靠性预测方法
CN109472321A (zh) * 2018-12-03 2019-03-15 北京工业大学 一种面向时间序列型地表水质大数据的预测与评估模型构建方法
CN110059132A (zh) * 2019-04-15 2019-07-26 成都九鼎瑞信科技股份有限公司 一种智能水务管理平台的数据分析展示系统

Similar Documents

Publication Publication Date Title
JP6817426B2 (ja) マシンラーニング基盤の半導体製造の収率予測システム及び方法
CN108375715B (zh) 一种配电网线路故障风险日预测方法及系统
CN107967485A (zh) 用电计量设备故障分析方法及装置
US20090276274A1 (en) Program and apparatus for workflow analysis
Negahban Simulation-based estimation of the real demand in bike-sharing systems in the presence of censoring
EP3686756A1 (en) Method and apparatus for grouping data records
CN101350083A (zh) 作业管理装置和作业管理方法
CN108182963A (zh) 一种医疗数据处理方法及装置
Chitra et al. Customer retention in banking sector using predictive data mining technique
CN113010389A (zh) 一种训练方法、故障预测方法、相关装置及设备
CN101894319A (zh) 一种烟草企业数据质量管理系统及方法
US20140164379A1 (en) Automatic Attribute Level Detection Methods
CN109542742A (zh) 基于专家模型的数据库服务器硬件健康评估方法
CN110147367A (zh) 一种温度缺失数据填补方法、系统及电子设备
US20130006888A1 (en) Autotagging Business Processes
US11004002B2 (en) Information processing system, change point detection method, and recording medium
Gitzel Data Quality in Time Series Data: An Experience Report.
CN102156641A (zh) 一种软件成本置信区间预测方法及系统
KR101435096B1 (ko) 소셜 네트워크 서비스 데이터에 기반한 상품 수요 예측 장치 및 방법
US20130055037A1 (en) Operations management system, operations management method and program thereof
Hoo Meng et al. A new approach towards developing a prescriptive analytical logic model for software application error analysis
CN102546235A (zh) 云计算环境下面向web应用的性能诊断方法和系统
CN110443503A (zh) 水务系统工业总产值分析模型的训练方法及相关系统
JP5668425B2 (ja) 障害検知装置、情報処理方法、およびプログラム
US11244235B2 (en) Data analysis device and analysis method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20230929

AD01 Patent right deemed abandoned