CN111523798B - 一种自动建模的方法、装置、系统、及其电子设备 - Google Patents

一种自动建模的方法、装置、系统、及其电子设备 Download PDF

Info

Publication number
CN111523798B
CN111523798B CN202010318262.8A CN202010318262A CN111523798B CN 111523798 B CN111523798 B CN 111523798B CN 202010318262 A CN202010318262 A CN 202010318262A CN 111523798 B CN111523798 B CN 111523798B
Authority
CN
China
Prior art keywords
data set
modeling
model
data
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010318262.8A
Other languages
English (en)
Other versions
CN111523798A (zh
Inventor
王勇
黄朝敏
马煜程
吴涵渠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Otto Intelligent Technology Co ltd
Original Assignee
Wuhan Otto Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Otto Intelligent Technology Co ltd filed Critical Wuhan Otto Intelligent Technology Co ltd
Priority to CN202010318262.8A priority Critical patent/CN111523798B/zh
Publication of CN111523798A publication Critical patent/CN111523798A/zh
Application granted granted Critical
Publication of CN111523798B publication Critical patent/CN111523798B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Pure & Applied Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Economics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Development Economics (AREA)
  • Algebra (AREA)
  • Educational Administration (AREA)
  • Evolutionary Computation (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种自动建模的方法、装置、系统、及其电子设备,应用于派工系统,自动建模的方法包括从建模数学模型集中选择一个数学模型,从建模数据集中选择训练数据集;调用所述建模数据集;按排列组合,重复所述调用所述建模数据集,得出每组训练数据集特征字段子集对应的数学模型和匹配度;选出每组最优的训练数据集特征子集及其建模模型、匹配度;重复所述调用所述建模数据集,产出所有数学模型中的训练数据集特征子集及其建模模型、匹配度;在所有数学模型中选出最优的训练数据集特征子集及其建模模型、匹配度。从而完成自动建模,无需人工进行专业数据分析、提取和模型参数调整,提高了模型建立的自动化程度和建模效率。

Description

一种自动建模的方法、装置、系统、及其电子设备
技术领域
本发明属于建模技术领域,具体涉及一种自动建模的方法、装置、系统及其电子设备。
背景技术
现有技术中公开了一种建模方法、装置及其存储介质,涉及数据建模技术领域。该建模方法通过人工方式逐一获取与模型分析目标相互对应的特征字段;对所述特征字段进行人工手动类型标记,标记出所述特征字段中的目标变量;对所述特征字段和所述目标变量进行规范化处理,基于规范化后的目标变量从所述特征字段中确定特征子集;最终采用所述特征子集进行建模。背景技术中的技术方案通过对模型分析出与目标匹配的特征字段进行模型建立,需要人工逐一进行专业数据分析、提取和模型参数调整,没有解决模型建立的自动化问题,造成建模工作效率很低。尤其是该技术还需要人工去对特征数据和目标变量去做规范化处理,还需要人工去选择基础模型,对于建模人员仍然提出了专业要求,具有很高的技术门槛。因此,需要围绕建模这一技术领域,不断引入高效可行的技术方案,提高建模的自动化程度,持续降低对建模对人员的技术要求,以期达到破除建模专业技术壁垒过高的现状,使得建模的应用质量更高、更加普遍、高效。
现有派工系统考虑了派工参数和优先级,以服务者的岗位属性进行分类实现自动化派工。但是,现有派工系统没有对派工过程进行自动化建模,从而使得各个流程自动化不够彻底,相当一部分工作依然依赖人工操作,造成人工流程和派工系统自动化流程间出现过多的流程交叉问题,导致消耗了大量的时间,增加了额外的工作量,严重影响了整体的效率。所以,有必要将自动建模应用到派工系统,以便提高派工效率、降低派工成本,给工作者带来方便、快捷的工作体验。
发明内容
本发明的目的在于提供一种自动建模方法、装置、系统、及其电子设备,以解决上述技术问题。为了实现上述目的,本发明采用如下技术方案:
第一方面,本申请实施例提供了一种自动建模的方法,应用于派工系统的自动建模装置,包括:
从建模数学模型集中选择一个数学模型,从建模数据集中选择训练数据集;
调用所述建模数据集,包括调用所述训练数据集和运用所述验证数据集;
按排列组合,重复所述调用所述建模数据集,得出每组训练数据集特征字段子集对应的数学模型和匹配度;
选出每组最优的训练数据集特征子集及其建模模型、匹配度;
重复所述调用所述建模数据集,产出所有数学模型中的训练数据集特征子集及其建模模型、匹配度;
在所有数学模型中选出最优的训练数据集特征子集及其建模模型、匹配度。
优选地,所述建模数学模型集和所述建模数据集组成建模数据模型库;
建立所述建模数据模型库的方法,应用于派工系统的自动建模装置,包括:
收集数学模型,设置常量系数并赋予常量系数默认值,对数学模型进行编号,建立建模数学模型集;
收集并整理建模数据,通过数据清洗整理成建模数据集;
将所述建模数学模型集与所述建模数据集相互关联,建立建模数据模型库。
优选地,所述建立建模数学模型集的步骤:
步骤1、建立内容空白的模型表、自变量表、因变量表、常量系数表,作为基础数据表,并与所述数学模型的编号进行关联;
步骤2、将收集到的所述数学模型的分解为自变量、因变量、常量;分解得到的自变量数据、因变量数据、常量数据及所述数学模型传导到步骤3;
步骤3、将步骤2传导的所述自变量数据、因变量数据、常量数据及模型本身插入到步骤1创建的所述基础数据表中。
优选地,所述建模数据集,包括:训练数据集和验证数据集,所述训练数据集用以训练模型,所述验证数据集用以验证得到的所述训练模型的准确性;所述训练数据集分为特征字段和结果字段;所述验证数据集分为特征字段和结果字段;所述训练数据集的所述特征字段与所述验证数据集的所述特征字段相对应;所述训练数据集的所述结果字段与所述验证数据集的所述结果字段相对应。
优选地,所述建立训练数据集的方法,包括:
建立训练数据集特征数据表,建立训练数据集结果字段表,两个表采用训练数据集的序号做关联;
将采集的训练数据集按对应关系插入特征字段表的对应位置,将采集的训练数据集按对应关系插入结果字段的对应位置;
优选地,所述建立验证数据集的方法,包括:
建立验证数据集特征数据表,建立验证数据集结果字段表,两个表采用验证数据集的序号做关联;
将采集的验证数据集按对应关系插入特征字段表的对应位置,将采集的验证数据集按对应关系插入结果字段的对应位置。
优选地,所述步骤2调用所述建模数据集,还包括以下方法步骤:
步骤1、输入模型的参数数量(M),训练数据集的特征字段数量(N);
步骤2、如果M>N,则选择下一个模型,否则,从所述训练数据集的N个字段中选择M个字段作为数据子集,选择数据模型的初始值;
步骤3、将所述子集的每条数据带入数据模型中计算一组计算结果;
步骤4、将此计算结果与训练集的结果字段的值进行比对分析,调整数据模型的系数,重新进行以上步骤,直至达到最优效果;
步骤5、将验证数据集带入此模型,分析得出模型的计算结果与验证数据集的结果字段的匹配度。
第二方面,本发明的实施例提供了一种派工系统的自动建模方法,应用于派工系统,包括:
步骤1、从所述建模数学模型集的基础模型表中选择一个数学模型公式,从自变量表中选择数学模型公式对应的自变量字段,从因变量表中选择对应的因变量字段;
步骤2、从训练数据集的特征表中选择所有的特征字段,按排列组合方式从所选的特征字段中选择一组与a所选择的数学模型公式自变量数目相同的特征字段,从结果表中选择对应的结果字段;
步骤3、将步骤2所选的特征字段按顺序对应模型公式中的自变量表,将结果字段对应模型公式中的因变量字段;
步骤4、将训练数据集所选择的特征字段和结果字段的记录顺序带入所述基础模型表中选择的数学模型公式,并根据二分法初步确定的所述数学模型公式各部分的常量值,从而确定当前数据的训练模型,并记录当前训练模型的各部分常量和对应的特征字段顺序;
步骤5、循环步骤3、步骤4,将步骤2所选字段按排列组合方式,调整特征字段与数学模型公式中自变量的对应顺序,并带入所述基础模型表中选择的数学模型公式,从而确定本组数据的训练模型,并记录本组训练模型的各部分常量和对应的特征字段顺序;
步骤6、循环步骤2、步骤3、步骤4、步骤5找出当前数学模型的所有训练模型及对应的各部分常量;
步骤7、将步骤6产生的训练模型集包括对应的各部分常量值和对应的特征字段顺序作为验证数据集的模型库;
步骤8、从步骤7的验证数据集的模型库中取出一个模型;
步骤9、从验证数据集中按该模型对应的特征字段的顺序取出一组数据并带入训练模型,计算模型公式的值,记录该值作为验证结果值;
步骤10、循环步骤9,计算出模型对应所有数据的验证结果值,记录这些值作为验证结果记录集;
步骤11、根据训练模型的结果值和验证结果值计算模型的准确性;
步骤12、循环步骤8、步骤9、步骤10、步骤11,计算出所有模型的验证结果值和结果的准确性;
步骤13、选择准确性最高的前10个模型作为最后的结果。
第三方面,本发明的实施例提供了一种自动建模的装置,应用于派工系统的自动建模装置,所述自动建模的装置,包括:
选择模块,用以从模型库中选择一条数学模型,从建模数据集中选择训练数据集;还用以,选出最优的特征子集、建模模型、匹配度;
处理器,用以调用所述建模数据集,包括:调用所述训练数据集和运用所述验证数据集,所述训练数据集用以训练模型,所述验证数据集用以验证得到的所述训练模型的准确性;所述处理器,还用以将验证数据集带入此模型,分析得出模型的计算结果与验证数据集的结果字段的匹配度。
分配排序模块,用以根据排列组合得出每组训练数据集特征字段子集对应的数学模型和匹配度;还用以将所述特征子集、建模模型、匹配度,按照匹配度数值的高低顺序输出供选择;
存储模块,用以存储所述数据模型库,包括建模数学模型集和建模数据集;
所述建模数据集,包括:训练数据集和验证数据集,所述训练数据集用以训练模型,所述验证数据集用以验证得到的所述训练模型的准确性;所述训练数据集分为特征字段和结果字段;所述验证数据集分为特征字段和结果字段;所述训练数据集的所述特征字段与所述验证数据集的所述特征字段相对应;所述训练数据集的所述结果字段与所述验证数据集的所述结果字段相对应;
判断模块,用以模型的参数数量(M),训练数据集的特征字段数量(N)的大小;
计算比对模块,用以将所述子集的每条数据带入数据模型中计算一组计算结果;还用以,将此计算结果与训练集的结果字段的值进行比对分析,调整数据模型的系数,重新进行以上步骤,直至达到最优效果。
优选地,所述自动建模的装置,还包括:
收集模块,用以收集数学模型和建模数据;
输入模块,用以输入模型的参数数量(M),训练数据集的特征字段数量(N);
收发模块,用于进行数据和指令的传输。
第四方面本发明实施例提供了一种自动建模系统,应用于派工系统的自动建模装置,包括本发明申请任一实施例所述的自动建模的装置。
第五方面本发明实施例提供了一种电子设备,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,在被处理器调用和执行时,所述处理器可执行指令促使所述处理器:实现本发明申请任一实施例所述的自动建模的方法步骤。
由以上可见,本申请实施例提供的方案中,相对于现有技术,本发明具有以下有益效果:本发明提供的自动建模方法、装置、系统、及其电子设备,通过从建模数学模型集中选择一个数学模型,从建模数据集中选择训练数据集;自动选出每组最优的训练数据集特征子集及其建模模型、匹配度;在所有数学模型中选出最优的训练数据集特征子集及其建模模型、匹配度,用以自动建模。从而完成自动获取、处理模型分析目标匹配的特征字段,并将其用于自动建立模型,无需人工进行专业数据分析、提取和模型参数调整,提高了模型建立的自动化程度和建模效率。本自动建模方法和装置可以应用在派工系统的自动建模,使派工系统通过从建模数学模型集中选择一个数学模型,从建模数据集中选择训练数据集;自动选出每组最优的训练数据集特征子集及其建模模型、匹配度;在所有数学模型中选出最优的训练数据集特征子集及其建模模型、匹配度。从而完成派工系统对模型分析目标匹配的特征字段进行自动获取、处理并将其用于自动模型建立,使得派工系统无需依赖人工进行专业数据分析、提取和模型参数调整,提高了模型建立的自动化程度和建模效率。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图说明
图1为本发明一实施例的一种自动建模的方法的流程图;
图2为本发明一实施例的建立所述建模数据模型库的方法的流程图;
图3为本发明一实施例所述建立建模数学模型集的流程图;
图4为本发明一实施例所述建立训练数据集的方法的流程图;
图5为本发明一实施例所述建立验证数据集的方法的流程图;
图6为本发明一实施例所述调用所述建模数据集还包括的方法的流程图;
图7为本发明另一实施例提供的一种派工系统的自动建模方法的流程图;
图8为本发明一实施例的一种自动建模的装置的结构示意图;
图9为本发明又一实施例所述自动建模的装置的结构示意图;
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施方式及实施方式中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是旨在于限制本发明。
请参阅图1,图1为本发明一实施例的一种自动建模的方法的流程图,该方法应用于派工系统,包括:
S100、从建模数学模型集中选择一个数学模型,从建模数据集中选择训练数据集;
具体而言,选择的数学模型应当是来源于自动建模的对象所在技术领域的建模数学模型集中。例如,派工自动建模的方法中,应当从派工方法或系统的技术领域中的数学模型集中选择一个数学模型。例如:ax+y=r;派工建模数据集包括:工程师位置、客户位置、工单类型、工单处理时间、资质获取时间、处理工单数量、工单最迟处理时间、派工匹配度;
S102、调用所述建模数据集,包括:调用所述训练数据集和运用所述验证数据集;所述训练数据集用以训练模型,所述验证数据集用以验证得到的所述训练模型的准确性;具体而言,建模数据集(3000条)按比例分成两份,70%(2100条)用作训练数据集,30%(900条)用作验证数据集;
具体而言,调用所述建模数据集,是用选取的训练数据集和数学模型,训练出一个训练模型,例如:2x+y=0.8,然后再用验证数据集,得到匹配度;
S104、按排列组合,重复S102的过程,得出经过验证的每组训练数据集特征字段子集对应的数学模型和匹配度,例如:2x+y=0.7,由于模型随机原因,验证数据的匹配度下降;
S106、选出每组最优的训练数据集特征子集及其建模模型、匹配度;例如:2.05x+y=0.8,由于常量系数的调整,匹配度提高0.1;
具体而言,所述建模模型包括建模数学模型;
S108、重复步骤S102,产出所有数学模型中的训练数据集特征子集及其建模模型、匹配度;
具体而言,所述建模模型包括建模数学模型;
S110、在所有数学模型中选出最优的训练数据集特征子集及其建模模型、匹配度;例如,将步骤S108所产出的所有训练数据集特征子集及其建模模型、匹配度,按照匹配度数值的高低顺序输出供选择;例如,可以将排名前5优选出来,匹配度越高的训练模型,派工的准确性越高。
数据模型库,包括建模数学模型集和建模数据集。
请参阅图2,图2为本发明一实施例的建立所述建模数据模型库的方法,应用于派工系统的自动建模装置,所述方法包括:
S200收集数学模型,设置常量系数并赋予常量系数默认值,对数学模型进行编号,建立建模数学模型集;所述收集数学模型,包括拟定数学模型;设置常量系数包括指定常量系数
S202收集并整理建模数据,通过数据清洗整理成建模数据集;
设置或输入建模数据清洗规则;将收集并整理建模数据,通过数据清洗去除其中的空值、字段类型不匹配的值或格式不合规的值筛选出符合所述数据清洗规则的建模数据,整理成建模数据集;
S204将所述建模数学模型集与所述建模数据集相互关联,建立建模数据模型库。
具体而言,通过所述相互关联可以使得自动建模过程中更加方便、快捷准确地选择所述建模模型;
所述建模数学模型集和所述建模数据集组成建模数据模型库;
请参阅图3,图3为本发明一实施例所述建立建模数学模型集的方法;所述方法包括步骤:
S300、建立内容空白的模型表、自变量表、因变量表、常量系数表,作为基础数据表,并与所述数学模型的编号进行关联;
S302、将收集到的所述数学模型的分解为自变量、因变量、常量;分解得到的自变量数据、因变量数据、常量数据及所述数学模型传导到步骤S304;
S304、将步骤S302传导的所述自变量数据、因变量数据、常量数据及模型本身插入到步骤S300创建的所述基础数据表中。
例如,所述数学模型,包括:回归模型,是对统计关系进行定量描述的一种数学模型,该模型用于数字预测;所述常量包括:数学模型对应公式中的各自变量的系数以及常量数据,用于对公式各部分对于整体结果影响权重的调整。
所述建模数据集,包括:训练数据集和验证数据集,数据来源都是来自于历史的工单及自动派工数据,所述训练数据集用以训练模型,所述验证数据集用以验证得到的所述训练模型的准确性;所述训练数据集分为特征字段和结果字段;所述验证数据集分为特征字段和结果字段;所述训练数据集的所述特征字段与所述验证数据集的所述特征字段相对应;所述训练数据集的所述结果字段与所述验证数据集的所述结果字段相对应。所述训练数据集用于找出模型公式中各变量的常量系数值的规律,并确定对于训练数据集负责的常量系数值,为了验证该常量系数值对于其他数据是否有通用性,需要拿另外一部分数据作为验证数据集来验证,只有经得起验证的常量系数值,才能通过,从而得出对训练数据集和验证数据集都符合的模型。
请参阅图4,图4为本发明一实施例所述建立训练数据集的方法;所述方法包括:
S501建立训练数据集特征数据表,建立训练数据集结果字段表,两个表采用训练数据集的序号做关联;
具体而言,这里的训练数据集来源于历史派单数据,结果字段的个数按选择的数学模型的自变量个数进行自动匹配;
S502将采集的训练数据集按对应关系插入特征字段表的对应位置,将采集的训练数据集按对应关系插入结果字段的对应位置;
请参阅图5,图5为本发明一实施例所述建立验证数据集的方法;所述方法包括:
S600、建立验证数据集特征数据表,建立验证数据集结果字段表,两个表采用验证数据集的序号做关联;
具体而言,这里的验证数据集来源于历史派单数据,结果字段的个数按选择的数学模型的因变量个数进行自动匹配;
S602、将采集的验证数据集按对应关系插入特征字段表的对应位置,将采集的验证数据集按对应关系插入结果字段的对应位置;
请参阅图6,图6为本发明一实施例所述调用所述建模数据集,还包括以下方法:
S701、输入模型的参数数量(M),训练数据集的特征字段数量(N);
S702、如果M>N,则选择下一个模型,否则,从所述训练数据集的N个字段中选择M个字段作为数据子集,选择数据模型的初始值;
S703、将所述子集的每条数据带入数据模型中计算一组计算结果;
具体而言,所述子集是所述从所述训练数据集的N个字段中选择M个字段作为数据子集;例如,按所选的数学模型中因变量的个数从对应派工建模数据集中选择对应个数的字段作为一个集合;
S704、将此计算结果与训练集的结果字段的值进行比对分析,调整数据模型的系数,重新进行以上步骤,直至达到最优效果;
具体而言,达到最优效果,从而形成此模型。将S703的子集数据带入数据模型中,根据结果的区间范围,调整数据模型的系数,直到达到对应训练数据的最优效果。
S705、将验证数据集带入所述此模型,分析得出模型的计算结果与验证数据集的结果字段的匹配度。
请参阅图7,图7为本发明另一实施例提供的一种派工系统的自动建模方法,所述方法包括:
S801从所述建模数学模型集的基础模型表中选择一个数学模型公式,从自变量表中选择数学模型公式对应的自变量字段,从因变量表中选择对应的因变量字段;
S802从训练数据集的特征表中选择所有的特征字段,按排列组合方式从所选的特征字段中选择一组与S801所选择的数学模型公式自变量数目相同的特征字段,从结果表中选择对应的结果字段;
S803将S802所选的特征字段按顺序对应模型公式中的自变量表,将结果字段对应模型公式中的因变量字段;
具体而言,所述对应模型公式是对应数学模型公式;这里的自变量对应派工建模数据的训练数据子集,因变量对应训练数据子集的结果字段;
S804将训练数据集所选择的特征字段和结果字段的记录顺序带入所述基础模型表中选择的数学模型公式,并根据二分法初步确定的所述数学模型公式各部分的常量值,从而确定当前数据的训练模型,并记录当前训练模型的各部分常量和对应的特征字段顺序;
S805循环S803、S804,将S802所选字段按排列组合方式,调整特征字段与数学模型公式中自变量的对应顺序,并带入所述基础模型表中选择的数学模型公式,从而确定本组数据的训练模型,并记录本组训练模型的各部分常量和对应的特征字段顺序;
S806循环S802、S803、S804、S805找出当前数学模型的所有训练模型及对应的各部分常量;
具体而言,多次循环产生了多个训练模型,将这些训练模型进行集合,成为训练模型集。这里利用派工建模数据的子集训练数据集,针对每个数学模型,产生一个最优的训练模型,再按训练模型的匹配度进行排序。
S807将S806产生的训练模型集包括对应的各部分常量值和对应的特征字段顺序作为验证数据集的模型库;
具体而言,所述验证数据集的模型库中的模型是验证模型;所述训练模型集是多次循环产生的多个训练模型的集合;这里利用派工建模数据的子集验证数据集,针对S806产生的训练模型进行验证,再按训练模型的匹配度进行排序。
S808从S807的验证数据集的模型库中取出一个训练模型;
S809从验证数据集中按该验证模型对应的特征字段的顺序取出一组数据并带入训练模型,计算训练模型公式的值,记录该值作为验证结果值;
S810循环S809计算出模型对应所有数据的验证结果值,记录这些值作为验证结果记录集;
S811根据训练模型的结果值和验证结果值计算模型的准确性;
S812循环S808、S809、S810、S811,计算出所有模型的验证结果值和结果的准确性;
S813选择准确性最高的前10个模型作为最后的结果。
例如,在派工系统中,服务人员和用户的随机参数包括:服务人员时间参数,用以评价服务人员空闲时间;用户需求时间参数用以评价用户需求时间;用户需求技能参数,用以评价用户需求的技能水平;距离参数,用以评价服务人员与用户的距离远近;交通参数,用以评价交通需要消耗的时间;
从所述建模数学模型集的基础模型表中围绕所述服务人员时间参数、用户需求参数、距离参数和交通参数分别选择一个数学模型公式,从自变量表中选择数学模型公式对应的自变量字段,从因变量表中选择对应的因变量字段;以四种数学模型公式分别进行后面的步骤,分别计算出四种数学模型对应所有数据的验证结果值,记录这些值作为验证结果记录集;最终,选择准确性最高的前10个模型作为最后的派工结果。
请参阅图8,图8为本发明一实施例提供的一种自动建模的装置10,应用于派工系统,所述自动建模的装置,包括:
选择模块14,用以从模型库中选择一条数学模型,从建模数据集中选择训练数据集;还用以选出最优的特征子集、建模模型、匹配度;
处理器12,用以调用所述建模数据集,包括:调用所述训练数据集和运用所述验证数据集,所述训练数据集用以训练模型,所述验证数据集用以验证得到的所述训练模型的准确性;所述处理器12,还用以将验证数据集带入此模型,分析得出模型的计算结果与验证数据集的结果字段的匹配度。
分配排序模块22,用以根据排列组合得出每组训练数据集特征字段子集对应的数学模型和匹配度;还用以将所述特征子集、建模模型、匹配度,按照匹配度数值的高低顺序输出供选择;
存储模块18,用以存储所述数据模型库,包括建模数学模型集和建模数据集;所述建模数据集,包括:训练数据集和验证数据集,所述训练数据集用以训练模型,所述验证数据集用以验证得到的所述训练模型的准确性;所述训练数据集分为特征字段和结果字段;所述验证数据集分为特征字段和结果字段;所述训练数据集的所述特征字段与所述验证数据集的所述特征字段相对应;所述训练数据集的所述结果字段与所述验证数据集的所述结果字段相对应;
判断模块16,用以模型的参数数量(M),训练数据集的特征字段数量(N)的大小;
计算比对模块20,用以将所述子集的每条数据带入数据模型中计算一组计算结果;还用以,将此计算结果与训练集的结果字段的值进行比对分析,调整数据模型的系数,重新进行以上步骤,直至达到最优效果;
请参阅图9,图9为本发明又一实施例所述自动建模的装置,还包括:
收集模块32,用以收集数学模型和建模数据;
输入模块34,用以输入模型的参数数量(M),训练数据集的特征字段数量(N);
收发模块30,用于进行数据和指令的传输。
本发明实施例还提供了一种自动建模系统,包括本申请实施例所述的自动建模的装置。
本发明实施例还提供了一种电子设备,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,在被处理器调用和执行时,所述处理器可执行指令促使所述处理器,实现本发明申请任一实施例所述的方法。
所述系统/计算机装置集成的部件/模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施方式方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一个计算机可读存储介质中,所述计算机程序在被处理器执行时,可实现上述各个方法实施方式的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
在本发明所提供的几个具体实施方式中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施方式仅仅是示意性的,例如,所述部件的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
另外,在本发明各个实施例中的各功能模块/部件可以集成在相同处理模块/部件中,也可以是各个模块/部件单独物理存在,也可以两个或两个以上模块/部件集成在相同模块/部件中。上述集成的模块/部件既可以采用硬件的形式实现,也可以采用硬件加软件功能模块/部件的形式实现。
对于本领域技术人员而言,显然本发明实施例不限于上述示范性实施例的细节,而且在不背离本发明实施例的精神或基本特征的情况下,能够以其他的具体形式实现本发明实施例。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明实施例的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明实施例内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统、装置或终端权利要求中陈述的多个单元、模块或装置也可以由同一个单元、模块或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种自动建模的方法,应用于派工系统的自动建模装置,其特征在于,所述自动建模的方法,包括:
从建模数学模型集中选择一个数学模型,从建模数据集中选择训练数据集;
输入模型的参数数量M,训练数据集的特征字段数量N;
如果M>N,则选择下一个模型,否则,从所述训练数据集的N个字段中选择M个字段作为数据子集,选择数据模型的初始值;
将所述数据子集的每条数据带入数据模型中计算一组计算结果;
将此计算结果与训练集的结果字段的值进行比对分析,调整数据模型的系数,重新进行以上步骤,直至达到最优效果;
将验证数据集带入此模型,分析得出模型的计算结果与验证数据集的结果字段的匹配度;
按排列组合,重复调用所述建模数据集,得出每组训练数据集特征字段子集对应的数学模型和匹配度;
选出每组最优的训练数据集特征子集及其建模模型、匹配度;
重复调用所述建模数据集,产出所有数学模型中的训练数据集特征子集及其建模模型、匹配度;
在所有数学模型中选出最优的训练数据集特征子集及其建模模型、匹配度。
2.如权利要求1所述的一种自动建模的方法,其特征在于,所述建模数学模型集和所述建模数据集组成建模数据模型库;
建立所述建模数据模型库的方法,应用于派工系统的自动建模装置,包括:
收集数学模型,设置常量系数并赋予常量系数默认值,对数学模型进行编号,建立建模数学模型集;
收集并整理建模数据,通过数据清洗整理成建模数据集;
将所述建模数学模型集与所述建模数据集相互关联,建立建模数据模型库。
3.如权利要求2所述的一种自动建模的方法,其特征在于,所述建立建模数学模型集的步骤包括:
步骤1、建立内容空白的模型表、自变量表、因变量表、常量系数表,作为基础数据表,并与所述数学模型的编号进行关联;
步骤2、将收集到的所述数学模型的分解为自变量、因变量、常量;分解得到的自变量数据、因变量数据、常量数据及所述数学模型传导到步骤3;
步骤3、将步骤2传导的所述自变量数据、因变量数据、常量数据及模型本身插入到步骤1创建的所述基础数据表中。
4.如权利要求1所述的一种自动建模的方法,其特征在于,所述建模数据集,包括:训练数据集和验证数据集,所述训练数据集用以训练模型,所述验证数据集用以验证得到的所述训练模型的准确性;所述训练数据集分为特征字段和结果字段;所述验证数据集分为特征字段和结果字段;所述训练数据集的所述特征字段与所述验证数据集的所述特征字段相对应;所述训练数据集的所述结果字段与所述验证数据集的所述结果字段相对应。
5.如权利要求4所述的一种自动建模的方法,其特征在于,建立所述训练数据集的方法,包括:
建立训练数据集特征数据表,建立训练数据集结果字段表,两个表采用训练数据集的序号做关联;
将采集的训练数据集按对应关系插入特征字段表的对应位置,将采集的训练数据集按对应关系插入结果字段的对应位置。
6.如权利要求4所述的一种自动建模的方法,其特征在于,建立所述验证数据集的方法,包括:
建立验证数据集特征数据表,建立验证数据集结果字段表,两个表采用验证数据集的序号做关联;
将采集的验证数据集按对应关系插入特征字段表的对应位置,将采集的验证数据集按对应关系插入结果字段的对应位置。
7.一种电子设备,其特征在于,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,在被处理器调用和执行时,所述处理器可执行指令促使所述处理器:实现权利要求1-6任一所述的自动建模的方法步骤。
CN202010318262.8A 2020-04-21 2020-04-21 一种自动建模的方法、装置、系统、及其电子设备 Active CN111523798B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010318262.8A CN111523798B (zh) 2020-04-21 2020-04-21 一种自动建模的方法、装置、系统、及其电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010318262.8A CN111523798B (zh) 2020-04-21 2020-04-21 一种自动建模的方法、装置、系统、及其电子设备

Publications (2)

Publication Number Publication Date
CN111523798A CN111523798A (zh) 2020-08-11
CN111523798B true CN111523798B (zh) 2023-09-01

Family

ID=71902934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010318262.8A Active CN111523798B (zh) 2020-04-21 2020-04-21 一种自动建模的方法、装置、系统、及其电子设备

Country Status (1)

Country Link
CN (1) CN111523798B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036085B (zh) * 2020-08-31 2023-03-24 中冶赛迪信息技术(重庆)有限公司 一种轧钢燃耗参数推荐方法、系统、介质及终端
CN112862107A (zh) * 2021-01-26 2021-05-28 贝式计算(天津)信息技术有限公司 自动建模运行系统及运行方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693317A (zh) * 2012-05-29 2012-09-26 华为软件技术有限公司 数据挖掘流程生成方法及装置
CN105045243A (zh) * 2015-08-05 2015-11-11 同济大学 一种半导体生产线动态调度装置
CN105303197A (zh) * 2015-11-11 2016-02-03 江苏省邮电规划设计院有限责任公司 一种基于机器学习的车辆跟车安全自动评估方法
CN106444649A (zh) * 2016-07-05 2017-02-22 同济大学 一种半导体生产线闭环调度控制方法
CN108363714A (zh) * 2017-12-21 2018-08-03 北京至信普林科技有限公司 一种方便数据分析人员使用的集成机器学习的方法及系统
CN109241669A (zh) * 2018-10-08 2019-01-18 成都四方伟业软件股份有限公司 一种自动建模方法、装置及其存储介质
US10223417B1 (en) * 2018-06-13 2019-03-05 Stardog Union System and method for reducing query-related resource usage in a data retrieval process
CN109800277A (zh) * 2018-12-18 2019-05-24 合肥天源迪科信息技术有限公司 一种机器学习平台及基于该平台的数据模型优化方法
CN110688373A (zh) * 2019-09-17 2020-01-14 杭州绿度信息技术有限公司 一种基于逻辑回归的offset方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140189702A1 (en) * 2012-12-28 2014-07-03 General Electric Company System and method for automatic model identification and creation with high scalability
US20140278339A1 (en) * 2013-03-15 2014-09-18 Konstantinos (Constantin) F. Aliferis Computer System and Method That Determines Sample Size and Power Required For Complex Predictive and Causal Data Analysis
US20160086185A1 (en) * 2014-10-15 2016-03-24 Brighterion, Inc. Method of alerting all financial channels about risk in real-time
US10599719B2 (en) * 2018-06-13 2020-03-24 Stardog Union System and method for providing prediction-model-based generation of a graph data model

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693317A (zh) * 2012-05-29 2012-09-26 华为软件技术有限公司 数据挖掘流程生成方法及装置
CN105045243A (zh) * 2015-08-05 2015-11-11 同济大学 一种半导体生产线动态调度装置
CN105303197A (zh) * 2015-11-11 2016-02-03 江苏省邮电规划设计院有限责任公司 一种基于机器学习的车辆跟车安全自动评估方法
CN106444649A (zh) * 2016-07-05 2017-02-22 同济大学 一种半导体生产线闭环调度控制方法
CN108363714A (zh) * 2017-12-21 2018-08-03 北京至信普林科技有限公司 一种方便数据分析人员使用的集成机器学习的方法及系统
US10223417B1 (en) * 2018-06-13 2019-03-05 Stardog Union System and method for reducing query-related resource usage in a data retrieval process
CN109241669A (zh) * 2018-10-08 2019-01-18 成都四方伟业软件股份有限公司 一种自动建模方法、装置及其存储介质
CN109800277A (zh) * 2018-12-18 2019-05-24 合肥天源迪科信息技术有限公司 一种机器学习平台及基于该平台的数据模型优化方法
CN110688373A (zh) * 2019-09-17 2020-01-14 杭州绿度信息技术有限公司 一种基于逻辑回归的offset方法

Also Published As

Publication number Publication date
CN111523798A (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
CN113407517B (zh) 一种基于多维分析技术的数据质量健康度分析方法及系统
CN110457175B (zh) 业务数据处理方法、装置、电子设备及介质
CN111523798B (zh) 一种自动建模的方法、装置、系统、及其电子设备
CN107845016B (zh) 信息输出方法和装置
CN112054943A (zh) 一种移动网络基站流量预测方法
CN111340233A (zh) 机器学习模型的训练方法及装置、样本处理方法及装置
CN113568899A (zh) 基于大数据的数据优化方法及云服务器
CN109088793B (zh) 用于检测网络故障的方法和装置
CN114841789A (zh) 基于区块链的审计审价故障数据在线编辑方法及系统
CN113505980A (zh) 智能交通管理系统可靠性评价方法、装置及系统
CN112464164A (zh) 一种人因可靠性评估的方法、装置和信息处理设备
CN114580915B (zh) 一种新微针技术植发效果的智能评价方法及系统
CN116435995A (zh) 时间序列的处理方法、计算机可读存储介质和电子设备
US20090299497A1 (en) Tolerance interval determination method
CN113825162B (zh) 电信网络故障原因定位方法及装置
CN114154415A (zh) 设备寿命的预测方法及装置
CN110087230B (zh) 数据处理方法、装置、存储介质及电子设备
CN114331349A (zh) 一种基于物联网技术的科研项目管理方法及系统
CN109743203B (zh) 一种基于量化信息流的分布式服务安全组合系统及方法
CN117354053B (zh) 一种基于大数据的网络安全保护方法
CN114722061B (zh) 数据处理方法及装置、设备、计算机可读存储介质
CN114926154B (zh) 一种多场景数据识别的保护切换方法及系统
CN117198263A (zh) 一种工业领域大空间主动降噪方法
CN117575407A (zh) 一种数据处理方法、装置、存储介质及电子设备
CN116682561A (zh) 一种装备状态监测平台的脑力负荷评价方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant