CN112700044A - 预测方法和装置 - Google Patents
预测方法和装置 Download PDFInfo
- Publication number
- CN112700044A CN112700044A CN202011628509.2A CN202011628509A CN112700044A CN 112700044 A CN112700044 A CN 112700044A CN 202011628509 A CN202011628509 A CN 202011628509A CN 112700044 A CN112700044 A CN 112700044A
- Authority
- CN
- China
- Prior art keywords
- industry
- data
- layout
- preset
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/083—Shipping
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种预测方法、装置、设备及可读存储介质,属于通信技术领域。所述方法包括:获取行业源数据;对所述行业源数据进行预处理,得到预处理行业源数据;基于第一预设规则对所述预处理行业源数据进行筛选,确定为第一行业有效数据;在预设行业布局数据库中获取所述第一行业有效数据在第一预设时间段内的第一行业地域布局特征;将所述第一行业地域布局特征与所述第一行业有效数据进行合并,生成行业地域布局特征有效数据;将所述行业地域布局特征有效数据输入训练好的行业布局预测模型,得到行业地域布局预测值。本申请通过利用行业布局数据对行业布局发展趋势进行预测,实现了利用大数据对行业未来发展进行预测的目的。
Description
技术领域
本申请属于通信技术领域,具体涉及一种预测方法、装置、设备及可读存储介质。
背景技术
随着电商和微商的高速发展,快递行业也得到了快速粗暴式的发展,各个快递企业只是凭借自身发展目标和发展方向进行市场布局,并没有其他快递企业以及整个快递行业的发展的资讯可以借鉴,所以快递行业乱象丛生、东西部发展极度不均衡、快递企业林立但市场布局混乱、各企业之间未形成有效的协助互补。因此,快递行业发展趋势预测对于各个快递企业的发展布局是未来快递行业发展中必不可缺少的必要环节。
目前,快递行业的未来发展趋势布局预测还没有使用到快递企业和相关上下游企业产生了大量历史数据,以及其他国家已经具备成熟发展趋势的快递行业数据。对于快递行业的发展布局预测都处于空白阶段。
发明内容
本申请实施例的目的是提供一种预测方法、装置、设备及可读存储介质,能够解决现有技术中对于快递行业的发展布局预测都处于空白阶段的问题。
为了解决上述技术问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种预测方法,该方法包括:
获取行业源数据;
对所述行业源数据进行预处理,得到预处理行业源数据;所述预处理至少包括数据安全性检测、数据清洗以及数据融合;
基于第一预设规则对所述预处理行业源数据进行筛选,确定为第一行业有效数据;所述第一预设规则至少包括行业网点布局数据;
在预设行业布局数据库中获取所述第一行业有效数据在第一预设时间段内的第一行业地域布局特征;
将所述第一行业地域布局特征与所述第一行业有效数据进行合并,生成行业地域布局特征有效数据;
将所述行业地域布局特征有效数据输入训练好的行业布局预测模型,得到行业地域布局预测值。
可选地,在对所述行业源数据进行预处理,得到预处理行业源数据之后,还包括:
基于第三预设规则对所述预处理行业源数据进行筛选,确定为第三行业有效数据;所述第三预设规则至少包括行业投资数据、行业收益数据以及行业消费数据;
在预设行业投资回报比值数据库获取所述第三行业有效数据在第三预设时间段内的第一投资回报比值特征;
将所述第一投资回报比值特征与所述第三行业有效数据进行合并,生成投资回报比值特征有效数据;
将所述投资回报比值特征有效数据输入训练好的投资回报比值预测模型,得到行业投资回报比值预测值。
可选地,还包括:
在预设行业对比数据库中提取基准行业对比值;所述基准行业对比值包括基准行业发展值、基准投资回报比值和基准行业布局值其中的一项或多项;所述预设行业对比数据库至少包括东西部行业数据库和发达国家行业数据库;
将所述行业发展预测值、投资回报比值预测值和行业地域布局预测值与所述基准行业对比值进行对比,得到行业发展对比数据、投资回报比值对比数据和行业布局对比数据其中的一项或多项。
可选地,所述获取源数据之前,还包括:
获取行业训练数据;
对所述行业训练数据进行预处理,得到预处理行业训练数据;所述预处理至少包括数据安全性检测、数据清洗以及数据融合;
基于第一预设规则对所述预处理行业训练数据进行筛选,确定第一行业有效训练数据;所述第一预设规则至少包括行业网点布局数据;
在预设行业布局数据库中获取在第一预设时间段内的第二行业地域布局特征;
将所述第一行业有效训练数据与所述第二行业地域布局特征合并为行业地域布局特征训练数据;
将所述行业地域布局特征训练数据输入预设第一神经网络,训练得到行业布局发展预测模型。
可选地,所述获取源数据之前,还包括:
获取行业训练数据;
对所述行业训练数据进行预处理,得到预处理行业训练数据;所述预处理至少包括数据安全性检测、数据清洗以及数据融合;
基于第二预设规则对所述预处理行业训练数据进行筛选,确定第二行业有效训练数据;所述第二预设规则至少包括行业整体发展变化数据和行业局部发展变化数据;
在预设全行业数据库中获取在第二预设时间段内的第二行业特征;
将所述第二行业有效训练数据与所述第二行业特征合并为行业特征训练数据;
将所述行业特征训练数据输入预设第二神经网络,训练得到行业发展预测模型。
可选地,所述获取源数据之前,还包括:
获取行业训练数据;
对所述行业训练数据进行预处理,得到预处理行业训练数据;所述预处理至少包括数据安全性检测、数据清洗以及数据融合;
基于第三预设规则对所述预处理行业训练数据进行筛选,确定第三行业有效训练数据;所述第三预设规则至少包括行业投资数据、行业收益数据以及行业消费数据;
在预设行业投资回报比值数据库中获取在第三预设时间段内的第二投资回报比值特征;
将所述第三行业有效训练数据与所述第二投资回报比值合并为投资回报比值特征训练数据;
将所述投资回报比值特征训练数据输入预设第三神经网络,训练得到投资回报比值预测模型。
第二方面,本申请实施例提供了一种预测装置,该装置包括:
行业源数据获取模块,用于获取行业源数据;
预处理模块,用于对所述行业源数据进行预处理,得到预处理行业源数据;所述预处理至少包括数据安全性检测、数据清洗以及数据融合;
行业有效数据确定模块,用于基于第一预设规则对所述预处理行业源数据进行筛选,确定为第一行业有效数据;所述第一预设规则至少包括行业网点布局数据;
第一行业地域布局特征确定模块,用于在预设行业布局数据库中获取所述第一行业有效数据在第一预设时间段内的第一行业地域布局特征;
行业地域布局特征有效数据确定模块,用于将所述第一行业地域布局特征与所述第一行业有效数据进行合并,生成行业地域布局特征有效数据;
行业地域布局预测值确定模块,用于将所述行业地域布局特征有效数据输入训练好的行业布局预测模型,得到行业地域布局预测值。
可选地,所述装置还包括:
第二行业有效数据确定模块,用于基于第二预设规则对所述预处理行业源数据进行筛选,确定为第二行业有效数据;所述第二预设规则至少包括行业整体发展变化数据和行业局部发展变化数据;
第一行业特征获取模块,用于在预设全行业数据库获取所述第二行业有效数据在第二预设时间段内的第一行业特征;
行业特征有效数据生成模块,用于将所述第一行业特征与所述第二行业有效数据进行合并,生成行业特征有效数据;
行业发展预测值得到模块,用于将所述行业特征有效数据输入训练好的行业发展预测模型,得到行业发展预测值。
可选地,所述装置还包括:
第三行业有效数据确定模块,用于基于第三预设规则对所述预处理行业源数据进行筛选,确定为第三行业有效数据;所述第三预设规则至少包括行业投资数据、行业收益数据以及行业消费数据;
第一投资回报比值特征获取模块,用于在预设行业投资回报比值数据库获取所述第三行业有效数据在第三预设时间段内的第一投资回报比值特征;
投资回报比值特征有效数据生成模块,用于将所述第一投资回报比值特征与所述第三行业有效数据进行合并,生成投资回报比值特征有效数据;
行业投资回报比值预测值得到模块,用于将所述投资回报比值特征有效数据输入训练好的投资回报比值预测模型,得到行业投资回报比值预测值。
可选地,所述装置还包括:
基准行业对比值提取模块,用于在预设行业对比数据库中提取基准行业对比值;所述基准行业对比值包括基准行业发展值、基准投资回报比值和基准行业布局值其中的一项或多项;所述预设行业对比数据库至少包括东西部行业数据库和发达国家行业数据库;
对比模块,用于将所述行业发展预测值、投资回报比值预测值和行业地域布局预测值与所述基准行业对比值进行对比,得到行业发展对比数据、投资回报比值对比数据和行业布局对比数据其中的一项或多项。
可选地,在所述行业源数据获取模块之前,还包括:
行业训练数据获取模块,用于获取行业训练数据;
预处理行业训练数据得到模块,用于对所述行业训练数据进行预处理,得到预处理行业训练数据;所述预处理至少包括数据安全性检测、数据清洗以及数据融合;
第一行业有效训练数据确定模块,用于基于第一预设规则对所述预处理行业训练数据进行筛选,确定第一行业有效训练数据;所述第一预设规则至少包括行业网点布局数据;
第二行业地域布局特征获取模块,用于在预设行业布局数据库中获取在第一预设时间段内的第二行业地域布局特征;
行业地域布局特征训练数据确定模块,用于将所述第一行业有效训练数据与所述第二行业地域布局特征合并为行业地域布局特征训练数据;
行业布局发展预测模型训练模块,用于将所述行业地域布局特征训练数据输入预设第一神经网络,训练得到行业布局发展预测模型。
可选地,在所述行业源数据获取模块之前,还包括:
行业训练数据获取模块,用于获取行业训练数据;
预处理行业训练数据得到模块,用于对所述行业训练数据进行预处理,得到预处理行业训练数据;所述预处理至少包括数据安全性检测、数据清洗以及数据融合;
第二行业有效训练数据确定模块,用于基于第二预设规则对所述预处理行业训练数据进行筛选,确定第二行业有效训练数据;所述第二预设规则至少包括行业整体发展变化数据和行业局部发展变化数据;
第二行业特征获取模块,用于在预设全行业数据库中获取在第二预设时间段内的第二行业特征;
行业特征训练数据获取模块,用于将所述第二行业有效训练数据与所述第二行业特征合并为行业特征训练数据;
行业发展预测模型训练模块,用于将所述行业特征训练数据输入预设第二神经网络,训练得到行业发展预测模型。
可选地,在所述行业源数据获取模块之前,还包括:
行业训练数据获取模块,用于获取行业训练数据;
预处理行业训练数据得到模块,用于对所述行业训练数据进行预处理,得到预处理行业训练数据;所述预处理至少包括数据安全性检测、数据清洗以及数据融合;
第三行业有效训练数据获取模块,用于基于第三预设规则对所述预处理行业训练数据进行筛选,确定第三行业有效训练数据;所述第三预设规则至少包括行业投资数据、行业收益数据以及行业消费数据;
第二投资回报比值特征获取模块,用于在预设行业投资回报比值数据库中获取在第三预设时间段内的第二投资回报比值特征;
投资回报比值特征训练数据获取模块,用于将所述第三行业有效训练数据与所述第二投资回报比值合并为投资回报比值特征训练数据;
投资回报比值预测模型训练模块,用于将所述投资回报比值特征训练数据输入预设第三神经网络,训练得到投资回报比值预测模型。
第三方面,本发明提供了一种设备,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如前述的预测方法。
第四方面,本发明提供了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够实现前述的预测方法。
在本申请实施例中,通过获取行业源数据;对所述行业源数据进行预处理,得到预处理行业源数据;所述预处理至少包括数据安全性检测、数据清洗以及数据融合;基于第一预设规则对所述预处理行业源数据进行筛选,确定为第一行业有效数据;所述第一预设规则至少包括行业网点布局数据;在预设行业布局数据库中获取所述第一行业有效数据在第一预设时间段内的第一行业地域布局特征;将所述第一行业地域布局特征与所述第一行业有效数据进行合并,生成行业地域布局特征有效数据;将所述行业地域布局特征有效数据输入训练好的行业布局预测模型,得到行业地域布局预测值。实现了利用历史行业布局数据和行业布局数据库中的布局数据,预测今后行业布局发展趋势的目的。
附图说明
图1为本申请提供的一种预测方法实施例的步骤流程图;
图1A为本申请提供的一种数据预处理流程示意图;
图1B为本申请提供的一种数据挖掘流程示意图;
图2为本申请提供的一种预测方法实施例的步骤流程图;
图2A为本申请提供的一种预测系统数据流程示意图;
图2B为本申请提供的一种数据分析流程示意图;
图2C为本申请提供的一种智能预测系统架构示意图;
图3为本申请提供的一种预测方法实施例的步骤流程图;
图4为本申请提供的一种预测装置实施例的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的预测方法进行详细地说明。
参照图1,示出了本申请实施例一提供的一种预测方法的步骤流程图,如图1所示,该预测方法具体可以包括如下步骤:
步骤101,获取行业源数据。
源数据(Meta data),又称中介数据、中继数据,为描述数据的数据,主要是可以用来描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。在本实施例中,对源数据中包括的数据属性的信息不作限制,具体地,可以根据业务需求而定,本实施例对此不加以限制。
本发明实施例中,行业源数据是指针对特定某一行业的源数据,本实施例中以快递行业为例对数据的采集、处理以及应用进行详细说明,但是“行业”不限于快递行业,本实施例对此不加以限制。
在快递行业源数据获取过程中,采集某一快递企业的历史存储数据,源数据的属性信息一般主要包括快递单号,由快递单号可以识别出快递主要信息,例如收发地址、快递名称、收件人信息等。
获取源数据也是数据采集,数据采集主要完成对相关的所有数据动态收集、分类和接收。
在获取源数据之后,执行步骤102。
步骤102,对所述行业源数据进行预处理,得到预处理行业源数据;所述预处理至少包括数据安全性检测、数据清洗以及数据融合;
本发明实施例中,在步骤101中描述的快递源数据可能是不同地区,不同时间段的信息,所以不一定是“完整”以及“正确”的。
示例的,快递单A的单号为某快递企业早期数据,单号为字符串形式,后期发展过程中快递单号统一使用二维码形式,所以为了数据能进行批量统一处理,必须将快递单A的字符串单号处理为目前统一可以识别的二维码形式。除此之外,快递单B是早期的快递信息,后期补录在系统中时信息没有填写完整,缺失中转信息等,需要手动进行补充等问题,以及多个系统重复录入的同一个快递信息多次的问题。
如图1A所示,其中,对快递源数据进行预处理可以将快递信息处理为统一、完整以及正确的信息。预处理主要包括安全性检测、数据清洗以及数据融合。
数据安全性是指保护数据免受未经许可而故意或偶然的传送、泄露、破坏、修改的性能,或标志程序和数据等信息的安全程度的重要指标。即保护数据不被破坏或泄露,不准非法修改,防止不合法的访问或使用程序和数据的安全程度。通常采用口令保护和加密等安全技术。数据的安全性检测主要是指检测源数据中是否存在改快递企业统一设置的安全性密钥或其他安全性标识,对于一些不存在安全性标识的数据视为可以随意修改的不安全数据,则不采用。
数据清洗(Data cleaning)是指对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性,如图1A所示,数据清洗通常使用规范化的存储规则、一致性检测、归一化以及去量纲的方式完成。一致性检测是指对于上述提到的不同时期和地点录入的重复数据进行校验后合并,对于不完整的数据进行手动补充,对于错误数据,即格式不正确、字符无法识别、日期越界等问题存在的数据,进行修正后再抽取。归一化是对原始数据进行线性变换,将其映射到[0,1]之间,该方法也被称为离差标准化。而去量钢化是只统一特征之间的单位,以便比较。
数据融合技术是指利用计算机对按时序获得的若干数据信息,在一定准则下加以自动分析、综合,以完成所需的决策和评估任务而进行的信息处理技术。数据融合在多信息源、多平台和多用户系统内起着重要的处理和协调作用,保证了数据处理系统各单元与汇集中心间的连通性与及时通信。在本发明实施例中,即针对不同数据录入系统录入的数据,在符合安全性的前提下按照时效性和数据一致性进行收集,筛选出错误数据再进行清洗。
例如,不同网点通过不同时期的系统录入的快递信息,存在不完整、不规范以及不统一的问题,通过上述预处理方式得到解决。
通过上述预处理后的源数据定义为预处理快递行业源数据。
在实际应用中源数据的采集和预处理并不一定针对一个快递企业,也可以是采集于多个主要快递企业的快递数据,当然,也可以是采集于多个相关行业采集的源数据按照统一规则进行预处理,最终得到为了进一步处理的预处理行业源数据。对此,本发明实施例不加以具体限制。
当然,预处理主要完成对非规范化数据、非同一量纲数据的统一化处理。针对不同的数据类型和存储形式,为达到上述目的可以采用不同的方式,还有例如异常数据清洗、一致性检测、缺失值补全、数据归一化、数据规范化、数据零一化、去量纲化等操作。本发明实施例对此不加以具体限制。
步骤103,基于第一预设规则对所述预处理行业源数据进行筛选,确定为第一行业有效数据;所述第一预设规则至少包括行业网点布局数据;
本发明实施例中,进一步筛选预处理行业源数据中行业网点布局信息。例如,在快递企业甲中获取的源数据经过预处理后得到数据形式为“快递收发地、快递中转地、快递在中转地停留的时间、快递重量、快递收发时间”的数据列表,筛选出其中包括快递行业网点布局数据的信息,即在快递收发地和快递中转地包含快递企业甲的分公司的具体信息,其中,快递收发地、快递中转地中包含的发送、接收、中转站点的具体地址信息。
可以理解地,在不同地区设有不同快递企业的代发网点,这些网点地址可能随时变动,网点数量可能随时增加或者减少,每个网点的揽件数量也有所不同,这些信息通过获取每个快递单的运输信息中收发点和中转点的具体信息可以动态统计。当然,网点布局数据不限于上述几个方式获取,本发明实施例对此不加以具体限制。
步骤104,在预设行业布局数据库中获取所述第一行业有效数据在第一预设时间段内的第一行业地域布局特征;
本发明实施例中,针对快递企业甲的内部信息存储数据库,获取在固定时间段内包含各地方网点的信息,其中可以主要包括网点地址、网点设立的起止时间、网点的揽件能力信息等。将筛选后的数据定位为第一行业地域布局特征。其中,预设行业布局数据库可以是快递行业领域公认的数据库,其中至少包含各快递企业的布局数据。预设行业布局数据库也可以只是快递企业甲内部至少存储有企业网点布局数据的数据库,对此本发明实施例不加以具体限制。
当然,地域布局特征不限于上述描述,本发明实施例对此不加以限制。
如图1B所示的是在预处理行业源数据进行筛选,以及在预设行业布局数据库中获取数据的流程图,其中数据处理包括源数据处理(源数据预处理),分析结果数据结构处理主要涉及对处理后的源数据进一步的挖掘,以期得到隐藏的、更有实际商业价值的信息。例如上述涉及到的行业地域布局特征的数据。
数据挖掘子系统主要包括:数据源信息预处理、分析子系统得到的分析结果结构预处理、业务数据挖掘、商业数据合并等功能。
在实际应用中,快递数据挖掘系统主要使用的技术有:主成分分析、因子分析、相关分析、多元回归、聚类分析、模式识别、决策树、神经网络、深度神经网络等等数据分析技术,同时使用了人工神经网络、遗传基因算法等机器学习方面的方法,同时使用到了深度学习、逻辑回归等数据挖掘相关方法。
主成分分析(Principal ComponentAnalysis,PCA),将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。
在实际应用中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息,信息的大小通常用离差平方和或方差来衡量。
因子分析是指研究从变量群中提取共性因子的统计技术。可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。
相关分析(correlation analysis)是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。例如,在采集的快递数据中,单个网点的快递揽件量与当前网点的所处位置之间相关分析,如果相关值超出预设阈值,那么网点多处地址也标定为重要特征。
在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。即一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。因此多元线性回归比一元线性回归的实用意义更大。
聚类分析的目标就是在相似的基础上收集数据来分类。聚类技术被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。
模式识别是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。
决策树(DecisionTree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。
人工神经网络(Artificial Neural Networks,简写为ANNs)是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的,并具有自学习和自适应的能力。
深度神经网络是机器学习(ML,Machine Learning)领域中一种技术,包括监督学习和非监督学习,利用多层神经网络结构,首先逐层构建单层神经元,这样每次都是训练一个单层网络。其次,当所有层训练完后,使用wake-sleep算法进行调优。最终学习得到模型的一致机器学习方法。
上述数据挖掘方法是现有的可以使用于数据挖掘的方法,在涉及具体应用时可以使用其中的一项或者多项,本发明实施例对此不加以具体限制。
其中主要涉及到数据挖掘的方法,目前经常使用的数据挖掘方法
步骤105,将所述第一行业地域布局特征与所述第一行业有效数据进行合并,生成行业地域布局特征有效数据;
本发明实施例中,将上述获取的第一行业地域布局特征与预处理以及筛选后的第一行业有效数据进行合并,生成行业地域布局特征有效数据。合并数据遵循统一的格式,并转换为已训练好的模型可以读取的数据形式,进入步骤106。
步骤106,将所述行业地域布局特征有效数据输入训练好的行业布局预测模型,得到行业地域布局预测值。
本发明实施例中,将合并的特征数据输入训练好的行业布局预测模型,可以得到该快递企业的地域布局预测值。例如,上述数据是由快递企业甲以及预设行业布局数据库中上一年度的网点布局数据,那么行业布局预测模型输出的就是快递企业甲在未来网点预测数据。
可以理解地,数据建模首先根据该快递行业和企业网点布局数据,针对不同地域设置维度,然后针对各个布局地域的重要程度设置权重,再者针对不同维度进一步规范化数据,然后建立学习模型和启动因子并运行模型进行学习,在学习的过程中不断的调整参数,直到模型学习完成后的结果符合预期。再利用该模型进一步预测今后的数据,并根据数据实际值调整训练模型的训练数据,完善模型的预测有效率和精确率。
在本发明实施例中,通过获取行业源数据;对所述行业源数据进行预处理,得到预处理行业源数据;所述预处理至少包括数据安全性检测、数据清洗以及数据融合;基于第一预设规则对所述预处理行业源数据进行筛选,确定为第一行业有效数据;所述第一预设规则至少包括行业网点布局数据;在预设行业布局数据库中获取所述第一行业有效数据在第一预设时间段内的第一行业地域布局特征;将所述第一行业地域布局特征与所述第一行业有效数据进行合并,生成行业地域布局特征有效数据;将所述行业地域布局特征有效数据输入训练好的行业布局预测模型,得到行业地域布局预测值。实现了利用历史行业布局数据和行业布局数据库中的布局数据,预测今后行业布局发展趋势的目的。
参照图2,示出了本申请实施例二提供的一种预测方法的步骤流程图,如图2所示,该预测方法具体可以包括如下步骤:
步骤201,获取行业源数据;
此步骤与步骤101相同,在此不再详述。
步骤202,对所述行业源数据进行预处理,得到预处理行业源数据;所述预处理至少包括数据安全性检测、数据清洗以及数据融合;
此步骤与步骤102相同,在此不再详述。
步骤203,基于第二预设规则对所述预处理行业源数据进行筛选,确定为第二行业有效数据;所述第二预设规则至少包括行业整体发展变化数据和行业局部发展变化数据;
本发明实施例中,进一步筛选预处理行业源数据中行业整体发展变化数据和行业局部发展变化数据。例如,获取主要快递企业甲的数据中筛选出在2019各个省份以及企业年度整体的发展数据,其中可以包括各省份收发快递数量、各省份人力投入以及各省份网点增设和取消的数目,以及快递企业总体快递收发熟练、人力投入以及网点增设和取消的数目。
可以理解地,一个快递企业的行业在一个年度的变化数据不足以说明快递行业整个发展趋势,所以可以获取多个快递企业的行业发展数据,以确保更精确的参考数据。当然,具体获取一个或多个快递企业发展数据由实际应用中针对具体情况决定,本发明实施例对此不加以具体限制。
此外,行业整体发展变化数据和行业局部发展变化数据可以是上述描述收发快递数量、人力投入以及网点增设和取消的数目,在实际应用中针对不同的企业不同的数据分析要求而不同,本发明实施例对此不加以具体限制。
步骤204,在预设全行业数据库获取所述第二行业有效数据在第二预设时间段内的第一行业特征;
本发明实施例中,同样地,在行业公认的数据库中获取整体快递行业在2019年度的发展数据,例如整个快递行业在2019年度收发快递数量、人力投入以及网点增设和取消的数目等,确定为快递行业的第一行业特征。
步骤205,将所述第一行业特征与所述第二行业有效数据进行合并,生成行业特征有效数据;
本发明实施例中,将上述两种数据,即快递企业甲在2019年度的发展数据和全快递行业2019年的发展数据进行合并,确定为行业特征有效数据。
步骤206,将所述行业特征有效数据输入训练好的行业发展预测模型,得到行业发展预测值。
本发明实施例中,行业发展预测模型也是根据多年的快递行业发展数据提前训练而成,并由每特定时间段更新反馈数据进行更新。例如2019年使用的行业发展预测模型可以是2018年获取的数据进行训练的,而2018年的行业发展预测模型是2017年的获取的数据训练的,以此类推。除此之外,根据模型输出的预测数据与真实数据之前的误差,调整模型训练时使用的训练参数,确保模型的输出更加精确。
优选地,在本实施例中,步骤202之后,还可以包括:
步骤A01,基于第三预设规则对所述预处理行业源数据进行筛选,确定为第三行业有效数据;所述第三预设规则至少包括行业投资数据、行业收益数据以及行业消费数据;
在本发明另一个实施例中,还可以利用行业投资数据、行业收益数据以及行业消费数据对预处理快递源数据进行筛选。
示例的,行业投资数据可以为快递企业甲的年度支出数据,人力支出、运输支出、宣传支出、售后支出等等,行业收益数据是上述各方面的收入数据,行业消费数据可以是消费者购买快递企业甲的各种服务和产品的消费数据。
同样地,步骤A01和A02利用步骤104中提到的一项或多项数据挖掘方法,从某一快递企业数据库和快递行业公认数据库中获取行业投资数据、行业收益数据以及行业消费数据确定为第三行业有效数据。
步骤A02,在预设行业投资回报比值数据库获取所述第三行业有效数据在第三预设时间段内的第一投资回报比值特征;
示例的,预设行业投资回报比值数据库设定存储快递行业经济效益数据的数据库,其中可以包含快递产业全年的经济效益指标相关数据,如净资产收益率、总资产报酬率、主营业务利润率、成本费用利润率、总资产周转率、流动资产周转率、应收账款周转率、资产负债率、速动比率、资本积累率等数据。
在预设的快递行业投资回报比值数据库中挖掘年度经济效益相关数据,用于计算企业投资回报比值,进入下一步骤。
步骤A03,将所述第一投资回报比值特征与所述第三行业有效数据进行合并,生成投资回报比值特征有效数据;
示例的,将步骤A01和步骤A02挖掘到的数据合并,生成的数据定义为投资回报比值特征有效数据。
步骤A04,将所述投资回报比值特征有效数据输入训练好的投资回报比值预测模型,得到行业投资回报比值预测值。
示例的,将投资回报比值特征有效数据输入训练好的投资回报比值预测模型,得到对应的预测值。
同样地,在步骤106中,数据建模以快递行业地域网点布局为主要特征,此步骤中主要以快递行业经济效益相关数据为主要特征进行。
数据建模:首先根据该快递行业和企业背景以及市场情况,选取出相关属性作为该模型的维度,然后针对各个维度的重要程度设置权重,再者针对不同维度进一步规范化数据源,然后建立学习模型和启动因子并运行模型进行学习,在学习的过程中不断的调整参数,直到模型学习完成后的结果符合预期。
模型训练:使用上述数据创建后的模型进行特定的模型训练,并不断调整参数。
模型调优和运行:针对不同的参数运行模型,在实际应用中根据具体的标准判断是否模型结果可接受,若不能接受,即得到的预测结果误差太大,则继续调整训练参数,直到模型训练完成之后运行模型,完成数据的分析功能。
分析结果梳理:针对模型运行的结果进行进一步的梳理和格式化,然后完成持久化等。
步骤207,在预设行业对比数据库中提取基准行业对比值;所述基准行业对比值包括基准行业发展值、基准投资回报比值和基准行业布局值其中的一项或多项;所述预设行业对比数据库至少包括东西部行业数据库和发达国家行业数据库;
本发明实施例中,对比数据是可以是东西部快递行业发展数据,也可以是欧美等发达国家快递行业发展数据,从上述对比数据中挖掘出可以预测值直接进行对比的基准值,如行业发展值、投资回报比值以及行业布局值其中的一项或多项,与上述预先训练好的行业布局预测模型和/或行业发展预测模型和/或投资回报比值预测模型输出的各项预测值进行横向对比,得到对比结果。
步骤208,将所述行业发展预测值、投资回报比值预测值和行业地域布局预测值与所述基准行业对比值进行对比,得到行业发展对比数据、投资回报比值对比数据和行业布局对比数据其中的一项或多项。
本发明实施例中,将步骤207得到的对比结果分析,可以得知目前预测目标(例如快递企业甲)的布局、发展和市场投资,与对比预期目标(其他目标企业)之间的差距,可以针对预测目标企业的发展规划进行调整,如布局网点是否需要增减,中西部网点布局是否需要平衡,人力投资是否需要缩减,在西部某一城市是否需要开展新业务等,都可以通过对比结果进行调整和改善。
可以理解地,通过数据挖掘、建模以及预测数据,并对比数据得到的数据分析结果不限于上述描述,基于各行业发展阶段和需求不同,目标数据和对比数据也会不同,对此本发明实施例不加以具体限制。
以下基于快递行业发展趋势预测系统对本发明实施例进行具体说明:
如图2A所示为本实施例中描述的利用大数据和人工智能研究快递行业发展趋势的系统架构图,其中以快递行业发展趋势研究是建立在大数据处理系统、快递行业数据中台、快递行业大数据分析系统、快递行业数据挖掘系统等系统之上的现代化综合系统。
系统主要包括大数据采集系统对大数据进行处理,针对上述实施例的描述,快递大数据采集系统的主要功能是完成包括数据采集、数据预处理等操作。数据挖掘子系统主要完成对已有数据的分析、挖掘和校验。使用大数据采集系统实现多数据源的采集。采集系统主要实现的功能有数据采集、数据预处理、数据安全性处理、数据融合等功能。
其中,采集数据来自快递业数据仓库,比如针对快递企业甲的数据仓库,其中可以包括预设布局数据库。全行业数据仓储如上例中提到的快递行业公认的预设全行业数据库可以包括行业投资回报比值数据库。除此之外欧美等发达经济体快递行业仓储,如上例中提到的预设行业对比数据库。
在上述数据库中数据采集完成后的数据传送到数据总仓储,与快递数据中台实现数据补充,其中,数据中台主要完成对整体行业数据的数据汇聚整合、数据提纯加工、数据服务可视化、数据价值变现等核心操作。利用快递数据中台系统实现大数据中转,开启数据中台的统一存储计算、数据汇聚链接、数据算法开发、数据类目体系映射、标签类目体系映射、数据资产管理、数据应用服务、数据交换服务、数据标注服务等对快递数据总仓储进行数据治理。
将通过数据中台完善的数据传入大数据分析系统,如图2B所示,大数据分析系统主要包括源数据预处理、数据建模、模型训练、模型调优、模型运行控制、模型重学习、结果统计和分析等功能。快递大数据分析系统主主要通过对快递行业整体发展行业动态、行业市场等信息的分析,从而研究快递行业东西部发展不均衡、发展不均衡的根本原因及个要素占比等。将分析结果反馈到建模过程中,并在训练模型的过程中加入东西部快递行业影响因子和行业均衡因子,进行模型调优。
如图2C所示,人工智能主要实现快递业务的发展、快递行业整体发展趋势、下沉市场企业快递布局趋势、企业布局投资收益的预测和矫正。
其中,结构化和非结构化数据是指结构化数据是指结构化数据是指高度组织和整齐格式化的数据。结构化数据可以放入表格和电子表格中的数据类型,也被成为定量数据,是能够用数据或统一的结构加以表示的信息,如数字、符号。在项目中,保存和管理这些的数据一般为关系数据库,当使用结构化查询语言或SQL时,计算机程序很容易搜索这些术语。结构化数据具有的明确的关系使得这些数据运用起来十分方便。结构化数据例如快递公司乙的2020年各个省市的快递业务量,快递公司乙的全国总收入等等:非结构化数据本质上是结构化数据之外的一切数据,它不符合任何预定义的模型,例如文本、图片、多媒体文件等,如快递企业甲2020年度北京地区双11期间途径海淀区的所有货物物流照片、区域经理的某次重要讲话录音等。
大数据中间件是指处理大数据过程中使用到的与具体业务无关的公共成熟组件,例如数据抽取转换工具ETL、logstash、数据转发处理组件kafka等。
人工智能算法子系统主要用来提供在模型训练和使用过程中各种人工只能的算法支持,如神经网络算法支持。
人工智能效验子系统主要用来和算法子系统配合使用,针对某种需要训练和学习的算法在使用之前,校验子系统需要校验是否满足算法条件,如模型训练的数据格式是否完整、模型的维度是否过多或过少等。
机器学习子系统主要使用机器学习算法训练行业布局预测模型模型、行业发展预测模型、投资回报比值预测模型。
感知子系统用于在数据采集时识别行业标识信息,例如快递二维码等。
认知子系统主要用于针对一些非结构化的数据如图片文件,使用OCR等技术,将无法直接使用的非结构数据转化为可使用的结构化数据,如将速递企业乙话单图片识别出发件和收件地址过程。认知子系统主要提供了一些特殊的辅助模型训练的工具。
预测子系统主要利用机器学习子系统训练出的行业布局预测模型模型预测行业布局相关数据、某个快递公司未来业务发展情况预测、快递行业整体东西部发展整体趋势预测等。
趋势预测子系统主要利用机器学习子系统训练出的行业发展预测模型预测行业发展相关数据。
投资收益预测子系统主要利用机器学习子系统训练出的投资回报比值预测模型预测行业投资收益等相关数据。
根据上述预测结果可以实现对各个主要快递企业发展趋势预测,或者快递行业整体发展预测,快递企业的下沉市场布局趋势预测(行业分支发展与布局预测),快递企业的下沉市场投资收益预测(行业分支投资收益预测),将上述预测结果与欧美国家相关行业发展数据进行对比,可以对各个主要快递企业和整个快递行业在下沉市场布局(各个主要行业集中城市以及下级城市的企业网点布局)、各项投资力度以及发展规划进行调整。
可以理解的,在实际应用中,当从上述实施例中描述的模型分别获取三个预测值后,在对比的过程中需要分别设置两个阈值,分别是globalMax和globalMin;partMax和partMin;oneMax和oneMin。
快递行业总趋势预测值,如果大于globalMax,则认为按照当前这种资源配置,不足于满足未来发展的需要。此时需要从国家政策面、行业整体布局、产业链角度均提供有效支持,如鼓励更多快递从业者上岗、对临时陷入危机的企业适当补助、提请物流联合会指定更多适应该地区的政策等,同时需要各个快递公司协调更多的资源,如针对更多的高端客户群体,实现收发件形式灵活、投递形式多样化、运输途径个性化等措施,针对总体运输量上涨,需要充分考虑运输工具、运载能力、人员配比、机械配比是否需要提前采购就位等,针对偶发事件如双11活动订单量暴增,是否需要临时协调租赁闲置市场资源等;如果小于globalMin,则认为未来发展趋势小于预期,可适当收缩战略资源等等,以此类推;如果总体预测值介于二者之间,则认为当前的战略资源可维持不变。
针对东西部发展趋势,东部地区和西部地区分别预测对比值如表一所示:
东部地区 | 西部地区 | 预测值的阈值 | 措施 |
大于阈值 | 大于阈值 | partMax | 方针1 |
大于阈值 | 小于阈值 | partMax | 方针2 |
小于阈值 | 大于阈值 | partMax | 方针3 |
小于阈值 | 小于阈值 | partMax | 方针4 |
大于阈值 | 大于阈值 | partMin | 方针5 |
大于阈值 | 小于阈值 | partMin | 方针6 |
小于阈值 | 大于阈值 | partMin | 方针7 |
小于阈值 | 小于阈值 | partMin | 方针8 |
表一
如上,以东部地域预测值小于阀值,且西部地区预测值大于阀值为例,此时可采用方针3。即整体行业而言,未来东部地区发展较缓慢,可能是发达的物流已近饱和等因素引起,而西部发展较快更有发展前景与潜力,可在西部地区重点布局,如投入更多资源,深度挖掘更多消费者、优化现有的运输效率和途径、与其他公司深度合作提供更多物流增值服务等,针对东西发展趋势预测小于预期,未来可维持当前资源投入情况甚至抽调部分资源支持西部地区业务等,以便使得综合效益最佳。
其中,针对各个快递公司业务量预测,如预测到快递企业甲2021年度的总体业务量大于oneMax,首先表明整体发展趋势的良好的,然后针对业务量增长迅猛的区域需要投入更多的终端设备、人员配比、物流站点和运输设备等;如果业务量预测值小于oneMin,则需要酌情收缩部分站点、合并或者外包较少地区的资源投入、或者制定更多发展业务的有效措施以期弥补整体颓势等。
当然,在针对趋势预测中,资源配比和调整方案不限于上述描述,本发明实施例对此不加以具体限制。
在本发明实施例中,通过获取行业源数据;对所述行业源数据进行预处理,得到预处理行业源数据;所述预处理至少包括数据安全性检测、数据清洗以及数据融合;基于第二预设规则对所述预处理行业源数据进行筛选,确定为第二行业有效数据;所述第二预设规则至少包括行业整体发展变化数据和行业局部发展变化数据;在预设全行业数据库获取所述第二行业有效数据在第二预设时间段内的第一行业特征;将所述第一行业特征与所述第二行业有效数据进行合并,生成行业特征有效数据;将所述行业特征有效数据输入训练好的行业发展预测模型,得到行业发展预测值。在预设行业对比数据库中提取基准行业对比值;所述基准行业对比值包括基准行业发展值、基准投资回报比值和基准行业布局值其中的一项或多项;所述预设行业对比数据库至少包括东西部行业数据库和发达国家行业数据库;将所述行业发展预测值、投资回报比值预测值和行业地域布局预测值与所述基准行业对比值进行对比,得到行业发展对比数据、投资回报比值对比数据和行业布局对比数据其中的一项或多项。可以实现通过利用大数据挖掘与分析,获取行业发展趋势、经济指标发展趋势以及市场布局数据预测值,与样本数据进行对比,得到企业或整个行业发展规划的制定和调整,实现了科学有效利用大数据为行业发展给出有力支持的目的。
参照图3,示出了本申请实施例三提供的一种预测方法的步骤流程图,如图3所示,该预测方法具体可以包括如下步骤:
步骤301,获取行业训练数据;
本发明实施例中,行业训练数据获取途径与行业源数据获取途径一致,行业训练数据一般先于行业源数据被获取,用于训练对应的数学模型。
其中,训练数据采集主要完成对相关的所有数据动态收集、分类和接收。
示例的,收集某一快递企业的历史存储数据作为训练数据,训练数据的属性信息一般主要包括快递单号,由快递单号可以识别出快递主要信息,例如收发地址、快递名称、收件人信息等
步骤302,对所述行业训练数据进行预处理,得到预处理行业训练数据;
本发明实施例中,数据预处理包括安全性检测、数据清洗以及数据融合。在步骤102中已详细描述,在此不再详述。
步骤303,基于第一预设规则对所述预处理行业训练数据进行筛选,确定第一行业有效训练数据;
所述第一预设规则至少包括行业网点布局数据;
此步骤与步骤103相同,在此不再详述。
步骤304,在预设行业布局数据库中获取在第一预设时间段内的第二行业地域布局特征;
此步骤与步骤104相同,其中步骤104中的第一行业地域布局特征用于分析结果,此步骤中的第二行业地域布局特征用于模型训练,获取方式方法相同,获取时间不同,具体内容在次不再详述。
步骤305,将所述第一行业有效训练数据与所述第二行业地域布局特征合并为行业地域布局特征训练数据;
此步骤与步骤105相同,在此不再详述。
可以理解地,作为训练数据在输入神经网络进行模型训练之前,数据可以是标定的,也可以是无标定的,在具体应用中,根据实际需求来设定,本发明实施例对此不加以限制。
步骤306,将所述行业地域布局特征训练数据输入预设第一神经网络,训练得到行业布局发展预测模型。
本发明实施例中,将训练数据输入预设神经网络(每个神经元先输入值加权累加再输入激活函数作为该神经元的输出值)正向传播,得到得分,将“得分”输入误差函数lossfunction(正则化惩罚,防止过度拟合),与期待值比较得到误差,多个则为和,通过误差判断识别程度(损失值越小越好)。通过反向传播(反向求导,误差函数和神经网络中每个激活函数都要求,最终目的是使误差最小)来确定梯度向量,最后通过梯度向量来调整每一个权值,向“得分”使误差趋于0或收敛的趋势调节。重复上述过程直到设定次数或损误差失的平均值不再下降(最低点)时,训练完成,得到行业布局发展预测模型。
可以理解地,实际应用中,神经网络实现模型训练的方法有多种,也分为监督和非监督的,具体使用不限于上述描述,本发明实施例对此不加以具体限制。
优选地,在本实施例中,步骤302之后,还可以包括:
步骤B01,基于第二预设规则对所述预处理行业训练数据进行筛选,确定第二行业有效训练数据;
所述第二预设规则至少包括行业整体发展变化数据和行业局部发展变化数据;
步骤B02,在预设全行业数据库中获取在第二预设时间段内的第二行业特征;
步骤B03,将所述第二行业有效训练数据与所述第二行业特征合并为行业特征训练数据;
步骤B04,将所述行业特征训练数据输入预设第二神经网络,训练得到行业发展预测模型。
本发明实施例中,步骤302后的步骤B01-04的模型训练方法与步骤303-306相同,针对于输入的训练数据不同,是数据采集源不同,因此,对于模型的具体训练过程在此不再详述。
当然,实际应用中,模型训练方法具体使用不限于上述描述,本发明实施例对此不加以具体限制。
优选地,在本实施例中,步骤302之后,还可以包括:
步骤C01,基于第三预设规则对所述预处理行业训练数据进行筛选,确定第三行业有效训练数据;
所述第三预设规则至少包括行业投资数据、行业收益数据以及行业消费数据;
步骤C02,在预设行业投资回报比值数据库中获取在第三预设时间段内的第二投资回报比值特征;
步骤C03,将所述第三行业有效训练数据与所述第二投资回报比值合并为投资回报比值特征训练数据;
步骤C04,将所述投资回报比值特征训练数据输入预设第三神经网络,训练得到投资回报比值预测模型。
本发明实施例中,步骤302后的步骤C01-04的模型训练方法与步骤303-306相同,针对于输入的训练数据不同,是数据采集源不同,因此,对于模型的具体训练过程在此不再详述。
当然,实际应用中,模型训练方法具体使用不限于上述描述,本发明实施例对此不加以具体限制。
本申请实施例提供的预测方法,通过获取源数据,基于所述源数据进行初步分词处理,确定名次类分词,基于所述源数据调整关键词排名,将所述名词类分词和所述关键词排名进行融合,确定目标分词,可以准确的确定出目标分词,并且在对所述目标分词进行物品名称校验,确定所述目标分词为物品名称的情况下,将所述目标分词放入缓存区,可以使得动态的对目标分词进行物品名称校验,提升了预测的精准率和准确率。
本申请实施例提供的预测方法,除了具备上述实施例一提供的预测方法所具备的有益效果外,还可以由用户采用多个手指对第一精度控制分区和第二精度控制分区进行视频时间点的定位,在视频时间点的定位过程中,既可以排除电子设备边栏在有多个手指触控时的干扰,又可以保证多个手指接触电子设备的支撑电子设备的作用。
需要说明的是,本申请实施例提供的预测方法,执行主体可以为预测装置,或者该预测装置中的用于执行加载预测方法的控制模块。本申请实施例中以预测装置执行加载预测方法为例,说明本申请实施例提供的预测方法。
参照图4,示出了本申请实施例四提供的一种预测装置的结构示意图,如图4所示,该预测装置具体可以包括如下模块:
行业源数据获取模块401,用于获取行业源数据;
预处理模块402,用于对所述行业源数据进行预处理,得到预处理行业源数据;所述预处理至少包括数据安全性检测、数据清洗以及数据融合;
行业有效数据确定模块403,用于基于第一预设规则对所述预处理行业源数据进行筛选,确定为第一行业有效数据;所述第一预设规则至少包括行业网点布局数据;
第一行业地域布局特征确定模块404,用于在预设行业布局数据库中获取所述第一行业有效数据在第一预设时间段内的第一行业地域布局特征;
行业地域布局特征有效数据确定模块405,用于将所述第一行业地域布局特征与所述第一行业有效数据进行合并,生成行业地域布局特征有效数据;
行业地域布局预测值确定模块406,用于将所述行业地域布局特征有效数据输入训练好的行业布局预测模型,得到行业地域布局预测值。
可选地,所述装置还包括:
第二行业有效数据确定模块,用于基于第二预设规则对所述预处理行业源数据进行筛选,确定为第二行业有效数据;所述第二预设规则至少包括行业整体发展变化数据和行业局部发展变化数据;
第一行业特征获取模块,用于在预设全行业数据库获取所述第二行业有效数据在第二预设时间段内的第一行业特征;
行业特征有效数据生成模块,用于将所述第一行业特征与所述第二行业有效数据进行合并,生成行业特征有效数据;
行业发展预测值得到模块,用于将所述行业特征有效数据输入训练好的行业发展预测模型,得到行业发展预测值。
可选地,所述装置还包括:
第三行业有效数据确定模块,用于基于第三预设规则对所述预处理行业源数据进行筛选,确定为第三行业有效数据;所述第三预设规则至少包括行业投资数据、行业收益数据以及行业消费数据;
第一投资回报比值特征获取模块,用于在预设行业投资回报比值数据库获取所述第三行业有效数据在第三预设时间段内的第一投资回报比值特征;
投资回报比值特征有效数据生成模块,用于将所述第一投资回报比值特征与所述第三行业有效数据进行合并,生成投资回报比值特征有效数据;
行业投资回报比值预测值得到模块,用于将所述投资回报比值特征有效数据输入训练好的投资回报比值预测模型,得到行业投资回报比值预测值。
可选地,所述装置还包括:
基准行业对比值提取模块,用于在预设行业对比数据库中提取基准行业对比值;所述基准行业对比值包括基准行业发展值、基准投资回报比值和基准行业布局值其中的一项或多项;所述预设行业对比数据库至少包括东西部行业数据库和发达国家行业数据库;
对比模块,用于将所述行业发展预测值、投资回报比值预测值和行业地域布局预测值与所述基准行业对比值进行对比,得到行业发展对比数据、投资回报比值对比数据和行业布局对比数据其中的一项或多项。
可选地,在所述行业源数据获取模块801之前,还包括:
行业训练数据获取模块,用于获取行业训练数据;
预处理行业训练数据得到模块,用于对所述行业训练数据进行预处理,得到预处理行业训练数据;所述预处理至少包括数据安全性检测、数据清洗以及数据融合;
第一行业有效训练数据确定模块,用于基于第一预设规则对所述预处理行业训练数据进行筛选,确定第一行业有效训练数据;所述第一预设规则至少包括行业网点布局数据;
第二行业地域布局特征获取模块,用于在预设行业布局数据库中获取在第一预设时间段内的第二行业地域布局特征;
行业地域布局特征训练数据确定模块,用于将所述第一行业有效训练数据与所述第二行业地域布局特征合并为行业地域布局特征训练数据;
行业布局发展预测模型训练模块,用于将所述行业地域布局特征训练数据输入预设第一神经网络,训练得到行业布局发展预测模型。
可选地,在所述行业源数据获取模块801之前,还包括:
行业训练数据获取模块,用于获取行业训练数据;
预处理行业训练数据得到模块,用于对所述行业训练数据进行预处理,得到预处理行业训练数据;所述预处理至少包括数据安全性检测、数据清洗以及数据融合;
第二行业有效训练数据确定模块,用于基于第二预设规则对所述预处理行业训练数据进行筛选,确定第二行业有效训练数据;所述第二预设规则至少包括行业整体发展变化数据和行业局部发展变化数据;
第二行业特征获取模块,用于在预设全行业数据库中获取在第二预设时间段内的第二行业特征;
行业特征训练数据获取模块,用于将所述第二行业有效训练数据与所述第二行业特征合并为行业特征训练数据;
行业发展预测模型训练模块,用于将所述行业特征训练数据输入预设第二神经网络,训练得到行业发展预测模型。
可选地,在所述行业源数据获取模块801之前,还包括:
行业训练数据获取模块,用于获取行业训练数据;
预处理行业训练数据得到模块,用于对所述行业训练数据进行预处理,得到预处理行业训练数据;所述预处理至少包括数据安全性检测、数据清洗以及数据融合;
第三行业有效训练数据获取模块,用于基于第三预设规则对所述预处理行业训练数据进行筛选,确定第三行业有效训练数据;所述第三预设规则至少包括行业投资数据、行业收益数据以及行业消费数据;
第二投资回报比值特征获取模块,用于在预设行业投资回报比值数据库中获取在第三预设时间段内的第二投资回报比值特征;
投资回报比值特征训练数据获取模块,用于将所述第三行业有效训练数据与所述第二投资回报比值合并为投资回报比值特征训练数据;
投资回报比值预测模型训练模块,用于将所述投资回报比值特征训练数据输入预设第三神经网络,训练得到投资回报比值预测模型。
本申请实施例提供的预测装置,通过获取行业源数据;对所述行业源数据进行预处理,得到预处理行业源数据;所述预处理至少包括数据安全性检测、数据清洗以及数据融合;基于第一预设规则对所述预处理行业源数据进行筛选,确定为第一行业有效数据;所述第一预设规则至少包括行业网点布局数据;在预设行业布局数据库中获取所述第一行业有效数据在第一预设时间段内的第一行业地域布局特征;将所述第一行业地域布局特征与所述第一行业有效数据进行合并,生成行业地域布局特征有效数据;将所述行业地域布局特征有效数据输入训练好的行业布局预测模型,得到行业地域布局预测值。实现了利用历史行业布局数据和行业布局数据库中的布局数据,预测今后行业布局发展趋势的目的。
本申请实施例中的预测装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personaldigital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的预测装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的预测装置能够实现图1至图3的方法实施例中预测方法实现的各个过程,为避免重复,这里不再赘述。
需要注意的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能。
示例的,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
以上对本发明所提供的一种预测方法、装置、设备及可读存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种预测方法,其特征在于,包括:
获取行业源数据;
对所述行业源数据进行预处理,得到预处理行业源数据;所述预处理至少包括数据安全性检测、数据清洗以及数据融合;
基于第一预设规则对所述预处理行业源数据进行筛选,确定为第一行业有效数据;所述第一预设规则至少包括行业网点布局数据;
在预设行业布局数据库中获取所述第一行业有效数据在第一预设时间段内的第一行业地域布局特征;
将所述第一行业地域布局特征与所述第一行业有效数据进行合并,生成行业地域布局特征有效数据;
将所述行业地域布局特征有效数据输入训练好的行业布局预测模型,得到行业地域布局预测值。
2.根据权利要求1所述的方法,其特征在于,所述对所述行业源数据进行预处理,得到预处理行业源数据之后,还包括:
基于第二预设规则对所述预处理行业源数据进行筛选,确定为第二行业有效数据;所述第二预设规则至少包括行业整体发展变化数据和行业局部发展变化数据;
在预设全行业数据库获取所述第二行业有效数据在第二预设时间段内的第一行业特征;
将所述第一行业特征与所述第二行业有效数据进行合并,生成行业特征有效数据;
将所述行业特征有效数据输入训练好的行业发展预测模型,得到行业发展预测值。
3.根据权利要求1所述的方法,其特征在于,所述对所述行业源数据进行预处理,得到预处理行业源数据之后,还包括:
基于第三预设规则对所述预处理行业源数据进行筛选,确定为第三行业有效数据;所述第三预设规则至少包括行业投资数据、行业收益数据以及行业消费数据;
在预设行业投资回报比值数据库获取所述第三行业有效数据在第三预设时间段内的第一投资回报比值特征;
将所述第一投资回报比值特征与所述第三行业有效数据进行合并,生成投资回报比值特征有效数据;
将所述投资回报比值特征有效数据输入训练好的投资回报比值预测模型,得到行业投资回报比值预测值。
4.根据权利要求1-3其中之一所述的方法,其特征在于,还包括:
在预设行业对比数据库中提取基准行业对比值;所述基准行业对比值包括基准行业发展值、基准投资回报比值和基准行业布局值其中的一项或多项;所述预设行业对比数据库至少包括东西部行业数据库和发达国家行业数据库;
将所述行业发展预测值、投资回报比值预测值和行业地域布局预测值与所述基准行业对比值进行对比,得到行业发展对比数据、投资回报比值对比数据和行业布局对比数据其中的一项或多项。
5.根据权利要求1所述的方法,其特征在于,所述获取行业源数据之前,还包括:
获取行业训练数据;
对所述行业训练数据进行预处理,得到预处理行业训练数据;
基于第一预设规则对所述预处理行业训练数据进行筛选,确定第一行业有效训练数据;
在预设行业布局数据库中获取在第一预设时间段内的第二行业地域布局特征;
将所述第一行业有效训练数据与所述第二行业地域布局特征合并为行业地域布局特征训练数据;
将所述行业地域布局特征训练数据输入预设第一神经网络,训练得到行业布局发展预测模型。
6.根据权利要求1所述的方法,其特征在于,所述获取行业源数据之前,还包括:
获取行业训练数据;
对所述行业训练数据进行预处理,得到预处理行业训练数据;
基于第二预设规则对所述预处理行业训练数据进行筛选,确定第二行业有效训练数据;
在预设全行业数据库中获取在第二预设时间段内的第二行业特征;
将所述第二行业有效训练数据与所述第二行业特征合并为行业特征训练数据;
将所述行业特征训练数据输入预设第二神经网络,训练得到行业发展预测模型。
7.根据权利要求1所述的方法,其特征在于,所述获取行业源数据之前,还包括:
获取行业训练数据;
对所述行业训练数据进行预处理,得到预处理行业训练数据;
基于第三预设规则对所述预处理行业训练数据进行筛选,确定第三行业有效训练数据;
在预设行业投资回报比值数据库中获取在第三预设时间段内的第二投资回报比值特征;
将所述第三行业有效训练数据与所述第二投资回报比值合并为投资回报比值特征训练数据;
将所述投资回报比值特征训练数据输入预设第三神经网络,训练得到投资回报比值预测模型。
8.一种预测装置,其特征在于,包括:
行业源数据获取模块,用于获取行业源数据;
预处理模块,用于对所述行业源数据进行预处理,得到预处理行业源数据;所述预处理至少包括数据安全性检测、数据清洗以及数据融合;
行业有效数据确定模块,用于基于第一预设规则对所述预处理行业源数据进行筛选,确定为第一行业有效数据;
第一行业地域布局特征确定模块,用于在预设行业布局数据库中获取所述第一行业有效数据在第一预设时间段内的第一行业地域布局特征;
行业地域布局特征有效数据确定模块,用于将所述第一行业地域布局特征与所述第一行业有效数据进行合并,生成行业地域布局特征有效数据;
行业地域布局预测值确定模块,用于将所述行业地域布局特征有效数据输入训练好的行业布局预测模型,得到行业地域布局预测值。
9.一种设备,其特征在于,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7之任一项所述的预测方法。
10.一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够实现如权利要求1-7之任一项所述的预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011628509.2A CN112700044A (zh) | 2020-12-30 | 2020-12-30 | 预测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011628509.2A CN112700044A (zh) | 2020-12-30 | 2020-12-30 | 预测方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112700044A true CN112700044A (zh) | 2021-04-23 |
Family
ID=75513372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011628509.2A Pending CN112700044A (zh) | 2020-12-30 | 2020-12-30 | 预测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112700044A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106933956A (zh) * | 2017-01-22 | 2017-07-07 | 深圳市华成峰科技有限公司 | 数据挖掘方法和装置 |
CN107464068A (zh) * | 2017-09-18 | 2017-12-12 | 前海梧桐(深圳)数据有限公司 | 基于神经网络的企业发展趋势预测方法及其系统 |
KR20190013038A (ko) * | 2017-07-31 | 2019-02-11 | 주식회사 빅트리 | 다중 특징 추출기법을 이용한 다중 시계열 데이터 추세 예측 시스템 및 예측 방법 |
CN110084493A (zh) * | 2019-04-11 | 2019-08-02 | 企家有道网络技术(北京)有限公司 | 基于人工智能的企业诊断、预测方法及装置、服务器 |
-
2020
- 2020-12-30 CN CN202011628509.2A patent/CN112700044A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106933956A (zh) * | 2017-01-22 | 2017-07-07 | 深圳市华成峰科技有限公司 | 数据挖掘方法和装置 |
KR20190013038A (ko) * | 2017-07-31 | 2019-02-11 | 주식회사 빅트리 | 다중 특징 추출기법을 이용한 다중 시계열 데이터 추세 예측 시스템 및 예측 방법 |
CN107464068A (zh) * | 2017-09-18 | 2017-12-12 | 前海梧桐(深圳)数据有限公司 | 基于神经网络的企业发展趋势预测方法及其系统 |
CN110084493A (zh) * | 2019-04-11 | 2019-08-02 | 企家有道网络技术(北京)有限公司 | 基于人工智能的企业诊断、预测方法及装置、服务器 |
Non-Patent Citations (1)
Title |
---|
邓欣伟、刘丽娜: "基于神经网络的快递业务量预测分析研究", 《辽宁经济》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10937089B2 (en) | Machine learning classification and prediction system | |
US10339484B2 (en) | System and method for performing signal processing and dynamic analysis and forecasting of risk of third parties | |
US8533537B2 (en) | Technology infrastructure failure probability predictor | |
US8230268B2 (en) | Technology infrastructure failure predictor | |
US8359284B2 (en) | Organization-segment-based risk analysis model | |
CN110458324B (zh) | 风险概率的计算方法、装置和计算机设备 | |
CN113627566A (zh) | 一种网络诈骗的预警方法、装置和计算机设备 | |
CN114997916A (zh) | 潜在用户的预测方法、系统、电子设备和存储介质 | |
CN115358481A (zh) | 一种企业外迁预警识别的方法、系统及装置 | |
CN112990989A (zh) | 价值预测模型输入数据生成方法、装置、设备和介质 | |
CN113256325A (zh) | 二手车估价方法、系统、计算设备和存储介质 | |
US20210142233A1 (en) | Systems and methods for process mining using unsupervised learning | |
CN116843483A (zh) | 一种车险理赔方法、装置、计算机设备及存储介质 | |
WO2012030419A1 (en) | Organization resource allocation based on forecasted change outcomes | |
CN116501979A (zh) | 信息推荐方法、装置、计算机设备及计算机可读存储介质 | |
CN116739764A (zh) | 一种基于机器学习的交易风险检测方法、装置、设备及介质 | |
CN116187675A (zh) | 任务分配方法、装置、设备及存储介质 | |
CN115907898A (zh) | 对再保客户进行金融产品推荐的方法及其相关设备 | |
US11922352B1 (en) | System and method for risk tracking | |
CN112700044A (zh) | 预测方法和装置 | |
CN114548463A (zh) | 线路信息预测方法、装置、计算机设备和存储介质 | |
US20200342302A1 (en) | Cognitive forecasting | |
CN112506930A (zh) | 一种基于机器学习技术的数据洞察平台 | |
CN118195280B (zh) | 基于集成嵌套模型的整合式任务调度方法、系统及装置 | |
CN114139716A (zh) | 数据模型导出方法及数据建模平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210423 |