CN116450708A - 一种企业数据挖掘方法及系统 - Google Patents
一种企业数据挖掘方法及系统 Download PDFInfo
- Publication number
- CN116450708A CN116450708A CN202310691640.0A CN202310691640A CN116450708A CN 116450708 A CN116450708 A CN 116450708A CN 202310691640 A CN202310691640 A CN 202310691640A CN 116450708 A CN116450708 A CN 116450708A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- associated output
- time
- input
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007418 data mining Methods 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012544 monitoring process Methods 0.000 claims abstract description 15
- 238000012216 screening Methods 0.000 claims description 18
- 238000005065 mining Methods 0.000 claims description 13
- 238000013075 data extraction Methods 0.000 claims description 6
- 238000012913 prioritisation Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 238000007405 data analysis Methods 0.000 abstract description 4
- 238000007726 management method Methods 0.000 abstract description 4
- 238000004519 manufacturing process Methods 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 9
- 239000000463 material Substances 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000005314 correlation function Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Game Theory and Decision Science (AREA)
- Fuzzy Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及企业数据分析领域,具体涉及一种企业数据挖掘方法及系统。其中,所述企业数据挖掘方法包括如下步骤:确定企业端的可操作变量,并记录所述可操作变量的输入量;定义关联输出量,并根据所述关联输出量的定义获得对应数据;通过所述输入量和所述关联输出量,量化所述可操作变量相对所述关联输出量的权重;根据所述权重,生成企业端可操作变量记录模板;利用企业端可操作变量记录模板实时监控输入量和关联输出量;根据实时监控结果,定期更新企业端可操作变量记录模板。本发明所提供企业数据挖掘方法充分挖掘并分析了企业自身自产的数据价值,有助于企业运营风险的预测及控制,可以更好辅助企业管理人员部署对应的企业战略计划。
Description
技术领域
本发明涉及企业数据分析领域,具体涉及一种企业数据挖掘方法及系统。
背景技术
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。随着数据产业快速发展,数据挖掘作为一种商业信息处理技术,也随着科技进步在不断迭代更新,以从海量数据中更快更精准地捕获具有商业价值的信息。数据挖掘主要包含数据准备、规律寻找和规律表示三个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。
当今,许多数据挖掘软件都是针对企业客户的需求而设计的。这些软件通过挖掘客户数据,如需求和兴趣等,来帮助企业制定相应的战略计划。然而,这些软件忽略了企业自身所产生的数据的挖掘和分析,这些数据可能包括销售记录、生产过程数据、库存情况等等,这些数据对于企业运营的分析和决策也是非常重要的。相对于仅仅依靠客户数据结合企业管理人员的主观经验来制定战略计划,更好地挖掘和分析企业自身数据,可以帮助企业更准确地预测和控制运营风险,并且更好地优化企业运营。因此,对于企业而言,合理利用自身的数据资源是非常重要的。
发明内容
针对现有技术的不足以及实际需求,为协助企业更好地挖掘与分析企业自身自产数据的数据价值,第一方面,本发明提供了一种企业数据挖掘方法,所述企业数据挖掘方法包括如下步骤:确定企业端的可操作变量,并记录所述可操作变量的输入量;定义关联输出量,并根据所述关联输出量的定义获得对应数据;通过所述输入量和所述关联输出量,量化所述可操作变量相对所述关联输出量的权重;根据所述权重,生成企业端可操作变量记录模板;利用企业端可操作变量记录模板实时监控输入量和关联输出量;根据实时监控结果,定期更新企业端可操作变量记录模板。本发明通过收集并跟踪企业端可操作变量随时间变化的量化数据,以企业利益相关的关联输出量作为可操作变量影响企业发展的正负向判定基础,实现对企业自身自产数据的挖掘与分析;同时,通过权重量化各个可操作变量相对关联输出量的侧重度,分别获得具有优先度排序的企业端可操作变量记录模板,通过企业端可操作变量记录模板有助于企业管理人员及时掌握当前企业状态、预测企业运营走向,以及部署对应的企业战略计划。本发明所提供企业数据挖掘方法实现了企业自身自产数据价值的充分挖掘与分析,并且有助于获得企业运营风险的预测及控制的相关数据,以更好辅助企业管理人员部署对应的企业战略计划。
可选地,所述关联输出量包括用户端数据和/或企业端数据。
可选地,所述通过所述输入量和所述关联输出量,量化所述可操作变量相对所述关联输出量的权重,包括如下步骤:确定数据挖掘的时间起点与终点,并在所述时间起点与终点内划分时长尺度;提取任一时长尺度内的输入量和关联输出量,并拟合任一输入量与任一关联输出量的相关系数;利用所述相关系数,判定所述输入量与所述关联输出量的相关性;根据所述相关性,分别汇总所述关联输出量对应的正相关输入量和负相关输入量;以任一关联输出量对应的所有负相关输入量为基础,添加所述关联输出量对应的正相关输入量以拟合所述关联输出量;根据拟合结果,获得所述输入量对应的可操作变量相对所述关联输出量的权重。
进一步可选地,所述在所述时间起点与终点内划分时长尺度,所述在所述时间起点与终点内划分时长尺度,包括如下步骤:令时间起点与终点分别为与/>,并设定时长尺度为/>;设定时长尺度/>内数据抽取次数/>,并利用所述数据抽取次数/>获得交叉时长尺度/>,所述交叉时长尺度/>满足如下公式:/>,其中,/>表示交叉时长尺度补偿系数;结合所述时长尺度/>与所述交叉时长尺度/>,划分时间起点/>至终点/>内的时长。
进一步可选地,所述以任一关联输出量对应的所有负相关输入量为基础,添加所述关联输出量对应的正相关输入量以拟合所述关联输出量,包括如下步骤:搭建关联输出量拟合模型,所述关联输出量拟合模型满足如下公式:,其中,/>表示任一输入量在时长尺度内的均值,/>表示输入量均值/>在时长尺度内的实际输入值,/>表示输入量均值/>在时长尺度内实际输入值/>的数量,/>表示任一关联输出量在时长尺度内的均值,/>表示关联输出量均值/>在时长尺度内的实际输出值,/>表示关联输出量均值/>在时长尺度内的实际输出值/>的数量,/>,/>表示关联输出量均值/>对应的所有负相关输入量的数量,/>表示第/>个负相关输入量在时长尺度内的均值,/>表示第/>个负相关输入量在时长尺度内与关联输出量的相关系数,/>,/>表示用于拟合关联输出量均值/>的正相关输入量的数量,/>表示第/>个正相关输入量在时长尺度内的均值,/>表示第/>个正相关输入量在时长尺度内与关联输出量的相关系数,/>表示关联输出量拟合误差裕度;利用所述关联输出量拟合模型,获得多组输入量权重组合;设定筛选条件,并根据所述筛选条件在多组输入量权重组合中筛选出拟合结果。
进一步可选地,所述筛选条件满足如下公式:,其中,/>表示序号为/>的关联输出量,/>表示用于拟合关联输出量/>并满足筛选条件的输入量权重组合,/>表示输入量种类数量,/>表示第/>种输入量在时长尺度内实际输入值的均值,/>表示第/>种输入量在时长尺度内与关联输出量的相关系数,/>表示用于拟合关联输出量/>的正相关输入量的数量。
进一步可选地,所述根据拟合结果,获得所述输入量对应的可操作变量相对所述关联输出量的权重,包括如下步骤:汇总各段时长尺度内的拟合结果;通过均值化各段时长尺度内同一输入量的相关系数,搭建关联输出量权重输出模型,所述关联输出量权重输出模型满足如下公式:,其中,/>表示关联输出量/>的关联输出量权重向量,/>表示在时间起点/>至终点/>内划分的时长尺度的数量,/>表示满足筛选条件的第/>种输入量与关联输出量的相关系数,/>表示各段时长尺度内/>的总和;利用所述关联输出量权重输出模型,获得可操作变量相对所述关联输出量的权重。
可选地,所述根据所述权重,生成企业端可操作变量记录模板,包括如下步骤:提取任一关联输出量对应的各个可操作变量的权重;根据所述权重的绝对值大小,将所述可操作变量进行优先度排序;根据优先度排序结果,生成所述可操作变量的企业端可操作变量记录模板。
进一步可选地,所述根据实时监控结果,定期更新企业端可操作变量记录模板,包括如下步骤:根据实时监控可操作变量的输入量和对应的关联输出量,更新关联输出量对应的各项可操作变量的权重;根据更新后各项可操作变量的权重,对企业端可操作变量记录模板中可操作变量重新优先度排序。
第二方面,为能够高效地执行本发明所提供的企业数据挖掘方法,本发明还提供了一种企业数据挖掘系统,所述企业数据挖掘统包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行第一方面所提供的企业数据挖掘方法。本发明的企业数据挖掘系统,结构紧凑、性能稳定,能够高效地执行本发明的企业数据挖掘方法,提升本发明整体适用性和实际应用能力。
附图说明
图1为本发明的企业数据挖掘方法流程图;
图2为本发明的实施例中的可选的实施例中步骤S03的方法流程图;
图3为本发明的实施例中的时长尺度划分示意图;
图4为本发明的企业数据挖掘系统结构图。
具体实施方式
下面将详细描述本发明的具体实施例,应当注意,这里描述的实施例只用于举例说明,并不用于限制本发明。在以下描述中,为了提供对本发明的透彻理解,阐述了大量特定细节。然而,对于本领域普通技术人员显而易见的是:不必采用这些特定细节来实行本发明。在其他实例中,为了避免混淆本发明,未具体描述公知的电路,软件或方法。
在整个说明书中,对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着:结合该实施例或示例描述的特定特征、结构或特性被包含在本发明至少一个实施例中。因此,在整个说明书的各个地方出现的短语“在一个实施例中”、“在实施例中”、“一个示例”或“示例”不一定都指同一实施例或示例。此外,可以以任何适当的组合和、或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外,本领域普通技术人员应当理解,在此提供的示图都是为了说明的目的,并且示图不一定是按比例绘制的。
请参见图1,在一个可选的实施例中,为实现企业自身自产数据的挖掘与分析,以辅助企业管理人员更好地部署企业战略计划,本发明实施例所提供的一种企业数据挖掘方法,包括如下步骤:
S01、确定企业端的可操作变量,并记录所述可操作变量的输入量。
应当理解,上述企业端的可操作变量表示企业投入的能以货币计量或者数字量化的资产,例如人力资源、设施设备等固定资产、物料投入等存货资产。步骤S01所述的记录所述可操作变量的输入量,即将可操作性变量量化后对应的数据以纸质文件或者电子文件等方式进行存储记录。进一步地,所述企业端包括单一企业以及由相同行业下的多个企业组成的整体企业。
同时,应当理解,可操作变量的种类包括一种或者多种。具体地,纳入本发明数据挖掘对象的可操作变量,可根据企业需求进行设定。在一个可选的实施例中,某企业连续3月的人力资源以及物料投入变动明显,将人力资源投入以及物料投入作为可操作变量,并以电子文件的方式记录上述连续3月内可操作变量量化后对应的数据。在又一个可选的实施例中,某同行业内5家企业连续3月的人力资源以及物料投入变动明显,将上述5家企业作为整体企业,将对应的人力资源投入以及物料投入作为可操作变量,并以电子文件的方式记录上述连续3月内整体企业/>的可操作变量量化后对应的数据,对应数据记录模板包括以下表征矩阵:
;
其中,,/>表示企业总数量,/>表示企业编号,/>表示第/>个企业的可操作变量向量,/>表示第/>个企业的可操作变量向量对应的数据特征值,/>表示向量/>的转置运算,在本实施例中,/>。
S02、定义关联输出量,并根据所述关联输出量的定义获得对应数据。
关联输出量是输入量影响企业发展的正负向判定基础,所述关联输出量包括用户端数据和/或企业端数据,其中,用户端数据包括用户总量、新增用户数量、用户退订数量等用户端可量化数据,企业端数据包括企业财务效益数据、企业资产运营数据等企业端可量化数据。
需要注意的是,这些企业端的数据不包括步骤S01中所述的企业端的可操作变量量化后对应的数据。这些关联输出量的定义将被用于获得对应的数据,并作为可操作变量的依据。通过这个步骤,我们能够建立起关联输出量和可操作变量之间的联系,从而更好地挖掘和分析企业自身自产数据的价值。
S03、通过所述输入量和所述关联输出量,量化所述可操作变量相对所述关联输出量的权重。
步骤S03中利用同时间段内变化的输入量和关联输出量,获得任一输入量和任一关联输出量之间的相关程度,通过两者间相关程度可量化输入量对应可操作变量相对所述关联输出量的权重。
一般情况下,输入量和关联输出量两者对应的数据均为离散数据,在同时间段内,通过输入量和关联输出量对应的离散数据,分别拟合输入量函数以及关联输出量函数/>;设定抽样频率,根据抽样频率在同段时间内分别对输入量函数以及关联输出量函数/>进行数据抽样,获得输入量序列以及关联输出量序列/>;利用输入量序列/>以及关联输出量序列/>,获得两者间相关系数。
具体地,相关系数可通过MATLAB编写对应分析语句,输入对应数据获得;也可将输入量序列以及对应的关联输出量序列/>输入Excel内,使用相关性函数CORREL获得。
对于一些大型企业来说,数据源多,数据量大,容易在数据挖掘初期产生错误数据;同时,由于企业实际运营中存在不确定因素,输入量或者关联输出量中无效的突变数据也普遍存在。
为进一步减小错误数据或者突变数据对量化结果的影响,请参见图2,在一个可选的实施例中,步骤S03所述的通过所述输入量和所述关联输出量,量化所述可操作变量相对所述关联输出量的权重,包括如下步骤:
S031、确定数据挖掘的时间起点与终点,并在所述时间起点与终点内划分时长尺度。
应当理解,步骤S031中在时间起点与终点内划分的时长尺度,应当满足各个时长尺度的总和大于或者等于时间起点至终点的总时间。各个时长尺度的总和等于时间起点至终点的总时间时,由于在各个时长尺度内均进行了数据挖掘工作,这在一定程度保证数据的全面性。
为进一步挖掘数据之间的联系,获得更有参考价值、更高精度的量化权重,在本实施例中,划分出的各个时长尺度的总和大于时间起点至终点的总时间。
具体地,所述在所述时间起点与终点内划分时长尺度,包括如下步骤:
S0311、令时间起点与终点分别为与,并设定时长尺度为/>。
S0312、设定时长尺度内数据抽取次数/>,并利用所述数据抽取次数/>获得交叉时长尺度/>,所述交叉时长尺度/>满足如下公式:/>,其中,/>表示交叉时长尺度补偿系数,/>取值为正整数。
S0313、结合所述时长尺度与所述交叉时长尺度/>,划分时间起点/>至终点/>内的时长。
请参见图3,基于步骤S0311至步骤S0312,上述设定的时长尺度,满足如下规律:第1段时长尺度为,第2段时长尺度为/>。同理类推,第/>段时长尺度为/>,同理类推,最后一段时长尺度为/>。
S032、提取任一时长尺度内的输入量和关联输出量,并拟合任一输入量与任一关联输出量的相关系数。
步骤S032中拟合任一输入量与任一关联输出量的相关系数,可通过上述获得相关系数的方法,结合MATLAB、Excel等工具快速实现。
S033、利用所述相关系数,判定所述输入量与所述关联输出量的相关性。
在本实施例中,通过相关系数的正负性来判定输入量与关联输出量的相关性,即当相关系数为正值时,输入量为正相关输入量;当相关系数为负值时,输入量为负相关输入量。进一步地,为减少后续数据处理量以提升数据分析效率,在本实施例中,设定无关输入量阈值以消除相对于关联输出量相关性较弱或者无关的输入量。
S034、根据所述相关性,分别汇总所述关联输出量对应的正相关输入量和负相关输入量。
应当理解,上述正相关输入量和负相关输入量的总数量小于或者等于输入量的总数量;并且在此步骤中,剔除了相对于关联输出量相关性较弱或者无关的输入量,有助于后续数据分析效率的提升。
S035、以任一关联输出量对应的所有负相关输入量为基础,添加所述关联输出量对应的正相关输入量以拟合所述关联输出量。
在本实施例中,步骤S035所述的以任一关联输出量对应的所有负相关输入量为基础,添加所述关联输出量对应的正相关输入量以拟合所述关联输出量,包括如下步骤:
S0351、搭建关联输出量拟合模型,所述关联输出量拟合模型满足如下公式:,其中,/>表示任一输入量在时长尺度内的均值,/>表示输入量均值/>在时长尺度内的实际输入值,/>表示输入量均值/>在时长尺度内实际输入值/>的数量,/>表示任一关联输出量在时长尺度内的均值,/>表示关联输出量均值/>在时长尺度内的实际输出值,/>表示关联输出量均值/>在时长尺度内的实际输出值/>的数量,/>,/>表示关联输出量均值/>对应的所有负相关输入量的数量,/>表示第/>个负相关输入量在时长尺度内的均值,/>表示第/>个负相关输入量在时长尺度内与关联输出量的相关系数,/>,/>表示用于拟合关联输出量均值/>的正相关输入量的数量,/>表示第/>个正相关输入量在时长尺度内的均值,/>表示第/>个正相关输入量在时长尺度内与关联输出量的相关系数,/>表示关联输出量拟合误差裕度。
S0352、利用所述关联输出量拟合模型,获得多组输入量权重组合。
应当理解,满足关联输出量拟合模型的输入量权重组合包括一种或者多种,当输入量权重组合只有一种时,不再继续设定筛选条件进行筛选,即唯一的输入量权重组合为拟合结果。当输入量权重组合有多种时,根据企业战略布局趋向,进行筛选条件的设定。
S0353、设定筛选条件,并根据所述筛选条件在多组输入量权重组合中筛选出拟合结果。
在一个可选的实施例中,企业趋向于通过调整最少项的可操作变量的投入,达到稳定现有关联输出量的效果,设定的筛选条件满足如下公式:,其中,/>表示序号为/>的关联输出量,/>表示用于拟合关联输出量/>并满足筛选条件的输入量权重组合,/>表示输入量种类数量,/>表示第/>种输入量在时长尺度内实际输入值的均值,/>表示第/>种输入量在时长尺度内与关联输出量的相关系数,/>表示用于拟合关联输出量/>的正相关输入量的数量。进一步地,表征求取/>数量对应的数值。/>表示最小数值对应的数量/>。
本实施例中,筛选条件表示拟合关联输出量的正相关输入量数量最小时对应的输入量权重组合即为拟合结果。
S036、根据拟合结果,获得所述输入量对应的可操作变量相对所述关联输出量的权重。
在本实施例中,步骤S036所述的根据拟合结果,获得所述输入量对应的可操作变量相对所述关联输出量的权重,包括如下步骤:汇总各段时长尺度内的拟合结果;搭建关联输出量权重输出模型,并利用所述关联输出量权重输出模型获得可操作变量相对所述关联输出量的权重。
进一步地,通过均值化各段时长尺度内同一输入量的相关系数搭建关联输出量权重输出模型,所述关联输出量权重输出模型满足如下公式:,其中,/>表示关联输出量/>的关联输出量权重向量,/>表示在时间起点/>至终点/>内划分的时长尺度的数量,/>表示满足筛选条件的第/>种输入量与关联输出量的相关系数,表示各段时长尺度内/>的总和。
本发明通过步骤S031至步骤S036所述的方法,通过输入量和关联输出量,可快速实现可操作变量相对关联输出量的权重的精准量化。
S04、根据所述权重,生成企业端可操作变量记录模板。
上述企业端可操作变量记录模板为根据权重设定了抓取数据和展示的优先度的可操作变量目录,其中,抓取数据包括根据可操作变量目录依次抓取可操作变量对应的输入数据,展示的内容包括可操作变量对应的当前输入量、当前输入量与所述关联输出量的相关性以及权重值。
应该理解,步骤S04中企业端可操作变量记录模板的数量与步骤S02中定义的关联输出量的数量一致。在一个可选的实施例中,步骤S02中定义的关联输出量有2个,则步骤S04中生成的企业端可操作变量记录模板有两份,两份企业端可操作变量记录模板分别针对步骤S02中定义的两个关联输出量。
在一个可选的实施例中,步骤S04所述的根据所述权重,生成企业端可操作变量记录模板,包括如下步骤:提取任一关联输出量对应的各个可操作变量的权重;根据所述权重的绝对值大小,将所述可操作变量进行优先度排序;根据优先度排序结果,生成所述可操作变量的企业端可操作变量记录模板。
即在本实施例中,首先,从步骤S03中所得到的权重值中,提取出任意一个关联输出量所对应的各个可操作变量的权重值。然后,根据各个可操作变量的权重值的绝对值大小,将它们进行优先度排序,以便确定哪些变量对于企业的影响最大。最后,根据优先度排序的结果,生成企业端可操作变量记录模板,该模板以排名最高的可操作变量为主要关注点,以此类推排列其他可操作变量,供企业管理人员在实时监控和分析中使用。
S05、利用企业端可操作变量记录模板实时监控输入量和关联输出量。
步骤S05可通过现有技术,例如数据爬取技术,实现通过企业端可操作变量记录模板中可操作变量目录顺序,在企业内部数据库或者资料库中进行实时数据爬取。
S06、根据实时监控结果,定期更新企业端可操作变量记录模板。
应该理解,所述根据实时监控结果,定期更新企业端可操作变量记录模板,包括如下步骤:根据实时监控可操作变量的输入量和对应的关联输出量,更新关联输出量对应的各项可操作变量的权重;根据更新后各项可操作变量的权重,对企业端可操作变量记录模板中可操作变量重新优先度排序。其中,各项可操作变量的权重的获取,可通过上述步骤S03所述的方法实现。
本发明通过收集并跟踪企业端可操作变量随时间变化的量化数据,以企业利益相关的关联输出量作为可操作变量影响企业发展的正负向判定基础,实现对企业自身自产数据的挖掘与分析;同时,通过权重量化各个可操作变量相对关联输出量的侧重度,分别获得各个关联输出量的企业端可操作变量记录模板,通过企业端可操作变量记录模板有助于企业管理人员及时掌握当前企业状态、预测企业运营走向,以及部署对应的企业战略计划。
本发明所提供企业数据挖掘方法实现了企业自身自产数据价值充分挖掘与分析,并且有助于获得企业运营风险的预测及控制的相关数据,以更好辅助企业管理人员部署对应的企业战略计划。应当理解,本发明所提供企业数据挖掘方法,不仅局限于对单一企业自身自产数据价值充分挖掘与分析,还可将同行业的多个企业作为整体企业,横向挖掘整体企业内可操作变量的数据价值,有助于企业相关人员对整体企业运营情况进行把控和分析。
请参见图4,为能够高效地执行本发明所提供的企业数据挖掘方法,本发明还提供了一种企业数据挖掘系统。所述企业数据挖掘统包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行第一方面所提供的企业数据挖掘方法。本发明的企业数据挖掘系统,结构紧凑、性能稳定,能够高效地执行本发明的企业数据挖掘方法,提升本发明整体适用性和实际应用能力。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
Claims (10)
1.一种企业数据挖掘方法,其特征在于,所述企业数据挖掘方法包括如下步骤:
确定企业端的可操作变量,并记录所述可操作变量的输入量;
定义关联输出量,并根据所述关联输出量的定义获得对应数据;
通过所述输入量和所述关联输出量,量化所述可操作变量相对所述关联输出量的权重;
根据所述权重,生成企业端可操作变量记录模板;
利用企业端可操作变量记录模板实时监控输入量和关联输出量;
根据实时监控结果,定期更新企业端可操作变量记录模板。
2.根据权利要求1所述的企业数据挖掘方法,其特征在于,所述关联输出量包括用户端数据和/或企业端数据。
3.根据权利要求1所述的企业数据挖掘方法,其特征在于,所述通过所述输入量和所述关联输出量,量化所述可操作变量相对所述关联输出量的权重,包括如下步骤:
确定数据挖掘的时间起点与终点,并在所述时间起点与终点内划分时长尺度;
提取任一时长尺度内的输入量和关联输出量,并拟合任一输入量与任一关联输出量的相关系数;
利用所述相关系数,判定所述输入量与所述关联输出量的相关性;
根据所述相关性,分别汇总所述关联输出量对应的正相关输入量和负相关输入量;
以任一关联输出量对应的所有负相关输入量为基础,添加所述关联输出量对应的正相关输入量以拟合所述关联输出量;
根据拟合结果,获得所述输入量对应的可操作变量相对所述关联输出量的权重。
4.根据权利要求3所述的企业数据挖掘方法,其特征在于,所述在所述时间起点与终点内划分时长尺度,包括如下步骤:
令时间起点与终点分别为与/>,并设定时长尺度为/>;
设定时长尺度内数据抽取次数/>,并利用所述数据抽取次数/>获得交叉时长尺度/>,所述交叉时长尺度/>满足如下公式:/>,其中,/>表示交叉时长尺度补偿系数;
结合所述时长尺度与所述交叉时长尺度/>,划分时间起点/>至终点/>内的时长。
5.根据权利要求4所述的企业数据挖掘方法,其特征在于,所述以任一关联输出量对应的所有负相关输入量为基础,添加所述关联输出量对应的正相关输入量以拟合所述关联输出量,包括如下步骤:
搭建关联输出量拟合模型,所述关联输出量拟合模型满足如下公式:
,
其中,表示任一输入量在时长尺度内的均值,/>表示输入量均值/>在时长尺度内的实际输入值,/>表示输入量均值/>在时长尺度内实际输入值/>的数量,/>表示任一关联输出量在时长尺度内的均值,/>表示关联输出量均值/>在时长尺度内的实际输出值,/>表示关联输出量均值/>在时长尺度内的实际输出值/>的数量,/>,/>表示关联输出量均值/>对应的所有负相关输入量的数量,/>表示第/>个负相关输入量在时长尺度内的均值,/>表示第/>个负相关输入量在时长尺度内与关联输出量的相关系数,/>,/>表示用于拟合关联输出量均值/>的正相关输入量的数量,/>表示第/>个正相关输入量在时长尺度内的均值,/>表示第/>个正相关输入量在时长尺度内与关联输出量的相关系数,/>表示关联输出量拟合误差裕度;
利用所述关联输出量拟合模型,获得多组输入量权重组合;
设定筛选条件,并根据所述筛选条件在多组输入量权重组合中筛选出拟合结果。
6.根据权利要求5所述的企业数据挖掘方法,其特征在于,所述筛选条件满足如下公式:
,
其中,表示序号为/>的关联输出量,/>表示用于拟合关联输出量/>并满足筛选条件的输入量权重组合,/>表示输入量种类数量,/>表示第/>种输入量在时长尺度内实际输入值的均值,/>表示第/>种输入量在时长尺度内与关联输出量的相关系数,/>表示用于拟合关联输出量/>的正相关输入量的数量。
7.根据权利要求6所述的企业数据挖掘方法,其特征在于,所述根据拟合结果,获得所述输入量对应的可操作变量相对所述关联输出量的权重,包括如下步骤:
汇总各段时长尺度内的拟合结果;
通过均值化各段时长尺度内同一输入量的相关系数,搭建关联输出量权重输出模型,所述关联输出量权重输出模型满足如下公式:
,
其中,表示关联输出量/>的关联输出量权重向量,/>表示在时间起点/>至终点/>内划分的时长尺度的数量,/>表示满足筛选条件的第/>种输入量与关联输出量的相关系数,/>表示各段时长尺度内/>的总和;
利用所述关联输出量权重输出模型,获得可操作变量相对所述关联输出量的权重。
8.根据权利要求1所述的企业数据挖掘方法,其特征在于,所述根据所述权重,生成企业端可操作变量记录模板,包括如下步骤:
提取任一关联输出量对应的各个可操作变量的权重;
根据所述权重的绝对值大小,将所述可操作变量进行优先度排序;
根据优先度排序结果,生成所述可操作变量的企业端可操作变量记录模板。
9.根据权利要求8所述的企业数据挖掘方法,其特征在于,所述根据实时监控结果,定期更新企业端可操作变量记录模板,包括如下步骤:
根据实时监控可操作变量的输入量和对应的关联输出量,更新关联输出量对应的各项可操作变量的权重;
根据更新后各项可操作变量的权重,对企业端可操作变量记录模板中可操作变量重新优先度排序。
10.一种企业数据挖掘系统,其特征在于,所述企业数据挖掘统包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1至9中任一项所述的企业数据挖掘方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310691640.0A CN116450708B (zh) | 2023-06-13 | 2023-06-13 | 一种企业数据挖掘方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310691640.0A CN116450708B (zh) | 2023-06-13 | 2023-06-13 | 一种企业数据挖掘方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116450708A true CN116450708A (zh) | 2023-07-18 |
CN116450708B CN116450708B (zh) | 2023-09-01 |
Family
ID=87132346
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310691640.0A Active CN116450708B (zh) | 2023-06-13 | 2023-06-13 | 一种企业数据挖掘方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116450708B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020026432A1 (en) * | 1997-01-25 | 2002-02-28 | Junichi Kiji | Adjustment rule generating method, adjustment rule generating apparatus, adjustment control method, and adjustment control apparatus |
JP2010282547A (ja) * | 2009-06-08 | 2010-12-16 | Fuji Electric Systems Co Ltd | 入力変数選択支援装置 |
US20180240138A1 (en) * | 2017-02-22 | 2018-08-23 | Qualtrics, Llc | Generating and presenting statistical results for electronic survey data |
CN109285075A (zh) * | 2017-07-19 | 2019-01-29 | 腾讯科技(深圳)有限公司 | 一种理赔风险评估方法、装置及服务器 |
CN109492945A (zh) * | 2018-12-14 | 2019-03-19 | 深圳壹账通智能科技有限公司 | 企业风险识别监控方法、装置、设备及存储介质 |
CN112312496A (zh) * | 2020-10-15 | 2021-02-02 | 山东科技大学 | 一种基于神经网络多属性判决的垂直切换方法 |
US20210343393A1 (en) * | 2018-10-15 | 2021-11-04 | Shinshu University | Health management system |
WO2022141883A1 (zh) * | 2020-12-31 | 2022-07-07 | 平安科技(深圳)有限公司 | 企业营收趋势的预测方法、装置、计算机设备及存储介质 |
CN115567404A (zh) * | 2022-08-16 | 2023-01-03 | 国网天津市电力公司信息通信公司 | 一种电力网络数字潮流流量预测方法 |
CN115907088A (zh) * | 2022-10-25 | 2023-04-04 | 上海电享信息科技有限公司 | 基于多种人工算法融合的微电网负荷预测方法及装置 |
-
2023
- 2023-06-13 CN CN202310691640.0A patent/CN116450708B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020026432A1 (en) * | 1997-01-25 | 2002-02-28 | Junichi Kiji | Adjustment rule generating method, adjustment rule generating apparatus, adjustment control method, and adjustment control apparatus |
JP2010282547A (ja) * | 2009-06-08 | 2010-12-16 | Fuji Electric Systems Co Ltd | 入力変数選択支援装置 |
US20180240138A1 (en) * | 2017-02-22 | 2018-08-23 | Qualtrics, Llc | Generating and presenting statistical results for electronic survey data |
CN109285075A (zh) * | 2017-07-19 | 2019-01-29 | 腾讯科技(深圳)有限公司 | 一种理赔风险评估方法、装置及服务器 |
US20210343393A1 (en) * | 2018-10-15 | 2021-11-04 | Shinshu University | Health management system |
CN109492945A (zh) * | 2018-12-14 | 2019-03-19 | 深圳壹账通智能科技有限公司 | 企业风险识别监控方法、装置、设备及存储介质 |
CN112312496A (zh) * | 2020-10-15 | 2021-02-02 | 山东科技大学 | 一种基于神经网络多属性判决的垂直切换方法 |
WO2022141883A1 (zh) * | 2020-12-31 | 2022-07-07 | 平安科技(深圳)有限公司 | 企业营收趋势的预测方法、装置、计算机设备及存储介质 |
CN115567404A (zh) * | 2022-08-16 | 2023-01-03 | 国网天津市电力公司信息通信公司 | 一种电力网络数字潮流流量预测方法 |
CN115907088A (zh) * | 2022-10-25 | 2023-04-04 | 上海电享信息科技有限公司 | 基于多种人工算法融合的微电网负荷预测方法及装置 |
Non-Patent Citations (3)
Title |
---|
WALAA HUSSEIN IBRAHIM等: "MRI brain image classification using neural networks", 《2013 INTERNATIONAL CONFERENCE ON COMPUTING,ELECTRICAL AND ELECTRONIC ENGINEERING》, pages 1 - 7 * |
王洪勋: "基于自适应nonnegative garrote的神经网络软测量算法研究及应用", 《中国优秀硕士学位论文全文数据库 工程科技I辑》, pages 027 - 75 * |
邵翠娣等: "基于风险监测模型的南京市企业风险的实证分析", 《经济师》, no. 5, pages 118 - 120 * |
Also Published As
Publication number | Publication date |
---|---|
CN116450708B (zh) | 2023-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102044205B1 (ko) | 빅데이터와 기계학습을 이용한 타겟 정보 예측 시스템 및 예측 방법 | |
CN110738564A (zh) | 贷后风险评估方法及装置、存储介质 | |
KR101802866B1 (ko) | 빅데이터와 기계학습을 이용한 타겟 정보 예측 시스템 및 예측 방법 | |
CN113326198B (zh) | 一种代码缺陷状态确定方法、装置、电子设备及介质 | |
US20240346531A1 (en) | Systems and methods for business analytics model scoring and selection | |
CN111199469A (zh) | 用户还款模型生成方法、装置及电子设备 | |
CN111210332A (zh) | 贷后管理策略生成方法、装置及电子设备 | |
CN109977977B (zh) | 一种识别潜在用户的方法及对应装置 | |
CN118037440B (zh) | 一种综合信贷系统的授信数据处理方法及系统 | |
CN117453764A (zh) | 一种数据挖掘分析方法 | |
CN114092230A (zh) | 一种数据处理方法、装置、电子设备及计算机可读介质 | |
CN114004691A (zh) | 基于融合算法的额度评分方法、装置、设备及存储介质 | |
CN112860672A (zh) | 标签权重的确定方法和装置 | |
CN116911994B (zh) | 对外贸易风险预警系统 | |
CA3160715A1 (en) | Systems and methods for business analytics model scoring and selection | |
CN116450708B (zh) | 一种企业数据挖掘方法及系统 | |
CN112884301A (zh) | 企业风险分析的方法、设备及计算机存储介质 | |
US11227288B1 (en) | Systems and methods for integration of disparate data feeds for unified data monitoring | |
US20190205804A1 (en) | Information processing device, information processing method and computer readable medium | |
US20230419195A1 (en) | System and Method for Hierarchical Factor-based Forecasting | |
CN113298120B (zh) | 基于融合模型的用户风险预测方法、系统和计算机设备 | |
CN113837807A (zh) | 热度预测方法、装置、电子设备及可读存储介质 | |
CN112990761A (zh) | 一种选择目标企业方法及系统 | |
CN114548620A (zh) | 物流准时保业务推荐方法、装置、计算机设备和存储介质 | |
JP2020052691A (ja) | 工数分析システム及びそのデータ構造 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |