CN112766981A - 一种基于机器学习的商圈树构建方法及系统 - Google Patents
一种基于机器学习的商圈树构建方法及系统 Download PDFInfo
- Publication number
- CN112766981A CN112766981A CN202011610584.6A CN202011610584A CN112766981A CN 112766981 A CN112766981 A CN 112766981A CN 202011610584 A CN202011610584 A CN 202011610584A CN 112766981 A CN112766981 A CN 112766981A
- Authority
- CN
- China
- Prior art keywords
- data
- training
- business circle
- evaluation model
- preprocessed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 39
- 238000010801 machine learning Methods 0.000 title claims abstract description 24
- 238000013210 evaluation model Methods 0.000 claims abstract description 68
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000005516 engineering process Methods 0.000 claims abstract description 29
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims description 64
- 238000012545 processing Methods 0.000 claims description 23
- 238000012360 testing method Methods 0.000 claims description 18
- 238000012795 verification Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000003066 decision tree Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 238000010200 validation analysis Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 20
- 230000008901 benefit Effects 0.000 abstract description 10
- 238000011144 upstream manufacturing Methods 0.000 abstract description 9
- 238000007670 refining Methods 0.000 abstract description 3
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000012797 qualification Methods 0.000 description 6
- 238000004140 cleaning Methods 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000010219 correlation analysis Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000000546 chi-square test Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Data Mining & Analysis (AREA)
- Accounting & Taxation (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于机器学习的商圈树构建方法及系统,包括:收集未在册供应商的数据;基于数据仓库技术对数据进行预处理,得到预处理后的数据;基于预处理后的数据构建目标评估模型;基于目标评估模型预测未在册供应商与商圈树中供应商的供需关系,当供需关系满足预设条件时,将未在册供应商加入商圈树构建出新的商圈树。本发明通过不断完善并细化商圈树结构,有助于核心企业掌握供应链上下游情况以及供应商间的供需关系,便于对一级供应商提供的产品服务进行全流程的质量追溯,以及还能有效撮合供应商间的贸易关系,为商圈树中的中小企业提供信任背书,使得中小企业能够更加快速地获得融资福利,加快供应链资金流通速度,提升产品服务质量。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于机器学习的商圈树构建方法及系统。
背景技术
目前,在供应链行业,对于核心企业来说,仅掌握了一级供应商及备案在册的部分下游供应商信息,针对核心企业的供应链来说,仍有很多未在册的供应商,由于缺乏对整体供应链上下游供需关系的了解,可能导致核心企业对产品质量不能有效管控也无法实现质量追溯。不仅如此,目前的供应链金融领域,对于下游供应商来说,供应链金融门槛较高,只能服务核心企业的较小一部分一级供应商,由于缺乏核心企业的信任背书,而一级供应商又未向核心企业报备信息,导致中小企业贷款额度低、融资难等问题。
因此,如何有助于核心企业掌握供应链上下游情况以及供应商间的供需关系,便于对一级供应商提供的产品服务进行全流程的质量追溯,以及如何有效撮合供应商间的贸易关系,为商圈树中的中小企业提供信任背书,使得中小企业能够更加快速地获得融资福利,加快供应链资金流通速度,提升产品服务质量,是一项亟待解决的问题。
发明内容
有鉴于此,本发明提供了一种基于机器学习的商圈树构建方法,通过构建以核心企业为起始节点的供应链商圈树,引入机器学习技术,对未在册供应商的资料进行关联分析,判断未在册供应商与商圈树中供应商节点的贸易关系,不断完善并细化商圈树结构,能够有助于核心企业掌握供应链上下游情况以及供应商间的供需关系,便于对一级供应商提供的产品服务进行全流程的质量追溯,以及还能有效撮合供应商间的贸易关系,为商圈树中的中小企业提供信任背书,使得中小企业能够更加快速地获得融资福利,加快供应链资金流通速度,提升产品服务质量。
本发明提供了一种基于机器学习的商圈树构建方法,包括:
收集未在册供应商的数据;
基于数据仓库技术对所述数据进行预处理,得到预处理后的数据;
基于所述预处理后的数据构建目标评估模型;
基于所述目标评估模型预测所述未在册供应商与商圈树中供应商的供需关系,当所述供需关系满足预设条件时,将所述未在册供应商加入商圈树构建出新的商圈树。
优选地,所述基于数据仓库技术对所述数据进行预处理,包括:
基于数据仓库技术对所述数据中的缺失值和偏离值进行处理,以及对所述数据进行规范化和转换处理。
优选地,所述基于所述预处理后的数据构建评估模型,包括:
对所述预处理后的数据进行特征构建与特征选择,得到所述预处理后的数据的显著特征;
基于所述显著特征将所述预处理后的数据分割为训练数据、验证数据和测试数据;
利用所述训练数据进行算法训练评估模型;
利用所述测试数据计算训练生成的评估模型的最终准确率;
基于所述最终准确率,利用所述验证数据对训练生成的评估模型的参数进行调整,得到目标评估模型。
优选地,所述对所述预处理后的数据进行特征构建与特征选择,得到所述预处理后的数据的显著特征,包括:
对所述预处理后的数据进行特征提取和数据降维处理,得到所述预处理后的数据的显著特征。
优选地,所述利用所述训练数据进行算法训练评估模型,包括:
利用所述训练数据,采用决策树、朴素贝叶斯和神经网络算法训练评估模型。
一种基于机器学习的商圈树构建系统,包括:
收集模块,用于收集未在册供应商的数据;
预处理模块,用于基于数据仓库技术对所述数据进行预处理,得到预处理后的数据;
第一构建模块,用于基于所述预处理后的数据构建目标评估模型;
第二构建模块,用于基于所述目标评估模型预测所述未在册供应商与商圈树中供应商的供需关系,当所述供需关系满足预设条件时,将所述未在册供应商加入商圈树构建出新的商圈树。
优选地,所述预处理模块在执行基于数据仓库技术对所述数据进行预处理,得到预处理后的数据时,具体用于:
基于数据仓库技术对所述数据中的缺失值和偏离值进行处理,以及对所述数据进行规范化和转换处理。
优选地,所述第一构建模块在执行基于所述预处理后的数据构建目标评估模型时,包括:
特征处理单元,用于对所述预处理后的数据进行特征构建与特征选择,得到所述预处理后的数据的显著特征;
数据分割单元,用于基于所述显著特征将所述预处理后的数据分割为训练数据、验证数据和测试数据;
训练单元,用于利用所述训练数据进行算法训练评估模型;
计算单元,用于利用所述测试数据计算训练生成的评估模型的最终准确率;
参数调整单元,用于基于所述最终准确率,利用所述验证数据对训练生成的评估模型的参数进行调整,得到目标评估模型。
优选地,所述特征处理单元在执行对所述预处理后的数据进行特征构建与特征选择,得到所述预处理后的数据的显著特征时,具体用于:
对所述预处理后的数据进行特征提取和数据降维处理,得到所述预处理后的数据的显著特征。
优选地,所述训练单元在执行利用所述训练数据进行算法训练评估模型时,具体用于:
利用所述训练数据,采用决策树、朴素贝叶斯和神经网络算法训练评估模型。
综上所述,本发明公开了一种基于机器学习的商圈树构建方法,当需要构建商圈树时,首先收集未在册供应商的数据,然后基于数据仓库技术对数据进行预处理,得到预处理后的数据;基于预处理后的数据构建目标评估模型,基于目标评估模型预测未在册供应商与商圈树中供应商的供需关系,当供需关系满足预设条件时,将未在册供应商加入商圈树构建出新的商圈树。本发明通过构建以核心企业为起始节点的供应链商圈树,引入机器学习技术,对未在册供应商的资料进行关联分析,判断未在册供应商与商圈树中供应商节点的贸易关系,不断完善并细化商圈树结构,能够有助于核心企业掌握供应链上下游情况以及供应商间的供需关系,便于对一级供应商提供的产品服务进行全流程的质量追溯,以及还能有效撮合供应商间的贸易关系,为商圈树中的中小企业提供信任背书,使得中小企业能够更加快速地获得融资福利,加快供应链资金流通速度,提升产品服务质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明公开的一种基于机器学习的商圈树构建方法实施例1的流程图;
图2为本发明公开的一种基于机器学习的商圈树构建方法实施例2的流程图;
图3为本发明公开的一种基于机器学习的商圈树构建系统实施例1的结构示意图;
图4为本发明公开的一种基于机器学习的商圈树构建系统实施例2的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明公开的一种基于机器学习的商圈树构建方法实施例1的流程图,所述方法可以包括以下步骤:
S101、收集未在册供应商的数据;
当需要构建商圈树时,首先收集未在册供应商的注册信息、经营资质、经营范围以及贸易背景等资料并汇总为数据集合,作为输入数据。
S102、基于数据仓库技术对数据进行预处理,得到预处理后的数据;
在收集到未在册供应商的数据后,进一步利用ETL工具对收集到的数据进行预处理。
ETL(Extract-Transform-Load)是一种数据仓库技术,将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。其中,数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
S103、基于预处理后的数据构建目标评估模型;
然后,根据得到的预处理后的数据构建出目标评估模型。
S104、基于目标评估模型预测未在册供应商与商圈树中供应商的供需关系,当供需关系满足预设条件时,将未在册供应商加入商圈树构建出新的商圈树。
然后,根据构建出的目标评估模型对未在册供应商与商圈树中供应商的供需关系进行预测,经过确认或撮合后,即当供需关系满足预设条件时,将未在册供应商加入商圈树构建出新的商圈树。
综上所述,在上述实施例中,当需要构建商圈树时,首先收集未在册供应商的数据,然后基于数据仓库技术对数据进行预处理,得到预处理后的数据;基于预处理后的数据构建目标评估模型,基于目标评估模型预测未在册供应商与商圈树中供应商的供需关系,当供需关系满足预设条件时,将未在册供应商加入商圈树构建出新的商圈树。通过构建以核心企业为起始节点的供应链商圈树,引入机器学习技术,对未在册供应商的资料进行关联分析,判断未在册供应商与商圈树中供应商节点的贸易关系,不断完善并细化商圈树结构,能够有助于核心企业掌握供应链上下游情况以及供应商间的供需关系,便于对一级供应商提供的产品服务进行全流程的质量追溯,以及还能有效撮合供应商间的贸易关系,为商圈树中的中小企业提供信任背书,使得中小企业能够更加快速地获得融资福利,加快供应链资金流通速度,提升产品服务质量。
如图2所示,为本发明公开的一种基于机器学习的商圈树构建方法实施例2的流程图,所述方法可以包括以下步骤:
S201、收集未在册供应商的数据;
当需要构建商圈树时,首先收集未在册供应商的注册信息、经营资质、经营范围以及贸易背景等资料并汇总为数据集合,作为输入数据。
S202、基于数据仓库技术对数据中的缺失值和偏离值进行处理,以及对数据进行规范化和转换处理;
在收集到未在册供应商的数据后,进一步利用ETL工具对收集到的数据进行预处理。包括:处理缺失值、处理偏离值、数据规范化、数据的转换等。
ETL(Extract-Transform-Load)是一种数据仓库技术,将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。其中,数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
S203、对预处理后的数据进行特征构建与特征选择,得到预处理后的数据的显著特征;
然后,对预处理后的数据进行特征构建与特征选择操作,主要包括特征提取、数据的降维等方面的处理,通过使用相关系数、卡方检验、平均互信息、条件熵、后验概率、逻辑回归权重等方法,筛选出显著特征、摒弃非显著特征。
S204、基于显著特征将预处理后的数据分割为训练数据、验证数据和测试数据;
为了评估模型的有效性,需要根据显著特征对经过预处理后的数据进行数据分割。将预处理后的数据分为:训练数据,验证数据和测试数据。例如,将60%的数据作为训练数据,剩余的部分平均分为验证数据与测试数据。
S205、利用训练数据进行算法训练评估模型;
然后利用训练数据进行算法训练评估模型。
具体的,考虑尝试不同的算法对数据进行训练。例如,选择决策树、朴素贝叶斯以及神经网络三种算法,并将训练数据的特征应用到算法中。
S206、利用测试数据计算训练生成的评估模型的最终准确率;
利用训练数据生成最佳算法后,在测试数据上对算法的性能进行评估,计算生成的评估模型的最终准确率。
S207、基于最终准确率,利用验证数据对训练生成的评估模型的参数进行调整,得到目标评估模型;
然后,根据最终准确率,利用验证数据调整模型参数从而得到最优的目标评估模型。
S208、基于目标评估模型预测未在册供应商与商圈树中供应商的供需关系,当供需关系满足预设条件时,将未在册供应商加入商圈树构建出新的商圈树。
然后,根据构建出的目标评估模型对未在册供应商与商圈树中供应商的供需关系进行预测,经过确认或撮合后,即当供需关系满足预设条件时,将未在册供应商加入商圈树构建出新的商圈树。
综上所述,本发明能够汇总整合核心企业及其他各渠道供应商经营资质、经营范围、合同信息以及贸易背景等相关数据,构建了以核心企业为起始节点的供应链商圈树。能够通过机器学习技术,对未在册供应商的贸易背景等相关资料进行关联分析,判断未在册供应商与商圈树中供应商节点的贸易关系,不断完善并细化商圈树结构,有助于核心企业掌握供应链上下游情况以及供应商间的供需关系,便于对一级供应商提供的产品服务进行全流程的质量追溯。能够通过撮合供应商间的贸易关系,为商圈树中的中小企业提供信任背书,使得中小企业能够更加快速地获得融资福利,加快供应链资金流通速度,提升产品服务质量。
如图3所示,为本发明公开的一种基于机器学习的商圈树构建系统实施例1的结构示意图,所述系统可以包括:
收集模块301,用于收集未在册供应商的数据;
当需要构建商圈树时,首先收集未在册供应商的注册信息、经营资质、经营范围以及贸易背景等资料并汇总为数据集合,作为输入数据。
预处理模块302,用于基于数据仓库技术对数据进行预处理,得到预处理后的数据;
在收集到未在册供应商的数据后,进一步利用ETL工具对收集到的数据进行预处理。
ETL(Extract-Transform-Load)是一种数据仓库技术,将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。其中,数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
第一构建模块303,用于基于预处理后的数据构建目标评估模型;
然后,根据得到的预处理后的数据构建出目标评估模型。
第二构建模块304,用于基于目标评估模型预测未在册供应商与商圈树中供应商的供需关系,当供需关系满足预设条件时,将未在册供应商加入商圈树构建出新的商圈树。
然后,根据构建出的目标评估模型对未在册供应商与商圈树中供应商的供需关系进行预测,经过确认或撮合后,即当供需关系满足预设条件时,将未在册供应商加入商圈树构建出新的商圈树。
综上所述,在上述实施例中,当需要构建商圈树时,首先收集未在册供应商的数据,然后基于数据仓库技术对数据进行预处理,得到预处理后的数据;基于预处理后的数据构建目标评估模型,基于目标评估模型预测未在册供应商与商圈树中供应商的供需关系,当供需关系满足预设条件时,将未在册供应商加入商圈树构建出新的商圈树。通过构建以核心企业为起始节点的供应链商圈树,引入机器学习技术,对未在册供应商的资料进行关联分析,判断未在册供应商与商圈树中供应商节点的贸易关系,不断完善并细化商圈树结构,能够有助于核心企业掌握供应链上下游情况以及供应商间的供需关系,便于对一级供应商提供的产品服务进行全流程的质量追溯,以及还能有效撮合供应商间的贸易关系,为商圈树中的中小企业提供信任背书,使得中小企业能够更加快速地获得融资福利,加快供应链资金流通速度,提升产品服务质量。
如图4所示,为本发明公开的一种基于机器学习的商圈树构建系统实施例2的结构示意图,所述系统可以包括:
收集模块401,用于收集未在册供应商的数据;
当需要构建商圈树时,首先收集未在册供应商的注册信息、经营资质、经营范围以及贸易背景等资料并汇总为数据集合,作为输入数据。
预处理模块402,用于基于数据仓库技术对数据中的缺失值和偏离值进行处理,以及对数据进行规范化和转换处理;
在收集到未在册供应商的数据后,进一步利用ETL工具对收集到的数据进行预处理。包括:处理缺失值、处理偏离值、数据规范化、数据的转换等。
ETL(Extract-Transform-Load)是一种数据仓库技术,将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。其中,数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
特征处理单元403,用于对预处理后的数据进行特征构建与特征选择,得到预处理后的数据的显著特征;
然后,对预处理后的数据进行特征构建与特征选择操作,主要包括特征提取、数据的降维等方面的处理,通过使用相关系数、卡方检验、平均互信息、条件熵、后验概率、逻辑回归权重等方法,筛选出显著特征、摒弃非显著特征。
数据分割单元404,用于基于显著特征将预处理后的数据分割为训练数据、验证数据和测试数据;
为了评估模型的有效性,需要根据显著特征对经过预处理后的数据进行数据分割。将预处理后的数据分为:训练数据,验证数据和测试数据。例如,将60%的数据作为训练数据,剩余的部分平均分为验证数据与测试数据。
训练单元405,用于利用训练数据进行算法训练评估模型;
然后利用训练数据进行算法训练评估模型。
具体的,考虑尝试不同的算法对数据进行训练。例如,选择决策树、朴素贝叶斯以及神经网络三种算法,并将训练数据的特征应用到算法中。
计算单元406,用于利用测试数据计算训练生成的评估模型的最终准确率;
利用训练数据生成最佳算法后,在测试数据上对算法的性能进行评估,计算生成的评估模型的最终准确率。
参数调整单元407,用于基于最终准确率,利用验证数据对训练生成的评估模型的参数进行调整,得到目标评估模型;
然后,根据最终准确率,利用验证数据调整模型参数从而得到最优的目标评估模型。
第二构建模块408,用于基于目标评估模型预测未在册供应商与商圈树中供应商的供需关系,当供需关系满足预设条件时,将未在册供应商加入商圈树构建出新的商圈树。
然后,根据构建出的目标评估模型对未在册供应商与商圈树中供应商的供需关系进行预测,经过确认或撮合后,即当供需关系满足预设条件时,将未在册供应商加入商圈树构建出新的商圈树。
综上所述,本发明能够汇总整合核心企业及其他各渠道供应商经营资质、经营范围、合同信息以及贸易背景等相关数据,构建了以核心企业为起始节点的供应链商圈树。能够通过机器学习技术,对未在册供应商的贸易背景等相关资料进行关联分析,判断未在册供应商与商圈树中供应商节点的贸易关系,不断完善并细化商圈树结构,有助于核心企业掌握供应链上下游情况以及供应商间的供需关系,便于对一级供应商提供的产品服务进行全流程的质量追溯。能够通过撮合供应商间的贸易关系,为商圈树中的中小企业提供信任背书,使得中小企业能够更加快速地获得融资福利,加快供应链资金流通速度,提升产品服务质量。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种基于机器学习的商圈树构建方法,其特征在于,包括:
收集未在册供应商的数据;
基于数据仓库技术对所述数据进行预处理,得到预处理后的数据;
基于所述预处理后的数据构建目标评估模型;
基于所述目标评估模型预测所述未在册供应商与商圈树中供应商的供需关系,当所述供需关系满足预设条件时,将所述未在册供应商加入商圈树构建出新的商圈树。
2.根据权利要求1所述的方法,其特征在于,所述基于数据仓库技术对所述数据进行预处理,包括:
基于数据仓库技术对所述数据中的缺失值和偏离值进行处理,以及对所述数据进行规范化和转换处理。
3.根据权利要求2所述的方法,其特征在于,所述基于所述预处理后的数据构建评估模型,包括:
对所述预处理后的数据进行特征构建与特征选择,得到所述预处理后的数据的显著特征;
基于所述显著特征将所述预处理后的数据分割为训练数据、验证数据和测试数据;
利用所述训练数据进行算法训练评估模型;
利用所述测试数据计算训练生成的评估模型的最终准确率;
基于所述最终准确率,利用所述验证数据对训练生成的评估模型的参数进行调整,得到目标评估模型。
4.根据权利要求3所述的方法,其特征在于,所述对所述预处理后的数据进行特征构建与特征选择,得到所述预处理后的数据的显著特征,包括:
对所述预处理后的数据进行特征提取和数据降维处理,得到所述预处理后的数据的显著特征。
5.根据权利要求4所述的方法,其特征在于,所述利用所述训练数据进行算法训练评估模型,包括:
利用所述训练数据,采用决策树、朴素贝叶斯和神经网络算法训练评估模型。
6.一种基于机器学习的商圈树构建系统,其特征在于,包括:
收集模块,用于收集未在册供应商的数据;
预处理模块,用于基于数据仓库技术对所述数据进行预处理,得到预处理后的数据;
第一构建模块,用于基于所述预处理后的数据构建目标评估模型;
第二构建模块,用于基于所述目标评估模型预测所述未在册供应商与商圈树中供应商的供需关系,当所述供需关系满足预设条件时,将所述未在册供应商加入商圈树构建出新的商圈树。
7.根据权利要求6所述的系统,其特征在于,所述预处理模块在执行基于数据仓库技术对所述数据进行预处理,得到预处理后的数据时,具体用于:
基于数据仓库技术对所述数据中的缺失值和偏离值进行处理,以及对所述数据进行规范化和转换处理。
8.根据权利要求7所述的系统,其特征在于,所述第一构建模块在执行基于所述预处理后的数据构建目标评估模型时,包括:
特征处理单元,用于对所述预处理后的数据进行特征构建与特征选择,得到所述预处理后的数据的显著特征;
数据分割单元,用于基于所述显著特征将所述预处理后的数据分割为训练数据、验证数据和测试数据;
训练单元,用于利用所述训练数据进行算法训练评估模型;
计算单元,用于利用所述测试数据计算训练生成的评估模型的最终准确率;
参数调整单元,用于基于所述最终准确率,利用所述验证数据对训练生成的评估模型的参数进行调整,得到目标评估模型。
9.根据权利要求8所述的系统,其特征在于,所述特征处理单元在执行对所述预处理后的数据进行特征构建与特征选择,得到所述预处理后的数据的显著特征时,具体用于:
对所述预处理后的数据进行特征提取和数据降维处理,得到所述预处理后的数据的显著特征。
10.根据权利要求9所述的系统,其特征在于,所述训练单元在执行利用所述训练数据进行算法训练评估模型时,具体用于:
利用所述训练数据,采用决策树、朴素贝叶斯和神经网络算法训练评估模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011610584.6A CN112766981A (zh) | 2020-12-30 | 2020-12-30 | 一种基于机器学习的商圈树构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011610584.6A CN112766981A (zh) | 2020-12-30 | 2020-12-30 | 一种基于机器学习的商圈树构建方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112766981A true CN112766981A (zh) | 2021-05-07 |
Family
ID=75695949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011610584.6A Pending CN112766981A (zh) | 2020-12-30 | 2020-12-30 | 一种基于机器学习的商圈树构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112766981A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113393221A (zh) * | 2021-08-16 | 2021-09-14 | 迅管(深圳)科技有限公司 | 基于在线数据的企业生态链服务推送方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108994A (zh) * | 2017-11-10 | 2018-06-01 | 浙江中控软件技术有限公司 | 用于化工企业供应链的计划优化方法 |
CN109840847A (zh) * | 2018-12-29 | 2019-06-04 | 航天信息股份有限公司 | 一种去核心化供应链融资方法 |
CN110009229A (zh) * | 2019-04-04 | 2019-07-12 | 泰康保险集团股份有限公司 | 基于区块链的供应链管理方法、装置、存储介质与设备 |
CN110503295A (zh) * | 2019-07-05 | 2019-11-26 | 深圳壹账通智能科技有限公司 | 供应链金融的风险分析方法、装置、计算终端及存储介质 |
CN110659937A (zh) * | 2019-09-20 | 2020-01-07 | 鞍钢集团矿业有限公司 | 基于梯度提升树改进的供应商量化评分预测算法 |
-
2020
- 2020-12-30 CN CN202011610584.6A patent/CN112766981A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108994A (zh) * | 2017-11-10 | 2018-06-01 | 浙江中控软件技术有限公司 | 用于化工企业供应链的计划优化方法 |
CN109840847A (zh) * | 2018-12-29 | 2019-06-04 | 航天信息股份有限公司 | 一种去核心化供应链融资方法 |
CN110009229A (zh) * | 2019-04-04 | 2019-07-12 | 泰康保险集团股份有限公司 | 基于区块链的供应链管理方法、装置、存储介质与设备 |
CN110503295A (zh) * | 2019-07-05 | 2019-11-26 | 深圳壹账通智能科技有限公司 | 供应链金融的风险分析方法、装置、计算终端及存储介质 |
CN110659937A (zh) * | 2019-09-20 | 2020-01-07 | 鞍钢集团矿业有限公司 | 基于梯度提升树改进的供应商量化评分预测算法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113393221A (zh) * | 2021-08-16 | 2021-09-14 | 迅管(深圳)科技有限公司 | 基于在线数据的企业生态链服务推送方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110417721B (zh) | 安全风险评估方法、装置、设备及计算机可读存储介质 | |
WO2019165673A1 (zh) | 一种报销单风险预测方法、装置、终端设备及存储介质 | |
Bozorgi et al. | Prescriptive process monitoring for cost-aware cycle time reduction | |
US9148521B2 (en) | Methods and systems for categorizing a customer of a service as a churner of a non-churner | |
CN110991474A (zh) | 一种机器学习建模平台 | |
US20200286095A1 (en) | Method, apparatus and computer programs for generating a machine-learning system and for classifying a transaction as either fraudulent or genuine | |
CN117670066B (zh) | 基于智能决策的司库管理方法、系统、设备及存储介质 | |
CN111199477A (zh) | 一种多级混联的风险管理方法、装置和电子设备 | |
CN111368147A (zh) | 图特征处理的方法及装置 | |
CN113205403A (zh) | 一种企业信用等级的计算方法、装置、存储介质及终端 | |
Zhang et al. | Improving prediction accuracy for logistic regression on imbalanced datasets | |
CN112565422A (zh) | 一种对电力物联网故障数据的识别方法、系统和存储介质 | |
Gopal et al. | Customer churn time prediction in mobile telecommunication industry using ordinal regression | |
CN112766981A (zh) | 一种基于机器学习的商圈树构建方法及系统 | |
CN112801231B (zh) | 用于业务对象分类的决策模型训练方法和装置 | |
Fernández-Navarro et al. | Determination of relative agrarian technical efficiency by a dynamic over-sampling procedure guided by minimum sensitivity | |
Grzonka et al. | Application of selected supervised classification methods to bank marketing campaign | |
CN114169998A (zh) | 一种金融大数据分析与挖掘算法 | |
Al-Shboul et al. | Initializing genetic programming using fuzzy clustering and its application in churn prediction in the telecom industry | |
Hammoudeh et al. | Selective ensemble model for telecom churn prediction | |
CN115514581B (zh) | 一种用于工业互联网数据安全平台的数据分析方法及设备 | |
CN116915710A (zh) | 流量预警方法、装置、设备及可读存储介质 | |
Arutjothi et al. | Assessment of probability defaults using K-means based multinomial logistic regression | |
Zimal et al. | Customer churn prediction using machine learning | |
CN117593101B (zh) | 基于多维数据的金融风险数据处理分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |