CN116975626A - 一种供应链数据模型的自动更新方法及装置 - Google Patents
一种供应链数据模型的自动更新方法及装置 Download PDFInfo
- Publication number
- CN116975626A CN116975626A CN202310685886.7A CN202310685886A CN116975626A CN 116975626 A CN116975626 A CN 116975626A CN 202310685886 A CN202310685886 A CN 202310685886A CN 116975626 A CN116975626 A CN 116975626A
- Authority
- CN
- China
- Prior art keywords
- data
- subset
- column
- supply chain
- row
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013499 data model Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000010801 machine learning Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 15
- 238000005520 cutting process Methods 0.000 claims description 12
- 238000004519 manufacturing process Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 7
- 238000012935 Averaging Methods 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims description 5
- 238000003491 array Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 abstract description 10
- 238000003860 storage Methods 0.000 description 9
- 238000011161 development Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000003062 neural network model Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000009966 trimming Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本说明书实施例提供一种供应链数据模型的自动更新方法,先获取数据总集,并从中提取出若干数据子集,得到子集集合。之后,针对该子集集合迭代执行多轮子集选取,其中单轮子集选取根据基于数据子集的信息熵与数据总集的总信息熵所确定的信息损失,选取本轮数据子集。在多轮子集选取结束后,将选取出的各数据子集中对应信息熵最大的数据子集确定为最终数据子集,如此选取的数据子集保留了供应链数据集的信息,从而其最具有代表性。最后,通过将选取出的最具有代表性的数据子集输入AutoML工具得到一个初始供应链数据模型,接着再利用数据总集对其进行微调,得到最终使用的目标供应链数据模型,由此可以极大地缩短模型训练时间,进而可以降低训练成本。
Description
技术领域
本说明书一个或多个实施例涉及机器学习领域,尤其涉及一种供应链数据模型的自动更新方法及装置。
背景技术
自动机器学习(AutoML)的目标是通过自动化一些通用步骤(如数据预处理、模型选择和调整超参数),以简化机器学习(ML)模型的生成过程。AutoML的显著特点是尽量避免人工设定超参数,而是采用某种学习机制自动调节这些超参数。随着时间的推移,AutoML技术变得越来越流行,因为它们有助于简化繁琐而困难的ML模型开发任务,甚至使非专业用户能够为其手头的数据集建立准确而稳健的模型。大型供应链集成服务企业集团在推进数字化转型赋能管理提升、业务发展的过程中,数据开发工程师为了实现供应链数据模型的自动开发,通常采用AutoML技术在数以百万计的ML流程配置之间进行比较,并输出最佳流程,通常包括数据预处理、特征工程、模型选择和超参数优化等。然而,当用于训练模型的供应链数据集非常庞大时,每个流程配置的执行时间也会变得更长,这可能会增加几个小时甚至几天的搜索时间。因此,在处理大型供应链数据集时,基于云计算架构的AutoML服务使用性能更优的存储资源(如存储空间更大的内存)和计算资源(如计算性能更优更多的GPU)能提高效率,但这也会使得使用成本显著增加。
发明内容
本说明书一个或多个实施例描述了一种供应链数据模型的自动更新方法,可以降低模型的训练成本。
第一方面,提供了一种供应链数据模型的自动更新方法,包括:
获取供应链数据集,其中包括L个供应链数据,每个供应链数据包括K-1个数据特征和1个标定标签;其中,L和K均为正整数;
将所述供应链数据集排布为L行K列的数据阵列,其中的L行分别对应于L个供应链数据,K列分别对应于K-1个数据特征和1个标定标签;
针对所述数据阵列重复执行多次行列抽取,并基于每次行列抽取得到的各行和各列,形成1个数据子集;如此得到N个数据子集;所述各列至少包括对应于标定标签的列;N为正整数;
以基于所述N个数据子集形成的集合作为初代子集集合执行多轮迭代,其中,任意的第t轮迭代包括:
从当代子集集合中抽样若干初始数据子集,针对每个初始数据子集,基于所述数据阵列,随机地对其中的行或列进行替换,得到更新数据子集;将得到的各个更新数据子集添加到当代子集集合中,得到中间子集集合;
从所述中间子集集合中抽样若干子集对,针对每个子集对,在其中的两个数据子集之间进行行或列互换,得到更新子集对;将各个更新子集对中的两个更新子集添加到所述中间子集合,得到候选子集合;
对于所述候选子集合中各候选数据子集,基于对应于所述各候选数据子集的各个信息熵与对应于所述供应链数据集的总信息熵,确定对应于所述各候选数据子集的各个信息损失;
基于所述各个信息损失,从所述候选子集合中选取一部分下代数据子集,并按照预定概率,从所述候选子集合的各剩余数据子集中选取另一部分下代数据子集;所述一部分下代数据子集和另一部分下代数据子集形成下代子集集合;
从所述多轮迭代后得到的下代子集集合中,选取对应信息熵最大的数据子集作为最终数据子集;
将所述最终数据子集输入自动机器学习AutoML工具,得到初始供应链数据模型;
将所述供应链数据集和所述初始供应链数据模型,再次输入所述AutoML工具,得到目标供应链数据模型。
第二方面,提供了一种供应链数据模型的自动更新装置,包括:
获取单元,用于获取供应链数据集,其中包括L个供应链数据,每个供应链数据包括K-1个数据特征和1个标定标签;其中,L和K均为正整数;
排布单元,用于将所述供应链数据集排布为L行K列的数据阵列,其中的L行分别对应于L个供应链数据,K列分别对应于K-1个数据特征和1个标定标签;
抽取单元,用于针对所述数据阵列重复执行多次行列抽取,并基于每次行列抽取得到的各行和各列,形成1个数据子集;如此得到N个数据子集;所述各列至少包括对应于标定标签的列;N为正整数;
执行单元,用于以基于所述N个数据子集形成的集合作为初代子集集合执行多轮迭代;所述执行单元包括:
替换子模块,用于从当代子集集合中抽样若干初始数据子集,针对每个初始数据子集,基于所述数据阵列,随机地对其中的行或列进行替换,得到更新数据子集;将得到的各个更新数据子集添加到当代子集集合中,得到中间子集集合;
互换子模块,用于从所述中间子集集合中抽样若干子集对,针对每个子集对,在其中的两个数据子集之间进行行或列互换,得到更新子集对;将各个更新子集对中的两个更新子集添加到所述中间子集合,得到候选子集合;
确定子模块,用于对于所述候选子集合中各候选数据子集,基于对应于所述各候选数据子集的各个信息熵与对应于所述供应链数据集的总信息熵,确定对应于所述各候选数据子集的各个信息损失;
选取子模块,用于基于所述各个信息损失,从所述候选子集合中选取一部分下代数据子集,并按照预定概率,从所述候选子集合的各剩余数据子集中选取另一部分下代数据子集;所述一部分下代数据子集和另一部分下代数据子集形成下代子集集合;
选取单元,用于从所述多轮迭代后得到的下代子集集合中,选取对应信息熵最大的数据子集作为最终数据子集;
输入单元,用于将所述最终数据子集输入自动机器学习AutoML工具,得到初始供应链数据模型;
所述输入单元,还用于将所述供应链数据集和所述初始供应链数据模型,再次输入所述AutoML工具,得到目标供应链数据模型。
本说明书一个或多个实施例提供的一种供应链数据模型的自动更新方法,先获取供应链数据集(以下称数据总集),并从中提取出若干数据子集,得到子集集合。之后,针对该子集集合迭代执行多轮子集选取,其中单轮子集选取根据基于数据子集的信息熵与数据总集的总信息熵所确定的信息损失,选取本轮数据子集。在多轮子集选取结束后,将选取出的各数据子集中对应信息熵最大的数据子集确定为最终数据子集,如此选取的数据子集保留了供应链数据集的信息,从而其最具有代表性。最后,通过将选取出的最具有代表性的数据子集输入AutoML工具得到一个初始供应链数据模型,接着再利用数据总集对其进行微调,得到最终使用的目标供应链数据模型,由此可以极大地缩短模型训练时间,进而可以降低训练成本。
附图说明
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2示出根据一个实施例的一种供应链数据模型的自动更新方法流程图;
图3a示出在一个例子中的行互换示意图;
图3b示出行互换结果示意图;
图4a示出在一个例子中的列互换示意图;
图4b示出列互换结果示意图;
图5示出根据一个实施例的一种供应链数据模型的自动更新装置示意图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
在大型供应链集成服务企业集团的典型AutoML场景中,数据开发工程师希望建立一个ML模型(即供应链数据模型)来预测供应链数据集的某个目标y的值。为了提升模型构建效率,数据开发工程师会使用各种AutoML工具,它可以智能地扫描大量的ML流程与配置。比如,采用A(D,y)->M*来表示在供应链数据集D上应用AutoML工具A预测目标y的情况,其中M*是A能找到的最佳配置(比如最佳的模型和最佳的参数)。一般来说,供应链数据集规模越大,AutoML就需要花费更多的时间来找到好的配置。
本方案的发明构思是对供应链数据集进行优化,以减少AutoML的计算时间,同时保留输出模型的性能。具体来说,将A生成M*的时间表示为T ime(M*),将最终的模型精度表示为Acc(M*)。那么本方案的目标就是,生成一个模型配置Msub,其中,Time(Msub)<<Time(M*),但Acc(Msub)≈Acc(M*)。
图1为本说明书披露的一个实施例的实施场景示意图。图1中,模型训练系统包括,数据子集产生装置、模型生成装置和微调装置。
图1中,先获取供应链数据集,并从中提取出若干数据子集,得到子集集合。之后,可以将该子集集合输入数据子集产生装置,以利用该数据子集产生装置,针对该子集集合迭代执行多轮子集选取,其中单轮子集选取根据基于数据子集的信息熵与数据总集的总信息熵所确定的信息损失,选取本轮数据子集。在多轮子集选取结束后,将选取出的各数据子集中对应信息熵最大的数据子集确定为最终数据子集。
接着,可以将该最终数据子集输入模型生成装置,以利用该模型生成装置生成初始供应链数据模型。
最后,可以将该初始供应链数据模型输入微调装置,以利用该微调装置基于供应链数据集,对初始供应链数据模型进行微调,进而得到最终使用的目标供应链数据模型。
图2示出根据一个实施例的一种供应链数据模型的自动更新方法流程图,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图2所示,该方法可以包括如下步骤。
步骤S202,获取供应链数据集,其中包括L个供应链数据,每个供应链数据包括K-1个数据特征和1个标定标签。
其中,L和K均为正整数。
上述K-1个数据特征可以包括,库存特征、生产特征和销售特征等。上述标定标签用于指示对应供应链数据的销量(一种回归值);或者,上述标定标签用于指示对应供应链数据是否具有风险(一种分类值)。
具体地,上述库存特征包括以下中的至少一项:仓库所在省市区、仓储运输资源、库房、库位、物料类别、物料名称、规格型号、计量单位、当前库存数、历史最高库存数、历史最低库存数、平均库存时间、库存同比以及库存环比等。
上述生产特征包括以下中的至少一项:生产厂商、生产厂商所在省市区、物料类别、物料名称、规格型号、计量单位、产能、日产量、生产周期、本月累计产量、本年累计产量、产量同比以及产量环比等。
所述销售特征包括以下中的至少一项:合同编号、合同数量、合同时间、客户名称、客户所在省市区、客户信用等级、客户授信额度、订单编号、订单数量、订单时间、提货单编号、提货单数量、提货单时间、物料类别、物料名称、规格型号、计量单位、本月累计出库数、本年累计出库数、本月累计开票数、本年累计开票数、本月资金回笼数、本年资金回笼数、本月应收账款、本年应收账款、销售同比以及销售环比等。
步骤S204,将供应链数据集排布为L行K列的数据阵列,其中的L行分别对应于L个供应链数据,K列分别对应于K-1个数据特征和1个标定标签。
在一个实施例中,可以将上述供应链数据集或者数据阵列表示为:D={R=(1,2,3,…,L);C=(1,2,3,…,K)},其中,R为总行编号集合,C为总列编号集合。其中第K列为对应于标定标签的列(简称标签列)。
步骤S206,针对上述L行K列的数据阵列重复执行多次行列抽取,并基于每次行列抽取得到的各行和各列,形成1个数据子集;如此得到N个数据子集。
其中,N为正整数。
需要说明,上述每次行列抽取所抽取的各列至少包括标签列。
以L=10,K=5为例来说,即上述数据阵列的大小为:10×5,从而D={R=(1,2,3,4,5,6,7,8,9,10);C=(1,2,3,4,5)}。
若第5列为标签列,那么抽取的两个5×3的数据子集可以为:d1={r1=(1,2,3,7,8);c1=(1,4,5)};d2={r2=(4,5,7,9,10);c2=(2,3,5)}。
步骤S208,对基于N个数据子集形成的初代子集集合执行多轮迭代,其中,任意的第t(t为正整数)轮迭代包括:
步骤S2082,从当代子集集合中抽样若干初始数据子集,针对每个初始数据子集,基于上述数据阵列,随机地对其中的行或列进行替换,得到更新数据子集,将得到的各个更新数据子集添加到当代子集集合中,得到中间子集集合。
应理解,在第t轮迭代为首轮迭代时,上述当代子集集合为上述初代子集集合。在第t轮迭代为非首轮迭代时,上述当代子集集合为在第t-1轮迭代确定的下代子集集合。
在一个实施例中,针对每个初始数据子集中的行进行替换包括:将对应于初始数据子集的初始行编号集合中的若干元素,分别替换为总行编号集合中与其不同的其它行编号,得到更新行编号集合。
以初始数据子集为d1为例来说,可以将r1=(1,2,3,7,8)中的若干行编号各自分别替换为r=(4,5,6,9,10)中的行编号。比如,更新行编号集合r1′=(1,5,3,9,8)。
同理,针对每个初始数据子集中的列进行替换包括:将对应于初始数据子集的初始列编号集合中的若干元素,分别替换为总列编号集合中与其不同的其它列编号,得到更新列编号集合。
还以初始的数据子集为d1为例来说,可以将c1=(1,4,5)中的若干列编号各自分别替换为:c=(2,3)中的列编号。比如,更新列编号集合c1′=(1,2,5)。
需要说明,在本说明书实施例中,初始数据子集中可替换的列不包括标签列。也即前述例子中,c1=(1,4,5)中的5不能被替换。
在针对某个初始数据子集中的行进行替换时,可以基于更新行编号集合以及初始列编号集合,确定该初始数据子集对应的更新数据子集;或者,在针对某个初始数据子集中的列进行替换时,可以基于更新列编号集合以及初始行编号集合,确定该初始数据子集对应的更新数据子集。
当然,在实际应用中,针对每个初始数据子集,也可以通过同时替换其中的行和列,得到对应的更新数据子集,本说明书对此不作限定。
步骤S2084,从中间子集集合中抽样若干子集对,针对每个子集对,在其中的两个数据子集之间进行行或列互换,得到更新子集对,将各个更新子集对中的两个更新子集添加到中间子集合,得到候选子集合。
在一个实施例中,在每个子集对的两个数据子集之间进行行互换包括:对该子集对中的第一子集中的第一目标行进行切割,得到在前的第一行片段和在后的第一行片段,以及对该子集对中的第二子集中的第二目标行进行切割,得到在前的第二行片段和在后的第二行片段。对在前的第一行片段和在后的第二行片段进行拼接,得到第一更新目标行,以及对在前的第二行片段和在后的第一行片段进行拼接,得到第二更新目标行。至少基于第一更新目标行,确定第一更新子集,以及至少基于第二更新目标行,确定第二更新子集。
其中,上述第一目标行为第一子集中的任一行,第二目标行为第二子集中的任一行。
应理解,上述互换行的两个数据子集应包含相同数目的列。比如,可以针对数据子集d1和数据子集d2进行行互换。
图3a示出在一个例子中的行互换示意图。图3a中,第一目标行为数据子集1中的任一行,在针对第一目标行进行切割后,得到的在前的第一行片段通过横线标出,在后的第一行片段通过竖线标出。第二目标行为数据子集2中的任一行,在针对第二目标行进行切割后,得到的在前的第二行片段通过斜线标出,在后的第二行片段通过井格线示出。其中,第一和第二目标行包含相同的列数。
在针对图3a中的第一和第二目标行进行行互换之后,得到的第一和第二更新目标行可以参见图3b所示。
此外,上述至少基于第一更新目标行,确定第一更新子集,包括:基于第一更新目标行和第一子集中除第一目标行外的其它各行,形成第一更新子集。以及至少基于第二更新目标行,确定第二更新子集,包括:基于第二更新目标行和第二子集中除第二目标行外的其它各行,形成第二更新子集。
当然,在实际应用中,也可以针对两个数据子集进行多行互换,也就是说,上述第一目标行和第二目标行的数目为多个。应理解,在第一和第二目标行的数目为多个的情况下,可以针对第一和第二目标行两两进行组队,然后进行行互换,具体的互换方法参见上文所述,本说明书在此不复赘述。
同理,在每个子集对的两个数据子集之间进行列互换包括:对该子集对中的第一子集中的第一目标列进行切割,得到在前的第一列片段和在后的第一列片段,以及对该子集对中的第二子集中的第二目标列进行切割,得到在前的第二列片段和在后的第二列片段。对在前的第一列片段和在后的第二列片段进行拼接,得到第一更新目标列,以及对在前的第二列片段和在后的第一列片段进行拼接,得到第二更新目标列。至少基于第一更新目标列,确定第一更新子集,以及至少基于第二更新目标列,确定第二更新子集。
其中,上述第一目标列为第一子集中的任一列,第二目标列为第二子集中的任一列。
应理解,上述互换列的两个数据子集应包含相同数目的行。比如,可以针对数据子集d1和数据子集d2进行列互换。
图4a示出在一个例子中的列互换示意图。图4a中,第一目标列为数据子集1中的任一列,在针对第一目标列进行切割后,得到的在前的第一列片段通过横线标出,在后的第一列片段通过竖线标出。第二目标列为数据子集2中的任一列,在针对第二目标列进行切割后,得到的在前的第二列片段通过斜线标出,在后的第二列片段通过井格线示出。其中,第一和第二目标列包含相同的行数。
在针对图4a中的第一和第二目标列进行列互换之后,得到的第一和第二更新目标列可以参见图4b所示。
当然,在实际应用中,也可以针对两个数据子集进行多列互换,也就是说,上述第一目标列和第二目标列的数目为多个。应理解,在第一和第二目标列的数目为多个的情况下,可以针对第一和第二目标列两两进行组队,然后进行列互换,具体的互换方法参见上文所述,本说明书在此不复赘述。
或者,也可以针对两个数据子集同时进行行互换和列互换,本说明书对此不作限定。
步骤S2086,对于候选子集合中各候选数据子集,基于对应于各候选数据子集的各个信息熵与对应于供应链数据集的总信息熵,确定对应于各候选数据子集的各个信息损失。
以各候选数据子集中的任一候选数据子集(以下称目标数据子集)为例来说,与其对应的信息熵(目标信息熵)可以通过以下步骤获得:
首先,将目标数据子集排布为r行c列的子阵列,其中,r和c均为正整数,且r≤L,c≤K。
之后,对于上述子阵列中的第i(1≤i≤c)列,根据r行分别对应于第i列的r个数值各自的出现频率,计算对应于第i列的信息熵。对c列各自对应的c个信息熵求平均,得到目标信息熵。
同理,上述总信息熵可以通过以下步骤获得:
对于数据阵列中的第j(1≤j≤K)列,根据L行分别对应于第j列的L个数值各自的出现频率,计算对应于第j列的信息熵。对K列各自对应的K个信息熵求平均,得到总信息熵。
在一个更具体的实施例中,根据如下公式1计算上述总信息熵。
其中,D为供应链数据集或数据阵列,H(D)为总信息熵,Dij为数据阵列中第i行第j列的数值或元素,L为数据阵列的总行数,K为数据阵列的总列数,Pj(Dij)为Dij在第j列的出现频率。
在一个例子中,将Dij表示为v,其在第j列的出现频率可以根据公式2进行计算。
其中,Pj(v)为v在第j列的出现频率,Dkj为第j列中的第k个数值,I[Dkj=v]表示v在第j列的出现次数,L为第j列的总数值数目。
在一个实施例中,上述确定对应于各候选数据子集的各个信息损失,包括:
对于任意的第一候选数据子集,将对应的第一信息熵与总信息熵求差,并将差值的绝对值确定为对应于第一候选数据子集的第一信息损失。
在一个更具体的实施例中,可以根据公式3确定第一候选数据子集对应的第一信息损失。
L(d[r,c])=|H(d[r,c])-H(D)| (公式3)
其中,d[r,c]为包含r行和c列的第一候选数据子集,H(d[r,c])为该第一候选数据子集对应的第一信息熵,H(D)为总信息熵,L(d[r,c])为该第一候选数据子集对应的第一信息损失。
步骤S2088,基于各个信息损失,从候选子集合中选取一部分下代数据子集,并按照预定概率,从候选子集合的各剩余数据子集中选取另一部分下代数据子集。该一部分下代数据子集和另一部分下代数据子集形成下代子集集合。
在一个实施例中,可以按照对应的信息损失从小到大的顺序,对候选子集合中的各个数据子集进行排序。从排序后的各个数据子集中选取对应的信息损失小于预定阈值的数据子集作为一部分下代数据子集。
也即选取排序在前的各个数据子集作为一部分下代数据子集。
此外,以上述各剩余数据子集中的第一剩余数据子集为例来说,第一剩余数据子集对应的第一预定概率通过如下步骤获得:
对各剩余数据子集各自对应的信息损失求和,得到求和结果。将第一剩余数据子集对应的第一信息损失与求和结果求商,并将得到的商值确定为第一预定概率。
在一个实施例中,可以根据公式4确定第一剩余数据子集对应的第一预定概率。
其中,p(G)为第一剩余数据子集对应的第一预定概率,Di为各剩余数据子集构成的集合,G′为各剩余数据子集中任一剩余数据子集,L()为信息损失。
应理解,下代子集集合中的子集数目与当代子集集合中的子集数目相同。
需要说明,上述多轮迭代的结束条件例如可以为迭代次数达到预定轮次。
步骤S210,从多轮迭代后得到的下代子集集合中,选取对应信息熵最大的数据子集作为最终数据子集。
应理解,该最终数据子集即为从供应链数据集中选取的最具有代表性的数据子集。
步骤S212,将最终数据子集输入自动机器学习AutoML工具,得到初始供应链数据模型。
当然,在实际应用中,还可以向AutoML工具中输入初始选定的机器学习模型(比如,树模型或者神经网络模型等等)以及训练目标(比如,预定义的损失值:0.7)。
以初始选定的机器学习模型为神经网络模型为例来说,上述初始供应链数据模型即为经过结构优化和参数调整后的神经网络模型。其中的结构优化包括但不限于网络层数的选择等等。
步骤S214,将供应链数据集和初始供应链数据模型,再次输入AutoML工具,得到目标供应链数据模型。
需要说明,这里将初始供应链数据模型再次输入AutoML工具,可以理解为是对初始供应链数据模型进行微调的过程。比如,在上述初始供应链数据模型基于神经网络模型训练得到时,这里的微调可以包括,固定神经网络模型的部分网络层的参数,然后调整其它部分网络层的参数。
应理解,在步骤S214中,还可以向AutoML工具中输入本次的训练目标,本说明书在此不复赘述。
需要说明,本说明书实施例所训练的目标供应链数据模型包括回归模型或分类模型。具体地,在供应链数据所包括的标定标签为回归值时,上述目标供应链数据模型为回归模型;而在供应链数据所包括的标定标签为分类值时,上述目标供应链数据模型为分类模型。
综合以上,本说明书一个实施例提供的一种供应链数据模型的自动更新方法,首先会从供应链数据集中选取出最具有代表性的数据子集,然后基于该数据子集,利用AutoML工具来训练最终使用的目标供应链数据模型,由此加速了AutoML工具获取最优模型的速度,并大幅度降低了计算成本,同时还尽可能地保持了模型精度。其中,可以保持模型精度的原因在于:本方案是在最具代表性的数据子集上应用AutoML工具,而非随机的数据子集上,所以精度损失较小。
此外,本方案还创新地提出了将信息熵作为衡量数据集的标准,并提供了一个快速有效的遗传算法(即上述多轮迭代的执行过程),从而能够有效地选取出上述最具有代表性的数据子集。
最后,本方案还可以与现有最先进的AutoML工具兼容,允许数据开发工程师继续使用原有惯用的框架。
与上述一种供应链数据模型的自动更新方法对应地,本说明书一个实施例还提供的一种供应链数据模型的自动更新装置,如图5所示,该装置可以包括:
获取单元502,用于获取供应链数据集,其中包括L个供应链数据,每个供应链数据包括K-1个数据特征和1个标定标签,其中,L和K均为正整数。
排布单元504,用于将供应链数据集排布为L行K列的数据阵列,其中的L行分别对应于L个供应链数据,K列分别对应于K-1个数据特征和1个标定标签。
抽取单元506,用于针对上述数据阵列重复执行多次行列抽取,并基于每次行列抽取得到的各行和各列,形成1个数据子集,如此得到N个数据子集。每个行列抽取的各列至少包括对应于标定标签的列,N为正整数。
执行单元508,用于对基于N个数据子集形成的初代子集集合执行多轮迭代。执行单元508包括:
替换子模块5082,用于从当代子集集合中抽样若干初始数据子集,针对每个初始数据子集,基于数据阵列,随机地对其中的行或列进行替换,得到更新数据子集。将得到的各个更新数据子集添加到当代子集集合中,得到中间子集集合。
互换子模块5084,用于从中间子集集合中抽样若干子集对,针对每个子集对,在其中的两个数据子集之间进行行或列互换,得到更新子集对。将各个更新子集对中的两个更新子集添加到中间子集合,得到候选子集合。
确定子模块5086,用于对于候选子集合中各候选数据子集,基于对应于各候选数据子集的各个信息熵与对应于供应链数据集的总信息熵,确定对应于各候选数据子集的各个信息损失。
选取子模块5088,用于基于各个信息损失,从候选子集合中选取一部分下代数据子集,并按照预定概率,从候选子集合的各剩余数据子集中选取另一部分下代数据子集。上述一部分下代数据子集和另一部分下代数据子集形成下代子集集合。
选取单元510,用于从多轮迭代后得到的下代子集集合中,选取对应信息熵最大的数据子集作为最终数据子集。
输入单元512,用于将最终数据子集输入自动机器学习AutoML工具,得到初始供应链数据模型。
输入单元512,还用于将供应链数据集和初始供应链数据模型,再次输入AutoML工具,得到目标供应链数据模型。
在一个实施例中,替换子模块5082具体用于:
确定对应于初始数据子集的初始行编号集合和初始列编号集合;
将初始行编号集合中的若干元素,分别替换为总行编号集合中与其不同的其它行编号,得到更新行编号集合;其中,总行编号集合和总列编号集合基于上述数据阵列确定;或者,
将初始列编号集合中的若干元素,分别替换为总列编号集合中与其不同的其它列编号,得到更新列编号集合;
基于更新行编号集合以及初始列编号集合,确定更新数据子集;或者,基于更新列编号集合以及初始行编号集合,确定更新数据子集。
在一个实施例中,上述子集对中的两个数据子集包括第一子集和第二子集;互换子模块5084具体用于:
对第一子集中的第一目标行/列进行切割,得到在前的第一行/列片段和在后的第一行/列片段,以及对第二子集中的第二目标行/列进行切割,得到在前的第二行/列片段和在后的第二行/列片段;
对在前的第一行/列片段和在后的第二行/列片段进行拼接,得到第一更新目标行/列,以及对在前的第二行/列片段和在后的第一行/列片段进行拼接,得到第二更新目标行/列;
至少基于第一更新目标行/列,确定第一更新子集,以及至少基于第二更新目标行/列,确定第二更新子集;该第一更新子集和第二更新子集形成更新子集对。
在一个实施例中,上述候选子集合包括目标数据子集,该目标数据子集排布为r行c列的子阵列,r和c均为正整数,且r≤L,c≤K;该目标数据子集对应的目标信息熵通过以下步骤获得:
对于子阵列中的第i列,根据r行分别对应于第i列的r个数值各自的出现频率,计算对应于第i列的信息熵;
对c列各自对应的c个信息熵求平均,得到目标信息熵;
上述总信息熵通过以下步骤获得:
对于数据阵列中的第j列,根据L行分别对应于第j列的L个数值各自的出现频率,计算对应于第j列的信息熵;
对K列各自对应的K个信息熵求平均,得到总信息熵;
其中,i,j均为正整数,且1≤i≤c,1≤j≤K。
在一个实施例中,确定子模块5086具体用于:
对于任意的第一候选数据子集,将对应的第一信息熵与总信息熵求差,并将差值的绝对值确定为对应于第一候选数据子集的第一信息损失。
在一个实施例中,选取子模块5088具体用于:
按照对应的信息损失从小到大的顺序,对候选子集合中的各个数据子集进行排序;
从排序后的各个数据子集中选取对应的信息损失小于预定阈值的数据子集作为一部分下代数据子集。
在一个实施例中,上述各剩余数据子集包括第一剩余数据子集,第一剩余数据子集对应的第一预定概率通过如下步骤获得:
对各剩余数据子集各自对应的信息损失求和,得到求和结果;
将第一剩余数据子集对应的第一信息损失与求和结果求商,并将得到的商值确定为第一预定概率。
在一个实施例中,上述K-1个数据特征包括,库存特征、生产特征和销售特征;上述标定标签用于指示对应供应链数据的销量;或者,上述标定标签用于指示对应供应链数据是否具有风险。
在一个更具体的实施例中,
上述库存特征包括以下中的至少一项:仓库所在省市区、仓储运输资源、库房、库位、物料类别、物料名称、规格型号、计量单位、当前库存数、历史最高库存数、历史最低库存数、平均库存时间、库存同比以及库存环比;
上述生产特征包括以下中的至少一项:生产厂商、生产厂商所在省市区、物料类别、物料名称、规格型号、计量单位、产能、日产量、生产周期、本月累计产量、本年累计产量、产量同比以及产量环比;
上述销售特征包括以下中的至少一项:合同编号、合同数量、合同时间、客户名称、客户所在省市区、客户信用等级、客户授信额度、订单编号、订单数量、订单时间、提货单编号、提货单数量、提货单时间、物料类别、物料名称、规格型号、计量单位、本月累计出库数、本年累计出库数、本月累计开票数、本年累计开票数、本月资金回笼数、本年资金回笼数、本月应收账款、本年应收账款、销售同比以及销售环比。
本说明书上述实施例装置的各功能单元的功能,可以通过上述方法实施例的各步骤来实现,因此,本说明书一个实施例提供的装置的具体工作过程,在此不复赘述。
本说明书一个实施例提供的一种供应链数据模型的自动更新装置,可以降低模型的训练成本。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
结合本说明书公开内容所描述的方法或者算法的步骤可以硬件的方式来实现,也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外,该AS IC可以位于服务器中。当然,处理器和存储介质也可以作为分立组件存在于服务器中。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述的具体实施方式,对本说明书的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本说明书的具体实施方式而已,并不用于限定本说明书的保护范围,凡在本说明书的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书的保护范围之内。
Claims (10)
1.一种供应链数据模型的自动更新方法,包括:
获取供应链数据集,其中包括L个供应链数据,每个供应链数据包括K-1个数据特征和1个标定标签;其中,L和K均为正整数;
将所述供应链数据集排布为L行K列的数据阵列,其中的L行分别对应于L个供应链数据,K列分别对应于K-1个数据特征和1个标定标签;
针对所述数据阵列重复执行多次行列抽取,并基于每次行列抽取得到的各行和各列,形成1个数据子集;如此得到N个数据子集;所述各列至少包括对应于标定标签的列;N为正整数;
对基于所述N个数据子集形成的初代子集集合执行多轮迭代,其中,任意的第t轮迭代包括:
从当代子集集合中抽样若干初始数据子集,针对每个初始数据子集,基于所述数据阵列,随机地对其中的行或列进行替换,得到更新数据子集;将得到的各个更新数据子集添加到当代子集集合中,得到中间子集集合;
从所述中间子集集合中抽样若干子集对,针对每个子集对,在其中的两个数据子集之间进行行或列互换,得到更新子集对;将各个更新子集对中的两个更新子集添加到所述中间子集合,得到候选子集合;
对于所述候选子集合中各候选数据子集,基于对应于所述各候选数据子集的各个信息熵与对应于所述供应链数据集的总信息熵,确定对应于所述各候选数据子集的各个信息损失;
基于所述各个信息损失,从所述候选子集合中选取一部分下代数据子集,并按照预定概率,从所述候选子集合的各剩余数据子集中选取另一部分下代数据子集;所述一部分下代数据子集和另一部分下代数据子集形成下代子集集合;
从所述多轮迭代后得到的下代子集集合中,选取对应信息熵最大的数据子集作为最终数据子集;
将所述最终数据子集输入自动机器学习AutoML工具,得到初始供应链数据模型;
将所述供应链数据集和所述初始供应链数据模型,再次输入所述AutoML工具,得到目标供应链数据模型。
2.根据权利要求1所述的方法,其中,所述基于所述数据阵列,随机地对其中的行或列进行替换,包括:
确定对应于所述初始数据子集的初始行编号集合和初始列编号集合;
将所述初始行编号集合中的若干元素,分别替换为总行编号集合中与其不同的其它行编号,得到更新行编号集合;其中,所述总行编号集合和所述总列编号集合基于所述数据阵列确定;或者,
将所述初始列编号集合中的若干元素,分别替换为总列编号集合中与其不同的其它列编号,得到更新列编号集合;
基于更新行编号集合以及初始列编号集合,确定更新数据子集;或者,基于更新列编号集合以及初始行编号集合,确定更新数据子集。
3.根据权利要求1所述的方法,其中,所述子集对中的两个数据子集包括第一子集和第二子集;所述在其中的两个数据子集之间进行行或列互换,包括:
对所述第一子集中的第一目标行/列进行切割,得到在前的第一行/列片段和在后的第一行/列片段,以及对所述第二子集中的第二目标行/列进行切割,得到在前的第二行/列片段和在后的第二行/列片段;
对在前的第一行/列片段和在后的第二行/列片段进行拼接,得到第一更新目标行/列,以及对在前的第二行/列片段和在后的第一行/列片段进行拼接,得到第二更新目标行/列;
至少基于所述第一更新目标行/列,确定第一更新子集,以及至少基于所述第二更新目标行/列,确定第二更新子集;所述第一更新子集和第二更新子集形成所述更新子集对。
4.根据权利要求1所述的方法,其中,所述候选子集合包括目标数据子集,所述目标数据子集排布为r行c列的子阵列,r和c均为正整数,且r≤L,c≤K;所述目标数据子集对应的目标信息熵通过以下步骤获得:
对于所述子阵列中的第i列,根据所述r行分别对应于所述第i列的r个数值各自的出现频率,计算对应于所述第i列的信息熵;
对所述c列各自对应的c个信息熵求平均,得到所述目标信息熵;
所述总信息熵通过以下步骤获得:
对于所述数据阵列中的第j列,根据所述L行分别对应于所述第j列的L个数值各自的出现频率,计算对应于所述第j列的信息熵;
对所述K列各自对应的K个信息熵求平均,得到所述总信息熵;
其中,i,j均为正整数,且1≤i≤c,1≤j≤K。
5.根据权利要求1所述的方法,其中,所述确定对应于所述各候选数据子集的各个信息损失,包括:
对于任意的第一候选数据子集,将对应的第一信息熵与总信息熵求差,并将差值的绝对值确定为对应于所述第一候选数据子集的第一信息损失。
6.根据权利要求1所述的方法,其中,所述基于所述各个信息损失,从所述候选子集合中选取一部分下代数据子集,包括:
按照对应的信息损失从小到大的顺序,对所述候选子集合中的各个数据子集进行排序;
从排序后的各个数据子集中选取对应的信息损失小于预定阈值的数据子集作为所述一部分下代数据子集。
7.根据权利要求1所述的方法,其中,所述各剩余数据子集包括第一剩余数据子集,所述第一剩余数据子集对应的第一预定概率通过如下步骤获得:
对所述各剩余数据子集各自对应的信息损失求和,得到求和结果;
将所述第一剩余数据子集对应的第一信息损失与所述求和结果求商,并将得到的商值确定为所述第一预定概率。
8.根据权利要求1所述的方法,其中,所述K-1个数据特征包括,库存特征、生产特征和销售特征;所述标定标签用于指示对应供应链数据的销量;或者,所述标定标签用于指示对应供应链数据是否具有风险。
9.根据权利要求8所述的方法,其中,
所述库存特征包括以下中的至少一项:仓库所在省市区、仓储运输资源、库房、库位、物料类别、物料名称、规格型号、计量单位、当前库存数、历史最高库存数、历史最低库存数、平均库存时间、库存同比以及库存环比;
所述生产特征包括以下中的至少一项:生产厂商、生产厂商所在省市区、物料类别、物料名称、规格型号、计量单位、产能、日产量、生产周期、本月累计产量、本年累计产量、产量同比以及产量环比;
所述销售特征包括以下中的至少一项:合同编号、合同数量、合同时间、客户名称、客户所在省市区、客户信用等级、客户授信额度、订单编号、订单数量、订单时间、提货单编号、提货单数量、提货单时间、物料类别、物料名称、规格型号、计量单位、本月累计出库数、本年累计出库数、本月累计开票数、本年累计开票数、本月资金回笼数、本年资金回笼数、本月应收账款、本年应收账款、销售同比以及销售环比。
10.一种供应链数据模型的自动更新装置,包括:
获取单元,用于获取供应链数据集,其中包括L个供应链数据,每个供应链数据包括K-1个数据特征和1个标定标签;其中,L和K均为正整数;
排布单元,用于将所述供应链数据集排布为L行K列的数据阵列,其中的L行分别对应于L个供应链数据,K列分别对应于K-1个数据特征和1个标定标签;
抽取单元,用于针对所述数据阵列重复执行多次行列抽取,并基于每次行列抽取得到的各行和各列,形成1个数据子集;如此得到N个数据子集;所述各列至少包括对应于标定标签的列;N为正整数;
执行单元,用于对基于所述N个数据子集形成的初代子集集合执行多轮迭代;所述执行单元包括:
替换子模块,用于从当代子集集合中抽样若干初始数据子集,针对每个初始数据子集,基于所述数据阵列,随机地对其中的行或列进行替换,得到更新数据子集;将得到的各个更新数据子集添加到当代子集集合中,得到中间子集集合;
互换子模块,用于从所述中间子集集合中抽样若干子集对,针对每个子集对,在其中的两个数据子集之间进行行或列互换,得到更新子集对;将各个更新子集对中的两个更新子集添加到所述中间子集合,得到候选子集合;
确定子模块,用于对于所述候选子集合中各候选数据子集,基于对应于所述各候选数据子集的各个信息熵与对应于所述供应链数据集的总信息熵,确定对应于所述各候选数据子集的各个信息损失;
选取子模块,用于基于所述各个信息损失,从所述候选子集合中选取一部分下代数据子集,并按照预定概率,从所述候选子集合的各剩余数据子集中选取另一部分下代数据子集;所述一部分下代数据子集和另一部分下代数据子集形成下代子集集合;
选取单元,用于从所述多轮迭代后得到的下代子集集合中,选取对应信息熵最大的数据子集作为最终数据子集;
输入单元,用于将所述最终数据子集输入自动机器学习AutoML工具,得到初始供应链数据模型;
所述输入单元,还用于将所述供应链数据集和所述初始供应链数据模型,再次输入所述AutoML工具,得到目标供应链数据模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310685886.7A CN116975626B (zh) | 2023-06-09 | 2023-06-09 | 一种供应链数据模型的自动更新方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310685886.7A CN116975626B (zh) | 2023-06-09 | 2023-06-09 | 一种供应链数据模型的自动更新方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116975626A true CN116975626A (zh) | 2023-10-31 |
CN116975626B CN116975626B (zh) | 2024-04-19 |
Family
ID=88480532
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310685886.7A Active CN116975626B (zh) | 2023-06-09 | 2023-06-09 | 一种供应链数据模型的自动更新方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116975626B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117496545A (zh) * | 2024-01-02 | 2024-02-02 | 物产中大数字科技有限公司 | 一种面向pdf文档的表格数据融合处理方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340121A (zh) * | 2020-02-28 | 2020-06-26 | 支付宝(杭州)信息技术有限公司 | 目标特征的确定方法及装置 |
CN114580557A (zh) * | 2022-03-10 | 2022-06-03 | 北京中知智慧科技有限公司 | 基于语义分析的文献相似度确定方法及装置 |
CN114764603A (zh) * | 2022-05-07 | 2022-07-19 | 支付宝(杭州)信息技术有限公司 | 针对用户分类模型、业务预测模型确定特征的方法及装置 |
WO2023039925A1 (zh) * | 2021-09-15 | 2023-03-23 | 深圳前海环融联易信息科技服务有限公司 | 企业分类模型智能构建方法、装置、设备及介质 |
CN115860641A (zh) * | 2023-01-10 | 2023-03-28 | 广州宇浪软件科技有限公司 | 一种基于信息共享的物流仓储管理方法及系统 |
CN115880533A (zh) * | 2022-12-26 | 2023-03-31 | 高速铁路建造技术国家工程研究中心 | 基于自适应子集搜索和深度学习的桥梁表观裂缝识别方法 |
CN115982390A (zh) * | 2023-03-17 | 2023-04-18 | 北京邮电大学 | 一种产业链构建和迭代扩充开发方法 |
CN116187524A (zh) * | 2022-12-19 | 2023-05-30 | 物产中大数字科技有限公司 | 一种基于机器学习的供应链分析模型对比方法及装置 |
CN116187695A (zh) * | 2023-02-20 | 2023-05-30 | 联想(北京)有限公司 | 一种决策分配方法及装置、电子设备、存储介质 |
-
2023
- 2023-06-09 CN CN202310685886.7A patent/CN116975626B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340121A (zh) * | 2020-02-28 | 2020-06-26 | 支付宝(杭州)信息技术有限公司 | 目标特征的确定方法及装置 |
WO2023039925A1 (zh) * | 2021-09-15 | 2023-03-23 | 深圳前海环融联易信息科技服务有限公司 | 企业分类模型智能构建方法、装置、设备及介质 |
CN114580557A (zh) * | 2022-03-10 | 2022-06-03 | 北京中知智慧科技有限公司 | 基于语义分析的文献相似度确定方法及装置 |
CN114764603A (zh) * | 2022-05-07 | 2022-07-19 | 支付宝(杭州)信息技术有限公司 | 针对用户分类模型、业务预测模型确定特征的方法及装置 |
CN116187524A (zh) * | 2022-12-19 | 2023-05-30 | 物产中大数字科技有限公司 | 一种基于机器学习的供应链分析模型对比方法及装置 |
CN115880533A (zh) * | 2022-12-26 | 2023-03-31 | 高速铁路建造技术国家工程研究中心 | 基于自适应子集搜索和深度学习的桥梁表观裂缝识别方法 |
CN115860641A (zh) * | 2023-01-10 | 2023-03-28 | 广州宇浪软件科技有限公司 | 一种基于信息共享的物流仓储管理方法及系统 |
CN116187695A (zh) * | 2023-02-20 | 2023-05-30 | 联想(北京)有限公司 | 一种决策分配方法及装置、电子设备、存储介质 |
CN115982390A (zh) * | 2023-03-17 | 2023-04-18 | 北京邮电大学 | 一种产业链构建和迭代扩充开发方法 |
Non-Patent Citations (2)
Title |
---|
宋勇;蔡志平;: "一种基于信息论模型的入侵检测特征提取方法", 电子科技大学学报, no. 02, 30 March 2018 (2018-03-30) * |
李雄;丁治明;苏醒;郭黎敏;: "基于词项聚类的文本语义标签抽取研究", 计算机科学, no. 2, 15 November 2018 (2018-11-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117496545A (zh) * | 2024-01-02 | 2024-02-02 | 物产中大数字科技有限公司 | 一种面向pdf文档的表格数据融合处理方法及装置 |
CN117496545B (zh) * | 2024-01-02 | 2024-03-15 | 物产中大数字科技有限公司 | 一种面向pdf文档的表格数据融合处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116975626B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20090319310A1 (en) | Information Criterion-Based Systems And Methods For Constructing Combining Weights For Multimodel Forecasting And Prediction | |
CN111178639A (zh) | 一种基于多模型融合实现预测的方法及装置 | |
CN111967971A (zh) | 银行客户数据处理方法及装置 | |
WO2016183391A1 (en) | System, method and computer-accessible medium for making a prediction from market data | |
CN116975626B (zh) | 一种供应链数据模型的自动更新方法及装置 | |
CN111476677A (zh) | 一种基于大数据的用电类别售电量分析与预测方法及系统 | |
CN108022123B (zh) | 一种业务模型的自动调整方法及装置 | |
US7890439B2 (en) | Tuning of problem solvers | |
WO2015040806A1 (en) | Hierarchical latent variable model estimation device, hierarchical latent variable model estimation method, supply amount prediction device, supply amount prediction method, and recording medium | |
CN111260056B (zh) | 一种网络模型蒸馏方法及装置 | |
CN115858534A (zh) | 基于金豺优化算法的服务价值链业务数据特征选择方法 | |
EP4172890A1 (en) | Method and system for generating an ai model using constrained decision tree ensembles | |
CN118052559A (zh) | 一种基于客户资源智能管理系统 | |
CN106709572A (zh) | 一种数据处理方法及设备 | |
US20230334360A1 (en) | Model-independent feature selection | |
CN115712775A (zh) | 产品推荐方法、装置、计算机设备和存储介质 | |
CN116522126A (zh) | 一种逻辑回归模型建立方法及装置 | |
CN115333957A (zh) | 基于用户行为和企业业务特征的业务流量预测方法及系统 | |
CN114461619A (zh) | 能源互联网多源数据融合方法、装置、终端及存储介质 | |
CN109271132B (zh) | 一种基于机器学习模型的排序方法 | |
Ekin | Solution Approach To P-Median Facility Location Problem With Integer Programming And Genetic Algorithm | |
CN116402241B (zh) | 一种基于多模型的供应链数据预测方法及装置 | |
CN118378074B (zh) | 一种稀疏矩阵求解过程中进行排序算法调度的方法及系统 | |
CN115249166B (zh) | 出清电价预测方法、装置、计算机设备和存储介质 | |
CN116737745B (zh) | 一种更新供应链网络图中实体向量表示的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |