CN116760723A - 基于预测树模型的数据预测方法、装置、设备及介质 - Google Patents
基于预测树模型的数据预测方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN116760723A CN116760723A CN202310559646.2A CN202310559646A CN116760723A CN 116760723 A CN116760723 A CN 116760723A CN 202310559646 A CN202310559646 A CN 202310559646A CN 116760723 A CN116760723 A CN 116760723A
- Authority
- CN
- China
- Prior art keywords
- data
- prediction
- sequence
- sub
- sequence data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000012216 screening Methods 0.000 claims abstract description 11
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 8
- 239000004973 liquid crystal related substance Substances 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/147—Network analysis or design for predicting network behaviour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本实施例公开了一种基于预测树模型的数据预测方法、装置、设备及介质。其中,该方法包括:利用资产设备的历史流量序列数据作为训练样本输入初始的预测树模型进行模型训练,得到训练好的预测树模型;将待预测的目标流量序列数据输入训练好的预测树模型;获取训练好的预测树模型输出的目标流量序列数据的若干个候选预测数据;从若干个候选预测数据中筛选出目标预测数据。该方法能够节省了预测数模型结构的存储空间、运算量和模型训练时长,减少计算机硬件资源的占用,提高了流量序列数据预测结果的准确率。
Description
技术领域
本公开涉及网络通信技术领域,尤其涉及一种基于预测树模型的数据预测方法、装置、设备及介质。
背景技术
序列预测可以预测某个特定事件或数据可能会在另一个事件或数据之后发生,序列预测广泛应用于各个行业,例如在网络安全和运维领域进行重点指标的序列预测、安全事件序列、日志事件序列等序列预测问题。其中,网络流量数据在不同的业务系统中,都是重点监控的数据对象。
相关技术中针对网络流量数据的序列预测方法需要不同的数据类型和特征进行关联分析,涉及到较多的模型、参数和特征数据,模型结构比较复杂,模型训练耗时较长,运算量较大,占用的计算机硬件资源较多。
发明内容
有鉴于此,本公开实施例提供了一种基于预测树模型的数据预测方法、装置、设备及介质,能够针对资产设备的流量序列数据进行子序列构建,然后构建和训练预测树模型,最后利用预测树模型对流量序列数据的下一个数据进行预测。该方法实现了将大量流量序列数据进行拆分和压缩,节省了预测数模型结构的存储空间、运算量和模型训练时长,减少了计算机硬件资源的占用,提高了流量序列数据预测结果的准确率。
第一方面,本公开实施例提供了一种基于预测树模型的数据预测方法,采用如下技术方案:
利用资产设备的历史流量序列数据作为训练样本输入初始的预测树模型进行模型训练,得到训练好的预测树模型;
将待预测的目标流量序列数据输入所述训练好的预测树模型;
获取所述训练好的预测树模型输出的所述目标流量序列数据的若干个候选预测数据;
从所述若干个候选预测数据中筛选出目标预测数据。
在一些实施例中,利用资产设备的历史流量序列数据作为训练样本输入初始的预测树模型进行模型训练,得到训练好的预测树模型,包括:
将所述历史流量序列数据进行子序列构造,得到若干条子序列数据;
将每一条所述子序列数据依次插入到所述初始的预测树模型的预测树结构和索引倒序表,并构建查找搜索表;
基于查找搜索表,获取所述初始的预测树模型输出的预测数据;
若所述预测数据与历史预测数据的相似度大于或等于预设的相似度阈值,则所述初始的预测树模型训练成功,得到所述训练好的预测树模型;
若所述预测数据与历史预测数据的相似度小于预设的相似度阈值,则通过调整所述初始的预测树模型中的参数,直至所述初始的预测树模型训练成功。
在一些实施例中,将所述历史流量序列数据进行子序列构造,得到若干条子序列数据,包括:
统计所述资产设备的历史流量数据在单位时间内全部会话的总流量;
根据时间先后顺序将全部会话的总流量进行排序,得到所述历史流量序列数据;
将所述历史流量序列数据基于滑动窗口构造若干条子序列数据,其中,所述子序列数据的参数包括所述子序列数据的最小长度和最大长度、所述滑动窗口的大小。
在一些实施例中,将每一条所述子序列数据依次插入到所述初始的预测树模型的预测树结构,并构建查找搜索表,包括:
将第一条子序列数据的第一个元素作为第一子节点插入到所述预测树结构的根节点下;
将所述第一条子序列数据的第二个元素作为所述第一个元素的第一子节点的子节点插入到所述第一子节点下,直至添加完所述第一条子序列数据中全部的元素;
当第二条子序列数据的第一个元素与所述预测树结构中的子节点不重复时,则将所述第二条子序列数据的第一个元素作为新的子节点添加到所述预测树结构的根节点下;
当所述第二条子序列数据的第一个元素与所述预测树结构中的子节点重复时,则继续判断所述第二条子序列数据的第二个元素是否已经存在于所述预测树结构中的子节点中,直至添加完所述第二条子序列数据中全部的元素;
将每一条所述子序列数据依次插入到所述预测树结构时,同时生成查找搜索表,其中,所述查找搜索表包括每一条所述子序列数据的序列标识、每一条所述子序列数据的最后一个元素以及最后一个元素所在的所述预测树结构的叶子节点。
在一些实施例中,将每一条所述子序列数据依次插入到索引倒序表,包括:
将每一条所述子序列数据中的元素作为关键字插入到所述索引倒序表的第一列,其中,所述索引倒序表中的每个关键字之间不重复;
在索引倒序表中依次增加包含每一条所述子序列数据的序列标识的相应列;
根据每一条所述子序列数据的序列标识,构建每一条所述子序列数据中的每一个元素与所述索引倒序表中每一个关键字之间的映射关系信息,并将所述映射关系信息添加到相应列。
在一些实施例中,获取所述训练好的预测树模型输出的所述目标流量序列数据的若干个候选预测数据,包括:
通过所述索引倒序表查找与所述目标流量序列数据包含相同元素的相似序列;
将所述相似序列中与所述目标流量序列数据的最后一个元素相同的元素之后的序列作为后续序列;
在所述后续序列中去掉与所述目标流量序列数据相同的元素,得到所述候选预测数据。
在一些实施例中,从所述若干个候选预测数据中筛选出目标预测数据,包括:
计算每一个候选预测数据在全部的相似序列中出现的次数得到支持度;
计算包含所述候选预测数据的目标流量序列数据的序列总数得到置信度;
根据所述支持度和置信度,计算得到每一个候选预测数据的评估评分;
筛选评估评分最高的候选预测数据作为所述目标预测数据。
第二方面,本公开实施例还提供了一种基于预测树模型的数据预测装置,采用如下技术方案:
样本输入单元,被配置为利用资产设备的历史流量序列数据作为训练样本输入初始的预测树模型进行模型训练,得到训练好的预测树模型;
数据输入单元,被配置为将待预测的目标流量序列数据输入所述训练好的预测树模型;
数据获取单元,被配置为获取所述训练好的预测树模型输出的所述目标流量序列数据的若干个候选预测数据;
数据筛选单元,被配置为从所述若干个候选预测数据中筛选出目标预测数据。
第三方面,本公开实施例还提供了一种电子设备,采用如下技术方案:
所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行以上任一所述的基于预测树模型的数据预测方法。
第四方面,本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行以上任一所述的基于预测树模型的数据预测方法。
本公开实施例提供的一种基于预测树模型的数据预测方法,能够针对资产设备的流量序列数据进行子序列构建,然后构建和训练预测树模型,最后利用预测树模型对流量序列数据的下一个数据进行预测。该方法实现了将大量流量序列数据进行拆分和压缩,节省了预测数模型结构的存储空间、运算量和模型训练时长,减少了计算机硬件资源的占用,提高了流量序列数据预测结果的准确率。
上述说明仅是本公开技术方案的概述,为了能更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为让本公开的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本公开实施例提供的一种基于预测树模型的数据预测方法的流程示意图;
图2为本公开实施例提供的将两条子序列数据插入到初始的预测树结构的示意图;
图3为本公开实施例提供的通过查找搜索表建立子序列数据的最后一个元素与预测树模型的终端节点的关系示意图;
图4为本公开实施例提供的一种基于预测树模型的数据预测装置的结构示意图;
图5为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图对本公开实施例进行详细描述。
应当明确,以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目各方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本公开的基本构想,图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
图1为本公开实施例提供的一种基于预测树模型的数据预测方法的流程示意图,本公开实施例提供的一种基于预测树模型的数据预测方法可以包括以下步骤:
S101、利用资产设备的历史流量序列数据作为训练样本输入初始的预测树模型进行模型训练,得到训练好的预测树模型。
S102、将待预测的目标流量序列数据输入训练好的预测树模型。
S103、获取训练好的预测树模型输出的目标流量序列数据的若干个候选预测数据。
S104、从若干个候选预测数据中筛选出目标预测数据。
本公开实施例能够针对资产设备的流量序列数据进行子序列构建,然后构建和训练预测树模型,最后利用预测树模型对流量序列数据的下一个数据进行预测。该方法实现了将大量流量序列数据进行拆分和压缩,节省了预测数模型结构的存储空间、运算量和模型训练时长,减少了计算机硬件资源的占用,提高了流量序列数据预测结果的准确率。
在一些实施例中,利用资产设备的历史流量序列数据作为训练样本输入初始的预测树模型进行模型训练,得到训练好的预测树模型,包括:
将历史流量序列数据进行子序列构造,得到若干条子序列数据;
将每一条子序列数据依次插入到初始的预测树模型的预测树结构和索引倒序表,并构建查找搜索表;
基于查找搜索表,获取初始的预测树模型输出的预测数据;
若预测数据与历史预测数据的相似度大于或等于预设的相似度阈值,则初始的预测树模型训练成功,得到训练好的预测树模型;
若预测数据与历史预测数据的相似度小于预设的相似度阈值,则通过调整初始的预测树模型中的参数,直至初始的预测树模型训练成功。
在一些实施例中,将历史流量序列数据进行子序列构造,得到若干条子序列数据,包括:
统计资产设备的历史流量数据在单位时间内全部会话的总流量;
根据时间先后顺序将全部会话的总流量进行排序,得到历史流量序列数据;
将历史流量序列数据基于滑动窗口构造若干条子序列数据,其中,子序列数据的参数包括子序列数据的最小长度和最大长度、滑动窗口的大小。
可选地,可以统计资产设备的历史流量数据在每一秒钟内发生的所有会话的总流量,并且以数据单位为KB的方式保存会话的总流量,按时间发生的先后顺序将所有会话的流量进行排序,得到历史流量序列数据。将历史流量序列数据通过滑动窗口的方式构造多条子序列数据,子序列数据的参数包括最小长度Lmin、最大长度Lmax、滑动窗口W,例如,最小长度Lmin可以取值为8,最大长度Lmax可以取值为32,滑动窗口W可以取值为1。
需要说明的是,在实际建模过程中,可以根据实际会话的数据量大小或技术人员的评估经验,合理设置子序列数据的相关参数,可以随机选取子序列数据的相关参数,本公开实施例对此不做限定。
在一些实施例中,将每一条子序列数据依次插入到初始的预测树模型的预测树结构,并构建查找搜索表,包括:
将第一条子序列数据的第一个元素作为第一子节点插入到预测树结构的根节点下;
将第一条子序列数据的第二个元素作为第一个元素的第一子节点的子节点插入到第一子节点下,直至添加完第一条子序列数据中全部的元素;
当第二条子序列数据的第一个元素与预测树结构中的子节点不重复时,则将第二条子序列数据的第一个元素作为新的子节点添加到预测树结构的根节点下;
当第二条子序列数据的第一个元素与预测树结构中的子节点重复时,则继续判断第二条子序列数据的第二个元素是否已经存在于预测树结构中的子节点中,直至添加完第二条子序列数据中全部的元素;
将每一条子序列数据依次插入到预测树结构时,同时生成查找搜索表,其中,查找搜索表包括每一条子序列数据的序列标识、每一条子序列数据的最后一个元素以及最后一个元素所在的预测树结构的叶子节点。
可选地,将每一条子序列数据依次插入到初始的预测树模型的预测树结构,预测树结构将生成多个叶子节点,一条子序列数据在这个预测树结构中可以表现为从根节点的第一个子节点开始的一条完整分支或者部分分支。
图2为本公开实施例提供的将两条子序列数据插入到初始的预测树结构的示意图,首先,第一条子序列数据为序列1:A,B,C,从该序列1的第一个元素A开始,将第一个元素A作为子节点添加到预测树结构的根节点下,然后将第一条子序列数据的第二个元素B作为第一个元素A的第一子节点的子节点插入到第一子节点下,将第一条子序列数据的第三个元素C作为第二个元素B的子节点插入到B节点下。以此类推,直至添加完序列1中所有的元素。
其次,第二条子序列数据为序列2:A,B,D,先检查第二条子序列数据的第一个元素A是否已经是根节点的一个子节点,由于第二条子序列数据的第一个元素A已经是根节点的一个子节点了,因此继续判断序列2的第二个元素B,判断第二个元素B是否已经存在于第一个元素A节点的子节点中;由于第二个元素B已经存在于第一个元素A节点的子节点中,则继续判断序列2的第三个元素D是否存在于预测树结构中的子节点,由于序列2的第三个元素D不存在于预测树结构中的子节点,则将第三个元素D作为新的子节点添加到预测树结构中。以此类推,直至判断和添加完第二条子序列数据中的所有元素。
图3为本公开实施例提供的通过查找搜索表建立子序列数据的最后一个元素与预测树模型的终端节点的关系示意图,本公开实施例将每一条子序列数据依次插入到预测树结构时同时生成查找搜索表,该查找搜索表包括子序列数据的序列标识,以及该子序列数据的最后一个元素,以及最后一个元素所在的预测树模型的叶子节点。通过子序列数据的最后一个元素和最后一个元素所指向的预测树结构的某个叶子节点,通过树结构向上查找,即可快速找回该子序列的完整数据序列。
查找搜索表可以选择字典数据结构,关键字为序列标识,相应的值为预测树结构中的序列的终端节点。例如,序列1为(A,B,C),序列2为(A,B,D);序列1的终端节点为节点C,序列2的终端节点为节点D,因此查找搜索表可以表示为:查找搜索表={'序列1':节点C,'序列2':节点D}。
在一些实施例中,将每一条子序列数据依次插入到索引倒序表,包括:
将每一条子序列数据中的元素作为关键字插入到索引倒序表的第一列,其中,索引倒序表中的每个关键字之间不重复;
在索引倒序表中依次增加包含每一条子序列数据的序列标识的相应列;
根据每一条子序列数据的序列标识,构建每一条子序列数据中的每一个元素与索引倒序表中每一个关键字之间的映射关系信息,并将映射关系信息添加到相应列;
其中,映射关系信息包括:当元素与关键字相匹配时,则采用二进制1表示元素与关键字之间的映射关系信息;当元素与关键字不匹配时,则采用二进制0表示元素与关键字之间的映射关系信息。
索引倒序表是为了更快更方便地找出对于某一个元素素出现在哪些子序列数据中。因此,索引倒序表也可以用于查找包含一组多个元素的所有子序列数据。索引倒序表的关键字为所有子序列数据中出现过的元素,每一列为每一条子序列数据的序列标识(即序列id)。如表一所示,序列1为(A,B,C),序列2为(B,C),序列3为(A,B),将A、B、C作为关键字插入到表一的第一列,依次增加序列1的列、序列2的列和序列3的列,将序列1、序列2和序列3中的每一个元素分别与关键字进行匹配,如果某一行的关键字在子序列数据中出现了,则取值为1,如果某一行的关键字在子序列数据中没有出现,则取值为0。历史流量序列数据中包含N个子序列数据,则在索引倒序表中就增加N列,每一列对应一条子序列数据。
表一:索引倒序表
数据项 | 序列1 | 序列2 | 序列3 |
A | 1 | 0 | 1 |
B | 1 | 1 | 1 |
C | 1 | 1 | 0 |
在一些实施例中,获取训练好的预测树模型输出的目标流量序列数据的若干个候选预测数据,包括:
通过索引倒序表查找与目标流量序列数据包含相同元素的相似序列;
将相似序列中与目标流量序列数据的最后一个元素相同的元素之后的序列作为后续序列;
在后续序列中去掉与目标流量序列数据相同的元素,得到候选预测数据。
在一些实施例中,通过索引倒序表查找与目标流量序列数据包含相同元素的相似序列,包括以下步骤:
(1)将待预测的目标流量序列数据的总长度可以设置为S,如果目标流量序列数据的总长度S大于构造的子序列数据的最大长度Lmax,则将目标流量序列数据的最后Lmax个元素作为目标预测序列,如果目标流量序列数据的总长度S小于构造的子序列数据的最大长度Lmax,则将完整的待预测序列作为目标预测序列。
(2)对目标预测序列中的元素进行去重。
例如,目标预测序列为[‘A’,’B’,’C’,’A’],则去重后的所有唯一元素为[‘A’,’B’,’C’]。
(3)在索引倒序表中查找所有包含[‘A’,’B’,’C’]这三个元素的序列及序列标识(即序列ID)。
(4)由于在索引倒序表中,没有记录元素出现的先后顺序,因此通过索引倒序表找出所有包含目标预测序列的所有元素的相似序列的标识。
(5)根据相似序列的标识,通过查找搜索表即可在构建好的预测树结构中找到相应的训练序列,作为最终的相似序列。
在一些实施例中,将相似序列中与目标流量序列数据的最后一个元素相同的元素之后的序列作为后续序列,其中,按照上述步骤(1)根据目标流量序列数据确定目标预测序列,例如,目标预测序列=['A','B','C'];相似序列=['X','A','Y','B','C','E','A','F'];目标预测序列的最后一个元素为C,在相似序列中相同的元素C后的后续序列为['E','A','F'],去掉后续序列与目标预测序列相重复的元素A,得到的['E','F']即为候选预测数据。
在一些实施例中,从若干个候选预测数据中筛选出目标预测数据,包括:
计算每一个候选预测数据在全部的相似序列中出现的次数得到支持度;
计算包含候选预测数据的目标流量序列数据的序列总数得到置信度;
根据支持度和置信度,计算得到每一个候选预测数据的评估评分;
筛选评估评分最高的候选预测数据作为目标预测数据。
本公开实施例通过将定期采集的资产设备的历史流量数据,构造和训练一个预测树模型,并对需要预测的目标流量序列数据进行数据预测;在对资产设备的目标流量序列数据进行处理的过程中,进行子序列构造,使用滑动窗口的方式构造出多条子序列数据,子序列数据的相关参数可以根据实际数据情况进行灵活调整。
本公开实施例在训练预测树模型过程中,构造预测树结构可以有效压缩训练数据,减少训练数据所占用的存储空间;在训练预测树模型的过程中构造索引倒序表,索引倒序表可以方便查询每一条序列包含了哪些唯一的元素,在后续的预测数据过程中可以方便的搜索出所需要的相似序列。
本公开实施例在训练预测树模型的过程中,将训练数据的子序列以指针的方式指向该子序列的最后一个数据项获得查找搜索表,在后续的数据预测过程中,可以通过查找搜索表,找到经过筛选后的原始序列在预测树结构中的位置,即可找回原始序列数据和排序方式;并且使用了候选预测数据的支持度和衍生的置信度作为候选预测数据的评估评分,选择评估评分最高的候选预测数据作为目标预测数据。
图4为本公开实施例还提供了一种基于预测树模型的数据预测装置的结构示意图,本公开实施例提供的一种基于预测树模型的数据预测装置,包括:
样本输入单元41,被配置为利用资产设备的历史流量序列数据作为训练样本输入初始的预测树模型进行模型训练,得到训练好的预测树模型;
数据输入单元42,被配置为将待预测的目标流量序列数据输入训练好的预测树模型;
数据获取单元43,被配置为获取训练好的预测树模型输出的目标流量序列数据的若干个候选预测数据;
数据筛选单元44,被配置为从若干个候选预测数据中筛选出目标预测数据。
根据本公开实施例的电子设备包括存储器和处理器。该存储器用于存储非暂时性计算机可读指令。具体地,存储器可以包括一个或多个计算机程序产品,该计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。该易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。该非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。
该处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制电子设备中的其它组件以执行期望的功能。在本公开的一个实施例中,该处理器用于运行该存储器中存储的该计算机可读指令,使得该电子设备执行前述的本公开各实施例的基于预测树模型的数据预测方法全部或部分步骤。
本领域技术人员应能理解,为了解决如何获得良好用户体验效果的技术问题,本实施例中也可以包括诸如通信总线、接口等公知的结构,这些公知的结构也应包含在本公开的保护范围之内。
如图5为本公开实施例提供的一种电子设备的结构示意图。其示出了适于用来实现本公开实施例中的电子设备的结构示意图。图5示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图5所示,电子设备可以包括处理装置(例如中央处理器、图形处理器等),其可以根据存储在只读存储器(ROM)中的程序或者从存储装置加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中,还存储有电子设备操作所需的各种程序和数据。处理装置、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。
通常,以下装置可以连接至I/O接口:包括例如传感器或者视觉信息采集设备等的输入装置;包括例如显示屏等的输出装置;包括例如磁带、硬盘等的存储装置;以及通信装置。通信装置可以允许电子设备与其他设备(比如边缘计算设备)进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置从网络上被下载和安装,或者从存储装置被安装,或者从ROM被安装。在该计算机程序被处理装置执行时,执行本公开实施例的基于预测树模型的数据预测方法的全部或部分步骤。
有关本实施例的详细说明可以参考前述各实施例中的相应说明,在此不再赘述。
根据本公开实施例的计算机可读存储介质,其上存储有非暂时性计算机可读指令。当该非暂时性计算机可读指令由处理器运行时,执行前述的本公开各实施例的基于预测树模型的数据预测方法的全部或部分步骤。
上述计算机可读存储介质包括但不限于:光存储介质(例如:CD-ROM和DVD)、磁光存储介质(例如:MO)、磁存储介质(例如:磁带或移动硬盘)、具有内置的可重写非易失性存储器的媒体(例如:存储卡)和具有内置ROM的媒体(例如:ROM盒)。
有关本实施例的详细说明可以参考前述各实施例中的相应说明,在此不再赘述。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
在本公开中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序,本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
另外,如在此使用的,在以“至少一个”开始的项的列举中使用的“或”指示分离的列举,以便例如“A、B或C的至少一个”的列举意味着A或B或C,或AB或AC或BC,或ABC(即A和B和C)。此外,措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。
还需要指出的是,在本公开的系统和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外,本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而,所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (10)
1.一种基于预测树模型的数据预测方法,其特征在于,包括:
利用资产设备的历史流量序列数据作为训练样本输入初始的预测树模型进行模型训练,得到训练好的预测树模型;
将待预测的目标流量序列数据输入所述训练好的预测树模型;
获取所述训练好的预测树模型输出的所述目标流量序列数据的若干个候选预测数据;
从所述若干个候选预测数据中筛选出目标预测数据。
2.根据权利要求1所述的基于预测树模型的数据预测方法,其特征在于,利用资产设备的历史流量序列数据作为训练样本输入初始的预测树模型进行模型训练,得到训练好的预测树模型,包括:
将所述历史流量序列数据进行子序列构造,得到若干条子序列数据;
将每一条所述子序列数据依次插入到所述初始的预测树模型的预测树结构和索引倒序表,并构建查找搜索表;
基于查找搜索表,获取所述初始的预测树模型输出的预测数据;
若所述预测数据与历史预测数据的相似度大于或等于预设的相似度阈值,则所述初始的预测树模型训练成功,得到所述训练好的预测树模型;
若所述预测数据与历史预测数据的相似度小于预设的相似度阈值,则通过调整所述初始的预测树模型中的参数,直至所述初始的预测树模型训练成功。
3.根据权利要求2所述的基于预测树模型的数据预测方法,其特征在于,将所述历史流量序列数据进行子序列构造,得到若干条子序列数据,包括:
统计所述资产设备的历史流量数据在单位时间内全部会话的总流量;
根据时间先后顺序将全部会话的总流量进行排序,得到所述历史流量序列数据;
将所述历史流量序列数据基于滑动窗口构造若干条子序列数据,其中,所述子序列数据的参数包括所述子序列数据的最小长度和最大长度、所述滑动窗口的大小。
4.根据权利要求2所述的基于预测树模型的数据预测方法,其特征在于,将每一条所述子序列数据依次插入到所述初始的预测树模型的预测树结构,并构建查找搜索表,包括:
将第一条子序列数据的第一个元素作为第一子节点插入到所述预测树结构的根节点下;
将所述第一条子序列数据的第二个元素作为所述第一个元素的第一子节点的子节点插入到所述第一子节点下,直至添加完所述第一条子序列数据中全部的元素;
当第二条子序列数据的第一个元素与所述预测树结构中的子节点不重复时,则将所述第二条子序列数据的第一个元素作为新的子节点添加到所述预测树结构的根节点下;
当所述第二条子序列数据的第一个元素与所述预测树结构中的子节点重复时,则继续判断所述第二条子序列数据的第二个元素是否已经存在于所述预测树结构中的子节点中,直至添加完所述第二条子序列数据中全部的元素;
将每一条所述子序列数据依次插入到所述预测树结构时,同时生成查找搜索表,其中,所述查找搜索表包括每一条所述子序列数据的序列标识、每一条所述子序列数据的最后一个元素以及最后一个元素所在的所述预测树结构的叶子节点。
5.根据权利要求2所述的基于预测树模型的数据预测方法,其特征在于,将每一条所述子序列数据依次插入到索引倒序表,包括:
将每一条所述子序列数据中的元素作为关键字插入到所述索引倒序表的第一列,其中,所述索引倒序表中的每个关键字之间不重复;
在索引倒序表中依次增加包含每一条所述子序列数据的序列标识的相应列;
根据每一条所述子序列数据的序列标识,构建每一条所述子序列数据中的每一个元素与所述索引倒序表中每一个关键字之间的映射关系信息,并将所述映射关系信息添加到相应列。
6.根据权利要求2所述的基于预测树模型的数据预测方法,其特征在于,获取所述训练好的预测树模型输出的所述目标流量序列数据的若干个候选预测数据,包括:
通过所述索引倒序表查找与所述目标流量序列数据包含相同元素的相似序列;
将所述相似序列中与所述目标流量序列数据的最后一个元素相同的元素之后的序列作为后续序列;
在所述后续序列中去掉与所述目标流量序列数据相同的元素,得到所述候选预测数据。
7.根据权利要求6所述的基于预测树模型的数据预测方法,其特征在于,从所述若干个候选预测数据中筛选出目标预测数据,包括:
计算每一个候选预测数据在全部的相似序列中出现的次数得到支持度;
计算包含所述候选预测数据的目标流量序列数据的序列总数得到置信度;
根据所述支持度和置信度,计算得到每一个候选预测数据的评估评分;
筛选评估评分最高的候选预测数据作为所述目标预测数据。
8.一种基于预测树模型的数据预测装置,其特征在于,包括:
样本输入单元,被配置为利用资产设备的历史流量序列数据作为训练样本输入初始的预测树模型进行模型训练,得到训练好的预测树模型;
数据输入单元,被配置为将待预测的目标流量序列数据输入所述训练好的预测树模型;
数据获取单元,被配置为获取所述训练好的预测树模型输出的所述目标流量序列数据的若干个候选预测数据;
数据筛选单元,被配置为从所述若干个候选预测数据中筛选出目标预测数据。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至7任一所述的基于预测树模型的数据预测方法。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行权利要求1至7任一所述的基于预测树模型的数据预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310559646.2A CN116760723B (zh) | 2023-05-17 | 2023-05-17 | 基于预测树模型的数据预测方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310559646.2A CN116760723B (zh) | 2023-05-17 | 2023-05-17 | 基于预测树模型的数据预测方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116760723A true CN116760723A (zh) | 2023-09-15 |
CN116760723B CN116760723B (zh) | 2024-03-08 |
Family
ID=87948641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310559646.2A Active CN116760723B (zh) | 2023-05-17 | 2023-05-17 | 基于预测树模型的数据预测方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116760723B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718493A (zh) * | 2014-12-05 | 2016-06-29 | 阿里巴巴集团控股有限公司 | 基于决策树的搜索结果排序方法及其装置 |
CN111291097A (zh) * | 2020-05-08 | 2020-06-16 | 西南石油大学 | 一种基于决策树数据挖掘的钻井漏层位置实时预测方法 |
CN113597629A (zh) * | 2019-03-28 | 2021-11-02 | 脸谱公司 | 基于网络分发历史从数字媒体的储存库生成对应于预测的分发类别的数字媒体群集 |
CN114548592A (zh) * | 2022-03-01 | 2022-05-27 | 重庆邮电大学 | 一种基于cemd和lstm的非平稳时间序列数据预测方法 |
-
2023
- 2023-05-17 CN CN202310559646.2A patent/CN116760723B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718493A (zh) * | 2014-12-05 | 2016-06-29 | 阿里巴巴集团控股有限公司 | 基于决策树的搜索结果排序方法及其装置 |
CN113597629A (zh) * | 2019-03-28 | 2021-11-02 | 脸谱公司 | 基于网络分发历史从数字媒体的储存库生成对应于预测的分发类别的数字媒体群集 |
CN111291097A (zh) * | 2020-05-08 | 2020-06-16 | 西南石油大学 | 一种基于决策树数据挖掘的钻井漏层位置实时预测方法 |
CN114548592A (zh) * | 2022-03-01 | 2022-05-27 | 重庆邮电大学 | 一种基于cemd和lstm的非平稳时间序列数据预测方法 |
Non-Patent Citations (1)
Title |
---|
刘栋;宋国杰;: "面向多维时间序列的过程决策树模型", 计算机应用, no. 05 * |
Also Published As
Publication number | Publication date |
---|---|
CN116760723B (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10878004B2 (en) | Keyword extraction method, apparatus and server | |
CN108038183B (zh) | 结构化实体收录方法、装置、服务器和存储介质 | |
CN108320171B (zh) | 热销商品预测方法、系统及装置 | |
US8200454B2 (en) | Method, data processing program and computer program product for time series analysis | |
CN110292775B (zh) | 获取差异数据的方法及装置 | |
CN109242013B (zh) | 一种数据标注方法、装置、电子设备及存储介质 | |
CN108108426B (zh) | 自然语言提问的理解方法、装置及电子设备 | |
CN112889042A (zh) | 机器学习中超参数的识别与应用 | |
US11514498B2 (en) | System and method for intelligent guided shopping | |
CN110442702B (zh) | 搜索方法、装置、可读存储介质和电子设备 | |
CN109165040B (zh) | 一种基于随机森林模型的代码抄袭嫌疑检测的方法 | |
CN110765348B (zh) | 一种热词的推荐方法、装置、电子设备及存储介质 | |
CN112364014B (zh) | 数据查询方法、装置、服务器及存储介质 | |
CN112307239A (zh) | 一种图像检索方法、装置、介质和设备 | |
CN110968802B (zh) | 一种用户特征的分析方法、分析装置及可读存储介质 | |
CN116760723B (zh) | 基于预测树模型的数据预测方法、装置、设备及介质 | |
JP2006323575A (ja) | 文書検索システム、文書検索方法、文書検索プログラム及び記録媒体 | |
CN109460474B (zh) | 用户偏好趋势挖掘方法 | |
CN108170664B (zh) | 基于重点关键词的关键词拓展方法和装置 | |
CN116450664A (zh) | 数据处理方法、装置、设备和存储介质 | |
CN117041073B (zh) | 网络行为预测方法、系统、设备及存储介质 | |
CN115543964A (zh) | 基于时空网格的空间对象历史回溯方法及装置 | |
CN112416754B (zh) | 一种模型评测方法、终端、系统及存储介质 | |
CN114547286A (zh) | 一种信息搜索方法、装置及电子设备 | |
CN117041073A (zh) | 网络行为预测方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |