CN116151601A - 一种流业务建模方法、装置、平台、电子设备和存储介质 - Google Patents
一种流业务建模方法、装置、平台、电子设备和存储介质 Download PDFInfo
- Publication number
- CN116151601A CN116151601A CN202111349490.2A CN202111349490A CN116151601A CN 116151601 A CN116151601 A CN 116151601A CN 202111349490 A CN202111349490 A CN 202111349490A CN 116151601 A CN116151601 A CN 116151601A
- Authority
- CN
- China
- Prior art keywords
- service
- algorithm
- deployed
- streaming
- streaming service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000003860 storage Methods 0.000 title claims abstract description 10
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 227
- 238000000605 extraction Methods 0.000 claims abstract description 95
- 238000012549 training Methods 0.000 claims abstract description 56
- 238000010606 normalization Methods 0.000 claims description 48
- 238000012545 processing Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 abstract description 31
- 238000004891 communication Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 16
- 239000013598 vector Substances 0.000 description 16
- 230000008569 process Effects 0.000 description 11
- 238000011161 development Methods 0.000 description 9
- 230000018109 developmental process Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 5
- 230000001960 triggered effect Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012938 design process Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0633—Workflow analysis
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Educational Administration (AREA)
- Tourism & Hospitality (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及通信技术领域,公开了一种流业务建模方法、装置、平台、电子设备和存储介质。本发明中,该流业务建模方法,包括:在预设的多个特征提取算法中选取目标特征提取算法,目标特征提取算法用于提取待部署的流业务的业务特征;并在预设的多个算法模型中选取待部署的流业务的算法模型;根据样本数据对待部署的流业务的算法模型进行模型训练,其中,样本数据包括待部署的流业务的业务特征和业务指标数据;其中,训练完成的算法模型用于分析流业务的业务指标数据。能够降低流业务分析的复杂度,便捷的实现对流业务的分析。
Description
技术领域
本发明涉及通信技术领域,尤其是涉及一种流业务建模方法、装置、平台、电子设备和存储介质。
背景技术
在传统的流业务分析技术中,数据流的业务指标是基于报文明码解析得到的。但是随着用户对隐私的逐渐重视,近年来,越来越多的应用服务提供商实现了对数据流的加密。随着加密数据流的普及,过去的各种对明文字段进行解析,以提取业务指标的流业务分析手段逐渐失去作用。使用数据流在时间维度上隐含的信息,去近似拟合各种业务指标的方法取而代之,成为当前最主流的分析流业务的技术手段。
然而,本发明的发明人发现:当前对流业务的分析主要有深度流检测(Deep FlowInspection,简称“DFI”)、深度报文检测(Deep Packet Inspection,简称“DPI”)、深度学习、机器学习等多种方法。相关技术人员往往选择不同分析方法对不同流业务进行分析,这种孤岛式的流业务分析方法,复杂度高、耗时长且需要较高的专业度。
发明内容
本发明实施方式的目的在于提供一种流业务建模方法、装置、平台、电子设备和存储介质,用以降低流业务分析的复杂度,便捷的实现对流业务的分析。
为了解决上述问题,本发明的实施方式提供了一种流业务建模方法,包括:
在预设的多个特征提取算法中选取目标特征提取算法,目标特征提取算法用于提取待部署的流业务的业务特征;并在预设的多个算法模型中选取待部署的流业务的算法模型;根据样本数据对待部署的流业务的算法模型进行模型训练,其中,样本数据包括待部署的流业务的业务特征和业务指标数据;其中,训练完成的算法模型用于分析流业务的业务指标数据。
本发明的实施方式还提供了一种流业务的建模装置,包括:
选取模块,用于在预设的多个特征提取算法中选取目标特征提取算法,目标特征提取算法用于提取待部署的流业务的业务特征;并在预设的多个算法模型中选取待部署的流业务的算法模型;训练模块,用于根据样本数据对待部署的流业务的算法模型进行模型训练,其中,样本数据包括待部署的流业务的业务特征和业务指标数据;其中,训练完成的算法模型用于分析流业务的业务指标数据。
本发明的实施方式还提供了一种电子设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述的流业务的建模方法。
本发明的实施方式还提供了一种存储有计算机程序的计算机可读存储介质,计算机程序被处理器执行时实现上述的流业务的建模方法。
本发明实施方式为待部署的流业务选取特征提取算法用以提取流业务的业务特征。进而选取算法模型,并用待部署的流业务的业务特征和业务指标数据作为样本数据,对选取的算法模型进行训练,训练完成的算法模型能够实现对流业务的分析。在多个预设特征提取算法和算法模型中为流业务选取目标特征提取算法以及算法模型,且对于任一流业务统一采用上述方法进行建模,相比于对不同流业务采用不同方法提取特征、训练模型的方式,能够降低流业务模型建立的复杂度,进而降低流业务分析的复杂度,便捷的实现对流业务的分析。
附图说明
一个或多个实施方式通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施方式的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本发明一实施方式中的传统流业务分析方法的过程示意图;
图2是根据本发明一实施方式中的流业务建模的方法流程图;
图3是根据本发明一实施方式中的归一化处理业务特征的示意图;
图4是根据本发明一实施方式中的生成业务配置文件的逻辑示意图;
图5是根据本发明一实施方式中的对特征提取算法和算法模型的调度逻辑示意图;
图6是根据本发明一实施方式中的流业务探索平台对流业务建模的逻辑示意图;
图7是根据本发明一实施方式中的流业务探索平台的架构示意图;
图8是根据本发明一实施方式中的业务特征提取逻辑示意图;
图9是根据本发明一实施方式中的特征向量生成的逻辑示意图;
图10是根据本发明一实施方式中的分析流业务业务指标数据的逻辑示意图;
图11是根据本发明一实施方式中的预测加密视频码率与分辨率的逻辑示意图;
图12是根据本发明一实施方式中的流业务建模设备的结构示意图;
图13是根据本发明另一实施方式中的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
传统的DFI分析流业务的手段以及伴随着机器学习兴起诞生的新型流业务的分析手段,都依赖于报文的四个基本信息----包长、时间戳、上下行、传输层协议。流在传输过程中,报文的四个基本信息在时间维度上所展示的时序信息即为流业务在传输过程中所展示的“指纹信息”,这些“指纹信息”在某种程度上能够反映附载在该流上的业务的某些信息,譬如可通过流的包长变化区分加密视频的码率、判断视频是否卡顿等用户体验质量(Quality of Experience,简称“QOE”)指标。
常见的流业务分析的方法,均可以表述为累积数据流的原始包信息,在时间维度构建流的时序流,进而根据流的时序信息计算得到初阶统计特征,在对初阶特征形成的特征向量进行归一化处理后,利用算法对输入的特征向量进行推理计算输出业务指标的过程。传统的流业务分析方法的过程示意图如图1所示。
然而,相关技术人员往往对不同流业务选择不同分析方法进行分析,这种孤岛式的流业务分析方法,复杂度高、耗时长且需要较高的专业度。另外,这种对业务进行分析的方式限定在流业务场景下,虽然能够根据确定的输入数据流泛化计算出各式各样的业务特征,但是其所能计算的业务特征类别数相对来说比较有限。
本发明的一实施方式涉及一种流业务的建模方法,具体流程如图1所示。在本实施方式中,流业务的建模装置在预设的多个特征提取算法中选取目标特征提取算法,目标特征提取算法用于提取待部署的流业务的业务特征;并在预设的多个算法模型中选取待部署的流业务的算法模型;根据样本数据对待部署的流业务的算法模型进行模型训练,其中,样本数据包括待部署的流业务的业务特征和业务指标数据;其中,训练完成的算法模型用于分析流业务的业务指标数据。
下面对本实施例中的流业务的建模方法的实现细节进行具体的说明,以下内容仅为方便理解本方案的实现细节,并非实施本方案的必须。具体流程如图2所示,可包括如下步骤:
步骤201,流业务的建模装置在预设的多个特征提取算法中选取目标特征提取算法。
具体地说,由于对于不同的流业务,需要的业务特征可能存在大量重叠,因此在本步骤中,流业务的建模装置在预设的多个特征提取算法中选取目标特征提取算法。其中,目标提取算法用于提取待部署的流业务的业务特征。
在一个具体实例中,可以构建共享特征计算算子层,用以提供预设的多个特征提取算法。这些预设特征提取算法可以是流业务的建模装置历史处理的流业务使用过的特征提取算法,也可以是提取重点客户系统规范的业务特征所需要的特征提取算法。在预设的多个特征提取算法中选取目标特征提取算法能够大大降低提取特征的复杂度,且能够为流业务分析提供足够的特征提取算法。
在一个例子中,在在预设的多个特征提取算法中选取目标特征提取算法之前,还可以采集待部署的流业务的历史业务数据;其中,待部署的流业务的业务特征和业务指标数据基于历史业务数据提取。采集待部署的流业务的历史业务数据用于提取业务特征和业务指标数据,进而用业务特征和业务指标数据组成样本数据对算法模型进行训练。
步骤202,流业务的建模装置提取待部署的流业务的业务特征。
在本步骤中,流业务的建模装置基于采集的待部署的流业务的历史业务数据,提取待部署的流业务的业务特征。提取的业务特征与流业务的业务指标数据相对应构成样本数据,用于对算法模型进行训练。
步骤203,流业务的建模装置在预设的多个算法模型中选取待部署的流业务的算法模型。
具体地说,预设的算法模型包含大部分常见的机器学习算法模型以及传统的拟合算法模型,流业务的建模装置在预设的多个算法模型中为待部署的流业务选取算法模型,训练完成的算法模型用以分析流业务的业务指标数据。
在一个例子中,在在预设的多个算法模型中选取待部署的流业务的算法模型之后,在根据样本数据对待部署的流业务的算法模型进行模型训练之前,还可以根据选取的待部署的流业务的算法模型的类型,选择是否对待部署的流业务的业务特征进行归一化处理;其中,在选取的待部署的流业务的算法模型的类型不是树模型的情况下,对待部署的流业务的业务特征进行归一化处理。对提取的待部署的流业务的业务特征进行归一化处理,以使得业务特征数据的形式适用于输入算法模型,能够进行对模型的训练。
在另一个例子中,对待部署的流业务的业务特征进行归一化处理,具体可以在预设的多个归一化算法中选取对待部署的流业务的业务特征进行归一化处理的目标归一化算法;基于目标归一化算法,对待部署的流业务的业务特征进行归一化处理。
流业务可以配置对特征向量中某几个业务特征进行归一化,也可以配置对整个特征向量进行归一化。经过归一化处理后的特征向量使业务特征数据服从某种分布形态,从而满足算法模型对输入数据分布形式的要求,对业务特征归一化处理的示意图如图3所示。归一化处理可使用如下公式表述:
feature'=normalization(param,featureold)
其中,param为计算归一化使用的私有参数,featureold表示待归一化的特征。
在预设的多个归一化算法中选取目标归一化算法能够大大降低对业务特征进行归一化的复杂度,且预设的归一化算法包含最大最小值归一化、0均值归一化等常用的归一化算法,能够满足对业务特征进行归一化处理的需求。
步骤204,流业务的建模装置根据样本数据对待部署的流业务的算法模型进行模型训练。
具体地说,提取的业务特征与流业务的业务指标数据相对应构成样本数据,流业务的建模装置根据样本数据,对为待部署的流业务选取的算法模型进行模型训练,并将训练完成的算法模型用于分析流业务的业务指标数据。
在一个例子中,根据样本数据对待部署的流业务的算法模型进行模型训练,具体可以将样本数据随机划分为训练集和预测集;其中,样本数据根据特征向量和业务指标数据得到;根据训练集对待部署的流业务的算法模型的参数进行训练;根据预测集对训练完成的模型的准确性进行验证。利用部分样本数据构成的预测集对模型的准确性进行验证,能够提高模型分析流业务的业务指标数据的准确度。
在另一个例子中,选取的算法模型非树模型,则在根据样本数据对待部署的流业务的算法模型进行模型训练后,还可以生成业务配置文件,其中,业务配置文件中包括目标特征提取算法和目标归一化算法;加载业务配置文件和训练完成的算法模型,分析输入的实时流业务的业务指标数据。生成业务配置文件的逻辑示意图如图4所示。
在另一个例子中,加载业务配置文件和训练完成的算法模型,分析输入的实时流业务的业务指标数据,具体可以对业务配置文件中的目标特征提取算法和目标归一化算法进行调度,根据实时流业务,生成用于输入训练完成的算法模型的实时业务特征;其中,调度的调度方式包括:实时调度,定时调度,接收数据包数量调度,事件调度;对训练完成的算法模型进行调度,分析实时流业务的业务指标数据;其中,调度的调度方式包括:定时调度和事件调度。本例能够通过对选取的目标特征提取算法和目标归一化算法的调度,实现对实时数据流业务的的业务指标数据的分析。
具体地说,对特征提取算法的调度中,实时调度为应对流业务所需要的实时业务指标或者可以累加统计的业务指标。在实时调度场景下,每一个数据包均将参与特征提取,输出实时业务特征。定时调度可以分为两种,一种为严格定时调度,无论是否收到数据包,时间片触发时则进行特征提取。另一种为基于报文时间进行触发,当第一个大于时间阈值的数据包到达时则触发特征提取。根据数据包数量进行调度可以分为多种情形,由于流业务交互分为上下行,因此调度时可以支持仅依赖上行、下行或者上下行一起。事件调度由特定事件触发调度,譬如简单事件:包长超过N字节,发包间隔大于N毫秒等,复杂事件如得到的业务指标触发门限等。
在对算法模型的调度中,定时调度也分为两种,一种是严格意义的时间调度,时间一到立刻进行计算;另一种为基于报文时间的调度形式,当收到的报文时间与上次调度时间差超过阈值则触发调度。事件调度主要依赖前序特征提取中所产生的事件,譬如前序特征向量中,某一个特征提取完成或者某一个特征值的值域超过阈值等。对特征提取算法和算法模型的调度逻辑示意图如图5所示。
在具体实施中,本实施例涉及的流业务的建模方法可以通过构建一个流业务探索平台来实现。流业务探索平台对任一流业务运用统一的方法进行建模,流业务探索平台对流业务建模的逻辑示意图如图6所示。在理想情况下,平台关注算法模型、归一化算法、特征提取算法的调度。而业务则专注于其业务的建模过程,利用平台提供的算法,简化其业务分析流程,使其更专注于模型的构建过程。在需要对实时流业务进行分析时,只需提供训练好的算法模型以及业务配置文件即可。
流业务探索平台的架构示意图如图7所示,系统平台可以包括离线探索平台与在线实时计算引擎,两部分绝大多数组件可以共用,离线阶段提供可视化借助计算引擎实现用于分析流业务的业务配置文件的生成、简化流业务建模与分析的时间成本与门槛。在线部分根据业务配置文件与训练好的模型实现分析输入的实时流业务的业务指标数据。整体架构通过特征提取算法、算法模型、归一化算法的解耦式开发实现重复组件、算法的共用,打通离线在线的衔接流程,从而减少业务分析、维护成本,实现所有流业务在同一的平台下完成模型建立与实时分析。
流业务探索平台采用分层设计的架构,其中的特征提取层用于提取流业务的业务特征。一个流的数据包在时间维度上的展开所形成的时序信息,经过统计可以提取出更深层的业务特征。流业务特征的提取计算主要分为两类。一是累加统计信息,这部分信息可以实时提取得到,该部分特征具备马尔科夫特性,即当前时间的特征只与当前信息以及上一个时间的特征相关,用公式表示可以表述为
S(t)=func(I(t),S(t-1))
其中,I(t)表示当前信息,S(t-1)表示上一个时刻提取出的特征,func表示特征提取算法,S(t)表示提取出的业务特征,如收包数量、流持续时间、平均速率、平均收包数、时间片的包数增益等均属于此类特征。
二是非马尔科夫特性的特征,这部分特征无法仅根据当前信息与上一个时间片的特征计算得到,这类特征的提取对原始流的报文序列信息存在比较大的依赖,针对这部分特征的提取计算,平台需支持对原始包信息的缓存管理,以及为这部分特征提供独立的缓存,使其支持对历史信息业务数据根据自身需求进行缓存,确保特征计算时能够接触到所需要的任何信息,可以用以下公式表示
S(t)=func(I(t),S(cache),S(t-1))
其中,I(t)表示当前信息,S(t-1)表示上一个时刻计算出的特征,S(cache)表示累积到当前时刻的缓存信息,func表示特征计算算法,S(t)表示计算好的特征。
平台针对业务特征提取的这两种情形均需进行支持,因此一方面需要对每一条流的报文信息进行缓存管理,确保特征提取时能够接收到原始流的序列信息,并根据流上业务的负载情况进行老化,另一方面为每一条流上的业务特征提取算子提供所需的私有缓存,确保特征提取算子能够对需要用来进行计算的历史信息进行缓存。在具体的业务设计过程中,不同特征提取算子间会依赖相同的计算数据,为防止不同算子重复计算中间数据,平台提供公共缓存,先计算出公共中间数据的特征提取算子将结果缓存到公共缓存,其他特征提取算子可以直接对中间结果进行引用,从而减少计算资源的消耗以及对内存的占用。特征提取组件组成的业务特征提取逻辑示意图如图8所示。
与流相关的业务主要可以分为如下三类:1、与包长相关的特征,包括某区间最大、最小包、平均包长、包长方差、协方差等;2、与时间相关的特征,包括最大活跃时间、最长休闲时长等等统计指标;3、与传输层相关的特征,包括建链时长,生存时间值(Time To Live,简称“TTL”)等。在实际业务特征设计过程中,特征往往比基本统计指标要复杂,但是基本都属于上述三类特征,为满足流业务分析过程中的需求,平台提供二次开发接口,允许用户按照既定规范开发特征提取算子接入平台使用。
特征提取层的输出结果既可以直接作为业务的输出,也可以多个业务特征组合形成特征向量,作为后续算法模型的输入,流业务对业务特征的需求由业务开发过程中,通过配置文件对特征提取算法进行组合,并按照顺序将每一个特征提取算法所提取得到的业务特征输出到特征向量的指定位置,特征向量生成的示意图如图9所示。特征提取算法的调度则由平台执行。
一般算法模型对输入算法模型的数据范围都比较敏感,为支持算法模型对特征向量归一化的需求,平台提供归一化层,平台为支撑流业务对数据进行自定义归一化处理,对外提供二次开发接口,支持用户按照开发文档开发自定义归一化算法。
平台中的算法层是最终业务结果的生产车间,原始数据流经过特征提取、归一化处理后进入算法层进行深加工成最终的业务指标,算法层提供的分析流业务业务指标数据的逻辑示意图如图10所示,获取流业务业务指标数据可以使用如下公式描述:
Rs=func(param,featureVect)
其中,param为算法模型的参数,featureVect表示输入算法模型的特征向量,Rs表示得到的流业务的业务指标。算法层整合了大部分常见的机器学习算法,如xgboost、lightgbm等,以及传统的拟合算法,如二次曲线拟合等。为满足分析流业务的需求,算法层也支持根据平台进行二次开发,以满足不同的需求。
为了生成业务配置文件,对不同流业务进行分析,平台还设置了业务配置模块。业务配置模块所针对的对象为具体的某一流业务,譬如加密视频的码率识别、卡顿预测等。数据流进入平台后,针对数据的处理流程均受业务配置模块的约束,业务配置文件中定义了分析该流业务所需要的模型、业务所需要的初始特征以及特征提取算法、归一化算法、提取得到的特征、输出结果处理方式、缓存、调度方式等。平台通过加载业务配置文件构建出业务处理的流程以及需要的相关参数。
业务流量进入平台后,平台根据数据流的标识实现对数据流的管理,对流业务的计算进行调度。平台的调度为分层调度,第一层为特征提取的调度,协调控制原始输入数据流何时参与计算;第二层为算法模型调度,控制何时计算出流业务所需要的业务指标。
流业务探索平台分层设计的架构和建模技术思路,在对任一流业务能够做到统一建模方式的同时,方便在平台之上进行二次开发,并将组件共享供对其他流业务建模时使用。相对于以往孤岛式的流业务开发方式,流业务探索平台的统一建模方法能够极大的增加业务开发组件的利用率。
在一个具体实例中,欲实现对加密视频码率与分辨率的预测,本例涉及的预测加密视频码率与分辨率的逻辑示意图如图11所示。首先,利用视频服务上提供的API接口采集大量不同分辨率和码率的原始报文数据。由于视频码率、分辨率的变化对数据的传输速率、数据包大小、发包时间间隔等有比较大的影响,因而特征选用上优先选用与包长、速率、发包间隔相关的特征。在本例中选用的特征如下:分别统计5秒、10秒、20秒内的上行平均包长、下行平均包长、上行包长的方差、下行包长的方差,上行发包速率、上行每秒包数、下行发包速率、下行每秒包数,上行发包平均间隔、下行发包平均间隔、上行发包间隔方差、下行发包间隔方差、上行最大包、下行最大包、上行包大小中位值、下行包大小中位值、小于200字节包占比、200-400大小包占比、400-600大小包占比、600-800大小包占比、800-1000大小包占比、1000-1200包占比、大于1200包占比。
由于选用的特征来源于不同的维度,因而在算法模型选择上可选用对输入数据归一化不敏感的树模型,本例选用lightgbm算法作为模型训练和推理算法。在采集的样本数据中随机抽取70%的样本数据灌入平台后生成特征向量,然后调用lightgbm算法模型进行训练,通过设定误差目标对训练过程进行控制并输出业务模型。在采集的数据中使用余下的30%数据作为校验数据,对算法模型进行校验,当模型校验通过后则输出算法模型,否则重新对模型进行训练。在模型训练完成后,生成业务配置文件,通过加载模型与业务配置文件实现对输入的实时流业务的业务指标数据的分析。
在另一个具体实例中,欲实现对微信细分业务的识别。由于通信涉及到用户的隐私数据,因而微信终端与服务器进行交互的数据包全部为加密数据,从数据中无法窥探到用户的业务数据。传统DPI通过安全套接字协议(Secure Sockets Layer,简称“SSL”)中携带的业务节点接口(Service Node Interface,简称“SNI”)作为业务识别的特征,但是同属微信业务的细分类别,其所携带的SNI都相同,从而导致传统DPI无法有效识别出微信细分业务。微信细分业务主要包括语音、文字、发送图片、接收图片、语音通话、视频通话、朋友圈、支付等。虽然传输报文属于加密数据,但是不同的业务类型所产生的数据流的行为存在较大差异,譬如发送文字的报文流持续时间短,发送报文数量少、语音通话数据包短,持续时间长、视频通话数据包较长,持续时间也长。传统的基于流行为的微信细分业务通过对包长,发包间隔等特征设定阈值达到识别的目的,但是该方法使用的特征过于单一,鲁棒性差,版本一旦变更,方法可能立即失效。
在本例中,首先利用自动化拨测设备,大批量拨测微信业务,产生大量的微信细分业务报文。由于微信不同类别的细分业务由于应用场景的不同对包长、发包间隔、持续时间等非常敏感,因而特征选择上,主要考虑与包长、发包时间相关的业务特征。相对于加密视频的QOE指标预测,微信细分业务对区间敏感度低,因而业务特征的提取考虑混合基于事件和基于区间的特征。选用的特征包括连续通信超过5s后触发的报文上下行平均包长、上下行包长的方差、上下行最大最小包、上下行持续时间、上下行休闲态占比,上下行发包速率、上下行发包平均数量、上下行发包间隔的平均时间、上下行发包间隔的方差,严格区间10s、20s统计的上下行最大最小包、上下行平均包,上下行包长的方差、上下行休闲态占比、上下行发包速率、上下行发包平均数量、小于200字节包占比、200-400大小包占比、400-600大小包占比、600-800大小包占比、800-1000大小包占比、1000-1200包占比、大于1200包占比。
本例使用对输入数据的分布形式和归一化不敏感的树模型作为推理计算算法。
将提取完成的业务特征按照7:3随机分组,其中将70%的样本数据用于模型训练,可以通过设定的误差阈值的方式对训练过程进行监督,当误差达到目标或达到最大训练次数后,自动终止训练过程输出初步算法模型。在采集的数据中使用余下的30%数据作为校验数据,对算法模型进行校验,当模型校验通过后则输出算法模型,否则重新对模型进行训练。在模型训练完成后,生成业务配置文件,通过加载模型与业务配置文件实现对输入的实时流业务的业务指标数据的分析。
本实施方式为待部署的流业务选取特征提取算法用以提取流业务的业务特征。进而选取算法模型,并用待部署的流业务的业务特征和业务指标数据作为样本数据,对选取的算法模型进行训练,训练完成的算法模型能够实现对流业务的分析。在多个预设特征提取算法和算法模型中为流业务选取目标特征提取算法以及算法模型,且对于任一流业务统一采用上述方法进行建模,相比于对不同流业务采用不同方法提取特征、训练模型的方式,能够降低流业务模型建立的复杂度,进而降低流业务分析的复杂度,便捷的实现对流业务的分析。
本发明的一实施方式涉及一种流业务的建模装置,如图12所示,包括:
选取模块1201,用于在预设的多个特征提取算法中选取目标特征提取算法,目标特征提取算法用于提取待部署的流业务的业务特征;并在预设的多个算法模型中选取待部署的流业务的算法模型;
训练模块1202,用于根据样本数据对待部署的流业务的算法模型进行模型训练,其中,样本数据包括待部署的流业务的业务特征和业务指标数据;其中,训练完成的算法模型用于分析流业务的业务指标数据。
在一个例子中,流业务的建模装置还可以包括:采集模块(图中未示出),用于在在预设的多个特征提取算法中选取目标特征提取算法之前,采集待部署的流业务的历史业务数据;其中,待部署的流业务的业务特征和业务指标数据基于历史业务数据提取。
在一个例子中,流业务的建模装置还可以包括:归一化模块(图中未示出),用于在在预设的多个算法模型中选取待部署的流业务的算法模型之后,在根据样本数据对待部署的流业务的算法模型进行模型训练之前,根据选取的待部署的流业务的算法模型的类型,选择是否对待部署的流业务的业务特征进行归一化处理;其中,在选取的待部署的流业务的算法模型的类型不是树模型的情况下,对待部署的流业务的业务特征进行归一化处理。
在一个例子中,归一化模块,还可以用于在预设的多个归一化算法中选取对待部署的流业务的业务特征进行归一化处理的目标归一化算法;基于目标归一化算法,对待部署的流业务的业务特征进行归一化处理。
在一个例子中,流业务的建模装置还可以包括:生成模块(图中未示出),在根据样本数据对待部署的流业务的算法模型进行模型训练后,生成业务配置文件,其中,业务配置文件中包括目标特征提取算法和目标归一化算法;加载业务配置文件和训练完成的算法模型,分析输入的实时流业务的业务指标数据。
在一个例子中,流业务的建模装置还可以包括:调度模块(图中未示出),对业务配置文件中的目标特征提取算法和目标归一化算法进行调度,根据实时流业务,生成用于输入训练完成的算法模型的实时业务特征;对训练完成的算法模型进行调度,分析实时流业务的业务指标数据。
在一个例子中,训练模块1202,还可以用于将样本数据随机划分为训练集和预测集;其中,样本数据根据特征向量和业务指标数据得到;根据训练集对待部署的流业务的算法模型的参数进行训练;根据预测集对训练完成的模型的准确性进行验证。
本实施方式提供的流业务的建模装置为待部署的流业务选取特征提取算法用以提取流业务的业务特征。进而选取算法模型,并用待部署的流业务的业务特征和业务指标数据作为样本数据,对选取的算法模型进行训练,训练完成的算法模型能够实现对流业务的分析。在多个预设特征提取算法和算法模型中为流业务选取目标特征提取算法以及算法模型,且对于任一流业务统一采用上述方法进行建模,相比于对不同流业务采用不同方法提取特征、训练模型的方式,能够降低流业务模型建立的复杂度,进而降低流业务分析的复杂度,便捷的实现对流业务的分析。
本发明的一实施方式涉及一种流业务的建模平台,包括:选取模块和训练模块,选取模块与训练模块相连接;其中,选取模块用于在预设的多个特征提取算法中选取目标特征提取算法,目标特征提取算法用于提取待部署的流业务的业务特征;并在预设的多个算法模型中选取待部署的流业务的算法模型;
训练模块用于根据样本数据对待部署的流业务的算法模型进行模型训练,其中,样本数据包括待部署的流业务的业务特征和业务指标数据;其中,训练完成的算法模型用于分析流业务的业务指标数据。
值得一提的是,本发明上述实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
本发明的实施例还提供一种电子设备,如图13所示,包括至少一个处理器1301;以及,与至少一个处理器1301通信连接的存储器1302;其中,存储器1302存储有可被至少一个处理器1301执行的指令,指令被至少一个处理器1301执行,以使至少一个处理器1301能够执行上述流业务的建模方法。
其中,存储器1302和处理器1301采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器1301和存储器1302的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器1301处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器1301。
处理器1301负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器1302可以被用于存储处理器1301在执行操作时所使用的数据。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请的实施例还提供一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述流业务的建模方法。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
上述实施例是提供给本领域普通技术人员来实现和使用本发明的,本领域普通技术人员可以在不脱离本申请的发明思想的情况下,对上述实施例做出种种修改或变化,因而本发明的保护范围并不被上述实施例所限,而应该符合权利要求书所提到的创新性特征的最大范围。
Claims (10)
1.一种流业务的建模方法,其特征在于,包括:
在预设的多个特征提取算法中选取目标特征提取算法,所述目标特征提取算法用于提取待部署的流业务的业务特征;并在预设的多个算法模型中选取所述待部署的流业务的算法模型;
根据样本数据对所述待部署的流业务的算法模型进行模型训练,其中,所述样本数据包括所述待部署的流业务的业务特征和业务指标数据;其中,训练完成的所述算法模型用于分析所述流业务的业务指标数据。
2.根据权利要求1所述的流业务的建模方法,其特征在于,在所述在预设的多个特征提取算法中选取目标特征提取算法之前,还包括:
采集待部署的流业务的历史业务数据;其中,所述待部署的流业务的业务特征和业务指标数据基于所述历史业务数据提取。
3.根据权利要求1所述的流业务的建模方法,其特征在于,在所述在预设的多个算法模型中选取所述待部署的流业务的算法模型之后,在所述根据样本数据对所述待部署的流业务的算法模型进行模型训练之前,还包括:
根据选取的所述待部署的流业务的算法模型的类型,选择是否对所述待部署的流业务的业务特征进行归一化处理;
其中,在选取的所述待部署的流业务的算法模型的类型不是树模型的情况下,对所述待部署的流业务的业务特征进行归一化处理。
4.根据权利要求3所述的流业务的建模方法,其特征在于,所述对所述待部署的流业务的业务特征进行归一化处理,包括:
在预设的多个归一化算法中选取对所述待部署的流业务的业务特征进行归一化处理的目标归一化算法;
基于所述目标归一化算法,对所述待部署的流业务的业务特征进行归一化处理。
5.根据权利要求4所述的流业务的建模方法,其特征在于,在所述根据样本数据对所述待部署的流业务的算法模型进行模型训练后,还包括:
生成业务配置文件,其中,所述业务配置文件中包括所述目标特征提取算法和所述目标归一化算法;
加载业务配置文件和训练完成的所述算法模型,分析输入的实时流业务的业务指标数据。
6.根据权利要求5所述的流业务的建模方法,其特征在于,所述加载业务配置文件和训练完成的所述算法模型,分析输入的实时流业务的业务指标数据,包括:
对所述业务配置文件中的所述目标特征提取算法和所述目标归一化算法进行调度,根据所述实时流业务,生成用于输入所述训练完成的所述算法模型的实时业务特征;其中,所述调度的调度方式包括:实时调度、定时调度、接收数据包数量调度和事件调度;
对所述训练完成的所述算法模型进行调度,分析所述实时流业务的业务指标数据;其中,所述调度的调度方式包括:定时调度和事件调度。
7.一种流业务的建模装置,其特征在于,包括:
选取模块,用于在预设的多个特征提取算法中选取目标特征提取算法,所述目标特征提取算法用于提取待部署的流业务的业务特征;并在预设的多个算法模型中选取所述待部署的流业务的算法模型;
训练模块,用于根据样本数据对所述待部署的流业务的算法模型进行模型训练,其中,所述样本数据包括所述待部署的流业务的业务特征和业务指标数据;其中,训练完成的所述算法模型用于分析所述流业务的业务指标数据。
8.一种流业务的建模平台,其特征在于,包括:选取模块和训练模块,所述选取模块与所述训练模块相连接;其中,
所述选取模块用于在预设的多个特征提取算法中选取目标特征提取算法,所述目标特征提取算法用于提取待部署的流业务的业务特征;并在预设的多个算法模型中选取所述待部署的流业务的算法模型;
所述训练模块用于根据样本数据对所述待部署的流业务的算法模型进行模型训练,其中,所述样本数据包括所述待部署的流业务的业务特征和业务指标数据;其中,训练完成的所述算法模型用于分析所述流业务的业务指标数据。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6中任一项所述的流业务的建模方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的流业务的建模方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111349490.2A CN116151601A (zh) | 2021-11-15 | 2021-11-15 | 一种流业务建模方法、装置、平台、电子设备和存储介质 |
PCT/CN2022/121424 WO2023082871A1 (zh) | 2021-11-15 | 2022-09-26 | 流业务建模方法、装置、平台、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111349490.2A CN116151601A (zh) | 2021-11-15 | 2021-11-15 | 一种流业务建模方法、装置、平台、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116151601A true CN116151601A (zh) | 2023-05-23 |
Family
ID=86335065
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111349490.2A Pending CN116151601A (zh) | 2021-11-15 | 2021-11-15 | 一种流业务建模方法、装置、平台、电子设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116151601A (zh) |
WO (1) | WO2023082871A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116596585B (zh) * | 2023-07-11 | 2023-11-03 | 亚信科技(中国)有限公司 | 一种用户满意度获取方法、装置、电子设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2909555T3 (es) * | 2018-03-21 | 2022-05-09 | Telefonica Sa | Procedimiento y sistema para entrenar y validar algoritmos de aprendizaje automático en entornos de redes de datos |
KR102271449B1 (ko) * | 2018-11-17 | 2021-07-01 | 한국과학기술정보연구원 | 인공지능 모델 플랫폼 및 인공지능 모델 플랫폼 운영 방법 |
CN112445845A (zh) * | 2020-12-02 | 2021-03-05 | 平安科技(深圳)有限公司 | 基于大数据挖掘的模型部署方法、装置、设备及存储介质 |
CN112507623A (zh) * | 2020-12-15 | 2021-03-16 | 交控科技股份有限公司 | 一种算法中台构建方法及系统 |
CN112884092B (zh) * | 2021-04-28 | 2021-11-02 | 深圳索信达数据技术有限公司 | Ai模型生成方法、电子设备及存储介质 |
-
2021
- 2021-11-15 CN CN202111349490.2A patent/CN116151601A/zh active Pending
-
2022
- 2022-09-26 WO PCT/CN2022/121424 patent/WO2023082871A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023082871A1 (zh) | 2023-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104160659B (zh) | 用于通信网络的管理和操作的方法和装置 | |
CN111368089B (zh) | 一种基于知识图谱的业务处理方法及装置 | |
CN107333292B (zh) | 一种sim卡状态判断方法及装置 | |
US10091675B2 (en) | System and method for estimating an effective bandwidth | |
CN110445653A (zh) | 网络状态预测方法、装置、设备及介质 | |
CN103796183B (zh) | 一种垃圾短信识别方法及装置 | |
CN111611351B (zh) | 在线客服会话的控制方法、装置和电子设备 | |
WO2019062405A1 (zh) | 应用程序的处理方法、装置、存储介质及电子设备 | |
CN111401722B (zh) | 智能决策方法和智能决策系统 | |
CN104246713A (zh) | 利用者体感品质推测装置、终端瓶颈判定装置、类似操作抽出装置及方法以及程序 | |
CN112884159A (zh) | 模型更新系统、模型更新方法及相关设备 | |
CN111563560A (zh) | 基于时序特征学习的数据流分类方法及装置 | |
CN116151601A (zh) | 一种流业务建模方法、装置、平台、电子设备和存储介质 | |
WO2019062404A1 (zh) | 应用程序的处理方法、装置、存储介质及电子设备 | |
CN115729683A (zh) | 任务处理方法、装置、系统、计算机设备和存储介质 | |
CN109327710A (zh) | 一种直播系统的视频流的冷热情况确定的方法及装置 | |
CN115952398B (zh) | 基于物联网的数据上传统计计算方法、系统和存储介质 | |
CN109544323A (zh) | 一种信用卡卡号的智能管理系统 | |
CN112506063B (zh) | 数据分析方法、系统、电子设备和存储介质 | |
CN113947260A (zh) | 用户满意度预测方法、装置及电子设备 | |
CN107888670B (zh) | 一种基于物联网的智能社区信息亭平台 | |
CN115767069A (zh) | 摄像头的故障判定方法、装置和计算机可读存储介质 | |
CN116800886A (zh) | 异常号码的识别方法、装置、存储介质以及电子设备 | |
EP4243360A1 (en) | Information processing method, method for generating and training module, electronic device, and medium | |
CN113965475B (zh) | 网络切片工程验收方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |