CN114401496A - 一种基于5g边缘计算的视频信息快速处理方法 - Google Patents

一种基于5g边缘计算的视频信息快速处理方法 Download PDF

Info

Publication number
CN114401496A
CN114401496A CN202111609803.3A CN202111609803A CN114401496A CN 114401496 A CN114401496 A CN 114401496A CN 202111609803 A CN202111609803 A CN 202111609803A CN 114401496 A CN114401496 A CN 114401496A
Authority
CN
China
Prior art keywords
data
processing
function
distributed
video information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111609803.3A
Other languages
English (en)
Inventor
佟昊松
王刚
宋进良
李欢
李桐
孙茜
肖楠
任帅
孙赫阳
陈剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202111609803.3A priority Critical patent/CN114401496A/zh
Publication of CN114401496A publication Critical patent/CN114401496A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5066Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16YINFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
    • G16Y10/00Economic sectors
    • G16Y10/35Utilities, e.g. electricity, gas or water
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/06Optimizing the usage of the radio link, e.g. header compression, information sizing, discarding information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/38Services specially adapted for particular environments, situations or purposes for collecting sensor information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45595Network integration; Enabling network access in virtual machine instances

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于通信技术技术领域,尤其涉及一种基于5G边缘计算的视频信息快速处理方法。包括以下步骤:步骤1.数据分析方法;步骤2.数据预测;步骤3.对接入的数据进行清洗;步骤4.将清洗后的数据进行存储。本发明基于5G mMTC、uRLLC网络,提出电力物联网中分布式视频流数据处理框架Storm拓扑结构,能够满足大量流数据处理的需求。采用流水线式的处理方式缩短处理时间,在数据接入后采用循环队列和流转算子方法。通过边缘计算处理海量的数据,实现高效的协同工作。采用SVM预测算法对数据的发展趋势进行预测,采用清洗技术处理脏数据,解决了数据传输过程中的污染状况,大大缩短数据处理时间,满足大量流数据处理的需求。

Description

一种基于5G边缘计算的视频信息快速处理方法
技术领域
本发明属于通信技术技术领域,尤其涉及一种基于5G边缘计算的视频信息快速处理方法。
背景技术
随着电力系统信息化和智能化的不断发展,与电力系统相关的物联网数据规模也在不断增长,同时各类电力业务数据的处理需求日趋多样化,这给数据价值的挖掘带来了极大挑战。视频流数据作为电力物联网中典型的一类业务数据,对处理时延的要求更加严格。目前我国电网公司正在加强物联网在电力系统中的应用建设,电力物联网的发展如火如荼,因此,研究电力物联网中视频流数据的处理方法是十分必要的。
虽然传统数据处理方法是多样的,已有研究通过人工智能方法进行数据处理,但是这些数据处理方式很难满足对数据的实时处理要求。由于当前对数据处理时延提出了更高要求,所以视频流数据处理方法研究受到越来越多关注。流数据处理已逐渐应用于更多的领域中,已有研究传感器网络中实时数据处理方法。
目前,针对电力系统数据处理已经做了不少研究,深入研究了基于数据挖掘的电力物联网多源业务体系,分别给出了对内、对外的数据业务体系架构。从数据去噪、特征提取、模式识别、知识挖掘、数据存储、数据可视化等方面对电力数据进行了深入分析。然而,这些研究仍然存在处理方法形式单一,不能很好满足低时延处理要求等不足之处,因此需要研究新的流数据处理方法解决电力物联网中大量数据快速处理需求。
发明内容
针对上述现有技术中存在的不足之处,本发明提供了一种基于5G边缘计算的视频信息快速处理方法。其目的是为了实现能够大大缩短数据处理时间,满足大量流数据快速处理需求的发明目的。
本发明为实现上述目的所采用的技术方案是:
一种基于5G边缘计算的视频信息快速处理方法,包括以下步骤:
步骤1.数据分析方法;
步骤2.数据预测;
步骤3.对接入的数据进行清洗;
步骤4.将清洗后的数据进行存储。
更进一步的,步骤1所述数据分析方法,包括:
步骤(1)数据接入;
步骤(2)对接入的数据进行预处理;
步骤(3)流数据处理结构。
更进一步的,所述步骤(1)数据接入,是在数据循环上采用循环队列,和流转算子相结合,且不只是数据也可以把算法逻辑循环起来;在循环队列中通过全局变量定义一个大的数组,在数组中标志读、写两个位置,实现一个循环队列的基本模型;将从socket缓冲区接收到的数据,缓存到队列中,将写指针向后移动;另外一个线程,操作读指针,不断跟随写指针,将数据取出,处理;
在算法逻辑的循环上采用流转算子,通过算子流转把某个数据需要处理的逻辑留在一个节点上,减少数据流转所用的时间;采用Storm的分布式集群思想,它的每个节点均作为处理的中心或者节点,同时结合Spark的流转算子思路,进行逻辑流转;
Apache Storm是分布式的流数据处理框架,通过Spout获取数据后发送数据,系统中各个Bolt节点进行发送后的数据处理;Storm作为流处理技术提交运行的程序称为拓扑,拓扑结构由Spout和Bolt构成,用来对电力系统的正常工作状态进行监控预测;
所述Spout接收状态监测数据并形成元组,所述Bolt1接收数据并存储到分布式存储系统中,Bolt2对需要的监测数据进行筛选抽取,Bolt3根据电力系统中收集到的数据特征将数据进行分类,将不同类别的数据分别存入不同的单位元组,分为正常、异常和故障三类,并将结果存入分布式文件系统中;此拓扑结构提取监测流数据中的特征,根据其偏离参考数据特征的程度,对电力系统状态进行评估;
步骤(2)对接入的数据进行预处理,是在电力物联网中,数据传送到数据处理框架之前,对接入的数据进行预处理,包括以下步骤:
步骤a.对于数据缺失属性比例大于25%时,删除收到消息的记录;对于缺失率低,缺失率低于10%的情况,对总体数据无影响的数据,通过对于拉格朗日插值法补全缺失数据;
步骤b.搜索样本中重复的数据,对重复的数据进行去除;
步骤c.利用收集到数据的属性以及数据之间的相关性,删减与下一步分析无关的冗余样本属性,减少无效数据;
步骤(3)流数据处理结构,Spark Streaming是通过DStream对连续的数据流在固定的时间上进行分割,以此得到分割的数据,这些数据转化为不变数据,系统通过各种算子对数据进行处理,并输出处理结果,实现对流数据的处理;
数据处理系统包括:计算框架、缓存框架和处理接口框架。
更进一步的,所述计算框架,提供底层分布式,由多个节点组成集群,负责处理可靠性、单机可靠性和多机可靠性的操作能力;在处理接口处进行了创新,处理接口框架服务提供使用该边缘处理系统的各种接口;
所述缓存框架,提供数据快速存储空间;
所述处理接口框架,完成数据的接入检测以及数据的处理过程。
更进一步的,所述计算框架,包括:处理算子、接入终端和数据处理拓扑;
所述处理接口框架,包括:循环队列和流转算子,实现数据及其逻辑流转;
①循环队列模型,将从缓冲区接收到的数据,缓存到队列中,将写指针向后移动,在另一个相邻的位置,操作读指针,不断跟随写指针,将数据取出、处理;在队列中的每一个节点上都带有流转算子;
②流转算子通过对原始数据中产生的RDD(弹性分布式数据集)进行操作,将一个或多个RDD(弹性分布式数据集)生成新的RDD(弹性分布式数据集)。
更进一步的,步骤2所述数据预测,包括:
步骤(1)支持向量机模型的构建;
步骤(2)支持向量机模型的优化;
步骤(3)支持向量机模型的求解。
更进一步的,所述步骤(1)支持向量机模型的构建,基于线性回归的SVM,包括;
首先,在映射到高维的特征空间中,找到一个包围着目标样本点的超球体,通过最小化由该超球体包围的体积,使目标样本点尽可能地包围着超球体,将两种数据进行区分,以此达到区分两种类型的目的;先确定一个中心为o,半径为R的最小球面;中心o表示的是球体的中心,即范围的参照点;
Figure BDA0003434000230000031
上式中,F为球的方程的目标函数,o为中心,R为半径,ξi为松弛因子,D为影响因子,起控制对错分样本惩罚的程度的作用;
并且使球面满足:
(xi-o)T(xi-o)≤R2i (3)
上式中,xi为样本点,T表示将距离差向量组进行转置,o为中心,R为半径;
其中,满足上述条件,则是将训练集中的数据都包含在球里面,松弛变量的作用就是对数据点进行一定的包含能力,以达到对模型的保护;D调节松弛变量的影响大小,D的大小决定成本的多少;
有了约束条件,用Lagrange乘子法进行求解;
Figure BDA0003434000230000032
上式中,L为拉格朗日算法函数,o为中心,R为半径,αi和γi都为拉格朗日因子;
因为和,其中两个参数表示在拉格朗日算子里面的影响变量,对参数求导并令导数等于0得到:
Figure BDA0003434000230000033
并且有:
D-αii=0 (6)
将上面的公式代入拉格朗日函数,得到:
Figure BDA0003434000230000034
上式是由对偶得到,αj为拉格朗日因子,xi为第i个样本的输入值,j为对偶空间中的一个方向;
将超球面的中心用支持向量来表示,则判定新数据是否属于这个类的判定条件是:
Figure BDA0003434000230000035
上式中,z为空间球体的一个方向;
设含有n个训练集样本对为{(xi,yi),i=1,2,…,n},xi是第i个样本的输入值,yi是第i个样本对应的输出值;
在高维特征空间中建立一个线性回归函数,为:
f(x)=kφ(x)+b (9)
上式中,f(x)为预测值,x为样本,k为拟合函数的近似斜率,Φ为关于x的一个函数,b为一个常数;
其中,是一个非线性映射函数;
可知μ是一个损失函数,根据μ的值判断根据回归函数得到的预测值f(x)和实际值y之间的关系为;
Figure BDA0003434000230000041
上式中,f(x)为预测值,y为实际值,μ为损失函数;
将松弛变量、加入,得到:
Figure BDA0003434000230000042
上式中,s.t.表示约束,k为拟合函数的近似斜率,n为样本个数,b为一个常数,
Figure BDA0003434000230000043
为松弛因子;
其中,D为影响因子,影响因子D越大对训练误差大于损失函数μ的样本包容性越大,损失函数μ规定了回归函数的误差要求,损失函数μ越小回归函数的误差越小;
将SVM预测方法运用在流数据的处理中,在面对大量数据时对后续数据进行判断,从而做好应对措施,避免故障的发生;
步骤(2)支持向量机模型的优化;
对于输入向量的m维数,支持向量机优化为:
Figure BDA0003434000230000044
上式中,ω的范数表示间隔距离的倒数,ei为初始误差,ei是一个矢量误差,是拉格朗日乘子,B为一个参数,调节误差的包容性;
步骤(3)支持向量机模型的求解;
引入Lagrange函数,对构建的模型进行求解:
Figure BDA0003434000230000051
可得到:
Figure BDA0003434000230000052
上述两式中,oi、oj
Figure BDA0003434000230000053
分别表示两个分类的支持向量到该超平面的不同距离;oi、oj为一组,
Figure BDA0003434000230000054
为一组;K表示一个核函数,m表示最大的距离,即可区分的界限;Φ为为关于x的一个函数,xi为第i个样本的输入值,yi为第i个样本对应的输出值,k*为构建模型的最优解;
在流数据处理过程中应用SVM模型,加入流转算子,将预测固定的数据变成预测变化的数据,输入端的数据不断更新。
更进一步的,步骤3所述对接入的数据进行清洗,是对接入的数据进行再检查、再处理和过滤的过程,通过数据抽取、数据转换、数据加载三个阶段完成,删除不合格数据,保留有用数据;
所述清洗采用分布式数据清洗系统,以Map Reduce(分布式计算系统)为核心,在Map Reduce中,通过Map(映射)和Reduce(化简)两部分对数据进行处理,Map端读取分布式文件系统中的文件,并对读取的文件进行分割,不同的分割片段执行不同的任务,经过shuffle(调用)阶段进入到Reduce(化简)阶段进行整合操作。
更进一步的,所述对接入的数据进行清洗包括以下步骤:
步骤(1)从分布式文件系统中读取文件,并进行分割,划分成多组Key/Value(关键)键值对;
步骤(2)在Map(映射)里计算Value(重要)值,并进行统计;
步骤(3)Combiner(组合器)对每个分区Map(映射)所对应的key(关键)值进行聚合,将Map(映射)端的输出作为Combiner(组合器)的输入;
步骤(4)Partition(存储分区)针对分片进行处理,将Combiner(组合器)统计出的key进行分区;
步骤(5)Reduce(化简)完成最后数据汇总。
一种计算机存储介质,所述计算机存储介质上存有计算机程序,所述计算机程序被处理器执行时实现所述的一种基于5G边缘计算的视频信息快速处理方法的步骤。
本发明具有以下有益效果及优点如下:
本发明基于5G mMTC、uRLLC网络,提出电力物联网中分布式视频流数据处理框架Storm拓扑结构,以满足大量流数据处理的需求。进而采用流水线式的处理方式,达到缩短处理时间的效果,在数据接入后采用循环队列和流转算子方法。然后再通过边缘计算处理海量的数据,实现高效的协同工作。此外,采用SVM预测算法对数据的发展趋势进行预测,采用清洗技术处理脏数据,解决了数据传输过程中的污染状况。仿真结果表明,所提流数据处理方法大大缩短了数据处理时间,满足了大量流数据处理的需求。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明流数据处理的流程图;
图2是本发明流数据处理框架Apache Storm拓朴结构图;
图3是本发明Spark Streaming数据处理框架图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面将结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
下面参照图1-图3描述本发明一些实施例的技术方案。
实施例1
本发明提供了一个实施例,是一种基于5G边缘计算的视频信息快速处理方法。如图1所示,是本发明一个典型的流数据处理流程图。由于流数据具有连续不断、数据量大、规模及顺序无法预知等特点,单机处理难以满足海量数据处理的高效率要求,所以数据处理采用分布式计算模式,并充分考虑流式数据的处理特点。根据多种处理方式的对比,递推计算模型可以更好地适应流数据处理特点。不同领域的数据其总体趋势和局部都存在差异。通过将复杂的处理流程划分为不同的处理逻辑单元,能够充分利用系统的计算资源,提高系统的通用性和复用性。
可定义处理周期为
Δt=maxTi+d,i∈[1,5] (1)
其中:Ti为第一个处理单元执行所需要的时间;d为分段后由于单元间的数据传输、调度等造成的固定延迟。流水线模式为在处理第一条数据的时候进行第二条数据的处理,即当第一条数据进行到识别模块的时候将第二条数据传送进来,由此可以计算出来进行处理的时间为,即,所以,处理n条数据的时间。在流数据处理场景下由于数据源源不断的到来,即;通过调整处理单元的逻辑与大小,使每段处理单元的时间近似相同,则相比于未采用的流水线模式的总时间,本发明将处理速度提高了近5倍。
本发明一种基于5G边缘计算的视频信息快速处理方法,包括以下步骤:
步骤1.数据分析方法;
步骤(1)数据接入;
由于流数据是动态的,并且数量过大,可能会造成数据丢失或者部分数据处理不到,并且在Storm框架中所面临的一个问题就是数据的接入问题,所以在数据接入方面需要提出新的方法解决这些问题。在数据循环上采用循环队列,然后和流转算子相结合,且不只是数据也可以把算法逻辑循环起来。
在循环队列中通过全局变量定义一个大的数组,在数组中标志读、写两个位置,这样就可以实现一个循环队列的基本模型。将从socket缓冲区接收到的数据,缓存到队列中,将写指针向后移动;另外一个线程,操作读指针,不断跟随写指针,将数据取出,处理。
在算法逻辑的循环上采用流转算子,通过算子流转把某个数据需要处理的逻辑留在一个节点上,减少数据流转所用的时间,减少数据可靠性保证开销,节约资源。可以采用Storm的分布式集群思想,它的每个节点均可以作为处理的中心或者节点,同时结合Spark的流转算子思路,进行逻辑流转。
Apache Storm是一个分布式的流数据处理框架,可以进行扩展,并且对数据有较高的包容能力,通过Spout获取数据然后发送数据,系统中各个Bolt节点进行发送后的数据处理。Storm作为一种流处理技术,其提交运行的程序称为拓扑,拓扑结构由Spout和Bolt构成,可以对电力系统的正常工作状态进行监控预测。如图2所示,是本发明流数据处理框架Apache Storm拓朴结构图。
Spout接收状态监测数据并形成元组,Bolt1接收数据并存储到分布式存储系统中,Bolt2对需要的监测数据进行筛选抽取,Bolt3根据电力系统中收集到的数据特征将数据进行分类。然后将不同类别的数据分别存入不同的单位元组,类如Bolt4、Bolt5中在这些类别中选取一种类别作为正常数据,Bolt6根据与正常数据的差异将数据分为正常、异常和故障三类并将结果存入分布式文件系统中。此拓扑结构提取监测流数据中的一些特征,根据其偏离参考数据特征的程度,对电力系统状态进行评估。
步骤(2)对接入的数据进行预处理;
在电力物联网中,未经过预处理的数据一般都会包含错误数据,这些错误数据可能有缺失、重复、冗余等问题。所以在数据传送到数据处理框架之前,应对数据进行预处理操作。
本发明对接入的数据进行预处理方法具体流程包括以下步骤:
步骤a.对于数据缺失属性比例很大,大于25%的情况下,直接删除此条收到消息的记录;对于缺失率较低,缺失率不高于10%的情况,并且对总体数据几乎无影响的数据,可以通过对于拉格朗日插值法补全缺失数据;
步骤b.搜索样本中重复的数据,对重复的数据进行去除;
步骤c.利用收集到数据的属性以及数据之间的相关性,删减与下一步分析无关的冗余样本属性。
通过上述数据预处理的三个方法,可以减少无效数据,有效防止数据错误的发生,提高数据准确性与规律性,为数据整理收集打下良好的基础。
步骤(3)流数据处理结构。
Spark Streaming是通过DStream对连续的数据流在固定的时间上进行分割,以此得到分割的数据。这些数据可以转化为不变数据,系统通过各种算子对数据进行处理,最后输出处理结果,实现了对流数据的处理。如图3所示,是本发明Spark Streaming数据处理框架图。
数据处理系统分为3大部分,分别为:计算框架、缓存框架和处理接口框架。其中比较重要的是计算框架,该计算框架提供底层分布式,由多个节点组成集群,负责处理可靠性、单机可靠性和多机可靠性的操作能力;在处理接口处进行了创新,处理接口框架服务提供使用该边缘处理系统的各种接口,包括:处理算子、接入终端和数据处理拓扑。
在数据处理系统中最主要的就是处理接口框架,因为完成数据的接入检测,以及数据的处理过程都是在该框架中。处理接口框架中包含:循环队列和流转算子,实现数据及其逻辑流转。
其中,在循环队列模型中将从缓冲区接收到的数据,缓存到队列中,将写指针向后移动,在另一个相邻的位置,操作读指针,不断跟随写指针,将数据取出、处理。在队列中的每一个节点上都带有流转算子。其中,所述流转算子通过对原始数据中产生的RDD(Resilient Distributed Dataset,RDD,弹性分布式数据集)进行操作,将一个或多个RDD生成新的RDD。在流数据处理过程中运用该方法就是使整个系统框架循环流动,在数据输入后,到达接收端开始进行处理,例如分类、清洗等。由于深度学习模型是静态的,所以通过本发明方法让静态的深度学习模型与流动的数据结合,使流数据更好的应用在深度学习的模型。
步骤2.数据预测;
数据预测可以对监测网络进行监控,识别网络中的噪声,或者发生故障都可以依据数据合理范围进行判断,以此提高数据的质量,保证电力系统服务的可靠性。当数据存在噪声或传感器节点发生故障时,能够通过离群检测提高终端用户获取数据的稳定性,减少因错误数据的传输所产生的通信开销和其他不必要的问题。具体包括以下步骤:
步骤(1)支持向量机模型的构建;
基于线性回归的SVM(Support Vector Machine,支持向量机)是VladimirN.Vapnik在上个世纪末提出的一种预测算法。SVM主要用于线性和回归。支持向量机基于统计学习理论,结构风险最小化为原理,其核心思想是建立一个最优超平面,使正负例在训练集中的间隔达到最大。采用SVM算法时,建立SVM模型,分析各部分的约束条件,定义损失函数μ、松弛变量,给出给定样数集,并找到可实现样本分类的函数,这是SVM算法的重要步骤。
首先,在映射到高维的特征空间中,找到一个包围着目标样本点的超球体,然后,通过最小化由该超球体包围的体积,使目标样本点尽可能地包围着超球体,将两种数据进行区分,以此达到区分两种类型的目的。先确定一个中心为o,半径为R的最小球面。这个中心表示的是球体的中心,也就是范围的参照点。
Figure BDA0003434000230000081
上式中,F为球的方程的目标函数,o为中心,R为半径,ζi为松弛因子,D为影响因子,起控制对错分样本惩罚的程度的作用。
并且使球面满足
(xi-o)T(xi-o)≤R2i (3)
上式中,xi为样本点,T表示将距离差向量组进行转置,o为中心,R为半径。
其中,满足上述条件就说明把训练集中的数据都包含在球里面。松弛变量的作用就是对数据点进行一定的包含能力,以达到对模型的保护。D就是影响因子,实现在球的大小和错分样本之间的折中,即给那些需要松弛的数据点多少松弛的空间,D的大小决定成本的多少,由于D变大成本就变大,所以要把松弛变量调小。
有了约束条件,可以用Lagrange乘子法进行求解。
Figure BDA0003434000230000091
上式中,L为拉格朗日算法函数,o为中心,R为半径,αi和γi都为拉格朗日因子。
因为和,其中两个参数表示在拉格朗日算子里面的影响变量,对参数求导并令导数等于0得到:
Figure BDA0003434000230000092
并且有:
D-αii=0 (6)
将上面的公式代入拉格朗日函数,得到:
Figure BDA0003434000230000093
上式是由对偶得到,αj为拉格朗日因子,xi为第i个样本的输入值,j为对偶空间中的一个方向。
将超球面的中心用支持向量来表示,那么判定新数据是否属于这个类的判定条件就是:
Figure BDA0003434000230000094
上式中,z为空间球体的一个方向。
先假设含有n个训练集样本对为{(xi,yi),i=1,2,…,n},xi是第i个样本的输入值,yi是第i个样本对应的输出值。
然后在高维特征空间中建立一个线性回归函数为:
f(x)=kφ(x)+b (9)
上式中,f(x)为预测值,x为样本,k为拟合函数的近似斜率,Φ为关于x的一个函数,b为一个常数。
其中,是一个非线性映射函数。
根据前面可知μ是一个损失函数,可以根据μ的值来判断根据回归函数得到的预测值f(x)和实际值y之间的关系。
Figure BDA0003434000230000101
上式中,f(x)为预测值,y为实际值,μ为损失函数。
将松弛变量、加入,可以得到
Figure BDA0003434000230000102
上式中,s.t.表示约束,k为拟合函数的近似斜率,n为样本个数,b为一个常数,
Figure BDA0003434000230000103
为松弛因子。
其中,D为影响因子,影响因子D越大表示对训练误差大于损失函数μ的样本包容性越大,损失函数μ规定了回归函数的误差要求,损失函数μ越小表示回归函数的误差越小。
可见,将SVM预测方法运用在流数据的处理中,在面对大量数据的时候可以对后续数据进行判断,从而做好应对措施,避免一些故障的发生。
步骤(2)支持向量机模型的优化;
对于输入向量的m维数,支持向量机优化为:
Figure BDA0003434000230000104
上式中,ω的范数表示间隔距离的倒数,ei为初始误差,ei是一个矢量误差,是拉格朗日乘子,B为一个参数,调节误差的包容性。
步骤(3)支持向量机模型的求解;
引入Lagrange函数,对上面构建的模型进行求解:
Figure BDA0003434000230000105
可以得到:
Figure BDA0003434000230000111
上述两式中,oi、oj
Figure BDA0003434000230000112
分别表示两个分类的支持向量到该超平面的不同距离。oi、oj为一组,
Figure BDA0003434000230000113
为一组。K表示一个核函数,m表示最大的距离,即可区分的界限;Φ为为关于x的一个函数,xi为第i个样本的输入值,yi为第i个样本对应的输出值,k*为构建模型的最优解。
在流数据处理过程中应用了SVM模型,与平常的预测模型不同,该模型中加入了一个流转算子,将预测固定的数据变成预测变化的数据,并且在输入端的数据都是不断更新的,不是固定的。
步骤3.对接入的数据进行清洗。
对接入的数据进行清洗主要是对输入的数据进行再检查、再处理和过滤的过程,主要通过数据抽取、数据转换、数据加载三个阶段来完成,目的是删除不合格数据,保留有用数据,以提高数据清理的效率。
分布式数据清洗系统以Map Reduce(分布式计算系统)为设计核心,在Map Reduce中,通过Map和Reduce两部分对数据进行处理,Map端读取分布式文件系统中的文件,然后对读取的文件进行分割,在此过程中不同的分割片段执行不同的任务,再经过shuffle(调动)阶段进入到Reduce(还原)阶段进行整合操作。
具体包括以下操作步骤:
步骤(1)从DFS分布式文件系统中读取文件,将这个文件进行分割,划分成多组Key/Value(关键)键值对。
步骤(2)在Map(映射)里将Value(重要)值计算出来,然后进行统计。
步骤(3)Combiner(组合器)对每个分区Map所对应的key值进行聚合,将Map端的输出作为Combiner的输入。
步骤(4)Partition(存储分区)针对分片进行处理,将Combiner统计出的key进行分区。
步骤(5)Reduce完成最后数据汇总。
步骤4.将清洗后的数据进行存储。
最后,将步骤3清洗完成后汇总的数据存入数据仓库。
实施例2
基于同一发明构思,本发明实施例还提供了一种计算机存储介质,所述计算机存储介质上存有计算机程序,所述计算机程序被处理器执行时实现实施例1所述的一种基于5G边缘计算的视频信息快速处理方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种基于5G边缘计算的视频信息快速处理方法,其特征是:包括以下步骤:
步骤1.数据分析方法;
步骤2.数据预测;
步骤3.对接入的数据进行清洗;
步骤4.将清洗后的数据进行存储。
2.根据权利要求1所述的一种基于5G边缘计算的视频信息快速处理方法,其特征是:步骤1所述数据分析方法,包括:
步骤(1)数据接入;
步骤(2)对接入的数据进行预处理;
步骤(3)流数据处理结构。
3.根据权利要求1所述的一种基于5G边缘计算的视频信息快速处理方法,其特征是:所述步骤(1)数据接入,是在数据循环上采用循环队列,和流转算子相结合,且不只是数据也可以把算法逻辑循环起来;在循环队列中通过全局变量定义一个大的数组,在数组中标志读、写两个位置,实现一个循环队列的基本模型;将从socket缓冲区接收到的数据,缓存到队列中,将写指针向后移动;另外一个线程,操作读指针,不断跟随写指针,将数据取出,处理;
在算法逻辑的循环上采用流转算子,通过算子流转把某个数据需要处理的逻辑留在一个节点上,减少数据流转所用的时间;采用Storm的分布式集群思想,它的每个节点均作为处理的中心或者节点,同时结合Spark的流转算子思路,进行逻辑流转;
Apache Storm是分布式的流数据处理框架,通过Spout获取数据后发送数据,系统中各个Bolt节点进行发送后的数据处理;Storm作为流处理技术提交运行的程序称为拓扑,拓扑结构由Spout和Bolt构成,用来对电力系统的正常工作状态进行监控预测;
所述Spout接收状态监测数据并形成元组,所述Bolt1接收数据并存储到分布式存储系统中,Bolt2对需要的监测数据进行筛选抽取,Bolt3根据电力系统中收集到的数据特征将数据进行分类,将不同类别的数据分别存入不同的单位元组,分为正常、异常和故障三类,并将结果存入分布式文件系统中;此拓扑结构提取监测流数据中的特征,根据其偏离参考数据特征的程度,对电力系统状态进行评估;
步骤(2)对接入的数据进行预处理,是在电力物联网中,数据传送到数据处理框架之前,对接入的数据进行预处理,包括以下步骤:
步骤a.对于数据缺失属性比例大于25%时,删除收到消息的记录;对于缺失率低,缺失率低于10%的情况,对总体数据无影响的数据,通过对于拉格朗日插值法补全缺失数据;
步骤b.搜索样本中重复的数据,对重复的数据进行去除;
步骤c.利用收集到数据的属性以及数据之间的相关性,删减与下一步分析无关的冗余样本属性,减少无效数据;
步骤(3)流数据处理结构,Spark Streaming是通过DStream对连续的数据流在固定的时间上进行分割,以此得到分割的数据,这些数据转化为不变数据,系统通过各种算子对数据进行处理,并输出处理结果,实现对流数据的处理;
数据处理系统包括:计算框架、缓存框架和处理接口框架。
4.根据权利要求3所述的一种基于5G边缘计算的视频信息快速处理方法,其特征是:所述计算框架,提供底层分布式,由多个节点组成集群,负责处理可靠性、单机可靠性和多机可靠性的操作能力;在处理接口处进行了创新,处理接口框架服务提供使用该边缘处理系统的各种接口;
所述缓存框架,提供数据快速存储空间;
所述处理接口框架,完成数据的接入检测以及数据的处理过程。
5.根据权利要求4所述的一种基于5G边缘计算的视频信息快速处理方法,其特征是:所述计算框架,包括:处理算子、接入终端和数据处理拓扑;
所述处理接口框架,包括:循环队列和流转算子,实现数据及其逻辑流转;
①循环队列模型,将从缓冲区接收到的数据,缓存到队列中,将写指针向后移动,在另一个相邻的位置,操作读指针,不断跟随写指针,将数据取出、处理;在队列中的每一个节点上都带有流转算子;
②流转算子通过对原始数据中产生的RDD(弹性分布式数据集)进行操作,将一个或多个RDD(弹性分布式数据集)生成新的RDD(弹性分布式数据集)。
6.根据权利要求1所述的一种基于5G边缘计算的视频信息快速处理方法,其特征是:步骤2所述数据预测,包括:
步骤(1)支持向量机模型的构建;
步骤(2)支持向量机模型的优化;
步骤(3)支持向量机模型的求解。
7.根据权利要求6所述的一种基于5G边缘计算的视频信息快速处理方法,其特征是:所述步骤(1)支持向量机模型的构建,基于线性回归的SVM,包括;
首先,在映射到高维的特征空间中,找到一个包围着目标样本点的超球体,通过最小化由该超球体包围的体积,使目标样本点尽可能地包围着超球体,将两种数据进行区分,以此达到区分两种类型的目的;先确定一个中心为o,半径为R的最小球面;中心o表示的是球体的中心,即范围的参照点;
Figure FDA0003434000220000021
上式中,F为球的方程的目标函数,o为中心,R为半径,ξi为松弛因子,D为影响因子,起控制对错分样本惩罚的程度的作用;
并且使球面满足:
(xi-o)T(xi-o)≤R2i (3)
上式中,xi为样本点,T表示将距离差向量组进行转置,o为中心,R为半径;
其中,满足上述条件,则是将训练集中的数据都包含在球里面,松弛变量的作用就是对数据点进行一定的包含能力,以达到对模型的保护;D调节松弛变量的影响大小,D的大小决定成本的多少;
有了约束条件,用Lagrange乘子法进行求解;
Figure FDA0003434000220000031
上式中,L为拉格朗日算法函数,o为中心,R为半径,αi和γi都为拉格朗日因子;
因为和,其中两个参数表示在拉格朗日算子里面的影响变量,对参数求导并令导数等于0得到:
Figure FDA0003434000220000032
并且有:
D-αii=0 (6)
将上面的公式代入拉格朗日函数,得到:
Figure FDA0003434000220000033
上式是由对偶得到,αj为拉格朗日因子,xi为第i个样本的输入值,j为对偶空间中的一个方向;
将超球面的中心用支持向量来表示,则判定新数据是否属于这个类的判定条件是:
Figure FDA0003434000220000034
上式中,z为空间球体的一个方向;
设含有n个训练集样本对为{(xi,yi),i=1,2,…,n},xi是第i个样本的输入值,yi是第i个样本对应的输出值;
在高维特征空间中建立一个线性回归函数,为:
f(x)=kφ(x)+b (9)
上式中,f(x)为预测值,x为样本,k为拟合函数的近似斜率,Φ为关于x的一个函数,b为一个常数;
其中,是一个非线性映射函数;
可知μ是一个损失函数,根据μ的值判断根据回归函数得到的预测值f(x)和实际值y之间的关系为;
Figure FDA0003434000220000035
上式中,f(x)为预测值,y为实际值,μ为损失函数;
将松弛变量、加入,得到:
Figure FDA0003434000220000041
上式中,s.t.表示约束,k为拟合函数的近似斜率,n为样本个数,b为一个常数,
Figure FDA0003434000220000042
为松弛因子;
其中,D为影响因子,影响因子D越大对训练误差大于损失函数μ的样本包容性越大,损失函数μ规定了回归函数的误差要求,损失函数μ越小回归函数的误差越小;
将SVM预测方法运用在流数据的处理中,在面对大量数据时对后续数据进行判断,从而做好应对措施,避免故障的发生;
步骤(2)支持向量机模型的优化;
对于输入向量的m维数,支持向量机优化为:
Figure FDA0003434000220000043
上式中,ω的范数表示间隔距离的倒数,ei为初始误差,ei是一个矢量误差,是拉格朗日乘子,B为一个参数,调节误差的包容性;
步骤(3)支持向量机模型的求解;
引入Lagrange函数,对构建的模型进行求解:
Figure FDA0003434000220000044
可得到:
Figure FDA0003434000220000045
上述两式中,oi、oj
Figure FDA0003434000220000051
分别表示两个分类的支持向量到该超平面的不同距离;oi、oj为一组,
Figure FDA0003434000220000052
为一组;K表示一个核函数,m表示最大的距离,即可区分的界限;Φ为为关于x的一个函数,xi为第i个样本的输入值,yi为第i个样本对应的输出值,k*为构建模型的最优解;
在流数据处理过程中应用SVM模型,加入流转算子,将预测固定的数据变成预测变化的数据,输入端的数据不断更新。
8.根据权利要求1所述的一种基于5G边缘计算的视频信息快速处理方法,其特征是:步骤3所述对接入的数据进行清洗,是对接入的数据进行再检查、再处理和过滤的过程,通过数据抽取、数据转换、数据加载三个阶段完成,删除不合格数据,保留有用数据;
所述清洗采用分布式数据清洗系统,以Map Reduce(分布式计算系统)为核心,在MapReduce中,通过Map(映射)和Reduce(化简)两部分对数据进行处理,Map端读取分布式文件系统中的文件,并对读取的文件进行分割,不同的分割片段执行不同的任务,经过shuffle(调用)阶段进入到Reduce(化简)阶段进行整合操作。
9.根据权利要求8所述的一种基于5G边缘计算的视频信息快速处理方法,其特征是:所述对接入的数据进行清洗包括以下步骤:
步骤(1)从分布式文件系统中读取文件,并进行分割,划分成多组Key/Value(关键)键值对;
步骤(2)在Map(映射)里计算Value(重要)值,并进行统计;
步骤(3)Combiner(组合器)对每个分区Map(映射)所对应的key(关键)值进行聚合,将Map(映射)端的输出作为Combiner(组合器)的输入;
步骤(4)Partition(存储分区)针对分片进行处理,将Combiner(组合器)统计出的key进行分区;
步骤(5)Reduce(化简)完成最后数据汇总。
10.一种计算机存储介质,其特征是:所述计算机存储介质上存有计算机程序,所述计算机程序被处理器执行时实现权利要求1-9所述的一种基于5G边缘计算的视频信息快速处理方法的步骤。
CN202111609803.3A 2021-12-25 2021-12-25 一种基于5g边缘计算的视频信息快速处理方法 Pending CN114401496A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111609803.3A CN114401496A (zh) 2021-12-25 2021-12-25 一种基于5g边缘计算的视频信息快速处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111609803.3A CN114401496A (zh) 2021-12-25 2021-12-25 一种基于5g边缘计算的视频信息快速处理方法

Publications (1)

Publication Number Publication Date
CN114401496A true CN114401496A (zh) 2022-04-26

Family

ID=81227251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111609803.3A Pending CN114401496A (zh) 2021-12-25 2021-12-25 一种基于5g边缘计算的视频信息快速处理方法

Country Status (1)

Country Link
CN (1) CN114401496A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117423224A (zh) * 2023-09-27 2024-01-19 深圳市地质环境研究院有限公司 边坡监测物联网设备的数据采集方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117423224A (zh) * 2023-09-27 2024-01-19 深圳市地质环境研究院有限公司 边坡监测物联网设备的数据采集方法

Similar Documents

Publication Publication Date Title
US20220351019A1 (en) Adaptive Search Method and Apparatus for Neural Network
Sethi et al. RecShard: statistical feature-based memory optimization for industry-scale neural recommendation
US10013656B1 (en) Methods and apparatus for analytical processing of provenance data for HPC workflow optimization
CN109388565B (zh) 基于生成式对抗网络的软件系统性能优化方法
CN103019855B (zh) MapReduce作业执行时间预测方法
Zhi Kang et al. Efficient deep learning pipelines for accurate cost estimations over large scale query workload
Hua et al. Hadoop configuration tuning with ensemble modeling and metaheuristic optimization
CN113568954A (zh) 网络流量预测数据预处理阶段的参数最优化方法及系统
CN114066073A (zh) 电网负荷预测方法
CN114401496A (zh) 一种基于5g边缘计算的视频信息快速处理方法
Zhang et al. A multi-output prediction model for physical machine resource usage in cloud data centers
CN115878824B (zh) 图像检索系统、方法和装置
CN114510526A (zh) 一种线上数控展览方法
CN111708919B (zh) 一种大数据处理方法及系统
CN113486063A (zh) 电力物联网中流数据处理方法、装置及终端设备
Wang et al. Distributed big data mining platform for smart grid
CN110209631A (zh) 大数据处理方法及其处理系统
US20220343146A1 (en) Method and system for temporal graph neural network acceleration
Plehn et al. Data-aware compression for HPC using machine learning
Li et al. An application-oblivious memory scheduling system for DNN accelerators
Hu et al. Optimizing resource allocation for data-parallel jobs via gcn-based prediction
Gao et al. Construction and Optimization of Co-occurrence-attribute-interaction Model for Column Semantic Recognition.
CN113254428A (zh) 一种基于决策树的缺失数据填充方法及系统
Wu et al. Application of Improved Feature Pre-processing Method in Prevention and Control of Electricity Charge Risk
Sewal et al. Algorithmic Proficiency in Spark Configuration Tuning: An Empirical Study using Execution Time Metrics across Varied Workloads

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination