CN114462623A - 基于边缘计算的数据分析方法、系统及平台 - Google Patents

基于边缘计算的数据分析方法、系统及平台 Download PDF

Info

Publication number
CN114462623A
CN114462623A CN202210125350.5A CN202210125350A CN114462623A CN 114462623 A CN114462623 A CN 114462623A CN 202210125350 A CN202210125350 A CN 202210125350A CN 114462623 A CN114462623 A CN 114462623A
Authority
CN
China
Prior art keywords
data
samples
machine learning
learning model
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210125350.5A
Other languages
English (en)
Other versions
CN114462623B (zh
Inventor
钱伟中
李小虎
朱钦圣
冯旭栋
张聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
AECC Sichuan Gas Turbine Research Institute
Original Assignee
University of Electronic Science and Technology of China
AECC Sichuan Gas Turbine Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China, AECC Sichuan Gas Turbine Research Institute filed Critical University of Electronic Science and Technology of China
Priority to CN202210125350.5A priority Critical patent/CN114462623B/zh
Publication of CN114462623A publication Critical patent/CN114462623A/zh
Application granted granted Critical
Publication of CN114462623B publication Critical patent/CN114462623B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了基于边缘计算的数据分析方法、系统及平台,属于边缘计算技术领域,方法包括根据当前待处理数据集选取AI算法及机器学习模型;分析待处理数据集中样本与支撑样本的共性进而对机器学习模型参数进行优化,分析待处理数据集中样本的标注价值,确定高标注价值样本,基于高标注价值样本对机器学习模型进行训练;将完成训练的机器学习模型迁移至边缘计算设备,对待处理数据集进行数据分析处理,并输出数据分析处理结果。本申请将完成训练的机器学习模型迁移至边缘计算设备,进一步运行对应AI算法,能够提供功耗更低、实时性更高、便携性更好的数据处理结果,充分利用边缘计算设备有限的计算和存储资源,缓解了服务器的数据处理压力。

Description

基于边缘计算的数据分析方法、系统及平台
技术领域
本发明涉及边缘计算技术领域,尤其涉及基于边缘计算的数据分析方法、系统及平台。
背景技术
近年来,边缘人工智能计算或边缘智能(edge AI/edge intelligence)的研究正获得越来越多的关注。边缘计算是指在网络边缘执行计算的一种新型计算模式,边缘计算中边缘的下行数据表示云服务,上行数据表示万物互联服务。这种新型计算模式,通过在靠近物或数据源头的网络边缘侧,为应用提供融合计算、存储和网络等资源。同时,边缘计算也是一种使能技术,通过在网络边缘侧提供这些资源,满足行业在敏捷联接、实时业务、数据优化、应用智能、安全与隐私保护等方面的关键需求。端侧机器学习(ODML)即边缘计算具有以下优势:
1)更快的响应速度,直接在终端设备上采集和处理数据集,并就地开展模型训练或模型运行工作,而不需要和PC进行交互。
2)更严格的数据安全保证,由于整个处理过程均在终端设备上进行,所以设备可以直接离线工作,极大地增强了数据安全性。
3)可接受的硬件保障,尽管终端设备不能与PC或服务器媲美,但随着终端设备硬件的快速迭代,目前也可提供用户可接受的处理速度,甚至部分设备已有或可拓展GPU(Graphic Processing Unit)部件,一定程度上提升了终端设备的算力。
可以看出,相比于传统的云计算模型,边缘计算模型具有实时数据处理和分析、安全性高、隐私保护、可扩展性强、位置感知以及低流量的优势。有统计数据部分说明了数据在边缘处理的优势,例如:在人脸识别领域,请求的响应时间从900ms减少为169ms;部分计算任务从云端卸载到边缘后,整体系统能耗降低了30%~40%;在数据的整合和迁移方面,时间消耗减少近20倍。
现有技术中将边缘智能写入新一版的人工智能曲线。基于边缘计算框架,可以使许多智能化的设想,如智慧城市、车联网等付诸实际应用,并使得这些复杂的智能应用实现在边缘端的实时处理。通过将人工智能算法融入边缘计算架构中,优化边缘缓存、边缘计算任务卸载以及整体边缘上的资源调度,以达到优化整体边缘计算系统性能的效果。
在传统模式下,航空发动机在实验过程中通过传感器采集实验数据后,所有数据统一汇集到大型服务器上作后续处理和研究,而基于大型云端服务器进行数据处理时,一方面有限的带宽不足以支持数据的实时传输,另一方面数据完全交由云端处理会大大增加任务请求的响应时间,不能满足高实时性要求,且大型服务器的设备便携性差,无法适宜各种数据分析场景。若通过边缘设备进行数据处理,其数据处理性能仍需进一步提升。在此基础上,如何将边缘计算与机器学习、深度学习等人工智能技术进行结合,解决现有技术中数据处理性能低、实时性差的问题是本领域技术人员的研究热点。
发明内容
本发明的目的在于克服现有技术中边缘设备数据处理性能低、实时性差的问题,提供了基于边缘计算的数据分析方法、系统及平台。
本发明的目的是通过以下技术方案来实现的:基于边缘计算的数据分析方法,方法具体包括以下步骤:
根据当前待处理数据集选取AI算法及机器学习模型;
分析待处理数据集中样本与支撑样本的共性进而对机器学习模型参数进行优化,和/或,分析待处理数据集中样本的标注价值,确定高标注价值样本,基于高标注价值样本对机器学习模型进行训练;
将完成训练的机器学习模型迁移至边缘计算设备,对待处理数据集进行数据分析处理,并输出数据分析处理结果。
在一示例中,所述将完成训练的机器学习模型迁移至边缘计算设备具体包括:
根据边缘计算设备的WebView控件构建机器学习模型的网页应用环境;
基于所述网页应用环境运行JavaScript库中机器学习模型,进而将完成训练的机器学习模型迁移至边缘计算设备。
在一示例中,所述分析待处理数据集中样本与支撑样本的共性具体包括:
利用支撑数据集训练原型网络(prototypical networks),进而提取支撑集中数据类别原型;
将支撑数据集中数据类型,分别构建生成待修正机器学习模型,并迁移到边缘设备上;
将目标数据集输入原型网络进行分类;
对于同一类别或相似类别的目标数据集调节待修正机器学习模型参数。
在一示例中,所述确定高标注价值样本具体包括:
根据样本预测结果的不确定度衡量标注价值,预测结果为0.4-0.6的样本为高标注价值的样本;和/或,
将满足缩减版本空间阈值的样本作为高标注价值样本;和/或,
将满足减小泛化误差阈值的样本作为高标注价值样本。
在一示例中,所述方法还包括数据清洗步骤,具体包括:
根据数据类型的不同对待处理数据集中样本进行重命名、类型分类和重组处理;和/或,
基于偏差阈值剔除待处理数据集中的异常样本,和/或,基于统计量剔除待处理数据集中的异常样本,和/或,基于物理逻辑关系剔除待处理数据集中的异常样本。
本申请还包括一种基于边缘计算的数据分析系统,与上述基于边缘计算的数据分析系统具有相同的发明构思,所述系统包括:
匹配单元,根据当前待处理数据集选取AI算法及机器学习模型;
优化训练单元,用于分析待处理数据集中样本与支撑样本的共性进而对机器学习模型参数进行优化,和/或,分析待处理数据集中样本的标注价值,确定高标注价值样本,基于高标注价值样本对机器学习模型进行训练;
模型迁移单元,将完成训练的机器学习模型迁移至边缘计算设备;
数据处理单元,基于完成训练的机器学习模型对待处理数据集进行数据分析处理,并输出数据分析处理结果。
在一示例中,所述系统还包括数据清洗单元,用于根据数据类型的不同对待处理数据集中样本进行重命名、类型分类和重组处理;和/或,
基于偏差阈值剔除待处理数据集中的异常样本,和/或,基于统计量剔除待处理数据集中的异常样本,和/或,基于物理逻辑关系剔除待处理数据集中的异常样本。
在一示例中,所述系统还包括数据读取单元,用于获取离线数据、在线数据和本地数据,进而得到待处理数据集和现有数据集。
本申请还包括基于边缘计算的数据分析平台,其包括双向通信连接的服务器和边缘计算设备,以将完成训练的机器学习模型迁移至边缘计算设备;
所述边缘计算设备基于完成训练的机器学习模型对待处理数据集进行数据分析处理,并输出数据分析处理结果;
所述服务器上存储有机器学习模型和AI算法,根据当前待处理数据集选取AI算法及机器学习模型,并分析待处理数据集中样本与支撑样本的共性进而对机器学习模型参数进行优化,和/或,分析待处理数据集中样本的标注价值,确定高标注价值样本,基于高标注价值样本对机器学习模型进行训练。
在一示例中,所述边缘计算设备包括处理器和第一显示器,处理器输出端与第一显示器连接;所述服务器上连接有第二显示器,处理器和服务器双向通信连接。
需要进一步说明的是,上述各示例对应的技术特征可以相互组合或替换构成新的技术方案。
本发明还包括一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述任一示例或多个示例组成形成的所述基于边缘计算的数据分析方法的步骤。
本发明还包括一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述任一示例或多个示例形成的所述基于边缘计算的数据分析方法的步骤。
与现有技术相比,本发明有益效果是:
1.在一示例中,本申请将完成训练的机器学习模型迁移至边缘计算设备,进一步运行对应AI算法,能够提供功耗更低、实时性更高、便携性更好的数据处理结果,充分利用边缘计算设备有限的计算和存储资源,缓解了服务器的数据处理压力;进一步地,通过分析待处理数据集中数据间的共同性和相似性,能够进一步对模型参数进行调整,优化由于小样本数据量小、便签不显著导致的数据分析性能差的问题。进一步地,本示例中基于高标注价值样本对机器学习模型进行训练,能够帮助模型进一步学习样本的特征信息,以提升模型的数据处理能力。
2.在一示例中,本申请基于WebView控件迁移的机器学习模型可直接在边缘计算设备上训练与运行,无需通过PC对机器学习模型进行预训练,也无需进一步对模型进行转化后再实现模型的转移,整个过程十分简单便捷。
3.在一示例中,通过数据清洗步骤,能够将提出数据集中的异常样本,以此保证后续机器学习模型的数据处理性能。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的说明,此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,在这些附图中使用相同的参考标号来表示相同或相似的部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本发明一示例中的方法流程图;
图2为本发明一示例中的优选优化训练方法流程图;
图3为本发明一示例中的数据清洗流程图;
图4为本发明一示例中基于物理逻辑关系提出航空发动机的异常舱室压力样本过程中舱室压力监测点分布图;
图5为本发明一示例中平台示意框图;
图6为本发明一示例中平台算法服务结构示意图;
图7为本发明一示例中Andoriod终端与服务器数据处理示意图。
具体实施方式
下面结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,属于“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方向或位置关系为基于附图所述方向或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,属于“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,属于“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
在一示例中,如图1所示,基于边缘计算的数据分析方法,以用于航空发动机参数进行数据修正为例,具体包括以下步骤:
S1:根据当前待处理数据集选取AI算法及AI算法对应的机器学习模型;其中,AI算法包括但不限于随机森林算法(Random Forest)、决策树算法(Decision Tree)、Bagging算法、神经网络算法(Neural Network)等。AI算法通过用户进行选择,以选择对于当前待处理数据集而言数据处理效果最优的AI算法。作为一选项,可通过计算当前待处理数据集与现有数据集的相似度进而确定对应的AI算法。现有数据集为已知数据类型的数据集,该数据集中各数据样本均有对应的标注目标类别的标签。
S2:分析待处理数据集中样本与支撑样本的共性进而对机器学习模型参数进行优化;其中,共性表示待处理数据集中样本与支撑样本属于相同或者相似类别。
S3:分析待处理数据集中样本的标注价值,确定高标注价值样本,基于高标注价值样本对机器学习模型进行训练;其中,模型预测精准度越差的样本的标注价值越高。
S4:将完成训练的机器学习模型迁移至边缘计算设备,对待处理数据集进行数据分析处理,并输出数据分析处理结果。
本示例中将完成训练的机器学习模型迁移至边缘计算设备,进一步运行对应AI算法,能够提供功耗更低、实时性更高、便携性更好的数据处理结果,充分利用边缘计算设备有限的计算和存储资源,缓解了服务器的数据处理压力;进一步地,通过分析待处理数据集中数据间的共同性和相似性,用以在进行模型配置时对模型参数进行调整,包括模型的输入输出维度、激活函数、模型优化器、训练指标、batchSize、epochs等参数,优化由于小样本数据量小、便签不显著导致的数据分析性能差的问题。进一步地,本示例中基于高标注价值样本对机器学习模型进行训练,能够帮助模型进一步学习样本的特征信息,以提升模型的数据处理能力,即提升模型的数据预测能力,以及公式编辑计算能力等。
在一示例中,现有模型迁移可通过Tensorflow Lite实现将PC上事先训练的机器学习或深度学习模型转化为.tflite模型,然后在边缘计算设备如安卓设备上调用TFLite解释执行器即可运行该模型。或是在PC训练sklearn的模型,将.pmml模型文件转成.ser序列化文件,然后在安卓设备上反序列化.ser文件就能加载模型并运行该文件,然而上述两种方式,都只能事先在PC设备上训练模型,然后通过工具库转化之后才可在安卓设备上运行,并不能满足在安卓设备上训练和运行模型的需求,为解决该问题,本申请将完成训练的机器学习模型迁移至边缘计算设备具体包括:
S11:根据边缘计算设备的WebView控件构建机器学习模型的网页应用环境;
S12:基于所述网页应用环境运行JavaScript库中机器学习模型,进而将完成训练的机器学习模型迁移至边缘计算设备。具体地,WebView控件基于边缘计算设备如安卓设备内置的webkit内核浏览器封装,能够直接构建运行基于HTML5+CSS+JS(Javascript)的网页应用,在此环境下,使用基于硬件加速的JavaScript库TensorFlow.js,即可实现AI算法模型在边缘设备上的训练和部署。本申请中,基于TensorFlow.js库,不仅能够在边缘设备上构建机器学习模型,还能够使用高级的类似Keras的API(Application ProgrammingInterface)构建神经网络模型。
本示例中基于WebView控件迁移的机器学习模型可直接在边缘计算设备上训练与运行,无需通过PC对机器学习模型进行预训练,也无需进一步对模型进行转化后再实现模型的转移,整个过程十分简单便捷。
在一示例中,分析待处理数据集中样本与支撑样本的共性具体包括:
S21:利用支撑数据集(初始数据集)训练原型网络(prototypical networks),原型网络将每个类别中的样例数据映射到一个空间当中,并且提取他们的“均值”来表示为该类的原形,使用欧几里得距离作为距离度量,训练使得本类别数据到本类原形表示的距离为最近,到其他类原形表示的距离较远;
S22:将支撑数据集按照原型进行分类,分别构建生成初始修正模型(即机器学习和深度学习总温修正模型),并迁移到边缘设备上;
S23:将目标数据集(新获取的待分类数据集)输入原型网络(PrototypicalNetworks)进行分类;
S24:对于同一类别或相似类别的目标数据集在初始修正模型的基础上进行模型微调,即根据微调后的模型运行效果,对模型的输入输出维度、激活函数选择、模型优化器、训练指标、batchSize、epochs等参数进行调整,直到模型运行效果满足需求。
将步骤S2-S3进行结合,得到本申请优选优化训练示例,如图2所示,具体包括以下步骤:
S231:接收预处理后的数据(待处理数据集中样本);
S232:选择对应的AI算法;
S233:基于AI算法构建机器学习模型;
S234:基于预处理后的数据(待处理数据集中样本)对模型配置参数进行优化,同时对输入的预处理后的数据进行优化;
S235:模型训练;
S236:基于模型输出信息确定训练效果,同时对模型参数进行反向修正,并进行再训练,以此得到性能优异的模型,完成模型的训练。
在一示例中,确定高标注价值样本具体包括:
S31:根据样本预测结果的不确定度衡量标注价值,预测结果为0.4-0.6的样本为高标注价值的样本;其中,将待处理数据集中样本数据输入到边缘设备(Android终端)中,并进行数据清洗处理,然后以人工标注或按照查询策略从待标注数据中选出具有高价值的数据。本示例中以不确定度衡量样本的标注价值,预测结果越接近0.5的样本表示当前模型对于该样本具有较高的不确定性,即样本需要进行标注的价值较高。
S32:将满足缩减版本空间阈值的样本作为高标注价值样本;其中,缩减版本空间阈值根据经验或者历史数据获取。
S33:将满足减小泛化误差阈值的样本作为高标注价值样本,以此提升机器学习模型的泛化能力。其中,泛化误差阈值根据经验或者历史数据获取。
作为一优选,上述步骤S31-S33并行执行。
在一示例中,方法还包括数据清洗步骤,如图3所示,具体包括:
S01:根据数据类型的不同对待处理数据集中样本进行重命名、类型分类和重组处理;具体地,边缘计算设备获取到待处理数据集中样本数据(在线数据或离线数据)时,从数据中获取数据标签,并针对数据类型的不同对数据标签进行重命名、类型分类、重组等规整操作。
S02:定义清洗规则或配置已定义实现好的清洗规则,并基于配置的清洗规则进行数据清洗,包括以下步骤:
S021:基于偏差阈值剔除待处理数据集中的异常样本;具体地,根据数据特性的不同,数值偏移一般值一定范围的点(偏移量在数值上一般大于等于10)。
S022:基于统计量剔除待处理数据集中的异常样本;具体地,基于大量数据下的统计分析下,不符合数据之间的关系规则的点(针对P1M参数,当平均值∈[-50,50]时,以试验值与平均值的绝对偏差>1为标准判断并剔除坏点;当平均值的绝对值大于50时,以试验值与平均值的相对偏差>2%为标准)识别并剔除异常点)。
S023:基于物理逻辑关系剔除待处理数据集中的异常样本。具体地,基于各个类型数据点在数据源处的物理逻辑区别所不符合规则的点,如图4所示,应用于航空发动机的舱室压力监测时,3支耙子上的测试数据分布具有一定规律性,靠近壁面(同一支耙子上编号越大)的点压力值较小,此处,认为每支耙子前四个点处于中心流,后两个点受附面层影响,其压力值将偏低,但应满足∈[1.1*PSK3平均值,0.99*中心流测点平均值]),则需要将不满足该条件的非中心流点进行剔除。
作为一优选,上述步骤S01-S04并行执行。当然,基于上述清洗规则进行自动数据清洗后,可继续通过人工清洗操作,得到人工清洗后的数据,避免异常数据对模型数据处理结果进行干扰,提升数据处理结果的准确性与可靠性。
将上述示例进行组合得到本申请优选示例,具体包括以下步骤:
S1’:读取数据,包括离线数据、在线数据和本地数据;
S2’:根据数据类型的不同对待处理数据集中样本进行重命名、类型分类和重组处理;
S3’:定义清洗规则或配置已定义实现的清洗规则,并基于配置的清洗规则进行数据清洗,最后进行人工数据清洗;
S4’:基于清洗后的待处理数据选择AI算法和AI模型,并初始化构建AI模型;
S5’:分析待处理数据集中样本与支撑样本的共性进而对机器学习模型参数进行优化,同时,分析待处理数据集中样本的标注价值,确定高标注价值样本,基于高标注价值样本对机器学习模型进行训练,进而完成对模型的训练;
S6’:将清洗后的待处理数据输入完成训练的模型中,得到数据预测结果。
本申请还包括一种基于边缘计算的数据分析系统,其包括:
匹配单元,根据当前待处理数据集选取AI算法及机器学习模型;
优化训练单元,用于分析待处理数据集中样本与支撑样本的共性进而对机器学习模型参数进行优化;还用于分析待处理数据集中样本的标注价值,确定高标注价值样本,基于高标注价值样本对机器学习模型进行训练;
模型迁移单元,将完成训练的机器学习模型迁移至边缘计算设备;具体地,模型迁移单元用于根据边缘计算设备的WebView控件构建机器学习模型的网页应用环境,并基于所述网页应用环境运行JavaScript库中机器学习模型;
数据分析处理单元,基于完成训练的机器学习模型对待处理数据集进行数据分析处理,并输出数据分析处理结果。
在一示例中,优化训练单元还包括模型参数优化模块,用于利用支撑集训练原型网络,提取中心点,并对目标数据集进行分类,寻找初始修正模型,进而基于同一类别的目标数据集对模型参数进行微调。
在一示例中,优化训练单元还包括数据优化单元,用于根据样本预测结果的不确定度衡量标注价值,预测结果为0.4-0.6的样本为高标注价值的样本;还用于将满足缩减版本空间阈值的样本作为高标注价值样本;还用于将满足减小泛化误差阈值的样本作为高标注价值样本。
在一示例中,系统还包括数据清洗单元,用于根据数据类型的不同对待处理数据集中样本进行重命名、类型分类和重组处理;
还用于基于偏差阈值剔除待处理数据集中的异常样本,基于统计量剔除待处理数据集中的异常样本,基于物理逻辑关系剔除待处理数据集中的异常样本。
在一示例中,系统还包括数据读取单元,用于获取离线数据、在线数据和本地数据,进而得到待处理数据集和现有数据集。具体地,离线数据为外部文件导入的数据;在线数据为通过局域网连接从转发机设备获取的实时在线数据和本地数据,本地数据为存储在本地数据库的历史数据;数据读取单元还用于从PC端读取机器学习模型、深度学习模型,通过可配置的数据清洗单元处理后,将清洗后的数据进行数据转换并存储后送入算法服务层。
本申请还包括一种基于边缘计算的数据分析平台,其包括双向通信连接的服务器和边缘计算设备,以将完成训练的机器学习模型迁移至边缘计算设备;边缘计算设备基于完成训练的机器学习模型对待处理数据集进行数据分析处理,并输出数据分析处理结果;所述服务器上存储有机器学习模型和AI算法,根据当前待处理数据集选取AI算法及机器学习模型,并分析待处理数据集中样本与支撑样本的共性进而对机器学习模型参数进行优化;还用于分析待处理数据集中样本的标注价值,确定高标注价值样本,基于高标注价值样本对机器学习模型进行训练。其中,服务器上训练完成的机器学习模型可添加至服务器的模型库中进行保存,便于下次数据处理,即当需要再次进行数据处理时,直接通过模型调用再对清洗后数据运行该机器学习模型,便可获得数据分析、计算的结果。
在一示例中,边缘计算设备包括处理器和第一显示器,处理器输出端与第一显示器连接;服务器上连接有第二显示器,处理器和服务器双向通信连接。进一步地,如图5所示,平台还包括转发服务器和交换机,转发服务器经交换机与处理器及服务器连接。具体地,本示例中,处理器具体为用于边缘AI计算的开发板,第一显示器为IPS触摸屏;更为具体地,开发板为华为HiKey970开发板,其CPU基于海思麒麟970系列SOC,采用了台积电10nm工艺,拥有4核Cortex-A73 2.36GHz和4核Cortex-A53 1.8GHz,内置独立NPU。其中IPS触摸屏通过MIPI接口与开发板相连接,为用户提供便捷的触控操作。服务器为PC服务器,用于训练AI模型,第二显示器为PC显示器。PC服务器与服务器显示屏通过HDMI接口相连接,提供可视化的系统管理服务;开发板、PC服务器和转发机之间通过交换机的千兆以太网网口进行数据交换。
在一示例中,本申请平台算法服务结构如图6所示,依次包括数据读取服务层、数据清洗服务层、平台服务层、算法服务层和应用服务层。其中,数据读取服务层用于读取离线数据、在线数据和数据库数据(本地数据)。数据清洗服务层用于定义清洗规则或配置已定义实现的清洗规则,并基于配置的清洗规则进行数据清洗。平台服务层用于实现数据的转换和数据存储。算法服务层用于提供不同AI算法,并用于模型的生成和调用。应用服务层用于进行数据计算、数据分析、模型生成和人工数据清洗。
作为一选项,本申请平台执行上述任一示例或多个示例组成形成的所述基于边缘计算的数据分析方法时,边缘计算设备即Andoriod终端与服务器数据处理如图7所示,其中,Andoriod终端用于接收清洗后的待处理的实时数据,同时PC服务器基于实时数据对模型进行训练,并基于查询策略或人工标注策略对实时数据进行优化,以此完成对模型的训练,并将训练完成的模型迁移至边缘设备上,边缘设备在算法服务层的基础上进行数据分析、数据计算、模型生成等应用操作,利用边缘设备上的CPU与GPU进行数据运算服务,得到结果并展示在边缘设备的屏幕上。本申请结合机器学习、深度学习等人工智能技术,并以可配置的数据清洗模块和算法服务等,提高了面想航空发动机的数据分析系统的可用性和智能性。
为进一步说明本申请的发明构思与应用场景,现以航空发动机进气总温实时修正为典型应用,在智能数据分析系统的边缘设备上,运行系统的算法库中不同的算法来进行性能对比,以此验证智能数据分析系统在面临航空发动机进气总温实时修正任务时,各种算法的有效性和精准度。
具体地,总温恒定状态定义为在同一进气温度条件下,进气总温经过一段时间的稳定后达到热平衡(总温真值保持不变),在此条件下有多个流量管内马赫数
Figure BDA0003500252810000161
和对应的测量总温
Figure BDA0003500252810000162
的试验数据。本示例中数据集包含m个总温恒定状态(Ci为总温真值,未知待求常数,单位℃)的数据,每个总温恒定状态下可以利用的参数及数据情况如表1所示:
表1每个总温恒定状态下可以利用的参数及数据情况示意表
参数符号 参数名称 单位
Pt1 流量管测量截面总压 kPa
Ps1 流量管测量截面静压 kPa
Tt1 进口总温(流量管T截面)
T0 前室进口总温
航空发动机总温修正目的则是以数据分析系统中数据获取服务获得所需参数,经数据清洗、数据转换等处理后,以算法服务选用算法库中既定算法,然后初始化并配置模型,并将上一步处理后数据送入模型训练得到总温修正模型,该模型输入参数为{Pt1;Ps1;Tt1;T0},输出参数为Ci即为修正后总温真值,得到总温修正模型后,对于新获取的数据,则可以直接调用模型进行总温修正,得到修正后的总温真值。
本申请还包括一种存储介质,与实施例1具有相同的发明构思,其上存储有计算机指令,所述计算机指令运行时执行上述基于边缘计算的数据分析方法的步骤。
基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请还包括一种终端,与实施例1具有相同的发明构思,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述基于边缘计算的数据分析方法的步骤。处理器可以是单核或者多核中央处理单元或者特定的集成电路,或者配置成实施本发明的一个或者多个集成电路。
在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
以上具体实施方式是对本发明的详细说明,不能认定本发明的具体实施方式只局限于这些说明,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演和替代,都应当视为属于本发明的保护范围。

Claims (10)

1.基于边缘计算的数据分析方法,其特征在于:其包括以下步骤:
根据当前待处理数据集选取AI算法及机器学习模型;
分析待处理数据集中样本与支撑样本的共性进而对机器学习模型参数进行优化,和/或,分析待处理数据集中样本的标注价值,确定高标注价值样本,基于高标注价值样本对机器学习模型进行训练;
将完成训练的机器学习模型迁移至边缘计算设备,对待处理数据集进行数据分析处理,并输出数据分析处理结果。
2.根据权利要求1所述基于边缘计算的数据分析方法,其特征在于:所述将完成训练的机器学习模型迁移至边缘计算设备具体包括:
根据边缘计算设备的WebView控件以及Tensorflow.js库构建机器学习模型的搭建、训练和运行的应用环境;
基于所述应用环境运行基于Tensorflow.js的机器学习模型,进而将完成训练的机器学习模型迁移至边缘计算设备。
3.根据权利要求1所述基于边缘计算的数据分析方法,其特征在于:所述分析待处理数据集中样本与支撑样本的共性具体包括:
利用支撑数据集训练原型网络,进而提取支撑集中数据类别原型;
将支撑数据集中数据类型,分别构建生成待修正机器学习模型,并迁移到边缘设备上;
将目标数据集输入原型网络进行分类;
对于同一类别或相似类别的目标数据集调节待修正机器学习模型参数。
4.根据权利要求1所述基于边缘计算的数据分析方法,其特征在于:所述确定高标注价值样本具体包括:
根据样本预测结果的不确定度衡量标注价值,预测结果不确定度为0.4-0.6的样本认定为为高标注价值的样本;和/或,
将满足缩减版本空间阈值的样本作为高标注价值样本;和/或,
将满足减小泛化误差阈值的样本作为高标注价值样本。
5.根据权利要求1所述基于边缘计算的数据分析方法,其特征在于:所述方法还包括数据清洗步骤,具体包括:
根据数据类型的不同对待处理数据集中样本进行重命名、类型分类和重组处理;和/或,
基于偏差阈值剔除待处理数据集中的异常样本,和/或,基于统计量剔除待处理数据集中的异常样本,和/或,基于物理逻辑关系剔除待处理数据集中的异常样本。
6.基于边缘计算的数据分析系统,其特征在于:其包括:
匹配单元,根据当前待处理数据集选取AI算法及机器学习模型;
优化训练单元,用于分析待处理数据集中样本与支撑样本的共性进而对机器学习模型参数进行优化,和/或,分析待处理数据集中样本的标注价值,确定高标注价值样本,基于高标注价值样本对机器学习模型进行训练;
模型迁移单元,将完成训练的机器学习模型迁移至边缘计算设备;
数据处理单元,基于完成训练的机器学习模型对待处理数据集进行数据分析处理,并输出数据分析处理结果。
7.根据权利要求6所述基于边缘计算的数据分析系统,其特征在于:所述系统还包括数据清洗单元,用于根据数据类型的不同对待处理数据集中样本进行重命名、类型分类和重组处理;和/或,
基于偏差阈值剔除待处理数据集中的异常样本,和/或,基于统计量剔除待处理数据集中的异常样本,和/或,基于物理逻辑关系剔除待处理数据集中的异常样本。
8.根据权利要求6所述基于边缘计算的数据分析系统,其特征在于:所述系统还包括数据读取单元,用于获取离线数据、在线数据和本地数据,进而得到待处理数据集。
9.基于边缘计算的数据分析平台,其特征在于:其包括双向通信连接的服务器和边缘计算设备,以将完成训练的机器学习模型迁移至边缘计算设备;
所述边缘计算设备基于完成训练的机器学习模型对待处理数据集进行数据分析处理,并输出数据分析处理结果;
所述服务器上存储有机器学习模型和AI算法,根据当前待处理数据集选取AI算法及机器学习模型,并分析待处理数据集中样本与支撑样本的共性进而对机器学习模型参数进行优化,和/或,分析待处理数据集中样本的标注价值,确定高标注价值样本,基于高标注价值样本对机器学习模型进行训练。
10.根据权利要求1所述基于边缘计算的数据分析平台,其特征在于:所述边缘计算设备包括处理器和第一显示器,处理器输出端与第一显示器连接;所述服务器上连接有第二显示器,处理器和服务器双向通信连接。
CN202210125350.5A 2022-02-10 2022-02-10 基于边缘计算的数据分析方法、系统及平台 Active CN114462623B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210125350.5A CN114462623B (zh) 2022-02-10 2022-02-10 基于边缘计算的数据分析方法、系统及平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210125350.5A CN114462623B (zh) 2022-02-10 2022-02-10 基于边缘计算的数据分析方法、系统及平台

Publications (2)

Publication Number Publication Date
CN114462623A true CN114462623A (zh) 2022-05-10
CN114462623B CN114462623B (zh) 2023-05-26

Family

ID=81414326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210125350.5A Active CN114462623B (zh) 2022-02-10 2022-02-10 基于边缘计算的数据分析方法、系统及平台

Country Status (1)

Country Link
CN (1) CN114462623B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115412375A (zh) * 2022-11-01 2022-11-29 山东省电子信息产品检验院(中国赛宝(山东)实验室) 一种工业互联网数据防护系统
CN115688611A (zh) * 2022-12-29 2023-02-03 南京邮电大学 一种基于半导体器件结构的小空间模型实时训练方法
CN117132718A (zh) * 2023-10-26 2023-11-28 环球数科集团有限公司 一种基于多模态大模型的景区虚拟模型构建系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109961089A (zh) * 2019-02-26 2019-07-02 中山大学 基于度量学习和元学习的小样本和零样本图像分类方法
CN111091278A (zh) * 2019-12-04 2020-05-01 湃方科技(天津)有限责任公司 机械设备异常检测的边缘检测模型构建方法及装置
CN111176980A (zh) * 2019-12-10 2020-05-19 哈尔滨工业大学(深圳) 调试环境和运行环境分离的数据分析方法、装置及系统
CN111353545A (zh) * 2020-03-09 2020-06-30 大连理工大学 一种基于稀疏网络迁移的植株病虫害识别方法
US20200272899A1 (en) * 2019-02-22 2020-08-27 Ubotica Technologies Limited Systems and Methods for Deploying and Updating Neural Networks at the Edge of a Network
US20210056412A1 (en) * 2019-08-20 2021-02-25 Lg Electronics Inc. Generating training and validation data for machine learning
CN112769623A (zh) * 2021-01-19 2021-05-07 河北大学 边缘环境下的物联网设备识别方法
CN112805983A (zh) * 2019-02-15 2021-05-14 三星电子株式会社 用于延迟感知边缘计算的系统和方法
CN113167779A (zh) * 2018-12-10 2021-07-23 克莱米特公司 使用数字图像和机器学习模型对田地异常绘制地图
CN113343174A (zh) * 2020-03-03 2021-09-03 辉达公司 执行位线性变换的技术
CN113886073A (zh) * 2021-09-22 2022-01-04 华南理工大学 一种边缘数据处理方法、系统、装置及介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113167779A (zh) * 2018-12-10 2021-07-23 克莱米特公司 使用数字图像和机器学习模型对田地异常绘制地图
CN112805983A (zh) * 2019-02-15 2021-05-14 三星电子株式会社 用于延迟感知边缘计算的系统和方法
US20200272899A1 (en) * 2019-02-22 2020-08-27 Ubotica Technologies Limited Systems and Methods for Deploying and Updating Neural Networks at the Edge of a Network
CN109961089A (zh) * 2019-02-26 2019-07-02 中山大学 基于度量学习和元学习的小样本和零样本图像分类方法
US20210056412A1 (en) * 2019-08-20 2021-02-25 Lg Electronics Inc. Generating training and validation data for machine learning
CN111091278A (zh) * 2019-12-04 2020-05-01 湃方科技(天津)有限责任公司 机械设备异常检测的边缘检测模型构建方法及装置
CN111176980A (zh) * 2019-12-10 2020-05-19 哈尔滨工业大学(深圳) 调试环境和运行环境分离的数据分析方法、装置及系统
CN113343174A (zh) * 2020-03-03 2021-09-03 辉达公司 执行位线性变换的技术
CN111353545A (zh) * 2020-03-09 2020-06-30 大连理工大学 一种基于稀疏网络迁移的植株病虫害识别方法
CN112769623A (zh) * 2021-01-19 2021-05-07 河北大学 边缘环境下的物联网设备识别方法
CN113886073A (zh) * 2021-09-22 2022-01-04 华南理工大学 一种边缘数据处理方法、系统、装置及介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
WEN CHEN等: "A multi-user service migration scheme based on deep reinforcement learning and SDN in mobile edge computing", 《PHYSICAL COMMUNICATION》 *
周传鑫等: "联邦学习研究综述", 《网络与信息安全学报》 *
郭棉等: "移动边缘计算环境中面向机器学习的计算迁移策略", 《计算机应用》 *
钱伟中等: "基于颜色和边缘特征直方图的图像型垃圾邮件分类模型", 《计算机应用研究》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115412375A (zh) * 2022-11-01 2022-11-29 山东省电子信息产品检验院(中国赛宝(山东)实验室) 一种工业互联网数据防护系统
WO2024061380A1 (zh) * 2022-11-01 2024-03-28 山东省信息技术产业发展研究院(中国赛宝(山东)实验室) 一种工业互联网数据防护系统
CN115688611A (zh) * 2022-12-29 2023-02-03 南京邮电大学 一种基于半导体器件结构的小空间模型实时训练方法
CN117132718A (zh) * 2023-10-26 2023-11-28 环球数科集团有限公司 一种基于多模态大模型的景区虚拟模型构建系统
CN117132718B (zh) * 2023-10-26 2023-12-26 环球数科集团有限公司 一种基于多模态大模型的景区虚拟模型构建系统

Also Published As

Publication number Publication date
CN114462623B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
Xu Understanding graph embedding methods and their applications
WO2022068196A1 (zh) 跨模态的数据处理方法、装置、存储介质以及电子装置
CN114462623B (zh) 基于边缘计算的数据分析方法、系统及平台
CN110070117B (zh) 一种数据处理方法及装置
CN110837602B (zh) 基于表示学习和多模态卷积神经网络的用户推荐方法
CN110147357A (zh) 一种基于大数据环境下的多源数据聚合抽样方法及系统
KR102215690B1 (ko) 시계열의 데이터를 모니터링 하는 방법 및 그 장치
Li et al. Image sentiment prediction based on textual descriptions with adjective noun pairs
CN110990638A (zh) 基于fpga-cpu异构环境的大规模数据查询加速装置及方法
CN113807520A (zh) 基于图神经网络的知识图谱对齐模型的训练方法
CN112766421A (zh) 基于结构感知的人脸聚类方法和装置
WO2022188646A1 (zh) 图数据处理方法、装置、设备、存储介质及程序产品
CN113780584B (zh) 标签预测方法、设备、存储介质
CN113254649B (zh) 敏感内容识别模型的训练方法、文本识别方法及相关装置
CN112860685A (zh) 对数据集的分析的自动推荐
CN113515519A (zh) 图结构估计模型的训练方法、装置、设备及存储介质
WO2023143570A1 (zh) 一种连接关系预测方法及相关设备
Zhang et al. Bilinear graph neural network-enhanced Web services classification
CN115456093A (zh) 一种基于注意力图神经网络的高性能图聚类方法
CN116450938A (zh) 一种基于图谱的工单推荐实现方法及系统
WO2022137664A1 (ja) データ分析システムおよび方法
CN115186738A (zh) 模型训练方法、装置和存储介质
Niu et al. On a two-stage progressive clustering algorithm with graph-augmented density peak clustering
CN113343100A (zh) 一种基于知识图谱的智慧城市资源推荐方法和系统
Costa et al. A three level sensor ranking method based on active perception

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant