CN116306973A - 数据处理方法、系统、设备和存储介质 - Google Patents

数据处理方法、系统、设备和存储介质 Download PDF

Info

Publication number
CN116306973A
CN116306973A CN202310240203.7A CN202310240203A CN116306973A CN 116306973 A CN116306973 A CN 116306973A CN 202310240203 A CN202310240203 A CN 202310240203A CN 116306973 A CN116306973 A CN 116306973A
Authority
CN
China
Prior art keywords
machine learning
data processing
data
computing platform
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310240203.7A
Other languages
English (en)
Inventor
蔡尚铭
王庆龙
刘峥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Cloud Computing Ltd
Original Assignee
Alibaba Cloud Computing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Cloud Computing Ltd filed Critical Alibaba Cloud Computing Ltd
Priority to CN202310240203.7A priority Critical patent/CN116306973A/zh
Publication of CN116306973A publication Critical patent/CN116306973A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Stored Programmes (AREA)

Abstract

本说明书一个或多个实施例提供一种数据处理方法、系统、设备和存储介质,所述方法应用于计算平台;所述计算平台中部署了与机器学习任务对应的用户定义函数;其中,所述用户定义函数中包含与所述机器学习任务对应的初始化逻辑和数据处理逻辑;所述方法包括:获取与所述机器学习任务对应的待处理数据;调用所述用户定义函数中的所述初始化逻辑,获取与所述计算平台对接的存储平台中存储的与所述机器学习任务对应的机器学习模型;进一步调用所述用户定义函数中的所述数据处理逻辑,使用所述机器学习模型对所述待处理数据进行数据处理,并将数据处理结果存储至与所述计算平台对接的数据库。

Description

数据处理方法、系统、设备和存储介质
技术领域
本说明书一个或多个实施例涉及计算机应用技术领域,尤其涉及一种数据处理方法、系统、设备和存储介质。
背景技术
现如今,机器学习技术的应用范围越来越广,在各种应用领域中都可以采用机器学习技术。通常,机器学习技术可以分为模型训练阶段和模型使用阶段。在模型训练阶段,可以基于训练样本对机器学习模型进行训练;在模型使用阶段,可以使用已训练好的机器学习模型针对预测样本进行预测。其中,机器学习模型可以包括回归模型、决策树模型、K均值聚类模型、神经网络等。
例如,在设备异常管理的应用领域中采用机器学习技术时,可以将被标注了设备异常事件的设备历史运行数据作为训练样本,并基于该训练样本对用于分类的机器学习模型进行有监督训练,而在训练完成后,可以使用已训练好的该机器学习模型针对设备运行过程中新产生的运行数据进行预测,得到设备运行过程中可能产生的异常事件,从而使负责设备异常管理的人员可以根据预测得到的该异常事件对设备进行维护。
因此,如何搭建能够为各种应用领域提供机器学习服务的系统,也就成为了备受关注的问题。
发明内容
本说明书一个或多个实施例提供技术方案如下:
本说明书提供一种数据处理方法,应用于计算平台;所述计算平台中部署了与机器学习任务对应的用户定义函数;其中,所述用户定义函数中包含与所述机器学习任务对应的初始化逻辑和数据处理逻辑;所述方法包括:
获取与所述机器学习任务对应的待处理数据;
调用所述用户定义函数中的所述初始化逻辑,获取与所述计算平台对接的存储平台中存储的与所述机器学习任务对应的机器学习模型;
进一步调用所述用户定义函数中的所述数据处理逻辑,使用所述机器学习模型对所述待处理数据进行数据处理,并将数据处理结果存储至与所述计算平台对接的数据库。
本说明书还提供一种数据处理系统,包括:
计算平台;
与所述计算平台对接的存储平台和数据库;
其中,所述计算平台用于实现如上述任一项所述方法的步骤。
本说明书还提供一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如上述任一项所述方法的步骤。
本说明书还提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如上述任一项所述方法的步骤。
在上述技术方案中,可以在计算平台中部署与机器学习任务对应的用户定义函数,由该计算平台在获取到与该机器学习任务对应的待处理数据时,调用该用户定义函数中的初始化逻辑,获取与该计算平台对接的存储平台中存储的与该机器学习任务对应的机器学习模型,并进一步调用该用户定义函数中的数据处理逻辑,使用该机器学习模型对该待处理数据进行数据处理,并将数据处理结果存储至与该计算平台对接的数据库。
采用上述方式,可以通过由计算平台、与该计算平台对接的存储平台和数据库构成的数据处理系统,为各种应用领域提供机器学习服务。一方面,该数据处理系统中的计算平台可以满足对大量算力的需求;另一方面,由于可以将用户定义函数部署在该计算平台中,从而使该计算平台可以调用该用户定义函数中的该初始化逻辑,从该计算平台外获取机器学习模型,这就避免了计算平台与机器学习模型之间的跨平台的数据传输;再一方面,由于机器学习模型是部署在计算平台外的,使得可以对该数据处理系统所使用的机器学习模型进行高效、持续的更新。
附图说明
图1是本说明书一示例性实施例示出的一种数据处理系统的示意图。
图2是本说明书一示例性实施例示出的一种数据处理方法的流程图。
图3是本说明书一示例性实施例示出的另一种数据处理方法的流程图。
图4是本说明书一示例性实施例示出的一种流式数据的示意图。
图5是本说明书一示例性实施例示出的一种设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
在实际应用中,一方面,设备异常管理等应用领域对实时性的要求较高,以避免造成较为严重的损失,因此在这类应用领域中采用机器学习技术时通常需要大量算力,这对于对外提供机器学习服务的系统而言是一个较大的挑战;另一方面,为了维持所采用的机器学习技术达到的效果,通常会在当前所使用的机器学习模型的计算准确度下降时对该机器学习模型进行更新,使得后续可以使用新的机器学习模型,因此所使用的机器学习模型通常需要经历多次更新,这在一定程度上增加了对外提供机器学习服务的系统在设计和实现上的复杂程度。
相关技术中,为了满足对外提供机器学习服务的系统对大量算力的需求,通常采用具有较强的计算能力的计算平台来搭建这类系统。而为了保证这类系统对所使用的机器学习模型易于更新,在这类系统中,通常将机器学习模型部署在该计算平台外。例如,该计算平台可以部署在由多台互相独立的物理主机构成的服务器集群上,而该机器学习模型则可以部署与该服务器集群对接的其他独立的服务器上。如果将机器学习模型直接部署在计算平台中,则在需要对该机器学习模型进行更新时,就相应地需要对该计算平台本身进行大量改动,因此将机器学习模型部署在计算平台外,可以避免对该计算平台的频繁且大量的改动。
然而,在包括计算平台和部署在该计算平台外的机器学习模型的系统中,计算平台与机器学习模型之间的数据传输属于跨平台的数据传输,并且需要多次、大量地进行数据传输,因此通信开销较大,也会影响系统性能。
本说明书旨在提供一种用于数据处理的技术方案,以搭建能够为各种应用领域提供机器学习服务的数据处理系统,并满足该数据处理系统对大量算力的需求,保证该数据处理系统对所使用的机器学习模型易于更新,同时提升该数据处理系统的系统性能。在该技术方案中,可以在计算平台中部署与机器学习任务对应的用户定义函数,由该计算平台在获取到与该机器学习任务对应的待处理数据时,调用该用户定义函数中的初始化逻辑,获取与该计算平台对接的存储平台中存储的与该机器学习任务对应的机器学习模型,并进一步调用该用户定义函数中的数据处理逻辑,使用该机器学习模型对该待处理数据进行数据处理,并将数据处理结果存储至与该计算平台对接的数据库。
在具体实现时,上述计算平台中可以部署与机器学习任务对应的用户定义函数(User-Defined Function,UDF)。其中,该用户定义函数中可以包含与该机器学习任务对应的初始化逻辑和数据处理逻辑;该初始化逻辑可以用于触发该计算平台针对该机器学习任务进行初始化,该数据处理逻辑可以用于触发该计算平台执行与该机器学习任务对应的数据处理。
上述计算平台可以获取与上述机器学习任务对应的待处理数据,从而可以基于该待处理数据执行与该机器学习任务对应的数据处理,由此完成该机器学习任务。
上述计算平台可以调用上述用户定义函数中的上述初始化逻辑,针对上述机器学习任务进行初始化。其中,针对该机器学习任务的初始化具体可以包括获取与该计算平台对接的存储平台中存储的、与该机器学习任务对应的机器学习模型。
上述计算平台在获取到上述待处理数据和上述机器学习模型后,即可进一步调用上述用户定义函数中的上述数据处理逻辑,使用该机器学习模型对该待处理数据进行数据处理。后续,该计算平台可以将数据处理结果存储至与该计算平台对接的数据库。
采用上述方式,可以通过由计算平台、与该计算平台对接的存储平台和数据库构成的数据处理系统,为各种应用领域提供机器学习服务。一方面,该数据处理系统中的计算平台可以满足对大量算力的需求;另一方面,由于可以将用户定义函数部署在该计算平台中,从而使该计算平台可以调用该用户定义函数中的该初始化逻辑,从该计算平台外获取机器学习模型,这就避免了计算平台与机器学习模型之间的跨平台的数据传输;再一方面,由于机器学习模型是部署在计算平台外的,使得可以对该数据处理系统所使用的机器学习模型进行高效、持续的更新。
请参考图1,图1是本说明书一示例性实施例示出的一种数据处理系统的示意图。
如图1所示,上述数据处理系统可以包括计算平台、与该计算平台对接的存储平台、与该计算平台对接的数据库。
上述计算平台、上述存储平台或者上述数据库可以部署在包含一台独立的物理主机的服务器,或者由多台互相独立的物理主机构成的服务器集群上;或者,上述计算平台、上述存储平台或者上述数据库可以部署在基于云计算服务搭建的服务端上。
在实际应用中,上述计算平台、上述存储平台和上述数据库可以部署在同一物理设备或者虚拟设备上,也可以部署在不同的物理设备或者虚拟设备上,本说明书对此不作特殊限制。
在本实施例中,上述存储平台中可以存储与该机器学习任务对应的机器学习模型。上述计算平台中可以部署与机器学习任务对应的用户定义函数,从而使该计算平台可以通过调用该用户定义函数,获取该存储平台中存储的该机器学习模型,并使用该机器学习模型进行相应的数据处理,以完成该机器学习任务。上述数据库中可以存储来自该计算平台的与该机器学习任务对应的数据处理结果。
除此之外,第一方面,用户客户端可以与上述存储平台对接,从而使用户可以通过该用户客户端将上述机器学习模型存储到该存储平台中。
第二方面,用户客户端可以与上述计算平台对接,从而使用户可以通过该用户客户端将上述用户定义函数部署到该计算平台中。
第三方面,用户客户端可以与上述数据库对接,从而使用户可以通过该用户客户端从该数据库中获取上述数据处理结果并查看。
上述用户客户端可以对应于智能手机、平板电脑、笔记本电脑、PC(PersonalComputer,个人电脑)、掌上电脑(PDAs,Personal Digital Assistants)、可穿戴设备(例如:智能眼镜、智能手表等)、智能车载设备或者游戏机等终端设备。
在实际应用中,上述三个用户客户端可以指代同一用户客户端,也可以是不同的用户客户端;使用这三个用户客户端的用户可以相同,也可以不同;本说明书对此不作特殊限制。
请结合图1,参考图2,图2是本说明书一示例性实施例示出的一种数据处理方法的流程图。
如图2所示的数据处理方法可以应用于如图1所示的计算平台。
在本实施例中,上述计算平台中可以部署与机器学习任务对应的用户定义函数。其中,该用户定义函数中可以包含与该机器学习任务对应的初始化逻辑和数据处理逻辑;该初始化逻辑可以用于触发该计算平台针对该机器学习任务进行初始化,该数据处理逻辑可以用于触发该计算平台执行与该机器学习任务对应的数据处理。
在实际应用中,上述机器学习任务可以对应于在某种应用领域中采用机器学习技术。具体地,该机器学习任务可以对应于机器学习技术中的模型训练阶段和/或模型使用阶段。例如,假设该应用领域为设备异常管理,则该机器学习任务具体可以包括使用已训练好的机器学习模型针对设备运行过程中产生的运行数据进行预测,得到设备运行过程中可能产生的异常事件。
上述数据处理方法可以包括以下步骤:
步骤202:获取与所述机器学习任务对应的待处理数据。
在本实施例中,上述计算平台可以获取与上述机器学习任务对应的待处理数据,从而可以基于该待处理数据执行与该机器学习任务对应的数据处理,由此完成该机器学习任务。
由于上述机器学习任务可以对应于在某种应用领域中采用机器学习技术,因此与该机器学习任务对应的待处理数据可以包括该应用领域中需要处理的数据。例如,假设该应用领域为设备异常管理,则该待处理数据具体可以包括设备运行过程中产生的运行数据。
步骤204:调用所述用户定义函数中的所述初始化逻辑,获取与所述计算平台对接的存储平台中存储的与所述机器学习任务对应的机器学习模型。
在本实施例中,上述计算平台可以调用上述用户定义函数中的上述初始化逻辑,针对上述机器学习任务进行初始化。其中,针对该机器学习任务的初始化,具体可以包括获取与该计算平台对接的存储平台中存储的、与该机器学习任务对应的机器学习模型。
由于上述机器学习任务可以对应于在某种应用领域中采用机器学习技术,因此与该机器学习任务对应的机器学习模型可以是基于该应用领域中需要处理的数据构成的训练样本,进行训练得到的机器学习模型。例如,假设该应用领域为设备异常管理,则该机器学习模型具体可以是基于被标注了设备异常事件的设备运行数据构成的训练样本,进行有监督训练得到的机器学习模型。
也即,虽然机器学习模型本身并不是直接部署在计算平台中的,但是可以将用户定义函数部署在该计算平台中,从而使该计算平台可以调用该用户定义函数中的该初始化逻辑,从该计算平台外获取机器学习模型,这就避免了计算平台与机器学习模型之间的跨平台的数据传输。此外,由于机器学习模型是部署在计算平台外的,使得可以对该计算平台所使用的机器学习模型进行高效、持续的更新。
步骤206:进一步调用所述用户定义函数中的所述数据处理逻辑,使用所述机器学习模型对所述待处理数据进行数据处理,并将数据处理结果存储至与所述计算平台对接的数据库。
在本实施例中,上述计算平台在获取到上述待处理数据和上述机器学习模型后,即可进一步调用上述用户定义函数中的上述数据处理逻辑,使用该机器学习模型对该待处理数据进行数据处理。后续,该计算平台可以将数据处理结果存储至与该计算平台对接的数据库,从而使用户可以从该数据库中获取该数据处理结果并查看。
在上述技术方案中,可以在计算平台中部署与机器学习任务对应的用户定义函数,由该计算平台在获取到与该机器学习任务对应的待处理数据时,调用该用户定义函数中的初始化逻辑,获取与该计算平台对接的存储平台中存储的与该机器学习任务对应的机器学习模型,并进一步调用该用户定义函数中的数据处理逻辑,使用该机器学习模型对该待处理数据进行数据处理,并将数据处理结果存储至与该计算平台对接的数据库。
采用上述方式,可以通过由计算平台、与该计算平台对接的存储平台和数据库构成的数据处理系统,为各种应用领域提供机器学习服务。一方面,该数据处理系统中的计算平台可以满足对大量算力的需求;另一方面,由于可以将用户定义函数部署在该计算平台中,从而使该计算平台可以调用该用户定义函数中的该初始化逻辑,从该计算平台外获取机器学习模型,这就避免了计算平台与机器学习模型之间的跨平台的数据传输;再一方面,由于机器学习模型是部署在计算平台外的,使得可以对该数据处理系统所使用的机器学习模型进行高效、持续的更新。
在一些实施例中,上述计算平台具体可以包括Flink实时计算平台,从而可以直接利用Flink实时计算平台的强大的计算能力来满足上述数据处理系统对大量算力的需求,降低该数据处理系统的搭建复杂程度。
实时计算面对的数据可以是实时且无界的流式数据,这些数据按照时间顺序被实时计算订阅和消费,例如可以是网站的访问日志流,只要网站不关闭,其访问日志流将不停产生并进入实时计算平台。由于进入实时计算平台的数据是流式数据,因此整个计算过程是持续进行的。实时计算的计算结果可以被直接写入目的数据存储,例如可以将计算得到的报表数据直接写入关系型数据库进行报表展示,其中流式数据的计算结果可以同流式数据本身一样,被持续写入目的数据存储。
在上述情况下,用户可以通过与Flink实时计算平台对接的用户客户端,将与上述机器学习任务对应的数据处理逻辑封装成用户定义函数,并将该用户定义函数中的初始化逻辑配置为从上述存储平台中获取与该机器学习任务对应的机器学习模型,从而可以将该用户定义函数上传并注册至Flink实时计算平台。
在一些实施例中,Flink实时计算平台支持Python UDF(即编程语言为Python的用户定义函数)的开发,此功能通常被称为PyFlink。因此,用户可以通过与Flink实时计算平台对接的用户客户端,基于PyFlink将与上述机器学习任务对应的数据处理逻辑封装成基于Python的用户定义函数,并将该用户定义函数中的初始化逻辑配置为从上述存储平台中获取与该机器学习任务对应的机器学习模型,从而可以将该用户定义函数上传并注册至Flink实时计算平台。然而,Flink实时计算平台本身是基于Java的。由于Flink实时计算平台需要调用基于Python的用户定义函数,因此就需要在Flink实时计算平台中配置一个能够运行Python代码的环境,作为基于Python的用户定义函数依赖的运行环境,以此来保证Flink实时计算平台可以正常调用部署在其中的用户定义函数。
基于此,用户不仅可以通过与上述计算平台对接的用户客户端,将上述用户定义函数上传至该计算平台,还可以通过该用户客户端,将该用户定义函数依赖的运行环境也上传至该计算平台。也即,该计算平台可以获取该用户客户端上传的该用户定义函数,以及该用户定义函数依赖的运行环境,从而可以将该用户定义函数部署到该运行环境中,以在该运行环境中调用该用户定义函数。
在一些实施例中,上述存储平台具体可以包括OSS对象存储服务,从而使上述数据处理系统可以直接利用OSS对象存储服务的存储能力,降低该数据处理系统的搭建复杂程度。
在上述情况下,用户可以通过与OSS对象存储服务的云端存储对接的用户客户端,将与上述机器学习任务对应的机器学习模型,通过OSS对象存储服务的文件上传接口,推送至OSS对象存储服务的云端存储。相应地,上述计算平台可以调用上述用户定义函数中的上述初始化逻辑,通过OSS对象存储服务的文件下载接口,下载OSS对象存储服务中存储的、与上述机器学习任务对应的机器学习模型。
在如图2的实施例的基础上,参考图3,图3是本说明书一示例性实施例示出的另一种数据处理方法的流程图。
上述数据处理方法可以包括以下步骤:
步骤302:获取与所述机器学习任务对应的待处理数据。
步骤302的具体实现可以参考前述步骤202,本说明书在此不再赘述。
步骤304:调用所述用户定义函数中的所述初始化逻辑,获取与所述计算平台对接的存储平台中存储的与所述机器学习任务对应的机器学习模型,以及与所述机器学习任务对应的应用领域的领域知识。
在本实施例中,上述计算平台可以调用上述用户定义函数中的上述初始化逻辑,针对上述机器学习任务进行初始化。其中,针对该机器学习任务的初始化,具体可以包括获取与该计算平台对接的存储平台中存储的、与该机器学习任务对应的机器学习模型,以及获取该存储平台中存储的、与该机器学习任务对应的应用领域的领域知识。
其中,上述领域知识可以用于对上述待处理数据进行预筛选,以筛选出更有价值的数据片段,并基于上述机器学习模型对筛选出的这些数据片段进行数据处理。例如,假设上述应用领域为设备异常管理,则该领域知识可以表示对应于设备异常事件的设备运行数据中的规律,例如:设备运行数据中连续、多次出现“ERROR”字符,因此可以从上述待处理数据中筛选出符合该规律的数据片段,并基于上述机器学习模型对筛选出的这些数据片段进行数据处理。
步骤306:进一步调用所述用户定义函数中的所述数据处理逻辑,基于所述领域知识对所述待处理数据进行预处理,并使用所述机器学习模型对预处理后的所述待处理数据进行数据处理,并将数据处理结果存储至与所述计算平台对接的数据库。
在本实施例中,上述计算平台在获取到上述待处理数据和上述机器学习模型后,即可进一步调用上述用户定义函数中的上述数据处理逻辑,基于上述领域知识对该待处理数据进行预处理,并使用该机器学习模型对预处理后的该待处理数据进行数据处理。后续,该计算平台可以将数据处理结果存储至与该计算平台对接的数据库,从而使用户可以从该数据库中获取该数据处理结果并查看。
在一些实施例中,上述应用领域可以包括设备异常管理。在这种情况下,上述机器学习模型可以用于预测设备运行过程中产生的异常事件;上述待处理数据可以包括设备运行过程中产生的运行日志;上述数据处理结果可以包括由该机器学习模型预测的设备运行过程中产生的异常事件。
在一些实施例中,通过将上述数据处理结果存储至与上述计算平台对接的数据库,可以使与该数据库对接的用户客户端获取该数据库中存储的该数据处理结果,并面向用户输出该数据处理结果。也即,用户可以通过与该数据库对接的用户客户端,从该数据库中获取该数据处理结果并查看。
在实际应用中,对于持续产生的数据而言,可以被分为有界数据和无界数据两种类型。
其中,有界数据指的是被定义了开始产生的时刻和结束产生的时刻的数据。针对有界数据,可以在获取到从开始产生的时刻到结束产生的时刻这一时间段内的所有数据后再进行数据处理。有界数据可以被排序,所以不需要有序获取。针对有界数据的处理通常被称为批处理。此时,可以将从开始产生的时刻到结束产生的时刻这一时间段内的所有数据视为同一批的批量数据。
无界数据指的是被定义了开始产生的时刻,但没有被定义结束产生的时刻的数据。也即,无界数据被认为是无休止地产生的数据。因此,需要对无界数据进行持续的数据处理。无界数据通常要求以特定的顺序获取,例如:时间顺序,以便推断数据处理结果的完整性。针对无界数据的处理通常被称为流处理。
在一些实施例中,上述待处理数据可以是与批处理相关的批量数据。具体地,该待处理数据为同一批的批量数据。
在上述情况下,针对每一批的批量数据,上述计算平台都可以先调用上述用户定义函数中的上述初始化逻辑,获取上述存储平台中存储的与上述机器学习任务对应的机器学习模型,再进一步调用该用户定义函数中的上述数据处理逻辑,使用该机器学习模型对这一批的批量数据进行数据处理,并将数据处理结果存储至上述数据库。
例如,假设按照数据产生时间,将某一天的12:00-13:00内产生的数据定义为第一批的批量数据,将这一天的14:00-15:00内产生的数据定义为第二批的批量数据,则上述计算平台在获取到作为上述待处理数据的第一批的批量数据时,可以先调用上述用户定义函数中的上述初始化逻辑,获取上述存储平台中存储的与上述机器学习任务对应的机器学习模型,再进一步调用该用户定义函数中的上述数据处理逻辑,使用该机器学习模型对第一批的批量数据进行数据处理,并将数据处理结果存储至上述数据库;该计算平台在获取到作为上述待处理数据的第二批的批量数据时,也可以先调用上述用户定义函数中的上述初始化逻辑,获取上述存储平台中存储的与上述机器学习任务对应的机器学习模型,再进一步调用该用户定义函数中的上述数据处理逻辑,使用该机器学习模型对第二批的批量数据进行数据处理,并将数据处理结果存储至上述数据库。
在一些实施例中,上述待处理数据为与流处理相关的流式数据。
在上述情况下,针对流式数据,上述计算平台可以在获取到该流式数据的起始点时,调用一次上述用户定义函数中的上述初始化逻辑,获取上述存储平台中存储的与上述机器学习任务对应的机器学习模型,后续该计算平台就可以对该流式数据进行持续的数据处理,而无需再调用该用户定义函数中的该初始化逻辑来获取该机器学习模型,具体地,可以进一步调用该用户定义函数中的上述数据处理逻辑,按照预设的时间周期,使用该机器学习模型对在最新的时间周期内获取到的所有数据(即该流式数据中的一部分)进行数据处理。其中,该时间周期具体可以由用户根据实际需求自行设置,也可以是系统默认的缺省值,本说明书对此不作特殊限制。
以如图4所示的流式数据为例,假设该流式数据的开始产生的时刻为某一天的12:00,上述时间周期为1小时,则上述计算平台在这一天的12:00,获取到该流式数据的起始点时,可以调用一次上述用户定义函数中的上述初始化逻辑,获取上述存储平台中存储的与上述机器学习任务对应的机器学习模型;该计算平台可以进一步调用该用户定义函数中的上述数据处理逻辑,在这一天的13:00,使用该机器学习模型对在这一天的12:00-13:00内获取到的所有数据进行数据处理;在这一天的14:00,使用该机器学习模型对在这一天的13:00-14:00内获取到的所有数据进行数据处理;在这一天的15:00,使用该机器学习模型对在这一天的14:00-15:00内获取到的所有数据进行数据处理;以此类推。
在一些实施例中,由于用户可以通过与上述数据库对接的用户客户端,从该数据库中获取上述数据处理结果并查看,因此该用户可以通过对该数据处理结果进行统计、分析,判断上述机器学习模型的计算准确度是否大幅下降。如果是,则用户可以对该机器学习模型进行更新,并通过与上述存储平台对接的用户客户端,将更新后的该机器学习模型存储到该存储平台中。而在该存储平台中存储的该机器学习模型发生更新后,上述计算平台就需要重新获取该存储平台中存储的更新后的该机器学习模型,以使用更新后的该机器学习模型进行数据处理,从而保证数据处理结果的准确度。
在上述待处理数据为与批处理相关的批量数据的情况下,由于针对每一批的批量数据,上述计算平台都可以先调用上述用户定义函数中的上述初始化逻辑,获取上述存储平台中存储的与上述机器学习任务对应的机器学习模型,因此可以不对该计算平台所执行的上述机器学习任务进行任务重启。
在上述待处理数据为与流处理相关的流式数据的情况下,由于上述计算平台对该流式数据所进行的是持续的数据处理,因此可以对该计算平台所执行的上述机器学习任务进行任务重启,以促使该计算平台重新获取上述存储平台中存储的更新后的上述机器学习模型。
具体地,上述计算平台可以响应于上述存储平台中存储的上述机器学习模型发生更新后,触发的与上述机器学习任务对应的任务重启事件,重新调用上述用户定义函数中的上述初始化逻辑,获取该存储平台中存储的更新后的该机器学习模型,并进一步调用该用户定义函数中的上述数据处理逻辑,使用更新后的该机器学习模型对上述待处理数据进行数据处理,并将数据处理结果存储至与该计算平台对接的数据库。
需要说明的是,在上述机器学习任务重启后,上述计算平台才会重新获取作为上述待处理数据的新产生的流式数据。因此,该计算平台可以在获取到新产生的流式数据的起始点时,重新调用上述用户定义函数中的上述初始化逻辑,获取上述存储平台中存储的更新后的上述机器学习模型,并进一步调用该用户定义函数中的上述数据处理逻辑,使用更新后的该机器学习模型对新产生的流式数据进行数据处理,并将数据处理结果存储至与该计算平台对接的数据库。
请继续参考图1,本说明书一示例性实施例示出一种数据处理系统,包括:计算平台;与所述计算平台对接的存储平台和数据库;
所述计算平台中部署了与机器学习任务对应的用户定义函数;其中,所述用户定义函数中包含与所述机器学习任务对应的初始化逻辑和数据处理逻辑;
其中,所述计算平台用于:
获取与所述机器学习任务对应的待处理数据;
调用所述用户定义函数中的所述初始化逻辑,获取与所述计算平台对接的存储平台中存储的与所述机器学习任务对应的机器学习模型;
进一步调用所述用户定义函数中的所述数据处理逻辑,使用所述机器学习模型对所述待处理数据进行数据处理,并将数据处理结果存储至与所述计算平台对接的数据库。
可选地,所述计算平台包括Flink实时计算平台。
可选地,所述存储平台包括OSS对象存储服务。
可选地,所述计算平台具体用于:
获取与所述计算平台对接的存储平台中存储的与所述机器学习任务对应的机器学习模型,以及与所述机器学习任务对应的应用领域的领域知识;
基于所述领域知识对所述待处理数据进行预处理,并使用所述机器学习模型对预处理后的所述待处理数据进行数据处理。
可选地,所述应用领域包括设备异常管理;所述机器学习模型用于预测设备运行过程中产生的异常事件;所述待处理数据包括设备运行过程中产生的运行日志;所述数据处理结果包括由所述机器学习模型预测的设备运行过程中产生的异常事件。
可选地,所述计算平台具体用于:
将数据处理结果存储至与所述计算平台对接的数据库,以使与所述数据库对接的用户客户端获取所述数据库中存储的所述数据处理结果,并面向用户输出所述数据处理结果。
可选地,所述待处理数据为与批处理相关的批量数据。
可选地,所述待处理数据为与流处理相关的流式数据;
所述计算平台具体用于:
按照预设的时间周期,使用所述机器学习模型对在最新的时间周期内获取到的所述待处理数据进行数据处理。
可选地,所述计算平台还用于:
响应于所述机器学习模型发生更新后触发的与所述机器学习任务对应的任务重启事件,重新调用所述用户定义函数中的所述初始化逻辑,获取所述存储平台中存储的更新后的所述机器学习模型,进一步调用所述用户定义函数中的所述数据处理逻辑,使用更新后的所述机器学习模型对所述待处理数据进行数据处理,并将数据处理结果存储至与所述计算平台对接的数据库。
可选地,所述计算平台还用于:
获取用户客户端上传的所述用户定义函数,以及所述用户定义函数依赖的运行环境;
将所述用户定义函数部署到所述运行环境中,以在所述运行环境中调用所述用户定义函数。
对于系统实施例而言,其基本对应于方法实施例,因此相关之处参见方法实施例的部分说明即可。
图5是本说明书一示例性实施例示出的一种设备的结构示意图。请参考图5,在硬件层面,该设备包括处理器502、内部总线504、网络接口506、内存508以及非易失性存储器510,当然还可能包括所需要的其他硬件。本说明书一个或多个实施例可以基于软件方式来实现,比如由处理器502从非易失性存储器510中读取对应的计算机程序到内存508中然后运行。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑模块,也可以是硬件或逻辑器件。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
在一个典型的配置中,计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。
本说明书所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。

Claims (11)

1.一种数据处理方法,所述方法应用于计算平台;所述计算平台中部署了与机器学习任务对应的用户定义函数;其中,所述用户定义函数中包含与所述机器学习任务对应的初始化逻辑和数据处理逻辑;所述方法包括:
获取与所述机器学习任务对应的待处理数据;
调用所述用户定义函数中的所述初始化逻辑,获取与所述计算平台对接的存储平台中存储的与所述机器学习任务对应的机器学习模型;
进一步调用所述用户定义函数中的所述数据处理逻辑,使用所述机器学习模型对所述待处理数据进行数据处理,并将数据处理结果存储至与所述计算平台对接的数据库。
2.根据权利要求1所述的方法,所述获取与所述计算平台对接的存储平台中存储的与所述机器学习任务对应的机器学习模型,包括:
获取与所述计算平台对接的存储平台中存储的与所述机器学习任务对应的机器学习模型,以及与所述机器学习任务对应的应用领域的领域知识;
所述使用所述机器学习模型对所述待处理数据进行数据处理,包括:
基于所述领域知识对所述待处理数据进行预处理,并使用所述机器学习模型对预处理后的所述待处理数据进行数据处理。
3.根据权利要求2所述的方法,所述应用领域包括设备异常管理;所述机器学习模型用于预测设备运行过程中产生的异常事件;所述待处理数据包括设备运行过程中产生的运行日志;所述数据处理结果包括由所述机器学习模型预测的设备运行过程中产生的异常事件。
4.根据权利要求3所述的方法,所述将数据处理结果存储至与所述计算平台对接的数据库,包括:
将数据处理结果存储至与所述计算平台对接的数据库,以使与所述数据库对接的用户客户端获取所述数据库中存储的所述数据处理结果,并面向用户输出所述数据处理结果。
5.根据权利要求1所述的方法,所述待处理数据为与批处理相关的批量数据。
6.根据权利要求1所述的方法,所述待处理数据为与流处理相关的流式数据;
所述使用所述机器学习模型对所述待处理数据进行数据处理,包括:
按照预设的时间周期,使用所述机器学习模型对在最新的时间周期内获取到的所述待处理数据进行数据处理。
7.根据权利要求6所述的方法,所述方法还包括:
响应于所述机器学习模型发生更新后触发的与所述机器学习任务对应的任务重启事件,重新调用所述用户定义函数中的所述初始化逻辑,获取所述存储平台中存储的更新后的所述机器学习模型,进一步调用所述用户定义函数中的所述数据处理逻辑,使用更新后的所述机器学习模型对所述待处理数据进行数据处理,并将数据处理结果存储至与所述计算平台对接的数据库。
8.根据权利要求1所述的方法,所述方法还包括:
获取用户客户端上传的所述用户定义函数,以及所述用户定义函数依赖的运行环境;
将所述用户定义函数部署到所述运行环境中,以在所述运行环境中调用所述用户定义函数。
9.一种数据处理系统,包括:
计算平台;
与所述计算平台对接的存储平台和数据库;
其中,所述计算平台用于实现如权利要求1至8中任一项所述的方法。
10.一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如权利要求1至8中任一项所述的方法。
11.一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如权利要求1至8中任一项所述的方法。
CN202310240203.7A 2023-03-13 2023-03-13 数据处理方法、系统、设备和存储介质 Pending CN116306973A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310240203.7A CN116306973A (zh) 2023-03-13 2023-03-13 数据处理方法、系统、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310240203.7A CN116306973A (zh) 2023-03-13 2023-03-13 数据处理方法、系统、设备和存储介质

Publications (1)

Publication Number Publication Date
CN116306973A true CN116306973A (zh) 2023-06-23

Family

ID=86830033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310240203.7A Pending CN116306973A (zh) 2023-03-13 2023-03-13 数据处理方法、系统、设备和存储介质

Country Status (1)

Country Link
CN (1) CN116306973A (zh)

Similar Documents

Publication Publication Date Title
US10389592B2 (en) Method, system and program product for allocation and/or prioritization of electronic resources
KR101789962B1 (ko) 이동 디바이스에서 거동 분석 동작들을 수행함으로써 애플리케이션 상태들을 추론하기 위한 방법 및 시스템
US10970632B2 (en) Generating a score for a runbook or a script
US20240348628A1 (en) Cybersecurity investigation tools utilizing information graphs
US20180115464A1 (en) Systems and methods for monitoring and analyzing computer and network activity
US11263208B2 (en) Context-sensitive cross-lingual searches
US10313219B1 (en) Predictive intelligent processor balancing in streaming mobile communication device data processing
US11755896B2 (en) Cross in-database machine learning
US20220066860A1 (en) System for resolution of technical issues using computing system-specific contextual data
US11934287B2 (en) Method, electronic device and computer program product for processing data
US20200142674A1 (en) Extracting web api endpoint data from source code
US20240202600A1 (en) Machine learning model administration and optimization
CN111783018A (zh) 一种页面处理方法、装置及设备
CN111340220A (zh) 用于训练预测模型的方法和装置
US10951540B1 (en) Capture and execution of provider network tasks
US20160217126A1 (en) Text classification using bi-directional similarity
US9823998B2 (en) Trace recovery via statistical reasoning
CN111448551B (zh) 跟踪来自远程设备的应用活动数据并生成用于远程设备的校正动作数据结构的方法和系统
US20230409710A1 (en) Allow list of container images based on deployment configuration at a container orchestration service
US20230169191A1 (en) System and method for detecting urls using rendered content machine learning
CN116306973A (zh) 数据处理方法、系统、设备和存储介质
US11301498B2 (en) Multi-cloud object store access
US11403539B2 (en) Pattern-optimized session logs for improved web analytics
WO2021173581A1 (en) Automated actions in a security platform
US20230359908A1 (en) Optimizing cogbot retraining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination