CN114065946A - 一种基于Flink框架的推理方法、装置及Flink服务系统 - Google Patents
一种基于Flink框架的推理方法、装置及Flink服务系统 Download PDFInfo
- Publication number
- CN114065946A CN114065946A CN202111332326.0A CN202111332326A CN114065946A CN 114065946 A CN114065946 A CN 114065946A CN 202111332326 A CN202111332326 A CN 202111332326A CN 114065946 A CN114065946 A CN 114065946A
- Authority
- CN
- China
- Prior art keywords
- flink
- data
- subsystem
- model data
- reasoning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/06—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols the encryption apparatus using shift registers or memories for block-wise or stream coding, e.g. DES systems or RC4; Hash functions; Pseudorandom sequence generators
- H04L9/0643—Hash functions, e.g. MD5, SHA, HMAC or f9 MAC
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Power Engineering (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种基于Flink框架的推理方法、装置及Flink服务系统。其中,所述方法包括:所述第一消息子系统获取待推理数据;并根据所述待推理数据在各个特征维度上的特征值,生成事实表;将所述事实表分区至各个所述Flink工作节点;所述第二消息子系统获取模型数据;并根据所述模型数据,生成维表;将所述维表发送至各个所述Flink工作节点;所述Flink工作节点合并所述第一消息子系统分区至所述Flink工作节点的事实表以及所述第二消息子系统发送至所述Flink工作节点的维表,得到合并表;所述推理子系统根据所述合并表中模型数据与待推理数据之间的匹配关系,以SQL方式进行推理。可以提高推理系统的兼容性。
Description
技术领域
本发明涉及机器学习技术领域,特别是涉及一种基于Flink框架的推理方法、装置及Flink服务系统。
背景技术
Flink框架作为一种能够实现实时推理的框架被广泛应用于机器学习中。但是现有技术中的基于Flink框架的机器学习系统往往是基于Java编码serving方式,如FLIP-23。对主流的机器学习框架减少兼容性。导致基于Flink框架的推理系统兼容性较差。
发明内容
本发明实施例的目的在于提供一种基于Flink框架的推理方法、装置及Flink服务系统,以实现提高基于Flink框架的推理系统的兼容性。具体技术方案如下:
在本发明实施例的第一方面,提供了一种基于Flink框架的推理方法,应用于Flink服务系统,所述Flink服务系统包括第一消息子系统、第二消息子系统、多个Flink工作节点以及推理子系统,所述方法包括:
所述第一消息子系统获取待推理数据;并根据所述待推理数据在各个特征维度上的特征值,生成事实表;将所述事实表分区至各个所述Flink工作节点;
所述第二消息子系统获取模型数据;并根据所述模型数据,生成维表;将所述维表发送至各个所述Flink工作节点;
所述Flink工作节点合并所述第一消息子系统分区至所述Flink工作节点的事实表以及所述第二消息子系统发送至所述Flink工作节点的维表,得到合并表;
所述推理子系统根据所述合并表中模型数据与待推理数据之间的匹配关系,以SQL方式进行推理。
在一种可能的实施例中,所述第二消息子系统将所述维表发送至各个所述Flink工作节点,包括:
所述第二消息子系统将所述维表广播至每个所述Flink工作节点。
在一种可能的实施例中,所述第二消息子系统将所述维表广播至每个所述Flink工作节点,包括:
所述第二消息子系统通过分区转换算子将所述维表广播至每个所述Flink工作节点,其中,所述分区转换算子中被传入右侧维表算子以及广播分区器。
在一种可能的实施例中,所述方法还包括:
所述Flink工作节点根据所述合并表,确定各个所述待推理数据所匹配的模型数据;
所述推理子系统根据所述合并表中模型数据与待推理数据之间的匹配关系,以SQL方式进行推理,包括:
所述推理子系统针对每个所述待推理数据,加载所述待推理数据所匹配的模型数据;利用加载的模型数据对所述待推理数据进行推理。
在一种可能的实施例中,所述维表中包括比例维度;
所述推理子系统针对每个所述待推理数据,加载所述待推理数据所匹配的模型数据;利用加载的模型数据对所述待推理数据进行推理,包括:
所述推理子系统针对每个所述待推理数据,随机获取指示值,作为目标指示值;
所述推理子系统在所述待推理数据所匹配的所有模型数据中确定与所述目标指示值对应的目标模型数据,其中,所述模型数据对应的任一指示值被随机获取到的概率等于所述维表中所述模型数据对应的比例维度的取值;
所述推理子系统加载所述目标模型数据对所述待推理数据进行推理。
在本发明实施例的第二方面,提供了一种基于Flink框架的推理装置,应用于Flink服务系统,所述Flink服务系统包括第一消息子系统、第二消息子系统、多个Flink工作节点以及推理子系统,所述装置包括:
事实表模块,用于驱动所述第一消息子系统获取待推理数据;并根据所述待推理数据在各个特征维度上的特征值,生成事实表;将所述事实表分区至各个所述Flink工作节点;
维表模块,用于驱动所述第二消息子系统获取模型数据;并根据所述模型数据,生成维表;将所述维表发送至各个所述Flink工作节点;
合并模块,用于驱动所述Flink工作节点合并所述第一消息子系统分区至所述Flink工作节点的事实表以及所述第二消息子系统发送至所述Flink工作节点的维表,得到合并表;
推理模块,用于驱动所述推理子系统根据所述合并表中模型数据与待推理数据之间的匹配关系,以SQL方式进行推理。
在一种可能的实施例中,所述维表模块,具体用于驱动所述第二消息子系统将所述维表广播至每个所述Flink工作节点。
在一种可能的实施例中,所述维表模块,具体用于驱动所述第二消息子系统通过分区转换算子将所述维表广播至每个所述Flink工作节点,其中,所述分区转换算子中被传入右侧维表算子以及广播分区器。
在一种可能的实施例中,所述装置还包括:
模型匹配模块,用于驱动所述Flink工作节点根据所述合并表,确定各个所述待推理数据所匹配的模型数据;
所述推理模块,具体用于驱动所述推理子系统针对每个所述待推理数据,加载所述待推理数据所匹配的模型数据;利用加载的模型数据对所述待推理数据进行推理。
在一种可能的实施例中,所述维表中包括比例维度;
所述推理模块,具体用于驱动推理子系统针对每个所述待推理数据,随机获取指示值,作为目标指示值;
并驱动所述推理子系统在所述待推理数据所匹配的所有模型数据中确定与所述目标指示值对应的目标模型数据,其中,所述模型数据对应的任一指示值被随机获取到的概率等于所述维表中所述模型数据对应的比例维度;
并驱动所述推理子系统加载所述目标模型数据对所述待推理数据进行推理。
在本发明实施例的第三方面,提供了一种Flink服务系统,所述Flink服务系统包括第一消息子系统、第二消息子系统、多个Flink工作节点以及推理子系统;
所述第一消息子系统,用于获取待推理数据;并根据所述待推理数据在各个特征维度上的特征值,生成事实表;将所述事实表分区至各个所述Flink工作节点;
所述第二消息子系统,用于获取模型数据;并根据所述模型数据,生成维表;将所述维表发送至各个所述Flink工作节点;
所述Flink工作节点,用于合并所述第一消息子系统分区至所述Flink工作节点的维表以及所述第二消息子系统发送至所述Flink工作节点的维表,得到合并表;
所述推理子系统,用于根据所述合并表中模型数据与待推理数据之间的匹配关系,以SQL方式进行推理。
在本发明实施例的第四方面,提供了一种电子设备,包括:
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面任一所述的方法步骤。
在本发明实施例的第五方面,提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面任一所述的方法步骤。
本发明实施例有益效果:
本发明实施例提供的基于Flink框架的推理方法、装置及Flink服务系统,可以通过维表的方式在消息子系统与Flink工作节点之间传递数据,并且Flink工作节点可以通过对接收到的维表执行合并(join)操作关联待推理数据与模型数据,以使得通过查询合并表即可确定推理各个待推理数据时所需加载的模型数据,从而使得推理系统能够根据合并表准确地加载模型数据以对待推理数据进行推理。同时,由于数据是以维表的形式传输的,并且待推理数据与模型数据的关联关系也是通过维表表示的,而维表作为一种结构化的表示形式,能够与SQL语义兼容。因此,本发明实施例提供的基于Flink框架的推理方法能够兼容基于SQL的机器学习框架,兼容性较好。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的实施例。
图1为本发明实施例提供的基于Flink框架的传统推理系统的一种结构示意图;
图2为本发明实施例提供的基于Flink框架的推理方法的一种流程示意图;
图3为本发明实施例提供的基于Flink框架的推理方法的另一种流程示意图;
图4为本发明实施例提供的Flink服务系统的一种结构示意图;
图5为本发明实施例提供的基于Flink框架的推理装置的一种结构示意图;
图6为本发明实施例提供的电子设备的一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员基于本申请所获得的所有其他实施例,都属于本发明保护的范围。
为了更清楚的对本申请实施例提供的亲缘检测方法进行说明,下面将对本申请实施例提供的亲缘检测方法的一种可能的应用场景进行示例性的说明,可以理解的是,以下示例仅是本申请提供的亲缘检测方法的一种可能的应用场景。在其他可能的实施例中,本申请实施例提供的亲缘检测方法还可以应用于其他可能的应用场景中,以下示例对此不做任何限制。
参见图1,图1所示为相关技术中基于Flink框架的推理系统的一种结构示意图,其中partition0和partition1表示kafka集群中两个不同的分区,TaskManager为Flink集群中的任务管理模块,kafkasource为Flink集群中用于接收Kafka集群发送的数据的组件。
如图1所示的推理系统中存在两个流,data topic 1(下文称数据流)以及modeltopic2(下文称模型流)。推理系统通过ConnectedStream对两个流进行处理,其中模型流需要以广播形式发送到下游每个算子CoFlatMapFunction(一种用于对数据流和模型流进行匹配的函数)中,数据流以keyBy形式按key发送到不同的下游算子中。算子CoFlatMapFunction中有两个flatMap(一种用于将流中的元素拆解出并返回的函数),flatMap1接收并处理datastream1发送过来的数据(即数据流中的数据),flatMap2接收并处理datastream2发送过来的数据(即模型流的数据)。
推理系统往往是在高性能语言,如java端,完成模型推理的,而模型往往是通过样本数据在python完整验证生成的,即模型往往是在python端训练得到的。因此,推理系统无法直接加载模型。相关技术中,可以通过PMML(Predictive Model Markup Language,预言模型标记预言)实现模型的跨语言加载。
一方面,ConnectStream无法转化为SQL语义,导致推理系统无法与主流的机器学习框架兼容,即推理系统的兼容性较差。另一方面,通过PMML实现跨语言加载,由于需要使用PMML作为中间格式,因此可能造成性能和效率上的损失。
基于此,本发明实施例提供了一种基于Flink框架的推理方法,应用于Flink服务系统,Flink服务系统包括第一消息子系统、第二消息子系统、多个Flink工作节点以及推理子系统,方法可以参见图2,包括:
S201,第一消息子系统获取待推理数据;并根据待推理数据在各个特征维度上的特征值,生成事实表;将事实表分区至各个Flink工作节点。
S202,第二消息子系统获取模型数据;并根据模型数据,生成维表;将维表发送至各个Flink工作节点。
S203,Flink工作节点合并第一消息子系统分区至Flink工作节点的事实表以及第二消息子系统发送至Flink工作节点的维表,得到合并表。
S204,推理子系统根据合并表中模型数据与待推理数据之间的匹配关系,以SQL方式进行推理。
选用该实施例,可以通过维表的方式在消息子系统与Flink工作节点之间传递数据,并且Flink工作节点可以通过对接收到的维表执行合并(join)操作关联待推理数据与模型数据,以使得通过查询合并表即可确定推理各个待推理数据时所需加载的模型数据,从而使得推理系统能够根据合并表准确地加载模型数据以对待推理数据进行推理。同时,由于数据是以维表的形式传输的,并且待推理数据与模型数据的关联关系也是通过维表表示的,而维表作为一种结构化的表示形式,能够与SQL语义兼容。因此,本发明实施例提供的基于Flink框架的推理方法能够兼容基于SQL的机器学习框架,兼容性较好。
下面将分别对前述S201-S204进行说明:
在S201中,第一消息子系统可以是任意类型的消息子系统,示例性的,在一种可能的实施例中,第一消息子系统为kafka消息子系统。并且Flink服务系统中可以包括一个第一消息子系统,也可以包括多个第一消息子系统。下文中为描述方便,仅以Flink服务系统中包括一个第一消息子系统的情况进行说明,对应Flink服务系统中包括多个第一消息子系统的情况,原理是相同的,因此在此不再赘述。
待推理数据的特征维度根据应用场景的不同可以不同,示例性的,以购物网站的应用场景为例,每个待推理数据用于表示一个用户在购物网站上进行的一个操作,则特征维度可以包括:用户名、商品名、操作等。示例性的,假设一个待推理数据是由用户A购买商品B产生的,则该待推理数据在特征维度“用户名”上的特征值为“用户A”,在特征维度“商品名”上的特征值为“商品B”,在特征维度“操作”上的特征为“购买”。
第一消息子系统是通过分区(partition)操作将事实表分区至各个Flink工作节点的。
在S202中,第一消息子系统可以是任意类型的消息子系统,但是应当为与第一消息子系统的类型相同,示例性的,在一种可能的实施例中,第一消息子系统为kafka消息子系统,则第二消息子系统同样为kafka消息子系统。并且Flink服务系统中可以包括一个第二消息子系统,也可以包括多个第二消息子系统。下文中为描述方便,仅以Flink服务系统中包括一个第二消息子系统的情况进行说明,对应Flink服务系统中包括多个第二消息子系统的情况,原理是相同的,因此在此不再赘述。
维表中的每条数据用于表示一个经过训练的模型数据,维表的格式根据应用场景的不同可以不同,示例性的,在一种可能的实施例中,维表可以如下所示:
表1.维表示例
其中,推理任务名用于表示该模型数据所用于实现的推理任务,模型ID用于表示该模型数据所属模型,可以理解的是,同一模型可能存在多个不同的版本,因此多个不同的模型数据可能是同一模型的不同版本,因此不同模型数据的模型ID可以相同。
生效时间戳用于表示该模型数据生效的时间,模型路径用于表示该模型数据的存储路径。比例用于表示该模型数据所用于实现的推理任务的所有待推理数据中分配至该模型数据推理的数据占比,示例性的,以上述表1为例,假设表1中第三行所表示的模型数据记为模型数据1,第四行所表示的模型数据记为模型数据2。则在名为“Recommend-Serving”的推理任务中,80%的待推理任务分配至模型数据1进行推理,20%的待推理任务分配至模型数据2进行推理。
关于如何实现按比例分配待推理数据,将在下文中进行详细说明,在此不再赘述。
在S203,Flink工作节点通过合并(join)操作将第一消息子系统分区至Flink工作节点的事实表以及第二消息子系统发送至Flink工作节点的维表合并,得到合并表。
Flink工作节点可以通过维表的join语法实现待推理数据与模型数据的关联。示例性的,Flink工作节点可以在算子状态(state)中存储右侧模型属性、路径等二进制(row)。并根据推理任务名、生效时间戳,匹配得到模型id,从而确定待推理数据所匹配的模型数据。
在S204中,由于事实表中的各条数据用于表示待推理数据,而维表中的各条数据用于表示模型数据,因此合并得到的合并表能够反映出待推理数据与模型数据之间的关联关系,从而指导推理子系统推理各待推理数据时所需加载的模型数据。
以SQL方式进行推理的步骤可以包括:以python方式注册UDTF(Flink自定义表函数),在SQL中调用UDTF,并获取SQL推理结果。
可以理解的是,由于Flink框架的原生维表默认是按维表id(即join key)进行分区操作,在合并操作中,左右侧相同的连接key,分发到同一Flink工作节点,进行维表的拼接。往往导致模型数据只在一个计算节点生效,其他节点空闲。导致推理效率较低。
基于此,在一种可能的实施例中,第二消息子系统将维表广播至每个Flink工作节点。以使得每个FLink工作节点均能成功加载模型数据。
维表的广播可以是通过分区转换(PartitionTransformation)算子实现。分区转换算子中传入有右侧维表(rightTransform)算子和广播分区器(BroadcastPartition)。
选用该实施例,可以通过修改Flink框架的原声分区逻辑,实现维表的广播,以使得各个Flink工作节点能够成功接收到维表,进而使得各个Flink工作节点均能够加载模型数据,以避免部分节点空闲而另一部分节点负载过大的情况,有效提高了推理效率。
下面将对如何实现按比例分配待推理数据进行说明,可以参见图3,图3所示为本发明实施例提供的基于Flink框架的推理方法的另一种流程示意图,可以包括:
S301,推理子系统针对每个待推理数据,随机获取指示值,作为目标指示值。
本文中的随机获取是指按照具有一定不可预测性的方式获取,示例性的,在一种可能的实施例中,可以是计算待推理数据的MD5值与100的余数,虽然理论上在待推理数据产生后,MD5值固定不变,但是由于待推理数据的产生具有一定的不可预测性,如前述购物网站的应用场景中难以预测哪个用户会购买哪个商品,因此待推理数据的MD5值与100的余数同样具有一定的不可预测性,因此可以近似认为待推理数据的MD5值与100的余数为0-99中任一数值的概率相同,即余数为x的概率与余数为y的概率近似相等,其中,x、y为取值范围为[0,99]的任意两个不相等的整数。
S302,推理子系统在待推理数据所匹配的所有模型数据中确定与目标指示值对应的目标模型数据。
其中,模型数据对应的任一指示值被随机获取到的概率等于维表中模型数据对应的比例维度的取值。示例性的,仍以前述表1为例,对于模型数据1,比例维度的取值为80%,因此模型数据1对应的任一指示值被随机获取到的概率为80%,换言之,随机获取到的指示值与模型数据1对应的概率为80%。
假设指示值是以前述余数的形式表示的,如前述分析,随机获取到的指示值在[0,99]上均匀分布,因此,如果需要使得随机获取到的指示值与模型数据1对应的概率为80%,则可以通过设置使得模型数据1对应于[0,99]中的任意80个整数,为方便描述,假设模型数据1对应于[0,99]中的0-79,共计80个整数。如果目标指示值为[0,79]中的整数,模型数据1为目标模型数据。
同理,模型数据2对应的比例维度的取值为20%,则可以通过设置使得模型数据1对应于[0,99]中的任意20个整数,并且模型数据2对应的整数应当与模型数据1不同,例如如果模型数据1对应于[0,99]中的0-79,则模型数据2对应于[0,99]中的80-99,共计20个整数。如果目标指示值为[80,99]中的整数,模型数据2为目标模型数据。
S303,推理子系统加载目标模型数据对待推理数据进行推理。
由于每个模型数据对应的任一指示值被随机获取到的概率等于维表中模型数据对应的比例维度的取值,因此目标指数值为一模型数据对应的指示值的概率等于维表中该模型数据对应的比例维度的取值。因此,待处理数据分配至该模型数据处理的概率等于维表中该模型数据对应的比例维度的取值。
以前述表1为例,名为“Recommend-Serving”的推理任务中,80%的待推理任务分配至模型数据1进行推理,20%的待推理任务分配至模型数据2进行推理。
可以理解的是,在一些应用场景中,同一个模型可能存在两个版本的模型数据,一个版本的模型数据为已上线的模型数据,另一个版本的模型数据为待上线的模型数据,为了完成对已上线的模型数据以及待上线的模型数据的推理性能的检测,需要将待推理数据分流至已上线的模型数据和待上线的模型数据,以分别对已上线的模型数据以及待上线的模型数据进行测试,该测试即A/B测试。
相关技术中的Flink框架往往不支持A/B测试。而选用该实施例,可以用户可以通过合理设置比例维度,按需设置数据分流的比例,从而实现A/B测试。
为了更清楚地对本发明实施例提供的基于Flink框架的推理方法进行说明,下面将对Flink服务系统的结构进行说明,可以参见图4,包括:
第一消息子系统401,用于获取待推理数据;并根据所述待推理数据在各个特征维度上的特征值,生成事实表;将所述事实表分区至各个所述Flink工作节点;
第二消息子系统402,用于获取模型数据;并根据所述模型数据,生成维表;将所述维表发送至各个所述Flink工作节点;
Flink工作节点403,用于合并所述第一消息子系统分区至所述Flink工作节点的维表以及所述第二消息子系统发送至所述Flink工作节点的维表,得到合并表;
推理子系统404,用于根据所述合并表中模型数据与待推理数据之间的匹配关系,以SQL方式进行推理。
关于第一消息子系统401、第二消息子系统402、Flink工作节点403以及推理子系统404的执行逻辑可以参见前述方法实施例的相关说明,在此不再赘述。
参见图5,图5所示为本发明实施例提供的基于Flink框架的推理装置的一种结构示意图,所述推理装置应用于Flink服务系统,所述Flink服务系统包括第一消息子系统、第二消息子系统、多个Flink工作节点以及推理子系统,所述装置包括:
事实表模块501,用于驱动所述第一消息子系统获取待推理数据;并根据所述待推理数据在各个特征维度上的特征值,生成事实表;将所述事实表分区至各个所述Flink工作节点;
维表模块502,用于驱动所述第二消息子系统获取模型数据;并根据所述模型数据,生成维表;将所述维表发送至各个所述Flink工作节点;
合并模块503,用于驱动所述Flink工作节点合并所述第一消息子系统分区至所述Flink工作节点的事实表以及所述第二消息子系统发送至所述Flink工作节点的维表,得到合并表;
推理模块504,用于驱动所述推理子系统根据所述合并表中模型数据与待推理数据之间的匹配关系,以SQL方式进行推理。
在一种可能的实施例中,所述维表模块502,具体用于驱动所述第二消息子系统将所述维表广播至每个所述Flink工作节点。
在一种可能的实施例中,所述维表模块502,具体用于驱动所述第二消息子系统通过分区转换算子将所述维表广播至每个所述Flink工作节点,其中,所述分区转换算子中被传入右侧维表算子以及广播分区器。
在一种可能的实施例中,所述装置还包括:
模型匹配模块,用于驱动所述Flink工作节点根据所述合并表,确定各个所述待推理数据所匹配的模型数据;
所述推理模块504,具体用于驱动所述推理子系统针对每个所述待推理数据,加载所述待推理数据所匹配的模型数据;利用加载的模型数据对所述待推理数据进行推理。
在一种可能的实施例中,所述维表中包括比例维度;
所述推理模块504,具体用于驱动推理子系统针对每个所述待推理数据,随机获取指示值,作为目标指示值;
并驱动所述推理子系统在所述待推理数据所匹配的所有模型数据中确定与所述目标指示值对应的目标模型数据,其中,所述模型数据对应的任一指示值被随机获取到的概率等于所述维表中所述模型数据对应的比例维度;
并驱动所述推理子系统加载所述目标模型数据对所述待推理数据进行推理。
本发明实施例还提供了一种电子设备,如图6所示,包括:
存储器601,用于存放计算机程序;
处理器602,用于执行存储器601上所存放的程序时,实现如下步骤:
所述第一消息子系统获取待推理数据;并根据所述待推理数据在各个特征维度上的特征值,生成事实表;将所述事实表分区至各个所述Flink工作节点;
所述第二消息子系统获取模型数据;并根据所述模型数据,生成维表;将所述维表发送至各个所述Flink工作节点;
所述Flink工作节点合并所述第一消息子系统分区至所述Flink工作节点的事实表以及所述第二消息子系统发送至所述Flink工作节点的维表,得到合并表;
所述推理子系统根据所述合并表中模型数据与待推理数据之间的匹配关系,以SQL方式进行推理。
上述电子设备存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一基于Flink框架的推理方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一基于Flink框架的推理方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统、装置、电子设备、计算机可读存储介质以及计算机程序产品的实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (13)
1.一种基于Flink框架的推理方法,其特征在于,应用于Flink服务系统,所述Flink服务系统包括第一消息子系统、第二消息子系统、多个Flink工作节点以及推理子系统,所述方法包括:
所述第一消息子系统获取待推理数据;并根据所述待推理数据在各个特征维度上的特征值,生成事实表;将所述事实表分区至各个所述Flink工作节点;
所述第二消息子系统获取模型数据;并根据所述模型数据,生成维表;将所述维表发送至各个所述Flink工作节点;
所述Flink工作节点合并所述第一消息子系统分区至所述Flink工作节点的事实表以及所述第二消息子系统发送至所述Flink工作节点的维表,得到合并表;
所述推理子系统根据所述合并表中模型数据与待推理数据之间的匹配关系,以SQL方式进行推理。
2.根据权利要求1所述的方法,其特征在于,所述第二消息子系统将所述维表发送至各个所述Flink工作节点,包括:
所述第二消息子系统将所述维表广播至每个所述Flink工作节点。
3.根据权利要求2所述的方法,其特征在于,所述第二消息子系统将所述维表广播至每个所述Flink工作节点,包括:
所述第二消息子系统通过分区转换算子将所述维表广播至每个所述Flink工作节点,其中,所述分区转换算子中被传入右侧维表算子以及广播分区器。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述Flink工作节点根据所述合并表,确定各个所述待推理数据所匹配的模型数据;
所述推理子系统根据所述合并表中模型数据与待推理数据之间的匹配关系,以SQL方式进行推理,包括:
所述推理子系统针对每个所述待推理数据,加载所述待推理数据所匹配的模型数据;利用加载的模型数据对所述待推理数据进行推理。
5.根据权利要求4所述的方法,其特征在于,所述维表中包括比例维度;
所述推理子系统针对每个所述待推理数据,加载所述待推理数据所匹配的模型数据;利用加载的模型数据对所述待推理数据进行推理,包括:
所述推理子系统针对每个所述待推理数据,随机获取指示值,作为目标指示值;
所述推理子系统在所述待推理数据所匹配的所有模型数据中确定与所述目标指示值对应的目标模型数据,其中,所述模型数据对应的任一指示值被随机获取到的概率等于所述维表中所述模型数据对应的比例维度的取值;
所述推理子系统加载所述目标模型数据对所述待推理数据进行推理。
6.一种基于Flink框架的推理装置,其特征在于,应用于Flink服务系统,所述Flink服务系统包括第一消息子系统、第二消息子系统、多个Flink工作节点以及推理子系统,所述装置包括:
事实表模块,用于驱动所述第一消息子系统获取待推理数据;并根据所述待推理数据在各个特征维度上的特征值,生成事实表;将所述事实表分区至各个所述Flink工作节点;
维表模块,用于驱动所述第二消息子系统获取模型数据;并根据所述模型数据,生成维表;将所述维表发送至各个所述Flink工作节点;
合并模块,用于驱动所述Flink工作节点合并所述第一消息子系统分区至所述Flink工作节点的事实表以及所述第二消息子系统发送至所述Flink工作节点的维表,得到合并表;
推理模块,用于驱动所述推理子系统根据所述合并表中模型数据与待推理数据之间的匹配关系,以SQL方式进行推理。
7.根据权利要求6所述的装置,其特征在于,所述维表模块,具体用于驱动所述第二消息子系统将所述维表广播至每个所述Flink工作节点。
8.根据权利要求7所述的装置,其特征在于,所述维表模块,具体用于驱动所述第二消息子系统通过分区转换算子将所述维表广播至每个所述Flink工作节点,其中,所述分区转换算子中被传入右侧维表算子以及广播分区器。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
模型匹配模块,用于驱动所述Flink工作节点根据所述合并表,确定各个所述待推理数据所匹配的模型数据;
所述推理模块,具体用于驱动所述推理子系统针对每个所述待推理数据,加载所述待推理数据所匹配的模型数据;利用加载的模型数据对所述待推理数据进行推理。
10.根据权利要求9所述的装置,其特征在于,所述维表中包括比例维度;
所述推理模块,具体用于驱动推理子系统针对每个所述待推理数据,随机获取指示值,作为目标指示值;
并驱动所述推理子系统在所述待推理数据所匹配的所有模型数据中确定与所述目标指示值对应的目标模型数据,其中,所述模型数据对应的任一指示值被随机获取到的概率等于所述维表中所述模型数据对应的比例维度;
并驱动所述推理子系统加载所述目标模型数据对所述待推理数据进行推理。
11.一种Flink服务系统,其特征在于,所述Flink服务系统包括第一消息子系统、第二消息子系统、多个Flink工作节点以及推理子系统;
所述第一消息子系统,用于获取待推理数据;并根据所述待推理数据在各个特征维度上的特征值,生成事实表;将所述事实表分区至各个所述Flink工作节点;
所述第二消息子系统,用于获取模型数据;并根据所述模型数据,生成维表;将所述维表发送至各个所述Flink工作节点;
所述Flink工作节点,用于合并所述第一消息子系统分区至所述Flink工作节点的维表以及所述第二消息子系统发送至所述Flink工作节点的维表,得到合并表;
所述推理子系统,用于根据所述合并表中模型数据与待推理数据之间的匹配关系,以SQL方式进行推理。
12.一种电子设备,一种电子设备,其特征在于,包括:
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一所述的方法步骤。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111332326.0A CN114065946A (zh) | 2021-11-11 | 2021-11-11 | 一种基于Flink框架的推理方法、装置及Flink服务系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111332326.0A CN114065946A (zh) | 2021-11-11 | 2021-11-11 | 一种基于Flink框架的推理方法、装置及Flink服务系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114065946A true CN114065946A (zh) | 2022-02-18 |
Family
ID=80275193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111332326.0A Pending CN114065946A (zh) | 2021-11-11 | 2021-11-11 | 一种基于Flink框架的推理方法、装置及Flink服务系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114065946A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115643115A (zh) * | 2022-12-23 | 2023-01-24 | 武汉大学 | 基于大数据的工控网络安全态势预测方法及系统 |
CN116385102A (zh) * | 2023-03-15 | 2023-07-04 | 中电金信软件有限公司 | 信息推荐方法、装置、计算机设备及存储介质 |
CN118312395A (zh) * | 2024-06-05 | 2024-07-09 | 中国人民解放军国防科技大学 | 仿真大数据在线评估系统、方法和装置 |
-
2021
- 2021-11-11 CN CN202111332326.0A patent/CN114065946A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115643115A (zh) * | 2022-12-23 | 2023-01-24 | 武汉大学 | 基于大数据的工控网络安全态势预测方法及系统 |
CN115643115B (zh) * | 2022-12-23 | 2023-03-10 | 武汉大学 | 基于大数据的工控网络安全态势预测方法及系统 |
CN116385102A (zh) * | 2023-03-15 | 2023-07-04 | 中电金信软件有限公司 | 信息推荐方法、装置、计算机设备及存储介质 |
CN116385102B (zh) * | 2023-03-15 | 2024-05-31 | 中电金信软件有限公司 | 信息推荐方法、装置、计算机设备及存储介质 |
CN118312395A (zh) * | 2024-06-05 | 2024-07-09 | 中国人民解放军国防科技大学 | 仿真大数据在线评估系统、方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114065946A (zh) | 一种基于Flink框架的推理方法、装置及Flink服务系统 | |
CN109408347B (zh) | 一种指标实时分析系统及指标实时计算方法 | |
US9576037B2 (en) | Self-analyzing data processing job to determine data quality issues | |
US8719271B2 (en) | Accelerating data profiling process | |
CN111352902A (zh) | 日志处理方法、装置、终端设备及存储介质 | |
US20100299678A1 (en) | Dynamic event collection and structured storage | |
CN110795455A (zh) | 依赖关系解析方法、电子装置、计算机设备及可读存储介质 | |
US20130332448A1 (en) | Apparatus and Method of Semantic Service Correlation System | |
US20180322200A1 (en) | Analytics based on pipes programming model | |
CN111522728A (zh) | 自动化测试用例的生成方法、电子设备及可读存储介质 | |
US10956153B2 (en) | Violation match sets | |
CN110975293A (zh) | 建立资源引用关系表的方法、装置、服务器及介质 | |
CN111767320A (zh) | 数据血缘关系确定方法及装置 | |
CN112835885B (zh) | 一种分布式表格存储的处理方法、装置及系统 | |
CN113312341A (zh) | 一种数据质量监控方法、系统和计算机设备 | |
CN115292327A (zh) | 多表关联方法及装置、设备及存储介质 | |
CN112632082B (zh) | 一种创建Flink作业的方法及装置 | |
US7848909B2 (en) | Computing prediction results during an unbroken online interactive session | |
US11080275B2 (en) | Join pattern agnostic aggregate computation in database query operations | |
CN111045983A (zh) | 核电站电子文件管理方法、装置、终端设备及介质 | |
CN112307050B (zh) | 一种重复关联计算的识别方法、装置及计算机系统 | |
CN111459789B (zh) | 一种应用程序编程接口的检测方法及装置 | |
CN113282616A (zh) | 一种增量的时序数据冲突检测方法、装置和存储介质 | |
US11281671B2 (en) | Retroreflective join graph generation for relational database queries | |
CN112597119A (zh) | 一种处理日志的生成方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |