CN115039110A - 使用数据优先级的数据传输 - Google Patents
使用数据优先级的数据传输 Download PDFInfo
- Publication number
- CN115039110A CN115039110A CN202080095316.7A CN202080095316A CN115039110A CN 115039110 A CN115039110 A CN 115039110A CN 202080095316 A CN202080095316 A CN 202080095316A CN 115039110 A CN115039110 A CN 115039110A
- Authority
- CN
- China
- Prior art keywords
- feature
- data
- destination node
- model
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computer And Data Communications (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
一种用于向经由一个或多个网络连接到一个或多个源节点的目的地节点提供数据的方法。在一方面,该方法由用于从特征集合中选择至少一个特征的特征识别器执行。该特征集合包括第一特征和第二特征。该方法包括:针对在该特征集合中包括的每个特征,获得指示从存储用于该特征的数据集的源节点向经由网络连接到该源节点的目的地节点提供该数据集的成本的值。该方法还包括:基于所获得的值,选择该特征集合的子集。该方法进一步包括:针对每个所选择的特征,发起用于相应所选择的特征的相应数据集从源节点向目的地节点的传输。目的地节点可以执行机器学习过程,该机器学习过程可操作以使用该相应数据集以产生模型。
Description
技术领域
公开了涉及向目的地节点提供至少一个特征数据集的实施例,其中,目的地节点被配置为使用该特征数据集来训练机器学习(ML)模型和/或被配置为使用先前训练的ML模型和该特征数据集来生成推理。
背景技术
机器学习(ML)是一种数据分析方法,其基于输入数据(也称为“训练”数据)自动创建ML模型(例如,函数)。ML是基于系统可以从数据中学习、识别模式、以及在减少人工干预的情况下做出决定的想法的人工智能的一个分支。通过使用不同的训练数据来重复地训练ML模型,可以改进ML模型。
在过去十年间,对人工智能的需求已显著增长。然而,为了提高ML模型的质量,可能需要大量的训练数据。虽然一些小ML模型可以使用少量数据进行训练,但其他(例如,更大的)ML模型需要大量的数据。对于这些需要大量输入数据的ML模型,将机器学习工作负荷分布在多个机器上可以是有益的。
发明内容
为了创建ML模型,需要将输入数据集提供给运行ML过程的目的地节点,该ML过程使用输入数据以创建(或“训练”)该ML模型。类似地,要运行ML模型以产生推理,需要将输入数据集提供给运行该ML模型的目的地节点。当目的地节点远离存储输入数据集的源节点时,输入数据集需要通过网络从源节点被发送到目的地节点。在许多情况下,输入数据可能非常大。因此,输入数据集在网络上的传输可能花费很长时间,并因此可能会减慢训练过程或推理过程。另外,当输入数据集很大时,输入数据集在网络上的传输可能会给网络带来很大的负担。
因此,根据本公开的一些实施例,不是向目的地节点发送完整的输入数据集,而是选择输入数据集的子集并将其发送到目的地节点。输入数据集由多个特征数据集组成,其中,该多个特征数据集中的每一个特征数据集与一个特定特征相关联。在一个实施例中,每个特征被分配指示该特征的优先级的优先级值,并且基于所分配的优先级值来选择输入数据集的子集,以使得输入数据集的子集至少包含与具有最高优先级的特征相关联的特征数据集。在一些实施例中,特征的优先级值至少部分地基于该特征相对于ML模型的准确性的重要性。当数据需要通过网络被发送到目的地节点时,优先传输最重要的数据将会加速训练和/或推理过程,尤其是当网络的传输能力有限时或者当ML处理设备的处理能力有限时。例如,如果一些输入数据(例如,特定的特征数据集)在更早的时间可用,则可以更早地开始ML模型的训练,如果使用了更少的输入数据(例如,特征),则ML模型训练的时间可以更短。
通常,并非所有数据(例如,特征)在不同的条件下都同等重要。例如,新加坡的年气温变化很小,因此,对于在新加坡使用的ML模型训练/推理,该变化对于通过网络发送并不是非常重要的特征。相反,平均温度值和网络的传输能力是更重要的数据(例如,特征)。
因此,在一方面,存在一种用于向经由一个或多个网络连接到一个或多个源节点的目的地节点提供数据的方法。该方法可以由特征识别器执行,该特征识别器用于从特征集合中选择至少一个特征,该特征集合包括第一特征和第二特征,其中,在该特征集合中包括的每个特征与用于该特征的数据集相关联,以使得第一特征与第一数据集相关联并且第二特征与第二数据集相关联。在一个实施例中,该方法包括:针对在该特征集合中包括的每个特征,获得指示从存储用于该特征的数据集的源节点向经由网络连接到该源节点的目的地节点提供该数据集的成本的值。该方法还包括:基于所获得的值,选择该特征集合的子集。该方法进一步包括:针对每个所选择的特征,发起用于相应所选择的特征的相应数据集从存储用于相应所选择的特征的相应数据集的源节点经由将目的地节点与存储用于相应所选择的特征的相应数据集的源节点相连接的网络向目的地节点的传输。目的地节点可以执行机器学习过程,该机器学习过程可操作以使用该相应数据集以产生模型。附加地或可选地,目的地节点可以执行由机器学习过程生成的模型,并且该模型可操作以使用该相应数据集以产生推理。
实施例至少提供以下优势。
由于要处理的数据更少,ML模型将可用于在更短的时间内进行推理。如果运行ML模型的设备不是很快,并且ML模型训练或推理需要实时数据,则运行需要更少数据的更简单的ML模型可以是有利的。
此外,由于要处理的数据更少,数据转换和/或特征提取有可能更快地被执行,并且ML模型本身也可能够更快地执行推理。
ML模型训练——由于要处理和传送的数据更少,因此可以缩短ML模型训练时间。
ML模型推理——通过首先发送高优先级数据并仅使用高优先级数据来运行ML模型,可以提高执行ML模型推理的速度。当网络的能力允许发送和/或接收更多的数据时,附加的数据可以用于随后的ML训练或推理。
附图说明
被并入本文中并构成说明书的一部分的附图示出了各种实施例。
图1示出根据一些实施例的系统。
图2是根据一些实施例的过程。
图3是根据一些实施例的过程。
图4是示出根据一些实施例的过程的流程图。
图5是示出根据一些实施例的装置的框图。
具体实施方式
根据本公开的一些实施例,通过首先识别一个或多个高优先级特征并最初仅向目的地节点传送与最高优先级特征对应的相应的特征数据集,从而加速ML模型训练和/或推理过程,可以完成针对ML模型训练和/或推理的经优化的数据传输。
在一个实施例中,特征的优先级可以是基于特征的重要性——例如,用于该特征的特征数据集改进ML模型的性能的量。例如,在一个实施例中,特征的优先级不仅基于其重要性,而且还基于用于该特征的特征数据集的大小。特征的优先级还可以基于关于将存储相应的特征数据集的源节点与执行ML训练或ML推理的目的地节点相连接的网络的能力的信息。
通过首先仅使用最高优先级的特征数据集来创建ML模型,可以迭代地执行ML模型训练。随后,更低优先级的特征数据集可以用于重新训练ML模型或者用于创建更多ML模型以补充较简单的模型(例如,只需要高优先级数据的ML模型)。可以以各种方式来执行重要特征的识别。例如,可以通过使用“特征相似性”来识别重要特征——即,识别不同且以不同的方式影响ML模型的特征。这种识别可以在初始模型开发期间被执行,由此这些重要特征在重新训练ML模型时是已知的。
ML模型可以是使用部分或全部数据(例如,特征)的一个模型,或者是使用部分或全部数据的若干不同的模型。
图1示出了根据一些实施例的用于执行ML过程的系统100。该ML过程可以是ML模型训练过程或ML模型推理过程。系统100包括编排功能102、特征识别器功能104、源节点106、目的地节点108、使源节点106能够与目的地节点108通信的网络110、以及知识功能112。
编排功能102具有关于网络110的传输能力和/或传输成本的信息。编排功能102从网络110中的不同节点或功能获得性能信息,并基于所获得的信息来识别和/或预测网络110在运行时的传输能力和/或传输成本。
特征识别器功能104是用于基于特征的重要性、系统能力(例如,传输性能)、成本、和/或与特征相关联的相应的特征数据集的大小来选择要使用的至少一个特征和/或ML模型的功能。
有多种方式来识别特征的重要性。专家可知道某些特征并不重要(例如,新加坡的温度在通过网络传输数据以用于在新加坡进行ML模型训练/推理时可不是很重要)。否则,一些基于树的算法(如XGB或随机森林(Random Forest))可以用于自动识别特征的重要性。
源节点106是存储输入数据集(或输入数据集的一部分)的节点。下表1示出了示例性的输入数据集。
表1
在这个示例中,定义了四个特征(F1、F2、F3和F4),并且输入数据集由N个数据记录组成,其中,每个数据记录包含针对四个所定义的特征中的每一个特征的一个值。例如,记录3包含分别对应于特征F1、F2、F3和F4的值V1,3;V2,3;V3,3;以及V4,3。因此,输入数据集包含四个特征数据集,一个特征数据集用于这四个特征中的一个特征。更具体地,特征数据集i(i=1,2,3,或4)包含值Vi,1到V1,N。例如,用于特征F1的特征数据集包含值V1,1;V1,2;V1,3;...;以及V1,N。如本文中所使用的,“值”可以是标量值(即,单个值)或者值的集合(例如,多维向量)。
目的地节点108是其中发生ML模型训练和/或推理的节点。
知识功能112是存储所产生的所有ML模型以及关于模型的一些补充信息(例如,用于训练特定ML模型的特征的类型、ML模型的准确性等)的功能。
ML模型训练阶段
步骤1——在模型开发期间,识别最重要的特征(即,具有对模型性能的最大积极影响的特征)。可以存在一个模型或若干模型(例如,Model_1、Model_2、…、Model_n),每个模型使用不同的特征。例如,Model_1可以只用最重要的特征进行训练,而Model_n可以用所有特征进行训练。
步骤2——在网络中定义ML模型(例如,Model_1和Model_2)。训练ML模型的节点(目的地节点108)远离存储相关特征数据集的源节点106。
步骤3——特征识别器功能104基于系统信息(例如,传输能力/成本)和使用特征对ML模型的性能的影响来选择要用于ML模型训练/推理的特征(例如,可以根据特征重要性和用于特征的特征数据集的大小对要使用的特征进行优先级排序)。例如,ML训练系统可以开始向和/或从目的地节点108发送和/或接收用于最重要的特征(例如,特征1)的特征数据集。当在目的地节点108处接收到用于最重要的特征(例如,特征1)的特征数据集时,可以开始训练Model_1(其可以只用特征1进行训练)。当Model_1的训练完成时,Model_1可以被部署并被开始用于推理。
步骤4——在目的地节点108接收到与最重要的特征(例如,特征1)对应的特征数据集之后,如果网络110的传输能力允许传送更多的特征数据集,则ML训练系统可以开始向目的地节点108发送与下一最高优先级的特征(例如,特征2)对应的特征数据集。进而,可以使用所有所接收的特征数据集(例如,用于特征1和2的特征数据集)来训练Model_2。在Model_2被训练之后,Model_2可以被部署并被开始用于推理。
步骤5——在目的地节点108接收到下一特征数据集(例如,特征2)之后,如果网络110的传输能力允许传送更多的特征数据集,则可以优先考虑更多的特征和/或可以根据特征的重要性来传送更多的特征数据集。
ML模型推理阶段
一个或多个经训练的ML模型可以存在并且可以被存储在知识功能112中。在所存储的ML模型中,特征识别器功能104可以基于传输链路的容量、模型的能力、特征优先级、以及ML处理部件(例如,目的地节点108)的处理能力,选择模型和/或特征以用于ML模型推理。关于所选择的模型(例如,Model_1)和所选择的特征(例如,Feature_1)的信息可以被提供给目的地节点108,以使得可以执行使用所选择的特征的ML模型的推理。
如果网络110的传输能力增加,则更多的数据(例如,Feature_1和Feature_2)可以被提供给目的地节点108。进而,可以执行使用所述更多的数据(例如,Feature_1和Feature_2)的ML模型的推理。
可以以自适应的方式自动地执行选择ML模型并提供与所选择的ML模型对应的特征的过程。例如,可以定期地监视网络110的传输吞吐能力,基于所监视的传输吞吐能力,可以选择不同的ML模型,并且可以将与不同的ML模型相关联的不同的特征提供给目的地节点108。
图2示出了用于优化用于ML模型训练的特征数据集的传输的示例性的消息流200。在消息流200中,编排功能102可以向特征识别器功能104发送网络信息(“NW_Info”)204。网络信息204的示例是网络能力和/或网络传输成本。
可以基于事件的发生,向特征识别器功能104发送网络信息204。例如,作为编排功能102从特征识别器功能104接收到对网络信息204的请求202的结果,可以向特征识别器功能104发送网络信息204。
特征识别器功能104向源节点106发送对关于包括输入数据集的特征数据集的大小(“Feature_Sizes”)的信息的请求206。响应于该请求206,源节点106可以向特征识别器功能104发送所请求的大小信息208。
基于以下中的至少一个:所接收的网络信息204、所请求的大小信息208、以及特征重要性值,特征识别器功能104选择至少一个特征以用于模型训练(参见步骤s210)。例如,针对在特征集合中包括的每个特征,特征识别器功能104可以获得指示该特征的优先级的优先级值,该优先级值可以是基于从源节点106向目的地节点108提供与该特征相关联的特征数据集的成本以及指示该特征的重要性的特征重要性值(即,该特征重要性值指示该特征对模型性能的影响)。也就是说,可以使用所接收的网络信息204、特征大小信息208(即,在用于该特征的特征数据集中包含的数据的量)和特征重要性值来计算优先级值。例如,特定特征的优先级值可以与
在选择要使用的特征之后,特征识别器功能104向源节点106发送请求发送与所选择的特征(例如,“特征1”)相关联的特征数据集的请求212。响应于接收到该请求212,源节点106可以向目的地节点108发送所请求的特征数据集214。在接收到特征数据集214之后,目的地节点108可以可选地向源节点106发送确认接收的确认消息216。类似地,源节点106可以可选地向特征识别器功能104发送确认接收到确认消息216的确认消息218。
在接收到特征数据集214之后,目的地节点108开始使用特征数据集214(例如,用于特征1的特征数据集)来训练ML模型(“模型1”)(参见步骤s220)。在完成ML模型的训练之后,目的地节点108可以向知识功能112发送关于经训练的ML模型的信息224。此外,目的地节点108可以向特征识别器功能104发送ML模型训练的结果226。该结果226可以包括关于所选择的特征(例如,特征1)的重要性的信息。
在接收到结果226之后,特征识别器功能104可以向源节点106发送对另一个特征数据集(例如,用于特征2的特征数据集)的请求228。响应于接收到该请求228,源节点106向目的地节点108发送所请求的特征数据集230。在接收到特征数据集230之后,目的地节点108可以可选地向源节点106发送确认接收的确认消息232。类似地,源节点106可以可选地向特征识别器功能104发送确认接收到确认消息232的确认消息234。
在接收到特征数据集230之后,目的地节点108开始使用特征数据集230或者使用特征数据集214和特征数据集230两者来训练ML模型(例如,模型2)(参见步骤s236)。在完成ML模型的训练之后,目的地节点108向知识功能112发送关于经训练的ML模型的信息240。此外,目的地节点108可以向特征识别器功能104发送ML模型训练的结果242。该结果242可以包括关于特征2的重要性的信息。
如消息流200中所示,首先,最高优先级特征(例如,特征1)的特征数据集被提供给目的地节点108,并使用该特征数据集来训练相应的ML模型,进而,部署模型,以使得其可以用于做出推理。通过这种方式,模型训练可以更快且更有效地进行,因为只有输入数据集的子集(例如,与最高优先级特征相关联的特征数据集)被用于训练ML模型。
图3示出了用于优化用于ML模型推理的数据(例如,特征)的传输的示例性的消息流300。在消息流300中,编排功能102可以向特征识别器功能104发送网络信息(“NW_Info”)304。网络信息304的示例是网络能力和/或网络传输成本。
可以基于事件的发生,向特征识别器功能104发送网络信息304。例如,作为编排功能102从特征识别器功能104接收到对网络信息304的请求302的结果,可以向特征识别器功能104发送网络信息304。
特征识别器功能104可以向源节点106发送对关于特征数据集的大小(“Feature_Sizes”)的信息的请求306。响应于该请求306,源节点106向特征识别器功能104发送所请求的大小信息308(“Feature_Sizes”)。
基于以下中的至少一个:所接收的网络信息304、所接收的大小信息308、以及特征重要性值,特征识别器功能104选择(参见步骤s310)至少一个特征以用于进行推理。例如,针对在特征集合中包括的每个特征,特征识别器功能104可以获得指示该特征的优先级的优先级值,该优先级值可以是基于从源节点106向目的地节点108提供与该特征相关联的特征数据集的成本以及指示该特征的重要性的特征重要性值。也就是说,可以使用所接收的网络信息304、所接收的大小信息308(即,在用于该特征的特征数据集中包含的数据的量)和特征重要性值来计算优先级值。例如,特定特征的优先级值可以与
在选择特征之后,特征识别器功能104向知识功能112发送包括识别在步骤s310中选择的特征中的至少一个的信息并请求知识功能112向目的地节点106发送与所识别的特征相关联的ML模型(例如,基于仅使用用于所识别的特征的特征数据集的训练过程而创建的ML模型)的请求312。如果目的地节点108尚未具有与所选择的特征相关联的ML模型,则响应于接收到该请求312,知识功能112向目的地节点108发送关于所请求的ML模型的信息314。
特征识别器功能104还向源节点106发送包括,识别在步骤s310中选择的至少一个特征(例如,特征1)的信息并请求源节点106向目的地节点106发送用于所识别的特征的特征数据集的请求316。作为接收到该请求316的结果,源节点106向目的地节点108发送所请求的特征数据集(例如,如图3中所示的用于特征1的特征数据集)。在接收到用于所识别的特征的数据集318之后,目的地节点108可以可选地向源节点106发送确认接收到数据集318的确认消息320。类似地,源节点106可以可选地向特征识别器功能104发送确认接收到确认消息320的确认消息322。
在步骤s324中,目的地节点108使用从源节点106接收的特征数据集和对应的模型来生成推理。
如图3中所示,特征识别器功能104可以接收进一步的网络信息328。进一步的网络信息328可以包括更新的网络能力和更新的网络传输成本信息。在接收到进一步的网络信息328之后,在步骤s330中,特征识别器功能104选择在步骤s310中没有被选择的至少一个特征(例如,特征2)。在执行步骤s330之后,特征识别器功能104向知识功能112发送包括识别在步骤s330中选择的特征中的至少一个的信息并请求知识功能112向目的地节点106发射与所识别的特征相关联的ML模型的请求332。如果目的地节点108尚未具有该ML模型,则响应于接收到该请求332,知识功能112向目的地节点108发送关于所请求的ML模型的信息334。
特征识别器功能104还向源节点106发射包括识别在步骤s330中选择的至少一个特征的信息并请求源节点106向目的地节点106发送用于所识别的特征的特征数据集的请求336。作为接收到该请求336的结果,源节点106向目的地节点108发送所请求的特征数据集338(例如,如图3中所示的用于特征2的特征数据集以及用于特征1的特征数据集)。在接收到数据集338之后,目的地节点108可以可选地向源节点106发送确认接收到该数据的确认消息340。类似地,源节点106可以可选地向特征识别器功能104发送确认接收到确认消息320的确认消息342。
在步骤s344中,目的地节点108使用从源节点106接收的特征数据集338以及与这些特征数据集对应的模型来生成推理。
图4是示出根据一些实施例的过程400的流程图。过程400可以由用于从包括第一特征和第二特征的特征集合中选择至少一个特征的特征识别器来执行。在该特征集合中包括的每个特征可以与用于该特征的数据集相关联,以使得第一特征与第一数据集相关联并且第二特征与第二数据集相关联。过程400可以在步骤s402中开始。
步骤s402包括:针对在该特征集合中包括的每个特征,获得指示从存储用于该特征的数据集的源节点向经由网络连接到该源节点的目的地节点提供该数据集的成本的值。
步骤s404包括:基于所获得的值,选择该特征集合的子集。
步骤s406包括:针对每个所选择的特征,发起用于相应所选择的特征的相应数据集从存储用于相应所选择的特征的相应数据集的源节点经由将目的地节点与存储用于相应所选择的特征的相应数据集的源节点相连接的网络向目的地节点的传输。目的地节点可以执行机器学习过程,该机器学习过程可操作以使用该相应数据集以产生模型。可替代地或附加地,目的地节点可以执行由机器学习过程生成的模型,并且该模型可操作以使用该相应数据集以产生推理。
在一些实施例中,针对在该特征集合中包括的每个特征获得值的步骤包括:针对第一特征获得第一值,并且该第一值是第一数据集的大小的函数。
在一些实施例中,该方法进一步包括:获得将目的地节点与存储第一数据集的源节点相连接的网络的网络性能信息,并且该第一值也是网络性能信息的函数。
在一些实施例中,该方法进一步包括:针对第一特征获得特征重要性值,并且该第一值也是第一特征的特征重要性值的函数。
在一些实施例中,该第一值与特征重要性值成反比(例如,更高的特征重要性值导致更低的值)。
在一些实施例中,特征子集包括第一特征但不包括第二特征,并且该方法进一步包括:在发起用于所选择的特征的数据集的传输之后,从目的地节点接收与使用第一数据集对模型的训练有关的模型训练结果;以及在接收到该模型训练结果之后,发起第二数据集从存储该第二数据集的源节点向目的地节点的传输。
在一些实施例中,模型训练结果包括第一特征的第一特征重要性值,该第一特征重要性值指示该第一特征对模型的性能的影响。
图5是根据一些实施例的用于实现编排功能102、特征识别器功能104、源节点106、目的地节点108、以及知识功能112中的任何一个的装置500的框图。如图5中所示,装置500可以包括:处理电路(PC)502,其可以包括一个或多个处理器(P)555(例如,通用微处理器和/或一个或多个其他处理器,诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)等),这些处理器可以共同位于单个外壳或单个数据中心中,或者可以在地理上分布(即,装置500可以是分布式计算装置);网络接口548,其包括发射机(Tx)545和接收机(Rx)547,该发射机(Tx)和接收机(Rx)用于使装置500能够向连接到网络接口548所连接(直接地或间接地)(例如,网络接口548可以无线地连接到网络110,在这种情况下,网络接口548连接到天线布置)的网络110(例如,互联网协议(IP)网络)的其他节点发送数据和从其接收数据;以及本地存储单元(又称为“数据存储系统”)508,其可以包括一个或多个非易失性存储设备和/或一个或多个易失性存储设备。在其中PC 502包括可编程处理器的实施例中,可以提供计算机程序产品(CPP)541。CPP 541包括存储有计算机程序(CP)543的计算机可读介质(CRM)542,该计算机程序(CP)543包括计算机可读指令(CRI)544。CRM 542可以是非暂时性计算机可读介质,诸如磁介质(例如,硬磁盘)、光学介质、存储设备(例如,随机存取存储器、闪存存储器)等。在一些实施例中,计算机程序543的CRI 544被配置为使得当由PC 502执行时,该CRI使装置500执行本文所描述的步骤(例如,在本文中参考流程图所描述的步骤)。在其他实施例中,装置500可以被配置为执行本文所描述的步骤而无需代码。也就是说,例如,PC 502可以仅由一个或多个ASIC组成。因此,本文所描述的实施例的特征可以在硬件和/或软件中实现。
虽然本文描述了各种实施例,但应理解,它们仅以示例而非限制的方式呈现。因此,本公开的广度和范围不应受到任何上述示例性实施例的限制。此外,除非在本文中另有说明或者与上下文明显矛盾,否则上述要素及其所有可能的变体的任何组合都被包含在本公开中。
此外,虽然上述和在附图中图示的过程被示出为一系列的步骤,但这仅仅是为了说明。因此,可设想可以添加一些步骤,可以省略一些步骤,可以重新安排这些步骤的顺序,以及可以并行地执行一些步骤。
Claims (16)
1.一种用于向经由一个或多个网络(110)连接到一个或多个源节点(106)的目的地节点(108)提供数据的方法(400),所述方法由特征识别器(104)执行,所述特征识别器(104)用于从特征集合中选择至少一个特征,所述特征集合包括第一特征和第二特征,其中,在所述特征集合中包括的每个特征与用于该特征的数据集相关联,以使得所述第一特征与第一数据集相关联并且所述第二特征与第二数据集相关联,所述方法包括:
针对在所述特征集合中包括的每个特征,获得(s402)指示从存储用于所述特征的所述数据集的源节点(106)向经由网络(110)连接到所述源节点(106)的所述目的地节点(108)提供所述数据集的成本的值;
基于所获得的值,选择(s404)所述特征集合的子集;以及
针对每个所选择的特征,发起(s406)用于相应所选择的特征的相应数据集从存储用于相应所选择的特征的相应数据集的所述源节点(106)经由将所述目的地节点(108)与存储用于相应所选择的特征的相应数据集的所述源节点(106)相连接的所述网络(110)向所述目的地节点(108)的传输,其中,
所述目的地节点(108)执行机器学习过程,所述机器学习过程可操作以使用所述相应数据集以产生模型,和/或
所述目的地节点(108)执行由机器学习过程生成的模型,并且所述模型可操作以使用所述相应数据集以产生推理。
2.根据权利要求1所述的方法,其中,
针对在所述特征集合中包括的每个特征获得所述值的步骤包括:针对所述第一特征获得第一值,并且
所述第一值是所述第一数据集的大小的函数。
3.根据权利要求2所述的方法,其中,
所述方法进一步包括:获得将所述目的地节点与存储所述第一数据集的源节点相连接的所述网络的网络性能信息,并且
所述第一值也是所述网络性能信息的函数。
4.根据权利要求2或3所述的方法,其中,
所述方法进一步包括:针对所述第一特征获得特征重要性值,并且
所述第一值也是所述第一特征的所述特征重要性值的函数。
5.根据权利要求4所述的方法,其中,所述第一值与所述特征重要性值成反比。
6.根据权利要求1-5中任一项所述的方法,其中,
所述特征子集包括第一特征但不包括第二特征,并且
所述方法进一步包括:
在发起用于所选择的特征的所述数据集的传输之后,从所述目的地节点接收与使用所述第一数据集对模型的训练有关的模型训练结果;以及
在接收到所述模型训练结果之后,发起所述第二数据集从存储所述第二数据集的所述源节点向所述目的地节点的传输。
7.根据权利要求6所述的方法,其中,所述模型训练结果包括所述第一特征的第一特征重要性值,所述第一特征重要性值指示所述第一特征对所述模型的性能的影响。
8.一种用于向经由一个或多个网络(110)连接到一个或多个源节点(106)的目的地节点(108)提供数据以及用于从特征集合中选择至少一个特征的装置(500),所述特征集合包括第一特征和第二特征,其中,在所述特征集合中包括的每个特征与用于该特征的数据集相关联,以使得所述第一特征与第一数据集相关联并且所述第二特征与第二数据集相关联,所述装置包括:
存储器(542);以及
处理电路(502),其中,所述装置被配置为:
针对在所述特征集合中包括的每个特征,获得(s402)指示从存储用于所述特征的所述数据集的源节点(106)向经由网络(110)连接到所述源节点(106)的所述目的地节点(108)提供所述数据集的成本的值;
基于所获得的值,选择(s404)所述特征集合的子集;以及
针对每个所选择的特征,发起(s406)用于相应所选择的特征的相应数据集从存储用于相应所选择的特征的相应数据集的所述源节点(106)经由将所述目的地节点(108)与存储用于相应所选择的特征的相应数据集的所述源节点(106)相连接的所述网络(110)向所述目的地节点(108)的传输,其中,所述目的地节点(108)被配置为:
执行机器学习过程,所述机器学习过程可操作以使用所述相应数据集以产生模型,和/或
执行由机器学习过程生成的模型,并且所述模型可操作以使用所述相应数据集以产生推理。
9.根据权利要求8所述的装置,其中
所述装置进一步被配置为:通过执行包括针对所述第一特征获得第一值的过程来针对在所述特征集合中包括的每个特征获得所述值,并且
所述第一值是所述第一数据集的大小的函数。
10.根据权利要求8所述的装置,其中
所述装置进一步被配置为:获得将所述目的地节点与存储所述第一数据集的所述源节点相连接的所述网络的网络性能信息,并且
所述第一值也是所述网络性能信息的函数。
11.根据权利要求9或10所述的装置,其中,
所述装置进一步被配置为:针对所述第一特征获得特征重要性值,并且
所述第一值也是所述第一特征的所述特征重要性值的函数。
12.根据权利要求11所述的装置,其中,所述第一值与所述特征重要性值成反比。
13.根据权利要求8-12中任一项所述的装置,其中
所述特征子集包括第一特征但不包括第二特征,并且
所述装置进一步被配置为:
在发起所选择的特征的所述数据集的传输之后,从所述目的地节点接收与使用所述第一数据集对模型的训练有关的模型训练结果;以及
在接收到所述模型训练结果之后,发起所述第二数据集从存储所述第二数据集的所述源节点向所述目的地节点的传输。
14.根据权利要求13所述的装置,其中,所述模型训练结果包括所述第一特征的第一特征重要性值,所述第一特征重要性值指示所述第一特征对所述模型的性能的影响。
15.一种计算机程序(543),包括指令(544),所述指令(544)在由处理电路(502)执行时使所述处理电路(502)执行根据权利要求1-7中任一项所述的方法。
16.一种包含根据权利要求15所述的计算机程序的载体,其中,所述载体是电子信号、光信号、无线电信号、以及计算机可读存储介质(542)中的一个。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/SE2020/050122 WO2021158152A1 (en) | 2020-02-07 | 2020-02-07 | Data transmission using data prioritization |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115039110A true CN115039110A (zh) | 2022-09-09 |
Family
ID=77199581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080095316.7A Pending CN115039110A (zh) | 2020-02-07 | 2020-02-07 | 使用数据优先级的数据传输 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230075551A1 (zh) |
EP (1) | EP4100889A4 (zh) |
CN (1) | CN115039110A (zh) |
WO (1) | WO2021158152A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024168684A1 (en) * | 2023-02-16 | 2024-08-22 | Apple Inc. | Dataset sharing for ai/ml |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6963870B2 (en) | 2002-05-14 | 2005-11-08 | Microsoft Corporation | System and method for processing a large data set using a prediction model having a feature selection capability |
CN107122327B (zh) | 2016-02-25 | 2021-06-29 | 阿里巴巴集团控股有限公司 | 一种利用训练数据训练模型的方法和训练系统 |
JP6986685B2 (ja) * | 2018-03-12 | 2021-12-22 | パナソニックIpマネジメント株式会社 | 情報処理装置 |
US11301776B2 (en) * | 2018-04-14 | 2022-04-12 | International Business Machines Corporation | Memory-based data selection scheme for machine learning training on limited memory resources |
US11423254B2 (en) * | 2019-03-28 | 2022-08-23 | Intel Corporation | Technologies for distributing iterative computations in heterogeneous computing environments |
-
2020
- 2020-02-07 EP EP20917813.6A patent/EP4100889A4/en active Pending
- 2020-02-07 WO PCT/SE2020/050122 patent/WO2021158152A1/en unknown
- 2020-02-07 CN CN202080095316.7A patent/CN115039110A/zh active Pending
- 2020-02-07 US US17/760,232 patent/US20230075551A1/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024168684A1 (en) * | 2023-02-16 | 2024-08-22 | Apple Inc. | Dataset sharing for ai/ml |
Also Published As
Publication number | Publication date |
---|---|
EP4100889A4 (en) | 2023-05-03 |
US20230075551A1 (en) | 2023-03-09 |
EP4100889A1 (en) | 2022-12-14 |
WO2021158152A1 (en) | 2021-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11861499B2 (en) | Method, terminal-side device, and cloud-side device for data processing and terminal-cloud collaboration system | |
CN111083722B (zh) | 模型的推送、模型的请求方法及装置、存储介质 | |
US10102227B2 (en) | Image-based faceted system and method | |
JP2022052773A (ja) | 畳み込み効率を向上させる方法、システム、及び装置 | |
AU2021200302B2 (en) | Method for sharing models among autonomous vehicles based on blockchain | |
CN112784989A (zh) | 推理系统、推理方法、电子设备及计算机存储介质 | |
CN104519545A (zh) | 基于无线网络中的学习来选择中继节点的中继设备和方法 | |
US20230112127A1 (en) | Electronic device for deploying application and operation method thereof | |
WO2020250236A1 (en) | Understanding deep learning models | |
US20210272014A1 (en) | System and methods for privacy preserving cross-site federated learning | |
CN115039110A (zh) | 使用数据优先级的数据传输 | |
CN116248702A (zh) | 用于控制多代理系统中的代理间通信的系统和方法 | |
CN110471947B (zh) | 基于分布式搜索引擎的查询方法、服务器和存储介质 | |
CN108334085A (zh) | 智能协作方法、装置、系统、智能终端及存储介质 | |
US20170010943A1 (en) | Ordering device, data processing device, ordering method, computer program product, and multiplex system | |
WO2021070189A1 (en) | Moderator for federated learning | |
CN104780120A (zh) | 一种局域网中文件传输的方法和装置 | |
CN117234734A (zh) | 加速卡负载均衡调度方法、装置、通信设备及存储介质 | |
WO2024047377A1 (en) | Method for converting a data packet to or from an internet of things (iot) protocol | |
CN116980420B (zh) | 一种集群通信方法、系统、装置、设备及介质 | |
CN114667523A (zh) | 模型训练方法、装置、服务器、终端和存储介质 | |
US20230027647A1 (en) | Dynamic distribution of a computational graph | |
CN115913994B (zh) | 基于故障分类的光网络抗毁方法及装置 | |
CN110943973B (zh) | 数据流分类方法及装置、模型训练方法及装置和存储介质 | |
WO2022057355A1 (zh) | 数据包的识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |