CN113228064A - 用于个性化的机器学习模型的分布式训练 - Google Patents

用于个性化的机器学习模型的分布式训练 Download PDF

Info

Publication number
CN113228064A
CN113228064A CN201980082850.1A CN201980082850A CN113228064A CN 113228064 A CN113228064 A CN 113228064A CN 201980082850 A CN201980082850 A CN 201980082850A CN 113228064 A CN113228064 A CN 113228064A
Authority
CN
China
Prior art keywords
user
model
data
training
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980082850.1A
Other languages
English (en)
Inventor
米哈伊尔·谢尔盖耶维奇·库迪诺夫
伊丽娜·伊戈列夫纳·皮翁特科夫斯卡娅
阿列克谢·雨里俄维奇·内维多姆斯基
瓦季姆·谢尔盖耶维奇·波波夫
彼得·康斯坦丁诺维奇·维托夫托夫
德米特里·瓦莱里耶维奇·波卢博特科
奥尔加·瓦莱里夫纳·马鲁吉纳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN113228064A publication Critical patent/CN113228064A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B9/00Simulators for teaching or training purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

要求保护一种用于人工智能(AI)机器学习(ML)模型的分布式训练的方法、一种用于人工智能(AI)机器学习(ML)模型的分布式训练的系统以及一种其上存储有计算机程序的计算机可读介质,其中,所述计算机程序在由一个或更多个处理器执行时实现用于ML模型的分布式训练的方法。所述方法包括以下步骤:在数据收集时段期间,在一个或更多个UE中的每个UE中收集通过用户输入而用户产生的数据;将训练数据从服务器发送到所述一个或更多个UE;基于收集的数据和训练数据在一个或更多个UE中的每个UE中执行ML模型训练,直到满足训练停止标准为止;以及在服务器处从所述一个或更多个UE获取训练的ML模型。

Description

用于个性化的机器学习模型的分布式训练
技术领域
本发明涉及人工智能领域,并且具体地,涉及用于使用户设备个性化的机器学习模型。
背景技术
参考文献US 8,429,103B1(2012-06-22,Google Inc.)公开了一种在从移动应用或网络获得数据项时对在用户设备(诸如移动电话)中执行的机器学习(ML)模型进行训练的方法。机器学习方法可以包括:基于接收到的数据确定至少一个特征,并且通过对所述至少一个特征执行机器学习运算来产生输出数据。可以将输出数据提供给应用、网络等。可以提供不断地对可能来自多个源的输入数据进行接收和存储的数据聚合和表示引擎(DARE)。可以对存储的输入数据进行聚合以发现数据内的特征。例如,现有技术的机器自适应技术可以使用需要有限的历史信息来进行训练或不需要历史信息来进行训练的增量学习算法。
参考文献H.Brendan McMahan等人的(2016)Communication-Efficient Learningof Deep Networks from Decentralized Data和Yujun Lin等人的(2018)Deep GradientCompression:Reducing the Communication Bandwidth for Distributed training公开了一种使训练数据分布在移动装置上并通过对本地计算的更新进行聚合来学习共享模型的所谓的“深度学习”模型训练的方法。为了改善分布式随机梯度下降的通信,使用了以下几种解决方案:在预热训练期间仅发送足够大的权重更新、动量校正、局部梯度裁剪、动量因子掩蔽、局部梯度累积和不太强烈的梯度减小。该方法在图像、语音和文本数据处理的情境中进行了测试。
上述方法可以被认为是所要求保护的发明的最接近的类似物。
发明内容
技术问题
参考文献US8,429,103B1(2012-06-22,GoogleInc.)解决方案具有缺点,诸如应用领域仅限于移动电话,需要收集用户个人数据,以及模型的所谓“过度拟合”的风险(当训练算法在测试数据集实体上的错误概率显著高于针对训练数据集的平均误差时发生的不想要的现象)。
参考文献H.BrendanMcMahan等人(2016)的方法具有缺点,例如新数据上的模型“过度拟合”,需要用户等待训练完成直到向用户提供性能更好的模型,并且训练方法受随机梯度下降(SGD)所约束。
问题解决方案
本部分公开了所要求保护的发明的各个方面和实施例,旨在呈现所要求保护的主题及其实施例的简要特征。下面提供了实现所要求保护的发明的特征的组合的技术手段和方法的详细特征。本发明概述和下面提供的详细描述和附图都不应被认为是对所要求保护的发明的范围的限制。所要求保护的本发明的法律保护范围仅由所附权利要求限定。
考虑到现有技术的上述缺陷,本发明的目的在于提供一种旨在消除上述缺点,降低用户个人数据安全破坏的风险,并且降低为了用于个性化用户设备的机器学习模型训练的目的而通过网络连接进行数据传输的费用的解决方案。此外,所要求保护的发明消除了模型“过度拟合”的风险(在这种情况下也可以被称为“遗忘”)。此外,所要求保护的解决方案使得能够根据用户感兴趣的主题对用户进行分组。由所要求保护的发明实现的技术结果在于提高了训练个性化人工智能模型的质量,同时防止了它们的“过度拟合”并减少了通过网络连接进行数据传输的费用。
为了实现所述目的,根据一方面,本发明针对一种用于人工智能(AI)机器学习(ML)模型的分布式训练的方法,包括以下步骤:(a)在服务器中初始化一个或更多个机器学习(ML)模型;(b)在经由通信网络连接到服务器的一个或更多个用户设备(UE)中分布一个或更多个ML模型;(c)在数据收集时段期间,在所述一个或更多个UE中的每个UE中收集通过用户输入而用户产生的数据;(d)将训练数据从服务器发送到所述一个或更多个UE;(e)基于收集的数据和所述训练数据,在所述一个或更多个UE中的每个UE中执行ML模型训练,直到满足训练停止标准为止;(f)在服务器处从所述一个或更多个UE获取训练的ML模型;(g)通过对从所述一个或更多个用户设备获取的训练的ML模型进行聚合来在服务器处更新ML模型;(h)将更新的ML模型发送到所述一个或更多个UE;以及(i)重复步骤(c)-(h)一次或更多次,直到获得满足一个或更多个ML模型质量标准的ML模型为止。
在本发明的实施例中,所述方法还可以包括以下步骤:基于在所述一个或更多个UE中的每个UE上收集的用户产生的数据来识别针对所述一个或更多个UE中的每个UE的用户的个性化组;在服务器处将从所述一个或更多个UE获取的ML模型分组到个性化组中;以及将分组到个性化组中的更新的ML模型发送到包括在相应的个性化组中的UE。
在实施例中,ML模型可以被配置为:当用户在UE中输入文本消息时预测词语和短语,其中,所述用户产生的数据是由所述用户输入的词语和短语。在实施例中,ML模型可以被配置为:识别从UE的一个或更多个相机获取的图像中的对象,其中,所述用户产生的数据是来自UE的所述一个或更多个相机的图像和/或由用户分配给存在于所述图像中的对象的标签。在实施例中,ML模型可以被配置为:识别借助于UE的触摸屏和/或UE的触摸板从用户接收的手写输入,其中,所述用户产生的数据是所述手写输入和/或用户对由ML模型基于来自用户的所述手写输入建议的字符和/或词语的变形的选择。在实施例中,ML模型可以被配置为:识别由UE的一个或更多个麦克风从用户接收的语音输入,其中,所述用户产生的数据是所述语音输入和/或用户对由ML模型基于来自用户的所述语音输入建议的词语和/或短语的变形的选择。在实施例中,ML模型可以被配置为:识别UE的环境的一个或更多个特征和/或一个或更多个用户动作,其中,UE的环境的所述一个或更多个特征是UE的时间、日期、工作日、照度、温度、地理位置、空间位置中的一个或更多个,其中,所述用户产生的数据是在UE中的一个或更多个程序应用中的用户输入。在实施例中,训练数据可以包括来自初始数据集的公共可用训练数据的一部分。
在实施例中,训练停止标准是在一个或更多个UE中实现的ML模型的收敛。在实施例中,训练停止标准是由ML模型实现的预定ML模型质量特征值。在实施例中,训练停止标准是实现的预定数量的训练时段。
根据本发明的另一方面,一种用于人工智能(AI)机器学习(ML)模型的分布式训练的系统,所述系统包括:服务器;以及一个或更多个用户设备(UE),通过通信网络连接到服务器;其中,服务器被配置为:对一个或更多个机器学习(ML)模型进行初始化;在一个或更多个用户设备(UE)中分布一个或更多个ML模型;向所述一个或更多个UE发送训练数据;从所述一个或更多个UE获取训练的ML模型;通过对从所述一个或更多个UE获取的训练的ML模型进行聚合来更新ML模型;将更新的ML模型发送到所述一个或更多个UE;并且其中,所述一个或更多个UE被配置为:在数据收集时段期间,收集通过用户输入而用户产生的数据;从服务器接收训练数据;基于收集的数据和所述训练数据来训练ML模型,直到满足训练停止标准为止。
在又一方面,本发明提供了一种计算机可读介质,其中,所述计算机可读介质上存储有计算机程序,其中,所述计算机程序在由一个或更多个处理器执行时实现根据上述方面中的第一方面的ML模型的分布式训练方法。本发明的发明构思可以在其他主题(诸如计算机程序、计算机程序产品、服务器、用户设备、无线通信系统等)中实现。
本发明的有益效果
因此,实现了训练的ML模型的附加个性化,并且提高了针对不同用户群组的ML模型的准确性。
附图说明
这里提供了附图以便于理解本发明的实质。附图是示意性的并且未按比例绘制。附图仅作为说明,并不旨在限定本发明的范围。
图1示出根据本发明的第一方面的用于机器学习(ML)模型的分布式训练的方法的流程图;
图2示出根据本发明的在用户设备(UE)中训练ML模型并在服务器中收集个性化ML模型的处理;
图3示意性地示出根据本发明的UE中的ML模型训练。
图4是示出根据各个实施例的网络环境中的电子装置(例如,一个或更多个UE)的框图。
具体实施方式
机器学习是在应用多个类似问题的解决方案的过程中进行学习而不是直接解决问题的一类人工智能方法。在特定情况下,大量机器学习方法基于使用神经网络,然而也存在使用训练数据集的概念的其他方法。在本发明的上下文中,作为非限制性示例,可以将机器学习方法用于以下目的:对象识别(例如,在图像中)、词语预测(例如,在用户经由用户设备中的应用接口输入消息或搜索查询的各种应用中)、超分辨率图像的智能处理、语音识别(例如,在接收来自用户的语音输入并将语音输入数据转换为文本的应用中)、手写文本识别(例如,在通过借助于笔或用户的手指在用户设备的触摸屏上书写字母和其他字符来接收用户输入的应用中),并且可以在被称为“智能助理”的不同软件应用中使用机器学习方法。
在本发明的上下文中,假设用户设备包括例如由软件实现的一个或更多个人工智能特征。考虑到该用户设备的用户的各种特征,包括这种人工智能特征的系统被配置用于借助于一种或更多种机器学习方法进行“学习”,以使以不同媒体、服务、软件应用等的形式实现的用户设备特征个性化。作为非限制性示例,个性化可以基于例如用户词汇表(例如当用户在即时通讯、电子邮件应用、SMS等中撰写消息时被确定)、感兴趣的用户主题(例如基于用户在各种搜索系统中的搜索查询所确定的)、关于用户浏览的网页的信息、浏览特定网页的频率和持续时间等。然而,用户数据收集及其在用户设备外部的传输受到与用户个人数据的安全性、用户隐私保护等相关的各种限制。
常规地,在一个或更多个服务器中训练人工智能模型。然而,这特别涉及以下问题:(1)人工智能系统可能无法适应给定用户设备的本地条件;以及(2)公共可用数据可能与真实数据不同。通常,当将要解决对象识别或超分辨率图像处理任务时,以对装置的硬件部分的适应的形式来实现对给定用户设备的本地条件的适应,特别是对其中提供的相机的特征的适应,或者当将要解决语音识别任务时,以对装置中包括的一个或更多个麦克风的特征的适应的形式来实现对给定用户设备的本地条件的适应。当将要解决语音识别任务时,可以基于识别的用户兴趣(例如,在当用户键入消息时的词语预测中)或者基于该特定用户的语音来实现对用户的适应。
为了解决上述问题,可以通过在用户设备中执行训练算法来实现人工智能系统的适应。然而,反过来,这种解决方案涉及其他问题,其中,所述其他问题在于:在用户装备内执行模型的充分训练的数据量不足、以及缺乏在远程服务器中收集每个给定用户的用户数据的可能性(特别地,鉴于上述用户个人数据安全和隐私顾虑)。
反过来,这些问题目前在上述现有技术中借助于多个不同用户设备中的人工智能模型的分布式“后续训练”(也可以被表征为一种“微调”,在下文中称为训练或后续训练)被解决。然而,如上所示,该领域中的现有技术解决方案具有以下相关问题:1)当模型适应于特定用户时,人工智能模型的这种“后续训练”可能导致“过度拟合”或“遗忘”最初包括在模型中的所有数据的情况;2)用户、他们的设备和他们的环境可能太不同而不能够在多个装置中实现模型的这种分布式“后续训练”;以及3)由于通过网络连接的数据传输的高昂费用,这种方法是昂贵的。
所要求保护的发明是针对现有技术的上述问题而产生的。提出了用于解决现有技术的上述问题的将在下面的本发明的具体实施方式中更详细地描述的以下方式。
1)为了防止“过度拟合”并保证个人数据安全性和用户隐私,在模型训练中使用少量初始训练数据。
2)将用户分组成不同的组,以获得每个用户组的新的个性化模型。
3)在分布式模型训练的过程中,收集关于上述考虑在每个用户设备中训练的模型,而不是如上面讨论的最接近的现有技术类似物中的梯度。
考虑到上述考虑,由所要求保护的发明实现的目的在于改善个性化人工智能模型训练的质量并防止其“过度拟合”,同时减少通过网络连接的数据传输的费用。本发明基本上旨在提供一种用于在不需要收集用户的任何个人数据的情况下基于用户的数据连续更新机器学习模型的具有通过网络连接的数据传输的低费用、改善的模型持久性及其频繁更新的方式。
首先,在模型训练中使用少量的初始训练数据,这允许基于新获得的数据来防止模型的“过度拟合”(“遗忘”初始信息)。然后,每个用户在若干时段期间在他们自己的用户设备上训练模型,并将更新的机器学习模型发送到服务器,其中,在所述服务器中,从用户设备获取的模型被平均。因此,每个终端用户连续地接收以基于由多个用户产生的数据适应的更准确的机器学习模型的形式的更新。由此,每个用户设备中的相应应用中的人工智能特征变得更准确。此外,保证了例如以照片、消息、文本文件、到网页的链接、声音数据(由用户设备的麦克风捕获的)等形式存储的每个用户的个人数据的安全性。防止训练的模型“遗忘”在公共可用数据上训练模型时获得的初始信息。
根据本发明,基于公共可用数据在服务器中训练用于包括人工智能(AI)特征的软件应用的初始机器学习(ML)模型。初始ML模型由用户设备提供,或者当用户设备在初始训练处理中与通信网络通信时被安装。然后,存在等待时段,直到用户在用户设备中使用包括人工智能特征的应用的过程中产生了足够量的数据以使得能够适应机器学习模型为止。
根据用户产生的数据和可以访问的其他信息(诸如,例如用户设备的品牌和型号)来识别适合于该用户和用户设备的机器学习模型类型。作为示例而非限制,出于机器学习模型适应的目的,基于识别的机器学习模型类型和/或用户设备的类型、品牌或型号和/或基于在所述等待时段期间用户产生的数据确定的用户兴趣来形成个性化组。
根据识别的机器学习模型类型,服务器将机器学习模型的当前版本发送到用户设备。在这种情况下,在优选实施例中,机器学习模型的特定版本仅被发送给相应个性化组内的用户。
为了提高个人数据安全性,将来自初始数据集的用于模型的初始训练的公共可用数据的一部分发送给用户。这还防止机器学习模型在特定用户数据上“过度拟合”模型的情况下“遗忘”初始数据。然后,使用从服务器发送到用户设备的ML模型作为初始模型,在用户设备中执行模型训练。在该阶段,执行训练,直到例如在一个个性化组内实现了不同用户设备之间的模型收敛或者直到实现了特定预定的最大训练迭代次数为止。
完成ML模型训练的每个用户设备将其训练的ML模型发送到服务器(诸如中央服务器和/或模型聚合服务器)。在不同用户设备(例如,在一个个性化组内)中训练的个性化模型在所述服务器处被聚合。例如通过创建平均模型来实现聚合。作为聚合的结果,获得特定类型的新版本的模型。该新版本的模型被发送到相应个性化组内的用户设备。
向用户发送来自初始数据集的用于模型的初始训练的公共可用数据的一部分的上述操作有利地防止了模型在用户设备中的新数据上“过度拟合”,并且通过防止例如在发送到服务器的个性化ML模型被拦截的情况下第三方识别表征用户个性的数据来保证用户隐私。将初始训练数据的一部分发送到每个用户设备,并且在每个用户设备中通过对在该用户设备中收集的数据和发送到用户设备的所述初始数据进行组合来执行ML模型训练的过程。与初始训练数据量相比,用户设备中的ML模型适应仅涉及可用用户数据的小部分。
在缺少在ML模型训练处理中添加初始训练数据的一部分的操作的常规解决方案中,这导致在特定时间在给定用户设备中的ML模型“过度拟合”),其特点是ML模型“遗忘”之前存储在ML模型中的所有信息。因此,如果由用户键入的消息的上下文与用于训练个性化的机器学习模型的数据先前在该用户设备中被收集的那些频繁上下文不同,则这种“过度拟合”模型不能够例如在消息应用中使用“虚拟键盘”的场景中基于用户输入来恰当地预测词语。
在所要求保护的解决方案的优选实施方式中,来自初始数据集的数据量和来自用于给定用户设备中的ML模型训练的用户产生的数据集的数据量以1:1的比率被获取。这在ML模型训练中提供了新数据(即,由给定用户设备的用户产生的数据)与初始数据(从服务器获得的数据)之间的最佳平衡。以这种方式,ML模型在不“遗忘”初始信息的情况下“获取”新信息。如果所述比率是例如1:2,则平衡将朝向“新”数据(用户产生的数据)移动,这将导致“遗忘”初始数据。然而,应当理解,本发明的范围不限于在本发明的优选实施例中使用所述比率,并且在本发明的其他实施例中,例如,基于表征每个给定用户的“行为”的特定标准,所述比率对于不同的用户可以是不同的。例如,在本发明的特定实施例中,不同的用户可以基于他们产生的数据在ML模型训练中(例如,在特定个性化组内)的“贡献”而被分配不同的系数。
为了基于由给定用户设备的用户产生的数据和初始训练数据集的数据两者来获得这种“组合”模型,可以使用本领域已知的任何机器学习过程。作为示例,下面的参考文献描述了适合于在本发明的上下文中使用的机器学习过程:
Bishop,C.M.(2006)“Pattern recognition and Machine Learning”,SpringerScience,第232-272页;Mozer,M.C.(1995)。“A Focused Backpropagation Algorithm forTemporal Pattern Recognition”。在Chauvin,Y.;Rumelhart,D.Backpropagation:Theory,architectures,and applications。ResearchGate.Hillsdale,NJ:LawrenceErlbaum Associates,第137-169页。
在特定个性化组内,在优选实施例中,在用户设备中执行ML模型训练,直到在用户设备中满足训练停止条件为止(诸如在用户设备中实现了ML模型收敛ML)。之后,训练的ML模型被发送到服务器,其中,它们在服务器被聚合(作为非限制性示例,通过对ML模型求平均)。
可选地或另外地,ML模型训练停止标准可以包括由ML模型实现了预定的ML模型质量特征值(其可以根据预测准确度或依据任务来表示):因此,可以在预测下一词语的任务中评估词语预测的准确度;在识别手写文本等的任务中,可以评估文本识别的文字准确度或词语准确度。基于上面提供的示例,依据模型将要解决的任务,用于评估ML模型质量的不同方法对于本领域技术人员来说可能是显而易见的。
模型可以不完全地而仅部分地被发送到服务器:其改变相对于先前迭代没有超过特定预定阈值的那些模型参数可以不被发送到服务器。在这种情况下,平均将使用来自模型的先前迭代的参数值。可以例如基于对ML模型准确度的要求与对通过用户设备和服务器之间的网络连接传输的数据量的限制之间的权衡,确定用于做出将ML模型从用户设备发送到服务器的决定的阈值。
可以例如基于模型平均来更新个性化模型。
本发明人建议在用户设备中执行ML模型训练直到满足预定训练停止标准中的任何一个为止,而不是如在上面讨论的现有技术类似物的情况下,计算和发送用于随机梯度下降的梯度。作为示例,标准可以是预定最大数量的ML模型训练时段的实现或根据优化过程的特定模型收敛的实现。作为上述标准的可选或补充,可以由本领域技术人员在阅读本发明的公开内容时设想的其他ML模型训练停止标准是可能的。
这减少了对于为了实现分布式ML模型训练的处理而通过用户设备和服务器之间的网络连接进行数据通信的需求,从而降低了用户的经济成本。
在本发明的一些实施例中,分布式ML模型训练可以进一步提高所训练的模型预测稀有词语、事件或对象的效率。这可以通过修改训练标准来实现。这是由于以下事实:在参与分布式ML模型训练的大多数用户设备中,稀有类别(词语、对象等)相对很少出现,这导致ML模型训练处理忽略它们,并且因此带来针对这些类别的不良预测结果。如果新标准对具有低发生概率的这些类别敏感,则修改ML模型训练标准可以有效地克服该问题。
作为示例,在标准的训练标准中,可以命名例如真实类别分布(p)和由给定模型分配给类别的分布(q)之间的交叉熵损失函数。该标准可以通过下面提供的以下表达式来说明:
[数学式1]
Figure BDA0003114471200000101
本发明建议在训练中使用新标准,其中,所述新标准是所述p和q之间的交叉熵以及q和p之间的Kullback-Leibler距离的总和:
[数学式2]
Figure BDA0003114471200000102
在数学式2中,在真实概率p(w)的附加估计显著低于q(w)的情况下,将惩罚因子应用于q(w)模型的预测。可以使用本领域技术人员已知的技术从被训练用于将真实数据与从模型q(w)选择的数据分离的判别算法获取估计值p(w)。这种方法的使用使得在比率类别的情况下的预测准确度能够提高高达1.5%,并且导致预测准确度总体提高高达0.2%。
根据所要求保护的方法的上述操作,用户具体地根据以下标准被分组在各种个性化组中:用户产生的文本消息的主题、用户地理位置、用户年龄、运行一个或更多个软件应用的硬件的类型、使用一个或更多个人工智能特征的硬件的类型。将理解,将用户分组到个性化组中的上述标准仅是非限制性示例。并且,本领域技术人员将理解,作为上述标准的替代或补充,将用户分组到个性化组中的其他标准也是可能的。此外,可以基于例如以下项将用户分组到个性化组中:
-用户设备的技术参数:屏幕尺寸、RAM尺寸、处理器类型等;
-用户设备的地理位置;
-用户产生的数据内容,例如,在网页上(喜欢、评论、回复、发帖、公开等);
-人口统计元数据(用户性别、年龄、婚姻状况、国籍)。
根据本发明,不同组的用户或用户设备具有单独的ML模型是有利的。为了识别给定用户设备的用户应当被分配到的个性化组,可以在用户设备中实现分类模块。以下项中的至少一个(但不限于)可以用作分类模块的输入数据:
-用户设备中的用户产生的数据;
-用户设备模型;
-用户相关的人口统计数据;
-地理位置标签等。
个性化组的数量可以被手动定义或通过任何合适的聚类方法被定义。每个个体化组与一个ML模型或一个ML模型类型相应。
与特定相应组相关的模型将具有比所有组公用的模型更高的准确度。因此,作为非限制性示例,在他们的移动装置中的不同应用中经由文本消息讨论与科学和技术相关的主题的用户当在他们的用户设备中键入消息时将在他们的主题中获得更准确的词语预测,这是因为他们的用户设备中的个性化ML模型将仅基于从具有类似兴趣的用户获取的数据。
来自在公共个性化组中被组合的用户的多个ML模型的聚合解决了小ML模型训练数据集大小的问题。然而,同时,从为每个用户个性化组产生和更新单独的ML模型的意义上说,ML模型保持个性化。结果是,给定个性化组内的用户基于他们的兴趣、习惯、细节和/或他们的硬件和/或软件的特征来获得更准确的个性化ML模型。
在本发明的实施例中,可以向不同的用户提供具有不同架构(不同的机器学习算法)的模型,并且可以基于模型训练的结果来识别具有最佳架构的模型。为此目的,可以在服务器侧提供附加单元以产生新的ML模型架构和针对这些模型的超参数。如果需要,还可以通过包括允许在用户产生的数据上测试新的ML模型的附加功能来扩展任何AI系统。
本发明在标准无线通信网络架构中实现,并且包括在服务器侧的硬件和/或软件装置以及在用户设备侧的硬件和/或软件装置。作为非限制性示例,服务器侧装置可以包括执行以下操作的单元和/或模块:提供初始ML模型;在服务器处初始化机器学习(ML)模型;将ML模型分布(发送)在通过通信网络连接到服务器的一个或更多个用户设备(UE)中;将初始样本的训练数据从服务器发送到一个或更多个UE;从所述一个或更多个UE接收在一个或更多个UE上训练的ML模型;通过对从所述一个或更多个UE接收的训练的ML模型求平均来在服务器处更新个性化ML模型。上述块和/或模块被配置为将由其执行的操作重复依据上述操作必须被重复的次数而必需的任何次数,以便获得具有所需准确度和效率的一个或更多个个性化ML模型。
在用户设备侧,也使用特定硬件和/或软件模型和/或单元来实现本发明。作为非限制性示例,提供使得用户能够控制UE的用户界面的用户界面产生单元可以被提供。UE可以包括各种输入/输出工具,诸如但不限于触摸屏、一个或更多个键、一个或更多个麦克风、一个或更多个相机和/或摄像机、定位系统信号接收器(诸如GPS、GLONASS、GALILEO等)、用于确定用户设备和/或其环境的物理参数(诸如用户设备的空间位置、温度、照度等级等)的一个或更多个传感器、一个或更多个扬声器。本领域技术人员将理解,上述I/O工具列表仅作为说明性示例而不是限制性示例被提供,并且可以依据用户设备的具体实现来提供上述和/或任何其他I/O工具的任何合适的组合。
此外,可以在用户设备中提供用于文本识别、手写输入识别、图像分析、图像中的对象识别、指纹识别、将语音输入转换为文本、自然语言的语法和/或统计分析、以自然语言产生文本、将文本转换为语音输出等的各种单元和/或模块。应当理解,允许通过I/O工具处理在用户设备中输入的数据的可能单元和/或模块的该列表不是限制性的,并且除了前述工具之外或作为前述工具的替代,可以依据所要求保护的发明的具体实现提供用于处理输入数据和/或处理用于输出的数据的其他工具。
所述数据处理单元和/或模块将从通过I/O工具接收的用户输入推导出的数据发送到一个或更多个AI特征中,其中,所述AI特征在用户设备上运行的一个或更多个软件应用中实现一个或更多个机器学习(ML)模型。一个或更多个ML模型从数据处理单元和/或模块接收所述数据,并且使用这些数据,具体地,响应于从用户接收的数据产生输出,以及用于自身的训练。因此,例如,响应于借助于屏幕键盘或一个或更多个键的用户文本输入,ML模型可以以用户可能希望在文本消息键入窗口中键入的词语或短语的一个或更多个变形的形式建议用户输入预测的变形。在ML模型用于识别图像中的对象的实现中,响应于来自用户设备的相机的图像,ML模型可以在用户设备的屏幕上输出文本,其中,该文本具有由输入图像中的ML模型识别出的对象的名称的一个或更多个变形。在识别用户语音输入的实现中,ML模型可以将语音输入数据转换为可以被进一步分析(例如,解析)的自然语言的文本,之后,如果用户语音输入被识别为对访问一个或更多个搜索引擎的应用和/或访问地理地图的应用、显示的用户位置、产生的导航路线等的搜索查询,则ML模型以在屏幕上输出的文本消息的形式输出数据,其中,该文本消息对用户语音输入、来自搜索引擎的在用户设备的屏幕上的搜索结果输出和/或在地理地图上的搜索结果输出进行重复。响应于以在触摸屏表面上移动的一个或更多个手指或笔的形式的用户输入,ML模型可以基于用户输入来输出一个或更多个识别的字符、词语或句子的建议变形。
应当注意,一个或更多个ML模型可以通过软件装置(诸如以一种或多种编程语言或以可执行代码的形式实现的计算机程序和/或一个或更多个计算机程序元件、计算机程序模块、计算机程序产品等)来实现。此外,根据本发明,一个或更多个ML模型可以使用不同的硬件装置(诸如现场编程门阵列(FPGA)、集成电路等)来实现。依据所要求保护的发明的给定实现,适合于实现一个或更多个ML模型的软件和/或硬件装置的各种特定示例对于本领域技术人员将是显而易见的。
服务器与UE之间的通信可以由本领域已知的执行数据发送和接收、编码和解码、加扰、加密、转换等的一个或更多个单元提供。UE与服务器之间的通信可以借助于基于本领域技术人员已知的任何无线通信技术(诸如GSM、3GPP、LTE、LTE-A、CDMA、ZigBee、Wi-Fi、机器类型通信(MTC)、NFC等)或基于本领域技术人员已知的任何有线通信技术操作的一个或更多个通信网络来实现。用于服务器和UE之间的数据发送和接收的装置不限制本发明的范围,并且依据本发明的给定实现,本领域技术人员可以想到用于数据发送和接收的一个或更多个装置的组合。
在本发明的一个或更多个实施例中还可以提供ML模型评估模块。特别地,这样的模块可以存在于服务器中。基于对由服务器从各种用户设备接收的ML模型的评估,来自各种用户设备的ML模型可以被分配不同的权重。优选地,在从用户设备收集的一个或更多个ML模型所属的每个给定个性化组内评估一个或更多个ML模型的质量。基于所述评估,可以将权重分配给ML模型,根据该权重,可以通过考虑分配的权重对从一个或更多个UE接收的ML模型求平均来在服务器中进一步更新个性化ML模型。在本发明的实施例中,依据所要求保护的发明的特定实现,求平均可以不使用从用户设备收集的所有ML模型(例如在给定的个性化组内),而仅使用权重高于特定预定阈值或在由上限阈值和下限阈值定义的特定范围内或最接近特定预定值的模型。
本发明的操作已经针对用于预测移动电话的屏幕键盘中的下一词语的模型的分布式后续训练的特定情况进行了实验测试。来自维基百科网站的文本在实验中用作对初始模型进行训练的模型数据。在虚拟服务器(在下文中称为VS)中训练初始模型。来自Twitter数据集的消息被用作模型用户数据。Twitter文本随机分布在代表移动装置的虚拟节点(在下文中称为VN)之间。然后,将初始模型与来自维基百科的初始数据的一部分一起发送到VN。来自Twitter和维基百科的数据部分以1:1的比例(各10千字节)在VN中被使用。在所得到的20K字节的文本上运行递归神经网络训练算法直到实现收敛为止,之后在每个VN上训练的模型被发送到VS,其中,它们在VS被平均。在VS中更新模型并重复该处理,其中,在每个VN中更新Twitter数据部分以模拟由用户键入的新消息集。
测试表明,在上述算法的300次迭代之后,Twitter文本上的根据击键的平均数被评估的下一词语预测的质量提高了8.5个百分点。同时,对维基百科文本的预测质量保持几乎相同,这表明防止了“遗忘”。
此外,根据差分隐私测量的隐私等级保证被实验地测试。隐私等级的实验评估指出,用户数据公开的概率低,并且至少不比其他类似的分布式训练方法的情况下的概率更差。
下面将在仅通过示例而非限制的方式提供的说明性实施例中解释本发明的操作。
现在将讨论根据本发明的上述方面中的第一方面的用于分布式人工智能(AI)机器学习(ML)模型训练的方法的操作序列。
根据本发明的方法,在步骤S1,在服务器中初始化一个或更多个机器学习(ML)模型。初始化可以包括基于作为公共可用数据的初始训练数据集来训练所述一个或更多个ML模型。
然后,在步骤S2,在通过通信网络连接到服务器的一个或更多个用户设备(UE)之间分布初始化的所述一个或更多个ML模型。可以通过使用无线通信领域中已知的任何方式将所述一个或更多个ML模型的数据从服务器发送到一个或更多个UE来实现分布。作为可选,ML模型也可以通过其他方式(特别地,经由有线网络)被分布在便携式计算机可读介质等上。
在步骤S3,在一个或更多个UE中的每一个中对借助于用户输入的用户产生的数据进行收集。数据由用户在使用安装在UE中的一个或更多个软件应用的过程中以及在经由一个或更多个通信网络等发送消息、进行呼叫的处理中产生。作为示例,将被训练的ML模型可以被配置为当用户在UE中输入文本消息时预测词语和短语。在步骤S3收集的用户产生的数据可以是例如用户在键入文本消息、帖子、注释等时输入的词语和短语。作为另一示例,ML模型可以被配置为识别从UE的一个或更多个相机获取的图像中的对象。在这种情况下,用户产生的数据是用户借助于在UE中提供的一个或更多个相机或摄像机产生的图像、以及用户分配给图像中存在的对象的标签。除了来自UE的一个或更多个相机的图像之外,还可以通过ML模型在由UE从其他源(例如,经由通信网络从其他用户或通过浏览网站)获取的图像中执行对象识别。
在另一示例中,ML模型可以被配置为识别经由UE的触摸屏和/或UE的触摸板从用户接收的手写输入。在这种情况下,用户产生的数据可以是用户例如借助于一个或更多个手指或笔在触摸屏和/或触摸板上执行的手写输入以及对由ML模型基于来自用户的手写输入而建议的字符和/或词语的变形的用户选择,其中,当执行相应的软件应用时,UE在屏幕上显示所述建议的字符和/或词语的变形。
在另一示例中,ML模型可以被配置为借助于UE中提供的一个或更多个麦克风来识别从用户接收的语音输入,其中,用户产生的数据是所述语音输入和/或对由ML模型基于来自用户的语音输入而建议的词语和/或短语的变形的用户选择,其中,当执行相应的软件应用时,UE在屏幕上显示所述建议的词语和/或短语的变形。
在又一示例中,ML模型可以被配置为识别UE的环境的一个或更多个特征和/或一个或更多个用户动作。UE的环境的特征可以是但不限于时间、日期、工作日、照度等级、空气温度、空气湿度等级、UE的地理位置、UE的空间位置。用户产生的数据是到UE中的一个或更多个软件应用的用户输入。在该示例中,ML模型可以向用户建议例如用于控制UE中的不同软件应用的不同动作,并且/或者在特定软件应用中自动发起特定动作。
用户产生的数据在预定的数据收集时段期间在UE中收集。当UE中收集的用户数据达到预定量时,UE可以向服务器发送必要的数据量已经被收集的消息。
在步骤S4,服务器向UE发送训练数据,其中,所述训练数据是在ML模型的初始训练中在步骤S1已经被使用的初始数据集的一部分。这些数据是公开可用的,并且不表征任何特定用户。初始数据集参与ML模型训练保证了用户个人数据安全,并防止了UE中ML模型的“过度拟合”。
然后,在步骤S5,基于收集的数据和所述训练数据在一个或更多个UE中的每一个中训练ML模型,直到满足训练停止标准为止。作为非限制性示例,训练停止标准可以是在一个或更多个UE中实现了ML模型收敛、或者由ML模型实现了预定的ML模型质量特征值、或者当实现了预定数量的ML模型训练时段时。
在步骤S6,在服务器处从所述一个或更多个UE获得训练的ML模型。该操作包括借助于无线通信网络将在各个UE中训练的ML模型发送到例如服务器。服务器收集在不同UE中训练的ML模型。
在步骤S7,服务器通过对从一个或更多个UE获取的训练的ML模型求平均来更新ML模型。作为非限制性示例,所述ML模型更新可以在于在服务器处对从一个或更多个UE获取的个性化ML模型进行聚合。作为聚合的结果,提供了基于在一个或更多个UE中训练并在服务器处收集的个性化ML模型的新版本的ML模型。
在步骤S8,由服务器将通过求平均提供的新版本的ML模型发送到一个或更多个UE。作为非限制性示例,该发送由公知的无线通信网络装置执行。
步骤S3-S8可以重复一次或更多次(例如,直到获得满足一个或更多个ML模型质量标准的ML模型为止)。这利用基于来自不同UE的用户产生的数据的和在服务器处的ML模型的初始训练中使用的初始数据集的“后续训练”产生了个性化ML模型。
在本发明的至少一个实施例中,该方法还可以包括以下步骤:基于在一个或更多个UE中的每个UE中收集的用户产生的数据,针对所述一个或更多个UE中的每个UE的用户识别一个或更多个个性化组。此外,根据所述至少一个实施例,该方法包括:在服务器处将从所述一个或更多个UE获取的ML模型分组到个性化组中;以及将分组到个性化组中的更新的ML模型仅发送到给定个性化组内的UE。因此,实现了训练的ML模型的附加个性化,并且提高了针对不同用户组的ML模型的准确性。
图4是示出根据各种实施例的网络环境400中的电子装置(例如,一个或更多个UE)401的框图。参照图4,网络环境400中的电子装置401可经由第一网络498(例如,短距离无线通信网络)与电子装置402进行通信,或者经由第二网络499(例如,长距离无线通信网络)与电子装置404或服务器408进行通信。根据实施例,电子装置401可经由服务器408与电子装置404进行通信。根据实施例,电子装置401可包括处理器420、存储器430、输入装置450、声音输出装置455、显示装置460、音频模块470、传感器模块476、接口477、触觉模块479、相机模块480、电力管理模块488、电池489、通信模块490、用户识别模块(SIM)496或天线模块497。在一些实施例中,可从电子装置401中省略上述部件中的至少一个(例如,显示装置460或相机模块480),或者可将一个或更多个其它部件添加到电子装置401中。在一些实施例中,可将上述部件中的一些部件实现为单个集成电路。例如,可将传感器模块476(例如,指纹传感器、虹膜传感器、或照度传感器)实现为嵌入在显示装置460(例如,显示器)中。
处理器420可运行例如软件(例如,程序440)来控制电子装置401的与处理器420连接的至少一个其它部件(例如,硬件部件或软件部件),并可执行各种数据处理或计算。根据一个实施例,作为所述数据处理或计算的至少部分,处理器420可将从另一部件(例如,传感器模块476或通信模块490)接收到的命令或数据加载到易失性存储器432中,对存储在易失性存储器432中的命令或数据进行处理,并将结果数据存储在非易失性存储器434中。根据实施例,处理器420可包括主处理器421(例如,中央处理器(CPU)或应用处理器(AP))以及与主处理器421在操作上独立的或者相结合的辅助处理器423(例如,图形处理单元(GPU)、图像信号处理器(ISP)、传感器中枢处理器或通信处理器(CP))。另外地或者可选择地,辅助处理器423可被适配为比主处理器421耗电更少,或者被适配为具体用于指定的功能。可将辅助处理器423实现为与主处理器421分离,或者实现为主处理器421的部分。
在主处理器421处于未激活(例如,睡眠)状态时,辅助处理器423(而非主处理器421)可控制与电子装置401的部件之中的至少一个部件(例如,显示装置460、传感器模块476或通信模块490)相关的功能或状态中的至少一些,或者在主处理器421处于激活状态(例如,运行应用)时,辅助处理器423可与主处理器421一起来控制与电子装置401的部件之中的至少一个部件(例如,显示装置460、传感器模块476或通信模块490)相关的功能或状态中的至少一些。根据实施例,可将辅助处理器423(例如,图像信号处理器或通信处理器)实现为在功能上与辅助处理器423相关的另一部件(例如,相机模块480或通信模块490)的部分。
存储器430可存储由电子装置401的至少一个部件(例如,处理器420或传感器模块476)使用的各种数据。所述各种数据可包括例如软件(例如,程序440)以及针对与其相关的命令的输入数据或输出数据。存储器430可包括易失性存储器432或非易失性存储器434。
可将程序440作为软件存储在存储器430中,并且程序440可包括例如操作系统(OS)442、中间件444或应用446。
输入装置450可从电子装置401的外部(例如,用户)接收将由电子装置401的其它部件(例如,处理器420)使用的命令或数据。输入装置450可包括例如麦克风、鼠标、键盘或数字笔(例如,手写笔)。
声音输出装置455可将声音信号输出到电子装置401的外部。声音输出装置455可包括例如扬声器或接收器。扬声器可用于诸如播放多媒体或播放唱片的通用目的,受话器可用于呼入呼叫。根据实施例,可将受话器实现为与扬声器分离,或实现为扬声器的部分。
显示装置460可向电子装置401的外部(例如,用户)视觉地提供信息。显示装置460可包括例如显示器、全息装置或投影仪以及用于控制显示器、全息装置和投影仪中的相应一个的控制电路。根据实施例,显示装置460可包括被适配为检测触摸的触摸电路或被适配为测量由触摸引起的力的强度的传感器电路(例如,压力传感器)。
音频模块470可将声音转换为电信号,反之亦可。根据实施例,音频模块470可经由输入装置450获得声音,或者经由声音输出装置455或与电子装置401直接(例如,有线地)连接或无线连接的外部电子装置(例如,电子装置402)的耳机输出声音。
传感器模块476可检测电子装置401的操作状态(例如,功率或温度)或电子装置401外部的环境状态(例如,用户的状态),然后产生与检测到的状态相应的电信号或数据值。根据实施例,传感器模块476可包括例如手势传感器、陀螺仪传感器、大气压力传感器、磁性传感器、加速度传感器、握持传感器、接近传感器、颜色传感器、红外(IR)传感器、生物特征传感器、温度传感器、湿度传感器或照度传感器。
接口477可支持将用来使电子装置401与外部电子装置(例如,电子装置402)直接(例如,有线地)或无线连接的一个或更多个特定协议。根据实施例,接口477可包括例如高清晰度多媒体接口(HDMI)、通用串行总线(USB)接口、安全数字(SD)卡接口或音频接口。
连接端478可包括连接器,其中,电子装置401可经由所述连接器与外部电子装置(例如,电子装置402)物理连接。根据实施例,连接端478可包括例如HDMI连接器、USB连接器、SD卡连接器或音频连接器(例如,耳机连接器)。
触觉模块479可将电信号转换为可被用户经由他的触觉或动觉识别的机械刺激(例如,振动或运动)或电刺激。根据实施例,触觉模块479可包括例如电机、压电元件或电刺激器。
相机模块480可捕获静止图像或运动图像。根据实施例,相机模块480可包括一个或更多个透镜、图像传感器、图像信号处理器或闪光灯。
电力管理模块488可管理对电子装置401的供电。根据实施例,可将电力管理模块488实现为例如电力管理集成电路(PMIC)的至少部分。
电池489可对电子装置401的至少一个部件供电。根据实施例,电池489可包括例如不可再充电的原电池、可再充电的蓄电池、或燃料电池。
通信模块490可支持在电子装置401与外部电子装置(例如,电子装置402、电子装置404或服务器408)之间建立直接(例如,有线)通信信道或无线通信信道,并经由建立的通信信道执行通信。通信模块490可包括能够与处理器420(例如,应用处理器(AP))独立操作的一个或更多个通信处理器,并支持直接(例如,有线)通信或无线通信。根据实施例,通信模块490可包括无线通信模块492(例如,蜂窝通信模块、短距离无线通信模块或全球导航卫星系统(GNSS)通信模块)或有线通信模块494(例如,局域网(LAN)通信模块或电力线通信(PLC)模块)。这些通信模块中的相应一个可经由第一网络498(例如,短距离通信网络,诸如蓝牙、无线保真(Wi-Fi)直连或红外数据协会(IrDA))或第二网络499(例如,长距离通信网络,诸如蜂窝网络、互联网、或计算机网络(例如,LAN或广域网(WAN)))与外部电子装置进行通信。可将这些各种类型的通信模块实现为单个部件(例如,单个芯片),或可将这些各种类型的通信模块实现为彼此分离的多个部件(例如,多个芯片)。无线通信模块492可使用存储在用户识别模块496中的用户信息(例如,国际移动用户识别码(IMSI))识别并验证通信网络(诸如第一网络498或第二网络499)中的电子装置401。
天线模块497可将信号或电力发送到电子装置401的外部(例如,外部电子装置)或者从电子装置401的外部(例如,外部电子装置)接收信号或电力。根据实施例,天线模块497可包括天线,所述天线包括辐射元件,所述辐射元件由形成在基底(例如,PCB)中或形成在基底上的导电材料或导电图案构成。根据实施例,天线模块497可包括多个天线。在这种情况下,可由例如通信模块490(例如,无线通信模块492)从所述多个天线中选择适合于在通信网络(诸如第一网络498或第二网络499)中使用的通信方案的至少一个天线。随后可经由所选择的至少一个天线在通信模块490和外部电子装置之间发送或接收信号或电力。根据实施例,除了辐射元件之外的另外的组件(例如,射频集成电路(RFIC))可附加地形成为天线模块497的一部分。
上述部件中的至少一些可经由外设间通信方案(例如,总线、通用输入输出(GPIO)、串行外设接口(SPI)或移动工业处理器接口(MIPI))相互连接并在它们之间通信地传送信号(例如,命令或数据)。
根据实施例,可经由与第二网络499连接的服务器408在电子装置401和外部电子装置404之间发送或接收命令或数据。电子装置402和电子装置404中的每一个可以是与电子装置401相同类型的装置,或者是与电子装置401不同类型的装置。根据实施例,将在电子装置401运行的全部操作或一些操作可在外部电子装置402、外部电子装置404或服务器408中的一个或更多个运行。例如,如果电子装置401应该自动执行功能或服务或者应该响应于来自用户或另一装置的请求执行功能或服务,则电子装置401可请求所述一个或更多个外部电子装置执行所述功能或服务中的至少部分,而不是执行所述功能或服务,或者电子装置401除了执行所述功能或服务以外,还可请求所述一个或更多个外部电子装置执行所述功能或服务中的至少部分。接收到所述请求的所述一个或更多个外部电子装置可执行所述功能或服务中的所请求的所述至少部分,或者执行与所述请求相关的另外功能或另外服务,并将执行的结果传送到电子装置401。电子装置401可在对所述结果进行进一步处理的情况下或者在不对所述结果进行进一步处理的情况下将所述结果提供作为对所述请求的至少部分答复。为此,可使用例如云计算技术、分布式计算技术或客户机-服务器计算技术。
根据各种实施例的电子装置可以是各种类型的电子装置之一。电子装置可包括例如便携式通信装置(例如,智能电话)、计算机装置、便携式多媒体装置、便携式医疗装置、相机、可穿戴装置或家用电器。根据本公开的实施例,电子装置不限于以上所述的那些电子装置。
应该理解的是,本公开的各种实施例以及其中使用的术语并不意图将在此阐述的技术特征限制于具体实施例,而是包括针对相应实施例的各种改变、等同形式或替换形式。对于附图的描述,相似的参考标号可用来指代相似或相关的元件。将理解的是,与术语相应的单数形式的名词可包括一个或更多个事物,除非相关上下文另有明确指示。如这里所使用的,诸如“A或B”、“A和B中的至少一个”、“A或B中的至少一个”、“A、B或C”、“A、B和C中的至少一个”以及“A、B或C中的至少一个”的短语中的每一个短语可包括在与所述多个短语中的相应一个短语中一起列举出的项的任意一项或所有可能组合。如这里所使用的,诸如“第1”和“第2”或者“第一”和“第二”的术语可用于将相应部件与另一部件进行简单区分,并且不在其它方面(例如,重要性或顺序)限制所述部件。将理解的是,在使用了术语“可操作地”或“通信地”的情况下或者在不使用术语“可操作地”或“通信地”的情况下,如果一元件(例如,第一元件)被称为“与另一元件(例如,第二元件)结合”、“结合到另一元件(例如,第二元件)”、“与另一元件(例如,第二元件)连接”或“连接到另一元件(例如,第二元件)”,则意味着所述一元件可与所述另一元件直接(例如,有线地)连接、与所述另一元件无线连接、或经由第三元件与所述另一元件连接。
如这里所使用的,术语“模块”可包括以硬件、软件或固件实现的单元,并可与其他术语(例如,“逻辑”、“逻辑块”、“部分”或“电路”)可互换地使用。模块可以是被适配为执行一个或更多个功能的单个集成部件或者是该单个集成部件的最小单元或部分。例如,根据实施例,可以以专用集成电路(ASIC)的形式来实现模块。
可将在此阐述的各种实施例实现为包括存储在存储介质(例如,内部存储器436或外部存储器438)中的可由机器(例如,电子装置401)读取的一个或更多个指令的软件(例如,程序440)。例如,在处理器的控制下,所述机器(例如,电子装置401)的处理器(例如,处理器420)可在使用或无需使用一个或更多个其它部件的情况下调用存储在存储介质中的所述一个或更多个指令中的至少一个指令并运行所述至少一个指令。这使所述机器根据所调用的至少一个指令被操作以执行至少一个功能。所述一个或更多个指令可包括由编译器产生的代码或能够由解释器运行的代码。可以以非暂时性存储介质的形式来提供机器可读存储介质。其中,术语“非暂时性”仅意味着所述存储介质是有形装置,并且不包括信号(例如,电磁波),但是该术语并不在数据被半永久性地存储在存储介质中与数据被临时存储在存储介质中之间进行区分。
根据实施例,可在计算机程序产品中包括和提供根据本公开的各种实施例的方法。计算机程序产品可作为产品在销售者和购买者之间进行交易。可以以机器可读存储介质(例如,紧凑盘只读存储器(CD-ROM))的形式来发布计算机程序产品,或者可经由应用商店(例如,Play StoreTM)在线发布(例如,下载或上传)计算机程序产品,或者可直接在两个用户装置(例如,智能电话)之间分发(例如,下载或上传)计算机程序产品。如果是在线发布的,则计算机程序产品中的至少部分可以是临时产生的,或者可将计算机程序产品中的至少部分至少临时存储在机器可读存储介质(诸如制造商的服务器、应用商店的服务器或转发服务器的存储器)中。
根据各种实施例,上述部件中的每个部件(例如,模块或程序)可包括单个实体或多个实体。根据各种实施例,可省略上述部件中的一个或更多个部件,或者可添加一个或更多个其它部件。可选择地或者另外地,可将多个部件(例如,模块或程序)集成为单个部件。在这种情况下,根据各种实施例,该集成部件可仍旧按照与所述多个部件中的相应一个部件在集成之前执行一个或更多个功能相同或相似的方式,执行所述多个部件中的每一个部件的所述一个或更多个功能。根据各种实施例,由模块、程序或另一部件所执行的操作可顺序地、并行地、重复地或以启发式方式来执行,或者所述操作中的一个或更多个操作可按照不同的顺序来运行或被省略,或者可添加一个或更多个其它操作。

Claims (15)

1.一种用户设备(UE),包括:
通信电路,以及
至少一个处理器,其中,所述至少一个处理器被配置为:
(a)在数据收集时段期间,在所述UE中收集根据用户输入的用户产生的数据;
(b)经由通信电路从连接到电子装置的服务器接收训练数据,其中,所述训练数据包括来自初始数据集的公共可用数据的一部分;
(c)基于收集的数据和所述训练数据执行机器学习ML模型训练,直到满足训练停止标准为止,其中,所述训练停止标准包括以下项中的至少一项:在包括所述UE的一个或更多个UE中实现的ML模型的收敛、由ML模型实现的预定ML模型质量特征值或实现的预定数量的训练时段;
(d)经由通信电路将训练的ML模型发送到服务器;
(e)重复步骤(a)-(d)一次或更多次,直到获得满足一个或更多个ML模型质量标准的ML模型为止。
2.如权利要求1所述的方法,其中,所述至少一个处理器还被配置为:
基于在UE上收集的用户产生的数据来识别针对所述一个或更多个UE的用户的个性化组;
从服务器接收被分组到所述个性化组中的被包括在相应的个性化组中的更新的ML模型,其中,所述ML模型在服务器处被分组到至少一个个性化组中。
3.如权利要求1所述的方法,其中,ML模型被配置为:当用户在UE中输入文本消息时预测词语和短语,其中,所述用户产生的数据是由用户输入的词语和短语。
4.如权利要求1所述的方法,其中,ML模型被配置为:识别从UE的一个或更多个相机获取的图像中的对象,其中,所述用户产生的数据是来自UE的一个或更多个相机的图像和/或由用户分配给存在于所述图像中的对象的标签。
5.如权利要求1所述的方法,其中,ML模型被配置为:识别借助于UE的触摸屏和/或UE的触摸板从用户接收的手写输入,其中,所述用户产生的数据是所述手写输入和/或用户对由ML模型基于来自用户的所述手写输入建议的字符和/或词语的变形的选择。
6.如权利要求1所述的方法,其中,ML模型被配置为:识别由UE的一个或更多个麦克风从用户接收的语音输入,其中,所述用户产生的数据是所述语音输入和/或用户对由ML模型基于来自用户的所述语音输入建议的词语和/或短语的变形的选择。
7.如权利要求1所述的方法,其中,ML模型被配置为:识别UE的环境的一个或更多个特征和/或一个或更多个用户动作,其中,UE的环境的所述一个或更多个特征是UE的时间、日期、工作日、照度、温度、地理位置、空间位置中的一个或更多个,其中,所述用户产生的数据是在UE中的一个或更多个程序应用中的用户输入。
8.一种用于人工智能(AI)机器学习(ML)模型的分布式训练的方法,包括以下步骤:
(a)在数据收集时段期间,在一个或更多个UE中的每个UE中收集根据用户输入的用户产生的数据;
(b)从服务器接收训练数据,其中,所述训练数据包括来自初始数据集的公共可用数据的一部分;
(c)基于收集的数据和所述训练数据,在所述一个或更多个UE中的每个UE中执行ML模型训练,直到满足训练停止标准为止,其中,所述训练停止标准包括以下项中的至少一项:在所述一个或更多个UE中实现的ML模型的收敛、由ML模型实现的预定ML模型质量特征值或实现的预定数量的训练时段;
(d)将训练的ML模型从所述一个或更多个UE发送到服务器;
(e)重复步骤(a)-(d)一次或更多次,直到获得满足一个或更多个ML模型质量标准的ML模型为止。
9.如权利要求8所述的方法,还包括以下步骤:
基于在UE上收集的所述用户产生的数据来识别针对所述一个或更多个UE的用户的个性化组;
从服务器接收被分组到所述个性化组中的被包括在相应的个性化组中的更新的ML模型,其中,所述ML模型在服务器处被分组到至少一个个性化组中。
10.如权利要求8所述的方法,其中,ML模型被配置为:当用户在UE中输入文本消息时预测词语和短语,其中,所述用户产生的数据是由用户输入的词语和短语。
11.如权利要求8所述的方法,其中,ML模型被配置为:识别从UE的一个或更多个相机获取的图像中的对象,其中,所述用户产生的数据是来自UE的一个或更多个相机的图像和/或由用户分配给存在于所述图像中的对象的标签。
12.如权利要求8所述的方法,其中,ML模型被配置为:识别借助于UE的触摸屏和/或UE的触摸板从用户接收的手写输入,其中,所述用户产生的数据是所述手写输入和/或用户对由ML模型基于来自用户的所述手写输入建议的字符和/或词语的变形的选择。
13.如权利要求8所述的方法,其中,ML模型被配置为:识别由UE的一个或更多个麦克风从用户接收的语音输入,其中,所述用户产生的数据是所述语音输入和/或用户对由ML模型基于来自用户的所述语音输入建议的词语和/或短语的变形的选择。
14.如权利要求8所述的方法,其中,ML模型被配置为:识别UE的环境的一个或更多个特征和/或一个或更多个用户动作,其中,UE的环境的所述一个或更多个特征是UE的时间、日期、工作日、照度、温度、地理位置、空间位置中的一个或更多个,其中,所述用户产生的数据是在UE中的一个或更多个程序应用中的用户输入。
15.一种计算机可读介质,其中,所述计算机可读介质上存储有计算机程序,其中,所述计算机程序在由一个或更多个处理器执行时实现如权利要求1至7中的任一项所述的方法。
CN201980082850.1A 2018-12-14 2019-12-13 用于个性化的机器学习模型的分布式训练 Pending CN113228064A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
RU2018144318 2018-12-14
RU2018144318A RU2702980C1 (ru) 2018-12-14 2018-12-14 Распределённое обучение моделей машинного обучения для персонализации
PCT/KR2019/017707 WO2020122669A1 (en) 2018-12-14 2019-12-13 Distributed training of machine learning models for personalization

Publications (1)

Publication Number Publication Date
CN113228064A true CN113228064A (zh) 2021-08-06

Family

ID=68280175

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980082850.1A Pending CN113228064A (zh) 2018-12-14 2019-12-13 用于个性化的机器学习模型的分布式训练

Country Status (5)

Country Link
US (1) US20220058524A1 (zh)
EP (1) EP3895082A4 (zh)
CN (1) CN113228064A (zh)
RU (1) RU2702980C1 (zh)
WO (1) WO2020122669A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023065060A1 (en) * 2021-10-18 2023-04-27 Qualcomm Incorporated Reduced capability machine learning with assistance
WO2024092831A1 (zh) * 2022-11-04 2024-05-10 北京小米移动软件有限公司 信息处理方法及装置、通信设备及存储介质

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114287007A (zh) 2019-06-18 2022-04-05 摩洛科公司 用于提供机器学习服务的方法和系统
CN113162861A (zh) * 2020-01-23 2021-07-23 华为技术有限公司 一种基于模型训练的通信方法、装置及系统
WO2021213626A1 (en) * 2020-04-20 2021-10-28 Telefonaktiebolaget Lm Ericsson (Publ) First network node and method performed therein for handling data in a communication network
EP4183159A1 (en) * 2020-07-14 2023-05-24 Telefonaktiebolaget LM ERICSSON (PUBL) Managing a wireless device that is operable to connect to a communication network
EP4190010A1 (en) * 2020-08-03 2023-06-07 Nokia Technologies Oy Retrieval of trained ml model from ue
WO2022041285A1 (zh) * 2020-08-31 2022-03-03 华为技术有限公司 一种模型数据传输方法及通信装置
US20230422126A1 (en) * 2020-11-30 2023-12-28 Nokia Technologies Oy Make-before-break mobility of machine learning context
US20220190990A1 (en) * 2020-12-16 2022-06-16 Qualcomm Incorporated Network-configured training procedure
US20220237507A1 (en) * 2021-01-28 2022-07-28 Qualcomm Incorporated Sidelink-supported federated learning for training a machine learning component
US11908453B2 (en) 2021-02-10 2024-02-20 Direct Cursus Technology L.L.C Method and system for classifying a user of an electronic device
US20220287104A1 (en) * 2021-03-05 2022-09-08 Samsung Electronics Co., Ltd. Method and apparatus for support of machine learning or artificial intelligence techniques in communication systems
US20220400162A1 (en) * 2021-06-14 2022-12-15 Meta Platforms, Inc. Systems and methods for machine learning serving
WO2022265948A1 (en) * 2021-06-14 2022-12-22 Meta Platforms, Inc. Systems and methods for machine learning serving
WO2023277780A1 (en) * 2021-07-01 2023-01-05 Telefonaktiebolaget Lm Ericsson (Publ) Enabling downloadable ai
US20230093963A1 (en) * 2021-09-28 2023-03-30 Qualcomm Incorporated Artificial intelligence based enhancements for idle and inactive state operations

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150242760A1 (en) * 2014-02-21 2015-08-27 Microsoft Corporation Personalized Machine Learning System
WO2017176356A2 (en) * 2016-02-11 2017-10-12 William Marsh Rice University Partitioned machine learning architecture
CN107885762A (zh) * 2017-09-19 2018-04-06 北京百度网讯科技有限公司 智能大数据系统、提供智能大数据服务的方法和设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8429103B1 (en) * 2012-06-22 2013-04-23 Google Inc. Native machine learning service for user adaptation on a mobile platform
JP2016126759A (ja) * 2015-01-05 2016-07-11 アバウト タイム コーポレーション 端末内の情報分析に基づいたメッセージ提供方法、装置およびそれに対するコンピュータプログラム
US10452994B2 (en) * 2015-06-04 2019-10-22 International Business Machines Corporation Versioning of trained models used to deliver cognitive services
US11100423B2 (en) * 2016-01-27 2021-08-24 Microsoft Technology Licensing, Llc Artificial intelligence engine hosted on an online platform
WO2018125264A1 (en) * 2016-12-30 2018-07-05 Google Llc Assessing accuracy of a machine learning model
AU2018269941A1 (en) * 2017-05-14 2019-12-05 Digital Reasoning Systems, Inc. Systems and methods for rapidly building, managing, and sharing machine learning models
RU2673708C1 (ru) * 2017-07-17 2018-11-29 Акционерное общество "Лаборатория Касперского" Система и способ машинного обучения модели обнаружения вредоносных файлов
RU2686006C1 (ru) * 2018-05-18 2019-04-23 Общество с ограниченной ответственностью "Газпром проектирование" Способ и система информационного моделирования бизнес-процессов жизненного цикла производственного объекта

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150242760A1 (en) * 2014-02-21 2015-08-27 Microsoft Corporation Personalized Machine Learning System
WO2017176356A2 (en) * 2016-02-11 2017-10-12 William Marsh Rice University Partitioned machine learning architecture
CN107885762A (zh) * 2017-09-19 2018-04-06 北京百度网讯科技有限公司 智能大数据系统、提供智能大数据服务的方法和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TIMOTHY YANG ET AL.: "Applied Federated Learning: Improving Google Keyboard Query Suggestions", 《ARXIV》, 10 December 2018 (2018-12-10), pages 1 - 9 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023065060A1 (en) * 2021-10-18 2023-04-27 Qualcomm Incorporated Reduced capability machine learning with assistance
WO2024092831A1 (zh) * 2022-11-04 2024-05-10 北京小米移动软件有限公司 信息处理方法及装置、通信设备及存储介质

Also Published As

Publication number Publication date
EP3895082A1 (en) 2021-10-20
WO2020122669A1 (en) 2020-06-18
RU2702980C1 (ru) 2019-10-14
EP3895082A4 (en) 2022-06-08
US20220058524A1 (en) 2022-02-24

Similar Documents

Publication Publication Date Title
CN113228064A (zh) 用于个性化的机器学习模型的分布式训练
US10592783B2 (en) Risky transaction identification method and apparatus
CN109243432B (zh) 话音处理方法以及支持该话音处理方法的电子设备
US11031011B2 (en) Electronic device and method for determining electronic device to perform speech recognition
US20190156417A1 (en) Modeling method and device for evaluation model
CN109993150B (zh) 用于识别年龄的方法和装置
US11681756B2 (en) Method and electronic device for quantifying user interest
CN109961032B (zh) 用于生成分类模型的方法和装置
US11531835B2 (en) Electronic device for controlling predefined function based on response time of external electronic device on user input, and method thereof
US11861318B2 (en) Method for providing sentences on basis of persona, and electronic device supporting same
US20210056270A1 (en) Electronic device and deep learning-based interactive messenger operation method
KR20180081922A (ko) 전자 장치의 입력 음성에 대한 응답 방법 및 그 전자 장치
CN111209377B (zh) 基于深度学习的文本处理方法、装置、设备及介质
CN110046571B (zh) 用于识别年龄的方法和装置
WO2017088434A1 (zh) 人脸模型矩阵训练方法、装置及存储介质
CN114049892A (zh) 语音控制方法、装置以及电子设备
CN110008926B (zh) 用于识别年龄的方法和装置
CN110097004B (zh) 面部表情识别方法和装置
CN112862021B (zh) 一种内容标注方法和相关装置
US11308965B2 (en) Voice information processing method and apparatus, and terminal
CN111899747B (zh) 用于合成音频的方法和装置
KR20190099852A (ko) 문자를 인식하기 위한 전자 장치 및 방법
CN113782014A (zh) 语音识别方法及装置
CN112115740A (zh) 用于处理图像的方法和装置
US20220301553A1 (en) Electronic device and method for providing on-device artificial intelligence service

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination