CN106068520A - 个性化的机器学习模型 - Google Patents

个性化的机器学习模型 Download PDF

Info

Publication number
CN106068520A
CN106068520A CN201480067987.7A CN201480067987A CN106068520A CN 106068520 A CN106068520 A CN 106068520A CN 201480067987 A CN201480067987 A CN 201480067987A CN 106068520 A CN106068520 A CN 106068520A
Authority
CN
China
Prior art keywords
machine learning
learning model
user
client device
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201480067987.7A
Other languages
English (en)
Inventor
缪旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN106068520A publication Critical patent/CN106068520A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

机器学习可以针对个人计算设备的个体用户进行个性化,并且能够用于增加机器学习预测的精确性和速度,和/或降低存储器占用。对机器学习进行个性化可以包括选择机器学习模型的子集以载入到存储器中。这样的选择是至少部分地基于由个人计算设备本地地收集的信息的。对机器学习进行个性化可以另外地或可替代地包括,至少部分地基于由个人计算设备本地地收集的信息来调整机器学习模型的分类阈值。此外,对机器学习进行个性化可以另外地或可替代地包括至少部分地基于由个人计算设备本地地收集的信息来对可以由应用访问的机器学习模型的特征输出进行标准化。

Description

个性化的机器学习模型
背景技术
机器学习涉及可以从经验中自动地进行学习的各种算法。这些算法的基础是建立在数学和统计学上的,可以采用这些算法来对事件进行预测、对实体进行分类、对问题进行诊断、以及对函数近似进行建模等(仅指出若干示例)。尽管有各种产品可以用于将机器学习并入到计算机化的系统中,但是这些产品当前不能提供好的方法来对通用的机器学习模型进行个性化而不危及用户的个人或私人信息。例如,可以配置机器学习模型以供一般使用但不用于个体用户。这样的模型可以出于训练的目的而使用去标识的数据,但是不考虑个体用户的个人或私人信息。该情况可能会导致相对慢的运行速度和相对大的存储器占用。
发明内容
本公开部分地描述了用于个性化对个人计算设备的个体用户的机器学习而不危及个体用户的私人或个人信息的技术和架构。在本文中所描述的技术可以用于增加机器学习预测准确性和速度,并且降低存储器占用,除此之外还有其他益处。对机器学习进行个性化可以在个人计算设备上本地地执行,并且可以包括选择机器学习模型的子集以载入到存储器中。这样的选择可以是至少部分地基于由个人计算设备本地地收集的关于用户的信息的。对机器学习进行个性化可以另外地或可替代地包括,至少部分地基于由个人计算设备本地地收集的信息来调整机器学习模型的分类阈值。此外,对机器学习进行个性化可以另外地或可替代地包括,至少部分地基于由个人计算设备本地地收集的信息来对可以由应用访问的机器学习模型的特征输出进行标准化。
提供了本发明内容以用简化的形式引入在下文的具体实施方式中进一步描述的概念的选择。本发明内容不旨在标识所要求保护的主题的关键特征或本质特征,也不旨在用于帮助确定所要求保护的主题的范围。例如,术语“技术”可以指的是系统、方法、计算机可读指令、模块、算法、硬件逻辑(例如,现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD))、和/或由以上或本文档中通篇的上下文所允许的其他技术。
附图说明
参考附图描述了具体实施方式。在附图中,附图标记的最左边的数字标识了该附图标记第一次出现所在的图。不同的图中的相同的附图标记指示相似或相同的项。
图1是描绘了可以在其中实现在本文中所描述的技术的示例环境的框图。
图2是根据各种示例实施例的机器学习系统的框图。
图3是根据各种示例实施例的机器学习模型的框图。
图4示出了根据各种示例实施例的机器学习模型的支持向量的树的一部分。
图5是根据各种示例实施例的用于选择机器学习模型的子集以载入到存储器中的过程的流程图。
图6是根据各种示例实施例的关于分类阈值的特征测量的示意图。
图7是根据各种示例实施例的用于至少部分地基于由客户端设备本地地收集的信息来调整机器学习模型的分类阈值的过程的流程图。
图8示出了根据各种示例实施例的特征分布和聚合的特征分布。
图9示出了根据各种示例实施例的特征的标准化分布。
图10示出了根据各种示例实施例的关于标准化的聚合的特征分布的误算错误。
图11是根据各种示例实施例的用于至少部分地基于由客户端设备本地地收集的信息来对机器学习模型的特征输出进行标准化的过程的流程图。
具体实施方式
概述
在各种实施例中,技术和架构用于个性化对个人计算设备的个体用户的机器学习。例如,这样的个人计算设备(在下文中被称为客户端设备)可以包括台式计算机、膝上型计算机、平板计算机、移动通信设备、个人数字助理(PDA)、电子书阅读器、可穿戴计算机、车载设备、游戏设备等。能够个性化对客户端设备的个体用户的机器学习的客户端设备可以增加机器学习预测的准确性和速度。与非个性化机器学习的示例相比,个性化的机器学习可以涉及更小的存储器占用和更小的CPU占用,除此之外还有其它益处。在一些实现方式中,客户端设备的用户必须在个性化的机器学习可以发生之前“选择进入”或采取其它肯定性的动作。
可以以多种方式实现对机器学习的个性化。例如,在一些实现方式中,对机器学习进行个性化涉及对可以由应用访问的机器学习模型的特征输出进行标准化,其中所述应用是由客户端设备来执行的。对特征输出进行标准化可以是至少部分地基于由客户端设备本地地收集的信息的。对机器学习进行个性化可以另外地或者可替代地涉及至少部分地基于由客户端设备本地地收集的信息来调整机器学习模型的分类阈值。另外地或者可替代地,对机器学习进行个性化可以包括选择机器学习模型的子集以载入到客户端设备的存储器(例如,RAM或易失性存储器)中。这样的选择也可以是至少部分地基于由客户端设备本地地收集的信息的。
在涉及对由客户端设备托管的机器学习模型的特征输出进行标准化的各种实施例中,所述标准化过程可以至少部分地基于与由客户端设备的处理器所执行的应用相关联的信息。由客户端设备所收集的信息可以包括:图像、语音或其它音频采样、或者搜索查询等(除了其他示例之外)。所述信息可以包括客户端设备的用户的个人信息,例如,从诸如所捕获的图像或语音采样中搜集的身体特征(例如,嘴的大小、眼睛的大小、语音音量、语调等)。一个用户的特定的身体特征通常与另一个用户的特定的身体特征不同。每个用户的身体特征都被表示为值的分布(例如,随着嘴的大小的随时间的变化的出现次数)。分布的最大值和最小值(例如,峰值和谷值)可以用于指示很多事情,例如,用户的特征的各种状态。例如,用户的嘴的大小的分布中的两个局部最大值之间的局部最小值可以用于定义用户的嘴张开或者用户的嘴闭合之间的分类边界。通常而言,不同用户的这样的值的分布将是不同的。特别地,分布的峰值和谷值的位置和大小针对不同的用户是不同的。因此,并且不期望地,将多个用户的分布进行聚合趋向于使个体用户的分布的峰值和谷值不可分辨。换言之,将很多用户的分布进行组合会导致使个体用户的分布的峰值和谷值模糊不清的聚合的分布。来自对分布进行组合的这样的结果可以针对基于多个用户的去标识的数据的机器学习模型而发生。本文中的一些实施例包括通过基于本地收集的信息对个体用户的分布进行标准化的过程而对很多用户的分布进行聚合的过程。这样的过程可以得出可以分辨的聚合的分布。这样的分辨出的聚合的分布可以有明显可定义的(例如,非模糊的)分类边界。
在一个示例实现方式中,客户端设备的处理器对机器学习模型的特征输出进行标准化,这是通过将特征输出的分类边界(例如,分类阈值)与由其它客户端设备托管的机器学习模型的对应的特征输出的分类边界对齐来进行的。
在一些实现方式中,通过使用来自网络的去标识的数据可以对机器学习模型特征输出进行更新或者进一步细化。例如,对机器学习模型的特征输出进行标准化生成可以与从客户端设备之外所接收到的去标识的数据聚合的标准化的输出。去标识的数据包括已经被剥离了关于数据和与数据有关的人之间的关联的信息(例如,元数据)的数据。
在一些实施例中,上文中所描述的方法可以由服务器或者网络(例如,互联网或云)中的其它计算设备整体地或部分地来执行。服务器执行标准化并且将多个客户端设备的特征分布对齐。服务器可以例如从第一客户端设备中接收由第一客户端设备托管的第一机器学习模型所生成的第一特征分布,并且从第二客户端设备中接收由第二客户端设备托管的第二机器学习模型所生成的第二特征分布。服务器可以随后关于第二特征分布来对第一特征分布进行标准化,以使得第一特征分布和第二特征分布中的每个分布的分类边界相互对齐。服务器可以接着向第一客户端设备提供通过关于第二特征分布来对第一特征分布进行标准化而得出的标准化的第一特征分布。第一特征分布可以是至少部分地基于由第一客户端设备本地地收集的信息的。所述方法还可以包括关于训练分布来对第一特征分布进行标准化,以使得第一特征分布和训练分布中的每一个的分类边界相互对齐。
在各种实施例中,由客户端设备的系统所执行的方法包括至少部分地基于由客户端设备本地地收集的信息来调整机器学习模型的分类阈值。所述信息可以与由客户端设备的处理器所执行的应用相关联。这样的信息可以被认为是客户端设备的用户的私人信息。用户想要使其私人信息保留在客户端设备上。例如,私人信息可以包括以下中的一个或多个:由系统的用户所捕获和/或所下载的图像和/或视频、用户的图像和/或视频、系统的用户的语音采样、或者来自系统的用户的搜索查询。在一些实现方式中,客户端设备的用户必须“选择进入”或采取其它肯定性的动作来允许客户端设备或系统调整机器学习模型的分类阈值。
在一些实现方式中,由客户端设备所执行的方法包括用于降低存储器和CPU占用的延迟加载策略。例如,这样的方法包括选择机器学习模型的子集以载入到诸如客户端设备的随机存取存储器(RAM)或易失性存储器之类的存储器中。这样的选择可以是至少部分地基于由客户端设备本地地收集的信息的。机器学习模型的子集包括少于全部的机器学习模型。
所述方法还包括响应于除了机器学习模型的子集的机器学习模型的部分与在应用的执行期间所接收到的输入相关,而将该机器学习模型的部分载入到存储器中。
在一些实现方式中,客户端设备的用户的各个实时动作不需要影响个性化的机器学习,而用户的长期的行为示出了可以用于对机器学习进行个性化的模式。例如,机器学习模型的特征输出可以是经过至少预先确定的时间(例如,数小时、数天、数月等)对客户端设备的用户的行为模式进行响应。
进一步参考图1-11而描述了各种实施例。
示例环境
下文所描述的环境仅仅组成一个实例,并且不旨在将权利要求限于任何一个特定的操作环境。可以使用其它环境而不脱离所要求保护的主题的精神和范围。图1示出了示例环境100,其中可以运行涉及如在本文中所描述的对机器学习进行个性化的实施例。在一些实施例中,环境100的各种设备和/或组件包括多种计算设备102。在各种实施例中,计算设备102可以包括设备102a-102c。尽管被示出为多种不同的设备类型,但是计算设备102可以是其它设备类型而不限于所示出的设备类型。计算设备102可以包括具有可操作地连接(例如,经由总线110)至输入/输出接口106和存储器108的一个或多个处理器104的任何类型的设备。计算设备102可以包括个人计算机,例如,台式计算机102a、膝上型计算机102b、平板计算机102c、移动通信设备102d、个人数字助理(PDA)102e、电子书阅读器、可穿戴计算机、车载计算机、游戏设备等。计算设备102还可以包括商业或零售方向的设备,例如,服务器计算机、瘦客户端、终端、和/或工作站。在一些实施例中,计算设备102可以包括例如,用于集成在计算设备中的组件、器件、或者另一种设备。在一些实施例中,被描述为由计算设备102执行的功能中的一些或全部可以由一个或多个远程对等计算设备、远程服务器或多个服务器、或者云计算资源来实现。例如,计算设备102可以执行远离计算设备而存储的应用。
在一些实施例中,如关于设备102d所示出的,存储器108可以存储可以由处理器104来执行的指令,包括操作系统(OS)112、机器学习模块114、以及可以由处理器104载入和执行的程序或应用116。一个或多个处理器104可以包括一个或多个中央处理单元(CPU)、图形处理单元(GPU)、视频缓冲处理器等。在一些实现方式中,机器学习模块114包括存储在存储器108中并且可以由处理器104执行以用于由计算设备102经由输入/输出106来本地地收集信息的可执行代码。所述信息与应用116相关联。机器学习模块114选择存储在存储器108中(或者,更加具体地,存储在机器学习114中)的机器学习模型的子集,以载入到随机存取存储器(RAM)118中。所述选择可以是至少部分地基于由个人计算设备102本地地收集的信息的,并且机器学习模型的子集包括少于全部的机器学习模型。机器学习模块114还可以访问用户模式模块120和私人信息模块122。例如,模式模块120可以存储用户简档,该用户简档包括用户的动作的历史、执行了一段时间的应用等。私人信息模块122对由个人计算设备102本地地收集或生成的信息进行存储。这样的私人信息可以与用户或者用户的动作相关。这样的信息可以由机器学习模块114访问以调整针对用户的分类阈值,例如,以使得个人计算设备102的用户受益。私人信息不越过个人计算设备102而进行分享和传输。此外,在一些实现方式中,个人计算设备102的用户必须“选择进入”或采取其它肯定性的动作以允许个人计算设备102将私人信息存储在私人信息模块122中。
尽管某些模块已经被描述为执行各种操作,但是所述模块仅仅是示例,并且可以由更多或更少数量的模块来执行相同或相似的功能。此外,由所描绘的模块所执行的功能非必须由单个设备本地地执行。相反,一些操作可以由远程设备(例如,对等、服务器、云等)来执行。
可替代地或者另外地,可以至少部分地由一个或多个硬件逻辑组件来执行在本文中所描述的功能中的一些或全部。例如而非限制,可以使用的示例性类型的硬件逻辑组件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等。
在一些实施例中,计算设备102可以与能够捕获图像和/或视频的相机和/或能够捕获音频的麦克风相关联。例如,输入/输出模块106可以包含这样的相机和/或麦克风。存储器108可以包括一个计算机可读介质或计算机可读介质的组合。
计算机可读介质可以包括计算机存储介质和/或通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块、或其它数据之类的信息的任何方法或技术实现的易失性介质和非易失性介质、可移除介质和非可移除介质。计算机存储介质包括但不限于:相变存储器(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其它类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪速存储器或其它存储器技术、光盘只读存储器(CD-ROM)、数字通用盘(DVD)或其它光存储、盒式磁带、磁带、磁盘存储或其它磁存储设备、或者可以用于存储信息以供计算设备存取的任何其它非传输介质。
相反,通信介质可以将计算机可读指令、数据结构、程序模块、或其它数据实施在经调制的数据信号(例如,载波或其它传输机制)中。如在本文中所定义的,计算机存储介质不包括通信介质。在各种实施例中,存储器108是存储计算机可执行指令的计算机存储介质的示例。当由存储器104执行时,计算机可执行指令可以配置处理器执行应用并且收集与该应用相关联的信息等(除了其他之外)。所述信息可以由个人计算设备102本地地收集。当被执行时,计算机可执行指令也可以配置处理器以至少部分地基于由客户端设备本地地收集的信息来对可以由应用访问的机器学习模型的特征输出进行标准化。
在各种实施例中,输入/输出(I/O)接口106的输入设备可以是直接触摸输入设备(例如,触摸屏)、间接触摸设备(例如,触摸板)、间接输入设备(例如,鼠标、键盘、相机或者相机阵列等)、或者诸如音频输入设备之类的另一类型的非接触设备。
计算设备102还可以包括一个或多个输入/输出(I/O)接口106以允许计算设备102与其它设备进行通信。输入/输出(I/O)接口106可以包括一个或多个网络接口以使能计算设备102与其它网络化设备(例如,其它设备102)之间的通信。输入/输出(I/O)接口106可以允许设备102与诸如用户输入外围设备(例如,键盘、鼠标、笔、游戏控制器、语音输入设备、触摸输入设备、手势输入设备等)和/或输出外围设备(例如,显示器、打印机、音频扬声器、触觉输出等)之类的其它设备进行通信。
图2是根据各种示例实施例的机器学习系统200的框图。机器学习系统200包括机器学习模型202、离线训练模块204、以及多个客户端设备206A-C。机器学习模型202从离线训练模块204中接收训练数据。例如,训练数据可以包括来自群体的数据,例如,操作客户端设备的用户的群体或者由客户端设备的处理器所执行的应用的群体。数据可以包括从用户的动作中得出的信息,或者可以包括关于用户本身的信息。例如,当用户从事于特定的活动时,可以测量多个用户中的每个用户的嘴的大小。例如,可以从在各个时刻或在周期性的时刻所捕获的用户的图像中搜集这样的测量。用户的嘴的大小可以指示用户的状态,例如用户对特定的活动的参与等级、情绪状态、或者形体尺寸等(仅指出若干示例)。来自群体的数据可以用于训练机器学习模型202。在这样的训练之后,可以在客户端设备206A-C中实现机器学习模型202。因此,例如,使用来自用户的群体的用于离线训练的数据的训练可以充当机器学习模型的初始状态。
部分作为离线训练模块204的结果的机器学习模型202可以针对相当大的用户的群体而被配置。例如,机器学习模型202可以包括基于离线训练模块204的用户的群体的平均特性而设置的多个分类阈值。客户端设备206A-C可以修改机器学习模型202,然而,这是在机器学习模型202被载入到客户端设备206A-C上之后。通过该方式,自定义/个性化的机器学习可以发生在独立的客户端设备206A-C上。经修改的机器学习模型被指定为机器学习208A-C。在一些实现方式中,例如,机器学习208A包括客户端设备206A的操作系统的一部分。对客户端设备上的机器学习进行修改是对机器学习模型进行本地训练的一种形式。如在下文中所解释的,这样的训练可以利用已经被呈现在客户端设备上的个人信息。此外,客户端设备的用户可以有信心的是,当客户端设备保持为其所占有时,其个人信息保持隐私。
在一些实施例中,机器学习208A-C的特性根据客户端设备206A-C的特定的用户而改变。例如,由客户端设备206A托管并且由特定的用户操作的机器学习208A与由客户端设备206B托管并且由另一个特定的用户操作的机器学习208B不同。客户端设备的用户的行为和/或个人信息被考虑用于修改由客户端设备托管的机器学习的各种参数。可以考虑经过预先确定的一段时间所收集的用户的行为或个人信息。例如,机器学习208A可以至少部分地基于经过一段时间(例如,数小时、数天、数月等)的客户端设备206A的用户的历史使用模式、行为、和/或个人信息而被修改。因此,对机器学习208A的修改可以随着时间继续,并且对客户端设备208A的特定的用户而言变得更加个人化。机器学习208A对特定的用户而言变得更加个人化产生很多益处。在这些益处之中,机器学习208A的输出的精确度增加了、机器学习208A的运行的效率(例如,速度)增加了、并且机器学习208A的存储器占用降低了,仅仅列出了一些示例益处。另外地或可替代地,用户可以被允许选择退出使用个人/私人信息来对机器学习进行个性化。
客户端设备206A-C可以包括个人计算设备,其接收、存储、并且作用于个人计算设备的用户认为是私人的数据。即,用户想要将这样的数据保存在个人计算设备内。私人数据可以包括数据文件(例如,文本文件、视频文件、图像文件、以及音频文件),其包括与用户、用户的行为、用户的属性、用户与其它用户之间的通信、由用户提交的查询、以及用户访问的网站等(仅指出若干示例)有关的个人信息。
机器学习模型的子集选择
图3是根据各种示例实施例的机器学习模型300的框图。例如,机器学习模型300可以相同或相似于在图2中所示出的机器学习模型202。机器学习模型300包括功能块,例如,随机森林块302、支持向量机块304、以及图形模型块306。随机森林块302可以包括通过在训练时构建决策树来运行的用于分类的集成学习方法。例如,随机森林块302可以输出作为由各个树输出的类的模式的类。随机森林块302可以充当框架,该框架包括可以混合和匹配以创建大量特定的模型的若干可互换的部分。在这样的框架内构建机器学习模型包括:确定在每个节点中所使用的决策的方向、确定在每个叶子中使用的预测子的类型、确定用于在每个节点中优化的分割目标、确定用于向树中注入随机性的方法等。
支持向量机块304针对机器学习模型300对数据进行分类。支持向量机块304可以充当与分析数据并识别模式的学习算法相关联的有监督学习模型,其用于分类和回归分析。例如,给定训练数据的集合,其中每个数据都被标记为属于两个分类中的一个,支持向量机训练算法建立将新的训练数据分配到一个分类或另一个分类中的机器学习模型。
图形模型块306充当概率模型,其中,图形表示随机变量之间的条件相关性结构。图形模型提供用于发现和分析分布中的结构并且提取非结构化的信息的算法。图形模型的应用包括信息提取、话音识别、计算机视觉、以及低密度奇偶校验码的解码等(仅指出若干示例)。
图4示出了根据各种示例实施例的由客户端设备(例如,客户端设备206A-C)托管的机器学习模型的支持向量和节点的树400。例如,树400包括由各种支持向量(由箭头指出)沿着特定的路径所连接的决策节点402、404、406、408、以及410。树400可以仅仅表示更大的树的一部分,所述更大的树包括例如数百个或者数千个节点和支持向量。
机器学习模型通过沿着树400的支持向量和节点来运行。尽管机器学习模型对应于大树(树400可以是其相当小的一部分),但是在任何一个时间通常仅仅使用树的一部分。例如,树400的部分412可以不由特定用户的客户端设备所使用。另一方面,由于用户的使用模式,树400的部分414可以相当经常地被使用。例如,如果由客户端设备托管的机器学习模型包括关于语音命令和话音识别的树的部分,则该树的部分可以很少针对很少在客户端设备上使用语音命令和话音识别的客户端设备的用户而被使用。在这样情况下,在一些实施例中,很少被使用的树的部分不需要与树的其它部分一起被存储。例如,全部的机器学习模型可以被存储在只读存储器(ROM)中,而少于全部的机器学习模型可以选择性地被存储在随机存取存储器(RAM)中。在一些实现方式中,很少被使用的树的部分可以被远程地存档或存储在任何数量的类型的存储器或位置(例如,远程服务器或者云)中。选择性地仅仅将机器学习模型的常用的部分存储在RAM中可以提供很多益处,例如,与将全部的机器学习模型都存储在RAM中相比,增加了机器学习模型的速度并且降低了由机器学习模型所占用的存储器的量。
在一些实施例中,当针对树400的部分的需求提升时,可以将该部分从ROM载入到RAM中。例如,如果很少利用语音命令或话音识别的用户开始这样做,则涉及语音命令或话音识别的树400的部分可以随后从ROM载入到RAM中。在一些实现方式中,选择性地载入机器学习模型的部分可以至少部分地基于该部分将被使用的可能性和预测。客户端设备的不同的用户可能将不同地操作其客户端设备。因此,机器学习模型的部分将针对不同的用户而不同地被存储。在一个示例中,不同的用户可以在不同的时间操作单个客户端设备。在该情况下,作为特定的用户登录客户端设备或者以其它方式向客户端设备标识其自身的结果,由客户端设备托管的由特定的用户频繁地使用的机器学习模型的特定的部分可以从ROM载入到RAM中。这样的特定的部分可以针对不同的用户而不同。在另一个示例中,不同的用户可以每个都操作不同的客户端设备。在这样的情况下,每个客户端设备可以使机器学习模型的不同的部分从ROM载入到RAM中。
图5是根据各种示例实施例的用于选择机器学习模型的子集以载入到客户端设备的RAM中的过程500的流程图。可以通过仅仅载入将最有可能由特定的用户使用的机器学习模型的部分来提高性能。在方框502处,通过将机器学习模型的部分载入到RAM中来初始化客户端设备。在该初始阶段,可以至少部分地基于由客户端设备托管的应用的类型或内容、客户端设备使用的历史或模式、客户端设备的类型等来选择待载入到RAM中的机器学习模型的部分。全部的机器学习模型(被载入到RAM中的部分是其一部分)可以被托管在客户端设备上,例如,在ROM中。在其它情况下,可以远程地存储和/或存档机器学习模型的一些部分。在一些实现方式中,客户端设备对机器学习模型的各种部分进行优先性排序,以确定各种部分被载入到RAM中的顺序。这样的优先性排序可以至少部分地基于由客户端设备托管的应用的类型或内容、客户端设备的使用的历史或模式、客户端设备的类型等。
在方框504处,由客户端设备本地地收集信息。这样的信息与诸如搜索引擎、游戏应用、或者话音识别应用(仅指出若干示例)之类的应用相关联。这样的信息可以包括由用户输入到客户端设备中的文本、音频信息、视频信息、所捕获的图像等。在特定的示例中,机器学习模型可以与语音识别应用相关联。例如,如果例如所收集的信息指示用户是写技术文档还是写创意写作文档,则可以改进机器学习模型。在另一个示例中,机器学习模型可以与用于在互联网上执行搜索的网络浏览器相关联。例如,如果所收集的信息指示客户端设备的用户主要是进行网络搜索来购物还是来进行科学研究,则机器学习模型可以被个性化。例如,当用户键入搜索词语时,浏览器可以自动填充搜索文本框:个性化的机器学习模型可以提供针对用户最有可能搜索的主题的自动填充的词语。
在方框506处,选择机器学习模型的子集以载入到存储器(例如,RAM)中。这样的选择是至少部分地基于由客户端设备本地地收集的信息的。机器学习模型的子集包括少于全部的机器学习模型。例如,如果机器学习模型与语音识别应用相关联,则用于载入到存储器中的机器学习模型的子集的选择可以至少部分地取决于由客户端设备的用户所使用的词语或声音的类型、用户是否用特定的口音讲话、或者用户是写技术文档还是写创意性写作文档。在另一个示例中,如果机器学习模型与网络浏览器相关联,则用于载入到存储器中的机器学习模型的子集的选择可以至少部分地取决于用户主要搜索互联网是为了购物还是为了科学研究。
通过统计上对信息进行分析,客户端设备可以使用所收集的信息来选择机器学习模型的部分。例如,由客户端设备托管的应用可以对机器学习树的特定的节点被访问的次数进行记忆,并且开发历史或使用模型。机器学习模型可以分配客户端设备上的存储器的特定的区域(例如,在图1中所示出的用户模式模块120)以存储例如所收集的信息、历史或使用模型、或者特定的节点被访问的次数。
在一些实现方式中,响应于除了机器学习模型的子集的机器学习模型的部分与在应用的执行期间所接收到的输入相关,而可以将机器学习模型的部分载入到RAM中。例如,如果用户的动作或输入使应用的特定的部分开始执行,则机器学习模型的特定部分可以相应地被载入到RAM中。在特定的示例中,如果用户在相对长的时间内第一次激活与话音识别相关联的应用的部分,则与话音识别相关联的机器学习模型的部分可以从ROM被载入到RAM中。在一些实现方式中,所选择的机器学习模型的子集可以大于或小于在初始阶段(在502处)所选择的机器学习模型的部分。
除了多个其它功能,机器学习模型可以将特征分类成状态。例如,用户的嘴的大小是可以被分类成处于张开状态或闭合状态的特征。此外,嘴的大小或状态可以用作参数,根据该参数可以确定用户处于高兴状态还是悲伤状态,除此之外还有多个其它情绪状态。机器学习模型包括至少部分地基于将决策函数f(x)的值与阈值t进行对比而做出决策的分类器。增加阈值t会增加分类的准确度,尽管查全率(recall)会相应地降低。例如,如果用于确定特征是否在特定的状态中的阈值t被设置得相对高,则将会有相对少的关于特征在该特定的状态中的确定(例如,查全率),但是该确定是正确的(例如,准确的)的分数将会相对高。另一方面,降低阈值t会降低分类的准确度,尽管查全率会相应地增加。
分类阈值调整
图6示出了根据各种实施例的关于机器学习模型的分类阈值602的三个用户A、B、和C的特征测量600示意图。在所示示例中,特征测量600示出了准确度与查全率之间的平衡,其是至少部分地由可以针对不同的用户而不同地设置的分类阈值602所确定的。如在下文中所解释的,通过针对特定的用户而调整分类阈值,机器学习模型可以与针对所有用户使用单个分类阈值的情况相比更加精确地预测测量结果。基于多个用户的分类阈值可以在训练期间被初始设置。尽管这样的初始值对一组用户表现良好,但是其不一定对特定的用户表现良好。
在一些实现方式中,可以至少部分地基于特定用户的过去和/或当前的行为而针对该特定的用户自动地(例如,通过由客户端设备所执行的机器学习模型)调整分类阈值。在其它实现方式中,可以至少部分地基于用户输入来调整分类阈值。在后者的实现方式中,例如,用户可以期望通过机器学习模型来进行偏差预测(bias prediction)。在一个示例实现方式中,可以通过用户调整设置或输入设置来显式地执行偏置(biasing)。在另一个示例实现方式中,可以基于用户动作而隐式地执行偏置。这样由用户进行的偏置可以提高机器学习模型的性能。
每个箭头604都表示特征(例如,用户或用户的动作的特征)的测量或实例。每个箭头要么处于向上状态要么处于向下状态。基于所测量的用户的嘴的大小而从左到右来放置箭头。例如,朝向分布的左边末端的箭头606表示所测量的小的嘴的大小而朝向分布的右边末端的箭头608表示所测量的大的嘴的大小。所测量(例如,使用所捕获的图像)的嘴的大小可以用于确定用户的情绪参数,例如,用户是处于高兴状态还是不高兴状态。在该示例中,箭头朝下指示嘴闭合而箭头朝上指示嘴张开。因此,在嘴的大小的六个测量中,用户A使其嘴闭合了两次并且使其嘴张开了四次。用户B使其嘴闭合了四次并且使其嘴张开了两次。用户C使其嘴闭合了三次并且使其嘴张开了三次。
如上文中所提及的,机器学习模型包括至少部分地基于将值与阈值进行比较而做出决策的分类器。在图6中,如果嘴的大小的测量落到分类阈值602的左边,则用户的嘴被分类为闭合的,而如果嘴的大小的测量落到分类阈值602的右边,则用户的嘴被分类为张开的。因此,如在图6中可见,如果机器学习模型基于分类阈值602而将用户的嘴分类为张开的或闭合的,则结果的准确度将针对不同的用户而变化。例如,测量箭头610指示用户A的嘴是张开的,但箭头610落到分类阈值602的左边,因此机器学习模型将用户A的嘴分类为闭合的。在另一个示例中,测量箭头604指示用户B的嘴是闭合的,但箭头604落到分类阈值602的右边,因此机器学习模型将用户B的嘴分类为张开的。对于用户C,测量箭头针对在分类阈值602右边的每个测量都指示张开的嘴,而针对在分类阈值602左边的每个测量都指示闭合的嘴。因此,在该特定的情况下,机器学习模型正确地对所有情况中的用户C的嘴进行分类。
如上所示,应用至不同的用户的单个阈值会得出不同的结果。分类阈值602对于用户C而言正确地被设置,但对于用户A而言被设置得太高而对于用户B而言被设置得太低。如果分类阈值602被调整到准确地适用于用户A,则该分类阈值602对于用户B和C而言将变得不那么准确。因此,没有单个分类阈值可以对于所有用户而言都是准确的。此外,增加阈值会增加分类的准确度,尽管查全率会相应地降低。例如,如果用于确定特征是否在特定的状态中的阈值t被设置得相对高,则将会有相对少的关于特征在该特定的状态中的确定(例如,查全率),但是该确定是正确的(例如,准确的)的分数将会相对高。另一方面,降低阈值t会降低分类的准确度,尽管查全率会相应地增加。
如在上文中所解释的,应用至不同的用户的单个分类阈值会产生不同的结果。通过将特定的分类阈值t应用至具有一种类型的用户简档或者个人简档的用户可以提供相对更精确的结果,相比之下将相同的特定的分类阈值t应用至具有另一个类型的用户简档或者个人简档的用户会提供不那么精确的结果。因此,在一些实施例中,分类阈值t可以至少部分地基于特定用户的简档或具有一个或多个共同特性的一类用户的简档而被设置。此外,分类阈值t可以至少部分地基于特定用户的行为而被修改或调整。例如,不同的分类阈值可以被分配至不同的族群:例如,有亚洲血统的用户统计学上具有不同于有高加索血统的用户的身体特征(例如,眼睛大小和身高)。因此,不同的阈值t可以适合用于不同的族群。
机器学习模型可以调整分类阈值。为了在不同的用户间获得一致的体验,可以考虑以下两种情况。第一,类值的特征分布在用户的任何子群体中大致相同。这可以被表达为对于所有ω’(ω的子集),P′y=1~Py=1,其中P表示概率并且y是由机器学习模型所预测的目标类。第二,设置分类阈值以使得在用户的子群体间的准确度和查全率至少大致相同。这可以被表达为:
其中t是阈值,t’是个性化的阈值,并且x表示输入信号,例如,图像像素或音频文件。例如,客户端设备可以在一段时间内积累为分布ω’,并且根据等式1来计算自适应分类阈值。此外,如果t’*是最佳个人阈值,并且t′n是通过抽取n个采样而根据等式1计算的估计,则t′n→t′*,其中n是由客户端设备所收集的采样的数量。
图7是根据各种示例实施例的用于至少部分地基于由客户端设备本地地收集的信息而调整机器学习模型的分类阈值的过程700的流程图。在方框702处,由客户端设备托管的机器学习模型包括初始分类阈值,其可以被设置为由通用机器学习模型的先验训练所确定的值,其中由客户端设备托管的机器学习模型是基于该值的。例如,通用机器学习模型的分类阈值可以至少部分地基于所测量的用户的群体的参数。
在方框704处,由客户端设备本地地收集信息。这样的信息与诸如话音识别应用、搜索引擎、游戏等之类的应用相关联。在方框706处,机器学习模型至少部分地基于由客户端设备本地地收集的信息而调整分类阈值。例如,机器学习模型能够由应用访问。在一些实现方式中,机器学习模型在特定的时间后,或者在收集了特定量的信息后,调整分类阈值。
处理700的特定的示例可以包括微笑分类器以确定用户是否在微笑。例如,这可以对于确定用户是高兴的还是悲伤的有用。为了建立通用机器学习模型,可以针对用户的群体(例如,100、500、或者1000或更多人)来收集嘴的大小的测量。可以从当用户玩视频游戏、观看电视节目等时所捕获的用户的图像中获取测量。所述测量可以指示用户多长时间微笑一次。例如,可以针对每个用户在3小时内每60秒执行测量。这些测量可以用作通用机器学习模型的初始训练集,其将包括初始分类阈值。
当通用机器学习模型首先被载入到客户端设备中时,初始分类阈值将由客户端设备使用(例如,参见过程700的方框702)。然而,继该时间之后,测量将由客户端设备的特定的用户构成。例如,可以从当用户玩视频游戏、观看电视节目等时所捕获的用户的图像中获取对用户的嘴的大小的测量。所述测量可以指示用户多长时间微笑一次。测量(例如,收集信息,如在过程700的方框704中)可以继续,并且分类阈值可以相应地被调整,直到分类阈值收敛(例如,基本上变成恒定的)为止。例如,在最近的时间帧内检查连续的阈值计算允许对连续阈值间的平均变化是否低于特定的预先确定的小的数(例如,0.00001)的确定。因此,例如,通用机器学习模型可以期望用户在40%的时间在微笑。然而,如通过收集关于用户的信息(例如,从所捕获的图像中测量嘴的大小)所确定的,用户可能被观察到在25%的时间在微笑。从而,可以调整分类阈值(例如,参见过程700的框706)以考虑到所观察到的用户的微笑率。例如,机器学习模型可以通过该方式而被个性化。
标准化
图8示出了根据各种示例实施例的客户端设备的三个不同的用户的三个示例特征分布,以及所述三个示例分布的聚合的分布。将多个特征分布进行聚合是用于对个体用户的特征分布(其可以被看作个人数据)进行去标识或“匿名化”的技术。将多个特征分布进行聚合还是用于对来自多个用户的采样数据进行组合的技术。
特征分布802表示客户端设备的第一用户的特定参数的测量的分布,特征分布804表示客户端设备的第二用户的特定参数的测量的分布,而特征分布806表示客户端设备的第三用户的特定参数的测量的分布。在一些实现方式中,针对用户中的两个或更多个,客户端设备可以是相同的。例如,两个或更多个用户可以共享单个客户端设备。然而在其它实现方式中,针对每个用户,客户端设备是不同的。
用户的参数被多次测量以生成特征分布802-806。这样的参数可以包括特定用户的身体特征,例如,嘴的大小、眼睛的大小、语音音量等。可以从由用户操作的客户端设备所收集的信息中搜集参数的测量。收集这样的信息可以包括捕获用户的图像、捕获用户的语音采样、从用户接收搜索查询等。
作为示例,将特征分布802-806的参数看作是三个用户的嘴的大小。例如,嘴的大小的测量可以指示用户是在讲话、微笑、大笑、还是在说话。特征分布802-806的X-轴表示增加的嘴的大小。来自由用户的客户端设备周期性地或者不时地捕获的每个用户的图像的信息可以用于测量嘴的大小。因此,例如,特征分布802表示第一用户的嘴的大小的测量的分布,特征分布804表示第二用户的嘴的大小的测量的分布,而特征分布806表示第三用户的嘴的大小的测量的分布。如可以预期的那样,一个用户的特定的身体特征通常与另一个用户的特定的身体特征不同。特征分布(例如,嘴的大小的分布)的最大值和最小值(例如,峰值和谷值)可以用于指示多件事情,例如,用户的特征的各种状态。例如,第一用户的嘴的大小的特征分布802中的两个局部最大值810和812之间的局部最小值808可以用于定义张开的用户的嘴或闭合的用户的嘴之间的分类边界。因此,嘴的大小测量在局部最小值808的左边表示在采样的时刻(例如,在图像捕获的时刻)用户的嘴是闭合的。相反,嘴的大小测量在局部最小值808的右边表示在采样的时刻用户的嘴是张开的。
针对第二用户,第二用户的嘴的大小的特征分布804中的两个局部最大值816和818之间的局部最小值814可以用于定义张开的用户的嘴或闭合的用户的嘴之间的分类边界。类似地,针对第三用户,第三用户的嘴的大小的特征分布806中的两个局部最大值822和824之间的局部最小值820可以用于定义张开的用户的嘴或闭合的用户的嘴之间的分类边界。通常而言,值的特征分布针对不同的用户而不同。特别地,特征分布的峰值和谷值的位置和大小以及因此分类边界的位置针对不同的用户而不同。从而以及不期望地,对多个用户的特征分布进行聚合会引起特征分布的分辨率的损失(例如,模糊)以及关于个体用户的特征分布的信息的伴随的损失。例如,聚合的特征分布826是特征分布802-806的总和或叠加。在聚合的特征分布826中,两个局部最大值830和832之间的局部最小值828可以用于定义所有张开的用户的嘴或所有闭合的用户的嘴之间的分类边界834。不幸地是,相比于独立的特征分布802-806的分类边界的情况,分类边界834被定义有较低的确定性。例如,可以根据局部最小值与相邻的局部最大值的相对大小来量化分类边界的确定性或置信等级:相比于聚合的特征分布826中的局部最大值830和832的大小,局部最小值828的大小相对大。
因此,聚合的特征分布的分类边界834可能根据独立的特征分布802-806而相对不精确。例如,对应于特征分布802的局部最小值808的分类边界从聚合的特征分布的分类边界834偏移,如由箭头834所指示的那样。作为另一示例,对应于特征分布806的局部最小值836的分类边界从聚合的特征分布的分类边界834偏移,如由箭头836所指示的那样。因此,针对个体用户而使用聚合的特征分布的分类边界834会导致错误或误分类。如在下文中所描述的,标准化的过程可以减轻由对多个用户的特征分布的聚合而产生的这样的问题。
图9示出了根据各种示例实施例的客户端设备的三个不同用户的标准化的示例特征分布,以及所述三个标准化的示例特征分布的聚合的分布。可以通过将标准化过程应用到特征分布中来生成这样的标准化的特征分布。例如,如在图8中所示,标准化的特征分布902是通过对特征分布802进行标准化而得到的。类似地,标准化的特征分布904是通过对特征分布804进行标准化而得到的,而标准化的特征分布906是通过对特征分布806进行标准化而得到的。
在一个实现方式中,应用至特征分布的标准化过程将局部最小值设置为特定的预先确定的值。扩展该方法,将这样的标准化过程应用至多个特征分布,这将局部最小值设置为特定的预先确定的值。因此,在图9中所示出的示例特征分布中,标准化的特征分布902-906中的每一个的最小值908、910、912都沿着X-轴彼此对齐。在这样的情况下,标准化的特征分布902-906的聚合的分布914也包括与标准化的特征分布902-906的最小值908-912对齐的局部最小值916。由于局部最小值的这样的对齐,标准化的特征分布902-906的分类边界与由聚合的特征分布914的局部最小值918的X-位置所定义的分类边界916相同。
如上文所提及的,值的特征分布通常针对不同的用户而不同。特别地,特征分布的峰值和谷值的位置和大小,以及因此分类边界的位置针对不同的用户而不同。在这样的情况下,对多个用户的特征分布进行聚合不期望地引起特征分布的分辨率的损失(例如,模糊)以及关于个体用户的特征分布的信息的伴随的损失。然而,应用至独立的特征分布的标准化过程会得出聚合的特征分布,其相比于没有标准化过程的情况(例如,聚合的特征分布826),保持了被定义具有更高的确定性的分类边界。例如,如上文所提及的,分类边界的确定性或者置信等级可以根据局部最小值与相邻的局部最大值之间的相对大小而被量化。相比于聚合的特征分布914的局部最大值920和922的大小,局部最小值918的大小相对小。因此,基于标准化的特征分布902-906的聚合的特征分布914比基于非标准化的特征分布802-806的聚合的特征分布826(图8)具有更加区别的(例如,更低的)局部最小值。换言之,基于标准化的特征分布902-906的聚合的特征分布914提供清楚的决策边界(分类边界)以用于确定用户的特征的状态(例如,用户的嘴是张开还是闭合)。
图10示出了根据各种示例实施例的关于聚合的特征分布的误分类错误。特别地,聚合的特征分布1002是基于非标准化的特征分布(例如,特征分布802-806)的,而聚合的特征分布1004是基于标准化的特征分布(例如,特征分布902-906)的。在对非标准化的特征分布进行聚合的过程中,分辨率降低。因此,误分类错误1006和1008可能在聚合的特征分布1002的局部最小值1010附近的“模糊区域”内发生。这样的模糊区域是由于由局部最小值1010所定义的分类边界的分辨率的降低以及伴随的不确定性的增加而产生的。
相反,在对标准化的特征分布进行聚合的过程中,分辨率被保持。因此,误分类错误1012和1014在聚合的特征分布1004的局部最小值1016附近的相对小的“模糊区域”内发生。错误1012和1014相对小,并且由局部最小值1016所定义的分类边界相对准确。
在一些实施例中,标准化过程可以被表达为x’=g(x;P’),其中P’是客户端设备的单个用户的特征x的特征分布,并且g是标准化函数。例如,P’可以是通过观察客户端设备上的采样而估计出的。关于在图10中所示出的错误,错误1006、1008与错误1012、1014之间的差等于△g,f。此外,P表示聚合的特征分布的模糊的分布,并且Pg表示示例标准化特征分布(g是标准化函数)。因此,给定任何分类器f(x)并且假设错误降低是Δg,f=EP[∈f]-EPg[∈f],可以通过应用具有n个采样的实时标准化来执行错误降低,Δgn,f将以概率收敛至Δg,f:Δgn,f→Δg,f。该等式示出了标准化可以理想地将错误降低Δg,f。通过在客户端设备上进行在线标准化,可以在有限个数量的采样之后(例如,经过某时间量)完成这样的错误降低。
图11是根据各种示例实施例的用于至少部分地基于由客户端设备本地地收集的信息而对机器学习模型的特征输出进行标准化的过程1100的流程图。在方框1102处,客户端设备执行应用。在方框1104处,客户端设备收集与该应用相关联的信息。由客户端设备本地地收集所述信息。然而,在其它实施例中,可以通过使用来自网络的去标识的数据来对机器学习模型的特征输出进行更新或进一步的细化。在方框1106处,能够由应用访问的机器学习模型的特征输出至少部分地基于由客户端设备本地地收集的信息而被标准化。在一些实施例中,对机器学习模型的特征输出进行标准化生成标准化的输出,该标准化的输出能够与从在客户端设备外部的源中所接收到的去标识的数据聚合。
在一些实施例中,上文中所描述的方法是由网络(例如,互联网或云)中的服务器执行的。服务器执行标准化并且对齐由多个客户端设备所收集的数据的特征分布。例如,服务器从第一客户端设备中接收由第一客户端设备托管的第一机器学习模型所生成的第一特征分布,并且从第二客户端设备中接收由第二客户端设备托管的第二机器学习模型所生成的第二特征分布。服务器随后关于第二特征分布来对第一特征分布进行标准化,以使得第一特征分布和第二特征分布中的每个的分类边界相互对齐。服务器接着向第一客户端设备提供通过关于第二特征分布来标准化第一特征分布而得出的标准化的第一特征分布。第一特征分布可以至少部分地基于由第一客户端设备本地地收集的信息。所述方法还可以包括关于训练分布来对第一特征分布进行标准化,以使得第一特征分布和训练分布中的每一个的分类边界相互对齐。
在图5、7、和11中示出的操作的流程被示出为方框和/或表示操作的顺序的箭头的集合,所述操作可以以硬件、软件、固件、或其组合实现。方框被描述的顺序不想要被理解为限制,并且可以以任何顺序对所描述的任何数量的操作进行组合以实现一个或多个方法或替代方法。另外地,可以从操作的流程中省略独立的操作而不脱离在本文中所描述的主题的精神和范围。在软件的上下文中,方框表示当由一个或多个处理器执行时,配置所述处理器执行所述操作的计算机可读指令。在硬件的上下文中,方框表示被配置为执行所述操作的一个或多个电路(例如,FPGA、专用集成电路(ASIC)等)。
在图5、7、和11中所示出的操作的流程中的任何例程说明、元素、或者方框都可以表示代码的模块、片段、或者部分,所述代码的模块、片段、或者部分包括一个或多个可执行的指令以用于实现例程中的特定逻辑功能或元素。
结论
尽管已经用特定于结构特征和/或方法论行为的语言描述了所述技术,但应当理解的是所附权利要求非必须限于所描述的特征或行为。相反,所述特征和行为被描述为这样的技术的示例实现方式。
除非另外说明,否则,在上文中所描述的所有的方法和过程都可以由由一个或多个通用计算机或处理器执行的软件代码模块整体地或部分地实施。所述代码模块可以被存储在任何类型的计算机可读存储介质或其它计算机存储设备中。所述方法中的一些或全部可以可替代地由专用计算机硬件(例如,FPGA、ASIC等)整体地或部分地实现。
除非另外具体说明,否则诸如“可以”、“能够”、“可能会”、或“可能”之类的条件性语言用于指示某些实施例包括而其它实施例不包括所记录的特征、元素、和/或步骤。因此,除非另外说明,否则这样的条件语言不旨在暗示特征、元素、和/或步骤以任何方式是一个或多个实施例所必须的,或者一个或多个实施例必须包括用于在有或没有用户输入或提示的情况下判定这些特征、元素和/或步骤是否被包括或将在任何特定的实施例中被执行的逻辑。
除非另外具体说明,否则诸如短语“X、Y、或Z中的至少一个”之类的连接性语言将被理解为呈现项目、术语等,可以是X、或Y、或Z中的任何一个或其组合。
可以对在上文中所描述的实施例做出各种变形和修改,其元素将被理解为在其它可接受的示例之中。在本文中所有这样的修改和变形旨在被包括在本公开的范围内。

Claims (10)

1.一种方法,包括:
由客户端设备引起应用的执行;
由所述客户端设备本地地收集与所述应用相关联的信息;
至少部分地基于由所述客户端设备本地地收集的所述信息,对能够由所述应用访问的机器学习模型的特征输出进行标准化;以及
选择所述机器学习模型的子集以载入到存储器中,其中,所述选择是至少部分地基于由所述客户端设备本地地收集的所述信息的,并且其中,所述机器学习模型的子集包括少于全部的所述机器学习模型。
2.根据权利要求1所述的方法,其中,对所述机器学习模型的所述特征输出进行标准化还包括:
将所述特征输出的分类边界与另一个客户端设备中的机器学习模型的另一个特征输出的分类边界对齐。
3.根据权利要求1所述的方法,其中,对所述机器学习模型的所述特征输出进行标准化生成标准化的输出,并且还包括:
从所述客户端设备外部接收去标识的数据;以及
将所述标准化的输出与所述去标识的数据聚合在一起。
4.根据权利要求1所述的方法,其中,所述机器学习模型的所述特征输出是响应于经过至少预先确定的时间所述客户端设备的用户的行为模式的。
5.一种系统,包括:
一个或多个处理器;以及
存储指令的存储器,其中,当所述指令由所述一个或多个处理器执行时,配置所述一个或多个处理器执行以下操作,包括:
执行应用;
由所述系统本地地收集与所述应用相关联的信息;
至少部分地基于由所述系统本地地收集的所述信息来调整能够由所述应用访问的机器学习模型的分类阈值;以及
选择所述机器学习模型的子集以载入到存储器中,其中,所述选择是至少部分地基于由所述系统本地地收集的所述信息的,并且其中,所述机器学习模型的子集包括少于全部的所述机器学习模型。
6.根据权利要求5所述的系统,所述操作还包括:
至少部分地基于由所述系统本地地收集的所述信息来对所述机器学习模型的特征输出进行标准化。
7.根据权利要求5所述的系统,其中,收集信息包括以下中的一个或多个:捕获所述系统的用户的图像、捕获所述系统的所述用户的语音采样、或者从所述系统的所述用户接收搜索查询。
8.存储计算机可执行指令的客户端设备的计算机可读存储介质,其中,当所述计算机可执行指令由所述客户端设备的一个或多个处理器执行时,配置所述一个或多个处理器执行以下操作,包括:
执行应用;
由所述客户端设备本地地收集与所述应用相关联的信息;以及
选择机器学习模型的子集以载入到存储器中,其中,所述选择是至少部分地基于由所述客户端设备本地地收集的所述信息的,并且其中,所述机器学习模型的子集包括少于全部的所述机器学习模型。
9.根据权利要求8所述的计算机可读存储介质,其中,载入所述机器学习模型的子集还包括将所述机器学习模型的子集载入到随机存取存储器(RAM)中,并且还包括响应于除了所述机器学习模型的子集的所述机器学习模型的部分与在所述应用的执行期间所接收到的输入相关,而将所述机器学习模型的所述部分载入到所述RAM中。
10.根据权利要求9所述的计算机可读存储介质,所述操作还包括:
对所述机器学习模型的各种部分进行优先性排序,以确定所述机器学习模型的各种部分被载入到所述RAM中的顺序,其中,所述优先性排序是至少部分地基于所述应用的类型、或者所述客户端设备的使用历史或使用模式的。
CN201480067987.7A 2013-12-13 2014-12-03 个性化的机器学习模型 Pending CN106068520A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/105,650 US20150170053A1 (en) 2013-12-13 2013-12-13 Personalized machine learning models
US14/105,650 2013-12-13
PCT/US2014/068250 WO2015088841A1 (en) 2013-12-13 2014-12-03 Personalized machine learning models

Publications (1)

Publication Number Publication Date
CN106068520A true CN106068520A (zh) 2016-11-02

Family

ID=52146741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480067987.7A Pending CN106068520A (zh) 2013-12-13 2014-12-03 个性化的机器学习模型

Country Status (4)

Country Link
US (1) US20150170053A1 (zh)
EP (1) EP3080754A1 (zh)
CN (1) CN106068520A (zh)
WO (1) WO2015088841A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734297A (zh) * 2017-04-24 2018-11-02 微软技术授权有限责任公司 用于网络传输的电子内容项的性能优化的机器学习推荐系统
CN109582529A (zh) * 2018-09-29 2019-04-05 阿里巴巴集团控股有限公司 一种报警阈值的设置方法及装置
CN109983483A (zh) * 2016-11-21 2019-07-05 谷歌有限责任公司 基于本地记录的数据的机器学习模型的管理和评估
CN110192210A (zh) * 2016-11-04 2019-08-30 谷歌有限责任公司 构建和处理用于动态结构化机器学习模型的计算图
CN110188910A (zh) * 2018-07-10 2019-08-30 第四范式(北京)技术有限公司 利用机器学习模型提供在线预测服务的方法及系统
CN110263949A (zh) * 2019-06-21 2019-09-20 安徽智寰科技有限公司 融合机器机理与人工智能算法系统的数据处理方法及系统
CN110520876A (zh) * 2017-03-29 2019-11-29 新克赛特株式会社 学习结果输出装置及学习结果输出程序
CN111448550A (zh) * 2017-11-22 2020-07-24 亚马逊技术有限公司 网络可访问的机器学习模型训练和托管系统
CN111630534A (zh) * 2018-01-29 2020-09-04 西门子股份公司 用于分析模型的协作机器学习的方法
CN113906384A (zh) * 2019-05-28 2022-01-07 美光科技公司 人工神经网络(ann)应用程序中的存储器即服务
WO2022048050A1 (zh) * 2020-09-06 2022-03-10 厦门理工学院 一种大数据信息采集系统及使用方法

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9563854B2 (en) * 2014-01-06 2017-02-07 Cisco Technology, Inc. Distributed model training
US9563855B2 (en) * 2014-06-27 2017-02-07 Intel Corporation Using a generic classifier to train a personalized classifier for wearable devices
US10452993B1 (en) * 2015-04-23 2019-10-22 Symantec Corporation Method to efficiently apply personalized machine learning models by selecting models using active instance attributes
US10402469B2 (en) * 2015-10-16 2019-09-03 Google Llc Systems and methods of distributed optimization
US10572828B2 (en) * 2015-10-28 2020-02-25 Qomplx, Inc. Transfer learning and domain adaptation using distributable data models
US11321637B2 (en) 2015-10-28 2022-05-03 Qomplx, Inc. Transfer learning and domain adaptation using distributable data models
US20170185898A1 (en) * 2015-12-26 2017-06-29 Arnab Paul Technologies for distributed machine learning
US20170249661A1 (en) * 2016-02-25 2017-08-31 International Business Machines Corporation Generating Actionable Information from Customer-Related Data and Customer Labels
US9858340B1 (en) 2016-04-11 2018-01-02 Digital Reasoning Systems, Inc. Systems and methods for queryable graph representations of videos
US10880833B2 (en) * 2016-04-25 2020-12-29 Sensory, Incorporated Smart listening modes supporting quasi always-on listening
CN107545889B (zh) * 2016-06-23 2020-10-23 华为终端有限公司 适用于模式识别的模型的优化方法、装置及终端设备
US10885463B2 (en) * 2016-07-08 2021-01-05 Microsoft Technology Licensing, Llc Metadata-driven machine learning for systems
US11080846B2 (en) * 2016-09-06 2021-08-03 International Business Machines Corporation Hybrid cloud-based measurement automation in medical imagery
US10867241B1 (en) * 2016-09-26 2020-12-15 Clarifai, Inc. Systems and methods for cooperative machine learning across multiple client computing platforms and the cloud enabling off-line deep neural network operations on client computing platforms
US10444079B2 (en) 2016-10-13 2019-10-15 Tata Consultancy Services Limited System and method for accretion detection
US10147424B1 (en) 2016-10-26 2018-12-04 Intuit Inc. Generating self-support metrics based on paralinguistic information
US10135989B1 (en) 2016-10-27 2018-11-20 Intuit Inc. Personalized support routing based on paralinguistic information
WO2018096544A1 (en) * 2016-11-27 2018-05-31 Pointgrab Ltd Machine learning in a multi-unit system
JP2018136625A (ja) * 2017-02-20 2018-08-30 Kddi株式会社 識別装置、識別方法及び識別プログラム
EP3596670A4 (en) * 2017-03-14 2021-02-17 Tupl, Inc. AUTOMATED DECISION-MAKING USING STEPPED MACHINE LEARNING
KR102068182B1 (ko) * 2017-04-21 2020-01-20 엘지전자 주식회사 음성 인식 장치, 및 음성 인식 시스템
CN107169513B (zh) * 2017-05-05 2019-10-18 第四范式(北京)技术有限公司 控制数据使用顺序的分布式机器学习系统及其方法
US11272160B2 (en) * 2017-06-15 2022-03-08 Lenovo (Singapore) Pte. Ltd. Tracking a point of interest in a panoramic video
CN110019658B (zh) * 2017-07-31 2023-01-20 腾讯科技(深圳)有限公司 检索项的生成方法及相关装置
US10621019B1 (en) * 2017-11-22 2020-04-14 Amazon Technologies, Inc. Using a client to manage remote machine learning jobs
US11394552B2 (en) 2018-03-07 2022-07-19 Private Identity Llc Systems and methods for privacy-enabled biometric processing
US11265168B2 (en) * 2018-03-07 2022-03-01 Private Identity Llc Systems and methods for privacy-enabled biometric processing
US11392802B2 (en) * 2018-03-07 2022-07-19 Private Identity Llc Systems and methods for privacy-enabled biometric processing
US11789699B2 (en) 2018-03-07 2023-10-17 Private Identity Llc Systems and methods for private authentication with helper networks
US11489866B2 (en) 2018-03-07 2022-11-01 Private Identity Llc Systems and methods for private authentication with helper networks
US11138333B2 (en) 2018-03-07 2021-10-05 Private Identity Llc Systems and methods for privacy-enabled biometric processing
US10721070B2 (en) 2018-03-07 2020-07-21 Private Identity Llc Systems and methods for privacy-enabled biometric processing
US11210375B2 (en) * 2018-03-07 2021-12-28 Private Identity Llc Systems and methods for biometric processing with liveness
US11170084B2 (en) 2018-06-28 2021-11-09 Private Identity Llc Biometric authentication
US11502841B2 (en) 2018-03-07 2022-11-15 Private Identity Llc Systems and methods for privacy-enabled biometric processing
US10938852B1 (en) 2020-08-14 2021-03-02 Private Identity Llc Systems and methods for private authentication with helper networks
CN108538291A (zh) * 2018-04-11 2018-09-14 百度在线网络技术(北京)有限公司 语音控制方法、终端设备、云端服务器及系统
US11263540B2 (en) * 2018-05-07 2022-03-01 Apple Inc. Model selection interface
CN108763398B (zh) * 2018-05-22 2021-08-17 腾讯科技(深圳)有限公司 数据库配置参数处理方法、装置、计算机设备和存储介质
US11494693B2 (en) 2018-06-01 2022-11-08 Nami Ml Inc. Machine learning model re-training based on distributed feedback
US11222281B2 (en) 2018-06-26 2022-01-11 International Business Machines Corporation Cloud sharing and selection of machine learning models for service use
KR102172772B1 (ko) * 2018-07-18 2020-11-02 엘지전자 주식회사 인공지능 서버 및 인공지능 디바이스
WO2020131046A1 (en) * 2018-12-19 2020-06-25 Hewlett-Packard Development Company, L.P. Part packing
EP3924845A4 (en) 2019-03-14 2022-12-07 Hewlett-Packard Development Company, L.P. RESPONDING TO MACHINE LEARNING REQUESTS FROM MULTIPLE CUSTOMERS
WO2020185234A1 (en) 2019-03-14 2020-09-17 Hewlett-Packard Development Company, L.P. Preprocessing sensor data for machine learning
US11061819B2 (en) 2019-05-28 2021-07-13 Micron Technology, Inc. Distributed computing based on memory as a service
EP3757991A1 (en) 2019-06-26 2020-12-30 Samsung Electronics Co., Ltd. Electronic apparatus and control method thereof
US11769075B2 (en) 2019-08-22 2023-09-26 Cisco Technology, Inc. Dynamic machine learning on premise model selection based on entity clustering and feedback
US11847545B2 (en) 2019-09-09 2023-12-19 Nxp B.V. Systems and methods involving a combination of machine learning models
US11663523B2 (en) 2019-09-14 2023-05-30 Oracle International Corporation Machine learning (ML) infrastructure techniques
US11562267B2 (en) 2019-09-14 2023-01-24 Oracle International Corporation Chatbot for defining a machine learning (ML) solution
US11625648B2 (en) 2019-09-14 2023-04-11 Oracle International Corporation Techniques for adaptive pipelining composition for machine learning (ML)
CN112712097B (zh) * 2019-10-25 2024-01-05 杭州海康威视数字技术股份有限公司 一种基于开放平台的图像识别方法、装置及用户端
US11227122B1 (en) * 2019-12-31 2022-01-18 Facebook, Inc. Methods, mediums, and systems for representing a model in a memory of device
US11640556B2 (en) 2020-01-28 2023-05-02 Microsoft Technology Licensing, Llc Rapid adjustment evaluation for slow-scoring machine learning models
US11379710B2 (en) 2020-02-28 2022-07-05 International Business Machines Corporation Personalized automated machine learning
US10938979B1 (en) 2020-03-11 2021-03-02 Fmr Llc Generating and displaying custom-selected content in a mobile device application
US11734614B1 (en) * 2020-03-26 2023-08-22 Amazon Technologies, Inc. Training service for an aggregated machine learning model
KR102501496B1 (ko) * 2020-06-11 2023-02-20 라인플러스 주식회사 개인화를 통한 연합 학습의 다중 모델 제공 방법, 시스템, 및 컴퓨터 프로그램
US11636527B2 (en) 2020-09-10 2023-04-25 International Business Machines Corporation Personalization based on private profile models
JP2023544145A (ja) * 2020-10-13 2023-10-20 ヒタチ ヴァンタラ エルエルシー アクションへの傾向についての表現特徴空間における自己適応マルチモデル方法
EP4241170A1 (en) * 2020-11-06 2023-09-13 Xgenesis Inc. Methods and systems for modular personalization center
CN114259210B (zh) * 2021-12-27 2023-10-13 上海交通大学 基于动态皮肤温度的睡眠分期方法及控制系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101283356A (zh) * 2005-10-14 2008-10-08 微软公司 注入到客户机应用程序的搜索结果
US20090106173A1 (en) * 2007-10-17 2009-04-23 Microsoft Corporation Limited-memory quasi-newton optimization algorithm for l1-regularized objectives
US20110066433A1 (en) * 2009-09-16 2011-03-17 At&T Intellectual Property I, L.P. System and method for personalization of acoustic models for automatic speech recognition
CN102737099A (zh) * 2011-03-31 2012-10-17 微软公司 对查询、会话和搜索的个性化
US20130290227A1 (en) * 2010-11-04 2013-10-31 At&T Intellectual Property I, L.P. Systems and Methods to Facilitate Local Searches via Location Disambiguation

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8260787B2 (en) * 2007-06-29 2012-09-04 Amazon Technologies, Inc. Recommendation system with multiple integrated recommenders
US20120150772A1 (en) * 2010-12-10 2012-06-14 Microsoft Corporation Social Newsfeed Triage

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101283356A (zh) * 2005-10-14 2008-10-08 微软公司 注入到客户机应用程序的搜索结果
US20090106173A1 (en) * 2007-10-17 2009-04-23 Microsoft Corporation Limited-memory quasi-newton optimization algorithm for l1-regularized objectives
US20110066433A1 (en) * 2009-09-16 2011-03-17 At&T Intellectual Property I, L.P. System and method for personalization of acoustic models for automatic speech recognition
US20130290227A1 (en) * 2010-11-04 2013-10-31 At&T Intellectual Property I, L.P. Systems and Methods to Facilitate Local Searches via Location Disambiguation
CN102737099A (zh) * 2011-03-31 2012-10-17 微软公司 对查询、会话和搜索的个性化

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
H ALTINCAY ETAL.: "Post-processing of Classifier Outputs in Multiple Classifier Systems", 《SPRINGER BERLIN HEIDELBERG》 *
M BILENKO ETAL.: "Predictive client-side profiles for personalized advertising", 《ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDG DISCOVERY AND DATA MINING》 *
R GROSS ETAL.: "Integrating Utility into Face De-Identification", 《LECTURE NOTES IN COMPUTER SCIENCE》 *
RADINSKY, K. ETAL.: "Behavioral Dynamics on the Web: Learning, Modeling and Prediction", 《ACM TRANSACTIONS ON INFORMATION SYSTEMS (TOIS)》 *
SJ PAN ETAL.: "Cross-domain sentiment classification via spectral feature alignment", 《INTERNATIONAL CONFERENCE ON WORLD WIDE WEB》 *
T SHIRAKI ETAL.: "Large Scale Evaluation of Multi-Mode Recommender System Using Predicted Contexts with Mobile Phone Users", 《PROC OF THE RECSYS WORKSHOP ON CARS》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110192210A (zh) * 2016-11-04 2019-08-30 谷歌有限责任公司 构建和处理用于动态结构化机器学习模型的计算图
CN110192210B (zh) * 2016-11-04 2023-12-26 谷歌有限责任公司 构建和处理用于动态结构化机器学习模型的计算图
CN109983483A (zh) * 2016-11-21 2019-07-05 谷歌有限责任公司 基于本地记录的数据的机器学习模型的管理和评估
CN109983483B (zh) * 2016-11-21 2023-10-03 谷歌有限责任公司 用于管理机器学习模型的计算机实现的方法和计算设备
CN110520876B (zh) * 2017-03-29 2024-05-14 新克赛特株式会社 学习结果输出装置及学习结果输出程序
CN110520876A (zh) * 2017-03-29 2019-11-29 新克赛特株式会社 学习结果输出装置及学习结果输出程序
CN108734297B (zh) * 2017-04-24 2023-07-28 微软技术许可有限责任公司 用于电子内容项的性能优化的机器学习推荐系统、方法
CN108734297A (zh) * 2017-04-24 2018-11-02 微软技术授权有限责任公司 用于网络传输的电子内容项的性能优化的机器学习推荐系统
CN111448550B (zh) * 2017-11-22 2024-03-19 亚马逊技术有限公司 网络可访问的机器学习模型训练和托管系统
CN111448550A (zh) * 2017-11-22 2020-07-24 亚马逊技术有限公司 网络可访问的机器学习模型训练和托管系统
CN111630534A (zh) * 2018-01-29 2020-09-04 西门子股份公司 用于分析模型的协作机器学习的方法
CN111630534B (zh) * 2018-01-29 2023-11-03 西门子股份公司 用于分析模型的协作机器学习的方法
CN110188910A (zh) * 2018-07-10 2019-08-30 第四范式(北京)技术有限公司 利用机器学习模型提供在线预测服务的方法及系统
CN109582529A (zh) * 2018-09-29 2019-04-05 阿里巴巴集团控股有限公司 一种报警阈值的设置方法及装置
CN113906384A (zh) * 2019-05-28 2022-01-07 美光科技公司 人工神经网络(ann)应用程序中的存储器即服务
CN110263949A (zh) * 2019-06-21 2019-09-20 安徽智寰科技有限公司 融合机器机理与人工智能算法系统的数据处理方法及系统
WO2022048050A1 (zh) * 2020-09-06 2022-03-10 厦门理工学院 一种大数据信息采集系统及使用方法

Also Published As

Publication number Publication date
WO2015088841A1 (en) 2015-06-18
EP3080754A1 (en) 2016-10-19
US20150170053A1 (en) 2015-06-18

Similar Documents

Publication Publication Date Title
CN106068520A (zh) 个性化的机器学习模型
EP3467723B1 (en) Machine learning based network model construction method and apparatus
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
Nguyen et al. Practical and theoretical aspects of mixture‐of‐experts modeling: An overview
US20200311198A1 (en) N-ary relation prediction over text spans
CN110705489B (zh) 目标识别网络的训练方法、装置、计算机设备和存储介质
CN109313720A (zh) 具有稀疏访问的外部存储器的增强神经网络
CN112329816A (zh) 数据分类方法、装置、电子设备和可读存储介质
CN109087205A (zh) 舆情指数的预测方法及装置、计算机设备和可读存储介质
Nair et al. Covariate shift: A review and analysis on classifiers
CN109858212A (zh) 用于数字密码软键盘的身份识别方法、装置和终端
CN106537423A (zh) 作为服务的自适应特征化
CN113704436A (zh) 基于会话场景的用户画像标签挖掘方法及装置
CN110717407A (zh) 基于唇语密码的人脸识别方法、装置及存储介质
CN112839185B (zh) 用于处理图像的方法、装置、设备和介质
CN108304568B (zh) 一种房地产公众预期大数据处理方法及系统
Suleman et al. Google play store app ranking prediction using machine learning algorithm
CN113762005B (zh) 特征选择模型的训练、对象分类方法、装置、设备及介质
CN109766776A (zh) 操作执行方法、装置、计算机设备和存储介质
WO2020167156A1 (ru) Способ отладки обученной рекуррентной нейронной сети
CN109992778A (zh) 基于机器学习的简历文档判别方法及装置
CN114298204A (zh) 设备屏幕划痕检测模型训练方法及设备屏幕划痕检测方法
JP7292235B2 (ja) 分析支援装置及び分析支援方法
CN110472680B (zh) 目标分类方法、装置和计算机可读存储介质
CN114066564A (zh) 服务推荐时间确定方法、装置、计算机设备、存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20161102

WD01 Invention patent application deemed withdrawn after publication