CN109313727A - 异构数据流上的利用-探索 - Google Patents

异构数据流上的利用-探索 Download PDF

Info

Publication number
CN109313727A
CN109313727A CN201780035321.7A CN201780035321A CN109313727A CN 109313727 A CN109313727 A CN 109313727A CN 201780035321 A CN201780035321 A CN 201780035321A CN 109313727 A CN109313727 A CN 109313727A
Authority
CN
China
Prior art keywords
event data
computing system
component
data
exploration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201780035321.7A
Other languages
English (en)
Inventor
J·R·帕玛
A·戈斯瓦米
S·沙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN109313727A publication Critical patent/CN109313727A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/542Event management; Broadcasting; Multicasting; Notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

使用利用‑探索模型对异构事件数据流的机器学习。异构事件数据流可以包括任何数量的不同数据类型。系统根据公共特征维度空间来特征化至少一部分传入的事件数据流。然后,得到的特征化事件数据流被分流成探索部分和利用部分。探索部分用于执行机器学习,从而增加机器知识。利用部分用于利用当前的机器知识。因此,在传入的事件数据流的利用和探索之间达成自动平衡。自动平衡甚至可以作为云计算服务来执行。

Description

异构数据流上的利用-探索
背景技术
计算机和网络已经迎来了所谓的“信息时代”。人类和机器都有大量的数据可用。大量数据也可以被提供给计算系统,以允许计算系统通过观察数据内的模式来学习信息,而无需信息显式地位于数据内。这种基于计算机的学习过程通常被称为“机器学习”。
学习模型中的一个权衡被称为探索(exploration)-利用(exploitation)权衡。这种权衡是在选择采用现有知识以获得更多即时利益(“利用”)和选择试验不太确定的东西以便可能学习更多(“探索”)之间的平衡。在机器学习中,通过更详细地探索很少发生的数据点,或者通过针对由于环境或市场条件的变化而导致的最近变化探索频繁出现的数据点,在训练模型中捕获的知识可以被增强。
并非每次短暂偏离轨道都会产生有用的环境知识。然而,作为长期策略,如果将一些资源用于探索,那么环境知识最终将增加,从而导致有更多的机会在后续(通过利用)使用该信息。这种权衡实质上有关于平衡即时利益与用于长期利益的即时牺牲之间—平衡当前需求与未来改进的愿望。一些传统的计算系统确实认识到这种平衡,因此在进行机器学习时提供了利用和探索的权衡。
在此要求保护的主题不限于解决任何缺点或仅在诸如上面描述的那些环境中操作的实施例。而是,提供该背景仅用于说明可以实践本文描述的一些实施例的一个示例性技术领域。
发明内容
在此描述的至少一些实施例涉及使用利用-探索(exploit-explore)模型对异构事件数据流进行机器学习。异构事件数据流可以包括任何数量的不同数据类型。该系统根据公共特征维度空间来特征化至少一部分传入的事件数据流。因此,不管在事件数据流内接收到不同数据类型的事实如何,该数据被转换为具有相同特征维度空间的数据结构(例如特征向量)。
得到的特征化的事件数据流然后被分流(split)成探索部分和利用部分。探索部分用于执行机器学习,从而增加机器知识。利用部分用于利用当前的机器知识。因此,在进入事件数据流的利用和探索之间达成自动平衡。自动平衡甚至可以作为云计算服务来执行。因此,可以向多个客户端应用提供利用-探索服务,从而允许每个客户端应用具有输入数据流的适当平衡的改进以及可能实时的分析,以优化当前利用与用于未来利用的学习(探索)。
在一些实施例中,可以动态地改变该分流。此外,利用和/或探索可以由组件执行,并且可以被其他组件切换。因此,存在可以被执行的利用-探索模型的高度定制和/或动态改变。
提供本发明内容是为了以简化的形式介绍一系列概念,这些概念将在下面的具体实施方式中进一步描述。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
附图说明
为了描述可以获得本发明的上述和其他优点和特征的方式,上面简要描述的本发明的更具体的描述将通过参考附图中所示的具体实施例来呈现。应理解,这些附图仅描绘了本发明的典型实施例,因此不应认为是对其范围的限制,本发明将通过使用附图利用附加的规定和细节被描述和解释,其中:
图1示出了可以采用在此描述的原理的示例计算系统;
图2示出了根据在此描述的原理使用分流利用-探索模型在异构数据流上实现机器学习的计算系统;
图3示出了根据在此描述的原理的基于异构数据流的机器学习方法的流程图;
图4示出了在云计算环境中实现的图2的计算系统的实施例;
图5A示出了可以从中拖出图2和4的机器学习组件的机器学习组件库;
图5B示出了可以从中拖出图2和4的探索组件的探索组件库;
图5C示出了可以从中拖出图2和4的利用组件的利用组件库;和
图5D示出了可以从中拖出图2和4的分流器的分流器组件库。
具体实施方式
在此描述的至少一些实施例涉及使用利用-探索模型对异构事件数据流进行机器学习。异构事件数据流可包括任何数量的不同数据类型。系统根据公共特征维度空间来特征化至少一部分传入的事件数据流。因此,不管在事件数据流内接收到不同数据类型的事实如何,该数据被转换为具有相同特征维度空间的数据结构(例如特征向量)。
得到的特征化的事件数据流然后被分流成探索部分和利用部分。探索部分用于执行机器学习,从而增加机器知识。利用部分用于利用当前的机器知识。因此,在进入事件数据流的利用和探索之间达成自动平衡。自动平衡甚至可以作为云计算服务来执行。因此,可以向多个客户端应用提供利用-探索服务,从而允许每个客户端应用具有输入数据流的适当平衡的改进以及可能实时的分析,以优化当前利用与用于未来利用的学习(探索)。
在一些实施例中,可以动态地改变分流。此外,利用和/或探索可以由组件执行,并且可以被切换到其他组件。因此,存在可以被执行的利用-探索模型的高度定制和/或动态改变。
将参照图1描述计算系统的一些介绍性讨论。然后,将参照图2和图3描述实现探索-利用模型的机器学习系统的操作。最后,将参考图4至5D描述在云计算环境中实施的机器学习服务的操作。
计算系统现在越来越多地采用各种形式。计算系统可以是,例如,手持设备、家用电器、膝上型计算机、台式计算机、大型机、分布式计算系统、数据中心,或者甚至传统上不被认为是计算系统的设备,诸如可穿戴设备(例如,眼镜)。在本说明书和权利要求书中,术语“计算系统”被广义地定义为包括任何设备或系统(或其组合),其包括至少一个物理和有形处理器,以及能够在其上具有可由处理器执行的计算机可执行指令的物理和有形存储器。存储器可以采用任何形式,并且可以取决于计算系统的性质和形式。计算系统可以分布在网络环境上,并且可以包括多个组成计算系统。
如图1所示,在其最基本配置中,计算系统100典型地包括至少一个硬件处理单元102和存储器104。存储器104可以是物理系统存储器,其可以是易失性的、非易失性的、或两者的某种组合。术语“存储器”在在此还可以用于指代非易失性大容量存储,诸如物理存储介质。如果计算系统是分布式的,则处理、存储器和/或存储能力也可以是分布式的。
计算系统100上还具有通常被称为“可执行组件”的多个结构。例如,计算系统100的存储器104被示为包括可执行组件106。术语“可执行组件”一种结构的名称,该结构被计算领域中的本领域普通技术人员熟知为可以是软件、硬件或其组合的结构。例如,当以软件实现时,本领域普通技术人员将理解,可执行组件的结构可以包括软件对象、例程、方法等,其可以在计算系统上执行,无论这样的可执行组件是否存在于计算系统的堆(heap)中,或者可执行组件是否存在于计算机可读存储介质上。
在这种情况下,本领域普通技术人员将认识到,可执行组件的结构存在于计算机可读介质上,使得当由计算系统的一个或多个处理器(例如,通过处理器线程)解释时,使计算系统执行功能。这种结构可以是直接通过处理器而计算机可读的(如果可执行组件是二进制文件(binary),则是这种情况)。备选地,该结构可以被构造成可解释和/或编译(无论是在单个阶段还是在多个阶段中)的,以便生成可由处理器直接解释的这种二进制文件。当使用术语“可执行组件”时,对可执行组件的示例结构的这种理解完全在对计算领域的普通技术人员的理解之内。
本领域普通技术人员还充分理解术语“可执行组件”,其包括排他性地或者近乎排他性地用硬件实现的结构,诸如,现场可编程门阵列(FPGA)、专用集成电路(ASIC),或任何其他专用电路。因此,术语“可执行组件”是被计算领域的普通技术人员很好地理解的结构的术语,无论该结构以软件、硬件还是组合来实施。在本说明书中,术语“组件”、“服务”、“引擎”、“模块”、“虚拟机”、“控制”等也可以被使用。如在本说明书和本案中所使用的,这些术语(无论是否用修改条款表达)也旨在与术语“可执行组件”同义,因此也具有在计算领域普通人很好地理解的结构。
在以下描述中,参考由一个或多个计算系统执行的动作来描述实施例。如果这些动作是在软件中实施的,则(执行该动作的相关计算系统的)一个或多个处理器响应于已经执行构成可执行组件的计算机可执行指令来引导计算系统的操作。例如,这样的计算机可执行指令可以体现在形成计算机程序产品的一个或多个计算机可读介质上。这种操作的一个例子涉及数据的操纵。
计算机可执行指令(和被操纵数据)可以存储在计算系统100的存储器104中。计算系统100还可以包含允许计算系统100例如通过网络110与其他计算系统通信的通信信道108。
并非所有计算系统都需要用户界面,虽然在一些实施例中,计算系统100包括用于与用户交互的用户界面112。用户界面112可以包括输出机构112A以及输入机构112B。这里描述的原理不限于精确的输出机构112A或输入机构112B,因为这将取决于设备的性质。然而,输出机构112A可以包括,例如扬声器、显示器、触觉输出、全息图、虚拟现实元件等。输入机构112B的示例可以包括,例如麦克风、触摸屏、全息图、相机、键盘、其他指针输入的鼠标、任何类型的传感器、虚拟现实元件等。
在此描述的实施例可以包括或利用包括计算机硬件(诸如,例如一个或多个处理器和系统存储器)的专用或通用计算系统,如下面更详细地讨论的。在此描述的实施例还包括用于携带或存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。这种计算机可读介质可以是可由通用或专用计算系统访问的任何可用介质。存储计算机可执行指令的计算机可读介质是物理存储介质。携带计算机可执行指令的计算机可读介质是传输介质。因此,作为示例而非限制,本发明的实施例可包括至少两种截然不同的计算机可读介质:存储介质和传输介质。
计算机可读存储介质包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、或任何其他物理和有形存储介质,该物理和有形存储介质可用于存储计算机可执行指令或者数据结构形式的所需程序代码部件,并且可以由通用或专用计算系统访问。
“网络”被定义为能够在计算系统和/或模块和/或其他电子设备之间传输电子数据的一个或多个数据链路。当通过网络或另一通信连接(硬连线、无线或硬连线或无线的组合)向计算系统传送或提供信息时,计算系统将连接恰当地视为传输介质。传输介质可以包括网络和/或数据链路,其可以用于以计算机可执行指令或数据结构的形式承载期望的程序代码部件,并且可以由通用或专用计算系统访问。上述的组合也应包括在计算机可读介质的范围内。
此外,在到达各种计算系统组件之后,计算机可执行指令或数据结构形式的程序代码部件可以自动地从传输介质传输到存储介质(反之亦然)。例如,通过网络或数据链路接收的计算机可执行指令或数据结构可以缓冲在网络接口模块(例如,“NIC”)内的RAM中,然后最终传送到计算系统RAM和/或计算系统中的较不易失的存储介质。因此,应该理解,存储介质也可以包括在(或甚至主要)利用传输介质的计算系统组件中。
计算机可执行指令包括例如指令和数据,当在处理器处执行时,该指令和数据使得通用计算系统、专用计算系统或专用处理设备执行特定功能或功能组。备选地或附加地,计算机可执行指令可以配置计算系统以执行特定功能或功能组。计算机可执行指令可以是,例如,二进制文件或甚至在处理器直接执行之前经历一些转换(诸如编译)的指令,诸如中间格式指令(诸如汇编语言),或甚至源代码。
尽管用特定于结构特征和/或方法动作的语言描述了本主题,但应理解,所附权利要求书中定义的主题不必限于上述所描述的特征或动作。而是,所描述的特征和动作被公开为实现权利要求的示例形式。
本领域技术人员将理解,本发明可以在具有许多类型的计算系统配置的网络计算环境中实践,包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持设备、多处理器系统、基于微处理器或可编程的消费电子产品、网络PC、小型计算机、大型计算机、移动电话、PDA、寻呼机、路由器、交换机、数据中心、可穿戴设备(诸如眼镜)等。本发明还可以在分布式系统环境中实施,其中通过网络链接(通过硬连线数据链路、无线数据链路或通过硬连线和无线数据链路的组合)的本地和远程计算系统都执行任务。在分布式系统环境中,程序模块可以位于本地和远程存储器存储设备中。
本领域技术人员还将理解,本发明可以在云计算环境中实践。计算环境可以是分布式的,但这不是必需的。当分布式时,云计算环境可以在组织内国际性地分布和/或具有属于跨多个组织所拥有的组件。在本说明书和以下权利要求中,“云计算”被定义为用于实现对可配置计算资源(例如,网络、服务器、存储、应用和服务)的共享池的按需网络访问的模型。“云计算”的定义不限于在适当部署时可从这种模型获得的任何其他众多优点。
现在计算系统100及其示例结构和操作已经参照图1被描述,实施利用-探索模型的机器学习系统的操作将参照图2和图3描述。
图2示出了在异构事件数据流上使用分流利用-探索模型实现机器学习的计算系统200。计算系统200可以如上面针对图1的计算系统100所描述的那样被构造和操作。
计算系统200接收多种数据类型的异构事件数据流210。例如,异构数据流210被示为包括第一特定数据类型211(每个由正方形表示)的事件,第二特定数据类型212的事件(由圆圈表示)和第三特定数据类型的事件213(由三角形表示)。
省略号214A和214B表示事件数据流是连续的,并且所示事件数据流仅是事件数据流的一小部分。省略号214A和214B还表示这里描述的原理不限于事件数据流内的数据类型,也不限于事件数据流内的数据类型的数量。仅作为示例,数据类型可以是图像数据类型、视频数据类型、音频数据类型、文本数据类型和/或其他数据类型。
图3示出了用于基于异构数据流的机器学习的方法300的流程图。由于图3的方法300可以在图2的计算系统200的上下文中执行,因此将频繁地参考图2和3来描述方法300。方法300包括接收多种数据类型的异构事件数据流(动作310)。作为示例,在图2中,计算系统200接收事件数据流210。
根据图3,当接收到事件时,将这些事件特征化(动作320)到公共特征维度空间中。作为示例,任何给定数据类型的数据的一个或多个特征可以被提取,并且沿一个维度表示这些特征。例如,特征集合可以表示为特征向量。参考图2,可以由图2的特征化组件220执行到公共特征维度空间的特征化,从而产生特征化的事件流221。
用于所有数据类型的特征向量在公共特征维度空间中,因为每个特征向量具有相同类型的特征的集合,而不管事件数据类型如何。为了提供特征向量的有效处理,尽管没有要求,但特征也是对齐的,使得特征的类型由其在向量内的位置以相同的方式确定,而不管事件数据类型如何。此外,为了提供特征向量的有效处理,尽管没有要求,但是没有一个特征向量包括除了相同类型特征的集合之外的特征。向量操作,诸如比较,可以在特征化的事件流221的特征向量之间快速执行。
接下来,特征化的事件流被分流(动作330)成对其执行机器学习(指向350)的被导向探索(动作340)的特征化的事件的部分。机器学习也对利用事件执行。基于当前的机器理解,特征化的事件数据的另一部分朝向利用(动作360)被分流(动作330)。因为方法300是对输入事件数据流执行的,并且因此是对特征化的事件数据流执行的,所以接收、特征化、分流、用以执行新机器学习的探索以及当前机器学习的利用的动作,可以被重复地和不断地执行。因此,方法300可以被认为是处理流程管道,从而引起基本上实时的探索和利用。
例如,如图2所示,特征化的事件流221由分流组件230分流成被导向探索组件240的第一部分231,和被导向利用组件260的第二部分232。利用组件260耦合(如箭头261所示)到具有当前机器学习和理解水平的机器学习组件250。利用组件260可以因此对每个进入的特征化的事件数据流做出决定,从而推进目标以获得更多即时回报。探索组件240还耦合(如箭头241所示)到机器学习组件250,以便改变并可能改进机器学习组件250的机器理解水平。
机器学习组件250支持来自特征化的事件数据的实时学习。可以支持适用于以分布的、并行的方式学习的学习算法。来自分布式节点的学习模型可以组合成单个组合学习模型。学习组件可以支持多种学习算法,例如利用计数的学习、随机梯度下降、深度学习等。
在一些实施例中,机器学习高速缓存270可以被插入在探索组件240和机器学习组件260之间。机器学习高速缓存270累积分流朝向探索分流的特征化的事件数据。因此,探索组件240可以不是对实时的特征化的事件流而是对累积的特征化的事件流来执行机器学习。高速缓存270可以被配置为具有无模式设计的密钥/属性存储库。高速缓存270可以支持对云中的非结构化数据高速缓存的实时更新。高速缓存270还可以支持云中的特征化,并且可以是多并发高速缓存。这实现了实时查找,键查找。具有高速缓存意味着访问数据是快速的,快速的数据访问,并且易于适应不同的场景和应用。这给出了存储如下灵活的数据集的能力,该数据集诸如为用于Web应用程序的用户数据、地址簿、设备信息以及客户端应用所需的任何其他类型的数据。
探索组件240和机器学习高速缓存270之间的通信由箭头251表示。如箭头251所示,特征化的事件数据可以由探索组件240写入机器学习高速缓存270。由于箭头251是双向的,箭头251还表示由探索组件240从机器学习高速缓存读取累积的特征化的事件数据,以便执行机器学习。箭头251还表示将得到的机器学习知识写回机器学习高速缓存270。
箭头252表示机器学习组件可以从机器学习高速缓存270读取新机器学习知识。这从而增加机器学习组件250的知识。因此,将特征化的事件数据的一部分朝向探索组件240分流,允许机器学习的主体被提升。
机器学习高速缓存270不是必需的。可以对特征化的事件流执行机器学习,一次一个特征化的事件。在该实施例中,探索组件240学习,并将该学习向前(如箭头241所示)传递给机器学习组件260。无论哪种方式,探索的使用允许机器学习的提升。
现在实施利用-探索模型的机器学习系统的一般操作已经参考图2和3被描述了,在云计算环境中实施的机器学习服务的操作将参考图4至5D被描述。
图4示出了图2的计算系统200被在云计算环境401中实施的的实施例400。图4的元件410、420、421、430、431、432、440、441、450、451、452、460和461可以操作并且是图2的对应元件210、220、221、230、231、232、240、241、250、251、252、260和261的示例。然而,云计算环境401还被示为包括附加流402和403。此外,在云计算环境401之外,示出了存在客户端应用404和流式数据摄取组件480,和流405。
客户端应用404表示由云计算环境401提供的所示的利用-探索服务的客户。目前,利用-探索服务被提供给客户端应用404A。然而,客户端应用404B和404C的存在表示在此描述的原理可以被扩展为向多个客户端提供类似的利用-探索服务。但是,对于每个客户端应用,可能存在对其执行机器学习的定制目标函数。如图4所示,探索组件440通过向客户端应用404A提供输出402来进行探索。利用组件460通过向客户端应用404A提供输出403来进行利用。
在利用组件460和探索组件440之间分流数据流平衡了在选择使用当前知识以获得更多即时利益(“利用”)和选择试验不太确定的东西以便可能学习更多(“探索”)之间的权衡。
例如,一个客户端应用可以是新闻服务。在这种情况下,目标函数可以呈现感兴趣的新闻项目(例如,最大化用户将选择更多细节以阅读关于首页上的一篇文章的机会)。如果客户端应用是线上的市场,则目标函数可以呈现具有更高可能性导致购买的产品。如果客户端应用是航空公司预订页面,则目标函数可以呈现用户更可能期望的可能路线,或者呈现更可能由用户购买的路线。
不同的客户端应用可以具有不同的目标函数。因此,不同的学习模块450可以适于实现不同的目标函数。同样地,可以使用不同的探索组件440以便最好地学习如何实现相应的目标函数。此外,可以使用不同的利用组件460以便最好地利用当前的机器知识来实现相应的目标函数。
甚至可以使用不同的分流器430来实现适合于客户平衡探索和利用的意愿的不同分流算法。例如,在一些分流器中,探索和利用之间的分流的平衡可以由用户配置,和/或可以动态地改变。通过更多地致力于利用,一些分流器可能倾向于更快地学习。一些分流器可能倾向于更快地利用当前的机器知识。
例如,图5A示出了可以从中拖出(如箭头501A所示)机器学习组件450的机器学习组件库500A。此外,图5B示出了可以从中拖出(如箭头501B所示)探索组件440探索组件库500B。而且,图5C示出了可以从中拖出(如箭头501C所示)利用组件460的利用组件库500C。最后,图5D示出了可以从中拖出(如箭头501D所示)分流器430的分流器组件库500D。
尽管三个客户端应用404A、404B和404C被示为使用图4的云计算环境401的利用-探索云计算服务的客户端应用404,但是省略号404D表示可能存在其他数量的具有使用利用-探索服务的各种目标函数的客户端应用。每个客户端应用可以使用适当的分流器、探索、利用和/或机器学习组件来定制(配置)利用-探索服务。
流式数据摄取组件480能够接收大流量的流式数据,可能是大约每秒甚至数百万个事件。在一个实施例中,流式数据摄取组件是高容量发布-订阅服务(例如,EventHub,Kakfa)。作为示例,流式数据摄取组件480从客户端应用404A接收事件数据,如箭头405所示。然而,流式数据摄取组件480可以经由例如发布,从多个客户端应用接收事件。
在图4中,特征化组件420是图2的特征化组件220的示例,但是示出了关于如何有效地执行异构事件数据流的特征化的更多结构。特征化组件420包括用于异构数据类型的通用接口490,其接收事件数据流410。通用接口490确定每个事件的数据类型并将事件数据转发到适当的特定于类型的特征化组件491、492或493。在所示实施例中,存在图像特征化组件491、语音特征化组件492和文本特征化组件493。然而,省略号494表示可以存在可以被接收的任何数量和类型的事件数据。因此,取决于客户端应用,类型特定的特征化组件可以从类型特定组件库中拖出。组件495表示每个类型特定的特征化组件将事件特征化到公共特征维度空间中,而不管事件数据类型如何。在操作中可能存在公共特征嵌入组件495的多个实例。
通用接口490从流式数据摄取组件480订阅事件流410。通用接口490可以针对结构化和非结构化数据的特征化进行摄取。通用接口490还允许处理不同数据格式的能力。在这种情况下,接口被设计为适当地调用可以处理特定数据格式的单独下游模块。因此,流式数据摄取组件480和通用接口490(具有其支持的下游特征化组件)的组合允许在云计算环境中实现时高度可扩展的利用-探索模型,可以处理各种异构数据类型事件,可以处理结构化和非结构化数据的事件。
在不脱离本发明的精神或必要特征的情况下,本发明可以以其他形式实施。所描述的实施例在所有方面都应被视为仅是说明性的而非限制性的。因此,本发明的范围由所附权利要求而不是前面的描述表示。在权利要求的等同方式的含义和范围内的所有变化都包含在其范围内。

Claims (10)

1.一种计算系统,所述计算系统使用分流利用-探索模型在异构数据流上实施机器学习,所述计算系统包括:
一个或多个处理器;
一个或多个计算机可读介质,其上具有计算机可执行指令,所述计算机可执行指令被构造成使得当由所述一个或多个处理器执行时使所述计算系统基于异构数据流执行用于机器学习的方法,所述方法包括:
接收多种数据类型的异构事件数据流的动作;
将所述异构事件数据流的所述事件数据中的至少一些事件数据特征化到公共特征维度空间的动作;以及
将特征化的事件数据的流分流成被导向探索的部分以及基于当前的机器理解分流成被导向利用的部分的动作,使用所述特征化的事件数据的被导向所述探索的所述部分中的至少一些数据来对被导向所述探索的所述部分执行机器学习。
2.根据权利要求1所述的计算系统,所述接收、所述特征化和所述分流的动作被重复执行。
3.根据权利要求1所述的计算系统,所述接收、所述特征化和所述分流的动作被连续执行。
4.根据权利要求1所述的计算系统,针对多个数据流中的每个数据流,所述方法被执行多次。
5.根据权利要求1所述的计算系统,所述计算系统还包括:
机器学习高速缓存,其累积向探索分流的多个特征化的事件数据,以使得机器学习使用所述特征化的事件数据的集合而被执行。
6.根据权利要求1所述的计算系统,将朝向探索分流的所述特征化的事件数据作为事件数据流来执行对分流所述特征化的事件数据执行的所述机器学习。
7.根据权利要求1所述的计算系统,其中所述分流的平衡动态地改变。
8.根据权利要求1所述的计算系统,其中利用由利用组件执行,所述利用组件选自利用组件库,所述利用组件能够与所述利用组件库的另一利用组件切换。
9.根据权利要求1所述的计算系统,其中探索由探索组件执行,所述探索组件选自探索组件库,所述探索组件能够与所述探索组件库的另一探索组件切换。
10.一种用于基于异构数据流的机器学习的方法,所述方法包括:
接收多种数据类型的异构事件数据流的动作;
将所述异构事件数据流的事件数据中的至少一些事件数据特征化到公共特征维度空间的动作;以及
将特征化的事件数据的流分流成被导向探索的部分以及基于当前的机器理解分流成被导向利用的部分的动作,使用所述特征化的事件数据的被导向所述探索的所述部分中的至少一些数据来对被导向所述探索的所述部分执行机器学习。
CN201780035321.7A 2016-06-06 2017-06-01 异构数据流上的利用-探索 Withdrawn CN109313727A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/174,792 2016-06-06
US15/174,792 US20170351969A1 (en) 2016-06-06 2016-06-06 Exploit-explore on heterogeneous data streams
PCT/US2017/035340 WO2017213942A1 (en) 2016-06-06 2017-06-01 Exploit-explore on heterogeneous data streams

Publications (1)

Publication Number Publication Date
CN109313727A true CN109313727A (zh) 2019-02-05

Family

ID=59062089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780035321.7A Withdrawn CN109313727A (zh) 2016-06-06 2017-06-01 异构数据流上的利用-探索

Country Status (4)

Country Link
US (1) US20170351969A1 (zh)
EP (1) EP3465557A1 (zh)
CN (1) CN109313727A (zh)
WO (1) WO2017213942A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111796923A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 数据处理方法、装置、存储介质及服务器

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10769233B2 (en) * 2017-06-13 2020-09-08 Open Text Corporation Systems and methods for communication across multiple browser pages for an application
US11676220B2 (en) 2018-04-20 2023-06-13 Meta Platforms, Inc. Processing multimodal user input for assistant systems
US11715042B1 (en) 2018-04-20 2023-08-01 Meta Platforms Technologies, Llc Interpretability of deep reinforcement learning models in assistant systems
US10782986B2 (en) 2018-04-20 2020-09-22 Facebook, Inc. Assisting users with personalized and contextual communication content
US11886473B2 (en) 2018-04-20 2024-01-30 Meta Platforms, Inc. Intent identification for agent matching by assistant systems
JP7109004B2 (ja) * 2018-12-06 2022-07-29 日本電信電話株式会社 推定装置、推定方法、及びプログラム
US11368549B2 (en) * 2019-12-05 2022-06-21 Microsoft Technology Licensing, Llc Platform for multi-stream sampling and visualization
CN117441176A (zh) * 2021-06-10 2024-01-23 瑞典爱立信有限公司 用于通信网络中的协作机器学习的全局机器学习模型的选择

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111796923A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 数据处理方法、装置、存储介质及服务器

Also Published As

Publication number Publication date
EP3465557A1 (en) 2019-04-10
WO2017213942A1 (en) 2017-12-14
US20170351969A1 (en) 2017-12-07

Similar Documents

Publication Publication Date Title
CN109313727A (zh) 异构数据流上的利用-探索
Naqvi et al. The nexus between big data and decision-making: A study of big data techniques and technologies
Torrecilla et al. Data learning from big data
Merla et al. Data analysis using hadoop MapReduce environment
US9584358B2 (en) Global production rules for distributed data
Londhe et al. Platforms for big data analytics: Trend towards hybrid era
EP3891689A1 (en) Generating digital media clusters corresponding to predicted distribution classes from a repository of digital media based on network distribution history
Bhardwaj et al. Big data emerging technologies: A CaseStudy with analyzing twitter data using apache hive
US20180278435A1 (en) Systems and methods for implementing event-flow programs
US20180276508A1 (en) Automated visual information context and meaning comprehension system
Verma et al. Big Data representation for grade analysis through Hadoop framework
AU2019327554A1 (en) Technologies for enabling analytics of computing events based on augmented canonicalization of classified images
Belcastro et al. ParSoDA: high-level parallel programming for social data mining
US20200082016A1 (en) Logic-based relationship graph expansion and extraction
Gupta Big data analysis using computational intelligence and Hadoop: a study
Lisovskaya et al. The total capacity of customers in the infinite-server queue with MMPP arrivals
US10102029B2 (en) Extending a map-reduce framework to improve efficiency of multi-cycle map-reduce jobs
US11100123B2 (en) Sharing intermediate data in map-reduce
Fowdur et al. Big data analytics with machine learning tools
Singh et al. Twitter based sentiment analysis of GST implementation by Indian government
US20220269927A1 (en) Optimizing machine learning
Tamboli et al. A survey on innovative approach for improvement in efficiency of caching technique for big data application
Martínez-Castaño et al. A micromodule approach for building real-time systems with python-based models: Application to early risk detection of depression on social media
Leal et al. Crowdsourced data stream mining for tourism recommendation
Essakimuthu et al. Enhanced Hadoop distribution file system for providing solution to big data challenges

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20190205