CN107004022A - 数据分割和变换方法与装置 - Google Patents

数据分割和变换方法与装置 Download PDF

Info

Publication number
CN107004022A
CN107004022A CN201580067112.1A CN201580067112A CN107004022A CN 107004022 A CN107004022 A CN 107004022A CN 201580067112 A CN201580067112 A CN 201580067112A CN 107004022 A CN107004022 A CN 107004022A
Authority
CN
China
Prior art keywords
pair
data
address
key
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580067112.1A
Other languages
English (en)
Other versions
CN107004022B (zh
Inventor
A·D·罗斯
G·巴布
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN107004022A publication Critical patent/CN107004022A/zh
Application granted granted Critical
Publication of CN107004022B publication Critical patent/CN107004022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本文公开了与处理数据相关联的装置、方法、以及存储介质。在实施例中,装置可以包括数据预处理器,数据预处理器用于将与多个两端点对的单向关系相关联的标量数据集合分割成与多个两端点对相关联的方向性数据的多个工作负载。在实施例中,分割操作可以包括将两端点对分割成多个组,其中每个组包括两端点对的多个分位数。可以描述和/或要求保护其它实施例。

Description

数据分割和变换方法与装置
相关申请
本申请要求享有于2015年1月9日提交的题为“DATA PARTITION ANDTRANSFORMATION METHODS AND APPARATUSES(数据分割和变换方法与装置)”的美国专利申请14/593,907的优先权。
技术领域
本公开涉及数据处理领域。更具体地,本公开涉及用于分割和/或变换大的数据集合(例如,网流(netflow)记录)的数据预处理器。
背景技术
本文提供的背景描述出于总体上呈现本公开的上下文的目的。除非本文另有指示,否则本节中描述的材料不是本申请中权利要求书的现有技术,并且不应因包含在本节中而被认为是现有技术。
“大数据”是指数据集的任何集合,其如此庞大且复杂而使得使用传统的数据处理应用对它们进行处理变得困难。使用传统的关系数据库管理系统、桌面统计、和/或可视化程序套件常常难以对“大数据”起作用。相反,常常需要在数十、数百或甚至数千个服务器上运行的大规模并行软件。
例如,十多年来,网络流(也被称为“网流”、“s流”)已经是网络业务的普遍核算记录。网流经由以下项提供关于网络上的通信的信息:源互联网协议(IP)地址、目的IP地址、协议、开始时间、分组的数量、以及字节计数。它们在历史上在企业中用于网络容量规划和应用性能故障排除。随着时间的推移,它们也被认为是用于识别信息安全威胁和攻击的合理方法。然而,由于随着IP可寻址设备的数量增加网络变得越来越大,企业数据或企业间数据的量变得如此大而使得利用传统的数据系统/工具对这些数据进行分析是不切实际的。给出企业中的可能的网流记录的规模的概念,对于财富100强企业而言,每天在企业网络的互联网服务提供商(ISP)层产生超过30亿个网流记录并不罕见,并且如果包括局域网(内联网)数据,则该数字显著增加得更大。由于记录的性质,该问题随着网流(和其它大数据应用)典型地具有偏斜的值分布(跨IP地址)而进一步复杂化。
附图说明
通过结合附图的以下具体实施方式将容易理解实施例。为了有助于该描述,同样的附图标记指定同样的结构元素。在附图的图中,实施例以示例而非限制的方式示出。
图1示出了根据各种实施例的用于处理和分析大数据的计算布局。
图2示出了根据各种实施例的用于将两个端点的单向关系的标量数据变换为两端点对的方向性数据的示例过程。
图3示出了根据各种实施例的用于创建针对端点对的索引键矩阵和将数据集合分割成服从并行处理的工作负载的分割键元组矩阵的示例过程。
图4示出了根据各种实施例的用于确定多个组(每个组具有多个分位数)以用于将方向性数据分割成服从并行处理的工作负载的示例过程。
图5示出了根据各种实施例的使用经确定的具有分位数的组来生成服从并行处理的工作负载的示例过程。
图6示出了根据各种实施例的适于用来实践本公开的方面的示例计算系统。
图7示出了根据所公开的实施例的具有用于实践参考图1-5描述的方法的指令的存储介质。
具体实施方式
本文公开了与处理数据相关联的装置、方法、以及存储介质。在实施例中,装置可以包括数据预处理器,用于将与多个两端点对的单向关系相关联的标量数据(例如,从源IP地址到目的IP地址的网流数据)的集合分割成与多个两端点对相关联的方向性数据(例如,两个IP地址的有符号的时间序列数据,其中符号表示方向)的多个工作负载。在实施例中,分割操作可以包括将两端点对分割成多个组(bin),其中每个组包括两端点对的多个分位数。
在实施例中,装置还可以包括与数据预处理器耦合的一个或多个分析器,以并行地分析具有两端点对的方向性数据的工作负载(或组合)。
在下面的具体实施方式中,参考形成其一部分的附图,其中同样的附图标记始终通篇指定同样的部件,并且其中通过图示的方式示出可以被实践的实施例。应当理解,在不脱离本公开的范围的情况下,可以使用其它实施例并且可以进行结构或逻辑改变。因此,以下具体实施方式不应被认为是限制意义的,并且实施例的范围由所附权利要求及其等同物限定。
在所附的说明书中公开了公开内容的方面。可以在不脱离本公开的精神或范围的情况下设计出本公开的替代实施例及其等同物。应当注意,下面公开的同样的元素在附图中由同样的附图标记指示。
各种操作可以依次被描述为多个离散动作或操作,以对于理解所要求保护的主题最有帮助的方式。然而,描述的顺序不应被解释为暗示这些操作必须是顺序相关的。特别地,这些操作可以不按照呈现的顺序执行。所描述的操作可以以不同于所描述的实施例的顺序执行。在附加的实施例中,可以执行各种附加的操作和/或可以省略所描述的操作。
出于本公开的目的,除非另有指定,否则术语IP地址覆盖IPV4地址和IPV6地址二者。此外,短语“A和/或B”表示(A)、(B)、或(A和B)。出于本公开的目的,短语“A、B、和/或C”表示(A)、(B)、(C)、(A和B)、(A和C)、(B和C)、或(A、B和C)。
说明书可以使用短语“在实施例中”或“在多个实施例中”,其每个均可以指示相同或不同的实施例中的一个或多个。此外,如关于本公开的实施例使用的术语“包含”、“包括”、“具有”等是同义的。
如本文所使用的,术语“模块”可以指示以下的部分,或者包括:专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的处理器(共享的、专用的、或组)和/或存储器(共享的、专用的、或组)、组合逻辑电路、和/或提供所描述的功能的其它合适的组件。
现在参考图1,其中示出了根据各种实施例的用于处理和分析大数据的计算布局。如所示出的,计算布局100可以包括如图所示彼此耦合的存储设备102、数据预处理器104、以及一个或多个分析器106。在实施例中,存储设备102、数据预处理器104、以及一个或多个分析器106可以经由多个有线的和/或无线的、局域网和或广域网(未示出)彼此耦合。
存储设备102可以被配置为存储要被分析的大的数据集合112,特别地,两个端点之间的单向关系的标量数据(例如,从源IP地址发送到目的IP地址的数据的网流记录(字节或分组的数量))。存储设备102可以是本领域已知的多个分层和/或网络存储布置中的一个,包括磁性、光学、和/或固态存储单元的任何组合。
数据预处理器104可以被配置为将数据集合112分割成服从并行处理和/或分析的多个工作负载110。在实施例中,数据预处理器104可以被配置为将作为与两个端点的单向关系相关联的标量数据的数据集合112变换为端点对的方向性数据,作为分割过程的一部分。在实施例中,数据预处理器104可以被配置为将从源IP地址到目的IP地址的网流数据的集合112分割成IP地址对的有符号的时间序列数据的多个工作负载110,其中符号表示发送方向。数据预处理器104可以使用多个组来分割并变换网流数据的集合112,其中每个组包括两端点对的方向性数据的多个分位数。
在实施例中,数据预处理器104可以包括键生成器124、优化器126、以及工作负载生成器128。在实施例中,键生成器124可以被配置为生成针对两端点对(例如,网流IP地址对,也被称为通道)的索引键矩阵,以及分割键元组(tuple)矩阵。在标量数据是网流数据的实施例中,针对一对IPV4地址(通道)的索引键矩阵可以包括64位索引键,并且分割键元组矩阵可以包括12位和52位键对。64位索引键提供足够大的索引键空间,以容纳大范围的可能的IPV4地址。在替代实施例中,分割键元组矩阵可以包括从64位索引键导出的16位和48位键对或其它大小组合。在标量数据是网流数据的其它实施例中,针对一对IPV6地址(通道)的索引键矩阵可以包括256位索引键,并且分割键元组矩阵可以包括从256位索引键导出的各种键元组,例如,48位、52位、52位、52位、以及52位分割键元组,或者16位、32位、52位、52位、52位、以及52位分割键元组。其它组合也是可能的。下面将参考图3更完整地描述根据各种实施例的用于创建针对端点对的索引键矩阵和将数据集合分割成服从并行处理的工作负载的分割键元组矩阵的示例过程。
在实施例中,优化器126可以被配置为确定多个组,以及组的多个分位数。下面将参考图4更完整地描述根据各种实施例的用于确定多个组(每个组具有多个分位数)以用于将方向性数据分割成服从并行处理的工作负载的示例过程。工作负载生成器128可以被配置为:使用索引键矩阵和分割键元组矩阵,对具有与多个两端点对相关联的方向性数据的多个组的多个分位数进行变换和填充,并将经填充的多个组的分位数输出为服从由分析器106进行的并行处理的工作负载110。下面将参考图5更完整地描述根据各种实施例的使用经确定的具有分位数的组来生成服从并行处理的工作负载的示例过程。
在实施例中,数据预处理器104可以以硬件、软件、或其组合来实现。硬件实现方式的示例可以包括但不限于:专用集成电路(ASIC)、或利用操作逻辑编程的可编程电路(例如,现场可编程门阵列(FPGA))。软件实现方式的示例可以包括但不限于:以操作处理器(未示出)的汇编语言、或可编译为操作处理器(未示出)的机器指令的高级语言(例如,C或python)形式的实现方式。
在实施例中,分析器106可以是本领域已知的任何数量的分析器,包括但不限于:被配置为针对信号和/或模式分析提供图形分析的图形分析器,用于单值分解、快速傅立叶变换等的并行机器学习引擎,分布式存储分析器等。在实施例中,可以将分析器106设置在数十个、数百个或数千个服务器(未示出)上。
为了易于理解,在进一步描述键生成器124、优化器126、以及工作负载生成器128时,剩余的说明书将频繁地引用网流记录,然而,本公开不限于对网流记录进行变换和分割。本公开可以应用于具有类似的变换和分割需求的大范围的大数据应用,特别是具有偏斜的数据分布、客户端之间的会话发起协议(SIP)通信、端对端应用信息等的大数据。
现在参考图2,其中示出了根据各种实施例的用于将两个端点的单向关系的标量数据变换为两端点对的方向性数据的示例过程。如较早提及的,为了易于理解,将利用示例网流记录来呈现用于将两个端点的单向关系的标量数据变换为两端点对的方向性数据的过程200。例如,操作可以由较早描述的图1的工作负载生成器128来执行。在替代实施例中,可以省略操作中的一些操作、组合操作中的一些操作、按不同的顺序、或添加其它操作来执行过程200。
如所示出的,示例网流记录202可以包括从多个源IP地址(SrcIP)到多个目的IP地址(DstIP)的多个数据发送记录。除了SrcIP和DstIP之外,每个记录可以包括开始发送时间和发送的字节的数量。相反,在替代实施例中,每个记录可以包括发送的分组的数量或其它体量测度。
如所示出的,可以将标量数据处理为具有经识别的所有两端点对(也被称为针对SrcIP-DstIP对的通道)204形成所产生的方向性数据矩阵210的行,以及发送时间206处理为识别所产生的方向性数据矩阵210的对应列位置。所发送的数据的量(字节或分组的数量)208相应地被放置到方向性数据矩阵210的对应行/列位置。此外,数据是有符号的(+或-),以表示端点对的两个端点之间(两个IP地址对的两个IP地址之间)的发送方向。因此,对于网流记录,数据矩阵210内的经变换的数据除了是方向性的之外,还是时间序列数据。换言之,对于网流实施例,作为分割过程的一部分,工作负载生成器218将SrcIP和DstIP的单向关系的标量数据变换为针对两个IP地址对(通道)的时间序列方向性数据。
现在参考图3,其中示出了根据各种实施例的用于创建针对端点对的索引键矩阵和将数据集合分割成服从并行处理的多个工作负载的分割键元组矩阵的示例过程。如所示出的,用于创建针对端点对的索引键矩阵和将数据集合分割成服从并行处理的多个工作负载的分割键元组矩阵的过程300可以包括在框304-314处执行的操作。例如,操作可以由较早描述的图1的键生成器124来执行。在替代实施例中,可以省略操作中的一些操作、组合操作中的一些操作、按不同的顺序、或添加其它操作来执行过程300。
在实施例中,过程300可以在框304处开始。在框304处,可以选择数据集合302的子集并将其加载为训练数据集,以用于生成索引键矩阵316和分割键元组矩阵318。在实施例中,可以通过对数据集合302进行采样来选择训练数据集。例如,可以通过对数据集合302的每隔一个、第五个、或第十个记录进行采样(即,50%、20%或10%采样)来选择训练数据集。对于网流记录的一些分析,训练数据集可以从特定工作日的网流记录中生成,该特定工作日作为其它工作日的代表。换言之,训练数据集的大小(即采样的量)可以随着应用变化,取决于在训练过程的效率与最终工作负载并行化的高效性之间的期望的折衷。一般而言,越小的工作负载可以需要越高的采样率。此外,越不频繁的采样可以使得工作负载越不可能近似相等,但是工作负载越小,偏斜可以越小。在实施例中,对于与两个端点的单向关系相关联的标量数据的数据集,训练数据集还可以被预处理以识别端点对。对于网流记录,可以从各种发送记录中识别IP地址对,例如,可以从IP1到IP2的发送和从IP2到IP1的发送中识别IP1-IP2地址对。在实施例中,可以使用并行查询(例如,MapReduce程序)来选择唯一的端点对(IP地址对)。
接下来在框306处,端点对可以被排序。对于网流记录,IP地址对可以按照降序从最大的IP地址开始排序。
在框308处,可以创建针对端点对的索引键。对于具有IPV4地址的网流记录,可以针对IPV4地址对(通道)生成64位索引键,以提供足够大的索引空间来容纳所有可能的IPV4地址。在实施例中,可以通过将两个4字节IPV4地址组合为无符号的32位整数来生成64位索引键。在实施例中,可以省略最低有效位(例如,最后7位)中的一些。对于具有IPV6地址的网流记录,可以针对IPV6地址对(通道)生成256位索引键,以提供足够大的索引空间来容纳所有可能的IPV6地址。在实施例中,可以通过将两个16字节IPV6地址组合为无符号的128位整数来生成256位索引键。
在框310处,可以生成分割键元组。在实施例中,在框312处,可以通过将地址/标识符的最高有效部分分解成两个部分(第一部分和第二部分)来根据端点对的属性(例如,地址/标识符)生成分割键元组。例如,对于具有4个部分IPV4地址的各种网流实施例,可以通过首先分解IP地址的最高部分(即,使用第一八位字节以及第二八位字节的部分)来生成初始的12位和52位分割键对。然后,在框314处,可以将端点对的属性(例如,地址/标识符)的最低有效部分添加到分割键对的第二部分。例如,对于具有4个部分IPV4地址的各种网流实施例,可以将IP地址的最低部分的9个数字添加到分割键对的52位部分。如较早描述的,相反,在替代实施例中,可以针对IPV4地址生成16位和48位分割键对。对于IPV6地址,可以生成256位索引键,并且分割键元组可以是48位、52位、52位、52位、以及52位分割键元组,或者16位、32位、52位、52位、52位、以及52位分割键元组,等等。
因此,可以生成索引键矩阵316和分割键元组矩阵318。
现在参考图4,其中示出了根据各种实施例的用于确定多个组(每个组具有多个分位数)以用于将整个标量数据集合分割成服从并行处理的工作负载的示例过程。如所示出的,用于确定多个组(每个组具有多个分位数)以用于将整个标量数据集合分割成服从并行处理的工作负载的过程400可以包括在框402-410处执行的操作。例如,操作可以由较早描述的图1的优化器126来执行。在替代实施例中,可以省略操作中的一些操作、组合操作中的一些操作、按不同的顺序、或添加其它操作来执行过程400。
在实施例中,过程400可以在框402处开始。在框402处,可以确定整个标量数据集合要分割成的组。在实施例中,可以通过将索引值的范围分割成多个范围来确定组。在各种网流实施例中,可以将索引值的范围分割成2^8或2^16个范围,提供2^8或2^16个组。
接下来在框404处,可以针对每个组确定并创建分位数。首先,在框406处,可以针对各种组来计算分位数的数量。在实施例中,可以通过计算m_{q,j}=histj/q来计算组j的分位数的数量m_{q,j},其中histj=来自直方图的针对组j的数据记录计数,而q=每个分位数中的期望的数据记录计数。然后在框408处,可以将组下限值添加到分位数值以映射回端点对索引空间。之后,在框410处,可以将分位数级联到分位数主集合的末尾。可以针对每个组重复框406-410的操作;在实施例中,即,当左侧组边缘值等于右侧组边缘的下限并且等于所有组边缘值的上限时。
现在参考图5,其中示出了根据各种实施例的使用经确定的具有分位数的组来生成服从并行处理的工作负载的示例过程。如所示出的,使用经确定的具有分位数的组来生成服从并行处理的工作负载的过程500可以包括在框502-506处执行的操作。例如,操作可以由较早描述的图1的工作负载生成器128来执行。在替代实施例中,可以省略操作中的一些操作、组合操作中的一些操作、按不同的顺序、或添加其它操作来执行过程500。
在实施例中,过程500可以在框502处开始。在框502处,端点对可以被排序。对于网流实施例,IP地址对可以按降序排序。接下来在框504处,可以针对端点对创建索引键,如较早描述的。
在框506处,可以使用端点对的索引键对主分位数数组进行搜索以识别用于存储数据记录的对应分位数。在实施例中,可以采用二分搜索(binary search)方法来执行搜索。
在框508处,可以使用从在框506处执行的搜索返回的索引k和k+1作为上限和下限来访问工作负载。
在框510处,可以针对数据记录搜索经访问的工作负载。在实施例中,在框512处,可以做出数据记录的索引是否小于或等于(LE)索引k+1的1/2的确定。在框514处,如果数据记录的索引小于或等于索引k+1的1/2,则可以从工作负载的开头执行针对数据记录的前向搜索。另一方面,如果数据记录的索引大于(GT)索引k+1的1/2,则可以从工作负载的末尾执行针对数据记录的后向搜索。接下来在框518处,可以做出关于是否找到数据记录的匹配的确定。
如果未找到数据记录的匹配,则在框520处,可以做出关于数据记录的索引是否小于或等于主分位数数组中的索引k+1的1/2的重复确定。在框522处,如果数据记录的索引小于或等于主分位数数组中的索引k+1的1/2,则可以将数据记录添加到工作负载的开头。另一方面,如果数据记录的索引大于主分位数数组中的索引k+1的1/2,则可以将数据记录添加到工作负载的末尾。在替代实施例中,框512处的确定结果可以被存储(例如,经由标志),并且可以通过检查所存储的信息(例如,标志设置)来进行框520处的重复确定。
接下来,在框526处,可以更新所添加的数据记录的数据,包括方向性指示。在网流实施例中,发送的数据的量可以乘以+1或-1以表示方向。
回到框518处,如果找到数据记录的匹配,则过程500可以直接进行到框526,其中数据记录被更新,包括方向性指示。
现在参考图6,其中示出了根据各种实施例的适于实施本公开内容的方面的示例计算机系统。如所示出的,计算机系统600可以包括一个或多个处理器602和系统存储器604。每个处理器602可以包括一个或多个处理器核心。系统存储器604可以包括操作系统和各种应用的非持久副本,特别地包括图1的数据预处理器104(或其各方面)和/或分析器106,共同表示为计算逻辑622。另外,计算机系统600可以包括一个或多个大容量存储设备606、输入/输出设备608、以及通信接口610。元件602-610可以经由系统总线612彼此耦合,系统总线612可以表示一条或多条总线。在多条总线的情况下,多条总线可以由一个或多个总线桥(未示出)桥接。
大容量存储设备606可以包括计算逻辑622的持久副本。大容量存储设备606也可以用于存储数据集合112。大容量存储设备606的示例可以包括但不限于软盘、硬盘驱动器、光盘只读存储器(CD-ROM)等。通信接口610的示例可以包括但不限于有线和/或无线网络接口卡、调制解调器等。通信接口610可以支持各种有线或无线通信,包括但不限于3G/4G/6G、WiFi、以太网等。输入/输出设备608的示例可以包括键盘、光标控件、触敏显示器等。
除了计算逻辑622之外,这些元件602-618中的每一个可以执行其本领域已知的常规功能。这些元件602-618的数量、能力和/或容量可以根据要变换、分割、以及分析的数据112的大小而变化。在其它情况下,元件602-618的构造是已知的,并且因此将不再进一步描述。
如本领域技术人员将认识到的,本公开可以实施为方法或计算机程序产品。因此,除了如早前所描述的以硬件实施之外,本公开可以采取完全软件的实施例(包括固件、驻留软件、微代码等)的形式、或将一般全部可以被称为“电路”、“模块”、或“系统”的软件和硬件方面进行组合的实施例的形式。此外,本公开可以采用实施在任何有形的或非暂时性的表达介质中的计算机程序产品的形式,其具有实施在介质中的计算机可用程序代码。图7示出了可以适于用来存储指令的示例计算机可读非暂存性存储介质,指令响应于由装置执行而使得该装置实践本公开的所选择的方面。如所示出的,非暂时性计算机可读存储介质702可以包括多个编程指令704。编程指令704可以被配置为使得诸如计算机系统600的设备能够响应于编程指令的执行来执行:例如,与数据预处理器104相关联的各种操作。相反,在替代实施例中,可以将编程指令704布置在多个计算机可读非暂时性存储介质702上。在替代实施例中,可以将编程指令704布置在计算机可读暂时性存储介质702上,例如,信号。
可以使用一种或多种计算机可用或计算机可读介质的任何组合。计算机可用或计算机可读介质可以是(例如但不限于)电子、磁、光学、电磁、红外、或半导体系统、装置、设备或传播介质。计算机可读介质的更具体的示例(非穷尽性列表)将包括以下内容:具有一条或多条电线的电连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储设备、传输介质(例如,支持互联网或内联网的传输介质)、或磁存储设备。注意,计算机可用或计算机可读介质甚至可以是在其上打印程序的纸张或其它合适的介质,这是因为可以经由例如对纸张或其它介质进行光学扫描而电子地捕获程序,然后如果有必要则以合适的方式进行编译、解释、或以其它方式处理,并且然后存储在计算机存储器中。在本文档的上下文中,计算机可用或计算机可读介质可以是能够包含、存储、通信、传播、或传送程序以供指令执行系统、装置、或设备使用或与指令执行系统、装置、或设备结合使用的任何介质。计算机可用介质可以包括具有实施在其中的计算机可用程序代码的传播数据信号,或者以基带的形式,或者作为载波的一部分。计算机可用程序代码可以使用任何适当的介质来传输,包括但不限于无线、有线、光纤电缆、RF等。
用于执行本公开的操作的计算机程序代码可以以一种或多种编程语言的任何组合来编写,一种或多种编程语言包括面向对象的编程语言(例如,Java、Smalltalk、C++等)和常规过程编程语言(例如,“C”编程语言或类似的编程语言)。程序代码可以完全在用户的计算机上执行、部分地在用户的计算机上执行、作为独立的软件包、部分地在用户的计算机上且部分地在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种场景下,远程计算机可以通过包括局域网(LAN)或广域网(WAN)的任何类型的网络连接到用户的计算机,或者可以进行到外部计算机的连接(例如,通过使用互联网服务提供商的互联网)。
参考根据本公开的实施例的方法、装置(系统)、以及计算机程序产品的流程图图示和/或框图来描述本公开。应当理解,流程图图示和/或框图的每个框以及流程图图示和/或框图中的框的组合能够由计算机程序指令来实现。可以将这些计算机程序指令提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器以产生机器,以使得经由计算机或其它可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的框或多个框中指定的功能/动作的模块。
这些计算机程序指令还可以存储在计算机可读介质中,其能够指示计算机或其它可编程数据处理装置以特定的方式工作,以使得存储在计算机可读介质中的指令产生包括实现在流程图和/或框图的框或多个框中指定的功能/动作的指令模块的制品。
还可以将计算机程序指令加载到计算机或其它可编程数据处理装置上,以使得在计算机或其它可编程装置上执行一系列操作步骤以产生计算机实现的过程,以使得在计算机或其它可编程装置上执行的指令提供用于实现在流程图和/或框图的框或多个框中指定的功能/动作的过程。
附图中的流程图和框图示出了根据本公开的各种实施例的系统、方法、以及计算机程序产品的可能实现方式的架构、功能、以及操作。在这方面,流程图或框图中的每个框可以表示模块、段、或代码的部分,其包括用于实现指定的(多个)逻辑功能的一个或多个可执行指令。还应当注意的是,在一些替代实现方式中,框中指出的功能可以不按照附图中所指出的顺序发生。例如,连续示出的两个框实际上可以基本上同时执行,或者框有时可以以相反的顺序执行,这取决于所涉及的功能。还将注意到,框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合能够由执行指定功能或动作的基于专用硬件的系统、或专用硬件和计算机指令的组合来实现。
本文使用的术语仅出于描述特定实施例的目的,而并非旨在限制本公开。如本文所使用的,单数形式“一(a)”、“一个(an)”、以及“该(the)”旨在也包括复数形式,除非上下文另有明确指示。将进一步理解,当在本说明书中使用时,术语“包括”和/或“包括有”指定所陈述的特征、整体、步骤、操作、元件和/或组件的存在,但不排除一个或多个其它特征、整体、步骤、操作、元件、组件和/或其组合的存在或添加。
可以将实施例实现为计算机过程、计算系统、或者诸如计算机可读介质的计算机程序产品的制品。计算机程序产品可以是计算机系统可读并编码用于执行计算机过程的计算机程序指令的计算机存储介质。
所附权利要求书中的所有模块或步骤加功能元件的相应结构、材料、动作、以及等同物旨在包括用于与特别要求保护的其它要求保护的元件结合执行功能的任何结构、材料或动作。本公开的描述是出于说明和描述的目的而呈现的,而并非旨在穷尽性的或限制于所公开的形式的公开内容。在不脱离本公开的范围和精神的情况下,许多修改和变化对于普通技术人员将是显而易见的。选择并描述实施例以便于最好地解释本公开的原理和实际应用,并且使得其他本领域普通技术人员能够理解具有适合于所设想的特定用途的各种修改的实施例的公开内容。
返回参考图6,对于一个实施例,处理器602中的至少一个可以与具有数据预处理器104的存储器封装在一起。对于一个实施例,处理器602中的至少一个可以与具有眼睛跟踪器104的存储器封装在一起以形成系统级封装(SiP)。对于一个实施例,处理器602中的至少一个可以与具有数据预处理器104的存储器集成在同一管芯上。对于一个实施例,处理器602中的至少一个可以与具有数据预处理器104的存储器封装在一起以形成片上系统(SoC)。
因此,已经描述了本公开的各种示例实施例,包括但不限于:
示例1可以是用于处理数据的装置。该装置可以包括一个或多个处理器;以及数据预处理器,其由一个或多个处理器操作以将与多个两端点对的单向关系相关联的标量数据集合分割成与多个两端点对相关联的方向性数据的多个工作负载,其中,分割可以包括将两端点对分割成多个组,其中每个组包括两端点对的多个分位数。
示例2可以是示例1,其中,数据预处理器可以包括键生成器,该键生成器用于至少部分地基于从标量数据集合导出的训练数据集来生成针对两端点对的索引键矩阵和针对索引键的分割键对矩阵。
示例3可以是示例2,其中,键生成器可以基于端点对的属性来生成索引键,并且根据端点对的属性的所选择的部分来生成分割键对。
示例4可以是示例2,其中,两端点对的单向关系可以包括两个互联网协议IP地址的源和目的关系;其中,与两端点对的单向关系相关联的标量数据可以包括从源IP地址发送到目的IP地址的数据的量;并且其中,端点对包括一对IP地址。
示例5可以是示例4,其中,IP地址可以是IPV4地址,并且键生成器可以使用IPV4地址对的IPV4地址作为无符号的32位整数,根据IPV4地址对的IPV4地址来生成64位索引键矩阵。
示例6可以是示例5,其中,IPV4地址可以包括4个经排序的部分,并且键发生器还可以根据IPV4地址对的IPV4地址的最高和最低排序的部分来生成12位和52位分割键对矩阵。
示例7可以是示例1-6中的任何一个,其中,数据预处理器可以包括优化器,该优化器用于确定多个组,以及组的多个分位数。
示例8可以是示例7,其中,优化器可以将端点对的索引键的范围划分成多个子范围以确定多个组。
示例9可以是示例7,其中,优化器可以用对应于组的直方图的数据记录计数除以每个分位数中的期望的记录计数的数量,以确定组的多个分位数。
示例10可以是示例7,其中,数据预处理器还可以包括工作负载生成器,该工作负载生成器与优化器耦合以基于所确定的组和组的分位数来填充多个工作负载。
示例11可以是示例10,其中,两端点对的单向关系可以包括两个互联网协议IP地址的源和目的关系;其中,与两端点对的单向关系相关联的标量数据可以包括从源IP地址发送到目的IP地址的数据的量;其中,端点对可以包括一对IP地址;并且其中,工作负载生成器可以利用时间序列的IP地址对的发送数据的量来填充多个工作负载。
示例12可以是示例11,其中,工作负载生成器还可以将时间序列的IP地址对的发送数据的量变换为方向性的时间序列的IP地址对的发送数据的量。
示例13可以是示例10,还包括与数据预处理器耦合的一个或多个分析器,一个或多个分析器由一个或多个处理器操作以并行地分析具有两端点对的方向性数据的工作负载。
示例14可以是示例13,其中,两端点对的单向关系可以包括两个互联网协议IP地址的源和目的关系;其中,与两端点对的单向关系相关联的标量数据可以包括从源IP地址发送到目的IP地址的数据的量;其中,端点对可以包括一对IP地址;并且其中,一个或多个分析器可以至少部分地基于时间序列的工作负载中的发送数据的量来生成针对IP地址对的多个图形分析,以用于信号或模式分析。
示例15可以是用于处理数据的方法。该方法可以包括:由计算设备接收与多个两端点对的单向关系相关联的标量数据集合;以及由计算设备将标量数据集合分割成与多个两端点对相关联的方向性数据的多个工作负载;其中,分割可以包括将两端点对分割成多个组,其中每个组包括两端点对的多个分位数。
示例16可以是示例15,其中,分割可以包括至少部分地基于从标量数据集合导出的训练数据集来生成针对两端点对的索引键矩阵和针对索引键的分割键对矩阵。
示例17可以是示例16,其中,生成可以包括基于端点对的属性来生成索引键,以及根据端点对的属性的所选择的部分来生成分割键对。
示例18可以是示例16,其中,两端点对的单向关系可以包括两个互联网协议IP地址的源和目的关系;其中,与两端点对的单向关系相关联的标量数据可以包括从源IP地址发送到目的IP地址的数据的量;并且其中,端点对可以包括一对IP地址。
示例19可以是示例18,其中,IP地址是IPV6地址,并且生成可以包括使用IPV6地址对的IPV6地址作为无符号128位整数,根据IPV6地址对的IPV6地址来生成256位索引键矩阵。
示例20可以是示例19,其中,IPV6地址可以包括多个经排序的部分,并且生成还可以包括根据IPV6地址对的IPV6地址的最高和最低排序的部分来生成分割键元组矩阵。
示例21可以是示例15-20中的任何一个,其中,分割还可以包括确定多个组,以及组的多个分位数。
示例22可以是示例21,其中,确定可以包括将端点对的索引键的范围划分成多个子范围以确定多个组。
示例23可以是示例21,其中,确定可以包括用对应于组的直方图的数据记录计数除以每个分位数中的期望的记录计数的数量,以确定该组的多个分位数。
示例24可以是示例21,其中,分割还可以包括基于所确定的组和组的分位数来填充多个工作负载。
示例25可以是示例24,其中,两端点对的单向关系可以包括两个互联网协议IP地址的源和目的关系;其中,与两端点对的单向关系相关联的标量数据可以包括从源IP地址发送到目的IP地址的数据的量;其中,端点对可以包括一对IP地址;并且其中,工作负载生成器可以利用时间序列的IP地址对的发送数据的量来填充多个工作负载。
示例26可以是示例25,其中,填充可以包括将时间序列的IP地址对的发送数据的量变换为方向性的时间序列的IP地址对的发送数据的量。
示例27可以是示例25,还包括并行地分析具有两端点对的方向性数据的工作负载。
示例28可以是示例27,其中,两端点对的单向关系可以包括两个互联网协议IP地址的源和目的关系;其中,与两端点对的单向关系相关联的标量数据可以包括从源IP地址发送到目的IP地址的数据的量;其中,端点对可以包括一对IP地址;并且其中,一个或多个分析器可以至少部分地基于时间序列的工作负载中的发送数据的量来生成针对IP地址对的多个图形分析,以用于信号或模式分析。
示例29可以是一种或多种计算机可读介质,其中存储有多个指令,多个指令使得计算设备响应于由计算设备执行指令而:接收与多个两端点对的单向关系相关联的标量数据集合;以及将标量数据集合分割成与多个两端点对相关联的方向性数据的多个工作负载;其中,分割可以包括将两端点对分割成多个组,其中每个组包括两端点对的多个分位数。
示例30可以是示例29,其中,分割包括至少部分地基于从标量数据集合导出的训练数据集来生成针对两端点对的索引键矩阵和针对索引键的分割键对矩阵。
示例31可以是示例30,其中,生成可以包括基于端点对的属性来生成索引键,以及根据端点对的属性的所选择的部分来生成分割键对。
示例32可以是示例30,其中,两端点对的单向关系可以包括两个互联网协议IP地址的源和目的关系;其中,与两端点对的单向关系相关联的标量数据可以包括从源IP地址发送到目的IP地址的数据的量;并且其中,端点对可以包括一对IP地址。
示例33可以是示例32,其中,IP地址是IPV4地址,键生成器可以使用IPV4地址对的IPV4地址作为无符号32位整数,根据IPV4地址对的IPV4地址来生成64位索引键矩阵。
示例34可以是示例33,其中,IPV4地址可以包括4个经排序的部分,并且生成可以包括根据IPV4地址对的IPV4地址的最高和最低排序的部分来生成12位和52位分割键对矩阵。
示例35可以是示例29-34中的任何一个,其中,分割包括确定多个组,以及组的多个分位数。
示例36可以是示例35,其中,确定可以包括将端点对的索引键的范围划分成多个子范围以确定多个组。
示例37可以是示例35,其中,确定可以包括用对应于组的直方图的数据记录计数除以每个分位数中的期望的记录计数的数量,以确定组的多个分位数。
示例38可以是示例35,其中,分割包括基于所确定的组和组的分位数来填充多个工作负载。
示例39可以是示例38,其中,两端点对的单向关系可以包括两个互联网协议IP地址的源和目的关系;其中,与两端点对的单向关系相关联的标量数据可以包括从源IP地址发送到目的IP地址的数据的量;其中,端点对可以包括一对IP地址;并且其中,工作负载生成器可以利用时间序列的IP地址对的发送数据的量来填充多个工作负载。
示例40可以是示例39,其中,工作负载生成器还可以将时间序列的IP地址对的发送数据的量变换为方向性的时间序列的IP地址对的发送数据的量。
示例41可以是示例38,计算设备还使得并行地分析具有两端点对的方向性数据的工作负载。
示例42可以是示例41,其中,两端点对的单向关系可以包括两个互联网协议IP地址的源和目的关系;其中,与两端点对的单向关系相关联的标量数据可以包括从源IP地址发送到目的IP地址的数据的量;其中,端点对可以包括一对IP地址;并且其中,一个或多个分析器可以至少部分地基于时间序列的工作负载中的发送数据的量来生成针对IP地址对的多个图形分析,以用于信号或模式分析。
示例43可以是用于处理数据的装置。该装置可以包括用于接收与多个两端点对的单向关系相关联的标量数据集合的模块;以及用于将标量数据集合分割成与多个两端点对相关联的方向性数据的多个工作负载的模块;其中,用于分割的模块可以包括用于将两端点对分割成多个组的模块,其中每个组包括两端点对的多个分位数。
示例44可以是示例43,其中,用于分割的模块可以包括用于至少部分地基于从标量数据集合导出的训练数据集来生成针对两端点对的索引键矩阵和针对索引键的分割键对矩阵的模块。
示例45可以是示例44,其中,用于生成的模块可以包括用于基于端点对的属性来生成索引键的模块,以及用于根据端点对的属性的所选择的部分来生成分割键对的模块。
示例46可以是示例44,其中,两端点对的单向关系可以包括两个互联网协议IP地址的源和目的关系;其中,与两端点对的单向关系相关联的标量数据可以包括从源IP地址发送到目的IP地址的数据的量;并且其中,端点对可以包括一对IP地址。
示例47可以是示例46,其中,IP地址是IPV6地址,并且生成可以包括使用IPV6地址对的IPV6地址作为无符号128位整数,根据IPV6地址对的IPV6地址来生成256位索引键矩阵。
示例48可以是示例47,其中,IPV6地址可以包括多个经排序的部分,并且用于生成的模块还可以包括用于根据IPV6地址对的IPV6地址的最高和最低排序的部分来生成分割键元组矩阵的模块。
示例49可以是示例43-48,其中,用于分割的模块还可以包括用于确定多个组和组的多个分位数的模块。
示例50可以是示例49,其中,用于确定的模块可以包括用于将端点对的索引键的范围划分成多个子范围以确定多个组的模块。
示例51可以是示例49,其中,用于确定的模块可以包括用于用对应于组的直方图的数据记录计数除以每个分位数中的期望的记录计数的数量以确定组的多个分位数的模块。
示例52可以是示例49,其中,用于分割的模块还可以包括用于基于所确定的组和组的分位数来填充多个工作负载的模块。
示例53可以是示例52,其中,两端点对的单向关系可以包括两个互联网协议IP地址的源和目的关系;其中,与两端点对的单向关系相关联的标量数据可以包括从源IP地址发送到目的IP地址的数据的量;其中,端点对可以包括一对IP地址;并且其中,工作负载生成器可以利用时间序列的IP地址对的发送数据的量来填充多个工作负载。
根据权利要求53所述的装置,其中,用于填充的模块可以包括用于将时间序列的IP地址对的发送数据的量变换为方向性的时间序列的IP地址对的发送数据的量的模块。
根据权利要求53所述的装置,还包括用于并行地分析具有两端点对的方向性数据的工作负载的模块。
根据权利要求55所述的装置,其中,两端点对的单向关系可以包括两个互联网协议IP地址的源和目的关系;其中,与两端点对的单向关系相关联的标量数据可以包括从源IP地址发送到目的IP地址的数据的量;其中,端点对可以包括一对IP地址;并且其中,用于分析的模块可以包括用于至少部分地基于时间序列的工作负载中的发送数据的量来生成针对IP地址对的多个图形分析以用于信号或模式分析的模块。
对于本领域技术人员显而易见的是,能够在所公开的设备和相关联的方法的所公开的实施例中进行各种修改和变化,而不脱离本公开的精神或范围。因此,本公开旨在覆盖上面公开的实施例的修改和变化,只要这些修改和变化在任何权利要求及其等同物的范围内。

Claims (25)

1.一种用于处理数据的装置,包括:
一个或多个处理器;以及
数据预处理器,其由所述一个或多个处理器操作以将与多个两端点对的单向关系相关联的标量数据集合分割成与所述多个两端点对相关联的方向性数据的多个工作负载,其中,分割包括将所述两端点对分割成多个组,其中,每个组包括所述两端点对的多个分位数。
2.根据权利要求1所述的装置,其中,所述数据预处理器包括键生成器,所述键生成器用于至少部分地基于从所述标量数据集合导出的训练数据集来生成针对所述两端点对的索引键矩阵和针对所述索引键的分割键对矩阵。
3.根据权利要求2所述的装置,其中,所述键生成器基于端点对的属性来生成所述索引键,并且根据所述端点对的属性的所选择的部分来生成所述分割键对。
4.根据权利要求2所述的装置,其中,两端点对的单向关系包括两个互联网协议IP地址的源和目的关系;其中,与两端点对的单向关系相关联的标量数据包括从源IP地址发送到目的IP地址的数据的量;并且其中,端点对包括一对IP地址。
5.根据权利要求4所述的装置,其中,所述IP地址是IPV4地址,并且所述键生成器使用IPV4地址对的IPV4地址作为无符号的32位整数,根据所述IPV4地址对的IPV4地址来生成64位索引键矩阵。
6.根据权利要求5所述的装置,其中,IPV4地址包括4个经排序的部分,并且所述键发生器进一步根据所述IPV4地址对的IPV4地址的最高和最低排序的部分来生成12位和52位分割键对矩阵。
7.根据权利要求1-6中任一项所述的装置,其中,所述数据预处理器包括优化器,所述优化器用于确定所述多个组,以及所述组的多个分位数。
8.根据权利要求7所述的装置,其中,所述优化器将所述端点对的索引键的范围划分成多个子范围以确定所述多个组。
9.根据权利要求7所述的装置,其中,所述优化器用对应于组的直方图的数据记录计数除以每个分位数中的期望的记录计数的数量,以确定所述组的多个分位数。
10.根据权利要求7所述的装置,其中,所述数据预处理器还包括工作负载生成器,所述工作负载生成器与所述优化器耦合以基于所确定的组和所述组的分位数来填充所述多个工作负载。
11.根据权利要求10所述的装置,其中,两端点对的单向关系包括两个互联网协议IP地址的源和目的关系;其中,与两端点对的单向关系相关联的标量数据包括从源IP地址发送到目的IP地址的数据的量;其中,端点对包括一对IP地址;并且其中,所述工作负载生成器利用时间序列的所述IP地址对的发送数据的量来填充所述多个工作负载。
12.根据权利要求11所述的装置,其中,所述工作负载生成器进一步将时间序列的所述IP地址对的发送数据的量变换为方向性的时间序列的所述IP地址对的发送数据的量。
13.根据权利要求10所述的装置,还包括与所述数据预处理器耦合的一个或多个分析器,所述一个或多个分析器由所述一个或多个处理器操作以并行地分析具有所述两端点对的方向性数据的工作负载。
14.根据权利要求13所述的装置,其中,两端点对的单向关系包括两个互联网协议IP地址的源和目的关系;其中,与两端点对的单向关系相关联的标量数据包括从源IP地址发送到目的IP地址的数据的量;其中,端点对包括一对IP地址;并且其中,所述一个或多个分析器至少部分地基于时间序列的所述工作负载中的发送数据的量来生成针对所述IP地址对的多个图形分析,以用于信号或模式分析。
15.一种用于处理数据的方法,包括:
由计算设备接收与多个两端点对的单向关系相关联的标量数据集合;以及
由所述计算设备将所述标量数据集合分割成与所述多个两端点对相关联的方向性数据的多个工作负载;
其中,分割包括将所述两端点对分割成多个组,其中,每个组包括所述两端点对的多个分位数。
16.根据权利要求15所述的方法,其中,分割包括至少部分地基于从所述标量数据集合导出的训练数据集来生成针对所述两端点对的索引键矩阵和针对所述索引键的分割键对矩阵。
17.根据权利要求16所述的方法,其中,生成包括基于所述端点对的属性来生成所述索引键,并且根据所述端点对的属性的所选择的部分来生成所述分割键对。
18.根据权利要求16所述的方法,其中,两端点对的单向关系包括两个互联网协议IP地址的源和目的关系;其中,与两端点对的单向关系相关联的标量数据包括从源IP地址发送到目的IP地址的数据的量;并且其中,端点对包括一对IP地址。
19.根据权利要求18所述的方法,其中,所述IP地址是IPV6地址,并且生成包括使用IPV6地址对的IPV6地址作为无符号128位整数,根据所述IPV6地址对的IPV6地址来生成256位索引键矩阵;并且其中,IPV6地址包括多个经排序的部分,并且生成还包括根据所述IPV6地址对的IPV6地址的最高和最低排序的部分来生成分割键元组矩阵。
20.根据权利要求15所述的方法,其中,分割还包括确定所述多个组,以及所述组的多个分位数。
21.根据权利要求20所述的方法,其中,确定包括将所述端点对的索引键的范围划分成多个子范围以确定所述多个组;以及用对应于组的直方图的数据记录计数除以每个分位数中的期望的记录计数的数量,以确定所述组的多个分位数。
22.根据权利要求20所述的方法,其中,分割还包括基于所确定的组和所述组的分位数来填充所述多个工作负载。
23.一种或多种计算机可读介质,其中存储有多个指令,所述多个指令使得计算设备响应于由所述计算设备执行所述指令而实践根据权利要求15-22所述的方法中的任何一项。
24.一种用于处理数据的装置,包括:
用于接收与多个两端点对的单向关系相关联的标量数据集合的模块;以及
用于将所述标量数据集合分割成与所述多个两端点对相关联的方向性数据的多个工作负载的模块;
其中,用于分割的模块包括用于将所述两端点对分割成多个组的模块,其中,每个组包括所述两端点对的多个分位数。
25.根据权利要求24所述的装置,还包括用于并行地分析具有所述两端点对的方向性数据的工作负载的模块。
CN201580067112.1A 2015-01-09 2015-11-11 数据分割和变换方法与装置 Active CN107004022B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/593,907 US10162842B2 (en) 2015-01-09 2015-01-09 Data partition and transformation methods and apparatuses
US14/593,907 2015-01-09
PCT/US2015/060210 WO2016111748A1 (en) 2015-01-09 2015-11-11 Data partition and transformation methods and apparatuses

Publications (2)

Publication Number Publication Date
CN107004022A true CN107004022A (zh) 2017-08-01
CN107004022B CN107004022B (zh) 2021-08-17

Family

ID=56356283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580067112.1A Active CN107004022B (zh) 2015-01-09 2015-11-11 数据分割和变换方法与装置

Country Status (5)

Country Link
US (1) US10162842B2 (zh)
EP (1) EP3243144B1 (zh)
JP (1) JP6700277B2 (zh)
CN (1) CN107004022B (zh)
WO (1) WO2016111748A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505297A (zh) * 2021-07-13 2021-10-15 北京字节跳动网络技术有限公司 数据查询方法、装置、电子设备和计算机可读介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10467191B1 (en) * 2016-12-27 2019-11-05 Amazon Technologies, Inc. Large scale data join service within a service provider network
US11165694B2 (en) * 2018-07-31 2021-11-02 Mcafee, Llc Methods, systems, articles of manufacture and apparatus to identify applications
US11675765B2 (en) * 2021-05-25 2023-06-13 Business Objects Software Ltd. Top contributor recommendation for cloud analytics

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101594247A (zh) * 2008-05-29 2009-12-02 国际商业机器公司 识别应用拓扑的方法和系统
CN101990003A (zh) * 2010-10-22 2011-03-23 西安交通大学 一种基于ip地址属性的用户行为监控系统与方法
US20110182180A1 (en) * 2005-09-30 2011-07-28 Packeteer, Inc. Partition Configuration and Creation Mechanisms for Network Traffic Management Devices

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1293478C (zh) * 1999-06-30 2007-01-03 倾向探测公司 用于监控网络流量的方法和设备
US6785240B1 (en) 2000-06-02 2004-08-31 Lucent Technologies Inc. Method for estimating the traffic matrix of a communication network
US7233940B2 (en) * 2000-11-06 2007-06-19 Answers Corporation System for processing at least partially structured data
US20080177994A1 (en) * 2003-01-12 2008-07-24 Yaron Mayer System and method for improving the efficiency, comfort, and/or reliability in Operating Systems, such as for example Windows
US20100165859A1 (en) 2008-12-31 2010-07-01 Herve Marc Carruzzo Sorting flow records into analysis buckets
JP2010177733A (ja) * 2009-01-27 2010-08-12 Mitsubishi Electric Corp 通信監視装置、通信監視装置の通信監視方法および通信監視プログラム
US8645412B2 (en) * 2011-10-21 2014-02-04 International Business Machines Corporation Computing correlated aggregates over a data stream
US9703852B2 (en) * 2012-05-29 2017-07-11 Sas Institute Inc. Systems and methods for quantile determination in a distributed data system using sampling
US9268796B2 (en) * 2012-05-29 2016-02-23 Sas Institute Inc. Systems and methods for quantile estimation in a distributed data system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110182180A1 (en) * 2005-09-30 2011-07-28 Packeteer, Inc. Partition Configuration and Creation Mechanisms for Network Traffic Management Devices
CN101594247A (zh) * 2008-05-29 2009-12-02 国际商业机器公司 识别应用拓扑的方法和系统
CN101990003A (zh) * 2010-10-22 2011-03-23 西安交通大学 一种基于ip地址属性的用户行为监控系统与方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505297A (zh) * 2021-07-13 2021-10-15 北京字节跳动网络技术有限公司 数据查询方法、装置、电子设备和计算机可读介质
CN113505297B (zh) * 2021-07-13 2024-04-02 抖音视界有限公司 数据查询方法、装置、电子设备和计算机可读介质

Also Published As

Publication number Publication date
US10162842B2 (en) 2018-12-25
CN107004022B (zh) 2021-08-17
WO2016111748A1 (en) 2016-07-14
US20160203169A1 (en) 2016-07-14
EP3243144B1 (en) 2020-10-28
EP3243144A1 (en) 2017-11-15
JP2018513428A (ja) 2018-05-24
EP3243144A4 (en) 2018-09-12
JP6700277B2 (ja) 2020-05-27

Similar Documents

Publication Publication Date Title
US20230126005A1 (en) Consistent filtering of machine learning data
US11100420B2 (en) Input processing for machine learning
US11182691B1 (en) Category-based sampling of machine learning data
CN102298607B (zh) 数据集成的方案合约
US10169409B2 (en) System and method for transferring data between RDBMS and big data platform
US10339465B2 (en) Optimized decision tree based models
CN107004022A (zh) 数据分割和变换方法与装置
CN104937544B (zh) 用于计算任务结果的方法、计算机可读介质和计算机系统
Littauer et al. Trends in use of scientific workflows: insights from a public repository and recommendations for best practice
US8666985B2 (en) Hardware accelerated application-based pattern matching for real time classification and recording of network traffic
JP5791149B2 (ja) データベース・クエリ最適化のためのコンピュータで実装される方法、コンピュータ・プログラム、およびデータ処理システム
US11500871B1 (en) Systems and methods for decoupling search processing language and machine learning analytics from storage of accessed data
US11468097B2 (en) Virtual research platform
JP2020528606A (ja) 並列処理を使用したハッシュ結合の実行
US11727007B1 (en) Systems and methods for a unified analytics platform
US20140317305A1 (en) Compile-time tuple attribute compression
Foster et al. Networking Materials Data: Accelerating Discovery at Experimental Facilities
AU2015211043A1 (en) Optimized data condenser and method
Mirkovic et al. {DEW}: Distributed Experiment Workflows
CN110008448A (zh) 将SQL代码自动转换为Java代码的方法和装置
García et al. Data-intensive analysis for scientific experiments at the large scale data facility
Wu et al. A general framework for experimental design, uncertainty quantification and sensitivity analysis of computer simulation models
Sprimont et al. New web technologies for astronomy
Pata et al. Processing columnar collider data with GPU-accelerated kernels
Shumba1 et al. Towards the Development of a Neo4j Tool for Cloud Client Forensics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant