CN107430633A - 与数据存储系统相关联的经相关优化的代表性内容 - Google Patents
与数据存储系统相关联的经相关优化的代表性内容 Download PDFInfo
- Publication number
- CN107430633A CN107430633A CN201680022705.0A CN201680022705A CN107430633A CN 107430633 A CN107430633 A CN 107430633A CN 201680022705 A CN201680022705 A CN 201680022705A CN 107430633 A CN107430633 A CN 107430633A
- Authority
- CN
- China
- Prior art keywords
- data object
- representative content
- representative
- data
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
公开了与数据存储系统相关联的经相关优化的代表性内容。一个示例是包括数据汇总模块、群集模块和代表性内容选择模块的系统。数据汇总模块经由处理器将存储系统中的每一个数据对象与经导出的数据对象相关联。群集模块基于相关联的经导出的数据对象之间的类似性而确定类似数据对象的集群,并且为每一个所确定的集群选择代表性数据对象。代表性内容选择模块选择与存储系统相关联的代表性内容,其中代表性内容是基于数据对象、经导出的数据对象和代表性数据对象,并且向分析应用相关优化所选代表性内容。
Description
背景技术
来自存储系统的数据可以被各种分析应用访问。例如,分析应用可以访问数据以响应于分析查询(analytics query)。一般地,不同的分析应用可以访问存储系统中的数据的不同集合。
附图说明
图1是图示了用于与数据存储系统相关联的经相关优化的代表性内容的系统的一个示例的功能框图。
图2是图示了用于与数据存储系统相关联的经相关优化的代表性内容的计算机可读介质的一个示例的框图。
图3是图示了用于与数据存储系统相关联的经相关优化的代表性内容的方法的一个示例的流程图。
图4是图示了用于基于确定代表性内容的保真度的与数据存储系统相关联的经相关优化的代表性内容的方法的一个示例的流程图。
具体实施方式
由互连的设备(诸如移动设备)和仪器源(例如传感器)生成的大量数据呈现发现新洞悉的丰富机会。同时,这样的数据还造成在存储、分析处理和数据通信中招致的增长成本的挑战。相比于被证明对于产生有价值的洞悉而言相关的信息内容的百分比,通常这样的成本往往是不成比例地高的。一般地,经累积的数据位于传统的存储系统中,所述传统的存储系统可能不能够区分与分析工作流潜在相关的数据与对于这样的目的而言可能无关的许多详细内容。这可能造成存储的低效使用,以及不必要的数据输送。在一些实例中,可能存在附加的处理成本,和/或消费者范围内的中间数据生成,这进而可能影响可行结论(actionable conclusion)的时间性。
尽管在大数据分析应用内数据科学家典型地采用应用特定预滤波、采样、整合和汇总(包括数据集群的使用以标识代表),但是这在工作流中可能过晚以至于无法优化存储管理和数据输送成本。
相应地,存在对于透明地尝试高效地服务和维护“代表性”数据的经相关优化的存储系统的需要。可以选择“代表性”数据以针对分析工作载荷进行相关优化。如本文所使用的术语“相关优化”一般是指在具有针对给定分析应用的最优相关性的粒度程度上代表数据。在一些示例中,最优相关性可以包括数据的最大代表。在一些示例中,最优相关性可以包括数据的近似代表。作为另一示例,最优相关性可以包括整个数据。
在一些示例中,可以基于预查询针对样本分析查询获取的结果的保真度而自动学习保留代表性性质的近似粒度。一般地,如本文所描述的,系统维护经导出的数据对象,基于经导出的数据对象而利用类似性来将数据对象群集在存储系统中,并且从每一个集群导出代表性数据对象。可以基于比较而选择代表性数据对象,所述比较基于整个内容之上的类似性和变化。在一些示例中,系统可以响应于来自分析消费者的随后数据访问请求而自动提供这样的相关代表性数据对象,而不是返回存在于被访问的容器/目录中的所有对象和/或数据。在一些示例中,可以提供存在于被访问的容器和/或目录中的所有对象/数据(如果它们可能添加明显的相关信息的话)。
如在本文中的各种示例中所描述的,公开了与数据存储系统相关联的经相关优化的代表性内容。一个示例是包括数据汇总模块、群集模块和代表性内容选择模块的系统。数据汇总模块经由处理器将存储系统中的每一个数据对象与经导出的数据对象相关联。群集模块基于相关联的经导出的数据对象之间的类似性而确定类似数据对象的集群,并且为每一个所确定的集群选择代表性数据对象。代表性内容选择模块选择与存储系统相关联的代表性内容,其中代表性内容是基于数据对象、经导出的数据对象和代表性数据对象,并且向分析应用相关优化所选代表性内容。
一般地,本文所公开的系统能够透明地标识、管理和服务来自存储系统的相关数据,其中数据可以具有关于分析工作载荷的非常有限的上下文。经导出的数据对象一般捕获数据中的整合特性以帮助减少冗余信息并且可以按照数据类型来定制。代表性数据对象一般捕获充足的可变性细节以使得能够以可以针对给定分析工作载荷类型进行调谐的粒度实现洞悉发现。
在以下详细描述中,参照形成其部分的附图,并且其中通过图示的方式示出其中可以实践本公开的具体示例。要理解的是,可以利用其它示例,并且可以做出结构或逻辑改变而不脱离本公开的范围。以下详细描述因而不以限制性含义来理解,并且本公开的范围由随附权利要求限定。要理解的是,本文所描述的各种示例的特征可以与彼此部分地或整体地组合(除非以其它方式特别地指出)。
图1是图示了用于与数据存储系统相关联的经相关优化的代表性内容的系统100的一个示例的功能框图。系统100包括数据汇总模块104、群集模块106和代表性内容选择模块108。数据汇总模块104可以经由处理器将存储系统102中的每一个数据对象与经导出的数据对象相关联。如本文所使用的,存储系统可以是具有数据存储能力的任何基于文件的系统,其中数据对象可以经由处理器而是对系统100可电子访问的。在一些示例中,存储系统102可以是基于对象的储存库(store)。一般地,数据对象可以可用于由多个潜在分析应用所使用。
与数据对象相关联的经导出的数据对象一般是数据对象自身的综述和/或代表,和/或可以提供经由某种形式的分析处理获取的关于数据对象的洞悉。在一些示例中,由于数据对象存储在存储系统102中,因此可以直接地或经由离线处理系统生成经定制导出的数据对象。经导出的数据对象可以被存储并且与从其导出它的原始数据对象相关联。
在一些示例中,经导出的数据对象可以是相关联的数据对象的数据缩略图(thumbnail)。例如,数据缩略图可以从文档的语义内容生成。在一些示例中,经导出的数据对象可以是相关联的数据对象的分析综述。例如,与日志文件相关联的经导出的数据对象可以代表日志消息、字段和值的统计特性(例如计数、平均值、最小值、最大值、方差、直方图或经由更加有关的时间系列分析获取的特性)。在一些示例中,经导出的数据对象可以是相关联的数据对象的内容综述。例如,与系统日志相关联的经导出的数据对象可以包括异常和/或严重程度(severity)标签。而且,例如,与文档相关联的经导出的数据对象可以包括其元数据描述、词语计数、关键短语和/或话题分布。在一些示例中,话题分布可能要求离线/后台分析以学习话题模型。作为另一示例,与(产品、影片、餐厅等的)在线评论相关联的经导出的数据对象可以包括通过执行文本的情感分析生成的情感标签和/或向量。
系统100包括基于相关联的经导出的数据对象之间的类似性而确定类似数据对象的集群并且为每一个所确定的集群选择代表性数据对象的群集模块106。例如,可以通过使用经导出的数据对象的优先化尺寸作为线索以基于类似性阈值对对象进行分组来应用类似性匹配技术。
代表性数据对象可以由群集模块106针对所确定的集群而选择。在一些示例中,群集模块106可以为所确定的集群选择代表性经导出的数据对象。在一些示例中,代表性数据对象可以是存储系统102中的构成数据对象之一。在一些示例中,代表性数据对象可以通过执行捕获集群及其整合内的单独变化的单独数据对象的某种组合来导出。在一些示例中,代表性数据对象可以使用来自大代表性数据对象(诸如传感器读数的大日志文件)的内容的代表性区段来导出。在一些示例中,代表性经导出的数据对象可以经由构成的经导出的数据对象的整合来生成。
系统100包括选择与存储系统相关联的代表性内容的代表性内容选择模块108,其中代表性内容是基于数据对象、经导出的数据对象和代表性数据对象。一般地,与存储系统102相关联的代表性内容是涉及可以与分析应用110相关的存储系统102中的数据对象的任何内容。例如,与存储系统102相关联的代表性内容可以包括代表性数据对象,从而减小数据量。在一些示例中,与存储系统102相关联的代表性内容可以包括与所确定的集群的子多个(sub-plurality)相关联的代表性数据对象。在一些示例中,与存储系统102相关联的代表性内容可以包括来自存储系统102的原始数据对象。在一些示例中,与存储系统102相关联的代表性内容可以包括代表性数据对象、经导出的数据对象和/或代表性经导出的数据对象。代表性经导出的数据对象一般是与经导出的数据对象相关联的代表性数据对象。
代表性内容选择模块108向分析应用110相关优化所选代表性内容。尽管在分析应用110的方面描述系统100,但是一般而言,可以存在通信链接到系统100的多个分析应用。如本文所使用的术语“相关优化”一般是指在具有针对分析应用110的最优相关性的粒度程度上代表存储系统102中的数据对象。一般地,代表性内容选择模块108选择代表性内容以保留数据对象的尽可能多的信息,以便与分析应用110相关,并且确保响应于来自分析应用110的查询的充分精确的结果。在一些示例中,系统100可以附加地实现在存储系统中采用的可以减小存储空间和输送大小的传统数据紧凑方案(例如压缩、去重复)。然而,如本文所描述的,系统100可以提供经相关优化的代表性内容以通过使得分析消费者能够避免将计算资源浪费在低相关性的数据对象上来帮助分析消费者,并且加速整个分析工作流(包括所生成的中间数据量),从而改进来自分析物的可行洞悉的时间性。
在一些示例中,经相关优化的代表性内容可以包括数据的最大代表。一般地,数据的最大代表是可以被优化成遵照存储要求和/或数据处理要求的数据代表。例如,数据的最大代表可以是被优化成遵照存储容量、处理速度等等的数据代表。在一些示例中,经相关优化的代表性内容可以包括数据的近似代表。一般地,数据的近似代表可能不一定是最大代表。在一些示例中,经相关优化的代表性内容可以包括存储系统102中的完整数据。
在一些示例中,代表性内容选择模块108可以通过修改所选代表性内容来相关优化所选代表性内容。在一些示例中,代表性内容选择模块108可以通过修改针对相关联的经导出的数据对象之间的类似性的类似性阈值来修改所选代表性内容。例如,代表性内容选择模块108可以提示群集模块106从而以便于确定新集群的方式调节类似性阈值。在一些示例中,代表性内容选择模块108可以通过修改经导出的数据对象的特征来修改所选代表性内容。例如,可以修改相关联的数据对象的第一子多个的数据缩略图。在一些示例中,代表性内容选择模块108可以通过使用于确定类似性的特征的子集合变化来修改所选代表性内容。而且,例如,可以修改相关联的数据对象的第二子多个的内容综述。作为另一示例,可以修改相关联的数据对象的第三子多个的分析综述。在一些示例中,数据对象的第一、第二和/或第三子多个可以相同。
在一些示例中,代表性内容选择模块108可以通过提示群集模块106为所确定的集群选择另一代表性对象来修改所选代表性内容。例如,群集模块106可以利用针对第一所确定的集群的第二代表性对象取代针对第一所确定的集群的第一代表性对象。而且,例如,群集模块106可以为第一所确定的集群选择附加的代表性对象。作为另一示例,群集模块106可以调节类似性阈值,确定新的集群,并且可以为新的集群选择新的代表性对象。在一些示例中,代表性内容选择模块108可以通过为存储系统102选择另一代表性内容来修改所选代表性内容。
在一些示例中,代表性内容选择模块108可以通过确定所选代表性内容的保真度来相关优化所选代表性内容,其中通过比较在存储系统102中的数据对象上和在所选代表性内容上运行的预查询的结果来确定保真度,并且其中预查询是基于分析应用110。一般地,预查询是针对其的结果已经已知的测试查询。相应地,在所选代表性内容上运行预查询允许代表性内容选择模块108比较基于所选代表性内容导出的结果与当在存储系统102的所有数据对象上运行预查询时生成的已知结果。
在一些示例中,当通过在所选代表性内容上运行预查询所获取的结果与已知结果强烈重叠时,可以确定所选代表性内容具有高保真度。在一些示例中,定量度量可以与结果的比较相关联,并且可以可选地取决于分析应用110而确定阈值。相应地,当针对所选代表性内容的定量度量在预确定的阈值内时,可以确定所选代表性内容具有可接受的保真度。同样地,当针对所选代表性内容的定量度量不在预确定的阈值内时,可以确定所选代表性内容不具有可接受的保真度。
在一些示例中,代表性内容选择模块108可以确定所选代表性内容的保真度是可接受的,并且可以将经相关优化的代表性内容标识为所选代表性内容。在一些示例中,基于对分析应用110的这样高的保真度,代表性内容选择模块108可以将经相关优化的代表性内容与分析应用110相关联。
在一些示例中,代表性内容选择模块108可以确定所选代表性内容的保真度不是可接受的。相应地,代表性内容选择模块108可以修改所选代表性内容,直到确定经修改的代表性内容的保真度是可接受的。在一些示例中,这样的过程可以迭代地执行,直到确定经修改的代表性内容的保真度是可接受的。
在一些示例中,代表性内容选择模块108可以基于保真度确定而修改所选代表性内容。例如,如本文所描述的,代表性内容选择模块108可以修改针对相关联的经导出的数据对象之间的类似性的类似性阈值。而且,例如,代表性内容选择模块108可以通过修改经导出的数据对象的特征来修改所选代表性内容。作为另一示例,代表性内容选择模块108可以为所确定的集群选择另一代表性对象。而且,例如,代表性内容选择模块108可以修改所选代表性内容并且为了对分析应用110的更高保真度而精细调谐它。
在一些示例中,经相关优化的代表性内容用于存储系统102中的存储管理功能。一般地,存储管理功能可以是由存储系统102执行以管理存储在存储系统102中的数据对象的任何功能。在一些示例中,可以执行这样的存储管理功能从而以便于使它们更加高效地可用于分析应用110的方式管理数据对象。在一些示例中,存储管理功能可以包括分层、缓存和数据保护。在一些示例中,存储管理功能可以包括在比存储系统102中的其它数据对象更快的存储设备中存储经相关优化的代表性内容。而且,例如,存储管理功能可以包括在比存储系统102中的其它数据对象增强的存储设备中存储经相关优化的代表性内容。在一些示例中,存储设备可以为经相关优化的代表性内容提供不同的时间和/或空间可访问性特征。例如,经相关优化的代表性内容可以存储在虚拟服务器和/或具有增强视觉化特征的服务器中。
在一些示例中,存储管理功能可以包括数据保护。例如,存储管理功能可以使用冗余(例如复制、纠删码等)来确保可用性。由于这样的数据保护机制牵涉成本(额外的存储空间、网络IO等),因此可以为经相关优化的代表性内容部署更加昂贵的冗余方案(如与存储系统102中的其它数据对象相对的)。
在一些示例中,代表性内容选择模块108可以响应于来自分析应用110的数据请求而提供经相关优化的代表性内容。例如,当分析应用110从存储系统102请求数据(典型地,通过为对象或文件指定某种种类的枚举或选择准则,例如匹配目录和/或文件名通配符,所有对象属于容器或者基于元数据搜索值进行滤波)时,代表性内容选择模块108可以标识对应于请求的经相关优化的代表性内容。对代表性内容选择模块108的输入可以包括匹配请求的原始数据对象、其相关联的经导出的数据对象、代表性数据对象和相关联的代表性经导出的数据对象。代表性内容选择模块108典型地返回对应于请求的代表性数据对象,但是可以取决于操作模式或预定规则而返回原始数据对象和/或经导出的数据对象。例如,如果操作在下钻或全解析度(full resolution)模式中,则原始数据对象构成相关数据。而且,例如,如果操作在近似和/或紧凑模式中,则是代表性数据对象、经导出的数据对象和/或代表性经导出的数据对象可以构成相关数据。
作为说明性示例,考虑包括由各种系统在一段时间内生成的大量每日日志文件的存储系统102。在一些示例中,这样的日志文件数据可以连续涌入。一般地,日志文件中的关键事件的相对比例随时间是一致的,并且模式一般是重复的。相应地,在大多数日子里,日志文件可能不包括新的信息。群集模块106可以基于经导出的数据对象的类似性而群集这样的日志文件,其中经导出的数据对象可以包括例如事件直方图。群集模块106可以从集群选择代表性数据对象(例如代表性日志文件),并且代表性内容选择模块108可以将代表性内容标识为代表性日志文件。相应地,当存储系统102被分析应用110访问以获取日志数据时,可以提供这些代表性日志文件,并且这可以足够用于使用日志来发现趋势、改变和异常的典型分析应用。
然而,在一些示例中,日志中的实际事件序列可能包括可能没有通过观察各个事件比例而适当表示的重要信息。在这样的示例中,修改近似粒度(例如由集群覆盖的大小或类似性范围)可能不增加代表性内容的保真度。相应地,在这样的示例中,代表性内容选择模块108可以修改所选代表性内容。例如,取代于选择集群中的代表性日志文件,可以执行集群中的所有日志文件的序列模式分析以确保增加代表性日志文件以展现集群中的附加特征变化。这样的序列模式分析可以例如通过对在来自集群中的其它日志文件的片段中发现的事件序列中的变化进行采样来执行。这样的经修改的代表性内容可以一般地显示对分析应用110的更高保真度。在一些示例中,代表性内容选择模块108可以向分析应用110提供经修改的代表性内容,而不是包括代表性日志文件的之前确定的代表性内容。
系统100的组件可以是计算资源,每一个包括物理计算设备、虚拟计算设备、网络、软件、云基础设施、混合云基础设施等等的合适组合,所述混合云基础设施可以包括第一云基础设施和与第一云基础设施不同的第二云基础设施。系统100的组件可以是硬件和用于执行指定视觉化功能的程序的组合。在一些实例中,每一个组件可以包括处理器和存储器,而编程代码存储在该存储器上并且可由处理器执行以执行指定功能。
例如,数据汇总模块104可以是硬件和程序的组合以经由处理器标识存储系统102中的数据对象。而且,例如,数据汇总模块104可以包括生成针对数据对象的经导出的数据对象的软件程序。在一些示例中,硬件加速器和/或索引器可以用于生成经导出的数据对象。作为另一示例,数据汇总模块104可以包括将经导出的数据对象与数据对象相关联的软件程序,并且可以包括物理地存储经导出的数据对象和所确定的关联的相关联的硬件。
同样地,群集模块106可以是硬件和程序的组合以基于相关联的经导出的数据对象之间的类似性而确定类似数据对象的集群。例如,群集模块106可以包括自动确定经导出的数据对象之间的类似性并且确定集群的软件程序。而且,例如,群集模块106可以包括为每一个所确定的集群选择代表性数据对象的软件程序。群集模块106可以包括物理地存储例如所确定的集群和代表性数据对象和/或代表性经导出的数据对象的硬件。而且,例如,群集模块106可以包括与系统100的其它组件动态交互的硬件和软件程序的组合。
以相同的方式,代表性内容选择模块108可以是硬件和程序的组合。例如,代表性内容选择模块108可以包括选择与存储系统102相关联的代表性内容的软件程序指令。而且,例如,代表性内容选择模块108可以包括向分析应用110相关优化所选代表性内容的软件程序指令。代表性内容选择模块108可以包括与系统100的其它组件动态地交互的硬件和软件程序的组合。
一般地,如本文所描述的,系统100的组件可以包括通信链接到系统100的其它组件的软件程序和物理网络。在一些实例中,系统100的组件可以包括处理器和存储器,而同时编程代码存储在该存储器上并且可由处理器执行以施行指定功能。
计算设备,如本文所使用的,可以是例如基于网络(web)的服务器、局域网服务器、基于云的服务器、笔记本计算机、台式计算机、多合一系统、平板计算设备、移动电话、电子书阅读器或适合于提供计算资源以执行统一视觉化接口的任何其它电子设备。计算设备可以包括处理器和计算机可读存储介质。
图2是图示了用于与数据存储系统相关联的经相关优化的代表性内容的计算机可读介质的一个示例的框图。处理系统200包括处理器202、计算机可读介质208、输入设备204和输出设备206。处理器202、计算机可读介质208、输入设备204和输出设备206通过通信链路(例如总线)耦合到彼此。
处理器202执行包括在计算机可读介质208中的指令。计算机可读介质208包括经由处理器202生成针对存储系统中的每一个数据对象的经导出的数据对象的经导出的数据对象生成指令210。
计算机可读介质208包括经由处理器202基于相关联的经导出的数据对象之间的类似性而确定类似数据对象的集群的集群确定指令212。
计算机可读介质208包括经由处理器202为每一个所确定的集群选择代表性数据对象的代表性数据对象选择指令214。
计算机可读介质208包括经由处理器202选择与存储系统相关联的代表性内容的代表性内容选择指令216,其中代表性内容是基于数据对象、经导出的数据对象和代表性数据对象。
计算机可读介质208包括确定所选代表性内容的保真度的保真度确定指令218,其中保真度通过比较在所选代表性内容上和在存储系统上的数据对象上运行的预查询的结果来确定,并且其中预查询是基于分析应用。
计算机可读介质208包括通过修改所选代表性内容直到确定保真度可接受来向分析应用相关优化所选代表性内容的相关优化指令220。
计算机可读介质208包括将经相关优化的代表性内容与分析应用相关联的分析应用关联指令222。
在一些示例中,计算机可读介质208包括将经先关优化的代表性内容用于存储系统中的存储管理功能的指令。
输入设备204包括键盘、鼠标、数据端口和/或用于将信息输入到处理系统200中的其它合适的设备。在一些示例中,输入设备204(诸如计算设备)用于接收数据对象、预查询、查询等等。输出设备206包括监视器、扬声器、数据端口和/或用于从处理系统200输出信息的其它合适设备。在一些示例中,输出设备206用于提供对查询的响应。
如本文所使用的,“计算机可读介质”可以是包含或存储诸如可执行指令、数据等之类的信息的任何电子、磁性、光学或其它物理存储装置。例如,本文所描述的任何计算机可读存储介质可以是以下中的任何一个:随机存取存储器(RAM)、易失性存储器、非易失性存储器、闪速存储器、存储驱动器(例如硬盘驱动器)、固态驱动器等,或者其组合。例如,计算机可读介质208可以包括一个或多个不同形式的存储器,包括半导体存储器设备,诸如动态或静态随机存取存储器(DRAM或SRAM)、可擦除和可编程只读存储器(EPROM)、电可擦除和可编程只读存储器(EEPROM)和闪速存储器;磁盘,诸如固定、软盘和可移除盘;其它磁性介质,包括磁带;光学介质,诸如致密盘(CD)或数字视频盘(DVD);或其它类型的存储设备。
如本文所描述的,处理系统200的各种组件被标识并且是指配置成执行指定视觉化功能的硬件和程序的组合。如图2中所图示的,程序可以是存储在有形计算机可读介质208上的处理器可执行指令,并且硬件可以包括用于执行那些指令的处理器202。因此,计算机可读介质208可以存储当由处理器202执行时实现处理系统200的各种组件的程序指令。
这样的一个或多个计算机可读存储介质被视为制品(或制造品)的部分。制品或制造品可以是指任何经制造的单个组件或多个组件。所述一个或多个存储介质可以位于运行机器可读指令的机器中,或者位于可以通过网络从其下载机器可读指令以供执行的远程站点处。
计算机可读介质208可以是能够存储可以由处理器202执行的指令的数个存储器组件中的任何一个。计算机可读介质208在以下含义下可以是非暂时性的:它不涵盖暂时信号,而是由配置成存储相关指令的一个或多个存储器组件构成。计算机可读介质208可以实现在单个设备中或者跨设备分布。同样地,处理器202表示能够执行由计算机可读介质208存储的指令的任何数目的处理器。处理器202可以集成在单个设备中或者跨设备分布。另外,计算机可读介质208可以完全或部分地集成在与处理器202相同的设备中(如所图示的),或者它可以是分离的但是对该设备和处理器202是可访问的。在一些示例中,计算机可读介质208可以是机器可读存储介质。
图3是图示了用于与数据存储系统相关联的经相关优化的代表性内容的方法的一个示例的流程图。在一些示例中,这样的示例方法可以由诸如例如图1的系统100之类的系统实现。
在300处,可以针对存储系统中的每一个数据对象生成经导出的数据对象。
在302处,可以基于相关联的经导出的数据对象之间的类似性而确定类似的数据对象的集群。
在304处,可以为每一个所确定的集群选择代表性数据对象。
在306处,可以选择与存储系统相关联的代表性内容,其中代表性内容是基于数据对象、经导出的数据对象和代表性数据对象。
在308处,可以从分析应用接收预查询。
在310处,可以通过确定所选代表性内容的保真度来经由处理系统向分析应用相关优化所选代表性内容,其中保真度通过比较在所选代表性内容上和在存储系统中的数据对象上运行的预查询的结果来确定,并且其中预查询是基于分析应用。
图4是图示了用于基于确定代表性内容的保真度的与数据存储系统相关联的经相关优化的代表性内容的方法的一个示例的流程图。在一些示例中,这样的示例方法可以由诸如例如图1的系统100之类的系统实现。
在400处,可以针对存储系统中的每一个数据对象生成经导出的数据对象。
在402处,可以基于相关联的经导出的数据对象之间的类似性而确定类似数据对象的集群。
在404处,可以为每一个所确定的集群选择代表性数据对象。
在406处,可以选择与存储系统相关联的代表性内容,其中代表性内容是基于数据对象、经导出的数据对象和代表性数据对象。
在408处,可以从分析应用接收预查询。
在410处,可以通过确定所选代表性内容的保真度来经由处理系统向分析应用相关优化所选代表性内容,其中保真度通过比较在所选代表性内容上和在存储系统中的数据对象上运行的预查询的结果来确定,并且其中预查询是基于分析应用。
在412处,可以确定所选代表性内容的保真度对分析应用是否是可接受的。
在414处,当确定保真度不可接受时,修改代表性内容,并且在410处,确定经修改的代表性内容的保真度。在一些示例中,迭代地修改代表性内容,直到在412处确定经修改的代表性内容的保真度是可接受的。
在416处,当确定保真度是可接受的时,将经相关优化的代表性内容标识为所选代表性内容。
在一些示例中,在418处,响应于来自分析应用的数据请求而提供经相关优化的代表性内容。
在一些示例中,在420处,经相关优化的代表性内容用于存储系统中的存储管理功能。在一些示例中,存储管理功能包括分层、缓存和数据保护中的一个。
本公开的示例提供了一种用于与数据存储系统相关联的经相关优化的代表性内容的一般化系统。该一般化系统解决当与生成有价值的洞悉中的实用性相比,数据量不成比例地高时,在数据存储、分析处理和数据通信中招致的增长成本的商业挑战。关键提议是使得存储系统(诸如服务数据池的一个)能够通过提供更大信息相关密度的数据来帮助分析消费者,因而不仅减少存储空间和数据输送量,而且还通过减少由消费者分析工作载荷招致的处理成本来改进以其生成可行洞悉的速度。
尽管已经在本文图示和描述了具体示例,但是各种可替换的和/或等效的实现方式可以取代所示出和描述的具体示例而不脱离本公开的范围。本申请意图覆盖本文所讨论的具体示例的任何适配或变型。因此,意图在于本公开仅由权利要求及其等同物限制。
Claims (15)
1.一种系统,包括:
经由处理器将存储系统中的每一个数据对象与经导出的数据对象相关联的数据汇总模块;
群集模块,用于:
基于相关联的经导出的数据对象之间的类似性而确定类似数据对象的集群,并且
为每一个所确定的集群选择代表性数据对象;以及
代表性内容选择模块,用于:
选择与存储系统相关联的代表性内容,其中代表性内容是基于数据对象、经导出的数据对象和代表性数据对象,并且
向分析应用相关优化所选代表性内容。
2.权利要求1所述的系统,其中经相关优化的代表性内容用于存储系统中的存储管理功能,并且其中存储管理功能包括分层、缓存和数据保护中的一个。
3.权利要求1所述的系统,其中经导出的数据对象是相关联的数据对象的数据缩略图、相关联的数据对象的内容综述和相关联的数据对象的分析综述中的一个。
4.权利要求1所述的系统,其中代表性内容选择模块响应于来自分析应用的数据请求而提供经相关优化的代表性内容。
5.权利要求1所述的系统,其中代表性内容选择模块通过确定所选代表性内容的保真度进行相关优化,其中保真度通过比较在所选代表性内容上和在存储系统中的数据对象上运行的预查询的结果来确定,并且其中预查询是基于分析应用。
6.权利要求5所述的系统,其中代表性内容选择模块:
确定所选代表性内容的保真度是可接受的;并且
将经相关优化的代表性内容标识为所选代表性内容。
7.权利要求5所述的系统,其中代表性内容选择模块:
确定所选代表性内容的保真度是不可接受的;
修改所选代表性内容直到经修改的代表性内容的保真度被确定为是可接受的;并且
将经相关优化的代表性内容标识为经修改的代表性内容。
8.权利要求1所述的系统,其中代表性内容选择模块基于所选代表性内容的修改而进行相关优化,包括针对相关联的经导出的数据对象之间的类似性的类似性阈值的修改、经导出的数据对象的特征的修改、针对所确定的集群的另一代表性对象的生成或者针对存储系统的另一代表性内容的选择。
9.一种方法,包括:
经由处理系统生成针对存储系统中的每一个数据对象的经导出的数据对象;
经由处理系统基于相关联的经导出的数据对象之间的类似性而确定类似数据对象的集群;
经由处理系统为每一个所确定的集群选择代表性数据对象;
经由处理系统选择与存储系统相关联的代表性内容,其中代表性内容是基于数据对象、经导出的数据对象和代表性数据对象;
经由处理系统从分析应用接收预查询;
经由处理系统通过确定所选代表性内容的保真度向分析应用相关优化所选代表性内容,其中保真度通过比较在所选代表性内容上和在存储系统中的数据对象上运行的预查询的结果来确定,并且其中预查询是基于分析应用。
10.权利要求9所述的方法,其中优化所选代表性内容的相关性包括:
确定所选代表性内容的保真度是可接受的;以及
经由处理系统将经相关优化的代表性内容标识为所选代表性内容。
11.权利要求9所述的方法,其中优化所选代表性内容的相关性包括:
确定所选代表性内容的保真度是不可接受的;
修改所选代表性内容直到经修改的代表性内容的保真度被确定为是可接受的;以及
将经相关优化的代表性内容标识为经修改的代表性内容。
12.权利要求9所述的方法,还包括响应于来自分析应用的数据请求而提供经相关优化的代表性内容。
13.权利要求9所述的方法,还包括将经相关优化的代表性内容用于存储系统中的存储管理功能,并且其中存储管理功能包括分层、缓存和数据保护中的一个。
14.一种非暂时性计算机可读介质,包括可执行指令用于:
经由处理器生成针对存储系统中的每一个数据对象的经导出的数据对象;
经由处理器基于相关联的经导出的数据对象之间的类似性而确定类似数据对象的集群;
经由处理器为每一个所确定的集群选择代表性数据对象;
经由处理器选择与存储系统相关联的代表性内容,其中代表性内容是基于数据对象、经导出的数据对象和代表性数据对象;
确定所选代表性内容的保真度,其中保真度通过比较在所选代表性内容上和在存储系统中的数据对象上运行的预查询的结果来确定,并且其中预查询是基于分析应用;
通过修改所选代表性内容直到保真度被确定为可接受来向分析应用相关优化所选代表性内容;以及
将经相关优化的代表性内容与分析应用相关联。
15.权利要求14所述的非暂时性计算机可读介质,还包括将经相关优化的代表性内容用于存储系统中的存储管理功能的指令。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IN5949CH2015 | 2015-11-03 | ||
IN5949/CHE/2015 | 2015-11-03 | ||
PCT/US2016/021653 WO2017078774A1 (en) | 2015-11-03 | 2016-03-10 | Relevance optimized representative content associated with a data storage system |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107430633A true CN107430633A (zh) | 2017-12-01 |
CN107430633B CN107430633B (zh) | 2021-05-14 |
Family
ID=58662858
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680022705.0A Active CN107430633B (zh) | 2015-11-03 | 2016-03-10 | 用于数据存储的系统及方法和计算机可读介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10872103B2 (zh) |
EP (1) | EP3283984A4 (zh) |
CN (1) | CN107430633B (zh) |
WO (1) | WO2017078774A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10664316B2 (en) | 2017-01-31 | 2020-05-26 | Hewlett Packard Enterprise Development Lp | Performing a computation using provenance data |
US10567509B2 (en) * | 2017-05-15 | 2020-02-18 | International Business Machines Corporation | Rebuilding derived content |
US20200233857A1 (en) * | 2019-01-17 | 2020-07-23 | The Boston Consulting Group, Inc. | Ai-driven transaction management system |
Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030046270A1 (en) * | 2001-08-31 | 2003-03-06 | Arkivio, Inc. | Techniques for storing data based upon storage policies |
US20070112852A1 (en) * | 2005-11-07 | 2007-05-17 | Nokia Corporation | Methods for characterizing content item groups |
US20080077572A1 (en) * | 2006-08-01 | 2008-03-27 | Peter Currie Boyle | Clustering Data Objects |
CN102004670A (zh) * | 2009-12-17 | 2011-04-06 | 华中科技大学 | 一种基于MapReduce的自适应作业调度方法 |
CN102053992A (zh) * | 2009-11-10 | 2011-05-11 | 阿里巴巴集团控股有限公司 | 聚类方法和系统 |
US20110137924A1 (en) * | 2007-01-26 | 2011-06-09 | Herbert Dennis Hunt | Cluster processing of an aggregated dataset |
CN102292699A (zh) * | 2009-02-04 | 2011-12-21 | 思杰系统有限公司 | 用于在云计算环境中提供对从存储系统检索的数据的转换的系统和方法 |
CN102428467A (zh) * | 2009-04-08 | 2012-04-25 | 谷歌公司 | 用于分类的基于相似度的特征集补充 |
CN102682059A (zh) * | 2005-08-15 | 2012-09-19 | 谷歌公司 | 用于将用户分配到集群的方法和系统 |
CN102999538A (zh) * | 2011-09-08 | 2013-03-27 | 富士通株式会社 | 人物搜索方法和设备 |
CN103003814A (zh) * | 2010-05-14 | 2013-03-27 | 数据逻辑Adc公司 | 使用大型数据库进行对象识别的系统及方法 |
CN103106279A (zh) * | 2013-02-21 | 2013-05-15 | 浙江大学 | 一种同时基于节点属性以及结构关系相似度的聚类方法 |
CN103477243A (zh) * | 2011-03-24 | 2013-12-25 | 古河电气工业株式会社 | 雷达装置 |
CN103544255A (zh) * | 2013-10-15 | 2014-01-29 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
CN103812939A (zh) * | 2014-02-17 | 2014-05-21 | 李漾 | 一种大数据存储系统 |
CN103970871A (zh) * | 2014-05-12 | 2014-08-06 | 华中科技大学 | 存储系统中基于溯源信息的文件元数据查询方法与系统 |
CN104408584A (zh) * | 2014-12-18 | 2015-03-11 | 中国农业银行股份有限公司 | 一种交易关联性的分析方法及系统 |
CN104699567A (zh) * | 2013-10-21 | 2015-06-10 | 国际商业机器公司 | 用于在分布式数据存储系统中恢复数据对象的方法和系统 |
CN104778204A (zh) * | 2015-03-02 | 2015-07-15 | 华南理工大学 | 基于两层聚类的多文档主题发现方法 |
WO2015147913A1 (en) * | 2014-03-27 | 2015-10-01 | Nec Laboratories America, Inc. | System and methods for collaborative query processing for large scale data processing with software defined networking |
US20160019268A1 (en) * | 2014-07-18 | 2016-01-21 | Kobo Inc. | User-interface for providing a stack view of an e-book collection |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7600198B2 (en) | 2005-11-23 | 2009-10-06 | Bluebeam Software, Inc. | Method of tracking data objects using related thumbnails in a palette window |
US20090248722A1 (en) | 2008-03-27 | 2009-10-01 | International Business Machines Corporation | Clustering analytic functions |
JP5270209B2 (ja) * | 2008-03-31 | 2013-08-21 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 複数のタスクの進捗を管理するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム |
US8442982B2 (en) | 2010-11-05 | 2013-05-14 | Apple Inc. | Extended database search |
GB201115418D0 (en) * | 2011-09-06 | 2011-10-19 | Shl Group Ltd | Analytics |
US9594823B2 (en) | 2012-08-22 | 2017-03-14 | Bitvore Corp. | Data relationships storage platform |
US9514213B2 (en) * | 2013-03-15 | 2016-12-06 | Oracle International Corporation | Per-attribute data clustering using tri-point data arbitration |
US10210246B2 (en) * | 2014-09-26 | 2019-02-19 | Oracle International Corporation | Techniques for similarity analysis and data enrichment using knowledge sources |
GB201615747D0 (en) * | 2016-09-15 | 2016-11-02 | Gb Gas Holdings Ltd | System for data management in a large scale data repository |
-
2016
- 2016-03-10 EP EP16862610.9A patent/EP3283984A4/en not_active Withdrawn
- 2016-03-10 WO PCT/US2016/021653 patent/WO2017078774A1/en active Application Filing
- 2016-03-10 US US15/761,991 patent/US10872103B2/en active Active
- 2016-03-10 CN CN201680022705.0A patent/CN107430633B/zh active Active
Patent Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030046270A1 (en) * | 2001-08-31 | 2003-03-06 | Arkivio, Inc. | Techniques for storing data based upon storage policies |
CN102682059A (zh) * | 2005-08-15 | 2012-09-19 | 谷歌公司 | 用于将用户分配到集群的方法和系统 |
US20070112852A1 (en) * | 2005-11-07 | 2007-05-17 | Nokia Corporation | Methods for characterizing content item groups |
US20080077572A1 (en) * | 2006-08-01 | 2008-03-27 | Peter Currie Boyle | Clustering Data Objects |
US20110137924A1 (en) * | 2007-01-26 | 2011-06-09 | Herbert Dennis Hunt | Cluster processing of an aggregated dataset |
CN102292699A (zh) * | 2009-02-04 | 2011-12-21 | 思杰系统有限公司 | 用于在云计算环境中提供对从存储系统检索的数据的转换的系统和方法 |
CN102428467A (zh) * | 2009-04-08 | 2012-04-25 | 谷歌公司 | 用于分类的基于相似度的特征集补充 |
CN102053992A (zh) * | 2009-11-10 | 2011-05-11 | 阿里巴巴集团控股有限公司 | 聚类方法和系统 |
CN102004670A (zh) * | 2009-12-17 | 2011-04-06 | 华中科技大学 | 一种基于MapReduce的自适应作业调度方法 |
CN103003814A (zh) * | 2010-05-14 | 2013-03-27 | 数据逻辑Adc公司 | 使用大型数据库进行对象识别的系统及方法 |
CN103477243A (zh) * | 2011-03-24 | 2013-12-25 | 古河电气工业株式会社 | 雷达装置 |
CN102999538A (zh) * | 2011-09-08 | 2013-03-27 | 富士通株式会社 | 人物搜索方法和设备 |
CN103106279A (zh) * | 2013-02-21 | 2013-05-15 | 浙江大学 | 一种同时基于节点属性以及结构关系相似度的聚类方法 |
CN103544255A (zh) * | 2013-10-15 | 2014-01-29 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
CN104699567A (zh) * | 2013-10-21 | 2015-06-10 | 国际商业机器公司 | 用于在分布式数据存储系统中恢复数据对象的方法和系统 |
CN103812939A (zh) * | 2014-02-17 | 2014-05-21 | 李漾 | 一种大数据存储系统 |
WO2015147913A1 (en) * | 2014-03-27 | 2015-10-01 | Nec Laboratories America, Inc. | System and methods for collaborative query processing for large scale data processing with software defined networking |
CN103970871A (zh) * | 2014-05-12 | 2014-08-06 | 华中科技大学 | 存储系统中基于溯源信息的文件元数据查询方法与系统 |
US20160019268A1 (en) * | 2014-07-18 | 2016-01-21 | Kobo Inc. | User-interface for providing a stack view of an e-book collection |
CN104408584A (zh) * | 2014-12-18 | 2015-03-11 | 中国农业银行股份有限公司 | 一种交易关联性的分析方法及系统 |
CN104778204A (zh) * | 2015-03-02 | 2015-07-15 | 华南理工大学 | 基于两层聚类的多文档主题发现方法 |
Non-Patent Citations (1)
Title |
---|
ROCKET SOFTWARE: "Intelligent data management required when implementing a modern storage infrastructure", 《HTTP://COGNITIVEIMPACT.COM/MEDIA/TECHNICALPAPERS/WP_ARKIVIO_ARKIVIO_AUTOSTOR.PDF》 * |
Also Published As
Publication number | Publication date |
---|---|
US10872103B2 (en) | 2020-12-22 |
EP3283984A4 (en) | 2018-04-04 |
EP3283984A1 (en) | 2018-02-21 |
CN107430633B (zh) | 2021-05-14 |
WO2017078774A1 (en) | 2017-05-11 |
US20180276290A1 (en) | 2018-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200356901A1 (en) | Target variable distribution-based acceptance of machine learning test data sets | |
US11593458B2 (en) | System for time-efficient assignment of data to ontological classes | |
AU2017202873B2 (en) | Efficient query processing using histograms in a columnar database | |
US20200226133A1 (en) | Knowledge map building system and method | |
CA2953826C (en) | Machine learning service | |
US20150286701A1 (en) | Data Classification Aware Object Storage | |
US20130006996A1 (en) | Clustering E-Mails Using Collaborative Information | |
CN106970958B (zh) | 一种流文件的查询与存储方法和装置 | |
CN110708285B (zh) | 流量监控方法、装置、介质及电子设备 | |
CN110457182A (zh) | 一种负载均衡集群实例运行指标监控系统 | |
CN109657803B (zh) | 机器学习模型的构建 | |
CN107430633A (zh) | 与数据存储系统相关联的经相关优化的代表性内容 | |
KR20220069482A (ko) | 빅데이터 증강분석 프로파일링 시스템 | |
CN106649374B (zh) | 导航标签排序的方法及装置 | |
CN111797995A (zh) | 一种模型预测样本的解释报告的生成方法及装置 | |
CN108108444B (zh) | 一种企业业务单元自适应系统及其实现方法 | |
CN116243869A (zh) | 数据处理方法、装置及电子设备 | |
US11675856B2 (en) | Product features map | |
CN110019771B (zh) | 文本处理的方法及装置 | |
CN112818067A (zh) | 结合大数据和多维特征的数据溯源方法及大数据云服务器 | |
CN111651531A (zh) | 数据导入方法、装置、设备及计算机存储介质 | |
CN109376191A (zh) | 财报数据处理方法、装置、计算机设备和存储介质 | |
CN117973566B (zh) | 训练数据处理方法、装置及相关设备 | |
KR102640444B1 (ko) | 빅데이터 신뢰성과 활용성 극대화를 위한 빅데이터 증강분석 프로파일링 방법 및 장치 | |
CN104252486B (zh) | 一种数据处理的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |