CN110383242B - 使用关键伪像和动态生成的循环进行有损数据压缩的方法 - Google Patents

使用关键伪像和动态生成的循环进行有损数据压缩的方法 Download PDF

Info

Publication number
CN110383242B
CN110383242B CN201780087785.2A CN201780087785A CN110383242B CN 110383242 B CN110383242 B CN 110383242B CN 201780087785 A CN201780087785 A CN 201780087785A CN 110383242 B CN110383242 B CN 110383242B
Authority
CN
China
Prior art keywords
data
client
event
point
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780087785.2A
Other languages
English (en)
Other versions
CN110383242A (zh
Inventor
德芙·顾皮塔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
De FuGupita
Original Assignee
De FuGupita
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by De FuGupita filed Critical De FuGupita
Publication of CN110383242A publication Critical patent/CN110383242A/zh
Application granted granted Critical
Publication of CN110383242B publication Critical patent/CN110383242B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/08Payment architectures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • General Business, Economics & Management (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本公开描述了使用关键伪像和动态生成的循环进行有损数据压缩的方法,其包括:接收关系数据的数据流;检测数据流中与关系数据中的临界点相关联的伪像;由处理设备分析伪像以确定与复杂事件相关联的伪像集合,其中临界点是复杂事件的端点;基于伪像集合计算一个或多个循环度量;生成与复杂事件和循环度量相关联的数据结构;提供数据结构以便基于循环度量利用复杂事件来标记关系数据的显示。

Description

使用关键伪像和动态生成的循环进行有损数据压缩的方法
技术领域
这里讨论的示例实现方案的方面通常涉及数据处理,并且更具体地,涉及使用一系列动态生成的循环对压缩数据进行汇总、分发、压缩、存储和可视化。
背景技术
相关技术数据源在联网的服务器设备或客户端设备处被分析和压缩。压缩在相关技术中用于处理数据和/或以比原始表示少的比特传输数据。通常,压缩有助于优化资源,包括传输、延迟、容量、功率和数据存储。然而,数据压缩方案的设计涉及各种因素之间的权衡。在有损数据压缩方案中,权衡可能涉及丢掉数据源中的细节,以提高中央处理单元(CPU)利用率,改善网络传输,并允许快速比较和可视化。比较可以使用差分压缩,产生描述两个数据集之间差异的一系列技术伪像(artifact)。存在针对音频和视频信号处理和其他数据流的一些压缩方案。
相关技术制图工具可以可视化原始数据源,但它们不会覆盖或突出显示压缩数据的关键点。相关技术可视化工具不会将噪声数据与基本数据分开。
发明内容
这里讨论的主题包括用于将数据流压缩成一系列度量的方法,包括但不限于,动态地找到诸如高点(高峰点)、低点(低谷点)、平衡点、间隔点、用户定义的点之类的关键伪像,以及生成这些伪像之间的差异百分比,这被称为循环度量。许多数据流具有高信噪比,并且这里讨论的有损压缩方案可以通过滤除对用户不重要的噪声数据来利用这一点,并保留可能与用户相关的数据。数据流可能具有高扰动和相似数据的重复。扰动的变化有时可能是数据中最相关的信号。这种数据处理机制可以识别和表征扰动的变化,并且可以极大地减小数据的大小,还可以提高用户的信号质量。
这种类型的数据压缩可以应用于针对N个维度使用成对的X和Y值的任何多维数据流,其中有N*(N-1)个X和Y数据对的组合。X和Y值可以表示例如时间、日期、体积、频率、数量、负载、发生率、延迟、金钱、功率、脉冲、能量、投资值、拒绝尝试、连接、温度等两个值之间的任何关系。
本主题包括用于实现压缩以生成一系列循环度量的方法,包括:接收关系数据的数据流;检测数据流中与关系数据中的临界点(critical point)相关联的关键伪像;分析关键伪像以确定与复杂事件相关联的伪像集合,其中临界点是复杂事件的端点;基于伪像集合计算一个或多个循环度量;生成描述复杂事件和循环度量的数据结构;以及提供数据结构以便基于循环度量利用复杂事件来标记关系数据的显示。压缩数据可以被高效地处理、传输、分析、比较、存储和可视化。以各种分辨率压缩数据流的计算工作可以在客户端和服务器之间进行划分,并根据需要进行负载均衡。
根据一个方面,提供了一种处理数据流的计算机实现的方法,处理设备可以确定与来自(X,Y)和(X’,Y’)的数据流的任何两个任意点之间的最大高峰点相关联的关键伪像。循环的低谷点可以被确定为高峰点之后的最低点。平衡点可以被确定为最低点之后的基本上等于高峰点第一个点。另一个关键伪像可以被确定为超出(X’,Y’)的在平衡点之后的第一个高峰点。在这方面,数据流被分析,以检测作为与复杂事件相关联的伪像集合的关键伪像,计算循环度量,以及数据流被压缩到数据结构中以描述复杂事件和循环度量。例如,一系列循环度量可以包括从高峰点到最低点的下降百分比和从平衡点到下一个高峰点的增长百分比。循环度量可以包括下降、回升和增长百分比的组合,如本文更详细描述的。从语义上来说,可以根据数据流向前或向后、以其整体或针对子集来计算循环度量。压缩分辨率可以通过多种方式指定。例如,压缩分辨率可以通过计算下降百分比大于X%的循环度量来指定,该百分比可以称为峰值百分比。在一个示例中,可以通过计算代表数据流的N个最大下降百分比的N个最大循环度量来指定分辨率。
根据另一方面,提供了一种处理数据流的计算机实现的方法,其中度量以规则的间隔计算,或者由用户通过指示符或事件标记指定。数据流可以根据用户指定以规则间隔或临时安排地压缩成一系列百分比变化或度量。
附图说明
图1示出了根据一个或多个示例实现方案的示例架构。
图2示出了如何可以在数据流中定义技术伪像和循环度量。
图3A提供了压缩数据流和确定循环度量的过程实现方案的示例。
图3B示出了示例数据结构。
图4提供了循环度量以及间隔度量、指示符、事件和标记的动态生成的压缩数据流的可视化。
图5展示了可被向后或向前处理的向上和向下趋势数据流的循环度量。
图6提供了具有相关示例原因的循环度量和指示符的矩阵。
图7示出了两个数据流的可视化和比较。
图8示出了两个数据流的可视化,这两个数据流被加在一起、被压缩,并具有最终的循环度量。
图9示出了心电图数据流的示例应用。
图10示出了地震活动数据流的示例应用。
图11示出了全球变暖和温度数据流的示例应用。
图12示出了网络攻击数据流的示例应用。
图13示出了支付错误数据流的示例应用。
图14a-c示出了市场指数数据的示例应用。
图15示出了将稳健投资组合与私募股权基金进行比较的示例应用,其中数据流是离线加载的。
图16示出了可应用于任何应用、包括先前讨论的示例应用的预测数据分析工具。
图17示出了适用于一些示例实现方案的示例环境。
图18示出了具有适用于在一些示例实现方案中使用的示例计算设备的示例计算环境。
图19示出了循环度量的示例界面显示。
图20示出了根据一个或多个示例实现方案的示例数据流。
图21示出了根据一个或多个示例实现方案的循环度量和研究报告之间的相关性的示例。
图22示出了根据一个或多个示例实现方案的显示循环度量阶段的示例观察列表。
具体实施方式
这里描述的主题是通过示例实现方案教导的。为了清楚和避免模糊主题,省略了各种细节。
假设两个徒步旅行者从同一个海拔高度出发,但在山的不同侧面,使用不同的路径爬到山顶。第一个徒步旅行者选择了一条低效的路径,在去顶点的路上,这条路径带着他在几座大坡地上上下下。第二个徒步旅行者选择了一条高效的路径,这条路径靠近从山脚到山顶的一条直线,有小的落差。假设徒步旅行者的海拔高度随时间绘制在(X,Y)图表中,其中X代表时间,Y代表海拔高度。第一个徒步旅行者的(X,Y)数据流将在到达顶点的路径上示出大的海拔下降,具有大的中间高峰和低谷。第二个徒步旅行者的海拔高度图大部分是一条到顶点的直线,具有海拔高度的小的下降。
传统方法可以使用统计方法、如标准偏差来测量每个徒步旅行者路径的波动性。因为第一个徒步旅行者偏离直线路径最多,所以从统计上来看,它更不稳定,因此可能被认为不太理想。然而,传统的统计方法取决于正在分析的周期。因此,如果只分析徒步旅行者数据流的最后两个小时,它可能与前两个小时的波动性测量结果相冲突。
本发明离散地识别数据中的关键循环,并突出显示数据从高峰到低谷,然后到平衡点,然后到新的高峰的移动。用户可以在图表上突出显示关键伪像(artifact),例如“示出大于5%的所有下降”或“示出图表上的前5个下降”。关键点可以按时间间隔识别为检查点(即每30分钟每个徒步旅行者的海拔高度)。本发明将数据标准化,以便可以对其进行比较(即假设第一个徒步旅行者每5分钟读取一次海拔读数,第二个徒步旅行者每10分钟读取一次)。本发明允许对数据流进行标记、聚合和唯一识别。它允许多个数据流全部同时在图表上可视化,一个层叠在一个之上,或者显示在同一个图表上。本发明允许用户可视化数据流中的离散差异。它允许用户放大数据流并重新计算高峰到低谷的循环。它允许图表同步起点和结束点、间隔长度和时间段。它允许用户组合数据源并将它们与其他数据源进行比较。
下面示出的示例针对用于将数据流压缩成一系列循环度量的结构和功能,包括但不限于,动态地找到诸如高点(例如,高峰点或局部最大点)、低点(例如,低谷点或局部最小点)、回退点、平衡点、间隔点、用户指定点之类的关键伪像,以及生成被称为循环度量的这些伪像之间的百分比差异。
架构
图1示出了根据一个或多个示例实现方案的示例架构100。客户端101可以包括与使用例如移动现现场设备(MFD)、个人计算机(PC)、电话、显示器等的用户的接口。客户端101可以包括但不限于处理器、存储器、用户输入设备、用户输出设备等。
客户端101与客户端侧模块102通信。客户端侧模块102可以包括与离线数据(例如导入文件)相关联的离线数据加载器103。客户端侧模块102包括数据请求聚合器104,其可以识别一组数据源以进行分析和压缩。数据请求聚合器104通过例如提供唯一标识符来捆绑对数据源(例如数据源1ID 1、数据源2ID 2……数据源ID N等)的请求。数据压缩模块105或数据压缩模块109允许客户端侧模块102和服务器侧模块107对压缩的计算工作量进行负载均衡。数据压缩模块109和105还可以缓存对唯一数据源的压缩,以优化处理时间、改善延迟以及降低功耗。数据压缩模块105的压缩分辨率可以由波顶和/或用户定义的区域来确定。如下所述,服务器侧模块107可以使用例如0%的峰值百分比来压缩数据源,然后将压缩的数据传送到客户端侧模块102。客户端侧模块102还可以在将数据传递给客户端设备101进行分析和/或可视化之前将数据压缩到例如5%的波顶。因为数据可以被缓存,所以在稍后的时间,用户可以请求例如7%的波顶,该波顶可以由客户端使用具有5%波顶的缓存数据流来确定。
该请求允许服务器侧模块107和客户端侧模块102基于物理部署环境和架构100对压缩处理进行负载均衡。例如,移动现现场设备(MFD)压缩数据的处理能力可能有限。因此,服务器侧模块107可以执行大部分压缩。联网的PC客户端101可以具有足够的处理能力和网络带宽,以允许客户端侧模块102执行大量压缩处理,从而提高可扩展性。
客户端侧模块102例如通过在106处的诸如互联网、云、通信网络或内联网的通信信道与服务器侧模块107通信。服务器侧模块107获取客户端侧模块102请求的数据源(例如,数据源1ID 1、数据源2ID 2...数据源N ID N等)。服务器侧模块107可以包括数据标准化模块108,以标准化多个数据源。
数据标准化模块108的处理可以包括对齐X轴上的间隔值。例如,为了将X轴标准化为时间,数据标准化模块108可以接收两个数据源——一个数据源具有每日数据,另一个数据源具有每月数据。数据标准化模块108可以将每日数据源转换成每月间隔,使得两个数据源具有匹配的每月间隔,而不是不匹配的每月和每日间隔。这有助于两个数据源的比较和可视化。此外,使用压缩循环度量进行比较可以区分正常模式和异常模式。例如,标准化数据后,可以针对正常数据流计算平均高峰至低谷百分比、回升持续时间、平均增长和持续时间百分比。这些平均值和参数然后可以被应用于其他数据流,并且可以识别和可视化超出正常阈值的异常数据。例如,如果正常下降通常平均为4%,系统可以压缩数据,仅显示大于4%的下降,以识别异常。在这种情况下,小于4%的下降作为非必要数据从数据流中压缩掉,只有大于4%的必要下降被突出显示。
数据可以由数据标准化模块108标准化,并且在109的数据压缩模块可以压缩数据以提取关键伪像。数据标准化模块108和数据压缩模块109可以并行操作以优化性能。
循环度量被传递回服务器侧模块107,服务器侧模块107通过安全或不安全的网络106将循环度量传递回客户端侧模块102。
在一些示例实现方案中,服务器侧模块107向能够访问数据流的远程设备传输数据结构,使得远程设备能够基于数据结构显示用该伪像集合标记的关系数据,并且基于所识别的位置生成用事件信息标记的关系数据的显示。
在一些实现方案中,客户端侧模块102可以接收关系数据和多个事件数据结构的数据流,其中每个事件数据结构描述复杂事件和与复杂事件相关联的循环度量。客户端侧模块102识别与多个事件数据结构相关联的关系数据中的位置,并生成关系数据的显示。该显示可以包括基于一个或多个循环度量来识别与一个或多个事件数据结构相关联的事件信息。
压缩和伪像规范
根据另一方面,提供了一种处理数据流的计算机实现的方法。关键伪像被动态检测,例如高点(高峰点)、低点(低谷点)、回退点、平衡点、间隔点、用户定义的点以及这被称为度量标记的这些伪像之间的差异百分比。该处理由105和109的数据压缩模块进行,这允许在客户端和服务器上进行负载均衡和缓存。
伪像集合可以包括(但不限于)指示与关键伪像相关联的关系值相当的关系值的基准伪像和指示基于关键伪像的相对变化的高峰伪像,其中高峰伪像与基准伪像之后的另一个临界点相关联。处理器可以基于关键伪像和基准伪像来识别范围,其中该范围包括局部峰值。处理器可以继续基于基准伪像和额外峰值伪像来识别额外范围。
图2示出了伪像和循环的示例。如图2所示,通过识别关键点,例如绝对高峰、低谷、平衡和新的绝对高峰,从原始的X&Y值压缩数据流。绝对高峰是一个Y值,该值大于正在分析的数据流子集中的任何先前的Y值。作为一个示例,绝对高峰202是相对于正在被分析的数据流子集中的所有先前数据点的最大Y值。在一些示例实现方案中,绝对高峰不是相对于整个数据流子集,而是相对于数据流子集中的所有先前数据点。可以在绝对高峰之间找到中间峰值。此外,数据流子集内的较小子集可用于揭示新的绝对高峰、低谷和平衡点,它们在子集内彼此是相对的。
完整循环的示例,如201所示,定义如下:
在202处的绝对高峰(例如,局部最大值点或相对于先前数据点的最高值)
然后在203到达低谷(例如,局部最小值或自上一个局部最大值以来的最低点)
然后在204到达平衡点(大于绝对高峰的相同或下一个数据点)
然后在205到达新的绝对高峰(例如,新的局部最大值点)
数据流可以有N个循环。如后面所讨论的,循环可以根据压缩的期望分辨率而收缩。
从202到203的下降百分比开始,然后从203到204的回升百分比(可以从下降百分比用数学方式推导出来),然后从204到205的增长百分比,计算关键点之间的百分比。这些关键点的百分比统称为“循环度量”。
209所示的回退是数据流的另一个伪像。回退基于具有(X,Y)值的任意的用户定义的数据点,并定义具有相同Y的先前的X值。例如,209示出了一条线,该线的右侧和左侧都有数据点。与线209左侧的数据点相关联的回退是线右侧的数据点。只有从某个绝对高峰下降时,才能定义回退点。新的绝对高峰不会有相关的回退点。
根据应用,可以计算其他关键伪像来描述循环。例如,210处的下降段百分比可以捕捉从绝对高峰202下降到低谷203时发生的X轴变化。
波顶(阈值)定义
如图2所示,波顶(crest)确定了压缩(X,Y)数据流的分辨率。波顶也可以称为阈值百分比。206处的波顶用于确定被认为是新循环的循环的最小下降百分比。例如,10%的波顶将要求数据流的下降百分比至少为10%,以便确定绝对高峰。
0%的波顶提供压缩数据流的最高分辨率,并计算循环度量,而不管下降百分比大小。较小的波顶可以确定更多的循环。较大的波顶可以确定较少的循环。
用户还可以通过指定压缩数据流中的循环数来选择压缩的分辨率,例如,找到N个最大下降百分比。例如,指定5个循环的波顶会压缩数据流,从而确定前五个最大的循环,每个循环相对于数据流具有最大的下降百分比。这是通过对数据流应用0%波顶,然后过滤掉除5个最大下降百分比之外的所有循环来计算的。第五大下降百分比可以用作数据流的新波顶,并且可以重新计算循环。可以使用这里概述的技术来优化重新计算。
压缩过程算法
图3A至图3B提供了压缩数据流和确定循环度量的过程实现方案的示例。数据源可以向前、向后或其任意组合进行处理。如图1所示,该过程可以由服务器侧模块107和/或客户端侧模块102执行,或者在两者之间进行负载均衡。
在一些示例中,过程300可以用不同、更少或更多的块来实现。过程300可以实现为计算机可执行指令,其可以存储在介质上,加载到一个或多个计算设备的一个或多个处理器上,并且作为计算机实现的方法来执行。
处理器可以:
在301,从数据流中读取第一个(X1,Y1)数据点,并将其设置为图3B中的数据点数据结构。在302,将数据点值存储为绝对高峰(AP)、平衡点(BP)和低谷(T)。在图3B的循环数据结构中,数据点被存储为AbsPeak_AP、Trough_T,结束点设置为真(TRUE)。这初始化了正在搜索的伪像的起始值,如图2中的点202、203和204所示。在303,将增长模式(GM)布尔值(Boolean)设置为真,这意味着处理器正在搜索下一个绝对高峰。这存储在图3B的过程数据结构中。在304,读取另一个数据点(Xn,Yn),并存储在图3B的数据点数据结构中。
在305,如果Yn数据点大于或等于绝对高峰(AP),则在306,如果增长模式(GM)为假(FALSE),则与先前的绝对高峰相比,已经检测到平衡点。在307,将该点(Xn,Yn)记录为平衡点(BP),并通过在图3B的过程数据结构中将增长模式(GM)设置为真进入增长模式。将回升百分比计算为BP/T-1,即从低谷到平衡点的百分比变化。平衡点的确切位置(即前一个绝对高峰的完全相同的Y值)可以在两个数据点之间。例如,在这种情况下,平衡点的确切位置可以例如用毕达哥拉斯定理来确定。使用这种方法,可以使用AP/T-1来确定回升率,因为AP等于BP。在308,该过程将该(Xn,Yn)值记录为新的绝对高峰(AP),其在图3B的循环数据结构中。
在309,检查Yn数据点是否小于低谷(T),然后在310,将该(Xn,Yn)值记录为新的低谷(T),将其存储在图3B的循环数据结构中。在311,使用T/AP-1计算从绝对高峰(AP)到新低谷(T)的新下降百分比。这些存储在图3B的循环数据结构中。在312,检查下降百分比是否大于峰值,然后在313,使用AP/BP-1,将增长百分比计算为从上一个平衡点(BP)到绝对高峰(AP)的百分比差异。这存储在图3B的循环数据结构中。在314,进入回升模式,并通过将存储在图3B的过程数据结构中的增长模式(GM)设置为假来开始寻找新的平衡点。这意味着下降幅度大于波顶,我们必须回升到平衡点,然后才能再次进入增长模式。
在315,该过程检查是否已经到达最后一个数据点,如果是,则该过程进行到结束。否则,过程进行到在316获得下一个数据点,并循环到304。
图3B中的数据结构是可用于存储、传输和对上述过程实现方案进行负载均衡的示例数据结构。数据点可以用X和Y值来表示。处理数据流可以使用各种状态变量,例如图3A所示的状态变量。单个循环可以由使用下降百分比的从局部最大值(绝对高峰)数据点到低谷数据点、随后是从平衡点到下一个局部最大值的增长百分比表示。数据流也可以在数据点具有各种指示符。循环和指示符一起构成整个压缩数据流,包括但不限于:
第N个下降百分比,接下来是
第N个增长百分比
第N个回升百分比可以从第N个下降百分比推出,因此不一定需要存储或传输。
优化压缩和汇总的水平
使用0%波顶(阈值)压缩数据流提供基线压缩(基线循环度量)。另一个波顶水平可以使用基线循环度量来计算。例如,2%的波顶可以考虑比基准循环度量大于2%的下降百分比。增长百分比可以缝合(例如,串接)在一起。例如,以下公式将从点A到点B与从点B到点C的增长百分比缝合在一起:增长百分比AC=1-(增长百分比AB+l)*(增长百分比BC+l)。
可以缓存使用各种波顶值压缩的数据流,以优化处理、减少延迟和降低功耗。例如,如果将3%的波顶应用于数据流,则使用如上所述的技术,缓存的2%的波顶值可用于计算3%的波顶。因此,可以使用波顶小于N%的压缩数据流来计算任何N%的波顶。缓存数据集提高了性能,因为如果没有它,每次用户更改波顶百分比时,都需要访问和重新处理数据流的每个数据点。数据流的压缩大小可以通过增加波顶百分比来减小。如果用户想要降低速度分布和传输的存储要求,他们可以选择更大的波顶百分比。
数据流子集
循环度量可以应用于数据流的子集。如果波顶保持不变,子集可以使用数据流中的循环度量。然而,端点可以表示相对于数据流的部分循环。在这种情况下,将重新计算针对部分端点的循环度量。
中间高峰和低谷被认为是针对子集数据流的绝对高峰和低谷。因此,如上所述,可以确定分析数据流的子集、放大数据流或计算的中间高峰和低谷。使用阈值重置线可以将大循环分成更小的循环,这将在下面进一步讨论。
客户端和服务器缓存、存储和负载均衡
循环度量可以在客户端或服务器上计算,如图1中102和107所示。循环度量的计算可以根据处理资源在客户端和服务器之间进行负载均衡。对于带宽较低的连接或处理能力有限的客户端,用户可以选择在服务器上计算循环度量,并将压缩数据发送给客户端。此外,可以在客户端和服务器之间传输、计算、缓存和/或存储针对各种波顶的循环度量。波顶越高,数据流的压缩越高,数据流被压缩得越紧。
基于该伪像集合计算循环度量可以包括将第一区域和第二区域进行比较以确定增长百分比,确定与关键伪像相关联的下降百分比;以及确定回升百分比。
数据流压缩和可视化
图4提供了根据示例实现方案的压缩数据流的可视化。
在点401,用户可以输入如ID1、ID2等的数据源的多个唯一标识符,。这些对应于在图1中的数据请求聚合器104处聚合并在服务器侧模块107检索的数据源ID。用户可以请求大量数据源ID。如点414所示,用户可以聚合这些ID并将它们与关键词或标签相关联。例如,ID1、ID2、ID3可能都与关键词#Tri相关联。将多个数据源与关键词相关联允许用户输入标识符(例如,点401的ID1、ID2、ID3),或者输入关键词(例如,#Tri),并且处理器将解析到相关联的数据流。处理器可以通过用一种或多种颜色、图标、关键词、关系数据或图形覆盖标记伪像集合来标记显示。
在点402,处理器确定数据流的起始点(起始X值)并且在403确定数据流子集的结束点。在点404或405,处理器可以接收输入(例如,用户输入)以指定压缩的波顶。点404“显示下降>%”是用X%的波顶压缩数据的直接请求,这将产生N个循环。点405“显示#次下降”动态确定波顶值,以在图表400上生成指定数目的循环。例如,如果有下降,在点405使用值3将在图表上示出3个循环的3次下降,不包括最后一个不完整的循环。
在点406,系统生成系统在402和403之间的总百分比变化。在一些示例中,使用用户指定的标记区域,如图1的数据压缩模块105和109所示。
点407代表新的绝对高峰,它是伪像,如图2在点205所示。在这个示例中,从高峰到低谷的百分比下降是-7.3%,这可以称为下降百分比。从点408处的低谷中,处理器确定7.9%的回升,这可以被称为回升百分比。从409处的平衡点,处理器确定到410处的下一个高峰的13.2%的收益,该收益可以被称为增长百分比。从点409到410,处理器确定没有出现5%或更多的下降;否则波顶会已经识别出新的循环。总的来说,下降百分比、回升百分比和增长百分比可以代表循环度量的一个循环。
在411示出了用户指定的间隔标记度量或指示符。这是代表间隔的两条垂直线之间数据点的百分比变化。如果数据流子集结束,并且结束点低于绝对高峰,则在点413示出从绝对高峰的百分比下降。在412还有另一个指示符,它表示从指示点到图表末尾的百分比变化。
用户可以指定该数据流的子集。例如,用户可以请求处理对应于2014至2015的数据流子集。用户可以有不止一个选项。例如,用户可以将402的起始点改变成2014,将403的结束点改变成2015。作为另一个示例,用户可以在图表上单击并拖动鼠标来突出显示2014到2015的时间间隔,图表将“放大”。从视觉上看,除了第一个循环和最后一个循环将被截断并需要重新计算之外,循环度量看起来是相同的。然而,如果用户放大并且在405的“显示#次下降”例如是5,则为放大的子集计算5个循环。
向后和/或向前处理算法
图5示出了具有大体向下倾斜的数据的数据流,该数据流在501处具有绝对高峰。因为数据没有另一个绝对高峰,所以循环永远不会回升,并且在向前运动中,使用图3中的过程实现方案,在峰值501之外没有计算出额外的循环度量。然而,需要注意的是,数据流可以向后处理,这显示了从图表的最右边到最左边的所有绝对高峰和循环度量。另一种观点是对图表的镜像进行成像,因此最后一个数据点首先开始,第一个数据点最后开始。因此,图3中的算法可以被向后、向前或以它们的某种组合处理。作为一个示例,绝对高峰501之前的所有数据点可以在向前运动中处理,并且所有剩余的数据点可以进行从最后一个数据点开始并在绝对高峰501处结束的向后处理,。
将循环和指示符与原因相关
图6示出了循环度量以及循环变化发生的相关联的基本或解释型的原因的表格。之后,将针对循环度量描述几个示例应用。循环度量的一个重要方面是将可能的原因与循环相关联、并且然后基于该下降将相关联的原因与几个数据流进行比较的能力。
例如,图9是心电图(EKG)数据流的示例应用。例如,心脏病发作可以与从绝对高峰904到低谷908的升高的下降百分比相关联,或者与在907的延长的(大于正常的)下降段百分比相关联。例如,在比较EKG数据流时,应用可以对行为进行绘图,以帮助确定哪些身体特征(例如,体重、性别和年龄)与EKG心脏病发作数据流的循环度量的变化相关。
作为另一个示例,图14示出了股票市场指数(例如标准普尔500指数)的历史市场数据,具有由2007年全球金融危机造成的下降百分比为1405。这是下降百分比变化的相关的解释型原因。例如,在比较金融数据流时,该应用可以对行为进行绘图,以帮助确定哪些投资总业绩良好,但在全球金融危机期间下降的百分比最小化。
根据压缩分辨率,原因描述符可以具有不同的相关性。使用这种有损数据压缩技术,从原始数据源中删除不必要细节的分辨率可以突出与原因相关的伪像。这有助于解释、分类、传输、处理和比较。
循环度量的可能原因可以包括但不限于网络攻击、心跳、事件开始、血压、心脏病发作、地震、病毒感染、全球变暖、人群受伤、金融危机、贬值、异常和回升、人口异常等。
在可视化过程中,这些原因可以对齐并呈现给用户进行解释。例如,可以分析具有相同原因的两个数据流的下降程度。通过这种方式,可以基于循环度量来分析对原因的不同反应。
比较压缩数据流
将数据流压缩为循环度量有许多优势。其中之一是比较数据流以了解差异、相似性和异常的能力。
可视化比较数据流的一种方法是生成循环度量,并将它们层叠在彼此之上或作为阴影,如图7所示。如果两个数据流一起显示,作为覆盖显示,或者以预定的偏移量显示在图表轴上,用户可以很容易地比较差异。考虑到这种差异,对每个数据集进行标准化是很重要的。这意味着开始和结束周期应该匹配,X轴上的间隔应该匹配,并且Y值可能需要适当地缩放以便进行公平的比较。在108,这些标准化在图1所示的数据标准化模块中完成。标准化后,用户可以比较流:例如,两个数据集的总百分比变化、数据集的间隔百分比变化、可能使相关数据集匹配的下降百分比,以及任何其他用户指定的度量或循环度量。
如图6所示,每个数据集出现下降百分比的原因可能相同。然而,下降的幅度可能不同。比较用户指定的度量和循环度量可以帮助用户理解这些差异。
图7将两个数据流与唯一标识符ID1和ID2进行比较。在点702,[ID1,ID2]用于表示比较图表。如点703所示,两个ID都以7%的波顶进行处理和压缩。这两个数据源都被标准化,因此它们从点701所示的相同的Y值开始。在第一个循环,两个数据集在704&705点的下降百分比都为-7.3%。然而,在706,ID1增长了13.2%,明显高于ID2在707的7.9%的增长。接下来,ID1在709下降了-17.5%,明显大于在709下降了-13%的ID2。
图8以不同的方式比较两个数据流。在点801,用户指定(50ID 1,50ID2)。这意味着50%的ID1被添加到50%的ID2以创建复合数据流。数据流ID1和ID2都在数据标准化模块108处标准化,并且循环度量是使用如802所示的3%的波顶在复合数据流上计算的。结果显示了这两个数据流一起的表现。图8可视化了具有用户指定的间隔和循环度量的复合数据流。
示例应用-EKG电势数据流
图9示出了EKG电势数据流,其中电势在Y轴上,时间在X轴上。图表上的点901表示绝对高峰,随后是902处的低谷、903处的平衡点和904处的新绝对高峰。使用这些关键伪像,可以计算循环度量,包括下降、回升和增长百分比。
当数据流越过905的阈值重置水平时,将阈值重置。此时,前一个绝对高峰被忽略,并且假设数据流可能无法回升到该水平。通常,906处的点将被分类为中间高峰;然而,因为阈值在905被重置,所以在906的高峰被重新分类为绝对高峰。
心脏病发作可以与从绝对高峰904到低谷908的上升的下降百分比相关联,或者与在907的延长(大于正常)下降段百分比相关联。例如,在比较EKG数据流时,人们可以问这样的问题:“诸如体重、性别和年龄等哪些身体特征会导致EKG数据流的循环度量发生变化,从而导致心脏病发作?”
在此硬件场景中,移动现场设备(MFD)针对任务关键型应用必须进行优化。如果在循环度量的计算和分析中存在任何网络延迟,MFD的处理速度可能不足,患者可能会死亡。此外,网络连接也可能是一个问题。在这个任务关键型应用中,客户端与服务器之间的负载均衡和计算工作分配是至关重要的。系统可能会确定完成工作的最快方法。
示例应用-地震活动数据流
图10示出了地震活动的地震记录。点1001表示阈值重置线。如果Y数据流低于该值,过程算法被重置,如图3所示。这意味着回升的下一个平衡点尚未确定。确定低谷和低谷后的下一个绝对高峰,而不考虑前一个绝对高峰。
点1002,即一些小点,示出了数据流的绝对高峰。点1003,三角形,示出了数据流的低谷。图表中间部分示出的大的下降百分比表明发生了地震。
应用示例-全球变暖数据流
图11示出了全球变暖的趋势,时间在X轴,温度在Y轴。实际测量的数据流可以与其他相关的数据流进行比较。在点1101有一个绝对高峰,温度在点1102达到平衡点,然后经历了从点1103的增长百分比。
应用示例-网络攻击数据流
图12示出了网络攻击数据流,其中不同的目标在Y轴上,时间在X轴上。绝对波顶和低谷显示在图表上。可以通过从绝对高峰向右画一条线并找到它相交的第一个数据点来找到平衡点。使用这些关键点,可以计算出循环:下降百分比、回升百分比和增长百分比。此外,可以为循环度量分配原因,并且可以将数据流与其他网络或其他日期进行比较。
应用示例-支付错误数据流
图13示出了一个数据流,其中错误在Y轴上,时间在X轴上。绝对波顶和低谷显示在图表上。平衡点将是与绝对高峰处于同一水平的第一个数据点。使用这些关键点,可以计算出循环,包括下降、回升和增长百分比。
例如,“正常”表现可能是错误发生并迅速得到解决。然而,如果错误数量激增,或者它们没有被快速解决,这可能是“异常”表现的指示。使用增长、下降和回升百分比,可以识别和可视化错误的“异常”表现。
应用示例-标普500市场数据流
图14A至图14C示出了从1950年到2016年年中标准普尔500(S&P500)的数据流。在点1401输入S&P 500的唯一标识符为^GSPC。该图表示出了大于点1402所示的15%波顶(例如,大于15%的下跌,也称为阈值)的S&P的所有下跌。图表显示了自1950年以来发生的每一场重大全球金融危机。例如,被称为黑色星期一的1987年崩溃在点1403示出,技术泡沫破裂在点1404示出,全球金融危机在点1405示出。点1406示出,从1950年1月4日到2016年8月4日,S&P总回报为12,848%。点1407处的垂直线表示光标正突出显示从点1405到1409的下跌。在1408,在标题中示出了该区域的循环度量。如图所示,绝对高峰出现在2007年10月9日,然后下跌-56.8%到2009年3月9日的低谷。点1409是下跌区域的低谷,然后S&P回升了131.3%,接着是39%的增长。
超过15%的每次下跌,都与市场中的一个基本问题有关。如图6所示,每个循环度量可以与一个原因相关联。然后,用户可以进行比较,并提出一些问题,如“哪些投资在全球金融危机期间业绩良好,总回报百分比也很高?”
用户可以在点1410使用自由格式文本获取他们对投资想法的描述。在接下来的示例中示出的描述中,用户可以使用关键词(如#Keyword)将^GSPC ID与其他ID的集合相关联。
图14B提供了图表中每个元素的进一步细节。图14C提供了可以在图14A的1401处的行情框中使用的一些选项的示例。这些示例使用符号SPY和综合债券ETF(AGG)作为示例。这些是公开交易的交易所交易基金(ETF)。SPY是S&P500指数的ETF。AGG是综合债券指数ETF。
示例应用-将稳健投资组合市场数据流与对冲市场数据流进行比较
图15示出了与对冲基金投资组合相比的稳健投资组合市场数据流。点1501使用带有“(60SPY,40AGG)HedgeX”的数据流的唯一标识符来识别请求。(60SPY,40AGG)是加法组合,如图8所示。从任意金额开始,比如说100美元,其中60%由SPY组成,40%由AGG组成。然后,复合投资组合随着每种基础证券的价格波动而变动。60%的股票和40%的债券投资组合通常被称为稳健金融投资组合。循环度量用于比较稳健投资组合和对冲基金。
对冲基金的唯一标识符是“HedgeX”,是使用基金公司的月度业绩数据手动加载的。使用图1中的离线数据加载器103将导入文件加载到系统中。点1502示出了压缩已经被处理以显示多达4次下跌。这意味着显示数据流的3次最大下跌,加上最后一个部分循环。
SPY和AGG是公开交易的ETF。这些投资的数据流提供日常数据。然而,HedgeX是非上市基金,仅每月提供业绩。点击“比较模式”改变X轴,使图表对齐。(60SPY,40AGG)投资组合的每日报价被转换为每月报价,因此报价与HedgeX每月报价相匹配。这发生在图1所示的数据标准化模块108中。然后,在标准化数据上计算循环度量。开始日期和结束日期也是对齐的。用户可以点击并拖动图表来放大和查看数据流子集。由于比较模式已打开,两个数据流以相同方式发生缩放。一旦发生缩放,循环度量被重新计算,从而如1502所示显示幅度最大的4次下跌。
点1505和1506是用户指定的指示符或“买入标记”。点1505示出了从该点到2016年5月31日图表末尾的9.5%的回报。相比之下,HedgeX的点1506示出从同一点到图表末尾的回报为22.4%。
一旦可视化,用户的大脑就更容易察觉哪个对冲基金业绩更好,下跌更少,这意味着投资组合风险更低。因此,对冲基金的风险/回报比稳健投资组合要好。
示例应用-预测数据分析工具
图16示出了可应用于任何应用、包括先前讨论的示例应用的预测数据分析工具。
给定确定压缩分辨率的特定波顶阈值,会发现几个伪像并计算循环度量。数据流的分析子集可用于统计或确定性地预测未来循环。
循环的关键部分可以被隔离。例如,在图16中的点1601和1602,可以识别下跌百分比。在点1603和1604,可以识别下跌段百分比。回升段百分比可以在点1605和1606被识别。可以在点1607和1608识别增长百分比。增长段百分比可以在点1609和1610被识别。
使用下跌、下跌段、回升段、增长和增长段的百分比的值,统计和/或确定性分析可用于预测未观察到的下一组下跌、下跌段、增长和增长段的百分比。在图16中,预测下跌百分比在1611示出,预测下跌段百分比在1612示出,预测回升段在1613示出,预测增长百分比在1614示出,预测增长段百分比在1615示出。
根据数据流的应用和性质,可以使用任何统计或其他方法来确定预测循环。例如,可以对下跌、下跌段、回升、增长和增长段的百分比求平均。在一些示例中,中值可用于预测循环,百分比的最坏情况可用于预测未观测循环的最坏情况,或者百分比可应用于概率分布曲线和基于指定概率预测的未观测循环。
处理环境
图17示出了适用于一些示例实现方案的示例环境。环境1700包括设备1705-1745,并且每个设备经由例如网络560(例如,通过有线和/或无线连接)通信连接到至少一个其他设备。一些设备可以通信连接到一个或多个存储设备1730和1745。
一个或多个设备1705-1745的示例可以是图18中描述的计算设备1805。设备1705-1745可以包括但不限于计算机1705(例如笔记本计算设备)、移动设备1710(例如智能手机或平板电脑)、电视1715、与车辆1720相关联的设备、服务器计算机1725、计算设备1735-1740、存储设备1730和1745。
例如,图9示出了对EKG电势数据流的分析。在这种环境下,用户具有如图17所示的平板电脑设备1710。平板电脑使用如图1所示的服务器进行计算。点107服务器可以是类似1725的设备。由于这是任务关键型应用,平板电脑可以在连接或不连接的环境中工作。相反,确定图12中的网络攻击不一定需要移动现场设备进行分析,因此,图1中的数据压缩模块109对数据流的计算和压缩可以在服务器上完成。一般而言,在一些实现方案中,设备1705-1720可以被认为是用户设备。设备1725-1645可以是与服务提供商相关联的设备。例如,用户(例如爱丽丝)可以在一个或多个设备1725-1745支持的社交网络上使用用户设备1705或1710来访问、查看和/或共享内容或网页。接收者(例如鲍勃)可以使用设备1715或1720访问和/或查看爱丽丝的共享内容。
图18示出了具有适用于一些示例实现方案的示例计算设备的示例计算环境。计算环境1800中的计算设备1805可以包括一个或多个的处理单元、内核或处理器1810,存储器1825(例如,RAM、ROM和/或类似设备),内部存储装置1820(例如,磁、光、固态存储装置和/或有机存储装置)和/或I/O接口1815,它们中的任何一个都可以耦合在通信机构或总线1830上用于传送信息,或者嵌入在计算设备605中。
计算设备1805可以通信地耦合到输入/用户接口1835和输出设备/接口1840。输入/用户接口1835和输出设备/接口1840之一或二者可以是有线或无线接口,并且可以是可拆卸的。输入/用户接口1835可以包括可用于提供输入的任何设备、组件、传感器或接口,物理的或虚拟的(例如,按钮、触摸屏接口、键盘、定点/光标控制器、麦克风、照相机、盲文、运动传感器、光学读取器等)。输出设备/接口1840可以包括显示器、电视、监视器、打印机、扬声器、盲文等。在一些示例实现方案中,输入/用户接口1835和输出设备/接口1840可以嵌入或物理耦合到计算设备1805。在其他示例实现方案中,其他计算设备可以充当或提用于计算设备1805的输入/用户接口1835和输出设备/接口1840的功能。
计算设备1805的示例可以包括但不限于高级移动设备(例如智能手机、车辆和其他机器中的设备、人类和动物携带的设备等)、移动设备(例如平板电脑、笔记本电脑、膝上型电脑、个人计算机、便携式电视、收音机等),以及不是为移动性而设计的设备(例如台式计算机、其他计算机、信息亭(information kiosk)、嵌入和/或耦合有一个或多个处理器的电视、收音机等)。
计算设备1805可以通信地耦合(例如,经由I/O接口625)到外部存储装置1845和网络1850,用于与任意数量的联网组件、设备和系统通信,后者包括相同或不同配置的一个或多个计算设备。计算设备1805或任何连接的计算设备可以充当或者称为服务器、客户端、瘦服务器、通用机器、专用机器或另一标签,或者提供其服务。
I/O接口1815可以包括无线通信组件(未示出),其便于通过语音和/或数据网络进行无线通信。无线通信组件可以包括具有一个或多个天线的天线系统、无线电系统、基带系统或其任意组合。在无线电系统的管理下,天线系统可以通过无线电发射和接收射频(RF)信号。
I/O接口1815可以包括但不限于有线和/或无线接口,其使用任何通信或I/O协议或标准(例如,以太网、802.11x、通用系统总线、WiMax、调制解调器、蜂窝网络协议等)来向和/或从计算环境1800中的至少所有连接的组件、设备和网络传送信息。网络1850可以是任何网络或网络组合(例如,互联网、局域网、广域网、电话网络、蜂窝网络、卫星网络等)。
计算设备1805可以使用计算机可用或计算机可读介质来使用和/或通信,后者包括暂时介质和非暂时介质。暂时介质包括传输介质(例如,金属电缆、光纤)、信号、载波等。非暂时介质包括磁介质(例如磁盘和磁带)、光学介质(例如CD ROM、数字视频光盘、蓝光光盘)、固态介质(例如RAM、ROM、闪存、固态存储装置)和其他非易失性存储装置或存储器。
计算设备1805可用于在一些示例计算环境中实现技术、方法、应用、过程或计算机可执行指令。计算机可执行指令可以从暂时介质中检索,并存储在非暂时介质上和从非暂时介质中获取。可执行指令可以源自任何编程、脚本和机器语言(例如,C、C++、C#、Java、Visual Basic、Python、Perl、JavaScript等)中的一种或多种。
处理器1810可以在原生或虚拟环境中的任何操作系统(OS)(未示出)下执行。可以部署一个或多个应用,其包括逻辑单元1760、应用编程接口(API)单元1865、输入单元1870、输出单元1875、客户端侧模块1880、数据请求聚合器1885、数据压缩模块1890和用于不同单元彼此通信、与OS通信以及与其他应用(未示出)通信的单元间通信机构1895。例如,客户端侧模块1880、数据请求聚合器1885、数据压缩模块1890可以实现图3至图8所示的一个或多个过程。所描述的单元和元件可以在设计、功能、配置或实现方案上变化,并且不限于所提供的描述。
在一些示例实现方案中,当信息或执行指令被API单元1865接收时,它可以被传送到一个或多个其他单元(例如,逻辑单元1860、输入单元1870、输出单元1875、客户端侧模块1880、数据请求聚合器1885、数据压缩模块1890)。例如,在输入单元1870检测到用户指示、反馈或数据源的ID的文本变化之后,输入单元1870可以使用API单元1865将用户指示传送给客户端侧模块1880。客户端侧模块1880通过API单元665与数据请求聚合器1885交互,以通过聚合数据源ID和通过网络1850与服务器通信并等待响应来检测和处理请求。
同时,服务器可以具有与图18中类似的计算设备环境。如图1所示,服务器可以从数据源请求原始数据,标准化数据,并将其传递给数据压缩模块,以生成具有例如0%波顶的循环度量。所得到的压缩数据然后可以传递回客户端计算设备数据请求聚合器1885。在客户端,压缩数据流可以被缓存在1820的内部存储装置中,或者被缓存在存储器1825中。使用API单元1865,客户端侧模块1880可以与数据压缩模块1890交互,以确定数据流是否应该被进一步压缩。
在一些实例中,逻辑单元1860在上述一些示例实现方案中可以被配置成控制单元之间的信息流,并且指导由API单元1865、输入单元1870、输出单元1875、客户端侧模块1880、数据请求聚合器1885、数据压缩模块1890提供的服务。例如,一个或多个过程或实现方案的流程可以由逻辑单元660单独或结合API单元665来控制。
这里描述的任何软件组件可以采取多种形式。例如,一个组件可以是独立的软件包,也可以是作为“工具”合并在更大的软件产品中的软件包。它可以从网络(例如网站)下载,作为独立产品或作为安装在现有软件应用中的附加包。它也可以作为客户端-服务器软件应用、网络支持的软件应用和/或移动应用提供。
本申请的方面包括但不限于:
将数据流压缩成一系列度量,包括但不限于,动态查找关键伪像,如高点(高峰点)、低点(低谷点)、平衡点、间隔点、用户指定点,以及生成这些伪像之间的百分比差异,这称为循环度量。
基于“显示下降>%”或“显示幅度在前的#次下降”动态生成循环和下降的数据流图表允许用户基于指定的波顶来动态控制数据压缩分辨率。
使用压缩数据和循环度量比较来自多个数据流的数据,以可视化风险和回报,例如在金融服务领域。通过比较,不同时间段的图表可以突出显示业绩不及指数的投资组合,并允许用户快速直观地看到业绩差异。对于业绩不佳的投资组合,下降将大于指数,总回报将小于不同时期的较低成本指数。
该系统还提供图表,这些图表提供业绩标记,以指示用户何时买入了投资以及从该点到图表末尾的回报百分比。用户可以使用图表描述字段中的标签来构建“观察列表”。
加速硬件和客户端和服务器之间的网络的算法。该工具允许循环的动态压缩和可视化快速发生。能够以优化的方式缓存循环和以不同的波顶动态压缩数据流。能够加载和平衡客户端和服务器之间的循环度量计算,以实现可视化。能够可视化显示数据流压缩结果。
本申请的其他方面包括但不限于:
一种解释复杂事件的方法,其包括接收关系数据的数据流;接收事件数据结构集合,其中每个事件数据结构描述复杂事件和与复杂事件相关联的循环度量;识别与事件数据结构集合相关联的关系数据中的位置;以及生成关系数据的显示,其中该显示包括基于一个或多个循环度量识别与一个或多个事件数据结构相关联的事件信息。
解释复杂事件的方法还可以包括事件数据结构集合,该事件数据结构集合包括以下一个或多个:基准伪像,指示与和复杂事件相关联的第二关系值相当的第一关系值;或者高峰伪像,指示复杂事件的相对变化,其中高峰伪像与在基准伪像之后的另一个临界点相关联。
解释复杂事件的方法还可以包括复杂事件,该复杂事件包括第一范围,该第一范围包括基准伪像和第一局部峰值;以及第二范围,该第二范围包括基准伪像和高峰伪像。
解释复杂事件的方法还可以包括,基于将关系数据的关系值与事件数据结构集合中的至少一个的关键值匹配来识别位置。
解释复杂事件的方法还可以包括,基于满足阈值的一个或多个循环度量来显示与一个或多个事件数据结构相关联的事件信息。例如,显示可以包括与超过5%的增长度量相关联的增长事件的事件信息。也就是说,显示可以包括针对在关系数据的选定范围内满足阈值的每个复杂事件的事件信息的覆盖。
解释复杂事件的方法还可以包括,基于一个或多个事件数据结构的一个或多个循环度量过滤的显示事件信息,以显示与选择的循环度量相关联的多个分级事件。例如,基于增长百分比的循环度量进行过滤可以显示具有最大增长百分比的排名靠前的几个增长事件。也就是说,显示可以包括针对关系数据中选定范围的前十个增长事件的覆盖。
本申请的其他方面包括但不限于:
一种非暂时性计算机可读介质,其包括指令,该指令由处理器执行时用于:接收关系数据的数据流;检测数据流中的与关系数据中的临界点相关联的伪像;由处理设备分析伪像以确定与复杂事件相关联的伪像集合,其中临界点是复杂事件的端点;基于伪像集合计算一个或多个循环度量;生成描述复杂事件和循环度量的数据结构;以及提供数据结构以便基于循环度量用复杂事件来标记关系数据的显示。
该非暂时性计算机可读介质还可以包括伪像集合,该伪像集合包括基准伪像,其指示可与和伪像相关联的关系值相当的关系值;高峰伪像,其指示基于伪像的相对变化,其中高峰伪像与在基准伪像之后的另一个临界点相关联;并且处理器还用于:基于伪像和基准伪像识别第一范围,其中第一范围包括第一局部峰值;基于基准伪像和高峰伪像识别第二范围。
该非暂时性计算机可读介质还基于伪像集合计算一个或多个循环度量,该处理器还用于:比较第一区域和第二区域以确定增长百分比;确定与伪像相关联的下降百分比;以及确定回升百分比。
该非暂时性计算机可读介质还可以包括处理器,用于将数据结构传输到能够访问数据流的远程设备,其中远程设备用于基于数据结构显示用伪像集合标记的关系数据,并基于所识别的位置生成用事件信息标记的关系数据的显示。
显示循环度量标记的替代示例
图19示出了循环度量的示例界面显示。在示例实现方案中,图19示出了显示循环度量,例如作为图4所示图表的扩展。循环度量可以包括下降百分比、回升子循环、增长子循环、业绩标记等。如图19中的示例所示,下降百分比在循环的底部,识别并自动标记在点1901。与下降百分比相关联的回升被识别并自动标记在点1902。从用正方形指示的点到向上指的三角形的增长被识别并自动标记在点1903。点1904还标识从图表范围的开始到第一个向上指的三角形的增长百分比。在一个示例中,用户可以通过选择类别来与数据系统交互,例如,在1905点击大盘混合型的链接。该界面呈现了与显示的当前数据流具有一个或多个相似特征的其他参考数据流的示例。通过使用带有标记的循环度量的投资数据流的界面,向用户提供了金融数据的分析特征,以容易且轻松地识别具有最小下降(风险)和最高回报(报酬)的证券。在1905选择类别名称提供了具有与正在显示的当前证券相当的特征的证券的其他参考示例。例如,所选类别可以识别具有相当特征的参考证券,该参考证券可能具有相当或更好的风险和报酬特征。点1906示出了数据流的业绩标记。它示出了从该点到图表末尾的证券或数据流的业绩。这提供了另一个显示循环度量和相关伪像的示例。在另一个示例中,点1906在图14B中可以被称为“买入标记”。在点1907,可以通过观察列表将add添加到数据流中,这将参考图22进一步讨论。观察列表有助于用户跟踪最新循环上的标签。例如,图19示出了标记为“增长”的最右边的循环。在当前循环的表现或业绩发生变化时(增长、下降、回升、稳定等),标签可以改变以在监视列表上这样指示。
示例显示和比较数据流
图20示出了根据一个或多个示例实现方案的示例数据流。在一个示例中,数据流和循环度量可以被比较以识别所期望的,并且可以与参考图6讨论的显示集成。图20的左侧示出了被比较的证券或数据流,例如,S&P 500。系统能够基于循环度量定位其他证券,例如,最小化循环下降而最大化整体回报的证券。该界面提供了如图20右侧所示的关于ETF和共同基金的建议列表。例如,如果用户与系统进行交互并选择了AUEIX,则在S&P 500和AUEIX之间对相关统计数据进行比较。如果用户希望可视化两种证券或数据流之间循环度量的差异,用户可以点击“绘制图表”。
显示与循环度量相关的报告
图21示出了根据一个或多个示例实现方案的循环度量和研究报告之间的相关性的示例。例如,循环度量和研究报告之间的相关性可以用来预测数据流的移动。点2101标识并标记向上指的绿色三角形,以反映额外的数据,例如,一位研究分析师写了一份报告,建议对房地产行业进行增持分配。当与系统交互时,用户可以将他或她的鼠标悬停在这个三角形上,并且界面可以提供额外数据(例如,研究分析师写的关于房地产行业的内容)。点2102是建议指示符。例如,用均等符号表示的推荐指示符可以用来表示研究分析师写了一份报告,为房地产行业推荐“持股观望”分配。用户可以将光标悬停在符号上,显示器可以呈现推荐数据(例如,分析师写的文本)。点2103将推荐指示符图示为向下指的红色三角形,该三角形可用于指示研究分析师写了一份报告,建议对房地产行业进行减持分配。用循环度量覆盖在图表上的研究报告提供了许多好处。系统可以确定研究分析师报告的历史质量,以及基于研究分析师的专家分析而呈现的标记信息,该标记信息传达了循环度量可能如何变化。这对应于参考图16讨论的预测数据分析。
最新循环度量的当前状态观察列表
图22示出了根据一个或多个示例实现方案的显示循环度量的阶段的示例观察列表。例如,一个观察列表显示循环度量的最新阶段,如增长、稳定、下降、回升等。该界面可视化随时间变化的数据流。例如,如果最后一个循环能够动态地改变界面,则识别并标记状态,以帮助财务决策制定。例如,如果每天向数据流中添加新的数据点,新的数据点可能会改变最近一个循环的状态。点2201显示,NKTR股票目前正在上涨,这意味着它在过去12至24个月内创下新高。如果用户与系统交互并悬停在点2201上,则界面呈现分析,例如自数据流达到新高以来的天数。
为了简洁地定义当前循环的增长状态,系统确定要分析多少数据,以动态确定波顶阈值来定义当前循环的变化。对于图22中的观察列表,作为示例,分析从1月1日开始的至少一年的数据。例如,如果图19中最右边的数据点表示当前日期,则观察列表分析从2016年1月1日开始直到包括该范围的当前日期(例如,从2016年到2017年当前日期的所有数据)的循环度量。循环度量确定历史数据的下降,并且例如,我们可以使用第二最大下降作为针对当前循环状态变化的波顶阈值。
如果当前数据点在计算的历史波顶阈值的例如30%的阈值内,那么当前增长状态可以被识别并标记为稳定,如点2202所示。如果用户在单词“稳定”上悬停,系统将显示用于确定当前循环状态的波顶阈值。在这个示例中,历史波顶阈值是-3.7%。如果当前数据点比最后一个峰值低至少-3.7%,则观察列表上的状态可以自动实时更新,以将标记或状态更改为下降。如果用户与系统交互并悬停在2202处单词“稳定”上,则界面将状态显示为稳定在22天前峰值的-3.7%内。
如果当前数据点下降到计算的历史波顶阈值以下,则状态变为下降,如点2203所示。循环可以保持在下降状态,同时继续下降到阈值以下。在另一个示例中,如果当前数据点高于自上一个高峰以来的最低值的阈值(例如,30%),则它的状态可以改变为回升,如点2204所示。当用户悬停在在2204处单词“回升”上时,界面显示计算的达到新高所需的增长量。
观察列表的关键点示出最新循环度量的当前状态。用户可以基于该状态做出决策。对于投资,用户可以根据当前循环状态决定买入、卖出或持有投资。
虽然仅示出和描述了几个示例实现方案,但是提供这些示例实现方案是为了向熟悉该领域的人传达在此描述的主题。应当理解,这里描述的主题可以以各种形式实现,而不限于所描述的示例实现方案。这里描述的主题可以在没有那些具体定义或描述的内容或者以未被描述的其他的或不同的元素或内容的情况下实施。熟悉本领域的人员将会理解,在不脱离如所附权利要求及其等同物中定义的本文所述的主题的情况下,可以在这些示例实现方案中做出改变。

Claims (12)

1.一种用于有损数据压缩的方法,包括:
接收数据流;
接收多个事件数据结构,其中每个事件数据结构描述具有一个或多个循环的复杂事件和与所述复杂事件的所述一个或多个循环相关联的一个或多个度量,其中所述复杂事件包括包含基准伪像和第一局部峰值的第一范围,以及包括所述基准伪像和高峰伪像的第二范围,
其中所述多个事件数据结构包括以下各项中的一个或多个:
所述基准伪像,指示与和所述复杂事件相关联的第二关系值相当的第一关系值;以及
所述高峰伪像,指示所述复杂事件的相对变化,其中所述高峰伪像与在所述基准伪像之后的另一个临界点相关联,
其中对于基于伪像的集合计算一个或多个度量,比较所述第一范围和所述第二范围以确定增长百分比,确定与所述伪像相关联的下降百分比,以及确定回升百分比;
识别所述数据中的与所述多个事件数据结构相关联的位置;以及
生成所述数据的显示,其中所述显示包括基于所述一个或多个度量来识别与一个或多个事件数据结构相关联的事件信息;
接收另一数据集合的另一流;
生成具有所述另一数据集合的所述数据的显示,以可视化所述流以及所述另一流中的离散差异;以及
在所述显示的区域进行放大并确定一个或多个与所述一个或多个循环相关联的新度量,用于识别事件信息,以用基于输出设备的分辨率和大小的分辨率和细节水平显示所述数据流的子集,
其中所述显示和包括与一个或多个事件数据结构相关联的事件信息的所述输出设备的所述分辨率是基于满足阈值的一个或多个度量,所述阈值与在所述复杂事件中的所述一个或多个循环的数量反向关联且和与在所述输出设备上的所述复杂事件的显示相关联的分辨率直接相关联,其中所述数据流通过处理器压缩以生成压缩数据流,所述压缩是通过基于所述输出设备上显示的期望分辨率和以下的一种或两种来将非必要数据从所述数据流移除:(1)与所述处理器相关联的云服务器的速度和当前负载、(2)网络的带宽、和(3)在客户端上基于所述输出设备的大小和分辨率以及所述客户端的类型的所述处理器的速度,以及
其中包含局部最大点或局部最小点的所述高峰点基于所述阈值被界定,所述阈值包括用于显示在所述输出上代表有损压缩系统的较低分辨率的较高阈值以及用于显示在所述输出上代表所述有损压缩系统的较高分辨率的较低阈值,以控制与所述输出设备的大小和分辨率相关联的可视化覆盖细节,以便将噪声数据与基本数据分开,其中对于包括耦合至所述云服务器的所述客户端的网络架构,所述云服务器和所述客户端各维持数据压缩模块的副本,用于以优化所述网络架构的性能的方式来均衡所述客户端和所述云服务器之间的处理负载,且所述数据压缩模块的输入包括所述阈值,其从多个数据源和所述客户端及所述云服务器之间所传送的大量数据控制在所述输出设备上与所述压缩数据流的显示相关联的分辨率。
2.根据权利要求1所述的方法,其中识别位置是基于将所述数据的关系值与所述多个事件数据结构中的至少一个的关键值进行匹配。
3.根据权利要求1所述方法,其中基于所述一个或多个事件数据结构的一个或多个度量来过滤所显示的事件信息,以显示与所选择的一个或者一个或多个度量相关联的多个分级事件。
4.根据权利要求1所述的方法,其还包括:
识别所述另一数据集合中的与所述多个事件数据结构相关联的位置,其中识别所述另一数据集合中的位置包括标准化所述另一数据集合;以及
生成包括具有所述另一数据集合的所述数据的标准化数据的显示,以在所述标准化数据的点显示事件信息。
5.根据权利要求1所述的方法,其中基于一个或多个度量的事件信息的所述显示包括标签、关键词或颜色中的一种或多种。
6.根据权利要求1所述的方法,其中所述多个事件数据结构是从不同于所述流的源接收的。
7.根据权利要求1所述的方法,其中所述客户端包括移动现场设备、笔记本电脑、移动手机、平板电脑中的一种或多种。
8.根据权利要求1所述的方法,其中对于相较于所述客户端和所述网络具有较快处理速度的云服务器,以减少需由所述客户端接收且处理的所述大量数据的方式在具有所述较低分辨率和所述较高阈值的所述云服务器上处理压缩算法。
9.根据权利要求1所述的方法,其中对具有足够的处理速度的客户端,转移所述处理负载至所述客户端。
10.根据权利要求1所述的方法,其中对相较于所述客户端具有较快处理速度的网络和云服务器,所述云服务器预处理并压缩具有所述较高分辨率的数据是以保持所述一个或多个循环且提供所述经压缩的数据至所述客户端的方式,用以基于从用户的输入处理。
11.根据权利要求1所述的方法,其中在低带宽环境下,所述较高阈值用于滤除非必要数据以优化通过所述网络的传输。
12.根据权利要求1所述的方法,其中所述客户端被配置成动态改变所述数据流的分辨率,用以基于所述压缩数据流的缓存版本来显示在所述输出设备上。
CN201780087785.2A 2016-12-30 2017-12-29 使用关键伪像和动态生成的循环进行有损数据压缩的方法 Active CN110383242B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/395,398 US10509788B2 (en) 2016-12-30 2016-12-30 Systems and methods for lossy data compression using key artifacts and dynamically generated cycles
US15/395,398 2016-12-30
PCT/US2017/069001 WO2018126165A2 (en) 2016-12-30 2017-12-29 Systems and methods for lossy data compression using key artifacts and dynamically generated cycles

Publications (2)

Publication Number Publication Date
CN110383242A CN110383242A (zh) 2019-10-25
CN110383242B true CN110383242B (zh) 2021-03-23

Family

ID=62710984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780087785.2A Active CN110383242B (zh) 2016-12-30 2017-12-29 使用关键伪像和动态生成的循环进行有损数据压缩的方法

Country Status (5)

Country Link
US (3) US10509788B2 (zh)
CN (1) CN110383242B (zh)
AU (1) AU2017387129B2 (zh)
GB (1) GB2572927A (zh)
WO (1) WO2018126165A2 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190238154A1 (en) * 2018-01-31 2019-08-01 Hewlett Packard Enterprise Development Lp Dynamic data compressions

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1666528A (zh) * 2002-07-05 2005-09-07 阿斯佩克特斯有限公司 在大量并行图像序列中有效进行事件检测的方法和系统
CN101260804A (zh) * 2007-03-05 2008-09-10 普拉德研究及开发有限公司 用于井数据压缩的系统和方法
WO2016081778A1 (en) * 2014-11-20 2016-05-26 Blast Motion Inc. Video and motion event integration system

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020130868A1 (en) 2000-11-28 2002-09-19 Aston Guardian Limited Method and apparatus for providing financial instrument interface
JP2002340671A (ja) 2001-05-11 2002-11-27 Shimadzu Corp ピークデータ表示方法、データ処理装置及び分析装置
US7565441B2 (en) * 2001-07-23 2009-07-21 Romanik Philip B Image transfer and archival system
EP2082317A4 (en) 2006-10-31 2010-10-06 Execue Inc SYSTEM AND METHOD FOR DISTRIBUTING REQUESTS TO A GROUP OF DATABASES AND ACCELERATING ACCESS TO DATA
KR20090103873A (ko) 2006-12-28 2009-10-01 톰슨 라이센싱 자동 시각 아티팩트 분석 및 아티팩트 축소를 위한 방법 및 장치
US8036971B2 (en) 2007-03-30 2011-10-11 Palantir Technologies, Inc. Generating dynamic date sets that represent market conditions
US9058281B2 (en) 2012-06-01 2015-06-16 Seagate Technology Llc Allocating memory usage based on quality metrics
DE102013211571B4 (de) 2013-06-19 2016-02-11 Opticom Dipl.-Ing. Michael Keyhl Gmbh Konzept zur bestimmung der qualität eines mediadatenstroms mit variierender qualität-zu-bitrate
US9092854B2 (en) 2013-07-30 2015-07-28 Hewlett-Packard Indigo B.V. Metrics to identify image smoothness
WO2016038585A1 (en) * 2014-09-12 2016-03-17 Blacktree Fitness Technologies Inc. Portable devices and methods for measuring nutritional intake
US9989672B2 (en) * 2014-09-29 2018-06-05 Here Global B.V. Method and apparatus for determining weather data confidence

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1666528A (zh) * 2002-07-05 2005-09-07 阿斯佩克特斯有限公司 在大量并行图像序列中有效进行事件检测的方法和系统
CN101260804A (zh) * 2007-03-05 2008-09-10 普拉德研究及开发有限公司 用于井数据压缩的系统和方法
WO2016081778A1 (en) * 2014-11-20 2016-05-26 Blast Motion Inc. Video and motion event integration system

Also Published As

Publication number Publication date
GB201910853D0 (en) 2019-09-11
US20200089683A1 (en) 2020-03-19
GB2572927A (en) 2019-10-16
AU2017387129A1 (en) 2019-08-15
US10509788B2 (en) 2019-12-17
WO2018126165A3 (en) 2018-08-09
US20180189353A1 (en) 2018-07-05
WO2018126165A2 (en) 2018-07-05
AU2017387129B2 (en) 2022-10-13
US11775531B2 (en) 2023-10-03
US11086880B2 (en) 2021-08-10
CN110383242A (zh) 2019-10-25
US20210357413A1 (en) 2021-11-18

Similar Documents

Publication Publication Date Title
US20200118311A1 (en) Systems and interactive user interfaces for dynamic retrieval, analysis, and triage of data items
US20150127595A1 (en) Modeling and detection of anomaly based on prediction
US9244887B2 (en) Computer-implemented systems and methods for efficient structuring of time series data
US9087306B2 (en) Computer-implemented systems and methods for time series exploration
US20160117373A1 (en) Data Segmentation and Visualization
WO2019184228A1 (zh) 保险产品配置方法、装置、计算机设备及存储介质
US10636086B2 (en) XBRL comparative reporting
WO2016209213A1 (en) Recommending analytic tasks based on similarity of datasets
US10915602B2 (en) Automatic detection of outliers in multivariate data
US10915586B2 (en) Search engine for identifying analogies
US10552996B2 (en) Systems and techniques for determining associations between multiple types of data in large data sets
US11144793B2 (en) Incremental clustering of a data stream via an orthogonal transform based indexing
Lapura et al. Development of a University Financial Data Warehouse and its Visualization Tool
CN110383242B (zh) 使用关键伪像和动态生成的循环进行有损数据压缩的方法
WO2024129718A1 (en) Systems and methods for aggregating time-series data streams based on potential state characteristics following aggregation
US20190205341A1 (en) Systems and methods for measuring collected content significance
US10460010B2 (en) Computing scenario forecasts using electronic inputs
CN116737495A (zh) 运行状态确定方法、装置、计算机设备和存储介质
CN114495137B (zh) 票据异常检测模型生成方法与票据异常检测方法
CN108763253B (zh) 一种投资组合的大数据可视化系统与方法
JP7530143B2 (ja) コグニティブ対応ブロックチェーン・ベースのリソース予測
US20190034479A1 (en) Automatic selection of neighbor lists to be incrementally updated
US20140337323A1 (en) Methods and computing systems for generating and operating a searchable consumer market research knowledge repository
CN111198816B (zh) 一种异常算法的识别方法及设备
Pradeep Kumar et al. Fog Data Analytics: Systematic Computational Classification and Procedural Paradigm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant