CN102985917B - 不确定时间序列之间的相似性的广义符号表示 - Google Patents

不确定时间序列之间的相似性的广义符号表示 Download PDF

Info

Publication number
CN102985917B
CN102985917B CN201180033950.9A CN201180033950A CN102985917B CN 102985917 B CN102985917 B CN 102985917B CN 201180033950 A CN201180033950 A CN 201180033950A CN 102985917 B CN102985917 B CN 102985917B
Authority
CN
China
Prior art keywords
time series
data
time
difference
data value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201180033950.9A
Other languages
English (en)
Other versions
CN102985917A (zh
Inventor
S·R·萨朗吉
K·穆尔蒂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN102985917A publication Critical patent/CN102985917A/zh
Application granted granted Critical
Publication of CN102985917B publication Critical patent/CN102985917B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Abstract

一种用于发现多个时间序列之间的距离的方法,其中多个时间序列中的每个个体时间序列包括数据,其中数据是不确定数据,该方法包括:从多个时间序列选择至少两个时间序列;计算在给定时刻的两个序列之间的第一差值;将第一差值与值表进行映射;使用值表来计算第二差值,其中第二差值是时间序列之间的相似性的测量。

Description

不确定时间序列之间的相似性的广义符号表示
技术领域
本发明涉及标识多个时间序列之间的距离。
背景技术
用于相似性搜索和数据挖掘的距离测量经常聚焦于不确定数据,比如从传感器网络产生的数据。然而,近来已经转向认识到在许多应用领域中应当捕获并且考虑这样的数据的不确定性。但是,没有许多方式应对时间序列或者流传输数据。
通常,与时间序列中的不同时隙对应的值具有不同误差贡献。需要一种用于执行数据挖掘任务、比如时间序列聚类和分类的技术。常规距离度量无法对不确定数据有效。
论文″Aframeworkforclusteringuncertaindatastreams″(C.C.Aggarwal和P.S.Yu,2008)提出一种用于对不确定数据流聚类的框架。该论文假设已知关于不确定性的一些统计量。基于这一点而创建微聚类,并且在新数据点到来时基于预计相似性值来动态更新微聚类。这一方式因此不适用于一般数据挖掘任务。
论文″Probabilisticsimilaritysearchforuncertaintimeseries″(J.Aβfalg、H.Kriegel,P.Krger和M.Renz.,SSDBM,2009)和″Proud:Aprobabilisticapproachtoprocessingsimilarityqueriesoveruncertaindatastreams″(M.Yeh、K.Wu、P.S.Yu和M.Chen,EDBT,2009)介绍了用于时间序列数据的概率有界范围查询(PBRQ)的符号表示。给定距离界限e和概率阈值τ,如果两个时间序列之间的距离的概率等于或者小于e等于或者大于τ,则认为这两个时间序列相似。这是一种相似性搜索的方式。
Aβfalg等人假设时间序列的不确定性由在每个时隙的采样集合代表。因此,不确定时间序列T代表规律性时间序列S(T)的集合,其中通过针对每个时隙挑选一个采样点来构造每个规律性时间序列。两个不确定时间序列T1与T2之间的距离被定义为在来自S(T1)和S(T2)的所有组合之间的距离的集合。并非所有应用领域针对每个时隙提供多个采样点。这一方式也未在计算上高效。
Mi-YenYeh等人的方式处理的是针对数据流的不确定性。将在每个时间点的不确定性建模为仅均值和标准差已知的连续随机变量。在两个时间序列之间的距离是随机变量。这足以用于计算概率有界范围查询的结果,但是它不允许直接计算在两个时间序列之间的距离。这一方式的另一限制在于,为了使PBRQ的计算更高效并且允许及早削减候选,而假设不确定偏差对于序列的所有时间点而言相同。
美国专利公开US20090327185″SystemsforStructuralClusteringofTimeSequences″公开了一种将两个时间序列中的误差分布的非线性纳入考虑之中的距离函数。通过确立与接收的时间序列数据有关的结构特征、确定在不同时间序列之间的距离,并且基于该距离将不同时间序列分割成包含时间序列中的至少一个时间序列的聚类,从而在不同时间序列之间执行结构聚类。
美国专利公开US20100002538″DeterminingtheStructureofaTowedSeismicSpreadElement″公开了一种在确定在地震源之间的位置/距离中考虑读数/测量值的非高斯误差分布的方法。
美国专利公开US20090222472″MethodandApparatusforAggregationinUncertainData″公开了一种通过考虑一阶和二阶误差统计量来计算在误差引起的值之间的距离的特征。
美国专利公开US20030093227″StatisticalCombiningofCellExpressionProfiles″公开了一种特征,其中距离函数通过使用来自多个重复实验的数据来考虑值中的误差分布的非线性,以生成针对每个数据点的置信度值、增加灵敏度并且消除系统性实验偏置。
生成不确定数据的基于传感器的系统变得越来越重要。另外,传感器在工业控制系统中发挥重要作用。在多数情况下,存在与传感器关联的某一误差量。没有用于处置不确定数据中误差的有效技术就不可能高效处理并且有效使用传感器数据。
发明内容
本发明的实施例主要地涉及一种用于发现在多个时间序列之间的距离的方法、系统和计算机程序产品,其中多个时间序列中的每个个体时间序列包括数据,并且其中时间序列的数据值是不确定的。从多个时间序列选择至少两个时间序列。计算在给定时刻的两个序列之间的差值,并且在计算的差值与值表之间进行映射。使用值表来计算新差值,并且使用差值来计算距离值,其中距离值是对时间序列之间的相似性的测量。提供计算的新距离值作为例如有利地用于与可以与其它时间序列相关联的数据挖掘任务的输入。还公开了其它实施例。
根据第一方面,本发明相应地提供一种用于发现在多个时间序列之间的距离的方法,其中多个时间序列中的每个个体时间序列包括数据,其中数据是不确定数据,该方法包括:从多个时间序列选择至少两个时间序列;计算在给定时刻两个序列之间的第一差值;映射第一差值与值表;使用值表来计算第二差值,其中第二差值是对时间序列之间的相似性的测量。
根据第二方面,本发明相应地提供一种至少包括处理器和存储器的数据处理系统,该系统被配置用于发现在多个时间序列之间的距离,其中多个时间序列中的每个个体时间序列包括数据,其中数据是不确定数据,该系统包括:选择器,用于从多个时间序列选择至少两个时间序列;第一计算部件,用于计算在给定时刻两个序列之间的第一差值;映射器,用于映射第一差值与值表;第二计算部件,用于使用值表来计算第二差值,其中第二差值是对时间序列之间的相似性的测量。
根据第三方面,本发明相应地提供一种包括计算机程序代码的计算机程序单元,该计算机程序代码在向计算机系统中加载并且在计算机系统上被执行时使计算机执行如上文描述的方法的步骤。
附图说明
将参照以下附图仅通过示例描述本发明的优选实施例:
图1是图2至图5中所示一般实施例可以实施于其上的、至少包括处理器和存储器的诸如计算机系统之类的数据处理系统的一个示例性实施例;
图2是根据本发明一个一般实施例的典型传感器网络设置和从多个传感器收集数据的方法的一个示例性实施例;
图3是根据本发明一个一般实施例的方法的流程图的一个示例性实施例;
图4是根据本发明一个一般实施例的方法的流程图的一个示例性实施例;并且
图5是根据本发明一个一般实施例的方法的流程图的一个示例性实施例。
具体实施方式
在对于附图中的具有相同标号的步骤和/或特征的任一幅或者多幅图进行参考时,除非出现相反意图,那些步骤和/或特征出于本说明书的目的而具有相同功能或者操作。
“计算机”或者“数据处理系统”意指任何能够如下操作的设备:执行方法、如这里描述的那样产生压缩位图、或者在多个压缩位图之间和在压缩与未压缩位图之间执行逻辑比较,在如这里公开的那样,该设备包括但不限于:微处理器、微控制器、数字状态机、现场可编程门阵列(FPGA)、数字信号处理器、具有微处理器和模拟或者数字输出设备的共同定位式集成存储器系统、具有由数字或者模拟信号协议连接的微处理器和逻辑或者数字输出设备的分布式储存器系统。
“计算机可读介质”意味着可以由计算机处理以执行这里描述的步骤以产生、存储全球联盟混合压缩位图、对该位图执行逻辑操作或者传输该位图的任何有组织信息源,包括但不限于:磁可读存储系统;光学可读存储介质,比如直接方法或者光学字符识别方法可读取的打孔卡或者印刷物质;其它光学存储介质,比如紧致盘(CD)、数字万用盘(DVD)、可重写CD和/或DVD;电可读介质、比如可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、现场可编程门阵列(FPGA)、快闪随机存取存储器(flashRAM);以及通过电磁或者光学方法(包括但不限于无线传输、铜线和光纤)远程传输的信息。
本发明一实施例的一种计算机可读介质具有存储于其上的用于执行方法的一个或者多个计算机程序。该计算机可读介质可以是可读数据存储介质或者另一类型的有形计算机可读介质。该方法确定一个或者多个第一处理器是否具有小于阈值的第一任务利用率。第一处理器具有部分地绑定到该第一处理器的一个或者多个第一任务,从而第一处理器默认执行第一任务。第一任务利用率是第一处理器在执行第一任务时的利用率。响应于确定第一任务利用率小于阈值,该方法使已经向第二处理器组迁移的一个或者多个第一任务迁移回第一处理器组。如果这不可能,则使当前在一个或者多个第二处理器上执行的一个或者多个第二任务向第一处理器迁移,从而使得第一处理器执行第二任务。
本发明的另一实施例的一种计算机可读介质也具有存储于其上的用于执行方法的一个或者多个计算机程序。该计算机可读介质可以是可读数据存储介质或者另一类型的有形计算机可读介质。该方法确定一个或者多个第一处理器是否具有小于一个阈值的第二任务利用率。第一处理器具有部分地绑定到第一处理器的一个或者多个第一任务,从而第一处理器默认执行第一任务。第一处理器当前执行已经迁移到第一处理器并且未部分地绑定到第一处理器的一个或者多个第二任务。第二任务利用率是第一处理器在执行第二任务的利用率。响应于确定第二任务利用率小于阈值,该方法使当前在第一处理器上执行的第二任务向一个或者多个第二处理器迁移,从而使得第二处理器执行第二任务。
图1示出了用于实施如图2至图5中所示示例数据流程实施例所使用的下文称为计算机系统的数据处理系统的具体示意图。计算机系统100至少包括处理器104。应当理解,虽然图1图示了单个处理器,但是本领域技术人员将理解可以如需要的那样包括多个处理器。处理器104连接到通信基础架构102(例如通信总线、交叉杆(cross-overbar)或者网络),其中通信基础架构104被配置成有助于在示例计算机系统100的各种单元之间的通信。根据这一示例计算机系统来描述各种软件实施例。在阅读本说明书之后,如何使用其它计算机系统和/或计算机架构来实施本发明将变得为本领域普通技术人员所清楚。
示例计算机系统100可以包括显示接口108,该显示接口108配置成转发来自通信基础架构102(或者来自未示出的帧缓冲器)的图形、文字和其它数据用于在显示单元110上显示。计算机系统100也包括主存储器106(可以是随机存取存储器(RAM))并且也可以包括辅存储器112。辅存储器112可以例如包括硬盘驱动器114和/或可拆卸存储驱动器116,该可拆卸存储驱动器代表软盘驱动器、磁带驱动器、光盘驱动器等。可拆卸存储驱动器116以本领域普通技术人员公知的方式从可拆卸存储单元118读取和/或向可拆卸存储单元118写入。可拆卸存储单元118例如代表由可拆卸存储驱动器116读取和写入的软盘、磁带、光盘等。如将理解的那样,可拆卸存储单元118包括计算机可用存储介质,该计算机可用存储介质具有存储于其中的计算机软件和/或数据。
在示例性实施例中,辅存储器112可以包括用于允许向计算机系统中加载计算机程序或者其它指令的其它相似装置。这样的装置可以例如包括可拆卸存储单元122和接口120。这样的装置的示例可以包括程序盒和盒接口(比如在视频游戏设备中发现那样)、可拆卸存储器芯片(比如EPROM或者PROM)和关联插口以及其它可拆卸存储单元122和允许从可拆卸存储单元122向计算机系统100传送软件和数据的接口120。
计算机系统100也可以包括通信接口124。通信接口124允许在计算机系统与外部设备之间传送软件和数据。通信接口124的示例可以包括调制解调器、网络接口(比如以太网卡)、通信端口、PCMCIA槽和卡等。经由通信接口124传送的软件和数据是以信号的形式,这些信号可以例如是能够由通信接口124接收的电子、电磁、光学或者其它信号。经由通信路径(也就是信道)126向通信接口124提供这些信号。信道126携带信号,并且可以使用接线或者线缆、光纤、电话线、蜂窝电话线、RF链路和/或其它通信信道来实施。
参照公开的实施例,术语“计算机程序介质”、“计算机可用介质”和“计算机可读介质”用来一般指代介质,比如主存储器106和辅存储器112、可拆卸存储驱动器116、安装于硬盘驱动器114中的硬盘和信号。这些计算机程序产品是用于向计算机系统提供软件的装置。计算机可读介质允许计算机系统从计算机可读介质读取数据、指令、消息或者消息分组和其它计算机可读信息。计算机可读介质例如可以包括非易失性存储器,比如软盘、ROM、闪存、盘驱动存储器、CD-ROM和其它持久储存器。它例如可以用来在计算机系统之间传送信息,比如数据和计算机指令。另外,计算机可读介质可以包括暂时状态介质中的计算机可读信息,该暂时状态介质比如是网络链路和/或网络接口,包括允许计算机读取这样的计算机可读信息的有线网络或者无线网络。
计算机程序(这里也称为计算机控制逻辑)存储于主存储器106和/或辅存储器112中。也可以经由通信接口124接收计算机程序。这样的计算机程序在被执行时可以使计算机系统能够实现如这里讨论的本发明示例性实施例的特征。具体而言,计算机程序在被执行时使处理器104能够执行计算机系统100的特征。因而,这样的计算机程序代表计算机系统的控制器。
上文公开的实施例可以实施为一种涉及到软件、固件、微代码、硬件(比如逻辑、存储器)和/或其任何组合的方法、装置或者制造品。这里所用的术语“制造品”指代介质中实施的代码或者逻辑和存储器,其中这样的介质可以包括硬件逻辑和存储器[例如集成电路芯片、可编程门阵列(PGA)、专用集成电路(ASIC)等]或者诸如磁存储介质(例如硬盘驱动器、软盘、带等)之类的计算机可读介质、光学储存器(CD-ROM、光盘等)、易失性和非易失性存储器设备[例如电可擦除可编程只读存储器(EEPROM)、只读存储器(ROM)、可编程只读存储器(PROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、固件、可编程逻辑等]。计算机可读介质中的代码由处理器访问和执行。代码或者逻辑被编码于其中的介质也可以包括通过空间或者诸如光纤、铜线等传输介质传播的传输信号。
传输信号(其中编码了代码或者逻辑)还可以包括无线信号、卫星传输、无线电波、红外线信号、蓝牙、因特网等。代码或者逻辑被编码于其中的传输信号能够由发送站发送并且由接收站接收,其中可以在接收和发送站或者设备的硬件或者计算机可读介质中解码并且存储被编码在传输信号中的代码或者逻辑。此外,“制造品”可以包括在其中实现、处理并且执行代码的硬件与软件部件的组合。当然,本领域技术人员将认识到可以进行许多修改而未脱离实施例的范围,并且制造品可以包括任何信息承载介质。例如制造品包括存储介质,该存储介质具有存储于其中的在由机器执行时导致操作被执行的指令。
某些实施例可以采用全硬件实施例、全软件实施例或者包含硬件与软件单元二者的实施例的形式。在一个优选实施例中,在包括但不限于固件、常驻软件、微代码等的软件中实施本发明。除非另有指明,则相互通信的单元无需相互连续通信。此外,相互通信的单元可以直接或者通过一个或者多个中介间接通信。此外,对若干部件相互通信的实施例的描述未意味着需要所有这样的部件。恰好相反,描述多种可选部件以举例说明广泛多种可能实施例。
本发明一实施例的一种系统包括处理器和计算机可读介质。将处理器组织成处理器组。每个处理器组具有分配至其中的一个或者多个处理器。计算机可读介质用于存储用于每个处理器组的本机任务列表、外来任务列表和迁移任务列表。本机任务是如下那些任务,这些任务已经部分向处理器组绑定,从而处理器组的处理器默认执行本机任务。注意本机任务列表未包含存在于迁移任务列表中的任务。外来任务是如下那些任务,这些任务已经部分地绑定到不同处理器组、但是已经暂时迁移到处理器组,从而处理器组的处理器暂时执行外来任务。迁移任务是处理器组的如下那些本机任务,这些任务已经暂时从处理器离开而向不同处理器组迁移,从而使得不同处理器组的处理器暂时执行迁移任务。
现在参照图2,该图图示了根据本发明的一般实施例的典型传感器网络设置和用于从多个传感器收集数据的方法的一个示例性实施例。典型传感器201...20N说明了耦合到数据库的网络中的多个传感器的网络设置,其中N是整数。存在多个传感器201...20N,因此如果每个传感器产生传感器值,例如可以将这些传感器值或者数据值记录为时间序列,则对于多传感器网络产生多个传感器值。在步骤210优选地按照时间或者按照传感器在网络中的位置将传感器产生的传感器值聚合成时间序列。在步骤220中,可以在贮存库中存储针对多个传感器收集的各种时间序列。在步骤230中,如果需要附加时间序列数据,则可以向传感器产生请求或者可以对传感器编程以定期送入可以被聚合、然后在贮存库中存储的传感器值。
图3是根据本发明一个一般实施例的方法的流程图的一个示例性实施例。图3图示了用于任何业务智能应用的典型流程,该业务智能应用将使用由传感器产生的时间序列数据。在步骤310中,首先初始化业务应用。在步骤320中,配置应用以对贮存库中可用的时间序列数据迭代。在步骤330中,进行检查以确定在贮存库中是否有任何附加时间序列数据。如果无附加数据,则向用户提供输出360。如果在贮存库中存在可用的附加时间序列数据,则在步骤340中从贮存库中的多个时间序列数据选择至少两个时间序列数据并且计算在两个时间序列数据之间的距离。在步骤350中处理并且聚合作为结果的计算距离,并且在步骤360中向用户提供输出。用于时间序列数据的多数业务智能应用在时间序列数据库内迭代(步骤320)并且计算在两个时间序列之间的距离(步骤340)。这样的业务智能应用的示例包括分类、k最近邻居搜索和motif检测。
图4是根据本发明一般实施例的方法的流程图的一个示例性实施例,该流程图图示了用于对时间序列数据的最近邻居搜索的示例工作流程。在步骤410中,读取输入时间序列(TS),将针对该TS发现最近邻居(也就是与TS具有最小距离的时间序列TS’)。在步骤420中,将最小距离设置成最大值,并且将最终保持TS的最近邻居的结果变量NN设置成空值。在步骤430中,对所有时间序列(TS’)执行迭代,其中时间序列TS是将针对其发现最近邻居的时间序列,并且TS’相继地取所有其它时间序列的值。在步骤440中,进行检查以确定在贮存库中是否有任何附加时间序列。如果无任何新时间序列,则在步骤470中输出最近邻居NN。如果在贮存库中有附加新时间序列,则在步骤450中计算在时间序列TS与TS’之间的距离,并且在步骤460中,如果距离小于最小距离,则将距离设置为最小距离并且将最近邻居NN设置成TS’。
图5是根据本发明一个一般实施例的方法的流程图的一个示例性实施例。所示图5基于欧几里得(Euclidean)距离的修改,但是也可以与动态时间弯曲(DTW)距离结合使用。在步骤510中,对时间序列T1和T2接收作为输入。在步骤520中,将距离d设置成零,并且规范化时间序列T1和T2。在步骤530中,选择在时间序列中的给定时刻的数据值。对于每对时间序列,将这一数据值表示为T1.v和T2.v。在步骤540中,计算在两个数据值T1.v与T2.v之间的距离d2。在550中,基于为当前数据值对而选择的误差函数,选择适当的查找表。在步骤560中,对查找表执行二元搜索以在查找表中对d1的正确段定位。一旦从查找表确定d1,在步骤570中基于该段的起点和斜率计算距离值d2。在步骤580中,计算d2的平方并且将计算的d2的平方与距离d相加。在步骤590中,向用户提供d的平方根。
另外,虽然可以按照依次顺序描述过程步骤、方法步骤等,但是这样的过程、方法和算法可以被配置成按照替代顺序工作。换而言之,可以描述的任何步骤序列或者顺序未必指示要求按照该顺序执行步骤。可以按照任何实际顺序执行这里描述的过程步骤。另外,可以同时、并行或者并发执行一些步骤。另外,可以在运行时间模式中执行一些或者所有步骤。
除非另有指明,则措词“某些实施例”、“一实施例”、“实施例(单数)”、“实施例(复数)”、“该实施例(单数)”、“该实施例(复数)”、“一个或者多个实施例”、“一些实施例”和“一个实施例”意味着一个或者多个(但是并非所有)实施例。除非另有指明,则措词“包括”、“具有”及其变化意味着“包括但不限于”。除非另有指明,上述枚举的多项的列表并不意味着这些项中的任何或所有项都是互相排斥的。除非另有指明,则措词“一(个/种)”和“该/所述”意味着“一个或者多个”。
一个或者多个计算机程序在本文中意味着指令集的以任何语言、代码或者符号表示的任何表达,该指令集旨在于使具有信息处理能力的系统直接执行或者在以下操作中的任一操作或者两个操作之后执行特定功能:a)向另一语言、代码或者符号表示转换;b)以不同材料形式再现。
虽然已经具体描述本发明的示例性实施例,但是应当理解可以对其进行各种改变、替换和变更而未脱离如所附权利要求限定的本发明的精神实质和范围。可以在每个特定应用所希望的任何组合中实现针对本发明的示例性实施例而描述的变化。因此,并非所有应用需要使用可以对于特定应用具有特定优点的、这里描述的特定限制和/或实施例增强。无需在包括关于本发明的示例性实施例描述的一个或者多个概念的方法、系统和/或装置中实施所有限制。

Claims (20)

1.一种用于发现多个时间序列之间的距离的方法,其中所述多个时间序列中的每个个体时间序列包括数据,其中所述数据是不确定数据,所述方法包括:
从多个时间序列选择至少两个时间序列;
计算在给定时刻两个序列之间的第一差值;
将所述第一差值与值表进行映射;
使用所述值表来计算第二差值,其中所述第二差值是对所述时间序列之间的相似性的测量。
2.如权利要求1所述的方法,还包括:提供新距离作为针对与任何其它时间序列相关联的数据挖掘任务的输入。
3.如权利要求1所述的方法,其中计算所述第一差值包括:计算来自第一时间序列的第一数据值与来自第二时间序列的第二数据值之间的差值。
4.如权利要求3所述的方法,其中针对多对所述第一时间序列中的第一数据值和所述第二时间序列中的第二数据值而计算所述第一差值。
5.如权利要求4所述的方法,其中所述第一时间序列中的所述第一数据值和所述第二时间序列中的所述第二数据值总是在相同时刻出现于所述第一时间序列和所述第二时间序列中。
6.如权利要求1所述的方法,其中所述值表是查找表。
7.如权利要求6所述的方法,其中所述查找表是动态生成的。
8.如权利要求1所述的方法,其中所述多个时间序列存储于贮存库中。
9.如权利要求3所述的方法,还包括为所述第一数据值和所述第二数据值确定误差函数。
10.如权利要求9所述的方法,其中基于所述误差函数分配适当的值表。
11.一种用于发现多个时间序列之间的距离的数据处理系统,其中所述多个时间序列中的每个个体时间序列包括数据,其中所述数据是不确定数据,所述系统包括:
选择器,用于从多个时间序列选择至少两个时间序列;
第一计算部件,用于计算在给定时刻两个序列之间的第一差值;
映射器,用于将所述第一差值与值表进行映射;
第二计算部件,用于使用所述值表来计算第二差值,其中所述第二差值是对所述时间序列之间的相似性的测量。
12.如权利要求11所述的系统,还包括用于提供新距离作为针对与任何其它时间序列相关联的数据挖掘任务的输入的装置。
13.如权利要求11所述的系统,其中所述第一计算部件还可操作用于通过计算来自第一时间序列的第一数据值与来自第二时间序列的第二数据值之间的差值来计算所述第一差值。
14.如权利要求13所述的系统,其中所述第一计算部件还可操作用于针对多对所述第一时间序列中的第一数据值和所述第二时间序列中的第二数据值而计算所述第一差值。
15.如权利要求14所述的系统,其中所述第一时间序列中的所述第一数据值和所述第二时间序列中的所述第二数据值总是在相同时刻出现于所述第一时间序列和所述第二时间序列中。
16.如权利要求11所述的系统,其中所述值表是查找表。
17.如权利要求16所述的系统,其中所述查找表是动态生成的。
18.如权利要求11所述的系统,其中所述多个时间序列存储于贮存库中。
19.如权利要求13所述的系统,还包括用于为所述第一数据值和所述第二数据值确定误差函数的装置。
20.如权利要求19所述的系统,其中基于所述误差函数分配适当值表。
CN201180033950.9A 2010-07-09 2011-07-08 不确定时间序列之间的相似性的广义符号表示 Expired - Fee Related CN102985917B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/833,055 2010-07-09
US12/833,055 US8407221B2 (en) 2010-07-09 2010-07-09 Generalized notion of similarities between uncertain time series
PCT/EP2011/061630 WO2012004387A2 (en) 2010-07-09 2011-07-08 Generalized notion of similarities between uncertain time series

Publications (2)

Publication Number Publication Date
CN102985917A CN102985917A (zh) 2013-03-20
CN102985917B true CN102985917B (zh) 2016-06-01

Family

ID=44512812

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180033950.9A Expired - Fee Related CN102985917B (zh) 2010-07-09 2011-07-08 不确定时间序列之间的相似性的广义符号表示

Country Status (3)

Country Link
US (1) US8407221B2 (zh)
CN (1) CN102985917B (zh)
WO (1) WO2012004387A2 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120109563A1 (en) * 2010-10-29 2012-05-03 President And Fellows Of Harvard College Method and apparatus for quantifying a best match between series of time uncertain measurements
US8494995B2 (en) * 2010-11-17 2013-07-23 International Business Machines Corporation Systems and methods for dynamically reconfiguring predictive analytics within workflows using selective user feedback
CN104516900A (zh) * 2013-09-29 2015-04-15 国际商业机器公司 用于多个序列数据的聚类方法及其装置
CN103488790A (zh) * 2013-10-08 2014-01-01 河海大学 基于加权borda计数法的多元时间序列相似分析方法
CN107491458B (zh) * 2016-06-13 2021-08-31 阿里巴巴集团控股有限公司 一种存储时间序列数据的方法和装置以及系统
US11244224B2 (en) * 2018-03-20 2022-02-08 International Business Machines Corporation Comparing time series data using context-based similarity
US10884644B2 (en) * 2018-06-28 2021-01-05 Amazon Technologies, Inc. Dynamic distributed data clustering
US20220156321A1 (en) * 2020-11-18 2022-05-19 Alibaba Group Holding Limited Distance measurement for time series

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1685345A (zh) * 2002-11-01 2005-10-19 三菱电机株式会社 用于挖掘视频内容的方法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5822728A (en) * 1995-09-08 1998-10-13 Matsushita Electric Industrial Co., Ltd. Multistage word recognizer based on reliably detected phoneme similarity regions
US6400853B1 (en) * 1997-03-19 2002-06-04 Canon Kabushiki Kaisha Image retrieval apparatus and method
US6351712B1 (en) 1998-12-28 2002-02-26 Rosetta Inpharmatics, Inc. Statistical combining of cell expression profiles
US6526405B1 (en) * 1999-12-17 2003-02-25 Microsoft Corporation Determining similarity between event types in sequences
US20030165924A1 (en) * 2000-04-05 2003-09-04 Dov Shiffman Genes expressed in foam cell differentiation
US6673549B1 (en) * 2000-10-12 2004-01-06 Incyte Corporation Genes expressed in C3A liver cell cultures treated with steroids
US6834266B2 (en) * 2001-10-11 2004-12-21 Profitlogic, Inc. Methods for estimating the seasonality of groups of similar items of commerce data sets based on historical sales data values and associated error information
RU2007114059A (ru) * 2004-09-14 2008-10-27 Интиллектчуал Проперти Бэнк Корп. (Jp) Чертежное устройство для схемы взаимосвязи документов, компонующее документы в хронологическом порядке
US7996073B2 (en) * 2004-10-13 2011-08-09 International Business Machines Corporation System and method for interpreting electrocardiograms
US20060100969A1 (en) * 2004-11-08 2006-05-11 Min Wang Learning-based method for estimating cost and statistics of complex operators in continuous queries
US7369961B2 (en) * 2005-03-31 2008-05-06 International Business Machines Corporation Systems and methods for structural clustering of time sequences
US7617010B2 (en) * 2005-12-28 2009-11-10 Microsoft Corporation Detecting instabilities in time series forecasting
US7711734B2 (en) * 2006-04-06 2010-05-04 Sas Institute Inc. Systems and methods for mining transactional and time series data
US8090161B2 (en) * 2006-06-19 2012-01-03 Christiane Kaplan Systems and method for signature verification
US7880749B2 (en) * 2007-01-31 2011-02-01 Business Objects Software Ltd. Apparatus and method for data charting with an extensible visualization library
US20080235222A1 (en) * 2007-03-21 2008-09-25 Aleksandra Mojsilovic System and method for measuring similarity of sequences with multiple attributes
US8290921B2 (en) * 2007-06-28 2012-10-16 Microsoft Corporation Identification of similar queries based on overall and partial similarity of time series
US8494941B2 (en) * 2007-09-25 2013-07-23 Palantir Technologies, Inc. Feature-based similarity measure for market instruments
WO2009100133A1 (en) * 2008-02-04 2009-08-13 University Of Virginia Patent Foundation System, method and computer program product for detection of changes in health status and risk of imminent illness
US20090216611A1 (en) * 2008-02-25 2009-08-27 Leonard Michael J Computer-Implemented Systems And Methods Of Product Forecasting For New Products
US8005839B2 (en) 2008-02-28 2011-08-23 International Business Machines Corporation Method and apparatus for aggregation in uncertain data
US9207347B2 (en) 2008-07-05 2015-12-08 Westerngeco L.L.C. Determining the structure of a towed seismic spread element
JP5387578B2 (ja) * 2008-09-24 2014-01-15 日本電気株式会社 情報分析装置、情報分析方法、及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1685345A (zh) * 2002-11-01 2005-10-19 三菱电机株式会社 用于挖掘视频内容的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Clustering Seasonality Patterns in the Presence of Errors;Mahesh Kumar等;《http://delivery.acm.org/10.1145/780000/775129/p557-kumar.pdf》;20020726;第1-8页 *

Also Published As

Publication number Publication date
WO2012004387A3 (en) 2012-09-13
US8407221B2 (en) 2013-03-26
US20120011155A1 (en) 2012-01-12
CN102985917A (zh) 2013-03-20
WO2012004387A2 (en) 2012-01-12

Similar Documents

Publication Publication Date Title
CN102985917B (zh) 不确定时间序列之间的相似性的广义符号表示
CN111210269B (zh) 基于大数据的对象识别方法、电子装置及存储介质
CN109772714A (zh) 货物拣选方法及装置、存储介质、电子设备
US9576072B2 (en) Database calculation using parallel-computation in a directed acyclic graph
US10474938B2 (en) Inventory management system
JP2006196001A (ja) 識別子認識方法、識別子送信方法及び識別子認識システム
CN111144950B (zh) 模型筛选方法、装置、电子设备及存储介质
KR102559290B1 (ko) 하이브리드 클라우드 기반의 실시간 데이터 아카이빙 방법 및 시스템
JP2022000770A (ja) 情報処理システム、情報処理方法、サーバ、情報処理プログラム、及びブロックチェーンデータ構造
CN106649210B (zh) 一种数据转换方法及装置
CN110781818A (zh) 视频分类方法、模型训练方法、装置及设备
CN114743132A (zh) 一种目标算法的选取方法、装置、电子设备及存储介质
CN102508839B (zh) 数据处理装置和方法
US20140317113A1 (en) Tabular data parsing in document(s)
CN112286460A (zh) 基于生存者寿命预测来优化垃圾收集
CN111784402A (zh) 基于多通路的下单率预测方法、设备及可读存储介质
CN112036579A (zh) 多分类模型自学习在线更新方法、系统及装置
CN112131274A (zh) 时间序列异常点的检测方法、装置、设备及可读存储介质
CN109583583B (zh) 神经网络训练方法、装置、计算机设备及可读介质
US20210042766A1 (en) Intelligent cloud delivery and billing method and system for logistics apparatus
US20210117858A1 (en) Information processing device, information processing method, and storage medium
CN101533396A (zh) 一种记录查询历程的查询系统及其方法
US20130054599A1 (en) Dynamically Generated List Index
US20200320054A1 (en) Computer program for providing database management
CN113546849A (zh) 订单信息处理方法、装置、电子设备和计算机可读介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160601

CF01 Termination of patent right due to non-payment of annual fee